CN111164947A

CN111164947A - 用于对音频和/或视频数据进行编码的方法和设备

Info

Publication number: CN111164947A
Application number: CN201880064476.8A
Authority: CN
Inventors: Y·胡梅达; I·凯格尔
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2017-08-14
Filing date: 2018-08-14
Publication date: 2020-05-15
Also published as: EP3669509B1; US11240283B2; EP3669509A1; US20210037080A1; WO2019034640A1

Abstract

公开了选择用于对要从发送方经由网络流传输到接收方的音频和/或视频数据进行编码的编码规范的方法和设备。还公开了用于使用所选编码规范对数据进行编码并且用于将已经使用所选编码规范进行编码的数据从发送方经由网络流传输到接收方的方法和设备。该选择方法包括：根据先前使用关于受监视网络在处于多个不同网络条件(87)的每个网络条件时的多个不同编码规范获得的性能度量(86)来选择编码规范(s930)，各个网络条件通过数据传输特性的不同组合来表征。

Description

用于对音频和/或视频数据进行编码的方法和设备

技术领域

本发明涉及对音频和/或视频数据进行编码的方法和设备，并且尤其涉及选择用于对要从发送方经由网络流传输到接收方的音频和/或视频数据进行编码的编码规范的方法和设备。

背景技术

互联网语音协议(通常称为“IP语音”、“VoIP”或“IP电话”)涉及通过互联网协议(IP)网络(诸如互联网)传递语音和其它音频通信(并且还涉及包括音频分量的多媒体会话)，而不是简单地经由公用电话交换网(PSTN)提供。

尽管与VoIP会话有关的某些步骤和概念通常与传统数字电话相似，并且涉及信令、信道设置、模拟语音信号的数字化以及编码，但是在VoIP会话的情况下，代替在诸如PSTN的电路交换网络上传输数字信号，数字信息被打包，然后该传输涉及在诸如互联网的分组交换网络上传输IP分组。IP分组使用媒体传输协议有效地传输音频流，该协议利用音频编解码器(和/或在可应用时利用视频编解码器)对音频数据(和在可应用时对视频数据)进行编码，音频(和/或视频)编解码器是用于对音频(和/或视频)数据的数字流进行编码和/或解码的装置或计算机程序。存在各种编解码器，它们基于诸如应用需求和网络带宽的问题来优化媒体流。有些依赖窄带和压缩话音，而另一些则支持高保真立体声编解码器。

VoIP在互联网和电信服务提供商向其客户提供的音频(和多媒体)通信服务中扮演着越来越重要的角色。许多VoIP服务是在专用网络上提供的，可以仔细控制这些专用网络的参数，以确保保持呼叫质量符合预期需求。然而，如今，许多VoIP服务都涉及跨互联网提供接入，从而使客户能够使用公共可用网络或低成本宽带连接。

在接入网内，可以使用服务质量(QoS)技术对VoIP进行优先级排序，其中来自其它服务的竞争可能会影响呼叫质量。然而，VoIP服务的固有灵活性，特别是如果在移动装置上使用软件电话(即，从计算机而不是从专用电话硬件通过IP网络进行电话呼叫的基于软件的应用)接入，意味着许多呼叫完全承载在“Over The Top，OTT)”上(即，经由互联网而无需运营商控制或分发内容)，或者对于其端到端旅程的某些部分可能不按优先级排序。

VoIP系统和音频技术通常通过它们在存在特定分组丢失和抖动的情况下的性能来表征。服务提供商在设计和操作服务时使用该信息，以尝试确保网络损伤决不超过可能导致呼叫质量明显下降的水平。

然而，端到端网络性能取决于许多因素，诸如装置硬件和配置、操作环境、一天中的时间以及QoS或其它损失减轻技术的可用性。结果，通常很难基于统计平均值和纯粹基于实验室的测试来预测特定技术的真实影响。

服务提供商使用一系列商业VoIP监视工具。Broadsoft提供的一种称为“PacketSmart”的技术允许使用客户端侧的物理测试装置(即，探针)来详细检查各个语音呼叫的流量统计信息。该技术不允许批量导出呼叫数据，因此需要针对每个探针手动查看每个呼叫。VisualWare和Empirix提供的其它VoIP监视工具也可以用于以更灵活的方式捕获来自VoIP呼叫的数据。这些工具对于诊断服务问题可能很有用，但不能深入了解不同技术选择如何影响其测量结果。

“SamKnows”技术通过在大客户样本的前提下使用专用探针为全球宽带接入网提供性能基准。这可以使用RTP控制协议(RTCP)从独立探针和局域网(LAN)网关装置进行测量，以测量短脉冲上的平均分组丢失、抖动和往返延迟，并且可以为非常短的呼叫提供VoIP性能的证据，但是无法预测不同技术选择的影响。(注意：“RTP”是指“实时传输协议”，其中RTCP是姐妹协议。

ITU建议书G.1050提供了用于评估互联网上的多媒体传输性能的网络模型。它通过创建干扰流量流并且将其与网络交换机的模拟模型中的测试流进行组合来工作。从经验数据中得出的干扰流量流被组合在一系列损伤配置文件中。该模型既可以使用离散事件软件模拟器运行，也可以在某些基于硬件的实时网络仿真器上运行。因为G.1050将经验数据库用于干扰流量，所以其用户必须依靠它来提供他们自己的网络环境的足够近似。

题为“Dynamic VoIP codec selection based on link attributes at callsetup(基于在呼叫建立时的链路属性的动态VoIP编码器选择)”的美国申请US7768998(Everson等人)描述了一种为VoIP呼叫选择语音编解码器的方法，该方法基于代理服务器，该代理服务器测试其本身与两个客户端中的每个之间的网络连接质量。

题为“Methods,systems,and computer readable media for selecting acodec pair based on network conditions(用于基于网络条件选择编解码器对的方法、系统和计算机可读介质)”的US20130156119(Poulin)公开了用于为试图通过数字通信网络进行通信的两个节点选择编解码器对的方法和系统。通过获得针对两个节点的两个性能指标来实现编解码器选择，然后将这些指标用于生成或更新编解码器选择模型。一个模块测量性能指标，其可以考虑诸如分组丢失、端到端延迟和抖动的因素，并且可以被配置为使用与通信节点进行通信的外部探针或使用标准化协议(诸如RTCP-XR)来获得这些指标。编解码器选择模型可以基于可用带宽、路由成本或使用E模型的语音质量估计。

论文“Subjective VoIP speech quality evaluation based on networkmeasurements(基于网络测量的主观VoIP话音质量估计)”by Lakaniemi,A.,Rosti,J.&Raisanen,V.I.,IEEE International Conference on Communications(ICC2001),Vol.3,pp.748-752(可在http://ieeexplore.ieee.org/stamp/stamp.jsp？arnumber＝937339在线获得)公开了一种针对代表国内(中等距离)和国际(远距离)连接的模拟流量流使用可靠的主观话音质量测试来测量VoIP服务质量的方法。

题为“Optimizing the quality of audio within a teleconferencingsession via an adaptive codec switching(经由自适应编解码器切换优化电话会议会话内的音频质量)”的US20150200826(Assem等人)涉及VoIP电话领域，并且尤其涉及经由自适应编解码器切换来优化电话会议会话内的音频质量。

如今，在VoIP服务内实现了各种音频编解码器，并且即使在比特率非常低的情况下，现有技术的编解码器和相关技术也可以提供音频质量的显著改善，并且增强了对分组丢失和抖动的适应能力。此外，电信提供商正在开发集成了固定和移动语音服务并且可以利用现有技术的编解码器特征的融合IP网络。然而，为这样的编解码器及其之间的互操作性提供支持通常以多种方式使成本高昂，诸如以下：

-可能需要在网络中提供转码资源，以允许呼叫利用不同编解码器发起和终止。(注意：转码是将使用一个编码器编码或压缩(或使用编码器的一种编码规范编码/压缩)的数据直接地、通常是数字到数字地转换为编码或压缩的数据，该数据可以由不兼容、不关联或另外不同的解码器解码(或者可以使用解码器的不兼容、不关联或另外不同的解码规范解码的数据)。当流传输的通信会话中的一个参与者使用的编解码器与该通信会话中的另一参与者使用的编解码器不同时，通常需要进行转码。)

-对于客户端装置，现有技术编解码器的处理要求通常更高。

-某些编解码器需要支付许可费。

在存在网络损伤的情况下确保VoIP性能是提供商实现融合VoIP服务的重要挑战。然而，通常只能提供非常有限的信息来帮助他们针对其特定网络环境做出最佳选择。这是因为在VoIP服务上执行的测试通常仅产生针对非常短持续时间内的诸如分组丢失和抖动的损伤的平均统计信息。此外，传统上，音频编解码器的性能是使用不同水平的随机分组丢失作为比较基准的，这不太可能代表实际用于承载VoIP流的网络的真实行为。

发明内容

根据本发明的第一方面，提供了一种选择用于对要从发送方经由网络流传输到接收方的音频和/或视频数据进行编码的编码规范的方法，该方法包括：

关于处于多个受监视网络条件中的每个受监视网络条件下的受监视网络，获得关于多个不同编码规范中的每个编码规范的性能度量，各个受监视网络条件由至少两个不同类型的数据传输特性的不同组合表征，关于处于特定受监视网络条件下的所述受监视网络并且关于特定编码规范的性能度量通过关于使用所述编码规范编码并且经由处于所述受监视网络条件下的所述受监视网络流传输的音频和/或视频数据应用预定性能测量处理来获得；

关于随后要将音频和/或视频数据从发送方流传输到接收方的网络，获得关于所述网络的所述至少两个不同类型的数据传输特性，并且根据关于要流传输所述数据的所述网络获得的所述至少两个不同类型的数据传输特性并且根据表征处于所述受监视网络条件中的对应受监视网络条件下的所述受监视网络的所述至少两个不同类型的数据传输特性的组合，来选择对应受监视网络条件；以及

选择用于对要流传输的所述数据进行编码的编码规范，所述编码规范的选择是根据使用关于处于所选择的对应受监视网络条件下的所述受监视网络的所述多个编码规范获得的性能度量来进行的。

本发明的实施方式关于双方VoIP会话以及多方VoIP音频会议和其它场景使用。然而，一般而言，适当编码规范的选择可能涉及(a)针对每个参与者单独选择编码规范(用于关于该参与者与网桥或其它这样的会议中心实体的通信使用，因此其应主要基于该参与者与网桥或其它这样的会议中心实体之间的网络)；(b)选择针对整个音频会议会话的编码规范(这可以关于每个参与者与网桥或其它这样的会议中心实体的通信使用，因此应主要基于包括到每个参与者的链路的网络)。例如，可以独立地选择不同编码规范，每个选择都基于所涉及的网络或网络链路之一，或者可以考虑所涉及的不同网络或网络链路中的多于一个来选择“最匹配”编码规范。

特别地，本发明的实施方式特别是关于双向通信会话使用，但是也可以用于针对单向通信会话选择适当编码规范。在这样的情况下，适当编码规范的选择可能涉及根据上述方法选择针对“发送”方的编码规范，并且还可能涉及选择针对“接收”方的解码规范，针对“接收”方的解码规范的选择主要取决于或甚至完全取决于针对“发送”方作出的编码器规范的选择。在可应用的情况下，可以为各方选择相同“编解码器”。

通常，哪种解码规范将用于针对要成为“接收”方的各方/任一方的选择至少将主要取决于针对“发送”方选择的编码规范，因为在理想情况下，解码规范将是针对“发送”方用于其编码而选择的编解码器规范的解码器部分。例如，如果“接收”方无法使用同一编解码器的解码器部分(出于兼容性原因或其它原因)，或者由于不同编解码器更适用于“接收”方(因为它也是“发送”方，其自身的编码考量超出了其解码考量)，则解码规范可能需要与针对“发送”方选择的编码规范不同。如果需要不同，则针对各方做出单独“编码规范”决定，然后根据相应编码规范选择适当转码器(如果必要)可能是适当的。

根据优选实施方式，借以表征网络条件的数据传输特性的组合可以包括选自以下的一个或更多个特性：

-与通信速度相关联的特性；

-与通信延迟和/或延迟变化相关联的特性；

-与可靠性相关联的特性；

-与数据丢失(例如“突发分组丢失”)相关联的特性；

-与通信质量相关联的特性。

根据优选实施方式，随后要流传输音频和/或视频数据的网络可以是在获得性能度量的步骤中监视的网络。另选地，可以使用单独的可能专用测试网络，其可以是可配置为对具有数据传输特性的各种不同组合的各种不同网络条件进行仿真的网络。

根据优选实施方式，所述方法还可以包括：选择用于对已经经由网络从发送方朝向接收方流传输的音频和/或视频数据进行解码的解码规范。在这样的实施方式中，可以根据被选择用于对要从发送方经由网络流传输到接收方的所述音频和/或视频数据进行编码的编码规范来选择解码规范。

根据优选实施方式，可以通过应用多个预定性能测量处理中的所选预定性能测量处理来获得关于特定编码规范、关于受监视网络获得的性能度量，要关于特定编码规范应用的性能测量处理是根据编码规范来选择的。这允许针对编码规范选择适当的性能测量处理，该编码规范在受监视网络处于不同网络条件时使用所讨论的编码规范获得的不同性能之间有效地进行区分。

根据优选实施方式，所述方法还可以包括：选择用于对要从所述接收方经由网络流传输到所述发送方的音频和/或视频数据进行编码的编码规范，用于对要从所述接收方流传输到所述发送方的音频和/或视频数据进行编码的编码规范是独立于被选择用于对要从所述发送方流传输到所述接收方的音频和/或视频数据进行编码的编码规范来选择的。在这样的实施方式中，所述方法还可以包括：在被选择用于对要从所述接收方流传输到所述发送方的音频和/或视频数据进行编码的编码规范与被选择用于对要从所述发送方流传输到所述接收方的音频和/或视频数据进行编码的编码规范不同和/或不兼容的情况下，选择转码规范。在选择转码规范的情况下，可以根据所选择的相应编码规范来选择的。

根据本发明的第二方面，提供了一种对要经由网络从发送方流传输到接收方的音频和/或视频数据进行编码的方法，该方法包括：根据第一方面选择用于对音频和/或视频数据进行编码的编码规范，以及使用所选择的编码规范对所述数据进行编码。

根据本发明的第三方面，提供了一种经由网络将音频和/或视频数据从发送方流传输到接收方的方法，该方法包括：根据第一方面选择用于对音频和/或视频数据进行编码的编码规范，使用所选择的编码规范对所述数据进行编码，以及经由所述网络将编码数据从所述发送方流传输至所述接收方。

根据本发明的第四方面，提供了一种选择用于对要在多方通信会话中的参与者之间流传输的音频和/或视频数据进行编码的一个或更多个编码规范的方法，所述通信会话涉及经由至少一个网络并且经由通信会话控制单元流传输音频和/或视频数据，所述方法包括：根据所述第一方面选择用于对要经由网络从所述参与者中的一个或更多个参与者流传输到所述通信会话控制单元的音频和/或视频数据进行编码的编码规范。

根据优选实施方式，该方法还可以包括：选择用于对要经由网络从所述参与者中的一个或更多个其它参与者流传输到所述通信会话控制单元的音频和/或视频数据进行编码的一个或更多个其它编码规范，所述一个或更多个其它编码规范的选择至少部分地取决于所述第一编码规范的选择。

根据本发明的第五方面，提供了一种用于执行根据以上任一方面的方法的设备。

根据本发明的第六方面，提供了一种包括计算机程序代码的计算机程序元件，当所述计算机程序代码被加载到计算机系统中并且在计算机系统上执行时，使计算机执行根据以上任一方面的方法的步骤。

以上关于第一方面提及的各种选项和优选实施方式也可以关于其它方面应用。

本发明的优选实施方式涉及用于优化音频编码和转码资源在IP语音服务内的使用的方法和设备。

本发明的优选实施方式使用在特定网络上执行的测试VoIP呼叫期间捕获的IP分组数据来建立具有对突发分组丢失和抖动的特定参考的VoIP性能模型，该模型表示该网络的真实行为。然后，这样的实施方式能够使用该模型得出VoIP呼叫质量的客观测量结果以用于跨所观察到的广泛范围的网络损伤(从无突发丢失到严重突发丢失)的一系列音频编解码器。然后可以使用该模型来优化用于特定语音服务的编解码器的选择。该优化可以作为一次性处理执行，该处理确定如何配置VoIP客户端和呼叫服务器——例如，它可以为接入网连接经常出现突发分组丢失的客户规定现有技术的弹性编解码器的使用。它也可以实现为集成在呼叫服务器内的动态处理，使得在每次呼叫的基础上选择编解码器和转码路径——例如，针对高复杂度编解码器优化有限转码资源池的使用。

除了仅考虑音频编解码器之外，在适当的情况下，优选实施方式还包括编解码器和诸如分组丢失隐藏算法的外部功能的组合。

优选实施方式的优点可以源于使用突发和抖动建模来预测不同编解码器或编码规范在特定网络上的变化条件下将如何执行。然后应用这些预测以确定应使用哪些编解码器和设置来优化该网络上进行的VoIP呼叫的成本和体验质量。当前，在没有大量人工努力的情况下，VoIP服务提供商无法现实地回答以下问题：“在我的网络中部署编解码器X会产生什么影响，它将对哪些客户最有利？”。此外，如果没有可用于为每个客户动态选择编解码器配置的模型，则服务提供商将无法有效地优化其编解码器和转码资源的使用：它们仅限于基于聚合数据一次性更新策略。

附图说明

现在将参照附图描述本发明的优选实施方式，在附图中：

图1是适用于本发明的优选实施方式的操作的计算机系统的框图。

图2以示意图形式示出了根据优选实施方式的处理的可能阶段。

图3示出了根据优选实施方式的可能在数据捕获阶段和配置文件创建阶段中涉及的组件的布置；

图4示出了根据优选实施方式的编解码器测试阶段中可能涉及的组件的布置；

图5例示了学习阶段技术的示例，该学习阶段技术可以使用网络条件可以被配置的网络来执行。

图6例示了另选学习阶段技术，该技术可以使用网络条件可以变化的网络来执行。

图7示出了根据优选实施方式的可以如何使用在学习阶段期间获得的数据来选择编码规范的示例；

图8示出了根据优选实施方式的通信会话中可能涉及的实体，其中，该会话经由会议桥发生；以及

图9示出了根据优选实施方式的可以如何使用在学习阶段中获得的数据来选择编码规范和转码资源的示例。

具体实施方式

参照附图，将描述根据优选实施方式的方法和设备。

图1是适于本发明的实施方式的操作的计算机系统的框图。中央处理器单元(CPU)102经由数据总线108通信地连接到数据存储部104和输入/输出(I/O)接口106。数据存储部104可以是任何读/写存储装置或诸如随机存取存储器(RAM)或非易失性存储装置的装置组合，并且可以用于存储可执行和/或不可执行数据。非易失性存储装置的示例包括磁盘或磁带存储装置。I/O接口106是到用于数据的输入或输出或者用于数据的输入和输出的装置的接口。可连接到I/O接口106的I/O装置的示例包括键盘、鼠标、显示器(诸如监视器)和网络连接。

根据优选实施方式的方法可以被认为涉及多个阶段，但是应当理解，所涉及的各个处理可以在进行中和/或迭代地执行，这意味着不同处理可以彼此在相同的时间执行或在重叠时间执行，而不是按严格顺序阶段执行。在较高等级，它们可以被认为具有“学习”阶段和“现场”阶段，但是使用根据优选实施方式的方法的更详细表征，整个方法可以被认为涉及四个阶段，即，数据捕获阶段(在该阶段中，获得有关受监视网络的信息，从而允许参照各种数据传输特性来表征一系列可能的网络条件)、配置文件创建阶段(在该阶段中，使用所获得的有关受监视网络的信息来定义多个配置文件，每个配置文件指示可能的网络条件或网络条件的子范围)、编解码器测试阶段(在该阶段中，使用利用多种不同编解码器设置(均可以称为“编码规范”)中的每个进行编码的数据，获得关于处于多个可能网络条件中的每个条件下的网络的性能度量)、以及VoIP服务优化阶段(在该阶段中，当在实际、现场、实时通信会话中流传输数据时，选择一种编码规范来使用)。

在图2中以示例的方式示意性地例示了根据该更详细表征的各个处理/阶段，其将根据优选实施方式的方法表征为具有以下阶段：

-数据捕获阶段21；

-配置文件创建阶段23；

-编解码器测试阶段25；以及

-VoIP服务优化阶段27。

在这样的优选实施方式中，数据捕获阶段21和配置文件创建阶段23涉及捕获呼叫数据的任务。如稍后将解释的，这可以使用服务提供商的网络(包括接入网和客户端配置)上的有代表性的且描述充分的真实环境来完成，或者可以使用可以被配置为诸如模拟可以发现服务提供商的实际网络的多种不同条件的专用测试网络来完成。然后可以对呼叫数据进行预处理、分析和聚合，以针对不同类别的真实环境生成随时间推移的分组特性配置文件。

在数据捕获阶段21中执行的“数据捕获”任务可能涉及在不同时间从不同接入网环境捕获数据。这可以以多种不同方式并使用各种不同的现有系统和工具(包括基于专用探针的解决方案)来实现。在一个实现中，很少数量的探针可用于捕获详细分组数据的初始批次并创建配置文件的初始集合。然后，可以使用具有更多基本数据捕获能力的更大且更有代表性数量的装置来验证和完善“网络条件”配置文件的初始集合以用于配置文件创建阶段23，这涉及使用所捕获的数据来创建有限数量的唯一网络条件，每个网络条件都由数据传输特性的不同组合来表征。

VoIP系统和音频技术通常通过它们在存在各种不同传输特性(诸如分组丢失、延迟、抖动、通信速度、可靠性、通信质量等)的情况下的性能来表征。这些特性通常是复杂且多方面的。例如，分组丢失的不同方面(诸如丢失率、丢弃率、丢失性质(突发的或随机的)、丢失脉冲的长度和密度)都对VoIP服务的质量具有不同的影响。延迟本身可以分为两种主要类型：网络延迟(即，往返延迟)和终端系统延迟。通常根据系统抖动缓冲区的类型和长度来定义抖动值。例如，使用自适应抖动缓冲区可能意味着系统将产生可变延迟图，而抖动缓冲区的长度通常决定了可能发生的最大延迟。

可以选择诸如上述或其它的数据传输特性的组合来表征相应网络条件。

现有探针(例如，前面讨论的“PacketSmart”和“SamKnows”技术中使用的探针)可用于支持这样的配置文件创建。

编解码器测试阶段25涉及在对应于不同网络条件的配置文件下评估VoIP系统内实现的所选音频编解码器技术或编解码器设置的性能。这可以通过在网络仿真器上连接被测试的系统来实现，该仿真器可以随着时间“回放”由配置文件创建阶段23中生成的一个或更多个配置文件指定的精确分组特性。使用这样的方法，当使用多种不同编码规范编码的数据在处于多种相应网络条件中的每种条件下的网络上被发送时，均可以获得客观性能测量结果。

例如，可以使用诸如ITU P.862(PESQ)或ITU P.863(POLQA)的自动化话音质量评估方法来评估性能。稍后将提供关于这些的更多信息。合适的语音质量评估工具是MaldenMultiDSLA工具，该工具实现PESQ和POLQA两者，并且可以被配置为在两个VoIP客户端之间执行长持续时间自动化测试。

在VoIP服务优化阶段27期间，可以将编解码器性能数据和网络性能配置文件一起使用，以确定编解码器(以及在必要时转码资源)在服务提供商的网络上承载的可操作VoIP服务内的最佳使用。

如前所述，此阶段可以作为一次性处理运行，以确定VoIP客户端和呼叫服务器是如何配置的，从而创建特定服务配置。在另选实现中，它可以与VoIP呼叫服务器集成，实质上提供动态策略功能，以使得能够基于每次呼叫选择编解码器和转码路径。

数据捕获和配置文件创建阶段的概述

图3示出了根据优选实施方式的可能在数据捕获阶段和配置文件创建阶段中涉及的组件的布置。设置了测试服务器30，其具有到互联网300的高速且不拥塞连接。然后在可能具有不同网络配置或属性的特定接入网(在此示例中为接入网A 300a、接入网300b和接入网C 300c)上设置多个测试客户端或探针(在此示例中为测试客户端A 32a、测试客户端B32b和测试客户端C 32c)。例如，测试客户端或探针32可以具有经由LAN接入点或3G/4G电子狗到相应接入网的有线或无线连接。

在一天的指定时间或在被要求或触发时，测试客户端或探针32中的至少一个在特定持续时间内使用特定配置(包括编解码器和比特率)经由其接入网和互联网300对测试服务器30进行VoIP呼叫。在呼叫的持续时间内，在测试客户端32和测试服务器30上同时播放代表性话音。而且，在每次呼叫期间，在测试客户端32和测试服务器30处都捕获分组数据。

此阶段考虑的设计问题可能包括以下内容：

1)配置文件创建阶段的目的可能是优选地在长持续时间内对测试客户端或探针32与测试服务器30之间的端到端连接进行采样。当使用VoIP系统发送时，音频损伤可能会根据其使用的比特率和分组时间以不同方式受到影响。因此，通常使用恒定比特率编解码器以不同比特率和分组时间进行测试呼叫，以便可以选择适当匹配配置文件以在编解码器测试阶段期间使用。

2)优选地，测试客户端或探针32适于在实际宽带线路上使用，因此发送信号并发起VoIP呼叫的探针软件通常应能够穿越网络地址转换(NAT)装置和防火墙以便连接到测试服务器。尽管某些流量生成工具可能无法执行此操作，但各种软件电话实现(例如“Linphone”，一种广泛使用的开源软件电话，在http://www.linphone.org/可获得有关其详细信息)都是合适的。优选地，使用为不同编解码器插件和自动化提供良好支持的软件电话。

3)优选地，用于配置文件创建的数据基于在测试客户端或探针32与测试服务器30之间的网络路径中的真实损伤。为此原因，优选地，在测试客户端/探针32处以及在测试服务器30处都捕获双向的分组流，因为这可以用来确保(a)任何防火墙穿越处理均在两者之间正确地形成直接连接(并且该流不经由中间服务器进行中继)，并且(b)离开每个端点的分组流被良好地形成且间隔相等。

4)众所周知，VoIP客户端和单个音频编解码器可以采用抖动缓冲区管理和分组丢失隐藏技术来减少网络损伤对语音质量的影响。通过在分组流离开发送客户端时以及到达接收客户端时捕获分组流，可以在应用任何隐藏技术之前对所有网络损伤进行采样。

从所捕获的数据获得配置文件

一旦测试呼叫完成，就可以对其进行处理和分析，以提取关于该呼叫的信息(例如，分组丢失、抖动、比特率、呼叫持续时间等)，这些信息将支持创建表示特定网络条件的配置文件。在本示例中，每个呼叫都可以具有与之关联的两个分组捕获(PCAP)文件和两个日志文件，两个PCAP文件中的一个在服务器上并且另一个在客户端上，两个日志文件中的一个在服务器上并且另一个在客户端上。每当探针尝试向服务器发起测试呼叫时都会创建日志文件。如果建立了测试呼叫，则日志文件将包含关于该呼叫的一些更多信息。客户端日志文件可能还包含关于其配置的信息(IP地址、端口号等)。当建立实际测试呼叫时，也可以生成PCAP文件。服务器和客户端PCAP以及日志文件可以用于确定对应接入网配置的分组级性能配置文件。

以常规间隔(例如每天)，将所有所部署的探针配置为将当天已由探针创建的所有PCAP文件和日志文件都上传到服务器。一旦被聚合在服务器上，就可以按照以下步骤处理这些PCAP文件：

1)解析和过滤分组捕获；

2)分析过滤后的捕获；

3)聚合来自连续捕获的结果。

在阶段1中，从每个PCAP文件过滤出两个RTP流(一个流被发送，并且一个流被接收)。过滤中使用的源IP地址和目的地IP地址以及端口号通常对于服务器而言是固定的并且是已知的，而客户端日志文件可以用于针对每个探针提取它们。值得注意的是，服务器发送的RTP流和客户端接收的RTP流表示呼叫的下游部分，而客户端发送的RTP流和服务器接收的RTP流表示呼叫的上游部分。

一旦RTP流被过滤，就可以分别分析下游和上游数据。RTP流中的每个分组将具有序列号。RTP流的序列以随机整数开始，并且针对每个RTP数据分组递增一，因此它被用作用于在发送的PCAP和接收的PCAP之间进行比较的唯一分组标识符。在本示例中，分析PCAP文件的主要目的可以是识别流中的每一个分组的状态和抖动值，但是应当理解，可以监视其它特性。如果在另一端接收到所发送的分组，则其状态可以被标记为“已接收”，并且可以被赋予数字+1。如果在接收到的流中未发现该分组，则可以将其标记为“丢失”，并且为其赋予数字0。在某些情况下，分组可能被延迟，并且可能在几个连续分组被接收到之后到达。在这样的情况下，可以将分组状态标记为“延迟”并赋予数字-1。对于每个接收到的和延迟的分组，可以计算抖动值。例如，这可以使用IP分组延迟变化(IPDV)规范来完成。这在RFC 3393("IP packet delay variation metric for IP performance metrics(IPPM)(用于IP性能度量(IPPM)的IP分组延迟变化度量)"by Demichelis,C.and Chimento,P.,2002)中详细说明。

该数据可用于计算一些常规统计信息，诸如整个呼叫期间的平均分组丢失率和抖动值。还可以有用地测量其它信息，诸如RTP打包间隔(p-time)、比特率、实际呼叫持续时间、所发送和接收的分组的数量以及编解码器类型。

然后该数据可以用于表征例如一个或更多个线路的分组丢失和丢弃突发性，这可能表示特定接入技术或可能感兴趣的其它线路特性集合。如前所述，突发分组丢失的建模非常有用，因为突发分组丢失是可用来表征网络条件的多个有用特性中的一个。

可以聚合来自一个或更多个线路的不同呼叫的数据，然后将其分成小VoIP数据流，其范围可能在几秒钟(例如8秒到12秒)的范围内。然后可以测量和分析这些较短流中的突发性。突发性表征技术可以应用于任何长度的VoIP流，但较短流(大约8秒至12秒)使它们更易于研究、分析和客观测试突发性对其语音质量的影响。

可以使用不同突发性模型，诸如测量突发率(BurstR)(例如，参见美国专利6,931,017，McGowan,J.W.,Lucent Technologies Inc.,2005."Burst ratio:a measure ofbursty loss on packet-based networks(突发率：基于分组的网络上的突发损失的度量)")或使用来自RTP控制协议(RTCP XR)扩展报告中的数据，如RFC3611("MeasurementIdentity and Information Reporting Using a Source Description(SDES)Item andan RTCP Extended Report(XR)Block(使用源描述(SDES)项和RTCP扩展报告(XR)块的测量身份和信息报告)"by Clark,A.,Measurement,2012)中详细描述的。

编解码器测试或“学习”阶段的概述

将用于测试的网络的适当范围的可能条件划分为有限数量的离散网络条件，每个网络条件由数据传输特性的不同组合(例如，抖动和突发分组丢失)表征(请注意，用于测试的网络可能事实上是随后在其上发生的实际现场通信会话的实际网络)，因此可以测试当使用关于这些不同网络条件中的每个条件的多个不同编码规范中的每个时的性能。这可以例如使用专用测试网络或者网络仿真器来完成，允许一个接一个地配置不同网络条件以用于测试目的。另选地，这可以使用随后将在其上发生的实际现场通信会话的实际网络来完成，但是这可能限制网络可以被配置为特定网络条件的程度，因此虽然具有精确反映在使用网络进行通信会话时可能遇到的网络条件的优势，但它可能禁止或阻止关于不同网络条件中的每个的不同编码规范中的每个编码规范的测试，因此可能不允许轻松获得一组完整的性能度量。

图4示出了根据优选实施方式的编解码器测试阶段中可能涉及的组件的布置。利用用于要评估的所选VoIP系统的适当软件设置两个测试客户端(客户端A 32a和客户端B32b)。如果会议系统正在测试中，则(优选地无竞争的)会议桥或其它这样的会议服务器42经由已知可靠LAN 41被连接，因此通过连接到它引入了最少数量的附加网络损伤。会议桥42和LAN 41以虚线示出，因为在简单点对点VoIP系统的情况下不需要它们。如果是简单点对点VoIP系统，则客户端A 32a和B 32b可以经由网络仿真器44彼此连接，该网络仿真器可以以编程方式在较长持续时间内逐个分组地施加损伤的预生成配置文件。

两个客户端32a、32b还连接到音频质量评估工具46(例如，前面讨论的“MaldenMultiDSLA”自动化话音性能测量系统)，并且仿真器中的损伤配置文件的回放可以与两个客户端32a、32b之间的自动化话音质量测试的运行同步。如图4所示，根据匹配的损伤配置文件，可以使用不同类型的客户端装置和接入网配置。在此示例中，客户端A 32a是移动电话，客户端B 32b是运行VoIP软件的计算机。

优选地，网络仿真器44能够准确地回放定时损伤配置文件。各种专用的商业上可用的仿真器都可以以编程方式执行此操作，但这不是必需的。另选地，可以使用外部以太网LAN接口和网络模拟器(诸如开源ns-3离散事件网络模拟器)在商品计算机硬件上实现仿真器。

优选地，将清楚地理解被选择用于评估的VoIP系统的特性，并且在选择并应用适当损伤配置文件之前，将利用不受损伤的连接(即，没有分组丢失或抖动)对系统进行测试。特别地，如果要使用可变比特率编解码器，了解客户端可能在源头引入的抖动量以及比特率变化是非常有用的。此外，在测试期间，在客户端A和客户端B之间同步时钟可能是适当的，以便防止时钟漂移导致在损伤配置文件中未指定的分组丢失。

应该注意的是，这样的处理实质上测试了整个VoIP系统，而不仅是隔离的编解码器。如果VoIP系统提供分组丢失隐藏和/或抖动缓冲区管理并且这些特征已被打开，则该测试将测量这些特征与音频编解码器的组合的性能。

可以将ITU推荐的客观测量技术与音频质量评估工具46结合使用，以对具有不同网络损伤特性的VoIP流执行自动话音质量评估。这些技术可以分类为基于信号(或基于参照)的方法或基于参数的模型。基于信号的方法的两个示例是“PESQ”(在"PerceptualEvaluation of Speech Quality(PESQ):An Objective Method for End-to-End SpeechQuality Assessment of Narrowband Telephone Networks and Speech Codecs(用于窄带电话网络和话音编解码器的端到端话音质量评估的客观方法)"by Rix,A.W.,Beerends,J.G.,Hollier,M.P.and Hekstra,A.P in ITU-T Recommendation,2001,p.862中提出)和POLQA(在"Perceptual Objective Listening Quality Assessment(POLQA):The ThirdGeneration ITU-T Standard for End-to-End Speech Quality Measurement,Part I:Temporal Alignment(用于端到端话音质量测量的第三代ITU-T标准，部分I：时间配准)"byBeerends,J.G.,Schmidmer,C.,Berger,J.,Obermann,M.,Ullmann,R.,Pomy,J.and Keyhl,M.,Journal of the Audio Engineering Society,61(6),2013,pp.366-384中提出)。两种方法都使用感知模型来预测话音质量。POLQA被认为是PESQ的继承者。POLQA更加准确，并且其能力扩展到了更高带宽音频信号，诸如宽带(WB)和超宽带(SWB)。基于参数的计算模型被广泛用于为网络传输规划目的提供预期语音质量的预测。他们依靠使用数学方法来建模和预测主观测试结果。这样的模型不需要真实语音样本作为测试信号来执行语音质量测量，因此可以在不同网络条件下直接计算VoIP编解码器的性能。这样的模型的示例是E模型，它是ITU-T标准化语音质量测试系统。有关其的更多信息请参见：Bergstra,J.A.&Middelburg,C.A.,2003.ITU-T Recommendation G.107:"The E-Model,a computationalmodel for use in transmission planning(在传输计划中使用的E-模型、计算模型)"。

这样的方法可用于使用传统编解码器(诸如G.711和G.722)来研究VoIP系统上的真实网络损伤(由此处介绍的系统测量和表征)的影响。当在这样的条件下使用现有技术的编解码器(诸如EVS和Opus)以及分组丢失隐藏(PLC)和前向纠错(FEC)技术时，也可以将这些方法用于测量在语音质量方面获得的益处。可以针对特定编解码器来校准诸如PESQ和POLQA的方法所采用的感知模型。当将应用于现有技术的编解码器时，其行为可能无法很好地定义。尽管对特定编解码器的连续测量应该是一致的，但是使用另选方法来交叉检查客观测试可能适于确保可以合理地比较不同编解码器的性能。这样的另选方法可以包括主观听音测试，其中受试者对通过受损系统的话音记录样本进行评分。相同的概念应用于基于参数的方法。方法所采用的计算模型(诸如E模型)可能仅适于测量诸如G.711的传统编解码器的性能，因此需要对其进行调整并以其它方法作为比较基准，以确保它们针对现有技术的编解码器(诸如EVS和Opus)产生准确测量结果。

现在参照图5和图6，它们例示了可以执行“编解码器测试”阶段的两种不同方式。第一种方式(如图5所示)通常在已执行“数据捕获”和“配置文件创建”阶段之后执行，从而针对多个已经定义网络条件中的每个测试多个编解码器，因此通常对应于“学习”阶段的最后部分。第二种方式(如图6所示)通常不需要执行单独“数据捕获”和“配置文件创建”阶段，因为它将基本上替代这两个阶段，从而在针对每个网络条件测试多个编解码器时定义多个网络条件。

参照图5，其例示了学习阶段技术，该学习阶段技术可以由诸如图4所示的音频质量评估工具46的实体使用专用测试网络或者网络配置可以以受控方式(例如使用网络仿真器)更改的其它这样的网络来执行。为了简单起见，将针对如下场景来解释该技术：网络条件Cij由两种类型的数据传输特性c1和c2表征，例如，数据传输特性c1和c2可以是诸如突发分组丢失和抖动的特性。如前所述，其它类型的数据传输特性(和其它类型的特性)可以用于表征网络条件，并且可以使用多于两种类型的特性。

从步骤s500开始，初始化计数器i、j和k，使得i＝1，j＝1并且k＝1。

在步骤s510，对网络(或网络仿真器)进行配置，关于相应数据传输特性c1和c2设置计数器值i＝1和j＝1，从而使网络处于(或模拟为处于)网络条件C₁₁。

在步骤s520，使用第一编解码器或其它这样的编码规范S₁对音频数据进行编码。

在步骤s530，当网络处于网络条件C₁₁时，经由网络发送使用编码规范S₁编码的数据。

在步骤s540，测量在网络处于网络条件C₁₁时使用编码规范S₁的网络性能，将得到的性能度量(P_ij,k，其中i＝1，j＝1并且k＝1)存储为P_11,1。

如果在步骤s550发现在网络处于其当前网络条件下存在更多编码规范要使用，则将编码规范值k递增，从而实现下一个编码规范(步骤s555)，然后处理返回到步骤s520，在步骤s520，使用下一个编解码器或其它这样的编码规范对音频数据进行编码，然后重复步骤s530、s540和s550，以便获得利用下一个编码规范关于当前网络条件的性能度量。

如果在步骤s550发现所有编码规范都已使用并且利用处于其当前网络条件的网络被测试，则处理进行到步骤s560，在步骤s560，确定是否存在针对特性c2的更多设置。如果是，则该处理经由步骤s565进行，在步骤s565，值j(针对第二特性的计数器)递增，并且编码规范值k被重置回1。然后，该处理返回到步骤s510，在步骤s510，网络(或网络仿真器)被配置为(或将网络模拟为)处于下一个网络条件Cij(在本示例中将为网络条件C₁₂)。然后关于每个编码规范执行步骤s520、s530、s540、s550和s555，以便利用处于下一个网络条件的网络关于每个编码规范获得性能度量P_12,k，依此类推，直到利用处于每个网络条件C_1j的网络关于每个编码规范S_k获得了性能度量P_1j,k为止。

当在步骤s560发现没有针对特性c2的更多设置时，处理进行到步骤s570，在步骤s570，确定是否存在针对特性c1的更多设置。如果是，则处理经由步骤s575进行，在步骤s575，值i(第一特性的计数器)递增。值j(第二特性的计数器)和编码规范值k都被重置回1。然后，处理返回到步骤s510，在步骤s510，网络(或网络仿真器)被配置为(或将网络模拟为)处于下一个网络条件C_2j(在本示例中将为网络条件C₂₁)。然后关于每个编码规范和每个连续网络条件重复步骤s520、s530、s540、s550、s555、s560、s565，以便利用处于每个连续网络条件的网络关于每个编码规范获得性能度量P_2j,k、P_3j,k等，依此类推，直到已经利用处于每个网络条件Cij的网络关于每个编码规范S_k获得了性能度量P_ij,k为止。

当在步骤s570发现没有针对特性c1的更多设置时，学习阶段可以结束(步骤s580)。另选地，可以重复或者可以连续运行，以便获得针对不同网络条件和针对不同编码规范的一组更完整的性能度量。

然而，到这一点，已经利用性能度量P_ij,k填充了完整的i×j×k“矩阵”，从而提供了利用处于每个网络条件的网络关于每个编码规范的性能度量。然后，可以根据当时的网络条件，使用这样的性能度量的矩阵来选择用于对要在网络上作为实际现场通信会话的一部分被流传输的数据进行编码的编码规范。稍后将参照图7说明对此的示例性处理。

现在参照图6，其例示了另选学习阶段技术。该技术可以使用如下网络来执行：该网络的网络条件可以以不在执行该技术的个人或实体的控制下的方式变化。可以使用流传输现场通信会话的实际网络来执行该技术。该技术不需要在专用测试网络上执行，也不需要在网络条件可以以受控方式改变的其它这样的网络上执行。因此，可以通过使用利用在学习阶段期间确定的信息所选择的编码规范，通过监视和使用随后要流传输实际呼叫的网络来执行该技术。

与图5的技术一样，为了简单起见，将针对如下场景来解释该技术：网络条件Cij由两种类型的数据传输特性c1和c2(例如，诸如突发分组丢失和抖动的特性)来表征。如前所述，其它类型的数据传输特性(和其它类型的特性)可以用于表征网络条件，并且可以使用多于两种类型的特性。

从步骤s600开始，执行该处理的处理实体(可以是图4中所示的音频质量评估工具46)等待新呼叫在受监视的网络上被发起。

一旦这样的呼叫已被发起，就测量网络的各个数据传输特性(c1、c2…)(例如，以时间间隔T)，并将它们映射到网络条件Cij(步骤s620)。

在步骤s630，确定是否之前已经观察到该特定网络条件Cij(即，在其当前状态下具有特性c1、c2…)。如果是，则处理返回到步骤s620。如果不是，则处理进行到步骤s640，在步骤s640，将编码规范值k设置为k＝1，并且处理进行到步骤s650。

在步骤s650，选择编码规范S₁。

在步骤s660，使用在网络处于网络条件Cij下利用编码规范S₁编码的流传输数据，获得并存储性能度量P_ij,1。

在步骤s670，确定在网络处于其当前网络条件Cij时是否存在更多编码规范要使用和测试。如果是，则处理经由步骤s675返回到步骤s650，在步骤s675，编码规范值k递增。在步骤s650，选择下一个编码规范S₂，并且重复步骤s660，以便使用在网络处于网络条件Cij下利用编码规范S₂编码的流传输数据来获得并存储性能度量P_ij,2。重复此处理，直到在步骤s670发现在网络处于其当前网络条件Cij时不再有要使用和测试的编码规范。然后处理进行到步骤s680。

在步骤s680，确定呼叫是否已经结束。如果是，则处理返回到步骤s610，并且等待下一个呼叫。

如果在步骤s680发现呼叫还没有结束，则处理返回到步骤s620，再次测量网络的各个数据传输特性(c1、c2…)，并将它们再次映射到网络条件Cij中。如果然后在步骤s630发现网络条件已经改变，使得它现在处于以前从未观察到的网络条件，则重复步骤s640、s650、s660、s670和s675，以便使用在网络处于新网络条件下利用每个规范编码的流传输数据来获得并存储性能度量。如果在步骤s630发现网络处于之前已经观察到的网络条件，则处理返回到步骤s620。

更详细地查看步骤s660，可以使用基于信号的方法或基于参数的计算模型来计算性能度量Pij,k(使用利用经由处于网络条件Cij时的网络流传输的编码规范Sk编码的数据)。

选择用于通信会话的编码规范

再次参照图2，无论使用单独的数据捕获阶段、配置文件创建阶段和编解码器测试阶段，还是使用单个“学习”阶段，都可以创建两个单独数据集，一个数据集与一组网络条件有关，一个数据集与关于不同网络条件的编解码器性能有关。这些可用于将特定接入技术的网络性能数据或一组数据传输特性(配置文件)连接到与该配置文件相关联的编解码器性能数据。然后可以关于将要发生实际通信会话的实际网络(可以是在先前阶段期间使用的网络)执行“VoIP服务优化”阶段。

图7示出了如下示例：如何使用以诸如上述那些方式中的一种获得的数据来执行“VoIP服务优化”或其它这样的优化编码规范选择处理，以允许选择一个或更多个编码规范用于在涉及流传输的音频和/或视频数据的通信会话中使用。例如，该选择处理可用于确定编解码器或其它编码规范(在必要时以及转码资源)在服务提供商的网络上承载的可操作VoIP服务内的最佳使用。

从图7中的步骤s700开始，执行本发明的实体(可以是诸如图4所示的会议桥42，但是诸如客户端A 32a和客户端B 32b的客户端终端可以自己执行该处理)测量或另外获得将发生通信会话的线路的数据传输(和可能其它)特性(步骤s710)。

在步骤s720，选择所存储的网络条件或配置文件，其特性与要发生通信会话的线路的所测量特性最接匹配。

在这一点上，可以基于在学习阶段或者当使用关于在处于所选网络条件时用于测试的网络(或网络仿真器)的各种不同编码规范时的多个阶段期间获得的性能度量来选择编码规范。另选地，如图7所示的选择处理可以如下执行。

在步骤s730，基于在学习阶段或者当使用关于在处于所选网络条件时用于测试的网络(或网络仿真器)的各种不同编码规范时的多个阶段期间获得的性能度量，对各种可能的编解码器(或其它这样的编码规范)进行排序，可以选择每个编解码器以用于对要从通信会话中的特定参与者的终端流传输的数据进行编码和/或对要被流传输至通信会话中的特定参与者的终端的数据进行解码。

在步骤s740，确认是否正在(或将要)从所讨论的终端进行呼叫或在所讨论的终端处接收到呼叫。

如果所讨论的终端正在进行呼叫，则可以选择列表中的第一(或评分最高的)匹配编解码器(步骤s750)，并且将其用于对要发送到其它参与者的数据进行编码。

如果所讨论的终端是将要接收呼叫的终端，则可以选择列表中的第一匹配编解码器(步骤s760)，并且可以使用相同的编解码器对接收到的数据(其已经由所选编解码器编码)进行解码。

然而，呼叫方的终端可以向接收方的终端发送包含适于其自身的编解码器的编解码器列表的过滤版本，以允许接收方从过滤列表中选择与其要求匹配的最佳编解码器。同样，接收方可以利用接收方能够提供的编解码器列表进行响应，从而允许基于有序列表选择第一或最匹配编解码器(即，适于两个或所有参与者的终端)。

在步骤s770，确认自从最后进行线路测量以来(即，自从该线路的数据传输(以及可能的其它)特性在步骤s710中被最后测量或另外获得)是否经过了设置时间。如果是，则处理可以返回到步骤s710，其中，再次测量或另外获得数据传输(和可能的其它)特性，这可能导致选择不同编解码器(或其它这样的编码规范)以继续进行通信会话。如果不是，则通信会话可以利用当前选择的编解码器继续进行。

上面的前两个步骤(步骤s710和s720)表明可以对线路特性进行常规自动化测量，以便确定该线路的最佳匹配配置文件。该测量可以基于先前描述的用于计算突发性的算法之一。例如，对配置文件的随后确定可以专门基于在该线路上观察到的每个突发中的平均分组数。也可以使用其它统计度量，然而例如，在认为线路包含明显突发分组丢失之前，可以使用阈值。

一旦确定了配置文件，就可以在每当进行或接收到呼叫时使用对应编解码器性能数据来影响所选编解码器的协商，特别是如果呼叫协商遵循标准协议，诸如SDP，其在IETFRFC 3264中描述(https://tools.ietf.org/html/rfc3264,其示例在RFC 4317:https://tools.ietf.org/html/rfc4317中给出)。在图7所示的示例中，可以按编解码器在特定线路配置文件下的性能来对在本地客户端处可用的编解码器列表进行排序，其中选择还由远程客户端提供的有序列表中的第一编解码器。

当达到规定超时(或其它触发机制)时，可以进行另一次自动化测量，并且可以重新评估最匹配配置文件。

上面是VoIP服务的配置如何基于每呼叫受预定编解码器性能数据影响的简单示例。然而，该性能数据可用于确定融合网络内的更复杂策略规则和编解码器选择，诸如：

1)如果不由一个客户端支持的特定编解码器将在直接(未转码)路径上提供质量上的显著改进，则使用线路配置文件来确定是否应经由转码器路由呼叫。

2)使用来自客户端配置文件的数据来集中地确定如何动态分配转码器资源，以确保最差执行线路始终可以使用最有弹性的编解码器。

可以理解，在大多数通信会话中，无论是在两方之间还是在多于两方之间，一些或所有各方都可能同时和/或在不同时间发送和接收数据。尽管根据优选实施方式将要做出的主要决定可以是确定特定方要使用的合适编码规范以用于该方的音频贡献或要从该方流传输到一个或更多个其它方的其它这样的数据，但是一旦所得到的流传输数据由一个或更多个其它方接收到，通常将需要对其进行解码。尽管可以发现，关于两方或更多方之间的通信路径做出的决定是每一方应使用相同的编码规范，或各方应使用可兼容编码规范，但是可能发现被认为最适合某一方的编码规范不适用于一个或更多个其它方。在通信会话存在多于两个参与者的情况下，更有可能的是，不同编码规范对于不同参与者对之间的通信路径而言可能是最佳的，因为路径可能不相似或不相同。

关于这样的情况，选择提供最佳折衷的可应用于双方或所有各方的编码规范可能是适当的。在其它情况下，各方使用不同的不兼容编码规范、以及在例如会议桥处或ISP网络中使用转码器或转码资源可能是适当的。

如上所述，优选实施方式可应用于在各个参与者之间直接流传输数据的通信会话，以及可应用于在每个参与者与会议桥之间流传输数据的通信会话，该会议桥也可以用作关于通信会话本身和/或关于选择用于该通信会话的一个或更多个编解码器或编码规范的处理的控制单元。

图8示出了将经由会议桥和/或控制单元发生的通信会话中可能涉及的实体。在该示例中，示出了三个参与者，即，客户端A 82a(在这样的情况下是移动装置)以及客户端B82b和客户端C 82c(在这样的情况下是能够进行VoIP电话的计算机装置)。各个客户端/参与者82经由相应接入网(在该示例中，接入网A 80a、接入网B 80b和接入网C 80c)连接到互联网80(并且经由互联网彼此连接)，如前所述，在学习阶段期间已经关于该网络获得了性能度量，并且来自每个客户端的数据经由会议桥和/或控制单元85被流传输到其它客户端，该会议桥和/或控制单元85包含或有权访问数据存储部，可以从该数据存储部获得来自这样的学习阶段的性能度量86和配置文件数据87。会议桥和/或控制单元85可以是已经控制了学习阶段并且已经获得了性能度量本身的同一实体(例如，图3中所示的测试服务器30)，或者可以是可以访问所存储的数据的单独实体。

参照图9，其示出了根据优选实施方式的如何使用在学习阶段期间获得的数据来选择编码规范和转码资源的示例，特别是在不同编码规范可能适于或可应用于通信会话中的不同参与者的情况下。在诸如涉及会议桥的音频会议的场景中，选择处理可以在诸如图8所示的适当适配的会议桥和/或控制单元85的控制下执行，或者通过诸如图3中所示的测试服务器30的单独控制实体来执行。

从步骤s900开始，控制实体识别或接收将所讨论的通信会话涉及的参与者的指示(步骤s903)。在此示例中，示出了三个参与者，即，客户端A 82a、客户端B 82b和客户端C82c，如图8所示。

在步骤s906，控制实体选择将用于通信会话的网络或特定网络线路。例如，这可能涉及选择直接链接各个参与者的网络路径，选择将各个参与者连接至其自身或单独会议桥的网络路径，或选择将发生通信会话的网络(例如，可以是虚拟专用网络(VPN))。

在步骤s910，控制实体关于所选网络或关于跨该网络的所选线路来测量或另外获得所选数据传输特性的测量结果。

在步骤s920，控制实体选择从那些网络条件或配置文件中选择的其特性与所选网络或网络线路的特性最匹配的所存储网络条件或配置文件，当跨测试网络流传输使用不同编解码器进行编码的数据时，先前已经关于那些网络条件或配置文件获得了性能度量。(注意：其中，通信会话将在多个不同线路上(例如，在各个参与者与会议桥之间)发生，可以关于每个线路选择网络条件或配置文件，或者可以选择与线路所通过的网络的数据传输特性最匹配的总体网络条件或配置文件。)

在步骤s930，控制实体基于当测试网络处于所选网络条件或配置文件时关于不同编解码器获得的所存储的性能度量，选择用于所选网络条件或配置文件的最佳执行编解码器(或最佳执行编解码器的列表)。(其中，已经关于不同线路选择了不同配置文件，这可以关于每个线路执行。)

在步骤s935，控制实体确认用于线路或用于网络的所选编解码器是否可应用于将使用所讨论的线路或网络参与通信会话的双方或所有各方。这可能考虑到各方的终端的技术能力(即，例如，某些编解码器的处理要求对于某些客户端装置可能太高，或者出于其它原因，某些编解码器可能与某些装置不兼容)，和/或考虑到某些编解码器可能需要支付许可费这一事实。

如果在步骤s935发现所选(即，最佳执行)编解码器可用于双方或所有各方，或者合适编解码器将用作双方/所有各方的折衷，则选择该编解码器供双方/所有各方使用，然后双方/各方实现该编解码器以用于对通信会话期间要发送/接收的数据进行编码和解码(步骤s940)。然后可以发生通信会话(步骤s980)，而无需进行转码。

如果在步骤s935发现所选编解码器不可应用于双方或所有各方，则可以以对应方式选择第二不同的编解码器，以供第一编解码器不可应用的任何一方使用(步骤s950)。那些方然后可以实现第二编解码器，以用于对在通信会话期间要发送/接收的数据进行编码和解码(步骤s970)，但是如果各个编解码器不兼容(即，如果一个编解码器将不能解码在被流传输之前由其它编解码器编码的数据)，则可能需要提供转码资源。在这样的情况下，在步骤s960，关于每对不兼容编解码器选择适当转码器，然后发生通信会话(步骤s980)，其中各方使用其相应编解码器进行编码和解码，并且使用所选转码器在它们之间相应地转换流传输数据。

在任一种情况下，选择处理都在步骤s990结束。

在所描述的本发明的实施方式可以至少部分地使用软件控制的可编程处理装置(诸如微处理器、数字信号处理器或其它处理装置、数据处理设备或系统)来实现的范围内，可以理解，作为本发明的一方面，设想了用于配置可编程装置、设备或系统以实现上述方法的计算机程序。例如，计算机程序可以具体实现为源代码或经过编译以在处理装置、设备或系统上实现，或者可以具体实现为目标代码。

适当地，计算机程序以机器或装置可读形式被存储在载体介质上，例如存储在固态存储器、诸如磁盘或磁带的磁存储器、诸如光盘或数字通用磁盘的光或磁光可读存储器等中，并且处理装置利用该程序或其一部分来将其配置用于操作。可以从具体实现为诸如电子信号、射频载波或光载波的通信介质的远程源提供计算机程序。这样的载体介质也被设想为本发明的多个方面。

本领域技术人员将理解，尽管已经关于上述示例实施方式描述了本发明，但是本发明不限于此，并且存在许多可能的变化和修改，这些变化和修改落入本发明的范围内。

本发明的范围包括本文所公开的任何新特征或特征的组合。申请人在此提请注意的是，在进行本申请或从其衍生的任何这样的进一步申请期间，可以对这样的特征或特征的组合制定新的权利要求。具体地，参照所附权利要求，来自从属权利要求的特征可以与独立权利要求的那些特征组合，并且来自相应独立权利要求的特征可以以任何恰当的方式组合，而不仅仅是权利要求中列举的具体组合。

Claims

1.一种选择用于对要从发送方经由网络流传输到接收方的音频和/或视频数据进行编码的编码规范的方法，所述方法包括：

关于随后将音频和/或视频数据从发送方流传输到接收方的网络，获得关于所述网络的所述至少两个不同类型的数据传输特性，并且根据关于要流传输所述数据的所述网络获得的所述至少两个不同类型的数据传输特性且根据表征处于所述受监视网络条件中的对应受监视网络条件下的所述受监视网络的所述至少两个不同类型的数据传输特性的组合，来选择所述对应受监视网络条件，以及

选择用于对要流传输的所述数据进行编码的编码规范，所述编码规范的选择是根据关于处于所选择的所述对应受监视网络条件下的所述受监视网络使用所述多个编码规范获得的性能度量作出的。

2.根据权利要求1所述的方法，其中，表征网络条件的至少两个不同类型的数据传输特性的组合包括选自以下中的一个或更多个特性：

-与通信速度相关联的特性；

-与通信延迟和/或延迟变化相关联的特性；

-与可靠性相关联的特性；

-与数据丢失相关联的特性；

-与通信质量相关联的特性。

3.根据权利要求1或2所述的方法，其中，随后要流传输音频和/或视频数据的网络是在获得性能度量的步骤中监视的网络。

4.根据前述权利要求中的任一项所述的方法，其中，所述方法还包括：选择用于对已经经由所述网络从所述发送方朝向所述接收方流传输的音频和/或视频数据进行解码的解码规范。

5.根据权利要求4所述的方法，其中，所述解码规范是根据被选择用于对要从所述发送方经由所述网络流传输到所述接收方的所述音频和/或视频数据进行编码的编码规范来选择的。

6.根据前述权利要求中的任一项所述的方法，其中，关于所述受监视网络关于特定编码规范获得的所述性能度量是通过应用多个预定性能测量处理中的所选预定性能测量处理获得的，要关于特定编码规范应用的性能测量处理是根据所述编码规范来选择的。

7.根据前述权利要求中的任一项所述的方法，其中，所述方法还包括：选择用于对要从所述接收方经由所述网络流传输到所述发送方的音频和/或视频数据进行编码的编码规范，用于对要从所述接收方流传输到所述发送方的音频和/或视频数据进行编码的编码规范是独立于被选择用于对要从所述发送方流传输到所述接收方的音频和/或视频数据进行编码的编码规范来选择的。

8.根据权利要求7所述的方法，其中，所述方法还包括：在被选择用于对要从所述接收方流传输到所述发送方的音频和/或视频数据进行编码的编码规范与被选择用于对要从所述发送方流传输到所述接收方的音频和/或视频数据进行编码的编码规范不同和/或不兼容的情况下，选择转码规范。

9.根据权利要求8所述的方法，其中，在被选择用于对要从所述接收方流传输到所述发送方的音频和/或视频数据进行编码的编码规范与被选择用于对要从所述发送方流传输到所述接收方的音频和/或视频数据进行编码的编码规范不同和/或不兼容的情况下所选择的转码规范是根据所选择的相应编码规范来选择的。

10.根据前述权利要求中的任一项所述的方法，所述方法还包括：使用所选择的编码规范，对要从发送方经由网络流传输到接收方的音频和/或视频数据进行编码。

11.根据权利要求10所述的方法，所述方法还包括：将编码数据从所述发送方经由所述网络流传输到所述接收方。

12.根据权利要求1至9中的任一项所述的方法，所述方法选择用于对要在多方通信会话中的参与者之间流传输的音频和/或视频数据进行编码的一个或更多个编码规范，所述通信会话涉及经由至少一个网络并且经由通信会话控制单元流传输音频和/或视频数据，所述方法包括：根据权利要求1至9中的任一项选择用于对要从所述参与者中的一个或更多个参与者经由网络流传输到所述通信会话控制单元的音频和/或视频数据进行编码的第一编码规范。

13.根据权利要求12所述的方法，其中，所述方法还包括：选择用于对要从所述参与者中的一个或更多个其它参与者经由网络流传输到所述通信会话控制单元的音频和/或视频数据进行编码的一个或更多个其它编码规范，所述一个或更多个其它编码规范的选择至少部分地取决于所述第一编码规范的选择。

14.一种用于执行根据前述权利要求中的任一项所述的方法的设备。

15.一种包括计算机程序代码的计算机程序元件，当所述计算机程序代码被加载到计算机系统中并且在所述计算机系统上执行时，使所述计算机执行根据前述权利要求中的任一项所述的方法的步骤。