CN101471804A

CN101471804A - 一种音频处理方法、系统和控制服务器

Info

Publication number: CN101471804A
Application number: CN200710305684.6A
Authority: CN
Inventors: 黎迎斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-12-28
Filing date: 2007-12-28
Publication date: 2009-07-01
Anticipated expiration: 2027-12-28
Also published as: KR101205386B1; US8531994B2; JP2011508546A; JP5320406B2; EP2216941A1; WO2009089717A1; EP2216941A4; CN101471804B; EP2216941B1; US20130064387A1; US8649300B2; US20100268541A1; KR20100086072A

Abstract

本发明公开了一种音频处理方法，包括：终端接入控制服务器后，控制服务器通过能力协商获取所述终端的音频能力；控制服务器按照所述音频能力转发编码后的音频数据到各个终端。本发明还公开了一种音频处理系统和一种控制服务器。本发明实施例中的音频数据无需每经过一个控制服务器都进行一次音频编解码操作，因此极大降低了控制服务器的编解码次数，特别在仅有一个控制服务器的情况下，终端与终端之间的音频延时只有网络传输、发送终端的编码和接收终端的解码，而控制服务器由于只对音频数据进行抽包和组包的重组，因此延时可以忽略不计，增强了终端之间交互的实时性，并且减少了控制服务器对音频编解码资源的占用，降低了成本。

Description

一种音频处理方法、系统和控制服务器

技术领域

本发明涉及语音通信技术领域，特别涉及一种音频处理方法、系统和控制服务器。

背景技术

当前会议电视产品或部分会议电话产品主要遵循ITU-H.323协议或ITU-H.320协议进行音频处理，其中实现核心音频交换以及对多个会议终端进行控制的设备主要是MCU(Multipoint Control Unit，多点控制单元)，MCU单元至少具有MC(Multipoint Control，多点控制)功能和MP(Multipoint Process，多点处理)功能，能够进行多路混音，例如，在某个电话会议中，至少三个会场的电话终端同时通过MCU进行通信，则MCU需要将各个终端发送过来的声音混合成一路，再发送到各个会场的电话终端，以保证各个会场的终端用户虽然不在一个空间内，但却如同在一个会议室内交流。

以会议音频处理为例，现有技术中对于多个终端进行音频交流时的音频处理流程如图1所示：

步骤101：在MCU上为接入的各个会场的终端分别分配音频编解码端口。

步骤102：发起呼叫后各个终端分别将编码后的音频数据发送至MCU。

步骤103：MCU解码各个终端发送的音频数据后，选出音量较大的会场的音频数据。

步骤104：对选出的音频数据进行混音后混合成一路音频数据。

步骤105：将混音后的一路音频数据进行编码后再发送到各个会场终端。

步骤106：各个会场终端对接收到的音频数据进行解码。

由上述对现有技术的描述可知，从各个会场终端向MCU发送音频数据开始，到各个会场接收到MCU发送的混音后的一路音频数据为止，每经过一次MCU就要进行一次音频编解码。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：每进行一次编解码就会增加终端到终端的音频失真，当基于一个MCU的多点会议，则会场终端要进行一次编解码，MCU混音时要进行一次编解码，导致出现两次失真；当基于两个MCU级联的多点会议，则会场终端要进行一次编解码，两个MCU混音时要进行两次编解码，导致出现三次失真；由此类推，每增加一个MCU，则会相应增加一次失真。每进行一次编解码还会增加终端到终端的语音延时，其原因合推导过程与上述音频失真一致，且由于音频编解码的延时，特别是至少两个MCU级联时，容易引发唇音同步的问题，要解决该问题也会耗费大量人力物力。进一步，对于同时加入语音会议的会场终端，MCU要为各个终端分别分配音频编解码端口，多个端口的设置增加了多点会议的成本，尤其在会场较多的时候则需要MCU提供大量的音频编解码端口。

发明内容

本发明实施例的目的在于提供一种音频处理方法、系统和控制服务器。

为实现本发明实施例的目的，本发明实施例提供如下技术方案：

一种音频处理方法，包括：

终端接入控制服务器后，控制服务器通过能力协商获取所述终端的音频能力；

控制服务器按照所述音频能力转发编码后的音频数据到各个终端。

一种音频处理系统，包括：至少一个控制服务器和多个终端，

所述控制服务器用于通过能力协商获取所述终端的音频能力，并按照所述音频能力转发编码后的音频数据到各个终端；

所述终端用于接入所述控制服务器，并对接收到的音频数据进行解码并自动混音后播放。

所述终端包括：

接入单元，用于接入所述控制服务器；

解码单元，用于对接收到的音频数据进行解码并自动混音后播放。

一种控制服务器，包括：

获取单元，用于通过能力协商获取所述终端的音频能力；

转发单元，用于按照所述音频能力转发编码后的音频数据。

由以上本发明实施例提供的技术方案可见，本发明实施例中终端接入控制服务器后，控制服务器通过能力协商获取终端的音频能力，控制服务器按照该音频能力转发编码后的音频数据到各个终端。本发明实施例中的音频数据无需每经过一个控制服务器都进行一次音频编解码操作，因此极大降低了控制服务器的编解码次数，特别在仅有一个控制服务器的情况下，终端与终端之间的音频延时只有网络传输、发送终端的编码和接收终端的解码，而控制服务器由于只对音频数据进行抽包和组包的重组，因此延时可以忽略不计，增强了终端之间交互的实时性，并且减少了控制服务器对音频编解码资源的占用，降低了成本。在减少了控制服务器自身编解码次数的情况下实现多路混音，能够与现有标准协议控制服务器保持良好的兼容性，可以广泛应用于会议电视和会议电话等通信领域。

附图说明

图1为现有技术中多个终端进行音频交流时的音频处理流程；

图2为本发明音频处理方法的第一实施例流程图；

图3为本发明音频处理方法的第二实施例结构示意图；

图4为本发明音频处理方法的第二实施例流程图；

图5为本发明音频处理方法的第三实施例结构示意图；

图6为本发明音频处理方法的第三实施流程图；

图7为本发明音频处理方法的第四实施例结构示意图；

图8为本发明音频处理方法的第四实施流程图；

图9为本发明音频处理方法的第五实施例结构示意图；

图10为本发明音频处理方法的第五实施流程图；

图11为本发明音频处理方法的第六实施例结构示意图；

图12为本发明音频处理方法的第六实施例流程图；

图13为本发明音频处理系统的实施例框图；

图14为本发明控制服务器的实施例框图。

具体实施方式

本发明实施例提供了音频处理方法、系统和控制服务器，在终端接入控制服务器后，控制服务器通过能力协商获取终端的音频能力，控制服务器按照该音频能力转发编码后的音频数据到各个终端。

为了使本技术领域的人员更好地理解本发明实施例提供的技术方案，下面结合附图和具体实施方式对本发明实施例提供的技术方案作进一步的详细说明。

本发明音频处理方法的第一实施例流程如图2所示：

步骤201：终端接入控制服务器后控制服务器通过能力协商获取终端的音频能力。

其中，终端的音频能力情况包括：终端支持多声道分离音频编解码协议，或终端支持多音频逻辑通道，或不支持多声道分离音频编解码协议或不支持多音频逻辑通道。

步骤202：MCU按照音频能力转发编码后的音频数据到各个终端。

其中，控制服务器按照音频能力使用下述任一方式转发编码后的音频数据到各个终端：当终端支持多声道分离音频编解码协议时，控制服务器选择所述音频数据中的多路音频数据进行打包后在一个音频逻辑通道内转发；当终端支持多音频逻辑通道时，控制服务器选择所述音频数据中的多路音频数据在多个音频逻辑通道内转发。当终端不支持上述方式时，会议服务器将所述音频数据进行混音编码后发送给各个终端。

其中，仅有一个控制服务器时，控制服务器按照所述音频能力转发编码后的音频数据到接入该控制服务器的各个终端；级联多个控制服务器时，多个控制服务器按照所述音频能力级联传输所述接收端控制服务器发送的编码后的音频数据，并由接收端控制服务器转发音频数据到接入该接收端控制服务器的各个终端。

本发明音频处理方法第二实施例的结构示意图如图3所示，图3中控制服务器为MCU，四个终端分别通过与MCU连接实现多点音频处理，其中每个终端与MCU之间均只有唯一的音频发送通道(图中实线箭头所示)和音频接收通道(图中虚线箭头所示)，即MCU与终端之间有一条音频逻辑通道。结合图3所示的结构图，本发明音频处理方法的第二实施例流程如图4所示，该实施例示出了采用多声道分离音频编解码协议的终端与一个MCU之间进行音频数据处理的过程：

步骤401：终端发起呼叫后接入MCU并将编码后的音频数据发送给该MCU。

终端在发起呼叫时，通常与MCU通过能力协商确定终端与MCU之间支持多声道分离音频编解码协议，该协议通常为AAC(AdvancedAudio Coding，高级音频编码技术)协议等国际标准的音频编解码协议，也可以为私有协议。

步骤402：MCU创建针对多声道分离音频编解码协议的解码器。

本发明实施例中采用的多声道分离音频编解码协议中，声道分离是指MCU无需对接收到的各个终端的音频编码数据进行解码，而是直接从包含该音频编码数据的IP报文中就可以知道各个音频数据来自于哪个声道以及该声道的音频编码协议。

步骤403：MCU根据解码出的音频数据音量选出需要混音的终端。

步骤404：MCU从需要混音的终端的独立声道中提取音频数据。

本发明实施例中MCU不必对接收到的各个终端的音频数据进行统一的解码，再选出需要的几路音频数据进行混音，然后再编码的过程，而是分别从接收到的多声道分离音频编解码协议音频数据中直接提取出一个声道的音频数据包，提取音频数据包所属的终端即为通过音频数据音量选出的需要混音的终端。

步骤405：MCU对选出的几路音频数据进行打包处理后通过一条音频逻辑通道发送给各个终端。

将上述提取出未经解码的几路音频数据包直接进行重新打包组合在一起，例如，与MCU进行多点通信的终端分别为终端1、终端2、终端3和终端4，假设MCU按照音量策略选出的三路音频数据分别为终端1、终端2和终端3发送的编码后的音频数据，把这三个终端的音频数据分别作为一个独立的声道打包到一个音频逻辑通道里，即该逻辑通道里的音频数据包含三个独立声道的数据，然后转发到各个终端，即终端1接收到终端2和终端3的音频编码数据组成的音频数据包，终端2接收到终端1和终端3的音频编码数据组成的音频数据包，终端3接收到终端1和终端2的音频编码数据组成的音频数据包，而终端4接收到终端1、终端2和终端3的音频编码数据组成的音频数据包。

步骤406：终端对接收到的打包音频数据进行解码并自动混音后播放。

上述本发明方法的第二实施例中，当并非所有的终端与MCU互通都支持多声道分离音频编解码协议时，则MCU需要为不支持该协议的终端创建用于混音和编码的资源，并且支持自动音频协议适配，即自动把支持多声道分离音频编解码协议终端发送的音频数据经过解码、混音编码后发送给不支持该协议的终端，以保持对不支持该协议终端的兼容。

本发明音频处理方法第三实施例的结构示意图如图5所示，图5中控制服务器为MCU，终端A1、终端A2、终端A3和终端A4分别与MCU_A相连，终端B1、终端B2、终端B3和终端B4分别与MCU_B相连，上述终端通过与MCU连接实现多点音频处理，其中每个终端与MCU之间均只有唯一的音频发送通道(图中单向实线箭头所示)和音频接收通道(图中虚线箭头所示)，即MCU与终端之间有一条音频逻辑通道，MCU之间实现一路呼叫(图中双向实线箭头所示)。结合图5所示的结构图，本发明音频处理方法的第三实施例流程如图6所示，该实施例示出了采用多声道分离音频编解码协议的终端与两个级联MCU之间进行音频数据处理的过程：

步骤601：终端发起呼叫后接入MCU_A，并将编码后的音频数据发送给该MCU_A。

步骤602：MCU_A创建针对多声道分离音频编解码协议的解码器。

步骤603：MCU_A根据解码出的音频数据音量选出需要混音的终端。

步骤604：MCU_A从需要混音的终端的独立声道中提取音频数据。

步骤605：MCU_A对选出的几路音频数据进行打包处理后发送给级联的MCU_B。

步骤606：MCU_B创建解码器后根据音量选出对MCU_A的声道的音频数据进行替换的音频数据。

级联MCU_A和MCU_B在处理与其各自相连的终端发送的音频数据时与本发明实施例二一致，但是在级联MCU_A和级联MCU_B之间增加了一条声道，特别当两个以上MCU级联时会相应增加多条声道，因此在级联的MCU_A向MCU_B发送打包音频数据时，MCU_B会根据收到音频数据的音量和与该MCU_B相连终端发送的音频数据音量进行比较，根据比较的结果用与该MCU_B相连的较大音量音频数据替换MCU_A发送的音频数据包中音量相对较小的音频数据。

结合图5，假设与MCU_A相连的终端A1、终端A2、终端A3和终端A4经MCU_A音量选择后的音频数据包里包含了终端A1、终端A2和终端A3的音频数据，当MCU_B接收到该音频数据包后，对该音频数据包进行比较，假设与MCU_B相连的终端B1的音频数据音量大于音频数据包中终端A1的音频数据音量，则相应用终端B1的音频数据替换音频数据包中终端A1的音频数据。

步骤607：MCU_B将替换后的音频数据重新打包处理后通过一条音频逻辑通道发送给与其相连的各个终端。

步骤608：终端对接收到的打包音频数据进行解码并自动混音后播放。

上述本发明实施例三中，当所有的终端都支持多声道分离音频编解码协议时，则通过发送端的MCU给发送端的终端创建音频编码器，接收端的MCU给接收端的终端创建音频解码器即可，因此无论级联了多少个MCU，只需要在发送端MCU的终端进行编码，并在接收端MCU的终端进行解码，整个音频处理过程只进行一次音频编码和解码的操作。及发送端MCU的终端发送音频编码数据，发送端MCU对音频数据进行打包处理后，该音频数据包在多个MCU之间级联传输，当传输到接收端MCU时，该接收端MCU无需进行解码而是直接根据多声道分离音频编解码协议，对该音频数据包采用直接提取一个声道的音频数据，用该接收端MCU音量较大的终端发送的音频数据进行相应替换后，发送至接收端MCU的终端，由接收端MCU的终端对替换后的音频数据包进行解码。

当并非所有的终端都支持多声道分离音频编解码协议时，则发送端的MCU无需给发送端的终端创建音频编码器，接收端的MCU给接收端的终端创建音频编码器和解码器，并且接收端MCU需要对接收到的级联传输的音频数据包进行解码及重新替换后的编码操作，使得各个终端之间能够兼容。因此，无论级联了多少个MCU，音频数据包在除了接收端MCU外的其它MCU之间传输时无需进行任何编码和解码操作。由此整个级联传输的音频处理过程只需要进行两次编解码的操作即可，即发送端MCU的终端发送音频编码数据，发送端MCU对音频编码数据进行打包处理后，该音频数据包在多个MCU之间级联传输，当传输到接收端MCU时，由于不支持多声道分离音频编解码协议，该接收端MCU需要对该音频数据包进行解码，并用该接收端MCU的终端发送的较大音量的音频数据替换音频数据包中较小音量的音频数据，接收端MCU对替换后的音频数据重新编码后发送该接收端MCU的终端，接收端MCU的终端接收到音频数据包后进行解码。

本发明音频处理方法第四实施例的结构示意图如图7所示，图7中控制服务器为MCU，四个终端分别通过与MCU连接实现多点音频处理，其中每个终端与MCU之间有三条音频发送通道(图中实线箭头所示)及一条音频接收通道(图中虚线箭头所示)，即终端与MCU之间的有三条音频逻辑通道，该实施例基于标准的H.323协议等支持音频通信的国际标准协议，该协议支持打开多个逻辑通道，也支持多个承载同类媒体的逻辑通道。结合图7所示的结构图，本发明音频处理方法的第四实施例流程如图8所示，该实施例示出了具有多个音频逻辑通道的终端与一个MCU之间进行音频数据处理的过程：

步骤801：终端发起呼叫后接入MCU并将编码后的音频数据发送给该MCU。

终端发起呼叫时，通常与MCU通过能力协商确定终端与MCU之间支持多个音频逻辑通道，由于能力协商标准协议中带有非标能力协议字段，因此通过该非标能力协议字段描述支持多个音频逻辑通道的能力。例如，假设在能力协商标准协议的扩展能力字段里定义4个字节的内容“0x0a0a”，则进行能力协商时，MCU发现终端在非标准字段里填有“0x0a0a”，则表示支持多个音频逻辑通道的能力，当呼叫成功后的音频处理就能够按照多音频通道进行处理。

步骤802：MCU创建针对多个音频逻辑通道的解码器。

步骤803：MCU根据解码出的音频数据音量选出需要混音的终端。

步骤804：将需要混音的终端的音频数据通过对应的三条音频逻辑通道直接发送到各个终端。

例如，MCU接收到终端1、终端2、终端3和终端4发送的编码后的音频数据后，假设MCU按照音频策略选出的三路音频数据分别为终端1、终端2和终端3的音频数据，则MCU可以直接将选出的所有音频逻辑通道内的音频数据发送至各个终端，即终端1分别从终端2的音频通道和终端3的音频通道接收到终端2和终端3的音频数据，终端2分别从终端1的音频通道和终端3的音频通道接收到终端1和终端3的音频数据，终端3分别从终端1的音频通道和终端2的音频通道接收到终端1和终端2的音频数据，终端4分别从终端1的音频通道、终端2的音频通道和终端3的音频通道接收终端1、终端2和终端3的音频数据。

步骤805：终端对接收到的音频数据进行解码并自动混音后播放。

该实施例中的终端相应支持打开多个音频接收通道、支持同时解码多路音频数据并且支持将解码后的多路音频数据混合后输出到扬声器。以上述终端1接收到的音频数据为例，终端1将对从终端2的音频通道和终端3的音频通道接收到的两路音频数据分别进行解码后再混音输出到扬声器。

在上述本发明第四实施例中，当并非所有的终端与MCU互通都支持多音频逻辑通道时，则MCU需要为不支持多个逻辑通道的终端创建用于混音和编码的资源，并且支持自动音频协议适配，即自动把支持多音频逻辑通道终端发送的音频数据经过解码、混音编码后发送给不支持多音频逻辑通道的终端，以保持对不支持多音频逻辑通道的终端的兼容。

本发明音频处理方法第五实施例的结构示意图如图9所示，图9中控制服务器为MCU，终端A1、终端A2、终端A3和终端A4分别与MCU_A相连，终端B1、终端B2、终端B3和终端B4分别与MCU_B相连，上述终端通过与MCU连接实现多点音频处理，其中每个终端与MCU之间有三条音频发送通道(如图中单向实线箭头所示)和一条音频接收通道(如图中虚线箭头所示)，图中示出了每个终端与MCU之间有四条逻辑通道，MCU之间实现一路呼叫(如图中双向实线箭头所示)。结合图9所示的结构图，本发明音频处理方法的第五实施例流程如图10所示，该实施例示出了具有多个音频逻辑通道的终端与两个级联MCU之间进行音频数据处理的过程：

步骤1001：终端发起呼叫后接入MCU_A并将编码后的音频数据发送给该MCU_A。

在发起呼叫时，通常与MCU通过能力协商确定终端与级联MCU之间支持多路呼叫级联，由于能力协商标准协议中带有非标能力协议字段，因此通过该非标能力协议字段描述支持多路呼叫级联的能力，同样MCU之间的级联呼叫也使用同样的流程。例如，假设在能力协商标准协议的扩展能力字段里定义4个字节的内容“0x0a0b”，则进行能力协商时，MCU发现终端在非标能力字段里标注了“0x0a0b”，则表示支持多路呼叫级联的能力，当呼叫成功后的音频处理就能够按照多路呼叫级联的方式进行。

步骤1002：MCU_A创建针对多个逻辑通道的解码器。

步骤1003：MCU_A根据解码出的音频数据音量选出需要混音的终端。

步骤1004：将需要混音的终端的几路音频逻辑通道数据直接转发到MCU_B。

步骤1005：MCU_B创建解码器后根据音量选出对MCU_A的音频数据进行替换的音频数据。

步骤1006：MCU_B将替换后的几路音频数据通过三条音频逻辑通道直接发送到各个终端。

步骤1007：终端对接收到的音频数据进行解码后自动混音后播放。

上述本发明方法的第五实施例中，当所有的终端都支持多音频逻辑通道时，则通过发送端的MCU给发送端的终端创建音频编码器，接收端的MCU给接收端的终端创建音频解码器即可，因此无论级联了多少个MCU，只需要在发送端MCU的终端进行编码，并在接收端MCU的终端对从多音频通道传输的音频数据分别进行解码后混音，整个音频处理过程只进行一次音频编码和解码的操作。即发送端MCU的终端发送音频编码数据，发送端MCU将音频数据通过多音频逻辑通道在多个MCU之间级联传输，当传输到接收端MCU时，该接收端MCU无需进行解码而是直接根据多音频逻辑通道能力，对多逻辑通道的音频数据，用该接收端MCU音量较大的终端发送的音频逻辑通道的音频数据进行相应替换后，发送至接收端MCU的终端，由接收端MCU的终端对替换后的经多音频逻辑通道传输的多路音频数据分别进行解码。

当并非所有的终端都支持多音频逻辑通道时，则发送端的MCU无需给发送端的终端创建音频编码器，接收端的MCU给接收端的终端创建音频编码器和解码器，并且接收端MCU需要对接收到的级联传输的音频数据包进行解码及重新替换后的编码操作，使得各个终端之间能够兼容。

因此，无论级联了多少个MCU，音频数据包在除了接收端MCU外的其它MCU之间传输时无需进行任何编码和解码操作。由此整个级联传输的音频处理过程只需要进行两次编解码的操作，即发送端MCU将音频数据通过多音频逻辑通道在多个MCU之间级联传输，当传输到接收端MCU时，由于不支持多音频逻辑通道，该接收端MCU需要对该多音频逻辑通道的音频数据进行解码，并用该接收端MCU的终端发送的较大音量的音频数据替换多音频通道的音频数据中较小音量的音频数据，接收端MCU对替换后的多路音频数据重新编码后发送该接收端MCU的终端，接收端MCU的终端接收到音频数据包后进行解码。

本发明音频处理方法第六实施例的结构示意图如图11所示，图11中控制服务器为MCU，终端1和终端2与MCU_A连接，终端3和终端4与MCU_B连接，终端通过与MCU连接实现多点音频处理，同时在MCU_A和MCU_B之间实现多路级联呼叫，即级联的MCU_A和MCU_B之间根据需要混音的终端数目动态建立多路呼叫，每路呼叫只有一条音频通道，各个音频通道之间的协议可以不同，如图11中所示在MCU_A和MCU_B之间建立了三路级联呼叫(如图中双向实线箭头所示)，每个终端与MCU之间建立一路呼叫。结合图11所示的结构图，本发明音频处理方法的第六实施例流程如图12所示，该实施例示出了MCU之间通过多路呼叫级联进行音频数据处理的过程：

步骤1201：终端发起呼叫后接入MCU_A并将编码后的音频数据发送给该MCU_A。

步骤1202：MCU_A为接入的终端创建解码器。

步骤1203：MCU_A根据解码后的音频数据音量选出需要混音的终端。

步骤1204：MCU_A将需要混音的终端的音频数据分别从对应的MCU_A的相应音频协议端口转发到MCU_B上支持该音频协议的端口。

步骤1205：MCU_B创建解码器后对从MCU_A各个端口发送的音频数据进行解码。

步骤1206：MCU_B按照音量大小从接收到的MCU_A发送的多路音频数据和该MCU_B的终端发送的多路音频数据中选出需要混音的音频数据。

步骤1207：MCU_B将选出的多路音频数据混音后发送到各个终端。

步骤1208：终端对接收到的音频数据进行解码并自动混音后播放。

对于MCU之间的级联通常使用一对MCU级联端口实现音频呼叫，但是上述本发明第六实施例中在两个级联的MCU之间通过多对端口实现支持不同音频协议的多路呼叫，由此实现对多路音频数据进行多路混音。

当有终端支持多声道分离音频编解码协议或支持多音频逻辑通道时，则可以直接把级联MCU的终端发送的不同音频协议的音频数据发送至上述终端。因此无论中间经过多少个级联的MCU，则仅需要一次音频编码和一次音频解码即可。例如，图11中终端1和终端2分别为支持不同音频协议的终端，而终端3为支持多音频逻辑通道的终端，在级联的MCU_A和MCU_B之间建立了对应三个终端的三路级联呼叫，则终端1和终端2将各自的音频数据编码后发送到MCU_A，MCU_A将终端1的音频数据和终端2的音频数据通过级联呼叫1和级联呼叫2分别发送到MCU_B，MCU_B将两路音频数据组包后发送到终端3，由终端3对该音频数据包进行解码即可。

当终端分别支持多种音频协议时，则通过发送端的MCU给发送端的终端创建音频编码器，然后接收端的MCU对接收到的级联传输的多路音频数据进行解码、混音编码后发送到接收端的终端进行解码，接收端的MCU给接收端的终端创建音频解码器即可。因此，无论级联了多少个MCU，音频数据包在除了发送端MCU和接收端MCU外的其它MCU之间传输时无需进行任何编码和解码操作，整个级联传输的音频处理过程只需要进行两次编解码的操作即可。例如，图11中终端1、终端2和终端3分别为支持不同音频协议的终端，在级联的MCU_A和MCU_B之间建立了对应三个终端的三路级联呼叫，则终端1和终端2将各自的音频数据编码后发送到MCU_A，MCU_A将终端1和终端2的音频数据通过级联呼叫1和级联呼叫2分别发送到MCU_B，MCU_B对接收到的两路音频数据进行解码，然后混音并重新编码为对应终端3的音频协议的音频数据，并将该编码后的音频数据发送到终端3，终端3接收到音频数据后按照其所支持的音频协议对音频数据进行解码。

结合本发明方法实施例，当业务操作平台对MCU进行调度时，能够按照与终端进行能力协商时获取的能力情况，自动选择合适的MCU级联方案。例如，对于级联会议，当所有终端都支持多声道分离音频编解码协议时，则自动调度多声道分离音频编解码协议的级联会议；当所有终端都支持多个音频逻辑通道时，则自动调度多个音频逻辑通道的级联会议；当部分终端支持多声道分离音频编解码协议，而部分终端为普通终端时，则自动调度含有多声道分离音频编解码协议的终端和其它音频协议的终端的多路呼叫级联会议；当部分终端支持多个音频逻辑通道而部分终端为普通终端时，则自动调度含有所有音频协议的级联会场。对于单MCU会议，当所有终端都支持多声道分离音频编解码协议时，则自动调度多声道分离音频编解码协议的单MCU会议；当所有终端都支持多音频逻辑通道时，则自动调度多音频逻辑通道的单MCU会议。

与本发明音频处理方法的实施例相对应，本发明还提供了音频处理系统的实施例。

本发明音频处理系统的实施例框图如图13所示：

该系统包括：至少一个控制服务器1310和多个终端1320。

其中，控制服务器1310用于通过能力协商获取所述终端的音频能力，并按照所述音频能力转发编码后的音频数据到各个终端；终端1320用于接入所述控制服务器，并对接收到的音频数据进行解码并自动混音后播放。

与本发明音频处理方法和系统的实施例相对应，本发明还提供了一种控制服务器。

本发明控制服务器包括：获取单元1410和转发单元1420。其中，获取单元1410用于通过能力协商获取所述终端的音频能力；转发单元1420用于按照所述音频能力转发所述编码后的音频数据到各个终端。

进一步的，当选择多路音频数据进行打包后在一个音频逻辑通道内转发时，所述转发单元1420包括：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；提取单元，用于提取所述几路终端的独立声道内的音频数据；发送单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端。

当选择多路音频数据进行打包后在一个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元1420包括：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；提取单元，提取所述几路终端的独立声道内的音频数据；传输单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道级联传输到接收端控制服务器。

当选择多路音频数据进行打包后在一个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元1420包括：选择单元，用于根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；发送单元，用于将替换后的所述音频数据重新打包后通过一个音频逻辑通道发送到各个终端。

当多路音频数据在多个音频逻辑通道内转发时，所述转发单元1420包括：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；发送单元，用于将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

当多路音频数据在多个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元1420包括：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；传输单元，用于将所述几路终端的音频数据通过多个音频逻辑通道级联传输到接收端控制服务器。

当多路音频数据在多个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元包括：选择单元，用于根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；发送单元，用于将所述替换后的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

当控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元1420包括：选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；传输单元，用于将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口。

当所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元1420包括：选择单元，用于根据音量从接收到的发送端控制服务器发送的音频数据和该接收端的音频数据中选择进行混音的几路音频数据；发送单元，用于将所述几路音频数据混音后发送到各个终端。

通过本发明实施例的描述可知，本发明实施例中的音频数据无需每经过一个控制服务器都进行一次音频编解码操作，因此极大降低了控制服务器的编解码次数，特别在仅有一个控制服务器的情况下，终端与终端之间的音频延时只有网络传输、发送终端的编码和接收终端的解码，而控制服务器由于只对音频数据进行抽包和组包的重组，因此延时可以忽略不计，增强了终端之间交互的实时性，并且减少了控制服务器对音频编解码资源的占用，降低了成本。在减少了控制服务器自身编解码次数的情况下实现多路混音，能够与现有标准协议控制服务器保持良好的兼容性，可以广泛应用于会议电视和会议电话等通信领域。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如下步骤：终端接入控制服务器后，控制服务器通过能力协商获取所述终端的音频能力；控制服务器按照所述音频能力转发编码后的音频数据到各个终端。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

虽然通过实施例描绘了本发明，本领域普通技术人员知道，本发明有许多变形和变化而不脱离本发明的精神，希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims

1、一种音频处理方法，其特征在于，包括：

2、根据权利要求1所述的方法，其特征在于，所述控制服务器按照所述音频能力使用下述任一方式转发编码后的音频数据到各个终端：

终端支持多声道分离音频编解码协议时，控制服务器选择所述音频数据中的多路音频数据进行打包后在一个音频逻辑通道内转发；

终端支持多音频逻辑通道时，控制服务器选择所述音频数据中的多路音频数据在多个音频逻辑通道内转发。

3、根据权利要求2所述的方法，其特征在于，仅有一个控制服务器时，所述控制服务器按照所述音频能力转发编码后的音频数据到接入该控制服务器的各个终端；或

级联多个控制服务器时，所述多个控制服务器按照所述音频能力级联传输所述接收端控制服务器发送的编码后的音频数据，并由接收端控制服务器转发音频数据到接入该接收端控制服务器的各个终端。

4、根据权利要求3所述的方法，其特征在于，仅有一个控制服务器，且终端支持多声道分离音频编解码协议，所述控制服务器选择音频数据中的多路音频数据进行打包后在一个音频逻辑通道内转发具体为：

所述控制服务器按照所述音频数据的音量选择进行混音的几路终端的音频数据；

提取所述几路终端的独立声道内的音频数据；

将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端。

5、根据权利要求3所述的方法，其特征在于，级联多个控制服务器，且终端支持多声道分离音频编解码协议，所述控制服务器选择音频数据中的多路音频数据进行打包后在一个音频逻辑通道内转发具体为：

发送端控制服务器按照所述音频数据的音量选择进行混音的几路终端的音频数据；

发送端控制服务器提取所述几路终端的独立声道内的音频数据；

将所述提取出的音频数据进行打包后级联传输到接收端控制服务器；

接收端控制服务器根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；

接收端控制服务器将替换后的所述音频数据重新打包后通过一个音频逻辑通道发送到各个终端。

6、根据权利要求4或5所述的方法，其特征在于，所述对音频数据打包包括：

抽取所述不同声道内的音频数据，并将所述抽取出的音频数据合并成一个音频数据包；或

将不同声道的音频数据直接进行分离式打包。

7、根据权利要求3所述的方法，其特征在于，仅有一个控制服务器，且终端支持多音频逻辑通道，所述控制服务器选择所述音频数据中的多路音频数据在多个音频逻辑通道内转发具体为：

将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

8、根据权利要求3所述的方法，其特征在于，级联多个控制服务器，且终端支持多音频逻辑通道，所述控制服务器选择所述音频数据中的多路音频数据在多个音频逻辑通道内转发具体为：

将所述几路终端的音频数据级联传输到接收端控制服务器；

将所述替换后的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

9、根据权利要求3所述的方法，其特征在于，多路呼叫级联多个控制服务器，且终端不支持所述多声道分离音频编解码协议或多音频逻辑通道，所述控制服务器按照音频能力转发编码后的音频数据具体为：

将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口；

接收端控制服务器根据音量从接收到的音频数据和该接收端的音频数据中选择进行混音的几路音频数据；

接收端控制服务器将所述几路音频数据混音后发送到各个终端。

10、根据权利要求1所述的方法，其特征在于，进一步包括：

终端对接收到的音频数据进行解码并自动混音后播放。

11、一种音频处理系统，其特征在于，包括：至少一个控制服务器和多个终端，

12、一种控制服务器，其特征在于，包括：

获取单元，用于通过能力协商获取终端的音频能力；

转发单元，用于按照所述音频能力转发编码后的音频数据。

13、根据权利要求12所述的控制服务器，其特征在于，选择多路音频数据进行打包后在一个音频逻辑通道内转发时，所述转发单元包括：

选择单元，用于按照所述音频数据的音量选择进行混音的几路终端的音频数据；

提取单元，用于提取所述几路终端的独立声道内的音频数据；

发送单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道发送到各个终端或级联端口。

14、根据权利要求12所述的控制服务器，其特征在于，选择多路音频数据进行打包后在一个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元包括：

提取单元，提取所述几路终端的独立声道内的音频数据；

传输单元，用于将所述提取出的音频数据进行打包后通过一个音频逻辑通道级联传输到接收端控制服务器。

15、根据权利要求14所述的控制服务器，其特征在于，选择多路音频数据进行打包后在一个音频逻辑通道内转发，，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元包括：

选择单元，用于根据音量选出对所述发送端控制服务器发送的音频数据进行替换的接收端的音频数据；

发送单元，用于将替换后的所述音频数据重新打包后通过一个音频逻辑通道发送到各个终端。

16、根据权利要求12所述的控制服务器，其特征在于，多路音频数据在多个音频逻辑通道内转发时，所述转发单元包括：

发送单元，用于将所述几路终端的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

17.根据权利要求12所述的控制服务器，其特征在于，多路音频数据在多个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的发送端控制服务器，所述转发单元包括：

传输单元，用于将所述几路终端的音频数据通过多个音频逻辑通道级联传输到接收端控制服务器。

18、根据权利要求17所述的控制服务器，其特征在于，多路音频数据在多个音频逻辑通道内转发，且所述控制服务器为级联的多个控制服务器中的接收端控制服务器，所述转发单元包括：

发送单元，用于将所述替换后的音频数据通过所述多个音频逻辑通道直接发送到各个终端。

19、根据权利要求12所述的控制服务器，其特征在于，所述控制服务器为多路呼叫级联的发送端控制服务器，所述转发单元包括：

传输单元，用于将所述几路终端的音频数据分别从与所述终端对应的音频协议的端口级联传输到接收端控制服务器的对应端口。

20、根据权利要求19所述的控制服务器，其特征在于，所述控制服务器为多路呼叫级联的接收端控制服务器，所述转发单元包括：

选择单元，用于根据音量从接收到的发送端控制服务器发送的音频数据和该接收端的音频数据中选择进行混音的几路音频数据；

发送单元，用于将所述几路音频数据混音后发送到各个终端。