CN1941891A

CN1941891A - 一种音频混音处理方法及其装置

Info

Publication number: CN1941891A
Application number: CN 200610062952
Authority: CN
Inventors: 梁丽燕
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2006-09-29
Filing date: 2006-09-29
Publication date: 2007-04-04
Anticipated expiration: 2026-09-29
Also published as: CN100459696C

Abstract

本发明公开了一种音频混音处理方法，包括：在音量最大的终端发生变化时，对输入到发生变化之前和之后的音量最大的终端的音频信号分别进行的编码控制。同时公开了一种音频混音处理装置，包括解码模块、混音模块、编码模块和编码器切换处理模块。利用本发明，音量最大的终端发生变化时，在对接入终端的音频数据进行解码和混音处理后，对发生变化前后的音量最大的终端各自分配独立的编码器，对其输出的音频信号进行编码控制处理后送给对应的终端。在控制了编码器的数量的同时，保证了通话质量。

Description

一种音频混音处理方法及其装置

技术领域

本发明涉及音频信号处理领域，具体地说，涉及一种音频混音处理方法及其装置。

背景技术

随着视讯会议的越来越广泛的应用，对视讯会议系统MCU(多点控制单元)的处理资源要求越来越高。而在有限网络带宽资源和不降低音频质量的前提下，音频处理资源的减少可以更好的满足高质量视音频协议处理或者同样的音频处理资源实现更多的音频处理接入的要求。在传统视讯会议中MCU的音频混音处理中，很多情况下大部分接入的终端听到的声音都是一样的，即可以对这部分的终端进行统一处理代替单独处理，这就给节省音频处理资源提供了很大的空间。

传统视讯会议中，如图1所示，MCU主要是对视音频媒体进行处理，使参加会议的终端之间能够互相听到声音和看到图像，其中音频部分处理主要实现各接入会场之间混音的功能，即使到会议中会场能听到发言会场的声音，发言会场之间也能互相听到声音，从而实现远程交流的目的。

现有的解决方案一：

音频处理主要包括三部分：解码处理、混音处理和编码处理。其中解码处理是对所有的接入会场进行音频解码，目的是得到所有会场原始的音频数据；混音处理首先对这些会场数据进行包络计算和比较得到会议中发言的几方会场(此处约定为最大三方，即只有在会议中各会场终端采集到的发言音量最大的三方，能被其他会场听见)，然后对会议中的最大三方会场的声音进行混音，就是把音量最大三方会场的声音数据叠加起来送给会议中最大三方以外的其他所有会场，即其他会场均能听到音量最大的三方会场的声音，音量最大的三方会场中两两叠加的数据送给另外一个音量最大的会场，即音量最大三方中的任一方能听到其他两方的声音；编码处理主要是对每个会场的已经过解码和混音处理的声音数据进行编码，并输出至会场。

如图2所示，假设一个会议中有终端1、2、3、4、5…N，并且音量最大三方对应的是终端1、2、3，音频处理时，首先会把收到所有终端的数据进行解码。然后，在混音处理中，首先对所有会场的包络计算、比较得到音量最大三方终端1、2、3，所以输出给终端1的数据为会场2和3的数据叠加，输出给终端2的数据为会场1和3的数据叠加，输出给终端3的数据为会场2和3的数据叠加，其他终端输出终端1、2和3叠加后的数据，如果下一时刻的最大三方变成了终端2、3、5，那么终端2就听到终端3和5的声音，终端3就听到终端2和5的声音，终端5听到终端2和3的声音，其他终端听到终端2、3和5的声音，其他情况依此类推。最后编码处理部分对各终端的数据进行编码后输出给对应的终端。这样就完成了一个会议的语音混音功能。

现有解决方案一的缺点：

在上述技术中，很多情况下一个会议中参加发言的会场相对固定，特别是在开大会议的情况下，这样终端大部分情况下听到的都是最大三方的声音，如果为每个终端分配一个编码器的资源对同样的数据进行编码输出，，需要的编码器资源为接入终端的个数N，当接入终端个数N值较大时，就会造成资源浪费，从而增加成本。

现有的解决方案二：

技术二是在现有技术一的基础上改进而来，其核心思想就是尽量合并相同处理的编码器，使到资源利用率达到最高。如图3所示，终端1、2、3作为音量最大三方并能保持一段时间(假设为2s以上)，则终端4、5…N编码需要输出终端1、2和3产生的音频数据叠加后的数据，所以只需要用一个编码器对终端1、2和3产生的音频数据进行叠加，就可以满足终端4、5…N的输出，而另外三个编码器分别对输出给发言音量最大三方即终端1、2、3的数据进行编码，即编码器C1、C2、C3对应编码给会议中音量最大的三方会场，编码器C4对应编码给音量最大的三方以外的会场。在这种情况下，需要的编码器资源为1+3＝4个，当接入终端个数N值较大时，本方案可节省很大部分资源。

现有技术二的缺点：

上面的情况是假设音量最大三方在一种情况下的处理，如果在会议中发言的会场发生变化，即对应混音处理中的音量最大三方发生变化，如音量最大三方变化为终端1、4、5，此时终端1输出终端4和5产生的音频叠加后的数据，终端4输出终端1和5产生的音频叠加后的数据，终端5输出终端1和4产生的音频叠加后的数据，其他终端输出终端1、4和5产生的音频叠加后的数据。

然而在这种会议中的最大三方发生变化，造成发送给终端的编码器发生切换时，由于编码器的状态是前后相关的，直接切换会影响声音效果，从而导致终端听到的声音效果变差。例如在上述图3中，音量最大的三方从原来的1、2、3变化成1、4、5，则对终端2来说，原来是编码器C2对发送给终端2的数据进行编码，最大三方切换成1、4、5后，发送给终端2的数据变为用编码器C4编码，则在终端2听到的声音就会在切换的一段时间内变差。对于终端3、4、5也会出现同样的问题。

发明内容

为解决以上问题，本发明提供一种音频混音处理方法和装置，避免会议中的音量最大三方发生变化时，在终端听到的声音效果变差的问题。

本发明提供的一种音频混音处理方法，包括：在音量最大的终端发生变化时，对输出给发生变化之前和之后的音量最大的终端的音频信号分别进行的编码控制。

其中，所述的分别进行的编码控制包括对发生变化之前和之后的音量最大的终端各自分配独立的编码器来对所述的音频信号进行编码控制。

本发明还进一步包括，音量最大的终端保持时间超过一定阈值后，合并相同处理过程的编码器。

其中所述的相同处理过程包括有相同的输入和输出信号。

并且所述的音量最大的终端是指输入到多点控制单元MCU的音频信号最强的一方或一方以上对应的终端。

本发明公开的音频混音处理装置，包括解码器、混音模块、编码器和编码器切换处理模块；其中：

解码器：对接收到的音频进行音频解码，得到原始的音频数据；

混音模块：对所述的经过解码器处理的音频数据进行包络计算，对音量最大的几方进行混音处理；

编码器：对已经经过混音处理后的音频数据进行编码；

编码器切换处理模块：对进行编码处理的编码器的数量和切换过程进行控制。

其中，所述的对编码器的数量和切换过程进行控制的过程为：在音量最大的终端发生变化时，在音量最大的终端发生变化时，对输出给发生变化之前和之后的音量最大的终端的音频信号分别分配独立的编码器进行的编码控制；一定时间后，合并相同处理过程的编码器。并且在音量最大的终端发生变化时，所述的编码器切换处理模块控制所述终端对应的编码器的信息交换，使编码器的信息和状态保持连续。

利用本发明，音量最大的终端发生变化时，在对接入终端的音频数据进行解码和混音处理后，对发生变化前后的音量最大的终端各自分配独立的编码器，对其输出的音频信号进行编码控制处理后送给对应的终端。在控制了编码器的数量的同时，保证了通话质量。

附图说明

图1为视讯会议组网图；

图2为音频部分处理示意图；

图3为音频合并编码器的处理示意图；

图4为本发明的音频处理系统框架图；

图5为本发明实施例音频处理流程图。

具体实施方式

本发明的核心思想就是在尽量合并相同处理的编码器，同时在音量最大的几方发生变化时，对发送给终端的音频信号进行处理的编码器的数量和切换过程进行控制，在节省编码器数量的同时保证终端音频输出质量。

本发明提供的音频混音处理系统，对接收到的终端数据解码后进行混音，然后控制编码器对混音信号进行编码后输出。该系统包括解码模块、混音模块、编码模块和编码器切换处理模块。如图4所示，其中

解码模块：对接收到的音频进行音频解码，得到原始的音频数据；

混音模块：对音频数据进行包络计算，对音量最大的几方进行混音处理；

编码模块：对已经经过混音处理后原始的音频数据进行编码；

编码器切换处理模块：对发送给终端的编码器的数量和切换过程进行控制。

本发明采用的编码器切换方法，在音量最大的终端发生变化时，对输出给发生变化之前和之后的音量最大的终端的音频信号分别进行的编码控制。保持一段时间后，合并相同处理的编码器。

下面以一具体实施例对本发明进行具体说明，如图5所示：

假设一会议有会场1、2、3、4、5、6、7、8、9、10，某时刻的音量最大三方的终端是1、2、3，下一时刻音量最大三方的终端是1、5、6，且保持2s以上。

在音量最大三方为终端1、2、3的时候，使用了4个编码器，其中3个分别给会议中的音量最大三方，即C1编码器分配给终端1，编码终端2和3叠加的数据；C2编码器分配给终端2，编码终端1和3叠加的数据；C3编码器分配给终端3，编码终端1和2叠加的数据；另外一个给其他音量最大的三方以外的终端，即终端4、5、6、7、8、9、10共用一个编码器C4，编码终端1、2和3叠加的数据。

在音量最大三方变化为1、5、6的时候，为了保持编码器的连续，分别给新参加混音的终端5和6另外分配了编码器C5、C6，同时拷贝终端5和6之前的编码器C4的信息给C5和C6，使终端5和6中的编码信息及其编码状态保持连续。另外对于终端2和3，虽然送给终端2和3的数据和送给终端4、7、8、9、10的数据一样，但为了使编码器切换对声音的影响减少，所以暂时保留终端2和3的编码器，其他终端4、7、8、9、10使用的编码器不变，用编码器C4。终端1原来使用的编码器C1也不改变。这样，在音量最大三方改变为终端1、5、6的时候，共使用的编码器的个数为6个。

若音量最大三方为终端1、5、6的状态维持2s以上(假设为2s，目的是保证编码器的切换尽量不影响声音效果)，对于终端2和3来说，其编码器C2和C3编码的数据和编码器C4编码的数据一样，经过一段时间(2s)的同步后，可以认为编码器C2和C3的状态基本和编码器C4的状态一致，这样就可以回收编码器C2和C3，而编码器C4编码的数据同时送给终端2和3，即终端2、3、4、7、8、9、10共用一个编码器C4，音量最大三方的终端分别使用各自的编码器，此时的编码器个数又变为4个。

如果在2s的时间内音量最大三方终端又发生变化，如果音量最大三方的终端原来没有独立的编码器，则为其分配新的编码器，否则不需要新增编码器。对于音量最大的三方以外的终端对应的编码器，如果编码的数据与共用编码器C4编码的数据一样且持续时间达到2s以上时，可以回收终端对应的编码器，而用共用编码器C4编码的数据输出。其他情况依此类推。

综上所述，视讯会议中的音频混音处理系统可以分为解码、混音、编码器切换、编码等几个部分，在对接入终端的音频数据进行解码和混音处理后，根据上述编码器切换的方法输出需要编码的数据，然后对这些进行编码处理后送给对应的终端。在保证了通话质量的同时，控制了编码器的数量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种音频混音处理方法，其特征在于，在音量最大的终端发生变化时，对输出给发生变化之前和之后的音量最大的终端的音频信号分别独立进行的编码控制。

2、根据权利要求1所述的方法，其特征在于，所述的分别进行的编码控制包括对发生变化之前和之后的音量最大的终端各自分配独立的编码器来对所述的音频信号进行编码控制。

3、根据权利要求2所述的方法，其特征在于，音量最大的终端保持时间超过一定阈值后，合并相同处理过程的编码器。

4、根据权利要求1所述的方法，其特征在于，所述的相同处理过程包括有相同的输入和输出信号。

5、根据权利要求1所述的方法，其特征在于，所述的音量最大的终端是指输入到多点控制单元MCU的音频信号最强的一方或一方以上对应的终端。

6、一种音频混音处理装置，其特征在于，该装置包括解码器、混音模块、编码器和编码器切换处理模块；其中：

编码器：对已经经过混音处理后的音频数据进行编码；

7、根据权利要求6所述的装置，其特征在于，所述的对编码器的数量和切换过程进行控制的过程为：在音量最大的终端发生变化时，对输出给发生变化之前和之后的音量最大的终端的音频信号分别分配独立的编码器进行的编码控制；一定时间后，合并相同处理过程的编码器。

8、根据权利要求7所述的装置，其特征在于，所述的相同处理过程包括有相同的输入和输出信号。

9、根据权利要求7所述的装置，其特征在于，在音量最大的终端发生变化时，所述的编码器切换处理模块控制所述终端对应的编码器的信息交换，使编码器的信息和状态保持连续。