CN107800902B

CN107800902B - 多路语音的混音方法及系统

Info

Publication number: CN107800902B
Application number: CN201710830888.5A
Authority: CN
Inventors: 曾国卿; 许志强; 王寅; 李强; 雷显波
Original assignee: Beijing Ronglian Ets Information Technology Co Ltd
Current assignee: Beijing Ronglian Ets Information Technology Co Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2019-09-13
Anticipated expiration: 2037-09-15
Also published as: CN107800902A

Abstract

本发明公开一种多路语音的混音方法及系统，包括：S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制，获得平滑的各语音通道输入音频数据流；S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息，选择参与本次混音的语音通道，并更新各语音通道的历史混音信息；S3、根据参与本次混音的语音通道输入的音频数据流，基于自适应归一化混音算法完成混音操作，获得混音数据；S4、将混音数据向各语音通道输出。本发明可实现高质量的混音。

Description

多路语音的混音方法及系统

技术领域

本发明涉及通信技术领域。更具体地，涉及一种多路语音的混音方法及系统。

背景技术

近年来，随着VOIP技术的进步和发展，语音会议的需求越来越多,语音会议可以实现多个用户同时进行语音通信，在通信领域中具有广泛的应用前景。一般而言，语音会议的实现有两种方案：集中式混音方案和分布式混音方案。所谓集中式混音方案，即基于服务器——客户端的架构技术，将所有的客户端都与服务器相连，由服务器统一进行混音，再经由网络中的语言通道分发给各客户端，实现多人语音通信。所谓分布式混音方案，即混音由各个客户端独立完成，没有服务器参与。显然，与分布式混音方案相比，集中式混音方案可以节省大量带宽，对各个客户端的性能要求不高，具有方便维护和升级优点，因此集中式混音方案被广泛使用。

在集中式混音方案中，现有的混音方法是将所有通话者通过客户端和语音通道发送至服务器的音频数据流(语音信号)在时域进行线性叠加。其存在的问题是：叠加后的信号很容易溢出，一旦产生溢出，就需要进行截断处理，即超过上限的值被设置为上限值，超过下限的值被设置为下限值。这种处理显然会破坏原有信号的波形，会引入噪声，听起来嘈杂不堪，声音忽高忽低，有时会出现刺耳的爆破音，严重影响通话的主观感受。并且随着参与混音的通话者的增加(客户端和语音通道也同时增加)，这种溢出频率会更加频繁，最终导致完全不能分辨有效的语音。特别是对于基于VOIP技术的语音会议，由于网络本身固有的抖动性，声音容易会出现丢包和不连续，如果不进行处理，往往会导致更差的混音效果。因此，设计一种高质量的混音方法是有迫切需求的，然而事实上，即便是采用最优秀的混音算法，在实际应用中也可能会出现混音效果不理想的情况，这显然不是混音算法本身的问题，而是混音策略(方案)的问题，涉及到多个方面的整体设计和优化。

因此，需要提供一种可应用与基于VOIP通信系统的语音会议的可实现高质量混音的多路语音的混音方法及系统。

发明内容

本发明的目的在于提供一种多路语音的混音方法及系统，以实现高质量的混音。

为达到上述目的，本发明采用下述技术方案：

本发明公开了一种多路语音的混音方法，包括：

S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制，获得平滑的各语音通道输入音频数据流；

S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息，选择参与本次混音的语音通道，并更新各语音通道的历史混音信息；

S3、根据参与本次混音的语音通道输入的音频数据流，基于自适应归一化混音算法完成混音操作，获得混音数据；

S4、将混音数据向各语音通道输出。

优选地，该方法中，步骤S2进一步包括：

S2.1、设置参与混音的语音通道数量最大值为M；

S2.2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性和语音能量，将各语音通道分为本次混音的活跃语音通道和非活跃语音通道；

S2.3、根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音：

对于参与前一次混音的本次混音的活跃语音通道，将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值；

对于未参与前一次混音的本次混音的活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡入操作，将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值；

S2.4、判断本次混音的活跃语音通道数是否大于M：

若本次混音的活跃语音通道数大于M，则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序，将前M路本次混音的活跃语音通道选择为参与混音的语音通道；

若本次混音的活跃语音通道数小于或等于M，则将所有本次混音的活跃语音通道选择为参与混音的语音通道；

S2.5、更新各语音通道的历史混音信息。

优选地，该方法中，步骤S2.4中，若本次混音的活跃语音通道数大于M，在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序，将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括：

根据历史混音信息判断第M路之后的本次混音的活跃语音通道是否参与前一次混音，对于参与前一次混音的第M路之后的本次混音的活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡出操作，将进行淡出操作后的音频数据流作为该语音通道输入的音频数据流，并将该语音通道选择为参与混音的语音通道。

优选地，该方法中，步骤S2.4中，若本次混音的活跃语音通道数小于M，在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括：

根据历史混音信息判断本次混音的非活跃语音通道是否参与前一次混音：

对于参与前一次混音的本次混音的非活跃语音通道，将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值，并将该语音通道放入辅助混音队列；

对于未参与前一次混音的本次混音的非活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡入操作，将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值，并将该语音通道放入辅助混音队列；

判断辅助混音队列中的本次混音的非活跃语音通道数与本次混音的活跃语音通道数之和是否小于等于M：

若是，则将辅助混音队列中所有本次混音的非活跃语音通道选择为参与混音的语音通道；

若否，则按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序，将辅助混音队列中前N路本次混音的非活跃语音通道选择为参与混音的语音通道，N的取值为N与本次混音的活跃语音通道数之和等于M，以使得参与混音的语音通道数为M。

优选地，该方法中，所述参与混音的语音通道数量最大值M的取值为3～5。

优选地，该方法中，步骤S4进一步包括：将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据，将混音数据向未参与混音的语音通道输出，将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。

优选地，该方法中，步骤S4进一步包括：对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。

本发明还公开了一种多路语音的混音系统，包括服务器和与多个客户端，所述服务器通过语音通道与所述客户端分别连接，所述服务器被配置为：

对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制，获得平滑的各语音通道输入音频数据流；

对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息，选择参与本次混音的语音通道，并更新各语音通道的历史混音信息；

根据参与本次混音的语音通道输入的音频数据流，基于自适应归一化混音算法完成混音操作，获得混音数据；

将混音数据通过各语音通道分别向各客户端输出。

优选地，该系统中，所述服务器还被配置为：

设置参与混音的语音通道数量最大值为M；

对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性和语音能量，将各语音通道分为本次混音的活跃语音通道和非活跃语音通道；

根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音：

判断本次混音的活跃语音通道数是否大于M：

更新各语音通道的历史混音信息。

优选地，该系统中，所述参与混音的语音通道数量最大值M的取值为3～5。

本发明的有益效果如下：

本发明所述技术方案首先对解码后的网络数据包基于动态缓存和丢包隐藏技术解决网络抖动问题，获得稳定平滑的语音流，改善了声音断续现象；然后基于通道持续性、能量及历史混音信息完成混音通道选择，只选择满足条件的通道参与混音，必要时执行了淡入和淡出操作，避免了混音路数过多时产生的混乱及嘈杂；接着采用基于自适应归一化混音算法进行混音，可进一步降低溢出风险；再通过拆分混音数据得到每个通道的混音结果，可以避免分组混音时的效率低下；最后经过信号后处理技术获得最终的混音输出，经过上述一系列处理可以获得稳定、清晰的混音效果，既不会出现忽高忽低的不连续音，也不会出现刺耳的爆破音，可大幅度改善现有的混音性能，实现高质量的混音。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明；

图1示出多路语音的混音方法的流程图。

图2示出多路语音的混音方法中丢包隐藏和抖动控制的流程图。

图3示出多路语音的混音方法中选择参与本次混音的语音通道的流程图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1所示，本实施例提供的多路语音的混音方法包括如下步骤：

S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制，获得平滑的各语音通道输入音频数据流，其中，如图2所示，丢包隐藏和抖动控制主要是基于带内FEC的带外FEC技术和动态自适应控制技术；

S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算，根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息，选择参与本次混音的语音通道，并更新各语音通道的历史混音信息，其中，持续性检测可通过一阶滞后滤波器实现，语音能量计算可采用300毫秒积分能量；

S4、将混音数据向各语音通道输出。

在具体实施时，如图3所示，步骤S2进一步包括：

S2.1、设置参与混音的语音通道数量最大值为M，在具体实施时，参与混音的语音通道数量最大值M的取值为3～5，本实施例中优选取值为3；

对于未参与前一次混音的本次混音的活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡入操作，将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值，该淡入操作可有效防止最后的混音结果中出现突兀音；

S2.4、判断本次混音的活跃语音通道数是否大于M：

若本次混音的活跃语音通道数大于M，则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序，将前M路本次混音的活跃语音通道选择为参与混音的语音通道；例如，M＝3，本次混音的活跃语音通道数为5，则将按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序后的前三路本次混音的活跃语音通道选择为参与混音的语音通道；

若本次混音的活跃语音通道数小于或等于M，则将所有本次混音的活跃语音通道选择为参与混音的语音通道；例如，M＝3，本次混音的活跃语音通道数为2，则将两个本次混音的活跃语音通道都选择为参与混音的语音通道；

S2.5、更新各语音通道的历史混音信息，即在语音通道的历史混音信息中记录该语音通道是否参与本次混音。

在具体实施时，步骤S2.4中，若本次混音的活跃语音通道数大于M，在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序，将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括：

根据历史混音信息判断第M路之后的本次混音的活跃语音通道是否参与前一次混音，对于参与前一次混音的第M路之后的本次混音的活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡出操作，将进行淡出操作后的音频数据流作为该语音通道输入的音频数据流，并将该语音通道选择为参与混音的语音通道，其中，该淡出操作可有效防止最后的混音结果中出现突兀音。例如，M＝3，本次混音的活跃语音通道数为5，则在将按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序后的前三路本次混音的活跃语音通道选择为参与混音的语音通道之后，根据历史混音信息判断第三路之后的本次混音的活跃语音通道是否参与前一次混音，即根据第四路和第五路本次混音的活跃语音通道的历史混音信息分别判断第四路和第五路本次混音的活跃语音通道是否参与前一次混音。假如第四路本次混音的活跃语音通道参与了前一次混音，则对第四路语音通道输入的音频数据流的语音能量进行淡出操作，将进行淡出操作后的音频数据流作为第四路语音通道输入的音频数据流，并将第四路语音通道选择为参与混音的语音通道，需要说明的是，这种情况下，本次混音共有4路本次混音的活跃语音通道参与，第四路本次混音的活跃语音通道在更新其历史混音信息时在其历史混音信息中记录参与了本次混音；而第五路本次混音的活跃语音通道则不参与本次混音。

在具体实施时，步骤S2.4中，若本次混音的活跃语音通道数小于M，在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括：

对于未参与前一次混音的本次混音的非活跃语音通道，对该语音通道输入的音频数据流的语音能量进行淡入操作，将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值，并将该语音通道放入辅助混音队列，其中，该淡入操作可有效防止最后的混音结果中出现突兀音；

若是，则将混音队列中的所有本次混音的非活跃语音通道选择为参与混音的语音通道；

例如，M＝3，本次混音的活跃语音通道数为1、非活跃语音通道数为4，则在将一路本次混音的活跃语音通道选择为参与混音的语音通道之后，根据第一至第四路本次混音的非活跃语音通道的历史混音信息分别判断第一至第四路本次混音的非活跃语音通道是否参与前一次混音，假如第一路至第三路本次混音的非活跃语音通道参与了前一次混音，而第四路本次混音的非活跃语音通道未参与前一次混音，则将第一路至第三路本次混音的非活跃语音通道输入的音频数据流的语音能量分别作为第一路至第三路本次混音的非活跃语音通道的能量值，并将该第一路至第三路本次混音的非活跃语音通道放入辅助混音队列，对第四路本次混音的非活跃语音通道输入的音频数据流的语音能量进行淡入操作，将进行淡入操作后的音频数据流作为第四路本次混音的非活跃语音通道输入的音频数据流并将进行淡入操作后的语音能量作为第四路本次混音的非活跃语音通道的能量值，并将第四路本次混音的非活跃语音通道放入辅助混音队列。此时，辅助混音队列共包括四路本次混音的非活跃语音通道。由于辅助混音队列中的本次混音的非活跃语音通道数4与本次混音的活跃语音通道数1之和大于取值为3的M，因此，按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序，将辅助混音队列中前两路本次混音的非活跃语音通道选择为参与混音的语音通道以使得参与混音的语音通道数接近M。需要说明的是，这种情况下，本次混音共有一路本次混音的活跃语音通道和两路本次混音的非活跃语音通道参与，参与混音的一路本次混音的活跃语音通道和两路本次混音的非活跃语音通道在更新其历史混音信息时均在其历史混音信息中记录参与了本次混音。假如，M＝3，本次混音的活跃语音通道数为1、非活跃语音通道数也为1，则将混音队列中的一路本次混音的非活跃语音通道选择为参与混音的语音通道，这种情况下，本次混音只有一路本次混音的活跃语音通道和一路本次混音的非活跃语音通道参与。

在具体实施时，步骤S4进一步包括：将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据，将混音数据向未参与混音的语音通道输出，将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。

在具体实施时，步骤S4进一步包括：对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。

本实施例提供的多路语音的混音方法可应用于基VOIP通信系统的语音会议的集中式混音方案中，可大幅度改善现有的混音性能，实现高质量的混音。

本实施例还提供了一种可执行上述方法的多路语音的混音系统，包括服务器和与多个客户端，服务器通过语音通道与客户端分别连接，服务器被配置为：

将混音数据通过各语音通道分别向各客户端输出。

在具体实施时，服务器还被配置为：

设置参与混音的语音通道数量最大值为M，其中，参与混音的语音通道数量最大值M的取值为3～5，本实施例中优选取值为3；

判断本次混音的活跃语音通道数是否大于M：

更新各语音通道的历史混音信息。

本实施例提供的多路语音的混音系统可应用于基VOIP通信系统的语音会议的集中式混音方案中，可大幅度改善现有的混音性能，实现高质量的混音。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种多路语音的混音方法，其特征在于，包括：

S4、将混音数据向各语音通道输出；

其中，步骤S2进一步包括：

S2.1、设置参与混音的语音通道数量最大值为M；

S2.4、判断本次混音的活跃语音通道数是否大于M：

若本次混音的活跃语音通道数小于或等于M，则将所有本次混音的活跃语音通道选择为参与混音的语音通道；其中，若本次混音的活跃语音通道数小于M，则在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后：

若否，则按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序，将辅助混音队列中前N路本次混音的非活跃语音通道选择为参与混音的语音通道，N的取值为N与本次混音的活跃语音通道数之和等于M；

S2.5、更新各语音通道的历史混音信息。

2.根据权利要求1所述的多路语音的混音方法，其特征在于，步骤S2.4中，若本次混音的活跃语音通道数大于M，在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序，将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括：

3.根据权利要求1所述的多路语音的混音方法，其特征在于，所述参与混音的语音通道数量最大值M的取值为3～5。

4.根据权利要求1所述的多路语音的混音方法，其特征在于，步骤S4进一步包括：将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据，将混音数据向未参与混音的语音通道输出，将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。

5.根据权利要求1所述的多路语音的混音方法，其特征在于，步骤S4进一步包括：对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。

6.一种执行如权利要求1-5中任一项所述的多路语音的混音方法的多路语音的混音系统，包括服务器和多个客户端，所述服务器通过语音通道与所述客户端分别连接，其特征在于，所述服务器被配置为：

将混音数据通过各语音通道分别向各客户端输出。

7.根据权利要求6所述的多路语音的混音系统，其特征在于，所述服务器还被配置为：

设置参与混音的语音通道数量最大值为M；

判断本次混音的活跃语音通道数是否大于M：

更新各语音通道的历史混音信息。

8.根据权利要求7所述的多路语音的混音系统，其特征在于，所述参与混音的语音通道数量最大值M的取值为3～5。