CN107800902B - 多路语音的混音方法及系统 - Google Patents

多路语音的混音方法及系统 Download PDF

Info

Publication number
CN107800902B
CN107800902B CN201710830888.5A CN201710830888A CN107800902B CN 107800902 B CN107800902 B CN 107800902B CN 201710830888 A CN201710830888 A CN 201710830888A CN 107800902 B CN107800902 B CN 107800902B
Authority
CN
China
Prior art keywords
audio mixing
voice
voice channel
channel
mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710830888.5A
Other languages
English (en)
Other versions
CN107800902A (zh
Inventor
曾国卿
许志强
王寅
李强
雷显波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronglian Ets Information Technology Co Ltd
Original Assignee
Beijing Ronglian Ets Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronglian Ets Information Technology Co Ltd filed Critical Beijing Ronglian Ets Information Technology Co Ltd
Priority to CN201710830888.5A priority Critical patent/CN107800902B/zh
Publication of CN107800902A publication Critical patent/CN107800902A/zh
Application granted granted Critical
Publication of CN107800902B publication Critical patent/CN107800902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种多路语音的混音方法及系统,包括:S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;S3、根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;S4、将混音数据向各语音通道输出。本发明可实现高质量的混音。

Description

多路语音的混音方法及系统
技术领域
本发明涉及通信技术领域。更具体地,涉及一种多路语音的混音方法及系统。
背景技术
近年来,随着VOIP技术的进步和发展,语音会议的需求越来越多,语音会议可以实现多个用户同时进行语音通信,在通信领域中具有广泛的应用前景。一般而言,语音会议的实现有两种方案:集中式混音方案和分布式混音方案。所谓集中式混音方案,即基于服务器——客户端的架构技术,将所有的客户端都与服务器相连,由服务器统一进行混音,再经由网络中的语言通道分发给各客户端,实现多人语音通信。所谓分布式混音方案,即混音由各个客户端独立完成,没有服务器参与。显然,与分布式混音方案相比,集中式混音方案可以节省大量带宽,对各个客户端的性能要求不高,具有方便维护和升级优点,因此集中式混音方案被广泛使用。
在集中式混音方案中,现有的混音方法是将所有通话者通过客户端和语音通道发送至服务器的音频数据流(语音信号)在时域进行线性叠加。其存在的问题是:叠加后的信号很容易溢出,一旦产生溢出,就需要进行截断处理,即超过上限的值被设置为上限值,超过下限的值被设置为下限值。这种处理显然会破坏原有信号的波形,会引入噪声,听起来嘈杂不堪,声音忽高忽低,有时会出现刺耳的爆破音,严重影响通话的主观感受。并且随着参与混音的通话者的增加(客户端和语音通道也同时增加),这种溢出频率会更加频繁,最终导致完全不能分辨有效的语音。特别是对于基于VOIP技术的语音会议,由于网络本身固有的抖动性,声音容易会出现丢包和不连续,如果不进行处理,往往会导致更差的混音效果。因此,设计一种高质量的混音方法是有迫切需求的,然而事实上,即便是采用最优秀的混音算法,在实际应用中也可能会出现混音效果不理想的情况,这显然不是混音算法本身的问题,而是混音策略(方案)的问题,涉及到多个方面的整体设计和优化。
因此,需要提供一种可应用与基于VOIP通信系统的语音会议的可实现高质量混音的多路语音的混音方法及系统。
发明内容
本发明的目的在于提供一种多路语音的混音方法及系统,以实现高质量的混音。
为达到上述目的,本发明采用下述技术方案:
本发明公开了一种多路语音的混音方法,包括:
S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;
S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;
S3、根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
S4、将混音数据向各语音通道输出。
优选地,该方法中,步骤S2进一步包括:
S2.1、设置参与混音的语音通道数量最大值为M;
S2.2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
S2.3、根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值;
S2.4、判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;
S2.5、更新各语音通道的历史混音信息。
优选地,该方法中,步骤S2.4中,若本次混音的活跃语音通道数大于M,在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括:
根据历史混音信息判断第M路之后的本次混音的活跃语音通道是否参与前一次混音,对于参与前一次混音的第M路之后的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡出操作,将进行淡出操作后的音频数据流作为该语音通道输入的音频数据流,并将该语音通道选择为参与混音的语音通道。
优选地,该方法中,步骤S2.4中,若本次混音的活跃语音通道数小于M,在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括:
根据历史混音信息判断本次混音的非活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的非活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列;
对于未参与前一次混音的本次混音的非活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列;
判断辅助混音队列中的本次混音的非活跃语音通道数与本次混音的活跃语音通道数之和是否小于等于M:
若是,则将辅助混音队列中所有本次混音的非活跃语音通道选择为参与混音的语音通道;
若否,则按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序,将辅助混音队列中前N路本次混音的非活跃语音通道选择为参与混音的语音通道,N的取值为N与本次混音的活跃语音通道数之和等于M,以使得参与混音的语音通道数为M。
优选地,该方法中,所述参与混音的语音通道数量最大值M的取值为3~5。
优选地,该方法中,步骤S4进一步包括:将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据,将混音数据向未参与混音的语音通道输出,将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。
优选地,该方法中,步骤S4进一步包括:对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。
本发明还公开了一种多路语音的混音系统,包括服务器和与多个客户端,所述服务器通过语音通道与所述客户端分别连接,所述服务器被配置为:
对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;
根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
将混音数据通过各语音通道分别向各客户端输出。
优选地,该系统中,所述服务器还被配置为:
设置参与混音的语音通道数量最大值为M;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值;
判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;
更新各语音通道的历史混音信息。
优选地,该系统中,所述参与混音的语音通道数量最大值M的取值为3~5。
本发明的有益效果如下:
本发明所述技术方案首先对解码后的网络数据包基于动态缓存和丢包隐藏技术解决网络抖动问题,获得稳定平滑的语音流,改善了声音断续现象;然后基于通道持续性、能量及历史混音信息完成混音通道选择,只选择满足条件的通道参与混音,必要时执行了淡入和淡出操作,避免了混音路数过多时产生的混乱及嘈杂;接着采用基于自适应归一化混音算法进行混音,可进一步降低溢出风险;再通过拆分混音数据得到每个通道的混音结果,可以避免分组混音时的效率低下;最后经过信号后处理技术获得最终的混音输出,经过上述一系列处理可以获得稳定、清晰的混音效果,既不会出现忽高忽低的不连续音,也不会出现刺耳的爆破音,可大幅度改善现有的混音性能,实现高质量的混音。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出多路语音的混音方法的流程图。
图2示出多路语音的混音方法中丢包隐藏和抖动控制的流程图。
图3示出多路语音的混音方法中选择参与本次混音的语音通道的流程图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
如图1所示,本实施例提供的多路语音的混音方法包括如下步骤:
S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流,其中,如图2所示,丢包隐藏和抖动控制主要是基于带内FEC的带外FEC技术和动态自适应控制技术;
S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息,其中,持续性检测可通过一阶滞后滤波器实现,语音能量计算可采用300毫秒积分能量;
S3、根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
S4、将混音数据向各语音通道输出。
在具体实施时,如图3所示,步骤S2进一步包括:
S2.1、设置参与混音的语音通道数量最大值为M,在具体实施时,参与混音的语音通道数量最大值M的取值为3~5,本实施例中优选取值为3;
S2.2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
S2.3、根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值,该淡入操作可有效防止最后的混音结果中出现突兀音;
S2.4、判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;例如,M=3,本次混音的活跃语音通道数为5,则将按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序后的前三路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;例如,M=3,本次混音的活跃语音通道数为2,则将两个本次混音的活跃语音通道都选择为参与混音的语音通道;
S2.5、更新各语音通道的历史混音信息,即在语音通道的历史混音信息中记录该语音通道是否参与本次混音。
在具体实施时,步骤S2.4中,若本次混音的活跃语音通道数大于M,在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括:
根据历史混音信息判断第M路之后的本次混音的活跃语音通道是否参与前一次混音,对于参与前一次混音的第M路之后的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡出操作,将进行淡出操作后的音频数据流作为该语音通道输入的音频数据流,并将该语音通道选择为参与混音的语音通道,其中,该淡出操作可有效防止最后的混音结果中出现突兀音。例如,M=3,本次混音的活跃语音通道数为5,则在将按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序后的前三路本次混音的活跃语音通道选择为参与混音的语音通道之后,根据历史混音信息判断第三路之后的本次混音的活跃语音通道是否参与前一次混音,即根据第四路和第五路本次混音的活跃语音通道的历史混音信息分别判断第四路和第五路本次混音的活跃语音通道是否参与前一次混音。假如第四路本次混音的活跃语音通道参与了前一次混音,则对第四路语音通道输入的音频数据流的语音能量进行淡出操作,将进行淡出操作后的音频数据流作为第四路语音通道输入的音频数据流,并将第四路语音通道选择为参与混音的语音通道,需要说明的是,这种情况下,本次混音共有4路本次混音的活跃语音通道参与,第四路本次混音的活跃语音通道在更新其历史混音信息时在其历史混音信息中记录参与了本次混音;而第五路本次混音的活跃语音通道则不参与本次混音。
在具体实施时,步骤S2.4中,若本次混音的活跃语音通道数小于M,在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括:
根据历史混音信息判断本次混音的非活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的非活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列;
对于未参与前一次混音的本次混音的非活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列,其中,该淡入操作可有效防止最后的混音结果中出现突兀音;
判断辅助混音队列中的本次混音的非活跃语音通道数与本次混音的活跃语音通道数之和是否小于等于M:
若是,则将混音队列中的所有本次混音的非活跃语音通道选择为参与混音的语音通道;
若否,则按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序,将辅助混音队列中前N路本次混音的非活跃语音通道选择为参与混音的语音通道,N的取值为N与本次混音的活跃语音通道数之和等于M,以使得参与混音的语音通道数为M。
例如,M=3,本次混音的活跃语音通道数为1、非活跃语音通道数为4,则在将一路本次混音的活跃语音通道选择为参与混音的语音通道之后,根据第一至第四路本次混音的非活跃语音通道的历史混音信息分别判断第一至第四路本次混音的非活跃语音通道是否参与前一次混音,假如第一路至第三路本次混音的非活跃语音通道参与了前一次混音,而第四路本次混音的非活跃语音通道未参与前一次混音,则将第一路至第三路本次混音的非活跃语音通道输入的音频数据流的语音能量分别作为第一路至第三路本次混音的非活跃语音通道的能量值,并将该第一路至第三路本次混音的非活跃语音通道放入辅助混音队列,对第四路本次混音的非活跃语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为第四路本次混音的非活跃语音通道输入的音频数据流并将进行淡入操作后的语音能量作为第四路本次混音的非活跃语音通道的能量值,并将第四路本次混音的非活跃语音通道放入辅助混音队列。此时,辅助混音队列共包括四路本次混音的非活跃语音通道。由于辅助混音队列中的本次混音的非活跃语音通道数4与本次混音的活跃语音通道数1之和大于取值为3的M,因此,按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序,将辅助混音队列中前两路本次混音的非活跃语音通道选择为参与混音的语音通道以使得参与混音的语音通道数接近M。需要说明的是,这种情况下,本次混音共有一路本次混音的活跃语音通道和两路本次混音的非活跃语音通道参与,参与混音的一路本次混音的活跃语音通道和两路本次混音的非活跃语音通道在更新其历史混音信息时均在其历史混音信息中记录参与了本次混音。假如,M=3,本次混音的活跃语音通道数为1、非活跃语音通道数也为1,则将混音队列中的一路本次混音的非活跃语音通道选择为参与混音的语音通道,这种情况下,本次混音只有一路本次混音的活跃语音通道和一路本次混音的非活跃语音通道参与。
在具体实施时,步骤S4进一步包括:将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据,将混音数据向未参与混音的语音通道输出,将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。
在具体实施时,步骤S4进一步包括:对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。
本实施例提供的多路语音的混音方法可应用于基VOIP通信系统的语音会议的集中式混音方案中,可大幅度改善现有的混音性能,实现高质量的混音。
本实施例还提供了一种可执行上述方法的多路语音的混音系统,包括服务器和与多个客户端,服务器通过语音通道与客户端分别连接,服务器被配置为:
对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;
根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
将混音数据通过各语音通道分别向各客户端输出。
在具体实施时,服务器还被配置为:
设置参与混音的语音通道数量最大值为M,其中,参与混音的语音通道数量最大值M的取值为3~5,本实施例中优选取值为3;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值;
判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;
更新各语音通道的历史混音信息。
本实施例提供的多路语音的混音系统可应用于基VOIP通信系统的语音会议的集中式混音方案中,可大幅度改善现有的混音性能,实现高质量的混音。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (8)

1.一种多路语音的混音方法,其特征在于,包括:
S1、对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;
S2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;
S3、根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
S4、将混音数据向各语音通道输出;
其中,步骤S2进一步包括:
S2.1、设置参与混音的语音通道数量最大值为M;
S2.2、对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
S2.3、根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值;
S2.4、判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;其中,若本次混音的活跃语音通道数小于M,则在将所有本次混音的活跃语音通道选择为参与混音的语音通道之后:
根据历史混音信息判断本次混音的非活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的非活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列;
对于未参与前一次混音的本次混音的非活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值,并将该语音通道放入辅助混音队列;
判断辅助混音队列中的本次混音的非活跃语音通道数与本次混音的活跃语音通道数之和是否小于等于M:
若是,则将辅助混音队列中所有本次混音的非活跃语音通道选择为参与混音的语音通道;
若否,则按语音通道的能量值由大至小对辅助混音队列中的本次混音的非活跃语音通道进行排序,将辅助混音队列中前N路本次混音的非活跃语音通道选择为参与混音的语音通道,N的取值为N与本次混音的活跃语音通道数之和等于M;
S2.5、更新各语音通道的历史混音信息。
2.根据权利要求1所述的多路语音的混音方法,其特征在于,步骤S2.4中,若本次混音的活跃语音通道数大于M,在按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道之后进一步包括:
根据历史混音信息判断第M路之后的本次混音的活跃语音通道是否参与前一次混音,对于参与前一次混音的第M路之后的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡出操作,将进行淡出操作后的音频数据流作为该语音通道输入的音频数据流,并将该语音通道选择为参与混音的语音通道。
3.根据权利要求1所述的多路语音的混音方法,其特征在于,所述参与混音的语音通道数量最大值M的取值为3~5。
4.根据权利要求1所述的多路语音的混音方法,其特征在于,步骤S4进一步包括:将混音数据拆分为参与混音的语音通道输入的音频数据流对应的混音子数据,将混音数据向未参与混音的语音通道输出,将去除自身对应的混音子数据后的混音数据向参与混音的语音通道输出。
5.根据权利要求1所述的多路语音的混音方法,其特征在于,步骤S4进一步包括:对混音数据进行降噪、自动增益调整和平滑处理后将混音数据向各语音通道输出。
6.一种执行如权利要求1-5中任一项所述的多路语音的混音方法的多路语音的混音系统,包括服务器和多个客户端,所述服务器通过语音通道与所述客户端分别连接,其特征在于,所述服务器被配置为:
对各语音通道输入的网络数据包进行解码、丢包隐藏和抖动控制,获得平滑的各语音通道输入音频数据流;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性、语音能量和各语音通道的历史混音信息,选择参与本次混音的语音通道,并更新各语音通道的历史混音信息;
根据参与本次混音的语音通道输入的音频数据流,基于自适应归一化混音算法完成混音操作,获得混音数据;
将混音数据通过各语音通道分别向各客户端输出。
7.根据权利要求6所述的多路语音的混音系统,其特征在于,所述服务器还被配置为:
设置参与混音的语音通道数量最大值为M;
对各语音通道输入的音频数据流进行持续性检测和语音能量计算,根据各语音通道输入音频数据流的持续性和语音能量,将各语音通道分为本次混音的活跃语音通道和非活跃语音通道;
根据历史混音信息判断本次混音的活跃语音通道是否参与前一次混音:
对于参与前一次混音的本次混音的活跃语音通道,将该语音通道输入的音频数据流的语音能量作为该语音通道的能量值;
对于未参与前一次混音的本次混音的活跃语音通道,对该语音通道输入的音频数据流的语音能量进行淡入操作,将进行淡入操作后的音频数据流作为该语音通道输入的音频数据流并将进行淡入操作后的语音能量作为该语音通道的能量值;
判断本次混音的活跃语音通道数是否大于M:
若本次混音的活跃语音通道数大于M,则按语音通道的能量值由大至小对本次混音的活跃语音通道进行排序,将前M路本次混音的活跃语音通道选择为参与混音的语音通道;
若本次混音的活跃语音通道数小于或等于M,则将所有本次混音的活跃语音通道选择为参与混音的语音通道;
更新各语音通道的历史混音信息。
8.根据权利要求7所述的多路语音的混音系统,其特征在于,所述参与混音的语音通道数量最大值M的取值为3~5。
CN201710830888.5A 2017-09-15 2017-09-15 多路语音的混音方法及系统 Active CN107800902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710830888.5A CN107800902B (zh) 2017-09-15 2017-09-15 多路语音的混音方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710830888.5A CN107800902B (zh) 2017-09-15 2017-09-15 多路语音的混音方法及系统

Publications (2)

Publication Number Publication Date
CN107800902A CN107800902A (zh) 2018-03-13
CN107800902B true CN107800902B (zh) 2019-09-13

Family

ID=61532168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710830888.5A Active CN107800902B (zh) 2017-09-15 2017-09-15 多路语音的混音方法及系统

Country Status (1)

Country Link
CN (1) CN107800902B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910892A (zh) * 2018-09-17 2020-03-24 北京京东尚科信息技术有限公司 会议系统终端、音频数据处理方法和远程会议系统
CN109510905B (zh) * 2018-12-06 2020-10-30 中通天鸿(北京)通信科技股份有限公司 多路语音的混音方法及系统
CN109901811B (zh) * 2019-02-26 2022-09-06 北京华夏电通科技股份有限公司 应用于数字化庭审中的混音方法及装置
CN109920445B (zh) * 2019-03-04 2022-03-11 北京佳讯飞鸿电气股份有限公司 一种混音方法、装置及设备
CN112104836A (zh) * 2020-11-23 2020-12-18 全时云商务服务股份有限公司 一种音频服务器混音方法、系统、存储介质及设备
CN112885329B (zh) * 2021-02-02 2023-10-31 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN114173011B (zh) * 2021-11-29 2024-03-19 河北远东通信系统工程有限公司 一种面向协同指挥媒体引擎的混音控制方法
CN114285830B (zh) * 2021-12-21 2024-05-24 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6662211B1 (en) * 2000-04-07 2003-12-09 Lucent Technologies Inc. Method and system for providing conferencing services in a telecommunications system
CN1277401C (zh) * 2002-10-24 2006-09-27 华为技术有限公司 电话会议混音方法
US7945006B2 (en) * 2004-06-24 2011-05-17 Alcatel-Lucent Usa Inc. Data-driven method and apparatus for real-time mixing of multichannel signals in a media server
CN101557443B (zh) * 2009-05-11 2012-02-22 重庆金美通信有限责任公司 数字电话会议的桥路运算方法
CN102056053B (zh) * 2010-12-17 2015-04-01 中兴通讯股份有限公司 一种多话筒混音方法及装置
CN103248774B (zh) * 2012-02-13 2015-02-11 陈剑勇 一种VoIP服务器同步混音方法及系统

Also Published As

Publication number Publication date
CN107800902A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN107800902B (zh) 多路语音的混音方法及系统
US20190174001A1 (en) Method for Carrying Out an Audio Conference, Audio Conference Device, and Method for Switching Between Encoders
DE69923602T2 (de) Adaptiver Empfänger für drahtlose Kommunikation
CN104704814B (zh) 传送在视频会议中所交换信息的方法和视频会议系统
CN109389989B (zh) 混音方法、装置、设备及存储介质
CN104486518B (zh) 一种带宽受限网络环境下的电话会议分布式混音方法
CN103889061B (zh) 一种基于多载波通信的d2d用户资源分配方法
US20130006622A1 (en) Adaptive conference comfort noise
US20140169568A1 (en) Correlation based filter adaptation
CN103327014A (zh) 一种语音处理方法、装置及系统
EP3984031A1 (en) Automatic gain control based on machine learning level estimation of the desired signal
CN107079474B (zh) 用于降低静默描述符帧发送速率以改善多sim无线通信设备中的性能的装置和方法
CN103024224B (zh) 一种多人语音通信中的语音控制方法及装置
CN110060696A (zh) 混音方法及装置、终端及可读存储介质
CN111628992B (zh) 一种多人通话控制方法、装置、电子设备及存储介质
CN109510905A (zh) 多路语音的混音方法及系统
CN109327633B (zh) 混音方法、装置、设备及存储介质
CN114615294A (zh) 一种电力物联网关边缘计算方法
CN104616665B (zh) 基于语音类似度的混音方法
CN105120306A (zh) 上麦时长控制方法及装置
CN104349244B (zh) 一种信息处理方法及电子设备
EP2047632B1 (de) Verfahren zum durchführen einer sprachkonferenz und sprachkonferenzsystem
US20140185785A1 (en) Collaborative volume management
AU2013204547B2 (en) Audio signal processing method and electronic device supporting the same
CN106878230A (zh) 网络电话会议中的音频处理方法、服务器以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant