CN103680508B - 多级混音的动态分配方法及动态分配装置 - Google Patents
多级混音的动态分配方法及动态分配装置 Download PDFInfo
- Publication number
- CN103680508B CN103680508B CN201310657765.8A CN201310657765A CN103680508B CN 103680508 B CN103680508 B CN 103680508B CN 201310657765 A CN201310657765 A CN 201310657765A CN 103680508 B CN103680508 B CN 103680508B
- Authority
- CN
- China
- Prior art keywords
- audio mixing
- speech
- energy
- voice
- voice channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了多级混音的动态分配方法及动态分配装置,动态分配方法包括A、采集各语音通道的语音数据,并根据所述语音数据计算出各语音通道的语音能量;B、比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式组合;C、将组合后的两个语音能量对应的语音通道分配在一起进行多级混音。本发明通过比较各个语音通道上的语音能量,将各语音通道合理分配,使混音后的输出能量较为均衡,再对均衡后的语音进行混音能提高最终的混音效果,从而改善音质。
Description
技术领域
本发明涉及声音处理技术,特别涉及一种多级混音的动态分配方法及动态分配装置。
背景技术
随着网络通信技术的发展,多人语音系统的研究和应用已成为当前热点之一。多人语音系统在人们的工作和娱乐中占有重要作用:例如,网游玩家在游戏对战时采用多人语音联络,QQ聊天时可使用多人语音聊天,进行网络会议时需要多人语音发言。多人语音系统最重要的技术之一是多级混音,主要是对多个来源的音频信号进行混音,每个音频信号占有一个通道。
现有技术中将每两个通道组合、固定输入一个子混音器中进行一级混音,将多个混音器输出的音频信号整合后全部输入总混音器中进行总混音。如图1所示,假设共有四个通道,通道1和通道2进入混音器1,通道3和通道4进入混音器2。通道1和通道2混音后的输出能量、以及通道3和通道4混音后的输出能量均输入混音器3中进行最后的混音。从图1中可以看出,在时刻t时,通道1和通道2的语音数据较多,通道3和通道4的语音数据很少。因此混音器1的输出能量比混音器2的输出能量大得多。由于目前均是采用这种固定通道的混音方式,每个通道内音频信号的语音数据的大小不同,使得混音后的输出能量差距较大、难以进行有效的增益调节和语音去噪等处理,从而导致混音效果较差、音质不好。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种多级混音的动态分配方法及动态分配装置,能够根据语音能量的大小将语音通道动态分配到混音器上,使每个混音器的输出能量较为均衡、从而提高混音效果。
为了达到上述目的,本发明采取了以下技术方案:
一种多级混音的动态分配方法,其包括:
A、采集各语音通道的语音数据,并根据所述语音数据计算出各语音通道的语音能量;
B、比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式两两组合;
C、将每组中两个语音能量对应的语音通道分配在一起进行多级混音。
所述的多级混音的动态分配方法中,在所述步骤A具体包括:
A1、每隔第一预设时间作为采样时刻;
A2、采集采样时刻前各语音通道在第二预设时间内的语音信号;
A3、对第二预设时间内的语音信号进行能量求和获得语音能量。
所述的多级混音的动态分配方法中,所述步骤A3中,能量求和的公式为E=∑s(n)*s(n),其中,所述n为第二预设时间内采样点的个数,s(n)为第n个采样点的采样值,所述n为自然数。
所述的多级混音的动态分配方法中,所述步骤B中,所述语音能量按照一大一小的方式组合具体包括:将序列中语音能量的最大值与最小值组合,将语音能量的次大值与次小值组合。
所述的多级混音的动态分配方法中,在所述步骤C具体包括:
C1、将组合后的两个语音能量对应的语音通道分配在一起进行一级混音;
C2、将各一级混音后的语音数据整合在一起进行二级混音,将二级混音后的语音数据发送给所有语音通道。
所述的多级混音的动态分配方法中,在所述步骤C2中,将语音数据发送给所有语音通道之前还包括:采集用户的语音信号,在语音数据中过滤该用户的语音信号。
一种用于实现所述的多级混音的动态分配方法的动态分配装置,其包括采集模块和处理模块;
所述采集模块用于采集各语音通道的语音数据;
所述处理模块包括:
能量计算单元,用于根据所述语音数据计算出各语音通道的语音能量;
分配单元,用于比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式组合,将组合后的两个语音能量对应的语音通道分配在一起输入混单元中;
混音单元,用于对分配后的语音数据进行多级混音;
所述采集模块、能量计算单元、分配单元、混音单元依次连接。
所述的动态分配装置中,所述混音单元包括:
子混音器,用于对组合后的两个语音能量对应的语音通道进行一级混音;
主混音器,用于对各一级混音后的语音数据整合在一起进行二级混音;
所述子混音器连接主混音器。
所述的动态分配装置中,还包括混音发送模块,用于将二级混音后的语音数据发送给所有语音通道;所述混音发送模块连接混音单元的主混音器。
所述的动态分配装置中,还包括语音采样模块,用于采集用户的语音信号;所述混音发送模块还用于在语音数据发送给所有语音通道之前,将语音数据中过滤该用户的语音信号;所述语音采样模块连接混音发送模块。
相较于现有技术,本发明提供的多级混音的动态分配方法及动态分配装置,对各语音通道的语音数据进行采集后计算出其语音能量,比较各语音能量的大小并进行排序,将序列中语音能量按照一大一小的方式组合,将组合后的两个语音能量对应的语音通道分配在一起进行多级混音。通过比较各个语音通道上的语音能量,将各语音通道合理分配,使混音后的输出能量较为均衡,再对均衡后的语音进行混音能提高最终的混音效果,从而改善音质。
附图说明
图1为现有技术多级混音的示意图。
图2为本发明多级混音的动态分配方法的较佳实施例的流程图。
图3为本发明多级混音的动态分配方法的示意图。
图4为本发明多级混音的动态分配装置的结构框图。
具体实施方式
本发明提供一种多级混音的动态分配方法及动态分配装置,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供的多级混音的动态分配方法,通过比较每个语音通道上的语音能量,将所述语音能量按照一大一小的方式进行两两分组,每一组分配到一个混音器上,使每个混音器的输出能量较为均衡,再对所述混音器输出的语音数据进行混音后输出。本发明中语音通道不是固定输入某一混音器中,而是根据该语音通道内语音能量的大小不断改变组合方式,自动调节各个混音器的输入;使混音器的输出能量较为均衡,从而提高最终混音效果,改善音质。请参阅图2,所述多级混音的动态分配方法包括:
步骤S100、采集各语音通道的语音数据,并根据所述语音数据计算出各语音通道的语音能量;
步骤S200、比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式两两组合;
步骤S300、将每组中两个语音能量对应的语音通道分配在一起进行多级混音。
本实施例通过采集语音数据来作为语音能量的计算依据。所述步骤S100具体包括:第一步、每隔第一预设时间作为采样时刻;第二步、采集采样时刻前各语音通道在第二预设时间内的语音数据;第三步、对第二预设时间内的语音数据进行能量求和获得语音能量。
当语音通道内开始传输语音数据时进行计时,在采样时刻到达后,采集采样时刻前第二预设时间内的语音数据,并开始第二次计时。本实施例中,所述第二预设时间为10ms~20ms,第一预设时间可以等于第二预设时间,也可以大于第二预设时间。
当第一预设时间等于第二预设时间时,相当于将语音通道内传输的语音数据按照第二预设时间划分为多段,对每个第二预设时间段内的语音数据进行能量计算,得到的语音能量作为语音通道分配的依据。能量求和的公式为E=∑s(n)*s(n),其中,所述n为第二预设时间内采样点的个数,s(n)为第n个采样点的采样值,所述n为自然数。所述n的取值与语音信号的频率相关。
为了提高语音能量的准确性,所述第一预设时间和第二预设时间相等且均为10ms。即将各语音通道的语音数据按照每10ms划分为多个数据段。假设语音信号的频率为16kHz,表示10ms内有160个采样点。则语音能量=s(1)2+s(2)2+s(3)2+……+s(160)2,其中,s(1)表示第1个采样点的采样值,s(2)表示第2个采样点的采样值,以此类推,s(160)表示第160个采样点的采样值。将所有采样点的平方和相加即可得到10ms内的语音能量。
计算出各个语音通道的语音能量后,即可比较能量大小进行排序,如按从大到小或从小到大的方式排列。本发明将序列中语音能量按照一大一小的方式组合:具体是将序列中语音能量的最大值与最小值组合,将语音能量的次大值与次小值组合,以此类推。采用大、小组合方式能使每组混音后的输出能量较为均衡,方便后续进行增益调节和去噪处理,从而提高混音效果。
在步骤S300中,将组合后的两个语音能量对应的语音通道分配在一起进行一级混音。即是将一组的两个语音通道输入同一个子混音器中,将另一组的两个语音通道同时输入另一个子混音器中。在子混音器中进行一级混音。
接着将各一级混音后的语音数据整合在一起进行二级混音,将二级混音后的语音数据发送给所有语音通道。即将各个子混音器输出的语音数据均输入一个主混音器中进行二级混音。
子混音器的个数与语音通道的个数有关。当语音通道的个数为偶数时,子混音器的个数等于语音通道的个数除以2的商;当语音通道的个数为奇数时,子混音器的个数还是等于语音通道的个数除以2的商,此时有余数0.5,表示序列中有一个语音能量为中间值的语音通道独立出来,将其直接进入主混音器中即可,无需进行一级混音。
将语音数据发送给所有语音通道之前还需要采集用户的语音信号,在语音数据中过滤该用户的语音信号。以剔除用户自身的语音信号,使用户仅听到别人的声音。
请同时参阅图3,本发明以4个语音通道,语音信号的频率为16kHz为例来具体阐述工作原理。对第1语音通道、第2语音通道、第3语音通道、第4语音通道均在时刻t的前10ms内的160个采样点的语音数据进行采集,根据公式E=∑s(n)*s(n)计算出语音能量E1(对应第1语音通道)、语音能量E2(对应第2语音通道)、语音能量E3(对应第3语音通道)、语音能量E4(对应第4语音通道),按照从小到大的顺序排序后得到:语音能量E4<语音能量E3<语音能量E1<语音能量E2。将第1语音通道和第3语音通道分配在一起进入混音器1(相当于子混音器)中进行一级混音,将第2语音通道和第4语音通道分配在一起进入混音器2(相当于子混音器)中进行一级混音,将混音器1和混音器2的输出结果输入混音器3(相当于主混音器)中进行二级混音后输出,过滤用户的语音信号后发送给所有语音通道。
请参阅图4,基于上述的多级混音的动态分配方法,本发明还相应提供一种动态分配装置,其包括采集模块10和处理模块20,所述处理模块20包括能量计算单元201、分配单元202、混音单元203。所述采集模块10、能量计算单元201、分配单元202、混音单元203依次连接。
所述采集模块10采集各语音通道的语音数据,能量计算单元201根据所述语音数据计算出各语音通道的语音能量,分配单元202比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式组合,将组合后的两个语音能量对应的语音通道分配在一起输入混单元203中,混音单元203对分配后的语音数据进行多级混音。
其中,所述混音单元203包括子混音器和主混音器,子混音器连接主混音器。子混音器用于对上述组合后的两个语音能量对应的语音通道进行一级混音。主混音器用于对各一级混音后的语音数据整合在一起进行二级混音。子混音器的个数与语音通道的个数有关,子混音器的个数等于语音通道的个数除以2的商,主混音器仅1个。
所述动态分配装置还包括混音发送模块30,其与混音单元203的主混音器连接,将二级混音后(即主混音器输出)的语音数据发送给所有语音通道。使其他用户能听到别人的声音。
在具体实施时,为了使用户仅听到别人的声音,剔除用户自己的声音,所述还括包动态分配装置语音采样模块40,其与混音发送模块30连接,用于采集用户的语音信号。所述混音发送模块30还用于在语音数据发送给所有语音通道之前,将语音数据中过滤该用户的语音信号。
综上所述,本发明对各语音通道上第二预设时间内(如10ms内)的语音数据进行采集,计算出第二预设时间段内的语音能量,通过比较每个语音通道上的语音能量的大小并进行排序,将序列中所述语音能量按照一大一小的方式进行两两分组,每一组分配到一个子混音器上进行一级混音,使混音后的输出能量较为均衡,再将多个子混音器输出的均衡后的语音输入主混音器中进行二级混音后输出;本发明根据语音能量的大小不断改变语音通道的组合方式,自动调节各个子混音器的输入,使子混音器的输出能量较为均衡,从而提高最终混音效果,改善音质。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种多级混音的动态分配方法,其特征在于,包括:
A、采集各语音通道的语音数据,并根据所述语音数据计算出各语音通道的语音能量;
B、比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式两两组合进行分组;
C、将每组中两个语音能量对应的语音通道分配在一起进行多级混音;每一组分配到一个混音器上,使每个混音器的输出能量均衡,再对混音器输出的语音数据进行混音后输出。
2.根据权利要求1所述的多级混音的动态分配方法,其特征在于,在所述步骤A具体包括:
A1、每隔第一预设时间作为采样时刻;
A2、采集采样时刻前各语音通道在第二预设时间内的语音信号;
A3、对第二预设时间内的语音信号进行能量求和获得语音能量。
3.根据权利要求2所述的多级混音的动态分配方法,其特征在于,所述步骤A3中,能量求和的公式为E=∑s(n)*s(n),其中,所述n为第二预设时间内采样点的个数,s(n)为第n个采样点的采样值,所述n为自然数。
4.根据权利要求1所述的多级混音的动态分配方法,其特征在于,所述步骤B中,所述语音能量按照一大一小的方式组合具体包括:将序列中语音能量的最大值与最小值组合,将语音能量的次大值与次小值组合。
5.根据权利要求1所述的多级混音的动态分配方法,其特征在于,在所述步骤C具体包括:
C1、将组合后的两个语音能量对应的语音通道分配在一起进行一级混音;
C2、将各一级混音后的语音数据整合在一起进行二级混音,将二级混音后的语音数据发送给所有语音通道。
6.根据权利要求5所述的多级混音的动态分配方法,其特征在于,在所述步骤C2中,将语音数据发送给所有语音通道之前还包括:采集用户的语音信号,在语音数据中过滤该用户的语音信号。
7.一种用于实现权利要求1所述的多级混音的动态分配方法的动态分配装置,其特征在于,包括采集模块和处理模块;
所述采集模块用于采集各语音通道的语音数据;
所述处理模块包括:
能量计算单元,用于根据所述语音数据计算出各语音通道的语音能量;
分配单元,用于比较各语音能量的大小并按语音能量大小排序,将序列中语音能量按照一大一小的方式组合,将组合后的两个语音能量对应的语音通道分配在一起输入混单元中;
混音单元,用于对分配后的语音数据进行多级混音;
所述采集模块、能量计算单元、分配单元、混音单元依次连接。
8.根据权利要求7所述的动态分配装置,其特征在于,所述混音单元包括:
子混音器,用于对组合后的两个语音能量对应的语音通道进行一级混音;
主混音器,用于对各一级混音后的语音数据整合在一起进行二级混音;
所述子混音器连接主混音器。
9.根据权利要求8所述的动态分配装置,其特征在于,还包括混音发送模块,用于将二级混音后的语音数据发送给所有语音通道;所述混音发送模块连接混音单元的主混音器。
10.根据权利要求9所述的动态分配装置,其特征在于,还包括语音采样模块,用于采集用户的语音信号;所述混音发送模块还用于在语音数据发送给所有语音通道之前,在语音数据中过滤该用户的语音信号;所述语音采样模块连接混音发送模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310657765.8A CN103680508B (zh) | 2013-12-09 | 2013-12-09 | 多级混音的动态分配方法及动态分配装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310657765.8A CN103680508B (zh) | 2013-12-09 | 2013-12-09 | 多级混音的动态分配方法及动态分配装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103680508A CN103680508A (zh) | 2014-03-26 |
CN103680508B true CN103680508B (zh) | 2018-03-16 |
Family
ID=50317861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310657765.8A Active CN103680508B (zh) | 2013-12-09 | 2013-12-09 | 多级混音的动态分配方法及动态分配装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103680508B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616665B (zh) * | 2015-01-30 | 2018-04-24 | 深圳市云之讯网络技术有限公司 | 基于语音类似度的混音方法 |
CN106487384A (zh) * | 2016-10-11 | 2017-03-08 | 上海华虹集成电路有限责任公司 | 用于数模转换电路的自校准电路 |
TWI642310B (zh) * | 2017-04-24 | 2018-11-21 | 宏碁股份有限公司 | 音訊集線器 |
CN110675885B (zh) * | 2019-10-17 | 2022-03-22 | 浙江大华技术股份有限公司 | 混音方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1543181A (zh) * | 2003-04-30 | 2004-11-03 | 华为技术有限公司 | 一种分布式混音处理方法 |
CN101478619A (zh) * | 2009-01-05 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 实现多路语音混音的方法、系统及节点设备 |
CN101656072A (zh) * | 2009-09-08 | 2010-02-24 | 北京飞利信科技股份有限公司 | 混音装置、混音方法及利用该混音装置的会议系统 |
CN102404543A (zh) * | 2010-09-13 | 2012-04-04 | 华为终端有限公司 | 级联会议中级联会场的处理方法、装置及级联会议系统 |
CN102857856A (zh) * | 2012-08-13 | 2013-01-02 | 杭州德思科技有限公司 | 基于fpga的多级混音系统 |
CN103050124A (zh) * | 2011-10-13 | 2013-04-17 | 华为终端有限公司 | 混音方法、装置及系统 |
-
2013
- 2013-12-09 CN CN201310657765.8A patent/CN103680508B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1543181A (zh) * | 2003-04-30 | 2004-11-03 | 华为技术有限公司 | 一种分布式混音处理方法 |
CN101478619A (zh) * | 2009-01-05 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 实现多路语音混音的方法、系统及节点设备 |
CN101656072A (zh) * | 2009-09-08 | 2010-02-24 | 北京飞利信科技股份有限公司 | 混音装置、混音方法及利用该混音装置的会议系统 |
CN102404543A (zh) * | 2010-09-13 | 2012-04-04 | 华为终端有限公司 | 级联会议中级联会场的处理方法、装置及级联会议系统 |
CN103050124A (zh) * | 2011-10-13 | 2013-04-17 | 华为终端有限公司 | 混音方法、装置及系统 |
CN102857856A (zh) * | 2012-08-13 | 2013-01-02 | 杭州德思科技有限公司 | 基于fpga的多级混音系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103680508A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630193B (zh) | 语音识别方法及装置 | |
CN103680508B (zh) | 多级混音的动态分配方法及动态分配装置 | |
CN104980337B (zh) | 一种音频处理的性能提升方法及装置 | |
CN103456312B (zh) | 一种基于计算听觉场景分析的单通道语音盲分离方法 | |
WO2021047201A9 (zh) | 一种语音识别方法及装置 | |
CN104916288B (zh) | 一种音频中人声突出处理的方法及装置 | |
CN106155640B (zh) | 一种音量显示方法及装置 | |
CN109460461A (zh) | 基于文本相似度模型的文本匹配方法及系统 | |
CN104572757B (zh) | 微博群体处理方法及装置 | |
US20180034756A1 (en) | Identifying and Splitting Participants into Sub-Groups in Multi-Person Dialogues | |
CN105976814A (zh) | 头戴设备的控制方法和装置 | |
CN105161116B (zh) | 多媒体文件高潮片段的确定方法及装置 | |
CN105989853A (zh) | 一种音频质量评测方法及系统 | |
CN106297794A (zh) | 一种语音文字的转换方法及设备 | |
CN105338154B (zh) | 一种联系人排序方法、装置及终端 | |
CN109413475A (zh) | 一种视频中字幕的调整方法、装置和服务器 | |
CN107622773A (zh) | 一种音频特征提取方法与装置、电子设备 | |
CN109920445A (zh) | 一种混音方法、装置及设备 | |
CN107293305A (zh) | 一种基于盲源分离算法改善录音质量的方法及其装置 | |
CN108460149A (zh) | 文本数据处理方法、装置、设备及计算机可读存储介质 | |
CN103794216B (zh) | 一种语音混音处理方法及装置 | |
CN111508530A (zh) | 语音情感识别方法、装置及存储介质 | |
CN110069605A (zh) | 一种带流程的电话机器人主动问询系统 | |
CN102376304B (zh) | 文本朗读系统及其文本朗读方法 | |
Humes et al. | Speech recognition for multiple bands: Implications for the Speech Intelligibility Index |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |