CN104616665B

CN104616665B - 基于语音类似度的混音方法

Info

Publication number: CN104616665B
Application number: CN201510052414.3A
Authority: CN
Inventors: 付姝华
Original assignee: SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Current assignee: SHENZHEN YUNZHIXUN NETWORK TECHNOLOGY Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2018-04-24
Anticipated expiration: 2035-01-30
Also published as: CN104616665A

Abstract

本发明涉及基于语音类似度的混音方法，其对客户端输入的音频信号进行归一化处置，将音频信号分帧并进行时频变换，设置语音通道的目标电平，计算语音通道当前的电平大小，计算各语音通道的语音类似度，通过语音类似度和目标电平计算各语音通道的电平值，并根据各语音通道的电平值大小计算电平增益，得到电平提升后的音频频域数据，对音频频域数据进行叠加混音，最后用傅里叶反变换将音频频域数据转换为时域数据。语音类似度越大，对应的语音通道的电平值越大，如此可以保证混音中语音类似度越大的语音通道的音量就越大。

Description

基于语音类似度的混音方法

技术领域

本发明涉及通信技术领域，尤其涉及基于语音类似度的混音方法。

背景技术

混音是将语音、音乐、音效等多种音源混合的处理过程，在音乐录音、音视频会议的相关应用中，占据重要位置，混音的好坏直接影响到产品的成功与否。

在多输入多输出的会议混音场景中，目前常见的混音方法是直接在时域基于能量选择混音通道，箝位叠加混音，此方法在传统应用中，如没有噪声和杂音的固定终端环境下，有比较理想的效果，但若是在一个移动场景中，终端差异大，噪声、杂音等时刻变化，混音效果就大打折扣。并且，由于不同的客户端采集的音频信号能量大小差异较大，基于能量选择混音通道会排除声音小的客户端。

发明内容

针对现有技术的问题，本发明的目的在于提供一种基于语音类似度的混音方法，其通过计算语音类似度，将类似度高的才参加混音，对杂音、噪声有抑制作用。

为实现上述目的，本发明采用如下技术方案：

基于语音类似度的混音方法，包括如下步骤：

步骤一：对从客户端输入的音频信号进行归一化处理；

步骤二：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{v_i|i∈(0,C]}，其中i为语音通道，v_i为语音通道i的当前电平值，C为语音通道总数量；

步骤三：对输入的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；

步骤四：计算出每个客户端对应语音通道的语音类似度γ；

步骤五：判断各语音通道的语音类似度γ是否大于预设的固定门限值F，选择语音类似度γ大于固定门限值F的语音通道进入步骤六；

步骤六：对各语音通道的语音类似度γ进行排序，选择语音类似度γ的排名前M的语音通道作为候选语音通道进入步骤七；M为候选语音通道的数量；

步骤七：各语音通道根据其相应的语音类似度γ和总目标电平β，通过公式：i∈[0,M]计算出各候选语音通道的目标电平值；上述α_i为候选语音通道i的目标电平值，γ_i为语候选音通道i的语音类似度；

步骤八：根据各候选语音通道的电平值，通过公式i∈[0,M]计算出各个候选语音通道的电平增益，其中，g_i为语音通道i电平增益，为上一次的电平增益，e为滤波器系数；

步骤九：根据各候选语音通道的电平增益值，对候选语音通道通过公式：x(i,j)＝g_i*x(i,j),i∈[0,M]j∈[0,N]进行电平提升，其中j为频点编号，N为各帧内采样点总个数，x(i,j)表示第i个通道的第j个音频频域数据；

步骤十：对各候选语音通道的音频频域数据进行叠加混音：i∈[0,M]j∈[0,N]k∈[0,C]，其中k为当前语音输出通道，之后执行步骤十一；

步骤十一：将叠加后的各帧音频频域数据从频域反变换到时域，对叠加后的音频信号进行反归一化处理并进行输出。

进一步的，步骤七还包括如下步骤：对音频频域数据的电平值进行电平修正：i∈[0,M]，其中为候选语音通道i上一次的电平值，d为滤波器系数。

进一步的，步骤三通过傅里叶变换将各帧音频信号从时域变换到频域：X(e)＝FFT(x(f))，f∈(0,N)为时域采样点序号，e∈(0,N)为频域采样点序号。

更进一步的，步骤四包括如下子步骤：

步骤a：根据公式E(e)＝|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e)；

步骤b：根据公式a∈(0,N),统计音频频谱分布p，其中，ω_a为固定值，对应各子频带权重系数，a为频域采样点；

步骤c：根据公式a∈(0,N)计算音频频域数据的短时能量Es，b为滤波器更新系数，取值范围为[0，1]，E_a为第a个频谱能量；

步骤d：根据公式a∈(0,N)计算音频频域数据的长时能量E_l，h为滤波器更新系数，取值范围[0，1]；

步骤e：根据公式计算语音类似度γ，其中c为常量，取值范围为[0，1]，e表示以e为底的指数函数，e＝2.71828。

进一步的，步骤十一通过傅里叶反变换将各帧音频信号的音频频域数据从频域反变换到时域：X(k,f)＝IFFT(y(k,e))k∈(0,C)为当前输出通道，X(k,f)为最终时域混音数据。

相比现有技术，本发明的有益效果在于：

能适应多种类型的客户端，语音类似度越大，对应的语音通道的目标音量值就越大，由于杂音、噪音等的语音类似度很低，对应的目标音量就小，即使参与混音，对应的音量也很小，通常会被有效的语音淹没，对杂音、噪音有抑制作用；在频域完成混音，能防止有效电平大幅度减少。

附图说明

图1为本发明的基于语音类似度的混音方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

如图1所示，本发明的基于语音类似度的混音方法，包括如下步骤：

步骤s1：对每个客户端输出的音频信号进行归一化处理，将输入的音频信号均转换为单声道，并预设语音通道的总目标电平β；总目标电平β用于后续计算中设置混音输出的音量，用最后输出的混音音量接近设置的总目标电平β，可大可小，根据不同的应用可设置不同的目标电平值；对音频信号做归一化处理可以防止音频信号的格式不同对后续的计算产生影响，导致无法参与混音；

步骤s2：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{v_i|i∈(0,C]}，其中i为语音通道，v_i为语音通道i的当前电平值，C为语音通道总数量；

步骤s3：对输入的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；若在时域叠加混音，会引入量化噪声，同时有效语音电平大幅度减少，本实施例在频域完成混音，克服了在时域混音带来的缺陷，减少量化噪音；在步骤s3种具体是通过傅里叶变换将各帧音频信号从时域变换到频域：X(e)＝FFT(x(f))，f∈(0,N)为时域采样点序号，e∈(0,N)为频域采样点序号，N为各帧内采样点总个数。

步骤s4：根据音频频域数据，计算出每个客户端对应语音通道的语音类似度γ；时频转换后得到音频数据，由此可得知各频谱处的能量大小，统计音频频谱分布，并根据采用的滤波器计算长时能量和短时能量得到语音类似度γ；其包括以下子步骤：

步骤b：根据公式a∈(0,N),统计音频频谱分布p，其中，ω_i为固定值，对应各子频带权重系数，a为频域采样点；

步骤s5：预设固定门限值F，判断各语音通道的语音类似度γ是否大于该固定门限值F，直到选择所有语音类似度γ大于固定门限值F的语音通道后进入步骤s6，如果语音通道的语音类似度γ小于门限值F，则不参与步骤s6的排序；通过步骤s5可以排除语音类似度γ过低的音频信号，如杂音、噪声，使得后续的混音效果更好；

步骤s6：对各语音通道的语音类似度γ从大到小进行排序，选择语音类似度γ的排名为前M的语音通道作为候选语音通道进入步骤s7，步骤s5和步骤s6即是选择前M个语音类似度γ大于门限值F的语音通道作为候选语音通道，M为候选语音通道的数量，为常量；M的取值一般优选为小于或等于3，例如M＝3，有4个语音通道的语音类似度γ大于固定门限值F，则这4个语音类似度γ在步骤s6从大到下进行排序，取语音类似度γ排名在前3的语音通道为候选语音通道参加后面的混音，若M＝0，则直接放弃本次混音操作，若M大于0，则执行步骤s7。

步骤s7：各候选语音通道根据其相应的语音类似度γ和预设的总目标电平β，通过公式：i∈[0,M]计算出各候选语音通道的目标电平值；上述i为语音通道，α_i为候选语音通道的目标电平值；进一步的，还包括对音频频域序列的电平值进行电平修正：i∈[0,M]，其中，i为候选语音通道，为候选语音通道i上一次的电平值，d为滤波器系数，γ_i为候选语音通道i的语音类似度。电平修正是为了放置电平的突变引起语音通道中音量的忽大忽小，影响混音效果。

步骤s8：根据各候选语音通道的电平值，通过公式i∈[0,M]计算出各个候选语音通道的电平增益，其中，g_i为候选语音通道i电平增益，为上一次的电平增益，e为滤波器系数；

步骤s9：根据各语音通道的电平增益值，对语音通道通过公式：x(i,j)＝g_i*x(i,j),i∈[0,M]j∈[0,N]进行电平提升，其中，i为语音通道，j为频点编号，x(i,j)表示第i个通道的第j个音频频域数据；

步骤s10：对各语音通道的音频频域数据进行叠加混音：i∈[0,M]j∈[0,N]k∈[0,C]，其中i为候选语音通道，k为当前语音输出通道，j为频点编号，M为参与通道混音的候选语音通道数，N为各帧内采样点总个数；非候选语音通道不会参与混音操作，假设当前语音输出通道为k，那么用到的输出数据是除当前语音输出通道k以外的候选语音通道的混音数据。

步骤s11：将这些音频信号的各帧音频频域数据从频域反变换到时域之后把叠加后的音频信号进行反归一化处理，还原音频信号原来的数据格式，即归一化之前的数据格式。步骤s11通过傅里叶反变换到各帧音频信号的音频频域数据从频域反变换到时域：X(k,f)＝IFFT(y(k,e))，f∈(0,N)为时域样点序号，e∈(0,N)为频域采样点序号，k∈(0,C)为当前语音输出通道，X(k,f)为最终时域混音数据。

步骤S12:将最终时域音频数据输出。

本实施例能适应客户端所处环境的变化，基于语音类似度进行音频混音，语音类似度越大，对应的语音通道的电平值越大，如此可以保证混音中语音类似度越大的语音通道的音量就越大；由于杂音和早上的语音类似度很小，其对应的电平值也相应很小，即使参与混音，对应的音量也很小，通常被有效的语音淹没，不影响混音效果；混音音量平稳，过渡自然，电平值大小统一调制，对各参与混音通道都有过渡控制，很好的适应多方语音切换造成的音量变化。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.基于语音类似度的混音方法，其特征在于，包括如下步骤：

步骤一：对从客户端输入的音频信号进行归一化处理；

步骤三：对归一化的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；包括通过傅里叶变换将各帧音频信号从时域变换到频域：X(e)＝FFT(x(f))，f∈(0,N)为时域采样点序号，e∈(0,N)为频域采样点序号；

步骤四：计算出每个客户端对应语音通道的语音类似度γ；

包括如下子步骤：

步骤b：根据公式统计音频频谱分布p，其中，ω_a为固定值，对应各子频带权重系数，a为频域采样点；

步骤c：根据公式计算音频频域数据的短时能量Es，b为滤波器更新系数，取值范围为[0，1]，E_a为第a个频谱能量；

步骤d：根据公式计算音频频域数据的长时能量E_l，h为滤波器更新系数，取值范围[0，1]；

步骤e：根据公式计算语音类似度γ，其中c为常量，取值范围为[0，1]，e表示以e为底的指数函数，e＝2.71828；

步骤五：对各语音通道的语音类似度γ进行排序，选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六；

步骤七：各语音通道根据其相应的语音类似度γ和预设的总目标电平β，通过公式：计算出各候选语音通道的目标电平值；上述α_i为候选语音通道i的目标电平值，γ_i为候选语音通道i的语音类似度；

步骤八：根据各语音通道的电平值，通过公式计算出各个候选语音通道的电平增益，其中，g_i为语音通道i电平增益，为上一次的电平增益，e为滤波器系数；

步骤十：对各候选语音通道的音频频域数据进行叠加混音：其中k为当前语音输出通道，之后执行步骤十一；

2.如权利要求1所述的基于语音类似度的混音方法，其特征在于，步骤七还包括如下步骤：对音频频域数据的电平值进行电平修正：其中为候选语音通道i上一次的电平值，d为滤波器系数。

3.如权利要求1所述的基于语音类似度的混音方法，其特征在于，步骤十一通过傅里叶反变换将各帧音频信号的音频频域数据从频域反变换到时域：X(k,f)＝IFFT(y(k,e))k∈(0,C)为当前输出通道，X(k,f)为最终时域混音数据。