CN113838476A

CN113838476A - 一种带噪语音的噪声估计方法和装置

Info

Publication number: CN113838476A
Application number: CN202111118327.5A
Authority: CN
Inventors: 孙志强; 杨罡
Original assignee: Shibang Communication Co Ltd
Current assignee: Shibang Communication Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-24
Anticipated expiration: 2041-09-24
Also published as: CN113838476B

Abstract

本发明公开了一种带噪语音的噪声估计方法和装置，其中方法为：使用MCRA算法对音频数据中的噪声进行初步估计；利用初步估计的噪声计算音频数据的对数似然比特征，利用对数似然比特征和能熵比特征计算语音存在的先验概率，采用贝叶斯算法计算语音存在的后验概率；根据语音存在的后验概率并使用递归平均算法估计噪声；对噪声的波动进行控制，得到音频数据中最终估计的噪声。本发明对语音存在概率的计算更加准确，能覆盖从0到1的大部分概率，而不仅仅是一个近似二值化的概率，得到的噪声估计也更加准确，通过对噪声的变化幅度进行控制，可以有效降低噪声过估计的发生。

Description

一种带噪语音的噪声估计方法和装置

技术领域

本发明属于噪声估计领域，具体涉及一种带噪语音的噪声估计方法和装置。

背景技术

语音在是人与人之间传递信息最常用的方式。随着技术的发展，语音也被应用在许多方面，例如声纹识别可以用于解锁电子设备，语音内容识别可以用于控制智能家居，辅助输入法的输入。

在实际生活环境中，环境噪声会对语音产生严重影响。嘈杂的噪声会降低语音的可懂度，长时间置身于噪声环境中会使人感到压力和听觉疲劳。对于设备而言，噪声会干扰语音信号的采集与识别，影响设备的性能。

因为噪声对语音的影响极大，所以对降噪算法的研究就非常有意义，而降噪首先就需要对噪声的强度进行估计，噪声估计得越及时和准确，降噪效果就会越好。

发明内容

本发明提供一种带噪语音的噪声估计方法和装置，对带噪语音中的噪声进行准确估计。为实现上述技术目的，本发明采用如下技术方案：

一种带噪语音的噪声估计方法，包括：

使用MCRA算法对音频数据中的噪声进行初步估计；

利用初步估计的噪声计算音频数据的对数似然比特征，利用对数似然比特征和能熵比特征计算语音存在的先验概率，采用贝叶斯算法计算语音存在的后验概率；

根据语音存在的后验概率并使用递归平均算法估计噪声；

对噪声的波动进行控制，得到音频数据中最终估计的噪声。

进一步地，利用初步估计的噪声计算对数似然比特征的方法为：

(a1)将带噪语音表示为FFT频域的幅度Y(λ,k)，初步估计得到的噪声为D_mcra(λ,k)，λ代表帧数，k代表频点；

(a2)通过计算先验信噪比ξ(λ,k)和后验信噪比γ(λ,k)计算似然比Λ(λ,k)，所述似然比表示一帧音频数据符合带噪语音信号分布的概率与符合噪声信号分布的概率的比值；

(a3)对(a2)计算得到的似然比取对数和进行前后帧平滑，得到平滑后的对数似然比LogLrt(λ,k)；

(a4)对平滑后的对数似然比在所有频点上取平均，得到当前帧音频的对数似然比特征LrtFeature(λ)，简记为LrtFeature。

进一步地，用于计算语音存在先验概率的能熵比特征，其计算方法为：

(b1)利用幅度谱计算当前帧的能量E(λ)，再计算对数能量LE(λ)：

LE(λ)＝ln(E(λ)+a)-ln(a) (8)

其中，a为固定常数；

(b2)将每帧音频数据频带划分为N_b个子带，分别记为：

(b3)求每个子带的子带谱及其概率，进而计算子带谱熵：

式中，E_b(λ,m)为第λ帧音频数据的第m个子带的子带谱，m＝1,2,…,N_b；p_b(λ,m)为子带谱E_b(λ,m)对应的概率，H_b(λ)为第λ帧音频数据的子带谱熵；

(b4)根据子带谱熵计算子带能熵比：

(b5)对子带能熵比进行前后帧平滑，得到子带能熵比特征EHFeature(λ)，简记为EHFeature。

进一步地，所述利用对数似然比特征和能熵比特征计算语音存在的先验概率，具体计算方法为：

(c1)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH，分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH：

如果LrtFeature＞threshLrt，则ProbEH＝0.5*(tanh(k0*(EHFeature-threshEH))+1)，ProbLrt＝0.5*(tanh(k0*(LrtFeature-threshLrt))+1)；

如果LrtFeature≤threshLrt，则ProbEH＝0.5*(tanh(k1*(EHFeature-threshEH))+1)，ProbLrt＝0.5*(tanh(k1*(LrtFeature-threshLrt))+1)；

其中，k0和k1为斜率系数，且k1＞k0，设置原则是使得映射到的概率ProbLrt和ProbEH的覆盖范围为[0,1]；

(c2)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合，再使用得到的融合概率对前一帧音频数据中语音存在的先验概率进行平滑处理，得到当前帧音频数据中任意频点存在语音的先验概率P(H₁)；先验概率的平滑公式为：

P(H₁)＝(1-ProbTavg)*P_prev(H₁)+ProbTavg*tmpProb (17)

其中，P(H₁)为当前帧音频数据中语音存在的先验概率，P_prev(H₁)表示前一帧音频数据中语音存在的先验概率；ProbTavg为平滑系数，tmpProb为融合概率。

进一步地，对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合的方法为：

(d1)将每HNfames帧作为一个统计周期进行直方图统计：将子带能熵比特征的覆盖范围均分为若干个bin，每个bin的宽度为binSizeEH；判断当前统计周期内每帧音频数据的子带能熵比特征落在哪个bin内，则该bin的高度加1；

(d2)寻找直方图中高度最高和第二高的bin，最高bin的位置和高度分别记为P1、H1，第二高bin的位置和高度分别记为P2、H2；再按以下判断方法对中间参数P和H进行定义：

如果P1与P2相邻，且H1＜2*H2，则P＝(P1+P2)/2，H＝H1+H2；

如果P1与P2之间相差一个bin，将P1与P2之间的bin的高度记为H3，再判断是否满足H1＜2*H2且H1＜2*H3，若满足则P＝(P1+P2)/2，H＝H1+H2+H3；

否则P＝P1，H＝H1；

(d3)根据中间参数P确定能熵比阈值threshEH＝δ*P，δ为能熵比阈值系数；

(d4)如果H＜EH_frames_factor*HNframes，则tmpProb＝probLrt，tmpProb为融合概率，EH_frames_factor表示一个无量纲的尺度系数；否则tmpProb＝0.5*(probLrt+probEH)。

进一步地，似然比阈值的预先确定方法为：

(e1)将每HNfames帧作为一个统计周期进行直方图统计：将对数似然比特征的覆盖范围均分为若干个bin，每个bin的宽度为binSizeLrt；判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内，则该bin的高度加1；

(e2)如果最高的bin的高度大于Hnfames的一半，则给似然比阈值赋值为threshLrt＝binSizeLrt；否则，对所有对数似然比特征进行加权平均，再乘以大于1的系数作为似然比阈值threshLrt。

进一步地，所述采用贝叶斯算法计算语音存在的后验概率的方法为：

式中，

表示音频数据在频点k存在语音的后验概率，Λ(λ,k)为似然比，中间变量

和

分别表示音频数据在频点k存在语音和不存在语音，

和

分别表示音频数据在频点k存在语音的概率和不存在语音的概率，且

进一步地，所述根据语音存在的后验概率并使用递归平均算法估计噪声的方法为：

式中，D(λ,k)表示使用递归平均算法对第λ帧音频数据在频点k估计出的噪声，

和

分别表示音频数据在频点k存在语音和不存在语音，

表示音频数据在频点k存在语音的后验概率，

表示音频数据在频点k不存在语音的后验概率，

代表第λ-1帧音频数据在频点k估计出的噪声，Y(λ,k)为第λ帧音频数据在频点k的幅度。

进一步地，所述对噪声的波动进行控制的方法为：

(f1)根据语音存在的后验概率

对使用递归平均算法估计得到的噪声D(λ,k)进行平滑处理：

若

则

否则

其中factorNoise和factorSpeech为平滑系数；

(f2)然后对平滑后的噪声

进行幅度控制，得到最终估计的噪声

若

或者

则

否则

其中α和β为幅度控制系数。

一种带噪语音的噪声估计装置，包括：噪声初步估计模块、语音存在概率估计模块、噪声二次估计模块和噪声波动控制模块；

所述噪声初步估计模块用于：使用MCRA算法对音频数据中的噪声进行初步估计；

所述语音存在概率估计模块用于：利用初步估计的噪声计算音频数据的对数似然比特征，利用对数似然比特征和能熵比特征计算语音存在的先验概率，采用贝叶斯算法计算语音存在的后验概率；

所述噪声二次估计模块用于：根据语音存在的后验概率并使用递归平均算法估计噪声；

所述噪声波动控制模块用于：对噪声的波动进行控制，得到音频数据中最终估计的噪声。

有益效果

本发明利用对数似然比和子带能熵比来计算语音存在的先验概率，继而使用贝叶斯公式得到语音存在的后验概率，最后使用递归平均算法估计噪声。和最小值控制的递归平均^[1](minima controlled recursive averaging,MCRA)算法相比，语音存在概率更加准确，能覆盖从0到1的大部分概率，而不仅仅是一个近似二值化的概率，得到的噪声估计也更加准确。通过对噪声的变化幅度进行控制，可以有效降低噪声过估计的发生。

附图说明

图1是本申请实施例所述方法的流程图；

图2是带噪语音的时域图；

图3是对数似然比及其阈值，其中实线表示对数似然比特征，虚线表示阈值；

图4是能熵比特征及其阈值，其中实线代表能熵比特征，虚线代表阈值；

图5是语音存在先验概率分布图；

图6是语音存在概率对比图；

图7是噪声估计对比图，其中实线表示实际噪声，点线表示MCRA算法估计的噪声，虚线表示本方案估计的噪声。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

本发明提供一种带噪语音的噪声估计方法，参考图1所示，包括：使用MCRA算法对音频数据中的噪声进行初步估计，利用初步估计的噪声计算音频数据的似然比和对数似然比特征，利用对数似然比特征和能熵比特征计算语音存在的先验概率，采用贝叶斯算法计算语音存在的后验概率，根据语音存在的后验概率并使用递归平均算法估计噪声，最终对估计的噪声的波动进行控制，得到音频数据中最终估计的噪声。

(1)MCRA初步估计噪声前的预处理

在使用MCRA算法对音频数据中的噪声进行初步估计之前，定义带噪语音信号为音频信号，对音频信号进行预处理：对于一帧长度为L的带噪语音信号x(n)，n＝1,2,3,....L进行长度为N的快速傅里叶变换，然后求幅度谱，记为Y(λ,k)，λ代表帧数，k代表频点，k＝1,2,....N/2+1。然后使用现有的MCRA算法对音频信号中的噪声进行初步估计，得到噪声记为D_mcra(λ,k)。

(2)似然比和对数似然比特征

(2.1)计算先验信噪比ξ(λ,k)，公式为：

其中，α为固定的系数，

为第λ-1帧带噪语音估计出的语音幅度，

代表第λ-1帧带噪语音估计出的噪声，Y(λ,k)为第λ帧带噪语音的幅度；

(2.2)利用先验信噪比和后验信噪比计算似然比Λ(λ,k)

其中，后验信噪比的计算公式为：

(2.3)利用似然比计算对数似然比特征

首先，将似然比取对数，得到当前帧的对数似然比LogLrtTmp：

LogLrtTmp(λ,k)＝ln(Λ(λ,k)) (4)

然后，对当前帧的对数似然比进行前后帧平滑，得到平滑后的对数似然比LogLrt：

LogLrt(λ,k)＝(1-LrtTavg)*LogLrt(λ-1,k)+LrtTavg*LogLrtTmp(λ,k) (5)

其中，平滑系数LrtTavg可取0.3到0.5。

最后，对平滑后的对数似然比在所有频点上取平均，得到当前帧的对数似然比特征LrtFeature(λ)，后文为了方便书写，又记为LrtFeature。

(3)子带能熵比特征

(3.1)计算短时对数能量。

首先利用幅度谱计算当前帧的能量E(λ),公式如下：

然后计算对数能量LE(λ)，公式如下：

LE(λ)＝ln(E(λ)+a)-ln(a) (8)

其中，a为固定的值，取值为10⁵到10⁹，本方案取值为10⁶。

(3.2)计算子带谱熵

对频带进行均匀的子带划分，个数为N_b，各个子带分别记为：

求每个子带的子带谱，第m个子带的子带谱公式如下：

计算每个子带谱对应的概率：

子带谱熵的计算公式如下：

(3.3)计算子带能熵比EH(λ)，公式如下：

对子带能熵比进行前后帧平滑就得到能熵比特征，公式如下：

EHFeature(λ)＝(1-EHTavg)*EHFeature(λ-1)+EHTavg*EH(λ) (13)

其中，EHTavg为平滑系数，取值范围为0.3到0.5，典型值可以取0.3。后文为了方便，将能熵比特征简写为EHFeature。

(4)计算先验概率

(4.1)预先确定似然比阈值threshLrt

将每HNfames帧作为一个统计周期进行直方图统计：将对数似然比特征的覆盖范围均分为若干个bin，每个bin的宽度为binSizeLrt；判断当前统计周期内每帧音频数据的对数似然比特征落在哪个bin内，则该bin的高度加1；

如果最高的bin的高度大于Hnfames的一半，则给似然比阈值赋值为threshLrt＝binSizeLrt；否则，对所有对数似然比特征进行加权平均，再乘以大于1的系数作为似然比阈值threshLrt。

(4.2)预先确定似然比阈值threshEH

如果P1与P2相邻，且H1＜2*H2，则P＝(P1+P2)/2，H＝H1+H2；

否则P＝P1，H＝H1；

上述P值代表了最常出现的能熵比，应该是噪声的能熵比，因此，将P乘以一个系数作为阈值,记为threshEH。系数可以控制在1.05-1.1中间，典型值可以取1.05。

(4.3)根据对数似然比特征LrtFeature、子带能熵比特征EHFeature以及预先确定的似然比阈值threshLrt和能熵比阈值threshEH，分别计算基于似然比的概率ProbLrt和基于能熵比的概率ProbEH：

其中，k0和k1为斜率系数，且k1＞k0，设置原则是使得映射到的概率ProbLrt和ProbEH能覆盖0和1之间的大部分值。k0可以设为4，k1设为12。

(4.4)对基于似然比的概率ProbLrt和基于能熵比的概率ProbEH进行融合，再使用得到的融合概率对语音存在的先验概率进行平滑处理，得到音频数据中任意频点存在语音的先验概率P(H₁)：

其中融合方法为：如果H＜EH_frames_factor*HNframes，则不使用能熵比特征，只使用似然比一个特征，因此直接将基于似然比的概率作为融合概率tmpProb：

tmpProb＝probLrt (15)

其中EH_frames_factor表示一个无量纲的尺度系数，取值范围为0.15到0.3，典型值可以取0.2。

否则，即H≥EH_frames_factor*HNframes，使用ProbLrt和ProbEH加权融合融合概率tmpProb：

tmpProb＝0.5*(probLrt+probEH) (16)

然后对先验概率进行前后帧的平滑，最后将概率控制在0.01到1之间，先验概率的平滑公式为：

P(H₁)＝(1-ProbTavg)*P_prev(H₁)+ProbTavg*tmpProb (17)

其中，P(H₁)为当前信号帧语音存在的先验概率，P_prev(H₁)表示前一信号帧语音存在的先验概率；ProbTavg为平滑系数，取值范围为0.1-0.2，典型值可以取0.15。

(5)后验概率和噪声估计

在得到语音存在的先验概率后，就可以使用贝叶斯公式计算后验概率，然后使用递归平均算法估计噪声，过程如下所示：

使用假设检验来判断某个频点语音是否存在，假设如下：

频点k语音不存在；

频点k语音存在。

(5.1)每一帧，每个频点的语音存在和不存在的先验概率，分别记为：

和

在计算过程中，同一帧内所有频点的语音存在先验概率都是一样的。即

令：

(5.2)通过如下公式计算似然比Λ(λ,k)，和语音存在的后验概率

其中λ表示帧数，k表示频点。ξ(λ,k)为先验信噪比，γ(λ,k)为后验信噪比

(5.3)通过全概率公式估算噪声D(λ,k)。其中

表示上一帧的噪声幅度，Y(λ,k)表示当前帧的带噪语音幅度。

(6)噪声波动控制

使用基于概率的递归平均算法得到估计的噪声后，为了防止噪声波动太大或者过估计，需要控制当前帧噪声相对于上一帧噪声的增加和降低的幅度，具体方式为：

(6.1)先对噪声进行平滑,根据后验概率的不同，使用不同的公式进平滑：

其中factorNoise和factorSpeech为平滑系数；factorNoise取值为0.85到0.95，典型值为0.95。factorSpeech取值为0.9到0.999，典型值为0.99。

(6.2)然后对平滑后的噪声

进行幅度控制，得到最终估计的噪声

其中，其中α和β为幅度控制系数，α取值范围为0.7到0.95，β的取值范围为1.05到1.3。本方案取的α为0.85，β为1.15。

按照上述本发明对噪声的波动进行控制后，就能得到较为准确的噪声估计。利用估计的噪声，就可以使用各种语音增强方法对带噪语音进行降噪处理，如谱减法或者维纳滤波法。

实施例：

本实施例利用能熵比特征计算语音先验概率的具体实现过程如下所示：

(1)对于采样率为16k的带噪语音信号进行分帧，加窗。其中帧长为320个采样点，帧叠为50％，窗函数采用汉明窗。分帧加窗后得到的一帧数据记为x(n),n＝1,2,....320。

(2)对x(n)进行长度为1024个点的快速傅里叶变换，然后求绝对值，得到幅度谱Y(λ,k),k＝0,1,2,....512。

(3)基于幅度谱Y(λ,k)使用MCRA算法对噪声进行估计。

(4)使用公式(1)计算先验信噪比，其中初始语音幅度设为0。

(5)使用公式(2)和(3)计算似然比。

(6)使用公式(4),(5)和(6)计算对数似然比特征LrtFeature。

(7)使用公式(7)计算能量，然后使用公式(8)计算对数能量。

(8)将幅度谱Y(λ,k)去掉直流频点,按频点均匀分成16个子带，记为

其中：

B₁＝{Y(λ,1),Y(λ,2),....Y(λ,32)},

B₂＝{Y(λ,33),Y(λ,34),....Y(λ,64)},

...

B₁₆＝{Y(λ,481),Y(λ,482),....Y(λ,512)}

(9)使用公式(9)和公式(10)计算每个子带对应的频率，使用公式(11)计算子带谱熵比。

(10)使用公式(12)和(13)计算得到能熵比特征EHFeature。

(11)统计对数似然比特征直方图和能熵比特征直方图，500帧重置一次。

(12)达到500帧时，更新对数似然比阈值和能熵比阈值，重置特征直方图。

(13)判断能熵比特征是否可用。

(14)使用公式(14)计算两种特征对应的语音存在概率。

(15)如果能熵比特征不可用，使用公式(15)和(17)计算语音存在的先验概率；如果能熵比特征可用，使用公式(16)和(17)计算语音存在的先验概率。

(16)使用公式(18)和(19)计算中间变量r，使用公式(20)和(21)计算语音存在的后验概率。

(17)使用递归平均算法的噪声估计公式(22)估计噪声。

(18)使用公式(23)和(24)对噪声进行平滑和波动控制，得到最终的噪声。

为了验证本方案的有效性，首先将babble噪声和纯净语音进行融合，得到带噪语音。然后使用本方案对带噪语音进行噪声估计。最后，将本方案估计的噪声，MCRA算法估计的噪声以及实际噪声对比，并对结果进行分析与讨论。本方案噪声估计的关键结果展示如图2至7所示。

其中，图3图4是对数似然比特征和能熵比特征，其中的虚线代表了阈值。如果某一帧的特征在阈值之上，则便是基于该特征的语音存在概率大于0.5。值越大，语音存在概率也越大。将图3、4和图2进行比较，可以发现，在语音存在部分，特征基本都是大于阈值的。这说明了特征的有效性。对基于似然比特征的概率和能熵比的概率进行融合，得到图5的语音存在先验概率，从中能明显地区分语音帧和非语音帧。因此语音存在的概率计算是有效的。

在图6中，最上面一幅图是带噪语音的时域图，中间是本方案得到的在频点500HZ的语音存在后验概率，最下面是MCRA算法得到的500HZ的语音存在概率。首先可以看出，MCRA算法得到的语音存在概率基本都二值化，大部分是0和1。而本方案得到的语音存在概率还包含许多0和1之间的值，使用概率时会更加灵活。其次，通过与时域图比较可以发现，本方案得到的概率更加准确，如3.5s-4s和6.5s-7s中是不存在语音的，但MCRA算法得到的语音存在概率却是1，本方案得到概率是0；在4.2s-5s和7.2s-8s中语音是有停顿的，MCRA算法计算出的语音存在概率都是1，而本方案计算的语音存在概率在语音停顿处都非常低，且和时域图非常的吻合。因此相对于MCRA算法，本方案得到的语音存在概率更加的准确。

图7是500HZ处的实际噪声，MCRA估计噪声和本方案估计噪声的对比图。从整体上看，MCRA得到的噪声比较平滑，波动比较小，不能很好的反应babble噪声的变化，这也是概率二值化造成的结果。从局部上看，在3.5s-4s和6.5s-7s，本方案估计的噪声有一个明显的增加，和实际噪声的变化较为接近，而MCRA算法估计的噪声并没有变化。因此，相对于MCRA算法，本方案估计的噪声更加准确。

综上所述，本方案通过对数似然比特征和能熵比特征来计算语音存在概率，得到的概率更加准确，估计出来的噪声更能反应实际噪声的变化，更加及时和准确。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。