CN105513614A

CN105513614A - 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法

Info

Publication number: CN105513614A
Application number: CN201510885221.6A
Authority: CN
Inventors: 李宇; 林胜义; 谭洪舟
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2016-04-20
Anticipated expiration: 2035-12-03
Also published as: CN105513614B

Abstract

本发明公开了一种基于噪声功率谱Gamma分布统计模型的有音区检测(Voice？Activation？Detection,？VAD)方法，属于语音信号处理技术领域。现有基于统计模型的VAD算法通常不考虑语音统计信息，仅仅利用噪声功率谱(Power？Spectral？Density，PSD)的统计模型来检测活动语音，常用的噪声PSD统计模型为左右对称的Gaussian模型，不能较好地体现噪声PSD分布的长拖尾特性，不利于处理Babble等非平稳噪声。本发明采用伽玛分布（Gamma？Distribution）作为噪声分布统计模型，比高斯分布（Gaussian？Distribution）和瑞利分布（Rayleigh？Distribution）具有更好的长拖尾特性拟合效果，改进后的VAD算法性能更优。

Description

一种基于噪声功率谱Gamma分布统计模型的有音区检测方法

技术领域

本发明涉及语音信号处理技术领域，更具体地，涉及一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。

背景技术

活动语音检测(VoiceActivationDetection,VAD)，又称有音区检测，是一种从传输语音信号中识别和消除长时间静音期(或者说从声音信号流里检测出有用信号)的技术。VAD技术的应用能避免无用信号的传输，从而降低了语音信号编码速率和节省了通信带宽，而且有利于维护语音端到端的时延、减少移动通信设备的能耗和加强噪声抑制能力，因此VAD被广泛用于语音编码、语音识别和语音增强等语音处理算法中。

基于统计模型的VAD算法是常用一种VAD方法，该方法假定语言和噪声分别服从某种统计分布模型，然后用似然比测试来检测活动语音。在该算法中，常用的假设统计模型为Gaussian或Laplacian模型，不能较好地体现噪声PSD分布的拖尾特性，而这种拖尾特征的缺失在非平稳噪声环境下表现得尤为突出，使得基于该假设统计模型的VAD算法不利于处理Babble等非平稳噪声。因此，采用合适的统计模型来实现VAD技术，是改善统计模型VAD算法性能的关键。

发明内容

针对基于Gaussian或Laplacian统计模型的VAD算法不能很好拟合噪声PSD分布特性而且不利于处理Babble等非平稳噪声的问题，本发明提出了一种基于噪声功率谱Gamma分布统计模型的有音区检测方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于噪声功率谱Gamma分布统计模型的有音区检测方法，包括：

1)获取含噪语音的信号z(n)，并进行分帧处理，得到第k帧含噪的语音z_k(n)；

2)计算第k语音帧频率为f_l时的功率谱密度(PSD)估计值P_zz,k(f_l)；

3)对PSD估计值P_zz,k(f_l)进行高通滤波，得到高频带的PSD估计值P′_ZZ,k(f_l)；判断当前语音帧是否为纯噪声，若是，则更新第k帧噪声频率为f_l的PSD值P_vv,k(f_l)为高频带的PSD估计值P′_ZZ,k(f_l)并跳转到步骤4)；否则，则不更新噪声f_l频率的PSD值P_vv,k(f_l)跳转到步骤4)；

4)对噪声f_l频率的PSD估计值P_vv,k(f_l)求指数平均值计算噪声PSD估计值P_vv,k(f_l)的平方再取指数平均得噪声方差值var_vk(f_l)；

5)用高频带PSD估计值P′_ZZ,k(f_l)和噪声PSD指数平均值计算信噪比(SignalNoiseRatio，SNR)测量值并求其指数平均值噪声PSD指数平均值结合噪声方差值var_vk(f_l)计算有音区检测(VoiceActivationDetection,VAD)阈值η_k(f_l)，再求其指数平均值

6)SNR测量值得指数平均与VAD阈值的指数平均进行比较，比较结果通过Hangover方法得出最终的VAD判决。

优选的，所述步骤2)采用低方差频谱估计的Welch方法来估计语音帧的PSD值，该PSD估计值用于SNR测量值和VAD阈值的计算。

优选的，所述步骤3)通过对PSD估计值P_zz,k(f_l)进行高通滤波，得到高频带的PSD估计值P′_ZZ,k(f_l)；检测当前VAD值是否为0，若VAD＝0，则判断当前帧为纯噪声并更新噪声PSD估计值P_vv,k(f_l)，即将高频PSD估计值P′_ZZ,k(f_l)赋值给噪声PSD估计值P_vv,k(f_l)；若VAD≠0，则不更新噪声PSD估计值P_vv,k(f_l)，保留上一次更新的噪声PSD估计值P_vv,k(f_l)。

优选的，所述步骤6)通过SNR测量值的指数平均与VAD阈值的指数平均值进行比较来作出VAD判决，若则VAD＝1，由此判断该语音帧处于有音区，反之，则VAD＝0，认为该语音帧为纯噪声；依据相邻语音帧之间强相关性，进行VAD阈值判断后串接Hangover方法来降低错误拒绝率。

与现有技术相比，本发明技术方案的有益效果是：本发明采用伽马分布(GammaDistribution)作为噪声PSD的统计模型，更好地拟合噪声PSD的长拖尾特性，克服了原基于Gaussian统计模型VAD算法的不足，改进统计模型VAD算法性能。

附图说明

图1为基于噪声功率谱伽玛分布(GammaDistribution)统计模型判决阈值更新的VAD方法示意图；

图2在Babble噪声环境下性噪比为20dB时本发明VAD算法的检测结果(红色方框所画区域为有音区)。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于噪声功率谱Gamma分布统计模型的有音区检测方法，其过程为：获取含噪语音信号z(n)进行分帧处理，得到第k帧含噪语音z_k(n)；采用Welch方法计算第k语音帧f_l频率的PSD估计值P_zz,k(f_l)；P_zz,k(f_l)经高通滤波后得到高频PSD估计值P′_ZZ,k(f_l)，随后判断当前语音帧是否为纯噪声，即VAD值是否为0，若是，则更新噪声第k帧f_l频率的PSD估计值P_vv,k(f_l)，将P′_ZZ,k(f_l)赋值给P_vv,k(f_l)，否则，不更新噪声第k帧f_l频率的PSD估计值P_vv,k(f_l)；计算噪声PSD估计值的指数平均值用噪声PSD估计值P_vv,k(f_l)的平方并取指数平均得方差值var_vk(f_l)。按照信噪比测量值定义计算得到SNR测量值并求指数平均值用基于Gamma分布统计模型的阈值更新公式来计算VAD阈值η_k(f_l)，并取其指数平均值比较和并采用Hangover来方法得出最终VAD判决。

信噪比测量值的计算公式为：

式中，P′_zz,k(f_l)为语音帧的PSD值，为噪声的PSD指数平均值。

比较SNR测量值指数平均值和阈值指数平均值的所用判决式如下：

其中,H₁代表检测到活动语音，而H₀代表检测到静音(纯噪声)，即：当SNR的指数平均大于阈值的指数平均时，检测到的是语音，VAD值为1；反之则当前帧为纯噪声，VAD值为0。

本发明所用的基于噪声功率谱Gamma分布统计模型VAD判决阈值更新表达式如下：

η_{k} (f_{l}) = \frac{g a \min v (1 - P_{F A}, \frac{E {[P_{v v, k} (f_{l})]}^{2}}{{var}_{v k}}, \frac{{var}_{v k}}{E [P_{v v, k} (f_{l})]})}{{\hat{P}}_{v v, k} (f_{l})} - 1 - - - (4)

式中，gaminv为MATLAB中的伽玛分布CDF逆函数来求阈值，表达式为：

X＝gaminv(P,A,B)(5)

式(5)的A和B分别为伽玛分布的形状参数和尺度参数。

P_FA为纯噪声的虚警概率(也就是将噪声误判成语音的概率)，定义如下：

var_vk为噪声方差，P_vv,k(f_l)和分别为噪声的PSD值及其指数平均值。

图2为本发明算法对一段性噪比为20dB的含Babble噪声语音进行VAD检测的结果(红色方框所画区域为有音区)。从图中可以看出本发明算法能准确地区分出含噪语音的语音成分和噪声成分(非语音成分)。

针对基于Gaussian分布统计模型的VAD算法不能很好地拟合噪声PSD分布的长拖尾特性和非平稳噪声环境下VAD检测效果差等缺点，本发明提出了一种基于噪声功率谱Gamma分布统计模型的VAD算法，该算法对噪声PSD分布具有较好的拟合效果，并且能在非平稳噪声环境下准确地检测出语音信号的说话音成分和噪声成分(非语音成分)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于噪声功率谱Gamma分布统计模型的有音区检测方法，其特征在于，包括以下步骤：

3)对PSD估计值P_zz,k(f_l)进行高通滤波，得到高频带的PSD估计值P′_ZZ,k(f_l)；判断当前语音帧是否为纯噪声，若是，则将第k帧噪声频率为f_l的PSD值P_vv,k(f_l)更新为高频带的PSD估计值P′_ZZ,k(f_l)并跳转到步骤4)；否则，则不更新第k帧噪声频率为f_l的PSD值P_vv,k(f_l)跳转到步骤4)；

4)对第k帧噪声频率为f_l的PSD估计值P_vv,k(f_l)求指数平均值计算PSD估计值P_vv,k(f_l)的平方再取指数平均得噪声方差值var_vk(f_l)；

5)用高频带PSD估计值P′_ZZ,k(f_l)和噪声PSD指数平均值计算信噪比(SNR)测量值并求其指数平均值噪声PSD指数平均值结合噪声方差值var_vk(f_l)计算有音区检测(VAD)阈值η_k(f_l)，再求其指数平均值

2.根据权利要求1所述的检测方法，其特征在于，所述步骤2)采用低方差频谱估计的Welch方法来估计语音帧的PSD值，该PSD估计值用于SNR测量值和VAD阈值的计算。

3.根据权利要求1所述的检测方法，其特征在于，所述步骤3)通过对PSD估计值P_zz,k(f_l)进行高通滤波，得到高频带的PSD估计值P′_ZZ,k(f_l)；检测当前VAD值是否为0，若VAD＝0，则判断当前帧为纯噪声并更新噪声PSD估计值P_vv,k(f_l)，即将高频PSD估计值P′_ZZ,k(f_l)赋值给噪声PSD估计值P_vv,k(f_l)；若VAD≠0，则不更新噪声PSD估计值P_vv,k(f_l)，保留上一次更新的噪声PSD估计值P_vv,k(f_l)。

4.根据权利要求1所述的检测方法，其特征在于，所述步骤6)通过SNR测量值的指数平均与VAD阈值的指数平均值进行比较来作出VAD判决，若则VAD＝1，由此判断该语音帧处于有音区，反之，则VAD＝0，认为该语音帧为纯噪声；依据相邻语音帧之间强相关性，进行VAD阈值判断后串接Hangover方法来降低错误拒绝率。