CN103730124A

CN103730124A - 一种基于似然比测试的噪声鲁棒性端点检测方法

Info

Publication number: CN103730124A
Application number: CN201310751241.5A
Authority: CN
Inventors: 包旭雷; 李为; 姚国勤; 朱杰; 董斌; 杭乐
Original assignee: SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE
Current assignee: SHANGHAI JIAO TONG UNIVERSITY WUXI RESEARCH INSTITUTE; Shanghai Jiaotong University
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-16

Abstract

本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法，分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进，使得提出的算法相对于现有技术在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。本发明所述的方法与基于谐波特征的多观测似然比测试算法具有相似的语音边界检测正确率，但却比基于谐波特征的多观测似然比测试算法具有更好的声音检测精度，从而验证本方法要比传统的方法在性能上更为优异。同时，本方法在15dB和25dB的信噪比下具有相似的性能，说明它对噪声具有很好的鲁棒性。本方法在实际环境中可以作为语音识别或者声纹识别系统的前端预处理重要的有效方法，拥有很好的应用价值。

Description

一种基于似然比测试的噪声鲁棒性端点检测方法

技术领域

本发明公开了一种基于似然比测试的噪声鲁棒性端点检测方法，涉及语音处理和信号处理领域。

背景技术

语音端点检测(VAD)是语音处理相关技术中的一个非常关键的部分，它不仅可用于语音增强中的语音/非语音检测，而且可应用于特征提取和语音信号去混响等过程中。现有的语音信号端点检测算法主要分为三大类：基于时间域的端点检测方法、基于频率域的端点检测方法和基于模型统计的端点检测方法。

实际应用中，高精度的语音端点检测对后续的语音增强、端点检测、语音识别或声纹识别都有极其重要的作用。然而，现有的语音端点检测技术仍然存在着一些问题和不足，尤其在实际信道环境下，由于语音信号清音和摩擦音成分的频谱特征与噪音具有很大相似性，而现有大部分端点检测算法都是基于语音本身音节特征实现对语音和噪音的区分，因此在检测端点的过程中，可能会丢失语音起始音或收尾音导致截断效应。同时，大多数算法无法完整保留所有语音信息，当信噪比降低时，检测性能也将明显下降。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于似然比测试的噪声鲁棒性端点检测方法，该方法所提出的算法分别从信噪比的估计、阈值的鲁棒性设置和拖尾失真消除三个方面进行改进，使得提出的算法相对于现有的算法在低信噪比环境下尤其是非平稳噪声环境下具有更好的检测性能。

本发明为解决上述技术问题采用以下技术方案：

一种基于似然比测试的噪声鲁棒性端点检测方法，通过维纳滤波器对带噪语音信号进行语音增强，语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到：

x(n)=s(n)+d(n)

其中，n为时间采样索引，所述干净语音信号和干扰噪声可以具备统计独立且均值为零的特性，带噪语音的傅立叶变换表示为：

H₀:X(m，k)=N(m,k);H₁:X(m，k)=S(m,k)+N(m，k) (1)

其中，X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子，m为帧索引，k为帧内的各个频段值，H₀和H₁分别表示非语音帧和语音帧；

干净语音信号和噪声信号的概率密度都满足高斯分布时，观测信号X(m,k)在H₀和H₁下的概率密度函数为

p (X_{m, k} | H_{0}) = \frac{1}{{πσ}_{N}^{2} (m, k)} \exp (- \frac{{| X (m, k) |}^{2}}{{πσ}_{N}^{2} (m, k)});

p (X_{m, k} | H_{1}) = \frac{1}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))} \exp (- \frac{{| X (m, k) |}^{2}}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))}) - - - (2)

其中

σ_{S}^{2} (m, k) = E {| S (m, k) |^{2}}

为语音信号的功率谱，

σ_{N}^{2} (m, k) = E {| N (m, k) |^{2}}

为噪声信号的功率谱；

该帧第k频段的似然比值为:

Λ_{m, k} \overset{Δ}{=} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})} = \frac{1}{1 + ξ_{m, k}} \exp (\frac{γ_{m, k} ξ_{m, k}}{1 + ξ_{m, k}}) - - - (3)

其中，

ξ_{m, k} = σ_{S}^{2} (m, k) / σ_{N}^{2} (m, k), γ_{m, k} = {| X (m, k) |}^{2} / σ_{N}^{2} (m, k)

分别表示先验信噪比和后验信噪比，且先验信噪比ξ_m,k和后验信噪比γ_m,k在直接决策估计器中存在着以下关系:

{\tilde{ξ}}_{m, k}^{DD} \approx α \frac{{| \tilde{S} (m - 1, k) |}^{2}}{σ_{N}^{2} (m - 1, k)} + (1 - α) \max {γ_{m, k}, 0} - - - (4)

其中，

α是一个常数平稳因子，

表示前一帧的语音信号估计，

表示前一帧的噪声功率谱；

设定阈值η，将其与似然比的值相比较来确定当前帧为语音段或非语音段，当似然比的值大于阈值时，判定该帧为语音帧，当似然比的值小于阈值时，判定该帧为非语音帧，具体通过如下公式表示：

其中，K为频段总数；

m帧的对数似然比为：

l_{m} = \frac{1}{k} Σ_{k = 0}^{K - 1} \log Λ_{m, k} = \frac{1}{K} Σ_{k = 0}^{K - 1} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})}

l_m={l_m-M,l_m-M+1...l_m+M}表示以l_m为中心的连续2M+1帧，则以这2M+1个对数似然比为对象的判决规则为:

其中，f_r指代每一帧，对于其中的第k频段下的对数似然比logΛ_m,k，将观测信号在H₁和H₀的概率代入其中得到:

logΛ_m,k≈γ_m,k-1-logγ_m,k

先验信噪比ξ_m,k由后验信噪比通过最大似然估计算法得到，即：

ξ_{m, k}^{ML} = γ_{m, k} - 1

因此，对数似然比的值取决于噪声能量谱

的精度；

当信噪比低时，噪声能量谱变大，通过降低选取的阈值η来降低发声段误判概率；反之，通过增大阈值η来和高信噪比信号进行匹配；

带噪语音功率谱谱Ω(m,k)由带噪信号功率谱|X(m,k)|²平滑得到，平滑因子α(m,k)为时频相关函数，则：

Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|²

其中，α(m,k)是一个与时频相关的平稳因子，

为每帧信号最小噪声功率谱，由最小统计的噪声估计得到；

最终得出，噪声能量谱相关的阈值η_m为:

η_{m} = α_{η} \times {(\sqrt{\frac{1}{K} Σ_{k = 0}^{K - 1} σ_{N_{\min}}^{2} (m, k)})}^{- 1}

其中，α_η是该阈值的一个常系数。

作为本发明的进一步优选方案，所述平滑因子α(m,k)=0.8。

作为本发明的进一步优选方案，所述频段总数K=256。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明所提出的VAD算法与基于谐波特征的MOLRT算法具有相似的SBR正确率，但却比基于谐波特征的MOLRT算法具有更为优异的多VAcc，；本节提出的VAD算法在15dB和25dB的信噪比下具有相似的性能，说明本方法对噪声具有很好的鲁棒性。

附图说明

图1（a）是：干净语音的示意图。

图1（b）是：基于Sohn的VAD结果示意图。

图1（c）是：基于Tan的VAD结果示意图。

图1（d）是：基于本发明所述方法的VAD结果示意图。

图2（a）是：不同信噪比下的段级性能比较示意图。

图2（b）是：不同信噪比下的帧级性能比较示意图。

图2（c）是：不同信噪比下语音帧的正确个数。

图3是本发明中基于语音增强的语音端点检测框架示意图。

图4是汽车噪声环境下的语音帧正确检测数示意图。

图5是不同非平稳噪声下的性能比较示意图。

具体实施方式

现实环境中，我们人耳可以听到的带噪语音信号可以通过干净语音信号与干扰信号的叠加得到，而且噪声信号的强度将明显影响语音端点检测的性能。同时，多种科研成果已经证明了强信噪比下的语音端点检测性能要明显好于低信噪比的情况。因此，本权利书中首先通过维纳滤波器对带噪语音信号进行语音增强，这样不仅可以减弱噪声信号干净语音的影响，同时过滤后的噪声信号具有更好的平稳特性。

下面结合附图对本发明的技术方案做进一步的详细说明：

带噪语音x(n)由干净语音s(n)和干扰噪声d(n)叠加得到：

x(n)=s(n)+d(n)

其中，n为时间采样索引。

假定干净语音和干扰噪声具有统计独立和均值为零的特点，且带噪语音的傅立叶变换可以表示为

H₀:X(m，k)=N(m,k);H₁:X(m，k)=S(m,k)+N(m，k)

(1)

其中，X(m,k)、S(m,k)和N(m,k)为每帧信号的短时傅立叶因子，m为帧索引，k为帧内的各个频段值，H₀和H₁分别表示非语音帧和语音帧。假设干净语音信号和噪声信号的概率密度都满足高斯分布，那么观测信号X(m,k)在H₀和H₁下的概率密度函数为

p (X_{m, k} | H_{0}) = \frac{1}{{πσ}_{N}^{2} (m, k)} \exp (- \frac{{| X (m, k) |}^{2}}{{πσ}_{N}^{2} (m, k)});

p (X_{m, k} | H_{1}) = \frac{1}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))} \exp (- \frac{{| X (m, k) |}^{2}}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))}) - - - (2)

其中

σ_{S}^{2} (m, k) = E {| S (m, k) |^{2}}

和

σ_{N}^{2} (m, k) = E {| N (m, k) |^{2}}

分别为语音信号和噪声信号的功率谱。于是该帧第k频段的似然比(LR)值就为:

Λ_{m, k} \overset{Δ}{=} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})} = \frac{1}{1 + ξ_{m, k}} \exp (\frac{γ_{m, k} ξ_{m, k}}{1 + ξ_{m, k}}) - - - (3)

其中

ξ_{m, k} = σ_{S}^{2} (m, k) / σ_{N}^{2} (m, k), γ_{m, k} = {| X (m, k) |}^{2} / σ_{N}^{2} (m, k)

分别表示先验信噪比和后验信噪比，且先验信噪比ξ_m,k和后验信噪比γ_m,k在直接决策(DD)估计器中存在着以下关系:

{\tilde{ξ}}_{m, k}^{DD} \approx α \frac{{| \tilde{S} (m - 1, k) |}^{2}}{σ_{N}^{2} (m - 1, k)} + (1 - α) \max {γ_{m, k}, 0} - - - (4)

假设我们可以设定一个阈值η与LR的值比较来确定当前帧为语音段或非语音段，满足:

其中，K为频段总数，从式(5)中我们可以看出LR的值与先验信噪比、后验信噪比有密切的关系。当后验信噪比很大，即γ_m,k＞＞1时，则LR的值也因此变得很大，Λ_m,k＞＞1；而当后验信噪比γ_m,k≤1时，先验信噪比就成了计算LR的关键参数。

整个基于语音增强的语音端点检测系统的流程框图如图3所示，从上述推导可知m帧的对数似然比(LLR)为：

l_{m} = \frac{1}{K} Σ_{k = 0}^{K - 1} \log Λ_{m, k} = \frac{1}{K} Σ_{k = 0}^{K - 1} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})} - - - (6)

假设l_m={l_m-M,l_m-M+1...l_m+M}表示以l_m为中心的连续2M+1帧，则以这2M+1个LLRs为对象的判决规则为:

对于其中的第k频段下的对数似然比logΛ_m,k我们可以将观测信号在H₁和H₀的概率代入其中得到:

logΛ_m,k≈γ_m,k-1-logγ_m,k (8)

这是因为先验信噪比ξ_m,k可以根据后验信噪比通过最大似然(ML)估计算法得到：

ξ_{m, k}^{ML} = γ_{m, k} - 1

因此，我们可以简单地将对数似然比LLR看成是后验信噪比γ_m,k的函数，即LLR的值取决于噪声能量谱

另一方面，当信噪比很低时，即噪声能量谱变大时，我们需要一个较小的阈值η来降低发声段误判概率；反之我们需要大阈值η来和强信噪比信号进行匹配。从上面的分析中可以看出，对数似然比LLR主要取决于噪声能量谱的精确度。因此将阈值与当前帧的最小噪声能量谱建立某种联系，不仅可以使得VAD算法对于各种信噪比环境具有更好的鲁棒性，同时因为估计得到的最小噪声能量谱小于

而保证了发声段正确估计的冗余度。

假设能量谱Ω(m,k)是带噪信号功率谱|X(m,k)|²平滑得到，平滑因子α(m,k)是一个时频相关函数，则：

Ω(m,k)=α(m,k)Ω(m,k)+(1-α(m,k))|X(m,k)|² (9)

此时，我们可以利用国外作者提出的基于最小统计的噪声估计就可以得到每帧信号最小噪声功率谱

我们定义噪声能量谱相关的阈值η_m为:

η_{m} = α_{η} \times {(\sqrt{\frac{1}{K} Σ_{k = 0}^{K - 1} σ_{N_{\min}}^{2} (m, k)})}^{- 1} - - - (12)

其中α_η是该阈值的一个常系数。

对所提出的VAD方法的性能进行验证：在实验中，采用录制的非广播干净语料，共2906句，采样率为fs=8kHz。将该语料与平稳、非平稳噪声混合得到不同信噪比下的带噪语音。其中平稳噪声来自于实际环境下的采集与录制，而非平稳噪声（汽车噪声和babble噪声）分别来自于http://www.freesound.com和http://spib.rice.edu/spib/data/signals/noise/babble.html。我们用长为200的汉宁窗作为分析窗和分析窗，频段总数K=256。在噪声估计中，平滑因子α_p=0.8，先验的语音概率p(H₁)=p(H₀)，并令方程(10)中的α_max=0.96,连续的LLR个数为2M+1=17。

虽然受试者操作特性(ROC)曲线在VAD算法的性能验证中是一个通用的方法，但该方法仅仅只能在帧级对VAD性能做出判断，即它只能强调正确估计了多少帧的语音/非语音帧，却对语音段/非语音段的判断毫无办法。比如，在Sohn的VAD算法中，它的ROC曲线做得相对比较完美，但是在实际情况下，基于Sohn的VAD方法却会出现很多碎片。我们以一句带噪语音来说明该情况，如图1（a）至图1（d）所示。

从图1（a）至图1（d）中，我们可以看到采用Sohn的方法在低信噪比的环境下并不能保证语音段的完整性，会出现很多细小的碎片；Tan在该方面的性能却要更好一些。但过多小碎片的存在使得这两种方法不能保证自动语音识别在噪声环境下的有效应用。因此，本节为了验证VAD算法的有效性，不仅考虑了帧级的性能，同时考虑了段级的性能。

图2（a）至图2（c）显示了在平稳噪声不同信噪比下的VAD结果。从图2(c)中我们可以看到，本文提出的算法在语音帧的检测正确个数T_p上与Sohn的VAD方法近似，且好于Tan提出的VAD方法。而图2(a)则说明了在语音段/非语音段的检测中要远远好于其他两种方法。

图4和图5给出了不同VAD算法在不同非平稳噪声下的性能。从图4中我们可以看到Sohn的方法在语音帧数的检测上具有最好的效果，然后正如上面所指出的，过分强调帧的语音帧的正确性并不能说明该VAD算法就是最优的。从图5中我们可以得出以下结论：

我们所提出的VAD算法与基于谐波特征的MOLRT算法具有相似的SBR正确率，但却比基于谐波特征的MOLRT算法具有更为优异的多VAcc，这也就说明了本节中提出的端点检测方法要比传统的方法具有更好的性能。

本节提出的VAD算法在15dB和25dB的信噪比下具有相似的性能，这也就说了本节的VAD算法对噪声具有很好的鲁棒性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于似然比测试的噪声鲁棒性端点检测方法，其特征在于：通过维纳滤波器对带噪语音信号进行语音增强，语音增强后的带噪语音信号x(n)通过干净语音s(n)和干扰噪声d(n)叠加得到：

x(n)=s(n)+d(n)

H₀：X(m，k)=N(m，k);H₁：X(m，k)=S(m，k)+N(m，k) (1)

p (X_{m, k} | H_{0}) = \frac{1}{{πσ}_{N}^{2} (m, k)} \exp (- \frac{{| X (m, k) |}^{2}}{{πσ}_{N}^{2} (m, k)});

p (X_{m, k} | H_{1}) = \frac{1}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))} \exp (- \frac{{| X (m, k) |}^{2}}{π (σ_{N}^{2} (m, k) + σ_{S}^{2} (m, k))}) - - - (2)

其中

σ_{S}^{2} (m, k) = E {| S (m, k) |^{2}}

为语音信号的功率谱，

σ_{N}^{2} (m, k) = E {| N (m, k) |^{2}}

为噪声信号的功率谱；

该帧第k频段的似然比值为:

Λ_{m, k} \overset{Δ}{=} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})} = \frac{1}{1 + ξ_{m, k}} \exp (\frac{γ_{m, k} ξ_{m, k}}{1 + ξ_{m, k}}) - - - (3)

其中，

ξ_{m, k} = σ_{S}^{2} (m, k) / σ_{N}^{2} (m, k), γ_{m, k} = {| X (m, k) |}^{2} / σ_{N}^{2} (m, k)

分别表示先验信噪比和后验信噪比，且先验信噪比ξ_m，k和后验信噪比γ_m，k在直接决策估计器中存在着以下关系:

{\tilde{ξ}}_{m, k}^{DD} \approx α \frac{{| \tilde{S} (m - 1, k) |}^{2}}{σ_{N}^{2} (m - 1, k)} + (1 - α) \max {γ_{m, k}, 0} - - - (4)

其中，

α是一个常数平稳因子，

表示前一帧的语音信号估计，

表示前一帧的噪声功率谱；

其中，K为频段总数；

m帧的对数似然比为：

l_{m} = \frac{1}{k} Σ_{k = 0}^{K - 1} \log Λ_{m, k} = \frac{1}{K} Σ_{k = 0}^{K - 1} \frac{p (X_{m, k} | H_{0})}{p (X_{m, k} | H_{1})}

其中，f_r指代每一帧，对于其中的第k频段下的对数似然比logΛ_m，k，将观测信号在H₁和H₀的概率代入其中得到:

logΛ_m，k≈γ_m，k-1-logγ_m，k

先验信噪比ξ_m，k由后验信噪比通过最大似然估计算法得到，即：

ξ_{m, k}^{ML} = γ_{m, k} - 1

因此，对数似然比的值取决于噪声能量谱

的精度；

当信噪比低时，噪声能量谱

变大，通过降低选取的阈值η来降低发声段误判概率；反之，通过增大阈值η来和高信噪比信号进行匹配；

带噪语音功率谱谱Ω(m，k)由带噪信号功率谱|X(m，k）|²平滑得到，平滑因子α(m，k)为时频相关函数，则：

Ω(m，k）=α(m，k)Ω(m，k)+(1-α(m,k))|X(m,k)|²

其中，α(m,k)是一个与时频相关的平稳因子，为每帧信号最小噪声功率谱，由最小统计的噪声估计得到；

最终得出，噪声能量谱相关的阈值η_m为:

η_{m} = α_{η} \times {(\sqrt{\frac{1}{K} Σ_{k = 0}^{K - 1} σ_{N_{\min}}^{2} (m, k)})}^{- 1}

其中，α_η是该阈值的一个常系数。

2.如权利要求1所述的一种基于似然比测试的噪声鲁棒性端点检测方法，其特征在于：所述平滑因子α(m,k)=0.8。

3.如权利要求1所述的一种基于似然比测试的噪声鲁棒性端点检测方法，其特征在于：所述频段总数K=256。