CN103854662A

CN103854662A - 基于多域联合估计的自适应语音检测方法

Info

Publication number: CN103854662A
Application number: CN201410076588.9A
Authority: CN
Inventors: 范建华; 王统祥; 吕遵明; 万留进; 成洁
Original assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Current assignee: No 63 Inst Of Headquarters Of Genearal Staff Of Cp L A
Priority date: 2014-03-04
Filing date: 2014-03-04
Publication date: 2014-06-11
Anticipated expiration: 2034-03-04
Also published as: CN103854662B

Abstract

本发明公开一种基于多域联合估计的自适应语音检测方法，能在复杂环境中自适应检测语音，准确性和可靠性好，检测复杂度低。本发明的语音检测方法，包括：信号预处理，频谱稳定性判断，平稳噪声语音检测，非平稳噪声语音检测，语音段信号输出。

Description

基于多域联合估计的自适应语音检测方法

技术领域

本发明属于语音检测技术领域，特别是一种基于多域联合估计的自适应语音检测方法。

背景技术

现有通信设备多代共存，且通信频段、调制方式、数据速率、数据帧格式各不相同，难以实现直接互联互通；通信环境复杂多变，语音通信的保障难度加大。语音检测技术是语音信号处理的前端，直接影响着语音识别、语音增强、说话人识别等后续处理，在语音通信中起着重要作用。

语音检测技术大致分为两类：门限比较法和模型匹配法。门限比较法根据语音和噪声的不同特性，提取不同的特征参数，设置合适的门限进行判决，主要可以分为时域和变换域两类。时域检测方法主要有短时能量法、短时平均幅度法（AMDF）、短时平均幅度差法、短时平均过零率、短时自相关函数等。变换域检测方法主要有谱熵法、倒谱法、频带差法、小波分析法等。模型匹配法主要有贝里斯模型匹配、神经网络模型法等。

下面是几种现有的语音检测方法的简介。

1、短时平均幅度差法（AMDF）

语音信号的浊音具有准周期性，在一帧语音信号内，信号近似平稳，基音周期近似相等，若为语音信号的浊音，在整数倍周期的位置会出现极小值，在这些点上信号幅度差近似为0；但清音和噪声不具备周期性的特点，不同周期的信号幅度差值较大。

短时平均幅度差法在高信噪比下具有很好的语音检测效果，由于只有加减运算，计算量比自相关函数法显著降低；但在低信噪比的环境下，检测效果较差。

2、短时自相关函数法

自相关函数值，两个极大值之间为一个信号周期，即为基音周期。

短时自相关函数法适合噪声环境下的语音信号检测，语音信号在低信噪比的情况下基音周期不发生变化，检测效果明显好于短时能量和短时平均幅度法；但是信号丰富的谐波分量会影响基音周期的检测结果，会出现倍频或者分频的情况。

3、谱熵法

谱熵体现了语音信号和噪声在整个信号中的分布情况。语音信号的频率大致分布在100～4000Hz，分布比较集中，熵值比较小；而背景噪声在频谱中的分布比较均匀，频谱比较平坦，谱熵值比较大，根据语音信号和噪声的不同谱熵值，设置合理的门限可以完成语音检测的目的。

谱熵法是性能较好的频域端点检测算法，它对噪声具有一定的鲁棒性，尤其在具有机械噪声的非稳定噪声环境下，具有较好的检测效果；但在低信噪比的环境下，检测效果不够理想。

4、能量谱熵法（ESE）

在非稳定噪声环境下，短时能量法很难区分语音信号和背景噪声，而谱熵法具有很好的检测特性；谱熵法在嘈杂噪声和音乐噪声下检测效果较差，而短时能量法具有很好的检测特性。将能量法和谱熵法结合起来，实现两种方法间的互补，提高了语音检测效果。图9是ESE的检测流程图。

5、倒谱距离法

X(w)是x(n)对应分傅里叶变换，则c(n)可以看作是X(w)的对数傅里叶级数展开，即：

\log X (w) = Σ_{n = - \infty}^{\infty} c (n) e^{- jmw}

其中，

c (0) = \frac{1}{2 π} {&Integral;}_{- π}^{π} \log X (w) dw

对于一对谱密度函数X₁(w)和X₂(w)，根据帕斯瓦尔定理，倒谱距离为：

d^{2} = \frac{1}{2 π} {&Integral;}_{- π}^{π} {| \log X_{2} (w) - \log X_{1} (w) |}^{2} dw = Σ_{n = - \infty}^{\infty} {[c_{2} (n) - c_{1} (n)]}^{2}

用k阶倒谱系数可以近似表示为：

d = 4.343 \sqrt{{[c_{2} (0) - c_{1} (0)]}^{2} + Σ_{n = 1}^{k} {[c_{2} (n) - c_{1} (n)]}^{2}}

在平稳噪声环境中，即使信噪比比较低，倒谱距离法可以很好的区分语音段和非语音段，通过设置合适的门限，对信号进行检测；但在有非平稳噪声的环境中，倒谱距离法难以区分语音段和非语音段。

6、小波分析法

小波分析法不仅能够同时反映信号的时频域信息，还可以精确分析信号的细节，具有很强的信号分析能力，使用此方法实现对信号的特征提取，尤其对含有非平稳噪声的信号，可以很好的区分语音信号和噪声信号。小波分析在低频部分具有较高的频率分辨率和较低的时间分辨率，在高频部分具有较高的时间分辨率和较低的频率分辨率，对信号分析能力大大提高。

语音信号在各个小波子带内的能量分布时不均匀的，主要集中在低频子带内；噪声信号在各个小波子带内的能量分布比较均匀。利用各层小波子带系数所携带的信号能量进行语音检测。

7、神经网络端点检测模型

本文用于语音端点检测的神经网络是众多神经网络算法中很有代表性的一种：BP网格。它是误差反向传播算法，具有非线性映射、学习能力、并行性和分布式等优点。图10是BP神经网络算法模型。

针对一组输入信号，计算其输出能量误差，再按照梯度下降准则，通过调整各个权值，可使输出误差能量减小，这就是反向误差传播算法。算法的关键是通过减小输出误差，达到理想输出结果，这个迭代过程是学习过程。

根据理想和实际输出结果可以得到隐层到输出层的权值调整值，在计算输入层到隐层的权值调整参数，通过两次计算就完成了一次训练过程，然后反复多次进行，不断修正权值，使得实际值和理想值逐步接近，设置合适的精度或者学习次数就可以结束训练过程。

神经网络模型用于语音端点检测，首先确定一段信号作为神经网络的训练样本，提取特征值，作为神经网络的输入，进行训练。训练时要告知网络输入的特征值是语音段还是噪声段，然后输入要检测的信号特征值，通过门限设置，可以得到检测结果。

上述各种语音检测技术都可以独立进行检测，但是都只关注了语音的某一种特征，一旦这种特征不明显，就不能进行正确的语音检测。

现有语音检测技术只考虑单一背景噪声下，针对平稳噪声或者某种特定噪声的噪声特性对语音检测方法优化，对语音进行时域、频域或时频域分析，提取语音特征进行检测。但当环境发生变化时，检测性能迅速下降。

因此，由于现有检测技术检测目标单一，针对的背景噪声单一，如应用于复杂环境，则检测效果很差，不能正确检测出语音信号的起止点。

发明内容

本发明的目的在于提供一种基于多域联合估计的自适应语音检测方法，在复杂环境应用中，准确性和可靠性好，检测复杂度低。

实现本发明目的的技术解决方案为：一种基于多域联合估计的自适应语音检测方法，包括如下步骤：

10）信号预处理：对输入信号进行滤波、采样、量化、分帧和加窗处理，得到预处理信号；

20）频谱稳定性判断：对预处理信号的噪声段进行稳定性检测，判断背景噪声是平稳噪声或非平稳噪声；

30）平稳噪声语音检测：对平稳噪声下的信号进行语音检测，得到检测语音信号；

40）非平稳噪声语音检测：对非平稳噪声下的信号进行语音检测，得到检测语音信号；

50）语音段信号输出：在检测语音信号的语音终止帧后加几帧拖尾延迟保护，输出语音段信号。

本发明与现有技术相比，其显著优点：

1、准确性高，可靠性好：利用自适应多域联合估计语音检测算法，通过对不同背景噪声的分类，采用针对性的方法，对信号进行时域、频域和小波域等多域分析，提取了信号多种特征进行综合判决，提高了语音检测的准确性和可靠性；

2、检测复杂度低：同时有效降低了运算复杂度，大幅度提升语音识别的鲁棒性，对复杂环境下的噪声干扰检测能力较强，对实现下通信设备之间的互联互通具有重要作用。在平稳噪声环境、信噪比不低于6dB下，进行了实验仿真，正确检测概率达到100%。

下面结合附图和具体实施方式对本发明作进一步的详细描述。

附图说明

图1为本发明基于多域联合估计的自适应语音检测方法主流程图。

图2为图1中信号预处理步骤流程图。

图3为图1中噪声频谱稳定性判断步骤流程图。

图4为图1中平稳噪声语音检测步骤流程图。

图5为图4中高信噪比语音检测步骤流程图。

图6为图4中低信噪比语音检测步骤流程图。

图7为图1中非平稳噪声语音检测步骤流程图。

图8为图7中语音信号检测步骤流程图。

图9为计算ESE特征值步骤流程图。

图10为BP神经网络示意图。

具体实施方式

如图1所示，本发明基于多域联合估计的自适应语音检测方法，包括如下步骤：

如图2所示，所述信号预处理（10）步骤包括：

11）滤波：滤除输入语音信号中的高频率脉冲噪声，有效减小语音信号频段以外信号的干扰；

12）采样、量化：以大于处理信号最高频率两倍的采样速率，对处理信号采样、量化；

13）分帧：按一帧信号时长20ms和交叠长度10ms将语音信号分帧；

14）加窗：对每帧语音信号进行加窗，得到预处理信号。

滤波的目的是有效减小语音信号频段以外信号的干扰，可以滤除高频率的脉冲噪声。然后进行采样、量化，根据乃奎斯特采样定理，采样速率大于处理信号最高频率的两倍；根据人体学发声原理，短时内语音信号可以近似看作平稳的，这里选择20ms为一帧，交叠长度为10ms，设得到的一帧语音信号为s(n)；对s(n)进行加窗处理，可以避免分帧时的截断效应，得到：s_w(n)=s(n)×w(n)，这里w(n)选用Hamming窗，汉明窗旁瓣低可以有效抑制泄露，具有很好的低通特性。

平稳性体现在频谱随时间的波动上。具体来说，对于平稳信号，其频谱不随时间变化；而对于非平稳信号，其频谱会随时间改变。因此，可以通过比较不同时间点上频谱的相似程度来判断信号的平稳性。将待检测信号前10帧看作“静态帧”，首先计算各帧信号的短时傅里叶变换，然后计算各帧信号谱平均值，再计算各点与谱均之间的差值，最后进行频谱稳定性判断。

如图3所示，所述频谱稳定性判断（20）步骤包括：

21）计算预处理信号噪声段信号的谱值：

S_{n} (e^{jw}) = Σ_{n = - \infty}^{\infty} s (m) w (n - m) e^{- jwm};

22）计算预处理信号噪声段信号谱平均值:

\bar{S} (e^{jw}) = Σ_{n = 1}^{M} S_{n} (e^{jw})

23）计算各点与谱均值之间的差值：

{Df}_{n} = | S_{n} (e^{jw}) - \bar{S} (e^{jw}) |;

24）频谱稳定性判断：如果Df_n的值均不超过T，就认为当前噪声段信号是平稳信号，反之则是非平稳信号；

式中，s(m)为信号函数，w(m)是窗函数，m为窗长，M为频谱的采样点数，T为设定的门限值，相邻两个采样点的频谱差值为Df_n。

如果信号是平稳的，则可以判定背景噪声是平稳噪声。然后选取待测信号段，根据短时信噪比估计计算SNR。

如图4所示，所述平稳噪声语音检测（30）步骤包括：

31）信噪比估算：选取待测语音段，根据下式估算信噪比SNR，

SNR = 10 \log \frac{E_{s}}{E_{n}} = 10 \log \frac{E_{f} - E_{n}}{E_{n}},

式中，E_f是含噪语音信号的能量，E_s是语音信号的能量，E_n是噪声信号的能量；

32）信噪比高低判断：设置门限值S，如果噪声信号的能量超过门限值S，则判定为高信噪比，反之，判定为低信噪比；

33）高信噪比语音检测：对高信噪比语音信号，采用短时平均幅度差算法对其进行检测；

对于高信噪比的信号，很多算法都可以进行有效检测，这里采用短时平均幅度差算法，即降低了运算量，又可以获得好的检测效果。

如图5所示，所述高信噪比语音检测（33）步骤包括：

331）计算短时幅度差函数：

S (k) = Σ_{m = 0}^{N - 1} | s_{n} (m) - s_{n} (m + k) |,

式中，s_n(m)=w(m)s(n+m)，

s_n(m+k)=w(m+k)s(n+m+k)，

w(m)是窗函数，N是每帧语音的采样点数；

332）归一化平均幅度差函数：按下式对平均幅度差函数进行归一化处理，

Y (k) = \frac{1}{M} S (k),

式中，M为整个语音信号的平均幅度，S(k)是短时幅度差函数；

为了避免信号强弱带来的误差，对平均幅度差函数进行归一化处理，Y(k)是归一化后的函数。

333）语音起止点定位：若s(n)是语音信号，则它具有周期性，Y(k)在k=0,±p,±2p...处将取得极小值，据此可以定位语音信号的起止点。

34）低信噪比语音检测：对低信噪比语音信号，采用多特征融合算法对其进行检测。

当信噪比偏低时，短时能量、短时幅度、短时过零率等算法都不可行。这里采用多特征融合算法对信号进行检测。首先利用语音具有周期性这个固有特性，采用归一化互相关函数法来判断信号帧是否为语音,基音周期法可以较好的检测出浊音信号，但对清音信号检测效果较差；通过信号分析发现，清音信号的能量分布范围比较广，高频部分的能量较大，而噪声能量主要集中在低频部分，据此选择高频与全频带能量比作为特征参数可以对清音和噪声进行判决；基音周期检测和高频与全频能量比值这两种方法对于判决都会有一定的余量，存在将噪声误判为语音的情况，继续采用倒谱距离法，对语音进行精确检测。

如图6所示，所述低信噪比语音检测（34）步骤包括：

341）浊音检测：采用归一化互相关函数法来判断信号帧是否为语音，当R_xy的值接近1时，信噪比较高、检测段为浊音段；当R_xy的值大于0.5时，信噪比较低、检测段为浊音段，R_xy的值小于0.5时，检测段为清音段或者噪声段；

其中，R_xy为语音帧对应的归一化互相关函数，

R_{xy} = \frac{Σ_{m = 1}^{N} s_{w} (m) s_{w} (m - k)}{\sqrt{Σ_{m = 1}^{N} s_{w}^{2} (m) Σ_{m = 1}^{N} s_{w}^{2} (m - k)}},

式中，s_w(m)是加窗后的语音信号。

通过实验分析得到，当信噪比较高、检测段为浊音段时，R_xy的值接近1；信噪比较低、检测段为浊音段时，R_xy的值也大于0.5；检测端为清音段或者噪声段时，R_xy的值小于0.5。

由于信号丰富的谐波分量会影响基音周期的检测结果，若使用自相关函数法，会出现倍频或者分频的情况。采用归一化互相关函数法，峰值比自相关函数的峰值要大，且能很好地适应信号幅度的快速变化，检测性能优于自相关函数法。

342）清音噪声检测：e值接近1时为清音段，e值接近0时为噪声段，

其中，e为高频与全频带能量比值，

e = \frac{E_{s}}{E_{f}},

式中，

E_{s} = Σ_{n = 1}^{N} s_{w}^{2} (n),

式中，E_s为高频带能量值，E_f为全频带能量值，s_w(n)为语音信号s(n)通过一个高通FIR滤波器，截止频率为2kHz；

通过对清音和噪声的分析可以发现，清音段e值接近1，而噪声段e值接近0，因此可以采用此种方法来区分清音和噪声。

基音周期法可以在低信噪比的情况下检测出浊音，但是不能很好地检测出清音。通过分析可以发现，清音信号的能量分布范围比较广，高频部分的能量较大，而噪声能量主要集中在低频部分，据此选择高频与全频带能量比作为特征参数可以对清音和噪声进行判决。

343）语音起止点定位：采用倒谱距离法进行语音起止点精确定位，包括：

首先，选取阶数k为12阶，计算前5帧“静态帧”的倒谱系数平均值，作为背景噪声的倒谱系数估计值c₀(n)，

其中，倒谱系数c(n)的为：c(n)=z-¹lnz[s(n)]，

其次，计算后5帧“静态帧”的倒谱系数估计值c₁(n)，

再其次，计算背景噪声倒谱距离估计值d₀：

d_{0} = 4.343 \sqrt{{[c_{1} (0) - c_{0} (0)]}^{2} + Σ_{n = 1}^{k} {[c_{1} (n) - c_{0} (n)]}^{2}},

又其次，逐帧计算倒谱系数c_i(n)，分别与c₀(n)计算倒谱距离：

d = 4.343 \sqrt{{[c_{i} (0) - c_{0} (0)]}^{2} + Σ_{n = 1}^{k} {[c_{i} (n) - c_{0} (n)]}^{2}},

为了使判决更准确，设定两个判决门限，分别为H₁和H₂，根据噪声倒谱距离按下式调整门限值：

H_i=d₀k_i,i=1,2且k₂>k₁，

式中，k₁、k₂是两个门限的乘系数，这里取k₁=1.0，k₂=1.3；如果当前帧大于H₁，则开始计数，如果在某帧之后有连续3帧倒谱距离值大于H₂，则判定该帧为语音起始帧。

归一化互相关法和高频与全频带能量比这两种方法进行语音检测，还存在将噪声误判为语音的可能性。继续采用倒谱距离法进行语音起止点精确定位。倒谱距离法运算量较大，采用上述两种方法进行粗判决，降低了倒谱距离法的运算量，同时可以得到好的检测效果。

如果判断出的“静音帧”信号是非平稳的，则可以判定背景噪声是非平稳噪声。

首先计算前10帧（“静音帧”）信号对应的能量平均值E_ave和谱熵平均值H_ave，然后对加窗分帧处理后的信号，分别计算每帧的能量值E_n和谱熵值H_n，计算各帧与“静音帧”平均值之间的差，对所得能量差值和谱熵差值对应相乘。

如图7所示，所述非平稳噪声语音检测（40）步骤包括：

41）计算前K（K=10）帧能量平均值：

E_{ave} = \frac{1}{K} Σ_{i = 1}^{K} E_{i},

式中，E_i为第i帧信号的能量；

42）计算信号的频谱概率密度函数：

p_{i} = s (f_{i}) / Σ_{k = 1}^{N} s (f_{k}), i = 1,2, . . ., N,

式中，s(f_i)是第i帧信号的谱函数，N为该帧信号的长度；

43）计算每帧信号的谱熵值：

H = - Σ_{k = 1}^{N} p_{k} \log p_{k},

44）计算前K（K=10）帧谱熵平均值：

H_{ave} = \frac{1}{K} Σ_{i = 1}^{K} H_{i},

式中，H_i为第i帧信号的谱熵值；

45）计算第n帧信号的ESE特征值：

{ESE}_{n} = \sqrt{1 + | X_{n} |},

式中，X_n=(E_n-E_ave)(H_n-H_ave)，E_ave为能量平均值，H_ave为谱熵平均值，En为第n帧信号能量值，H_n为第n帧信号谱熵值；

46）语音信号初判：设置一个较低的门限，大于该门限值的信号，初步判定为语音信号，反之初步判定为噪声信号；

47）语音信号检测：对初步判定为语音的信号采用小波变换和神经网络结合算法进行综合判决。

设置一个较低的门限，大于该门限值判定为语音信号；反之判定为噪声信号。这样就完成了对混有非平稳噪声的信号的粗判决，去掉了容易判决的噪声信号，降低了小波分析的运算量，接着用小波变换和神经网络结合算法进行综合判决。

根据背景技术中的小波分析法，将粗判决后的信号段进行小波分解，例如采用db4小波，窗长为8，提取6个小波子带系数：

d₁(n)、d₂(n)、d₃(n)、d₄(n)、d₅(n)、d₆(n)，

对应的平均能量为：E₁、E₂、E₃、E₄、E₅、E₆，再加上均值E_m和方差σ²共8个特征量。这8个特征量既可以表现信号在不同时段的能量，又可以表现出信号在不同频段的能量，还可以表现出同一时刻不同频段信号的差异，可以很好地区分语音与噪声，语音检测效果较好。根据神经网络语音端点检测方法，设定提取到8个特征量，将其作为神经网络的8个输入节点。建立BP神经网络，其中有8个输入节点、20个隐层节点、1个输出节点。通过对复杂环境的模拟，选定一段信号，即包含复杂噪声，又包含语音信号，作为神经网络的训练样本。按照小波分析法，提取每帧的8个特征值，作为神经网络的输入节点，就可以对神经网络进行训练了，对输出设置一定的门限T，输出值大于T则为语音段，小于T则为噪声段。

通过对神经网络检验合格后，取待测信号提取的8个特征量，作为神经网络的输入，就可以对信号进行判决了。为了消除脉冲噪声对实验结果的影响，根据人说话的特点，不可能存在几帧几十毫秒的语音段，存在将噪声误判为语音的可能，因此还需要对得到的结果进行综合判决。判决方法是如果输出值连续10帧大于门限值T，则判定为语音；反之，判定为噪声。神经网络根据训练得到的经验对每帧信号进行正确分类。

如图8所示，所述语音信号检测（47）步骤包括：

471）语音信号小波分解：对初步判定为语音的信号进行小波分解；提取6个小波子带系数d₁(n)、d₂(n)、d₃(n)、d₄(n)、d₅(n)、d₆(n)，它们对应的平均能量为E₁、E₂、E₃、E₄、E₅、E₆，再加上均值E_m和方差σ²共8个特征量；

472）语音端点神经网络检测：建立BP神经网络，其中有8个输入节点、20个隐层节点、1个输出节点，模拟非平稳噪声环境作为训练样本，对神经网络进行训练，训练结束后，将提取到8个特征量作为神经网络的8个输入节点，对输出设置一定的门限T，输出值大于T则初步判为语音段，小于T则初步判为噪声段；

473）语音信号综合判决：经端点检测的信号，如果输出值连续10帧大于门限值T，则判定为语音，反之，判定为噪声。

50）语音段信号输出：在检测语音信号的终止帧后加几帧拖尾延迟保护，输出语音段信号。

检测出信号的语音起止点后，在终止帧后再加几帧拖尾延迟保护，可以提高语音的自然度。这样就完成了整个信号的语音检测，输出检测出的语音段信号。

利用自适应多域联合估计语音检测算法，通过对不同背景噪声的分类，采用针对性的方法，对信号进行时域、频域和小波域等多域分析，提取了信号多种特征进行综合判决，提高了语音检测的准确性和可靠性，同时有效降低了运算复杂度，大幅度提升语音识别的鲁棒性，对复杂环境下的噪声干扰检测能力较强，对实现下通信设备之间的互联互通具有重要作用。在平稳噪声环境、信噪比不低于6dB下，进行了实验仿真，正确检测概率达到100%。

Claims

1.一种基于多域联合估计的自适应语音检测方法，其特征在于，包括如下步骤：

20）频谱稳定性判断：对预处理信号的噪声段进行频谱稳定性检测，判断背景噪声是平稳噪声或非平稳噪声；

2.根据权利要求1所述的自适应语音检测方法，其特征在于，所述信号预处理（10）步骤包括：

14）加窗：对每帧语音信号进行加窗，得到预处理信号。

3.根据权利要求1所述的自适应语音检测方法，其特征在于，所述频谱稳定性判断（20）步骤包括：