CN102194452B

CN102194452B - 复杂背景噪声中的语音激活检测方法

Info

Publication number: CN102194452B
Application number: CN2011100931866A
Authority: CN
Inventors: 梁峰; 张凡; 曹军勤; 杨勇
Original assignee: Shaanxi Fenghuo Communication Group Co Ltd
Current assignee: Shaanxi Fenghuo Communication Group Co Ltd
Priority date: 2011-04-14
Filing date: 2011-04-14
Publication date: 2013-10-23
Anticipated expiration: 2031-04-14
Also published as: CN102194452A

Abstract

本发明公开了一种复杂背景噪声中的语音激活检测方法，依次包括以下步骤：1)首先对数据进行TEO运算；2)对输入数据x(n)进行预加重；3)带通滤波；4)分帧加窗处理；5)计算每帧的自相关及其标准方差的开方值；6)计算初始阶段20帧的Stat_i及其均值mean(Stat_i)和标准方差std(Stat_i)，将std(Stat_i)与预置门限比较，判断有无语音；7)计算后续数据；8)计算连续Frame_N帧的Stat_i，根据其均值mean(Stat_i)和标准方差std(Stat_i)，进行二次判决；9)考虑语音间隔及持续时间Speech_min＝100～200ms，Silence_min＝500～1000ms，在Status_final＝0条件下，当出现连续N_s(该值与Frame_N相关)个atatus＝1时，判断语音出现；在Status_final＝1条件下，当出现连续N_E(该值同样与Frame_N相关)个Status＝0时，判断语音结束，最终判断语音的真正端点。

Description

复杂背景噪声中的语音激活检测方法

技术领域

本发明一般涉及数字信号处理系统，更具体地，本发明涉及复杂背景噪声中的语音激活检测(VAD，Voice Activity Detection)方法，尤其面向于计算资源受限的实时语音检测场合，如军用电台语音业务等。

背景技术

语音激活检测技术(VAD)又称端点检测EPD(End-Point Detection)，其目的是能够正确区分语音与各种背景噪声，在语音信号处理(更一般的是声信号处理)领域有着十分重要的应用。在语音识别中，通常是先根据一定的端点检测算法，对语音信号中的有声片段和无声片段进行分割，而后再针对有声片段依据语音的某些特定特征进行识别。研究表明：即使在安静的环境中，语音识别系统一半以上的识别错误来自端点检测器。因此，作为语音识别系统的第一步，端点检测的关键性不容忽视，尤其是强背景噪声环境下语音的端点检测，它的准确性很大程度上直接影响着后续的工作能否有效进行。语音和背景噪声的多样性使得VAD问题变得比较复杂。

从实质上来说，各种VAD检测技术的根本出发点在于寻找能够有效区分语音段与无语音噪声背景的统计量，且最终归结为门限判决。目前主要使用的传统统计特征量包括：短时能量、短时过零率、短时自相关函数、信息熵、倒谱及MEL系数等方法，不同VAD技术大多基于这几种方法的不同组合。随着数字信号处理技术的发展和相应处理设备计算能力的提高，出现一些新的VAD算法，如小波变换法、近视熵、支撑向量机SVM以及神经网络等方法。

一般来说，单一的统计判断量的检测效果并不理想，往往仅适合某些特定场合。由于不同环境下的背景噪声变化较大，且语音随者说话人的性别、年龄、语种、声调、声强、语速等变化而变化，因此，基于多统计量、多判决门限的联合判决准则成为VAD检测研究的方向。

在军用电台中，语音信号检测是军用电台完成静噪的前提。静噪是电台的基本功能之一，它保证在有接收信号时，打开接收机的音频输出，保持正常通信；而在无接收信号，只有噪声时，关断音频输出。它的基本过程是首先能够检测到信号的有无，然后再据此控制音频输出。在军用小型便携式电台设备中，受功耗所限，有效地使用VAD技术能够在无语音段降低功耗，延长设备使用时间。

发明内容

由于受到使用设备计算能力及功耗的限制，所采用的VAD算法不能过于复杂，同时处理延迟(主要是语音出现、语音结束的判决延迟)不能过大，即具备近实时处理能力。此外，该方法还应能在复杂背景噪声中正常工作，具备一定自适应性能，这些因素导致VAD算法必须实现简单、检测可靠。基于上述应用要求，本发明给出一种语音激活检测方法。采用如下技术方案：

一种复杂背景噪声中的语音激活检测方法，依次包括以下步骤：

1)、首先对数据进行TEO运算：TEO[x(n)]＝x(n)²-x(n+1)x(n-1)；

2)、对输入数据x(n)进行预加重，其传递函数为：

H(z)＝1-μz^-1，μ∈[0.92，0.96]，x(n)＝filter([1-μ]，1，x(n))；

3)、带通滤波：采用带通滤波，除去无用信号：x(n)＝band_pass_filter(x(n))

4)、分帧加窗处理：帧长20ms，帧间重叠20％～40％。窗函数一般采用Hamming窗：x_n(N)＝x_n(N).*Hamming(N)；

5)、计算每帧的自相关及其标准方差的开方值：Stat＝k*sqrt(std(xcorr(xn(N))))，k为系数，它与判决门限取值相关；

6)、计算初始阶段20帧的Stat_i及其均值mean(Stat_i)和标准方差std(Stat_i)，将std(Stat_i)与预置门限比较，判断有无语音；判断根据：如果初始阶段无语音，则std(Stat_i)较小，否则std(Stat_i)较大；如初始阶段无语音，则计算该阶段的参考门限，作为后续数据的判决门限：Th_ref＝mean(Stat(1:20))+m*std(Stat(1:20))；

7)、计算后续数据，每帧判决一下：

8)、计算连续Frame_N帧的Stat_i，根据其均值mean(Stat_i)和标准方差std(Stat_i)，进行二次判决：或者采用多数判决原则次判断：

如8帧中超过5帧出现Status_temp＝1，则判断Status＝1，出现语音；

9)、考虑语音间隔及持续时间Speech_min＝100～200ms，Silence_min＝500～1000ms，在Status_final＝0条件下，当出现连续N_s(该值与Frame_N相关)个Status＝1时，判断语音出现；在Status_final＝1条件下，当出现连续N_E(该值同样与Frame_N相关)个Status＝0时，判断语音结束，最终判断语音的真正端点。

与传统算法相比，该算法具有的优点如下：

①非线性Teager能量算子(TEO)，能够有效提取语音信号的能量；

②采用自相关技术，有效区分话音与背景噪声；

③采用多个统计量和多个判断门限，有效减少VAD的虚检和漏检概率；

④算法简单可靠、计算复杂度低，具有较好的实时性，适于各种处理平台；

⑤自适应地调整判决门限，这样能够有效跟踪背景噪声变化情况，算法具有稳健性，适用多种场合。门限更新原则可以采用两类：1)利用更新的背景噪声数据，直接将计算得到的新门限作为参考门限；2)参考门限为旧门限与新门限的不同比例组合；

⑥算法具有一定的扩展性，在该算法基础上，可以采用双门限甚至多门限，设置门限的上、下边界，提高检测正确率，但代价是实现复杂度会适当增加。

附图说明

图1为纯语音与0dB白噪声下带噪语音的VAD检测结果；

图2为纯语音与不同信噪比白噪声下带噪语音的判断统计量；

图3为不同信噪比的坦克噪声下带噪语音的判断统计量；

图4为本发明VAD算法处理流程示意图。

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

由于噪声的随机性，其自相关值平均较小，其标准方差也小。相反，语音信号的自相关值平均较大，其标准方差也大，并且语音信号的不同帧信号之间的自相关的方差变化也较大。因此，利用自相关的方差这个特征及相应的统计量来判断有无语音，进行VAD检测。

通常情况下，语音抽样频率为8kHz，数据帧长为20ms(一般认为语音信号在10ms～30ms时间内基本平稳)，每次处理点数为N＝8000*0.02＝160点。帧与帧之间的重叠为20％～50％，因此，每帧中的新数据实际长度为(50％～80％)*20ms＝10～16ms。假设语音最少持续时间Speech_min＝100～200ms，句与句之间的间隔Silence_min＝500～1000ms。为了防止误将噪声判为语音，每连续处理Frame_N帧判决一次。图1是纯语音与0dB高斯白噪声下带噪语音的VAD检测示意图。图2是纯语音与不同信噪比白噪声下带噪语音的统计量。

在高斯背景噪声且信噪比较高(SNR≥5dB)情况下，上述方法能够有效判断有无语音。为了能够在非平稳的背景中更有效检测语音，Kaiser提出一种较为有效的、非线性的算法“Teager能量算子(TEO)”，它能够有效对抗脉冲干扰，提取语音信号能量，其计算公式为：TEO[x(n)]＝x(n)²-x(n+1)x(n-1)。图3表示不同信噪比下坦克噪声的带噪语音的判断统计量。从图上可以明显看出TEO能量算子对背景噪声具有较强的鲁棒性。如果不经过TEO运算，在这种情况下，即便具有较高的信噪比，也无法有效检测语音。因此，将TEO与上述方法结合起来，形成有效的VAD检测算法。

本发明主要涉及对语音信号的数字处理，假设在进行VAD处理之前已经进行了相应的预处理，如低通滤波，增益放大等。另外，本发明主要针对单通道语音信号处理，多通道的语音阵列信号处理情况亦不考虑。下面依照VAD方法的处理流程进行说明。

参考图4，图4给出了VAD算法的处理流程。

1)、首先对数据进行TEO运算：TEO[x(n)]＝x(n)²-x(n+1)x(n-1)；

2)、对输入数据x(n)进行预加重：由于语音信号的功率谱受声门激励和口鼻辐射的影响，大约在200～500Hz按6dB/倍频程下降，因此采用预加重处理，其传递函数为：

H(z)＝1-μz^-1，μ∈[0.92，0.96]，x(n)＝filter([1-μ]，1，x(n))；

3)、带通滤波：由于语音信号的频谱主要集中于100Hz～3400Hz，因此采用带通滤波，除去无用信号(尤其是低频段的各种干扰信号)：x(n)＝band_pass_filter(x(n))

4)、分帧加窗处理：帧长20ms，帧间重叠20％～40％。窗函数一般采用Hamming窗：

x_n(N)＝x_n(N).*Hamming(N)；

6)、计算初始阶段20帧的Stat_i及其均值mean(Stat_i)和标准方差std(Stat_i)，将std(Stat_i)与预置门限比较，判断有无语音。判断根据：如果初始阶段无语音，则std(Stat_i)较小，否则std(Stat_i)较大。如初始阶段无语音，则计算该阶段的参考门限，作为后续数据的判决门限：Th_ref＝mean(Stat(1∶20))+m*std(Stat(1∶20))；

7)、计算后续数据，每帧判决一下(初次判断)：

上述算法每帧数据(M＝N+2)的计算量估计(以乘法和加法为主)，见表1所示。

表1VAD算法的计算复杂度估算

对处理器的计算能力估计如下：假设一次乘法占用8个机器周期，则一帧乘法运算占用约128000个周期，一次加法占用2个机器周期，则一帧加法运算占用约32000个周期，因此一帧数据占用160000周期。假设一帧数据必须在10ms时间内处理完毕(相当于数据缓存区长度为一帧)，则机器运算频率最少为：160000/0.01＝16MHz，处理器一般都能满足。

对于端点检测的处理延迟考虑，主要有两个：1)语音出现时的判断延迟，由Frame_N、N_s和每帧处理延迟Frame_delay决定，假设每帧数据的实际时长Frame_Time(该值与帧长和帧间重叠程度相关)，则：Delay_s＝Frame_N*N_s*Frame_Time+Frame_delay；2)语音结束的判决延迟，由Frame_N、N_E和Frame_delay决定，即：Delay_E＝Frame_N*N_E*Frame_Time+Frame_delay。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种复杂背景噪声中的语音激活检测方法，其特征在于，依次包括以卜步骡：

1)、首先对数据进行TEO运算：TEO[x(n)]＝x(n)²-x(n+1)x(n-1)；

2)、对经过步骤1)处理后的输入数据x(n)进行预加重，其传递函数为：

H(z)＝1-μz^-1，μ∈[０.92，0.96]，x(n)＝filter([1-μ]，1，x(n))：

3)、对经过步骤2)处理后的数据进行带通滤波，除去无用信号：x(n)＝band_pass_filter(x(n))

4)、分帧加窗处理：帧长20ms，帧间重叠20％～40％；窗函数采用Hamming窗：x_n(N)＝x_n(N).*Hamming(N)；

6)、计算初始阶段20帧的Stat_i及其均值mean(Stat_i)和标准方差std(Stat_i)，将std(Stat_i)与预置门限比较，判断有无语音；判断根据：如果初始阶段无语音，则std(Stat_i)较小，否则std(Stat_i)较大；如初始阶段无语音，则计算该阶段的参考门限，作为后续数据的判决门限：Th_ref＝mean(Stat(1：20))+m*std(Stat(1：20))；

7)、计算后续数据，每帧判决一下：

{Status}_{temp} = \{\begin{matrix} 1, Stat &GreaterEqual; {Th}_{ref} \\ 0, Stat < {Th}_{ref} \end{matrix};

8)、计算连续Frame_N帧的Stat_i，根据其均值mean(Stat_i)和标准方差std(Stat_i)，进行二次判决：

Status = \{\begin{matrix} 1, mean ({Stat}_{i}) &GreaterEqual; {Th}_{ref} \\ 0, mean ({Stat}_{i}) < {Th}_{ref} \end{matrix};

或者采用多数判决原则判断：

Status = \{\begin{matrix} 1, sum ({Status}_{temp}) &GreaterEqual; {Frame}_{thres} \\ 0, sum ({Status}_{temp}) < {Frame}_{thres} \end{matrix},

当8帧中超过5帧出现Status_temp＝1时，则判断Status＝1，出现语音；

9)、考虑语音间隔Silence_min＝500～1000ms及持续时间Speech_min＝100～200ms，在Status_final＝0条件下，当出现连续N_s个Status＝1时，判断语音出现，N_s值与Frame_N相关；在Status_final＝1条件下，当出现连续N_E个Status＝０时，判断语音结束，最终判断语音的真正端点，N_E值与Frame_N相关。