CN101599269B

CN101599269B - 语音端点检测方法及装置

Info

Publication number: CN101599269B
Application number: CN2009100884919A
Authority: CN
Inventors: 刘珩; 程小桐; 刘荣; 袁伟军; 李俊俊; 李娟�; 蔡乃小; 于宁
Original assignee: Beijing Zhongdajietong Science & Technology Co Ltd; China Agricultural University
Current assignee: Beijing Zhongdajietong Science & Technology Co Ltd; China Agricultural University
Priority date: 2009-07-02
Filing date: 2009-07-02
Publication date: 2011-07-20
Anticipated expiration: 2029-07-02
Also published as: CN101599269A

Abstract

本发明提供一种语音端点检测方法及装置。该语音端点检测方法包括：接收带噪语音数据，将所述带噪语音数据分为有重叠的多个语音帧，并对每个语音帧进行快速傅利叶变化运算，得到每个语音帧的频谱；将每个语音帧的频谱划分为均匀、无重叠的多个子带，并根据所述子带的能量生成子带功率谱熵概率密度；对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵；根据预设的语音端点判决阈值和所述子带加权功率谱熵判断当前语音帧为噪声段或语音段。本发明通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，提高了语音检测的准确性和精确度，且明显提高了通信信噪比。

Description

语音端点检测方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音端点检测方法及装置。

背景技术

在高噪声环境中实现清晰的语音通信，是众多科学家和工程技术人员亟待解决的问题。在高噪声环境下通信，背景噪声对语音信号干扰很大，可导致通信系统通话不清晰，可懂度低。因此，如何在复杂背景噪声环境下保持高质量、高清晰的通信系统便显得尤为重要。

而由于在语音系统中，背景噪声往往会伴随着语音信号一起输入，因此如何在输入信号中准确地判断语音信号的有无以及确定其起始和结束的位置，便成了抑制、去除语音噪声的关键所在，语音端点检测技术便是这样一种技术。在语音识别系统中，语音端点检测技术是非常重要的一项技术，通常也叫做语音活动性检测技术(Voice Activity Detection，以下简称VAD)。只有准确地判定语音信号的端点，才能正确地进行语音处理，才能够大幅度提高实际降噪的效果。

现有技术中常用的语音端点检测方法有信号能量(功率)检测法、短时过零率检测法、短时自相关检测法、实时追踪能量包络算法等。它们主要应用在通信系统中，能抑制较小的背景噪声(80分贝以下)，具有较好的实时性，但对噪声鲁棒性并不高，尤其当背景噪声大于90分贝以上时，上述的检测方法便不能满足使用要求。

现有技术中还提出了一种基于谱熵的语音端点检测方法，该方法将语音的谱熵作为VAD判决的特征值，利用信息熵只与能量分布有关而和能量幅值无关的特性进行语音端点检测，与传统的语音检测方式相比，基于谱熵的语音端点检测方法能适用于较高分贝的背景噪声中，也能具有更为稳健的抗噪特性，但是，在某些场所，如高噪车间，背景噪声可高达115～120db，短波无线通信系统的背景噪声也可达到80～110db，在如此高分贝噪声的环境下，仅将谱熵作为VAD判决的特征值还是不能够达到能将语音检测方法适用于各种噪声背景环境的目的，对基于谱熵的语音端点检测方法进行进一步的改进是非常有必要的。

发明内容

本发明实施例提供一种语音端点检测方法及装置，用以解决现有技术中在低信噪比、复杂噪声环境下，语音的识别容易受噪声污染而导致性能下降的问题，实现高分贝噪声环境下准确识别语音，抑制背景噪声对通话系统的干扰的功能，提高语音检测技术在各种噪声环境下的精确度。

本发明实施例提供一种语音端点检测方法，包括：

接收带噪语音数据，对其进行分帧加窗处理，将所述带噪语音数据分为有重叠的多个语音帧，并对每个语音帧进行快速傅利叶变化运算，得到每个语音帧的频谱；

将每个语音帧的频谱划分为均匀、无重叠的M个子带，并根据所述子带的频谱能量生成子带功率谱熵概率密度p_k，计算公式如下：

其中E(k)为第k个子带的能量，M为划分的子带的数目，其为预设值12、16或32，或者由如下公式计算得到，其中，Nmin为所有子带频谱能量的最小值，N1、N2为预设的子带频谱能量的最小值的界限值，K1、K2和K3为预设的子带划分数目的界限值；

对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵H(x)，计算公式如下：其中w_k为第k个子带的权重因子，p_k为第k个子带的子带功率谱熵概率密度，M为划分的总的子带数目；

其中，所述权重因子为根据对语音和噪声的统计信息预设的数值组，或者由如下公式计算得到：

其中，w_k为第k个子带的权重因子，N_w为进行归一化计算时选取的子带数目，P_bw(k)＝min(P_b)/P_b(k)，为所述子带功率谱熵概率密度的最小值与第k个子带功率谱熵概率密度的比值，M为划分的总的子带数目；

将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较，若所述子带加权功率谱熵大于所述语音端点判决阈值，则初步判定该语音帧为语音段，若所述子带加权功率谱熵小于所述语音端点判决阈值，则初步判定该语音帧为噪声段。

本发明实施例提供一种语音端点检测装置，包括：

分帧加窗模块，用于接收带噪语音数据，对其进行分帧加窗处理，将所述带噪语音数据分为有重叠的多个语音帧，并对每个语音帧进行快速傅利叶变化运算，得到每个语音帧的频谱；

子带划分模块，与所述分帧加窗模块连接，用于将每个语音帧的频谱划分为均匀、无重叠的M个子带，并根据所述子带的频谱能量生成子带功率谱熵概率密度p_k，计算公式如下：

其中E(k)为第k个子带的能量，M为划分的子带的数目，其为预设值12、16或32，或者由如下公式计算得到，

其中，Nmin为所有子带频谱能量的最小值，N1、N2为预设的子带频谱能量的最小值的界限值，K1、K2和K3为预设的子带划分数目的界限值；

加权处理模块，与所述子带划分模块连接，用于对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵H(x)，计算公式如下：其中w_k为第k个子带的权重因子，p_k为第k个子带的子带功率谱熵概率密度，M为划分的总的子带数目；

其中，所述权重因子为根据对语音和噪声的统计信息预设的数值组，或者由如下公式计算得到：其中，w_k为第k个子带的权重因子，N_w为进行归一化计算时选取的子带数目，P_bw(k)＝min(P_b)/P_b(k)，为所述子带功率谱熵概率密度的最小值与第k个子带功率谱熵概率密度的比值，M为划分的总的子带数目；

初步判决模块，与所述加权处理模块连接，用于将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较，若所述子带加权功率谱熵大于所述语音端点判决阈值，则初步判定该语音帧为语音段，若所述子带加权功率谱熵小于所述语音端点判决阈值，则初步判定该语音帧为噪声段。

本发明实施例的语音端点检测方法及装置，通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，改进了现有技术中的语音检测方法在高分贝噪声环境下不能被使用或性能不高的情况，提高了语音检测的准确性和精确度，且明显提高了通信信噪比。

附图说明

图1为本发明语音端点检测方法实施例一的流程图；

图2为实验得到的一组权重因子的统计值；

图3为本发明语音端点检测方法实施例二的流程图；

图4为本发明语音端点检测装置的结构示意图；

图5为本发明语音降噪处理装置的结构示意图；

图6为本发明数字语音降噪处理器的硬件结构示意图。

具体实施方式

在语音识别系统中，语音的频谱分布通常比噪声的频谱分布更有结构，通常通过谱熵值来描述这种差异性。且根据谱熵的这个特点，通过衡量语音时间序列的谱熵，利用非语音段的随机噪声段的谱熵值大于语音段的谱熵值的特性，就可以检测出语音端点。简单的说，谱熵语音端点检测方法就是通过检测谱的平坦程度，从而达到语音端点检测的目的。对于非语音段，它的能量在各频率的分布比较平稳，反映到信息量上，认为其所含的平均信息量即谱熵较大；而对于语音段，它的能量集中于某几个频段，起伏突变大，那么它所含的平均信息量即谱熵较小。于是可以利用两者谱熵的差异，进行语音段和非语音段的划分。

本发明实施例的语音端点检测方法以子带加权功率谱熵作为语音端点检测的特征值，由于子带加权功率谱熵函数的构造是基于功率谱熵函数的构造基础之上的，下面首先来介绍功率谱熵的基本构成原理。对于经过模数转换后的带噪语音，首先应对其进行分帧加窗处理，再将带噪语音以帧为单位作快速傅利叶变化(Fast Fourier Transformation，以下简称FFT)，从而得到每一帧语音信号的频谱。该频谱可以看作是标准正交基上系数组成的一个向量，对所有频率成分进行归一化，得到：

p_{i} = s (f_{i}) / Σ_{k = 1}^{N} s (f_{k})

i＝1，2，…，N (1)

其中，i是FFT变换的频率分量索引，N是FFT变换长度，s(f_i)为信号s(n)经过FFT变换后得到的频谱分量幅度，P_i则为频谱的概率密度函数。

由于语音信号更类似于功率信号，因此利用语音功率谱而不是直接利用原始的语音幅度谱来构造熵函数，可以使得到的谱熵分布将更加平稳，有利于语音的判决。同时考虑到功率谱的对称性，只需取FFT变换后一半的分量点，从而节省了计算。对式(1)进行修正，得到的概率密度函数表示为：

p_{i} = {| s (f_{i}) |}^{2} / Σ_{k = 0}^{N / 2 + 1} {| s (f_{k}) |}^{2}

i＝1，2，…，N/2+1 (2)

为了提高概率密度函数分辨语音信号和非语音信号的能力，可以再对概率密度函数做一些经验性的约束。

首先，由于我们研究的语音信号大都在300Hz～3400Hz频带内，因此，

s(f_i)＝0，f_i＜300Hz，f_i＞3400Hz (3)

其次，提出概率密度的上限，用于消除能量集中在某些特定频带的噪声干扰，

p_i＝0，if p_i＞0.9 (4)

经过标准化和增强处理后，相应的每一帧频谱的功率谱熵函数定义为：

H (x) = - Σ_{i = 1}^{N / 2 + 1} p_{i} \log p_{i}

i＝1，2，…，N/2+1 (5)

上述H(X)便为最后得到的每一帧语音数据的功率谱熵值，而在本发明中，根据该功率谱熵函数的构造方式上，提出了每一帧语音数据的子带加权功率谱熵值的概念，将该子带加权功率谱熵值作为VAD判决的特征值，能提高谱熵对噪声变化的鲁棒性，且提高语音检测的准确性和精确度，下面结合附图和具体实施例进一步说明本发明实施例的技术方案。

图1为本发明语音端点检测方法实施例一的流程图，如图1所示，本实施例的语音端点检测方法包括以下步骤：

步骤100，接收带噪语音数据，对其进行分帧加窗处理，将所述带噪语音数据分为有重叠的多个语音帧，并对每个语音帧进行FFT变化运算，得到每个语音帧的频谱；

对带噪语音数据进行分帧加窗处理和对每个语音帧进行快速傅利叶变化运算为进行语音端点检测的前序步骤，目的是为了将带噪语音数据以帧为单位，将时域信号转化为频域信号，从而得到每个语音帧的频谱，在之后的步骤中才能根据该频谱值计算得到每个语音帧的谱熵。其中，所述接收到的带噪语音数据是经过模数转换之后的数字语音数据，且所处分帧加窗处理是将带噪语音数据分为有重叠的多个语音帧，帧间重叠率可为40％。

步骤101，将每个语音帧的频谱划分为均匀、无重叠的M个子带，并根据所述子带的能量生成子带功率谱熵概率密度p_k；

由于谱熵大小只依赖于谱的分布，因而在一定信噪比范围内，谱熵对噪声变化是鲁棒性的，但是由于噪声的影响，每一个频点的幅度会受到干扰，在极低信噪比下，频谱的结构会被噪声破坏，因此影响了频谱检测的性能。因此，考虑到即使在很低的信噪比下，语音帧中仍然存在信噪比较高的频带，利用子带算法可以在一定程度上减小单频点幅度对噪声的敏感性。

首先，将每个语音帧的频谱划分为均匀、无重叠的M个子带，定义每个子带的能量为：

E (k) = Σ_{i = N_{KL}}^{N_{KH}} {| s (f_{i}) |}^{2}, k = 1,2, . . ., M - - - (6)

其中，k是指第k个子带，E(k)为第k个子带的能量，|s(f_i)|为频谱分量幅度，N_kL和N_kH分别为第k个子带的上边界和下边界。在子带均匀分布，且无重叠的基础上，N_kL和N_kH应为：

N_kL＝1+(k-1)×(N/M)

N_kH＝k×(N/M) (7)

其中，k是指第k个子带，M为子带划分的数目，N为FFT变化长度，在此基础上，对所有子带的能量成分进行归一化运算，得到的子带功率谱概率密度函数为：

p_{k} = E (k) / Σ_{i = 1}^{M} E (i), k = 1,2, \cdot \cdot \cdot, M - - - (8)

从而，根据上述的功率谱熵的构造原理，得到的每一个语音帧的子带功率谱熵则为：

H (x) = - Σ_{k = 1}^{M} p_{k} \log p_{k} - - - (9)

由于子带划分的数目以及频带的选取是构造子带频谱时需要考虑的一个重要的问题，子带数目的选取将直接影响到语音端点检测的准确性，因此，上述的子带划分数目M的数值并非随便定义的，而是应该有具体的限制。通常子带的数目可以根据实验而进行确定，在不同的背景噪声的环境下，子带的选取数目为不同的值，在本实施例中，通过实验证明，在特定的应用场合，将频谱分为12、16或32个子带时，构造得到的谱熵能取得较好的效果。

而为了进一步提高谱熵对各种噪声的鲁棒性，也可以适时地选取有用的子带数目。在本实施例中，另一种比较有效地自适应子带选取方法是根据背景噪声的大小来确定有用的子带数目。首先通过归一化计算得到子带频谱能量的最小值：

N \min = - \log [\frac{\min {E (k)}}{Σ_{i = 1}^{M} E (i)}] - - - (10)

其中，min{E(k)}为划分的子带的能量中的最小值，而根据Nmin的取值范围，可以得到M的不同取值。总的来说，Nmin的值越小，即子带频谱能量的最小值越小，划分的子带数目M应越多，反之，Nmin的值越大，即子带频谱能量的最小值越大，划分的子带数目M应越少。具体地，M可以由下述公式计算得到：

其中，N1、N2为预设的子带的最小频谱能量的界限值，该界限值的消息需要通过实验来确定，对于不同的背景噪声，N1、N2的取值有所不同，K1、K2和K3为预设的子带划分数目的界限值，同样，该界限值也需要通过具体的实验来确定，对于不同的背景噪声，K1、K2和K3的取值同样有所不同。具体地，对于普通的高斯白噪声，实验的结果表明可取K1＝32，K2＝36，K3＝12，N1＝5，N2＝25。

步骤102，对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵H(x)；

为了加大语音和噪声反映在特征值，即谱熵上的差异性，可以利用语音和噪声各自的统计信息得到一组权重因子，并利用其对提取的特征向量进行加权。得到的加权子带功率谱熵为：

H (x) = - Σ_{k = 1}^{M} w_{k} p_{k} \log p_{k} - - - (12)

其中，w_k为第k个子带的权重因子，p_k为第k个子带的子带功率谱熵概率密度，M为划分的总的子带数目。一般地，对语音信号来说，权重因子的效果是增强有用语音信息(如共振峰、谐波等)的贡献，削弱相对无用的语音信息(如高频分量)的贡献。在特定的应用场合，可以通过对语音和噪声进行大量的样本统计，获得语音和噪声的先验知识，从而得到权重因子。图2为实验得到的一组权重因子的统计值，从图2中可以看出，其基于的原理是语音能量主要集中在低频部分。

虽然可以根据实验统计结果，得到特定应用场合的权重因子统计值，可是，在其他的某些应用场合，语音和噪声特性事先不可知或者很难统计，或者噪声会经常发生比较剧烈的变化。在这些情况下，预先估计的权重因子往往会失效，这时可以根据带噪语音的实时信息对权重因子进行实时更新。其中，一种自适应的选取权重因子数值的方法是对上述子带功率谱熵进行归一化加权处理，其中的权重因子与对子带功率谱熵概率密度进行归一化计算时选取的子带数目有关：

w_{k} = \frac{Σ_{i = k - Nw / 2}^{k + N_{w} / 2} p_{bw} (k - i)}{N_{w} p_{bw} (k)}, k = 1,2, . . ., M - - - (13)

其中，N_w为对子带功率谱熵概率密度进行归一化计算时选取的子带数目，在该归一化运算时，并不是需要对划分的所有子带的进行子带功率谱熵概率密度进行归一化计算，而是只对与选取的子带邻近的几个子带的子带功率谱熵概率密度进行归一化运算，根据实验统计，N_w可取值为3。

其中，p_bw(k)为整个子带功率谱熵概率密度中的最小值与第k个子带功率谱熵概率密度的比值：

p_bw(k)＝min(p_b)/p_b(k) (14)

由此，通过根据权重因子w_k对每个语音帧的子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵，加大了语音和噪声反映在谱熵特征值上的差异，增强了有用语音信息对该特征值的贡献，同时削弱了无用的语音信息对该特征值的贡献，因此，可以使之后的对语音端点的判决更加精确。

步骤103，将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较，若所述子带加权功率谱熵大于所述语音端点判决阈值，则初步判定该语音帧为语音段，若所述子带加权功率谱熵小于所述语音端点判决阈值，则初步判定该语音帧为噪声段。

在得到每个语音帧的子带加权功率谱熵之后，需要对该特征值进行VAD判决，通过该特征值来判断当前语音帧为语音段或者噪声段。在本实施例中，判决的方法是将该每个语音帧子带加权功率谱熵与预设的语音端点判决阈值进行比较，该语音端点判决阈值为在进行语音端点检测之前，预先设定根据实验统计而得到的经验值。由于在语音识别系统中，语音段的频谱分布与噪声段的频谱分布相比更有结构，对于非语音段而言，它的能量在各频率的分布比较平稳，反映到信息量上，认为其所含的平均信息量即谱熵较大；而对于语音段而言，它的能量集中于某几个频段，起伏突变大，那么它所含的平均信息量即谱熵较小。因此，将每个语音帧的子带加权功率谱熵的大小与语音端点判决阈值进行比较，若某一语音帧的子带加权功率谱熵大于语音端点判决阈值，则初步判定该语音帧为语音段，若某一语音帧的子带加权功率谱熵小于语音端点判决阈值，则初步判定该语音帧为噪声段。

本发明实施例提出了一种语音端点检测方法，通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，改进了现有技术中的语音检测方法在高分贝噪声环境下不能被使用或性能不高的情况，提高了语音检测的准确性和精确度，且明显提高了通信信噪比。

图3为本发明语音端点检测方法实施例二的流程图，在上述实施例的基础上，本实施例增加了对提取的特征值，即子带加权功率谱熵的平滑处理和对VAD判决的回滞保护机制，通过增加该技术，能进一步提高语音检测的准确性和精确度，抑制高背景噪声对通话系统的干扰。如图3所示，本实施例的语音端点检测方法包括以下步骤：

步骤200，接收带噪语音数据，并将所述带噪语音数据分为有重叠的多个语音帧；

步骤201，对每个语音帧进行FFT变化运算，得到每个语音帧的频谱；

上述步骤200与步骤201与上述实施例中的操作一样，将带噪语音数据以帧为单位，将时域信号转化为频域信号。

步骤202，判断当前VAD运算是否为首次运行，是则执行步骤203，否则，执行步骤204；

具体地，可以根据VAD运行次数变量的数值判断当前VAD运算是否为首次运行，若VAD运行次数变量为默认值，则判断当前VAD运算为首次运行，则执行步骤203，若VAD运行次数变量不为默认值，则判断当前VAD运算不为首次运行，则执行步骤204。

步骤203，初始化VAD，执行步骤204；

若根据VAD运行次数变量的数值判断得到当前的VAD运算为首次运行，则对VAD进行初始化处理，具体的指，初始化谱熵计算中各参数的具体值，例如，对语音端点判决阈值Th、语音停顿时间阈值Tnosie和子带选取数目M等预设值的初始化，将其初始化成预设的固定值。

步骤204，根据计算得到子带加权功率谱熵的值，具体的计算过程包括：

步骤2040，将每个语音帧的频谱划分为均匀、无重叠的M个子带，并计算得到每个子带的能量E(k)；

步骤2041，将所有子带的能量成分进行归一化运算，得到子带功率谱熵概率密度函数p_k；

步骤2042，对所述子带功率谱熵概率密度p_k进行加权处理，并计算得到每个语音帧的子带加权功率谱熵H(x)；

上述计算步骤与方法与上述实施例中的子带加权功率谱熵的计算方法一样，因此在此不再赘述。与实施例一不同的是，在经过上述计算步骤，得到了每一个语音帧的子带加权功率谱熵H(x)之后，在本实施例中，对VAD判决特征值的计算还包括下述步骤，即对计算得到的子带加权功率谱熵进行了进一步的处理。

步骤2043，对所述子带加权功率谱熵进行平滑处理，得到平滑后的子带加权功率谱熵H_i；

在实际环境中，由于语音和噪声的非平稳性，使得谱熵经常会出现毛刺或者发生突变，如果毛刺恰好位于语音端点判决阈值附近，则会导致VAD判决在语音和噪声间快速切换，使得VAD判决出现错误，而如果谱熵发生突变则可能直接导致误判。为了尽量消除这些错误，可以对计算得到的子带加权功率谱熵采用进一步的参数平滑技术。平滑处理既可以在时域上进行，也可在频域上进行。

利用一阶自回归方程得到的平滑后的子带加权功率谱熵为：

H_i＝αH_i-1+(1-α)H_i (15)

其中，H_i为第i帧的子带加权功率谱熵，H_i表示平滑后第i帧的子带加权功率谱熵，α为平滑因子，其取值范围为0.9～0.95，根据背景噪声的不同，α有不同的取值，其取值的原则为：在语音变化比较剧烈的区域，α取值较小，在语音变化比较平稳的区域，α取值较大。

上述步骤通过对计算得到的子带加权功率谱熵进行进一步的平滑处理，得到平滑后的每一个语音帧的子带加权功率谱熵H_i，在之后的VAD判决中，根据该平滑后的子带加权功率谱熵H_i进行判断，可以大大降低子带加权功率谱熵中出现的毛刺或发生的突变给VAD判决带来的影响。

步骤205，判断经平滑处理后的子带加权功率谱熵H_i是否小于语音端点判决阈值Th，若是，则执行步骤206，若不是，则执行步骤207；

步骤206，将该语音帧的前T个语音帧都判定为语音段，执行步骤211；

由于在实际语音检测的过程中，不可避免的会出现语音剪切的情形，包括前端剪切，句中剪切和句末剪切，特别是在信噪比很低以及噪声变化剧烈的条件下，语音剪切更加严重。所谓语音剪切是指将语音开头、中间以及结尾的低能量部分误判为噪声，使得检测后的语音部分丢失或不连续。为了克服这些缺点，可以在语音检测过程中加入回滞保护机制。

对于前端剪切，基于这样一种考虑，如果已经检测到某语音帧为语音段，那么之前的数帧为语音段的可能性非常大。因此可以加入一个缓冲器，用于保存该语音帧的前T帧数据，基于尽可能保证语音不丢失的原则，做如下处理：

if H_i＜Th，then V_x＝1，F_n＝0 x＝i-1，i-2，...，i-T (16)

式中Th为语音端点判决阈值，V_x＝1代表第x个语音帧为语音段，F_n为VAD回滞保护机制中设立的语音帧的计数器，F_n的数值代表VAD初步判决结果的某一语音帧为噪声段或语音段所持续的时间长度，F_n＝0代表重新开始VAD初步判决。若第i个语音帧的经平滑处理后的子带加权功率谱熵H_i小于该值，则判定该语音帧为语音段，且将该语音帧的前T帧全判断为语音，T的取值由实验来确定。

步骤207，将语音帧的计数器F_n加1，执行步骤208；

步骤208，判断语音帧的计数器F_n是否大于预设的语音停顿时间阈值Tnoise，若是，则执行步骤209，若不是，则执行步骤210；

步骤209，最终判决当前语音帧为噪声段，Vi＝0，Fn＝0，执行步骤211；

步骤210，最终判决当前语音帧为语音段，Vi＝1，Fn＝0，执行步骤211；

由于在实际语音检测的过程中，不可避免的会出现语音剪切的情形，包括前端剪切，句中剪切和句末剪切。其中，句中剪切是指整个语音段的中间可能会有语音误判为噪声，造成语音不连续。往往正常的语音停顿会被误判为噪声段，因此避免句中剪切，很多时候可以改善语音质量。由于真正噪声段的持续时间明显大于语音停顿，为了避免将语音误判为噪声的情况出现，在初步判定某语音帧为噪声段之后，可以根据预设的语音停顿时间阈值Tnoise对该语音帧进行再次判定：

if \overset{&OverBar;}{H_{i}} > Th, then \{\begin{matrix} Fn = Fn + 1; \\ if Fn > Tnoise, then Vi = 0, Fn = 0 \\ else Vi = 1 \end{matrix}\} - - - (17)

else{Vi＝1，Fn＝0；}

其中，F_n为VAD回滞保护机制中设立的语音帧的计数器，F_n的数值代表VAD初步判决结果的某一语音帧为噪声段或语音段所持续的时间长度，每当初步判决结果为当前语音帧为噪声段时，将F_n加1，再将F_n和预设的语音停顿时间阈值Tnoise进行比较，判断初步判决的噪声段所持续的时间长度F_n是否大于语音停顿时间阈值Tnoise，若F_n＞Tnoise，则代表该噪声段的持续的时间大于语音停顿时间，VAD的初步判决结果是正确的，当前语音帧的确为噪声段，则将V_i置0(V_i＝0代表第i个语音帧为噪声段)，同时将语音帧的计数器F_n重新置0，若F_n＜Tnoise，则代表该噪声段的持续的时间明显小于语音停顿时间，VAD的初步判决结果为误判，当前语音帧应为语音段，此时应将V_i置0(V_i＝0代表第i个语音帧为噪声段)，同时将语音帧的计数器F_n重新置0。

对于句末剪切可以采用和句中剪切同一处理方法，即式(17)所示的方法同样可以有效的减少句末剪切。经过上述处理，可以有效的减少语音剪切中的句中剪切和句末剪切。

步骤211，输出判决结果。

另外，需要说明的是，上述对子带加权功率谱熵的参数平滑处理和对VAD判决的回滞保护机制在实际的语音端点检测时，可以同时采用，也可以只采用一种技术，且无论采用哪种技术方案，都可以得到单独使用该技术时达到的技术效果。

本发明实施例提出了一种语音端点检测方法，通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，进一步地，还增加了对子带加权功率谱熵的平滑处理和对VAD判决的回滞保护机制，改进了现有技术中的语音检测方法在高分贝噪声环境下不能被使用或性能不高的情况，提高了语音检测的准确性和精确度，明显提高了通信信噪比，而且进一步地还有效地避免了谱熵中出现的毛刺或发生的突变对语音检测的影响，降低了语音剪切情形的发生率。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明语音端点检测装置的结构示意图，如图4所示，本发明的语音端点检测装置包括以下模块：

分帧加窗模块11，用于接收带噪语音数据，对其进行分帧加窗处理，将所述带噪语音数据分为有重叠的多个语音帧，并对每个语音帧进行快速傅利叶变化运算，得到每个语音帧的频谱；

子带划分模块12，与所述分帧加窗模块11连接，用于将每个语音帧的频谱划分为均匀、无重叠的M个子带，并根据所述子带的能量生成子带功率谱熵概率密度

p_{k} = E (k) / Σ_{i = 1}^{M} E (i),

其中E(k)为第k个子带的能量，M为根据背景噪声环境的大小而不同的预设值12、16或32，或者由如下公式计算得到， Nmin为所述子带的最小频谱能量，N1、N2为预设的所述子带的最小频谱能量的界限值，K1、K2和K3为预设的子带划分数目的界限值；

加权处理模块13，与所述子带划分模块12连接，用于对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵

H (x) = - Σ_{k = 1}^{M} w_{k} p_{k} \log p_{k},

其中w_k为第k个子带的权重因子，p_k为第k个子带的子带功率谱熵概率密度，M为划分的总的子带数目；

w_{k} = \frac{Σ_{i = k - N_{w} / 2}^{k + N_{w} / 2} p_{bw} (k - i)}{N_{w} p_{bw} (k)},

初步判决模块14，与所述加权处理模块13连接，用于将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较，若所述子带加权功率谱熵大于所述语音端点判决阈值，则初步判定该语音帧为语音段，若所述子带加权功率谱熵小于所述语音端点判决阈值，则初步判定该语音帧为噪声段。

本发明实施例提供一种语音端点检测装置，通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，改进了现有技术中的语音检测装置在高分贝噪声环境下不能被使用或性能不高的情况，提高了语音检测的准确性和精确度，且明显提高了通信信噪比。

在上述技术方案的基础上，进一步地，本实施例还可以包括平滑处理模块(图中未示出)，分别与所述加权处理模块13和所述初步判决模块14连接，用于在将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较之前，对所述子带加权功率谱熵进行平滑处理，得到平滑后的子带加权功率谱熵H_i＝αH_i-1+(1-α)H_i，其中，H_i为第i帧的子带加权功率谱熵，H_i表示平滑后第i帧的子带加权功率谱熵，α为平滑因子，其大小为0.9～0.95，在语音变化比较剧烈的区域，α取值较小，在语音变化比较平稳的区域，α取值较大。

本实施例上述技术方案通过在语音端点检测装置中进一步设置平滑处理模块，对计算得到的子带加权功率谱熵进行进一步的平滑处理，得到平滑后的每一个语音帧的子带加权功率谱熵H_i，在之后的VAD判决中，根据该平滑后的子带加权功率谱熵H_i进行判断，可以大大降低子带加权功率谱熵中出现的毛刺或发生的突变给VAD判决带来的影响。

在上述技术方案的基础上，更进一步地，本实施例还可以包括回滞保护模块(图中未示出)，与所述初步判决模块14连接，用于在所述初步判定该语音帧为语音段之后，将该语音帧的前T个语音帧都判定为语音段，并输出该语音帧和前T个语音帧都为语音段的语音检测结果，其中T为根据实验结果确定的预设值；在所述初步判定该语音帧为噪声段之后，计算该噪声段的持续时间，并将所述持续时间与预设的语音停顿时间阈值进行比较，若所述持续时间大于所述语音停顿时间阈值，则最终判定该语音帧为噪声段，并输出该语音帧为噪声段的语音检测结果，若所述持续时间小于所述语音停顿时间阈值，则最终判定该语音帧为语音段，并输出该语音帧为语音段的语音检测结果。

本实施例上述技术方案通过在语音端点检测装置中进一步设置回滞保护模块，能够对初步判决模块的判决结果进行进一步的判决，可以降低语音剪切情形的发生率，进一步提高了语音检测的准确性和精确度。

上述的语音端点检测装置通常可设置在语音降噪处理装置中，图5为本发明语音降噪处理装置的结构示意图。如图5所示，本实施例的语音降噪处理装置包括：

模数/数模转换模块1，用于接收原始带噪语音信号，对其进行模数转换，将接收到的模拟的带噪语音信号转换为数字带噪语音数据，并送入语音处理里装置中，对其进行语音处理，还用于接收经语音处理装置处理后的去噪语音数据，对其进行数模转换，将接收到的数字的去噪语音信号转换为模拟的去噪语音数据，并发送给通信系统；

语音处理装置2，与所述模数/数模转换模块连接，用于对接收到数字带噪语音数据进行语音处理，首先对其进行语音端点检测，检测出噪声段和语音段，并对检测到的语音段信号和非语音段信号进行降噪处理。进一步地，该语音处理装置2可以分为以下两个模块：

语音端点检测模块21，与所述模数/数模转换模块1连接，用于对接收到的带噪语音数据进行语音端点检测，判断语音段的有无，并将其中的噪声段和语音段分离开来。该语音端点检测模块21由上述实施例中的语音端点检测装置来实现，通过采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，达到了提高语音检测的准确性和精确度，且明显提高通信信噪比的目的。其具体的内部模块组成与功能实现在上述实施例中已详细介绍过，在此不再赘述。

降噪处理模块22，与所述语音端点检测模块21连接，用于对检测到的语音段信号和非语音段信号进行降噪处理。具体地，如果没有检测到语音段信号时，该降噪处理模块22将使语音通信系统的输入处于衰减状态，使得噪声段信号无法通过送话器进入通信系统，或者使消除背景的噪声段信号；当检测到语音段信号时，降噪处理模块22将会启动通讯系统，输出语音信号进入通话系统，或者接收该语音段信号。

本发明实施例提供一种语音降噪处理装置，通过在其中的语音端点检测装置中采用子带加权功率谱熵作为VAD判决的语音特征值，并根据实际应用环境自适应的选择子带数目和权重因子，提高了语音检测的准确性和精确度，使之在高分贝的噪声环境下也能发挥很好的性能，从而且明显提高了整个降噪处理装置的性能。

在实际应用中，本发明的语音检测方法及语音检测装置通常可以应用在数字语音降噪处理器中，该数字语音降噪处理器以本发明的基于子带加权功率谱熵的语音端点检测技术作为其核心技术，可以非常有效的放大语音信号，抑制通话系统中的噪声。下面仅列出一种具体的本发明的数字语音降噪处理器的硬件实现方案，但是本发明的数字语音降噪处理器不仅限于下述一种实现方式，所有基于本发明的语音检测方法及装置的语音降噪处理器应都属于本发明的保护范围之内。

图6为本发明数字语音降噪处理器的硬件结构示意图。如图6所示，本发明的数字语音降噪处理器包括：模数/数模转换器1’，用于对输入的带噪语音信号进行模数转换，并对接收到的去噪语音数据进行数转换并输出；数字信号处理器2’，与所述模数/数模转换器1’相连接，用于对接收到的带噪语音信号进行数字语音降噪处理；时钟模块3’，与所述数字信号处理器2’相连接，用于给数字信号处理器2’提供时钟信号；电源模块4’，与所述数字信号处理器2’相连接，用于给数字信号处理器2’提供电源信号；存储器5’，与所述数字信号处理器2’相连接，用于存储所述数字语音降噪处理器需运行的软件程序、参数设置，或加载所述数字信号处理器2’中需运行的算法程序；直通控制电路模块6’与所述模数/数模转换器1’连接，用于当语音降噪处理器工作在直通模式时，将外部输入的语音信号不作任何处理、直接输出。如图6所示，数字语音降噪处理器可以提供两种模式，直通模式以及降噪模式，其中左方虚点框中所示的为降噪模式，在降噪模式中，数字信号处理器2’将对输入的语音信号进行降噪处理；而右方虚线框中所示的为直通模式，在直通模式中，输入的语音信号将被直接输出。

具体地，模数/数模转换器1’可以采用TLV320AIC23系列芯片来实现，该芯片内部同时集成了模数转换和数模转换模块，能够成功地对接收到的原始带噪语音信号进行模数转换，和对接收到的数字的去噪语音数据进行数模转换。数字信号处理器2’为数字语音降噪处理器的核心模块，上述本发明的语音端点检测方法以及后续的降噪处理都在该数字信号处理器中进行，具体地，该数字信号处理器可以采用美国德州仪器(TexasInstruments，TI)公司的TMS320VC5416芯片来实现，工作时需要从外部加载运行程序。时钟模块3’采用外部12M晶振输入，经过TMS320VC5416内部倍频后可以达到156M的时钟频率作为其的总线时钟频率。电源模块4’可以采用TPS767D301芯片来实现，它是双电源输出，每个电源输出都有单独的复位和输出使能控制，电压输出3.3V/1.6V可调，输出电流0～1A可调，在1A电流工作时，输出电压降低0.35V。存储器5’具体可以为闪存存储器，用AM29LV800B芯片来实现，在数字语音降噪处理器工作前，用户可以通过用仿真接口将用户程序烧录至该闪存存储器中，再通过设置启动方式引脚确定系统从片外存储器启动。

实际应用中，该数字语音降噪处理器可以用于通信系统的输入端也可以用于接收端，具体地，可以置于送话器的前端，或者置于接收器的后端。当置于送话器的前端时，输入的语音信号经过该数字语音降噪处理器后进入到通信系统。如果没有检测到语音段，该数字语音降噪处理器发出指令，使通信系统的输入处于衰减状态，使得噪声段无法通过送话器进入通信系统；当语音信号到来时，数字语音降噪处理器又会发出指令，启动通讯系统，输出语音信号进入通话系统。这样就避免了无语音时噪声对整个通讯系统的污染。

而当该数字语音降噪处理器置于通话接收器的后端时，数字语音降噪处理器首先对接收的话音信号进行语音活动检测，如果没有检测到语音段，数字语音降噪处理器将对语音信号中的噪声段进行抑制，输出舒适的背景噪声；如果检测到语音段，数字语音降噪处理器将会对该语音段进行放大，然后输出。这样就避免了背景噪声对人员听力的损伤。

本发明实施例提供一种数字语音降噪处理器，通过采用数字信号处理技术对带噪语音进行降噪处理，且采用基于子带加权功率谱熵的语音端点检测技术作为其核心技术，在该语音检测技术中根据实际应用环境自适应的选择子带数目和权重因子，能显著改善语音通信质量，提高通信的信噪比，改善听音环境，且在实际应用中能够有效保护人员的听力，避免工作人员长期被噪声污染而出现的反应迟钝、头晕等现象。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音端点检测方法，其特征在于，包括：

对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵H(x)，计算公式如下：

2.根据权利要求1所述的语音端点检测方法，其特征在于，在将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较之前，所述方法还包括：

对所述子带加权功率谱熵进行平滑处理，得到平滑后的子带加权功率谱熵

其中，H_i为第i帧的子带加权功率谱熵，

表示平滑后第i帧的子带加权功率谱熵，α为平滑因子，其大小为0.9～0.95，在语音变化比较剧烈的区域，α取值较小，在语音变化比较平稳的区域，α取值较大。

3.根据权利要求2所述的语音端点检测方法，其特征在于，在所述初步判定该语音帧为语音段之后，所述方法还包括：

将该语音帧的前T个语音帧都判定为语音段，并输出该语音帧和前T个语音帧都为语音段的语音检测结果，其中T为根据实验结果确定的预设值。

4.根据权利要求1或2或3所述的语音端点检测方法，其特征在于，在所述初步判定该语音帧为噪声段之后，所述方法还包括：

计算该语音帧持续为噪声段的持续时间，并将所述持续时间与预设的语音停顿时间阈值进行比较，若所述持续时间大于所述语音停顿时间阈值，则最终判定该语音帧为噪声段，并输出该语音帧为噪声段的语音检测结果，若所述持续时间小于所述语音停顿时间阈值，则最终判定该语音帧为语音段，并输出该语音帧为语音段的语音检测结果。

5.一种语音端点检测装置，其特征在于，包括：

加权处理模块，与所述子带划分模块连接，用于对所述子带功率谱熵概率密度进行加权处理，得到每个语音帧的子带加权功率谱熵H(x)，计算公式如下：

6.根据权利要求5所述的语音端点检测装置，其特征在于，还包括：

平滑处理模块，与所述加权处理模块和所述初步判决模块连接，用于在将每个语音帧的子带加权功率谱熵的大小与预设的语音端点判决阈值进行比较之前，对所述子带加权功率谱熵进行平滑处理，得到平滑后的子带加权功率谱熵其中，H_i为第i帧的子带加权功率谱熵，

7.根据权利要求6所述的语音端点检测装置，其特征在于，还包括：

回滞保护模块，与所述初步判决模块连接，用于在所述初步判定该语音帧为语音段之后，将该语音帧的前T个语音帧都判定为语音段，并输出该语音帧和前T个语音帧都为语音段的语音检测结果，其中T为根据实验结果确定的预设值；在所述初步判定该语音帧为噪声段之后，计算该语音帧持续为噪声段的持续时间，并将所述持续时间与预设的语音停顿时间阈值进行比较，若所述持续时间大于所述语音停顿时间阈值，则最终判定该语音帧为噪声段，并输出该语音帧为噪声段的语音检测结果，若所述持续时间小于所述语音停顿时间阈值，则最终判定该语音帧为语音段，并输出该语音帧为语音段的语音检测结果。