CN101308653A

CN101308653A - 一种应用于语音识别系统的端点检测方法

Info

Publication number: CN101308653A
Application number: CNA200810107116XA
Authority: CN
Inventors: 高建清; 胡国平; 胡郁; 刘庆峰; 王仁华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2008-07-17
Filing date: 2008-07-17
Publication date: 2008-11-19

Abstract

本发明涉及一种应用于语音识别系统的端点检测方法，采用能量双门限算法与模型分类器判决相结合的方式，即检测—验证策略进行语音信号端点检测。在检测阶段，采用能量双门限算法进行能量初判；在验证阶段，先采用段过零率判决，然后再使用模型分类器进一步的验证，检测—验证策略的步骤包括：模型训练、能量初判、过零率判决、模型分类器判决、判断语音结束点和确认语音片段。本发明能高效准确的检测出语音的端点位置，同时，该方法较容易实现在线化，可以应用于语音识别实时系统。

Description

一种应用于语音识别系统的端点检测方法

技术领域

本发明涉及语音识别领域。

背景技术

在语音识别系统中，数字语音信号是由静音段、噪声段及语音段混合组成的，在这种信号中将语音和各种非语音信号区分开来，准确的确定出语音信号被称为端点检测或语音活动性检测(Voice Activity Detection，VAD)。端点检测的正确与否，会直接影响到语音识别系统的性能，这表现在精度和速度两方面：首先，如果移除信号中的静音和噪声段有利于系统准确提取语音的特征，提高语音识别的准确率；其次，如果待处理的信号中包含大量的非语音部分，有效的端点检测算法可以去除噪声段的计算，则计算量会大大减小，速度也会显著提高。

端点检测的研究大致可以分为两类：基于特征的方法和基于模型的方法，基于特征的方法是指寻找对语音和噪声具有区分性的特征，按一定的规则来判断语音段与噪声段，所用的特征主要有能量、基频、过零率、熵等。基于模型的方法是指针对噪声与语音分别建模，用分类的方法来进行端点的检测。基于能量、过零率等特征的方法逻辑简单，计算效率高，容易应用于实时系统，这类方法在高信噪比的情况下效果很好，但在信噪比较低的情况下性能急剧下降。基于模型分类器的方法在模型与使用实际环境匹配的情况下能取得较好的效果，但这种方法的缺点是噪声的环境有很多种，无法针对所有的环境建立对应的模型，另外，基于模型的方法一般采用较多维数的特征，这样计算效率上相对较低。

发明内容

针对上述问题，本发明提供一种高效稳健的应用于语音识别系统的端点检测方法，能高效准确的检测出语音的端点位置；同时，该方法较容易实现在线化，可以应用于语音识别实时系统。

为解决上述问题，本发明提供了一种应用于语音识别系统的端点检测方法，含有能量双门限算法和基于模型的算法，该方法采用能量双门限算法与模型分类器判决相结合的方式，即检测-验证策略进行语音信号端点检测。在检测阶段，采用能量双门限算法进行能量初判；在验证阶段，先采用段过零率判决，然后再使用模型分类器进一步的验证。本发明的步骤包括：

模型训练；

进行能量初判，根据能量特征确定门限值，寻找可能的语音的起始点；

模型分类器判决，对能量初判阶段和过零率判决阶段得到的语音起始点进一步的验证；

判断语音结束点和确认语音片段。

所述模型训练的步骤为：首先，针对端点检测的应用环境收集训练数据，对训练数据进行人工标注，分为语音与非语音部分；其次，对训练库中的语音信号进行分帧处理，每帧提取十二维梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)特征及一维能量特征，使用高斯混合模型(GaussianMixture Model，GMM)对这十三维特征进行建模，其中语音部分数据用来训练语音模型，非语音部分数据用来训练非语音模型；最后，使用最小分类错误准则(Minimum Classification Error，MCE)对得到的GMM模型进行区分性训练。

所述能量初判即根据能量特征确定门限，按一定的规则来寻找可能的语音的起始点，能量初判的过程描述如下：

1)根据背景噪声能量计算E_sil，用来代表环境噪声情况；

2)根据E_sil计算两个能量门限E_l和E_h；

3)判断从当前位置开始的x帧内有无连续y帧的能量大于E_l门限值，如果有，则记录可能的语音起始点的位置，如果没有，则重新判断；

4)判断从当前位置开始的m帧内有无连续n帧的能量大于E_h门限值，如果有，则该点为可能的语音起始点并进行下一步过零率判决，如果没有，则重新判断。

所述过零率判决是对能量初判阶段得到的语音起始点进行进一步的验证。从可能的语音起始点开始取一窗的数据，计算该窗数据的段平均过零率，如果段平均过零率大于门限值，则认为该语音起始点可信，继续下一步模型分类器判决，否则，认为该语音起始点不可信，重新判断。

所述模型分类器判决是对能量初判阶段和过零率判决阶段得到的语音起始点进行进一步的验证。所述模型分类器判决的过程描述如下：

1)从可能的语音起始点开始取一窗的数据；

2)逐帧进行判决，过程如下：对窗中的数据按帧提取十二维MFCC特征和一维能量特征，并对能量维特征进行归一化处理，然后，分别对于语音模型和非语音计算似然度，进而根据似然度进行判决，如果该帧的语音与非语音的log似然比大于门限值，则该帧判为语音；否则，该帧判为非语音；

3)进行段决策，即统计窗中判为语音的帧所占的比例，如果比例大于门限值，则确认语音起始点可信，开始判断语音结束点；否则，重新判断。

所述判断语音结束点是指在判决出语音起始点后，根据能量门限按一定的规则来判断语音的结束点。判断语音结束点的过程描述如下：

1)从语音起始点开始逐帧判断其能量值，如果低于能量门限E_l，则记录下该帧的位置；

2)从能量低于E_l的帧开始判断接下来的a帧是否包含b个能量大于E_h的帧，如果是，则该点不是语音结束点，重新判断；否则，该点是语音结束点。

所述确认语音片段，是指在判断出语音的起始点和结束点以后，根据一定的规则来确认是否为有效的语音片段。即判断语音结束点与语音起始点之间的间隔是否大于最小语音长段门限，如果是，则确认该段为语音；否则，该段不是有效的语音片段。

经过以上的流程以后，即可检测出语音数据，并送给识别器进行处理。

本发明结合了能量双门限、过零率及模型分类器，能高效准确的检测出语音的端点位置，同时，该方法较容易实现在线化，可以应用于语音识别实时系统。

附图说明

以下结合附图和实施例对本发明作进一步说明。

图1是本发明提供的应用于语音识别系统的端点检测流程图；

图2是能量双门限算法探测语音起始点的流程图。

具体实施方式

本发明采用能量双门限算法与模型分类器判决相结合的方式，即检测一验证策略进行语音信号端点检测。在检测阶段，采用能量双门限算法进行能量初判；在验证阶段，先采用段过零率判决，然后再使用模型分类器进一步的验证。本发明的步骤包括：

模型训练；

判断语音结束点和确认语音片段。

模型训练：首先，针对端点检测的应用环境收集训练数据，对训练数据进行人工标注，分为语音与非语音部分。其次，对训练库中的语音信号进行分帧处理，每帧提取十二维MFCC特征及一维能量特征，使用GMM模型对这十三维特征进行建模，其中语音部分数据用来训练语音模型，非语音部分数据用来训练非语音模型。最后，对得到的GMM模型进行区分性训练，使用MCE准则使训练后的语音模型与非语音模型更具有区分性。能量双门限算法与模型分类器相结合的端点检测流程参见图1。

步骤101：输入已数字化的语音数据，对语音数据进行分帧处理，帧长25ms，帧移10ms，然后进入步骤102。

步骤102：使用能量双门限方法进行初判，找到可能的语音起始点，其过程如图2所示，具体的步骤如下：

步骤201：从当前位置Cur处取i帧计算背景噪声能量E_sil，计算公式如下：

E_{sil} = \frac{1}{i} Σ_{j = 1}^{i} E_{i}

进入步骤202。

步骤202：根据E_sil计算两个能量门限E_l和E_h，计算公式如下：

E_l＝E_sil*α/(log(E_sil)-β)

E_h＝E_sil*A/((log(E_sil)-B)*(log(E_sil)-Θ))

进入步骤203。

步骤203：判断从当前位置Cur处开始的x帧内有无连续y帧的能量大于E_l，如果是，则进入步骤204，否则当前位置向后移一帧，回到步骤201重新判断。

步骤204：判断从当前位置Cur处开始的m帧内有无连续n帧的能量大于E_h，如果是，则进入步骤205，否则当前位置向后移一帧，回到步骤201重新判断。

步骤205：记录可能的语音起始点位置，进入步骤103。

步骤103：使用过零率来验证步骤102中检测出的语音起始点是否为真正的语音起始点，具体的步骤是从可能的语音起始点开始取一窗的数据，窗长为L，计算该窗数据的段平均过零率，计算公式如下：

Zcr = \frac{1}{L} Σ_{i = 1}^{L} sign ((E_{i} - β) \cdot (E_{i + 1} - β))

其中E_i代表第i帧的能量，β代表偏置值。

如果段平均过零率大于门限值，则认为该语音起始点可信，进入步骤104；否则，认为该语音起始点不可信，回到步骤102重新进行判断。

步骤104：使用模型分类器来验证步骤103验证后的语音起始点是否为真正的语音起始点，具体的步骤如下：

(1)进行帧判决，过程如下：对窗中的数据按帧提取MFCC和能量特征，并对能量维特征进行归一化处理。然后，分别对于语音模型和非语音计算似然度，计算公式如下：

p (y_{t} | λ_{i}) = \frac{1}{{(2 π)}^{d / 2} \cdot {| Σ_{i} |}^{\frac{1}{2}}} \exp {- \frac{1}{2} [{(y_{t} - u_{i})}^{'} \cdot Σ_{i}^{- 1} (y_{t} - u_{i})}

其中，y_t为第t帧的MFCC特征(t＝1--L)，λ_i为语音模型和非语音模型(i＝1--2)。

假设λ₁代表语音模型，λ₂代表非语音模型，对于任一帧如果log(p(y_i|λ₁))-log(p(y_i|λ₂))大于门限值，则该帧判为语音，否则该帧判为非语音。

(2)进行段决策，即根据帧判决的结果统计窗中判为语音的帧所占的比例，如果比例大于门限值，则认为该语音起始点可信，进入步骤105，否则回到步骤102重新进行判断。

步骤105：根据能量门限按一定的规则来判断语音的结束点，判断语音结束点的过程如下：

(1)从步骤104中确定的语音起始点开始逐帧判断其能量值，如果低于能量门限E_l，则记录下该帧的位置；

(2)从能量低于E_l的帧开始判断接下来的a帧是否包含b个能量大于E_h的帧，如果是，则该点不是语音结束点，回到步骤102重新判断；否则，该点是语音结束点。

步骤106：判断步骤105中确定的语音结束点与步骤104中确定的语音起始点之间的间隔是否大于最小语音长段门限，如果是，则确认该段为语音；否则，该段不是有效的语音片段。

经过以上的步骤，即可检测出语音数据，并送给识别器进行处理。

与现有技术相比，本发明采用“检测-验证”的策略，在检测阶段，先采用简单的能量双门限算法过滤掉大量的静音段和部分能量较小的噪音段，有效的保证了端点检测算法的效率；在验证阶段，先采用段过零率判决过滤掉明显的噪音段，然后再使用模型分类器进行进一步的验证，而模型分类器的训练阶段引入了区分性训练，使得模型分类器的分类能力大大提高，验证的效果也有明显的改善。采用这种框架设计出的端点检测器，计算消耗较小，且端点检测的效果较为准确。

Claims

1、一种应用于语音识别系统的端点检测方法，含有能量双门限算法和基于模型的算法，其特征在于该方法采用能量双门限算法与模型分类器判决相结合的方式，即检测-验证策略进行语音信号端点检测，在检测阶段，采用所述能量双门限算法进行能量初判；在验证阶段，先采用段过零率判决，然后再使用所述模型分类器进一步的验证，其步骤包括：

模型训练；

判断语音结束点和确认语音片段。

2、根据权利要求1所述的应用于语音识别系统的端点检测方法，其特征在于所述模型训练的步骤为：

1)针对端点检测的应用环境收集训练数据，对训练数据进行人工标注，分为语音与非语音部分；

2)对训练库中的语音信号进行分帧处理，每帧提取十二维梅尔频率倒谱系数特征及一维能量特征，使用高斯混合模型对这十三维特征进行建模，其中语音部分数据用来训练语音模型，非语音部分数据用来训练非语音模型；

3)使用最小分类错误准则对得到的高斯混合模型进行区分性训练。

3、根据权利要求1所述的应用于语音识别系统的端点检测方法，其特征在于所述能量初判的步骤为：

1)根据背景噪声能量计算E_sil，用来代表环境噪声情况；

2)根据E_sil计算两个能量门限E_l和E_h；

4、根据权利要求3所述的应用于语音识别系统的端点检测方法，其特征在于所述过零率判决是从可能的语音起始点开始取一窗的数据，计算该窗数据的段平均过零率，如果段平均过零率大于门限值，则认为该语音起始点可信，继续下一步模型分类器判决，否则，认为该语音起始点不可信，重新判断。

5、根据权利要求4所述的应用于语音识别系统的端点检测方法，其特征在于所述模型分类器判决的步骤为：

1)从可能的语音起始点开始取一窗的数据；

2)逐帧进行判决，过程如下：对窗中的数据按帧提取十二维梅尔频率倒谱系数特征和能量特征，并对能量维特征进行归一化处理，然后，分别对于语音模型和非语音模型计算似然度，进而根据似然度进行判决，如果该帧的语音与非语音的log似然比大于门限值，则该帧判为语音；否则，该帧判为非语音；

6、根据权利要求5所述的应用于语音识别系统的端点检测方法，其特征在于所述判断语音结束点的步骤为：

7、根据权利要求1-6任一项所述的应用于语音识别系统的端点检测方法，其特征在于在判断出语音的起始点和结束点以后，通过判断语音结束点与语音起始点之间的间隔是否大于最小语音长段门限来确认是否为有效的语音片段，如果是，则确认该段为语音；否则，该段不是有效的语音片段。