CN1540623A

CN1540623A - 一种门限自适应的语音检测系统

Info

Publication number: CN1540623A
Application number: CNA2003101032637A
Authority: CN
Inventors: 及吴; 吴及; 王作英; 田野
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2003-11-04
Filing date: 2003-11-04
Publication date: 2004-10-27

Abstract

本发明提供了一种可以在线的、不需要预先获得录音信道音量的语音检测系统，包括语音采集装置、基于门限的语音检测装置、门限更新装置。与现有语音检测系统比较，该系统具有很好的稳健性，能够找到合适介于无声平均能量和语音平均能量中间的检测门限，同时取得比较高的语音检测率和背景噪声检测率。此外，该系统还能够快速的跟踪背景噪声的变化，在平稳和非平稳背景环境下都可以很好的工作。

Description

一种门限自适应的语音检测系统

技术领域

本发明涉及一种门限自适应的语音检测系统，尤其是涉及一种基于模糊聚类的语音检测系统。

背景技术

语音是未来用户界面的主流。实用的语音信号处理系统必须能够在千差万别的声学环境中稳健地运行。语音检测是语音信号处理中比较重要的一部分，其稳健性将极大地影响后续的语音识别和语音编码的性能。基于门限的语音检测算法逐帧求取语音检测特征，然后把特征的数值和门限进行比较，最后将得到的帧判决结果平滑。门限对于最后的检测结果是至关重要的，过高或者过低的门限都无法给出正确的检测结果。对于能量特征来说，采用固定门限的方法是不可取的，因为语音识别系统在不同的环境下使用会有不同的背景噪声，用户录音的音量和信噪比也会不一样，因此需要在使用时在线实时的计算语音检测门限。

已有的语音检测门限估计算法的研究主要集中在以下的三个方面：

1.基于无声段的门限估计算法，这种门限估计算法需要在识别的开始阶段录制环境噪声，然后由环境噪声的平均能量加上一个域值估计检测的高低门限。这种方法物理意义明确，能量高于无声段平均能量一定程度的即为语音，实现简单，计算量小，而且在高信噪比环境下可以得到好的检测结果。但是这种方法需要初始化的无声段。对于真正的实用系统，这是一个比较严格的要求。而且这种方法估计的门限值是固定不变的，因此不适合非平稳的背景噪声情况。

2.基于能量直方图的门限估计算法，利用能量分布直方图确定语音检测的门限。对于一段录音，计算每帧的能量，然后根据所有的帧能量求取分布直方图，然后由直方图的峰值确定背景噪声和语音的平均能量。基于能量直方图的门限估计算法比基于初始化无声段的门限估计方法要稳健，因为它从直方图的峰值获得门限。没有纯无声段的要求，对包含少量语音的录音段仍然可以正确估计门限。但是准确的估计直方图需要比较多的录音帧，数据量少时统计不充分，得到的直方图不具有代表性。而且估计的直方图和选取的区间个数相关。如果有少量的野点，就会使能量的动态范围增大，从而使区间的精度降低，导致估计粗糙。

3.基于一阶自回归的门限估计算法，利用当前门限和新的帧能量的线性组合估计新的门限。当前门限和当前能量的线性组合计算新的门限。这种方法可以动态地更新门限，处理背景噪声能量非平稳的情况，但是更新门限依赖于当前的检测，如果检测错误，可能会导致更新错误，而且更新门限的速度比较慢。

从上面的方法来看，这几种门限估计算法都还有需要改进的地方。

发明内容

本发明的发明目的就是克服上述缺陷，提供一种能够对任何的录音段估计检测门限的语音门限估计装置。这样在非平稳背景环境下，可以在检测的过程中每隔一段时间，用最近录制的几秒的数据来估计新的门限用于后续检测。只有对任何录音段都能够正确的估计门限，不需要依赖于上次检测的结果，才不会由于上次的检测错误导致更新门限错误。

为达到上述目的，本发明是这样实现的：本发明采用模糊聚类和贝叶斯信息准则，该语音检测系统包括：

一种门限自适应的语音检测系统，采用模糊聚类和贝叶斯信息准则，该语音检测系统包括：

一个语音采集装置，用于采集说话者的语音信号；

一个录音缓存装置，用于将从上述语音采集装置中接收的最近录音数据缓存；

一个能量特征提取装置，用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取；

一个模糊聚类装置，用于对上述录音缓存装置中存储的录音数据进行模糊聚类；

一个贝叶斯信息准则装置，用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理；

一个门限估计装置，用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新；

一个逐帧比较装置，用于根据能量特征提取装置及门限估计装置的处理结果，对每帧的能量和门限进行比较，得到分帧检测的结果；

一个平滑装置，用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。

作为一种优选方案，其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。

作为一种优选方案，其中对于一段录音，将所有的帧能量通过模糊聚类算法来组织成一类和两类，由贝叶斯信息准则决定最佳的分类数目。

其中如果最佳分类数目为一类，说明该段录音只包含无声段，可以用所有帧的平均能量作为无声段平均能量的估计值。

其中如果最佳分类数目为二类，说明该段录音既包含无声段又包含语音，可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。

其中这两个所述的估计值可以共同的决定语音检测的门限。

从上面的说明可以看出，本发明具有很好的稳健性，能够找到合适介于无声段平均能量和语音平均能量中间的检测门限，从而同时取得比较高的语音检测率和背景噪声检测率。此外，发明不需要初始化的无声段，而且能够快速的跟踪背景噪声的变化，在平稳和非平稳背景环境下都可以很好的工作，具有很大的推广和应用价值。

附图说明

图1为本发明实施例的总体流程框图；

图2为模糊聚类算法的流程图；

图3为本发明语音检测部分的工作流程图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步的阐述：

如图1所示，在该语音检测系统中，采用模糊聚类和贝叶斯信息准则，首先由一个语音采集装置采集说话者的语音信号，接着由一个录音缓存装置将从上述语音采集装置中接收的最近录音数据缓存，然后在一个能量特征提取装置中对上述录音缓存装置中存储的输入语音信号进行能量特征提取，同时由一个模糊聚类装置对上述录音缓存装置中存储的录音数据进行模糊聚类，接着由一个贝叶斯信息准则装置对经所述模糊聚类装置处理后的数据进行聚类结果后处理，并通过一个门限估计装置根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新，还有，通过一个逐帧比较装置，用于根据能量特征提取装置及门限估计装置的处理结果，对每帧的能量和门限进行比较，得到分帧检测的结果，接着由一个平滑装置把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。

具体来说，对于一段录音，将所有的帧能量通过模糊聚类算法来组织成一类和两类，由贝叶斯信息准则决定最佳的分类数目。

其中这两个所述的估计值可以共同的决定语音检测的门限。

门限的估计和更新是由模糊聚类装置，贝叶斯信息准则装置，门限估计装置共同完成的。模糊聚类装置用于对最近的录音数据进行模糊聚类，贝叶斯信息准则装置进行聚类结果的后处理，门限估计装置根据模糊聚类和贝叶斯信息准则的结果进行在线的检测门限更新。我们详细的介绍这部分的工作。

如图2所示，整个算法的原理是利用聚类算法得到语音的平均能量和背景噪声的平均能量，在二者都有的时候用它们共同确定门限，对没有语音的录音段利用无声段的平均能量估计门限。其结构是对于一段录音，将所有的帧能量通过模糊聚类算法来组织成一类(C＝1)和两类(C＝1)，由贝叶斯信息值BIC(1)和BIC(2)决定最佳的分类数目C_best。如果最佳分类数目C_best为一类，说明该段录音只包含无声段，可以用m_1，1作为无声段平均能量的估计。如果最佳分类数目为二类，说明该段录音既包含无声段又包含语音，可以用这两类的类中心M_silence和M_speech作为无声段平均能量和语音平均能量的估计。这两个值可以共同的决定语音检测的门限。

下面对其中的模糊聚类算法进行说明。模糊聚类的算法介绍如下：设x₁，x₂，K，x_N是录音缓冲队列中的帧能量序列，聚为C类时候的算法如下：m₁，m₂，K m_C为类中心，μ_j(x_i)为样本x_i对于第j类的隶属度函数。给定类聚类数目C和模糊程度控制参数b，选择初始化的类中心m₁，m₂，K m_C，根据当前类中心计算隶属度函数，

m_{j} = \frac{Σ_{i = 1}^{N} {[μ_{j} (x_{i})]}^{b} x_{i}}{Σ_{i = 1}^{N} {[μ_{j} (x_{i})]}^{b}}, j = 1,2, K, C

用当前的隶属度计算各聚类中心，

重复上面两步直到类中心不再改变。

贝叶斯信息准则是折衷考虑聚类似然度和聚类复杂度，用于确定最佳的聚类数目。贝叶斯信息值的定义为

BIC (M) = \log L (X, Φ) - λ_{p} \frac{1}{2} # Φ \times \log (N)

其中X＝{x₁，x₂，K，x_N}是数据集，Φ＝{φ₁，φ₂，K，φ_C}是模型参数。L(X，Φ)是数据X和模型Φ的似然函数，#Φ是模型Φ的参数个数。N是数据的个数，λ_p是惩罚因子。由贝叶斯信息准则，最佳的聚类数目对应于最大的贝叶斯信息值。

基于模糊聚类和贝叶斯信息准则的语音检测门限估计算法的结构是利用聚类算法得到语音的平均能量和背景噪声的平均能量，在二者都有的时候用它们共同确定门限，对没有语音的录音段利用无声段的平均能量估计门限。算法的关键是利用了非监督学习，从待检测的数据中学习门限，再用门限估计算法的结构是利用聚类算法得到语音的平均能量和背景噪声的平均能量，在二者都有的时候用它们共同确定门限，对没有语音的录音段利用无声段的平均能量估计门限。算法的关键是利用了非监督学习，从待检测的数据中学习门限，再用于检测。

得到检测门限后，一个逐帧比较装置把每帧的能量和门限进行比较，得到分帧检测的结果。一个平滑装置把分帧检测的结果经过平滑规则得到了最后的基于句子的语音检测。如图3，我们语音检测逐帧把能量和门限进行比较，如果某帧的时域对数能量大于门限，那么就认为检测到了语音。分帧检测的结果经过平滑规则得到了最后的基于句子的语音检测。检测和平滑的规则：当语音信号的能量连续几帧大于高门限TL后，向前搜索低门限TH得到语音的开始点，往后搜索到连续N帧低于低门限TL处得到语音的终止点。得到的语音段再经过语音脉冲的合并和消除，根据段长去掉特别短的杂音，并且合并距离很近的两段脉冲，如果当前段的End和Begin中间的长度小于LEN，就删除这段语音；如果当前段的Begin和上一段的End增强的距离小于DIST，就合并这两段。

尽管参考确定的优选实施例已经描述了本发明，对于本领域技术人员来说可以进行众多的修改和变化而不脱离本发明新颖的精神和范围。

Claims

1、一种门限自适应的语音检测系统，采用模糊聚类和贝叶斯信息准则，该语音检测系统包括：

一个语音采集装置，用于采集说话者的语音信号；

2、如权利要求1所述的门限自适应的语音检测系统，其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。

3、如权利要求1所述的门限自适应的语音检测系统，其中对于一段录音，将所有的帧能量通过模糊聚类算法来组织成一类和两类，由贝叶斯信息准则决定最佳的分类数目。

4、如权利要求3所述的门限自适应的语音检测系统，其中如果最佳分类数目为一类，说明该段录音只包含无声段，可以用所有帧的平均能量作为无声段平均能量的估计值。

5、如权利要求3所述的门限自适应的语音检测系统，其中如果最佳分类数目为二类，说明该段录音既包含无声段又包含语音，可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。

6、如权利要求4或5之一所述的门限自适应的语音检测系统，其中这两个所述的估计值可以共同的决定语音检测的门限。