CN1540623A - 一种门限自适应的语音检测系统 - Google Patents
一种门限自适应的语音检测系统 Download PDFInfo
- Publication number
- CN1540623A CN1540623A CNA2003101032637A CN200310103263A CN1540623A CN 1540623 A CN1540623 A CN 1540623A CN A2003101032637 A CNA2003101032637 A CN A2003101032637A CN 200310103263 A CN200310103263 A CN 200310103263A CN 1540623 A CN1540623 A CN 1540623A
- Authority
- CN
- China
- Prior art keywords
- threshold
- voice
- frame
- energy
- speech detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 10
- 206010038743 Restlessness Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种可以在线的、不需要预先获得录音信道音量的语音检测系统,包括语音采集装置、基于门限的语音检测装置、门限更新装置。与现有语音检测系统比较,该系统具有很好的稳健性,能够找到合适介于无声平均能量和语音平均能量中间的检测门限,同时取得比较高的语音检测率和背景噪声检测率。此外,该系统还能够快速的跟踪背景噪声的变化,在平稳和非平稳背景环境下都可以很好的工作。
Description
技术领域
本发明涉及一种门限自适应的语音检测系统,尤其是涉及一种基于模糊聚类的语音检测系统。
背景技术
语音是未来用户界面的主流。实用的语音信号处理系统必须能够在千差万别的声学环境中稳健地运行。语音检测是语音信号处理中比较重要的一部分,其稳健性将极大地影响后续的语音识别和语音编码的性能。基于门限的语音检测算法逐帧求取语音检测特征,然后把特征的数值和门限进行比较,最后将得到的帧判决结果平滑。门限对于最后的检测结果是至关重要的,过高或者过低的门限都无法给出正确的检测结果。对于能量特征来说,采用固定门限的方法是不可取的,因为语音识别系统在不同的环境下使用会有不同的背景噪声,用户录音的音量和信噪比也会不一样,因此需要在使用时在线实时的计算语音检测门限。
已有的语音检测门限估计算法的研究主要集中在以下的三个方面:
1.基于无声段的门限估计算法,这种门限估计算法需要在识别的开始阶段录制环境噪声,然后由环境噪声的平均能量加上一个域值估计检测的高低门限。这种方法物理意义明确,能量高于无声段平均能量一定程度的即为语音,实现简单,计算量小,而且在高信噪比环境下可以得到好的检测结果。但是这种方法需要初始化的无声段。对于真正的实用系统,这是一个比较严格的要求。而且这种方法估计的门限值是固定不变的,因此不适合非平稳的背景噪声情况。
2.基于能量直方图的门限估计算法,利用能量分布直方图确定语音检测的门限。对于一段录音,计算每帧的能量,然后根据所有的帧能量求取分布直方图,然后由直方图的峰值确定背景噪声和语音的平均能量。基于能量直方图的门限估计算法比基于初始化无声段的门限估计方法要稳健,因为它从直方图的峰值获得门限。没有纯无声段的要求,对包含少量语音的录音段仍然可以正确估计门限。但是准确的估计直方图需要比较多的录音帧,数据量少时统计不充分,得到的直方图不具有代表性。而且估计的直方图和选取的区间个数相关。如果有少量的野点,就会使能量的动态范围增大,从而使区间的精度降低,导致估计粗糙。
3.基于一阶自回归的门限估计算法,利用当前门限和新的帧能量的线性组合估计新的门限。当前门限和当前能量的线性组合计算新的门限。这种方法可以动态地更新门限,处理背景噪声能量非平稳的情况,但是更新门限依赖于当前的检测,如果检测错误,可能会导致更新错误,而且更新门限的速度比较慢。
从上面的方法来看,这几种门限估计算法都还有需要改进的地方。
发明内容
本发明的发明目的就是克服上述缺陷,提供一种能够对任何的录音段估计检测门限的语音门限估计装置。这样在非平稳背景环境下,可以在检测的过程中每隔一段时间,用最近录制的几秒的数据来估计新的门限用于后续检测。只有对任何录音段都能够正确的估计门限,不需要依赖于上次检测的结果,才不会由于上次的检测错误导致更新门限错误。
为达到上述目的,本发明是这样实现的:本发明采用模糊聚类和贝叶斯信息准则,该语音检测系统包括:
一种门限自适应的语音检测系统,采用模糊聚类和贝叶斯信息准则,该语音检测系统包括:
一个语音采集装置,用于采集说话者的语音信号;
一个录音缓存装置,用于将从上述语音采集装置中接收的最近录音数据缓存;
一个能量特征提取装置,用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取;
一个模糊聚类装置,用于对上述录音缓存装置中存储的录音数据进行模糊聚类;
一个贝叶斯信息准则装置,用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理;
一个门限估计装置,用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新;
一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果;
一个平滑装置,用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。
作为一种优选方案,其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。
作为一种优选方案,其中对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类和两类,由贝叶斯信息准则决定最佳的分类数目。
其中如果最佳分类数目为一类,说明该段录音只包含无声段,可以用所有帧的平均能量作为无声段平均能量的估计值。
其中如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。
其中这两个所述的估计值可以共同的决定语音检测的门限。
从上面的说明可以看出,本发明具有很好的稳健性,能够找到合适介于无声段平均能量和语音平均能量中间的检测门限,从而同时取得比较高的语音检测率和背景噪声检测率。此外,发明不需要初始化的无声段,而且能够快速的跟踪背景噪声的变化,在平稳和非平稳背景环境下都可以很好的工作,具有很大的推广和应用价值。
附图说明
图1为本发明实施例的总体流程框图;
图2为模糊聚类算法的流程图;
图3为本发明语音检测部分的工作流程图。
具体实施方式
以下结合附图和具体实施例对本发明做进一步的阐述:
如图1所示,在该语音检测系统中,采用模糊聚类和贝叶斯信息准则,首先由一个语音采集装置采集说话者的语音信号,接着由一个录音缓存装置将从上述语音采集装置中接收的最近录音数据缓存,然后在一个能量特征提取装置中对上述录音缓存装置中存储的输入语音信号进行能量特征提取,同时由一个模糊聚类装置对上述录音缓存装置中存储的录音数据进行模糊聚类,接着由一个贝叶斯信息准则装置对经所述模糊聚类装置处理后的数据进行聚类结果后处理,并通过一个门限估计装置根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新,还有,通过一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果,接着由一个平滑装置把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。
作为一种优选方案,其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。
具体来说,对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类和两类,由贝叶斯信息准则决定最佳的分类数目。
其中如果最佳分类数目为一类,说明该段录音只包含无声段,可以用所有帧的平均能量作为无声段平均能量的估计值。
其中如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。
其中这两个所述的估计值可以共同的决定语音检测的门限。
门限的估计和更新是由模糊聚类装置,贝叶斯信息准则装置,门限估计装置共同完成的。模糊聚类装置用于对最近的录音数据进行模糊聚类,贝叶斯信息准则装置进行聚类结果的后处理,门限估计装置根据模糊聚类和贝叶斯信息准则的结果进行在线的检测门限更新。我们详细的介绍这部分的工作。
如图2所示,整个算法的原理是利用聚类算法得到语音的平均能量和背景噪声的平均能量,在二者都有的时候用它们共同确定门限,对没有语音的录音段利用无声段的平均能量估计门限。其结构是对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类(C=1)和两类(C=1),由贝叶斯信息值BIC(1)和BIC(2)决定最佳的分类数目Cbest。如果最佳分类数目Cbest为一类,说明该段录音只包含无声段,可以用m1,1作为无声段平均能量的估计。如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心Msilence和Mspeech作为无声段平均能量和语音平均能量的估计。这两个值可以共同的决定语音检测的门限。
下面对其中的模糊聚类算法进行说明。模糊聚类的算法介绍如下:设x1,x2,K,xN是录音缓冲队列中的帧能量序列,聚为C类时候的算法如下:m1,m2,K mC为类中心,μj(xi)为样本xi对于第j类的隶属度函数。给定类聚类数目C和模糊程度控制参数b,选择初始化的类中心m1,m2,K mC,根据当前类中心计算隶属度函数,
用当前的隶属度计算各聚类中心,
重复上面两步直到类中心不再改变。
贝叶斯信息准则是折衷考虑聚类似然度和聚类复杂度,用于确定最佳的聚类数目。贝叶斯信息值的定义为
其中X={x1,x2,K,xN}是数据集,Φ={φ1,φ2,K,φC}是模型参数。L(X,Φ)是数据X和模型Φ的似然函数,#Φ是模型Φ的参数个数。N是数据的个数,λp是惩罚因子。由贝叶斯信息准则,最佳的聚类数目对应于最大的贝叶斯信息值。
基于模糊聚类和贝叶斯信息准则的语音检测门限估计算法的结构是利用聚类算法得到语音的平均能量和背景噪声的平均能量,在二者都有的时候用它们共同确定门限,对没有语音的录音段利用无声段的平均能量估计门限。算法的关键是利用了非监督学习,从待检测的数据中学习门限,再用门限估计算法的结构是利用聚类算法得到语音的平均能量和背景噪声的平均能量,在二者都有的时候用它们共同确定门限,对没有语音的录音段利用无声段的平均能量估计门限。算法的关键是利用了非监督学习,从待检测的数据中学习门限,再用于检测。
得到检测门限后,一个逐帧比较装置把每帧的能量和门限进行比较,得到分帧检测的结果。一个平滑装置把分帧检测的结果经过平滑规则得到了最后的基于句子的语音检测。如图3,我们语音检测逐帧把能量和门限进行比较,如果某帧的时域对数能量大于门限,那么就认为检测到了语音。分帧检测的结果经过平滑规则得到了最后的基于句子的语音检测。检测和平滑的规则:当语音信号的能量连续几帧大于高门限TL后,向前搜索低门限TH得到语音的开始点,往后搜索到连续N帧低于低门限TL处得到语音的终止点。得到的语音段再经过语音脉冲的合并和消除,根据段长去掉特别短的杂音,并且合并距离很近的两段脉冲,如果当前段的End和Begin中间的长度小于LEN,就删除这段语音;如果当前段的Begin和上一段的End增强的距离小于DIST,就合并这两段。
尽管参考确定的优选实施例已经描述了本发明,对于本领域技术人员来说可以进行众多的修改和变化而不脱离本发明新颖的精神和范围。
Claims (6)
1、一种门限自适应的语音检测系统,采用模糊聚类和贝叶斯信息准则,该语音检测系统包括:
一个语音采集装置,用于采集说话者的语音信号;
一个录音缓存装置,用于将从上述语音采集装置中接收的最近录音数据缓存;
一个能量特征提取装置,用于对上述录音缓存装置中存储的输入语音信号进行能量特征提取;
一个模糊聚类装置,用于对上述录音缓存装置中存储的录音数据进行模糊聚类;
一个贝叶斯信息准则装置,用于对经所述模糊聚类装置处理后的数据进行聚类结果后处理;
一个门限估计装置,用于根据贝叶斯信息准则装置处理后的结果进行在线的检测门限计算和更新;
一个逐帧比较装置,用于根据能量特征提取装置及门限估计装置的处理结果,对每帧的能量和门限进行比较,得到分帧检测的结果;
一个平滑装置,用于把逐帧检测的结果经过平滑规则得到最后的基于句子的语音检测。
2、如权利要求1所述的门限自适应的语音检测系统,其中门限估计装置采用基于模糊聚类和贝叶斯信息准则的稳健门限估计算法。
3、如权利要求1所述的门限自适应的语音检测系统,其中对于一段录音,将所有的帧能量通过模糊聚类算法来组织成一类和两类,由贝叶斯信息准则决定最佳的分类数目。
4、如权利要求3所述的门限自适应的语音检测系统,其中如果最佳分类数目为一类,说明该段录音只包含无声段,可以用所有帧的平均能量作为无声段平均能量的估计值。
5、如权利要求3所述的门限自适应的语音检测系统,其中如果最佳分类数目为二类,说明该段录音既包含无声段又包含语音,可以用这两类的类中心作为无声段平均能量和语音平均能量的估计值。
6、如权利要求4或5之一所述的门限自适应的语音检测系统,其中这两个所述的估计值可以共同的决定语音检测的门限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2003101032637A CN1540623A (zh) | 2003-11-04 | 2003-11-04 | 一种门限自适应的语音检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2003101032637A CN1540623A (zh) | 2003-11-04 | 2003-11-04 | 一种门限自适应的语音检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1540623A true CN1540623A (zh) | 2004-10-27 |
Family
ID=34333263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2003101032637A Pending CN1540623A (zh) | 2003-11-04 | 2003-11-04 | 一种门限自适应的语音检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1540623A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452704B (zh) * | 2007-11-29 | 2011-05-11 | 中国科学院声学研究所 | 一种基于信息传递的说话人聚类方法 |
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
WO2011116569A1 (zh) * | 2010-03-23 | 2011-09-29 | 中兴通讯股份有限公司 | 手机静音识别装置以及手机静音消噪的方法和系统 |
CN103730118A (zh) * | 2012-10-11 | 2014-04-16 | 百度在线网络技术(北京)有限公司 | 语音信号采集方法和移动终端 |
CN104103272A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 语音识别方法、装置和蓝牙耳机 |
CN105261368A (zh) * | 2015-08-31 | 2016-01-20 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN110537223A (zh) * | 2018-03-26 | 2019-12-03 | 深圳市汇顶科技股份有限公司 | 语音检测的方法和装置 |
WO2020020375A1 (zh) * | 2018-07-27 | 2020-01-30 | 北京三快在线科技有限公司 | 语音处理方法、装置、电子设备及可读存储介质 |
CN112399018A (zh) * | 2019-08-17 | 2021-02-23 | 广州腾新科技有限公司 | 一种智能呼叫控制方法、服务器、设备和系统 |
-
2003
- 2003-11-04 CN CNA2003101032637A patent/CN1540623A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
CN101452704B (zh) * | 2007-11-29 | 2011-05-11 | 中国科学院声学研究所 | 一种基于信息传递的说话人聚类方法 |
WO2011116569A1 (zh) * | 2010-03-23 | 2011-09-29 | 中兴通讯股份有限公司 | 手机静音识别装置以及手机静音消噪的方法和系统 |
CN103730118B (zh) * | 2012-10-11 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 语音信号采集方法和移动终端 |
CN103730118A (zh) * | 2012-10-11 | 2014-04-16 | 百度在线网络技术(北京)有限公司 | 语音信号采集方法和移动终端 |
CN104103272A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 语音识别方法、装置和蓝牙耳机 |
CN104103272B (zh) * | 2014-07-15 | 2017-10-10 | 无锡中感微电子股份有限公司 | 语音识别方法、装置和蓝牙耳机 |
CN105261368A (zh) * | 2015-08-31 | 2016-01-20 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
CN110537223A (zh) * | 2018-03-26 | 2019-12-03 | 深圳市汇顶科技股份有限公司 | 语音检测的方法和装置 |
CN110537223B (zh) * | 2018-03-26 | 2022-07-05 | 深圳市汇顶科技股份有限公司 | 语音检测的方法和装置 |
WO2020020375A1 (zh) * | 2018-07-27 | 2020-01-30 | 北京三快在线科技有限公司 | 语音处理方法、装置、电子设备及可读存储介质 |
CN112399018A (zh) * | 2019-08-17 | 2021-02-23 | 广州腾新科技有限公司 | 一种智能呼叫控制方法、服务器、设备和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8838452B2 (en) | Effective audio segmentation and classification | |
CN100485780C (zh) | 基于基音频率的快速音频分割方法 | |
US20030231775A1 (en) | Robust detection and classification of objects in audio using limited training data | |
CN1912993A (zh) | 基于能量及谐波的语音端点检测方法 | |
US7243063B2 (en) | Classifier-based non-linear projection for continuous speech segmentation | |
CN101308653A (zh) | 一种应用于语音识别系统的端点检测方法 | |
Górriz et al. | Hard C-means clustering for voice activity detection | |
US6205422B1 (en) | Morphological pure speech detection using valley percentage | |
CN112786054B (zh) | 基于语音的智能面试评估方法、装置、设备及存储介质 | |
Cheng et al. | A sequential metric-based audio segmentation method via the Bayesian information criterion. | |
CN1540623A (zh) | 一种门限自适应的语音检测系统 | |
CN116153330B (zh) | 一种智能电话语音机器人控制方法 | |
Li et al. | Robust, real-time endpoint detector with energy normalization for ASR in adverse environments | |
US12087280B2 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
Wu et al. | UBM-based real-time speaker segmentation for broadcasting news | |
Cheng et al. | METRIC-SEQDAC: A hybrid approach for audio segmentation | |
Górriz et al. | An effective cluster-based model for robust speech detection and speech recognition in noisy environments | |
US20080189109A1 (en) | Segmentation posterior based boundary point determination | |
Wang et al. | Automatic audio segmentation using the generalized likelihood ratio | |
Wu et al. | Universal Background Models for Real-time Speaker Change Detection. | |
CN1282069A (zh) | 掌上计算机语音识别核心软件包 | |
AU2005252714B2 (en) | Effective audio segmentation and classification | |
KR101251045B1 (ko) | 오디오 판별 장치 및 그 방법 | |
Zhang et al. | A two-level method for unsupervised speaker-based audio segmentation | |
Górriz et al. | Noise subspace fuzzy c-means clustering for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |