CN1949364A - 检测输入语音信号可识别度的系统与方法 - Google Patents
检测输入语音信号可识别度的系统与方法 Download PDFInfo
- Publication number
- CN1949364A CN1949364A CNA2005101085756A CN200510108575A CN1949364A CN 1949364 A CN1949364 A CN 1949364A CN A2005101085756 A CNA2005101085756 A CN A2005101085756A CN 200510108575 A CN200510108575 A CN 200510108575A CN 1949364 A CN1949364 A CN 1949364A
- Authority
- CN
- China
- Prior art keywords
- signal
- input signal
- speech
- input
- intelligibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012360 testing method Methods 0.000 title description 7
- 230000004044 response Effects 0.000 claims abstract description 32
- 230000007613 environmental effect Effects 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000001960 triggered effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
一种检测输入语音信号可识别度的系统与方法,设计在语音识别或对话系统的前级中,检测使用者环境质量状况,并且判别输入语音信号可否被系统识别成功。本发明主要包含环境参数求取器、信号是否可识别判别器和策略响应处理器。该系统加入本发明的语音识别或对话装置的前级,在噪声环境的干扰下,能准确地判别输入信号是否可成功识别,并接收识别成功机率较高的输入信号,排除了识别成功几率较低的输入信号,而提升了系统的识别成功率。
Description
技术领域
本发明涉及语音识别(speech recognition),特别涉及一种检测输入语音信号可识别度的系统与方法。
背景技术
语音识别系统在现实环境的应用中,时常因为一些使用者本身的因素:例如说话的腔调、速度,或者是背景环境的影响:如背景噪声或信道效应等,造成语音输入信号超出系统识别能力范围。先前许多强健性语音识别研究,针对上述问题已经对提出许多不同的技术来改进系统识别器,但是改善幅度始终有限。
美国专利6,272,461的文献“Method For Implementing a SpeechVerification System For Use In a Noisy Environment”中,公开了一种用于吵杂环境的语音鉴别系统与方法。此专利文献中,系统的前级设置了一个语音鉴别器(speech verifier)。如图1所示,此语音鉴别器100包括噪音控制器(noisesuppressor)110、音高检测器(pitch detector)120、和信心决定器(confidencedeterminer)130。其目的是去除一些噪声,并且求取音高,接着利用音高的值转换为一个随着时间改变的信心值(confidence index),用来决定某个时间点的输入信号是否为语音,这项信心值再传送给识别器去辅助识别。
此美国专利文献6,272,461着重的部分是检测语音是否发生去帮助识别器识别,系统不管目前的输入信号是否已超出可接受范围,让所有输入信号进行识别。
再观察目前语音识别或对话系统,并无任何使用者环境或使用者本身状况的感知能力,这意味着在更加严格的使用环境或条件下,系统只能盲目地执行识别并输出答案,如果遇到超出系统能力的服务要求,通常使用者只能得到错误的答案,无形中系统浪费了许多不必要的系统资源去处理诸如此类不易成功的语音服务。
以自动电话总机为例,假如使用者站在人声鼎沸的地铁或是吵杂的大马路上查询电话分机号码,噪声的影响造成输入信号的信号-噪声比(signal-to-noise ratio,SNR)过低而超出原先系统可以接受的范围,系统在无法察觉的情况下继续进行识别,最后输出的是错误的分机号码,使用者只好转而要求人工服务来达到转接的目的。这样不但浪费了系统的识别资源,也无法达到节省人工服务的目的。
倘若系统能在识别前得知输入信号是否识别成功,对于可成功识别的信号便直接进入识别器识别。而针对无法识别成功的信号去做出一些响应和对策,则可增加识别成功的机会。
发明内容
本发明为解决上述公知技术的语音识别系统并无环境感知能力的缺点,其主要目的是提供一种检测输入语音信号可识别度的系统与方法。
相较于公知技术,本发明拥有下列的特点:(a)本发明着重设计于系统识别的前级中,只花费少许系统资源来测量输入信号是否识别成功,而非检测出输入信号里语音及非语音部分,并直接将此信息提供给识别器以提高识别率。(b)对于可成功识别的信号便直接进入识别器识别,而针对无法识别成功的信号则做出一些响应和对策。(c)减少不必要的识别资源的浪费,并提高系统识别成功的机率。
本发明的检测输入语音信号可识别度的系统是设计在语音识别或对话装置的前级中,主要包含环境参数求取器(environment parameter generator)、信号是否可识别判别器(signal recognition verifier)和策略响应处理器。
此系统的操作流程如下。首先,参数求取器对输入信号求取出一些环境参数,来代表此输入信号所在的环境状况或信号的质量。之后,信号是否可识别判别器经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置。当判别无法识别成功时,便触发策略响应处理器。策略响应处理器根据输入信号的环境参数来响应使用者目前的环境状况或信号质量,并且提出对策,使识别成功机率提高。
在本发明的实施例中,参数求取器选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而策略响应处理器提出的多种不同的对策为引导使用者改善方法,包括如信号-噪声比过低时,请使用者提高音量或更换较为安静的环境;或者可靠度值太小时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转接客服中心。
根据本发明的一种检测输入语音信号可识别度的系统,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的系统包含有:
环境参数求取器,对输入信号求取出至少一个环境参数;
信号是否可识别判别器,以训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否可识别成功;以及
策略响应处理器;
其中,当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,该信号是否可识别判别器触发该策略响应处理器,由该策略响应处理器做出多种不同的策略响应。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数代表该输入信号所在的环境状况或信号的质量。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和系统处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的系统,其中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的系统,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的系统,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供其相对应的改善方式。
根据本发明的检测输入语音信号可识别度的系统,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的系统,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的系统,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的系统,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
根据本发明的一种检测输入语音信号可识别度的方法,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的方法包含下列步骤:
(a)对输入信号求取出至少一个环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量;
(b)以训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否可识别成功;以及
(c)当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,则触发策略响应处理器,做出多种不同的策略响应。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(a)中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
根据本发明的检测输入语音信号可识别度的方法,其中该环境参数利用语音自动检测方式和特征参数遗失补偿方式来求取。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音自动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净信号,计算出该输入信号的该信号-噪声比的值。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计该干净信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率;
利用特征参数遗失补偿方式,估计该干净信号频谱在该时间t测量属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
根据本发明的检测输入语音信号可识别度的方法,其中该系统处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知系统模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用样本分类方法中的多阶感知力方式。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供其相对应的改善方式。
根据本发明的检测输入语音信号可识别度的方法,其中的该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
配合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。
附图说明
图1为一种传统的用于吵杂环境的语音鉴别系统与方法;
图2为本发明的检测输入语音信号可识别度的系统的一个方框示意图;
图3为环境参数求取器的一个方框示意图;
图4为信号是否可识别判别器的一个方框示意图;
图5为策略响应处理器的策略响应的一个范例;
图6为仿真噪声环境并产生六组测试集合的测试信号的识别率的实验结果;
图7为加入本发明后,无法识别成功和可识别成功的误差率的输出结果。
其中,附图标记说明如下:
100语音鉴别器 120音高检测器 110噪音控制器
130信心决定器 200检测输入语音信号可识别度的系统
210环境参数求取器 220信号是否可识别判别器 225识别装置
230策略响应处理器 310a信号-噪声比估算器
310b信号为语音的机率估算器 310c系统处理输入信号的可靠度估算器
Y输入信号
SNRy输入信号y的信号-噪声比的值
Py输入信号y为语音的机率
Ry系统处理输入信号y的可靠度
501响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况
502提示使用者重新输入信号或者为其转至一具有人工服务之处
具体实施方式
如前所述,本发明的检测输入语音信号可识别度的系统着重设计语音识别或对话装置的前级。图2是本发明的检测输入语音信号可识别度的系统的一个方框示意图。如图2所示,此系统200主要包含环境参数求取器210、信号是否可识别判别器220和策略响应处理器230。参考此图2,现说明此系统的各元件的功能及此系统的操作流程如下。
首先,参数求取器210对输入信号求取出至少一个环境参数。此环境参数代表此输入信号所在的环境状况或信号的质量。不失一般性,本发明的实施例中,选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而这些环境参数的求取可利用如语音自动检测(voice automatic detection,VAD)方式和特征参数遗失补偿(missingfeature imputation,MFI)方式,先得到干净语音信号后,再依此估算出。这些环境参数的估算将再一一详细说明。
之后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置225。当判别无法识别成功时,便触发策略响应处理器230,做出多种不同的策略响应,使识别成功机率提高。
图3是环境参数求取器的一个方框示意图。如图3所示,此环境参数求取器包括信号-噪声比估算器310a、信号为语音的机率估算器310b和系统处理输入信号的可靠度估算器310c。参考此图3,现一一详细说明各估算器估算各相对应的环境参数的方式如下。
信号-噪声比估算
由于在实际环境的应用上,背景噪声的影响程度通常直接反应到语音系统的识别率,因此本发明选择输入信号的信号-噪声比当作第一个环境参数。
首先,信号-噪声比估算器310a利用语音自动检测方式对输入信号y的频谱特征参数检测出语音部分x及非语音部分(噪声)un。之后,语音部分x利用特征参数遗失补偿方式,消除噪声而得到干净语音信号
再依据噪声un与干净信号
计算出此输入信号y的信号-噪声比的值SNRy。通常输入信号的信号-噪声比越高,则输入信号被识别成功的机率也越大。此输入信号y的信号-噪声比的值SNRy可以下列式子来表示。
SNRy=max(SNR(t))
其中,SNR(t)为在t时间对输入信号y所估计出的信号-噪声比,输入信号的总时间长度为T。D为输入信号频谱总共的频带个数。
(t,d)代表利用特征参数遗失补偿方式在时间t及频带d所估计出的干净语音频谱特征参数。un(d)为利用特征参数遗失补偿方式在频带d所估计出的噪声频谱特征参数的平均值。SNRy为此输入信号的信号-噪声比的值。
信号为语音的机率估算
除了输入信号的信号-噪声比,本发明将输入信号y为语音的机率Py,当作第二个环境参数。测量出属于语音的机率越大,则代表此输入信号越容易被识别成功。
首先,信号为语音的机率估算器310b利用特征参数遗失补偿方式估计干净信号频谱参数x在时间t与频带d时,输入信号的信号-噪声比的值大于0的机率。
之后,利用特征参数遗失补偿方式估计干净信号频谱在时间t测量属于语音的机率。
其中,D为信号频谱的频带数,T为输入信号的时间长度。
最后,输入信号y为语音的机率计算方式如下:
系统处理输入信号的可靠度估算
本发明测量系统处理输入信号的可靠度Ry,来当作第三个环境参数。当可靠度的值越大时,则代表输入信号越容易被识别成功。
首先,系统处理输入信号的可靠度估算器310c在频谱上测量输入信号y与已知系统模型分布x的差异度(divergence)D(y‖x),其公式如下:
其中,p(y)代表信号y的频谱参数机率分布,p(x)为系统模型的频谱参数机率分布。差异度D(y‖x)越大,输入信号识别成功的机率越小。
之后,将此差异度D(y‖x)经由一个S型公式(sigmoid function)转换为0到1的可靠度参数Ry。
其中,α与β分别为放大与偏移的微调参数。
估算出此三个环境参数SNRy、Py和Ry后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,接收输入信号的三个环境参数SNRy、Py和Ry,分析并将输出结果分为可识别成功与无法识别成功两类,如图4的信号是否可识别判别器的方框示意图所示。训练语言材料的环境参数的训练法则的例子如样本分类(pattern classification)方法中的多阶感知力(multi-layer perceptron,MLP)方式。
如前所述,当信号是否可识别判别器220判别输入信号无法成功识别后,便会触发策略响应处理器230,做出策略响应。策略响应有多种方式,图5所示为策略响应处理器的策略响应的一个范例。此范例中,先响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况,如标号501所示,引导使用者改善目前环境及信号质量。如:信号-噪声比过低时,如低于一门限值时,请使用者提高音量或更换较为安静的环境。或者系统处理输入信号的可靠度值太小时,如小于一门限值时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转至人工服务,如标号502所示。
在一个实验里,以936笔录制的干净语言材料,分别加入五种不同的信号-噪声比(0~20db)的人声噪声(babble noise),仿真噪声环境并产生六组测试集合共5616个测试信号。在噪声的干扰下,算出六组集合的识别率,如图6所示。在干净的环境下,识别率为94.2%。加入不同的人声噪声后,六组集合的测试信号的平均识别率下降为64.8%。
由此可见,系统识别率会随着信号-噪声比值下降而急速降低,而影响了整体识别率。加入本发明的检测输入语音信号可识别度的方法后,对每个测试信号求出环境参数后,送入信号是否可识别判别器,将判别无法识别成功的输入信号排除,而判别可识别成功的输入信号则直接进入系统识别。图7为无法识别成功和可识别成功的误差率的输出结果。
图7中,A为识别装置无法识别成功的语句数。B为加入本发明的方法后,对于A的误判(判别为可识别成功)句数。C为识别装置可以识别成功的语句数。D为加入本发明的方法后,对于C的误判(判别为无法识别成功)句数。而识别装置的平均识别率为,进入识别装置且识别正确的总语句数与应进入识别装置的总语句数的比值。也就是(C-D)/(C-D+B)=(3640-807)/(3640-807+453)=86.2%。
由此可见,在语音识别或对话系统的前级中,加入本发明所提出的方法,则在噪声环境的干扰下,确实能准确地判别信号是否可成功识别,并接收识别成功机率较高的输入信号,将识别装置的效能从原先64.8%提升至86.2%。甚且,排除了识别成功机率较低的输入信号,减少它所带来的影响。
综上所述,本发明提供一种检测输入语音信号可识别度的系统与方法。本发明是设计在语音识别或对话系统的前级中,检测使用者环境质量状况并且判别输入语音信号可否被系统识别成功。在本发明中,测量输入信号的信号噪声比、输入信号为语音的机率,和系统处理输入信号的可靠度等参数,来代表输入信号的质量状况。并根据上述参数训练出判别器,判别输入信号可否识别成功。若判别可识别成功,便将信号传送至一般的识别装置。若判别无法识别成功,便触发处理器来告知使用者目前环境状况,并提示使用者改善输入信号的质量。
然而以上所述仅为本发明的实施例而已,不能依此限定本发明实施的范围。即凡是在本发明权利要求书的范围所作的均等变化与修改,皆应仍属本发明权利要求书涵盖的范围内。
Claims (25)
1.一种检测输入语音信号可识别度的系统,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的系统包含有:
环境参数求取器,对输入信号求取出至少一个环境参数;
信号是否可识别判别器,在训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否可识别成功;以及
策略响应处理器;
其中,当该输入信号可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号不可识别成功时,该信号是否可识别判别器触发该策略响应处理器,由该策略响应处理器做出多种不同的策略响应。
2.如权利要求1所述的检测输入语音信号可识别度的系统,其中该环境参数代表该输入信号所在的环境状况或信号的质量。
3.如权利要求2所述的检测输入语音信号可识别度的系统,其中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
4.如权利要求3所述的检测输入语音信号可识别度的系统,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和系统处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该系统处理该输入信号的可靠度。
5.如权利要求1所述的检测输入语音信号可识别度的系统,其中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
6.如权利要求5所述的检测输入语音信号可识别度的系统,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
7.如权利要求5所述的检测输入语音信号可识别度的系统,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供其相对应的改善方式。
8.如权利要求7所述的检测输入语音信号可识别度的系统,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
9.如权利要求8所述的检测输入语音信号可识别度的系统,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
10.如权利要求8所述的检测输入语音信号可识别度的系统,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
11.如权利要求8所述的检测输入语音信号可识别度的系统,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
12.一种检测输入语音信号可识别度的方法,是设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的方法包含下列步骤:
(a)对输入信号求取出至少一个环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量;
(b)以训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否可识别成功;以及
(c)当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,则触发策略响应处理器,做出多种不同的策略响应。
13.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(a)中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
14.如权利要求12所述的检测输入语音信号可识别度的方法,其中该环境参数利用语音自动检测方式和特征参数遗失补偿方式来求取。
15.如权利要求12所述的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音自动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净信号,计算出该输入信号的该信号-噪声比的值。
16.如权利要求12所述的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计该干净信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率;
利用特征参数遗失补偿方式,估计该干净信号频谱在该时间t量测属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
17.如权利要求12所述的检测输入语音信号可识别度的方法,其中该系统处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知系统模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
18.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用一样本分类方法中的多阶感知力方式。
19.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
20.如权利要求19项所述的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
21.如权利要求19所述的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供其相对应的改善方式。
22.如权利要求21所述的检测输入语音信号可识别度的方法,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
23.如权利要求20所述的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
24.如权利要求20所述的检测输入语音信号可识别度的方法,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
25.如权利要求20所述的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510108575A CN1949364B (zh) | 2005-10-12 | 2005-10-12 | 语音识别的前级检测系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510108575A CN1949364B (zh) | 2005-10-12 | 2005-10-12 | 语音识别的前级检测系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1949364A true CN1949364A (zh) | 2007-04-18 |
CN1949364B CN1949364B (zh) | 2010-05-05 |
Family
ID=38018855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510108575A Expired - Fee Related CN1949364B (zh) | 2005-10-12 | 2005-10-12 | 语音识别的前级检测系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1949364B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693722A (zh) * | 2012-05-23 | 2012-09-26 | Tcl集团股份有限公司 | 一种语音识别的方法、装置及数字电视 |
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN103594088A (zh) * | 2013-11-11 | 2014-02-19 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN104637495A (zh) * | 2013-11-08 | 2015-05-20 | 宏达国际电子股份有限公司 | 电子装置以及音频信号处理方法 |
CN104766462A (zh) * | 2014-12-29 | 2015-07-08 | 深圳市欧润特科技有限公司 | 一种声波遥控系统以及声波遥控方法 |
CN105718019A (zh) * | 2014-12-01 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107221341A (zh) * | 2017-06-06 | 2017-09-29 | 北京云知声信息技术有限公司 | 一种语音测试方法及装置 |
CN108281140A (zh) * | 2017-12-29 | 2018-07-13 | 潍坊歌尔电子有限公司 | 智能设备噪声消除性能的测试方法和系统 |
CN108986796A (zh) * | 2018-06-21 | 2018-12-11 | 广东小天才科技有限公司 | 一种语音搜索方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6067517A (en) * | 1996-02-02 | 2000-05-23 | International Business Machines Corporation | Transcription of speech data with segments from acoustically dissimilar environments |
US6266633B1 (en) * | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
US6757651B2 (en) * | 2001-08-28 | 2004-06-29 | Intellisist, Llc | Speech detection system and method |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
EP1378886A1 (en) * | 2002-07-02 | 2004-01-07 | Ubicall Communications en abrégé "UbiCall" S.A. | Speech recognition device |
US7617104B2 (en) * | 2003-01-21 | 2009-11-10 | Microsoft Corporation | Method of speech recognition using hidden trajectory Hidden Markov Models |
DE102004001863A1 (de) * | 2004-01-13 | 2005-08-11 | Siemens Ag | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals |
-
2005
- 2005-10-12 CN CN200510108575A patent/CN1949364B/zh not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693722A (zh) * | 2012-05-23 | 2012-09-26 | Tcl集团股份有限公司 | 一种语音识别的方法、装置及数字电视 |
CN103578470A (zh) * | 2012-08-09 | 2014-02-12 | 安徽科大讯飞信息科技股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN103578470B (zh) * | 2012-08-09 | 2019-10-18 | 科大讯飞股份有限公司 | 一种电话录音数据的处理方法及系统 |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN104345649B (zh) * | 2013-08-09 | 2017-08-04 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
CN104637495A (zh) * | 2013-11-08 | 2015-05-20 | 宏达国际电子股份有限公司 | 电子装置以及音频信号处理方法 |
CN103594088A (zh) * | 2013-11-11 | 2014-02-19 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN105718019A (zh) * | 2014-12-01 | 2016-06-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104766462A (zh) * | 2014-12-29 | 2015-07-08 | 深圳市欧润特科技有限公司 | 一种声波遥控系统以及声波遥控方法 |
CN107221341A (zh) * | 2017-06-06 | 2017-09-29 | 北京云知声信息技术有限公司 | 一种语音测试方法及装置 |
CN108281140A (zh) * | 2017-12-29 | 2018-07-13 | 潍坊歌尔电子有限公司 | 智能设备噪声消除性能的测试方法和系统 |
CN108986796A (zh) * | 2018-06-21 | 2018-12-11 | 广东小天才科技有限公司 | 一种语音搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN1949364B (zh) | 2010-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1949364A (zh) | 检测输入语音信号可识别度的系统与方法 | |
CN105448303B (zh) | 语音信号的处理方法和装置 | |
US7933771B2 (en) | System and method for detecting the recognizability of input speech signals | |
US7957967B2 (en) | Acoustic signal classification system | |
CN103578470B (zh) | 一种电话录音数据的处理方法及系统 | |
CN1228761C (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
US20070129941A1 (en) | Preprocessing system and method for reducing FRR in speaking recognition | |
CN1746973A (zh) | 分布式语音识别系统和方法 | |
CN1805008A (zh) | 语音检测装置、自动图像拾取装置和语音检测方法 | |
CN1302460C (zh) | 语音编码中噪音鲁棒分类方法和装置 | |
CN1679083A (zh) | 不利环境中的多信道语音检测 | |
CN1225736A (zh) | 语音活动检测器 | |
CN106992002A (zh) | 用于改进含噪语音识别的动态声学模型切换 | |
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
CN1675684A (zh) | 具有后端声音活动检测的分布式语音识别设备和方法 | |
CN109614881A (zh) | 可自适应调节阈值的生物识别认证方法、设备及存储设备 | |
CN1773605A (zh) | 一种应用于语音识别系统的语音端点检测方法 | |
CN1787073A (zh) | 自动控制输入等级的语音识别系统及语音识别方法 | |
CN1623186A (zh) | 用于噪声环境的话音活动检测器和验证器 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
CN1628337A (zh) | 语音识别方法及其装置 | |
RU2408087C2 (ru) | Система эмоциональной стабилизации речевых коммуникаций "эмос" | |
Kyriakides et al. | Isolated word endpoint detection using time-frequency variance kernels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100505 Termination date: 20201012 |
|
CF01 | Termination of patent right due to non-payment of annual fee |