CN1949364A - 检测输入语音信号可识别度的系统与方法 - Google Patents

检测输入语音信号可识别度的系统与方法 Download PDF

Info

Publication number
CN1949364A
CN1949364A CNA2005101085756A CN200510108575A CN1949364A CN 1949364 A CN1949364 A CN 1949364A CN A2005101085756 A CNA2005101085756 A CN A2005101085756A CN 200510108575 A CN200510108575 A CN 200510108575A CN 1949364 A CN1949364 A CN 1949364A
Authority
CN
China
Prior art keywords
signal
input signal
speech
input
intelligibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101085756A
Other languages
English (en)
Other versions
CN1949364B (zh
Inventor
张森嘉
廖元甫
林政贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to CN200510108575A priority Critical patent/CN1949364B/zh
Publication of CN1949364A publication Critical patent/CN1949364A/zh
Application granted granted Critical
Publication of CN1949364B publication Critical patent/CN1949364B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种检测输入语音信号可识别度的系统与方法,设计在语音识别或对话系统的前级中,检测使用者环境质量状况,并且判别输入语音信号可否被系统识别成功。本发明主要包含环境参数求取器、信号是否可识别判别器和策略响应处理器。该系统加入本发明的语音识别或对话装置的前级,在噪声环境的干扰下,能准确地判别输入信号是否可成功识别,并接收识别成功机率较高的输入信号,排除了识别成功几率较低的输入信号,而提升了系统的识别成功率。

Description

检测输入语音信号可识别度的系统与方法
技术领域
本发明涉及语音识别(speech recognition),特别涉及一种检测输入语音信号可识别度的系统与方法。
背景技术
语音识别系统在现实环境的应用中,时常因为一些使用者本身的因素:例如说话的腔调、速度,或者是背景环境的影响:如背景噪声或信道效应等,造成语音输入信号超出系统识别能力范围。先前许多强健性语音识别研究,针对上述问题已经对提出许多不同的技术来改进系统识别器,但是改善幅度始终有限。
美国专利6,272,461的文献“Method For Implementing a SpeechVerification System For Use In a Noisy Environment”中,公开了一种用于吵杂环境的语音鉴别系统与方法。此专利文献中,系统的前级设置了一个语音鉴别器(speech verifier)。如图1所示,此语音鉴别器100包括噪音控制器(noisesuppressor)110、音高检测器(pitch detector)120、和信心决定器(confidencedeterminer)130。其目的是去除一些噪声,并且求取音高,接着利用音高的值转换为一个随着时间改变的信心值(confidence index),用来决定某个时间点的输入信号是否为语音,这项信心值再传送给识别器去辅助识别。
此美国专利文献6,272,461着重的部分是检测语音是否发生去帮助识别器识别,系统不管目前的输入信号是否已超出可接受范围,让所有输入信号进行识别。
再观察目前语音识别或对话系统,并无任何使用者环境或使用者本身状况的感知能力,这意味着在更加严格的使用环境或条件下,系统只能盲目地执行识别并输出答案,如果遇到超出系统能力的服务要求,通常使用者只能得到错误的答案,无形中系统浪费了许多不必要的系统资源去处理诸如此类不易成功的语音服务。
以自动电话总机为例,假如使用者站在人声鼎沸的地铁或是吵杂的大马路上查询电话分机号码,噪声的影响造成输入信号的信号-噪声比(signal-to-noise ratio,SNR)过低而超出原先系统可以接受的范围,系统在无法察觉的情况下继续进行识别,最后输出的是错误的分机号码,使用者只好转而要求人工服务来达到转接的目的。这样不但浪费了系统的识别资源,也无法达到节省人工服务的目的。
倘若系统能在识别前得知输入信号是否识别成功,对于可成功识别的信号便直接进入识别器识别。而针对无法识别成功的信号去做出一些响应和对策,则可增加识别成功的机会。
发明内容
本发明为解决上述公知技术的语音识别系统并无环境感知能力的缺点,其主要目的是提供一种检测输入语音信号可识别度的系统与方法。
相较于公知技术,本发明拥有下列的特点:(a)本发明着重设计于系统识别的前级中,只花费少许系统资源来测量输入信号是否识别成功,而非检测出输入信号里语音及非语音部分,并直接将此信息提供给识别器以提高识别率。(b)对于可成功识别的信号便直接进入识别器识别,而针对无法识别成功的信号则做出一些响应和对策。(c)减少不必要的识别资源的浪费,并提高系统识别成功的机率。
本发明的检测输入语音信号可识别度的系统是设计在语音识别或对话装置的前级中,主要包含环境参数求取器(environment parameter generator)、信号是否可识别判别器(signal recognition verifier)和策略响应处理器。
此系统的操作流程如下。首先,参数求取器对输入信号求取出一些环境参数,来代表此输入信号所在的环境状况或信号的质量。之后,信号是否可识别判别器经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置。当判别无法识别成功时,便触发策略响应处理器。策略响应处理器根据输入信号的环境参数来响应使用者目前的环境状况或信号质量,并且提出对策,使识别成功机率提高。
在本发明的实施例中,参数求取器选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而策略响应处理器提出的多种不同的对策为引导使用者改善方法,包括如信号-噪声比过低时,请使用者提高音量或更换较为安静的环境;或者可靠度值太小时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转接客服中心。
根据本发明的一种检测输入语音信号可识别度的系统,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的系统包含有:
环境参数求取器,对输入信号求取出至少一个环境参数;
信号是否可识别判别器,以训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否可识别成功;以及
策略响应处理器;
其中,当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,该信号是否可识别判别器触发该策略响应处理器,由该策略响应处理器做出多种不同的策略响应。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数代表该输入信号所在的环境状况或信号的质量。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
根据本发明的检测输入语音信号可识别度的系统,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和系统处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的系统,其中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的系统,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的系统,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供其相对应的改善方式。
根据本发明的检测输入语音信号可识别度的系统,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的系统,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的系统,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的系统,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
根据本发明的一种检测输入语音信号可识别度的方法,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的方法包含下列步骤:
(a)对输入信号求取出至少一个环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量;
(b)以训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否可识别成功;以及
(c)当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,则触发策略响应处理器,做出多种不同的策略响应。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(a)中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
根据本发明的检测输入语音信号可识别度的方法,其中该环境参数利用语音自动检测方式和特征参数遗失补偿方式来求取。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音自动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净信号,计算出该输入信号的该信号-噪声比的值。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计该干净信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率;
利用特征参数遗失补偿方式,估计该干净信号频谱在该时间t测量属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
根据本发明的检测输入语音信号可识别度的方法,其中该系统处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知系统模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用样本分类方法中的多阶感知力方式。
根据本发明的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
根据本发明的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
根据本发明的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供其相对应的改善方式。
根据本发明的检测输入语音信号可识别度的方法,其中的该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
根据本发明的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
根据本发明的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
配合下列附图、实施例的详细说明及权利要求书,将上述及本发明的其它目的与优点详述于后。
附图说明
图1为一种传统的用于吵杂环境的语音鉴别系统与方法;
图2为本发明的检测输入语音信号可识别度的系统的一个方框示意图;
图3为环境参数求取器的一个方框示意图;
图4为信号是否可识别判别器的一个方框示意图;
图5为策略响应处理器的策略响应的一个范例;
图6为仿真噪声环境并产生六组测试集合的测试信号的识别率的实验结果;
图7为加入本发明后,无法识别成功和可识别成功的误差率的输出结果。
其中,附图标记说明如下:
100语音鉴别器      120音高检测器            110噪音控制器
130信心决定器      200检测输入语音信号可识别度的系统
210环境参数求取器  220信号是否可识别判别器  225识别装置
230策略响应处理器  310a信号-噪声比估算器
310b信号为语音的机率估算器     310c系统处理输入信号的可靠度估算器
Y输入信号
SNRy输入信号y的信号-噪声比的值
Py输入信号y为语音的机率
Ry系统处理输入信号y的可靠度
501响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况
502提示使用者重新输入信号或者为其转至一具有人工服务之处
具体实施方式
如前所述,本发明的检测输入语音信号可识别度的系统着重设计语音识别或对话装置的前级。图2是本发明的检测输入语音信号可识别度的系统的一个方框示意图。如图2所示,此系统200主要包含环境参数求取器210、信号是否可识别判别器220和策略响应处理器230。参考此图2,现说明此系统的各元件的功能及此系统的操作流程如下。
首先,参数求取器210对输入信号求取出至少一个环境参数。此环境参数代表此输入信号所在的环境状况或信号的质量。不失一般性,本发明的实施例中,选择输入信号的信号-噪声比、输入信号为语音的机率,以及系统处理输入信号的可靠度来当作环境参数。而这些环境参数的求取可利用如语音自动检测(voice automatic detection,VAD)方式和特征参数遗失补偿(missingfeature imputation,MFI)方式,先得到干净语音信号后,再依此估算出。这些环境参数的估算将再一一详细说明。
之后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,根据该输入信号的环境参数,判别此输入信号是否可识别成功。当判别可识别成功时,便将此输入信号传送至一般的识别装置225。当判别无法识别成功时,便触发策略响应处理器230,做出多种不同的策略响应,使识别成功机率提高。
图3是环境参数求取器的一个方框示意图。如图3所示,此环境参数求取器包括信号-噪声比估算器310a、信号为语音的机率估算器310b和系统处理输入信号的可靠度估算器310c。参考此图3,现一一详细说明各估算器估算各相对应的环境参数的方式如下。
信号-噪声比估算
由于在实际环境的应用上,背景噪声的影响程度通常直接反应到语音系统的识别率,因此本发明选择输入信号的信号-噪声比当作第一个环境参数。
首先,信号-噪声比估算器310a利用语音自动检测方式对输入信号y的频谱特征参数检测出语音部分x及非语音部分(噪声)un。之后,语音部分x利用特征参数遗失补偿方式,消除噪声而得到干净语音信号
Figure A20051010857500131
再依据噪声un与干净信号
Figure A20051010857500132
计算出此输入信号y的信号-噪声比的值SNRy。通常输入信号的信号-噪声比越高,则输入信号被识别成功的机率也越大。此输入信号y的信号-噪声比的值SNRy可以下列式子来表示。
SNR ( t ) = 1 D · Σ d = 0 D - 1 x ^ ( t , d ) 1 D · Σ d = 0 D - 1 u n ( d ) , t = 0 ~ T - 1 ,
SNRy=max(SNR(t))
其中,SNR(t)为在t时间对输入信号y所估计出的信号-噪声比,输入信号的总时间长度为T。D为输入信号频谱总共的频带个数。
Figure A20051010857500134
(t,d)代表利用特征参数遗失补偿方式在时间t及频带d所估计出的干净语音频谱特征参数。un(d)为利用特征参数遗失补偿方式在频带d所估计出的噪声频谱特征参数的平均值。SNRy为此输入信号的信号-噪声比的值。
信号为语音的机率估算
除了输入信号的信号-噪声比,本发明将输入信号y为语音的机率Py,当作第二个环境参数。测量出属于语音的机率越大,则代表此输入信号越容易被识别成功。
首先,信号为语音的机率估算器310b利用特征参数遗失补偿方式估计干净信号频谱参数x在时间t与频带d时,输入信号的信号-噪声比的值大于0的机率。
P ( SNR ( t , d ) > 0 ) = ∫ - ∞ x ( t , d ) / 2 1 2 π | σ ^ n ( d ) | e - ( ( ω - μ ^ n ( d ) ) 2 2 σ ^ n 2 ( d ) ) dω ,
其中,
Figure A20051010857500136
Figure A20051010857500137
分别为利用特征参数遗失补偿方式估计的噪声频谱分布的平均值与变异数,ω为噪声值。
之后,利用特征参数遗失补偿方式估计干净信号频谱在时间t测量属于语音的机率。
R ( t ) = 1 D · Σ d = 0 D - 1 P ( SNR ( t , d ) > 0 ) , t = 0 ~ T - 1 ,
其中,D为信号频谱的频带数,T为输入信号的时间长度。
最后,输入信号y为语音的机率计算方式如下:
P y = 1 / T Σ t = 0 T - 1 R ( t ) .
系统处理输入信号的可靠度估算
本发明测量系统处理输入信号的可靠度Ry,来当作第三个环境参数。当可靠度的值越大时,则代表输入信号越容易被识别成功。
首先,系统处理输入信号的可靠度估算器310c在频谱上测量输入信号y与已知系统模型分布x的差异度(divergence)D(y‖x),其公式如下:
D ( y | | x ) = ∫ [ p ( y ) - p ( x ) ] log ( p ( y ) p ( x ) ) dx ,
其中,p(y)代表信号y的频谱参数机率分布,p(x)为系统模型的频谱参数机率分布。差异度D(y‖x)越大,输入信号识别成功的机率越小。
之后,将此差异度D(y‖x)经由一个S型公式(sigmoid function)转换为0到1的可靠度参数Ry。
R y = 1 1 + exp ( - α ( D + β ) ) ,
其中,α与β分别为放大与偏移的微调参数。
估算出此三个环境参数SNRy、Py和Ry后,信号是否可识别判别器220在训练语言材料的环境参数经由事先训练后,接收输入信号的三个环境参数SNRy、Py和Ry,分析并将输出结果分为可识别成功与无法识别成功两类,如图4的信号是否可识别判别器的方框示意图所示。训练语言材料的环境参数的训练法则的例子如样本分类(pattern classification)方法中的多阶感知力(multi-layer perceptron,MLP)方式。
如前所述,当信号是否可识别判别器220判别输入信号无法成功识别后,便会触发策略响应处理器230,做出策略响应。策略响应有多种方式,图5所示为策略响应处理器的策略响应的一个范例。此范例中,先响应使用者无法成功识别输入信号,并依照估算出的环境参数告知使用者目前环境及信号质量状况,如标号501所示,引导使用者改善目前环境及信号质量。如:信号-噪声比过低时,如低于一门限值时,请使用者提高音量或更换较为安静的环境。或者系统处理输入信号的可靠度值太小时,如小于一门限值时,则提示使用者提高说话的清晰度等。接着提示使用者重新输入信号或者为其转至人工服务,如标号502所示。
在一个实验里,以936笔录制的干净语言材料,分别加入五种不同的信号-噪声比(0~20db)的人声噪声(babble noise),仿真噪声环境并产生六组测试集合共5616个测试信号。在噪声的干扰下,算出六组集合的识别率,如图6所示。在干净的环境下,识别率为94.2%。加入不同的人声噪声后,六组集合的测试信号的平均识别率下降为64.8%。
由此可见,系统识别率会随着信号-噪声比值下降而急速降低,而影响了整体识别率。加入本发明的检测输入语音信号可识别度的方法后,对每个测试信号求出环境参数后,送入信号是否可识别判别器,将判别无法识别成功的输入信号排除,而判别可识别成功的输入信号则直接进入系统识别。图7为无法识别成功和可识别成功的误差率的输出结果。
图7中,A为识别装置无法识别成功的语句数。B为加入本发明的方法后,对于A的误判(判别为可识别成功)句数。C为识别装置可以识别成功的语句数。D为加入本发明的方法后,对于C的误判(判别为无法识别成功)句数。而识别装置的平均识别率为,进入识别装置且识别正确的总语句数与应进入识别装置的总语句数的比值。也就是(C-D)/(C-D+B)=(3640-807)/(3640-807+453)=86.2%。
由此可见,在语音识别或对话系统的前级中,加入本发明所提出的方法,则在噪声环境的干扰下,确实能准确地判别信号是否可成功识别,并接收识别成功机率较高的输入信号,将识别装置的效能从原先64.8%提升至86.2%。甚且,排除了识别成功机率较低的输入信号,减少它所带来的影响。
综上所述,本发明提供一种检测输入语音信号可识别度的系统与方法。本发明是设计在语音识别或对话系统的前级中,检测使用者环境质量状况并且判别输入语音信号可否被系统识别成功。在本发明中,测量输入信号的信号噪声比、输入信号为语音的机率,和系统处理输入信号的可靠度等参数,来代表输入信号的质量状况。并根据上述参数训练出判别器,判别输入信号可否识别成功。若判别可识别成功,便将信号传送至一般的识别装置。若判别无法识别成功,便触发处理器来告知使用者目前环境状况,并提示使用者改善输入信号的质量。
然而以上所述仅为本发明的实施例而已,不能依此限定本发明实施的范围。即凡是在本发明权利要求书的范围所作的均等变化与修改,皆应仍属本发明权利要求书涵盖的范围内。

Claims (25)

1.一种检测输入语音信号可识别度的系统,设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的系统包含有:
环境参数求取器,对输入信号求取出至少一个环境参数;
信号是否可识别判别器,在训练语言材料的环境参数经由事先训练后,根据该环境参数,判别该输入信号是否可识别成功;以及
策略响应处理器;
其中,当该输入信号可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号不可识别成功时,该信号是否可识别判别器触发该策略响应处理器,由该策略响应处理器做出多种不同的策略响应。
2.如权利要求1所述的检测输入语音信号可识别度的系统,其中该环境参数代表该输入信号所在的环境状况或信号的质量。
3.如权利要求2所述的检测输入语音信号可识别度的系统,其中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
4.如权利要求3所述的检测输入语音信号可识别度的系统,其中该环境参数求取器包括信号-噪声比估算器、输入信号为语音的机率估算器和系统处理输入信号的可靠度估算器,以分别求取出该输入信号的信号-噪声比的值、该输入信号为语音的机率和该系统处理该输入信号的可靠度。
5.如权利要求1所述的检测输入语音信号可识别度的系统,其中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
6.如权利要求5所述的检测输入语音信号可识别度的系统,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
7.如权利要求5所述的检测输入语音信号可识别度的系统,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况,提供其相对应的改善方式。
8.如权利要求7所述的检测输入语音信号可识别度的系统,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
9.如权利要求8所述的检测输入语音信号可识别度的系统,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
10.如权利要求8所述的检测输入语音信号可识别度的系统,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
11.如权利要求8所述的检测输入语音信号可识别度的系统,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
12.一种检测输入语音信号可识别度的方法,是设计在语音识别或对话装置的前级中,该检测输入语音信号可识别度的方法包含下列步骤:
(a)对输入信号求取出至少一个环境参数,该环境参数代表该输入信号所在的环境状况或信号的质量;
(b)以训练语言材料的环境参数经由事先训练后,根据该输入信号的该环境参数,来判别该输入信号是否可识别成功;以及
(c)当该输入信号是可识别成功时,该输入信号被传送至该语音识别或对话装置,当该输入信号是不可识别成功时,则触发策略响应处理器,做出多种不同的策略响应。
13.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(a)中该环境参数选自该输入信号的信号-噪声比的值、该输入信号为语音的机率和系统处理该输入信号的可靠度的三者中的任意一种组合。
14.如权利要求12所述的检测输入语音信号可识别度的方法,其中该环境参数利用语音自动检测方式和特征参数遗失补偿方式来求取。
15.如权利要求12所述的检测输入语音信号可识别度的方法,其中该输入信号的信号-噪声比的值的求取包括下列步骤:
利用语音自动检测方式对输入信号的频谱特征参数检测出语音部分及非语音部分;
利用特征参数遗失补偿方式将该语音部分消除噪声而得到干净语音信号;以及
依据该非语音部分与该干净信号,计算出该输入信号的该信号-噪声比的值。
16.如权利要求12所述的检测输入语音信号可识别度的方法,其中该输入信号为语音的机率的求取包括下列步骤:
利用特征参数遗失补偿方式,估计该干净信号的频谱参数在时间t与频带d时,该输入信号的信号-噪声比的值大于0的机率;
利用特征参数遗失补偿方式,估计该干净信号频谱在该时间t量测属于语音的机率R(t);以及
计算出该R(t)在该输入信号的时间长度的平均值,作为该输入信号为语音的机率。
17.如权利要求12所述的检测输入语音信号可识别度的方法,其中该系统处理该输入信号的可靠度的求取包括下列步骤:
在频谱上测量该输入信号与已知系统模型分布的差异度;以及
将该差异度经由一个S型公式转换为0到1的可靠度参数。
18.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(b)中该训练语言材料的环境参数的训练法则利用一样本分类方法中的多阶感知力方式。
19.如权利要求12所述的检测输入语音信号可识别度的方法,其中该步骤(c)中该策略响应为依照该环境参数告知使用者目前环境或信号质量状况,并提供使用者相对应的解决方法。
20.如权利要求19项所述的检测输入语音信号可识别度的方法,其中该输入信号所在的环境或信号的质量状况包含输入信号的信号-噪声比的值、该输入信号为语音的机率、和系统处理该输入信号的可靠度。
21.如权利要求19所述的检测输入语音信号可识别度的方法,其中该提供使用者相对应的解决方法包含根据该输入信号所在的环境或信号质量状况提供其相对应的改善方式。
22.如权利要求21所述的检测输入语音信号可识别度的方法,其中该改善方式包含请使用者提高音量、更换较为安静的环境、提高说话的清晰度和放弃识别。
23.如权利要求20所述的检测输入语音信号可识别度的方法,其中当该信号-噪声比低于一个门限值时,则提示使用者提高音量、或者更换较为安静的环境,并且重新输入信号。
24.如权利要求20所述的检测输入语音信号可识别度的方法,其中当该系统处理该输入信号的可靠度值小于一个门限值时,则提示使用者提高说话的清晰度,并且重新输入信号。
25.如权利要求20所述的检测输入语音信号可识别度的方法,其中该放弃识别代表该信号不传送至该语音识别或对话装置或者转至一具有人工服务之处。
CN200510108575A 2005-10-12 2005-10-12 语音识别的前级检测系统与方法 Expired - Fee Related CN1949364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200510108575A CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200510108575A CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测系统与方法

Publications (2)

Publication Number Publication Date
CN1949364A true CN1949364A (zh) 2007-04-18
CN1949364B CN1949364B (zh) 2010-05-05

Family

ID=38018855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510108575A Expired - Fee Related CN1949364B (zh) 2005-10-12 2005-10-12 语音识别的前级检测系统与方法

Country Status (1)

Country Link
CN (1) CN1949364B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103594088A (zh) * 2013-11-11 2014-02-19 联想(北京)有限公司 一种信息处理方法和电子设备
CN104345649A (zh) * 2013-08-09 2015-02-11 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN104766462A (zh) * 2014-12-29 2015-07-08 深圳市欧润特科技有限公司 一种声波遥控系统以及声波遥控方法
CN105718019A (zh) * 2014-12-01 2016-06-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN107221341A (zh) * 2017-06-06 2017-09-29 北京云知声信息技术有限公司 一种语音测试方法及装置
CN108281140A (zh) * 2017-12-29 2018-07-13 潍坊歌尔电子有限公司 智能设备噪声消除性能的测试方法和系统
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
EP1378886A1 (en) * 2002-07-02 2004-01-07 Ubicall Communications en abrégé "UbiCall" S.A. Speech recognition device
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693722A (zh) * 2012-05-23 2012-09-26 Tcl集团股份有限公司 一种语音识别的方法、装置及数字电视
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
CN104345649A (zh) * 2013-08-09 2015-02-11 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104345649B (zh) * 2013-08-09 2017-08-04 晨星半导体股份有限公司 应用于声控装置的控制器与相关方法
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103594088A (zh) * 2013-11-11 2014-02-19 联想(北京)有限公司 一种信息处理方法和电子设备
CN105718019A (zh) * 2014-12-01 2016-06-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN104766462A (zh) * 2014-12-29 2015-07-08 深圳市欧润特科技有限公司 一种声波遥控系统以及声波遥控方法
CN107221341A (zh) * 2017-06-06 2017-09-29 北京云知声信息技术有限公司 一种语音测试方法及装置
CN108281140A (zh) * 2017-12-29 2018-07-13 潍坊歌尔电子有限公司 智能设备噪声消除性能的测试方法和系统
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置

Also Published As

Publication number Publication date
CN1949364B (zh) 2010-05-05

Similar Documents

Publication Publication Date Title
CN1949364A (zh) 检测输入语音信号可识别度的系统与方法
CN105448303B (zh) 语音信号的处理方法和装置
US7933771B2 (en) System and method for detecting the recognizability of input speech signals
US7957967B2 (en) Acoustic signal classification system
CN103578470B (zh) 一种电话录音数据的处理方法及系统
CN1228761C (zh) 用于经噪声补偿的话音识别的系统和方法
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
US20070129941A1 (en) Preprocessing system and method for reducing FRR in speaking recognition
CN1746973A (zh) 分布式语音识别系统和方法
CN1805008A (zh) 语音检测装置、自动图像拾取装置和语音检测方法
CN1302460C (zh) 语音编码中噪音鲁棒分类方法和装置
CN1679083A (zh) 不利环境中的多信道语音检测
CN1225736A (zh) 语音活动检测器
CN106992002A (zh) 用于改进含噪语音识别的动态声学模型切换
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN1675684A (zh) 具有后端声音活动检测的分布式语音识别设备和方法
CN109614881A (zh) 可自适应调节阈值的生物识别认证方法、设备及存储设备
CN1773605A (zh) 一种应用于语音识别系统的语音端点检测方法
CN1787073A (zh) 自动控制输入等级的语音识别系统及语音识别方法
CN1623186A (zh) 用于噪声环境的话音活动检测器和验证器
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
CN1628337A (zh) 语音识别方法及其装置
RU2408087C2 (ru) Система эмоциональной стабилизации речевых коммуникаций "эмос"
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100505

Termination date: 20201012

CF01 Termination of patent right due to non-payment of annual fee