CN1150490A - 优化隐藏的马尔科夫模型语音识别的方法、装置和无线电设备 - Google Patents
优化隐藏的马尔科夫模型语音识别的方法、装置和无线电设备 Download PDFInfo
- Publication number
- CN1150490A CN1150490A CN96190239A CN96190239A CN1150490A CN 1150490 A CN1150490 A CN 1150490A CN 96190239 A CN96190239 A CN 96190239A CN 96190239 A CN96190239 A CN 96190239A CN 1150490 A CN1150490 A CN 1150490A
- Authority
- CN
- China
- Prior art keywords
- score
- path
- current
- model
- maximum likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 87
- 239000013598 vector Substances 0.000 claims description 29
- 238000010606 normalization Methods 0.000 claims description 19
- 239000000203 mixture Substances 0.000 claims 3
- 238000012549 training Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Error Detection And Correction (AREA)
- Image Analysis (AREA)
- Transmitters (AREA)
Abstract
在基于统计的语音识别系统中,关键问题之一是选择与一个给定的特征观测值序列最佳匹配的隐藏马尔科夫模型。该问题一般是通过利用维特比或其他解码器进行最大似然(ML)、状态序列的计算来寻址的。噪声或不适当的训练可产生与隐藏马尔科夫模型而不是正确的模型相关联的ML序列。本发明的方法通过将标准ML状态序列得分(416)与从作为时间函数的ML得分的动态特性中获得的一个附加路径得分(418)相组合提供了改进的耐久性。当组合时,所述的两个得分形成了一个混合量度(420),当由该解码器使用时,该量度优化正确隐藏马尔科夫模型的选择。
Description
本发明涉及语音识别,特别涉及利用隐藏的马尔科夫模型的语音识别。
隐藏的马尔科夫模型(HMM)语音识别系统确定哪个先前被训练的、存储的模型与一串表征一个给定输入语音语调的输入特征观测值最相匹配。
现有技术的HMM语音识别系统在一个特定时刻根据最佳状态序列在最大似然意义上选择一个模型。噪声或不适当的训练可产生与除所选的正确模型之外的模型相关的最大似然状态序列。
据此,现在需要一种用于HMM语音识别的方法、装置和无线电设备,在存在噪声或不适当的训练时,它们尤其可使模型选择优化。
图1是根据本发明用于优化HMM语音识别的方法的一个实施例的步骤的流程图。
图2是根据本发明用于计算多个当前路径得分的方法的一个实施例的步骤的流程图。
图3是根据本发明用于计算多个当前混合得分的方法的一个实施例的步骤的流程图。
图4是根据本发明用于优化HMM语音识别的装置的一个实施例的框图。
图5是在根据本发明用于优化HMM语音识别的装置中一个路径得分确定器的一个实施例的框图。
图6是在根据本发明用于优化HMM语音识别的装置中一个混合得分确定器的一个实施例的框图。
图7是包括根据本发明用于优化HMM语音识别的装置的无线电设备的一个实施例的图示描述。
图8是一组HMM词模型的规一化最大似然得分的几个例子相对于时间的曲线描述。
图9是一个例子的话音信号的幅度波形相对于时间的图形描述,该图形描述与图8的得分曲线相关。
图10是与图8所述的相同的一组HMM模型的路径得分相对于时间的曲线描述。
图11是与图8所述的相同的一组HMM模型的最大似然路径(ML-PATH)得分相对于时间的曲线描述。
总的来说,本发明提供一种HMM语音识别的方法、装置和无线电设备,在存在噪声或不适当的训练时,它们尤其可使模型选择优化。利用ML-PATH量度的优点在于语音识别器的整个性能改进大大超过利用标准ML量度获得的性能,特别是在噪声情况下。在描述本发明的实施例之前,将对本发明的原理进行说明。
HMM语音识别系统的本质是确定哪个事先被训练的、存储的模型与表征一个给定输入语音语调的该串输入特征观测值最相匹配。在确定给定的特征观测值序列的正确HMM模型中使用的最普通方法是选择具有最大概率似然ML的模型,如式1所示:Mbest=MAX{(k∈Kmodel]prob(Mk|Ot)},t=0,1,2,K,Tmax (1)Mk是K个HMM模型中的第K个,Ot是语音特征观测值串。通过利用Bayes定理,该式可被表示为式2:prob(Mk|Ot)=prob(Ot|Mk)prob(Mk)/prob(Ot) (2)式中,prob(Ot|Mk)是发生在时间t给定模型Mk的观测值Ot的概率,对于一给定观测值序列,Mk可容易地并直接地通过维特比解码器,前向搜索算法,或在基于HMM语音识别装置中通常使用的其他搜索算法确定。所述基于HMM语音识别装置在下列文章中进行了描述:″A Tutorial on HiddenMarkov Models and Selected Applications in Speech Recognition″,Rabiner,L.R.,IEEE proceedings,Vol.77,No.2,1989年2月,第257-285页;“The Viterbi Algorithm”,Forney,C.D.,IEEE Proceedings,Vol.61,第268-278页,1973年3月;和″A one-Pass algorithm for connected wordrecognition″,Bridle,J.S.,Brown,R.M.,和Chamberlain,R.M.,ICASSP‘82,第899-902页,法国巴黎,1982年5月。HMM模型Mk是由一组转移概率和观测值概率定义的N个独立状态构成的第一阶马尔科夫链。通过维特比或其他类型的解码器实现的MAX{prob(Mk|Ot)}的判决实际是通过给定一组输入观测值的每个HMM模型实现的最佳ML状态序列的判决。在模型训练期间,对模型参数进行优化,以产生给定已知训练数据的最佳状态序列,而不是产生最佳中间模型(inter-model)鉴别。,该ML″最佳″模型判决总是在观测值序列中特定的时刻执行,或当该最后模型状态已被占据了一个预定时间量时执行。噪声或不适当的训练可产生与除所选的″正确″模型之外的模型(即与对话输入相对应的模型)相关的最大似然状态序列。这正是本发明所要缓解的问题。
这里所描述的本发明是以计算机硬件实施的一种方法,所述计算机硬件提供了为给定语音特征观测值序列选择″正确″HMM模型的优化手段。标准的最大似然ML与状态序列得分(ML得分)相组合,以及与被称作路径得分(PATH score)的一个附加得分相组合,该所述路径得分从描述作为时间函数的ML得分的动态特性(即它的得分路径)的信息中导出。该附加路径得分从HMM解码算法获得,并以形成混合量度(这里称作ML-PATH量度)的全新方式与ML得分信息相结合,用于选取正确的HMM模型。
使用ML-PATH量度的一个优点是语音识别器的整个精度改进大大超过只利用标准ML量度获得的精度,特别是在噪声情况下。通过多次实验本发明人已对此得到了验证。本发明利用了在通常的识别器搜索算法的最大似然(ML)计算中已经确定的信息获取新的信息,即PATH得分,和以全新的方式将两个PATH得分组合以获取新的量度,即ML-PATH量度,它更精确地为给定对话输入语调确定正确的HMM。
图1以标号100示出根据本发明用于优化HMM语音识别的方法的一个实施例的步骤的流程图。第一步(步骤102)是在一个存储单元中存储多个预定隐藏马尔科夫模型。语音音调被分成与帧特征矢量相对应的多个帧。第二步(步骤104)是在帧特征矢量的解码器中确定多个当前最大似然得分,其中每一个得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应。典型地,通过一个维特比解码器计算最大似然得分。第三步(步骤106)是在帧特征矢量的解码器中计算多个当前路径得分,每个当前路径得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中路径得分确定作为时间函数的最大似然得分中的变量的量。第四步(步骤108)是在帧特征矢量的解码器中计算多个当前混合得分,每个当前混合得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中每个混合得分是最大似然得分与每个模型的路径得分的组合。第五步(步骤110)是确定是否所有的帧特征矢量已被处理和重复第二、第三和第四步。最后的步骤(步骤112)是选择具有最低或最佳当前混合得分的一个隐藏马尔科夫模型。
图2以标号106示出根据本发明用于计算多个当前路径得分的方法的一个实施例的步骤的流程图。第一,在步骤202计算当前最大似然得分与紧前一个最大似然得分之间的差。第二,在步骤204将该差的平方加到先前路径得分中,以提供一个当前路径得分。在步骤206,对每个隐藏马尔科夫模型重复第一(步骤202)和第二(步骤204)步骤,以提供多个当前路径得分。在步骤208,当动态范围被限制时,需要进行归一化。归一化之后,从多个当前路经得分中选择一个最小路径得分,和在步骤210通过从每个当前路径得分中减去该最小或最佳路径得分对多个当前路径得分归一化。
图3以标号108示出根据本发明用于计算多个当前混合得分的方法的一个实施例的步骤的流程图。首先,在步骤302,用一个当前最大似然得分乘以一当前路径得分,产生一个积。然后,在步骤304,该积的平方被加到一个先前混合得分上,以产生一个当前混合得分。在步骤306,对每个隐藏马尔科夫模型重复步骤302和304,以提供多个当前混合得分。
图4以标号400示出根据本发明用于优化HMM语音识别的装置的一个实施例的框图。该装置包括一个存储单元402、一个解码器404、一个路径得分确定器406、一个混合得分确定器408、和一个模型选择器410。
存储单元402接收和存储多个预定隐藏马尔科夫模型412。解码器404接收多个帧特征矢量414,和为每个帧特征矢量确定多个当前最大似然得分416,其中每个得分都与存储在存储单元402中的多个预定隐藏马尔科夫模型412中一个不同隐藏马尔科夫模型相对应。路径得分确定器406从解码器404接收多个当前最大似然得分416,和为每个帧特征矢量计算多个当前路径得分418,每个当前路径得分与多个预定隐藏马尔科夫模型412中一个不同隐藏马尔科夫模型相对应。路径得分确定作为时间函数的最大似然得分中的变量的量。混合得分确定器408从路径得分确定器406接收该多个当前路径得分418,和从解码器404接收多个当前最大似然得分416。然后,混合得分确定器408为每个帧特征矢量计算多个当前混合得分420,每个当前混合得分与多个预定隐藏马尔科夫模型412中一个不同隐藏马尔科夫模型相对应。每个混合得分是最大似然得分与每个模型的路径得分的组合。模型选择器410选择与在多个当前混合得分420中一个最低(最佳)当前混合得分相对应的一个隐藏马尔科夫模型。
图5以标号406示出根据本发明用于优化HMM语音识别的装置中一个路径得分确定器的一个实施例的框图。路径得分确定器406由多个路径分支电路构成。每个路径分支电路包括一个减法电路504、一个求平方电路506、一个求和电路508和一个规一化电路528。
减法电路504计算当前最大似然得分416与紧前一个最大似然得分511之间的差514。减法电路504可以包括用于保持该当前最大似然得分416的第一延迟单元510,以将该紧前一个最大似然得分511提供给用于计算差514的一个减法器512。
求平方电路506接收该差514并通过输入该差514提供一个平方差给乘法器518的两个输入端。
求和电路508接收该平方差516和利用一个加法器520将该平方差516与一个先前路径得分相加,以提供一个当前路径得分522。该求和电路508可以包括用于保持该当前路径得分522的第二延迟单元526,以提供所述先前路径得分524。
规一化电路528通过从每个当前路径得分522中减去一个最小路径得分提供多个规一化的路径得分530。
图6以标号408示出在根据本发明用于优化HMM语音识别的装置中一个混合得分确定器的一个实施例的框图。混合得分确定器408包括多个混合分支电路602,每个隐藏马尔科夫模型都有一个混合分支电路。混合分支电路602)由乘法器604、求平方电路606和求合电路608组成。
乘法器604用当前最大似然得分416乘以来自路径确定器406的当前路径得分418,以产生一个积610。
求平方电路606接收该积610并通过将该积610输入到乘法器614的两个输入端提供一个平方积612。
求和电路608接收平方积612并使用一个加法器616将该平方积612与一个先前混合得分618相加,产生一个当前混合得分620。求和电路618可以包括用于保持该当前混合得分620的一个延迟单元622,以提供所述先前混合得分618。
图7以标号700示出根据本发明包括用于优化隐藏马尔科夫模型语音识别的装置(704)的一个无线电设备(702)的一个实施例的图示描述。所述装置在图4中进行了描述。
图8以标号800示出一组HMM词模型的规一化最大似然得分ML的几个例子相对于时间的曲线图。这些例子是相对于时间804直到时间Tmax806的规一化最大似然得分(802)的曲线。Tmax(806)是被处理的最后帧的时间。11个曲线808、810、814、816、818、820、822、824、826和828代表11个数字模型″0″至″9″和″oh″。各曲线说明这样的事实,即选择具有最佳ML得分的模型导致了输入词的误识别。
图9以标号900示出一个例子的话音信号的幅度波形相对于时间的图形描述,该图形描述与图8的得分曲线相关。这是词″零″808的波形。波形908相对于时间904直到时间Tmax906的幅度902绘制。
图10以标号1000示出涉及图8中相同的一组HMM模型的路径得分的曲线描述。用下述设定的等式3确定各路径得分。各曲线示出了相对于时间1004直到时间1006的规一化最大似然得分1002。11个曲线1008、1010、1012、1014、1016、1018、1020、1022、1024、1026和1028代表数字模型″0″至″9″和″oh″。
图11以标号1100示出涉及图8中相同的一组HMM模型的最大似然路径(ML-PATH)得分的曲线描述。用下述设定的等式4确定ML-PATH路径得分。各曲线示出了相对于时间1104直到时间1106的规一化最大似然得分1102。11个曲线(1108、1110、1112、1114、1116、1118、1120、1122、1124、1126和1128代表11个数字模型″0″至″9″和″0h″。图11表明当标准ML量度不能识别正确的HMM模型时,ML-PATH量度能被用来识别正确的HMM模型。
HMM模型的ML得分对于时间的曲线这里被称作″得分路径″或″路径″,它们的例子在图8中示出。在一个特定判决时间选择具有最佳ML得分的模型不能保证与谈话输入正确一致。由″正确″的ML得分对时间的曲线描述的″得分路径″函数即相应于谈话输入HMM模型通常表明与″最佳″路径的总偏差小于″不正确″模型的得分路径。图8中,″最佳″路径是从观测时间0到时间Tmax(806)的一条直水平线,表示对于每个输入观测值,一个给定模型是最佳ML选择。所有其他得分路径必定更长。因为考虑声音观测值的底层模型处理不能确切地说明即是″隐藏的″,所以对于真实语音来说,″最佳″路径总能被实现是绝对不可能的。然而,与所有其他模型相比,″正确″的HHM模型更接近于″最佳″得分路径。这样,对于大多数输入观测值来说,该″正确″的模型是ML选择,并且具有从时间0至时间Tmax(806)的最短总得分路径。这里,″最短″是指与该得分路径的实际长度相关的函数。在选择最佳模型中,对于在短时期使″正确″的模型不太可能的声音事件观测序列不给予不适当的加权。ML-PATH量度是在某一观测时刻t以这样的方式为绝对HMM ML得分加权的新颖的探索性方法:ML得分过去所有性能即″最佳平均″在整个最佳模型选择期间都有影响。
图8显示了作为由一个典型HMM识别器确定的11个HMM数字模型的每一个模型的时间函数的规一化的最大似然累加对数概率得分。这些数字模型是词″0″至″9″和″oh″。通过一个HMM基于词的语音识别系统产生各ML得分。每个隐藏马尔科夫模型由多个状态组成。每个状态可通过转移概率和多个语音特征观测概率表示。在一个典型的识别器中,这些可以是倒频谱(cepstral)特征、增置倒频谱(δ-cepstral)特征和基于能量特征。在使用中,本发明并不受使用它识别器的各特定特征的限制。各模型概率典型地以对数的形式存储。在一个典型的维特比型解码器中,当新的语音观测特征产生时,以使每个HMM的总的累加概率最大的方式对各观测和转移的对数概率求和。在每个时间片刻,典型地为10-20毫秒的间隔,用任何模型的″最佳″即最正得分使累加的对数概率规一化,以便在任何时刻的规一化″最佳″ML总体得分为图8中得分曲线的最大坐标值0.0。各模型得分不太可能是负的。在图8中所示的示例中,到达识别器的输入词是″0″,它们的时间排列波形显示在图9中。在该例子中,识别器选择词″9″而不是″0″,因为″9″的模型是仅根据最大似然准则在最后时刻(图上的时间Tmax)的最佳ML选择。这是由位于最后时间片刻Tmax具有对数概率值为0.0的模型9(826)的路径在该得分路径曲线中指示。然而,正确词模型的模型0(808)的得分路径表明,对于波形持续期的大部分期间″0″是最大似然选择,仅在该词的末尾偏离开″最大似然″。如前所述,该问题的出现是由于在多数HMM识别系统中,对各模型训练和解码,以返回到给出一组输入特征观测值的″最佳″状态序列,但不是最佳模型。由于噪声、人为原因、或不适当模型参数训练,最大似然状态序列不可能总与″正确″模型相对应,尤其是当识别器测试环境与训练环境不同时。
″最佳平均″ML得分的一种定量表现形式是每个模型从时间0到时间Tmax的ML得分路径″长度″。另外,″长度″涉及该ML得分路径值的函数并且不必是一个几何距离。在ML的意义上按平均来说不太可能的HMM模型将具有比最有可能的模型″更长″的路径。在理想情况下,当在每个时间片刻该″正确″模型为最大似然选择时,则实现最短路径。通过对横跨每个时间周期的各最大似然得分的差求和获得得分路径″长度″(这里被称作″路径″得分)的量度,如等式3所描述。 其中
是模型k在时间t的最佳ML得分路径长度的量度,而是模型k在时间步长t的最佳规一化对数概率得分。在本优选实施例中,在求和前对得分差求平方,即n=2。这具有使大的差不利影响超过小的差,并已在实验上表明会产生更好的结果。然而,其他路径函数是可能的,诸如ML得分差的绝对值。此外,在该优选实施例中,所有模型的路径得分在每个瞬间都被该路径得分的最佳得分规一化,以便将数字保持在计算装置的数字区域内,因为仅有相关得分是必要的。利用等式3计算的路径得分的图示被显示在图10中。在这种情况下,与图8中的ML得分相反,模型0(1008)在时间Tmax(1006)具有最低或最佳得分并与谈话输入词″0″准确地相对应。
有许多组合PATH和ML得分以构成这里所描述的ML-PATH混合量度发明的方法。在该优选实施例中,通过等式4以数学形式描述了该ML-PATH量度。 这里kbest是具有最佳ML-PATH得分的模型的索引,sk t+1是模型k在时间t的最佳ML概率得分,lt是相对得分路径″长度″,即由等式3获得的模型k在时间t的路径得分。于是根据模型的相对ML-PATH得分,即最低得分而不是仅根据ML得分作出识别判决。应该注意,还存在着其他组合PATH和ML得分以构成ML-PATH量度的数学方法。这些替换方法中的一些可以减轻所涉及的计算。例如,等式4中的
可用该积的绝对值代替,对该量度的性能影响不大。本例的ML-PATH得分在图11中示出。此外,模型0(1108)具有最低或最佳得分并被选择作为能很好表示谈话输入词的模型。
虽然以上对典型的实施例进行了描述,但是,对本领域的技术人员来说,可以做出各种替换和改进而不脱离本发明是显而易见的。因此,所有这些替换和改进都被包括在所附权利要求限定的本发明的精神和范围内。
Claims (10)
1.一种优化输入语音信号的隐藏马尔科夫模型识别的方法,所述输入语音信号与多个帧特征矢量相对应,其特征在于,该方法包括以下步骤:
1A)在存储单元中存储多个预定的隐藏马尔科夫模型;
1B)在帧特征矢量的解码器中确定多个当前最大似然得分,其中每一个得分都与该多个预定的隐藏马尔科夫模型中的一个不同隐藏马尔科夫模型相对应;
1C)在帧特征矢量的解码器中计算多个当前路径得分,每个当前路径得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中路径得分确定作为时间函数的最大似然得分中的变量的量;
1D)在帧特征矢量的解码器中计算多个当前混合得分,每个当前混合得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中每个混合得分是最大似然得分与每个模型的路径得分的组合;
1E)重复步骤1B至1D直到所有帧特征矢量已处理为止;和
1F)选择一个具有最低当前混合得分的隐藏马尔科夫模型。
2.根据权利要求1的方法,其特征在于,所述多个当前最大似然得分由一个维特比解码器确定。
3.根据权利要求1的方法,其特征在于,步骤1C还包括以下步骤:
对于一个隐藏马尔科夫模型:
3A)计算一个当前最大似然得分与紧前一个最大似然得分之间的差;
3B)将该差的平方加到一个先前路径得分中,以提供一个当前路径得分;
3C)对每个隐藏马尔科夫模型重复步骤3A和3B,以提供多个当前路径得分。
4.根据权利要求3的方法,其特征在于,该方法还包括以下步骤:
4A)从多个当前路经得分中选择一最小路径得分;和
4B)通过从每个当前路径得分中减去该最小路径得分对该多个当前路径得分规一化。
5.根据权利要求1的方法,其特征在于, 步骤1D还包括:
对于一个隐藏马尔科夫模型:
5A)用一个当前最大似然得分乘以一个当前路径得分,产生一个积;
5B)将该积的平方加到一个先前混合得分上,以产生一个当前混合得分;和
5C)对每个隐藏马尔科夫模型重复步骤5A和5B,以提供多个当前混合得分。
6.一种优化输入语音信号的隐藏马尔科夫模型识别的装置,所述输入语音信号与多个帧特征矢量相对应,其特征在于,该装置包括:
A)一个可操作连接,以接收多个预定的隐藏马尔科夫模型的存储单元;
B)可操作连接以接收多个帧特征矢量和与该存储单元可操作连接的一个解码器,用于为每个帧特征矢量确定多个当前最大似然得分,其中每一个得分都与该多个预定的隐藏马尔科夫模型中的一个不同隐藏马尔科夫模型相对应;
C)与该解码器可操作连接的一个路径得分确定器,用于为每个帧特征矢量计算多个当前路径得分,每个当前路径得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中路径得分确定作为时间函数的最大似然得分中的变量的量;
D)与该路径得分确定器和解码器可操作连接的一个混合得分确定器,用于为每个帧特征矢量计算多个当前混合得分,每个当前混合得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中每个混合得分是最大似然得分与每个模型的路径得分的组合;
E)与该混合得分确定器可操作连接的一个模型选择器,用于为多个帧特征矢量选择一个具有最低当前混合得分的隐藏马尔科夫模型。
7.根据权利要求6的装置,其特征在于,该解码器是一个维特比解码器。
8.根据权利要求6的装置,其特征在于,该路径得分确定器包括多个路径子电路,每个隐藏马尔科夫模型应用一个子电路,其中路径子电路包含:
A)一个减法电路与该解码器可操作连接,用于计算当前最大似然得分与紧前一个最大似然得分之间的差;
B)一个求平方电路与该减法电路可操作连接,用于计算平方差;和
C)一个求和电路与该求平方电路可操作连接,用于将该平方差加到一个先前路径得分中,以提供一个当前路径得分;
和当被进一步选择时,
D)其中所述装置还包括一个规一化电路,与多个路径子电路可操作连接,用于通过从每个当前路径得分中减去该最小路径得分对该多个当前路径得分规一化。
9.根据权利要求6的装置,其特征在于,该混合得分确定器包括多个混合子电路,每个隐藏马尔科夫模型一个子电路,其中一个混合子电路包括:
A)与该解码器和路径得分确定器可操作连接的一个乘法器,利用一个当前最大似然得分乘以一个当前路径得分,产生一个积;和
B)与乘法器可操作连接的一个求平方电路,用于提供一个平方积;和
C)与该求平方电路可操作连接的一个求和电路,用于将该平方积加到一个先前混合得分中,以提供一个当前混合得分。
10.一种包括优化输入语音信号的隐藏马尔科夫模型识别的装置的无线电设备,所述输入语音信号与多个帧特征矢量相对应,其特征在于,所述装置包括:
A)一个存储单元可操作连接,以接收多个预定的隐藏马尔科夫模型;
B)一个解码器可操作连接以接收多个帧特征矢量和与该存储单元可操作连接,用于为每个帧特征矢量确定多个当前最大似然得分,其中每一个得分都与该多个预定的隐藏马尔科夫模型中的一个不同隐藏马尔科夫模型相对应;
C)一个路径得分确定器,与该解码器可操作连接,用于为每个帧特征矢量计算多个当前路径得分,每个当前路径得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中路径得分确定作为时间函数的最大似然得分中的变量的量;
D)一个混合得分确定器,与该路径得分确定器可操作连接,用于为每个帧特征矢量计算多个当前混合得分,每个当前混合得分与多个预定隐藏马尔科夫模型中一个不同隐藏马尔科夫模型相对应,其中每个混合得分是最大似然得分与每个模型的路径得分的组合;
E)一个模型选择器,与该混合得分确定器可操作连接,用于为多个帧特征矢量选择一个具有最低当前混合得分的隐藏马尔科夫模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/413,146 | 1995-03-29 | ||
US08/413,146 US5617509A (en) | 1995-03-29 | 1995-03-29 | Method, apparatus, and radio optimizing Hidden Markov Model speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1150490A true CN1150490A (zh) | 1997-05-21 |
Family
ID=23636036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN96190239A Pending CN1150490A (zh) | 1995-03-29 | 1996-01-29 | 优化隐藏的马尔科夫模型语音识别的方法、装置和无线电设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5617509A (zh) |
EP (1) | EP0764319A4 (zh) |
CN (1) | CN1150490A (zh) |
AU (1) | AU681058B2 (zh) |
CA (1) | CA2189249C (zh) |
WO (1) | WO1996030895A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002029612A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition |
CN100587807C (zh) * | 1999-01-27 | 2010-02-03 | 编码技术股份公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
WO2016090557A1 (zh) * | 2014-12-09 | 2016-06-16 | 华为技术有限公司 | 一种检测发送序列的方法、接收机和接收设备 |
CN105830058A (zh) * | 2013-12-16 | 2016-08-03 | 三菱电机株式会社 | 对话管理器 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5778341A (en) * | 1996-01-26 | 1998-07-07 | Lucent Technologies Inc. | Method of speech recognition using decoded state sequences having constrained state likelihoods |
US5970446A (en) | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US7110947B2 (en) * | 1999-12-10 | 2006-09-19 | At&T Corp. | Frame erasure concealment technique for a bitstream-based feature extractor |
US6662158B1 (en) * | 2000-04-27 | 2003-12-09 | Microsoft Corporation | Temporal pattern recognition method and apparatus utilizing segment and frame-based models |
US6629073B1 (en) | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
US20030187813A1 (en) * | 2002-03-26 | 2003-10-02 | Goldman Neal D. | System and method for identifying relationship paths to a target entity |
US7366666B2 (en) * | 2003-10-01 | 2008-04-29 | International Business Machines Corporation | Relative delta computations for determining the meaning of language inputs |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
FI20086260A (fi) | 2008-12-31 | 2010-09-02 | Teknillinen Korkeakoulu | Menetelmä hahmon löytämiseksi ja tunnistamiseksi |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US9177549B2 (en) * | 2013-11-01 | 2015-11-03 | Google Inc. | Method and system for cross-lingual voice conversion |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
-
1995
- 1995-03-29 US US08/413,146 patent/US5617509A/en not_active Expired - Fee Related
-
1996
- 1996-01-29 AU AU53531/96A patent/AU681058B2/en not_active Ceased
- 1996-01-29 WO PCT/US1996/000968 patent/WO1996030895A1/en not_active Application Discontinuation
- 1996-01-29 CN CN96190239A patent/CN1150490A/zh active Pending
- 1996-01-29 EP EP96910297A patent/EP0764319A4/en not_active Withdrawn
- 1996-01-29 CA CA002189249A patent/CA2189249C/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100587807C (zh) * | 1999-01-27 | 2010-02-03 | 编码技术股份公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
CN101625866B (zh) * | 1999-01-27 | 2012-12-26 | 杜比国际公司 | 增强信源解码器的设备和增强信源解码方法的方法 |
WO2002029612A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Method and system for generating and searching an optimal maximum likelihood decision tree for hidden markov model (hmm) based speech recognition |
CN105830058A (zh) * | 2013-12-16 | 2016-08-03 | 三菱电机株式会社 | 对话管理器 |
CN105830058B (zh) * | 2013-12-16 | 2019-11-22 | 三菱电机株式会社 | 对话管理器 |
WO2016090557A1 (zh) * | 2014-12-09 | 2016-06-16 | 华为技术有限公司 | 一种检测发送序列的方法、接收机和接收设备 |
US10320523B2 (en) | 2014-12-09 | 2019-06-11 | Huawei Technologies Co., Ltd. | Method for detecting sent sequence, receiver, and receiving device |
Also Published As
Publication number | Publication date |
---|---|
US5617509A (en) | 1997-04-01 |
WO1996030895A1 (en) | 1996-10-03 |
CA2189249C (en) | 2001-04-10 |
CA2189249A1 (en) | 1996-10-03 |
AU681058B2 (en) | 1997-08-14 |
EP0764319A4 (en) | 1998-12-30 |
AU5353196A (en) | 1996-10-16 |
EP0764319A1 (en) | 1997-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1150490A (zh) | 优化隐藏的马尔科夫模型语音识别的方法、装置和无线电设备 | |
EP0715298B1 (en) | Reduction of search space in speech recognition using phone boundaries and phone ranking | |
US5268990A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
EP0453649B1 (en) | Method and apparatus for modeling words with composite Markov models | |
US5963903A (en) | Method and system for dynamically adjusted training for speech recognition | |
US5195167A (en) | Apparatus and method of grouping utterances of a phoneme into context-dependent categories based on sound-similarity for automatic speech recognition | |
Siu et al. | Improved estimation, evaluation and applications of confidence measures for speech recognition. | |
EP0763816A2 (en) | Discriminative utterance verification for connected digits recognition | |
CN102129860A (zh) | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 | |
CN1391211A (zh) | 对识别系统中的参数进行训练的方法和系统 | |
EP0645755A1 (en) | Speech coding apparatus and method using classification rules | |
Eisele et al. | A comparative study of linear feature transformation techniques for automatic speech recognition | |
Rodríguez et al. | Comparative study of the baum-welch and viterbi training algorithms applied to read and spontaneous speech recognition | |
CN1198261C (zh) | 基于决策树的语音辨别方法 | |
JP2531227B2 (ja) | 音声認識装置 | |
CN1342969A (zh) | 用于识别语音的方法 | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
EP0802523A2 (en) | Standard pattern production system employing information criterion | |
Sarma | A segment-based speaker verification system using SUMMIT | |
Burget | Measurement of complementarity of recognition systems | |
Levit et al. | Context-sensitive evaluation and correction of phone recognition output. | |
Park et al. | Automatic speech segmentation with multiple statistical models. | |
Hu et al. | A neural network based nonlinear feature transformation for speech recognition. | |
Serridge | Context-dependent modeling in a segment-based speech recognition system | |
Zhang et al. | Confidence measure (CM) estimation for large vocabulary speaker-independent continuous speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |