CN1150515C - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN1150515C
CN1150515C CNB961923768A CN96192376A CN1150515C CN 1150515 C CN1150515 C CN 1150515C CN B961923768 A CNB961923768 A CN B961923768A CN 96192376 A CN96192376 A CN 96192376A CN 1150515 C CN1150515 C CN 1150515C
Authority
CN
China
Prior art keywords
node
sequence
pronunciation
weighting factor
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB961923768A
Other languages
English (en)
Other versions
CN1178023A (zh
Inventor
F��J��˹��ϣ��
F·J·斯卡希尔
A·D·西蒙
S·J·怀塔克尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1178023A publication Critical patent/CN1178023A/zh
Application granted granted Critical
Publication of CN1150515C publication Critical patent/CN1150515C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Computer And Data Communications (AREA)
  • Feedback Control In General (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Image Analysis (AREA)

Abstract

提供一种语音识别装置,它具有一个先验概率值,该概率值表示识别装置的词库中的各个单词出现在特定上下文的似然率,并且在选择一个结果之前利用这些值对识别评分进行加权。该识别装置还采用“删除”步骤,由此放弃低评分的部分结果,从而加速识别程序。为了避免过早地删除更相似的单词,在作出删除决定之前给出概率值。该申请中介绍了应用这些概率值的方法。

Description

语音识别方法和装置
技术领域
本申请所说的语音识别应用于下述场合,为了确定输入语音信号中哪一个词汇(或者,更一般地说,就是发音)最明显地相似,并按照与该词汇相关的一个先验概率获得有关信息而进行语音识别处理。
背景技术
这种场合的一个实例是在我们申请的国际专利申请No.95/02524中所述的自动电话簿查询系统。在该系统中,
(i)使用者说出一个城镇的名称;
(ii)一个语音识别装置按照存储的城镇数据确定与所说的城镇名称最符合的几个城镇,并产生表示符合接近程度的“评分”或概率;
(iii)对于所确定的城镇列出所有街道名称;
(iv)使用者说出街道的名称;
(v)语音识别装置从街道列表中识别几个与所说的街道名称最符合的街道名称,并且也给出评分;
(vi)对每个街道评分根据该街道所在城镇得到的评分进行加权处理,最相近的“街道”被认为是具有最佳加权评分的街道。
先验概率并不必须从先前的语音识别过程中产生;例如在上述专利申请中所述的另一种电话簿查询系统利用识别调取统计信息地点的信号,按照该地区的一个查询者所查询的最符合的城镇对城镇名称识别的结果进行加权处理。
这种方法具有可靠的优点,例如除非在街道名称识别步骤中次选城镇中的街道名称评分明显高于首选城镇,一般保持对次选城镇不进行街道选择的状态。但是这种方法的缺点是由于在进行街道名称识别步骤时识别装置仅仅产生有限数目的候选街道名称,很可能这个短的街道名称列表只包含位于具有较低评分的城镇中的街道名称,即,位于具有较高评分的城镇中的具有较低评分的街道名称在能够进行加权处理之前已经被识别装置“删除”。
美国专利US-4783803中介绍了一种语音识别装置,在该装置中,先验概率与先前已经识别过的一个或多个模式的给定语境有关。表示某一单词出现在另一单词前后的概率的语言评分与从包含这些单词的一个序列中得到的评分相结合。然而这种语音识别装置的识别过程比较复杂。
发明内容
根据本发明的一个方面,提供一种语音识别方法,包括以下步骤:存储语音基准发音的基准模型;存储用来限定语音识别网络中多个节点的节点数据,并对每个节点包括:用来指示各个与每个节点相关的基准模型的基准模型地址信息;用来指示由节点序列表示的语音基准发音中许可序列的节点链路信息;以及用来限定要加到每个节点上的预定加权因子的加权信息;接收一个未知的语音发音并将该语音发音分成各部分;依照语音基准发音的许可序列所限定的次序,重复比较语音发音的各部分与语音基准发音的基准模型,以便根据各比较产生语音发音的各部分与基准模型相似性的测量值;每个许可序列中逐个节点传送累计的相似性测量值,以便给每个序列累加所产生的相似性测量值;并且在语音基准发音的各许可序列中每个节点上,用该节点的加权信息所限定的加权因子加权所累计的相似性测量值,其中,把加权后的累计相似性测量值从各节点往前传送;其特征在于,根据节点形成其中一部分的语音基准发音中各许可序列出现的先验概率计算各节点的加权因子,其中,每个许可序列中最终节点外的任何特定节点的加权因子是跟随语音基准发音的各许可序列中的所述节点的那些节点的加权因子的函数,所述许可序列中的所述节点形成由语音识别网络内各先前节点的加权因子修正的一部分,而且各许可序列中最终节点的加权因子是由语音识别网络内先前节点的加权因子修正的语音基准发音的许可序列出现的先验概率的函数。
可取的是,对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较。这种删除可以根据所产生的、仍需反复比较的测量值的数目进行,以便保持这个数目恒定。
根据本发明的另一方面,提供一种语音识别装置,包括:用来存储语音基准发音的基准模型的装置;用来存储限定语音识别网络中多个节点的节点数据的装置,该装置并对每个节点包括:用来指示各个跟每个节点相关的基准模型的基准模型地址信息;用来指示由节点序列表示的语音基准发音中许可序列的节点链路信息;以及限定要加到每个节点上的预定加权因子的加权信息;语音接收装置,用来接收一个未知的语音发音并将该语音发音分成各部分;模型比较装置,用于依照语音基准发音的许可序列所限定的次序,重复比较语音发音的各部分与语音基准发音的基准模型,以便根据各比较产生语音发音的各部分与基准模型在相似性方面的测量值;测量值传送装置,用于每个许可序列中逐个节点传送累计的相似性测量值,以便给每个序列累加所产生的相似性测量值;其特征在于还包括加权装置,用于在语音基准发音的各许可序列中每个节点上,用该节点的加权信息所限定的加权因子加权所累计的相似性测量值,其中,把加权后的累计相似性测量值从各节点往前传送;根据节点形成其中一部分的语音基准发音中各许可序列出现的先验概率计算各节点的加权因子,其中,每个许可序列中最终节点外的任何特定节点的加权因子是跟随语音基准发音的各许可序列中的所述节点的那些节点的加权因子的函数,所述语音基准发音的许可序列的所述节点形成由语音识别网络内各先前节点的加权因子修正的一部分,而且各许可序列中最终节点的加权因子是由语音识别网络内先前节点的加权因子修正的语音基准发音中该许可序列出现的先验概率的函数。
根据本发明的再一个方面,提供一种语音识别方法,包括以下步骤:对限定与声音对应的基准模型的数据进行存储并对限定这些模型的许可序列的数据进行存储,每个序列对应于一个要被识别的发音;将一个未知发音的其它各个部分与所述基准模型比较,该未知发音包括所说其它部分和先前部分,以更新表示所说发音的先前部分与一个或一个以上所说许可序列的一部分之间相似性的测量值,从而产生表示所说发音的较长部分与一个或一个以上所说许可序列的长的部分之间相似性的更新测量值,所说发音包括所说先前部分和一个或一个以上其它部分;识别出那些测量值表示小于相似性的限定程度的所说一个和一个以上许可序列的部分;抑制有关任何这样的许可序列或从已识别部分之一开始的许可序列的部分的测量值的再次产生,其特征在于:通过将所说测量值与一个阈值比较进行识别,所说阈值根据所产生的、不予抑制的测量值的数目反复调整,从而保持所说数目恒定。
根据本发明的又一个方面,提供一种为表示多个基准发音许可序列的一个语音识别网络的每个节点指定一个加权因子的方法,所说方法包括以下步骤:对每一个基准发音的许可序列预定一个加权因子,每一个加权因子表示它的相应的许可序列已出现的一个先验概率;以及对于每个节点,把从包含所说节点的一个或一个以上的许可序列的一部分开始的许可序列中的每一个许可序列的加权因子的值结合起来,通过对所说一部分开始的一个或一个以上许可序列的较短部分或一个发音施加的任何加权因子来修改。
加权因子可以在对数域中产生,给定加权因子的对数指定到与所说许可序列对应的网络的最终节点;然后给每个在先节点指定一个对数概率值,这个值是指定到其后的节点的这些值中的最大值;指定到在其之前的一个节点的值被从每个节点的值中减去。
这些节点可以与表示基准发音的模型相关,这些相关模型的参数可以加以调整以反映指定到每个节点的加权因子。
本发明特别适用于具有树状结构的识别网络,该网络除了第一个节点之外至少有一个节点包含一个以上的分支。
现在通过实例,参照附图介绍本发明的一些实施例,在这些附图中:
附图说明
图1为根据本发明的一个实施例构成的一种装置的方框图;
图2表示隐马尔可夫模型的一个示例性网络;
图3表示图1中所示标识存储器的内容;
图4表示图1中所示装置实施加权的过程;
图5表示图1中所示节点存储器的内容;
图6为表示图1中装置操作过程的流程图;
图7表示图1中所示词汇存储器的内容;和
图8表示对图4所示实施加权过程的一种改进。
具体实施方式
语音识别方法基本分为两种,即并行处理方法和树形处理方法,按照前一种方法,将每个发音(例如一个单词)相继地与参考模板或模型进行比较以识别出最相近的发音中的一个或多个,而按照后一种方法,将发音的一部分(例如一个音素)与参考模板或模型(这里所用“模型”一词的含义为其通常含义)进行比较以识别这个部分;然后对下一个部分进行类似的处理。
现在描述采用树形结构的一个实施例。
图1中所示的语音识别装置1具有一个用于输入语音信号的输入装置1,所说语音信号由一个模数转换器2转换为数字信号。然后将经过数字化的信号传输到一个特征抽取器3,由特征抽取器3计算宽度为例如10毫秒的连续帧信号的每一帧的一组参数或“特征量”。可以选择通常所用的任何特征量,例如Mel刻度倒谱系数或线性预测系数。
每一帧信号中特征量值可能的组合数量是非常大的,为了将其后的处理工作量减少到可以控制的数量,通常需要应用矢量量化方法,就是,使这一组特征量与有限数量m个标准特征量组合(v1,v2,…vm)中的一个相匹配;这是利用一个向量量化器4实现的,以生成一个数字或“观测值”Oj(相对于第j帧)。接着将该值传输到一个分类器5,概括地说,该分类器5使该观测值序列[Oj]与存储在一个模型存储器6中的一组模型相匹配。每个模型对应于一个不同的子字例如一个音素。该分类器包括一个由存储在一个程序存储器52中的程序控制的中央处理器51,一个节点存储器53和一个标识存储器54。该分类器应用隐马尔可夫模型进行分类处理工作,现在介绍其工作原理。
从原理上说,隐马尔可夫模型是一个“黑箱”它具有n个可能状态,并且可以根据一个概率参数以规则的间隔从一个状态转换到另一个状态,或者保持在相同的状态;如果从状态i转换到状态j的概率为aij,同时保持相同在状态i的概率为aii。则它们符合下列关系式:
Σ j = 1 a ij = 1
由于语音具有时序关系,通常采用一种从左到右的模型,根据这种模型,aij仅在0≤j-i≤1情况下不为零。在任何特定状态下,根据第二组概率产生一个输出,这个输出可能是有限数目m个可能的输出,例如说v1,v2…vm中的一个。在本文中,vk表示一组具体的语音特征。处于产生输出vk的状态j的概率为bjk。于是:
Σ k = 1 b jk = 1
第三个参数是在任何一个状态的启动概率;状态i的启动概率是πi
于是该模型包括一组参数
A=[aij]  (i=1,…n,j=1…n)
B=[bjk]  (j=1,…n,k=1,…n)
π=[πi] (i=1,…n)
和可以应用于这些参数以产生一个输出序列的一组规则。事实上,该模型并不存在,该输出序列也从未产生。或者更确切地说,语音识别问题可以表述为这样的问题“假定有一组v个值的序列,其中每个参数表示一组测得的语音特征,那么由参数A、B、π限定的模型能够产生这一序列值(测量序列值)的概率P是多少?”
如果这个问题是针对分别表示不同的音素(举例)的一些不同的模型提出的,那么由具有最大概率的模型表示的音素被认为是识别出的音素。
假定从t=1到t=T时间内的测量值为O1、O2、…OT。这些测量值接近状态j的概率αT(j)由递推公式给出:
α1(j)=πjbj(O1)                            (1)
α i + 1 ( j ) = Σ i = 1 α i ( i ) a ij b j ( O i + 1 ) - - - - - - - ( 2 )
模型M产生测量值序列O的概率为
Pr ( O | M ) = Σ j = 1 α T ( j ) - - - - - - - - - ( 3 )
这是考虑到所有可能的状态序列情况下得出的测量值序列O的概率;事实上,为了减少计算量,一般采用Viterbi算法计算与具有产生该测量值序列的最大概率的状态序列相关的概率;在这种情况下公式1到3变换为:
φ1(j)=πjbj(O1)                      (4)
φ i + 1 ( j ) = Max i = 1,2 , · · · n [ φ i ( i ) a ij ] · b j ( O i = 1 ) - - - - ( 5 )
Pr v ( O | M ) = Max j = 1,2 , · · · n φ T ( j ) - - - - ( 6 )
或者,在对数域中
logφ1(j)=log(πj)+log(bj(O1))        (7)
log φ i + 1 ( j ) = Max i = 1,2 , · · · n [ log ( φ i ( i ) + log ( a ij ) ) ] + log ( b j ( O i + 1 ) ) - - - ( 8 )
log Pr v ( O | M ) = Max j = 1,2 , · · · n [ log ( φ T ( j ) ] - - - - ( 9 )
模型存储器6中存储有相关语言的各个音素的A、B和π值(这些被统称为模型M)。用于产生这些模型参数的学习方法是常规方法,这里不再赘述。以下描述将参照“用于自动语音识别的隐马尔可夫模型:理论和应用”S.J.Cox,British Telecom Technology Journal(英国电讯技术杂志),Vol6(第6卷),No.2(第2期),1988年4月。对于一个具体的观测值序列O中的音素的识别是通过计算各个模型M1…MQ(其中Q为模型的编号)的Pr v(O/Mi)来进行的:其模型产生最高Pr v值的音素被认为是所识别的音素。
当然,在实际应用中,我们需要识别单词。这种方法可以被想象为具有若干节点的网络或者树状结构。如下所述,这种结构的含义仅在于每个节点对应于存储器的各个区域。
图2表示用于识别YES”与“NO”的一个简单网络,其音素表示在本申请中标记为{y}{eh}{s}和{n}{ow}。
图2中所示的节点10对应于一个噪声模型(通常是一个单态模型),就象最终节点16一样,它们表示在发音之前和之后的“无声”。除了最后一个节点以外的其余节点对应于所述的一个音素。例如,节点11对应于“yes”中的音素“y”。
在操作中,节点接收包含下列信息的一个标识,如图3所示:
来自前面节点的累计评分;
前面节点的标志(在节点存储器中的地址);
由产生该权标的前一节点接收的权标的标志(在权标存储器中的地址);
该标识还包含一个有效/无效标志位,其作用在下文中介绍。
所有这些标识都存储在标识存储器54中以备以后参照之用。
空标识以帧速率传输到第一节点。到达任一节点的一个标识包含指示目前输入的语音与通向该节点的路径上所有节点相关的模型对应的似然性(实际上是概率的对数)的评分;因此到达节点13的一个标识包含指示当前输入的语音与发音{y}{eh}对应的似然性。与该节点相关的任务是将一个新的语音输入帧与其模型比较。亦即对新的输入帧计算公式7到9以得到概率Pr v,然后将其加入输入评分以得到一个更新的概率;之后输入包含这一评分的一个新的标识并通向下一个节点。通常在输入一个标识之前要将所说评分累计一定数目的帧数,所说帧数等于在其模型中状态的数目(一般等于3)。其后为每一帧产生一个标识。如果一个节点在处理第一个标识时又接收了另一个标识,则该节点将另一个标识的评分与第一个标识的最后评分比较(即最新的logPr v加输入的标识评分),并且根据另一个标识评分是否是两个评分中的较低者或较高者而忽略该新标识或放弃当前进行的处理。
在给定的实例中,除了在最后一个节点以外,其它路径并不收敛。如果允许收敛路径,则两个标识同时到达的概率是通过忽略其中一个具有较低评分的标识而得出的,尽管多路径传播是可能的。
在最后一个节点16,收敛路径中除了具有最高评分的一个,其它所有路径都可能被阻止,但是对于许多应用来说可取的是保持两条或多条。还要采取措施以终止那些具有相当低的评分以致于它们被认为没有机会能够在最后一个节点得到较好评分的权标的传播;下面将要进一步介绍这一“删除”过程。可以识别网络中的路径以恢复被认为可以利用“先前的标识”地址识别标识存储器中的标识来跟踪由输出标识反馈的处理完毕的标识序列进行识别的发音的音素。
或许应当指出加入树状结构中的多个隐马尔可夫模型可以被视作一个单一的、大的模型。
如上所述,概括地说,所说识别装置是常规型的。现在所描述的识别装置的其它特征具有将先验概率“传播”到识别树状结构中的目的。考虑图4所示树状结构区分单词“cat”、“cab”、“cob”、“dog”和“den”的情况。假定作为先前处理的结果这些单词出现的先验概率用加权值表示为0.5、0.2、0.3、0.1、0.1。这意味着在作出进一步的决定之前需要用这些值对输入到节点23、24、26、29、31的评分进行加权。但是,如下所述,加权处理是对树状结构中的每个节点进行的。于是单词是“cat”或“cab”或“cob”的概率用加权值表示为0.5+0.2+0.3=1.0,而对于单词“dog”或“den”,相应的值为0.1+0.1=0.2。所以输入到节点21的评分用加权因子1.0进行加权,输入到节点27的评分用加权因子0.2进行加权。与“cat”或“cab”和“cob”相关的值分别为0.7和0.3,所以节点22和25的输入评分需要进行适当的加权处理。但是,在节点21这一分支已经施加了1.0的加权因子,所以在节点22和25的加权因子为
在节点22的加权因子=0.7/1.0=0.7
在节点25的加权因子=0.3/1.0=0.3
同样在节点23和24,我们得到
在节点23的加权因子=0.5/(1.0×0.7)=5/7
在节点24的加权因子=0.2/(1.0×0.7)=2/7
而在节点28和30加权因子为
0.1/0.2=0.5
当然,图4中的树状结构只是这一方法的示意性表示。实际上,每个节点都是用节点存储器中包含下列信息的一个条目表示的(如图5所示):
所用模型的地址(在模型存储器中);
网络中下一个节点的地址;
指示节点是否为有效的或无效的一个标志位;
表示与该节点相关的加权的对数值;
计算结果的暂时存储器。
当识别装置的词表建立时前两项的内容就确定了。这一步骤是借助于一个词表存储器7(图1)进行的,该词表存储器中包含待识别的一组单词,对于每个单词,有一组用于识别音素模型序列的地址与该单词的发音相对应(还参见图7)。节点存储器的内容产生是常规方式的(如下所述是加权值的对数值形式保存的);该步骤包括将对应于每个单词的节点地址序列插入词表存储器中。
CPU51在存储于程序存储器52中的程序控制下执行下述程序;如图6中流程图所示:
首先,产生一个空标识输入第一节点,即在具有零评分(即log(l))和零表示节点地址(采用这个地址表示该权标是由第一节点处理的)的标识存储器中产生一个条目和前一帧的开始时间。于是这些第一节点可以被认为是“有效的”。
然后,在每一帧周期内,执行以下步骤:
对于每一有效节点:
如果已经开始了一个隐马尔可夫模型程序,并且在最后一帧中没有产生由该节点处理的标识,则利用当前的帧观测值O更新该隐藏马尔克夫模型程序。如果该程序已经进行了n帧(其中n是在与该节点相关的具体的隐马尔可夫模型中的状态数),则将计算出的似然性值加入存储在节点存储器中的先验概率的对数值中,并且利用该结果在该标识存储器中产生一个新的条目(注意尽管如此当前的程序可以继续到下一帧);
如果没有开始程序,并且在最后一帧中产生了由该节点处理的一个标识,(即刚刚设置有效标志位),则利用当前的帧观测值O开始一个新的隐马尔可夫模型程序。在单态隐马尔可夫模型的情况下,利用该结果在所说标识存储器中产生一个新的条目;(注意尽管如此当前的程序可以继续到下一帧);
如果程序已经开始,并且产生了由该节点处理的一个标识,则比较输入的评分和内存的评分,并且根据结果继续进行上述程序,或者不予改变,或者将该输入评分作为第一状态的输入值。
对于每个产生的标识
-从标识评分中得到表示节点地址;
-从表示节点的节点存储器条目中得出“下一个节点”地址;
-将每一个这样的下一个节点对于下一帧标志为有效的。
如果在该标识存储器中已经创建了一个条目:
-如果相关的评分超过了一个存储的“对于所有标识的最大评分”数值,更新这个数值;
-如果相关的评分小于存储的“对于所有标识的最大值”或者大于一个预定的限值(例如50),擦除该标识存储条目(“删除”步骤)。如果这导致在任何节点中没有输入权标,也没有输出,则使之无效(即擦除该节点存储器条目)。
在最后一个节点:
根据一个规则体系和检测具体观测值所依赖的阈值作出关于识别过程结束和回溯识别路径的时间的决定。因此,对于每一帧,回溯出现在最终节点的最佳标识以检验在该最终噪声节点有多少帧经过。(假定网络中所有路径在末端具有一个噪声节点)。如果该过程时间大于某一阈值,并且该路径评分好于另一阈值,则停止识别(即,在一个完整路径的识别评分合理地较好,以及该路径在末端包含合理数量的噪声,通常为20帧,即0.32秒之前,我们基本上在等待)。这是对语音端点检测算法的最简单描述。实际上,该算法可以扩展到对到此为止的信号的信噪比和噪声能量的变化进行检测。此外,还有一定数量的暂停时间以确保在上述检测无法继续的情况下能够最终启动该语音端点检测过程。
然后,对于具有最高评分的标识,或者对于具有最高评分标识的每一个Nout,其中Nout是输出选择的期望数目:
-(a)从该标识检索以前的节点地址,进而检索出相关的模型标识符;
-(b)检索以前的标识存储器条目;
-(c)重复步骤(a)和(b),直到所有模型识别完毕。
至此,可以得到经过识别的单词,以及它们相关的评分。
上述内容是对识别程序的介绍:在这样一个程序能够开始之前,需要在节点存储器中输入先验概率的对数值。假设前面进行的识别程序已经以图7所示的格式创建了一个先验概率值,其中一组城镇名称中的每一个(举例)都具有一个指定给它的概率。CPU52执行下面提出的程序以为该节点得出先验概率值。
首先需要借助于词表存储器7将单词翻译成节点序列,从而对于识别程序树状结构中每一个可能的路径,途中每一节点的先验概率的对数值的总和是已知的。然后需要按照图4所示方式对每个节点计算各个值,如下所述:
(a)每给定的概率值指定到对应于各个单词的最终节点;
(b)从右向左(如图4所示),为每个节点指定一个概率值,这个值是指定到位于该节点之后的节点的概率值的总和(在图4中所示的第一个节点具有的指定值为1);
(c)从左向右,用指定到位于该节点之前的值除以每个节点的概率值;
(d)取所有值的对数。
实际上,自始自终采用计算量较少的方法利用对数进行计算,并且取最大值而不是取和值。因此,(如图8所示):
(a)将给定的概率对数值指定到对应于各个单词的最终节点;
(b)向每个节点指定一个概率对数值,这个值是指定到位于其后的节点的概率值中最大值(给第一个节点指定零值);
(c)从每个节点的值中减去指定到位于其前面的节点的值。
当然不需要对未分支线进行计算(用方括号表示)。
在上面的介绍中,基本准则是如果在任何时间权标的评分低于一个阈值,即“最佳路径”评分的一个比例值,就擦除该权标。事实上,由于采用了概率对数值,比较是对评分对数值和最佳评分对数值减去一个固定的限值进行的,所说限值的设置是为了给出最好的平均性能。
但是,实际上所用的最佳删除值依赖于实际的语言发音。所以,在一个改进例中,是将删除值作为识别装置的当前计算负载的函数进行调整的。例如,可以按照有效节点的数量对其进行调整。因此,
1、如果仅有少数节点有效,则降低删除阈值,使较多的节点保持有效,从而得到较高的准确率。
2、如果许多节点是有效的,则提高删除阈值,以便减少计算量。
这种方法的一种可能的实施方案是调整阈值,以保持有效节点的数量基本恒定。因此,在每一时间帧,将有效节点的数量na与一个期望值nt(例如1300)进行比较。允许阈值MT从一个初始值M0(例如100)以步进值Ms(例如2)在一个最低值Mmm(例如75)与一个最高值Mmax(例如150)之间变化。在每一时间帧中进行下列步骤。
(1)如果na>nt及MT>Mmin,则M=M-Ms
(2)如果na<nt及MT<Mmax,则M=M+Ms
但是,还可以应用其它的准则,例如可以根据有效模型状态的数量或有效单词的数量(特别是在具有非常大词库的识别装置中)作出判定。
这种动态阈值调整还可以应用于不采用先验加权的系统中。
上述的识别装置是指仅仅具有有限数量的在一个具体状态下产生的可能观测值的识别装置。但是,如果需要,可以用一个对任一观测值O具有一个值的连续概率密度bj(O)代替概率bik。正如所知,一般的连续概率密度可以利用更收敛的连续函数-通常为高斯分布的离散数值的加权和很好地近似。因此概率密度函数为:
b j ( O ) = Σ x = 1 c jx N [ O , μ jx , U jx ] - - - - - - - - - ( 10 )
其中x是混合项中分量(或“模式”)的序号,cjx为模式x在状态j的加权,N[O,μjx,Ujx]为按照一个多变量正态分布由平均矢量μjx和协变量矩阵Ujx得出矢量O的概率。
对于高斯分布:
N = 1 ( 2 π ) d / 2 | U jx | 1 / 2 exp [ - 1 2 ( O - μ jx ) T U - 1 ( O - μ jx ) ] - - - - - - ( 11 )
其中d为矢量的大小。如果U是一个具有矩阵元σi的对角矩阵,则该矢量简化为
N = 1 ( 2 π ) d / 2 | U jx | 1 / 2 exp [ - 1 2 Σ i = 1 d ( v i - μ i ) 2 σ i 2 ] - - - - - - ( 12 )
其中vi为O的分量。
方程1-9表示的识别程序是不改变的;只是b的定义不同。这种连续密度模型的训练程序是已知的,所以不再赘述。
并行处理方法比上述的处理方法简单。典型的这样一种包括删除步骤的方法包括保持最上面(例如)六个“最佳”候选者的活动列表作为待检验的模型,例如:
(a)将未知的单词与前六个模型比较,并生成这些模型的一个列表。记录各个模型的相似性评分;
(b)将未知单词与另一个模型比较。如果所得评分较高,即表明比列表中任一模型具有更多的相似性,则用该新模型代替列表中具有最低评分的条目;
(c)重复步骤(b),直到所有的模型都被处理过。这种方法形成六个具有最高评分模型的列表。如果在选择这些最佳候选者之前使用一个先验概率,六个评分中的每一个都用相关的加权因子相乘,并选择具有最佳加权评分的候选者。
在所提出的方法中,加权处理在识别程序中施加的;即
(a)将该未知单词与前六个模型进行比较,为每个模型生成一个相似性评分。对每个模型用加权因子乘以评分。生成这些模型的一个列表,对于每个模型记录加权评分;
(b)将该未知单词与另一个模型进行比较。用该模型的加权因子乘以该评分。如果所得加权评分大于列表中任何一个,则用该新模型和加权评分代替列表中具有最低加权评分的条目;
(c)重复步骤(b),直到所有模型都处理过。

Claims (6)

1.一种语音识别方法,包括以下步骤:
存储语音基准发音的基准模型;
存储用来限定语音识别网络中多个节点的节点数据,并对每个节点包括:用来指示各个与每个节点相关的基准模型的基准模型地址信息;用来指示由节点序列表示的语音基准发音中许可序列的节点链路信息;以及用来限定要加到每个节点上的预定加权因子的加权信息;
接收一个未知的语音发音并将该语音发音分成各部分;
依照语音基准发音的许可序列所限定的次序,重复比较语音发音的各部分与语音基准发音的基准模型,以便根据各比较产生语音发音的各部分与基准模型相似性的测量值;
每个许可序列中逐个节点传送累计的相似性测量值,以便给每个序列累加所产生的相似性测量值;并且
在语音基准发音的各许可序列中每个节点上,用该节点的加权信息所限定的加权因子加权所累计的相似性测量值,其中,把加权后的累计相似性测量值从各节点往前传送;
其特征在于,根据节点形成其中一部分的语音基准发音中各许可序列出现的先验概率计算各节点的加权因子,其中,每个许可序列中最终节点外的任何特定节点的加权因子是跟随语音基准发音的各许可序列中的所述节点的那些节点的加权因子的函数,所述许可序列中的所述节点形成由语音识别网络内各先前节点的加权因子修正的一部分,而且各许可序列中最终节点的加权因子是由语音识别网络内先前节点的加权因子修正的语音基准发音的许可序列出现的先验概率的函数。
2.如权利要求1所述的方法,其特征在于,传送步骤还包括:依删除准则比较各序列的累计后的相似性测量值,并掉弃那些不符合删除准则的测量值,使得这些测量值不再传送到网络的下一个节点。
3.如权利要求2所述的方法,其特征在于,删除准则是根据通过网络传送的累计后相似性测量值的数目而不断调整的,以便保持该数目为恒定。
4.一种语音识别装置,包括:
用来存储语音基准发音的基准模型的装置;
用来存储限定语音识别网络中多个节点的节点数据的装置,该装置并对每个节点包括:用来指示各个跟每个节点相关的基准模型的基准模型地址信息;用来指示由节点序列表示的语音基准发音中许可序列的节点链路信息;以及限定要加到每个节点上的预定加权因子的加权信息;
语音接收装置,用来接收一个未知的语音发音并将该语音发音分成各部分;
模型比较装置,用于依照语音基准发音的许可序列所限定的次序,重复比较语音发音的各部分与语音基准发音的基准模型,以便根据各比较产生语音发音的各部分与基准模型在相似性方面的测量值;
测量值传送装置,用于每个许可序列中逐个节点传送累计的相似性测量值,以便给每个序列累加所产生的相似性测量值;
其特征在于还包括加权装置,用于在语音基准发音的各许可序列中每个节点上,用该节点的加权信息所限定的加权因子加权所累计的相似性测量值,其中,把加权后的累计相似性测量值从各节点往前传送;
根据节点形成其中一部分的语音基准发音中各许可序列出现的先验概率计算各节点的加权因子,其中,每个许可序列中最终节点外的任何特定节点的加权因子是跟随语音基准发音的各许可序列中的所述节点的那些节点的加权因子的函数,所述语音基准发音的许可序列的所述节点形成由语音识别网络内各先前节点的加权因子修正的一部分,而且各许可序列中最终节点的加权因子是由语音识别网络内先前节点的加权因子修正的语音基准发音中该许可序列出现的先验概率的函数。
5.如权利要求4所述的装置,其特征在于,测量值传送装置还包括删除装置,用来依删除准则比较各序列的累计后的相似性测量值,并掉弃那些不符合删除准则的测量值,使得这些测量值不再传送到网络的下个节点。
6.如权利要求3所述的方法,其特征在于,删除装置还用于根据经网络传送的累计后相似性测量值的数目而反复调整删除准则,以便保持该数目为恒定。
CNB961923768A 1995-03-07 1996-03-07 语音识别方法和装置 Expired - Fee Related CN1150515C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP95301477.6 1995-03-07
EP95301477 1995-03-07

Publications (2)

Publication Number Publication Date
CN1178023A CN1178023A (zh) 1998-04-01
CN1150515C true CN1150515C (zh) 2004-05-19

Family

ID=8221113

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB961923768A Expired - Fee Related CN1150515C (zh) 1995-03-07 1996-03-07 语音识别方法和装置

Country Status (13)

Country Link
US (1) US5999902A (zh)
EP (1) EP0813735B1 (zh)
JP (1) JP4180110B2 (zh)
KR (1) KR100406604B1 (zh)
CN (1) CN1150515C (zh)
AU (1) AU702903B2 (zh)
CA (1) CA2211636C (zh)
DE (1) DE69615667T2 (zh)
ES (1) ES2164870T3 (zh)
MX (1) MX9706407A (zh)
NO (1) NO974097L (zh)
NZ (1) NZ302748A (zh)
WO (1) WO1996027872A1 (zh)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
GB9723214D0 (en) 1997-11-03 1998-01-07 British Telecomm Pattern recognition
US6411929B1 (en) * 1997-11-27 2002-06-25 Hitachi, Ltd. Speech recognition method and system
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
CN1201286C (zh) * 1999-12-23 2005-05-11 英特尔公司 使用基于词汇树的n格拉姆语言模式的执行语音识别的方法
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
WO2002086863A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Speech recognition
WO2002087201A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Voice response system
US20030018451A1 (en) * 2001-07-16 2003-01-23 Level 3 Communications, Inc. System, method and computer program product for rating enterprise metrics
JP2003108187A (ja) * 2001-09-28 2003-04-11 Fujitsu Ltd 類似性評価方法及び類似性評価プログラム
KR100450396B1 (ko) * 2001-10-22 2004-09-30 한국전자통신연구원 트리탐색기반 음성 인식 방법 및 이를 이용한 대용량 연속음성 인식 시스템
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
EP1387232A1 (fr) * 2002-07-29 2004-02-04 Centre National De La Recherche Scientifique Procédé de détermination de la valeur à donner à différents paramètres d'un système
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7852993B2 (en) * 2003-08-11 2010-12-14 Microsoft Corporation Speech recognition enhanced caller identification
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7869588B2 (en) * 2004-05-03 2011-01-11 Somatek System and method for providing particularized audible alerts
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
WO2006069358A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking model
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
WO2007019307A2 (en) 2005-08-03 2007-02-15 Somatic Technologies, Inc. Somatic, auditory and cochlear communication system and method
KR100748720B1 (ko) 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
CN101105894B (zh) * 2006-07-12 2011-08-10 陈修志 多功能语言学习机
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
GB2453366B (en) 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US8086631B2 (en) * 2008-12-12 2011-12-27 Microsoft Corporation Search result diversification
KR101217525B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
FI20086260A (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8306191B2 (en) * 2009-06-12 2012-11-06 Avaya Inc. Caller recognition by voice messaging system
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
US10055767B2 (en) 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
CN105356935B (zh) * 2015-11-27 2017-10-31 天津光电通信技术有限公司 一种实现同步数字体系高阶交叉的交叉板及实现方法
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US10565320B1 (en) 2018-09-28 2020-02-18 International Business Machines Corporation Dynamic multilingual speech recognition
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
KR20220010259A (ko) * 2020-07-17 2022-01-25 삼성전자주식회사 음성 신호 처리 방법 및 장치
CN112786007B (zh) * 2021-01-20 2024-01-26 北京有竹居网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN117166996B (zh) * 2023-07-27 2024-03-22 中国地质大学(北京) 地质参数门槛值的确定方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
JP2974387B2 (ja) * 1990-09-05 1999-11-10 日本電信電話株式会社 ワードスポッティング音声認識方法
KR920013250A (ko) * 1990-12-28 1992-07-28 이헌조 음성인식 시스템의 변별적 특성을 이용한 숫자음 인식방법
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH06175685A (ja) * 1992-12-09 1994-06-24 Matsushita Electric Ind Co Ltd パタン認識装置及びヒドゥンマルコフモデル作成装置
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置

Also Published As

Publication number Publication date
NO974097L (no) 1997-09-08
MX9706407A (es) 1997-11-29
WO1996027872A1 (en) 1996-09-12
US5999902A (en) 1999-12-07
AU702903B2 (en) 1999-03-11
DE69615667T2 (de) 2002-06-20
EP0813735B1 (en) 2001-10-04
EP0813735A1 (en) 1997-12-29
JPH11501410A (ja) 1999-02-02
JP4180110B2 (ja) 2008-11-12
NZ302748A (en) 1999-04-29
KR19980702723A (ko) 1998-08-05
ES2164870T3 (es) 2002-03-01
CA2211636A1 (en) 1996-09-12
DE69615667D1 (de) 2001-11-08
NO974097D0 (no) 1997-09-05
AU4887696A (en) 1996-09-23
KR100406604B1 (ko) 2004-02-18
CN1178023A (zh) 1998-04-01
CA2211636C (en) 2002-01-22

Similar Documents

Publication Publication Date Title
CN1150515C (zh) 语音识别方法和装置
CN1296886C (zh) 语音识别系统和方法
CN1123863C (zh) 基于语音识别的信息校核方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
KR100924399B1 (ko) 음성 인식 장치 및 음성 인식 방법
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
CN1236423C (zh) 说话人声音的后台学习
EP1679694B1 (en) Confidence score for a spoken dialog system
US6208964B1 (en) Method and apparatus for providing unsupervised adaptation of transcriptions
US7562014B1 (en) Active learning process for spoken dialog systems
CN1112669C (zh) 采用连续密度隐藏式马尔克夫模型的语音识别方法和系统
CN1157712C (zh) 语音识别方法和装置
JP2004109464A (ja) 音声認識装置及び音声認識方法
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
CN1924994A (zh) 一种嵌入式语音合成方法及系统
CN1223985C (zh) 语音识别置信度评价方法和系统及应用该方法的听写装置
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
CN1499484A (zh) 汉语连续语音识别系统
CN1201284C (zh) 一种语音识别系统中的快速解码方法
CN1157711C (zh) 自适应语音识别器的生成装置及方法
CN1512485A (zh) 语速自适应的语音识别系统
EP1594120B1 (en) Method for building hidden Markov speech models
de Ipiña et al. Decision tree-based context dependent sublexical units for Continuous Speech Recognition of basque

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040519

Termination date: 20130307