CN1178023A

CN1178023A - 语音识别

Info

Publication number: CN1178023A
Application number: CN96192376A
Authority: CN
Inventors: F·J·斯卡希尔; A·D·西蒙; S·J·怀塔克尔
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-03-07
Filing date: 1996-03-07
Publication date: 1998-04-01
Anticipated expiration: 2016-03-07
Also published as: US5999902A; JPH11501410A; DE69615667T2; KR19980702723A; EP0813735B1; NO974097D0; DE69615667D1; JP4180110B2; CA2211636C; CA2211636A1; AU702903B2; AU4887696A; CN1150515C; NO974097L; WO1996027872A1; NZ302748A; ES2164870T3; KR100406604B1; EP0813735A1; MX9706407A

Abstract

提供一种语音识别装置,它具有一个先验概率值,该概率值表示识别装置的词库中的各个单词出现在特定上下文的似然率,并且在选择一个结果之前利用这些值对识别评分进行加权。该识别装置还采用“删除”步骤,由此放弃低评分的部分结果,从而加速识别程序。为了避免过早地删除更相似的单词,在作出删除决定之前给出概率值。该申请中介绍了应用这些概率值的方法。

Description

语音识别

本申请所说的语音识别应用于下述场合，为了确定输入语音信号中哪一个词汇(或者，更一般地说，就是发音)最明显地相似，并按照与该词汇相关的一个先验概率获得有关信息而进行语音识别处理。这种场合的一个实例是在我们申请的国际专利申请No.95/02524中所述的自动电话簿查询系统。在该系统中，

(i)使用者说出一个城镇的名称；

(ii)一个语音识别装置按照存储的城镇数据确定与所说的城镇名称最符合的几个城镇，并产生表示符合接近程度的“评分”或概率；

(iii)对于所确定的城镇列出所有街道名称；

(iv)使用者说出街道的名称；

(v)语音识别装置从街道列表中识别几个与所说的街道名称最符合的街道名称，并且也给出评分；

(vi)对每个街道评分根据该街道所在城镇得到的评分进行加权处理，最相近的“街道”被认为是具有最佳加权评分的街道。

先验概率并不必须从先前的语音识别过程中产生；例如在上述专利申请中所述的另一种电话簿查询系统利用识别调取统计信息地点的信号，按照该地区的一个查询者所查询的最符合的城镇对城镇名称识别的结果进行加权处理。

这种方法具有可靠的优点，例如除非在街道名称识别步骤中次选城镇中的街道名称评分明显高于首选城镇，一般保持对次选城镇不进行街道选择的状态。但是这种方法的缺点是由于在进行街道名称识别步骤时识别装置仅仅产生有限数目的候选街道名称，很可能这个短的街道名称列表只包含位于具有较低评分的城镇中的街道名称，即，位于具有较高评分的城镇中的具有较低评分的街道名称在能够进行加权处理之前已经被识别装置“删除”。

美国专利US-4783803中介绍了一种语音识别装置，在该装置中，先验概率与先前已经识别过的一个或多个模式的给定语境有关。表示某一单词出现在另一单词前后的概率的语言评分与从包含这些单词的一个序列中得到的评分相结合。

根据本发明提供了一种语音识别的方法，它包括以下步骤：

将一个未知发音的各部分与基准模型反复比较，以相对于由存储数据构成的若干许可的基准发音序列中的每一个，产生对于相似性的累计测量值，其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个在先发音的一个或多个基准模型比较得到的测量值的贡献，对于累计测量值指出的相似性在由预定的删除准则限定的程度内小于对于其它此类序列的测量值的序列不再进行反复比较，并按照加权因子对每个许可序列的累计测量值进行加权处理，其中加权处理是利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行的，所说的许可序列从该部分序列开始，这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。

可取的是，对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较。这种删除可以根据所产生的、仍需反复比较的测量值的数目进行，以便保持这个数目恒定。

根据本发明的另一方面，提供了一种语音识别装置，它包括：

存储装置，用于存储与表示发音的基准模型有关的数据和构成基准发音的许可序列的数据；

比较装置，用于将一个未知发音的各部分与基准模型反复比较，以相对于由存储数据构成的若干许可的基准发音序列中的每一个，产生对于相似性的累计测量值，其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个在先发音的一个或多个基准模型比较得到的测量值的贡献；

和可用于按照加权因子对每个许可序列的累计测量值进行加权处理的装置，其中加权处理装置可以利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行加权处理，所说的许可序列从该部分序列开始，这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。

根据本发明的再一个方面，提供了一种借助于构成与声音对应的基准模型的存储数据和构成这种模型的许可序列的存储数据的语音识别方法，每个序列对应于一个被识别的发音，该方法包括以下步骤：将一个未知发音的各个部分与基准模型比较以更新表示该发音的前部与一个部分许可序列之间相似性的测量值，从而产生表示该发音的后部与后部许可序列之间相似性的经过更新的测量值；识别出那些对相似性的测量值小于限定程度的部分序列；抑制与从已识别的部分序列开始的序列或部分序列有关的测量值的再次产生，其特征在于：通过将所说测量值与一个阈值比较进行识别，所说阈值根据所产生的、不予抑制的测量值的数目反复调整，从而保持所说数目恒定。

根据本发明的又一方面，提供了一种方法，该方法为表示一组基准发音许可序列的一个语音识别网络的每个节点指定了一个加权因子，所说方法包括：

对于每个节点，将相对于每个许可序列的加权因子值结合起来，所说序列从包含所说节点的一个部分序列开始，而对该部分序列从其开始的一个发音或较短序列施加较小的加权因子。

加权因子可以在对数域中产生，给定加权因子的对数指定到与所说许可序列对应的网络的最终节点；然后给每个在先节点指定一个对数概率值，这个值是指定到其后的节点的这些值中的最大值；指定到在其之前的一个节点的值被从每个节点的值中减去。

这些节点可以与表示基准发音的模型相关，这些相关模型的参数可以加以调整以反映指定到每个节点的加权因子。

本发明特别适用于具有树状结构的识别网络，该网络除了第一个节点之外至少有一个节点包含一个以上的分支。

现在通过实例，参照附图介绍本发明的一些实施例，在这些附图中：

图1为根据本发明的一个实施例构成的一种装置的方框图；

图2表示隐马尔可夫模型的一个示例性网络；

图3表示图1中所示标识存储器的内容；

图4表示图1中所示装置实施加权的过程；

图5表示图1中所示节点存储器的内容；

图6为表示图1中装置操作过程的流程图；

图7表示图1中所示词汇存储器的内容；和

图8表示对图4所示实施加权过程的一种改进。

语音识别方法基本分为两种，即并行处理方法和树形处理方法，按照前一种方法，将每个发音(例如一个单词)相继地与参考模板或模型进行比较以识别出最相近的发音中的一个或多个，而按照后一种方法，将发音的一部分(例如一个音素)与参考模板或模型(这里所用“模型”一词的含义为其通常含义)进行比较以识别这个部分；然后对下一个部分进行类似的处理。

现在描述采用树形结构的一个实施例。

图1中所示的语音识别装置1具有一个用于输入语音信号的输入装置1，所说语音信号由一个模数转换器2转换为数字信号，然后将经过数字化的信号传输到一个特征抽取器3，由特征抽取器3计算宽度为例如10毫秒的连续帧信号的每一帧的一组参数或“特征量”。可以选择通常所用的任何特征量，例如Mel刻度倒谱系数或线性预测系数。

每一帧信号中特征量值可能的组合数量是非常大的，为了将其后的处理工作量减少到可以控制的数量，通常需要应用矢量量化方法，就是，使这一组特征量与有限数量m个标准特征量组合(v₁，v₂…v_m)中的一个相匹配；这是利用一个向量量化器4实现的，以生成一个数字或“观测值”O_j(相对于第j帧)。接着将该值传输到一个分类器5，概括地说，该分类器5使该观测值序列[O_j]与存储在一个模型存储器6中的一组模型相匹配。每个模型对应于一个不同的子字例如一个音素。该分类器包括一个由存储在一个程序存储器52中的程序控制的中央处理器51，一个节点存储器53和一个标识存储器54。该分类器应用隐马尔可夫模型进行分类处理工作，现在介绍其工作原理。

从原理上说，隐马尔可夫模型是一个“黑箱”它具有n个可能状态，并且可以根据一个概率参数以规则的间隔从一个状态转换到另一个状态，或者保持在相同的状态；如果从状态i转换到状态j的概率为a_ij，同时保持相同在状态i的概率为a_ij。则它们符合下列关系式：

\underset{j = 1}{Σ} a_{ij} = 1

由于语音具有时序关系，通常采用一种从左到右的模型，根据这种模型，a_ij仅在0≤j-i≤1情况下不为零。在任何特定状态下，根据第二组概率产生一个输出，这个输出可能是有限数目m个可能的输出，例如说v1，v2…v_m中的一个。在本文中，v_k表示一组具体的语音特征。处于产生输出v_k的状态j的概率为b_jk。于是：

\underset{k = 1}{Σ} b_{jk} = 1

第三个参数是在任何一个状态的启动概率；状态i的启动概率是π_i。

于是该模型包括一组参数

A＝[a_ij] (i＝1，…n，j＝1…n)

B＝[b_jk] (j＝1，…n，k＝1，…n)

π＝[π_i] (i＝1，…n)

和可以应用于这些参数以产生一个输出序列的一组规则。事实上，该模型并不存在，该输出序列也从未产生。或者更确切地说，语音识别问题可以表述为这样的问题“假定有一组v个值的序列，其中每个参数表示一组测得的语音特征，那么由参数A、B、π限定的模型能够产生这一序列值(测量序列值)的概率P是多少？”

如果这个问题是针对分别表示不同的音素(举例)的一些不同的模型提出的，那么由具有最大概率的模型表示的音素被认为是识别出的音素。

假定从t＝1到t＝T时间内的测量值为O₁、O₂、…O_T。这些测量值接近状态j的概率α_T(j)由递推公式给出：

a₁(j)＝π_jb_j(O₁) (1)

a_{i - 1} (j) = \underset{i = l}{Σ} a_{i} (i) a_{ij} b_{j} (O_{i + 1}) - - - (2)

模型M产生测量值序列O的概率为

\Pr (O | M) = \underset{1 = l}{Σ} a_{T} (j) - - - - (3)

这是考虑到所有可能的状态序列情况下得出的测量值序列O的概率；事实上，为了减少计算量，一般采用Viterbi算法计算与具有产生该测量值序列的最大概率的状态序列相关的概率；在这种情况下公式1到3变换为：

φ₁(j)＝π_jb_j(O₁) (4)

φ_{i + 1} (j) = \underset{i = 1,2, \cdot \cdot \cdot n}{Max} [φ_{1} (i) a_{ij}] \cdot b_{j} (O_{i + 1}) - - - - (5)

\Pr^{v} (O | M) = \underset{j = 1,2, \cdot \cdot \cdot n}{Max} φ_{T} (j) - - - - - (6)

或者，在对数域中

logφ₁(j)＝log(π_j)+log(b₁(O₁)) (7)

\log φ_{i + 1} (j) = \underset{i = 1,2, \cdot \cdot \cdot n}{Max} [\log (φ_{i} (i) + \log (a_{ij}))] + \log (b_{j} (O_{1} + 1)) - - - - - - (8)

\log \Pr^{v} (O | M) = \underset{j = 1,2, \cdot \cdot \cdot n}{Max} [\log (φ_{T} (j)] - - - - - - (9)

模型存储器6中存储有相关语言的各个音素的A、B和π值(这些被统称为模型M)。用于产生这些模型参数的学习方法是常规方法，这里不再赘述。以下描述将参照“用于自动语音识别的隐马尔可夫模型：理论和应用”S.J Cox，British Telecom Technology Journal(英国电讯技术杂志)，Vol6(第6卷)，No.2(第2期)，1988年4月。对于一个具体的观测值序列O中的音素的识别是通过计算各个模型M₁…M_Q(其中Q为模型的编号)的P_r ^v(O/M_i)来进行的：其模型产生最高P_r ^v值的音素被认为是所识别的音素。

当然，在实际应用中，我们需要识别单词。这种方法可以被想象为具有若干节点的网络或者树状结构。如下所述，这种结构的含义仅在于每个节点对应于存储器的各个区域。

图2表示用于识别YES”与“NO”的一个简单网络，其音素表示在本中请中标记为{y}{eh}{s}和{n}{ow}。

图2中所示的节点10对应于一个噪声模型(通常是一个单态模型)，就象最终节点16一样，它们表示在发音之前和之后的“无声”。除了最后一个节点以外的其余节点对应于所述的一个音素。例如，节点11对应于“yes”中的音素“y”

在操作中，节点接收包含下列信息的一个标识，如图3所示：

来自前面节点的累计评分；

前面节点的标志(在节点存储器中的地址)；

由产生该权标的前一节点接收的权标的标志(在权标存储器中的地址)：

该标识还包含一个有效/无效标志位，其作用在下文中介绍。

所有这些标识都存储在标识存储器54中以备以后参照之用。

空标识以帧速率传输到第一节点。到达任一节点的一个标识包含指示目前输入的语音与通向该节点的路径上所有节点相关的模型对应的似然性(实际上是概率的对数)的评分；因此到达节点13的一个标识包含指示当前输入的语音与发音{y}{eh}对应的似然性。与该节点相关的任务是将一个新的语音输入帧与其模型比较。亦即对新的输入帧计算公式7到9以得到出概率P_r ^v，然后将其加入输入评分以得到一个更新的概率；之后输入包含这一评分的一个新的标识并通向下一个节点。通常在输入一个标识之前要将所说评分累计一定数目的帧数，所说帧数等于在其模型中状态的数目(一般等于3)。其后为每一帧产生一个标识。如果一个节点在处理第一个标识时又接收了另一个标识，则该节点将另一个标识的评分与第一个标识的最后评分比较(即最新的logP_r ^v加输入的标识评分)，并且根据另一个标识评分是否是两个评分中的较低者或较高者而忽略该新标识或放弃当前进行的处理。

在给定的实例中，除了在最后一个节点以外，其它路径并不收敛。如果允许收敛路径，则两个标识同时到达的概率通过是通过忽略其中一个具有较低评分的标识而得出的，尽管多路径传播是可能的。

在最后一个节点16，收敛路径中除了具有最高评分的一个，其它所有路径都可能被阻止，但是对于许多应用来说可取的是保持两条或多条。还要采取措施以终止那些具有相当低的评分以致于它们被认为没有机会能够在最后一个节点得到较好评分的标识的传播；下面将要进一步介绍这一“删除”过程。可以识别网络中的路径以恢复被认为可以利用“先前的标识”地址识别标识存储器中的标识来跟踪由输出权标反馈的处理完毕的标识序列进行识别的发音的音素。

或许应当指出加入树状结构中的多个隐马尔可夫模型可以被视作一个单一的、大的模型。

如上所述，概括地说，所说识别装置是常规型的。现在所描述的识别装置的其它特征具有将先验概率“传播”到识别树状结构中的目的。考虑图4所示树状结构区分单词“cat”、“cab”、“cob”、“dog”和“den”的情况。假定作为先前处理的结果这些单词出现的先验概率用加权值表示为0.5、0.2、0.3、0.1、0.1这意味着在作出进一步的决定之前需要用这些值对输入到节点23、24、26、29、31的评分进行加权。但是，如下所述，加权处理是对树状结构中的每个节点进行的。于是单词是“cat”或“cab”或“cob”的概率用加权值表示为0.5-0.2+0.3＝1.0，而对于单词“dog”或“den”，相应的值为0.1-0.1+0.05＝0.2。所以输入到节点21的评分用加权因子1.0进行加权，输入到节点27的评分用加权因子0.2进行加权。与“cat”或“cab”和“cob”相关的值分别为0.7和0.3，所以节点22和25的输入评分需要进行适当的加权处理。但是，在节点21这一分支已经施加了1.0的加权因子，所以在节点22和25的加权因子为

在节点22的加权因子＝0.7/1.0＝0.7

在节点25的加权因子＝0.3/1.0＝0.3

同样在节点23和24，我们得到

在节点23的加权因子＝0.5/(1.0×0.7)＝5/7

在节点24的加权因子＝0.2/(1.0×0.7)＝2/7

而在节点28和30加权因子为

0.1/0.2＝0.5

当然，图4中的树状结构只是这一方法的示意性表示。实际上，每个节点都是用节点存储器中包含下列信息的一个条目表示的(如图5所示)：

所用模型的地址(在模型存储器中)；

网络中下一个节点的地址；

指示节点是否为有效的或无效的一个标志位；

表示与该节点相关的加权的对数值；

计算结果的暂时存储器。

当识别装置的词表建立时前两项的内容就确定了。这一步骤是借助于一个词表存储器7(图1)进行的，该词表存储器中包含待识别的一组单词，对于每个单词，有一组用于识别音素模型序列的地址与该单词的发音相对应(还参见图7)。节点存储器的内容产生是常规方式的(如下所述是加权值的对数值形式保存的)；该步骤包括将对应于每个单词的节点地址序列插入词表存储器中

CPU51在存储于程序存储器52中的程序控制下执行下述程序；如图6中流程图所示：

首先，产生一个空标识输入第一节点，即在具有零评分(即log(1))和零表示节点地址(采用这个地址表示该权标是由第一节点处理的)的标识存储器中产生一个条目和前一帧的开始时间。于是这些第一节点可以被认为是“有效的”。

然后，在每一帧周期内，执行以下步骤：

对于每一有效节点：

如果已经开始了一个隐马尔可大模型程序，并且在最后一帧中没有产生由该节点处理的标识，则利用当前的帧观测值O更新该隐藏马尔克夫模型程序。如果该程序已经进行了n帧(其中n是在与该节点相关的具体的隐马尔可夫模型中的状态数)，则将计算出的似然性值加入存储在节点存储器中的先验概率的对数值中，并且利用该结果在该标识存储器中产生一个新的条目(注意尽管如此当前的程序可以继续到下一帧)；

如果没有开始程序，并且在最后一帧中产生了由该节点处理的一个标识，(即刚刚设置有效标志位)，则利用当前的帧观测值O开始一个新的隐马尔可夫模型程序。在单态隐马尔可夫模型的情况下，利用该结果在所说标识存储器中产生一个新的条目；(注意尽管如此当前的程序可以继续到下一帧)；

如果程序已经开始，并且产生了由该节点处理的一个标识，则比较输入的评分和内存的评分，并且根据结果继续进行上述程序，或者不予改变，或者将该输入评分作为第一状态的输入值。

对于每个产生的标识

-从标识评分中得到表示节点地址；

-从表示节点的节点存储器条目中得出“下一个节点”地址；

-将每一个这样的下一个节点对于下一帧标志为有效的

如果在该标识存储器中已经创建了一个条目：

-如果相关的评分超过了一个存储的“对于所有标识的最大评分”数值，更新这个数值；

-如果相关的评分小于存储的“对于所有标识的最大值”或者大于一个预定的限值(例如50)，擦除该标识存储条目(“删除”步骤)。如果这导致在任何节点中没有输入权标，也没有输出，则使之无效(即擦除该节点存储器条目)。

在最后一个节点：

根据一个规则体系和检测具体观测值所依赖的阈值作出关于识别过程结束和回溯识别路径的时间的决定。因此，对于每一帧，回溯出现在最终节点的最佳标识以检验在该最终噪声节点有多少帧经过。(假定网络中所有路径在末端具有一个噪声节点)。如果该过程时间大于某一阈值，并且该路径评分好于另一阈值，则停止识别(即，在一个完整路径的识别评分合理地较好，以及该路径在末端包含合理数量的噪声，通常为20帧，即0.32秒之前，我们基本上在等待)。这是对语音端点检测算法的最简单描述。

实际上，该算法可以扩展到对到此为止的信号的信噪比和噪声能量的变化进行检测。此外，还有一定数量的暂停时间以确保在上述检测无法继续的情况下能够最终启动该语音端点检测过程。

然后，对于具有最高评分的标识，或者对于具有最高评分标识的每一个N_out，其中N_out是输出选择的期望数目：

-(a)从该标识检索以前的节点地址，进而检索出相关的模型标识符；

-(b)检索以前的标识存储器条目；

-(c)重复步骤(a)和(b)，直到所有模型识别完毕。

至此，可以得到经过识别的单词，以及它们相关的评分。

上述内容是对识别程序的介绍：在这样一个程序能够开始之前，需要在节点存储器中输入先验概率的对数值。假设前面进行的识别程序已经以图7所示的格式创建了一个先验概率值，其中一组城镇名称中的每一个(举例)都具有一个指定给它的概率。CPU52执行下面提出的程序以为该节点得出先验概率值。

首先需要借助于词表存储器7将单词翻译成节点序列，从而对于识别程序树状结构中每一个可能的路径，途中每一节点的先验概率的对数值的总和是已知的。然后需要按照图4所示方式对每个节点计算各个值，如下所述：

(a)将给定的概率值指定到对应于各个单词的最终节点；

(b)从右向左(如图4所示)，为每个节点指定一个概率值，这个值是指定到位于该节点之后的节点的概率值的总和(在图4中所示的第一个节点具有的指定值为1)：

(c)从左向右，用指定到位于该节点之前的值除以每个节点的概率值；

(d)取所有值的对数。

实际上，自始自终采用计算量较少的方法利用对数进行计算，并且取最大值而不是取和值。因此，(如图8所示)：

(a)将给定的概率对数值指定到对应于各个单词的最终节点；

(b)向每个节点指定一个概率对数值，这个值是指定到位于其后的节点的概率值中最大值(给第一个节点指定零值)；

(c)从每个节点的值中减去指定到位于其前面的节点的值。

当然不需要对未分支线进行计算(用方括号表示)。

在上面的介绍中，基本准则是如果在任何时间权标的评分低于一个阈值，即“最佳路径”评分的一个比例值，就擦除该权标。事实上，由于采用了概率对数值，比较是对评分对数值和最佳评分对数值减去一个固定的限值进行的，所说限值的设置是为了给出最好的平均性能。

但是，实际上所用的最佳删除值依赖于实际的语言发音。所以，在一个改进例中，是将删除值作为识别装置的当前计算负载的函数进行调整的。例如，可以按照有效节点的数量对其进行调整。因此，

1、如果仅有少数节点有效，则降低删除阈值，使较多的节点保持有效，从而得到较高的准确率。

2、如果许多节点是有效的，则提高删除阈值，以便减少计算量。

这种方法的一种可能的实施方案是调整阈值，以保持有效节点的数量基本恒定。因此，在每一时间帧，将有效节点的数量n_a与一个期望值n_t(例如1300)进行比较。允许阈值M_T从一个初始值M_O(例如100)以步进值M_S(例如2)在一个最低值M_min(例如75)与一个最高值M_max(例如150)之间变化。在每一时间帧中进行下列步骤。

(1)如果n_a＞n₁及M_T＞M_min，则M＝M-M_S

(2)如果n_a＜n_t及M_T＜M_max，则M＝M+M_S

但是，还可以应用其它的准则，例如可以根据有效模型状态的数量或有效单词的数量(特别是在具有非常大词库的识别装置中)作出判定。

这种动态阈值调整还可以应用于不采用先验加权的系统中。

上述的识别装置是指仅仅具有有限数量的在一个具体状态下产生的可能观测值的识别装置。但是，如果需要，可以用一个对任一观测值O具有一个值的连续概率密度b_j(O)代替概率b_jk。正如所知，一般的连续概率密度可以利用更收敛的连续函数-通常为高斯分布的离散数值的加权和很好地近似。因此概率密度函数为：

b_{j} (O) = \underset{x = 1}{Σ} c_{jx} N [O, μ_{jx}, U_{jx}] - - - - (10)

其中x是混合项中分量(或“模式”)的序号，c_jx为模式x在状态j的加权，N[O，μ_jx，U_jx]为按照一个多变量正态分布由平均矢量μ_jx和协变量矩阵U_jx得出矢量O的概率

对于高斯分布：

N = \frac{1}{{(2 π)}^{d / 2} | U_{jx} |^{l / 2}} \exp [- \frac{1}{2} {(O - μ_{jx})}^{T} U^{1} (O - μ_{jx})] - - - - - (11)

其中d为矢量的大小。如果U是一个具有矩阵元σ_i的对角矩阵，则该矢量简化为

N = \frac{1}{{(2 π)}^{d / 2} | U_{jx} |^{l / 2}} \exp [- \frac{1}{2} Σ_{i = 1}^{d} \frac{{(v_{i} - μ_{i})}^{2}}{σ_{i}^{2}}] - - - - - - (12)

其中v_i为O的分量。

方程1-9表示的识别程序是不改变的；只是b的定义不同。这种连续密度模型的训练程序是已知的，所以不再赘述。

并行处理方法比上述的处理方法简单。典型的这样一种包括删除步骤的方法包括保持最上面(例如)六个“最佳”候选者的活动列表作为待检验的模型。例如：

(a)将未知的单词与前六个模型比较，并生成这些模型的一个列表，记录各个模型的相似性评分；

(b)将未知单词与另一个模型比较。如果所得评分较高，即表明比列表中任一模型具有更多的相似性，则用该新模型代替列表中具有最低评分的条目；

(c)重复步骤(b)，直到所有的模型部被处理过。这种方法形成六个具有最高评分模型的列表。如果在选择这些最佳候选者之前使用一个先验概率，六个评分中的每一个都用相关的加权因子相乘，并选择具有最佳加权评分的候选者。

在所提出的方法中，加权处理在识别程序中施加的；即

(a)将该未知单词与前六个模型进行比较，为每个模型生成一个相似性评分。对每个模型用加权因子乘以评分。生成这些模型的一个列表，对于每个模型记录加权评分；

(b)将该未知单词与另一个模型进行比较。用该模型的加权因子乘以该评分。如果所得加权评分大于列表中任何一个，则用该新模型和加权评分代替列表中具有最低加权评分的条目；

(c)重复步骤(b)，直到所有模型都处理过。

Claims

1.一种语音识别方法，它包括以下步骤：

将一个未知发音的一部分与基准模型比较以产生一个相似性测量值；

将未知发音的其它部分与基准模型反复比较，以相对于由存储数据限定的基准发音的一组许可序列中的每一个产生累计相似性测量值，其中包括先前通过将所说发音的一个或多个前部与对应于各个许可序列中的一个或多个先前发音的一个基准模型或多个模型比较得到的测量值的贡献；

按照每个许可序列的加权因子将所说累计测量值进行加权处理，其中所说加权处理是利用对于每个许可序列的加权因子的组合值对一个部分序列的一次或累计测量值的计算值进行的，所说的许可序列从该部分序列开始，这些加权因子很少应用于相对于该部分序列从其开始的一个发音或较短序列产生的测量值。

2.如权利要求1所述的一种方法，还包括以下步骤：对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较。

3.如权利要求2所述的一种方法，其特征在于所说删除准则根据所产生的、仍需反复比较的测量值的数目反复调整，以便保持这个数目恒定。

4.语音识别装置，它包括：

比较装置，用于将一个未知发音的各部分与基准模型反复比较，以相对于由存储数据构成的若干许可的基准发音序列中的每一个，产生关于相似性的累计测量值，其中包含先前通过将该发音的一个或多个前部与对应于在各个许可序列中的一个或多个先前发音的一个或多个基准模型比较得到的测量值的贡献；

5.如权利要求4所述的装置，它还包括对于任何其加权累计测量值所指出的相似性在由删除准则所限定的程度上小于其它此类序列的测量值的序列不再进行反复比较的装置。

6.如权利要求5所述的装置，其特征在于所说删除准则根据所产生的、仍需反复比较的测量值的数目反复调整，以便保持这个数目恒定。

7.一种语音识别方法，这种方法借助于构成与声音对应的基准模型的存储数据和构成这种模型的许可序列的存储数据，每个序列对应于一个被识别的发音，该方法包括以下步骤：将一个未知发音的各个部分与该基准模型比较以更新表示该发音的前部与一个部分许可序列之间相似性的测量值，从而产生表示该发音的后部与后部许可序列之间相似生的经过更新的测量值；识别出那些对相似性的测量值小于限定程度的部分序列；抑制与从已识别的部分序列开始的序列或部分序列有关的测量值的再次产生，其特征在于：通过将所说测量值与一个阈值比较进行识别，所说阈值根据所产生的、不予抑制的测量值的数目反复调整，从而保持所说数目恒定。

8.一种方法，该方法为表示一组基准发音许可序列的一个语音识别网络的每个节点指定了一个加权因子，所说方法包括：

对于每个节点，将相对于每个许可序列的加权因子值结合起来，所说序列从包含所说节点的一个部分序列开始，而对该部分序列从其开始的一个发音或较短序列施加较小的加权因子

9.如权利要求8所述的一和方法，包括：

(a)将给定的加权因子对数值指定到网络中对应于所说许可序列的最终节点；

(b)向每个在先节点指定一个概率对数值，这个值是指定到位于其后的节点的概率值中最大值；

(c)从每个节点的值中减去指定到位于其前面的节点的值。

10.如权利要求8或9所述的一种方法，其特征在于这些节点与表示基准发音的模型相关，这些相关模型的参数可以加以调整以反映指定到每个节点的加权因子。

11.如权利要求8或9所述的一种方法，其特征在于所说识别网络具有树状结构，除了第一个节点以外，至少有一个节点具有一个以上的分支。

12.一种语音识别方法，其特征在于使用了结合了按照权利要求8、9、10或11所述方法形成的加权因子的一个网络。

13.语音识别装置，其中包含与结合了按照权利要求8、9、10或11所述方法形成的加权因子的一个网络相关的数据。

14.一种指定加权因子的方法，其特征基本如上文中参照附图所述。

15.一种语音识别方法，其特征基本如上文中参照附图所述。

16.一种语音识别装置，其特征基本如上文中参照附图所述。