CN1145140C

CN1145140C - 有选择地把一罚值赋予语音识别系统所伴随概率的方法

Info

Publication number: CN1145140C
Application number: CNB00102406XA
Authority: CN
Inventors: 丹尼尔・C・鲍伯特; 丹尼尔·C·鲍伯特
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2004-04-07
Anticipated expiration: 2020-02-23
Also published as: KR20000071364A; CN1264891A; GB2347253B; GB2347253A; GB0003940D0; US6233557B1; KR100321463B1

Abstract

一语音识别系统(204、206、207、208)把一罚值赋予语音识别系统中的得分。该系统产生一个帧数较低阈值赋予至少一个模型的至少一个状态，它产生一个帧数较高阈值赋予至少一个模型的至少一个状态。在一分配赋值算法中，该系统把一脱离状态转移罚值赋予一脱离状态转移得分，如果较低阈值尚未达到的话。该脱离状态转移罚值与其保持时间低于较低阈值的帧数成比例。如果赋予一状态的帧数较高阈值已被超过的话，则把一自循环罚值加到一自循环得分上。脱离状态转移罚值与其保持时间超过较高阈值的帧数成比例。

Description

有选择地把一罚值赋予语音识别系统所伴随概率的方法

本发明是关于语音识别系统，更具体地说，是关于状态分配算法中的系统赋予概率(system assigning probability)。

依赖于说话者的语音识别系统使用特征提取算法对输入语音的一帧完成信号处理，并输出代表每一帧的特征矢量。这一处理是以帧速率发生的。帧速率通常在10至30ms之间，这里将以20ms持续时间为例。已知有大量不同特征用于语音识别系统中。

一般而言，训练算法使用从一个词或短语的一个或多个发音(utterance)的采样语音中提出的特征，来产生那个词或短语的模型。然后这个模型被存储在一个模型存储存储器中。然后在语音识别过程中应用这些模型。语音识别系统把未知发音的特征与被存储的模型参数作比较，以确定最好匹配。然后这最好匹配模型从识别系统输出，作为结果。

已知使用基于识别系统的隐式马尔科夫模型(HMM)达到这一目的。HMM识别系统把发音的帧分配成HMM的状态。产生最大概率或得分的帧到状态(frame-to-state)分配被选作最好匹配。

HMM的一个问题是它们假定一状态的持续时间有指数分布。这对于马尔科夫过程假设而言是重要的，它假定帧Ft的状态转移只依赖于系统在帧F_t-1的状态。这一模型对语音的拟合不特别好。由于这一原因，一些现代识别系统打破了马尔科夫假设，并赋予一个与状态持续时间相关的状态转移罚值(penalty)。

具体地说，已知简单地把状态持续时间限定于最大值和最小值之间，这最大值和最小值是在训练过程中估计出来的。这样，一个硬的有界极限置于状态持续时间上，这样在允许状态转移之前分配给该状态最少数量帧，而一旦满足了最大状态保持时间，则不再允许额外的自循环。把状态持续时间信息用于确定转移概率，打破了马尔科夫过程假设，但通常产生更好的识别结果。

含有大量训练数据的更复杂系统能精确地把状态转移概率作为状态持续时间的函数来建立模型。然而，对于少到只用二个发音来训练HMM的应用，则难于精确估计状态转移罚值的概率分布，因为训练数据量太少了。因此，这罚值可能产生错误的结果。

其结果是需要一种改进的系统，它使用状态持续时间信息在具有最少训练信息的系统中产生转移罚值。

根据本发明的一个方面，提供了一种无线通信装置，包含：

送话器，用于输入使用者的发音；以及

语音识别系统，其语音识别电路通过把发音帧分配给状态模型中的状态而产生被送话器检测到的使用者发音的状态模型，其中状态模型把比例罚值赋予状态赋值得分，这些罚值是对无线电话中存储的每个模型独立产生的。

图1是以方框图形式说明一无线电话的电路图。

图2是以方框图形式说明根据图1的装置中的语音识别系统。

图3说明一个左-右隐式马尔科夫模型，它带有两个被分成帧的相关语言发音。

图4说明逆向追踪网格，它伴有左-右模型中的所有可能的状态转移路径，但不允许跳跃转移。

图5说明与图4对应的由左到右、无跳跃的HMM。

图6是说明训练算法的高层流程图。

图7是说明设置上、下持续时间阈值的流程图。

图8说明加到一个模型的一个状态上的罚值。

图9是说明语音识别系统中的流程图。

图10是说明在语音识别系统中把一罚值设置到一个得分上的流程图。

这一有效方法把一转移罚值赋予一个脱离状态的转移得分，如果赋予该状态的帧数下限尚未达到的话。如果赋予一状态的帧数上限已被超过，则加上一个自循环罚值。对于已经达到下限之后的脱离状态转移不赋予罚值，对于超过上限之前的同状态转移也不赋予罚值。以只有小量的增加存储器大小和每秒执行数百万次指令(MIPS)的要求，便改善了语音识别系统的性能。自循环罚值能有效地应用于具有有限训练数据的系统，如只有两个训练发音的系统，借助这些训练发音来产生罚值。

图1中公开的装置100中能有利地利用本发明。为了说明的目的，这里把装置100描述为一个便携式无线电话，但它可以是一个计算机、一个个人数字助理、或任何其他能有利地利用语音识别的装置，特别是能利用高效存储语音识别系统优点的装置。图示的无线电话包括发射机102和接收机104，它们连于天线106。发射机102和接收机104连于一个呼叫处理器108。，它完成呼叫处理功能。可以用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑单元、上述两种或多种的组合、或任何其他适当的数字电路，来实现呼叫处理器108。

呼叫处理器108与存储器110相连。存储器110包含RAM、电可擦可编程只读存储器(EEPROM)、只读存储器(ROM)、闪烁ROM或类似存储器，或者这些存储器类型的两种或多种的组合。存储器110支持呼叫处理器108的操作，包括语音识别操作，而且必须包括一个电子可变存储器以支持状态转移路径存储器，下文中将对此作更详细描述。可提供ROM用于存储该装置的操作程序。

音频电路112向呼叫处理器108提供来自送话器114的数字化信号。音频电路112驱动扬声器116响应来自呼叫处理器108的数字信号。

呼叫处理器108与一显示处理器120相连。显示处理器是可选的，如果希望对装置100有附加的处理器支持的话。具体地说，显示处理器120向显示器126提供显示控制信号和接收来自各键124的输入。显示处理器120能由微处理器、微控制器、数字信号处理器、可编程逻辑单元、它们的组合或类似装置来实现。存储器122与显示处理器相连以支持其中的数字逻辑。存储器122能用RAM、EEPROM、ROM、闪烁ROM、或其类似物、或两种或多种这些类型存储器的组合来实现。

参考图2，由送话器114接收的音频信号在音频电路112的模-数转换器202中被转换成数字信号。本领域技术人员将会理解，音频电路112提供额外的信号处理，如滤波，为了简练，这里将不予描述。呼叫处理器108在送话器114输出模拟信号的被处理的数字信号表示上完成特征提取204，并产生一组代表使用者发音的特征矢量。对每个短时分析窗产生一个特征矢量。短时分析窗是一帧，在这里所举的实施例中是20ms。这样，每帧有一个特征矢量。处理器108把这些特征用于语音识别206或训练207。

在训练过程中，发音的特征矢量被用于建立HMM形式的样板，它们存储在存储器208中。在语音识别过程中，代表输入发音的特征矢量与在存储器208中存储的词汇词(vocabulary word)样板作比较，以确定使用者说了什么。系统可以输出一个最好匹配、一组最好匹配、或可选地无匹配输出。存储器208最好是存储器110(图1)的非易失存储器部分，例如可以是EEPROM或闪烁ROM。如这里所用的那样，“词”可以是不只一个词，例如“John Doe”，或者单个词，如“call(呼叫)”。

如前文概述的那样，存储器208中存储的词汇词是在训练方式下创建的。例如，所存储的词汇词在初始时每个是从两个训练信号，即发音U1和U2(图3)中提取出来的，由各自的特征矢量组成，发音U1代表在训练过程中说话者第一次说出一个特定词时所存储的信号。发音U2代表在训练过程中说话者第二次说出一个特定词时的信号。在所举出的实例中，发音U1的长度不同于发音U2。本领域技术人员将会理解，可以使用多些或少些发音。

每个发音被分段成特征矢量帧。例如，帧可以是20ms长。可以以任何传统方式产生特征矢量。例如，特征矢量可以包含由A/D转换器202(图2)的输出产生的倒谱(cepstral)和δ-倒谱(delta-cepstral)特征。

在这里所用的例子中，如图3-5所示，HMM有5个状态，它们的使用与发音的长度如何无关。本领域技术人员将会理解，可以使用任何数量的状态，而且可以预期对每个发音将利用10个以上状态。此外，状态数可以被固定而不管发音的长度如何，或者状态数可依赖于发音的长度。下文中的讨论将针对的系统是对任何发音都有5个状态而不管发音的长度如何。

如前面提到的那样，训练的目的是产生发音的HMM。这示于图6。它在步骤602开始，在那里作出对模型参数的初始估计。例如，参考图3，初始时由发音U1和帧F11和F12以及发音U2的帧F21和F22构成状态1(S1)。这些帧值用于初始时计算构成状态1统计表示的某些或全部参数。在最佳实施例中，统计表示是来自发音U1和发音U2的帧的均值。这样，状态1初始时被设为发音U1的帧F11和F12及发音U2的帧F21和F22的均值。本领域技术人员将会理解，在状态中也可包括一个方差。也生成其他状态的统计表示。第二状态S2是发音U1的帧F13和F14及发音U2的帧F23和F24之间的均值。类似地，状态S3是发音U1的帧F15和F16及发音U2的帧F25和F26之间的均值。状态S4是发音U1的帧F17和F18及发音U2的帧F27、F28和F29的均值。上文中提供的帧分配是作为一个例子说明初始时可以怎样把帧分配给状态以及怎样能构成状态的统计表示。然而，本领域技术人员将会理解，对于初始状态分配和状态的统计表示存在大量的其他方法，所以本发明不想限制于上述环境。

在步骤604，对每个发音使用对位算法(如Viterbi算法)把一发音(例如U1)的各帧赋予模型的各状态。在步骤606，根据在步骤604中完成的对位，对模型进行重新估计。在步骤608，处理器通过观察模型参数的变化确定模型是否已收敛。当把样本发音对位于状态模型时所产生的状态模型变化小于一预先确定量时，便发生收敛。如果在步骤608示检测到收敛，则在步骤604再次进行对位算法。

本领域技术人员将会理解，已知大量不同算法可用于对位和估计模型参数以及检测收敛，其中任何适当的一个都可以用于本发明，这里对它们不作更详细的描述。

一旦达到收敛，必须对每个状态计算出状态持续时间低限和高限阈值Dmin_i和Dmax_i，如步骤610所示。

图7更详细地说明在步骤610(图6)中涉及的持续时间阈值计算。在已创建模型并将其存储到存储器208之后，处理器108对模型的每个状态计算持续时间高限阈值，如步骤702中所示。如步骤704中所示，对每个状态计算出的持续时间高限阈值被存储起来。在步骤706中对每个状态计算持续时间低限阈值。然后，如步骤708中所示，对每个状态计算出的持续时间低限阈值被存储起来。这些低限和高限阈值与HMM参数一起存储在存储器110中，它们能用于下文中更详细描述的语音识别过程中。

具体地说，利用在步骤604中已赋给每个状态的最小和最大帧数，由HMM模型信息计算出高限和低限持续时间阈值，然后按下式用参数Dmin_tweak和Dmax_tweak作稍许调整：

Dmin_i＝(1-Dmin_tweak)× min(D_1，i，D_2，i)；

Dmax_i＝(1+Dmax_tweak)× max(D_1，i，D_2，i)。

这里D_1，i是赋予来自发音1的状态i的帧数，D_2，i是赋予来自发音2的状态i的帧数。本领域技术人员将会理解，能使用多于两个的发音。

调整总是正的，从而使它有一种倾向，即让最小值比实际模型中观察到的值略小些，而让最大值比实际模型中观察到的值略大些。例如：Dmin_tweak和Dmax_tweak可以是0.1。本领域技术人员将会理解，实际值可以改变而不偏离本发明。在题为“语言识别系统中的逆向追踪矩阵存储方法“的待决专利申请(报告号CS10103，与本申请同时期以Jeffrey Arthur Meunier等的名字被受理)中提出了提取状态持续时间(上文中提到的值D_1，i，D_2，i)的一种特别有效的方法，该专利申请公开的内容在这里被引入作为参考。

图5说明左到右无跳跃HMM。在识别过程中，呼叫处理器108利用一种对位算法，例如Viterbi算法，去把要识别的发音与训练过程中创建的每个HMM的状态进行对位。具体地说，运行对位算法是要根据所考虑的每个路径的得分确定从任何一点返回的最好路径，如将针对图4总体描述的那样。如这里所用的那样，点是网格400中的一个帧和状态的位置。路径穿过这些点延伸。

本领域技术人员将会理解，网格400(图4)显示对于8个帧从状态1到状态5的所有返回路径。一个附加限制是各帧必须分配给与前一帧相同的状态或者紧跟前一帧的状态之后的那个状态(不能有任何状态被跳过)。这与语音识别系统中帧到状态的分配相一致，而且显著地减少了为记录数据路径所需的逆向追踪信息量。对模型内从状态到状态的可能路径所作的这种限制有助于更好地模拟语言发音中声音事件的顺序、有序特征。通常，HMM状态转移在性质上被限制于从左到右，如图4所示，这里到一特定状态n的可允许路径或者来自该状态(从Sn到Sn的“自循环”)或者来自先前的状态(从S(n-1)到Sn的“单步转移”)。已经证明，这种HMM体系结构对于许多语音识别任务都是有效的。

作为举例，用于帧5(图4中水平轴上的5号)的Viterbi算法确定从帧5中每个状态(状态1(S1)、状态2(S2)、状态3(S3)、状态4(S4)和状态5(S5))返回的最好路径(即产生最好得分的从每个状态的返回路径)。具体地说，该算法考虑从点A的返回路径的得分或概率，它代表对全部头5个帧该路径位于状态1的概率。这是必定的，因为条件是当前帧必须与前一帧有同一状态或者是高于前一帧状态的一个状态。

该算法对于点B产生一个从点B穿过点G的返回路径相关的得分以及从点B穿过点H的返回路径的得分。对于点C，Viterbi算法产生伴随从点C穿过点H的路径得分及伴随从点C穿过点I的路径得分。对于点D，Viterbi算法考虑伴随从点D穿过点I的返回路径得分及伴随从点D穿过点J的返回路径得分。对于点E，Viterbi算法产生伴随从点E穿过点J的返回路径得分及伴随从点E穿过点K的返回路径得分。在计算这些得分之后，对每个状态产生最高得分的路径转移类型被保留下来，作为到达这5帧中每个状态的路径。

图9进一步说明在发音的特征矢量和训练期间产生的存储模型状态之间进行识别的过程中所发生的对位算法。图9中所示对位算法是对所存储词汇中的每个词或者该模型进行的，并输出最好输出得分作为被匹配的词。第1帧被自动地赋予状态1，所以在步骤900把它的状态持续时间计数器初始化为1，并且把帧计数器设成使t＝2，如步骤902中所示。然后处理器108把状态计数器设为i＝1，如步骤904中所示。在步骤906中处理器计算在帧t到状态i的最好路径，对此将在图10的描述中更详细地描述。

如步骤908中所示，对帧t的该状态的得分被存储起来。在步骤920，转移类型被检验，看自循环是否是到状态i的最好路径。如果自循环是最好路径，则在步骤924状态持续时间计数器被增1。如果自循环不是最好路径，则在步骤922状态持续时间计数器被复位为1。

在步骤910，处理器108确定是否达到了最后状态。如果不是，则如步骤916中所示，状态计数器i被增1，而且处理器返回到步骤906。否则，在步骤912处理器确定最后帧是否被处理，如步骤912中所示。如果未被处理，则在步骤918帧计数器被增1而且处理器返回到步骤904。如果如步骤912所示，这最后帧被处理了，则在框914输出模型最后状态的得分，然后与词汇中所有其他模型的得分作比较。所有模型中的最高得分将被选为该发音对模型之一的最好匹配。

对每个状态，将产生对转移和自循环二者的状态转移概率。当进行对位算法时，将使用对每个模型的各状态所存储的高、低持续时间限。

现在将参考图10描述如何使用罚值来计算状态转移得分。初始时，如框1010中所示，产生从状态i-1出发的状态转移概率。如决策框1012中所指出的，处理器108在步骤1012确定前一状态的状态保持时间是否已超过了极小(min)阈值。如果它小于这个低限阈值，则处理器计算一个比例罚值，如步骤1014所示。这个罚值被加到得分上以产生一个调整后的得分。如果已确定状态持续时间大于最小阈值，则对得分的调整是加0。由步骤1013或1016得到的调整后得分被存储起来，如步骤1017中所示。

如框1018所示，将计算自循环得分。在步骤1020处理器确定状态保持时间是否已超过高限阈值。如果状态持持续时间大于高限阈值，则如步骤1024中所示，处理器110计算一个比例罚值。该罚值被加到得分上以产生一个调整后的得分，如步骤1026中所示。如果在步骤1020中确定状态持续时间小于高限阈值，则如步骤1022中所示，被调整的得分不变。由步骤1022或步骤1026得到的调整后得分被存储起来，如步骤1027中所示。

然后，如步骤1028中所示，处理器108根据哪种转移类型有较高的调整后得分来选择自循环或转移二者之一。如果一步转移有最高调整后得分，则在步骤1030中把一步转移类型存储起来。如果自循环有较高调整后得分，则在步骤1030把自循环转移类型存储起来。本领域技术人员将会理解，如果允许状态跳跃的话，脱离状态转移罚值将被加到状态跳跃得分上，如同它加到一步得分上的情况那样。这样，所举示例能被容易地扩展到状态跳跃HMM的情况。

本领域技术人员将会理解，将对每帧和状态调用图10中所示例行程序，以便有选择地把罚值应用于每个帧的每个状态。

在识别过程中，所赋予的罚值的大小与持续时间短于低限阈值的量或已超过高限阈值的量成比例。罚值Po_i(d_i)是要分配给脱离状态(out-of-state)的转移，而罚值Ps_i(d_i)要分配给自循环，这里d_i是HMM状态i的当前持续时间。调用状态i的最小持续时间Dmin_i和最大持续时间D_maxi，则赋予脱离状态的转移的罚值Po_i(d_i)是：

Po_i(d_i)＝0，当d_i大于或等于Dmin_i；

Po_i(d_i)＝P^o(Dmin_i-d_i)，当d_i小于Dmin_i这里P^o是脱离状态转移罚值因子。类似地，同一状态转移罚值Ps_i(d_i)被赋值为：

Ps_i(d_i)＝0，当d_i小于或等于Dmax_i；

Ps_i(d_i)＝P^s(d_i-Dmax_i)，当d_i大于Dmax_i，这里P^s是同一状态转移罚值因子。图8中给出这些罚值的图示。

罚值因子数值的选择是要使罚值与产生路径得分的方程式中的其它值成比例。例如，这些值可在-1和-10之间，而且它们可以相同或不同。

概述地说，在第1帧之后每个状态的概率是通过比较从前一状态转移到那个状态的状态转移概率与自转移(自循环)概率来确定的。从前一状态转移的概率取值为前一状态的累积对数概率与一脱离状态转移概率之和，即：

C_i-1(m)+Po_i-1(d_i-1)同状态转移概率被确定为当前状态的累积概率与一自转移概率之和，即：

C_i(m)+Ps_i(d_i)使用加法代替乘法是因为取值是对数概率。这两个概率的较高者被选为胜者。然后把这一概率加到观测概率o_i(f_m)上，这里f_m是有m个特征的矢量，这个概率被存储起来，作为C_i(m+1)。

这样，可以看到，这里公开了一种改进的算法，用于把帧矢量匹配于状态。对每个HMM的每个状态，把较低和较高状态持续时间阈值存储在存储器208中。这样，存储在存储器中的每个模型有对每个状态各自的较高和较低阈值。然而，这表明在存储器需求方面只有最少量的增加却给出识别性能的相当大改善。

使用这一方法不仅允许较低的MIPS和低存储器需求，而且由于只需要最小和最大状态持续时间，它们能从训练数据中容易地估计出来。赋予的罚值所具有的成比例特性允许该算法甚至能用于使用最少数量训练发音得到的模型。

罚值与到较高和较低转移阈值的距离成线性比例。然而，其他函数关系也能被使用，而且申请者们已经成功地实现了其他函数，如距离的平方。没有发现这些更复杂的函数比这里所示的优选线性函数有更好的表现。

在大多数情况下，新的状态持续时间方法与没有状态持续时间罚值的方法和使用HMM/BSD技术的方法二者相比，给出显著改善的识别结果。对于使用少量训练发音(例如2个)的识别系统，具有带边界的、硬状态持续时间的先有技术HMM技术不能工作得好。对于有极少训练数据的系统，罚值算法似乎要更有效得多。

这样，可以看到，这里公开了计算状态转移的一种改进的方法。这一有效方法把一个转移罚值赋予一个脱离状态转移得分，如果赋予那个状态的帧数低限阈值尚未达到的话。如果赋予一个状态的帧数最大阈值已被超过，则应用一个自循环罚值。在低限阈值已被达到之后无罚值被赋予脱离状态转移，在最大阈值已被超过之前无罚值被赋予同一状态转移。以对存储器大小和每秒百万指令数(MIPS)需求的适当增加，便改善了语音识别系统的性能。这一改进的系统能被有效地应用于具有有限训练数据的系统，例如只有两个训练发音的系统。

尽管在上述描述和附图中已描述和图示了本发明，但应该理解，这一描述只是一种举例，本领域技术人员能做出大量的改变和修改而不离开本发明的精神和范围。尽管本发明在便携无线装置(如蜂窝无线电话)中找到了具体应用，但本发明能够应用于利用语音识别的任何装置，包括寻呼机、电子组织器(electronic organizer)、计算机、以及电话装备。本发明只应受所附权利要求书的限制。

Claims

1.一种无线通信装置，包含：

送话器，用于输入使用者的发音；以及

2.如权利要求1中定义的无线通信装置，还包含把一罚值赋予该语音识别系统中的一个得分的一种方法，该方法包含下列步骤：

产生以下二个阈值中的至少一个阈值：

赋予至少一个模型的至少一个状态的帧数的一个低限阈值；

赋予至少一个模型的至少一个状态的帧数的一个高限阈值；以及

进行至少以下二个赋值处理中的至少一个赋值处理：

在未达到所述下得分的情况下，把一脱离状态转移罚值赋予一分配赋值算法中的一个脱离状态转移得分，其中所述脱离状态转移罚值与保持时间低于所述低限阈值的帧的个数成比例；以及

在赋予一状态的高限阈值的帧数被超过的情况下，把一自循环罚值赋予一自循环得分，其中所述脱离状态转移罚值与保持时间高于所述高限阈值的帧的个数成比例。

3.如权利要求2中定义的无线通信装置，该方法还包括如果保持时间介于下和高限阈值之间则不加罚值的步骤。

4.如权利要求2中定义的无线通信装置，其中赋予一自循环阈值的步骤所赋予的罚值随着保持时间在高限阈值之上保留的时间加长而逐渐增大。

5.如权利要求2中定义的无线通信装置，其中对存储在语音识别系统存储器中的每个模型的每个状态，产生上和低限阈值。

6.如权利要求5中定义无线通信装置，其中当把帧对位算法应用于每个模型的每个状态时，对每个模型的每个状态应用这些阈值。

7.如权利要求1中定义的无线通信装置，进一步包含一个在语音识别系统中把一罚值作为状态持续时间信息的函数而赋予一个得分的方法，包含以下步骤：

对至少一个状态中的每个状态，确定出上和下状态转移阈值，每个上和下状态转移阈值是作为在所述至少一个状态下的保持时间的函数而被导出的；

对于具有一个下状态转移阈值的每个状态，在该状态的保持时间尚未达到所述下状态转移阈值的情况下，把一个成比例的脱离状态罚值赋予一个脱离状态转移；

对于具有一个上状态转移阈值的每个状态，在赋予该状态的某一最大帧数已被超过的情况下，赋予一个成比例的自循环罚值。