CN1264892A

CN1264892A - 语音识别系统及其方法

Info

Publication number: CN1264892A
Application number: CN00102409A
Authority: CN
Inventors: 戴维·E·彻瓦利尔; 亨利·L·卡泽基
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2000-08-30
Anticipated expiration: 2020-02-23
Also published as: KR20000071367A; GB2347252A; DE10006930A1; BRPI0001268B8; JP2000242294A; JP4354072B2; DE10006930B4; CN1171201C; US6275800B1; BRPI0001268B1; MXPA00001875A; GB0003269D0; BR0001268A; KR100321565B1; GB2347252B

Abstract

一个语音识别系统(204,206,207,208)产生一个可变的拒绝精度,该精度作为在训练期间测量的至少一个背景噪声电平以及在输入表达期间作出的噪声信号测量的函数,前述输入表达在识别模式的运行期间作出。一个字入口补偿被分配作为该可变拒绝精度的函数。

Description

语音识别系统及其方法

本发明涉及语音识别。

依赖于扬声器的语音识别系统利用特征抽取算法在输入语音的帧上以及代表每帧的输出特征矢量上执行信号处理。这种处理在帧频进行。该帧频一般在10至30ms之间，在此将以20ms的持续时间为例。已经知道有许多不同的特征在语音识别系统中使用。

一般来说，训练算法利用从字或短语的一个或多个表达的抽样语音中抽取的特征来生成该词或短语的模式参数。然后将该模式存储在模式存储器中。这些模式后来在语音识别期间使用。识别系统将未知表达的特征与存储的模式参数相比较，以确定最佳匹配。然后将最佳匹配模式作为该识别系统的结果输出。

已经知道利用基于识别系统的隐含马尔柯夫模式(HMM)进行这种处理。HMM识别系统将表达的各个帧分配给HMM的各个状态。选择产生最大概率或比数的状态至帧的分配作为最佳匹配。

许多语音识别系统并不能区分有效表达与无效表达。相反地，这些系统选择其中一个最接近匹配的存储模式。有些系统利用力图探测及拒绝无效表达的词表范围外的(Out-of-Vocabulary)拒绝算法。由于词表的动态大小及未知的构成，在小的词表中，依赖于扬声器的语音识别系统是一个难题。这些算法在噪声条件下退化，以至于噪声条件下的错误拒绝的数目增加。

在实际中，词表范围外的拒绝算法必须平衡由正确拒绝无效表达及错误拒绝有效表达所测量出来的性能。错误拒绝率可以在用户满意中起到至关重要的作用，因为频繁的错误拒绝，与不正确的匹配一样，将引起失败。因而，词表范围外的拒绝起到了满足用户识别期望的平衡作用。

相应地，已经知道基于噪声电平计算拒绝门限。例如，已经知道在探测第一个语音帧之前测量噪声电平。该门限是从测量中计算出来。如果这个字的参考模式与输入语音模式之间的差值大于拒绝门限，则该输入被拒绝。因而这种系统依赖于随机噪声输入电平。不能依赖这种测量来产生有意义的拒绝判决。

因此，在语音识别系统中需要一种改进的方法为拒绝表达提供一种依据。

图1为以方框图形式说明无线通信装置的电路示意图；

图2为以方框图形式说明图1装置中语音识别系统的电路示意图；

图3为带有两个节点的基础网络的示意图；

图4为用于说明训练的流程图；

图5给出了窗口及其中的相应帧；

图6为说明识别的高阶流程图；

图7为说明识别期间训练的流程图；

图8为说明补偿函数的示意图。

本发明具有在训练及识别期间依赖于背景噪声电平的可变拒绝精度。在训练期间，噪声特征生成于训练表达中。根据噪声特征更新增量噪声参考平均值。这些统计量存储在存储器中，以使它们可为识别算法所利用。当在免提模式中训练时，因为背景噪声的较高电平，噪声统计量并不被更新。如果没有可以利用的噪声统计量，则识别算法缺省为最小精度。

在识别期间，输入噪声能量特征与参考噪声统计量相比较，并且计算出噪声比。然后根据该噪声比选择词表范围外的拒绝算法的精度。本发明在出现噪声时有助于防止有效表达的错误拒绝。

在两级定位算法识别搜索中，精度参数为字入口补偿(penalty)。随着零平均值的单个状态无用信息模式与语音标记模式互相平行，实现了最佳路径的置信测量。

图1中公开了一种可以有效利用本发明的装置100。在这里为了说明起见，装置100被描述为手提无线电话，但是也可以为计算机，个人数据助理，或者是任何可以有利地采用语音识别的装置，尤其是可以利用对语音识别系统有效的存储器的装置。所述的无线电话包括耦合至天线106的发射机102及接收机104。发射成功机102及接收机104耦合至呼叫处理器108，该处理器执行呼叫处理功能。呼叫处理器108可以利用数字信号处理器(DSP)、微处理器、微控制器、可编程逻辑部件、两个或多个上述装置的结合或者任何其他合适的数字电路来实现。

呼叫处理器耦合至存储器110。存储器110包括RAM，电可擦可编程只读存储器(EEPROM)，只读存储器(ROM)，快闪ROM，或类似装置，或两个或多个这些存储器种类的组合。存储器110支持呼叫处理器108的操作，所述操作包括语音识别操作，并且必须包括电可变存储器以支持状态转移路径存储器。ROM可以被用来存储装置运行程序。

声频电路112提供从话筒114向呼叫处理器108的数字化信号。响应于来自呼叫处理器的数字信号声频电路112驱动扬声器116。

呼叫处理器108耦合至显示处理器120。如果需要其他的处理器支持装置100，则显示装置为可选择的。尤其是，显示装置120向显示器126提供显示控制信号，并且接收来自键124的输入。因此，显示处理器120可以利用微处理器，微控制器，数字信号处理器，可编程逻辑部件，它们的结合或类似装置来实现。存储器122耦合到显示处理器以支持其中的数字逻辑。存储器122可以利用RAM，EEPROM，快闪ROM，或类似装置，或两个或多个这些存储器种类的组合来实现。

参照图2，话筒114所接收的声频信号在声频电路112的数模转换器202中被转换为数字信号。本领域的技术人员将认识到，声频电路112提供诸如过滤的其他信号处理，为了简洁起见在此没有描述这些处理。呼叫处理器108在被处理的数字信号上执行特征抽取204，并且产生一组表示用户表达的特征矢量，前述被处理数字信号表示由话筒114输出的模拟信号。产生的特征矢量用于每个短时分析窗口。该短时分析窗口为一帧，在本申请的示范例中为20ms。因而每帧有一个特征矢量。处理器108将该特征用于语音识别206及训练207。

在训练中，表达的特征矢量被用于创建HMMs形式的模板，该模板存储于存储器208中。在语音识别中，表示输入表达的特征矢量与存储器208中存储的词表中字的模板相比，以确定用户所说的内容。该系统可能输出最佳的匹配，一组最佳的匹配，或也可能是，没有匹配。存储器208最好是存储器110(图1)的非易失性存储器部分，例如可以为EEPROM或快闪ROM。如本申请所使用的，“字”可以是多于一个字的字，诸如“John Doe”，或者诸如“call”的单个字。

特征抽取器204一般在输入语音的帧上执行信号的处理，并且以帧频输出代表每帧的特征矢量。帧频一般在10ms与30ms之间，例如可以为20ms的持续时间。训练器207利用从字或短语的一个或多个表达的抽样语音中抽取该特征，以产生用于该字或短语的模式参数。然后将该模式存储在非易失性存储器208的模式存储器中。该模式的大小直接依赖于特征矢量的长度，较长特征矢量的长度需要较大的存储器。

接着，存储于存储器208中的模式在识别206中被利用。该识别系统执行一个在未知表达的特征与存储的模式参数之间的比较，以确定最佳匹配。从识别系统输出的最佳匹配模式作为结果。

参照图3，图3示出了表示语音识别的基础网络。节点N₁及N₂由HMMs模式所连接，该HMMs模式由弧A₁-A_N加上无用信息模式弧A_GM表示。弧A₁-A_N表示所有的HMM模式，前述HMM模式在语音识别系统中已经被训练，并且存储在存储器208中。无用信息模式弧表示单一状态无用信息的模式基准。

节点N₁包括一个单一状态噪声模式A₁ ^noise。节点N₂类似地包括一个单一状态噪声模式A₂ ^noise。该识别系统采用识别算法从弧A₁-A_N以及A_GM中选择其中的一个作为最佳匹配，或者可选择地识别出没有匹配(即如果没有探测到语音)。如果A_GM为最佳弧，该输入作为无效信号被拒绝。

现在参照图4，图4描述了训练的过程。首先，如步骤402所示，执行主训练207以得到每个表达，或存储在存储器208中的状态模式A₁-A_N。已经知道有许多不同的方法用于创建HMM模式。在图4的说明中，每个弧为从左至右，HMM模式不带有状态跳跃，因此只允许自环路及单步骤转移。这种模式推导的简要说明将在下文中描述。本领域的技术人员将认识到，这些弧可以是其他已知模式的弧，并且被其他已知方法所知。

首先，在特征抽取器204中抽取特征。预见到特征抽取器将产生用于表达的每个帧的对数倒频谱(cepstral)及δ对数倒频谱系数。本领域的技术人员将认识到，有许多计算对数倒频谱的方法，并且用于估计它们的导数，可以使用任何合适的技术来得到这些系数。图5中帧F₁至F_N在该窗口期间被产生，每个帧构成特征。有些帧表示噪声，特征抽取器从这些帧中产生噪声能量特征。其他帧表示语音信号部分。

回到图4，在步骤604中，处理器108在训练207期间计算每个弧形模式的噪声特征，如步骤604所示。该噪声测量从多个特征矢量中得到，该特征矢量在捕获窗口的开端及末端期间产生。尤其是，希望利用在表达的开始阶段及末尾阶段期间测量的特征矢量的平均值。例如，可以利用捕获窗口的第一个160ms的“开始平均值”(Savge)，以及最后160ms的“末端平均值”(Eavge)。图5所示的捕获窗口包括开始阶段及末尾阶段，噪声特征矢量在在此期间被存储。例如，捕获窗口可能为2秒钟长，其表示字的最长持续时间。该捕获窗口可以是固定或可变的长度，这取决于输入表达的期望长度以及实现方式的存储器约束。

在步骤404中得到噪声特征的处理器108在步骤404中确定该该装置是否处于免提模式。该装置可以包括一个指示该装置处于免提模式的状态标记，该免提模式由用户通过键盘菜单启动，或者该装置可以包括一个机械连接器，当该装置被连接到一个免提套件时，该机械连接器启动一个转换开关。

如果该装置不处于免提模式，该处理器在训练(对于每个表达，训练被独立地实现)期间计算噪声特征X_nz，该噪声特征是Savge和Eavge的最小值(即min(Savge，Eavge)，如步骤410所示。对于输入语音的每个帧来说，能量值可以从其抽样中计算出来。Savge和Eavge是来自所示帧的这些能量值的平均数。最小值用于每个训练表达中，以更新正在运行的噪声平均值。该噪声平均值利用下面的方程式被反复地更新：

Xref(k)＝((k-2)^*Xref(k-2)+(Xnz1+Xnz2))/k

其中Xref(k)为第k个噪声特征的参考值，Xnz1表示从第一个训练表达的Savge和Eavge最小值中发现的噪声特征，Xnz2表示从第二个训练表达的Savge和Eavge最小值中发现的噪声特征。

被更新的噪声平均值和用作噪声平均值更新的训练表达的数量被记录在存储器110中，如步骤412所示。

如果在步骤406中确定该装置处于免提模式，如步骤408所示，一个免提标记HF在步骤408中被设置。如果该训练处于免提模式，被设置的标记HF表示当前处于免提模式，而不是更新噪声模式。

假定训练环境相对地安静。这可以通过信号质量检验来实现，该信号质量检验要求所有的训练表达至少具有18dB的信噪比。可以采用检验来保证用户在Savge和Eavge测量时间期间没有说话。

由处理器108所执行的识别206的普通操作将参照图6作一般地描述。首先，计算用于测试表达的噪声特征，该测试表达是系统正试图识别的输入表达，如步骤602中所示。在识别模式中，背景噪声测量是从相同表达窗口的开始160ms Savge和最后160ms Eavge中作出。在识别期间的噪声测量为Xrecog，等于Savge和Eavge的平均值。将该值与训练模式中计算出来的参考噪声值相比。该比较用于发现识别背景噪声估计与训练背景噪声估计的比率。本领域的技术人员将认识到，也可以利用这些值的其他相对比较。

处理器108接着在步骤606中计算字补偿。该比率用于计算字入口补偿。该字入口补偿控制词表范围外的拒绝的精度。一般来说，较高的噪声环境具有较低的精度值。使用一个查找表来计算字入口补偿，这个字入口补偿带有作为存储器表地址的噪声索引比以及作为输出的补偿值。可以利用如图8所示的有利的十个补偿分布，有意义的是在识别模式中(比率6-9)中，较多噪声的环境在本质上具有比代表识别模式的比率更小的补偿，所述的代表识别模式的比率更接近于训练模式的噪声参考值(比率0-4)。例如，这条曲线可以从如下公式得到：

x＝Xref(k)/Xrecog

f(x)＝1/(1+2^1.5(x-5))

超出范围的索引标志比将缺省为零的最小字入口补偿。例如，所应用的实际补偿可以为-220^*f(x)，尽管实际的标量可以是任意值，这个值导致一个补偿值，和与其结合的比数有一个所希望的比例。

非线性关系的使用通过在噪声环境好时提供一个大的补偿，在噪声环境坏时提供一个小的补偿，对词表范围内的和词表范围外的识别提供一个重要的改进。本领域的技术人员将认识到，字入口补偿的计算可以直接得到，而不是通过利用查阅表得到

如步骤608所示，该识别继续其主搜索及并行的无用信息模式。该识别系统的目标是发现图3中从节点N₁至节点N₂的最可能的路径。节点N₁和节点N₂通过路径A₁-A_N耦合，路径A₁-A_N表示对于N个字的词表的隐含马尔柯夫模式，可选择地包括一个无用信息模式A_GM。附加的A₁ ^noise及A₂ ^noise表示噪声模式，并且与节点N₁和节点N₂有关。在输入表达中，无用信息模式试图捕获任何非词表范围内的声音或字。它是一个值为零的状态模式，只用于词表范围外的拒绝算法所利用的状态零值模式。为了防止它构造比噪声模式更好的噪声，对于归为噪声类的各个帧，一个补偿被施加在无用信息模式概率上。

如图3所示，通过基础网络的搜索利用诸如维特比算法的两级定位算法来实现。这种搜索的最低级发现输入表达的各个帧与给定弧的状态之间的最佳定位及路径比数。这种技术的一个例子是用于将表达的各个帧施加在单一模式的各个状态上，该技术在卷号为CS10103的同时待审的专利申请中公开，该申请的题目是“METHOD OFTRACEBACK MATRIX STORAGE IN SPEECH RECOGNITIONSYSTEM”，与本发明同一天以Jeffrey Arthur Menuier等的名义申请，并且在卷号为CS10104同时待审的专利申请中公开，该申请的题目是“METHOD SELECTIVELY ASSIGNING A PENALTY TO APROBABILITY ASSOCIATED WITH A VOICE RECOGNITIONSYSTEM”，与本发明同一天以Daniel Poppert的名义申请。这些公开在此作为参考。较低级定位算法产生一个比数用作通过给定HMM弧的输入表达的最佳路径。

除较低级定位算法之外，其中每个弧的比数，或HMM，通过累积概率(C_i ⁿ(m))被跟踪，该累积概率为在帧m中弧A_n的状态i的累积概率，节点N₁及N₂也必须跟踪它们自己的累积概率。节点累积概率C_j(m)为在帧m中节点N_j的累积概率。该概率的计算非常象每个HMM的累积概率，在累积概率中保持节点的最高比数。累积概率可以用以下公式计算：

C_j(m+1)＝Max_n∈Aj{Cⁿ _In(m)+Po_In(d_In)}

其中A_j为终止在节点J的弧的集合{A₁，A₂，...，A_N}。In为弧n中的状态数，D_In为弧n的最后状态的持续时间，Po_in(d_In)为对弧n的最后状态的超出状态之外的转移补偿。该累积概率为终止在节点Nj的所有弧中最后状态的累积概率Cⁿ _In(m)与其超出状态之外的概率之和的最大值。

当跟踪节点的累积概率时，必须修改每个弧初始状态的累积概率的计算c₁ ⁿ(m)，以便于从节点Nj转入其初始状态。有一个一次转移补偿分配给从节点Nj向弧An的初始状态转移，被称为字入口补偿。它并不适用于噪声模式或无用信息模式，因此当被启动时它作为词表范围外拒绝的精度控制。累积概率可以被看成

C_i ⁿ(m+1)＝o_i ⁿ(f_m)+max(C_j(m)+W(n)，C₁ ⁿ(m)+P_s1(d₁))

其中W(n)＝{g(x)，如果n∈{A₁，A₂，A₃}}

{0，如果n∈{A₁ ^noise，A₂ ^noise，A₃ ^noise}}

其中W(n)为字入口补偿，A_gm为无用信息弧，A₁ ^noise为节点1的噪声弧，o_i ⁿ(f_m)为弧n在状态i中特征矢量的观测概率，P_s1(d₁)为弧n状态1的相同状态转移补偿。这个方程式保持着相同节点到从起始节点的转移的最大值与观测概率之和。在识别处理末端保留下来的信息是横穿到达节点2的弧。这是通过与累积概率C_i ⁿ(m)及C_j ⁿ(m)一起的传播路径信息实现的。

对于有效表达，通过定位算法的字模式的最佳路径必须利用一个比字入口补偿更大的值来产生一个比无用信息模式更好的比数，否则有效表达将被错误地拒绝。对于无效表达，无用信息模式必须比通过每个合格字模式的路径更大，以便该表达被正确地拒绝。

识别算法利用所收集的特征矢量的整个窗口，例如该窗口一般可以为2秒的数据。此外，它利用每个帧的一个语音/噪声分类位，更新图3中的A₁ ^noise及A₂ ^noise使用的单个状态噪声模式。

在识别模式中，处理器108通过设置噪声更新标记为1及帧计数器为0来对识别进行初始化，如步骤702中所示。在步骤704中帧计数器被加1。接着在步骤706中处理器确定噪声标记是否被设置。如果没有，处理器继续进行判决716。如果该标记被设置，在步骤708中处理器108确定噪声模式是否仍然被启动，如果没有，在步骤714中噪声更新标记被设置为0。在一定数目的更新实现以后，噪声建模被关闭。

如果仍然应执行噪声更新，在步骤710中处理器确定是否更新噪声模式。如果处理器将更新该帧的噪声模式，在步骤712中该模式被更新。噪声模式A₁ ^noise及A₂ ^noise由该系统通过利用语音/噪声分类位动态地计算出来，该语音/噪声分类位由特征抽取算法所送出。是否更新当前帧的噪声模式的判决的细节通过查阅语音分类来作出，该语音分类由特征抽取算法得出。一旦预先确定数目的连续语音帧被看作表达，就不再进行更新。例如，该限制可以为3帧。如果该帧的语音对噪声的分类来说，指示该帧为噪声帧，噪声模式仅对特定帧更新。

接着，在步骤716中处理器确定帧计数器是否小于帧门限数目。直到特定数目的帧已经被处理时，概率估计才会开始。这使得在基于噪声模式的概率被计算出来之前，该噪声模式变得一定程度精确。如果没有收到帧门限数目，则处理器返回步骤704，其中帧计数器加1。

如果帧计数器超过该门限，处理器108在步骤718中计算该帧的节点及弧的累积概率。概率比数在步骤710中被归一化。归一化可以通过从所有其他的累积概率中减去最大的累积概率而得到。累积归一化因数也被跟踪，以便非归一化比数可以在识别过程结束时返回。

接着，在步骤722中处理器确定最后一帧是否被处理。如果没有，处理器返回步骤704，并且递增帧计数器。否则，该识别结果与归一化比数一起被输出，如步骤724所示。

这个噪声模式为单个状态模式。该状态的矢量平均是一个m的函数μ₁ ^noise(m)，因为它被动态地计算，并且在第m+1帧用新的特征矢量f_m+1更新，如下所示：

μ₁ ^noise(m)＝((M_noise(m)^*μ₁)+f_m+1)/(M_noise(m)+1)

其中，M_noise(m)为已经被用于计算μ₁ ^noise的噪声帧的数目，其可以取不同于m的值，因为不是所有的帧都被用于噪声更新。此外，该更新方程式仅被用作噪声模式的对数倒频谱元素。δ对数倒频谱及δ能量噪声元素固定为0。

因此，可以看出本发明公开了一种改进的系统，该系统在训练及识别期间提供了依赖于背景噪声电平的各种拒绝精度。该系统有助于防止无效表达与存储的语音模式的有关性，并且有助于提高有效表达准确探测。

尽管本发明已经以上述说明书及附图公开如上，但应理本说明书仅作为例子，本领域的技术人员在不背离本发明的精神及范围的前提下，可以作出各种的变化和修改。尽管本发明在诸如在蜂窝无线电话的手提式无线设备中发现特定的应用，但是本发明可以适用于任何采用语音识别的装置中，这些装置包括寻呼机、电子管理器、计算机以及电话装置。本发明的保护范围应以权利要求所界定的范围为准。

Claims

1.一种操作语音识别系统的方法，包括以下的步骤；

产生一个可变的拒绝精度，该精度作为在训练期间测量的至少一个背景噪声电平以及在输入表达期间作出的噪声信号测量的函数，前述输入表达在识别模式的运行期间作出；

得到一个字入口补偿，该字入口补偿作为该可变拒绝精度的函数。

2.根据权利要求1所定义的方法，其中产生一个可变的拒绝精度的步骤包括对于一个模式在至少部分训练表达期间测量噪声的步骤。

3.根据权利要求1所定义的方法，还包括有选择地更新来自于训练表达的噪声特征的步骤。

4.根据权利要求1所定义的方法，还包括用一种模式在训练期间存储噪声统计量的步骤，以便它们可以为识别算法所利用。

5.根据权利要求3所定义的方法，其中当在免提模式中训练时，噪声统计量不被更新。

6.根据权利要求3所定义的方法，还包括产生信噪比的步骤，其中如果信噪比低于预定的大小，则训练被禁止。

7.根据权利要求1所定义的方法，其中在识别期间，如果对于一个表达没有噪声统计量可以利用，则当将定位算法应用于该表达时，识别算法缺省为最小的精度要求。

8.根据权利要求1所定义的方法，其中在识别期间，输入噪声能量特征与参考噪声统计量相比较，并且计算出噪声比。

9.根据权利要求8所定义的方法，其中词表范围外的拒绝算法的精度基于该噪声比而被选择。

10.根据权利要求1所定义的方法，其中最佳路径的置信度量利用零平均值的单个状态无用信息模式与语音标记模式并行来实现。