CN101548285A

CN101548285A - 自动语音识别方法和设备

Info

Publication number: CN101548285A
Application number: CNA2008800009507A
Authority: CN
Inventors: 陈浪舟
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-10-04
Filing date: 2008-10-02
Publication date: 2009-09-30
Also published as: GB2453366A; GB0719453D0; US20090099841A1; WO2009044931A1; GB2453366B; JP2010540976A; JP5331801B2; US8311825B2

Abstract

一种用于计算在语言模型前看树中的节点处的前看概率的系统，其中语言的词汇表的词位于所述树的叶处，所述设备包括：装置，用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率；装置，用于使用第一语言模型计算所述树中的所有节点的语言前看概率；装置，用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型更新所述词；以及装置，用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。

Description

自动语音识别方法和设备

技术领域

本发明涉及自动语音识别(ASR)领域。更具体而言，本发明涉及用于计算语言模型前看(look ahead)概率的方法和设备。

背景技术

在ASR中使用独立于声学观测的语言模型LM来限制应该如何将语言中的词连接起来以形成句子。通常使用的语言模型基于其中考虑了n-1个历史词的n元(n-gram)。当语言模型由于将被应用而需要完成的词时，引入语言模型前看LMLA概率，其允许在一个词完成之前应用语言模型。

语言模型前看(LMLA)可以加速n元解码过程。LMLA的主要思想为当不知道当前词id时使用LMLA概率作为语言得分(linguistic score)。该技术导致解码过程的更有效率的修剪。然而，在常规方法中产生LMLA概率的计算成本很高。当采用高阶LMLA例如三元LMLA时，在搜索空间中出现的不同三元语境(context)的数目与二元语境的数目相比急剧增加。结果，三元LMLA的计算成本远远高于二元LMLA，这甚至不能通过使用该技术减少搜索空间来补偿。为了克服该问题，提出了一些好的方法，包括基于节点的LMLA概率高速缓存(cache)、预计算LM概率以及完美散列(perfect hashing)。这些方法中的大多数集中于怎样有效地高速缓存和查询LMLA概率。然而，产生LMLA概率本身就是耗时的过程。

发明内容

本发明解决了该问题，并在第一方面提供了一种用于计算在语言模型前看树中的节点处的前看概率的系统，其中语言的词汇表的词位于所述树的叶处，

所述设备包括：

装置，用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率；

装置，用于使用第一语言模型计算所述树中的所有节点的语言前看概率；

装置，用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型更新所述词；以及

装置，用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。

本发明从较低阶LMLA树产生较高阶LMLA概率。所述方法基于稀少的n元LM。在基于回退(backoff)的LM中，给定词语境信息，仅仅显式(explicitly)估计n元概率的一小部分，而通过回退估计来计算剩下的n元概率。基于该事实，从(n-1)元LMLA树开始计算n元LMLA树。如果n元LMLA树中的节点与显式估计的n元值不相关，那么可以从(n-1)元LMLA树直接得到该节点的LMLA概率。

使用该方法，产生二元LMLA树的过程加速到3倍，产生三元LMLA树的过程加速到12倍。

常规方法将计算LM概率和LMLA概率作为两个独立的过程处理。然而，LMLA概率的计算和LM概率的计算有很强的关联。利用该关系，可以极大地加速LMLA概率的计算。

本发明减少了在以统计语言模型和语言模型前看运行的解码器中计算语言模型(LM)前看概率的数目。此外，本发明减少了LM前看的存储器成本。

当考虑n元语言模型时，需要比较与词和出现的之前词相关的统计信息。然而，并不总能得到该数据。为了解决该问题，得出了回退参数的概念，其允许当不能得到特定的词的二元数据时，从例如用于该词的一元模型来估计二元概率。所述系统将优选使用回退参数用于较低阶语言模型。所述系统被配置为存储或计算该回退参数。

为了确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率，所述系统优选被配置为确定一个词是否与预先识别的词相结合出现。

所述较高阶模型优选为二元、三元、四元或更高阶n元模型。

在优选的实施例中，所述系统还包括具有多高速缓存结构的存储器，其中所述存储器的高速缓存的数目等于在所述系统中使用的所述n元模型的阶。

在第二方面，本发明提供了一种自动语音识别系统，包括：

装置，用于接收语音；

装置，用于从所述语音提取声学信号并确定在所述语音中包含的词的第一概率；

装置，用于提供语言模型以确定在所述语音中包含的词的第二概率，其包括用于计算在上述语言模型前看树中的节点处的前看概率的系统；以及

装置，用于组合所述第一和第二概率并输出从所述接收的语音中识别的词。

用于接收语音的装置可以是麦克风、语音记录等。

在第三方面，本发明提供了一种用于计算在语言模型前看树中的节点处的语言模型前看概率的方法，其中语言的词汇表的词位于所述树的叶处，

所述方法包括：

使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率；

使用第一语言模型计算所述树中的所有节点的语言前看概率；

确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型概率更新所述词；以及

仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。

优选地，确定较低阶语言模型概率使用回退参数。

所述方法为动态方法，并且需要连续解码新的声学信号以形成词。如果需要新LMLA树，其可以这样构建：

重新设定语言模型前看概率至较低阶语言模型；

确定是否可以使用较高阶语言模型计算词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型概率更新所述词；以及

不必为接收的每一个声矢量更新LMLA树。例如，确定了新的矢量不会导致新LM语境，或可以在高速缓存中找到该语境的LMLA树，便不需要更新LMLA。

在第四方面，本发明提供了一种自动语音识别方法，包括：

接收语音；

从所述语音提取声学信号并基于所述声学信号确定在所述语音中包含的词的概率；

提供语言模型，该模型包括计算在上述语言模型前看树中的节点处的前看概率；以及

输出从所述接收的语音中识别的词。

虽然说明书将集中于语音识别，但本领域的技术人员可以理解本发明还可以应用于语音到语音翻译、OCR、手写识别、或其他使用统计语言模型信息的动态编程搜索。所述系统甚至可以应用于DNA基因组排序。

本发明可以通过硬件或通用计算机中的软件来实施。此外，本发明还可以由硬件和软件的组合来实施。本发明还可以通过单处理设备或处理设备的分布网络来实施。

因为本发明可以通过软件实施，所以本发明涵盖在任何适当的载体介质上为通用计算机提供的计算机代码。所述载体介质包括任何存储介质，例如，软盘、CDROM、磁装置或可编程的存储器器件、或任何瞬态介质，例如，任何信号，例如电、光或微波信号。

附图说明

图1为ASR的搜索空间的示意图；

图2为发音网络的示意图；

图3为示出了基于词汇网络和二元LM的搜索空间的示意图；

图4为LM前看概率树的示意图；

图5示出了根据现有技术的方法计算语言模型前看概率的步骤；

图6示出了根据本发明的实施例计算语言模型前看概率的步骤；

图7示出了基于多高速缓存结构的三元LMLA；以及

图8是使用LMLA的常规信号处理系统的示意图。

具体实施方式

现在将参考下列非限制性的优选实施例更详细地描述本发明。

在自动语音识别(ASR)期间，首先将有待识别的语音数字化，然后计算表示语音的谱域内容的特征。为了将这些特征匹配到识别系统的词汇表内的词，使用两种类型的概率分布。一种为声学语音学或声学模型，表示将从上述特征得出的声矢量匹配到已说出的词的概率，另一种为语言模型。语言模型完全独立于声学观测并被用于限制如何连接词汇表的词以形成完整的句子。

本发明涉及语言模型。然而，为了描述本发明，首先给出通常的ASR的描述。

如这里所使用的，数语“词”表示统计语言模型的基础单元。与“词”相关的，词序列、子词序列和词汇的概念如下：

a.词序列

i.解码的通常问题为找到在输入信号中包含的“词”的序列。“词”为语言模型(LM)中的统计单位的序列。

ii.可以通过称为n元模型的统计LM建模词的序列，该n元模型使用最近的n-1个历史词来计算当前词的概率。假设存在词的序列w₁w₂…w_K，基于n元模型，w₁w₂…w_K的概率可以被计算为：

P (w_{1} w_{2} \cdot \cdot \cdot w_{K}) = Π_{i = 1}^{K} P (w_{i} | w_{1} \cdot \cdot \cdot w_{i - 1}) \approx Π_{i = 1}^{K} P (w_{i} | w_{i - n + 1} \cdot \cdot \cdot w_{i - 1}) - - - (1)

在公式1中，如果i-n+1<1，词历史从w₁开始。

b.子词序列

对于本专利中考虑的解码任务，每一个词可以被表示为1个或多个子词单元的序列，子词为，例如，语音中的音素、OCR等中的字母，例如“sat/sAt/，sang/sAng/”。

c.词汇

词汇为搜索空间中的词组(word set)的一般表示，并通常由词汇网络表示，词汇网络中的每一条路径表示一个词的子词序列。广泛使用的词汇前缀树为词汇网络的特殊情况。

解码的主要任务为从极大的搜索空间选择具有最大似然的词序列。对于基于隐马尔科夫模型(HMM)的大词汇表连续语音识别(LVCSR)，解码问题为，在给出了声学特征序列时，组合词汇、声学模型和语言模型信息并以给定的时间从其中每一节点关联于一个HMM状态的格状搜索空间寻找最佳路径(具有最大后验似然)，即，最佳HMM状态序列。图1示出了ASR的搜索空间(Ney及Ortmanns 2000)的实例。

图2示出了发音网络。出于效率原因，通常将ASR的发音词汇组织为其中每一个圆弧表示一个音位模型的发音网络。音位模型可以依赖或独立于语境。广泛使用的发音前缀树为发音网络的特殊情况。

图3示出了H.Ney和S.Ortmanns在2000年8月的Proceedings of theIEEE，pp 1224-pp1240中的“Progress in Dynamic Programming Searchfor LVCSR”中所采用的ASR的搜索空间的示意图。在图3中，词汇网络包含3个词A、B、C和静音(silence)。在每个帧t中，以相同词结束的所有假设被重新组合并按照对应的词历史被传播到新的词汇网络中。

给定声学特征序列，解码原理可以被表达为

{\hat{w}}_{1}^{K} = \underset{w_{1}^{K}}{\arg \max} {P (w_{1}^{K}) \cdot \max_{s_{1}^{T}} P (x_{1}^{T}, s_{1}^{T}, {lw}_{1}^{K})} - - - (2)

其中

为搜索空间中的词序列，

为从帧1到帧T的声学特征序列，以及

为从帧1到帧T的HMM状态序列。在使用SLM信息的时间同步维特比(viterbi)解码中，对于每一个帧t，动态编程过程可以分为两部分，在词内的过程和在词的边界处的过程。如果采用二元解码，在词内的过程可以表示为如下

Q_{V} (t, s) = \max_{s'} {p (x_{t}, s | s') \cdot Q_{V} (t - 1, s')} - - - (3)

B_{V} (t, s) = B_{V} (t - 1, s_{V}^{\max} (t, s))

其中，Q_v(t，s)为前趋(predecessor)v的结束于时间t且处于词汇网络的状态s的最佳局部路径的得分，系统使用Q_v(t，s)来传播假设。B_v(t，s)为前趋v的结束于时间t且处于词汇网络的状态s的最佳局部路径中的最后的历史词的结束时间。系统使用B_v(t，s)存储追溯信息。

为假设(t，s)和前驱v的最优前趋状态。

在词的边界处，LM得分必须被加到局部路径的总得分，然后，应该重新组合在时间t以词w结束的所用假设，即，

H (w; t) = \max_{v} {P (w | v) \cdot Q_{v} (t, S_{w})} - - - (4)

其中S_w为词汇网络中的词w的终点状态。在增加了LM得分之后，使用新的得分以执行下一步骤的动态编程过程，即，

Q_v(t-1，s＝0)＝H(v；t-1)

(5)

B_v(t-1，s＝0)＝t-1

通过修剪除去得分小的假设。修剪方法包括声束修剪、语言模型束修剪和直方图修剪等。对于每一帧t，声束修剪选择最佳状态假设，并且仅仅保留其得分接近最佳得分的假设，即，

Q_{AC} (t) = \max_{(v, s)} {Q_{v} (t, s)} - - - (6)

如果Q_v(t，s)<f_AC·Q_AC(t) (7)

那么状态假设(t，s，v)将被修剪掉，其中f_AC为修剪阈值。

语言模型修剪仅仅被应用于到达当前帧t的词边界的假设。这可以被描述为：

Q_{LM} (t) = \max_{(v, s)} {Q_{v} (t, s = 0)} - - - (8)

如果Q_v(t，s＝0)<f_LM·Q_LM(t) (9)

词边界处的假设(t，s＝0，v)将被修剪掉。

如之前所述，本发明涉及语言模型，并且具体而言涉及LM前看技术。

上述解码算法基于词汇发音网络，其中直到到达其他词不能分享的第一圆弧系统才可以获得词ID。因此，词ID通常邻近词汇发音网络的尾部。因为语言模型限制了如何连接词，所以当检测词ID时仅仅可以非常晚地将其并入到解码过程中。

然而，为了尽可能早地引入LM得分，S.Ortmanns、H.Ney和A.Eiden在1996年10月的“Language-Model Look-ahead for Large VocabularySpeech Recognition”，Proc.Int.Conf.Spoken Language Processing，Philadelphia，PA，pp 2095-pp 2098，中提出了LM前看技术。

给定LM语境，对于LM前看网络中的每一个节点，将LM前看概率限定为从该特定的节点可以达到的所有词的最大LM概率，即，

π (n | h) = \max_{w &Element; W (n)} P (w | h) - - - (10)

其中，W(n)表示从节点n可以到达的词的组。

LM前看的基本思想为将LM前看概率并入到动态编程过程中以获得更有效的修剪。没有LM前看技术，在词内的假设的得分不包含当前词的LM得分，因为当前词ID是未知的。当使用LM前看技术时，将LM前看概率并入到假设的原始得分中，并基于这些新的得分进行修剪。

图4是LM前看概率树的图。LM前看网络为例如在图2中示出的类型的发音网络的副本。在图4的LM前看树中，给定特定的LM语境，每一个节点包含其LM前看概率。可以通过去除仅具有一个后继节点的所有节点来压缩LM前看网络。

计算LM前看概率的常规方法采用动态编程过程。因为LM前看网络中的每一个叶节点对应于单独的词，所以首先，LM前看网络中的叶节点的LM前看概率被分配为不同的词的真实LM概率。然后，对于每一个特定的节点，通过其后继节点的最大LM前看概率来确定LM前看概率。可以从底部到顶部递归计算整个LM前看网络的LM前看概率，即，

π (n | h) = \max_{n' &Element; s (n)} π (n' | h) - - - (11)

其中，s(n)为节点n的后继节点的组。

典型地，LM前看概率必须在解码过程期间即时产生。因此，计算LM前看概率的效率会极大影响解码速度。虽然动态编程过程提供了计算LM前看概率的有效方法，但是其会导致过量的计算次数。

图5示出了LM前看概率的计算。计算可以分为两部分，即，图5a示出的第一部分和图5b示出的第二部分。第一部分基于LM语境例如词的n元模型概率计算词汇表中的每一个词的LM概率。第二部分通过为每一个节点求和从特定节点可以达到的所有词的LM概率来为LM前看网络中的每一个节点分配LM前看概率。

通过动态编程过程分配LM前看概率。假定词汇表包含V个词，LM前看网络包含M个节点。这意味着对于发生在搜索空间中的每一个LM历史，LVCSR系统必须在步骤1中查询V个概率，在步骤2中产生M个前看概率。在LVCSR系统中，V和M的值非常大。典型地在识别一个句子的期间，在搜索空间中存在几百个二元语境和几千个三元语境。对于更高阶的n元，例如，4元，搜索空间中的LM语境的数目甚至更大。对于每一个LM语境，必须进行上述的LM概率计算。因此，使用常规方法计算LM前看概率时，CPU成本很高。

同时，如果高速缓存出现在搜索空间中的LM前看概率，假定LM前看网络包含M个节点，并且在搜索空间中出现N个不同的LM语境，那么，需要存储M×N个LM概率。在LVCSR系统中，当使用高阶n元解码时，M和N都很大，因此进行LM前看的存储器成本同样很高。

图6示意性地示出了根据本发明的实施例计算LM前看概率的方法。

在实施例中，使用低阶LM前看信息以减小较高阶LM前看的计算。参考图5描述的方法没有使用低阶LM前看信息，LM前看网络中的每一个节点必须被分配一个LM前看概率。

在根据本发明的实施例的方法中，仅仅需要更新小子集的节点的LM前看概率，而对于LM前看网络中的大多数节点，可以直接从低阶LM前看网络复制其LM前看概率。

基于回退(backoff)的n元模型的可以被表达为如下：

其中，f(.)为从n元文件中读取的折扣(discounted)LM概率，C(.)为训练语料(training corpus)中出现的事件的频率，回退(h)为使得所有w的概率的和等于1的历史h的回退参数，以及h′表示h的较低阶历史。

公式12指示了当在n元数据中不能找到历史-词对时，可以使用较低阶模型作为回退估计。实际而言，对于大词汇表应用，给定历史h，可以在训练数据中找到的不同的历史-词对的数目远小于词汇表V的尺寸。这意味着，对于每个词历史h，大多数的n元概率通过回退估计给出。可以使用该现象加速语言建模的计算。

当考虑n元语言模型时，需要比较与词和出现的之前的词相关的统计信息。然而，并不总能得到该数据。为了解决该问题，得出了回退参数的概念，其允许当不能获得特定的词的二元数据时，通过例如用于该词的一元模型来估计二元概率。例如，在图6的实施例中，回退参数计算如下：

n元LM可被计算为：

P (w | h) = \{\begin{matrix} f (w | h) & if (C (h, w) > 0) \\ f (w | h') * Backoff (h) & otherwise \end{matrix} - - - (a)

作为概率，其应该满足：

\underset{w}{Σ} P (w | h) = 1 - - - (b)

根据公式a，公式b可以被重新写为：

\underset{w}{Σ} P (w | h) = \underset{w . C (h, w) > 0}{Σ} f (w | h) + \underset{w . C (w, h) = 0}{Σ} backoff (h) * f (w | h') = 1 - - - (c)

由此，可以通过下式计算回退参数：

backoff (h) = \frac{1 - \underset{w . C (h, w) > 0}{Σ} f (w | h)}{\underset{w . C (h, w) = 0}{Σ} f (w | h')} = \frac{1 - \underset{w . C (h, w) > 0}{Σ} f (w | h)}{1 - \underset{w . C (h, w) > 0}{Σ} f (w | h')} - - - (d)

可以提前计算并存储回退参数。

节点n中的LM前看的定义为从n可以到达的所有词的最大LM概率，其可以被表示为：

π (n | h) = \max_{w &Element; W (n)} P (w | h) - - - (13)

其中W(n)表示从节点n可以到达的词的组。

根据公式(12)，可以将LM前看的定义重新写为：

π(n|h)＝max{π₁(n|h)，π₂(n|h)} (14)

其中

并且

因此，LMLA树中的节点可以被分为两部分，即，

N＝N₁∪N₂

Nx＝{n|π(n|h)＝π₁(n|h)} (17)

N₂＝{n|π(n|h)＝π₂(n|h)}

给定词历史h，仅仅需要使用显式n元估计来计算与N₁相关的LMLA概率，而使用回退估计计算与N₂相关的其余的LMLA概率。

基于上述分析，给出了用于计算LMLA概率的新的方法。

根据上述分析，LM前看的计算可以分为4个步骤。

步骤1：产生低阶LM前看网络，T，对于T中的每一个节点n

π (n | h') = \max_{w &Element; W (n)} P (w | h') - - - (17)

步骤2：用历史h的回退参数乘以低阶LM前看概率，以产生新的LM前看网络(树)，

对于

中的每一个节点n

\tilde{π} (n | h) = Backoff (h) * \max_{w &Element; W (n)} P (w | h') - - - (18)

步骤3：对于在训练语料中的与LM语境h共同出现的每一个词w，用n元模型中的折扣LM概率代替

的叶节点中的回退LM概率，即，如果C(h，w)>0，使用f(w|h)代替

中的f(w|h′)*backoff(h)。

步骤4：对于W＝{w|C(h，w)>0}中的每一个词w，使用动态编程过程，更新从其可以到达w的节点中的LM前看概率。

图6示出了基于新方法的LMLA概率的计算。图6a示出了步骤1和2，图6b示出了步骤3和4。计算LMLA概率的新方法从回退LMLA树开始。图6中的LMLA树包含8个叶，即，8个单独的词。给定LM语境h，假定仅仅两个词：w₁和w₃具有显式LM概率，新方法仅仅需要计算从其可以到达w₁和w₃的节点，即，图6中的黑节点，的LMLA概率，而可以从回退LMLA树直接复制其余的LMLA概率，即，灰节点中的LMLA概率。

实施例的方法通过仅仅计算LM前看树中的节点的子集，即，属于公式17中的N₁的节点，而不是像旧方法一样更新每个节点，显著减少了CPU成本。对于特定的LM语境h，词组w＝{w|C(h，w)>0}远小于整个识别词汇库。因此N₁中的节点仅仅是LM前看树中的节点的小的子集。

由此，可以非常有效率地计算高阶LM前看概率例如三元前看概率。传统方法保持一个缓冲器以高速缓存出现在搜索空间中的LM前看网络，以便可以在将来重新使用这些LM前看网络。在提出的方法中，为了计算n元LM前看概率，不仅需要高速缓存n元前看网络而且需要高速缓存n-1元前看网络。在计算n元前看概率之前，进行检测以观察需要的n元前看网络是否已经高速缓存在n元前看缓冲器中。如果没有，在n-1元前看缓冲器中搜索对应的n-1元前看网络。然后，使用提出的方法从n-1元前看网络产生n元前看网络。当计算n-1元前看网络时也进行相同的相似的操作，即，需要高速缓存n-2元前看网络以产生n-1元前看网络。迭代地进行该操作，总是缓存较低阶前看网络以产生较高阶前看网络。

使用实施例的方法，可以显现减小计算LM前看概率的CPU成本。

在常规方法中，对于LM前看树中的每一个节点，都需要计算对应的LM前看概率。

在提出的方法中，仅仅需要更新LM前看树的子集节点的LM前看概率。将节点(w)(Node(w))限定为通过其可以到达词w的节点的组。于是，LM前看网络中需要更新LM前看概率的所有节点可以表达为：

N = \underset{w . C (h, w) > 0}{∪} Node (w) - - - (19)

对于特定的LM语境h，词组W＝{w|C(h，w)>0}远小于整个识别词汇表。因此，组N中的节点的数目远小于LM前看网络中的总节点数目。

实施例的方法还可以减少存储器成本。乍一看，提出的方法需要高速缓存较高阶和较低阶前看网络，所以存储成本高。然而，用于高速缓存较低阶前看网络的缓冲器的大小远小于用于高速缓存较高阶前看网络的缓冲器。另一方面，提出的方法远快于常规方法，因此仅仅需要高速缓存最频繁出现的前看网络，在要求时才产生剩余的较不频繁的前看网络而不会具有太大的CPU成本。因为最频繁出现的前看网络相比于出现在搜索空间中的所有前看网络仅仅占据存储器的一小部分，因此提出的方法实际上减小了存储器成本。

此外，常规方法高速缓存搜索空间中的所有LM前看网络。在提出的方法中，对于每一个n元语境，系统可以检查在模型中是否真的存在基于该语境的n元概率。如果没有为特定n元语境存储n元概率，便不需要存储与该语境相关的n元前看网络，n-1元前看网络将被直接使用。因此，在根据本发明的实施例的方法中，可以进一步减小存储的n元前看网络。

1.实施例的方法显著加速了LM前看概率的计算。

2.实施例的方法可以减小三元或更高阶n元前看的存储器成本。

在实施例的方法中，较高阶LMLA概率的计算依赖于较低阶LMLA概率的值，设计多高速缓存结构以执行高阶LMLA。系统所具有的高速缓存的数目与解码器采用的LM的阶相同。每一阶的LMLA概率具有一个高速缓存。如果在高速缓存中不存在需要的LMLA树，使用对应的回退树从低阶LMLA高速缓存来产生需要的LMLA树。

图7示出了基于多高速缓存的三元LMLA的框架结构。基于多高速缓存结构，三元LMLA被分为5个步骤：

步骤1：解码器从LMLA评分模块请求节点n的LMLA得分和词历史w_jw_j，LMLA评分模块检查请求的LMLA概率是否已存在于三元LMLA高速缓存中，如果是，那么就返回该LMLA概率，否则，到步骤2。

步骤2：使用二元词历史w_i查寻二元LMLA高速缓存，如果w_i的LMLA缓冲已存在于高速缓存中，进行到步骤4，否则，到步骤3。

步骤3：使用一元LMLA缓冲器，产生并高速缓存w_i的二元LMLA缓冲。

步骤4：使用w_i的二元LMLA缓冲器，产生并高速缓存w_jw_i的三元LMLA缓冲。

步骤5：将请求的LMLA概率返回到解码器。

将图6的方法用于具有WSJ 20K词汇表系统的三元LMLA。训练语音为WSJ0和WSJ1语料、SI284训练组。词汇表为具有语言数据联盟(LDC)提供的约20k个词的封闭词汇表(closed vocabulary)。声学模型包含6000绑定(tied)HMM状态，每一状态具有10高斯混合分量。语音特征矢量为33维，包括10C-MFCKL、1 LOG能量(energy)及其一阶和二阶时间导数。LM是利用具有约40M个词的WSJ87-89文本语料训练的三元语言模型。

LMLA的配置	MIPS	LMLA的CPU成本
LMLA的配置	MIPS	LMLA的CPU成本	常规二元LMLA	6054	25.8％
新方法的二元LMLA	5328	7.5％	常规二元LMLA	6054	25.8％
新方法的二元LMLA	5328	7.5％	常规三元LMLA	9589	65.8％
新方法的三元LMLA	5280	10.0％	常规三元LMLA	9589	65.8％

表1 常规方法和新方法之间的LMLA的CPU成本比较

表1示出了基于相同束宽的具有不同配置的LMLA的CPU成本。可以看出，本发明提出的方法极大地减小了LMLA概率的计算成本。产生二元LMLA树的处理加速到3倍，产生三元LMLA树的处理加速到12倍。当使用三元LMLA时，在搜索空间中出现的不同三元语境的数目远大于二元语境的数目。在旧的方法中，三元LMLA的益处不能补偿由于LMLA所产生的额外的计算，系统甚至比二元LMLA系统更慢。另一方面，因为新方法计算LMLA概率比常规方法快得多，因此当使用新方法时，三元LMLA相比于二元LMLA进一步提速了系统。

表2示出了基于新方法的三元LMLA和二元LMLA的性能。为了获得相同的WER，基于三元LMLA的解码总是比使用二元LMLA的解码快。在快速解码中三元更有效率，当束宽度为160时，三元LMLA的WER比二元LMLA好1％，当束宽度增加到200时，差异减小到0.3％。

如在部分4中所述，新方法中的三元LMLA基于多高速缓存结构，在该结构中从二元LMLA概率产生三元LMLA概率，并从一元LMLA概率产生二元LMLA概率。表3示出了基于WSJ 20K任务中的一个测试话语的不同阶的LMLA的计算量。可以看出，即使产生了多出三倍的三元LMLA树，也仅仅占用了1.26％的CPU成本，而二元LMLA占据了7.63％的CPU成本。这主要由于三元数据的稀少。因为三元数据相比于二元数据非常稀少，在三元LMLA中将更新的节点远小于二元LMLA中的节点。因此，大多数的计算成本来自二元LMLA，即使其不经常被调用。

表2：基于新方法的三元LMLA和二元LMLA的比较结果

	产生的LMLA树的#	LMLA的CPU成本
	产生的LMLA树的#	LMLA的CPU成本	二元LMLA	322	7.63％
三元LMLA	1247	1.26％	二元LMLA	322	7.63％

表3：基于新方法的不同阶的LMLA的计算量。

如前所述，本发明还可以应用于其中需要结合语言模型动态处理输入信号的一系列系统。图8示出了基础系统，其中在输入单元1提供输入信号的。然后，将单元1的输出提供给单元3，在单元3中声学模型或其他模型可以产生在确定的输入信号中的可能的词的第一概率分布。例如，在语音识别时，该单元将提供声学语音学模型。单元5提供可以限制如何在语言中连接词的语言模型。在语言模型和声学模型单元3之间可以存在通讯。最终，解码器7产生输出，在语音识别的情况下，所述输出为词。

该系统可以为语音-语音翻译系统的一部分，在所述翻译系统中使用TTS系统等进一步将所述输出翻译并输出为语音。

同样，该系统可以用于OCR，其中，输入单元1处的输入将为扫描的文本而不是语音，并且代替提供声学模型，单元3将输出扫描的文本中的词的概率。语言模型5的操作方式与之前描述的相同。解码器7将输出计算机可以读和处理的文本用于词处理等等的。相似地，可以将该系统应用于其中输入为手写文本的手写分析，并且单元3解码手写文本。同样语言模型的操作方式与上面描述的相同。

最后，该系统还可以用于例如DNA基因组测序的非常规语言模型。

Claims

1.一种用于计算在语言模型前看树中的节点处的前看概率的系统，其中语言的词汇表的词位于所述树的叶处，

所述设备包括：

装置，用于使用所述第一低阶语言模型计算所述树中的所有节点的语言前看概率；

2.根据权利要求1的系统，其中用于使用较低阶语言模型分配语言模型概率的所述装置被配置为使用回退参数。

3.根据权利要求1的系统，其中用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率的所述装置被配置为确定词是否已经与预先识别的词相结合出现。

4.根据权利要求1的系统，其中所述较高阶模型为二元、三元、四元或更高阶n元模型。

5.根据权利要求4的系统，还包括具有多高速缓存结构的存储器，其中所述存储器的高速缓存的数目等于在所述系统中使用的所述n元模型的阶。

6.一种自动语音识别系统，包括：

装置，用于接收语音；

装置，用于提供语言模型以确定在所述语音中包含的词的第二概率，包括根据上述权利要求中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统；以及

装置，用于组合所述第一和第二概率并输出从所接收的语音中识别的词。

7.一种语音到语音翻译系统，包括权利要求6的自动语音识别系统和用于将输出的词翻译为另一语言的装置。

8.一种OCR系统，包括：

装置，用于接收扫描的文本；

装置，用于确定在所述文本中包含的词的第一概率；

装置，用于提供语言模型以确定在所述文本中包含的词的第二概率，包括根据权利要求1到5中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统；以及

装置，用于组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。

9.一种手写识别系统，包括：

装置，用于接收手写的文本；

装置，用于确定在所述文本中包含的词的第一概率；

装置，用于组合所述第一和第二概率并输出从所述手写的文本中识别的词。

10.一种用于计算在语言模型前看树中的节点处的语言模型前看概率的方法，其中语言的词汇表的词位于所述树的叶处，

所述方法包括：

使用所述第一语言模型计算所述树中的所有节点的语言前看概率；

确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用较高阶语言模型概率更新所述词；以及

11.根据权利要求10的方法，其中确定较低阶语言模型概率使用回退参数。

12.根据权利要求10的方法，其中确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率确定词是否已经与预先识别的词相结合出现。

13.根据权利要求10的方法，其中所述较高阶模型为二元、三元、四元或更高阶n元模型。

14.根据权利要求10的方法，还包括通过将所述语言模型前看概率重新设定至较低阶语言模型来解码序列信号；

15.一种自动语音识别方法，包括：

接收语音；

提供语言模型，包括根据权利要求10到14中的任何一项的计算在语言模型前看树中的节点处的前看概率；以及

输出从所接收的语音中识别的词。

16.一种语音到语音翻译方法，包括权利要求15的自动语音识别方法和将输出的词翻译为另一语言。

17.一种OCR方法，包括：

接收扫描的文本；

确定在所述文本中包含的词的第一概率；

提供语言模型以确定在所述文本中包含的词的第二概率，包括根据权利要求10到14中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的方法；以及

组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。

18.一种手写识别方法，包括：

接收手写的文本；

确定在所述文本中包含的词的第一概率；

组合所述第一和第二概率并输出从所述手写的文本中识别的词。

19.一种载体介质，其被配置为记载用于控制计算机以实施权利要求10到18中的任何一项的方法的计算机可读指令。