CN102968989A

CN102968989A - 一种用于语音识别的Ngram模型改进方法

Info

Publication number: CN102968989A
Application number: CN2012105280936A
Authority: CN
Inventors: 柯登峰; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2013-03-13
Anticipated expiration: 2032-12-10
Also published as: CN102968989B

Abstract

本发明公开了一种用于语音识别的Ngram模型改进方法，其包括：将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1；利用RNN优化所述NET1，使得使用所述NET1对训练文本打分时，对于训练文本中每个语句的输出概率最大化；利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2；利用音子混淆矩阵优化所述发音网络NET2，使得句子错误率最小化；将所述发音网络NET2反向转换成改进后的Ngram模型，使用该改进后的Ngram模型进行语音识别。

Description

一种用于语音识别的Ngram模型改进方法

技术领域

本发明公开了一种用于语音识别的Ngram模型改进方法，特别是用于小语料条件下的特定语音识别任务的Ngram模型改进方法。

背景技术

1.语言模型在语音识别中起到举足轻重的作用。声学模型、语言模型和解码算法，构成一个完整的语音识别框架。

2.传统的Ngram(N元文法，N-gram，Ngram)模型是应用最广的语言模型，其优点是查询速度快，可以方便的转成WFST(加权有限状态转换器，Weighted Finite State Transducer)。转成WFST后，识别速度可以提升一个数量级。然而，由于Ngram模型对数据分布作了一系列假设，当训练数据分布与假设不同时，特别是训练数据量较少的时候，其性能将大打折扣。

3.近年来出现了一种RNN(回归神经网络，Recurrent Neural Network)语言模型，它可以解决Ngram模型的这种缺点。但它的时间复杂度是Ngram模型的百倍以上。查询速度对语音识别而言完全无法接受。另外，由于RNN具有时间记忆功能，在同一时刻不宜对多个词进行查询。否则语言模型的记忆混乱，查询结果严重失常。

4.现行的解决方案通常采用Ngram作语音识别，将结果输出后由RNN模型重新计分。该方法可以取得很好的效果，但缺点也是明显的。它将一遍搜索过程变成了多遍搜索。系统需要维持一个庞大的词图(WordLattice)网络来保存所有可能的候选。

5.语言模型通常采用PPL(困惑度，Perplexity)衡量其性能，然而PPL与语音识别率不能直接挂钩，很难认为，把PPL优化到最小(概率最大)则识别错误率最小。

发明内容

为解决上述问题，本发明提出了一种用于语音识别的Ngram模型改进方法，其包括：

步骤S101：将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1；

步骤S102：利用RNN优化所述NET1，使得使用所述NET1对训练文本打分时，对于训练文本中每个语句的输出概率最大化；

步骤S103：利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2；

步骤S104：利用音子混淆矩阵优化所述发音网络NET2，使得句子错误率最小化；

步骤S105：将所述发音网络NET2反向转换成改进后的Ngram模型。

本发明提出的方法采用RNN对Ngram进行优化，优化后的Ngram模型PPL性能优于RNN，且能保持原有的快速查询特性。该技术应用于训练语料不足条件下的Ngram语言模型优化可取的显著效果。它引入了音子混淆矩阵对Ngram模型进行最小错误率训练，该过程模拟了语音识别过程中声学解码和语言解码相结合的解码方式，使得优化目标更接近真实的语音识别过程，从而使得识别率得到显著提高。

附图说明

图1为本发明的用于语音识别的Ngram模型改进方法的流程图；

图2为本发明中将Ngram模型转换成WFSA网络NET1的流程图；

图3为本发明中利用RNN模型优化NET1的流程图；

图4为本发明中利用RNN模型优化NET1中所有弧的流程图；

图5为本发明中用于增强NET1的表达能力的流程图；

图6为利用本发明的方法所转成的WFSA网络的具体实例示图；

图7为图6所示出的WFSA网络上标示了最佳路径的示例图；

图8为WFST和WFSA的一个示例图；

图9(a)-9(i)为实现图6的具体分解流程图；

图10(a)为本发明中将NET1转换成WFST网络NET_WORD的示意图；

图10(b)为本发明中将WFST网络NET_WORD转换成WFST网络NET2的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明所述的一种用于语音识别的Ngram模型改进方法的流程图。所述用于语音识别的Ngram模型改进方法用于特定领域语音识别，针对训练语料较少的条件下改善Ngram模型的性能具有显著效果，例如车载导航系统中的语音导航功能、地名识别功能、控制命令识别功能等。

所述用于语音识别的Ngram模型改进方法，具体包括步骤：

步骤S101：将Ngram转成等价的WFSA(加权有限状态自动机，Weighted Finite State Automata)网络NET 1。

步骤S102：利用RNN优化NET1，使得输出概率最大化。

步骤S103：利用发音字典将NET1转成带有语言模型概率的WFST发音网络NET2。

步骤S104：利用音子混淆矩阵优化NET2使得句子错误率最小化。

步骤S105：将NET2反向转换成Ngram模型。

其中，如附图8所示，WFST和WFSA都是有向图，图上有若干状态，状态之间有连接弧，弧是有方向的，并且每条弧上带有输入字串和权重；它们的不同点在于，WFSA的弧上只有输入字串和权重，WFST上除了带有输入字串和权重，还有输出。

更具体地，每个步骤操作细节如下：

步骤S101：将Ngram转成等价的WFSA网络NET1。NET1的网络状态数目等于Ngram的所有元组数目加1，除了初始状态表示空字符串以外，其它的每个状态代表一个N元组，如状态w₁w₂..w_n-1，该状态表示包含w₁w₂..w_n-1的文字组合；如果Ngram模型中概率P(w_n|w₁w₂..w_n-1)存在，即表示文本中从包含w₁w₂..w_n-1的文字组合观察到包含w₁w₂..w_n-1w_n的文字组合的概率；则在NET1中状态w₁w₂..w_n-1到状态w₁w₂..w_n-1w_n之间必定有一条弧连接，且该弧上的输入为字符串w_n，该弧上的权重为LnP(w_n|w₁w₂..w_n-1)，其为所述概率P(w_n|w₁w₂..w_n-1)的对数值；在转换后的NET1中，除了初始状态之外，每一个状态w_iw_i+1..w_j都还有一条回退弧，其对应Ngram模型中相应元组的回退概率B(w_iw_i+1..w_j)，该弧从状态w_iw_i+1..w_j指向状态w_i+1..w_j，弧上的输入为空，弧上的权重等于LnB(w_iw_i+1..w_j)，其为所述回退概率B(w_iw_i+1..w_j)的对数值；上述特征中P(·)和B(·)分别表示概率和回退概率。其中，Ngram模型包括1元组Unigram、2元组Bigram、3元组trigram、……，k元组k-gram。

图2显示了达到此目的一种具体操作方法。

在S201步骤，正规化用于语音识别的Ngram模型，使得保证高阶Ngram存在时对应低阶Ngram也存在，即如果一个N元组存在，则其所有前缀相应的元组都要存在。

在S202步骤，创建空状态esp作为初始的NET1。

在S203步骤，创建Ngram模型中所有1元组的概率和回退概率，通过遍历Ngram模型中所有的1元组Unigram，在NET1中为每个Unigram创建相应的Unigram状态；从esp状态到Unigram状态添加前向弧，弧上的输入为Unigram对应的字符串，权重为Unigram对应的概率的对数值；从每个Unigram状态到esp状态添加回退弧，弧上的输入为空，权重为Unigram对应的回退概率的对数值。

在S204步骤，创建所有2元以上的高元组的概率和回退概率，通过遍历Ngram模型中所有2元以上的高元组k-gram，在NET1中为每个高元组k-gram创建相应的k-gram状态；在NET1中寻找k-gram的前k-1个词构成的(k-1)-prefix-gram状态，并添加从(k-1)-prefix-gram状态到k-gram状态的前向弧，弧的输入为高元组k-gram对应的词组中的最后一个词，权重为高元组k-gram对应的概率的对数值；然后在所述NET1中寻找k-gram的后k-1个词构成(k-1)-subfix-gram状态，从k-gram状态添加回退弧到(k-1)-subfix-gram状态，弧的输入为空，权重为高元组k-gram的回退概率的对数值；其中k的取值范围是2＜＝k＜＝N的整数，N是Ngram的阶数。

步骤S102：利用RNN优化步骤S101中的得到的NET1，使得输出概率最大化。该步骤对每个句子采用NET1和RNN分别打分，优化目标是使得句子的得分为NET1打分和RNN打分中的高分者，所述步骤具体包括，如图3所示：

步骤S301，利用RNN得分优化NET1中的所有弧；

步骤S302，向NET1追加状态和弧，增强NET1的表达能力。

更具体的，步骤S301的详细流程如图4所示。

首先，在步骤S401处取出每句语音训练文本SENT_i；

接着在步骤S402处，在NET1上求解最高分路径，该路径从状态<s>出发到状态w_n1...w_n2</s>结束，其中w_n1...w_n2是SENT_i的最后n₂-n₁+1个词，并且路径中间经过的弧上的字符串串接起来等于输入的句子，<s>是Ngram模型中用来表示句子开始的1元组，其在转换成NET1后对应<s>状态，</s>是Ngram模型中用来表示句子结束的1元组，其在转换成NET1后对应</s>状态。将路径经过的弧的编号依次记录下来，记该路径为PATH_i，并记该路径的总得分为SCORE_NGRAM_i，即该路径经过的所有弧上的权重之和；

接着在步骤S403处，采用RNN计算SENT_i得分并记为SCORE_RNN_i；

接着在S404处，求SENT_i的最佳得分，记为SCORE_BEST_i＝max{SCORE_RNN_i，SCORE_NGRAM_i}；

接着在步骤S405处，利用如下公式计算出的更新量更新路径PATH_i经过的每一条弧(包括回退弧)上的权重，即更新后的权重等于原始权重加上所述更新量，每条弧的更新量为：

delta = ρ \frac{SCORE_{BEST}_{i} - SCORE_{NGRAM}_{i}}{{LENGTH}_{i}}

其中ρ∈(0，1]为系统学习率，LENGTH_i是PATH_i经过的弧的数目；

接着在步骤S406处，采用广度优先遍历NET1中的每个状态，将该状态所有输出弧上的权重进行规整，保证每个状态所有输出弧(包括回退弧)满足概率条件(概率之和等于1)；

最后，在步骤S407处判断是否可以停止，如果迭代次数超过指定门限，或者训练结果收敛，即所述NET1上的所有弧上的权重不再发生变化，或者更新后的新模型与原来的模型的误差小于指定门限，则停止，否则重复步骤S401到步骤S406的过程。其中，所述误差为迭代更新后所有弧上的权重与迭代更新前所有弧上的权重之平均误差。

更具体的，步骤S302的详细流程如图5所示：

步骤S501寻找需要增强表达能力的句子，对训练文本集中的每个句子SENT_i，当SCORE_RNN_i＞SCORE_NGRAM_i，则进入后面操作S502和S503；

步骤S502，增强2元组表达能力，将该句子中出现的1元组Unigram与它的后接词合并为2元组Bigram，如果NET1中不存在该Bigram对应的Bigram状态，则采用步骤S204的方法将该Bigram对应的Bigram状态添加到NET1中，从所述Unigram状态到所述Bigram状态的弧上的输入为所述后接词，其权重值等于在Ngram模型中所述2元组Bigram的概率对数值与下式结果之和：

delta = ρ \frac{SCORE_{BEST}_{i} - SCORE_{NGRAM}_{i}}{{LENGTH}_{i}}

且Bigram状态的回退弧上的权重值等于0；接着采用步骤S301所述方法优化所述NET1中的所有弧，其具体实现见步骤S401到S407。举例说明，假设有1元组(unigram)“好”要升级到“好吗”这个2元组。那么首先在NET1中建立状态“好吗”，然后从状态“好”到状态“好吗”添加一条弧，这条弧上的输入等于“吗”字；然后给“好吗”添加回退弧，回退到“吗”状态，回退弧上没有输入，只有权重等于0。

最后，在步骤S503处，增强3元组及更高元组的表达能力，利用步骤S501到S502的方法处理Ngram模型中2元组及更高元组的表达能力，也就是说，对2＜＝k＜N的情形，对每个阶数k，类似上述步骤S501至S502的做法，如果Ngram模型中对于k-gram，当SCORE_RNN_i＞SCORE_NGRAM_i，则将该句中k-gram与后接词合并为(k+1)-gram，如果NET1中不存在该(k+1)-gram对应的(k+1)-gram状态，则采用步骤S204的方法将(k+1)-gram添加到NET1中，从所述k-gram状态到(k+1)-gram状态的弧上的字符串为后接词，其权重值等于在Ngram模型中所述k+1元组模型(k+1)-gram的概率对数值与下式之和：

delta = ρ \frac{SCORE_{BEST}_{i} - SCORE_{NGRAM}_{i}}{{LENGTH}_{i}}

且(k+1)-gram状态的回退弧上的权重值等于0，再采用步骤S301方法更新WFSA，其具体实现见步骤S401到S407；

重复上述步骤直到不存在SCORE_RNN_i＞SCORE_NGRAM_i的句子，或者训练文本的所有句子中出现的所有N元组都在NET1中。

更具体的，步骤S103，利用发音字典将NET1转成带有语言模型概率的WFST发音网络NET2。具体包括：保持NET1网络拓扑结构不变，将每条弧上的输入复制到输出，形成WFST网络NET_WORD，具体示例见图10(a)；将发音字典中每个词W_i转成FST网络NET_LEX_i，每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音，到达结束状态的每条弧输出都是词W_i；如果NET_WORD中的弧上有输入单词W_i，则将该弧替换成FST网络NET_LEX_i，最终形成新网络NET2，从而避免了传统compose做法导致的大内存消耗问题和同音词消歧问题；最终生成的NET2网络的特点是每条弧的输入是一个音子，如果该弧上的输入到达一个词W_i的结尾，则该弧的输出是词W_i，如果该弧上的输入未达到一个词的词尾，则该弧的输出词为空；且该弧到达状态必定对应Ngram模型中描述的一个N元组，具体示例请见图10(b)。

更具体的，步骤S104，利用音子混淆矩阵优化NET2使得句子错误率最小化，具体是从声学模型中引入音子混淆矩阵M。对于训练文本中每句话的标准音子串，按照音子混淆矩阵M所述的概率在NET2进行状态转移，最终输出K+1个最佳候选句子，其中完全等同于标准答案的句子为SENT₀，不同于标准答案的K个句子为SENT₁..SENT_K，优化目标使得标准答案句子的路径得分大于错误句子的路径得分；具体包括如下步骤：

(S001)从NET2中找到<s>状态作为当前状态；

(S002)依次输入训练文本中句子的所有音子；

(S003)对每个音子，以混淆矩阵M中的概率走向混淆音子表示的弧；例如，“安”的标准发音是an，如果混淆矩阵M中有2个混淆关系：an保持an的概率是0.8；an混淆ang的概率是0.2；则从当前状态出发以0.8的概率转移到输入为an的弧，同时以0.2的概率转移到输入为ang的弧。

(S004)每输入一个音子，采用集束搜索(BeamSearch)方法，以指定的Beam宽度对路径进行裁剪，即删除路径总得分(即所述路径包括的所有弧上的权重之和)和最大路径得分差距大于Beam的路径；

(S005)当输入最后一个音子时，保留所有到达词结尾的路径，记路径中输出结果与原始文本相同的句子为SENT₀，其他句子记为SENT₁..SENT_K；

(S006)对每个句子执行如下操作：

计算标准答案得分与错误答案得分之间的差距d：

d＝g(SENT₀|M，NET2)-G(SENT_1..K|M，NET2)

其中g(SENT₀|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出文本SENT₀的概率；G(SENT_1..K|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出错误句子SENT₁..SENT_K的概率的某种变换函数，具体为：

G ({SENT}_{1 . . . K} | M, NET 2) = \ln {(\frac{1}{K} Σ_{k = 1}^{K} e^{ηg ({SENT}_{k} | M, NET 2)})}^{\frac{1}{η}}

其中，g(SENT_K|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出错误文本SENT_K的概率，η取值范围为大于等于1，当η取值等于正无穷时，该公式等价于取最大值，当η取值等于1时，该公式等价于求输出所述错误的K个句子的概率的平均值。

采用下式计算输出文本错误的损失量：

loss = \frac{1}{1 + e^{- λd + θ}}

其中，d为所述标准答案得分与错误答案得分之间的差距，λ和θ是预指定的常量。

采用下式计算模型参数的调整量：

&dtri; loss = \frac{&PartialD; loss}{&PartialD; d} \frac{&PartialD; d}{&PartialD; Γ} = λloss (1 - loss) \frac{&PartialD; d}{&PartialD; Γ}

根据所述调整量调整所述发音网络NET2，具体为：

Γ_{new} = Γ - ϵ &dtri; loss

其中，ε是学习步长；Γ和Γ_new分别表示NET2上弧的原始权重和调整后的权重；

上述公式在计算时具体到NET2上的每条弧Arc，其中计算

的方法为：

\frac{&PartialD; d}{&PartialD; Γ} = - I ({SENT}_{0}, Arc) + Σ_{k = 1}^{K} c_{k} I ({SENT}_{k}, Arc)

c_{k} = \frac{e^{ηg ({SENT}_{k} | M, NET 2)}}{Σ_{j = 1}^{K} e^{ηg ({SENT}_{j} | M, NET 2)}}

其中指示函数I(text，Arc)表示解码成文本text时经过弧Arc的次数。重复执行上述步骤(S001)-(S006)，直到指定最大迭代次数或者模型收敛到指定的误差范围内，例如，对NET2中的每条弧Arc，

其中Arc表示弧Arc上的权重。

更具体的，步骤S105，将NET2反向转换成Ngram模型，包括如下步骤：

将WFST发音网络NET2转成WFSA词语网络NET3，使得NET3中的每个状态对应改进后的Ngram模型中的元组，NET3中状态A到B的转移概率等于NET2中状态A到状态B的所有路径概率之和，NET3中从状态A到状态B的弧上的输入正好等于NET2中从状态A到状态B的路径上的输出且最多只能有一个词；

在NET3中遍历对应于1元组Unigram的Unigram状态，使得改进后的Ngram模型中1元组Unigram的概率的对数值为esp状态到Unigram状态的弧上的权重值，回退概率为Unigram状态到esp状态的弧上的权重；

在NET3中遍历对应于2元组及2元组以上的k元组k-gram的所有k-gram状态，使得改进后的Ngram模型中2元组及2元组以上的k元组k-gram的概率的对数值为所述k元组k-gram对应的前k-1个词构成的k-1元组(k-1)-prefix-gram对应的(k-1)-prefix-gram状态到k-gram状态的弧上的权重，回退概率的对数值为k-gram状态到所述k元组k-gram对应的后k-1个词构成的k-1元组(k-1)-subfix-gram对应的(k-1)-subfix-gram状态的弧上的权重值。

上述步骤完整地完成NET3到Ngram模型的转换。

图6演示了将一个如下Ngram(trigram)转成等价WFSA的方法，其中图9(a)-9(b)给出进行转换的具体流程图。图7演示了句子“你好你好”在上述WFSA上经过的最佳路径，首先从<s>开始，依次经过的弧编号为9，15，16，12，6，3，11，17，最终达到“你好</s>”走到句子结束。其中弧16，12，6均是回退弧，在传统的Ngram训练算法中，Ngram预测概率和回退概率单独估计，难以联合优化。在本发明中，采用WFSA将所有概率等同对待，使得这两种概率可以联合优化。

下表为原始Ngram模型：

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于语音识别的Ngram模型改进方法，其包括如下步骤：

步骤S104：利用音子混淆矩阵优化所述发音网络NET2，使得句子错

误率最小化；

步骤S105：将所述发音网络NET2反向转换成改进后的Ngram模型。

2.如权利要求1所述的用于语音识别的Ngram模型改进方法，其特征在于：

所述NET1中的状态数目等于所述原始Ngram的所有元组数目加1，其中所述NET1中的状态包括初始状态和对应所述原始Ngram中每一个元组的状态；

如果原始Ngram模型中概率P(w_n|w₁w₂..w_n-1)存在，则在所述NET1中状态w₁w₂..w_n-1到状态w₁w₂..w_n-1wn之间必定有一条弧连接，且该弧上的输入为字符串w_n，该弧上的权重为LnP(w_n|w₁w₂..w_n-1)，其为所述概率P(w_n|w₁w₂..w_n-1)的对数值；在所述NET1中，除了初始状态之外，每一个状态w_iw_i+1..w_j都还具有一条回退弧，其对应所述原始Ngram模型中相应元组的回退概率B(w_iw_i+1..w_j)，该回退弧从状态w_iw_i+1..w_j指向状态w_i+1..w_j，弧上的输入为空，弧上的权重等于LnB(w_iw_i+1..w_j)，其为所述回退概率B(w_iw_i+1..w_j)的对数值。

3.如权利要求2所述的用于语音识别的Ngram模型改进方法，其特征在于：所述将用于语音识别的Ngram模型转成等价的WFSA网络NET1具体包括：

步骤S201：正规化所述原始Ngram模型；

步骤S202：创建空状态esp作为初始的NET1。

步骤S203：在所述NET1中，为每个所述原始Ngram模型中的1元组Unigram创建相应的Unigram状态；从所述esp状态到所述Unigram状态添加前向弧，弧上的输入为所述原始Ngram模型中的1元组Unigram对应的字符串，权重为所述原始Ngram模型中的1元组Unigram对应的概率的对数值；从每个所述原始Ngram模型中的1元组Unigram状态到所述esp状态添加回退弧，弧上的输入为空，权重为所述原始Ngram模型中的1元组Unigram对应的回退概率的对数值；

步骤S204：在所述NET1中为每个2元组及2元组以上的高元组k-gram创建相应的k-gram状态；并在所述NET1中寻找所述高元组k-gram中的前k-1个词构成的k-1元组(k-1)-prefix-gram对应的(k-1)-prefix-gram状态，并添加从(k-1)-prefix-gram状态到k-gram状态的前向弧，弧的输入为所述高元组k-gram对应的词组中的最后一个词，权重为所述高元组k-gram的概率的对数值；然后在所述NET1中寻找所述高元组k-gram对应的后k-1个词构成的k-1元组(k-1)-subfix-gram对应的(k-1)-subfix-gram状态，添加从k-gram状态到(k-1)-subfix-gram状态的回退弧，弧的输入为空，权重为所述高元组k-gram的回退概率的对数值；其中k的取值范围是2＜＝k＜＝N的整数，N是所述原始Ngram模型的阶数。

4.如权利要求1所述的用于语音识别的Ngram模型改进方法，其特征在于：所述利用RNN优化所述NET1，使得使用所述NET1对训练文本打分时，对于训练文本中每个语句的输出概率最大化具体包括：

步骤S301，利用RNN得分优化所述NET1中的所有弧；具体为：

采用RNN模型计算训练文本中每一语句SENT_i的得分并记为SCORE_RNN_i；所述语句SENT_i在所述NET1中的最佳路径为路径PATH_i，则该路径PATH_i的总得分为SCORE_NGRAM_i；确定所述SENT_i的最佳得分为：SCORE_BEST_i＝max{SCORE_RNN_i，SCORE_NGRAM_i}；

利用更新量更新该路径经过的每一条弧上的权重，其中每条弧的更新量根据公式(1)计算：

delta = ρ \frac{SCORE_{BEST}_{i} - SCORE_{NGRAM}_{i}}{{LENGTH}_{i}} - - - (1)

其中，ρ∈(0，1]，LENGTH_i是路径PATH_i经过的弧的数目；

采用广度优先遍历所述NET1中的每个状态，并将每个状态上所有弧上的权重进行规整，以保证每个状态的所有输出弧满足概率条件；

重复执行上述步骤，直到每条弧上更新后的权重值与原权重值的误差小于预定阈值；

步骤S302，向所述NET1追加状态和弧，增强NET1的表达能力，具体为：首先从训练文本寻找需要增强表达能力的语句，然后对于每一个需要增强表达能力的语句，依次增强2元组、3元组及3元组以上元组的表达能力，直到不存在SCORE_RNN_i＞SCORE_NGRAM_i的句子，或者用于表示需要增强表达能力的句子的所有Ngram元组对应的状态都在所述NET1中。

5.如权利要求4所述的用于语音识别的Ngram模型改进方法，其特征在于：所述需要增强表达能力的语句为SCORE_RNN_i＞SCORE_NGRAM_i的语句；其中增强k+1元组的表达能力的方式如下，1＝＜k＜N：

对于每个需要增强表达能力的语句，将所述原始Ngram模型中k元组k-gram与它的后接词合并为k+1元组(k+1)-gram，如果所述NET1中不存在该k+1元组(k+1)-gram对应的(k+1)-gram状态，则添加该(k+1)-gram状态到所述NET1中；其中从所述k-gram状态到所述(k+1)-gram状态的弧上的输入为所述后接词，其权重值等于所述k+1元组(k+1)-gram的概率对数值与根据所述公式(1)计算得到的更新量之和，且所述(k+1)-gram状态的回退弧上的权重值等于0；然后利用RNN得分优化所述NET1中每条弧上的权重值。

6.如权利要求1所述的用于语音识别的Ngram模型改进方法，其特征在于：所述利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2具体包括：

保持所述NET1网络拓扑结构不变，将每条弧上的输入复制到输出，形成WFST网络NET_WORD；将发音字典中每个词W_i转成FST网络NET_LEX_i，每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音，到达结束状态的每条弧的输出都是词W_i；如果NET_WORD中的弧上有输入单词W_i，则将该弧替换成FST网络NET_LEX_i，最终形成所述发音网络NET2。

7.如权利要求1所述的用于语音识别的Ngram模型改进方法，其特征在于：所述利用音子混淆矩阵优化所述发音网络NET2包括对于训练文本中每一句的标准音子串，按照音子混淆矩阵M中的概率在所述发音网络NET2进行状态转移，最终输出K+1个最佳候选句子，其中完全等同于标准答案的句子为SENT₀，不同于标准答案的K个句子为SENT₁..SENT_K，然后对所述发音网络NET2进行优化使得标准答案句子的路径得分大于错误句子的路径得分。

8.如权利要求7所述的用于语音识别的Ngram模型改进方法，其特征在于：所述利用音子混淆矩阵优化所述发音网络NET2的具体步骤包括：

步骤S001：从所述发音网络NET2中找到<s>状态作为当前状态；

步骤S002：依次输入训练文本中每个句子的所有音子；

步骤S003：对每个音子，以混淆矩阵M中的概率走向混淆音子表示的弧；

步骤S004：每输入一个音子，则采用集束搜索方法，以指定的Beam宽度对路径进行裁剪；

步骤S005：当输入最后一个音子时，保留所有到达词结尾的路径，并记路径中输出结果与所述训练文本相同的句子为SENT₀，其他路径记为SENT₁..SENT_K；

步骤S006：对每个句子执行如下操作：

步骤S0061：计算标准答案得分与错误答案得分之间的差距d：

d＝g(SENT₀|M，NET2)-G(SENT_1..K|M，NET2) (2)

其中，g(SENT₀|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出标准语句SENT₀的概率；G(SENT_1..K|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出错误句子SENT₁..SENT_K的概率的某种变换函数，具体为：

G ({SENT}_{1 . . . K} | M, NET 2) = \ln {(\frac{1}{K} Σ_{k = 1}^{K} e^{ηg ({SENT}_{k} | M, NET 2)})}^{\frac{1}{η}} - - - (3)

其中，g(SENT_K|M，NET2)表示在给定混淆矩阵M和发音网络NET2的条件下，输出错误语句SENT_K的概率，η取值范围为大于等于1，其中K为输出错误句子的数目；

步骤S0062：采用下式计算输出文本错误的损失量：

loss = \frac{1}{1 + e^{- λd + θ}} - - - (4)

其中，d为所述标准答案得分与错误答案得分之间的差距，λ和θ是预指定的常量；

步骤S0063：采用下式计算所述NET2的每条弧上权重的调整量：

&dtri; loss = \frac{&PartialD; loss}{&PartialD; d} \frac{&PartialD; d}{&PartialD; Γ} = λloss (1 - loss) \frac{&PartialD; d}{&PartialD; Γ} - - - (5)

则计算

的方法为，对于NET2中的每条弧：

\frac{&PartialD; d}{&PartialD; Γ} = - I ({SENT}_{0}, Arc) + Σ_{k = 1}^{K} c_{k} I ({SENT}_{k}, Arc)

c_{k} = \frac{e^{ηg ({SENT}_{k} | M, NET 2)}}{Σ_{j = 1}^{K} e^{ηg ({SENT}_{j} | M, NET 2)}}

其中，指示函数I(SENT₀，Arc)和I(SENT_k，Arc)分别表示标准语句SENT₀和错误语句SENT_K经过弧Arc的次数；

S0064：根据所述调整量调整所述发音网络NET2，具体为：

Γ_{new} = Γ - ϵ &dtri; loss - - - (6)

重复执行上述步骤S001到步骤S006，直到指定最大迭代次数或者模型收敛到指定的误差范围内。

9.如权利要求1所述的用于语音识别的Ngram模型改进方法，其特征在于：所述将所述发音网络NET2反向转换成改进后的Ngram模型具体包括：将WFST发音网络NET2转成WFSA词语网络NET3，使得所述词语网络NET3中的每个状态对应所述改进Ngram模型中的一个元组，所述词语网络NET3中状态A到B的转移概率等于所述发音网络NET2中状态A到状态B的所有路径概率之和，从状态A到状态B的弧上的输入正好等于所述发音网络NET2中从状态A到状态B的路径上的输出且只输出一个词；

10.如权利要求4所述的方法，其特征在于：所述利用更新量更新路径经过的每一条弧上的权重具体为每一条弧上的权重加上所述更新量；所述保证每个状态的所有弧满足概率条件具体为所述所有弧上的概率和为1；所述误差为更新后所有弧上的权重与更新前所有弧上的权重之平均误差。