CN102968989A - 一种用于语音识别的Ngram模型改进方法 - Google Patents
一种用于语音识别的Ngram模型改进方法 Download PDFInfo
- Publication number
- CN102968989A CN102968989A CN2012105280936A CN201210528093A CN102968989A CN 102968989 A CN102968989 A CN 102968989A CN 2012105280936 A CN2012105280936 A CN 2012105280936A CN 201210528093 A CN201210528093 A CN 201210528093A CN 102968989 A CN102968989 A CN 102968989A
- Authority
- CN
- China
- Prior art keywords
- state
- arc
- gram
- tuple
- net1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000006872 improvement Effects 0.000 title claims abstract description 9
- 101000927793 Homo sapiens Neuroepithelial cell-transforming gene 1 protein Proteins 0.000 claims abstract description 66
- 101001124937 Homo sapiens Pre-mRNA-splicing factor 38B Proteins 0.000 claims abstract description 66
- 101000631937 Homo sapiens Sodium- and chloride-dependent glycine transporter 2 Proteins 0.000 claims abstract description 66
- 101000639975 Homo sapiens Sodium-dependent noradrenaline transporter Proteins 0.000 claims abstract description 66
- 102100028886 Sodium- and chloride-dependent glycine transporter 2 Human genes 0.000 claims abstract description 66
- 101000643391 Homo sapiens Serine/arginine-rich splicing factor 11 Proteins 0.000 claims abstract description 56
- 102100024991 Tetraspanin-12 Human genes 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 26
- 101001024723 Homo sapiens Nucleoporin NDC1 Proteins 0.000 claims description 12
- 102100037826 Nucleoporin NDC1 Human genes 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012821 model calculation Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000000306 recurrent effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Abstract
本发明公开了一种用于语音识别的Ngram模型改进方法,其包括:将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;将所述发音网络NET2反向转换成改进后的Ngram模型,使用该改进后的Ngram模型进行语音识别。
Description
技术领域
本发明公开了一种用于语音识别的Ngram模型改进方法,特别是用于小语料条件下的特定语音识别任务的Ngram模型改进方法。
背景技术
1.语言模型在语音识别中起到举足轻重的作用。声学模型、语言模型和解码算法,构成一个完整的语音识别框架。
2.传统的Ngram(N元文法,N-gram,Ngram)模型是应用最广的语言模型,其优点是查询速度快,可以方便的转成WFST(加权有限状态转换器,Weighted Finite State Transducer)。转成WFST后,识别速度可以提升一个数量级。然而,由于Ngram模型对数据分布作了一系列假设,当训练数据分布与假设不同时,特别是训练数据量较少的时候,其性能将大打折扣。
3.近年来出现了一种RNN(回归神经网络,Recurrent Neural Network)语言模型,它可以解决Ngram模型的这种缺点。但它的时间复杂度是Ngram模型的百倍以上。查询速度对语音识别而言完全无法接受。另外,由于RNN具有时间记忆功能,在同一时刻不宜对多个词进行查询。否则语言模型的记忆混乱,查询结果严重失常。
4.现行的解决方案通常采用Ngram作语音识别,将结果输出后由RNN模型重新计分。该方法可以取得很好的效果,但缺点也是明显的。它将一遍搜索过程变成了多遍搜索。系统需要维持一个庞大的词图(WordLattice)网络来保存所有可能的候选。
5.语言模型通常采用PPL(困惑度,Perplexity)衡量其性能,然而PPL与语音识别率不能直接挂钩,很难认为,把PPL优化到最小(概率最大)则识别错误率最小。
发明内容
为解决上述问题,本发明提出了一种用于语音识别的Ngram模型改进方法,其包括:
步骤S101:将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;
步骤S102:利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;
步骤S103:利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;
步骤S104:利用音子混淆矩阵优化所述发音网络NET2,使得句子错误率最小化;
步骤S105:将所述发音网络NET2反向转换成改进后的Ngram模型。
本发明提出的方法采用RNN对Ngram进行优化,优化后的Ngram模型PPL性能优于RNN,且能保持原有的快速查询特性。该技术应用于训练语料不足条件下的Ngram语言模型优化可取的显著效果。它引入了音子混淆矩阵对Ngram模型进行最小错误率训练,该过程模拟了语音识别过程中声学解码和语言解码相结合的解码方式,使得优化目标更接近真实的语音识别过程,从而使得识别率得到显著提高。
附图说明
图1为本发明的用于语音识别的Ngram模型改进方法的流程图;
图2为本发明中将Ngram模型转换成WFSA网络NET1的流程图;
图3为本发明中利用RNN模型优化NET1的流程图;
图4为本发明中利用RNN模型优化NET1中所有弧的流程图;
图5为本发明中用于增强NET1的表达能力的流程图;
图6为利用本发明的方法所转成的WFSA网络的具体实例示图;
图7为图6所示出的WFSA网络上标示了最佳路径的示例图;
图8为WFST和WFSA的一个示例图;
图9(a)-9(i)为实现图6的具体分解流程图;
图10(a)为本发明中将NET1转换成WFST网络NET_WORD的示意图;
图10(b)为本发明中将WFST网络NET_WORD转换成WFST网络NET2的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明所述的一种用于语音识别的Ngram模型改进方法的流程图。所述用于语音识别的Ngram模型改进方法用于特定领域语音识别,针对训练语料较少的条件下改善Ngram模型的性能具有显著效果,例如车载导航系统中的语音导航功能、地名识别功能、控制命令识别功能等。
所述用于语音识别的Ngram模型改进方法,具体包括步骤:
步骤S101:将Ngram转成等价的WFSA(加权有限状态自动机,Weighted Finite State Automata)网络NET 1。
步骤S102:利用RNN优化NET1,使得输出概率最大化。
步骤S103:利用发音字典将NET1转成带有语言模型概率的WFST发音网络NET2。
步骤S104:利用音子混淆矩阵优化NET2使得句子错误率最小化。
步骤S105:将NET2反向转换成Ngram模型。
其中,如附图8所示,WFST和WFSA都是有向图,图上有若干状态,状态之间有连接弧,弧是有方向的,并且每条弧上带有输入字串和权重;它们的不同点在于,WFSA的弧上只有输入字串和权重,WFST上除了带有输入字串和权重,还有输出。
更具体地,每个步骤操作细节如下:
步骤S101:将Ngram转成等价的WFSA网络NET1。NET1的网络状态数目等于Ngram的所有元组数目加1,除了初始状态表示空字符串以外,其它的每个状态代表一个N元组,如状态w1w2..wn-1,该状态表示包含w1w2..wn-1的文字组合;如果Ngram模型中概率P(wn|w1w2..wn-1)存在,即表示文本中从包含w1w2..wn-1的文字组合观察到包含w1w2..wn-1wn的文字组合的概率;则在NET1中状态w1w2..wn-1到状态w1w2..wn-1wn之间必定有一条弧连接,且该弧上的输入为字符串wn,该弧上的权重为LnP(wn|w1w2..wn-1),其为所述概率P(wn|w1w2..wn-1)的对数值;在转换后的NET1中,除了初始状态之外,每一个状态wiwi+1..wj都还有一条回退弧,其对应Ngram模型中相应元组的回退概率B(wiwi+1..wj),该弧从状态wiwi+1..wj指向状态wi+1..wj,弧上的输入为空,弧上的权重等于LnB(wiwi+1..wj),其为所述回退概率B(wiwi+1..wj)的对数值;上述特征中P(·)和B(·)分别表示概率和回退概率。其中,Ngram模型包括1元组Unigram、2元组Bigram、3元组trigram、……,k元组k-gram。
图2显示了达到此目的一种具体操作方法。
在S201步骤,正规化用于语音识别的Ngram模型,使得保证高阶Ngram存在时对应低阶Ngram也存在,即如果一个N元组存在,则其所有前缀相应的元组都要存在。
在S202步骤,创建空状态esp作为初始的NET1。
在S203步骤,创建Ngram模型中所有1元组的概率和回退概率,通过遍历Ngram模型中所有的1元组Unigram,在NET1中为每个Unigram创建相应的Unigram状态;从esp状态到Unigram状态添加前向弧,弧上的输入为Unigram对应的字符串,权重为Unigram对应的概率的对数值;从每个Unigram状态到esp状态添加回退弧,弧上的输入为空,权重为Unigram对应的回退概率的对数值。
在S204步骤,创建所有2元以上的高元组的概率和回退概率,通过遍历Ngram模型中所有2元以上的高元组k-gram,在NET1中为每个高元组k-gram创建相应的k-gram状态;在NET1中寻找k-gram的前k-1个词构成的(k-1)-prefix-gram状态,并添加从(k-1)-prefix-gram状态到k-gram状态的前向弧,弧的输入为高元组k-gram对应的词组中的最后一个词,权重为高元组k-gram对应的概率的对数值;然后在所述NET1中寻找k-gram的后k-1个词构成(k-1)-subfix-gram状态,从k-gram状态添加回退弧到(k-1)-subfix-gram状态,弧的输入为空,权重为高元组k-gram的回退概率的对数值;其中k的取值范围是2<=k<=N的整数,N是Ngram的阶数。
步骤S102:利用RNN优化步骤S101中的得到的NET1,使得输出概率最大化。该步骤对每个句子采用NET1和RNN分别打分,优化目标是使得句子的得分为NET1打分和RNN打分中的高分者,所述步骤具体包括,如图3所示:
步骤S301,利用RNN得分优化NET1中的所有弧;
步骤S302,向NET1追加状态和弧,增强NET1的表达能力。
更具体的,步骤S301的详细流程如图4所示。
首先,在步骤S401处取出每句语音训练文本SENTi;
接着在步骤S402处,在NET1上求解最高分路径,该路径从状态<s>出发到状态wn1...wn2</s>结束,其中wn1...wn2是SENTi的最后n2-n1+1个词,并且路径中间经过的弧上的字符串串接起来等于输入的句子,<s>是Ngram模型中用来表示句子开始的1元组,其在转换成NET1后对应<s>状态,</s>是Ngram模型中用来表示句子结束的1元组,其在转换成NET1后对应</s>状态。将路径经过的弧的编号依次记录下来,记该路径为PATHi,并记该路径的总得分为SCORE_NGRAMi,即该路径经过的所有弧上的权重之和;
接着在步骤S403处,采用RNN计算SENTi得分并记为SCORE_RNNi;
接着在S404处,求SENTi的最佳得分,记为SCORE_BESTi=max{SCORE_RNNi,SCORE_NGRAMi};
接着在步骤S405处,利用如下公式计算出的更新量更新路径PATHi经过的每一条弧(包括回退弧)上的权重,即更新后的权重等于原始权重加上所述更新量,每条弧的更新量为:
其中ρ∈(0,1]为系统学习率,LENGTHi是PATHi经过的弧的数目;
接着在步骤S406处,采用广度优先遍历NET1中的每个状态,将该状态所有输出弧上的权重进行规整,保证每个状态所有输出弧(包括回退弧)满足概率条件(概率之和等于1);
最后,在步骤S407处判断是否可以停止,如果迭代次数超过指定门限,或者训练结果收敛,即所述NET1上的所有弧上的权重不再发生变化,或者更新后的新模型与原来的模型的误差小于指定门限,则停止,否则重复步骤S401到步骤S406的过程。其中,所述误差为迭代更新后所有弧上的权重与迭代更新前所有弧上的权重之平均误差。
更具体的,步骤S302的详细流程如图5所示:
步骤S501寻找需要增强表达能力的句子,对训练文本集中的每个句子SENTi,当SCORE_RNNi>SCORE_NGRAMi,则进入后面操作S502和S503;
步骤S502,增强2元组表达能力,将该句子中出现的1元组Unigram与它的后接词合并为2元组Bigram,如果NET1中不存在该Bigram对应的Bigram状态,则采用步骤S204的方法将该Bigram对应的Bigram状态添加到NET1中,从所述Unigram状态到所述Bigram状态的弧上的输入为所述后接词,其权重值等于在Ngram模型中所述2元组Bigram的概率对数值与下式结果之和:
且Bigram状态的回退弧上的权重值等于0;接着采用步骤S301所述方法优化所述NET1中的所有弧,其具体实现见步骤S401到S407。举例说明,假设有1元组(unigram)“好”要升级到“好吗”这个2元组。那么首先在NET1中建立状态“好吗”,然后从状态“好”到状态“好吗”添加一条弧,这条弧上的输入等于“吗”字;然后给“好吗”添加回退弧,回退到“吗”状态,回退弧上没有输入,只有权重等于0。
最后,在步骤S503处,增强3元组及更高元组的表达能力,利用步骤S501到S502的方法处理Ngram模型中2元组及更高元组的表达能力,也就是说,对2<=k<N的情形,对每个阶数k,类似上述步骤S501至S502的做法,如果Ngram模型中对于k-gram,当SCORE_RNNi>SCORE_NGRAMi,则将该句中k-gram与后接词合并为(k+1)-gram,如果NET1中不存在该(k+1)-gram对应的(k+1)-gram状态,则采用步骤S204的方法将(k+1)-gram添加到NET1中,从所述k-gram状态到(k+1)-gram状态的弧上的字符串为后接词,其权重值等于在Ngram模型中所述k+1元组模型(k+1)-gram的概率对数值与下式之和:
且(k+1)-gram状态的回退弧上的权重值等于0,再采用步骤S301方法更新WFSA,其具体实现见步骤S401到S407;
重复上述步骤直到不存在SCORE_RNNi>SCORE_NGRAMi的句子,或者训练文本的所有句子中出现的所有N元组都在NET1中。
更具体的,步骤S103,利用发音字典将NET1转成带有语言模型概率的WFST发音网络NET2。具体包括:保持NET1网络拓扑结构不变,将每条弧上的输入复制到输出,形成WFST网络NET_WORD,具体示例见图10(a);将发音字典中每个词Wi转成FST网络NET_LEXi,每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音,到达结束状态的每条弧输出都是词Wi;如果NET_WORD中的弧上有输入单词Wi,则将该弧替换成FST网络NET_LEXi,最终形成新网络NET2,从而避免了传统compose做法导致的大内存消耗问题和同音词消歧问题;最终生成的NET2网络的特点是每条弧的输入是一个音子,如果该弧上的输入到达一个词Wi的结尾,则该弧的输出是词Wi,如果该弧上的输入未达到一个词的词尾,则该弧的输出词为空;且该弧到达状态必定对应Ngram模型中描述的一个N元组,具体示例请见图10(b)。
更具体的,步骤S104,利用音子混淆矩阵优化NET2使得句子错误率最小化,具体是从声学模型中引入音子混淆矩阵M。对于训练文本中每句话的标准音子串,按照音子混淆矩阵M所述的概率在NET2进行状态转移,最终输出K+1个最佳候选句子,其中完全等同于标准答案的句子为SENT0,不同于标准答案的K个句子为SENT1..SENTK,优化目标使得标准答案句子的路径得分大于错误句子的路径得分;具体包括如下步骤:
(S001)从NET2中找到<s>状态作为当前状态;
(S002)依次输入训练文本中句子的所有音子;
(S003)对每个音子,以混淆矩阵M中的概率走向混淆音子表示的弧;例如,“安”的标准发音是an,如果混淆矩阵M中有2个混淆关系:an保持an的概率是0.8;an混淆ang的概率是0.2;则从当前状态出发以0.8的概率转移到输入为an的弧,同时以0.2的概率转移到输入为ang的弧。
(S004)每输入一个音子,采用集束搜索(BeamSearch)方法,以指定的Beam宽度对路径进行裁剪,即删除路径总得分(即所述路径包括的所有弧上的权重之和)和最大路径得分差距大于Beam的路径;
(S005)当输入最后一个音子时,保留所有到达词结尾的路径,记路径中输出结果与原始文本相同的句子为SENT0,其他句子记为SENT1..SENTK;
(S006)对每个句子执行如下操作:
计算标准答案得分与错误答案得分之间的差距d:
d=g(SENT0|M,NET2)-G(SENT1..K|M,NET2)
其中g(SENT0|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出文本SENT0的概率;G(SENT1..K|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误句子SENT1..SENTK的概率的某种变换函数,具体为:
其中,g(SENTK|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误文本SENTK的概率,η取值范围为大于等于1,当η取值等于正无穷时,该公式等价于取最大值,当η取值等于1时,该公式等价于求输出所述错误的K个句子的概率的平均值。
采用下式计算输出文本错误的损失量:
其中,d为所述标准答案得分与错误答案得分之间的差距,λ和θ是预指定的常量。
采用下式计算模型参数的调整量:
根据所述调整量调整所述发音网络NET2,具体为:
其中,ε是学习步长;Γ和Γnew分别表示NET2上弧的原始权重和调整后的权重;
其中指示函数I(text,Arc)表示解码成文本text时经过弧Arc的次数。重复执行上述步骤(S001)-(S006),直到指定最大迭代次数或者模型收敛到指定的误差范围内,例如,对NET2中的每条弧Arc,其中Arc表示弧Arc上的权重。
更具体的,步骤S105,将NET2反向转换成Ngram模型,包括如下步骤:
将WFST发音网络NET2转成WFSA词语网络NET3,使得NET3中的每个状态对应改进后的Ngram模型中的元组,NET3中状态A到B的转移概率等于NET2中状态A到状态B的所有路径概率之和,NET3中从状态A到状态B的弧上的输入正好等于NET2中从状态A到状态B的路径上的输出且最多只能有一个词;
在NET3中遍历对应于1元组Unigram的Unigram状态,使得改进后的Ngram模型中1元组Unigram的概率的对数值为esp状态到Unigram状态的弧上的权重值,回退概率为Unigram状态到esp状态的弧上的权重;
在NET3中遍历对应于2元组及2元组以上的k元组k-gram的所有k-gram状态,使得改进后的Ngram模型中2元组及2元组以上的k元组k-gram的概率的对数值为所述k元组k-gram对应的前k-1个词构成的k-1元组(k-1)-prefix-gram对应的(k-1)-prefix-gram状态到k-gram状态的弧上的权重,回退概率的对数值为k-gram状态到所述k元组k-gram对应的后k-1个词构成的k-1元组(k-1)-subfix-gram对应的(k-1)-subfix-gram状态的弧上的权重值。
上述步骤完整地完成NET3到Ngram模型的转换。
图6演示了将一个如下Ngram(trigram)转成等价WFSA的方法,其中图9(a)-9(b)给出进行转换的具体流程图。图7演示了句子“你好你好”在上述WFSA上经过的最佳路径,首先从<s>开始,依次经过的弧编号为9,15,16,12,6,3,11,17,最终达到“你好</s>”走到句子结束。其中弧16,12,6均是回退弧,在传统的Ngram训练算法中,Ngram预测概率和回退概率单独估计,难以联合优化。在本发明中,采用WFSA将所有概率等同对待,使得这两种概率可以联合优化。
下表为原始Ngram模型:
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种用于语音识别的Ngram模型改进方法,其包括如下步骤:
步骤S101:将用于语音识别的原始Ngram模型转成等价的WFSA网络NET1;
步骤S102:利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化;
步骤S103:利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2;
步骤S104:利用音子混淆矩阵优化所述发音网络NET2,使得句子错
误率最小化;
步骤S105:将所述发音网络NET2反向转换成改进后的Ngram模型。
2.如权利要求1所述的用于语音识别的Ngram模型改进方法,其特征在于:
所述NET1中的状态数目等于所述原始Ngram的所有元组数目加1,其中所述NET1中的状态包括初始状态和对应所述原始Ngram中每一个元组的状态;
如果原始Ngram模型中概率P(wn|w1w2..wn-1)存在,则在所述NET1中状态w1w2..wn-1到状态w1w2..wn-1wn之间必定有一条弧连接,且该弧上的输入为字符串wn,该弧上的权重为LnP(wn|w1w2..wn-1),其为所述概率P(wn|w1w2..wn-1)的对数值;在所述NET1中,除了初始状态之外,每一个状态wiwi+1..wj都还具有一条回退弧,其对应所述原始Ngram模型中相应元组的回退概率B(wiwi+1..wj),该回退弧从状态wiwi+1..wj指向状态wi+1..wj,弧上的输入为空,弧上的权重等于LnB(wiwi+1..wj),其为所述回退概率B(wiwi+1..wj)的对数值。
3.如权利要求2所述的用于语音识别的Ngram模型改进方法,其特征在于:所述将用于语音识别的Ngram模型转成等价的WFSA网络NET1具体包括:
步骤S201:正规化所述原始Ngram模型;
步骤S202:创建空状态esp作为初始的NET1。
步骤S203:在所述NET1中,为每个所述原始Ngram模型中的1元组Unigram创建相应的Unigram状态;从所述esp状态到所述Unigram状态添加前向弧,弧上的输入为所述原始Ngram模型中的1元组Unigram对应的字符串,权重为所述原始Ngram模型中的1元组Unigram对应的概率的对数值;从每个所述原始Ngram模型中的1元组Unigram状态到所述esp状态添加回退弧,弧上的输入为空,权重为所述原始Ngram模型中的1元组Unigram对应的回退概率的对数值;
步骤S204:在所述NET1中为每个2元组及2元组以上的高元组k-gram创建相应的k-gram状态;并在所述NET1中寻找所述高元组k-gram中的前k-1个词构成的k-1元组(k-1)-prefix-gram对应的(k-1)-prefix-gram状态,并添加从(k-1)-prefix-gram状态到k-gram状态的前向弧,弧的输入为所述高元组k-gram对应的词组中的最后一个词,权重为所述高元组k-gram的概率的对数值;然后在所述NET1中寻找所述高元组k-gram对应的后k-1个词构成的k-1元组(k-1)-subfix-gram对应的(k-1)-subfix-gram状态,添加从k-gram状态到(k-1)-subfix-gram状态的回退弧,弧的输入为空,权重为所述高元组k-gram的回退概率的对数值;其中k的取值范围是2<=k<=N的整数,N是所述原始Ngram模型的阶数。
4.如权利要求1所述的用于语音识别的Ngram模型改进方法,其特征在于:所述利用RNN优化所述NET1,使得使用所述NET1对训练文本打分时,对于训练文本中每个语句的输出概率最大化具体包括:
步骤S301,利用RNN得分优化所述NET1中的所有弧;具体为:
采用RNN模型计算训练文本中每一语句SENTi的得分并记为SCORE_RNNi;所述语句SENTi在所述NET1中的最佳路径为路径PATHi,则该路径PATHi的总得分为SCORE_NGRAMi;确定所述SENTi的最佳得分为:SCORE_BESTi=max{SCORE_RNNi,SCORE_NGRAMi};
利用更新量更新该路径经过的每一条弧上的权重,其中每条弧的更新量根据公式(1)计算:
其中,ρ∈(0,1],LENGTHi是路径PATHi经过的弧的数目;
采用广度优先遍历所述NET1中的每个状态,并将每个状态上所有弧上的权重进行规整,以保证每个状态的所有输出弧满足概率条件;
重复执行上述步骤,直到每条弧上更新后的权重值与原权重值的误差小于预定阈值;
步骤S302,向所述NET1追加状态和弧,增强NET1的表达能力,具体为:首先从训练文本寻找需要增强表达能力的语句,然后对于每一个需要增强表达能力的语句,依次增强2元组、3元组及3元组以上元组的表达能力,直到不存在SCORE_RNNi>SCORE_NGRAMi的句子,或者用于表示需要增强表达能力的句子的所有Ngram元组对应的状态都在所述NET1中。
5.如权利要求4所述的用于语音识别的Ngram模型改进方法,其特征在于:所述需要增强表达能力的语句为SCORE_RNNi>SCORE_NGRAMi的语句;其中增强k+1元组的表达能力的方式如下,1=<k<N:
对于每个需要增强表达能力的语句,将所述原始Ngram模型中k元组k-gram与它的后接词合并为k+1元组(k+1)-gram,如果所述NET1中不存在该k+1元组(k+1)-gram对应的(k+1)-gram状态,则添加该(k+1)-gram状态到所述NET1中;其中从所述k-gram状态到所述(k+1)-gram状态的弧上的输入为所述后接词,其权重值等于所述k+1元组(k+1)-gram的概率对数值与根据所述公式(1)计算得到的更新量之和,且所述(k+1)-gram状态的回退弧上的权重值等于0;然后利用RNN得分优化所述NET1中每条弧上的权重值。
6.如权利要求1所述的用于语音识别的Ngram模型改进方法,其特征在于:所述利用发音字典将所述NET1转成带有语言模型概率的WFST发音网络NET2具体包括:
保持所述NET1网络拓扑结构不变,将每条弧上的输入复制到输出,形成WFST网络NET_WORD;将发音字典中每个词Wi转成FST网络NET_LEXi,每个FST网络的特点是从开始状态走到结束状态的每一条路径上所有弧上的输入正好等于该词的一个发音,到达结束状态的每条弧的输出都是词Wi;如果NET_WORD中的弧上有输入单词Wi,则将该弧替换成FST网络NET_LEXi,最终形成所述发音网络NET2。
7.如权利要求1所述的用于语音识别的Ngram模型改进方法,其特征在于:所述利用音子混淆矩阵优化所述发音网络NET2包括对于训练文本中每一句的标准音子串,按照音子混淆矩阵M中的概率在所述发音网络NET2进行状态转移,最终输出K+1个最佳候选句子,其中完全等同于标准答案的句子为SENT0,不同于标准答案的K个句子为SENT1..SENTK,然后对所述发音网络NET2进行优化使得标准答案句子的路径得分大于错误句子的路径得分。
8.如权利要求7所述的用于语音识别的Ngram模型改进方法,其特征在于:所述利用音子混淆矩阵优化所述发音网络NET2的具体步骤包括:
步骤S001:从所述发音网络NET2中找到<s>状态作为当前状态;
步骤S002:依次输入训练文本中每个句子的所有音子;
步骤S003:对每个音子,以混淆矩阵M中的概率走向混淆音子表示的弧;
步骤S004:每输入一个音子,则采用集束搜索方法,以指定的Beam宽度对路径进行裁剪;
步骤S005:当输入最后一个音子时,保留所有到达词结尾的路径,并记路径中输出结果与所述训练文本相同的句子为SENT0,其他路径记为SENT1..SENTK;
步骤S006:对每个句子执行如下操作:
步骤S0061:计算标准答案得分与错误答案得分之间的差距d:
d=g(SENT0|M,NET2)-G(SENT1..K|M,NET2) (2)
其中,g(SENT0|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出标准语句SENT0的概率;G(SENT1..K|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误句子SENT1..SENTK的概率的某种变换函数,具体为:
其中,g(SENTK|M,NET2)表示在给定混淆矩阵M和发音网络NET2的条件下,输出错误语句SENTK的概率,η取值范围为大于等于1,其中K为输出错误句子的数目;
步骤S0062:采用下式计算输出文本错误的损失量:
其中,d为所述标准答案得分与错误答案得分之间的差距,λ和θ是预指定的常量;
步骤S0063:采用下式计算所述NET2的每条弧上权重的调整量:
其中,指示函数I(SENT0,Arc)和I(SENTk,Arc)分别表示标准语句SENT0和错误语句SENTK经过弧Arc的次数;
S0064:根据所述调整量调整所述发音网络NET2,具体为:
其中,ε是学习步长;Γ和Γnew分别表示NET2上弧的原始权重和调整后的权重;
重复执行上述步骤S001到步骤S006,直到指定最大迭代次数或者模型收敛到指定的误差范围内。
9.如权利要求1所述的用于语音识别的Ngram模型改进方法,其特征在于:所述将所述发音网络NET2反向转换成改进后的Ngram模型具体包括:将WFST发音网络NET2转成WFSA词语网络NET3,使得所述词语网络NET3中的每个状态对应所述改进Ngram模型中的一个元组,所述词语网络NET3中状态A到B的转移概率等于所述发音网络NET2中状态A到状态B的所有路径概率之和,从状态A到状态B的弧上的输入正好等于所述发音网络NET2中从状态A到状态B的路径上的输出且只输出一个词;
在NET3中遍历对应于1元组Unigram的Unigram状态,使得改进后的Ngram模型中1元组Unigram的概率的对数值为esp状态到Unigram状态的弧上的权重值,回退概率为Unigram状态到esp状态的弧上的权重;
在NET3中遍历对应于2元组及2元组以上的k元组k-gram的所有k-gram状态,使得改进后的Ngram模型中2元组及2元组以上的k元组k-gram的概率的对数值为所述k元组k-gram对应的前k-1个词构成的k-1元组(k-1)-prefix-gram对应的(k-1)-prefix-gram状态到k-gram状态的弧上的权重,回退概率的对数值为k-gram状态到所述k元组k-gram对应的后k-1个词构成的k-1元组(k-1)-subfix-gram对应的(k-1)-subfix-gram状态的弧上的权重值。
10.如权利要求4所述的方法,其特征在于:所述利用更新量更新路径经过的每一条弧上的权重具体为每一条弧上的权重加上所述更新量;所述保证每个状态的所有弧满足概率条件具体为所述所有弧上的概率和为1;所述误差为更新后所有弧上的权重与更新前所有弧上的权重之平均误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210528093.6A CN102968989B (zh) | 2012-12-10 | 2012-12-10 | 一种用于语音识别的Ngram模型改进方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210528093.6A CN102968989B (zh) | 2012-12-10 | 2012-12-10 | 一种用于语音识别的Ngram模型改进方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102968989A true CN102968989A (zh) | 2013-03-13 |
CN102968989B CN102968989B (zh) | 2014-08-13 |
Family
ID=47799096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210528093.6A Active CN102968989B (zh) | 2012-12-10 | 2012-12-10 | 一种用于语音识别的Ngram模型改进方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102968989B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105159473A (zh) * | 2015-08-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语言模型计算处理方法及系统 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105843811A (zh) * | 2015-01-13 | 2016-08-10 | 华为技术有限公司 | 转换文本的方法和设备 |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
CN106327251A (zh) * | 2016-08-22 | 2017-01-11 | 北京小米移动软件有限公司 | 模型训练系统和方法 |
CN106537492A (zh) * | 2014-11-24 | 2017-03-22 | 奥迪股份公司 | 具有用于语音识别的校正策略的机动车操作装置 |
CN106663423A (zh) * | 2014-10-06 | 2017-05-10 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 |
CN106663425A (zh) * | 2014-09-23 | 2017-05-10 | 英特尔公司 | 用于自动语音识别的使用外推的跳帧和按需输出的神经网络 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
CN106971734A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
CN107077841A (zh) * | 2014-06-13 | 2017-08-18 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN107112010A (zh) * | 2015-01-16 | 2017-08-29 | 三星电子株式会社 | 用于使用语法模型执行话音识别的方法和设备 |
CN107615308A (zh) * | 2015-05-11 | 2018-01-19 | 国立研究开发法人情报通信研究机构 | 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置 |
CN107704102A (zh) * | 2017-10-09 | 2018-02-16 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN109523991A (zh) * | 2017-09-15 | 2019-03-26 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
CN110047477A (zh) * | 2019-04-04 | 2019-07-23 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN110176228A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种小语料语音识别方法及系统 |
WO2020001458A1 (zh) * | 2018-06-26 | 2020-01-02 | 华为技术有限公司 | 语音识别方法、装置及系统 |
CN111222331A (zh) * | 2019-12-31 | 2020-06-02 | 北京捷通华声科技股份有限公司 | 辅助解码方法、装置、电子设备及可读存储介质 |
CN111291573A (zh) * | 2020-01-21 | 2020-06-16 | 高小翎 | 有向图意义导向模型驱动的短语语义挖掘方法 |
CN111507406A (zh) * | 2020-04-17 | 2020-08-07 | 上海眼控科技股份有限公司 | 一种用于优化神经网络文本识别模型的方法与设备 |
CN111583915A (zh) * | 2020-04-07 | 2020-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN112002310A (zh) * | 2020-07-13 | 2020-11-27 | 苏宁云计算有限公司 | 领域语言模型构建方法、装置、计算机设备及存储介质 |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN113436619A (zh) * | 2021-05-28 | 2021-09-24 | 中国科学院声学研究所 | 一种语音识别解码的方法及装置 |
CN113936647A (zh) * | 2021-12-17 | 2022-01-14 | 中国科学院自动化研究所 | 语音识别模型的训练方法、语音识别方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719997A (en) * | 1994-01-21 | 1998-02-17 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars |
CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别系统 |
-
2012
- 2012-12-10 CN CN201210528093.6A patent/CN102968989B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5719997A (en) * | 1994-01-21 | 1998-02-17 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammer to represent context free grammars |
CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别系统 |
Non-Patent Citations (3)
Title |
---|
伊·达瓦等: "语料资源缺乏的连续语音识别方法的研究", 《自动化学报》 * |
张强等: "基于HTK的语音识别语言模型设计及性能分析", 《成都信息工程学院学报》 * |
秦健: "N-gram技术在中文词法分析中的应用研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN107077841A (zh) * | 2014-06-13 | 2017-08-18 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN107077841B (zh) * | 2014-06-13 | 2020-10-16 | 微软技术许可有限责任公司 | 用于文本到语音的超结构循环神经网络 |
CN106663425A (zh) * | 2014-09-23 | 2017-05-10 | 英特尔公司 | 用于自动语音识别的使用外推的跳帧和按需输出的神经网络 |
CN106663423B (zh) * | 2014-10-06 | 2021-02-26 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 |
CN106663423A (zh) * | 2014-10-06 | 2017-05-10 | 英特尔公司 | 使用具有词历史的实时词网格生成的自动语音识别的系统和方法 |
CN106537492B (zh) * | 2014-11-24 | 2019-05-10 | 奥迪股份公司 | 具有用于语音识别的校正策略的机动车操作装置 |
CN106537492A (zh) * | 2014-11-24 | 2017-03-22 | 奥迪股份公司 | 具有用于语音识别的校正策略的机动车操作装置 |
CN105843811A (zh) * | 2015-01-13 | 2016-08-10 | 华为技术有限公司 | 转换文本的方法和设备 |
CN105843811B (zh) * | 2015-01-13 | 2019-12-06 | 华为技术有限公司 | 转换文本的方法和设备 |
USRE49762E1 (en) | 2015-01-16 | 2023-12-19 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
CN107112010B (zh) * | 2015-01-16 | 2021-06-01 | 三星电子株式会社 | 用于使用语法模型执行话音识别的方法和设备 |
CN107112010A (zh) * | 2015-01-16 | 2017-08-29 | 三星电子株式会社 | 用于使用语法模型执行话音识别的方法和设备 |
US10706838B2 (en) | 2015-01-16 | 2020-07-07 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
US10964310B2 (en) | 2015-01-16 | 2021-03-30 | Samsung Electronics Co., Ltd. | Method and device for performing voice recognition using grammar model |
CN107615308A (zh) * | 2015-05-11 | 2018-01-19 | 国立研究开发法人情报通信研究机构 | 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置 |
CN107615308B (zh) * | 2015-05-11 | 2021-02-26 | 国立研究开发法人情报通信研究机构 | 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置 |
CN105159473B (zh) * | 2015-08-17 | 2018-02-13 | 百度在线网络技术(北京)有限公司 | 一种语言模型计算处理方法及系统 |
CN105159473A (zh) * | 2015-08-17 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 一种语言模型计算处理方法及系统 |
CN105118501B (zh) * | 2015-09-07 | 2019-05-21 | 徐洋 | 语音识别的方法及系统 |
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105206267B (zh) * | 2015-09-09 | 2019-04-02 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
CN106971734B (zh) * | 2016-01-14 | 2020-10-23 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
CN106971734A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
CN105895081A (zh) * | 2016-04-11 | 2016-08-24 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
WO2017177484A1 (zh) * | 2016-04-11 | 2017-10-19 | 苏州思必驰信息科技有限公司 | 一种语音识别解码的方法及装置 |
CN106327251A (zh) * | 2016-08-22 | 2017-01-11 | 北京小米移动软件有限公司 | 模型训练系统和方法 |
CN109523991B (zh) * | 2017-09-15 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
CN109523991A (zh) * | 2017-09-15 | 2019-03-26 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置、设备 |
CN107704102A (zh) * | 2017-10-09 | 2018-02-16 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN107704102B (zh) * | 2017-10-09 | 2021-08-03 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN108563639B (zh) * | 2018-04-17 | 2021-09-17 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
WO2020001458A1 (zh) * | 2018-06-26 | 2020-01-02 | 华为技术有限公司 | 语音识别方法、装置及系统 |
CN110047477A (zh) * | 2019-04-04 | 2019-07-23 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN110047477B (zh) * | 2019-04-04 | 2021-04-09 | 北京清微智能科技有限公司 | 一种加权有限状态转换机的优化方法、设备以及系统 |
CN110176228A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种小语料语音识别方法及系统 |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN111222331B (zh) * | 2019-12-31 | 2021-03-26 | 北京捷通华声科技股份有限公司 | 辅助解码方法、装置、电子设备及可读存储介质 |
CN111222331A (zh) * | 2019-12-31 | 2020-06-02 | 北京捷通华声科技股份有限公司 | 辅助解码方法、装置、电子设备及可读存储介质 |
CN111291573A (zh) * | 2020-01-21 | 2020-06-16 | 高小翎 | 有向图意义导向模型驱动的短语语义挖掘方法 |
CN111583915A (zh) * | 2020-04-07 | 2020-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN111583915B (zh) * | 2020-04-07 | 2023-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN111507406A (zh) * | 2020-04-17 | 2020-08-07 | 上海眼控科技股份有限公司 | 一种用于优化神经网络文本识别模型的方法与设备 |
WO2022012238A1 (zh) * | 2020-07-13 | 2022-01-20 | 苏宁易购集团股份有限公司 | 领域语言模型构建方法、装置、计算机设备及存储介质 |
CN112002310B (zh) * | 2020-07-13 | 2024-03-26 | 苏宁云计算有限公司 | 领域语言模型构建方法、装置、计算机设备及存储介质 |
CN112002310A (zh) * | 2020-07-13 | 2020-11-27 | 苏宁云计算有限公司 | 领域语言模型构建方法、装置、计算机设备及存储介质 |
CN113436619A (zh) * | 2021-05-28 | 2021-09-24 | 中国科学院声学研究所 | 一种语音识别解码的方法及装置 |
CN113436619B (zh) * | 2021-05-28 | 2022-08-26 | 中国科学院声学研究所 | 一种语音识别解码的方法及装置 |
US11580957B1 (en) | 2021-12-17 | 2023-02-14 | Institute Of Automation, Chinese Academy Of Sciences | Method for training speech recognition model, method and system for speech recognition |
CN113936647B (zh) * | 2021-12-17 | 2022-04-01 | 中国科学院自动化研究所 | 语音识别模型的训练方法、语音识别方法和系统 |
CN113936647A (zh) * | 2021-12-17 | 2022-01-14 | 中国科学院自动化研究所 | 语音识别模型的训练方法、语音识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102968989B (zh) | 2014-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102968989B (zh) | 一种用于语音识别的Ngram模型改进方法 | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN111480197B (zh) | 语音识别系统 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
Liu et al. | Two efficient lattice rescoring methods using recurrent neural network language models | |
CN108417210B (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
JP7070894B2 (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN109410914A (zh) | 一种赣方言语音和方言点识别方法 | |
Manohar et al. | Semi-supervised maximum mutual information training of deep neural network acoustic models. | |
Kadyan et al. | Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system | |
Zhang et al. | Investigation of modeling units for mandarin speech recognition using dfsmn-ctc-smbr | |
CN113574595A (zh) | 用于具有触发注意力的端到端语音识别的系统和方法 | |
Dua et al. | Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling | |
CN110413987B (zh) | 基于多个预测模型的标点符号预测方法及相关设备 | |
Jyothi et al. | Lexical access experiments with context-dependent articulatory feature-based models | |
CN112967720B (zh) | 少量重口音数据下的端到端语音转文本模型优化方法 | |
Tanaka et al. | Neural speech-to-text language models for rescoring hypotheses of dnn-hmm hybrid automatic speech recognition systems | |
Karanasou et al. | Discriminative training of a phoneme confusion model for a dynamic lexicon in ASR | |
CN116090441B (zh) | 一种融合局部语义特征和全局语义特征的中文拼写纠错方法 | |
Joshi et al. | Attention based end to end speech recognition for voice search in hindi and english | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Chen et al. | Multi-task learning in deep neural networks for Mandarin-English code-mixing speech recognition | |
Heymann et al. | Improving ctc using stimulated learning for sequence modeling | |
Shi et al. | Research on transfer learning for Khalkha Mongolian speech recognition based on TDNN | |
Chan | End-to-end speech recognition models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |