CN101645270A - 一种双向语音识别处理系统及方法 - Google Patents

一种双向语音识别处理系统及方法 Download PDF

Info

Publication number
CN101645270A
CN101645270A CN200810239818A CN200810239818A CN101645270A CN 101645270 A CN101645270 A CN 101645270A CN 200810239818 A CN200810239818 A CN 200810239818A CN 200810239818 A CN200810239818 A CN 200810239818A CN 101645270 A CN101645270 A CN 101645270A
Authority
CN
China
Prior art keywords
speech
forward direction
prime
identification
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810239818A
Other languages
English (en)
Inventor
颜永红
黎塔
赵庆卫
潘接林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN200810239818A priority Critical patent/CN101645270A/zh
Publication of CN101645270A publication Critical patent/CN101645270A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种双向语音识别处理系统及方法,该系统包括:特征提取器、前向语音识别器、后向语音识别器、识别结果反向器及识别结果融合器。该系统及方法,其框架是基于同一知识源的双向语音识别解码完成,在前后双向的语音识别过程中分别得到相应的语音请求识别文本,将不同解码方向的语音请求识别结果融合处理得到语音搜索系统前端的文本请求。本发明的双向语音识别解码系统及方法,在已有的有限的知识源下,通过对双向解码结果的融合,得到更为精确的识别文本;与以往的正向解码方法相比,该方法在有效提高语音识别率的同时,也使语音搜索系统的搜索结果更为准确有效。

Description

一种双向语音识别处理系统及方法
技术领域
本发明涉及语音搜索系统领域,特别涉及一种语音识别处理系统及方法。
背景技术
当今世界正处在信息爆炸的时代,信息正在以指数级的速度增长。互联网技术的不断发展以及高效的文本搜索引擎的出现,像谷歌,百度提供的搜索服务让人们能在最短的时间获得自己最需要的信息。在没有键盘,手写板等文本输入手段的情况下,为了能更方便的向人们提供信息查询服务,语音搜索系统使人们能够仅通过语音输入进行信息请求服务就可得到需要查询的信息。
现有技术中语音搜索系统的主要框架如图1所示,影响语音搜索系统性能的主要技术是前端的语音识别技术和其后的自然语言理解技术。在语音搜索系统中,语音识别器位于其最前端,语音识别技术的好坏将直接影响到后面的各个模块的性能,最终将影响到整个语音搜索系统的性能。所以有效的提高系统中前端的语音识别器性能将能大幅提高语音搜索技术的性能。
在传统的语音识别技术中,多个语音识别器融合的方法通常都能提高语音识别的性能。以往的多识别器系统融合的方法基本都可以归为具有不同知识源的语音识别器的融合,不同的语音识别器通常具有不同的特征信息,声学层建模信息以及语言层的建模信息。而语音识别器的识别错误通常是由模型误差和解码误差产生,多知识源的语音识别器融合方法可以一定程度上减少模型误差,但基于多知识源的语音识别器的搭建需要的周期较长,需要的资源较多。
发明内容
为了克服上述现有技术的不足,本发明提供一种应用于语音搜索系统的双向语音识别处理系统及方法。本发明的目的是在有限的语音识别知识源的情况下,利用双向语音识别器的方法,通过有效提高语音搜索系统的前端的语音识别性能,从而进一步提高整个语音搜索系统的搜索准确率。
为了实现上述目的,本发明提供了一种双向语音识别处理系统,包括:
一特征提取器,用于从前向后顺序地提取用户输入的语音信号的特征信息,并将该语音信号的特征信息逐帧送入前向语音识别器与后向语音识别器。
一前向语音识别器,用于根据前向语音模型将语音信号的特征信息逐帧进行解码,得到前向识别文本和前向识别词图,并将该前向识别文本和前向识别词图送入识别结果融合器。
一后向语音识别器,用于根据后向语音模型将语音信号的特征信息逐帧进行解码,得到逆向识别文本和逆向识别词图,并将该逆向识别文本和逆向识别词图送入识别结果反向器。
一识别结果反向器,用于将输入的逆向识别文本和逆向识别词图进行倒序排列,得到后向识别文本和后向识别词图,并将该后向识别文本和后向识别词图送入识别结果融合器。及
一识别结果融合器,用于将输入的前向识别文本与后向识别文本进行融合,将前向识别词图与后向识别词图进行融合,最终得到用户输入语音信号的识别文本信息。
其中,所述前向语音识别器包括:前向声学模型,前向语言模型,前向发音词典及前向解码搜索空间。
所述前向声学模型采用基于隐含马尔科夫模型的框架。
所述前向语言模型采用基于3元文法的统计模型。
所述前向发音词典由语言学家归纳得到。
所述前向解码搜索空间通过前向发音字典、前向声学模型及前向语言模型构建得到。
其中,所述后向语音识别器包括:后向声学模型,后向语言模型,后向发音词典及后向解码搜索空间。
所述后向声学模型是将前向声学模型后向转换得到:首先,先将三音子进行逆序查找转换,如ing1(left)-j+ei3(right)转换为ei2(left)-j+ing3(right);然后对转换后的三音子查找出基于隐含马尔科夫声学模型对应的隐含状态序列S1 S2 S3,最后构造出后向声学模型的隐含状态序列S′1 S′2S′3,该隐含状态序列满足以下公式:
对于观察概率满足:
P(O/S′1)=P(O/S3),P(O/S′2)=P(O/S2),P(O/S′3)=P(O/S1)。
对于转移概率满足:
T S 1 ′ S 1 ′ = T S 3 S 3 , T S 2 ′ S 2 ′ = T S 2 S 2 , T S 3 ′ S 3 ′ = T S 1 S 1 , T S 1 ′ S 2 ′ = T S 2 S 3 , T S 2 ′ S 3 ′ = T S 1 S 2 .
所述后向语言模型是将前向语言模型的文本语料倒序后按相同的方法训练得到。如:语料(W1,W2…Wn)转换为(Wn,Wn-1…W1)。
所述后向发音词典是将所述前向发音词典中的词条的发音逆序排列得到。(北京bei3jing1)转换为(北京ing1j ei3b)。
所述后向解码搜索空间通过后向发音字典、后向声学模型及后向语言模型构建得到。
其中,所述识别结果融合器对前向识别文本与后向识别文本进行融合的过程如下:
首先分别对前向识别文本w1w2…wn和后向识别文本w1w2…wn-1计算混淆度,公式如下: Perplexity forward = [ Π i = 1 n P ( w i | w 1 : i - 1 ) ] - 1 n ;
Perplexity backward = [ Π i = 1 n P ( w i ′ | w 1 : i - 1 ′ ) ] - 1 n ;
然后取混淆度小的识别文本作为最后识别文本结果,公式如下:
R = w 1 w 2 &CenterDot; &CenterDot; &CenterDot; w n ( Perplexity forward < = Perplexity backward ) w 1 &prime; w 2 &prime; &CenterDot; &CenterDot; &CenterDot; w n &prime; ( Perplexity forward > Perplexity backward ) .
其中,所述识别结果融合器对前向识别词图与后向识别词图进行融合的过程如下:
首先使用大于前后向语音识别器中的语言模型权重对前后向词图进行重新打分,分别选取前后向词图中打分最高的两条路径:
Sforward(s1s2…sn)和Sbackward(s′ns′n-1…s′1)
使用公式如下:
S forward = arg max i ( LM ( S forward , i ) &times; Scale + AM ( S forward , i ) )
S backward = arg max i ( LM ( S backward , i ) &times; Scale + AM ( S backward , i ) )
利用前向识别词图得到修正的前向识别文本:s1s2…sn
利用后向识别词图得到修正的后向识别文本:s′1s′2…s′n
分别计算修正的前后向识别文本的混淆度,公式如下:
Perplexity forward = &lsqb; &Pi; i = 1 n P ( s i | s 1 : i - 1 ) &rsqb; - 1 n
Perplexity backward = &lsqb; &Pi; i = 1 n P ( s i &prime; | s 1 : i - 1 &prime; ) &rsqb; - 1 n
然后取混淆度小的修正的识别文本作为最后识别文本结果,公式如下:
R = s 1 s 2 &CenterDot; &CenterDot; &CenterDot; s n ( Perplexity forward < = Perplexity backward ) s 1 &prime; s 2 &prime; &CenterDot; &CenterDot; &CenterDot; s n &prime; ( Perplexity forward > Perplexity backward ) .
本发明还提供了一种双向语音识别处理方法,包括以下步骤:
(1)利用有限知识源搭建前向语音识别器,包括声学模型,语言模型,发音词典,解码搜索空间。
(2)利用有限知识源以及步骤(1)中搭建好的前向语音识别器的资源,搭建后向语音识别器。
(3)特征提取器从前向后顺序地提取用户输入的语音信号的特征信息O1,O2…Ot,并将该语音信号的特征信息O1,O2…Ot逐帧送入前向语音识别器与后向语音识别器。
(4)前向语音识别器根据前向语音模型将语音信号的特征信息O1,O2…Ot逐帧进行解码,得到前向识别文本(w1w2…wn)和前向识别词图,并将该前向识别文本和前向识别词图送入识别结果融合器。
(5)后向语音识别器根据后向语音模型将语音信号的特征信息O1,O2…Ot逐帧进行解码,得到逆向识别文本(w′nw′n-1…w′1)和逆向识别词图,并将该逆向识别文本和逆向识别词图送入识别结果反向器。
(6)识别结果反向器将输入的逆向识别文本和逆向识别词图进行倒序排列,得到后向识别文本(w′1w′2…w′n)和后向识别词图,并将该后向识别文本和后向识别词图送入识别结果融合器。
(7)识别结果融合器将输入的前向识别文本与后向识别文本进行融合,将前向识别词图与后向识别词图进行融合,最终得到用户输入语音信号的识别文本信息。
其中,所述步骤(4)和步骤(5)是相互独立的,两者没有先后次序。
本发明的优点在于:
1、本发明提供的双向语音识别处理系统及方法,在已有的有限的知识源下,通过双向解码结果的融合,得到更为精确的识别文本。
2、本发明的双向语音识别解码方法,与以往的正向解码方法相比,该系统及方法在有效提高语音识别率的同时,也使语音搜索系统的搜索结果更为准确有效。
附图说明
图1为现有技术语音搜索系统的主要框架图;
图2为本发明双向语音识别系统构建框图;
图3为本发明双向语音识别系统结构框图;
图4为本发明双向语音识别方法流程图;
图5为本发明实施例前向识别词图结构;
图6为本发明实施例逆向识别词图结构;
图7为本发明实施例后向识别词图结构。
具体实施方式
下面结合具体实施例和附图对本发明进行详细描述。
本实施例根据图2的双向语音识别系统构建框图,提供了一种双向语音识别处理系统,包括:(如图3)
一特征提取器,用于从前向后顺序地提取用户输入的语音信号的特征信息,并将该语音信号的特征信息逐帧送入前向语音识别器与后向语音识别器。
一前向语音识别器,用于根据前向语音模型将语音信号的特征信息逐帧进行解码,得到前向识别文本和前向识别词图,并将该前向识别文本和前向识别词图送入识别结果融合器。
一后向语音识别器,用于根据后向语音模型将语音信号的特征信息逐帧进行解码,得到逆向识别文本和逆向识别词图,并将该逆向识别文本和逆向识别词图送入识别结果反向器。
一识别结果反向器,用于将输入的逆向识别文本和逆向识别词图进行倒序排列,得到后向识别文本和后向识别词图,并将该后向识别文本和后向识别词图送入识别结果融合器。及
一识别结果融合器,用于将输入的前向识别文本与后向识别文本进行融合,将前向识别词图与后向识别词图进行融合,最终得到用户输入语音信号的识别文本信息。
本实施例采用的双向语音识别处理系统的处理方法,如图4所示,包括以下步骤:
(1)利用有限知识源搭建前向语音识别器,包括声学模型,语言模型,发音词典,解码搜索空间。其中声学模型训练采用基于隐含马尔科夫模型(HMM)的框架,语言模型采用基于3元文法的统计模型,发音词典由语言学家归纳得到,通过发音字典以及声学模型,语言模型可以构建解码搜索空间。
(2)利用有限知识源以及步骤(1)中搭建好的前向语音识别器的资源,搭建后向语音识别器。首先发音词典需要倒序,即将步骤(1)中的词典中词条的发音逆序排列,如:(北京bei3j ing1)转换为(北京ing1j ei3b);其次是声学模型的后向转换,先将三音子(triphone)进行逆序查找,如:ing1(left)-j+ei3(right)转换为ei2(left)-j+ing3(right);接着对转换后的triphone查找出步骤(1)中的HMM声学模型对应的隐含状态序列S1S2S3,接着构造出后向声学模型的隐含状态序列S′1S′2S′3使其满足以下公式:
对于观察概率:
P(O/S′1)=P(O/S3),P(O/S′2)=P(O/S2),P(O/S′3)=P(O/S1)
对于转移概率:
T S 1 &prime; S 1 &prime; = T S 3 S 3 , T S 2 &prime; S 2 &prime; = T S 2 S 2 , T S 3 &prime; S 3 &prime; = T S 1 S 1 , T S 1 &prime; S 2 &prime; = T S 2 S 3 , T S 2 &prime; S 3 &prime; = T S 1 S 2
然后是语言模型的后向转换,只需要将步骤(1)中的训练语言模型的文本语料倒序后按相同的方法训练即可,如:语料(W1,W2…Wn)转换为(Wn,Wn-1…W1);最后将后向转换过的发音词典以及声学模型,语言模型按1)中相同的方法重新构建出后向搜索空间。
(3)顺序从前向后提取用户输入语音信号的特征信息O1,O2…Ot
(4)将步骤(3)中提取的用户输入语音信号的特征信息,按从前往后并顺序O1,O2…Ot送入前向语音识别器逐帧进行解码,解码完最后一帧数据得到前向识别文本(w1w2…wn)和前向识别词图(lattice),如图5。
(5)将步骤(3)中提取的用户输入语音信号的特征信息,按从后往前逆序Ot,Ot-1…O1送入后向语音识别器逐帧进行解码,解码完最后一帧数据得到逆向识别文本(w′nw′n-1…w′1)和逆向识别词图(lattice),如图6。
(6)完成步骤(5)后,将步骤(5)中得到的逆向识别文本和逆向识别词图(lattice)进行倒序排列,得到后向识别文本(w′1w′2…w′n)和后向识别词图(lattice),如图7。
(7)完成步骤(4)和步骤(6)后,利用步骤(1)中得的语言模型信息,对步骤4)和步骤(6)中分别得到的识别文本和识别词图进行融合,最后得到用户输入语音信号的识别文本作为语音搜索系统的后端文本输入;对于识别文本的融合采用如下方法,根据步骤(1)中得到的语言模型,分别对步骤(4)中的前向识别文本w1w2…wn和步骤(6)中的后向识别文本w′nw′n-1…w′1计算混淆度,公式如下:
Perplexity forward = &lsqb; &Pi; i = 1 n P ( w i | w 1 : i - 1 ) &rsqb; - 1 n - - - ( 1 )
Perplexity backward = &lsqb; &Pi; i = 1 n P ( w i &prime; | w 1 : i - 1 &prime; ) &rsqb; - 1 n - - - ( 2 )
然后我们取混淆度小的识别文本作为最后识别结果。
识别结果为:
R = w 1 w 2 &CenterDot; &CenterDot; &CenterDot; w n ( Perplexity forward < = Perplexity backward ) w 1 &prime; w 2 &prime; &CenterDot; &CenterDot; &CenterDot; w n &prime; ( Perplexity forward > Perplexity backward ) - - - ( 3 )
对于识别词图的融合,我们先使用更大的语言模型权重对前后向词图进行重新打分,得到修正的前后向识别文本,然后同样通过公式(1),(2),(3)选择混淆度小的修正的识别文本作为最后的识别文本。

Claims (10)

1、一种双向语音识别处理系统,其特征在于,所述语音识别处理系统包括:
一特征提取器,用于从前向后顺序地提取用户输入的语音信号的特征信息,并将该语音信号的特征信息逐帧送入前向语音识别器与后向语音识别器;
一前向语音识别器,用于根据前向语音模型将语音信号的特征信息逐帧进行解码,得到前向识别文本和前向识别词图,并将该前向识别文本和前向识别词图送入识别结果融合器;
一后向语音识别器,用于根据后向语音模型将语音信号的特征信息逐帧进行解码,得到逆向识别文本和逆向识别词图,并将该逆向识别文本和逆向识别词图送入识别结果反向器;
一识别结果反向器,用于将输入的逆向识别文本和逆向识别词图进行倒序排列,得到后向识别文本和后向识别词图,并将该后向识别文本和后向识别词图送入识别结果融合器;及
一识别结果融合器,用于将输入的前向识别文本与后向识别文本进行融合,前向识别词图与后向识别词图进行融合,最终得到用户输入语音信号的识别文本信息。
2、根据权利要求1所述的双向语音识别处理系统,其特征在于,所述前向语音识别器包括:前向声学模型,前向语言模型,前向发音词典及前向解码搜索空间;
所述前向声学模型采用基于隐含马尔科夫模型的框架;
所述前向语言模型采用基于3元文法的统计模型;
所述前向发音词典由语言学家归纳得到;
所述前向解码搜索空间通过前向发音字典、前向声学模型及前向语言模型构建得到。
3、根据权利要求1所述的双向语音识别处理系统,其特征在于,所述后向语音识别器包括:后向声学模型,后向语言模型,后向发音词典及后向解码搜索空间;
所述后向声学模型是将前向声学模型后向转换得到:首先,先将三音子进行逆序查找转换,然后对转换后的三音子查找出基于隐含马尔科夫声学模型对应的隐含状态序列S1S2S3,最后构造出后向声学模型的隐含状态序列S′1S′2S′3,该后向声学模型的隐含状态序列满足以下公式:
对于观察概率满足:
P(O/S′1)=P(O/S3),P(O/S′2)=P(O/S2),P(O/S′3)=P(O/S1);
对于转移概率满足:
T S 1 &prime; S 1 &prime; = T S . 3 S 3 , T S 2 &prime; S 2 &prime; = T S 2 S 2 , T S 3 &prime; S 3 &prime; = T S 1 S 1 , T S 1 &prime; S 2 &prime; = T S 2 S 3 , T S 2 &prime; S 3 &prime; = T S 1 S 2 ;
所述后向语言模型是将前向语言模型的文本语料倒序后按相同的方法训练得到;
所述后向发音词典是将所述前向发音词典中的词条的发音逆序排列得到;
所述后向解码搜索空间通过后向发音字典、后向声学模型及后向语言模型构建得到。
4、根据权利要求1所述的双向语音识别处理系统,其特征在于,所述识别结果融合器对前向识别文本与后向识别文本进行融合的过程如下:
首先分别对前向识别文本w1w2…wn和后向识别文本w′1w′2…w′n-1计算混淆度,公式如下:
Perplexit y forward = [ &Pi; i = 1 n P ( w i | w 1 : i - 1 ) ] - 1 n ;
Perplexity backward = [ &Pi; i = 1 n P ( w i &prime; | w 1 : i - 1 &prime; ) ] - 1 n ;
然后取混淆度小的识别文本作为最后识别文本结果,公式如下:
R = w 1 w 2 . . . w n ( Perplexity forward < = Perplexity backward ) w 1 &prime; w 2 &prime; . . . w n &prime; ( Perplexit y forward > Perplexity backward ) .
5、根据权利要求1所述的双向语音识别处理系统,其特征在于,所述识别结果融合器对前向识别词图与后向识别词图进行融合的过程如下:
首先对前后向词图进行重新打分,分别选取前后向词图中打分最高的两条路径:Sfprward(s1s2…sn)和Sbackward(s′ns′n-1…s′1)
使用公式如下:
S forward = arg max i ( LM ( S forward , i ) &times; Scale + AM ( S forward , i ) )
S backward = arg max i ( LM ( S backward , i ) &times; Scale + AM ( S backward , i ) )
利用前向识别词图得到修正的前向识别文本:s1s2…sn
利用后向识别词图得到修正的后向识别文本:s′1s′2…s′n
分别计算修正的前后向识别文本的混淆度,公式如下:
Perplexity forward = [ &Pi; i = 1 n P ( s i | s 1 : i - 1 ) ] - 1 n
Perplexity backward = [ &Pi; i = 1 n P ( s i &prime; | s 1 : i - 1 &prime; ) ] - 1 n
然后取混淆度小的修正的识别文本作为最后识别文本结果,公式如下:
R = s 1 s 2 . . . s n ( Perplexity forward < = Perplexity backward ) s 1 &prime; s 2 &prime; . . . s n &prime; ( Perplexit y forward > Perplexity backward ) .
6、一种双向语音识别处理方法,该方法包括以下步骤:
(1)特征提取器从前向后顺序地提取用户输入的语音信号的特征信息,并将该语音信号的特征信息逐帧送入前向语音识别器与后向语音识别器;
(2)前向语音识别器根据前向语音模型将语音信号的特征信息逐帧进行解码,得到前向识别文本和前向识别词图,并将该前向识别文本和前向识别词图送入识别结果融合器;
(3)后向语音识别器根据后向语音模型将语音信号的特征信息逐帧进行解码,得到逆向识别文本和逆向识别词图,并将该逆向识别文本和逆向识别词图送入识别结果反向器;
(4)识别结果反向器将输入的逆向识别文本和逆向识别词图进行倒序排列,得到后向识别文本和后向识别词图,并将该后向识别文本和后向识别词图送入识别结果融合器;
(5)识别结果融合器将输入的前向识别文本与后向识别文本进行融合,将前向识别词图与后向识别词图进行融合,最终得到用户输入语音信号的识别文本信息。
7、根据权利要求6所述的双向语音识别处理方法,其特征在于,还包括一搭建前向语音识别器的步骤:
所述前向语音识别器包括:前向声学模型,前向语言模型,前向发音词典及前向解码搜索空间;
所述前向声学模型采用基于隐含马尔科夫模型的框架;
所述前向语言模型采用基于3元文法的统计模型;
所述前向发音词典由语言学家归纳得到;
所述前向解码搜索空间通过前向发音字典、前向声学模型及前向语言模型构建得到。
8、根据权利要求6所述的双向语音识别处理方法,其特征在于,还包括一利用所述前向语音识别器的资源搭建后向语音识别器的步骤:
所述后向语音识别器包括:后向声学模型,后向语言模型,后向发音词典及后向解码搜索空间;
所述后向声学模型是将前向声学模型后向转换得到:首先,先将三音子进行逆序查找转换,然后对转换后的三音子查找出基于隐含马尔科夫声学模型对应的隐含状态序列S1S2S3,最后构造出后向声学模型的隐含状态序列S′1S′2S′3,该后向声学模型的隐含状态序列满足以下公式:
对于观察概率满足:
P(O/S′1)=P(O/S3)P(O/S′2)=P(O/S2),P(O/S′3)=P(O/S1);
对于转移概率满足:
T S 1 &prime; S 1 &prime; = T S . 3 S 3 , T S 2 &prime; S 2 &prime; = T S 2 S 2 , T S 3 &prime; S 3 &prime; = T S 1 S 1 , T S 1 &prime; S 2 &prime; = T S 2 S 3 , T S 2 &prime; S 3 &prime; = T S 1 S 2 ;
所述后向语言模型是将前向语言模型的文本语料倒序后按相同的方法训练得到;
所述后向发音词典是将所述前向发音词典中的词条的发音逆序排列得到;
所述后向解码搜索空间通过后向发音字典、后向声学模型及后向语言模型构建得到。
9、根据权利要求6所述的双向语音识别处理系统,其特征在于,所述识别结果融合器对前向识别文本与后向识别文本进行融合的步骤包括:
首先分别对前向识别文本w1w2…wn和后向识别文本w′1w′2…w′n-1计算混淆度,公式如下:
Perplexit y forward = [ &Pi; i = 1 n P ( w i | w 1 : i - 1 ) ] - 1 n ;
Perplexity backward = [ &Pi; i = 1 n P ( w i &prime; | w 1 : i - 1 &prime; ) ] - 1 n ;
然后取混淆度小的识别文本作为最后识别文本结果,公式如下:
R = w 1 w 2 . . . w n ( Perplexity forward < = Perplexity backward ) w 1 &prime; w 2 &prime; . . . w n &prime; ( Perplexit y forward > Perplexity backward ) .
10、根据权利要求6所述的双向语音识别处理方法,其特征在于,所述识别结果融合器对前向识别词图与后向识别词图进行融合的步骤包括:
首先对前后向词图进行重新打分,分别选取前后向词图中打分最高的两条路径:
Sforward(s1s2…sn)和Sbackward(s′ns′n-1…s′1)
使用公式如下:
S forward = arg max i ( LM ( S forward , i ) &times; Scale + AM ( S forward , i ) )
S backward = arg max i ( LM ( S backward , i ) &times; Scale + AM ( S backward , i ) )
利用前向识别词图得到修正的前向识别文本:s1s2…sn
利用后向识别词图得到修正的后向识别文本:s′1s′2…s′n
分别计算修正的前后向识别文本的混淆度,公式如下:
Perplexity forward = [ &Pi; i = 1 n P ( s i | s 1 : i - 1 ) ] - 1 n
Perplexity backward = [ &Pi; i = 1 n P ( s i &prime; | s 1 : i - 1 &prime; ) ] - 1 n
然后取混淆度小的修正的识别文本作为最后识别文本结果,公式如下:
R = s 1 s 2 . . . s n ( Perplexity forward < = Perplexity backward ) s 1 &prime; s 2 &prime; . . . s n &prime; ( Perplexit y forward > Perplexity backward ) .
CN200810239818A 2008-12-12 2008-12-12 一种双向语音识别处理系统及方法 Pending CN101645270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810239818A CN101645270A (zh) 2008-12-12 2008-12-12 一种双向语音识别处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810239818A CN101645270A (zh) 2008-12-12 2008-12-12 一种双向语音识别处理系统及方法

Publications (1)

Publication Number Publication Date
CN101645270A true CN101645270A (zh) 2010-02-10

Family

ID=41657123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810239818A Pending CN101645270A (zh) 2008-12-12 2008-12-12 一种双向语音识别处理系统及方法

Country Status (1)

Country Link
CN (1) CN101645270A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
WO2014048113A1 (zh) * 2012-09-26 2014-04-03 华为技术有限公司 一种语音识别方法和设备
WO2017088363A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 筛选发音词典有效词条的方法及装置
CN108415898A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 深度学习语言模型的词图重打分方法和系统
CN110808049A (zh) * 2018-07-18 2020-02-18 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN112863489A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201235A (zh) * 2010-03-26 2011-09-28 三菱电机株式会社 发音词典的构建方法和系统
WO2014048113A1 (zh) * 2012-09-26 2014-04-03 华为技术有限公司 一种语音识别方法和设备
US9368108B2 (en) 2012-09-26 2016-06-14 Huawei Technologies Co., Ltd. Speech recognition method and device
WO2017088363A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 筛选发音词典有效词条的方法及装置
CN108415898A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 深度学习语言模型的词图重打分方法和系统
CN108415898B (zh) * 2018-01-19 2021-09-24 思必驰科技股份有限公司 深度学习语言模型的词图重打分方法和系统
CN110808049A (zh) * 2018-07-18 2020-02-18 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN112863489A (zh) * 2021-04-26 2021-05-28 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质
CN112863489B (zh) * 2021-04-26 2021-07-27 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108492820B (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
EP3680894B1 (en) Real-time speech recognition method and apparatus based on truncated attention, device and computer-readable storage medium
JP7167074B2 (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
Schatzmann et al. Error simulation for training statistical dialogue systems
Shahnawazuddin et al. Voice Conversion Based Data Augmentation to Improve Children's Speech Recognition in Limited Data Scenario.
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN101645270A (zh) 一种双向语音识别处理系统及方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN102651218A (zh) 用于创建语音标签的方法以及设备
CN111192572A (zh) 语义识别的方法、装置及系统
Avram et al. Towards a romanian end-to-end automatic speech recognition based on deepspeech2
TWI258731B (en) Chinese speech synthesis unit selection module and method
Yuan et al. An improved hybrid ctc-attention model for speech recognition
Higashinaka et al. Incorporating discourse features into confidence scoring of intention recognition results in spoken dialogue systems
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Avram et al. Romanian speech recognition experiments from the robin project
CN115910046A (zh) 语音识别方法、装置、电子设备及存储介质
Bhanuprasad et al. Errgrams–a way to improving ASR for highly inflected Dravidian languages
Valizada Subword speech recognition for agglutinative languages
Magimai-Doss et al. Joint decoding for phoneme-grapheme continuous speech recognition
CN116386637B (zh) 雷达飞行指挥语音指令生成方法及系统
Choueiter Linguistically-motivated sub-word modeling with applications to speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100210