CN103474069A - 用于融合多个语音识别系统的识别结果的方法及系统 - Google Patents

用于融合多个语音识别系统的识别结果的方法及系统 Download PDF

Info

Publication number
CN103474069A
CN103474069A CN201310413628XA CN201310413628A CN103474069A CN 103474069 A CN103474069 A CN 103474069A CN 201310413628X A CN201310413628X A CN 201310413628XA CN 201310413628 A CN201310413628 A CN 201310413628A CN 103474069 A CN103474069 A CN 103474069A
Authority
CN
China
Prior art keywords
candidate
row
candidate list
merge
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310413628XA
Other languages
English (en)
Other versions
CN103474069B (zh
Inventor
王向东
杨阳
钱跃良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310413628.XA priority Critical patent/CN103474069B/zh
Publication of CN103474069A publication Critical patent/CN103474069A/zh
Application granted granted Critical
Publication of CN103474069B publication Critical patent/CN103474069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种用于融合多个语音识别系统的识别结果的方法及系统。所述方法包括:将多个语音识别系统的识别结果分别表示为相应的候选列表。所述方法还包括从得到的所有候选列表集合中任选两个候选列表进行对齐且合并;从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表,其中通过对齐且合并操作得到的候选列表为已融合候选列表。本发明可提高语音识别准确率,且减少用户的修正操作。

Description

用于融合多个语音识别系统的识别结果的方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于融合多个语音识别系统的识别结果的方法及系统。
背景技术
语音识别技术是一种利用计算机和数字信号处理技术准确地识别出人类语音内容的技术。目前,面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,大词汇量说话人无关的连续语音识别技术还无法满足真实应用的需求。因此,对识别结果中的识别错误进行修正是不可缺少的。为提高人工修正错误的效率,相关文献(如专利ZL201010269306.9)提出了对语音识别系统的中间识别结果进行处理以生成候选列表,将候选列表作为识别结果呈现给用户,并且采用相应的交互界面接收用户在候选列表中的选择操作。通过这种方式,用户只需通过选择操作就可以修正大量错误,相对于键盘输入方式来说大大提高了效率,减轻了工作量。
当前技术中,导致语音识别准确率较低的主要原因是语音识别系统内部采用的声学模型和语言模型与待识别的语音的特点不一致。由于声学模型、语言模型以及训练语料之间的差异,对于相同的语音,不同语音识别系统的识别结果也会有较大不同。在某一场景下,识别效果较好的语音识别系统(或者引擎)不一定在另一场景下取得相同的效果。通过融合多个系统的识别结果,可有效地提高场景适应性,提升识别的准确率和用户体验。然而,当前已有的系统融合方法其融合结果为语音对应的唯一的识别文本,无法采用基于候选列表的用户修正方法,仍然需要较多的时间和人力进行错误修正。
因此,需要一种能够融合多个语音识别系统的识别结果生成候选列表的方法及系统,以提高语音识别的准确率,且减少用户的修正操作。
发明内容
根据本发明的一个实施例,提供一种用于融合多个语音识别系统的识别结果的方法,包括:
步骤1)、将多个语音识别系统的识别结果分别表示为相应的候选列表;
步骤2)、从步骤1)得到的所有候选列表集合中任选两个候选列表进行对齐且合并;从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表;其中通过对齐且合并操作得到的候选列表为已融合候选列表。
在一个实施例中,所述候选列表是候选列的序列,所述候选列是一组候选字及其概率的集合。
在一个实施例中,所述语音识别系统的识别结果包括所识别语音对应的多个文本。
在一个实施例中,步骤1)包括:
步骤11)、将所述多个文本按字数划分为不同的组,其中字数相同的文本为一组;
步骤12)、对每个组新建一个候选列个数为该组每个文本的字数的候选列表,将该候选列表中每个候选列的候选字集合设为该组所有文本对应位置的字集合,且将每个候选字的概率设为该候选字在所述多个文本的对应位置出现的频率;
步骤13)、从步骤12)得到的所有组的候选列表集合中任选两个候选列表进行对齐且合并,用所得到的候选列表代替所述两个候选列表;然后重复这一过程直到该集合中只剩一个候选列表。
在一个实施例中,在步骤13)中,对齐两个候选列表包括:
步骤i)、设置二维数组d[n+1][m+1],其中,n是候选列表L=(C1,C2,...,Cn)的候选列个数,m是另一候选列表L’=(C'1,C'2,...,C'm)的候选列个数,d[i][j]表示两个子候选列表(C1,C2,...,Ci)与(C'1,C'2,...,C'j)之间的编辑距离,i∈[1,n],j∈[1,m],d[i][0]=i,d[0][j]=j;
步骤ii)、对于i从1到n,j从1到m,根据下式依次计算d[i][j]:
d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}
其中,cost是候选列Ci与C'j之间的替换代价,其取值为0或1;若选择为d[i][j]+cost且cost=0,则候选列Ci匹配成功;若选择为d[i][j]+cost且cost=1;则在Ci处存在替换错误;若选择为d[i-1][j]+1,则在Ci处存在删除错误;若选择为d[i][j-1]+1,则在Ci处存在插入错误;
步骤iii)、对于i从n到0,j从m到0,若候选项Ci匹配成功或存在替换错误,则将i和j的值都减1;若在Ci处存在插入错误,则在候选列表L的第i个候选列之后插入一个候选列,该候选列包含一个空字符的候选字,其概率设为1,将j的值减1;若在Ci处存在删除错误,则在候选列表L’的第j个候选列之后插入一个候选列,该候选列包含一个空字符的候选字,其概率设为1,将i的值减1。
在进一步的实施例中,根据以下步骤计算候选列Ci与C'j之间的替换代价cost:
步骤a)、比较Ci与C'j的第1个候选字wi,1与w'j,1,如果wi,1与w'j,1拼音相同则设cost=0,否则执行步骤b);
步骤b)、依次计算C'j的所有候选字
Figure BDA0000380954240000032
的拼音与wi,1的拼音之间的相似度,如果其中最大的相似度大于预定阈值则设cost=0,否则设cost=1,其中mj为C'j中的候选字个数。
在一个实施例中,在步骤13)中,合并对齐后的两个候选列表包括:
新建一个候选列表Lmerge,其候选列个数与对齐后的两个候选列表L和L’的候选列个数相同;
将Lmerge中每个候选列的候选字集合设为对齐后的L和L’在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别是w在对齐后的L和L’中该候选列的概率;λ1和λ2为合并系数。
在进一步的实施例中,根据下式计算合并系数λ1和λ2
λ 1 = n 1 n 1 + n 2 , λ 1 = n 2 n 1 + n 2
其中,如果L、L’是未合并的候选列表,则n1、n2分别是L、L’对应的组中的文本个数;如果L、L’是已合并的候选列表,则n1、n2分别是用于合并生成L、L’的候选列表对应的组中的文本个数之和。
在一个实施例中,所述语音识别系统的识别结果包括所识别语音对应的唯一文本。
在进一步的实施例中,步骤1)包括:
新建一个候选列个数为文本字数的候选列表;
将该候选列表中每个候选列的候选字设为该文本对应位置的字,且将其概率设为1。
在一个实施例中,所述语音识别系统的识别结果包括词网格。
在一个实施例中,在步骤2)中,合并对齐后的任选的两个候选列表包括:
新建一个候选列表Lmerge,其候选列个数与对齐后的候选列表L1和L2的候选列个数相同;
将Lmerge中每个候选列的候选字集合设为对齐后的L1和L2在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别为w在对齐后的L1和L2中该候选列的概率;λ1和λ2为融合系数。
在一个实施例中,在步骤2)中,合并对齐后集合中任选的一个候选列表与已融合候选列表包括:
新建一个候选列表Lnew_merge,其候选列个数与对齐后的未融合候选列表Li和已融合候选列表Lmerge的候选列个数相同,其中i∈[3,k],k为所有候选列表的个数;
将Lnew_merge中每个候选列的候选字集合设为对齐后的Lmerge和Li在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pnew_merge(w)=pmerge(w)+λipi(w)
其中,pmerge(w)为w在对齐后的Lmerge中该候选列的概率,pi(w)为w在对齐后的Li中该候选列的概率;λi为融合系数。
在进一步的实施例中,融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。
在一个实施例中,步骤2)之后还包括:
步骤3)、根据下式调整融合系数:
λi,newi,old+θ·PRi
其中,λi,old为第i个语音识别系统的识别结果对应的更新前的融合系数,i∈[1,k],θ为缩放因子,PRi为第i个语音识别系统的识别结果的准确率。
在一个实施例中,步骤3)之后还包括:
对融合系数进行归一化处理。
在一个实施例中,所述识别结果的准确率为正确的字数与正确文本中字数的比值。
根据本发明的一个实施例,还提供一种用于融合多个语音识别系统的识别结果的系统,包括:
转换模块,用于将多个语音识别系统的识别结果分别表示为相应的候选列表;
融合模块,用于从所述转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并;从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表;其中通过对齐且合并操作得到的候选列表为已融合候选列表。
采用本发明可融合多个语音识别系统的识别结果,生成候选列表。在提高语音识别准确率的同时,减少了用户的修正操作。
附图说明
图1是根据本发明一个实施例的用于融合多个语音识别系统的识别结果的方法的流程图;
图2是候选列表的一个实施例的示意图;
图3是对语音进行识别得到的词网格的一个实施例的示意图;
图4a-4c是对多个语音识别系统的识别结果生成多个候选列表的一个实施例的示意图;
图5a和5b是分别对多个可能的文本的字数相同组生成候选列表的一个实施例的示意图;
图6是图5a和5b中的候选列表对齐结果的示意图;以及
图7是融合多个语音识别系统的识别结果得到的最终候选列表的一个实施例的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明提供的用于融合多个语音识别系统的识别结果的方法及系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在一个方面,本发明提供一种用于融合多个语音识别系统的识别结果的方法。在该方法中,融合的结果以候选列表的形式呈现,即融合后生成新的、优于单个系统结果的候选列表。简要而言,该方法包括:将所有待融合的语音识别系统的识别结果表示为候选列表的形式;以及,将所有已表示为候选列表形式的识别结果进行融合,得到融合后的候选列表。
现参考图1且具体描述用于融合多个语音识别系统的识别结果的方法:
步骤1、将所有待融合的语音识别系统的识别结果表示为候选列表的形式
目前,语音识别系统的识别结果(包括中间结果)主要是如下几种形式之一:
1)、所识别语音对应的唯一文本;
2)、所识别语音对应的多个可能的文本;
3)、语音识别系统对所识别语音进行识别后生成的词网格;
4)、所识别语音对应的候选列表。
在一个实施例中,可将候选列表表示为一个候选列的序列L=(C1,C2,...,Cn),其中n为候选列的个数,Ci(i=1,...,n)为第i个候选列。一个候选列C是一组候选字及其概率的集合,即C={(w1,p1),(w2,p2),...,(wm,pm)},其中m为候选字的个数,wj(j=1,2,...,m)为第j个候选字,pj(j=1,2,...,m)为wj对应的概率,w1—wm的和可为1。图2示出了候选列表的一个示例。
在一些实施例中,对于上述识别结果形式1)—3),要将其分别表示为候选列表的形式,可分别采用以下方式①—③:
①如果识别结果为所识别语音对应的唯一文本,则将该文本切分为字的序列。新建一个候选列表作为该识别结果对应的候选列表,将该候选列表的候选列个数设为切分出的字序列中字的个数;将候选列表中的每一个候选列设为只包含一个候选字,即切分出的字序列中对应位置的字,并将该候选字的概率设为1。
②如果识别结果为所识别语音对应的多个可能的文本,则对这些文本进行处理,生成对应的候选列表。在一个实施例中,其具体步骤可以包括:
步骤a),将所识别语音对应的多个可能的文本按照文本的字数划分成若干组,每一组由字数相同的文本构成。假设分为n组,得到集合S={set1,set2,...,setn},
Figure BDA0000380954240000071
(ni为seti中文本的个数),其中seti(i=1,2,...,n)中的每一条文本seni,j(j=1,...,ni)的字数都是相同的。
步骤b),对上述生成的每一个包含相同字数的文本的组,生成一个候选列表。即对S中的每一个集合seti,生成一个候选列表Li。这样对S可生成一个对应的候选列表的集合LS={L1,L2,...,Ln}。
生成Li的方法可以为:将Li中候选列的列数设为seti中每个文本的字数;将Li中第j个候选列中的候选字集合设为seti中所有文本的第j个字的集合,将各候选字的概率设为该候选字在所有文本的第j列中出现的频率。
步骤c),将任意两个组对应的候选列表进行对齐与合并,生成一个新候选列表,并替换原来的两个候选列表。重复这一过程直到只剩一个候选列表,即为由所识别语音对应的多个可能的文本转换得到的候选列表。
也就是说,对LS中的任意两个候选列表L和L’进行对齐与合并,生成一个新候选列表Lmerge;在LS中加入Lmerge,删除L和L。’重复这一过程直到LS中只剩一个候选列表,即为由所识别语音对应的多个可能的文本转换得到的候选列表。
将L和L’进行对齐是指在两个候选列表的候选列之间建立一一对应,若两个候选列表的候选列数不同,则需根据对齐结果进行适当调整,使其列数相同。在一个实施例中,对齐的方法可采用基于改进的编辑距离对齐的方法。编辑距离又称Levenshtein距离,用于衡量两个字符串之间的差异性及对齐字符串。本发明中要对齐的对象是候选列表,因此,对编辑距离算法进行了改进。设L=(C1,C2,...,Cn),其中n为候选列的个数,Ci(i=1,...,n)为第i个候选列, C i = { ( w i , 1 , p i , 1 ) , ( w i , 2 , p i , 2 ) , . . . , ( w i , n i , p i , n i ) } , 其中ni为Ci中候选字的个数;L’=(C'1,C'2,...,C'm),其中m为候选列的个数,C'j(j=1,...,m)为第j个候选列, C j ′ = { ( w j , 1 ′ , p j , 1 ′ ) , ( w j , 2 ′ , p j , 2 ′ ) , . . . , ( w j , m j ′ , p j , m j ′ ) } , 其中mj为C'j中候选字的个数。基于改进的编辑距离对齐的方法如下:
i),设置二维数组d[n+1][m+1]用于记录动态规划对齐(即改进的编辑距离对齐)的中间结果,其中d[i][j](i=1,...,n;j=1,...,m)表示两个子候选列表(C1,C2,...,Ci)与(C'1,C'2,...,C'j)之间的编辑距离。初始化d[i][0]=i,d[0][j]=j;
ii),对于i=1,...,n,j=1,...,m,根据以下公式依次计算d[i][j]:
d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}
其中,min{}表示求最小值的操作,cost是Ci与C'j之间的替换代价,其取值为0或1。记录求最小值操作的选择。以L为基准,若选择为d[i][j]+cost,且cost=0,则称候选列Ci匹配成功;若选择为d[i][j]+cost,且cost=1,则称在Ci处存在替换错误;若选择为d[i-1][j]+1,则称在Ci处存在删除错误;若选择为d[i][j-1]+1,则称在Ci处存在插入错误。
在进一步的实施例中,替换代价cost的计算方法如下:比较Ci与C'j的第1个候选字,即wi,1与w'j,1,如果这两个字拼音(不带声调)相同,则令cost=0;否则,依次计算C'j的所有候选字
Figure BDA0000380954240000081
的拼音与wi,1的拼音之间的相似度,如果最大的相似度大于某个预先设定的阈值T,则令cost=0,否则令cost=1。
在进一步的实施例中,拼音之间的相似度计算可以采用当前已有的多种方法,例如:采用音节混淆矩阵。音节混淆矩阵是一个汉语音节(可认为是拼音)之间混淆概率的矩阵,矩阵中的值(即两个音节的混淆概率)由语料训练得到,即采用一批语音数据,经语音识别系统识别后,将语音对应的正确文本与相应识别结果中的字对齐,然后统计任一音节被识别为另一任意音节的频率,将其作为两个音节的混淆概率。
iii),利用计算编辑距离的过程中保存的求最小值操作时的选择对候选列表L与L’进行对齐与候选列调整。方法如下:从i=n,j=m开始向后回溯,具体规则为:考察计算d[i][j]时求最小值操作时的选择,以L为基准,若候选列Ci匹配成功或存在替换错误,则将i和j的值都减1;若Ci处存在插入错误,则将j的值减1;若Ci处存在删除错误,则将i的值减1。如此重复,直到i与j的值均为0。对上述回溯过程中的每一对(i,j),根据计算d[i][j]时求最小值操作时的选择,调整L与L’的候选列:以L为基准,若Ci处存在插入错误,则在L的第i个候选列之后插入一个候选列,该候选列只包含一个候选字,为空字符,其概率设为1;若Ci处存在删除错误,则在L’的第j个候选列之后插入一个候选列,该候选列只包含一个候选字,为空字符,其概率设为1。
经上述对齐过程后,L与L’中包含的候选列个数相等,并且相同位置的候选列一一对应。
在将L与L’对齐后,在一个实施例中,可以采用插值的方法将两个候选列表进行合并,生成一个新的候选列表Lmerge。生成的方法为:设经对齐调整后L和L’的候选列数均为l,对于i=1,2,...,l,将L和L’中第i个候选列中的所有候选字均加入Lmerge的第i个候选列,其中任一候选字w的概率为:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别为w在L和L’的第i个候选列中的概率,若w不在L的第i个候选列中,则p1(w)=0,同理,若w不在L’的第i个候选列中,则p2(w)=0;λ1和λ2为合并系数,计算方法为:
λ 1 = n 1 n 1 + n 2 , λ 1 = n 2 n 1 + n 2
其中,n1、n2分别为L和L’对应的识别结果文本的个数。一个候选列表对应的识别结果文本的个数定义为:若候选列表由步骤b)生成,尚未经过合并,则其对应的识别结果文本的个数为步骤b)中生成该候选列表的识别结果文本组中所含文本的个数;若候选列表由两个候选列表在步骤c)中合并而成,则其对应的识别结果文本的个数为合并生成该候选列表的两个候选列表各自对应的识别结果文本的个数之和。
在另一个实施例中,还可以使用按出现次数投票的方法来合并两个候选列表。
应理解,如果识别结果为所识别语音对应的多个可能的文本,还可以用其他方式将其转换为候选列表的形式。例如,可将识别结果回溯为词网格,再将词网格转换为候选列表的形式(如下文所述)。
③如果识别结果为语音识别系统对所识别语音进行识别后生成的词网格,则将词网格转换为候选列表。转换的方法可采用当前已有方法,如采用专利ZL201010269306.9(名称为一种交互式语音识别系统和方法)中的“候选生成与错误修正模块”从词网格生成候选列表。
步骤2)、将所有已表示为候选列表形式的识别结果进行融合,得到融合后的候选列表。
在一个实施例中,假设所有识别结果对应的候选列表分别为L1,L2,...,Lk,融合的方法包括:
首先,采用基于改进的编辑距离对齐的方法将L1与L2对齐,并将其合并生成新的候选列表Lmerge。在生成时,将L1与L2中对应候选列中的所有候选字加入Lmerge的相应候选列,其中任一候选字w的概率为:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别为w在L1与L2中的概率(若w不在L1或L2中则相应概率为0),λ1和λ2为融合系数;
然后,依次将Lmerge与L3,...,Lk对齐合并,即每次合并的结果作为新的Lmerge与后续候选列表进行合并。对齐时可采用基于改进的编辑距离对齐的方法,合并时,将原有Lmerge与Li(i=3,...,k)对应候选列中的所有候选字加入新列表Lnew_merge的相应候选列,其中任一候选字w的概率为:
pnew_merge(w)=pmerge(w)+λipi(w)
其中,pmerge(w)为w在原有Lmerge的概率,pi(w)为w在Li中的概率(若w不在Lmerge或Li中则相应概率为0),λi为融合系数。
最终得到的Lnew_merge即为多个识别结果的融合结果,形式为一个候选列表。
上述过程中,基于改进的编辑距离对齐的方法与上文描述相同。λ1、λ2,...,λk为融合系数,其满足
Figure BDA0000380954240000101
在一个实施例中,在初始时,可根据在一个开发数据集上各识别结果的准确率情况人工来指定融合系数。
在进一步的实施例中,可在语音识别过程中利用用户修正信息动态调整各个识别引擎的识别结果在融合时的融合系数,使得识别准确率高的识别引擎对应的融合系数增大,识别准确率低的识别引擎对应的融合系数减小,从而提高融合后的识别结果的准确率。具体方法为:
在每识别完一句话,并将多个识别结果融合为一个候选列表显示在屏幕上后,可通过用户交互模块获取用户对识别结果的修正,从而得到这句话对应的正确文本。用户交互模块支持用户通过鼠标或触摸屏点击选择候选、通过鼠标或键盘删除错误的字、通过键盘或手写板输入正确的字。在获得这句话对应的正确文本后,可以和各个识别引擎的原始识别结果比较,计算出各个识别引擎识别结果的准确率,然后根据其准确率调整该引擎的识别结果对应的融合系数。设有k个语音识别引擎,其识别结果在融合时对应的融合系数分别为λ1、λ2,...,λk,其识别结果的准确率分别为PR1,PR2,...,PRk,则根据下式调整融合系数:
λi,newi,old+θ·PRi
其中λi,new为第i(i=1,...,k)个识别引擎的识别结果对应的更新后的融合系数,λi,old为第i个识别引擎的识别结果对应的更新前的融合系数,θ为缩放因子,可根据实验统计结果预先设定。
如果上述计算得到的λi,new不满足
Figure BDA0000380954240000112
则在一个实施例中,需要进行归一化处理得到最终更新后的融合系数:
λ i = λ i , new Σ i = 1 n λ i , new
下面通过对一句语音的多个识别引擎的识别结果进行融合作为实例,详细介绍本发明提供的融合多个语音识别系统识别结果的方法的实施过程。应该明白该例子只是用于举例说明,而不是意图限制本发明的范围。
假设一句语音对应的文本内容为:“古老的东方”。采用3个语音识别引擎进行识别,识别结果分别为:
识别结果1,所识别语音对应的唯一文本:古老的洞房;
识别结果2,所识别语音对应的多个可能的文本。本实施例中可得到5个文本分别为:
顾了东方
故乐得洞房
顾乐的洞房
雇来的董方
故老的东方
识别结果3,语音识别系统对所识别语音进行识别后生成的词网格。该词网格是一个有向无环图(DAG),它包含语音识别过程中产生的词假设,并用相应的弧及相关的概率得分来表示,其中每条弧都可用一个五元组{S,F,W,A,L}来表示,其中S表示弧的起始时间,F表示弧的结束时间,W表示弧上对应的词假设,A表示弧的声学概率得分,L表示弧的语言概率得分,图3给出了对所述语音识别得到的词网格的示意图。
根据本发明提供的融合方法,对于上述3个识别结果,首先,分别将其转换为候选列表的形式。图4a、4b和4c分别给出了上述3个识别结果转换得到的候选列表。
其中,在将识别结果2(即所识别语音对应的多个可能的文本)进行转换得到候选列表时,其过程包括:
a),按照文本的字数,将5个文本分为两组,分别为Set1={顾了东方}和Set2={故乐得洞房,顾乐的洞房,雇来的董方,故老的东方}。
b),为Set1和Set2分别生成一个候选列表L1和L2,如图5a和5b所示。
c),将任意两个组对应的候选列表进行对齐与合并,生成一个新候选列表,并替换原来的两个候选列表。重复这一过程直到只剩一个候选列表。
在本实施例中,只有两个组,对应两个候选列表,因此只需一次合并即可。
合并之前,先采用基于改进的编辑距离对齐的方法将上述两个候选列表L1和L2进行对齐,使其候选列数相同并一一对应。对齐过程中,在计算替换代价cost时,本实施例中选用的阈值T的值为0.6。对齐的结果如图6所示。以L1为基准,L2中存在插入错误,因此在L1中增加了一个候选列,其中仅含一个候选字,为空字符,其概率为1。
L1与L2对齐后,需要进行合并,生成新的候选列表Lmerge。生成时,将L1与L2中对应候选列中的所有候选字均加入Lmerge的相应候选列,其中任一候选字w的概率为:pmerge(w)=λ1p1(w)+λ2p2(w),其中,p1(w)和p2(w)分别为w在L1与L2的相应候选列中的概率;λ1和λ2为合并系数,计算方法为:L1对应的组中含有一个文本,L2对应的组中含有4个文本,共1+4=5个文本,因此,λ1=1/5=0.2,λ2=4/5=0.8。
由于不再有其他候选列表,因此生成的Lmerge即为所识别语音对应的多个可能的文本转换得到候选列表,如图4b所示。
当三个识别结果都转换为候选列表后,即可对三个候选列表进行融合。融合的方法如上文所述。融合时采用的三个引擎的融合系数λ1、λ2、λ3为根据之前三个语音识别引擎在其他数据集上的实验结果人工指定,本实施例中取值为λ1=0.4,λ2=0.3,λ3=0.3。融合后得到最终的候选列表,如图7所示。
可以看到,在三个语音识别引擎的识别结果中,都没有完全包含“古老的东方”这个正确文本(语音识别引擎1没有正确识别“东方”,引擎2中没有正确识别“古”,引擎3没有正确识别“方”),但是图7给出的融合后的候选列表则完全包含了“古老的东方”中的所有字。可见,本发明提出的系统融合方法提高了候选列的正确率。另外,在融合结果中,第一候选结果(各候选列中概率最大的字组成的识别结果)“古老的洞房”并不完全正确,但正确的字“东方”出现在正确结果中。可见,相对于当前已有的融合后只输出单一文本的系统,本发明采用候选列表作为融合的输入和输出,可以提高识别结果的准确率。
在一个实施例中,当用户基于显示的融合后的候选列表进行修正,得到该句语音对应的正确文本“古老的东方”后,可以计算各引擎的识别正确率,并根据正确率动态调整各引擎识别结果的融合系数,应用于后续的语音。
在计算正确率时,在本实施例中,只考虑第一候选识别结果的正确率,即每个引擎的识别结果对应的候选列表中各候选列中概率最大的字组合成的文本的正确率。对于所述实施例,参见图4a-4c,三个识别结果的第一候选识别结果分别为:
识别结果1:古老的洞房
识别结果2:顾乐的东方(本实施例中,对于候选列中概率相同的候选字随机取其一)
识别结果3:古老的东防
与正确文本“古老的东方”相比,识别结果1中“古老的”正确,识别结果2中“的东方”正确,识别结果3中“古老的东”正确。将识别正确率定义为正确的字数与正确文本中字数的比值,因此,各识别结果的正确率分别为:
PR1=3/5=0.6,PR2=3/5=0.6,PR3=4/5=0.8
根据以下公式调整各引擎的识别结果对应的融合系数:
λi,newi,old+θ·PRi
其中,θ为人工预设的缩放因子,本实施例中设为0.2,因此:
λ1,new1,old+θ·PR1=0.4+0.2·0.6=0.52
λ2,new2,old+θ·PR2=0.3+0.2·0.6=0.42
λ3,new3,old+θ·PR3=0.3+0.2·0.8=0.46
对得到的新的融合系统进行归一化,得到:
λ1=0.52/(0.52+0.42+0.46)=0.371
λ2=0.42/(0.52+0.42+0.46)=0.300
λ3=0.46/(0.52+0.42+0.46)=0.329
可见,相对于原来的融合系数,识别结果1的权重有所降低,识别结果3的权重有所提高。
在另一个方面,本发明还提供一种用于融合多个语音识别系统的识别结果的系统,包括:
转换模块,用于将多个语音识别系统的识别结果分别表示为相应的候选列表。
融合模块,用于从转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并。还用于从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表,其中通过对齐且合并操作得到的候选列表为已融合候选列表。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (18)

1.一种用于融合多个语音识别系统的识别结果的方法,包括:
步骤1)、将多个语音识别系统的识别结果分别表示为相应的候选列表;
步骤2)、从步骤1)得到的所有候选列表集合中任选两个候选列表进行对齐且合并;从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表;其中通过对齐且合并操作得到的候选列表为已融合候选列表。
2.根据权利要求1所述的方法,其中,所述候选列表是候选列的序列,所述候选列是一组候选字及其概率的集合。
3.根据权利要求2所述的方法,其中,所述语音识别系统的识别结果包括所识别语音对应的多个文本。
4.根据权利要求3所述的方法,其中,步骤1)包括:
步骤11)、将所述多个文本按字数划分为不同的组,其中字数相同的文本为一组;
步骤12)、对每个组新建一个候选列个数为该组每个文本的字数的候选列表,将该候选列表中每个候选列的候选字集合设为该组所有文本对应位置的字集合,且将每个候选字的概率设为该候选字在所述多个文本的对应位置出现的频率;
步骤13)、从步骤12)得到的所有组的候选列表集合中任选两个候选列表进行对齐且合并,用所得到的候选列表代替所述两个候选列表;然后重复这一过程直到该集合中只剩一个候选列表。
5.根据权利要求4所述的方法,步骤13)中,对齐两个候选列表包括:
步骤i)、设置二维数组d[n+1][m+1],其中,n是候选列表L=(C1,C2,...,Cn)的候选列个数,m是另一候选列表L’=(C'1,C'2,...,C'm)的候选列个数,d[i][j]表示两个子候选列表(C1,C2,...,Ci)与(C'1,C'2,...,C'j)之间的编辑距离,i∈[1,n],j∈[1,m],d[i][0]=i,d[0][j]=j;
步骤ii)、对于i从1到n,j从1到m,根据下式依次计算d[i][j]:
d[i][j]=min{d[i-1][j]+1,d[i][j-1]+1,d[i][j]+cost}
其中,cost是候选列Ci与C'j之间的替换代价,其取值为0或1;若选择为d[i][j]+cost且cost=0,则候选列Ci匹配成功;若选择为d[i][j]+cost且cost=1;则在Ci处存在替换错误;若选择为d[i-1][j]+1,则在Ci处存在删除错误;若选择为d[i][j-1]+1,则在Ci处存在插入错误;
步骤iii)、对于i从n到0,j从m到0,若候选项Ci匹配成功或存在替换错误,则将i和j的值都减1;若在Ci处存在插入错误,则在候选列表L的第i个候选列之后插入一个候选列,该候选列包含一个空字符的候选字,其概率设为1,将j的值减1;若在Ci处存在删除错误,则在候选列表L’的第j个候选列之后插入一个候选列,该候选列包含一个空字符的候选字,其概率设为1,将i的值减1。
6.根据权利要求5所述的方法,其中,根据以下步骤计算候选列Ci与C'j之间的替换代价cost:
步骤a)、比较Ci与C'j的第1个候选字wi,1与w'j,1,如果wi,1与w'j,1拼音相同则设cost=0,否则执行步骤b);
步骤b)、依次计算C'j的所有候选字
Figure FDA0000380954230000022
的拼音与wi,1的拼音之间的相似度,如果其中最大的相似度大于预定阈值则设cost=0,否则设cost=1,其中mj为C'j中的候选字个数。
7.根据权利要求4所述的方法,步骤13)中,合并对齐后的两个候选列表包括:
新建一个候选列表Lmerge,其候选列个数与对齐后的两个候选列表L和L’的候选列个数相同;
将Lmerge中每个候选列的候选字集合设为对齐后的L和L’在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别是w在对齐后的L和L’中该候选列的概率;λ1和λ2为合并系数。
8.根据权利要求7所述的方法,其中,根据下式计算合并系数λ1和λ2
λ 1 = n 1 n 1 + n 2 , λ 1 = n 2 n 1 + n 2
其中,如果L、L’是未合并的候选列表,则n1、n2分别是L、L’对应的组中的文本个数;如果L、L’是已合并的候选列表,则n1、n2分别是用于合并生成L、L’的候选列表对应的组中的文本个数之和。
9.根据权利要求2所述的方法,其中,所述语音识别系统的识别结果包括所识别语音对应的唯一文本。
10.根据权利要求9所述的方法,其中,步骤1)包括:
新建一个候选列个数为文本字数的候选列表;
将该候选列表中每个候选列的候选字设为该文本对应位置的字,且将其概率设为1。
11.根据权利要求1所述的方法,其中,所述语音识别系统的识别结果包括词网格。
12.根据权利要求1-11中任何一个所述的方法,步骤2)中,合并对齐后的任选的两个候选列表包括:
新建一个候选列表Lmerge,其候选列个数与对齐后的候选列表L1和L2的候选列个数相同;
将Lmerge中每个候选列的候选字集合设为对齐后的L1和L2在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pmerge(w)=λ1p1(w)+λ2p2(w)
其中,p1(w)和p2(w)分别为w在对齐后的L1和L2中该候选列的概率;λ1和λ2为融合系数。
13.根据权利要求12所述的方法,步骤2)中,合并对齐后的集合中任选的一个候选列表与已融合候选列表包括:
新建一个候选列表Lnew_merge,其候选列个数与对齐后的未融合候选列表Li和已融合候选列表Lmerge的候选列个数相同,其中i∈[3,k],k为所有候选列表的个数;
将Lnew_merge中每个候选列的候选字集合设为对齐后的Lmerge和Li在该候选列的所有候选字的集合;以及
根据下式计算在该候选列的每个候选字w的概率:
pnew_merge(w)=pmerge(w)+λipi(w)
其中,pmerge(w)为w在对齐后的Lmerge中该候选列的概率,pi(w)为w在对齐后的Li中该候选列的概率;λi为融合系数。
14.根据权利要求13所述的方法,其中,融合系数由在一个开发数据集上各语音识别系统的识别结果的准确率来指定。
15.根据权利要求14所述的方法,其中,步骤2)之后还包括:
步骤3)、根据下式调整融合系数:
λi,newi,old+θ·PRi
其中,λi,old为第i个语音识别系统的识别结果对应的更新前的融合系数,i∈[1,k],θ为缩放因子,PRi为第i个语音识别系统的识别结果的准确率。
16.根据权利要求15所述的方法,其中,步骤3)之后还包括:
对融合系数进行归一化处理。
17.根据权利要求15所述的方法,其中,所述识别结果的准确率为正确的字数与正确文本中字数的比值。
18.一种用于融合多个语音识别系统的识别结果的系统,包括:
转换模块,用于将多个语音识别系统的识别结果分别表示为相应的候选列表;
融合模块,用于从所述转换模块得到的所有候选列表集合中任选两个候选列表进行对齐且合并;从该集合中剩下的候选列表中任选一个与已融合候选列表进行对齐且合并,然后重复这一过程直到处理完该集合中所有候选列表;其中通过对齐且合并操作得到的候选列表为已融合候选列表。
CN201310413628.XA 2013-09-12 2013-09-12 用于融合多个语音识别系统的识别结果的方法及系统 Active CN103474069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310413628.XA CN103474069B (zh) 2013-09-12 2013-09-12 用于融合多个语音识别系统的识别结果的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310413628.XA CN103474069B (zh) 2013-09-12 2013-09-12 用于融合多个语音识别系统的识别结果的方法及系统

Publications (2)

Publication Number Publication Date
CN103474069A true CN103474069A (zh) 2013-12-25
CN103474069B CN103474069B (zh) 2016-03-30

Family

ID=49798890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310413628.XA Active CN103474069B (zh) 2013-09-12 2013-09-12 用于融合多个语音识别系统的识别结果的方法及系统

Country Status (1)

Country Link
CN (1) CN103474069B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714316A (zh) * 2013-12-10 2014-04-09 小米科技有限责任公司 图像识别方法、装置及电子设备
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN106486119A (zh) * 2016-10-20 2017-03-08 海信集团有限公司 一种识别语音信息的方法和装置
CN106796787A (zh) * 2014-05-20 2017-05-31 亚马逊技术有限公司 在自然语言处理中使用先前对话行为进行的语境解释
CN107004407A (zh) * 2015-09-03 2017-08-01 谷歌公司 增强型语音端点确定
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108536668A (zh) * 2018-02-26 2018-09-14 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
CN109767758A (zh) * 2019-01-11 2019-05-17 中山大学 车载语音分析方法、系统、存储介质以及设备
CN109817198A (zh) * 2019-03-06 2019-05-28 广州多益网络股份有限公司 用于语音合成的多发音训练方法、语音合成方法与装置
CN110808049A (zh) * 2018-07-18 2020-02-18 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN111627446A (zh) * 2020-05-29 2020-09-04 国网浙江省电力有限公司信息通信分公司 一种基于智能语音识别技术的通信会议系统
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
US11527240B2 (en) 2018-11-21 2022-12-13 Industrial Technology Research Institute Speech recognition system, speech recognition method and computer program product
CN116013278A (zh) * 2023-01-06 2023-04-25 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091522A1 (en) * 2001-01-09 2002-07-11 Ning Bi System and method for hybrid voice recognition
US20020193991A1 (en) * 2001-06-13 2002-12-19 Intel Corporation Combining N-best lists from multiple speech recognizers
US20030110035A1 (en) * 2001-12-12 2003-06-12 Compaq Information Technologies Group, L.P. Systems and methods for combining subword detection and word detection for processing a spoken input
US20070027693A1 (en) * 2005-07-27 2007-02-01 Nec Corporation Voice recognition system and method
US20100185447A1 (en) * 2009-01-22 2010-07-22 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN102324233A (zh) * 2011-08-03 2012-01-18 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091522A1 (en) * 2001-01-09 2002-07-11 Ning Bi System and method for hybrid voice recognition
US20020193991A1 (en) * 2001-06-13 2002-12-19 Intel Corporation Combining N-best lists from multiple speech recognizers
US20030110035A1 (en) * 2001-12-12 2003-06-12 Compaq Information Technologies Group, L.P. Systems and methods for combining subword detection and word detection for processing a spoken input
US20070027693A1 (en) * 2005-07-27 2007-02-01 Nec Corporation Voice recognition system and method
US20100185447A1 (en) * 2009-01-22 2010-07-22 Microsoft Corporation Markup language-based selection and utilization of recognizers for utterance processing
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN102324233A (zh) * 2011-08-03 2012-01-18 中国科学院计算技术研究所 汉语语音识别中重复出现词识别错误的自动修正方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714316A (zh) * 2013-12-10 2014-04-09 小米科技有限责任公司 图像识别方法、装置及电子设备
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备
CN106796787B (zh) * 2014-05-20 2020-12-22 亚马逊技术有限公司 在自然语言处理中使用先前对话行为进行的语境解释
CN106796787A (zh) * 2014-05-20 2017-05-31 亚马逊技术有限公司 在自然语言处理中使用先前对话行为进行的语境解释
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN104538032B (zh) * 2014-12-19 2018-02-06 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN107004407A (zh) * 2015-09-03 2017-08-01 谷歌公司 增强型语音端点确定
CN105206267B (zh) * 2015-09-09 2019-04-02 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN106486119B (zh) * 2016-10-20 2019-09-20 海信集团有限公司 一种识别语音信息的方法和装置
CN106486119A (zh) * 2016-10-20 2017-03-08 海信集团有限公司 一种识别语音信息的方法和装置
CN108320733A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108536668A (zh) * 2018-02-26 2018-09-14 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN108536668B (zh) * 2018-02-26 2022-06-07 科大讯飞股份有限公司 唤醒词评估方法及装置、存储介质、电子设备
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN110808049A (zh) * 2018-07-18 2020-02-18 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
US11527240B2 (en) 2018-11-21 2022-12-13 Industrial Technology Research Institute Speech recognition system, speech recognition method and computer program product
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
CN109559749B (zh) * 2018-12-24 2021-06-18 思必驰科技股份有限公司 用于语音识别系统的联合解码方法及系统
CN109767758A (zh) * 2019-01-11 2019-05-17 中山大学 车载语音分析方法、系统、存储介质以及设备
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、系统、存储介质以及设备
CN109817198A (zh) * 2019-03-06 2019-05-28 广州多益网络股份有限公司 用于语音合成的多发音训练方法、语音合成方法与装置
CN109817198B (zh) * 2019-03-06 2021-03-02 广州多益网络股份有限公司 语音合成方法、装置及存储介质
CN111627446A (zh) * 2020-05-29 2020-09-04 国网浙江省电力有限公司信息通信分公司 一种基于智能语音识别技术的通信会议系统
CN113314124B (zh) * 2021-06-15 2022-03-25 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
CN113314124A (zh) * 2021-06-15 2021-08-27 宿迁硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
WO2022262542A1 (zh) * 2021-06-15 2022-12-22 南京硅基智能科技有限公司 文本输出方法及系统、存储介质、电子装置
US11651139B2 (en) 2021-06-15 2023-05-16 Nanjing Silicon Intelligence Technology Co., Ltd. Text output method and system, storage medium, and electronic device
CN116013278A (zh) * 2023-01-06 2023-04-25 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置
CN116013278B (zh) * 2023-01-06 2023-08-08 杭州健海科技有限公司 基于拼音对齐算法的语音识别多模型结果合并方法及装置

Also Published As

Publication number Publication date
CN103474069B (zh) 2016-03-30

Similar Documents

Publication Publication Date Title
CN103474069B (zh) 用于融合多个语音识别系统的识别结果的方法及系统
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
US11205444B2 (en) Utilizing bi-directional recurrent encoders with multi-hop attention for speech emotion recognition
CN113811946A (zh) 数字序列的端到端自动语音识别
CN104166462A (zh) 一种文字的输入方法和系统
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US11551136B2 (en) N-best softmax smoothing for minimum bayes risk training of attention based sequence-to-sequence models
KR20120038198A (ko) 음성 인식 장치 및 방법
US9940326B2 (en) System and method for speech to speech translation using cores of a natural liquid architecture system
WO2023055410A1 (en) Contrastive siamese network for semi-supervised speech recognition
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
CN113225612B (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备
KR102352987B1 (ko) 음향 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
CN105206267B (zh) 一种融合非确定性反馈的语音识别错误修正方法及系统
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
US11538474B2 (en) Electronic device and method for controlling the electronic device thereof
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
CN117043859A (zh) 查找表循环语言模型
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
Liyanapathirana et al. Using the TED talks to evaluate spoken post-editing of machine translation
CN117593426A (zh) 人脸姿态生成方法
JP6565262B2 (ja) 短縮文生成装置、方法、及びプログラム
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
JP2015152788A (ja) 音声合成装置、方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant