CN102324233A - 汉语语音识别中重复出现词识别错误的自动修正方法 - Google Patents

汉语语音识别中重复出现词识别错误的自动修正方法 Download PDF

Info

Publication number
CN102324233A
CN102324233A CN 201110220842 CN201110220842A CN102324233A CN 102324233 A CN102324233 A CN 102324233A CN 201110220842 CN201110220842 CN 201110220842 CN 201110220842 A CN201110220842 A CN 201110220842A CN 102324233 A CN102324233 A CN 102324233A
Authority
CN
China
Prior art keywords
word
phrase
recognition result
identification
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110220842
Other languages
English (en)
Other versions
CN102324233B (zh
Inventor
李新辉
王向东
钱跃良
林守勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201110220842.4A priority Critical patent/CN102324233B/zh
Publication of CN102324233A publication Critical patent/CN102324233A/zh
Application granted granted Critical
Publication of CN102324233B publication Critical patent/CN102324233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种汉语语音识别中重复出现词识别错误的自动修正方法,包括:(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;(3)根据新的概率值,对字混淆网络按照概率值大小排序;和(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。优点在于:利用之前已修正的识别结果中的经验知识,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。

Description

汉语语音识别中重复出现词识别错误的自动修正方法
技术领域
本发明涉及语音识别技术领域,特别是涉及一种汉语语音识别中重复出现词识别错误的自动修正方法。
背景技术
语音识别技术是一种利用计算机和数字信号处理技术准确地识别出人类语音内容的技术。目前面向特殊应用的中小词汇量语音识别技术已得到实际应用,然而,由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制,大词汇量说话人无关的连续语音识别技术还处在探索阶段。由于语音识别无法达到100%的识别准确率,因此,对识别结果中的识别错误进行修正是不可缺少的。
识别错误修正是指在一句话识别后由说话人对识别结果中的错误进行修正。早期的识别错误修正方法主要有重新发音修正方法(re-speaking),单词拼写修正方法(spelling),键盘输入修正方法,和手写输入修正方法。近期的识别错误修正方法有候选选择修正方法,识别系统对每个词给出多个候选,用户在语音输入的同时或完成之后通过选择候选修正识别错误。无论是早期的修正方法还是后来的候选选择修正方法,对于不同语句中的同一个词识别错误都需要重新修正,即对于同一个词,其每次的识别错误都需要有用户参与的修正;修正效率较低。
发明内容
本发明要解决的技术问题是利用之前已修正的识别结果,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。
本发明提供一种汉语语音识别中重复出现词识别错误的自动修正方法,其特征在于,包括:(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;(3)根据新的概率值,对字混淆网络按照概率值大小排序;和(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。
其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;相似性匹配即计算词组库中的词组对应的中间识别结果与字混淆网络中的中间识别结果的相似程度,用相似概率值表示该相似程度,相似概率值大于零的词组为当前识别语句中可能再次出现的词;所述词组信息包括词组本身、词组的相似概率值以及词组在最优识别结果中的对应位置;语句中的重复出现词是指语句中的某个词在以前的语句中出现过,其在当前语句的再次出现叫做重复出现词,对其识别错误称为重复出现词识别错误;除了重复出现词识别错误外,还有首次出现的词被识别错误的情况,这种识别错误叫做非重复出现词识别错误。
可选的,步骤(1)中所述进行相似性匹配包括:计算词组及对应中间识别结果与当前字混淆网络的相似概率值;和保留相似概率值大于零的词组;其中,所述计算方式为:
p ( W , CN j ) = Π i = 1 num ( W ) SIM ( S i , S i + j ′ )
SIM ( C , C ′ ) = 1 2 [ 1 N 1 Σ i = 0 N 1 - 1 δ ( c i , C ′ ) + 1 N 2 Σ i = 0 N 2 - 1 δ ( c i ′ , C ) ]
num(W)表示词组W中字的个数,p(W,CNj)表示词组对应中间识别结果与当前字混淆网络中第j列开始的num(W)列中间识别结果的相似概率,SIM(Si,S′i+j)表示词组中第i个字所对应的中间识别结果与当前字混淆网络中第i+j列中间识别结果的相似性;
C和C′分别表示一列中间识别结果集合,N1和N2分别表示C和C′中字的个数;ci表示C中的第i个字,c′i表示C′中的第i个字;δ(ci,C′)表示如果在C′集合中存在某个字的读音与字ci的读音相同,其值等于1,否则等于0。
可选的,词组中的每个字对应当前字混淆网络中的一列识别结果;步骤(2)中所述重新计算相似概率值包括:
重新计算查找到词组中每个字的相似概率值;
其中,重新计算查找到词组中每个字的相似概率值方式为:
p c i = λ p c i ′ + ( 1 - λ ) q ′ ( c loc + i , k ) c loc + i , k = c i λ p c i ′ else
q′(cloc+i,k)表示第i个字所对应的第loc+i列识别结果中第k个字的原有识别概率值,cloc+i,k=ci表示第i个字所对应的第loc+i列识别结果中存在一个与之相同的字。
可选的,步骤(2)中所述重新计算字识别概率值包括:
重新计算每个对应列中的字识别概率值;
其中,重新计算每个对应列中的字识别概率值的方式为:
q ( c loc + i , j ) = ( 1 - λ ) q ′ ( c loc + i , j ) + λ ( 1 - p c i ′ ) q ′ ( c loc + i , j )
Figure BDA0000080830290000033
表示词组w中第i个字的概率值,
Figure BDA0000080830290000034
等于pw,q′(cloc+i,j)表示第i个字所对应的第loc+i列识别结果中第j个字的原有识别概率值,相应的q(cloc+i,j)表示重新计算后的识别概率值,λ表示词组w为重复出现词的权重。
可选的,所述的自动修正方法还包括:(5)通过在混淆网络中选择正确的字、或者通过键盘输入、或者通过手写输入来修正非重复出现词识别错误,以得到不再包含任何识别错误的已修正识别结果。
可选的,所述的自动修正方法还包括:
(6)挖掘已修正识别结果中所有的词组;和
(7)存储或更新得到的词组到词组库。
可选的,步骤(6)中所述挖掘已修正识别结果中所有的词组包括:
计算已修正识别结果中每个字与相邻若干字组成词的概率值;
选择组合概率最大的词组作为挖掘到的词组;
其中,所述计算的方式为:
p ( c 1 , c 2 , . . . , c k ) = Σ i 1 = 1 num ( S c 1 ) Σ i 2 = 1 num ( S c 2 ) . . . Σ i k = 1 num ( S c k ) p ( c 1 , i 1 , c 2 , i 2 , . . . , c k , i k )
p(c1,c2,…,ck)表示已修正识别结果中第1个字与第2个到第k个字组成词的概率值,
Figure BDA0000080830290000036
表示已修正识别结果中第k个字对应中间识别结果列中字的个数,
Figure BDA0000080830290000037
表示已修正识别结果中第k个字所对应中间识别结果列中的第ik个字,
Figure BDA0000080830290000038
表示字混淆网络中字
Figure BDA0000080830290000039
Figure BDA00000808302900000310
Figure BDA00000808302900000311
的组合概率值。
可选的,所述词组库为词组文件或词组数据库。
与现有技术相比,优点在于:利用之前已修正的识别结果中的经验知识,自动修正当前识别语句中重复出现词的识别错误,从而提高识别错误的修正效率,加快识别错误修正速度。
附图说明
图1是本发明一个实施例中汉语语音识别中字混淆网络的示意图;
图2是本发明一个实施例中挖掘词组的方法流程图;
图3是本发明一个实施例中挖掘到的词组示意图;
图4是本发明一个实施例中利用已修正识别结果自动修正当前识别语句中重复出现词识别错误的方法流程图;
图5是图4中步骤401的流程图。
图6是图4中步骤402的流程图。
图7是本发明另一个实施例中利用已修正识别结果自动修正当前识别语句中重复出现词识别错误的方法流程图;
图8是本发明又一个实施例中利用已修正识别结果自动修正当前识别语句中重复出现词识别错误的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,根据实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在汉语语音识别中,待识别的语音内容基本都是围绕着某个主题展开的,因此某些与主题相关的关键词会在前后的多句语句中出现。由于上下文及每次发音的差异性,同一关键词在不同语句中可能会被多次识别错误,即使在第一次出现时识别正确,在后续出现时也可能会被识别错误。如果对于每个重复出现的关键词,利用其第一次出现时的已修正识别结果,系统能够自动地修正其后续重复出现时的识别错误,则可以大大提高识别错误修正的效率,从而使语音识别应用能够真正被大多数用户所接受。
下面首先介绍语音识别的基本过程、结果及修正。
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
在语音识别过程中,字混淆网络是所有可能识别结果的集合。在字混淆网络中,每个字都有一个识别概率值(即识别过程中生成该字的得分占识别总得分的比值)用以表示该字为识别结果的可能性,每列中的所有字之间具有竞争性且识别概率之和等于1,此外,每个字还具有与相邻若干列中字组成词的组合概率值。在字混淆网络中,每一列中的字都按照识别概率值从大到小的顺序排列,字混淆网络中的第一行称为最优识别结果,最优识别结果中的每个字对应一列中间识别结果。
如图1所示,为本发明一个实施例中字混淆网络的示意图。其中语音输入为:gǔ、lǎo、dē、dōng、fáng。其可能的识别结果(即字混淆网络)100包括最优识别结果101和中间识别结果102。最优识别结果101为:古、老、的、东、防。中间识别结果102包括“古”、“老”、“的”、“东”、“防”分别对应的中间识别结果,其中,“古”的中间识别结果为:顾、孤、故,“老”的中间识别结果为:乐、了,“的”的中间识别结果为:得,“东”的中间识别结果为:洞、冬,“防”的中间识别结果为:房、放。
可以看出,上述识别的结果最后一个词“dōng、fáng”的自动识别有误,而且“fáng”供选择的识别结果中没有“方”,所以需要通过手动输入,纠正识别的错误。经过上述识别错误修正后,识别结果就不再包含任何识别错误,称为已修正识别结果。
在上述语音识别及修正过程中,正确的识别结果以及用户手动修改并输入的信息是可以重用的。为了自动修正后续识别语句中重复出现词的识别错误,需要将正确识别结果及用户修改识别结果的相关信息以某种形式进行保存。
发明人经过分析发现,正确识别结果及用户修改识别结果的相关信息一般以词组的形式存在。这些词组在以后的识别语句中可能会再次出现,成为重复出现词。为修正以后识别语句中的这些重复出现词识别错误,需把这些词组挖掘出来并保存。为叙述方便,下述实施例中如果没有另外说明,已修正识别结果包括正确识别结果及用户修改识别结果。
发明人经过分析还发现,针对不同的用户,同一词组所对应的可能的识别结果是不同的,即中间识别结果不同。以上述“dōng、fáng”为例,该用户所讲的“东、方”对应的中间识别结果分别为“洞、冬”和“房、放”,这也是该用户与其他用户的区别和特点;对于该用户之后的语音识别过程,相同的语音或语音序列一旦出现,很可能将以相似的中间识别结果表现出来。
所以,为了保存用户修改识别结果的相关信息,既要存储所述已修正识别结果中的词语(即词组),还要存储这些词语对应的中间识别结果。根据本发明一个实施例,已修正识别结果中的词组挖掘是通过计算已修正识别结果中相邻字之间组成词的概率值来实现的,并选择概率值最大的组合作为词组,保存在词组库中。根据本发明另一个实施例,已修正识别结果中的词组挖掘还可以通过现有技术中的汉语分词实现,并保存在词组库中。
图2是本发明一个实施例中提供的挖掘已修正识别结果中词组的流程图。
步骤201:计算已修正识别结果中每个字与相邻若干字组成词的概率值。在已修正识别结果中,每个字对应一列中间识别结果。每个字与相邻若干字组成词的概率值等于对应中间识别结果中字之间组合概率之和,计算公式为:
p ( c 1 , c 2 , . . . , c k ) = Σ i 1 = 1 num ( S c 1 ) Σ i 2 = 1 num ( S c 2 ) . . . Σ i k = 1 num ( S c k ) p ( c 1 , i 1 , c 2 , i 2 , . . . , c k , i k )
其中,p(c1,c2,…,ck)表示已修正识别结果中第1个字与第2个到第k个字组成词的概率值,
Figure BDA0000080830290000062
表示已修正识别结果中第k个字对应中间识别结果列中字的个数,
Figure BDA0000080830290000063
表示已修正识别结果中第k个字所对应中间识别结果列中的第ik个字,
Figure BDA0000080830290000064
表示字混淆网络中字
Figure BDA0000080830290000065
Figure BDA0000080830290000066
Figure BDA0000080830290000067
的组合概率值(即识别过程中这些字作为一个整体的识别得分占整个识别得分的比值)。
步骤202:选择组合概率最大的词组作为挖掘到的词组。在已修正识别结果中,每个字可以和后续相邻的一个,两个,或多个字组成词。因此,选择概率值最大组合作为词组,即选取最优结果。
步骤203:存储或更新挖掘到的词组。若挖掘到词组已在词组库中存在,则将词组对应的中间识别结果更新到对应词组库中的中间识别结果(即将对应词组库中间识别结果中没有的字添加到对应词组库中间识别结果中),否则将词组及对应的中间识别结果存储到词组库中。
步骤204:跳到已挖掘词组最后一个字的下一个位置,判断是否已超出已修正识别结果的范围,若是则结束,否则跳到步骤201进行下一个词组挖掘。
在本发明一个实施例中,上述挖掘结果,即词组库的内容如图3所示。本领域技术人员可以理解,图3所示词组库既可以通过文件方式实现,也可以通过数据库的方式实现。通过该信息进行的语音识别和对重复出现词识别错误的自动修正过程将通过下面的实施例详细描述。
图4是本发明一个实施例中提供的汉语语音识别中重复出现词识别错误的自动修正方法的流程图。对于每一句语音经语音识别引擎识别后都会生成一个字混淆网络,本方法就是从字混淆网络开始的,具体步骤如下:
步骤401:重复出现词查找。对每句话经识别后得到的字混淆网络与词组库中的词组(即词)及中间识别结果进行相似性匹配。相似性匹配即计算词组库中的词组对应的中间识别结果与字混淆网络中的中间识别结果的相似程度,用相似概率值表示该相似程度。相似概率值大于零的词组为当前识别语句中可能再次出现的词,保留该词组、相似概率值及其在最优识别结果中的对应位置。本实施例中,对第一句话来说,识别结果中的每个词都是第一次出现且此时的词组库为空,所以重复出现词查找结果为空。
步骤402:重复出现词识别错误修正。根据重复出现词查找得到的所有词组信息,包括词组本身、词组匹配的相似概率值、以及词组对应最优识别结果中的位置,重新计算当前字混淆网络中识别字的概率值。根据新的概率值以及词组相似概率值,对字混淆网络和词组按照概率值大小排序,通过词组替换原有最优识别结果中识别错误来修正重复出现词识别错误。
具体的,步骤401如图5所示,查找当前识别语句中重复出现词的过程包括:
步骤4011:计算词组及对应中间识别结果与当前字混淆网络的相似概率值。词组的表示如图3所示,每个词组都具有与之对应的中间识别结果,词组中的每个字对应一行中间识别结果。用Si={c1,c2,c3,…,cj}表示词组W中第i个字所对应的一行中间识别结果,其中cj表示中间识别结果中的第j个字;用S′i={c′1,c′2,c′3,…,c′k}表示当前字混淆网络CN中最优识别结果的第i个字所对应的一列中间识别结果,同样c′k表示中间识别结果中的第k个字。词组及对应中间识别结果与当前字混淆网络相似概率值计算公式为:
p ( W , CN j ) = Π i = 1 num ( W ) SIM ( S i , S i + j ′ )
其中,num(W)表示词组W中字的个数,p(W,CNj)表示词组对应中间识别结果与当前字混淆网络中第j列开始的num(W)列中间识别结果的相似概率,SIM(Si,S′i+j)表示词组中第i个字所对应的中间识别结果与当前字混淆网络中第i+j列中间识别结果的相似性。
SIM ( C , C ′ ) = 1 2 [ 1 N 1 Σ i = 0 N 1 - 1 δ ( c i , C ′ ) + 1 N 2 Σ i = 0 N 2 - 1 δ ( c i ′ , C ) ]
其中,C和C′分别表示一列中间识别结果集合,N1和N2分别表示C和C′中字的个数。ci表示C中的第i个字,c′i表示C′中的第i个字。δ(ci,C′)表示如果在C′集合中存在某个字的读音与字ci的读音相同,其值等于1,否则等于0。
步骤4012:保留相似概率值大于零的词组,若p(W,CNj)大于0表示词组W可能在当前语句中出现,即当前识别语句中存在重复出现词。重复出现词出现的位置为最优识别结果中的第j个字,p(W,CNj)值越大表示W出现的可能性越大。因此对于p(W,CNj)大于零的词组,保留词组W、相似概率值p(W,CNj)及出现位置j。
步骤4013:判断当前词组是否为词组库中的最后一个词组,若是则结束重复出现词查找,否则回到步骤4011进行下一个词组的相似性匹配。
具体的,在步骤402中,对当前字混淆网络与词组库进行相似性匹配得到的词组并非一定是当前识别语句的重复出现词,因为该词组可能只是与当前识别语句中的某个词具有发音相似性,而非真正的重复出现词。因此,在进行重复出现词识别错误修正时不能简单地用查找到的词组替换对应位置处的最优识别结果。本实施例中,根据重复出现词查找得到的所有词组信息,包括词组本身、词组匹配的相似概率值、以及词组对应最优识别结果中的位置,重新计算当前字混淆网络中字的识别概率值,根据新的概率值以及词组相似概率值来修正重复出现词识别错误。
对重复出现词查找得到的每个词组用一个三元组表示WI={w,pw,loc},w表示词组本身,pw表示词组w与当前字混淆网络的相似概率,loc表示词组对应当前混淆网络中的开始位置,用num(w)表示词组w中字的个数,词组w与当前字混淆网络中从第loc列开始的num(w)列识别结果相对应,词组中的每个字对应当前字混淆网络中的一列识别结果,为了使查找到的词组的相似概率值与字混淆网络中对应中间识别结果字识别概率值具有可比性,且满足归一化的特点,重新计算相似概率值和字识别概率值。重新计算每个对应列中的字识别概率值的公式为:
q ( c loc + i , j ) = ( 1 - λ ) q ′ ( c loc + i , j ) + λ ( 1 - p c i ′ ) q ′ ( c loc + i , j )
其中,表示词组w中第i个字的概率值,
Figure BDA0000080830290000093
等于pw,q′(cloc+i,j)表示第i个字所对应的第loc+i列识别结果中第j个字的原有识别概率值,相应的q(cloc+i,j)表示重新计算后的识别概率值,λ表示词组w为重复出现词的权重。
重新计算查找到词组中每个字的相似概率值公式为:
p c i = λ p c i ′ + ( 1 - λ ) q ′ ( c loc + i , k ) c loc + i , k = c i λ p c i ′ else
其中,λ同上,q′(cloc+i,k)表示第i个字所对应的第loc+i列识别结果中第k个字的原有识别概率值,cloc+i,k=ci表示第i个字所对应的第loc+i列识别结果中存在一个与之相同的字。
在完成概率值重新计算的基础上,将词组中的字以及该字对应当前字混淆网络列中的所有字一起按照概率值的大小从大到小排序。通过重新排序替换对应位置处的最优识别结果,从而修正对应的重复出现词识别错误。
即如图6所示,步骤402进一步包括:
步骤4021,根据重复出现词查找得到的词组信息,重新计算相似概率值和字识别概率值;
步骤4022,根据新的概率值以及词组相似概率值,对字混淆网络和词组按照概率值大小排序;
步骤4023,使用排序结果替换字混淆网络的最优识别结果以及中间识别结果,从而修正对应的重复出现词识别错误。
进一步的,在完成对最优识别结果中的重复出现词识别错误修正后,最优识别结果中可能还存在非重复出现词识别错误。由于最优识别结果中的每个字都对应一列中间识别结果,且中间识别结果与最优识别结果具有竞争性和发音相似性,因此对于某些非重复出现词识别错误可通过在对应中间识别结果中选择正确的字来修正。此外,还可以通过标识非重复出现词识别错误,然后用键盘输入或手写输入的方式来修正。
图7是本发明一个实施例中提供的汉语语音识别中重复出现词识别错误的自动修正方法的流程图,所述方法包括:
步骤501:重复出现词查找;
步骤502:重复出现词识别错误修正;和
步骤503:非重复出现词识别错误修正。
与上述实施例相比,其区别在于还包括步骤503:非重复出现词识别错误修正。语句中的重复出现词是指语句中的某个词在以前的语句中出现过,其在当前语句的再次出现叫做重复出现词。在当前识别语句中,除了重复出现词识别错误外,还有首次出现的词被识别错误的情况,这种识别错误叫做非重复出现词识别错误。对于非重复出现词识别错误,通过在混淆网络中选择正确的字来修正识别错误,或者通过键盘输入,手写输入的方法来修正识别错误。经过非重复出现词识别错误修正后,识别结果就不再包含任何识别错误,成为已修正识别结果。
进一步的,词组库中的词组可以动态生成、更新,而不需要事先准备好包含重复出现词组的词组库。
图8是本发明一个实施例中提供的汉语语音识别中重复出现词识别错误的自动修正方法的流程图,所述方法包括:
步骤601:重复出现词查找;
步骤602:重复出现词识别错误修正;
步骤603:非重复出现词识别错误修正;
步骤604:词组挖掘;和
步骤605:存储或更新词组到词组库;
与上述实施例相比,其区别在于还包括步骤604和605。
其中,步骤604:词组挖掘。挖掘已修正识别结果中所有的词组,这些词组在以后的识别语句中可能会再次出现。已修正识别结果中的词组挖掘是通过计算已修正识别结果中相邻字之间组成词的概率值来实现的,对于每个字都选择概率值最大的组合作为词组。词组挖掘的具体步骤为上述步骤201~204。
步骤605:存储或更新词组到词组库。将当前已修正识别结果中挖掘到的所有词组存储到词组库中,当词组在词组库中已存在时,则只需要更新词组所对应的中间识别结果,当词组库中不存在该词组时,则将词组以及其对应字混淆网络中的中间识别结果存储到词组库中。
应用上述步骤601~605,假设两句先后发出的语音对应的文本内容分别为:“修整遮盖胶带和色条”和“用胶带遮盖下围板”。在对第一句语音识别后得到的字混淆网络为:
修 正 这 个 小 百 和 词 条
就 诊 者 的 教 派 货 色 票
纠 准 着 该 较 大 科 学 跳
   珍       胶 白
               带
其中,第一句语音识别的最优识别结果为“修正这个小百和词条”,其中每个字都对应一列中间识别结果。由于第一句话中的每个词都是第一次出现,且此时词组库为空,因此对第一句语句字混淆网络的重复出现词查找为空。直接跳到非重复出现词识别错误修正,对最优识别结果中的第二个字“正”、第三个字“这”、第四个字“个”的识别错误通过键盘或手写输入“整”、“遮”、“盖”来修正,对最优识别结果中的第五个字“小”、第六个字“百”、第八个字“词”的识别错误通过在其对应的中间识别结果中选择“胶”、“带”、“色”来修正。在完成非重复出现词识别错误修正后,此时的最优识别结果“修整遮盖胶带和色条”为已修正识别结果。对已修正识别结果中的词组进行挖掘并存储,挖掘的结果如表1所示。
表1
Figure BDA0000080830290000111
Figure BDA0000080830290000121
在完成对第一句识别并修正后,对第二句话进行识别得到字混淆网络:
有 小 的 这 个 小 礼 拜
用 叫 在 着 的 下 对 白
中 交 得 知 在    明 待
   教 派 者 该    李
         之
其中,第二句话的最优识别结果为“有小的这个小礼拜”,每个字对应一列中间识别结果。计算词组库中词组与字混淆网络的相似概率值,词组“遮盖”与字混淆网络的相似概率值大于零,对应字混淆网络的第四列和第五列,词组“胶带”与字混淆网络的相似概率值大于零,对应字混淆网络的第二列和第三列。重新计算词组“遮盖”、“胶带”和它们所对应字混淆网络列中字的概率值,按照概率值的大小排序,排序后的结果为:
有 胶 带 遮 盖 小 礼 拜
用 小 的 这 个 下 对 白
中 叫 在 着 的    明 待
   交 得 知 在    李
   教 派 者 该
         之
通过重复出现词识别错误修正后,修正了最优识别结果中的第二个字“小”、第三个字“的”、第四个字“这”、第五个字“个”的识别错误。对于剩下的非重复出现词识别错误“有”、“小”、“礼”、“拜”通过从中间识别结果中选择候选或终端输入的方法修正,修正后的最优识别结果为“用胶带遮盖下围板”。对第二句已修正的识别结果挖掘词组,挖掘到的词组有“胶带”、“遮盖”和“围板”,其中“胶带”和“遮盖”已存在于词组库中,对于这两个词组只需更新对应的中间识别结果。存储和更新后的结果如表2所示。
表2
Figure BDA0000080830290000122
Figure BDA0000080830290000131
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (8)

1.一种汉语语音识别中重复出现词识别错误的自动修正方法,其特征在于,包括:
(1)对每句话经识别后得到的字混淆网络与词组库中的词组及中间识别结果进行相似性匹配,以查找重复出现词组;其中,字混淆网络是所有可能识别结果的集合,字混淆网络包括最优识别结果即原有最优识别结果和最优识别结果中的每个字对应的中间识别结果;词组库包括词组及其对应的中间识别结果;
(2)根据查找得到的词组信息,重新计算相似概率值和字识别概率值;
(3)根据新的概率值,对字混淆网络按照概率值大小排序;和
(4)使用排序结果替换字混淆网络的最优识别结果以及中间识别结果。
2.根据权利要求1所述的自动修正方法,其特征在于,步骤(1)中所述进行相似性匹配包括:
计算词组及对应中间识别结果与当前字混淆网络的相似概率值;和
保留相似概率值大于零的词组;
其中,所述计算方式为:
p ( W , CN j ) = Π i = 1 num ( W ) SIM ( S i , S i + j ′ )
SIM ( C , C ′ ) = 1 2 [ 1 N 1 Σ i = 0 N 1 - 1 δ ( c i , C ′ ) + 1 N 2 Σ i = 0 N 2 - 1 δ ( c i ′ , C ) ]
num(W)表示词组W中字的个数,p(W,CNj)表示词组对应中间识别结果与当前字混淆网络中第j列开始的num(W)列中间识别结果的相似概率,SIM(Si,S′i+j)表示词组中第i个字所对应的中间识别结果与当前字混淆网络中第i+j列中间识别结果的相似性;
C和C′分别表示一列中间识别结果集合,N1和N2分别表示C和C′中字的个数;ci表示C中的第i个字,c′i表示C′中的第i个字;δ(ci,C′)表示如果在C′集合中存在某个字的读音与字ci的读音相同,其值等于1,否则等于0。
3.根据权利要求1所述的自动修正方法,其特征在于,词组中的每个字对应当前字混淆网络中的一列识别结果;步骤(2)中所述重新计算相似概率值包括:
重新计算查找到词组中每个字的相似概率值;
其中,重新计算查找到词组中每个字的相似概率值方式为:
p c i = λ p c i ′ + ( 1 - λ ) q ′ ( c loc + i , k ) c loc + i , k = c i λ p c i ′ else
q′(cloc+i,k)表示第i个字所对应的第loc+i列识别结果中第k个字的原有识别概率值,cloc+i,k=ci表示第i个字所对应的第loc+i列识别结果中存在一个与之相同的字。
4.根据权利要求3所述的自动修正方法,其特征在于,步骤(2)中所述重新计算字识别概率值包括:
重新计算每个对应列中的字识别概率值;
其中,重新计算每个对应列中的字识别概率值的方式为:
q ( c loc + i , j ) = ( 1 - λ ) q ′ ( c loc + i , j ) + λ ( 1 - p c i ′ ) q ′ ( c loc + i , j )
表示词组w中第i个字的概率值,
Figure FDA0000080830280000024
等于pw,q′(cloc+i,j)表示第i个字所对应的第loc+i列识别结果中第j个字的原有识别概率值,相应的q(cloc+i,j)表示重新计算后的识别概率值,λ表示词组w为重复出现词的权重。
5.根据权利要求1所述的自动修正方法,其特征在于,还包括:
(5)通过在混淆网络中选择正确的字、或者通过键盘输入、或者通过手写输入来修正非重复出现词识别错误,以得到不再包含任何识别错误的已修正识别结果。
6.根据权利要求5所述的自动修正方法,其特征在于,还包括:
(6)挖掘已修正识别结果中所有的词组;和
(7)存储或更新得到的词组到词组库。
7.根据权利要求6所述的自动修正方法,其特征在于,步骤(6)中所述挖掘已修正识别结果中所有的词组包括:
计算已修正识别结果中每个字与相邻若干字组成词的概率值;
选择组合概率最大的词组作为挖掘到的词组;
其中,所述计算的方式为:
p ( c 1 , c 2 , . . . , c k ) = Σ i 1 = 1 num ( S c 1 ) Σ i 2 = 1 num ( S c 2 ) . . . Σ i k = 1 num ( S c k ) p ( c 1 , i 1 , c 2 , i 2 , . . . , c k , i k )
p(c1,c2,…,ck)表示已修正识别结果中第1个字与第2个到第k个字组成词的概率值,
Figure FDA0000080830280000031
表示已修正识别结果中第k个字对应中间识别结果列中字的个数,表示已修正识别结果中第k个字所对应中间识别结果列中的第ik个字,
Figure FDA0000080830280000033
表示字混淆网络中字
Figure FDA0000080830280000034
Figure FDA0000080830280000035
Figure FDA0000080830280000036
的组合概率值。
8.根据权利要求1所述的自动修正方法,其特征在于,所述词组库为词组文件或词组数据库。
CN201110220842.4A 2011-08-03 2011-08-03 汉语语音识别中重复出现词识别错误的自动修正方法 Active CN102324233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110220842.4A CN102324233B (zh) 2011-08-03 2011-08-03 汉语语音识别中重复出现词识别错误的自动修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110220842.4A CN102324233B (zh) 2011-08-03 2011-08-03 汉语语音识别中重复出现词识别错误的自动修正方法

Publications (2)

Publication Number Publication Date
CN102324233A true CN102324233A (zh) 2012-01-18
CN102324233B CN102324233B (zh) 2014-05-07

Family

ID=45451967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110220842.4A Active CN102324233B (zh) 2011-08-03 2011-08-03 汉语语音识别中重复出现词识别错误的自动修正方法

Country Status (1)

Country Link
CN (1) CN102324233B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474069A (zh) * 2013-09-12 2013-12-25 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
CN106782607A (zh) * 2012-07-03 2017-05-31 谷歌公司 确定热词适合度
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN109273004A (zh) * 2018-12-10 2019-01-25 苏州思必驰信息科技有限公司 基于大数据的预测性语音识别方法及装置
CN110852074A (zh) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 生成修正语句的方法和装置、存储介质和电子设备
CN111783458A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN112380845A (zh) * 2021-01-15 2021-02-19 鹏城实验室 句子噪声设计方法、设备及计算机存储介质
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
US20090313016A1 (en) * 2008-06-13 2009-12-17 Robert Bosch Gmbh System and Method for Detecting Repeated Patterns in Dialog Systems
CN101669116A (zh) * 2007-04-26 2010-03-10 微软公司 用于生成亚洲语字符的识别体系结构
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227510A (ja) * 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
JP2008051895A (ja) * 2006-08-22 2008-03-06 Casio Comput Co Ltd 音声認識装置および音声認識処理プログラム
CN101669116A (zh) * 2007-04-26 2010-03-10 微软公司 用于生成亚洲语字符的识别体系结构
US20090313016A1 (en) * 2008-06-13 2009-12-17 Robert Bosch Gmbh System and Method for Detecting Repeated Patterns in Dialog Systems
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
CN106782607A (zh) * 2012-07-03 2017-05-31 谷歌公司 确定热词适合度
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
CN103474069A (zh) * 2013-09-12 2013-12-25 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
CN106796788A (zh) * 2014-08-28 2017-05-31 苹果公司 基于用户反馈来改善自动语音识别
CN104538032B (zh) * 2014-12-19 2018-02-06 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
CN105206267B (zh) * 2015-09-09 2019-04-02 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
CN105206267A (zh) * 2015-09-09 2015-12-30 中国科学院计算技术研究所 一种融合非确定性反馈的语音识别错误修正方法及系统
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN108564086B (zh) * 2018-03-17 2024-05-10 上海柯渡医学科技股份有限公司 一种字符串的识别校验方法及装置
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
CN109273004A (zh) * 2018-12-10 2019-01-25 苏州思必驰信息科技有限公司 基于大数据的预测性语音识别方法及装置
CN109273004B (zh) * 2018-12-10 2021-11-30 思必驰科技股份有限公司 基于大数据的预测性语音识别方法及装置
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110852074A (zh) * 2019-11-07 2020-02-28 三角兽(北京)科技有限公司 生成修正语句的方法和装置、存储介质和电子设备
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
CN111783458A (zh) * 2020-08-20 2020-10-16 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN111783458B (zh) * 2020-08-20 2024-05-03 支付宝(杭州)信息技术有限公司 叠字错误检测方法及装置
CN112380845A (zh) * 2021-01-15 2021-02-19 鹏城实验室 句子噪声设计方法、设备及计算机存储介质

Also Published As

Publication number Publication date
CN102324233B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN102324233B (zh) 汉语语音识别中重复出现词识别错误的自动修正方法
CN106409284B (zh) 用于更新语言模型并执行语音识别的方法和装置
US6230131B1 (en) Method for generating spelling-to-pronunciation decision tree
JP2795719B2 (ja) 認識距離の差に基づく最良優先探索処理方法
US6684185B1 (en) Small footprint language and vocabulary independent word recognizer using registration by word spelling
TWI293455B (en) System and method for disambiguating phonetic input
US7356468B2 (en) Lexical stress prediction
US8401847B2 (en) Speech recognition system and program therefor
CN106708799B (zh) 一种文本纠错方法、装置及终端
US20080147380A1 (en) Method, Apparatus and Computer Program Product for Providing Flexible Text Based Language Identification
US4882759A (en) Synthesizing word baseforms used in speech recognition
CN107578771A (zh) 语音识别方法及装置、存储介质、电子设备
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN1731510B (zh) 混合语言文语转换
CN101082908A (zh) 一种中文分词方法及系统
CN109977398A (zh) 一种特定领域的语音识别文本纠错方法
CN1593980A (zh) 自动语音归类方法
CN106708798A (zh) 一种字符串切分方法及装置
CN107256212A (zh) 中文搜索词智能切分方法
CA2523010A1 (en) Grapheme to phoneme alignment method and relative rule-set generating system
CN110265019B (zh) 一种语音识别的方法及语音机器人系统
US8850311B2 (en) Word input method
JPS60189565A (ja) 仮名漢字変換装置
CN105206267B (zh) 一种融合非确定性反馈的语音识别错误修正方法及系统
JP2016099515A (ja) 音声認識誤り修正装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant