CN104021786B

CN104021786B - 一种语音识别的方法和装置

Info

Publication number: CN104021786B
Application number: CN201410205944.2A
Authority: CN
Inventors: 乔亚飞; 赵芳; 游世学; 孟凡兴; 郑永涛
Original assignee: Beijing Huilan Information Technology Co ltd
Current assignee: Beijing Huilan Information Technology Co ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2017-05-24
Anticipated expiration: 2034-05-15
Also published as: CN104021786A

Abstract

本申请提供了一种语音识别的方法和装置，包括：接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述模板存储符合正则表达式的书写规则语句；若所述多个候选识别结果与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离；根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中的模板的匹配度；根据所述匹配度，输出匹配后的识别结果。因此，本申请解决了现有语音识别错误对问答系统影响的问题。

Description

一种语音识别的方法和装置

技术领域

本申请涉及语音识别领域，特别是涉及一种语音识别的方法和装置。

背景技术

近年来，随着语言处理技术的发展，智能问答系统受到了极大的关注，从聊天软件‘小黄鸡’的风靡，到流行于各大网络平台的应答机器人，智能问答系统在众多领域得到广泛应用。

大多数问答系统都是以文本键入的形式作为问答系统的输入，繁琐费时，特别是在移动终端(如手机)等无键盘设备上或对于老年人、残疾人等操作困难人群，文本输入变得异常困难。因此，基于语音输入的问答系统应运而生，用户以口述的形式输入问题，经过语音识别，把识别结果传给问答系统进行处理，这样减少了用户的操作，提高了用户体验。

语音智能问答系统具有方便、快捷、适用人群广泛的优点，然而，将语音作为用户输入带来了新的问题。由于用户的声音质量的不确定性、环境噪声的多样性、用户口音变异、未登录词等各种复杂因素的影响，语音识别的精度很难保证。现有技术中语音识别技术对标准普通话的识别正确率大约在90％左右，如果存在较高的噪音和口音，识别率的正确率就大大降低了。错误的识别结果会影响问答系统对用户输入的理解，进而影响问答系统的正确率。

目前，解决上述问题的方法是通过增加问答系统的知识领域来提高语音识别系统的准确率。然而上述方法，一方面存在着某些语音识别错误在后续问答系统中扩大，导致问答系统正确率急剧下降。另一方面，问答系统本身在容错时容易忽略非关键字，在此情形下对输入问题进行模糊匹配时，将导致问答系统输出错误结果的可能性大大增加。

发明内容

本申请提供一种语音识别的方法和装置，以解决上述现有语音识别错误对问答系统影响的问题。

为了解决上述问题，本申请公开了一种语音识别的方法，包括：接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句；

若所述多个候选识别结果与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离；

根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中的模板的匹配度；

根据所述匹配度，输出匹配后的识别结果。

优选地，所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括：

通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离，包括：

通过第一编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第一距离，其中，所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离；

通过第二编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第二距离，其中，所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离；

通过第三编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第三距离，其中，所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离；

将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。

优选地，所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c；

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v；

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)；

其中，i为多个候选识别结果的字符串，j为知识库中存储的模板的字符串，c和v为算法参数，c为插入错误失配权重，v为删除错误失配权重，d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值，D(N,M)为多个候选识别结果与知识库中存储的模板的距离。

优选地，所述d(w,v)通过以下方式获得：

根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。

优选地，所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括：

根据所述距离和多个候选识别结果的信任度，使用贝叶斯公式计算多个候选识别结果的匹配分值。

优选地，其中，所述贝叶斯公式为：

D(O,L)＝D(N,M)P(X|O)；

其中，O为输入语音，X为多个候选识别结果，P(X|O)为语音识别系统对多个候选识别结果X的信任度，D(N,M)为多个候选识别结果与知识库中存储的模板的距离，D(O,L)为多个候选识别结果的匹配分值。

为了解决上述问题，本申请还公开了一种语音识别的装置，包括：接收模块，用于接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句；

计算模块，用于若所述多个候选识别结果与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离；

匹配模块，用于根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，根据所述匹配分值将多个候选识别结果分别与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中模板的匹配度；

输出模块，用于根据所述匹配度，输出匹配后的识别结果。

优选地，所述计算模块通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离，包括：

第一编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第一距离，其中，所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离；

优选地，所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c；

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v；

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)；

优选地，所述d(w,v)通过以下方式获得：

与现有技术相比，本申请包括以下优点：

针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题，本申请通过计算多个候选识别结果与知识库中存储的模板的距离，根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，从计算出的匹配分值中确定出最优匹配分值，将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配，得到多个候选识别结果与知识库中的模板的匹配度，由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板，从而解决了语音识别错误对问答系统影响的问题。

附图说明

图1是本申请实施例一所述一种语音识别方法的流程图；

图2是本申请实施例二所述一种语音识别方法的流程图；

图3是本申请实施例三所述一种语音识别装置的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请实施例一中的一种语音识别方法的流程图，具体包括：

步骤101：接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句。

语音识别系统可以保存并输出一系列可能的识别结果，这些识别结果称为多个候选识别结果(n-best)。

一般来说，正确的识别结果通常会在n-best的某个候选之中或分散在n-best的各个候选识别结果之中。因此，可以通过n-best得到输入语音的大量信息，并通过问答系统的知识领域选择最优的识别结果，从而使问题提取更加合理。

例如，用户输入的句子为：“请问鲁讯有哪些书？”语音识别系统输出的n-best结果如下：

1-best:请问鲁信有哪些书？

2-best:亲吻鲁讯又拿些书？

3-best:请问路寻有那些书？

…

将以上多个候选识别结果分别与知识库中的模板进行匹配，若候选识别结果与知识库中的模板匹配成功，则查找数据库，输出匹配后的识别结果。

在语音识别系统中，知识库中包含实体词表、数据库和模板。实体词表存储实体词，其中，实体词由实体和实体的属性组成。数据库存储实体和实体的属性等信息，对于某具体的实体及其属性信息通过实体词表中的实体词体现。而模板存储符合正则表达式的书写规则语句。

例如:书或作者是实体，则书的实体属性包含有：书名、作者、出版社、价格、评分等信息；而作者的实体属性包含有：作者名、国家、出生年月、代表作等信息。一个实例如下：

实体词表一author：鲁迅张爱玲毛姆。

实体词表二book：呐喊小团圆人性的枷锁。

数据库：鲁迅中国2001.10《狂人日记》。

呐喊鲁迅中国出版社19.8元9.0分。

(那|那么|我|你|想|知道)*author(的|书)+book(价格|价钱|多少|钱)+(啊|吗|呀|呢|嘛|么)*price。

其中，模板的书写格式符合正则表达式的书写规则，模板中的author或price表示的是对应查找的目标。

需要说明的是，在实际使用时用户可以根据实际情况设置数据库中实体中包含的属性和模板的信息。

步骤102：若所述多个候选识别结果与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离

例如：多个候选识别结果如下：

1-best:请问鲁信有哪些书？

2-best:亲吻鲁讯又拿些书？

3-best:请问路寻有那些书？

此时，知识库中有一个模板为“*<作者>*<哪些|什么>书”，则以上多个候选识别结果全部与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离。

步骤103：根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中的模板的匹配度。

多个候选识别结果的信任度是指语音识别中语音识别器会对多个候选结果进行打分，打分后的结果作为信任度。

通过计算多个候选识别结果的匹配分值，从计算出的匹配分值中选择最优的匹配分值与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中的模板的匹配度，从而大大提高了知识库中的模板匹配成功率。

步骤104：根据所述匹配度，输出匹配后的识别结果。

匹配后的识别结果是指多个候选识别结果与知识库中的模板最接近的识别结果。例如一个候选识别结果：亲吻鲁讯又哪些书？知识库中的模板为：“*<作者>*<哪些|什么>书”、“请问*<书>*作家”、“你知道*<书>*<作者>”，则将这个候选结果与知识库中存储的模板分别进行匹配，得到候选结果匹配后的识别结果是请问鲁迅有哪些书？

通过本实施例，针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题，本申请通过计算多个候选识别结果与知识库中存储的模板的距离，根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值，从计算出的匹配分值中确定出最优匹配分值，将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配，得到多个候选识别结果与知识库中的模板的匹配度，由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板，从而解决了语音识别错误对问答系统影响的问题。

参照图2，示出了本申请实施例二中的一种语音识别方法的流程图。

本实施例中，以语音系统为例，对本申请的语音识别方法进行说明。语音系统包括语音识别系统和问答系统两个子系统。其中，用户以口述的形式将问题作为语音输入传给语音识别系统，语音识别系统根据语音输入而输出多个候选识别结果，多个候选识别结果被发送到问答系统。问答系统接收到多个候选识别结果后与系统知识库中的模板进行匹配，得到最接近的匹配模板，进而通过查询知识库中的模板得到输入问题的相应答案。以下具体说明。

具体地，本实施例的一种语音识别方法包括：

步骤201:接收语音识别系统输出的多个候选识别结果。

步骤202：将接收的多个候选识别结果与知识库中存储的模板进行模板匹配。

步骤203：判断接收的多个候选识别结果在知识库中是否匹配到模板。

若多个候选识别结果与知识库中的模板匹配成功，则输出匹配后的识别结果。

若多个候选识别结果与知识库中的模板匹配不成功，则计算多个候选识别结果与知识库中存储的模板的距离。

进一步地，所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括：

通过第一编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第一距离，其中，所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离。

其中，一种单纯的编辑距离公式为：

D(i,j)＝D(i-1,j)+1或D(i,j)＝D(i,j-1)+1，其中，i为候选识别结果的字符串，j为知识库中存储的字符串。

其中，单纯的编辑距离公式中的删除、插入、替换的算法参数取为1，而本申请中的插入错误的算法参数是通过标准的语音的音素而设置的，插入错误的算法参数一般取值的范围是0-3。

通过第二编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第二距离，其中，所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离。

其中，一种单纯的编辑距离公式为：

D(i,j)＝D(i-1,j)+1或D(i,j)＝D(i,j-1)+1，其中，i为候选识别结果的字符串，j为知识库中存储的字符串，D(i,j)为候选识别结果的字符串到知识库中存储的字符串的距离。

其中，单纯的编辑距离公式中的删除、插入、替换的惩罚分值取为1，而本申请中的插入错误的算法参数是通过标准的语音的音素而设置的，插入删除错误的算法参数一般取值的范围是0-3。

通过第三编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第三距离，其中，所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果的字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储的模板的距离。

进一步地，所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c。

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v。

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)。(1)

进一步地，所述d(w,v)通过以下方式获得：

对于语音问答系统，n-best输出的多个候选识别结果中的绝大部分发音和正确发音都具有相似性，我们可以利用这种相似性来规范编辑距离修正公式中的失配分值。即在编辑距离修正公式中，对发音相近的失配词对给以较小的失配分值，对发音相差较大的失配词给以较大的失配分值。

本申请通过混淆矩阵计算多个候选识别结果的音素与知识库中存储模板的标准音素的失配分值。

其中，音素是最小的语音单位，在音质意义上来说每个音素都有自己的发音特色。音素的基元数目较少，汉语标准普通话中有35个音素，如表1所示。

表1汉语音素

辅音基元(22)	元音基元(13)
		b,c,ch,d,f,g,h,j,k,l,m,n,ng,	aI,a,Ie,eI,eN,e,Ci,Chi,

p,q,r,s,sh,t,x,z,zh

Bi,oU,o,u,v

音素对之间具有明显的相似性，这些相似性可以用混淆矩阵M来表示，其中,M(x,y)为第(x,y)个音素x和y的混淆程度。为了能反映语音识别系统对相近发音的混淆规律，可以将语音识别的结果表示为音素串，与该句标准发音的音素串进行对比，可以得到某一音素被识别为另一发音的可能性，其混淆矩阵M(x,y)的公式为：

M(x,y)＝P(x|y)＝C(x|y)/C(y)(2)；

其中，C(y)为标准发音中音素的个数，C(x|y)为多个候选识别结果中标准发音y被识别成音素x的个数，P(x|y)为音素y被识别成音素x的概率。

通过混淆矩阵计算音素的失配分值，所述失配分值其使用的公式为：

d(w,v)＝min_sΣ_kM(x,y) (3)

其中，s为x、y的对齐方式，k为基于该对齐方式的x、y的第k个音素，M(x,y)为x、y音素的混淆矩阵，min表示最小值。

进一步地，将公式(2)、公式(3)代入公式(1)获得D(N,M)为字符串i转换为字符串j的编辑距离。

进一步地，所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括：

根据所述距离和多个候选识别结果的信任度，使用贝叶斯公式计算多个候选识别结果的置信分值。

进一步地，所述贝叶斯公式为：

D(O,L)＝D(N,M)P(X|O)；

其中，字符串i转换为字符串j的编辑距离和多个候选识别结果的信任度，使用贝叶斯公式可以得到多个候选识别结果的多个匹配分值，从中选择出最优的匹配分值的候选识别结果与知识库中的模板进行匹配，得到所述多个候选识别结果与知识库中的模板的匹配度。

步骤204：根据所述匹配度，输出匹配后的识别结果。

匹配后的识别结果是指多个候选识别结果与知识库中的模板匹配度最高的识别结果。

综上所述，本申请实施例一种语音识别方法主要包括以下优点：

基于上述方法实施例的说明，本申请还提供了相应的一种语音识别装置的实施例，来实现上述方法实施例所述的内容。

参数图3，示出了本申请实施例三所述的一种语音识别装置，具体可以包括：

接收模块，用于接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句。

计算模块，用于若所述多个候选识别结果与知识库中的模板匹配均不成功，则计算多个候选识别结果与知识库中存储的模板的距离。

输出模块，用于根据所述匹配度，输出匹配后的识别结果。

通过第三编辑距离修正公式，计算多个候选识别结果与知识库中存储的模板的第三距离，其中，所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板的距离；

优选地，所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c；

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v；

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)；

其中，i为多个候选识别结果的字符串，j为知识库中存储模板的字符串，c和v为算法参数，c为插入错误失配权重，v为删除错误失配权重，d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值，D(N,M)为多个候选识别结果与知识库中存储的模板的距离。

优选地，所述d(w,v)通过以下方式获得：

优选地，匹配模块中所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值包括：

根据所述距离和多个候选识别结果的信任度，使用贝叶斯公式计算候选识别结果的匹配分值。

优选地，所述贝叶斯公式为：D(O,L)＝D(N,M)P(X|O)；

综上所述，本申请实施例一种语音识别装置主要包括以下优点：

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上对本申请所提供的一种语音识别的方法和装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音识别的方法，其特征在于，包括：

接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句；

根据所述匹配度，输出匹配后的识别结果；

所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括：

3.根据权利要求2所述的方法，其特征在于，

所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c；

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v；

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)；

4.根据权利要求3所述的方法，其特征在于，所述d(w,v)通过以下方式获得：

5.根据权利要求1所述的方法，其特征在于，其中，所述贝叶斯公式为：

D(O,L)＝D(N,M)P(X|O)；

6.一种语音识别的装置，其特征在于，包括：

接收模块，用于接收语音识别系统输出的多个候选识别结果，将所述多个候选识别结果分别与知识库中的模板进行匹配，其中，所述知识库包括实体词表和模板，所述实体词表存储实体词，所述模板存储符合正则表达式的书写规则语句；

输出模块，用于根据所述匹配度，输出匹配后的识别结果；

匹配模块中所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值包括：根据所述距离和多个候选识别结果的信任度，使用贝叶斯公式计算候选识别结果的匹配分值。

7.根据权利要求6所述的装置，其特征在于，所述计算模块通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离，包括：

8.根据权利要求7所述的装置，其特征在于，

所述第一编辑距离修正公式为：D(N,M)＝D(i-1,j)+c；

所述第二编辑距离修正公式为：D(N,M)＝D(i,j-1)+v；

所述第三编辑距离修正公式为：D(N,M)＝D(i-1,j-1)+d(w,v)；

9.根据权利要求8所述的装置，其特征在于，所述d(w,v)通过以下方式获得：