CN104021786B - 一种语音识别的方法和装置 - Google Patents

一种语音识别的方法和装置 Download PDF

Info

Publication number
CN104021786B
CN104021786B CN201410205944.2A CN201410205944A CN104021786B CN 104021786 B CN104021786 B CN 104021786B CN 201410205944 A CN201410205944 A CN 201410205944A CN 104021786 B CN104021786 B CN 104021786B
Authority
CN
China
Prior art keywords
multiple candidate
template
knowledge base
recognition results
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410205944.2A
Other languages
English (en)
Other versions
CN104021786A (zh
Inventor
乔亚飞
赵芳
游世学
孟凡兴
郑永涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huilan Information Technology Co ltd
Original Assignee
Beijing Huilan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huilan Information Technology Co ltd filed Critical Beijing Huilan Information Technology Co ltd
Priority to CN201410205944.2A priority Critical patent/CN104021786B/zh
Publication of CN104021786A publication Critical patent/CN104021786A/zh
Application granted granted Critical
Publication of CN104021786B publication Critical patent/CN104021786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供了一种语音识别的方法和装置,包括:接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述模板存储符合正则表达式的书写规则语句;若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度;根据所述匹配度,输出匹配后的识别结果。因此,本申请解决了现有语音识别错误对问答系统影响的问题。

Description

一种语音识别的方法和装置
技术领域
本申请涉及语音识别领域,特别是涉及一种语音识别的方法和装置。
背景技术
近年来,随着语言处理技术的发展,智能问答系统受到了极大的关注,从聊天软件‘小黄鸡’的风靡,到流行于各大网络平台的应答机器人,智能问答系统在众多领域得到广泛应用。
大多数问答系统都是以文本键入的形式作为问答系统的输入,繁琐费时,特别是在移动终端(如手机)等无键盘设备上或对于老年人、残疾人等操作困难人群,文本输入变得异常困难。因此,基于语音输入的问答系统应运而生,用户以口述的形式输入问题,经过语音识别,把识别结果传给问答系统进行处理,这样减少了用户的操作,提高了用户体验。
语音智能问答系统具有方便、快捷、适用人群广泛的优点,然而,将语音作为用户输入带来了新的问题。由于用户的声音质量的不确定性、环境噪声的多样性、用户口音变异、未登录词等各种复杂因素的影响,语音识别的精度很难保证。现有技术中语音识别技术对标准普通话的识别正确率大约在90%左右,如果存在较高的噪音和口音,识别率的正确率就大大降低了。错误的识别结果会影响问答系统对用户输入的理解,进而影响问答系统的正确率。
目前,解决上述问题的方法是通过增加问答系统的知识领域来提高语音识别系统的准确率。然而上述方法,一方面存在着某些语音识别错误在后续问答系统中扩大,导致问答系统正确率急剧下降。另一方面,问答系统本身在容错时容易忽略非关键字,在此情形下对输入问题进行模糊匹配时,将导致问答系统输出错误结果的可能性大大增加。
发明内容
本申请提供一种语音识别的方法和装置,以解决上述现有语音识别错误对问答系统影响的问题。
为了解决上述问题,本申请公开了一种语音识别的方法,包括:接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句;
若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;
根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度;
根据所述匹配度,输出匹配后的识别结果。
优选地,所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括:
通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
通过第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
优选地,所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
优选地,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
优选地,所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括:
根据所述距离和多个候选识别结果的信任度,使用贝叶斯公式计算多个候选识别结果的匹配分值。
优选地,其中,所述贝叶斯公式为:
D(O,L)=D(N,M)P(X|O);
其中,O为输入语音,X为多个候选识别结果,P(X|O)为语音识别系统对多个候选识别结果X的信任度,D(N,M)为多个候选识别结果与知识库中存储的模板的距离,D(O,L)为多个候选识别结果的匹配分值。
为了解决上述问题,本申请还公开了一种语音识别的装置,包括:接收模块,用于接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句;
计算模块,用于若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;
匹配模块,用于根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中模板的匹配度;
输出模块,用于根据所述匹配度,输出匹配后的识别结果。
优选地,所述计算模块通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
优选地,所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
优选地,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
与现有技术相比,本申请包括以下优点:
针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题,本申请通过计算多个候选识别结果与知识库中存储的模板的距离,根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,从计算出的匹配分值中确定出最优匹配分值,将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配,得到多个候选识别结果与知识库中的模板的匹配度,由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板,从而解决了语音识别错误对问答系统影响的问题。
附图说明
图1是本申请实施例一所述一种语音识别方法的流程图;
图2是本申请实施例二所述一种语音识别方法的流程图;
图3是本申请实施例三所述一种语音识别装置的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请实施例一中的一种语音识别方法的流程图,具体包括:
步骤101:接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句。
语音识别系统可以保存并输出一系列可能的识别结果,这些识别结果称为多个候选识别结果(n-best)。
一般来说,正确的识别结果通常会在n-best的某个候选之中或分散在n-best的各个候选识别结果之中。因此,可以通过n-best得到输入语音的大量信息,并通过问答系统的知识领域选择最优的识别结果,从而使问题提取更加合理。
例如,用户输入的句子为:“请问鲁讯有哪些书?”语音识别系统输出的n-best结果如下:
1-best:请问鲁信有哪些书?
2-best:亲吻鲁讯又拿些书?
3-best:请问路寻有那些书?
将以上多个候选识别结果分别与知识库中的模板进行匹配,若候选识别结果与知识库中的模板匹配成功,则查找数据库,输出匹配后的识别结果。
在语音识别系统中,知识库中包含实体词表、数据库和模板。实体词表存储实体词,其中,实体词由实体和实体的属性组成。数据库存储实体和实体的属性等信息,对于某具体的实体及其属性信息通过实体词表中的实体词体现。而模板存储符合正则表达式的书写规则语句。
例如:书或作者是实体,则书的实体属性包含有:书名、作者、出版社、价格、评分等信息;而作者的实体属性包含有:作者名、国家、出生年月、代表作等信息。一个实例如下:
实体词表一author:鲁迅张爱玲毛姆。
实体词表二book:呐喊小团圆人性的枷锁。
数据库:鲁迅中国2001.10《狂人日记》。
呐喊鲁迅中国出版社19.8元9.0分。
模板:(请问|我想知道)*book(是)(谁|哪个|作家)(写的|著作的)(呢|啊|么|嘛)*author。
(那|那么|我|你|想|知道)*author(的|书)+book(价格|价钱|多少|钱)+(啊|吗|呀|呢|嘛|么)*price。
其中,模板的书写格式符合正则表达式的书写规则,模板中的author或price表示的是对应查找的目标。
需要说明的是,在实际使用时用户可以根据实际情况设置数据库中实体中包含的属性和模板的信息。
步骤102:若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离
例如:多个候选识别结果如下:
1-best:请问鲁信有哪些书?
2-best:亲吻鲁讯又拿些书?
3-best:请问路寻有那些书?
此时,知识库中有一个模板为“*<作者>*<哪些|什么>书”,则以上多个候选识别结果全部与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离。
步骤103:根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度。
多个候选识别结果的信任度是指语音识别中语音识别器会对多个候选结果进行打分,打分后的结果作为信任度。
通过计算多个候选识别结果的匹配分值,从计算出的匹配分值中选择最优的匹配分值与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度,从而大大提高了知识库中的模板匹配成功率。
步骤104:根据所述匹配度,输出匹配后的识别结果。
匹配后的识别结果是指多个候选识别结果与知识库中的模板最接近的识别结果。例如一个候选识别结果:亲吻鲁讯又哪些书?知识库中的模板为:“*<作者>*<哪些|什么>书”、“请问*<书>*作家”、“你知道*<书>*<作者>”,则将这个候选结果与知识库中存储的模板分别进行匹配,得到候选结果匹配后的识别结果是请问鲁迅有哪些书?
通过本实施例,针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题,本申请通过计算多个候选识别结果与知识库中存储的模板的距离,根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,从计算出的匹配分值中确定出最优匹配分值,将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配,得到多个候选识别结果与知识库中的模板的匹配度,由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板,从而解决了语音识别错误对问答系统影响的问题。
参照图2,示出了本申请实施例二中的一种语音识别方法的流程图。
本实施例中,以语音系统为例,对本申请的语音识别方法进行说明。语音系统包括语音识别系统和问答系统两个子系统。其中,用户以口述的形式将问题作为语音输入传给语音识别系统,语音识别系统根据语音输入而输出多个候选识别结果,多个候选识别结果被发送到问答系统。问答系统接收到多个候选识别结果后与系统知识库中的模板进行匹配,得到最接近的匹配模板,进而通过查询知识库中的模板得到输入问题的相应答案。以下具体说明。
具体地,本实施例的一种语音识别方法包括:
步骤201:接收语音识别系统输出的多个候选识别结果。
步骤202:将接收的多个候选识别结果与知识库中存储的模板进行模板匹配。
步骤203:判断接收的多个候选识别结果在知识库中是否匹配到模板。
若多个候选识别结果与知识库中的模板匹配成功,则输出匹配后的识别结果。
若多个候选识别结果与知识库中的模板匹配不成功,则计算多个候选识别结果与知识库中存储的模板的距离。
进一步地,所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括:
通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
通过第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离。
其中,一种单纯的编辑距离公式为:
D(i,j)=D(i-1,j)+1或D(i,j)=D(i,j-1)+1,其中,i为候选识别结果的字符串,j为知识库中存储的字符串。
其中,单纯的编辑距离公式中的删除、插入、替换的算法参数取为1,而本申请中的插入错误的算法参数是通过标准的语音的音素而设置的,插入错误的算法参数一般取值的范围是0-3。
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离。
其中,一种单纯的编辑距离公式为:
D(i,j)=D(i-1,j)+1或D(i,j)=D(i,j-1)+1,其中,i为候选识别结果的字符串,j为知识库中存储的字符串,D(i,j)为候选识别结果的字符串到知识库中存储的字符串的距离。
其中,单纯的编辑距离公式中的删除、插入、替换的惩罚分值取为1,而本申请中的插入错误的算法参数是通过标准的语音的音素而设置的,插入删除错误的算法参数一般取值的范围是0-3。
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果的字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储的模板的距离。
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
进一步地,所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c。
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v。
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v)。(1)
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
进一步地,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
对于语音问答系统,n-best输出的多个候选识别结果中的绝大部分发音和正确发音都具有相似性,我们可以利用这种相似性来规范编辑距离修正公式中的失配分值。即在编辑距离修正公式中,对发音相近的失配词对给以较小的失配分值,对发音相差较大的失配词给以较大的失配分值。
本申请通过混淆矩阵计算多个候选识别结果的音素与知识库中存储模板的标准音素的失配分值。
其中,音素是最小的语音单位,在音质意义上来说每个音素都有自己的发音特色。音素的基元数目较少,汉语标准普通话中有35个音素,如表1所示。
表1汉语音素
辅音基元(22) 元音基元(13)
b,c,ch,d,f,g,h,j,k,l,m,n,ng, aI,a,Ie,eI,eN,e,Ci,Chi,
p,q,r,s,sh,t,x,z,zh Bi,oU,o,u,v
音素对之间具有明显的相似性,这些相似性可以用混淆矩阵M来表示,其中,M(x,y)为第(x,y)个音素x和y的混淆程度。为了能反映语音识别系统对相近发音的混淆规律,可以将语音识别的结果表示为音素串,与该句标准发音的音素串进行对比,可以得到某一音素被识别为另一发音的可能性,其混淆矩阵M(x,y)的公式为:
M(x,y)=P(x|y)=C(x|y)/C(y)(2);
其中,C(y)为标准发音中音素的个数,C(x|y)为多个候选识别结果中标准发音y被识别成音素x的个数,P(x|y)为音素y被识别成音素x的概率。
通过混淆矩阵计算音素的失配分值,所述失配分值其使用的公式为:
d(w,v)=minsΣkM(x,y) (3)
其中,s为x、y的对齐方式,k为基于该对齐方式的x、y的第k个音素,M(x,y)为x、y音素的混淆矩阵,min表示最小值。
进一步地,将公式(2)、公式(3)代入公式(1)获得D(N,M)为字符串i转换为字符串j的编辑距离。
进一步地,所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括:
根据所述距离和多个候选识别结果的信任度,使用贝叶斯公式计算多个候选识别结果的置信分值。
进一步地,所述贝叶斯公式为:
D(O,L)=D(N,M)P(X|O);
其中,O为输入语音,X为多个候选识别结果,P(X|O)为语音识别系统对多个候选识别结果X的信任度,D(N,M)为多个候选识别结果与知识库中存储的模板的距离,D(O,L)为多个候选识别结果的匹配分值。
其中,字符串i转换为字符串j的编辑距离和多个候选识别结果的信任度,使用贝叶斯公式可以得到多个候选识别结果的多个匹配分值,从中选择出最优的匹配分值的候选识别结果与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度。
步骤204:根据所述匹配度,输出匹配后的识别结果。
匹配后的识别结果是指多个候选识别结果与知识库中的模板匹配度最高的识别结果。
综上所述,本申请实施例一种语音识别方法主要包括以下优点:
通过本实施例,针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题,本申请通过计算多个候选识别结果与知识库中存储的模板的距离,根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,从计算出的匹配分值中确定出最优匹配分值,将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配,得到多个候选识别结果与知识库中的模板的匹配度,由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板,从而解决了语音识别错误对问答系统影响的问题。
基于上述方法实施例的说明,本申请还提供了相应的一种语音识别装置的实施例,来实现上述方法实施例所述的内容。
参数图3,示出了本申请实施例三所述的一种语音识别装置,具体可以包括:
接收模块,用于接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句。
计算模块,用于若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离。
匹配模块,用于根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中模板的匹配度;
输出模块,用于根据所述匹配度,输出匹配后的识别结果。
优选地,所述计算模块通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
通过第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
优选地,所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
优选地,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
优选地,匹配模块中所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值包括:
根据所述距离和多个候选识别结果的信任度,使用贝叶斯公式计算候选识别结果的匹配分值。
优选地,所述贝叶斯公式为:D(O,L)=D(N,M)P(X|O);
其中,O为输入语音,X为多个候选识别结果,P(X|O)为语音识别系统对多个候选识别结果X的信任度,D(N,M)为多个候选识别结果与知识库中存储的模板的距离,D(O,L)为多个候选识别结果的匹配分值。
综上所述,本申请实施例一种语音识别装置主要包括以下优点:
通过本实施例,针对语音识别系统输出的候选识别结果易受口音、噪声等影响出现随机错误的问题,本申请通过计算多个候选识别结果与知识库中存储的模板的距离,根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,从计算出的匹配分值中确定出最优匹配分值,将得到的最优匹配分值的多个候选识别结果与知识库中的模板进行模糊匹配,得到多个候选识别结果与知识库中的模板的匹配度,由于知识库中存储的模板是经过大量的收集和校对得到的普遍正确的模板,从而解决了语音识别错误对问答系统影响的问题。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本申请的保护范围。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种语音识别的方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种语音识别的方法,其特征在于,包括:
接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句;
若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;
根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将所述多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中的模板的匹配度;
根据所述匹配度,输出匹配后的识别结果;
所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值的步骤包括:
根据所述距离和多个候选识别结果的信任度,使用贝叶斯公式计算多个候选识别结果的匹配分值。
2.根据权利要求1所述的方法,其特征在于,所述计算多个候选识别结果与知识库中存储的模板的距离的步骤包括:
通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
通过第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
3.根据权利要求2所述的方法,其特征在于,
所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
4.根据权利要求3所述的方法,其特征在于,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
5.根据权利要求1所述的方法,其特征在于,其中,所述贝叶斯公式为:
D(O,L)=D(N,M)P(X|O);
其中,O为输入语音,X为多个候选识别结果,P(X|O)为语音识别系统对多个候选识别结果X的信任度,D(N,M)为多个候选识别结果与知识库中存储的模板的距离,D(O,L)为多个候选识别结果的匹配分值。
6.一种语音识别的装置,其特征在于,包括:
接收模块,用于接收语音识别系统输出的多个候选识别结果,将所述多个候选识别结果分别与知识库中的模板进行匹配,其中,所述知识库包括实体词表和模板,所述实体词表存储实体词,所述模板存储符合正则表达式的书写规则语句;
计算模块,用于若所述多个候选识别结果与知识库中的模板匹配均不成功,则计算多个候选识别结果与知识库中存储的模板的距离;
匹配模块,用于根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值,根据所述匹配分值将多个候选识别结果分别与知识库中的模板进行匹配,得到所述多个候选识别结果与知识库中模板的匹配度;
输出模块,用于根据所述匹配度,输出匹配后的识别结果;
匹配模块中所述根据所述距离和多个候选识别结果的信任度得到多个候选识别结果的匹配分值包括:根据所述距离和多个候选识别结果的信任度,使用贝叶斯公式计算候选识别结果的匹配分值。
7.根据权利要求6所述的装置,其特征在于,所述计算模块通过编辑距离修正公式计算多个候选识别结果与知识库中存储的模板的距离,包括:
第一编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第一距离,其中,所述第一编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和插入错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第二编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第二距离,其中,所述第二编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和删除错误的算法参数得到多个候选识别结果与知识库中存储模板之间的距离;
通过第三编辑距离修正公式,计算多个候选识别结果与知识库中存储的模板的第三距离,其中,所述第三编辑距离修正公式用于根据多个候选识别结果的字符串转换为知识库中存储的模板的字符串的距离和多个候选识别结果字符串的音素与知识库中存储的模板的字符串的标准音素的失配分值得到多个候选识别结果与知识库中存储模板之间的距离;
将所述第一距离、第二距离和第三距离中的最小值确定为所述多个候选识别结果与知识库中存储的模板的距离。
8.根据权利要求7所述的装置,其特征在于,
所述第一编辑距离修正公式为:D(N,M)=D(i-1,j)+c;
所述第二编辑距离修正公式为:D(N,M)=D(i,j-1)+v;
所述第三编辑距离修正公式为:D(N,M)=D(i-1,j-1)+d(w,v);
其中,i为多个候选识别结果的字符串,j为知识库中存储的模板的字符串,c和v为算法参数,c为插入错误失配权重,v为删除错误失配权重,d(w,v)为多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值,D(N,M)为多个候选识别结果与知识库中存储的模板的距离。
9.根据权利要求8所述的装置,其特征在于,所述d(w,v)通过以下方式获得:
根据混淆矩阵计算多个候选识别结果第i-1个字符串的音素与知识库中存储的模板的第j-1个字符串的标准音素的失配分值。
CN201410205944.2A 2014-05-15 2014-05-15 一种语音识别的方法和装置 Active CN104021786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410205944.2A CN104021786B (zh) 2014-05-15 2014-05-15 一种语音识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410205944.2A CN104021786B (zh) 2014-05-15 2014-05-15 一种语音识别的方法和装置

Publications (2)

Publication Number Publication Date
CN104021786A CN104021786A (zh) 2014-09-03
CN104021786B true CN104021786B (zh) 2017-05-24

Family

ID=51438511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410205944.2A Active CN104021786B (zh) 2014-05-15 2014-05-15 一种语音识别的方法和装置

Country Status (1)

Country Link
CN (1) CN104021786B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464736B (zh) * 2014-12-15 2018-02-02 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN105138575B (zh) * 2015-07-29 2017-09-05 百度在线网络技术(北京)有限公司 语音文本串的解析方法和装置
CN105161098A (zh) * 2015-07-31 2015-12-16 北京奇虎科技有限公司 一种交互系统的语音识别方法和装置
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN106203425B (zh) * 2016-07-01 2020-02-04 北京旷视科技有限公司 字符识别方法及装置
CN108399914B (zh) * 2017-02-06 2021-06-22 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN107180634A (zh) * 2017-06-22 2017-09-19 海信集团有限公司 一种语音交互文本的业务定位方法、装置和终端设备
CN107301865B (zh) * 2017-06-22 2020-11-03 海信集团有限公司 一种用于语音输入中确定交互文本的方法和装置
CN108304372B (zh) * 2017-09-29 2021-08-03 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108777142A (zh) * 2018-06-05 2018-11-09 上海木木机器人技术有限公司 一种基于机场环境的语音交互识别方法及语音交互机器人
CN109785825B (zh) * 2018-12-29 2021-07-30 长虹美菱日电科技有限公司 一种语音识别的算法及储存介质、应用其的电器
CN110111784A (zh) * 2019-04-11 2019-08-09 苏宁云计算有限公司 一种夜间无人店的顾客远程协助的处理方法及系统
CN110349312B (zh) * 2019-07-09 2021-09-17 江苏万贝科技有限公司 一种基于家居的智能猫眼语音提醒识别系统及其方法
CN110931014A (zh) * 2019-12-13 2020-03-27 集奥聚合(北京)人工智能科技有限公司 基于正则匹配规则的语音识别方法及装置
CN113539253B (zh) * 2020-09-18 2024-05-14 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置
CN112820294A (zh) * 2021-01-06 2021-05-18 镁佳(北京)科技有限公司 语音识别方法、装置、存储介质及电子设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732394A (en) * 1995-06-19 1998-03-24 Nippon Telegraph And Telephone Corporation Method and apparatus for word speech recognition by pattern matching
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN1729511A (zh) * 2002-12-18 2006-02-01 摩托罗拉公司 用于显示语音识别结果的方法和设备
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
CN1889170A (zh) * 2005-06-28 2007-01-03 国际商业机器公司 基于录制的语音模板生成合成语音的方法和系统
CN101075434A (zh) * 2006-05-18 2007-11-21 富士通株式会社 语音识别装置及存储语音识别程序的记录介质
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN101425008A (zh) * 2007-11-01 2009-05-06 北京航空航天大学 基于编辑距离的源代码相似度度量方法
CN101464896A (zh) * 2009-01-23 2009-06-24 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
CN101577118A (zh) * 2009-06-12 2009-11-11 北京大学 面向智能服务机器人的语音交互系统的实现方法
DE102008062923A1 (de) * 2008-12-23 2010-06-24 Volkswagen Ag Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103578469A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种展示语音识别结果的方法及装置
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242292A (ja) * 1999-02-19 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732394A (en) * 1995-06-19 1998-03-24 Nippon Telegraph And Telephone Corporation Method and apparatus for word speech recognition by pattern matching
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
CN1729511A (zh) * 2002-12-18 2006-02-01 摩托罗拉公司 用于显示语音识别结果的方法和设备
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN1889170A (zh) * 2005-06-28 2007-01-03 国际商业机器公司 基于录制的语音模板生成合成语音的方法和系统
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
CN101075434A (zh) * 2006-05-18 2007-11-21 富士通株式会社 语音识别装置及存储语音识别程序的记录介质
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN101425008A (zh) * 2007-11-01 2009-05-06 北京航空航天大学 基于编辑距离的源代码相似度度量方法
DE102008062923A1 (de) * 2008-12-23 2010-06-24 Volkswagen Ag Verfahren und Vorrichtung zur Erzeugung einer Trefferliste bei einer automatischen Spracherkennung
CN101464896A (zh) * 2009-01-23 2009-06-24 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
CN101577118A (zh) * 2009-06-12 2009-11-11 北京大学 面向智能服务机器人的语音交互系统的实现方法
CN102013253A (zh) * 2009-09-07 2011-04-13 株式会社东芝 基于语音单元语速的差异的语音识别方法及语音识别系统
CN103578469A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种展示语音识别结果的方法及装置
CN103049433A (zh) * 2012-12-11 2013-04-17 微梦创科网络科技(中国)有限公司 自动问答方法、自动问答系统及构建问答实例库的方法
CN103677729A (zh) * 2013-12-18 2014-03-26 北京搜狗科技发展有限公司 一种语音输入方法和系统
CN103794214A (zh) * 2014-03-07 2014-05-14 联想(北京)有限公司 一种信息处理方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《一种有效的编辑距离和编辑路径求解技术》;邹旭楷;《小型微型计算机系统》;19960731;第17卷(第7期);第72-76页 *
《人知交互中用户隐式知识需求分析研究》;丰强泽;《中国博士学位论文全文数据库 信息科技辑》;20070215(第02期);全文 *
《语音关键词检索若干问题的研究》;李宝祥;《中国博士学位论文全文数据库 信息科技辑》;20140115(第01期);全文 *

Also Published As

Publication number Publication date
CN104021786A (zh) 2014-09-03

Similar Documents

Publication Publication Date Title
CN104021786B (zh) 一种语音识别的方法和装置
CN106997376B (zh) 一种基于多级特征的问题和答案句子相似度计算方法
CN107291783B (zh) 一种语义匹配方法及智能设备
CN103971686B (zh) 自动语音识别方法和系统
CN111862977B (zh) 一种语音对话处理方法和系统
US20170206897A1 (en) Analyzing textual data
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
WO2020143163A1 (zh) 基于注意力机制的命名实体识别方法、装置和计算机设备
CN114830148A (zh) 可控制有基准的文本生成
CN111209740B (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN110866100B (zh) 一种话术泛化方法、装置及电子设备
CN108536670A (zh) 输出语句生成装置、方法和程序
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
KR20180062003A (ko) 음성 인식 오류 교정 방법
CN110021293A (zh) 语音识别方法及装置、可读存储介质
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN110335608A (zh) 声纹验证方法、装置、设备及存储介质
CN111883137A (zh) 基于语音识别的文本处理方法及装置
WO2023040493A1 (zh) 事件检测
CN103903615B (zh) 一种信息处理方法及电子设备
CN110489727B (zh) 人名识别方法及相关装置
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN112151019A (zh) 文本处理方法、装置及计算设备
US9110880B1 (en) Acoustically informed pruning for language modeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant