CN103456297B - 一种语音识别匹配的方法和设备 - Google Patents

一种语音识别匹配的方法和设备 Download PDF

Info

Publication number
CN103456297B
CN103456297B CN201210171583.5A CN201210171583A CN103456297B CN 103456297 B CN103456297 B CN 103456297B CN 201210171583 A CN201210171583 A CN 201210171583A CN 103456297 B CN103456297 B CN 103456297B
Authority
CN
China
Prior art keywords
character information
field
similarity
determined
found out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210171583.5A
Other languages
English (en)
Other versions
CN103456297A (zh
Inventor
翁玮文
黄晓庆
刘琨
焦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201210171583.5A priority Critical patent/CN103456297B/zh
Priority to PCT/CN2013/074933 priority patent/WO2013178002A1/zh
Publication of CN103456297A publication Critical patent/CN103456297A/zh
Application granted granted Critical
Publication of CN103456297B publication Critical patent/CN103456297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种语音识别匹配的方法和设备,其主要内容包括:在确定语音信息转化得到的拼音形式的字符信息后,根据模糊匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,对转化得到的字符信息根据拼音进行模糊匹配,将现有技术中采用单一的完全匹配策略扩展至对转化得到的拼音形式的字符信息根据拼音进行模糊匹配,有效地增加了对转化得到的字符信息的语音识别率,进而提高了语音识别技术的效率。

Description

一种语音识别匹配的方法和设备
技术领域
本发明涉及计算机科学中人工智能技术领域,尤其涉及一种语音识别匹配的方法和设备。
背景技术
语音不仅是人类之间信息交流最自然、最有效、最方便的工具,而且也成为人与机器之间进行通信的重要工具。
随着科学技术的不断发展,人工智能作为计算机科学的分支,致力于研发一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等,其中,语音识别作为一个分支,以语音为研究对象,其目标是将人类的语音中的词汇内容转换为计算机可执行的输入符号进而实现语音识别。
以移动终端根据用户的语音指令,查找移动终端中存储的联系人电话号码信息为例,说明现有技术中语音识别技术的应用。
第一步:接收用户发出的包含联系人姓名的语音指令,并根据语音指令转化后的语音信号确定该语音指令对应的拼音信息。
第二步:根据拼音信息的完全匹配算法,从存储的联系人电话号码中确定该拼音信息对应的联系人姓名。
所述完全匹配算法是指将接收到的拼音信息与本地存储的拼音信息进行比较,确定接收到的拼音信息与本地存储的拼音信息是否完全一致。
具体地,利用拼音信息的完全匹配算法,将接收到的拼音信息与本地存储的拼音信息进行比较,当比较结果为接收到的拼音信息与本地存储的拼音信息完全一致时,根据本地建立的拼音信息与联系人姓名之间的对应关系,将确定与接收到的拼音信息完全一致的本地存储的拼音信息对应的联系人姓名。
第三步:根据本地存储的联系人姓名和电话号码之间的对应关系,得到接收到的语音指令对应的联系人的电话号码信息。
由于中文自身的特殊性以及不同的地方方言的多样性,不同地方的用户针对同一中文词汇发出的语音指令也存在差异,在语音识别服务器将语音指令转化为拼音信息过程中,并不能考虑到发出该语音指令的用户的口音特性,简单的依据本地存储的大词汇表进行语音到拼音的转化,使得转化后的拼音相对于接收到的语音指令存在误差,而后再简单的根据拼音信息之间的对应关系确定联系人姓名,将使得语音识别率大大降低。
由此可见,在现有技术中,语音识别技术中存在语音识别率较低的问题。
发明内容
本发明实施例提供了一种语音识别匹配的方法和设备,用于解决目前语音识别技术中存在的语音识别率较低的问题。
一种语音识别匹配的方法,所述方法包括:
确定语音信息转化得到的拼音形式的字符信息;
根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息。
一种语音识别匹配设备,所述设备包括:
确定模块,用于确定语音信息转化得到的拼音形式的字符信息;
模糊匹配模块,用于根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息。
本发明有益效果如下:
本发明实施例在确定语音信息转化得到的拼音形式的字符信息后,根据模糊匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,对转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息,将现有技术中采用单一的完全匹配策略扩展至对转化得到的拼音形式的字符信息根据拼音进行模糊匹配,有效地增加了对转化得到的字符信息的语音识别率,进而提高了语音识别技术的效率。
附图说明
图1为本发明实施例一的一种语音识别匹配的方法的流程图;
图2为模糊完全匹配策略的流程图;
图3为部分模糊匹配策略的流程示意图;
图4为本发明实施例二的一种语音识别匹配的方法的流程图;
图5为本发明实施例三的一种语音识别匹配设备的结构示意图。
具体实施方式
为了实现本发明的目的,本发明实施例提供了一种语音识别匹配的方法和设备,确定语音信息转化得到的拼音形式的字符信息,并根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息。
与现有技术相比,在确定语音信息转化得到的拼音形式的字符信息后,根据模糊匹配策略,从本地数据库中存储的以拼音和汉字形式的字符信息中,对转化得到的字符信息根据拼音进行模糊匹配,将现有技术中采用单一的完全匹配策略扩展至对转化得到的拼音形式的字符信息根据拼音进行模糊匹配,有效地增加了对转化得到的字符信息的语音识别率,进而提高了语音识别技术的效率。
下面结合说明书附图对本发明各实施例进行详细描述。
实施例一:
如图1所示,为本发明实施例一的一种语音识别匹配的方法的流程图。该方法包括:
步骤101:确定语音信息转化得到的拼音形式的字符信息。
在步骤101中,用户向可识别语音信息的终端发出语音信息,终端在接收到该语音信息时,可以自身对该语音信息进行解析,确定该语音信息转化得到的拼音形式的字符信息;还可以将接收到的语音信息上传至语音识别服务器,由语音识别服务器对接收到的该语音信息进行解析,并将确定的语音信息转化得到的拼音形式的字符信息发送给终端。
所述语音信息中包含了联系人信息和/或当前待执行操作信息,例如:一条语音信息为:给张三打电话,其中,张三属于联系人信息;“打电话”属于当前待执行操作信息。再例如一条语音信息为:去中关村广场,其中,中关村属于类似联系人信息;“去”属于当前执行操作信息。
需要说明的是,所述语音信息可以是语音指令形式的信息,这里不做具体限定。
具体地,终端和/或语音识别服务器对接收到的语音信息进行解析,初步识别该语音信息,将其中表示联系人信息的语音信息转化为拼音形式的字符信息。
由于用户之间发音存在差别,以及汉语中一些文字在不同地区发音存在差异,因此,语音识别服务器对接收到的语音信息进行解析时,只能根据预先设定的声音模型对接收到的语音信息进行解析,存在将语音信息转化得到的拼音形式的字符信息与用户发出的语音信息不完全一致的情况,可能还存在采集的语音信息是不完整的,因此,在这里将由语音信息转化得到的拼音形式的字符信息看作是模糊的字符信息,即不确定的字符信息。
步骤102:根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息。
在步骤102中,根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配的方式有两种:一种方式是模糊完全匹配;另一种方式是部分模糊匹配。
第一种方式:模糊完全匹配,如图2所示,为模糊完全匹配策略的流程图,具体包括:
步骤11:根据确定的字符信息的字段数量,从本地数据库中查找出相同字段数量的拼音形式的字符信息。
所述字段是指拼音形式的字符信息中能唯一确定一个汉字形式的字符信息,例如:“dong”确定一个汉字“东”或者发相同音的其他汉字,此时,“dong”被看作是拼音形式的字符信息中的一个字段。
所述字段数量是指确定的字符信息中包含字的个数,例如:“dong xi nanbei”是确定的字符信息,其中,“dong”确定一个汉字;“xi”确定一个汉字;“nan”确定一个汉字;“bei”确定一个汉字;因此,该确定的字符信息中的字段数量为4。
具体地,根据确定的字符信息的字段数量,从本地数据库中查找具有相同字段数量的拼音形式的字符信息。例如,查找具有4个字段数量的拼音形式的字符信息。
步骤12:将确定的字符信息分别与查找出的字符信息进行相似度运算,从查找出的字符信息中,确定相似度满足第一阈值条件的字符信息。
其中,将确定的字符信息分别与查找出的字符信息进行相似度运算的具体方式为:
第一步:将确定的字符信息中的每个字段与一个查找出的字符信息中的相应字段进行以下操作,直至获得确定的字符信息中每个字段与查找出的字符信息中的相应字段的相似度:
首先:判断确定的字符信息中的一个字段是否与查找出的字符信息中的相应字段是否在预设的拼音对列表中。
所述预设的拼音对列表是指:中文拼音依据声韵母区分准则差别较大但发音特性相近或依据声韵母区分准则差别较小但发音差别很大的例外情况。例如:声母l、r通常认为比较相近,但是当它们带上韵母i时,ri和li的发音差别就很大,因此{ri,li}属于一组拼音对,存储在拼音对列表中,其相似度较小,对应一个相似度值;另外,hui和fei其无论声母还是韵母都不相同,但发音却很相近,因此{hui,fei}也属于一组拼音对,存储在拼音对列表中,其相似度较大,对应一个相似度值。
其次:若判断结果为是,则根据拼音对列表中为预设的拼音对设定的相似度,将该设定的相似度作为该字段与查找出的字符信息中的相应字段之间的相似度;
若判断结果为否,则分离该字段的声母和韵母,分别确定该字段与查找出的字符信息中的字段的声母相似度和韵母相似度,并得到该字段与查找出的字符信息中的相应字段之间的相似度。
其中,所述相应字段是指确定的字符信息中的一个字段在确定的字符信息中的位置与一个查找出的字符信息中的一个字段在查找出的字符信息中的位置一一对应,例如:“dongxi”和“tongshi”,其中,“dong”和“tong”是字符信息中互为相应的字段,“dong”和“shi”不是字符信息中互为相应的字段。
所述为预设的拼音对列表设定的相似度是指根据实践中无法依据声母韵母区分准则只能依据读音确定某两个发音接近或相远的拼音之间的相似度,通过量化的数据表示,以表格的形式存储在本地,也可以通过概率的方式确定相似度,即确定某两个发音接近的拼音出错的概率。
例如:确定的字符信息中的一个字段为“hui”,查找出的字符信息中的相应字段为“fei”,根据本地存储的拼音对列表中为预设的拼音对设定的相似度表,查找并确定“hui”与“fei”之间的相似度。
较优地,在分离该字段的声母和韵母之前,对确定的字符信息进行预处理,将其中包含的无法识别的拼音转化成可识别的拼音。例如:电脑拼音中经常用u和v指代汉语拼音中的ü,如lv(吕),yuan(元),为了处理方便,统一将ü对应成v,特殊地,在声母分别为j、q、x和y时,韵母中包含ü时,将u转换为v。
分别分离确定的字符信息中每一个字段的声母和韵母与查找的字符信息中相应字段的声母和韵母,并根据本地存储的声母相似度表和韵母相似度表,分别确定该字段与查找出的字符信息中的字段的声母相似度和韵母相似度,并将确定的声母相似度和韵母相似度进行综合评估,得到该字段与查找出的字符信息中的相应字段之间的相似度。
所述综合评估的方式为可以进行加权求和得到综合相似度,也可以根据确定的声母相似度与韵母相似度之间的大小关系,确定综合评估结果:当确定的声母相似度与韵母相似度都属于相似度较高或至少有一项相似度较高时,则将声母相似度与韵母相似度进行加法运算得到综合评估结果;当确定的声母相似度与韵母相似度都较低时,则将声母相似度与韵母相似度进行加法运算同时加上一个加权因子得到综合评估结果。
假如相似度的取值范围是0~1时,大于0.6的为相似度较高,小于0.4为相似度较低。
第二步:在获得确定的字符信息中每个字段与查找出的字符信息中的相应字段的相似度后,根据各字段间的相似度,确定字符信息间的相似度。
具体地,在获得确定的字符信息中每个字段与一个查找出的字符信息中的相应字符的相似度后,将得到的各字段间的相似度进行相似度的综合计算,得到确定的字符信息与一个查找出的字符信息之间的相似度。
第三步:从查找出的字符信息中,确定相似度满足第一阈值条件的字符信息。
具体地,所述第一阈值条件是指相似度达到设定的阈值。其中,设定的阈值可根据实践采集的数据确定,也可以根据语音模型的概率值确定,具体不做限定。
根据上述步骤得到的确定的字符信息与至少一个查找出的字符信息之间的相似度与第一阈值条件进行比较,当得到的相似度满足第一阈值条件时,确定相似度满足第一阈值条件的查找出的字符信息;当得到的相似度都不满足第一阈值条件时,可以继续第二种部分模糊匹配或者返回查找失败结果。
步骤13:将所述相似度满足第一阈值条件的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
第二种方式:部分模糊匹配,如图3所示,为部分模糊匹配策略的流程示意图,具体包括:
步骤21:根据确定的字符信息中的字段数量,从本地数据库中查找出不等于(大于或小于)所述字段数量的拼音形式的字符信息,当查找出的字符信息的字段数量大于确定的字符信息的字段数量时,执行步骤22;当查找出的字符信息的字段数量小于确定的字符信息的字段数量时,执行步骤24。
在本步中,若查找的字符信息的字段数量大于确定的字符信息中的字段数量,即假设确定的字符信息中的字段数量为4,那么从本地数据库中查找字段数量大于4或者小于4的拼音形式的字符信息。
步骤22:当查找出的字符信息的字段数量大于确定的字符信息的字段数量时,分别对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同。
具体地,针对查找出的每一个大于所述字段数量的拼音形式的字符信息,执行以下操作:
首先,将每一个查找出的字符信息进行拆分,其中,拆分的原则是同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同。
例如:确定的字符信息为“yong tao”,查找出的一个字符信息为“zhang yongtao”,将对查找出该字符信息进行拆分,拆分结果为:“zhangyong”、“zhangtao”和“yongtao”三个分词。
其次,针对查找出的字符信息拆分后的分词,确定查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度。
仍以确定的字符信息为“yong tao”,查找出的一个字符信息为“zhang yongtao”,将对查找出该字符信息进行拆分,拆分结果为:“zhangyong”、“zhangtao”和“yongtao”三个分词为例,此时,
将“zhangyong”与“yong tao”进行相似度运算,确定“zhangyong”的相似度A1;
将“zhangtao”与“yong tao”进行相似度运算,确定“zhangtao”的相似度A2;
将“yongtao”与“yong tao”进行相似度运算,确定“yongtao”的相似度A3。
由于拆分后得到的每一个分词只是查找到的字符信息的一部分,因此,将拆分后的每一个分词与确定的字符信息进行相似度运算,得到拆分后每一个分词的相似度,从中选出相似度最高的一个分词的相似度作为查找出的字符信息与确定的字符信息的相似度。
为了提高识别的精度,还可以依据查找出的字符信息的字段数量与确定的字符信息的字段数量之间差的数值大小选定一个加权系数,则查找出的字符信息与确定的字符信息的相似度通过拆分后每一个分词的相似度的进行加权运算得到。
所述加权系数确定的规则为:若查找出的字符信息的字段数量与确定的字符信息的字段数量之间差的数值越小,加权系数越小,若查找出的字符信息的字段数量与确定的字符信息的字段数量之间差的数值越大,则加权系数越大。
假设“zhangyong”、“zhangtao”和“yongtao”三个分词与确定的字符信息的相似度为A1、A2和A3,则“zhangyongtao”与确定的字符信息的最终相似度为min{A1,A2,A3}*加权系数。
步骤23:若查找出的字符信息拆分后的分词与确定的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
具体地,根据确定查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度,得到该查找出的字符信息与确定的字符信息的相似度,将得到的相似度与第二阈值条件进行比较,当得到的相似度满足第二阈值条件时,确定相似度满足第二阈值条件的查找出的字符信息,并将该查找出的字符信息转换为汉字形式,将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息;当得到的相似度都不满足第二阈值条件时,返回查找失败结果,指示重新输入语音信息。
需要说明的是,所述第二阈值条件是指相似度达到设定的阈值。其中,设定的阈值可根据实践采集的数据确定,也可以根据语音模型的概率值确定,具体不做限定。第一阈值条件与第二阈值条件中的“第一”和“第二”没有什么特别意义,只表示这是两个不同的阈值。
较优地,根据确定查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度,判断查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度是否都大于设定的门限值,若是,则确定大于设定的门限值的查找出的字符信息,并将该查找出的字符信息转换为汉字形式,将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息;否则,返回查找失败结果,指示重新输入语音信息。
所述设定的门限值是指相似度达到设定的数值。其中,设定的门限值可根据实践采集的数据确定,也可以根据语音模型的概率值确定,具体不做限定。
假设根据确定查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度,得到该查找出的字符信息与确定的字符信息的相似度,其中,存在两个查找出的字符信息与确定的字符信息的相似度相同,此时,将查找出的字符信息中拆分得到的分词个数较少的字符信息优先进行比较。
步骤24:当查找出的字符信息字段数量小于确定的字符信息字段数量时,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同。
本步骤24的具体实施方式与步骤22的相同,这里不再做具体描述。
步骤25:若确定的字符信息拆分后的分词与查找出的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
本步骤25的具体实施方式与步骤23的相同,这里不再做具体描述。
需要说明的是,模糊完全匹配方式和部分模糊匹配方式可以是递进的关系,在通过模糊完全匹配方式没有确定出相匹配的字符信息时,继续通过部分模糊匹配方式进行字符信息匹配操作;模糊完全匹配方式和部分模糊匹配方式还可以是并列的关系,在为某语音信息转化得到的拼音形式的字符信息确定相应的汉字形式的字符信息时,选择其中一种方式进行匹配操作。
通过实施例一的方案,在确定语音信息转化得到的拼音形式的字符信息后,采用了模糊完全匹配和/或部分模糊匹配的方式,从本地数据库中查找与其匹配的汉字形式的字符信息;在利用模糊完全匹配方式进行模糊匹配时,不仅考虑到声母和韵母的相似度,还考虑到中文语音中一些特殊字母在日常生活中存在的发音的相似性,通过这样的模糊完全匹配方式进行语音识别,提高了语音识别的识别率,并且增强了由拼音形式的字符信息确定汉字形式的字符信息的准确性。
实施例二:
如图4所示,为本发明实施例二的一种语音识别匹配的方法的流程图。本实施例二是实施例一中各步骤的详细描述,该方法具体包括:
步骤201:确定语音信息转化得到的拼音形式的字符信息。
步骤202:判断是否能够对确定的字符信息进行完全匹配操作,若是,则返回确定的字符信息对应的汉字形式的字符信息;否则,执行步骤203。
在本步骤202中,将本地数据库中包含的所有的以拼音和汉字形式的字符信息,与转化得到的字符信息进行比较,确定本地数据库中是否存在字符信息与转化得到的字符信息一一对应,当存在完全匹配的字符信息时,将满足一一对应关系的本地数据库中的拼音形式的字符信息对应的汉字形式的字符信息作为确定的字符信息对应的汉字形式的字符信息,返回给用户进行查看。
步骤203:判断是否能够对确定的字符信息进行部分完全匹配操作,若是,则返回确定的字符信息对应的汉字形式的字符信息,若否,执行步骤204。
其中,所述部分完全匹配操作包括:
根据确定的字符信息的字段数量,从本地数据库中查找出与所述字段数量不同的拼音形式的字符信息;
若查找出的字符信息字段数量大于确定的字符信息字段数量,则对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同,并确定查找出的字符信息拆分后的分词与确定的字符信息之间的相似度;
若查找出的字符信息字段数量小于确定的字符信息字段数量,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同,并确定查找出的字符信息与确定的字符信息拆分后的分词之间的相似度。
根据确定查找出的字符信息拆分后的每一个分词与确定的字符信息之间的相似度或者查找出的字符信息与确定的字符信息拆分后的分词之间的相似度,得到该查找出的字符信息与确定的字符信息的相似度,将得到的相似度与第三阈值条件进行比较,当得到的相似度满足第三阈值条件时,确定相似度满足第三阈值条件的查找出的字符信息,并将该查找出的字符信息转换为汉字形式,将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息;当得到的相似度都不满足第三阈值条件时,执行步骤204。
需要说明的是,所述第三阈值条件是指相似度达到设定的阈值。其中,设定的阈值可根据实践采集的数据确定,也可以根据语音模型的概率值确定,具体不做限定。第一阈值条件、第二阈值条件和第二阈值条件中的“第一”、“第二”和“第三”没有什么特别意义,只表示这是三个不同的阈值。
步骤204:判断是否能够对确定的字符信息进行模糊完全匹配操作,若是,则返回确定的字符信息对应的汉字形式的字符信息,若否,执行步骤205。
其中,模糊完全匹配操作的具体实现方式见实施例一图2对应的文字部分,这里不再做具体描述。
需要说明的是,在本实施方案中,除了上述实施顺序外,步骤203与步骤204还可以是同时执行的,若步骤203和204同时执行,则返回满足第二阈值条件字符信息对应的汉字形式的字符信息和满足第三阈值条件的字符信息对应的汉字形式的字符信息。
步骤205:判断是否能够对确定的字符信息进行部分模糊匹配操作,若是,则返回确定的字符信息对应的汉字形式的字符信息,若否,返回匹配失败消息,指示重新发送语音信息。
其中,部分模糊匹配操作的具体实现方式见实施例一图3对应的文字部分,这里不再做具体描述。
实施例三:
如图5所示,为本发明实施例三的一种语音识别匹配设备的结构示意图。所述语音识别匹配设备包括:确定模块31和模糊匹配模块32,其中:
确定模块31,用于确定语音信息转化得到的拼音形式的字符信息;
模糊匹配模块32,用于根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息。
所述模糊匹配模块32,具体包括:第一字符信息查找单元41、相似度计算单元42和第一匹配结果确定单元43,其中:
第一字符信息查找单元41,用于根据确定的字符信息中的字段数量,从本地数据库中查找出相同字段数量的拼音形式的字符信息;
相似度计算单元42,用于将确定的字符信息分别与查找出的字符信息进行相似度运算,从查找出的字符信息中,确定相似度满足第一阈值条件的字符信息;
第一匹配结果确定单元43,用于将所述相似度满足第一阈值条件的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
所述相似度计算单元42,具体用于将确定的字符信息中的每个字段与一个查找出的字符信息中的字段进行以下操作,直至获得确定的字符信息中每个字段与查找出的字符信息中的字段的相似度:
判断确定的字符信息中的一个字段与查找出的字符信息中的相应字段是否在预设的拼音对列表中;
若是,则根据拼音对列表为预设的拼音对设定的相似度,将该设定的相似度作为该字段与查找出的字符信息中的相应字段之间的相似度;
若否,则分离该字段的声母和韵母,分别确定该字段与查找出的字符信息中的字段的声母相似度和韵母相似度,并得到该字段与查找出的字符信息中的相应字段之间的相似度;
在获得确定的字符信息中每个字段与查找出的字符信息中的字段的相似度后,根据各字段间的相似度,确定字符信息间的相似度。
所述模糊匹配模块32,还包括:第二字符信息查找单元44、拆分单元45和第二匹配结果确定单元46,其中:
第二字符信息查找单元44,用于根据确定的字符信息中的字段数量,从本地数据库中查找出与所述字段数量不同的拼音形式的字符信息;
拆分单元45,用于当查找出的字符信息字段数量大于确定的字符信息字段数量时,则对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同,以及当查找出的字符信息字段数量小于确定的字符信息字段数量,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同;
第二匹配结果确定单元46,用于当查找出的字符信息字段数量大于确定的字符信息字段数量时,若查找出的字符信息拆分后的分词与确定的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息,以及当查找出的字符信息字段数量小于确定的字符信息字段数量时,若确定的字符信息拆分后的分词与查找中的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
所述设备还包括:第一判断模块33和第二判断模块34,其中:
第一判断模块33,用于在为转化得到的字符信息进行模糊匹配之前,判断是否能够对确定的字符信息进行完全匹配操作;
第二判断模块34,用于在第一判断模块的判断结果为否时,进一步判断是否能够对确定的字符信息进行部分完全匹配操作,若否,则触发模糊匹配模块12。
较优地,第二判断模块34,用于在第一判断模块的判断结果为否时,触发模糊匹配模块32,同时,执行对确定的字符信息进行部分完全匹配操作。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种语音识别匹配的方法,其特征在于,所述方法包括:
确定语音信息转化得到的拼音形式的字符信息;
根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息;
其中,为转化得到的字符信息进行模糊匹配,具体包括:
根据确定的字符信息的字段数量,从本地数据库中查找出与所述字段数量不同的拼音形式的字符信息;
当查找出的字符信息的字段数量大于确定的字符信息的字段数量时,则对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同,若查找出的字符信息拆分后的分词与确定的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息;
当查找出的字符信息字段数量小于确定的字符信息字段数量时,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同,若确定的字符信息拆分后的分词与查找出的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
2.如权利要求1所述的语音识别匹配的方法,其特征在于,为转化得到的字符信息进行模糊匹配,具体还包括:
根据确定的字符信息的字段数量,从本地数据库中查找出相同字段数量的拼音形式的字符信息;
将确定的字符信息分别与查找出的字符信息进行相似度运算,从查找出的字符信息中,确定相似度满足第一阈值条件的字符信息;
将所述相似度满足第一阈值条件的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
3.如权利要求2所述的语音识别匹配的方法,其特征在于,将确定的拼音形式的字符信息分别与查找出的字符信息进行相似度运算,具体包括:
将确定的字符信息中的每个字段与一个查找出的字符信息中的相应字段进行以下操作,直至获得确定的字符信息中每个字段与查找出的字符信息中的相应字段的相似度:
判断确定的字符信息中的一个字段与查找出的字符信息中的相应字段是否在预设的拼音对列表中;
若是,则根据拼音对列表中为预设的拼音对设定的相似度,将该设定的相似度作为该字段与查找出的字符信息中的相应字段之间的相似度;
若否,则分离该字段的声母和韵母,分别确定该字段与查找出的字符信息中的字段的声母相似度和韵母相似度,并得到该字段与查找出的字符信息中的相应字段之间的相似度;
在获得确定的字符信息中每个字段与查找出的字符信息中的相应字段的相似度后,根据各字段间的相似度,确定字符信息间的相似度。
4.如权利要求1所述的语音识别匹配的方法,其特征在于,为转化得到的字符信息进行模糊匹配之前,所述方法还包括:
判断是否能够对确定的字符信息进行完全匹配操作;
若否,则进一步判断是否能够对确定的字符信息进行部分完全匹配操作,若否,则执行对确定的字符信息进行模糊匹配操作。
5.如权利要求4所述的语音识别匹配的方法,其特征在于,所述部分完全匹配操作包括:
根据确定的字符信息的字段数量,从本地数据库中查找出与所述字段数量不同的拼音形式的字符信息;
若查找出的字符信息字段数量大于确定的字符信息字段数量,则对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同,并确定查找出的字符信息拆分后的分词与确定的字符信息之间的相似度;
若查找出的字符信息字段数量小于确定的字符信息字段数量,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同,并确定查找出的字符信息与确定的字符信息拆分后的分词之间的相似度。
6.一种语音识别匹配设备,其特征在于,所述设备包括:
确定模块,用于确定语音信息转化得到的拼音形式的字符信息;
模糊匹配模块,用于根据模糊拼音匹配策略,从本地数据库中以拼音和汉字形式存储的字符信息中,为转化得到的字符信息根据拼音进行模糊匹配,得到本地数据库中与转化后的字符信息匹配的汉字形式的字符信息;
其中,所述模糊匹配模块,包括:
第二字符信息查找单元,用于根据确定的字符信息中的字段数量,从本地数据库中查找出与所述字段数量不同的拼音形式的字符信息;
拆分单元,用于当查找出的字符信息字段数量大于确定的字符信息字段数量时,则对查找出的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与确定的字符信息中的字段数量相同,以及当查找出的字符信息字段数量小于确定的字符信息字段数量,则对确定的字符信息进行拆分,其中,同一字符信息拆分后的每个分词内容不相同,且分词中的字段数量与查找出的字符信息中的字段数量相同;
第二匹配结果确定单元,用于当查找出的字符信息字段数量大于确定的字符信息字段数量时,若查找出的字符信息拆分后的分词与确定的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息,以及当查找出的字符信息字段数量小于确定的字符信息字段数量时,若确定的字符信息拆分后的分词与查找中的字符信息之间的相似度满足第二阈值条件,则将该查找出的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
7.如权利要求6所述的语音识别匹配设备,其特征在于,所述模糊匹配模块,具体还包括:
第一字符信息查找单元,用于根据确定的字符信息中的字段数量,从本地数据库中查找出相同字段数量的拼音形式的字符信息;
相似度计算单元,用于将确定的字符信息分别与查找出的字符信息进行相似度运算,从查找出的字符信息中,确定相似度满足第一阈值条件的字符信息;
第一匹配结果确定单元,用于将所述相似度满足第一阈值条件的字符信息转换为汉字形式,并将该汉字形式的字符信息作为所述匹配的汉字形式的字符信息。
8.如权利要求7所述的语音识别匹配设备,其特征在于,
所述相似度计算单元,具体用于将确定的字符信息中的每个字段与一个查找出的字符信息中的相应字段进行以下操作,直至获得确定的字符信息中每个字段与查找出的字符信息中的字段的相似度:
判断确定的字符信息中的一个字段与查找出的字符信息中的相应字段是否在预设的拼音对列表中;
若是,则根据拼音对列表为预设的拼音对设定的相似度,将该设定的相似度作为该字段与查找出的字符信息中的相应字段之间的相似度;
若否,则分离该字段的声母和韵母,分别确定该字段与查找出的字符信息中的字段的声母相似度和韵母相似度,并得到该字段与查找出的字符信息中的相应字段之间的相似度;
在获得确定的字符信息中每个字段与查找出的字符信息中的字段的相似度后,根据各字段间的相似度,确定字符信息间的相似度。
9.如权利要求6所述的语音识别匹配设备,其特征在于,所述设备还包括:第一判断模块和第二判断模块,其中:
第一判断模块,用于在为转化得到的字符信息进行模糊匹配之前,判断是否能够对确定的字符信息进行完全匹配操作;
第二判断模块,用于在第一判断模块的判断结果为否时,判断是否能够对确定的字符信息进行部分完全匹配操作,若否,则触发模糊匹配模块。
CN201210171583.5A 2012-05-29 2012-05-29 一种语音识别匹配的方法和设备 Active CN103456297B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210171583.5A CN103456297B (zh) 2012-05-29 2012-05-29 一种语音识别匹配的方法和设备
PCT/CN2013/074933 WO2013178002A1 (zh) 2012-05-29 2013-04-28 一种语音识别匹配的方法和设备,以及计算机程序和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210171583.5A CN103456297B (zh) 2012-05-29 2012-05-29 一种语音识别匹配的方法和设备

Publications (2)

Publication Number Publication Date
CN103456297A CN103456297A (zh) 2013-12-18
CN103456297B true CN103456297B (zh) 2015-10-07

Family

ID=49672387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210171583.5A Active CN103456297B (zh) 2012-05-29 2012-05-29 一种语音识别匹配的方法和设备

Country Status (2)

Country Link
CN (1) CN103456297B (zh)
WO (1) WO2013178002A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187656B (zh) * 2015-09-23 2018-09-07 百度在线网络技术(北京)有限公司 通讯录联系人匹配方法和装置
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN106021504A (zh) * 2016-05-20 2016-10-12 深圳Tcl数字技术有限公司 字符串模糊匹配方法及装置
CN106297799A (zh) * 2016-08-09 2017-01-04 乐视控股(北京)有限公司 语音识别处理方法及装置
CN106653031A (zh) * 2016-10-17 2017-05-10 海信集团有限公司 语音唤醒方法及语音交互装置
CN106548777B (zh) * 2016-11-25 2020-11-10 北京光年无限科技有限公司 一种用于智能机器人的数据处理方法及装置
CN106710585B (zh) * 2016-12-22 2019-11-08 云知声(上海)智能科技有限公司 语音交互过程中的多音字播报方法及系统
CN107274894A (zh) * 2017-05-19 2017-10-20 杭州仁盈科技股份有限公司 一种提高嘈杂环境下语音识别率的方法
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107562907B (zh) * 2017-09-11 2020-10-02 武汉科技大学 一种智能律师专家案件应答装置
CN108281144B (zh) * 2018-01-23 2020-12-08 浙江国视科技有限公司 一种语音识别方法和系统
CN108363745B (zh) 2018-01-26 2020-06-30 阿里巴巴集团控股有限公司 机器人客服转人工客服的方法和装置
CN108597537A (zh) * 2018-04-06 2018-09-28 东莞市华睿电子科技有限公司 一种音频信号相似度检测方法
CN109377993A (zh) * 2018-10-12 2019-02-22 上海庆科信息技术有限公司 智能语音系统及其语音唤醒方法及智能语音设备
CN109299471B (zh) * 2018-11-05 2022-12-27 广州百田信息科技有限公司 一种文本匹配的方法、装置及终端
CN109963022A (zh) * 2018-12-27 2019-07-02 广州云趣信息科技有限公司 一种基于soundex算法的语音电话本找人方法及流程
CN110209892A (zh) * 2019-04-17 2019-09-06 深圳壹账通智能科技有限公司 敏感信息识别方法、装置、电子设备及存储介质
CN110232914A (zh) * 2019-05-20 2019-09-13 平安普惠企业管理有限公司 一种语义识别方法、装置以及相关设备
CN110399608B (zh) * 2019-06-04 2023-04-25 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110334348B (zh) * 2019-06-28 2022-11-15 珍岛信息技术(上海)股份有限公司 一种基于纯文本中的文字校验方法
CN110489754B (zh) * 2019-08-20 2023-01-03 杭州数澜科技有限公司 快速生成标准语料的方法和系统
CN110992959A (zh) * 2019-12-06 2020-04-10 北京市科学技术情报研究所 一种语音识别方法及系统
CN111105799B (zh) * 2019-12-09 2023-07-07 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法
CN111354334B (zh) * 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质
CN113539247B (zh) * 2020-04-14 2024-06-18 京东科技控股股份有限公司 语音数据处理方法、装置、设备及计算机可读存储介质
CN111554297B (zh) 2020-05-15 2023-08-22 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及可读存储介质
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN112885348B (zh) * 2021-01-25 2024-03-08 广州中汇信息科技有限公司 结合ai智能语音电销方法
CN116798408A (zh) * 2022-03-14 2023-09-22 中国移动通信集团设计院有限公司 语音识别方法、终端设备及计算机可读存储介质
CN115618451A (zh) * 2022-12-06 2023-01-17 广东时谛智能科技有限公司 基于模糊匹配进行鞋体模型设计的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674091A (zh) * 2005-04-18 2005-09-28 南京师范大学 地理信息的语音识别方法及其在导航系统中的应用
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法
CN102254557A (zh) * 2011-07-04 2011-11-23 深圳市子栋科技有限公司 基于自然语音识别的导航方法和系统
CN102347026A (zh) * 2011-07-04 2012-02-08 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674091A (zh) * 2005-04-18 2005-09-28 南京师范大学 地理信息的语音识别方法及其在导航系统中的应用
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法
CN102254557A (zh) * 2011-07-04 2011-11-23 深圳市子栋科技有限公司 基于自然语音识别的导航方法和系统
CN102347026A (zh) * 2011-07-04 2012-02-08 深圳市子栋科技有限公司 基于自然语音识别的音频/视频点播方法和系统

Also Published As

Publication number Publication date
WO2013178002A1 (zh) 2013-12-05
CN103456297A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103456297B (zh) 一种语音识别匹配的方法和设备
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106571140B (zh) 一种基于语音语义的电器智能控制方法及系统
CN109918663B (zh) 一种语义匹配方法、装置及存储介质
EP2869298A1 (en) Information identification method and apparatus
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN109256125B (zh) 语音的离线识别方法、装置与存储介质
US9390710B2 (en) Method for reranking speech recognition results
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112016303B (zh) 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN103594085A (zh) 一种提供语音识别结果的方法及系统
CN108268637A (zh) 一种智能语音矫正识别方法、装置和用户终端
CN113268981B (zh) 一种信息处理方法、装置及电子设备
CN111737991A (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN112767925A (zh) 语音信息识别方法及装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN111724766B (zh) 语种识别方法、相关设备及可读存储介质
CN113935331A (zh) 异常语义截断检测方法、装置、设备及介质
JP2010032865A (ja) 音声認識装置、音声認識システムおよびプログラム
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant