CN110164435B - 语音识别方法、装置、设备及计算机可读存储介质 - Google Patents
语音识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110164435B CN110164435B CN201910342353.2A CN201910342353A CN110164435B CN 110164435 B CN110164435 B CN 110164435B CN 201910342353 A CN201910342353 A CN 201910342353A CN 110164435 B CN110164435 B CN 110164435B
- Authority
- CN
- China
- Prior art keywords
- character string
- service
- target
- pinyin
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音交互技术领域,公开了一种语音识别方法、装置、设备及计算机可读存储介质,所述语音识别方法包括:获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;将所述原始文字识别结果转换成原始拼音字符串;查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。通过本发明,在得到语音识别结果后,进一步对语音识别结果进行纠错处理,避免了因音调识别错误而造成语音识别结果出错,提高了语音识别的准确率。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种语音识别方法、装置、设备及计算机可读存储介质。
背景技术
目前,在语音交互业务中,一般是将用户语音识别为文字,然后根据识别到的文字进行业务处理。单对中文语音进行识别时,因为用户发音不标准或当前识别机制的缺陷,往往会将某个字的声调识别错误,例如,用户想要表达的是“补领驾驶证”,若识别为“不领驾驶证”,则导致业务处理出错,影响用户体验。
发明内容
本发明的主要目的在于提供一种语音识别方法、装置、设备及计算机可读存储介质,旨在解决现有技术中由于识别机制的缺陷,往往会将某个字的声调识别错误的技术问题。
为实现上述目的,本发明提供一种语音识别方法,所述语音识别方法包括以下步骤:
获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
将所述原始文字识别结果转换成原始拼音字符串;
查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;
从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。
可选地,所述查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串的步骤包括:
显示业务主题选择界面,接收选择指令;
基于所述选择指令,确定目标业务主题;
根据所述目标业务主题,查找所述预置数据库中的对应目标数据表;
确定所述目标数据表中与所述原始拼音字符串相似度最高的拼音字符串为目标拼音字符串。
可选地,在所述查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串的步骤之前,还包括:
创建业务主题对应的数据表;
获取业务主题对应的历史业务提问记录,所述历史业务提问记录中包含若干个业务提问;
获取每个业务提问对应的拼音字串符;
将业务提问及对应的拼音字串符关联存储至所述数据表中;
基于所述数据表,构建所述预置数据库。
可选地,所述确定所述目标数据表中与所述原始拼音字符串相似度最高的拼音字符串为目标拼音字符串的步骤包括:
计算所述原始拼音字符串与所述目标数据表中存储的各个拼音字符串的编辑距离;
基于所述编辑距离,得到所述原始拼音字符串与所述各个拼音字符串的相似度;
确定最高相似度对应的拼音字符串为目标字符串。
可选地,在所述确定最高相似度对应的拼音字符串为目标字符串的步骤之后,还包括:
检测所述最高相似度是否大于或等于预设阈值;
若所述最高相似度大于或等于预设阈值,则执行获取所述目标拼音字符串对应的目标文字,并输出所述目标文字的步骤。
可选地,在所述检测所述最高相似度是否大于或等于预设阈值的步骤之后,还包括:
若所述最高相似度小于预设阈值,则显示文字输入界面;
接收基于所述文字输入界面输入的文字信息,并输出所述文字信息。
可选地,在所述接收基于所述文字输入界面输入的文字信息,并输出所述文字信息之后,还包括:
获取所述文字信息对应的拼音字符串,并将所述文字信息以及所述文字信息对应的拼音字符串关联保存至所述目标数据表。
此外,为实现上述目的,本发明还提供一种语音识别装置,所述语音识别装置包括:
识别模块,用于获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
转换模块,用于将所述原始文字识别结果转换成原始拼音字符串;
查找模块,用于查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;
输出模块,用于从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。
可选地,所述查找模块包括:
指令接收单元,用于显示业务主题选择界面,接收选择指令;
主题确定单元,用于基于所述选择指令,确定目标业务主题;
数据表确定单元,用于根据所述目标业务主题,查找所述预置数据库中的对应目标数据表;
拼音字符串确定单元,用于确定所述目标数据表中与所述原始拼音字符串相似度最高的拼音字符串为目标拼音字符串。
可选地,所述语音识别装置还包括:
创建模块,用于创建业务主题对应的数据表;
获取模块,用于获取业务主题对应的历史业务提问记录,所述历史业务提问记录中包含若干个业务提问;获取每个业务提问对应的拼音字串符;
存储模块,用于将业务提问及对应的拼音字串符关联存储至所述数据表中;
构建模块,用于基于所述数据表,构建预置数据库。
可选地,所述拼音字符串确定单元包括:
计算子单元,用于计算所述原始拼音字符串与所述目标数据表中存储的各个拼音字符串的编辑距离;
换算子单元,用于基于所述编辑距离,得到所述原始拼音字符串与所述各个拼音字符串的相似度;
确定子单元,用于确定最高相似度对应的拼音字符串为目标字符串。
可选地,所述语音识别装置还包括:
检测模块,用于检测所述最高相似度是否大于或等于预设阈值;
第一判定模块,用于若所述最高相似度大于或等于预设阈值,则执行获取所述目标拼音字符串对应的目标文字,并输出所述目标文字的步骤。
可选地,所述语音识别装置还包括:
第一判定模块,用于若所述最高相似度小于预设阈值,则显示文字输入界面;
所述输出模块,还用于接收基于所述文字输入界面输入的文字信息,并输出所述文字信息。
可选地,所述语音识别装置还包括:
更新模块,用于获取所述文字信息对应的拼音字符串,并将所述文字信息以及所述文字信息对应的拼音字符串关联保存至所述目标数据表。
此外,为实现上述目的,本发明还提供一种语音识别设备,所述语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如上所述的语音识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如上所述的语音识别方法的步骤。
本发明中,将接收到的语音识别为原始文字后,将原始文字转化成原始拼音,然后从数据库中查找与原始拼音最相似的目标拼音,最后输出目标拼音对应的目标文字。即在本发明中,在得到语音识别结果后,进一步对语音识别结果进行纠错处理,避免了因音调识别错误而造成语音识别结果出错,提高了语音识别的准确率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的语音识别设备结构示意图;
图2为本发明语音识别方法一实施例的流程示意图;
图3为本发明语音识别装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1为本发明实施例方案涉及的硬件运行环境的语音识别设备结构示意图。
本发明实施例语音识别设备可以是PC,也可以是智能手机、平板电脑、便携计算机等终端设备。
如图1所示,该语音识别设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选地还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音识别设备结构并不构成对语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别程序。
在图1所示的语音识别设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音识别程序,并执行以下语音识别方法各个实施例的操作。
参照图2,图2为本发明语音识别方法一实施例的流程示意图。
本发明语音识别方法一实施例中,语音识别方法包括:
步骤S10,获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
本实施例中,在一些语音交互业务中,客户可通过语音的形式提出需要问的问题。在语音识别设备获取到用户发出的语音信息时,对语音信息进行语音识别,得到语音信息对应的原始文字识别结果。其中,对语音信息进行语音识别依靠现有的语音识别技术实现。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码或者字符序列,从而根据二进制编码或者字符序列将语音转换成文字。
步骤S20,将所述原始文字识别结果转换成原始拼音字符串;
本实施例中,可以借助编程技术,实现文字转拼音。例如pinyin4j,pinyin4j是sourceforge.net上的一个开源项目,用来处理将中文转换成拼音的场景。目前,文字转拼音技术较为成熟,可选地技术手段较多,可根据实际需要选择具体的技术手段实现文字(原始文字识别结果)转拼音(原始拼音字符串),在此不作限制。
步骤S30,查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;
本实施例中,步骤S30之前可收集历史处理过的业务中,用户提过的问题或经常提的问题。例如,以交通业务为例,收集处理交通业务时,业务处理人员遇到的业务提问。将业务提问以文字的形式整理出来,得到历史业务提问记录,历史业务提问记录中包括:业务提问1、业务提问2……业务提问n。然后借助文字转拼音技术,得到业务提问1对应的拼音字符串、业务提问2对应的拼音字符串……业务提问n对应的拼音字符串,将每个业务提问与其对应的拼音字符串关联保存至预置数据库中。存储形式如表1所示,表1为预置数据库的数据存储结构示意表。
表1
按照上述方式预先构建预置数据库之后,再将原始文字识别结果转换成原始拼音字符串之后,逐一计算原始拼音字符串与预置数据库中的每个拼音字符串的相似度。具体的,可通过计算原始拼音字符串与预置数据库中的每个拼音字符串的编辑距离,确定原始拼音字符串与预置数据库中的每个拼音字符串的相似度,编辑距离越小,相似度越高。
其中编辑距离(EditDistance)是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。以莱文斯坦距离为例,莱文斯坦距离又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten编辑转成sitting,需要的最小编辑距离为3,具体编辑处理过程如下:
1、sitten(k→s);
2、sittin(e→i);
3、sitting(→g)。
本实施例中,编辑距离与相似度的对应关系定义如下:
编辑距离为0,相似度为100%;编辑距离为1,相似度为99%;编辑距离为2,相似度为98%……以此类推,直至编辑距离大于或等于100时,相似度为0。
参照上述说明,即可得到原始拼音字符串与预置数据库中的每个拼音字符串的相似度。然后进一步从得到的相似度中选取最高相似度,并将最高相似度对应的拼音字符串作为目标拼音字符串。
步骤S40,从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。
本实施例中,确定目标拼音字符串后,进一步从数据库中获取目标拼音字符串对应的目标文字,然后输出目标文字,以供基于目标文字进行后续的业务处理。
本实施例中,获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;将所述原始文字识别结果转换成原始拼音字符串;查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。通过本实施例,在得到语音识别结果后,进一步对语音识别结果进行纠错处理,避免了因音调识别错误而造成语音识别结果出错,提高了语音识别的准确率。
进一步地,本发明语音识别方法一实施例中,上述步骤S30包括:
步骤S301,显示业务主题选择界面,接收选择指令;
在本实施例中,显示业务主题选择界面,以供用户选择需要办理的业务的业务主题。对于某个交互业务来说,可分为若干个业务主题。例如交通业务,可以分为:业务主题1-查分业务(办理驾驶证分数查询、销分等)、业务主题1-证件业务(办理证件挂失、证件更新等)。可以是在业务主题选择界面上显示所有的业务主题,由用户点击需要的业务主题,触发选择指令,语音识别设备接收到该选择指令。
步骤S302,基于所述选择指令,确定目标业务主题;
步骤S303,根据所述目标业务主题,查找所述预置数据库中的对应目标数据表;
本实施例中,预置数据库中存储了不同业务主题对应的数据表。例如,在创建预置数据库时,可创建业务主题1对应的数据表A,业务主题2对应的数据表B。其中,数据表A中存储有:业务提问A1以及对应的拼音字串符、业务提问A2以及对应的拼音字串符……业务提问An以及对应的拼音字串符。业务提问A1至An为历史处理过的查分业务中,用户提过的问题或经常提的问题。数据表B中存储有:业务提问B1以及对应的拼音字串符、业务提问B2以及对应的拼音字串符……业务提问Bn以及对应的拼音字串符。业务提问B1至Bn为历史处理过的证件业务中,用户提过的问题或经常提的问题。
一实施例中,若用户当前想要办理证件业务,则选择业务主题选择界面上的证件业务,接收基于用户操作触发的选择指令,根据该选择指令即可确定证件业务为目标业务主题,然后进一步确定数据表B为目标数据表。
步骤S304,确定所述目标数据表中与所述原始拼音字符串相似度最高的拼音字符串为目标拼音字符串。
本实施例中,若数据表B为目标数据表,则逐一计算原始拼音字符串与数据表B中的每个拼音字符串的相似度。具体的,可通过计算原始拼音字符串与数据表B中的每个拼音字符串的编辑距离,确定原始拼音字符串与数据表B中的每个拼音字符串的相似度,编辑距离越小,相似度越高。即可得到原始拼音字符串与数据表B中的每个拼音字符串的相似度。然后进一步从得到的相似度中选取最高相似度,并将最高相似度对应的拼音字符串作为目标拼音字符串。
本实施例中,由用户选择当前需要办理的业务的业务主题,然后从用户选择的业务主题对应的数据表中确定与原始拼音字符串相似度最高的目标拼音字符串,缩小了对比范围,减少了计算量,加快了查找结果,从而加快了整体处理速度。
进一步地,本发明语音识别方法一实施例中,在上述步骤S30之前,还包括:
创建业务主题对应的数据表;获取业务主题对应的历史业务提问记录,所述历史业务提问记录中包含若干个业务提问;获取每个业务提问对应的拼音字串符;将业务提问及对应的拼音字串符关联存储至所述数据表中;基于所述数据表,构建预置数据库。
本实施例中,在创建预置数据库时,可创建业务主题1对应的数据表A,业务主题2对应的数据表B。其中,数据表A中存储有:业务提问A1以及对应的拼音字串符、业务提问A2以及对应的拼音字串符……业务提问An以及对应的拼音字串符。业务提问A1至An为历史处理过的查分业务中,用户提过的问题或经常提的问题。数据表B中存储有:业务提问B1以及对应的拼音字串符、业务提问B2以及对应的拼音字串符……业务提问Bn以及对应的拼音字串符。业务提问B1至Bn为历史处理过的证件业务中,用户提过的问题或经常提的问题。
通过本实施例,将业务提问及其对应的拼音,存储至业务提问所属的业务主题对应的数据表中。后续由用户选择当前需要办理的业务的业务主题,然后从用户选择的业务主题对应的数据表中确定与原始拼音字符串相似度最高的目标拼音字符串,缩小了对比范围,减少了计算量,加快了查找结果,从而加快了整体处理速度。
进一步地,本发明语音识别方法一实施例中,上述步骤S304包括:
步骤S3041,计算所述原始拼音字符串与所述目标数据表中存储的各个拼音字符串的编辑距离;
本实施例中,首先计算原始拼音字符串与目标数据表中的每个拼音字符串的编辑距离,编辑距离越小,相似度越高。
其中编辑距离(EditDistance)是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。以莱文斯坦距离为例,莱文斯坦距离又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten编辑转成sitting,需要的最小编辑距离为3,具体编辑处理过程如下:
1、sitten(k→s);
2、sittin(e→i);
3、sitting(→g)。
步骤S3042,基于所述编辑距离,得到所述原始拼音字符串与所述各个拼音字符串的相似度;
本实施例中,编辑距离与相似度的对应关系定义如下:
编辑距离为0,相似度为100%;编辑距离为1,相似度为99%;编辑距离为2,相似度为98%……以此类推,直至编辑距离大于或等于100时,相似度为0。
步骤S3043,确定最高相似度对应的拼音字符串为目标字符串。
本实施例中,通上述步骤S3041至步骤S3042,即可得到原始拼音字符串与目标数据表中的每个拼音字符串的相似度。然后进一步从得到的相似度中选取最高相似度,并将最高相似度对应的拼音字符串作为目标拼音字符串。
进一步地,本发明语音识别方法一实施例中,在上述步骤S3043之后,还包括:
检测所述最高相似度是否大于或等于预设阈值;
若大于或等于预设阈值,则执行上述步骤S40。
本实施例中,有可能存在最高相似度的值较小的情况。若存在这种情况,则表明原始拼音字符串与目标拼音字符串差别较大,相应的,表明目标文字与原始文字识别结果的差别较大,即目标文字并不是用户想要表达的意思。因此,设置一预设阈值,例如设置为90%(该值可根据实际情况进行设置),只有相似度大于或等于90%时(说明原始拼音字符串与目标拼音字符串差别较小,相应的,表明目标文字与原始文字识别结果的差别较小,目标文字很大概率即为用户想要表达的意思),才执行步骤S40。即只有在原始拼音字符串与目标拼音字符串差别较小时,才输出目标拼音字符串对应的目标文字。提高了语音识别的准确度。
进一步地,本发明语音识别方法一实施例中,在上述检测所述最高相似度是否大于或等于预设阈值的步骤之后,还包括:
若所述最高相似度小于预设阈值,则显示文字输入界面;接收基于所述文字输入界面输入的文字信息,并输出所述文字信息。
本实施例中,若最高相似度小于预设阈值,则说明原始拼音字符串与目标拼音字符串差别较大,相应的,表明目标文字与原始文字识别结果的差别较大,即目标文字并不是用户想要表达的意思。因此,需要更换交互方式。例如,显示文字输入界面,以供用户输入文字信息。在接收到用户输入的文字信息后,输出文字信息,以供基于该文字信息进行后续的业务处理。
进一步地,本发明语音识别方法一实施例中,在上述接收基于所述文字输入界面输入的文字信息,并输出所述文字信息的步骤之后,还包括:
获取所述文字信息对应的拼音字符串,并将所述文字信息以及所述文字信息对应的拼音字符串关联保存至所述目标数据表。
本实施例中,若最高相似度小于预设阈值,则说明原始拼音字符串与目标拼音字符串差别较大,相应的,表明目标文字与原始文字识别结果的差别较大,即目标文字并不是用户想要表达的意思。也说明针对当前用户输入的语音,在数据库中没有与之相似的文字表达。
因此,将信息输入方式更换为文字输入方式。并对此时用户输入的文字信息进行文字转拼音,然后将当前输入的文字与对应的拼音字符串关联保存至数据库中。即对数据库的数据进行了增加,使数据库的数据更加丰富,提升了方案的适用性。
参照图3,图3为本发明语音识别装置一实施例的功能模块示意图。
本发明语音识别装置一实施例中,语音识别装置包括:
识别模块10,用于获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
转换模块20,用于将所述原始文字识别结果转换成原始拼音字符串;
查找模块30,用于查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;
输出模块40,用于从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。
本实施例中,获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;将所述原始文字识别结果转换成原始拼音字符串;查找预置数据库中与所述原始拼音字符串相似度最高的目标拼音字符串;从所述预置数据库中获取所述目标拼音字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果。通过本实施例,在得到语音识别结果后,进一步对语音识别结果进行纠错处理,避免了因音调识别错误而造成语音识别结果出错,提高了语音识别的准确率。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如上语音识别方法各个实施例的操作。
本发明计算机可读存储介质的具体实施例与上述语音识别方法的各个实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种语音识别方法,其特征在于,所述语音识别方法包括以下步骤:
获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
将所述原始文字识别结果转换成原始拼音字符串;
创建业务主题对应的数据表;获取业务主题对应的历史业务提问记录,所述历史业务提问记录中包含若干个业务提问;获取每个业务提问对应的拼音字串符;将业务提问及对应的拼音字串符关联存储至所述数据表中;基于所述数据表,构建预置数据库;
显示业务主题选择界面,接收选择指令;基于所述选择指令,确定目标业务主题;根据所述目标业务主题,查找所述预置数据库中的对应目标数据表;计算所述原始拼音字符串与所述目标数据表中存储的各个拼音字符串的编辑距离;基于所述编辑距离,得到所述原始拼音字符串与所述各个拼音字符串的相似度;确定最高相似度对应的拼音字符串为目标字符串;
检测所述最高相似度是否大于或等于预设阈值;
若是,则从所述预置数据库中获取所述目标字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果;
若否,则显示文字输入界面,并接收基于所述文字输入界面输入的文字信息,并输出所述文字信息。
2.如权利要求1所述的语音识别方法,其特征在于,在所述接收基于所述文字输入界面输入的文字信息,并输出所述文字信息之后,还包括:
获取所述文字信息对应的拼音字符串,并将所述文字信息以及所述文字信息对应的拼音字符串关联保存至所述目标数据表。
3.一种语音识别装置,其特征在于,所述语音识别装置包括:
识别模块,用于获取语音信息,并对所述语音信息进行语音识别,得到原始文字识别结果;
转换模块,用于将所述原始文字识别结果转换成原始拼音字符串;
创建模块,用于创建业务主题对应的数据表;
获取模块,用于获取业务主题对应的历史业务提问记录,所述历史业务提问记录中包含若干个业务提问;获取每个业务提问对应的拼音字串符;
存储模块,用于将业务提问及对应的拼音字串符关联存储至所述数据表中;
构建模块,用于基于所述数据表,构建预置数据库;
查找模块,用于显示业务主题选择界面,接收选择指令;基于所述选择指令,确定目标业务主题;根据所述目标业务主题,查找所述预置数据库中的对应目标数据表;计算所述原始拼音字符串与所述目标数据表中存储的各个拼音字符串的编辑距离;基于所述编辑距离,得到所述原始拼音字符串与所述各个拼音字符串的相似度;确定最高相似度对应的拼音字符串为目标字符串;
检测模块,用于检测所述最高相似度是否大于或等于预设阈值;
输出模块,用于在检测所述最高相似度大于或等于预设阈值时,从所述预置数据库中获取所述目标字符串对应的目标文字,并输出所述目标文字以作为语音识别的最终结果,以及在检测所述最高相似度小于预设阈值时,显示文字输入界面,并接收基于所述文字输入界面输入的文字信息,并输出所述文字信息。
4.一种语音识别设备,其特征在于,所述语音识别设备包括:存储器、处理器及存储在所述存储器上并在所述处理器上运行的语音识别程序,所述语音识别程序被所述处理器执行时实现如权利要求1或2所述的语音识别方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时实现如权利要求1或2所述的语音识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910342353.2A CN110164435B (zh) | 2019-04-26 | 2019-04-26 | 语音识别方法、装置、设备及计算机可读存储介质 |
PCT/CN2019/102437 WO2020215554A1 (zh) | 2019-04-26 | 2019-08-26 | 语音识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910342353.2A CN110164435B (zh) | 2019-04-26 | 2019-04-26 | 语音识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110164435A CN110164435A (zh) | 2019-08-23 |
CN110164435B true CN110164435B (zh) | 2024-06-25 |
Family
ID=67640184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910342353.2A Active CN110164435B (zh) | 2019-04-26 | 2019-04-26 | 语音识别方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110164435B (zh) |
WO (1) | WO2020215554A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110164435B (zh) * | 2019-04-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111192586B (zh) * | 2020-01-08 | 2023-07-04 | 北京小米松果电子有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN111261165B (zh) * | 2020-01-13 | 2023-05-16 | 佳都科技集团股份有限公司 | 车站名称识别方法、装置、设备及存储介质 |
CN111259657A (zh) * | 2020-01-13 | 2020-06-09 | 佳都新太科技股份有限公司 | 车站名称识别方法、装置、设备及存储介质 |
CN113539247B (zh) * | 2020-04-14 | 2024-06-18 | 京东科技控股股份有限公司 | 语音数据处理方法、装置、设备及计算机可读存储介质 |
CN111626118B (zh) * | 2020-04-23 | 2024-06-28 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及计算机可读存储介质 |
CN111930890A (zh) * | 2020-07-28 | 2020-11-13 | 深圳市梦网科技发展有限公司 | 信息发送方法、装置、终端设备及存储介质 |
CN112364212A (zh) * | 2020-11-04 | 2021-02-12 | 北京致远互联软件股份有限公司 | 一种基于近似音识别的语音人名识别方法 |
CN114530145B (zh) * | 2020-11-23 | 2023-08-15 | 中移互联网有限公司 | 语音识别结果纠错方法及装置、计算机可读存储介质 |
CN112381100A (zh) * | 2020-12-07 | 2021-02-19 | 安徽江淮汽车集团股份有限公司 | 智能座舱系统中控报警文字识别方法、装置及设备 |
CN112509566B (zh) * | 2020-12-22 | 2024-03-19 | 阿波罗智联(北京)科技有限公司 | 一种语音识别方法、装置、设备、存储介质及程序产品 |
CN112767923B (zh) * | 2021-01-05 | 2022-12-23 | 上海微盟企业发展有限公司 | 一种语音识别方法及装置 |
CN113129894A (zh) * | 2021-04-12 | 2021-07-16 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN113932518B (zh) * | 2021-06-02 | 2023-08-18 | 海信冰箱有限公司 | 冰箱及其食材管理方法 |
CN114440524B (zh) * | 2022-01-26 | 2024-06-07 | 海信冰箱有限公司 | 一种冰箱以及冰箱食材数据的处理方法 |
CN116978385B (zh) * | 2023-09-25 | 2023-12-19 | 北京健康有益科技有限公司 | 语音数据录入方法、装置、电子设备和可读存储介质 |
CN117831573B (zh) * | 2024-03-06 | 2024-05-14 | 青岛理工大学 | 基于多模态的语言障碍人群言语录音分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254557A (zh) * | 2011-07-04 | 2011-11-23 | 深圳市子栋科技有限公司 | 基于自然语音识别的导航方法和系统 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100470633C (zh) * | 2007-11-30 | 2009-03-18 | 清华大学 | 语音点歌方法 |
CN103927329B (zh) * | 2014-03-19 | 2017-03-29 | 北京奇虎科技有限公司 | 一种即时搜索方法和系统 |
CN106297799A (zh) * | 2016-08-09 | 2017-01-04 | 乐视控股(北京)有限公司 | 语音识别处理方法及装置 |
CN107659847B (zh) * | 2016-09-22 | 2019-10-15 | 腾讯科技(北京)有限公司 | 语音互动方法和装置 |
CN107657947B (zh) * | 2017-09-20 | 2020-11-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN108268637A (zh) * | 2018-01-17 | 2018-07-10 | 广东蔚海数问大数据科技有限公司 | 一种智能语音矫正识别方法、装置和用户终端 |
CN109036419A (zh) * | 2018-07-23 | 2018-12-18 | 努比亚技术有限公司 | 一种语音识别匹配方法、终端及计算机可读存储介质 |
CN109036420B (zh) * | 2018-07-23 | 2021-01-26 | 努比亚技术有限公司 | 一种语音识别控制方法、终端及计算机可读存储介质 |
CN109256125B (zh) * | 2018-09-29 | 2022-10-14 | 阿波罗智联(北京)科技有限公司 | 语音的离线识别方法、装置与存储介质 |
CN109545190B (zh) * | 2018-12-29 | 2021-06-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN110164435B (zh) * | 2019-04-26 | 2024-06-25 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
-
2019
- 2019-04-26 CN CN201910342353.2A patent/CN110164435B/zh active Active
- 2019-08-26 WO PCT/CN2019/102437 patent/WO2020215554A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254557A (zh) * | 2011-07-04 | 2011-11-23 | 深圳市子栋科技有限公司 | 基于自然语音识别的导航方法和系统 |
CN105895090A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110164435A (zh) | 2019-08-23 |
WO2020215554A1 (zh) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
KR102596446B1 (ko) | 모바일 디바이스들에서의 모달리티 학습 | |
TWI437449B (zh) | 多重模式輸入方法及輸入方法編輯器系統 | |
JP5462001B2 (ja) | 文脈上の入力方法 | |
CN106484131B (zh) | 一种输入纠错方法和输入法装置 | |
JP5860171B2 (ja) | 入力処理方法及び装置 | |
US20120330662A1 (en) | Input supporting system, method and program | |
JP2016529603A (ja) | オンライン音声翻訳方法及び装置 | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
CN111177359A (zh) | 多轮对话方法和装置 | |
US20150228280A1 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
CN105283914A (zh) | 用于识别语音的系统和方法 | |
JP2018040906A (ja) | 辞書更新装置およびプログラム | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN101405693A (zh) | 多模式输入的个人协作过滤 | |
US20140225899A1 (en) | Method of animating sms-messages | |
CN113743102B (zh) | 识别字符的方法、装置以及电子设备 | |
CN114238602A (zh) | 基于语料匹配的对话分析方法、装置、设备及存储介质 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN116194925A (zh) | 从非字符子标记信号中自动检测语言 | |
CN109388695B (zh) | 用户意图识别方法、设备及计算机可读存储介质 | |
JP6821542B2 (ja) | 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN111859148A (zh) | 主题的提取方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |