CN109918485B - 语音识别菜品的方法及装置、存储介质、电子装置 - Google Patents
语音识别菜品的方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN109918485B CN109918485B CN201910012956.6A CN201910012956A CN109918485B CN 109918485 B CN109918485 B CN 109918485B CN 201910012956 A CN201910012956 A CN 201910012956A CN 109918485 B CN109918485 B CN 109918485B
- Authority
- CN
- China
- Prior art keywords
- character string
- candidate
- error correction
- dish
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音识别菜品的方法及装置、存储介质、电子装置,其中,该方法包括:接收语音识别模块响应语音信号输出的文本信息;以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。通过本发明,解决了相关技术中语音录菜准确率低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音识别菜品的方法及装置、存储介质、电子装置。
背景技术
相关技术中,互联网+时代,人们的生活变得越来越便捷和高效,预定、购票、出行、找房、订餐等可以通过手机轻松完成,互联网本地生活领域的发展,扩大了传统行业的服务半径,提高了传统行业的效能,节约了成本。吃喝住行,餐饮作为其中的重要环节,正在享受着互联网带来的福利,在传统餐饮店搬上手机app时,数据的数字化,标准化,是一个必经的过程,一个典型的场景就是录菜,即把商家的菜单录入app应用中。
相关技术中的录菜方式是手动录菜或者是自动语音识别录菜,手动录菜即手动打字录菜,这种方式录菜效率低,而且对于一些年龄大一点的人来说,打字难度更大。语音录菜要高效和简单很多,是一种比较快捷的录菜方式。语音录菜,技术方案上,先通过ASR(Automatic Speech Recognition,自动语音识别)技术,将输入的语音信号转化为文字,然后,解析文字内容,比如菜名和价格,例如,公开号为CN 102779178A的相关技术,公开了一种在ipad型平板电脑上利用语音搜索点餐的方法,通过语音识别并直接将识别的结果保存为菜名。对于ASR而言,存在误识别(多字,漏字和错字等)的问题,继而会影响到后续的内容解析后的结果,对于商家而言,会额外带来编辑的成本。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种语音识别菜品的方法及装置、存储介质、电子装置。
根据本发明的一个实施例,提供了一种语音识别菜品的方法,包括:接收语音识别模块响应语音信号输出的文本信息;以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。
可选的,以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品包括:解析所述文本信息,得到与所述文本信息对应的原始汉语拼音和原始字符串;在菜品库中检索与所述原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与所述原始字符串相似的第二纠错候选菜品集合。
可选的,分别计算所述多个纠错候选菜品的纠错得分包括:将所述文本信息和所述多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;计算所述原始字符串与每个候选字符串的编辑距离得分,所述原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;对所述编辑距离得分,所述差异距离得分,以及所述语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
可选的,计算所述原始字符串与每个候选字符串的编辑距离得分包括:计算从所述原始字符串修改到所述候选字符串或从所述候选字符串修改到所述原始字符串时,编辑单个字符所需要的最少次数;根据所述最少次数确定所述原始字符串与所述候选字符串的编辑距离得分。
可选的,计算所述原始字符串与每个候选字符串的差异距离得分包括:计算所述原始字符串与候选字符串的最长公共子串;按照最长公共子串字对齐,计算所述候选字符串相对于所述原始字符串的差异字个数,其中,所述差异字包括:增字,删字,改字,同音字;根据所述差异字个数确定所述原始字符串与所述候选字符串的差异距离得分。
可选的,选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品包括:确定纠错得分最高的指定纠错候选菜品;对所述指定纠错候选菜品进行采纳判决;在采纳判决通过的情况下,将所述指定纠错候选菜品确定为所述语音信号的识别菜品。
可选的,对所述指定纠错候选菜品进行采纳判决包括:获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征,以及所述原始字符串与所述候选字符串之间的交叉特征;将所述第一属性特征,所述第二属性特征,以及所述交叉特征输入至预设二分类模型,得到判决结果,其中,所述预设二分类模型是通过菜品样本数据通过机器学习训练得到的。
可选的,获取所述原始字符串与所述候选字符串之间的交叉特征包括:计算所述候选字符串相对于所述原始字符串差异字个数,其中,所述差异字包括:增字,删字,改字,同音字,以及计算所述候选字符串与所述原始字符串之间的编辑距离;将所述差异字个数和所述编辑距离确定为所述交叉特征。
可选的,获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征包括:计算所述原始字符串的字符串长度,所述原始字符串的最大trigram三元语言模型概率,所述原始字符串的最小trigram三元语言模型概率,以及所述原始字符串整体的第一语言模型概率;将所述字符串长度,所述最大trigram三元语言模型概率,所述最小trigram三元语言模型概率,以及所述第一语言模型概率确定为所述第一属性特征;计算所述候选字符串的字符串长度,所述候选字符串的最大trigram三元语言模型概率,所述候选字符串的最小trigram三元语言模型概率,以及所述候选字符串整体的第二语言模型概率;将所述字符串长度,所述最大trigram三元语言模型概率,所述最小trigram三元语言模型概率,以及所述第二语言模型概率确定为所述第二属性特征。
根据本发明的另一个实施例,提供了一种语音识别菜品的装置,包括:接收模块,用于接收语音识别模块响应语音信号输出的文本信息;检索模块,用于以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;计算模块,用于分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;确定模块,用于选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。
可选的,所述检索模块包括:解析单元,用于解析所述文本信息,得到与所述文本信息对应的原始汉语拼音和原始字符串;检索单元,用于在菜品库中检索与所述原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与所述原始字符串相似的第二纠错候选菜品集合。
可选的,所述计算模块包括:转换单元,用于将所述文本信息和所述多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;第一计算单元,用于计算所述原始字符串与每个候选字符串的编辑距离得分,所述原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;第二计算单元,用于对所述编辑距离得分,所述差异距离得分,以及所述语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
可选的,所述第一计算单元包括:第一计算子单元,用于计算从所述原始字符串修改到所述候选字符串或从所述候选字符串修改到所述原始字符串时,编辑单个字符所需要的最少次数;第一确定子单元,用于根据所述最少次数确定所述原始字符串与所述候选字符串的编辑距离得分。
可选的,所述第一计算单元包括:第二计算子单元,用于计算所述原始字符串与候选字符串的最长公共子串;第三计算子单元,用于按照最长公共子串字对齐,计算所述候选字符串相对于所述原始字符串的差异字个数,其中,所述差异字包括:增字,删字,改字,同音字;第二确定子单元,用于根据所述差异字个数确定所述原始字符串与所述候选字符串的差异距离得分。
可选的,所述确定模块包括:第一确定单元,用于确定纠错得分最高的指定纠错候选菜品;判断单元,用于对所述指定纠错候选菜品进行采纳判决;第二确定单元,用于在采纳判决通过的情况下,将所述指定纠错候选菜品确定为所述语音信号的识别菜品。
可选的,所述判断单元包括:获取子单元,用于获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征,以及所述原始字符串与所述候选字符串之间的交叉特征;计算子单元,用于将所述第一属性特征,所述第二属性特征,以及所述交叉特征输入至预设二分类模型,得到判决结果,其中,所述预设二分类模型是通过菜品样本数据通过机器学习训练得到的。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,通过以语音识别的文本信息为检索词在菜品库中检索纠错候选菜品,并在纠错候选菜品选择相似度最高的作为语音信号的识别菜品,提高了纠错的召回率,提高了语音录菜的准确率,解决了相关技术中语音录菜准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音识别菜品的硬件结构框图;
图2是根据本发明实施例的一种语音识别菜品的方法流程图;
图3是本发明实施例计算纠错候选菜品的纠错得分的流程示意图;
图4是本发明实施例计算两个字符串差异字的示意图;
图5是本发明实施例执行采纳判决的完整流程图;
图6是本发明实施例执行采纳判决的流程示意图;
图7是根据本发明实施例的一种语音识别菜品的装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种语音识别菜品的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种语音识别菜品的方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音识别菜品的方法,图2是根据本发明实施例的一种语音识别菜品的方法流程图,如图2所示,该流程包括如下步骤:
步骤S202,接收语音识别模块响应语音信号输出的文本信息;
步骤S204,以文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
本实施例中,纠错候选菜品在特殊的情况下,也可能只有一个,即文本信息本身。
步骤S206,分别计算多个纠错候选菜品的纠错得分,其中,纠错得分用于表征文本信息与纠错候选菜品的相似度;
步骤S208,选择纠错得分最高的指定纠错候选菜品作为语音信号的识别菜品。
通过上述步骤,通过以语音识别的文本信息为检索词在菜品库中检索纠错候选菜品,并在纠错候选菜品选择相似度最高的作为语音信号的识别菜品,提高了纠错的召回率,提高了语音录菜的准确率,解决了相关技术中语音录菜准确率低的技术问题。
可选的,以文本信息为检索词在菜品库中检索得到多个纠错候选菜品包括:解析文本信息,得到与文本信息对应的原始汉语拼音和原始字符串;在菜品库中检索与原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与原始字符串相似的第二纠错候选菜品集合。本实施例的相似是指相似度超过预设阈值,如50%,80%的字符串相同,在一个示例中,文本信息为“辣椒柔丝”,通过汉语拼音检索,可得到第一纠错候选菜品集合包括“辣椒肉丝”等,通过字符串检索(本实施例的字符串为中文的字组成的字符串,也可以是英文或其他形式的字符串),得到第二纠错候选菜品集合包括“鱼香肉丝”,“辣椒炒肉”等。
在本实施例中,分别计算多个纠错候选菜品的纠错得分包括:
S11,将文本信息和多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;
S12,计算原始字符串与每个候选字符串的编辑距离得分,原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;
S13,对编辑距离得分,差异距离得分,以及语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
图3是本发明实施例计算纠错候选菜品的纠错得分的流程示意图,纠错候选菜品的候选词打分分为以下几个维度:(a)原始字符串和候选字符串编辑距离得分;(b)原始字符串和候选字符串差异得分,先计算两个字符串的最长公共子串,然后按照子串字对齐,再计算候选字符串相对于原始字符串的增字,删字,改字,同音字的个数,再根据不同类型的变化惩罚加权。(c)候选字符串的语言模型得分,语言模型是利用菜品库训练好的,可以计算字符串中的每个n-gram的概率,和字符串的整体概率。最后加权求和。下面对各种维度的打分方式进行说明:
在本实施例的一个实施方式中,计算原始字符串与每个候选字符串的编辑距离得分包括:
S21,计算从原始字符串修改到候选字符串或从候选字符串修改到原始字符串时,编辑单个字符所需要的最少次数;
S22,根据最少次数确定原始字符串与候选字符串的编辑距离得分。
在本实施例的一个实施方式中,计算原始字符串与每个候选字符串的差异距离得分包括:
S31,计算原始字符串与候选字符串的最长公共子串;
S32,按照最长公共子串字对齐,计算候选字符串相对于原始字符串的差异字个数,其中,差异字包括:增字,删字,改字,同音字,属于不同类型的差异字;图4是本发明实施例计算两个字符串差异字的示意图,用字母来示意字符串,在计算从原始字符串修改到候选字符串时,G,J为增字,F为删字,M,H为改字,B,D,E为同音字。
S33,根据差异字个数确定原始字符串与候选字符串的差异距离得分。
在本实施例的一个实施方式中,选择纠错得分最高的指定纠错候选菜品作为语音信号的识别菜品包括:确定纠错得分最高的指定纠错候选菜品;对指定纠错候选菜品进行采纳判决;在采纳判决通过的情况下,将指定纠错候选菜品确定为语音信号的识别菜品。图5是本发明实施例执行采纳判决的完整流程图,基于菜品库的菜名语音识别纠错总体方案中,包括:asr模块,候选召回模块,排序模块,采纳判决模块,依据各个模型在执行步骤,下面对其进行说明:
asr模块,用于通过asr技术将用户输入的语音信号转化为文本信息,实现上可以通过使用asr产品提供方的软件开发工具包(SDK,Software Development Kit),完成信息的转化,这个阶段,由于用户发音不标准,以及sdk本身效果,会有多字,漏字错字的错误。
候选召回模块,用于以asr模块输出的菜名作为检索词,从菜品库中检索n个菜名,作为菜名纠错候选集,召回策略包括同音字召回和字符串相似度召回,可以解决同音字错误比较多的问题。实现时,可以选择搜索引擎完成召回的工作,提高了纠错的召回率,基于搜索引擎的召回,提高了菜品库的容量。
排序模块,用于针对上一步从菜品库召回的纠错菜名候选集,计算每个候选词的纠错得分,这个分数越大,意味着用户输入的真实菜名是该候选词的概率越大。然后按照纠错得分进行排序,取top1为可能的纠错结果。
采纳判决模块,用于对上一步中的top1候选词进行判决,决定是否采纳,该步的意义在于,纠错本身存在误伤的可能,即原来的菜名是正确的,纠错后,变成了错误的菜名,通过采纳判决模块,可以大大降低误伤的可能。
可选的,对指定纠错候选菜品进行采纳判决包括:获取原始字符串的第一属性特征和候选字符串的第二属性特征,以及原始字符串与候选字符串之间的交叉特征;将第一属性特征,第二属性特征,以及交叉特征输入至预设二分类模型,得到判决结果,其中,预设二分类模型是通过菜品样本数据通过机器学习训练得到的。图6是本发明实施例执行采纳判决的流程示意图,可以通过预设规则和机器学习模型进行判决。预设规则包括白名单机制等,机器学习模型是通过历史数据,积累样本,来训练机器学习二分类模型,考虑但不局限于三类特征:(a)原始字符串和候选字符串的交叉特征,比如候选字符串相对于原始字符串增删改的字数,同音字数,两个字符串编辑距离;(b)原始字符串本身的特征,比如字符串长度,tri-gram最大、最小语言模型概率,字符串整体的语言模型概率等;(c)候选字符串本身的特征,具体同原始字符串。
可选的,获取原始字符串与候选字符串之间的交叉特征包括:计算候选字符串相对于原始字符串差异字个数,其中,差异字包括:增字,删字,改字,同音字,以及计算候选字符串与原始字符串之间的编辑距离;将差异字个数和编辑距离确定为交叉特征。获取原始字符串的第一属性特征和候选字符串的第二属性特征包括:计算原始字符串的字符串长度,原始字符串的最大trigram三元语言模型概率,原始字符串的最小trigram三元语言模型概率,以及原始字符串整体的第一语言模型概率;将字符串长度,最大trigram三元语言模型概率,最小trigram三元语言模型概率,以及第一语言模型概率确定为第一属性特征;计算候选字符串的字符串长度,候选字符串的最大trigram三元语言模型概率,候选字符串的最小trigram三元语言模型概率,以及候选字符串整体的第二语言模型概率;将字符串长度,最大trigram三元语言模型概率,最小trigram三元语言模型概率,以及第二语言模型概率确定为第二属性特征。
本实施例使用的n-gram模型是指将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成的长度是n的字节片段序列。Trigram是n-gram模型的三阶的语言模型,三元语言模型(Trigram language model)是关于马尔科夫模型的一个应用,一个三元语言模型包括一个有限集合V,和一个参数q(w|u,v)。对于任何的三元u,v,w,其中w∈V∪{STOP},和u,v∈V∪{*}。q(w|u,v)的值可以理解为,在看到二元组(u,v)之后,看到单词w的概率是多少。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种语音识别菜品的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例的一种语音识别菜品的装置的结构框图,可以应用在餐饮服务器或终端中,如图7所示,该装置包括:
接收模块70,用于接收语音识别模块响应语音信号输出的文本信息;
检索模块72,用于以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
计算模块74,用于分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;
确定模块76,用于选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。
可选的,所述检索模块包括:解析单元,用于解析所述文本信息,得到与所述文本信息对应的原始汉语拼音和原始字符串;检索单元,用于在菜品库中检索与所述原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与所述原始字符串相似的第二纠错候选菜品集合。
可选的,所述计算模块包括:转换单元,用于将所述文本信息和所述多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;第一计算单元,用于计算所述原始字符串与每个候选字符串的编辑距离得分,所述原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;第二计算单元,用于对所述编辑距离得分,所述差异距离得分,以及所述语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
可选的,所述第一计算单元包括:第一计算子单元,用于计算从所述原始字符串修改到所述候选字符串或从所述候选字符串修改到所述原始字符串时,编辑单个字符所需要的最少次数;第一确定子单元,用于根据所述最少次数确定所述原始字符串与所述候选字符串的编辑距离得分。
可选的,所述第一计算单元包括:第二计算子单元,用于计算所述原始字符串与候选字符串的最长公共子串;第三计算子单元,用于按照最长公共子串字对齐,计算所述候选字符串相对于所述原始字符串的差异字个数,其中,所述差异字包括:增字,删字,改字,同音字;第二确定子单元,用于根据所述差异字个数确定所述原始字符串与所述候选字符串的差异距离得分。
可选的,所述确定模块包括:第一确定单元,用于确定纠错得分最高的指定纠错候选菜品;判断单元,用于对所述指定纠错候选菜品进行采纳判决;第二确定单元,用于在采纳判决通过的情况下,将所述指定纠错候选菜品确定为所述语音信号的识别菜品。
可选的,所述判断单元包括:获取子单元,用于获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征,以及所述原始字符串与所述候选字符串之间的交叉特征;计算子单元,用于将所述第一属性特征,所述第二属性特征,以及所述交叉特征输入至预设二分类模型,得到判决结果,其中,所述预设二分类模型是通过菜品样本数据通过机器学习训练得到的。
需要说明的是,客户端和服务器仅是方案在执行主体上的差异,上述获取网页数据终端中的各个示例和可选方案同样适应在客户端和服务器中,并产生相同的技术效果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例的一个方面中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收语音识别模块响应语音信号输出的文本信息;
S2,以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
S3,分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;
S4,选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例的一个方面中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收语音识别模块响应语音信号输出的文本信息;
S2,以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
S3,分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;
S4,选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种语音识别菜品的方法,其特征在于,包括:
接收语音识别模块响应语音信号输出的文本信息;
以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度;
选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品;
其中,选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品包括:
将所述文本信息和所述纠错得分最高的指定纠错候选菜品分别转换为字符串,得到原始字符串和候选字符串;
获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征,以及所述原始字符串与所述候选字符串之间的交叉特征;
将所述第一属性特征,所述第二属性特征,以及所述交叉特征输入至预设二分类模型,得到采纳判决结果,其中,所述预设二分类模型是通过菜品样本数据通过机器学习训练得到的;
在采纳判决通过的情况下,将所述指定纠错候选菜品确定为所述语音信号的识别菜品。
2.根据权利要求1所述的方法,其特征在于,以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品包括:
解析所述文本信息,得到与所述文本信息对应的原始汉语拼音和原始字符串;
在菜品库中检索与所述原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与所述原始字符串相似的第二纠错候选菜品集合。
3.根据权利要求1所述的方法,其特征在于,分别计算所述多个纠错候选菜品的纠错得分包括:
将所述文本信息和所述多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;
计算所述原始字符串与每个候选字符串的编辑距离得分,所述原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;
对所述编辑距离得分,所述差异距离得分,以及所述语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
4.根据权利要求3所述的方法,其特征在于,计算所述原始字符串与每个候选字符串的编辑距离得分包括:
计算从所述原始字符串修改到所述候选字符串或从所述候选字符串修改到所述原始字符串时,编辑单个字符所需要的最少次数;
根据所述最少次数确定所述原始字符串与所述候选字符串的编辑距离得分。
5.根据权利要求3所述的方法,其特征在于,计算所述原始字符串与每个候选字符串的差异距离得分包括:
计算所述原始字符串与候选字符串的最长公共子串;
按照最长公共子串字对齐,计算所述候选字符串相对于所述原始字符串的差异字个数,其中,所述差异字包括:增字,删字,改字,同音字;
根据所述差异字个数确定所述原始字符串与所述候选字符串的差异距离得分。
6.根据权利要求1所述的方法,其特征在于,获取所述原始字符串与所述候选字符串之间的交叉特征包括:
计算所述候选字符串相对于所述原始字符串差异字个数,其中,所述差异字包括:增字,删字,改字,同音字,以及计算所述候选字符串与所述原始字符串之间的编辑距离;
将所述差异字个数和所述编辑距离确定为所述交叉特征。
7.根据权利要求1所述的方法,其特征在于,获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征包括:
计算所述原始字符串的字符串长度,所述原始字符串的最大trigram三元语言模型概率,所述原始字符串的最小trigram三元语言模型概率,以及所述原始字符串整体的第一语言模型概率;将所述字符串长度,所述最大trigram三元语言模型概率,所述最小trigram三元语言模型概率,以及所述第一语言模型概率确定为所述第一属性特征;
计算所述候选字符串的字符串长度,所述候选字符串的最大trigram三元语言模型概率,所述候选字符串的最小trigram三元语言模型概率,以及所述候选字符串整体的第二语言模型概率;将所述字符串长度,所述最大trigram三元语言模型概率,所述最小trigram三元语言模型概率,以及所述第二语言模型概率确定为所述第二属性特征。
8.一种语音识别菜品的装置,其特征在于,包括:
接收模块,用于接收语音识别模块响应语音信号输出的文本信息;
检索模块,用于以所述文本信息为检索词在菜品库中检索得到多个纠错候选菜品;
计算模块,用于分别计算所述多个纠错候选菜品的纠错得分,其中,所述纠错得分用于表征所述文本信息与所述纠错候选菜品的相似度,所述纠错得分为通过编辑距离得分、差异距离得分、语言模型得分加权求和得到的;
确定模块,用于选择纠错得分最高的指定纠错候选菜品作为所述语音信号的识别菜品;
其中,所述确定模块,具体用于将所述文本信息和所述纠错得分最高的指定纠错候选菜品分别转换为字符串,得到原始字符串和候选字符串;
获取所述原始字符串的第一属性特征和所述候选字符串的第二属性特征,以及所述原始字符串与所述候选字符串之间的交叉特征;
将所述第一属性特征,所述第二属性特征,以及所述交叉特征输入至预设二分类模型,得到采纳判决结果,其中,所述预设二分类模型是通过菜品样本数据通过机器学习训练得到的;
在采纳判决通过的情况下,将所述指定纠错候选菜品确定为所述语音信号的识别菜品。
9.根据权利要求8所述的装置,其特征在于,所述检索模块包括:
解析单元,用于解析所述文本信息,得到与所述文本信息对应的原始汉语拼音和原始字符串;
检索单元,用于在菜品库中检索与所述原始汉语拼音同音的第一纠错候选菜品集合,以及在菜品库中检索字符串与所述原始字符串相似的第二纠错候选菜品集合。
10.根据权利要求8所述的装置,其特征在于,所述计算模块包括:
转换单元,用于将所述文本信息和所述多个纠错候选菜品分别转换为字符串,得到原始字符串和多个候选字符串;
第一计算单元,用于计算所述原始字符串与每个候选字符串的编辑距离得分,所述原始字符串与每个候选字符串的差异距离得分,以及每个候选字符串的语言模型得分;
第二计算单元,用于对所述编辑距离得分,所述差异距离得分,以及所述语言模型得分进行加权求和,得到每个纠错候选菜品的纠错得分。
11.根据权利要求10所述的装置,其特征在于,所述第一计算单元包括:
第一计算子单元,用于计算从所述原始字符串修改到所述候选字符串或从所述候选字符串修改到所述原始字符串时,编辑单个字符所需要的最少次数;
第一确定子单元,用于根据所述最少次数确定所述原始字符串与所述候选字符串的编辑距离得分。
12.根据权利要求10所述的装置,其特征在于,所述第一计算单元包括:
第二计算子单元,用于计算所述原始字符串与候选字符串的最长公共子串;
第三计算子单元,用于按照最长公共子串字对齐,计算所述候选字符串相对于所述原始字符串的差异字个数,其中,所述差异字包括:增字,删字,改字,同音字;
第二确定子单元,用于根据所述差异字个数确定所述原始字符串与所述候选字符串的差异距离得分。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910012956.6A CN109918485B (zh) | 2019-01-07 | 2019-01-07 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910012956.6A CN109918485B (zh) | 2019-01-07 | 2019-01-07 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109918485A CN109918485A (zh) | 2019-06-21 |
CN109918485B true CN109918485B (zh) | 2020-11-27 |
Family
ID=66960192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910012956.6A Active CN109918485B (zh) | 2019-01-07 | 2019-01-07 | 语音识别菜品的方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918485B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110444205B (zh) * | 2019-07-25 | 2021-08-13 | 北京蓦然认知科技有限公司 | 一种语音识别的调整方法和装置 |
CN110428822B (zh) * | 2019-08-05 | 2022-05-03 | 重庆电子工程职业学院 | 一种语音识别纠错方法及人机对话系统 |
CN112395863A (zh) * | 2019-08-16 | 2021-02-23 | 阿里巴巴集团控股有限公司 | 文本的处理方法和装置 |
CN113053359B (zh) * | 2019-12-27 | 2024-10-25 | 深圳Tcl数字技术有限公司 | 一种语音识别方法、智能终端及存储介质 |
CN111261165B (zh) * | 2020-01-13 | 2023-05-16 | 佳都科技集团股份有限公司 | 车站名称识别方法、装置、设备及存储介质 |
CN113763961B (zh) * | 2020-06-02 | 2024-04-09 | 阿里巴巴集团控股有限公司 | 一种文本处理方法及装置 |
CN111862955B (zh) * | 2020-06-23 | 2024-04-23 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法与终端、计算机可读存储介质 |
CN112417867B (zh) * | 2020-12-07 | 2022-10-18 | 四川长虹电器股份有限公司 | 一种语音识别后的视频片名纠错方法及系统 |
CN113553398B (zh) * | 2021-07-15 | 2024-01-26 | 杭州网易云音乐科技有限公司 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
CN114964300B (zh) * | 2022-06-22 | 2023-03-28 | 深圳市智远联科技有限公司 | 一种语音识别方法及导航装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867040B (zh) * | 2012-08-31 | 2015-03-18 | 中国科学院计算技术研究所 | 一种面向中文搜索引擎混杂语言的查询纠错方法及系统 |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN107741928B (zh) * | 2017-10-13 | 2021-01-26 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
-
2019
- 2019-01-07 CN CN201910012956.6A patent/CN109918485B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109918485A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918485B (zh) | 语音识别菜品的方法及装置、存储介质、电子装置 | |
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
WO2020244150A1 (zh) | 语音检索方法、装置、计算机设备及存储介质 | |
US11651014B2 (en) | Source code retrieval | |
US20060212433A1 (en) | Prioritization of search responses system and method | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
KR20180078318A (ko) | 선행사의 결정방법 및 장치 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN109920415A (zh) | 基于语音识别的人机问答方法、装置、设备和存储介质 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
WO2016095645A1 (zh) | 笔画输入方法、装置和系统 | |
US9495357B1 (en) | Text extraction | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN114238602A (zh) | 基于语料匹配的对话分析方法、装置、设备及存储介质 | |
US11289071B2 (en) | Information processing system, information processing device, computer program, and method for updating dictionary database | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN116052671B (zh) | 一种智能翻译机及翻译方法 | |
CN110222340B (zh) | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN114706841B (zh) | 查询内容库构建方法、装置、电子设备及可读存储介质 | |
CN110569504A (zh) | 一种关系词确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |