CN117746847A - 语音识别方法、装置、设备及可读存储介质 - Google Patents
语音识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117746847A CN117746847A CN202311642707.8A CN202311642707A CN117746847A CN 117746847 A CN117746847 A CN 117746847A CN 202311642707 A CN202311642707 A CN 202311642707A CN 117746847 A CN117746847 A CN 117746847A
- Authority
- CN
- China
- Prior art keywords
- entity
- speech recognition
- candidate
- result
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002596 correlated effect Effects 0.000 claims description 16
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种语音识别方法、装置、设备及可读存储介质。该方案中,在确定候选语音识别结果之后,针对每个候选语音识别结果,基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分,最后从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。考虑到与实体相关,以及,与预设实体库中实体匹配的候选语音识别结果,实体识别正确的概率更高,将该种候选语音识别结果的最终得分设置的高一些,使得这种候选语音识别结果具有更高的概率被选作为最终的语音识别结果,从而提升了语音识别结果的实体识别正确率。
Description
技术领域
本申请涉及语音处理技术领域,更具体的说,是涉及一种语音识别方法、装置、设备及可读存储介质。
背景技术
目前,虚拟助手越来越受欢迎,因此,高质量的语音识别对虚拟助手的应用起到了至关重要的作用。对于语音助手来说,通用词的识别准确率较高,识别错误往往集中在某些实体,例如“播放××的星晴”可能会识别成“播放××的心情”,因此,在语音识别时,如何提升实体识别正确率,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种语音识别方法、装置、设备及可读存储介质。具体方案如下:
一种语音识别方法,所述方法包括:
确定候选语音识别结果;
针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
可选地,所述确定候选语音识别结果,包括:
获取语音识别模型的解码结果;
基于所述语音识别模型的解码结果,确定所述候选语音识别结果。
可选地,所述基于所述语音识别模型的解码结果,确定所述候选语音识别结果,包括:
将所述语音识别模型的解码结果,确定为所述候选语音识别结果。
可选地,所述基于所述语音识别模型的解码结果,确定所述候选语音识别结果,包括:
从所述语音识别模型的解码结果中确定目标解码结果,所述目标解码结果为所述语音识别模型的解码结果中与预设说法模板匹配的解码结果;
从预设实体库中确定目标实体,所述目标实体为所述预设实体库中与所述目标解码结果中实体的相似度满足预设条件的实体;
基于所述预设说法模板,以及所述目标实体,生成扩展解码结果;
基于所述语音识别模型的解码结果,以及,所述扩展解码结果,确定为所述候选语音识别结果。
可选地,所述说法模板中包含一个或多个语义槽,每个语义槽对应一个实体,则所述基于所述预设说法模板,以及所述目标实体,生成扩展解码结果,包括:
将所述目标实体填充至所述预设说法模板中的语义槽内,生成扩展解码结果。
可选地,所述基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,包括:
确定所述候选语音识别结果的初始得分;
基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
可选地,所述确定所述候选语音识别结果的初始得分,包括:
如果所述候选语音识别结果为所述语音识别模型的解码结果,则基于所述语音识别模型中的声学模型得分和语言模型得分,确定所述候选语音识别结果的初始得分;
如果所述候选语音识别结果为所述扩展解码结果,则基于所述目标实体的热度,和/或,所述目标实体与所述目标解码结果中实体的相似度,确定所述候选语音识别结果的初始得分。
可选地,所述候选语音识别结果的实体相关性的确定方式,包括:
判断所述候选语音识别结果对应的说法模板是否为预设说法模板库中的说法模板;
如果是,则确定所述候选语音识别结果与实体相关;
如果不是,则确定所述候选语音识别结果与实体无关。
一种语音识别装置,所述装置包括:
候选语音识别结果确定单元,用于确定候选语音识别结果;
最终得分确定单元,用于针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
选取单元,用于从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
可选地,所述候选语音识别结果确定单元,包括:
语音识别模型的解码结果获取单元,用于获取语音识别模型的解码结果;
候选语音识别结果确定子单元,用于基于所述语音识别模型的解码结果,确定所述候选语音识别结果。
可选地,所述候选语音识别结果确定子单元,包括:
第一候选语音识别结果确定子单元,用于将所述语音识别模型的解码结果,确定为所述候选语音识别结果。
可选地,所述候选语音识别结果确定子单元,包括:
目标解码结果确定子单元,用于从所述语音识别模型的解码结果中确定目标解码结果,所述目标解码结果为所述语音识别模型的解码结果中与预设说法模板匹配的解码结果;
目标实体确定子单元,用于从预设实体库中确定目标实体,所述目标实体为所述预设实体库中与所述目标解码结果中实体的相似度满足预设条件的实体;
扩展解码结果生成子单元,用于基于所述预设说法模板,以及所述目标实体,生成扩展解码结果;
第二候选语音识别结果确定子单元,用于基于所述语音识别模型的解码结果,以及,所述扩展解码结果,确定为所述候选语音识别结果。
可选地,所述说法模板中包含一个或多个语义槽,每个语义槽对应一个实体,则所述扩展解码结果生成子单元,具体用于:
将所述目标实体填充至所述预设说法模板中的语义槽内,生成扩展解码结果。
可选地,所述最终得分确定单元,包括:
初始得分确定单元,用于确定所述候选语音识别结果的初始得分;
初始得分处理单元,用于基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
可选地,所述初始得分确定单元,具体用于:
如果所述候选语音识别结果为所述语音识别模型的解码结果,则基于所述语音识别模型中的声学模型得分和语言模型得分,确定所述候选语音识别结果的初始得分;
如果所述候选语音识别结果为所述扩展解码结果,则基于所述目标实体的热度,和/或,所述目标实体与所述目标解码结果中实体的相似度,确定所述候选语音识别结果的初始得分。
可选地,所述最终得分确定单元,具体用于:
判断所述候选语音识别结果对应的说法模板是否为预设说法模板库中的说法模板;
如果是,则确定所述候选语音识别结果与实体相关;
如果不是,则确定所述候选语音识别结果与实体无关。
一种语音识别设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音识别方法的各个步骤。
借由上述技术方案,本申请公开了一种语音识别方法、装置、设备及可读存储介质。该方案中,在确定候选语音识别结果之后,针对每个候选语音识别结果,基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分,最后从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。考虑到与实体相关,以及,与预设实体库中实体匹配的候选语音识别结果,实体识别正确的概率更高,将该种候选语音识别结果的最终得分设置的高一些,使得这种候选语音识别结果具有更高的概率被选作为最终的语音识别结果,从而提升了语音识别结果的实体识别正确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种语音识别方法的流程示意图;
图2为本申请实施例公开的一种基于语音识别模型的解码结果,确定所述候选语音识别结果的方法的流程示意图;
图3为本申请实施例公开的一种基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分的方法的流程示意图;
图4为本申请实施例公开的一种语音识别装置结构示意图;
图5为本申请实施例公开的一种语音识别设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更好地理解本申请技术方案,本案首先对传统的提升实体识别正确率的方式进行介绍,具体如下:
传统的提升实体识别正确率的方式主要有两种,一种是采用改进训练模型建模范式或者调整训练数据的方式,另一种是对语音识别的识别结果进行后处理的方式。其中,对语音识别的识别结果进行后处理的方式主要有两种,一种是重排序的方式,一种是对语音识别的识别结果进行纠错的方式。常用的对语音识别的识别结果进行纠错的方式主要有两种,一种是基于规则的纠错方式,另一种是基于深度学习模型的纠错方式。接下来分别对重排序的方式、基于规则的纠错方式以及基于深度学习模型的纠错方式进行详细介绍。
重排序的方式主要是在得到语音识别的解码引擎解出的多个候选项之后,用二遍语言模型对多个候选项重新计算得分,结合声学分和一遍语言模型分对多个候选项重新排序,从多个候选项中选择较好的结果作为最终结果。这种方式如果新增实体,需要重新训练二遍语言模型,才能保证新增实体的识别正确率。
基于规则的纠错方式是利用语言学知识和规则来检测和纠正文本中的错误,这种纠错技术只能处理简单的语言现象,且需要编写大量的规则,但是优点也很明显,一旦匹配中规则,正确率高且稳定。
基于深度学习模型的纠错方式,是在利用纠错模型来检测和纠正语音识别结果中的错误,目前常用的纠错模型是采用transformer结构的,包括错误检测模块和错误纠正模块,错误检测模块输入是语音识别模型解码出来的多个候选,即Nbest,采用编辑距离以及读音相似度的方式,对多个候选进行长度对齐,将对齐后的结果送入检测模块,根据检测模块计算出来的结果,再接入一个候选项选择模块,对每一个位置选择一个最优候选项,同时确定出每个位置需要改动的信息(如插入、删除和替换),然后送入错误纠正模块,对于错误纠正模块,只对错误的词进行预测,正确的词保持不变,最终输出纠错后的结果。
但是,该纠错模型存在如下问题:
首先,虽然该纠错模型引入了错误检测模块,确保识别正确的词不会被修正,但是错误检测模块的检测正确率并不能达到100%,一旦检测错误,就会引入新的错误;
其次,虽然该纠错模型对识别正确的词不做处理,但是产生的时延还是导致在大多数设备上面受限;
另外,该纠错模型采用transformer的结构,模型参数量很大,需要大量数据进行训练,而实际应用中,可获取的用于训练纠错模型的真实数据有限,需要生成大量的类似语音识别模型识别错误的句子(如,给定一个原始文本,对于删除错误采用随机删除一个词的方式,替换错误则是随机选取句子中的一个词,然后替换成同音异字的词,插入错误则是随机选取一个位置,插入一个词),采用生成的数据训练一个预训练模型,再采用真实的语音识别模型识别错误的数据对模型进行微调,这极大影响了纠错模型的效果。
最后,对于新的实体,需要更新纠错模型,才能对识别错的新实体进行纠错。
鉴于上述传统的提升实体识别正确率的方式存在的问题,本案发明人进行了深入研究,最终提出了一种语音识别方法,该语音识别方法能够提升实体识别正确率。
接下来,通过下述实施例对本申请提供的语音识别方法进行介绍。
参照图1,图1为本申请实施例公开的一种语音识别方法的流程示意图,该方法可以包括如下步骤:
S101:确定候选语音识别结果。
在本申请中,候选语音识别结果是基于语音识别模型的解码结果确定的,语音识别模型的解码结果一般为Nbest,N为大于等于1的整数,具体取值可以基于场景需求确定,候选语音识别结果的数量可以大于N也可以小于N,对此,本申请不进行任何限定。
作为一种可实施方式,可以将所述语音识别模型的解码结果,确定为所述候选语音识别结果。
考虑到一些情况下,语音识别模型的解码结果中可能不存在语音识别的正确结果,这种情况下,可以对语音识别模型的解码结果进行扩展,得到更多的候选语音识别结果,以提高得到语音识别的正确结果的概率,具体将通过后面的实施例详细说明。
S102:针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分。
在语音识别领域,实体类别包含但不限于人名、歌曲名、视频名、地点名等,说法模板是与实体类别有关的,例如,人名实体可以有以下说法模板“打电话给<人名>”、“给<人名>发短信”、“播放<人名>的歌”、“<人名>演过什么电影”等;歌曲名实体可以有以下说法模板“播放<歌曲名>”、“我想听<歌曲名>”等;视频名实体可以有以下说法“播放<视频名>”、“我想看<视频名>”等;地点名实体可以有以下说法“导航到<地点名>”、“我想去<地点名>”。说法模板也可以是不同实体类型组合的说法,例如“我想听<人名>的<歌曲名>”、查询从<地点名>到<地点名>的路线等。在本申请中,可以预设说法模板库,所述说法模板库中包括多个说法模板,每个所述说法模板中包含一个或多个语义槽,每个语义槽对应一个实体。
作为一种可实施方式,可以基于所述候选语音识别结果与所述预设说法模板库的匹配度,确定所述候选语音识别结果的实体相关性。具体的,可以判断所述候选语音识别结果对应的说法模板是否为预设说法模板库中的说法模板;如果是,则确定所述候选语音识别结果与实体相关;如果不是,则确定所述候选语音识别结果与实体无关。
在本申请中,可预设实体库,所述实体库中包括多个实体;进一步的,所述实体库中还包括各个实体的属性信息。为便于理解,假设实体为“西湖”,其属性信息可以为“杭州市”。
作为一种可实施方式,可以基于所述候选语音识别结果中的实体信息确定所述候选语音识别结果与预设实体库中实体的匹配结果。
S103:从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
本实施例公开了一种语音识别方法。该方案中,在确定候选语音识别结果之后,针对每个候选语音识别结果,基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分,最后从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。考虑到与实体相关,以及,与预设实体库中实体匹配的候选语音识别结果,实体识别正确的概率更高,将该种候选语音识别结果的最终得分设置的高一些,使得这种候选语音识别结果具有更高的概率被选作为最终的语音识别结果,从而提升了语音识别结果的实体识别正确率。
在本申请的另一个实施例中,对基于语音识别模型的解码结果,确定所述候选语音识别结果的另一种实施方式进行详细说明,参照图2,图2为本申请实施例公开的一种基于语音识别模型的解码结果,确定所述候选语音识别结果的方法的流程示意图,该方法包括如下步骤:
S201:从所述语音识别模型的解码结果中确定目标解码结果,所述目标解码结果为所述语音识别模型的解码结果中与预设说法模板匹配的解码结果。
在本申请中,预设说法模板为预设说法模板库中的模板,针对所述语音识别模型的每个解码结果,可以先确定其对应的说法模板,再将其对应的说法模板是否与预设说法模板库中的模板进行对比,从而确定其对应的说法模板是否与预设说法模板匹配。
S202:从预设实体库中确定目标实体,所述目标实体为所述预设实体库中与所述目标解码结果中实体的相似度满足预设条件的实体。
在本申请中,针对每个目标解码结果,可以提取其中的实体,得到实体发音,根据编辑距离计算该实体发音与预设实体库中每一个实体发音的相似度,作为目标解码结果中实体与所述预设实体库中实体的相似度。在本申请中,相似度满足的预设条件可以为多种,比如TopN,大于预设相似度阈值等,对此,本申请不进行任何限定。
S203:基于所述预设说法模板,以及所述目标实体,生成扩展解码结果。
具体地,可以将所述目标实体填充至所述预设说法模板中的语义槽内,生成扩展解码结果。
S204:基于所述语音识别模型的解码结果,以及,所述扩展解码结果,确定为所述候选语音识别结果。
作为一种可实施方式,可以将全部的所述语音识别模型的解码结果,以及,全部的所述扩展解码结果,确定为所述候选语音识别结果。或者,可以将部分所述语音识别模型的解码结果,以及,部分的所述扩展解码结果,确定为所述候选语音识别结果。或者,可以将全部的所述语音识别模型的解码结果,以及,部分的所述扩展解码结果,确定为所述候选语音识别结果。或者,可以将部分的所述语音识别模型的解码结果,以及,全部的所述扩展解码结果,确定为所述候选语音识别结果。对此,本申请不进行任何限定。
本实施例中,通过对语音识别模型的解码结果进行扩展,能够得到更多的候选语音识别结果,进而能够提高得到语音识别的正确结果的概率。
在本申请的另一个实施例中,对基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分的实现方式进行了详细说明,参照图3,图3为本申请实施例公开的一种基于候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定候选语音识别结果的最终得分的方法的流程示意图,该方法可以包括如下步骤:
S301:确定所述候选语音识别结果的初始得分。
作为一种可实施方式,所述确定所述候选语音识别结果的初始得分,包括:如果所述候选语音识别结果为所述语音识别模型的解码结果,则基于所述语音识别模型中的声学模型得分和语言模型得分,确定所述候选语音识别结果的初始得分。比如,可以将所述语音识别模型中的声学模型得分和语言模型得分的和,或加权和,作为所述候选语音识别结果的初始得分。
作为一种可实施方式,所述确定所述候选语音识别结果的初始得分,包括:如果所述候选语音识别结果为所述扩展解码结果,则基于所述目标实体的热度,和/或,所述目标实体与所述目标解码结果中实体的相似度,确定所述候选语音识别结果的初始得分。比如,可以将所述目标实体的热度,作为所述候选语音识别结果的初始得分;可以将所述目标实体与所述目标解码结果中实体的相似度,作为所述候选语音识别结果的初始得分;也可以将所述目标实体的热度和所述目标实体与所述目标解码结果中实体的相似度的和,或加权和,作为所述候选语音识别结果的初始得分,对此,本申请不进行任何限定。
S302:基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
作为一种可实施方式,如果所述候选语音识别结果与实体无关,或者,所述候选语音识别结果与实体相关且所述候选语音识别结果中的实体与所述预设实体库中的实体不匹配,则将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分;
如果所述候选语音识别结果与实体相关、所述候选语音识别结果中的实体与所述预设实体库中的实体匹配且所述候选语音识别结果中的实体没有属性信息,或者,所述候选语音识别结果与实体相关、所述候选语音识别结果中的实体与所述预设实体库中的实体匹配、所述候选语音识别结果中的实体有属性信息且所述属性信息与所述预设实体库中对应实体的属性信息一致,则对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分;
如果所述候选语音识别结果与实体相关、所述候选语音识别结果中的实体与所述预设实体库中的实体匹配、所述候选语音识别结果中的实体有属性信息且所述属性信息与所述预设实体库中对应实体的属性信息不一致,则对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
具体的,可以先判断所述候选语音识别结果是否与实体相关;如果所述候选语音识别结果与实体无关,则确定所述候选语音识别结果的最终得分为所述候选语音识别结果的初始得分;如果所述候选语音识别结果与实体相关,则判断所述候选语音识别结果中的实体是否与预设实体库中的实体匹配,如果不匹配,则确定所述候选语音识别结果的最终得分为所述候选语音识别结果的初始得分;如果匹配,则判断所述候选语音识别结果中的实体是否有属性信息,如果没有,则对所述候选语音识别结果的初始得分进行激励,得到所述候选语音识别结果的最终得分;如果有属性信息,则判断属性信息是否与所述预设实体库中的实体的属性信息一致,如果一致,则对所述候选语音识别结果的初始得分进行激励,得到所述候选语音识别结果的最终得分;如果不一致,则对所述候选语音识别结果的初始得分进行惩罚,得到所述候选语音识别结果的最终得分。
综上,本申请的语音识别方法,无需在后处理阶段加载模型,只需要在后处理阶段与说法模板库和实体库进行匹配即可,大大降低了时延,提升了语音识别的速度,而且,如果新增实体或确定某个实体造成严重的误触发,只需优化说法模板库和实体库,依然能保证语音识别中实体识别的正确率。
下面对本申请实施例公开的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
参照图4,图4为本申请实施例公开的一种语音识别装置结构示意图。如图4所示,该语音识别装置可以包括:
候选语音识别结果确定单元11,用于确定候选语音识别结果;
最终得分确定单元12,用于针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
选取单元13,用于从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
作为一种可实施方式,所述候选语音识别结果确定单元,包括:
语音识别模型的解码结果获取单元,用于获取语音识别模型的解码结果;
候选语音识别结果确定子单元,用于基于所述语音识别模型的解码结果,确定所述候选语音识别结果。
作为一种可实施方式,所述候选语音识别结果确定子单元,包括:
第一候选语音识别结果确定子单元,用于将所述语音识别模型的解码结果,确定为所述候选语音识别结果。
作为一种可实施方式,所述候选语音识别结果确定子单元,包括:
目标解码结果确定子单元,用于从所述语音识别模型的解码结果中确定目标解码结果,所述目标解码结果为所述语音识别模型的解码结果中与预设说法模板匹配的解码结果;
目标实体确定子单元,用于从预设实体库中确定目标实体,所述目标实体为所述预设实体库中与所述目标解码结果中实体的相似度满足预设条件的实体;
扩展解码结果生成子单元,用于基于所述预设说法模板,以及所述目标实体,生成扩展解码结果;
第二候选语音识别结果确定子单元,用于基于所述语音识别模型的解码结果,以及,所述扩展解码结果,确定为所述候选语音识别结果。
作为一种可实施方式,所述说法模板中包含一个或多个语义槽,每个语义槽对应一个实体,则所述扩展解码结果生成子单元,具体用于:
将所述目标实体填充至所述预设说法模板中的语义槽内,生成扩展解码结果。
作为一种可实施方式,所述最终得分确定单元,包括:
初始得分确定单元,用于确定所述候选语音识别结果的初始得分;
初始得分处理单元,用于基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
作为一种可实施方式,所述初始得分确定单元,具体用于:
如果所述候选语音识别结果为所述语音识别模型的解码结果,则基于所述语音识别模型中的声学模型得分和语言模型得分,确定所述候选语音识别结果的初始得分;
如果所述候选语音识别结果为所述扩展解码结果,则基于所述目标实体的热度,和/或,所述目标实体与所述目标解码结果中实体的相似度,确定所述候选语音识别结果的初始得分。
作为一种可实施方式,所述最终得分确定单元,具体用于:
判断所述候选语音识别结果对应的说法模板是否为预设说法模板库中的说法模板;
如果是,则确定所述候选语音识别结果与实体相关;
如果不是,则确定所述候选语音识别结果与实体无关。
参照图5,图5为本申请实施例提供的一种语音识别设备的硬件结构框图,参照图5,语音设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
确定候选语音识别结果;
针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
确定候选语音识别结果;
针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种语音识别方法,其特征在于,所述方法包括:
确定候选语音识别结果;
针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定候选语音识别结果,包括:
获取语音识别模型的解码结果;
基于所述语音识别模型的解码结果,确定所述候选语音识别结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述语音识别模型的解码结果,确定所述候选语音识别结果,包括:
将所述语音识别模型的解码结果,确定为所述候选语音识别结果。
4.根据权利要求2所述的方法,其特征在于,所述基于所述语音识别模型的解码结果,确定所述候选语音识别结果,包括:
从所述语音识别模型的解码结果中确定目标解码结果,所述目标解码结果为所述语音识别模型的解码结果中与预设说法模板匹配的解码结果;
从预设实体库中确定目标实体,所述目标实体为所述预设实体库中与所述目标解码结果中实体的相似度满足预设条件的实体;
基于所述预设说法模板,以及所述目标实体,生成扩展解码结果;
基于所述语音识别模型的解码结果,以及,所述扩展解码结果,确定为所述候选语音识别结果。
5.根据权利要求4所述的方法,其特征在于,所述说法模板中包含一个或多个语义槽,每个语义槽对应一个实体,则所述基于所述预设说法模板,以及所述目标实体,生成扩展解码结果,包括:
将所述目标实体填充至所述预设说法模板中的语义槽内,生成扩展解码结果。
6.根据权利要求4所述的方法,其特征在于,所述基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,包括:
确定所述候选语音识别结果的初始得分;
基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,将所述候选语音识别结果的初始得分确定为所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行激励,确定所述候选语音识别结果的最终得分,或对所述候选语音识别结果的初始得分进行惩罚,确定所述候选语音识别结果的最终得分。
7.根据权利要求6所述的方法,其特征在于,所述确定所述候选语音识别结果的初始得分,包括:
如果所述候选语音识别结果为所述语音识别模型的解码结果,则基于所述语音识别模型中的声学模型得分和语言模型得分,确定所述候选语音识别结果的初始得分;
如果所述候选语音识别结果为所述扩展解码结果,则基于所述目标实体的热度,和/或,所述目标实体与所述目标解码结果中实体的相似度,确定所述候选语音识别结果的初始得分。
8.根据权利要求1所述的方法,其特征在于,所述候选语音识别结果的实体相关性的确定方式,包括:
判断所述候选语音识别结果对应的说法模板是否为预设说法模板库中的说法模板;
如果是,则确定所述候选语音识别结果与实体相关;
如果不是,则确定所述候选语音识别结果与实体无关。
9.一种语音识别装置,其特征在于,所述装置包括:
候选语音识别结果确定单元,用于确定候选语音识别结果;
最终得分确定单元,用于针对每个候选语音识别结果,基于所述候选语音识别结果的实体相关性,以及,与预设实体库中实体的匹配结果,确定所述候选语音识别结果的最终得分,其中,与实体相关且与预设实体库中的实体匹配的候选语音识别结果的最终得分高于与实体不相关,或,与预设实体库中实体不匹配的候选语音识别结果的最终得分;
选取单元,用于从各个候选语音识别结果中选取最终得分最高的,作为最终的语音识别结果。
10.一种语音识别设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的语音识别方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的语音识别方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311642707.8A CN117746847A (zh) | 2023-11-29 | 2023-11-29 | 语音识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311642707.8A CN117746847A (zh) | 2023-11-29 | 2023-11-29 | 语音识别方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117746847A true CN117746847A (zh) | 2024-03-22 |
Family
ID=90260028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311642707.8A Pending CN117746847A (zh) | 2023-11-29 | 2023-11-29 | 语音识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746847A (zh) |
-
2023
- 2023-11-29 CN CN202311642707.8A patent/CN117746847A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106409284B (zh) | 用于更新语言模型并执行语音识别的方法和装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7805312B2 (en) | Conversation control apparatus | |
US6873993B2 (en) | Indexing method and apparatus | |
US8589163B2 (en) | Adapting language models with a bit mask for a subset of related words | |
JP5533042B2 (ja) | 音声検索装置、音声検索方法、プログラム及び記録媒体 | |
US8849668B2 (en) | Speech recognition apparatus and method | |
US20070094008A1 (en) | Conversation control apparatus | |
CN109858038B (zh) | 一种文本标点确定方法及装置 | |
CN109614499B (zh) | 一种词典生成方法、新词发现方法、装置及电子设备 | |
US8255220B2 (en) | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database | |
JP2008262279A (ja) | 音声検索装置 | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
JPWO2010061507A1 (ja) | 言語モデル作成装置 | |
CN112331206A (zh) | 语音识别方法及设备 | |
US20130138441A1 (en) | Method and system for generating search network for voice recognition | |
JP2002082689A (ja) | 語彙ツリーを用いた認識システム | |
CN112825249A (zh) | 语音处理方法和设备 | |
JP2010256498A (ja) | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム | |
CN105632500B (zh) | 语音识别装置及其控制方法 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
CN117746847A (zh) | 语音识别方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |