CN114550718A

CN114550718A - 热词语音识别方法、装置、设备与计算机可读存储介质

Info

Publication number: CN114550718A
Application number: CN202210155622.6A
Authority: CN
Inventors: 刘沛奇; 文俊杰; 郑桂东; 周叶萍
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-27

Abstract

本申请公开了一种热词语音识别方法、装置、设备与计算机可读存储介质，涉及人工智能技术领域，该方法包括以下步骤：检测待识别音频数据，获取待识别热词音频；基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于融合了TTS生成的热词语料的训练数据训练得到。本发明在获取到待识别热词音频后，基于通过TTS以及数据增强预先训练好的语音识别声学模型，对热词音频进行识别，并对识别结果进行模糊拼音检索匹配和修正，获取到用户目标识别结果。解决了现有的热词识别模型不具有通用性，热词识别模型创建过程人力成本高，热词识别结果正确率低的问题。

Description

热词语音识别方法、装置、设备与计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及热词语音识别方法、装置、设备与计算机可读存储介质。

背景技术

随着人工智能的发展，自动语音识别技术也在不断提高，人们只需要上传音频就可以方便快捷地将其中的内容转换成文字形式，或是在谈话间就能直接将语音转换为文本，在很大程度上提高了工作效率，而现有的这些简单语音识别技术并不能满足人们不断提高的工作与学习需求。

对于现有技术来说至少存在如下问题：目前通用的自动语音识别技术只能识别一些简单的内容，若是待识别内容中存在一些专业领域的热词、术语或是人名，运用语音识别技术得出的识别结果的正确率会大大降低，而现有技术为了纠正对于专有名词的语音识别结果，提高专有名词的识别准确率，往往需要耗费大量人力收集专有名词语料来对语音识别模型进行训练，而在一定程度上，人力收集专有名词训练语料也难以做到对专业领域热词通用性，且语音识别模型的识别结果准确性低。

发明内容

本发明的主要目的在于提出一种热词语音识别方法、装置、设备与计算机可读存储介质，旨在实现热词语音识别技术通过低成本的通用性语音识别模型训练，提高语音识别结果的准确性。

为实现上述目的，本发明提供一种热词语音识别方法，所述热词语音识别方法包括如下步骤：

检测待识别音频数据，获取待识别热词音频；

基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，匹配获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于融合了通过文本转语音TTS生成的热词语料的训练数据训练得到。

优选地，所述检测待识别音频数据，获取待识别的热词音频的步骤之前，所述热词语音识别方法还包括：

通过数据加强训练得到所述语音识别声学模型，具体包括：

获取样本热词，基于所述样本热词得到样本热词词表；

基于所述样本热词词表，并通过TTS自动语音合成方式，生成不同音色的热词语料；

基于所述热词语料，获得融合所述TTS生成的不同音色的热词语料的训练数据；

基于所述训练数据，对声学模型进行数据增强训练，得到训练后的语音识别声学模型。

优选地，所述热词音频原始语料进行数据增强，所述基于所述训练数据，对声学模型进行数据增强训练，得到训练后的语音识别声学模型的步骤包括：

对所述训练数据进行数据增强，得到经过数据增强后的热词音频的训练语料，其中，所述数据增强的方式包括：音速扰动、音量扰动和加性噪音中的一种或多种；

将所述训练数据与所述经过数据增强后的热词音频的训练语料组成新增训练语料；

基于所述新增训练语料对声学模型进行训练，得到训练后的语音识别声学模型。

优选地，在所述基于预先训练好的语音识别声学模型，在所述基于所述新增训练语料对声学模型进行训练，得到训练后的语音识别声学模型之后，所述热词语音识别方法还包括：

对所述语音识别声学模型进行测试，验证所述热词音频对应的语音识别声学模型识别热词音频分布的效果；

若所述语音识别声学模型对所述热词音频分布的识别效果未达到预设标准，则增加训练语料数量，对所述语音识别声学模型进行微调训练；

若所述语音识别声学模型对所述热词音频分布识别效果达到预设标准，则获取到所述语音识别声学模型，并将所述语音识别声学模型存储至语音识别服务器。

优选地，所述基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果的步骤包括：

在分布式全文搜索引擎ES数据库中，检索所述待识别热词音频对应的热词拼音序列，获取与所述待识别热词音频对应的可纠正热词列表；

将所述可纠正热词列表作为所述待识别热词音频对应的候选热词组；

对所述候选热词组进行替换处理，获取所述待识别热词音频的目标识别结果；

其中，所述替换处理的方式包括：去除无法匹配连续片段热词、去除割裂语句语义热词、去除匹配位置冲突的热词中的一种或多种。

优选地，分布式全文搜索引擎ES数据库中，检索所有所述待识别热词音频对应的热词拼音序列，获取与所述待识别热词音频对应的可纠正热词列表的的步骤包括：

将所述待识别热词音频转化为拼音序列，并将所述拼音序列与所述ES数据库中的热词拼音序列进行匹配；

其中，所述拼音序列包括所述热词音频原文拼音序列以及所述热词音频模糊音拼音序列；

从所述ES数据库中筛选出所有能命中所述拼音序列的热词拼音序列，获取所述热词拼音序列对应的可纠正热词列表。

优选地，所述对所述候选热词组进行替换处理，获取所述待识别热词音频的目标识别结果的步骤包括：

将n-gram语言模型作为置信度判定工具，计算所述候选热词组的分布概率，其中，n元语法n-gram语言模型通过通用语料和专用语料训练得到；

将分布概率大于预设阈值的所述候选热词组作为所述待识别热词音频的目标识别结果；

其中，所述预设阈值通过结合所述候选热词组与所述拼音序列的编辑距离动态调整。

此外，为实现上述目的，本发明还提供一种热词语音识别装置，所述热词语音识别装置包括：

热词获取模块，用于检测待识别音频数据，获取待识别热词音频；

热词识别模块，用于基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于通过文本转语音TTS语音合成生成的语料训练得到。

优选地，所述热词识别模块还用于：

此外，为实现上述目的，本发明还提供一种热词语音识别设备，所述热词语音识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的热词语音识别程序，所述热词语音识别程序被所述处理器执行时实现如上所述的热词语音识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有热词语音识别程序，所述热词语音识别程序被处理器执行时实现如上所述的热词语音识别方法的步骤。

本发明实施例提出的热词语音识别方法、装置、设备与计算机可读存储介质，通过检测待识别音频数据，获取待识别热词音频；基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果。本发明根据基于融合了TTS生成的热词语料的训练数据对语音识别声学模型进行训练，且上述训练数据通过数据增强得到训练语料，通过基于上述训练语料的增强训练后的语音识别声学模型，通过将所述待识别热词音频对应的拼音序列与该语音识别声学模型进行匹配，获取对应的目标识别结果，上述语音识别声学模型在识别专业领域热词的过程中具有更好的通用性，同时，使用上述训练后的语音识别声学模型识别热词音频，提高了热词音频识别结果的正确性。

附图说明

图1是本发明热词语音识别方案涉及的硬件运行环境的设备结构示意图；

图2为本发明热词语音识别方法第一实施例的流程示意图；

图3为本发明热词语音识别方法第一实施例涉及的语音识别流程示意图；

图4为本发明热词语音识别方法第二实施例的流程示意图；

图5为本发明热词语音识别方法第二实施例步骤S21的子流程示意图；

图6为本发明热词语音识别方法第二实施例步骤S23的子流程示意图；

图7为本发明热词语音识别方法第二实施例中涉及语音识别热词后处理流程示意图；

图8为本发明热词语音识别方法第三实施例的流程示意图；

图9为本发明热词语音识别方法第三实施例中涉及的获取语音识别声学模型的流程示意图；

图10为本发明热词语音识别方法第三实施例步骤S104的子流程示意图；

图11为本发明热词语音识别方法第四实施例的流程示意图；

图12为本发明热词语音识别装置的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及热词语音识别程序。

其中，操作系统是管理和控制热词语音识别设备与软件资源的程序，支持网络通信模块、用户接口模块、热词语音识别程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。

在图1所示的热词语音识别设备中，所述热词语音识别设备通过处理器1001调用存储器1005中存储的热词语音识别程序，并执行下述热词语音识别方法各个实施例中的操作。

基于上述硬件结构，提出本发明热词语音识别方法的具体实施例。

参照图2，图2为本发明热词语音识别方法第一实施例的流程示意图。

在本实施例中，提供了热词语音识别方法的实施例，需要说明的是，虽然在所示流程图2中出示了逻辑顺序，但在某些情况下，可以以不同于此处的顺序在执行所出示或描述的步骤，所述热词语音识别方法步骤包括：

步骤S10，检测待识别音频数据，获取待识别热词音频；

步骤S20，基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于融合了通过文本转语音TTS生成的热词语料的训练数据训练得到。

在本实施例中，为了解决提高专有名词的识别准确率，往往需要耗费大量人力收集专有名词语料来对语音识别模型进行训练，而在一定程度上，人力收集专有名词训练语料也难以做到对专业领域热词的全面覆盖，该语音识别模型也并不具备通用性的问题，本实施例提出的热词音频识别方法基于通过TTS语音合成生成的训练预料，对所述语音识别声学模型进行训练，通过对所述待识别热词音频与所述语音识别声学模型进行检索匹配，获得所述待识别热词音频的目标识别结果。

以下针对每个步骤进行详细说明：

步骤S10，检测待识别音频数据，获取待识别热词音频；

在本实施例中，需要说明的是，检测待识别音频数据是通过web接口对用户提交的音频数据进行采集，上述web接口是一个基于Lucene搜索服务器存在，能够连接ES数据库以及用户的网关，该数据web接口可以用于响应用户提交的热词音频，也可以将最后的目标识别结果返回给用户。在获取到待识别的音频数据后，对该音频数据进行热词判定，获取待识别音频的热词部分以及待识别音频的非热词部分，在本实施例中的热词语音识别方法是针对所述待识别音频数据中的热词部分，确定待识别热词音频。如当接收到待识别音频数据为：“打电话给李明”，其中，获取到的热词部分为“李明”，获取到的非热词部分为“打电话给”，在此过程中，确定了待识别热词音频为“打电话给李明”。

在本实施例中，需要说明的是，所述语音识别声学模型语音识别声学模型ASR模型是基于通过TTS(Text-To-Speech)自动语音合成生成的语料训练得到，提升语音识别声学模型ASR模型对热词的优化效果，进一步地，通过预先训练好的语音识别热词模型，将待识别热词音频与经过上述步骤语料训练过的语音识别声学模型ASR模型进行检索匹配，获得所述待识别热词音频的目标识别结果。

参照图3，语音识别的具体流程，用户上传热词词表，作为网关的数据web接口接收到语音识别模型结果，使用纠正方法，对该结果进行替换处理，调用ElasticSearch检索相关的热词词表，将这些热词词组作为候选热词组，调用语言模型计算被替换的候选热词组的置信度，对符合置信度要求的片段进行热词替换；使用防误纠方法，在通过语言模型计算被替换片段置信度之后再对符合置信度要求的候选热词组片段进行替换，让替换的候选热词组作为的识别结果能够更加精细准确，再通过网关返回热词替换后的语音识别结果，该语音识别结果在使用纠正和防误纠方法后得到，具有更高的准确性，其中，所述语音识别声学模型是基于通过融合TTS语音合成生成的热词语料得到的训练数据进行数据增强训练，基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果。

进一步地，基于本发明热词语音识别方法第一实施例，提出本发明热词语音识别方法第二实施例。

热词语音识别方法的第二实施例与热词语音识别方法的第一实施例的区别在于，本实施例是对步骤S20，基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果的细化，参照图4，该步骤具体包括：

步骤S21，在分布式全文搜索引擎ES数据库中，检索所述待识别热词音频对应的热词拼音序列，获取与所述待识别热词音频对应的可纠正热词列表；

步骤S22，将所述可纠正热词列表作为所述待识别热词音频对应的候选热词组；

步骤S23，对所述候选热词组进行替换处理，获取所述待识别热词音频的目标识别结果；

以下对每个步骤进行详细说明：

在本实施例中，在获取到待识别热词音频，对该待识别热词音频进行匹配之前，将所有热词及其对应的拼音序列存储至分布式全文搜索引擎ES数据库中，再基于已获取到的待识别热词音频，将待识别热词音频的原文拼音以及模糊音拼音组合创建成一个拼音序列，与预先存储在ES数据库中的热词拼音序列进行匹配，获得与所述待识别音频对应的语音识别声学模型。

参照图5，步骤S21具体包括：

步骤a1，将所述待识别热词音频转化为拼音序列，并将所述拼音序列与所述ES数据库中的热词拼音序列进行匹配；

在本实施例中，通过上述待识别音频数据，获取到待识别热词音频，对上述待识别热词音频进行转写，获取到与待识别热词音频对应的拼音序列，将该拼音序列与存储在ES数据库中的语音识别声学模型ASR模型进行匹配，获取到对应的语音识别声学模型。

将上述拼音序列存储至ES数据库，创建连接到该拼音序列的索引，可以通过热词原文拼音进行搜索，也可通过热词模糊音拼音进行搜索，实现模糊检索，上述拼音序列包含两个字段，其中，word字段储存上述热词音频的原文拼音序列，fuzzy-py字段储存上述热词音频的模糊拼音序列，对于一个热词音频的发音，模糊音可以将后鼻音转换为前鼻音，翘舌音转换为平舌音，模糊音的生成方式在此不作限定，可根据应用场景和应用实际热词音频进行变换。

进一步地，在生成上述拼音序列后，将该拼音序列存储到ES数据库中，上传后也无需等待训练时长，直接在语音识别中体验效果，可以实现热词的随配随用。在配置完成之后，需要将上述拼音序列与存储至ES数据库中的语音识别声学模型进行匹配。

步骤a2，从所述ES数据库中筛选出所有能命中所述拼音序列的热词拼音序列，获取所述热词拼音序列对应的可纠正热词列表。

在本实施例中，在ES数据库中将上述拼音序列与语音识别声学模型的转写结果进行识别，筛选出的所有能命中该待识别热词音频拼音序列的热词的拼音序列，进而得到该热词的拼音序列对应的可纠正热词列表，例如，获取到到用户提交的待识别音频为“打电话给李明”，上述数据web接口响应到用户提交的待识别热词音频为“打电话给李明”，将“打电话给李明”进行转写获取到对应的拼音序列为“dadianhuagei li ming”，把获取到的“dadianhuagei li ming”拼音序列与ES数据库中的所有拼音序列进行匹配，获取到能与拼音序列包括“李明”原文拼音序列以及“李明”的模糊音拼音序列“li ming-li min-linming-lin min”相匹配的所有拼音序列，并获取与上述热词的拼音序列对应的可纠正热词列表。

在获取到待识别热词音频对应的拼音序列后，获取该拼音序列对应的可纠正热词列表，并将这些可纠正热词列表作为目标识别结果的候选热词组，例如，将能用拼音序列“li ming-li min-linming-lin min”检索到的所有序列作为待识别热词音频为“李明”的匹配结果，并将该匹配结果对应的的可纠正热词列表作为待识别热词音频为“李明”的候选热词组。

在一实施例中，在ES数据库中语音识别声学模型转写结果上都创建了一个连接到该语音识别声学模型的索引，若上述待识别热词音频对应的拼音序列在ES数据库中有对应的语音识别声学模型，则以其拼音序列就能通过上述索引检索到对应的语音识别声学模型，并将上述所有能够链接到的语音识别声学模型对应的热词词表作为候选热词组。

在本实施例中，基于上述通过拼音序列在ES数据库中进行检索，匹配获取到的与上述待识别热词音频的拼音序列对应的热词拼音序列，根据该语音识别声学模型获取所有能命中原文完整拼音片段的可纠正热词列表，并将这些可纠正热词列表作为候选热词组，使用纠正方法，对包含正确识别结果的热词词表进行替换处理，替换方式包括去除无法匹配连续片段热词、去除割裂语句语义热词、去除匹配位置冲突的热词中的一种或多种，实现了对候选热词组的纠正后，可以得到准确率更高、识别效果更好的目标语音识别结果。

具体地，纠正方法的步骤包括：对整句待识别音频数据进行连续匹配，去除割裂原文语义的热词词表，通过结巴分词工具，获取到没有完整覆盖原文的候选热词组，并将其删除；再通过编辑距离等相似度计算拼音相似度，按照同长度拼音相似度高原则，保留相似度最高的候选热词组，去除冲突热词，在使用纠正方法时，可通过防误纠手段让替换的候选热词组或候选热词片段更加准确精细，也能够在一定程度上实现更好的识别效果。

具体地：把n-gram语言模型作为置信度判定工具计算热词分布概率，选取分布概率大于预设阈值的候选热词词组作为目标识别结果，在通过纠正和防误纠方法之后，该目标识别结果更加准确精细。

如上述已获得识别结果为能与拼音序列包括“李明”原文拼音序列以及“李明”的模糊音拼音序列相匹配的语音识别声学模型转写结果，即能命中“li ming-li min-linming-lin min”的所有的语音识别声学模型中的热词词表作为相对应的候选热词组“李明-立命-黎明-林敏-林铭-灵敏”，对此组候选热词组进行替换处理，替换处理包括去除无法匹配连续片段的热词词表，通过上述步骤的自动识别，已经识别出非热词部分内容为“打电话给”，此时将候选热词组中的热词“李明-立命-黎明-林敏-林铭-灵敏”代入，检测出“立命、灵敏”是割裂原句语义的候选热词组，需要将其去除，得到候选热词组“李明-黎明-林敏-林铭”；再通过编辑距离等相似度计算拼音相似度，计算得出“李明-黎明”是同长度拼音相似度最高的候选热词组，去除冲突热词组之后，获取到“李明-黎明”两个待识别热词音频对应的识别结果。

参照图6，步骤S23具体包括：

步骤b1，将n-gram语言模型作为置信度判定工具，计算所述候选热词组的分布概率；

其中，n元语法n-gram语言模型通过通用语料和专用语料训练得到。

步骤b2，基于所述分布概率，当所述候选热词组分布概率大于预设阈值，将所述候选热词组作为所述待识别热词音频的目标识别结果。

在本实施例中，该置信度判定工具是判定是否对候选热词组进行替换的判定工具，通过利用经过通用语料和专用语料训练的n-gram语言模型，计算出当知道在前面n-1个词时，第n个词的概率分布，对某一专业领域的热词与其前后字词出现的分布概率与错误的候选热词组与其前后字词出现的分布概率在比较中存在着数量级的差异，所以在匹配的过程中，先计算出候选热词组的分布概率，通过设定合理的预设阈值，将热词分布概率与预设阈值进行比较，选取分布概率小于预设阈值的候选热词组进行替换，获取热词音频对应的目标识别结果。

上述步骤是防误纠方法的具体步骤，通过利用n-gram语言模型在获取目标识别结果对候选热词组进行替换处理的过程中，通过对替换的候选热词组的置信度的计算，判定该项替换处理是否进行，这些步骤大大提升了在纠正候选热词组过程中，替换处理这个步骤的正确性，从而使得替换结果的正确性也大大提高，进而获取正确率更高的目标识别结果，其中，预设阈值通过结合所述候选热词组与所述拼音序列的编辑距离动态调整，若想实现更精细的防误纠功能，可以将预设阈值放大，增加候选热词组与拼音序列的编辑距离，返回正确的目标识别结果，上述可通过动态调整的预设阈值，增加了在纠正过程中替换处理的灵活性，进而取得更好的识别效果。

例如，获取到“李明”和“黎明”两个待识别热词音频数据的识别结果，利用n-gram语言模型计算热词分布概率，此时对于此用户来说，在“打电话给”后面的热词“李明”分布概率大于“黎明”，所以获取到待识别热词音频的结果为“李明”，获取到待识别音频数据的目标识别结果为“打电话给李明”。

在本实施例中，所述语音识别声学模型利用ES数据库提供的接口通过对所述待识别热词音频进行识别，包含了高效简单的语音识别热词纠正和防误纠方法。

具体地，获取与该待识别热词音频对应的语音识别声学模型，将语音识别声学模型中的热词词表作为候选热词组，对候选热词组以去除无法匹配连续片段热词、去除割裂语句语义热词、去除匹配位置冲突的热词中的一种或多种的方式进行替换，获取到目标识别结果，其中，替换操作是通过利用专用语料训练的n-gram语言模型设置置信度判定工具，判断是否对获取的识别结果进行纠正，解决了在现有技术中要提高专业领域热词识别正确率，则必须耗费大量人力收集专有名词语料才能对语音识别模型进行训练的问题，在本发明实施例中，基于语音合成进行模型优化和后处理的方式结合的方法，进行热词纠正，无需人工收集训练语料，同时也能适用专业词汇识别场景。

在本实施例中，将待识别热词音频转化为拼音序列，并将所述拼音序列与所述ES数据库中语音识别声学模型进行匹配，匹配之后获得对应的语音识别声学模型，获取到语音识别声学模型中的热词词表，将这些热词词表作为候选热词组，对候选热词组通过纠正和防误纠的方法进行替换处理，获得目标识别结果。

具体的流程步骤如附图7所示，基于网关接受语音识别声学模型对应的拼音序列1，将语音识别模型结果拼音序列1转换为带多音字的拼音序列2，在ElasticSearch中检索拼音序列2得到对应的热词词表1，去除热词词表1中无法在序列1中匹配到连续片段的热词，得到候选热词组2，去除候选热词组2中会割裂原文语义的热词词组，得到候选热词组3，根据不同长度优先长度较长，同长度优先拼音相似度高的原则进行删除匹配位置冲突的热词，得到候选热词组4，利用语言模型的置信度，删除不满足阈值要求的热词替换，对剩余的候选热词组进行替换得到结果序列，最后将结果序列返回给用户。

在本实施例中，对待识别热词音频数据对应的候选热词词组根据不同规则被剔除，最后剩下满足全部替换置信度的候选热词组，获取到待识别热词音频的目标识别结果。以上通过语音识别的热词纠正方法，对获取到的语音识别声学模型对应的候选热词组进行替换处理，又在进行替换处理的过程中使用防误纠方法，让进行替换的候选热词组或候选热词片段更加准确，获取的识别结果也更加准确精细，提高了识别专用领域热词的识别效果。

进一步地，基于本发明热词语音识别方法的第一、第二实施例，提出本发明热词语音识别方法的第三实施例。

本发明热词语音识别方法的第三实施例与第一、第二实施例的区别在于，在所述检测待识别音频数据，获取需要识别的热词音频的步骤之前，所述热词语音识别方法还包括，通过数据加强训练得到所述语音识别声学模型，也称ASR模型，参照图8，具体步骤包括：

步骤S101，获取样本热词，基于所述样本热词得到样本热词词表；

获取样本热词，基于每个不同的样本热词，生成对应的热词词表，上述获取样本热词的方式包括用户输入以及开发者输入等不同方式。如在获取到用户输入或是开发者上传的样本热词之后，生成用户或开发者输入上传的对应的热词词表。

步骤S102，基于所述样本热词词表，并通过TTS自动语音合成方式，生成不同音色的热词语料；

步骤S103，基于所述热词语料，获得融合所述TTS生成的不同音色的热词语料的训练数据；

步骤S104，基于所述训练数据，对声学模型进行数据增强训练，得到训练后的语音识别声学模型。

在本实施例中，通过融合上述TTS自动语音合成技术生成的热词语料，获得对应的训练数据，根据上述训练语料通过数据增强方式获得增强训练后的训练语料，其中，进行数据增强的方式包括音速扰动、音量扰动和加性噪音中的一种或多种，基于上述训练数据对上述语音识别声学模型进行数据增强训练，得到数据增强训练后的语音识别声学模型。

对ASR模型进行热词训练的步骤参照图9，具体包括：生成热词词表，利用TTS生成不同音色的热词音频，对热词的音频进行数据增强，按一定比例加入训练预料对声学模型进行微调优化以及热词效果测试。将需要进行识别优化的热词按一定格式生成相应的热词表，得到热词表后，利用TTS自动语音合成技术，选择尽可能多的音色，生成热词的对应的音频。在本实施例中，为了提高生成音频的丰富度，选择了5个不同音色的声音生成热词对应的音频，包括男声和女声等，将上述通过TTS生成的热词对应的不同音色热词音频作为不同音色的热词语料，根据该热词语料得到对应的训练数据，基于该训练数据对声学模型进行训练，得到加强训练后的语音识别声学模型。

参照图10，步骤S104具体包括：

步骤c1，对所述训练数据进行数据增强，得到经过数据增强后的热词音频的训练语料；

其中，所述数据增强的方式包括：音速扰动、音量扰动和加性噪音中的一种或多种；

在本实施例中，数据增强的方式包括了添加语音速度干扰因子，可选择0.9倍、1.1倍、1.25倍的三种干扰速度的干扰因子对原始TTS自动语音合成技术生成的原始语料进行语音速度干扰处理，另外该方式还包括添加音量扰动因子，音量扰动则在[0.125，2]之间选取随机值，对原始语料进行音量调节，最后，对原始热词音频随机添加噪声集中的噪声，包括音乐、混响、人声等多种噪声，通过上述数据增强方式，获取到经过数据增强后的热词音频与所述热词音频原始语料组成新增的新增训练预料。

基于上述三种数据增强方式，采取音速扰动、音量扰动和加性噪音中的一种或多种方式获取到增强后的训练语料，将上述增强后的训练语料与原始语料组合，形成新增训练语料，通过使用新增训练预料对声学模型进行加强训练，获取到训练后的语音识别声学模型。

步骤c2，将所述训练数据与所述经过数据增强后的热词音频的训练语料组成新增训练语料；

步骤c3，基于所述新增训练语料对声学模型进行训练，得到训练后的语音识别声学模型。

在对上述TTS自动语音合成技术生成不同音色的热词语料后，获得融合所述TTS生成的不同音色的热词语料的训练数据，对所述声学模型进行基于所述训练数据的数据增强训练，得到训练后数据加强的语音识别声学模型。

其中，所述训练数据是通过数据增强得到的训练语料，上述数据增强方式包括音速扰动、音量扰动和加性噪音中的一种或多种，对语音识别声学模型不断加入训练语料进行调整与训练，得到训练后数据加强的语音识别声学模型。

在本实施例中，所述语音识别声学模型的训练预料经过TTS语音自动合成技术获取到了各种不同音色的原始语料，又通过数据增强的三种方式包括音速扰动、音量扰动和加性噪音，获取到了数据增强后的新增训练语料，对ASR声学模型进行训练，使得该ASR语音识别声学模型在识别专业领域热词的过程中具有一定的通用性，同时也提高了热词识别的准确性。

进一步地，基于本发明热词语音识别方法的第一、第二、第三实施例，提出本发明热词语音识别方法的第四实施例。

本发明热词语音识别方法的第四实施例与其他实施例的区别在于，在所述基于所述训练数据，对声学模型进行数据增强训练，得到训练后的语音识别声学模型之后，所述热词语音识别方法还包括对语音识别声学模型进行测试，参照图11，具体步骤包括：

步骤S201，对所述语音识别声学模型进行测试，验证所述语音识别声学模型识别热词音频分布的效果；

在本实施例中，为了使语音识别声学模型达到更好的识别效果，在得到数据增强后的语音识别声学模型后，需要对该语音识别声学模型进行测试，验证所述语音识别声学模型识别热词音频分布的效果，提升语音识别声学模型的识别能力。

步骤S202，若所述语音识别声学模型对所述热词音频分布的识别效果未达到预设标准，则增加训练语料数量，对所述语音识别声学模型进行微调训练；

在本实施例中，若所述语音识别声学模型对所述热词音频分布的识别效果未达到预设标准，则会将该语音识别声学模型返回，再次进行训练数据的增强，得到增加的训练语料，对所述语音识别声学模型进行基于上述增加的训练语料的微调训练；

步骤S203，若所述语音识别声学模型对所述热词音频分布的识别效果达到预设标准，则将所述语音识别声学模型存储至语音识别服务器。

若所述语音识别声学模型对所述热词音频分布识别效果达到预设标准，即该语音识别声学模型有较佳的识别效果，则将所述语音识别声学模型存储至语音识别服务器，可随时调用。

在本实施例中，对语音识别声学模型进行识别效果测试，验证语音识别声学模型在语音识别过程中识别热词的效果，若识别效果未达到预设标准，则可调整获得训练数据和训练语料的参数，获得更加多样的训练数据和训练语料，对语音识别声学模型进行数据增强训练，提升上述语音识别声学模型在热词语音识别过程中的识别效果。

本发明还提供一种热词语音识别装置，参照图12。本发明热词语音识别装置包括：

热词获取模块10，用于检测待识别音频数据，获取待识别热词音频；

热词识别模块20，用于基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于通过TTS语音合成生成的语料训练得到。

优选地，所述热词识别模块20还用于：

本实施例热词语音识别装置实现热词语音识别的原理，请参照上述各实施例，在此不再赘述。

本发明在实施过程中还提供另一种热词语音识别装置。本发明热词语音识别装置包括：

热词训练模块，用于基于TTS自动语音合成训练语料，并获取数据增强的训练语料，对热词对应的语音识别声学模型进行微调训练，获得语音识别声学模型；

热词存储模块，用于基于ElasticSearch存储热词的文本和对应的拼音序列；

该模块利用ElasticSearch服务器存储热词的文本和对应的拼音索引。ElasticSearch是一个基于Lucene的搜索服务器，它提供一个分布式的全文搜索引擎并提供丰富的RESTful web接口。在本发明中，需要在ElasticSearch中创建一个索引。在该索引中主要包括两个字段，word字段存储热词的原文，fuzzy_py字段存储热词的某一个发音的拼音模糊序列。对于一个热词的一个发音，我们会将其转换成不带音调的拼音字母，同时将拼音中的翘舌音转为平舌音，将后鼻音转换为前鼻音，来提高匹配的成功率。使用者也可以根据具体的使用场景，调整模糊拼音的生成方式，来提供对应场景的检索召回率。字与字之间的拼音用空格隔开，字段类型设置为type，ElasticSearch便会将每个字的拼音都创建一个链接到该条目的索引，方便后面进行模糊的检索。

热词配置模块，用于响应用户提交的热词音频，并通过热词音频上传对应的热词词表；

该模块提供一个接口用于响应用户提交的热词表。在收到热词后，该模块会将这些热词序列进行去重，并将每个词的每个发音都转换成一个fuzzy_py序列，存储到模块1的ElasticSearch服务器中。通过该模块，可以实现热词的随配随用，用户上传后无需等待训练时长，便可以直接在语音识别中体验到效果。

后处理纠正模块，用于基于语言模型和模糊拼音的拼音序列纠正候选热词组，获取正确的目标识别结果。

该模块通过在用户和语言识别服务之间建立一层网关，用来接收语音识别的转写结果，并将纠正后的文本转发给用户，完整流程见图3。在收到语音识别转写的一段文本后，该模块将这一整段话转为与fuzzy_py一样格式的拼音序列，此时每个字的多音字发音都直接添加到序列中间。例如“我想长大”转换为“woxiangzhangchang da”。如果fuzzy_py中对拼音进行了翘舌转平舌之类的模糊化处理，那么这里也需要进行相同的操作。之后，通过匹配elasticsearch中的fuzzy_py字段进行检索，便可以召回出该句子可能匹配的热词列表。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有热词语音识别程序，所述热词语音识别程序被处理器执行时实现如上所述的热词语音识别方法的步骤。

其中，在所述处理器上运行的热词语音识别程序被执行时所实现的方法可参照本发明热词语音识别方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，扫地机器人或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种热词语音识别方法，其特征在于，所述热词语音识别方法包括：

检测待识别音频数据，获取待识别热词音频；

基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于融合了通过文本转语音TTS生成的热词语料的训练数据训练得到。

2.如权利要求1所述的热词语音识别方法，其特征在于，所述检测待识别音频数据，获取待识别热词音频的步骤之前，所述热词语音识别方法还包括：

通过数据加强训练得到所述语音识别声学模型，具体包括：

获取样本热词，基于所述样本热词得到样本热词词表；

3.如权利要求2所述的热词语音识别方法，其特征在于，所述基于所述训练数据，对声学模型进行数据增强训练，得到训练后的语音识别声学模型的步骤包括：

4.如权利要求3所述的热词语音识别方法，其特征在于，在所述基于所述新增训练语料对声学模型进行训练，得到训练后的语音识别声学模型之后，所述热词语音识别方法还包括：

对所述语音识别声学模型进行测试，验证所述语音识别声学模型识别热词音频分布的效果；

若所述语音识别声学模型对所述热词音频分布的识别效果达到预设标准，则将所述语音识别声学模型存储至语音识别服务器。

5.如权利要求1所述的热词语音识别方法，其特征在于，所述基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果的步骤包括：

6.如权利要求5所述的热词语音识别方法，其特征在于，所述在分布式全文搜索引擎ES数据库中，检索所有所述待识别热词音频对应的热词拼音序列，获取与所述待识别热词音频对应的可纠正热词列表的步骤包括：

7.如权利要求6所述的热词语音识别方法，其特征在于，所述对所述候选热词组进行替换处理，获取所述待识别热词音频的目标识别结果的步骤包括：

8.一种热词语音识别装置，其特征在于，所述热词语音识别装置包括：

热词识别模块，用于基于预先训练好的语音识别声学模型，对所述待识别热词音频进行识别，获得所述待识别热词音频的目标识别结果，其中，所述语音识别声学模型是基于融合了通过文本转语音TTS生成的热词语料的训练数据训练得到。

9.一种智能设备，其特征在于，所述智能设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的热词语音识别的程序，所述热词语音识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的热词语音识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有热词语音识别方法程序，所述热词语音识别方法程序被处理器执行时实现如权利要求1至7中任一项的热词语音识别方法的步骤。