CN112349278A

CN112349278A - 本地热词训练和识别方法及装置

Info

Publication number: CN112349278A
Application number: CN202011272759.7A
Authority: CN
Inventors: 夏念鑫; 甘津瑞; 张顺
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-09

Abstract

本发明公开一种本地热词训练和识别方法及装置，其中，本地热词训练方法，包括：响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。通过本地热词引擎SDK获取的热词以及与所述热词对应的各个维度的自定义标准参数信息生成定制模型，从而可以实现经常更换热词或者使用特殊的词识别代替唤醒词，而后基于各个维度的自定义标准参数信息形成本地热词引擎SDK的过滤筛选标准进行识别用户输入的音频，从而可以实现得到符合用户自定义标准的识别结果。

Description

本地热词训练和识别方法及装置

技术领域

本发明属于语音识别领域，尤其涉及本地热词训练和识别方法及装置。

背景技术

相关技术中，主要是以先收集用户需求的热词，进行定制训练热词模型，而后将训练好的定制模型导出放到指定的离线设备中使用。

其中，本地热词引擎的实现一般先是收集用户的热词需求，后会经过专门的训练来训练专门的定制模型，后将这个模型导出后放到用户的设备上使用。

发明人在实现本发明的过程中发现以定制的方式来进行的话，主要是以下缺陷：

第一，此方法成本较大需要收集需求、训练定制模型、导出模型，耗费了大量的人力成本和时间成本。

第二，此方式对于经常修改或者对极个别热词有置信度要求的开发者不太方便，无法自行灵活添加热词，且无法灵活修改对于各个热词的置信度以及其他维度的自定义标准。

发明内容

本发明实施例提供一种本地热词训练和识别方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种本地热词训练方法，用于本地热词引擎SDK，包括：响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

第二方面，本发明实施例提供一种本地热词识别方法，用于本地热词引擎SDK，包括：响应于获取的用户的输入音频，将所述输入音频送入本地热词训练方法训练后的定制模型中进行识别；获取所述定制模型返回的识别结果；经由根据本地热词训练方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；将过滤后的识别结果返回给所述用户。

第三方面，本发明实施例提供一种本地热词训练装置，用于本地热词引擎SDK，包括：获取发送模块，配置为响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；形成模块，配置为配置为基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

第四方面，本发明实施例提供一种本地热词识别装置，用于本地热词引擎SDK，包括：获取送入识别模块，配置为响应于获取的用户的输入音频，将所述输入音频送入本地热词训练方法训练后的定制模型中进行识别；获取模块，配置为获取所述定制模型返回的识别结果；过滤模块，配置为经由根据本地热词训练方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；返回模块，配置为将过滤后的识别结果返回给所述用户。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的本地热词训练和识别方法的步骤。

第六方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过本地热词引擎SDK获取的热词以及与所述热词对应的各个维度的自定义标准参数信息生成定制模型，从而可以实现经常更换热词或者使用特殊的词识别代替唤醒词，而后基于各个维度的自定义标准参数信息形成本地热词引擎SDK的过滤筛选标准进行识别用户输入的音频，从而可以实现得到符合用户自定义标准的识别结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种本地热词训练方法的流程图；

图2为本发明一实施例提供的一种本地热词识别方法的流程图；

图3为本发明实施例的本地热词训练和识别的方案一具体实施例的本地热词训练流程图；

图4为本发明实施例的本地热词训练和识别的方案一具体实施例的本地热词识别流程图；

图5为本发明一实施例提供的一种本地热词训练装置的框图；

图6为本发明一实施例提供的一种本地热词识别装置的框图；

图7为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种本地热词训练方法的一实施例的流程图，用于本地热词引擎SDK。

如图1所示，在步骤101中，响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；

在步骤102中，基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

在本实施例中，对于步骤101，本地热词训练装置响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令，例如，以IOS系统为例，将经由用户根据用户自己所需要的热词通过IOS本地热词引擎提供的接口输入自定义的热词以及与定制的热词对应的各个维度的自定义标准参数信息整合为训练模型的参数信息，然后再进行模型的定制。

之后，对于步骤102，本地热词训练装置基于各个维度的自定义标准参数信息形成本地热词引擎SDK的过滤筛选标准，例如，可以将后续语音识别结果中符合用户自定义标准的反馈给用户，将不符合用户自定义标准的过滤掉。

在本实施例所述的方案中，通过本地热词引擎SDK获取的热词以及与所述热词对应的各个维度的自定义标准参数信息生成定制模型，从而可以实现经常更换热词或者使用特殊的词识别代替唤醒词，而后基于各个维度的自定义标准参数信息形成本地热词引擎SDK的过滤筛选标准，从而可以实现得到符合用户自定义标准的识别结果。

在上述实施例所述的方法中，所述各个维度的自定义标准参数信息包括置信度和/或阈值。

在上述实施例所述的方法中，所述获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，包括：

获取经由用户输入的所述用户需要的热词以及与所述热词对应的各个维度的自定义标准参数信息；

所述经由用户输入的所述用户需要的热词包括：

经由所述用户新增的热词、经由所述用户对所述定制模型中原有热词修改后的热词和/或经由所述用户对所述定制模型中原有热词的删除。

在上述实施例所述的方法中，所述方法还包括：

响应于获取到经由外部定制的模型，获取经由所述用户输入的所述用户需要的热词以及与所述热词对应的各个维度的自定义标准参数信息后对所述外部定制模型进行训练。

例如，在外部进行模型的定制，在获取到导入的外部定制模型之后再经由用户输入的用户需要的热词以及与热词对应的各个维度的自定义标准参数信息后对外部定制模型进行训练。

在本实施例所述的方案中，通过在外部进行模型的定制，从而可以实现收集到更为详细和全面的数据，进一步的可以带来更好的识别精准度。

请参考图2，其示出了本发明的一种本地热词识别方法的一实施例的流程图，用于本地热词引擎SDK。

如图2所示，在步骤201中，响应于获取的用户的输入音频，将所述输入音频送入根据本地热词训练方法训练后的定制模型中进行识别；

在步骤202中，获取所述定制模型返回的识别结果；

在步骤203中，经由根据本地热词训练方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；

在步骤204中，将过滤后的识别结果返回给所述用户。

在本实施例中，对于步骤201，本地热词识别装置响应于获取的用户的输入音频，将输入音频送入根据获取的热词以及与所述热词对应的各个维度的自定义标准参数信息训练生成的定制模型中进行识别；然后，对于步骤202，本地热词识别装置获取定制模型返回的识别结果；之后，对于步骤203，基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准对识别结果进行过滤，最后，对于步骤204，本地热词识别装置将过滤后的识别结果返回给所述用户；例如，将不符合用户自定义标准的识别结果进行过滤，将符合用户自定义标准的识别结果返回给用户。

在上述实施例所述的方法中，所述各个维度的自定义标准参数信息包括置信度和/或阈值，所述经由根据本地热词训练方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤包括：

利用所述置信度和/或所述阈值对所述识别结果进行过滤。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

以定制的方式来进行的话，主要是以下缺陷。

成本大的原因主要是这个定制专属模型的过程中环节很多，链条很长，所以会耗费大量的人力成本和时间成本。

无法灵活自定义热词以及自定义热词各个维度的标准主要是一般是因为，定制模型都是先收集定制者的需求，热词基本都是需求中的是固定的，模型一旦形成就无法更改，除非重新训练，且大多数很多厂商的热词模型定制很多维度都是提前输入的且基本都识别出来原生结果抛出，基本不会提供接口来输入自定义标准和过滤抛出的识别结果。

发明人在实现本发明的过程中发现为什么不容易想到原因：

通常采用会先手机用户针对个别热词的各个维度的自定义标准，后去训练定制模型；如果有追加的词或者标准会再重新收集并训练定制模型。

通常训练模型定制了之后，对于本地热词的各维度的标准也就制定了，无法动态去调整这个既有的标准。如果想做到动态修改本地热词的各个维度的自定义标准或者按照自定义标准处理模型抛出结果，需要各个层面的配合以及行业经验积累，还是较为困难。

如图3和图4所示，首先，以iOS系统为例，本地热词引擎SDK会提供接口给开发者，可以对热词进行新增、删除；可以修改热词的阈值或者置信度等不同维度的自定义标准；可以制定一些自定义的标准过滤模型抛出的结果。

然后，将本地热词引擎SDK传入的参数信息整合为训练模型的参数信息，然后在端上进行模型的定制过程。

最后，将定制好的模型直接提供给本地热词引擎SDK使用。

本发明的技术创新点：

本方案由传入自定义热词以及热词标准、本地训练定制模型、基于训练好的模型的识别处理流程以及一些其他步骤组成。

传入自定义热词和自定义热词标准，即用户根据自己的实际情况，通过iOS本地热词引擎提供的接口传入自定义的热词和对应的热词的各个维度的自定义标准，如置信度、阈值等等。

本地训练模型，即通过用户输入的参数信息进行本地训练定制的模型，通过短暂的时间训练过程形成定制模型，提供后续使用。

基于训练好的模型的识别处理流程，即基于训练好的模型对用户输入的音频进行识别处理后将识别结果抛给iOS本地热词SDK，然后通过用户输入的一些标准对结果进行过滤筛选处理，将符合要求的抛给用户。

以下对各环节进行详细说明：

形成对应的定制模型

用户通过SDK提供的接口输入自己需要训练的热词以及各个热词各个维度的自定义标准参数信息，然后训练生成模型。

处理识别过程

基于上一步形成的模型，用户可以通过SDK提供的接口输入音频，SDK将音频送入模型进行识别，模型识别后吐出识别结果返回给SDK，SDK通过第一个环节用户输入的自定义标准来对模型吐出的识别结果进行过滤筛选处理，后将符合条件的结果返回给用户。

发明人在实现本发明的过程中形成的beta版：

备选方案，还是提供本地热词引擎SDK但是只提供处理识别的部分，模型的定制还是在外部定制，定制完成之后导出模型与本地热词引擎SDK一起提供给用户，由SDK加载定制的模型。

优点：

模型外部定制训练，因为收集的数据更为详细和全面，所以模型可能带来更好的识别的精准度。

缺点：

模型定制周期较为长，消耗时间成本。

如增加热词或者更改一些热词自定义的标准，需要重新训练定制模型，不灵活。

发明人在实现本发明的过程中发现达到更深层次的效果：

本方案很适合经常更换热词或者想要用特殊的词识别代替唤醒操作的客户，用户可以通过iOS本地热词引擎SDK灵活的在端上添加热词、删除热词、修改对各个热词各个维度的自定义标准，而后得出的识别结果可以自定义条件进行筛选过滤，从而得到符合自己标准的识别结果，然后做出一些后续的操作。

请参考图5，其示出了本发明一实施例提供的一种本地热词训练装置的框图，用于本地热词引擎SDK。

如图5所示，本地热词训练装置500，包括获取发送模块510和形成模块520。

其中，获取发送模块510，配置为响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；形成模块520，配置为配置为基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

请参考图6，其示出了本发明一实施例提供的一种本地热词识别装置的框图，用于本地热词引擎SDK。

如图6所示，本地热词识别装置600，包括获取送入识别模块610、获取模块620、过滤模块630和返回模块640。

其中，获取送入识别模块610，配置为响应于获取的用户的输入音频，将所述输入音频送入本地热词训练装置训练后的定制模型中进行识别；获取模块620，配置为获取所述定制模型返回的识别结果；过滤模块630，配置为经由本地热词训练装置形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；返回模块640，配置为将过滤后的识别结果返回给所述用户。

应当理解，图5和图6中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5和图6中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如获取发送模块可以描述为响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令的模块，另外，还可以通过硬件处理器来实现相关功能模块，例如获取发送模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的本地热词训练和识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；

基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的用户的输入音频，将所述输入音频送入本地热词训练装置所述的方法训练后的定制模型中进行识别；

获取所述定制模型返回的识别结果；

经由根据本地热词训练方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；

将过滤后的识别结果返回给所述用户。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据本地热词训练和识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地热词训练和识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项本地热词训练和识别方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。用于本地热词训练和识别方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于本地热词训练和识别装置方法。输入装置730可接收输入的数字或字符信息，以及产生与用于本地热词训练和识别装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于本地热词训练和识别装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

作为另一种实施方式，上述电子设备应用于本地热词训练和识别装置中，包括：

响应于获取的用户的输入音频，将所述输入音频送入根据本地热词训练方法训练后的定制模型中进行识别；

获取所述定制模型返回的识别结果；

将过滤后的识别结果返回给所述用户。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种本地热词训练方法，其特征在于，用于本地热词引擎SDK，包括：

2.根据权利要求1所述的方法，其特征在于，所述各个维度的自定义标准参数信息包括置信度和/或阈值。

3.根据权利要求1所述的方法，其特征在于，所述获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，包括：

所述经由用户输入的所述用户需要的热词包括：

经由所述用户新增的热词、经由所述用户对所述定制模型中原有热词修改后的热词和/或经由所述用户对所述定制模型中原有热词删除后的热词。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

响应于获取到经由外部定制的模型，获取经由所述用户输入的所述用户需要的热词以及与所述热词对应的各个维度的自定义标准参数信息后对所述定制模型进行训练。

5.一种本地热词识别方法，其特征在于，用于本地热词引擎SDK，包括：

响应于获取的用户的输入音频，将所述输入音频送入根据权利要求1所述的方法训练后的定制模型中进行识别；

获取所述定制模型返回的识别结果；

经由根据权利要求1所述的方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；

将过滤后的识别结果返回给所述用户。

6.根据权利要求5所述的方法，其特征在于，所述各个维度的自定义标准参数信息包括置信度和/或阈值，所述经由根据权利要求1所述的方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤的步骤包括：

利用所述置信度和/或所述阈值对所述识别结果进行过滤。

7.一种本地热词训练装置，其特征在于，用于本地热词引擎SDK，包括：

获取发送模块，配置为响应于获取的热词以及与所述热词对应的各个维度的自定义标准参数信息，基于所述热词向定制模型发送训练指令；

形成模块，配置为基于所述各个维度的自定义标准参数信息形成所述本地热词引擎SDK的过滤筛选标准。

8.一种本地热词识别装置，其特征在于，用于本地热词引擎SDK，包括：

获取送入识别模块，配置为响应于获取的用户的输入音频，将所述输入音频送入根据权利要求1所述的方法训练后的定制模型中进行识别；

获取模块，配置为获取所述定制模型返回的识别结果；

过滤模块，配置为经由根据权利要求1所述的方法形成的所述本地热词引擎SDK的筛选标准对所述识别结果进行过滤；

返回模块，配置为将过滤后的识别结果返回给所述用户。

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求5至6中任一项所述方法的步骤。