CN110349569A

CN110349569A - 定制化产品语言模型的训练和识别方法及装置

Info

Publication number: CN110349569A
Application number: CN201910588585.6A
Authority: CN
Inventors: 徐飞; 陈明佳
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-10-18
Anticipated expiration: 2039-07-02
Also published as: CN110349569B

Abstract

本发明公开定制化产品语言模型的训练和识别方法及装置，其中，一种定制化产品语言模型的训练和识别方法，包括：响应于产品的发布或更新，利用训练语料对产品进行训练，其中，训练语料包括通用语料、热点语料和开发者定制语料，产品的语言模型包括第一路解码、第二路解码和第三路解码；将通用语料输入至第一路解码以将第一路解码训练成通用语言模型；将热点语料输入至第二路解码以将第二路解码训练成解决方案语言模型；将开发者定制语料输入至第三路解码以将第三路解码训练成定制产品语言模型。本申请的方法及装置提供的方案可以对三种语料分别训练从而对不同的语料更有针对性，对开发者更友好，开发者只需专注于自己的定制即可。

Description

定制化产品语言模型的训练和识别方法及装置

技术领域

本发明属于语言模型训练识别技术领域，尤其涉及定制化产品语言模型的训练和识别方法及装置。

背景技术

相关技术中，目前市场上有AIUI热词更新训练相关的产品。通过上传热词，如歌曲名、影视名，通过语言模型训练，提供热词的识别率。

发明人在实现本申请的过程中发现，现有技术中的上述方案主要存在以下缺陷：

(1)仅支持热词更新识别，远不能满足开发者高定制化的需求；

(2)训练时间长，通常需要几小时。

发明人还发现，上述缺陷主要是由以下原因导致的：

(1)产品设计上没有充分考虑用户需求，语言模型架构上设计不足；

(2)受限于语言模型训练算法。

发明内容

本发明实施例提供一种定制化产品语言模型的训练和识别方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种定制化产品语言模型的训练方法，包括：响应于产品的发布或更新，利用训练语料对产品进行训练，其中，所述训练语料包括通用语料、热点语料和开发者定制语料，所述产品的语言模型包括第一路解码、第二路解码和第三路解码；将所述通用语料输入至所述第一路解码以将所述第一路解码训练成通用语言模型；将所述热点语料输入至所述第二路解码以将所述第二路解码训练成解决方案语言模型；将所述开发者定制语料输入至所述第三路解码以将所述第三路解码训练成定制产品语言模型。

第二方面，本发明实施例提供一种定制化产品语言模型的识别方法，包括：将待识别语音输入至根据第一方面所述的通用语言模型、解决方案语言模型和定制产品语言模型；分别获取所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型的语言模型得分及对应的识别文本序列；输出语言模型得分最高的识别文本序列作为最终识别文本。

第三方面，本发明实施例提供一种定制化产品语言模型的训练装置，包括：训练模块，配置为响应于产品的发布或更新，利用训练语料对产品进行训练，其中，所述训练预语料包括通用语料、热点语料和开发者定制语料，所述产品的语言模型包括第一路解码、第二路解码和第三路解码；第一模型形成模块，配置为将所述通用语料输入至所述第一路解码以将所述第一路解码训练成通用语言模型；第二模型形成模块，配置为将所述热点语料输入至所述第二路解码以将所述第二路解码训练成解决方案语言模型；以及第三模型形成模块，配置为将所述开发者定制语料输入至所述第三路解码以将所述第三路解码训练成定制产品语言模型。

第四方面，本发明实施例提供一种定制化产品语言模型的识别装置，包括：输入模块，配置为将待识别语音输入至根据第一方面所述的方法训练后的通用语言模型、解决方案语言模型和定制产品语言模型；获取模块，配置为分别获取所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型的语言模型得分及对应的识别文本序列；以及输出模块，配置为输出语言模型得分最高的识别文本序列作为最终识别文本。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的定制化产品语言模型的训练方法和识别方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的定制化产品语言模型的训练方法和识别方法的步骤。

本申请的方法及装置提供的方案通过对三种语料分别训练从而对不同的语料更有针对性，进而后续不同的语言模型对不同的语料的识别率更高，同时各模型也相对独立，耦合度低，支持单独修改、更新、训练，对开发者更友好；包含通用语料和热点语料，开发者只需专注于自己的定制即可。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种定制化产品语言模型的训练方法的流程图；

图2为本发明一实施例提供的一种定制化产品语言模型的识别方法的流程图；

图3为本发明一实施例提供的一种定制化产品语言模型的具体实现过程的框图；

图4为本发明一实施例提供的一种定制化产品语言模型的识别方法的一种具体实现的流程图；

图5为本发明一实施例提供的一种定制化产品语言模型的训练装置的框图；

图6为本发明一实施例提供的一种定制化产品语言模型的识别装置的框图；

图7是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的定制化产品语言模型的训练和识别方法一实施例的流程图，本实施例的定制化产品语言模型的训练和识别方法可以适用于具备语言模型或智能语音对话识别功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的小型的支持语音识别的智能终端等。

如图1所示，在步骤101中，响应于产品的发布或更新，利用训练语料对产品进行训练；

在步骤102中，将通用语料输入至第一路解码以将第一路解码训练成通用语言模型；

在步骤103中，将热点语料输入至第二路解码以将第二路解码训练成解决方案语言模型；

在步骤104中，将开发者定制语料输入至第三路解码以将第三路解码训练成定制产品语言模型。

在本实施例中，对于步骤101，定制化产品语言模型的训练装置在开发者对产品进行发布或者更新的时候，利用训练语料对产品进行训练，其中，训练语料包括通用语料、热点语料和开发者定制语料，产品的语言模型包括第一路解码、第二路解码和第三路解码。然后对于步骤102、步骤103和步骤104，分别利用不同的语料训练出不同的语言模型。其中，在产品发布的时候，三种语料都会进行训练，从而最终的产品可以识别通用词汇，也能识别热点词汇和开发者定制词汇。另一方面，在产品更新的时候，可以只训练其中一种语料，即每一种语料的更新周期不同从而各个模型的更新周期也不同，这样，每次更新并不需要对整个模型进行更新，而是可以部分更新，更新速度更快，模型小占用空间小。

本实施例提供的方案通过对三种语料分别训练从而对不同的语料更有针对性，进而后续不同的语言模型对不同的语料的识别率更高，同时各模型也相对独立，耦合度低，支持单独修改、更新、训练，对开发者更友好；包含通用语料和热点语料，开发者只需专注于自己的定制即可。

在一些可选的实施例中，上述方法还包括：基于第一周期更新通用语料、基于第二周期更新热点语料，其中，第一周期大于第二周期；响应于开发者提交新的定制语料更新开发者定制语料。本实施例的方法通过对于不同语料分别基于不同的更新周期进行更新，更新的时候训练，训练数据量小同时又能保证识别率，对用户更友好。

在一些可选的实施例中，通用语料包括通用场景说法和词库、车载场景说法和词库、家居场景说法和词库和机器人场景说法和词库；热点语料包括热词、流行说法和对应的词库；开发者定制语料包括开发者定制的说法和词库。

在一些可选的实施例中，利用训练语料对产品进行训练包括：利用训练语料对产品进行分词训练并设置训练时间不超过预设阈值。从而本申请实施例提供的方案能够通过限制训练时间从而可以生成资源相对较小的语言模型。

进一步参考图2，其示出了一种根据权利要求上述方法训练后的定制化产品语言模型的识别方法。

如图2所示，在步骤201中，将待识别语音输入至通用语言模型、解决方案语言模型和定制产品语言模型；

在步骤202中，分别获取通用语言模型、解决方案语言模型和定制产品语言模型的语言模型得分及对应的识别文本序列；

在步骤203中，输出语言模型得分最高的识别文本序列作为最终识别文本。

在本实施例中，对于步骤201，定制化产品语言模型的识别装置通过将待识别语音分别输入至通用语言模型、解决方案语言模型和定制产品语言模型中，可以分别用不同的语言模型来对待识别语音进行识别，从而提高识别率。之后，对于步骤202，定制化产品语言模型的识别装置分别获取通用语言模型、解决方案语言模型以及定制化语言模型的语言模型得分和对应的识别文本序列，从而得到三种识别文本序列和相应的得分。最后，对于步骤203，定制化产品语言模型的识别装置根据得到的三种识别文本和相应的得分输出其中得分最高的识别文本序列作为最终识别文本。可选的，对于每个语言模型的得分也可以有不同的权重，最后输出的可以是加权后的识别文本序列，从而开发者也能对输出结果有一定的控制能力，使其更加符合开发者的定制，本申请在此没有限制。

本实施例的方法通过分别将待识别语音输入三种不同的经过训练的语言模型，极大地提高识别率，开发者定制的内容和热点内容也能具有较好的识别率。

在一些可选的实施例中，定制产品语言模型具有第一识别优先级，通用语言模型具有第二识别优先级。从而当资源有限时，优先进行定制产品语言模型识别，充分保证开发者定制的识别率。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人对现有技术进行仔细研究后发现，本领域技术人员为了解决上述缺陷，可能会采用以下方案：

通过大量数据累计来更新语言模型，更新周期为半年左右。

因为需要完善的语言模型训练算法及合理的语言模型架构设计。

本申请的方案提出了一种定制化产品语言模型的训练和识别装置，发明实现本申请的过程如下：

(1)用户需求分析及技术评估

分析开发者对识别率及更新频率的要求，并邀请专业语言模型研发人员进行技术评估。

(2)语言模型架构设计

结合开发者需求、产品设计对语言模型架构进行设计，实现语言模型可定制、快速训练、快速更新。

(3)性能测试

使用真实用户数据对识别率等指标进行测试。

请参考图3，其示出了本申请的方案的一个具体实施例的流程图，需要说明的是以下实施例中虽然提到了一些具体的例子，但并不用于限制本申请的方案。

如图3所示，详细的步骤如下：

(1)用户需求分析

开发者希望自己通过平台定制的技能中的说法和词条都能被正确识别，同时自己没有定制的通用领域内容也能被识别。这要求语言模型既能够包含通用领域的内容又能针对开发者在平台上定制的内容。

(2)技术评估

I.训练工具：需要快速的数据提取、分词及训练工具。

II.解码：需要通用语言模型和开发者定制的语言模型共同解码。

III.识别率：需要保证开发者定制的内容优先识别，同时保证通用领域的识别率。

(3)产品及语言模型架构设计

I.训练方案：产品发布时，进行分词训练，并对训练时间进行限制，限制在30分钟以内。针对开发者定制的说法和词库进行训练，生成资源相对较小的语言模型。

II.三路解码，具体可参考图4。

III.三路介绍：

第一路：通用、车载、家居、机器人场景下的通用领域语言模型。语料极其丰富，更新周期为一季度。

第二路：解决方案语言模型，针对通用领域中需要快速更新的部分进行训练，包含热词、流行说法等，更新周期为每周。

第三路：产品语言模型，即开发者定制的说法和词库训练的语言模型，发布即更新，可实现分钟级更新。

IV.架构优势：

三路解码，实现了通用领域识别资源和开发者定制识别资源共同解码，保证开发者定制的内容优先识别，同时保证通用领域的识别率。

(1)需求开发及测试

对于识别来说，最重要的指标就是识别率，针对此架构进行了充分测试。

对有第一路、第一路&第二路、第一路&第二路&第三路识别资源的产品进行了测试，通用领域的识别率与单路解码保持持平，定制内容的识别率高于单路解码，符合预期。

发明人在实现本申请的过程中，还采用过如下备选方案，并总结了该备选方案的优点和缺点。

Beta版本：架构中只有两路解码(对应现在的第一路和第三路)。此版本的劣势在于当定制内容过多时训练时间过长，且不能做到热词的快速更新应用，由此又增加了第二路，来优化这些缺点。

请参考图5,其示出了本发明一实施例提供的定制化产品语言模型的训练装置的框图。

如图5所示，定制化产品语言模型的训练装置500，包括训练模块510、第一模型形成模块520、第二模型形成模块530和第三模型形成模块540。

其中，训练模块510，配置为响应于产品的发布或更新，利用训练语料对产品进行训练，其中，训练语料包括通用语料、热点语料和开发者定制语料，产品的语言模型包括第一路解码、第二路解码和第三路解码；第一模型形成模块520，配置为将通用语料输入至第一路解码以将第一路解码训练成通用语言模型；第二模型形成模块530，配置为将热点语料输入至第二路解码以将第二路解码训练成解决方案语言模型；以及第三模型形成模块540，配置为将开发者定制语料输入至第三路解码以将第三路解码训练成定制产品语言模型。

请参考图6，其示出了本申请一实施例提出的一种定制化产品语言模型的识别装置的框图。

如图6所示，一种定制化产品语言模型的识别装置600，包括输入模块610、获取模块620和输出模块630。

其中，输入模块610，配置为将待识别语音输入至根据图1的流程图对应的方法训练后的通用语言模型、解决方案语言模型和定制产品语言模型；获取模块620，配置为分别获取通用语言模型、解决方案语言模型和定制产品语言模型的语言模型得分及对应的识别文本序列；以及输出模块630，配置为输出语言模型得分最高的识别文本序列作为最终识别文本。

应当理解，图5和图6中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5和图6中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如模板生成模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的定制化产品语言模型的训练和识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于产品的发布或更新，利用训练语料对产品进行训练，其中，所述训练语料包括通用语料、热点语料和开发者定制语料，所述产品的语言模型包括第一路解码、第二路解码和第三路解码；

将所述通用语料输入至所述第一路解码以将所述第一路解码训练成通用语言模型；

将所述热点语料输入至所述第二路解码以将所述第二路解码训练成解决方案语言模型；

将所述开发者定制语料输入至所述第三路解码以将所述第三路解码训练成定制产品语言模型。

将待识别语音输入至所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型；

分别获取所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型的语言模型得分及对应的识别文本序列；

输出语言模型得分最高的识别文本序列作为最终识别文本。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据定制化产品语言模型的训练和识别装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至定制化产品语言模型的训练和识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项定制化产品语言模型的训练和识别方法。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。定制化产品语言模型的训练和识别方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例定制化产品语言模型的训练和识别方法。输入装置730可接收输入的数字或字符信息，以及产生与定制化产品语言模型的训练和识别装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于定制化产品语言模型的训练装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

作为一种实施方式，上述电子设备应用于定制化产品语言模型的识别装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

输出语言模型得分最高的识别文本序列作为最终识别文本。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种定制化产品语言模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

基于第一周期更新所述通用语料、基于第二周期更新所述热点语料，其中，所述第一周期大于所述第二周期；

响应于开发者提交新的定制语料更新所述开发者定制语料。

3.根据权利要求2所述的方法，其中，所述通用语料包括通用场景说法和词库、车载场景说法和词库、家居场景说法和词库和机器人场景说法和词库；

所述热点语料包括热词、流行说法和对应的词库；

所述开发者定制语料包括开发者定制的说法和词库。

4.根据权利要求1所述的方法，其中，所述利用训练语料对产品进行训练包括：

利用训练语料对产品进行分词训练并设置训练时间不超过预设阈值。

5.一种根据权利要求1-4所述的方法训练后的定制化产品语言模型的识别方法，包括：

输出语言模型得分最高的识别文本序列作为最终识别文本。

6.根据权利要求5所述的方法，其中，所述定制产品语言模型具有第一识别优先级，所述通用语言模型具有第二识别优先级。

7.一种定制化产品语言模型的训练装置，包括：

训练模块，配置为响应于产品的发布或更新，利用训练语料对产品进行训练，其中，所述训练预语料包括通用语料、热点语料和开发者定制语料，所述产品的语言模型包括第一路解码、第二路解码和第三路解码；

第一模型形成模块，配置为将所述通用语料输入至所述第一路解码以将所述第一路解码训练成通用语言模型；

第二模型形成模块，配置为将所述热点语料输入至所述第二路解码以将所述第二路解码训练成解决方案语言模型；

第三模型形成模块，配置为将所述开发者定制语料输入至所述第三路解码以将所述第三路解码训练成定制产品语言模型。

8.一种定制化产品语言模型的识别装置，包括：

输入模块，配置为将待识别语音输入至根据权利要求1-4所述的方法训练后的所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型；

获取模块，配置为分别获取所述通用语言模型、所述解决方案语言模型和所述定制产品语言模型的语言模型得分及对应的识别文本序列；

输出模块，配置为输出语言模型得分最高的识别文本序列作为最终识别文本。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。