CN110473524B

CN110473524B - 语音识别系统的构建方法和装置

Info

Publication number: CN110473524B
Application number: CN201910816970.1A
Authority: CN
Inventors: 胡雪成
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-03-15
Anticipated expiration: 2039-08-30
Also published as: CN110473524A

Abstract

本发明公开语音识别系统的构建方法和装置，其中，一种语音识别系统的构建方法，包括：基于高热度导航词表和导航说法生成导航语料；基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型；对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型；使用所述本地语言模型结合发音字典和声学模型生成本地语音识别系统。本申请的方法和装置提供的资源可以安装在用户车载产品上进行使用，并且基本上满足以下需求:保证资源大小适中，低功耗低内存，以及保证识别性能适中。

Description

语音识别系统的构建方法和装置

技术领域

本发明属于语音识别技术领域，尤其涉及语音识别系统的构建方法和装置。

背景技术

相关技术中，语音识别技术越来越广泛地运用到生活中，给人们的生活带来了极大的便利。其中，某公司的在线语音识别，另一公司的在线语音转写和离线命令词识别是目前比较常见的几种技术。

其中，某公司的在线语音识别是需要联网的调用语音识别SDK的产品；另一公司的在线语音转写也是要联网的调用语音识别SDK的产品；另一公司的离线命令词识别可以在断网情况下，对命令词的识别。

发明人在实现本申请的过程中发现，某公司的在线语音识别和另一公司的在线语音转写都需要联网的环境，在网络信号不好的情况，或者无网络的情况下，会失效。而另一公司的离线命令词识别，尽管可以支持断网识别，但是仅仅只支持少量的命令词识别。如果说话人的语音内容在命令词之外，也会失效。

发明内容

本发明实施例提供一种语音识别系统的构建方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别系统的构建方法，包括：基于高热度导航词表和导航说法生成导航语料；基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型；对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型；使用所述本地语言模型、发音字典和声学模型生成语音识别系统。

第二方面，本发明实施例提供一种语音识别系统的构建装置，包括：模型训练模块，配置为对于初始说法和至少一个初始词条，分别训练与所述说法对应的n-gram语言模型和与所述至少一个初始词条对应的至少一个grammar语言模型；说法解码网络构成模块，配置为基于所述n-gram语言模型构成初始说法解码网络；词条解码网络构成模块，配置为基于所述至少一个grammar语言模型相应地构成至少一个初始词条解码网络。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音识别系统的构建方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音识别系统的构建方法的步骤。

本申请的方法和装置提供的方案通过在生成语音识别系统的过程中采用各种方式进行处理，从而可以限制最终生成的语音识别系统的大小，使其可以用于存储空间比较小的设备，并能够离线使用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音识别系统的构建方法的流程图；

图2为本发明一实施例提供的一种语音识别系统的构建方法的一个具体实施例的流程图；

图3为本发明一实施例提供的语音识别系统的构建装置的框图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音识别系统的构建方法一实施例的流程图，本实施例的语音识别系统的构建方法可以适用于具备语音识别能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备语音识别系统的构建能力的智能终端等。

如图1所示，在步骤101中，基于高热度导航词表和导航说法生成导航语料；

在步骤102中，基于预设的工具包将导航语料和对应的本地词表结合生成导航语言模型；

在步骤103中，对导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型；

在步骤104中，使用本地语言模型结合发音字典和声学模型生成本地语音识别系统。

在本实施例中，对于步骤101，语音识别系统的构建装置首先将高热度导航词表和导航说法整合成导航语料，由于只是整合高热度的导航词表和语料，因此可以在一定程度上缩减最终形成的系统的大小。之后，对于步骤102，基于预设的工具包将之前获得的导航语料和对应的本地词表结合生成导航语言模型。之后，对于步骤103，将训练好的导航语言模型和预设小领域模型进行整合和预设处理从而可以形成预定大小的本地语言模型，该预定大小可以是一个适合某个设备的范围，本申请在此没有限制。最后，对于步骤104，使用该本地语言模型结合发音字典和声学模型最终生成语音识别系统。

本实施例的方法通过在生成语音识别系统的过程中采用各种方式进行处理，从而可以限制最终生成的语音识别系统的大小，使其可以用于存储空间比较小的设备，并能够离线使用。

在一些可选的实施例中，上述基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型包括：使用ngram工具包对所述导航语料和对应的本地词表进行结合训练和评估生成导航语言模型。

在一些可选的实施例中，上述预设小领域模型包括车载命令模型和车载助手模型。

在一些可选的实施例中，上述对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型包括：对所述导航语言模型和预设小领域模型进行混合插值和裁剪以形成预定大小的本地语言模型。

进一步可选的，上述本地语音识别系统用于车载终端。由于构建的语音识别模型经过了各种简化处理，所以可以适用于车载终端。

进一步可选的，上述高热度导航词表为高热度POI词表。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，现有技术的缺陷主要是由于以下内容导致的：

a.因为离线识别要求资源全部装在用户设备上，所占内存不宜过大,而在线识别的资源为了保证识别性能好，资源会很大，所以只能装在各出品公司的服务器上，用户需要联网，即可使用识别服务，所以在线识别尽管识别性能好，但断网就会失效了。

b.离线命令词识别，使用的是语法识别，每次识别都只能从事先写好的命令词里出一个识别结果，说话人说的内容在命令词里面，会有识别结果，但在命令词之外就会失效。

本申请的方案提出了一种语音识别系统的构建装置。

本地识别适合在无网络的环境下，起到一种较弱的识别支持功能。可以避免一旦断网，识别功能就宕机的情况发生。一般情况下，竞品公司没有这个业务场景。如离线命令词识别，不支持poi功能。不支持命令词词表以为的内容识别。竞品公司模型做的比较大，因为是在线识别，识别资源装在云端服务器即可，既要把资源做小，又要保证相应的识别性能，这是个难点。

我们提供的本地识别资源大小适中，低功耗低内存，可以直接装在用户的车载产品上运行，当遇到网络不佳或者无网络的环境，该本地识别资源可以提供热门poi识别/常用车载命令识别/常用说法识别。我们的资源使用ngram算法，利用语料中上下文的关系，可以计算出具有最大概率的句子，可以识别用户正常说的语句。

其中，ngram表示N元语言模型，N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换POI(Point ofInterest)，POI信息点，在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。

下面将结合附图2，对一个具体实施例进行详细描述。

1.使用热度很高的导航词表，搭配常用导航说法，生成一定数量的导航语料。

2.使用ngram工具包将导航语料和对应的本地词表生成导航语言模型。

3.导航语言模型和车载命令/助手等其他小领域领域混合插值，最后裁剪到合适大小，得到最终本地语言模型。

4.用该本地语言模型和发音字典，声学模型，生成本地识别资源。

这样就得到我们最终提供的资源，这个资源可以安装在用户车载产品上进行使用。基本上可以满足需求：保证资源大小适中，低功耗低内存，保证识别性能适中。

其中，声学模型出来是一系列词汇序列。语言模型就是对这些词汇序列再加上语言模型得分，选出最合理的一句话。训练就是数数加平滑，评估主要用ppl和实际应用中的指标，如WER。主要工具是srilm中的ngram-count和ngram。srilm中训练lm的工具是ngram-count，评估lm的工具是ngram，常用命令包括训练、ppl计算、插值、裁剪。

本申请实施例的方案可以实现以下有益效果：本地模型的上线，使得团队在做小的模型上面积累了经验，既要模型不大，又要保证性能，在模型的优化方面，积累了经验。使得后续再做其他场景下的本地模型时候，其他领域的时候，更加得心应手。

请参考图3，其示出了本发明一实施例提供的一种语音识别系统的构建装置的框图。

如图3所示，语音识别系统的构建装置300，包括导航语料生成模块310、模型生成模块320、处理模块330和识别系统生成模块340。

其中，导航语料生成模块310，配置为基于高热度导航词表和导航说法生成导航语料；模型生成模块320，配置为基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型；处理模块330，配置为对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型；以及识别系统生成模块340，配置为使用所述本地语言模型结合发音字典和声学模型生成本地语音识别系统。

在一些可选的实施例中，上述本地语音识别系统用于车载终端。

应当理解，图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如分词模块可以描述为将接收的语句文本分为说法和至少一个词条的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如分词模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别系统的构建方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

基于高热度导航词表和导航说法生成导航语料；

基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型；

对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型；

使用所述本地语言模型、发音字典和声学模型生成语音识别系统。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别系统的构建装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别系统的构建方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。语音识别方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别系统的构建方法。输入装置430可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音识别系统的构建装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

基于高热度导航词表和导航说法生成导航语料；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别系统的构建方法，包括：

基于高热度导航词表和导航说法生成导航语料；

对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型，其中，所述预设小领域模型包括车载命令模型和车载助手模型；

使用所述本地语言模型、发音字典和声学模型生成本地语音识别系统。

2.根据权利要求1所述的方法，其中，所述基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型包括：

使用ngram工具包对所述导航语料和对应的本地词表进行结合训练和评估生成导航语言模型。

3.根据权利要求1所述的方法，其中，所述对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型包括：

对所述导航语言模型和预设小领域模型进行混合插值和裁剪以形成预定大小的本地语言模型。

4.根据权利要求1-3中任一项所述的方法，其中，所述本地语音识别系统用于车载终端。

5.根据权利要求4所述的方法，其中，所述高热度导航词表为高热度POI词表。

6.一种语音识别系统的构建装置，包括：

导航语料生成模块，配置为基于高热度导航词表和导航说法生成导航语料；

模型生成模块，配置为基于预设的工具包将所述导航语料和对应的本地词表结合生成导航语言模型；

处理模块，配置为对所述导航语言模型和预设小领域模型进行预设处理以形成预定大小的本地语言模型，其中，所述预设小领域模型包括车载命令模型和车载助手模型；

识别系统生成模块，配置为使用所述本地语言模型结合发音字典和声学模型生成本地语音识别系统。

7.根据权利要求6所述的装置，其中，所述本地语音识别系统用于车载终端。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。