CN111739520A

CN111739520A - 一种语音识别模型训练方法、语音识别方法、装置

Info

Publication number: CN111739520A
Application number: CN202010793051.XA
Authority: CN
Inventors: 王明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-10-02
Anticipated expiration: 2040-08-10
Also published as: CN111739520B

Abstract

本发明提供了一种语音识别模型训练方法，包括：获取训练样本集合，确定语音识别模型中的实体边界抽取网络的初始参数；确定实体边界抽取网络对应的更新参数；根据实体边界抽取网络对应的更新参数，通过训练样本集合对语音识别模型的实体边界抽取网络的参数进行迭代更新；确定实体多任务分类网络对应的更新参数，根据实体多任务分类网络对应的更新参数，通过实体边界抽取网络的处理结果对实体多任务分类网络的参数进行迭代更新。本发明还提供了语音处理方法、装置及存储介质。本发明能够提升语音识别模型的训练精度与训练速度，使得语音识别模型能够适应媒资类的使用场景，避免媒资类语句中的关联信息对语音识别模型的识别结果的影响。

Description

一种语音识别模型训练方法、语音识别方法、装置

技术领域

本发明涉及机器学习技术，尤其涉及一种语音识别模型训练方法、语音识别方法、装置、电子设备及存储介质。

背景技术

随着机器学习技术的发展，机器学习可以通过BERT（Bidirectional EncoderRepresentations from Transformers，源于Transformers的双向编码器）机制实现，在使用BERT对应的模型对语音数据进行处理的过程中，对于媒资类场景的指令识别中，由于用户语句较为复杂，交互成功率较低，影响用户的使用体验。因此，在媒资类场景下对用户意图识别精度要求更高，智能设备需要懂得如何准确地响应用户的语音指令语句。

发明内容

有鉴于此，本发明实施例提供一种语音识别模型训练方法、语音识别方法、装置、电子设备及存储介质能够使得语音识别模型的泛化能力更强，提升语音识别模型的训练精度，使得语音识别模型能够适应媒资类的使用场景，避免媒资类语句中的关联信息对语音识别模型的识别结果的影响。

本发明实施例的技术方案是这样实现的：

本发明提供了一种语音识别模型训练方法，其特征在于，所述方法包括：

获取训练样本集合，其中，所述训练样本集合包括与语音识别模型相匹配的经过实体标记的不同语音样本；

通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数；

基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数；

根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取；

通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体多任务分类网络的初始参数；

基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数；

根据所述实体多任务分类网络对应的更新参数，通过所述实体边界抽取网络的处理结果对所述实体多任务分类网络的参数进行迭代更新，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

上述方案中，所述方法还包括：

响应于所述语音识别模型的训练样本字典集合，确定所述训练样本集合的注意力参数集合；

根据所述训练样本字典集合和所述训练样本集合的注意力参数集合，对所述训练样本集合进行加权处理，以实现所述训练样本集合与所述语音识别模型的训练样本字典集合相适配。

上述方案中，所述方法还包括：

确定与所述语音识别模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述训练样本集合进行噪声添加处理，以形成与所述动态噪声阈值相匹配的动态噪声训练样本集合。

上述方案中，所述方法还包括：

确定与所述语音识别模型相对应的固定噪声阈值；

根据所述固定噪声阈值对所述训练样本集合进行噪声添加处理，以形成与所述固定噪声阈值相匹配的固定噪声训练样本集合。

本发明实施例还提供了一种语音识别方法，包括：

获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息；

通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体；

通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率；

通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与所述文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务，其中，所述语音识别模型基于前序实施例的方法训练得到。

本发明实施例还提供了一种语音识别模型训练装置，包括：

信息传输模块，用于获取训练样本集合，其中，所述训练样本集合包括与语音识别模型相匹配的经过实体标记的不同语音样本；

模型训练模块，用于通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数；

所述模型训练模块，用于基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数；

所述模型训练模块，用于根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取；

所述模型训练模块，用于通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体多任务分类网络的初始参数；

所述模型训练模块，用于基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数；

所述模型训练模块，用于根据所述实体多任务分类网络对应的更新参数，通过所述实体边界抽取网络的处理结果对所述实体多任务分类网络的参数进行迭代更新，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

上述方案中，

所述模型训练模块，用于将所述训练样本集合中不同语句样本，代入由所述语音识别模型的实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数；

所述模型训练模块，用于确定所述损失函数满足第一收敛条件时对应所述实体边界抽取网络的编码器的参数和相应的解码器参数作为所述实体边界抽取网络的更新参数。

上述方案中，

所述模型训练模块，用于确定所述语音识别模型中实体边界抽取网络的编码器和解码器构成的自编码网络对应的迭代收敛条件；

所述模型训练模块，用于基于所述实体边界抽取网络对应的更新参数，对所述实体边界抽取网络的编码器参数和解码器参数进行迭代更新，直至所述实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数满足对应的收敛条件并能够对所述训练样本集合中的语音样本进行实体边界抽取。

上述方案中，

所述模型训练模块，用于将所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，代入由所述语音识别模型的实体多任务分类网络的分类器子网络对应的损失函数；

所述模型训练模块，用于确定所述损失函数满足第二收敛条件时对应所述实体多任务分类网络的分类器网络的参数作为所述实体多任务分类网络的更新参数。

上述方案中，

所述模型训练模块，用于确定所述实体多任务分类网络的分类器子网络对应的迭代收敛条件；

所述模型训练模块，用于根据所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，对所述实体多任务分类网络的分类器子网络参数进行迭代更新，直至所述实体多任务分类网络的分类器子网络对应的损失函数满足对应的迭代收敛条件。

上述方案中，

所述模型训练模块，用于响应于所述语音识别模型的训练样本字典集合，确定所述训练样本集合的注意力参数集合；

所述模型训练模块，用于根据所述训练样本字典集合和所述训练样本集合的注意力参数集合，对所述训练样本集合进行加权处理，以实现所述训练样本集合与所述语音识别模型的训练样本字典集合相适配。

上述方案中，

所述模型训练模块，用于确定与所述语音识别模型的使用环境相匹配的动态噪声阈值；

所述模型训练模块，用于根据所述动态噪声阈值对所述训练样本集合进行噪声添加处理，以形成与所述动态噪声阈值相匹配的动态噪声训练样本集合。

上述方案中，

所述模型训练模块，用于确定与所述语音识别模型相对应的固定噪声阈值；

本发明实施例还提供了一种语音识别方装置，包括：

语音获取模块，用于获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息；

信息处理模块，用于通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体；

所述信息处理模块，用于通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率；

所述信息处理模块，用于通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与所述文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务，

其中，所述语音识别模型基于前序实施例的方法训练得到。

上述方案中，

所述信息处理模块，用于基于所述语音识别模型的实体边界抽取网络，确定所述可识别文本信息对应的词单元；

所述信息处理模块，用于基于所述语音指令的使用环境特征，确定所述词单元对应的自定义词典；

所述信息处理模块，用于通过所述实体边界抽取网络中的双向注意力神经子网络对所述可识别文本信息对应的词单元进行处理，并基于所述词单元对应的自定义词典进行特征拼接，形成与所述可识别文本信息对应的拼接特征向量；

所述信息处理模块，用于通过所述实体边界抽取网络中的条件随机场算法解码器网络，对所述可识别文本信息对应的拼接特征向量进行边界抽取处理，确定与可识别文本信息所对应的至少一个候选媒资类实体。

上述方案中，

所述信息处理模块，用于确定所述候选媒资类实体对应的实体字典信息；

所述信息处理模块，用于基于所述可识别文本信息，确定所述候选媒资类实体对应的上下文特征向量；

所述信息处理模块，用于基于所述实体多任务分类网络，对所述实体字典信息、所述候选媒资类实体的特征向量以及所述候选媒资类实体对应的上下文特征向量，进行向量拼接处理形成与所述候选媒资类实体相匹配的拼接特征向量。

所述信息处理模块，用于通过所述实体多任务分类网络中的分类器网络对所述拼接特征向量进行分类，确定所述候选媒资类实体中的不同类型实体的被选取概率。

上述方案中，所述装置还包括：

显示模块，用于显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对电子设备中的媒资类语音信息识别环境进行观察的人称视角画面，所述用户界面中还包括任务控制组件和信息展示组件；

所述显示模块，用于通过所述用户界面，利用所述任务控制组件接收语音指令；

所述显示模块，用于通过所述信息展示组件，在所述用户界面中呈现通过所述语音识别模型所确定的与所述语音指令信息相对应的任务，实现所述电子设备与用户的信息交互。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的语音识别模型的训练方法，或者实现前序的语音识别模型的语音处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的语音识别模型的训练方法，或者实现前序的语音识别模型的语音处理方法。

本发明实施例具有以下有益效果：

本发明通过获取训练样本集合，其中，所述训练样本集合包括与语音识别模型相匹配的经过实体标记的不同语音样本；通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数；基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数；根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取；通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体多任务分类网络的初始参数；基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数；根据所述实体多任务分类网络对应的更新参数，通过所述实体边界抽取网络的处理结果对所述实体多任务分类网络的参数进行迭代更新，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理，以实现通过所述语音识别模型对媒资类使用环境中的语音信息进行处理。由此，能够使得语音识别模型的泛化能力更强，提升语音识别模型的训练精度并节省模型的训练时间，使得语音识别模型能够适应媒资类的使用场景，避免媒资类的语句中的关联信息对语音识别模型的识别结果的影响，同时有利于语音识别模型在各类型智能设备中的大规模部署。

附图说明

图1是本发明实施例提供的一种语音识别模型训练方法的使用环境示意图；

图2为本发明实施例提供的语音识别模型训练装置的组成结构示意图；

图3为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图；

图4为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图；

图5为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的结构示意图；

图6为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的机器阅读示意图；

图7为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器一个可选的结构示意图；

图8为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器的向量拼接示意图；

图9为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器的编码过程示意图；

图10为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图；

图11为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图；

图12为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图；

图13为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的机器阅读示意图；

图14为本发明实施例提供的语音识别装置的组成结构示意图；

图15为本发明实施例提供的语音识别方法一个可选的流程示意图；

图16为本发明实施例中语音识别模型的实体边界抽取网络结构示意图；

图17为本发明实施例中语音识别模型的实体边界抽取网络的数据输入示意图；

图18为本发明实施例中语音识别模型的实体多任务分类网络结构示意图；

图19为本发明实施例中语音识别模型的实体多任务分类网络的数据输入示意图；

图20为本发明实施例提供的语音识别模型训练方法的使用场景示意图；

图21为本发明实施例提供的语音识别模型训练与使用的过程示意图；

图22为本发明实施例提供的语音识别模型数据处理示意图；

图23为本发明实施例中语音识别模型配置示意图；

图24为本发明实施例中语音识别模型的处理效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）机器阅读理解：一种将文本问题和相关文档作为输入将文本答案作为输出的自动问答技术。

2）BERT：全称为Bidirectional Encoder Representations from Transformers，一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务，如文本分类、文本匹配、机器阅读理解等。

3）人工神经网络：简称神经网络（Neural Network，NN），在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

4）模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

5）分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

6）模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

7）神经网络（Neural Network，NN）：人工神经网络（Artificial Neural Network，ANN），简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

8）编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

9）双向注意力神经网络模（BERT Bidirectional Encoder Representationsfrom Transformers）谷歌提出的双向注意力神经网络模型。

10）token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

11）Softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0，1]之间，并且所有元素的和为1。

12）Transformers：一种新的网络结构，采用注意力机制，代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量：对单个字用固定维度的分布向量表示。复合词：由细粒度的关键词组成的粒度较粗的关键词，其语义相对细粒度关键词更加丰富和完整。

13）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

14）语音识别（SR Speech Recognition）：也被称为自动语音识别（ASR AutomaticSpeech Recognition）、计算机语音识别（CSR Computer Speech Recognition）或者语音转文本识别（STT Speech To Text），其目标是使用计算机自动将人类的语音内容转换为相应的文字。

15）组件（Component），是小程序的视图的功能模块，也称为前端组件，页面中的按钮、标题、表格、侧边栏、内容和页脚等，组件包括模块化的代码以便于在小程序的不同的页面中重复使用。

16）小程序（Mini Program），是一种基于面向前端的语言（例如JavaScript）开发的、在超文本标记语言（HTML，Hyper Text Markup Language）页面中实现服务的程序，由客户端（例如浏览器或内嵌浏览器核心的任意客户端）经由网络（如互联网）下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。

17）短文本query：智能助手中用户输入的一个请求语句，通常只包含用户的一个意图期望。例如：“来一首明星A的作品A”；“给我讲XXXX的故事”；“我想看电影作品C”等等。

18）媒资类实体：在任务型对话系统中，用于表述用户输入query中的重要信息。如“来一首明星A的作品A”这样的query中，query本身是表示用户想听歌曲的意图期望music.play，同时还会设计【sys.music.singer=明星A，sys.music.song=作品A】这样的实体用于表示这个query里面的具体重要信息。而像music技能里的sys.music.song实体，video技能里的sys.video.film & sys.video.tvseries & sys.video.cartoon等实体，fm技能里的sys.fm.album实体，这些都是表示媒资类的实体，具有多样性，且上下文语境很类似。比如用户query为播放作品C时，其中的实体作品C，既可以作为film实体，也可以作为song实体。

19）实体字典：对于任务型对话的领域设计专家而言，当设计一个新的技能意图时，对于其涉及的实体集合，一般都会提供一批实体实例，告知实体集的边界以及规则。这对于实体的抽取是非常重要的特征信息。

20）CRF算法：条件随机场算法，即conditional random field algorithm，基于遵循马尔可夫性的概率图模型。

图1为本发明实施例提供的语音识别模型训练方法的使用场景示意图，参考图1，终端（包括终端10-1和终端10-2）上设置有语音识别软件的客户端，用户通过所设置的语音识别软件客户端可以输入相应的待语音识别语句，聊天客户端也可以接收相应的语音识别结果，并将所接收的语音识别结果向用户进行展示，或者执行与语音指令相匹配的任务。终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述语音识别模型并对所述语音识别模型进行训练，并将经过训练的语音识别模型部署在相应的终端中，并通过终端（终端10-1和/或终端10-2）利用所部署的语音识别模型对媒资类使用环境中的语音信息进行处理。

当然在通过语音识别模型对媒资类使用环境中的语音信息进行处理以生成相应的语音识别结果之前，还需要对语音识别模型进行训练，具体包括：获取训练样本集合；通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数；基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数；根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体多任务分类网络的初始参数；基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数；

其中，本申请实施例所提供的智能设备唤醒方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network) ，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，本申请提供的语音识别模型训练方法以及语音处理可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有语音指令识别功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统（通过语音指令唤醒终端中执行不同任务的小程序）或者AI智能医疗设备（通过语音指令进行唤醒触发）等。

下面对本发明实施例的语音识别模型训练装置的结构做详细说明，语音识别模型训练装置可以各种形式来实施，如带有语音识别模型训练功能的专用终端，也可以为设置有语音识别模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的语音识别模型训练装置的组成结构示意图，可以理解，图2仅仅示出了语音识别模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的语音识别模型训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。语音识别模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端（如10-1）的操作。这些数据的示例包括：用于在终端（如10-1）上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的语音识别模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的语音识别模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的语音识别模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，ProgrammableLogic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

作为本发明实施例提供的语音识别模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的语音识别模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件（例如，包括处理器201以及连接到总线205的其他组件）完成本发明实施例提供的语音识别模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的语音识别模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件执行实现本发明实施例提供的语音识别模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持语音识别模型训练装置的操作。这些数据的示例包括：用于在语音识别模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从语音识别模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的语音识别模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的语音识别模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括语音识别模型训练装置，语音识别模型训练装置中包括以下的软件模块：信息传输模块2081，模型训练模块2082。当语音识别模型训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的语音识别模型训练方法，下面介绍本发明实施例中语音识别模型训练装置中各个软件模块的功能，其中，

信息传输模块2081，用于获取训练样本集合，其中，所述训练样本集合包括与语音识别模型相匹配的经过实体标记的不同语音样本；

模型训练模块2082，用于通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数；

所述模型训练模块2082，用于基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数；

所述模型训练模块2082，用于根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取；

所述模型训练模块2082，用于通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体多任务分类网络的初始参数；

所述模型训练模块2082，用于基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数；

所述模型训练模块2082，用于根据所述实体多任务分类网络对应的更新参数，通过所述实体边界抽取网络的处理结果对所述实体多任务分类网络的参数进行迭代更新，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理。

结合图2示出的语音识别模型训练装置说明本发明实施例提供的语音识别模型的训练方法，在介绍本发明实施例提供的语音识别模型的训练方法之前，首先介绍相关技术中实现语音指令识别的过程，具体可以使用条件随机场算法（CRF++）序列标注实现实体的抽取，或者，通过双向长短时记忆网络（Bi-directional Long Short-Term Memory）与条件随机场算法（CRF++）的结合实现实体抽取，但是，这两种方式的缺陷在于：训练过程中具体使用哪些特征，因而多次试验的基础上得到的结论。例如实施例中所使用单字特征、二字特征、词性特征等是在模型开发调优的过程中确定的，加长了模型训练的时间，不利于语音识别模型的大规模部署。同时，双向长短期记忆网络来进行特征抽取，与虽然减少了人工特征工程的工作量，但是由于Bi_LSTM本身的设计局限性，当问题语句query过长的时候，对距离较远的token词语关注度会下降，同时由于序列的时间先后顺序，训练参数时必须串行训练，导致LSTM模型的训练一般都比较耗时，也不利于将经过训练的语音识别模型部署在各种智能电子设备中。

为解决这一相关技术中的缺陷，参见图3，图3为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行语音识别模型训练装置的各种电子设备执行，例如可以是如带有语音识别功能的专用终端、带有语音识别模型训练功能的服务器或者服务器集群。下面针对图3示出的步骤进行说明。

步骤301：语音识别模型训练装置获取训练样本集合。

其中，所述训练样本集合包括与语音识别模型相匹配的经过实体标记的不同语音样本，具体来说，可以是针对媒资类实体标记的不同样本。

在本发明的一些实施例中，还可以确定与所述语音识别模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述训练样本集合进行噪声添加处理，以形成与所述动态噪声阈值相匹配的动态噪声训练样本集合。中由于语音识别模型的使用环境不同（电子设备的使用环境不同），与所述语音识别模型的使用环境相匹配的动态噪声阈值也不相同，例如，移动终端的媒资类使用环境中，与所述语音识别模型的使用环境相匹配的动态噪声阈值需要小于智能音箱和车载智能系统环境中的动态噪声阈值。

在本发明的一些实施例中，还可以确定与所述语音识别模型相对应的固定噪声阈值；根据所述固定噪声阈值对所述训练样本集合进行噪声添加处理，以形成与所述固定噪声阈值相匹配的固定噪声训练样本集合。其中，当语音识别模型固化于相应的硬件机构中，例如车载终端，使用环境为车载智能系统的媒资类信息的口语指令时，由于噪声较为单一，通过固定语音识别模型相对应的固定噪声阈值，能够有效提神语音识别模型的训练速度，减少用户的等待时间，使得语音识别模型更加适应车载使用环境。

步骤302：语音识别模型训练装置通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型中的实体边界抽取网络的初始参数和实体多任务分类网络的初始参数。

其中，在本发明的一些实施例中，还可以响应于所述语音识别模型的训练样本字典集合，确定所述训练样本集合的注意力参数集合；根据所述训练样本字典集合和所述训练样本集合的注意力参数集合，对所述训练样本集合进行加权处理，以实现所述训练样本集合与所述语音识别模型的训练样本字典集合相适配。

步骤303：语音识别模型训练装置响应于所述实体边界抽取网络的初始参数和所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述语音识别模型实体边界抽取网络以及多任务分类网络的更新参数。

在本发明的一些实施例中，可以将所述训练样本集合中不同语句样本，代入由所述语音识别模型的实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数；确定所述损失函数满足第一收敛条件时对应所述实体边界抽取网络的编码器的参数和相应的解码器参数作为所述实体边界抽取网络的更新参数；之后获取述实体边界抽取网络的输出结果。

将所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，代入由所述语音识别模型的实体多任务分类网络的分类器子网络对应的损失函数；确定所述损失函数满足第二收敛条件时对应所述实体多任务分类网络的分类器网络的参数作为所述实体多任务分类网络的更新参数。

步骤304：语音识别模型训练装置根据所述语音识别模型的中型实体边界抽取网络以及多任务分类网络分别对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数和实体多任务分类网络的参数分别进行迭代更新。

其中，语音识别模型的实体边界抽取网络的编码器网络的损失函数表示为：

loss_A =∑（decoder_A（encoder（warp（x1）））- x1）2；其中，decoder_A为解码器A，warp为待识别语句的函数，x1为待识别语句，encoder为编码器。

在迭代训练的过程中，通过将待识别语句代入编码器网络的损失函数，求解损失函数按照梯度（例如最大梯度）下降时编码器A和解码器A的参数，当损失函数收敛时（即确定能够形成与经过媒资类实体标记的训练样本对应的词向量），结束训练。

对编码器网络的训练过程中，编码器网络的损失函数表示为：loss_B=∑（decoder_B（encoder（warp（x2）））- x2）2；其中，decoder_B为解码器B，warp为待识别语句的函数，x2为待识别语句，encoder为编码器。

在迭代训练的过程中，通过将待识别语句代入编码器网络的损失函数，求解损失函数按照梯度（例如最大梯度）下降时编码器B和解码器B的参数；当损失函数收敛时（即当解码得到实体识别结果的概率时），结束调整和训练。

由此，可以实现通过所述语音识别模型对媒资类使用环境中的语音信息进行处理。

其中，参考图4，图4为本发明实施例提供的语音识别模型训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行语音识别模型训练装置的各种电子设备执行，具体包括：

步骤401：确定所述语音识别模型中实体边界抽取网络对应的更新参数。

步骤402：基于所述实体边界抽取网络对应的更新参数，对所述实体边界抽取网络的编码器参数和解码器参数进行迭代更新。

步骤403：判断实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数是否满足对应的收敛条件，如果是，执行步骤404，否则执行步骤402。

步骤404：基于实体边界抽取网络确定相应的实体边界，形成相应的输出结果。

步骤405：根据所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，对所述实体多任务分类网络的分类器子网络参数进行迭代更新，直至所述实体多任务分类网络的分类器子网络对应的损失函数满足对应的收敛条件。

其中，语音识别模型包括了实体边界抽取网络和实体多任务分类网络，下面分别进行介绍，具体来说，实体边界抽取网络包括了双向注意力神经子网络（BERTBidirectional Encoder Representations from Transformers）。

继续参考图5，图5为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的结构示意图，其中， Encoder包括：N=6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer 就是多头注意力层（multi-head attention layer）然后是一个简单的全连接层。其中每个sub-layer都加了残差连接（residual connection）和归一化（norma lisation）。

Decoder包括：由N=6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoderattention layer 最后是一个全连接层。前两个sub-layer都是基于multi-headattention layer。

继续参考图6，图6为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的机器阅读示意图，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为媒资类语音信息对应的文本“来一首歌手A的作品B”经过实体边界抽取网络中的双向注意力神经子网络的处理，输出的机器阅读示结果为向量级别的：“来/一/首/歌手A/的/作品B”。

继续参考图7，图7为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器一个可选的结构示意图，其中，其输入由维度为d的查询（Q）和键（K）以及维度为d的值（V）组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图7，图7中示出了本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器的向量示意，其中Q，K和V的是通过输入encoder的向量x与W^Q， W^K，W^V相乘得到Q，K和V。W^Q，W^K，W^V在文章的维度是（512，64），然后假设我们inputs的维度是（m，512），其中m代表了字的个数。所以输入向量与W^Q，W^K，W^V相乘之后得到的Q、K和V的维度就是（m，64）。

继续参考图8，图8为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器的向量拼接示意图，其中，Z₀到Z₇就是对应的8个并行的head（维度是（m，64）），然后concat这个8个head之后就得到了（m，512）维度。最后与W^O相乘之后就到了维度为（m，512）的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图9，图9为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中编码器的编码过程示意图，其中，x1经过self-attention到了z1的状态，通过了self-attetion的张量还需要进过残差网络和Later Norm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

继续参考图10，图10为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图，其中，decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

继续参考图11和图12，图11为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图，其中，解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中实体边界抽取网络中的双向注意力神经子网络中解码器的解码过程示意图，Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量，然后softmax层根据这个logits向量，将其转换为了概率值，最后找到概率最大值的位置，即完成了解码器的输出。

在本发明的一些实施例中，实体边界抽取网络中的双向注意力神经子网络可以为双向注意力神经网络模（BERT Bidirectional Encoder Representations fromTransformers）。继续参考图5，图5为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的结构示意图，其中， Encoder包括： N=6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer 就是多头注意力层（multi-head attentionlayer）然后是一个简单的全连接层。其中每个sub-layer都加了残差连接（residualconnection）和归一化（normalisation）。

Decoder包括：由N=6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer， encoder-decoderattention layer 最后是一个全连接层。前两个sub-layer 都是基于multi-headattention layer。

继续参考图13，图13为本发明实施例中实体边界抽取网络中的双向注意力神经子网络一个可选的机器阅读示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为英语“Play AA's XXX”经过实体边界抽取网络中的双向注意力神经子网络的处理，输出的机器阅读示结果为：“Play /AA's/ XXX/”。

当然，本发明中的BERT模型也使用前向神经网络模型（Bi-LSTM Bi-directionalLong Short-Term Memory）、门控循环单元网络模型（GRU Gated Recurrent Unit）模型、深度语境化词表征网络模型（ELMo embedding from language model）、GPT模型、GPT2模型代替，对此，本发明不再赘述。

这一过程中，由于媒资类使用环境中的不同语句信息中抽取可能出现的5种类型的实体，例如：song（歌曲名称）&film（电影名称）&cartoon（卡通名称）&tvseries（影视明星）&album（专辑名称），因此在语音识别模型的运行中，还需要将BERT的输出结果与自定义字典的特征向量进行拼接，以便于实体边界抽取网络中的条件随机场算法解码器网络进行边界抽取。

当实体边界抽取网络训练完成后，基于训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，对所述实体多任务分类网络的分类器子网络参数进行迭代更新，直至所述实体多任务分类网络的分类器子网络对应的损失函数满足对应的收敛条件。

下面对本发明实施例的语音识别装置的结构做详细说明，语音识别装置可以各种形式来实施，如带有根据能够运行语音识别模型的专用终端，也可以为带有语音指令执行的功能的车载设备，以根据终端中的应用程序所接收的语音指令执行不同的功能或者进程。图14为本发明实施例提供的语音识别装置的组成结构示意图，可以理解，图14仅仅示出了语音识别装置的示例性结构而非全部结构，根据需要可以实施图14示出的部分结构或全部结构。

本发明实施例提供的语音识别装置包括：至少一个处理器1401、存储器1402、用户接口1403和至少一个网络接口1404。语音识别装置中的各个组件通过总线系统1405耦合在一起。可以理解，总线系统1405用于实现这些组件之间的连接通信。总线系统1405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图14中将各种总线都标为总线系统1405。

其中，用户接口1403可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器1402可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1402能够存储数据以支持终端（如10-1）的操作。这些数据的示例包括：用于在终端（如10-1）上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的语音识别装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的语音识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的语音识别模型的语音处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，ApplicationSpecific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable LogicDevice）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

作为本发明实施例提供的语音识别装置采用软硬件结合实施的示例，本发明实施例所提供的语音识别装置可以直接体现为由处理器1401执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1402，处理器1401读取存储器1402中软件模块包括的可执行指令，结合必要的硬件（例如，包括处理器1401以及连接到总线系统1405的其他组件）完成本发明实施例提供的语音识别模型的语音处理方法。

作为示例，处理器1401可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的语音识别装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1401来执行完成，例如，被一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件执行实现本发明实施例提供的语音识别模型的语音处理方法。

本发明实施例中的存储器1402用于存储各种类型的数据以支持语音识别装置的操作。这些数据的示例包括：用于在语音识别装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从语音识别模型的语音处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的语音识别装置可以采用软件方式实现，图14示出了存储在存储器1402中的语音识别装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器1402中存储的程序的示例，可以包括语音识别装置，语音识别装置中包括以下的软件模块：语音获取模块14081和信息处理模块14082。当语音识别装置中的软件模块被处理器1401读取到RAM中并执行时，将实现本发明实施例提供的语音识别模型的语音处理方法，语音识别装置中各个软件模块的功能包括：

语音获取模块14081，用于获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息；

信息处理模块14082，用于通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体；

所述信息处理模块14082，用于通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率；

所述信息处理模块14082，用于通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与所述文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务。

在本发明的一些实施例中，所部署的语音识别模型实现不同类型的小程序可以是在不同编程语言的软件代码环境中所编写的，代码对象可以是不同类型的代码实体。例如，在C语言的软件代码中，一个代码对象可以是一个函数。在JAVA语言的软件代码中，一个代码对象可以是一个类，IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中，一个代码对象可以是一个类或一个函数以执行来自于不同终端的搜索词。其中，通过微信进程中小程序利用所部署的语音识别模型可以触发执行相应的指令，小程序（Mini Program），是一种基于面向前端的语言（例如JavaScript）开发的、在超文本标记语言（HTML，HyperText Markup Language）页面中实现服务的程序，由客户端（例如浏览器或内嵌浏览器核心的任意客户端）经由网络（如互联网）下载、并在客户端的浏览器环境中解释和执行的软件，节省在客户端中安装的步骤。例如，通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现歌曲播放，电影查找，明星搜索等各种媒资类信息处理与服务的小程序。

参见图15，图15为本发明实施例提供的语音识别方法一个可选的流程示意图，可以理解地，图15所示的步骤可以由运行语音识别装置的各种电子设备执行，例如可以是如带有语音识别功能的专用终端、带有语音识别模型功能的智能设备如智能音箱，或者智能系统如至车载控制系统。下面针对图15示出的步骤进行说明。

步骤1501：获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息。

在本发明的一些实施例中获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息，可以通过以下方式实现：

根据所述语音指令的文本内容所携带的文本参数信息，触发相应的分词库；

通过所触发的所述分词库单词词典对所述语音指令对应的文本内容进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述文本内容相对应的词语级特征向量集合作为相应的可识别文本信息。其中，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的文本处理模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

步骤1502：通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体。

在本发明的一些实施例中，通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体，可以通过以下方式实现：

基于所述语音识别模型的实体边界抽取网络，确定所述可识别文本信息对应的词单元；基于所述语音指令的使用环境特征，确定所述词单元对应的自定义词典；通过所述实体边界抽取网络中的双向注意力神经子网络对所述可识别文本信息对应的词单元进行处理，并基于所述词单元对应的自定义词典进行特征拼接，形成与所述可识别文本信息对应的拼接特征向量；通过所述实体边界抽取网络中的条件随机场算法解码器网络，对所述可识别文本信息对应的拼接特征向量进行边界抽取处理，确定与可识别文本信息所对应的至少一个候选媒资类实体。其中，参考图16和17，图16为本发明实施例中语音识别模型的实体边界抽取网络结构示意图，图17为本发明实施例中语音识别模型的实体边界抽取网络的数据输入示意图，其中，实体边界抽取网络的最底层的是基于BERT网络的特征抽取层，其输入端tok1，tok2，tokn分别为当前query的每一个字的ID信息，BERT的输出为每个token的词向量768维度信息。在进行实体命名时的场景，只需要使用每个token的词向量即可；在BERT输出的768维度信息基础上，在中间层实体特征的地方，再拼接40维度的每个token的自定义词典信息（对应图17所输入数据的的第4列特征，比如“作品B”三个字存在于song类型的实体字典当中，那么分别针对“作品B”三个字，就存在B-字典&I-字典的特征，相应的就可以转化为3个40维度的向量），由此即可完成BERT输出与自定义字典特征的拼接过程。

进一步地，语音识别模型的实体边界抽取网络中还包括CRF解码层，CRF内部在给每个token的概率标注的时候，会同时考虑各个token的向量信息和各个label的转移矩阵信息，由于考虑了各个label的转移矩阵信息，这就避免了B_label + B_label 这种明显不对的情况出现；另外由于CRF考虑了整个句子全局的最优概率，还解决了传统方案中标注位置偏移的缺陷（label bias problem）。

步骤1503：通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率。

在本发明的一些实施例中通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率，可以通过以下方式实现：

确定所述候选媒资类实体对应的实体字典信息；基于所述可识别文本信息，确定所述候选媒资类实体对应的上下文特征向量；基于所述实体多任务分类网络，对所述实体字典信息、所述候选媒资类实体的特征向量以及所述候选媒资类实体对应的上下文特征向量，进行向量拼接处理形成与所述候选媒资类实体相匹配的拼接特征向量；通过所述实体多任务分类网络中的分类器网络对所述拼接特征向量进行分类，确定所述候选媒资类实体中的不同类型实体的被选取概率。其中，参考图18和19，图18为本发明实施例中语音识别模型的实体多任务分类网络结构示意图，图19为本发明实施例中语音识别模型的实体多任务分类网络的数据输入示意图，其中，实体多任务分类网络的最底层为每个字的向量信息（其中所使用的中文汉字词向量字典可以与语音识别模型的使用环境相适配）。经过前序步骤的实体边界抽取后，已经得到了语音指令对应的候选实体，比如图18中语音指令“播放XXXX话剧”中的“XXXX”即为所确定的候选实体。首先对候选实体的左右两边的上下文信息做双向的lstm编码，同时对候选实体的字向量做average求和，这样就得到了图中的B C部分的表达，同时可以引入A部分的实体字典信息（即图19输入数据的倒数第二例既是实体字典信息）；接着将ABC三部分的向量做拼接，得到一个固定长度的向量（本申请中可以使用800维）；最后依次送入最顶层的5个二分类器中训练每个分类器的参数，根据每个分类器预测的结果，即完成对候选实体“XXXX”的目标分类。

步骤1504：通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与所述文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务。

下面以车载媒资类信息使用环境中的语音识别模型为例，对本申请所提供的语音识别模型的训练方法与使用过程进行说明，参考图20和图21，图20为本发明实施例提供的语音识别模型训练方法的使用场景示意图，本发明所提供的语音识别模型训练方法可以作为云服务的形式服务可类型的客户（封装于车载终端或者封装于不同的移动电子设备中），图21为本发明实施例提供的语音识别模型训练与使用的过程示意图，具体使用场景中的语音识别模型的承载终端或者电子设备本申请不做具体限制，其中，作为云服务提供给企业客户，帮助其根据不同的设备使用环境对语音识别模型进行训练。

步骤2101：获取与车载媒资类使用环境对应的训练样本集合。

其中，参考表1，训练语料选取平台创建以来积累的众测的实体语料，测试语料线上真实用户的日志数据，数据分布符合真实用户分布，然后经专业的标注人员进行数据标注。

步骤2102：通过训练样本对语音识别模型中的实体边界抽取网络进行训练。

其中，参考图22，图22为本发明实施例提供的语音识别模型数据处理示意图，其中，图22左侧的模型训练部分，可以分别进行 step1实体边界抽取网络和 step2实体多任务分类网络的训练，右边是模型预测的时候，首先进行1和2所示的部分，完成实体边界的抽取，然后触发3和4部分，完成实体的多标签分类，最终从query中抽取出所有可能的实体情况。

步骤2103：通过训练样本对语音识别模型中的实体多任务分类网络进行训练。

步骤2104：确定所述语音识别模型的参数，完成模型训练，并对模型进行部署。

步骤2105：通过部署的语音识别模型，对车在环境中的媒资类语音指令进行识别，通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的候选媒资类实体。

其中，从用户query中抽取可能出现的5种类型的实体（song&film&cartoon&tvseries&album）。相关技术中最常见的做法是针对每个实体有相应的序列标注模型，如CRF算法，这样5个不同的实体抽取模型依次进行遍历处理，即可以抽出其中可能的候选实体，但是在媒资类这种场景下，就较难继续提升效果了，主要原因是媒资类的问法非常类似，特别是film&tvseries&cartoon这种视频领域内的问法，更加容易抽取混淆。举例来说：在任务型对话系统中，用于表述用户输入query中的重要信息。如“来一首明星A的作品A”这样的query中，query本身是表示用户想听歌曲的意图期望music.play，同时还会设计【sys.music.singer=明星A，sys.music.song=作品A】这样的实体用于表示这个query里面的具体重要信息。而像music技能里的sys.music.song实体，video技能里的sys.video.film & sys.video.tvseries & sys.video.cartoon等实体，fm技能里的sys.fm.album实体，这些都是表示媒资类的实体，具有多样性，且上下文语境很类似。比如用户query为播放“作品C”时，其中的实体“作品C”，既可以作为film实体，也可以作为song实体。通过本申请所提供的语音识别模型只需要抽取用户query中的一个候选实体，至于这个实体具体属于song&film&cartoon&tvseries&album 这吴忠类别中的哪一个，则可以由实体多任务分类网络完成。

步骤2106：通过实体多任务分类网络，根据候选一个媒资类实体，确定与候选媒资类实体相匹配的拼接特征向量以及候选媒资类实体中的不同类型实体的被选取概率。

在本发明的一些实施例中，部署语音识别模型的终端可以显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对电子设备中的媒资类语音信息识别环境进行观察的人称视角画面，所述用户界面中还包括任务控制组件和信息展示组件；通过所述用户界面，利用所述任务控制组件接收语音指令；通过所述信息展示组件，在所述用户界面中呈现通过所述语音识别模型所确定的与所述语音指令信息相对应的任务，实现所述电子设备与用户的信息交互。

在本发明的一些实施例中，语音识别模型对应的运营商服务器（例如云小微平台）中当语音识别模型服务商帮助用户设计模型部署意图的时候，可以根据需求定义并导入相关的技能意图涉及的实体集合，同时实体还支持别名配置（满足实体表述的多样性）。参考图23，图23为本发明实施例中语音识别模型配置示意图，其中，用户可以根据不同的媒资类信息使用环境配置相应的实体参数，例如图23所示的video领域涉及的动画片sys.video.cartoon实体类型的定义与样例。

步骤2107：通过所述语音识别模型的实体多任务分类网络，确定分类结果，并执行对应的进程。

其中，参考图24，图24为本发明实施例中语音识别模型的处理效果示意图，如图24所示，例如车载终端的短视频播放界面可以是相应的短视频APP中所展现的，也可以是通过车载微信小程序所触发的（其中，语音识别模型可以经过训练后封装于相应的APP或以插件形式保存于车载微信小程序中），并根据用户的语音指令识别媒资类语音指令，有效地提升用户的使用体验。

由此，可以通过训练完成的语音识别模型对媒资类场景下的语音指令进行识别与处理。其中，参考表2，相比于相关技术中的CRF++技术对于实体的提，本申请所提供的于二阶段实体分类方法的语音识别模型，效率和准确性均有提升，并且利于语音识别模型的大规模部署，提升用户的使用体验。

有益效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述实体边界抽取网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体边界抽取网络对应的更新参数，包括：

将所述训练样本集合中不同语句样本，代入由所述语音识别模型的实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数；

确定所述损失函数满足第一收敛条件时对应所述实体边界抽取网络的编码器的参数和相应的解码器参数作为所述实体边界抽取网络的更新参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述实体边界抽取网络对应的更新参数，通过所述训练样本集合对所述语音识别模型的实体边界抽取网络的参数进行迭代更新，以实现对所述训练样本集合中的语音样本进行实体边界抽取，包括：

确定所述语音识别模型中实体边界抽取网络的编码器和解码器构成的自编码网络对应的迭代收敛条件；

基于所述实体边界抽取网络对应的更新参数，对所述实体边界抽取网络的编码器参数和解码器参数进行迭代更新，

直至所述实体边界抽取网络的编码器和解码器构成的自编码网络对应的损失函数满足对应的收敛条件并能够对所述训练样本集合中的语音样本进行实体边界抽取。

4.根据权利要求1所述的方法，其特征在于，所述基于所述实体多任务分类网络的初始参数，通过所述语音识别模型对所述训练样本集合进行处理，确定所述实体多任务分类网络对应的更新参数，包括：

将所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，代入由所述语音识别模型的实体多任务分类网络的分类器子网络对应的损失函数；

确定所述损失函数满足第二收敛条件时对应所述实体多任务分类网络的分类器网络的参数作为所述实体多任务分类网络的更新参数。

5.根据权利要求4所述的方法，其特征在于，所述根据所述实体多任务分类网络对应的更新参数，通过所述实体边界抽取网络的处理结果对所述实体多任务分类网络的参数进行迭代更新，以实现通过所述语音识别模型对使用环境中的不同语音信息进行处理，包括：

确定所述实体多任务分类网络的分类器子网络对应的迭代收敛条件；

根据所述训练样本集合中不同语句样本以及所述实体边界抽取网络的输出结果，对所述实体多任务分类网络的分类器子网络参数进行迭代更新，

直至所述实体多任务分类网络的分类器子网络对应的损失函数满足对应的迭代收敛条件。

6.一种语音识别方法，其特征在于，所述方法包括：

通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务，

其中，所述语音识别模型基于如权利要求1至5任一项所述的方法训练得到。

7.根据权利要求6所述的方法，其特征在于，所述获取语音指令信息，并将所述语音指令转换为相应的可识别文本信息，包括：

通过所触发的分词库的单词词典对所述语音指令对应的文本内容进行分词处理，形成不同的词语级特征向量；

对所述不同的词语级特征向量进行除噪处理，形成与所述文本内容相对应的词语级特征向量集合作为相应的可识别文本信息。

8.根据权利要求6所述的方法，其特征在于，所述通过语音识别模型的实体边界抽取网络，确定与可识别文本信息所对应的至少一个候选媒资类实体，包括：

基于所述语音识别模型的实体边界抽取网络，确定所述可识别文本信息对应的词单元；

基于所述语音指令的使用环境特征，确定所述词单元对应的自定义词典；

通过所述实体边界抽取网络中的双向注意力神经子网络对所述可识别文本信息对应的词单元进行处理，并基于所述词单元对应的自定义词典进行特征拼接，形成与所述可识别文本信息对应的拼接特征向量；

通过所述实体边界抽取网络中的条件随机场算法解码器网络，对所述可识别文本信息对应的拼接特征向量进行边界抽取处理，确定与可识别文本信息所对应的至少一个候选媒资类实体。

9.根据权利要求6所述的方法，其特征在于，所述通过所述语音识别模型的实体多任务分类网络，根据所述至少一个候选媒资类实体，确定与所述候选媒资类实体相匹配的拼接特征向量以及所述候选媒资类实体中的不同类型实体的被选取概率，包括：

确定所述候选媒资类实体对应的实体字典信息；

基于所述可识别文本信息，确定所述候选媒资类实体对应的上下文特征向量；

基于所述实体多任务分类网络，对所述实体字典信息、所述候选媒资类实体的特征向量以及所述候选媒资类实体对应的上下文特征向量，进行向量拼接处理形成与所述候选媒资类实体相匹配的拼接特征向量；

通过所述实体多任务分类网络中的分类器网络对所述拼接特征向量进行分类，确定所述候选媒资类实体中的不同类型实体的被选取概率。

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：

显示用户界面，所述用户界面中包括以不同类型用户的第一人称视角，对电子设备中的媒资类语音信息识别环境进行观察的人称视角画面，所述用户界面中还包括任务控制组件和信息展示组件；

通过所述用户界面，利用所述任务控制组件接收语音指令；

通过所述信息展示组件，在所述用户界面中呈现通过所述语音识别模型所确定的与所述语音指令信息相对应的任务，实现所述电子设备与用户的信息交互。

11.一种语音识别模型训练装置，其特征在于，所述训练装置包括：

12.一种语音识别方装置，其特征在于，所述装置包括：

所述信息处理模块，用于通过所述语音识别模型的实体多任务分类网络，根据所述候选媒资类实体中的不同类型实体的被选取概率，以及与文本内容所对应的语句向量触发相应的业务进程，以实现完成与所述语音指令信息相对应的任务，

13.根据权利要求12所述的装置，其特征在于，

所述信息处理模块，用于根据所述语音指令的文本内容所携带的文本参数信息，触发相应的分词库；

所述信息处理模块，用于通过所触发的分词库的单词词典对所述语音指令对应的文本内容进行分词处理，形成不同的词语级特征向量；

所述信息处理模块，用于对所述不同的词语级特征向量进行除噪处理，形成与所述文本内容相对应的词语级特征向量集合作为相应的可识别文本信息。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至5任一项所述的语音识别模型的训练方法，或者实现权利要求6-10任一项所述的语音识别模型的语音处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至5任一项所述的语音识别模型的训练方法，或者实现权利要求6-10任一项所述的语音识别模型的语音处理方法。