CN117079646B

CN117079646B - 一种语音识别模型的训练方法、装置、设备及存储介质

Info

Publication number: CN117079646B
Application number: CN202311328287.6A
Authority: CN
Inventors: 赵颖; 郏维强; 张梦璘; 韩松岭
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-09
Anticipated expiration: 2043-10-13
Also published as: CN117079646A

Abstract

本说明书公开了一种语音识别模型的训练方法、装置、设备及存储介质，通过基于通用语音数据集训练的复述模型，确定目标语音数据的第一语音特征，以及通过待训练的语音识别模型，确定目标语音数据的第二语音特征和识别结果，再将数据增强后的目标语音数据作为第一训练样本，将目标语音数据的识别结果作为第一训练样本的标注，根据第一训练样本的识别结果及其标注之间的差异，以及第一语音特征和第二语音特征之间的差异，对该语音识别模型进行训练。本方法采用语音识别模型自监督、复述模型辅助监督的方式来进行训练，在不需要人工对目标领域的语音数据进行标注的情况下，也可得到准确的语音识别模型，保证了模型训练效率。

Description

一种语音识别模型的训练方法、装置、设备及存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种语音识别模型的训练方法、装置、设备及存储介质。

背景技术

目前，随着互联网的快速发展和人们对自身隐私的愈发关注，语音识别技术在人们生活中得到了愈发广泛的应用。较为常见的语音识别方法是通过语音识别模型实现的。具体的，可获取语音数据，并将语音数据输入预先训练完成的语音识别模型中，得到语音识别模型输出的识别结果，最后根据得到的识别结果来执行后续业务。

但目前在训练语音识别模型时，使用的训练样本需要人工标注，而人工标注成本高、效率低的特点，使得目前的语音识别技术的效率较低。

基于此，本说明书提供一种语音识别模型的训练方法。

发明内容

本说明书提供一种语音识别模型的训练方法、装置、设备及存储介质，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供一种语音识别模型的训练方法，所述方法包括：

获取目标领域对应的目标语音数据；

将所述目标语音数据输入预先训练的复述模型的编码器，得到所述编码器输出的第一语音特征，所述复述模型包含编码器和解码器，所述复述模型预先通过通用语音数据集训练得到；

对所述目标语音数据进行数据增强，得到增强语音数据，并将所述增强语音数据作为第一训练样本；

将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，并将所述第二语音特征输入所述待训练的语音识别模型的识别层，得到所述目标语音数据的识别结果，作为所述第一训练样本的标注；

将所述第一训练样本输入所述待训练的语音识别模型中，得到所述第一训练样本的识别结果；

根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，并以所述损失最小为优化目标，对所述语音识别模型进行训练；其中，训练完成的所述语音识别模型用于识别目标领域中的语音数据。

可选的，根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，具体包括：

获取带标注的通用语音数据，作为第二训练样本；

将所述第二训练样本输入所述待训练的语音识别模型中，得到所述第二训练样本的识别结果；

根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异，以及所述第二训练样本的识别结果及其标注之间的差异，确定损失。

可选的，所述语音识别模型包含特征提取层、识别层、分类层；

根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，具体包括：

将所述第二语音特征输入所述语音识别模型的分类层中，得到所述目标语音数据的分类结果，作为所述第一训练样本的时序标注；

将所述第一训练样本输入所述语音识别模型的特征提取层中，得到所述特征提取层输出的所述第一训练样本的第三语音特征；

将所述第三语音特征输入所述语音识别模型的分类层，得到所述第一训练样本的分类结果，所述分类结果为所述第一训练样本中的各帧语音数据与其前一帧语音数据属于同一字符的概率；

根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异，以及所述第一训练样本的分类结果及其时序标注之间的差异，确定损失。

可选的，所述复述模型通过下述方式训练得到：

根据获取到的通用语音数据集，确定各第三训练样本；

针对每个第三训练样本，将该第三训练样本输入所述复述模型的编码层，得到所述复述模型的编码层输出的样本特征；

将所述样本特征中的至少部分特征进行掩码处理，并将掩码处理后的所述样本特征输入所述复述模型的解码层，得到所述解码层输出的语音数据；

根据所述第三训练样本及其对应的语音数据，对所述复述模型进行训练。

可选的，所述方法还包括；

获取若干目标语音数据，并根据获取到的各目标语音数据，对训练完成的复述模型的模型参数进行微调，得到用于训练所述语音识别模型的复述模型。

可选的，所述特征提取层包含语音特征提取层和文本特征提取层；

获取带标注的通用语音数据，作为第四训练样本；

将所述第四训练样本的标注输入预先训练的重述模型的编码器，得到所述重述模型的编码器输出的第一文本特征，所述重述模型包括编码器和解码器，所述重述模型预先通过通用文本数据集训练得到；

将所述第四训练样本的标注输入所述语音识别模型的文本特征提取层，得到所述第四训练样本的标注对应的第二文本特征；

将所述第二文本特征输入所述语音识别模型的识别层，得到所述第四训练样本的识别结果；

根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异、所述第四训练样本的识别结果及其标注之间的差异，以及所述第一文本特征和所述第二文本特征之间的差异，确定损失。

可选的，采用下述方式训练得到所述重述模型：

根据获取到的通用文本数据集，确定各第五训练样本；

针对每个第五训练样本，将该第五训练样本输入所述重述模型的编码层，得到所述重第五训练样本的样本特征；

将所述样本特征中的至少部分进行掩码处理，并将掩码处理后的所述样本特征输入所述重述模型的解码层，得到所述第五训练样本文本数据；

根据所述第五训练样本及其对应的文本数据，对所述重述模型进行训练。

可选的，所述方法还包括：

获取若干目标文本数据，并根据获取到的各目标文本数据，对训练完成的重述模型的模型参数进行微调，得到用于训练所述语音识别模型的重述模型。

可选的，将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，具体包括：

将所述目标语音数据进行拆分，确定所述目标语音数据包含的各帧语音数据；

按照时间顺序，将所述各帧语音数据依次输入所述语音识别模型的特征提取层，得到所述特征提取层输出的所述各帧语音数据分别对应的第二语音特征，其中，针对每帧语音数据，该帧语音数据对应的第二语音特征根据位于该帧语音数据前的语音数据和该帧语音数据确定。

确定所述第一训练样本的识别结果及其标注之间的差异，作为第一差异，并确定所述第一语音特征和所述第二语音特征之间的差异，作为第二差异；

根据所述第一差异及其权重，以及所述第二差异及其权重，确定损失，所述第一差异的权重和迭代次数正相关。

可选的，所述第一训练样本包含多帧语音数据，所述识别结果为各帧目标语音数据分别属于各预设文本的概率；

所述方法还包括：

针对所述第一训练样本中的每帧语音数据，确定该帧语音数据属于各预设文本的概率，以及该帧语音数据的标注，确定该帧语音数据的识别结果及其标注之间的差异；

根据所述第一训练样本包含的各帧语音数据的识别结果及其标注之间的差异，确定所述第一训练样本的识别结果及其标注之间的差异。

可选的，所述第一训练样本和所述目标语音数据包含多帧语音数据；

得到所述目标语音数据的识别结果，作为所述第一训练样本的标注，具体包括：

针对所述第一训练样本中的每帧语音数据，根据该帧语音数据对应的数据增强方式，从所述目标语音数据包含的各帧语音数据中，确定与该帧语音数据匹配的原始语音数据；

确定所述识别层输出的所述原始语音数据的识别结果，作为该帧语音数据的标注；

根据所述第一训练样本中各帧语音数据的标注，确定所述第一训练样本的标注。

可选的，获取目标领域对应的目标语音数据，具体包括：

从目标领域对应的各语音数据中，选择任一语音数据，作为待定语音数据；

对确定出的所述待定语音数据进行预处理，所述预处理包含重采样、格式转换、裁剪中的至少一种；

将预处理后的所述待定语音数据作为目标语音数据。

可选的，获取带标注的通用语音数据，具体包括：

从通用语音数据集中，确定带标注的待定语音数据；

对确定出的待定语音数据进行第一预处理，所述第一预处理包含重采样、格式转换、裁剪中的至少一种；

对所述待定语音数据的标注进行第二预处理，所述第二预处理包含分词、去符号、字符转换中的至少一种；

将预处理后的所述待定语音数据作为通用语音数据，并将预处理后的所述标注作为所述通用语音数据的标注。

本说明书提供一种语音识别模型的训练装置，包括：

获取模块，用于获取目标领域对应的目标语音数据；

第一确定模块，用于将所述目标语音数据输入预先训练的复述模型的编码器，得到所述编码器输出的第一语音特征，所述复述模型包含编码器和解码器，所述复述模型预先通过通用语音数据集训练得到；

增强模块，用于对所述目标语音数据进行数据增强，得到增强语音数据，并将所述增强语音数据作为第一训练样本；

标注确定模块，用于将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，并将所述第二语音特征输入所述待训练的语音识别模型的识别层，得到所述目标语音数据的识别结果，作为所述第一训练样本的标注；

结果确定模块，用于将所述第一训练样本输入所述待训练的语音识别模型中，得到所述第一训练样本的识别结果；

训练模块，用于根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，并以所述损失最小为优化目标，对所述语音识别模型进行训练；其中，训练完成的所述语音识别模型用于识别目标领域中的语音数据。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音识别模型的训练方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音识别模型的训练方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

通过基于通用语音数据集训练的复述模型，确定目标语音数据的第一语音特征，以及通过待训练的语音识别模型，确定目标语音数据的第二语音特征和识别结果，再将数据增强后的目标语音数据作为第一训练样本，将目标语音数据的识别结果作为第一训练样本的标注，根据第一训练样本的识别结果及其标注之间的差异，以及第一语音特征和第二语音特征之间的差异，对该语音识别模型进行训练。

本方法采用语音识别模型自监督、复述模型辅助监督的方式来进行训练，在不需要人工对目标领域的语音数据进行标注的情况下，也可得到准确的语音识别模型，保证了模型训练效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的语音识别模型的训练方法的流程示意图；

图2为本说明书提供的语音识别模型的训练流程示意图；

图3为本说明书提供的语音识别模型的训练流程示意图；

图4为本说明书提供的语音识别模型的训练流程示意图；

图5为本说明书提供的语音识别模型的训练装置的结构示意图；

图6为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

目前，随着互联网技术的发展，语音识别技术在各个领域也得到了广泛应用。但通常情况下，现有的语音识别模型在训练过程中是基于通用场景下的样本进行训练的，因此，训练完成的语音识别模型可对通用场景下的语音数据进行识别。

但对于金融、教育、医疗等垂直领域，由于垂直领域中具有较多的专有名词。在通用场景下的有标注的语音数据没有包含上述专有名词，且语音数据对应的文本可存在同音字、同音词等的情况下，训练完成的语音识别模型也无法对垂直领域中包含专有名词的语音数据进行准确识别，甚至可能出现识别出的文字与原始语音数据对应的语义之间相差较大的情况。

以语音数据对应的文字为眼动精神测评为例，则使用通用场景下的语音识别模型，可对语音数据进行分析得到眼洞精神测评的输出结果。显然，通常场景下的语音识别模型输出的结果与语音数据对应的语义之间存在较大差别。因此，需基于垂直领域对应的语音数据，对该语音识别模型进行训练。

基于此，本说明书提供一种新的语音识别模型的训练方法，基于垂直领域对应的训练样本，训练得到适用于垂直领域的语音识别模型。

另外，由于各垂直领域的专有名词等存在区别，因此，针对每个垂直领域，可训练得到适用于该垂直领域的语音识别模型。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种语音识别模型的训练方法的执行流程示意图，具体包括以下步骤：

S100：获取目标领域对应的目标语音数据。

在本说明书提供的一个或多个实施例中，该语音识别模型的训练方法由服务器执行。

一般的，训练模型可以分为样本生成阶段以及训练模型阶段，在样本生成阶段可根据模型需要以及训练需要，确定用于训练模型的样本。而本说明书中的该语音识别模型的训练方法，其目的是训练出可适用于目标领域的语音识别。即，可对包含有目标领域专有名词的语音数据进行准确识别的语音识别模型。而为了达到这一技术效果，本说明书中采用基于目标领域对应的训练样本对模型进行训练的技术手段。因此，该服务器可首先获取目标领域对应的目标语音数据。

具体的，该服务器可从目标领域对应的语音数据中，随机确定任一语音数据，作为该目标领域对应的目标语音数据。

或者，该服务器可在存储语音数据时，根据语音数据对应的领域，将语音数据进行存储。则在确定该语音识别模型需进行训练时，从自身预先存储的各语音数据中，随机选择任一语音数据，作为目标语音数据，并将目标语音数据对应的领域作为目标领域。其中，该目标领域可为上述垂直领域，也可为从各领域中选择任一领域作为目标领域。

当然，具体如何确定目标领域和目标语音数据，可根据需要进行设置，本说明书对此不做限制。

S102：将所述目标语音数据输入预先训练的复述模型的编码器，得到所述编码器输出的第一语音特征，所述复述模型包含编码器和解码器，所述复述模型预先通过通用语音数据集训练得到。

区别于目前训练语音识别模型时，人工标注训练样本成本高、效率低的问题。本说明书提供一种新的语音识别模型的训练方法，使得在不需要对目标领域的目标语音数据进行标注的情况下，采用语音识别模型自监督、复述模型辅助监督的方式，来训练得到该语音识别模型。因此，该服务器可通过复述模型来辅助该语音识别模型进行训练。

具体的，复述模型为编码器-解码器结构。其中，该编码器用于对音频数据进行特征提取，确定音频数据对应的音频特征。该解码器用于对文本数据根据提取出的音频特征，确定音频特征对应的音频数据。为了基于复述模型更好地对语音识别模型进行指导，该复述模型还可为基于通用语音数据集训练得到的。

于是，该服务器可将目标语音数据作为输入，输入该复述模型的编码器中，对该目标语音数据进行特征提取，得到该编码器输出的第一语音特征。其中，该第一语音特征用于和语音识别模型的特征提取层提取出的该目标语音模型的第二语音特征确定损失。

进一步的，该复述模型用于对目标语音数据进行准确的特征提取，再通过提取出的特征对该语音识别模型进行指导。因此，在通过该复述模型确定第一语音特征前，该服务器还可预先通过通用语音数据集训练得到该复述模型：

具体的，该服务器可获取通用语音数据集，并从通用语音数据集中，选择指定数量的通用语音数据，作为各第三训练样本。

其次，该服务器可针对每个第三训练样本，将该第三训练样本输入该复述模型的编码层中，得到该复述模型的编码层输出的样本特征。

然后，该服务器可将该样本特征中的至少部分特征进行掩码处理，并将掩码处理后的样本特征输出入该复述模型的解码层，得到该解码层输出的语音数据。

最后，该服务器可第三训练样本对应的语音数据及其自身之间的差异，确定损失，并以损失最小为优化目标，对该复述模型的模型参数进行训练。以完成该复述模型的预训练过程。

当然，训练该复述模型的服务器与执行该语音识别模型的训练方法的服务器可为相同服务器，也可为不同服务器。

更进一步的，为了让该复述模型可更准确地指导语音识别模型进行训练，在该复述模型预训练完成后，该服务器可获取若干目标语音数据。并针对获取到的每个目标语音数据，将该目标语音数据输入该复述模型中，得到该目标语音数据对应的语音数据，再根据各目标语音数据及其对应的语音数据，对该复述模型进行微调。

则基于上述过程训练得到的复述模型，在目标语音数据的数量较少的情况下，也可调整出训练样本对应的准确的特征表示，提高了模型的训练效率。

当然，该服务器也可直接将目标语音数据和通用语音数据作为第三训练样本，直接基于第三训练样本对该复述模型进行训练，调整得到适用于该目标领域的复述模型。

具体训练该复述模型的训练样本，以及如何基于训练样本训练该复述模型，均可根据需要进行设置，本说明书对此不做限制。

S104：对所述目标语音数据进行数据增强，得到增强语音数据，并将所述增强语音数据作为第一训练样本。

在本说明书提供的一个或多个实施例中，本说明书中采用自监督学习的方式，来对该语音识别模型进行训练。而本说明书中采用的自监督学习的方式，即为对目标语音数据进行数据增强，得到增强语音数据，再将该目标语音数据的语音识别结果作为该增强语音数据的标注，以及根据该增强语音数据的识别结果和标注确定损失，对该语音识别模型进行训练。

基于此，该服务器可对目标语音数据进行数据增强。

具体的，该服务器可从预设的各数据增强方式中，随机确定指定数量的数据增强方式，并根据确定出的数据增强方式，对该目标语音数据进行处理。其中，该数据增强的方式可为语速扰动、遮盖该目标语音数据中的至少部分等。该服务区确定出的数据增强方式的数量可为一种，也可为多种，具体如何确定数据增强方式以及确定几种数据增强方式来对目标语音数据进行处理，可根据需要进行设置，本说明书对此不做限制。

其中，数据增强方式还可设置处理强度，则处理强度越高，处理后的增强语音数据与原始的目标语音数据之间的差异越大，增强语音数据的识别结果和目标语音数据的识别结果之间的差异也就越大。反之亦然。

则在对目标语音数据进行处理后，该服务器可将处理后的目标语音数据作为增强语音数据。又因为本说明书中需基于增强语音数据的标注及其识别结果来确定损失，再基于损失对该语音识别模型进行训练。因此，该服务器可将确定出的增强语音数据作为第一训练样本。

S106：将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，并将所述第二语音特征输入所述待训练的语音识别模型的识别层，得到所述目标语音数据的识别结果，作为所述第一训练样本的标注。

在本说明书提供的一个或多个实施例中，如前所述的，该服务器可将目标语音数据的识别结果作为第一训练样本的标注，再根据第一训练样本的识别结果及其标注，确定损失，再以损失最小为优化目标对语音识别模型进行训练。

具体的，该语音识别模型包含特征提取层和识别层。其中，该特征提取层用于对输入语音识别模型的语音数据进行特征提取，得到该语音数据对应的语音特征，该识别层用于对语音特征进行识别，得到语音特征对应的文本数据。

而本说明书中，该服务器需基于复述模型的编码器，来对该特征提取层进行指导。因此，该服务器可将目标语音数据作为输入，输入该待训练的语音识别模型的特征提取层中，得到该特征提取层输出的第二语音特征。

接着，该服务器可将该第二语音特征作为输入，输入该待训练的语音识别模型的识别层中，由识别层对该第二语音特征进行识别，确定第二语音特征对应的文本数据，作为该目标语音数据的识别结果。

最后，该服务器可将该目标语音数据的识别结果作为该第一训练样本的标注。

其中，该识别结果可为目标语音数据对应的文本数据，也可为该服务器中预设有各文本，该识别结果为该目标语音数据属于各预设文本的概率。

进一步的，因为确定出的目标语音数据的识别结果为目标语音数据属于各预设文本的概率，而通常目标语音数据为预设文本中的某一文本，如，语音数据对应的文本为正，或者语音数据对应的文本为负等。于是，该服务器可从目标语音数据对应的识别结果中，确定概率最高对应的文本，作为该第一训练样本的标注。如，语音数据对应的文本为正、负、同的概率分别为10%、80%、2%，则可确定该第一训练样本的标注为负。

S108：将所述第一训练样本输入所述待训练的语音识别模型中，得到所述第一训练样本的识别结果。

在本说明书提供的一个或多个实施例中，在确定出第一训练样本后，该服务器可基于第一训练样本的识别结果及其标注对该语音识别模型进行训练。因此，该服务器可确定第一训练样本的识别结果。

具体的，该服务器可将该第一训练样本作为输入，输入待训练的语音识别模型中，通过该语音识别模型的特征提取层和识别层，得到该语音识别模型输出的该第一训练样本的识别结果。其中，该第一训练样本的识别结果与上述目标语音数据的识别结果类似，均可为文本数据，或对应于文本数据的概率。具体该第一训练样本的识别结果的类型可根据需要进行设置，本说明书对此不做限制。

S110：根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，并以所述损失最小为优化目标，对所述语音识别模型进行训练。其中，训练完成的所述语音识别模型用于识别目标领域中的语音数据。

在本说明书提供的一个或多个实施例中，如前所述的，该服务器可基于目标语音数据的第一语音特征和第二语音特征之间的差异，来指导该语音识别模型的特征提取层的训练。以及根据第一训练样本的识别结果及其标注之间的差异，来指导该语音识别模型的训练。

具体的，该服务器可确定第一训练样本的识别结果及其标注之间的差异，作为第一差异，并确定第一语音特征和第二语音特征之间的差异，作为第二差异。

然后，该服务器可将该第一差异和该第二差异之和，作为损失。

最后，该服务器可根据确定出的损失，对该语音识别模型的模型参数进行调整，来完成对该语音识别模型的训练过程。

在完成对该语音识别模型的训练后，由于该语音识别模型时基于目标领域的目标语音数据训练得到的，则使用该语音识别模型对目标领域对应的语音数据进行识别，其对应的识别结果较高。因此，该服务器还可将该训练完成的语音识别模型作为用于对目标领域对应的语音数据进行语音识别的模型。如图2所示。

图2为本说明书提供的语音识别模型的训练流程示意图，图中，该服务器可将该目标语音数据输入该复述模型的编码层和该语音识别模型的特征提取层，得到第一语音特征和第二语音特征，以根据第一语音特征和第二语音特征确定第二差异。同时，该服务器可将该目标语音数据输入该语音识别模型中，得到该目标语音数据的识别结果，作为第一训练样本的标注。再将该第一训练样本输入该语音识别模型中，得到识别结果，以及根据第一训练样本的识别结果及其标注，确定第一差异。则该服务器可基于该第一差异和第二差异确定损失。其中，图中确定第一训练样本的标注的语音识别模型和确定第一训练样本的识别结果的语音识别模型为相同模型，图中为了更直观地表示所以画了两次。

基于图1所示的语音识别模型的训练方法，通过基于通用语音数据集训练得到的复述模型，确定目标语音数据的第一语音特征，以及通过待训练的语音识别模型，确定目标语音数据的第二语音特征和识别结果，再将数据增强后的目标语音数据作为第一训练样本，将目标语音数据的识别结果作为第一训练样本的标注，根据第一训练样本的识别结果及其权重之间的差异，以及第一语音特征和第二语音特征之间的差异，对该语音识别模型进行训练。本方法采用语音识别模型自监督、复述模型辅助监督的方式，来训练得到目标领域的语音识别模型，在不需要人工对目标领域的语音数据进行标注的情况下，也可得到准确的语音识别模型，保证了模型训练的效率。

进一步的，在本说明书，为了使训练得到的语音识别模型更准确，在步骤S110中，该服务器还可基于有标注的通用语音数据，来对该语音识别模型进行辅助训练。

具体的，该服务器可获取带标注的通用语音数据，作为第二训练样本。

然后，该服务器可将第二训练样本输入待训练的语音识别模型中，通过该语音识别模型的特征提取层和识别层，得到该第二训练样本的识别结果。

最后，该服务器可确定该第二训练样本的识别结果及其标注之间的差异，作为第三差异，并将该第三差异和步骤S110中确定出的第一差异和第二差异相加，确定损失。如图3所示。

图3为本说明书提供的语音识别模型的训练流程示意图，图中，该服务器可将该目标语音数据输入该复述模型的编码层和该语音识别模型的特征提取层，得到第一语音特征和第二语音特征，以根据第一语音特征和第二语音特征确定第二差异。同时，该服务器可将该目标语音数据输入该语音识别模型中，得到该目标语音数据的识别结果，作为第一训练样本的标注。再将该第一训练样本输入该语音识别模型中，得到识别结果，以及根据第一训练样本的识别结果及其标注，确定第一差异。

与此同时，该服务器可确定带标注的第二训练样本，并将该第二训练样本作为输入，输入该语音识别模型中，得到该语音识别模型输出的识别结果和标注之间的差异，作为第三差异。则该服务器可基于该第一差异、第二差异和第三差异确定损失。其中，图中确定第一训练样本的标注的语音识别模型、确定第一训练样本的识别结果的语音识别模型，以及确定第二训练样本的识别结果的语音识别模型为相同模型，图中为了更直观地表示所以画了三次。

更进一步的，本说明书中的该目标语音数据、增强语音数据以及通用语音数据等，都为一段语音数据。也就是说，目标语音数据、增强语音数据以及通用语音数据均包含有多帧语音数据。而对于一段语音数据来说，由于发生该语音数据的用户拖音等多种原因，可能出现多帧连续语音数据对应于同一文本的情况。如，第一帧语音数据和第二帧语音数据对应于“可”这一文本。但也存在连续帧语音数据对应于相同文本，但并不为同一文本的情况。如，连续四帧语音数据对应于“可可爱爱”这一识别结果，其中，第一帧语音数据和第二帧语音数据分别对应于“可”这一文本，但并不对应于相同字符。也就是说，语音数据包含的各帧语音数据，与其对应的文本数据并非为每一帧都对应一个文本的关系，而是可能多帧语音数据对应一个文本的关系。因此，该服务器还需确定各帧语音数据与其前一帧语音数据属于相同字符的概率。

具体的，该语音识别模型包含特征提取层、识别层和分类层。其中，该分类层用于确定各帧语音数据与其前一帧语音数据属于相同字符的概率。

则该服务器可将第一训练样本输入该语音识别模型的特征提取层中，得到该特征提取层输出的第一训练样本的第三语音特征。

然后，该服务器可将该第三语音特征作为输入，分别输入该语音识别模型的识别层和该语音识别模型的分类层中，得到该语音识别模型的识别层输出的该第一训练样本的输出结果，以及得到该语音识别模型输出的该第一训练样本的分类结果。其中，该分类结果为该第一训练样本中的各帧语音数据与其前一帧语音数据属于相同字符的概率。也就是说，该分类层可针对该第一训练样本中的每帧语音数据，确定该帧语音数据与其前一帧语音数据属于相同字符的概率，再根据确定出的各帧语音数据分别与其前一帧语音数据属于相同字符的概率，确定该第一训练样本的分类结果。

最后，该服务器可将该第一训练样本的识别结果及其标注之间的差异，作为第一差异。并将该第一语音特征和第二语音特征之间的差异，作为第二差异，以及将该第一训练样本的分类结果及其时序标注之间的差异，作为第四差异。则该服务器可根据确定出的第一差异、第二差异和第四差异，确定损失。

其中，该服务器可将目标语音数据对应的第二语音特征作为输入，输入该语音识别模型的分类层中，得到该分类层输出的目标语音数据的分类结果，作为该第一训练样本的时序标注。其中，该目标语音数据的分类结果与上述第一训练样本的分类结果相似，都可为各帧语音数据与其前一帧语音数据属于同一字符的概率。

需要说明的是，本说明书中的特征提取层、识别层以及识别层，可为编码器结构、解码器结构、神经网络模型、卷积神经网络、循环神经网络等多种网络结构，具体该语音识别模型的模型结构以及各层对应的网络的类型，可根据需要进行设置，本说明书对此不做限制。

当然，该服务器还可根据分类结合和预设的概率阈值，确定第一训练样本的时序标注。如，针对每帧语音数据，当该帧语音数据与其前一帧语音数据属于相同字符的概率大于该概率阈值时，确定该帧语音数据和该帧数据的前一帧数据为同一字符。当该帧语音数据与其前一帧语音数据属于相同字符的概率不大于该概率阈值时，确定该帧语音数据和该帧数据的前一帧数据不为同一字符。具体该第一训练样本的时序标注如何确定可根据需要进行设置，本说明书对此不做限制。

进一步的，若仅学习语音数据对应的特征提取方式，则可能出现语音识别模型输出的结果不成文的情况。即，可基于各目标语音数据，学习到较为准确的字词，但识别出的各字词之间无法组合成句，更无法组合成文章。因此，该语音识别模型中，还可对文本信息进行学习。

具体的，该语音识别模型的特征提取层可为语音特征提取层和文本特征提取层。于是，该服务器可获取带标注的通用语音数据，作为第四训练样本。

其次，该服务器可将该第四训练样本作为输入，输入预先训练完成的重述模型的编码器中，得到该重述模型的编码器输出的第一文本特征。

然后，该服务器可将该第一训练样本和该第四训练样本输入语音特征提取层，得到该语音特征提取层输出的第一训练样本和第四训练样本分别对应的语音特征，即，第二语音特征和第三语音特征。

接着，该服务器可将该第四训练样本的标注作为输入，输入该语音识别模型的文本特征提取层中，得到该第四训练样本对应的第二文本特征。

之后，该服务器可将该第二文本特征和该第三语音特征输入该语音识别模型的识别层，得到该第四训练样本的识别结果。

最后，该服务器可确定第四训练样本的识别结果及其标注之间的差异，作为第五差异，以及确定第一文本数据和该第二文本特征之间的差异，作为第六差异。再根据该第五差异和第六差异，以及前述确定出的第一差异、第二差异、第三差异和第四差异等，确定该语音识别模型的损失。如图4所示。

图4为本说明书提供的语音识别模型的训练流程示意图，图中，该服务器可将该第四训练样本输入该重述模型的编码层和该语音识别模型的文本特征提取层，得到第一文本音特征和第二文本特征之间的第六差异。同时，该服务器可将该第四训练样本输入该语音识别模型中，得到该语音识别结果和标注之间的第五差异。则该服务器可基于该第一差异、第二差异、第三差异、第四差异、第五差异和第六差异确定损失。其中，图中确定第一训练样本的标注的语音识别模型、确定第一训练样本的识别结果的语音识别模型、确定第二训练样本的识别结果的语音识别模型以及确定该第四训练样本的识别结果的语音识别模型为相同模型。

其中，该第四训练样本与上述第二训练样本可为相同训练样本，本说明书中不使用第二训练样本而是直接确定第四训练样本，其目的是后续可基于第二训练样本对应的第三差异、第四差异等，与该第四训练样本对应的第五差异、第六差异等一同确定损失。具体如何确定损失可根据需要进行设置，本说明书对此不做限制。

更进一步的，该复述模型用于对目标语音数据进行准确的特征提取，再通过提取出的特征对该语音识别模型进行指导。因此，在通过该复述模型确定第一语音特征前，该服务器还可预先通过通用语音数据集训练得到该复述模型。其中，该重述模型与上述复述模型类似，都可基于通用样本集训练得到。区别点在于，该重述模型基于文本数据训练得到，该复述模型基于语音数据训练得到。

具体的，该重述模型可采用下述方式训练得到：

首先，该服务区可根据获取到的通用文本数据集，确定各第五训练样本。其中，该通用文本数据库可为各领域分别对应的文本数据。

其次，针对每个第五训练样本，该服务器可将该第五训练样本作为输入，输入该重述模型的编码层，得到该重述模型的编码层输出的该第五训练样本对应的样本特征。

然后，该服务器可将该第五训练样本的样本特征中的至少部分进行掩码处理，并将掩码处理后的样本特征作为输入，输入该重述模型的解码层，得到该解码层输出的该第五训练样本对应的文本数据。

最后，该服务器可根据各第五训练样本及其对应的文本数据之间的差异，确定损失，并以损失最小调整该重述模型的模型参数，以完成对该重述模型的预训练。

另外，为了让该复述模型可更准确地指导语音识别模型进行训练，在该复述模型预训练完成后，该服务器可获取若干目标文本数据，并根据获取到的各目标文本数据，对训练完成的重述模型的模型参数进行微调，得到用于训练所述语音识别模型的重述模型。其中，该目标文本数据可为目标领域的文本数据。具体如何获取目标领域的文本数据可根据需要进行设置，本说明书对此不做限制。

则基于上述过程训练得到的重述模型，在目标文本数据的数量较少的情况下，也可调整出训练样本对应的准确的特征表示，提高了模型的训练效率。

当然，该服务器也可直接将目标文本数据和通用文本数据作为第五训练样本，直接基于第五训练样本对该重述模型进行训练，调整得到适用于该目标领域的重述模型。

该重述模型的训练样本和具体如何基于训练样本对该重述模型进行训练，可根据需要进行设置，本说明书对此不做限制。

更进一步的，如前所述的，目标语音数据、增强语音数据和通用语音数据都包含有多帧数据。而针对每一帧语音数据来说，该帧语音数据对应的文本与该帧语音数据前的语音数据对应的文本较为相关。因此，针对每一帧语音数据，若基于历史帧语音数据和该帧语音数据一同确定该帧语音数据对应的语音特征，则基于确定出的特征确定识别结果时的准确率更高。于是，在步骤S104中，该服务器可将该目标语音数据进行拆分，确定该目标语音数据包含的每帧语音数据。然后，该服务器可按照时间顺序，将各帧语音数据作为输入，依次输入该语音识别模型的特征提取层，得到该特征提取层输出的各帧语音数据分别对应的第二语音特征。

其中，针对每帧语音数据，该帧语音数据对应的第二语音特征根据位于该帧语音数据前的语音数据和该帧语音数据确定。具体的，该服务器可根据该帧语音数据的上一帧语音数据和该帧语音数据确定该帧语音数据对应的第二语音特征，也可根据该帧语音数据的上两帧语音数据和该帧语音数据确定该镇语音数据对应的第二语音特征。具体该第二语音特征如何确定可根据需要进行设置，本说明书对此不做限制。

另外，由于本说明书要训练得到适用于目标领域的语音识别模型。而模型开始训练时，其可学习到目标领域的知识，而在模型迭代到一定次数后，需基于学习到的目标领域的知识，对语音识别模型自身的准确性进行提高。因此，该服务器还可预设各差异分别对应的权重。则在确定出第一差异和第二差异后，该服务器可根据该第一差异及其权重，以及第二差异及其权重，进行加权求和，得到该语音识别模型对应的损失。其中，该第一差异对应的权重和迭代次数正相关，也就是说，迭代次数越多，第一差异对应的权重越大，若第一差异仍然较大，则会给该语音识别模型带来更大的损失，以此指导该语音识别模型进行训练。

进一步的，如前所述的，第一训练样本包含多帧语音数据。因此，在确定第一训练样本对应的标注以及识别结果之间的差异时，该服务器还可针对每帧语音数据，确定每帧语音数据分别对应的差异。

具体的，该服务器可针对该第一训练样本中的每帧语音数据，确定该帧语音数据属于各预设文本的概率，并根据该帧语音数据的标注，确定该帧语音数据的识别结果及其标注之间的差异。

于是，该服务器可根据该第一训练样本中包含的各帧语音数据的识别结果及其标注之间的差异，确定该第一训练样本的识别结果及其标注之间的差异，即，第一差异。

其中，该服务器在确定该第一训练样本的标注和识别结果时，也可为针对该第一训练样本包含的每帧语音数据，确定该帧语音数据对应的标注和识别结果。各帧第一训练样本的标注和识别结果之间的差异可基于相似度、向量乘积、欧式距离、余弦距离等多种物理量进行确定，具体如何确定标注和识别结果之间的差异可根据需要进行设置，本说明书对此不做限制。

更进一步的，由于数据增强方式中包含有语速扰动等可改变帧与帧之间对应关系的方式，因此，在步骤S104中，该服务器可基于数据增强的方式确定第一训练样本的标注。

具体的，该服务器可针对该第一训练样本中的每帧语音数据，确定该帧语音数据对应的数据增强方式，并根据确定出的数据增强方式，从目标语音数据包含的各帧语音数据中，确定与该帧语音数据匹配的原始语音数据。也就是说，原始语音数据进行数据增强，得到该帧语音数据。

然后，该服务器可确定该识别层输出的该原始语音数据的识别结果，作为该帧语音数据的标注。

最后，该服务器可根据该第一训练样本中各帧语音数据的标注，确定该第一训练样本的标注。

另外，在本说明书中，该识别结果可为服务器针对每帧语音数据，根据确定出的该帧语音数据属于各预设文本的概率，从各预设文本中，选择概率在指定排位前的文本，将确定出的各文本及其概率作为该帧语音数据对应的识别结果。

进一步的，由于需基于多个第一训练样本对语音识别模型进行训练，因此，在确定目标语音数据时，还需将目标语音数据的格式进行统一。

具体的，该服务器可从目标领域对应的各语音数据中，选择任一语音数据，作为待定语音数据。

然后，该服务器可对确定出的待定语音数据进行预处理，得到预处理后的待定语音数据。其中，该预处理包含重采样、格式转换、裁剪中的至少一种。其中，重采样和裁剪用于统一训练样本的大小，格式转换用于同一训练样本的格式。

最后，该服务器可将预处理后的待定语音数据作为目标语音数据。

更进一步的，基于同样思想，该服务器还可确定带标注的通用语音数据。

具体的，该服务器可从通用语音数据集中，随机确定任一语音数据，作为确定带标注的待定语音数据。

然后，该服务器可对确定出的待定语音数据进行第一预处理，得到第一预处理后的待定语音数据。其中，该第一预处理包含重采样、格式转换、裁剪中的至少一种。

同时，该服务器可对待定语音数据的标注进行第二预处理，得到第二预处理后的标注。其中，该第二预处理包含分词、去符号、字符转换中的至少一种。

最后，该服务器可将预处理后的待定语音数据作为通用语音数据，并将预处理后的标注作为通用语音数据的标注。

则基于预处理得到的目标语音数据和带标注的通用语音数据，可对模型的输入进行统一，便于使模型学习到可用于准确识别的特征，提高了模型的训练效率。

另外，在本说明书，为了使训练得到的语音识别模型更准确，在步骤S110中，该语音识别模型的训练方法中的语音识别模型，还可为基于通用语音数据集预训练过的。

具体的，该服务器可获取带标注的通用语音数据，作为第六训练样本。

然后，该服务器可将第六训练样本输入待训练的语音识别模型中，通过该语音识别模型的特征提取层和识别层，得到该第二训练样本的识别结果。

最后，该服务器可确定该第六训练样本的识别结果及其标注之间的差异，确定损失，并以该损失最小为优化目标，对该语音识别模型的模型参数进行调整，以完成对该语音识别模型的预训练。

需要说明的是，本说明书中的损失可为交叉熵损失，也可为基于散度确定的损失，还可为联结时序分类损失，各损失对应的具体类型可根据需要进行设置，本说明书对此不做限制。且本说明书中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

以上为本说明书的一个或多个实施例提供的语音识别模型的训练方法，基于同样的思路，本说明书还提供了相应的语音识别模型的训练装置，如图5所示。

图5为本说明书提供的语音识别模型的训练装置的结构示意图。其中：

获取模块200，用于获取目标领域对应的目标语音数据。

第一确定模块202，用于将所述目标语音数据输入预先训练的复述模型的编码器，得到所述编码器输出的第一语音特征，所述复述模型包含编码器和解码器，所述复述模型预先通过通用语音数据集训练得到。

增强模块204，用于对所述目标语音数据进行数据增强，得到增强语音数据，并将所述增强语音数据作为第一训练样本。

标注确定模块206，用于将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，并将所述第二语音特征输入所述待训练的语音识别模型的识别层，得到所述目标语音数据的识别结果，作为所述第一训练样本的标注。

结果确定模块208，用于将所述第一训练样本输入所述待训练的语音识别模型中，得到所述第一训练样本的识别结果。

训练模块210，用于根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，并以所述损失最小为优化目标，对所述语音识别模型进行训练；其中，训练完成的所述语音识别模型用于识别目标领域中的语音数据。

可选的，训练模块210，用于获取带标注的通用语音数据，作为第二训练样本，将所述第二训练样本输入所述待训练的语音识别模型中，得到所述第二训练样本的识别结果，根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异，以及所述第二训练样本的识别结果及其标注之间的差异，确定损失。

可选的，所述语音识别模型包含特征提取层、识别层、分类层，训练模块210，用于将所述第二语音特征输入所述语音识别模型的分类层中，得到所述目标语音数据的分类结果，作为所述第一训练样本的时序标注，将所述第一训练样本输入所述语音识别模型的特征提取层中，得到所述特征提取层输出的所述第一训练样本的第三语音特征，将所述第三语音特征输入所述语音识别模型的分类层，得到所述第一训练样本的分类结果，所述分类结果为所述第一训练样本中的各帧语音数据与其前一帧语音数据属于同一字符的概率，根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异，以及所述第一训练样本的分类结果及其时序标注之间的差异，确定损失。

可选的，训练模块210，用于通过下述方式训练得到所述复述模型：根据获取到的通用语音数据集，确定各第三训练样本，针对每个第三训练样本，将该第三训练样本输入所述复述模型的编码层，得到所述复述模型的编码层输出的样本特征，将所述样本特征中的至少部分特征进行掩码处理，并将掩码处理后的所述样本特征输入所述复述模型的解码层，得到所述解码层输出的语音数据，根据所述第三训练样本及其对应的语音数据，对所述复述模型进行训练。

可选的，训练模块210，用于获取若干目标语音数据，并根据获取到的各目标语音数据，对训练完成的复述模型的模型参数进行微调，得到用于训练所述语音识别模型的复述模型。

可选的，所述特征提取层包含语音特征提取层和文本特征提取层，训练模块210，用于，获取带标注的通用语音数据，作为第四训练样本，将所述第四训练样本的标注输入预先训练的重述模型的编码器，得到所述重述模型的编码器输出的第一文本特征，所述重述模型包括编码器和解码器，所述重述模型预先通过通用文本数据集训练得到，将所述第四训练样本的标注输入所述语音识别模型的文本特征提取层，得到所述第四训练样本的标注对应的第二文本特征，将所述第二文本特征输入所述语音识别模型的识别层，得到所述第四训练样本的识别结果，根据所述第一训练样本的识别结果及其标注之间的差异、所述第一语音特征和所述第二语音特征之间的差异、所述第四训练样本的识别结果及其标注之间的差异，以及所述第一文本特征和所述第二文本特征之间的差异，确定损失。

可选的，训练模块210，用于采用下述方式训练得到所述重述模型：根据获取到的通用文本数据集，确定各第五训练样本，针对每个第五训练样本，将该第五训练样本输入所述重述模型的编码层，得到所述重第五训练样本的样本特征，将所述样本特征中的至少部分进行掩码处理，并将掩码处理后的所述样本特征输入所述重述模型的解码层，得到所述第五训练样本文本数据，根据所述第五训练样本及其对应的文本数据，对所述重述模型进行训练。

可选的，训练模块210，用于获取若干目标文本数据，并根据获取到的各目标文本数据，对训练完成的重述模型的模型参数进行微调，得到用于训练所述语音识别模型的重述模型。

可选地，标注确定模块206，用于将所述目标语音数据进行拆分，确定所述目标语音数据包含的各帧语音数据，按照时间顺序，将所述各帧语音数据依次输入所述语音识别模型的特征提取层，得到所述特征提取层输出的所述各帧语音数据分别对应的第二语音特征，其中，针对每帧语音数据，该帧语音数据对应的第二语音特征根据位于该帧语音数据前的语音数据和该帧语音数据确定。

可选的，训练模块210，用于确定所述第一训练样本的识别结果及其标注之间的差异，作为第一差异，并确定所述第一语音特征和所述第二语音特征之间的差异，作为第二差异，根据所述第一差异及其权重，以及所述第二差异及其权重，确定损失，所述第一差异的权重和迭代次数正相关。

可选的，所述第一训练样本包含多帧语音数据，所述识别结果为各帧目标语音数据分别属于各预设文本的概率；训练模块210，用于针对所述第一训练样本中的每帧语音数据，确定该帧语音数据属于各预设文本的概率，以及该帧语音数据的标注，确定该帧语音数据的识别结果及其标注之间的差异，根据所述第一训练样本包含的各帧语音数据的识别结果及其标注之间的差异，确定所述第一训练样本的识别结果及其标注之间的差异。

可选的，所述第一训练样本和所述目标语音数据包含多帧语音数据；训练模块210，用于针对所述第一训练样本中的每帧语音数据，根据该帧语音数据对应的数据增强方式，从所述目标语音数据包含的各帧语音数据中，确定与该帧语音数据匹配的原始语音数据，确定所述识别层输出的所述原始语音数据的识别结果，作为该帧语音数据的标注，根据所述第一训练样本中各帧语音数据的标注，确定所述第一训练样本的标注。

可选的，获取模块200，用于从目标领域对应的各语音数据中，选择任一语音数据，作为待定语音数据，对确定出的所述待定语音数据进行预处理，所述预处理包含重采样、格式转换、裁剪中的至少一种，将预处理后的所述待定语音数据作为目标语音数据。

可选的，获取模块200，用于从通用语音数据集中，确定带标注的待定语音数据，对确定出的待定语音数据进行第一预处理，所述第一预处理包含重采样、格式转换、裁剪中的至少一种。对所述待定语音数据的标注进行第二预处理，所述第二预处理包含分词、去符号、字符转换中的至少一种，将预处理后的所述待定语音数据作为通用语音数据，并将预处理后的所述标注作为所述通用语音数据的标注。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的语音识别模型的训练方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的语音识别模型的训练方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

获取目标领域对应的目标语音数据；

2.如权利要求1所述的方法，其特征在于，根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，具体包括：

获取带标注的通用语音数据，作为第二训练样本；

3.如权利要求1所述的方法，其特征在于，所述语音识别模型包含特征提取层、识别层、分类层；

4.如权利要求1所述的方法，其特征在于，所述复述模型通过下述方式训练得到：

根据获取到的通用语音数据集，确定各第三训练样本；

5.如权利要求4所述的方法，其特征在于，所述方法还包括；

6.如权利要求1所述的方法，其特征在于，所述特征提取层包含语音特征提取层和文本特征提取层；

获取带标注的通用语音数据，作为第四训练样本；

7.如权利要求6所述的方法，其特征在于，采用下述方式训练得到所述重述模型：

根据获取到的通用文本数据集，确定各第五训练样本；

针对每个第五训练样本，将该第五训练样本输入所述重述模型的编码层，得到所述第五训练样本的样本特征；

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

9.如权利要求1所述的方法，其特征在于，将所述目标语音数据输入待训练的语音识别模型中的特征提取层，得到第二语音特征，具体包括：

10.如权利要求1所述的方法，其特征在于，根据所述第一训练样本的识别结果及其标注之间的差异，以及所述第一语音特征和所述第二语音特征之间的差异，确定损失，具体包括：

11.如权利要求1所述的方法，其特征在于，所述第一训练样本包含多帧语音数据，所述识别结果为各帧目标语音数据分别属于各预设文本的概率；

所述方法还包括：

12.如权利要求1所述的方法，其特征在于，所述第一训练样本和所述目标语音数据包含多帧语音数据；

13.如权利要求1所述的方法，其特征在于，获取目标领域对应的目标语音数据，具体包括：

将预处理后的所述待定语音数据作为目标语音数据。

14.如权利要求2所述的方法，其特征在于，获取带标注的通用语音数据，具体包括：

从通用语音数据集中，确定带标注的待定语音数据；

15.一种语音识别模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取目标领域对应的目标语音数据；

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~14任一项所述的方法。

17.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1~14任一项所述的方法。