CN111667728A

CN111667728A - 语音后处理模块训练方法和装置

Info

Publication number: CN111667728A
Application number: CN202010570368.7A
Authority: CN
Inventors: 雷金博; 薛少飞; 王雪志
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-15
Anticipated expiration: 2040-06-18
Also published as: CN111667728B

Abstract

本发明公开语音后处理模块训练方法和装置，其中，一种语音后处理模块训练方法，包括：根据知识蒸馏的训练方式，将离线多任务模型作为教师模型，将在线多任务模型作为学生模型，使教师模型从学生模型中学习知识，其中，在线多任务模型具有a个共享层、b个特定层和c个分类层，离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层；学生模型的第i层共享层从教师模型的第n*i层共享层学习知识，学生模型的特定层从教师模型的最后一个特定层学习知识，学生模型的分类层从教师模型的分类层学习知识；以及基于学习知识的过程构造损失函数，并基于损失函数更新在线多任务模型的参数以对在线多任务模型进行训练。

Description

语音后处理模块训练方法和装置

技术领域

本发明属于语音处理技术领域，尤其涉及语音后处理模块训练方法和装置。

背景技术

现有技术中，目前市面上在语音识别后处理模块的标点预测和口语顺滑方面，主要是用两个基于多层Transformer(谷歌提出的自然语言处理模型)的单任务模型来实现，其中，Transformer是一种神经网络的编码器结构，基于自注意力机制实现。支持计算并行，并且上下文的语义捕获能力优于RNN(循环神经网络，Recurrent Neural Network)类的编码器。同时，针对在线和离线的场景，也是分别在同一训练集上各自学习一套小模型和大模型。

Transformer是一种特征提取器，在序列建模中通常作为编码器或解码器。它完全基于自注意力机制，语义特征提取能力强，长距离特征捕获能力与RNN类编码器相当，并行计算能力远超RNN类编码器，其中，RNN是一种基于时序的循环神经网络编码器，常用于语音、文本等序列数据的特征提取。每一个时间步的计算依赖于前一个时间步的状态，并行程度低。目前常被用作主流的NLP(Natural Language Processing，自然语言处理)任务编码器，并且能取得较好的性能。

口语顺滑和标点预测通常作为语音识别文本的后处理技术，对识别文本进行修改从而达到提升人的阅读体验和向下游任务提供额外特征的作用。传统的后处理模块是将识别文本依次进行口语顺滑和标点预测，但是实际上这两个模块往往接收相似的输入，因此也有的一些技术是用“硬共享”的机制将两个模块集成起来，从而达到减少模型大小，降低计算延时的作用。

在实际应用中，后处理模块分为在线系统和离线系统，在线系统对延时要求高，离线系统对延时要求低，因此这两个系统的后处理模型结构也不一样。一般是在同一训练集上训练一大一小两套模型来实现，大模型的网络层数更深，参数量更多，效果较好，小模型网络层数较浅，参数量较少，效果较差。

发明人在实现本申请的过程中发现，现有方案至少存在以下缺陷：

对于口语顺滑和标点预测任务来说，由两个单任务模型组成的联合模型无法利用到两个任务之间的相关性，因此性能会略差于多任务模型。同时，基于“硬共享”方式的多任务模型由于两任务之间共享的隐层过多，导致的负迁移现象比较严重，最终效果不如我们这里使用的“分层共享”方式的多任务模型，其中，负迁移一般是指一种学习对另一种学习起干扰或抑制作用。负迁移通常表现为一种学习使另一种学习所需的学习时间或所需的练习次数增加或阻碍另一种学习的顺利进行以及知识的正确掌握。负迁移的产生常在两种学习又相似又不相似的情境下，学习者认知混淆而产生的。发生这种迁移，会使另一种学习更加困难，错误增加。负迁移是一种学习对另一种学习的阻碍作用，表现在学习新旧知识，掌握先后方法的相互影响之中。

针对离线系统和在线系统，直接从同一训练集上训练一大一小两个模型，往往大模型效果好，小模型效果比较差，往往导致在线系统的模型性能比较差。

发明内容

本发明实施例提供一种语音后处理模块训练方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音后处理模块训练方法，其中，所述后处理模块包括在线多任务模型和离线多任务模型，所述方法包括：根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；以及基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

第二方面，本发明实施例提供一种语音后处理模块训练装置，其中，所述后处理模块包括在线多任务模型和离线多任务模型，所述装置包括：定义模块，配置为根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；学习模块，配置为所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；以及训练模块，配置为基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音后处理模块训练方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音后处理模块训练方法的步骤。

本申请的方法和装置提供的方案通过采用知识蒸馏的方式，让在线多任务模型这种小模型可以从离线多任务模型这种大模型中学习知识，避免了小模型直接训练效果差，可以有效防止“硬共享”导致的负迁移现象比较严重的情况，以本申请实施例的方式训练得到的在线多任务模型的性能更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音后处理模块训练方法的流程图；

图2为本发明一实施例提供的另一种语音后处理模块训练方法的流程图；

图3为本发明实施例的语音后处理模块训练方案一具体实施例的多任务模型知识蒸馏结构图；

图4为本发明一实施例提供的一种语音后处理模块训练装置的框图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音后处理模块训练方法的一实施例的流程图，本实施例的语音后处理模块训练方法可以适用于进行标点预测和口语顺滑，本申请在此没有限制。其中，后处理模块包括在线多任务模型和离线多任务模型。

如图1所示，在步骤101中，根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；

在步骤102中，所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；

在步骤103中，基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

本实施例的方法通过采用知识蒸馏的方式，让在线多任务模型这种小模型可以从离线多任务模型这种大模型中学习知识，避免了小模型直接训练效果差，可以有效防止“硬共享”导致的负迁移现象比较严重的情况，以本申请实施例的方式训练得到的在线多任务模型的性能更好。进一步地，，通过将离线多任务模型的各层的层数设置为在线多任务模型各层层数的整数倍可以是的学习更加有针对性，后续计算损失函数也更规范，计算的结果也更可靠。

在一些可选的实施例中，所述基于学习知识的过程中构造损失函数包括：在所述教师模型和所述学生模型的共享层之间构建均方误差损失函数，在每个特定层之间构造均方误差损失函数，将每个分类层的输出除以预设参数计算均方误差损失。从而可以从以上三方面计算损失函数，最后通过教师模型和学生模型的损失函数可以使得学生模型与教师模型具有更接近的性能。

进一步参考图2，其示出了本发明一实施例提供的另一种语音后处理模块训练方法的流程图。该流程图主要是针对图1中步骤101“根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型”之前的步骤进一步限定的步骤的流程图。

在步骤201中，在数据集上进行多任务模型试验，在满足离线系统延时的条件下确定对应的所述离线多任务模型的第一共享层数和第一特定层数；

在步骤202中，根据在线系统的延时要求，确定对应的所述在线多任务模型的最大层数；

在步骤203中，根据所述最大层数和所述第一共享层数重新确定所述在线多任务模型的第二共享层数和对应的第二特定层数。

本实施例的方法可以通过在规范的大量的数据集上进行的多任务模型试验，尝试不同的共享层数的多任务模型，从而在同时满足离线系统延时的要求和在线系统延时的要求下，确定共享层数和特定任务的编吗层数，从而便于后续进行各种层有针对地学习，可以有效地避免隐层过多导致地负迁移现象严重的问题。

在一些可选的实施例中，所述分类层包括标点预测输出层和口语顺滑输出层。从而最终训练出来的在线模型和离线模型均能进行标点预测和口语顺滑。

在进一步可选的实施例中，所述在线多任务模型具有3个共享层、1个特定层和1个分类层。

进一步可选的，所述离线多任务模型具有9个共享层、3个特定层和1个分类层。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中的缺陷主要是由于以下内容导致的：两个单任务模型组成的联合模型无法利用到两个任务之间的相关性，因此性能会略差于多任务模型。

基于“硬共享”方式的多任务模型由于两任务之间共享的隐层过多，导致的负迁移现象比较严重。

对于在线系统的小模型来说，由于小模型学习能力弱，直接从数据集中训练效果会比较差。

本行业的从业人员为了解决上述缺陷，通常会进行下列处理，不容易想到本申请的技术方案。

对于“分层共享”机制的多任务模型来说，一个难点在于针对具体任务来说，如何确定好共享的层数，这是一个超参数，确定的方法一般是在规范的、大量的数据集上进行大量的实验，根据实验结果来选择最优的超参数。

在线系统所选用的小模型效果较差，一般是尝试不同的编码器，网络结构，比如Transformer与LSTM编码器混合，或是选取中文词语作为建模单元，或是扩充数据集等方式来提升在线模型的效果。知识蒸馏作为目前前沿的一种研究方向，研究成果目前主要应用在单任务模型上面，语音识别后处理的多任务模型之间的一个蒸馏方式目前还没有成熟的研究成果。

本申请实施例采用以下方案来解决现有技术中存在的上述缺陷：首先，对于口语顺滑和标点预测任务，为了确定最优的分层共享机制参数，我们在通用的口语顺滑与标点预测的英文数据集以及自己构建的中文数据集上进行大量实验和验证，找出了一种针对这两个任务的最佳分层共享多任务模型结构。

其次，在训练得到一个性能较好的深层离线多任务模型后，基于单任务的知识蒸馏思路，采用了针对多任务的知识蒸馏方式，训练了一个结构相似但是层数更浅的在线多任务模型。比起传统的直接从训练集训练得到的多任务模型，以这种方式得到的在线多任务模型性能更好。

请参考图3，其示出了多任务模型知识蒸馏结构图。

1)首先在规范的、大量的数据集上进行多任务模型试验，尝试不同的共享层数的多任务模型结构，在满足离线系统延时的条件下确定最优的共享层数。这里我们确定的离线多任务模型共享层数为9，每个特定任务的Transformer编码层数为3。

2)根据在线系统的延时要求，确定在线模型的最大层数，这里设置的是4层。为了与离线模型保持相似的结构，在线模型的共享层数设置为3，特定任务的编码层设置为1。

3)依据知识蒸馏的训练方式，令离线多任务模型作为教师模型，在线多任务模型作为学生模型，学生模型从教师模型中学习知识。学生模型中，第i层共享层从教师模型的第3*i层共享层学习知识，对于每个任务的特定层从教师模型相应任务的最后一个特定层学习知识，学生模型的分类层从教师模型的分类层学习知识。因此知识蒸馏过程中损失函数包含三方面：(1)共享层之间的均方误差损失；(2)每个任务特定层的均方误差损失；(3)每个任务分类层的输出除以一个名称为“蒸馏温度”的参数之后，计算均方误差损失。

4)训练过程中，每次从数据集中取出一个样本。首先，由教师模型计算后收集教师模型中每一层的输出。接着，用学生模型对该样本进行计算，收集学生模型每一层的输出。然后，根据两个模型的输出构造出第三步的损失函数。最后计算梯度，更新在线模型的参数。

发明人在实现本申请的过程中，还采用过以下备选方案：

关于知识蒸馏过程中损失函数的构造。最初尝试的损失函数只包括两个模型之间每一个任务最后分类层的损失，这种方式训练的在线模型性能比起直接从数据集训练的在线模型略有提升。后面又逐步加入了共享层和特定任务层的中间层的损失，加入了“蒸馏温度”，这两种方式均能进一步提升在线模型的性能。最后方案确定的损失函数同时包括中间层损失(包含共享层的中间层损失和每个任务特定层的中间层损失)，带有“蒸馏温度”的分类层损失，这种方式得到的在线模型性能最好。

关于每一个损失函数的计算方式。尝试过用KL散度(Kullback-Leiblerdivergence，相对熵)衡量两个模型之间的距离，但是从实验效果上看KL散度作为损失函数的效果不如均方误差作为损失函数的效果。

发明人在实现本申请的过程中，从立项到产品最终成形之间，还采用以下这些虽然不太完美，但在一定程度上可行的beta版方案。

1)损失函数采用KL散度。

2)损失函数仅包含每个任务分类层的均方误差损失。

3)损失函数加入共享层的中间层和特定任务层的中间层之间的均方误差损失。

4)损失函数在每个任务分类层的损失函数中加入“蒸馏温度”。

5)损失函数包含中间层，带“蒸馏温度”的分类层损失。

离线模型训练完毕后，采用以上5种方案所训练得到的在线模型的性能依次递增，效果最好的是第5个方案，也就是最终的方案。

用多任务模型的思路来集成口语顺滑模型和标点预测模型除了在测试集上效果好之外，还有以下优点：

1)多任务模型参数量更少。由于引入了共享层，多任务模型的参数比起传统的联合模型来说参数量更少，因此在实际场景下延时更低。

2)“分层共享”的多任务模型结构灵活，方便针对不同的任务进行定制。共享层的层数可以灵活选择，最大限度避免负迁移，同时能利用好任务之间的相关性。

用知识蒸馏的方式得到的在线多任务模型，比起直接从数据集中训练的在线模型性能更好。因此对于在线模型，可以在保持性能基本不变的条件下，选择层数更浅的小模型，进一步降低在线系统的延时。

本系统可用于语音识别系统中长语音转写等应用场景，在满足性能要求的同时，最大程度降低延时，改善用户体验。

在多任务模型方面。引入多任务模型，使不同任务之间共享一部分参数，以此达到减少参数降低延时的效果，同时我们这里所提出的9+3结构的多任务模型能达到性能比单任务的联合模型还要好，可以用作离线模型。参数量减少到同等网络深度的联合模型的60％,效果略好于联合模型。

在知识蒸馏方面，引入的共享层的中间层损失，特定任务层的中间层损失，以及带有“蒸馏温度”的分类层的损失，从实验结果上看能明显提高知识蒸馏的效果，从而训练得到的3+1在线模型性能明显优于直接从训练集训练得到的3+1模型。另外，3+1在线模型对比9+3离线模型，前者参数量只有后者的45％左右，前者推理时间只有后者1/3至1/2左右，但是在Switchboard的测试集上有着具有竞争力的性能，因此以本文提出的知识蒸馏方式得到的3+1多任务模型可以作为一个优秀的在线模型来实现口语顺滑和标点预测功能。

请参考图4，其示出了本发明一实施例提供的一种语音后处理模块训练装置的框图。

如图4所示，语音后处理模块训练装置400，包括定义模块410、学习模块420和训练模块430。

其中，定义模块410，配置为根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；学习模块420，配置为所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；以及训练模块430，配置为基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

在一些可选的实施例中，所述基于学习知识的过程中构造损失函数包括：所述教师模型和所述学生模型的共享层之间构建均方误差损失函数，在每个特定层之间构造均方误差损失函数，将每个分类层的输出除以预设参数计算均方误差损失。

应当理解，图4中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如接收模块可以描述为接收语音识别请求的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如接收模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音后处理模块训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；

所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；

基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音后处理模块训练装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音后处理模块训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音后处理模块训练方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。语音后处理模块训练方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音后处理模块训练方法。输入装置530可接收输入的数字或字符信息，以及产生与语音后处理模块训练装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音后处理模块训练装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音后处理模块训练方法，其中，所述后处理模块包括在线多任务模型和离线多任务模型，所述方法包括：

2.根据权利要求1所述的方法，其中，所述基于学习知识的过程中构造损失函数包括：

在所述教师模型和所述学生模型的共享层之间构建均方误差损失函数，在每个特定层之间构造均方误差损失函数，将每个分类层的输出除以预设参数计算均方误差损失。

3.根据权利要求1所述的方法，其中，在根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型之前，所述方法还包括：

在数据集上进行多任务模型试验，在满足离线系统延时的条件下确定对应的所述离线多任务模型的第一共享层数和第一特定层数；

根据在线系统的延时要求，确定对应的所述在线多任务模型的最大层数；

根据所述最大层数和所述第一共享层数重新确定所述在线多任务模型的第二共享层数和对应的第二特定层数。

4.根据权利要求1-3中任一项所述的方法，其中，所述分类层包括标点预测输出层和口语顺滑输出层。

5.根据权利要求5所述的方法，其中，所述在线多任务模型具有3个共享层、1个特定层和1个分类层。

6.根据权利要求4所述的方法，其中，所述离线多任务模型具有9个共享层、3个特定层和1个分类层。

7.一种语音后处理模块训练装置，其中，所述后处理模块包括在线多任务模型和离线多任务模型，所述装置包括：

定义模块，配置为根据知识蒸馏的训练方式，将所述离线多任务模型作为教师模型，将所述在线多任务模型作为学生模型，使所述教师模型从所述学生模型中学习知识，其中，所述在线多任务模型具有a个共享层、b个特定层和c个分类层，所述离线多任务模型具有n*a个共享层、n*b个特定层和c个分类层，a、b、c和n均为不为0的自然数；

学习模块，配置为所述学生模型的第i层共享层从所述教师模型的第n*i层共享层学习知识，所述学生模型的特定层从所述教师模型的最后一个特定层学习知识，所述学生模型的分类层从所述教师模型的分类层学习知识，其中，i为不为0的自然数；

训练模块，配置为基于学习知识的过程构造损失函数，并基于所述损失函数更新所述在线多任务模型的参数以对所述在线多任务模型进行训练。

8.根据权利要求7所述的装置，其中，所述基于学习知识的过程中构造损失函数包括：

9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1-6中任一项所述的方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。