CN113486185A

CN113486185A - 一种基于联合训练的知识蒸馏方法、处理器及存储介质

Info

Publication number: CN113486185A
Application number: CN202111043005.9A
Authority: CN
Inventors: 谷满昌; 蒋敏
Original assignee: China State Construction eCommerce Co Ltd
Current assignee: China State Construction eCommerce Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-10-08
Anticipated expiration: 2041-09-07
Also published as: CN113486185B

Abstract

本发明提供了一种基于联合训练的知识蒸馏方法、处理器及存储介质，该方法包括：获取训练数据集，所述训练数据集包括至少一个类别的训练语料数据；使用所述训练数据集分别训练第一模型和第二模型；使用所述训练数据集对所述第一模型和第二模型进行联合训练，获取损失函数；其中，联合训练是将第一模型或第二模型的权重与输出进行交换，在模型训练过程中，将所述第二模型的输出送入到所述第一模型中，所述第一模型再继续基于知识蒸馏训练所述第二模型；使用训练好的第二模型对新输入的数据进行意图识别预测，并根据预测的结果判断是否还需对第二模型进行训练；采用本方法能够有效的降低训练的成本，并且增强模型的可扩展能力。

Description

一种基于联合训练的知识蒸馏方法、处理器及存储介质

技术领域

本发明涉及知识蒸馏技术领域，具体而言，涉及一种基于联合训练的知识蒸馏方法、处理器及存储介质。

背景技术

语言模型预训练（如BERT）显著提高了许多自然语言处理任务的性能，例如：BERT-base模型能够包含一亿个参数，较大的 BERT-large甚至包含3.4亿个参数。显然，很难将这种规模的模型部署到资源有限的环境（例如移动设备或嵌入式系统）当中。

知识蒸馏是基于教师-学生的模型压缩方式，通过引入大规模教师(teacher)模型以诱导小规模学生(student)模型的训练，实现知识迁移。做法是先训练一个教师模型，然后使用教师模型的输出和数据的标注标签去训练学生模型，使得学生模型不仅可以从标注数据中学习如何判断正确样本的类别。

目前的中文预训练模型使用了大型的训练语料（例如：中文维基百科语料等），模型参数量巨大，训练周期通常是几周。预训练模型通常采用的是语言模型任务，而对于自然语言处理中常见的序列标注任务，分类任务，生成式任务等并不适用。通常采用基于预训练模型微调的方式解决上述任务，微调是指网络参数初始化加载预训练学习好的参数，其他高层特定任务相关的参数随机初始化来训练网络。然而通过微调得到的任务模型参数量仍然巨大，部署线上推理服务延迟性能等不满足要求。所以目前业界主流的方法是采用上面提出的知识蒸馏方法，目前知识蒸馏作用于预训练模型阶段，教师模型指导学生模型在预训练阶段的时候适应模型压缩后的场景(TinyBert, PKD-Bert)，下游任务采用学生模型进行微调。然而这样两阶段的模型训练成本较高，尤其是预训练模型的知识蒸馏部分，可扩展能力也较差；针对这一问题，本发明提出一种新的技术方案，以期在一定程度上解决训练成本高问题。

发明内容

本发明的目的在于提供一种基于联合训练的知识蒸馏方法、处理器及存储介质，其通过第一模型与第二模型的联合训练，降低模型训练的成本，并且增强模型的可扩展能力。

本发明的实施例通过以下技术方案实现：

第一方面，提供一种基于联合训练的知识蒸馏方法，包括：

获取训练数据集，所述训练数据集包括至少一个类别的训练语料数据；

使用所述训练数据集分别训练第一模型和第二模型，其中第一模型为教师模型，第二模型为学生模型；

使用所述训练数据集对所述第一模型和第二模型进行联合训练，获取损失函数；

使用训练好的第二模型对新输入的数据进行意图和场景的识别预测，并根据预测的结果判断是否还需对第二模型进行训练。

进一步的，所述训练数据集由已人工标注的数据组成，所述标注的内容至少包括场景和意图。

进一步的，所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。

进一步的，所述联合训练，获取损失函数之前还包括：

获取所述第一模型和第二模型的输出；定义训练数据集(X,Y)，其中X为原始数据集，Y为所述原始数据集对应的标注内容集；则有第一模型的输出为q=f(x)，其中f表示第一模型，x∈X，q∈Q，Q为第一模型的输出集；第二模型的输出为p=g(x)，其中g表示第二模型，p∈P，P为第二模型的输出集。

进一步的，所述联合训练，获取损失函数包括：

将所述第二模型的输出送入到所述第一模型中，作为第一模型计算损失函数的输入，再结合所述第一模型的输出和第二模型的输出计算获得所述第一模型的第一损失函数；

同时将所述第一模型的输出送入到所述第二模型中，作为第二模型计算损失函数的输入，结合所述第一模型的输出和第二模型的输出计算获得所述第二模型的第二损失函数；

以及第一模型与第二模型在同一神经网络中联合训练，基于第一模型的损失函数与第二模型的损失函数计算获取第三损失函数，所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和。

进一步的，所述第一损失函数具体为

,其中CE表示交叉损失熵，y∈Y，

，

为输出p的特殊概率化表示，

为输出集P中的输出特殊概率化表示后的集合，

为所述第二模型中输出p特殊概率化表示后的交叉损失熵，q _i ∈Q，

，i表示对应集合中的第i个样本；

所述第二损失函数具体为

，其中

，

为输出q的特殊概率化表示,

为输出集Q中的输出特殊概率化表示后的集合，

为第一模型中输出q特殊概率化表示后的交叉损失熵，p _i ∈ P，

；

所述第三损失函数具体为Loss=αLoss ₁+βLoss ₂，其中α、β均为调节系数。

进一步的，所述特殊概率化具体为，在概率化的过程中增加知识蒸馏的温度T对概率化的影响。进一步的，所述根据预测的结果判断是否还需对第二模型进行训练，包括：

判断场景预测概率和意图预测概率是否高于设定阈值，若场景预测概率和意图预测概率中的任一项高于阈值，则输出数据的意图和场景，若场景预测概率和意图预测概率均低于阈值，则将该数据送入第一模型，获取第一模型输出的意图和场景。

第二方面，提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于联合训练的知识蒸馏方法。

第三方面，提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。

本发明实施例的技术方案至少具有如下优点和有益效果：

本发明通过联合蒸馏的方法，在达到同样预测准确率的基础上，本发明所提出的方法，具有更高效率，并且不需要过多的标注数据，能够减少模型训练的成本；其次本发明的方法还能够带来较好的模型可扩展能力。

附图说明

图1为本发明提供的基于联合训练的知识蒸馏方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

本发明提供一种基于联合训练的知识蒸馏方法，如图1所示，包括：

获取训练数据集，所述训练数据集包括至少一个类别的训练语料数据；并且所述训练数据集由已人工标注的数据组成，所述标注的内容包括场景、意图、业务和实体名等。

本发明主要应用场景之一包括电商客服平台，在电商客服平台中，智能客服需要识别客户所发送的语句，该场景下，通常需要识别语料的场景，如购买前了解商品的参数性能或购买后了解如何退换货等，因此其需要准确的了解对话所处的场景；当然对话的具体意图同样十分重要，如客户是需要了解具体哪个方面的商品性能等；同样，还需要识别对话中的实体名等，便能够准确地获取客户是在针对哪款商品进行咨询。

使用所述训练数据集分别训练第一模型和第二模型；所述第二模型由所述训练数据集中的一个类别的训练语料数据进行训练得到。

此处的第一模型相当于教师模型，第二模型相当于学生模型，一般情况下，线上部署推理服务需要采用效率高的学生模型，因此第二模型通过需要具有更少的复杂度或是其只需对某一具体类别的语料进行预测识别，所以在预训练时，我们仅需使用一个类别的语料来对其进行训练，这样可以使第二模型对具体任务有较好的结果，并且便于在下一阶段中用更少的复杂度与第一模型进行联合训练。

在联合训练，获取损失函数之前，为了获取所述第一模型和第二模型的输出；本方案定义训练数据集(X,Y)，其中X为原始数据集，Y为所述原始数据集对应的标注内容集；则有第一模型的输出为q=f(x)，其中f表示第一模型，x∈X，q∈Q，Q为第一模型的输出集；第二模型的输出为p=g(x)，其中g表示第二模型，p∈P，P为第二模型的输出集。

使用所述训练数据集对所述第一模型和第二模型进行联合训练，获取损失函数；其中，联合训练，获取损失函数包括：

将第一模型或第二模型的输出进行交换，在模型训练过程中，将所述第二模型的输出送入到所述第一模型中，结合所述第一模型和第二模型的输出计算获得所述第一模型的第一损失函数；所述第一损失函数具体为

,其中CE表示交叉损失熵，y∈Y，

，

为输出p的特殊概率化表示，

为输出集P中的输出特殊概率化表示后的集合，

，i表示对应集合中的第i个样本；需要说明的是，由于在训练过程中，输出集以及特殊概率化后的输出集均为训练数据集相关，因此各个数据集中的数据的排列具有相关性，所以在输出集中的第i个样本与特殊概率化后输出集的第i个样本存在对应的关系，因此此处均有第i个进行表示说明。

同时将所述第一模型的输出送入到所述第二模型中，结合所述第一模型和第二模型的输出计算获得所述第二模型的第二损失函数；所述第二损失函数具体为

，其中

，

为输出q的特殊概率化表示,

为输出集Q中的输出特殊概率化表示后的集合，

为第一模型中输出q特殊概率化表示后的交叉损失熵，p _i ∈P，

；

以及第一模型与第二模型在同一神经网络中联合训练，获取第三损失函数，所述第三损失函数为赋予不同调节系数后的所述第一损失函数与第二损失函数的和，具体为Loss=αLoss ₁+βLoss ₂，其中α、β均为调节系数，在本方案中α、β通常默认为1.0。

其中，

，p _i、p _i∈P，j表示对应集合中的第j个样本，其中T代表蒸馏时的温度，该温度值越高表示概率分布越平均，在本方案中，其一般取5-20作为参考值；q′_i同理。

可以知晓的是，本方案中的概率化与常规的概率化存在一定的差异，其本方案中的概率化是一种特殊的概率化，其通过引入知识蒸馏时温度T对概率化的影响，进而取得更为准确的概率化结果，从而有助于提升第一模型和第二模型的模型泛化能力。

即在联合训练的过程中，在训练第二模型的时候，增加复杂第一模型来辅助第二模型，两者同时进行训练，是一种训练过程中的辅导。从网络结构来说，第一模型比第二模型神经元更多，所有训练数据，会同时训练第一模型和第二模型网络，对于两个模型来说，抛弃常规的训练过程，损失函数由两个部分构成，一个子项是交叉熵，这是常规的损失函数，它促使网络去拟合真实标签数据；另外一个CE _soft子项则迫使网络输出去拟合另一个模型的输出，通过联合训练可以增强第一模型和第二模型的模型泛化能力。

这里需要说明的是，联合蒸馏训练是分别利用教师模型和学生模型输出的软标签来辅助真实标签来进一步训练学生模型和教师模型，这是因为除了真实标签以外，教师模型的输出软标签也带有教师模型归纳推理的大量信息，比如某些软标签对应的概率远远大于其他的软标签，则代表教师模型再推理时认为该数据样本与该软标签有一定的相似性，同样对于学生模型输出的软标签也是相同的原理。

基于这种联合蒸馏训练的方法，本发明在第二模型（即学生模型）的训练中不仅能够获取更好的预测精度，同时在达到同样精度的情况下，其训练效率更高，需要的人工标注的标签较少，可以通过第一模型和第二模型再训练时输出的软标签进一步强化模型预测的精度，因此可以具有更低的成本，同时也兼顾了第二模型的可扩展能力。

其中，所述根据预测的结果判断是否还需对第二模型进行训练，包括：

当然，当第一模型也无法给出一个准确的预测时，此时可以有使用者进行人工判断，并录入进行标记输出。

为了验证本方法的有效性，我们将本方法与现有的主流方法进行了效果对比，结果如表1所示。

表1 多种知识蒸馏方法的性能对比

模型	准确率	推理时间（毫秒）	模型大小(显存)
				TinyBert	86.43%	103ms	60MB
PKD-Bert	85.71%	258ms	142MB
				MiniLM	86.80%	162ms	188MB
本申请方法	87.31%	79ms	39MB

根据表1的内容可以看出，本方法的准确率较高，推理所用时间较少，并且模型更轻量化。

基于以上的方法，本申请还给出了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于联合训练的知识蒸馏方法。

另本申请还提供一种存储介质，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的基于联合训练的知识蒸馏方法。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。