CN115271064A

CN115271064A - 一种基于鉴别器思想的文本蒸馏方法、系统和存储介质

Info

Publication number: CN115271064A
Application number: CN202210861283.3A
Authority: CN
Inventors: 张涛; 姜兴华; 陈煦
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-11-01

Abstract

本发明公开了一种基于鉴别器思想的文本蒸馏方法、系统和存储介质，属于自然语言处理领域。方法包括：获取已标注的第一文本数据集和未标注的第二文本数据集；利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括若干相同的网络层；构建学生模型，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，并采用掩码训练法测试学生模型的学习效果，结合知识蒸馏损失和掩码训练损失更新学生模型的参数；将训练好的学生模型代替教师模型。本发明对传统的知识蒸馏算法进行了改进，让学生模型在参数量尽可能小的情况下提高性能，使其在性能表现上像教师模型一样优秀。

Description

一种基于鉴别器思想的文本蒸馏方法、系统和存储介质

技术领域

本发明属于自然语言处理领域，具体涉及一种基于鉴别器思想的文本蒸馏方法、系统和存储介质。

背景技术

自然语言处理是人工智能和人类自然语言相互作用的领域。也就是说我们希望让计算机能够理解自然语言文本的意义，同时也能够用自然语言的方式来表达给定的意图。

预训练模型在自然语言处理方向应用广泛，但预训练模型通常是大型模型，具备复杂的网络结构，众多的参数量，因此难以应用于资源受限的边缘设备。为了能够在低资源设备上运行和应用深度学习模型，需要设计高效的小规模网络模型。知识蒸馏就是模型压缩中的一种技术，将预训练的模型称为教师模型，设计小规模模型称为学生模型，知识蒸馏就是将教师模型的知识迁移到学生模型上，使得学生模型的性能尽可能的表现像教师模型一样优秀。

基于上述的蒸馏方法在知识迁移的过程中不是很完美。在蒸馏的过程中，学生模型总是在被动的接受教师模型的知识。一方面，我们不知道在蒸馏的过程中学生模型对于迁移知识的学习程度；另一个方面，我们不知道学生模型和教师模型的学习能力是否匹配。我们是想学生模型的性能像教师模型一样优秀的同时让学生模型的规模尽可能的小来达到压缩的目的，但是模型越小，模型的学习能力越弱，如何使得学生模型更好的接受教师模型的迁移知识，是本领域亟待解决的问题。

发明内容

本发明为了解决上述技术问题，提出了一种基于鉴别器思想的文本蒸馏方法、系统和存储介质，对传统的知识蒸馏算法进行了改进，让学生模型在参数量尽可能小的情况下提高性能，使其在性能表现上像教师模型一样优秀。

为了实现上述目的，本发明采用如下技术方案：

第一个方面，本发明提出了一种基于鉴别器思想的文本蒸馏方法，包括：

获取已标注的第一文本数据集和未标注的第二文本数据集；

利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括n个相同的网络层；

构建由m个与所述的预训练模型相同的网络层组成的学生模型，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，并采用掩码训练法测试学生模型的学习效果，结合知识蒸馏损失和掩码训练损失更新学生模型的参数；其中，m<n；

将训练好的学生模型代替教师模型。

第二个方面，本发明提出了一种基于鉴别器思想的文本蒸馏系统，包括：

文本数据获取模块，其用于获取已标注的第一文本数据集和未标注的第二文本数据集；

第一训练模块，其用于利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括n个相同的网络层；

学生模型构建模块，其用于构建由m个与所述的预训练模型相同的网络层组成的学生模型；

第二训练模块，其用于利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，计算知识蒸馏损失；

掩码测试模块，其用于采用掩码训练法测试学生模型的学习效果，计算掩码训练损失；

学生模型参数更新模块，其用于结合知识蒸馏损失和掩码训练损失更新学生模型的参数。

第三个方面，本发明提出了一种电子设备，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述的基于鉴别器思想的文本蒸馏方法。

第三个方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述的基于鉴别器思想的文本蒸馏方法。

与现有技术相比，本发明的优势在于：

(1)本发明通过改进的知识蒸馏方法作为模型压缩技术，可以让学生模型在性能表现上尽可能像教师模型一样优秀；同时因为学生模型的参数量要远小于教师模型，所以学生模型更容易在低资源设备上应用和部署。

(2)本发明在改进的知识蒸馏方法中将教师模型作为生成器，通过对文本数据的掩码和预测，相当于生成一份有答案的问卷，学生模型通过判断文本数据中那些是经过教师模型掩码过的字符，相当于做了一次检验；因此在训练的过程中，学生模型不仅仅是被动学习迁移知识，还在检验的过程中知道自己的不足而进行学习。学生模型在检验的时候判断的准确率越高，那就说明学生模型对于教师模型的迁移知识学习越好，而这种方法在实验的过程中被证明是很有效的。

附图说明

图1是本发明实施例示出的一种基于鉴别器思想的文本蒸馏方法的示意图；

图2是本发明实施例示出的传统知识蒸馏的示意图；

图3是本发明实施例示出的引入的基于鉴别器思想的知识蒸馏的示意图；

图4是本发明实施例示出的用于实现基于鉴别器思想的文本蒸馏方法的电子设备终端结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行进一步说明。附图仅为本发明的示意性图解，附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本实施例中，通过改进的知识蒸馏方法作为模型压缩技术，可以让学生模型平衡参数量和性能，在最小的参数量下实现与教师模型相似的性能，使其更容易在低资源设备上应用和部署。

如图1所示，一种基于鉴别器思想的文本蒸馏方法，主要包括以下步骤：

步骤一，获取已标注的第一文本数据集和未标注的第二文本数据集。

本步骤中，第一文本数据集和第二文本数据集来自同一批数据，对其中一部分数据进行人工标注后作为第一文本数据集，用来对教师模型进行训练和测试；剩余的无标签数据作为第二文本数据集，用来完成学生模型的训练过程。

步骤二，利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括n个相同的网络层。

本步骤中，预训练模型采用bert-base-chinese模型，这是基于中文语料预训练好的模型，它的结构是由12层transformer网络组成。

步骤三，构建由m个与所述的预训练模型相同的网络层组成的学生模型，其中，m<n。

本步骤中，学生模型的构造基于教师模型，本实施例选择bert-base-chinese的前四层的作为学生模型进行学习，这样学生模型的参数量就只是教师模型的三分之一。

步骤四，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，并采用掩码训练法测试学生模型的学习效果，结合知识蒸馏损失和掩码训练损失更新学生模型的参数。

本步骤包括两部分组成，一是传统蒸馏的方式，二是借鉴了生成器和鉴别器的思想对原有蒸馏方式的改进。

首先，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，将无标签的数据输入到教师和学生模型中，根据教师模型和学生模型的输出结果计算L1损失，如图2所示，本实施例采用平方差损失，训练任务可以根据实际情况设定，例如分类任务(意图识别等)、文本生成任务、序列标注任务等。

之后，采用掩码训练法测试学生模型的学习效果，将教师模型作为生成器，对于无标签的文本数据进行随机掩码，然后基于预训练任务中的MLM任务，也就是类似于让教师模型做完形填空。教师模型需要把掩码掉的字基于模型的学到的语义信息进行预测。将学生模型作为鉴别器，将教师模型生成的文本语句输入到学生模型中，让学生模型进行判断文本中的数据那些是教师模型掩码并且预测出来的。

在本发明的一项具体实施中，掩码训练法测试学生模型的学习效果的过程为：对第二文本数据集中的原始文本语句进行随机掩码，将教师模型作为生成器，将掩码后的文本语句作为教师模型的输入，由教师模型输出将掩码部分填充后的预测文本语句；对比预测文本语句和原始文本语句，将不一致的字符标记为1，其余标记为0，将标记结果作为每一条预测文本语句的真实标签；

将学生模型作为为鉴别器，将预测文本语句作为学生模型的输入，由学生模型判断预测文本语句中每一个字符是否经过修改；该判断过程可以视为二分类任务，通过在学生模型中的最后一层网络层之后增加一层或多层全连接层实现，由全连接层输出预测结果；根据教师模型生成的真实标签和学生模型生成的预测结果计算掩码训练损失。

如图3所示，以第二文本数据集中的原始文本语句“我出去玩了，我很累”为例，对原始文本语句进行掩码，掩码后的文本语句为“我出去玩了，我很[Mask]”。将掩码后的文本语句作为教师模型的输入，由教师模型输出将掩码部分填充后的预测文本语句“我出去玩了，我很好”。对比预测文本语句和原始文本语句，实际操作中，仅需判断掩码字符的预测结果与真实结果是否一致，若不一致，则标记为1，若一致，则标记为0，其余非掩码字符全部标记为0，得到预测文本语句的真实标签为[0,0,0,0,0,0,0,0,1]。将预测文本语句“我出去玩了，我很好”作为学生模型的输入，由学生模型输出预测结果为[0,0,0,0,0,0,0,0,1]，根据教师模型生成的真实标签和学生模型生成的预测结果计算掩码训练损失，本实施例中，采用交叉熵损失。图3中示意的是学生模型完成预测正确的情况，其也存在预测错误的情况，例如预测结果为[0,0,0,0,0,0,0,0,0]、[0,0,0,1,0,0,0,0,1]等。

将上述两部分任务的损失进行加和作为总的损失，反向更新学生模型的参数。

步骤五，将训练好的学生模型代替教师模型。

在本发明的一项具体实施中，得到训练好的学生模型后，还需要测试训练好的学生模型的训练效果，具体为：测试教师模型和学生模型的准确率的差值，若差值高于阈值，则构建由m+1个与所述的预训练模型相同的网络层组成的学生模型重新进行训练，训练过程与上述步骤相同。

为了验证本发明的效果，对实施效果进行了测试。

一，数据集的准备

本实施例中，将数据分为两部分，一是准备了两万五千条的有标签数据用来训练教师模型，同时包括一千六百多条的数据用作测试检验模型的性能。另一部分准备了三十万的无标签数据进行学生模型的训练。

二，鉴别蒸馏算法的实验

实验主要分为三部分：

(1)训练教师模型。

本实施例中，教师模型选用了中文预训练好的模型Bert-base-chinese。因为实验的场景是分类任务，训练数据的分类类别有135个，因此在Bert模型的输出层之后再接输出维度为135维的全连接层，用来对数据进行分类。模型搭建完后，在准备好的数据上对模型进行了微调，训练完成后在测试集上进行测试，微调后的预训练模型在测试集上得到的分类准确率为96％。

(2)传统蒸馏效果的实验测试。

对传统的知识蒸馏方法在准备的数据集上进行了效果测试，目的是和改进的算法进行对比。学生模型的选择是建立在教师模型基础上的，Bert-base-chinese是由12层的transformers网络组成，本实施例选取了前四层作为学生模型，这样相对于教师模型学生模型只有其参数量的三分之一。同理，在学生模型的输出层之后再接输出维度为135维的全连接层。

训练过程用的是无标签的三十万条数据，在训练过程中，将数据同时输入到学生模型和教师模型中，这样就可以得到由学生模型和教师模型输出的两个135维度的向量。将两个向量用平方差计算损失，并根据损失反向更新学生模型的参数。整个实验过程训练了两轮，学习率为1e-5。训练完成后学生模型同样在测试集上进行测试，测试的分类准确率为90％。

(3)鉴别蒸馏算法的实验。

改进算法的实验包括两部分，一部分是传统的知识蒸馏方法，实验过程如上述第二部分所述，不同之处在于将计算得到的损失记作L1，并没有直接进行反向传播。

第二部分就是本发明改进的部分，将教师模型作为生成器，学生模型作为鉴别器，对文本数据按照15％的概率进行掩码，将其中的某些文字用[Mask]替代。将处理的数据输入到教师模型中，让教师模型对文本中[Mask]的部分进行预测并填充，这一部分做的就是与预训练中的MLM任务，由教师模型生成新的文本数据。同时，对比预测文本语句和原始文本语句，生成每一条预测文本语句的真实标签。学生模型作为鉴别器，其任务是判断出在新文本数据中那些文字是经过教师模型掩码预测的；将新文本数据输入到学生模型中，并在最后一层网络层之后输出的每一个文字的embedding之后接两维的全连接层，用于实现二分类，判断文字是否是经过掩码预测的。将学生模型预测得到的整个文本的向量与上文中得到的标签计算交叉熵损失记作L2。

将两部分得到的损失L1和L2的加权和作为总损失，根据总损失反向更新学生模型的参数。整个实验过程也是训练了两轮，学习率为1e-5。训练完成后学生模型同样在测试集上进行测试，测试的分类准确率为94％。

通过上述实验结果可见，改进的鉴别蒸馏算法相对于原来的蒸馏算法效果有了显著提升，学生模型在参数量仅为教师模型参数量三分之一的情况下，实现了与教师模型性能相近的效果。

在本实施例中还提供了一种基于鉴别器思想的文本蒸馏系统，该系统用于实现上述实施例。以下所使用的术语“模块”、“单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能的。

所述的系统包括：

在本发明的一项具体实施中，还包括：

训练效果测试模块，其用于测试教师模型和学生模型的准确率的差值，若差值高于阈值，则由学生模型构建模块构建由m+1个与所述的预训练模型相同的网络层组成的学生模型重新进行训练。

上述系统中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，例如，上述系统的一项具体过程可以为：

S01，获取已标注的第一文本数据集和未标注的第二文本数据集。

S02，利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括n个相同的网络层。

S03，构建由m个与所述的预训练模型相同的网络层组成的学生模型，其中，m<n。

S04，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，并采用掩码训练法测试学生模型的学习效果，结合知识蒸馏损失和掩码训练损失更新学生模型的参数。

首先，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，将无标签的数据输入到教师和学生模型中，根据教师模型和学生模型的输出结果计算L1损失，如图2所示，本实施例采用平方差损失。

S05，将训练好的学生模型代替教师模型。

上述系统中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种电子设备，包括存储器和处理器；

所述存储器，用于存储计算机程序；

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，获取已标注的第一文本数据集和未标注的第二文本数据集。

S12，利用所述的第一文本数据集对预训练模型进行训练，将训练好的预训练模型作为教师模型；所述的预训练模型包括n个相同的网络层。

S13，构建由m个与所述的预训练模型相同的网络层组成的学生模型，其中，m<n。

S14，利用第二文本数据集对教师模型和学生模型进行知识蒸馏训练，并采用掩码训练法测试学生模型的学习效果，结合知识蒸馏损失和掩码训练损失更新学生模型的参数。

S15，将训练好的学生模型代替教师模型。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

本发明的系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本实施例提供的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述的基于鉴别器思想的文本蒸馏方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于鉴别器思想的文本蒸馏方法，其特征在于，包括：

获取已标注的第一文本数据集和未标注的第二文本数据集；

将训练好的学生模型代替教师模型。

2.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法，其特征在于，所述的预训练模型由12层transformer网络组成。

3.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法，其特征在于，还包括测试训练好的学生模型的训练效果的步骤，具体为：测试教师模型和学生模型的准确率的差值，若差值高于阈值，则构建由m+1个与所述的预训练模型相同的网络层组成的学生模型重新进行训练。

4.根据权利要求3所述的基于鉴别器思想的文本蒸馏方法，其特征在于，所述的学生模型初始化为由2-4个与所述的预训练模型相同的网络层构成。

5.根据权利要求1所述的基于鉴别器思想的文本蒸馏方法，其特征在于，所述的学生模型中的最后一层网络层之后还设有一层或多层全连接层。

6.根据权利要求5所述的基于鉴别器思想的文本蒸馏方法，其特征在于，所述的采用掩码训练法测试学生模型的学习效果，包括：

对第二文本数据集中的原始文本语句进行随机掩码，将教师模型作为生成器，将掩码后的文本语句作为教师模型的输入，由教师模型输出将掩码部分填充后的预测文本语句；对比预测文本语句和原始文本语句，将不一致的字符标记为1，其余标记为0，将标记结果作为每一条预测文本语句的真实标签；

将学生模型作为为鉴别器，将预测文本语句作为学生模型的输入，由学生模型判断预测文本语句中每一个字符是否经过修改，由全连接层输出预测结果；

根据教师模型生成的真实标签和学生模型生成的预测结果计算掩码训练损失。

7.一种基于鉴别器思想的文本蒸馏系统，其特征在于，包括：

8.根据权利要求7所述的基于鉴别器思想的文本蒸馏系统，其特征在于，还包括：

9.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1至6任一项所述的基于鉴别器思想的文本蒸馏方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至6任一项所述的基于鉴别器思想的文本蒸馏方法。