CN111767711B

CN111767711B - 基于知识蒸馏的预训练语言模型的压缩方法及平台

Info

Publication number: CN111767711B
Application number: CN202010910566.3A
Authority: CN
Inventors: 王宏升; 单海军; 鲍虎军
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-08
Anticipated expiration: 2040-09-02
Also published as: GB202214161D0; CN111767711A; GB2608919A; US20220067274A1; WO2021248868A1; JP2023523644A; US11341326B2; JP7381813B2; GB2608919A9

Abstract

本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台，该方法首先设计一种普适的特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师的特征，重点关注小样本在教师模型中间层特征表达能力，并利用这些特征指导学生模型；然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法；最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力，设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明，将面向多任务的预训练语言模型进行自动压缩，提高语言模型的压缩效率。

Description

基于知识蒸馏的预训练语言模型的压缩方法及平台

技术领域

本发明属于面向多任务的预训练语言模型自动压缩领域，尤其涉及一种基于知识蒸馏的预训练语言模型的压缩方法及平台。

背景技术

随着智能设备的普及，大规模语言模型在智能手机、可穿戴设备等嵌入式设备上的应用越来越常见，然而深度学习网络规模却在不断增大，计算复杂度随之增高，严重限制了其在手机等智能设备上的应用，如今的应对方法还是单向地从教师模型的知识蒸馏到学生模型的压缩方法，但是小样本在大规模语言模型压缩过程中难泛化的问题依然存在。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于知识蒸馏的预训练语言模型的压缩方法及平台。本发明基于知识蒸馏的预训练语言模型压缩，设计一个与任务无关的小模型去学习一个大模型的表达能力，压缩出某一类任务通用的架构，充分利用已压缩好的模型架构，提高模型压缩效率。具体地，通过特征映射知识蒸馏模块、自注意力交叉知识蒸馏和基于伯努利概率分布的线性迁移策略，实现了教师模型和学生模型在训练过程中渐进式地相互学习，从而提高了小样本情况下学生模型训练前期的学习质量和训练后期的泛化能力。

本发明的目的是通过以下技术方案来实现的：一种基于知识蒸馏的预训练语言模型的压缩方法，该方法对BERT模型进行压缩，包括特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块；其中，原始的模型为教师模型，压缩后的模型为学生模型；特征映射知识蒸馏模块基于一种特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师模型的特征映射，学生模型关注教师模型的中间层特征，并利用这些中间层特征指导学生模型；自注意力交叉知识蒸馏模块通过交叉连接教师模型和学生模型的自注意力模块，通过在网络自注意层上进行凸组合交叉连接的方式，实现教师模型和学生模型的深度相互学习；基于伯努利概率分布的线性学习模块逐渐完成从教师模型到学生模型的特征映射和自注意分布的知识迁移。

进一步地，所述特征映射知识蒸馏模块中增加层间归一化以稳定层间训练损失；训练学生网络时，最小化特征图转换中均值和方差两个统计差异。

进一步地，所述自注意力交叉知识蒸馏模块的迁移目标函数是最小化学生模型和教师模型的注意力分布之间的相对熵。

进一步地，所述自注意力交叉知识蒸馏模块包括以下三个阶段：

第一阶段：教师网络的自注意力单元输入学生网络，并最小化迁移目标函数，具体地，将教师网络的自注意力单元当作基本真值，在网络自注意力单元位置输入学生网络，学生网络接受正确的监督信号以对后续层进行训练，避免估计误差过大并传播的现象；

第二阶段：学生网络的自注意力单元输入教师网络，并最小化迁移目标函数；由于估计误差在学生网络上逐层传播，导致在同一层位置上学生网络输入和教师网络输入存在差异；将学生网络自注意力单元输入给教师网络，实现了在相同输入前提下让学生网络模仿教师网络的输出行为；

第三阶段：在网络自注意力单元上将所述第一阶段和第二阶段的迁移目标函数进行凸组合，实现交叉迁移的蒸馏策略。

进一步地，所述基于伯努利概率分布的线性学习模块用于为驱动特征映射知识蒸馏模块和自注意力交叉知识蒸馏模块设置不同的线性迁移概率，包括以下两个步骤：

步骤一：特征映射知识蒸馏模块和自注意力交叉知识蒸馏模块均采用伯努利概率分布的迁移概率，即假设当前迁移第i个模块，先通过一个伯努利分布，采样一个随机变量X，X为0或1；当随机变量为1时代表当前模块进行迁移学习，否则不进行；

步骤二：虽然步骤一中设置一个恒定的迁移概率p，可以满足压缩模型的需要，但是线性学习驱动的迁移概率有助于逐步迁移模型中的编码器模块，本步骤设计了一个线性学习驱动的迁移概率

来动态调整步骤一中的迁移概率p，即

其中，

表示当前迁移模块的迁移概率，第i个模块迁移对应当前训练第i步， b表示未训练时的初始迁移概率；

为大于0的动态值，且满足在训练增加至1000步、5000步、 10000步、30000步时，相应地，

逐渐增加至0.25、0.5、0.75、1.00。

进一步地，所述初始迁移概率b取值范围在0.1至0.3之间。

一种根据上述方法的基于知识蒸馏的预训练语言模型的压缩平台，该平台包括以下组件：

数据加载组件：用于获取面向多任务的BERT预训练语言模型及其训练样本；所述训练样本是满足监督学习任务的有标签的文本样本；

压缩组件：用于将面向多任务的大规模语言模型进行压缩，包括教师模型微调模块、教师-学生模型蒸馏模块和学生模型微调模块；其中，教师模型微调模块负责加载BERT预训练模型，将训练样本输入包含下游任务的BERT模型进行微调，输出教师模型；教师-学生模型蒸馏模块利用所述教师模型微调模块获得的教师模型，通过所述特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块，逐渐完成从教师到学生的特征映射和自注意分布的知识蒸馏，更新学生网络的各个单元模块的权重参数；学生模型微调模块是将学生网络所有编码器单元模块重新组合成完整的编码器，并利用教师网络的特征层和输出层对下游任务场景进行微调，输出微调好的学生模型，作为最终的压缩模型；

推理组件：利用所述压缩组件输出的压缩模型在实际场景的数据集上对自然语言处理下游任务进行推理。

进一步地，所述压缩组件将所述压缩模型输出到指定的容器，供用户下载，并呈现压缩前后模型大小的对比信息；通过推理组件利用压缩模型对自然语言处理下游任务进行推理，并呈现压缩前后推理速度的对比信息。

本发明的有益效果是：本发明是基于知识蒸馏的预训练语言模型压缩，设计一个与任务无关的小模型去学习一个大模型的表达能力，压缩出某一类任务通用的架构，充分利用已压缩好的模型架构，提高模型压缩效率。

本发明推动了大规模深度学习语言模型在内存小、资源受限等端侧设备上的部署进程。以BERT为代表的大规模自然语言处理预训练模型显著提升了自然语言处理任务的效果，促进了自然语言处理领域的发展。尽管BERT等模型效果很好，但是如果一个对话机器人一秒钟只能处理一条信息很难满足实际场景需求，而且数十亿级别参数的模型，超大规模的GPU机器学习集群和超长的模型训练时间，给模型的落地带来了阻碍。本发明就是为了解决上述工业落地面临的痛点，利用本发明所述的基于知识蒸馏的预训练语言模型的压缩平台，压缩出某一类自然语言处理任务的通用的架构，充分利用已压缩好的模型架构，可以在保证现有模型的性能和精度基本不变的前提下，减少计算量、缩小模型体积、加快模型推理速率，并且可将大规模自然语言处理模型部署在内存小、资源受限等端侧设备上进行部署，推动了通用深度语言模型在工业界的落地进程。

附图说明

图1是本发明基于知识蒸馏的预训练语言模型的压缩方法及平台的整体架构图；

图2是自注意力单元交叉知识蒸馏过程示意图。

具体实施方式

如图1所示，一种基于知识蒸馏的预训练语言模型的压缩方法包括特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块。其中，特征映射知识蒸馏模块是一种普适的特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师的特征，学生模型更多地关注教师模型的中间层特征，并利用这些特征指导学生模型。自注意力交叉知识蒸馏模块，即通过交叉连接教师和学生网络的自注意力模块，通过在网络自注意层上进行凸组合交叉连接的方式，实现教师模型和学生模型的深度相互学习。基于伯努利概率分布的线性学习模块逐渐完成从教师到学生的特征映射和自注意分布的知识迁移，为驱动特征映射知识蒸馏模块和自注意力交叉知识蒸馏模块设置不同的线性迁移概率。

本发明一种基于知识蒸馏的预训练语言模型的压缩方法，对BERT（BidirectionalEncoder Representations from Transformers，来自变换器的双向编码器表征量）模型进行压缩，利用已压缩的模型架构，提高压缩效率。本发明将编码器单元作为模块的基本单元；将原始的模型简称为教师模型，压缩后的模型简称为学生模型。假设模型层数的压缩比为2，即压缩一半的层数。原始教师模型为12层，压缩后为6层，那么对于学生模型来说，一共6个模块，每个模块包含一个编码器单元。对于教师模型，我们将12层分隔成6个模块，每个模块包含两个编码器单元，此时可以将教师模型和学生模型建立一对一的映射关系，之后就可以进行正式的压缩步骤了；整个过程都是在具体某个自然语言处理任务的下游任务的微调阶段实施，而不是在预训练阶段。为了加速整个训练过程，使用教师模型的部分权重来初始化学生模型的所有单元模块，即将教师模型前六层的编码器单元权重与学生模型的六层编码器单元权重共享。

本发明的压缩方法整个过程分为三个阶段，第一个阶段是微调教师模型。首先需要使用12层原始BERT模型微调出一个教师模型；第二个阶段是特征映射知识蒸馏和自注意力交叉知识蒸馏阶段，这一阶段同时考虑了教师模型和学生模型，让两个模型都参与到训练中；第三个阶段是对学生模型单独微调，目的是为了让所有学生模型的模块完整参与到训练任务中；具体过程如下：

步骤一：加载预训练BERT模型和数据集，微调教师模型；所述BERT模型可包含具体某个自然语言处理下游任务。

步骤二：如图1所示，冻结学生网络自注意力单元模块的权重参数，利用伯努利概率分布的线性学习策略完成教师模型到学生模型的特征映射知识蒸馏过程，更新学生网络其它单元模块的权重参数，包括以下子步骤：

（2.1）假设当前迁移第i个特征映射模块，先通过一个伯努利分布，采样一个随机变量X（X为0或1），当随机变量为1时代表当前模块进行迁移学习，对当前教师网络的特征映射单元进行线性迁移，否则不进行。

（2.2）考虑到线性学习驱动的迁移概率可以逐步迁移模型中的特征映射模块，本步骤设计了一个线性学习驱动的迁移概率

来动态调整步骤（2.1）中的迁移概率，即

其中，

表示当前迁移模块线性学习驱动的迁移概率，第i个模块迁移对应当前训练第i步，

表示初始（ i为0时）的迁移概率，其取值范围在0.1至0.3之间。

取大于0的动态值，且满足在训练步数增加至1000步、5000步、10000步、30000步时，相应地，

逐渐增加至0.25、0.5、0.75、1.00。

（2.3）教师模型和学生模型的特征映射之间的均方误差被用作知识迁移目标函数，并增加层间归一化以稳定层间训练损失；训练学生网络时，最小化特征图转换中均值和方差两个统计差异。

步骤三：如图2所示，自注意力交叉知识蒸馏阶段逐渐完成从教师到学生的自注意分布的知识蒸馏，更新学生网络的各个单元模块的权重参数，将教师和学生网络的自注意力单元进行凸组合交叉连接；其中，迁移目标函数是最小化学生模型和教师模型的注意力分布之间的相对熵；包括以下子步骤：

（3.1）教师网络的自注意力单元输入学生网络，并最小化迁移目标函数，具体地，将教师网络的自注意力单元当作基本真值，在网络自注意力单元位置输入学生网络，学生网络接受正确的监督信号以对后续层进行训练，避免估计误差过大并传播的现象。当然不会将每个教师网络的自注意力单元输入学生网络，基于伯努利概率分布的线性学习的教师网络的自注意力单元迁移策略，包括以下子步骤：

（3.1.1）假设当前迁移第i个模块，先通过一个伯努利分布，采样一个随机变量X（X为0或1），当随机变量为1时代表当前模块进行迁移学习，对当前教师网络的自注意力单元进行线性迁移，否则不进行。

（3.1.2）虽然步骤（3.1.1）中设置一个恒定的迁移概率

，可以满足压缩模型的需要，但是线性学习驱动的迁移概率有助于逐步迁移模型中的编码器模块，本步骤设计了一个线性学习驱动的迁移概率

来动态调整步骤（3.2.1）中的迁移概率

，即

其中，

表示初始（i为0时）的迁移概率，其取值范围在0.1至0.3之间。

逐渐增加至0.25、0.5、0.75、1.00。

（3.2）学生网络的自注意力单元输入教师网络，并最小化迁移目标函数。由于估计误差在学生网络上逐层传播，导致在同一层位置上学生网络输入和教师网络输入存在较大差异。将学生网络自注意力单元输入给教师网络，实现了在相同输入前提下让学生网络模仿教师网络的输出行为，同时，基于伯努利概率分布的线性学习的学生网络的自注意力单元迁移策略与步骤（3.1）中教师网络的自注意力单元迁移策略相同。

（3.3）将步骤（3.1）和（3.2）的迁移目标函数进行凸组合，实现交叉迁移的蒸馏策略。整个综合模型仍然使用下游任务的目标损失进行训练。这里需要关注一个训练细节：考虑到教师网络的权重在步骤一的原始微调阶段已经达到一个较为稳定的状态，如果此时让其参与到教师-学生网络的整合训练中，反而会导致遗忘问题。另外，步骤三的目的是让学生网络的各个单元模块尽量得到更新，如果让教师网络参与到梯度更新，可能会让学生网络的单元模块被忽略。冻结教师网络的权重也能提升整个模型训练的效率。基于以上考虑，在梯度传递的时候，所有属于教师网络的权重参数都冻结不参与梯度计算，学生网络的相关单元模块的权重参数参与梯度更新。

步骤四：单独微调学生模型。步骤三结束后，由于每步训练时，只有部分不同的学生网络的单元模块参与到训练中，学生网络所有的单元模块并没有整合到一起参与到任务训练中，因此需要添加一个单独微调学生模型的过程。将学生网络所有编码器单元模块重新组合成完整的编码器，并利用教师网络的特征层和输出层对下游任务场景进行微调，最终输出压缩模型，用于推理下游任务。

本发明一种基于知识蒸馏的预训练语言模型的压缩平台包括：

数据加载组件：用于获取登陆用户上传的待压缩的包含具体自然语言处理下游任务的BERT模型和面向多任务的预训练语言模型的训练样本，所述训练样本是满足监督学习任务的带标签的文本样本。

压缩组件：用于将面向多任务的大规模语言模型进行压缩，包括教师模型微调模块、教师-学生模型蒸馏模块和学生模型微调模块。

教师模型微调模块负责加载BERT预训练模型，并且将所述训练样本输入教师模型（包含下游任务的BERT模型）进行微调，输出教师模型；

教师-学生模型蒸馏模块利用所述教师模型微调模块获得的教师模型，基于特征映射知识蒸馏和自注意力交叉知识蒸馏和基于伯努利概率分布的线性学习，更新学生模型的各个单元模块的权重参数；

学生模型微调模块基于所述知识蒸馏所得的学生模型进行微调，是将学生网络所有编码器单元模块重新组合成完整的编码器，并利用教师网络的特征层和输出层对下游任务场景进行微调，输出最终微调好的学生模型，即登陆用户需求的包含下游任务的预训练语言模型压缩模型。将所述压缩模型输出到指定的容器，可供所述登陆用户下载，并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息。

推理组件：登陆用户从所述平台获取压缩模型，用户利用所述压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理。并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息。

本发明可根据登陆用户上传的包含具体某个自然语言处理下游任务的BERT模型进行压缩，登陆用户可以下载所述平台生成的已压缩的模型架构，并在终端上进行部署。也可以直接在所述平台上对自然语言处理下游任务进行推理。

本发明设计了自注意力交叉知识蒸馏策略，充分利用教师模型的自注意力分布具有检测词语之间语义和句法的能力，训练前期，学生网络接受教师网络自注意层的监督信号以对后续层进行训练，从而可避免估计误差过大并传播的现象。训练后期，学生网络自注意层输入给教师网络，从而在相同输入前提下让学生网络模仿教师网络的输出行为。网络自注意层上进行凸组合交叉知识蒸馏的策略促使教师模型和学生模型深度相互学习。这样的特性极大地提升了小样本情况下大规模语言压缩模型的泛化能力。此外，通过基于伯努利概率分布的线性学习驱动编码器模块迁移的策略，在训练初始阶段，可以使得更多教师模型的编码器模块参与学习，将更多教师模型的特征映射和自注意力知识参与进来，提升整个学生模型的质量，得到更小的损失函数值，从而使得整个训练过程平滑，避免了模型前期学习过程中过于震荡的现象。在训练后期，当学生模型整体性能具有比较好的表现，此时让更多学生模型的知识参与学习，使得学生模型逐渐摆脱对教师模型的依赖，使得模型整体能够平稳过度到学生模型的微调阶段，提升整个模型的泛化能力。

下面将以电影评论进行情感分类任务对本发明的技术方案做进一步的详细描述。

通过所述平台的数据加载组件获取登陆用户上传的单个句子的文本分类任务的BERT模型和情感分析数据集SST-2；

通过所述平台加载BERT预训练模型，对包含文本分类任务的BERT模型进行微调，获得教师模型；

通过所述平台的压缩组件，逐渐完成从教师到学生的特征映射和自注意分布的知识蒸馏，更新学生网络的各个单元模块的权重参数；

基于所述知识蒸馏所得的学生模型进行微调，将学生网络所有编码器单元模块重新组合成完整的编码器，并利用教师网络的特征层和输出层对下游任务场景进行微调，最终，平台输出登陆用户需求的包含文本分类任务的BERT模型的压缩模型。

将所述压缩模型输出到指定的容器，可供所述登陆用户下载，并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息，压缩前模型大小为110M，压缩后为66M，压缩了40%。如下表1所示。

表1：文本分类任务BERT模型压缩前后对比信息

文本分类任务(SST-2)(包含67K个样本）	压缩前	压缩后	对比
				模型大小	110M	66M	压缩40%
推理精度	91.5%	91.8%	提升0.3%

通过所述平台的推理组件，利用所述平台输出的压缩模型对登陆用户上传的SST-2测试集数据进行推理，并在所述平台的压缩模型推理页面呈现压缩后比压缩前推理速度加快1.95倍，并且推理精度从压缩前的91.5%提升为91.8%。

Claims

1.一种基于知识蒸馏的预训练语言模型的压缩方法，其特征在于，该方法对BERT模型进行压缩，包括特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块；其中，原始的BERT模型为教师模型，压缩后的BERT模型为学生模型；特征映射知识蒸馏模块基于一种特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师模型的特征映射，学生模型关注教师模型的中间层特征，并利用这些中间层特征指导学生模型；自注意力交叉知识蒸馏模块通过交叉连接教师模型和学生模型的自注意力单元，通过在网络自注意层上进行凸组合交叉连接的方式，实现教师模型和学生模型的深度相互学习；基于伯努利概率分布的线性学习模块逐渐完成从教师模型到学生模型的特征映射和自注意分布的知识迁移；

所述自注意力交叉知识蒸馏模块包括以下三个阶段：

第三阶段：在网络自注意力单元上将所述第一阶段和第二阶段的迁移目标函数进行凸组合，实现交叉迁移的蒸馏策略；

所述基于伯努利概率分布的线性学习模块用于为驱动特征映射知识蒸馏模块和自注意力交叉知识蒸馏模块设置不同的线性迁移概率，包括以下两个步骤：

步骤二：虽然步骤一中设置一个恒定的迁移概率p，可以满足压缩模型的需要，但是线性学习驱动的迁移概率有助于逐步迁移模型中的编码器模块，本步骤设计了一个线性学习驱动的迁移概率p_linear来动态调整步骤一中的迁移概率p，即

p_linear＝min(1,k*i+b)

其中，p_linear表示当前迁移模块的迁移概率，第i个模块迁移对应当前训练第i步，b表示未训练时的初始迁移概率；k为大于0的动态值，且满足在训练增加至1000步、5000步、10000步、30000步时，相应地，p_linear逐渐增加至0.25、0.5、0.75、1.00。

2.根据权利要求1所述基于知识蒸馏的预训练语言模型的压缩方法，其特征在于，所述特征映射知识蒸馏模块中增加层间归一化以稳定层间训练损失；训练学生网络时，最小化特征图转换中均值和方差两个统计差异。

3.根据权利要求1所述基于知识蒸馏的预训练语言模型的压缩方法，其特征在于，所述自注意力交叉知识蒸馏模块的迁移目标函数是最小化学生模型和教师模型的注意力分布之间的相对熵。

4.根据权利要求1所述基于知识蒸馏的预训练语言模型的压缩方法，其特征在于，所述初始迁移概率b取值范围在0.1至0.3之间。

5.一种根据权利要求1所述基于知识蒸馏的预训练语言模型的压缩方法的平台，其特征在于，该平台包括以下组件：

数据加载组件：用于获取面向多任务的BERT模型及其训练样本；所述训练样本是满足监督学习任务的有标签的文本样本；

压缩组件：用于将面向多任务的大规模语言模型进行压缩，包括教师模型微调模块、教师-学生模型蒸馏模块和学生模型微调模块；其中，教师模型微调模块负责加载BERT模型，将训练样本输入包含下游任务的BERT模型进行微调，输出教师模型；教师-学生模型蒸馏模块利用所述教师模型微调模块获得的教师模型，通过所述特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块，逐渐完成从教师到学生的特征映射和自注意分布的知识蒸馏，更新学生网络的各个单元模块的权重参数；学生模型微调模块是将学生网络所有编码器单元模块重新组合成完整的编码器，并利用教师网络的特征层和输出层对下游任务场景进行微调，输出微调好的学生模型，作为最终的压缩模型；

6.根据权利要求5所述平台，其特征在于，所述压缩组件将所述压缩模型输出到指定的容器，供用户下载，并呈现压缩前后模型大小的对比信息；通过推理组件利用压缩模型对自然语言处理下游任务进行推理，并呈现压缩前后推理速度的对比信息。