CN116384490A

CN116384490A - 一种应用于知识蒸馏的知识选择方法

Info

Publication number: CN116384490A
Application number: CN202310323105.XA
Authority: CN
Inventors: 杨迪; 王之光
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-04

Abstract

本发明公开一种应用于知识蒸馏的知识选择方法，包括以下步骤：1)使用文本分类任务的数据训练教师模型；2)使用训练后的教师模型来抽取不同类型的知识，并把这些知识进行分类；3)基于训练后的教师模型来初始化学生模型；4)使用REINFORCE算法训练知识选择模块；5)使用被训练过后的知识选择模块来训练最终的学生模型，训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。本发明方法可学习知识蒸馏过程中适合学生模型学习的知识类型，这使得在知识蒸馏过程中可以在每一个训练步中根据教师模型和学生模型的状态来选择适合学生模型所学习的知识类型。

Description

一种应用于知识蒸馏的知识选择方法

技术领域

本发明涉及一种知识蒸馏技术，具体为一种应用于知识蒸馏的知识选择方法。

背景技术

预训练语言模型(PLM,Pre-trained Language Model)通常采用双向的Transformer来堆叠而成，通过在大规模单语语料进行训练，然后在特定任务数据进行微调，可以达到优异的性能。尽管能够在很多自然语言处理任务上达到优异的性能，但是其由于拥有庞大的体积，导致其遭受难以部署、计算代价较大和推理时间较长等问题。知识蒸馏是压缩PLM方法中的一类方法，也是最常用的一种方法，表示精简、体积较小的PLM(学生模型)，在具有更大规模的、性能更好的PLM(教师模型)的指导下进行训练更新。

PLM采用多个双向的Transformer模型进行堆叠而成，每一个Transformer的输出是下一个Transformer的输入。通常，每一层Transformer的输出也称为中间层特征。在进行文本分类的时候，其特点是，利用编码器将输入的文字序列转化为包含文字信息的向量，然后在最后一层的时候加入一个分类器，来进行计算输入文本类别概率分布。

早期的文本分类框架，就是使用卷积神经网络编码输入文本序列，然后使用循环神经网络(RNN，Recurrent Neural Network)转换模型中间向量为对应文本的最终特征向量，然后将该特征向量输入一个分类器进行分类。其中带有注意力机制的PLM在文本分类中的成功应用，将文本分类带上了一个新的高度。在PLM读取文本之后，注意力机制模仿了人类读取文本的过程，模型在就算输入文本特征向量时，并不像循环神经网络那样，将所有单词视同一律，而是为不同单词赋予不同的权重，与当前时刻的词相关性高的词，将获得较高的注意力权重，可以看出，注意力机制的引入，缓解了循环神经网络的不足。

在实际的过程中，无论是文本分类还是其他的基于深度神经网络的任务都是在不断的进行模拟人的行为，并且于此也在不断的创新和突破。在知识蒸馏过程中如此，设想，如果有一个模型先去学习所拥有的语料库知识，然后借用这个模型所学习的知识，也许能够帮助其他模型进行更好的学习。

虽然现在已经存在着一些针对知识蒸馏的知识选择方法，比如动态地调整损失的权重，但是依然存在以下不足：

1)并没有直接对知识类型进行建模，比如动态调整损失权重。在调整损失权重时并没有把知识和损失进行直接相关联系，也并没有直接的去解决知识蒸馏中知识选择这一问题；

2)损失权重调节建模方式简单，现有的权重调节的方式往往是直接使用模型的置信度等一些相关的因素进行直接建模，但是世界上知识的选择受到多个因素影响，并不是单纯的某些因素可以决定；

3)同时考虑较少的知识类型，现有的方法并没有较系统地把所有的知识进行归类划分，而是针对某一个知识来去解决知识选择问题。比如回复知识，现有的方法只针对在训练过程中回复知识应该不应该被学生模型进行学习这一问题进行研究，而忽略了其他类型的知识。

发明内容

针对现有知识蒸馏中训练时候知识类型多样的问题，导致学生模型可能学习不到正确的知识等不足，本发明要解决的技术问题是提供一种应用于知识蒸馏的知识选择方法，可以根据教师模型和学生模型学习的状态来判断当前情况下应该让学生模型学习什么类型的知识，以获得更好的性能，在知识蒸馏的训练过程中更加充分和正确地利用教师模型的知识。

本发明提供一种应用于知识蒸馏的知识选择方法，包括以下步骤：

1)使用文本分类任务的数据训练教师模型；

2)使用训练后的教师模型来抽取不同类型的知识，并把这些知识进行分类；

3)基于训练后的教师模型来初始化学生模型；

4)使用REINFORCE算法训练知识选择模块；

5)使用被训练过后的知识选择模块来训练最终的学生模型，训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。

步骤1)是使用所拥有的文本分类任务数据进行训练教师模型，表示为：

TeacherModel＝ModelTrain(S,B)

其中ModelTrain为模型训练函数，S为输入文本集合，B为输入文本的标签，表示单一的训练一个文本分类模型。

步骤2)具体步骤为：

201)设文本分类任务为二分类任务，其输入的文本为S＝(s₀,s₁,s₂,…s_i…,s_m)，其s_i表示文本S中的第i个句子；对应文本分类的标签为B＝(b₀,b₁,b₂,…b_i…,b_m)，其b_i表示句子s_i对应的分类标签，其值为0或1；

使用教师模型对所给文本S中句子s_i进行分类，产生三类不同的知识；

202)抽取教师模型对输入句子x_i所计算出来的概率分布P^T(x_i)作为回复知识；

203)抽取教师模型最后一层表示作为特征知识L^T(x_i)；

204)计算教师模型每一层之间的输出之间的相对关系作为相对知识R^T(x_i)。

步骤4)通过使用REINFORCE算法来训练一个知识选择模块，具体步骤为：

401)在训练的每一步中，分别提取教师模型和学生模型最后一层的表示向量，然后将其连接起来作为知识选择模块的特征输入F(x)，表示包含对应知识蒸馏过程中教师模型和学生模型的学习状态和数据特征；

402)知识选择模块根据输入的特征决策当前状态下学生模型应该学习的类型的知识，让学生模型进行学习；

403)在知识蒸馏完成后，计算学生模型在校验集上的得分，然后用该得分和学生模型初始状态在校验集上的得分做差作为获得对应知识选择模块决策的奖励值R；

404)使用奖励值R和知识选择模块在步骤402)中所做出决策的损失和来更新知识选择模块的参数；

405)重复步骤401)到404)，直到知识选择模块模型参数收敛。

步骤5)中，使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识，具体步骤如下：

501)提取当前训练步中教师模型和学生模型最后一层的输出表示向量，并拼接成为特征F(x)，输入知识选择模块获得当前训练步应该给学生模型进行学习的知识类型；

502)根据知识选择模块提供的决策，来更新学生模型的参数，最终实现了知识选择。

本发明具有以下有益效果及优点：

1.本发明全面的划分知识蒸馏过程中知识类型，在知识蒸馏过程常用的知识类型为1)回复知识，其来源于教师模型最后输出的概率分布；2)特征知识，其来源于教师模型最后一层输出的向量表示；3)相对性知识，其来源于教师模型层与层之间的相对关系。

2.本发明使用神经网络来进行选择特定的知识类型，其可以根据输入来自动学习相关特征，从而来决策在当前训练步中学生模型应该学习什么类型的知识，并不像现有的一些方法进行手动提取特征，具有很好地自适应能力。

3.本发明可以针对多个知识类型进行选择，并且可以根据现有的需求来进行扩展知识空间和奖励函数，具有易操作、易扩展等优势。

4.除了上述所述以外，本发明还具有很强的灵活性，比如教师模型可以采用性能比较强的集成模型，从而从集成的模型中来选择更加适合学生模型学习的知识类型。

附图说明

图1为本发明的知识选择模块结构图；

图2为本发明的总体过程的流程图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明提供一种应用于知识蒸馏的知识选择方法，在知识蒸馏过程中，可以为学生模型提供不同的知识类型，具体流程如图2所示，包括如下步骤：

1)使用文本分类任务的数据训练教师模型，该教师模型的特点为性能表现强，但体积较大。这里设定教师模型为具有12层的预训练模型BERT；

3)基于训练后的教师模型来初始化学生模型；

为了学生模型具有一个较好的初始化状态，使用教师模型的参数来对学生模型进行初始化。这里设定学生模型为6层的BERT，因此，使用教师模型的前6层参数来初始化学生模型；

4)使用REINFORCE算法训练知识选择模块(结构如图1所示)；

首先在每一个训练步中，输入给KSM教师模型最后一层的隐含层和学生模型最后一层的隐含层输入，然后KSM选择特定的知识类型给学生模型进行学习，在学习完之后，计算学生模型在校验集上的得分，并使用该得分和学生模型在初始状态时校验集上的得分做差，所计算的差值为对应KSM知识选择的奖励。

TeacherModel＝ModelTrain(S,B)

其中ModelTrain为模型训练函数，S为输入文本集合，B为输入文本的标签，表示单一的训练一个文本分类模型，其教师模型具有性能表现较好、体积大的特点；

使用特定任务的数据微调一个12层的BERT作为知识的提供者，也即是教师模型；

在训练的过程中，为了提升模型的表示学习能力，使用位置编码和多头注意力，在不用表示空间中，捕获句子中不同词之间的关系，从而使得模型能够学习更多维度的知识；具体为：

101)计算每个单词的位置编码，并与词嵌入向量相加，生成模型所需要的输入向量，计算方式如下：

PE(.)为位置编码函数，pos为当前词的位置，i代表位置编码向量中的第几维，d_model是翻译模型的一个基础参数，表示每个位置的隐层大小。；

102)将模型向量Q、K、V映射成h个子集(h个头)，对其进行点乘与连接操作，具体计算如下：

head_i＝Attention(QW_i ^Q,KW_I ^K,VW_I ^V)

Mult[Head(Q，K，V)＝Concat(head₁，…，head_h)W^o

head_i为第i个头的向量，W为翻译模型参数，Attention(.)为注意力机制函数，Concat(.)为向量连接函数；

103)使用全连接网络，将注意力机制操作之后的向量表示映射到新空间，具体实现如下：

FFN(x)＝max(0,xW₁+b_i)W₂+b₂

其中，W₁、W₂、b₁、b₂为翻译模型的参数，由模型自动学习得到。

104)使用对应的交叉熵损失函数训练模型；

105)对模型进行测试，使用F1值当做衡量指标。

步骤2)，具体步骤为：

203)抽取教师模型最后一层表示作为特征知识L^T(x_i)；

使用教师模型对所给文本S中句子s_i进行分类，在这个过程中将抽三类不同的知识：第一类为回复知识，其为教师模型计算的句子类别的概率分布，表示为P^T(x_i)；第二类为特征知识，其为教师模型最后一层的输出表示，表示为L^T(x_i)；第三类为相对性知识，其为教师模型每一层输出表示的相对相关，表示为R^T(x_i)。在知识蒸馏过程中，这些知识都将作为被选择来提供给学生模型进行学习；

步骤3)基于训练好的教师模型来初始化学生模型是为了学生模型具有一个较好的初始化状态，使用教师模型的参数来对学生模型进行初始化。这里设定学生模型为6层的BERT，因此，使用教师模型的前6层参数来初始化学生模型；

4)通过使用REINFORCE算法训练一个知识选择模块，以下称为KSM，具体为：

405)重复步骤401)到404)，直到知识选择模块模型参数收敛。

步骤4)首先在每一个训练步中，输入给KSM教师模型最后一层的隐含层和学生模型最后一层的隐含层输入，然后KSM选择特定的知识类型给学生模型进行学习，在学习完之后，计算学生模型在校验集上的得分，并使用该得分和学生模型在初始状态时校验集上的得分做差，所计算的差值为对应KSM知识选择的奖励。

步骤5)是使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识，具体步骤如下：

使用被训练过的KSM来训练最终的学生模型，训练时KSM会根据对应教师模型和学生模型的特征来选择学生模型应该学习什么类型的知识。

例如，对于蒸馏6层的BERT学生模型的时候，KSM在每一个训练步中都会选择对应适合学生模型学习的知识类型。比如，在开始的时候，选择特征知识来先让学生模型学习一些内部知识。当有了一定的知识储备之后，再让学生模型学习去学习对应文本的预测概率分布知识，也就是回复知识，最后再让学生学习包含结构关系的相对性关系。

表1

数据集	原始知识蒸馏方法	基于微调的方法	本发明方法
				MRPC	85.5/79.8	85.1/79.2	87.9/82.2
QQP	70.0/88.4	69.4/88.2	71.1/89.1
				MNLI-m/mm	82.4/81.6	81.1/79.8	83.1/82.1

本发明使用REINFORCE算法来训练一个知识选择模块，该知识选择模块可以在知识蒸馏的过程中根据教师模型和学生模型的学习特征来选择适合学生模型学习的知识类型，使学生模型能够学习更加合适的知识。进而提升了知识蒸馏最终蒸馏出来学生模型的性能。本发明分别在MRPC、QQP和MNLI三个文本分类数据集上进行实验，并在表1中报道对应的准确率和F1分数。此外，还复现了两种比较常见的预训练模型压缩方法，一种是原始知识蒸馏方法，其方法直接使用教师模型的输出分布来对学生模型进行训练，并没有知识选择的过程；另外一种设计基于微调的方法，其方法直接使用教师模型的参数来初始化学生模型的参数，之后使用数据进行微调学生模型，并没有知识蒸馏的过程。从实验结果来看，本发明方法明显要好与其他两种方法，最明显的是本发明方法可以在MRPC数据集上实现87.9准确率分数，要高于原始的知识蒸馏方法2.4个准确率分数。综合对比来看，本发明的方法可以有效提升知识蒸馏表现，最终证明本发明在知识蒸馏过程中有效地实现知识选择。

Claims

1.一种应用于知识蒸馏的知识选择方法，其特征在于包括以下步骤：

1)使用文本分类任务的数据训练教师模型；

3)基于训练后的教师模型来初始化学生模型；

4)使用REINFORCE算法训练知识选择模块；

2.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：步骤1)是使用所拥有的文本分类任务数据进行训练教师模型，表示为：

TeacherModel＝ModelTrain(S,B)

3.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：基于步骤2)具体步骤为：

203)抽取教师模型最后一层表示作为特征知识L^T(x_i)；

4.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：步骤4)通过使用REINFORCE算法来训练一个知识选择模块，具体步骤为：

405)重复步骤401)到404)，直到知识选择模块模型参数收敛。

5.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：步骤5)中，使用步骤4)所训练的知识选择模块决策学生模型在训练过程的每一步应该学习的类型的知识，具体步骤如下：