CN111611377A

CN111611377A - 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Info

Publication number: CN111611377A
Application number: CN202010322267.8A
Authority: CN
Inventors: 高尚兵; 李文婷; 李伟; 王通阳; 姚宁波; 周泓; 朱全银; 相林; 于坤; 陈晓兵; 张正伟
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-09-01
Anticipated expiration: 2040-04-22
Also published as: CN111611377B

Abstract

本发明公开了一种基于知识蒸馏的多层神经网络语言模型训练方法与装置，该方法首先构建BERT语言模型和多层BILSTM模型作为教师模型和学生模型，其中所构建的BERT语言模型中有六层transformer，多层BILSTM模型中有三层BILSTM网络；然后将文本语料集进行预处理后，对BERT语言模型进行训练得到训练好的教师模型；再基于知识蒸馏技术将预处理后的文本语料集输入到多层BILSTM模型训练学生模型，在学习教师模型中的嵌入层、隐藏层以及输出层之时，通过线性变换将不同空间表示进行计算。基于训练好的学生模型，可将文本进行向量转换，进而训练下游网络更好地进行文本分类。本发明可以有效提升文本预训练效率以及文本分类任务的精确度。

Description

基于知识蒸馏的多层神经网络语言模型训练方法与装置

技术领域

本发明涉及无监督文本预训练及深度学习领域，具体涉及一种基于知识蒸馏的多层神经网络语言模型训练方法与装置。

背景技术

随着互联网上在线文本信息数据的急剧增加，语言模型在信息处理上起着至关重要要的作用，是处理较大规模文本信息的关键技术，并推动了信息处理朝着自动化的方向发展，语言模型简单来说就是一串词序列的概率分布。搭建一个合理的预训练语言模型可以解决目前很多文本信息问题，例如文本分类、文本相似度、阅读理解等等，进而可以高效的利用好现在网络上大量的文本语料数据，更好地为人们提供更便利的服务。但目前的文本预训练语言模型大多都是具有着庞大且复杂的网络结构、训练速度慢等缺点。

发明内容

发明目的：为了解决现有技术存在的问题，本发明提供一种基于知识蒸馏的多层神经网络语言模型训练方法与装置，以在保证一定精度的前提下，提升文本预训练效率。

技术方案：为实现上述发明目的，发明所述的一种基于知识蒸馏的多层神经网络语言模型训练方法，包括如下步骤：

(1)构建BERT语言模型和多层BILSTM模型作为教师模型和学生模型，其中所构建的BERT语言模型中有六层transformer，多层BILSTM模型中有三层BILSTM网络；

(2)将文本语料集进行预处理后，对BERT语言模型进行训练得到训练好的教师模型；

(3)将预处理后的文本语料集输入到多层BILSTM模型，对学生模型进行训练，在学生模型训练时学习教师模型分别在嵌入层、隐藏层以及输出层的信息，通过线性变换将不同空间表示进行计算，结合教师模型与学生模型的嵌入层向量输出的MSE均方误差、学生模型每一层隐藏层输出与教师模型与之对应的每层transformer中的输出的MSE均方误差、以及教师模型softmax层输出的概率分布的交叉熵作为知识蒸馏的目标损失函数；最后得到训练好的学生模型。

所述知识蒸馏的目标损失函数为：

其中，s_e与t_e分别代表学生模型与教师模型的嵌入表示，s_h与t_2h-1分别代表学生模型第h层的隐藏层与与教师模型第2h-1层的隐藏层的输出，s_p与t_p分别代表学生模型与教师模型预测的logits输出入，λ_e、λ_hid和λ_pre分别代表着不同层的重要程度，L_emb、L_hid和L_pre分别代表着不同层的损失计算函数。

教师模型与学生模型在嵌入层的损失计算公式为：

L_emb(s_e，t_e)＝MSE(s_eW_e,t_e)

其中，MSE表示均方误差，W_e表示线性变换矩阵。

教师模型与学生模型在隐藏层的损失计算公式为：

L_hid(s_h，t_2h-1)＝MSE(s_hW_h,t_2h-1)

其中，W_h表示线性变换矩阵。

教师模型与学生模型在输出层的损失计算公式为：

L_pre(s_p,t_p)＝-soft max(t_p)·log_soft max(s_p/Tem)

其中，log_soft max表示对数似然，Tem表示温度值。

在所述基于知识蒸馏的多层神经网络语言模型训练方法的基础上，本发明提供一种基于知识蒸馏的文本分类方法，所述文本分类方法利用所述基于知识蒸馏的多层神经网络语言模型训练方法得到的训练好的学生模型，将文本数据转换为向量表示输入至一种神经网络模型进行文本分类，或输入至多种神经网络模型进行特征融合后进行文本分类。

基于相同的发明构思，本发明还提供的一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于知识蒸馏的多层神经网络语言模型训练方法或实现所述的基于知识蒸馏的文本分类方法。

有益效果：本发明实现了在文本分类任务中，通过学习教师模型BERT的学习能力来提高精简模型的学习能力，通过对教师模型中的嵌入层、隐藏层以及预测层分别进行学习，可以更大程度提高精简模型的学习能力，同时精简模型的结构简单以及比教师模型训练速度快等特点占有优势，同时解决了现有的通用语言模型的缺点，在特定领域的任务中表现能力差的问题。在改进的语言模型中用大量的化工语料数据进行预训练，可以有效的解决该问题。同时在下游任务中，通过特征融合的方法将CNN和BILSTM的优势进行互补，可以提取文本的序列化特征，且对于字词的编码能力较好，达到提升文本分类任务精度的目的。

附图说明

图1为本发明实施例的模型训练流程图；

图2为本发明实施例中的算法结构图；

图3为本发明实施例的文本分类流程图。

具体实施方式

为清楚说明本发明的技术方案，下面首先对本发明涉及到的相关技术做简要说明。

BERT(Bidirectional Encoder Representation from Transformers，Transformer的双向编码表示)语言模型：BERT利用masked model实现了语言模型的双向性，证明了双向性对语言表示预训练的重要性。BERT模型是真正意义上的双向语言模型，每个词可以同时利用该词的上下文信息。BERT是第一个微调模型在sentence-level和token-level自然语言任务都达到了最好效果。证明了pre-trained representations可以缓解了不同任务对特殊模型结构的设计需求。BERT在11个自然语言处理任务上达到了最好效果。并在BERT的extensive ablations证明了“BERT的双向性”是一个重要的创新。BERT语言模型实现了文本到动态字向量的转化，增强了文本向量的语义信息。

多层BILSTM模型(多层双向长短时记忆网络模型)：长短记忆神经网络(LSTM)是一种特殊的RNN，能够学习长的依赖关系。LSTM是为了避免长依赖问题而精心设计的，记住较长的历史信息实际上是他们的默认行为，而不是他们努力学习的东西。所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中，该重复模块将具有非常简单的结构，例如单个tanh层。输入层的数据会经过向前和向后两个方向推算，最后输出的隐含状态再进行concat，再作为下一层的输入，原理其实和LSTM是类似的，就是多了双向计算和concat过程，增强了上下文的特征联系的语义信息。在本发明中，我们采用的是多层的双向长短时记忆网络，为了能够方便学习到BERT中间层transformer的学习能力，提高模型的学习能力。

知识蒸馏(Knowledge Distillation)：知识蒸馏的核心思想是通过迁移知识，从而通过训练好的大模型得到更加适合推理的小模型。这个概念最早在06年的文章ModelCompression中，Caruana提出一种将大模型学习到的函数压缩进更小更快的模型，而获得可以匹敌大模型结果的方法。

本发明中我们采用的是不仅仅针对最后一层的概率分布进行学习，同时对嵌入层、中间层以及输出层做一个总的学习计算损失，相比传统的知识蒸馏的方法，可以提高其学习能力，而不仅仅是记住最终的结果，实现真正的模仿教师模型的学习能力。

下面结合附图对本发明作进一步详细说明。现将本实施例中涉及的变量作如下说明，如表1所示：

表1变量说明表

如图1所示，本发明实施例公开的一种基于知识蒸馏的多层神经网络语言模型训练方法，包括以下步骤：

(1)将输入的文本处理成每一行为一条语句，文章之间的过渡用空白行进行分割的原始文本语料集T。

(2)在教师模型BERT中，首先读取经过特殊处理的原始文本语料集T，按行分词处理后存储到T'中，具体的存储格式为T'＝{d₀,d₁,…,d_i,…}，d_i为第i篇文章，在d_i中存储第i篇文章中所有的句子集合，d_i＝{l₀,l₁,…,l_j,…}，l_j为d_i中的第j个句子，l_j＝{t₀,t₁,…,t_k,…}，t_k为l_j中第k个token；接着将文章顺序打乱，重复dupe_factor＝10次，然后进行随机mask，每篇文章都会生成10*len(d_i)条样本，如果采样出来的句子长度超过了设定的最大句子长度Lmax值，便随机从头或者尾去掉比较长句子中的一些token。删除BERT中的nextsentence prediction任务。

(3)将T'中每个句子中的每一个token分别送入BERT的Token Embedding层、Segment Embeddings层和Position Embeddings层，分别得到向量编码V₁、句子编码V₂及位置编码V₃；将获得的三种维度相同输出进行相加，得到向量V_B。

(4)将BERT中12层的transformer删减成6层的transformer，然后将得到的V_B输入到BERT的双向Transformer中，同时对教师模型BERT预测的被遮盖的token的概率分布m^t和真实的被遮盖的token向量表示m^s按照如下公式进行损失计算，其中，L_t为做随机mask任务的损失函数，然后进行梯度下降优化教师模型。

L_t(m^s,m^t)＝-soft max(m^t)·log_soft max(m^s)

(5)在学生模型多层神经网络模型中，首先对原始文本语料集T进行步骤(2)和步骤(3)相同的预处理与embedding操作，但词向量维度是BERT模型词向量维度的一半，并将预处理之后的文本数据输入到多层神经网络模型中，该模型为三层的双向长短时记忆网络，在训练学生模型过程中，学生模型通过学习教师模型中的嵌入层、中间隐藏层以及预测层来进行模型的校正。

(6)在嵌入层中，对教师模型BERT与学生模型多层神经网络的嵌入层的向量输出做损失计算。具体公式如下：

L_emb(s_e，t_e)＝MSE(s_eW_e,t_e)

其中，MSE为均方误差(Mean Square Error)，矩阵

和

分别表示学生模型和教师模型的嵌入表示。l＝128代表模型输入的文本长度，d＝768代表教师模型的隐藏层大小，d'＝200代表学生模型的隐藏层大小。在本发明中，它们的形状与隐藏状态矩阵相同。矩阵

是一个可学习的线性变换，它将学生模型的嵌入表示转换成与教师模型相同的空间状态。

(7)在中间隐藏层中，将学生模型多层神经网络的每一层隐藏层输出与教师模型BERT中与之对应的每层transformer中的隐藏层输出进行MSE均方误差计算，具体公式如下所示：

L_hid(s_h，t_h')＝MSE(s_hW_h,t_h')

其中，矩阵

和

分别表示学生网络和教师网络的隐藏层输出，矩阵

是一个可学习的线性变换，它将学生模型的隐藏状态变换成与教师模型状态相同的空间。

(8)在预测层中，将教师模型BERT的softmax层输出的概率分布和学生网络多层神经网络的softmax层输出的概率分布作交叉熵计算。

L_pre(s_p,t_p)＝-soft max(t_p)·log_soft max(s_p/Tem)

其中，s_p和t_p分别为学生模型和教师模型预测的logits输出(softmax上一层的输入)，log_soft max表示对数似然，Tem＝1表示温度值。

(9)利用上述三个蒸馏目标，可以统一教师模型与学生模型对应层的蒸馏损失：

L_total＝λ_eL_emb(s_e,t_e)+λ_hidL_ht+λ_preL_pre(s_p,t_p)

其中，L_ht代表总的中间隐藏层的损失公式，s_h与t_2h-1分别代表学生模型的第h层的隐藏层与对应的教师模型的第2h-1层的隐藏层的输出；λ_e＝1、λ_hid＝4和λ_pre＝3分别代表着不同层的重要程度。具体算法结构如图2所示。

如图3所示，将训练好的学生模型作为预训练好的语言模型，利用其将文本数据转换为向量表示，并输入下游网络模型中进行文本分类，可最终得到预测结果。下面以采用融合CNN和BILSTM特征的文本分类网络为例，进行详细说明，具体如下：

(1)将训练好的学生模型作为预训练好的语言模型，将准备好的文本数据集D输入到预训练好的语言模型，并将其转换为字向量序列S，其中，S＝{st₁,st₂,…,st_e,…,st_len(D)}，其中，st_e是第e个文本的输出向量表示；

(2)对字向量序列S分别做两次深度编码，以st_e为例，将步骤(2)得到的st_e分别输入到CNN和BILSTM模型中，得到两个特征向量F¹和F²；其中，CNN模型先利用两次卷积、两次激活、两次池化方法对输入的字向量序列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，得到特征向量F¹，

其中，k＝49152为CNN第二个池化层输出的神经元数。BILSTM模型含有384个隐藏神经元，对输入的字向量序列进行一个序列上的双向运算，得到的输出经过非线性激活层的运算后，作为另一个特征向量F²，

其中，m＝384为BILSTM隐藏层神经元数。

(3)对F¹和F²两个特征向量进行特征串接融合得到新的特征向量F³，F³再经过全连接层来实现线性降维，得到F⁴＝{F₁ ⁴,F₂ ⁴,…,F₁₀ ⁴}；

(4)使用softmax层进行概率运算，将步骤(3)得到的F⁴向量作为输入，输入到softmax层中，使得输入向量中的每个实数被映射为0到1之间的实数，并且输出向量中所有实数之和为1，这些实数表示相应种类的概率大小，得到的输出为概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀},其中，p_f表示该文本为第f类的概率；

(5)模型参数优化，根据步骤(1)至步骤(4)对模型进行编译，采用的损失函数为交叉熵，优化器为adam，指标为准确度；编译完成后，使用带标记的数据对模型进行训练，训练前将所有数据按6：2：2划分训练集、验证集和测试集，训练时保存在验证集上准确度最高的模型；

(6)文本分类预测，利用步骤(5)得到的模型，对待分类的文本进行预测，模型输出一个概率预测向量P＝{p₁,p₂,…,p_f,…,p₁₀}，搜索向量P中的最大数值，并将最大值对应的分类结果作为最终输出，即文本分类的结果Y_out。其中，

表示该文本为第f类的概率。

为了更好的说明本方法的有效性，通过对一百多万条的化工领域的文本数据进行清洗，进行语句的规范化，若出现字词不规范、句子结构混乱、段落不完整等异常情况，则进行相应的修改或删除，以保证文本内容的正确和规范，将文本整理成一句为一行且不同文章以空行的形式展现，并通过知识蒸馏技术将BERT作为教师模型训练好，然后训练学生模型多层的双向长短时记忆网络，在学生模型训练的同时学习教师模型分别在嵌入层、隐藏层以及预测层的之间的损失，并通过线性变换将不同空间表示进行计算，最后得到训练好的微型的学生模型。改进后的模型有效的在速度上比教师模型节省了1/6时间，准确率仅仅比教师模型略低一些。并通过对325199条在化工领域的招聘信息文本数据输入到预训练好的精简语言模型，并将句子中的每个字进行向量化，然后保持每个字在句子中的顺序不变，将每个字映射成一个向量，得到字向量序列。对字向量序列进行两次深度编码，将得到的字向量序列分别输入到CNN和BILSTM模型中，对两个特征向量进行特征融合，然后通过全连接层以及softmax输出最终的预测标签。改进的模型进一步提高了分类的准确度，在一共10个标签的文本分类中的精确率、召回率、F1-Score均达到了95％的分类效果。

基于相同的发明构思，本发明实施例提供的一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述的基于知识蒸馏的多层神经网络语言模型训练方法或文本分类方法。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所做的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有的技术。

Claims

1.一种基于知识蒸馏的多层神经网络语言模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于知识蒸馏的多层神经网络语言模型训练方法，其特征在于，所述知识蒸馏的目标损失函数为：

3.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法，其特征在于，教师模型与学生模型在嵌入层的损失计算公式为：

L_emb(s_e，t_e)＝MSE(s_eW_e,t_e)

其中，MSE表示均方误差，W_e表示线性变换矩阵。

4.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法，其特征在于，教师模型与学生模型在隐藏层的损失计算公式为：

L_hid(s_h，t_2h-1)＝MSE(s_hW_h,t_2h-1)

其中，MSE表示均方误差，W_h表示线性变换矩阵。

5.根据权利要求2所述的基于知识蒸馏的多层神经网络语言模型训练方法，其特征在于，教师模型与学生模型在输出层的损失计算公式为：

L_pre(s_p,t_p)＝-softmax(t_p)·log_softmax(s_p/Tem)

其中，log_softmax表示对数似然，Tem表示温度值。

6.一种基于知识蒸馏的文本分类方法，其特征在于，所述文本分类方法利用根据权利要求1-5任一项所述的基于知识蒸馏的多层神经网络语言模型训练方法得到的训练好的学生模型，将文本数据转换为向量表示输入至一种神经网络模型进行文本分类，或输入至多种神经网络模型进行特征融合后进行文本分类。

7.一种计算装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于知识蒸馏的多层神经网络语言模型训练方法或实现权利要求6所述的基于知识蒸馏的文本分类方法。