CN112347763A

CN112347763A - 针对预训练语言模型bert的知识蒸馏方法、装置及系统

Info

Publication number: CN112347763A
Application number: CN202011396369.0A
Authority: CN
Inventors: 姜珊
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-09

Abstract

本发明提供了针对预训练语言模型BERT的知识蒸馏方法、装置及系统，包括蒸馏训练阶段和微调测试阶段；其中，所述蒸馏训练阶段包括：获取无标签文本；利用BERT模型编码，获取所述无标签文本的BERT句向量；利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型；所述微调测试阶段包括：将有标签数据集输入最佳BiLSTM模型，进行微调训练；将测试集输入微调后的BiLSTM模型，计算输出结果。本发明采用“先蒸馏，后微调”的方法，解决了预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

Description

针对预训练语言模型BERT的知识蒸馏方法、装置及系统

技术领域

本发明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种针对预训练语言模型BERT的知识蒸馏方法、装置及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

随着人工智能识别的发展，普遍采用模型进行数据处理、图像识别等，而BERT模型是利用大规模无标注语料训练的预训练语言模型，通过微调处理下游任务，知识蒸馏是一种常用的模型压缩方法，在“教师-学生”框架中，将复杂的教师模型学到的特征作为“知识”传递给简单的学生模型，提高学生模型的性能。

BERT模型常见的知识蒸馏方法是在特定任务中先微调模型，然后再进行蒸馏操作，将同领域大规模无标签数据，输入微调好的模型进行离线预测，计算软标签，供学生模型学习。

但存在如下技术问题：

BERT模型“先微调，后蒸馏”的方法，使学生模型丧失了微调能力。对于不同领域的下游任务，需要准备相应领域的无标签数据，分别进行蒸馏操作，训练过程繁琐；

当对应领域无标签数据不易获取时，学生模型学到的知识有限，蒸馏性能明显下降。

有鉴于此，亟需一种基于针对预训练语言模型BERT的知识蒸馏方法，解决预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

发明内容

本说明书一个或多个实施例描述了针对预训练语言模型BERT的知识蒸馏方法、装置及系统，可解决目前技术中存在的预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

本说明书一个或多个实施例提供的技术方案如下：

第一方面，本发明提供了针对预训练语言模型BERT的知识蒸馏方法，所述知识蒸馏方法包括蒸馏训练阶段和微调测试阶段；其中，

所述蒸馏训练阶段包括：

获取无标签文本；

利用BERT模型编码，获取所述无标签文本的BERT句向量；

利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；

基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型；

所述微调测试阶段包括：

将有标签数据集输入最佳BiLSTM模型，进行微调训练；

将测试集输入微调后的BiLSTM模型，计算输出结果。

在一个可能的实现方式中，通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。

在一个可能的实现方式中，利用BERT模型编码，获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。

在一个可能的实现方式中，利用BiLSTM模型编码，获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。

第二方面，本发明提供了针对预训练语言模型BERT的知识蒸馏装置，所述装置包括蒸馏训练模块和微调测试模块；其中，

所述蒸馏训练模块包括：

获取单元，用于获取无标签文本；

BERT句向量单元，用于利用BERT模型编码，获取所述无标签文本的BERT句向量；

BiLSTM句向量单元，用于利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；

训练单元，用于基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型；

所述微调测试模块包括：

微调单元，用于将有标签数据集输入最佳BiLSTM模型，进行微调训练；

测试单元，用于将测试集输入微调后的BiLSTM模型，计算输出结果。

在一个可能的实现方式中，所述训练单元通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。

在一个可能的实现方式中，所述BERT句向量单元利用BERT模型编码，获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。

在一个可能的实现方式中，所述BiLSTM句向量单元利用BiLSTM模型编码，获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。

第三方面，本发明提供了针对预训练语言模型BERT的知识蒸馏系统，该系统包括存储器，用于存储计算机程序；以及

处理器，用于执行所述计算机程序时实现如第一方面中一个或多个所述的方法。

第四方面，本发明提供了一种芯片，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如第一方面中一个或多个所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

本发明实施例提供的方案，采用“先蒸馏，后微调”的方法，将预训练语言模型BERT生成的句子向量作为知识载体，传递给BiLSTM模型学习，学生模型BiLSTM保留了微调能力，可以处理不同的下游任务。同时BiLSTM模型结构简单，参数量小，部署应用方便。

蒸馏过程中，BERT模型生成句子向量的文本没有领域和标签限制，非常容易大量获得，不需要耗费额外资源构建数据集，解决了预训练语言模型BERT参数多，结构复杂，难以工程化部署的问题。

附图说明

图1为本发明实施例提供的针对预训练语言模型BERT的知识蒸馏方法流程示意图；

图2为本发明实施例提供的针对预训练语言模型BERT的知识蒸馏装置结构示意图；

图3为本发明实施例提供的针对预训练语言模型BERT的知识蒸馏系统结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出一个实施例的针对预训练语言模型BERT的知识蒸馏方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示，该方法包括蒸馏训练阶段和微调测试阶段：

蒸馏训练阶段目的是为了获得最佳BiLSTM模型，包括以下步骤：

步骤101，获取无标签文本。

步骤102，利用BERT模型编码，获取所述无标签文本的BERT句向量。

步骤103，利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量。

步骤104，基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型。

用一段话概括该阶段即为：

准备大量无标签文本，对于每个句子S_i(char₁,char₂,char₃,…,char_n)，使用BERT模型编码，获取[CLS]字符对应的向量作为句子向量，记做B_i；使用BiLSTM模型编码，获取序列最后时刻的隐状态向量作为句子向量，记做L_i。

使用余弦损失函数

衡量BERT模型和BiLSTM模型句子向量的不一致程度，通过反向传播算法更新梯度，训练并保存最佳模型。

需要说明的是，该方法的实施可以不按上述描述的步骤顺序进行，可根据实际操作进行顺序的调整，比如可以先执行步骤102，后执行步骤103。也可以先执行步骤103，后执行步骤102。

微调测试阶段的目的是利用训练好的模型，进行微调测试，包括：

步骤201，将有标签数据集输入最佳BiLSTM模型，进行微调训练。

对于特定自然语言处理任务，如文本分类、阅读理解、意图识别等，使用对应的有标签数据集输入蒸馏后的BiLSTM模型，进行微调训练。

步骤202，将测试集输入微调后的BiLSTM模型，计算输出结果。

本发明提供的知识蒸馏方法，采用“先蒸馏，后微调”的方法，将预训练语言模型BERT生成的句子向量作为知识载体，传递给BiLSTM模型学习，学生模型BiLSTM保留了微调能力，可以处理不同的下游任务。同时BiLSTM模型结构简单，参数量小，部署应用方便。

与上述实施例方法对应的，本发明还提供了针对预训练语言模型BERT的知识蒸馏装置，如图2所示，该针对预训练语言模型BERT的知识蒸馏装置包括：蒸馏训练模块21和微调测试模块22；其中，

所述蒸馏训练模块21包括：

获取单元211，用于获取无标签文本；

BERT句向量单元212，用于利用BERT模型编码，获取所述无标签文本的BERT句向量；

在一个示例中，所述BERT句向量单元利用BERT模型编码，获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。

BiLSTM句向量单元213，用于利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；

在一个示例中，所述BiLSTM句向量单元利用BiLSTM模型编码，获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。

训练单元214，用于基于所述BERT句向量和所述BiLSTM句向量，训练获得最佳BiLSTM模型；

在一个示例中，所述训练单元214通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。

所述微调测试模块22包括：

微调单元221，用于将有标签数据集输入最佳BiLSTM模型，进行微调训练；

测试单元222，用于将测试集输入微调后的BiLSTM模型，计算输出结果。

本发明实施例提供的针对预训练语言模型BERT的知识蒸馏装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了针对预训练语言模型BERT的知识蒸馏系统，具体如图3所示，该系统包括至少一个处理器310和存储器320；

存储器310，用于存储计算机程序；

处理器320，用于执行该计算机程序程序时实现如上述实施例所介绍的针对预训练语言模型BERT的知识蒸馏方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种芯片，该芯片与上述系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如上述实施例所介绍的针对预训练语言模型BERT的知识蒸馏注方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被针对预训练语言模型BERT的知识蒸馏系统执行如上介绍的针对预训练语言模型BERT的知识蒸馏方法。

本申请采用“先蒸馏，后微调”的方法，将预训练语言模型BERT生成的句子向量作为知识载体，传递给BiLSTM模型学习，学生模型BiLSTM保留了微调能力，可以处理不同的下游任务。同时BiLSTM模型结构简单，参数量小，部署应用方便。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.针对预训练语言模型BERT的知识蒸馏方法，其特征在于，所述知识蒸馏方法包括蒸馏训练阶段和微调测试阶段；其中，

所述蒸馏训练阶段包括：

获取无标签文本；

利用BERT模型编码，获取所述无标签文本的BERT句向量；

利用BiLSTM模型编码，获取所述无标签文本的BiLSTM句向量；

所述微调测试阶段包括：

将有标签数据集输入最佳BiLSTM模型，进行微调训练；

将测试集输入微调后的BiLSTM模型，计算输出结果。

2.根据权利要求1所述的知识蒸馏方法，其特征在于，通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。

3.根据权利要求1所述的知识蒸馏方法，其特征在于，利用BERT模型编码，获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。

4.根据权利要求1所述的知识蒸馏方法，其特征在于，利用BiLSTM模型编码，获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。

5.针对预训练语言模型BERT的知识蒸馏装置，其特征在于，所述装置包括蒸馏训练模块和微调测试模块；其中，

所述蒸馏训练模块包括：

获取单元，用于获取无标签文本；

所述微调测试模块包括：

6.根据权利要求5所述的知识蒸馏装置，其特征在于，所述训练单元通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。

7.根据权利要求5所述的知识蒸馏装置，其特征在于，所述BERT句向量单元利用BERT模型编码，获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。

8.根据权利要求5所述的知识蒸馏装置，其特征在于，所述BiLSTM句向量单元利用BiLSTM模型编码，获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。

9.针对预训练语言模型BERT的知识蒸馏系统，其特征在于，包括：

存储器，用于存储计算机程序；以及

处理器，用于执行所述计算机程序时实现如权利要求1至4中一个或多个所述的方法。

10.一种芯片，其特征在于，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如权利要求1至4中一个或多个所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求9所述的系统执行，以实现如权利要求1至4中一个或多个所述的方法。