CN116304029B

CN116304029B - 一种使用知识异构的深度学习模型蒸馏方法和系统

Info

Publication number: CN116304029B
Application number: CN202310151311.7A
Authority: CN
Inventors: 董胜涛
Original assignee: Beijing Maxtech Co ltd
Current assignee: Beijing Maxtech Co ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-10-13
Anticipated expiration: 2043-02-22
Also published as: CN116304029A

Abstract

本发明公开了一种使用知识异构的深度学习模型蒸馏方法和系统，通过获取目标文本数据；将目标文本数据输入训练好的学生模型进行预测；训练好的学生模型输出预测结果；其中，训练好的学生模型经过以下步骤训练得到：构建初始的教师网络模型，获得训练好的教师模型；获取初始学生模型，并根据获得训练好的教师模型进行蒸馏，获得训练好的学生模型。本方法则在训练时，让Bi‑LSTM保留自己的知识，也就是使用分词的方式，但是在上线后，则改用Bert的方式，也就是单字的方式，两者异构，既保证Bi‑LSTM不从零学起，又保证了在使用时，使用学习到的知识，在实践中取得了很好的效果。利用这种方法，使用Bert对Bi‑LSTM进行蒸馏，准确率获得了明显的提高，从70％提高到了91％。

Description

一种使用知识异构的深度学习模型蒸馏方法和系统

技术领域

本申请涉及深度学习技术领域，特别是涉及一种使用知识异构的深度学习模型蒸馏方法和系统。

背景技术

在进行自然文本分类模型的训练时，可采用蒸馏的方式，即利用一个大模型去指导小模型进行训练学习，大模型通常称为教师模型，小模型通常称为学生模型，这样，得到的学生模型既具有较快的速度，又能够学习到教师模型的能力而具有较高的准确率。

一般情况下，我们不会去区分训练和部署使用的模型，但是训练和部署之间存在着一定的不一致性:在训练过程中，我们需要使用复杂的模型，大量的计算资源，以便从非常大、高度冗余的数据集中提取出信息。在实验中，效果最好的模型往往规模很大，甚至由多个模型集成得到。而大模型不方便部署到服务中去，常见的瓶颈如下:推断速度慢以及对部署资源要求高(内存，显存等)。因此，模型压缩，在保证性能的前提下减少模型的参数量成为了一个重要的问题。

“模型蒸馏”属于模型压缩的一种方法。知识蒸馏就是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方法。如图2所示，首先预训练出来一个复杂模型，然后再次使用训练数据训练，称为蒸馏，数据同时输入到大模型(教师)和小模型(学生)中，在输出时，将大模型的输出叠加到小模型上，组合成输出进行训练，最终训练完成的小模型则上线部署。

然而，目前在做模型蒸馏时，会遇到下面的一些问题：

首先这个“知识”目前没有解释的很好，对“知识”的确定和选取可能需要很多的先验知识，而且不同数据集场景可能表现的还不一致。分类任务中，有时候教师模型和学生模型差别比较大，不是同一种模型，导致蒸馏结果并不好。在自然文本处理(NLP)中，教师模型选择Bert,学生模型选择Bi-LSTM，按照标准的蒸馏方式，效果并不好。Bert模型的测试集准确率可以达到95％,但在同一个测试集上，Bi-LSTM的准确率确仅有70％左右，甚至没有自身不从Bert学习的准确率高。因此，现有的模型蒸馏方法中训练好的学生模型学习的准确率太低。

发明内容

基于此，针对上述技术问题，提供一种使用知识异构的深度学习模型蒸馏方法和系统，以解决现有的模型蒸馏方法中训练好的学生模型学习的准确率太低的问题。

第一方面，一种使用知识异构的深度学习模型蒸馏方法，所述方法包括：

获取目标文本数据；

将所述目标文本数据输入训练好的学生模型进行预测；具体为，将所述目标文本数据进行不分词并按字编码，得到第一编码数据；将所述第一编码数据输入训练好的学生模型；

所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型。

上述方案中，可选地，所述构建初始的教师网络模型，获得训练好的教师模型，具体为：获取训练文本数据，并设置教师模型各项参数；将所述训练文本数据不分词并按字编码，得到第二编码数据，将所述第二编码数据输入初始的教师网络模型进行训练，获得训练好的教师模型。

上述方案中，进一步可选地，所述获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型，具体为：

获取初始学生模型，并设置所述初始学生模型参数，初始化所述训练好的教师模型；获取获取训练文本数据，将所述训练文本数据进行不分词并按字编码，得到第二编码数据；

将所述第二编码数据输入初始的教师网络模型进行训练并输出第一输出数据；对所述训练文本数据进行分词按字编码，得到第三编码数据，并将所述第三编码数据输入所述初始学生模型，所述初始训练模型输出第二输出数据；

将所述第一输出数据注入倒第二输出数据中，生成第三输出数据，将第三输出数据作为学生模型输出进行训练，获得训练好的学生模型。

上述方案中，进一步可选地，所述目标文本数据为中文语料数据。

上述方案中，进一步可选地，所述学生模型为Bi-LSTM模型，所述教师模型为Bert模型。

第二方面，一种使用知识异构的深度学习模型蒸馏系统，所述系统包括：

获取模块：用于获取目标文本数据；

输入模块：用于将所述目标文本数据输入训练好的学生模型进行预测；具体为，将所述目标文本数据进行不分词并按字编码，得到第一编码数据；将所述第一编码数据输入训练好的学生模型；

输出模块：用于所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

将所述第一输出数据注入倒第二输出数据中，生成第三输出数据，将第三输出数据作为学生模型输出(替换了第二输出数据)进行训练，获得训练好的学生模型。

第三方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标文本数据；

所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

第四方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标文本数据；

所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

本发明至少具有以下有益效果：

本发明基于对现有技术问题的进一步分析和研究，认识到现有的模型蒸馏方法中存在训练好的学生模型学习的准确率太低的问题。本发明通过获取目标文本数据；将所述目标文本数据输入训练好的学生模型进行预测；具体为，将所述目标文本数据进行不分词并按字编码，得到第一编码数据；将所述第一编码数据输入训练好的学生模型；所述训练好的学生模型输出预测结果；其中，所述训练好的学生模型经过以下步骤训练得到：构建初始的教师网络模型，获得训练好的教师模型；获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型。本方法则在训练时，让Bi-LSTM保留自己的知识，也就是使用分词的方式，但是在上线后，则改用Bert的方式，也就是单字的方式，两者异构，既保证Bi-LSTM不从零学起，又保证了在使用时，使用学习到的知识，在实践中取得了很好的效果。利用本发明提供的方法使用Bert和Bi-LSTM进行蒸馏，准确率获得了明显的提高，达到了91％。

附图说明

图1为本发明一个实施例提供的使用知识异构的深度学习模型蒸馏方法的流程示意图；

图2为本发明一个实施例提供的现有的深度学习模型蒸馏方法的流程示意图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的使用知识异构的深度学习模型蒸馏方法，包括以下步骤：

获取目标文本数据；其中，所述目标文本数据为待预测自然文本。

所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

在一个实施例中，所述构建初始的教师网络模型，获得训练好的教师模型，具体为：获取训练文本数据，并设置教师模型各项参数；将所述训练文本数据不分词并按字编码，得到第二编码数据，将所述第二编码数据输入初始的教师网络模型进行训练，获得训练好的教师模型。

在一个实施例中，所述获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型，具体为：

将所述第一输出数据注入倒第二输出数据中，生成第三输出数据，将第三输出数据输入作为初始学生模型输出进行训练，获得训练好的学生模型。

在一个实施例中，所述目标文本数据为中文语料数据。

在一个实施例中，所述学生模型为Bi-LSTM模型，所述教师模型为Bert模型。

本实施例提供一种有效的方法，针对Teacher模型是Bert,而Student模型是Bi-LSTM,语料是中文的情况下，能够让Student模型学习到Teacher模型的“知识”，达到在测试集的测试准确性以及上线部署后的泛化表现上，都超过不进行学习的原有模型的能力。采用了训练和使用“知识”异构的模式，具体来说，就是在训练时，对于Student模型，对于输入的文本数据进行中文分词；但是在使用时，对于输入的文本数据不进行分词，直接使用单字的方式。

本实施例通过获取目标文本数据；将所述目标文本数据输入训练好的学生模型进行预测；具体为，将所述目标文本数据进行不分词并按字编码，得到第一编码数据；将所述第一编码数据输入训练好的学生模型；所述训练好的学生模型输出预测结果；其中，所述训练好的学生模型经过以下步骤训练得到：构建初始的教师网络模型，获得训练好的教师模型；获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型。本方法则在训练时，让Bi-LSTM保留自己的知识，也就是使用分词的方式，但是在上线后，则改用Bert的方式，也就是单字的方式，两者异构，既保证Bi-LSTM不从零学起，又保证了在使用时，使用学习到的知识，在实践中取得了很好的效果。利用本发明提供的方法使用Bert和Bi-LSTM进行蒸馏，准确率获得了明显的提高，达到了91％。

本实施例准确的定义了两个模型“知识”的形式，对于Bert而言，它的知识的载体是基于单字，而不是分词；对于Bi-LSTM,在未蒸馏前，它的知识的载体是基于分词。因为两个模型是异构的，所以一般在蒸馏训练时，会自然的让两个模型尽量一致，所以会选择都使用Bert的单字形式，但这个选择使得Bi-LSTM原有知识归零，从头学起，训练效果并不好。在使用时，因为Bi-LSTM自身是基于分词的，所以默认会使用分词，这样实际上丢弃了从Bert学习来的知识，实际使用效果并不好。本方法则在训练时，让Bi-LSTM保留自己的知识，也就是使用分词的方式，但是在上线后，则改用Bert的方式，也就是单字的方式，两者异构，既保证Bi-LSTM不从零学起，又保证了在使用时，使用学习到的知识，在实践中取得了很好的效果。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种使用知识异构的深度学习模型蒸馏系统，包括以下程序模块：获取模块：用于获取目标文本数据；

输出模块：用于所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

将所述第一输出数据注入倒第二输出数据中，生成第三输出数据，将第三输出数据输入初始学生模型进行训练，获得训练好的学生模型。

关于使用知识异构的深度学习模型蒸馏系统的具体限定可以参见上文中对于使用知识异构的深度学习模型蒸馏方法的限定，在此不再赘述。上述使用知识异构的深度学习模型蒸馏系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入系统。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种使用知识异构的深度学习模型蒸馏方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入系统可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random AccessMemory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(StaticRandomAccessMemory，SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种使用知识异构的深度学习模型蒸馏方法，其特征在于，所述方法包括：

获取目标文本数据；

所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型；

所述构建初始的教师网络模型，获得训练好的教师模型，具体为：获取训练文本数据，并设置教师模型各项参数；将所述训练文本数据不分词并按字编码，得到第二编码数据，将所述第二编码数据输入初始的教师网络模型进行训练，获得训练好的教师模型；

所述获取初始学生模型，并根据所述获得训练好的教师模型进行蒸馏，获得训练好的学生模型，具体为：

获取初始学生模型，并设置所述初始学生模型参数，初始化所述训练好的教师模型；获取训练文本数据，将所述训练文本数据进行不分词并按字编码，得到第二编码数据；

将所述第二编码数据输入初始的教师网络模型进行训练并输出第一输出数据；对所述训练文本数据进行分词按字编码，得到第三编码数据，并将所述第三编码数据输入所述初始学生模型，所述初始学生模型输出第二输出数据；

将所述第一输出数据注入到第二输出数据中，生成第三输出数据，将第三输出数据作为学生模型的输出进行训练，获得训练好的学生模型。

2.根据权利要求1所述的方法，其特征在于，所述目标文本数据为中文语料数据。

3.根据权利要求1所述的方法，其特征在于，所述学生模型为Bi-LSTM模型，所述教师模型为Bert模型。

4.一种使用知识异构的深度学习模型蒸馏系统，其特征在于，所述系统包括：

获取模块：用于获取目标文本数据；

输出模块：用于所述训练好的学生模型输出预测结果；

其中，所述训练好的学生模型经过以下步骤训练得到：

构建初始的教师网络模型，获得训练好的教师模型；

将所述第一输出数据注入倒第二输出数据中，生成第三输出数据，将第三输出数据作为学生模型的输出进行训练，获得训练好的学生模型。

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。