CN111709476A

CN111709476A - 一种基于知识蒸馏的小分类模型训练方法及装置

Info

Publication number: CN111709476A
Application number: CN202010551314.6A
Authority: CN
Inventors: 郝虹; 乔廷慧; 高岩; 高明
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-09-25

Abstract

本发明公开了一种基于知识蒸馏的小分类模型训练方法及装置，属于模型训练领域，本发明要解决的技术问题为如何提升小分类模型训练速度及模型性能，同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况，采用的技术方案为：该方法具体如下：S1、使用具体应用场景采集的少类别数据集作为训练集；S2、将训练集输入教师网络，得到教师网络的输出类别，选取教师网络的输出类别中学生网络涉及到的类别结果；S3、将同样的训练集输入学生网络，得到学生网络的输出类别结果；S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数，达到训练学生网络的目的。

Description

一种基于知识蒸馏的小分类模型训练方法及装置

技术领域

本发明涉及模型训练领域，具体地说是一种基于知识蒸馏的小分类模型训练方法及装置。

背景技术

通常地，对于不同应用场景有定制化模型需求的时候，技术人员选择的模型训练方式大致有两种：一、使用通用数据集训练好的通用模型修改最后输出层的类别数量，然后使用自己的数据集对模型参数进行重新调整；二、自己设计结构简单的模型，使用自己的数据集从头训练模型参数。其中，前一种方法使用已训练好的模型参数继续训练，能够加快训练收敛，也能保证模型精度，但是模型较大参数众多，对于小分类任务来说“大材小用”，而且不利于部署在计算力有限的终端设备上。第二种方法可以定制结构简单参数较少的的小模型，但是模型参数需要从头训练，势必会减慢收敛速度，也不能保证模型的精度，而且训练数据集较小的情况下，还容易造成模型过拟合。

传统的知识蒸馏方法用于使用复杂网络(教师网络)训练精简网络(学生网络)，但是学生网络和教师网络拥有相同的输出类别数，即需要先训练一个结构复杂、精度较高的教师网络，以此来蒸馏出结构简洁性能拟合教师网络的学生网络，教师网络的训练依旧很耗时，因此这种蒸馏方式不适用于应用场景多变的情况。

故如何提升小分类模型训练速度及模型性能，同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种基于知识蒸馏的小分类模型训练方法及装置，来解决如何提升小分类模型训练速度及模型性能，同时确保类别丰富的同时避免重复训练不同教师网络来知识蒸馏不同学生网络的情况的问题。

本发明的技术任务是按以下方式实现的，一种基于知识蒸馏的小分类模型训练方法，该方法具体如下：

S1、使用具体应用场景采集的少类别数据集作为训练集；

S2、将训练集输入教师网络，得到教师网络的输出类别，选取教师网络的输出类别中学生网络涉及到的类别结果；其中，教师网络是指可分类大量类别的预训练好的复杂模型；学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型；

S3、将同样的训练集输入学生网络，得到学生网络的输出类别结果；

S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数，达到训练学生网络的目的。

作为优选，所述步骤S4中调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。

更优地，所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。

更优地，所述分类损失是指学生网络输出值与数据集真实标签值之间的差异。

作为优选，所述教师网络的输出类别包含学生网络的输出类别，即学生网络的类别集合是教师网络的类别集合的真子集。

一种基于知识蒸馏的小分类模型训练装置，该装置包括，

训练集建立模块，用于使用具体应用场景采集的少类别数据集作为训练集；

教师网络类别输出模块，用于将训练集输入教师网络，得到教师网络的输出类别，选取教师网络的输出类别中学生网络涉及到的类别结果；其中，教师网络是指可分类大量类别的预训练好的复杂模型；学生网络是指根据具体应用场景设计的待训练的类别数较少的小模型；

学生网络类别输出模块，用于将同样的训练集输入学生网络，得到学生网络的输出类别结果；其中，教师网络的输出类别包含学生网络的输出类别，即学生网络的类别集合是教师网络的类别集合的真子集；

网络参数调整模块，用于根据教师网络类别输出模块和学生网络类别输出模块中输出的类别结果调整学生网络的网络参数，达到训练学生网络的目的。

作为优选，所述调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。

更优地，所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异；

分类损失是指学生网络输出值与数据集真实标签值之间的差异。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上述的基于知识蒸馏的小分类模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如上述的基于知识蒸馏的小分类模型训练方法。

本发明的基于知识蒸馏的小分类模型训练方法及装置具有以下优点：

(一)本发明利用预训练好的类别数丰富、性能优良的教师网络作为参照，训练针对不同应用场景、类别数较少的学生网络，达到提升小分类模型训练速度及模型性能的目的，同时只要教师网络的类别足够丰富，也避免了重复训练不同教师网络来知识蒸馏不同学生网络的情况；

(二)本发明将训练集输入教师网络，只选取分类结果中学生网络涉及到的类别结果，与学生网络输出的类别结果一起用来调整学生网络的网络参数，达到训练学生网络的目的；

(三)本发明训练的学生网络模型在保证模型泛化能力的同时，具有结构简洁、节省计算力的优点；另外，只要所需的学生网络类别是教师网络类别的子集，就可以方便的进行训练。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于知识蒸馏的小分类模型训练方法的流程框图；

附图2为涉及的教师网络与学生网络的对比关系示意图；

附图3为基于知识蒸馏的小分类模型训练的结构框图。

具体实施方式

参照说明书附图和具体实施例对本发明的一种基于知识蒸馏的小分类模型训练方法及装置作以下详细地说明。

实施例：

如附图1所示，本发明的基于知识蒸馏的小分类模型训练方法,该方法具体如下：

S1、使用具体应用场景采集的少类别数据集作为训练集；

S4、根据步骤S2和步骤S3中输出的类别结果调整学生网络的网络参数，达到训练学生网络的目的。其中，调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。分类损失是指学生网络输出值与数据集真实标签值之间的差异。

本发明涉及教师网络与学生网络的关系与传统知识蒸馏中的两者关系有所不同，主要表现在网络输出层，教师网络的输出类别包含学生网络输出类别，即学生网络类别集合是教师网络类别集合的真子集，如附图2所示，教师网络输出层的填充圆圈部分表示的是与学生网络同样的类别标签输出结果。

举例：假设教师网络是使用公开数据集(如imagenet数据集)训练的包含1000个类别的分类网络，这些类别包括各种动物、生活用品、人、交通工具等等，现在有个具体应用场景是交通上识别行人和各种车辆(假设总共10个类别，都包含在教师网络的1000个类别中)，故设计一个层数较少、结构较简洁(相对于教师网络而言)的分类网络(待训练的学生网络)，本发明中提到的输出类别结果是softmax层输出的各个类别概率，教师网络是输出1000个类别的概率，学生网络输出10个类别概率。

实施例2：

如附图3所述，基于知识蒸馏的小分类模型训练装置，该装置包括，训练集建立模块，用于使用具体应用场景采集的少类别数据集作为训练集；

网络参数调整模块，用于根据教师网络类别输出模块和学生网络类别输出模块中输出的类别结果调整学生网络的网络参数，达到训练学生网络的目的。其中，调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异；分类损失是指学生网络输出值与数据集真实标签值之间的差异。

实施例3：

本发明实施例还提供了一种电子设备，包括：存储器和一个处理器；

其中，所述存储器存储计算机执行指令；

所述一个处理器执行所述存储器存储的计算机执行指令，使得所述一个处理器执行如实施例1中的基于知识蒸馏的小分类模型训练方法。

实施例4：

本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于知识蒸馏的小分类模型训练方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R一种基于知识蒸馏的小分类模型训练方法及装置M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于知识蒸馏的小分类模型训练方法，其特征在于，该方法具体如下：

S1、使用具体应用场景采集的少类别数据集作为训练集；

2.根据权利要求1所述的基于知识蒸馏的小分类模型训练方法，其特征在于，所述步骤S4中调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。

3.根据权利要求2所述的基于知识蒸馏的小分类模型训练方法，其特征在于，所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异。

4.根据权利要求2或3所述的基于知识蒸馏的小分类模型训练方法，其特征在于，所述分类损失是指学生网络输出值与数据集真实标签值之间的差异。

5.根据权利要求1所述的基于知识蒸馏的小分类模型训练方法，其特征在于，所述教师网络的输出类别包含学生网络的输出类别，即学生网络的类别集合是教师网络的类别集合的真子集。

6.一种基于知识蒸馏的小分类模型训练装置，其特征在于，该装置包括，训练集建立模块，用于使用具体应用场景采集的少类别数据集作为训练集；

7.根据权利要求6所述的基于知识蒸馏的小分类模型训练装置，其特征在于，所述调整学生网络的网络参数是指学生网络根据输出损失值将误差反向传播，调整学生网络的权重；具体是将学生网络原目标损失函数修改为蒸馏损失和分类损失的加权和。

8.根据权利要求7所述的基于知识蒸馏的小分类模型训练装置，其特征在于，所述蒸馏损失是指学生网络类别概率分布与教师网络对应类别概率分布的差异；

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至5任一项所述的基于知识蒸馏的小分类模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行时，实现如权利要求1至5中所述的基于知识蒸馏的小分类模型训练方法。