CN115984640A

CN115984640A - 一种基于组合蒸馏技术的目标检测方法、系统和存储介质

Info

Publication number: CN115984640A
Application number: CN202211504333.9A
Authority: CN
Inventors: 常雨喆
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-18
Anticipated expiration: 2042-11-28
Also published as: CN115984640B

Abstract

本发明公开了一种基于组合蒸馏技术的目标检测方法、系统和存储介质，包括：通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的教师模型对学生模型进行知识蒸馏，得到学生模型的目标损失函数；将每个训练样本输入至训练好的教师模型中，得到每个训练样本对应的中间特征图、目标定位框和目标分类概率值；基于每个训练样本、每个训练样本对应的中间特征图、目标定位框和目标分类概率值，以及目标损失函数，对学生模型进行迭代训练，直至得到训练好的学生模型；将待测图像输入训练好的学生模型，得到待测图像的目标检测结果。本发明在保证目标检测准确率的同时，降低了模型的参数量，实现了模型的压缩。

Description

一种基于组合蒸馏技术的目标检测方法、系统和存储介质

背景技术

知识蒸馏是一种通用的模型压缩算法，其基本思路是把最终用于实时检测的模型称为学生模型，然后找到一个比使用模型更大的训练完毕模型，称为教师模型，教师模型的准召率都明显高于学生模型。在学生模型训练时，除了利用标注好的数据进行有监督训练以外，还通过算法设计，将教师模型学到的“知识”传递给学生模型，最终得到一个参数量远小于教师模型，准召率都接近教师模型的学生模型。对于传递的知识一般有两种方法：学生模型的中间网络输出的特征图对教师模型中间网络输出的特征图的模仿，叫做featureimitation；学生模型的最终输出对教师模型最终输出的模仿，叫做logit mimicking。常用的知识蒸馏是采用其中一种方式，尽管能够通过对学生模型的输出添加新的约束条件达到效果的提升，但提升的效果有限。

因此，亟需提供一种技术方案解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供了一种基于组合蒸馏技术的目标检测方法、系统和存储介质。

本发明的一种基于组合蒸馏技术的目标检测方法的技术方案如下：

通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的目标检测教师模型对待训练的目标检测学生模型进行知识蒸馏，得到所述待训练的目标检测学生模型的目标损失函数；

将每个训练样本分别输入至所述训练好的目标检测教师模型中，得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值；

基于每个训练样本、每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型；

将待测图像输入所述训练好的目标检测学生模型，得到所述待测图像的目标检测结果。

本发明的一种基于组合蒸馏技术的目标检测方法的有益效果如下：

本发明的方法通过采用组合蒸馏的方式并利用训练好的教师模型生成学生模型，在保证目标检测准确率的同时，降低了模型的参数量，实现了对复杂结构模型的压缩。

在上述方案的基础上，本发明的一种基于组合蒸馏技术的目标检测方法还可以做如下改进。

进一步，还包括：

基于所述多个训练样本，对待训练的目标检测教师模型进行训练，得到所述训练好的目标检测教师模型。

进一步，所述目标损失函数为：

其中，L为所述目标损失函数，L_original为所述待训练的目标检测学生模型的原始损失函数，L_fea为所述改进的特征图蒸馏所对应的特征图蒸馏损失函数，L_LD为所述改进的定位蒸馏所对应的定位蒸馏损失函数，

为所述改进的分类蒸馏所对应的分类蒸馏损失函数；

其中，

为训练样本的标注框，i和j为特征图上的像素点，

H_r为所述标注框的高度，W_r为所述标注框的宽度，N_bg为所有背景像素点的个数，F^T为所述训练好的目标检测教师模型输出的第一中间特征图，F^S为所述待训练的目标检测学生模型输出的第二中间特征图，C为第一中间特征图和第二中间特征图的通道数，H为第一中间特征图和第二中间特征图的高度，W为第一中间特征图和第二中间特征图的宽度，f为辅助网络，用于将所述待训练的目标检测学生模型的第二中间特征图的通道数放缩至与和所述训练好的目标检测教师模型的第一中间特征图相同，α和β为用于平衡中间特征图的前景和背景之间损失的超参项；

其中，

TCKD为训练样本对应的第一目标分类概率值中的标注类别概率的蒸馏，NCKD为训练样本对应的第一目标分类概率值中的其他非标注类别概率的蒸馏，m和n为可调节的超参数；

其中，

e为目标定位文本框的任意一边，

为所述任意一边的定位蒸馏损失函数，Z_S为所述待训练的目标检测学生模型的所述任意一边的n个预测值，

为所述待训练的目标检测学生模型的所述任意一边的n个预测值经过softmax的值，Z_T为所述训练好的目标检测教师模型的所述任意一边的n个预测值，

为所述训练好的目标检测教师模型的所述任意一边的n个预测值经过softmax的值；B_S为所述待训练的目标检测学生模型输出的第二目标定位框，B_T为所述训练好的目标检测教师模型的输出的第一目标定位框。

进一步，所述基于每个训练样本、每个训练样本对应的中间特征图、目标定位框和目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型的步骤，包括：

将任一训练样本输入所述待训练的目标检测学生模型，得到所述任一训练样本的第二中间特征图、第二目标定位框和第二目标分类概率值；

基于所述目标损失函数、所述任一训练样本的第一中间特征图、第一目标定位框、第一目标分类概率值、第二中间特征图、第二目标定位框和第二目标分类概率值，得到所述任一训练样本的目标损失值，直至得到每个训练样本的目标损失值；

基于所有的目标损失值，对所述待训练的目标检测学生模型的参数进行优化，得到优化后的目标检测学生模型，将所述优化后的目标检测学生模型作为所述待训练的目标检测学生模型并返回执行将任一训练样本输入所述待训练的目标检测学生模型的步骤，直至满足预设迭代训练条件时，将所述优化后的目标检测学生模型确定为所述训练好的目标检测学生模型。

进一步，所述目标检测教师模型采用yolov5l模型，所述目标检测学生模型采用yolov5s模型。

本发明的一种基于组合蒸馏技术的目标检测系统的技术方案如下：

包括：构建模块、处理模块、训练模块和检测模块；

所述构建模块用于：通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的目标检测教师模型对待训练的目标检测学生模型进行知识蒸馏，得到所述待训练的目标检测学生模型的目标损失函数；

所述处理模块用于：将每个训练样本分别输入至所述训练好的目标检测教师模型中，得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值；

所述训练模块用于：基于每个训练样本、每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型；

所述检测模块用于：将待测图像输入所述训练好的目标检测学生模型，得到所述待测图像的目标检测结果。

本发明的一种基于组合蒸馏技术的目标检测系统的有益效果如下：

本发明的系统通过采用组合蒸馏的方式并利用训练好的教师模型生成学生模型，在保证目标检测准确率的同时，降低了模型的参数量，实现了对复杂结构模型的压缩。

在上述方案的基础上，本发明的一种基于组合蒸馏技术的目标检测系统还可以做如下改进。

进一步，还包括：预训练模块；

所述预训练模块用于：基于所述多个训练样本，对待训练的目标检测教师模型进行训练，得到所述训练好的目标检测教师模型。

进一步，所述目标损失函数为：

为所述改进的分类蒸馏所对应的分类蒸馏损失函数；

其中，

为训练样本的标注框，i和j为特征图上的像素点，

其中，

其中，

e为目标定位文本框的任意一边，

进一步，所述训练模块具体用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的一种基于组合蒸馏技术的目标检测方法的步骤。

附图说明

图1示出了本发明的一种基于组合蒸馏技术的目标检测方法的第一实施例的流程示意图；

图2示出了本发明的一种基于组合蒸馏技术的目标检测方法的第一实施例中步骤130的流程示意图；

图3示出了本发明的一种基于组合蒸馏技术的目标检测方法的第二实施例的流程示意图；

图4示出了本发明的一种基于组合蒸馏技术的目标检测系统的实施例的结构示意图。

具体实施方式

图1示出了本发明的一种基于组合蒸馏技术的目标检测方法的第一实施例的流程示意图。如图1所示，包括如下步骤：

步骤110：通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的目标检测教师模型对待训练的目标检测学生模型进行知识蒸馏，得到所述待训练的目标检测学生模型的目标损失函数。

其中，①特征图蒸馏的方式为：学生模型的中间网络所输出的特征图对教师模型中间网络所输出的特征图的模仿。②定位蒸馏的方式为：学生模型所输出的目标定位框对教师模型所输出的目标定位框的模仿。③分类蒸馏的方式为：学生模型所输出的目标分类概率值对教师模型所输出的目标分类概率值的模仿。④知识蒸馏的过程为：通过预设蒸馏方式，利用训练好的教师模型对学生模型进行蒸馏，得到蒸馏后的学生模型的蒸馏损失函数。⑤目标检测教师模型和目标检测学生模型的具体结构不设限制，仅需能够实现目标检测即可；通常教师模型的网络结构比学生模型的网络结构复杂。在本实施例中，目标检测教师模型采用yolov5l模型，目标检测学生模型采用yolov5s模型。⑥经过知识蒸馏所得到的学生模型的损失函数一般由原始损失函数和蒸馏损失函数构成。在本实施例中，目标损失函数为：

需要说明的是，L为所述目标损失函数，L_original为所述待训练的目标检测学生模型的原始损失函数，L_fea为所述改进的特征图蒸馏所对应的特征图蒸馏损失函数，L_LD为所述改进的定位蒸馏所对应的定位蒸馏损失函数，

为所述改进的分类蒸馏所对应的分类蒸馏损失函数。

其中，

为训练样本的标注框，i和j为特征图上的像素点，

其中，

其中，

e为目标定位文本框的任意一边，

步骤120：将每个训练样本分别输入至所述训练好的目标检测教师模型中，得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值。

其中，①训练样本为：包含待测物体种类的图像。例如：当目标检测的对象为猫时，训练样本则为包含猫的图像。②第一中间特征图为：训练样本经过训练好的目标检测教师模型所输出的中间特征图。③第一目标定位框为：训练样本经过训练好的目标检测教师模型所输出的目标定位框。④第一目标分类概率值为：训练样本经过训练好的目标检测教师模型所输出的目标分类概率值。

具体地，将任一训练样本输入至所述训练好的目标检测教师模型中，得到该训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，重复上述方式，直至得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值。

步骤130：基于每个训练样本、每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型。

具体地，如图2所示，步骤130包括：

步骤131：将任一训练样本输入所述待训练的目标检测学生模型，得到所述任一训练样本的第二中间特征图、第二目标定位框和第二目标分类概率值。

其中，①第二中间特征图为：训练样本经过待训练的目标检测学生模型所输出的中间特征图。②第二目标定位框为：训练样本经过待训练的目标检测学生模型所输出的目标定位框。③第二目标分类概率值为：训练样本经过待训练的目标检测学生模型所输出的目标分类概率值。

步骤132：基于所述目标损失函数、所述任一训练样本的第一中间特征图、第一目标定位框、第一目标分类概率值、第二中间特征图、第二目标定位框和第二目标分类概率值，得到所述任一训练样本的目标损失值，直至得到每个训练样本的目标损失值。

具体地，将任一训练样本的一中间特征图、第一目标定位框、第一目标分类概率值、第二中间特征图、第二目标定位框和第二目标分类概率值输入至目标损失函数，得到该训练样本的目标损失值，重复上述方式，直至得到每个训练样本的目标损失值。

需要说明的是：第一目标定位框为4个值所组成的定位框，而本实施例中的(目标检测学生模型)第二目标定位框是由4×n组成，每条边预测多个间隔相同的值，对于值的预测属于回归任务，由于回归任务对于边界模糊的目标，优化困难，因此本实施例中的目标检测学生模型改为对每条边预测多个间隔相同的值，将回归任务改成分类任务，n为一条边的值的个数，4条边就是4×n。

步骤133：基于所有的目标损失值，对所述待训练的目标检测学生模型的参数进行优化，得到优化后的目标检测学生模型，将所述优化后的目标检测学生模型作为所述待训练的目标检测学生模型并返回执行步骤131，直至满足预设迭代训练条件时，将所述优化后的目标检测学生模型确定为所述训练好的目标检测学生模型。

其中，预设迭代训练条件包括但不限于：最大迭代次数、损失函数收敛等。

步骤140：将待测图像输入所述训练好的目标检测学生模型，得到所述待测图像的目标检测结果。

其中，待测图像为：任意选取的图像。例如，当目标检测学生模型是用于检测图像中是否包含猫的模型，此时待测图像可以是包含猫的图像，也可以是包含狗的图像，在此不设限制。

本实施例的技术方案通过采用组合蒸馏的方式并利用训练好的教师模型生成学生模型，在保证目标检测准确率的同时，降低了模型的参数量，实现了对复杂结构模型的压缩。

图3示出了本发明的一种基于组合蒸馏技术的目标检测方法的第二实施例的流程示意图。如图3所示，包括如下步骤：

步骤210：基于所述多个训练样本，对待训练的目标检测教师模型进行训练，得到所述训练好的目标检测教师模型。

具体地，将任一训练样本输入至待训练的目标检测教师模型中，得到该训练样本对应的损失值，重复上述方式，直至得到每个训练样本的损失值，并根据所有的损失值对待训练的目标检测教师模型的参数进行优化，得到优化后的目标检测教师模型，并返回执行上述训练过程，直至满足预设迭代训练条件时，将优化后的目标检测教师模型确定为训练好的目标检测教师模型。

需要说明的是，训练目标检测教师模型的样本与训练目标检测学生模型的样本可以相同，也可以不同，在此不设限制。

步骤220：通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的目标检测教师模型对待训练的目标检测学生模型进行知识蒸馏，得到所述待训练的目标检测学生模型的目标损失函数。

步骤230：将每个训练样本分别输入至所述训练好的目标检测教师模型中，得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值。

步骤240：基于每个训练样本、每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型。

步骤250：将待测图像输入所述训练好的目标检测学生模型，得到所述待测图像的目标检测结果。

本实施例的技术方案进一步通过对教师模型进行训练，并基于组合蒸馏的方式和训练好的教师模型生成学生模型，在保证目标检测准确率的同时，降低了模型的参数量，实现了对复杂结构模型的压缩。

图4示出了本发明的一种基于组合蒸馏技术的目标检测系统的实施例的结构示意图。如图4所示，该系统300包括：构建模块310、处理模块320、训练模块330和检测模块340；

所述构建模块310用于：通过包含改进的特征图蒸馏、改进的定位蒸馏和改进的分类蒸馏在内的组合蒸馏方式，利用训练好的目标检测教师模型对待训练的目标检测学生模型进行知识蒸馏，得到所述待训练的目标检测学生模型的目标损失函数；

所述处理模块320用于：将每个训练样本分别输入至所述训练好的目标检测教师模型中，得到每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值；

所述训练模块330用于：基于每个训练样本、每个训练样本对应的第一中间特征图、第一目标定位框和第一目标分类概率值，以及所述目标损失函数，对所述待训练的目标检测学生模型进行迭代训练，直至得到训练好的目标检测学生模型；

所述检测模块340用于：将待测图像输入所述训练好的目标检测学生模型，得到所述待测图像的目标检测结果。

较优地，还包括：预训练模块；

较优地，所述目标损失函数为：

其中，L为所述目标损失函数，L_oroginal为所述待训练的目标检测学生模型的原始损失函数，L_fea为所述改进的特征图蒸馏所对应的特征图蒸馏损失函数，L_LD为所述改进的定位蒸馏所对应的定位蒸馏损失函数，

为所述改进的分类蒸馏所对应的分类蒸馏损失函数；

其中，

为训练样本的标注框，i和j为特征图上的像素点，

其中，

其中，

e为目标定位文本框的任意一边，

较优地，所述训练模块330具体用于：

上述关于本实施例的一种基于组合蒸馏技术的目标检测系统300中的各参数和各个模块实现相应功能的步骤，可参考上文中关于一种基于组合蒸馏技术的目标检测方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如一种基于组合蒸馏技术的目标检测方法的步骤，具体可参考上文中一种基于组合蒸馏技术的目标检测方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

所属技术领域的技术人员知道，本发明可以实现为方法、系统和存储介质。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。