CN116486285A

CN116486285A - 一种基于类别掩码蒸馏的航拍图像目标检测方法

Info

Publication number: CN116486285A
Application number: CN202310249360.4A
Authority: CN
Inventors: 李玉莲; 李亚萌; 王军
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-07-25
Anticipated expiration: 2043-03-15
Also published as: CN116486285B

Abstract

本发明公开了一种基于类别掩码蒸馏的航拍图像目标检测方法，包括预训练教师网络、学生网络和类别掩码蒸馏模块，类别掩码蒸馏模块负责提取预训练教师网络和学生网络各自的多尺度特征层及对应Softmax激活函数层的预测分数，利用多尺度特征层和预测分数分别产生预训练教师网络和学生网络各个类别的激活映射区域，设置阈值抑制对各个类别有负影响的区域，通过类别掩码蒸馏损失实现教师—学生网络对所有类别的有效区域的迁移，为加大对不易检测类别的学习，设置一个动态权重来加大对难样本学习的惩罚。本发明能够实现对指定类别有效区域的蒸馏，提高对难样本的学习，在教师网络的指导下提升学生网络的检测性能和泛化能力。

Description

一种基于类别掩码蒸馏的航拍图像目标检测方法

技术领域

本发明涉及无人机巡检应用技术，具体而言，涉及一种基于类别掩码蒸馏的航拍图像目标检测方法。

背景技术

大多数检测模型是以牺牲模型计算量和检测速度为代价来提高检测精度，计算复杂度高，内存占用大，需要高性能处理器才能运行，这些大模型在无人机巡检等小型平台的实际工程中是难以部署应用的。

为解决上述问题，知识蒸馏、网络剪枝、量化等一些模型轻量化的算法不断涌现，在实际应用中取得了一定的效果。目前，在目标检测领域，已开始逐渐使用知识蒸馏的方法将大模型学习到的特征提取规则迁移到小模型中，提升轻量化目标检测网络的性能和精度。最早的知识蒸馏算法主要针对于图像分类问题，但目标检测是一个比图像分类更复杂的任务，导致很多蒸馏方法在目标检测模型上无法成功应用。目标检测的网络结构相对复杂，尤其是对于双阶段的目标检测网络而言，同时目标检测模型所依赖的特征也比较复杂。如何设计更有效地蒸馏机制来促使学生网络高效地习得教师网络的知识成为了亟待研究的一个重要问题。

发明内容

本发明提出了一种基于类别掩码蒸馏的航拍图像目标检测方法，能够使学生网络能更好地模拟教师网络对重点信息的关注和学习能力，提高模型检测的性能，减少模型运算量。

实现本发明的技术解决方案为：一种基于类别掩码蒸馏的航拍图像目标检测方法，步骤如下：

步骤S1、利用小型无人机平台采集M幅航拍图像，1000<M<10000，对上述M幅航拍图像逐张统一尺寸，将统一尺寸后的航拍图像按照7:3的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师—学生网络训练数据集，转入步骤S2。

步骤S2、将教师—学生网络训练数据集输入教师网络，利用教师—学生网络训练数据集对教师网络进行预训练，得到预训练教师网络，转入步骤S3。

步骤S3、利用预训练教师网络、学生网络和类别掩码蒸馏模块构建教师—学生网络，转入步骤S4。

步骤S4、利用教师—学生网络训练数据集对教师—学生网络进行训练，提取预训练教师网络和学生网络各自的多尺度特征层、及各多尺度特征层对应Softmax激活函数层的输出预测分数，并将上述多尺度特征层及预测分数一并送入类别掩码蒸馏模块，基于类别掩码蒸馏模块产生的类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络，转入步骤S5。

步骤S5、将测试数据集输入教师—学习网络中训练好的学生网络，输出测试数据集中所有目标在图像中的位置和所属类别，测试训练好的学生网络的准确率。

本方案与现有技术方案相比，本发明的显著优点在于：

(1)相比现有的航拍图像目标检测方法，本发明提出了一种基于类别掩码蒸馏方法的航拍图像目标检测算法，该方法可以显著减少模型的参数量和计算量，减少内存，相比于原始的学生检测网络，能够在不增加参数量的情况下提高学生模型的检测精度，同时提高了学生模型的鲁棒性和泛化能力。

(2)本发明提出了使用类别掩码蒸馏模块来迫使学生网络模仿教师网络的有效蒸馏区域，针对类别k，学生网络能更好地关注对类别k有正影响的特征，抑制背景特征，并依次对所有类别的重点区域进行蒸馏。此方法按照类别进行不同区域的蒸馏，提高模型对不同类别的重点信息的关注能力，增强了学生模型的检测能力。

(3)在类别激活蒸馏模块中，本发明设置了一个动态权重来缩放不同类别的损失，促使网络关注难类别的学习，降低对简单类别的学习能力，提高学生网络的检测性能。

附图说明

图1为本发明基于类别掩码蒸馏的航拍图像目标检测方法的流程示意图。

图2为基于类别掩码蒸馏的航拍图像目标检测方法的教师—学生网络模型图。

图3为本发明提供的类别掩码蒸馏模块中的单个掩码模块图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施方式作进一步地详细描述。

结合图1～图3，本发明所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，包括以下步骤：

步骤S1、利用小型无人机平台采集M幅航拍图像，1000<M<10000，对上述M幅航拍图像逐张统一尺寸，将统一尺寸后的航拍图像按照7:3的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师—学生网络训练数据集。

所述的数据增强操作包括随机翻转和图像缩放，转入步骤S2。

步骤S3、利用预训练教师网络、学生网络和类别掩码蒸馏模块构建教师—学生网络。

所述预训练教师网络和学生网络的特征提取网络包括但不局限于经典网络结构中的ResNet、VGGNet、Mobilenet等，预训练教师网络的网络规模数据均大于学生网络，转入步骤S4。

步骤S4、利用教师—学生网络训练数据集对教师—学生网络进行训练，提取预训练教师网络和学生网络各自的多尺度特征层、及各多尺度特征层对应Softmax激活函数层的输出预测分数，并将上述多尺度特征层及预测分数一并送入类别掩码蒸馏模块，基于类别掩码蒸馏模块产生的类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络，具体如下：

步骤S4.1、将预训练教师网络和学生网络各自提取的多尺度特征层及其对应Softmax激活函数层的输出预测分数一起送入类别掩码蒸馏模块，所述类别掩码蒸馏模块包括四个相同结构的并行掩码模块。

所述的单个掩码模块的输入为预训练教师网络和学生网络各自的单尺度特征层及其对应Softmax激活函数层的输出预测分数。

步骤S4.2、单个掩码模块负责获取预训练教师网络和学生网络各自的各类别激活特征图，对各类别激活特征图进行处理得到预训练教师网络和学生网络各自的各类别掩码图。

其中，预训练教师网络和学生网络的单类别激活特征图的获取方法如下：

假设获取类别为k，提取预训练教师网络的单尺度特征层T_t，大小为W×H×C，W、H、C分别表示T_t的宽度、高度和维度，预训练教师网络单尺度特征层T_t输出的类别k的预测分数为s^k，s^k反向传播获取梯度信息，特征层T_t的第n通道针对类别k的梯度值为：

沿宽度W和高度H方向对反向传播的梯度执行全局平均池化，获得特征层T_t第n通道针对类别k的神经元重要性权重/>计算公式为：

其中，表示特征层T_t第n通道的类别k在空间位置(i,j)处的梯度值，将特征层T_t各通道特征/>乘以重要性权重/>加权线性组合得到类别k激活特征图/>公式为：

同理，学生网络的单尺度特征层S_t及其对应的输出预测分数产生类别k激活特征图为M'^k _St，公式为：

其中，表示特征层S_t第n通道类别k的重要性权重，/>表示特征层S_t的第n通道。

预训练教师网络单尺度特征层T_t产生的类别k激活特征图为学生网络单尺度特征层S_t产生的类别k激活特征图为/>设置阈值s_k抑制对类别k有负影响的特征，预训练教师网络激活特征图/>在空间(p,q)处针对类别k的有效特征掩码为：

学生网络激活特征图在空间(p,q)处针对类别k的有效特征掩码为：

即为预训练教师网络单尺度特征层T_t获取的类别k掩码图，/>为学生网络单尺度特征层S_t获取的类别k掩码图，阈值s_k的设定在实验中进行验证。按照同样的方法获取所有类别的类别掩码图。

针对类别k，学生网络能更好地关注对类别k有正影响的特征，抑制背景特征，并依次对所有类别的重点区域进行蒸馏。此方法按照类别进行不同区域的蒸馏，提高模型对不同类别的重点信息的关注能力，增强了学生模型的检测能力。

步骤S4.3、基于L2损失函数计算单个掩码模块中单个类别的掩码蒸馏损失，对得到的单个类别损失执行相加操作，获取单个模块的掩码蒸馏损失：

为预训练教师网络单尺度特征层T_t获取的类别k的掩码图，/>为学生网络单尺度特征层S_t获取的类别k的掩码图，类别k的蒸馏损失为：

其中，L₂损失函数是对X、Y两个向量求空间欧氏距离的函数，计算公式为：x_i、y_i分别表示向量X、Y的每一项，共n项；获取预训练教师网络和学生网络各自所有类别的掩码图，添加一个动态权重来对不同类别的学习能力进行约束，加大对难类别的惩罚，针对所有类别的蒸馏损失为：

其中，β_k表示控制类别k损失计算比例的参数，K表示目标的类别总数。

其中所述的添加一个动态权重来对不同类别的学习能力进行约束，加大对难类别的惩罚，促使网络关注难类别的学习，降低对简单类别的学习能力，提高学生网络的检测性能，其动态权重的设置方法如下：

Num_k表示类别k在教师—学生网络训练数据集中的总数量，area_k表示教师—学生网络训练数据集所有类别为k的目标的平均面积。

步骤S4.4、对四个并行处理的掩码模块获取的掩码蒸馏损失进行相加操作，得到类别掩码蒸馏损失：

t表示掩码模块的序号。

步骤S4.5、基于类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络：

基于类别掩码蒸馏损失对学生网络的网络参数进行更新，学生网络的损失函数包括三部分：原始分类损失L_cls、原始回归损失L_reg和类别掩码蒸馏损在失L_mask，构建的学生网络的总损失函数如下：

L＝L_cls+L_reg+λL_mask

λ为类别掩码蒸馏损失在学生网络总损失中所占的比重，基于构建的总损失函数完成对学生网络的迭代训练，最终获得训练好的学生网络，转入步骤S5。

通过上述步骤后，可以显著减少模型的参数量和计算量，减少内存，相比于原始的学生检测网络，能够在不增加参数量的情况下提高学生模型的检测精度，同时提高了学生模型的鲁棒性和泛化能力。

实施例1

本发明所述的基于类别掩码蒸馏的航拍图像目标检测方法，步骤如下：

步骤S1、利用小型无人机平台采集M幅航拍图像，1000<M<10000，对上述M幅航拍图像逐张统一尺寸，将统一尺寸后的航拍图像按照7:3的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师—学生网络训练数据集，数据增强操作包括图像缩放和随机翻转，图像缩放比例按照原始图像的10％向内缩放和向外缩放，随机翻转的角度在-20°到20°，航拍图像的目标类别数量为5类。

步骤S2、将教师—学生网络训练数据集输入教师网络，利用教师—学生网络训练数据集对教师网络进行预训练，得到预训练教师网络。

步骤S3、利用预训练教师网络、学生网络和类别掩码蒸馏模块构建教师—学生网络，预训练教师网络的特征提取部分采用深层的ResNet101网络，学生网络的特征提取部分采用浅层的ResNet18网络。

步骤S4、利用教师—学生网络训练数据集对教师—学生网络进行训练，提取预训练教师网络和学生网络各自的多尺度特征层及其对应Softmax激活函数层的输出预测分数并将其一并送入类别掩码蒸馏模块，提取的多尺度特征层为4层，所述的类别掩码蒸馏模块包括四个结构相同的掩码模块。对于每个掩码模块，首先获取预训练教师网络的5个类别的激活特征图，经过阈值处理后得到5个类别的类别掩码图，其次按照同样的方式获取学生网络5个类别的类别掩码图，阈值的设置在实验中进行验证，取值范围一般为0-0.2；利用获取的预训练教师网络的5个类别掩码图和学生网络获取的5个类别掩码图以对应类别的方式通过L2损失函数计算出单个类别的掩码蒸馏损失；对5个类别的掩码蒸馏损失乘以不同的比例后执行相加操作，获取单个模块的掩码蒸馏损失。将四个模块的掩码蒸馏损失进行相加得到类别掩码蒸馏损失，基于类别掩码蒸馏损失去更新学生网络的网络参数，最终获得训练好的学生网络。

Claims

1.一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，包括以下步骤：

步骤S1、利用小型无人机平台采集M幅航拍图像，1000<M<10000，对上述M幅航拍图像逐张统一尺寸，将统一尺寸后的航拍图像按照7:3的比例随机划分为训练数据集和测试数据集，对训练数据集进行数据增强构成教师—学生网络训练数据集，转入步骤S2；

步骤S2、将教师—学生网络训练数据集输入教师网络，利用教师—学生网络训练数据集对教师网络进行预训练，得到预训练教师网络，转入步骤S3；

步骤S3、利用预训练教师网络、学生网络和类别掩码蒸馏模块构建教师—学生网络，转入步骤S4；

步骤S4、利用教师—学生网络训练数据集对教师—学生网络进行训练，提取预训练教师网络和学生网络各自的多尺度特征层、及各多尺度特征层对应Softmax激活函数层的输出预测分数，并将上述多尺度特征层及预测分数一并送入类别掩码蒸馏模块，基于类别掩码蒸馏模块产生的类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络，转入步骤S5；

2.根据权利要求1所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4中，利用教师—学生网络训练数据集对教师—学生网络进行训练，提取预训练教师网络和学生网络各自的多尺度特征层、及各多尺度特征层对应Softmax激活函数层的输出预测分数，并将上述多尺度特征层及预测分数一并送入类别掩码蒸馏模块，基于类别掩码蒸馏模块产生的类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络，具体如下：

步骤S4.1、将预训练教师网络和学生网络各自提取的多尺度特征层及其对应Softmax激活函数层的输出预测分数一起送入类别掩码蒸馏模块，所述类别掩码蒸馏模块包括四个相同结构的并行掩码模块；

步骤S4.2、掩码模块负责获取预训练教师网络和学生网络各自的各类别激活特征图，对获取的各类别激活特征图进行处理得到预训练教师网络和学生网络分别对应的各类别掩码图；

步骤S4.3、基于L2损失函数计算单个掩码模块中单个类别的掩码蒸馏损失，对得到的单个类别损失执行相加操作，获取单个模块的掩码蒸馏损失；

步骤S4.4、对四个并行处理的掩码模块获取的掩码蒸馏损失进行相加操作，得到类别掩码蒸馏损失；

步骤S4.5、基于类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络。

3.根据权利要求2所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4.2中，单个掩码模块负责获取预训练教师网络和学生网络各自的各类别激活特征图，对获取的各类别激活特征图进行处理得到预训练教师网络和学生网络的各类别掩码图，单类别激活特征图的获取方法如下：

假设获取类别为k，提取预训练教师网络的单尺度特征层T_t，大小为W×H×C，W、H、C分别表示T_t的宽度、高度和维度，预训练教师网络中的单尺度特征层T_t输出的类别k的预测分数为s^k，s^k反向传播获取梯度信息，特征层T_t的第n通道针对类别k的梯度值为：

同理，学生网络的单尺度特征层S_t及其对应的输出预测分数产生类别k激活特征图为公式为：

4.根据权利要求2所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4.2中，单个掩码模块负责获取预训练教师网络和学生网络各自的各类别激活特征图，对获取的各类别激活特征图进行处理得到预训练教师网络和学生网络的各类别掩码图，单个类别掩码图的获取方法如下：

假设获取类别为k，预训练教师网络单尺度特征层T_t产生的类别k激活特征图为学生网络单尺度特征层S_t产生的类别k激活特征图为/>设置阈值s_k抑制对类别k有负影响的特征，预训练教师网络激活特征图/>在空间(p,q)处针对类别k的有效特征掩码/>为：

学生网络激活特征图在空间(p,q)处针对类别k的有效特征掩码/>为：

即为预训练教师网络单尺度特征层T_t获取的类别k掩码图，/>为学生网络单尺度特征层S_t获取的类别k掩码图。

5.根据权利要求2所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4.3、基于L2损失函数计算单个掩码模块中单个类别的掩码蒸馏损失，对得到的单个类别损失执行相加操作，获取单个模块的掩码蒸馏损失，具体如下：

其中，L₂损失函数是对X向量、Y向量求空间欧氏距离的函数，计算公式为：x_i表示向量X的每一项，共n项；y_i表示向量Y的每一项，共n项；获取预训练教师网络和学生网络各自所有类别的掩码图，添加一个动态权重来对不同类别的学习能力进行约束，加大对难类别的惩罚，针对所有类别的蒸馏损失/>为：

6.根据权利要求5所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，添加一个动态权重来对不同类别的学习能力进行约束，加大对难类别的惩罚，其动态权重的设置方法如下：

7.根据权利要求2所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4.4中，对四个并行处理的掩码模块获取的掩码蒸馏损失进行相加操作，得到类别掩码蒸馏损失，类别掩码蒸馏损失的计算公式为：

其中，t表示掩码模块的序号。

8.根据根据权利要求2所述的一种基于类别掩码蒸馏的航拍图像目标检测方法，其特征在于，步骤S4.5中，基于类别掩码蒸馏损失对学生网络的网络参数进行更新，最终获得教师—学生网络中训练好的学生网络，具体操作如下：

L＝L_cls+L_reg+λL_mask

λ为类别掩码蒸馏损失在学生网络总损失中所占的比重，基于构建的总损失函数完成对学生网络的迭代训练，最终获得训练好的学生网络。