CN115661597B

CN115661597B - 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法

Info

Publication number: CN115661597B
Application number: CN202211335800.XA
Authority: CN
Inventors: 何明洲; 吴庆波; 李宏亮; 孟凡满; 许林峰; 潘力立
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-08-15
Anticipated expiration: 2042-10-28
Also published as: CN115661597A

Abstract

该发明公开了一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法，属于多模态目标检测领域。本发明中采用两个教师网络，一个学生网络，两个教师网络分别用可见光和红外图片进行训练，然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络，学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5，结构完全一致。另外，通过对每个批量(Batch)数据在教师网络中的检测结果进行评价，通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。

Description

一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法

技术领域

本发明属于多模态目标检测领域，尤其涉及一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法。该方法可以在不扩展网络，不增加任何参数量的情况下实现可见光和红外两种模态优势融合，提高目标检测网络的鲁棒性。

背景技术

当前目标检测应用中，环境通常是开放的和动态的，需要模型和算法来处理开放环境带来的挑战，如下雨、雾天、遮挡、光线差、低分辨率等。在这种情况下，仅使用可见光波段传感器数据的算法很难达到较高的精度。因此，多光谱传感器融合技术逐渐被采用，能够提供各光谱下能获取到的综合信息。例如可见光和红外，可见光在光照充足下能够提供较好的环境细节信息，而红外在夜间或雨雾天气具有较强的鲁棒性，利用热效应能够清晰的捕捉到目标轮廓。因此，可见光和红外模态融合检测技术对于工程应用具有重要的价值。

现有的可见光和红外多模态融合目标检测技术可分为空间域融合和特征域融合。空间域融合如TarDAL方法，在数据送入检测网络之前，需要新增一个单独的生成网络将可见光图像和红外图像融合成一张图，由于前后网络训练是独立的，并不能保证融合的图像是有利于目标检测任务；特征域融合如CFT和GAFF方法，这类方法通常新增一个完全一样的特征提取网络分支用于第二种模态的特征提取，相当于参数量扩展一倍，需要大量的计算开销，并且融合过程完全交给网络黑盒，没有严谨的理论支撑。然而，深度学习中采用蒸馏的方式进行知识迁移是可论证的，因此，一种基于蒸馏的可见光和红外模态融合目标检测方法具有重要的意义。

发明内容

本发明的目的在于解决以下技术问题：

其一，现有的可见光和红外多模态融合目标检测方法通常需要额外增加融合网络和各模态的特征提取网络，参数量和运算量倍增，对计算资源有较高的要求。其次，以往的特征融合方法和先融合图片再检测的方法都没有较强的理论依据，把优化过程完全交给网络黑盒。本发明采用定位蒸馏将各模态训练出来的检测网络学习到的知识蒸馏到一个新网络上，在几乎不增加计算开销的情况下实现模态间融合，有效的提升目标检测指标。

其二，对于不同的场景，可见光和红外模态有其各自的优势，某些场景下可见光的检测效果更好，或者一些场景下红外的检测效果更佳。因此，在将两种单模态网络往融合网络上做蒸馏时两部分的蒸馏损失不应该采用固定的权重，应当结合场景优势自适应的选择蒸馏某个模态网络的知识。因此，我们对单模态网络的检测效果进行评价，根据指标动态的调整蒸馏损失权重，针对模态在不同场景下的优势进一步实现可见光和红外模态优势融合。

本发明技术方案为一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法，该方法包括两个教师网络和一个学生网络，三个网络都采用YOLOv5，结构完全一致；该方法步骤包括：

步骤1：将可见光图像送入一个教师网络中训练得到教师网络Teacher1，将红外图像送入另一个教师网络中训练得到教师网络Teacher2；

步骤2：首先将两个教师网络输出的(x,y,w,h)形式的检测框，转化为(t,b,l,r)的表示形式，其中，x,y,w,h分别表示检测框的中心坐标x,y和宽高w,h，t,b,l,r分别表示检测框采样点到上下左右各边的距离；然后对两个教师网络的检测输出头进行修改，检测输出头表示检测网络最后的输出卷积层，将原来输出的4通道(x,y,w,h)扩展为输出检测框(t,b,l,r)各边区间上的n个logits值；然后对教师网络Teacher1和Teacher2的网络权重通过训练进行小幅度更新，使两个教师网络输出为检测框(t,b,l,r)各边区间上的n个logits值，再通过softmax函数得到区间上的概率分布；每条边的回归值描述为离散积分的形式：

式中，B表示检测框，e∈B表示e为检测框的一条边，表示该边预测值；[e_min,e_max]表示该边可能落在的一个区间；x表示区间中的一个值，Pr(x)表示落在该值的概率；

步骤3：按照知识蒸馏的方法，采用广义Softmax函数S(·,τ)，即带温度系数τ的Softmax函数，将教师网络Teacher1和Teacher2输出的位置logits值z_t1,z_t2，转换为概率分布P_t1,P_t2；温度系数τ为超参数，设置为τ＞1用于软化分布，使概率分布携带更多的信息用于蒸馏；S(·,τ)公式如下：

步骤4：将可见光和红外图像进行拼接后输入学生网络中训练一个学生网络Student，训练时除本身目标检测网络的损失函数约束外，用两个教师网络输出的软化概率分布P_t1,P_t2对学生网络进行蒸馏；采用步骤2和步骤3相同的方法将学生网络的输出转换为软化概率分布P_s；

用动态权重对蒸馏损失进行加权，总的损失函数如下：

L_total＝L_detect+αL_LD(student,teacher1)+βL_LD(student,teacher2) (3)

式中，L_detect表示目标检测损失函数，L_LD()表示定位蒸馏损失，α,β为动态权重；动态权重α,β是通过对Teacher1和Teacher2网络的检测结果进行定量评价获得；在训练学生网络时，获取到每个批量数据在教师网络的输出结果，用map指标对结果进行评价，得到两个教师网络在该批数据下的检测指标map_t1,map_t2，α,β的计算公式如下：

定位蒸馏损失L_LD()是对教师网络和学生网络的软化概率分布计算损失，采用KL散度衡量两个分布的关系，计算公式如下：

L_LD(student,teacher)＝L_KL(P_S,P_T)＝L_KL(S(z_S,τ),S(z_T,τ)) (5)

式中，P_S,P_T为学生和教师网络输出值的软化概率分布；z_S,z_T为学生和教师网络的logits输出值；L_KL(·)是KL散度损失；

目标检测损失计算公式如下：

式中，L_bbox,L_class,L_object分别表示检测框损失、类别损失、目标置信度损失；IoU表示检测框与真实框的交并比，GIoU表示由IoU改进而来的带距离度量的广义交并比；s表示分辨率；J表示批量大小；表示类别标签值；p_i(c)表示类别预测概率；/>表示对象标签；c_i表示对象预测置信度；/>表示该预测为正例时值为1，/>表示该预测为负例时值为1，c∈classes表示所有需要检测的前景类别；

步骤5：在检测阶段，将可见光和红外共同输入训练好的学生网络，实现可见光和红外的融合目标检测。

本发明提出了基于动态权重定位蒸馏的可见光和红外融合目标检测方法，本发明中采用两个教师网络，一个学生网络，两个教师网络分别用可见光和红外图片进行训练，然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络，学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5，结构完全一致。另外，通过对每个批量(Batch)数据在教师网络中的检测结果进行评价，通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。

附图说明

图1为本发明基于动态权重定位蒸馏的可见光和红外融合目标检测方法示意图。

图2为本发明实施例中实验数据集可视化图。

具体实施方式

图1中(x,y,w,h)为YOLOv5目标检测网络的输出检测框的表示方法，分别表示检测框的中心坐标和宽高；(t,b,l,r)表示本发明中使用的目标检测框表示方法，分别表示检测框采样点到上下左右各边的距离，中心点表示采样点；l₁,l₂,l₃...l_n表示采样点到左边距离的区间[l_min,l_max]平均成n份的值；S(·,τ)表示带温度系数的Softmax函数；LD(Localization Distillation)loss表示定位蒸馏损失函数；α,β表示蒸馏过程中的动态权重。

我们在公开数据集FLIR上实施了本专利方法以验证本方案的有效性。

数据集：FLIR数据集是一个具有挑战性的多光谱目标检测数据集，包括白天和夜景。数据集包含5142对对齐良好的可见光和红外图像，其中4129对用于训练，1013对用于测试，涵盖三个对象类别：人、车和自行车.数据集可视化展示如图2。

评价指标：我们的方案统一采用MS-COCO数据集引入的目标检测指标mAP.5和mAP，该指标也是目前目标检测领域最流行的性能指标。mAP(mean Average Precision)，平均精度均值，即AP(Average Precision)的平均值，mAP值越高，表明该目标检测模型在给定的数据集上的检测效果越好。mAP.5表示IOU阈值设置为0.5时的mAP值，mAP@.5-.95表示IOU阈值从0.5到0.95每隔0.05取10个mAP值的平均。

实验设备及参数：本实验在一台4张RTX3090显卡服务器上进行，批量大小(batch-size)设置为32，图像大小(img-size)设置为640*640，学习率设置为0.01。

实验结果：

表1本专利方案对比验证实验

表中，yolov5、TarDAL、GAFF、CFT均为现有方法，从实验结果可以看到，本专利基于动态权重定位蒸馏的可见光和红外融合目标检测方法相比较于单模态实验结果，以及现有其他融合检测方法，在性能指标上都有较大的提升。该实验验证了本专利的有效性。

Claims

1.一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法，该方法包括两个教师网络和一个学生网络，三个网络都采用YOLOv5，结构完全一致；该方法步骤包括：

用动态权重对蒸馏损失进行加权，总的损失函数如下：

L_total＝L_detect+αL_LD(student,teacher1)+βL_LD(student,teacher2) (3)

L_LD(student,teacher)＝L_KL(P_S,P_T)＝L_KL(S(z_S,τ),S(z_T,τ)) (5)

目标检测损失计算公式如下：