CN115661597B - 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 - Google Patents
一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 Download PDFInfo
- Publication number
- CN115661597B CN115661597B CN202211335800.XA CN202211335800A CN115661597B CN 115661597 B CN115661597 B CN 115661597B CN 202211335800 A CN202211335800 A CN 202211335800A CN 115661597 B CN115661597 B CN 115661597B
- Authority
- CN
- China
- Prior art keywords
- network
- detection
- teacher
- student
- distillation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法,属于多模态目标检测领域。本发明中采用两个教师网络,一个学生网络,两个教师网络分别用可见光和红外图片进行训练,然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络,学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5,结构完全一致。另外,通过对每个批量(Batch)数据在教师网络中的检测结果进行评价,通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。
Description
技术领域
本发明属于多模态目标检测领域,尤其涉及一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法。该方法可以在不扩展网络,不增加任何参数量的情况下实现可见光和红外两种模态优势融合,提高目标检测网络的鲁棒性。
背景技术
当前目标检测应用中,环境通常是开放的和动态的,需要模型和算法来处理开放环境带来的挑战,如下雨、雾天、遮挡、光线差、低分辨率等。在这种情况下,仅使用可见光波段传感器数据的算法很难达到较高的精度。因此,多光谱传感器融合技术逐渐被采用,能够提供各光谱下能获取到的综合信息。例如可见光和红外,可见光在光照充足下能够提供较好的环境细节信息,而红外在夜间或雨雾天气具有较强的鲁棒性,利用热效应能够清晰的捕捉到目标轮廓。因此,可见光和红外模态融合检测技术对于工程应用具有重要的价值。
现有的可见光和红外多模态融合目标检测技术可分为空间域融合和特征域融合。空间域融合如TarDAL方法,在数据送入检测网络之前,需要新增一个单独的生成网络将可见光图像和红外图像融合成一张图,由于前后网络训练是独立的,并不能保证融合的图像是有利于目标检测任务;特征域融合如CFT和GAFF方法,这类方法通常新增一个完全一样的特征提取网络分支用于第二种模态的特征提取,相当于参数量扩展一倍,需要大量的计算开销,并且融合过程完全交给网络黑盒,没有严谨的理论支撑。然而,深度学习中采用蒸馏的方式进行知识迁移是可论证的,因此,一种基于蒸馏的可见光和红外模态融合目标检测方法具有重要的意义。
发明内容
本发明的目的在于解决以下技术问题:
其一,现有的可见光和红外多模态融合目标检测方法通常需要额外增加融合网络和各模态的特征提取网络,参数量和运算量倍增,对计算资源有较高的要求。其次,以往的特征融合方法和先融合图片再检测的方法都没有较强的理论依据,把优化过程完全交给网络黑盒。本发明采用定位蒸馏将各模态训练出来的检测网络学习到的知识蒸馏到一个新网络上,在几乎不增加计算开销的情况下实现模态间融合,有效的提升目标检测指标。
其二,对于不同的场景,可见光和红外模态有其各自的优势,某些场景下可见光的检测效果更好,或者一些场景下红外的检测效果更佳。因此,在将两种单模态网络往融合网络上做蒸馏时两部分的蒸馏损失不应该采用固定的权重,应当结合场景优势自适应的选择蒸馏某个模态网络的知识。因此,我们对单模态网络的检测效果进行评价,根据指标动态的调整蒸馏损失权重,针对模态在不同场景下的优势进一步实现可见光和红外模态优势融合。
本发明技术方案为一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法,该方法包括两个教师网络和一个学生网络,三个网络都采用YOLOv5,结构完全一致;该方法步骤包括:
步骤1:将可见光图像送入一个教师网络中训练得到教师网络Teacher1,将红外图像送入另一个教师网络中训练得到教师网络Teacher2;
步骤2:首先将两个教师网络输出的(x,y,w,h)形式的检测框,转化为(t,b,l,r)的表示形式,其中,x,y,w,h分别表示检测框的中心坐标x,y和宽高w,h,t,b,l,r分别表示检测框采样点到上下左右各边的距离;然后对两个教师网络的检测输出头进行修改,检测输出头表示检测网络最后的输出卷积层,将原来输出的4通道(x,y,w,h)扩展为输出检测框(t,b,l,r)各边区间上的n个logits值;然后对教师网络Teacher1和Teacher2的网络权重通过训练进行小幅度更新,使两个教师网络输出为检测框(t,b,l,r)各边区间上的n个logits值,再通过softmax函数得到区间上的概率分布;每条边的回归值描述为离散积分的形式:
式中,B表示检测框,e∈B表示e为检测框的一条边,表示该边预测值;[emin,emax]表示该边可能落在的一个区间;x表示区间中的一个值,Pr(x)表示落在该值的概率;
步骤3:按照知识蒸馏的方法,采用广义Softmax函数S(·,τ),即带温度系数τ的Softmax函数,将教师网络Teacher1和Teacher2输出的位置logits值zt1,zt2,转换为概率分布Pt1,Pt2;温度系数τ为超参数,设置为τ>1用于软化分布,使概率分布携带更多的信息用于蒸馏;S(·,τ)公式如下:
步骤4:将可见光和红外图像进行拼接后输入学生网络中训练一个学生网络Student,训练时除本身目标检测网络的损失函数约束外,用两个教师网络输出的软化概率分布Pt1,Pt2对学生网络进行蒸馏;采用步骤2和步骤3相同的方法将学生网络的输出转换为软化概率分布Ps;
用动态权重对蒸馏损失进行加权,总的损失函数如下:
Ltotal=Ldetect+αLLD(student,teacher1)+βLLD(student,teacher2) (3)
式中,Ldetect表示目标检测损失函数,LLD()表示定位蒸馏损失,α,β为动态权重;动态权重α,β是通过对Teacher1和Teacher2网络的检测结果进行定量评价获得;在训练学生网络时,获取到每个批量数据在教师网络的输出结果,用map指标对结果进行评价,得到两个教师网络在该批数据下的检测指标mapt1,mapt2,α,β的计算公式如下:
定位蒸馏损失LLD()是对教师网络和学生网络的软化概率分布计算损失,采用KL散度衡量两个分布的关系,计算公式如下:
LLD(student,teacher)=LKL(PS,PT)=LKL(S(zS,τ),S(zT,τ)) (5)
式中,PS,PT为学生和教师网络输出值的软化概率分布;zS,zT为学生和教师网络的logits输出值;LKL(·)是KL散度损失;
目标检测损失计算公式如下:
式中,Lbbox,Lclass,Lobject分别表示检测框损失、类别损失、目标置信度损失;IoU表示检测框与真实框的交并比,GIoU表示由IoU改进而来的带距离度量的广义交并比;s表示分辨率;J表示批量大小;表示类别标签值;pi(c)表示类别预测概率;/>表示对象标签;ci表示对象预测置信度;/>表示该预测为正例时值为1,/>表示该预测为负例时值为1,c∈classes表示所有需要检测的前景类别;
步骤5:在检测阶段,将可见光和红外共同输入训练好的学生网络,实现可见光和红外的融合目标检测。
本发明提出了基于动态权重定位蒸馏的可见光和红外融合目标检测方法,本发明中采用两个教师网络,一个学生网络,两个教师网络分别用可见光和红外图片进行训练,然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络,学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5,结构完全一致。另外,通过对每个批量(Batch)数据在教师网络中的检测结果进行评价,通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。
附图说明
图1为本发明基于动态权重定位蒸馏的可见光和红外融合目标检测方法示意图。
图2为本发明实施例中实验数据集可视化图。
具体实施方式
图1中(x,y,w,h)为YOLOv5目标检测网络的输出检测框的表示方法,分别表示检测框的中心坐标和宽高;(t,b,l,r)表示本发明中使用的目标检测框表示方法,分别表示检测框采样点到上下左右各边的距离,中心点表示采样点;l1,l2,l3...ln表示采样点到左边距离的区间[lmin,lmax]平均成n份的值;S(·,τ)表示带温度系数的Softmax函数;LD(Localization Distillation)loss表示定位蒸馏损失函数;α,β表示蒸馏过程中的动态权重。
我们在公开数据集FLIR上实施了本专利方法以验证本方案的有效性。
数据集:FLIR数据集是一个具有挑战性的多光谱目标检测数据集,包括白天和夜景。数据集包含5142对对齐良好的可见光和红外图像,其中4129对用于训练,1013对用于测试,涵盖三个对象类别:人、车和自行车.数据集可视化展示如图2。
评价指标:我们的方案统一采用MS-COCO数据集引入的目标检测指标mAP.5和mAP,该指标也是目前目标检测领域最流行的性能指标。mAP(mean Average Precision),平均精度均值,即AP(Average Precision)的平均值,mAP值越高,表明该目标检测模型在给定的数据集上的检测效果越好。mAP.5表示IOU阈值设置为0.5时的mAP值,mAP@.5-.95表示IOU阈值从0.5到0.95每隔0.05取10个mAP值的平均。
实验设备及参数:本实验在一台4张RTX3090显卡服务器上进行,批量大小(batch-size)设置为32,图像大小(img-size)设置为640*640,学习率设置为0.01。
实验结果:
表1本专利方案对比验证实验
表中,yolov5、TarDAL、GAFF、CFT均为现有方法,从实验结果可以看到,本专利基于动态权重定位蒸馏的可见光和红外融合目标检测方法相比较于单模态实验结果,以及现有其他融合检测方法,在性能指标上都有较大的提升。该实验验证了本专利的有效性。
Claims (1)
1.一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法,该方法包括两个教师网络和一个学生网络,三个网络都采用YOLOv5,结构完全一致;该方法步骤包括:
步骤1:将可见光图像送入一个教师网络中训练得到教师网络Teacher1,将红外图像送入另一个教师网络中训练得到教师网络Teacher2;
步骤2:首先将两个教师网络输出的(x,y,w,h)形式的检测框,转化为(t,b,l,r)的表示形式,其中,x,y,w,h分别表示检测框的中心坐标x,y和宽高w,h,t,b,l,r分别表示检测框采样点到上下左右各边的距离;然后对两个教师网络的检测输出头进行修改,检测输出头表示检测网络最后的输出卷积层,将原来输出的4通道(x,y,w,h)扩展为输出检测框(t,b,l,r)各边区间上的n个logits值;然后对教师网络Teacher1和Teacher2的网络权重通过训练进行小幅度更新,使两个教师网络输出为检测框(t,b,l,r)各边区间上的n个logits值,再通过softmax函数得到区间上的概率分布;每条边的回归值描述为离散积分的形式:
式中,B表示检测框,e∈B表示e为检测框的一条边,表示该边预测值;[emin,emax]表示该边可能落在的一个区间;x表示区间中的一个值,Pr(x)表示落在该值的概率;
步骤3:按照知识蒸馏的方法,采用广义Softmax函数S(·,τ),即带温度系数τ的Softmax函数,将教师网络Teacher1和Teacher2输出的位置logits值zt1,zt2,转换为概率分布Pt1,Pt2;温度系数τ为超参数,设置为τ>1用于软化分布,使概率分布携带更多的信息用于蒸馏;S(·,τ)公式如下:
步骤4:将可见光和红外图像进行拼接后输入学生网络中训练一个学生网络Student,训练时除本身目标检测网络的损失函数约束外,用两个教师网络输出的软化概率分布Pt1,Pt2对学生网络进行蒸馏;采用步骤2和步骤3相同的方法将学生网络的输出转换为软化概率分布Ps;
用动态权重对蒸馏损失进行加权,总的损失函数如下:
Ltotal=Ldetect+αLLD(student,teacher1)+βLLD(student,teacher2) (3)
式中,Ldetect表示目标检测损失函数,LLD()表示定位蒸馏损失,α,β为动态权重;动态权重α,β是通过对Teacher1和Teacher2网络的检测结果进行定量评价获得;在训练学生网络时,获取到每个批量数据在教师网络的输出结果,用map指标对结果进行评价,得到两个教师网络在该批数据下的检测指标mapt1,mapt2,α,β的计算公式如下:
定位蒸馏损失LLD()是对教师网络和学生网络的软化概率分布计算损失,采用KL散度衡量两个分布的关系,计算公式如下:
LLD(student,teacher)=LKL(PS,PT)=LKL(S(zS,τ),S(zT,τ)) (5)
式中,PS,PT为学生和教师网络输出值的软化概率分布;zS,zT为学生和教师网络的logits输出值;LKL(·)是KL散度损失;
目标检测损失计算公式如下:
式中,Lbbox,Lclass,Lobject分别表示检测框损失、类别损失、目标置信度损失;IoU表示检测框与真实框的交并比,GIoU表示由IoU改进而来的带距离度量的广义交并比;s表示分辨率;J表示批量大小;表示类别标签值;pi(c)表示类别预测概率;/>表示对象标签;ci表示对象预测置信度;/>表示该预测为正例时值为1,/>表示该预测为负例时值为1,c∈classes表示所有需要检测的前景类别;
步骤5:在检测阶段,将可见光和红外共同输入训练好的学生网络,实现可见光和红外的融合目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211335800.XA CN115661597B (zh) | 2022-10-28 | 2022-10-28 | 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211335800.XA CN115661597B (zh) | 2022-10-28 | 2022-10-28 | 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115661597A CN115661597A (zh) | 2023-01-31 |
CN115661597B true CN115661597B (zh) | 2023-08-15 |
Family
ID=84992713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211335800.XA Active CN115661597B (zh) | 2022-10-28 | 2022-10-28 | 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115661597B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173692B (zh) * | 2023-11-02 | 2024-02-02 | 安徽蔚来智驾科技有限公司 | 3d目标检测方法、电子设备、介质以及驾驶设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743514A (zh) * | 2021-09-08 | 2021-12-03 | 庆阳瑞华能源有限公司 | 一种基于知识蒸馏的目标检测方法及目标检测终端 |
CN113901931A (zh) * | 2021-10-13 | 2022-01-07 | 山东大学 | 一种基于知识蒸馏模型的红外和可见光视频的行为识别方法 |
CN114611670A (zh) * | 2022-03-15 | 2022-06-10 | 重庆理工大学 | 一种基于师生协同的知识蒸馏方法 |
CN114973306A (zh) * | 2022-01-21 | 2022-08-30 | 昆明理工大学 | 一种精细尺度嵌入的轻量级红外实时检测方法与系统 |
CN115063663A (zh) * | 2022-06-06 | 2022-09-16 | 电子科技大学 | 一种基于知识蒸馏的目标检测压缩方法 |
-
2022
- 2022-10-28 CN CN202211335800.XA patent/CN115661597B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743514A (zh) * | 2021-09-08 | 2021-12-03 | 庆阳瑞华能源有限公司 | 一种基于知识蒸馏的目标检测方法及目标检测终端 |
CN113901931A (zh) * | 2021-10-13 | 2022-01-07 | 山东大学 | 一种基于知识蒸馏模型的红外和可见光视频的行为识别方法 |
CN114973306A (zh) * | 2022-01-21 | 2022-08-30 | 昆明理工大学 | 一种精细尺度嵌入的轻量级红外实时检测方法与系统 |
CN114611670A (zh) * | 2022-03-15 | 2022-06-10 | 重庆理工大学 | 一种基于师生协同的知识蒸馏方法 |
CN115063663A (zh) * | 2022-06-06 | 2022-09-16 | 电子科技大学 | 一种基于知识蒸馏的目标检测压缩方法 |
Non-Patent Citations (1)
Title |
---|
"Localization Distillation for Dense Object Detection";Zhaohui Zheng等;《arXiv》;第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115661597A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114782691B (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN110363134B (zh) | 一种基于语义分割的人脸遮挡区定位方法 | |
CN115661597B (zh) | 一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法 | |
CN116778293B (zh) | 一种基于掩膜的图像融合方法 | |
CN110349176B (zh) | 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统 | |
CN110428461B (zh) | 结合深度学习的单目slam方法及装置 | |
CN116189139A (zh) | 一种基于Transformer的交通标志检测方法 | |
CN103646397A (zh) | 基于多源数据融合的实时合成孔径透视成像方法 | |
CN113327271A (zh) | 基于双光孪生网络决策级目标跟踪方法、系统及存储介质 | |
CN111062384B (zh) | 一种基于深度学习的车窗精确定位方法 | |
CN116310293B (zh) | 一种基于弱监督学习的生成高质量候选框目标检测方法 | |
CN111738964A (zh) | 一种基于建模的图像数据增强的方法 | |
CN111695552B (zh) | 多特征融合的水下目标建模及优化方法 | |
CN113870311A (zh) | 一种基于深度学习的单目标跟踪方法 | |
Li et al. | Self-supervised monocular depth estimation via discrete strategy and uncertainty | |
CN114445413B (zh) | 一种基于域自适应的帧间图像语义分割方法与系统 | |
CN116468977B (zh) | 一种视觉检测模型的对抗鲁棒性评估方法及装置 | |
CN114926471B (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
Kumar et al. | A novel method for inferior mirage detection in video | |
CN115662167B (zh) | 自动驾驶地图构建方法、自动驾驶方法及相关装置 | |
CN113240708B (zh) | 一种用于跟踪无人机的双边流语义一致性方法 | |
CN112907605B (zh) | 用于实例分割的数据增强方法 | |
CN118038494A (zh) | 一种损坏场景鲁棒的跨模态行人重识别方法 | |
CN117372837A (zh) | 基于知识蒸馏和无监督训练方式的跨模态知识迁移方法 | |
CN117745793A (zh) | 一种慢行道路宽度测量方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |