CN112348042B

CN112348042B - 一种基于改进YOLOv3的红外目标检测方法

Info

Publication number: CN112348042B
Application number: CN201910728022.2A
Authority: CN
Inventors: 付光远; 陈铁明; 魏振华; 汪洪桥; 张少磊
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2022-09-30
Anticipated expiration: 2039-08-08
Also published as: CN112348042A

Abstract

一种基于改进YOLOv3的红外目标检测方法，使用Darknet‑53作为网络检测框架，移除网络检测框架与预测模块之间的卷积层，加入多尺度融合预测，利用残差层融合低级特征的重复块。在重复块的底部加入注意力模块，在重复块之间加入残差金字塔过渡网络，重复块的通道数随重复次数递增。本发明具有针对红外图像的目标检测时提取特征能力和信息过渡水平都较好的特点。

Description

一种基于改进YOLOv3的红外目标检测方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于改进YOLOv3的红外目标检测方法。

背景技术

红外末制导能否快速并准确地发现并识别目标对于导弹武器来说具有极其重要的意义。通常情况下，采集的红外图像弱化甚至舍弃物体的纹理和颜色等特征，突出强调其形状、轮廓和热量分布等特征。传统方法主要通过图像增强、特征提取手段来对实现对红外目标进行检测。随着科学技术的发展，红外目标检测技术已经慢慢从传统方法向深度学习方法迁移，使检测的精度和速度较以往都有大幅的提升。基于深度学习的红外目标检测具有较强的特征提取和学习泛化能力，目前是红外目标检测研究的热点。

由于红外图像的特殊属性，使得在相同条件下提取红外图像特征的难度更大。同样的网络模型，同样的训练参数，对红外图像的检测效果会远不如可见光。利用深度学习对图像进行目标检测，归根结底与网络对图像特征挖掘、提取和处理的能力相关。现有技术的红外目标检测在深度学习网络中引入注意力机制，起到加强目标、抑制背景的作用，从而提高对红外目标的检测能力。注意力机制基于空间搜索来选择显著性的位置，网络越深能就够提取到更深层的特征。但相关现有技术在目标较少的场景中效率较低，而且对于重叠目标的检测效果并不理想。产生这一问题的原因在于，一味地增加网络层数会使得特征信息的缺失、训练难度加大、效果变差。另一普遍用于目标检测的深度学习网络中是残差网络，其在处理图像分类任务时具有较好表现，但是随着网络特征图通道数的快速变化会导致特征信息的缺失。

发明内容

鉴于以上所述现有技术的不足，本发明的目的在于提供提取特征能力和信息过渡水平都较好的一种基于改进YOLOv3的红外目标检测方法。

一种基于改进YOLOv3的红外目标检测方法使用Darknet-53作为网络检测框架。

首先移除网络检测框架与预测模块之间的卷积层。然后加入多尺度融合预测，预测模块接收并综合最后三个重复块的结果做出预测。网络检测框架包括利用残差层融合低级特征的重复块，在重复块的卷积层之后加入残差模块。

在重复块的底部加入注意力模块，由主干分支和掩码分支构成。主干分支对特征进行卷积等处理得到T(x)，掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x)，以掩码分支和主干分支的点乘结果作为输出结果，可表示为

H(x)＝M(x)·T(x)

在重复块之间加入残差金字塔过渡网络，由多层包含卷积层、批归一化层和激活层的过渡残差块组成。激活层以ReLU函数作为激活函数。过渡残差块的通道数逐层递增，残差金字塔过渡网络的层数可表示为

第n层过渡残差块的通道数可表示为

其中D_start是输入下一重复块的特征图通道数，D_end是上一重复块输出的特征图通道数。

进一步，将注意力机制和残差金字塔过渡网路进行结合，重复块的通道数随重复次数递增，第n次重复的重复块通道数可表示为

其中是D′_start输入当前重复块的特征图通道数，D′_end是当前重复块输出的特征图通道数，λ是当前重复块的重复系数。

进一步，注意力模块加入残差结构，避免网络特征被弱化，注意力模块的输出结果可表示为

H(x)＝(M(x)+1)·T(x)

YOLOv3网络中具有大量批归一化处理，特征值很多处在0到1之间。加入注意力模块后，随着网络的加深特征值趋近于0，这会导致网络特征被弱化。加入残差结构后不仅可以避免特征值不断减小，而且没有改变输入输出的维度和网络结构，避免了增加额外的计算量。

进一步，注意力模块的输入尺寸为4的倍数。由于经过在掩码分支中的两次下采样，特征图的尺寸变为原先的1/4。将注意力模块的输入尺寸限制为4的倍数可以避免采样过程中数据的缺失。

进一步，仅在第二个和第三个重复模块的底部加入注意力模块。网络的前几层提取的主要是直观的初级特征信息，而红外图像的初级特征不明显，故利用注意力机制意义不大。在网络的前端增加注意力模块对检测精度会使检测精度降低而且大幅增长网络训练时间。

本发明的技术方案具有以下有益效果：(1)在YOLOv3中，去掉了Darknet-53最后一层卷积层，利用残差层融合低级特征，并加入多尺度融合预测，从而提高对特征的提取能力，实现对小目标检测的突破。(2)在重复层之间设置通道数逐层递增的过渡残差块，使得网络深度得到有效增加，能够提取更加丰富的信息。同时又增加了层与层之间的联系，有效避免了提取特征过程中的信息丢失现象。残差金字塔过渡网络使得提取特征能力和信息过渡水平都较原模型有所提高。(3)残差结构的设计只是简单增加原始主干输入，不仅可以避免因注意力模块的加入使得特征值不断减小，而且对于网络本身而言，没有改变输入输出的维度，也没有使网络结构发生较大的变化，更没有增加额外的计算量。(4)将注意力机制和残差金字塔过渡结构进行融合，通过引入金字塔过渡结构来削弱通道数骤变造成的图像特征丢失影响。

附图说明

图1是YOLOv3网络结构中网络检测框架的结构示意图；

图2是本发明的改进YOLOv3网络结构中网络检测框架的结构示意图；

图3是本发明的具体实施方式中注意力模块的结构示意图；

图4是本发明的方法中残差金字塔过渡网络的位置示意图；

图5是本发明的方法中残差金字塔过渡网络的结构示意图；

图6是本发明的方法中残差金字塔过渡网络的残差模块结的构示意图

图7是本发明的算例分析中A组实验数据的平均交并比和候选框数量关系示意图；

图8是本发明的算例分析中B组实验数据的平均交并比和候选框数量关系示意图。

附图标记说明：

本发明附图中Conv、ConvSet或Convolutional表示卷积层；Attention表示注意力模块；Residual或Residual Block表示残差模块；Subsampling为下采样，Upsampling为上采样，BN为批归一化。

具体实施方式

以下将结合说明书附图和具体实施例对本发明的一种基于改进YOLOv3的红外目标检测方法做进一步详细说明。

实施例1

基于改进YOLOv3进行红外目标检测，使用Darknet-53作为网络检测框架，Darknet-53共由53个卷积层构成。参照图1，虚线框内为Darknet-53的基本结构，首先去掉了Darknet-53最后一层卷积层。在重复块的卷积层之后加入残差模块，利用残差层融合低级特征。

参照图2和图3，在重复块的底部加入注意力模块，由主干分支和掩码分支构成。主干分支对特征进行卷积等处理得到T(x)，掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x)，以掩码分支和主干分支的点乘结果作为输出结果，可表示为

H(x)＝M(x)·T(x)

在此基础上，再加入残差结构，避免网络特征被弱化，注意力模块的输出结果最终可表示为

H(x)＝(M(x)+1)·T(x)

注意力模块的输入尺寸为4的倍数。由于经过在掩码分支中的两次下采样，特征图的尺寸变为原先的1/4。将注意力模块的输入尺寸限制为4的倍数可以避免采样过程中数据的缺失。

仅在第二个和第三个重复模块的底部加入注意力模块。网络的前几层提取的主要是直观的初级特征信息，而红外图像的初级特征不明显，故利用注意力机制意义不大。在网络的前端增加注意力模块对检测精度会使检测精度降低而且大幅增长网络训练时间。

参照图4和图5，在重复块之间加入残差金字塔过渡网络，由多层包含卷积层、批归一化层和激活层的过渡残差块组成。金字塔残差网络结构的设计形如金字塔，并使用残差相互连接，保证网络一定的深度要求。

参照图6，过渡残差块的结构为卷积层、批归一化层和激活层依次相连，激活层以ReLU函数作为激活函数。过渡残差块的通道数逐层递增，残差金字塔过渡网络的层数可表示为

第n层过渡残差块的通道数可表示为

最后为加入多尺度融合预测。预测模块接收并综合网络检测框架的最后三个重复块的结果做出预测。

实施例2

本实施例与实施例1的区别在于，网络检测框架中重复块的通道数随重复次数递增，第n次重复的重复块通道数可表示为

本实施例的其他方法与步骤与实施例1相同。

算例分析

收集两组实验数据。

A组实验数据采取自制红外数据集的方式，通过实验室弹上红外系统进行数据采集，拍摄N比例模型作为数据来源，并将特种车辆、舰船、飞行器作为研究目标。同时，在拍摄过程中，不断更换目标所在场景，调整目标方向及拍摄角度，以增强数据集的多样性和可靠性。获得数据集后，对数据集进一步筛选，剔除模糊、重影等低质量图像，最后使用开源工具LabelImg进行人工标注，最终获得7525张红外图片，分辨率为581×426，随机选取6773张图片作为训练集，676张图片作为测试集，其余作为交叉验证集。参照图7，通过聚类得到平均交并比和选取锚点框数目之间的关系。

B组实验数据是使用武汉大学团队标注的公开遥测数据集RSOD，包含飞机、运动场、立交桥和油桶四类目标，一共976张图像。参照图8，通过聚类得到平均交并比和选取锚点框数目之间的关系。

在相同的硬件和软件设置下，使用依照实施例1和实施例2和一种也使用YOLOv3的相关现有技术所述的方法编写的程序对两组实验数据分别进行检测分析。表1为三种方法对A组实验数据的检测结果，表2为三种方法对B组实验数据的检测结果。

表1

表2

对于A组实验数据，实施例1的方法几乎没有增加训练时间，却使平均精度得到大幅提高，增加了约12％，并且有效降低虚警率。对于B组实验数据，实施例1的方法训练时间比现有技术的方法增加了近一小时，但平均精度提高了约10％，漏检率降低了约8％，而虚警率仅增加2％。对于A组实验数据，实施例2的方法平均精度整体提高了约13％，虚警率降低8％，误检率小幅提高。对于B组实验数据，实施例1的方法平均精度提高了约15％，漏检率降低8％，而虚警率仅增加4％。

通过对比，发现本发明的一种基于改进YOLOv3的红外目标检测方法对检测效果有较大提升。残差金字塔过渡网络的设计带来了信息过渡优势，并保持原有网络框架不变，充分发挥Darknet-53模型优势，对检测效果具有较大促进作用，能使红外目标和可见光目标的检测效果得到大幅提升。

显然，本领域的技术人员还可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种基于改进YOLOv3的红外目标检测方法，使用Darknet-53作为网络检测框架，其特征在于：

移除网络检测框架与预测模块之间的卷积层；加入多尺度融合预测，预测模块接收并综合最后三个重复块的结果做出预测；网络检测框架包括利用残差层融合低级特征的重复块，在重复块的卷积层之后加入残差模块；

在重复块的底部加入注意力模块，由主干分支和掩码分支构成；主干分支对特征进行卷积等处理得到T(x)，掩码分支对特征图进行两次下采样和两次上采样得到同样大小的M(x)，点乘掩码分支和主干分支的结果作为输出结果；

在重复块之间加入残差金字塔过渡网络，由多层包含卷积层、批归一化层和激活层的过渡残差块组成，激活层以ReLU函数作为激活函数；过渡残差块的通道数逐层递增，残差金字塔过渡网络的层数可表示为

第n层过渡残差块的通道数可表示为

2.根据权利要求1所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：重复块的通道数随重复次数递增，第n次重复的重复块通道数可表示为

3.根据权利要求1或2所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：注意力模块加入残差结构，避免网络特征被弱化，注意力模块的输出结果可表示为

H(x)＝(M(x)+1)·T(x)。

4.根据权利要求3所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：注意力模块的输入尺寸为4的倍数。

5.根据权利要求4所述的一种基于改进YOLOv3的红外目标检测方法，其特征在于：仅在第二个和第三个重复模块的底部加入注意力模块。