CN116665016B

CN116665016B - 一种基于改进YOLOv5的单帧红外弱小目标检测方法

Info

Publication number: CN116665016B
Application number: CN202310758618.3A
Authority: CN
Inventors: 孙海江; 刘颖; 赵勇先
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2024-02-23
Anticipated expiration: 2043-06-26
Also published as: CN116665016A

Abstract

本发明涉及一种基于改进YOLOv5的单帧红外弱小目标检测方法，解决单帧红外图像由于弱小目标的显著性不强、特征细节不明显且像素占比少，使得目标特征提取困难、检测准确率低的问题。该发明包含以下步骤：首先构建单帧红外图像数据集和YOLOv5网络模型，接着在主干网络中引入设计的SimAMC3注意力机制模块，在特征融合网络中增加新的特征融合层，在头部网络中增加新的弱小目标检测头并引入SimAM注意力机制，修改头部网络的预测框筛选方式，然后进行网络的训练和测试，最后对基于改进YOLOv5的单帧红外弱小目标检测方法进行评估。本发明能有效增强网络对弱小目标的特征提取能力和关注程度，在不增加参数计算量的同时，提升单帧红外图像中弱小目标检测的平均精度均值。

Description

一种基于改进YOLOv5的单帧红外弱小目标检测方法

技术领域

本发明涉及计算机视觉的目标检测领域，特别涉及一种基于改进YOLOv5的单帧红外弱小目标检测方法。

背景技术

目标检测是计算机视觉领域中的核心任务之一，通过判断图像中存在的目标并找到目标的具体位置是目标检测任务的核心思想，利用图像处理技术从海量的数字图像数据中准确、高效的提取出目标的位置和空间信息，是目标检测技术的关键。

红外成像系统与可见光成像系统相比，不易受恶劣环境影响，可以全天时全天候工作，且体积小、重量轻、隐蔽性好，因此在民用领域，广泛应用于自动驾驶、医学成像、交通管理及机器人研究等方面；在军用领域，广泛应用于海上监测、预警系统、防空系统和精确制导等方面，具有很大的实际意义。但由于红外成像系统靠温差成像，其成像效果通常具有信噪比低、对比度弱且成像模糊的特点，加之成像过程中易受到设备本身产生的噪声干扰，给红外弱小目标的检测增加了难度。此外，弱小目标的像素占比少，在一幅256×256像素的红外图像中通常不超过9×9像素，且目标显著性不强、特征细节不明显，对红外弱小目标进行准确的检测是一个具有挑战性的难题。

近年来，随着预警探测技术的发展，单帧红外图像的检测任务逐渐受到重视。对于高速移动的目标来说，传感器平台与目标之间的快速相对运动导致背景变化迅速和目标运动轨迹不一致，这种情况下，常规的连续帧图像目标检测算法很难准确的检测出目标。此外，提高单帧红外图像的目标检测准确率可以为序列红外图像的检测奠定基础，因此提升单帧红外图像中弱小目标检测的准确率具有较大的实际意义。

单帧型检测算法在单张图像内对弱小目标进行检测，常见的红外图像弱小目标检测传统方法有基于滤波、基于视觉显著性以及基于图像数据结构三种。基于滤波的方法有最大均值与最大中值滤波方法、数学形态学方法、小波变换等，此类方法对于对比度低且背景复杂的红外图像来说，高频分量可能夹杂了许多噪声和背景边缘信息，会对目标的提取造成一定的干扰；基于视觉显著性的方法有基于显著性检测的频谱残差方法和基于局部对比度的方法，两种方法在进行目标检测中，易受到噪声的干扰产生虚警，通常需要引入其他方法来进一步降低虚警率，排除噪声干扰，一定程度上增加了目标检测的工作量；基于图像数据结构的方法对不同复杂程度、信噪比低的图像均有较好的适用性，但算法的计算量较大，不适用于轻量化系统且满足不了目标检测的实时性要求。与传统检测方法相比，深度学习算法网络结构灵活，具有强大的特征自动提取能力，是一种鲁棒性、通用性较强且准确率较高的目标检测方法，更适用于复杂背景下的红外弱小目标检测。现有的经典目标检测网络能够较好的检测出背景复杂程度较低的中、大型目标，但对单帧红外图像中显著性不强的弱小目标检测效果却不佳，由此可见，红外弱小目标的检测仍有一定的提升空间。

发明内容

本发明针对单帧红外图像弱小目由于弱小目标的显著性不强、特征细节不明显且像素占比少，使得目标特征提取困难、检测准确率低的问题，提供了一种基于改进YOLOv5的单帧红外弱小目标检测方法，提升网络的检测性能，使网络更适用于复杂背景下的单帧红外图像弱小目标检测。

为了解决上述技术问题，本发明的技术方案具体如下：

一种基于改进YOLOv5的单帧红外弱小目标检测方法，包括以下步骤：

步骤1：构建单帧红外图像数据集；

步骤2：构建YOLOv5网络模型；

步骤3：在主干特征网络中引入SimAMC3注意力机制模块；

步骤4：在特征融合网络中增加新的特征融合层；

步骤5：在头部网络增加新的弱小目标检测头，并在针对小目标检测的两个头部引入SimAM注意力机制；

步骤6：在头部网络中修改预测框的筛选方式；

步骤7：训练步骤2至步骤6构建的基于改进YOLOv5的单帧红外弱小目标检测网络；

步骤8：输入测试集进行测试和评估。

在上述技术方案中，步骤1具体包括如下步骤：

步骤1.1：获取单帧红外图像数据集NUAA-SIRST并进行标注，使数据能够被YOLOv5网络正确读取；

步骤1.2：构建单帧红外图像数据的训练集、验证集和测试集，将原数据集的图像和标签按6:2:2的比例随机划分，得到的训练集占总数据集的60％，测试集和验证集均占总数据集的20％。

在上述技术方案中，步骤2具体包括如下步骤：

步骤2.1：输入端对数据进行预处理，所述预处理包含马赛克数据增强、自适应锚框计算和自适应图片缩放；

步骤2.2：主干特征提取网络对数据进行特征提取，所述主干特征网络包含1个Focus层、4个卷积层、4个C3层和1个SPP层，所述C3层分为两个支路，支路一包含1个卷积层，支路二包含1卷积和多个残差模块，两个支路进行融合；

步骤2.3：特征融合网络对步骤2.2提取的特征进行融合，所述特征融合网络包含4个卷积层、4个C3层、4个融合层和2个上采样层；

步骤2.4：头部网络对步骤2.3得到的特征图进行检测，所述头部网络包含三个检测分支，三个检测分支分别包含1个1×1的卷积。

在上述技术方案中，步骤3具体包括如下步骤：

步骤3.1：定义单个通道中的目标神经元t和其他神经元x_i；

步骤3.2：定义目标神经元t和其他神经元x_i的线性变换，计算公式如下：

其中w_t是线性变换的权重，b_t是线性变换的偏置；

步骤3.3：定义神经元数量M，计算公式如下：

M＝H×W

式中H为特征图的高度，W为特征图的宽度；

步骤3.4：定义SimAM的能量函数，所述能量函数来测量目标神经元与其他神经元之间的线性可分性，计算公式如下：

为便于计算，将式中y_t和y₀采用二进制标签表示(即1和-1)，并添加正则化，则计算公式可表示为：

其中λ为正则化系数；

步骤3.5：设计SimAMC3注意力机制模块，具体为在原C3模块支路二的残差模块后添加SimAM注意力机制层；

步骤3.6：将SimAMC3注意力机制模块引入主干特征网络，替换原YOLOv5的C3层。

在上述技术方案中，步骤4具体包括如下步骤：

步骤4.1：在原特征融合网络的第16层融合层和第17层C3层之间依次引入C3层、卷积层、上采样层、融合层、C3层、卷积层和融合层；

步骤4.2：在所述步骤4.1的基础上，将第18层卷积层与第22层卷积层进行融合。

在上述技术方案中，步骤5具体包括如下步骤：

步骤5.1：在所述步骤4.1的基础上，从第21层C3层引出支路四，支路四为新的弱小目标检测头；

步骤5.2：在所述步骤5.1的基础上，在支路三和支路四的卷积层后分别增加一层SimAM注意力机制层。

在上述技术方案中，步骤6具体包括如下步骤：

步骤6.1：定义预测框的中心坐标值x、y，宽度w和高度h；

步骤6.2：定义真实框的中心坐标值x^gt、y^gt，宽度w^gt和高度h^gt；

步骤6.3：采用DIoU_NMS非极大值抑制来进行预测框的筛选，计算公式如下：

式中b＝(x,y,w,h)，b^gt＝(x^gt,y^gt,w^gt,h^gt)，d是预测框与真实框中心点的距离，c是预测框与真实框最小外接矩形的对角线长度，ρ²(b,b^gt)是欧几里得距离；

IoU(Intersection over Union)为交并比，是模型所预测的检测框(bbox)和真实的检测框(ground truth)的交集和并集之间的比例，其公式为：

其中A为真实框的面积，B为预测框的面积，交并比用于衡量真实框与预测框的重合程度。

步骤6.4：将步骤6.3所述的DIoU_NMS非极大值抑制替换原YOLOv5网络的NMS非极大值抑制方式。

在上述技术方案中，步骤7具体包括如下步骤：

步骤7.1：设置训练参数，初始学习率Ir＝0.01，衰减权重Weight_decay＝0.0005，批尺寸Batch_size＝16，训练批次Epoch＝100；

步骤7.2：将步骤1构建的单帧红外图像的训练集和验证集输入基于改进YOLOv5的单帧红外弱小目标检测网络中，输入图像尺寸为640×640，训练集用于网络的学习，验证集用于验证训练的效果；

步骤7.3：根据步骤7.2的训练过程确定最终的学习率和迭代次数，保留训练权重用于网络的测试，得到对目标具有良好检测性能的基于改进YOLOv5的单帧红外弱小目标检测网络。

在上述技术方案中，步骤8具体包括如下步骤：

步骤8.1：将步骤1构建的单帧红外图像的测试集输入步骤7训练后的基于改进YOLOv5的单帧红外弱小目标检测网络中，测试基于改进YOLOv5的单帧红外弱小目标检测网络的检测性能；

步骤8.2：评估基于改进YOLOv5的单帧红外弱小目标检测网络的检测效果。

在上述技术方案中，步骤8.2具体包括如下步骤：

步骤8.2.1：使用平均精度均值来评估网络的整体检测效果，计算公式如下：

AP＝∫p(r)dr

AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值，其中p为Precision，r为Recall，使用积分来计算P-R曲线的面积；

步骤8.2.2：使用准确率来评估网络的查准能力，计算公式如下：

步骤8.2.3：使用召回率来评估网络的查全能力，计算公式如下：

式中，TP代表将正类目标正确预测为正，FP代表将负类目标错误的预测为正，FN代表将负类目标正确判定为负。

本发明具有以下有益效果：

本发明将SimAMC3注意力机制模块引入YOLOv5的主干特征网络中，优化网络的特征提取层，可以使网络更加关注于弱小目标的特征而非背景，提高了模型的特征提取能力和检测精度。

在特征提取的过程中，感受野会随着网络层数和下采样倍数的增加而增大，从而使网络学习到更丰富的语义信息，但网络层数的增加会使深层特征层丢失目标的空间位置信息，对于特征细节不明显且像素占比少红外弱小目标来说，将深层特征层富含的语义信息和浅层特征层包含的空间位置信息相融合，是提升检测准确率的关键，本发明增加了网络的特征融合层，更好的保留浅层特征层中的弱小目标空间位置信息，从而避免弱小目标信息过度丢失。

本发明增加弱小目标检测头并在检测头分支三和分支四添加SimAM注意力机制层，可以使网络有效聚焦于弱小目标的检测，提升单帧红外图像中弱小目标的检测准确率。

本发明修改头部网络的预测框筛选方式，以DIoU_NMS为抑制准则，将预测框与真实框的重叠区域和两框中心之间的距离共同作为抑制冗余框的限制条件，解决原方法回归不准确的问题，本发明修改后的预测框筛选方式可以使网络对相距较近或具有重叠现象的目标检测效果得到提升。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明。

图1为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的步骤流程示意图；

图2为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的网络结构图；

图3为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的SimAMC3注意力机制模块结构图；

图4为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的SimAM注意力机制原理图；

图5为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的检测效果图。

具体实施方式

下面结合附图对本发明做以详细说明。

本实施例的实现流程如图1所示，具体包括如下步骤：

1)构建单帧红外图像数据集，具体包括如下步骤：

1.1)获取单帧红外图像数据集NUAA-SIRST(Single-frame Infrared SmallTarget)，其中NUAA为该单帧红外弱小目标数据集的制作者南京航空航天大学的简称，采用LabelImg(图形图像标注工具)对获取的数据集进行标注，使数据能够被网络正确读取；NUAA-SIRST数据集共有427张红外图像，包含480个目标，由数百个图像序列中选取最具代表性的图像构建而成，目标亮度微弱、对比度低、缺乏颜色和纹理信息，且隐藏在云层、城市、海洋等复杂的背景环境中，受到强光源、片状云层、海面及天空边缘的干扰，许多目标人眼甚至难以辨识，检测难度较大；

1.2)构建单帧红外图像数据NUAA-SIRST的训练集、验证集和测试集，将原数据集的图像和标签按6:2:2的比例随机划分，得到的训练集占总数据集的60％，含图像257张，测试集和验证集均占总数据集的20％，各含图像85张；

2)构建YOLOv5(You Only Look Once version 5)网络模型，具体包括如下步骤：

2.1)输入端对数据进行预处理，所述预处理包含马赛克数据增强、自适应锚框计算和自适应图片缩放；

2.2)主干特征提取网络对数据进行特征提取，所述主干特征网络包含1个Focus层(切片操作)、4个卷积层、4个C3(CSP Bottleneck with 3convolutions)层和1个SPP(Spatial Pyramid Pooling)层，所述C3层分为两个支路，支路一包含1个卷积层，支路二包含1卷积和多个残差模块，两个支路进行融合，其中每个卷积层分别包含1×1的卷积，标准化处理以及SiLU(Sigmoid Linear Unit)激活函数；

2.3)特征融合网络对步骤2.2)提取的特征进行融合，所述特征融合网络包含4个卷积层、4个C3层、4个融合层和2个上采样层；

2.4)头部网络对步骤2.3)得到的特征图进行检测，所述头部网络包含三个检测分支，三个检测分支分别包含1个1×1的卷积；

本实施例涉及的一种基于改进YOLOv5的单帧红外弱小目标检测方法与步骤2)所构建的YOLOv5网络模型相比，主干特征网络包含1个Focus层、4个卷积层、4个SimAMC3(Similarity-based Attention Module in C3)层和1个SPP层，特征融合网络包含6个卷积层、6个C3层、6个融合层和3个上采样层，头部网络包含四个检测分支，其中分支一和分支二分别包含一个1×1的卷积，分支三和分支四分别包含一个1×1的卷积和一个SimAM(Similarity-based Attention Module)层；

本实施例涉及的一种基于改进YOLOv5的单帧红外弱小目标检测方法的网络结构如图2所示；

3)在主干特征网络中引入设计的SimAMC3注意力机制模块，具体包括如下步骤：

3.1)定义单个通道中的目标神经元t和其他神经元x_i；

3.2)定义目标神经元t和其他神经元x_i的线性变换，计算公式如下：

其中w_t是线性变换的权重，b_t是线性变换的偏置；

3.3)定义神经元数量M，计算公式如下：

M＝H×W

式中H为特征图的高度，W为特征图的宽度；

3.4)定义SimAM的能量函数，所述能量函数来测量目标神经元与其他神经元之间的线性可分性，计算公式如下：

其中λ为正则化系数；

3.5)设计SimAMC3注意力机制模块，具体为在原C3模块支路二的残差模块后添加SimAM注意力机制层；

3.6)将SimAMC3注意力机制模块引入主干特征网络，替换原YOLOv5的C3层；

本实施例涉及的SimAMC3注意力机制模块的原理如图3所示；

4)在特征融合网络中增加新的特征融合层，具体包括如下步骤：

4.1)在原特征融合网络的第16层融合层和第17层C3层之间依次引入C3层、卷积层、上采样层、融合层、C3层、卷积层和融合层；

4.2)在所述步骤4.1)的基础上，将第18层卷积层与第22层卷积层进行融合；

步骤5)在头部网络增加新的弱小目标检测头并在针对小目标检测的两个头部引入SimAM注意力机制具体包括以下步骤：

5.1)在所述步骤4.1)的基础上，从第21层C3层引出支路四，支路四为新的弱小目标检测头；

5.2)在所述步骤5.1)的基础上，在支路三和支路四的卷积层后分别增加一层SimAM注意力机制层；

本实施例涉及的SimAM注意力机制层的结构如图4所示。

6)在头部网络中修改预测框的筛选方式，使用对距离相近的弱小目标更有效的DIoU_NMS(Distance Intersection over Union_Non-Maximum Suppression)，DIoU_NMS是以DIoU为抑制准则的非极大值抑制(NMS,Non-Maximum Suppression)方式，具体包括如下步骤：

6.1)定义预测框的中心坐标值x、y，宽度w和高度h；

6.2)定义真实框的中心坐标值x^gt、y^gt，宽度w^gt和高度h^gt；

6.3)采用DIoU_NMS非极大值抑制来进行预测框的筛选，计算公式如下：

6.4)将步骤6.3)所述的DIoU_NMS非极大值抑制替换原YOLOv5网络的NMS非极大值抑制方式。

7)训练步骤2)至步骤6)构建的基于改进YOLOv5的单帧红外弱小目标检测网络，具体包括如下步骤：

7.1)设置训练参数，初始学习率Ir＝0.01，衰减权重Weight_decay＝0.0005，批尺寸Batch_size＝16，训练批次Epoch＝100；

7.2)将步骤1)构建的单帧红外图像的训练集和验证集输入基于改进YOLOv5的单帧红外弱小目标检测网络中，输入图像尺寸为640×640，训练集用于网络的学习，验证集用于验证训练的效果；

7.3)根据步骤7.2)的训练过程确定最终的学习率和迭代次数，保留训练权重用于网络的测试，得到对目标具有良好检测性能的基于改进YOLOv5的单帧红外弱小目标检测网络；

8)输入测试集进行测试和评估，具体包括如下步骤：

8.1)将步骤1)构建的单帧红外图像的测试集输入步骤7)训练后的基于改进YOLOv5的单帧红外弱小目标检测网络中，测试基于改进YOLOv5的单帧红外弱小目标检测网络的检测性能；

8.2)评估基于改进YOLOv5的单帧红外弱小目标检测网络的检测效果，具体包括如下步骤：

8.2.1)使用平均精度均值来评估网络的整体检测效果，计算公式如下：

AP＝∫p(r)dr

8.2.2)使用准确率来评估网络的查准能力，计算公式如下：

8.2.3)使用召回率来评估网络的查全能力，计算公式如下：

式中，TP代表将正类目标正确预测为正，FP代表将负类目标错误的预测为正，FN代表将负类目标正确判定为负，准确率可以衡量网络模型对样本进行正确分类的能力，召回率可以反映网络模型能否将正样本全部检测出的能力；

本实施例在单帧红外图像数据集NUAA-SIRST上的部分实验效果图如图5所示；

为体现本发明实施例的检测效果，将本发明实施例与现有检测网络进行对比，实验各项指标效果如下表所示：

本发明实施例的检测效果与一些目标检测的主流算法相比，整体检测的平均精度均值有大幅度提升，与原YOLOv5算法相比，平均精度均值在单帧红外弱小目标数据集NUAA-SIRST上提升了7.1％，验证了本发明实施例的有效性。

以上所述仅是本发明的优选实施例，应当指出，本领域技术人员在不脱离本发明原理的情况下对本发明进行的修改、替换和变型，均属于本发明的保护范围。

Claims

1.一种基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，包括以下步骤：

步骤1：构建单帧红外图像数据集；

步骤2：构建YOLOv5网络模型；

步骤2.2：主干特征提取网络对数据进行特征提取，所述主干特征提取网络包含1个Focus层、4个卷积层、4个C3层和1个SPP层，所述C3层分为两个支路，支路一包含1个卷积层，支路二包含1卷积和多个残差模块，两个支路进行融合；

步骤2.4：头部网络对步骤2.3得到的特征图进行检测，所述头部网络包含三个检测分支，三个检测分支分别包含1个1×1的卷积；

步骤3：在主干特征提取网络中引入SimAMC3注意力机制模块；

步骤3.1：定义单个通道中的目标神经元t和其他神经元x_i；

其中w_t是线性变换的权重，b_t是线性变换的偏置；

步骤3.3：定义神经元数量M，计算公式如下：

M＝H×W

式中H为特征图的高度，W为特征图的宽度；

为便于计算，将式中y_t和y₀采用二进制标签表示为1和-1，并添加正则化，则计算公式可表示为：

其中λ为正则化系数；

步骤3.6：将SimAMC3注意力机制模块引入主干特征提取网络，替换原YOLOv5的C3层；

步骤4：在特征融合网络中增加新的特征融合层；

步骤6：在头部网络中修改预测框的筛选方式；

步骤8：输入测试集进行测试和评估。

2.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤1具体包括如下步骤：

3.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤4具体包括如下步骤：

4.根据权利要求3所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤5具体包括如下步骤：

5.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤6具体包括如下步骤：

步骤6.1：定义预测框的中心坐标值x、y，宽度w和高度h；

式中b＝(x,y,w,h)，b^gt＝(x^gt,y^gt,w^gt,h^gt)，d是预测框与真实框中心点的距离，c是预测框与真实框最小外接矩形的对角线长度，ρ²(b,b_g ^t)是欧几里得距离；

其中A为真实框的面积，B为预测框的面积，交并比用于衡量真实框与预测框的重合程度；

6.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤7具体包括如下步骤：

7.根据权利要求2所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤8具体包括如下步骤：

8.根据权利要求7所述的基于改进YOLOv5的单帧红外弱小目标检测方法，其特征在于，步骤8.2具体包括如下步骤：

AP＝∫p(r)dr