CN116665016B - 一种基于改进YOLOv5的单帧红外弱小目标检测方法 - Google Patents
一种基于改进YOLOv5的单帧红外弱小目标检测方法 Download PDFInfo
- Publication number
- CN116665016B CN116665016B CN202310758618.3A CN202310758618A CN116665016B CN 116665016 B CN116665016 B CN 116665016B CN 202310758618 A CN202310758618 A CN 202310758618A CN 116665016 B CN116665016 B CN 116665016B
- Authority
- CN
- China
- Prior art keywords
- network
- frame
- layer
- target detection
- yolov5
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 121
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 26
- 210000002569 neuron Anatomy 0.000 claims description 21
- 230000001629 suppression Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 description 5
- 238000003331 infrared imaging Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及一种基于改进YOLOv5的单帧红外弱小目标检测方法,解决单帧红外图像由于弱小目标的显著性不强、特征细节不明显且像素占比少,使得目标特征提取困难、检测准确率低的问题。该发明包含以下步骤:首先构建单帧红外图像数据集和YOLOv5网络模型,接着在主干网络中引入设计的SimAMC3注意力机制模块,在特征融合网络中增加新的特征融合层,在头部网络中增加新的弱小目标检测头并引入SimAM注意力机制,修改头部网络的预测框筛选方式,然后进行网络的训练和测试,最后对基于改进YOLOv5的单帧红外弱小目标检测方法进行评估。本发明能有效增强网络对弱小目标的特征提取能力和关注程度,在不增加参数计算量的同时,提升单帧红外图像中弱小目标检测的平均精度均值。
Description
技术领域
本发明涉及计算机视觉的目标检测领域,特别涉及一种基于改进YOLOv5的单帧红外弱小目标检测方法。
背景技术
目标检测是计算机视觉领域中的核心任务之一,通过判断图像中存在的目标并找到目标的具体位置是目标检测任务的核心思想,利用图像处理技术从海量的数字图像数据中准确、高效的提取出目标的位置和空间信息,是目标检测技术的关键。
红外成像系统与可见光成像系统相比,不易受恶劣环境影响,可以全天时全天候工作,且体积小、重量轻、隐蔽性好,因此在民用领域,广泛应用于自动驾驶、医学成像、交通管理及机器人研究等方面;在军用领域,广泛应用于海上监测、预警系统、防空系统和精确制导等方面,具有很大的实际意义。但由于红外成像系统靠温差成像,其成像效果通常具有信噪比低、对比度弱且成像模糊的特点,加之成像过程中易受到设备本身产生的噪声干扰,给红外弱小目标的检测增加了难度。此外,弱小目标的像素占比少,在一幅256×256像素的红外图像中通常不超过9×9像素,且目标显著性不强、特征细节不明显,对红外弱小目标进行准确的检测是一个具有挑战性的难题。
近年来,随着预警探测技术的发展,单帧红外图像的检测任务逐渐受到重视。对于高速移动的目标来说,传感器平台与目标之间的快速相对运动导致背景变化迅速和目标运动轨迹不一致,这种情况下,常规的连续帧图像目标检测算法很难准确的检测出目标。此外,提高单帧红外图像的目标检测准确率可以为序列红外图像的检测奠定基础,因此提升单帧红外图像中弱小目标检测的准确率具有较大的实际意义。
单帧型检测算法在单张图像内对弱小目标进行检测,常见的红外图像弱小目标检测传统方法有基于滤波、基于视觉显著性以及基于图像数据结构三种。基于滤波的方法有最大均值与最大中值滤波方法、数学形态学方法、小波变换等,此类方法对于对比度低且背景复杂的红外图像来说,高频分量可能夹杂了许多噪声和背景边缘信息,会对目标的提取造成一定的干扰;基于视觉显著性的方法有基于显著性检测的频谱残差方法和基于局部对比度的方法,两种方法在进行目标检测中,易受到噪声的干扰产生虚警,通常需要引入其他方法来进一步降低虚警率,排除噪声干扰,一定程度上增加了目标检测的工作量;基于图像数据结构的方法对不同复杂程度、信噪比低的图像均有较好的适用性,但算法的计算量较大,不适用于轻量化系统且满足不了目标检测的实时性要求。与传统检测方法相比,深度学习算法网络结构灵活,具有强大的特征自动提取能力,是一种鲁棒性、通用性较强且准确率较高的目标检测方法,更适用于复杂背景下的红外弱小目标检测。现有的经典目标检测网络能够较好的检测出背景复杂程度较低的中、大型目标,但对单帧红外图像中显著性不强的弱小目标检测效果却不佳,由此可见,红外弱小目标的检测仍有一定的提升空间。
发明内容
本发明针对单帧红外图像弱小目由于弱小目标的显著性不强、特征细节不明显且像素占比少,使得目标特征提取困难、检测准确率低的问题,提供了一种基于改进YOLOv5的单帧红外弱小目标检测方法,提升网络的检测性能,使网络更适用于复杂背景下的单帧红外图像弱小目标检测。
为了解决上述技术问题,本发明的技术方案具体如下:
一种基于改进YOLOv5的单帧红外弱小目标检测方法,包括以下步骤:
步骤1:构建单帧红外图像数据集;
步骤2:构建YOLOv5网络模型;
步骤3:在主干特征网络中引入SimAMC3注意力机制模块;
步骤4:在特征融合网络中增加新的特征融合层;
步骤5:在头部网络增加新的弱小目标检测头,并在针对小目标检测的两个头部引入SimAM注意力机制;
步骤6:在头部网络中修改预测框的筛选方式;
步骤7:训练步骤2至步骤6构建的基于改进YOLOv5的单帧红外弱小目标检测网络;
步骤8:输入测试集进行测试和评估。
在上述技术方案中,步骤1具体包括如下步骤:
步骤1.1:获取单帧红外图像数据集NUAA-SIRST并进行标注,使数据能够被YOLOv5网络正确读取;
步骤1.2:构建单帧红外图像数据的训练集、验证集和测试集,将原数据集的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,测试集和验证集均占总数据集的20%。
在上述技术方案中,步骤2具体包括如下步骤:
步骤2.1:输入端对数据进行预处理,所述预处理包含马赛克数据增强、自适应锚框计算和自适应图片缩放;
步骤2.2:主干特征提取网络对数据进行特征提取,所述主干特征网络包含1个Focus层、4个卷积层、4个C3层和1个SPP层,所述C3层分为两个支路,支路一包含1个卷积层,支路二包含1卷积和多个残差模块,两个支路进行融合;
步骤2.3:特征融合网络对步骤2.2提取的特征进行融合,所述特征融合网络包含4个卷积层、4个C3层、4个融合层和2个上采样层;
步骤2.4:头部网络对步骤2.3得到的特征图进行检测,所述头部网络包含三个检测分支,三个检测分支分别包含1个1×1的卷积。
在上述技术方案中,步骤3具体包括如下步骤:
步骤3.1:定义单个通道中的目标神经元t和其他神经元xi;
步骤3.2:定义目标神经元t和其他神经元xi的线性变换,计算公式如下:
其中wt是线性变换的权重,bt是线性变换的偏置;
步骤3.3:定义神经元数量M,计算公式如下:
M=H×W
式中H为特征图的高度,W为特征图的宽度;
步骤3.4:定义SimAM的能量函数,所述能量函数来测量目标神经元与其他神经元之间的线性可分性,计算公式如下:
为便于计算,将式中yt和y0采用二进制标签表示(即1和-1),并添加正则化,则计算公式可表示为:
其中λ为正则化系数;
步骤3.5:设计SimAMC3注意力机制模块,具体为在原C3模块支路二的残差模块后添加SimAM注意力机制层;
步骤3.6:将SimAMC3注意力机制模块引入主干特征网络,替换原YOLOv5的C3层。
在上述技术方案中,步骤4具体包括如下步骤:
步骤4.1:在原特征融合网络的第16层融合层和第17层C3层之间依次引入C3层、卷积层、上采样层、融合层、C3层、卷积层和融合层;
步骤4.2:在所述步骤4.1的基础上,将第18层卷积层与第22层卷积层进行融合。
在上述技术方案中,步骤5具体包括如下步骤:
步骤5.1:在所述步骤4.1的基础上,从第21层C3层引出支路四,支路四为新的弱小目标检测头;
步骤5.2:在所述步骤5.1的基础上,在支路三和支路四的卷积层后分别增加一层SimAM注意力机制层。
在上述技术方案中,步骤6具体包括如下步骤:
步骤6.1:定义预测框的中心坐标值x、y,宽度w和高度h;
步骤6.2:定义真实框的中心坐标值xgt、ygt,宽度wgt和高度hgt;
步骤6.3:采用DIoU_NMS非极大值抑制来进行预测框的筛选,计算公式如下:
式中b=(x,y,w,h),bgt=(xgt,ygt,wgt,hgt),d是预测框与真实框中心点的距离,c是预测框与真实框最小外接矩形的对角线长度,ρ2(b,bgt)是欧几里得距离;
IoU(Intersection over Union)为交并比,是模型所预测的检测框(bbox)和真实的检测框(ground truth)的交集和并集之间的比例,其公式为:
其中A为真实框的面积,B为预测框的面积,交并比用于衡量真实框与预测框的重合程度。
步骤6.4:将步骤6.3所述的DIoU_NMS非极大值抑制替换原YOLOv5网络的NMS非极大值抑制方式。
在上述技术方案中,步骤7具体包括如下步骤:
步骤7.1:设置训练参数,初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100;
步骤7.2:将步骤1构建的单帧红外图像的训练集和验证集输入基于改进YOLOv5的单帧红外弱小目标检测网络中,输入图像尺寸为640×640,训练集用于网络的学习,验证集用于验证训练的效果;
步骤7.3:根据步骤7.2的训练过程确定最终的学习率和迭代次数,保留训练权重用于网络的测试,得到对目标具有良好检测性能的基于改进YOLOv5的单帧红外弱小目标检测网络。
在上述技术方案中,步骤8具体包括如下步骤:
步骤8.1:将步骤1构建的单帧红外图像的测试集输入步骤7训练后的基于改进YOLOv5的单帧红外弱小目标检测网络中,测试基于改进YOLOv5的单帧红外弱小目标检测网络的检测性能;
步骤8.2:评估基于改进YOLOv5的单帧红外弱小目标检测网络的检测效果。
在上述技术方案中,步骤8.2具体包括如下步骤:
步骤8.2.1:使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
步骤8.2.2:使用准确率来评估网络的查准能力,计算公式如下:
步骤8.2.3:使用召回率来评估网络的查全能力,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将负类目标正确判定为负。
本发明具有以下有益效果:
本发明将SimAMC3注意力机制模块引入YOLOv5的主干特征网络中,优化网络的特征提取层,可以使网络更加关注于弱小目标的特征而非背景,提高了模型的特征提取能力和检测精度。
在特征提取的过程中,感受野会随着网络层数和下采样倍数的增加而增大,从而使网络学习到更丰富的语义信息,但网络层数的增加会使深层特征层丢失目标的空间位置信息,对于特征细节不明显且像素占比少红外弱小目标来说,将深层特征层富含的语义信息和浅层特征层包含的空间位置信息相融合,是提升检测准确率的关键,本发明增加了网络的特征融合层,更好的保留浅层特征层中的弱小目标空间位置信息,从而避免弱小目标信息过度丢失。
本发明增加弱小目标检测头并在检测头分支三和分支四添加SimAM注意力机制层,可以使网络有效聚焦于弱小目标的检测,提升单帧红外图像中弱小目标的检测准确率。
本发明修改头部网络的预测框筛选方式,以DIoU_NMS为抑制准则,将预测框与真实框的重叠区域和两框中心之间的距离共同作为抑制冗余框的限制条件,解决原方法回归不准确的问题,本发明修改后的预测框筛选方式可以使网络对相距较近或具有重叠现象的目标检测效果得到提升。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的步骤流程示意图;
图2为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的网络结构图;
图3为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的SimAMC3注意力机制模块结构图;
图4为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的SimAM注意力机制原理图;
图5为本发明的基于改进YOLOv5的单帧红外弱小目标检测方法的检测效果图。
具体实施方式
下面结合附图对本发明做以详细说明。
本实施例的实现流程如图1所示,具体包括如下步骤:
1)构建单帧红外图像数据集,具体包括如下步骤:
1.1)获取单帧红外图像数据集NUAA-SIRST(Single-frame Infrared SmallTarget),其中NUAA为该单帧红外弱小目标数据集的制作者南京航空航天大学的简称,采用LabelImg(图形图像标注工具)对获取的数据集进行标注,使数据能够被网络正确读取;NUAA-SIRST数据集共有427张红外图像,包含480个目标,由数百个图像序列中选取最具代表性的图像构建而成,目标亮度微弱、对比度低、缺乏颜色和纹理信息,且隐藏在云层、城市、海洋等复杂的背景环境中,受到强光源、片状云层、海面及天空边缘的干扰,许多目标人眼甚至难以辨识,检测难度较大;
1.2)构建单帧红外图像数据NUAA-SIRST的训练集、验证集和测试集,将原数据集的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,含图像257张,测试集和验证集均占总数据集的20%,各含图像85张;
2)构建YOLOv5(You Only Look Once version 5)网络模型,具体包括如下步骤:
2.1)输入端对数据进行预处理,所述预处理包含马赛克数据增强、自适应锚框计算和自适应图片缩放;
2.2)主干特征提取网络对数据进行特征提取,所述主干特征网络包含1个Focus层(切片操作)、4个卷积层、4个C3(CSP Bottleneck with 3convolutions)层和1个SPP(Spatial Pyramid Pooling)层,所述C3层分为两个支路,支路一包含1个卷积层,支路二包含1卷积和多个残差模块,两个支路进行融合,其中每个卷积层分别包含1×1的卷积,标准化处理以及SiLU(Sigmoid Linear Unit)激活函数;
2.3)特征融合网络对步骤2.2)提取的特征进行融合,所述特征融合网络包含4个卷积层、4个C3层、4个融合层和2个上采样层;
2.4)头部网络对步骤2.3)得到的特征图进行检测,所述头部网络包含三个检测分支,三个检测分支分别包含1个1×1的卷积;
本实施例涉及的一种基于改进YOLOv5的单帧红外弱小目标检测方法与步骤2)所构建的YOLOv5网络模型相比,主干特征网络包含1个Focus层、4个卷积层、4个SimAMC3(Similarity-based Attention Module in C3)层和1个SPP层,特征融合网络包含6个卷积层、6个C3层、6个融合层和3个上采样层,头部网络包含四个检测分支,其中分支一和分支二分别包含一个1×1的卷积,分支三和分支四分别包含一个1×1的卷积和一个SimAM(Similarity-based Attention Module)层;
本实施例涉及的一种基于改进YOLOv5的单帧红外弱小目标检测方法的网络结构如图2所示;
3)在主干特征网络中引入设计的SimAMC3注意力机制模块,具体包括如下步骤:
3.1)定义单个通道中的目标神经元t和其他神经元xi;
3.2)定义目标神经元t和其他神经元xi的线性变换,计算公式如下:
其中wt是线性变换的权重,bt是线性变换的偏置;
3.3)定义神经元数量M,计算公式如下:
M=H×W
式中H为特征图的高度,W为特征图的宽度;
3.4)定义SimAM的能量函数,所述能量函数来测量目标神经元与其他神经元之间的线性可分性,计算公式如下:
为便于计算,将式中yt和y0采用二进制标签表示(即1和-1),并添加正则化,则计算公式可表示为:
其中λ为正则化系数;
3.5)设计SimAMC3注意力机制模块,具体为在原C3模块支路二的残差模块后添加SimAM注意力机制层;
3.6)将SimAMC3注意力机制模块引入主干特征网络,替换原YOLOv5的C3层;
本实施例涉及的SimAMC3注意力机制模块的原理如图3所示;
4)在特征融合网络中增加新的特征融合层,具体包括如下步骤:
4.1)在原特征融合网络的第16层融合层和第17层C3层之间依次引入C3层、卷积层、上采样层、融合层、C3层、卷积层和融合层;
4.2)在所述步骤4.1)的基础上,将第18层卷积层与第22层卷积层进行融合;
步骤5)在头部网络增加新的弱小目标检测头并在针对小目标检测的两个头部引入SimAM注意力机制具体包括以下步骤:
5.1)在所述步骤4.1)的基础上,从第21层C3层引出支路四,支路四为新的弱小目标检测头;
5.2)在所述步骤5.1)的基础上,在支路三和支路四的卷积层后分别增加一层SimAM注意力机制层;
本实施例涉及的SimAM注意力机制层的结构如图4所示。
6)在头部网络中修改预测框的筛选方式,使用对距离相近的弱小目标更有效的DIoU_NMS(Distance Intersection over Union_Non-Maximum Suppression),DIoU_NMS是以DIoU为抑制准则的非极大值抑制(NMS,Non-Maximum Suppression)方式,具体包括如下步骤:
6.1)定义预测框的中心坐标值x、y,宽度w和高度h;
6.2)定义真实框的中心坐标值xgt、ygt,宽度wgt和高度hgt;
6.3)采用DIoU_NMS非极大值抑制来进行预测框的筛选,计算公式如下:
式中b=(x,y,w,h),bgt=(xgt,ygt,wgt,hgt),d是预测框与真实框中心点的距离,c是预测框与真实框最小外接矩形的对角线长度,ρ2(b,bgt)是欧几里得距离;
IoU(Intersection over Union)为交并比,是模型所预测的检测框(bbox)和真实的检测框(ground truth)的交集和并集之间的比例,其公式为:
其中A为真实框的面积,B为预测框的面积,交并比用于衡量真实框与预测框的重合程度。
6.4)将步骤6.3)所述的DIoU_NMS非极大值抑制替换原YOLOv5网络的NMS非极大值抑制方式。
7)训练步骤2)至步骤6)构建的基于改进YOLOv5的单帧红外弱小目标检测网络,具体包括如下步骤:
7.1)设置训练参数,初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100;
7.2)将步骤1)构建的单帧红外图像的训练集和验证集输入基于改进YOLOv5的单帧红外弱小目标检测网络中,输入图像尺寸为640×640,训练集用于网络的学习,验证集用于验证训练的效果;
7.3)根据步骤7.2)的训练过程确定最终的学习率和迭代次数,保留训练权重用于网络的测试,得到对目标具有良好检测性能的基于改进YOLOv5的单帧红外弱小目标检测网络;
8)输入测试集进行测试和评估,具体包括如下步骤:
8.1)将步骤1)构建的单帧红外图像的测试集输入步骤7)训练后的基于改进YOLOv5的单帧红外弱小目标检测网络中,测试基于改进YOLOv5的单帧红外弱小目标检测网络的检测性能;
8.2)评估基于改进YOLOv5的单帧红外弱小目标检测网络的检测效果,具体包括如下步骤:
8.2.1)使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
8.2.2)使用准确率来评估网络的查准能力,计算公式如下:
8.2.3)使用召回率来评估网络的查全能力,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将负类目标正确判定为负,准确率可以衡量网络模型对样本进行正确分类的能力,召回率可以反映网络模型能否将正样本全部检测出的能力;
本实施例在单帧红外图像数据集NUAA-SIRST上的部分实验效果图如图5所示;
为体现本发明实施例的检测效果,将本发明实施例与现有检测网络进行对比,实验各项指标效果如下表所示:
本发明实施例的检测效果与一些目标检测的主流算法相比,整体检测的平均精度均值有大幅度提升,与原YOLOv5算法相比,平均精度均值在单帧红外弱小目标数据集NUAA-SIRST上提升了7.1%,验证了本发明实施例的有效性。
本发明将SimAMC3注意力机制模块引入YOLOv5的主干特征网络中,优化网络的特征提取层,可以使网络更加关注于弱小目标的特征而非背景,提高了模型的特征提取能力和检测精度。
在特征提取的过程中,感受野会随着网络层数和下采样倍数的增加而增大,从而使网络学习到更丰富的语义信息,但网络层数的增加会使深层特征层丢失目标的空间位置信息,对于特征细节不明显且像素占比少红外弱小目标来说,将深层特征层富含的语义信息和浅层特征层包含的空间位置信息相融合,是提升检测准确率的关键,本发明增加了网络的特征融合层,更好的保留浅层特征层中的弱小目标空间位置信息,从而避免弱小目标信息过度丢失。
本发明增加弱小目标检测头并在检测头分支三和分支四添加SimAM注意力机制层,可以使网络有效聚焦于弱小目标的检测,提升单帧红外图像中弱小目标的检测准确率。
本发明修改头部网络的预测框筛选方式,以DIoU_NMS为抑制准则,将预测框与真实框的重叠区域和两框中心之间的距离共同作为抑制冗余框的限制条件,解决原方法回归不准确的问题,本发明修改后的预测框筛选方式可以使网络对相距较近或具有重叠现象的目标检测效果得到提升。
以上所述仅是本发明的优选实施例,应当指出,本领域技术人员在不脱离本发明原理的情况下对本发明进行的修改、替换和变型,均属于本发明的保护范围。
Claims (8)
1.一种基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,包括以下步骤:
步骤1:构建单帧红外图像数据集;
步骤2:构建YOLOv5网络模型;
步骤2.1:输入端对数据进行预处理,所述预处理包含马赛克数据增强、自适应锚框计算和自适应图片缩放;
步骤2.2:主干特征提取网络对数据进行特征提取,所述主干特征提取网络包含1个Focus层、4个卷积层、4个C3层和1个SPP层,所述C3层分为两个支路,支路一包含1个卷积层,支路二包含1卷积和多个残差模块,两个支路进行融合;
步骤2.3:特征融合网络对步骤2.2提取的特征进行融合,所述特征融合网络包含4个卷积层、4个C3层、4个融合层和2个上采样层;
步骤2.4:头部网络对步骤2.3得到的特征图进行检测,所述头部网络包含三个检测分支,三个检测分支分别包含1个1×1的卷积;
步骤3:在主干特征提取网络中引入SimAMC3注意力机制模块;
步骤3.1:定义单个通道中的目标神经元t和其他神经元xi;
步骤3.2:定义目标神经元t和其他神经元xi的线性变换,计算公式如下:
其中wt是线性变换的权重,bt是线性变换的偏置;
步骤3.3:定义神经元数量M,计算公式如下:
M=H×W
式中H为特征图的高度,W为特征图的宽度;
步骤3.4:定义SimAM的能量函数,所述能量函数来测量目标神经元与其他神经元之间的线性可分性,计算公式如下:
为便于计算,将式中yt和y0采用二进制标签表示为1和-1,并添加正则化,则计算公式可表示为:
其中λ为正则化系数;
步骤3.5:设计SimAMC3注意力机制模块,具体为在原C3模块支路二的残差模块后添加SimAM注意力机制层;
步骤3.6:将SimAMC3注意力机制模块引入主干特征提取网络,替换原YOLOv5的C3层;
步骤4:在特征融合网络中增加新的特征融合层;
步骤5:在头部网络增加新的弱小目标检测头,并在针对小目标检测的两个头部引入SimAM注意力机制;
步骤6:在头部网络中修改预测框的筛选方式;
步骤7:训练步骤2至步骤6构建的基于改进YOLOv5的单帧红外弱小目标检测网络;
步骤8:输入测试集进行测试和评估。
2.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤1具体包括如下步骤:
步骤1.1:获取单帧红外图像数据集NUAA-SIRST并进行标注,使数据能够被YOLOv5网络正确读取;
步骤1.2:构建单帧红外图像数据的训练集、验证集和测试集,将原数据集的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,测试集和验证集均占总数据集的20%。
3.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤4具体包括如下步骤:
步骤4.1:在原特征融合网络的第16层融合层和第17层C3层之间依次引入C3层、卷积层、上采样层、融合层、C3层、卷积层和融合层;
步骤4.2:在所述步骤4.1的基础上,将第18层卷积层与第22层卷积层进行融合。
4.根据权利要求3所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤5具体包括如下步骤:
步骤5.1:在所述步骤4.1的基础上,从第21层C3层引出支路四,支路四为新的弱小目标检测头;
步骤5.2:在所述步骤5.1的基础上,在支路三和支路四的卷积层后分别增加一层SimAM注意力机制层。
5.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤6具体包括如下步骤:
步骤6.1:定义预测框的中心坐标值x、y,宽度w和高度h;
步骤6.2:定义真实框的中心坐标值xgt、ygt,宽度wgt和高度hgt;
步骤6.3:采用DIoU_NMS非极大值抑制来进行预测框的筛选,计算公式如下:
式中b=(x,y,w,h),bgt=(xgt,ygt,wgt,hgt),d是预测框与真实框中心点的距离,c是预测框与真实框最小外接矩形的对角线长度,ρ2(b,bg t)是欧几里得距离;
IoU(Intersection over Union)为交并比,是模型所预测的检测框(bbox)和真实的检测框(ground truth)的交集和并集之间的比例,其公式为:
其中A为真实框的面积,B为预测框的面积,交并比用于衡量真实框与预测框的重合程度;
步骤6.4:将步骤6.3所述的DIoU_NMS非极大值抑制替换原YOLOv5网络的NMS非极大值抑制方式。
6.根据权利要求1所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤7具体包括如下步骤:
步骤7.1:设置训练参数,初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100;
步骤7.2:将步骤1构建的单帧红外图像的训练集和验证集输入基于改进YOLOv5的单帧红外弱小目标检测网络中,输入图像尺寸为640×640,训练集用于网络的学习,验证集用于验证训练的效果;
步骤7.3:根据步骤7.2的训练过程确定最终的学习率和迭代次数,保留训练权重用于网络的测试,得到对目标具有良好检测性能的基于改进YOLOv5的单帧红外弱小目标检测网络。
7.根据权利要求2所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤8具体包括如下步骤:
步骤8.1:将步骤1构建的单帧红外图像的测试集输入步骤7训练后的基于改进YOLOv5的单帧红外弱小目标检测网络中,测试基于改进YOLOv5的单帧红外弱小目标检测网络的检测性能;
步骤8.2:评估基于改进YOLOv5的单帧红外弱小目标检测网络的检测效果。
8.根据权利要求7所述的基于改进YOLOv5的单帧红外弱小目标检测方法,其特征在于,步骤8.2具体包括如下步骤:
步骤8.2.1:使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
步骤8.2.2:使用准确率来评估网络的查准能力,计算公式如下:
步骤8.2.3:使用召回率来评估网络的查全能力,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将负类目标正确判定为负。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758618.3A CN116665016B (zh) | 2023-06-26 | 2023-06-26 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758618.3A CN116665016B (zh) | 2023-06-26 | 2023-06-26 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665016A CN116665016A (zh) | 2023-08-29 |
CN116665016B true CN116665016B (zh) | 2024-02-23 |
Family
ID=87720683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310758618.3A Active CN116665016B (zh) | 2023-06-26 | 2023-06-26 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665016B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009897A (zh) * | 2017-12-25 | 2018-05-08 | 北京中关村科金技术有限公司 | 一种商品的实时推荐方法、系统及可读存储介质 |
CN114972363A (zh) * | 2022-05-13 | 2022-08-30 | 北京理工大学 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN115050021A (zh) * | 2022-05-05 | 2022-09-13 | 江苏大学 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
CN115984698A (zh) * | 2023-01-05 | 2023-04-18 | 华南农业大学 | 一种基于改进YOLOv5的荔枝果实生长期识别方法 |
CN116229217A (zh) * | 2023-04-07 | 2023-06-06 | 重庆邮电大学 | 一种应用于复杂环境下的红外目标检测方法 |
CN116245871A (zh) * | 2023-03-30 | 2023-06-09 | 上海电力大学 | 基于改进yolox算法的输电线路异常目标检测方法 |
CN116309465A (zh) * | 2023-03-21 | 2023-06-23 | 湖南中医药大学 | 一种基于改进的YOLOv5的自然环境下舌像检测定位方法 |
CN116311412A (zh) * | 2022-11-23 | 2023-06-23 | 长春理工大学 | 一种融合3d注意力机制和空洞卷积的口罩佩戴检测方法 |
-
2023
- 2023-06-26 CN CN202310758618.3A patent/CN116665016B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009897A (zh) * | 2017-12-25 | 2018-05-08 | 北京中关村科金技术有限公司 | 一种商品的实时推荐方法、系统及可读存储介质 |
CN115050021A (zh) * | 2022-05-05 | 2022-09-13 | 江苏大学 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
CN114972363A (zh) * | 2022-05-13 | 2022-08-30 | 北京理工大学 | 图像分割方法、装置、电子设备及计算机存储介质 |
CN116311412A (zh) * | 2022-11-23 | 2023-06-23 | 长春理工大学 | 一种融合3d注意力机制和空洞卷积的口罩佩戴检测方法 |
CN115984698A (zh) * | 2023-01-05 | 2023-04-18 | 华南农业大学 | 一种基于改进YOLOv5的荔枝果实生长期识别方法 |
CN116309465A (zh) * | 2023-03-21 | 2023-06-23 | 湖南中医药大学 | 一种基于改进的YOLOv5的自然环境下舌像检测定位方法 |
CN116245871A (zh) * | 2023-03-30 | 2023-06-09 | 上海电力大学 | 基于改进yolox算法的输电线路异常目标检测方法 |
CN116229217A (zh) * | 2023-04-07 | 2023-06-06 | 重庆邮电大学 | 一种应用于复杂环境下的红外目标检测方法 |
Non-Patent Citations (3)
Title |
---|
Small Target Detection Algorithm for UAV Aerial Photography Based on Improved YOLOv5s;Jingcheng Shang 等;《MDPI》;全文 * |
复杂交通环境下二轮机动车乘员头盔检测算法;钟铭恩 等;《华侨大学学报(自然科学版)》;第44卷(第3期);301-308 * |
复杂动背景下的"低小慢"目标检测技术;孙海江 等;《中国光学》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665016A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310862B (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN112308019B (zh) | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 | |
CN110310264A (zh) | 一种基于dcnn的大尺度目标检测方法、装置 | |
CN111368690B (zh) | 基于深度学习的海浪影响下视频图像船只检测方法及系统 | |
CN109740665A (zh) | 基于专家知识约束的遮挡图像船只目标检测方法及系统 | |
CN111291639B (zh) | 基于分层变分自编码的跨源舰船特征融合学习与识别方法 | |
CN109558815A (zh) | 一种实时多人脸的检测及跟踪方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN110222604A (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN112529065A (zh) | 一种基于特征对齐和关键点辅助激励的目标检测方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
CN113591592B (zh) | 水上目标识别方法、装置、终端设备及存储介质 | |
CN111160100A (zh) | 一种基于样本生成的轻量级深度模型航拍车辆检测方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN116665016B (zh) | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 | |
CN116343078A (zh) | 基于视频sar的目标跟踪方法、系统及设备 | |
CN115830514A (zh) | 一种适用于带弯曲河道的全河段表面流速计算方法及系统 | |
CN115797684A (zh) | 一种基于上下文信息的红外小目标检测方法及系统 | |
CN116229347A (zh) | 一种人群安全异常事件识别方法 | |
CN115601538A (zh) | 目标检测方法及目标检测器、系统和介质 | |
CN115410102A (zh) | 基于联合注意力机制的sar图像飞机目标检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN115082833A (zh) | 一种水上目标威胁度判别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |