CN116665015B - 一种基于YOLOv5的红外序列图像弱小目标检测方法 - Google Patents

一种基于YOLOv5的红外序列图像弱小目标检测方法 Download PDF

Info

Publication number
CN116665015B
CN116665015B CN202310758457.8A CN202310758457A CN116665015B CN 116665015 B CN116665015 B CN 116665015B CN 202310758457 A CN202310758457 A CN 202310758457A CN 116665015 B CN116665015 B CN 116665015B
Authority
CN
China
Prior art keywords
target
yolov5
detection
network
sequence image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310758457.8A
Other languages
English (en)
Other versions
CN116665015A (zh
Inventor
孙海江
赵勇先
刘颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Original Assignee
Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Institute of Optics Fine Mechanics and Physics of CAS filed Critical Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority to CN202310758457.8A priority Critical patent/CN116665015B/zh
Publication of CN116665015A publication Critical patent/CN116665015A/zh
Application granted granted Critical
Publication of CN116665015B publication Critical patent/CN116665015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于YOLOv5的红外序列图像弱小目标检测方法,解决红外序列图像由于受到噪声和复杂背景的干扰而导致弱小目标检测出现虚警的问题。该发明包含以下步骤:首先构建红外序列图像数据集,接着构建基于YOLOv5的红外序列图像弱小目标检测网络模型,具体包括构建YOLOv5网络模型、YOLOv5检测头的解耦、构建特征信息筛选模块和构建帧间信息链接模块,然后进行网络的训练和测试,最后对基于YOLOv5的红外序列图像弱小目标检测方法进行评估。本发明将YOLOv5网络与红外序列图像的帧间关联信息相结合,可以同时利用图像的时空关联来实现端到端的弱小目标检测,在提升检测精度的同时,能够有效的剔除虚警干扰,具有较强的鲁棒性和可行性。

Description

一种基于YOLOv5的红外序列图像弱小目标检测方法
技术领域
本发明涉及计算机视觉的目标检测技术领域,特别涉及一种基于YOLOv5的红外序列图像弱小目标检测方法。
背景技术
红外成像系统具有体积小、重量轻、可全天时工作、隐蔽性好、不易受雨雪、烟尘等恶劣环境的影响,因此在民用、军用等领域都有十分广泛的应用,对红外图像中弱小目标的检测,也成为了目前的一个研究热点。红外图像由于受成像系统的限制,通常具有成像模糊、图像信噪比低的特点,并伴有系统噪声和条纹噪声的干扰,加之成像距离较远,图像中的目标所占像素比极少,特征和纹理信息不明显,因此对红外图像中弱小目标进行准确的检测仍是一个具有挑战性的难题。
序列红外图像中的弱小目标检测可以作为轨迹提取、目标跟踪等计算机视觉任务的基础。相比于单帧红外图像而言,序列红外图像的帧间关联性有助于复杂背景中微弱目标的检测,但由于运动过程中目标的形态大小发生变化,且当目标运动过快时会使某些帧中的目标产生运动模糊,给检测带来一定的困难。
传统的序列红外图像弱小目标检测方法中,往往会在相邻帧中假设背景为静态或选取某个一致的目标,利用目标在图像序列中的时空连续性来进行检测,如光流法假设相邻帧之间目标的灰度值不变且物体运动微小,根据运动目标和相对静止的背景之间的光流信息差异,捕获各像素点的运动来确定目标的位置;帧间差分法对存在运动目标的相邻帧作差分运算,当灰度差的绝对值超过给定阈值时则判断为目标;背景差分法根据图像序列的背景进行建模,再将背景模型与当前帧做差得到差分图像后进行阈值处理得到最终的目标。此类方法计算量小,易于实现,对于背景相对静止或变化平缓、含有低速运动目标的序列图像来说,能实现较好的检测效果。但在实际应用中,环境变化及光照强度等影响会给检测带来困难,很难选择合适的阈值对目标进行提取,通常需要结合其他去噪算法来去除噪声和虚警的干扰,难以实现鲁棒和通用性较强的目标检测。
基于深度学习算法方面,越来越多的研究人员考虑到将帧间信息结合到卷积神经网络中,同时利用时间空间信息降低虚警率、提升检测准确率,如将YOLOv3算法与LK光流法相结合进行烟雾检测;在YOLOv4的基础上,结合多帧增量式检测策略来实现目标检测;将YOLOv5与光流法结合实现红外小目标的检测等。此类算法将卷积神经网络与传统方法相结合,有效的利用了帧间关联信息,但将两者的结合需要额外设计逻辑单元进行判断。除此之外,还有将卷积神经网络与对象检测器、高效后处理模块相结合的算法,此类方法对不同复杂背景的适应性较强,对帧间关联信息的利用并非简单的进行灰度值差分,而是通过网络的学习获得权重,以判断不同特征的重要程度来筛选有用的帧间信息,能够适应不同复杂程度的红外背景,实现端到端的目标检测。
发明内容
为解决红外序列图像由于受到噪声和复杂背景的干扰而导致弱小目标检测出现虚警的问题,本发明提供了一种基于YOLOv5的红外序列图像弱小目标检测方法,在减少虚警数量的同时,有效的提升了网络的检测性能,可以有效结合帧间信息对红外序列图像中的弱小目标进行检测。
为了解决上述技术问题,本发明的技术方案具体如下:
一种基于YOLOv5的红外序列图像弱小目标检测方法,包括以下的步骤:
步骤1:构建红外序列图像数据集;
步骤2:构建基于YOLOv5的红外序列图像弱小目标检测网络模型;
步骤3:训练基于YOLOv5的红外序列图像弱小目标检测网络模型;
步骤4:将步骤1构建的红外序列图像数据集输入步骤3训练后的基于YOLOv5的红外序列图像弱小目标检测网络中,测试基于YOLOv5的红外序列图像弱小目标检测网络的检测性能;
步骤5:评估基于YOLOv5的红外序列图像弱小目标检测网络模型检测效果。
在上述技术方案中,步骤1具体包括如下步骤:
步骤1.1:获取红外序列图像数据集,地/空背景下红外图像弱小飞机目标检测跟踪数据集,并选取其中具有代表性的数据段进行标注,使数据能够被正确读取;
步骤1.2:构建红外序列图像数据集的训练集、验证集和测试集,将所选数据段中的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,测试集和验证集均占总数据集的20%。
在上述技术方案中,步骤4具体为:
将步骤1.2构建的红外序列图像的测试集输入步骤3训练后的基于YOLOv5的红外序列图像弱小目标检测网络中,测试基于YOLOv5的红外序列图像弱小目标检测网络的检测性能。
在上述技术方案中,步骤2具体包括如下步骤:
步骤2.1:构建YOLOv5网络模型,所述YOLOv5网络模型主要由输入端、主干特征提取网络、特征融合网络和检测头组成;
步骤2.2:获取YOLOv5解耦头,所述YOLOv5解耦头通过将YOLOv5检测头进行解耦操作而得到,能够加速YOLOv5网络模型的收敛速度并提升检测精度;
步骤2.3:构建特征信息筛选模块,所述特征信息筛选模块通过滑动窗口和边界回归得到,能够有效的提取目标候选框;
步骤2.4:构建帧间信息链接模块,所述帧间信息链接模块通过相似度评分模型来链接真实目标并剔除虚警。
在上述技术方案中,步骤2.1具体包括如下步骤:
步骤2.1.1:所述输入端对图像数据进行马赛克数据增强、自适应锚框计算和自适应图片缩放操作,实现输入图像的预处理;
步骤2.1.2:所述主干特征提取网络由CSPDarknet构成,包含Focus层、CSP层、ConvBNSiLU层和SPP层,对步骤2.1.1得到的输入图像进行特征提取;
步骤2.1.3:所述特征融合网络由FPN+PAN特征金字塔构成,对步骤2.1.2得到的不同尺寸特征图进行特征融合;
步骤2.1.4:所述检测头有三个分支,分别用来预测大、中、小目标,每个分支上均有一个1×1的卷积,步骤2.1.3得到的特征图通过1×1的卷积层同时预测目标的回归参数、网络预测框与真实目标框的置信度以及每个类别的得分。
在上述技术方案中,步骤2.2具体包括如下步骤:
步骤2.2.1:将原YOLOv5检测头部的1×1的卷积层替换为ConvBNSiLU层,所述ConvBNSiLU层包含1×1卷积、标准化处理BN和SiLU激活函数;
步骤2.2.2:在步骤2.2.1所述的ConvBNSiLU层后添加分支一和分支二分别经过两个卷积核为3×3的ConvBNSiLU层;
步骤2.2.3:将步骤2.2.2得到的分支一经过一个1×1的卷积,得到针对目标类别信息预测的Cls分支;
步骤2.2.4:将步骤2.2.2得到的分支二分为两个分支,分别经过一个1×1的卷积,得到用来预测目标回归分数的Reg分支和用来预测目标置信度的IoU分支;
步骤2.2.5:对三个检测头分别按步骤2.2进行解耦,得到三个YOLOv5解耦头,分别对大、中、小目标进行预测。
在上述技术方案中,步骤2.3具体包括如下步骤:
步骤2.3.1:所述的特征信息筛选模块的输入为步骤2.1.3特征融合后得到的特征图;
步骤2.3.2:将特征图通过3×3的滑动窗口得到一个H×W×256的中间层,其中H为特征图的高度,W为特征图的宽度;
步骤2.3.3:将步骤2.3.2得到的中间层分别经过两个全连接层,其中一个全连接层得到2k个目标概率,另一个全连接层得到4k个边界回归参数,其中k代表预设的k个锚框;
步骤2.3.4:计算滑动窗口中心点在原始图像上的对应位置,并以该点为中心对原图中预设的k个锚框进行偏移调整,得到预测框;
步骤2.3.5:对预测框进行边界回归调整,得到更接近真实框的目标候选区域,计算公式如下:
Px=Aw·dx(A)+Ax
Py=Ah·dy(A)+Ay
Pw=Aw·exp(dw(A))
Ph=Ah·exp(dh(A))
式中A为预设锚框,P为预测框,预设锚框A=(Ax,Ay,Aw,Ah),P=(Px,Py,Pw,Ph),其中x,y,w,h分别表示各框的中心点坐标、宽度和高度dx(A)和dy(A)代表中心点坐标的平移变换,dw(A)和dh(A)代表宽与高的缩放变换;
步骤2.3.6:将步骤2.3.5得到的目标候选区域映射到步骤2.2.3得到的Cls分支和步骤2.2.4得到的Reg分支上,用于进一步的帧间信息链接模块。
在上述技术方案中,步骤2.4具体包括如下步骤:
步骤2.4.1:经步骤2.3得到相邻两帧红外图像的目标候选框;
步骤2.4.2:获取步骤2.4.1所述目标候选框的位置信息、几何信息和语义信息,计算公式如下:
floc={IoU,dcenters}
fgeo={ratiow,ratioh}
其中,IoU是两个目标框的交集,dcenters是两个目标框中心之间的相对欧氏距离,ratiow和ratioh分别是两个目标框的宽度和高度之比,和/>分别为两目标框的类别置信向量,fsem为两框类别置信向量的点积;
步骤2.4.3:将步骤2.4.2获取的位置信息、几何信息和语义信息经过相似度评分模型,得到两个目标框的相似度评分,计算公式如下:
其中,X是训练后的逻辑回归参数,用来区分两个目标候选框中的目标是否属于同一对象;
步骤2.4.4:根据步骤2.4所述过程对输入的红外序列图像依次进行判别,并将相似度高的同类目标框进行链接,直至所有帧的目标框处理完毕,可以有效的剔除虚警。
在上述技术方案中,步骤3具体包括如下步骤:
步骤3.1:具体参数设置如下:初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100,输入图像尺寸为640×640,网络预训练权重为yolov5s.pt;
步骤3.2:保留步骤3.1训练得到的权重,用于基于YOLOv5的红外序列图像弱小目标检测网络模型的测试和评估。
在上述技术方案中,步骤5具体包括如下步骤:
步骤5.1:使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
步骤5.2:使用准确率来评估网络的查准能力,可以衡量网络模型对样本进行正确分类的能力,计算公式如下:
步骤5.3:使用召回率来评估网络的查全能力,可以反映网络模型能否将正样本全部检测出的能力,计算公式如下:
步骤5.4:使用虚警率来评估网络的误报情况,虚警率的值越小,代表网络的检测性能越好,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将负类目标正确判定为负,TN代表将负样本正确预测为负。
本发明具有以下有益效果:
YOLOv5通过主干特征提取网络对输入的图像进行特征提取,为后续的检测提供特征图信息,无论是单帧红外图像还是序列红外图像都可以作为YOLOv5网络的输入,但YOLOv5对图像的特征提取仅限于在单张图像内进行,没有利用序列图像中的帧间关联信息,而对于序列图像的检测而言,利用帧间关联来剔除虚警是提高检测准确率十分有效的方法,因此本发明将YOLOv5的特征提取能力与帧间关联信息结合起来进行弱小目标检测,得到更好的检测效果。
本发明将YOLOv5模型的检测头进行解耦,解耦头可以加快网络的收敛速度并提升检测的平均精度均值,解耦后所得到的Cls分支和Reg分支可以用于进一步的特征信息筛选模块和帧间信息链接模块。
本发明设计的特征信息筛选模块,可以有效的提取目标候选区域,为进一步的帧间信息筛选奠定了基础。
本发明设计的帧间信息链接模块,利用相似度评分模型来计算相邻帧之间目标候选框的相似度得分,将相邻帧中相似度高的目标框进行链接,获得真实目标框并剔除虚警,提升检测的准确率。
本发明提供的一种基于YOLOv5的红外序列图像弱小目标检测方法与主流的目标检测网络相比,平均精度均值、准确率和召回率均有明显提升,同时也降低了虚警率,能够有效减少由于系统噪声和复杂背景干扰带来的虚警,体现出了良好的鲁棒性和适应性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的步骤流程示意图。
图2为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的YOLOv5检测头与YOLOv5解耦头结构图。
图3为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的特征信息筛选模块原理图。
图4为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的帧间信息链接模块原理图。
图5为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的网络结构图。
图6为本发明的基于YOLOv5的红外序列图像弱小目标检测方法的检测效果对比图,其中(a)所在行为YOLOv5网络的检测效果,存在虚警,(b)所在行为本发明的检测效果,有效剔除了虚警干扰并检测出真实目标。
具体实施方式
下面结合附图对本发明做以详细说明。
本发明的基于YOLOv5的红外序列图像弱小目标检测方法的实现流程如图1所示,包括如下步骤:
1)构建红外序列图像数据集,具体包括如下步骤:
1.1)获取红外序列图像数据集,地/空背景下红外图像弱小飞机目标检测跟踪数据集包含22个数据段、16177帧红外图像,每个数据段分别包含了红外图像序列和对应的标注文件,场景涵盖了天空背景、地面背景和空地交接背景,目标共计16944个,每个数据段的图像中包含1-2个目标,目标的运动方式有近距离、远距离、由远及近和由近及远,多目标还包含了交叉飞行的情况,选取其中具有代表性的五个数据段,使用LabelImg(图形图像标注工具)对五个数据段中的序列图像进行标注,使数据能够被正确读取;
1.2)构建红外序列图像数据集的训练集、验证集和测试集,将所选数据段中的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,测试集和验证集均占总数据集的20%;
2)构建基于YOLOv5(You Only Look Once version 5)的红外序列图像弱小目标检测网络模型,具体包括如下步骤:
2.1)构建YOLOv5网络模型,所述YOLOv5网络模型主要由输入端、主干特征提取网络、特征融合网络和检测头组成;
2.1.1)所述输入端对图像数据进行马赛克数据增强、自适应锚框计算和自适应图片缩放操作,马赛克数据增强随机选取四张图片进行缩放和裁剪,再随机排列拼接形成一张图片,增加了小目标的数量,并在丰富数据集的同时可以提升网络的训练速度;自适应锚框计算可以根据数据集的目标大小来自适应计算预设锚框,自适应图片缩放将图片统一缩放到标准尺寸,再送入检测网络进行特征提取;
2.1.2)所述主干特征提取网络由CSPDarknet(Cross Stage Partial Darknet)构成,包含Focus层(切片操作)、CSP(Cross Stage Partial)层、ConvBNSiLU层和SPP(SpatialPyramid Pooling)层,其中ConvBNSiLU层是由卷积(Convolution)、标准化处理(BatchNormalization)和SiLU(Sigmoid Linear Unit)激活函数组成的,对步骤2.1.1)得到的输入图像进行特征提取;
2.1.3)所述特征融合网络由FPN+PAN(Feature Pyramid Network+PathAggregation Network)特征金字塔构成,对步骤2.1.2)得到的不同尺寸特征图进行特征融合;
2.1.4)所述检测头有三个分支,分别用来预测大、中、小目标,每个分支上均有一个1×1的卷积,步骤2.1.3)得到的特征图通过1×1的卷积层同时预测目标的回归参数、网络预测框与真实目标框的置信度以及每个类别的得分。
2.2)获取YOLOv5解耦头,所述YOLOv5解耦头通过将YOLOv5检测头进行解耦操作而得到,能够加速YOLOv5网络模型的收敛速度并提升检测精度;
2.2.1)将原YOLOv5检测头部的1×1的卷积层替换为ConvBNSiLU层,所述ConvBNSiLU层包含1×1卷积、标准化处理BN和SiLU激活函数;
2.2.2)将步骤2.2.1)所述的ConvBNSiLU层后添加分支一和分支二,两个分支分别经过两个卷积核为3×3的ConvBNSiLU层;
2.2.3)将步骤2.2.2)得到的分支一经过一个1×1的卷积,得到针对目标类别信息预测的Cls(Class)分支;
2.2.4)将步骤2.2.2)得到的分支二分为两个分支,分别经过一个1×1的卷积,得到用来预测目标回归分数的Reg(Regression)分支和用来预测目标置信度的IoU(Intersection over Union)分支;
2.2.5)对三个检测头分别按步骤2.2)进行解耦,得到三个YOLOv5解耦头,分别对大、中、小目标进行预测。
本实施例的YOLOv5检测头与YOLOv5解耦头结构如图2所示;
2.3)构建特征信息筛选模块,所述特征信息筛选模块通过滑动窗口和边界回归得到,能够有效的提取目标候选框;
2.3.1)所述的特征信息筛选模块的输入为步骤2.1.3)特征融合后得到的特征图;
2.3.2)将特征图通过3×3的滑动窗口得到一个H×W×256的中间层,其中H为特征图的高度,W为特征图的宽度;
2.3.3)将步骤2.3.2)得到的中间层分别经过两个全连接层,其中一个全连接层得到2k个目标概率,另一个全连接层得到4k个边界回归参数,其中k代表预设的k个锚框;
2.3.4)计算滑动窗口中心点在原始图像上的对应位置,并以该点为中心对原图中预设的k个锚框进行偏移调整,得到预测框;
2.3.5)对预测框进行边界回归调整,得到更接近真实框的目标候选区域,计算公式如下:
Px=Aw·dx(A)+Ax
Py=Ah·dy(A)+Ay
Pw=Aw·exp(dw(A))
Ph=Ah·exp(dh(A))
式中A为预设锚框,P为预测框,预设锚框A=(Ax,Ay,Aw,Ah),P=(Px,Py,Pw,Ph),其中x,y,w,h分别表示各框的中心点坐标、宽度和高度,dx(A)和dy(A)代表中心点坐标的平移变换,dw(A)和dh(A)代表宽与高的缩放变换;
2.3.6)将步骤2.3.5)得到的目标候选区域映射到步骤2.2.3)得到的Cls分支和步骤2.2.4)得到的Reg分支上,用于进一步的帧间信息链接模块。
本实施例的特征信息筛选模块原理如图3所示;
2.4)构建帧间信息链接模块,所述帧间信息链接模块通过相似度评分模型来链接真实目标并剔除虚警;
2.4.1)经步骤2.3)得到相邻两帧红外图像的目标候选框;
2.4.2)获取步骤2.4.1)所述目标候选框的位置信息、几何信息和语义信息,计算公式如下:
floc={IoU,dcenters}
fgeo={ratiow,ratioh}
其中IoU是两个目标框的交集,dcenters是两个目标框中心之间的相对欧氏距离,ratiow和ratioh分别是两个目标框的宽度和高度之比,和/>分别为两目标框的类别置信向量,fsem为两框类别置信向量的点积;
2.4.3)将步骤2.4.2)获取的位置信息、几何信息和语义信息经过相似度评分模型,得到两个目标框的相似度评分,计算公式如下:
其中X是训练后的逻辑回归参数,用来区分两个目标候选框中的目标是否属于同一对象;
2.4.4)根据步骤2.4)所述过程对输入的红外序列图像依次进行判别,并将相似度高的同类目标框进行链接,直至所有帧的目标框处理完毕,可以有效的剔除虚警。
本实施例的帧间信息链接模块原理如图4所示;
至此完成了本实施例基于YOLOv5的红外序列图像弱小目标检测网络模型的构建,网络结构如图5所示;
3)训练基于YOLOv5的红外序列图像弱小目标检测网络模型;
3.1)具体参数设置如下:初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100,输入图像尺寸为640×640,网络预训练权重为yolov5s.pt;
3.2)保留步骤3.1)训练得到的权重,用于基于YOLOv5的红外序列图像弱小目标检测网络模型的测试和评估。
4)将步骤1.2构建的红外序列图像的测试集输入步骤3训练后的基于YOLOv5的红外序列图像弱小目标检测网络中,测试基于YOLOv5的红外序列图像弱小目标检测网络的检测性能;
5)评估基于YOLOv5的红外序列图像弱小目标检测网络模型检测效果,具体包括如下步骤:
5.1)使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
5.2)使用准确率来评估网络的查准能力,可以衡量网络模型对样本进行正确分类的能力,计算公式如下:
5.3)使用召回率来评估网络的查全能力,可以反映网络模型能否将正样本全部检测出的能力,计算公式如下:
5.4)使用虚警率来评估网络的误报情况,虚警率的值越小,代表网络的检测性能越好,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将负类目标正确判定为负,TN代表将负样本正确预测为负;
本实施例在地/空背景下红外图像弱小飞机目标检测跟踪数据集上的部分实验效果图如图6所示,其中(a)所在行为YOLOv5网络的检测效果,存在虚警,(b)所在行为本发明实施例的检测效果,有效剔除了虚警干扰并检测出真实目标;
为体现本发明实施例的检测效果,将本发明实施例与现有检测网络进行对比,实验各项指标效果如下表所示:
本发明实施例的检测效果与一些目标检测的主流算法相比,整体检测的平均精度均值有大幅度提升,与原YOLOv5算法相比,平均精度均值在地/空背景下红外图像弱小飞机目标检测跟踪数据集上提升了4.1%,虚警率降低了3.97%,验证了本发明实施例的有效性。
YOLOv5通过主干特征提取网络对输入的图像进行特征提取,为后续的检测提供特征图信息,无论是单帧红外图像还是序列红外图像都可以作为YOLOv5网络的输入,但YOLOv5对图像的特征提取仅限于在单张图像内进行,没有利用序列图像中的帧间关联信息,而对于序列图像的检测而言,利用帧间关联来剔除虚警是提高检测准确率十分有效的方法,因此本发明将YOLOv5的特征提取能力与帧间关联信息结合起来进行弱小目标检测,得到更好的检测效果。
本发明将YOLOv5模型的检测头进行解耦,解耦头可以加快网络的收敛速度并提升检测的平均精度均值,解耦后所得到的Cls分支和Reg分支可以用于进一步的特征信息筛选模块和帧间信息链接模块。
本发明设计的特征信息筛选模块,可以有效的提取目标候选区域,为进一步的帧间信息筛选奠定了基础。
本发明设计的帧间信息链接模块,利用相似度评分模型来计算相邻帧之间目标候选框的相似度得分,将相邻帧中相似度高的目标框进行链接,获得真实目标框并剔除虚警,提升检测的准确率。
本发明提供的一种基于YOLOv5的红外序列图像弱小目标检测方法与主流的目标检测网络相比,平均精度均值、准确率和召回率均有明显提升,同时也降低了虚警率,能够有效减少由于系统噪声和复杂背景干扰带来的虚警,体现出了良好的鲁棒性和适应性。
以上所述仅是本发明的优选实施例,应当指出,本领域技术人员在不脱离本发明原理的情况下对本发明进行的修改、替换和变型,均属于本发明的保护范围。

Claims (5)

1.一种基于YOLOv5的红外序列图像弱小目标检测方法,其特征在于,包括以下的步骤:
步骤1:构建红外序列图像数据集;
步骤2:构建基于YOLOv5的红外序列图像弱小目标检测网络模型;
步骤2.1:构建YOLOv5网络模型,所述YOLOv5网络模型由输入端、主干特征提取网络、特征融合网络和检测头组成;
步骤2.1.1:所述输入端对图像数据进行马赛克数据增强、自适应锚框计算和自适应图片缩放操作,实现输入图像的预处理;
步骤2.1.2:所述主干特征提取网络由CSPDarknet构成,包含Focus层、CSP层、ConvBNSiLU层和SPP层,对步骤2.1.1得到的预处理后的输入图像进行特征提取;
步骤2.1.3:所述特征融合网络由FPN+PAN特征金字塔构成,对步骤2.1.2得到的不同尺寸特征图进行特征融合;
步骤2.1.4:所述检测头有三个分支,分别用来预测大、中、小目标,每个分支上均有一个1×1的卷积,步骤2.1.3得到的特征图通过1×1的卷积层同时预测目标的回归参数、网络预测框与真实目标框的置信度以及每个类别的得分;
步骤2.2:获取YOLOv5解耦头,所述YOLOv5解耦头通过将YOLOv5检测头进行解耦操作而得到,能够加速YOLOv5网络模型的收敛速度并提升检测精度;
步骤2.2.1:将原YOLOv5检测头部的1×1的卷积层替换为ConvBNSiLU层,所述ConvBNSiLU层包含1×1卷积、标准化处理BN和SiLU激活函数;
步骤2.2.2:在步骤2.2.1所述的ConvBNSiLU层后添加分支一和分支二,两个分支分别经过两个卷积核为3×3的ConvBNSiLU层;
步骤2.2.3:将步骤2.2.2得到的分支一经过一个1×1的卷积,得到针对目标类别信息预测的Cls分支;
步骤2.2.4:将步骤2.2.2得到的分支二分为两个分支,分别经过一个1×1的卷积,得到用来预测目标回归分数的Reg分支和用来预测目标置信度的IoU分支;
步骤2.2.5:对三个检测头分别按步骤2.2进行解耦,得到三个YOLOv5解耦头,分别对大、中、小目标进行预测;
步骤2.3:构建特征信息筛选模块,所述特征信息筛选模块通过滑动窗口和边界回归得到,能够有效的提取目标候选框;
步骤2.3.1:所述的特征信息筛选模块的输入为步骤2.1.3特征融合后得到的特征图;
步骤2.3.2:将特征图通过3×3的滑动窗口得到一个H×W×256的中间层,其中H为特征图的高度,W为特征图的宽度;
步骤2.3.3:将步骤2.3.2得到的中间层分别经过两个全连接层,其中一个全连接层得到2k个目标概率,另一个全连接层得到4k个边界回归参数,其中k代表预设的k个锚框;
步骤2.3.4:计算滑动窗口中心点在原始图像上的对应位置,并以该点为中心对原图中预设的k个锚框进行偏移调整,得到预测框;
步骤2.3.5:对预测框进行边界回归调整,得到更接近真实框的目标候选区域,计算公式如下:
Px=Aw·dx(A)+Ax
Py=Ah·dy(A)+Ay
Pw=Aw·exp(dw(A))
Ph=Ah·exp(dh(A))
式中A为预设锚框,P为预测框,预设锚框A=(Ax,Ay,Aw,Ah),P=(Px,Py,Pw,Ph),其中x,y,w,h分别表示各框的中心点坐标、宽度和高度,dx(A)和dy(A)代表中心点坐标的平移变换,dw(A)和dh(A)代表宽与高的缩放变换;
步骤2.3.6:将步骤2.3.5得到的目标候选区域映射到步骤2.2.3得到的Cls分支和步骤2.2.4得到的Reg分支上,用于进一步的帧间信息链接模块;
步骤2.4:构建帧间信息链接模块,所述帧间信息链接模块通过相似度评分模型来链接真实目标并剔除虚警;
步骤2.4.1:经步骤2.3得到相邻两帧红外图像的目标候选框;
步骤2.4.2:获取步骤2.4.1所述目标候选框的位置信息、几何信息和语义信息,计算公式如下:
floc={IoU,dcenters}
fgeo={ratiow,ratioh}
其中,IoU是两个目标框的交集,dcenters是两个目标框中心之间的相对欧氏距离,ratiow和ratioh分别是两个目标框的宽度和高度之比,和/>分别为两目标框的类别置信向量,fsem为两框类别置信向量的点积;
步骤2.4.3:将步骤2.4.2获取的位置信息、几何信息和语义信息经过相似度评分模型,得到两个目标框的相似度评分,计算公式如下:
其中,X是训练后的逻辑回归参数,用来区分两个目标候选框中的目标是否属于同一对象;
步骤2.4.4:根据步骤2.4所述过程对输入的红外序列图像依次进行判别,并将相似度高的同类目标框进行链接,直至所有帧的目标框处理完毕,可以有效的剔除虚警;
步骤3:训练基于YOLOv5的红外序列图像弱小目标检测网络模型;
步骤4:将步骤1构建的红外序列图像数据集输入步骤3训练后的基于YOLOv5的红外序列图像弱小目标检测网络中,测试基于YOLOv5的红外序列图像弱小目标检测网络的检测性能;
步骤5:评估基于YOLOv5的红外序列图像弱小目标检测网络模型检测效果。
2.根据权利要求1所述的基于YOLOv5的红外序列图像弱小目标检测方法,其特征在于,步骤1具体包括如下步骤:
步骤1.1:获取红外序列图像数据集,地或空背景下红外图像弱小飞机目标检测跟踪数据集,并选取其中具有代表性的数据段进行标注,使数据能够被正确读取;
步骤1.2:构建红外序列图像数据集的训练集、验证集和测试集,将所选数据段中的图像和标签按6:2:2的比例随机划分,得到的训练集占总数据集的60%,测试集和验证集均占总数据集的20%。
3.根据权利要求2所述的基于YOLOv5的红外序列图像弱小目标检测方法,其特征在于,步骤4具体为:
将步骤1.2构建的红外序列图像的测试集输入步骤3训练后的基于YOLOv5的红外序列图像弱小目标检测网络中,测试基于YOLOv5的红外序列图像弱小目标检测网络的检测性能。
4.根据权利要求1所述的基于YOLOv5的红外序列图像弱小目标检测方法,其特征在于,步骤3具体包括如下步骤:
步骤3.1:具体参数设置如下:初始学习率Ir=0.01,衰减权重Weight_decay=0.0005,批尺寸Batch_size=16,训练批次Epoch=100,输入图像尺寸为640×640,网络预训练权重为yolov5s.pt;
步骤3.2:保留步骤3.1训练得到的权重,用于基于YOLOv5的红外序列图像弱小目标检测网络模型的测试和评估。
5.根据权利要求1所述的基于YOLOv5的红外序列图像弱小目标检测方法,其特征在于,步骤5具体包括如下步骤:
步骤5.1:使用平均精度均值来评估网络的整体检测效果,计算公式如下:
AP=∫p(r)dr
AP是对P-R(Precision-Recall)曲线上的准确率Precision求均值,其中p为Precision,r为Recall,使用积分来计算P-R曲线的面积;
步骤5.2:使用准确率来评估网络的查准能力,可以衡量网络模型对样本进行正确分类的能力,计算公式如下:
步骤5.3:使用召回率来评估网络的查全能力,可以反映网络模型能否将正样本全部检测出的能力,计算公式如下:
步骤5.4:使用虚警率来评估网络的误报情况,虚警率的值越小,代表网络的检测性能越好,计算公式如下:
式中,TP代表将正类目标正确预测为正,FP代表将负类目标错误的预测为正,FN代表将正类目标错误判定为负,TN代表将负样本正确预测为负。
CN202310758457.8A 2023-06-26 2023-06-26 一种基于YOLOv5的红外序列图像弱小目标检测方法 Active CN116665015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310758457.8A CN116665015B (zh) 2023-06-26 2023-06-26 一种基于YOLOv5的红外序列图像弱小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310758457.8A CN116665015B (zh) 2023-06-26 2023-06-26 一种基于YOLOv5的红外序列图像弱小目标检测方法

Publications (2)

Publication Number Publication Date
CN116665015A CN116665015A (zh) 2023-08-29
CN116665015B true CN116665015B (zh) 2024-04-02

Family

ID=87715236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310758457.8A Active CN116665015B (zh) 2023-06-26 2023-06-26 一种基于YOLOv5的红外序列图像弱小目标检测方法

Country Status (1)

Country Link
CN (1) CN116665015B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395990A (zh) * 2020-11-19 2021-02-23 西安工业大学 多帧红外图像弱小目标检测方法、装置、设备和存储介质
CN113159215A (zh) * 2021-05-10 2021-07-23 河南理工大学 一种基于Faster Rcnn的小目标检测识别方法
CN114549959A (zh) * 2022-02-28 2022-05-27 西安电子科技大学广州研究院 基于目标检测模型的红外弱小目标实时检测方法和系统
CN115331183A (zh) * 2022-08-25 2022-11-11 江苏大学 改进YOLOv5s的红外目标检测方法
CN115205655B (zh) * 2022-09-15 2022-12-09 中国科学院长春光学精密机械与物理研究所 动态背景下的红外暗弱点目标检测系统及其检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395990A (zh) * 2020-11-19 2021-02-23 西安工业大学 多帧红外图像弱小目标检测方法、装置、设备和存储介质
CN113159215A (zh) * 2021-05-10 2021-07-23 河南理工大学 一种基于Faster Rcnn的小目标检测识别方法
CN114549959A (zh) * 2022-02-28 2022-05-27 西安电子科技大学广州研究院 基于目标检测模型的红外弱小目标实时检测方法和系统
CN115331183A (zh) * 2022-08-25 2022-11-11 江苏大学 改进YOLOv5s的红外目标检测方法
CN115205655B (zh) * 2022-09-15 2022-12-09 中国科学院长春光学精密机械与物理研究所 动态背景下的红外暗弱点目标检测系统及其检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alberto Sabater ,et al.Robust and efficient post-processing for video object detection.《2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)》.2020,第1-7页. *
基于非侵入感知的教室综合管理系统研究;王超;《中国优秀硕士学位论文全文数据库社会科学II辑》;第11-16页 *

Also Published As

Publication number Publication date
CN116665015A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN109166094B (zh) 一种基于深度学习的绝缘子故障定位识别方法
WO2020173226A1 (zh) 一种时空行为检测方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN109919977B (zh) 一种基于时间特征的视频运动人物跟踪与身份识别方法
CN111126325B (zh) 一种基于视频的智能人员安防识别统计方法
CN106023257A (zh) 一种基于旋翼无人机平台的目标跟踪方法
CN108648211A (zh) 一种基于深度学习的小目标检测方法、装置、设备和介质
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN114677323A (zh) 一种室内动态场景下基于目标检测的语义视觉slam定位方法
CN116342894B (zh) 基于改进YOLOv5的GIS红外特征识别系统及方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN116704273A (zh) 一种自适应红外可见光双模融合检测方法
CN111160100A (zh) 一种基于样本生成的轻量级深度模型航拍车辆检测方法
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
CN112183287A (zh) 一种移动机器人在复杂背景下的人数统计方法
CN112418149A (zh) 一种基于深卷积神经网络的异常行为检测方法
CN112989958A (zh) 基于YOLOv4与显著性检测的安全帽佩戴识别方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
CN117036404A (zh) 一种单目热成像同时定位与建图方法和系统
CN116665015B (zh) 一种基于YOLOv5的红外序列图像弱小目标检测方法
CN113450321B (zh) 基于边缘检测的单阶段目标检测方法
CN115601841A (zh) 一种联合外观纹理和运动骨架的人体异常行为检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant