CN116630798A - 一种基于改进YOLOv5的SAR图像飞机目标检测方法 - Google Patents

一种基于改进YOLOv5的SAR图像飞机目标检测方法 Download PDF

Info

Publication number
CN116630798A
CN116630798A CN202310553214.0A CN202310553214A CN116630798A CN 116630798 A CN116630798 A CN 116630798A CN 202310553214 A CN202310553214 A CN 202310553214A CN 116630798 A CN116630798 A CN 116630798A
Authority
CN
China
Prior art keywords
target
improved
yolov5
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310553214.0A
Other languages
English (en)
Inventor
张涛
黄柏澄
张增辉
郁文贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202310553214.0A priority Critical patent/CN116630798A/zh
Publication of CN116630798A publication Critical patent/CN116630798A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLOv5的SAR图像飞机目标检测方法,涉及图像目标检测领域。收集获取包含飞机目标的SAR图像数据集,进行图像数据标注,划分为训练集和测试集;改进YOLOv5模型,搭建新的检测模型,包括输入层、主干网络、Neck网络、Head网络;设置好训练参数对检测模型进行训练,进行性能测试,采取精确度、召回率等评价指标来评估模型目标检测效果。本发明可以改进传统SAR飞机目标检测算法复杂背景下易漏检、虚检飞机的瓶颈,生成的飞机目标检测算法结合使用了引进注意力机制加强关注目标位置信息方法、特征融合方法以及全局信息关注方法,通过改进YOLOv5检测模型的主干网络、颈部结构、输出检测头来进行飞机目标的特征融合,提升飞机目标检测精度。

Description

一种基于改进YOLOv5的SAR图像飞机目标检测方法
技术领域
本发明涉及图像目标检测领域,尤其涉及一种基于改进YOLOv5的SAR图像飞机目标检测方法。
背景技术
合成孔径雷达(SyntheticAperture Radar,SAR)是一种主动式微波成像传感器,具有全天时、全天候的成像观测能力。SAR自20世纪50年代诞生之后,由于其独特的成像机制,其在军事和民用领域都得到了广泛的应用。在民用领域,SAR在矿藏资源探测、灾情探测与防治、地形探测与绘制及农业、林业等方面发挥着巨大的作用;在军事领域,SAR图像在战场态势感知、典型目标识别和精准指导、隐形目标散射特性的静动态测量等方面具有突出的意义。由于SAR的独特性能,SAR图像目标解译技术受到了各国的重视,飞机作为其中一类重要的目标,在民用领域,飞机检测有助于机场的有效管理;在军事领域,获取飞机的数量、分布等信息具有重要价值。因此,利用SAR图像进行飞机目标的精确检测识别是个研究的热点方向并且具有重要意义。
近年来,随着深度神经网络的发展,目标检测模型分为one-stage检测模型和two-stage检测模型。双阶段检测模型先在图像中生产大量的候选区域,再通过卷积神经网络对这些区域进行特征提取,最后识别目标类别和位置。常用的双阶段目标检测模型有R-CNN、Fast R-CNN、Faster R-CNN等。基于候选区域的双阶段目标检测算法虽然精度很高,但是检测效率不高,而单阶段目标检测方法不需要生成候选区域,直接从输入图像中提取特征,继而预测物体的类别与位置信息。常用的单阶段目标检测模型有SSD和YOLO。
单阶段检测模型在速度上远远优于双阶段检测模型。在单阶段检测模型检测速度较快的情况下,检测时精度都没有达到预想的要求,在复杂背景中容易虚检、漏检目标。因此,通过改进检测模型进一步提升SAR图像飞机目标检测精度具有重要意义。
因此,本领域的技术人员致力于开发一种基于改进YOLOv5的SAR图像飞机目标检测方法,能够尽量避免漏检、误检,使得复杂背景下的飞机目标能够被精准检测。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是避免漏检、误检,精准检测复杂背景下的飞机目标。
为实现上述目的,本发明提供了一种基于改进YOLOv5的SAR图像飞机目标检测方法,对目标检测算法YOLOv5进行改进,获得改进后的目标检测算法YOLOv5,包括以下步骤:
步骤1、在输入层中采用Mosaic数据增强方式,对输入图像进行预处理,采用K均值聚类算法针对飞机目标尺寸优化锚框;
步骤2、所述步骤1的特征图输入改进的主干网络,改进的主干网络是指在主干网络中引入坐标注意力机制CA,采用SPD-CA卷积块替换主干网络对图像进行下采样所采用的跨步卷积;
步骤3、所述步骤2得到的不同尺度的图像特征图输入到改进的YOLOv5网络中的Neck部分,采用设计的FFP特征融合金字塔网络结构改进目标检测算法YOLOv5的Neck结构,实现自适应特征融合;
步骤4、所述步骤3得到不同尺度的张量数据,输入到改进的YOLOv5网络中的预测层部分,在预测层之前添加全局注意力机制GAM,捕捉全局信息,减少不准确的目标定位。
进一步地,所述步骤1,所述Mosaic数据增强方式采用图片随机缩放、随机裁剪、随机排布的方式进行拼接,对输入图像进行预处理,提升小目标的检测效果。
进一步地,所述步骤1,采用K-means聚类算法针对数据集中飞机目标尺寸优化锚框,通过对数据进行聚类分析提升先验框和目标框的匹配度,进行自适应锚框计算,对每个检测头都更换所有初始锚框大小。
进一步地,所述步骤2,在YOLOv5模型的主干网络部分将下采样所用的3*3卷积核且步数为2的卷积块替换为设计的SPD-CA卷积块,完全替代卷积步长和池化层;SPD层是一个由空间到深度的连接层,具体操作是在图像中每隔一个像素提取出一个值,类似于邻近下采样,将特征图分为四张子特征图,具体表示如下:
f0,0=X[0:S:2,0:S:2],f1,0=X[1:S:2,0:S:2],
f0,1=X[0:S:2,1:S:2],f1,1=X[1:S:2,1:S:2]
S为图像尺寸size,之后沿着通道维度将这些子特征映射连接在一起,在对特征映射进行下采样的同时,保留了通道维度的所有信息,避免了信息的非歧视丢失;在SPD层后引入坐标注意力机制层CA,加强对目标点的注意,感受飞机目标的位置信息,最后添加一层单步长卷积层去改变使用学习参数的通道数量。
进一步地,所述步骤3,从主干网络的后端将所述步骤2得到的图像特征图输入到改进的YOLOv5网络中的Neck部分,Neck结构由原来的PANet简单双向特征金字塔结构变为设计的FFP特征融合金字塔结构;Neck在特征金字塔网络的基础上引入自下而上的路径增强结构,细化主干网络输出的图像特征矩阵实现双向特征金字塔,并吸收BiFPN与ASFF两种结构的思想,在主干网络与自下而上特征融合路径之间增加跳跃连接分支,即处在同一层次的输入节点与输出节点之间添加一条额外的边,使其能在同层次之间融合更多的特征;同时,在双向特征传输的路径当中加入ASFF特征融合结构,实现不同层次之间特征的交叉融合。
进一步地,所述步骤4,不同尺度的特征图数据输入到改进的YOLOv5网络中的预测层部分,在Neck部分后端即预测层之前集成一种全局注意力机制,使得模型结合不同尺度下的目标特征,保留特征融合之后的目标特征信息。
进一步地,还包括以下步骤:基于获取到的SAR图像飞机目标数据集,得到带有标签的图像数据集。
进一步地,所述图像数据集,划分为训练集和测试集,75%作为训练集,25%作为测试集。
进一步地,还包括以下步骤:设置训练参数,利用训练集对检测模型进行训练,得到训练后的模型以及权重文件,利用测试集以及精确率、召回率、F1分数等评价指标对训练后的模型进行性能评估。
进一步地,所述训练参数,包括:epoch为100,lr为0.01,momentum为0.937,batchsize为8;损失函数由回归定位损失和置信度损失组成进行约束,使用随机梯度下降法SGD对目标函数进行优化,采用训练过程中将模型表现最好的权重参数保存文件对改进的目标检测算法YOLOv5进行评估,加载后对测试集飞机目标进行测试。
在本发明的较佳实施方式中,对于将飞机目标图像输入YOLOv5模型主干网络进行下采样特征提取时,下采样使用的跨步卷积会造成信息的非歧视丢失,且检测网络没有很好的关注到飞机目标的位置,需要加强网络对飞机目标的注意,减少漏检进一步提升检测效果。本发明改进主干网络,改进的主干网络是指在主干网络中引入坐标注意力机制CA,设计并采用了一种SPD-CA卷积块替换主干网络对图像进行下采样所采用的跨步卷积,更加关注飞机目标位置信息。在YOLOv5模型的主干网络部分将下采样所用的3*3卷积核且步数为2的卷积块替换为设计的SPD-CA卷积块,完全替代卷积步长和池化层。SPD层是一个由空间到深度的连接层,具体操作是在图像中每隔一个像素提取出一个值,类似于邻近下采样,将特征图分为四张子特征图,之后沿着通道维度将这些子特征映射连接在一起。改进的SPD-CA模块包括一个SPD层,原理为在下采样过程中存在大量的冗余像素信息,当替代跨跃卷积和池化,模型仍然可以很好地学习特征。SPD将图像特征图分成四张子特征图,用通道维度方式将其连接在一起,对特征进行下采样映射的同时,很好地保留通道维度中的所有信息;之后添加高效的坐标注意力机制层CA,通过精确的位置信息对通道关系和长期依赖性进行编码,在特定的位置方向上增加并改善飞机目标的兴趣点;最后连接一个卷积层方便改变通道数量。避免主干网络下采样时特征信息的非歧视丢失;加强对目标点的注意,更好地感受飞机目标的位置信息;此模块设计让通道信息得到了很好的保留,更多的特征信息可以在后面的结构进行融合。
对于将图像输入YOLOv5检测模型主干网络后得到的多尺度图像特征图,飞机目标的图像特征没有很好地进行不同层次之间的特征融合,使网络在传输过程中损失一些信息且不能很好地进行多尺度特征针对性学习,从而会导致检测精度损失。本发明设计了新颖的Neck结构FFP特征融合金字塔网络结构改进替换YOLOv5原来的PANet简单双向特征金字塔结构。从主干网络的后端得到的多尺度图像特征图输入到改进的YOLOv5网络中的Neck部分,Neck在特征金字塔网络的基础上引入自下而上的路径增强结构,细化主干网络输出的图像特征矩阵实现双向特征金字塔,并吸收BiFPN与ASFF两种结构的思想,在主干网络与自下而上特征融合路径之间增加跳跃连接分支,即处在同一层次的输入节点与输出节点之间添加一条额外的边,使其能在同层次之间融合更多的特征。同时,在双向特征传输的路径当中加入ASFF特征融合结构,实现不同层次之间特征的交叉融合。使检测模型实现同层次之间能够融合更多有效特征,且交叉融合不同层次之间的特征;实现多尺度、高层次的自适应特征融合。
对于检测模型进行飞机目标预测时通常会出现不准确的目标定位,需要加强对预测输出的信息注意,减少飞机目标的错检与虚检。本发明得到的不同尺度的特征图数据输入到改进的YOLOv5网络中的预测层部分,在Neck部分后端即预测层之前集成一种全局注意力机制GAM。在特征融合结构之后,即三个输出检测层之前添加全局注意力机制,全局注意力机制可以起到减少网络信息缩减并放大全局维度交互特征的作用,将飞机目标检测网络中跨越通道、空间宽度和空间高度研究注意力权重,保留信息以放大“全局”跨维度交互的能力,能够捕捉此三个维度的重要特征。使得模型更好结合不同尺度下的目标特征,保留更多特征融合之后的目标特征信息;更好地捕捉全局信息,减少不准确的目标定位。
本发明与现有技术相比较,具有如下显而易见的实质性特点和显著优点:
本发明首先采用K-means聚类优化飞机目标锚框,降低漏错检概率;接着在主干网络通过引入坐标注意力机制设计新的下采样卷积模块,能够更有效地学习目标位置特征;然后在颈部网络结构改进特征融合方式,设计特征融合金字塔结构,增强多尺度学习与特征信息融合;最后,在网络模型末端添加全局注意力机制,使网络获得更多的全局信息与上下文信息,更好地进行飞机目标位置检测。因此,本发明具有能很好避免复杂背景下虚检、漏检飞机目标的优势,与现有技术相比能够更好地提高SAR图像飞机目标检测精度,确保飞机能够被准确检测。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的整体流程步骤图;
图2是本发明的一个较佳实施例的改进YOLOv5主干网络的SPD-CA模块示意图;
图3是本发明的一个较佳实施例的坐标注意力机制CA结构图;
图4是本发明的一个较佳实施例的改进YOLOv5的Neck网络结构示意图;
图5是本发明的一个较佳实施例的全局注意力机制GAM结构图;
图6是本发明的一个较佳实施例的改进的YOLOv5检测模型整体结构图;
图7是本发明的一个较佳实施例的数据集尺寸散点热力图;
图8是本发明的一个较佳实施例的训练结果PR曲线图;
图9是本发明的一个较佳实施例的训练结果Loss曲线图;
图10是本发明的一个较佳实施例的检测结果可视化图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
本发明所要解决的技术问题是提供一种基于改进YOLOv5的SAR图像舰船目标检测方法,能够尽量避免漏检、误检,使得复杂背景下的飞机目标能够被精准检测。
本发明解决其技术问题所采用的技术方案是:提供一种基于改进YOLOv5的SAR图像飞机目标检测算法,包括以下步骤:
基于获取到的SAR图像飞机目标数据集,得到带有标签的图像数据集,将其划分为训练集和测试集,其中75%作为训练集,25%作为测试集;
对目标检测算法YOLOv5进行改进,获得改进后的目标检测算法YOLOv5,具体包括:
(1)在输入层中采用Mosaic数据增强方式,对输入图像进行预处理,采用K均值聚类算法针对飞机目标尺寸优化锚框。
(2)对步骤(1)特征图输入改进的主干网络,改进的主干网络是指在主干网络中引入坐标注意力机制CA,设计并采用了一种SPD-CA卷积块替换主干网络对图像进行下采样所采用的跨步卷积,更加关注飞机目标位置信息。
(3)对步骤(2)得到的不同尺度的图像特征图输入到改进的YOLOv5网络中的Neck部分,采用设计的FFP特征融合金字塔网络结构改进目标检测算法YOLOv5的Neck结构,实现多尺度、高层次的自适应特征融合。
(4)对步骤(3)得到不同尺度的张量数据,将其输入到改进的YOLOv5网络中的预测层部分,在预测层之前添加全局注意力机制GAM,更好地捕捉全局信息,减少不准确的目标定位。
设置训练参数,利用训练集对新的检测模型进行训练,得到训练后的模型以及权重文件,利用测试集以及精确率、召回率、F1分数等评价指标对训练后的模型进行性能评估。
进一步地,步骤(1)的具体方法如下:
所述Mosaic数据增强方式采用多张图片,随机缩放、随机裁剪、随机排布的方式进行拼接,对输入图像进行预处理,提升小目标的检测效果。采用K-means聚类算法针对数据集中飞机目标尺寸优化锚框,通过对数据进行聚类分析提升先验框和目标框的匹配度,进行自适应锚框计算,对三个检测头的每个检测头都更换所有初始锚框大小,分别为(33,33),(42,51),(52,43),(95,72),(81,94),(114,88),(92,122),(154,160),(277,273)。
进一步地,步骤(2)的具体方法如下:
在YOLOv5模型的主干网络部分将下采样所用的3*3卷积核且步数为2的卷积块替换为设计的SPD-CA卷积块,完全替代卷积步长和池化层。SPD层是一个由空间到深度的连接层,具体操作是在图像中每隔一个像素提取出一个值,类似于邻近下采样,将特征图分为四张子特征图,具体表示如下(S为图像尺寸size):
f0,0=X[0:S:2,0:S:2],f1,0=X[1:S:2,0:S:2],
f0,1=X[0:S:2,1:S:2],f1,1=X[1:S:2,1:S:2]
之后沿着通道维度将这些子特征映射连接在一起,这样在对特征映射进行下采样的同时,保留了通道维度的所有信息,避免了信息的非歧视丢失。在SPD层后引入坐标注意力机制层CA,加强对目标点的注意,更好地感受飞机目标的位置信息,最后添加一层单步长卷积层去改变使用学习参数的通道数量。
进一步地,步骤(3)的具体方法如下:
从主干网络的后端将步骤(2)得到的多尺度图像特征图输入到改进的YOLOv5网络中的Neck部分,Neck结构由原来的PANet简单双向特征金字塔结构变为设计的FFP特征融合金字塔结构。Neck在特征金字塔网络的基础上引入自下而上的路径增强结构,细化主干网络输出的图像特征矩阵实现双向特征金字塔,并吸收BiFPN与ASFF两种结构的思想,在主干网络与自下而上特征融合路径之间增加跳跃连接分支,即处在同一层次的输入节点与输出节点之间添加一条额外的边,使其能在同层次之间融合更多的特征。同时,在双向特征传输的路径当中加入ASFF特征融合结构,实现不同层次之间特征的交叉融合。
进一步地,步骤(4)的具体方法如下:
将步骤(3)得到的不同尺度的特征图数据输入到改进的YOLOv5网络中的预测层部分,在Neck部分后端即预测层之前集成一种全局注意力机制,使得模型更好结合不同尺度下的目标特征,保留更多特征融合之后的目标特征信息。
进一步地,所述训练参数,包括:epoch为100,lr为0.01,momentum为0.937,batchsize为8;损失函数由回归定位损失和置信度损失组成进行约束,使用随机梯度下降法SGD对该目标函数进行优化采用训练过程中将模型表现最好的权重参数保存文件对改进的目标检测算法YOLOv5进行评估,加载后对测试集飞机目标进行测试;
本发明的实施方式涉及一种基于改进YOLOv5的SAR图像飞机目标检测方法,如图1所示为本发明整体流程步骤图,包括以下步骤:收集获取包含飞机目标的SAR图像数据集,进行图像数据标注,并按75%,25%的比例划分为训练集和测试集;改进YOLOv5模型,搭建新的检测模型,该模型包括输入层、主干网络、Neck网络、Head网络;设置好训练参数对新的检测模型进行训练,对模型进行性能测试,采取精确度、召回率等评价指标来评估模型目标检测效果。
本实施方式可以改进传统SAR飞机目标检测算法复杂背景下易漏检、虚检飞机的瓶颈,该方式生成的飞机目标检测算法结合使用了引进注意力机制加强关注目标位置信息方法、特征融合方法以及全局信息关注方法,其核心是通过改进YOLOv5检测模型的主干网络、颈部结构、输出检测头来进行飞机目标的特征融合,从而进一步提升飞机目标检测精度。具体步骤如下:
步骤一,首先对获取到的飞机目标图像数据集进行Mosaic数据增强,一定程度上提高了小目标检测能力;然后采用无监督聚类算法K-means针对数据集中飞机目标尺寸聚类得到九个锚框,样本距离度量指标为IOU距离,进行自适应锚框调整。
步骤二,主干网络的作用主要是提取特征,如图2所示设计了一种SPD-CA模块用于替换主干网络对图像进行下采样所采用的卷积块,从而对主干网络进行改进,很好地避免在下采样过程中图像信息的丢失,且引入坐标注意力机制加强目标的注意点,减少杂波的注意点。改进的SPD-CA模块包括一个SPD层,原理为在下采样过程中存在大量的冗余像素信息,当替代跨跃卷积和池化,模型仍然可以很好地学习特征。SPD将图像特征图分成四张子特征图,用通道维度方式将其连接在一起,对特征进行下采样映射的同时,很好地保留通道维度中的所有信息;之后添加高效的坐标注意力机制层CA如图3所示,通过精确的位置信息对通道关系和长期依赖性进行编码,在特定的位置方向上增加并改善飞机目标的兴趣点;最后连接一个卷积层方便改变通道数量,此模块设计让通道信息得到了很好的保留,更多的特征信息可以在后面的结构进行融合。
步骤三,在经过主干网络提取特征之后,高层特征与低层特征的使用对提升模型目标检测效果非常关键,Neck网络结构主要进行特征融合,加强信息传播,原始YOLOv5模型在特征融合结构使用PANET(如图4(a))的简单双向特征融合,整体提高了特征的使用和融合,但是会在传输过程中损失一些信息且未能针对性学习特征进行融合。因此,本发明借鉴BiFPN特征融合结构(如图4(b))和ASFF自适应特征融合结构(如图4(c))两种思想,在主干网络与自下而上特征融合路径之间增加跳跃连接分支,并在双向特征传输的路径当中加入ASFF特征融合结构,最后的Neck特征融合结构如图4(d)所示,实现同层次能够融合更多特 ,且交叉融合不同层次之间的特征。
步骤四,在特征融合结构之后,即三个输出检测层之前添加全局注意力机制,如图5所示,全局注意力机制可以起到减少网络信息缩减并放大全局维度交互特征的作用,将飞机目标检测网络中跨越通道、空间宽度和空间高度研究注意力权重,保留信息以放大“全局”跨维度交互的能力,能够捕捉此三个维度的重要特征。
本发明通过改进YOLOv5检测模型对SAR图像飞机目标进行检测,图6为改进之后模型整体网络结构图,最终改进模型具有能很好避免复杂背景下虚检、漏检飞机目标的优势,与原YOLOv5检测模型相比更好地提高了SAR图像飞机目标检测精度。
在本发明实际案例中,模型训练实施方式平台为Ubuntu操作系统,实验模型使用Pytorch2.0.0框架,训练环境为Nvidia 4090Ti(显存24G)GPU。数据集选择为获取到的SAR图像飞机数据集,其中2225张作为训练集,741张作为测试集;图7为数据集中被检测飞机目标尺寸的散点热力图,横轴为宽度比例值,纵轴为高度比例值,图中的点由浅到深代表目标尺寸越来越集中,可以看出飞机目标偏小目标居多。
设置训练参数,训练轮数为100轮,步长为8,初始学习率为0.01;采用训练集对改进后的模型进行训练,得到训练后的模型,利用测试集以及评价指标对训练后的模型进行评估。对改进的目标检测算法YOLOv5进行评估,评价指标包括:精确度Precision,简称P;召回率Recall,简称R;F1分数F1-Score是精确度和召回率的调和平均数,为目标检测的综合考量指标。图8是本发明实际案例训练结果PR曲线图;图9是本发明实际案例训练结果Loss曲线图。
其中,TP为正确检测的目标个数,FN为漏检的目标个数,FP为虚检的目标个数,具体公式如下:
方法类型 Precision Recall F1-score
YOLOv5 0.950 0.956 0.952
改进的YOLOv5 0.970 0.975 0.972
表1
实验结果分析:如表1所见,改进后的目标检测模型相比原始YOLOv5能提升2%的检测精度,在基础检测精度较高的情况下,能够进一步提升飞机目标检测效果。表2为改进模块的消融对比实验,验证了本发明改进模块混合使用对飞机目标的检测效果。SAR图像飞机目标检测效果可视化结果如图10所示。
FFP SPDCA GAM Precision Recall F1-score
× × × 0.950 0.956 0.952
× × 0.961 0.963 0.962
× 0.965 0.974 0.969
0.970 0.975 0.972
表2
本发明基于YOLOv5检测算法进行改进,具体采用K-means聚类优化飞机目标锚框,在主干网络通过引入坐标注意力机制设计新的下采样卷积模块,然后在颈部网络结构改进特征融合方式,最后,添加全局注意力机制注重全局信息。通过实验表明,改进后的模型相较于YOLOv5s与其他目标检测算法具有一定的优越性,具有较高应用价值,能够为SAR图像飞机目标检测提供技术支撑。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,对目标检测算法YOLOv5进行改进,获得改进后的目标检测算法YOLOv5,包括以下步骤:
步骤1、在输入层中采用Mosaic数据增强方式,对输入图像进行预处理,采用K均值聚类算法针对飞机目标尺寸优化锚框;
步骤2、所述步骤1的特征图输入改进的主干网络,改进的主干网络是指在主干网络中引入坐标注意力机制CA,采用SPD-CA卷积块替换主干网络对图像进行下采样所采用的跨步卷积;
步骤3、所述步骤2得到的不同尺度的图像特征图输入到改进的YOLOv5网络中的Neck部分,采用设计的FFP特征融合金字塔网络结构改进目标检测算法YOLOv5的Neck结构,实现自适应特征融合;
步骤4、所述步骤3得到不同尺度的张量数据,输入到改进的YOLOv5网络中的预测层部分,在预测层之前添加全局注意力机制GAM,捕捉全局信息,减少不准确的目标定位。
2.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述步骤1,所述Mosaic数据增强方式采用图片随机缩放、随机裁剪、随机排布的方式进行拼接,对输入图像进行预处理,提升小目标的检测效果。
3.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述步骤1,采用K-means聚类算法针对数据集中飞机目标尺寸优化锚框,通过对数据进行聚类分析提升先验框和目标框的匹配度,进行自适应锚框计算,对每个检测头都更换所有初始锚框大小。
4.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述步骤2,在YOLOv5模型的主干网络部分将下采样所用的3*3卷积核且步数为2的卷积块替换为设计的SPD-CA卷积块,完全替代卷积步长和池化层;SPD层是一个由空间到深度的连接层,具体操作是在图像中每隔一个像素提取出一个值,类似于邻近下采样,将特征图分为四张子特征图,具体表示如下:
f0,0=X[0:S:2,0:S:2],f1,0=X[1:S:2,0:S:2],
f0,1=X[0:S:2,1:S:2],f1,1=X[1:S:2,1:S:2]
S为图像尺寸size,之后沿着通道维度将这些子特征映射连接在一起,在对特征映射进行下采样的同时,保留了通道维度的所有信息,避免了信息的非歧视丢失;在SPD层后引入坐标注意力机制层CA,加强对目标点的注意,感受飞机目标的位置信息,最后添加一层单步长卷积层去改变使用学习参数的通道数量。
5.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述步骤3,从主干网络的后端将所述步骤2得到的图像特征图输入到改进的YOLOv5网络中的Neck部分,Neck结构由原来的PANet简单双向特征金字塔结构变为设计的FFP特征融合金字塔结构;Neck在特征金字塔网络的基础上引入自下而上的路径增强结构,细化主干网络输出的图像特征矩阵实现双向特征金字塔,并吸收BiFPN与ASFF两种结构的思想,在主干网络与自下而上特征融合路径之间增加跳跃连接分支,即处在同一层次的输入节点与输出节点之间添加一条额外的边,使其能在同层次之间融合更多的特征;同时,在双向特征传输的路径当中加入ASFF特征融合结构,实现不同层次之间特征的交叉融合。
6.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述步骤4,不同尺度的特征图数据输入到改进的YOLOv5网络中的预测层部分,在Neck部分后端即预测层之前集成一种全局注意力机制,使得模型结合不同尺度下的目标特征,保留特征融合之后的目标特征信息。
7.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,还包括以下步骤:基于获取到的SAR图像飞机目标数据集,得到带有标签的图像数据集。
8.如权利要求7所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述图像数据集,划分为训练集和测试集,75%作为训练集,25%作为测试集。
9.如权利要求1所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,还包括以下步骤:设置训练参数,利用训练集对检测模型进行训练,得到训练后的模型以及权重文件,利用测试集以及精确率、召回率、F1分数评价指标对训练后的模型进行性能评估。
10.如权利要求9所述的基于改进YOLOv5的SAR图像飞机目标检测方法,其特征在于,所述训练参数,包括:epoch为100,lr为0.01,momentum为0.937,batchsize为8;损失函数由回归定位损失和置信度损失组成进行约束,使用随机梯度下降法SGD对目标函数进行优化,采用训练过程中将模型表现最好的权重参数保存文件对改进的目标检测算法YOLOv5进行评估,加载后对测试集飞机目标进行测试。
CN202310553214.0A 2023-05-16 2023-05-16 一种基于改进YOLOv5的SAR图像飞机目标检测方法 Pending CN116630798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553214.0A CN116630798A (zh) 2023-05-16 2023-05-16 一种基于改进YOLOv5的SAR图像飞机目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553214.0A CN116630798A (zh) 2023-05-16 2023-05-16 一种基于改进YOLOv5的SAR图像飞机目标检测方法

Publications (1)

Publication Number Publication Date
CN116630798A true CN116630798A (zh) 2023-08-22

Family

ID=87641084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553214.0A Pending CN116630798A (zh) 2023-05-16 2023-05-16 一种基于改进YOLOv5的SAR图像飞机目标检测方法

Country Status (1)

Country Link
CN (1) CN116630798A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895030A (zh) * 2023-09-11 2023-10-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN117037004A (zh) * 2023-08-28 2023-11-10 淮阴工学院 基于多尺度特征融合和上下文增强的无人机影像检测方法
CN117437697A (zh) * 2023-12-20 2024-01-23 广州思德医疗科技有限公司 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117854045A (zh) * 2024-03-04 2024-04-09 东北大学 一种面向自动驾驶的车辆目标检测方法
CN118038172A (zh) * 2024-03-11 2024-05-14 广东石油化工学院 基于特征增强和深度网络的温控器质量检测方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037004A (zh) * 2023-08-28 2023-11-10 淮阴工学院 基于多尺度特征融合和上下文增强的无人机影像检测方法
CN116895030A (zh) * 2023-09-11 2023-10-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN116895030B (zh) * 2023-09-11 2023-11-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN117437697A (zh) * 2023-12-20 2024-01-23 广州思德医疗科技有限公司 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统
CN117437697B (zh) * 2023-12-20 2024-04-30 广州思德医疗科技有限公司 卧姿人体检测模型的训练方法、卧姿人体检测方法及系统
CN117765378A (zh) * 2024-02-22 2024-03-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117765378B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 多尺度特征融合的复杂环境下违禁物品检测方法和装置
CN117854045A (zh) * 2024-03-04 2024-04-09 东北大学 一种面向自动驾驶的车辆目标检测方法
CN118038172A (zh) * 2024-03-11 2024-05-14 广东石油化工学院 基于特征增强和深度网络的温控器质量检测方法及系统

Similar Documents

Publication Publication Date Title
CN116630798A (zh) 一种基于改进YOLOv5的SAR图像飞机目标检测方法
Li et al. Cross-layer attention network for small object detection in remote sensing imagery
Wang et al. YOLOv3-MT: A YOLOv3 using multi-target tracking for vehicle visual detection
CN113420607A (zh) 无人机多尺度目标检测识别方法
Xu et al. Scale-aware feature pyramid architecture for marine object detection
Gong et al. Object detection based on improved YOLOv3-tiny
CN110111345A (zh) 一种基于注意力网络的3d点云分割方法
Zhang et al. A object detection and tracking method for security in intelligence of unmanned surface vehicles
CN112711034A (zh) 物体检测方法、装置及设备
Lian et al. Towards unified on-road object detection and depth estimation from a single image
CN115410102A (zh) 基于联合注意力机制的sar图像飞机目标检测方法
Qu et al. Improved YOLOv5-based for small traffic sign detection under complex weather
CN114022752B (zh) 基于注意力特征精细化及对齐的sar目标检测方法
CN115272882A (zh) 一种基于遥感影像的离散建筑物检测方法及系统
CN117975381A (zh) 一种基于多尺度注意力的道路车辆检测方法
Shi et al. Complex optical remote-sensing aircraft detection dataset and benchmark
Yang et al. An effective and lightweight hybrid network for object detection in remote sensing images
CN113537026A (zh) 建筑平面图中的图元检测方法、装置、设备及介质
CN116385876A (zh) 基于yolox的光学遥感影像地物检测方法
Zhao et al. OASL: Orientation-aware adaptive sampling learning for arbitrary oriented object detection
CN114359258B (zh) 红外移动对象目标部位的检测方法、装置及系统
Liu et al. Mob-YOLO: A Lightweight UAV Object Detection Method
CN112651986B (zh) 环境识别方法、识别装置、识别系统、电子设备及介质
CN114565753A (zh) 一种基于改进YOLOv4网络的无人机小目标识别方法
Chen et al. Small obstacles image detection and classification for driver assistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination