CN116469002A - 基于多级特征融合及混合注意力的sar图像舰船目标检测方法 - Google Patents

基于多级特征融合及混合注意力的sar图像舰船目标检测方法 Download PDF

Info

Publication number
CN116469002A
CN116469002A CN202310273227.2A CN202310273227A CN116469002A CN 116469002 A CN116469002 A CN 116469002A CN 202310273227 A CN202310273227 A CN 202310273227A CN 116469002 A CN116469002 A CN 116469002A
Authority
CN
China
Prior art keywords
module
feature
feature extraction
sar image
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310273227.2A
Other languages
English (en)
Inventor
侯彪
梁爽
任博
任仲乐
杨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310273227.2A priority Critical patent/CN116469002A/zh
Publication of CN116469002A publication Critical patent/CN116469002A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • G01S13/90Radar or analogous systems specially adapted for specific applications for mapping or imaging using synthetic aperture techniques, e.g. synthetic aperture radar [SAR] techniques
    • G01S13/9021SAR image post-processing techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,包括:构建用于SAR图像舰船目标检测的YOLO‑SP网络模型,所述YOLO‑SP网络模型包括依次连接的主干特征提取网络、多级特征融合网络和检测头;利用训练数据集对所构建的YOLO‑SP网络模型进行训练,计算损失函数,并反向更新模型参数,获得训练后的YOLO‑SP网络模型;对待检测的SAR图像进行数据标准化预处理,获得预处理后的像素矩阵;将预处理后的像素矩阵输入训练后的YOLO‑SP网络模型,对待检测的SAR图像进行舰船目标检测,获得目标的类别信息、位置信息和置信度。本发明通过多级特征提取策略与混合注意力机制,加强了目标特征信息的提取,提高对舰船目标的检测精度。

Description

基于多级特征融合及混合注意力的SAR图像舰船目标检测 方法
技术领域
本发明属于目标检测技术领域,具体涉及一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法。
背景技术
合成孔径雷达(SAR)是一种主动式微波传感遥感成像雷达,不会受到时间、天气等因素的影响,可以全天时、全天候实施监测,而且具有高精度和强抗干扰能力,广泛应用于军事和民用方面,如环境保护、灾害监测、海洋观测、资源保护、土地覆盖、精确农业、城区检测以及地理测绘等。合成孔径雷达一般安装在飞机或卫星上,可以获取高分辨率的SAR图像。对SAR图像中舰船目标进行检测具有军事和民用方面重要的意义。
SAR图像舰船检测方法分为传统方法和基于深度学习的方法。传统SAR图像舰船目标检测算法通常可分为三个阶段:图像预处理、候选区域提取和目标检测与识别。一般SAR图像存在海面环境造成的十字形的相干斑噪声干扰和海杂波干扰,因此需要对SAR图像进行滤波处理,抑制相干斑;其次为了减少陆地和港口存在一些强散射目标造成的虚警,需要海陆分割方法去除陆地虚警;经过预处理的SAR图像可以更好满足后续任务处理。候选区域提取即从大幅SAR图像中将可能是舰船目标的区域提取为候选区域。目标检测与识别对获取的候选区域采用人工设计的特征提取分类器进行检测,最终输出检测的舰船结果。
基于深度学习的方法主要采用卷积神经网络模型。主流的基于深度学习的目标检测算法分为两种:双阶段检测算法和单阶段检测算法。双阶段检测算法先在SAR图像上生成候选框,然后再对候选框进行分类和回归,确定图像中目标的位置和类别,单阶段检测算法直接跳过候选区域,将SAR图像直接送入卷积神经网络进行特征提取,完成对目标的检测任务。
对SAR图像中舰船目标进行检测是一项极具挑战性的任务,面临着SAR图像固有的相干斑噪声导致舰船目标边缘不明显、难以检测近岸舰船目标和小尺度舰船目标等难题。传统的SAR图像舰船检测主要通过人为手工提取图片中的舰船特征,区分舰船目标和其他背景目标完成对舰船目标的检测,但是鲁棒性和时效性不足。而基于深度学习的SAR图像舰船检测方法虽然检测效果更好,但是会出现陆地检测虚警和小尺度舰船漏警的问题,检测精度不高。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,包括:
S1:构建用于SAR图像舰船目标检测的YOLO-SP网络模型,所述YOLO-SP网络模型包括依次连接的主干特征提取网络、多级特征融合网络和检测头,其中,所述主干特征提取网络用于对预处理的SAR图像进行特征提取,并输出多个不同尺度的特征图;所述多级特征融合网络用于对所述不同尺度的特征图进行特征融合,获得多个不同尺度的预测特征图;所述检测头用于对所述预测特征图进行分类回归操作,得到所述SAR图像舰船目标的类别信息、位置信息和置信度;
S2:利用训练数据集对所构建的YOLO-SP网络模型进行训练,计算损失函数,并反向更新模型参数,获得训练后的YOLO-SP网络模型;
S3:对待检测的SAR图像进行数据标准化预处理,获得预处理后的像素矩阵;
S4:将预处理后的像素矩阵输入训练后的YOLO-SP网络模型,对待检测的SAR图像进行舰船目标检测,获得目标的类别信息、位置信息和置信度。
在本发明的一个实施例中,所述主干特征提取网络包括依次连接的Focus模块、卷积层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层和卷积层,其中,所述Focus模块用于对输入的像素矩阵进行切片操作,获得信息互补的多个下采样特征图并通过拼接和卷积操作,得到2倍下采样特征图;所述CSP-Tiny模块用于对输入特征图中的信息进行提取;所述卷积层均为3×3卷积层。
在本发明的一个实施例中,所述Focus模块包括切片单元、拼接单元和一个卷积层,其中,所述切片单元用于对SAR图像预处理后的像素矩阵进行切片处理,在像素矩阵中每隔一个像素获取一个值,获得多个数据互补的像素矩阵;所述拼接单元用于对所述多个数据互补的像素矩阵进行拼接,所述一个卷积层用于对拼接后的像素矩阵进行图像特征提取,并输出特征图。
在本发明的一个实施例中,所述多级特征融合网络包括第一特征提取模块、第二特征提取模块、第三特征提取模块、第一混合注意力模块、第一1×1卷积层、第一3×3卷积层、第一上采样模块、第二混合注意力模块、第一拼接模块、第二3×3卷积层、第二上采样模块、第三混合注意力模块、第二拼接模块和第三3×3卷积层,其中,
所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块分别用于输入来自所述主干特征提取网络的不同尺度的特征图;
所述第一特征提取模块、第一混合注意力模块、第一1×1卷积层和第一3×3卷积层依次连接,所述第一特征提取模块用于输入第一尺度的特征图,所述第一3×3卷积层用于输出第一尺度的预测特征图;
所述第一上采样模块、所述第二混合注意力模块、所述第一拼接模块和所述第二3×3卷积层依次连接在所述第一3×3卷积层的输出端,所述第二特征提取模块的输出端连接至所述第一拼接模块的输入端,所述第二特征提取模块的输出与所述第二混合注意力模块的输出在所述第一拼接模块中进行特征拼接,所述第二特征提取模块用于输入第二尺度的特征图,所述第二3×3卷积层用于输出第二尺度的预测特征图;
所述第二上采样模块、所述第三混合注意力模块、所述第二拼接模块和所述第三3×3卷积层依次连接在所述第二3×3卷积层的输出端,所述第三特征提取模块的输出端连接至所述第二拼接模块的输入端,所述第三特征提取模块的输出与所述第三混合注意力模块的输出在所述第二拼接模块中进行特征拼接,所述第三特征提取模块用于输入第三尺度的特征图,所述第三3×3卷积层用于输出第三尺度的预测特征图。
在本发明的一个实施例中,所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块结构相同,均包括两个部分,第一部分使用1×1卷积层进一步整合特征信息;第二部分首先使用1×1卷积层缩减通道,随后分别送入三个分支:3×3卷积层、3×3池化层和5×5池化层,其中,所述3×3池化层和所述5×5池化层的池化核扩大网络的感受野,并所述3×3卷积层能够语义信息,最后将所述3×3卷积层、所述3×3池化层和所述5×5池化层输出的特征以及第一部分1×1卷积层的输出的特征进行拼接并输出。
在本发明的一个实施例中,所述第一混合注意力模块、所述第二混合注意力模块和所述第三混合注意力模块结构相同,由通道注意力单元和空间注意力单元级联组成,用于将感兴趣的舰船区域提取出来,同时对背景区域进行抑制。
在本发明的一个实施例中,所述通道注意力单元包括第一全局平均池化层、第一全局最大池化层、多层感知机和第一sigmoid函数层,其中,所述通道注意力单元的输出表达式为:
Mc(F)=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,AvgPool为全局平均池化,MaxPool为全局最大池化,MLP表示多层感知机;sigmoid表示sigmoid函数,F表示所述通道注意力单元的输出特征。
在本发明的一个实施例中,所述空间注意力模块包括第二全局平均池化层、第二全局最大池化层、拼接单元、7×7卷积层和第二sigmoid函数层,所述空间注意力模块的输出表达式为:
Ms(G)=sigmoid(conv([AvgPool(G);MaxPool(G)])
其中,conv为7×7的卷积,G表示所述空间注意力模块的输入特征。
在本发明的一个实施例中,所述损失函数包括边框位置损失、置信度损失和类别损失,其中,
所述边框位置损失的表达式为
其中,IOU为真实框与预测框的交并比,D1表示真实框与预测框的中心点距离,D2表示包住真实框和预测框的最小方框的对角线距离,v表示长宽比一致性的参数:
其中,wgt为真实框的宽,hgt为真实框的高,w为预测框的宽,h为预测框的高;
所述置信度损失的表达式为:
其中,表示第i行第j个预测框是否预测一个目标,S2为遍历整个预测特征图,B为遍历所有的预测框,/>为第i行第j个真实框内含有目标的概率得分,/>为第i行第j个预测框内含有目标的概率得分,λnoship为0-1变量,/>是一个0-1变量,表示第i行第j个预测框是否预测一个目标;
所述类别损失的表达式为:
其中,表示第i个行第j个预测框为类别c的概率,/>表示第i个行第j个真实框为类别c的概率。
与现有技术相比,本发明的有益效果有:
1、本发明提供了一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,通过多级特征提取策略与混合注意力机制,加强了舰船目标特征信息的提取,提高对舰船目标的检测精度,解决近岸舰船和小尺度舰船检测效果不佳的问题。
2、本发明的多级特征融合网络将不同尺度的特征层进行信息整合,在浅层特征层可以扩大感受野,丰富语义信息,进一步增强小尺度舰船目标的检测能力;在深层特征层可以提取多尺度特征,融合更多的特征信息,混合注意力模块可以加强对舰船目标特征信息的筛选,减少背景目标的干扰,有效地解决了近岸舰船和小尺度舰船检测效果不佳的问题。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法的流程图;
图2是本发明实施例提供的一种主干特征提取网络的结构示意图;
图3是本发明实施例提供的一种Focus模块的处理过程示意图;
图4是本发明实施例提供的一种多级特征融合网络的结构示意图;
图5是本发明实施例提供的一种特征提取模块的结构示意图;
图6是本发明实施例提供的一种混合注意模块的结构示意图;
图7是本发明实施例提供的一种包含舰船目标的SAR图像;
图8是图7所示的SAR图像的舰船目标检测标签图;
图9是图7所示的SAR图像利用现有深度学习方法的舰船检测结果图;
图10是图7所示的SAR图像利用本发明方法的舰船检测结果图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
请参见图1,图1是本发明实施例提供的一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法的流程图。该目标检测方法包括:
S1:构建用于SAR图像舰船目标检测的YOLO-SP网络模型,所述YOLO-SP网络模型包括依次连接的主干特征提取网络、多级特征融合网络和检测头,其中,所述主干特征提取网络用于对预处理的SAR图像进行特征提取,并输出多个不同尺度的特征图;所述多级特征融合网络用于对所述不同尺度的特征图进行特征融合,获得多个不同尺度的预测特征图;所述检测头用于对所述预测特征图进行分类回归操作,得到所述SAR图像舰船目标的类别信息、位置信息和置信度。
请参见图2,图2是本发明实施例提供的一种主干特征提取网络的结构示意图。该主干特征提取网络包括依次连接的Focus模块、卷积层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层和卷积层,其中,所述Focus模块用于对输入的SAR图像像素矩阵进行切片操作,获得多个信息互补的下采样特征图并通过拼接和卷积操作,得到2倍下采样特征图;所述CSP-Tiny模块用于对输入特征图中的信息进行提取;本实施例的卷积层均为3×3卷积层。
本实施例的主干特征提取网络由Focus模块、3×3卷积层、CSP-Tiny模块和最大池化层组成,能够分别输出8倍、16倍、32倍下采样特征图,有利于检测多尺度舰船目标。
进一步地,请参见图3,图3是本发明实施例提供的一种Focus模块的处理过程示意图。在本实施例中,所述Focus模块包括切片单元、拼接单元和一个卷积层,其中,所述切片单元用于对SAR图像的像素矩阵进行切片处理,在像素矩阵中每隔一个像素获取一个值,获得多个数据互补的像素矩阵;所述拼接单元用于对所述多个数据互补的像素矩阵进行拼接,所述一个卷积层用于对拼接后的像素矩阵进行图像特征提取,并输出特征图。
需要说明的事,在本实施例中,在将SAR图像输入所述主干特征提取网络之前,需要对原始SAR图像进行预处理,具体地,对于图像识别领域,输入的是一张图片,预处理将图片转化为三维像素矩阵,其长和宽表示图像的大小,深度代表了图像的色彩通道,SAR图像的深度为1。因为卷积神经网络使用梯度下降算法进行特征提取,因此需要对像素矩阵做标准化处理,将0-255的原始像素值归一化至0-1之间,这样可以加速卷积神经网络模型的收敛,减少检测模型的训练时间。
在本实施例中,将预处理后的像素矩阵送入Focus模块,对其进行切片操作。具体操作为在像素矩阵中每隔一个像素获取一个值,类似于邻近下采样,这样就拿到了四个像素矩阵,四个像素矩阵互补,长的差不多,但是没有信息丢失,这样一来,将宽和高信息就集中到了通道空间,输入通道扩充了4倍,最后将得到的新像素矩阵再经过卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图。
将刚到的二倍下采样特征图输入3×3卷积层、CSP-Tiny模块、最大池化层,如图2所示,本实施例的CSP-Tiny模块分为两个独立的部分,第一部分对输入特征图不进行任何处理;第二部分对输入特征图进行Spilt(切分)操作,取输入特征通道的后半部分,通道数缩减为原来的一半;在第二部分对特征进行一次拼接(Concat),通道数量恢复,并使用1×1卷积来进行特征的整合;最后,将第一部分和第二部分的输出再进行一次拼接,得到相比于输入通道翻倍的特征。最后主干特征提取网络输出8倍下采样特征图、16倍下采样特征图和32倍下采样特征图三个尺度的特征图以供后续处理。
进一步地,请参见图4,图4是本发明实施例提供的一种多级特征融合网络的结构示意图。多级特征融合网络包括第一特征提取模块、第二特征提取模块、第三特征提取模块、第一混合注意力模块、第一1×1卷积层、第一3×3卷积层、第一上采样模块、第二混合注意力模块、第一拼接模块、第二3×3卷积层、第二上采样模块、第三混合注意力模块、第二拼接模块和第三3×3卷积层,其中,第一特征提取模块、第二特征提取模块和第三特征提取模块分别用于输入来自主干特征提取网络的不同尺度的特征图;第一特征提取模块、第一混合注意力模块、第一1×1卷积层和第一3×3卷积层依次连接,第一特征提取模块用于输入第一尺度的特征图,第一3×3卷积层用于输出第一尺度的预测特征图;第一上采样模块、第二混合注意力模块、第一拼接模块和第二3×3卷积层依次连接在第一3×3卷积层的输出端,第二特征提取模块的输出端连接至第一拼接模块的输入端,第二特征提取模块的输出与第二混合注意力模块的输出在第一拼接模块中进行特征拼接,第二特征提取模块用于输入第二尺度的特征图,第二3×3卷积层用于输出第二尺度的预测特征图;第二上采样模块、第三混合注意力模块、第二拼接模块和第三3×3卷积层依次连接在第二3×3卷积层的输出端,第三特征提取模块的输出端连接至第二拼接模块的输入端,第三特征提取模块的输出与第三混合注意力模块的输出在第二拼接模块中进行特征拼接,第三特征提取模块用于输入第三尺度的特征图,第三3×3卷积层用于输出第三尺度的预测特征图。
请参见图5,图5是本发明实施例提供的一种特征提取模块(Mod)的结构示意图。本实施例的特征提取模块(第一特征提取模块、第二特征提取模块和第三特征提取模块结构相同),用于进一步提取多尺度语义信息,将主干特征提取网络得到的不同尺度的特征图送入对应的特征提取模块。所述特征提取模块对于输入进来的特征,会分别经历两个部分,第一部分使用一个1×1卷积层进一步整合特征信息,保持了特征的重用性;第二部分首先使用一个1×1卷积缩减通道,接着分别送入三个分支:3×3卷积层、3×3池化层和5×5池化层,所述3×3池化层和所述5×5池化层的池化核能够有效扩大网络的感受野,并且所述3×3卷积层也能够进一步提取更深层的语义信息,最后将3×3卷积层、3×3池化层和5×5池化层输出的特征以及第一部分1×1卷积层的输出的特征进行拼接并输出,能够有效改善对小目标的检测效果。该模块能够在提取多尺度特征,丰富语义信息的同时,避免加入过多复杂的结构而导致网络精度、速度的下降。
所述混合注意力模块(CBAM)用于减少背景信息对舰船信息的干扰,由通道注意力单元和空间注意力单元级联组成,将感兴趣的舰船区域提取出来,并着重强调,赋予较大的权重,同时对背景区域进行抑制。
所述通道注意力单元包括第一全局平均池化层、第一全局最大池化层、多层感知机和第一sigmoid函数层,具体地,对H×W×C大小的输入特征层F在空间维度上分别进行全局最大池化和全局平均池化得到两个1×1×C大小的特征图,将这两个特征图送入一个两层且参数共享的多层感知机(MLP)中,该多层感知机第一层神经元个数为C/r(r为减少率),激活函数为ReLU,第二层神经元个数为C,随后将多层感知机输出的两个特征进行逐元素相加,再通过sigmoid函数进行激活生成通道注意力特征Mc,着重于获取舰船目标的类别信息。表达式如下:
Mc(F)=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,AvgPool为全局平均池化,MaxPool为全局最大池化,MLP表示多层感知机;sigmoid表示sigmoid函数;
所述空间注意力模块包括第二全局平均池化层、第二全局最大池化层、拼接单元、7×7卷积层和第二sigmoid函数层,第二全局平均池化层、第二全局最大池化层均连接所述通道注意力单元的第一sigmoid函数层。具体地,对所述通道注意力单元输出通道注意力特征Mc在通道维度上进行全局最大池化和全局平均池化,得到两个大小为H×W×1的特征图,将这两个特征图在通道维度上作拼接,再将拼接的结果做一次7×7的卷积运算,再通过sigmoid函数进行激活生成通道注意力特征层Ms,着重于获取舰船目标的位置信息。表达式如下:
Ms(G)=sigmoid(conv([AvgPool(G);MaxPool(G)])
其中,conv为7×7的卷积,G表示所述空间注意力模块的输入特征。
在本实施例的多级特征融合网络中,将32倍下采样特征层经过3×3卷积层和上采样操作并与16倍下采样特征层进行整合,形成新的16倍下采样特征层;再将16倍下采样特征层经过3×3卷积层和上采样操作并与8倍下采样特征层进行整合,形成新的8倍下采样特征层,最后输出这三个尺度的特征层以供检测头处理。
将三个特征图输入检测头Head,对特征图进行分类回归操作,可以得到舰船目标的类别信息、位置信息和置信度。
S2:利用训练数据集对所构建的YOLO-SP网络模型进行训练,计算损失函数,并反向更新模型参数,获得训练后的YOLO-SP网络模型。
需要说的是,在对所述YOLO-SP网络模型的结构构建完成之后,需要利用训练数据集对模型进行训练,以增加模型的检测精度,在本实施例中,所采用的训练数据集为SSDD公开数据集,同样的,在输入至所述YOLO-SP网络模型之前,需要对训练数据集中的SAR图像均进行预处理,获得对应的像素矩阵。
在训练过程中,对三个尺度的特征层中每个像素生成三个大小不一的预测框,对其中包含舰船目标的正样本计算损失函数,并反向更新模型的参数,使模型可以更好地对舰船目标检测。
本实施例的损失函数包括边框位置损失、置信度损失和类别损失三个部分,其中,
边框位置损失的表达式为
其中,IOU为真实框与预测框的交并比,D1表示真实框与预测框中心点距离,D2表示包住真实框和预测框的最小方框的对角线距离,v表示长宽比一致性的参数:
其中,wgt为真实框的宽,hgt为真实框的高,w为预测框的宽,h为预测框的高。
置信度损失的表达式为:
其中,是一个0-1变量,表示第i行第j个预测框是否预测一个目标,如果是则为1,反之为0。S2为遍历整个预测特征图,B为遍历所有的预测框,/>为第i行第j个真实框内含有目标的概率得分,/>为第i行第j个预测框内含有目标的概率得分,λnoship为0-1变量,是一个0-1变量,表示第i行第j个预测框是否预测一个目标,如果是则为0,反之为1。
进一步地,类别损失的表达式为:
其中,表示第i个行第j个预测框为类别c的概率,/>表示第i个行第j个真实框为类别c的概率。
需要说明的是,在训练过程中,将得到的预测信息进行后处理,如NMS(Non-Maximum Suppression,非极大值抑制算法)等,在原图上标注矩形框,输出可视化结果,并与真实标签进行比较,计算评价指标Precision、Recall和AP。
通常检测过程中会产生很多检测框,其中很多检测框都是检测同一个目标,但最终每个目标只需要一个检测框,NMS选择置信度最高的检测框,再将其与剩余框计算相应的IOU值,当IOU值超过设定的阈值就对此框进行抑制,防止一个目标出现多个检测框。
S3:对待检测的SAR图像进行数据标准化预处理,获得预处理后的像素矩阵。
类似的,待检测的SAR图像转化为三维像素矩阵,随后需要对像素矩阵做标准化处理,将0-255的原始像素值归一化至0-1之间。
S4:将预处理后的像素矩阵输入训练后的YOLO-SP网络模型,对待检测的SAR图像进行舰船目标检测,获得目标的类别信息、位置信息和置信度。
具体地,在预测过程中,对三个尺度的特征层进行分类回归操作,输出舰船目标的中心点位置、检测框的宽高、检测目标的类别和置信度。
以下通过仿真实验对本发明实施例的SAR图像舰船目标检测方法的效果进行了进一步说明。
(1)仿真条件:仿真实验所使用显卡为NVIDIA GeForce RTX 2060 12G,CPU为AMDRyzen 5 1600,RAM为16G,操作系统为Ubuntu 18.04,Python版本为3.8,使用Pytorch 1.4,并配置10.2的CUDA和8.0.2的Cudnn。
仿真实验中用到的数据集为公开数据集SSDD,由RadarSat-2,TerraSAR-X,Sentinel-1卫星采集得到,包含1160张图像,共2456只舰船,平均每张图像中含有2.12个舰船目标。为了更加充分利用数据集和更好的学习特征,将数据集按照7:2:1的比例划分成训练集、验证集和测试集。
仿真实验中,权重衰减正则系数为0.0001、动量参数为0.9。起始学习率为0.001,采用从头训练的方式,训练500个回合,批量大小取16,IOU阈值取0.5,通过K-means聚类算法预设的预测框为:[10,12],[21,19],[14,29],[33,16],[30,30],[19,48],[44,23],[47,38],[37,64]。训练时,保存最优的模型直至训练完成,同时保存最后一次训练的模型,以供后续可以继续训练。
仿真实验采用的相关评估指标及其定义如下:
准确率(Precision):在识别出的目标中,正确的正向预测所占的比例,定义如下:
召回率(Recall):是正确识别出的物体占总物体数的比率,定义如下:
平均准确率(Average Precision,AP):准确率和召回率所围成P-R曲线下的面积,定义如下:
AP=∫0 1P(R)dR
其中,TP表示正样本被正确分类,FP表示负样本被错误分类,FN表示正样本被错误分类,P表示准确率,R表示召回率。
(2)仿真实验内容:分别用本发明和现有的深度学习舰船检测算法(YOLOv4-Tiny)在SSDD公开数据集上完成舰船目标的检测,并计算相关评估指标。其中,图7展示了包含舰船目标的SAR图像,图8展示了SAR图像舰船检测的标签图,图9展示了SAR图像使用现有的深度学习方法舰船检测的结果图,图10展示了SAR图像本发明舰船检测的结果图。实验结果如表1所示。
表1.SAR图像舰船目标检测仿真结果对照表
评价指标 Precision Recall AP
本方法 96.11% 97.58% 96.73%
YOLOv4-Tiny 91.26% 89.94% 89.26%
(3)实验结果分析:由表1可以看出,本发明的目标检测方法在SSDD公开数据集上的准确率可以达到96.11%,召回率可以达到97.58%,平均精度达到96.73%,相比于现有的深度学习舰船检测算法,准确率提升了4.85%,召回率提升了7.64%,平均精度提升了7.47%。通过图9和图10可以直观地看出本方法对近岸舰船目标和小尺度舰船目标的检测效果极好。
本发明基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,通过多级特征提取策略与混合注意力机制,加强了舰船目标特征信息的提取,提高对舰船目标的检测精度,解决近岸舰船和小尺度舰船检测效果不佳的问题。本发明的多级特征融合网络将不同尺度的特征层进行信息整合,在浅层特征层可以扩大感受野,丰富语义信息,进一步增强小尺度舰船目标的检测能力;在深层特征层可以提取多尺度特征,融合更多的特征信息,混合注意力模块可以加强对舰船目标特征信息的筛选,减少背景目标的干扰,有效地解决了近岸舰船和小尺度舰船检测效果不佳的问题。
在本发明所提供的几个实施例中,应该理解到,本发明所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
本发明的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序用于执行上述实施例中所述基于多级特征融合及混合注意力的SAR图像舰船目标检测方法的步骤。本发明的再一方面提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上述实施例所述封装键合程序自动生成方法的步骤。具体地,上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,包括:
S1:构建用于SAR图像舰船目标检测的YOLO-SP网络模型,所述YOLO-SP网络模型包括依次连接的主干特征提取网络、多级特征融合网络和检测头,其中,所述主干特征提取网络用于对预处理的SAR图像进行特征提取,并输出多个不同尺度的特征图;所述多级特征融合网络用于对所述不同尺度的特征图进行特征融合,获得多个不同尺度的预测特征图;所述检测头用于对所述预测特征图进行分类回归操作,得到所述SAR图像舰船目标的类别信息、位置信息和置信度;
S2:利用训练数据集对所构建的YOLO-SP网络模型进行训练,计算损失函数,并反向更新模型参数,获得训练后的YOLO-SP网络模型;
S3:对待检测的SAR图像进行数据标准化预处理,获得预处理后的像素矩阵;
S4:将预处理后的像素矩阵输入训练后的YOLO-SP网络模型,对待检测的SAR图像进行舰船目标检测,获得目标的类别信息、位置信息和置信度。
2.根据权利要求1所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述主干特征提取网络包括依次连接的Focus模块、卷积层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层、CSP-Tiny模块、最大池化层和卷积层,其中,所述Focus模块用于对输入的像素矩阵进行切片操作,获得信息互补的多个下采样特征图并通过拼接和卷积操作,得到2倍下采样特征图;所述CSP-Tiny模块用于对输入特征图中的信息进行提取;所述卷积层均为3×3卷积层。
3.根据权利要求1所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述Focus模块包括切片单元、拼接单元和一个卷积层,其中,所述切片单元用于对SAR图像预处理后的像素矩阵进行切片处理,在像素矩阵中每隔一个像素获取一个值,获得多个数据互补的像素矩阵;所述拼接单元用于对所述多个数据互补的像素矩阵进行拼接,所述一个卷积层用于对拼接后的像素矩阵进行图像特征提取,并输出特征图。
4.根据权利要求1所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述多级特征融合网络包括第一特征提取模块、第二特征提取模块、第三特征提取模块、第一混合注意力模块、第一1×1卷积层、第一3×3卷积层、第一上采样模块、第二混合注意力模块、第一拼接模块、第二3×3卷积层、第二上采样模块、第三混合注意力模块、第二拼接模块和第三3×3卷积层,其中,
所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块分别用于输入来自所述主干特征提取网络的不同尺度的特征图;
所述第一特征提取模块、第一混合注意力模块、第一1×1卷积层和第一3×3卷积层依次连接,所述第一特征提取模块用于输入第一尺度的特征图,所述第一3×3卷积层用于输出第一尺度的预测特征图;
所述第一上采样模块、所述第二混合注意力模块、所述第一拼接模块和所述第二3×3卷积层依次连接在所述第一3×3卷积层的输出端,所述第二特征提取模块的输出端连接至所述第一拼接模块的输入端,所述第二特征提取模块的输出与所述第二混合注意力模块的输出在所述第一拼接模块中进行特征拼接,所述第二特征提取模块用于输入第二尺度的特征图,所述第二3×3卷积层用于输出第二尺度的预测特征图;
所述第二上采样模块、所述第三混合注意力模块、所述第二拼接模块和所述第三3×3卷积层依次连接在所述第二3×3卷积层的输出端,所述第三特征提取模块的输出端连接至所述第二拼接模块的输入端,所述第三特征提取模块的输出与所述第三混合注意力模块的输出在所述第二拼接模块中进行特征拼接,所述第三特征提取模块用于输入第三尺度的特征图,所述第三3×3卷积层用于输出第三尺度的预测特征图。
5.根据权利要求4所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述第一特征提取模块、所述第二特征提取模块和所述第三特征提取模块结构相同,均包括两个部分,第一部分使用1×1卷积层进一步整合特征信息;第二部分首先使用1×1卷积层缩减通道,随后分别送入三个分支:3×3卷积层、3×3池化层和5×5池化层,其中,所述3×3池化层和所述5×5池化层的池化核扩大网络的感受野,并所述3×3卷积层能够语义信息,最后将所述3×3卷积层、所述3×3池化层和所述5×5池化层输出的特征以及第一部分1×1卷积层的输出的特征进行拼接并输出。
6.根据权利要求5所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述第一混合注意力模块、所述第二混合注意力模块和所述第三混合注意力模块结构相同,由通道注意力单元和空间注意力单元级联组成,用于将感兴趣的舰船区域提取出来,同时对背景区域进行抑制。
7.根据权利要求6所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述通道注意力单元包括第一全局平均池化层、第一全局最大池化层、多层感知机和第一sigmoid函数层,其中,所述通道注意力单元的输出表达式为:
Mc(F)=sigmoid(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,AvgPool为全局平均池化,MaxPool为全局最大池化,MLP表示多层感知机;sigmoid表示sigmoid函数,F表示所述通道注意力单元的输入特征。
8.根据权利要求7所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述空间注意力模块包括第二全局平均池化层、第二全局最大池化层、拼接单元、7×7卷积层和第二sigmoid函数层,所述空间注意力模块的输出表达式为:
Ms(G)=sigmoid(conv([AvgPool(G);MaxPool(G)])
其中,conv为7×7的卷积,G表示所述空间注意力模块的输入特征。
9.根据权利要求1至8中任一项所述的基于多级特征融合及混合注意力的SAR图像舰船目标检测方法,其特征在于,所述损失函数包括边框位置损失、置信度损失和类别损失,其中,
所述边框位置损失的表达式为:
其中,IOU为真实框与预测框的交并比,D1表示真实框与预测框的中心点距离,D2表示包住真实框和预测框的最小方框的对角线距离,v表示长宽比一致性的参数:
其中,wgt为真实框的宽,hgt为真实框的高,w为预测框的宽,h为预测框的高;
所述置信度损失的表达式为:
其中,表示第i行第j个预测框是否预测一个目标,S2为遍历整个预测特征图,B为遍历所有的预测框,/>为第i行第j个真实框内含有目标的概率得分,/>为第i行第j个预测框内含有目标的概率得分,λnoship为0-1变量,/>是一个0-1变量,表示第i行第j个预测框是否预测一个目标;
所述类别损失的表达式为:
其中,表示第i个行第j个预测框为类别c的概率,/>表示第i个行第j个真实框为类别c的概率。
CN202310273227.2A 2023-03-20 2023-03-20 基于多级特征融合及混合注意力的sar图像舰船目标检测方法 Pending CN116469002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310273227.2A CN116469002A (zh) 2023-03-20 2023-03-20 基于多级特征融合及混合注意力的sar图像舰船目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310273227.2A CN116469002A (zh) 2023-03-20 2023-03-20 基于多级特征融合及混合注意力的sar图像舰船目标检测方法

Publications (1)

Publication Number Publication Date
CN116469002A true CN116469002A (zh) 2023-07-21

Family

ID=87184907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310273227.2A Pending CN116469002A (zh) 2023-03-20 2023-03-20 基于多级特征融合及混合注意力的sar图像舰船目标检测方法

Country Status (1)

Country Link
CN (1) CN116469002A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118155105A (zh) * 2024-05-13 2024-06-07 齐鲁空天信息研究院 一种无人机山区救援方法、系统、介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118155105A (zh) * 2024-05-13 2024-06-07 齐鲁空天信息研究院 一种无人机山区救援方法、系统、介质及电子设备

Similar Documents

Publication Publication Date Title
Chen et al. A deep neural network based on an attention mechanism for SAR ship detection in multiscale and complex scenarios
CN107341488B (zh) 一种sar图像目标检测识别一体化方法
CN110084234B (zh) 一种基于实例分割的声呐图像目标识别方法
CN109427055B (zh) 基于视觉注意机制和信息熵的遥感图像海面舰船检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN106886760A (zh) 一种基于空谱信息结合的高光谱舰船检测方法
CN111027445B (zh) 一种海上船舶目标识别方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN116469002A (zh) 基于多级特征融合及混合注意力的sar图像舰船目标检测方法
CN106407951A (zh) 一种基于单目视觉的夜间前方车辆检测方法
CN113674308A (zh) 基于图像增强与多重检测的sar图像舰船目标快速检测方法
Singh et al. A two-step deep convolution neural network for road extraction from aerial images
CN114764801A (zh) 基于多视觉显著特征的弱小舰船目标融合检测方法及装置
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
Yaohua et al. A SAR oil spill image recognition method based on densenet convolutional neural network
CN115115863A (zh) 水面多尺度目标检测方法、装置及系统和存储介质
CN113436125B (zh) 基于风格迁移的侧扫声呐仿真图像生成方法、装置及设备
Evans et al. Unsupervised machine learning detection of iceberg populations within sea ice from dual-polarisation SAR imagery
CN116681623A (zh) 基于多级拉普拉斯金字塔去噪的sar图像目标检测方法
CN117218545A (zh) 基于LBP特征与改进Yolov5的雷达图像检测方法
CN116844055A (zh) 轻量级sar舰船检测方法及系统
US20230031755A1 (en) Generative adversarial network for processing and generating images and label maps
CN115761552A (zh) 面向无人机机载平台的目标检测方法、系统、设备及介质
CN113627310B (zh) 一种背景与尺度感知的sar舰船目标检测方法
CN113963178A (zh) 地空背景下红外弱小目标检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination