CN115410102A - 基于联合注意力机制的sar图像飞机目标检测方法 - Google Patents
基于联合注意力机制的sar图像飞机目标检测方法 Download PDFInfo
- Publication number
- CN115410102A CN115410102A CN202211065572.9A CN202211065572A CN115410102A CN 115410102 A CN115410102 A CN 115410102A CN 202211065572 A CN202211065572 A CN 202211065572A CN 115410102 A CN115410102 A CN 115410102A
- Authority
- CN
- China
- Prior art keywords
- attention
- target detection
- feature map
- sar image
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明具体涉及基于联合注意力机制的SAR图像飞机目标检测方法,包括:将待检测的SAR图像输入训练后的目标检测模型,输出对应的目标检测预测值;训练时:通过深度神经网络提取SAR图像不同层次的深度特征图,再对应输入至用于提取局部和全局联合注意力特征的金字塔网络的对应联合注意力层,同时将金字塔网络中上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图拼接作为该相邻下层联合注意力层的输入;然后分别基于联合注意力特征图进行预测,得到对应的预测框和分类预测概率;最后生成目标检测预测值并进行模型训练。本发明能够有效融合SAR图像的局部注意力特征和全局注意力特征,进而能够兼顾飞机目标本身的特征信息和周围位置信息。
Description
技术领域
本发明涉及雷达目标检测技术领域,具体涉及基于联合注意力机制的SAR图像飞机目标检测方法。
背景技术
合成孔径雷达(Synthetic Aperture Radar,SAR)技术,是采用搭载在卫星或飞机上的移动雷达,获得高精度地理区域雷达目标图像的一种脉冲雷达技术。它具有全天候、全天时的工作能力和一定的穿透能力。鉴于这些优点,它被广泛应用于矿产探测、海洋环境监测和军事防御等领域。特别地,无论在军事领域或者民用领域中对于飞机目标的检测的研究都是具有重要意义的,因此SAR图像飞机检测的研究受到了国内外学者的广泛关注。
传统的飞机目标检测主要是对于飞机目标的结构特征以及散射特征。对于结构特征主要是通过飞机特有的结构,如像“Y”、“T”等结构,完成对飞机目标的检测。而散射特征是由于SAR图像特殊的成像机理,目标通常是由一系列的强散射点组成。散射特征具体又分为通过目标几何特征、灰度统计特征、目标纹理特征等来实现对飞机目标的检测。
近年来,随着深度学习理论和方法的不断发展和推广应用,其在多个领域都取得了较好的效果。目标检测作为图像解译中重要一环,是SAR图像理解的核心问题之一。深度特征具有很强的描述能力,在检测和分类方面都表现出良好的效果。然而,现有的深度学习方法大多是通过卷积和局部注意力来关注SAR图像中飞机目标本身的特征信息,而不过度关注背景信息和杂波,这虽然排除了部分干扰信息,但也忽视了飞机目标周围位置的信息,使得无法比较飞机目标与周围信息的差异,导致SAR图像目标检测的准确性不好。因此,如何设计一种能够兼顾飞机目标本身的特征信息和周围位置信息的SAR图像目标检测方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于联合注意力机制的SAR图像飞机目标检测方法,以能够有效融合SAR图像的局部注意力特征和全局注意力特征,进而能够兼顾飞机目标本身的特征信息和周围位置信息,从而能够提高SAR图像目标检测的准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于联合注意力机制的SAR图像飞机目标检测方法,包括:
S1:获取待检测的SAR图像;
S2:将待检测的SAR图像输入训练后的目标检测模型,输出对应的目标检测预测值;
训练目标检测模型时,首先将包含若干个SAR图像的训练集输入目标检测模型;其次通过深度神经网络提取SAR图像不同层次的深度特征图;再将各个层次的深度特征图对应输入至用于提取局部和全局联合注意力特征的金字塔网络的对应联合注意力层,同时将金字塔网络中上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图拼接作为该相邻下层联合注意力层的输入;然后分别基于金字塔网络各个联合注意力层输出的联合注意力特征图进行预测,得到对应的预测框和分类预测概率;最后通过各个预测框和分类预测概率生成目标检测预测值,并基于目标检测预测值进行模型训练;
S3:基于目标检测模型输出的目标检测预测值实现待检测SAR图像的目标检测。
优选的,步骤S2中,将ResNet50作为用于提取深度特征图的深度神经网络的骨干网络。
优选的,步骤S2中,不同层次的深度特征图是指尺度和通道数量不同的深度特征图。
优选的,步骤S2中,金字塔网络的各个联合注意力层均包括用于提取局部注意力特征图的局部注意力模块和用于提取全局注意力特征图的全局注意力模块;将局部注意力特征图和全局注意力特征图相加,得到对应联合注意力层的联合注意力特征图。
优选的,局部注意力模块包括通道注意力和空间注意力两条独立的注意力分支;
将作为输入的特征图分别输入两条注意力分支,提取通道注意力特征图和空间注意力特征图;然后将通道注意力特征图和空间注意力特征图相加并经过Sigmoid激活操作后,与输入的特征图相乘并进行残差连接,得到局部注意力特征图。
通道注意力:首先对输入的特征图进行全局平均池化,得到通道向量Fc∈C×1×1;然后通过带有一个隐藏层的多层感知器从通道向量Fc估计跨通道的注意力;最后通过批量归一化层来调整空间分支输出的比例,得到通道注意力特征图;
空间注意力:首先通过1×1卷积将输入的特征图从C×H×W投影到降维的C/r×H×W中;然后通过两个3×3空洞卷积来利用上下文信息;最后通过1×1卷积将特征图再次简化为1×H×W空间注意力图,并应用批量归一化层调整空间分支输出的比例,得到空间注意力特征图。
优选的,全局注意力模块首先对输入的特征图使用三个1×1卷积,得到Q、K、V三个特征图,特征图Q和K的通道数少于输入特征图的通道数;然后对特征图Q和K进行Affinity操作:将特征图Q中每个通道维度上的向量与其在特征图K中对应位置的横纵方向上的所有向量进行矩阵相乘运算,进而使用softmax函数对通道维度进行权重平均,得到特征图A;最后将特征图A和特征图V进行融合,并将融合后的特征图与输入的特征图进行残差连接,得到全局注意力特征图。
优选的,步骤S2中,将金字塔网络中第i+1层联合注意力层输出的联合注意力特征图pi+1进行两倍上采样并与第i层联合注意力层输入的深度特征图通过1×1卷积后的特征图进行拼接,得到对应的特征图作为第i层联合注意力层的输入。
优选的,步骤S2中,步骤S2中,将金字塔网络各个网络层输出的联合注意力特征图分别输入至对应的区域建议网络和感兴趣区域池化层:通过区域建议网络在联合注意力特征图上执行滑窗操作,并分别通过两个CNN作为滑窗内的特征提取器来提取回归框特征和类别特征,得到目标的建议框;然后通过感兴趣区域池化层对目标的建议框进行池化处理以调整建议框的大小,最终得到带建议框的特征图作为全连接层的输入,进而输出预测框的回归参数和分类参数。
优选的,根据预测框的回归参数计算得到预测框坐标,并对预测框的分类参数进行softmax函数处理,得到各个类别的分类预测概率;然后根据预测框坐标将预测框及其分类预测概率映射到SAR图像上,并对预测框进行裁剪以将越界的预测框的坐标调整到SAR图像边界上;最后移除低概率的目标类别,并执行非极大值抑制处理以抑制多余的预测框,得到带预测框和分类预测概率的SAR图像作为目标检测预测值。
优选的,步骤S2中,根据训练的迭代次数和随机梯度下降算法结合交叉熵损失函数和SmoothL1损失函数对预测框和分类预测概率进行联合训练,以完成目标检测模型的训练。
本发明中基于联合注意力机制的SAR图像飞机目标检测方法,具有如下有益效果:
本发明通过用于提取局部和全局联合注意力特征的金字塔网络分别提取深度特征图的局部注意力特征和全局注意力特征得到联合注意力特征,一方面,通过局部注意力特征引导网络更加关注SAR图像中飞机目标本身的特征信息,但不过度关注背景和杂波;另一方面,通过全局注意力特征弥补由卷积和局部注意力引起的对飞机目标周围位置信息的忽视,通过比较与周围位置信息的差异来更好地实现对飞机目标的检测,因此将SAR图像的局部注意力特征和全局注意力特征融合,能够兼顾飞机目标本身的特征信息和周围位置信息,从而能够提高SAR图像目标检测的准确性。
其次,本发明的金字塔网络中将上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图融合作为该相邻下层联合注意力层的输入,使得能够有效融合保留了纹理特征的低维特征和保留了语义信息的高维特征,其中,高维特征与SAR图像中的目标高度关联,包含丰富的目标信息,有利于提高目标的正确检测率,但目标位置比较粗略,低维特征能提供判别性的目标信息,且具有灰度和旋转不变性的要求,具有目标位置准确的优势,但包含的特征语义信息比较少,因此将高维特征与低维特征融合,不仅能够在保证飞机目标关联性的前提下为目标检测模型提供更丰富的判别性目标信息,还能提供更准确的目标位置,从而能够进一步提高SAR图像目标检测的准确性。
最后,本发明提取了SAR图像不同层次(尺度和通道数量不同)的深度特征图,能够通过多尺度特征融合的方式来丰富飞机目标的特征信息,并解决飞机目标大小不一的问题,从而能够进一步提高SAR图像目标检测的准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于联合注意力机制的SAR图像飞机目标检测方法的逻辑框图;
图2为目标检测模型的网络结构图;
图3为金字塔网络的网络结构示意图;
图4为局部注意力模块的框架示意图;
图5为全局注意力模块的框架示意图;
图6为构建的飞机检测数据集的部分图像;
图7为与现有深度学习目标检测模型的检测结果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于联合注意力机制的SAR图像飞机目标检测方法。
如图1所示,基于联合注意力机制的SAR图像飞机目标检测方法,包括:
S1:获取待检测的SAR图像;
S2:将待检测的SAR图像输入训练后的目标检测模型,输出对应的目标检测预测值;
训练目标检测模型时,首先将包含若干个SAR图像的训练集输入目标检测模型;其次通过深度神经网络提取SAR图像不同层次的深度特征图Ci(i=1,2,3,4);再将各个层次的深度特征图对应输入至用于提取局部和全局联合注意力特征的金字塔网络的对应联合注意力层,同时将金字塔网络中上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图拼接作为该相邻下层联合注意力层的输入;然后分别基于金字塔网络各个联合注意力层输出的联合注意力特征图进行预测,得到对应的预测框和分类预测概率;最后通过各个预测框和分类预测概率生成目标检测预测值,并基于目标检测预测值进行模型训练;
S3:基于目标检测模型输出的目标检测预测值实现待检测SAR图像的目标检测。
本实施例中,目标检测预测值是指带预测框和分类预测概率的SAR图像,根据带预测框和分类预测概率的SAR图像可以检测出图像中飞机目标的位置和类型。
本发明通过用于提取局部和全局联合注意力特征的金字塔网络分别提取深度特征图的局部注意力特征和全局注意力特征得到联合注意力特征,一方面,通过局部注意力特征引导网络更加关注SAR图像中飞机目标本身的特征信息,但不过度关注背景和杂波;另一方面,通过全局注意力特征弥补由卷积和局部注意力引起的对飞机目标周围位置信息的忽视,通过比较与周围位置信息的差异来更好地实现对飞机目标的检测,因此将SAR图像的局部注意力特征和全局注意力特征融合,能够兼顾飞机目标本身的特征信息和周围位置信息,从而能够提高SAR图像目标检测的准确性。
其次,本发明的金字塔网络中将上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图融合作为该相邻下层联合注意力层的输入,使得能够有效融合保留了纹理特征的低维特征和保留了语义信息的高维特征,其中,高维特征与SAR图像中的目标高度关联,包含丰富的目标信息,有利于提高目标的正确检测率,但目标位置比较粗略,低维特征能提供判别性的目标信息,且具有灰度和旋转不变性的要求,具有目标位置准确的优势,但包含的特征语义信息比较少,因此将高维特征与低维特征融合,不仅能够在保证飞机目标关联性的前提下为目标检测模型提供更丰富的判别性目标信息,还能提供更准确的目标位置,从而能够进一步提高SAR图像目标检测的准确性。
最后,本发明提取了SAR图像不同层次(尺度和通道数量不同)的深度特征图,能够通过多尺度特征融合的方式来丰富飞机目标的特征信息,并解决飞机目标大小不一的问题,从而能够进一步提高SAR图像目标检测的准确性。
具体实施过程中,将ResNet50作为用于提取深度特征图的深度神经网络的骨干网络。
具体实施过程中,不同层次的深度特征图是指尺度和通道数量不同的深度特征图。
本发明提取了SAR图像不同层次(尺度和通道数量不同)的深度特征图,能够通过多尺度特征融合的方式来丰富飞机目标的特征信息,并解决飞机目标大小不一的问题,从而能够进一步提高SAR图像目标检测的准确性。
具体实施过程中,结合图3所示,将金字塔网络中第i+1层联合注意力层输出的联合注意力特征图Pi+1进行两倍上采样并与第i层联合注意力层输入的深度特征图通过1×1卷积后的特征图进行拼接,得到对应的特征图作为第i层联合注意力层的输入。结合图2所示,特征图C5由特征图C4直接两倍下采样得到,然后特征图C5直接通过联合注意力层得到联合注意力特征图P5。
本发明的金字塔网络中将上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图融合作为该相邻下层联合注意力层的输入,使得能够有效融合保留了纹理特征的低维特征和保留了语义信息的高维特征,其中,高维特征与SAR图像中的目标高度关联,包含丰富的目标信息,有利于提高目标的正确检测率,但目标位置比较粗略,低维特征能提供判别性的目标信息,且具有灰度和旋转不变性的要求,具有目标位置准确的优势,但包含的特征语义信息比较少,因此将高维特征与低维特征融合,不仅能够在保证飞机目标关联性的前提下为目标检测模型提供更丰富的判别性目标信息,还能提供更准确的目标位置,从而能够进一步提高SAR图像目标检测的准确性。
金字塔网络的各个联合注意力层均包括用于提取局部注意力特征图的局部注意力模块(Bottleneck Attention Module,BAM)和用于提取全局注意力特征图的全局注意力模块(Criss-Cross Attention,CCA);将局部注意力特征图和全局注意力特征图相加,得到对应联合注意力层的联合注意力特征图。
如图4所示,局部注意力模块包括通道注意力和空间注意力两条独立的注意力分支;
将作为输入的特征图分别输入两条注意力分支,提取通道注意力特征图和空间注意力特征图;然后将通道注意力特征图和空间注意力特征图相加并经过Sigmoid激活操作后,与输入的特征图相乘并进行残差连接,得到局部注意力特征图。
通道注意力:首先对输入的特征图进行全局平均池化,得到通道向量Fc∈C×1×1;然后通过带有一个隐藏层的多层感知器(MLP)从通道向量Fc估计跨通道的注意力;最后通过批量归一化(BN)层来调整空间分支输出的比例,得到通道注意力特征图;其中,多层感知器(MLP)的隐藏激活大小设置为C/r×1×1,r是缩减率;
空间注意力:首先通过1×1卷积将输入的特征图从C×H×W投影到降维的C/r×H×W中,使用与通道注意力分支相同的缩减比r;然后通过两个3×3空洞卷积来利用上下文信息;最后通过1×1卷积将特征图再次简化为1×H×W空间注意力图,并应用批量归一化层调整空间分支输出的比例,得到空间注意力特征图。
如图5所示,全局注意力模块首先对输入的特征图使用三个1×1卷积,得到Q、K、V三个特征图,其中,特征图Q和K的通道数少于输入特征图的通道数;然后对特征图Q和K进行Affinity操作:将特征图Q中每个通道维度上的向量与其在特征图K中对应位置的横纵方向上的所有向量进行矩阵相乘运算,进而使用softmax函数对通道维度进行权重平均,得到特征图A;最后将特征图A和特征图V进行融合,并将融合后的特征图与输入的特征图进行残差连接,得到全局注意力特征图。
本发明通过用于提取局部和全局联合注意力特征的金字塔网络分别提取深度特征图的局部注意力特征和全局注意力特征得到联合注意力特征,一方面,通过局部注意力特征引导网络更加关注SAR图像中飞机目标本身的特征信息,但不过度关注背景和杂波;另一方面,通过全局注意力特征弥补由卷积和局部注意力引起的对飞机目标周围位置信息的忽视,通过比较与周围位置信息的差异来更好地实现对飞机目标的检测,因此将SAR图像的局部注意力特征和全局注意力特征融合,能够兼顾飞机目标本身的特征信息和周围位置信息,从而能够提高SAR图像目标检测的准确性。
具体实施过程中,将金字塔网络各个网络层输出的联合注意力特征图分别输入至对应的区域建议网络(Region Proposal Network,RPN)和感兴趣区域(Region ofInterest,ROI)池化层:通过区域建议网络在联合注意力特征图上执行滑窗操作,并分别通过两个CNN作为滑窗内的特征提取器来提取回归框特征和类别特征,得到目标的建议框(工作原理类似于现有的Fast R-CNN模型);然后通过感兴趣区域池化层对目标的建议框进行池化处理以调整建议框的大小,最终得到带建议框的特征图作为全连接层的输入,进而输出预测框的回归参数和分类参数。
本实施例中,所述的RPN、ROI池化层和全连接层均是现有成熟模型,本发明未对模型的结构和工作逻辑进行改进,而仅是应用模型处理本发明的联合注意力特征图,进而得到预测框的回归参数和分类参数。其中,回归参数和分类参数分别是通过坐标信息和类别概率对全连接层进行训练后,通过全连接层输出坐标信息和类别概率,类别是指通过RPN检测对象是不是目标。
根据预测框的回归参数计算得到预测框坐标,并对预测框的分类参数进行softmax函数处理,得到各个类别的分类预测概率;然后根据预测框坐标将预测框及其分类预测概率映射到SAR图像上,并对预测框进行裁剪以将越界的预测框的坐标调整到SAR图像边界上;最后移除低概率的目标类别,并执行非极大值抑制处理以抑制多余的预测框,得到带预测框和分类预测概率的SAR图像作为目标检测预测值。
本实施例中,计算预测框坐标、计算分类预测概率、将预测框及其分类预测概率映射到SAR图像上、对预测框进行裁剪以及执行非极大值抑制处理均采用现有成熟手段完成,并本发明仅是需要通过现有手段获取带预测框和分类预测概率的SAR图像。
具体实施过程中,根据训练的迭代次数(Epochs)和随机梯度下降算法结合交叉熵损失函数和SmoothL1损失函数对目标检测预测值中预测框和分类预测概率进行联合训练,以完成目标检测模型的训练。
本实施例中,采用现有成熟手段训练目标检测模型。其中,所述迭代次数(Epochs)和随机梯度下降算法均是现有成熟技术,本发明并未对其进行改进。所述的对交叉熵损失函数和SmoothL1损失函数进行联合训练,是指将交叉熵损失和SmoothL1损失之和作为模型的训练损失,而对于交叉熵损失函数和SmoothL1损失函数本身并未做任何改动,仅是将其公式中的真实标签和预测标签替换成了本发明中的真实类别和分类预测概率。
为了更好的说明本发明技术方案的优势,本实施例中公开了如下实验。
1、评估指标
1)平均精度(Average Precision),采用了微软COCO的六个平均精度指标,包括AP、AP50、AP75、APs、APm和APl。其中,AP是通过预测结果和基本事实之间的十个交并比(Intersection of Union,IoU)阈值0.50:0.05:0.95来评估平均精度分数。AP50、AP75分别是以IoU在0.5和0.75时评估的平均精度分数。APs、APm、APl是指小、中、大型飞机检测方法在十个IOU阈值下的平均精度分数。具体计算如下:
其中,p代表精度,r代表召回率,p是一个以r为参数的函数。
2)精度是指所有正样本中被正确检测为正样本的比例。
3)召回率是正确检测为正样本的预测样本的比例。两项评价指标的计算方法如下,
2、实验数据
构建SAR图像飞机目标检测数据集,得到1872张256×256的图像,表1给出了数据集划分具体信息。数据集部分示例见图6。
表1飞机目标检测数据集
3、模型设置
对于选取以ResNet50位骨干网络的以及融合特征金字塔的Faster R-CNN,使用Imagenet预训练权重初始化骨干网络,数据集按照8:2比例随机划分为训练集、测试集。使用随机梯度下降(Stochastic Gradient Descent,SGD)算法训练模型,学习率设为0.005,权重衰减设为0.0005,动量设为0.9。梯度下降批尺寸(Batch Size)为2,损失函数使用交叉熵损失函数(Cross Entropy Loss)作为分类回归损失,使用Smooth L1损失作为边框回归损失。总的训练迭代次数设为15个Epoch。BAM中超参数r=16,d=4。
4、模型性能评估
为验证本发明所提的目标检测模型的性能,本实验分别对原始Faster R-CNN和分别结合BAM、CCA注意力以及局部与全局联合注意力的方法进行检测,结果如表2所示。
表2模型性能评估表
从表2中可以看出,加入局部注意力BAM和全局注意力CCA,AP50分别提升了0.6%和0.5%,说明了BAM以及CCA对检测网络的有效性。对于同时使用了BAM和CCA,AP50在相对于原始Faster R-CNN提升了1.0%,说明局部注意力和全局注意力两者有着相互促进的作用。
5、性能对比
为了验证本发明所提出模型的性能,与多种基于CNN的目标检测网络进行了比较。
表3给出了不同网络检测性能的实验结果。从表3中可以发现本发明所提出模型性能优于其他检测网络,在本实验数据集中的飞机目标检测上达到了90.2%的检测精度。本发明所提出模型相较于基本Faster R-CNN的检测精度提高了1.1%。另外,基本Faster R-CNN的检测性能也优于表中的其他典型目标检测网络。这是因为RetinaNet,SSD-300,YOLOv3等单阶段网络没有类似FasterR-CNN中的RPN网络,没有实现目标区域的提前感知能力,直接从整张输入图片中检测飞机目标,从而检测效果没有Faster R-CNN检测精度高。
表3模型性能对比表
图7是不同网络模型检测结果图,其中(a)是不同场景的真实标签,(b)是FasterR-CNN检测结果,(c)是RetinaNet网络检测结果,(d)是SSD-300检测结果,(e)是本发明所提出模型的检测结果。另外每列代表的是不同场景,用(I)、(II)、(III)、(IV)分别表示四个场景。
从图7中可以看出,对于场景(I)和场景(II),Faster R-CNN和RetinaNet都因为较强的背景杂波干扰产生了明显的虚警或者是重复检测;SSD-300有一定的漏警,且忽略了不完整的飞机;而本发明所提出模型由于采用了局部与全局联合注意力的特征金字塔,因此能够较好地解决这种虚警和漏检的问题。同时,场景(III)和场景(IV)中飞机目标呈现为较小且密集排列的特点,RetinaNet和SSD-300模型都存在的漏检现象,而且检测框定位不准,而本发明所提出模型性能显著优于这两种网络。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于,包括:
S1:获取待检测的SAR图像;
S2:将待检测的SAR图像输入训练后的目标检测模型,输出对应的目标检测预测值;
训练目标检测模型时,首先将包含若干个SAR图像的训练集输入目标检测模型;其次通过深度神经网络提取SAR图像不同层次的深度特征图;再将各个层次的深度特征图对应输入至用于提取局部和全局联合注意力特征的金字塔网络的对应联合注意力层,同时将金字塔网络中上层联合注意力层的输出与相邻下层联合注意力层输入的深度特征图拼接作为该相邻下层联合注意力层的输入;然后分别基于金字塔网络各个联合注意力层输出的联合注意力特征图进行预测,得到对应的预测框和分类预测概率;最后通过各个预测框和分类预测概率生成目标检测预测值,并基于目标检测预测值进行模型训练;
S3:基于目标检测模型输出的目标检测预测值实现待检测SAR图像的目标检测。
2.如权利要求1所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,将ResNet50作为用于提取深度特征图的深度神经网络的骨干网络。
3.如权利要求1所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,不同层次的深度特征图是指尺度和通道数量不同的深度特征图。
4.如权利要求1所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,金字塔网络的各个联合注意力层均包括用于提取局部注意力特征图的局部注意力模块和用于提取全局注意力特征图的全局注意力模块;将局部注意力特征图和全局注意力特征图相加,得到对应联合注意力层的联合注意力特征图。
5.如权利要求4所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:局部注意力模块包括通道注意力和空间注意力两条独立的注意力分支;
将作为输入的特征图分别输入两条注意力分支,提取通道注意力特征图和空间注意力特征图;然后将通道注意力特征图和空间注意力特征图相加并经过Sigmoid激活操作后,与输入的特征图相乘并进行残差连接,得到局部注意力特征图;
通道注意力:首先对输入的特征图进行全局平均池化,得到通道向量Fc∈C×1×1;然后通过带有一个隐藏层的多层感知器从通道向量Fc估计跨通道的注意力;最后通过批量归一化层来调整空间分支输出的比例,得到通道注意力特征图;
空间注意力:首先通过1×1卷积将输入的特征图从C×H×W投影到降维的C/r×H×W中;然后通过两个3×3空洞卷积来利用上下文信息;最后通过1×1卷积将特征图再次简化为1×H×W空间注意力图,并应用批量归一化层调整空间分支输出的比例,得到空间注意力特征图。
6.如权利要求4所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:全局注意力模块首先对输入的特征图使用三个1×1卷积,得到Q、K、V三个特征图,特征图Q和K的通道数少于输入特征图的通道数;然后对特征图Q和K进行Affinity操作:将特征图Q中每个通道维度上的向量与其在特征图K中对应位置的横纵方向上的所有向量进行矩阵相乘运算,进而使用softmax函数对通道维度进行权重平均,得到特征图A;最后将特征图A和特征图V进行融合,并将融合后的特征图与输入的特征图进行残差连接,得到全局注意力特征图。
7.如权利要求1所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,将金字塔网络中第i+1层联合注意力层输出的联合注意力特征图pi+1进行两倍上采样并与第i层联合注意力层输入的深度特征图通过1×1卷积后的特征图进行拼接,得到对应的特征图作为第i层联合注意力层的输入。
8.如权利要求1所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,将金字塔网络各个网络层输出的联合注意力特征图分别输入至对应的区域建议网络和感兴趣区域池化层:通过区域建议网络在联合注意力特征图上执行滑窗操作,并分别通过两个CNN作为滑窗内的特征提取器来提取回归框特征和类别特征,得到目标的建议框;然后通过感兴趣区域池化层对目标的建议框进行池化处理以调整建议框的大小,最终得到带建议框的特征图作为全连接层的输入,进而输出预测框的回归参数和分类参数。
9.如权利要求8所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:根据预测框的回归参数计算得到预测框坐标,并对预测框的分类参数进行softmax函数处理,得到各个类别的分类预测概率;然后根据预测框坐标将预测框及其分类预测概率映射到SAR图像上,并对预测框进行裁剪以将越界的预测框的坐标调整到SAR图像边界上;最后移除低概率的目标类别,并执行非极大值抑制处理以抑制多余的预测框,得到带预测框和分类预测概率的SAR图像作为目标检测预测值。
10.如权利要求9所述的基于联合注意力机制的SAR图像飞机目标检测方法,其特征在于:步骤S2中,根据训练的迭代次数和随机梯度下降算法结合交叉熵损失函数和SmoothL1损失函数对预测框和分类预测概率进行联合训练,以完成目标检测模型的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065572.9A CN115410102A (zh) | 2022-08-31 | 2022-08-31 | 基于联合注意力机制的sar图像飞机目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211065572.9A CN115410102A (zh) | 2022-08-31 | 2022-08-31 | 基于联合注意力机制的sar图像飞机目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115410102A true CN115410102A (zh) | 2022-11-29 |
Family
ID=84164570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211065572.9A Pending CN115410102A (zh) | 2022-08-31 | 2022-08-31 | 基于联合注意力机制的sar图像飞机目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410102A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116469014A (zh) * | 2023-01-10 | 2023-07-21 | 南京航空航天大学 | 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法 |
-
2022
- 2022-08-31 CN CN202211065572.9A patent/CN115410102A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116469014A (zh) * | 2023-01-10 | 2023-07-21 | 南京航空航天大学 | 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法 |
CN116469014B (zh) * | 2023-01-10 | 2024-04-30 | 南京航空航天大学 | 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818326B (zh) | 一种基于场景多维特征的船只检测方法及系统 | |
CN112308019B (zh) | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 | |
CN112766087A (zh) | 一种基于知识蒸馏的光学遥感图像舰船检测方法 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN109271856A (zh) | 基于扩张残差卷积的光学遥感图像目标检测方法 | |
CN111091105A (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN110310264A (zh) | 一种基于dcnn的大尺度目标检测方法、装置 | |
CN110189304B (zh) | 基于人工智能的光学遥感图像目标在线快速检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN110533631A (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN107784663A (zh) | 基于深度信息的相关滤波跟踪方法及装置 | |
CN110009010A (zh) | 基于兴趣区域重检测的宽幅光学遥感目标检测方法 | |
CN113643284B (zh) | 基于卷积神经网络的极化合成孔径雷达图像舰船检测方法 | |
CN113920107A (zh) | 一种基于改进yolov5算法的绝缘子破损检测方法 | |
CN110018453A (zh) | 基于飞机航迹特征的智能机型识别方法 | |
CN109063549A (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
CN114078209A (zh) | 一种提升小目标检测精度的轻量级目标检测方法 | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN113569921A (zh) | 一种基于gnn的船舶分类识别方法及装置 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
CN115410102A (zh) | 基于联合注意力机制的sar图像飞机目标检测方法 | |
CN113569720B (zh) | 一种舰船检测方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |