CN116385873A

CN116385873A - 基于坐标感知注意力和空间语义上下文的sar小目标检测

Info

Publication number: CN116385873A
Application number: CN202310263722.5A
Authority: CN
Inventors: 江政杰; 王裕沛; 陈亮; 张玺; 周小琪
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2023-03-11
Filing date: 2023-03-11
Publication date: 2023-07-04

Abstract

本发明公开了一种基于坐标感知注意力和空间语义上下文的SAR小目标检测网络。目标检测是遥感图像智能处理的一项重要任务，通过一系列算法，图像上的目标会被自动定位和识别。由于SAR特有的成像机制，图像中存在许多散斑噪点，导致目标与背景难以区分，所以相较于光学遥感图像，SAR图像的处理难度更大。本发明能够显著提高SAR遥感图像小尺度目标的检测效果，特别是针对背景复杂、噪音干扰严重的SAR遥感小目标检测场景，在有效抑制背景噪音的基础上，显著提高了检测率及检测精度，并加强了模型的鲁棒性和泛化能力，提升了模型对不同场景的适应能力。

Description

基于坐标感知注意力和空间语义上下文的SAR小目标检测

技术领域

本发明涉及SAR遥感图像处理的小尺度目标检测技术领域，具体涉及一种基于坐标感知注意力和空间语义上下文的SAR遥感图像小目标检测方法。可以在背景复杂、噪音干扰严重的SAR遥感场景中取得不错的目标检测效果；小目标的特征表达得到了丰富，辨识度得到了显著提升。

背景技术

合成孔径雷达(SAR)由于其全天时、全天候的成像特性，随着近年来机载、星载卫星的快速发展，在军事和民用领域得到了广泛应用，如海上交通管制、渔业管理、海上应急救援等。目标检测是遥感图像智能处理的一项重要任务，通过一系列算法，图像上的目标会被自动定位和识别。传统的SAR图像检测算法主要基于恒虚警率(Constant False AlarmRate，CFAR)检测器，通过估计背景杂波的统计量来自适应地计算检测阈值，并保持恒定的虚警率。但是，这些传统方法手工设计繁琐，计算过程复杂，泛化能力弱，限制了迁移的应用。此外，这些传统方法对研究人员的专业知识要求非常高，容易造成过拟合问题。

近年来，深度学习的蓬勃发展促进了目标检测性能的大幅提高。基于卷积神经网络的方法可以自适应地学习图像的高级语义表达，通过强大的训练算法完成对目标的分类和定位。由于其优秀的特征提取和表达能力，卷积神经网络已经成为当前目标检测的主流算法。按照模型框架，目前主流目标检测网络可以分为两大类：以YOLO系列为代表的单阶段检测网络和以Faster-RCNN为代表的两阶段检测网络，其中两阶段网络更注重检测精度，而单阶段网络更追求检测效率。

由于SAR特有的成像机制，图像中存在许多散斑噪点，导致目标与背景难以区分，所以相较于光学遥感图像，SAR图像的处理难度更大。此外，分辨率受限导致SAR图像中目标尺度偏小，目标缺乏足够的外观特征，检测器难以提取到具有鉴别力的信息，无法实现目标精确定位和识别。受启发于人类选择性注意力，一些研究使用通道空间混合注意力机制来加强模型对前景区域的关注度。但这些方法忽略了通道注意力中的空间位置信息，使得通道空间注意力特征和空间注意力特征之间产生空间错位，限制了小目标检测的精度提升。另一些工作试图挖掘上下文关系，利用环境信息来丰富小目标的特征表达。但由于缺乏对局部和全局上下文的有效融合，检测器难以充分利用目标和环境之间的本质关联。

发明内容

鉴于此，本发明提供了一种基于坐标感知注意力和空间语义上下文的SAR遥感图像小目标检测方法。该方法首先以YOLOX作为目标检测基础框架，在网络特征提取模块中引入坐标感知注意力机制，通过在水平和垂直方向上分别进行特征提取与编码，将空间坐标信息嵌入到通道注意力中，使模型在获取通道注意力时依旧保持特征的空间关系。用坐标感知通道注意力去加强输入特征，并在加强后的特征图上进一步挖掘空间注意力，使得空间注意力特征与通道注意力特征的空间关系保持对齐，得到坐标感知混合注意力加强的目标特征图。经过多个堆叠而成的坐标感知注意力加强特征提取模块，得到一系列多尺度多层级坐标感知混合注意力加强特征图。接着将提取到的部分特征图输入到空间语义上下文模块中，一方面通过提取目标不同感受野内的局部空间环境特征，获取多尺度空间上下文特征；另一方面通过对全局特征的归纳与交互，得到目标与整个场景的全局语义上下文关联。将多尺度空间上下文与全局语义上下文进行融合，得到空间语义上下文特征图。然后将多尺度坐标感知注意力加强特征图与空间语义上下文特征图送入到YOLOX的特征融合网络中进行特征融合，通过自上而下-自下而上的融合路径，得到多尺度目标融合特征图。最后将多尺度目标融合特征图输入到目标框检测头中，得到目标检测结果。

有益效果：

(1)本发明设计了一种坐标感知注意力机制，将空间坐标信息编码到通道注意力中，并在坐标感知通道注意力强化后的特征上进一步挖掘空间注意力特征，使得通道注意力特征和空间注意力特征的空间位置分布保持对齐，缓解了以往通道空间混合注意力机制的空间错位问题，细化了注意力机制的作用颗粒度，加强了特征提取过程中对小目标的聚焦能力，提高了小目标的定位精度，并抑制了背景噪音的干扰。

(2)本发明设计了一种空间语义上下文方法，通过提取目标周围不同空间范围内的局部环境特征以及构建目标与整个场景之间的全局语义关联，使目标体现出更丰富的空间和语义特征表达，从而更具辨识度，提高了模型对小目标的检测性能。

(3)本发明能够显著提高SAR遥感图像小尺度目标的检测效果，特别是针对背景复杂、噪音干扰严重的SAR遥感小目标检测场景，在有效抑制背景噪音的基础上，显著提高了检测率及检测精度，并加强了模型的鲁棒性和泛化能力，提升了模型对不同场景的适应能力。

附图说明

图1为基于坐标感知注意力和空间语义上下文的小目标检测网络结构

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明通过坐标感知注意力机制提取空间对齐的坐标感知混合注意力加强特征图，增强模型对小目标的聚焦能力，提高小目标的定位精度，抑制背景噪音干扰。通过空间语义上下文方法，充分挖掘及结合环境的局部空间信息和全局语义关联，丰富目标的空间语义特征表达，提高目标的辨识度。模型结构及各方法模块细节如图1所示。

步骤一、多尺度坐标感知混合注意力加强特征提取

本发明提出坐标感知注意力特征提取模块(Coordinate-Aware Attention CrossStage Partial，CAA-CSP)。输入图像首先通过YOLOX网络的Focus模块进行图像缩放，再经过若干个连续的坐标感知注意力特征提取模块进行由浅至深的特征提取，得到多尺度多层级空间对齐的坐标感知混合注意力加强特征图。

具体包括：

输入特征首先经过一个大小为3×3，步幅为2的卷积操作进行二倍降采样，然后分别通过两个卷积核大小为1×1的卷积计算，将特征维度减半的同时分别送入至两条不同的处理路径。将其中一条路径上的特征图A首先通过一个1×1卷积降低通道数，然后经过一个3×3的深度卷积处理后进入坐标感知注意力模块(Coordinate-Aware Attention，CAA)中，得到坐标感知混合注意力加强特征图。接着通过一个1×1卷积恢复通道数，最后将得到的特征图与特征图A进行逐元素相加。将得到的特征图与另一条路径上的特征图B进行通道上的堆叠，最后经过一个1×1卷积将合并后的特征图进行特征细化。

在坐标感知注意力模块中，首先进行坐标感知通道注意力计算，具体而言，输入特征图首先分别在X和Y轴上进行一维平均池化，得到两个二维特征图，它们表示水平和垂直方向上的坐标感知归纳性特征图。将这两个特征图分别送入两组独立的卷积运算中，每组运算包含两个1×1卷积操作和一个Sigmoid激活函数。然后将得到的两个特征图相乘，得到坐标感知通道注意力图，再将其与输入特征相乘，得到坐标感知通道注意力加强特征图。接着在坐标感知通道注意力加强特征图的基础上继续挖掘空间注意力，具体而言，坐标感知通道注意力加强特征图首先在通道方向上分别进行最大池化和平均池化操作，得到两个空间归纳特征图。将这两个特征图进行通道上的堆叠，得到的特征图再被依次送入到两个3×3卷积和一个Sigmoid激活函数，得到坐标感知空间注意力图。最后将坐标感知空间注意力图与坐标感知通道注意力加强特征图相乘，得到坐标感知混合注意力加强特征图。

步骤二、空间语义上下文提取

本发明提出空间语义上下文模块(Spatial-Semantic Context，SSC)。将部分多尺度多层级坐标感知混合注意力加强特征图送入到空间语义上下文模块中，同时捕获目标与环境的局部空间上下文信息和全局语义上下文关联，得到空间语义上下文特征图。

具体包括：

输入特征图首先被输入到三个并行的深度空洞卷积操作流程中，基于不同的卷积核大小(3×3,3×3,5×5)和空洞率(1,3,3)，得到了三组具有不同大小感受野的局部空间特征图。将得到的三组特征图按照对应通道依次穿插，再通过一个1×1分组卷积将每连续三幅局部空间特征图融合为一幅特征图。接着通过一个Sigmoid激活函数，得到多尺度空间上下文特征图。与此同时，输入特征图经过一个全局池化操作、两个1×1卷积以及一个Sigmoid激活函数，并将结果与自身相乘，得到全局语义上下文特征图。最后，将得到的多尺度空间上下文特征图和全局语义上下文特征图相加，得到空间语义加强特征图。

步骤三、多层级特征融合

本发明利用YOLOX的特征融合网络，将坐标感知混合注意力加强特征图与空间语义上下文特征图通过自下而上、自上而下的跨层级特征融合路径实现位置信息与语义信息的进一步交互与细化，得到多尺度目标融合特征图。

步骤四、目标检测结果输出

本发明利用YOLOX的目标框检测头，将多尺度目标融合特征图进行特征整理与归纳，最终输出目标分类特征图、目标框位置回归特征图以及目标框置信度回归图，再经过一系列后处理得到目标的位置及类别推理结果。

Claims

1.基于坐标感知注意力和空间语义上下文的SAR小目标检测，包括以下步骤：

步骤一、多尺度坐标感知混合注意力加强特征提取；

步骤二、空间语义上下文提取；

步骤三、多层级特征融合；

步骤四、目标检测结果输出。

2.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测，其特征在于，步骤一中本发明提出坐标感知注意力特征提取模块(Coordinate-AwareAttention Cross Stage Partial，CAA-CSP)。输入图像首先通过YOLOX网络的Focus模块进行图像缩放，再经过若干个连续的坐标感知注意力特征提取模块进行由浅至深的特征提取，得到多尺度多层级空间对齐的坐标感知混合注意力加强特征图。

3.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测，其特征在于，步骤二中本发明提出空间语义上下文模块(Spatial-Semantic Context，SSC)。将部分多尺度多层级坐标感知混合注意力加强特征图送入到空间语义上下文模块中，同时捕获目标与环境的局部空间上下文信息和全局语义上下文关联，得到空间语义上下文特征图。

4.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测，其特征在于，步骤三中利用YOLOX的特征融合网络，将坐标感知混合注意力加强特征图与空间语义上下文特征图通过自下而上、自上而下的跨层级特征融合路径实现位置信息与语义信息的进一步交互与细化，得到多尺度目标融合特征图。

5.如权利要求1所述的基于坐标感知注意力和空间语义上下文的SAR小目标检测，其特征在于，步骤四中利用YOLOX的目标框检测头，将多尺度目标融合特征图进行特征整理与归纳，最终输出目标分类特征图、目标框位置回归特征图以及目标框置信度回归图，再经过一系列后处理得到目标的位置及类别推理结果。