CN115147720A

CN115147720A - 基于坐标注意力和长短距上下文的sar舰船检测方法

Info

Publication number: CN115147720A
Application number: CN202210718888.7A
Authority: CN
Inventors: 王裕沛; 陈亮; 师皓; 周小琪
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-04

Abstract

本发明提供一种基于坐标注意力和长短距上下文的SAR舰船检测方法，包括：获取待测SAR舰船图像，待测SAR舰船图像中包含有对应的舰船；根据坐标注意力机制构造特征提取网络，将待测SAR舰船图像输入特征提取网络，获取坐标注意力增强的特征图；根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入长短距上下文协同提取网络，获取上下文强化后的特征图；通过PAN金字塔特征融合网络，对上下文强化后的特征图进行特征融合，获取融合后的特征图；将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别。本发明能够缓解图像噪音干扰且能够对小目标进行精准检测。

Description

基于坐标注意力和长短距上下文的SAR舰船检测方法

技术领域

本发明涉及雷达舰船检测技术领域，尤其涉及一种基于坐标注意力和长短距上下文的SAR舰船检测方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天时、全天候的成像特性，随着今年来机载、星载卫星的发展，SAR已经广泛应用于军事和民用领域。SAR船舶探测作为一项基础性海事任务，在海上交通管制、渔业管理、海上应急救援等方面具有重要价值。目标检测是SAR船舶探测任务中的重要环节，通过一系列算法，图像上的舰船目标会被自动定位和识别，而目标检测性能是影响船舶探测精度的关键因素。

由于SAR特有的成像机制，图像中存在许多散斑噪点，导致目标与背景、噪音难以区分，所以相较于光学遥感图像，SAR图像的处理难度更大。因为SAR图像分辨率较低，舰船目标尺度较小，可视化信息少，难以提取到具有鉴别力的特征，而且边界模糊，容易受到环境因素的干扰，导致检测模型难以精确定位和识别。现有方法如特征金字塔网络FPN和PAN通过将相邻层级的特征图自下而上、自上而下地融合，将深层特征图中丰富的语义信息与浅层特征图中的空间细粒度特征相结合，突出高分辨率特征图中小目标的语义特性，但这种方法仍无法避免小目标在特征提取过程中多次降采样导致的信息特征丢失。此外，现有方法多采用锚框机制对目标位置进行预测，大量冗余的锚框密集分布在输入图像中，不仅对网络计算带来了沉重的负担，而且人为设定的超参可能会导致模型收敛困难，使得检测性能不理想。

综上所述，现有技术在对SAR舰船检测时，存在SAR图像船舶目标由于散斑噪点和较小尺度，难以准确定位和识别；无法避免多次降采样带来的信息丢失，导致检测性能难以提升；锚框机制不仅增加了计算冗余，还使训练过程变得更加复杂等问题。

因此，亟需一种能够缓解图像噪音干扰、且能够对小目标进行精准检测的SAR舰船检测方法。

发明内容

基于此，有必要针对上述技术问题，提供一种基于坐标注意力和长短距上下文的SAR舰船检测方法。

一种基于坐标注意力和长短距上下文的SAR舰船检测方法，包括以下步骤：获取待测SAR舰船图像，所述待测SAR舰船图像中包含有对应的舰船；根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入所述特征提取网络，获取坐标注意力增强的特征图；根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入所述长短距上下文协同提取网络，获取上下文强化后的特征图；通过PAN金字塔特征融合网络，对所述上下文强化后的特征图进行特征融合，获取融合后的特征图；将所述融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别。

在其中一个实施例中，所述根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入所述特征提取网络，获取坐标注意力增强的特征图，具体包括：根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入特征提取网络；在所述特征提取网络中，将所述待测SAR舰船图像通过一个卷积核大小为3×3，步幅为2的卷积操作进行二倍降采样，将降采样后的图像分别通过两个卷积核大小为1×1的卷积操作减半维度，获取初始特征图，并分别送入至第一处理路径和第二处理路径；在第一处理路径中，将所述初始特征图引入坐标注意力残差块中，得到第一特征图；在第二处理路径中，将所述初始特征图记为第二特征图；将所述第一特征图与第二特征图进行通道上的堆叠，并经过一个卷积核大小为1×1的卷积操作，将堆叠后的特征图进行特征细化，获取不同层级的坐标注意力增强的特征图。

在其中一个实施例中，所述在第一处理路径中，将所述初始特征图引入坐标注意力残差块中得到第一特征图，具体包括：将所述初始特征图通过一个1×1的卷积降低通道数；通过卷积核大小为3×3的卷积操作对降低通道数后的特征图进行深度卷积；将深度卷积后的特征图输入坐标注意力模块，通过一个1×1的卷积恢复通道数，得到恢复特征图；将所述恢复特征图与所述初始特征图进行元素之间的相加，得到第一特征图。

在其中一个实施例中，所述根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入所述长短距上下文协同提取网络，获取上下文强化后的特征图，具体包括：根据长短距上下文信息构造长短距上下文协同提取网络；将坐标注意力增强的特征图输入所述长短距上下文协同提取网络中；在长短距上下文协同提取网络中，将所述坐标注意力增强的特征图输入两路并行的非线性计算模块，所述非线性计算模块包括长距上下文模块和短距上下文模块，获取长距上下文特征图和短距上下文特征图；根据对应通道依次穿插的方式，将所述长距上下文特征图和短距上下文特征图进行拼接，并通过一个1×1的分组卷积，将每一对相邻拼接的长距上下文特征图和短距上下文特征图融合为一张特征图；将融合后的特征图通过Sigmoid函数映射到0～1之间，得到长短距混合上下文权重图；将所述长短距混合上下文权重图与坐标注意力增强的特征图进行求和，得到上下文强化后的特征图。

在其中一个实施例中，所述长距上下文由一个卷积核大小为5×5且扩张率为5的空洞深度卷积和一个1×1的深度卷积捕获；所述短距上下文由一个1×1的深度卷积和一个卷积核大小为3×3且扩张率为3的空洞深度卷积捕获。

在其中一个实施例中，所述通过PAN金字塔特征融合网络对上下文强化后的特征图进行融合，具体包括：将上下文强化后的特征图送入到PAN金字塔特征融合网络中，通过自下而上、自上而下的信息流，对所述上下文强化后的特征图进行位置信息和语义信息的细化，得到融合后的特征图。

在其中一个实施例中，所述将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别，具体包括：将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取目标分类特征图、目标框位置回归特征图以及目标框置信度回归图；根据所述目标分类特征图、目标框位置回归特征图以及目标框置信度回归图，获取舰船位置和舰船类别。

相比于现有技术，本发明的优点及有益效果在于：通过获取待测SAR舰船图像，且待测SAR图像中包含有对应的舰船，根据坐标注意力机制构造特征提取网络，将待测SAR舰船图像输入特征提取网络，获取坐标注意力增强的特征图，从而加强对小目标的聚焦能力，抑制背景噪音的干扰；根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入长短距上下文协同提取网络中，获取上下文强化后的特征图，能够对跨区域和邻近区域环境信息进行同时采集，丰富小目标的显著特征，提高对小目标的检测性能；通过PAN金字塔特征融合网络，对上下文强化后的特征图进行特征融合，获取融合后的特征图，能够同时对位置信息和语义信息进行跨层级的传递融合，丰富了小目标的特征表达；将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别，提升了SAR图像的舰船目标检测性能，且提高了检测模型的检测精度和泛化性能。

附图说明

图1为一个实施例中一种基于坐标注意力和长短距上下文的SAR舰船检测方法的流程示意图；

图2为一个实施例中一种基于坐标注意力和长短距上下文的SAR舰船检测方法的网络结构示意图；

图3为一个实施例中特征提取网络的原理示意图；

图4为一个实施例中长短距上下文协同提取网络的原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在一个实施例中，如图1至图4所示，提供了一种基于坐标注意力和长短距上下文的SAR舰船检测方法，包括以下步骤：

步骤S101，获取待测SAR舰船图像，待测SAR舰船图像中包含有对应的舰船。

具体地，通过合成孔径雷达获取待测SAR图像，待测SAR舰船图像中包含有对应的舰船。

步骤S102，根据坐标注意力机制构造特征提取网络，将待测SAR舰船图像输入特征提取网络，获取坐标注意力增强的特征图。

具体地，根据坐标注意力机制构造特征提取网络，并重新构造特征提取网络中的残差结构，采用深度可分卷积减少计算量，将待测SAR舰船图像输入特征提取网络，进行由浅至深的特征提取，获取不同层级的坐标注意力增强的特征图，从而在减少计算量的同时，加强了对小目标的聚焦能力，抑制了背景噪音的干扰。

其中，坐标注意力机制将通道注意力分解为两个1D特征编码过程，这两个过程分别沿两个空间方向聚集特征，坐标注意力以这种方式，可以沿着一个空间方向捕获长程相关性，同时可以沿着另一个空间方向保留精确的位置信息，所得到的特征图被分别编码成一对方向感知和位置敏感的注意力图，该注意力图可以互补地应用于输入特征图，以增强感兴趣对象即舰船的表示。

步骤S103，根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入长短距上下文协同提取网络，获取上下文强化后的特征图。

具体地，根据长短距上下文信息构造，通过长短距上下文协同提取网络，对不同层级的坐标注意力增强的特征图进行特征提取，获取上下文强化后的特征图，能够利用不同大小的感受野，同时采集跨区域和邻近区域的环境信息，丰富小目标的显著特征，从而提高对小目标的检测性能。

其中，在长短距上下文协同提取网络中，通过采用一对不同扩张率的空洞卷积来实现两种不同大小的感受野，分别提取目标跨区域和邻近的环境特征，并进行有效融合。其中，感受野指的是卷积神经网络每一层输出的特征图上的像素点映射回输入图像上的区域大小，即特征图上一点，相对于原图的大小，也是卷积神经网络特征所能看到输入图像的区域。

步骤S104，通过PAN金字塔特征融合网络，对上下文强化后的特征图进行特征融合，获取融合后的特征图。

具体地，通过PAN金字塔特征融合网络，采用自下而上和自上而下的信息流，将上下文强化后的特征图中的丰富的语义特征和高分辨率的位置特征进行充分融合，获取融合后的特征图。在PAN金字塔特征融合网络中，先进行自上而下的特征融合，再进行自下而上的特征融合，减少了特征传递需要穿过的特征图数量，从而提高特征融合速度，且具有良好的融合效果。

步骤S105，将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别。

具体地，YOLOX无锚框解耦检测头将任务划分为两个子任务，包括分类子任务和定位子任务，在将融合后的特征图输入到YOLOX无锚框解耦检测头中后，分别进行目标定位和目标分类，获取SAR图像中的舰船位置和舰船类别，从而提升了检测效果。

在本实施例中，通过获取待测SAR舰船图像，且待测SAR图像中包含有对应的舰船，根据坐标注意力机制构造特征提取网络，将待测SAR舰船图像输入特征提取网络，获取坐标注意力增强的特征图，从而加强对小目标的聚焦能力，抑制背景噪音的干扰；根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入长短距上下文协同提取网络中，获取上下文强化后的特征图，能够对跨区域和邻近区域环境信息进行同时采集，丰富小目标的显著特征，提高对小目标的检测性能；通过PAN金字塔特征融合网络，对上下文强化后的特征图进行特征融合，获取融合后的特征图，能够同时对位置信息和语义信息进行跨层级的传递融合，丰富了小目标的特征表达；将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别，提升了SAR图像的舰船目标检测性能，且提高了检测模型的检测精度和泛化性能。

其中，步骤S102具体包括：根据坐标注意力机制构造特征提取网络，将待测SAR舰船图像输入特征提取网络；在特征提取网络中，将待测SAR舰船图像通过一个卷积核大小为3×3，步幅为2的卷积操作进行二倍降采样，将降采样后的图像分别通过两个卷积核大小为1×1的卷积操作减半维度，获取初始特征图，并分别送入至第一处理路径和第二处理路径；在第一处理路径中，将初始特征图引入坐标注意力残差块中，得到第一特征图；在第二处理路径中，将初始特征记为第二特征图；将第一特征图与第二特征图进行通道上的堆叠，并经过一个卷积核大小为1×1的卷积操作，将堆叠后的特征图进行特征细化，获取不同层级的坐标注意力增强的特征图。

如图3所示，将待测SAR图像输入特征提取网络，通过一个卷积核大小为3×3，步幅为2的卷积操作进行二倍采样，然后分别通过两个卷积核大小为1×1的卷积操作，将降采样后的待测SAR图像的维度减半，获取初始特征图，并分别送入两条不同的处理路径，即第一处理路径和第二处理路径。

其中，在第一处理路径中，初始特征图的处理过程为：将初始特征图通过一个1×1的卷积降低通道数；通过卷积核大小为3×3的卷积操作对降低通道数后的特征图进行深度卷积；将深度卷积后的特征图输入坐标注意力模块，通过一个1×1的卷积恢复通道数，得到恢复特征图；将恢复特征图与初始特征图进行元素之间的相加，得到第一特征图。

具体地，将初始特征图A引入到坐标注意力残差块中，即先通过一个1×1的卷积降低通道数，然后经过一个3×3的深度卷积后，进入坐标注意力计算模块中，得到注意力特征图，将注意力特征图通过一个1×1的卷积恢复通道数，最后将得到的特征图与初始特征图A进行元素之间的相加，获取第一特征图，完成坐标注意力计算残差块的计算。

在第二处理路径中，将初始特征图B记为第二特征图。

最后，将第一特征图与第二特征图进行通道上的堆叠，在将堆叠后的特征图通过一个卷积核大小为1×1的卷积操作，将合并后的特征图进行特征细化，获取不同层级的坐标注意力增强的特征图，从而加强了对小目标的聚焦能力，缓解了多次下采样导致的信息丢失问题，且能够抑制背景噪音的干扰，进而提高目标检测效果。

其中，步骤S103具体包括：根据长短距上下文信息构造长短距上下文协同提取网络；将坐标注意力增强的特征图输入长短距上下文协同提取网络中；在长短距上下文协同提取网络中，将坐标注意力增强的特征图输入两路并行的非线性计算模块，非线性计算模块包括长距上下文模块和短距上下文模块，获取长距上下文特征图和短距上下文特征图；根据对应通道依次穿插的方式，将长距上下文特征图和短距上下文特征图进行拼接，并通过一个1×1的分组卷积，将每一对相邻拼接的长距上下文特征图和短距上下文特征图融合为一张特征图；将融合后的特征图通过Sigmoid函数映射到0～1之间，得到长短距混合上下文权重图；将长短距混合上下文权重图与坐标注意力增强的特征图进行求和，得到上下文强化后的特征图。

如图4所示，将不同层级的坐标注意力增强的特征图输入长短距上下文协同提取网络中，将输入的特征图分别送入两路并行的非线性计算模块，两路并行的非线性计算模块分别为长距上下文模块和短距上下文模块，从而获取长距上下文特征图和短距上下文特征图。

其中，长距上下文由一个卷积核大小为5×5且扩张率为5的空洞深度卷积和一个1×1的深度卷积捕获；短距上下文由一个1×1的深度卷积和一个卷积核大小为3×3且扩张率为3的空洞深度卷积捕获。

在获取长短距上下文特征图后，根据对应通道依次穿插的方式，将长距上下文特诊图和短距上下文特征图进行拼接，通过一个1×1的分组卷积将每一对相邻拼接的长距上下文特征图和短距上下文特征图融合为一张特征图；并将融合后的特征图通过Sigmoid函数映射到0～1之间，得到长短距混合上下文权重图；将长短距混合上下文权重图与对应的坐标注意力增强的特征图进行求和，得到上下文强化后的特征图，实现跨区域和邻近区域环境信息的同时采集，丰富了小目标的显著特征图，提高对小目标的检测性能。

其中，步骤S104具体包括：将上下文强化后的特征图送入到PAN金字塔特征融合网络中，通过自下而上、自上而下的信息流，对上下文强化后的特征图进行位置信息和语义信息的细化，得到融合后的特征图。

具体地，将上下文强化后的特征图送入到PAN金字塔特征融合网络中，通过自下而上和自上而下的信息流，对上下文强化后的特征图进行位置信息和语义信息的充分融合，得到融合后的特征图，实现了同时对位置信息和语义信息的跨层级传递融合，丰富了小目标的特征表达。

其中，步骤S105具体包括：将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取目标分类特征图、目标框位置回归特征图以及目标框置信度回归图；根据目标分类特征图、目标框位置回归特征图以及目标框置信度回归图，获取舰船位置和舰船类别。

具体地，融合后获取不同层级的特征图，将融合后的特征图分别送入到YOLOX无锚框解耦检测头中，通过YOLOX无锚框解耦检测头获取目标分类特征图、目标框位置回归特征图和目标框置信度回归图，根据目标分类特征图能够获取对应的舰船类别信息，根据目标框位置回归特征图获取对应舰船的位置信息，同时，还能够根据目标框置信度回归图判断输出结果的置信度，以便于基于舰船位置和舰船分类进行后续处理，提升了SAR图像的舰船目标检测性能，且提高了检测精度和泛化性能。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，包括以下步骤：

获取待测SAR舰船图像，所述待测SAR舰船图像中包含有对应的舰船；

根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入所述特征提取网络，获取坐标注意力增强的特征图；

根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入所述长短距上下文协同提取网络，获取上下文强化后的特征图；

通过PAN金字塔特征融合网络，对所述上下文强化后的特征图进行特征融合，获取融合后的特征图；

将所述融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别。

2.根据权利要求1所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入所述特征提取网络，获取坐标注意力增强的特征图，具体包括：

根据坐标注意力机制构造特征提取网络，将所述待测SAR舰船图像输入特征提取网络；

在所述特征提取网络中，将所述待测SAR舰船图像通过一个卷积核大小为3×3，步幅为2的卷积操作进行二倍降采样，将降采样后的图像分别通过两个卷积核大小为1×1的卷积操作减半维度，获取初始特征图，并分别送入至第一处理路径和第二处理路径；

在第一处理路径中，将所述初始特征图引入坐标注意力残差块中，得到第一特征图；

在第二处理路径中，将所述初始特征图记为第二特征图；

将所述第一特征图与第二特征图进行通道上的堆叠，并经过一个卷积核大小为1×1的卷积操作，将堆叠后的特征图进行特征细化，获取不同层级的坐标注意力增强的特征图。

3.根据权利要求2所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述在第一处理路径中，将所述初始特征图引入坐标注意力残差块中得到第一特征图，具体包括：

将所述初始特征图通过一个1×1的卷积降低通道数；

通过卷积核大小为3×3的卷积操作对降低通道数后的特征图进行深度卷积；

将深度卷积后的特征图输入坐标注意力模块，通过一个1×1的卷积恢复通道数，得到恢复特征图；

将所述恢复特征图与所述初始特征图进行元素之间的相加，得到第一特征图。

4.根据权利要求1所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述根据长短距上下文信息构造长短距上下文协同提取网络，将坐标注意力增强的特征图输入所述长短距上下文协同提取网络，获取上下文强化后的特征图，具体包括：

根据长短距上下文信息构造长短距上下文协同提取网络；

将坐标注意力增强的特征图输入所述长短距上下文协同提取网络中；

在长短距上下文协同提取网络中，将所述坐标注意力增强的特征图输入两路并行的非线性计算模块，所述非线性计算模块包括长距上下文模块和短距上下文模块，获取长距上下文特征图和短距上下文特征图；

根据对应通道依次穿插的方式，将所述长距上下文特征图和短距上下文特征图进行拼接，并通过一个1×1的分组卷积，将每一对相邻拼接的长距上下文特征图和短距上下文特征图融合为一张特征图；

将融合后的特征图通过Sigmoid函数映射到0～1之间，得到长短距混合上下文权重图；

将所述长短距混合上下文权重图与坐标注意力增强的特征图进行求和，得到上下文强化后的特征图。

5.根据权利要求4所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述长距上下文由一个卷积核大小为5×5且扩张率为5的空洞深度卷积和一个1×1的深度卷积捕获；所述短距上下文由一个1×1的深度卷积和一个卷积核大小为3×3且扩张率为3的空洞深度卷积捕获。

6.根据权利要求1所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述通过PAN金字塔特征融合网络对上下文强化后的特征图进行融合，具体包括：

将上下文强化后的特征图送入到PAN金字塔特征融合网络中，通过自下而上、自上而下的信息流，对所述上下文强化后的特征图进行位置信息和语义信息的细化，得到融合后的特征图。

7.根据权利要求1所述的基于坐标注意力和长短距上下文的SAR舰船检测方法，其特征在于，所述将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取舰船位置和舰船类别，具体包括：

将融合后的特征图输入到YOLOX无锚框解耦检测头中，获取目标分类特征图、目标框位置回归特征图以及目标框置信度回归图；

根据所述目标分类特征图、目标框位置回归特征图以及目标框置信度回归图，获取舰船位置和舰船类别。