CN114022752A

CN114022752A - 基于注意力特征精细化及对齐的sar目标检测方法

Info

Publication number: CN114022752A
Application number: CN202111298585.6A
Authority: CN
Inventors: 赵琰; 赵凌君; 张思乾; 雷琳; 唐涛; 熊博莅
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08
Anticipated expiration: 2041-11-04
Also published as: CN114022752B

Abstract

本申请涉及一种基于注意力特征精细化及对齐的SAR目标检测方法，所述方法包括：通过目标检测模型对SAR目标图像进行检测，其中目标检测模型包括注意力特征融合单元，其将目标浅层纹理特征和高层语义特征进行充分融合，可变形旁路连接单元，其可对飞机离散的后向散射点与卷积核对齐，使得提取目标特征更准确且不易受目标背景的干扰，锚点引导检测单元，其通过特征对齐的锚点框对目标位置进行准确的预测，有效提高了目标检测的准确性以及高效性。

Description

基于注意力特征精细化及对齐的SAR目标检测方法

技术领域

本申请涉及SAR图像检测技术领域，特别是涉及一种基于注意力特征精细化及对齐的SAR目标检测方法。

背景技术

合成孔径雷达(Synthetic Aperture Radar，SAR)具备全天时、全天候的对地观测能力，在军事和民用领域应用广泛，相应针对SAR图像特定任务的解译算法也在过去的几十年中被相继提出。SAR图像质量与数量的不断提升推动了高分辨率SAR图像目标解译算法的进一步发展。作为高分辨率SAR图像解译的任务之一，SAR图像飞机目标的检测与识别，其目的在于从大场景的SAR图像中对飞机目标准确定位与分类，在民用(如机场调度)与军事(如情报侦查)等领域具有重要的应用价值。

然而，由于飞机目标后向散射点分布高度离散化、飞机姿态多样且周围背景干扰复杂，对SAR图像中的飞机目标准确检测依然面临严峻挑战。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高检测的精准度及高效性的基于注意力特征精细化及对齐的SAR目标检测方法。

一种基于注意力特征精细化及对齐的SAR目标检测方法，所述方法包括：

获取SAR图像训练集，所述SAR图像训练集中包括有多张SAR训练图像，且各张SAR训练图像中均包括不止一个目标；

将各所述SAR训练图像输入目标检测模型并对其进行训练，得到已训练的目标检测模型；

其中，所述目标检测模型包括注意力特征融合单元、可变形旁路连接单元以及锚点引导检测单元，所述注意力特征融合注意力特征融合单元用于对目标的浅层纹理特征和高层语义特征进行充分融合，所述可变形旁路连接单元中采用可变形卷积对目标的后向散射点特征对齐后进行离散特征的提取，所述锚点引导检测单元用于对目标的位置进行准确预测；

获取待检测的SAR目标图像；

将所述SAR目标图像输入所述已训练的目标检测模型，对所述SAR目标图像中的目标所在位置进行预测。

在其中一实施例中，所述目标检测模型还包括基础特征提取单元，所述基础特征提取单元采用VGG-16神经网络对SAR训练图像中的基础特征进行提取；

其中，选择VGG-16神经网络的三个中间特征提取层的输出作为所述注意力特征融合的输入。

在其中一实施例中，所述三个中间特征提取层为Conv4_3层、Conv5_3层以及Conv7层，分别对应的输出低层基础特征、中层基础特征以及高层基础特征。

在其中一实施例中，所述注意力特征融合单元包括三组依次连接的注意力特征融合子单元，各所述注意力特征融合子单元中还包括一个分离注意力单元；

所述可变形旁路连接单元同样包括三组分别与各注意力特征融合子单元相连接的可变形旁路连接子单元。

在其中一实施例中，将所述低层基础特征、中层基础特征以及高层基础特征输入至所述注意力特征融合单元后包括：

将所述高层基础特征以及中层基础特征输入第三组注意力特征融合子单元进行特征融合得到与所述高层基础特征图相关的融合特征图，再将所述融合特征输入对应组的变形旁路连接子单元构建得到高层精细化特征图；

将所述中间基础特征图、低层基础特征图以及高层精细化特征图输入第二组注意力特征融合子单元进行特征融合得到与所述中层基础特征图相关的融合特征图，再将所述融合特征输入对应组的变形旁路连接子单元构建得到中层精细化特征图；

将所述低层基础特征图以及中层精细化特征图输入第一组注意力特征融合子单元进行特征融合得到与所述低层基础特征图相关的融合特征图，再将所述融合特征输入对应组的变形旁路连接子单元构建得到低层精细化特征图。

在其中一实施例中，在各所述变形旁路连接子单元中包括两个普通的卷积层以及多个叠加在一起的可变形卷积层；

通过两个普通的卷积层将对应输入的融合特征图获取与该融合特征图相关的二维偏移图以及置信度掩膜；

在所述融合特征图通过多个可变形卷积层时，根据所述二维偏移特征修正可变形卷积的采样位置，并采用所述置信度掩膜对所述可变形卷积所提取的特征进行加权，以提取目标的离散特征。

在其中一实施例中，所述目标检测网络还包括锚点细化单元；

将所述低层基础特征、中层基础特征以及高层基础特征输入所述锚点细化单元得到与SAR训练图像中与目标相关的基于初始化锚定框所预测的参数化偏移量；

将所述高层精细化特征图、中层精细化特征图、低层精细化特征图、参数化偏移量输入所述锚点引导检测单元对所述SAR训练图像中目标进行准确预测以输出SAR训练图像的目标预测结果。

在其中一实施例中，当所述锚点引导检测单元对SAR训练图像中目标进行准确预测以输出SAR训练图像的目标预测结果时，包括：

根据所述参数化偏移量进行计算得到精细化的锚点框；其中，所述初始化锚点框内包含有均匀分布的多个原始采样点，而所述精细化锚点框中包括有与原始采样点相对应的修正后的采样点；

根据所述初始化锚点框采样点以及精细化的锚点框采样点进行计算可以得到所述原始采样点与修正后采样点之间的二维偏移量；

将所述二维偏移量输入可变形卷积层中对所述高层精细化特征图、中层精细化特征图、低层精细化特征图中的目标进行最终的回归和分类，以输出所述的目标检测结果。

在其中一实施例中，在对目标检测模型进行训练时，还包括采用计算分类损失以及回归损失对目标检测模型的参数进行调节。

在其中一实施例中，所述分类损失根据所述目标检测的预测分类结果与真值标签进行计算得到；

所述回归损失根据对目标的预测置信度、目标的位置预测值以及真值标签位置计算得到。

一种基于注意力特征精细化及对齐的SAR目标检测装置，所述装置包括：

训练集获取模块，用于获取SAR图像训练集，所述SAR图像训练集中包括有多张SAR训练图像，且各张SAR训练图像中均包括不止一个目标；

模型训练模块，用于将各所述SAR训练图像输入目标检测模型并对其进行训练，得到已训练的目标检测模型；

其中，所述目标检测模型包括注意力特征融合注意力特征融合单元、可变形旁路连接单元以及锚点引导检测单元，所述注意力特征融合注意力特征融合单元用于对目标的浅层纹理特征和高层语义特征进行充分融合，所述可变形旁路连接单元中采用可变形卷积对目标的后向散射点特征对齐后进行离散特征的提取，所述锚点引导检测单元用于对目标的位置进行准确预测；

待检测图像获取模块，用于获取待检测的SAR目标图像；

目标检测模块，用于将所述SAR目标图像输入所述已训练的目标检测模型，对所述SAR目标图像中的目标所在位置进行预测。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

其中，所述目标检测模型包括注意力特征融合单元、可变形旁路连接单元以及锚点引导检测单元，所述注意力特征融合单元用于对目标的浅层纹理特征和高层语义特征进行充分融合，所述可变形旁路连接单元中采用可变形卷积网络对目标的后向散射点特征对齐后进行离散特征的提取，所述锚点引导检测单元用于对目标的位置进行准确预测；

获取待检测的SAR目标图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测的SAR目标图像；

上述基于注意力特征精细化及对齐的SAR目标检测方法，通过目标检测模型对SAR目标图像进行检测，其中目标检测模型包括注意力特征融合单元，将目标浅层纹理特征和高层语义特征进行充分融合，并且还通过可变形旁路连接单元使得飞机分布较为离散的后向散射点与卷积核之间进行对齐以提取目标的离散化散射特征，这样提取目标特征时较少受到目标背景的干扰，最后通过锚点引导检测模块通过对精细化锚点框进一步修正，对目标位置进行准确的预测，有效提高了目标检测的准确性以及高效性。

附图说明

图1为一个实施例中SAR图像和光学图像的对比示意图；

图2为一个实施例中SAR目标检测方法的流程示意图；

图3为一个实施例中目标检测模型的结构示意图；

图4为一个实施例中注意力特征融合单元的结构示意图；

图5为一个实施例中分离注意力单元的结构示意图；

图6为一个实施例中可变形旁路连接单元的结构示意图；

图7为一个实施例中锚点引导检测单元的结构示意图；

图8为一个实施例中目标和周围环境的卷积核的采样位置示意图；

图9为实验中自建飞机切片数据集中边界框的大小和纵横比分布；

图10为实验中分别来自GF-3和TerraSAR-X卫星拍摄的四张大型场景图；

图11为实验中第一种典型场景下基于CNN的不同方法的飞机检测结果示意图；

图12为实验中第二种典型场景下基于CNN的不同方法的飞机检测结果示意图；

图13为实验中第三种典型场景下基于CNN的不同方法的飞机检测结果示意图；

图14为一个实施例中SAR目标检测装置的结构框图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在对SAR图像中的目标进行检测时，以目标为飞机为例，进行说明：

由于飞机表面的光滑特性，SAR图像中的飞机外观与光学图像中的飞机外观相比是离散的，导致缺乏几何和轮廓线索等外观信息，如图1所示，其中,图1(a)显示为SAR图像，而图1(b)显示为光学图像。所以纹理信息和后向散射点特征是以目标为飞机的SAR图像检测的重要视觉线索。

其中，飞机姿态、类别和SAR成像入射角的变化对SAR图像中飞机的外观有重大影响，如图1(a)所示，导致大的类内差异。因此，检测具有显著类内差异的飞机需要精确表示其显著且恒定的后向散射信息。

与自然图像中的目标检测不同，SAR图像通常代表一个非常大的场景，由于SAR图像的大场景和飞机的尺寸较小，导致搜索空间非常大。因此，如何挖掘上下文信息来定位感兴趣区域，提高检测速度至关重要。

如图1(a)中的椭圆框中所示为复杂的背景杂波(如建筑物的散射簇)，可能会导致多个虚警飞机目标。因此，抑制背景杂波的干扰对飞机的准确检测具有重要意义。

早期的SAR图像飞机检测方法依赖于先验性的灰度特征和飞机判读专家的解读，例如梯度、结构、轮廓，并且算法对模型参数敏感，缺乏对各种情况的泛化能力，导致检测性能不理想。近年来，卷积神经网络(CNN)在光学图像目标检测方面取得了显著的成功，也为SAR图像中的飞机检测提供了参考。然而，目前大多数基于CNN的飞机检测方法都是直接从光学图像中的目标检测领域直接拿来的，没有充分考虑上述目标相关知识和SAR飞机检测面临的挑战。。具体而言，飞机的低层次纹理细节并没有像高层语义特征那样的到充分考虑，算法对环境干扰的抑制能力也不理想，导致SAR图像中飞机的检测结果依然性能有限，另外，传统的卷积核中固定的卷积方式不适合获取到飞机的离散和不规则后向散射点。因此，在大场景SAR图像中检测稀疏停放的小型飞机需要一个精心设计的框架，该框架带有精心设计的检测头，以保证精度和速度之间的平衡，然而，这些策略在现有的方法并未被充分考虑。

针对上述问题，如图2所示，本申请提供了一种基于注意力特征精细化及对齐的SAR目标检测方法，具体包括一下步骤：

步骤S100，获取SAR图像训练集，SAR图像训练集中包括有多张SAR训练图像，且各张SAR训练图像中均包括不止一个目标；

步骤S110，将各SAR训练图像输入目标检测模型并对其进行训练，得到已训练的目标检测模型；

其中，目标检测模型包括注意力特征融合单元、可变形旁路连接单元以及锚点引导检测单元，注意力特征融合单元用于对目标的浅层纹理特征和高层语义特征进行充分融合，可变形旁路连接单元中采用可变形卷积对目标的后向散射点特征对齐后进行离散特征的提取，锚点引导检测单元用于对目标的位置进行准确预测；

步骤S120，获取待检测的SAR目标图像；

步骤S130，将SAR目标图像输入已训练的目标检测模型，SAR目标图像中的目标所在位置进行预测。

在本实施例中，本方法中的目标检测模型是一种单阶段检测器，其称为注意力特征精细化和对齐的深度神经网络(Attentional Feature Refinement and AlignmentNetwork，AFRAN)，用于在以飞机为目标的SAR图像中进行目标检测。该网络以RefineDet为基本原型，在AFRAN中设计了三个关键的单元，用于针对SAR图像中飞机的特征进行特征细化和对齐。对于SAR图像中飞机特征精细化提取，注意力特征融合单元(Attention FeatureFusion Module，AFFM)由多个特征聚合分支和一个分离注意力单元组成，用于表示纹理和语义特征，并自适应地突出显示飞机的重要信息。对于特征对齐，可变形旁路连接单元(Deformable Lateral Connection Module，DLCM)专注于将飞机离散后向散射点对齐到卷积核采样点，且引入更少干扰。为了准确预测飞机的位置，在多尺度特征图上设计了锚框引导检测模块(Anchor-guided Detection Module，ADM)，以将卷积核的采样点与修正锚指示的对应区域的特征对齐。

具体的，在本方法中，步骤S100到步骤S110是对目标检测模型进行训练的过程，而步骤S120到S130为利用训练好后的目标检测模型进行实际检测的过程。

在步骤S100中，用于训练目标检测模型的SAR训练图像为每幅图像均包含多架飞机目标的图像，并且各训练图像中背景所占面积较大而各架飞机目标所占位置较小，这样更符合实际情况中从高空获取的SAR图像，使得训练后的网络可以识别出SAR图像中的多架飞机，以及各架飞机的所在位置。

在步骤S110中，进一步介绍了目标检测模型的结构，其中该目标检测模型还包括基础特征提取单元，基础特征提取单元采用VGG-16神经网络对SAR训练图像中的基础特征进行提取，其中，选择VGG-16神经网络的三个中间特征提取层的输出作为注意力特征融合注意力特征融合单元的输入。

从图3中可以看出，基础特征提取单元在进行基础特征提取时为自上而下的网络向前传播。并采用去掉最后的全连接层的VGG-16神经网络作为特征提取器，对目标在SAR图像中的基础特征进行提取，并选择VGG-16神经网络的三个中间层特征，即Conv4_3层、Conv5_3层以及Conv7层，对目标的不同层次化语义特征进行表征。分别对应的输出低层基础特征、中层基础特征以及高层基础特征，并且各不同层次的基础特征的空间尺寸是原始输入图像的8倍、16倍和32倍，其空间尺寸分别为80X80、40X40和20X20。

而注意力特征融合单元以及变形旁路连接单元，从图3中可以看出，是自下而上进行传播的，其中注意力特征融合单元包括三组依次连接的注意力特征融合子单元，且各注意力特征融合子单元中还包括一个分离注意力单元。而变形旁路连接单元同样包括三组分别与各注意力特征融合子单元相连接的变形旁路连接子单元。

具体的，将低层基础特征、中层基础特征以及高层基础特征输入至注意力特征融合注意力特征融合单元后包括：

将高层基础特征也就是Conv7层输出的基础特征以及中层基础特征也就是Conv5_3层输出的基础特征输入第三组注意力特征融合子单元进行特征融合得到与高层基础特征图相关的融合特征图，再将融合特征输入对应组的变形旁路连接子单元构建得到高层精细化特征图也就是图3中的P₃；

将中间基础特征图、低层基础特征图也就是Conv4_3层输出的基础特征以及高层精细化特征图输入第二组注意力特征融合子单元进行特征融合得到与中层基础特征图相关的融合特征图，再将融合特征输入对应组的变形旁路连接子单元构建得到中层精细化特征图也就是图2中的P₂；

将低层基础特征图以及中层精细化特征图像输入第一组注意力特征融合子单元进行特征融合得到与低层基础特征图相关的融合特征图，再将融合特征输入对应组的变形旁路连接子单元构建得到低层精细化特征图也就是图2中的P₁。

进一步的，P₃由Conv7、Conv5_3通过第一个FFAM和DLCM构建。P₂由Conv5_3、Conv4_3和P₃的输出经第二个FFAM和DLCM所得。最后，P₁则由P2、Conv4_3通过第三个FFAM和DLCM构建。

具体的，在各注意力特征融合子单元中，为充分利用飞机目标在浅层特征图中的细节信息，提升精细化特征图对飞机目标多维度特征的表征能力，并对复杂的背景干扰进行抑制，如图4所示，为了构建特征图I_i，使用两个尺寸为3×3的卷积核对特征层F_i-1进行下采样。并使用一个卷积核尺寸为4×4的反卷积操作对特征层F_i+1进行上采样，从而得到与F_i具有相同空间尺寸的调整后特征图F_i-1与F_i+1。进一步，采用卷积核尺寸3×3的普通卷积分别对F_i-1与F_i+1进一步变换，可进一步提升特定维度特征图的表征能力。这三层包含不同语义信息的特征图沿通道维拼接(即图4中

操作)，并经relu激活函数，这得到对飞机目标多维度语义信息兼具表征能力的融合特征图。

以第二组注意力特征融合子单元为例，该单元以中层基础特征图、低层基础特征图以及高层精细化特征图为输入，则中层基础特征图则为F_i，低层基础特征图为F_i-1，而高层精细化特征图为F_i+1。使用两个尺寸为3×3的卷积核对低层基础特征图进行下采样，使用一个卷积核尺寸为4×4的反卷积操作对高层精细化特征图进行上采样，使这两个特征图与中层基础特征图具有相同空间尺寸，再采用卷积核尺寸3×3的普通卷积分别对高层精细化特征图和低层基础特征进一步进行变换，再将三层包含不同语义信息的特征图沿通道维拼接得到融合特征图。

在分离注意单元中，如图5所示，级联的特征C_i首先经通道数为c×r的卷积层(Conv)，并沿通道维的分组划分，可得通道数为c的r组特征图，即K₁,K₂,K₃…K_r。这里r是特征图组的数量。

这r组特征图经逐元素相加，并经平均池化操作(Avgpool)以及全连接层(FullyConnection，FC)的映射，可得通道加权特征向量W_i。经Softmax激活函数(δ)的非线性映射，可得r组通道注意力权重，即a₁,a₂,a₃…a_r。最终，经这r组通道注意力权重对输入特征图K₁,K₂,K₃…K_r的分别加权并逐元素相加，可得最终的加权特征图I_i，也就是最终输入至可变形旁路连接子单元中的融合特征图。

如图6所示，在各变形旁路连接子单元中包括两个普通的卷积层以及多个叠加在一起的可变形卷积层(在图6中Deformable Conv表示可变形卷积)。首先通过两个普通的卷积层将对应输入的融合特征图获取与该融合特征图相关的二维偏移图以及置信度掩膜，在融合特征图通过多个可变形卷积层时，根据二维偏移图特征修正可变形卷积的采样位置，并采用置信度掩膜调整可变形卷积的偏移量，以提取目标的离散特征。

通过合适的卷积层表示飞机的离散但恒定的特征对于SAR图像中的飞机检测至关重要，如图7所示，有的卷积核采样的位置在目标上，而有一些在图像其他背景环境上，其中，图7(a)由传统卷积核采样的位置，图7(b)由可变形卷积核采样的位置。显然，由于其规则且严格的采样策略，传统卷积运算很容易的会捕获目标周围环境的散射信息以对后续的检测造成干扰。然而，可变形卷积更适合于捕捉飞机重要的离散特征，而不会引入背景干扰。

所以根据这一优势，变形旁路连接子单元中堆叠了多个可变形卷积层，用于提取飞机的离散特征。

具体的，在变形旁路连接子单元中，首先通过附加在输入的融合特征图上的两个普通的卷积层分别获取与该融合特征图相关的二维偏移图Δp_k以及置信度掩膜Δm_k。这两个普通卷积层的内核大小和步长均为1，输出通道分别为2和1。

因此，可变形卷积层的采样位置可通过二维偏移图Δp_k进行修正，再使用置信度掩膜Δm_k调制可变形卷积层的偏移量，并通过多个堆叠在一起的可变形卷积层对融合特征图中的飞机目标的离散特征进行提取。

进一步的，可变形卷积层中的计算可表达为：

在公式(1)中，Y(p_n)为最后要获得的输出矩阵也就是精细化特征图，而该精细化特征图由首先利用二维偏移图Δp_k调整原始的八个邻域输入特征得到可变形输入特征X(p_n+p_k+Δp_k)，其中k＝(i,j)，i,j∈-1,0,1是一个3X3的平方卷积核，再对可变形输入特征X(p_n+p_k+Δp_k)利用训练重量W_k以及作为调制因子的置信度掩膜Δm_k进行映射和调制得到。

由于，在单阶段检测器中，特征和锚点框之间并非是一一对应的因而锚点框和初始特征之间的明显偏差很容易导致算法对小尺寸飞机不准确的位置预测。所以在本实施例中，采用了锚框引导检测单元，而不是通过一组由初始锚点框相对应的特征来表示飞机，这样可以使得精细化的锚点框和特征之间建立起严格的单一映射关系，也就是说，用于对飞机目标位置进行预测的特征都是独一无二的。

如图3所示，目标检测网络还包括锚点细化单元(Anchor Refinement Module,ARM)，将低层基础特征、中层基础特征以及高层基础特征输入锚点细化单元得到与SAR训练图像中与目标相关的基于初始化锚点框(Predefined anchors)所预测的参数化偏移量；再将高层精细化特征图、中层精细化特征图、低层精细化特征图、参数化偏移量输入到锚点引导检测单元，对SAR训练图像中目标进行准确预测以得到SAR训练图像的目标检测预测结果。

进一步的，如图8所示，根据基于初始化锚点框的参数化偏移量进行偏移可得到精确锚点框(Refined anchors)；其中，初始化锚点框内均匀分布有多个卷积核采样点，而所述精确锚点框中包括有原始采样点相对应的修正后的采样点，再根据原始采样点以及精细化锚点框的采样点进行计算可以得到采样点之间的二维偏移量，将二维偏移量输入可变形卷积层中对所述高层精细化特征图、中层精细化特征图、低层精细化特征图中，可对目标进行最终的回归和分类，以输出预测结果。

其中，精细化锚点框所对应的特征相较于原始锚点框所对应的特征更具有代表性，这是因为，精细化锚点框和真值飞机位置之间重叠率更高。这样使的精细化锚点框中均匀分布的采样点所提取的特征与飞机之间保持一致。

基于可变形卷积，通过计算可以得到精确锚修正后的采样点和相关原始采样点之间的二维偏移量，并将该二维偏移量输入至可变形卷积层进行最终的回归和分类，最终得到目标检测的预测结果。

进一步的，在锚点引导检测单元中的算法过程可由以下公式表达：

在公式(2)中，S_i,j(X,Y)为可变形卷积层的原始采样点，其中i,j∈{0,1,k-1}，k表示卷积核大小为3X3。

而对于特征图中对应的修正后的采样点通过下式得到：

在公式(3)中，

为可变形卷积层的修正后的采样点，其中x1、y1、x2、y2是指精确锚的位置。

再通过公式(3)减去公式(2)就可以得到可变形卷积层的二维偏移量：

在公式(4)中，O_i(X)以及O_j(Y)为二维偏移量两个方向上的值。

在本实施例中，在对目标检测模型进行训练时，还通过损失函数对目标检测模型的各参数进行调整，其中损失函数由锚点细化单元ARM的损失以及锚点引导检测单元ADM的损失组成：

L_total＝L_ARM+L_ADM (5)

也就是，采用计算分类损失以及回归损失对目标检测模型的参数进行调节：

在公式(6)中，分类损失(L_conf,也就是图3中的Regression)根据目标检测的预测分类结果(x)与真值标签(c)进行计算得到。回归损失(L_reg,也就是图3中Classification)根据算法对目标的预测置信度(x)、对目标的位置预测值(l)以及真值标签位置(g)计算得到。其中，N是指任何与地面真实目标匹配的正锚数量。

分类损失(L_conf)是目标预测置信度(x)和真值标签(c)之间的两类或多类交叉熵损失：

在公式(7)中，若第i个锚点框与第j个真实标签相匹配，

是1，否则为0。

是指Softmax函数，定义为：

回归损失(L_reg)是指目标的位置预测值(l)与目标真实位置(g)之间参数化偏移量的平滑L1损失，由下式得到：

在公式(9)中，c_x,c_y,w和h是初始或精细化锚点框和真实标签的中心点坐标、宽度及高度。

在训练阶段，首先根据ARM的预测调整初始锚点框，只有置信度高于预设阈值的精细化锚点框会对ADM损失产生贡献。

接下来，还对上述方法进行实验及分析：

实验数据集

由于SAR图像中并没有可公开使用的飞机检测数据集，因此收集了一个自建的飞机切片数据集和一个大型场景SAR图像，以研究本方法在所有实验中的检测性能。

实验采用自建的数据集探究了上述方法对SAR图像飞机目标的检测性能。原始数据包含174幅由GF-3和TerraSAR-X卫星拍摄的大场景SAR图像。经过判读专家的标注以及对原始大场景的随机裁剪，实验共获得了2317张尺寸为640×640的原始切片，切片共包含6781架飞机，其机翼的范围约为25米至75米。实验以5:2:3的比例将切片数据集划分为训练集、验证集和测试集。采用对比度变换、亮度变换、镜像翻转、尺寸扩展和随机裁剪技术等技术对原始训练集进行扩充，提升训练数据集中飞机目标的样本多样性。如图9(a)(b)所示，分别给出自建飞机切片数据中边界框的大小和长宽比的分布。图10所示为实验中分别来自GF-3和TerraSAR-X卫星拍摄的四张大型场景图，前两张与后两张图片分别展示了来自GF-3和TerraSAR-X卫星切片图像，其中矩形框标注了飞机的位置。

通过将原始切片按5:2:3的比例分割，构建训练集、有效集和测试集。因此，三组中的图像的数量分别为1158、463和696。采用对比度和光照失真、镜像、随机翻转、扩展和裁剪等数据增强策略来增强训练集中样本的多样性。

为了保持初始锚和飞机之间的大量重叠，本方法中P₁、P₂和P₃的基本锚的比例分别为32、64和128，此外，对于所有金字塔级别，每个锚点都指定了三个纵横比{0.5,1.0,2.0}。本方法训练了200个迭代周期，小批量为4个。初始学习率为1e-3，在75和150个时期衰减，速率为0.1。为了实现稳定的收敛，在前5个阶段启用预热技巧。采用加权衰减率为5e-4、动量为0.9的随机梯度下降法(SGD)优化网络参数。基于MMDetection检测框架，对其他方法进行了比较。

评价指标

为了评估检测精度，采用了MSCOCO的六个平均精度指标。具体而言，当预测值和地面真实值之间的交并比(IoU)分别为0.5和0.75时，采用AP^.5 and AP^.75判断平均精度。AP^s,AP^m和AP^l是检测小型、中型和大型飞机的平均精度防范，平均值为IoU的10个阈值，即0.5、0.55、0.95。此外，还利用了精确性(P)、召回率(R)和F分数(F₁)。

MS COCO和其他指标，即精确度、召回率和F分数，分别在0.05和0.5置信阈值条件下获得，IoU为0.5。为了评估时间和空间复杂性，使用每秒帧数(FPS)、模型参数体积(Params)和乘法累加运算(MAC)，最后两个度量的定义分别由等式(10)、(11)给出：

Params＝C_out·(k_w·k_h·C_in+1) (10)

MAC＝C_out·C_in·k_w·k_h·H_o·W_o (11)

消融实验

AFRAN中不同模型对算法性能的影响如表1所示，将不含有任模块的AFRAN作为比较的基准，并将AFRAN拆分为特征融合(FF)与分离注意力模块(SAM)两部分，分别探讨了其对算法检测性能的贡献。此外，鉴于RefineDet与本方法具有相似的网络结构与数据处理流程，将本方法也与其进行了对比。

表1：不同模型对算法性能的影响

FF的影响：仅通过向前传播飞机的纹理信息，还可能进一步积累冗余信息，导致飞机识别的混乱。具体而言，Baseline(w/FF)(表1第三列)明显下降，比Baseline得分低1.5％。

SA的影响：借助SA模块强大的特征细化功能，可以有效利用飞机的低层次纹理细节。该方法大大提高了飞机的定位性能。比较Baseline(w/FF)和Baseline(w/FF+SA)的检测结果，即表1的第三列和第四列，Baseline(w/FF+SA)获得的精度和得分分别比Baseline(w/FF)高1.4％、4.6％、5.6％、1.6％、1.2％、4.4％和1.6％，这充分验证了SA块在细化飞机重要特征和抑制非信息背景方面的有效性。

DLCM的影响：通过DLCM在细粒度特征金字塔的横向连接处进行特征对齐，进一步提高了本方法定位飞机的能力，尤其是检测大尺寸飞机的能力。得益于DLCM强大的可变形建模能力，飞机在高级特征地图上的离散特征可以在不受太多干扰的情况下被感知，从而提高了速度和精度。然而，得分急剧下降，比Baseline(w/FF+SA)低3.3％。这可能是因为低层特征图的语义信息不足和复杂的背景干扰，削弱了DLCM捕捉飞机离散和重要离散信息的能力。

ADM的影响：通过Baseline(w/FF+SA+DLCM+ADM)构建了精制锚和相应特征之间的紧密对应关系，这显著提高了模型检测飞机的性能。与Baseline(w/FF+SA+DLCM)的检测结果(w/FF+SA+DLCM)相比，Baseline(w/FF+SA+DLCM+ADM)对所有指标(即表1的最后一列)都有显著的改善，Baseline(w/FF+SA+DLCM+ADM)的检测头与RefineDet相同，即表1的第五行。具体而言，得分分别比Baseline(w/FF+SA+DLCM)高1.6％、2.5％和8.7％。

与基于CNN的其他方法进行比较：

定量分析：在自建飞机切片数据集和大型场景图像的测试集上，我们还将我们的方法和其他基于CNN的检测器进行了比较，并将其与两种专门针对SAR图像的目标检测而设计的方法，即PADN和DAPN，进行了比较。

检测精度：表2中提供了本实验中自建飞机切片数据集测试集上不同方法的检测精度。具体而言，本方法获得的AP和得分分别比排名第二的方法(即RPDet和Cascade R-CNN)高1.1％和2.5％。尽管RPDet取得了轻微的优势，但其检测小尺寸飞机的能力仍然较弱，其得分仅为0.886和0.415，分别比本方法低5.5％和6.6％，这可能是因为小型飞机的不可知类主干提取的特征不足。

表2：自建飞机切片数据测试集上不同方法的检测精度

此外，与传统的单阶段检测器(如SSD、RefineDet)相比，大多数两阶段检测器具有先进的特征对齐策略，因此在评估定位精度的指标方面具有优势。然而，得益于DLCM和ADM实现的强大特征对齐能力，本方法也获得了较优的飞机检测能力。此外，本方法在所有指标上都比两种SAR图像特定目标检测方法(即DAPN和PADN)表现得更好。

时间和空间的复杂性：检测速度和空间复杂度如表III所示。显然，得益于截短的VGG-16主干以及更加平衡的三层特征金字塔，我们的方法在参数体积(Params)和乘法累加运算(MAC)上仅占用35.82M和150.59G，低于比较的两阶段检测算法和几个单阶段检测算法，如RPDet、PADN。与RPDet和所有两阶段检测器相比，该方法实现了更高的检测速度，证明了其实时应用的可行性。

图11-13分别给出了三种典型情况下的飞机检测结果。在第一个场景(图11)中，飞机密集地停在一起，后向散射点模糊。与RefineDet和RPDet相比，我们的方法能够准确检测这些飞机。在第二个场景(图12)中，PADN、RefineDet、RPDet将场景左侧的建筑物检测为飞机。然而，本方法没有检测到虚警和漏检。在第三个场景(图13)中，廊桥和其他地面设施造成严重干扰。与其他方法(如Cascade R-CNN、PADN和RefineDet)所包含的部分飞机相比，我们的方法和RPDet可以准确地检测飞机，这得益于它们对飞机离散特征的灵活表示能力。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图14所示，提供了一种基于注意力特征精细化及对齐的SAR目标检测装置，包括：训练集获取模块200、模型训练模块210、待检测图像获取模块220和目标检测模块230，其中：

训练集获取模块200，用于获取SAR图像训练集，所述SAR图像训练集中包括有多张SAR训练图像，且各张SAR训练图像中均包括不止一个目标；

模型训练模块210，用于将各所述SAR训练图像输入目标检测模型并对其进行训练，得到已训练的目标检测模型；

待检测图像获取模块220，用于获取待检测的SAR目标图像；

目标检测模块230，用于将所述SAR目标图像输入所述已训练的目标检测模型，对所述SAR目标图像中的目标所在位置进行预测。

关于基于注意力特征精细化及对齐的SAR目标检测装置的具体限定可以参见上文中对于基于注意力特征精细化及对齐的SAR目标检测方法的限定，在此不再赘述。上述基于注意力特征精细化及对齐的SAR目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力特征精细化及对齐的SAR目标检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测的SAR目标图像；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待检测的SAR目标图像；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于注意力特征精细化及对齐的SAR目标检测方法，其特征在于，所述方法包括：

获取待检测的SAR目标图像；

2.根据权利要求1所述的SAR目标检测方法，其特征在于，所述目标检测模型还包括基础特征提取单元，所述基础特征提取单元采用VGG-16神经网络对SAR训练图像中的基础特征进行提取；

3.根据权利要求2所述的SAR目标检测方法，其特征在于，所述三个中间特征提取层为Conv4_3层、Conv5_3层以及Conv7层，分别对应的输出低层基础特征、中层基础特征以及高层基础特征。

4.根据权利要求3所述的SAR目标检测方法，其特征在于，所述注意力特征融合单元包括三组依次连接的注意力特征融合子单元，各所述注意力特征融合子单元中还包括一个分离注意力单元；

5.根据权利要求4所述的SAR目标检测方法，其特征在于，将所述低层基础特征、中层基础特征以及高层基础特征输入至所述注意力特征融合单元后包括：

6.根据权利要求5所述的SAR目标检测方法，其特征在于，在各所述变形旁路连接子单元中包括两个普通的卷积层以及多个叠加在一起的可变形卷积层；

7.根据权利要求6所述的SAR目标检测方法，其特征在于，所述目标检测网络还包括锚点细化单元；

8.根据权利要求7所述的SAR目标检测方法，其特征在于，当所述锚点引导检测单元对SAR训练图像中目标进行准确预测以输出SAR训练图像的目标预测结果时，包括：

9.根据权利要求8所述的SAR目标检测方法，其特征在于，在对目标检测模型进行训练时，还包括采用计算分类损失以及回归损失对目标检测模型的参数进行调节。

10.根据权利要求9所述的SAR目标检测方法，其特征在于，

所述分类损失根据所述目标检测的预测分类结果与真值标签进行计算得到；