CN111242071A

CN111242071A - 一种基于锚框的注意力遥感图像目标检测方法

Info

Publication number: CN111242071A
Application number: CN202010057803.6A
Authority: CN
Inventors: 汪西莉; 刘涛
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05
Anticipated expiration: 2040-01-17
Also published as: CN111242071B

Abstract

一种基于锚框的注意力遥感图像目标检测方法，包括如下步骤：S100：将跳跃连接特征金字塔模块和基于锚框的位置注意力模块嵌入到目标检测模型中，建立一个端到端的单阶段遥感目标检测模型；S200：采用所述端到端的单阶段遥感目标检测模型对遥感目标进行检测；S300：输出遥感目标的检测结果。该方法能够提高目标检测模型的精度和速度。

Description

一种基于锚框的注意力遥感图像目标检测方法

技术领域

本公开属于遥感图像处理技术领域，特别涉及一种基于锚框的注意力遥感图像目标检测方法。

背景技术

遥感目标检测是遥感图像领域非常重要的任务之一，随着卷积神经网络的兴起，遥感目标检测也取得了巨大的发展。然而在目标检测任务中，仍存在一些挑战难以解决，比如不同尺寸目标的检测问题和遮挡目标的检测问题。由于遥感图像中目标尺寸差异大，目标对象分布不均匀，树丛灌木遮挡等特点往往会进一步放大目标检测任务中的固有问题。

对于不同尺寸目标的检测，可以采用图像金字塔解决，但是计算量大运行速度慢，无法实现实时目标检测；也可以在单层特征图上使用锚框机制解决，但是单层特征图信息有限，效果提升有限。因此使用较多的策略是特征金字塔结构，在多层不同分辨率特征图上使用锚框机制检测多尺度目标。特征金字塔结构之所以取得出色的效果，是因为在特征金字塔网络中，深层特征的语义信息能沿着自顶向下路径逐层传递至浅层特征，且浅层特征的细节信息能沿着自底向上路径逐层传递至深层特征，使浅层特征图和深层特征图都既有丰富的细节定位信息又有足够的语义信息，从而提升不同尺寸目标的检测性能。然而在特征金字塔结构中，使用逐层传递特征信息的方式，随着传递层数的增加，特征信息会逐渐丢失，减弱了语义信息和细节信息的传递效果。

目标检测中的遮挡问题主要是由于遮挡造成被遮挡目标的边界框标签内的目标区域是少量或者被弱化的，从而对检测被遮挡的目标造成很大的困难。在目标检测领域处理遮挡问题可以在后处理阶段入手，如Soft-NMS(Soft Non-Maximum Suppression)，主要用来解决同类目标的遮挡。也可以强化边界框内区域的特征，以达到强化被遮挡的目标区域特征的目的，如FAN(Face Attention Network)模型。在FAN模型的注意力模块中，将边界框内的像素标记为目标像素，边界框之外的像素标记为背景像素，形成弱监督标签，损失函数按照图像分割处理，构成弱监督注意力模块。注意力模块训练学习后，可以对预测特征图施加位置注意力信息，被注意力模块识别为边界框内的目标像素，增强其特征，识别为边界框外的背景像素，弱化其特征。即使用在注意力模块中学习到的信息重标定预测特征图的特征分布，以得到有助于目标检测的更好的特征分布。

然而这样的处理有两个明显的缺点，首先因为是弱监督标签，所以边界框标签内的少量背景像素被标记为目标像素，在当作分割网络处理时不够精确；其次在目标检测头网络中，不是所有边界框标签内的像素都负责预测目标边界框。在FAN模型中，注意力模块训练学习后，将边界框内外的像素分别识别为目标和背景像素，形成位置注意力权重作用至预测特征图上强化目标像素。但是在随后的目标检测头网络中，预测对象类别和位置信息是基于锚框进行的，在锚框机制下，不是所有边界框内的像素都负责预测对象的类别与位置信息，而主要是边界框内中心位置附近的像素区域负责预测该对象的类别与位置信息。边界框内四周位置的像素区域对应的锚框与边界框标签的 IOU(Intersection overUnion)比较小甚至为0，在训练中会视为负样本或者不参与训练，在预测中会根据预测结果分数和后处理去除掉对应的不精确的边界框，因此边界框内四周位置的像素不属于正样本像素，不应该被强化。而在注意力模块中将边界框内的像素无差别的强化的做法会强化边界框四周位置的像素区域的不精确的预测结果，对最终预测结果产生干扰。

发明内容

为了解决上述问题，本公开提供了一种基于锚框的注意力遥感图像目标检测方法，包括如下步骤：

S100：将跳跃连接特征金字塔模块和基于锚框的位置注意力模块嵌入到目标检测模型中，建立一个端到端的单阶段遥感目标检测模型；

S200：采用所述端到端的单阶段遥感目标检测模型对遥感目标进行检测；

S300：输出遥感目标的检测结果。

通过上述技术方案，首先，提出跳跃连接特征金字塔模块，减小特征金字塔结构中特征信息逐层传递的丢失问题，进一步增强预测特征图的语义信息和细节信息，从而更好地检测不同大小的目标。其次，提出基于锚框的位置注意力模块，通过强化锚框的中心位置附近特征区域，以尽可能地强化能做出精确预测结果的特征区域，从而实现更准确地强化目标特征区域，进一步提升遮挡目标的检测性能。总之，使用改进后的端到端的单阶段遥感目标检测模型能够大大提高遥感目标检测的精度和速度。

附图说明

图1是本公开一个实施例中所提供的一种基于锚框的注意力遥感图像目标检测方法的流程示意图；

图2是本公开所提供的一种基于锚框的注意力遥感图像目标检测方法中端到端的单阶段遥感目标检测模型的结构示意图；

图3是本公开所提供的一种基于锚框的注意力遥感图像目标检测方法在UCAS-AOD数据集上的检测结果；

图4是本公开所提供的一种基于锚框的注意力遥感图像目标检测方法在RSOD数据集上的检测结果。

具体实施方式

在一个实施例中，如图1所示，公开了一种基于锚框的注意力遥感图像目标检测方法，包括如下步骤：

S300：输出遥感目标的检测结果。

就该实施例而言，将跳跃连接特征金字塔模块和基于锚框的位置注意力模块嵌入到RetinaNet模型中，形成端到端的单阶段遥感目标检测模型AANet(Anchor-basedAttention Network)。对于跳跃连接特征金字塔模块(Feature Pyramid Network withShortcut Connections，SCFPN)而言：在自顶向下的路径上，为弥补语义信息从深层特征传递至浅层特征的丢失问题，在主干网络末尾使用全局平均池化生成聚合丰富语义信息的特征图，利用跳跃连接相加融合至自顶向下路径上的各层特征图，以增加各特征层的语义信息。由于细节定位信息沿着主干网络传递，中间经过的特征层数较多，因此细节定位信息相对丢失更多，因此在自顶向下路径的基础上构造自底向上路径，减少中间经过的特征层数，同时也将高分辨率特征图的细节定位信息利用跳跃连接相加融合至自底向上路径上的各层特征图，以进一步增加各特征层的细节信息。对于基于锚框的位置注意力模块 (Anchor-based Spatial Attention Module，ASAM)而言：在基于锚框的位置注意力模块中，采用基于锚框的识别方法，以达到只强化边界框内中心位置附近的像素区域的目的。在预测时，不关注位置信息，只预测以该像素位置为中心的锚框包含目标的概率，再使用通道维度取最大值方法将预测值压缩为一个通道形成位置注意力权重特征图，作用至预测特征图上以更精确地辅助后续的目标检测过程。

在另一个实施例中，所述步骤S100进一步包括：

S101：使用主干网络和跳跃连接特征金字塔模块从输入图像中提取卷积特征，得到预测特征图；

S102：使用基于锚框的位置注意力模块生成位置注意力权重特征图，并作用于所述预测特征图，重标定预测特征图的特征分布；

S103：使用目标检测头网络中的分类和回归子网络生成预测边界框的类别分数和位置信息，并使用非极大值抑制NMS(Non-Maximum Suppression)操作筛选检测结果。

就该实施例而言，提出跳跃连接特征金字塔模块来增强特征金字塔结构中各层特征的语义和细节信息。同时，提出基于锚框的位置注意力模块，主要强化更可能产生精确预测结果的特征区域。该方法最终能够大大提高遥感目标检测的精度和速度。其中的类别分数指预测的属于各类别的概率。此处的检测结果是生成的是最终的检测结果。步骤S102和S103共同构成目标检测头网络。

在另一个实施例中，所述步骤S100中的目标检测模型采用 RetinaNet模型。

在另一个实施例中，所述步骤S101进一步包括：

S1011：在提取特征的主干网络之后添加两个步长为2的卷积操作，生成两个不同分辨率的特征图作为P6特征图、P7特征图；

S1012：在主干网络末尾添加全局平均池化操作，生成聚合丰富语义信息的GAP特征图；

S1013：在每次使用最近邻插值上采样特征图后和主干网络上对应的C5特征图、C4特征图、C3特征图相加融合时，同时加上GAP特征图，得到自顶向下路径上的P5特征图、P4特征图、P3特征图；

S1014：从P3特征图开始下采样特征图，依次传递细节定位信息，与对应自顶向下路径上的P5特征图、P4特征图、P3特征图相加融合；

S1015：将P3特征图分别二倍、四倍池化，相加融合至自底向上路径上的各层特征图，得到自底向上路径上的N3特征图、N4特征图、 N5特征图；

S1016：将所得到的N3特征图、N4特征图、N5特征图、P6特征图和P7特征图作为预测特征图。

就该实施例而言，如图2所示，在提取特征的主干网络(图2中的A：Backbone)之后添加两个步长为2的卷积操作，生成两个不同分辨率的特征图作为P6、P7预测特征图。由于逐层传递特征信息的方式随着传递经过的层数增加，特征信息会逐渐丢失，因此在构造自顶向下和自底向上路径的过程中，添加跳跃连接以弥补特征信息丢失。在构造自顶向下路径(图2中的B：Top-down)的过程中，先在主干网络末尾添加全局平均池化操作，生成聚合丰富语义信息的特征图，称为GAP(Global Average Pooling)特征图(图2中的GAP)。在每次使用最近邻插值上采样特征图后和主干网络上对应的特征图相加融合时，同时加上GAP特征图，使自顶向下路径上的特征图(图2中的 P3，P4，P5)既融合逐层依次传递的语义信息，又直接融合GAP语义信息，进一步增强特征图的语义信息。

给定主干网络上的特征图C_i∈R^C×H×W和全局平均池化形成的特征图GAP^256×H×W，则自顶向下路径上对应的特征图P_i∈R^256×H×W可表示为：

式中，

表示卷积核为3×3、通道数为256的卷积操作，Upsample₂()表示2倍上采样操作，i∈[3，5]，C、H和W表示特征图的通道数、高、宽。

在特征金字塔结构中，语义信息沿着自顶向下的路径(图2中的 B：Top-down)传递，中间经过的特征层数不多，语义信息丢失相对较少；而细节定位信息沿着主干网络路径(图2中的A：Backbone)传递，中间经过的特征层数多，细节定位信息丢失相对较多。即自顶向下路径上的深层特征图的语义信息可以有效的传递至浅层特征图，但是浅层特征图的细节定位信息不能有效地传递至深层特征图，因此需要在自顶向下路径(图2中的B：Top-down)的基础上构造自底向上路径(图 2中的C：Bottom-up)，减少中间经过的特征层数，使浅层特征图的细节定位信息有效传递至深层特征图。在构造自底向上路径(图2中的 C：Bottom-up)的过程中，从P3特征图开始下采样特征图，依次传递细节定位信息，与对应自顶向下路径上的特征图(图2中的P3，P4，P5) 相加融合。此外，将P3特征图分别二倍、四倍池化，相加融合至自底向上路径上的各层特征图，使自底向上路径上的特征图(图2中的 N3，N4，N5)既融合依次传递的细节定位信息，又融合直接池化得到的细节定位信息，进一步增强特征图的细节定位信息。

给定自顶向下路径上的特征图P_i∈R^256×H×W，则自底向上路径上对应的特征图N_i∈R^256×H×W可表示为：

式中，MaxPool_k表示k倍池化下采样，i∈[4，5]，C、H和W表示特征图的通道数、高、宽。

最终将自底向上路径上的特征图(图2中的N3，N4，N5)以及P6、 P7特征图作为预测特征图，这些特征图既具有丰富的语义信息，又具有丰富的细节定位信息。

在另一个实施例中，所述步骤S102进一步包括：

S1021：在所述预测特征图上连接四次卷积操作，然后基于锚框判别所述预测特征图上每一位置像素的类别，得到每一位置像素类别的预测结果特征图；

S1022：将所述每一位置像素类别的预测结果特征图压缩为一个通道形成位置注意力权重特征图；

S1023：将所述位置注意力权重特征图作用于所述预测特征图上，重标定预测特征图的特征分布。

就该实施例而言，目标检测头网络中的预测过程是基于锚框进行的。在基于锚框的预测中，位于边界框标签中心位置附近区域的像素对应的锚框与边界框标签的IOU较大，在训练期间视为正样本，在测试期间通常是微调后需要保留的预测结果；而其他区域的像素对应的锚框与边界框标签的IOU较小甚至为零，在训练期间或者为负样本或者不参与训练，在测试期通常是根据预测分数和后处理操作筛选掉的预测结果。因此基于锚框的预测方式要求施加位置注意力权重时只强化边界框标签中心位置附近区域的像素，而四周位置区域像素和背景区域像素都不需要强化。因此本方法的位置注意力模块采用基于锚框的方式判别像素是目标像素还是背景像素，这种方式形成的位置注意力权重和目标检测头网络中的检测过程具有一致性。基于锚框的位置注意力模块在框级标签的监督学习下可以识别目标区域特征，利用学习到的注意力信息区分目标区域特征和背景区域特征，通过强化目标区域特征和弱化背景区域特征重标定预测特征图的特征分布，得到更有益于目标检测的特征分布。

如图2中的Attention：ASAM所示，先连接四次卷积操作，然后基于锚框判别特征图上每一位置像素的类别。若某一位置的像素对应的多个锚框中有锚框与边界框标签IOU值较大，则认为此像素为正样本像素；若某一位置的像素对应的多个锚框都不负责预测目标对象，则认为此像素为负样本像素。

在另一个实施例中，所述步骤S1021进一步包括：

将与边界框标签的IOU大于0.5的锚框视为正样本，与边界框标签的IOU小于0.4的锚框视为负样本。

就该实施例而言，在锚框预测中，只预测锚框的类别信息，不预测锚框的位置信息，将与边界框标签的IOU大于0.5的锚框视为正样本，与边界框标签的IOU小于0.4的锚框视为负样本，锚框的尺寸比率设置与目标检测头网络中锚框的设置相同，损失函数为二分类Focal Loss 交叉熵损失函数。边界框标签指数据的边界框级的标签，预测边界框指神经网络输出的预测的边界框

在另一个实施例中，所述步骤S1022进一步包括：

位置注意力权重特征图的形成方式为使用通道维度取最大值方法。

就该实施例而言，当某一位置的像素对应的某一锚框负责预测对象时，该像素属于正样本像素，负责预测对象的锚框的预测值接近于 1，不负责预测对象的锚框的预测值接近于0，则通道维度取最大值压缩结果接近于1；当某一位置的像素对应的多个锚框都不负责预测对象时，该像素属于负样本像素，所有的预测值都接近于0，则通道维度取最大值压缩结果接近于0。

在另一个实施例中，所述步骤S1023进一步包括：

所述将所述位置注意力权重特征图作用于所述预测特征图上的作用方式采用先点乘预测特征图，再相加融合至预测特征图。

就该实施例而言，将得到的1xHxW的位置注意力权重作用于预测特征图，辅助后续目标检测过程。作用方式采用先点乘预测特征图，再相加融合至预测特征图，从而起到对正样本像素强化的作用。

给定特征图F∈R^C×H×W，则位置注意力权重特征图 M_s(F)∈R^1×H×W可表示为：

F′＝[σ(f₂₅₆ ^3×3(F))]⁴ (3)

M_s(F)＝MaxPool^C(δ(f_A ^3×3(F′)))

(4)

式中，

表示卷积核为3×3、通道数为K的卷积操作，σ表示ReLU激活函数，[]⁴表示4次相同的操作，δ表示Sigmoid激活函数，MaxPool^C()表示通道维度取最大值池化，C、H和W表示特征图的通道数、高、宽。

在另一个实施例中，所述步骤S1014进一步包括：

所述下采样是采用池化下采样操作。

就该实施例而言，池化操作不需要学习参数相对来说速度最快。

在另一个实施例中，所述步骤S103中的目标检测头网络中的分类和回归子网络为：分别连接4个256通道的卷积操作后，再分别添加KA个通道的卷积层和4A个通道的卷积层，经过激活层后预测边界框的类别分数和位置信息，K表示类别数，A表示每一像素位置的锚框数量。

就该实施例而言，通常目标检测头网络中只包含分类和回归子网络，本方法添加了基于锚框的位置注意力模块，虽然注意力模块属于目标检测头网络，但在作用的先后顺序上，注意力模块先重标定预测特征图，分类和回归子网络再在预测特征图上预测边界框的类别和位置信息。

预测每一位置像素类别是在注意力模块中的预测过程，且只预测类别信息；预测边界框的类别和位置信息是分类和回归子网络完成的预测过程，会预测边界框的类别和位置信息。前者是像素级的预测后者是框级的预测，且本方法中的一个重要改进点就是注意力模块中像素级预测与图像分割中像素级预测采用的方法不同，是更适于目标检测的基于锚框的像素级预测。

在另一个实施例中，本方法使用多任务损失函数联合优化AANet 模型的参数。损失函数由分类、回归和注意力损失三部分构成，定义为：

式中k表示特征金字塔层次的索引(k∈[3，7])，A_k表示特征金字塔层次P_k上定义的锚框的集合。分类损失

是多类焦点(focal loss)损失，

表示P_k中参与分类损失计算的锚框的数量，

为1表示匹配成功的正锚框，

为0表示未匹配的负锚框，p_i表示AANet模型分类分支预测的检测框的类别结果。回归损失

是平滑L1定位损失，t_i表示AANet模型回归分支预测的检测框的4维位置坐标，

表示与正锚框匹配的真值框的位置坐标，

限制回归损失只回归正锚框的位置，

注意力损失

是二分类焦点(focal loss)损失，

表示P_k中参与注意力损失计算的锚框的数量，

为1表示匹配成功的正锚框，

为0表示未匹配的负锚框， m_i表示AANet模型注意力分支预测的属于正样本像素的概率。λ₁和λ₂用来平衡分类损失、回归损失和注意力损失，此处设置为λ₁＝λ₂＝1。

在另一个实施例中，给出了实验环境。本方法使用ResNet-50作为主干网络，并用在ImageNet预训练的权重初始化主干网络。在跳跃连接特征金字塔模块后面的注意力、分类和回归子网络中，前四个卷积层以偏置b＝0和高斯方差σ＝0.01的权重初始化。在分类子模块和基于锚框的位置注意力模块中的做预测的卷积层以偏置 b＝log((1-π)/π)和π＝0.01初始化。所有的实验在一块Titan X GPU上训练，实验数据集以7：3的比率随机划分成训练集和测试集，图像尺寸800×800像素，batch-size为2。使用随机梯度下降法训练模型，迭代训练100个epoch，初始学习率为0.001，学习率在60epoch和 80epoch分别降低10倍。权重衰减和动量分别设置为0.0001和0.9。

本方法提出的模型的性能在两个遥感图像目标检测数据集上进行评价，分别是RSOD和UCAS-AOD数据集。UCAS-AOD数据集中，汽车图像510张，包含汽车样本7114个；飞机图像1000张，包含飞机样本7482个。RSOD数据集总计2326张图像，类别包含飞机、油桶、操场、立交桥四种，图像采集于Google Earth。其中飞机图像446 张，包含飞机样本4993个；油桶图像165张，包含油桶样本1586个；操场图像189张，包含操场样本191个；立交桥图像176张，包含立交桥样本180个；其余是背景图像。使用mAP和运行时间作为评价指标。

定义精确率P(Precision)为：

召回率R(Reca]l)为：

式中TP指正类被判定为正类；FN指正类被判定为负类；FP指负类被判定为正类；TN指负类被判定为负类。

AP(Average Precision)被定义为在11个不同召回率水平 [0，0.1，0.2，...，1]上的最大精确率的平均值：

式中P_max(r)指在召回率为r时的最大精确率。AP是单个类别目标的评价指标，mAP指多个类别目标的AP的平均值。

在另一个实施例中，使用跳跃连接特征金字塔模块增强预测特征图的语义信息和细节定位信息，以提升模型对不同大小目标的检测性能。在UCAS-AOD遥感数据集上对比了FAN模型和添加跳跃连接特征金字塔模块的FAN模型的实验结果。实验结果见表1。

表1

从表1中可以看到，采用跳跃连接特征金字塔模块获得1.35％的精度提升。主要是由于跳跃连接金字塔模块中的跳跃连接可以在一定程度上弥补逐层传递信息的丢失问题，进一步增强特征图的语义和细节信息。

表2中展示了采用跳跃连接的特征金字塔模块在UCAS-AOD数据集上的探究实验。在自底向上路径上逐层传递特征细节定位信息的过程中，我们尝试三种不同的操作下采样特征图，分别是池化、步长为 2的卷积操作以及使用通道分离后，一部分通道特征池化另一部分通道特征卷积下采样。在这三种下采样操作中，池化操作不需要学习参数相对来说速度最快，卷积操作需要学习参数会增加运行时间，第三种操作兼用卷积操作和池化操作，复杂度更高。综上以及结合表2的实验结果，本文在跳跃连接特征金字塔模块的自底向上路径上使用池化下采样操作。

表2

在另一个实施例中，使用基于锚框的位置注意力模块强化预测特征图上的正样本像素，通过强化预测特征图上目标区域特征，重标定预测特征图的特征分布，以提升目标检测性能。表3在UCAS-AOD数据集上对比了不使用位置注意力模块的模型和本方法中AANet模型的结果。

表3

从实验结果可以看到，使用基于锚框的位置注意力模块有0.43％的精度提升。主要是由于在基于锚框的位置注意力模块中强化的正样本像素的特征区域就是目标检测头网络中负责预测边界框的特征区域，因此可以提升目标检测头网络的检测能力。

表4展示了基于锚框的位置注意力模块在UCAS-AOD数据集上的探究实验。在生成位置注意力权重的过程中，尝试了三种位置注意力形成方式。第一种是在基于锚框的位置注意力模块中第四个卷积操作之后添加一个降维的卷积操作，将256通道的特征图转变为1维通道权重特征图；第二种是使用取最大值压缩通道的方式将基于锚框的位置注意力模块的预测结果特征图压缩为1维通道的权重特征图；第三种是在第二种操作方式的基础上再做卷积操作，以学习将压缩后的预测结果特征图转化为位置注意力权重的转化参数。三种做法的实验结果展示在表4中，三种位置注意力生成方式都比较有效。考虑到对预测结果特征图的利用及综合表4的实验结果，本方法采用第二种位置权重生成方式。

表4

本方法在UCAS-AOD数据集上对位置注意力权重特征图的施加方式进行了探究实验，分别对比了指数化权重后相乘、直接权重相乘以及权重相乘后相加三种方式，实验结果展示在表5中。由于注意力权重是在0到1之间，所以直接权重相乘会对预测特征图的目标区域和背景区域都产生不同程度的弱化，因此需要采用权重大于1的方式，结合表5的实验结果考虑，本方法选择使用相乘后相加的位置注意力权重施加方式。

表5

在另一个实施例中，给出了本方法中的模型与其他先进模型的对比。在表6中，展示了本方法中的模型AANet和其他先进的模型在 UCAS-AOD数据集上的对比情况。其中RetinaNet、FAN和AANet结果来自本实验。AANet取得95.47％的精度，高于采用特征金字塔和焦点损失的RetinaNet和特征注意力网络FAN，以及文献的模型，在 UCAS-AOD数据集上取得较高的精度。

表6

为了验证本方法中的模型的有效性与鲁棒性，在RSOD遥感数据集上对比了本方法中的模型和其他先进模型，表7展示了对比实验结果。RetinaNet、Face Attention Network和AANet结果为本实验所得，其他模型结果来自原文献。将区域建议生成阶段和目标检测阶段通过特征共享实现集成的R-P-Faster R-CNN模型和采用可形变卷积的Deformable R-FCN模型分别取得84.47％和85.70％的mAP精度，对操场的检测性能较好，对飞机、立交桥、油桶的检测性能较差。 Deformable R-FCN and arcNMS添加比率限制后处理arcNMS之后，立交桥的检测精度有所提升，但飞机、油桶的检测精度没有提升。用于多角度目标检测的RFN(Rotated Feature Network)模型的mAP精度达到了92.30％，立交桥和操场的检测性能较好，飞机的精度有一定的提升，但仍旧不高。采用密集连接特征金字塔结构的DenselyConnected FPN模型对飞机的检测精度有进一步的提升，对油桶的检测精度也有明显的提升，在ResNet-50的主干网络下精度达到91.53％，而使用ResNet-101主干网络时，mAP精度达到94.19％，精度有显著提高。本文基线模型Face Attention Network和对比模型RetinaNet 对不同尺度的目标都能较好地处理，飞机和油桶的检测精度得到进一步提升，但是立交桥、操场的精度略有降低。本文模型AANet在保持立交桥、操场较高检测精度的同时，提升了飞机和油桶的检测精度，在RSOD数据集上超越了其他先进模型。

表7

表8对比了本方法的模型和其他遥感目标检测模型每张图像的测试运行时间，各实验结果使用的GPU型号是12GB存储的Titan X。其中AANet和FAN模型结果来自本实验，其他模型结果来自文献 (Tayara，2018)。从表8中可以看出AANet的测试时间较短。

表8

在图3至图4中展示了本方法中的模型AANet分别在UCAS-AOD 和RSOD遥感目标检测数据集上的一些检测结果。从图3至图4中可以看出采用跳跃连接特征金字塔模块和基于锚框的位置注意力模块的AANet模型对不同大小的目标和一些遮挡目标都有较好的检测性能。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于锚框的注意力遥感图像目标检测方法，包括如下步骤：

S300：输出遥感目标的检测结果。

2.根据权利要求1所述的方法，其中，优选的，所述步骤S100进一步包括：

S103：使用目标检测头网络中的分类和回归子网络生成预测边界框的类别分数和位置信息，并使用非极大值抑制NMS操作筛选检测结果。

3.根据权利要求1所述的方法，其中，所述步骤S100中的目标检测模型采用RetinaNet模型。

4.根据权利要求2所述的方法，其中，所述步骤S101进一步包括：

S1015：将P3特征图分别二倍、四倍池化，相加融合至自底向上路径上的各层特征图，得到自底向上路径上的N3特征图、N4特征图、N5特征图；

5.根据权利要求2所述的方法，其中，所述步骤S102进一步包括：

6.根据权利要求5所述的方法，其中，所述步骤S1021进一步包括：

7.根据权利要求5所述的方法，其中，所述步骤S1022进一步包括：

8.根据权利要求5所述的方法，其中，所述步骤S1023进一步包括：

9.根据权利要求4所述的方法，其中，所述步骤S1014进一步包括：

所述下采样是采用池化下采样操作。

10.根据权利要求2所述的方法，其中，所述步骤S103中的目标检测头网络中的分类和回归子网络为：分别连接4个256通道的卷积操作后，再分别添加KA个通道的卷积层和4A个通道的卷积层，经过激活层后预测边界框的类别分数和位置信息，K表示类别数，A表示每一像素位置的锚框数量。