CN114494893A

CN114494893A - 基于语义重用上下文特征金字塔的遥感图像特征提取方法

Info

Publication number: CN114494893A
Application number: CN202210401122.6A
Authority: CN
Inventors: 张理; 郭勇; 王新月
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-05-13
Anticipated expiration: 2042-04-18
Also published as: CN114494893B

Abstract

本发明公开了一种基于语义重用上下文特征金字塔的遥感图像特征提取方法，包括构建训练数据集；构建基于语义重用上下文特征金字塔网络；训练该网络得到网络模型；获取待测区域的遥感图像作为待测图像，将其送入网络模型中，生成待测图像对应的特征金字塔。本发明在现有特征金字塔网络FPN基础上，增设一用于上下文特征增强的CFE模块和三个语义特征重用的SFR模块，CFE模块用于提取具有多个感受野的上下文特征，以更好地检测综合性大目标和易混淆目标，SFR模块通过重用主干的后层特征而不增加参数数量来增强语义特征，以更好地检测小目标。从而提高遥感图像目标检测的性能，尤其针对综合性大目标，易混淆目标和小目标效果更为明显。

Description

基于语义重用上下文特征金字塔的遥感图像特征提取方法

技术领域

本发明涉及一种遥感图像目标检测方法，尤其涉及一种基于语义重用上下文特征金字塔的遥感图像特征提取方法。

背景技术

随着遥感技术的快速发展，高质量的卫星和航空影像已成为各种应用的主要数据源。遥感图像中的目标检测在土地利用、城市规划、环境监测、军事目标识别和战场环境模拟等诸多领域发挥着重要作用。光学遥感图像包含许多综合大目标，比如水坝、高速公路服务区、高尔夫球场、港口和火车站等，他们在图像中所占比例大，内容复杂，通常包含其他小目标。还有很多易混淆目标，如立交桥和桥梁、篮球场和棒球场等，经常被许多目标检测器混淆。另外，还包含小目标，如车辆、飞机和船舶等，它们在图像中的分辨率较低，其特征信息往往被复杂的背景和其他更易识别的物体所淹没。此外，由于光学遥感图像中的目标具有物体尺度变化大、背景复杂、物体模糊或小、垂直视角等特点，使目标检测不同于自然场景图像。

目前基于深度学习的检测器大致可以分为两类：两阶段方法和单阶段方法。许多两阶段目标检测方法都是基于R-CNN框架的，例如Fast R-CNN和Faster R-CNN。这些方法具有相同的过程，即首先通过区域建议网络（RPN）生成感兴趣区域（RoI）候选框，然后根据区域特征预测分类和定位。它们可以获得更好的性能但消耗更多的资源和时间，而单阶段方法具有更加简单的网络结构，例如SSD和Yolo，它们可以使用密集采样进行定位和分类，无需区域建议模块。

尽管上述经典算法在自然场景图像的目标检测任务中表现良好，但它们无法在遥感图像中很好地完成这些任务。为了获得更好的检测性能，一些研究人员改进了目标函数、锚点或NMS，以使现有算法适应遥感图像中的目标检测任务。一些研究人员还为某些特定任务构建了新的目标检测框架。尽管如此，由于几乎所有基于深度学习的检测器都必须提取原始图像的特征图，以进行定位和分类，因此研究人员将更多的精力集中在特征提取的改进上，以解决背景干扰、小目标检测和旋转不变性等问题。

针对遥感图像中的多尺度目标检测问题，很多工作都利用基于特征金字塔网络FPN的多尺度特征图。自FPN诞生以来，广泛应用于各种目标检测任务中。FPN包含自底向上路径（Bottom-up pathway），自顶向下路径（Top-down pathway）和横向连接（lateralconnections）三部分，自底向上路径也称为自底向上模块，是卷积神经网络骨干网，用于对遥感图像进行特征提取，自顶向下路径又称为自顶向下模块，用于输出特征图金字塔。FPN可以通过最近邻插值和横向连接将高级语义信息逐渐传播到底部，使得到的每一层特征图都能包含高级语义信息，但金字塔最高层的语义信息，由于通道减少，这些信息损失严重，所述FPN虽然在遥感图像中实现相对较高的目标检测平均精度，但缺乏丰富上下文信息和语义信息，对于遥感图像中的综合性大目标，易混淆目标和小目标的检测精度并不理想。

发明内容

本发明的目的就在于提供一种解决上述问题，能提高遥感图像中综合性大目标、易混淆目标和小目标检测精度的，基于语义重用上下文特征金字塔的遥感图像特征提取方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种基于语义重用上下文特征金字塔的遥感图像特征提取方法，包括以下步骤；

（1）构建训练数据集，所述训练数据集包括多张标注过目标位置和类别的遥感图像；

（2）构建一基于语义重用上下文特征金字塔网络；

（2.1）构建一特征金字塔网络FPN，包括自底向上模块和自顶向下模块，所述自底向上模块用于对遥感图像进行特征提取，并从下到上得到各层的特征图F₁-F₄；所述自顶向下模块用于根据自底向上模块的输出，得到特征图金字塔P₁-P₅；

（2.2）在自底向上模块、自顶向下模块间增设一用于上下文特征增强的CFE模块和三个语义特征重用的SFR模块；

所述CFE模块包括四个卷积单元、三个拼接单元、一个融合单元，所述四个卷积单元用于卷积操作，并分别得到卷积后的特征图I ₁-I ₄，所述拼接单元用于拼接操作，并分别得到拼接后的特征图C ₁ -C ₃，所述融合单元用于对I ₁-I ₄进行求和加权操作得到融合特征图cfe，I ₁-I ₄、C ₁ -C ₃、cfe的表达式分别为：

式（1）中：

为卷积操作，3×3为卷积核大小，r _i为扩张率，i∈[1,4]，且r ₁ -r ₄分别为3、6、12、18；

式（2）中：C ₀为特征图F₄，CAT表示将两张图在通道维度上进行拼接，k∈[1,3]；

式（3）中：ω_i为I _i进行加权和操作的权重，初始值为0.25，其值在网络训练过程中进行更新，ε=10^-4；

所述三个SFR模块，其输出为sfr ₁ -sfr ₃，表达式为

式中，UP（F_j）表示对特征图F_j进行上采样操作至与F_i的相同大小，j∈[1,3]；

（2.3）将F₄与cfe按元素相加得到一相加图，将sfr ₁、sfr ₂、sfr₃和相加图，分别代替F₁-F₄作为自顶向下模块的输入，得到基于语义重用上下文特征金字塔网络；

（3）将训练数据集中的遥感图像送入基于语义重用上下文特征金字塔网络中训练得到网络模型；

（4）获取待测区域的遥感图像作为待测图像，将其送入网络模型中，生成待测图像对应的特征金字塔P₁-P₅。

作为优选：所述I ₁ -I ₄的输出通道数均为256。

作为优选：所述自底向上模块采用resnet50模型、VGG16模型或DetNet模型。

与现有技术相比，本发明的优点在于：

（1）对原有的特征金字塔网络FPN进行了优化改进，在现有特征金字塔网络FPN中加入了用于上下文特征增强的CFE模块，和语义特征重用的SFR模块，先用CFE模块和SFR模块对自底向上模块输出的特征图进行处理，得到新的特征图，作为自顶向下模块的输入，替换原有自底向上模块的特征图直接输入到自顶向下模块中的情况。从而形成了一新的特征金字塔网络构架——SC-FPN架构。其中CFE模块使用密集连接和可学习的分支结构来提取具有多个感受野的上下文特征，以更好地检测综合性大目标和易混淆目标；SFR模块通过重用主干的后层特征而不增加参数数量来增强语义特征，以更好地检测小目标。由于F₁-F₄经过CFE模块和SFR模块，从而能提高遥感图像目标检测的性能，尤其针对综合性大目标，易混淆目标和小目标效果更为明显。

（2）SC-FPN架构可以有效且高效地检测复杂场景中的多尺度对象，并可移植到任何基于FPN的检测模型中。

（3）本发明对遥感图像目标检测的整体精度有所提高，其在Dior数据集上的检测结果表明，mAP值能从53.5%，提高到55.8%；对于综合性大目标，比如水坝、高尔夫球场、港口和火车站的AP值分别提高了6.8%，3.0%，5.5%和13.2%；对于易混淆目标比如棒球场和篮球场，桥梁和立交桥的AP值分别提高了2.1%，1.9%，2.6%和2.5%；对于小目标比如飞机，船舶和车辆，AP值分别提高了0.9%，1.2%和1.5%。

综上，本发明能提高遥感图像中综合性大目标、易混淆目标和小目标检测精度，从而从遥感图像更精确地检测出目标，从而在土地利用、城市规划、环境监测、军事目标识别和战场环境模拟等诸多领域发挥着重要作用，具有广阔的市场前景。

附图说明

图1为现有技术中特征金字塔网络FPN的架构图；

图2为利用图1网络进行遥感图像中目标检测的流程图；

图3为本发明中基于语义重用上下文特征金字塔网络的架构图；

图4为利用图3网络进行遥感图像中目标检测的流程图；

图5为图3中CFE模块结构图；

图6为训练基于语义重用上下文特征金字塔网络的训练流程图；

图7为本发明方法的验证和测试流程图；

图8为四种方法在DIOR验证集上评估的目标检测结果的mAP曲线对比图；

图9a为第一张遥感图像采用FPN方法送入目标检测器得到的识别结果；

图9b为第一张遥感图像采用本发明方法送入目标检测器得到的识别结果；

图9c为第二张遥感图像采用FPN方法送入目标检测器得到的识别结果；

图9d为第二张遥感图像采用本发明方法送入目标检测器得到的识别结果；

图9e为第三张遥感图像采用FPN方法送入目标检测器得到的识别结果；

图9f为第三张遥感图像采用本发明方法送入目标检测器得到的识别结果；

图9g为第四张遥感图像采用FPN方法送入目标检测器得到的识别结果；

图9h为第四张遥感图像采用本发明方法送入目标检测器得到的识别结果。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1和图2，图1为特征金字塔网络FPN，包括左侧的自底向上模块和右侧的自顶向下模块以及位于两模块间的横向连接；自底向上模块即骨干网络用于对遥感图像进行特征提取从下到上得到各层的特征图F₁-F₄；自顶向下模块根据骨干网络的输出，得到特征图金字塔M₁-M₅。

图2给出了一种经图1特征金字塔网络FPN处理后得到的特征图金字塔M₁-M₅的具体的应用场景，本实施例中，将特征金字塔M₁-M₅送入目标检测器中，输出图像中目标位置和类别。

参见图3-图7，一种基于语义重用上下文特征金字塔的遥感图像特征提取方法，包括以下步骤；

（2）构建一基于语义重用上下文特征金字塔网络；

式（1）中：

所述三个SFR模块，其输出为sfr ₁ -sfr ₃，表达式为

（4）获取待测区域的遥感图像作为待测图像，将其送入网络模型中，生成待测图像对应的特征金字塔P ₁ -P ₅。

本实施例中，所述自底向上模块采用resnet50模型、VGG16模型或DetNet模型等，不局限于这几种。所述I ₁ -I ₄的输出通道数均为256。

实施例2：为了更好的说明本发明，我们在实施例1的基础上，进一步描述如下：

关于基于语义重用上下文特征金字塔网络：

该网络由现有的特征金字塔网络FPN，加一个CFE模块、三个SFR模块构成，结构图参见图3。从图3中可以看出，用CFE模块、SFR模块处理自底向上模块输出的F₁-F₄后，形成新的四张特征图，送入自顶向下模块中，我们将图4构成的新网络，命名为SC-FPN网络。

关于上下文特征增强的CFE模块：本发明设计了一个CFE模块来不同程度地扩展感受野。该模块分为2个阶段。在第一阶段，为本文公式（1）（2）。具体来说，每个扩展层的输出连接到其输入，然后输入到下一个扩展层。得到了四个不同感受野的特征图，这四个特征图对输出的贡献不同。

在第2阶段，为本文公式（3），我们使用加权和而不是在通道维度上连接来合并四个特征图，这将减少一些计算开销。这种多分支形式可以学习不同感受野的重要性。每个分支的权重

是一个可学习的参数。在这个模块中重用了大量的特征，因此只需要少量的卷积核，从而减少了整个模型的参数数量。

本实施例中，自底向上模块采用resnet50模型，卷积操作输出通道数为256时CFE模块的模型细节情况，参见表1：

关于三个语义特征重用的SFR模块：对于在浅层特征图中经常检测到的小物体，需要在其周围添加强语义信息以便更好地检测。在上采样中使用了最近邻插值，可能无法有效地传播高级语义信息。高层语义信息丰富，但由于多次下采样，小目标的语义信息已经丢失。特征重用是一种比多次学习冗余特征更好的特征提取方法。提出的SFR模块利用骨干网络的高层特征来增强低层的语义信息。具体来说，包含更高语义信息的后层首先被上采样到当前层特征的相同大小，然后将当前层和上采样后的层相加作为SFR块的输出。具体参见公式（4）。

本文不是直接将的自底向上模块的输出送入自顶向下模块中，而是对自底向上模块的输出、用CFE模块和SFR模块处理后，形成四张新的特征图，代替原自底向上模块的四张特征图，作为自顶向下模块的输入。这样，就将现有的FPN架构，优化成本文的SC-FPN 的架构。由于F₁-F₄经过CFE模块和SFR模块，进行了上下文特征增强处理和语义特征重用处理，从而能提高遥感图像目标检测的性能，尤其针对综合性大目标，易混淆目标和小目标效果更为明显。

关于CFE模块对F₁-F₄的具体处理方法；参见公式（1）-公式（3），SFR模块对F₁-F₄的具体处理方法；参见公式（4）；

其中：CFE模块可参见图5，按照公式（1）得到I ₁，将F₄和I ₁按照公式（2）处理得到C ₁，再将C ₁按公式（1）得到I ₂，将C ₁和I ₂按照公式（2）处理得到C ₂，以此类推，得到I ₃、I ₄，并设置I ₁ - I ₄的初始权重

为0.25，在训练时迭代更新。最终得到融合特征图cfe，再将F ₄与cfe按元素相加得到一相加图。

关于SFR模块对F₁-F₄的具体处理方法，参见公式（4）；三个SFR模块的输出从底层到上层，依次为sfr ₁ -sfr ₃；

sfr ₁表示对F₂-F₄分别上采样后相加，再与F₁相加；

sfr ₂表示对F₃-F₄分别上采样后相加，再与F₂相加；

sfr ₃表示对F₄上采样后相加，再与F₃相加；

这样，从下到上得到sfr ₁、sfr ₂、sfr ₃和相加图，分别代替原来的F₁-F₄作为自顶向下模块的输入，送入自顶向下模块中进行处理。

自顶向下模块处理时：将相加图直接作为P₄，对P₄做最大值池化得到P₅，将sfr ₃与P₄上采样后相加，得到P₃，同理，得出P₂和P₁。

关于步骤（3）训练得到网络模型，本实施例中，训练的流程图参见图6，构建基于语义重用上下文特征金字塔网络并初始化。每次迭代取训练集中一个批大小的图片输入该网络中，本发明中批大小设置为8，直到训练集中所有图片训练完一轮，称为一个时期，本发明中总共训练70轮。每迭代一次，计算损失函数值，按随机梯度下降法更新一次整个神经网络的参数，前60轮训练的学习率设置为0.001，最后10轮设置为0.0001。每轮训练完毕保存当前时期的模型参数值。

训练结束后，我们对得到的模型进行验证和测试，验证和测试的流程参见图7。

验证步骤：构建基于语义重用上下文特征金字塔网络，一次加载训练阶段保存的其中一个时期的模型参数，在验证集中取一张图片输入网络,得出检测结果，即检测到目标的坐标值和分类结果，直到验证集中所有图片检测完毕，计算当前模型的验证结果，即mAP值。循环执行以上步骤，直到保存的所有模型参数验证完毕。mAP值越大，模型的性能越好。因此，采用在验证集上检测得到最大mAP的模型参数作为最终模型参数，用于测试集的检测，并删除其余模型参数。

测试步骤：构建基于语义重用上下文特征金字塔网络，加载验证阶段挑选出的模型参数，一次取测试集中一张图片输入网络，得出检测结果，并将结果可视化，直到测试集中所有图片检测完毕，计算AP和mAP值。

具体可视化方案为，将检测到的目标在原图中用白色方框标注出来，并在方框处标注预测的目标类别。

AP计算的是“准确率-召回率”曲线下的面积，这是一个指标，与准确率和召回率有关。mAP是所有类别的平均 AP 值。这两个指标越高，性能越好。召回率recall和准确率precision可以表示如下：

其中TP、FN和FP分别表示真阳性、假阴性和假阳性的数量。在本发明中，如果Intersection-Over-Union(IOU)的值大于等于0.5，则认为边界框为真阳性；否则，这是一个误报。

经过训练、验证和测试，确定了基于语义重用上下文特征金字塔网络模型。并利用该模型对遥感图像进行处理，接着送入现有的目标检测器中进行预测或识别。

实施例3：参见图3到图9h，为了对比本发明和现有技术的效果，我们进行如下对比实验：

（1）实验设计：

基线模型为FPN，为了分析 SC-FPN 中每个组件的重要性，将 CFE 模块和 SFR 模块分别应用于现有的FPN模型中，构成FPN+CFE法、FPN+SFR法，再与现有技术的FPN方法、本发明的SC-FPN方法一起构成四种特征提取方法，将四种特征提取方法分别嵌入到FasterR-CNN目标检测器，并运用到遥感图像目标检测中进行对比。两个模型均使用深度神经网络框架PyTorch实现，在单个Nvidia Titan RTX GPU上训练，每批8张图像实现一次模型的迭代，所有图像完成一次训练为一轮，共训练70轮。在训练中使用随机梯度下降SGD优化器，动量设置为0.9，权值衰减设置为0.0005，将前60轮的学习率设置为0.001，最后10轮设置为0.0001。用AP，mAP评估各类和整体的目标检测精度，用每秒的帧数FPS来评估模型的推理速度。

（2）数据集；

本实施例中选用DIOR数据集，它是一个20类地理空间目标检测数据集，用于多类目标检测。该数据集包含以下目标类别：飞机、机场、棒球场、篮球场、桥梁、烟囱、水坝、高速公路服务区、高速公路收费站、高尔夫球场、田径场、港口、立交桥、船舶、体育场、储罐、网球场、火车站、车辆和风车。DIOR包含192472 个对象实例。DIOR由23463张遥感图像组成，包括5862个用于训练的图像、5863个用于验证的图像和11738个用于测试的图像。

（3）验证结果；

参见图8，图8显示了采用上述四种方法在DIOR验证集上评估的目标检测结果的mAP 曲线，从验证结果来看，本发明方法在DIOR数据集上表现良好。对于 DIOR 数据集，SC-PFN采用第60轮的训练得到的网络模型参数作为最终的模型参数，它达到了69.0%的mAP。

（4）测试结果

计算DIOR测试集上4种方法的检测平均精度和FPS，得到表2。

从表2可知，CFE模块将基线方法的mAP提高了1.9%。对于一些综合性大目标物体，如水坝、港口、高尔夫球场、火车站等，带有CFE块的模型的AP值分别提高了11.7%，6.2%，2.4%和15.2%。值得注意的是，带有CFE模块的模型可以更好地检测桥梁和立交桥等易混淆的目标AP值分别提高了2.8%和1.9%。这些结果得益于 CFE 模块从不同感知野获取到的丰富上下文信息。

从表2可知，SFR模块提高了基线模型的检测性能。它在检测一些小物体上，精度比基线模型有提升，比如飞机，船舶和汽车，对飞机的检测甚至实现了四个模型中的最佳的性能，AP值比FPN提升了1.2%。它归功于SFR模块，可以更好地增强浅层特征图的语义信息识别小物体。值得注意的是，SFR模块没有引入额外的参数。

对于结合两个模块，即SC-FPN的检测，比单个模块对FPN模型的mAP的提升要高，证明这些组件是互补的。SC-FPN 在DIOR数据集上的mAP得分方面明显优于FPN。因为DIOR的测试集大小是训练集大小的两倍，所以这个数据集的mAP值较低。我们的SC-FPN 还在 DIOR数据集上针对水坝、港口、和火车站等综合性大目标的检测上比FPN取得了显著的提升；对于篮球场和棒球场，桥梁和立交桥这类易相互混淆的目标的检测上取得了较大的提升；此外，船舶、风车和车辆等小物体的检测精度也得到一定的提高。我们的方法在DIOR数据集上实现了FPS=20.8帧/秒的速度。上述结果表明，SC-FPN比FPN更适合遥感图像中的多类目标检测，在综合性大目标、易混淆和小目标的检测精度和mAP都达到了最高水平。

（5）检测结果的可视化

我们选取四张DIOR数据集中的遥感图像，每张图分别用FPN模型和本发明模型对其进行处理，再送入目标检测器中处理，得到分类和定位的结果，最终可视化。参见图9a-9h。

图9a和图9b为第一张遥感图像分别采用FPN和本发明方法处理后，送入目标检测器得到的识别结果。其中可以看出：FPN对于高尔夫球场这样的综合性大目标检测，检测出了冗余的错误边框，而SC-FPN可以准确定位出该目标。

图9c和图9d为第二张遥感图像分别采用FPN和本发明方法处理后，送入目标检测器得到的识别结果。其中可以看出：FPN将图中左下部分的棒球场和篮球场相混淆，而SC-FPN正确地检测出了棒球场。对于图中上半部分的篮球场，FPN则检测出了多于的大边框，而SC-FPN准确地定位了两个篮球场。另外，对于图中的小目标，SC-FPN比FPN检测出更多的车辆。

图9e和图9f为第三张遥感图像分别采用FPN和本发明方法处理后，送入目标检测器得到的识别结果。其中可以看出：图中风车的所占的像素极少，SC-FPN比FPN检测出了更多的风车。

图9g和图9h为第四张遥感图像分别采用FPN和本发明方法处理后，送入目标检测器得到的识别结果。其中可以看出：两种方法均成功检测出了图中的所有车辆，FPN将图中的立交桥和桥梁相混淆，而SC-FPN正确地识别出了立交桥的位置和类别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义重用上下文特征金字塔的遥感图像特征提取方法，其特征在于：包括以下步骤；

（2）构建一基于语义重用上下文特征金字塔网络；

式（1）中：

为卷积操作，3×3为卷积核大小，r _i为扩张率，

，且r ₁ -r ₄分别为3、6、12、18；

所述三个SFR模块，其输出为sfr ₁ -sfr ₃，表达式为

2.根据权利要求1所述的基于语义重用上下文特征金字塔的遥感图像特征提取方法，其特征在于：所述I ₁ -I ₄的输出通道数均为256。

3.根据权利要求1所述的基于语义重用上下文特征金字塔的遥感图像特征提取方法，其特征在于：所述自底向上模块采用resnet50模型、VGG16模型或DetNet模型。