CN116883679A

CN116883679A - 基于深度学习的地物目标提取方法和装置

Info

Publication number: CN116883679A
Application number: CN202310809185.XA
Authority: CN
Inventors: 王勇
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-13
Anticipated expiration: 2043-07-04
Also published as: CN116883679B

Abstract

本发明涉及计算机技术领域，尤其涉及一种基于深度学习的地物目标提取方法和装置。该方法包括：获取待提取的第一遥感影像；基于所述第一遥感影像的空间分辨率，确定目标采样因子，以利用所述目标采样因子对所述第一遥感影像进行空间采样；将空间采样得到的第二遥感影像输入到训练好的地物提取模型中，得到所述第一遥感影像的地物目标提取结果；其中，所述地物提取模型是利用标签遥感影像对预设的深度学习网络进行训练得到的。本发明的技术方案能够有效提高地物提取性能和识别精度。

Description

基于深度学习的地物目标提取方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于深度学习的地物目标提取方法和装置。

背景技术

随着遥感技术的快速发展，高分辨率遥感影像的光谱和纹理特征蕴含的空间细节信息越来越丰富，为地物类别信息精准提取、高清三维地图制作、城市精细化管理、土地利用精确变化检测等提供了可行性。然而，遥感影像中不同地物呈现出不同的形状、大小和颜色，以及存在诸如树木阴影等背景噪声影响，给地物信息高精度地提取带来了巨大挑战。

随着计算机技术、机器学习技术等发展，深度学习凭借其优异的地物特征提取能力，广泛运用于遥感图像语义分割领域，较好地完成了地物特征的提取。然而，相关提取模型在提取地物特征时存在地物提取性能和识别精度不佳的技术问题。

基于此，本发明提出了一种基于深度学习的地物目标提取方法和装置来解决上述技术问题。

发明内容

本发明描述了一种基于深度学习的地物目标提取方法和装置，能够有效提高地物提取性能和识别精度。

根据第一方面，本发明提供了一种基于深度学习的地物目标提取方法，包括：

获取待提取的第一遥感影像；

基于所述第一遥感影像的空间分辨率，确定目标采样因子，以利用所述目标采样因子对所述第一遥感影像进行空间采样；

将空间采样得到的第二遥感影像输入到训练好的地物提取模型中，得到所述第一遥感影像的地物目标提取结果；其中，所述地物提取模型是利用标签遥感影像对预设的深度学习网络进行训练得到的；

所述深度学习网络包括：

编码网络，包括N个依次连接的编码模块和N个第一模块，相邻两个所述编码模块之间连接有一个所述第一模块，最后一个所述编码模块的输出端连接有一个所述第一模块，所述第一模块用于获取每个地物特征点之间的长距离空间分布关系；其中，N为大于1的正整数；

解码网络，包括N个解码模块、一个第二模块和N-1个第三模块，所述第二模块分别与最后一个所述第一模块的输出端和第一个所述解码模块的输入端连接，每个所述第三模块分别与一个所述第一模块的输出端、上一个所述解码模块的输出端和当前所述解码模块的输入端连接，最后一个所述解码模块的输出端连接有一个1×1卷积层，以输出所述地物目标提取结果，所述第二模块用于获取地物的多尺度上下文信息，所述第三模块用于在通道维度和空间维度完成深层特征图的语义信息和浅层特征图的空间信息的融合，所述浅层特征图是所述编码模块或所述第一模块生成的，所述深层特征图是所述解码模块生成的。

根据第二方面，本发明提供了一种基于深度学习的地物目标提取装置，包括：

获取单元，用于获取待提取的第一遥感影像；

采样单元，用于基于所述第一遥感影像的空间分辨率，确定目标采样因子，以利用所述目标采样因子对所述第一遥感影像进行空间采样；

提取单元，用于将空间采样得到的第二遥感影像输入到训练好的地物提取模型中，得到所述第一遥感影像的地物目标提取结果；其中，所述地物提取模型是利用标签遥感影像对预设的深度学习网络进行训练得到的；

所述深度学习网络包括：

根据本发明提供的基于深度学习的地物目标提取方法和装置，通过设计地物提取模型，慎重地考虑了不同空间分辨率输入数据的空间采样，避免了空间信息的过度丢失；在地物提取模型中融入第一模块，以收集长距离的地物特征空间分布关系，提高对地物特征的注意程度；在地物提取模型中构建了第二模块，以能够动态地改变卷积核感受野大小，获取地物特征的全局和上下文信息，应对地物形状频繁变化、尺度不一的挑战；在地物提取模型中设计了第三模块，以顾及空间和语义信息的跨层次特征融合，如此可以从通道和空间两个维度弥补浅层特征和深层特征之间的空间与语义差别，消除特征之间的冗余性。因此，上述技术方案能够有效提高地物提取性能和识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据一个实施例的基于深度学习的地物目标提取方法的流程示意图；

图2示出了根据一个实施例的基于深度学习的地物目标提取装置的示意性框图；

图3示出了根据一个实施例的深度学习网络的模型结构示意图；

图4示出了根据一个实施例的四种空间采样策略的结构示意图；

图5示出了根据一个实施例的第一模块的原理结构示意图；

图6示出了根据一个实施例的第二模块的原理结构示意图；

图7示出了根据一个实施例的第三模块的原理结构示意图。

具体实施方式

下面结合附图，对本发明提供的方案进行描述。

近年来，基于深度学习的卷积神经网络(Convolutional Neural Networks，CNNs)，因其强大自主的特征学习和提取能力，在难度极大的地物目标识别和可行性预测领域表现出良好的性能。如在目标对象检测、遥感图像语义分割和滑坡易发性制图等领域，较好地完成了地物目标对象的特征语义信息提取和识别预测。由卷积层和激活函数组成的CNNs，在数据驱动的支持下，敏锐地捕捉遥感影像中地物特征的空间信息，具有局部感知和参数共享的优点，但也存在仅能学习浅层次特征信息的弱点。通过增加CNNs的卷积层数和网络深度，形成的深度卷积神经网络(Deep Convolutional Neural Networks，DCNNs)具备了更强的层次特征挖掘能力和抽象的语义信息理解能力，为高分辨率遥感影像地物提取的高精度提取提供了可行性。基于端到端的DCNNs通过输入的影像数据自主地学习并构建不同地物的几何形状和空间纹理等深层次特征，有助于精准地提取复杂场景的地物信息，能够适用于多种应用场景。尤其是以全卷积神经网络(Fully Convolutional Network，FCN)和U-Net为代表的DCNNs，被证明了在遥感影像中像素级别地物分类的有效性，已成为自动化、高性能地物信息提取的研究热点。

然而，由于高分辨率遥感影像中地物形状尺度大小、屋顶颜色频繁变化等特殊性，在以往基于DCNNs的地物提取方法仍存在以下挑战。DCNNs中重复的下采样操作，丢失了原始遥感影像中大量的空间信息，降低了特征图的空间分辨率和地物的提取精度。虽然利用反卷积或双线性插值在一定程度上能恢复地物的空间分辨率，但这种通过特征学习或邻近像素加权计算的上采样方式仍然丢失了部分空间信息。已有研究表明，移除DCNNs的最后几个下采样算子可避免特征信息的过度丢失，提高网络的识别性能。但对于高分辨遥感影像而言，初始层的空间采样就已经发生了空间细节信息丢失的现象。因此，上述研究尚未深入地探索空间采样和空间分辨率之间的关系，也尚未确定不同空间分辨率遥感影像的最优空间。

基于端到端的DCNNs通过堆叠多个卷积层，获取了地物特征丰富的语义信息，但过深的网络容易带来训练困难、性能退化等诸多问题。为克服这些问题，残差学习思想被提出，通过跳跃连接的方式提高模型的训练速度以及地物特征的学习效率，解决了训练困难和性能退化的问题。然而，融合了残差学习单元的DCNNs由于标准卷积层的局限性，实质上仍是感知卷积核内部的局部信息，忽视了遥感影像中蕴含的长距离空间信息。同时，由于树木和建筑物阴影等背景噪声的影响，由残差学习单元提取的空间信息很难完全反映整个空间分布特性，导致会出现错误提取的情况。因此需要提高对地物空间分布信息，尤其是长距离信息的关注程度。

此外，由于高分辨率影像中地物形状频繁变化、尺度不一，其标准卷积固定大小的感受野无法同时兼顾不同形状、多种尺度的地物特征信息，严重限制了DCNNs的语义信息学习能力。然而，带有扩张卷积的DCNNs可根据其扩张率，动态地改变卷积核感受野的大小，在不增加参数和计算复杂度的情况下感受不同形状、多种尺度的地物特征，获取更加丰富的上下文信息。例如，ASPP通过不同扩张率的扩张卷积增大了感受野，同时关注了不同尺度地物的空间位置和语义信息(如车和建筑物)。带有扩张卷积的DCNNs，通过扩大感受野的扩张卷积，逐渐成为消除形状频繁变化、尺度不一带来消极影响的有效手段之一。但是，不恰当感受野的设计以及空洞效应的影响，现有的方法很难完整地捕捉遥感影像中地物特征的全局上下文信息，造成出现漏提和误提现象，急需进一步研究适当的感受野设置方法。

准确地从高分辨率遥感影像中提取地物信息，同步地保持空间细节信息和特征语义信息至关重要。DCNNs从高分辨率遥感影像中提取的浅层特征尽管具有详细的空间边缘信息，但语义信息较弱；随着网络深度的增加，DCNNs获取的深层特征虽然包含丰富的语义信息，但丢失了大量空间细节。如何兼顾地物特征的空间细节和语义信息，常见的解决方案是简单地选择跳跃连接的特征融合方式，如U-Net通道叠加和LinkNet像素相加，去融合浅层特征的空间信息和深层特征的语义信息。实际上，这种简单的特征融合方式并没有考虑浅层和深层特征在空间细节和语义信息之间的显著差别，忽视了特征之间的冗余性，导致地物提取精度不高。因此，需要一种有效的跨层特征融合方法提高空间定位精度和语义信息学习能力。

针对上述系列问题，发明人创造性地提出了一种顾及空间采样的全局感知和跨层融合地物提取模型。该模型慎重地考虑了不同空间分辨率输入数据的空间采样(具体在三个不同高分辨率遥感影像数据集上表现出良好的提取性能，请参见下文的实验部分)，避免了空间信息的过度丢失；融入第一模块，以收集长距离的地物特征空间分布关系，提高对地物特征的注意程度；构建了第二模块，以能够动态地改变卷积核感受野大小，获取地物特征的全局和上下文信息，应对地物形状频繁变化、尺度不一的挑战；设计了第三模块，以顾及空间和语义信息的跨层次特征融合，如此可以从通道和空间两个维度弥补浅层特征和深层特征之间的空间与语义差别，消除特征之间的冗余性。

下面描述以上构思的具体实现方式。

图1示出根据一个实施例的基于深度学习的地物目标提取方法的流程示意图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图1所示，该方法包括:

步骤100、获取待提取的第一遥感影像；

步骤102、基于第一遥感影像的空间分辨率，确定目标采样因子，以利用目标采样因子对第一遥感影像进行空间采样；

步骤104、将空间采样得到的第二遥感影像输入到训练好的地物提取模型中，得到第一遥感影像的地物目标提取结果；其中，地物提取模型是利用标签遥感影像对预设的深度学习网络进行训练得到的；

深度学习网络包括：

编码网络，包括N个依次连接的编码模块和N个第一模块，相邻两个编码模块之间连接有一个第一模块，最后一个编码模块的输出端连接有一个第一模块，第一模块用于获取每个地物特征点之间的长距离空间分布关系；其中，N为大于1的正整数；

解码网络，包括N个解码模块、一个第二模块和N-1个第三模块，第二模块分别与最后一个第一模块的输出端和第一个解码模块的输入端连接，每个第三模块分别与一个第一模块的输出端、上一个解码模块的输出端和当前解码模块的输入端连接，最后一个解码模块的输出端连接有一个1×1卷积层，以输出地物目标提取结果，第二模块用于获取地物的多尺度上下文信息，第三模块用于在通道维度和空间维度完成深层特征图的语义信息和浅层特征图的空间信息的融合，浅层特征图是编码模块或第一模块生成的，深层特征图是解码模块生成的。

在本实施例中，通过设计地物提取模型，慎重地考虑了不同空间分辨率输入数据的空间采样，避免了空间信息的过度丢失；在地物提取模型中融入第一模块，以收集长距离的地物特征空间分布关系，提高对地物特征的注意程度；在地物提取模型中构建了第二模块，以能够动态地改变卷积核感受野大小，获取地物特征的全局和上下文信息，应对地物形状频繁变化、尺度不一的挑战；在地物提取模型中设计了第三模块，以顾及空间和语义信息的跨层次特征融合，如此可以从通道和空间两个维度弥补浅层特征和深层特征之间的空间与语义差别，消除特征之间的冗余性。因此，上述技术方案能够有效提高地物提取性能和识别精度。

需要说明的是，地物指的是地面上各种有形物(如山川、森林、建筑物等)和无形物(如省、县界等)的总称，泛指地球表面上相对固定的物体。例如，地物的一级类别有矿山用地、耕地、林地、水域、道路、居民用地、未利用地；二级子类别有采坑、选矿厂、排土场、水田、温室大棚、旱地、休耕地、有林地、灌木、胁迫植被、苗圃和果园、池塘、采矿集水坑、沥青公路、水泥路、土路、城镇用地、农村居民点、其它建设用地、裸地。

下面介绍本发明的地物提取模型的具体结构。

请参阅图3，本发明实施例提出的地物提取模型是一种标准的基于端到端的深度卷积神经网络，具体来说：首先，输入遥感影像根据其空间分辨率采用不同的缩放因子(即采样因子，当采样因子大于1时，为上采样，图像分辨率变大；当采样因子小于1时，为下采样，图像分辨率变小，本文的采样因子选用1.0、0.5、0.25和0.125)进行空间采样，在减少计算复杂度的同时最大限度地保留空间细节信息；其次，为感知地物特征点的长距离特性以及捕获全局语义关联性，编码网络构建了第一模块，加强地物特征之间的语义关联；最后，解码网络在一个第二模块和多个第三模块的支持下，高效地获取不同尺度的上下文信息，弥补不同层级特征之间的语义差别，并将特征图映射为最终的提取结果。

给定输入遥感图像，考虑其空间分辨率大小，从四个空间采样因子中选取最优的采样因子，生成其空间信息保留最为细致的特征图(具体请参见下文实验部分的采样因子的选择过程)。随后，编码网络利用四组编码模块生成尺度不一的浅层特征图E_i，分别蕴含着丰富的空间信息和语义信息。在每组编码模块结束之后，第一模块重点收集并感知长距离的地物特征分布关系，进一步增加地物之间的语义信息关联。解码网络通过第二模块重点感知浅层特征图E_i的全局上下文信息，并通过双线性插值和第二模块逐级还原深层特征的空间分辨率，生成和浅层特征图尺度对应的深层特征图D_i。为加强高低层之间的紧密结合，利用第三模块在通道维度和空间维度完成深层特征的语义信息和浅层特征的空间信息融合，消除两者之间跨级语义差别。融合后的特征被送入到两个3×3卷积，恢复其细节语义信息。在解码网络的末端，使用1×1卷积和双线性插值，提取地物的空间信息(即地物目标)。

请参阅图4，作为一种优选的实施方式，步骤“利用目标采样因子对第一遥感影像进行空间采样”具体可以包括：

在目标采样因子为1时，将第一遥感影像依次输入到步长为1的7×7卷积层、BN层和Relu层，以完成对第一遥感影像的空间采样；

在目标采样因子为0.5时，将第一遥感影像依次输入到步长为2的7×7卷积层、BN层和Relu层，以完成对第一遥感影像的空间采样；

在目标采样因子为0.25时，将第一遥感影像依次输入到步长为2的7×7卷积层、BN层、Relu层和最大池化层，以完成对第一遥感影像的空间采样；

在目标采样因子为0.125时，将第一遥感影像依次输入到步长为1的7×7卷积层、BN层、Relu层、最大池化层和步长为2的3×3卷积层，以完成对第一遥感影像的空间采样。

针对不同空间分辨率的遥感影像，如何在初始层选择最优的空间采样因子，对于空间信息的保留和冗余信息的消除至关重要。现有方案通过双流分辨率特征器或原始尺度输入来精确地获取地物特征详细的空间信息，但并没有深入地探索空间分辨率与空间采样因子之间的交互效应。为此，本发明实施例设计了如图4所示的四种初始层空间下采样策略，通过步长卷积和最大池化操作控制图像的空间细节信息，生成四种不同尺度特征图。由可视化的特征图(即图4中的右侧)可知，随着采样因子的逐步减小，地物空间细节信息逐渐丢失，这势必会影响后续特征提取过程中空间信息的精细重建。因此，本发明实施例针对不同空间分辨率的遥感图像，深入地分析了空间下采样因子对提取结果的影响，得出了不同空间分辨率输入图像的最优空间采样因子。

请参阅图5，作为一种优选的实施方式，第一模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

G_i＝ρ_q(Q_i)ρ_k(K_i)^TV_i

式中，E_i为第i个编码模块生成的浅层特征图，1≤i≤N；R表示向量空间；C_i、H_i和W_i分别为E_i的通道数、高度和宽度；Q_i、K_i和V_i分别为Ei与1×1卷积生成的特征向量；Convd(·)表示卷积；G_i为第i个第一模块生成的浅层特征图；p_q(·)和p_k(·)分别表示Q_i和K_i的归一化缩放。

标准卷积仅能感知地物的局部邻域信息，不能有效地获取全局信息，也不能充分考虑遥感影像中多个地物之间空间分布互相关联等自然属性，造成遗漏提取的情况出现。为应对这一挑战，本发明实施例提出如图5所示的第一模块，构建每个特征之间的长距离空间分布关系，自适应地突出不同空间位置的地物特征响应。

第一模块通过卷积、乘法、激活等操作，自动地获取每个特征点之间的长距离空间分布关系，完成地物特征全局空间信息的有效感知。输入特征分别通过三个1×1卷积，生成三个特征向量，即/>和/>计算过程定义如下：

式中，Convd(·)表示卷积，N_i＝H_i×W_i。按照点乘自注意力机制的定义，任意特征图的自相关输出特征图定义如下：

式中，表示特征图E_i的自相关矩阵，定量地描述了每个地物特征点之间的长距离空间分布关系，即特征相似性。然后使用归一化函数ρ(·)对自相关矩阵的特征值进行缩放，自适应地获得特征点的全局关系权重，突出地物的空间表征。最后将ρ(Q_iK_i ^T)和V_i矩阵相乘后，可迫使网络重点关注地物信息，提高对地物特征的响应程度。然而，传统的点乘自注意力机制在获取自相关矩阵时，存在着/>的内存复杂度，消耗大量的计算资源。因此，本发明实施例使用归一化函数ρ(·)分别对Q_i和K_i进行缩放，然后通过矩阵结合律实现特征图最终的全局语义信息感知，定义如下：

G_i＝ρ_q(Q_i)ρ_k(K_i)^TV_i (3)

式中，ρ_q(·)和ρ_k(·)分别表示对Q_i和K_i在第一和第二维度进行归一化缩放。通过式(3)可知，仅有/>的内存复杂度，其中C_i＜＜N_i。在与ρ_q(Q_i)相乘后，全局语义相关单元的输出特征图G_i自动满足的归一化，即式(2)和(3)在数学等式上是一致的。总之，第一模块通过卷积和矩阵乘法操作，自动地学习每个特征点之间的长距离空间分布关系，再应用激活操作迫使网络重点关注地物特征，提高对地物特征的响应程度。考虑到残差块局部感知的特征学习能力，本发明实施例提供的地物提取模型将全局信息感知模块镶嵌至编码网络的1-4阶段，捕获特征的长距离空间关系，丰富浅层特征中的语义信息。融入了残差块和第一模块的编码网络，不仅可以快速地学习地物的浅层特征，同时也能灵敏地捕捉其全局分布关系。

请参阅图6，作为一种优选的实施方式，第二模块包括相互并联的多个扩张卷积单元、一个跳跃连接层和一个特征融合层，与每个扩张卷积单元对应的输入特征图经过不同倍数的下采样处理，与每个扩张卷积单元对应的输出特征图经过不同倍数的上采样处理，每个扩张卷积单元均包括三个依次连接的3×3的扩张卷积，三个扩张卷积的扩张率依次为1、2和3；

特征融合层用于将多个扩张卷积单元和一个跳跃连接层的输出特征图进行融合。

为获取地物的多尺度上下文信息，本发明实施例设计了如图6所示的第二模块。该第二模块包含多个扩张卷积单元和一个跳跃连接层，旨在通过多个分支捕获不同尺度特征下的上下文信息。

如图6(b)所示的单个扩张卷积单元，由扩张三个率为{1，2，3}的扩张卷积组成，定义如下：

式中，O_DCU表示扩张卷积单元的输出结果，表示扩张率为i的3×3卷积。扩张率为{1，2，3}的扩张卷积单元在不增加计算量的情况下，有效地感知11×11范围的特征区域，扩大了特征信息的感知范围。同时，如图6(a)和(b)所示，设置连续扩张率{1，2，3}的扩张卷积避免了因不恰当的扩张率引起的大量特征信息遗漏提取，缓解了级联扩张卷积的空洞效应。对于512×512的输入图像而言，不同下采样因子的地物提取模型经过编码网络会生成大小不一的特征图，包括64×64、32×32、16×16和8×8，然而单独扩张卷积单元仅能实现局部特征的聚合，仍然无法有效地感知该特征的全局空间信息。为解决此问题，本发明实施例通过下采样的方式获取特征图的全局信息。图6展示了以32×32大小的特征图为例，通过两次下采样操作将其缩放为16×16和8×8的大小，使用三个并行的扩张卷积单元分别收集地物特征的长距离信息，定义如下：

式中，DCU(·)和分别表示扩张卷积和下采样操作，k＝{1,2,3}。通过2倍和4倍的下采样，特征图的大小恰好能满足扩张卷积单元的感受范围。同时，再次分别使用2倍和4倍的双线性上采样插值将O² _DCU和O² _DCU的空间分辨率恢复与O¹ _DCU相同大小。跳跃连接层仅由一个1×1卷积组成，旨在重复使用输入特征信息，加快网络的收敛速度和特征学习效率。因此，对于经过不同下采样因子的地物提取模型的特征图，本发明实施例采取动态数量k的扩张卷积单元，通过k次下采样操作以期实现全局上下文信息的聚合。综上，本发明实施例提出的第二模块定义如下：

式中，O_MCIA表示多尺度扩张卷积模块的输出结果，||(·)表示对k个扩张卷积单元的输出结果进行融合。综上所述，第二模块针对不同空间大小的特征图，通过多次下采样和扩张卷积单元操作，实现了全局特征范围的覆盖，有效地聚合了地物特征的上下文信息。

请参阅图7，作为一种优选的实施方式，第三模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

式中，O_CFi为第i个第三模块在通道维度的融合特征图，1≤i≤N-1；GDi是对第i个浅层特征图Gi和第i+1个深层特征图Di+1在通道维度特征图；sigmoid(·)表示激活函数；Convd(·)表示卷积；AVG(·)表示平均池化；MAX(·)表示最大池化；O_SFi为第i个第三模块在空间维度的融合特征图；||(·)表示对平均池化和最大池化的输出特征图进行融合；O_CLIFi为第i个第三模块在通道维度和空间维度的融合特征图。

考虑到多次的下采样操作和重复的卷积在编码过程中以牺牲地物空间细节为代价来提取丰富的语义信息，本发明实施例在解码网络中使用逐级解码的方案在保持语义特征的同时，逐层恢复特征图的空间分辨率，以期实现像素级的精细化提取。为了消除高低层特征之间的差异性和冗余性，以及整合不同尺度的特征空间语义信息，本发明实施例提出一种顾及通道信息和空间信息的跨层特征融合的第三模块，其结构如图7所示，图7展示的不同层级特征图在通道和空间维度上存在显著性的差异和特征冗余。具体来说，该第三模块由通道维度融合单元和空间维度融合单元组成，自动地构建浅层特征和深度特征在不同维度的依赖关系，分别从通道和空间两个维度弥补跨层特征的语义差距，消除不同层级特征间的冗余性，并实现不同层级特征空间语义信息的有效融合。

给定一对对应层级的浅层特征图和深层特征图/>第三模块在通道维度合并生成/>通道维度融合单元首先通过压缩、激活和校正三个主要步骤自适应地掌握跨层特征之间的相互关系，从而在通道维度弥补跨层特征之间的语义差距。给定一个输入特征图GD_i，首先采用全局平均池化在空间维度进行压缩，生成一个通道特征向量/>然后使用二维卷积自动学习并构建跨层特征之间的通道关系，并利用sigmoid激活函数对F_i进行非线性映射，生成通道维度地物特征向量，从而在通道维度突出有益的地物特征，抑制冗余的背景噪声信息。最后，将学习到的通道维度向量与GD_i进行矩阵点乘运算，提高通道维度地物特征点的响应程度，得到通道维度融合单元的输出结果计算过程如下：

式中，AVG()表示平均池化，⊙表示矩阵点乘操作。

与通道维度融合单元类似，空间维度融合单元也分别通过压缩、激活和校正三个主要步骤，构建浅层特征和深层之间的空间上下文关系，从而在空间维度消除跨层特征之间的语义差别。对于特征图O_CF，在全局平均池化和全局最大池化的作用下生成地物空间分布的特征图并通过二维卷积捕捉地物特征的空间信息，感知不同空间位置的特征响应。然后，使用sigmoid激活函数，将特征图S_i上感受的特征信息进行非线性映，得到空间维度融合权重矩阵，使得地物特征空间位置被激活、背景信息被抑制。最后，将空间维度特征图S_i与输入特征图O_CF进行点乘，获得空间维度融合单元的输出结果/>计算公式如下：

式中，MAX(·)表示全局最大池化。

通过通道维度融合单元和空间维度融合单元，浅层特征和深层特征分别在通道和空间维度消除了跨层特征之间的语义差别，实现了不同层级特征之间的有效融合。跨层特征融合模块再应用跳跃连接层，提高网络的收敛速度以及特征学习效率，并输出最终的特征融合结果，计算公示如下：

式中，为第i个第三模块的输出结果。

从图7可以发现，在经过通道和空间两个维度的融合后，第i个第三模块的输出结果既掌握了浅层特征G_i详尽的空间细节，又保持了深层特征D_i丰富的语义信息，并突出了特征的空间表达，抑制了背景噪声信息的干扰，消除了跨层特征之间的差异性和冗余性。综上，第三模块先后在通道维度和空间维度学习跨层特征的权重互补信息，并通过矩阵点乘的方式消除不同层级特征间的语义差别，为解码网络提供更为丰富的语义信息和更为细节的空间信息。

下面介绍本发明提供的基于深度学习的地物目标提取方法的实验过程。

1、实验数据

本发明实施例使用WHU建筑物数据集、Vaihingen和Potsdam遥感语义分割数据集共同检验本模型的提取性能。

(1)WHU建筑物数据集：共有8189对、空间分辨率为0.3m、大小为512×512像元的样本影像和标签。该数据集中的屋顶颜色、形状尺寸各不相同，在建筑物提取领域具有挑战性，已成为评估模型性能的开源基准数据集。该数据集共包含4736张训练集、1036张验证集和2416张测试集。

(2)Vaihingen数据集：是一个2D遥感影像地物信息提取数据集，其空间分辨率为9厘米，共标注了背景、不透水面、建筑物、低矮植被、树木和汽车6类地物目标，被广泛应用于评估城市场景的遥感地物信息提取算法。根据官方建议，15张影像用于训练，ID2_10影像用于验证，余下17张用于测试。

(3)Potsdam数据集：包含38幅空间分辨率为5cm的正射遥感影像，其类别信息和Vaihingen数据集一致。根据官方建议，22幅用于训练，1幅验证，14幅测试，并舍弃其中错误标注的ID7_10图像。该数据集因其极高的空间分辨率和6000×6000像素大小的超大范围，及其考验模型的地物提取性能和泛化能力。

2、实验细节

在训练过程中，采用初始学习率为0.0001的AdamW优化器，设置重量衰减值为0.0025以及批大小为16，并通过两台NVIDIA GTX 2080TI GPUs加快训练速度。输入图像的大小限制在512×512像元，其中Vaihingen的训练样本均被无缝裁剪。采用随机垂直翻转、水平翻转、随机缩放和随机裁剪等数据增强方法避免过拟合问题。在测试中，使用多尺度推理技术得到平均概率提取结果。

3、评估指标

采用总体精度(Overall Accuracy，OA)、精确率(Precision，P)、召回率(recall，R)、F1分数(F1-score，F1)和交并比(Intersection Over Union，IOU)综合评估地物提取模型在不同数据集上的性能。

4、实验结果

为验证不同空间分辨率的遥感影像和初始层下采样因子对提取精度的影响，本发明实施例在WHU、Vaihingen和Potsdam进行了对比实验，探讨了不同空间分辨率下的最优的下采样因子。此外，为突显本发明实施例提供的地物提取模型的提取性能，本发明实施例选取了一些经典的语义分割模型和SOTA模型，定性分析提取结果和定量评估提取精度。

4.1、不同初始层下采样对模型性能影响

本发明实施例基于两种提取模型和三个不同空间分辨率数据集，旨在探索不同空间分辨率下初始层的最优空间采样因子。如表1所示，在空间分辨率为0.3米的WHU数据集上，无论是LinkNet还是本模型，都具有相似的现象：在采用0.5倍的空间采样因子取得了最优的建筑物提取精度。然而，随着采样因子逐渐减小，导致两种提取模型均不能有效地学习建筑物的空间细节信息，致使最终的F1分数和IOU不断降低。此外，1.0倍采样因子的提取精度小于0.5倍采样因子，其原因是较高空间分辨率的遥感影像信尽管具有详尽的空间细节，但大量的背景噪声信息使得提取模型在固定像元大小影像中可接受有益的信息量显著下降。不同于WHU数据集，在空间分辨率为5cm的Vinhaigen和空间分辨率为9cm的Potsdam数据集上，0.25倍采样因子取得了最优的F1分数和IOU。主要原因是对于空间分辨率非常高的遥感影像，0.25倍采样因子依然保留了地物的空间细节信息，同时也减轻了过多背景噪声信息的干扰。从1.0倍、0.5倍和0.125倍采样因子的评估结果来看，过高或过低的下采样要么导致大量的背景噪声干扰提取模型的地物特征学习效果，要么致使提取模型难以定位地物的空间边缘位置，使得最终的提取精度较差。

通过初始层不同空间因子在不同空间分辨率数据集上的实验和分析，本发明实施例认为：(1)空间采样因子需要顾及输入影像的空间分辨率。例如，三种不同空间分辨率的数据集有着不同的空间采样因子，一方面有效地解决了空间细节信息丢失而导致提取精度差的问题，另一方面合理的采样因子降低了提取模型的计算资源的过度消耗。(2)输入影像的空间分辨率越高，越有利于减小空间采样因子。在WHU数据集上，使用0.5倍空间采样因子的本发明实施例提供的地物提取模型比1.0倍的F1分数和IOU分别提高了0.79％和1.43％；在Vaihingen和Potsdam数据集上，0.25倍的本发明实施例提供的地物提取模型(下称本模型)和0.25倍空间采样因子的提取精度相当，但前者消耗的计算资源较低，有利于进行大面积的遥感影像地物提取。(3)在三种数据集上确定的最优空间采样因子可以推广至其它地物提取模型的骨干网络。从LinkNet提取模型的评估结果可以发现，其不同空间采样因子的变换趋势与本模型大体一致，这表明在其它提取模型也有着相似的结果。

表1

4.2、WHU数据集

表2定量地评估了经典语义分割模型和SOAT模型在WHU建筑物数据集上提取精度。由表可知，与经典语义分割模型相比，本发明实施例提出的本模型在OA、P、R、F1分数和IOU指标均取得了较好的结果。与U-Net相比，本模型通过全局信息感知、多尺度扩张卷积和跨层特征融合模块，F1分数和IOU分别提高了0.95％和1.65％，表明每个模块均能有效提升建筑物提取性能。同时也可以发现，初始层无下采样的U-Net各项评价指标均高于采用初始层4倍下采样的BiSeNet、LinkNet、D-LinkNet和DeepLabV3，进一步证明了初始层过度下采样方式会丢失大量的空间细节信息，导致提取精度降低。也从侧面也反映了本模型减少初始层过度下采样的合理性。此外，采用Swin-T编码网络的本模型具备了良好的建筑物提取性能，其F1分数和IOU分别拔高至95.72％和91.80％。

表2

4.3、Vaihingen数据集

表3展示了多个提取模型在Vaihingen数据集上的精度对比。由表3可知，相比于复杂设计和需要额外使用DSM辅助数据的网络，本模型仅采用简单的主干特征提取网络和单一的正射遥感影像，在不透水表面、汽车和平均F1分数上取得了较好的精度。在建筑物F1分数上，以ResNet34为主干网络的本模型与以ResNet101为主干网络的EaNet仅相差0.2％，表明融合了全局信息感知、多尺度扩张卷积和跨层特征融合模块的简单网络能够实现复杂网络所具备的提取性能。特别地，在较难处理的小目标汽车类别中，本发明实施例将F1分数拔高至90.9％，远超于其它方法。这表明本模型对于像素占比少、尺度较小的汽车具有较高的提取性能和空间定位能力。同时，基于Swin-T编码的本模型表现出与ResNet34相当的提取精度，表明融入了第一模块和第二模块的编码网络具备良好的全局上下文信息捕捉性能，提高了地物提取的精度。

表3

4.4、Potsdam数据集

为了综合评价本模型的性能，本发明实施例在Postdam数据集上进行了地物提取实验。如表4所示，本模型获得了92.9％的F1分数和87.0％的IOU，不仅超过了目前优秀的EaNet和LANet，而且也优于最近基于Transformer的地物提取网络，如SwinTF和CTMFNet。这表明本发明实施例仅通过简单的主干网络，实现了超越复杂网络的提取精度，表现出较好的地物提取性能。此外，本模型针对不同尺度大小的地物，如建筑物和汽车，取得了较好的F1分数，分别达到97.0％和96.3％。这表明本模型有效地兼顾不同形状大小和空间尺度的地物对象，表现出较强的多尺度上下文信息聚合能力。尤其是在难处理的汽车类别上，本模型减少了初始层的下采样次数，降低了空间信息的过度丢失，提供了较为精细的地物细节，取得了最优的F1分数。与Vaihingen数据集类似，ResNet与Swin-T的提取精度相当，进一步说明融合了第一模块和第二模块的编码网络具备良好地全局信息感知和多尺度上下文聚合能力。

表4

5、消融实验(GFLOPs、Parameter和Speed均在3×512×512张量上计算，B、R、G、M分别表示BaseLine、ResNet、第一模块和第二模块)

为评估和验证本模型模型中每个组件的有效性，本发明实施例在WHU建筑物数据集上进行多组消融实验，通过F1分数和IOU两个指标对比分析，并报道了它们之间的GFLOPs、Parameter和Speed。表5的第1组实验展示了每个组件逐次添加后的精度变化，其中采用U-Net为基线模型。由表可知，随着不同模块依次添加后，F1分数和IOU精度呈现逐渐上升趋势，表明每个模块均能有效提升模型性能。使用ResNet34作为主干网络，相比基线模型其F1分数和IOU分别提升了0.51％和0.92％，表明残差学习网络能够提升模型的建筑物特征学习能力。融合了第一模块的编码网络增强了对建筑物特征的长距离感知能力，使得F1分数和IOU分别提高了0.17％和0.4％。融合了第二模块的解码网络将IOU从91.07％提升了91.18％，表明该第二模块改善了建筑物提取结果完整性。在F1分数和IOU方面，融合了第三模块的解码网络带来了0.22％和0.42％的精度增益，这表明第三模块具有较好地跨层特征融合能力，使得模型获得了更好的准确性。

第2组实验将第二模块与PPM、ASPP、2.4节中DCU等多种多尺度信息聚合方案进行对比分析。由表可知，尽管PPM利用极少的参数和较小的GFLOPs获取了建筑物特征的全局信息，但带来的性能增益明显不足。从(b)和(c)两种扩张卷积单元的精度评估可知，设置不恰当的扩张率会降低模型的提取精度。由扩张卷积和简单池化层构成的ASPP捕获了更密集的全局上下文关系，但其性能有待提升。相比之下，多尺度扩张卷积单元既通过多个下采样操作获得不同大小的特征图，感受不同形状大小的建筑物全局信息，又利用连续扩张率的扩张卷积构建上下文关系，捕捉不同尺度的建筑物上下文信息，在应对形状频繁变化、尺度不一的建筑物具有显著优势。

第3组实验验证了第三模块的有效性。特征相加和通道叠加这两种简单的融合方式，其F1分数和IOU表现较差。主要原因是简单的融合方式忽视了浅层特征和深层特征之间的语义差别，以及潜在的地物特征冗余信息。因此，本发明实施例设计了跨层特征融合模块，先后在通道和空间两个维度消除浅层特征和深层特征之间的语义差别，实现跨层特征的有效融合。此外，通道维度融合单元和空间维度融合单元均提升了提取精度。其中空间维度融合单元的精度提升较大，表明浅层特征和深层特征在空间维度具有较大的语义差别。本发明实施例将通道维度融合单元和空间维度融合单元相结合，从浅层特征和深层特征中自主地学习通道和空间关系，自适应地获取两者之间的互补信息，既利用了浅层特征更为细致的空间信息，又结合了深层特征更为丰富的语义信息，提高了建筑物提取的精度。

表5

/>

6、结论

本发明实施例提出了一种可用于高分辨遥感影像地物提取模型，创新性设计的第一模块、第二模块和第三模块可以有效、全面地学习了地物特征，提升了网络的提取性能和精度。在实验上，三个不同空间分辨率数据集的实验表明，采用了最优空间采样因子的本模型，既避免了空间信息的过度丢失，又精确高效地获取了地物信息。此外，实验结果还表明空间分辨率越高，越有利于初始层空间采样。具体而言，WHU数据集的最优空间采样因子为0.5，而Vaihingen和Potsdam数据集的最优空间采样因子为0.25。消融实验的验证实验可以表明，第一模块自主地学习每个特征点之间的长距离空间分布关系，重点突出了地物特征表达；第二模块单元根据扩张率动态地改变感受野，捕获了建筑物特征更加丰富的全局信息和上下文信息；第三模块自适应学习浅层特征和深层特征之间互补信息，从通道和空间两个维度实现跨层特征的有效融合。

综上，本发明提出的地物目标提取方法是一种提取精度高、效果好的地物提取方法，主要贡献如下：

1)提出一种顾及空间采样的全局感知和跨层融合的地物提取模型，具有良好的地物提取性能；

2)针对不同空间分辨率的输入数据，确定了输入图像的最优空间采样因子，其中WHU数据集最优空间采样因子为0.5，Vaihingen和Potsdam数据集最优空间采样因子为0.25；

3)构建的第一模块可以自主地学习地物特征的空间分布关系，提高对地物特征的注意程度和提取精度；针对遥感影像中形状频繁变化、尺度不一的特点，构建的第二模块可以捕获更加丰富的多尺度地物全局和上下文信息；构建的第三模块考虑了浅层特征和深层特征之间的语义差别，消除地物特征信息之间的冗余，较好地实现了跨层特征的有效融合。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，本发明提供了一种基于深度学习的地物目标提取装置。图2示出根据一个实施例的基于深度学习的地物目标提取装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图2所示，该装置包括：获取单元200、采样单元202和提取单元204。其中各组成单元的主要功能如下：

获取单元200，用于获取待提取的第一遥感影像；

采样单元202，用于基于第一遥感影像的空间分辨率，确定目标采样因子，以利用目标采样因子对第一遥感影像进行空间采样；

提取单元204，用于将空间采样得到的第二遥感影像输入到训练好的地物提取模型中，得到第一遥感影像的地物目标提取结果；其中，地物提取模型是利用标签遥感影像对预设的深度学习网络进行训练得到的；

深度学习网络包括：

作为一种优选的实施方式，第一模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

G_i＝ρ_q(Q_i)ρ_k(K_i)^TV_i

作为一种优选的实施方式，第二模块包括相互并联的多个扩张卷积单元、一个跳跃连接层和一个特征融合层，与每个扩张卷积单元对应的输入特征图经过不同倍数的下采样处理，与每个扩张卷积单元对应的输出特征图经过不同倍数的上采样处理，每个扩张卷积单元均包括三个依次连接的3×3的扩张卷积，三个扩张卷积的扩张率依次为1、2和3；

作为一种优选的实施方式，第三模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

/>

式中，O_CFi为第i个第三模块在通道维度的融合特征图，1≤i≤N-1；GD_i是对第i个浅层特征图G_i和第i+1个深层特征图D_i+1在通道维度特征图；⊙表示矩阵点乘；sigmoid(·)表示激活函数；Convd(·)表示卷积；AVG(·)表示平均池化；MAX(·)表示最大池化；O_SFi为第i个第三模块在空间维度的融合特征图；||(·)表示对平均池化和最大池化的输出特征图进行融合；O_CLIFi为第i个第三模块在通道维度和空间维度的融合特征图。

作为一种优选的实施方式，采样单元在执行利用目标采样因子对第一遥感影像进行空间采样时，用于执行如下操作：

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图1所描述的方法。

根据再一方面的实施例，还提供一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图1所述的方法。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于深度学习的地物目标提取方法，其特征在于，包括：

获取待提取的第一遥感影像；

所述深度学习网络包括：

2.根据权利要求1所述的方法，其特征在于，所述第一模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

G_i＝ρ_q(Q_i)ρ_k(K_i)^TV_i

式中，E_i为第i个所述编码模块生成的浅层特征图，1≤i≤N；R表示向量空间；C_i、H_i和W_i分别为E_i的通道数、高度和宽度；Q_i、K_i和V_i分别为Ei与1×1卷积生成的特征向量；Convd(·)表示卷积；G_i为第i个所述第一模块生成的浅层特征图；p_q(·)和p_k(·)分别表示Q_i和K_i的归一化缩放。

3.根据权利要求1所述的方法，其特征在于，所述第二模块包括相互并联的多个扩张卷积单元、一个跳跃连接层和一个特征融合层，与每个所述扩张卷积单元对应的输入特征图经过不同倍数的下采样处理，与每个所述扩张卷积单元对应的输出特征图经过不同倍数的上采样处理，每个所述扩张卷积单元均包括三个依次连接的3×3的扩张卷积，三个所述扩张卷积的扩张率依次为1、2和3；

所述特征融合层用于将多个所述扩张卷积单元和一个所述跳跃连接层的输出特征图进行融合。

4.根据权利要求1所述的方法，其特征在于，所述第三模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

式中，O_CFi为第i个所述第三模块在通道维度的融合特征图，1≤i≤N-1；GD_i是对第i个浅层特征图G_i和第i+1个深层特征图D_i+1在通道维度特征图；表示矩阵点乘；sigmoid(·)表示激活函数；Convd(·)表示卷积；AVG(·)表示平均池化；MAX(·)表示最大池化；O_SFi为第i个所述第三模块在空间维度的融合特征图；()表示对平均池化和最大池化的输出特征图进行融合；O_CLIFi为第i个所述第三模块在通道维度和空间维度的融合特征图。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述利用所述目标采样因子对所述第一遥感影像进行空间采样，包括：

在所述目标采样因子为1时，将所述第一遥感影像依次输入到步长为1的7×7卷积层、BN层和Relu层，以完成对所述第一遥感影像的空间采样；

在所述目标采样因子为0.5时，将所述第一遥感影像依次输入到步长为2的7×7卷积层、BN层和Relu层，以完成对所述第一遥感影像的空间采样；

在所述目标采样因子为0.25时，将所述第一遥感影像依次输入到步长为2的7×7卷积层、BN层、Relu层和最大池化层，以完成对所述第一遥感影像的空间采样；

在所述目标采样因子为0.125时，将所述第一遥感影像依次输入到步长为1的7×7卷积层、BN层、Relu层、最大池化层和步长为2的3×3卷积层，以完成对所述第一遥感影像的空间采样。

6.一种基于深度学习的地物目标提取装置，其特征在于，包括：

获取单元，用于获取待提取的第一遥感影像；

所述深度学习网络包括：

7.根据权利要求6所述的装置，其特征在于，所述第一模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

G_i＝ρ_q(Q_i)ρ_k(K_i)^TV_i

8.根据权利要求6所述的装置，其特征在于，所述第二模块包括相互并联的多个扩张卷积单元、一个跳跃连接层和一个特征融合层，与每个所述扩张卷积单元对应的输入特征图经过不同倍数的下采样处理，与每个所述扩张卷积单元对应的输出特征图经过不同倍数的上采样处理，每个所述扩张卷积单元均包括三个依次连接的3×3的扩张卷积，三个所述扩张卷积的扩张率依次为1、2和3；

9.根据权利要求6所述的装置，其特征在于，所述第三模块是通过采用如下公式实现获取每个地物特征点之间的长距离空间分布关系的：

式中，O_CFi为第i个所述第三模块在通道维度的融合特征图，1≤i≤N-1；GD_i是对第i个浅层特征图G_i和第i+1个深层特征图D_i+1在通道维度特征图；sigmoid(·)表示激活函数；Convd(·)表示卷积；AVG(·)表示平均池化；MAX(·)表示最大池化；O_SFi为第i个所述第三模块在空间维度的融合特征图；()表示对平均池化和最大池化的输出特征图进行融合；O_CLIFi为第i个所述第三模块在通道维度和空间维度的融合特征图。

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述采样单元在执行所述利用所述目标采样因子对所述第一遥感影像进行空间采样时，用于执行如下操作：