CN115345866A

CN115345866A - 一种遥感影像中建筑物提取方法、电子设备及存储介质

Info

Publication number: CN115345866A
Application number: CN202211022326.5A
Authority: CN
Inventors: 王勇
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-15
Anticipated expiration: 2042-08-25
Also published as: CN115345866B

Abstract

本发明涉及一种遥感影像中建筑物提取方法、电子设备及存储介质，属于卫星遥感领域。该方法构建的建筑物提取网络在编码部分引入全局信息感知模块构建了建筑特征的空间分布关系，采用多尺度扩张卷积模块捕获了更大感受范围的多尺度上下文信息；在解码部分利用跨层特征融合模块实现了空间细节和语义信息的有效结合。实验表明，本发明构建的建筑物提取网络仅通过简单的网络框架表现出优异的性能，既能较好地提取不同场景下的建筑物，又能高效地识别多类别的地物信息，极大提高了遥感影像中建筑物信息提取效率和精度。

Description

一种遥感影像中建筑物提取方法、电子设备及存储介质

技术领域

本发明涉及卫星遥感技术领域，特别是涉及一种遥感影像中建筑物提取方法、电子设备及存储介质。

背景技术

随着卫星遥感技术的快速发展，大量可获取的高分辨率遥感影像提供了空间细节十分丰富的光谱和纹理特征，从中解译的地物类别信息(如建筑物)在城市三维地图、自然灾害管理和土地变化检测等领域扮演着重要角色。然而，遥感影像中建筑物表现出不同的形状大小和屋顶颜色，以及诸如树木阴影等复杂背景噪声的影响，给建筑物提取工作带来了巨大的挑战。同时，传统目视解译或半自动方法不仅费时费力，而且严重依赖手工构造特征，难以在复杂场景大规模的应用。因此，如何高精度、自动化地获取高分辨率遥感影像中的建筑物信息是当前研究的热点之一。

近年来，基于深度学习的卷积神经网络(Convolutional Neural Networks,CNNs)，因其强大的图像处理和特征学习能力，在具有挑战性的地物目标识别和可行性预测领域表现出良好的性能，如目标对象检测、遥感图像语义分割和滑坡易发性制图等。由卷积层和激活函数组成的CNNs，在数据驱动的支持下，敏锐地捕捉遥感影像中建筑物的空间信息，具有局部感知和参数共享的优点。通过增加CNNs的卷积层数和网络深度，DCNNs具备了更强的层次特征挖掘能力和抽象的语义信息理解能力。基于端到端的DCNNs不需要额外的手工特征筛选工程，仅通过原始的影像数据自主地学习并构建不同地物的几何形状和空间纹理特征，能够灵活地适应不同的应用场景。尤其是以全卷积神经网络(FullyConvolutional Network,FCN)和U-Net为代表的DCNNs，被证明了在遥感影像中像素级别地物分类的有效性，已成为自动化、高性能的建筑物提取主流方法之一。

然而，由于高分辨率遥感影像中建筑物的特殊性，在以往基于DCNNs的建筑物提取方法仍存在以下挑战：

(1)基于端到端的DCNNs通过堆叠的卷积获取建筑物丰富的语义信息，但过深的网络并不容易训练，甚至会导致模型性能退化。为克服这个问题，残差学习思想被提出，通过快捷连接的方式提高了模型的训练速度以及建筑物特征学习的效率。然而，融合了残差学习单元的DCNNs实质上仍是利用标准卷积感知卷积核内部的局部信息，忽视了遥感影像中建筑物空间分布特点，对全局信息的掌控能力较弱。同时，由于标准卷积的局限性以及树木和建筑物阴影等背景噪声的影响，局部感知的语义信息很难完全反映建筑物的整个空间特征，往往会导致提取结果出现错误识别的情况。

(2)在高分辨率遥感影像中，建筑物的形状规则和尺度大小频繁变化。对于标准卷积而言，其固定大小的感受野无法同时兼顾不同形状尺度的建筑物特征信息，严重限制了DCNNs的语义信息学习能力。然而，扩张卷积根据扩张率，可以动态地改变卷积核感受野的大小，在不增加参数和计算复杂度的情况下感受更大范围的特征区域，赋予网络更加丰富的上下文信息。例如，ASPP通过构建不同扩张率的扩张卷积增大感受野，既关注了较小尺度建筑物的空间位置，又掌握了较大尺度建筑物更多的语义信息。因此，通过扩大感受野的扩张卷积逐渐成为解决建筑物多尺度变化的方案之一。但是由于设计不恰当的感受野大小以及扩张卷积本身的空洞效应，现有的方案难以完整地捕获遥感影像中建筑物特征的全局上下文信息。

(3)同时保持空间细节信息和特征语义信息对于高分辨率遥感影像的地物类别信息提取至关重要。DCNNs从高分辨率遥感影像中所提取的浅层特征具有详细的空间边缘信息，但语义信息较弱；随着网络深度的增加，DCNNs获取的深层特征包含丰富的语义信息，而空间细节被丢失。针对这个问题，常见的解决方案侧重于选择跳跃连接的方式，如U-Net中通道叠加和LinkNet中像素相加。然而，这种简单的特征融合方式并没有考虑浅层和深层特征在空间细节和语义信息之间的显著差异。因此，需要一种必要的跨层特征校正融合方法提高网络的空间定位精度和特征表示能力。

(4)DCNNs中重复的下采样操作降低了特征图的空间分辨率，丢失了原始遥感影像中大量的建筑物空间信息。虽然可以利用反卷积或双线性插值恢复空间分辨率，但这种特征学习和邻近像素相关的上采样方式仍然不能完全地还原。已有研究表明，移除DCNNs的最后几个下采样算子可避免特征信息的过度丢失，提高网络的识别性能。但对于高分辨遥感影像而言，建筑物空间细节信息的丢失在初始层的步长卷积和最大池化就已经发生了。值得注意的是，当LinkNet移除了ResNet中初始层的最大池化操作，其精度得到了极大的提升。这表明对于高分辨率遥感影像的建筑物提取，初始层的下采样操作需要慎重考虑。

基于以上原因，传统基于DCNNs的建筑物提取方法普遍存在高分辨率遥感影像中建筑物信息提取精度和效率低，甚至出现错误识别的问题。

发明内容

为解决或至少缓解上述问题，本发明提出一种遥感影像中建筑物提取方法、电子设备及存储介质，以提高遥感影像中建筑物信息提取效率和精度。

为实现上述目的，本发明提供了如下方案：

一方面，本发明提供一种遥感影像中建筑物提取方法，包括：

构建建筑物提取网络；所述建筑物提取网络包括编码器和解码器；所述编码器包括7×7卷积模块、编码模块、全局信息感知模块以及多尺度扩张卷积模块；所述解码器包括三个层级，每个层级均包括1×1卷积和上采样模块、跨层特征融合模块和解码模块，第三个层级中解码模块后面还包括一个1×1卷积和上采样模块；

采用建筑物的遥感影像样本集对所述建筑物提取网络进行训练，生成训练好的建筑物提取网络；

采用所述训练好的建筑物提取网络提取待检测遥感影像中的建筑物信息。

可选地，所述编码模块包括多个残差块，每个所述残差块包括3×3卷积层、批量归一化层、整流线性单元激活函数以及快捷连接层。

可选地，所述全局信息感知模块包括：1×1卷积单元、全局信息注意力特征图生成单元、特征图生成单元以及特征图输出单元；

所述1×1卷积单元用于根据输入特征图x∈R^C×H×W，基于公式

生成特征图E、F、G；其中C、H和W分别表示通道数、高和宽；E^C×H×W表示C×H×W大小的特征空间；M为降维后的通道数；R^M×H×H表示M×H×W大小的特征空间；

表示1×1卷积操作；

所述全局信息注意力特征图生成单元用于根据所述特征图E、F，基于公式A＝f_m(softmax(E)，F^T)生成全局信息注意力特征图A；其中f_m(·)表示矩阵点乘操作；T表示矩阵乘法运算必要的维度变化；softmax(·)表示归一化指数函数；

所述特征图生成单元用于根据所述全局信息注意力特征图A和所述特征图G，基于公式y＝f_m(A，softmax(G^T))生成特征图y∈R^M×H×W；

所述特征图输出单元用于利用1×1卷积层将特征图y的通道数M还原至C，获得全局信息感知模块的输出特征图x_DCU。

可选地，所述多尺度扩张卷积模块包括：三个扩张卷积单元和一个快捷连接层；

所述三个扩张卷积单元用于根据所述全局信息感知模块的输出特征图x_DCU，基于公式

生成三个扩张卷积单元的输出特征图；其中

表示第i个扩张卷积单元的输出特征图，i∈{1,2,3}；

表示第i个扩张卷积单元的卷积操作；

表示双线性下采样2倍操作；

表示双线性下采样4倍操作；

和

分别表示大小为

和

的特征空间；

所述快捷连接层用于根据公式

生成所述多尺度扩张卷积模块的输出特征图O_MDCU；其中

表示双线性向上插值2倍操作；

表示双线性向上插值4倍操作；[·]表示特征图在通道维度上的拼接操作。

可选地，所述跨层特征融合模块包括：通道拼接单元、通道注意力校正融合单元、空间注意力校正融合单元和快捷连接单元；

所述通道拼接单元用于根据所述编码器输出的浅层特征图x_low以及所述1×1卷积和上采样模块输出的深层特征图x_high，基于公式x_cat＝[x_low，x_high]生成拼接后特征图x_cat；[·]表示特征图在通道维度上的拼接操作；

所述通道注意力校正融合单元用于根据所述拼接后特征图x_cat，基于公式

生成通道注意力校正后特征图z；其中

表示平均池化操作，s为通道注意力校正向量，σ(·)表示sigmoid激活函数，f_conv1d(·)表示一维卷积操作；f_m(·)表示点乘操作；

所述空间注意力校正融合单元用于根据所述通道注意力校正后特征图z，基于公式

生成空间注意力校正后特征图O_SA；其中

表示全局最大池化操作，t为空间注意力特征图，f_conv2d(·)表示二维卷积操作；

所述快捷连接单元用于根据公式O_CLFF＝x_cat+O_SA生成所述跨层特征融合模块输出的跨层特征融合后特征图O_CLFF。

可选地，所述建筑物提取网络在训练过程中使用的多重损失函数为

其中L_total为总损失值；L_seg为交叉熵损失值；L_Di为所述解码器中第i个解码模块的损失值；权重参数λ_i∈{0.2，0.6}；L_aux为辅助损失值。

另一方面，本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的遥感影像中建筑物提取方法。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现所述的遥感影像中建筑物提取方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种遥感影像中建筑物提取方法、电子设备及存储介质，本发明方法构建的建筑物提取网络在编码部分引入全局信息感知模块构建了建筑特征的空间分布关系，采用多尺度扩张卷积模块捕获了更大感受范围的多尺度上下文信息；在解码部分利用跨层特征融合模块实现了空间细节和语义信息的有效结合。实验表明，本发明构建的建筑物提取网络仅通过简单的网络框架表现出优异的性能，既能较好地提取不同场景下的建筑物，又能高效地识别多类别的地物信息，极大提高了遥感影像中建筑物信息提取效率和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的遥感影像中建筑物提取方法的流程图；

图2为本发明实施例提供的建筑物提取网络的整体架构示意图；

图3为本发明实施例提供的编码器整体架构及工作流程示意图；

图4为本发明实施例提供的三个叠加的3×3扩张卷积的感受野示意图，其中扩张率均为2；

图5为本发明实施例提供的三个叠加的3×3扩张卷积的感受野示意图，其中扩张率为{1,2,3}；

图6为本发明实施例提供的多尺度扩张卷积模块的结构及工作流程示意图；

图7为本发明实施例提供的单个扩张卷积单元的结构及工作流程示意图；

图8为本发明实施例提供的跨层特征融合模块的结构及工作流程示意图；

图9为本发明实施例提供的多重损失函数的应用示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种遥感影像中建筑物提取方法，以提高遥感影像中建筑物信息提取效率和精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的遥感影像中建筑物提取方法的流程图。参见图1，本发明一种遥感影像中建筑物提取方法，具体包括：

步骤1：构建建筑物提取网络；所述建筑物提取网络包括编码器和解码器；所述编码器包括7×7卷积模块、编码模块、全局信息感知模块以及多尺度扩张卷积模块；所述解码器包括三个层级，每个层级均包括1×1卷积和上采样模块、跨层特征融合模块和解码模块，第三个层级中解码模块后面还包括一个1×1卷积和上采样模块。

图2为本发明实施例提供的建筑物提取网络的整体架构示意图。参见图2，本发明构建的建筑物提取网络GC-Net包括编码器和解码器两个主要部分。在编码器部分，输入的遥感影像(即输入图像)经过7×7大小、步长为2的卷积，缩减特征图的宽高维度，从而降低模型的计算复杂度；经过编码模块中四个堆叠的残差块和全局信息感知模块(GlobalInformation Awareness Module,GIAM)，用于提取建筑物的纹理、几何和空间等相关特征，并重点关注建筑物区域，消除噪声区域(如树木和建筑物阴影遮挡)的干扰，共生成四个不同空间分辨率的浅层特征；在7×7卷积模块、编码模块和全局信息感知模块处理后，多尺度扩张卷积模块(Multi-Scale Dilated Convolution Module,MDCU)通过不同扩张率和空间尺度的扩张卷积进一步获取建筑物的全局上下文语义信息。

解码器共分为三个层级，每个层级均包括1×1卷积和上采样模块、跨层特征融合(Cross-Layer Feature Fusion，CLFF)模块和解码模块三部分。在每个层级中，首先利用1×1卷积和上采样将特征图上采样两倍，恢复特征的空间分辨率；其次使用跨层特征融合模块，以跳跃连接的方式，将编码器中相同空间分辨率的浅层特征和上采样的深层特征进行融合，既结合了前者详细的空间信息，又利用了后者丰富的语义信息；最后通过由两个3×3卷积构成的解码模块，进一步提取建筑物的相关特征并恢复建筑物的细节信息。在最后的层级中，再次利用上采样生成最终的建筑物提取结果图(也称预测结果图)。值得注意的是，第一层级的输入特征是多尺度扩张卷积模块的输出特征，第二、三层级的输入特征分别是第一、二层级输出。

图3为本发明实施例提供的编码器整体架构及工作流程示意图。GC-Net采用ResNet34作为编码器的骨干提取网络，用于获取建筑物的语义信息，其编码模块由ResNet34四个不同数量的残差块组成，详见图3；编码器还包括全局信息感知模块、多尺度扩张卷积模块。编码器从初始层开始建筑物的特征提取工作。为避免过度下采样操作导致的建筑物空间细节信息大量丢失，只保留ResNet34初始层7×7、步长为2的卷积，并舍去了最大池化层，然后由不同数量残差块构建的四层卷积生成浅层特征。

图3中间示出了编码模块、全局信息感知模块以及多尺度扩张卷积模块的连接示意图，所述编码模块包括多个残差块，其中其中3×残差块表示有3个残差块，以此类推。图3左侧示出了编码模块中残差块的结构示意图，所述残差块包括3×3卷积层、批量归一化层BN、整流线性单元激活函数ReLU以及快捷连接层。图3右侧示出了编码器中全局信息感知模块的结构示意图，其中reshape、transpose和softmax分别表示维度变换、维度调换和归一化指数函数。

参见图3，编码器共包括5个阶段，其中阶段0由所述7×7卷积模块实现，主要由7×7大小、步长为2的卷积构成，阶段1-4由编码模块中不等的残差块和一个全局信息感知模块GIAM(图中简写为G)组成，输出的特征图作为多尺度扩张卷积模块MDCU的输入。在阶段1-4中，残差块利用两次3×3卷积提取建筑物的相关特征，并通过快捷连接恒等映射的方式提高网络模型的训练速度和收敛稳定性；全局信息感知模块首先分别利用1×1卷积生成E、F、G三个特征图，其次通过E和F特征图的维度变换、维度调换、归一化操作、矩阵点乘操作生成全局信息注意力图，并与G特征图相乘使得建筑物信息被重点关注，最后通过1×1卷积输出特征图；全局信息感知模块输出的特征图和残差块输出的特征进行矩阵相加操作，输出特征图x_DCU，完成了阶段1-4的建筑物特征信息提取工作。

在每组卷积结束之后，全局信息感知模块重点收集并感知远程的建筑物特征分布关系，进一步突出建筑物特征的空间信息；全局信息感知模块(Global InformationAwareness Network,GLAN)通过降维、点乘、激活和升维操作，自动地获取每个特征点之间的长距离关系，完成全局空间信息的有效整合。输入特征x∈R^C×H×W分别通过三个1×1卷积，在通道维度进行降维操作，计算过程定义如下：

其中，x∈R^C×H×W是全局信息感知模块的输入特征，在阶段1-4中每个全局信息感知模块的输入，均来自于该阶段残差块输出的特征图。式中，

表示1×1卷积，E、F、G表示1×1卷积输出的三个特征图；M、H和W分别表示通道数、高和宽。在1×1卷积后，输入特征x∈R^C×H×W的通道数C被降到M，减少后续矩阵相乘的计算复杂度。

在以上降维操作后，输入特征图的通道数C被减少到M，降低了计算复杂度。当特征图E和F获取之后，通过点乘操作生成全局信息注意力特征图A∈R^M×W，定义如下：

A＝f_m(softmax(E)，F^T) (2)

式中，f_m(·)表示矩阵点乘操作，T表示矩阵乘法运算必要的维度变化，softmax(·)表示归一化指数函数，R^M×M表示M×M大小的特征空间。经过卷积和点乘操作得到的特征图A，自动地构建了建筑物特征点之间的长距离关系，有效地表达了特征的全局语义信息。将得到的注意力特征图A与特征图G先后通过softmax层和点乘操作后，使得建筑物特征被激活，而其他无关的信息被抑制，该过程定义如下：

y＝f_m(A，softmax(G^T)) (3)

式中，y∈R^M×H×W表示输出结果。最后，再次利用1×1卷积将特征图y的通道数M还原至C，获得最终的全局信息输出。综上所述，全局信息感知模块通过卷积和点乘操作，自动地学习每个特征点之间的空间分布关系，再应用激活操作迫使网络重点关注建筑物特征，同时也抑制了背景信息的干扰。

因此，所述全局信息感知模块包括：1×1卷积单元、全局信息注意力特征图生成单元、特征图生成单元以及特征图输出单元；

所述1×1卷积单元用于根据输入特征图x∈R^C×H×W，基于公式

生成特征图E、F、G；其中C、H和W分别表示通道数、高和宽；R^C×H×W表示C×H×W大小的特征空间；M为降维后的通道数；R^M×H×H表示M×H×W大小的特征空间；

表示1×1卷积操作；

此处特征图x_DCU是全局信息感知模块的输出结果，将与该阶段的残差块输出特征图进行相加操作。全局信息感知模块的输出结果可以有效地关注建筑物的空间信息，消除树木、阴影等噪声的影响。

考虑到残差块高效的特征学习能力以及局部感知的缺点，本发明将全局信息感知模块G镶嵌至编码器的1-4阶段，捕获建筑物特征远距离的空间关系，丰富浅层特征中的语义信息。集成了残差块和全局信息感知模块的编码器，不仅可以快速地学习建筑物的潜在特征，同时也能灵敏地捕捉建筑物的全局分布特征，在局部特征学习和全局信息感知取得了较好的平衡。

编码器最终生成的是32×32像元的特征图，凝聚了遥感影像中建筑物的语义信息。因而在编码器的底端设计了多尺度扩张卷积模块(MDCU)，通过多个级联的扩张卷积感知不同范围的特征信息，获取多尺度的全局上下文语义信息。图4示出了三个叠加的3×3扩张卷积的感受野，其中扩张率均为2；图5示出了三个叠加的3×3扩张卷积的感受野，其中扩张率为{1,2,3}；图4和图5中的灰点表示参加卷积计算的特征点，灰度深浅表征参与次数。

图6示出了本发明多尺度扩张卷积模块的结构及工作流程示意图。参见图6，该多尺度扩张卷积模块包含三个扩张卷积单元和一个快捷连接层，旨在通过多个分支捕获不同尺度特征下的上下文信息，其中1/2和2、1/4和4表示特征图空间分辨率变化的倍数。图7所示的单个扩张卷积单元，由三个扩张率为{1，2，3}的扩张卷积组成，一方面提高了特征的感受野，同时也避免了扩张卷积自身的空洞效应。扩张卷积单元定义如下：

式中，O_DCU表示扩张卷积单元的输出结果，

表示扩张率为i的3×3扩张卷积；x_DCU表示维度为R^C×H×W的输入特征，即上述阶段4的输出特征。

多尺度扩张卷积模块包括3个扩张卷积单元和一个快捷连接层，其输入为编码器阶段4的输出特征图x_DCU。扩张卷积单元(DCU)采用3次连续但不同扩张率的3×3卷积，进一步感受输入特征图的全局语义信息。然而单一的扩张卷积单元的感受野仅为11×11大小，无法感受输入特征图32×32的区域。因此，参见图6，将输入特征图的宽高先后乘以1/2和1/4两个系数，使得特征图的大小降为16×16和8×8，这样的处理使得单一的扩张卷积单元能够覆盖不同的空间尺度的特征信息，再使用上采样将特征图的宽高恢复至32×32。快捷连接层对输入特征图不做任何变化，直接与三个扩张卷积单元的输出结果在通道维度进行拼接。

通过扩张卷积单元，使得建筑物提取网络在不增加计算量的情况下，有效地感知11×11范围的特征区域。然而，GC-Net的编码器最终生成特征图的大小为32×32，单独的扩张卷积单元仍然无法有效地感知该特征的全部信息。基于这一观察，本发明通过下采样的方式获取编码器最终特征图的全局上下文语义信息，其计算过程定义如下：

式中，

和

分别表示第i个扩张卷积单元的输出和卷积操作，

表示使用双线性下采样i倍。通过2倍和4倍的下采样，特征图的大小分别缩小至16×16和8×8，恰好能满足扩张卷积单元的感受范围。为了将扩张卷积单元的输出结果

和

空间分辨率恢复与输入特征图x_DCU相同的大小，再次分别应用2倍和4倍的双线性插值。

快捷连接层仅由一个1×1卷积组成，主要的思想是重用输入特征信息，防止卷积层数过多而引起的梯度消失问题，加快网络的收敛速度。因此，本发明提出的多尺度扩张卷积模块定义如下：

式中，O_MDCU∈R^4C×H×W表示多尺度扩张卷积模块的输出结果，

表示使用双线性向上插值i倍，[·]表示特征图在通道维度上的叠加操作。公式(6)是整个多尺度扩张卷积模块的计算公式，公式(4)、(5)、(6)是层层递进的关系。其中，公式(6)的

和

均来自于公式(5)三个扩张卷积单元的输出，而公式(5)中的

函数来自于公式(4)扩张卷积单元具体的定义，即公式(5)中

综上所述，多尺度扩张卷积模块利用连续扩张率的扩张卷积感知了更大范围的特征区域，有效地提取了建筑物特征的上下文信息。同时，通过下采样和快捷连接操作，重复使用不同尺度下的原始特征，不仅捕获了遥感影像中多尺度的建筑物特征信息，而且高效地获取了全局上下文信息。

因此，所述多尺度扩张卷积模块包括：三个扩张卷积单元和一个快捷连接层；

生成三个扩张卷积单元的输出特征图；其中

表示第i个扩张卷积单元的输出特征图，i∈{1,2,3}；

表示第i个扩张卷积单元的卷积操作；

表示双线性下采样2倍操作；

表示双线性下采样4倍操作；

和

分别表示大小为

和

的特征空间；

所述快捷连接层用于根据公式

生成所述多尺度扩张卷积模块的输出特征图O_MDCU；其中

表示双线性向上插值2倍操作；

参见图3，编码器中多尺度扩张卷积模块的输入是编码器阶段4的输出特征图，多尺度扩张卷积模块的输出特征图将传递给解码器(具体传递给解码器第1层级的1×1卷积和上采样模块)进行解码处理。

参见图2，解码器共分为三个层级，每个层级均包括1×1卷积和上采样模块、跨层特征融合模块(CLFF)和解码模块三部分，这三部分也是层层递进的结构关系。在每个层级中，输入和输出均是特征图，第一层级的输入来自于多尺度扩张卷积模块的输出，第二、三层级的输入来自前一层级的输出。其中，跨层特征融合模块的输入有两部分，一是1×1卷积和上采样模块输出的深层特征，二是来自于编码器相同空间分辨率或空间大小的浅层特征(图2中用跳跃连接显示的)。跨层特征融合模块既考虑了浅层特征详细的空间信息，又利用了深层特征丰富的语义信息。解码模块主要对跨层特征融合模块的输出进一步解码，主要利用两次3×3卷积提取建筑物的特征信息。

图8为本发明实施例提供的跨层特征融合模块的结构及工作流程示意图。参见图8，跨层特征融合模块(CLFF)由通道拼接单元、通道注意力校正融合单元、空间注意力校正融合单元和一个快捷连接单元组成，自动地构建浅层特征和深层特征之间的通道和空间上下文依赖关系，再分别从通道和空间两个维度弥补跨层特征的语义差距，实现不同层级特征的有效融合。参见图2，在解码器中有三个跨层特征融合模块，均嵌入在三个层级中1×1卷积和上采样模块的后面，其输入有两部分：来自编码器的浅层特征(经由图1中的跳跃连接)、来自1×1卷积和上采样模块的深层特征。跨层特征融合模块的输出会传递给对应层级的解码模块。

跨层特征融合模块包括通道拼接、通道注意力、空间注意力和快捷连接四个单元结构。其中通道拼接单元主要将浅层特征和深层特征在通道维度进行叠加；通道注意力和空间注意力校正融合单元均包含三个部分：池化、卷积和激活函数。不同的是，通道注意力在空间维度上池化压缩，使得输入特征图x_cat变成一个一维向量，再用一维卷积分配通道维度的权重，并与输入特征图进行点乘，输出特征图z；空间注意力则是在输入特征图z在通道维度进行池化压缩，使之通道数2C变成2，再使用二维卷积分配空间维度的权重，并与数据特征图z进行点乘，输出特征图O_SA。快捷连接单元将空间注意力的输出特征图O_SA和输入特征图x_cat进行相加，输出跨层特征融合模块的输出特征图O_CLFF。

具体地，参见图2和图8左侧部分，通道拼接单元输入的浅层特征图x_low是编码器阶段1-3的输出特征图，深层特征图x_high是解码器不同层级中1×1卷积和上采样层的输出特征图，x_cat是浅层特征图和深层特征图在通道维度进行拼接，因此通道数为2C，公式如(7)所示：

x_cat＝[x_low，x_high] (7)

生成的拼接后特征图x_cat作为通道注意力校正融合单元的输入。参见图8右上部分，通道注意力校正融合单元通过压缩、激活和校正三个主要步骤自适应地掌握跨层特征之间的通道响应关系，并捕捉通道维度的相互依赖关系。给定输入特征x_cat∈R^2C×H×W，应用全局平均池化在空间维度进行压缩，生成通道向量s∈R^2C×1×1。然后使用一维卷积自动学习并构建跨层特征之间的通道关系，并利用sigmoid激活函数对s进行非线性映射，使得有益的建筑物特征在通道维度被突出，冗余性的背景噪声被抑制。最后，学习的通道注意力校正向量s与输入特征x_cat进行点乘操作，得到最终的通道校正输出结果z∈R^2C×H×W。通道注意力校正融合单元计算公式如下：

式中，

表示平均池化，σ(·)和f_conv1d(·)分别表示sigmoid激活函数和一维卷积。

参见图8右下部分，与通道注意力校正融合单元类似，空间注意力校正融合单元分别通过压缩、激活和校正三个主要步骤，构建浅层特征和深层之间的空间上下文关系，从而在空间维度弥补跨层特征之间的语义差距。对于通道注意力校正融合的输出特征z，在全局平均池化和全局最大池化的作用下生成特征图t∈R^2×H×W，然后通过二维卷积捕捉空间上下文信息，感知不同空间位置的建筑物特征响应。通过sigmoid激活函数，将特征图t上所感受的特征信息非线性映射，得到具有空间感知的校正权重矩阵。最后，将空间注意力特征图t与输入特征z进行点乘，从而获得最终的空间感知输出结果O_SA∈R^2c×H×W。空间注意力校正融合单元计算公式如下：

式中，

表示全局最大池化，f_conv2d(·)表示二维卷积。

通过通道注意力校正融合单元和空间注意力校正融合单元，浅层特征和深层特征分别在通道和空间两个维度消除了两者之间的语义差距，实现了跨层特征的有效融合。跨层特征融合模块再应用快捷连接的方式，提高网络的学习速度以及特征学习效率，并输出最终的特征融合结果，计算公式如下：

O_CLFF∈x_cat+O_SA (10)

式中，O_CLFF∈R^2c×H×W为跨层特征融合模块的输出结果。

跨层特征融合模块的输出特征图O_CLFF∈R^2c×H×W融合了浅层特征图的空间信息，又结合了深层特征图的语义信息。O_CLFF会作为解码器中解码模块的输入特征图，进一步细化提取的建筑物特征图。总之，跨层特征融合模块先后在通道维度和空间维度学习跨层特征的权重互补信息，构建两者之间的通道和空间上下文关系，并通过矩阵点乘的方式校正不同层级特征间的语义差距，为解码器提供了更为丰富的语义信息和更为细节的空间信息。

因此，所述跨层特征融合模块包括：通道拼接单元、通道注意力校正融合单元、空间注意力校正融合单元和快捷连接单元；

生成通道注意力校正后特征图z；其中

生成空间注意力校正后特征图O_SA；其中

本发明构建的建筑物提取网络GC-Net的解码部分通过双线性插值还原深层特征的空间维度。在跨层特征融合模块中，深层特征与来自编码器的浅层特征先后在通道和空间维度完成特征融合，消除两者之间跨级语义差距。融合后的特征O_CLFF被送入到两个的3×3卷积构成的解码模块，恢复其细节语义信息。在解码器的末端，通过1×1卷积，输出建筑物预测结果的概率图。为获得与原始输入图像相同的大小，使用双线性插值将概率图进一步向上采样2倍，得到最终的预测结果图。这里的上采样2倍是将特征图的宽高扩大两倍，恢复特征图的空间分辨率，方便输出的特征图能够与编码器的浅层特征进行跨层次融合。

步骤2：采用建筑物的遥感影像样本集对所述建筑物提取网络进行训练，生成训练好的建筑物提取网络。

按照步骤1构建出建筑物提取网络GC-Net后，采用建筑物的遥感影像样本集对所述建筑物提取网络进行训练。图9为本发明实施例提供的多重损失函数的应用示意图。参见图9，网络训练过程中，使用交叉熵损失函数量化建筑物提取结果和地面真值之间的差异大小，计算公式如下所示：

式中，L_seg是交叉熵损失值，f_ce(·)表示交叉熵损失函数，y_lab和y_pre分别表示真实样本和预测图像，

和

分别是第i个像元的真实类别和预测概率，N是总样本数量。其中预测概率

由解码器中最后一个1×1卷积和上采样模块得到。

L_seg定量地描述模型对每个像素的预测误差大小，并应用反向传播的方式更新网络参数训练模型。同时，对于另外两个解码模块的输出特征，均上采样到输入遥感影像的大小(即512×512像元)，再通过交叉熵损失函数与标签进行差异化对比，定量地评估解码器中特征学习能力和建筑物提取结果，监督每个跨层特征融合模块和解码模块，其计算公式如下：

式中，L_Di和x_Di分别表示第i个解码模块的损失值和输出特征图；

表示双线性向上插值8/i倍；

表示3×3二维卷积。解码器共有三个层级，每个层级中都有一个解码模块，利用两个3×3卷积进一步提取建筑物特征。

在解码器的输出特征图与标签差异化比较学习的过程中，通过先卷积后插值的方式，既提高了解码器建筑物类别信息的提取能力，又降低了额外学习任务的计算消耗。值得注意的是，本发明对编码器中第三阶段的输出特征图设置了一个辅助损失函数，加快网络收敛和编码器的建筑物特征学习效率，计算公式如下：

式中，L_aux为辅助损失值，x_E3为编码器中第三阶段的输出特征图，

表示8倍上采样。

因此，本发明在训练过程中使用的多重损失函数计算公式为：

式中，L_total为总损失值；L_seg为交叉熵损失值；L_Di为所述解码器中第i个解码模块的损失值；权重参数λ_i∈{0.2，0.6}；L_aux为辅助损失值。

建筑物提取网络GC-Net训练过程中，L_total用于衡量预测结果和标签之间的差异大小。网络模型迭代训练100次后，自动停止训练，生成训练好的建筑物提取网络。

步骤3：采用所述训练好的建筑物提取网络提取待检测遥感影像中的建筑物信息。

建筑物提取网络训练完成后，只需将待检测遥感影像输入到训练好的建筑物提取网络中，即可检测出遥感影像中的建筑物信息，通常为建筑物的预测概率信息。

本发明提出的建筑物提取网络GC-Net是一种可用于高分辨遥感影像建筑物提取的全局感知和跨层融合网络，该网络在编码部分引入全局信息感知模块构建了建筑特征的空间分布关系；采用多尺度扩张卷积模块捕获了更大感受范围的多尺度上下文信息；利用跨层特征融合模块实现了空间细节和语义信息的有效结合。在三个数据集上大量的实验表明，GC-Net仅通过简单的网络框架表现出优异的性能，既能较好地提取不同场景下的建筑物，又能高效地识别多类别的地物信息。此外在WHU数据集的消融实验和特征可视化证明了本发明全局信息感知模块、多尺度扩张卷积模块和跨层特征融合模块能够有效、全面地学习建筑物特征，从而提升网络的性能和精度。具体而言，全局信息感知模块自主地学习每个特征点之间的长距离关系，重点突出了建筑物的特征表达，抑制了背景噪声的影响；多尺度扩张卷积模块通过扩张卷积具备了更大范围的感受野，捕获了更加密集的建筑物特征上下文信息；跨层特征融合模块自适应学习浅层特征和深层特征之间互补信息，从通道和空间两个维度实现跨层特征的有效融合。另一个重要的发现是，高空间分辨率有利于初始层的下采样，其中在WHU数据集上初始层的最优下采样为2倍，而在ISPRS(InternationalSociety for Photogrammetry and Remote Sensing,国际摄影测量与遥感学会)数据集为4倍。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的遥感影像中建筑物提取方法。所述存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现所述的遥感影像中建筑物提取方法。

本发明提出了一种简单有效的建筑物提取网络GC-Net，具有较好的建筑物提取性能，可以推广到更多类别的地物识别领域。网络中的GIAM自主地学习建筑物特征的空间分布关系，突出了建筑物的特征响应，抑制了背景信息的表达。针对遥感影像中建筑物空间尺度不统一的特点，构建了MDCU来捕获更加密集的多尺度建筑物上下文信息。网络中CLFF考虑了浅层特征和深层特征的之间语义差距，较好地实现了跨层特征的有效融合。本发明还探讨了初始层的下采样对GC-Net精度的影响。结果表明，数据集的空间分辨率越高，对初始层的下采样越有利，其中WHU和INRIA数据集的最优下采样倍数为2，ISPRS数据集应选择4倍下采样。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。