CN114187520B

CN114187520B - 一种建筑物提取模型的构建及应用方法

Info

Publication number: CN114187520B
Application number: CN202111536098.9A
Authority: CN
Inventors: 王勇
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-09-27
Anticipated expiration: 2041-12-15
Also published as: CN114187520A

Abstract

本发明涉及一种建筑物提取模型。该建筑物提取模型包括：编码器、全局特征信息感知模块和解码器，通过编码器接收含有建筑物光谱信息的遥感图像，自主地学习建筑物的特征信息后，利用全局特征信息感知模块聚合经编码器处理后的特征的上下文信息，最后，采用解码器将聚合后的特征进行逐渐恢复得到最终的建筑物提取结果，进而解决现有技术中存在的模型训练困难、浅层特征表征能力欠缺、全局信息整合力度不足以及跨层次聚合能力不强等问题。

Description

一种建筑物提取模型的构建及应用方法

技术领域

本发明涉及数据处理技术领域，特别是涉及一种建筑物提取模型的构建及应用方法。

背景技术

建筑物作为一种主要的人造地表物体，在智慧城市建设与规划、国土资源利用与分析、自然灾害应急管理等方面扮演着十分关键的角色。随着对地观测技术的不断发展，如何从高分辨率遥感影像中自动提取建筑物逐渐成为当前的研究热点。尽管高分辨率遥感影像提供了丰富的光谱信息，但不同建筑物间的光谱差异以及复杂的背景噪声，给建筑物自动提取工作带来了巨大的挑战。因此，亟需一种高精度、高性能的建筑物自动化的提取方法。

根据分类尺度的不同，从高分辨率遥感影像中提取建筑物的传统方法主要有两种思路：基于像素和基于对象。基于像素的方法是将单个像素或其邻域空间视为一个整体，利用光谱相似性原理进行建筑物提取，常用的方法有最大似然法(Maximum LikelihoodClassification)、决策树、随机森林和支持向量机等。然而，这类方法由于“同物异谱”、“同谱异物”等原因，往往会导致分类结果出现严重的“椒盐噪声”现象。基于对象的方法则是利用多尺度分割方法将得到的同质对象作为最小单元，并根据单元间光谱、阴影、几何等特征的差异性进行分类。尽管这种方法充分利用了建筑物的空间信息，较好地避免了“椒盐噪声”现象，但这种方法易受人为因素影响，仅适用于小范围、类型简单的建筑物提取，对大范围、复杂度高的建筑物提取的泛化能力较差。可见，传统的方法并不能满足当前建筑物高精度、高性能和自动化地提取的任务需求。

随着深度学习等人工智能技术不断发展，利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)进行各种地物提取工作取得了巨大的进步。CNN根据所接收的输入数据自主地学习地物之间的相关特征，避免了传统方法中人为因素的影响，被广泛应用于各种地物的可行性预测、分类提取、自动识别等领域，如滑坡易发性制图、道路自动化提取和喀斯特地貌自动化识别等。由卷积层、池化层、激活函数互相关联组成的CNN网络，自动地对遥感图像进行编码，提取不同层级的建筑物语义特征，具有局部感知、参数共享的优点，逐渐成为一种提取精度高、性能好、自动化能力强的建筑物提取方法。同时，大量的高分辨率遥感影像数据为深度学习提供充足的训练样本，在数据驱动的模式下促进了CNN的快速发展，极大地提高了模型对建筑物提取的泛化能力。

尽管以UNet为代表的CNN方法，在图像分割领域具有较强的特征提取能力和较好的识别预测性能，但由于高分辨率遥感影像中不同建筑物之间的光谱差异、背景信息以及复杂的噪声干扰，直接利用UNet进行建筑物提取仍是一项具有挑战性的任务，存在以下问题：1)模型训练困难。UNet使用连续卷积提取特征，获得了较强的局部信息获取能力，然而较深的堆叠卷积容易阻碍模型训练，易造成模型性能退化等问题。2)浅层特征表征能力欠缺。由于建筑物的多样性、复杂性，使得编码器所获取的浅层特征对建筑物特征的空间信息表达能力较弱，且含有较多的冗余信息。已有研究表明，在面对高复杂度的地物提取任务时，浅层特征不能较好的表达地物的空间信息。3)全局信息整合力度不足。UNet通过四次最大池化来聚合卷积所提取的特征信息，不但减少了计算复杂度，而且也增大特征的感受野。然而，标准卷积运算对较大感受野的特征，仅能提取局部的邻域信息，不能有效地感知特征的全局语义信息，欠缺对特征的全局信息聚合能力。4)跨层次聚合能力不强。尽管UNet模型使用跳跃连接的方式，加强了对浅层特征的利用程度。然而，这种以通道叠加的特征融合方法，忽视了浅层特征中冗余信息的影响以及与深层特征之间的语义差距，进而限制了模型的建筑物提取性能。

发明内容

为了解决现有技术存在的上述问题，本发明提供了一种建筑物提取模型的构建及应用方法。

为实现上述目的，本发明提供了如下方案：

一种建筑物提取模型的构建方法，构建得到的建筑物提取模型包括：编码器、全局特征信息感知模块和解码器；

所述编码器以建筑物遥感图像为输入以编码图像为输出；所述全局特征信息感知模块与所述编码器连接，所述全局特征信息感知模块以所述编码图像为输入以特征提取图为输出；所述解码器分别与所述编码器和所述全局特征信息感知模块连接，所述解码器以所述特征提取图为输入以建筑物提取结果为输出。

优选地，所述编码器包括：第一特征提取子模块、第二特征提取子模块、第三特征提取子模块和第四特征提取子模块；

所述第一特征提取子模块与所述解码器连接，所述第一特征提取子模块以所述建筑物遥感图像为输入以第一提取特征为输出；所述第二特征提取子模块分别与所述第一特征提取子模块和所述解码器连接，所述第二特征提取子模块以所述第一提取特征为输入以第二提取特征为输出；所述第三特征提取子模块分别与所述第二特征提取子模块和所述解码器连接，所述第三特征提取子模块以所述第二提取特征为输入以第三提取特征为输出；所述第四特征提取子模块分别与所述第三特征提取子模块和所述全局特征信息感知模块连接，所述第四特征提取子模块以第三提取特征为输入以所述编码图像为输出。

优选地，所述第一特征提取子模块包括：第一卷积层和第一空间注意力单元；

所述第一卷积层以所述建筑物遥感图像为输入以第一空间尺度的建筑物浅层特征为输出；所述第一空间注意力单元分别与所述第一卷积层、所述第二特征提取子模块和所述解码器连接，所述第一空间注意力单元以第一空间尺度的建筑物浅层特征为输入以所述第一提取特征为输出；

所述第二特征提取子模块包括：第二卷积层和第二空间注意力单元；

所述第二卷积层与所述第一空间注意力单元连接，所述第二卷积层以所述第一提取特征为输入以第二空间尺度的建筑物浅层特征为输出；

所述第二空间注意力单元分别与所述第二卷积层、所述第三特征提取子模块和所述解码器连接，所述第二空间注意力单元以第二空间尺度的建筑物浅层特征为输入以所述第二提取特征为输出；

所述第三特征提取子模块包括：第三卷积层和第三空间注意力单元；

所述第三卷积层与所述第二空间注意力单元连接，以所述第二提取特征为输入以第三空间尺度的建筑物浅层特征为输出；所述第三空间注意力单元分别与所述第三卷积层、所述第四特征提取子模块和所述解码器连接，所述第三空间注意力单元以第三空间尺度的建筑物浅层特征为输入以所述第三提取特征为输出；

所述第四特征提取子模块包括：第四卷积层和第四空间注意力单元；

所述第四卷积层与所述第三空间注意力单元连接，以所述第三提取特征为输入以第四空间尺度的建筑物浅层特征为输出；

所述第四空间注意力单元分别与所述第四卷积层和所述全局特征信息感知模块连接，所述第四空间注意力单元以第四空间尺度的建筑物浅层特征为输入以所述第四提取特征为输出。

优选地，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层的结构均不相同。

优选地，所述第一空间注意力单元、所述第二空间注意力单元、所述第三空间注意力单元和所述第四空间注意力单元均包括：池化层、卷积层和激活函数。

优选地，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层均包括多个堆叠的残差学习块；所述第二卷积层、所述第三卷积层和所述第四卷积层均包括下采样卷积块。

优选地，所述全局特征信息感知模块包括：扩张卷积单元和自注意力单元；

所述扩张卷积单元包括多个具有不同扩张率的卷积；所述自注意力单元用于学习所述扩张卷积单元生成的特征间的相关性。

优选地，所述解码器包括跨层次特征校正模块。

优选地，所述跨层次特征校正模块包括：全局平均池化层、一维卷积层和激活函数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明构建的包括有编码器、全局特征信息感知模块和解码器的建筑物提取模型，通过编码器接收含有建筑物光谱信息的遥感图像，自主地学习建筑物的特征信息后，利用全局特征信息感知模块聚合经编码器处理后的特征的上下文信息，最后，采用解码器将聚合后的特征进行逐渐恢复得到最终的建筑物提取结果，进而解决现有技术中存在的模型训练困难、浅层特征表征能力欠缺、全局信息整合力度不足以及跨层次聚合能力不强等问题。

此外，本发明还提供了一种遥感图像建筑物提取方法，该方法包括:

以待检测地区的建筑物遥感图像为输入，采用建筑物结果提取模型输出建筑物提取结果；所述建筑物结果提取模型为采用上述提供的建筑物提取模型的构建方法构建得到的模型。

因本发明提供的遥感图像建筑物提取方法实现的技术效果与上述提供的建筑物提取模型实现的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的建筑物提取模型的整体架构图；其中，图1(a)为建筑物提取模型的结构示意图；图1(b)为残差学习块的结构示意图；图1(c)为解码模块的结构示意图；

图2为本发明实施例提供的空间注意力单元的结构示意图；

图3为本发明实施例提供的全局特征信息感知模块的总体架构图；其中，图3(a)为全局特征信息感知模块的结构示意图；图3(b)为标准卷积和扩张卷积对比图；图3(c)为自注意单元结构示意图；

图4为本发明实施例提供的跨层次特征校正模块的结构示意图；

图5为本发明实施例提供的训练函数流程图；

图6为本发明实施例提供的WHU建筑物数据集影像和标签示例图；其中，图6(a)为训练集影像和标签示例图；图6(b)为验证集影像和标签示例图；图6(c)为测试集影像和标签示例图；

图7为本发明实施例提供的INRIA建筑数据集影像和标签示例图；其中，图7(a)为原始数据集影像和标签示例图；图7(b)为预处理后的数据集影像和标签示例图；

图8为本发明实施例提供的B-FGC-NET模型在WHU建筑物测试集上的提取结果对比图；其中，图8(a)为测试集的原始图像示例图；图8(b)为测试集的标签示例图；图8(c)为提取结果图；

图9为本发明实施例提供的在WHU测试集上定量分析建筑物的提取结果示意图；

图10为本发明实施例提供的B-FGC-Net模型在INRIA建筑物测试集上额提取结果对比图；其中，图10(a)为测试集中原始图像的示例图；图10(b)为测试集中标签示例图；图10(c)为测试集中提取结果图；

图11为本发明实施例提供的INRIA测试集上定量分析的建筑物评估结果图；

图12为本发明实施例提供的不同模型在WHU测试集上的提取结果对比图；其中，图12(a)为WHU测试集中原始图像示例图；图12(b)为WHU测试集中标签示例图；图12(c)为UNet模型的提取结果图；图12(d)为Res-UNet模型的提取结果图；图12(e)为LinkNet模型的提取结果图；图12(f)为LinkNet*模型的提取结果图；图12(g)为B-FGC-Net模型的提取结果图；

图13为本发明实施例提供的不同模型在INRIA测试集上的提取结果对比图；其中，图13(a)为INRIA测试集中原始图像示例图；图13(b)为INRIA测试集中标签示例图；图13(c)为UNet模型的提取结果图；图13(d)为Res-UNet模型的提取结果图；图13(e)为LinkNet模型的提取结果图；图13(f)为SegNet*模型的提取结果图；图13(g)为DeepLabV模型的提取结果图；图13(h)为B-FGC-Net模型的提取结果图；

图14为本发明实施例提供的B-FGC-Net模型不同层次空间注意力机制的可视化结果图；其中，图14(a)为测试图；图14(b)为SA_1前特征图；图14(c)为SA_1后特征图；图14(d)为SA_2前特征图；图14(e)为SA_2后特征图；图14(f)为SA_3前特征图；图14(g)为SA_3后特征图；图14(h)为SA_4前特征图；图14(i)为SA_4后特征图；

图15为本发明实施例提供的不同跨层次特征融合方式在WHU测试集上的F1分数和IOU分数对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种建筑物提取模型的构建及应用方法，能够解决现有技术中存在的模型训练困难、浅层特征表征能力欠缺、全局信息整合力度不足以及跨层次聚合能力不强等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的建筑物提取模型，包括：编码器、全局特征信息感知模块和解码器。

编码器以建筑物遥感图像为输入以编码图像为输出。全局特征信息感知模块与编码器连接，全局特征信息感知模块以编码图像为输入以特征提取图为输出。解码器分别与编码器和全局特征信息感知模块连接，解码器以特征提取图为输入以建筑物提取结果为输出。

本实施例上述提供的建筑物提取模型是一种标准的、基于端到端的深度卷积神经网络模型(B-FGC-Net模型)。在具体实施过程中，B-FGC-Net模型首先通过编码器(如图1(a)中①所示)接收含有建筑物光谱信息的遥感图像，采用如图1(b)所示的残差学习块(Res-Block)和空间注意力单元(A)自主地学习建筑物的特征信息，并利用步长为2的卷积减小特征的空间维度，以降低模型的计算复杂度。然后，全局特征信息感知模块(GFIA，如图1(a)中②所示)通过扩张卷积和自注意(Non-Local)单元聚合特征的上下文信息。最后，解码器使用多个有效的解码块(如图1(a)中③所示)和CLFR将特征逐渐恢复到最终的建筑物提取图。

为了提高特征提取的精确度和效率，本实施例上述采用的编码器优选设置有：第一特征提取子模块、第二特征提取子模块、第三特征提取子模块和第四特征提取子模块。

第一特征提取子模块与解码器连接，第一特征提取子模块以建筑物遥感图像为输入以第一提取特征为输出。第二特征提取子模块分别与第一特征提取子模块和解码器连接，第二特征提取子模块以第一提取特征为输入以第二提取特征为输出。第三特征提取子模块分别与第二特征提取子模块和解码器连接，第三特征提取子模块以第二提取特征为输入以第三提取特征为输出。第四特征提取子模块分别与第三特征提取子模块和全局特征信息感知模块连接，第四特征提取子模块以第三提取特征为输入以编码图像为输出。

其中，第一特征提取子模块包括：第一卷积层和第一空间注意力单元。

第一卷积层以建筑物遥感图像为输入以第一空间尺度的建筑物浅层特征为输出。第一空间注意力单元分别与第一卷积层、第二特征提取子模块和解码器连接，第一空间注意力单元以第一空间尺度的建筑物浅层特征为输入以第一提取特征为输出。

第二特征提取子模块包括：第二卷积层和第二空间注意力单元。

第二卷积层与第一空间注意力单元连接，第二卷积层以第一提取特征为输入以第二空间尺度的建筑物浅层特征为输出。

第二空间注意力单元分别与第二卷积层、第三特征提取子模块和解码器连接，第二空间注意力单元以第二空间尺度的建筑物浅层特征为输入以第二提取特征为输出。

第三特征提取子模块包括：第三卷积层和第三空间注意力单元。

第三卷积层与第二空间注意力单元连接，以第二提取特征为输入以第三空间尺度的建筑物浅层特征为输出。第三空间注意力单元分别与第三卷积层、第四特征提取子模块和解码器连接，第三空间注意力单元以第三空间尺度的建筑物浅层特征为输入以第三提取特征为输出。

第四特征提取子模块包括：第四卷积层和第四空间注意力单元。

第四卷积层与第三空间注意力单元连接，以第三提取特征为输入以第四空间尺度的建筑物浅层特征为输出。

第四空间注意力单元分别与第四卷积层和全局特征信息感知模块连接，第四空间注意力单元以第四空间尺度的建筑物浅层特征为输入以第四提取特征为输出。

为了能够生成不同空间尺度的建筑浅层特征，本实施例中采用的第一卷积层、第二卷积层、第三卷积层和第四卷积层的结构均不相同。如图1所示，第一卷积层、第二卷积层、第三卷积层和第四卷积层均包括多个堆叠的残差学习块。在第二卷积层、第三卷积层和第四卷积层中的多个堆叠的残差学习块之后还级联设置有下采样卷积块。在第一卷积层中，多个堆叠的残差学习块之前还设置有1×1卷积和ReLU函数的堆叠卷积块。

基于上述结构能够得到，在本实施例中，编码器采用ResNet34作为浅层特征提取的骨干网络(Backbone)，并移除了ResNet34中初始层的7×7卷积、最大池化和最后的全局平均池化、全连接层。在此部分，输入的遥感图像经过由多个残差块堆叠构成的四组卷积层，生成不同空间尺度的建筑浅层特征。在每次卷积层结束后，浅层特征被输送到空间注意力单元A中，进一步突出建筑物的空间、形状、边缘等潜在特征信息，并抑制道路、树木、农田等背景信息。

其中，由于建筑物自然属性的多样性(如屋顶颜色、形状特征等)，以及背景信息的复杂性，标准的卷积仅能关注局部区域的邻域特征，无法准确地获取每个特征在整体空间上的分布情况，难以构建特征之间的空间关系。基于此，本实施例采用如图2所示的空间注意力单元进行编码器的构建，旨在探析特征在空间上的分布规律，突出建筑物特征表达，同时抑制背景信息干扰。

空间注意力单元(即第一空间注意力单元、第二空间注意力单元、第三空间注意力单元或第四空间注意力单元)由池化、卷积和激活函数构成，通过压缩、卷积、激活三个关键步骤，自动地学习空间维度的特征表达情况，自适应的获取每个特征的空间权重，能够有效地突出建筑物特征，提高模型对建筑物特征的关注程度。

1)压缩：该步骤分别使用全局平局池化和全局最大池化将特征x∈R^C×H×W在通道维度上进行压缩，得到每个特征点在空间维度的分布信息，其计算过程如公式(1)所示：

z＝f_C(f_GAP(x),f_GMP(x)) (1)

式中，z∈R^2×H×W，f_C(·)表示通道叠加(concatenate)操作，f_GAP(·)和f_GMP(·)分别表示全局平均池化和全局最大池化，W和H分别为特征的宽和高。

2)卷积：通过7×7的卷积和Sigmiod激活函数，自主地学习特征的空间分布关系，为每个特征点优化分配权重，得到空间注意力特征图s：

s＝f_conv2d(z)＝σ_s(w(z)) (2)

式中，s∈R^1×W×H表示卷积操作后的特征，f_conv2d(·)表示二维卷积操作，w表示二维卷积的权重参数，σ_s为Sigmoid激活函数。

3)激活：注意力特征图s高度表达了特征在空间上的分布情况，与输入特征x进行矩阵点乘后，可以有效地使得模型在训练过程中集中学习建筑物的相关特征，重点关注特征的空间层次表达。计算过程如下所示：

y＝f_m(x,s)+x (3)

式中，f_m(·)为矩阵相乘函数。

综上，空间注意力单元先后采用池化、卷积和矩阵点乘操作，完成了每个特征点的空间权重自适应获取，突出了建筑物特征在空间维度的表达，同时也抑制了噪声信息干扰。

此外，编码器在第2-4卷积层中采用步长为2的卷积作为下采样操作，将特征的空间维度减少1/4，通道数增加一倍。由于多次的下采样操作，使得特征丢失了丰富的空间信息，且增大了特征的感受野。仅使用上采样和标准卷积的方式难以恢复和获取特征的细节及全局信息。因此，本实施例将第1、2和3阶段生成的浅层特征与解码器的深层特征进行不同层次的特征融合，期望恢复特征的空间信息。剩下的第4阶段生成的浅层特征由于感受野较大，则被GFIA利用，以获取建筑物特征的全局语义信息。编码器的组成结构和浅层特征维度变化如表1所示。

表1编码器结构及浅层特征维度变化表

表1中，SA_1、SA_2、SA_3、SA_4分别表示第1、2、3、4层的空间注意力。3×256×256分别表示通道数、高和宽。

基于上述编码器的具体结构，在建筑物遥感图像输入至编码器之后，得到的是建筑物的浅层特征，此时，为了能够有效聚集建筑物浅层特征的上下文信息，本实施例设置全局特征信息感知模块包括有：扩张卷积单元和自注意力单元。扩张卷积单元包括多个具有不同扩张率的卷积。自注意力单元用于学习扩张卷积单元生成的特征间的相关性。

基于本实施例采用全局特征信息感知模块的上述具体结构，可以将编码器第四阶段生成的浅层特征，以扩张卷积的方式提取更大范围的特征信息，聚集有效的建筑物特征上下文信息。同时，通过自注意力单元重点关注每个特征点的长距离依赖性，构建特征点与特征点之间的空间关系，来提高模型的全局特征信息感知能力。通过以上两种方式，全局特征信息感知模块输出的深层特征进入解码器完成解码操作。

其中，本实施例提供的全局特征信息感知模块(GTIA)如图3所示，包括扩张卷积(Dilated Convolution,DC)单元和自注意力(Non-Local)单元。从图3(b)可知，相比于标准的卷积操作，扩张卷积通过扩大卷积核之间的间隔，可以感知更大范围的特征信息。因而，扩张卷积单元采用五个不同扩张率的卷积，有效地整合了建筑物特征的邻域信息，其计算过程如下所示：

F＝∑_iσ_r(w_i(L_i-1)) (4)

式中，F∈R^C×W×H为扩张卷积的输出结果，i＝{0,1,2,3,4}为扩张率的取值索引，σ_r表示ReLU激活函数，w_i为扩张卷积的权重参数，L_i-1∈R^C×W×H表示上一个扩张卷积的输出结果。

特别的，当i＝0时，L_i-1表示全局特征信息感知模块的输入特征x。在本实施例中，扩张率被设置为dilation＝{1,2,3,4,8}，其卷积相应的感受野分别为3×3、7×7、11×11、15×15、31×31。一方面，设置为连续的扩张率避免了特征信息遗漏提取，有效地获取了多尺度上下文信息。另一方面，扩张率为8的卷积可以感受31×31的特征区域，基本能覆盖特征的全部范围，完成全局语义信息的有效聚集。同时，在扩张卷积单元中引入深度可分离卷积来减小卷积运算的复杂度。自注意力单元采用卷积构造了包含全局信息的B∈R^C×H×W、C∈R^C×H×W和D∈R^C×H×W三个特征，用于捕捉每个特征点之间的长距离依赖性(long-rangedependence)，计算过程如下所示：

B＝σ_r(w_b(x)),C＝σ_r(w_c(x)),D＝σ_r(w_d(x)) (5)

N＝f_m(D,f_m(C,B)) (6)

式中，w_b、w_c、w_d分别表示卷积核参数，N∈R^C×H×W表示Non-Local单元输出结果。随着模型不断迭代训练，自注意单元自动地学习任意特征之间的相关性，并对每个特征重新加权赋值，提高模型对特征全局信息的关注程度。

进一步，直接将浅层特征和深层语义信息以像素相加或通道叠加的方式进行特征融合，会造成模型不能较好地学习跨层次特征之间的互补信息，甚至固有的噪声以及冗余信息都会影响模型的提取性能。基于此原因，本实施例从高效通道注意力(ECA)获得了灵感，在解码器中提出利用跨层次特征校正模块(CLFR)将浅层特征和深层特征进行融合，使用CLFR进一步关注编码器和全局特征信息感知模块两通道信息的互补关系，减弱冗余背景噪声信息的干扰，提高模型对浅层特征的利用程度，并且，能够在去除大量的冗余信息的同时，消除编码器和全局特征信息感知模块两者之间的语义差距，提高了特征信息表达能力。

如图4所示，跨层次特征校正模块包括：全局平均池化层、一维卷积层和激活函数。解码器还采用双线性插值和1×1的卷积，还原深层特征的空间分辨率。

CLFR首先通过全局平均池化对深层特征

在空间维度上进行压缩处理，使其变为一维的特征向量，得到各个特征通道维度的全局语义信息。在此之后，采用一维卷积自动获取每个通道上特征点的权重参数，再应用Sigmoid激活函数突出权重之间的相关性，使得浅层特征

中建筑物特征被突出显示，并消除D_k和E_k之间的语义差距。最后以通道叠加的方式将其输入到解码块中，计算过程定义如下所示：

y_k＝f_m(E_k,σ_s(w_k(f_GAP(D_k)))) (7)

out_CLFR＝[y_k,D_k] (8)

式中，

表示经过通道维度校正后的浅层特征，w_k为一维卷积的权重参数，[·]为通道叠加操作。

跨层次特征校正模块自主的学习深层语义信息D_k的通道权重参数，以点乘的操作方式消除了浅层特征E_k在通道维度中的大量冗余信息。同时，跨层次特征校正模块重新评估每个特征的贡献程度，使得模型自主的学习E_k和D_k之间的互补信息，并克服了两者之间的语义差距，最大限度地完成跨层次特征的有效信息利用。

此后，解码块(Decoder-Block)对融合特征以两次卷积的形式进行解码操作，最后输出建筑物提出结果。为了防止模型过拟合，在解码块的每次卷积后都引入了Dropout和批量归一化(BatchNormalization,BN)，分别简化解码结构和提高训练速度。

进一步，基于上述提供的建筑物提取模型的具体结构，本实施例采用二进制交叉熵(Binary Cross Entropy,BCE)损失函数、边界误差(Boundary Error,BE)损失函数和辅助损失函数相结合的复合损失函数对模型进行训练，其计算流程如图5所示。

1)、BCE损失函数：给出一对标签y_lab和预测概率结果y_pro，通过如(9)所示的公式计算两种之间的差异大小：

式中，l_bce表示损失值，H、W分别表示标签和预测结果的高、宽。

2)、BE损失函数：尽管BCE损失函数能够使得模型关注预测结果上每个像素的分类正确情况，但是在建筑物边界细化上仍然存在挑战。因此，本实施例通过BE损失函数迫使模型更加关注建筑物的边界信息，其计算过程如下所示：

式中，l_be表示损失值，z_lab和z_pro分别表示标签和预测结果经过拉普拉斯边缘算子处理后边界图，P、N分表标签中正负像素个数。

3)、辅助损失函数：为了方便模型训练，将ResNet34第3阶段的输出结果上采样到与标签相同维度，根据BCE损失函数计算它们之间的损失值l_aux。

因此，模型最终的损失函数为：

l＝λ₁×l_bce+λ₂×l_be+λ₃×l_aux (11)

式中，λ₁＝λ₂＝1，λ₃＝0.4。

下面使用WHU建筑物数据集和INRIA建筑数据集(Inria Aerial Image LabelingDataset)两个公开的建筑物数据集对上述提供的建筑物提取模型进行训练及评估实验。

WHU建筑物数据集由ji等人开源共享，因其覆盖范围广、影像空间分辨率高、数据量较多，已成为遥感建筑物提取领域常用数据集，并受到众多研究人员的好评。该数据集占地面积约450平方公里，覆盖新西兰克赖斯特彻奇城市(Christchurch,NewZealand)，其空间分辨率为7.5厘米，包含220万个独立的建筑物，影像质量较高。WHU建筑物数据集包含4736、1036和2416幅图像，分别用于训练、验证和测试。由于计算机显存的限制，本实施例将大小原始影像和标签从512×512像素缩放至256×256像素，图6显示了处理后的训练集、验证集和测试集数据。

INRIA建筑数据集提供了360张、大小为5000×5000像素、空间分辨率为0.3m的正交彩色建筑物遥感影像，覆盖全球10个城市，包含有密集居住区、大型场地等各种建筑物类型。该数据集只在训练集中提供了对应的建筑物标签影像，而测试集中并不提供。因此，本实施例根据数据组织者的建议以及相关文献，将训练集中的奥斯汀、芝加哥、Kitsap、Tyrol和维也纳五个城市的前5张影像作为测试集，其余的用于训练。鉴于该数据集影像较大以及计算机GPU显存的限制，本实施例将其裁剪为500×500的像素，并缩放至256×256像素大小，以满足模型可接受的输入维度。INRIA原始影像和预处理后的影像如图7所示。

基于上述采用的数据集，本实施例中参数的训练过程具体如下：

如表2所示，进行参数训练的操作系统为CentOS 7，采用python编程语言和pytorch深度学习框架构建上述提供的建筑物提取模型。在建筑物提取模型的迭代训练过程中，使用Adam优化器进行优化，设置初始学习率为0.0001，并在每五个epoch后衰减0.85倍。另外，使用NVIDIA RTX 2080Ti GPU加快模型训练速度。为了克服过拟合问题，在建筑物提取模型训练过程中采用数据增加的方法，包括随机水平翻转、随机垂直翻转、随机旋转等。

表2实验环境及参数设置表

为客观的评估模型的性能，本实施例采用总体精度(OverallAccuracy,OA)、精确率(Precision,P)、召回率(Recall,R)、F1分数(F1-score,F1)和交并比(IntersectionOverUnion,IOU)共五种评价指标，综合评价上述提供的建筑物提取模型的建筑物提取性能。

1、针对WHU建筑物数据集提取结果：

图8显示了B-FGC-Net模型在WHU建筑物数据集的部分测试结果。随机挑选6张典型影像进行测试，包含小尺度建筑物(图8中第1至3列)和大尺度建筑物(图8中4至6列)两种情况，分别验证模型的建筑物提取性能。从测试结果看，引入了空间注意力单元A的B-FGC-Net模型对小尺度建筑物，能精准地定位建筑物的空间位置，并能有效地将背景信息识别为非建筑物。同时，B-FGC-Net模型通过GFIA，能较为完整地提取大尺度建筑，尽可能地避免信息遗漏。对标签影像和预测结果综合观察可知，尽管B-FGC-Net模型存在小部分遗漏、错误提取的情况，但本实施例上述提供的建筑物提取模型在两种情况下均能有效地、准确地提取大部分建筑物信息，表现出较好地建筑物提取效果。

图9定量分析了B-FGC-Net模型在WHU建筑物测试集上的提取结果。由图9可知，B-FGC-Net模型在两种情况下的OA均高于98.1％，表明能正确地区分建筑物和背景信息。由于小尺度建筑物空间分辨率较低，在进行建筑物提取时存在较大的挑战和困难。尽管如此，本实施例提出的建筑物提取模型表现出较高的F1分数和IOU，分别达到96.7％和93.6％以上。此外，B-FGC-Net模型在大尺度建筑物提取情况下，其F1分数和IOU分别高达97.6％和95.4％以上，进一步地表明B-FGC-Net模型在大尺度建筑物提取任务上具有较高的准确率。总体而言，B-FGC-Net模型对小尺度和大尺度建筑物均拥有较高的提取精度。

2、针对INRIA建筑物数据集提取结果：

随机挑选了INRIA数据集中五个城市的影像进行测试，提取结果如图10所示。从测试图像中序号为1-3的原始图像可以发现，本实施例所提出的模型对于小尺度建筑物具有较好的识别性能，能够精准地识别空间位置信息。同时，B-FGC-Net模型能较为完整的提取大尺度建筑物的大部分信息，较好地避免了信息遗漏提取或错误提取的现象。从测试图像序号为4的原始图像的提取结果可以看出，B-FGC-Net模型在树木遮挡情况下，避免了建筑物阴影等噪声信息的干扰，表现出较好的建筑物提取能力。此外，B-FGC-Net模型在复杂较高的城市建筑物场景下(如测试图像中序号为5的原始图像的提取结果所示)，通过融合多尺度的特征信息，精确地提取了大部分建筑物信息。

图11展示了B-FGC-Net模型在INRIA测试集下对奥斯汀、芝加哥、Kitsap、Tyrol和维也纳五个城市的精度评价结果。从图11中可以看出，本实施例提出的模型在五个城市的OA都超过94％，表明B-FGC-Net模型能正确地区分建筑物和背景信息。由于Kitsap城市测试集中非建筑物较多(约97.89％)、建筑物较少(约2.11％)，这种样本数量不平衡的情况造成了OA高达99.19％，但不具有参考意义。但Kitsap城市的F1分数和IOU分别达到80.44％和67.28％，证明了B-FGC-Net模型在正负样本数量不平衡的情况下，依然具有较好的提取精度。仔细观察可知，B-FGC-Net模型在维也纳城市测试集中，其F1分数和IOU分别为90.5％和82.65％，说明B-FGC-Net模型对复杂度较高的建筑物复杂具有较好的提取性能。总而言之，B-FGC-Net模型在五个城市测试集上的F1分数超过了80％，在小尺度、大尺度和高复杂度建筑物上具有较高的提取精度。

为充分检验B-FGC-Net模型的性能和精度，下面使用UNet、LinkNet、SegNet和DeepLabV3等经典图像分割模型进行对比分析。在两个公开的WHU和INRIA建筑物数据集上，应用相同的学习率和优化器对模型参数迭代训练，并采用评估指标综合分析各个模型的提取精度，得到实验结果。

1、在WHU建筑物数据集上的对比分析

图12展示了五种卷积神经网络模型在WHU建筑物测试集的可视化提取结果，包括UNet、Res-UNet、LinkNet、LinkNet*和B-FGC-Net。其中Res-UNet模型的编码器为ResNet18，LinkNet*模型舍去了LinkNet初始的卷积层和最大池化。

从提取结果可以看出，相比于经典的建筑物提取模型，本发明提出的B-FGC-Net模型表现出更好的建筑物提取效果。尽管UNet、Res-UNet、LinkNet和LinkNet*模型均能识别出部分建筑物信息，但依然存在较多的建筑物错误提取、背景信息错误识别等情况。UNet模型在图12的第五行测试图像中，避免了建筑物阴影的干扰(如图12中矩形框所示)，较为完整地识别出建筑物信息，然而对小尺度建筑物的定位能力以及大尺度建筑物的整合能力较差，如图12中矩形框所示。Res-UNet在第四行的提取结果似乎比UNet模型稍好，但将大部分的建筑物误判为背景信息，反映了该模型提取性能不佳。LinkNet，作为一种轻量级的图像分割网络模型，以降低图像空间分辨率为代价，极大地缩减了模型训练时间。但从提取结果来看，即使LinkNet模型在第四行识别了大部分建筑物信息，但在提取结果中依然存在大量的“孔洞”现象。因而，本实施例删除了LinkNet初始层7×7卷积和最大池化，命名为LinkNet*，以验证初始层过度的下采样是否会造成提取性能降低，同时也从侧面来反映B-FGC-Net初始层设计的合理性。从提取结果发现，LinkNet*模型对大尺度建筑物的整合能力好于前三种模型(如第四行红色矩形框所示)，但对小尺度建筑物的识别能力和建筑物阴影的克服能力有所不足。

B-FGC-Net综合了SA(即空间注意力单元，图1中的A)、GFIA和CLFR的优点，有效地克服了建筑物阴影的干扰，对小尺度、大尺度建筑物均有较好的提取效果。从图12中矩形框可以发现，本实施例提出的模型根据SA有效地区分了背景信息和建筑物特征，对小尺度建筑物具有较好的识别能力。此外，B-FGC-Net模型对框中大尺度建筑物的整合能力较强，主要的原因是GFIA提升了模型对特征的全局感知能力。尤其是在第四行的提取结果中，较为完整的提取了该建筑物大部分区域，B-FGC-Net模型较好地处理建筑物阴影的干扰，使得提取结果较为准确。

表3定量分析了几种模型在WHU建筑物测试集的提取精度。由表3可知，与其它模型相比，B-FGC-Net模型在所有评价指标中均取得了最高的精度。在OA方面，本实施例提出的B-FGC-Net模型达到了98.90％，远高于其它模型，在建筑物和背景区分方面实现了最好的分类精度。与UNet相比，B-FGC-Net模型的F1分数和IOU分别提高了1.7％和3.02％，显示了SA、GFIA和CLFR能有效地提高模型的精度。同时也可以发现，LinkNet*实现了精度排名第二的成绩，表明过度的下采样会降低模型的精度，也从侧面方面了B-FGC-Net模型设计的合理性。与精度排名第二的模型相比，B-FGC-Net模型的F1分数和IOU分别上升了0.82％和1.47％，在测试集上具有最佳的提取性能。

表3不同模型在WHU测试集上的精度评估结果表

2、在INRIA建筑物数据集上对比分析

图13展示了B-FGC-Net和其它五个模型在INRIA建筑物测试集上的提取结果可视化对比情况。由图13可知，尽管UNet、Res-UNet、LinkNet、SegNet和DeepLabV3模型较好的识别了树木、道路等大部分非建筑物背景信息，但与BDAC-Net模型相比，依然存在建筑物错误提取、遗漏提取的情况。在图13的第1-3行的矩形框中，由于建筑物和背景信息有着相似的光谱特征，给建筑物提取任务带来了巨大的困难和挑战。但从提取结果发现，本实施例提出的B-FGC-Net模型较为完整地提取了大尺度建筑物，克服了相似光谱特征的地物信息干扰，极好地避免了其余五种模型建筑物信息遗漏提取的情况。此外，从图13第4-5提取结果的矩形框中发现，五种模型在小尺度、大尺度建筑物的提取效果依然不能令人满意，存在较为严重的建筑物错误提取现象。然而，B-FGC-Net模型通过SA和CLFR，突出了空间、通道维度上的建筑物特征，近乎完美地避免了小尺度建筑物提取结果的“粘连现象”。在其它具有挑战性的建筑物场景中，如第六行的建筑物阴影、第七行的树木遮挡以及第八行的复杂城市建筑，五种经典模型均存在提取结果不完整、建筑物外边界位置不够精确的缺点。而B-FGC-Net模型通过SA、GFIA和CLFR，突出了建筑物特征，抑制了噪声信息的表达，同时聚合了多尺度的全局上下文信息，取得了令人满意的建筑物提取视觉效果。

表4显示了七种模型在INRIA建筑物测试集上的评价结果。由表4可知，7种模型的OA、F1分数和IOU分别超过95％、83％、71％，进一步表明本实施例提供的B-FGC-Net模型在建筑物提取领域具有较好的提取精度。同时也可以发现，与其它几种模型相比，B-FGC-Net模型取得了最高的OA(96.7％)、F1(88.46％)和IOU(79.31％)，实现了最佳的提取精度。此外，LinkNet*模型的F1和IOU比LinkNet模型分别提高了3.67％和5.65％，再一次表明了初始层过度的下采样会影响模型的提取精度，同时也反映了本实施例在初始层删除下采样操作的合理性。然而，B-FGC-Net模型的F1分数和IOU比LinkNet*分别提高了0.58％和0.93％。与UNet模型相比，B-FGC-Net模型通过空间注意力模块、全局特征信息感知模块和跨层次校正模块，将F1分数和IOU分别提高了2.22％和3.51％，表明注意力机制和扩张卷积能有效地提高模型的精度，在测试集上取得了最好的提取性能。

表4不同模型在INRIA测试集上的评价结果表

从WHU和INRIA建筑物测试集上的可视化结果和评估指标对比，可以发现，B-FGC-Net通过SA、GFIA和CLFR，突出了在空间维度的建筑物特征，聚集了多尺度的上下文信息和全局语义信息，有效地去除了浅层特征的冗余信息。因而，B-FGC-Net模型在两个测试集中，取得了较好的视觉提取效果，对小尺度、大尺度和高复杂度建筑物具有均有较好的提取性能，克服了建筑物阴影和树木遮挡的噪声信息干扰。

下面基于模型的主要结构功能对本发明提供的建筑物提取模型的优点进行说明。

1、不同层次空间注意力的有效性探析

为了体现不同层次空间注意力的有效性，本实施例在WHU建筑物数据集上，通过消融实验和特征可视化操作进一步探析空间注意力的机制和作用。

表5展示了不同层次的空间注意力单元在WHU建筑物测试集上的评估结果。由表5可知，与第1个模型相比，第5个模型的F1分数和IOU分别提高了0.34％和0.64％，表明空间注意力能提高模型的分类精度。仔细观察可知，将1-5模型两两比较，其IOU变化依次为0.32％、0.03％、0.07％和0.32％，表明第4层和第1层的空间注意力带来的精度提升最为显著，但这并不能忽视第2-3层空间注意力的重要性，因为实验1-5是随着SA逐层进行的。随着空间注意力在编码器中逐层添加，模型的F1分数和IOU也在逐渐上升，进一步表明空间注意力能够在空间维度突出建筑的相关特征，忽略其他信息的干扰。

表5不同层次空间注意力在WHU测试集上的评估结果表

图14展示了B-FGC-Net模型在不同层次下空间注意力单元前后的特征可视化对比情况，不同的亮度表示模型对建筑物特征不同程度的关注程度。由图14可知，在每层空间注意力前后的特征图，均出现了不同程度的亮度变化。观察图14(b)-(c)发现，在添加了空间注意力后，建筑物区的亮度被显著的增加。这说明第一层的空间注意力有效地改善了模型过于追求建筑物边界信息的现象，迫使模型重点关注建筑物特征，忽视其它背景信息。尤其是从第四行特征可视化结果可以看出，空间注意力突出了建筑物特征在空间维度的表达，更重要的是减弱了建筑物阴影的亮度，有效地抑制了背景信息的干扰。随着空间注意层次的增加，建筑物特征的空间语义信息也逐渐抽象化，但不能看出，空间注意力增加了建筑物和非建筑物之间的对比度，使得模型重点学习建筑物特征信息。由图14(h)-(i)列的特征图可知，第四层的特征最为抽象，而空间注意力将建筑物的相关区域进行特定颜色(例如红色)标识，提升了模型对建筑物特征空间信息的感知能力。

2、不同全局特征信息感知模块对比分析

为验证全局语义信息感知模块性能，本实施例基于B-FGC-Net模型，与PSP-Net模型中的PyramidPooling Module(PPM)、DeepLabV3模型中的ASPP以及D-LinkNet模型中心部分的扩张卷积单元(Dilated Convolution Unit,DCU)对比分析。同时也比较了各个模块之间的FLOPs和参数大小，分析它们的时间复杂度和空间复杂度。由表可知，GFIA在FLOPs、参数大小、F1和IOU精度方面，都要优于其它全局特征信息聚合模块。PPM和ASPP虽然可以在保持较小的FLOPs和参数的情况下，有效地提升了模型的精度，但与GFIA相比，给模型带来的精度增益似乎远远不够。DCU尽管通过扩张卷积聚合了特征的全局信息，但其FLOPs和参数较大，给模型带来了更大的计算量。GFIA在DCU的基础上，加入了深度可分离卷积，极大地减少了FLOPs和参数量，减轻了模型训练复杂度，实现了较好的提取精度。此外，GFIA采用自注意单元增强全局语义信息之间的空间关系，有效地聚集了建筑物特征信息。相比之下，GFIA在保持较低的复杂性的基础上，获得了最高的模型精度，这表明GFIA通过扩张卷积和自注意单元，捕捉了建筑物特征的多尺度上下文信息，完成了全局语义信息的有效聚集，在WHU测试集上取得了较好的提取精度，如表6所示。

表6全局特征信息感知模块与其他模块在WHU建筑物测试集的评估结果表

表6中，GFLOPs和Parameters是通过维度为1×512×32×32的张量计算得到。

3、不同跨层次特征融合方式对比分析

图15展示了基于BFGC-Net模型的四种不同跨层次特征融合方式在WHU测试集上的F1和IOU精度对比，包括通道叠加、逐像素相加、CLFR-SE模块和本文提出的CLFR模块。CLFR-SE模块是将本文所提出的CLFR中的通道注意力替换为了SE注意力机制。由图15可知，通道叠加与逐像素相加模型的F1分数和IOU明显低于CLFR-SE和CLFR模块，其主要原因是浅层和深层特征之间具有较大的语义差距，且浅层特征含有大量的冗余噪声信息。鉴于浅层信息的冗余特性和语义差距，本实施例设计了一种跨层次特征校正模块，一方面充分利用了浅层特征丰富的空间信息，另一方面也去除了其中的冗余信息。CLFR可以从对应的浅层特征和深层特征，自动地学习两者通道维度之间的互补信息，完成了浅层特征的有效信息利用，显著地增强了模型分类性能。为了选取更好的CLFR中通道学习模块，本实施例对比了SE和ECA两种通道注意力的学习能力，实验结果表明后者在只增加了少数参数的情况下，却获得了明显的性能增益。综合对比四种跨层次特征融合方式，表明基于ECA的CLFR通过学习深层特征的通道语义信息，完成了对浅层特征的通道信息校正，并聚合了跨层次的特征信息，显著地提升了模型的精度。

4、不同模块的消融实验

为了验证B-FGC-Net模型中每个模块的合理性及有效性，本实施例采用编码器为ResNet34的基线模型(Baseline)，使用F1分数和IOU定量评估模型在WHU测试集上的精度，详细结果如表7所示。从表7中可以看出，基线模型的F1分数和IOU分别为94.02％和88.71％，比经典UNet模型分别高出0.96％和1.69％，表明由ResNet34模型作为的编码器具有较强的特征提取能力。引入空间注意力机制，重点关注在空间维度的建筑物特征，忽视建筑物阴影等其它无关的背景信息，与基线模型相比，分别带来了0.42％和0.75％的F1和IOU的精度提升。全局语义信息感知模块通过扩张卷积单元和自注意单元，与基线模型相比，其F1分数和IOU分别提升了0.54％和0.97％，表明该模块捕获了更大尺度的建筑特征信息，有效地整合了全局特征。通过添加跨层次特征校正模块，使得F1分数和IOU提高了0.74％和1.33％，一方面说明该模型消除了浅层特征和深层特征之间的语义差距，另一方面也充分利用了浅层特征丰富的空间信息。总而言之，通过各个模块之间的消融实验，证明了空间注意力、全局特征信息感知模块和跨层次特征校正模块均能有效的地提高模型的预测性能。表中，√表示含有对应的模块。

表7模型在WHU建筑物测试集的消融实验评估结果表

基于上述描述，本发明提供的建筑物提取模型(B-FGC-Net)，在编码器部分引入了残差学习单元和空间注意力机制，不仅提高了模型的训练速度，而且突出了空间维度的建筑物特征。全局特征信息感知模块捕捉了特征的全局上下文信息，提升了模型的全局感知能力。跨层次特征校正模块有效地考虑了浅层特征和深层特征之间的语义差距，从通道维度完成了跨层次特征信息的有效融合，抑制了浅层特征的冗余信息，提高了模型的建筑物提取性能。与经典的建筑物提取方法相比，集成了残差学习、SA、GFIA和CLFR的B-FGC-UNet模型，具备了特征突出、全局感知、跨层次信息整合能力，在高分辨率遥感影像建筑物提取任务中表现出良好的性能。

以待检测地区的建筑物遥感图像为输入，采用建筑物结果提取模型输出建筑物提取结果；所述建筑物结果提取模型为上述提供的建筑物提取模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本实施例中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种建筑物提取模型的构建方法，其特征在于，构建得到的建筑物提取模型包括：编码器、全局特征信息感知模块和解码器；

所述编码器以建筑物遥感图像为输入以编码图像为输出；所述全局特征信息感知模块与所述编码器连接，所述全局特征信息感知模块以所述编码图像为输入以特征提取图为输出；所述解码器分别与所述编码器和所述全局特征信息感知模块连接，所述解码器以所述特征提取图为输入以建筑物提取结果为输出；

所述编码器包括：第一特征提取子模块、第二特征提取子模块、第三特征提取子模块和第四特征提取子模块；

所述第一特征提取子模块与所述解码器连接，所述第一特征提取子模块以所述建筑物遥感图像为输入以第一提取特征为输出；所述第二特征提取子模块分别与所述第一特征提取子模块和所述解码器连接，所述第二特征提取子模块以所述第一提取特征为输入以第二提取特征为输出；所述第三特征提取子模块分别与所述第二特征提取子模块和所述解码器连接，所述第三特征提取子模块以所述第二提取特征为输入以第三提取特征为输出；所述第四特征提取子模块分别与所述第三特征提取子模块和所述全局特征信息感知模块连接，所述第四特征提取子模块以第三提取特征为输入以所述编码图像为输出；

所述第一特征提取子模块包括：第一卷积层和第一空间注意力单元；

所述第四空间注意力单元分别与所述第四卷积层和所述全局特征信息感知模块连接，所述第四空间注意力单元以第四空间尺度的建筑物浅层特征为输入以所述编码图像为输出；

所述全局特征信息感知模块包括：扩张卷积单元和自注意力单元；

所述扩张卷积单元包括多个具有不同扩张率的卷积；所述自注意力单元用于学习所述扩张卷积单元生成的特征间的相关性；所述自注意力单元为Non-Local单元；通过所述自注意力单元关注每个特征点的长距离依赖性，构建特征点与特征点之间的空间关系，来提高模型的全局特征信息感知能力。

2.根据权利要求1所述的建筑物提取模型的构建方法，其特征在于，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层的结构均不相同。

3.根据权利要求2所述的建筑物提取模型的构建方法，其特征在于，所述第一空间注意力单元、所述第二空间注意力单元、所述第三空间注意力单元和所述第四空间注意力单元均包括：池化层、卷积层和激活函数。

4.根据权利要求2所述的建筑物提取模型的构建方法，其特征在于，所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四卷积层均包括多个堆叠的残差学习块；所述第二卷积层、所述第三卷积层和所述第四卷积层均包括下采样卷积块。

5.根据权利要求1所述的建筑物提取模型的构建方法，其特征在于，所述解码器包括跨层次特征校正模块。

6.根据权利要求5所述的建筑物提取模型的构建方法，其特征在于，所述跨层次特征校正模块包括：全局平均池化层、一维卷积层和激活函数。

7.一种遥感图像建筑物提取方法，其特征在于，包括:

以待检测地区的建筑物遥感图像为输入，采用建筑物结果提取模型输出建筑物提取结果；所述建筑物结果提取模型为采用权利要求1-6任意一项所述的建筑物提取模型的构建方法构建得到的模型。