CN113569788B

CN113569788B - 一种建筑物语义分割网络模型训练方法、系统及应用方法

Info

Publication number: CN113569788B
Application number: CN202110896617.6A
Authority: CN
Inventors: 王勇
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2022-05-10
Anticipated expiration: 2041-08-05
Also published as: CN113569788A

Abstract

本发明涉及一种建筑物语义分割网络模型训练方法、系统及应用方法，该训练方法包括以下步骤：基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED‑LinkNet模型；获取遥感影像；对所述遥感影像进行预处理，得到若干个训练影像和若干个测试影像；将若干个所述训练影像输入到所述SED‑LinkNet模型进行训练，得到训练完成的SED‑LinkNet模型；将若干个所述测试影像输入到所述训练完成的SED‑LinkNet模型进行验证，得到训练结果。通过该训练方法解决了现有建筑物提取方法存在提取精度不高的问题。

Description

一种建筑物语义分割网络模型训练方法、系统及应用方法

技术领域

本发明涉及遥感图像处理、地理学地表要素提取、计算机深度学习等交叉技术领域，特别是涉及一种建筑物语义分割网络模型训练方法、系统及应用方法。

背景技术

相比卫星遥感技术，无人机遥感具有极高的时空分辨率，被广泛应用在电路巡检、应急救援、新闻拍摄、农业保险等领域。建筑物作为无人机飞行约束要素地理实体之一，阻碍了无人机的飞行航路和飞行高度，并对无人机的飞行安全造成了一定的威胁。因此，快速、准确地获取建筑物空间位置信息，对保障无人机飞行安全具有重要的意义。

近年来，遥感影像逐渐向多源化、高分辨率发展，但建筑物在不同的遥感影像有以下共同特点：(1)多种光谱特征。建筑物尽管屋顶颜色不一，但同一材质屋顶的光谱特征在遥感影像中是均匀变化的，能明显的与农田、道路等建筑物周围其它地物进行区分。(2)明显的几何边缘特征。大多数建筑物的轮廓具有明显的直角、圆形等几何特征，可以通过此特征识别建筑物，同时排除如树木等不规则地表物体信息干扰。(3)差异性较大的高度信息。建筑物作为一种具有一定高度信息的人造地物，能较好的与其它地物进行区分。通过以上建筑物的各种特征，众多学者提出了基于目视解译、边缘检测和面向对象等方法进行建筑物信息提取。但这些方法十分依赖建筑物的颜色特征、边缘特征、角点特征、线性特征、纹理特征等低层次特征，存在提取精度较差等缺点，不能满足高精度的建筑物信息提取需求。

因此，如何解决现有建筑物提取方法提取精度不高的问题，成为本领域当前要解决的问题。

发明内容

本发明的目的是提供一种建筑物语义分割网络模型训练方法、系统及应用方法，解决了现有建筑物提取方法存在提取精度不高的问题。

为实现上述目的，本发明提供了如下方案：

一种建筑物语义分割网络模型训练方法，该训练方法包括以下步骤：

基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型；

获取遥感影像；

对所述遥感影像进行预处理，得到若干个训练影像和若干个测试影像；

将若干个所述训练影像输入到所述SED-LinkNet模型进行训练，得到训练完成的SED-LinkNet模型；

将若干个所述测试影像输入到所述训练完成的SED-LinkNet模型进行验证，得到训练结果。

本发明还提供一种建筑物语义分割网络模型训练系统，该训练系统包括：

SED-LinkNet模型构建模块，用于基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型；

遥感影像获取模块，用于获取遥感影像；

预处理模块，用于对所述遥感影像进行预处理，得到若干个训练影像和若干个测试影像；

训练模块，用于将若干个所述训练影像输入到所述SED-LinkNet模型进行训练，得到训练完成的SED-LinkNet模型；

验证模块，用于将若干个所述测试影像输入到所述训练完成的SED-LinkNet模型进行验证，得到训练结果。

本发明还提供了一种建筑物语义分割网络模型的应用方法，该应用方法包括以下步骤：

获取遥感影像；

将所述遥感影像输入SED-LinkNet模型；

通过所述SED-LinkNet模型得到与所述遥感影像分辨率一致的建筑物提取结果二值图；

其中，所述SED-LinkNet模型为训练完成的建筑物语义分割网络模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种建筑物语义分割网络模型训练方法、系统及应用方法，本发明基于深度卷积神经网络，构建了一种融合注意力机制和扩张卷积的建筑物语义分割网络模型(SED-LinkNet)。该模型在编码部分使用残差学习单元，加快模型训练速度并提升分类预测性能；应用注意力机制在通道维度上突出建筑特征信息，加强对浅层特征的利用程度；使用扩张卷积接受更大范围的特征区域，以整合建筑物特征的全局语义信息。采用边界误差损失函数进行训练，提高模型对建筑物边缘信息的感知能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的一种遥感图像建筑物信息提取方法的流程图；

图2为SED-LinkNet模型的结构框图；

图3为编码单元的结构框图；

图4为残差学习单元的结构框图；

图5为压缩激活注意力机制单元的结构框图；

图6为标准卷积与扩张卷积示意图；

图7为扩张卷积模块的结构框图；

图8为解码单元的结构框图；

图9为训练损失函数计算过程；

图10为遥感影像示意图；

图11为遥感影像预处理流程图；

图12为损失值和正确率变化图；

图13为SED-LinkNet模型提取结果；

图14为不同模型建筑物提取结果，(a)原始图像，(b)标签影像，(c)LinkNet，(d)D-LinkNet，(e)SED-LinkNet；

图15为不同损失函数的损失值和正确率变化图；

图16为不同损失函数的建筑物提取结果；

图17为SED-LinkNet模型泛化能力提取结果，(a)测试图像，(b)标签影像，(c)SED-LinkNet模型提取结果；

图18为本发明实施例2提供的一种遥感图像建筑物信息提取系统的结构框图图；

图19为本发明实施例3提供的一种建筑物语义分割网络模型的应用方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于深度学习的建筑物提取方法逐渐成为一种快速、准确和自动化的解决方案。通过构建深层卷积神经网络模型的深度学习方法，在海量的训练样本中自主地学习建筑物相关特征，避免了传统方法人为构造特征的缺点。由卷积层、池化层、激活函数、全连接层组成的深层卷积神经网络模型，具有局部信息感知和权重参数共享的特点，被广泛应用在基于各种遥感影像的地物信息提取研究领域。尽管深度学习在遥感影像语义分割领域发展迅猛，但由于建筑物自身的复杂性以及背景信息噪音干扰，使得建筑物信息提取存在一定程度上的困难，主要体现在以下几方面：(1)深度学习模型浅层特征利用程度不高。现阶段的主流语义分割模型(如LinkNet模型)利用编码器提取图像的浅层特征，并与解码器深层特征进行特征融合，增强模型对浅层特征信息的关注程度。但大多数模型仅仅只是通过直接复制的方式与深层特征进行相加或通道维度叠加操作，未能考虑浅层特征中建筑物信息在每个通道维度上的分布情况，使得浅层特征中丰富的语义信息未能有效利用。(2)特征全局语义信息整合力度不强。建筑物在遥感影像中大小不一、形状各异，导致网络模型在提取特征时存在一定的困难性。现阶段的网络模型均使用3×3大小的标准卷积提取信息。但在面临具有较大感受野的特征图时，标准卷积感受的特征区域较小，仅能提取局部的特征信息，限制了模型全局信息整合处理的能力，不能感受全局的特征信息。(3)建筑物边界信息感知能力不足。遥感影像中的大部分建筑物屋顶大多由一个或多个矩形组合而成，具有较好的几何形状特征。然而，目前深度学习损失函数只是通过建筑物预测的准确程度优化训练模型的权重参数，未能充分地考虑建筑物的边界信息条件。

针对当前方法存在的浅层特征利用不足、全局信息整合力度不强以及边界感知能力不足，本研究提出一种融合注意力机制和扩张卷积的建筑提取模型(SED-LinkNet)。该模型在编码单元中引入一种压缩激活(Squeeze-and-Excitation，SE)注意力机制，充分考虑编码模块所提取的浅层特征在通道维度上的分布情况，加强了对浅层特征的利用程度。扩张卷积模块在不增加模型参数和不减少特征维度的情况下，通过扩大卷积核之间的间隔，提取大范围的特征信息，整合了建筑物的全局信息。在训练模型时，采用一种边界误差损失函数，使得模型更加关注建筑物的边缘轮廓，提高分类预测性能。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

请参阅图1，本发明提供了一种建筑物语义分割网络模型训练方法，该训练方法包括以下步骤：

S1：基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型；

S2：获取遥感影像；所述遥感图像如图10所示；

S3：对所述遥感影像进行预处理，得到若干个训练影像和若干个测试影像；

S4：将若干个所述训练影像输入到所述SED-LinkNet模型进行训练，得到训练完成的SED-LinkNet模型；

S5：将若干个所述测试影像输入到所述训练完成的SED-LinkNet模型进行验证，得到训练结果。

如图2所示，所述SED-LinkNet模型包括：

编码模块，用于对所述遥感影像进行特征提取和关注程度加强操作，得到浅层特征；

扩张卷积模块，与所述编码模块连接，用于扩大所述扩张卷积模块中各个卷积核的间隔，并对所述浅层特征进行范围扩张特征提取，得到扩张特征；

解码模块，分别与所述编码模块和所述扩张卷积模块连接；用于对所述扩张特征进行维度扩大，并融合所述浅层特征，得到与所述遥感影像分辨率一致的建筑物提取结果二值图。

具体的，所述编码模块包括：

第一卷积单元，用于对所述遥感影像进行特征提取，得到第一卷积特征；所述第一卷积单元为7×7卷积；

第一最大池化单元，与所述第一卷积单元连接，用于对所述第一卷积特征进行最大池化操作，得到第一池化特征；

第一处理单元，与所述第一最大池化单元连接，用于对所述第一池化特征进行特征提取和关注程度加强操作，得到浅层特征；所述第一处理单元包括n个编码单元和n-1个压缩激活注意力机制单元；n为大于1的正整数；每两个编码单元之间设置有一个压缩激活注意力机制单元；其中第一个编码单元与所述第一最大池化单元连接，第n个编码单元与所述扩张卷积模块连接。在本实施例中n＝4。

如图3所示，所述编码单元包括：

第一残差学习单元，用于对第一输入特征进行特征提取，得到第一残差特征；

第二残差学习单元，与所述第一残差学习单元连接，用于对所述第一残差特征进行特征提取，得到第二残差特征；

第二最大池化单元，与所述第二残差学习单元连接，用于对所述第二残差特征进行最大池化操作，得到第二池化特征；当所述编码单元为第一个编码单元时，所述第一输入特征为所述第一池化特征，当所述编码单元为第n个编码单元时，所述第一输入特征为第n-1个压缩激活注意力机制单元输出的特征。

如图4所示，所述第一残差学习单元包括：

第二卷积单元，用于对所述第一输入特征进行特征提取，得到第二卷积特征；所述第二卷积单元为3×3卷积；

第一批量归一化单元，与所述第二卷积单元连接，用于对所述第二卷积特征进行批量归一化处理，得到第一批量归一化特征；

第一线性整流激活函数单元，与所述第一批量归一化单元连接，用于对所述第一批量归一化特征进行线性整流，得到第一线性整流特征；

第三卷积单元，与所述第一线性整流激活函数单元连接，用于对所述第一线性整流特征进行特征提取，得到第三卷积特征；所述第三卷积单元为3×3卷积；

第二批量归一化单元，与所述第三卷积单元连接，用于对所述第三卷积特征进行批量归一化处理，得到第二批量归一化特征；

第一恒等映射单元，用于对所述第一输入特征进行恒等映射，得到第一恒等映射特征；

第一特征相加单元，分别与所述第二批量归一化单元和所述第一恒等映射单元连接，用于对所述第二批量归一化特征和所述第一恒等映射特征进行相加，得到所述第一残差特征。

由于第二残差学习单元和第一残差学习单元的结构相同，所以同样参考图4，所述第二残差学习单元包括：

第四卷积单元，用于对所述第一残差特征进行特征提取，得到第四卷积特征；所述第四卷积单元为3×3卷积；

第三批量归一化单元，与所述第四卷积单元连接，用于对所述第四卷积特征进行批量归一化处理，得到第三批量归一化特征；

第二线性整流激活函数单元，与所述第三批量归一化单元连接，用于对所述第三批量归一化特征进行线性整流，得到第二线性整流特征；

第五卷积单元，与所述第二线性整流激活函数单元连接，用于对所述第二线性整流特征进行特征提取，得到第五卷积特征；所述第五卷积单元为3×3卷积

第四批量归一化单元，与所述第五卷积单元连接，用于对所述第五卷积特征进行批量归一化处理，得到第四批量归一化特征；

第二恒等映射单元，用于对所述第一残差特征进行恒等映射，得到第二恒等映射特征；

第二特征相加单元，分别与所述第四批量归一化单元和所述第二恒等映射单元连接，用于对所述第四批量归一化特征和所述第二恒等映射特征进行相加，得到所述第二残差特征。

传统的端到端网络模型在编码部分使用连续的卷积提取图像特征，尽管可以获取较好的局部特征信息，但随着网络模型深度的增加和卷积层数过多，容易导致模型出现训练不稳定以及性能下降等问题。本发明使用两个残差学习单元进行特征提取，以达到减轻模型退化问题的目的。

如图5所示，所述压缩激活注意力机制单元包括：

压缩单元，用于对第二输入特征进行空间维度上的压缩，对压缩后的每个通道域进行特征提取，得到一维特征向量，并对所述一维特征向量重新分配权重，得到压缩特征；

激活单元，与所述压缩单元连接，用于计算所述压缩特征的重要程度，并根据所述压缩特征的重要程度，使用激活函数将所述压缩特征限制在[0，1]范围，得到最终一维特征向量；将所述最终一维特征向量与所述第二输入特征进行点乘操作，完成所述浅层特征关注程度的加强；所述第二输入特征为编码单元输出的第二池化特征。

具体的，所述压缩单元包括：

第一全局平均池化单元，用于对所述第二输入特征进行空间维度上的压缩对压缩后的每个通道域进行特征提取，得到一维特征向量；

第一全连接层，与所述第一全局平均池化单元连接；

第二全连接层，与所述第一全连接层连接；

通过所述第一全连接层和所述第二全连接层对所述一维特征向量重新分配权重，得到压缩特征。

卷积神经网络通过卷积操作提取影像的局部特征，具有较强的特征学习能力。然而，标准的卷积仅能实现局部空间的特征融合，未能有效地考虑特征信息通道域之间的相关性。计算机视觉领域的注意力机制自动学习并计算输入数据对输出数据的贡献大小，突出重要的特征信息，提高模型预测的性能。

本发明通过压缩激活注意力机制单元对浅层特征进行加权激活，增加特征之间的相关性，强化建筑物特征，同时抑制背景信息的表达。

编码单元不仅提取了有效的特征信息，同时也增加了特征的感受野。然而，当面临具有较大感受野的特性时，如图6中所示的(a)标准卷积，仅能提取3×3大小的蓝色区域，不能感受较大范围的特征信息。但图6中所示的(b)扩张卷积通过扩大卷积核的间隔，在不增加模型参数和不减少特征维度的情况下，提取更大范围的特征信息，并整合了建筑物的邻域信息。

在本实施例中，所述扩张卷积模块包括若干个扩张率的扩张卷积；扩大所述扩张卷积模块中各个卷积核的间隔，并对所述浅层特征进行范围扩张特征提取，得到扩张特征具体包括：

通过若干个扩张率的扩张卷积以串联的方式对所述浅层特征进行提取特征，得到若干个浅层子特征；

将若干个浅层子特征通过并联的方式进行特征融合，得到扩张特征。

本发明采用如图7所示的扩张卷积模块(Dilated Convolution Unit，DCU)作为网络模型的中央处理器，提取更大范围的建筑物特征。DCU由四个不同扩张率(N分别取1，2，3，4)的扩张卷积级联组成，首先以串联的方式提取特征，再通过并联的方式融合特征，丰富特征信息。SED-LinkNet模型通过编码器可以生成512×16×16大小的特征图，扩张率为1、2、3、4的扩张卷积所感受的范围大小为3×3、7×7、11×11、15×15，基本可以覆盖特征图范围，同时连续的扩张卷积也避免了特征信息遗漏提取的缺点。

具体的，所述解码模块包括：

第二处理单元，用于对所述扩张特征进行维度扩大，并融合所述浅层特征，得到解码融合特征；

第六卷积单元，与所述第二处理单元连接，用于对所述解码融合特征进行特征提取，得到第六卷积特征；

分类器单元，与所述第六卷积单元连接，用于对所述第六卷积特征进行映射，得到与所述遥感影像分辨率一致的建筑物提取结果二值图；

其中，所述第二处理单元包括n个解码单元和n-1个特征相加操作单元；n为大于1的正整数；每两个解码单元之间设置有一个特征相加操作单元；第一个解码单元与所述扩张卷积模块连接，第n个解码单元与所述第六卷积单元连接，在本实施例中n＝4。

如图8所示，所述解码单元包括：

第一解码子单元，用于对第三输入特征进行特征提取，减小特征计算量，得到第一解码特征；所述第一解码子单元包括：

第七卷积单元，用于对所述第三输入特征进行特征提取，减小所述第三输入特征的计算量，得到第七卷积特征；所述第七卷积单元为3×3卷积；

第五批量归一化单元，与所述第七卷积单元连接，用于对所述第七卷积特征进行批量归一化处理，得到第五批量归一化特征；

第三线性整流激活函数单元，与所述第五批量归一化单元连接，用于对所述第五批量归一化特征进行线性整流，得到第一解码特征。

第二解码子单元，与所述第一解码子单元连接，用于扩大所述第一解码特征的维度，得到第二解码特征；所述第二解码子单元包括：

第一转置卷积单元，与所述第三线性整流激活函数单元连接，用于扩大所述第一解码特征的维度，得到第一转置卷积特征；所述第一转置卷积单元为3×3卷积；

第六批量归一化单元，与所述第一转置卷积单元连接，用于对所述第一转置卷积特征进行批量归一化处理，得到第六批量归一化特征；

第四线性整流激活函数单元，与所述第六批量归一化单元连接，用于对所述第六批量归一化特征进行线性整流，得到第二解码特征。

第三解码子单元，与所述第二解码子单元连接，用于将所述第二解码特征的通道数扩大两倍，得到第三解码特征；所述第三解码子单元包括：

第八卷积单元，与所述第四线性整流激活函数单元连接，用于将所述第二解码特征的通道数扩大两倍，得到第八卷积特征；所述第八卷积单元为3×3卷积；

第六批量归一化单元，与所述第八卷积单元连接，用于对所述第八卷积特征进行批量归一化处理，得到第六批量归一化特征；

第五线性整流激活函数单元，与所述第六批量归一化单元连接，用于对所述第六批量归一化特征进行线性整流，得到第三解码特征。

当所述解码单元为第一个解码单元时，所述第三输入特征为所述扩张特征，当所述解码单元为第n个解码单元时，所述第三输入特征为第n-1个特征相加操作单元输出的特征。

如图11所示，在步骤S3中，对遥感影像进行预处理，得到若干个训练影像和若干个测试影像具体包括：

S31：矢量化，使用ArcGIS软件对所述无人机遥感影像进行标注，将建筑物类别标注为X，背景区域标注为Y，得到标签影像；其中，X和Y为不同的数；在本实施例中，X＝1，Y＝0；

S32：图像切割，分别对所述无人机遥感影像和所述标签影像进行图像切割，得到若干个小幅无人机遥感影像和若干个小幅标签影像；基于Python编程语言和GDAL库，使用1024×1024像元大小以滑动窗口的方式进行分割。由于受到计算机显存大小的限制，将分割后的图像缩放至256×256像元大小。

S33：数据增强，为提高训练样本数量以及模型的泛化能力，采用数据增强图像旋转的方法将若干个所述小幅无人机遥感影像先后旋转0°、90°、180°和270°，同时将若干个所述小幅标签影像先后旋转0°、90°、180°和270°，得到数据增强后的图像；

S34：根据所述数据增强后的图像得到若干个训练影像和若干个测试影像。

对于建筑物提取二分类任务，一般使用二进制交叉熵(Binary Cross Entropy，BCE)损失函数训练模型。BCE损失函数只关注建筑物是否被正确分类，对建筑物边缘难以界定。因此，本发明采用一种边界误差(Boundary Error，BE)损失函数，迫使模型更加注意建筑物的边界信息，计算过程如图9所示。

具体的，在本实施例的步骤S5之后还包括：

S6：引用损失函数对所述SED-LinkNet模型进行训练，训练过程具体包括：

S61：采用二进制交叉熵损失函数计算标签影像和预测结果之间的误差值，得到二进制交叉熵损失函数的损失大小；

S62：通过拉普拉斯算子提取所述标签影像和所述预测结果中的建筑物边界信息；

S63：采用均方误差损失函数计算边界误差损失大小；

S64：将所述二进制交叉熵损失函数的损失大小和所述边界误差损失大小进行相加处理，得到复合损失大小；

S65：根据所述复合损失大小，通过反向传播的方式更新所述SED-LinkNet模型中的卷积核参数，完成对所述SED-LinkNet模型的训练；

其中，二进制交叉熵损失函数的损失大小的计算方法如下：

边界误差损失大小的计算方法如下：

式中，Loss_BCE为二进制交叉熵损失函数计算的损失值，Loss_MSE为边界误差损失函数计算的损失值，y_i为真实值，y′_i为模型预测值，N为样本总个数。

在步骤S6之后还包括：

S7：通过评价指标对训练完成后的SED-LinkNet模型进行分类预测，得到综合评价；

为定量分析模型的分类预测性能，一般使用混淆矩阵及其衍生公式综合评价。将预测结果和真实情况进行组合划分，得到TP(真正例)、TN(真负例)、FP(假正例)、FN(假负例)四种情况，进而可定义总体精度(OverAccuracy，OA)、精确率(Precision，P)、召回率(Recall，R)、F1分数(F1-score，F1)和交并比(Intersection overUnion，IOU)五种评价指标，具体如下：

然而，基于遥感影像的建筑物提取存在一个共同的问题：一般情况下，图像中建筑物像元占比较少，而背景像元数量较多。在这种正负样本数量极端不平衡的情况下，OA、P和R并不能反映模型的提取精度和分类性能。因此，参考已有的研究成果，本研究主要使用F1分数和IOU两个评价综合评价，而OA、P和R仅为参考指标。

下面以具体的数据来对本发明进行验证。

研究区域位于天津市宝坻区京津新城(东经117°22′～117°26′，北纬39°31′～39°33′)，地处中国环渤海经济区，拥有极为丰富的地热资源。京津新城作为具有世界影响的“亚洲最大高端别墅区”，也是国内别具一格的休闲度假型别墅项目之一。该研究区域的无人机遥感影像如图10所示，由红、绿、蓝三波段构成，空间分辨率为0.05m。作为无人机飞行约束要素地理实体之一的建筑物，在影像中大多以山水别墅、普通居民楼、会议酒店和办公场所等类型呈现。

SED-LinkNet模型基于Python开发语言和Pytorch深度学习框架构建，在Windows操作平台训练及验证测试。训练的硬件配置为NVIDIA GeForce RTX 2060，CPU处理器为Intel(R)Core(TM)i7-10875H，详细参数如表1所示。

表1环境配置参数

使用Adam优化器进行优化模型参数，学习率和批大小分别设置为0.0001和4，共计训练200轮次。图12展示了模型在训练中损失值和综合准确率的变化情况。从图中可以发现，损失值随着训练轮次的增加，逐渐下降，最终趋于平缓；准确率随着轮次的增加，逐渐升高，并接近于1。损失值和准确率趋于平缓的现象表明模型训练正常。

图13为SED-LinkNet模型在测试影像中的建筑物提取结果。由图可知，本发明提出的SED-LinkNet模型对小尺度、几何特征明显的建筑物区域具有较好的提取效果。尽管提取结果中部分建筑物的边缘信息未能较好的整合，但大部分的建筑物的轮廓均能有效地的提取。此外，本发明设计的SED-LinkNet模型对标签未进行标注的建筑物，也能有效地进行识别。综上所述，SED-LinkNet模型对具有明显几何特征、未进行标注的建筑物，具有一定的预测性能。

使用OA、P、R、F1和IOU五种评价指标综合评估SED-LinkNet模型在测试影像上的测试结果，评估结果如表2所示。从表中可以发现，本发明设计的SED-LinkNet模型在测试影像上的OA均在97％以上，表明该模型能较好的区分建筑物信息和背景区域，尤其在图片(2)中建筑物几何特征良好的情况下，其OA达到了99.45％，具有较高的准确率。值得一提的是，图(4)的OA(97.88％)、F1(95.63％)和IOU(84.43％)为六张图像中最低，其可能的原因是模型预测结果中含有标签未标注的建筑物区域，而这些区域在标签中没有出现，将预测结果和标签影像带入到评估公式中则会降低评估结果。尽管这样，SED-LinkNet模型在测试集的的F1分数和IOU分别超过95％和94％，说明该模型在几何特征明显区域具有较好的提取能力。

表2SED-LinkNet模型提取结果评价

为检验SED-LinkNet模型在建筑物信息提取领域的性能，本发明使用经典LinkNet和D-LinkNet网络模型对比分析，应用相同的数据集和学习率进行训练，并采用测试影像和评价指标分别进行测试及评估。

图14展示了不同模型在建筑物边缘轮廓、建筑物内部信息等情况下的提取效果。从图中可以看出，LinkNet、D-LinkNet和SED-LinkNet三种模型均能提取大部分建筑物，表明基于端到端的深度卷积神经网络在建筑物提取领域具有较好的效果。虽然LinkNet和D-LinkNet模型所提取的结果存在部分不完整、边缘轮廓整合较差，但是能正确地区分大部分背景区域和建筑物。然而，融合了注意力机制和扩张卷积的SED-LinkNet模型，相比于LinkNet和D-LinkNet模型，能较好地提取建筑物的内部信息，同时也能较完整的提取所有建筑物信息，尤其在Image1的建筑物最为明显。

使用评价指标定量分析三种模型的精度，得到如表3所示的评估结果。从表中可以看出，三种模型的OA均在95％以上，表明均能较好的区分背景区域和建筑物信息。然而，LinkNet模型在Image1上的OA、F1和IOU分别比D-LinkNet模型低9.26％、24.75％和25.22％，表明由不同扩张率级联组成的DCU可以有效地整合特征信息，较为完整的提取建筑物。此外，SED-LinkNet模型在Image6的OA、F1和IOU比D-LinkNet模型高出1.15％、2.87％和3.35％，说明注意力机制通过加权赋值的形式突出了建筑物特征信息，有效地提高了模型分类预测的准确率。

表3不同影像提取结果评价

表4展示了三种模型在所有测试影像上的平均评估结果，同时也更能反映模型的综合预测性能。从表中可知，三种模型在测试集上的OA、F1分数和IOU分别达到95％、87％和86％，表明基于深度学习的建筑物提取模型具有较高的提取精度。同时，SED-LinkNet模型相比LinkNet模型、D-LinkNet模型，具有最高的F1分数和IOU，分别达到97.34％和96.75％，表明SE注意力模块和DCU能显著增强模型的预测精度。

表4所有测试集下不同模型的评价结果

为验证边界感知损失函数是否能有效地区分建筑物边界以及提高模型的精度，本发明使用BCE损失函数和“BCE+BE”损失函数进行对比，并从训练时的模型收敛情况、提取结果、评价指标三个方面综合评估。

如图15所示，BCE与BE相结合的损失函数训练的模型(简称A模型)，与单独BCE损失函数训练的模型(简称B模型)，其损失大小随着训练轮次的增加逐渐趋于0，表明两个损失函数均能有效地的训练模型。但局部放大前20训练轮次的损失值变化(如图15所示)，A模型相比于B模型收敛速度较快，尤其在第5训练轮次最为明显。

A、B两模型分别使用测试集进行建筑物信息提取，得到如图16所示的建筑物提取结果，分别体现了两种模型在建筑物边缘轮廓信息优化、建筑物几何特征明显、建筑物内部信息完整程度等情况下的提取性能。如图中Image1的椭圆圈所示，“BCE+BE”训练的A模型，相比于BCE训练的B模型，对于建筑物边缘轮廓信息具有一定的成效，可以较好地勾勒出笔直的建筑物边缘。通过观察Image2的建筑物提取结果，可以发现“BCE+BE”损失函数和BCE损失函数在建筑物几何特征明显的情况时，均能有效地提取建筑物信息。尽管如此，BCE训练的B模型对于建筑物内部信息的细节整合程度较差(如图中Image3椭圆圈所示)，而“BCE+BE”训练的A模型能较好地区域。

定量分析两种损失函数所训练的模型在测试集上的精度，得到如表5所示的评估结果表。从表中看出，两种损失函数的总体精度(OA)均在99％以上，表明都能正确地识别背景区域和建筑物信息。然而，在Image1中，复合损失函数在F1分数和IOU比BCE损失函数分别高出0.31％和0.36％，这也说明前者能较好的提取建筑物边缘信息。此外，BCE与BE相结合的损失函数在所有测试集的平均OA、F1和IOU比BCE损失函数高出0.08％、0.16％和0.19％，反映出边界损失函数能提高模型对建筑物边缘信息的感知能力，从而有效地提高了模型的预测精度。

表5不同损失函数评价结果

本发明使用Inria Aerial Image Labeling实验室公开的城市建筑物数据集，以检验SED-LinkNet模型的泛化能力。然而由于该数据集数据量较多、计算机显存较小等限制因素，本发明只使用该数据集中奥斯汀(Austin)城市建筑物影像作为模型训练和测试的数据集，并采用512×512的滑动窗口对图像进行裁剪，再根据随机取样的原则进行划分，共得到2000张训练影像和357张测试影像。应用相同的优化函数和学习率训练模型，并在测试影像上提取建筑物信息，得到图17的提取结果。

从预测结果中可以看出，SED-LinkNet模型在6张测试影像上尽管存在小部分误提取、提取不完整等情况，但大部分建筑物信息均能有效地被识别，例如测试图像(1)、(2)中椭圆圈所示，本发明设计的SED-LinkNet模型对具有较好边缘特征的建筑物能有效地的提取。同时，融合了扩张卷积的SED-LinkNet模型整合了建筑物内部信息，使得提取结果较为完整。对于目标较小的建筑物信息(如测试图像(3)、(4)椭圆圈所示)，基于压缩激活注意力机制的建筑物提取模型，考虑了建筑物的分布情况，正确度预测建筑物的位置信息。在面临曲折率较大的建筑物时(如测试集图像(5)、(6)椭圆圈所示)，SED-LinkNet模型也能较为完整提取建筑物信息，表现出较好的建筑物提取性能。总体而言，SED-LinkNet模型对建筑物的边缘信息具有较好的感知能力，在小尺度建筑物和曲折率较大建筑物具有较好的提取效果。

使用评价指标定量分析SED-LinkNet模型在测试影像的提取结果，得到如表6所示的评价结果。从表中可以看出，本发明的SED-LinkNet模型在奥斯汀城市建筑物测试集上的OA均在95％以上，表明该模型能较好地区分建筑物信息与背景区域，具有一定的识别效果。通过定量分析，SED-LinkNet模型在大尺度建筑物(1)、(2)上的F1分数分别达到93.65％和97.29％，在小尺度建筑物(3)、(4)上的F1分数分别达到92.31％和90.20％，说明引入的扩张卷积和压缩激活注意力机制在面对不同尺度的建筑物具有一定的成效。在所有InriaAerial Image Labeling城市建筑物测试集上，融合了扩张卷积单元和注意力机制的SED-LinkNet模型平均OA、F1和IOU分别高达95.71％、87.30％和86.37％，表明本发明设计的SED-LinkNet模型具有较好的泛化能力。

为提高无人机遥感影像建筑物提取精度，本发明基于端到端的深层卷积神经网络模型，提出一种基于残差学习单元并融合了注意力机制和扩张卷积的语义分割网络模型SED-LinkNet，并采用BE和BCE相结合的复合损失函数训练模型，经与先进的LinkNet和D-LinkNet模型对比分析，得到以下结论：

(1)基于端到端的深度学习语义分割模型在建筑物信息提取领域具有一定的成效。在无人机建筑物测试集中，LinkNet、D-LinkNet和SED-LinkNet的F1分数分别为87.79％、94.47％、97.34％，表明基于端到端的深层卷积神经玩过模型具有较高的建筑物提取精度。同时，基于深度学习的地物提取方法对于其他地物信息提取具有重要的借鉴价值和使用意义。

(2)融合了注意力机制和扩张卷积的SED-LinkNet模型具有较高的提取精度，在测试集上的F1分数和IOU分别达到97.34％和96.75％。与经典LinkNet模型相比，该模型使用压缩激活注意力机制以分配权重的形式，提高了模型对建筑物特征信息的关注程度，弱化对背景噪声信息的表达；采用扩张卷积扩大了卷积核之间的间隔，提取了更大范围的特征信息，并考虑特征的全局语义信息。

(3)边界误差损失函数可以提升建筑物边缘检测能力。使用边界误差损失训练的模型，对建筑物的边缘信息具有较强的感知能力，比单独使用BCE损失函数的模型，在测试集上的F1分数和IOU分别高出0.16％和0.19％，表明边界误差损失能提升模型的预测精度。

实施例2：

请参阅图18，本发明还提供一种建筑物语义分割网络模型训练系统，该训练系统包括：

SED-LinkNet模型构建模:1，用于基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型；

遥感影像获取模块2，用于获取遥感影像；

预处理模块3，用于对所述遥感影像进行预处理，得到若干个训练影像和若干个测试影像；

训练模块4，用于将若干个所述训练影像输入到所述SED-LinkNet模型进行训练，得到训练完成的SED-LinkNet模型；

验证模块5，用于将若干个所述测试影像输入到所述训练完成的SED-LinkNet模型进行验证，得到训练结果。

实施例3：

请参阅图19，本发明还提供了一种建筑物语义分割网络模型的应用方法，该应用方法包括以下步骤：

M1：获取遥感影像；

M2：将所述遥感影像输入SED-LinkNet模型；

M3：通过所述SED-LinkNet模型得到与所述遥感影像分辨率一致的建筑物提取结果二值图；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种建筑物语义分割网络模型训练方法，其特征在于，包括以下步骤：

基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型，所述SED-LinkNet模型为融合注意力机制和扩张卷积的建筑提取模型；所述SED-LinkNet模型在编码单元中引入一种压缩激活注意力机制单元，充分考虑编码模块所提取的浅层特征在通道维度上的分布情况，加强了对浅层特征的利用程度，通过压缩激活注意力机制单元对浅层特征进行加权激活，增加特征之间的相关性，强化建筑物特征，同时抑制背景信息的表达；

获取遥感影像；

2.根据权利要求1所述建筑物语义分割网络模型训练方法，其特征在于，所述SED-LinkNet模型包括：

解码模块，分别与所述编码模块和所述扩张卷积模块连接；用于对所述扩张特征进行维度扩大，并融合所述浅层特征，得到与所述遥感影像分辨率一致的建筑物提取结果二值图；

所述编码模块包括：

第一卷积单元，用于对所述遥感影像进行特征提取，得到第一卷积特征；

第一处理单元，与所述第一最大池化单元连接，用于对所述第一池化特征进行特征提取和关注程度加强操作，得到浅层特征；所述第一处理单元包括n个编码单元和n-1个压缩激活注意力机制单元；n为大于1的正整数；每两个编码单元之间设置有一个压缩激活注意力机制单元；其中第一个编码单元与所述第一最大池化单元连接，第n个编码单元与所述扩张卷积模块连接；

所述编码单元包括：

第二最大池化单元，与所述第二残差学习单元连接，用于对所述第二残差特征进行最大池化操作，得到第二池化特征；当所述编码单元为第一个编码单元时，所述第一输入特征为所述第一池化特征，当所述编码单元为第n个编码单元时，所述第一输入特征为第n-1个压缩激活注意力机制单元输出的特征；

所述第一残差学习单元包括：

第二卷积单元，用于对所述第一输入特征进行特征提取，得到第二卷积特征；

第三卷积单元，与所述第一线性整流激活函数单元连接，用于对所述第一线性整流特征进行特征提取，得到第三卷积特征；

第一特征相加单元，分别与所述第二批量归一化单元和所述第一恒等映射单元连接，用于对所述第二批量归一化特征和所述第一恒等映射特征进行相加，得到所述第一残差特征；

所述第二残差学习单元包括：

第四卷积单元，用于对所述第一残差特征进行特征提取，得到第四卷积特征；

第五卷积单元，与所述第二线性整流激活函数单元连接，用于对所述第二线性整流特征进行特征提取，得到第五卷积特征；

第二特征相加单元，分别与所述第四批量归一化单元和所述第二恒等映射单元连接，用于对所述第四批量归一化特征和所述第二恒等映射特征进行相加，得到所述第二残差特征；

所述压缩激活注意力机制单元包括：

激活单元，与所述压缩单元连接，用于计算所述压缩特征的重要程度，并根据所述压缩特征的重要程度，使用激活函数将所述压缩特征限制在[0，1]范围，得到最终一维特征向量；将所述最终一维特征向量与所述第二输入特征进行点乘操作，完成所述浅层特征关注程度的加强；所述第二输入特征为编码单元输出的第二池化特征；

所述压缩单元包括：

第一全连接层，与所述第一全局平均池化单元连接；

第二全连接层，与所述第一全连接层连接；

3.根据权利要求2所述建筑物语义分割网络模型训练方法，其特征在于，所述扩张卷积模块包括若干个扩张率的扩张卷积；扩大所述扩张卷积模块中各个卷积核的间隔，并对所述浅层特征进行范围扩张特征提取，得到扩张特征具体包括：

4.根据权利要求2所述建筑物语义分割网络模型训练方法，其特征在于，所述解码模块包括：

其中，所述第二处理单元包括n个解码单元和n-1个特征相加操作单元；n为大于1的正整数；每两个解码单元之间设置有一个特征相加操作单元；第一个解码单元与所述扩张卷积模块连接，第n个解码单元与所述第六卷积单元连接；

所述解码单元包括：

第一解码子单元，用于对第三输入特征进行特征提取，减小特征计算量，得到第一解码特征；

第二解码子单元，与所述第一解码子单元连接，用于扩大所述第一解码特征的维度，得到第二解码特征；

第三解码子单元，与所述第二解码子单元连接，用于将所述第二解码特征的通道数扩大两倍，得到第三解码特征；

当所述解码单元为第一个解码单元时，所述第三输入特征为所述扩张特征，当所述解码单元为第n个解码单元时，所述第三输入特征为第n-1个特征相加操作单元输出的特征；

所述第一解码子单元包括：

第七卷积单元，用于对所述第三输入特征进行特征提取，减小所述第三输入特征的计算量，得到第七卷积特征；

第三线性整流激活函数单元，与所述第五批量归一化单元连接，用于对所述第五批量归一化特征进行线性整流，得到第一解码特征；

所述第二解码子单元包括：

第一转置卷积单元，与所述第三线性整流激活函数单元连接，用于扩大所述第一解码特征的维度，得到第一转置卷积特征；

第四线性整流激活函数单元，与所述第六批量归一化单元连接，用于对所述第六批量归一化特征进行线性整流，得到第二解码特征；

所述第三解码子单元包括：

第八卷积单元，与所述第四线性整流激活函数单元连接，用于将所述第二解码特征的通道数扩大两倍，得到第八卷积特征；

5.根据权利要求1所述建筑物语义分割网络模型训练方法，其特征在于，对遥感影像进行预处理，得到若干个训练影像和若干个测试影像具体包括：

使用ArcGIS软件对所述遥感影像进行标注，将建筑物类别标注为X，背景区域标注为Y，得到标签影像；其中，X和Y为不同的数；

分别对所述遥感影像和所述标签影像进行图像切割，得到若干个小幅无人机遥感影像和若干个小幅标签影像；

采用数据增强图像旋转的方法将若干个所述小幅无人机遥感影像先后旋转0°、90°、180°和270°，同时将若干个所述小幅标签影像先后旋转0°、90°、180°和270°，得到数据增强后的图像；

根据所述数据增强后的图像得到若干个训练影像和若干个测试影像。

6.根据权利要求1所述建筑物语义分割网络模型训练方法，其特征在于，在所述将若干个所述测试影像输入到所述训练完成的SED-LinkNet模型进行验证，得到训练结果步骤之后还包括：

引用损失函数对所述SED-LinkNet模型进行训练，训练过程具体包括：

采用二进制交叉熵损失函数计算标签影像和预测结果之间的误差值，得到二进制交叉熵损失函数的损失大小；

通过拉普拉斯算子提取所述标签影像和所述预测结果中的建筑物边界信息；

采用均方误差损失函数计算边界误差损失大小；

将所述二进制交叉熵损失函数的损失大小和所述边界误差损失大小进行相加处理，得到复合损失大小；

根据所述复合损失大小，通过反向传播的方式更新所述SED-LinkNet模型中的卷积核参数，完成对所述SED-LinkNet模型的训练；

其中，二进制交叉熵损失函数的损失大小的计算方法如下：

边界误差损失大小的计算方法如下：

式中，

为二进制交叉熵损失函数计算的损失值，

为边界误差损失函数计算的损失值，y _i为真实值，

为模型预测值，N为样本总个数。

7.根据权利要求6所述的建筑物语义分割网络模型训练方法，其特征在于，在所述引用损失函数对所述SED-LinkNet模型进行训练步骤之后还包括：

通过评价指标对训练完成后的SED-LinkNet模型进行分类预测，得到综合评价；所述评价指标包括：F1分数和交并比；

所述F1分数和交并比的计算方法如下：

式中，P为精确率，R为召回率，IOU为交并比，TP为真正例，FP为假正例，FN为假负例。

8.一种建筑物语义分割网络模型训练系统，其特征在于，包括：

SED-LinkNet模型构建模块，用于基于压缩激活注意力机制、扩张卷积及LinkNet模型构建SED-LinkNet模型，所述SED-LinkNet模型为融合注意力机制和扩张卷积的建筑提取模型；所述SED-LinkNet模型在编码单元中引入一种压缩激活注意力机制单元，充分考虑编码模块所提取的浅层特征在通道维度上的分布情况，加强了对浅层特征的利用程度，通过压缩激活注意力机制单元对浅层特征进行加权激活，增加特征之间的相关性，强化建筑物特征，同时抑制背景信息的表达；

遥感影像获取模块，用于获取遥感影像；

9.一种建筑物语义分割网络模型的应用方法，其特征在于，包括以下步骤：

获取遥感影像；

将所述遥感影像输入SED-LinkNet模型，所述SED-LinkNet模型为融合注意力机制和扩张卷积的建筑提取模型；所述SED-LinkNet模型在编码单元中引入一种压缩激活注意力机制单元，充分考虑编码模块所提取的浅层特征在通道维度上的分布情况，加强了对浅层特征的利用程度，通过压缩激活注意力机制单元对浅层特征进行加权激活，增加特征之间的相关性，强化建筑物特征，同时抑制背景信息的表达；

其中，所述SED-LinkNet模型为通过权利要求1-7任一项所得到的训练完成的建筑物语义分割网络模型。