CN110889449A

CN110889449A - 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法

Info

Publication number: CN110889449A
Application number: CN201911178105.5A
Authority: CN
Inventors: 陈浩; 杜春; 徐樱笑; 伍江江; 彭双; 李军; 熊伟; 欧阳雪; 景宁; 陈荦; 钟志农; 吴烨; 王力; 伍送兵
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-03-17

Abstract

本发明提供一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，包括获取大量的遥感影像数据构建遥感影像数据集Images，获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks即真实标签；构建建筑物语义提取网络EEMS‑Unet模型，利用遥感影像数据集Images及其对应的建筑物语义二值图标签Masks对建筑物语义提取网络EEMS‑Unet模型进行训练，得到训练好的筑物语义提取网络EEMS‑Unet模型；将待进行建筑物语义特征提取的遥感影像输入到训练好的建筑物语义提取网络EEMS‑Unet模型中，提取遥感影像中的建筑物语义特征，得到遥感影像对应的逐像素预测结果Mask_pred。该方法能够有效的改善卫星和无人机等高分辨率遥感影像中建筑物提取不同尺度建筑物提取不完整、细节不完整、边缘效果差的问题。

Description

一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法

技术领域

本发明属于建筑物特征提取技术领域，具体地，涉及一种遥感影像中的建筑物语义特征提取方法。

背景技术

遥感成像技术日渐成熟，遥感影像分辨率日渐提高，人类从影像中感知世界更关注于影像中的高级语义特征——道路、建筑物、路标等，自动、快速、准确的从遥感影像中提取语义特征能够帮助人类提高生产生活效率。建筑物作为人类聚居活动的重要场所，分布广泛且能够很好的反映人类活动、生产生活分布等现实情况，在城市规划、资源普查、灾难救援、影像定位等方面具有重要意义。

上世纪80年代开始，人们开始利用建筑物特征探索影像中建筑物的半自动、自动提取方法，即识别影像中的建筑物像素并做标记。传统的建筑物提取的方法可以大致分为基于特征检测的方法、基于超像素分割的算法、基于辅助信息的融合算法三类。

建筑物与非建筑物像素间具有明显的灰度、颜色、梯度、纹理差异。基于特征检测的方法是指利用计算机视觉领域的技术手段自动的对遥感影像进行特征提取处理、分析，依据影像中建筑物与非建筑物目标的灰度、颜色、梯度差异生成特征点、线图像特征描述符，然后结合人类的先验知识、建筑物的轮廓和空间拓扑关系对这些特征点、线进行编组，实现对建筑物的最终提取。

基于超像素分割的建筑物提取方法，将影像划分为超像素，然后识别属于建筑物的部分。首先选取种子点，然后根据建筑物的梯度、颜色、纹理等特征构建超像素合并准则，将相似性高、空间位置相邻的一类像素划分为一个超像素区域，然后结合人类先验知识和超像素形状、轮廓、空间位置判断超像素是否属于建筑物类别。

基于辅助信息的融合算法引入额外的辅助信息的支持，提高建筑物识别的准确率。如利用数字高程模型DEM和数字表面模型DSM中的建筑物高度信息，设置高度阈值辅助进行建筑物提取；融合激光雷达、高程信息、高光谱等多种数据，分析影像的纹理信息、光谱信息，或重建三维模型提取建筑物信息。

上述三种方法都需要结合人工先验知识和影像中建筑物某一方面的特征，虽然具有一定的提取效果，但准确度不高、速度不够快，且在应用范围上往往具有较大的局限性。

随着成像技术发展和影像分辨率的提高，影像细节更加丰富，传统的建筑物提取方法适用性差，无法快速处理海量遥感影像的建筑物语义特征提取问题。随着计算机计算能力和深度学习算法的发展，以卷积神经网络为基础的建筑物提取算法逐渐超过了传统算法的最好效果，大幅提高了建筑物提取的准确率，缩短了影像建筑物提取的流程和计算时间。目前基于深度学习的建筑物提取方法大致分为两类，一类是以R-CNN系列为代表的基于候选区域的分类标注算法，另一类是以FCN和Unet为代表的端到端学习的语义特征提取算法。

以R-CNN系列为代表的基于候选区域的分类标注算法，首先使用神经网络学习遥感影像中的颜色、形状、纹理等特征，生成大量候选区域，然后筛选候选区域中并根据该区域中的特征进行类别标注；但这类方法的不足在于这些候选区域重叠且被重复计算，浪费了计算资源；Fast R-CNN和Faster R-CNN等网络通过引入空间金字塔池化层和区域建议网络提高了候选框生成的效率，在目标检测、语义分割等多个任务取得了很好的效果，但是由于要产生候选区域，效率较低且候选区域生成决定了语义分割的准确率。

以FCN和Unet为代表的端到端学习的语义特征提取算法是可以对影像逐像素分类的端到端语义特征提取算法，利用样本的像素级别的真值标签来进行监督训练，直接训练分类器进行像素级别的分类。其输入是遥感影像，利用真值标签作为监督信息训练语义特征提取网络，输出是遥感影像对应的语义分割图，在建筑物提取任务上取得了较好的效果。但是，传统Unet网络3*3大小的卷积感受范围小，重视邻域关系但对更大感受野的空间关系关注不够。

深度学习的方法在建筑物提取任务上优势明显，能够学习影像中建筑物的低层次颜色、特征点特征，也能够学习更高级的语义特征。但分析数万张遥感影像数据集的建筑物提取结果，仍有对小尺度建筑物提取效果不佳、建筑物的边缘保留不完整、对不规则建筑物的提取效果差的问题，无法保证建筑物边缘的完整性和整体的结构相似性。

随着海量遥感影像的生成、影像细节的丰富和建筑物结构的复杂多样化，有必要提高遥感影像的建筑物语义特征提取效果，对基于建筑物语义特征的目标检测和定位具有重要意义。

发明内容

针对现有技术存在的缺陷，本发明提供一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法。该方法能够有效的改善卫星和无人机等高分辨率遥感影像中建筑物提取不同尺度建筑物提取不完整、细节不完整、边缘效果差的问题，尤其能够改善不规则建筑物提取的效果，进而有助于卫星、无人机等遥感影像中建筑物的检测、提取和定位。

为实现上述技术目的，本发明采取的技术方案如下：

一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，包括：

获取大量的遥感影像数据构建遥感影像数据集Images，获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks；

构建建筑物语义提取网络EEMS-Unet模型，利用遥感影像数据集Images及其对应的建筑物语义二值图标签Masks对建筑物语义提取网络EEMS-Unet模型进行训练，得到训练好的筑物语义提取网络EEMS-Unet模型；

将待进行建筑物语义特征提取的遥感影像输入到训练好的建筑物语义提取网络EEMS-Unet模型中，提取遥感影中的建筑物语义特征，得到遥感影像对应的逐像素预测结果Mask_pred。

本发明中，基于已有地理信息系统中的卫星遥感影像数据、航空摄影装置获取大量的遥感影像数据。

本发明中，通过已有的建筑物矢量数据、地理普查数据或人工标注的方法获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks，遥感影像中的建筑物像素在二值图标签中对应为1，否则为0。

本发明中，可以对遥感影像数据集Images及其对应的建筑物语义二值图标签Masks同时进行数据扩增预处理。数据扩增预处理包括但不限于以一定的概率进行平移、旋转、水平翻折、竖直翻折、沿对角线翻折、尺度变换、亮度饱和度变化等操作。

本发明中，建筑物语义提取网络EEMS-Unet模型包括网络编码器、Bridge桥接层和网络解码器。

网络编码器包括n层编码层，分别为Enc_1、Enc_2、Enc_3、Enc_4…Enc_n编码层；Enc_1编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_2编码层的输入，Enc_2编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_3编码层的输入，依次类推，Enc_n-1编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_n编码层的输入。

各编码层均包括依次连接的多个Res-Blocks模块。输入的遥感影像在Enc_1编码层中依次经过多个Res-Blocks模块后提取得到遥感影像的特征图像，作为Enc_1的输出特征图像；Enc_1编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_2编码层的输入，在Enc_2编码层中依次经过多个Res-Blocks模块后提取得到对应的特征图像，作为Enc_2的输出特征图像。依次类推，Enc_n-1的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_n编码层的输入，在Enc_n编码层中依次经过多个Res-Blocks模块后提取得到对应的特征图像，作为Enc_n的输出特征图像。其中在各Res-Blocks模块中，各Res-Blocks模块的输入图像和输入图像经两个3*3卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出。

Bridge桥接层包括n个多尺度扩张卷积Dblock模块，分别为Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n，各编码层Enc_1、Enc_2、Enc_3、Enc_4…Enc_n的输出特征图像分别对应输入到Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n中。在各多尺度扩张卷积Dblock模块中，各多尺度扩张卷积Dblock模块的输入特征图像和输入特征图像经扩张卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出。进一步地，各多尺度扩张卷积Dblock模块中的扩张卷积率可以分别根据所输入的特征图像大小以及特征图像中的建筑物尺度特征而设定。具体设定方法为：输入到Dblock模块的特征图像中大部分(如60％以上)建筑物特征尺度小于该Dblock模块输入特征图像大小的

则Dblock模块的最大感受野应小于等于该Dblock模块输入特征图大小的

x一般取3～10；且Dblock模块中的扩张卷积率从1开始，以2的幂次递增，并将这些卷积的中间结果融合起来作为Dblock模块的输出。

网络解码器包括n层解码层，分别为Dec_1、Dec_2、Dec_3、Dec_4…Dec_n，各多尺度扩张卷积Dblock模块Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n的输出特征图像分别对应输入到Dec_1、Dec_2、Dec_3、Dec_4…Dec_n中。在解码层Dec_i，i＝1,2,3…n中，将Enc_i编码层的输出特征图像和Dblock_i的输出特征图像连接起来后做上采样操作Upsample恢复上一层Enc_i-1的输出特征图像大小。最后，将得到的图像的尺寸恢复到与输入的原始遥感图像一致，并通过sigmoid函数激活后将输出的图像以0.5为阈值进行二值化，预测结果大于0.5认为该像素为建筑物标记为1，否则不是建筑物标记为0，得到原始遥感影像对应的逐像素预测结果Mask_pred。

网络解码器中，上采样操作Upsample包括：对输入的特征图像先进行Conv1*1降维，将输入的特征图像深度缩小1/4；然后进行3*3的转置卷积操作，恢复上一层Enc_i-1的输出特征图像大小；接着进行Conv1*1升维，将特征图深度放大回上一层Enc_i-1的输出特征图像深度。其中：sigmoid激活函数公式为：

sigmoid函数对网络输出特征图像中的所有像素进行激活，其中z表示特征图像中的任一像素处的预测值，Φ(z)为sigmoid激活操作后的值。

本发明中，利用遥感影像数据集Images及其对应的建筑物语义二值图标签Masks对建筑物语义提取网络EEMS-Unet模型进行训练，其训练方法是：将遥感影像数据集Images中的遥感影像输入到构建的建筑物语义提取网络EEMS-Unet模型中，得出遥感影像的逐像素预测结果Mask_pred，通过损失函数L度量遥感影像其预测结果Mask_pred与真实标签Mask_GT之间的差异，通过Adam梯度下降优化求解方法求解使得损失函数值最小的网络参数，在损失函数趋于稳定时将当前的网络参数保存并记作EEMS-Unet-W，得到训练好的建筑物语义提取网络EEMS-Unet模型。

本发明中设定的损失函数L为：

L＝L_BCE+L_Dice+L_SSIM

其中：损失函数L_BCE表示逐像素的判断预测结果的正确性；

损失函数L_Dice为：

损失函数L_SSIM为：

式中[11*11kernel]表示11*11的高斯核，

表示卷积操作；

C₁＝(k₁G)²,k₁＝0.01

C₂＝(k₂G)²,k₂＝0.03

G为像素值取值范围，一般为0-255，或图像归一化后的0-1。

进一步地，本发明还包括对训练好的建筑物语义提取网络EEMS-Unet模型的提取效果进行评估，其评估方法如下：对于待进行建筑物语义特征提取的遥感影像，将其通过训练好的建筑物语义提取网络EEMS-Unet模型预测得到的二值图像Mask_pred与其真实标签Mask_GT比对，计算IoU和F1-score结果，并取平均值用于实现对训练好的建筑物语义提取网络EEMS-Unet模型的效果评估。

其中，IoU和F1-score结果的计算方法为：

交并比结果(Intersection over Union，IoU)：评价语义分割准确度的一个公认标准，指预测面积与真实面积的交集与并集之比，以衡量预测值与真实值之间的重叠度，即：

F1-score结果(F1-score)：在评价深度神经网络效果时，精确度和召回率是一对矛盾的评价指标，需要以牺牲另一个指标为代价来最大化精确度或者召回率。为平衡二者影响，引入了F1分数进行评价：

其中，若某像素的真实标签值(Ground Truth,GT)为1，且预测值也为1，记为真正例(True Positive,TP)；若真实标签值为0，预测值也为0，记为真负例(True Negative,TN)；若真实标签值为1，预测值为0，记为假负例(False Negative,FN)；若真实标签值为0，预测值为1，记为假正例(False Positive,FP)。

另一方面，本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法的步骤。

本发明提出了一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法。通过本发明，结合建筑物在影像中的分布，设计多尺度的扩张卷积核模块并引入结构相似度损失函数提出遥感影像建筑物语义特征提取网络EEMS-Unet(Enhanced Edge and Multi-scale building extraction Unet)。相对于现有技术，本发明的有益技术效果主要包括：

传统的建筑物提取的方法都需要结合人工先验知识和影像中建筑物某一方面的特征，虽然具有一定的提取效果，但准确度不高、速度不够快，且在应用范围上往往具有较大的局限性。本发明采用深度学习的方法学习影像中建筑物的底层特征和高层次语义特征，较传统的建筑物语义特征提取方法更符合人类理解方式、提取速度更快、准确性更高。

基于Unet网络的影像建筑物提取方法，仍有建筑物的边缘保留不完整、对不规则建筑物的提取效果差的问题，无法保证建筑物边缘的完整性和整体的结构相似性。本发明从改善边缘和细节提取两个方面出发改进Unet网络，改善边缘和细节提取两个方面出发改进Unet网络，提出一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法。

在网络结构方面，引入多尺度扩张卷积模块。传统Unet网络3*3大小的卷积感受范围小，重视邻域关系但对更大感受野的空间关系关注不够；扩张卷积可以在不增加参数量的基础上扩大感受野，更好的利用空间上下文信息，多尺度的扩张卷积串并联可以同时感受到小尺度建筑物的细节信息和大范围建筑物的联系，改善建筑物的提取结果。

在损失函数方面，引入度量结构相似性的损失函数，加大对预测结果和真实标签结构不相似时的惩罚，以期提高预测结果和真实标签之间的结构相似性，减少建筑物提取时断裂、边缘连接差的情况，尤其能够提高不规则建筑物的提取效果。

实验表明，本发明提出的EEMS-Unet建筑物语义特征提取网络能有效改善遥感影像的建筑物语义特征提取结果，尤其是改善多尺度建筑物的提取效果、改善边缘提取效果、减轻不规则建筑物语义提取不完整的问题，在公开的卫星遥感影像数据集WHU-045和湖南邵阳无人机遥感影像数据集上IoU度量上分别比Unet网络提取结果提高9.7％、11％，在F1-score度量上分别比Unet网络提取结果提高7.8％、4.7％。

附图说明

图1为本发明的流程图。

图2为建筑物语义提取网络EEMS-Unet模型结构图。

图3为Dblock4的模块结构图。

图4是4幅卫星遥感影像原始图像，分别为图4(a)、图4(b)、图4(c)、图4(d)；

图5是图4中4幅卫星遥感影像原始图像对应的卫星遥感影像建筑物真实语义标签图像，分别为图5(a)、图5(b)、图5(c)、图5(d)；

图6是基于Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图6(a)、图6(b)、图6(c)、图6(d)；

图7是基于Unet网络+SSIM损失函数对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图7(a)、图7(b)、图7(c)、图7(d)；

图8是基于SiUnet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图8(a)、图8(b)、图8(c)、图8(d)；

图9是基于Dlinknet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图9(a)、图9(b)、图9(c)、图9(d)；

图10是基于Dlinknet网络+SSIM损失函数对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图10(a)、图10(b)、图10(c)、图10(d)；

图11是基于MS-Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图11(a)、图11(b)、图11(c)、图11(d)；

图12是基于EEMS-Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图12(a)、图12(b)、图12(c)、图12(d)。

图13是4幅无人机遥感影像原始图像，分别为图13(a)、图13(b)、图13(c)、图13(d)；

图14是图13中4幅无人机遥感影像原始图像对应的无人机遥感影像建筑物真实语义标签图像，分别为图14(a)、图14(b)、图14(c)、图14(d)；

图15是基于Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物真实语义提取的结果图，分别为图15(a)、图15(b)、图15(c)、图15(d)；

图16是基于Unet网络+SSIM损失函数对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图16(a)、图16(b)、图16(c)、图16(d)；

图17是基于SiUnet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图17(a)、图17(b)、图17(c)、图17(d)；

图18是基于Dlinknet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图18(a)、图18(b)、图18(c)、图18(d)；

图19是基于Dlinknet网络+SSIM损失函数对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图19(a)、图19(b)、图19(c)、图19(d)；

图20是基于MS-Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图20(a)、图20(b)、图20(c)、图20(d)；

图21是基于EEMS-Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图21(a)、图21(b)、图21c)、图21(d)。

具体实施方式

为了便于本发明的实施，下面结合具体实例作进一步的说明。

本实施例提供一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，包括：基于已有地理信息系统中的卫星遥感影像数据、航空摄影装置获取大量的遥感影像数据构建遥感影像数据集Images。通过已有的建筑物矢量数据、地理普查数据或人工标注方法获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks，遥感影像中的建筑物像素在二值图标签中对应为1，否则为0。然后对遥感影像数据集Images及其建筑物语义二值图标签Mask同时进行数据扩增预处理，数据扩增预处理包括以一定的概率进行平移、旋转、水平翻折、竖直翻折、沿对角线翻折、尺度变换、亮度饱和度变化中的一种或一种以上操作。最后将数据扩增预处理后的遥感影像数据集Images及其建筑物语义二值图标签Mask按照一定比例(如8:2)划分为训练集和测试集。利用训练集中的遥感影像及其建筑物语义二值图标签Mask对建筑物语义提取网络EEMS-Unet模型进行训练，得到训练好的筑物语义提取网络EEMS-Unet模型。将测试集中的遥感影像输入到训练好的建筑物语义提取网络EEMS-Unet模型中，提取测试集中各遥感影像中的建筑物，得到测试集中各遥感影像对应的逐像素预测结果Mask_pred。

接下来，可以测试训练好的建筑物语义提取网络EEMS-Unet模型的提取效果。将测试集中各遥感影像对应的逐像素预测结果Mask_pred与其各自的真实标签Mask_GT比对，计算IoU和F1-score结果，并取平均值用于实现对训练好的建筑物语义提取网络EEMS-Unet模型的效果评估。

其中，IoU和F1-score结果的计算方法为：

本实施例中所构建的建筑物语义提取网络EEMS-Unet模型如图2所示，建筑物语义提取网络EEMS-Unet模型包括网络编码器，Bridge桥接层和网络解码器。图2中，n表示Res-Blocks的个数，

表示concat连接

网络编码器包括4层编码层，分别为Enc_1、Enc_2、Enc_3、Enc_4。Bridge桥接层包括4个多尺度扩张卷积Dblock模块，分别为Dblock_1、Dblock_2、Dblock_3、Dblock_4。网络解码器包括4层解码层，分别为Dec_1、Dec_2、Dec_3、Dec_4。

Enc_1编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_2编码层的输入，Enc_2编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_3编码层的输入，Enc_3编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_4编码层的输入。各编码层均包括依次连接的多个Res-Blocks模块，如图2所示，Enc_1编码层中依次连接有3个Res-Blocks模块，Enc_2编码层中依次连接有4个Res-Blocks模块，Enc_3编码层中依次连接有6个Res-Blocks模块，Enc_4编码层中依次连接有3个Res-Blocks模块。

输入的遥感影像在Enc_1编码层中依次经过3个Res-Blocks模块后提取得到遥感影像的特征图像，作为Enc_1的输出特征图像。Enc_1的输出特征图像通过一个最大池化层以降低特征维度后输入到Enc_2编码层中，依次经过4个Res-Blocks模块后提取得到对应的特征图像，作为Enc_2的输出特征图像。Enc_2的输出特征图像通过一个最大池化层以降低特征维度后输入到Enc_3编码层中，依次经过6个Res-Blocks模块后提取得到对应的特征图像，作为Enc_3的输出特征图像。Enc_3的输出特征图像通过一个最大池化层以降低特征维度后输入到Enc_4编码层中，依次经过4个Res-Blocks模块后提取得到对应的特征图像，作为Enc_4的输出特征图像。其中在各Res-Blocks模块中，各Res-Blocks模块的输入图像和输入图像经两个3*3卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出。

本发明Res-Blocks模块中采用了残差的思想，将输入直接连接到输出，将训练目的从学习复杂的潜在映射关系转换为学习如何将目标值与输入值之间的残差逼近0，也降低了训练难度。同时，直接将原始信息传输到输出，一定程度上保护了细节信息的完整性，避免了传统卷积层或全连接层在进行信息传递时存在的原始细节丢失、损耗等问题。

Bridge桥接层为图2中间部分，包括Dblock1，Dblock2，Dblock3，Dblock4四部分，为每一层编码层及其对应的解码层之间连接的一个多尺度扩张卷积Dblock模块。各编码层Enc_1、Enc_2、Enc_3、Enc_4的输出特征图像分别对应输入到Dblock_1、Dblock_2、Dblock_3、Dblock_4中。在各多尺度扩张卷积Dblock模块中，各多尺度扩张卷积Dblock模块的输入特征图像和输入特征图像经扩张卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出。各多尺度扩张卷积Dblock模块中的扩张卷积率分别根据所输入的特征图像大小以及特征图像中的建筑物尺度特征而设定。具体设定方法为：Dblock模块输入特征图像中大部分(60％以上)建筑物特征尺度小于该Dblock模块输入特征图像大小的

则Dblock模块的最大感受野应小于等于该Dblock模块输入特征图像大小的

原始Unet网络均采用3*3大小的卷积核，计算参数量小但感知范围小，会忽略较大的建筑物、不规则建筑物之间的空间上下文信息。本发明采用扩张卷积，可以在不增加参数量的基础上更好的利用空间上下文信息，多尺度扩张卷积可以同时感受到影像大范围的联系和小范围建筑物的细节信息，提高建筑物的提取结果。

原始Unet网络的编码层直接复制到解码层，对浅层网络的上下文信息学习不够；Dlink-net认为最后一层编码层包含了低层次编码层的信息，在最后一层编码层与解码层之间设计了多尺度扩张卷积模块，认为经过编码层降采样学习到了原始的图像特征，但编码层的加深也损失了原有分辨率包含的信息。本发明提出的EEMS-Unet建筑物语义特征提取网络在每层编码层后都设计了多尺度的扩张卷积模块Dblock以更好的保留原始细节信息。

不同编码层的特征图尺寸不一致，扩张卷积模块都设计为同样的深度可能在特征图尺寸缩小时学到了原本不相关的两个建筑物的联系信息，增加了冗余信息，增加了网络参数量反而会增大建筑物提取的误检率。本发明考虑影像中包含不同尺度的建筑物且绝大部分建筑物尺度不超过图像尺寸的四分之一的特点，具体设计为：低层次编码层特征图尺寸更大、分辨率更高，建筑物需要更大的感受野学习其上下文联系，对应的Dblock模块的感受野更大；高层次的特征图尺寸更小，经过下采样已经学习到了低层次特征，对应的Dblock模块感受野不必太大。

参见图3，以Dblock4模块为例，输入为Enc_4的输出特征图像W*H*C，依次经过扩张卷积率为dilation rate＝1,2,4的卷积操作，将输入的Enc_4的输出特征图像和每一次卷积操作的中间结果concat连接起来作为Dblock4模块的输出特征图像。

本发明各Dblock模块根据每一层的特征图大小和影像中建筑物的特点设计不同深度的Dblock结构。在本实施例中，不同层级的Dblock模块参数设计如下表1：

表1 Dblock的网络参数设计表

参照图2，网络解码器包括Dec_1、Dec_2、Dec_3、Dec_4。Bridge桥接层各多尺度扩张卷积Dblock模块Dblock_1、Dblock_2、Dblock_3、Dblock_4的输出特征图像分别对应输入到Dec_1、Dec_2、Dec_3、Dec_4中。

在解码层Dec_i，i＝1,2,3,4中，将Enc_i编码层的输出特征图像和Dblock_i的输出特征图像连接起来后做上采样操作Upsample恢复上一层Enc_i-1的输出特征图像大小。上采样操作分为三个步骤，①Conv1*1降维，②Conv3*3(stride＝2)的转置卷积，③Conv1*1升维，如图2中的图例⑦所示。

①Conv1*1降维：实现跨通道的交互和信息整合，将特征图深度缩小1/4。

②Conv3*3(stride＝2)的转置卷积：进行3*3的转置卷积操作，恢复上一层Enc_i-1的输出特征图像大小。

③Conv1*1升维：实现跨通道的交互和信息整合，将特征图深度放大回上一层Enc_i-1的输出特征图像深度。

本实施例中，以Dec_4为例，其输入为Dblock_4的输出特征图像和Enc_4的输出特征图像，则Dec_4的输入为32*32*512，Conv1*1降维后的输入为32*32*128，3*3转置卷积后的输出为64*64*128，Conv 1*1升维后的输出为64*64*256。

以Dec_3为例，输入为Dblock3的输出特征图像和Dec_4的输出特征图像，则Dec_3的输入为64*64*256，Conv 1*1降维后的输入为64*64*64，3*3转置卷积后的输出为128*128*64，Conv 1*1升维后的输出为128*128*128。Dec_2和Dec_1依次类推。

最后，将得到的图像的尺寸恢复到与输入的原始遥感图像一致，并通过sigmoid函数激活后将输出的图像以0.5为阈值进行二值化，预测结果大于0.5认为该像素为建筑物标记为1，否则不是建筑物标记为0，得到原始遥感影像对应的逐像素预测结果Mask_pred。其中：sigmoid激活函数公式为：

本实施例中，利用训练集中的遥感影像及其建筑物语义二值图标签Mask对建筑物语义提取网络EEMS-Unet模型进行训练，其训练方法是：将遥感影像数据集Images中的遥感影像输入到前面所构建的建筑物语义提取网络EEMS-Unet模型中，得出遥感影像的逐像素预测结果Mask_pred，通过损失函数L度量遥感影像其预测结果Mask_pred与真实标签Mask_GT之间的差异，通过Adam梯度下降优化求解方法求解使得损失函数值最小的网络参数，在损失函数趋于稳定时将当前的网络参数保存并记作EEMS-Unet-W，得到训练好的建筑物语义提取网络EEMS-Unet模型。

损失函数度量预测结果Mask_pred与真实标签Mask_GT差异，Mask_pred与Mask_GT越相似则损失函数值越小，加大预测结果和真实值不相似时的惩罚，鼓励网络更完整的学习到建筑物特征，提高建筑物检测效果。通过Adam梯度下降优化求解方法求解使得损失函数值最小的网络参数。

本发明中损失函数的具体设计为：

L＝L_BCE+L_Dice+L_SSIM

其中，

①二进制交叉熵BCE(Binary Cross Entroy)损失函数L_BCE表示逐像素的判断预测结果的正确性，广泛应用于二分类任务；

②考虑到实际场景下，影像中的非建筑物面积大于有建筑物的面积，仅使用L_BCE会使网络倾向于只预测负样本，陷入局部最小值。设计Dice系数损失(Dice Coefficientloss)通过度量两个轮廓的重叠度优化样本不平衡的情况：

③L_SSIM为预测结果与真实标签之间的结构相似度损失函数，

结构相似度算法SSIM将图像的相似度建模为亮度、对比度和结构三个不同因素的组合，用图像均值μ估计图像亮度，用图像标准差σ估计图像对比度，用两幅影像的协方差σ_xy度量两幅图像的结构相似程度。

具体到深度学习损失函数设计中的网络预测结果Mask_pred与真实标签Mask_GT的相似度度量方法为：

式中[11*11kernel]表示11*11的高斯核，

表示图像的卷积操作，为避免分母等于零以保证计算结果的稳定性，一般根据经验取原式中的C₁、C₂为常数：

C₁＝(k₁G)²,k₁＝0.01

C₂＝(k₂G)²,k₂＝0.03

G为像素值取值范围，一般为0-255，或图像归一化后的0-1。

卷积操作后相当于得到了一个相对平滑的图像矩阵，最后通过公式求得平均的L_SSIM标量值。

本发明所提供的方法经过了以下实例验证：

参照图4至图12，图4是本实例中给出的4幅卫星遥感影像原始图像，分别为图4(a)、图4(b)、图4(c)、图4(d)。图5是图4中4幅卫星遥感影像原始图像对应的卫星遥感影像建筑物真实语义标签图像，分别为图5(a)、图5(b)、图5(c)、图5(d)。图6是基于Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图6(a)、图6(b)、图6(c)、图6(d)；图7是基于Unet网络+SSIM损失函数对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图7(a)、图7(b)、图7(c)、图7(d)；图8是基于SiUnet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图8(a)、图8(b)、图8(c)、图8(d)；图9是基于Dlinknet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图9(a)、图9(b)、图9(c)、图9(d)；图10是基于Dlinknet网络+SSIM损失函数对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图10(a)、图10(b)、图10(c)、图10(d)；图11是基于MS-Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图11(a)、图11(b)、图11(c)、图11(d)；图12是基于EEMS-Unet网络对图4中4幅原始图像进行卫星遥感影像建筑物语义提取的结果图，分别为图12(a)、图12(b)、图12(c)、图12(d)。

参照图13至图21，图13是4幅无人机遥感影像原始图像，分别为图13(a)、图13(b)、图13(c)、图13(d)；图14是图13中4幅无人机遥感影像原始图像对应的无人机遥感影像建筑物真实语义标签图像，分别为图14(a)、图14(b)、图14(c)、图14(d)；图15是基于Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物真实语义提取的结果图，分别为图15(a)、图15(b)、图15(c)、图15(d)；图16是基于Unet网络+SSIM损失函数对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图16(a)、图16(b)、图16(c)、图16(d)；图17是基于SiUnet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图17(a)、图17(b)、图17(c)、图17(d)；图18是基于Dlinknet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图18(a)、图18(b)、图18(c)、图18(d)；图19是基于Dlinknet网络+SSIM损失函数对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图19(a)、图19(b)、图19(c)、图19(d)；图20是基于MS-Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图20(a)、图20(b)、图20(c)、图20(d)；图21是基于EEMS-Unet网络对图13中4幅无人机遥感影像原始图像进行无人机遥感影像建筑物语义提取的结果图，分别为图21(a)、图21(b)、图21c)、图21(d)。

试验中，对图4中给出的4幅卫星遥感影像原始图像分别采用不同的方法提取其建筑物语义特征。在公开的卫星遥感影像数据集WHU-045和湖南邵阳无人机遥感影像数据集上的实验表明，本方法在IoU度量上分别比Unet网络提取结果提高9.7％、11％，在F1-score度量上分别比Unet网络提取结果提高7.8％、4.7％，提高了建筑物语义特征提取的整体效果。

表2在卫星遥感数据集WHU-045上建筑物语义特征提取结果

算法	IoU	F1-score	Precision	Recall
					Unet	0.594	0.746	0.653	0.869
Unet+SSIM	0.618	0.775	0.842	0.711
					SiUnet	0.611	0.759	0.725	0.796
Dlinknet	0.634	0.783	0.895	0.693
					Dlinknet+SSIM	0.644	0.790	0.879	0.717
MS-Unet	0.680	0.814	0.868	0.767
					EEMS-Unet	0.691	0.824	0.849	0.797

Unet方法、siunet方法和dlinknet方法为现有方法，Unet+SSIM，Dlinknet+SSIM方法是在现有方法的基础上，不修改网络结构，只采用本发明提出的损失函数设计，证明了本发明中损失函数设计的有效性，分别比不加SSIM的Unet、Dlinknet、MS-Unet的IoU提高了2.4％、1％、1.1％，F1-score提高了2.9％、0.7％、1％。MS-Unet方法是只采用本发明提出的网络结构，损失函数不使用本发明提出的L_SSIM，也证明了本发明提出的网络结构优于其他方法；

MS-Unet分别比Unet、SiUnet、Dlinknet的IoU提高了8.6％、6.9％、4.6％，F1-score提高了6.8％、5.5％、3.1％。

表3湖南邵阳的无人机数据集上的建筑物语义特征提取结果

上表给出了无人机数据集上的七组实验对比结果，可以看出：引入结构相似度，分别比不加SSIM的Unet、Dlinknet、MS-Unet的IoU提高了1.9％、8.5％、9.6％，F1-score提高了-0.1％、4.2％、4.9％，其中Unet+SSIM的F1-score相当，在IoU和F1-score上明显都更有竞争力。结合建筑物特征在每层桥接层引入不同的多尺度扩张卷积模块，MS-Unet分别比Unet、Dlinknet的IoU提高了1.4％、1.5％，F1-score提高了-0.2％、0.9％。基于EEMS-Unet网络的建筑物提取结果在IoU度量上达到79％、F1-score达到87.8％，较其他网络的性能提升明显，单个建筑物提取结果更完整、边缘保留更好。本发明提高了建筑物语义特征的边缘提取效果，尤其改善了不规则建筑物的提取结果。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于，包括：

获取大量的遥感影像数据构建遥感影像数据集Images，获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks即真实标签；

2.根据权利要求1所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：基于已有地理信息系统中的卫星遥感影像数据、航空摄影装置获取大量的遥感影像数据。

3.根据权利要求1所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：通过已有的建筑物矢量数据、地理普查数据或人工标注的方法获取遥感影像数据集Images中每幅遥感影像对应的建筑物语义二值图标签Masks，遥感影像中的建筑物像素在二值图标签中对应为1，否则为0。

4.根据权利要求1所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：还包括对遥感影像数据集Images及其对应的建筑物语义二值图标签Masks同时进行数据扩增预处理，数据扩增预处理包括以一定的概率进行平移、旋转、水平翻折、竖直翻折、沿对角线翻折、尺度变换、亮度饱和度变化中的一种或一种以上操作。

5.根据权利要求1所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：建筑物语义提取网络EEMS-Unet模型包括网络编码器，Bridge桥接层和网络解码器。

6.根据权利要求5所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：网络编码器包括n层编码层，分别为Enc_1、Enc_2、Enc_3、Enc_4…Enc_n编码层；各编码层均包括依次连接的多个Res-Blocks模块；输入的遥感影像在Enc_1编码层中依次经过多个Res-Blocks模块后提取得到遥感影像的特征图像，作为Enc_1的输出特征图像；Enc_1编码层的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_2编码层的输入，在Enc_2编码层中依次经过多个Res-Blocks模块后提取得到对应的特征图像，作为Enc_2的输出特征图像，依次类推，Enc_n-1的输出特征图像通过一个最大池化层以降低特征维度后作为Enc_n编码层的输入，在Enc_n编码层中依次经过多个Res-Blocks模块后提取得到对应的特征图像，作为Enc_n的输出特征图像；其中在各Res-Blocks模块中，各Res-Blocks模块的输入图像和输入图像经两个3*3卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出；

Bridge桥接层包括n个多尺度扩张卷积Dblock模块，分别为Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n，各编码层Enc_1、Enc_2、Enc_3、Enc_4…Enc_n的输出特征图像分别对应输入到Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n中；在各多尺度扩张卷积Dblock模块中，各多尺度扩张卷积Dblock模块的输入特征图像和输入特征图像经扩张卷积操作后的输出图像concat连接后即为各Res-Blocks模块的输出；

网络解码器包括n层解码层，分别为Dec_1、Dec_2、Dec_3、Dec_4…Dec_n，各多尺度扩张卷积Dblock模块Dblock_1、Dblock_2、Dblock_3、Dblock_4…Dblock_n的输出特征图像分别对应输入到Dec_1、Dec_2、Dec_3、Dec_4…Dec_n中；在解码层Dec_i，i＝1,2,3…n中，将Enc_i编码层的输出特征图像和Dblock_i的输出特征图像连接起来后做上采样操作Upsample恢复上一层Enc_i-1的输出特征图像大小；最后，将得到的图像的尺寸恢复到与输入的原始遥感图像一致，并通过sigmoid函数激活后将输出的图像以0.5为阈值进行二值化，预测结果大于0.5认为该像素为建筑物标记为1，否则不是建筑物标记为0，得到原始遥感影像对应的逐像素预测结果Mask_pred。

7.根据权利要求6所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：各多尺度扩张卷积Dblock模块中的扩张卷积率分别根据所输入的特征图像大小以及特征图像中的建筑物尺度特征而设定：设定方法为：输入到Dblock模块的特征图像中大部分建筑物特征尺度小于该Dblock模块输入特征图像大小的

x取3～10；且Dblock模块中的扩张卷积率从1开始，以2的幂次递增，并将这些卷积的中间结果融合起来作为Dblock模块的输出。

8.根据权利要求6所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：上采样操作Upsample包括：对输入的特征图像先进行Conv1*1降维，将输入的特征图像深度缩小1/4；然后进行3*3的转置卷积操作，恢复上一层Enc_i-1的输出特征图像大小；接着进行Conv1*1升维，将特征图深度放大回上一层Enc_i-1的输出特征图像深度。

9.根据权利要求8所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于：sigmoid激活函数公式为：

10.根据权利要求8所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于，利用遥感影像数据集Images及其对应的建筑物语义二值图标签Masks对建筑物语义提取网络EEMS-Unet模型进行训练，其训练方法是：将遥感影像数据集Images中的遥感影像输入到构建的建筑物语义提取网络EEMS-Unet模型中，得出遥感影像的逐像素预测结果Mask_pred，通过损失函数L度量遥感影像其预测结果Mask_pred与真实标签Mask_GT之间的差异，通过Adam梯度下降优化求解方法求解使得损失函数值最小的网络参数，在损失函数趋于稳定时将当前的网络参数保存并记作EEMS-Unet-W，得到训练好的建筑物语义提取网络EEMS-Unet模型。

11.根据权利要求10所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于，损失函数L为：

L＝L_BCE+L_Dice+L_SSIM

其中：损失函数L_BCE表示逐像素的判断预测结果的正确性；

损失函数L_Dice为：

损失函数L_SSIM为：

式中[11*11kernel]表示11*11的高斯核，

表示卷积操作；

C₁＝(k₁G)²,k₁＝0.01

C₂＝(k₂G)²,k₂＝0.03

G为像素值取值范围。

12.根据权利要求1所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于，还包括对训练好的建筑物语义提取网络EEMS-Unet模型的提取效果进行评估，其评估方法如下：对于待进行建筑物语义特征提取的遥感影像，将其通过训练好的建筑物语义提取网络EEMS-Unet模型预测得到的二值图像Mask_pred与其真实标签Mask_GT比对，计算IoU和F1-score结果，并取平均值用于实现对训练好的建筑物语义提取网络EEMS-Unet模型的效果评估。

13.根据权利要求12所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法，其特征在于，IoU和F1-score结果的计算方法分别为：

IoU结果通过以下公式计算：

F1-score结果通过以下公式计算：

其中，若某像素的真实标签值为1，且预测值也为1，记为真正例TP；若真实标签值为0，预测值也为0，记为真负例TN；若真实标签值为1，预测值为0，记为假负例FN；若真实标签值为0，预测值为1，记为假正例FP，则：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至13中任一权利要求所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1至13中任一权利要求所述的增强边缘的、多尺度的遥感影像建筑物语义特征提取方法的步骤。