CN113516135B

CN113516135B - 一种基于深度学习的遥感影像建筑物提取及轮廓优化方法

Info

Publication number: CN113516135B
Application number: CN202110695634.3A
Authority: CN
Inventors: 徐佳伟; 刘伟
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-10-31
Anticipated expiration: 2041-06-23
Also published as: CN113516135A

Abstract

本发明提出一种基于深度学习的遥感影像建筑物提取及轮廓优化方法，属于环测领域使用。将语义分割的思想应用到建筑物提取中，融合Hausdorff距离进行建筑物轮廓优化。利用残差模块的特征提取能力、卷积注意力模块对空间信息和通道信息的平衡能力以及金字塔池化模块的多尺度场景解析特点，将残差结构、卷积注意力模块以及金字塔池化引入到Unet模型中，建立PRCUnet模型，同时关注语义信息和细节信息，弥补Unet对小目标检测的欠缺。其所用数据集IoU、召回率均达到85％以上，精度显著优于Unet模型，提取出的建筑物精度更高，优化后的建筑物边界更逼近真实建筑物的边界轮廓。

Description

一种基于深度学习的遥感影像建筑物提取及轮廓优化方法

技术领域

本发明涉及一种遥感影像建筑物提取及轮廓优化方法，尤其适用于测量与地图学领域使用的一种基于深度学习的遥感影像建筑物提取及轮廓优化方法。

背景技术

随着对地观测技术的迅速发展，遥感影像空间分辨率显著提高，可以从遥感影像上获得更准确的几何结构、纹理特征以及更丰富的地物信息。基于遥感影像的建筑物提取是目标识别的重要方向，建筑物对城市规划、变化检测、灾害管理具有重大意义，同时也是基于位置服务的重要基础数据。遥感影像丰富的数据为建筑物提取提供了很好的数据基础，因此，基于辨遥感影像的建筑物提取具有重要的理论与实际应用价值。

将遥感影像转换为矢量地图的过程中，建筑物的识别与提取一直是一项繁琐而又昂贵的任务，十分依赖于人工解译以及建筑物矢量化，耗费了大量的人力物力。实现从遥感影像中自动提取建筑物，并保证其精度，这需要一套灵活、鲁棒的自动提取算法。

尽管在过去的几十年里，众多学者付出巨大的时间与精力去研究遥感影像建筑物自动提取算法，但依旧有两个巨大的挑战难以解决。一方面现代社会建筑物形状各异，轮廓不规则，大多数建筑物因其不同的大小、形状及波段反射率，且常被树木、阴影遮挡导致难以辨别。另一方面，辨遥感影像中对象的高类内和低类间的变化使得提取建筑物的光谱和几何特征变得复杂。

近年来，深度学习成为遥感图像解译的新热点，深度卷积神经网络(Deepconvolutional neural networks，DCNN)在场景分类、变化检测和目标提取中，已全面超越了传统的图像解译方法。然而，如何找到深度卷积神经网络的最佳架构依旧是一个巨大的挑战。

发明内容

针对现有技术的不足之处，提供一种一种基于深度学习的遥感影像建筑物提取及轮廓优化方法，能够提高遥感影像自动生成的建筑物矢量的几何精度，有利于提升遥感影像自动化测图的质量并挖掘其应用价值。

为实现上述技术目的，本发明的基于深度学习的遥感影像建筑物提取及轮廓优化方法，步骤如下：

a首先构建建筑物训练样本数据集，然后对构建完好的建筑物训练样本数据进行数据增强，将每张遥感影像以及对应栅格数据按照指定尺寸分割裁剪为指定尺寸的小影像构成建筑物样本数据集，每一张小影像的命名规则为其在原始影像中的行、列编号多；

b利用数据增强后的建筑物样本数据集构建用于遥感影像提取的待训练神经网络模型PRCUnet；

c将数据增强后的建筑物样本数据集中的小影像作分为训练集和验证集输入到PRCUnet网络模型中，对待训练的PRCUNet网络模型进行训练；

d依据多种神经网络评价指标综合选择最优的PRCUnet网络权重文件，将待测试数据裁剪至指定大小，输入到模型中进行建筑物提取，得到初步预测结果；

e构建建筑物轮廓优化算法，对初步预测结果进行处理，优化建筑物轮廓；

f利用优化后的建筑物轮廓拼接还原为整幅影像；

g转换为矢量，完成制图。

构建建筑物训练样本数据集的具体步骤为：

a1采集若干张遥感影像构建数据集，并对遥感影中的建筑物用多边形进行框选从而生成建筑物矢量，建筑物矢量标签用于指示建筑物的位置与边界，未被框选的区域定义为背景；

a2将建筑物矢量转换为对应遥感影像尺寸的栅格数据，样式重采样为二值栅格数据；

a3将每张遥感影像以及对应栅格数据按照指定尺寸分割裁剪成多张小影像，每一张小影像的命名规则为其在多少行多少列，将分割裁剪后的遥感影像和对应栅格数据集合后得到原始数据集；

a4去除原始数据集中建筑物占比小于5％且建筑物面积较小的无效样本；

a5将原始数据集按照8:2的比例分别分为训练集、验证集。

对建筑物样本数据集进行数据增强，包括：

b1对训练集及验证集数据进行几何变换，包括放大、缩小、翻转、旋转、裁剪、变形操作；

b2对训练集及验证集数据进行颜色变换，包括噪声、模糊、颜色改变、擦除、填充等操作。

构建用于遥感影像提取的待训练神经网络模型PRCUnet，包括：基于Tensorflow神经网络框架、Unet网络模型基础，嵌入池化金字塔模块(PPM)、残差跳跃路径(Res Block)以及卷积注意力机制CBAM，基于卷积、池化、激活逐层搭建PRCUnet网络模型；

基于Unet网络架构构建待训练神经网络模型PRCUnet，将相互串联的CBAM模块、PPM模块、Res Block模块集成到PRCUnet的网络模型中，从而提取出更准确的建筑物轮廓；

卷积注意力机制CBAM(Convolutional Block Attention Module)结合了空间(spatial) 和通道(channel)的attention机制模块，为输出的张量分配不同的网络权重，从而能够在大量信息中筛选出重要的信息；

残差跳跃模块Res Block用来消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性；

池化金字塔模块(PPM)用来学习多尺度的建筑特征，充分获取多尺度建筑物的全局信息；

PRCUnet网络对称进行4次上、下采样，左半部分通过下采样减少数据的空间维度，从浅层至深层获取高层语义特征，输入数据从256×256×3逐渐下采样为为16×16×512，过滤掉噪声和不重要的高频信息；残差单元包括顺序连接的卷积层、批处理规范化(BatchNormalization)及校正线性单元(ReLU)，利用卷积层提取图像深层次特征，利用BN(BatchNormalization)层进行归一化处理，加快模型收敛速度，提升模型的泛化性能，利用ReLU激活函数消除深度网络中的梯度消失问题；

在编码路径的最后阶段连接PPM模块，PPM模块在网络中起到了桥梁的作用，扩大了过滤器的视野；

待训练神经网络模型PRCUnet网络右半部分为解码路径，由自底向上的反卷积层组成，把提取的深层次特征最近邻上采样到需要的尺寸，在解码开始前加入Dropout层，从而提高 PRCUnet网络模型的泛化能力并减少过拟合；右半部分共有四个解码器模块，包括两部分输入：上一层反卷积获取的深层特征，以及相应的网络左半部分提取的浅层特征，利用残差跳跃路径将两部分特征进行融合，逐步恢复建筑物的细节特征和空间维度，在每次上采样后，对上一步的输入数据进行加深处理，即利用3×3的卷积核进行两次卷积消除上采样过程中的混淆效应，当特征图上采样为输入图片大小后，输入到1×1的卷积和sigmoid激活函数模块中，从而提供分割图。

将数据增强后的建筑物样本数据集作分为训练集和验证集输入到PRCUnet网络模型中，对待训练的PRCUNet网络模型进行训练，包括：

c1首先设置迭代次数为I，然后初始化I＝1；设训练集为T；设PRCUnet预测建筑物轮廓为Label，简称预测标签L；设建筑物真实轮廓为Ground Truth，简称真实标签G；

c2将训练集T放入预测标签L中进行训练，在第I次训练中，从验证集T中随机选择一张图片，采用上一轮训练得到的网络权重参数对其进行预测，若是第一轮训练，则不加载权重文件；将得到的预测标签L与其对应的真实标签G以矩阵的形式分别输出，矩阵输出的维度为预测标签L[w×h×c_L]及真实标签G[w×h×c_G],其中w和h分别对应图像的宽与高，c为图像的通道数，矩阵中每一个元素值为置信度，区间为(0,1)，每一个置信度表示该矩阵对应图片位置的像素点是否为建筑物；若小于设定的阈值，则表明该像素点不是建筑物，若大于则表明该点为建筑物，利用下式计算第I轮训练后的预测标签L与真实标签G的二元交叉熵损失值；

对预测标签L[w×h×c_L]及真实标签G[w×h×c_G]中的每个置信度值作求和符号中的运算，然后再去求平均值，从而得到二元交叉熵损失值；

每一轮训练会记录下当前训练中的神经网络模型PRCUnet的所有参数作为网络权重文件；

比较第I轮训练后的二元交叉熵损失值是否小于前一轮训练后的二元交叉熵损失值，如果小于，则根据第I轮训练后的二元交叉熵损失值，通过反向传播更新当前网络权重，修改神经网络模型PRCUnet中参数，然后依据新的网络权重文件开始下一轮训练；如果大于，则保持前一轮训练的网络权重，然后继续训练；

令I＝I+1，通过对PRCUnet网络进行反复迭代训练，直到二元交叉熵损失值收敛，则停止迭代，得到最新训练完成的网络权重文件。

依据多种神经网络评价指标综合选择最优的PRCUnet网络权重文件，对测试集数据进行建筑物提取，包括：

当损失函数训练一定次数收敛后，根据Precision、Recall、F1、IoU指标对所有记录下的网络权重文件进行评估，根据综合数值大小，选择最优模型，其中各种神经网络评价指标如下：

其中TP(true positives)代表正样本被判定为正样本、FP(false positives)代表负样本被判定为正样本、FN(false negatives)代表负样本被判定为负样本；

获取待测试的遥感影像，按照模型要求的尺寸进行分割裁剪，并根据行列号对裁剪结果进行编号；

加载训练好的PRCUnet模型，将待测试的分割影像输入到加载最优网络权重文件的 PRCUnet模型中，得到每张图片的建筑物提取结果。

当前步骤的建筑物提取结果大小为裁剪过的尺寸的黑白二值图片，黑色用来表示背景，白色用来表示建筑物；

构建建筑物轮廓优化算法，优化建筑物轮廓，包括：

d1基于最小外接矩形对单个建筑物轮廓建立局部笛卡尔坐标系；

d2基于建筑物轮廓与最小外接矩形的交点划分区域：

在得到轮廓的最小外接矩形后，其求法决定了边缘轮廓点与矩形的4条边必有一个交点，为了更好的量化建筑物轮廓与最小外接矩形的差异程度，并便于计算豪斯多夫距离Hausdorff 距离，将建筑物轮廓划分为上下链或左右链进行计算，具体的，设在新坐标系的AB方向轴，轮廓点上A方向坐标最大的点为E点，最小的为F点，B方向坐标最小的为D点，最大的为C 点。当E点B坐标小于b/2时，轮廓以CD点为界，分为上下链。以逆时针为方向，其中CED 为上链，DFC为下链。当E点B坐标大于b/2时，轮廓以EF点为界，分为左右链。以逆时针为方向，其中EDF为左链，FCE为右链。

d3基于豪斯多夫距离Hasusdorff距离的建筑物轮廓规整：

豪斯多夫距离为任意两个集合之间定义的一种距离，利用豪斯多夫距离检测建筑物轮廓和最小外接矩形轮廓之间的距离关系；基于最小外接矩形建立的笛卡尔坐标系内有两个点集 P和Q，分别为为建筑物轮廓点集和最小外接矩形轮廓点集，P＝{P₀,P₁,P₂,P₃……P_n}，Q＝ {Q₀,Q₁,Q₂,Q₃……Q_n}，其中P，Q同属于转换后的AB坐标系内，那么利用此概念，通过计算建筑物轮廓链P和最小外接矩形链Q之间的Hausdorff距离，将距离与阈值β比较，如果建筑物轮廓链P与最小外接矩形链Q距离大于阈值β，则表明该部分不是神经网络漏检部分，如果差距小于阈值β，则将这一小段链Q替换为链P；

d4基于道格拉斯-普克(Douglas-Peucker)算法对优化过后的建筑物轮廓节点进行简化，得到建筑物轮廓优化结果：

通过Hausdorff距离的拟合后，建筑物轮廓链消除了凹陷部分，然后利用地理信息系统中常见的线要素压缩方法道格拉斯-普克法，将提取出的建筑物轮廓去除冗余点，拟合成相对规则的多边形；

构建用于遥感影像提取的待训练神经网络模型PRCUnet，包括：

e1为充分获取多尺度建筑物的全局信息，增强不同尺度、不同形状建筑物的提取能力，在PRCUnet模型中迁移了多尺度语义特征解析，即池化金字塔(PPM)模块。

e2为去除无效特征对网络模型产生的影响，嵌入卷积注意力机制(CBAM)对空间(spatial) 信息和通道(channel)信息进行权重分配，在大量信息中筛选出有效特征。

e3为提高卷积层的提取能力，消除低层-高层特征直连导致的语义鸿沟，使用残差跳跃路径(Res Block)代替原有网络的跳跃直连方式。

10、根据权利要求8所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于基于最小外接矩形为：

建筑物轮廓由有限个密集像素点组成，建筑物的轮廓是一条由顺序相连的坐标点集合表示的闭合曲线。设Z＝{(x₀，y₀)，(x₁，y₁)，……，(x_n，y_n)}，其中n∈N*，(x₀，y₀)＝ (x_n，y_n)。曲线Z是以(x₀，y₀)为起点，(x_n，y_n)为终点，按照逆时针方向首尾闭合的曲线。Opencv中的最小外接矩形求法是首先对轮廓曲线上的点进行Sklansky运算，从而得到一个包含所有轮廓点的凸包。再进一步对凸包运行旋转卡尺算法(Rotating Calipers)，枚举多个矩形比较，面积最小的即为最小外接矩形。

有益效果：

本发明以经典分割网络Unet网络为基础，在网络的编码器部分添加卷积注意力机制 CBAM用以消除无效特征对网络的影响，通过连续的卷积运算非线性压缩特征图的维度，减少网络初始输入的参数量,减少计算量，提高运算效率。同时在其中加入卷积运算，利用卷积的可学习性更好的融合压缩特征，提割的精度；

PRCUnet为提高卷积层的提取能力，消除低层-高层特征直连导致的语义鸿沟，使用Res Block代替原有网络的跳跃直连方式。Unet传统的跳跃直连方式过于冗余，且每一层网络提取的特征较少。为实现特征的重复利用，同时整合高层次特征和低层次特征，更有效率的利用参数，降低计算的冗余性并减小网络规模。本发明在网络中借鉴了残差连接思想，把残差跳跃路径集成到PRCUnet网络模型中，把CBAM注意力机制嵌入到单个Res Block中，克服了深层网络学习性能退化以及梯度爆炸等问题，以消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性。

本发明通过多尺度场景解析模块PPM对不同区域的场景进行聚合，解析多尺度场景特征信息，获得有效的像素级场景标注的全局信息，避免丢失表征不同子区域关系的场景信息，比全局池化带来更好的特征表示能力，以更好的提取建筑物。

本发明建立了一个端到端的语义分割模型PRCUnet,针对建筑物图像特征较小，部分建筑物被阴影遮挡等复杂情况，也能很好的提取到建筑物区域，减小网络参数规模同时提高了提取精度；

本发明的建筑物轮廓优化算法，相对于传统算法，该算法更简单高效、运行速度快，并能一定程度上修复建筑物的不规则凹凸。

附图说明

图1是本发明基于PRCUnet的遥感图像建筑物提取方法及轮廓优化算法流程图；

图2是本发明的卷积注意力CBAM模块示意图；

图3是本发明的通道注意力模块示意图；

图4是本发明的空间注意力模块示意图；

图5是本发明的残差跳跃路径ResBlock模块示意图；

图6是本发明的金字塔池化模块PPM模块示意图；

图7是本发明的PRCUnet网络建筑物提取效果图；

图8是本发明的基于最小外接矩形的局部笛卡尔坐标系示意图；

图9是本发明的建筑物物轮廓区域划分示意图；

图10是本发明的基于Hausdorff距离的建筑物轮廓规整示意图；

图11是本发明的基于道格拉斯-普克法的建筑物轮廓拟合示意图；

图12是本发明的轮廓优化算法示意图；

图13是本发明的轮廓优化算法真实效果图；

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明

如图1所示，本发明的基于深度学习的遥感影像建筑物提取及轮廓优化方法，具体步骤如下：

S1、制作语义分割数据集、数据增强

S1.1、制作语义分割数据集

利用数据标注工具Arcmap读取若干张遥感影像数据集，人工对每一幅遥感影像上的建筑物用多边形进行框选从而生成建筑物矢量，建筑物矢量标签用于指示建筑物的位置与边界，未被框选的区域为背景；将建筑物矢量转换为对应遥感影像尺寸的栅格数据，样式重采样为二值栅格数据，即建筑物区域像素值为255，背景区域设置为0；将每张遥感影像以及对应栅格数据按照设定尺寸分割裁剪得到原始数据集；去除标签数据集中建筑物占比小于5％且面积较小的无效样本集；将所有数据集按照设定的比例，如8:2的比例分别分为训练集、验证集；

S1.2、数据增强

对分类好的数据进行几何变换，包括放大、缩小、翻转、旋转、裁剪、变形等操作；

对分类好的数据进行颜色变换，包括噪声、模糊、颜色改变、擦除、填充等操作；

S2、构建PRCUnet模型、模型训练

S2.1、构建PRCUnet模型

PRCUnet基于ResNet和Unet网络架构，把CBAM、PPM、Res Block模块集成到PRCUnet网络模型中，从而提取出更准确的建筑物轮廓。残差跳跃模块(Res Block)用来消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性。CBAM(Convolutional BlockAttention Module)注意力机制是结合了空间(spatial)和通道(channel)的attention机制模块，为输出的张量分配不同的权重，从而能够在大量信息中筛选出重要的信息；PPM模块用来学习多尺度的建筑特征，充分获取多尺度建筑物的全局信息。PRCUnet网络对称进行4次上、下采样，左半部分通过下采样减少数据的空间维度，从浅层至深层获取高层语义特征。特征图从 256×256×3逐渐下采样为为16×16×512，过滤掉噪声和不重要的高频信息。残差单元是批处理规范化(Batch Normalization)、校正线性单元(ReLU)激活和卷积层的组合，利用BN (Batch norm)层进行归一化处理，加快模型收敛速度，提升模型的泛化性能，利用ReLU激活函数消除深度网络中的梯度消失问题。在编码路径的最后阶段连接PPM模块，PPM模块在网络中起到了桥梁的作用，扩大了过滤器的视野。

PRCUnet网络右半部分为解码路径，由自底向上的反卷积层组成，把提取的深层次特征最近邻上采样到需要的尺寸。在解码开始前加入Dropout层，可以在一定程度上提高模型的泛化能力并减少过拟合。右半部分每一个解码器模块包括两部分输入：上一层反卷积获取的深层特征，以及相应的网络左半部分提取的浅层特征。利用残差跳跃路径将两部分特征进行融合，逐步恢复建筑物的细节特征和空间维度。在每次上采样后，对数据进行加深处理，即利用3×3的卷积核进行两次卷积消除上采样过程中的混淆效应。当特征图上采样为输入图片大小后，输入到1×1的卷积和sigmoid激活函数模块中，从而提供分割图。

S2.1.1、CBAM模块

为了避免无效特征对网络模型产生影响，嵌入CBAM注意力机制对空间信息(spatial)和通道(channel)信息进行权重分配。CBAM是一种轻量高效的卷积神经注意力模块，对模块给定任意一个特征图(Feature map)，CBAM在特征图的空间和通道两个维度注入注意力映射，再将特征映射乘以注意力，从而对输入的特征图自适应特征细化。原始的Unet网络认为在经过卷积池化操作后得到的特征通道具有同等重要性，但针对特定提取任务，各通道的特征重要程度并不相同。CBAM注意力机制可以帮助网络根据权重的不同自主学习特征权重，从而加快运行速度，提升网络性能。CBAM注意力模块结构示意图如图2所示：

如图3所示：给定一个特征图F后，通道注意力模块首先利用全局最大池化和全局平均池化对特征图F进行压缩，将压缩后的特征输入到多层感知器(MLP)中进行升维降维操作，再将MLP输出的两个一维向量进行求和运算并通过sigmoid函数得到通道注意力系数Mc，其公式如下：

其中W₀，W₁为MLP模型中的两层参数。

如图4所示：CBAM模块把输入特征图F与通道注意力系数M_c相乘得到新特征F′，再将F′输入到空间注意力模块中，使用均值池化和最大值池化得到两个不同的二维向量，然后使用Concatenation将两个特征描述合并，并使用卷积操作生成Spatial attention mapMs(F′)，将M_s与F′相乘得到最终的注意力特征F″。其公式如下：

其中f^7×7为卷积核大小为7×7的卷积层。

S2.1.2、残差跳跃路径ResBlock

在ResNet提出之前，研究者普遍认为随着网络深度的增加，学习的特征越多，那么模型的表现就会越好。但随着神经网络深度的不断增加，简单的叠加浅层网络来构建深层网络，并不会提升网络的性能，且常常会带来以下两个问题。其一在经过较长时间的训练后，网络仍然收敛困难甚至无法收敛。其二网络性能在达到一个峰值后，甚至还会出现下降。

浅层网络希望学习到一个恒等映射函数H(x)＝x，即得到一个特征函数用来表达原始特征 x的信息。但随着网络的加深，即使利用BN也难以拟合这个恒等映射。ResNet将恒等映射函数设计为H(x)＝F(x)+x，就可以转换为残差函数F(x)＝H(x)-x。相比于传统的多层网络拟合H(x)和x的映射关系，残差结构可以加快模型的计算速度，结构更加精简且不会降低网络的性能。当残差Fx为0时，那么映射函数就变为了原先的恒等映射函数，并不会降低网络的性能。把残差跳跃路径集成到PRCUnet网络模型中，把CBAM注意力机制嵌入到单个Res Block中，克服了深层网络学习性能退化以及梯度爆炸等问题，以消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性，如图5所示：。

S2.1.3、多尺度语义特征解析

在指定大小窗口下进行下采样的过程中，传统的池化方法容易漏掉中小建筑物的特征信息。建筑物提取的过程中，不仅需要获取建筑物自身的特征，还需要获取建筑物周围的场景信息。在网络中加入金字塔池化模块PPM(Pyramid Pooling Module)对不同区域的场景进行聚合，解析多尺度场景特征信息，获得有效的像素级场景标注的全局信息，避免丢失表征不同子区域关系的场景信息，比全局池化带来更好的特征表示能力，以更好的提取建筑物。金字塔池化模块PPM由一组不同尺度的池化块组成，对输入的特征图F进行多次不同尺寸的池化操作得到多个尺寸的特征图，利用1×1的卷积减少特征图的通道数，将不同尺寸的池化结果上采样到输入图像的大小，并在通道上进行拼接，充分获取多尺度建筑物的全局信息。 PPM模块详细结构如图6所示：

S2.2、模型训练

模型训练初始学习率为1e-4，每批训练16个样本，随着训练误差的变化趋势动态对学习率进行微调。

初始化模型超参数，其中迭代次数为100、学习率为1e-4、批次大小为16，损失函数为交叉熵损失函数具体参数根据平台配置进行微调；

将数据增强后的建筑物样本数据集输入到网络模型中，损失函数根据模型生成的标签和真实标签的误差反向传播，更新模型权重文件；

设置迭代次数为I，初始化I＝1；

在第I次训练中，从训练集T中随机选择一组图片，即预测标签L与真实标签G；以矩阵的形式分别输出预测图像L[w×h×c_L]及真实标签G[w×h×c_G],其中w和h分别对应图像的宽与高，c为图像的通道数；矩阵中每一个元素值为置信度，区间为(0,1)，每一个置信度表示该矩阵对应图片位置的像素点是否为建筑物；若小于设定的阈值，一般情况下阈值设置为 0.5，则表明该像素点不是建筑物，若大于则表明该点为建筑物，利用下式计算第I轮训练后的预测标签L与真实标签G的二元交叉熵损失值；

在本实施例中，需要对公式中每个矩阵中的每个元素值作求和符号中的运算，然后再去求平均值，从而得到二元交叉熵损失值；

比较第I轮训练后的二元交叉熵损失值是否小于前一轮训练后的二元交叉熵损失值，如果小于，则根据第I轮训练后的二元交叉熵损失值，通过反向传播更新当前权重，然后继续训练；如果大于，则保持前一轮训练的网络权重，然后继续训练；

令I＝I+1，通过对PRCUnet网络进行反复迭代训练，直到二元交叉熵损失值收敛，则停止迭代，得到最终训练完成的权重文件；

为了保证提取效果最优，采用F1和IoU对网络性能衡量，评价指标定义如下：

S3、遥感图像建筑物可视化提取

将待提取的遥感图像裁剪为模型输入大小，根据评价指标F1和IoU选择效果最优的权重文件。基于网络对每张图片的输出结果为每个像素点为建筑物的概率值，值的范围为[0,1]，置信度设为50％，即像素点概率大于50％的像素预测为建筑物，像素点概率小于50％的像素预测为背景；

为验证PRCUnet模型的提取效果以及迁移模块的作用，选取多个网络结构在同一数据集上进行测试。四种模型的建筑物提取结果对比如图7所示，图中(a)列为分辨率0.3m256×256 的遥感影像，(b)列为遥感影像上的建筑物真实标签，(c)列为Unet模型分割结果，(d)列为Unet+Res Block模型分割结果，(e)列为Unet+Res Block+PPM模型分割结果，(f)列为 PRCUnet模型分割结果。

由图7提取结果可以发现，基于原始Unet模型的分割结果存在明显的误分和漏分情况，尤其在对相邻的建筑物分割会出现明显的边缘粘连情况，无法得到清晰的分割边界，且同时存在很多细碎小斑点。面积较大建筑物存在空洞现象，低矮、密集建筑物周边存在椒盐现象，识别效果较差；基于Unet+Res Block模型的分割结果相比原始Unet模型，ResBlock可以消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性。可以看到建筑物粘连现象变少，细碎小斑点明显减少，但提取出的建筑物在边缘上分割精度不高，分割结果仍然欠佳。基于 Unet+ResBlock+PPM模型的分割结果相比以上两种模型，由于PPM模块在建筑物提取的过程中，不仅获取建筑物自身的特征，还获取建筑物周围的场景信息，结合上下文信息，有效提高了建筑物分割精度，但对复杂建筑物的提取效果欠佳。本文提出的PRCUnet模型相比以上三种模型，嵌入CBAM模快加快了网络运行速度，使神经网络更关注有效特征，可以展现出更多建筑物细节信息，因此提取出的建筑物边缘相对清晰平滑，对不规则的建筑物也有较好的提取结果，分割结果明显优于以上三种模型。

S4、建筑物轮廓优化

S4.1、建筑物最小外接矩形的建立

S4.2、基于最小外接矩形的局部笛卡尔坐标系

在建筑预测结果图中，将图像左上角作为坐标原点O(0，0)，其中水平向右方向为x正方向，垂直向下方向为y正方向，这是原始的XY坐标系。为了便捷的对轮廓上的点进行数学计算，现以最小外接矩形的左上角顶点(a，b)作为新坐标系的原点，两条垂直邻边为坐标轴建立AB坐标系，两坐标系的对应关系如图8所示：

其中，设AB坐标系内的点Q(A，B)和XY坐标系内的点Q(X，Y)为同一点，其坐标转换公式为：

X＝Asinθ-Bcosθ+a

Y＝Acosθ+Bsinθ+b

其逆转换的公式为：

A＝(X-a)sinθ+(Y-b)Bcosθ

B＝-(X-a)cosθ+(Y-b)Bsinθ

经过转换公式，可以实现XY坐标系和AB坐标系内任意一点的坐标转换，以最小外接矩形的四个顶点为例，设左上角顶点、左下角顶点、右下角顶点、右上角顶点分别为A₁，A₂，A₃，A₄，其在XY坐标系内的坐标为A₁(a，b)，A₂(a+Bsinθ，b+Bcosθ)，A₃(a+Bsinθ+Acosθ， b+Bcosθ-Asinθ)，A₄(a+Acosθ，b-Asinθ)，设四个顶点在AB坐标系内的坐标分别为： A₁(0，0)，A₂(0，N)，A₃(M，N)，A₄(N，0)。其中M和N分别为最小外接矩形的长和宽。

S4.3、建筑物轮廓区域的划分

在得到轮廓的最小外接矩形后，其求法决定了边缘轮廓点与矩形的4条边必有一个交点。为了更好的量化轮廓的凹陷程度，以及方便计算Hausdorff距离，本文将建筑物轮廓划分为上下链或左右链进行计算，如图9所示，设在新坐标系的AB方向轴，轮廓点上A方向坐标最大的点为E点，最小的为F点，B方向坐标最小的为D点，最大的为C点。当E点B坐标小于b/2时，轮廓以CD点为界，分为上下链。以逆时针为方向，其中CED为上链，DFC为下链。当E点B坐标大于b/2时，轮廓以EF点为界，分为左右链。以逆时针为方向，其中EDF为左链，FCE为右链。

S4.4、基于Hausdorff距离的建筑物轮廓规整

Hausdorff距离又称豪斯多夫距离，是指任意两个集合之间定义的一种距离，可以用来检测两条轮廓之间的距离关系。在给点欧式空间中存在两个点集，P＝{P₀,P₁,P₂,P₃……P_n}，Q＝ {Q₀,Q₁,Q₂,Q₃……Q_n}，其中P，Q同属于转换后的AB坐标系内。Hausdorff距离定义公式如下：

H(P，Q)＝max[h(P，Q)，h(Q，P)]

h(P，Q)＝max min||p-q||，其中p∈P，q∈Q

h(Q，P)＝max min||q-p||，其中p∈P，q∈Q

式中：h(P，Q)是指点集P到点集Q的单向Hausdorff距离，同理h(Q，P)是指点集Q到点集P的单向Hausdorff距离。H(P，Q)为双向Hausdorff距离。那么利用此概念，通过计算轮廓链P和最小外接矩形链Q之间的Hausdorff距离，将距离与阈值β比较，从而判断是否需要将链P替换为链Q。本文利用Hausdorff距离进行建筑物轮廓拟合的具体步骤如下，其中以上链为例：将上链和最小外接矩形上边界等分为n等份，等分为P＝{P₀，P₁，P₂，P₃……P_n}， Q＝{Q₀，Q₁，Q₂，Q₃……Q_n}。从上链起点C点出发，沿着建筑物轮廓链P逆时针方向前进，当B 方向坐标前进个像素后，此段为P₀。Q₀为点(A，B)到点/>的最小外接矩形边界。计算P₀段到Q₀段的Hausdorff距离，若h(P₀，Q₀)＜β，则该段可以用Q₀线段替换，若 h(P₀，Q₀)＞β，则该段可保留。图10位于基于Hausdorff距离的建筑物轮廓规整示意图。

S4.5、基于道格拉斯-普克法的建筑物轮廓拟合

在得到Hausdorff距离的拟合后，建筑物轮廓链已经消除了凹陷部分，但锯齿现象以及像素点冗余现象还未解决。本文基于地理信息系统中常见的线要素压缩方法道格拉斯-普克法，将提取出的建筑物轮廓去除冗余点，拟合成相对规则的多边形。

道格拉斯-普克算法思想是将待处理曲线的首末端点相连，虚连成一道直线，求出各个轮廓顶点到该虚连直线的距离，把其中最大值与线差δ比较。若最大值小于线差δ，那么则表明该线段弯曲程度低，可以近似于直线，即删除除首末端点外的所有顶点。若最大值大于线差δ，那么则表明该线段弯曲程度高。以最大值顶点分界，将原轮廓分为两段，重新上步骤，直至无法压缩，最终得到拟合过后的建筑物轮廓。道格拉斯-普克算法可准确删除小弯曲上的定点，保留建筑物轮廓的弯曲形态，尽可能贴合原始建筑物。其拟合过程原理如图11的(1)、(2)、 (3)和(4)所示。

建筑物轮廓优化过程示意图如图12所示；

建筑物轮廓优化实际效果图如图13所示；

S5、建筑物轮廓转换为矢量、完成制图

根据行列号将提取结果拼接还原为整幅影像；

建筑物轮廓在优化后更为贴近真实标签，此时将建筑物栅格数据转换为矢量，得到最终提取的遥感影像建筑物数据。

针对传统的辨遥感影像建筑物提取方法自动化程度低、复杂场景下精度低以及提取的边界轮廓不规则等问题，提出了一种基于深度卷积神经网络的建筑物提取模型和一种基于最小外接矩形的边界优化算法，将语义分割的思想应用到建筑物提取中。提出的PRCUnet包含残差网络模块、多尺度场景解析模块、CBAM模块。残差网络模块消除低层-高层特征直连导致的语义鸿沟，保护信息的完整性。多尺度场景解析模块对不同区域的场景进行聚合，解析多尺度场景特征信息，可有效克服建筑物阴影、树木等干扰因素带来的影响，提升遥感图像中建筑物的分割精度。CBAM模块对空间(spatial)和通道(channel)信息进行权重分配，去除无效特征对网络的影响，使网络更专注于有效特征，提高了网络的性能。综上所述，PRCUnet 模型及建筑物轮廓优化方法在遥感影像的建筑物提取上具有一定的稳定性和优越性，有益于提升遥感影像建筑物自动测图结果的质量和应用价值，可以作为遥感影像建筑物提取的有效方法。

Claims

1.一种基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于步骤如下：

f利用优化后的建筑物轮廓拼接还原为整幅影像；

g转换为矢量，完成制图；

构建用于遥感影像提取的待训练神经网络模型PRCUnet，包括：基于Tensorflow神经网络框架、Unet网络模型基础，嵌入池化金字塔模块PPM、残差跳跃路径Res Block以及卷积注意力机制CBAM，基于卷积、池化、激活逐层搭建PRCUnet网络模型；

卷积注意力机制CBAM结合了空间和通道的attention机制模块，为输出的张量分配不同的网络权重，从而能够在大量信息中筛选出重要的信息；

池化金字塔模块PPM用来学习多尺度的建筑特征，充分获取多尺度建筑物的全局信息；

PRCUnet网络对称进行4次上、下采样，左半部分通过下采样减少数据的空间维度，从浅层至深层获取高层语义特征，输入数据从256×256×3逐渐下采样为为16×16×512，过滤掉噪声和不重要的高频信息；残差单元包括顺序连接的卷积层、批处理规范化及校正线性单元，利用卷积层提取图像深层次特征，利用BN层进行归一化处理，加快模型收敛速度，提升模型的泛化性能，利用ReLU激活函数消除深度网络中的梯度消失问题；

待训练神经网络模型PRCUnet网络右半部分为解码路径，由自底向上的反卷积层组成，把提取的深层次特征最近邻上采样到需要的尺寸，在解码开始前加入Dropout层，从而提高PRCUnet网络模型的泛化能力并减少过拟合；右半部分共有四个解码器模块，包括两部分输入：上一层反卷积获取的深层特征，以及相应的网络左半部分提取的浅层特征，利用残差跳跃路径将两部分特征进行融合，逐步恢复建筑物的细节特征和空间维度，在每次上采样后，对上一步的输入数据进行加深处理，即利用3×3的卷积核进行两次卷积消除上采样过程中的混淆效应，当特征图上采样为输入图片大小后，输入到1×1的卷积和sigmoid激活函数模块中，从而提供分割图；

构建建筑物轮廓优化算法，优化建筑物轮廓，包括：

d2基于建筑物轮廓与最小外接矩形的交点划分区域：

在得到轮廓的最小外接矩形后，其求法决定了边缘轮廓点与矩形的4条边必有一个交点，为了更好的量化建筑物轮廓与最小外接矩形的差异程度，并便于计算豪斯多夫距离Hausdorff距离，将建筑物轮廓划分为上下链或左右链进行计算，具体的，设在新坐标系的AB方向轴，轮廓点上A方向坐标最大的点为E点，最小的为F点，B方向坐标最小的为D点，最大的为C点；当E点B坐标小于b/2时，轮廓以CD点为界，分为上下链；以逆时针为方向，其中CED为上链，DFC为下链；当E点B坐标大于b/2时，轮廓以EF点为界，分为左右链；以逆时针为方向，其中EDF为左链，FCE为右链；

d3基于豪斯多夫距离Hasusdorff距离的建筑物轮廓规整：

豪斯多夫距离为任意两个集合之间定义的一种距离，利用豪斯多夫距离检测建筑物轮廓和最小外接矩形轮廓之间的距离关系；基于最小外接矩形建立的笛卡尔坐标系内有两个点集P和Q，分别为为建筑物轮廓点集和最小外接矩形轮廓点集，P＝{P₀,P₁,P₂,P₃……P_n}，Q＝{Q₀,Q₁,Q₂,Q₃……Q_n}，其中P，Q同属于转换后的AB坐标系内，那么利用此概念，通过计算建筑物轮廓链P和最小外接矩形链Q之间的Hausdorff距离，将距离与阈值β比较，从而判断是否需要将链Q替换为链P，具体的说如果建筑物轮廓链P与最小外接矩形链Q距离大于阈值β，则表明该部分不是神经网络漏检部分，如果差距小于阈值β，则将这一小段链Q替换为链P；

构建用于遥感影像提取的待训练神经网络模型PRCUnet，包括：

e1为充分获取多尺度建筑物的全局信息，增强不同尺度、不同形状建筑物的提取能力，在PRCUnet模型中迁移了多尺度语义特征解析，即池化金字塔PPM模块；

e2为去除无效特征对网络模型产生的影响，嵌入卷积注意力机制CBAM对空间spatial信息和通道channel信息进行权重分配，在大量信息中筛选出有效特征；

e3为提高卷积层的提取能力，消除低层-高层特征直连导致的语义鸿沟，使用残差跳跃路径Res Block代替原有网络的跳跃直连方式。

2.根据权利要求1所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于，构建建筑物训练样本数据集的具体步骤为：

a4去除原始数据集中建筑物占比小于5％且建筑物面积的无效样本；

a5将原始数据集按照8:2的比例分别分为训练集、验证集。

3.根据权利要求1所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于，对建筑物样本数据集进行数据增强，包括：

b2对训练集及验证集数据进行颜色变换，包括噪声、模糊、颜色改变、擦除、填充操作。

4.根据权利要求1所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于，将数据增强后的建筑物样本数据集作分为训练集和验证集输入到PRCUnet网络模型中，对待训练的PRCUNet网络模型进行训练，包括：

c2将训练集T放入预测标签L中进行训练，在第I次训练中，从验证集T中随机选择一张图片，采用上一轮训练得到的网络权重参数对其进行预测，若是第一轮训练，则不加载权重文件；将得到的预测标签L与其对应的真实标签G以矩阵的形式分别输出，矩阵输出的维度为预测标签L[w×h×c_L]及真实标签G[w×h×c_G],其中w和h分别对应图像的宽与高，c为图像的通道数，矩阵中每一个元素值为置信度，区间为(0,1)，每一个置信度表示该矩阵对应图片位置的像素点是否为建筑物；若小于设定的阈值，则表明该像素点不是建筑物，若大于则表明该像素点为建筑物，利用下式计算第I轮训练后的预测标签L与真实标签G的二元交叉熵损失值；

5.根据权利要求1所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于，依据多种神经网络评价指标综合选择最优的PRCUnet网络权重文件，对测试集数据进行建筑物提取，包括：

其中TP代表正样本被判定为正样本、FP代表负样本被判定为正样本、FN代表负样本被判定为负样本；

加载训练好的PRCUnet模型，将待测试的分割影像输入到加载最优网络权重文件的PRCUnet模型中，得到每张图片的建筑物提取结果；

当前步骤的建筑物提取结果大小为裁剪过的尺寸的黑白二值图片，黑色用来表示背景，白色用来表示建筑物。

6.根据权利要求1所述的基于深度学习的遥感影像建筑物提取及轮廓优化方法，其特征在于基于最小外接矩形为：

建筑物轮廓由有限个密集像素点组成，建筑物的轮廓是一条由顺序相连的坐标点集合表示的闭合曲线；设Z＝{(x₀，y₀)，(x₁，y₁)，……，(x_n，y_n)}，其中n∈N*，(x₀，y₀)＝(x_n，y_n)；曲线Z是以(x₀，y₀)为起点，(x_n，y_n)为终点，按照逆时针方向首尾闭合的曲线；Opencv中的最小外接矩形求法是首先对轮廓曲线上的点进行Sklansky运算，从而得到一个包含所有轮廓点的凸包；再进一步对凸包运行旋转卡尺算法Rotating Calipers，枚举多个矩形比较，面积最小的即为最小外接矩形。