CN114387523B

CN114387523B - 基于dcnn边界引导的遥感图像建筑物提取方法

Info

Publication number: CN114387523B
Application number: CN202210286213.XA
Authority: CN
Inventors: 杨斯涵
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-03
Anticipated expiration: 2042-03-23
Also published as: CN114387523A

Abstract

本发明涉及基于DCNN边界引导的遥感图像建筑物提取方法，包括步骤：获取遥感图像，使用编码器对遥感图像进行特征提取，从而得到多张特征图，编码器为主干子网络；使用解码器从多张特征图中检测建筑物边界特征和估计建筑物掩膜特征，所述解码器包括边界子网络、掩膜子网络；使用解码器将建筑物边界特征和建筑物掩膜特征进行融合，最终获取建筑物提取结果，编码器还包括细化子网络。本发明从边界子网络中检测建筑物边界特征，同时从掩膜子网络中估计建筑物掩膜特征；为了利用建筑物边界特征和建筑物掩膜特征之间的语义相关性，进一步通过细化子网络利用它们之间的互补信息，生成在建筑物边界处具有强烈响应的最终建筑物提取结果。

Description

基于DCNN边界引导的遥感图像建筑物提取方法

技术领域

本发明涉及遥感图像处理技术领域，特别涉及基于DCNN边界引导的高分辨率遥感图像建筑物提取方法。

背景技术

在遥感领域，建筑物自动提取是一个具有广泛应用前景的重要研究方向，如：人口估计、建筑物变化检测等，建筑作为人类活动的场所，通过对建筑物分布的分析，可以获得人口聚集信息，进而有助于城市规划、人类活动监测、能源消耗估算等。随着卫星、无人机和光学图像传感器的快速发展，获取高分辨率遥感图像变得非常容易，使得提取像素级的建筑物成为可能。然而，由于建筑物的空间变化（大小、颜色、亮度和纹理）和周围背景的干扰（如树的阴影、外观相似的物体等），准确可靠的建筑物提取仍然面临着巨大的挑战。

近几年，深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)已经广泛应用于建筑物提取相关任务中，并取得了骄人的成绩。因此，大多数用于建筑物提取的深度学习方法是基于语义分割而设计的深度卷积神经网络(DCNN)。现有的方法都试图直接以端到端的形式直接从原始高分辨率遥感图像中学习建筑物的掩膜特征，这些深度学习方法的主要优势在于它们能够处理背景和建筑物外观的明显变化，尤其是在外观相似时将建筑物与背景区分开来。

然而，由于目前深度卷积神经网络采用的跨步卷积和池化操作，预测的建筑物掩膜仍然是模糊和不规则的，尤其是在建筑物边界上。建筑物边界周围的细节缺陷是由于深度卷积神经网络中特征分辨率的大幅降低而产生的。此外，建筑物边界周围的像素定义了建筑物轮廓，从而为提取建筑与周围的复杂背景区分开来。深度卷积神经网络越能准确地区分建筑物边界周围的像素，就越能将建筑物与周围的复杂背景区分开来。目前的工作已经研究了如何提高建筑物提取中边界预测的准确性，但是，这些方法并没有彻底探索建筑物边界和建筑物掩膜之间的互补特征。

发明内容

本发明的目的在于通过保留建筑物边界周围的细节特征以对建筑物进行更精细化的提取，提供一种基于DCNN边界引导的遥感图像建筑物提取方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于DCNN边界引导的遥感图像建筑物提取方法，包括以下步骤：

步骤S1，获取遥感图像，使用编码器对遥感图像进行特征提取，从而得到多张特征图，所述编码器为主干子网络；

步骤S2，使用解码器从多张特征图中检测建筑物边界特征和估计建筑物掩膜特征，所述解码器包括边界子网络、掩膜子网络；

步骤S3，使用解码器将建筑物边界特征和建筑物掩膜特征进行融合，最终获取建筑物提取结果，所述编码器还包括细化子网络。

所述获取遥感图像，使用编码器对遥感图像进行特征提取，从而得到多张特征图的步骤，包括：

采用VGG16或ResNet-101作为主干子网络提取图像特征，所述主干子网络具有五组卷积层；使用主干子网络对输入遥感图像进行特征提取，从而获得五张特征图，分别为F₁、F₂、F₃、F₄、F₅，且尺度分别为遥感图像的1/2、1/4、1/8、1/16、1/16，其中特征图F₂、F₃为低级特征图，F₄、F₅为高级特征图，特征图F₁不直接用于后续编码器中。

使用解码器从多张特征图中检测建筑物边界特征的步骤，包括：

将特征图F₂、F₃分别输入边界子网络的第一卷积层、第二卷积层，分别生成特征图F`₂、F`₃；

对特征图F`₃进行两倍上采样，使得能够匹配特征图F`₂的分辨率；

将匹配后的特征图F`₂、F`₃堆叠在一起，输入边界子网络的第三卷积层，从而获得变换后的边界特征图F_B；

将边界特征图F_B输入边界子网络的第四卷积层，生成建筑物边界的得分图，用于监督建筑物边界特征的学习过程；

使用基于二进制交叉熵的损失函数训练边界子网络，从而获得建筑物边界特征，损失函数定义为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物边界像素，当

时表示输出为非建筑物边界像素；

为样本预测值，即建筑物边界预测图，W、b为在训练过程中学习的参数；

表示建筑物边界样本标签B中的边界像素集合，

表示建筑物边界样本标签B中的非边界像素集合；

为类平衡参数，用于处理边界像素数和非边界像素数的不平衡现象，

，

。

使用解码器从多张特征图中提取建筑物掩膜特征的步骤，包括：

将特征图F₄输入掩膜子网络的第一并行空洞卷积和全局平均池化模块，得到特征图F_4*，再将特征图F_4*输入掩膜子网络的第一卷积层，得到特征图F`₄；

将特征图F₅输入掩膜子网络的第二并行空洞卷积和全局平均池化模块，得到特征图F_5*，再将特征图F_5*输入掩膜子网络的第二卷积层，得到特征图F`₅；

使用特征图F`₄、F`₅计算掩膜子网络输出的损失，从而得到建筑物掩膜特征，损失函数的计算公式为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

为样本预测值，即建筑物掩膜预测图，

、

为在训练过程中学习的参数；

表示建筑物样本标签M中的建筑物像素集合，

表示建筑物样本标签M中的背景像素集合；

为类平衡参数，用于处理建筑物像素数和背景像素数的不平衡现象，

，

。

所述使用解码器将建筑物边界特征和建筑物掩膜特征进行融合的步骤，包括：

对特征图F`₅进行四倍上采样，使得能够匹配边界特征图F_B；将匹配后的特征图F_B、F`₅堆叠在一起后，输入细化子网络的第一并行空洞卷积和全局平均池化模块，得到特征图F_5**；将特征图F_5**输入细化子网络的第一卷积层，得到特征图F``₅；

对特征图F`₄进行四倍上采样，使得能够匹配边界特征图F_B；将匹配后的特征图F_B、F`₄堆叠在一起后，输入细化子网络的第二并行空洞卷积和全局平均池化模块，得到特征图F_4**；将特征图F_4**输入细化子网络的第二卷积层，得到特征图F``₄；

在特征图F``₄，F``₅的训练过程中采用了深度监督，损失函数的计算公式如下：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

为样本预测值，即建筑物掩膜预测图，

、

为在训练过程中学习的参数；

将特征图F``₄、F``₅融合在一起，用于增强建筑物掩膜特征；融合后的特征图F``₄、F``₅输入细化子网络的第三卷积层，从而输出最终的建筑物提取结果，融合特征图的损失函数为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

为样本预测值，即建筑物掩膜预测图，W、b为在训练过程中学习的参数。

基于深度卷积神经网络边界引导网络的总损失函数为：

其中

和

是平衡权重，且

。

与现有技术相比，本发明的有益效果：

本方案提出一个简单而有效的深度卷积神经网络(DCNN)，通过保留建筑物边界周围的细节特征以对建筑物进行更精细化的提取。考虑到不同卷积层中特征的不同特点，使用低级特征来检测建筑物边界，使用高级特征来预测建筑物语义信息。提出的深度卷积神经网络可以同时提取建筑物的掩膜并检测建筑物边界。为了挖掘不同层级的语义信息，设计了并行空洞卷积和全局平均池化模块(PAGM)来提取具有不同空洞率下的高级特征。然后，将建筑物边界特征融合到建筑物语义特征中，以指导网络在定位建筑物边界时学习更详细的信息。在网络训练过程中，深度监督用于指导在不同子网络中学习丰富的具有代表性的特征。在两个基准数据集的实验结果表明，与其它最先进的模型相比，本网络在不同的评估指标下达到了最高的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法的框架结构；

图2为本发明并行空洞卷积和全局平均池化模块的框架结构；

图3为本发明实施例2的基准数据集样本，图3中的a显示了来自WHU航空建筑数据集的样本，图3中的b显示了来自Inria航空建筑物数据集的样本；

图4为本发明实施例2中F1和IOU的指标在WHU航空建筑数据集和Inria航空建筑物数据集上如何随着不同阈值而变化，图4中的a显示了WHU航空建筑数据集的结果，图4中的b显示了Inria航空建筑物数据集的结果；

图5为本发明实施例2中WHU航空建筑数据集上Model_{_base}、Model_{_pagm}和Model_{_boundary}之间的比较，图5中的a为原始遥感图像，图5中的b为真值，图5中的c为使用Model_{_base}进行建筑物提取的结果，图5中的d为使用Model_{_pagm}进行建筑物提取的结果，图5中的e为使用Model_{_boundary}进行建筑物提取的结果；

图6为本发明实施例2中利用本方法网络预测的建筑物边界图，图6中的a为原始遥感图像，图6中的b为真值，图6中的c显示了本方法深度卷积神经网络网络预测结果，图6中的d显示了MATLAB的imgradient函数提取的边界真值，图6中的e显示了边界子网络预测的建筑物边界；

图7为本发明实施例3在WHU航空建筑数据集上由不同模型生成的用于可视化比较的建筑提取实例，图7中的a为原始遥感图像，图7中的b为真值，图7中的c显示了由SegNet输出的建筑掩膜，图7中的d显示了由U-Net输出的建筑掩膜，图7中的e显示了由PSPNet输出的建筑掩膜，图7中的f显示了由DenseASPP输出的建筑掩膜，图7中的g显示了由DeepLab v3+输出的建筑掩膜，图7中的h显示了由本方法输出的建筑掩膜；

图8为本发明实施例3在Inria航空建筑数据集上所有模型的比较，图8中的a为原始遥感图像，图8中的b为真值，图8中的c显示了由SegNet输出的建筑掩膜，图8中的d显示了由U-Net输出的建筑掩膜，图8中的e显示了由PSPNet输出的建筑掩膜，图8中的f显示了由DenseASPP输出的建筑掩膜，图8中的g显示了由DeepLab v3+输出的建筑掩膜，图8中的h显示了由本方法输出的建筑掩膜；

图9为本发明边界子网络结构框图；

图10为本发明掩膜子网络结构框图；

图11为本发明细化子网络结构框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例1：

本发明通过下述技术方案实现，如图1所示，基于DCNN边界引导的遥感图像建筑物提取方法，该网络是一个典型的编码器-解码器架构。其中编码器由主干子网络组成，从输入的遥感图像中提取低级特征和高级特征。解码器由边界子网络(Backbone sub-network)、掩膜子网络(Boundary sub-network)、细化子网络(Refine sub-network)组成。该网络首先从边界子网络中的低级特征检测建筑物边界特征，同时从掩膜子网络中的高级特征估计建筑物掩膜特征。为了挖掘和充分利用建筑物边界特征和建筑物掩膜特征之间的语义相关性，进一步通过细化子网络利用它们之间的互补信息，生成在建筑物边界处具有强烈响应的最终建筑物提取结果。在每个子网络中，分支输出用于建筑物的边界检测或掩膜预测。在每个分支输出层，深度监督分别用于学习建筑物边界和掩膜的丰富特征表示。

本方法包括以下步骤：

步骤S1，获取遥感图像，使用编码器对遥感图像进行特征提取，从而得到多张特征图，所述编码器为主干子网络。

请参见图1，主干子网络又叫做特征提取子网络，本方案提出的主干子网络采用VGG16或ResNet-101，由于它们具有良好的泛化能力，已被广泛用于深度卷积神经网络(DCNN)中的特征提取。为了应用于建筑物提取，对传统的VGG16和ResNet-101这两个特征提取网络进行了改进。首先，删除了它们的全连接层和soft-max层；其次，移除了VGG16的第五个最大池化层和ResNet-101的conv5_1中的下采样层，以获取更详细的上下文信息。

所述主干子网络包含五组卷积层，因此将遥感图像输入主干子网络后可以得到五个特征图，分别为F₁、F₂、F₃、F₄、F₅，分辨率分别为原始遥感图像的1/2、1/4、1/8、1/16、1/16。在后续网络的计算中，特征图F₁不直接输入后续的解码器中，因为特征图F₁离输入的原始遥感图像太近，并且感受野太小。特别地，将特征图F₂、F₃作为低级特征图，用于检测建筑物边界特征；将F₄、F₅作为高级特征图，用于估计建筑物掩膜特征。

步骤S2，使用解码器从多张特征图中检测建筑物边界特征和估计建筑物掩膜特征，所述解码器包括边界子网络、掩膜子网络。

请参见图9，所述边界子网络旨在学习建筑物边界信息并提取建筑物边界特征。特征图F₂、F₃保留了更好的建筑边界信息，因此即可从这两个特征图中提取建筑物的局部边界信息。为了获得更鲁棒的建筑物边界特征，首先分别在特征图F₂、F₃上添加3个128通道的3×3卷积层（即第一卷积层、第二卷积层），将特征图F₂输入第一卷积层后，得到特征图F`₂，将将特征图F₃输入第一卷积层后，得到特征图F`₃。

并且在每个卷积层后添加了批归一化层以加速学习过程，同时还添加了ReLU层以确保每个卷积层之后的非线性。

由于特征图F₂、F₃的分辨率分别是原始遥感图像的1/4、1/8，所以需要对特征图F`₃进行两倍上采样后，使得特征图F`₂、F`₃的分辨率相匹配，才能将特征图F`₂、F`₃堆叠在一起。

将特征图F`₂、F`₃堆叠在一起后，输入1个具有128通道的3×3卷积层（即第三卷积层）来获得变换后的边界特征图F_B。为了显式地对建筑物边界特征建模，使用1个具有1通道的3×3卷积层（即第四卷积层）来生成建筑物边界的得分图，用于监督建筑物边界特征的学习过程。由于非边界和边界像素的分布严重不均衡，采用基于二进制交叉熵的损失函数来训练边界子网络，使得非边界与边界像素的误差越来越小，从而获得建筑物边界特征，损失函数定义为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物边界像素，当

时表示输出为非建筑物非边界像素；

为样本预测值，即建筑物边界预测图，可参见图9中的“建筑物边界预测图”，W、b为在训练过程中学习的参数；

表示建筑物边界样本标签B中的边界像素集合，

表示建筑物边界样本标签B中的非边界像素集合；

，

。

在使用边界子网络提取建筑物边界特征的同时，使用掩膜子网络提取建筑物掩膜特征。上下文特征对于建筑物提取非常重要，现有深度卷积神经网络模型通常通过堆叠卷积层和最大池化层的方式来学习建筑物的掩膜特征。但是高分辨率遥感图像中的建筑物在形状、大小和位置上各不相同，现有的深度卷积神经网络模型通常直接采用自下而上的卷积层和最大池化层，这可能无法有效处理这些复杂的变化。

因此本方案采用具有相同尺度但不同感受野的空洞卷积来提取形状和尺度不变的特征。然而，不同的感受野输出的特征具有不同辨别力，导致建筑物提取结果不一致。所以，需要采用更具分辨力的特征，基于此，全局平均池化层(GAP, Global AveragePooling)作为全局指导被用作网络中的鲁棒一致性约束。

请参见图2为并行空洞卷积和全局平均池化模块(PAGM, Parallel Atrous-convolution and Global-average-pooling Module)的具体架构，特征图F₄、F₅是并行空洞卷积和全局平均池化模块（可简称为PAGM）的输入。为了使最终卷积输出的高层特征在形状和尺度上保持不变，采用具有不同空洞率的空洞卷积层，空洞率分别设置为1、3、5、7，依次来获取具有多个感受野的特征图。为了保证不同感受野的特征的一致性，使用全局平均池化层（即GAP层）来指导网络学习的过程，然后将来自不同空洞卷积层和全局平均池化层的特征图叠加在一起，然后用1个3×3的卷积层（即掩膜子网络的第一卷积层、第二卷积层），以降低最终输出特征图的通道数。

具体来说，请参见图10，将特征图F₄输入掩膜子网络的第一并行空洞卷积和全局平均池化模块（即第一PAGM），得到特征图F_4*，再将特征图F_4*输入掩膜子网络的第一卷积层，得到特征图F`₄。将特征图F₅输入掩膜子网络的第二并行空洞卷积和全局平均池化模块（即第二PAGM），得到特征图F_5*，再将特征图F_5*输入掩膜子网络的第二卷积层，得到特征图F`₅，且特征图F`₄和F`₅具有不同的上下文信息。

在学习这两个特征的过程中同时采用了深度监督，分别在特征图F`₄和F`₅之后附加1个1通道的3×3卷积层（即第三卷积层），以输出建筑物掩膜的预测图，用于计算掩膜子网络每个分支输出的损失，损失函数的计算公式如下：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

为样本预测值，即建筑物掩膜预测图，可参见图10中的“建筑物掩膜预测图”，

、

为在训练过程中学习的参数；

表示建筑物样本标签M中的建筑物像素集合，

表示建筑物样本标签M中的背景像素集合；

，

。

在得到互补的建筑物边界特征和建筑物掩膜特征后，利用建筑物边界特征进一步指导建筑物掩膜特征的学习，从而生成准确的建筑物提取结果。细化子网络将建筑物边界特征与建筑物掩膜特征进行融合，以利用它们之间的互补信息在建筑物掩膜分割和边界定位方面获得更精准的结果。

请参见图11，在分支路径得到特征图F`₅后，将其与建筑物边界特征进行融合，由于特征图F₅的分辨率是原始遥感图像的1/16，而边界特征图F_B的分辨率是原始遥感图像的1/4，所以需要对特征图F`₅进行四倍上采样，使其尺寸能够匹配边界特征图F_B。将特征图F`₅和特征图F_B堆叠在一起后，输入细化子网络的第一并行空洞卷积和全局平均池化模块（即第一PAGM），得到特征图F_5**，并行空洞卷积和全局平均池化模块用于融合级联特征以生成多感受野的上下文特征。同样对分支路径特征图F`₄进行四倍上采样，使其尺寸能够匹配边界特征图F_B。将匹配后的特征图F_B、F`₄拼接在一起后，输入细化子网络的第二并行空洞卷积和全局平均池化模块（即第二PAGM），得到特征图F_4**。

然后分别采用1个3×3卷积层（即第一卷积层、第二卷积层）来进一步增强分支路径特征图F_4**、F_5**，从而得到特征图F``₄、F``₅。在这过程中对每个子路径同样也采用了深度监督，损失函数为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

为样本预测值，即建筑物掩膜预测图，可参见图11中的“建筑物掩膜预测图”，

、

为在训练过程中学习的参数。

最后融合来自每个分支路径的特征图F``₄、F``₅，得到融合后的特征图F_fuse，

用于增强建筑物掩膜特征，并输入细化子网络的第三卷积层，以生成最终的建筑物提取结果。融合特征图的损失函数为：

其中，

为输入样本，即遥感图像；

为样本标签，当

时表示输出为建筑物像素，当

时表示输出为背景像素；

最后，本方案提出的深度卷积神经网络训练过程的总的损失函数为：

其中

和

是平衡权重，且

。

实施例2：

本实施例在上述实施例1的基础上进行试验与讨论。本实施例首先介绍两个基准数据集、评估指标和训练细节；然后介绍消融实验，分析并行空洞卷积和全局平均池化模块（PAGM）和边界子网络对建筑物提取精度的影响。

在两个具有挑战性的数据集上评估了提出的深度卷积神经网络，即WHU航空建筑数据集和Inria航空建筑物数据集，这两个数据集涵盖了大多数类型的建筑物，具有不同的颜色、形状、大小和分布，可以用于评估实施例1提出的深度卷积神经网络的泛化能力。

WHU航空建筑数据集由187000座独立建筑组成，覆盖新西兰基督城450平方公里的区域。该数据集包含7828张图像，空间分辨率为0.3m，大小为512x512像素。数据集中的所有图像都提供了真值标签，即原始遥感图像中提取的建筑物结果。该数据集包括训练集、验证集和测试集，分别由4736张图像、1036张图像和2416张图像组成。图3提供了该数据集的一些示例，其中图3中的a显示了来自WHU航空建筑数据集的样本和对应的真值标签，可见该数据集包含具有不同用途、颜色和大小的建筑物，使其成为评估建筑物提取算法性能的理想数据集。

Inria航空建筑物数据集包含全球10个城市的高分辨率航空影像，每个城市包含36幅覆盖81平方公里区域的遥感影像切片。每个切片的空间分辨率为0.3m，大小为5000x5000像素。该数据集涵盖了不同的住宅区，从密集的城市定居点（例如芝加哥的大都市地区）到分散的偏远地区（例如基特萨普的农村定居点）。训练集中的5个城市中只有180幅图像提供了地面真值标签，另外180幅图像保留用于算法测试。为遵循官方验证建议，选择每个城市的前5幅图像进行测试，其余31幅图像进行训练。图3中的b给出了一些图像样本和相应的真值标签，可见该数据集涵盖了具有各种外观的建筑物。

本实施例采用五个指标来评估模型的定量性能：精度(precision)、召回率(recall)、F1分数(F1)、总体准确性(OA)和交并比(IoU)。其中，精度、召回率、F1分数和总体准确性分别定义为：

式中，TP是被模型预测为正类的正样本，FP是被模型预测为正类的负样本，TN是被模型预测为负类的负样本，FN是被模型预测为负类的正样本。

交并比定义为：

式中，

表示预测像素集合，

表示真值像素集合。

现使用皮托克框架（PyTorch）构建网络，主干子网络（VGG16和ResNet-101）在计算机视觉标准数据集（ImageNet）上进行了预训练，其他子网络（边界子网络、掩膜子网络、细化子网络）的所有权重都通过正态分布初始化（kaiming normal），并且方差初始化为0。深度卷积神经网络网络使用Adam优化器作为反向传播算法进行训练。

WHU航空建筑数据集和Inria航空建筑物数据集的初始学习速率分别设置为0.00005和0.005（主干子网络预训练权重的学习速率设置为初始学习速率的1/10），权重衰减为0.0005。本次训练网络40个批次，分别在第25个批次和第35个批次之后将学习率除以10。为了提高模型的鲁棒性，使用了以下数据增强方法：随机旋转、随机裁剪、随机亮度、饱和度和对比度变化。输入原始遥感图像的所有像素都映射到0和1之间用于计算。

对于建筑物边界标签，使用MATLAB的imgradient函数从建筑物掩膜的真值标签中提取建筑物边界。由于Inria航空建筑物数据集中的图像太大而无法输入网络，因此输入原始遥感图像、建筑物掩膜真值标签图像和边界的真值标签图像被同时裁剪为256x256 的图像切片作为每个批次的输入。

由于网络的输出是一个概率图，其中包含每个像素在0和1之间的值，因此应用阈值将这些概率转换为最终的建筑掩膜二值图。测试从0.1到0.9的阈值，以找到适合网络的最佳阈值。图4显示了F1分数和交并比的指标在WHU航空建筑数据集和Inria航空建筑物数据集上如何随着不同阈值而变化，其中图4中的a显示了WHU航空建筑数据集的结果，图4中的b显示了Inria航空建筑物数据集的结果。可以看出，阈值0.5和0.4分别为这两个数据集的最优阈值。

接着为了研究网络中不同模块的影响，在WHU航空建筑数据集上开展了消融实验。

首先，表1显示了所提出的具有不同主干子网络的深度卷积神经网络的性能，在实践中，ResNet-101的表示能力比VGG16更强。因此，当选择ResNet-101作为主干子网时，本方法实现了最佳性能，F1分数中分别高出约0.57%和交并比高出1.02%。

表1

其次，希望通过实验来验证不同模块对网络性能的提升，如表2所示，实验采用的特征提取网络为ResNet-101。仅采用掩膜子网络和细化子网络中具有高级特征的部分作为基本模型（表示为Model_{_base}），F1分数和交并比分别为92.92%和86.78%。然后，将并行空洞卷积和全局平均池化模块（PAGM）添加到基本模型（表示为Model_{_pagm}），在F1分数和交并比中分别获得0.62%和1.09%的改进。这些结果表明，扩大感受野，利用多级上下文信息可以有效提高建筑物掩膜的预测准确率。

最后，评估边界子网络对最终结果的贡献程度（表示为Model_{_boundary}）。请参见表2为在WHU航空建筑物数据集上以上三个模型的定量实验结果（%），从表2中可以看出，通过引入边界子网络，F1分数和交并比都得到了改进，分别比基本模型高出1.80%和3.19%。这些结果验证了使用边界子网络来帮助模型处理模糊的建筑物边界非常重要。

表2

图5给出了WHU航空建筑数据集上Model_{_base}、Model_{_pagm}和Model_{_boundary}之间的一些直观比较，其中图5中的a为原始遥感图像，图5中的b为真值，图5中的c为使用Model_{_base}进行建筑物提取的结果，图5中的d为使用Model_{_pagm}进行建筑物提取的结果，图5中的e为使用Model_{_boundary}进行建筑物提取的结果。Model_{_pagm}比Model_{_base}产生更准确的预测建筑掩膜，这表明并行空洞卷积和全局平均池化模块（PAGM）可以通过采用具有不同空洞率的空洞卷积来学习多级上下文信息。Model_{_boundary}输出比Model_{_base}和Model_{_pagm}更好的精细结果。Model_{_boundary}为具有不同大小和形状的建筑物获取更清晰的边界，并能够提取被树影笼罩的建筑物，而Model_{_base}和Model_{_pagm}无法对此类建筑物进行提取（如图5的第四行）。所有这些观察结果都为使用建筑物边界特征来指导精确提取建筑的关键思想提供了强有力的证据。

图6为本方法网络预测的建筑物边界图，其中图6中的a为原始遥感图像，图6中的b为真值，图6中的c显示了本方法深度卷积神经网络网络预测结果，图6中的d显示了MATLAB的imgradient函数提取的边界真值，图6中的e显示了边界子网络预测的建筑物边界。可以看出，边界子网络可以更准确地预测建筑物边界，这为从周围背景中提取建筑物提供了重要的指导信息。图6中前三行的示例表明，当边界预测图更接近边界真值时，最终提取的建筑物掩膜的精度更高。然而，当边界预测图无法在某些建筑物边界区域（如图6的最后两行中圆圈标记的建筑物边界）上产生强烈响应时，最终的建筑物提取结果无法正确预测相应的建筑区域。这些结果表明，建筑物边界特征在准确提取建筑物掩膜方面起着至关重要的作用。

实施例3：

本实施例基于上述实施例1、2，在实验数据集上提供了与其他深度卷积神经网络模型的定量和定性比较。与五个当前比较先进的网络进行比较，这些模型的主要特点总结如下：

(1)SegNet：SegNet是一个编码器-解码器架构的深度卷积神经网络。编码器对特征图进行下采样，同时存储用于解码器上采样过程中最大池化的索引。它在占有低内存空间的同时具有高效计算能力。本实验中使用的SegNet的编码器是VGG16。

(2)U-Net：U-Net具有对称的架构。下采样和上采样路径之间的跳跃连接用于结合局部和全局信息以获得良好的分割性能。

(3)PSPNet：PSPNet建立在全卷积神经网络(FCN, Fully ConvolutionalNetworks)之上，它采用金字塔池化结构来融合基于不同区域的上下文信息。它整合了不同尺度的特征来学习更有效的语义分割特征。本实验中使用的PSPNet的特征提取子网络是ResNet-101。

(4)DeepLab v3+：DeepLab v3+结合了编码器-解码器架构和空洞空间卷积池化金字塔模块(ASPP, Atrous Spatial Pyramid Pooling)的优势，利用来自不同层和不同感受野的特征图来提高模型的性能。本实验中使用的DeepLab v3+编码器是ResNet-101。

(5)DenseASPP：密集空洞空间卷积池化金字塔模块(DenseASPP, DenselyConnected Atrous Spatial Pyramid Pooling)改进了DeepLab中提出的空洞空间卷积池化金字塔模块(ASPP)，通过密集连接增加空洞卷积步长的卷积层，生成用于图像语义分割的多尺度和多级上下文特征。我们实验中使用的密集空洞空间卷积池化金字塔模块(DenseASPP)的特征提取子网络是DenseNet-161。

为了公平比较，上述模型在相同的实验设置下训练，这些模型的所有特征提取部分都在计算机视觉标准数据集（ImageNet）上进行了预训练。

在WHU航空建筑数据集上定量比较的结果如表3所示，SegNet和U-Net的交并比分别达到82.61%和84.57%。这表明编码器-解码器结构在构造提取特征任务中表现很好。PSPNet、DenseASPP和DeepLab v3+在评估指标上的精度高于SegNet和U-Net，这表明融合多层和多尺度的感受野和特征图对于精确预测建筑掩膜非常重要。

表3

本方案提出的网络（表3中的VGG16、ResNet101）显然在每个评估指标上都达到了最高的性能，该模型的优势主要来自并行空洞卷积和全局平均池化模块（PAGM）和边界子网络的使用。并行空洞卷积和全局平均池化模块（PAGM）获取多级上下文特征，用于区分具有不同形状和尺度的建筑物。边界子网络为高层建筑物语义特征提供了补充信息，可以提高建筑物边界的预测精度。

图7显示了由不同模型生成的一些用于直观比较的建筑提取示例，其中图7中的a为原始遥感图像，图7中的b为真值，图7中的c显示了由SegNet输出的建筑掩膜，图7中的d显示了由U-Net输出的建筑掩膜，图7中的e显示了由PSPNet输出的建筑掩膜，图7中的f显示了由DenseASPP输出的建筑掩膜，图7中的g显示了由DeepLab v3+输出的建筑掩膜，图7中的h显示了由本方法输出的建筑掩膜。可见，SegNet和U-Net对复杂背景下的建筑物进行了一些错误的预测，当建筑物形状不规则时无法生成准确的建筑物轮廓，例如图7中第2列和第5列中的建筑物。这是因为SegNet的最大池化索引架构无法获取多级上下文信息，因此无法恢复详细的建筑物信息。虽然U-Net结合了低级和高级特征来有效地恢复了建筑物的精细细节，但仍然无法捕获多级感受野来区分不同形状和大小的建筑物。PSPNet、DenseASPP和DeepLab v3+通过融合多尺度特征和多级接受场可以产生更平滑、更连贯的建筑分割结果，但它们在预测建筑边界方面仍然不太准确。原因是它们没有有效地利用来自低级边界特征的互补信息来细化高级语义特征。本方法在提取复杂结构的建筑物和更精细的提取建筑物方面表现更好，特别是擅长区分和锐化建筑物边界。WHU航空建筑数据集的实验结果表明，本网络通过使用并行空洞卷积和全局平均池化模块（PAGM）和边界子网络分别获取多级上下文信息和互补边界信息，使本网络产生了更好的结果。

在Inria航空建筑物数据集上的定量比较如表4所示，本方案的模型采用ResNet-101作为主干子网络，在五个指标上都达到了最高的精度。与WHU航空建筑数据集的定量结果相比，其中所有模型的F1分数和交并比指标分别高于90%和82%，Inria航空建筑物数据集的定量结果相对较低。这是因为此数据集中存在一些错误真值标签，这可能会对网络性能产生负面影响。

表4

图8提供了Inria航空建筑物数据集上所有模型的直观比较，其中图8中的a为原始遥感图像，图8中的b为真值，图8中的c显示了由SegNet输出的建筑掩膜，图8中的d显示了由U-Net输出的建筑掩膜，图8中的e显示了由PSPNet输出的建筑掩膜，图8中的f显示了由DenseASPP输出的建筑掩膜，图8中的g显示了由DeepLab v3+输出的建筑掩膜，图8中的h显示了由本方法输出的建筑掩膜。可以看出，本方法获得了比其他比较模型更接近真值标签的性能。具体而言，本方法的网络不仅可以突出显示正确的建筑掩膜，还可以生成清晰的建筑边界。

表5显示了本方法和其他网络在Inria航空建筑物数据集中具有不同特点的五个城市建筑物提取的性能比较。与SegNet相比，本方法的网络（ResNet101）在五个城市（奥斯汀、芝加哥、基特萨普、西特沃、维也纳）的交并比指标分别提高了8.65%、8.74%、5.95%、8.48%和6.03%。此外，本方法的网络（ResNet101）比DeepLab v3+的交并比指标分别高出3.04%、3.40%、3.49%、2.21%和1.65%，性能的提高主要来自于本方案模型的稳健的建筑物掩膜预测和更清晰的建筑边界像素预测。

表5

综上所述，本方案提出一个简单而有效的深度卷积神经网络(DCNN)，通过保留建筑物边界周围的细节特征以对建筑物进行更精细化的提取。考虑到不同卷积层中特征的不同特点，使用低级特征来检测建筑物边界，使用高级特征来预测建筑物语义信息。提出的深度卷积神经网络可以同时提取建筑物的掩膜并检测建筑物边界。为了挖掘不同层级的语义信息，设计了并行空洞卷积和全局平均池化模块（PAGM）来提取具有不同空洞率下的高级特征。然后，将建筑物边界特征融合到建筑物语义特征中，以指导网络在定位建筑物边界时学习更详细的信息。在网络训练过程中，深度监督用于指导不同子网络中学习丰富的具有代表性的特征。在两个基准数据集的实验结果表明，与其它最先进的模型相比，本网络在不同的评估指标下达到了最高的性能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.基于DCNN边界引导的遥感图像建筑物提取方法，其特征在于：包括以下步骤：

所述获取遥感图像，使用编码器对遥感图像进行特征提取，从而得到多张特征图的步骤，包括：使用主干子网络对输入遥感图像进行特征提取，从而获得五张特征图，分别为F₁、F₂、F₃、F₄、F₅，且尺度分别为遥感图像的1/2、1/4、1/8、1/16、1/16，其中特征图F₂、F₃为低级特征图，F₄、F₅为高级特征图，特征图F₁不直接用于后续编码器中；