CN116844051B

CN116844051B - 一种融合aspp和深度残差的遥感图像建筑物提取方法

Info

Publication number: CN116844051B
Application number: CN202310838873.9A
Authority: CN
Inventors: 徐洋; 陈兰欣; 王珩; 张思聪; 谢晓尧
Original assignee: Guizhou Education University
Current assignee: Guizhou Education University
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2024-02-23
Anticipated expiration: 2043-07-10
Also published as: CN116844051A

Abstract

一种融合ASPP和深度残差的遥感图像建筑物提取方法，包括：（1）获取公开的遥感图像数据集；（2）对高分辨率遥感图像进行数据增强；（3）将高分辨率遥感图像按统一规格裁剪为小尺寸图像；（4）对已有的最终数据集，按照8：1：1比例划分训练集、验证集和测试集；（5）构建网络模型，通过融合改进的ASPP和改进的Deep ResUNet网络模型构建出最终的网络模型ADRUNet；（6）利用网络模型对数据集进行训练；（7）使用训练的权重对测试集的图像进行建筑物提取。本发明以改进的Deep ResUNet为骨干网络，融合改进后的ASPP模块作为连接编码器和解码器的桥梁，实现对遥感图像建筑物提取中孔洞的抑制，减少细节丢失，降低网络总体参数量。

Description

一种融合ASPP和深度残差的遥感图像建筑物提取方法

技术领域

本发明属于计算机视觉中的遥感图像智能解译领域，具体涉及一种融合带孔空间金字塔池化和深度残差的遥感图像建筑物提取方法。

背景技术

建筑物提取是遥感影像解译的一项重要课题，提取效果直接影响城市规划、人口估计、地形图制作和更新等应用的质量。但由于建筑物及其环境的复杂性，从遥感影像中准确、完整地自动提取建筑物仍是领域内的热点。基于深度学习的方法通常不受先验知识的限制，因而受到广大研究人员的青睐。

目前，应用在建筑物提取具有代表意义的语义分割神经网络模型主要有以下四种：基于全卷积网络的FCN系列，在全卷积网络的基础上引入编码器-解码器结构的SegNet系列和UNet系列，以及基于扩张卷积的Deeplab系列。上述网络模型在建筑物的提取上取得了较好的效果，但是依然存在一些可以优化的地方：(1)学习细微特征的能力较弱，容易出现细微之处错漏以及边界部分或全部丢失等问题；(2)模型对上下文信息的保留能力较弱，最终模型的预测结果容易出现孔洞问题；(3)模型的泛化能力欠佳，有时对不同尺度和形状的建筑物表达能力无法兼顾；(4)需要庞大的额外数据，或者网络模型过于复杂，意味着需要更加高端的显卡和巨大的训练时间成本换取性能。

中国专利202210538076.4公开了《一种基于深度学习的高分辨率遥感影像建筑物提取方法》，该方法在UNet++基础上增加特征增强结构和结合空洞卷积，提高了建筑物提取精度。中国专利202010757389.X公开了《一种融合几何感知与图像理解的建筑物自动提取方法》，该方法通过引入多尺度高效感知模块，完成端到端的建筑物自动提取。中国专利202111064366.1公开了《一种城市道路遥感图像分割方法》，该方法利用基于池化操作为softpool的带孔空间金字塔池化结构构建多尺度特征提取网络来提取特征，并进行特征融合，减少池化造成的信息损失，解决正负样本失衡问题。

以上三篇专利，没有一种是融合了带孔空间金字塔池化和深度残差的遥感图像建筑物提取方法。

发明内容

本发明的目的在于提出一种融合带孔空间金字塔池化(Atrous Spatial PyramidPooling,ASPP)和深度残差的遥感图像建筑物提取方法，该方法针对建筑物形状各异、颜色不一、细节繁多，分割效果常出现孔洞、边界丢失、转角不明显等漏检、错检问题，以改进的Deep ResUNet为骨干网络，融合改进后的ASPP模块作为连接编码器和解码器的桥梁(Bridge)，实现对遥感图像建筑物提取中孔洞问题的抑制，减少细节丢失，并降低网络总体参数量。

本发明的技术方案是：

一种融合ASPP和深度残差的遥感图像建筑物提取方法，融合了带孔空间金字塔池化和深度残差，通过融合改进的ASPP模块与改进的Deep ResUNet实现对遥感图像建筑物更为精确的分割，所设计的网络模型包含五个部分，分别是编码器、跳跃连接、沟通编码器和解码器的桥梁、解码器以及输出层，包括如下步骤：

步骤1：获取公开的遥感图像数据集或者经过预处理的自采数据集作为输入；

步骤2：对高分辨率遥感图像进行数据增强，实现对数据集的扩充；具体增强算法为：同时使用旋转、翻转、伽马变换、模糊、加噪的数据增强操作，其中旋转操作包含90°、180°、270°的顺时针旋转；翻转操作为左右翻转和上下翻转；旋转、翻转、伽马变换的概率都设为25％，模糊和加噪的概率设为25％，每种增广方式下获得的图像数量，其比例相近且在增广数据中均匀分布；

步骤3：将高分辨率遥感图像按统一规格裁剪为小尺寸图像，形成最终的数据集；

步骤4：对已有的最终数据集，按照8：1：1比例划分训练集、验证集和测试集；

步骤5：构建网络模型，通过融合改进的ASPP和改进的Deep ResUNet网络模型构建出最终的网络模型ADRUNet；具体操作如下：

(1)构建一个Deep ResUNet网络模型，并使用ResNetv2残差卷积结构替代原有的ResNetv1残差卷积结构，用于降低网络模型在训练过程中累积的误差，以便更加准确地提取出建筑物的边界和转角；

(2)基于Deep ResUNet自身网络结构的特点来改进ASPP模块，去掉了ASPP模块中分支d1＝1的普通卷积操作；

(3)利用改进的ASPP模块替代原来沟通编码器和解码器的卷积模块，充当新的桥梁Bridge来消除孔洞，得到最终的模型ADRUNet网络模型；

(4)确定改进后的ASPP模块三个分支的扩张卷积率组合(d1,d2,d3)，根据ASPP模块的特点，通过设置四组不同的卷积率，分别是D1＝[3,6,12](d1->d3)；

D2＝[6,12,18](d1->d3)；

D3＝[12,18,24](d1->d3)；

D4＝[18,24,30](d1->d3)；

网络模型的超参数设置保持一致，比较最终建筑物的提取效果，得到最适合当前数据集的扩张卷积率组为D3＝[12,18,24](d1->d3)；

步骤6：利用步骤5得到的神经网络模型ADRUNet对步骤4得到的数据集进行训练；

步骤7：使用步骤6训练得到的权重对测试集的图像进行建筑物提取，得到最终的提取结果，并进行定性定量评估。

本发明具有以下特点：

1、本发明具备一定的普适性，适用于绝大部分可见光遥感图像数据集的建筑物自动化提取。

2、本发明使用完全预激活的ResNetv2模块代替传统的ResNetv1模块，能够有效降低训练误差的累积使训练效果进一步提升。

3、本发明基于DeepResUNet改进ASPP模块，并作为沟通编码器和解码器的桥梁，使网络模型具备更强的保留上下文信息的能力。

4、本发明能够在一定程度上解决孔洞、边界丢失、转角不明显等遥感图像中提取建筑物常出现的漏检、错检问题。

5、相较于其他网络模型，本发明不仅有效地提升了分割精度，而且降低了网络模型的总参数量。

附图说明

图1是本发明的业务流程图；

图2是ADRUNet的网络结构图；

图3是ResNetv1模块的结构图；

图4是ResNetv2模块的结构图；

图5是改进的ASPP模块的结构图；

图6是ASPP模块改进前后在验证集上损失函数的收敛情况对比；

图7是ASPP模块改进前后在验证集上验证精度的收敛情况对比；

图8是实施例中基于Massachusetts建筑物数据集的实验可视化对比图。

具体实施方式

下面通过附图和实施例对本发明作进一步描述。

参见图1-4，一种融合ASPP和深度残差的遥感图像建筑物提取方法，融合了带孔空间金字塔池化和深度残差，通过融合改进的ASPP模块与改进的Deep ResUNet实现对遥感图像建筑物更为精确的分割，使用处理后Massachusetts Building Dataset数据集进行训练和测试，包括以下步骤：

步骤1：获取公开的遥感图像建筑物数据集或者经过预处理的自采数据集作为输入；

步骤2：对高分辨率遥感图像进行数据增强，实现对数据集的扩充。具体增强算法为：同时使用旋转、翻转、伽马变换、模糊、加噪的数据增强操作，其中旋转操作包含90°、180°、270°的顺时针旋转；翻转操作为左右翻转和上下翻转；旋转、翻转、伽马变换的概率都设为25％，模糊和加噪概率总计为25％，每种增广方式下获得的图像数量，其比例相近且在增广数据中均匀分布；

步骤3：将高分辨率遥感图像按统一规格裁剪为小尺寸图像，形成最终的数据集。裁剪目的是:①便于中、小建筑物的训练和分割，②降低对显卡的要求；

步骤4：对已有的最终数据集，按照8：1：1比例划分训练集、验证集和测试集。

步骤5-1：构建一个Deep ResUNet网络模型，并使用ResNetv2残差卷积结构替代原有的ResNetv1残差卷积结构；降低网络模型在训练过程中累积的误差，以便于更加准确地提取出建筑物的边界和转角。

改进的Deep ResUNet的残差结构是ResNetv2，它与传统的残差结构ResNetv1略有不同。ResNetv1的主要特点有两个：1)BN和ReLU都在Conv层的后面；2)最后的ReLU在Addition的后面，如图3所示。若以x_l表示当前层的输入，W_l表示现有的权重，F代表残差函数，f代表Addition后的操作(即ReLU)，则ResNetv1的计算公式为：

y_l＝h(x_l)+F(x_l,W_l) (1)

x_l+1＝f(y_l) (2)

令所有Identity Mapping分支h(x_l)＝x_l，假设f也是恒等映射，则x_l+1＝y_l，公式(1)转化为：

x_l+1＝x_l+F(x_l,W_l) (3)

由公式(3)递归得到第L层(深层)与第l层(浅层)的关系：

假设损失函数为loss，那么根据公式(4)和链式求导法则，反向传播公式为：

该公式表明，在不改变恒等映射的值(保证h(x_l)＝x_l)和Addition之后不再有会改变信息分布的层如BN层、ReLU层(保证x_l+1＝y_l)这两个前提下，即使权重很小，深层的梯度信息也不会消失，可以顺畅地传播到浅层，这是因为对于同一个mini-batch中的样本不会一直为-1。

而ResNetv2恰恰满足上述的两个前提，使用的是“完全预激活”(full pre-activation)即在每次卷积操作之前先进行批归一化和激活，并且在Addition之后没有接其他层，如图4所示。这样做的好处是：1)反向传播基本符合假设，梯度信息传递无阻碍；2)BN层作为pre-activation，起到了正则化的作用，可以减少发生过拟合的概率。

步骤5-2：基于Deep ResUNet自身网络结构的特点来改进ASPP模块，考虑到连续进行同样卷积操作且不做归一化和激活操作会造成网络难以收敛和误差的累积，因而去掉了ASPP模块中分支d1＝1的普通卷积操作。改进后的ASPP最终的计算公式为：

X_l+1＝f^1×1[DilatedConv1(X_l)；DilatedConv2(X_l)； (6)

DilatedConv3(X_l)]＝f^1×1[BN(σ(D₁(X_l)))；BN(σ(D₂(X_l)))；

BN(σ(D₃(X_l)))]

其中，X_l表示当前模块输入的特征图，X_l+1表示经过改进的ASPP模块处理后的特征图，f^1×1为卷积核大小为1x1的卷积操作，DilatedConvi(i＝1,2,3)表示图5中虚线框圈出来的三个模块之一，Di(i＝1,2,3)表示采用扩张率为di(i＝1,2,3)的卷积操作，σ表示ReLU激活，BN表示批量归一化。

步骤5-3：利用改进的ASPP模块替代原来沟通编码器和解码器的卷积模块，充当新的桥梁(Bridge)来消除孔洞，得到最终的模型ADRUNet网络模型。

步骤5-4：确定改进后的ASPP模块三个分支的扩张卷积率组合(d1,d2,d3)。根据ASPP模块的特点，通过设置四组不同的卷积率，分别是D1＝[3,6,12](d1->d3)；D2＝[6,12,18](d1->d3)；D3＝[12,18,24](d1->d3)；D4＝[18,24,30](d1->d3)，其他参数设置保持一致，比较最终建筑物的提取效果，得到最适合当前数据集的扩张卷积率组为D3＝[12,18,24](d1->d3)。

步骤6：利用步骤5得到的神经网络模型ADRUNet对步骤4得到的数据集进行训练。

本发明针对遥感图像建筑物提取领域的特点,将ADRUNet的输出通道改为2，以便于遥感图像建筑物的二类分割。为了比较模型对相同尺寸图像建筑物提取的效果，将输入图像的分辨率固定为256×256×3。网络模型主要包含五个部分，第一个部分是由三个卷积模块构成的编码器部分，分别命名为模块1，模块2，模块3。模块1是输入模块，它是一个卷积核大小为3x3步长为1的卷积层(包含BN层和激活函数ReLU)紧接了一个卷积大小为3x3步长为1的卷积层(不包含BN层和激活函数ReLU)；模块2和3是两个ResNetv2模块，每个ResNetv2模块由两个堆叠的完全预激活卷积层组成，第一个完全预激活卷积层先对输入进行BN批量归一化和ReLU激活,再进行卷积核大小为3x3步长为2的卷积操作，第二个完全预激活卷积层先对输入进行BN批量归一化和ReLU激活,再进行卷积核大小为3x3步长为1的卷积操作，最后再引入残差连接。第二个部分是建立编码器与解码器的跳跃连接，将低纬度特征信息送往高纬进行特征信息拼接融合，具体做法是：将第一个部分的模块1、2、3得到的特征图送入第四个部分的模块7、6、5。第三个部分是用改进的ASPP模块命名为模块4，充当编码器部分到解码器部分的桥梁，它去掉了ASPP模块中分支d1＝1的普通卷积操作，保留了三个扩张卷积分支，每个分支是一个卷积核大小为3x3步长为1的卷积层(包含BN层和激活函数ReLU)，但是每个分支的扩张卷积率不同。第四个部分是解码器，它是由三个ResNetv2模块组成，分别命名为模块5、模块6、模块7。对于上一个模块送来的结果先进行2倍上采样，再与第二个部分跳跃连接送来的低纬度特征图通道拼接，最后送入ResNetv2模块。第五个部分是一个输出层，包含一个卷积核大小为1x1步长为1的卷积层，最后经过Sigmoid激活输出最终的分割图像。

表1为ASPP及改进的ASPP模块的实验结果。实验中除了模块4(即桥梁位置)替换的模块不同，其他参数设置保持一致，不同地方具体是：ASPP的扩张率为[1,6,12,18](d1->d4)，改进的ASPP的扩张率为[6,12,18](d1->d3)，表1的实验结果表明，若以F1和IoU为主要参考指标，改进的ASPP更适合作为网络的“桥梁”。图6展示了Deep ResUNet融合ASPP模块和改进的ASPP模块在验证集上的损失函数收敛情况，可以看出：融合改进ASPP模块的DeepResUNet(即ADRUNet)相较于融合ASPP模块的Deep ResUNet收敛更快且损失值更低；图7展示了二者在验证集上验证精度的收敛情况，同样地可以看出，ADRUNet收敛更快且精度更高。从而可以得出结论：改进的ASPP模块不仅有助于Deep ResUNet加快收敛，而且能在一定程度上提升相关的指标。

表1

表2为改进的ASPP模块采用不同扩张率组对应的实验结果。实验中采取了4组不同扩张率的扩张卷积，分别是D1＝[3,6,12](d1->d3)；D2＝[6,12,18](d1->d3)；D3＝[12,18,24](d1->d3)；

D4＝[18,24,30](d1->d3)，其他参数设置保持一致，表2的实验结果表明，当改进后的ASPP模块采用D3组扩张率时得到的指标最优。

表2

表3为不同算法在Massachusetts数据集上的表现评估结果。从表3中可以看出，FCN漏检情况严重，所以很少出现多检的情况，即将非建筑物预测成建筑物的情况(FP)比较少，换言之，误判情况也比较少，所以它的精确率(Precision)比较高；但是大量的漏检导致其他指标都不高。而SegNet和UNet因为保留了更多的细节，多项指标得到了一定的提升，Deeplabv3+得益于Multi-Grid策略和重新调整ASPP的结构，具备一定的保留上下文语义信息的能力，在指标上也出现了正反馈。改进的Deep ResUNet由于使用了ResNetv2，训练得到的模型具备不俗的预测能力，表现为边界更加清晰、转角更加明显，指标相对其他基准模型更为优秀。ADRUNet结合了改进的ASPP和Deep ResUNet二者的优点，不仅没有出现孔洞问题，而且错检、漏检的问题也比较少见，因而各方面指标相较于DeepResUNet都有所提升：精确率提升6.3％，召回率提升2.4％，准确率提升1.2％，F1分数提升4.5％，IoU提升6.1％。

表3

表4为实验中涉及到的6种模型(4种具有代表意义的语义分割方法及2种在UNet基础上改进的模型)的参数量，显然，ADRUNet更加轻量级，具体表现为参数量明显低于或略低于其他网络模型。参数量是模型中的参数的总和，跟模型在磁盘中所需的空间大小直接相关，这直接影响到一些磁盘空间较小的设备的可部署性。参数量一方面会影响内存占用，另一方面也会影响程序初始化的时间，若参数量过大，则对于一些移动端应用场景是不利的。

表4

本发明提出了一种融合带孔空间金字塔池化和深度残差的遥感图像建筑物提取方法，并命名为ADRUNet。该模型使用完全预激活的ResNetv2模块代替传统的ResNetv1模块，降低训练误差的累积使训练效果进一步提升，并引入改进的ASPP模块作为DeepResUNet编码器到解码器的桥梁，以获取更强的保留上下文信息的能力。在Massachusetts数据集上的实验结果表明，本发明在召回率、准确率、F1分数和IoU分别达到0.824、0.955、0.807和0.677，分割效果最优；尤其是F1分数和IoU，相较对比模型的最优指标看，分别提升了4.5个百分点和6.1个百分点，评估指标证明了所提出方法的有效性。总体而言，本发明能够在一定程度上解决孔洞、边界丢失、转角不明显等漏检、错检的问题。图8是实施例中基于Massachusetts建筑物数据集的实验可视化对比图。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种融合ASPP和深度残差的遥感图像建筑物提取方法，其特征在于：融合了带孔空间金字塔池化和深度残差，通过融合改进的ASPP模块与改进的Deep ResUNet实现对遥感图像建筑物更为精确的分割，所设计的网络模型包含五个部分，分别是编码器、跳跃连接、沟通编码器和解码器的桥梁、解码器以及输出层，包括如下步骤：

步骤2：对高分辨率遥感图像进行数据增强，实现对数据集的扩充；具体增强算法为：同时使用旋转、翻转、伽马变换、模糊、加噪的数据增强操作；

步骤5：构建网络模型，通过融合改进的ASPP和改进的Deep ResUNet网络模型构建出最终的网络模型ADRUNet；

步骤7：使用步骤6训练得到的权重对测试集的图像进行建筑物提取，得到最终的提取结果，并进行定性定量评估；

所述步骤5的具体操作如下：

（1）构建一个Deep ResUNet网络模型，并使用ResNetv2残差卷积结构替代原有的ResNetv1残差卷积结构；降低网络模型在训练过程中累积的误差，更加准确地提取出建筑物的边界和转角；

（2）基于Deep ResUNet自身网络结构的特点来改进ASPP模块，去掉了ASPP模块中分支d1=1的普通卷积操作；

（3）利用改进的ASPP模块替代原来沟通编码器和解码器的卷积模块，充当新的桥梁Bridge来消除孔洞，得到最终的模型ADRUNet网络模型；

（4）确定改进后的ASPP模块三个分支的扩张卷积率组合（d1,d2,d3），根据ASPP模块的特点，通过设置四组不同的卷积率，分别是D1=[3,6,12](d1->d3)；D2=[6,12,18](d1->d3)；D3=[12,18,24](d1->d3)；D4=[18,24,30](d1->d3)，网络模型的超参数设置保持一致，比较最终建筑物的提取效果，得到最适合当前数据集的扩张卷积率组为D3=[12,18,24](d1->d3)。

2.如权利要求1所述的一种融合ASPP和深度残差的遥感图像建筑物提取方法，其特征在于：所述步骤2中旋转操作包含90°、180°、270°的顺时针旋转；翻转操作为左右翻转和上下翻转；旋转、翻转、伽马变换的概率都设为25%，其它方式的模糊、加噪的概率设为25%，每种增广方式下获得的图像数量，其比例相近且在增广数据中均匀分布。