CN115393735A

CN115393735A - 基于改进U-Net的遥感影像建筑物提取方法

Info

Publication number: CN115393735A
Application number: CN202211112491.XA
Authority: CN
Inventors: 徐雯佳; 田力; 许志辉
Original assignee: Hebei Hydrological Engineering Geological Exploration Institute Hebei Remote Sensing Center
Current assignee: Hebei Hydrological Engineering Geological Exploration Institute Hebei Remote Sensing Center
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-11-25

Abstract

本发明为一种基于改进U‑Net的遥感影像建筑物提取方法，首先获取高分辨率的遥感影像，构建遥感影像数据集；接着，对传统U‑Net进行改进，在编码器中引入全局注意模块和密集连接模块，在编码器与解码器之间引入语义分析模块，得到建筑物提取模型；最后，利用遥感影像数据集对建筑物提取模型进行训练，获得训练后的建筑物提取模型；将训练后的建筑物提取模型用于提取遥感影像中的建筑物。将注意力权重作为密集连接的传输线索，通过对不同注意力模块的注意力特征进行融合，保证建筑物特征提取的完整性；语义分析模块提高了编码器提取的特征图中特征信息的利用率，同时对整个特征图进行融合增强其特征信息，使其获得更好的分割效果。

Description

基于改进U-Net的遥感影像建筑物提取方法

技术领域

本发明属于遥感技术和计算机视觉技术交叉技术领域，具体涉及一种基于改进U-Net的遥感影像建筑物提取方法。

背景技术

随着现代遥感技术的发展，高分辨率的遥感图像使得建筑物的提取与识别变得更加可行。基于遥感影像的建筑物提取和识别已经被广泛于城市建设、城市规划、数字城市等领域，建筑物提取可以看作是一个图像分割问题，传统方法大多数通过手工方式提取特征，主要是依据建筑物颜色、形状和纹理来进行特征提取，这种方法提取过程繁琐，并且准确率低。

近年来，随着深度学习技术的不断发展，很多研究人员将神经网络应用到了遥感影像的建筑物提取方面，取得了良好效果，同时克服了人工提取的特征表达能力有限的缺陷。

但由于高分辨率遥感影像一般尺寸巨大，包含有丰富的空间信息，并且具有复杂性、多样性以及不确定性等特点，使得现有的深度学习方法对于建筑物的特征提取能力不足，往往存在小目标建筑物提取时的缺检、漏检情况，大尺度目标分割时的空洞现象导致目标建筑物提取不完整，边缘信息太过粗糙导致边界信息丢失等问题，最终导致建筑物提取精度较低。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于改进U-Net的遥感影像建筑物提取方法。

本发明解决所述技术问题采用的技术方案如下：

一种基于改进U-Net的遥感影像建筑物提取方法，其特征在于，该方法包括以下步骤：

第一步、获取高分辨率的遥感影像，构建遥感影像数据集；

第二步、对传统U-Net进行改进，在编码器中引入全局注意模块和密集连接模块，在编码器与解码器之间引入语义分析模块，得到建筑物提取模型；其中，编码器包括五个特征提取层，第二～四个特征提取层后均连接一个全局注意模块；通过密集连接模块对各个全局注意模块生成的注意力权重进行密集连接，将三个全局注意模块生成的注意力权重分别记为a1、 a2和a3，注意力权重a1分别传递至第二个全局注意模块、第三个全局注意模块和第五个特征提取层，注意力权重a2分别传递至第三个全局注意模和第五个特征提取层，注意力权重a3 传递至第五个特征提取层；第二个全局注意模块将注意力权重a1与注意力权重a2求均值并用于更新第二个全局注意模块的全局注意力图；第三个全局注意模块将注意力权重a1、a2与 a3求均值并用于更新第三个全局注意模块的全局注意力图；第五个特征提取层将注意力权重 a1、a2、a3求均值并与自身计算得到的特征图相乘，得到第五个特征提取层的输出特征图；

语义分析模块包括四个语义分析分支，第一语义分析分支包括第一特征融合层、双注意力模块和第二特征融合层，第二语义分析分支包括第三特征融合层、双注意力模块和第四特征融合层，第三语义分析分支包括第五特征融合层，第四语义分析分支包括一个双注意力模块；

第四语义分析分支提取编码器的第五个特征提取层的输出特征图中的语义特征，第四语义分析分支的输出特征图和第三个全局注意模块输出的全局注意力图是解码器的第一解码层的输入；第二个全局注意模块输出的全局注意力图和第三个全局注意模块输出的全局注意力图作为第五特征融合层的输入，第五特征融合层的输出特征图是解码器的第二解码层的输入；第一个全局注意模块输出的全局注意力图和第二个全局注意模块输出的全局注意力图作为第三特征融合层的输入，第三特征融合层的输出特征图输入到第二语义分析分支的双注意力模块中，第二语义分析分支的双注意力模块的输出特征图和第五特征融合层的输出特征图作为第四特征融合层的输入，第四特征融合层的输出特征图分别输入到第二特征融合层和解码器的第三解码层；编码器的第一特征提取层的输出特征图和第一个全局注意模块输出的全局注意力图输入到第一特征融合层中进行融合，第一特征融合层的输出特征图和第三特征融合层的输出特征图拼接后输入到第一语义分析分支的双注意力模块中，第一语义分析分支的双注意力模块的输出特征图和第四特征融合层的输出特征图输入到第二特征融合层中进行特征融合，第二特征融合层的输出特征图是解码器的第四解码层的输入；

第三步、利用遥感影像数据集对建筑物提取模型进行训练，获得训练后的建筑物提取模型；将训练后的建筑物提取模型用于提取遥感影像中的建筑物。

进一步的，所述双注意力模块包括通道注意力模块和空间注意力模块；通道注意力模块包括平均池化操作和最大池化操作，将通道注意力模块的输入特征图分别进行平均池化操作和最大池化操作，再将两种池化操作得到的特征图进行相加，得到通道注意力图；然后，将通道注意力图输入到空间注意力模块，首先沿着特征图的通道轴进行平均池化操作和最大池化操作，并将两种池化操作得到的特征进行通道维度的拼接，生成一个特征描述符，特征描述符经过一个卷积层生成空间注意力图。

进一步的，所述解码器包括第一～四个解码层，每个解码层均包括拼接操作、卷积层、归一化操作和激活函数。

进一步的，所述全局注意模块的具体操作为：对于全局注意模块的输入特征图，将输入特征图分别通过三个不同的二维卷积层，得到三个不同的特征图，分别记为q、k和v；将特征图q与特征图k的转置相乘后，再除以特征图k维度的开平方，再将结果输入到softmax 函数中，得到输入特征图的注意力权重；将注意力权重乘以特征图v，得到全局注意模块输出的全局注意力图。

与现有技术相比，本发明的有益效果是：

本发明对传统U-Net进行改进，在编码器与解码器之间添加语义分析模块，语义分析模块提高了编码器提取的特征图中特征信息的利用率，同时对整个特征图进行融合增强其特征信息，使其获得更好的分割效果。在编码器中引入全局注意模块，提升模型对于遥感影像中建筑物细节特征的提取能力，可以有效地提高模型对于建筑物边界的提取效果，防止边界信息丢失。将密集连接的思想引入编码器中，将注意力权重作为密集连接的传输线索，通过对不同注意力模块的注意力特征进行融合，得到丰富的语义信息，保证了建筑物特征提取的完整性。此外，图像经过编码器后，随着卷积层数的加深，会导致一些小目标信息的丢失，由于浅层特征含有更多的纹理信息，深层特征含有更多的语义信息，通过语义分析模块将浅层特征和深层特征进行融合使得特征所包含的信息更加丰富，从而提高了模型对小目标建筑物检测的准确度，避免了小目标建筑物的漏检和缺检。

附图说明

图1为本发明的整体流程图；

图2为本发明的建筑物提取模型的结构示意图；

图3为本发明的编码器的结构示意图；

图4为不同模型的提取结果对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案进行详细描述，但并不以此限定本申请的保护范围。

图1为本实施例中提取遥感影像建筑物方法的流程图，如图1所示，本发明提供一种基于改进U-Net的遥感影像建筑物提取方法，包括以下步骤：

第一步、获取高分辨率的遥感影像，构建遥感影像数据集，将数据集划分为训练集、验证集和测试集。具体地，本实施例采用的数据集为WHU Building Dataset，该数据集是一套同时具备大场景和高分辨率特性的遥感影像建筑物数据库，共有8188张影像和对应的像素级标签图，每张影像的分辨率为512×512像素，其中4736张作为训练集，1036张作为验证集， 2416张作为测试集。

第二步、对传统的语义分割算法U-Net进行改进，在编码器中引入全局注意模块和密集连接模块，在编码器与解码器之间引入语义分析模块，从而得到建筑物提取模型，因此建筑物提取模型包括编码器(Encoding)、语义分析模块(Semantic Analysis)和解码器(Decoding) 三部分；编码器用于提取多尺度特征；为了提高编码器提取的特征中信息的利用率，引入语义分析模块用于提取更加丰富和高层次的语义特征；解码器包括四个解码层，用于对语义分析模块的输出特征图进行逐步上采样，同时在特征分辨率恢复过程中与低层特征融合，最后再用双线性插值得到与原始特征图相同大小的分割预测，提高语义分割的精度。

其中，编码器包括五个特征提取层(Conv1～Conv5)，具体参数如表1所示。第二～四个特征提取层后均连接一个全局注意模块，分别记为GCA1、GCA2和GCA3；全局注意模块的目的是提取特征图中有用的细节信息，抑制无效特征信息，操作过程为：对于全局注意模块的输入特征图，首先，将输入特征图分别通过三个不同的二维卷积层，得到三个不同的特征图，分别记为q、k和v；然后，将特征图q与特征图k的转置相乘后，再除以特征图k维度的开平方，这一步主要是使特征图q和k相乘后的结果满足期望为0，方差为1的分布，类似于归一化操作；最后，将结果输入到softmax函数中，得到输入特征图的注意力权重；将注意力权重乘以特征图v，得到全局注意模块的输出，即全局注意力图；全局注意模块的引入可以加强网络特征的学习能力，提高模型在细节方面的处理性能，有效弥补了采用传统U-Net提取遥感影像建筑物时，容易出现边界信息丢失的缺陷。

表1特征提取层参数

为了能够获取更密集的多尺度特征信息，在编码器中同时引入密集连接模块，密集连接方式主要是将全局注意模块依次向下并行连接，对各个全局注意模块生成的注意力权重进行密集连接，通过传递注意力权重来丰富特征图的语义信息，使得编码器可以产生更密集的特征金字塔，同时编码器的输出特征图也具有更大尺度的感受野；将三个全局注意模块生成的注意力权重分别记为a1、a2和a3，如图3所示，第一个全局注意模块GCA1生成的注意力权重a1分别传递至第二个全局注意模块GCA2、第三个全局注意模块GCA3和第五个特征提取层Conv5，第二个全局注意模块GCA2生成的注意力权重a2分别传递至第三个全局注意模块GCA3和第五个特征提取层Conv5，第三个全局注意模块GCA3生成的注意力权重a3传递至第五个特征提取层Conv5；在第二个全局注意模块GCA2更新全局注意力图的过程中，将注意力权重a1与自身生成的注意力权重a2相加求均值并用于更新第二个全局注意模块GCA2 输出的全局注意力图；同理，在第三个全局注意模块GCA3更新全局注意力图的过程中，将注意力权重a1、a2与自身生成的注意力权重a3相加求均值并用于更新第三个全局注意模块 GCA3输出的全局注意力图；在第五个特征提取层Conv5更新输出特征图的过程中，将注意力权重a1、a2、a3相加求均值并与自身计算出的输出特征图相乘，得到更新后的Conv5的输出特征图。

语义分析模块包括四个语义分析分支，第一语义分析分支包括第一特征融合层Conv1-1、双注意力模块(CBAM)和第二特征融合层Conv1-2，第二语义分析分支包括第三特征融合层Conv2-1、双注意力模块和第四特征融合层Conv2-2，第三语义分析分支包括第五特征融合层Conv3-1，第四语义分析分支包括一个双注意力模块；特征融合层用于浅层特征和深层特征的融合，双注意力模块用于提取输入特征图的通道注意力图和空间注意力图；

第四语义分析分支提取编码器的第五个特征提取层的输出特征图中的语义特征，第四语义分析分支的输出特征图和第三个全局注意模块GCA3输出的全局注意力图是解码器的第一解码层的输入；第二个全局注意模块GCA2输出的全局注意力图和第三个全局注意模块GCA3 输出的全局注意力图作为第五特征融合层Conv3-1的输入，第五特征融合层Conv3-1的输出特征图是解码器的第二解码层的输入；第一个全局注意模块GCA1输出的全局注意力图和第二个全局注意模块GCA2输出的全局注意力图作为第三特征融合层Conv2-1的输入，第三特征融合层Conv2-1的输出特征图输入到第二语义分析分支的双注意力模块中，第二语义分析分支的双注意力模块的输出特征图和第五特征融合层Conv3-1的输出特征图作为第四特征融合层Conv2-2的输入，第四特征融合层Conv2-2的输出特征图分别输入到第二特征融合层 Conv1-2和解码器的第三解码层；编码器的第一特征提取层Conv1的输出特征图和第一个全局注意模块GCA1输出的全局注意力图输入到第一特征融合层Conv1-1中进行融合，第一特征融合层Conv1-1的输出特征图和第三特征融合层Conv2-1的输出特征图拼接后输入到第一语义分析分支的双注意力模块中，第一语义分析分支的双注意力模块的输出特征图和第四特征融合层Conv2-2的输出特征图输入到第二特征融合层Conv1-2中进行特征融合，第二特征融合层Conv1-2的输出特征图是解码器的第四解码层的输入。

表2特征融合层参数

为了提高对于多尺度特征的提取能力，防止建筑物边界信息的丢失，双注意力模块包括通道注意力模块和空间注意力模块；通道注意力模块利用特征图的通道关系生成一个通道注意力图，因为一个特征图的每个通道都可以认为是一个特征检测器，通道注意力关注特征图中有意义的内容，为了高效地计算通道注意力，压缩输入特征图的空间维度，本文认为最大池化采集了另一个关于标志性对象特征的重要线索，并用此线索来推算更细粒度的通道注意力，因此，通道注意力模块包括平均池化操作和最大池化操作，对于输入到通道注意力模块中的特征图分别进行平均池化操作和最大池化操作，再将两种池化操作得到的特征图进行相加，得到通道注意力图；然后，将得到的通道注意力图输入到空间注意力模块，利用特征图的空间相互关系生成一个空间注意力图。与通道注意力不同，空间注意力专注于特征图中“哪里”是信息丰富的部分，这与通道注意力是互补的，为了计算空间注意力，首先沿着特征图的通道轴进行平均池化操作和最大池化操作，并将两种池化操作得到的特征进行通道维度的拼接，生成一个高效的特征描述符，特征描述符经过一个卷积层生成空间注意力图，空间注意力图编码了特征图中哪个区域被突显或抑制，提取到更加丰富和高层次的语义信息，保证了建筑物提取整体的完整性。

所述解码器包括第一～四个解码层，每个解码层均包括拼接操作(FF)、卷积层、归一化操作和激活函数，在图2中，卷积层、归一化操作和激活函数记为CB。

传统的语义分割算法U-Net包括编码器和解码器，以VGG-16作为传统U-Net的主干特征提取网络。

第三步、利用第一步得到的遥感影像数据集对建筑物提取模型进行训练，获得训练后的建筑物提取模型；将训练后的建筑物提取模型用于提取遥感影像中的建筑物。

具体地，训练相关参数设置为：批处理大小(Batch size)为10，选代次数为50次，总下采样倍数为16；采用Adam优化算法来对模型进行优化，更新之后再进行权重衰减，初始学习率设置为0.001，权重衰减率设置为0.001。实验中采用周期性的余弦退火学习率策略，学习率会呈余弦函数型衰减，以初始学习率为最大学习率，当学习率每次衰减到0之后，会迅速回到初始值，从而避免陷入局部最优解。损失函数同时采用BCE损失函数和IOUloss 损失函数组成的混合损失函数。

为了验证本发明的有效性，使用遥感影像数据集的测试集对利用传统U-Net和本发明的建筑物提取模型进行测试，得到如图4所示的测试结果对比图。从图4中第一行的对比结果可知，传统U-Net丢失了目标区域左上角的特征，而本发明方法能够完整地提取目标区域的建筑物，保证了建筑物的完整性，一方面是由于在编码器与解码器之间添加了语义分析模块，通过语义分析模块提高了特征信息的利用率，进而丰富了特征图的语义信息，另一方面是由于在编码器中引入了密集连接模块，通过密集连接模块提取多尺度特征，保证了提取的完整性。从图4中第二行的对比结果可知，传统U-Net丢失了部分边界信息，而本发明方法能够清晰的提取建筑物边界，这是由于全局注意模块能够加强网络模型对建筑物细节特征的提取能力，得到区分性特征，使得网络能够清晰的分辨出边界。上述结果验证了本发明方法能够保证建筑物提取的完整性，同时还能够防止建筑物边界信息的丢失。

本发明未述及之处适用于现有技术。

Claims

1.一种基于改进U-Net的遥感影像建筑物提取方法，其特征在于，该方法包括以下步骤：

第一步、获取高分辨率的遥感影像，构建遥感影像数据集；

第二步、对传统U-Net进行改进，在编码器中引入全局注意模块和密集连接模块，在编码器与解码器之间引入语义分析模块，得到建筑物提取模型；其中，编码器包括五个特征提取层，第二～四个特征提取层后均连接一个全局注意模块；通过密集连接模块对各个全局注意模块生成的注意力权重进行密集连接，将三个全局注意模块生成的注意力权重分别记为a1、a2和a3，注意力权重a1分别传递至第二个全局注意模块、第三个全局注意模块和第五个特征提取层，注意力权重a2分别传递至第三个全局注意模和第五个特征提取层，注意力权重a3传递至第五个特征提取层；第二个全局注意模块将注意力权重a1与注意力权重a2求均值并用于更新第二个全局注意模块的全局注意力图；第三个全局注意模块将注意力权重a1、a2与a3求均值并用于更新第三个全局注意模块的全局注意力图；第五个特征提取层将注意力权重a1、a2、a3求均值并与自身计算得到的特征图相乘，得到第五个特征提取层的输出特征图；

2.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法，其特征在于，所述双注意力模块包括通道注意力模块和空间注意力模块；通道注意力模块包括平均池化操作和最大池化操作，将通道注意力模块的输入特征图分别进行平均池化操作和最大池化操作，再将两种池化操作得到的特征图进行相加，得到通道注意力图；然后，将通道注意力图输入到空间注意力模块，首先沿着特征图的通道轴进行平均池化操作和最大池化操作，并将两种池化操作得到的特征进行通道维度的拼接，生成一个特征描述符，特征描述符经过一个卷积层生成空间注意力图。

3.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法，其特征在于，所述解码器包括第一～四个解码层，每个解码层均包括拼接操作、卷积层、归一化操作和激活函数。

4.根据权利要求1所述的基于改进U-Net的遥感影像建筑物提取方法，其特征在于，所述全局注意模块的具体操作为：对于全局注意模块的输入特征图，将输入特征图分别通过三个不同的二维卷积层，得到三个不同的特征图，分别记为q、k和v；将特征图q与特征图k的转置相乘后，再除以特征图k维度的开平方，再将结果输入到softmax函数中，得到输入特征图的注意力权重；将注意力权重乘以特征图v，得到全局注意模块输出的全局注意力图。