CN114580526A

CN114580526A - 一种基于深度学习的建筑物提取方法

Info

Publication number: CN114580526A
Application number: CN202210198541.4A
Authority: CN
Inventors: 赵元昊; 夹尚丰; 王凯; 李政
Original assignee: Qingdao Xingke Ruisheng Information Technology Co ltd
Current assignee: Qingdao Xingke Ruisheng Information Technology Co ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-03
Anticipated expiration: 2042-03-02
Also published as: CN114580526B

Abstract

本发明涉及遥感影像建筑物提取技术领域，具体地说是一种基于深度学习的建筑物提取方法，包括编码器、解码器、中层特征组合层的语义分割网络模型MFU‑Net；在编码器阶段实现深度特征的提取；在解码器阶段完成空间分辨率的恢复；在解码器之后添加了中层特征组合层，用来综合考虑不同深度特征，完成模型的输出；训练模型时通过不同损失求和来计算模型的最终损失值，本发明同现有技术相比，通过编码器、解码器和中层特征组合层的语义分割网络模型实现深层特征的提取，空间分辨率的恢复以及模型训练和输出，实现了精确地提取出不同尺度大小的建筑物，并且改善了边缘模糊的问题。

Description

一种基于深度学习的建筑物提取方法

技术领域

本发明涉及遥感影像建筑物提取技术领域，具体地说是一种基于深度学习的建筑物提取方法。

背景技术

随着遥感技术的发展，越来越多的卫星搭载高分辨率乃至超高分辨率传感器，高分辨率的遥感影像有助于人们获取更加详细的地表信息。其中建筑物在遥感影像中具有几何结构清晰，大部分建筑布局规则和建筑物内部纹理清晰的特点，从高分辨率航空影像中自动提取建筑物在估算城市人口数量、城市三维建模、经济统计、灾害监测等各方面发挥着不可替代的作用，如何从遥感影像中准确地提取建筑物信息仍是当前研究热点。

随着深度学习在计算机视觉领域的广泛应用，卷积神经网络由于其强力的空间以及多尺度特征捕捉能力在遥感影像处理方面取得了较好效果，因为卷积神经网络相比与机器学习的方法可以充分利用影像中的光谱以及空间特征，其中语义分割网络相比于以往的网络可以实现端到端的分类，语义分割神经网络端到端的目标检测方法可以有效地提取深层特征，因此在建筑物检测领域得到了极为广泛的应用。

目前，大量的语义分割网络应用到建筑物提取领域，全卷积神经网络(FCN)是最早提出的语义分割网络，FCN可以接收任意大小的输入影像，并且获得每个像素一一对应的预测结果，FCN大大降低了参数数量和内存成本，但是由于上采样和下采样导致了边缘以及细节信息的损失。现有技术在FCN的基础上提出了一种用于医学图像分割的U-Net架构，在FCN基础上增加跳跃连接拼接深层和浅层图像特征，解决FCN网络信息损失严重问题，但U_net针对的医学图像结构比较简单，应用到更加复杂的遥感影像中时，存在精度较低、特征利用不充分等问题，比如，U-Net仅关注如何更好恢复特征图的分辨率，忽略了深层次特征的获取以及不同深度特征的组合使用。

因此，需要设计一种基于深度学习的建筑物提取方法，解决了上述的技术问题，通过利用上采样丰富空间信息、结合不同深度特征进行预测，能够精确地提取出不同尺度大小的建筑物，并且改善了边缘模糊的问题。

发明内容

本发明的目的是克服现有技术的不足，提供了一种基于深度学习的建筑物提取方法，通过利用上采样丰富空间信息、结合不同深度特征进行预测，能够精确地提取出不同尺度大小的建筑物，并且改善了边缘模糊的问题。

为了达到上述目的，本发明提供一种基于深度学习的建筑物提取方法，包括编码器、解码器、中层特征组合层的语义分割网络模型MFU-Net；在编码器阶段实现深度特征的提取；在解码器阶段完成空间分辨率的恢复；在解码器之后添加了中层特征组合层，用来综合考虑不同深度特征，完成模型的输出；训练模型时通过不同损失求和来计算模型的最终损失值。

编码器由六个深度组成，第一个深度包含一个双线性插值上采样层、两个卷积层和一个最大池化层，双线性插值上采样层是为了从输入影像中获取更多的细节信息，第六个深度仅包含两个卷积层，其余的四个深度的结构是相同的，均包含两个卷积层和一个最大池化层，用于进行特征增强和降低空间分辨率，除第一层外，每个深度的结构相同，均由两个3×3的卷积层和一个2×2的最大池化层组成。

解码器与编码器对称，包含六个深度，而且在上采样之后，通过跳跃连接的方法将解码特征与编码器中分辨率相同的特征进行组合，最后一层包含两个卷积层，其余的深度包含两个卷积层和一个反卷积上采样层，反卷积上采样的目的是增加特征的空间分辨率。

中层特征组合层在获得不同深度的解码特征后，将不同深度的解码特征通过卷积将特征通道数调整为1，再将空间分辨率调整为与输入图像相同，然后将所得的特征进行堆叠，通过Sigmoid激活函数进行结果输出。

模型中的深层的特征通道数为512，而浅层的特征通道数为16，每层的特征通道数是上一层特征通道数的两倍。

训练模型时损失函数的计算公式为：

L＝L_BCE+a*L_MSLR

其中，L为最终计算得到的损失值，α为平衡两个损失函数的参数，L_MSLR为均方对数误差，L_BCE为二进制交叉熵损失函数，两者的计算公式如下：

其中，N是预测结果中的像素数，y_true是指真实标签，ypred是模型预测结果。

本发明同现有技术相比，通过编码器、解码器和中层特征组合层的语义分割网络模型实现深层特征的提取，空间分辨率的恢复以及模型训练和输出，实现了精确地提取出不同尺度大小的建筑物，并且改善了边缘模糊的问题。

附图说明

图1为训练数据集的原始影像和标签；

图2为预处理之后的训练样本和标签；

图3为本发明的模型结构图；

图4为本发明中层特征组合的结构图；

图5为最终输出结果和标签影像的对比图；

图6为本发明与不同模型的对比图；

具体实施方式

现结合附图对本发明做进一步描述。

如图1～图6，本发明提供一种基于深度学习的建筑物提取方法，包括编码器、解码器、中层特征组合层的语义分割网络模型MFU-Net；在编码器阶段实现深度特征的提取；在解码器阶段完成空间分辨率的恢复；在解码器之后添加了中层特征组合层，用来综合考虑不同深度特征，完成模型的输出；训练模型时通过不同损失求和来计算模型的最终损失值。

训练模型时损失函数的计算公式为：

L＝L_BCE+α*L_MSLR

其中，N是预测结果中的像素数，y_true是指真实标签，y_pred是模型预测结果。

实施例：

如图1～图6所示，本发明提供一种基于深度学习的建筑物提取方法，针对传统U_net网络细节信息的损失、边缘提取不准确、多尺度建筑物提取困难等问题，构建一个端到端的语义分割网络模型MFU-Net；该网络由编码器、解码器、中层特征组合层三个部分组成，如图3所示。

1.编码器：

编码器特征提取能力对图像分割的结果影响很大，卷积神经网络越深所提取的特征越抽象，语义信息越多，因此，本发明的MFU-Net模型中编码器共包含六个深度，可以充分挖掘图像的语义特征。编码器中的下采样层的作用是降低空间分辨率，令特征可以具有更多的特征通道，这样可以更好地挖掘图像的深层特征，但是传统的方法下采样时会损失细节信息导致检测结果的边缘不理想，U_net通过跳跃连接将包含更多细节信息的编码特征传递到解码器中，一定程度上缓解了细节损失的问题。但是传递的特征分辨率都是小于或者等于输入图像的，特征本身已经存在着细节损失的问题。

考虑到以上问题，MFU-Net模型在解码器的第一层通过一个2×2的反卷积对输入图像进行上采样，得到分辨率高于输入图像的特征，并将特征的通道数设置为16。除此之外，编码器第一层还包含两个3×3的卷积层和一个2×2的最大池化层，每个卷积层采用Relu作为激活函数，而且每个卷积层之后有一个批归一化层，该层的作用是提高模型的泛化能力。每个卷积层和池化层MFU-Net模型编码器的第二层至第五层深度结构相同，仅包含两个3×3的卷积层和一个2×2的最大池化层，卷积层的设置与第一层相同，但是每一层的特征通道数为上一层的两倍。第六层因为已经是最深层，所以不需要下采样层，仅包含两个3×3的卷积层。

2.解码器：

解码器的主要作用是恢复特征的空间分辨率，MFU-Net模型中的解码器结构与编码器整体呈对称结构，共包含六个深度。每层都包含两个3×3的卷积层，卷积层的设置与编码器中的卷积层设置相同。除此之外，解码器中的前五层，每层在卷积层之后还包含一个步长为2×2的反卷积上采样层，该层可以将特征的空间分辨率增加一倍。根据编码器的介绍可以知道，解码器中第一层的特征通道数为512，解码器其他每层的特征通道数为前一层的一半。

因为解码器的作用是恢复空间分辨率，但是编码器提供的深度特征因为下采样损失了较多的细节损失，所以，MFU-Net模型采用U_net中的跳跃连接方法将编码器中不同深度的特征传递到解码器中，具体使用方法为：将解码器中上采样后的特征与编码器中分辨率相同的特征进行堆叠。

3.中层特征组合层：

在以往的大多研究中，人们注意到了深浅层特征融合的重要性，所以通过跳跃连接等方式来充分利用编码器中的浅层特征。但是网络的整体一直都是从编码部分到解码部分，而且最终的输出也是仅仅只考虑了解码器中的一个深度的特征，这样就忽视了解码器中的其他层特征的作用，同时模型的输出也存在一定的局限性。

为了解决上述问题，MFU-Net模型在解码器之后加入了中层特征组合层，具体结构如图4所示。因为对输入进行了一次上采样，并且解码和编码部分是对称的，所以解码器获得的特征中即存在比输入影像分辨率小的特征，同时也存在比输入影像分辨率大的特征。因为编码器第一层特征的分辨率仅为输入影像的1/16，细节信息损失严重，所以中层特征组合模块将其他层的五个尺寸大小不同、深度不同的解码特征，通过上采样、下采样以及卷积的方法调整至与输入影像大小相同。其中，上采样采用的是反卷积的方式，下采样采用的是步长为2的最大值池化。通过上采样和下采样以及卷积方法处理的特征空间分辨率均与输入图像相同，且特征通道数为1。最后，将所得的特征进行堆叠，并且通过1×1的卷积和Sigmoid激活函数进行结果输出，这样不仅可以充分利用模型的中层特征，也缓解了模型输出的局限性。

4.损失函数：

在深度学习中，损失函数可以看作模型的评价指标，在训练过程中发挥着不可替代的作用。训练模型的时候，通过不断调整参数令模型的输出与真实标签更加逼近，而损失函数就是用来评价模型输出与真实标签之间的相似程度的，损失函数值越小则说明模型的拟合效果就越好。

均方对数误差(Mean Squared Logarithmic Error，MSLE)是深度学习中经常被引用的损失函数之一，该损失函数对所有标签像素和预测像素求对数并做差，但是对数要求数值不能等于0，随意均方对数误差在求对数之前将所有像素值全部加1，最终对所有的像素获得的损失值求均值，具体计算公式为：

二进制交叉熵损失函数(Binary Cross Entropy，BCE)是交叉熵损失函数的一种特殊应用，该损失函数往往只应用于二分类问题。建筑物提取可以看作是二分类问题中的一类。BCE的具体计算公式为：

本发明为了在训练模型时可以快速准确地进行收敛，在选择损失函数时同时考虑了MSLE和BCE两种损失，并通过系数对两种损失函数进行线性组合，具体计算公式如下所示：

L＝L_BCE+α*L_MSLR

以上仅是本发明的优选实施方式，只是用于帮助理解本申请的方法及其核心思想，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

本发明从整体上解决了现有技术中语义分割网络边缘以及细节信息的损失，以及在更加复杂的遥感影像中精度较低、特征利用不充分和忽略了深层次特征的问题，通过编码器、解码器和中层特征组合层的语义分割网络模型实现深层特征的提取，空间分辨率的恢复以及模型训练和输出，实现了精确地提取出不同尺度大小的建筑物，并且改善了边缘模糊的情况。

Claims

1.一种基于深度学习的建筑物提取方法，其特征在于，包括编码器、解码器、中层特征组合层的语义分割网络模型MFU-Net；在编码器阶段实现深度特征的提取；在解码器阶段完成空间分辨率的恢复；在解码器之后添加了中层特征组合层，用来综合考虑不同深度特征，完成模型的输出；训练模型时通过不同损失求和来计算模型的最终损失值。

2.根据权利要求1所述的一种基于深度学习的建筑物提取方法，其特征在于，所述编码器由六个深度组成，第一个深度包含一个双线性插值上采样层、两个卷积层和一个最大池化层，双线性插值上采样层是为了从输入影像中获取更多的细节信息，第六个深度仅包含两个卷积层，其余的四个深度的结构是相同的，均包含两个卷积层和一个最大池化层，用于进行特征增强和降低空间分辨率，除第一层外，每个深度的结构相同，均由两个3×3的卷积层和一个2×2的最大池化层组成。

3.根据权利要求1所述的一种基于深度学习的建筑物提取方法，其特征在于，所述解码器与编码器对称，包含六个深度，而且在上采样之后，通过跳跃连接的方法将解码特征与编码器中分辨率相同的特征进行组合，最后一层包含两个卷积层，其余的深度包含两个卷积层和一个反卷积上采样层，反卷积上采样的目的是增加特征的空间分辨率。

4.根据权利要求1所述的一种基于深度学习的建筑物提取方法，其特征在于，所述中层特征组合层在获得不同深度的解码特征后，将不同深度的解码特征通过卷积将特征通道数调整为1，再将空间分辨率调整为与输入图像相同，然后将所得的特征进行堆叠，通过Sigmoid激活函数进行结果输出。

5.根据权利要求1所述的一种基于深度学习的建筑物提取方法，其特征在于，所述模型中的深层的特征通道数为512，而浅层的特征通道数为16，每层的特征通道数是上一层特征通道数的两倍。

6.根据权利要求1所述的一种基于深度学习的建筑物提取方法，其特征在于，所述训练模型时损失函数的计算公式为：

L＝L_BCE+α*L_MSLR