CN112560624B

CN112560624B - 基于模型深度集成的高分遥感影像语义分割方法

Info

Publication number: CN112560624B
Application number: CN202011425806.7A
Authority: CN
Inventors: 陈力; 崔振琦; 彭剑; 黄浩哲
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-05-17
Anticipated expiration: 2040-12-08
Also published as: CN112560624A

Abstract

本发明公开了一种基于模型深度集成的高分遥感影像语义分割方法，其中设计了一种基于集成深度全卷积的端到端学习构架，通过融合不同的深度全卷积网络，联合学习遥感影像中多尺度和多空间结构语义信息，同时提出了自适应融合模块和深度可分离卷积模块，前者可以学习不同深度网络融合的权重，后者可以保证模型精度的前提下减少模型的参数量，缓解了由于多模型导致参数多进而训练时间和训练难度增大问题。

Description

基于模型深度集成的高分遥感影像语义分割方法

技术领域

本发明涉及遥感影像语义分割技术领域，尤其涉及一种基于模型深度集成的高分遥感影像语义分割方法。

背景技术

高分遥感影像具有鸟瞰视角能够重复获取大面积数据，它在诸多领域中应用广泛，例如：国土监察业务，land cover mapping，重要地面设施检测，智慧城市建设，交通规划等。图像分割，作为一种基本的图像分析技术，其目标是将一幅图像分割成一组不相交的区域，这些区域根据纹理、颜色、形状、大小和灰度等特定属性的划分。传统的分割方法基于不同的空间单元对图像进行分类，包括像素、移动窗口、对象和场景。然而，由于传统的方法在分类时只涉及光谱和空间域的低层特征，这些底层的特征不足以为复杂的土地结构的划分提供决策依据。同时这种方法过于依赖影像中地物之间光谱差异，然而不同的传感器，成像时间和预处理方式都会增加地物之间的光谱差异，同时遥感影像普遍存在着“同物异谱、异物同谱”现象，严重影响了遥感影像解译精度。除此之外，传统的方法通过构建物理模型提取目标特征，这些物理模型能够有效地表达从环境参数到遥感观测的形成过程，但这些模型很大程度上依赖于模型参数的先验知识。由于物理演绎过程的高度复杂，这些先验知识往往具有很大的不确定性，并且在不同时期、不同地区变化较大，这同样限制了遥感解译的精度。

目前深度学习语义分割框架可以大致分为3类：“U”形结构，基于空洞卷积，利用上下文。U形结构是典型的编码解码结构，其中编码层与CNN中特征提取的过程相似，解码层主要是利用双线性插值等方法恢复编码输出特征图的分辨率，其中具有的代表网络有U-Net和SegNet等。这一类方法有几个大的缺陷：上采样层和池化层(下采样过程)参数不可学习；下采样导致内部数据结构丢失以及空间层级化信息丢失；U形结构无法有效识别小物体。空洞卷积可以在不改变图像尺寸的情况下提供较大的感受野，这很好的避免了U形结构带来的问题。尽管理论上许多深层CNN的感受野接近甚至大于整个输入，但深层CNN的有效感受野比理论感受野小得多，这表明在许多分割网络中，高层上下文没有得到充分的利用。CRF与FCN网络结合可改善上下文利用问题。在上采样预测上对密集的CRF进行细化，并使用平均场推断获得尖锐的边界。

相较于自然图像，遥感图像包含更多的光谱信息和空间位置信息，同时遥感图像应用的场景也更加灵活，更加复杂。深度学习技术在自然图像数据集取得让人印象深刻的进展，但是遥感图像中包含地物语义信息更加多样和复杂，对象尺度差异更明显，面向遥感影像的语义分割仍然极具挑战的任务。其中最为显著的一点便是地物目标尺度多样问题：遥感图像上地物尺度跨度大，层次结构多样，且分布不均，使得语义规则难以确定，而这些规则可以帮助区分不同尺度的对象，对提高分割精度至关重要。

发明内容

本发明的目的是为了解决单一深度结构的深度全卷积网络无法捕获遥感图像中跨度大的地物尺度特征，引入集成学习的思路，而提出的一种基于模型深度集成的高分遥感影像语义分割方法，融合不同深度网络提取的尺度信息，通过浅层网络来关注小尺度物体信息，深层网络关注大尺度物体信息，解决遥感影像目标尺度跨度大的问题。

为了实现上述目的，本发明采用了如下技术方案：

基于模型深度集成的高分遥感影像语义分割方法，包括ED-FNet模型设计步骤，所述ED-FNet模型根据每层输出的特征图的大小可分为五个阶段，其中述ED-FNet模型的第一阶段输出特征图大小与原图相同，网络深度为1；所述ED-FNet模型的第二阶段包括第一阶段，并且多出一个下采样层和深度可分离卷积模块，第二阶段编码层得到的特征图是输入图像大小的一半，第二阶段中还包含了反卷积模块，网络深度为2，ED-FNet模型的第三阶段、第四阶段和第五阶段依次类推形成特征图。

具体地，所述ED-FNet模型的不同阶段中反卷积模块所包含的反卷积层数不一样。

更进一步地，所述ED-FNet模型在网络的编码部分，除了第一阶段的卷积模块保留不变，其他卷积模块替换为深度可分离卷积模块。

具体地，所述ED-FNet模型的构架是以U-Net为骨架搭建形成的，称之为ED-UNet,所述ED-UNet模型的构架包括特征图收缩的编码过程和特征图扩张的解码过程；

所述编码过程中，一组卷积模块由两组相同的3×3卷积核组成，其中还包括用修正线性单元激活函数和一个用于下采样的2×2最大池化层；在每一个下采样的步骤中，U-Net输出的特征通道数量加倍；

所述解码过程中，每一组反卷积都包含对特征图进行上采样；然后叠加一个卷积层，用于减少一半的特征通道数量；接着使用跳转链接的方式级联收缩路径中相应的裁剪后的特征图；再用两个3×3的卷积核进行卷积运算；

在最后一个卷积层，利用1×1的卷积核进行卷积运算，将每个64维的特征向量映射网络的输出层。

所述ED-UNet构架的输出结果叠加后输入AFM模块，AFM模块的输出为ED-UNet最终的预测结果。

所述AFM模块为自适应融合模块，AFM模块被定义为一个复合方程，公式如下：

AFM(X1，X2)＝f_con(F_e(F_s(X1))，X₂)，

AFM模块输入的特征图为X1＝[u1,u2...,uC]，其中ui∈R^H×W，X2＝[o1,o2,...,on]，其中oi∈R^H×W，H表示AFM模块输入特征图的高度，W表示AFM模块输入特征图的宽度；

空间积压通过全局池化层实现，空间挤压后生成向量F_s(X)∈R^1×1×C，C表示输入特征图向量X1的通道数，公式定义如下：

x_k(i，j)表示X的元素，上述操作将全局空间信息嵌入到向量F_s(X)中，接下来需要编码模型输出多个特征图之间的关系：

F_e(X)＝W₁(θ(W₂x))，

其中，W1和W2表示全连接层的参数，θ为激活函数；该函数对模型各个输出之间的结果进行编码；

为了将权重F_e(X)的动态变化范围限制在[0-1]之间，还需添加一个sigmoid层；将权重向量与模型输出结合起来，得到最终的输出：

f_con(Z，X₂)＝σ(z₁)z₁+σ(z₁)z₁+…+σ(z_n)z_n，

其中，可变的激活值σ(z_i)代表这着第i个输出结果的重要性。

更进一步地，所述ED-FNet构架在在解码过程中采用深度可分离卷积步骤，深度可分离卷积步骤分两步进行：

(1)C1个3×3×1的卷积对输入特征图的C1通道分别做卷积，这样在一次卷积后，输出的通道数为C1；

(2)将第一步的输出通过一个1×1×C2的卷积核，得到最终输出结果，其大小为H×W×C2。

本发明的有益效果是：

(1)本发明提出一个集成不同深度的卷积神网络构架，融合不同深度网络提取的尺度信息，通过浅层网络来关注小尺度物体信息，深层网络关注大尺度物体信息，解决遥感影像目标尺度跨度大的问题。；

(2)本发明中提出参数可学习的多模型输出结果融合方法。相较于传统的投票集成方法，本方法可以建模不同模型输出结果之间的隐形关系。

(3)相较于传统的集成方法，本发明中的高分遥感影像语义分割方法是一个端到端的构架，同时通过引入可分离卷积，在基本不损失模型精度的基础上大大减少模型参数。

综上，本发明中提出一种基于集成深度全卷积的端到端学习构架(ED-FNet)，通过融合不同的深度全卷积网络，联合学习遥感影像中多尺度和多空间结构语义信息，同时提出了自适应融合模块(AFM)和深度可分离卷积模块(DS-Conv Block)，前者可以学习不同深度网络融合的权重，后者可以保证模型精度的前提下减少模型的参数量，缓解了由于多模型导致参数多进而训练时间和训练难度增大问题。

附图说明

图1为本发明提出的ED-FNet模型构架示意图；

图2为本发明提出的ED-UNet的网络结构示意图；

图3为本发明提出的自适应融合模块结构示意图；

图4为本发明提出的深度可分离卷积模块结构示意图；

图5为本发明中Vaihingen数据集上的分割结果示例图；

图6为本发明中Potsdam数据集上的分割结果示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，为了充分利用卷积神经网络中不断变化的感受野带来的多尺度信息，本发明设计了ED-FNet模型，该模型架构机器学习领域中常用的集成学习方法启发，构建了一个全新的端到端的模型架构，ED-FNet的整体架构根据每层输出的特征图的大小可分为五个阶段。第一阶段输出特征图大小与原图相同，网络深度为1，本发明将该阶段定义为En_M₁。En_M₂包含En_M₁阶段，并且多出一个下采样层和深度可分离卷积模块，En_M₂编码层得到的特征图是输入图像大小的一半，因此En_M₂中还包含了反卷积模块(Deconv)，网络深度为2。需要特别指出的是：不同的模型阶段中反卷积模块所包含的反卷积层数不一样。En_M_n表示该子网络的深度为n，其编码层得到的特征图是输入图像大小的1/n，在模型的训练过程中En_M_n与其他网络共用编码部分的参数。

不同的深度的模型有不同的识别能力，导致不同的一致性表现。深度较小的网络编码空间信息更精细，但由于其接受视角小，没有空间语境的引导，语义一致性差。而在深度较大的网络，由于接受视角大，语义一致性强，但预测在空间上比较粗糙。总的来说，较低的阶段可以做出更准确的空间预测，而较高的阶段可以给出更准确的语义预测。为了结合浅层网络和深层网络各自的优势，本发明采用集成学习的思路，使用自适应融合模块，将不同深度网络的输出结果融合。

ED-FNet相较于普通的深度全卷积网络模型，由于添加了额外的反卷积模块，导致模型整体参数量偏高。模型参数过多将导致模型难以收敛。本发明引入深度可分离卷积模块修剪模型参数。在网络的编码部分，除了第一阶段的卷积模块(Conv Block)保留不变，其他卷积模块替换为深度可分离卷积模块。

ED-FNet理论上可以将所有的深度全卷积网络作为骨架。为了更详细的说明ED-FNet架构，本发明将详细介绍以U-Net为骨架搭建的ED-FNet，本发明称之为ED-UNet。网络的具体结构如图2所示。

该结构图对应的原始U-Net是一个典型的编码解码构架的卷积神经网络。在U-Net的编码过程中特征图收缩，可以方便的获取图像中上下文信息，在解码过程中特征图扩张，还原像素的精确位置。其中，收缩过程遵循典型的卷积网络结构，一组卷积模块由两组相同的3×3卷积核(conv2d)组成，其中还包括用修正线性单元(ReLU)激活函数和一个用于下采样的2×2最大池化层(Maxpooling)。在每一个下采样的步骤中，U-Net输出的特征通道数量加倍。在扩张过程中，每一组反卷积都包含对特征图进行上采样(Upsample)；然后叠加一个卷积层，用于减少一半的特征通道数量；接着使用跳转链接的方式级联收缩路径中相应的裁剪后的特征图；再用两个3×3的卷积核进行卷积运算。在最后一层，利用1×1的卷积核进行卷积运算，将每个64维的特征向量映射网络的输出层。

总而言之，该网络有23个卷积层，按照上述模型深度的定义方式，原始的U-Net模型深度为5。ED-UNet相较于U-Net，除了对最后一组卷积模块输出的特征图上下样以外，将前面4组卷积模块输出的特征图均还原至输入图像的尺寸。每组特征图在扩张的过程中均使用相同的反卷积方法。

最后本发明将5组深度的U-Net的输出结果叠加后输入AFM模块，AFM模块的输出就是ED-UNet最终的预测结果。同样，为了减少ED-UNet的参数量，本发明使用可分离卷积模块代替了部分卷积模块。图2为ED-UNet的网络结构，其特征层上方的数字表示特征矩阵的深度。

ED-FNet以现有的全卷积网络构架作为骨架，它集成了具有相同结构的分割网络在不同深度的下的输出结果，这些被集成的子模型共用一部分的编码过程，保证了网络整体是一个端到端的构架。

本发明中模型最后有多个输出，为了学习多输出融合的权重，本发明还提出了自适应融合模块(AFM)，通过对浅层特征图挤压与激活，建模网络输出多个特征图之间的关系。

AFM模块被定义为一个复合方程，公式如下：

AFM(X1，X2)＝f_con(F_e(F_s(X1))，X2)

假设AFM模块输入的特征图为X1＝[u1,u2,···,uC]，其中ui∈RH×W，X2＝[o1,o2,···,on]，其中oi∈RH×W。空间积压通过全局池化层实现，空间挤压后生成vectorF_s(X)∈R1×1×C，C表示输入特征向量X1的通道数，公式定义如下：

上述操作将全局空间信息嵌入到向量F_s(X)中，接下来需要编码模型输出多个特征图之间的关系：

F_e(X)＝W₁(θ(W₂x))

其中W1和W2表示全连接层的参数，θ为激活函数。该函数对模型各个输出之间的结果进行编码。为了将权重F_e(X)的动态变化范围限制在[0-1]之间，还需添加一个sigmoid层。将权重向量与模型输出结合起来，得到最终的输出：

f_con(Z，X₂)＝σ(z₁)z₁+σ(z₁)z₁+…+σ(z_n)z_n

可变的激活值σ(z_i)代表这着第i个输出结果的重要性，这些激活值在网络训练的过程中自适应的调整，以表征不同输出结果的重要性。当输入不同的图片，网络多输出结果融合的权重值也会随着场景的改变而变化。图3为自适应融合模块AFM的示意图。

相较于骨干网络，ED-FNet构架重复添加了几组解码结构，导致模型参数量过大，增加了网络的计算复杂度。本发明采用深度可分离卷积来解决这一问题。

假设卷积前，特征图为H×W×C1，卷积后需要得到H×W×C2的输出(卷积过程中对特征图边界补零)，如果卷积核大小为3×3，那么普通卷积的参数量为(C1×3×3+1)×C2。而深度可分离卷积将分两步进行：

(1)C1个3×3×1的卷积对输入特征图的C1通道分别做卷积，这样在一次卷积后，输出的通道数为C1。

(2)将第一步的输出通过一个1×1×C2的卷积核(pointwise核)，得到最终输出结果，其大小为H×W×C2。

整个卷积过程中参数量为C1×3×3+C1×(1×1×C2+1)，相较于普通卷积，参数量大大减少。

由于ED-FNet中不同深度的子网络共用特征编码的过程，因此存在参数冗余的现象，使用深度可分离卷积替换普通卷积，可减少部分冗余参数，提高网络分割的效率。图4展示了深度可分离卷积模块的结构。图片上半部分展示了深度可分离卷积模块的构成，下半部分详细解释了深度可分离卷积的计算流程。该模块包含两个深度可分离卷积，如果单个卷积层输入的数据9×9×3，需要输出特征为7×7×128，相较于普通的卷积模块，深度可分离卷积模块可以减少3000左右的参数。

实施例1

为了验证本章提出的ED-FNet网络构架的有效性，本实施例中，在ISPRSVaihingen和ISPRS Potsdam数据集上进行实验。

Vaihingen数据集5由33幅航空图像组成，这些图像采集于Vaihingen市1.38km2区域，空间分辨率为9cm。每幅图像的平均大小为2494×2064像素，每幅图像有三个波段，分别对应近红外(NIR)、红色(R)和绿色(G)波长。该数据集还特别提供DSM还作为补充数据，它表示图像中所有物体的表面高度。在这些图像中，有16幅手动标注的像素级标签，每个像素被分为6个土地覆盖类别之一。该数据集中的11个图像进行训练，其余5个图像(图像id:11，15，28，30，34)用于测试本实施例中的模型。

Potsdam数据集由38幅高分辨率航空图像组成，面积为3.42平方公里，每幅航空图像有四个通道(NIR、R、G和蓝色(B))。所有图像的大小为6000×6000像素，其标签类别与Vaihingen数据集相同。空间分辨率为5cm，并提供了相应的DSM。为了训练和评估网络，本实施例中使用10个图像进行训练，并使用剩余图像(图像id:0211、0212、0410、0511、0607、0708、0710)构建测试集。

为了评价不同模型在高分遥感影像语义分割上的表现，本发明采用了以下三种评价指标：

(1)F1分数(F1 Score)是精确度(Precision)和召回率(Recall)的调和平均值的评价指标，其计算方式为：

(2)区域重叠比例精度(IoU)是一个类中正确分类的像素与该类的预测像素的交集和并集的比值。常用于评价语义分割的准确性。其计算公式如下：

(3)总体精度(OA)是指所有预测正确的像素占总像素的比例。

为了评价模型在所有类别上的表现效果，本发明使用了均值F1分数(mF1)和均值区域重叠比例精度(mIoU)。

本实施例中所有的代码都是基于keras框架。所有的网络都使用随机参数初始化，不经过预训练。本发明采用Adam方式优化模型，并且设置优化器参数：β1＝0.9，β2＝0.999，和∈＝1e-08。理论上可以使用任意大小的图片作为模型的输入，但是由于设备存的限制，最后使用窗口滑动的方式将图片裁剪为256×256的大小。需要特别指出的是，训练的过程中没有使用数据增广，数据拉伸等预处理。同样也没有加载预训练模型，使用随机初始化方法来初始化模型参数。本实施例中损失函数是交叉熵函数，其计算公式为：

在训练的过程中，设置learning rate为0.001。模型最多训练150轮，当损失值无法减少时，停止训练(基本在100轮左右模型将达到收敛)。

在本实验中，为了进行综合评估，验证本实施例中模型的有效性，将ED-FNet与现有的六种方法进行了比较：最常用的语义分割模型FCN，典型的编码解码结构的U-Net和SegNet，包含空洞卷积的PFN和PSPNet，针对目标多尺度问题的FPN及充分利用下上文信息的DeeplabV3]。ED-FNet可以将现有的语义分割网络作为骨架，本实施例实验中选取了两个具有代表性的网络U-Net(以vgg为基础)和PSPNet(以resnet为基础)分别作为骨架，搭建了ED-UNet和ED-UPet。在这个实验中，由于该数据集只有少量的背景类(该类别的像素占比为0.6737％)，因而，不记录背景这一类的精度，使得最后的综合评价指标更加具有说服力。

表1中展示了所有模型在ISPRS Vaihingen数据集上的数值结果。该表格可以分为3个部分：基准模型的表现效果，不同网络深度的U-Net和ED-UNet对比结果，不同网络深度的PSPNet和ED-UPet对比结果。表1 Vaihingen数据集上的语义分割结果。每个类别的精度指标是IoU。不同深度的vgg和resnet的最佳结果用灰色标记。

表1

在表1中，将每一个类别中精度最高的数值加粗，可以看出U-Net在加入本发明提出的集成构架后，在OA/mF1/mIoU上达到了最高，相较于基准模型中表现最优的DeeplabV3+分别提升了0.61％/0.21％/0.32％。其中在大型目标中提升的提升尤为明显，在树木，矮灌木丛和不透水地面这3个类别中均提升了2％左右。

由于本实施例所对比的基准模型与ED-UNet(our)其骨架网络不同，本实施例为了直观体现深度集成构架的优势，采用不同网络深度的U-Net进行实验。本实施例中列举了U-Net深度3-6的实验结果。为了方便对比，将表1中不同深度U-Net系列模型中表现最优的精度背景标记为灰色。从表中可以看出U-Net5在OA/mF1/mIoU 3个指标上达到了最优，而U-Net6的效果则不及U-Net5，说明同一数据集上，相同网络结构，不同网络深度的表现不同，并且并非网络层数越深越好。

同样的，在汽车这一类中U-Net4比U-Net5高0.84％。随着网络层数的增加，模型可以学习到更加抽象的特征(拥有更大的感受野)，但是与此同时会损失更多的局部细节信息，目前的流行的编码解码结构无法解决这一矛盾，致使同一构架下不同的网络深度的表现不同。本实施例中的ED-UNet通过将不同的深度的网络集成，在同一结构下达到最优，相较于U-Net5在OA/mF1/mIoU上提升了1.23％/1.8％/2.5％，同时DE_U-Net(our)在相同构架下在所有类别中均达到最优。实验结果表明，多模型集成构架通过融合不同深度网络的优点(浅网络对局部小型目标敏感(汽车)，深网络则具有更大的感受野，对上下文语义信息利用更加充分)，能有效缓解网络感受野增大与特征细节信息损失之间的矛盾。

本发明中的基于模型深度集成的高分遥感影像语义分割方法不仅在以vgg为骨架的网络中有效，在以resnet为骨架的网络中同样有效。本实验中，在deeplabv3+与pspnet中选择pspnet为实验的基准网络构架，因为deeplabv3+网络本身包含了大量的空洞卷积，在resnet骨架中加入了空洞卷积，在其ASPP结构中也加入了空洞卷积，由于空洞卷积的大量加入，网络本身下采层较少，而本发明中对模型深度定义的依据是下采样的个数，deeplabv3+并不契合这一要求。不同pspnet深度对比实验中，得到这样的结果：不同的类别对不同的网络深度更加敏感。其中PSPNet50_3在树木，建筑，不透水地表上的效果优于PSPNet50_2，在矮灌木丛和汽车上的效果则较差。这一结果契合上一部分实验结果及分析。加入模型深度集成结构后，ED_PNet在OA/mF1/mIoU上最终提升了1.47％/2.33％/2.89％。实验结果表明本实施例中出的模型深度集成结构在已resnet为骨架的分割模型上同样有效。一般来说作为骨架的全卷积神经网络表现效果也差，ED-FNet的提升效果越明显。

图5展示了分割可视化结果的一些样本。从第一行的数据中可以发现，ED-UNet和ED-PNet相较于其他网络，可以得到更为完整的建筑物轮廓，这主要是因为集成深度全卷积网络构架相较于其他网络，可以学习到更为丰富的多尺度信息，兼顾了建筑物的边缘纹理与整体结构。第三行中，FCN和U-Net无法识别两栋建筑之间的不透水表面，PSPNet和集成深度全卷积网络可以做出相对准确的预测。这主要是因为在这个场景中，不透水表面的外观与正确建筑的外观非常相似，导致模型错误判断地物类别。而PSPNet和集成深度全卷积网络都充分利用了场景的上下文信息，使得网络从图像中较远的区域捕获有用的视觉线索，进行准确的推理。在第四行中，ED-UNet和ED-PNet对汽车的预测结果明显优于U-Net和PSPNet，这表明集成深度全卷积网络构架拥有大感受野的同时，保留了局部小感受野，而局部的小感受野有助于提高汽车这一类尺寸相较小的物体。

实施例2

本实施例针对模型多个输出结果如何融合的问题提出了自适应融合模块，为了验证AMF模块的有效性，设计了消融实验，同时也将测试深度可分离卷积模块对模型表现的影响。在这部分实验中选取U-Net作为骨架网络结构，AMF表示添加自适应融合模块。在最后一个对比模型实验中去掉了DE_UNet中多个loss的约束，只保留最后一层网络的loss，验证不同深度模型对应loss约束的重要性。

实验结果如表2所示。本发明提出的DE_UNet+AFM模型相较于原始的U-Net在OA/AF/mIoU上提升了1.23％/1.8％/2.5％，如果去掉自适应融合模块(AFM)，使用平均加权融合的方法叠加多个模型输出的结果，最终分割结果在mIoU上损失了0.45％。对比表2中第三行与第四行的实验数据，可以观察到使用深度可分离卷积模块代替卷积模块后，mIoU下降了0.01％左右，可以忽略不计，但是模型的参数量能相应减少30％左右，大大提高图像分割效率。表2中，ISPRS Vaihingen数据集上的消融实验。DE_UNet为基于U-Net的集成深度网络，AFM为自适应融合模块，DS-Conv为深度可分离卷积模块。

表2

此外还讨论了DE_UNet中对每个子模型(En-Mn)添加损失函数的必要性。当只保留DE_UNet最后一层输出的loss时，网络性能直接下降了3.35％，这表明在本实施例的深度集成网络构架中，需要对不同深度的模型输出添加约束，该约束将引导网络学习地物的多尺度特征。如果仅仅是将浅层网络特征与深层网络特征融合或者采用特征金字塔结构，都无法学习到具有判别性的多尺度特征。

实施例3

为了进一步验证本发明中网络的有效性，在Potsdam数据集上进行了实验，Potsdam数据集相较于Vaihingen数据集，图片的覆盖范围更大，图片的像素的分辨率也更高。单张图片内Potsdam数据集中拥有更多的局部纹理信息和空间多尺度信息，其背景更加复杂，其分割的难度也更高。同一模型在Potsdam数据集上的精度往往低于在Vaihingen数据集上的精度，具体数值结果如表3所示。表3为Potsdam数据集上的语义分割结果。每个类别的精度指标是IoU。不同深度的vgg和resnet的最佳结果用灰色标记。

从表中可知，DE_UNet相较于U-Net在OA/mF1/mIoU上提高了1.13％/0.87％/1.25％，DE_PNet相较于PSPNet在OA/mF1/mIoU上提高了1.06％/0.9％/0.1％。该实验结果进一步证明集成深度全卷积网络构架的有效的行。DE_UNet同时相较于基准模型中表现最好的Segnet在OA/mF1/mIoU提升了0.44％/0.22％/0.49％。这一实验结果表明，普通的深度全卷积网络与本章提出的集成架构结合后，能有效的改善模型的性能，使模型的表现效果能与最佳的语义分割模型相媲美。

表3

此外，参考图6，在图6中列举了Potsdam数据集上部分样本的分割结果。如第二行和第四行所示，集成深度全卷积网络架构在不透水地表的效果优于其他网络，因为在不透水地表中往往存在树木，阴影等物体的遮挡，这使得不透水地表往往被模型检测为其他类别，这也是在遥感图像语义分割中比较常见的“椒盐现象”。目前，解决这一问题最好的办法是利用错检区域周围的地物信息，辅助模型决策，也就是需要利用局部上下文信息。集成深度全卷积网络架构保留了不同大小的感受野，这些感受野保证模型能有效建模局部与整体的关系，充分利用上下文信息辅助模型决策。

本实施例中的基于集成深度全卷积的端到端学习构架(ED-FNet)，通过融合不同的深度全卷积网络，赋予模型不同的感受野，使其能联合学习遥感影像中多尺度语义信息，同时提出了多模型输出结果自适应融合模块(AFM)和深度可分离卷积模块(DS-ConvBlock)，前者能有效建模不同深度神经网络输出结果之间的关系，后者在保证模型精度的前提下减少模型的参数量，缓解了由于多模型导致参数多进而训练时间和训练难度增大问题。在ISPRS Vaihingen和ISPRS Potsdam公开数据集上的实验表明ED-FNet能有效提升普通全卷积神经网络的表现效果，在mIoU上能提升1-3％。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于模型深度集成的高分遥感影像语义分割方法，其特征在于，包括ED-FNet模型设计步骤，所述ED-FNet模型根据每层输出的特征图的大小可分为五个阶段，其中述ED-FNet模型的第一阶段输出特征图大小与原图相同，网络深度为1；所述ED-FNet模型的第二阶段包括第一阶段，并且多出一个下采样层和深度可分离卷积模块，第二阶段编码层得到的特征图是输入图像大小的一半，第二阶段中还包含了反卷积模块，网络深度为2，ED-FNet模型的第三阶段、第四阶段和第五阶段依次类推形成特征图；

将所述ED-FNet模型在ISPRS Vaihingen数据集和ISPRS Potsdam数据集进行训练，采用ISPRS Vaihingen数据集和ISPRS Potsdam数据集进行语义分割；

ED-FNet模型在网络的编码部分，除了第一阶段的卷积模块保留不变，其他卷积模块替换为深度可分离卷积模块；所述ED-FNet模型的构架在解码过程中采用深度可分离卷积步骤，深度可分离卷积步骤分两步进行：

(2)将第一步的输出通过一个1×1×C2的卷积核，得到最终输出结果，其大小为H×W×C2；

AFM模块为自适应融合模块，AFM模块被定义为一个复合方程，公式如下：

AFM模块输入的特征图为X1＝[u₁,u₂...,u_C]，其中u_i∈R^H×W，X2＝[o₁,o₂,...,o_n]，其中o_i∈R^H×W,H表示AFM模块输入特征图的高度，W表示AFM模块输入特征图的宽度；

x_k(i，j)表示X的元素，上述操作将全局空间信息嵌入到向量F_i(X)中，接下来需要编码模型输出多个特征图之间的关系：

2.根据权利要求1所述的基于模型深度集成的高分遥感影像语义分割方法，其特征在于，所述ED-FNet模型的不同阶段中反卷积模块所包含的反卷积层数不一样。

3.基于权利要求1所述的基于模型深度集成的高分遥感影像语义分割方法，其特征在于，所述ED-FNet模型的构架是以U-Net为骨架搭建形成的，称之为ED-UNet,所述ED-UNet模型的构架包括特征图收缩的编码过程和特征图扩张的解码过程；

4.根据权利要求3所述的基于模型深度集成的高分遥感影像语义分割方法，其特征在于，所述ED-UNet构架的输出结果叠加后输入AFM模块，AFM模块的输出为ED-UNet最终的预测结果。