CN114842206A

CN114842206A - 基于双层全局卷积的遥感图像语义分割模型及方法

Info

Publication number: CN114842206A
Application number: CN202210776160.XA
Authority: CN
Inventors: 胡蕾; 李云洪; 翁梦倩; 凌杰
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2022-08-02
Anticipated expiration: 2042-07-04
Also published as: CN114842206B

Abstract

本发明属于图像处理技术领域，涉及基于双层全局卷积的遥感图像语义分割模型及方法，该模型包括特征提取网络、用于处理不同层特征的上层分支和下层分支、特征融合网络；特征提取网络输出的高层特征和低层特征分别经过上层分支和下层分支增强后，然后进行特征融合；上层分支包括补丁注意力模块Ⅰ、全局卷积模块Ⅰ；下层分支包括补丁注意力模块Ⅱ、全局卷积模块Ⅱ、注意力嵌入模块、全局卷积模块Ⅲ。本发明采用注意力嵌入模块将局部注意力从高层特征嵌入到低层特征中，能使低层特征中嵌入上下文信息；采用全局卷积模块以组合卷积的形式扩大感受野，提升大尺寸地物目标的分割性能。

Description

基于双层全局卷积的遥感图像语义分割模型及方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于双层全局卷积的遥感图像语义分割模型及方法。

背景技术

遥感图像已成为获取地表信息的主要数据来源，遥感图像语义分割广泛应用于土地监测、道路检测、环境监控等领域。随着卫星遥感技术的不断发展，遥感图像的分辨率有很大的提高，高分辨率遥感图像中细小目标得到呈现，地物目标的尺寸差异大成为遥感图像语义分割的新挑战。遥感图像中不同类别的地物可能共享相似的光谱特征，因此需要使用卷积神经网络来提升分割效果。虽然经典的语义分割网络不断地在获取更丰富的空间上下文信息中探索，但是由于遥感图像背景复杂、类间尺寸差异大等特点，难以提取地物之间丰富的空间上下文信息，从而导致分割边界比较粗糙、细小目标容易被漏分、大目标难以完整地被分割出来。引入注意力机制，获取全局特征和产生空间依赖关系可以更好地提取遥感图像上下文信息、细化分割边界。

发明内容

本发明针对已有的技术的不足之处，对局部注意力网络模型进行改进，提出了一种基于双层全局卷积的遥感图像语义分割模型及方法。

本发明通过下述技术方案来实现。基于双层全局卷积的遥感图像语义分割模型，包括特征提取网络、用于处理不同层特征的两个并行分支、特征融合网络；特征提取网络输出的高层特征和低层特征分别经过两个并行分支增强后，增强后的高层特征和低层特征经特征融合网络进行特征融合后输出最终特征图；

两个并行分支是指用于处理高层特征的上层分支和用于处理低层特征的下层分支；所述上层分支包括补丁注意力模块Ⅰ、全局卷积模块Ⅰ；在上层分支中，高层特征通过补丁注意力模块Ⅰ进行特征增强，补丁注意力模块Ⅰ后连接全局卷积模块Ⅰ；

所述下层分支包括补丁注意力模块Ⅱ、全局卷积模块Ⅱ、注意力嵌入模块、全局卷积模块Ⅲ；在下层分支中，低层特征首先通过补丁注意力模块Ⅱ进行特征增强，然后通过注意力嵌入模块从高层嵌入语义信息；补丁注意力模块Ⅱ后连接全局卷积模块Ⅱ；注意力嵌入模块后连接全局卷积模块Ⅲ。

进一步优选，所述特征提取网络采用ResNet50并引入漏斗激活函数FReLU，用于提升细小地物目标的分割效果。

进一步优选，补丁注意力模块Ⅰ、补丁注意力模块Ⅱ和注意力嵌入模块后分别连接的全局卷积模块Ⅰ、全局卷积模块Ⅱ、全局卷积模块Ⅲ都采用GCM⁺模块。

进一步优选，GCM⁺模块设有三个卷积分支；输入特征图经过三个卷积分支，每个卷积分支都有两层卷积。

进一步优选，第一个卷积分支的首层卷积是采用k×1大小的卷积核进行卷积的，第一个卷积分支的次层卷积是采用1×k大小的卷积核进行卷积的；第二个卷积分支的首层卷积和次层卷积都是采用1×1大小的卷积核进行卷积的；第三个卷积分支的首层卷积是采用1×k大小的卷积核进行卷积的；第三个卷积分支的次层卷积是采用k×1大小的卷积核进行卷积的。

进一步优选，将经过第一个卷积分支和第二个卷积分支的特征图进行加和操作，相加后的结果再与经过第三个卷积分支得到的特征图进行加和操作，加和操作后的输出为GCM⁺模块特征图。

本发明提出一种基于双层全局卷积的遥感图像语义分割方法，步骤如下：

S1：选择进行语义分割的高分辨率遥感图像数据集，对选定的高分辨率遥感图像数据集进行预处理操作，制作训练集、验证集、测试集；

S2：构建基于双层全局卷积的遥感图像语义分割模型；

S3：使用训练集训练基于双层全局卷积的遥感图像语义分割模型，并使用验证集进行验证，使用测试集进行测试；

S4：利用训练好的基于双层全局卷积的遥感图像语义分割模型进行遥感图像语义分割。

本发明与现有技术相比，具有如下优点和有益效果：

针对高分辨遥感图像语义信息丰富和地物目标尺寸差异大的特点，采用局部注意力网络模型作为基础网络进行语义分割，本发明提出了全局卷积模块与局部注意力网络模型。本发明不但采用了补丁注意力模块（PAM），还采用了注意力嵌入模块（AEM），注意力嵌入模块的输入不仅有低层特征，也有高层特征，它将局部注意力从高层特征嵌入到低层特征中，能使低层特征中嵌入上下文信息，这些上下文信息将超出其感受野的限制，同时保留其空间细节。本发明针对全局特征提取设计了全局卷积模块（GCM⁺），全局卷积模块（GCM+）有三个卷积分支，每个卷积分支都有两层卷积。本发明提出的1×k+k×1、1×1+1×1和k×1+1×k的组合卷积，不是直接使用较大的卷积核与特征图进行密集连接，但达到了直接使用k×k大卷积核的分割效果，全局卷积模块（GCM⁺）以组合卷积的形式扩大感受野，提升大尺寸地物目标的分割性能；其次，利用漏斗激活函数Funnel ReLU（FReLU）来解决细小目标漏分的问题；聚合使用GCM⁺模块和FReLU激活函数，减少高分辨率遥感图像地物尺寸差异大对分割结果的影响。实验结果表明，基于双层全局卷积的遥感图像语义分割模型在Potsdam数据集上平均交并比达到了75.83%，像素准确率达到了94.95%，比基础网络局部注意力网络模型有较大提升。

附图说明

图1是本发明的基于双层全局卷积的遥感图像语义分割模型结构图。

图2是GCM⁺模块结构图。

图3是本发明的流程示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步说明。

如图1所示，基于双层全局卷积的遥感图像语义分割模型，包括特征提取网络、用于处理不同层特征的两个并行分支、特征融合网络。特征提取网络输出的高层特征和低层特征分别经过两个并行分支增强后，增强后的高层特征和低层特征经特征融合网络进行特征融合后输出最终特征图。

特征提取网络采用ResNet50并引入漏斗激活函数FReLU，用于提升细小地物目标的分割效果。

两个并行分支是指用于处理高层特征的上层分支和用于处理低层特征的下层分支；所述上层分支包括补丁注意力模块Ⅰ（PAM）、全局卷积模块Ⅰ（GCM⁺）；在上层分支中，经过ResNet50生成的高层特征通过补丁注意力模块Ⅰ（PAM）进行特征增强，补丁注意力模块Ⅰ（PAM）后连接全局卷积模块Ⅰ（GCM⁺）。

所述下层分支包括补丁注意力模块Ⅱ（PAM）、全局卷积模块Ⅱ（GCM⁺）、注意力嵌入模块（AEM）、全局卷积模块Ⅲ（GCM⁺）；在下层分支中，ResNet50生成的低层特征首先通过补丁注意力模块Ⅱ（PAM）进行特征增强，然后通过注意力嵌入模块（AEM）从高层嵌入语义信息；补丁注意力模块Ⅱ（PAM）后连接全局卷积模块Ⅱ（GCM⁺）；注意力嵌入模块（AEM）后连接全局卷积模块Ⅲ（GCM⁺）。

ResNet50依次包括Block1模块（256×256）、Block2模块（128×128）、Block3模块（64×64）、Block4模块（32×32），将Block1模块的输出作为低层特征输入下层分支进行处理，将Block4模块的输出作为高层特征输入上层分支进行处理。

本实施例中，补丁注意力模块Ⅰ、补丁注意力模块Ⅱ和注意力嵌入模块后分别连接的全局卷积模块Ⅰ、全局卷积模块Ⅱ、全局卷积模块Ⅲ都采用GCM⁺模块。GCM⁺采用1×k+k×1、1×1+1×1和k×1+1×k的组合卷积，而不是直接使用较大的卷积核与特征图进行密集连接，如图2所示，GCM⁺模块中的和分别是输入特征图的长和宽、代表输入特征图的通道数、代表实验数据集总类别数、为每个卷积的卷积核大小。输入特征图经过三个卷积分支，每个卷积分支都有两层卷积。第一个卷积分支（P1）的首层卷积是采用k×1大小的卷积核进行卷积的，第一个卷积分支（P1）的次层卷积是采用1×k大小的卷积核进行卷积的。第二个卷积分支（P2）的首层卷积和次层卷积都是采用1×1大小的卷积核进行卷积的。第三个卷积分支（P3）的首层卷积是采用1×k大小的卷积核进行卷积的；第三个卷积分支（P3）的次层卷积是采用k×1大小的卷积核进行卷积的。三个卷积分支组合能在仅增加少量参数量的同时达到直接使用k×k大卷积核的分割效果。

其中输入特征图首先经过第一个卷积分支（P1）、第二个卷积分支（P2）和第三个卷积分支（P3）分别进行特征提取。GCM⁺模块中特征图相加操作过程为：将经过第一个卷积分支（P1）和第二个卷积分支（P2）的特征图进行加和操作P1+P2，相加后的结果再与经过第三个卷积分支（P3）得到的特征图进行加和操作，加和操作后的输出为GCM⁺模块特征图。GCM⁺模块扩大了感受野，提高了目标物体的定位精度，从而能对目标物体进行更精确的分类，且能使大尺寸地物目标分割更加完整。

已知上下文信息对遥感图像的语义分割至关重要，在神经网络中，全局池化是提取上下文信息的有效操作，但是由于遥感图像分辨率较大且地物类别数目较多，所以地物信息不清晰，因此该方法在遥感图像上分割效果会较差，为解决此问题，局部注意力网络模型在遥感图像的语义分割上使用基于补丁级别的上下文信息提取。因此本发明采用局部注意力网络模型（补丁注意力模块和注意力嵌入模块）作为基础网络。遥感图像的地物尺寸分布不均衡，有的地物尺寸大，有的地物尺寸小。在同样大小的感受野中，小尺寸的地物能被全部覆盖，但是大尺寸的地物不能完全被覆盖，提取大尺寸地物的空间上下文信息不丰富，导致分类效果不是很好。针对以上问题，本实施例提出了GCM⁺模块，并加入到局部注意力基础网络中。

针对遥感图像语义分割大尺寸、小尺寸地物目标分割效果问题，本实施例提出一种基于双层全局卷积的遥感图像语义分割方法，参照图3，步骤如下，

S1：选择进行语义分割的高分辨率遥感图像数据集，对选定的高分辨率遥感图像数据集进行预处理操作，制作训练集、验证集、测试集。

以高分辨率遥感图像数据集中的一幅图像为例，将地物分为N类，典型的地物类别包括：不透水的表面、建筑物、低植被、树木、汽车和杂类/背景，每个类别用0-N的数字进行标记，用不同颜色进行区分。

预处理过程主要包括图像切割和数据增强。将高分辨率遥感图像数据集中的图像均匀切割成p×p像素大小的图像，为了适应硬件建议p=512，不同显卡p可取不同的值，并对图像进行水平翻转和垂直翻转来进行数据增强，防止由于数据较少而出现模型过拟合的现象，过滤掉一些标签存在问题的图像后，将处理后的高分辨率遥感图像数据集划分为训练集：验证集：测试集=6:2:2的比例。

S2：构建基于双层全局卷积的遥感图像语义分割模型；

本实施例中，基于双层全局卷积的遥感图像语义分割模型进行遥感图像语义分割的过程如下：

首先采用ResNet50提取图像的高层特征和低层特征，ResNet50特征提取过程中引入漏斗激活函数FReLU，用于提升细小地物目标的分割效果。

然后，高层特征首先通过补丁注意力模块Ⅰ增强特征表达，补丁注意力模块Ⅰ后连接全局卷积模块Ⅰ，用于获取全局上下文信息。遥感图像语义分割受到不同类别之间信息的干扰，容易出现错分的现象，补丁注意力模块的提出可以增强类别之间上下文信息的聚合，从而减少地物错分。通过局部补丁结构限制提取信息范围，从而获取到局部上下文有意义的信息。

之后，经过普通简单的卷积得到的低层特征先利用补丁注意力模块Ⅰ（PAM）后连接全局卷积模块Ⅰ（GCM⁺），用于获取全局上下文信息增强特征表达后经过注意力嵌入模块嵌入高层语义信息；补丁注意力模块Ⅱ（PAM）后连接全局卷积模块Ⅱ（GCM⁺），用于获取全局上下文信息；注意力嵌入模块（AEM）后连接全局卷积模块Ⅲ（GCM⁺），用于获取全局上下文信息。由于低层特征在空间分布和物理意义上与高层特征不同，因此很难有效利用这些低层特征。利用低层特征的最常用方法是将它们与高层特征连接，这样只会对最终效果有轻微的提升。为了充分利用低层特征，利用注意力嵌入模块来丰富语义信息。该操作在弥合高层特征和低层特征之间差距的同时也不会牺牲后者的空间细节。

最后，增强后的高层特征和低层特征经特征融合网络进行特征融合后输出最终特征图。

本实施例在Potsdam数据集上进行对基于双层全局卷积的遥感图像语义分割模型进行训练并测试，通过利用3个常用的客观量作为语义分割的评价指标，像素精度PA、F1值和平均交并比值MIoU。

表1是本发明的基于双层全局卷积的遥感图像语义分割模型在数据集上的客观性能评估情况。表2是GCM⁺的参数k取不同值的客观性能评估情况。LANet表示局部注意力网络模型，包括补丁注意力模块和注意力嵌入模块。

表1本发明在Potsdam数据集上的评估情况

表2本发明中参数k=3、5、7、9、11、13、15在Potsdam数据集上的评估情况

为了能更好突出本发明的基于双层全局卷积的遥感图像语义分割模型的可行性，分别选取了5个有代表性的场景进行分析。其中场景1是某城区图，其中包含的建筑物有边界规则，用来探究网络在细化分割边界的效果，实验效果表明本发明不仅能分割出建筑物，且建筑物的边界准确平整；场景2是某城区图，包含有小的和细长的地物类别（如小道），用来探究小目标和细长目标的分割性能，实验效果表明本发明能将小的和细长的地物类别分割出来；场景3是某城区图，包含有大尺寸的房屋和道路，用来探究网络对于大尺寸目标的分割能力，实验效果表明本发明不仅将大面积的建筑物形状正确分割出来，而且还不产生多余的噪声点。场景4和场景5也是某城区图，包含的地物类型大小交杂在一起，实验效果表明本发明所分割出的地物类型比对比方法更符合真实地物类型。通过对5个场景的分割结果图进行分析，结果表明，利用基于双层全局卷积的遥感图像语义分割模型得到的预测图在大尺寸地物和小尺寸地物上都能有较好的分割结果。

Claims

1.基于双层全局卷积的遥感图像语义分割模型，其特征是：包括特征提取网络、用于处理不同层特征的两个并行分支、特征融合网络；特征提取网络输出的高层特征和低层特征分别经过两个并行分支增强后，增强后的高层特征和低层特征经特征融合网络进行特征融合后输出最终特征图；

2.根据权利要求1所述的基于双层全局卷积的遥感图像语义分割模型，其特征是：所述特征提取网络采用ResNet50并引入漏斗激活函数FReLU。

3.根据权利要求1所述的基于双层全局卷积的遥感图像语义分割模型，其特征是：补丁注意力模块Ⅰ、补丁注意力模块Ⅱ和注意力嵌入模块后分别连接的全局卷积模块Ⅰ、全局卷积模块Ⅱ、全局卷积模块Ⅲ都采用GCM⁺模块。

4.根据权利要求3所述的基于双层全局卷积的遥感图像语义分割模型，其特征是：GCM⁺模块设有三个卷积分支；输入特征图经过三个卷积分支，每个卷积分支都有两层卷积。

5.根据权利要求4所述的基于双层全局卷积的遥感图像语义分割模型，其特征是：第一个卷积分支的首层卷积是采用k×1大小的卷积核进行卷积的，第一个卷积分支的次层卷积是采用1×k大小的卷积核进行卷积的；第二个卷积分支的首层卷积和次层卷积都是采用1×1大小的卷积核进行卷积的；第三个卷积分支的首层卷积是采用1×k大小的卷积核进行卷积的；第三个卷积分支的次层卷积是采用k×1大小的卷积核进行卷积的。

6.根据权利要求5所述的基于双层全局卷积的遥感图像语义分割模型，其特征是：将经过第一个卷积分支和第二个卷积分支的特征图进行加和操作，相加后的结果再与经过第三个卷积分支得到的特征图进行加和操作，加和操作后的输出为GCM⁺模块特征图。

7.一种基于双层全局卷积的遥感图像语义分割方法，其特征是，步骤如下：

S2：构建权利要求1-6任意一项所述的基于双层全局卷积的遥感图像语义分割模型；