CN116206112A

CN116206112A - 基于多尺度特征融合和sam的遥感图像语义分割方法

Info

Publication number: CN116206112A
Application number: CN202310262035.1A
Authority: CN
Inventors: 纪建; 徐贺凯; 罗迈; 杨勇; 康宇翰; 刘向增
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-02

Abstract

本发明提出一种基于多尺度融合和空间注意力模块的遥感图像语义分割方法，旨在通过对图像的多尺度特征进行融合和增强特征点之间的位置映射关系，更加准确的预测对象边界之间的像素点关系，增强遥感图像的语义分割效果。实现步骤为：首先构建Swin‑Transfomer模块、多尺度特征融合模块、双路空间注意力解码器模块和处理模块，将训练数据依次通过上述四个模块训练SwinDSA‑meige网络，最后对预测图像进行语义分割。本发明能够改善图像分割中位置映射关系和上下文联系问题，在分割小物体上比大部分方法更好。

Description

基于多尺度特征融合和SAM的遥感图像语义分割方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分割技术领域中的一种基于多尺度融合和空间注意力模块(Spatial Attention Module)的遥感图像语义分割方法。本发明可用于对遥感图像进行分割，进而实现可自动化的生产建设项目中地质勘测和地图绘制任务。

背景技术

随着遥感领域技术的飞速发展，带来了大量的影像数据解译处理需求。遥感图像解译需要通过分割出不同类别的物体、区域并对同一类别赋予相同的标签，以代表识别出该区域或物体。目前，工程实践中更多采用基于传统CNN模型的深度神经网络学习技术进行遥感图像分割，利用神经网络提取遥感图像特征，经过训练网络来预测每一个像素的类别，从而最终得到具有类别标签的分割图。但现有方法没能很好地解决遥感图像语义分割任务位置映射关系问题，也没有解决复杂场景中的上下文联系问题。并且在实践过程中，现阶段的语义分割网络主要使用的CNN模型不能很好地提升模型对目标分割的准确性。

湖北工业大学在其申请的专利文献“一种用于遥感图像语义分割的特征提取方法和分割系统”(专利申请号：202110678322.1，申请公布号：CN 113723411 A)中公开了一种基于多尺度卷积的遥感图像分割方法。该方法的实现步骤为：首先将遥感图像输入卷积模块，以得到初始特征图；然后将初始特征图输入多尺度卷积网络，得到第三特征图和目标特征图；再将第三特征图输入混合定位模型，将目标特征图输入空洞空间金字塔模型，通过混合定位模型得到位置特征图，通过空洞空间金字塔模型(Atrous Spatial PyramidPooling,ASPP)得到语义特征图；最后将位置特征图和语义特征图进行拼接并进行双线性插值放大，得到预测结果图。该方法存在的不足之处是，通过混合定位模型得到的位置特征图只关注当前特征点的位置信息，而忽略了目标特征点的位置信息，使模型更关注于背景分割的准确度，而忽略了分割任务中位置的映射关系，不能有效区分边界信息和内部信息，导致分割边缘处理粗糙。

Lee J-H等人在其发表的论文“Weakly supervised segmentation of smallbuildings with point labels”(Proceedings of the IEEE/CVF InternationalConference on Computer Vision，2021年)中公开了一种针对不同大小的遥感对象的弱监督遥感图像分割方法。该方法的实现步骤为：先对小型物体使用点标记，对大型物体使用完全标记的预处理方法，然后提出了一种用于区分小对象和大对象的损失值的掩码算法，缓解了遥感图像的多尺度问题。该方法存在的不足之处是，对大型物体进行完全标记的预处理方法会大幅降低模型效率。同时，由于采用弱监督方式，复杂场景中的上下文联系减弱，导致对图像的特征提取能力变弱，导致分割精度降低。

发明内容

本发明的目的在于针对上述现有技术存在的缺陷，提出一种基于多尺度融合和SAM的遥感图像语义分割方法SwinDSA-merge，用于解决遥感图像语义分割时任务分割位置映射关系，复杂场景中的上下文联系，以及分割物体轮廓不精确的问题。

实现本发明目的的思路是，本发明构建了一个基于Swin-Transfomer的编码器、非局部操作的双路空间注意力解码器和多尺度特征融合模块的分割网络。本发明构造了多尺度特征融合模块增强场景中的上下文联系，在训练时分步提取图片特征并逐级融合，加强了场景中的上下文联系，增强了模型的特征提取能力。本发明构造了SAM模块增强分割任务中各个像素点的位置映射关系，以SAM-C模块计算任意位置对当前位置的影响，以SAM-D模块计算当前位置对任意位置的影响，再将两个模块的计算结果进行连接，得到各点之间的位置关系，增强各像素点之间的映射关系。用ISPRS WG III/4的Potsdam和Vaihingen数据集作为样本对网络进行训练，得到最终的遥感图像语义分割模型。

实现本发明目的的具体步骤如下：

步骤1，生成训练集：

选取71张遥感图像及其对应的标签图像组成训练集；其中，38张图像的分辨率为6,000×6,000，采样距离为5cm，剩余33张图像由数据集提供的分辨率各不相同，采样距离为9cm；

步骤2，构建SwinDSA-merge分割网络，该分割网络由编码器、多尺度特征融合模块、双路空间注意力解码器、处理模块串联组成；

步骤2.1，SwinDSA-merge网络中的编码器采用现有技术Swin-Transfomer网络；

步骤2.2，构建多尺度特征融合模块，其结构依次为：第一特征输入层、第一卷积层、第二特征输入层、第二卷积层、第一上采样层、第三特征输入层、第三卷积层、第二上采样层；将第一至第三特征输入层的通道数分别设置为192、384、768；将第一至第三卷积层的卷积核大小均设置为1×1，步长均设置为1，卷积核个数均设置为512；将第一、第二上采样层的上采样倍率分别设置为2、4；

将第一、二采样层的结果与第一卷积层的结果用Element-wise Addition方法实现特征融合，将结果作为解码器的输入；

步骤2.3，构建由两个结构相同的SAM-C和SAM-D并联组成的双路空间注意力解码器；所述SAM-C模块结构依次为：第一卷积层、归一化层、激活层、第二卷积层和掩码获取层；将第一、二卷积层的卷积核大小均设置为1×1；归一化层选择批归一化方法；激活层采用交叉熵损失函数实现；掩码获取层通过下式获取掩码信息：

其中，(m,n)表示输入到掩码获取层的图像中任意像素c的位置，(p,q)表示像素x的位置，r为像素距离，α为衰减因子；

SAM-D模块结构除掩码获取层外，结构与SAM-C一致，SAM-D模块的掩码获取层通过下式获取掩码信息：

其中，(r,s)表示输入到SAM-D掩码获取层的图像中任意像素y的位置，(e,f)表示像素d的位置，r为像素距离，β为衰减因子；

步骤2.4，构建由第一特征层、第二特征图、连接层串联组成的处理模块；所述第一特征层的结构依次为：连接层、卷积层、归一化层和激活层；第一特征层的连接层连接方法设置为concatenate，卷积层的卷积核大小设置为1×1，归一化层选择批归一化方法、激活层采用交叉熵损失函数实现；第二特征图为经过特征融合模块的解码器的输入；所述连接层连接方法设置为concatenate；

步骤3，训练SwinDSA-merge网络：

步骤3.1优化器设置为AdamW，学习策略设置为warmup，学习了衰减策略设置为poly，在编码器部分，droppath的大小设置为为0.3，在解码器部分，dropout的大小设置为0.1；

步骤3.2将训练集输入到SwinDSA-merge网络中，利用梯度下降法，迭代更新网络参数，直至损失函数收敛为止，得到训练好的SwinDSA-merge网络；

步骤4，预测遥感图像。

步骤4.1，将待预测的遥感图像标好序号。

步骤4.2，将标好序号的图像依次输入训练好的SwinDSA-merge网络，得到裁剪后遥感图像分割结果。

步骤4.3，将裁剪后遥感图像的分割结果按照序号依次进行拼接，得到最终的分割结果。

与现有技术相比，本发明具有以下优点：

第一，本发明采用以1×1卷积进行图像的上采样(upsample)，并使用Element-wise Addition的方式进行通道融合，克服了现有技术在特征融合时浅层特征与深层特征不能同时加以利用的问题，加强了上下文联系，增强了模型的特征提取能力，使得本发明提高了遥感图像语义分割的准确性。

第二，本发明构建训练网络SwinDSA-merge，用Swin-Transfomer模型结构作为编码器部分的主干网络，克服了现有技术在下采样过程中丢失大量细节的问题，使得本发明的前景特征提取能力得到显著增强，缓解了遥感图像语义分割过程中丢失细节。

第三，本发明采用基于非局部操作的空间注意力机制，突破了感受野的限制，克服了现有技术在位置映射时各像素点关系不紧密的问题，允许任意像素之间产生空间与时空关系，使得本发明得到的遥感图像语义分割图像的边界更精准。

附图说明

图1为本发明的流程图；

图2是本发明的SwinDSA-merge网络的结构示意图；

图3为本发明对Potsdam遥感图像分割的仿真图。

具体实施方式

下面结合附图和实施例，对本发明的做进一步的详细描述。

参照图1，对本发明实施例的实现步骤做进一步的详细描述。

步骤1，生成训练集。

步骤1.1，选取Potsdam和Vaihingen数据集中的71张遥感图像及其对应的标签图像，其中38张图像的分辨率为6,000×6,000，采样距离为5cm，剩余33张图像由数据集提供的分辨率各不相同，采样距离为9cm。

步骤1.2，从71张图像中使用Random随机选取50张及其对应的标签图像组成训练集。

步骤2，构建SwinDSA-merge分割网络。

参照图2，本发明构建的SwinDSA-merge网络分为编码器、特征融合模块、解码器和处理模块四个部分。

步骤2.1，SwinDSA-merge网络中的编码器采用的是现有技术Swin-Transfomer网络。该网络由Patch Partition模块与四个STAGE模块依次串联组成。其中第2、3、4STAGE模块结构相同。第1STAGE模块由Linear Embeding单元与Swin Transformer Block单元串联组成。第2、3、4STAGE的结构依次为：Patch Merging、Swin Transformer Block。

Patch Partition模块将输入的遥感图像分割为四块相等的区域。LinearEmbeding单元将Patch Partition模块分割的四块相等的区域展平。

Patch Partition模块结构依次为：行列选取层、全连接层。行列选取层在上一个STAGE输出的特征向量的行和列上间隔选取两元素拼接在一起形成整个张量，将全连接层的卷积核大小设置为1×1。

Swin Transformer Block单元的结构依次为：第一归一化层、第一注意力层、第二归一化层、第一MLP层、第三归一化层、第二注意力层、第四归一化层、第二MLP层。将第一至第四归一化层采用Layer normalization，将第一、第二注意力层的注意力操作方式分别设置为cyclic shift和reverse cyclic shift；第一、第二MLP层采用GELU激活函数实现、卷积核大小设置为1×1；

步骤2.2，构建多尺度特征融合模块，其结构依次为：第一特征输入层、第一卷积层、第二特征输入层、第二卷积层、第一上采样层、第三特征输入层、第三卷积层、第二上采样层。将第一至第三特征输入层的通道数分别设置为192、384、768；将第一至第三卷积层的卷积核大小均设置为1×1，步长均设置为1，卷积核个数均设置为512；将第一、第二上采样层的上采样倍率分别设置为2、4。

将第一、二采样层的结果与第一卷积层的结果用Element-wise Addition方法实现特征融合，将结果作为解码器的输入。

步骤2.3，构建由两个结构相同的SAM-C和SAM-D并联组成的双路空间注意力解码器。所述SAM-C模块结构依次为：第一卷积层、归一化层、激活层、第二卷积层和掩码获取层。将第一、二卷积层的卷积核大小均设置为1×1；归一化层选择批归一化方法；激活层采用交叉熵损失函数实现。掩码获取层通过下式获取掩码信息：

其中，(m,n)表示输入到掩码获取层的图像中任意像素c的位置，(p,q)表示像素x的位置，r为像素距离，α为衰减因子。

其中，(r,s)表示输入到SAM-D掩码获取层的图像中任意像素y的位置，(e,f)表示像素d的位置，r为像素距离，β为衰减因子。

步骤2.4，构建处理模块。所述处理模块包含第一特征层、第二特征图和连接层。第一特征层结构依次为：连接层、卷积层、归一化层和激活层；第一特征层的连接层连接方法设置为concatenate，卷积层的卷积核大小设置为1×1，归一化层选择批归一化方法、激活层采用交叉熵损失函数实现。

第二特征图为经过特征融合模块的解码器的输入。

处理模块的连接层连接方法设置为concatenate。

步骤2.5，将Swin-Transfomer、多尺度融合模块、双向空间注意力解码器和处理模块依次串联，组成SwinDSA-merge网络。

步骤3，训练SwinDSA-merge网络。

步骤3.1优化器设置为AdamW，学习策略设置为warmup，学习了衰减策略设置为poly，在编码器部分，droppath的大小设置为为0.3，在解码器部分，dropout的大小设置为0.1。

步骤3.2将训练集输入到SwinDSA-merge网络中，训练直至损失函数收敛。

上述损失函数为交叉熵损失函数CE(Cross Entropy Loss)，本发明使用交叉熵损失函数CE判定输出值p与期望输出值q的相近程度。CE的计算过程如下：在处理模块得到了每个类别的得分score，每个类别得分经过Sigmoid函数得到对应的概率输出p(x)，Sigmoid函数的定义如下：

其中x为每个类别的得分，将得到的概率输出p(x)与真实值q(x)的独热码形式进行交叉熵损失函数的计算，交叉熵损失函数CE定义如下式：

CE(p,q)＝-(p(x)log(q(x))+(1-p(x)log(1-q(x)))

其中CE(p,q)为交叉熵，当p和q差异越小时，模型的输出与真实值越相近，在它们相等时取得最小值。

步骤4，预测遥感图像。

步骤4.1，将待预测的遥感图像标好序号。

本发明的效果可以通过以下仿真实验进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel i7-12700，主频为2.10GHz，内存为32G，显卡为GeForce RTX 2080Ti。

本发明的仿真实验的软件平台为：Ubuntu操作系统和python 3.6。

本发明的仿真实验使用的数据来自遥感图像数据集Potsdam和Vaihingen中的71张图像，部分图像大小为6000×6000，该数据集由背景、路面、建筑物、低矮植被、树木、汽车共六类物体组成，包含建筑群、街道、草地、聚落等结构

2.仿真实验内容及结果分析：

本发明的仿真实验是采用本发明的方法和添加了单路空间注意力模块的Swin-Transfromer的消融实验，分别按照下述步骤进行仿真实验。

所述消融实验方法为分别采用只包含单路空间注意力模块、所述消融实验方法为分别采用只包含单路空间注意力模块SwinSA和包含双路空间注意力模块和多尺度特征融合训练SwinDSA-merge网络。

步骤A，随机选取Potsdam和Vaihingen数据集中的71张图像及其对应的标签图像作为样本，组成本实验的整体数据集。

步骤B，随机打乱整体数据集中的样本，从中选取40份样本组成训练集，10份样本组成验证集，21份样本组成测试集。

步骤D，将训练集数据输入到SwinDSA-merge网络中进行训练，总共训练80000个epoch。

步骤E，训练后，在测试集上评估取得最好验证效果的模型的性能。

下面结合图3的仿真图对本发明的效果做进一步的描述。

图3(a)为测试集中的四张遥感图像。图3(b)为测试集中与图3(a)对应的标签图。图3(c)为只采用单路空间注意力模块的方法，对遥感图像进行分割的结果图。

图3(d)为采用双路空间注意力模块和多尺度融合模块的方法，对遥感图像进行分割的结果图。

由图3(c)、3(d)可以看出，本发明的分割结果相比于消融实验方法的分割结果，其前景轮廓的分割更清晰，具有更精确的轮廓。

为了验证本发明的分割效果优于消融实验方法。利用下面公式，计算精度OA指标对分割结果进行评估，将计算结果绘制成表1。

其中，tp表示预测和实际都为正的像素个数，即正确预测的像素量；fn表示预测和实际均为负的像素个数，即未检测到的像素量；N表示像素总数。

表1.仿真实验中本发明方法与消融实验方法的分割结果的定量分析表

表1中的OA的值越大代表分割的结果越精确。结合表1可以看出，本发明的在两个数据集上的精确率OA分别为90.76％、87.75％，均高于消融实验方法，证明本发明所提出的多尺度融合模块和双向空间注意力机制的有效性，能够有效提高遥感图像分割的精确度。

Claims

1.一种基于多尺度融合和SAM的遥感图像语义分割方法，其特征在于，使用一个多尺度特征融合模块对Swin-Transfomer不同层的输出结果进行特征融合，使用双路空间注意力机制对多尺度特征融合模块的结果进行解码，再通过一个处理模块得到最终的分割结果，该方法的步骤包括如下：

步骤1，生成训练集：

步骤3，训练SwinDSA-merge网络：

步骤4，预测遥感图像。

步骤4.1，将待预测的遥感图像标好序号。

2.根据权利要求1所述基于多尺度融合和SAM的遥感图像语义分割方法，其特征在于，步骤2.1中所述的Swin-Transfomer网络由Patch Partition模块与四个STAGE模块依次串联组成，其中，第一STAGE模块由Linear Embeding单元与Swin Transformer Block单元串联组成，第二至第四STAGE模块结构相同，其结构依次为：Patch Merging、SwinTransformer Block；

Patch Partition模块将输入的遥感图像分割为四块相等的区域；Linear Embeding单元将Patch Partition模块分割的四块相等的区域展平；

Patch Partition模块结构依次为：行列选取层、全连接层；行列选取层在上一个STAGE输出的特征向量的行和列上间隔选取两元素拼接在一起形成整个张量，将全连接层的卷积核大小设置为1×1；

Swin Transformer Block单元的结构依次为：第一归一化层、第一注意力层、第二归一化层、第一MLP层、第三归一化层、第二注意力层、第四归一化层、第二MLP层；将第一至第四归一化层采用Layer normalization，将第一、第二注意力层的注意力操作方式分别设置为cyclic shift和reverse cyclic shift；第一、第二MLP层采用GELU激活函数实现、卷积核大小设置为1×1。

3.根据权利要求1所述基于多尺度融合和SAM的遥感图像语义分割方法，其特征在于，步骤3.2中所述损失函数为交叉熵损失函数CE，CE的计算过程如下：在处理模块得到了每个类别的得分score，每个类别得分经过Sigmoid函数得到对应的概率输出p(x)，Sigmoid函数的定义如下：

CE(p,q)＝-(p(x)log(q(x))+(1-p(x)log(1-q(x)))