CN117036936A

CN117036936A - 高分辨率遥感图像土地覆盖分类方法、设备及存储介质

Info

Publication number: CN117036936A
Application number: CN202310896169.9A
Authority: CN
Inventors: 张冬梅; 殷鹏; 李江; 刘剑聪; 何丽华; 於新国; 成亦铭
Original assignee: Hubei Provincial Geographical And National Monitoring Center; Information Center Of Hubei Natural Resources Department; China University of Geosciences
Current assignee: Hubei Provincial Geographical And National Monitoring Center; Information Center Of Hubei Natural Resources Department; China University of Geosciences
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-10

Abstract

本发明公开了一种高分辨率遥感图像土地覆盖分类方法，其目的是为高分辨率遥感图像中的每一个像素分配地物类别。由于传统方法难以充分提取复杂地物的特征，面对复杂场景分类精度不高。高分遥感图像中土地覆盖类型更多地依靠地物的语义信息区分，对特征的评判能力有更高的要求。本发明考虑到注意力机制会对CNN提取的局部特征造成损失，提出CNN耦合Transformer的网络模型对两个分支特征进行融合，CNN分支提取图像局部细节信息，Transformer分支提取全局信息来增强局部图像块的感兴趣区域的特征；为降低特征融合时的特征损失，提出局部全局改进上下文线性注意力特征融合模块完成两个分支的特征融合，极大提升分割效果，实现了遥感图像的高精度土地覆盖分类。

Description

高分辨率遥感图像土地覆盖分类方法、设备及存储介质

技术领域

本发明涉及遥感技术领域，特别涉及一高分辨率遥感图像土地覆盖分类方法、设备及存储介质。

背景技术

土地覆盖分类旨在为遥感图像中各像素分配一个土地类型，传统方法提取图像的低级视觉特征，分类性能有限。而深度卷积神经网络具有较强的特征表达能力，能端到端自动提取更具有辨识度的高层特征。但是深度卷积神经网络缺乏对全局信息的提取能力，自注意力机制能够提取特征的长程依赖关系，对提高分类精度有很大帮助。

传统图像语义分割算法主要基于图像处理技术，包括基于阈值的图像分割算法、基于边缘检测的图像分割算法、基于区域的图像分割方法、基于形变模型的分割方法、基于超像素的分割方法、基于图论的图像分割方法和基于机器学习的分割方法等。这类方法结构简单，提取的多为图像低级视觉特征，得到的特征信息有限，难以获取高级语义特征。

近年来，深度学习特别是深度卷积神经网络(Deep Convolutional NeuralNetwork，DCNN)已成为计算机视觉领域的主流研究方向，并在图像分类、目标检测、语义分割等相关任务中取得了显著成果。相比传统机器学习方法，深度卷积神经网络端到端自动提取高层特征，具有更强的特征表达能力和更好的性能。Long等提出的FCN(FullyConvolutional Network)是像素级分类图像语义分割任务中具有里程碑意义的工作，通过图像像素级分类，解决语义级别的图像分割问题。Ronneberger等提出的U-Net是一种编解码结构的语义分割网络，采用对称的U型结构，并通过跳跃连接融合编码器的特征与对应解码器的特征，但是由于U-Net采用对称结构，网络中存在大量的低层特征和高层特征合并的区域，使得网络在处理大尺寸输入时存在内存占用严重和计算开销大等问题。DeepLabv1框架把空洞卷积引入深度卷积神经网络，增大感受野的同时不改变网络参数量，采用全连接条件随机场作为后处理精细化图像目标边界。DeepLabv1，DeepLabv2框架进一步提出空洞金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)提取图像的多尺度特征，ASPP使用具有不同采样率的多个并行空洞卷积层，对各采样率提取特征采用单独分支进行处理。DeepLabv3将卷积核和全局池化层引入ASPP以提取更丰富的特征，采用批归一化等技术提升网络训练收敛速度。针对Deeplabv3对边界预测不理想的问题，DeepLabv3+在DeepLabv3的基础上采用编解码器结构，将编码器输出的低层特征与ASPP输出的高层特征进行融合。上述模型针对常规图像语义分割有较好效果，但是高分辨率遥感图像分辨率高、细节丰富、背景复杂，固定的感受野限制了信息捕获范围，导致实际场景分类性能有限。

因此，注意力机制(Attention Mechanisms)被引入到计算机视觉系统中，用于高效挖掘图像中复杂场景的重要区域，能够解决固定的感受野限制了信息捕获范围的问题。2017年Google机器翻译团队提出的Transformer使用注意力机制在机器翻译取得了很好的效果。注意力机制在捕捉多尺度上下文信息、加强图像中各像素关联度等方面性能更优，在语义分割网络中引入自注意力机制能有效提升模型局部特征提取能力，成为研究热点。Transformer最初用于自然语言处理，通过自注意方法提取内在特征。Vision Transformer(VIT)是第一个将Transformer应用于图像识别的自注意力模型，但模型训练需要大量数据集，在中小数据集效果不佳。Semantic SEgmentation Transformer(SETR)将Transformer编码器与一些简单的解码器相结合，创建复杂的分割模型，但是SETR使用的解码器简单，可能导致模型表现不佳。Wang等人提出非局部模块，将点积注意机制应用于计算机视觉领域。此外其他轻量级注意机制如Convolutional BlockAttention Module(CBAM)，通过分别构建空间注意模块和通道注意模块两个子模块，从空间和通道两方面提取并整合信息。

综上所述，基于深度卷积神经网络的语义分割模型已成为遥感图像语义分割研究的主要方法，但该类方法在高分辨率遥感图像上存在分类精度不足、细节丢失等问题。通过在语义分割网络中引入自注意力机制可有效捕捉空间上下文信息，增强图像中像素间的关联度，提升模型特征提取能力，以有效解决FCN网络中编解码结构造成的特征细节丢失问题，提升模型分类精度，然而，传统自注意力的存在的计算效率低的缺陷是本领域亟待解决的技术问题。

发明内容

本发明要解决的主要技术问题是：FCN网络中编解码结构造成的特征细节丢失，以及传统用于解决特征丢失的自注意力方法计算效率低的问题。

为了实现上述目的，本发明采取的技术方案是：提出了一种高分辨率遥感图像土地覆盖分类方法、设备及存储介质。

根据本发明的第一方面，一种高分辨率遥感图像土地覆盖分类方法，包括以下步骤：

S1：搭建基于双端路径上下文线性注意力融合网络，包括：遥感高分辨率数据多尺度切割及编码模块、基于双端路径的CNN耦合Transformer语义分割模块和局部全局改进上下文线性注意力特征融合模块；局部全局改进上下文线性注意力特征融合模块嵌入设置在基于双端路径的CNN耦合Transformer语义分割模块；基于双端路径的CNN耦合Transformer语义分割模块包括：Transfomer分支和CNN分支；

S2：获取高分辨率遥感图像，并作为基于双端路径上下文线性注意力融合网络的输入；

S3：通过遥感高分辨率数据多尺度切割及编码模块对高分辨率遥感图像进行多尺度切割、数据编码操作，制作数据集，所述数据集中包括：局部图像块x_local和全局图像块x_global；

S4：将x＝[x_local,x_global,],x_i∈R^{B×3×256×256}作为基于双端路径的CNN耦合Transformer语义分割模块的输入样本数据；

S5：局部图像块x_local经过Transformer分支进行特征提取，获取每一个stage的特征向量S_i；

S6：全局图像块x_global经过CNN分支进行特征提取，获取四个stage得到的特征图，然后对CNN分支得到的特征图进行线性变化为特征向量C_i；

S7：S_i与C_i经过局部全局改进上下文线性注意力特征融合模块进行局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Transformer分支的下一个stage，输出每一个阶段特征融合的特征图；

S8：将四阶段的融合特征图输入UperHead解码器，得到最终的预测结果；

S9：计算预测结果与真实值的损失，利用优化器进行反向传播，输出预测模型；

S10：利用预测模型对测试集进行测试，输出高分辨率遥感图像土地覆盖分类预测结果。

进一步地，Transfomer分支采用Swin-Transformer，CNN分支采用ResNet50。

进一步地，步骤S1中，所述通过遥感高分辨率数据多尺度切割及编码模块对高分辨率遥感图像进行多尺度切割、数据编码操作，制作数据集的步骤，包括：

S1.1：获取高分辨率遥感图像数据，对于各遥感图像中心位置，使用多个像素尺寸裁切出不同大小的图像块，包括局部图像块和全局图像块；

S1.2：按照6位十进制对裁切的图像块进行编码，按照000000依次递增，每幅图像块与其标签图像一一对应；

S1.3：将得到的编码数据按照Pascal VOC标准语义分割数据格式制作训练集、测试集和验证集，包括JPEGimages、SegmentationClass和ImageSets；在ImageSets下的Segmentation文件夹中存放了三个文件train.txt、val.txt和test.txt，分别记录了训练集、验证集和测试集中图像的文件名。

进一步地，步骤S1.1具体包括：

每一幅高分辨率遥感图像按照256×256大小进行切割，得到多个局部图像块，然后以每一个局部图像块为中心，通过不同的缩放因子切割全局图像块，全局图像块大小为局部图像块的整数倍。

进一步地，步骤S7中，S_i与C_i经过局部全局改进上下文线性注意力特征融合模块进行局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Swin-Transformer分支的下一个stage，输出每一个阶段特征融合的特征图，具体包括：

S7.1：输入ResNet50分支和Swin-Transformer分支得到的各个阶段的特征图分别为C₁、C₂、C₃、C₄和S₁、S₂、S₃、S₄；

S7.2：将C_i和S_i经过层归一化，输入到局部全局改进上下文线性特征融合模块，计算局部图像块内部的特征相似性矩阵AS和局部图像块和全局图像块的相似性矩阵AC；

S7.3：将AS和AC进行拼接得到融合特征；

S7.4：融合特征经过线性映射后，再次经过多层感知机得到输出的特征。

进一步地，步骤S7.2中，计算局部图像块内部的特征相似性矩阵AS，具体计算公式如下：

式中，j表示图像块的不同像素点，N表示特征图的像素个数，Local_K_j表示局部图像块在j位置像素点的Key值；DeLU为新的注意力核函数，DeLU表达式如下：

式中，a_i∈(1,+∞)；

Local_Q＝S_iM_q；

Local_K＝S_iM_k；

Local_V＝S_iM_v；

式中，Local_Q为局部图像块的Query矩阵，Local_K为局部图像块的Key矩阵，Local_V为局部图像块的Value矩阵；x_i表示第i阶段的输入向量，y_i表示第i阶段的输出向量，S_i表示第i阶段的特征图，M_q表示Query的权重矩阵，M_k表示Key的权重矩阵，M_v表示Value的权重矩阵；D_x表示输入特征图的维度向量，D_k表示Key的维度向量，D_v表示Value的维度向量，D_q表示Query的维度向量。

进一步地，步骤S7.2中，计算局部图像块和全局图像块的相似性矩阵AC，具体计算公式如下：

式中，large_K表示全局图像块的Key矩阵，large_K＝C_iM_k，表示特征图C_i的large_K矩阵，Large_K_j为全局图像块在j位置像素点的Key值。

进一步地，在步骤S1中，还包括：

设置训练批量大小batch size、优化器类型、动量衰减、权重衰减参数和初始学习率。

根据本发明的第二方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的高分辨率遥感图像土地覆盖分类方法的步骤。

根据本发明的第三方面，本发明提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的高分辨率遥感图像土地覆盖分类方法的步骤。

本发明提供的技术方案具有以下有益效果：

1)提出局部全局的双分支特征提取结构，解决了高分辨率遥感土地覆盖分类目标地物尺度差异大、地物特征不全问题；

2)针对常用模型对大目标地物长程依赖特征提取弱的问题，使用注意力机制提取感兴趣区域，并提出新的核函数降低到线性时间复杂度，有效提升土地覆盖分类的语义分割性能。

3)为降低特征融合时的特征损失，提出上下文线性注意力融合结构完成局部全局的双分支特征提取两个分支的特征融合，极大提升分割效果。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种高分辨率遥感图像土地覆盖分类方法的流程示意图；

图2为本发明基于双端路径的CNN耦合Transformer语义分割模块(CTCTNet)的网络结构图

图3为本发明局部全局改进上下文线性特征融合模块的网络结构图；

图4为本发明高分辨率遥感图像的多尺度切割示意图；

图5为本发明实施例中的数据集制作示意图；

图6为本发明实施例中基准模型(标准对比模型)在PotsDAM数据集上的实验效果图；

图7为本发明实施例中基准模型在GID数据集上的实验效果图；

图8为本发明实施例中基准模型在DeepGlobe数据集上的实验效果图。

图9为本发明实施例中提供的一种电子设备的结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本发明提供了一种高分辨率遥感图像土地覆盖分类方法，该方法基于一种基于双端路径上下文线性注意力融合网络实现，具体包括以下步骤：

S1：搭建基于双端路径上下文线性注意力融合网络，包括：遥感高分辨率数据多尺度切割及编码模块、基于双端路径的CNN耦合Transformer语义分割模块(见图2)和局部全局改进上下文线性注意力特征融合模块(见图3)；局部全局改进上下文线性注意力特征融合模块嵌入设置在基于双端路径的CNN耦合Transformer语义分割模块；基于双端路径的CNN耦合Transformer语义分割模块包括：Transfomer分支和CNN分支；

综合来说，本发明提供的一种高分辨率遥感图像土地覆盖分类方法由以下三个模块实现，分别是：遥感高分辨率数据多尺度切割及编码模块、基于双端路径的CNN耦合Transformer语义分割模块(见图2)和局部全局改进上下文线性注意力特征融合模块(见图3)；通过遥感高分辨率数据多尺度切割及编码模块对遥感图像数据进行多尺度切割得到训练样本，通过基于双端路径的CNN耦合Transformer语义分割模块(CNN and TransformerCoupled Two path Network，CTCTNet)对遥感图像块进行特征提取，并且基于局部全局改进上下文线性注意力特征融合模块对CNN分支和Transformer分支的特征图进行特征融合，最后利用UperHead解码器得到预测结果。各功能模块具体描述如下：

(1)遥感高分辨率数据多尺度切割及编码模块

1)读取高分辨率遥感图像数据，构建数据集，考虑到高分遥感图像地物目标尺度多变问题，采取多尺度切割方案构建训练样本集，即对于各中心位置，使用多个像素尺寸裁切出不同大小的图像。

2)数据集编码，按照6位十进制对裁切的图像进行编码，按照000000依次递增，每幅图像块与其标签图像一一对应。

3)数据集制作，将得到的编码数据按照Pascal VOC标准语义分割数据格式制作训练、测试和验证数据集，包括JPEGimages、SegmentationClass和ImageSets。在ImageSets下的Segmentation文件夹中存放了三个文件train.txt、val.txt和test.txt，分别记录了训练、验证和测试集中图像的文件名。

(2)基于局部全局改进上下文线性注意力特征融合模块

CNN提取全局图像的局部细节信息，transformer提取局部图像块的上下文信息，若使用拼接的方式对两个分支的特征进行融合，则无法利用全局图像的局部细节信息来丰富局部图像特征。基于局部全局改进上下文线性注意力特征融合模块可以保留全局图像的局部细节信息，通过计算全局图像块与局部图像块的相似性矩阵，提升模型的表达能力和语义理解能力。

1)输入CNN分支和Transformer分支得到的各个阶段的特征图分别为C₁、C₂、C₃、C₄和S₁、S₂、S₃、S₄。

2)将C_i和S_i经过层归一化，输入到基于局部全局改进上下文线性注意力特征融合模块；

3)计算S_i特征图的Local_Q、Local_K、Local_V矩阵，计算公式如下:

Local_Q＝S_iM_q (1)

Local_K＝S_iM_k (2)

Local_V＝S_iM_v (3)

其中和/>

4)计算C_i特征图的large_K矩阵，计算公式如下：

large_K＝C_iM_k (4)

5)计算S_i的内部任意两个像素点之间的特征相关性，计算公式如下：

公式(5)线性注意机制的时空复杂度为O(N)，因为在计算和DeLU(K_j)时只需要计算一次，可以在查询向量Q中重用。公式(5)中的DeLU为提出的新的注意力核函数，可以将其复杂度降低，DeLU表达式如下：

式中，a_i∈(1,+∞)。这里没有选择ReLU函数，因为当x为负时，其梯度为0，而当x为0时梯度不存在。这将导致模型网络参数在训练过程中会剧烈波动。DeLU函数解决了ReLU的问题，它在0处可微，函数曲线接近ReLU。

计算C_i和S_i任意两个像素点之间的特征相关性，计算公式如下：

6)计算得到局部图像块内部的特征相似性矩阵AS和局部图像块和全局图像块的相似性矩阵AC进行拼接得到融合特征；

7)融合特征经过线性映射后，再次经过多层感知机得到输出的特征；

(3)基于双端路径的CNN耦合Transformer语义分割模块

高分辨率遥感图像是指具有较高像素密度和分辨率的图像。它与低分辨率图像相比，具有更细腻的纹理、颜色、形状和空间模式信息，为土地覆盖分类提供数据支持。常用的深度卷积神经网络语义分割模型在应用于高分辨率遥感图像缺乏多尺度特征。因此提出基于双端路径的CNN耦合Transformer语义分割模块(CNN and Transformer Coupled Twopath Network，CTCTNet)，其中CNN分支是辅助分支，这里采用ResNet50分支，用于提取大图像块的细节信息，提供给Transformer分支使用，这里的Transformer分支采用Swin-Transformer分支；Swin-Transformer分支用于处理局部图像块全局信息，增强局部图像块的重要区域的特征。特征提取流程如下：

1)设置训练批量大小batch size、优化器类型、动量衰减、权重衰减参数和初始学习率。

2)输入高分辨率遥感图像数据，输入样本数据为x＝[x_local,x_global],x_i∈R^B ^{×3×256×256}。

3)局部图像块x_local经过CTCTNet的Swin-Transformer分支进行特征提取，获取每一个stage的特征向量S_i。

4)全局图像块x_global经过CTCTNet的ResNet50分支，同样获取四个stage得到的特征图，然后对ResNet得到的特征图进行线性变化为特征向量C_i。

5)S_i与C_i经过上下文线性注意力特征融合模块局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Swin-Transformer分支的下一个stage。

6)输出每一个阶段特征融合的特征图，用于解码器使用。

7)将四阶段的融合特征图输入UperHead解码器，进行预测得到最终的预测图。

8)计算预测结果与真实值的损失，利用优化器进行反向传播。

基于以上三个模块的设计及功能，一种高分辨率遥感图像土地覆盖分类的方法算法流程如下：

下面结合具体实施例对本发明的技术方案进行说明和验证：

1、数据集概况：

PotsDAM数据集：数据集拍摄于德国勃兰登堡州波茨坦，包括38景图像块，每景图像块均含有两部分信息，即航摄获取的超高分辨率真正正射图像和相对应的数字表面模型。真正正射图像和数字表面模型的分辨率均为0.05米，所有图像块的尺寸一致为6000×6000像素。真正正射图像具有不同的波段组合，包括红外、红、绿三波段，红、绿、蓝三波段，和红、绿、蓝、红外四波段，光谱分辨率为8比特。数字表面模型是单通道的32比特数据。该数据集主要覆盖城市景观，区域内存在有大型建筑，狭窄的街道和密集的居住结构，被标注为6个最常见的土地覆盖类别，分别是不透水层、建筑、低矮植被、树木、汽车和背景，背景类包括水体和其他物体。

GID数据集：该数据集包含10景由高分二号采集的高分辨率图像。空间分辨率为4米，具有近红外、红、绿、蓝四个波段，每景图像覆盖506平方公立的地面区域。图像尺寸分别为6800×7200像素。图像被标注为15种不同地类，分别为工业区、城镇住宅、农村住宅、交通用地、水田、水浇地、旱耕地、园地、乔木林、灌木林、天然草地、人工草地、河流、湖泊和池塘。

DeepGlobe数据集：DeepGlobe Land Cover Classification Challenge是CVPR2018挑战赛的公共数据集，提供高分辨率亚米卫星图像，重点是农村地区。由于土地覆盖类型的多样性和注释的高密度，该数据集很具挑战性。该数据集共包含803幅卫星图像，大小为2448×2448像素，数据集包括7类地物类型分别为城市，农业，牧场，森林，水，贫瘠地，未知区域。

2、软硬件环境：

实验软硬件配置如表1所示，操作系统为Linux(64bit)；GPU为NVIDIATesla V100GPU；内存为16G，硬盘为50T；深度学习平台是Pytorch；编程语言为Python3.6。

表1实验环境

3、实验数据：

为验证本发明提出的CTCTNet的有效性，选择PotsDAM数据集、GID和DeepGlobe数据集进行实验。

(1)数据集构建

开源高分辨率遥感数据集包含若干高分遥感图像和对应、标签图像，由于高分辨率遥感图像的空间分辨率较大，直接输入模型进行训练需要消耗巨大的内存和显存空间，实际模型训练一般采用切割图像构建训练数据样本集。考虑到高分遥感图像地物目标尺度多变问题，采取多尺度切割方案构建训练样本集，即对于各中心位置，使用多个像素尺寸裁切出不同大小的图像。考虑到显存大小限制，实验按照256像素点的倍数获取多尺度上下文图像块，主要包括256、512、768、1024等尺寸，并且最终将不同大小图像块重塑为256大小。多尺度切割的示意图如图4所示。

(2)数据集制作

将切割得到的多尺度样本按照Pascal VOC格式制作训练集，按照8：1：1的比例划分训练、测试、验证集，训练MSCSANet(Multi-Scale Context Self-Attention Network，多尺度上下文自注意力网络)语义分割网络实现高分遥感图像土地覆盖分类。

经图像切割后得到一系列不同尺度的样本图像和对应的标签图像，为方便网络训练，数据按照Pascal VOC标准语义分割数据格式并制作训练、测试和验证数据集，如图5所示。

Pascal VOC格式是一种语义分割标准数据集格式，这种格式的数据集下包含三个主要目录：

JPEGimages：存放所有的原始图像。

SegmentationClass：存放与原始图像对应的标签图像，对应文件名相同。

ImageSets：存放数据集的统计信息，包含四个子文件夹Action、Layout、Main和Segmentation。在Segmentation文件夹中存放三个文件train.txt、val.txt和test.txt，分别记录训练、验证和测试集中图像的文件名。

4、参数调优：

为全面评价CTCTNet的性能，采用U-Net、deeplabV3+、RefineNet、PSPNet、ACFNet、SegNet、DANet和OCRNet等对比模型进行比较，所有模型都在PyTorch框架下进行。模型采用ResNet50作为骨干网络，并用ImageNet数据集上预训练的模型权重进行初始化。所有实验均在天河一号平台上使用NVIDIATeslaV100GPU完成模型训练和预测，GPU显存大小为16GB，总的批量大小batch size设置为16，采用Adan优化器来训练，动量衰减和权重衰减参数分别设为0.99和0.0005，初始学习率设置为0.00006，采用多学习率策略调整学习率，以降低迭代学习率。

Initial_lr是初始学习率，iter是当前迭代数，max_iter是最大迭代数，power是动量衰减指数(是可设置的常数)；

在PotsDAM、GID和DeepGlobe三个数据集上完成各模型的比较实验，设计消融进行实验验证。

5、实例分析：

(1)PotsDAM数据集的实验结果

由于使用了Swin Transformer，因此新增基于Swin Transformer的对比模型实验，且在Swin Transfomer使用UperNet作为解码器，得到SwinUperNet模型。

表2PotsDAM数据集的实验结果

实验结果如表2和图6所示，本发明提出的CTCTNet在PotsDAM数据集上mIoU超过了对比模型，mIoU达到78.35％，与MSCSANet对比，CTCTNet在mIoU上略低，这是由于PotsDAM数据集相比GID或者DeepGlobe数据特征较为简单，卫星拍摄的图像分辨率为0.05m级别，相同大小的局部图像块中包含更加丰富的地物细节信息，而CNN对细节信息的提取能力比Transformer更加强大，因此与使用Transformer的CTCTNet相比，MSCSANet会更加适用于PotsDAM数据集。

(2)GID数据集实验结果

GID数据集与PotsDAM数据集相比地物种类更多，特征更加复杂，并且使用遥感卫星拍摄的图像分辨率为4m级别，在完成图像切分后，局部图像块中能够包含更加丰富的地物信息，因此GID数据集语义分割任务更具有挑战性。

表3GID数据集的实验结果

从表3的实验结果发现：GID数据集整体的mIoU要比PotsDAM数据集的低一些，与分析的GID数据集特征一致。表中CTCTNet的实验效果为所有模型中的最优结果，并且相对于MSCSANet提升了4.92％，提升效果明显。说明针对GID这种复杂的数据集，CTCTNet优势明显。MSCSANet利用三个多尺度路径获取多尺度信息，降低了数据处理阶段图像切分导致的特征信息损失，但MSCSANet没有利用到ResNet50四个stage的信息，并且在利用多尺度上下文线性自注意力机制提取三个ResNet50网络得到的多尺度信息时，会导致ResNet50提取到的局部信息损失。而CTCTNet有效解决这两个问题，首先CTCTNet将ResNet50分为4个stage，每一个stage与Swin Transformer一一对应，低级特征之间相互结合、高级特征之间也相互结合，在特征融合时利用CLAFM模块完成CNN分支与Transformer分支的特征融合，减少融合时的特征丢失。因此CTCTNet与MSCSANet相比，实现精度的提升。

图7为在GID数据集上的实验结果，可以看出，CTCTNet对应的各图像效果均较稳定，整体结果与真实标签更为接近。

(3)DeepGlobe数据集实验结果

DeepGlobe数据集包含七种地物类型，图像分辨率介于GID与PotsDAM之间，但是图像尺寸大小相对较小，而数据集包含803幅图像。与GID和PotsDAM相比，数据量多很多。因此DeepGlobe也是十分具有挑战性的数据集。

表4DeepGlobe数据集各模型实验结果

各模型在DeepGlobe数据集上的实验结果如表4所示，U-Net和SegNet的实验结果较差，mIoU分别为71.43％和70.68％。主要原因是原始的U-Net网络过于简单，无法提取深度特征，而SegNet没有考虑图像的空间上下文。虽然Deeplabv3+网络利用ASPP结合了多尺度信息，mIoU实现了73.28％。由于引入双注意模块，DANet提高了各种地面对象的分割精度。与其他经典网络相比，DANet的各种评价指标都是最好的，其mIoU达到73.5％，比Deeplabv3的73.28％高出0.22％。PSPNet引入金字塔池化模块，并增加一个辅助损失函数，其mIoU达到了72.68％。RefineNet、ACFNet和OCRNet的实验结果相对接近，mIoU分别为72.22％、72.36％和72.42％。RefineNet采用残差卷积模块、多分辨率融合模块和链式残差池化模块，有助于实现HRRSI的语义分割。ACFNet利用同一类中像素之间的关系来实现类级上下文，与高分图像相一致。OCRNet通过对象区域表示增强其像素表示，也取得良好的效果。

图8为从DeepGlobe数据集上的预测结果选择的5张图的可视化结果，从第四幅场景图发现针对这种较为简单的地物类别，对比模型也能取得较好的识别效果。而对于复杂的地物场景，CTCTNet效果比对比模型会好很多，能取得很好的效果，DeepGlobe数据集上各地物分类精度对比如表5所示。

表5DeepGlobe数据集各地物分类精度

(4)消融实验

本发明还通过设置不同参数和网络结构进一步对模型改进点进行效果分析，

包括CNN与Transformer结合方案，添加了上下文线性注意力融合模块。根据模块划分共包含Swin、ResNet50、CLAFM以及UperNet四个模块，其中UperNet为解码器，因此消融实验均会采用此模块。

首先完成原始Swin在三个数据集上的实验，第二个实验是仅仅利用CNN分支的ResNet50完成语义分割、第三个为CNN与Transformer结合的网络、第四个为CTCTNet网络(利用CLAFM对CNN每一个stage和Transformer每一个stage的特征信息进行融合)，最终的实验结果如表6所示。

表6不同模块之间组合的效果

从表6中可以发现使用基于ResNet50作为编码器的网络结构效果较差，因此ResNet50难以提取输入图像的多尺度信息，而利用Swin Transformer的效果相对较好，因为Swin Transformer使用窗口注意力机制提取感兴趣区域，并且利用偏移窗口注意力机制来完成不同区域之间的信息交互，提高了特征捕获能力，相较于ResNet50效果更好。而基于CNN分支以及Transformer分支的网络可以结合CNN对局部特征的强大提取能力以及Transformer对全局特征的提取能力，此外利用全局图像块对局部图像块进行特征补充，在三个数据集上mIoU分别实现了71.66％、76.69％以及80.98％。但是这种方式在特征融合时将CNN分支和Transformer分支得到的特征信息直接进行拼接，损害了CNN以及Transformer的特征。

因此使用本发明提出的CLAFM对CNN分支以及Transformer分支每一个stage的特征信息进行融合，表6中CTCTNet得到的实验效果与不使用CLAFM的CNN与Transformer结合的网络在GID数据集上准确率提高了0.22％、在PotsDAM数据集上准确率提高了1.15％、在DeepGlobe数据集上准确率提升了0.49％。

参考图9，本发明实施例还提供了一种电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610、通信接口620、存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述高分辨率遥感图像土地覆盖分类方法的步骤，包括：S1：搭建基于双端路径上下文线性注意力融合网络，包括：遥感高分辨率数据多尺度切割及编码模块、基于双端路径的CNN耦合Transformer语义分割模块和局部全局改进上下文线性注意力特征融合模块；局部全局改进上下文线性注意力特征融合模块嵌入设置在基于双端路径的CNN耦合Transformer语义分割模块；基于双端路径的CNN耦合Transformer语义分割模块包括：Transfomer分支和CNN分支；S2：获取高分辨率遥感图像，并作为基于双端路径上下文线性注意力融合网络的输入；S3：通过遥感高分辨率数据多尺度切割及编码模块对高分辨率遥感图像进行多尺度切割、数据编码操作，制作数据集，所述数据集中包括：局部图像块x_local和全局图像块x_global；S4：将x＝[x_local,x_global,],x_i∈R^{B×3×256×256}作为基于双端路径的CNN耦合Transformer语义分割模块的输入样本数据；S5：局部图像块x_local经过Transformer分支进行特征提取，获取每一个stage的特征向量S_i；S6：全局图像块x_global经过CNN分支进行特征提取，获取四个stage得到的特征图，然后对CNN分支得到的特征图进行线性变化为特征向量C_i；S7：S_i与C_i经过局部全局改进上下文线性注意力特征融合模块进行局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Transformer分支的下一个stage，输出每一个阶段特征融合的特征图；S8：将四阶段的融合特征图输入UperHead解码器，得到最终的预测结果；S9：计算预测结果与真实值的损失，利用优化器进行反向传播，输出预测模型；S10：利用预测模型对测试集进行测试，输出高分辨率遥感图像土地覆盖分类预测结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random 15 Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述高分辨率遥感图像土地覆盖分类方法的步骤，包括：S1：搭建基于双端路径上下文线性注意力融合网络，包括：遥感高分辨率数据多尺度切割及编码模块、基于双端路径的CNN耦合Transformer语义分割模块和局部全局改进上下文线性注意力特征融合模块；局部全局改进上下文线性注意力特征融合模块嵌入设置在基于双端路径的CNN耦合Transformer语义分割模块；基于双端路径的CNN耦合Transformer语义分割模块包括：Transfomer分支和CNN分支；S2：获取高分辨率遥感图像，并作为基于双端路径上下文线性注意力融合网络的输入；S3：通过遥感高分辨率数据多尺度切割及编码模块对高分辨率遥感图像进行多尺度切割、数据编码操作，制作数据集，所述数据集中包括：局部图像块x_local和全局图像块x_global；S4：将x＝[x_local,x_global,],x_i∈R^{B×3×256×256}作为基于双端路径的CNN耦合Transformer语义分割模块的输入样本数据；S5：局部图像块x_local经过Transformer分支进行特征提取，获取每一个stage的特征向量S_i；S6：全局图像块x_global经过CNN分支进行特征提取，获取四个stage得到的特征图，然后对CNN分支得到的特征图进行线性变化为特征向量C_i；S7：S_i与C_i经过局部全局改进上下文线性注意力特征融合模块进行局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Transformer分支的下一个stage，输出每一个阶段特征融合的特征图；S8：将四阶段的融合特征图输入UperHead解码器，得到最终的预测结果；S9：计算预测结果与真实值的损失，利用优化器进行反向传播，输出预测模型；S10：利用预测模型对测试集进行测试，输出高分辨率遥感图像土地覆盖分类预测结果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种高分辨率遥感图像土地覆盖分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的高分辨率遥感图像土地分类方法，其特征在于，Transfomer分支采用Swin-Transformer，CNN分支采用ResNet50。

3.根据权利要求1所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，步骤S1中，所述通过遥感高分辨率数据多尺度切割及编码模块对高分辨率遥感图像进行多尺度切割、数据编码操作，制作数据集的步骤，包括：

S1.3：将得到的编码数据按照PascalVOC标准语义分割数据格式制作训练集、测试集和验证集，包括JPEGimages、SegmentationClass和ImageSets；在ImageSets下的Segmentation文件夹中存放了三个文件train.txt、val.txt和test.txt，分别记录了训练集、验证集和测试集中图像的文件名。

4.根据权利要求3所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，步骤S1.1具体包括：

5.根据权利要求2所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，步骤S7中，S_i与C_i经过局部全局改进上下文线性注意力特征融合模块进行局部图像块特征和全局图像块特征的融合，在每一个stage融合特征后将得到的结果继续输入到Swin-Transformer分支的下一个stage，输出每一个阶段特征融合的特征图，具体包括：

S7.1：输入ResNet50分支和Swin-Transformer分支得到的各个阶段的特征图分别为C₁、C₂、C₃、S₄和S₁、S₂、S₃、S₄；

S7.3：将AS和AC进行拼接得到融合特征；

6.根据权利要求5所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，步骤S7.2中，计算局部图像块内部的特征相似性矩阵AS，具体计算公式如下：

式中，a_i∈(1,+∞)；

Local_Q＝S_iM_q；

Local_K＝S_iM_k；

Local_V＝S_iM_v；

7.根据权利要求6所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，步骤S7.2中，计算局部图像块和全局图像块的相似性矩阵AC，具体计算公式如下：

8.根据权利要求1所述的高分辨率遥感图像土地覆盖分类方法，其特征在于，在步骤S1中，还包括：

设置训练批量大小batchsize、优化器类型、动量衰减、权重衰减参数和初始学习率。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的高分辨率遥感图像土地覆盖分类方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的高分辨率遥感图像土地覆盖分类方法的步骤。