CN115797931A

CN115797931A - 一种基于双分支特征融合的遥感图像语义分割方法

Info

Publication number: CN115797931A
Application number: CN202310100524.7A
Authority: CN
Inventors: 孙启玉; 刘玉峰; 孙平
Original assignee: Shandong Fengshi Information Technology Co ltd
Current assignee: Shandong Fengshi Information Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-03-14
Anticipated expiration: 2043-02-13
Also published as: CN115797931B

Abstract

本发明涉及一种基于双分支特征融合的遥感图像语义分割方法，属于遥感图像处理技术领域。方法主要是将预处理后的图像输入双分支特征融合的语义分割模型，模型包括编码器、解码器、中间的深度可分离卷积金字塔模块，编码阶段为CSwin Transformer和CNN网络两条分支分别从全局和局部方面提取多尺度的信息，两条分支输出的相同尺寸的特征图通过自适应特征融合模块有选择性的融合，并采用自适应特征融合模块作为对称编码器与解码器之间的跳跃连接。本发明充分利用了CNN和Transformer分别在提取局部信息和全局信息的优势，使得模型能够适应遥感图像中的多种场景，有效地解决高分辨率河湖遥感的语义分割问题。

Description

一种基于双分支特征融合的遥感图像语义分割方法

技术领域

本发明涉及一种遥感图像语义分割方法，特别涉及一种基于双分支特征融合的遥感图像语义分割方法，属于高分辨率遥感图像处理技术领域。

背景技术

目前河湖区域的管理方面存在未经批准围垦湖泊、非法侵占水域、种植阻碍行洪的林木及高秆作物、违规采砂、乱扔乱堆垃圾等诸多问题。这些违法违规行为给生态坏境以及人民的安全带来了极大的隐患。

航空和卫星技术的快速发展使得高分辨率遥感图像的获取越来越容易，遥感图像处理技术已在生态环境保护、城市规划、环境监测等多个领域发挥出重要的作用。语义分割的核心目标是识别图像中每个像素的类别，该技术作为一种协助河湖环境治理的可行方案受到了广泛的关注。传统的图像分割算法通常依靠物体的颜色、纹理、光谱等手工设计特征来实现分割，虽然这类方法取得了一定的效果，但是用于高分辨率的遥感图像往往存在泛化能力差、分类精度低等诸多缺点，难以解决现实中复杂环境下遥感图像的分割问题。

随着深度学习技术的兴起，遥感图像语义分割技术取得显著进展。卷积神经网络（CNN）因其强大的特征表示和数据拟合能力，基于CNN结构的分割方法已经成为了主流方案。然而，由于CNN在捕捉全局信息方面存在固有的局限性，同时地面物体具有大尺度变化和不规则的形状，高分辨率遥感图像的语义分割任务仍然是一项具有挑战性的任务。为了进一步提高分割精度，常见的解决方案是增加注意力机制来获取长距离依赖关系，但仍然是在局部区域计算，所以获得的全局信息也非常有限。Transformer是一种通过自我注意力机制学习特征的结构，研究证明在对大规模数据集进行预训练的条件下，Transformer在语义分割中取得了比基于CNN结构更好的准确性。尽管Transformer具有强大的特征提取能力，但也需要大量的内存和计算资源。自我关注的计算复杂性随着图像大小的平方倍增加，这使得基于Transformer的结构难以处理高分辨率的图像。

CNN可以很好地获得局部信息，但由于卷积的感受野有限，所以缺乏全局信息。Transformer是完全基于注意力的架构，具有强大的全局关系的表示能力，但在获取局部细节方面比较弱。现有的技术中已有一些方法尝试结合CNN和Transformer来进行分割，但大多都是将CNN生成的高层次特征图输入Transformer进一步处理；或者是Transformer作为编码器提取图像特征，CNN作为解码器逐步上采样到原始图像大小。这些方法都没有充分利用二者各自的优势，反而在一定程度上破环了CNN原有的局部信息和Transformer原有的全局信息。此外，CNN输出的是特征图，Transformer处理的是序列信息，如何有效地融合特征图和序列信息还需进一步探究。

发明内容

本发明的目的是克服上述不足而提供一种基于双分支特征融合的遥感图像语义分割方法，为了充分利用CNN和Transformer的优势，以同时捕捉局部特征和全局信息，设计两个分支提取信息并通过自适应特征融合模块（AFFM）来有效融合两个分支的特征，通过一个整合了跳跃连接、深度可分离卷积金字塔模块（DASPP）和通道注意力模块的U型解码器设计用来保留局部细节并逐步恢复特征图的分辨率，从而提高高分辨率河湖遥感图像语义分割的精度。

本发明采取的技术方案为：

一种基于双分支特征融合的遥感图像语义分割方法，包括步骤：

S1. 获取河湖遥感图像原始数据集，对图像进行预处理，划分训练集和测试集：

S2. 将预处理后的图像输入双分支特征融合的语义分割模型；所述的双分支特征融合的语义分割模型包括编码器、解码器，编码阶段为CSwin Transformer和CNN网络两条分支分别从全局和局部方面提取多尺度的信息，两条分支输出的相同尺寸的特征图通过自适应特征融合模块(AFFM)有选择性的融合，并采用自适应特征融合模块作为对称编码器与解码器之间的跳跃连接，两条分支最后阶段提取的特征图在通道上进行拼接后输入深度可分离卷积金字塔模块（DASPP）用于在高层次特征图上整合多尺度的上下文信息，深度可分离卷积金字塔模块输出的特征图输入通道注意力模块来自适应学习特征图的权重，将学习到的权重向量和通道注意力模块的输入特征进行元素乘积，得到加强后的特征图，通道注意力模块输出的加强后的特征和自适应特征融合模块融合后输出的特征在通道上进行拼接并在解码阶段逐步恢复特征图的大小，得到预测结果；

S3. 利用预处理后的训练集对双分支特征融合的语义分割模型进行监督训练；

S4. 利用训练好的语义分割模型，对待分割的遥感影像进行分割，得到最终的结果。

上述基于双分支特征融合的遥感图像语义分割方法中，步骤S1所述的对图像进行预处理包括标注类别转换、数据增强、数据归一化处理。

步骤 S2所述的CSwin Transformer分支采用了十字形窗口自我注意机制，用于计算水平和垂直方向的自我注意。CSwin Transformer分支依次为Convolutional TokenEmbedding（即卷积令牌嵌入层）， CSwin Transformer块，步长为2的卷积，CSwinTransformer块，步长为2的卷积，CSwin Transformer块，步长为2的卷积，CSwinTransformer块。每个CSwin Transformer块由层归一化、交叉形窗口自我注意力和多层感知机组成。在CSwin Transformer块提取全局信息后，使用步长为2的卷积将特征图下采样一半，并将通道数扩大到2倍，四个阶段输出特征的形状分别为

、

、

、

，（本发明C可以是64）。

步骤 S2所述的CNN网络分支使用的是Resnet-34提取多尺度特征，Resnet-34首先通过一个7×7的卷积层，3×3大小、步长为2的最大池化层初步提取细节信息，然后同样是四个阶段提取特征，每个阶段依次包括3、4、6、3个Bottleneck模块，每个Bottleneck模块由多个1×1、3×3、1×1的卷积层组成。四个阶段Resnet-34输出特征图的尺寸分别为

、

、

、

。

步骤 S2所述的深度可分离卷积金字塔模块DASPP包含五个平行分支，分别为一个全局平均池化层；三个3×3大小的深度可分离空洞卷积，扩张率分别为[2, 3, 6]；一个1×1的卷积，最后五个平行分支提取的特征在通道上串联后得到DASPP的多尺度输出特征图。

步骤S2所述的自适应特征融合模块(AFFM) 包括一个1×1的卷积层用于将两分支输出的特征图调整为一致的通道数目，Concat操作层用于合并这两个分支特征，一个3×3的卷积层进一步提取融合后的特征，Split操作层将特征分开，两个并行的3×3卷积和Sigmoid函数将像数值归一化到[0,1]之间，Stack操作层来合并其前面的两路并行特征，Softmax函数获取像素级权重。将权重和对应两分支输出的特征图逐个像素相乘，相加后即可得到最后融合了CNN和Transformer特征的特征图。

步骤S2所述的通道注意力模块将输入的特征图首先通过3×3的卷积进行特征变换，再通过一个全局平均池化层将特征图的大小压缩到1×1，之后通过两个连续的全连接层得到权重向量，2个全连接层的神经元数量分别被设定为C和C/16，最后，将学习到的权重向量和输入特征进行元素乘积，得到加强后的特征图。

步骤S2所述的解码阶段，通道注意力模块输出的加强后的特征和自适应特征融合模块融合后输出的特征在通道上进行拼接，通过3×3的卷积层提取融合特征并减少通道数量，这里每个卷积层都伴随着一个Batchnorm层和一个ReLU层，然后在通过双线性插值将特征图上采样作为下一层的输入，上述过程执行三次，特征最后扩展为

的大小，最后对其应用3×3卷积层和上采样操作，得到最终的预测结果。

步骤S3使用交叉熵损失函数对模型进行监督，总的损失函数是CNN网络分支和CSwin Transformer分支辅助损失的加权和：

，

其中L_ce表示最终预测结果的损失，L_cnn和L_cswin表示将CNN网络分支和CSwinTransformer分支第三阶段输出的特征图的损失，α和β 是两个辅助损失的权重，本实验将其设置为0.5，0.5。

本发明的另一目的是提供一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上所述的基于双分支特征融合的遥感图像语义分割方法中的步骤。

一种基于双分支特征融合的遥感图像语义分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于双分支特征融合的遥感图像语义分割方法。

本发明的有益效果为：

（1）本发明通过CNN和Transformer构建编码器，分别从全局和局部层面提取分层特征；在框架的中间一个深度可分离卷积金字塔模块（DASPP）用于捕获多尺度上下文信息，通道注意力模块用于增加对分割结果更重要的特征图的权重，即提取有效的通道和抑制无用的通道，实现局部和全局的信息进行更好的融合；U型解码器用于保存局部细节并逐步恢复特征图的大小，在编码器和解码器的特征图之间建立三个跳跃连接，以保持局部细节的传输，增强多尺度特征的交流。本发明可充分利用CNN和Transformer分别在提取局部信息和全局信息的优势，使得模型能够适应遥感图像中的多种场景，有效地解决高分辨率河湖遥感的语义分割问题，相比于纯CNN结构和纯Transformer结构的方法，具有更高的准确性和鲁棒性。

（2）本发明在编码器和解码器中间设计了深度可分离卷积金字塔模块（DASPP）来获取多尺度上下文，相比于常规的使用池化操作来构建金字塔模块，该模块通过深度可分离卷积操作，在提取多尺度特征的同时极大的降低了计算量，并保留更多的局部细节。考虑到深度可分离卷积操作可能忽略特征图的通道重要性，本发明还使用了通道注意力模块来对DASPP模块的输出自适应的学习通道权重，多尺度特征图中更重要的通道信息被加强，无用的通道信息被抑制。以上两个模块的组合，使得提取融合了Transformer分支和CNN分支的多尺度特征更为有效，有助于提高遥感图像中广泛存在的多尺度物体的分割精度。

（3）为了顺利地融合CNN和Transformer两种不同结构提取的特征，提出了自适应特征融合模块（AFFM）来有选择地融合它们的优点，同时忽略它们的缺点。自适应特征融合模块来融合Transformer分支和CNN分支不同阶段输出的特征图，旨在充分利用二者的优势相互指导学习，避免了直接融合两种结构提取的具有较大差异的特征图导致空间信息丢失问题，因此可以有效的解决Transformer缺乏局部信息和CNN缺乏全局信息的问题，进一步提高高分辨率遥感图像的分割精度。

（4）为了更好地学习CNN、Transformer和融合分支的特征，本发明使用了三个损失函数来监督优化过程，从而在特征提取阶段可以保留CNN和Transformer各自的优势。

附图说明

图1为本发明方法流程图；

图2为本发明双分支特征融合的语义分割模型网络结构图；

图3为本发明通道注意力模块结构图；

图4为本发明自适应特征融合模块AFFM结构图；

图5为本发明 CSwin Transformer 块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

实施例1

目前能够获取的河湖遥感图像的覆盖氛围很广，同时分辨率也比较大，为了构建方便训练的数据集，将遥感图像裁剪多个为256×256大小无重叠的图片。然后，对裁剪后的图片进行详细的类别标注，通常可以分为河流、建筑、耕地、道路、森林等多个类别。最后将整体数据集进行随机划分，其中80%作为训练集，20%作为测试集。

标注类别的图像通常为彩色图像，首先对训练样本中的标注图像按照颜色和对应的类别进行转换，其中标注图像为RGB三通道的地物类别标注数据，转换后的标签图像为单通道的地物类别标注数据，标签图像的值属于[0， 1， 2，…， K-1]，K为标注类别的总数，标签图像的值表示该像素所属的类别。

为增强模型的数据拟合能力，从而进一步提高最终模型的分割精度，本发明在训练过程中使用了数据增强策略，包括随机水平翻转，随机旋转（角度为[90°, 180°,270°]）, 随机缩放（缩放比例在[0.5，0.75，1.0，1.25，1.5，1.75，2.0]），随机裁剪（裁剪大小为256×256，不足256×256大小的图片以0填充）。最后，计算数据集的均值和标准差，对图像进行归一化处理，得到尺寸为256×256×3的图像用于训练。

S2. 将预处理后的图像输入双分支特征融合的语义分割模型：

本发明提出的双分支特征融合的语义分割模型总体上采用编码器-解码器结构，如图2所示由编码器、深度可分离卷积金字塔模块（DASPP）、通道注意力模块、自适应特征融合模块（AFFM）和解码器组成。

（1）编码器

如图2所示，输入的图像通过CSwin Transformer和CNN网络两条分支分别从全局和局部方面提取多尺度的信息。CSwin Transformer分支采用了十字形窗口自我注意机制，用于计算水平和垂直方向的自我注意，相比于全局自我注意的计算，极大的减少了计算量。CSwin Transformer分支依次为Convolutional Token Embedding（即卷积令牌嵌入层），CSwin Transformer块，步长为2的卷积，CSwin Transformer块，步长为2的卷积，CSwinTransformer块，步长为2的卷积，CSwin Transformer块。首先，通过7×7，跨度为4的卷积操作将H×W×C的输入图像分为4×4个大小为

的窗口，用于提取每个窗口的局部特征和位置信息，然后将3通道映射到C（本发明C是64），即Convolutional Token Embedding的操作。CSwin Transformer块（如图5所示）由层归一化（Layer Norm）、交叉形窗口自我注意力(Cross-Shaped Window Self-Attention)和多层感知机(MLP)组成。在CSwin Transformer块提取全局信息后，使用步长为2的卷积将特征图下采样一半，并将通道数扩大到2倍。最后，4个阶段输出特征的形状分别为

、

、

、

。CSwinTransformer的四种结构，即CSwin-Tiny、CSwin-Small、CSwin-Base、CSwin-Large，特征提取能力依次增强。考虑到内存消耗和计算资源，本发明选取了CSwin-Tiny作为Transformer编码器（本发明双分支，Transformer编码器选取的是Swin-Tiny, CNN编码器是Resnet-34；两个编码器分支在4个阶段输出的特征图大小相同）。

CNN网络本发明中使用的是Resnet-34提取多尺度特征。Resnet-34首先通过一个7×7的卷积层，3×3大小，步长为2的最大池化层初步提取细节信息，然后同样是4个阶段提取特征，分别包括3、4、6、3个Bottleneck模块，每个Bottleneck模块由多个1×1、3×3、1×1的卷积层组成。最后，Resnet-34输出特征图的尺寸分别为

、

、

、

，输出的尺寸大小和CSwin-Tiny相同。

（2）深度可分离卷积金字塔模块

CSwin Transformer分支和Resnet-34分支用于提取分层特征图，本发明在编码器和解码器中间插入了一个深度可分离卷积金字塔模块（DASPP），用于在高层次特征图上整合多尺度的上下文信息。使用深度可分离卷积来构建特征金字塔的目的是为了减少计算量，这样模型能够处理更高分辨率的图像。首先，本发明将CSwin Transformer分支和Resnet-34分支最后阶段提取的特征图（特征图的尺寸都是

）在通道上进行拼接后作为DASPP的输入。不同感受野的特征从拼接后的特征图中提取。DASPP包含五个平行分支，分别是一个全局平均池化层；三个3×3大小的深度可分离空洞卷积，扩张率分别为[2, 3, 6]；一个1×1的卷积。最后五个平行分支提取的特征在通道上串联后得到DASPP的多尺度输出特征图。

（3）通道注意力模块

为了加强通道间的联系，对DASPP输出的特征图使用了通道注意力模块来自适应学习特征图的权重，目的是通过激活有效的通道和抑制无用的通道以实现局部和全局的信息进行更好的融合。如图3所示，输入的特征图首先通过了3×3的卷积进行特征变换，通过一个全局平均池化层将特征图的大小压缩到1×1，之后通过两个连续的全连接层得到权重向量，2个全连接层的神经元数量分别被设定为C和C/16。最后，将学习到的权重向量和输入特征进行元素乘积，得到加强后的特征图。

（4）自适应特征融合模块

在编码器中，CNN网络分支提取局部信息，CSwin Transformer分支提取全局信息，为了充分融合二者的特征，本发明提出了自适应特征融合模块(AFFM)来有选择性的融合二者的优点，同时忽略它们的缺点。如图4所示，首先，CNN网络和CSwin Transformer分支输出的特征图经过了一个1×1的卷积层用于调整为一致的通道数目，Concat操作合并这两个特征，并通过一个3×3的卷积层进一步提取融合后的特征，使得CNN网络和CSwinTransformer两分支的特征之间产生交互作用。然后通过Split操作将特征分开，分别进行3×3的卷积和Sigmoid函数，将像数值归一化到[0,1]之间。最后，通过Stack操作来合并上述两个特征，并应用Softmax函数获取像素级权重。这样处理后，CNN网络和CSwinTransformer在同一像素位置上的权重相加为1。将权重和对应CNN网络和CSwinTransformer输出的特征图逐个像素相乘，相加后即可得到最后融合了CNN网络和CSwinTransformer特征的特征图。

（5）解码器

本发明构建了解码器来逐步恢复特征图的大小，相同大小的编码器和解码器之间建立了三个跳跃连接以保持局部细节的传输并加强多尺度特征的交流。如图2所示，通道注意力模块输出的特征和AFFM模块输出的特征在通道上进行拼接，通过3×3的卷积层提取融合特征并减少通道数量。这里每个卷积层都伴随着一个Batchnorm层和一个ReLU层。然后在通过双线性插值将特征图上采样作为下一层的输入。上述过程执行三次，特征最后扩展为

的大小。最后对其应用3×3卷积层和上采样操作，得到最终的预测结果。

S3. 利用预处理后的训练集对双分支特征融合的语义分割模型进行监督训练：

本发明在训练过程中使用了交叉熵损失函数对模型进行监督，总的损失函数是CNN分支和Transformer分支辅助损失的加权和：

，

其中L_ce表示最终预测结果的损失，L_cnn和L_cswin表示将CNN分支和Transformer分支第三阶段输出的特征图的损失，添加辅助损失函数可以监督骨干网络提取特征，从而提高最终的分割精度。

α和β是两个辅助损失的权重，本实验将其设置为0.5，0.5。采用混合损失函数进行训练，可以提高模型的收敛速度和分割的准确性。

S4. 利用训练好的语义分割模型，对待分割的遥感影像进行分割，得到最终的结果：

首先对测试样本集中待分割的遥感图像进行归一化处理作为输入，根据训练后的模型对其进行推理，获得语义分割的预测结果。然后对其执行Softmax函数获取每个像素所属每个类别的概率，选取该像素最大概率的类别预测作为语义分割的结果。根据S1步所述的地物类别和颜色的对应关系对分割的结果进行着色处理，得到最终的语义分割结果图。遍历测试集中所有的待分割图像，重复以上操作即可获取所有图像语义分割的结果。

实施例2

一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上实施例1所述的基于双分支特征融合的遥感图像语义分割方法中的步骤。

一种基于双分支特征融合的遥感图像语义分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上实施例1所述的基于双分支特征融合的遥感图像语义分割方法。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双分支特征融合的遥感图像语义分割方法，其特征是，包括步骤：

S1. 获取河湖遥感图像原始数据集，对图像进行预处理，划分训练集和测试集；

S2. 将预处理后的图像输入双分支特征融合的语义分割模型；所述的双分支特征融合的语义分割模型包括编码器、解码器，编码阶段为CSwin Transformer和CNN网络两条分支分别从全局和局部方面提取多尺度的信息，两条分支输出的相同尺寸的特征图通过自适应特征融合模块有选择性的融合，并采用自适应特征融合模块作为对称编码器与解码器之间的跳跃连接，两条分支最后阶段提取的特征图在通道上进行拼接后输入深度可分离卷积金字塔模块用于在高层次特征图上整合多尺度的上下文信息，深度可分离卷积金字塔模块输出的特征图输入通道注意力模块来自适应学习特征图的权重，将学习到的权重向量和通道注意力模块的输入特征进行元素乘积，得到加强后的特征图，通道注意力模块输出的加强后的特征和自适应特征融合模块融合后输出的特征在通道上进行拼接并在解码阶段逐步恢复特征图的大小，得到预测结果；

2.根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤S1所述的对图像进行预处理包括标注类别转换、数据增强、数据归一化处理。

3.根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤S2中CSwin Transformer分支依次为Convolutional Token Embedding即卷积令牌嵌入层， CSwin Transformer块，步长为2的卷积，CSwin Transformer块，步长为2的卷积，CSwin Transformer块，步长为2的卷积，CSwin Transformer块；每个CSwin Transformer块由层归一化、交叉形窗口自我注意力和多层感知机组成。

4. 根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤 S2所述的CNN网络分支使用的是Resnet-34提取多尺度特征，Resnet-34首先通过一个7×7的卷积层，3×3大小、步长为2的最大池化层初步提取细节信息，然后是四个阶段提取特征，每个阶段依次包括3、4、6、3个Bottleneck模块，每个Bottleneck模块由多个1×1、3×3、1×1的卷积层组成。

5. 根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤 S2所述的深度可分离卷积金字塔模块包含五个平行分支，分别为一个全局平均池化层；三个3×3大小的深度可分离空洞卷积，扩张率分别为[2, 3, 6]；一个1×1的卷积，最后五个平行分支提取的特征在通道上串联后得到深度可分离卷积金字塔模块的多尺度输出特征图。

6. 根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤S2所述的自适应特征融合模块包括一个1×1的卷积层用于将两分支输出的特征图调整为一致的通道数目，Concat操作层用于合并这两分支特征，一个3×3的卷积层进一步提取融合后的特征，Split操作层将特征分开，两个并行的3×3卷积和Sigmoid函数将像数值归一化到[0,1]之间，Stack操作层来合并其前面的两路并行特征， Softmax函数获取像素级权重，将权重和对应两分支输出的特征图逐个像素相乘，相加后即可得到最后融合了CNN和Transformer特征的特征图。

7.根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤S2所述的通道注意力模块将输入的特征图首先通过3×3的卷积进行特征变换，再通过一个全局平均池化层将特征图的大小压缩到1×1，之后通过两个连续的全连接层得到权重向量，2个全连接层的神经元数量分别被设定为C和C/16，最后，将学习到的权重向量和输入特征进行元素乘积，得到加强后的特征图。

8. 根据权利要求1所述的一种基于双分支特征融合的遥感图像语义分割方法，其特征是，步骤S3使用交叉熵损失函数对模型进行监督，总的损失函数是CNN网络分支和CSwinTransformer分支辅助损失的加权和：

，

其中L_ce表示最终预测结果的损失，L_cnn和L_cswin表示将CNN网络分支和CSwinTransformer分支第三阶段输出的特征图的损失，α和 β 是两个辅助损失的权重。

9.一种存储设备，其为计算机可读存储设备，其特征是，所述的计算机可读存储设备上存储有计算机程序用于实现如权利要求1-8任一项所述的基于双分支特征融合的遥感图像语义分割方法中的步骤。

10.一种基于双分支特征融合的遥感图像语义分割设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于双分支特征融合的遥感图像语义分割方法。