CN115035131A

CN115035131A - U型自适应est的无人机遥感图像分割方法及系统

Info

Publication number: CN115035131A
Application number: CN202210434654.XA
Authority: CN
Inventors: 任守纲; 顾兴健; 李思哲; 熊迎军; 舒欣; 郑恒彪; 徐焕良; 赵鑫源
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-09-09

Abstract

一种U型自适应EST的无人机遥感图像分割方法及系统，该系统包括特征提取单元、特征编码器、跳跃连接模块、卷积解码模块和投影模块；所述的特征编码器包括多阶EST和对应的自适应图像块合并层；其中：每阶EST分别包括若干个由第一EST模块和第二EST模块组成的EST单元，每个EST模块均包括归一化层LN、增强多头自注意力模块、残差连接层以及多层感知机MLP。本发明基于CNN和Transformer模块，通过层次结构实现全局自关注，在解码器中，结合卷积和反卷积块实现上采样，上采样恢复编码器的信息，进行相应的像素级分割，能够减少直接在原图上进行图像块导致的边缘和位置信息的丢失。

Description

U型自适应EST的无人机遥感图像分割方法及系统

技术领域

本发明属于图像处理领域，尤其是U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法。

背景技术

得益于深度学习的发展，计算机视觉技术在遥感图像分割中得到了广泛的应用。随着深度学习的发展，CNN在图像分割领域取得了良好的效果，但由于卷积运算的固有局域性，以CNN为主导的网络难以兼顾全局语义信息。

随着近年来Transformer在自然语言处理方面的显著成功，该方法在捕获全局和长距离信息上取得了较为满意的结果，并能够很好地移植到下游任务。但同时的全局特性往往忽略局部特征细节，从而降低了前景与背景的区分度。此外，多头自注意力的非线性增加内存以及计算量，导致了负荷的训练和推理的开销

发明内容

本发明的目的是针对图像分割中前景与背景区分度不高的问题，提出一种U型自适应EST的无人机遥感图像分割方法，提供一种U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法，考虑到CNN和Transformer不同且互补的特性，通过集成混合的CNN-Transformer网络：U型自适应的Enhanced Swin Transformer(Adaptive EnhancedSwin Transformer with U-net，AESwin-UNet)。这种组合方式融合了Transformer的自注意力策略和卷积的优势，并适用于遥感图像分割，能够有效避免图像的一些浅层特征丢失，如角落或边缘等，提高分割的准确性。

本发明的技术方案是：

本发明提供一种U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法，包括以下步骤：

步骤1：对输入图像进行特征提取，获取高维特征的编码序列；

步骤2：将所述编码序列输入特征编码器进行特征提取，生成多尺度分层特征；

步骤3：通过跳跃连接模块将特征编码器所得的多尺度分层特征输入卷积解码模块进行融合，完成特征图的恢复，得到恢复的特征图；

步骤4：基于恢复的特征图进行投影，得到像素级的分割结果。

进一步地，步骤1具体包括：

步骤1-1：通过残差神经网络ResNet50对输入图像进行特征提取，生成输入图像的高维特征图；

步骤1-2：将高维特征图分割为一系列非重叠的图像块；

步骤1-3：将图像块分割结果转化为嵌入序列；

步骤1-4：将嵌入序列通过线性映射层生成一维形式的分层特征表示即编码序列。

进一步地，所述特征编码器包括多阶EST(Enhanced Swin Transformer)和对应的自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)，其中，每阶EST分别包括若干个EST单元；步骤2具体包括：

步骤2-1：将编码序列输入一阶EST进行处理；

步骤2-2：将一阶EST的结果输出至对应阶的跳跃连接模块；同时，采用自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)对一阶EST的结果进行下采样，生成一阶多尺度特征输出至二阶EST；

步骤2-3：二阶EST对一阶EST的输出结果进行处理，并且按照步骤2-2对将二阶EST的结果输出至对应阶的跳跃连接模块；同时，采用自适应图像块合并层对二阶EST的结果进行下采样，生成二阶多尺度特征并输出至三阶EST；

遍历各阶EST，完成编码，生成多尺度分层特征。

进一步地，步骤2中EST单元包括两个连续的第一EST模块和第二EST模块，每个EST模块均包括归一化层LN、增强多头自注意力模块Multi-Head Self-Attention、残差连接层Residual Connection以及多层感知机MLP(基于高斯误差线性单元(Gaussian ErrorLinear Units，GELU)激活函数的2层结构)；其中，第一EST模块和第二EST模块的增强多头自注意力模块分别采用基于窗口的增强多头自注意力模块W-EMHSA和基于移位窗口的增强多头自注意力模块SW-EMHSA；

所述EST单元对输入的编码序列采用下述公式进行处理；

其中：x表示特征变量，l表示EST单元中的EST模块数；x^l-1表示输入编码序列；

表示第l个块的W-EMHSA输出；x^l表示第l个块的MLP的输出；

表示第l个块的SW-EMHSA输出；x^l+1表示第l个块的MLP输出；x^l+1表示输出编码序列。

进一步地，增强多头自注意力模块采用下述公式进行运算：

其中：Q，K，V是对应输入编码序列LN(x^l)、LN(x^l-1)经过三种线性变换映射后，所得查询Query、键Key和值Value；

M²表示窗口中的图像块数，d表示查询Q和键值K的嵌入维度；B表示窗口范围内当前图像块的相对位置，

的R表示感受野，为自然数；

att表示在QK关联度矩阵之后使用的多尺度注意力，采用下述公式计算：

L(X)＝LN(FC₂(δ(FC₁(X))))， (7)

G(X)＝LN(FC₂(δ(FC₁(GAP(X))))， (8)

其中：X_MS-Attention∈R^k×m×m表示具有多尺度注意力的特征，k表示特征的通道数，m表示特征的宽高；W(X)∈R^k×m×m表示多尺度注意力特征的权重系数，L(x)∈R^k×m×m表示局部通道上下文信息，G(X)∈R^k×1×1表示全局特征上下文信息，k表示特征维度；FC₁和FC₂两者均为用于缩小和扩展尺寸的全连接层；GAP表示平均池化，δ表示层归一化和激活函数ReLU的组合形式，σ是Sigmoid函数，LN表示层归一化，

和

分别表示按元素相乘、相加。

进一步地，步骤2-2和2-3中，自适应图像块合并层执行下述步骤：

卷积分支处理，用于从对应阶EST输出的特征图中学习偏移量，输出至主干合并层；

主干合并层计算，用于对应阶EST的特征图下采样，输出至下一阶EST；

所述自适应图像块合并层的计算公式为：

其中：p₀表示输入特征图上的二维采样点，x^l表示经EST计算的输入特征变量，

表示扩维的特征变量，n表示感受野R中图像块位置的编号，w和p_n表示在感受野R中的采样权重值和位置总和，其中，p_offset是从卷积分支中学习的采样点偏移量，G是双线性插值；q表示特征区域

内所有的空间位置。

进一步地，步骤3具体包括：采用跳跃连接模块，将来自特征编码器的多尺度分层特征与卷积解码模块的解码特征融合；通过线性转换，使得编码器提取的特征维度与卷积解码模块的上采样特征维度一致，实现浅层和深层特征的串联。

进一步地，步骤4中，对恢复的特征图进行投影具体为：基于恢复的特征图将每个通道分量特征向量映射到所需数目的类别。

一种U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法所采用的系统，该系统包括特征提取单元、特征编码器、跳跃连接模块、卷积解码模块和投影模块；所述的特征编码器包括多阶EST(Enhanced Swin Transformer)和对应的自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)；

其中：每阶EST分别包括若干个EST单元，所述EST单元包括两个连续的第一EST模块和第二EST模块，每个EST模块均包括归一化层LN、增强多头自注意力模块Multi-HeadSelf-Attention、残差连接层Residual Connection以及多层感知机MLP(基于高斯误差线性单元(Gaussian Error Linear Units，GELU)激活函数的2层结构)；其中，第一EST模块和第二EST模块的的增强多头自注意力模块分别采用采用基于窗口的增强多头自注意力模块W-EMHSA和基于移位窗口的增强多头自注意力模块SW-EMHSA。

进一步地，所述的多层感知机MLP采用基于高斯误差线性单元GELU激活函数的两层结构。

本发明的有益效果：

本发明基于CNN和Transformer模块，提出了一种用于遥感图像分割的U形编解码器模型；编码器由Enhanced Swin Transformer组成，通过层次结构实现全局自关注。在解码器中，结合卷积和反卷积块实现上采样，上采样恢复编码器的信息，进行相应的像素级分割。

本发明通过在输入的高维特征图上进行图像块获取，而非在原始图像来获得，该方法能够减少直接在原图上进行图像块导致的边缘和位置信息的丢失，同时也可以解决后续Transformer编码的复杂度。

本发明提出一种带有增强多头自注意力(Enhanced Multi-Head Self-Attention,EMHSA)的Enhanced Swin Transformer。该增强多头自注意力EMHSA通过加强特征相关性的计算，解决Transformer中由于对全局上下文的捕获造成的明显的冗余和噪声现象，以改进算法。

本发明通过在Enhanced Swin Transformer的每个阶段后加入一个可变形的自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)实现自适应的分层实现策略，并将其应用于Transformer框架，以减少在普通固定规模下不可避免的池化信息污染问题。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了本发明的流程图。

图2示出了本发明的整体模型构架图。

图3示出了本发明中增强多头自注意力EMHSA框架结构图。

图4示出了本发明中多尺度注意力模块框架结构图。

图5示出了本发明中特征编码器框架结构图。

图6示出了本发明中自适应图像块合并层DAPM框架结构图。

图7示出了实施例中六种模型在WHDLD数据集上的分割结果对比示意图。

(a)人工标注、(b)U型卷积模型、(c)金字塔池化模型、(d)深度高分辨率识别模型、(e)简单有效的Transformer分割模型、(f)U型的纯Transformer模型、(g)本发明的模型。

图8示出了实施例中五种解码器的分割结果对比示意图。

(a)人工标注、(b)非对称的自适应池上采样、(c)基于多层感知机MLP的直接上采样、(d)基于图像块扩展的上采样、(e)级联对称上采样(本发明采用的方法)。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。

一种U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法，包括以下步骤：

步骤1：对输入图像进行特征提取，获取高维特征的编码序列，具体为；

步骤1-2：将高维特征图分割为一系列非重叠的图像块；

步骤1-3：将图像块分割结果转化为嵌入序列；

步骤2：将所述编码序列输入特征编码器进行特征提取，生成多尺度分层特征；所述特征编码器包括多阶EST(Enhanced Swin Transformer)和对应的自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)，其中，每阶EST分别包括若干个EST单元；步骤2具体包括：

步骤2-1：将编码序列输入一阶EST进行处理；

遍历各阶EST，完成编码，生成多尺度分层特征，步骤2-2和2-3中，自适应图像块合并层执行下述步骤：

所述自适应图像块合并层的计算公式为：

内所有的空间位置。

步骤3：通过跳跃连接模块将特征编码器所得的多尺度分层特征输入卷积解码模块进行融合，完成特征图的恢复，得到恢复的特征图；具体包括：采用跳跃连接模块，将来自特征编码器的多尺度分层特征与卷积解码模块的解码特征融合；通过线性转换，使得编码器提取的特征维度与卷积解码模块的上采样特征维度一致，实现浅层和深层特征的串联。

步骤4：基于恢复的特征图进行投影，得到像素级的分割结果；对恢复的特征图进行投影具体为：基于恢复的特征图将每个通道分量特征向量映射到所需数目的类别。

在步骤2中，EST单元包括两个连续的第一EST模块和第二EST模块，每个EST模块均包括归一化层LN、增强多头自注意力模块Multi-Head Self-Attention、残差连接层Residual Connection以及多层感知机MLP(基于高斯误差线性单元(Gaussian ErrorLinear Units，GELU)激活函数的2层结构)；其中，第一EST模块和第二EST模块的增强多头自注意力模块分别采用基于窗口的增强多头自注意力模块W-EMHSA和基于移位窗口的增强多头自注意力模块SW-EMHSA；

所述EST单元对输入的编码序列采用下述公式进行处理；

表示第l个块的W-EMHSA输出；x^l表示第l个块的MLP的输出；

表示第l个块的SW-EMHSA输出；x^l+1表示第l个块的MLP输出；x^l+1表示输出编码序列；

增强多头自注意力模块采用下述公式进行运算：

的R表示感受野，为自然数；

L(X)＝LN(FC₂(δ(FC₁(X))))， (7)

G(X)＝LN(FC₂(δ(FC₁(GAP(X))))， (8)

和

分别表示按元素相乘、相加。

一种U型自适应Enhanced Swin Transformer的无人机遥感图像分割方法所采用的系统，该系统包括特征提取单元、特征编码器、跳跃连接模块、卷积解码模块和投影模块；其中，

所述的特征编码器包括多阶EST(Enhanced Swin Transformer)和对应的自适应图像块合并层(Deformable Adaptive Patch Merging，DeforAPM)；

具体实施时：

步骤1：对输入图像进行特征提取，对所得高维特征通过线性映射进行编码；

步骤2：将步骤1所得编码序列作为输入信息，依次经过包括多个Enhanced SwinTransformer块和可变形自适应下采样层在内的4个特征提取阶段，以生成分层特征表示；

步骤3：通过跳跃连接将由Transformer组成的编码器所得的多尺度上下文特征同基于卷积层的解码器恢复特征融合；

步骤4：经过四个级联上采样层后，将特征图分辨率恢复至输入时分辨率尺寸W×H，并对所得上采样的特征图进行投影，得到像素级的分割预测结果。

在具有40GB内存的CPU和Nvidia A100 GPU上训练本发明的模型。算法采用Python3.8和Pytorch1.7深度学习框架实现。

具体模型训练与试验参数为：输入图像大小和图像块大小分别设置为256×256(512×512)和1。

本发明从头开始训练所有模型并进行160k次迭代，初始学习率和线性迭代次数分别设置为0.01和15k次。所有Transformer部分使用0.2比率的随机深度。使用官方提供的基于ImageNet的预训练权重作为初始化模型参数。在训练期间，批大小(batch_size)设置为4，并采用动量为0.9的随机梯度下降(SGD)优化器，并设置权重衰减(weight decay)值2e-5以优化本发明的反向传播模型。

在两种不同类型的无人机遥感影像数据集上进行了实验：

武汉地表探测数据集(WHDLD)：该数据集是无人机在高空2m处拍摄的，包括6个类别，4940张尺寸大小为256×256的图像。这些数据是从武汉市区的大型遥感图像中裁剪出来的。本发明选择平均交并比(mIoU)、平均像素精度(Acc)和平均Dice相似系数(DSC)作为评估指标来评估六个类(建筑、道路、人行道、农田、裸地、荒地)。

用于自适应分割领域的地表覆盖数据集(LoveDA)：该数据集是从3m高空处拍摄的，包含不同的农村和城市地区共7个类别(建筑、道路、荒地、水域、农田、森林，裸地)，9840个无人机远程图像，图像的尺寸为1024×1024。该数据集由于背景样本复杂且多尺度对象较多，因此更具挑战性。依旧选取选平均交并比(mIoU)、平均像素精度(Acc)和平均Dice相似系数(DSC)作为评估指标。

对于这两个无人机远程公共数据集，本发明以7:3的比例将它们分为训练集和测试集。此外，本发明还应用数据增强(例如：随机旋转、翻转和填充)来避免过度拟合。

实验本节将基于WHDLD和LoveDA两个数据集对U型自适应EST模型进行整体评估，主要从评价指标和可视化两个方面来进行分析。为更好地验证模型性能，我们比较了U型自适应EST模型与其他9种分割方法，其中包括基于CNN的方法：U型卷积网络(U-Net)，金字塔池化模型(PSPNet)，空洞可分离卷积编解码器(DeepLabV3+)和深度高分辨率识别网络(HRNet)；基于Transformer的方法：视觉Transformer(ViT)，分割Transformer(SETR)，简单有效的Transformer分割模型(Segformer)，基于Transformer的U型强编解码器(TransUnet)和U型的纯Transformer模型(Swin-Unet)。为了保证比较的公平性，所有预训练模型均采用官方提供的数据。对Transformer模型采用ImageNet预训练模型，对于U-Net采用了VGG11预训练模型，HRNet采用了W32预训练模型，DeepLabV3+和PSPNet均采用ResNet-50预训练模型。

表1各模型在WHDLD数据集上的分割精度比较

单位：％

表2各模型在LoveDA数据集上的分割精度比较.

单位：％

U型自适应EST模型在WHDLD数据集上的比较结果如表1所示。由实验结果可知，U型自适应EST模型的分割效果最好，得到了64.31％的交并比，76.14％的准确率以及76.81％的Dice相似度。其中，U型自适应EST模型在小区域(如道路、人行道)的精度提升高于大区域(如建筑、农田)的提升。准确率和DSC评估指标分别提高了约4.08％和3.4％，交并比提高了约3.84％，这表明我们的网络是有效的。与经典的Vit和SETR相比，我们的方法在精度上有显著提升，而Vit和SETR的准确度整体不如其余的CNN模型，这也证明了将转换器直接移植到中小型数据集上进行语义分割是不合适的。TransUnet同样作为混合Transformer架构，在小类别上能够获得良好的结果，但其代价是降低其他类别的准确性。相比之下，Segformer和Swin-Unet取得了更好的结果，且后者具有更好的模型稳定性。这些改进表明，我们的Transformer有更先进的效果。同样，我们还比较了一些基于多尺度的CNN遥感分割模型，其中PSPNet、DeepLabV3+和HRNet的结果优于U-Net，获得了61.46％的交并比、63.32％的准确度和63.37％的Dice相似度。从以上分析来看，直接将Transformer应用于中小型遥感数据集不如CNN的结果，这是由于Transformer捕获的高级语义特征有利于分类，但缺乏低级线索的精细形状分割。但CNN也存在欠拟合和过拟合的问题，这是由卷积操作的局部性造成的。如U-Net对大的区域类别(如水域、农业)有很好的分割效果，但是在小类别中则有较低的精度(如裸地、道路)的分割精度。在这项工作中，我们证明了通过集成混合的Transformer编码器与具有跳跃连接的U型级联上采样，可以更好地使局部和全局语义信息交互，得到更好的分割结果。

我们还在WHDLD数据集上进行了可视化的定性比较，结果如图7所示。可以看出，该方法具有更准确的分割结果。基于CNN的方法，如U-Net和PSPNet，在不同的区域往往存在过拟合或过拟合的问题(例如，在第一列，水域被U-Net过分割，而被PSPNet过度分割)，这是由卷积操作的局部性造成的。此外，更复杂的多尺度模型可以得到更好的结果，如DeepLabV3+和HRNet。相反，基于变压器的模型在编码全局上下文和区分语义方面更强，出现的假阴性也更少。然而，因为规模限制导致模型无法捕获充足的特征信息，而无法在中小型数据集上获得优异的结果。在这项工作中，我们证明了U型自适应EST模型在多类别上取得了更好的预测结果，特别是针对一些在边界和形状上变化差异大的类别(例如，第二列的道路，第四列道路的建筑)。此外，第二行和第三行的结果显示，我们的方法在小比例的类别中预测了更准确的结果，这意味着U型自适应EST模型可以通过为类别提供足够的上下文信息来纠正类的不平衡。这些结果再次验证了我们的方法的正确性。

类似的，我们在LoveDA数据集上也进行了同样的实验。实验结果见表2。证明在更为复杂和尺寸更大的数据集上，U型自适应EST模型仍然具有良好的性能，模型得到了54.39％的交并比，66.81％的准确率以及69.5％的DSC相似度。尽管ViT和TransUnet的效率稍低，但它们与大多数多尺度的CNN模型分割精度相当。此外，HRNet还取得了与Transformer(Segformer)不相上下的结果。且其他变压器方法在各评价指标上都有了显著的改进。其中，SETR超过了Segformer和Swin-Unet，取得了仅次于我们方法的精度。而Swin-Unet在小类别裸地区域上取得更好的效果，SETR在大类别的农田区域上取得更好的效果，但在其他方面不如我们的方法好。这些实验进一步证明了我们的混合方法的优点，它可以更好地关注类别不平衡问题，也能够很好地处理类间和类内类的变化，同时适应不同的数据集。

为了评估提出的U型自适应EST模型框架并验证不同因素下的性能，本发明还进行了多种消融研究，包括：

1)不同的上采样方法；

2)Enhanced Swin Transformer中的增强多头自注意力(EMHSA)；

3)可变形自适应图像块合并层；

4)输入图像大小、预训练模型尺寸和模型规格。

对应于图像块合并层在编码器中实现尺度变化，本发明在解码器部分设计了相应的上采样和降维功能模块。为探索本发明使用的解码器的有效性，本发明在WHDLD遥感数据集上使用U型对称级联上采样、非对称池化上采样和直接上采样三种方法对网络U型自适应EST模型进行了实验。

为了探究本发明所使用的解码器的有效性，在WHDLD数据集上进行了U型级联上采样、非对称的自适应池上采样(Adaptive Pyramid Context Network，APC)，基于多层感知机MLP的直接上采样，以及Swin-Unet中所提出的对应于图像块合并层的图像块扩展上采样层四种不同的方法进行实验。表3中的实验结果表明，本发明提出的U型自适应EST模型结合U型对称解码器可以获得更好的分割精度，该级联U型上采样结构可以更好地保留编码器损失的信息，并充分利用局部和全局优势，从而获得更好的分割性能。值得一提的是，对于小比例区域目标(如小路)的性能改善是显而易见的。而对于大比例区域目标(如水域、农田)，改进并不明显，甚至有些方法也不如其他方法好。正如我们所看到的，同非对称的上采样方法相比，道路和裸地类别的准确率平均提高了14.1％和6.1％。其中，由于多个不同尺度池化的信息丢失，APC的分割效果不如通过多个多层感知机MLP聚合的直接上采样结构。在图8中，MLP仍然丢失了细节，因为它直接拼接了不同层的特征，忽略了通过跳跃连接和级联上采样来实现的信息恢复。基于图像块扩展层的方法法明显比前两种方法取得了更好的效果。特别是在大比例类别(如水域)的分割方面具有优势，模型也在一定程度上考虑了小比例类别(如裸地)，但其效果仍不如我们的方法。综上所述，本文所提出的方法可以更灵活地处理多种尺度和类别不平衡，从而获得更准确的分割结果。

为了验证本发明在Enhanced Swin Transformer中提出的增强多头注意力EMHSA，实验中将本发明的与原始MHSA进行了比较，结果总结在表4中。观察到，具有多尺度注意力的EMHSA具有较高的分割性能。对于U型自适应EST模型，相较MHSA使用EMHSA使得平均交并比提高了1.21％，平均DSC提高了1.22％。其中，对建筑和道路类别的分割准确度改善更加明显，其次是裸地和小路。这些类别的特点是占比很小，但是差异性也很大。这也证明了我们的模型对于由较大的类别差异和类别不平衡引起的结果误判是有效的，因为带有注意的EMHSA模型可以更好地从全局信息中过滤出我们所需要的信息。

本发明讨论了基于模型性能的自适应图像块合并层(DAPM)的影响。从表5中可以看到。平均交并比和DSC的准确率分别达到了64.7％和77.05％，分别提高了0.69％和0.93％。正如预期的那样，DAPM降低了分辨率，并考虑了不同大小的物体所需要的接受域的差异。对建筑、道路、小路均有明显的提升。其中，建筑分布较为分散，且形态差异较大，常以密集的小四边形出现。另一方面，路面和道路作为数据集中占比最小的，通常以细长弯曲状稀疏分布。以上三类别的提高进一步说明了DAPM具有提高分割效果的能力。它可以避免固定比例下采样导致的一些小尺寸和小类别对象的信息丢失，有助于网络提高分割效果。

表3解码器的消融实验

单位：％

表4Transformer的消融实验

单位：％

表5自适应图像块合并层的消融实验

单位：％

表6输入图像尺寸的消融实验

单位：％

表7预训练模型尺寸的消融实验

单位：％

表8模型规模的消融实验

单位：％

本发明研究了输入图像尺寸和训练模型的图像尺寸对U型自适应EST模型的影响。与Transformer的默认输入分辨率不同，在一个高分辨率的256×256(512×512)上进行训练，平均交并比在WHDLD数据集上的分割性能如表6和7所示。当输入图像尺寸从224×224增加到256×256(512×512)，并且窗口大小保持不变时，很容易看到，我们使用的输入尺寸越大，我们得到的分割性能就越好。这是因为在输入的每个元素之间建立了更复杂的依赖关系。对于预训练的大小，需要选择最佳匹配数据集的大小，以获得更高的分割效果。例如，224×224预训练大小比384×384更适合WHDLD数据集的256×256输入大小。相反，在LoveDA数据集上，384×384比224×224要好，输入大小为512×512。为了保证运行效率和现实性，我们采用256×256和512×512作为输入尺寸，224×224和384×384的预训练尺寸作为WHDLD和LoveDA。

本发明还讨论了U型自适应EST模型对不同模型尺寸的影响，如表8所示，主要包括微型“Tiny”和基本型“Base”两种尺寸。其中，“Tiny”模型stage3中的模块数为6，多头注意力中的head数目为24；而“Base”模型拥有更加复杂的模型结构：stage3中的模块数为18，多头注意力中的多头数目为32。从表4-10中我们得出结论：规模更大的模型性能更好。考虑到模型的计算成本和精度-速度，我们将在参数比较实验中采用“Tiny”模型，而其他模块以及整体模型的比较仍采用“Base”模型，以确保整体网络的分割效果。

本发明采用Swin Transformer提供的预训练权重来解决由于预训练数据不充分导致的模型效果不佳问题。另外，本发明还在预编码和解码部分加入了卷积，以U型结构中的跳跃连接对两者进行充分融合，从而获得理想的优势。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种U型自适应EST的无人机遥感图像分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，步骤1具体包括：

步骤1-2：将高维特征图分割为一系列非重叠的图像块；

步骤1-3：将图像块分割结果转化为嵌入序列；

3.根据权利要求1所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，所述特征编码器包括多阶EST即Enhanced Swin Transformer和对应的自适应图像块合并层DAPM，其中，每阶EST分别包括若干个EST单元；步骤2具体包括：

步骤2-1：将编码序列输入一阶EST进行处理；

步骤2-2：将一阶EST的结果输出至对应阶的跳跃连接模块；同时，采用自适应图像块合并层DAPM对一阶EST的结果进行下采样，生成一阶多尺度特征输出至二阶EST；

遍历各阶EST，完成编码，生成多尺度分层特征。

4.根据权利要求3所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，步骤2中EST单元包括两个连续的第一EST模块和第二EST模块，每个EST模块均包括归一化层LN、增强多头自注意力模块MHSA、残差连接层Residual Connection以及多层感知机MLP；其中，第一EST模块和第二EST模块的增强多头自注意力模块分别采用基于窗口的增强多头自注意力模块W-EMHSA和基于移位窗口的增强多头自注意力模块SW-EMHSA；

所述EST单元对输入的编码序列采用下述公式进行处理；

表示第l个块的W-EMHSA输出；x^l表示第l个块的MLP的输出；

5.根据权利要求4所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，增强多头自注意力模块采用下述公式进行运算：

的R表示感受野，为自然数；

L(X)＝LN(FC₂(δ(FC₁(X))))， (7)

G(X)＝LN(FC₂(δ(FC₁(GAP(X))))， (8)

其中：X_MS-Attention∈R^k×m×m表示具有多尺度注意力的特征，k表示特征的通道数，m表示特征的宽和高；W(X)∈R^k×m×m表示多尺度注意力特征的权重系数，L(x)∈R^k×m×m表示局部通道上下文信息，G(X)∈R^k×1×1表示全局特征上下文信息，k表示特征维度；FC₁和FC₂两者均为用于缩小和扩展尺寸的全连接层；GAP表示平均池化，δ表示层归一化和激活函数ReLU的组合形式，σ是Sigmoid函数，LN表示层归一化，

和

分别表示按元素相乘、相加。

6.根据权利要求3所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，步骤2-2和2-3中，自适应图像块合并层执行下述步骤：

所述自适应图像块合并层的计算公式为：

内所有的空间位置。

7.根据权利要求1所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，步骤3具体包括：采用跳跃连接模块，将来自特征编码器的多尺度分层特征与卷积解码模块的解码特征融合；通过线性转换，使得编码器提取的特征维度与卷积解码模块的上采样特征维度一致，实现浅层和深层特征的串联。

8.根据权利要求1所述的U型自适应EST的无人机遥感图像分割方法，其特征在于，步骤4中，对恢复的特征图进行投影具体为：基于恢复的特征图将每个通道分量特征向量映射到所需数目的类别。

9.一种权利要求1-8之一所述U型自适应EST的无人机遥感图像分割方法所采用的系统，其特征在于，该系统包括特征提取单元、特征编码器、跳跃连接模块、卷积解码模块和投影模块，所述的特征编码器包括多阶EST和对应的自适应图像块合并层DAPM；

其中：每阶EST分别包括若干个EST单元，所述EST单元包括两个连续的第一EST模块和第二EST模块，每个EST模块均包括归一化层LN、增强多头自注意力模块MHSA、残差连接层Residual Connection以及多层感知机MLP(基于高斯误差线性单元(Gaussian ErrorLinear Units，GELU)激活函数的2层结构)；其中，第一EST模块和第二EST模块的的增强多头自注意力模块分别采用采用基于窗口的增强多头自注意力模块W-EMHSA和基于移位窗口的增强多头自注意力模块SW-EMHSA。

10.根据权利要求9所述U型自适应EST的无人机遥感图像分割方法所采用的系统，其特征在于，所述的多层感知机MLP采用基于高斯误差线性单元GELU激活函数的两层结构。