CN116310916A

CN116310916A - 一种高分辨率遥感城市图像语义分割方法及系统

Info

Publication number: CN116310916A
Application number: CN202310580934.6A
Authority: CN
Inventors: 张婕; 王浚丞
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-06-23

Abstract

本发明涉及遥感图像处理技术领域，公开了一种高分辨率遥感城市图像语义分割方法及系统，称为RS‑SwinUnet，利用SwinTransformer构建编码器、利用CNN构建解码器，在编码阶段对图像进行全局特征提取，在解码阶段利用特征融合模块将来自于编码器的低维（low‑level）特征和解码器的高维（high‑level）特征融合，利用上采样扩张层对恢复细节位置信息；同时，在解码时添加来自编码器的跳跃连接辅助位置信息恢复，整体仍然采用U型结构，可以实现精准的城市场景遥感图像语义分割。本发明解决了ViT不具备产生层级性特征、图像处理复杂度较高、遥感图像分辨率大的问题。

Description

一种高分辨率遥感城市图像语义分割方法及系统

技术领域

本发明属于遥感图像处理技术领域，具体涉及一种高分辨率遥感城市图像语义分割方法。

背景技术

随着遥感技术进步和传感器技术的发展，工业和学术界可以获取到越来越多的高分辨率城市场景遥感影像。高分辨率城市场景影像中包含的地物信息特征和空间信息细节在城市场景遥感图像的语义分割任务中至关重要。

高分辨率城市场景图像语义分割是对城市场景遥感图像进行像素级别分类的任务，主要通过对图像中逐像素点进行类别标签标注，进而实现整张图像像素点的分类，可以实现对于城市场景图像中道路、建筑物进行提取，从而进行土地覆盖制度、耕地变化检测等应用。然而，城市场景的遥感图像由于同类地块重复率高、同类地块特征差异大、尺寸差异大、空间分辨率差异大等原因，导致城市遥感图像的语义分割难度较大。

近年来，随着芯片、图形处理单元（GPU）等硬件的发展，强大的运算能力为深度学习批量化并行处理海量数据提供了技术支持，使得深度学习在遥感图像处理领域取得了巨大成就。目前，因为卷积神经网络（CNN）捕获细节定位信息能力较强，可以用于层级结构的图像特征表示，已经成为遥感城市图像语义分割的主流技术。由于卷积神经网络使用的卷积操作感受野（receptive field）受到限制，难以对遥感图像全局上下文信息建模，不能构建长程语义依赖关系。目前遥感图像领域技术多采用的是TransUnet，利用Vision-Transformer（ViT）构建U型网络结构，包括编码器和解码器两部分，在编码阶段通过ViT对全局图像提取高层语义特征，在解码阶段通过卷积上采样恢复空间位置信息，在两者之间添加跳跃连接辅助空间位置信息恢复。但是利用ViT方法对图像进行全局建模，无法产生层级性多尺度特征信息，计算复杂度较高，计算时长较长，无法对高分辨率的遥感图像进行高效处理。

以SwinTransformer构建主干网络来做图像分割任务，目前只应用于医疗图像领域，但是由于遥感图像的分辨率较高、地物特征差异小，会导致分割任务计算复杂度高、分割难度较大，目前还没有以SwinTransformer为主干网络应用于遥感图像分割领域。

通过上述分析，现有技术存在的问题及缺陷为：

（1）遥感图像技术中Unet模型多采用CNN卷积操作，卷积操作感受野（receptivefield）受到限制，难以对遥感图像全局上下文信息建模，不能构建长程语义依赖关系。（2）TransUnet遥感图像中采用ViT方法对图像进行全局建模，无法产生层级性多尺度特征信息；计算复杂度较高，计算时长较长，无法对高分辨率的遥感图像进行高效处理。

发明内容

针对现有遥感图像处理存在上述技术问题，本发明提出了一种高分辨率遥感城市图像语义分割方法，称作RS-SwinUnet。利用SwinTransformer模型构建编码器、利用卷积神经网络构建解码器，可以在编码阶段对遥感图像进行全局建模进行特征提取，在解码阶段利用特征融合模块将来自于编码器的低层（low-level）特征和解码器的高层（high-level）语义特征融合，并采用上采样扩张层实现对细节位置信息的恢复。同时，在解码时添加来自编码器的跳跃连接辅助细节位置信息恢复，RS-SwinUnet仍然采用经典U型结构，可以实现精准的遥感城市图像语义分割。

本发明是这样实现的，一种高分辨率遥感城市图像语义分割方法，包括以下步骤：

步骤一：遥感城市图像收集，选取无人机拍摄的针对城市场景遥感语义分割数据集-UAVid。

步骤二：图像预处理，对遥感城市图像进行裁剪，得到固定分辨率图像，并对数据进行增强。

步骤三：RS-SwinUnet模型构建，RS-SwinUnet模型包括编码器、解码器、瓶颈层、跳跃连接这几部分，最基本的单元是SwinTransformer模块；

步骤四：模型训练，将训练集中的图片以及图片对应的标注蒙版，输入RS-SwinUnet语义分割网络模型中进行训练，优化网络模型。

步骤五：遥感城市图像分割性能评估，主要采用平均交并比mIoU和总体精度（Overall Accuracy,OA）作为遥感城市图像分割性能评估的评价指标。

进一步，所述步骤一中数据集，主要包括两种分辨率大小的城市场景图像，分别是3840×2160和4096×2160分辨率，有8类可识别的物体。

进一步，所述步骤二中图像预处理，主要包括以下几个步骤：

（1）图像裁剪：由于每张图像的尺寸不一致，为了方便后续网络的训练，首先对高分辨率遥感城市图像进行裁剪，统一裁剪到3840×2160固定分辨率大小。

（2）数据增强：为了提高模型的鲁棒性和泛化能力，对于训练数据集中的所有图片，进行随机旋转和翻转，对数据进行增强。

进一步，所述步骤三中编码器阶段，将输入的遥感城市图像进行图像分块，随后对图像分块在通道维度上进行线性映射，降低通道数,生成对应图像序列。将线性映射过的图像序列输入到SwinTransformer模块和下采样融合层；下采样融合层负责对特征图进行下采样，将分辨率高宽缩小两倍，通道数扩大两倍，用于生成不同分辨率的特征表示；SwinTransformer模块进行特征表示学习；在编码器阶段一共包括3个SwinTransformer连续模块和3次下采样融合层进行下采样，分别生成1/4,1/8，1/16分辨率特征图。进一步，所述步骤三中瓶颈层，采用两个连续的SwinTransformer模块学习高层语义特征表示，在瓶颈层中，特征图的分辨率大小和通道数保持不变。进一步，所述步骤三中解码器阶段，采用与编码结构对称的U型结构，构建上采样扩张层实现特征图高宽上采样两倍、通道数减少为原1/2，构建特征融合模块将来自于编码器的低层（low-level）细节特征和来自解码器的高层（high-level）深层语义特征进一步学习融合；在最后一个上采样扩张层，为了与编码器输入特征大小一致，将特征图扩大4倍分辨率，最后通过线性映射层调整通道数，输出逐像素点分类的遥感城市图像语义分割图。进一步，所述步骤三中跳跃连接，将编码阶段生成的不同尺度的特征在解码阶段通过跳跃连接进行特征拼接，用于恢复在编码阶段丢失的位置细节信息，实现多尺度的特征融合；一共进行3次特征拼接，拼接原1/4,1/8，1/16分辨率的特征图。进一步，所述步骤五中，平均交并比mIoU表示为：

；

其中，mIoU代表平均交并比，

表示分类正确的建筑物像素个数，/>

表示正确分类的背景像素个数。/>

表示分类错误的背景像素个数，/>

表示分类错误的建筑物像素个数。

总体精度表示为：

；

其中，OA 代表总体精度，

表示分类正确的建筑物像素个数，/>

表示正确分类的背景像素个数。/>

表示分类错误的背景像素个数，/>

表示分类错误的建筑物像素个数。

本发明另一目的在于提供一种高分辨率遥感城市图像语义分割系统，包括：

遥感城市图像收集模块，用于选取无人机拍摄的针对城市场景遥感语义分割数据集-UAVid；

图像预处理模块，用于对遥感城市图像进行裁剪，得到固定分辨率图像，并对数据进行增强；

RS-SwinUnet模型构建模块，用于构建RS-SwinUnet模型，包括编码器、解码器、瓶颈层、跳跃连接四个部分；

模型训练模块，用于将训练集中的图片以及图片对应的标注蒙版，输入RS-SwinUnet语义分割网络模型中进行训练，优化网络模型；

遥感城市图像分割性能评估模块，用于遥感城市图像分割性能评估的评价指标。

本发明另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行任意一项上述改进高分辨率遥感城市图像语义分割方法的步骤。

本发明另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行任意一项上述改进高分辨率遥感城市图像语义分割方法的步骤。

本发明另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现上述改进高分辨率遥感城市图像语义分割系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、本发明提供的高分辨率遥感城市图像语义分割方法利用SwinTransformer模型构建编码器、利用卷积神经网络构建解码器，可以在编码阶段对遥感图像进行全局建模进行特征提取，在解码阶段利用特征融合模块将来自于编码器的低层（low-level）特征和解码器的高层（high-level）语义特征融合，并采用上采样扩张层实现对细节位置信息的恢复。同时，在解码时添加来自编码器的跳跃连接辅助细节位置信息恢复，RS-SwinUnet仍然采用经典U型结构，可以实现精准的城市场景遥感图像语义分割。本发明利用遥感城市场景图像全局上下文信息，对全局进行建模，实现更精准的遥感城市图像语义分割。同时，为解决ViT不具备产生层级性特征的问题，引入Swin Transformer，并且设计RS-SwinUnet上采样扩张层、下采样融合层，可以生成层级性的特征表示，用于U型网络结构的跳跃链接；为了解决遥感图像分辨率大、图像处理复杂度较高的问题，引入Swin Transformer，将图像或特征图划分为窗口，先在窗口内做自注意力，再做窗口之间的信息交互，变相实现全局建模，同时又可以降低计算量和复杂度。

第二，本发明的关键点在于建立RS-SwinUnet遥感城市图像语义分割网络模型，利用SwinTransformer构建遥感图像U型语义分割网络结构，作为基础单元，可利用遥感城市图像全局上下文信息，对全局进行建模，实现更精准的遥感城市图像语义分割。本发明的第二个关键点在于RS-SwinUnet网络中对于低维（low-level）和高维（high-level）的特征融合方法应用。在SwinTransformer模块中，将图像或特征图划分为窗口，在窗口内做自注意力，再做窗口之间的信息交互，可解决遥感图像分辨率大、图像处理复杂度较高的问题，降低计算量和复杂度。本发明在编码器解码器中间添加跳跃连接，可以拼接不同尺度的特征图，因此该模型更有利于用于语义分割任务的空间位置信息的恢复。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

（1）本发明的技术方案填补了国内外业内技术空白：遥感图像的图像分割任务主要是对高分辨率的航拍图像中的地物进行分割，例如建筑物提取、地块分割。这些地物主要有大小多样、高度相似、相互遮盖的特点，会导致遥感图像地物难以区分、语义模糊的问题。目前对于遥感图像分割任务主要采用全卷积神经网络（FCN）构建，采用编码器、解码器的U型对称结构，并且在编码器解码器之间添加跳跃连接进行特征拼接，辅助位置信息恢复。虽然卷积网络是遥感图像分割的主流方法，但由于卷积感受野受到限制，无法很好的捕捉图像全局上下文信息，无法解决遥感图像分割的语义模糊的问题。国内外业内能够对图像全局上下文信息进行建模的技术以ViT构建U型网络架构，但是由于ViT对全局信息进行编码，计算复杂度高，无法直接应用于高分辨率的遥感图像分割任务。并且，ViT是对单一尺度的特征图进行特征提取，不具有多尺度特征信息，对于遥感图像中大小多样的地物分割效果不佳。目前国内外业界，缺乏一种图像分割技术，能够有针对性的解决高分辨率遥感图像的图像分割问题，既能够提取多尺度的地物特征信息、又能够高效率的进行网络训练，解决计算复杂度高的问题。本发明就是填补了这一技术空白，提出了一种高分辨率遥感城市图像语义分割方法。

（2）本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题：遥感图像的图像分割任务主要是对高分辨率的航拍图像中的地物进行分割，例如建筑物提取、地块分割。这些地物主要有大小多样、高度相似、相互遮盖的特点，会导致遥感图像地物难以区分、语义模糊的问题。因此图像全局上下文信息在遥感图像分割任务中至关重要，但是现有的提取图像全局上下文信息的方法，计算复杂度高、分割效果差，这一直是国内外业界尝试解决的问题。本发明可以很好的解决这个问题。

附图说明

图1是本发明实施例提供的高分辨率遥感城市图像语义分割方法流程图；

图2是本发明实施例提供的高分辨率遥感城市图像语义分割系统模块图；

图3是本发明实施例提供的RS-SwinUnet模型构建模块图；

图4是本发明实施例提供的Swin Transformer模块结构图；

图5是本发明实施例提供的特征融合模块结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1，图2所示，本发明实施例提供一种高分辨率遥感城市图像语义分割方法，即利用SwinTransformer模型构建编码器、利用卷积神经网络构建解码器，可以在编码阶段对遥感图像进行全局建模进行特征提取，在解码阶段利用特征融合模块将来自于编码器的低维（low-level）特征和解码器的高维（high-level）语义特征融合，并采用上采样扩张层实现对细节位置信息的恢复。

具体步骤如下：

步骤一：遥感城市图像收集模块，选取无人机拍摄的针对城市场景遥感语义分割数据集-UAVid，数据集主要包括两种分辨率大小的城市街景图片，分别是3840×2160和4096×2160分辨率，有8类可识别的物体，UAVid数据集具有图像分辨率高、图像场景复杂、空间变化多样等特点，十分具有挑战性。

数据集一共有420张图片，本发明方案中选取200张图片作为训练集，70张图片作为验证集，150张作为测试集。

步骤二：图像预处理，主要包括以下几个步骤：

（1）图像裁剪：由于每张图像的尺寸不一致，为了方便后续网络的训练，首先对城市街景图片进行裁剪，统一裁剪到3840×2160固定分辨率大小。

步骤三： RS-SwinUnet模型构建，如图3所示，RS-SwinUnet模型包括编码器、解码器、瓶颈层、跳跃连接这几部分，最基本的单元是SwinTransformer模块。

（1）编码器：在编码器阶段，将输入的遥感城市图像进行分块，随后对分块在通道维度上进行线性映射，降低通道数,生成对应图像序列。将映射过的图像序列输入到SwinTransformer模块和下采样融合层，下采样融合层负责对特征图进行下采样，将分辨率高宽缩小两倍，通道数扩大两倍，用于生成不同分辨率的特征表示， SwinTransformer模块进行特征表示学习，在编码器阶段一共包括3个SwinTransformer连续模块和3次下采样融合模块进行下采样，分别生成1/4,1/8，1/16分辨率特征图。

a.图像分块：首先将经过裁剪的遥感城市图像用4×4大小的块进行分割，分割成不重叠的小块，并在通道维度将特征图进行展平，这时通道维度向量长度为4×4×3=18。

b.线性映射：将小块送入线性映射层，将通道维度降低为模型可以接受的值C，并送入Swin Transformer模块。

c.Swin Transformer模块：如图4所示，Swin Transformer模块负责学习特征表示，基于窗口构建多头自注意力（MSA）机制。通常，两个连续的Swin Transformer 模块组合使用，每个Swin Transformer 模块包括层归一化（LayerNorm，LN）层、多头自注意力模块（MSA）、残差链接和2个包含GELU激活函数的多层感知机模块(MLP)构成，不同的是，第一个Transformer模块采用基于窗口的多头自注意力（W-MSA），在窗口内部进行注意力计算，第二个Transformer模块采用基于移动窗口的多头自注意力模块（SW-MSA），实现不同窗口之间的信息交互。公式如下：

其中，

和/>

分别代表第/>

层W-MSA模块和MLP模块的输出；/>

代表层归一化网络层；/>

代表包括GELU激活函数的多层感知机模块；/>

代表基于窗口的多头自注意力模块，/>

代表基于移动窗口的多头自注意力模块。

注意力模块公式如下：

其中

代表transformer中的query、key和value值，/>

代表图片分割成小块的数目，/>

代表偏差矩阵。

d.下采样融合层：将相邻的4个块进行拼接融合，再通过一个线性层调整特征通道维度，使得分辨率下采样缩小两倍，通道维度扩大两倍。

（2）瓶颈层

瓶颈层采用两个连续的Swin Transformer模块学习高层语义特征表示，在瓶颈层中，特征图的分辨率大小和通道数保持不变。

（3）解码器

在解码阶段采用与编码结构对称的U型结构，构建上采样扩张层实现特征图高宽上采样两倍、通道数减少为原1/2，构建特征融合模块将来自于编码器的low-level细节特征和来自解码器的high-level深层语义特征进一步学习融合。在最后一个上采样扩张层，为了与编码器输入特征大小一致，将特征图扩大4倍分辨率，最后通过线性映射层调整通道数，输出逐像素点分类的城市场景遥感语义分割图。

特征融合模块：如图5所示，首先将来自编码器的低维（low-level）特征经过两路分支，每路分支均经过1×1卷积，将两路分支得到的特征图点乘后再通过激活函数，得到细节特征权重分布图。细节特征权重分布图中的每个位置的权重大小同，为直观表示，在图5中以颜色深浅作区分，颜色越深，代表权重越大，反之亦然。将来自解码器的低维（high-level）语义特征经过1×1卷积产生的特征与权重分布图进行点乘，得到最终输出。这样简单的注意力机制，可以更好的将低维（low-level）细节特征和高维（high-level）语义特征进行融合。公式如下：

其中/>

代表Softmax激活函数，Conv代表/>

卷积操作，/>

代表来自编码器的低维特征图，/>

代表来自解码器的高维特征图，/>

代表低维特征的两路分支的输出结果，/>

代表高维特征的输出结果，/>

代表特征融合模块最终的输出结果。

（4）跳跃连接

在解码阶段，将编码阶段生成的不同尺度的特征通过跳跃连接进行特征拼接，用于恢复在编码阶段丢失的位置细节信息，实现多尺度的特征融合，一共进行3次特征拼接，拼接原1/4,1/8，1/16分辨率的特征图。

将训练集中的200张图片以及图片对应的标注蒙版，输入RS-SwinUnet语义分割网络模型中进行训练,优化网络模型；训练时,采用英伟达3090TiGPU显卡，Swin Transformer采用在ImageNet数据集上预训练得到的网络参数，采用随机梯度下降的优化方法进行优化，其中动量参数（momentum）设置为0.9，权重衰减参数设置为1e-4；验证集采用70张图片对模型中的超参数进行选择调整，对网络进行优化，得到最终的城市街景遥感图像语义分割模型；测试集中的150张图片用于评估模型的泛化能力。

步骤五：遥感城市图像分割性能评估，主要采用平均交并比mIoU和总体精度（Overall Accuracy,OA）作为城市场景遥感图像分割性能评估的评价指标。

平均交并比mIoU表示为：

。

其中，mIoU代表平均交并比，

表示分类正确的建筑物像素个数，/>

表示正确分类的背景像素个数。/>

表示分类错误的背景像素个数，/>

示分类错误的建筑物像素个数。总体精度表示为：/>

。

其中，OA 代表总体精度，

表示分类正确的建筑物像素个数，/>

表示正确分类的背景像素个数。/>

表示分类错误的背景像素个数，/>

表示分类错误的建筑物像素个数。

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

在遥感图像公开数据集UAVid应用效果较高，数据集主要包括两种分辨率大小的城市街景图片，分别是3840×2160和4096×2160分辨率，有8类可识别的物体，对于8类可识别物体，RS-SwinUnet网络取得的分割精度mIoU数值较高，效果较好。三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

表1 UAVid数据集语义分割实验结果对比表

表1实验数据表明，高分辨率遥感城市图像语义分割方法比国内外现有的图像分割方法的mIoU精度较高，除建筑物类别外，大部分地物类别的分割精度IoU也取得了最高的分割精度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种高分辨率遥感城市图像语义分割方法，其特征在于，利用SwinTransformer模块构建编码器、利用卷积神经网络构建解码器，在编码阶段对遥感图像进行全局建模进行特征提取，在解码阶段利用特征融合模块将来自于编码器的低维（low-level）特征和解码器的高维（high-level）语义特征融合，并采用上采样扩张层实现对细节位置信息的恢复；同时，在解码时添加来自编码器的跳跃连接辅助细节位置信息恢复，RS-SwinUnet仍然采用经典U型结构，实现精准的城市场景遥感图像语义分割。

2.如权利要求1所述的高分辨率遥感城市图像语义分割方法，其特征在于，包括以下步骤：

（1）遥感城市图像收集，选取无人机拍摄的针对城市场景遥感语义分割数据集-UAVid；

（2）图像预处理，对城市街景图片进行裁剪，得到固定分辨率图像，并对数据进行增强；

（3）RS-SwinUnet模型构建，RS-SwinUnet模型包括编码器、解码器、瓶颈层、跳跃连接这几部分，最基本的单元是SwinTransformer模块；

（4）模型训练，将训练集中的图片以及图片对应的标注蒙版，输入RS-SwinUnet语义分割网络模型中进行训练，优化网络模型；

（5）遥感城市图像分割性能评估，主要采用平均交并比mIoU和总体精度（OverallAccuracy,OA）作为城市场景遥感图像分割性能评估的评价指标。

3.如权利要求2所述的高分辨率遥感城市图像语义分割方法，其特征在于，所述数据集，主要包括两种分辨率大小的城市街景图片，分别是3840×2160和4096×2160分辨率，有8类可识别的物体。

4.如权利要求2所述的高分辨率遥感城市图像语义分割方法，其特征在于，所述图像预处理，主要包括以下几个步骤：

（1）图像裁剪：由于每张图像的尺寸不一致，为了方便后续网络的训练，首先对高分辨率遥感城市图像进行裁剪，统一裁剪到3840×2160固定分辨率大小；

5.如权利要求2所述的高分辨率遥感城市图像语义分割方法，其特征在于，所述编码器，将输入的城市场景图片进行图像分块，随后对图像分块在通道维度上进行线性映射，降低通道数，生成对应图像序列，将线性映射过的图像序列输入到SwinTransformer模块和下采样融合层；下采样融合层负责对特征图进行下采样，将分辨率高宽缩小两倍，通道数扩大两倍，用于生成不同分辨率的特征表示；SwinTransformer模块进行特征表示学习；编码器一共包括3个SwinTransformer连续模块和3次下采样融合层进行下采样，分别生成1/4，1/8，1/16分辨率特征图。

6.如权利要求2所述的高分辨率遥感城市图像语义分割方法，其特征在于，所述瓶颈层，采用两个连续的SwinTransformer模块学习高层语义特征表示，在瓶颈层中，特征图的分辨率大小和通道数保持不变；所述解码器，采用与编码结构对称的U型结构，构建上采样扩张层实现特征图高宽上采样两倍、通道数减少为原1/2，构建特征融合模块将来自于编码器的低维（low-level）细节特征和来自解码器的高维（high-level）深层语义特征进一步学习融合；在最后一个上采样扩张层，为了与编码器输入特征大小一致，将特征图扩大4倍分辨率，最后通过线性映射层调整通道数，输出逐像素点分类的遥感城市图像语义分割图；

所述跳跃连接，将编码阶段生成的不同尺度的特征在解码阶段通过跳跃连接进行特征拼接，用于恢复在编码阶段丢失的位置细节信息，实现多尺度的特征融合；一共进行3次特征拼接，拼接原1/4，1/8，1/16分辨率的特征图；平均交并比mIoU表示为：