CN116580241A

CN116580241A - 基于双分支多尺度语义分割网络的图像处理方法及系统

Info

Publication number: CN116580241A
Application number: CN202310578054.5A
Authority: CN
Inventors: 潘新; 高玉鹏; 刘江平
Original assignee: Inner Mongolia Agricultural University
Current assignee: Inner Mongolia Agricultural University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-11
Anticipated expiration: 2043-05-22
Also published as: CN116580241B

Abstract

本发明属于图像处理技术领域，公开了一种基于双分支多尺度语义分割网络的图像处理方法，包括：利用CNN模块为主编码器，Swin Transformer为辅助编码器，并通过跳跃连接进行编码器与解码器之间的特征融合，构建并行的双编码器结构；基于并行的双编码器结构结合多尺度融合模块、特征增强模块和通道增强模块组建双分支多尺度语义分割网络，利用所述双分支多尺度语义分割网络进行图像处理。本发明通过增强网络的全局上下文交互，并弥补CNN在全局建模能力的不足，设计了多尺度融合模块加强了不同尺度特征信息，另外设计了特征增强模块和通道增强模块加强网络的特征提取能力。

Description

基于双分支多尺度语义分割网络的图像处理方法及系统

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于双分支多尺度语义分割网络的图像处理方法。

背景技术

目前，关于遥感图像的像素级信息在许多领域具有重要价值。CNN在空间位置表示方面具有优势，但由于卷积运算的局部性，难以直接对全局语义交互和上下文信息进行建模，单独CNN模型在遥感图像的语义分割中无法获得较高精度结果。遥感图像领域的语义分割问题是计算机视觉的热门研究之一。在遥感图像的解译和应用中，其每个像素的语义分割是非常重要的部分。关于遥感图像的土地使用或覆盖的信息在许多领域都具有重要价值。遥感图像的语义分割结果可应用于土地分类、城市规划、灾害评估等多个方面。

遥感图像包含大量地物信息，即使是同一类型的地物，在不同时期或地点也呈现出特征的多样性和复杂性。此外，遥感影像正向高分辨率、宽覆盖方向发展，同一类别物体可能产生不同光谱、不同物体可能产生相同光谱的现象越来越严重。以上原因导致从遥感图像中难以准确提取特征，而特征提取是遥感图像识别的基础。对于此问题，早期学者提出了诸多机器学习方法如：支持向量机、马尔可夫随机场、人工神经网络、多层感知器，然而此类方法提取特征能力有限，泛化能力较差，无法获得准确的遥感像素级分类结果。卷积神经网络(CNN)的快速发展为语义分割提供了技术支持，但CNN总是用于整张图像的分类而不是对于图像中的每个像素。全卷积网络(FCN)的发明对于图像的语义分割则是里程碑式的进步，其将CNN后的全连接层替换为反卷积层实现特征的上采样，从而可以在输入任意大小图像尺寸的情况下输出相同尺寸的每个像素分类结果。U-Net继承了FCN的思想，深化了特征上采样过程并使其网络成为‘U’字形的对称结构，提升了图像语义分割的精度。SegNet构建了编码器-解码器结构，实现了端到端像素级图像分割。DeepLab有效利用深度卷积神经网络与空洞卷积，有效扩大了感受野，并与空间金字塔池化模块结合实现了高精度的图像语义分割。

基于CNN的模型在特征提取过程中进行特征下采样以减少计算量，容易导致小尺度特征被丢弃。具有不同语义类别的地物可能具有相似的尺寸、材质和光谱特征，难以区分，无法完全恢复高分辨率细节，特别是对于类别边缘。卷积运算的局部性，难以直接对全局语义交互和上下文信息进行建模。因此，需要更多的全局上下文信息和精细的空间特征作为语义推理的线索。DenseASPP利用不同扩张率的空洞卷积增加其全局建模能力。PSPNet通过金字塔池模块利用上下文信息。这些方法是从CNN获得的局部特征中聚合全局信息，而不是直接对全局上下文进行编码。近年来，Transformer的应用已经从自然语言处理转向图像处理领域。相比于CNN通过卷积操作获得局部特征信息，Transformer能够利用自注意力操作实现图像的远程依赖并编码图像的全局特征信息，其首先将整张图像分割为多个令牌，并利用多头注意力机制这一关键机制探寻所有令牌之间的特征关系从而实现全局特征的编码，其在全局关系特征建模上的成功给诸多领域的研究提供了新思路。SETR首先将Transformer架构应用于图像分割领域，引入了序列到序列的分类模型，极大的改善了难以获得全局感受野的问题。Segmenter利用Transformer设计了编码器-解码器结构，并将处理后的令牌转化为像素级的标注进行编码。PVT在将Transformer与金字塔结构相结合，其在对特征进行密集训练的同时可以利用金字塔模块减少模型的计算量。但由于Transformer将每次注意力计算在放在整张图像上，当图像尺寸较大时迅速增长的训练成本将会阻碍模型的应用。Swin transformer首先将图像划分为不同的窗口，将注意力计算限制在窗口中，这使得其仅具有线性复杂度。自注意层之间窗口分区的转移是Swin Transformer架构的关键组成部分，其中移位的窗口连接前一层的窗口并提高建模能力。Swin Transformer仅具有线性计算复杂性，可在视频处理、图像生成和图像分割等多种领域提供先进的性能。

通过上述分析，现有技术存在的问题及缺陷为：现有技术缺少上下文语义交互和全局建模能力、不能实现多尺度特征融合、分类效果不好。

发明内容

针对现有技术存在的问题，本发明提供了一种基于双分支多尺度语义分割网络的图像处理方法。

本发明是这样实现的，一种基于双分支多尺度语义分割网络的图像处理系统，包括：

利用CNN模块为主编码器，Swin Transformer为辅助编码器，并通过跳跃连接进行编码器与解码器之间的特征融合，构建并行的双编码器结构；基于并行的双编码器结构结合多尺度融合模块、特征增强模块和通道增强模块组建双分支多尺度语义分割网络，利用所述双分支多尺度语义分割网络进行图像处理。

进一步，所述双分支多尺度语义分割网络由主编码器、辅助编码器、以及解码器组成；

所述主编码器由CNN架构组成的3个特征提取模块、特征增强模块、以及多尺度融合模块组成；所述特征提取模块用于提取图像主干特征；所述多尺度融合模块用于融合不同尺度特征；所述特征增强模块用于增强主编码器的特征提取能力；

所述辅助编码器由Patch partition层、Linear Embeding层、Swin Transformer块、Patch Merging层以及通道增强模块组成；所述Patch partition用于将遥感图像划分为不重叠的区块，将输入信息转换为序列嵌入；所述Linear Embeding用于进行图像特征尺寸的转换；所述Patch Merging层用于降采样和增维；所述Swin Transformer块用于进行特征表示学习；所述通道增强模块用于加强通道间的特征关系；

所述多尺度特征融合模块，用于融合不同尺度的特征信息；同时用于组合不同尺度图像的低层次空间特征转化为高层次语义特征；

所述解码器，用于利用卷积运算和双线性插值上采样对特征进行解码，并在解码过程中与主编码器进行跳跃链接；同时用于输出处理结果；

所述每个辅助解码器的输出均会与相应主编码器的输出相加作为下一个主编码器模块的输入。

进一步，所述基于双分支多尺度语义分割网络的图像处理方法包括以下步骤：

步骤一，首先利用辅助解码器中Patch partition对图像进行区块划分；通过Linear Embeding转化维度，通过Patch Merging生成分层的特征表示；通过SwinTransformer块用于进行特征表示学习，增加其全局建模能力，并利用通道增强模块加强通道间的特征关系；

步骤二，利用主编码器中CNN blocks提取图像主干特征，并利用特征增强模块提升模型提取特征能力；

步骤三，将辅助编码器的三个阶段的输出与主编码器对应输出相加，以进一步增加模型全局建模能力；利用多尺度特征融合模块融合不同尺度的特征信息，尤其是边缘细节等微小特征；

步骤四，对主编码器和解码器进行跳跃连接，增加模型上下文语义交互能力，并利用解码器进行三次特征解码，对特征使用卷积层和Argmax得到最后的预测图像。

进一步，所述利用辅助编码器进行图像的区块划分，通过Linear Embeding转化维度，并生成分层特征表示包括：

首先，利用辅助编码器的Patch partition将遥感图像划分为不重叠的区块，将输入信息转换为序列嵌入；

其次，利用Linear Embeding进行图像特征尺寸的转换；同时利用SwinTransformer块和Patch merging层生成分层的特征表示；

所述生成分层特征表示包括：

其中，和s^l分别表示第l个(S)W-MSA和MLP模块的输出。

进一步，所述利用通道增强模块加强通道间的特征关系包括：

首先，通过平均池化获得通道信息，平均池化的计算方式如下：

其次，对平均池化后特征进行维度的转换，使用3×1卷积核进行卷积并与原始特征进行矩阵相乘：

其中，s^l表示第l个Swin transformer块的输出，v表示平均池化后的特征矩阵，表示矩阵相乘，/>表示矩阵相加，R(·)代表Reshape。

进一步，所述利用特征增强模块获取图像数据深层次特征：

通过计算自身特征信息与可学习参数存储单元关系获取数据的深层次特征，如下：

其中，表示输入特征；/>表示输出特征；/> 表示可学习参数存储单元，N(·)表示批归一化，/>表示矩阵相乘。

进一步，所述利用多尺度融合模块进行多种尺度特征的融合包括：

首先，对输入特征进行Softpool处理：

其次，将特征经过1×1的卷积核进行卷积和Relu激活函数通道数减半，经过双线性插值上采样后尺寸还原；

最后，经过3×3卷积和Relu激活函数，将通道数变换为原来的四分之一，将四个特征拼接进行多尺度特征融合；

所述利用多尺度融合模块进行多种尺度特征的融合如下：

Y_n＝Softpool(X)

T_n＝Bi(σ(Conv1×1(Y_n)))

W_n＝σ(Conv3×3(T_n))

Z＝[W₁₆,W₈,W₄,W₂]

其中，Bi表示双线性插值，σ表示Relu函数；表示输入特征；表示输入特征经Softpool处理后的输出；n表示下采样倍数。

进一步，所述利用解码器进行三次特征解码，对特征使用卷积层和Argmax得到最后的预测图像包括：

1)将多尺度融合模块输出特征与CNN-Block3模块输出拼接；经过3×3大小的卷积核进行卷积并经过Relu激活函数进行特征解码和减少通道尺寸；

2)利用双线性插值法进行图像上采样进行特征尺寸翻倍，利用三次采样将特征尺寸还原为原始图像尺寸；

3)利用1×1大小的卷积核进行卷积运算，并将特征通道数还原为图像类别数，利用Argmax输出预测结果。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于双分支多尺度语义分割网络的图像处理方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于执行所述基于双分支多尺度语义分割网络的图像处理方法。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、本发明设计了一种用于遥感图像的双分支多尺度分类方法,利用CNN模块为主编码器，Swin Transformer为辅助编码器，并通过跳跃连接实现编码器与解码器之间的特征融合，形成一个并行的双编码器结构。设计了多尺度融合模块，增加不同尺度特征的融合，另外本发明设计了特征增强模块和通道增强模块用来加强网络的性能。

本发明提出了一种双分支多尺度语义分割网络，利用Swin Transformer强大的全局建模能力，提升网络的分类效果。

本发明提出了多尺度特征融合模块，组合不同尺度图像的低层次空间特征转化为高层次语义特征，以加强融合多尺度的深层次图像特征。

本发明分别在主编码器和辅助编码器中加入特征增强模块和通道增强模块以提升特征提取效果。特征增强模块通过计算自身特征信息与更小的可学习参数存储单元之间的关系来加强特征信息交互；通道增强模块通过建立通道间相关性来编码SwinTransformer的空间信息，以提升全局特征的空间相关性。

第二，本发明设计了一种基于双分支多尺度语义分割网络的图像处理方法(TMNet),其采用编码器—解码器结构，其中编码器为双分支结构，其中主编码器为CNN模块，辅助编码器采用Swin Transformer。主编码提取图像的主要特征，并通过特征增强模块(FEM)提升主编码器的特征提取性能；设计了多尺度融合模块(MFM)加强了不同尺度特征信息，有利于对于图像的细小特征比如边缘细节等进行恢复；辅助编码器利用Patchpartition对图像进行区块划分；通过Linear Embeding转化维度，通过Patch Merging生成分层的特征表示；通过Swin Transformer模块进行特征表示学习，并增加模型全局建模能力，并利用通道增强模块(CEM)加强Swin Transformer模块窗口间的特征关系；将辅助编码器的三个阶段输出与主编码器对应输出相加，以进一步增加模型特征提取性能；在解码器中，利用3×3卷积层和双线性插值法进行图像上采样进行特征尺寸翻倍，利用三次采样将特征尺寸还原为原始图像尺寸；利用1×1大小的卷积核进行卷积运算将特征通道数还原为图像类别数，利用Argmax输出预测结果。在WHDLD和Potsdam数据集两个公开数据集上，本发明获得了优异的分类结果。

第三，本发明的一种基于双分支多尺度的遥感图像分类算法，与现有基于单独CNN技术相比，能够更好的加强模型的全局建模能力和上下文信息交互，得到较理想的遥感影像分类结果。

附图说明

图1是本发明实施例提供的基于双分支多尺度语义分割网络的图像处理方法原理图；

图2是本发明实施例提供的基于双分支多尺度语义分割网络的图像处理方法流程图；

图3是本发明实施例提供的多尺度特征融合模块示意图；

图4是本发明实施例提供的特征增强模块示意图；

图5是本发明实施例提供的Swin Transformer示意图和标准Transformer示意图；

图6是本发明实施例提供的通道增强模块示意图；

图7是本发明实施例提供的每种方法在WHDLD数据集上的实验预测结果示意图；

图8是本发明实施例提供的每种方法在Potsdam数据集上的实验预测结果示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1-图2所示，本发明实施例提供的基于双分支多尺度语义分割网络的遥感图像处理方法包括以下步骤：

S101，利用辅助编码器进行图像的区块划分；通过Liner Embeding转化为维度，通过Swin Transformer和Patch Merging生成分层的特征表示；并利用通道增强模块加强通道间的特征关系；

S102，利用主编码器中基于CNN blocks提取图像主干特征，并利用特征增强模块加强主编码器的特征提取能力；

S103，将辅助编码器的三个阶段输出与主编码器对应输出相加；利用多尺度融合模块进行多种尺度特征的融合；

S104，通过解码器与主编码器之间的跳跃连接来增加全局上下文信息，利用解码器进行三次特征解码，对特征使用卷积层和Argmax得到最后的预测图像。

本发明实施例提供的基于双分支多尺度语义分割网络的图像处理方法具体包括：

本发明方法TMNet的整体架构如图1所示。采用编码器—解码器结构，本发明将具有强大特征提取能力的CNN模块作为主编码器，采用Swin Transformer作为辅助编码器，每两个Swin Transformer模块的输出都会与相应主编码器的输出相加作为下一个主编码器模块的输入，以提升网络的全局建模能力，多尺度特征融合模块(MFM)可以融合不同尺度的上下文信息，同时考虑全局特征和局部特征，对高级特征图产生更好的像素级注意。另外本发明设计了特征增强模块(FEM)和通道增强模块(CEM)，用来对主编码器和辅助编码器进行性能提升。对编码器与解码器进行跳跃拼接以增强上下文信息，经过解码器本发明会得到最终的分类结果。

对于给定的遥感图像，X∈R^3×H×W，首先经过Patch partition将图像划分为不重叠的块，尺寸为12×H/2×W/2，本发明使用Linear Embeding使特征尺寸变为128×H/2×W/2并加强语义特征，随后本发明将特征放在Swin Transformer中用于加强特征全局建模，本发明将CEM附加在Swin transformer中以加强通道间的特征关系，Patch merging层负责降采样和增维，辅助编码器的三个阶段的输出尺寸分别为128×H/2×W/2，256×H/4×W/4，512×H/8×W/8，并于主编码器对应输出相加以加强网络的全局建模能力。在主编码器中主要是利用CNN blocks提取图像主干特征，并利用FEM加强特征提取能力,经过MFM融合不同尺度特征特别是加强小尺度特征的提取能力，输出特征尺寸为512×H/8×W/8。辅助解码器主要通过卷积和双线性插值上采样实现，本发明对主编码器和解码器之间增加跳跃连接以增强全局上下文能力，最后通过三次解码特征F∈R^128×H×W，随后对特征使用1×1卷积层输出特征尺寸为n×H×W,其中n为图像类别数，最后利用Argmax得到最终的预测图像。

主编码器的有三类模块构成，第一类为CNN架构组成的3个特征提取模块，第二类为多尺度融合模块，用于增强局部特征和全局特征，第三类为特征增强模块，用来为增强主编码器的特征提取能力。

CNN Block有三个模块组成，表1为每个模块的详细参数：

表1

Conv2d中参数顺序依次为输入通道数、输出通道数、卷积核尺寸、步长、填充数，其他参数均选择默认。MaxPool2d(2)代表采用2×2卷积核进行最大池化使输入尺寸减半，BN代表批归一化

卷积神经网络是一种很好的分割方法，但在分割任务中也存在一些缺陷，基于CNN的模型在特征提取过程中进行特征下采样以减少计算量，容易导致小尺度特征丢失，无法重构小目标信息，这可能会导致数据之间的连续性和完整性的丧失，不利于特征图的局部一致性。为了解决这一问题，本发明提出了一种多尺度特征融合模块，并在图3中展示出。

首先对输入数据进行Softpool操作以提取更为精细化的特征。Softpool可以以指数加权的方式激活池化内核中的像素，以保存更详细的信息。对于特定核邻域R中的每个像素，Softpool的计算方法如下式所示：

整个多尺度融合模块的执行过程可以表示为：

Y_n＝Softpool(X)

T_n＝Bi(σ(Conv1×1(Y_n)))

W_n＝σ(Conv3×3(T_n))

Z＝[W₁₆,W₈,W₄,W₂]

Bi表示双线性插值，σ表示Relu函数，[·]表示拼接。

对于输入特征经过Softpool后/>其中n表示下采样倍数，随后将特征经过的1×1卷积核进行卷积和Relu函数通道数减半，经过双线性插值上采样使尺寸还原，为进一步提取特征，经过3×3卷积和Relu激活函数，通道数变为原来的四分之一，最后将四个拼接进行多尺度特征融合，通道数还原作为本模块输出结果。

卷积神经网络特征检测能力很强，但对特征的理解不足，随着深度或层数的增加，特征的空间分辨率逐渐减小，这阻碍了在遥感图像中预测物体位置的能力。为了更有效地提取特征信息，提出了特征增强模块，细化有效特征信息，进一步增强编码器的性能。在每个CNN block之后增加一个特征增强模块，对每个模块的性能进行增强。结构如图4所示。

特征增强模块通过计算自身特征信息与可学习参数存储单元关系来获取数据的全局上下文信息。它可以表示为：

其中，表示输入特征；/>表示输出特征；/> 表示可学习参数存储单元，N(·)表示批归一化；/>表示矩阵相乘。

Transformer首先被应用于自然语言处理领域。标准Transformer由多头自注意力机制(MSA)、多层感知器(MLP)和层归一化(LN)组成，如图5(a)所示。MSA在建立输入和输出序列之间的全局依赖关系方面发挥了关键作用。

对于标准的Transformer可以将l层的输出s^l表示为：

标准Transformer使用MSA计算所有序列之间的全局自注意，导致计算复杂度为图像尺寸的二次方，限制了其应用范围，与传统的多头自注意(MSA)模块不同，SwinTransformer是基于移位窗口构造的。在图5(b)中，给出了两个连续的Swin Transformer。每个Swin Transformer由LayerNorm(LN)层、残差连接、具有Gelu非线性的2层MLP，以及基于窗口的多头自注意力(W-MSA)模块和基于移位窗口的多头自注意力(SW-MSA)模块组成。首先通过Patch Partition将图像分割成不重叠的块，将输入信息转换为序列嵌入，然后通过Linear Embeding层转换维度，转换后的特征通过多个Swin Transformer块和Patchmerging层生成分层的特征表示。其中，Patch merging层负责降采样和增维，SwinTransformer块负责特征表示学习。

具体可以表示为下：

其中和s^l分别代表了第l个(S)W-MSA和MLP模块的输出.

Swin Transformer在有限的窗口内建立序列特征关系，有效地降低内存开销。然而，这种方法在一定程度上削弱了各个窗口间的建模能力，即使它采用了规则窗口和移位窗口的交替执行策略。因此本发明提出了通道增强模块，以进一步增强信息交换，同时编码更精确的空间信息，其考虑了不仅是补丁之间关系，更考虑了通道之间的关系，弥补了Swintransformer所限制的窗口间建模能力，使得转换器更适合图像分割任务。通道增强模块的组成如图6所示。

首先通过平均池化获得通道信息，平均池化的计算方式如下：

对于平均池化后特征，本发明对其进行转换维度，然后使用3×1卷积核进行卷积并与原始特征进行矩阵相乘以增强其空间特征。

具体表示如下：

s^l代表第l个Swin transformer块的输出，v代表平均池化后的特征矩阵，表示矩阵相乘，/>表示矩阵相加，R(·)代表Reshape。

解码器主要通过卷积运算和上采样对特征进行解码，并在其过程中与主编码器进行跳跃链接以增强全局上下文信息，如解码器部分所示：首先将MFM模块输出特征与CNN-Block3模块输出拼接，增强特征信息交互，随后经过3×3大小的卷积核进行卷积并经过Relu函数进行特征解码和减少通道尺寸，随后利用双线性插值法进行图像上采样使特征尺寸翻倍。经过三次采样后特征尺寸还原为原始图像尺寸，随后利用3×3大小的卷积核进行卷积运算进一步细化特征，并使特征通道数还原为图像类别数，随后经过Argmax输出预测结果。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

下面首先介绍了验证本发明算法的有效性的数据集和实验设置，然后比较了不同框架之间的性能。

数据集介绍

本次实验中使用了两个数据集，分别是Wuhan Dense Labeling Dataset(WHDLD)和Potsdam数据集,WHDLD包含高分一号卫星和ZY-3卫星在武汉城区拍摄的256×256的4940张RGB图像。通过图像融合和重采样，图像的分辨率达到2m/像素。WHDLD中包含的图像被标记为六个类别，即裸地、建筑、人行路、植被、道路和水。

Potsdam数据集有38张大小为6000×6000的遥感图像，分辨率为5cm。数据集覆盖了波茨坦3.42平方公里的复杂建筑和密集的定居点结构。对数据集进行了六个类别的标注，用于语义分割研究。本次实验使用14张RGB的图像进行测试(图像序号：2_13,2_14,3_13,3_14,4_13,4_14,4_15,5_13,5_14,5_15,6_14,6_15,7_13)，同样，本发明将这些原始图像切割为256×256，共6877张。本发明按对这两个数据集按6：2：2的比例分为训练集、验证集和测试集，并且利用随机旋转、翻转、高斯噪声等方法进行数据增强。

训练设置：本发明的网络是用Pytorch框架构建的。本发明使用动量项为0.9，权重衰减为1e-4的SGD优化器来训练模型。此外，本发明将初始学习率设置为0.01，每20个epoch学习率减半。所有实验均在24GBRAM的NVIDIA Geforce RTX 3090GPU上实现。批处理大小设置为16，最大epoch为150。

评价指标

本发明使用均交并比(MIOU)、平均F1-Score(MF1)和类别平均像素准确率(MPA)分数来评价模型的性能。这两个评价指标基于混淆矩阵，其中包含真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四项。对于每个类别，IOU定义为预测值与真实值的交并之比，计算方法如下：

每个类别F1分数的计算方法如下：

其中precision＝TP/(TP+FP),recall＝TP/(TP+FN)。MIOU代表所有类别IOU的均值,MF1代表所有类别F1的均值，MPA表示所有类别的precision的均值。其中本发明主要以MIOU作为主要评价指标。配置的Swin Transformer的参数为：隐藏头数为96，窗口大小为8，每级对应的层数为{2,2,2}，每层对应的头数为{3,6,12}。

WHDLD结果：

将本发明提出网络与其他较为经典语义分割网络进行了比较，包括DenseASPP、PSPNet、Deeplabv3plus、DFANet，DUNet，MAUNet，MSCFF、MUNet，其中DenseASPP,PSPNet,Deeplabv3plus均以resnet101为骨干。实验结果如表2所示，TMNet计算量(FLOPs)和参数量(Params)都适中，且其实验结果优于其他方法，其中DFANet基于纯CNN架构，DenseASPP利用不同扩张率的空洞卷积增加其全局建模能力，PSPNet通过金字塔池模块利用上下文，但是以上方法都是从局部特征聚合上下文信息，与TMNet相比无法获得全局上下文的信息；MSCFF通过使用可训练卷积滤波器对特征图进行致密化，以加强小尺度特征，MAUNet通过增加下采样次数和注意力机制细分不同尺度下的特征，与TMNet相比无法实现多尺度特征的融合；Deeplabv3plus使用Atrous空间金字塔池化并将深度可分离卷积应用于解码器模块，但性能仍然不如本发明所提出的TMNet。图7为每个方法再WHDLD数据集上的预测结果，从图7中可以看出TMNet的预测结果最接近真实图像，并且在小尺度特征、边缘细节等方面预测较好，从第一行中可以看到本发明对道路类别达到了最好的分割性能，这是由于Swintransformer强大的全局建模能力增强了网络的特征提取能力，对于较难分类的裸地类别，TMNet也对其有很好的分类效果。

表2

/>

Potsdam结果：

表3表示了每种方法在Potsdam数据集上的分割结果，进一步在证明了本发明的有效性，其MIOU值达到68.15％，高于其他方法，由于数据集分辨率的不同，Potsdam的分割精度高于WHDLD，图8为每种方法在Potsdam数据集上的实验预测结果，可以看出本发明的分类结果好于其他方法，例如从第一行和第五行中可以明显看出本发明在杂物类别的预测中明显好于其他，这证明了本发明的优异性能。

表3

消融实验：

为了验证进一步验证本发明的有效性，本发明在WHDLD数据集上进行消融实验，其结果如表4所示：

表4

MFM和Swin Transformer在本发明中的作用

本发明将主解码器中的CNN-blocks与解码器为基础，称为Baseline-0，并利用SW代表Swin Transformer。如表4左半部分所示，可以看到当引入MFM时，MIOU提升了1.18％，这主要是由于MFM组合不同尺度图像的低层次空间特征转化为高层次语义特征，加强了多尺度特征信息，增加了网络检测微小特征的能力。当加入SW时MIOU提升了1.03％，这主要是由于利用了SW的强大的全局建模能力。

FEM和CEM在本发明中的作用

本发明将Baseline-0+MFM+SW称为Baseline-1。如表4右半部分所示，在加入FEM时，MIOU提升了0.37％,这是由于FEM将输入数据与可学习参数相结合，进一步加强了特征提取能力，在加入CEM时，MIOU提升0.48％，这是由于CEM着重通道之间的关系，增强了窗口间建模能力。两个模块都加上时，MIOU提升了0.82％，这显示了FEM与CEM对网络性能的提升效果。从图中可以看出再加入与CEM之后，其分割效果能力提高，当两个模块都加上时，分割性能进一步提升。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于双分支多尺度语义分割网络的图像处理系统，其特征在于，包括：

2.如权利要求1所述基于双分支多尺度语义分割网络的图像处理系统，其特征在于，所述双分支多尺度语义分割网络由主编码器、辅助编码器、多尺度特征融合模块以及解码器组成；

所述主编码器由CNN架构组成的3个特征提取模块、多尺度融合模块以及特征增强模块组成；所述特征提取模块用于提取图像主干特征；所述多尺度融合模块用于融合不同尺度特征；所述特征增强模块用于增强主编码器的特征提取能力；

3.一种基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述基于双分支多尺度语义分割网络的图像处理方法包括以下步骤：

步骤一，首先利用辅助解码器中Patch partition对图像进行区块划分；通过LinearEmbeding转化维度，通过Patch Merging生成分层的特征表示；通过Swin Transformer块用于进行特征表示学习，增加其全局建模能力，并利用通道增强模块加强通道间的特征关系；

4.如权利要求3所述基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述利用辅助编码器进行图像的区块划分，通过Linear Embeding转化维度，并生成分层特征表示包括：

其次，利用Linear Embeding进行图像特征尺寸的转换；同时利用Swin Transformer块和Patch merging层生成分层的特征表示；

所述生成分层特征表示包括：

其中和s^l分别代表了第l个(S)W-MSA和MLP模块的输出。

5.如权利要求3所述基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述利用通道增强模块加强通道间的特征关系包括：

6.如权利要求3所述基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述利用特征增强模块获取图像数据深层次特征包括：

7.如权利要求3所述基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述利用多尺度特征融合模块进行多种尺度特征的融合包括：

首先，对输入特征进行Softpool处理：

最后，经过3×3卷积和Relu激活函数，将通道数变换为原来的四分之一，将四个拼接进行多尺度特征融合；

所述利用多尺度特征融合模块进行多种尺度特征的融合如下：

Y_n＝Softpool(X)

T_n＝Bi(σ(Conv1×1(Y_n)))

W_n＝σ(Conv3×3(T_n))

Z＝[W₁₆,W₈,W₄,W₂]

其中，Bi表示双线性插值，σ表示Relu函数，表示输入特征；/>表示输入特征经Softpool处理后的输出；n表示下采样倍数。

8.如权利要求3所述基于双分支多尺度语义分割网络的图像处理方法，其特征在于，所述利用解码器进行三次特征解码，对特征使用卷积层和Argmax得到最后的预测图像包括：

1)将多尺度特征融合模块输出特征与CNN-Block3模块输出拼接；经过3×3大小的卷积核进行卷积并经过Relu激活函数进行特征解码和减少通道尺寸；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8任意一项所述基于双分支多尺度语义分割网络的图像处理方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于执行权利要求1-8任意一项所述基于双分支多尺度语义分割网络的图像处理方法。