CN116843896A

CN116843896A - 一种基于Transformer的轻量级语义分割方法及系统

Info

Publication number: CN116843896A
Application number: CN202310681412.5A
Authority: CN
Inventors: 曹宇; 姜明新; 王梓轩; 甘峰瑞; 陆易
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-10-03

Abstract

本发明公开了一种基于Transformer的轻量级语义分割方法及系统，对预先获取的图像进行特征提取，得到待处理图像的特征图F1；构建特征聚集模块，对通道信息聚合，得到对应于待处理图像的特征图F2；构建基于Transformer的双边引导聚合查询更新层BGA‑QULayer，对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合；对注意力聚合更新特征图进行语义分割，得到语义分割结果。本发明聚合了多尺度信息，弥补边缘细节信息，加强深层语义引导的特征，融合特征网络中通道信息的权重，避免进行非线性激活时丢失信息，同时，查询更新能很好的帮助特征信息进行分组，提升了分割精度。

Description

一种基于Transformer的轻量级语义分割方法及系统

技术领域

本发明涉及一种语义分割方法，具体为一种基于Transformer的轻量级语义分割方法，可用于语义分割场景下。

背景技术

语义分割可预测图像中每个像素的类别，作为计算机视觉领域的一个重要方向，将语义分割应用于工业生产、医疗成像、自动驾驶等，具有重要的研究意义。

近年来，Transformer的表现已经大大超过CNN和RNN，其整个网络结构完全由注意力机制(Self-Attention)以及前馈神经网络(Position-wise Feed Forward Network)组成，基于注意力的模型的主要优点之一是关注相关的信息而忽略那些不相关的信息，注意力机制是从整个输入序列中聚合特征信息的神经网络层，Transformers引入了Self-Attention，它通过扫描序列上的每个元素，并通过将整个序列的特征信息聚合起来来完成更新，相比在长序列上的RNN而言，其优点是可以并行计算，更为适合。Transformer首先应用于图像分类上，Vision Transformer(ViT)是一种用于图像分类的模型，它在图像的patch上采用了类似Transformer的结构进行图像分类任务，自Dosovitskiy等人引入Vision Transformers以来，语义分割领域发生了重大变革，越来越多的基于Transformer的语义分割工作开始展开，尽管在分割精确度上都取得了很好的表现，但在一些特定场景下的表现不尽如人意。

现如今的技术方案大都以编码器-解码器(Encoder-Decoder)的结构为主，MobileViT是第一个成功基于轻量级CNN网络性能的轻量级ViT工作，取得了成功；SegFormer通过层次化Transformer Encoder结构,并采用仅由几个FC构成的解码器实现更加高效的语义分割；TopFormer进一步研究CNN和ViT，结合它们的优点，通过CNN中常用的金字塔结构来把高分辨率图像快速生成特征,减少计算量，实现其识别精度和计算成本的良好平衡；SETR在编码器上的设计与以VIT作为backbone相似的同时，其在解码器的设计上采用渐进式上采样(Progressive UPsampling)缓解大量的噪声，以及与特征金字塔网络类似的多层次特征加总(Multi-Level featureAggregation,MLA)，改变现有的语义分割模型架构；RTFormer设计GPU友好注意力模块(GPU-FriendlyAttention)，在全局上下文信息聚合上采用跨注意力机制，使用了一种不同分辨率融合结构，消除了多头机制；SeaFormer提出Squeeze-enhanced Axial Transformer，其使用带有的轴向压缩(squeeze Axial)和细节增强(detail enhancement)的注意力模块该模块构建backbone同时，设计了轻量级的分割头，兼顾速度和精度，取得了进一步的突破。

在服务器端，针对多类别语义分割数据集，Transformer均获得了惊人的效果，随着Vision Transformer的发展，使得很多工作者在语义分割领域考虑使用Transformer来完成。然而，Vision Transformer的计算量和内存占用都很大，其他同样基于Transformer的一些工作如TopFormer、SETR、RTFormer、SeaFormer轻量级语义分割网络要取得好的结果，对预训练和数据集大小都有较大的依赖性。而使用轻量级语义分割模型在移动端，尤其在面对高分辨率的语义分割任务时，在精度和速度之间难以寻求平衡，其性能仍然不令人满意。

发明内容

发明目的：本发明的目的是提供一种基于Transformer的轻量级语义分割方法及系统，通过深度学习的方法提取特征，经过特征聚集模块聚合特征信息，输入到双边引导聚合查询更新层中，通过分割头进行语义分割并得到语义分割结果。

技术方案：本发明提供一种基于Transformer的轻量级语义分割方法，具体包括以下步骤：

(1)对预先获取的图像进行特征提取，得到待处理图像的特征图F1；

(2)构建特征聚集模块，对通道信息聚合，得到对应于待处理图像的特征图F2；

(3)构建基于Transformer的双边引导聚合查询更新层BGA-QU Layer，对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合；

(4)对注意力聚合更新特征图进行语义分割，得到语义分割结果。

进一步地，所述步骤(1)实现过程如下：

采用MobileNetV2网络进行特征提取，将图像输入网络，使用Conv3×3的标准卷积，增加局部上下文信息，其stride＝2，再将其输入到4个MobileNetv2网络中，其中第2个和第4个MobileNetv2的步距stride＝2，得到1/8的特征图F1。

进一步地，所述步骤(2)实现过程如下：

采用一个MobileNetv2和特征聚集模块FAM，MobileNetv2进行图像的进一步特征提取，特征聚集模块先进行通道扩张，然后进行通道缩减，将特征图F∈R^H×W×C输入到Conv1×1的常规卷积中，得到扩大通道的F∈R^H×W×C0，使用Dwconv3×3卷积聚合特征，同时减少计算量，步距stride＝2，再进行BN-ReLU6操作，得到的F∈R^H/2×W/2×C0；再通过Conv1×1的卷积和BN操作，以将深度卷积的输出投影到低通道容量空间中得到F∈R^H/2×W/2×C1，旁路采用一个Dwconv3×3卷积收集局部空间信息特征扩展到深层特征，步距stride＝2，使用BN加速网络收敛，控制过拟合，Conv1×1卷积调整通道数，最后进行加法操作得到1/16的特征图F2∈R^H ^/2×W/2×C1。

进一步地，步骤(3)所述双边引导聚合查询更新层BGA-QU Layer由双边引导聚合模块和查询更新策略两部分组成。

进一步地，，所述双边引导聚合模块，对步骤(2)输出的特征图F2经过上采样到和1/8的特征图F1一样大小F2’，并和F1进行Concat拼接操作，融合特征，聚合了多尺度信息，弥补小目标的边缘细节信息；然后进行Conv1×1卷积、BN、ReLU6操作；F2’进行GAPooling 3×3卷积、BN、Conv1×1卷积后的结果F2"使用Sigmoid操作，进行元素级乘法操作，得到深层语义引导的特征图，GAPooling 3×3卷积作为网络的非线性激活层，减少参数的数量，增加网络的稳定性和准确性，Sigmoid操作融入特征网络的通道信息的权重；最后Dwconv3×3卷积聚合特征，BN、Conv1×1卷积调整作为最终查询更新X1；F2"进行BN、ReLU6、Broadcast操作扩展到F2’大小并和F2’进行加法操作得到X2，嵌入全局上下文信息；以上操作公式表达如下：

F₂'＝Upsample(F₂)

F₁'＝ReLU6(BN(Conv(Concat(F₂',F₁))))

F₂”＝Conv(BN(GAPooling(F₂')))

X₀＝F₁'·Sigmoid(F₂”)

X₁＝Conv(BN(Dwconv(X₀)))

F₂”'＝Broadcast(ReLU6(BN(F₂”)))

X₂＝F₂”'+F₂'。

进一步地，所述查询更新策略为：

用深层语义初步引导浅层聚合信息K、V，再用浅层聚合信息查询更新后的浅层聚合信息K、V，帮助特征信息进行分组；

语义关系引导：将X1投影的K、V与X2投影的Q输入到MHSA中，输出的结果与X2相加并进行Layernorm操作得到Xm1；

特征嵌入：使用前馈网络FFN处理Xm1，输出的结果与Xm1相加并进行Layernorm操作得到Xm1’；

浅层查询更新：将Xm1’投影的K、V与X1投影的Q输入到MHSA中，输出的结果与X1相加并进行Layernorm操作得到Xm2；

更新特征嵌入：使用前馈网络FFN处理Xm2，输出的结果与Xm2相加并进行Layernorm操作得到Xm2’，公式表示如下：

X_m1＝Norm(X₂+MHSA(X₂,X₁,X₁))

X_m1'＝Norm(X_m1+FFN(X_m1))

X_m2＝Norm(X₁+MHSA(X₁,X_m1',X_m1'))

X_m2'＝Norm(X_m2+FFN(X_m2))。

进一步地，所述步骤(4)实现过程如下：

将经过两次BGA-QULayer处理的输出结果输入到分割头中，对特征图进行语义分割，调整通道数，进行Conv1×1、BN、ReLU6和Conv1×1操作，得到语义分割结果。

本发明提供一种基于Transformer的轻量级语义分割系统，包括：

特征提取模块，对预先获取的图像进行特征提取，得到待处理图像的特征图F1；

特征聚集模块，对通道信息聚合，得到对应于待处理图像的特征图F2；

双边引导聚合查询更新层模块，对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合；

语义分割模块，将经过两次BGA-QU Layer处理的输出结果输入到分割头中，对特征图进行语义分割，得到语义分割结果。

本发明提供一种装置设备，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行上所述基于Transformer的轻量级语义分割方法的步骤。

本发明提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述基于Transformer的轻量级语义分割方法的步骤。

有益效果：与现有技术相比，本发明的有益效果：本发明构建的特征聚集模块有效聚集了窄通道中的低层特征信息，同时在低层空间收集局部空间信息特征并扩展到深层特征；构建的双边引导聚合查询更新层包含双边引导聚合模块和查询更新，双边引导聚合模块聚合了多尺度信息，弥补边缘细节信息，加强深层语义引导的特征，融合特征网络中通道信息的权重，避免进行非线性激活时丢失信息，同时，查询更新能很好的帮助特征信息进行分组，提升了分割精度。

附图说明

图1为本发明提出的轻量级语义分割网络结构示意图；

图2为本发明提出的特征聚集模块结构示意图；

图3为本发明提出的双边引导聚合查询更新层结构示意图；

图4为本发明提出的分割头结构示意图；

图5为在ADE20K数据集上的图像分割效果图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提供了一种一种基于Transformer的轻量级语义分割方法，包括对输入图像进行特征提取，使用特征聚集模块对通道信息聚合，得到对应于待处理图像的特征图；对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合，基于Transformer的注意力机制处理，得到注意力聚合更新特征图；对注意力聚合更新特征图进行语义分割，完成语义分割网络构建。具体实现过程如下：

如图1所示，本发明构建的轻量级语义分割网络包括MV2(MobileNetv2)、特征聚集模块(Feature aggregation module,FAM)、双边引导聚合查询更新层(Bilateral GuidedAggregation and Query update Layer,BGA-QU Layer)、分割头(Seg Head)。

步骤1：对输入图像进行特征提取，得到对应于待处理图像的特征图F1，本方法采用MV2(MobileNetV2)作为特征提取网络，不同于常规卷积的每个卷积核同时操作输入图片的每个通道，MV2提出的Depthwise Convolution的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，能大大减少参数和运算量。将图像输入网络，使用Conv3×3的标准卷积，增加局部上下文信息，其stride＝2，再将其输入到4个MV2模块中，其中第2个和第4个MV2的步距stride＝2，最终得到1/8的特征图F1。

步骤2：构建特征聚集模块，在特征提取的过程中，低层特征图的通道的个数比较少的时候，所有的特征信息都集中在比较窄的通道中，这这时候进行非线性激活比如ReLU，会丢失很多信息。本方法采用一个MV2(MobileNetv2)和设计的特征聚集模块(Featureaggregation module,FAM)，MV2进行图像的进一步特征提取，特征聚集模块先进行通道扩张，然后进行通道缩减，如图2所示，为特征聚集模块示意图，将特征图F∈R^H×W×C输入到Conv1×1的常规卷积中，得到扩大通道的F∈R^H×W×C0。BN-ReLU6操作帮助更好的进行特征选择，使用Dwconv3×3卷积聚合特征，同时减少计算量，步距stride＝2，再进行BN-ReLU6操作，得到的F∈R^H/2×W/2×C0再通过Conv1×1的卷积和BN操作，以将深度卷积的输出投影到低通道容量空间中得到F∈R^H/2×W/2×C1，旁路采用一个Dwconv3×3卷积收集局部空间信息特征扩展到深层特征，步距stride＝2，使用BN加速网络收敛，控制过拟合，Conv1×1卷积调整通道数，最后进行加法操作得到1/16的特征图F2∈R^H/2×W/2×C1。

步骤3：构建基于Transformer的双边引导聚合查询更新层(Bilateral GuidedAggregation and Query update Layer，BGA-QU Layer),如图3所示，示出了BGA-QU Layer的具体结构图，由双边引导聚合模块(Bilateral Guided Aggregation Module)和查询更新(Query update)策略两部分组成，在左侧的双边引导聚合模块里，对步骤2输出结果1/16的特征图F2经过上采样到和1/8的特征图F1一样大小F2’，并和F1进行Concat拼接操作，融合特征，聚合了多尺度信息，弥补了小目标的边缘细节信息，然后进行Conv1×1卷积、BN(Batch Normalization)、ReLU6操作，F2’进行GAPooling 3×3卷积、BN、Conv1×1卷积后的结果F2"使用Sigmoid操作，进行元素级乘法操作，得到深层语义引导的特征图，GAPooling3×3卷积作为网络的非线性激活层，减少参数的数量，增加网络的稳定性和准确性，Sigmoid操作融入特征网络的通道信息的权重。最后Dwconv3×3卷积聚合特征，BN、Conv1×1卷积调整作为最终查询更新X1。F2"进行BN、ReLU6、Broadcast操作扩展到F2’大小并和F2’进行加法操作得到X2，嵌入全局上下文信息。以上操作可用公式表达如下：

F₂'＝Upsample(F₂)

F₁'＝ReLU6(BN(Conv(Concat(F₂',F₁))))

F₂”＝Conv(BN(GAPooling(F₂')))

X₀＝F₁'·Sigmoid(F₂”)

X₁＝Conv(BN(Dwconv(X₀)))

F₂”'＝Broadcast(ReLU6(BN(F₂”)))

X₂＝F₂”'+F₂'。

查询更新(Query update)策略的目的是用深层语义初步引导浅层聚合信息K、V，再用浅层聚合信息查询更新后的浅层聚合信息K、V，帮助特征信息进行分组。如图3所示，MHSA(Multi-Head Self-Attention)、FFN(Feed-Forward Network)为已有的技术，add为加法操作、norm为Layer norm。语义关系引导：将X1投影的K、V与X2投影的Q输入到MHSA中，输出的结果与X2相加并进行Layer norm操作得到Xm1。特征嵌入：使用前馈网络FFN处理Xm1，输出的结果与Xm1相加并进行Layer norm操作得到Xm1’。浅层查询更新：将Xm1’投影的K、V与X1投影的Q输入到MHSA中，输出的结果与X1相加并进行Layer norm操作得到Xm2。更新特征嵌入：使用前馈网络FFN处理Xm2，输出的结果与Xm2相加并进行Layer norm操作得到Xm2’，以上操作可用公式表示如下：

X_m1＝Norm(X₂+MHSA(X₂,X₁,X₁))

X_m1'＝Norm(X_m1+FFN(X_m1))

X_m2＝Norm(X₁+MHSA(X₁,X_m1',X_m1'))

X_m2'＝Norm(X_m2+FFN(X_m2))。

步骤4：重复步骤3，将输出结果输入到如图4所示的分割头(Seg Head)中，根据调整后特征图进行语义分割，得到语义分割结果。

深层网络的感受野比较大，语义信息丰富，但分辨率低，缺乏几何细节，低层网络的感受野比较小，几何细节信息丰富，分辨率高，语义信息较少。将步骤2输出结果继续输入到2个MV2(MobileNetv2)，第2个MV2其stride＝2，得到1/32的特征图。为了结合两者优势，采用两个BGA-QU Layer分别处理1/16和1/32的特征，并结合1/8特征，处理的输出结果输入到分割头(Seg Head)中，对特征图进行语义分割，调整通道数，进行Conv1×1、BN、ReLU6和Conv1×1操作，得到语义分割结果。

本发明提供一种基于Transformer的轻量级语义分割系统，包括：特征提取模块，对预先获取的图像进行特征提取，得到待处理图像的特征图F1；特征聚集模块，对通道信息聚合，得到对应于待处理图像的特征图F2；双边引导聚合查询更新层模块，对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合；语义分割模块，将经过两次BGA-QU Layer处理的输出结果输入到分割头中，对特征图进行语义分割，得到语义分割结果。

本发明还提供一种装置设备，包括存储器和处理器，其中：存储器，用于存储能够在处理器上运行的计算机程序；处理器，用于在运行所述计算机程序时，执行上所述基于Transformer的轻量级语义分割方法的步骤。

本发明还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述基于Transformer的轻量级语义分割方法的步骤。

本实施方式中采用ubuntu18.04操作系统，Python版本为3.7.计算机的主要配置为15核Intel(R)Xeon(R)Platinum 8358PCPU@2.60GHz内存:32GB，V100GPU(16.00GBmemory)。本文采用平均交并比MIoU作为语义分割任务的评估指标。Batch size设置为16，最大迭代次数为160000，优化器(Optimizer)使用AdamW优化网络，beta1:0.9，beta2:0.999，weight decay：0.01，采用多项式衰减调整学习率(polynomial decay)，学习率lr为0.00025，采用交叉熵损失函数(Cross Entropy Loss)。在ADE20K数据集上对实验进行验证，由MIT CSAIL Computer Vision Group发布，其涵盖了场景、对象以及对象部分的各种注释，超过25k张复杂场景的图像，每个图像中平均有19.5个实例和10.5个对象类，共包括训练集：20210张，验证集：2000张，测试集：3000张。

表1在ADE20K数据集上的对比

如表1所示，在数据集中，与其他3种目前性能比较好的轻量级语义分割方法进行比较，分别是：SeaFormer,TopFormer,RTFormer。如表1所示，本发明以相当或更少的FLOP和延迟优于这些方法，本发明实现了更高的分割精度，相对于TopFormer-S、TopFormer-B、RTFormer-S和SeaFormer-S分别提高3.3％、1.5％、3.1％和1.7％。

分割效果部分实验结果如图5所示，在边缘细节分割上，本发明能清晰识别出轮胎边缘和汽车影子的边界，汽车前端的分割细节效果表明本方法也优于这些方法，结果表明，本发明显著提高了最终的分割效果。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于Transformer的轻量级语义分割方法，其特征在于，包括以下步骤：

(3)构建基于Transformer的双边引导聚合查询更新层BGA-QULayer，对特征图浅层和深层进行双边引导聚合，分别得到语义特征引导和语义特征聚合；

2.根据权利要求1所述的一种基于Transformer的轻量级语义分割方法，其特征在于，所述步骤(1)实现过程如下：

3.根据权利要求1所述的一种基于Transformer的轻量级语义分割方法，其特征在于，所述步骤(2)实现过程如下：

采用一个MobileNetv2和特征聚集模块FAM，MobileNetv2进行图像的进一步特征提取，特征聚集模块先进行通道扩张，然后进行通道缩减，将特征图F∈R^H×W×C输入到Conv1×1的常规卷积中，得到扩大通道的F∈R^H×W×C0；使用Dwconv3×3卷积聚合特征，同时减少计算量，步距stride＝2，再进行BN-ReLU6操作，得到的F∈R^H/2×W/2×C0；再通过Conv1×1的卷积和BN操作，以将深度卷积的输出投影到低通道容量空间中得到F∈R^H/2×W/2×C1，旁路采用一个Dwconv3×3卷积收集局部空间信息特征扩展到深层特征，步距stride＝2，使用BN加速网络收敛，控制过拟合，Conv1×1卷积调整通道数，最后进行加法操作得到1/16的特征图F2∈R^H ^/2×W/2×C1。

4.根据权利要求1所述的一种基于Transformer的轻量级语义分割方法，其特征在于，步骤(3)所述双边引导聚合查询更新层BGA-QULayer由双边引导聚合模块和查询更新策略两部分组成。

5.根据权利要求4所述的一种基于Transformer的轻量级语义分割方法，其特征在于，所述双边引导聚合模块，对步骤(2)输出的特征图F2经过上采样到和1/8的特征图F1一样大小F2’，并和F1进行Concat拼接操作，融合特征，聚合了多尺度信息，弥补小目标的边缘细节信息；然后进行Conv1×1卷积、BN、ReLU6操作；F2’进行GAPooling3×3卷积、BN、Conv1×1卷积后的结果F2"使用Sigmoid操作，进行元素级乘法操作，得到深层语义引导的特征图，GAPooling3×3卷积作为网络的非线性激活层，减少参数的数量，增加网络的稳定性和准确性，Sigmoid操作融入特征网络的通道信息的权重；最后Dwconv3×3卷积聚合特征，BN、Conv1×1卷积调整作为最终查询更新X1；F2"进行BN、ReLU6、Broadcast操作扩展到F2’大小并和F2’进行加法操作得到X2，嵌入全局上下文信息；以上操作公式表达如下：

F₂'＝Upsample(F₂)

F₁'＝ReLU6(BN(Conv(Concat(F₂',F₁))))

F₂”＝Conv(BN(GAPooling(F₂')))

X₀＝F₁'·Sigmoid(F₂”)

X₁＝Conv(BN(Dwconv(X₀)))

F₂”'＝Broadcast(ReLU6(BN(F₂”)))

X₂＝F₂”'+F₂'。

6.根据权利要求4所述的一种基于Transformer的轻量级语义分割方法，其特征在于，所述查询更新策略为：

X_m1＝Norm(X₂+MHSA(X₂,X₁,X₁))

X_m1'＝Norm(X_m1+FFN(X_m1))

X_m2＝Norm(X₁+MHSA(X₁,X_m1',X_m1'))

X_m2'＝Norm(X_m2+FFN(X_m2))。

7.根据权利要求1所述的一种基于Transformer的轻量级语义分割方法，其特征在于，所述步骤(4)实现过程如下：

8.一种采用如权利要求1-7任一所述方法的基于Transformer的轻量级语义分割系统，包括：

语义分割模块，将经过两次BGA-QULayer处理的输出结果输入到分割头中，对特征图进行语义分割，得到语义分割结果。

9.一种装置设备，其特征在于，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如权利要求1-7任一项所述基于Transformer的轻量级语义分割方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时实现如权利要求1-7任一项所述基于Transformer的轻量级语义分割方法的步骤。