CN116071553A

CN116071553A - 基于朴素VisionTransformer的弱监督语义分割方法与装置

Info

Publication number: CN116071553A
Application number: CN202310160328.9A
Authority: CN
Inventors: 李特; 顾建军; 朱良辉; 李应悦; 王兴刚
Original assignee: Huazhong University of Science and Technology; Zhejiang Lab
Current assignee: Huazhong University of Science and Technology; Zhejiang Lab
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-05

Abstract

本发明公开了一种基于朴素Vision Transformer的弱监督语义分割方法，包括：将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出；然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM，并从编码器的模型参数中提取出自注意力图；接着通过自适应注意力图融合模块对自注意力图进行融合，得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM；最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测，与类别标记计算交叉熵损失函数来对网络进行优化；基于梯度截断解码器的在线再训练。本发明还提供了相应的基于朴素Vision Transformer的弱监督语义分割装置。

Description

基于朴素VisionTransformer的弱监督语义分割方法与装置

技术领域

本发明属于计算机视觉中的弱监督语义分割技术领域，更具体地，涉及一种基于朴素Vision Transformer的弱监督语义分割方法与装置。

背景技术

语义分割是计算机视觉中的一项基本任务，此任务旨在预测图像中每个像素的类别标签。随着深度神经网络的快速发展，语义分割的性能得到了极大的提高。然而基于像素级注释的强监督学习方法非常昂贵和耗时，为了减轻人工标注的负担，越来越多的研究者转向对弱监督语义分割(Weakly-Supervised Semantic Segmentation，WSSS)的研究。仅使用边界框标注、潦草标注、点标注或图像级分类标注即可完成弱监督语义分割。与逐像素标注相比，弱监督标注的时间消耗更少，成本更低。本文主要研究最具挑战的基于图像级分类标注的WSSS方法。

由于缺乏像素级标注，基于图像级分类标注的WSSS方法通常需要首先通过类激活图(Class Activation Maps，CAM)生成粗略位置标注。CAM是一种基于深度分类网络的技术，用来生成通道数与总类别数相同的特征图。特征图包含每个类别物体的近似位置，我们可以从特征图中获得初始CAM种子。然而，CAM只能识别出物体中最具区分性的区域，通常需要使用其他方法来优化CAM得到伪标签。

为了识别出更完整的物体，有许多方法关注如何优化CAM。SEC方法通过种子拓展的方法扩展稀疏CAM标记。DSRG结合种子区域生长方法扩展CAM线索。类似的方法是DGCN，它通过使用传统的图切割算法将标记分配给种子周围的区域。AffinityNet和IRNet使用随机游走的方法扩展标记。AuxSegNet通过学习交叉任务的亲和力传播标记。还有一些方法使用反向擦除来帮助CAM将更多的注意力集中在非区分性的区域。SEAM探索了不同仿射变换下CAM的一致性。另外还有一些方法选择引入网络数据，如Co-segmentation和STC。但这种使用如随机游走的方式来增强标注然后在Deeplab上再训练的方法相对还是比较复杂。

近年来，许多研究者将Transformer应用到了计算机视觉领域中。VisionTransformer(ViT)首次展现了Transformer在图像分类任务中的优越性能。ViT模型的主要思路为将图像转换为非重叠的补丁标记，然后将这些标记与类标记一起输入到Transformer结构中。最后使用全连接层将类标记映射为类别预测。随着ViT的出现，涌现出了一些基于transformer来获取CAM种子的方法。TS-CAM首次将Transformer引入到弱监督物体定位任务中，该工作使用类标记和补丁标记之间的交叉注意力图来获得定位线索。获取交叉注意力图需要对同一层的不同注意力头进行平均，然后在不同层上求和。在此之后，使用交叉注意图与补丁标记通过卷积生成的CAM相结合。在该方法之后，MCTformer将Transformer引入到弱监督语义分割任务中，提出了以多个类标记作为输入，以学习不同类的交叉注意力图。在CAM生成阶段，通过使用补丁自注意力图对CAM进行了额外优化。另外TransCAM以混合使用transformer和卷积的conformer作为主干网络，同样使用了补丁自注意力图来优化CAM。

上述基于Transformer的WSSS方法的主要在后处理阶段使用Transformer的自注意力图来增强CAM种子。当我们得到自注意力图时，上述方法直接将同一层下不同头部的自注意力图平均，然后在不同层上求和。然而，我们应该指出的是，在后处理阶段对Transformer自注意力图进行平均求和的方法是粗糙的。由于Transformer的不同注意力头聚焦于不同的目标，对应的细节和语义信息也不同。如果使用均值求和的方法，那么不聚焦于前景物体的注意力头将与聚焦于前景物体的注意力头被赋予相同的权重。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于朴素VisionTransformer的弱监督语义分割方法WeakTr，提出了使用自适应注意力融合模块来衡量不同注意力头对CAM的重要性以及使用基于ViT的梯度截断解码器对伪标签进行在线再训练。其目的在于提高基于Vision Transformer的弱监督语义分割性能，解决了Transformer中的无关注意力头对CAM生成结果的误导以及传统WSSS方法对CAM细化和再训练耗时且复杂的问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于朴素VisionTransformer的弱监督语义分割方法，包括如下步骤：

(1)用来生成CAM的分类网络框架使用朴素ViT作为主干网络，将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出；然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM，并从编码器的模型参数中提取出自注意力图；接着通过自适应注意力图融合模块对自注意力图进行融合，得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM；最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测，与类别标记计算交叉熵损失函数来对网络进行优化；

(2)基于梯度截断解码器的在线再训练，其中transformer编码器的实施方式与上一步中相同，而为了对CAM种子中的噪声进行处理，在transformer解码器中加入了梯度裁剪的部分，来截断在反向传播时噪声的梯度回传，利用再训练后得到的模型实现对图像的语义分割。

本发明的一个实施例中，Transformer编码器由多层多头自注意力MSA层组成，将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。

本发明的一个实施例中，Transformer编码器的实现具体为：

将输入图像划分为N²块然后通过线性变换将得到N²个补丁标记，同时设置C个可学习的类别标记，将其与补丁标记合并作为transformer编码器的输入

D是输入标记的维度；Transformer的编码器由K个编码层组成，在每个编码层，输入标记T_in首先需要通过LayerNorm层进行标准化然后输入到MSA层中：

T_attn＝T_in+MSA(LN(T_in))#

然后，对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机MLP层中得到编码层的输出：

T_out＝T_attn+MLP(LN(T_attn))#

那么对于下一编码层，T_out便作为T_in输入，如此重复K次得到最终输出

本发明的一个实施例中，粗糙CAM生成具体包括：

得到编码器的特征输出后，基于输出的补丁标记部分通过卷积层来得到粗糙CAM，并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。

本发明的一个实施例中，提取自注意力图具体包括：

基于编码器的输出来生成类激活图CAM，编码器的输出分为类标记部分

以及补丁标记部分

用补丁标记部分来生成CAM；首先对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图

然后从编码器的模型参数中提取出自注意力图

来优化CAM_coarse，其中H为每个编码层注意力头的数量；考虑类标记和补丁标记，自注意力图分为交叉注意力图

和补丁注意力图

本发明的一个实施例中，自适应注意力图融合具体包括：

通过全局池化由自注意力图A得到动态权重

然后将其输入前馈网络FFN得到交互权重

作为合并注意力图的权重，最后将其乘回自注意力图得到加权合并的自注意力图结果：

本发明的一个实施例中，优化粗CAM具体包括：

利用

和

对CAM_coarse进行优化得到最终的输出CAM：

其中

是将矩阵形状变换为N×N×C，

是将矩阵形状变换为N²×C，⊙是指阿达玛乘积；

得到最终的CAM输出后，对CAM进行argmax操作得到分割掩码，然后使用密度条件随机场CRF进行后处理得到CAM种子，将在第二步进行在线再训练。

本发明的一个实施例中，分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测，与类别标记计算交叉熵损失函数来对网络进行优化；

首先，对编码器的输出类标记部分T_{final-classes}通过全局池化层得到类别预测

然后与类别标签y计算交叉熵损失函数：

然后对于CAM_coarse和CAM_fine同样通过全局池化层得到类别预测，并与标签y计算损失函数得到L_Coarse-CAM和L_Fine-CAM；

最后将上述的损失函数求和得到总损失：

本发明的一个实施例中，所述步骤(2)具体包括：

首先将transformer编码器得到的类标记Q和补丁标记T输入到transformer解码器中得到

和

将这两项标准化并相乘然后上采样就得到分割预测结果

然后通过将预测结果与CAM种子计算交叉熵损失函数得到梯度矩阵

通过对梯度矩阵设置阈值来实现梯度截断，即截断梯度较大部分的反向传播；为了实现局部梯度截断，将矩阵划分为L²块

分别计算每块的局部平均梯度值{λ_i}以及全局平均梯度值λ_global；

λ_global＝mean(λ_i)，i∈[1，...，L²}

将选取{λ_i}和λ_global中较大的值作为阈值得到截断掩码

设置截断初始阈值τ，只有当全局平均梯度λ_global小于τ时才开始梯度截断，得到的用于反向传播的梯度矩阵如下：

通过将截断掩码乘到原始梯度矩阵上，在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞，这部分的网络预测结果将会被保留，从而实现对CAM种子中的错误区域进行自修正。

按照本发明的另一方面，还提供了一种基于朴素Vision Transformer的弱监督语义分割装置，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明利用了朴素ViT中多层多头自注意力图的固有特性，设计了一种有效的自适应注意力融合策略，以生成高质量的类激活图；第一次揭示了不同注意头对CAM和WSSS的重要性；

(2)本发明提出了一种带有梯度截断解码器的在线再训练方法来利用ViT的上下文输出标记，它允许我们通过在线再训练来重新训练和自纠正CAM种子；

(3)本发明的WeakTr充分发掘了朴素ViT在WSSS领域的潜力，并在两个具有挑战性的WSSS基准上取得了最先进的结果分别在PASCAL VOC 2012和COCO 2014验证集上，分别达到了78.4％和46.9％的mIoU。

附图说明

图1为本发明实施例中WeakTr方法的原理概述；WeakTr首先将输入图像分成多块然后通过线性变换得到图像补丁标记，之后将其与多个类标记合并输入到transformer编码器中；接下来通过对补丁标记应用卷积层来生成粗糙CAM；然后，使用自适应注意力融合模块从所有自注意力图生成动态权重，并通过前馈网络(FFN)使动态权重相互作用；最后使用加权交叉注意力图和加权补丁注意力图将粗CAM优化为细CAM；类标记、粗CAM和细CAM最终通过全局平均池化生成预测，以计算相应的预测损失；

图2为本发明实施例中梯度截断解码器的原理概述；本发明中梯度截断解码器首先将与transformer编码器中的类别相对应的补丁标记和类标记输入到transformer解码器层；在对解码器层进行操作后，通过组合类标记和补丁标记来获得相应的补丁预测；然后对获得的补丁预测进行上采样，并使用CAM种子计算梯度图；最后动态生成梯度裁剪掩码，并将梯度截断掩码与原始梯度映射相乘。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

我们提出的WeakTr总共包括两个步骤，首先基于一个分类模型来完成CAM的生成并得到CAM种子，然后在基于梯度截断解码器分割模型上的完成对CAM种子的在线再训练，接下来我将依次对这两个步骤具体的实施方式进行说明。

1.CAM生成

如图1所示，我们用来生成CAM的分类网络框架使用朴素ViT作为主干网络。首先将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出。然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM，并从编码器的模型参数中提取出自注意力图。接着通过自适应注意力图融合模块对自注意力图进行融合，得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM。最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测，与类别标记计算交叉熵损失函数来对网络进行优化。

(1)Transformer编码器

Transformer编码器由多层多头自注意力(Multi-head Self-Attention，MSA)层组成，将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。

首先，我们将输入图像划分为N²块然后通过线性变换将得到N²个补丁标记，同时我们设置了C个可学习的类别标记，将其与补丁标记合并作为transformer编码器的输入

D是输入标记的维度。Transformer的编码器由K个编码层组成，在每个编码层，输入标记T_in首先需要通过LayerNorm(LN)层进行标准化然后输入到MSA层中：

T_attn＝T_in+MSA(LN(T_in))

然后，对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机(Multi-Layer Perceptron，MLP)层中得到编码层的输出：

T_out＝T_attn+MLP(LN(T_attn))#

(2)粗糙CAM生成和提取自注意力图

得到编码器的特征输出后，首先可基于输出的补丁标记部分通过卷积层来得到粗糙CAM，并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。

接下来就是基于编码器的输出来生成类激活图CAM，编码器的输出可分为类标记部分

以及补丁标记部分

我们主要用到补丁标记部分来生成CAM。首先我们对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图

然后从编码器的模型参数中提取出自注意力图

来优化CAM_coarse，其中H为每个编码层注意力头的数量。考虑类标记和补丁标记，自注意力图可分为交叉注意力图

和补丁注意力图

(3)自适应注意力图融合和优化粗CAM

为了将所有层和所有头部的自注意力图进行合并，与之前的方法直接进行均值或求和不同，我们提出使用自适应注意力图融合模块来评估不同注意力图的重要性，通过加权求和的方式来合并所有自注意力图。然后分别以自注意力图中的交叉注意力图和补丁自注意力图来优化粗CAM得到细CAM。

首先我们通过全局池化由自注意力图A得到动态权重

然后将其输入前馈网络(Feed-Forward Network，FFN)得到交互权重

利用

和

对CAM_coarse进行优化得到最终的输出CAM：

其中

是将矩阵形状变换为N×N×C，

是将矩阵形状变换为N²×C，⊙是指阿达玛乘积。

得到最终的CAM输出后，对CAM进行argmax操作得到分割掩码，然后使用密度条件随机场(Conditional Random Field，CRF)进行后处理得到CAM种子，将在第二步进行在线再训练。

(4)损失函数计算

与之前方法在后处理阶段利用transformer自注意力图来优化CAM的方式不同，我们的自适应注意力融合模块是可以在训练过程中优化的。分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测，与类别标记计算交叉熵损失函数来对网络进行优化。

首先，我们对编码器的输出类标记部分T_{final-classes}通过全局池化层得到类别预测

然后与类别标签y计算交叉熵损失函数：

然后对于CAM_coarse和CAM_fine同样通过全局池化层得到类别预测，并与标签y计算损失函数得到L_Coarse-CAM和L_Fine-CAM。

最后将上述的损失函数求和得到总损失：

2.基于梯度截断解码器的在线再训练

如图2所示，我们的在线再训练模型由transformer编码器和基于梯度截断的解码器组成。其中transformer编码器的实施方式与上一步中相同，而为了对CAM种子中的噪声进行处理，我们在transformer解码器中加入了梯度裁剪的部分，来截断在反向传播时噪声的梯度回传，利用再训练后得到的模型对待分割图像进行语义分割。

我们首先将transformer编码器得到的类标记Q和补丁标记T输入到transformer解码器中得到

和

将这两项标准化并相乘然后上采样就得到分割预测结果

然后通过将预测结果与CAM种子计算交叉熵损失函数就可以得到梯度矩阵

我们通过对梯度矩阵设置阈值来实现梯度截断，即截断梯度较大部分的反向传播。为了实现局部梯度截断，我们将矩阵划分为L²块

可分别计算每块的局部平均梯度值{λ_i}以及全局平均梯度值λ_global。

λ_global＝mean(λ_i)，i∈[1，...，L²}

我们将选取{λ_i}和λ_global中较大的值作为阈值得到截断掩码

在实验过程中我们发现在训练时从头就开始梯度截断对结果的影响较大，因此我们设置了截断初始阈值τ，只有当全局平均梯度λ_global小于τ时才开始梯度截断，那么最后我们得到的用于反向传播的梯度矩阵如下：

通过将截断掩码乘到原始梯度矩阵上，那么在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞(梯度值为0)，这部分的网络预测结果将会被保留，从而实现对CAM种子中的错误区域进行自修正。在推断的过程中，我们加入了CRF来提高分割结果的质量。

在我们的在线再训练之后，网络已经可以生成高质量的伪标签。从实用性的角度来看，我们还得到了一个分割网络，以输出分割结果，而无需另一个再训练步骤。

进一步地，本发明还提供了一种基于朴素Vision Transformer的弱监督语义分割装置，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。