CN116071553A - 基于朴素VisionTransformer的弱监督语义分割方法与装置 - Google Patents

基于朴素VisionTransformer的弱监督语义分割方法与装置 Download PDF

Info

Publication number
CN116071553A
CN116071553A CN202310160328.9A CN202310160328A CN116071553A CN 116071553 A CN116071553 A CN 116071553A CN 202310160328 A CN202310160328 A CN 202310160328A CN 116071553 A CN116071553 A CN 116071553A
Authority
CN
China
Prior art keywords
cam
attention
class
encoder
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310160328.9A
Other languages
English (en)
Inventor
李特
顾建军
朱良辉
李应悦
王兴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Zhejiang Lab
Original Assignee
Huazhong University of Science and Technology
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Zhejiang Lab filed Critical Huazhong University of Science and Technology
Priority to CN202310160328.9A priority Critical patent/CN116071553A/zh
Publication of CN116071553A publication Critical patent/CN116071553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于朴素Vision Transformer的弱监督语义分割方法,包括:将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;基于梯度截断解码器的在线再训练。本发明还提供了相应的基于朴素Vision Transformer的弱监督语义分割装置。

Description

基于朴素VisionTransformer的弱监督语义分割方法与装置
技术领域
本发明属于计算机视觉中的弱监督语义分割技术领域,更具体地,涉及一种基于朴素Vision Transformer的弱监督语义分割方法与装置。
背景技术
语义分割是计算机视觉中的一项基本任务,此任务旨在预测图像中每个像素的类别标签。随着深度神经网络的快速发展,语义分割的性能得到了极大的提高。然而基于像素级注释的强监督学习方法非常昂贵和耗时,为了减轻人工标注的负担,越来越多的研究者转向对弱监督语义分割(Weakly-Supervised Semantic Segmentation,WSSS)的研究。仅使用边界框标注、潦草标注、点标注或图像级分类标注即可完成弱监督语义分割。与逐像素标注相比,弱监督标注的时间消耗更少,成本更低。本文主要研究最具挑战的基于图像级分类标注的WSSS方法。
由于缺乏像素级标注,基于图像级分类标注的WSSS方法通常需要首先通过类激活图(Class Activation Maps,CAM)生成粗略位置标注。CAM是一种基于深度分类网络的技术,用来生成通道数与总类别数相同的特征图。特征图包含每个类别物体的近似位置,我们可以从特征图中获得初始CAM种子。然而,CAM只能识别出物体中最具区分性的区域,通常需要使用其他方法来优化CAM得到伪标签。
为了识别出更完整的物体,有许多方法关注如何优化CAM。SEC方法通过种子拓展的方法扩展稀疏CAM标记。DSRG结合种子区域生长方法扩展CAM线索。类似的方法是DGCN,它通过使用传统的图切割算法将标记分配给种子周围的区域。AffinityNet和IRNet使用随机游走的方法扩展标记。AuxSegNet通过学习交叉任务的亲和力传播标记。还有一些方法使用反向擦除来帮助CAM将更多的注意力集中在非区分性的区域。SEAM探索了不同仿射变换下CAM的一致性。另外还有一些方法选择引入网络数据,如Co-segmentation和STC。但这种使用如随机游走的方式来增强标注然后在Deeplab上再训练的方法相对还是比较复杂。
近年来,许多研究者将Transformer应用到了计算机视觉领域中。VisionTransformer(ViT)首次展现了Transformer在图像分类任务中的优越性能。ViT模型的主要思路为将图像转换为非重叠的补丁标记,然后将这些标记与类标记一起输入到Transformer结构中。最后使用全连接层将类标记映射为类别预测。随着ViT的出现,涌现出了一些基于transformer来获取CAM种子的方法。TS-CAM首次将Transformer引入到弱监督物体定位任务中,该工作使用类标记和补丁标记之间的交叉注意力图来获得定位线索。获取交叉注意力图需要对同一层的不同注意力头进行平均,然后在不同层上求和。在此之后,使用交叉注意图与补丁标记通过卷积生成的CAM相结合。在该方法之后,MCTformer将Transformer引入到弱监督语义分割任务中,提出了以多个类标记作为输入,以学习不同类的交叉注意力图。在CAM生成阶段,通过使用补丁自注意力图对CAM进行了额外优化。另外TransCAM以混合使用transformer和卷积的conformer作为主干网络,同样使用了补丁自注意力图来优化CAM。
上述基于Transformer的WSSS方法的主要在后处理阶段使用Transformer的自注意力图来增强CAM种子。当我们得到自注意力图时,上述方法直接将同一层下不同头部的自注意力图平均,然后在不同层上求和。然而,我们应该指出的是,在后处理阶段对Transformer自注意力图进行平均求和的方法是粗糙的。由于Transformer的不同注意力头聚焦于不同的目标,对应的细节和语义信息也不同。如果使用均值求和的方法,那么不聚焦于前景物体的注意力头将与聚焦于前景物体的注意力头被赋予相同的权重。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于朴素VisionTransformer的弱监督语义分割方法WeakTr,提出了使用自适应注意力融合模块来衡量不同注意力头对CAM的重要性以及使用基于ViT的梯度截断解码器对伪标签进行在线再训练。其目的在于提高基于Vision Transformer的弱监督语义分割性能,解决了Transformer中的无关注意力头对CAM生成结果的误导以及传统WSSS方法对CAM细化和再训练耗时且复杂的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于朴素VisionTransformer的弱监督语义分割方法,包括如下步骤:
(1)用来生成CAM的分类网络框架使用朴素ViT作为主干网络,将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
(2)基于梯度截断解码器的在线再训练,其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型实现对图像的语义分割。
本发明的一个实施例中,Transformer编码器由多层多头自注意力MSA层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
本发明的一个实施例中,Transformer编码器的实现具体为:
将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时设置C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入
Figure BDA0004093901740000041
D是输入标记的维度;Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))#
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机MLP层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))#
那么对于下一编码层,Tout便作为Tin输入,如此重复K次得到最终输出
Figure BDA0004093901740000042
本发明的一个实施例中,粗糙CAM生成具体包括:
得到编码器的特征输出后,基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
本发明的一个实施例中,提取自注意力图具体包括:
基于编码器的输出来生成类激活图CAM,编码器的输出分为类标记部分
Figure BDA0004093901740000043
以及补丁标记部分
Figure BDA0004093901740000044
用补丁标记部分来生成CAM;首先对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图
Figure BDA0004093901740000045
然后从编码器的模型参数中提取出自注意力图
Figure BDA0004093901740000046
来优化CAMcoarse,其中H为每个编码层注意力头的数量;考虑类标记和补丁标记,自注意力图分为交叉注意力图
Figure BDA0004093901740000047
和补丁注意力图
Figure BDA0004093901740000048
本发明的一个实施例中,自适应注意力图融合具体包括:
通过全局池化由自注意力图A得到动态权重
Figure BDA0004093901740000051
然后将其输入前馈网络FFN得到交互权重
Figure BDA0004093901740000052
作为合并注意力图的权重,最后将其乘回自注意力图得到加权合并的自注意力图结果:
Figure BDA0004093901740000053
Figure BDA0004093901740000054
本发明的一个实施例中,优化粗CAM具体包括:
利用
Figure BDA0004093901740000055
Figure BDA0004093901740000056
对CAMcoarse进行优化得到最终的输出CAM:
Figure BDA0004093901740000057
其中
Figure BDA0004093901740000058
是将矩阵形状变换为N×N×C,
Figure BDA0004093901740000059
是将矩阵形状变换为N2×C,⊙是指阿达玛乘积;
得到最终的CAM输出后,对CAM进行argmax操作得到分割掩码,然后使用密度条件随机场CRF进行后处理得到CAM种子,将在第二步进行在线再训练。
本发明的一个实施例中,分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
首先,对编码器的输出类标记部分Tfinal-classes通过全局池化层得到类别预测
Figure BDA00040939017400000510
然后与类别标签y计算交叉熵损失函数:
Figure BDA00040939017400000511
Figure BDA00040939017400000512
然后对于CAMcoarse和CAMfine同样通过全局池化层得到类别预测,并与标签y计算损失函数得到LCoarse-CAM和LFine-CAM
最后将上述的损失函数求和得到总损失:
Figure BDA0004093901740000061
本发明的一个实施例中,所述步骤(2)具体包括:
首先将transformer编码器得到的类标记Q和补丁标记T输入到transformer解码器中得到
Figure BDA0004093901740000062
Figure BDA0004093901740000063
将这两项标准化并相乘然后上采样就得到分割预测结果
Figure BDA0004093901740000064
Figure BDA0004093901740000065
然后通过将预测结果与CAM种子计算交叉熵损失函数得到梯度矩阵
Figure BDA0004093901740000066
通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播;为了实现局部梯度截断,将矩阵划分为L2
Figure BDA0004093901740000067
分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal
Figure BDA0004093901740000068
λglobal=mean(λi),i∈[1,...,L2}
将选取{λi}和λglobal中较大的值作为阈值得到截断掩码
Figure BDA0004093901740000069
Figure BDA00040939017400000610
设置截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,得到的用于反向传播的梯度矩阵如下:
Figure BDA00040939017400000611
通过将截断掩码乘到原始梯度矩阵上,在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞,这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。
按照本发明的另一方面,还提供了一种基于朴素Vision Transformer的弱监督语义分割装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明利用了朴素ViT中多层多头自注意力图的固有特性,设计了一种有效的自适应注意力融合策略,以生成高质量的类激活图;第一次揭示了不同注意头对CAM和WSSS的重要性;
(2)本发明提出了一种带有梯度截断解码器的在线再训练方法来利用ViT的上下文输出标记,它允许我们通过在线再训练来重新训练和自纠正CAM种子;
(3)本发明的WeakTr充分发掘了朴素ViT在WSSS领域的潜力,并在两个具有挑战性的WSSS基准上取得了最先进的结果分别在PASCAL VOC 2012和COCO 2014验证集上,分别达到了78.4%和46.9%的mIoU。
附图说明
图1为本发明实施例中WeakTr方法的原理概述;WeakTr首先将输入图像分成多块然后通过线性变换得到图像补丁标记,之后将其与多个类标记合并输入到transformer编码器中;接下来通过对补丁标记应用卷积层来生成粗糙CAM;然后,使用自适应注意力融合模块从所有自注意力图生成动态权重,并通过前馈网络(FFN)使动态权重相互作用;最后使用加权交叉注意力图和加权补丁注意力图将粗CAM优化为细CAM;类标记、粗CAM和细CAM最终通过全局平均池化生成预测,以计算相应的预测损失;
图2为本发明实施例中梯度截断解码器的原理概述;本发明中梯度截断解码器首先将与transformer编码器中的类别相对应的补丁标记和类标记输入到transformer解码器层;在对解码器层进行操作后,通过组合类标记和补丁标记来获得相应的补丁预测;然后对获得的补丁预测进行上采样,并使用CAM种子计算梯度图;最后动态生成梯度裁剪掩码,并将梯度截断掩码与原始梯度映射相乘。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
我们提出的WeakTr总共包括两个步骤,首先基于一个分类模型来完成CAM的生成并得到CAM种子,然后在基于梯度截断解码器分割模型上的完成对CAM种子的在线再训练,接下来我将依次对这两个步骤具体的实施方式进行说明。
1.CAM生成
如图1所示,我们用来生成CAM的分类网络框架使用朴素ViT作为主干网络。首先将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出。然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图。接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM。最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化。
(1)Transformer编码器
Transformer编码器由多层多头自注意力(Multi-head Self-Attention,MSA)层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
首先,我们将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时我们设置了C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入
Figure BDA0004093901740000091
D是输入标记的维度。Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm(LN)层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机(Multi-Layer Perceptron,MLP)层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))#
那么对于下一编码层,Tout便作为Tin输入,如此重复K次得到最终输出
Figure BDA0004093901740000092
(2)粗糙CAM生成和提取自注意力图
得到编码器的特征输出后,首先可基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
接下来就是基于编码器的输出来生成类激活图CAM,编码器的输出可分为类标记部分
Figure BDA0004093901740000093
以及补丁标记部分
Figure BDA0004093901740000094
Figure BDA0004093901740000095
我们主要用到补丁标记部分来生成CAM。首先我们对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图
Figure BDA0004093901740000096
然后从编码器的模型参数中提取出自注意力图
Figure BDA0004093901740000097
来优化CAMcoarse,其中H为每个编码层注意力头的数量。考虑类标记和补丁标记,自注意力图可分为交叉注意力图
Figure BDA0004093901740000098
和补丁注意力图
Figure BDA0004093901740000099
(3)自适应注意力图融合和优化粗CAM
为了将所有层和所有头部的自注意力图进行合并,与之前的方法直接进行均值或求和不同,我们提出使用自适应注意力图融合模块来评估不同注意力图的重要性,通过加权求和的方式来合并所有自注意力图。然后分别以自注意力图中的交叉注意力图和补丁自注意力图来优化粗CAM得到细CAM。
首先我们通过全局池化由自注意力图A得到动态权重
Figure BDA0004093901740000101
然后将其输入前馈网络(Feed-Forward Network,FFN)得到交互权重
Figure BDA0004093901740000102
作为合并注意力图的权重,最后将其乘回自注意力图得到加权合并的自注意力图结果:
Figure BDA0004093901740000103
Figure BDA0004093901740000104
利用
Figure BDA0004093901740000105
Figure BDA0004093901740000106
对CAMcoarse进行优化得到最终的输出CAM:
Figure BDA0004093901740000107
其中
Figure BDA0004093901740000108
是将矩阵形状变换为N×N×C,
Figure BDA0004093901740000109
是将矩阵形状变换为N2×C,⊙是指阿达玛乘积。
得到最终的CAM输出后,对CAM进行argmax操作得到分割掩码,然后使用密度条件随机场(Conditional Random Field,CRF)进行后处理得到CAM种子,将在第二步进行在线再训练。
(4)损失函数计算
与之前方法在后处理阶段利用transformer自注意力图来优化CAM的方式不同,我们的自适应注意力融合模块是可以在训练过程中优化的。分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化。
首先,我们对编码器的输出类标记部分Tfinal-classes通过全局池化层得到类别预测
Figure BDA0004093901740000111
然后与类别标签y计算交叉熵损失函数:
Figure BDA0004093901740000112
Figure BDA0004093901740000113
然后对于CAMcoarse和CAMfine同样通过全局池化层得到类别预测,并与标签y计算损失函数得到LCoarse-CAM和LFine-CAM
最后将上述的损失函数求和得到总损失:
Figure BDA0004093901740000114
2.基于梯度截断解码器的在线再训练
如图2所示,我们的在线再训练模型由transformer编码器和基于梯度截断的解码器组成。其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,我们在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型对待分割图像进行语义分割。
我们首先将transformer编码器得到的类标记Q和补丁标记T输入到transformer解码器中得到
Figure BDA0004093901740000115
Figure BDA0004093901740000116
将这两项标准化并相乘然后上采样就得到分割预测结果
Figure BDA0004093901740000117
Figure BDA0004093901740000118
然后通过将预测结果与CAM种子计算交叉熵损失函数就可以得到梯度矩阵
Figure BDA0004093901740000119
我们通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播。为了实现局部梯度截断,我们将矩阵划分为L2
Figure BDA00040939017400001110
可分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal
Figure BDA00040939017400001111
λglobal=mean(λi),i∈[1,...,L2}
我们将选取{λi}和λglobal中较大的值作为阈值得到截断掩码
Figure BDA0004093901740000121
Figure BDA0004093901740000122
在实验过程中我们发现在训练时从头就开始梯度截断对结果的影响较大,因此我们设置了截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,那么最后我们得到的用于反向传播的梯度矩阵如下:
Figure BDA0004093901740000123
通过将截断掩码乘到原始梯度矩阵上,那么在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞(梯度值为0),这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。在推断的过程中,我们加入了CRF来提高分割结果的质量。
在我们的在线再训练之后,网络已经可以生成高质量的伪标签。从实用性的角度来看,我们还得到了一个分割网络,以输出分割结果,而无需另一个再训练步骤。
进一步地,本发明还提供了一种基于朴素Vision Transformer的弱监督语义分割装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,包括如下步骤:
(1)用来生成CAM的分类网络框架使用朴素ViT作为主干网络,将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
(2)基于梯度截断解码器的在线再训练,其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型实现对图像的语义分割。
2.如权利要求1所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,Transformer编码器由多层多头自注意力MSA层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
3.如权利要求2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,Transformer编码器的实现具体为:
将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时设置C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入
Figure FDA0004093901690000011
D是输入标记的维度;Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机MLP层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))
那么对于下一编码层,Tout便作为Tin输入,如此重复K次得到最终输出
Figure FDA0004093901690000021
4.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,粗糙CAM生成具体包括:
得到编码器的特征输出后,基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
5.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,提取自注意力图具体包括:
基于编码器的输出来生成类激活图CAM,编码器的输出分为类标记部分
Figure FDA0004093901690000022
以及补丁标记部分
Figure FDA0004093901690000023
用补丁标记部分来生成CAM;首先对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图
Figure FDA0004093901690000024
然后从编码器的模型参数中提取出自注意力图
Figure FDA0004093901690000025
来优化CAMcoarse,其中H为每个编码层注意力头的数量;考虑类标记和补丁标记,自注意力图分为交叉注意力图
Figure FDA0004093901690000026
和补丁注意力图
Figure FDA0004093901690000027
6.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,自适应注意力图融合具体包括:
通过全局池化由自注意力图A得到动态权重
Figure FDA0004093901690000028
然后将其输入前馈网络FFN得到交互权重
Figure FDA0004093901690000029
作为合并注意力图的权重,最后将其乘回自注意力图得到加权合并的自注意力图结果:
Figure FDA0004093901690000031
Figure FDA0004093901690000032
7.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,优化粗CAM具体包括:
利用
Figure FDA0004093901690000033
Figure FDA0004093901690000034
对CAMcoarse进行优化得到最终的输出CAM:
Figure FDA0004093901690000035
其中
Figure FDA0004093901690000036
是将矩阵形状变换为N×N×C,
Figure FDA0004093901690000037
是将矩阵形状变换为N2×C,⊙是指阿达玛乘积;
得到最终的CAM输出后,对CAM进行argmax操作得到分割掩码,然后使用密度条件随机场CRF进行后处理得到CAM种子,将在第二步进行在线再训练。
8.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
首先,对编码器的输出类标记部分Tfinal-classes通过全局池化层得到类别预测
Figure FDA0004093901690000038
然后与类别标签y计算交叉熵损失函数:
Figure FDA0004093901690000039
Figure FDA00040939016900000310
然后对于CAMcoarse和CAMfine同样通过全局池化层得到类别预测,并与标签y计算损失函数得到LCoarse-CAM和LFine-CAM
最后将上述的损失函数求和得到总损失:
Figure FDA0004093901690000041
9.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,所述步骤(2)具体包括:
首先将transformer编码器得到的类标记Q和补丁标记T输入到transformer解码器中得到
Figure FDA0004093901690000042
Figure FDA0004093901690000043
将这两项标准化并相乘然后上采样就得到分割预测结果
Figure FDA0004093901690000044
Figure FDA0004093901690000045
然后通过将预测结果与CAM种子计算交叉熵损失函数得到梯度矩阵
Figure FDA00040939016900000411
通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播;为了实现局部梯度截断,将矩阵划分为L2
Figure FDA0004093901690000046
分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal
Figure FDA0004093901690000047
λglobal=mean(λi),i∈{1,…,L2}
将选取{λi}和λglobal中较大的值作为阈值得到截断掩码
Figure FDA0004093901690000048
Figure FDA0004093901690000049
设置截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,得到的用于反向传播的梯度矩阵如下:
Figure FDA00040939016900000410
通过将截断掩码乘到原始梯度矩阵上,在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞,这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。
10.一种基于朴素Vision Transformer的弱监督语义分割装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的基于朴素Vision Transformer的弱监督语义分割方法。
CN202310160328.9A 2023-02-16 2023-02-16 基于朴素VisionTransformer的弱监督语义分割方法与装置 Pending CN116071553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310160328.9A CN116071553A (zh) 2023-02-16 2023-02-16 基于朴素VisionTransformer的弱监督语义分割方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310160328.9A CN116071553A (zh) 2023-02-16 2023-02-16 基于朴素VisionTransformer的弱监督语义分割方法与装置

Publications (1)

Publication Number Publication Date
CN116071553A true CN116071553A (zh) 2023-05-05

Family

ID=86180107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310160328.9A Pending CN116071553A (zh) 2023-02-16 2023-02-16 基于朴素VisionTransformer的弱监督语义分割方法与装置

Country Status (1)

Country Link
CN (1) CN116071553A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN117372701A (zh) * 2023-12-07 2024-01-09 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630633A (zh) * 2023-07-26 2023-08-22 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN116630633B (zh) * 2023-07-26 2023-11-07 上海蜜度信息技术有限公司 语义分割自动标注方法、系统、存储介质及电子设备
CN117372701A (zh) * 2023-12-07 2024-01-09 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法
CN117372701B (zh) * 2023-12-07 2024-03-12 厦门瑞为信息技术有限公司 基于Transformer的交互式图像分割方法

Similar Documents

Publication Publication Date Title
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN111797779A (zh) 基于区域注意力多尺度特征融合的遥感图像语义分割方法
CN116071553A (zh) 基于朴素VisionTransformer的弱监督语义分割方法与装置
CN115222998B (zh) 一种图像分类方法
CN112989942A (zh) 一种基于交通监控视频的目标实例分割方法
CN111898703A (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN116740364B (zh) 一种基于参考机制的图像语义分割方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
CN112183602A (zh) 一种带有并行卷积块的多层特征融合细粒度图像分类方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
Chang et al. Attention-based color consistency underwater image enhancement network
Steininger et al. ConvMOS: climate model output statistics with deep learning
CN115841596B (zh) 多标签图像分类方法及其模型的训练方法、装置
CN117036711A (zh) 一种基于注意力调节的弱监督语义分割方法
CN116912501A (zh) 一种基于注意力融合的弱监督语义分割方法
CN116612416A (zh) 一种指代视频目标分割方法、装置、设备及可读存储介质
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
Sun et al. ResFPA-GAN: Text-to-image synthesis with generative adversarial network based on residual block feature pyramid attention
CN114913382A (zh) 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法
CN114219989A (zh) 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法
CN113627466A (zh) 图像标签识别方法、装置、电子设备及可读存储介质
CN115115667A (zh) 一种基于目标变换回归网络的精确目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination