CN116071553A - 基于朴素VisionTransformer的弱监督语义分割方法与装置 - Google Patents
基于朴素VisionTransformer的弱监督语义分割方法与装置 Download PDFInfo
- Publication number
- CN116071553A CN116071553A CN202310160328.9A CN202310160328A CN116071553A CN 116071553 A CN116071553 A CN 116071553A CN 202310160328 A CN202310160328 A CN 202310160328A CN 116071553 A CN116071553 A CN 116071553A
- Authority
- CN
- China
- Prior art keywords
- cam
- attention
- class
- encoder
- patch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于朴素Vision Transformer的弱监督语义分割方法,包括:将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;基于梯度截断解码器的在线再训练。本发明还提供了相应的基于朴素Vision Transformer的弱监督语义分割装置。
Description
技术领域
本发明属于计算机视觉中的弱监督语义分割技术领域,更具体地,涉及一种基于朴素Vision Transformer的弱监督语义分割方法与装置。
背景技术
语义分割是计算机视觉中的一项基本任务,此任务旨在预测图像中每个像素的类别标签。随着深度神经网络的快速发展,语义分割的性能得到了极大的提高。然而基于像素级注释的强监督学习方法非常昂贵和耗时,为了减轻人工标注的负担,越来越多的研究者转向对弱监督语义分割(Weakly-Supervised Semantic Segmentation,WSSS)的研究。仅使用边界框标注、潦草标注、点标注或图像级分类标注即可完成弱监督语义分割。与逐像素标注相比,弱监督标注的时间消耗更少,成本更低。本文主要研究最具挑战的基于图像级分类标注的WSSS方法。
由于缺乏像素级标注,基于图像级分类标注的WSSS方法通常需要首先通过类激活图(Class Activation Maps,CAM)生成粗略位置标注。CAM是一种基于深度分类网络的技术,用来生成通道数与总类别数相同的特征图。特征图包含每个类别物体的近似位置,我们可以从特征图中获得初始CAM种子。然而,CAM只能识别出物体中最具区分性的区域,通常需要使用其他方法来优化CAM得到伪标签。
为了识别出更完整的物体,有许多方法关注如何优化CAM。SEC方法通过种子拓展的方法扩展稀疏CAM标记。DSRG结合种子区域生长方法扩展CAM线索。类似的方法是DGCN,它通过使用传统的图切割算法将标记分配给种子周围的区域。AffinityNet和IRNet使用随机游走的方法扩展标记。AuxSegNet通过学习交叉任务的亲和力传播标记。还有一些方法使用反向擦除来帮助CAM将更多的注意力集中在非区分性的区域。SEAM探索了不同仿射变换下CAM的一致性。另外还有一些方法选择引入网络数据,如Co-segmentation和STC。但这种使用如随机游走的方式来增强标注然后在Deeplab上再训练的方法相对还是比较复杂。
近年来,许多研究者将Transformer应用到了计算机视觉领域中。VisionTransformer(ViT)首次展现了Transformer在图像分类任务中的优越性能。ViT模型的主要思路为将图像转换为非重叠的补丁标记,然后将这些标记与类标记一起输入到Transformer结构中。最后使用全连接层将类标记映射为类别预测。随着ViT的出现,涌现出了一些基于transformer来获取CAM种子的方法。TS-CAM首次将Transformer引入到弱监督物体定位任务中,该工作使用类标记和补丁标记之间的交叉注意力图来获得定位线索。获取交叉注意力图需要对同一层的不同注意力头进行平均,然后在不同层上求和。在此之后,使用交叉注意图与补丁标记通过卷积生成的CAM相结合。在该方法之后,MCTformer将Transformer引入到弱监督语义分割任务中,提出了以多个类标记作为输入,以学习不同类的交叉注意力图。在CAM生成阶段,通过使用补丁自注意力图对CAM进行了额外优化。另外TransCAM以混合使用transformer和卷积的conformer作为主干网络,同样使用了补丁自注意力图来优化CAM。
上述基于Transformer的WSSS方法的主要在后处理阶段使用Transformer的自注意力图来增强CAM种子。当我们得到自注意力图时,上述方法直接将同一层下不同头部的自注意力图平均,然后在不同层上求和。然而,我们应该指出的是,在后处理阶段对Transformer自注意力图进行平均求和的方法是粗糙的。由于Transformer的不同注意力头聚焦于不同的目标,对应的细节和语义信息也不同。如果使用均值求和的方法,那么不聚焦于前景物体的注意力头将与聚焦于前景物体的注意力头被赋予相同的权重。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于朴素VisionTransformer的弱监督语义分割方法WeakTr,提出了使用自适应注意力融合模块来衡量不同注意力头对CAM的重要性以及使用基于ViT的梯度截断解码器对伪标签进行在线再训练。其目的在于提高基于Vision Transformer的弱监督语义分割性能,解决了Transformer中的无关注意力头对CAM生成结果的误导以及传统WSSS方法对CAM细化和再训练耗时且复杂的问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于朴素VisionTransformer的弱监督语义分割方法,包括如下步骤:
(1)用来生成CAM的分类网络框架使用朴素ViT作为主干网络,将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
(2)基于梯度截断解码器的在线再训练,其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型实现对图像的语义分割。
本发明的一个实施例中,Transformer编码器由多层多头自注意力MSA层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
本发明的一个实施例中,Transformer编码器的实现具体为:
将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时设置C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入D是输入标记的维度;Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))#
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机MLP层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))#
本发明的一个实施例中,粗糙CAM生成具体包括:
得到编码器的特征输出后,基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
本发明的一个实施例中,提取自注意力图具体包括:
基于编码器的输出来生成类激活图CAM,编码器的输出分为类标记部分以及补丁标记部分用补丁标记部分来生成CAM;首先对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图然后从编码器的模型参数中提取出自注意力图来优化CAMcoarse,其中H为每个编码层注意力头的数量;考虑类标记和补丁标记,自注意力图分为交叉注意力图和补丁注意力图
本发明的一个实施例中,自适应注意力图融合具体包括:
本发明的一个实施例中,优化粗CAM具体包括:
得到最终的CAM输出后,对CAM进行argmax操作得到分割掩码,然后使用密度条件随机场CRF进行后处理得到CAM种子,将在第二步进行在线再训练。
本发明的一个实施例中,分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
然后对于CAMcoarse和CAMfine同样通过全局池化层得到类别预测,并与标签y计算损失函数得到LCoarse-CAM和LFine-CAM;
最后将上述的损失函数求和得到总损失:
本发明的一个实施例中,所述步骤(2)具体包括:
然后通过将预测结果与CAM种子计算交叉熵损失函数得到梯度矩阵通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播;为了实现局部梯度截断,将矩阵划分为L2块分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal;
λglobal=mean(λi),i∈[1,...,L2}
设置截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,得到的用于反向传播的梯度矩阵如下:
通过将截断掩码乘到原始梯度矩阵上,在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞,这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。
按照本发明的另一方面,还提供了一种基于朴素Vision Transformer的弱监督语义分割装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明利用了朴素ViT中多层多头自注意力图的固有特性,设计了一种有效的自适应注意力融合策略,以生成高质量的类激活图;第一次揭示了不同注意头对CAM和WSSS的重要性;
(2)本发明提出了一种带有梯度截断解码器的在线再训练方法来利用ViT的上下文输出标记,它允许我们通过在线再训练来重新训练和自纠正CAM种子;
(3)本发明的WeakTr充分发掘了朴素ViT在WSSS领域的潜力,并在两个具有挑战性的WSSS基准上取得了最先进的结果分别在PASCAL VOC 2012和COCO 2014验证集上,分别达到了78.4%和46.9%的mIoU。
附图说明
图1为本发明实施例中WeakTr方法的原理概述;WeakTr首先将输入图像分成多块然后通过线性变换得到图像补丁标记,之后将其与多个类标记合并输入到transformer编码器中;接下来通过对补丁标记应用卷积层来生成粗糙CAM;然后,使用自适应注意力融合模块从所有自注意力图生成动态权重,并通过前馈网络(FFN)使动态权重相互作用;最后使用加权交叉注意力图和加权补丁注意力图将粗CAM优化为细CAM;类标记、粗CAM和细CAM最终通过全局平均池化生成预测,以计算相应的预测损失;
图2为本发明实施例中梯度截断解码器的原理概述;本发明中梯度截断解码器首先将与transformer编码器中的类别相对应的补丁标记和类标记输入到transformer解码器层;在对解码器层进行操作后,通过组合类标记和补丁标记来获得相应的补丁预测;然后对获得的补丁预测进行上采样,并使用CAM种子计算梯度图;最后动态生成梯度裁剪掩码,并将梯度截断掩码与原始梯度映射相乘。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
我们提出的WeakTr总共包括两个步骤,首先基于一个分类模型来完成CAM的生成并得到CAM种子,然后在基于梯度截断解码器分割模型上的完成对CAM种子的在线再训练,接下来我将依次对这两个步骤具体的实施方式进行说明。
1.CAM生成
如图1所示,我们用来生成CAM的分类网络框架使用朴素ViT作为主干网络。首先将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出。然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图。接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM。最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化。
(1)Transformer编码器
Transformer编码器由多层多头自注意力(Multi-head Self-Attention,MSA)层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
首先,我们将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时我们设置了C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入D是输入标记的维度。Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm(LN)层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机(Multi-Layer Perceptron,MLP)层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))#
(2)粗糙CAM生成和提取自注意力图
得到编码器的特征输出后,首先可基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
接下来就是基于编码器的输出来生成类激活图CAM,编码器的输出可分为类标记部分以及补丁标记部分 我们主要用到补丁标记部分来生成CAM。首先我们对补丁部分进行重排列并通过一个卷积层得到初始的粗糙类激活图然后从编码器的模型参数中提取出自注意力图来优化CAMcoarse,其中H为每个编码层注意力头的数量。考虑类标记和补丁标记,自注意力图可分为交叉注意力图和补丁注意力图
(3)自适应注意力图融合和优化粗CAM
为了将所有层和所有头部的自注意力图进行合并,与之前的方法直接进行均值或求和不同,我们提出使用自适应注意力图融合模块来评估不同注意力图的重要性,通过加权求和的方式来合并所有自注意力图。然后分别以自注意力图中的交叉注意力图和补丁自注意力图来优化粗CAM得到细CAM。
首先我们通过全局池化由自注意力图A得到动态权重然后将其输入前馈网络(Feed-Forward Network,FFN)得到交互权重作为合并注意力图的权重,最后将其乘回自注意力图得到加权合并的自注意力图结果:
得到最终的CAM输出后,对CAM进行argmax操作得到分割掩码,然后使用密度条件随机场(Conditional Random Field,CRF)进行后处理得到CAM种子,将在第二步进行在线再训练。
(4)损失函数计算
与之前方法在后处理阶段利用transformer自注意力图来优化CAM的方式不同,我们的自适应注意力融合模块是可以在训练过程中优化的。分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化。
然后对于CAMcoarse和CAMfine同样通过全局池化层得到类别预测,并与标签y计算损失函数得到LCoarse-CAM和LFine-CAM。
最后将上述的损失函数求和得到总损失:
2.基于梯度截断解码器的在线再训练
如图2所示,我们的在线再训练模型由transformer编码器和基于梯度截断的解码器组成。其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,我们在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型对待分割图像进行语义分割。
然后通过将预测结果与CAM种子计算交叉熵损失函数就可以得到梯度矩阵我们通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播。为了实现局部梯度截断,我们将矩阵划分为L2块可分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal。
λglobal=mean(λi),i∈[1,...,L2}
在实验过程中我们发现在训练时从头就开始梯度截断对结果的影响较大,因此我们设置了截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,那么最后我们得到的用于反向传播的梯度矩阵如下:
通过将截断掩码乘到原始梯度矩阵上,那么在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞(梯度值为0),这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。在推断的过程中,我们加入了CRF来提高分割结果的质量。
在我们的在线再训练之后,网络已经可以生成高质量的伪标签。从实用性的角度来看,我们还得到了一个分割网络,以输出分割结果,而无需另一个再训练步骤。
进一步地,本发明还提供了一种基于朴素Vision Transformer的弱监督语义分割装置,包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成所述的基于朴素Vision Transformer的弱监督语义分割方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,包括如下步骤:
(1)用来生成CAM的分类网络框架使用朴素ViT作为主干网络,将基于输入图像得到的补丁标记和可学习的类标记输入到transformer编码器中得到特征输出;然后基于输出的补丁标记部分通过重排列和卷积操作得到粗糙CAM,并从编码器的模型参数中提取出自注意力图;接着通过自适应注意力图融合模块对自注意力图进行融合,得到交叉注意力图和补丁自注意力图依次对粗糙CAM进行优化得到最终的细CAM;最后分别基于编码器输出的类标记、粗CAM以及细CAM通过全局池化得到类别预测,与类别标记计算交叉熵损失函数来对网络进行优化;
(2)基于梯度截断解码器的在线再训练,其中transformer编码器的实施方式与上一步中相同,而为了对CAM种子中的噪声进行处理,在transformer解码器中加入了梯度裁剪的部分,来截断在反向传播时噪声的梯度回传,利用再训练后得到的模型实现对图像的语义分割。
2.如权利要求1所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,Transformer编码器由多层多头自注意力MSA层组成,将基于输入图像得到的补丁标记和可学习的类标记输入编码器后将得到对应的特征输出。
3.如权利要求2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,Transformer编码器的实现具体为:
将输入图像划分为N2块然后通过线性变换将得到N2个补丁标记,同时设置C个可学习的类别标记,将其与补丁标记合并作为transformer编码器的输入D是输入标记的维度;Transformer的编码器由K个编码层组成,在每个编码层,输入标记Tin首先需要通过LayerNorm层进行标准化然后输入到MSA层中:
Tattn=Tin+MSA(LN(Tin))
然后,对于MSA层的输出同样需要先通过LN进行标准化然后输入到多层感知机MLP层中得到编码层的输出:
Tout=Tattn+MLP(LN(Tattn))
4.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,粗糙CAM生成具体包括:
得到编码器的特征输出后,基于输出的补丁标记部分通过卷积层来得到粗糙CAM,并从编码器的模型参数中提取出自注意力图用于后续的自适应注意力图模块。
9.如权利要求1或2所述的基于朴素Vision Transformer的弱监督语义分割方法,其特征在于,所述步骤(2)具体包括:
然后通过将预测结果与CAM种子计算交叉熵损失函数得到梯度矩阵通过对梯度矩阵设置阈值来实现梯度截断,即截断梯度较大部分的反向传播;为了实现局部梯度截断,将矩阵划分为L2块分别计算每块的局部平均梯度值{λi}以及全局平均梯度值λglobal;
λglobal=mean(λi),i∈{1,…,L2}
设置截断初始阈值τ,只有当全局平均梯度λglobal小于τ时才开始梯度截断,得到的用于反向传播的梯度矩阵如下:
通过将截断掩码乘到原始梯度矩阵上,在训练过程中的反向传播前就会在梯度矩阵上动态地创建一些空洞,这部分的网络预测结果将会被保留,从而实现对CAM种子中的错误区域进行自修正。
10.一种基于朴素Vision Transformer的弱监督语义分割装置,其特征在于:
包括至少一个处理器和存储器,所述至少一个处理器和存储器之间通过数据总线连接,所述存储器存储能被所述至少一个处理器执行的指令,所述指令在被所述处理器执行后,用于完成权利要求1-9中任一项所述的基于朴素Vision Transformer的弱监督语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160328.9A CN116071553A (zh) | 2023-02-16 | 2023-02-16 | 基于朴素VisionTransformer的弱监督语义分割方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310160328.9A CN116071553A (zh) | 2023-02-16 | 2023-02-16 | 基于朴素VisionTransformer的弱监督语义分割方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071553A true CN116071553A (zh) | 2023-05-05 |
Family
ID=86180107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310160328.9A Pending CN116071553A (zh) | 2023-02-16 | 2023-02-16 | 基于朴素VisionTransformer的弱监督语义分割方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071553A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630633A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN117372701A (zh) * | 2023-12-07 | 2024-01-09 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
-
2023
- 2023-02-16 CN CN202310160328.9A patent/CN116071553A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630633A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN116630633B (zh) * | 2023-07-26 | 2023-11-07 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN117372701A (zh) * | 2023-12-07 | 2024-01-09 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
CN117372701B (zh) * | 2023-12-07 | 2024-03-12 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN111797779A (zh) | 基于区域注意力多尺度特征融合的遥感图像语义分割方法 | |
CN116071553A (zh) | 基于朴素VisionTransformer的弱监督语义分割方法与装置 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN112989942A (zh) | 一种基于交通监控视频的目标实例分割方法 | |
CN111898703A (zh) | 多标签视频分类方法、模型训练方法、装置及介质 | |
CN116740364B (zh) | 一种基于参考机制的图像语义分割方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN112183602A (zh) | 一种带有并行卷积块的多层特征融合细粒度图像分类方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
Chang et al. | Attention-based color consistency underwater image enhancement network | |
Steininger et al. | ConvMOS: climate model output statistics with deep learning | |
CN115841596B (zh) | 多标签图像分类方法及其模型的训练方法、装置 | |
CN117036711A (zh) | 一种基于注意力调节的弱监督语义分割方法 | |
CN116912501A (zh) | 一种基于注意力融合的弱监督语义分割方法 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
Sun et al. | ResFPA-GAN: Text-to-image synthesis with generative adversarial network based on residual block feature pyramid attention | |
CN114913382A (zh) | 一种基于CBAM-AlexNet卷积神经网络的航拍场景分类方法 | |
CN114219989A (zh) | 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法 | |
CN113627466A (zh) | 图像标签识别方法、装置、电子设备及可读存储介质 | |
CN115115667A (zh) | 一种基于目标变换回归网络的精确目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |