CN115512169B - 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 - Google Patents
基于梯度和区域亲和力优化的弱监督语义分割方法及装置 Download PDFInfo
- Publication number
- CN115512169B CN115512169B CN202211395308.1A CN202211395308A CN115512169B CN 115512169 B CN115512169 B CN 115512169B CN 202211395308 A CN202211395308 A CN 202211395308A CN 115512169 B CN115512169 B CN 115512169B
- Authority
- CN
- China
- Prior art keywords
- map
- class
- training
- image
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000005457 optimization Methods 0.000 title claims abstract description 30
- 238000002372 labelling Methods 0.000 claims abstract description 35
- 230000004913 activation Effects 0.000 claims abstract description 28
- 230000004807 localization Effects 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 20
- 230000007420 reactivation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 102100024008 Glycerol-3-phosphate acyltransferase 1, mitochondrial Human genes 0.000 claims description 4
- 101000904268 Homo sapiens Glycerol-3-phosphate acyltransferase 1, mitochondrial Proteins 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000518994 Conta Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001881 scanning electron acoustic microscopy Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于梯度和区域亲和力优化的弱监督语义分割方法及装置,本方法提出的基于视觉Transformer的弱监督语义分割框架,可以保留精确的图像结构信息,反映像素间长距离语义关联。本发明从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图,用于优化通过Transformer分类网络生成的类激活图,可以有效扩大激活区域,并使用显著性约束提高激活区域的边界质量,缓解边界被错误划分现象,为分割模型提供高质量的物体定位图;在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别,是造成像素标注错误的重要原因。
Description
技术领域
本发明涉及图像分割技术领域,特别涉及基于梯度和区域亲和力优化的弱监督语义分割方法及装置。
背景技术
语义分割是标注图像中各个像素类别的计算机视觉技术,广泛应用于自动驾驶、机器人视觉、精准农业和生物医学等领域。随着深度学习的发展,基于神经网络的语义分割方法取得了显著成果。全监督学习的语义分割训练过程中,有逐像素语义标注图像作为标签来辅助学习,可以达到不错的准确率。然而,全监督学习需要大量像素级别语义标注图像,标注单张图像的像素级别标签平均花费239.7秒,成本消耗巨大,实际应用受限。区别于全监督学习,弱监督学习使用更容易获得的真值标注如边界框、点、涂鸦和图像级别标签,替代逐像素的类别标注,训练网络可利用的先验信息很少,要实现高精度语义分割,具有相当大的难度,但不需要大量繁琐的数据标注,可以节省许多人力物力,因此近年来受到学界很多关注。通过采用更方便的标注信息,期望媲美甚至超过监督学习的性能,弱监督学习方法成为语义分割的热门研究方向。基于图像级标签的方法是所需标注成本最小,分割难度最大的弱监督方法,也是现在主流的弱监督学习语义分割研究方向。基于图像级标签的主流方法是把全连接层的最后一层改为全局池化层,融合最后一个卷积层特征,再把标签输入训练收敛的分类网络,生成类激活图(Class Activation Map)。CAM通常只包括包含指定类别对象区域的一部分,然后使用例如擦除或扩展的方法,优化 CAM 获得分割掩膜;最后将其作为伪标签,按照全监督方法训练分割模型。由于图像级别标签所含语义信息不足,导致生成的伪标签质量不高,制约着分割模型的性能提升,主要存在三种问题:1) 只包含目标的局部关键区域,2) 目标边界划分错误,3) 无法准确区分相邻目标间像素。CAM 只能提取影响分类预测的最有区别力的部分,而不是对象的全貌,如何从 CAM 反映的有限部分,获得精确完整的对象区域,是弱监督语义分割方法的研究重点。
发明内容
本发明的目的在于提供基于梯度和区域亲和力优化的弱监督语义分割方法及装置,以克服当前基于弱监督学习的图像语义分割任务中,伪标签质量不高导致分割模型性能低下的问题。现有基于弱监督学习的语义分割方法,大多采用图像级别标签,先前大多数弱监督语义分割方法都采用卷积神经网络(CNN)作为骨干网络,获得类激活图(CAM),但是CNN存在局部感受野和下采样信息减少的缺点,通过CNN得到的 CAM 往往只突出最显著的区域,定位的物体轮廓粗糙,不能很好区分相邻物体间的边界。此外,常用于优化模型的二值交叉熵损失(BCE loss)也存在缺陷,在多类别分类模式中,基于BCE loss的各个类别预测之间互不相关,类激活图像素有可能被同一感受野中多个类别激活,一些假阳性像素(A类别像素被预测为类别B)和假阴性像素(A类别像素被预测为背景)出现的可能性增加,降低了后续生成的伪标签质量;
为实现上述目的,本发明提供如下技术方案:
本申请公开了一种基于梯度和区域亲和力优化的弱监督语义分割方法,包括训练集和训练模型;所述训练集包括类别标注数据集和显著图数据集,所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成,所述显著图数据集中由标注样本对应的显著图组成;所述训练模型为基于注意力机制的弱监督语义分割框架GANet;所述方法包括如下步骤:
S1、将训练集输入训练模型,输出得到类别块预测向量和图像块预测向量,计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失;
S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图;根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图;计算预测显著图与标注样本对应的显著图之间的显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet;
S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图;基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图,得到优化后的物体定位图;
S4、使用步骤S3中优化后的物体定位图处理三维特征图;使用Softmax交叉熵损失对模型SGANet进行再激活优化;
S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合,得到最终的伪标签对图像分割模型进行全监督训练。
作为优选,步骤S1具体包括如下子步骤:
S11、将训练集输入训练模型,训练模型的Transformer编码器输出类别编码块和图像编码块;
S12、类别编码块经过全连接层转化成类别块预测向量;
S13、图像编码块经过变形和C通道的卷积层处理成三维特征图;再对三维特征图进行全局平均池化处理得到图像块预测向量;
S14、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;
S15、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;
S16、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和,得到监督损失。
作为优选,步骤S2具体包括如下子步骤:
S21、对训练模型输出的三维特征图进行筛选,剔除非目标类别的三维特征图;得到目标特征图和背景特征图;
S22、对目标特征图、背景特征图和标注样本对应的显著图进行二值化处理,再计算目标特征图、背景特征图与标注样本对应的显著图之间的像素重叠比;
S23、根据步骤S22中像素重叠比的大小进行划分,将像素重叠比大于等于阈值的组成得到预测前景显著图;将像素重叠比小于阈值的划分为背景显著图,将背景显著图与背景特征图组合成预测背景显著图;将预测前景显著图和预测背景显著图相加组合成预测显著图;
S24、计算预测显著图与标注样本对应的显著图之间的像素平均距离,得到显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet。
作为优选,步骤S3中基于图像块的类激活图获得方法如下:
S31、根据模型SGANet的Transformer编码器输出的图像编码块,图像编码块经过变形和C通道的卷积层处理成三维特征图;
S32、使用类激活图计算方法处理三维特征图,获得基于图像块的类激活图。
作为优选,步骤S4中具体包括如下操作:使用优化后的物体定位图处理三维特征图得到多个特定类的特征图,拓展网络下支部分,同时计算基于二值交叉熵损失的上支部分损失和基于Softmax 交叉熵损失的下支部分损失,两者一起更新网络模型。
本发明还公开了一种基于梯度和区域亲和力优化的弱监督语义分割装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
本发明还公开了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
本发明的有益效果:
本发明一种基于梯度和区域亲和力优化的弱监督图像语义分割方法,由于视觉Transformer的每一层都拥有全局感受野和恒定维数,本方法提出的基于视觉Transformer的弱监督语义分割框架,可以保留精确的图像结构信息,反映像素间长距离语义关联。本发明从自注意力模块中提取梯度加权的类相关物体定位图和区域亲和度关联图,用于优化通过Transformer分类网络生成的类激活图,可以有效扩大激活区域,并使用显著性约束提高激活区域的边界质量,缓解边界被错误划分现象,为分割模型提供高质量的物体定位图;在类激活图中广泛使用的二值交叉熵(BCE)损失使CAM中每个像素可以响应于同一感受野中出现的多个类别,是造成像素标注错误的重要原因。为此,本方法使用Softmax 交叉熵(SCE)损失来重新训练BCE模式下收敛的分类模型。由于SCE的对比性,像素响应被分成不同的类别,因此预期的掩码模糊性较小,相邻目标间的像素分类准确度提高。本发明实现方法简便,手段灵活,在图像训练数据上取得显著的分割效果提升,并在相关验证数据和测试数据上进行了检验,具有不错的泛化能力。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1 本发明的整体流程图;
图2 伪标签生成网络GANet结构图;
图3 基于梯度加权的类相关激活图GETAM与区域亲和度关联图
PatchAffinity;
图4 引入显著性约束的伪标签生成网络SGANet训练流程图;
图5 再激活网络结构图;
图6 SGANet生成的PASCAL VOC 图像伪标签,原图(上)、真实标签(中)、伪标签(下);
图7 在PASCAL VOC数据集上的语义分割结果,原图(上)、人工标注图(中)、分割结果(下)。
图8是本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明实施例提供一种基于梯度和区域亲和力优化的弱监督图像语义分割方法,整体流程图如图1所示,包括如下步骤:
1、实验设定与准备:
本发明主要解决弱监督图像语义分割任务中,提升伪标签质量和模型分割性能的问题。这里正式定义训练集,训练集/>包括类别标注数据集/>和显著图数据集/>,即:,其中/>由标注样本及其类别标签组成,即/>,/>表示类别标注的样本,表示标注样本对应的真实类别标签。假设所有样本和真实标注大小均为/>。因此本发明中设计的弱监督图像语义分割任务的目的是:利用仅有图像级别类别标签的样本和对应显著图组成的数据集训练出性能良好的分割模型。
对于训练模型的网络结构设定,本文提出的基于注意力机制的弱监督语义分割框架,弱监督伪标签生成网络GANet使用Transformer作为骨干网络(见图2)。网络结构采用Vit网络,Vit网络中存在L个层级相连的编码层,每层都包含一个多头注意力模块(MHA),一个前向激活层(MLP)和两个分别位于MHA和MLP之前的LayerNorm层。Vit在整体网络中作为特征提取器,其后有用于分类任务的线性层、卷积层以及全局池化层。
对于模型输出的设定,给定输入图像,网络的最终输出:类别预测向量和/>。在再激活阶段网络下支将输出多个单类别预测向量,c表示实际图像类别数,C表示所有图像类别数。
2、分类监督约束:
输入图像首先会被分割成/>个互不重叠的图像块,通过线性层被编码成图像块序列/>(D是编码长度,/>),与一个类别编码块/>和多个PE位置编码块组成/>输入编码器。模块在对输入/>进行标准化后,将其转化成/>,/>和/>,按照自注意力机制计算输入块之间的语义关系,得到/>并进行前向传播。Transformer编码器的最终输出/>,将分成输出类别编码块/>和图像编码块/>。/>经过全连接层,转化成类别预测向量/>。/>经过变形和C通道的卷积层处理成三维特征图/>,然后使用全局平均池化将其转变成图像预测向量。分别计算/>和/>与图像级别类别标签/>之间的二值交叉熵损失(BCE loss) ,BCE loss计算公式如下:
总损失等于两者之和:,使用/>优化模型。
3、显著性损失:
通过分类网络提取的类激活图往往存在覆盖区域稀疏、区域边界不准确以及区域覆盖错误。在分类监督损失的基础上,为进一步提高物体定位图的定位精度,以获得质量更高的分割掩码,本发明在原始图像和显著图之间引入显著性约束。
图4展示了引入显著性约束后的网络训练流程。为了充分发挥显著图的作用,重新设计GANet预测器的结构,以预测C+1个类别(C个目标类别和1个背景类别),得到最终的伪标签生成网络SGANet。通过利用C张目标定位图和一张背景定位图,获得网络预测的显著图。显著性损失定义成预测显著图与标签显著图之间的像素级别差异。预测显著图/>可以由前景定位图/>和背景定位图/>组成。首先对输出特征图进行选择,每张特征图对应的是不同类别的目标的位置信息,像素值取值在0-1之间,第i张特征图记为/>,剔除非目标类别的特征图,其次对筛选后得到的目标特征图、背景特征图以及显著图都进行阈值为0.5的二值化处理,得到/>和/>,再计算特征图与显著图之间像素重叠比,计算公式如下:
重叠比大于阈值%的特征图组合得到预测前景显著图/>。对于目标类别中重叠比小于/>%的特征图,将其划分为背景显著图,与背景特征图一起组合成预测背景显著图。计算公式如下:/>
是图像级别标签,/>设为40。将计算得到/>和/>组合成预测显著图/>,计算公式如下:
0, 1]是超参数,默认设置成0.5。现在计算预测显著图与标签显著图之间的差异,显著性损失/>通过计算/>与/>的像素平均距离获得,
总体损失更新为:
使用训练伪标签生成模型SGANet。
4、基于注意力的优化策略:
当收敛后,提取/>并使用类激活图的计算方法处理,将结果命名为PatchCAM作为物体定位图。
编码器中每一层的输出都是该层自注意力模块中所有编码块的注意力加权之和,计算公式如下:
从中可以获得编码块注意力图:
是全局成对信息注意力图,从中可以提取类与图像块注意力图),如图3所示。通过将/>的形状还原成图像的形状,可以获得类无关物体定位图/>,图中每个位置代表对分类的贡献。通过反向传播每一类别的分类得分/>,得到每一类别在该层所对应的/>。通过将每层的/>与/>融合得到基于梯度加权的类相关物体定位图/>,计算公式如下:
将与/>逐元素相乘,使用Relu函数激活后,再和/>逐元素相乘。
来自不同层的注意力图的激活区域都集中指向需定位对象区域,且各自指向不同的位置,因此将来自各层的类相关定位图相加融合起来,得到GETAM。
表示类别c的GETAM。
将PatchCAM与GETAM相乘(如图3),以突出二者共同的激活区域,抑制噪声干扰,获得融合物体定位图GPAM。
从提取区域亲和度关联图/>,称为PatchAffinity,它表示图像中的区域关联性/>,如图4所示。将/>变形成4维张量,按照如下公式使用/>优化物体定位图GPAM,最终得到优化后的物体定位图/>。
5、再激活的优化策略:
使用Softmax 交叉熵损失(SCE loss)来重新训练BCE模式下收敛的分类模型SGANet。给定一张图像,使用CAM来提取每个单独类的特征像素,将它们与类标签一起使用来训练另一个在骨干网络之后的具有SCE的类别预测分支,再激活得到用于语义分割的掩码。由于SCE的对比性,像素响应被分成不同的类别,因此预期的掩码模糊性较小,相邻目标间的像素分类准确度提高。
如图5所示,训练过程中,每次提取各类的PatchCAM,并用GETAM和PatchAffinity进行优化,图中用CAM表示优化后的结果,再和编码器输出特征图融合,得到多个特定类的特征图,/>中只有该类所属的特征区域被激活。在下部分新的网络分支中,使用单类别标签和特定类的特征图进行训练,上部分的GANet依然使用/>进行训练,整个网络同时使用/>和/>进行优化,损失的梯度向包括骨干网络(Transformer编码器)的整个模型进行传播。为表述方便,这里定义一个新的总体损失函数/>:
当收敛后,将从SGANet中提取/>和从下部分网络中提取的ReCAM以对应类别相加的方式融合,最终得到激活区域更大,像素分类错误更少的物体定位图,将其作为伪标签作为语义分割训练的监督。
6、基于伪标签的语义分割
基于上述获得的伪标签,将其作为训练数据的像素级别标签进行全监督语义分割训练。采用基于ResNet38的Deeplabv1的语义分割模型。为了验证本发明所提方法的有效性和先进性,在PASCAL VOC 2012数据集及其增强数据集SBD进行实验验证,PASCALVOC数据集拥有20个前景对象类别和1个背景类别,可以被分成训练集、验证集和测试集,分别包含1,464、1,449和1,456张图片。通过使用SBD数据集扩充训练数据,可以获得包含10,582张图片的训练增强集。
基于梯度和区域亲和力优化的弱监督图像语义分割方法在PASCAL VOC 2012图像数据集上取得高质量的分割性能(见图6和图7)。具体的,在PASCAL VOC训练集上测试了SGANet生成的伪标签的平均交并比(mIoU),如表1所示,与跨图像亲和度网络(Cross-imageaffinity net: CIAN)、类内分辨器(Intra-Class Discriminator: ICD)、辅助分割网络(Auxiliary Segmentation Network: AuxSegNet)、自监督等变注意力机制(Self-supervised equivariant attention mechanism: SEAM)、基于边界探索的分割方法(Boundary Exploration basedSegmentation: BES)、上下文调整(Context Adjustment:CONTA)、对抗类激活图(AdversarialClass Activation Map: AdvCAM)和多类别块Transformer模型(Multi-class Token Transformer: MCTformer)对比,本发明方法取得最佳分割精度。
实验对比了不同的弱监督方法在PASCAL VOC 2012验证集和测试集上的表现(如表2)。与只使用图像级别标签的方法相比,本发明提出的方法具有明显的优势,对比同样使用了显著图优化的算法,在使用同样骨干网络的I+S方法中,本方法性能最好,这说明了SGANet生成的伪标签质量更好,能够促使分割网络实现更精确的分割精度。值得注意的是,其他I+S方法都使用了以CNN为
Backbone的分类网络,这说明本发明提出的基于梯度和区域优化的弱监督语义分割方法可以有效改善CNN的缺陷。综上所述,通过进行同类和跨类方法比较,验证了本方法的有效性,优于同类的一般方法。
表3和表4分别展示了使用本发明所提方法得到的语义分割模型在PASCAL VOC验证集和测试集上的各个类别分割结果精度交并比(IoU),并与其他方法结果对比。可以看到在本发明方法在大多数类上都取得了不同程度的领先,这表明了本方法的有效性和先进性。
表1:不同方法生成的伪标签在PASCAL VOC 2012训练集的mIoU(%)结果
表2不同弱监督语义分割方法性能比较
(I:图像级别标签,S:离线网络生成的显著图)
表3:在PASCAL VOC 验证集上,不同弱监督语义分割方法
各类别分割结果IoU(%)对比
表4:在PASCAL VOC 测试集上,不同弱监督语义分割方法
各类别分割结果IoU(%)对比
图6展示了SGANet生成的PASCAL VOC 图像伪标签,图7展示了在PASCAL VOC数据集上的语义分割结果,通过本发明方法得到的语义分割图具有较高的质量。
本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图8所示,为本发明一种基于梯度和区域亲和力优化的弱监督语义分割装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于梯度和区域亲和力优化的弱监督语义分割装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于,包括训练集和训练模型;所述训练集包括类别标注数据集和显著图数据集,所述类别标注数据集由标注样本以及标注样本对应的真实类别标签组成,所述显著图数据集中由标注样本对应的显著图组成;所述训练模型为基于注意力机制的弱监督语义分割框架GANet;所述方法包括如下步骤:
S1、将训练集输入训练模型,输出得到类别块预测向量和图像块预测向量,计算类别块预测向量、图像块预测向量与标注样本对应的真实类别标签之间的监督损失;步骤S1具体包括如下子步骤:
S11、将训练集输入训练模型,训练模型的Transformer编码器输出类别编码块和图像编码块;
S12、类别编码块经过全连接层转化成类别块预测向量;
S13、图像编码块经过变形和C通道的卷积层处理成三维特征图;再对三维特征图进行全局平均池化处理得到图像块预测向量;
S14、计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;
S15、计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失;
S16、根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和,得到监督损失;
S2、对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图;根据目标特征图、背景特征图和标注样本对应的显著图构建预测显著图;计算预测显著图与标注样本对应的显著图之间的显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet;
S3、从步骤S2中的模型SGANet中获得基于图像块的类激活图;基于注意力图提取梯度加权注意力图和区域亲和度关联图优化基于图像块的类激活图,得到优化后的物体定位图;具体操作如下:
S31、根据模型SGANet的Transformer编码器输出的图像编码块,图像编码块经过变形和C通道的卷积层处理成三维特征图;
S32、使用类激活图计算方法处理三维特征图,获得基于图像块的类激活图PatchCAM;
S33、编码器中每一层的输出都是该层自注意力模块中所有编码块的注意力加权之和;
从中获得编码块注意力图;
其中,表示实数集,N表示图像块的边长,M=N2;
从中提取类与图像块注意力图/>,/>;通过将/>的形状还原成图像的形状,获得类无关物体定位图/>;通过反向传播每一类别的分类得分/>,得到每一类别在该层所对应的/>;通过将每层的/>与/>融合得到基于梯度加权的类相关物体定位图/>;
其中c表示类别,i表示层数;
将和/>逐元素相乘,使用Relu函数激活后,再和/>逐元素相乘;
将来自各层的类相关定位图相加融合,得到GETAM;
将PatchCAM与GETAM相乘,获得融合物体定位图GPAM;
从提取区域亲和度关联图/>;将/>变形成4维张量/>,使用/>优化物体定位图GPAM,最终得到优化后的物体定位图/>;
S4、使用步骤S3中优化后的物体定位图处理三维特征图;使用Softmax交叉熵损失对模型SGANet进行再激活优化;具体包括如下操作:使用优化后的物体定位图处理三维特征图得到多个特定类的特征图,拓展网络下支部分,同时计算基于二值交叉熵损失的上支部分损失和基于Softmax 交叉熵损失的下支部分损失,两者一起更新网络模型;
S5、从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融合,得到最终的伪标签对图像分割模型进行全监督训练。
2.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于:所述训练模型的网络结构采用Vit网络,Vit网络中存在L个层级相连的编码层,每层都包含一个多头注意力模块,一个前向激活层和两个分别位于多头注意力模块和前向激活层之前的LayerNorm层。
3.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法,其特征在于,步骤S2具体包括如下子步骤:
S21、对训练模型输出的三维特征图进行筛选,剔除非目标类别的三维特征图;得到目标特征图和背景特征图;
S22、对目标特征图、背景特征图和标注样本对应的显著图进行二值化处理,再计算目标特征图、背景特征图与标注样本对应的显著图之间的像素重叠比;
S23、根据步骤S22中像素重叠比的大小进行划分,将像素重叠比大于等于阈值的特征图组成得到预测前景显著图;将像素重叠比小于阈值的特征图划分为背景显著图,将背景显著图与背景特征图组合成预测背景显著图;将预测前景显著图和预测背景显著图相加组合成预测显著图;
S24、计算预测显著图与标注样本对应的显著图之间的像素平均距离,得到显著性损失;结合步骤S1中的监督损失,对训练模型进行训练得到模型SGANet。
4.一种基于梯度和区域亲和力优化的弱监督语义分割装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-3任一项所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
5.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-3任一项所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395308.1A CN115512169B (zh) | 2022-11-09 | 2022-11-09 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211395308.1A CN115512169B (zh) | 2022-11-09 | 2022-11-09 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115512169A CN115512169A (zh) | 2022-12-23 |
CN115512169B true CN115512169B (zh) | 2023-07-25 |
Family
ID=84513553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211395308.1A Active CN115512169B (zh) | 2022-11-09 | 2022-11-09 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512169B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935055B (zh) * | 2023-09-18 | 2024-01-09 | 之江实验室 | 一种基于注意力掩码的弱监督语义分割方法及装置 |
CN117079103B (zh) * | 2023-10-16 | 2024-01-02 | 暨南大学 | 一种用于神经网络训练的伪标签生成方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111066063B (zh) * | 2018-06-29 | 2023-07-21 | 百度时代网络技术(北京)有限公司 | 利用卷积空间传播网络学习的亲和度进行深度估计的系统和方法 |
US20210027098A1 (en) * | 2019-07-22 | 2021-01-28 | Shenzhen Malong Technologies Co., Ltd. | Weakly Supervised Image Segmentation Via Curriculum Learning |
US11450008B1 (en) * | 2020-02-27 | 2022-09-20 | Amazon Technologies, Inc. | Segmentation using attention-weighted loss and discriminative feature learning |
CN111723813B (zh) * | 2020-06-05 | 2021-07-06 | 中国科学院自动化研究所 | 基于类内判别器的弱监督图像语义分割方法、系统、装置 |
US20220261593A1 (en) * | 2021-02-16 | 2022-08-18 | Nvidia Corporation | Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision |
CN113222998B (zh) * | 2021-04-13 | 2022-05-31 | 天津大学 | 基于自监督低秩网络的半监督图像语义分割方法及装置 |
CN114332135B (zh) * | 2022-03-10 | 2022-06-10 | 之江实验室 | 一种基于双模型交互学习的半监督医学图像分割方法及装置 |
CN114677515B (zh) * | 2022-04-25 | 2023-05-26 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
-
2022
- 2022-11-09 CN CN202211395308.1A patent/CN115512169B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN112668579A (zh) * | 2020-12-24 | 2021-04-16 | 西安电子科技大学 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115512169A (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11556797B2 (en) | Systems and methods for polygon object annotation and a method of training an object annotation system | |
CN115512169B (zh) | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 | |
Cavalli et al. | Handcrafted outlier detection revisited | |
CN115331087A (zh) | 融合区域语义与像素特征的遥感影像变化检测方法及系统 | |
CN113065594A (zh) | 一种基于北斗数据与遥感影像融合的路网提取方法及装置 | |
CN113657414B (zh) | 一种物体识别方法 | |
Shu et al. | LVC-Net: Medical image segmentation with noisy label based on local visual cues | |
Yuan et al. | Neighborloss: a loss function considering spatial correlation for semantic segmentation of remote sensing image | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114550014B (zh) | 道路分割方法及计算机装置 | |
CN117253044A (zh) | 一种基于半监督交互学习的农田遥感图像分割方法 | |
Liu et al. | A new multi-channel deep convolutional neural network for semantic segmentation of remote sensing image | |
Lv et al. | Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle | |
Liu et al. | Weakly supervised region of interest extraction based on uncertainty-aware self-refinement learning for remote sensing images | |
CN118072141A (zh) | 一种面向低功耗除草机器人的轻量级杂草检测模型及检测方法 | |
CN116189130A (zh) | 基于图像标注模型的车道线分割方法及装置 | |
CN115937220A (zh) | 一种基于双向门控记忆网络的交互式三维医学图像分割方法 | |
CN114998630A (zh) | 一种从粗到精的地对空图像配准方法 | |
Shen et al. | Optimal transport-based domain adaptation for semantic segmentation of remote sensing images | |
Sun et al. | Fusion representation learning for keypoint detection and description | |
Lyu et al. | Deep semantic feature matching using confidential correspondence consistency | |
Jiang et al. | Improving sparse graph attention for feature matching by informative keypoints exploration | |
Jia et al. | FingerSTR: Weak Supervised Transformer for Latent Fingerprint Segmentation | |
Pal et al. | MAML-SR: Self-adaptive super-resolution networks via multi-scale optimized attention-aware meta-learning | |
CN117893934B (zh) | 一种改进的UNet3+网络无人机影像铁路轨道线检测方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |