CN115546490A - 一种基于显著性引导的弱监督语义分割方法 - Google Patents

一种基于显著性引导的弱监督语义分割方法 Download PDF

Info

Publication number
CN115546490A
CN115546490A CN202211473470.0A CN202211473470A CN115546490A CN 115546490 A CN115546490 A CN 115546490A CN 202211473470 A CN202211473470 A CN 202211473470A CN 115546490 A CN115546490 A CN 115546490A
Authority
CN
China
Prior art keywords
class
target object
region
label
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211473470.0A
Other languages
English (en)
Inventor
陈涛
黄丹
孙泽人
姚亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202211473470.0A priority Critical patent/CN115546490A/zh
Publication of CN115546490A publication Critical patent/CN115546490A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于显著性引导的弱监督语义分割方法,包括给定带有图像级弱标签的图像,通过训练一个分类网络,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签。本发明通过设计了一个类别无关距离损失,扩大类别激活图中激活的目标对象区域,同时设计了一个类别特定距离损失,使目标对象区域比背景区域具有更高的激活度,由此拉近类内特征和分离类间特征,使显著图在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;进一步的,通过构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。

Description

一种基于显著性引导的弱监督语义分割方法
技术领域
本发明涉及弱监语义分割技术领域,具体涉及一种基于显著性引导的弱监督语义分割方法。
背景技术
目前基于图像级标注的弱监督语义分割任务的挑战在于,虽然图像级别标签可以指示特定类别对象的存在,但它们不提供有关其位置或边界的任何线索,故很难直接使用图像级标注来训练分割网络。
现有的工作通常是利用图像级标注训练一个分类网络,然后借助类别激活图(CAMs)生成伪标签来指导语义分割模型的训练,然而,类别激活图只能定位物体最具辨别力的部分,针对小而稀疏的激活区域,难以获得高质量的像素级标签;
故扩大类别激活图中的激活区域以覆盖整个目前对象区域,是弱监督语义分割的主要研究方向,但是当扩展最具辨别力的部分以覆盖更多的对象区域时,对象周围的背景区域也不可避免地会被激活;
鉴于此,在弱监督语义分割任务中,已广泛采用显著图,为伪标签的生成提供背景线索,但是,显著图不能帮助分离显著区域内不同类别的对象,也不能识别显著区域外对象的边界。
因此,如何进一步挖掘显著图的潜力,在分类网络的训练过程中,扩展类别激活图中激活的目标对象区域,同时提取紧凑完整的目标对象区域,生成更加有利于分割网络训练的伪标签,对弱监督语义分割任务来说至关重要。
发明内容
本发明的目的是提供一种基于显著性引导的弱监督语义分割方法,通过设计了一个类别无关距离损失,用以显示最小化类内特征方差,为类别激活图提供边界线索,对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,同时扩大类别激活图中激活的目标对象区域,同时设计了一个类别特定距离损失,最大化不同类间的特征差异,促使网络将目标对象区域和背景特征区域分开,使目标对象区域比背景区域具有更高的激活度,由此拉近类内特征和分离类间特征,挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;进一步的,根据分割预测和从类别激活图获得的初始伪标签具有互补性的特点,构建一个对象引导的标签精炼子方法,以充分利用分割预测和初始伪标签,进而通过分割模型生成进阶伪标签,用于分割网络训练,有利于分割网络训练,以解决技术中的上述不足之处。
为了实现上述目的,本发明提供如下技术方案:一种基于显著性引导的弱监督语义分割方法,包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练。
优选的,步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量
Figure 511834DEST_PATH_IMAGE001
Figure 17901DEST_PATH_IMAGE002
其中,h是显著图的高度,w是显著图的宽度;
(A2)、目标对象区域原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,以获得原型特征距离D,使用掩码平均池化操作为显著对象区域定义一个类别无关距离损失
Figure 765277DEST_PATH_IMAGE003
,并按下式计算类别无关距离损失
Figure 382204DEST_PATH_IMAGE004
Figure 265846DEST_PATH_IMAGE005
其中,h′是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
(A3)、将类别无关距离损失与反向显著图进行结合,按下式计算背景区域原型向量
Figure 5132DEST_PATH_IMAGE006
Figure 177487DEST_PATH_IMAGE007
其中,反向显著图
Figure 660421DEST_PATH_IMAGE008
(A4)、背景原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,在获得背景特征距离
Figure 601832DEST_PATH_IMAGE009
后,按下式计算背景区域的类别无关距离损失
Figure 512020DEST_PATH_IMAGE010
Figure 968409DEST_PATH_IMAGE011
优选的,步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
(B1)、在类别无关距离损失中获得目标对象区域和背景区域的类原型后,利用图像级标签
Figure 927137DEST_PATH_IMAGE012
定位与图像中存在的特定类别相关的通道,按下式计算类别特定的距离损失
Figure 50951DEST_PATH_IMAGE013
Figure 804144DEST_PATH_IMAGE014
其中,
Figure 13408DEST_PATH_IMAGE015
是目标对象区域原型向量,
Figure 775828DEST_PATH_IMAGE016
是背景区域原型向量;
(B2)、基于显著性引导的类间和类内关系约束,按下式计算分类网络的总体训练损失
Figure 754148DEST_PATH_IMAGE017
Figure 943821DEST_PATH_IMAGE018
其中,
Figure 106293DEST_PATH_IMAGE019
是用于控制目标对象区域的类别无关距离损失的超参数,
Figure 469141DEST_PATH_IMAGE020
是用于控制背景区域的类别无关距离损失的超参数,
Figure 505231DEST_PATH_IMAGE021
是类别特定距离损失的超参数,
Figure 928122DEST_PATH_IMAGE022
是多标签软边际损失。
优选的,步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练,包括以下步骤:
(C1)、借助指示类别存在与否的图像级标签
Figure 784082DEST_PATH_IMAGE023
,过滤掉分割预测
Figure 950621DEST_PATH_IMAGE024
中不应该存在的目标对象区域,如下式所示:
Figure 637955DEST_PATH_IMAGE025
其中
Figure 169430DEST_PATH_IMAGE026
Figure 575004DEST_PATH_IMAGE027
是像素位置索引;
(C2)、重新标记分割预测中与初始伪标签
Figure 217338DEST_PATH_IMAGE028
不一致的背景像素,如下式所示:
Figure 24757DEST_PATH_IMAGE029
(C3)、进一步挖掘网络预测和初始标签中遗漏的目标对象区域,获得进阶伪标签用于弱监督语义分割网络训练,如下式所示:
Figure 523871DEST_PATH_IMAGE030
与现有技术相比,本发明的有益效果是:
1、本发明通过设计了一个类别无关距离损失,减少了类内特征方差,为类别激活图提供边界线索,促使网络激活显著区域内的完整目标对象,同时对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,并扩大类别激活图中激活的目标对象区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活,同时通过设计了一个类别特定距离损失,可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值,促使网络将目标对象区域和背景特征区域分开,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域,并促使目标对象区域比背景区域具有更高的激活度,避免网络生成平滑的特征,最大化不同类间的特征差异,促使目标对象区域比背景区域具有更高的激活度,进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征,从而挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;
2、本发明通过设计了一个对象引导的标签精炼子方法,以分割预测为基础,在初始伪标签的指导下将部分背景修正为目标或不可靠标签,并通过图像级标注,修正预测中并不存在于图像内的目标类别的像素标签,进一步挖掘网络预测中缺失的类别,进而充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签,有利于分割网络训练。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明基于显著性引导的类间和类内关系约束算法示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
本发明提供了如图1所示的一种基于显著性引导的弱监督语义分割方法,包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
如图1(a)所示:(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量
Figure 354424DEST_PATH_IMAGE001
Figure 862766DEST_PATH_IMAGE002
其中,h是显著图的高度,w是显著图的宽度;
在本实施例中,通过将显著区域内的目标对象区域特征与其类别原型对齐,促使网络在显著对象区域内学习更紧凑、一致,从而在类别激活图中实现更完整的目标对象区域激活;
(A2)、目标对象区域原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,以获得原型特征距离D,使用掩码平均池化操作为显著对象区域定义一个类别无关距离损失
Figure 462374DEST_PATH_IMAGE003
,并按下式计算类别无关距离损失
Figure 397969DEST_PATH_IMAGE004
Figure 715818DEST_PATH_IMAGE031
其中,h′是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
在本实施例中,定义类别无关距离损失后,不仅可以通过该类别无关距离损失减少类内特征方差,促使网络激活显著区域内的完整目标对象区域;
其次,将类内特征方差与类别原型对齐,还可降低类别激活图中最具辨别力区域的峰值,迫使网络进一步激活其他不太具有辨别力,但又和分类任务密切相关的其它目标对象区域,以保持网络的分类能力;
如图1(b)所示:(A3)将类别无关距离损失与反向显著图进行结合,按下式计算背景区域原型向量
Figure 27851DEST_PATH_IMAGE006
Figure 278703DEST_PATH_IMAGE007
其中,反向显著图
Figure 322883DEST_PATH_IMAGE008
在本实施例中,可以避免当目标对象区域与其环境具有较强的共现性时,分类网络有时会激活与识别相关的部分背景区域,同时由于显著对象区域只有类内关系约束,为了防止网络为激活的具有高鉴别性的区域学习一个狡猾的位置偏移,绕过显著区域中的类内关系约束,将对象激活转移到背景区域,削弱类别激活图的定位能力,进而将类别无关距离损失与反向显著图进行结合,以鼓励背景特征提取的紧凑性和一致性,即将显著性引导的类别无关距离损失应用于显著图之外的背景区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活;
(A4)、背景原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,在获得背景特征距离
Figure 190345DEST_PATH_IMAGE032
后,按下式计算背景区域的类别无关距离损失
Figure 978172DEST_PATH_IMAGE010
Figure 614690DEST_PATH_IMAGE011
在本实施例中,通过类别无关距离模型的类内关系约束,可以有效地最小化显著区域内外的特征方差,且该类别无关距离损失显式地约束分类网络在训练过程中,为显著区域内的特征学习一致且紧凑的表征,使得该类别无关距离损失将促使分类网络激活更多的目标对象区域,有利于后期借助类别激活图更好地挖掘完整的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
(B1)、在类别无关距离损失中获得目标对象区域和背景区域的类原型后,利用图像级标签
Figure 829770DEST_PATH_IMAGE033
定位与图像中存在的特定类别相关的通道,按下式计算类别特定的距离损失
Figure 184528DEST_PATH_IMAGE013
Figure 307205DEST_PATH_IMAGE014
其中,
Figure 735913DEST_PATH_IMAGE015
是目标对象区域原型向量,
Figure 452720DEST_PATH_IMAGE016
是背景区域原型向量;
在本实施例中,该类别特定的距离损失可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值;
(B2)、基于显著性引导的类间和类内关系约束,按下式计算分类网络的总体训练损失
Figure 966878DEST_PATH_IMAGE017
Figure 158825DEST_PATH_IMAGE018
其中,
Figure 504356DEST_PATH_IMAGE019
是用于控制目标对象区域的类别无关距离损失的超参数,
Figure 61239DEST_PATH_IMAGE020
是用于控制背景区域的类别无关距离损失的超参数,
Figure 125010DEST_PATH_IMAGE021
是类别特定距离损失的超参数,
Figure 58331DEST_PATH_IMAGE022
是多标签软边际损失;
在本实施例中,通过一个类别特定距离损失,可以促使网络将目标对象区域和背景特征区域,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域;
同时促使目标对象区域比背景区域具有更高的激活度;
且可以避免网络生成平滑的特征,导致目标对象区域和背景区域具有相同的激活值;
同时鉴于目标对象区域被期望在其类别激活图中能够有更高的激活,特定类别的对象原型被显式地鼓励具有比背景原型更大的激活值,此处需要注意的是,CAD 损失和CSD损失仅适用于步骤(B1)中所述简单图像,对于具有两种或两种以上对象类别的复杂图像,显著图和目标对象区域掩码之间的近似不成立,因此仅将 CAD损失和 CSD 损失应用于简单图像,而尽管类间和类内关系约束仅在简单图像上应用,受益于深度网络强大的学习和拟合能力,本发明方法训练得到的网络同样适用于为复杂图像激活紧凑和完整的对象区域 ,即为复杂图像的每个类别都生成相应的激活图,从而定位每个类别的对象区域;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练,包括以下步骤:
(C1)、借助指示类别存在与否的图像级标签
Figure 523947DEST_PATH_IMAGE023
,过滤掉分割预测
Figure 251732DEST_PATH_IMAGE024
中不应该存在的目标对象区域,如下式所示:
Figure 537220DEST_PATH_IMAGE025
其中
Figure 70969DEST_PATH_IMAGE026
Figure 328775DEST_PATH_IMAGE027
是像素位置索引;
在本实施例中,在分割网络训练的过程中,错误的目标对象区域标签会在被更正为 255 后忽略,从而有助于丢弃由误导性信息生成的梯度;
(C2)、重新标记分割预测中与初始伪标签
Figure 555357DEST_PATH_IMAGE034
不一致的背景像素,如下式所示:
Figure 531404DEST_PATH_IMAGE029
在本实施例中,鉴于在初始伪标签中,只有显著区域内的像素或在类别激活图中具有高激活度的像素会被识别为非背景区域,故可以假设这些像素是可靠的,不应被视为背景;
(C3)、进一步挖掘网络预测和初始标签中遗漏的目标对象区域,获得进阶伪标签用于弱监督语义分割网络训练,如下式所示:
Figure 337686DEST_PATH_IMAGE030
在本实施例中,通过遍历图像级标签中的所有类别,检查
Figure 777894DEST_PATH_IMAGE035
中是否缺少某些类别的目标对象区域,如果存在类别缺失的情况,便将图像的所有背景设置为 255,由于没有任何线索来纠正当前标记为背景的对象像素,因此,此处将所有背景设置为不可靠的标签,即标为 255,从而在训练过程中进行忽略,进而着重于降低初始伪标签的假负率,即目标对象区域被错标为背景区域的可能,并依靠分割网络的自校正能力来发现遗漏的目标对象区域,进而获得更高质量的伪标签。
在PASCALVOC2012和MSCOCO 数据集上进行了实验和研究,表明了本弱监督语义分割方法的优越性,其在VGG主干网络上,可以在PASCALVOC2012验证集上达到64.3%mIoU,在测试集达到65.4%mIoU,其与利用额外训练图像的方法相比,本弱监督语义分割方法可以将结果提高6.7%mIoU以上。在更强大的 ResNet主干网络上,本弱监督语义分割方法的分割结果在验证集和测试集上分别达到69.3%和69.5%。在更具挑战性的COCO数据集上,本弱监督语义分割方法中提出的算法在验证集上达到了31.2%的最佳性能。
综上所述,本发明通过设计了一个类别无关距离损失,减少了类内特征方差,为类别激活图提供边界线索,促使网络激活显著区域内的完整目标对象,同时对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,并扩大类别激活图中激活的目标对象区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活,同时通过设计了一个类别特定距离损失,可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值,促使网络将目标对象区域和背景特征区域分开,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域,并促使目标对象区域比背景区域具有更高的激活度,避免网络生成平滑的特征,最大化不同类间的特征差异,促使目标对象区域比背景区域具有更高的激活度,进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征,从而挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;
本发明通过设计了一个对象引导的标签精炼子方法,以分割预测为基础,在初始伪标签的指导下将部分背景修正为目标或不可靠标签,并通过图像级标注,修正预测中并不存在于图像内的目标类别的像素标签,进一步挖掘网络预测中缺失的类别,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

Claims (4)

1.一种基于显著性引导的弱监督语义分割方法,其特征在于:包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练。
2.根据权利要求1所述的一种基于显著性引导的弱监督语义分割方法,其特征在于:步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量
Figure 251671DEST_PATH_IMAGE001
Figure 715014DEST_PATH_IMAGE002
其中,h是显著图的高度,w是显著图的宽度;
(A2)、目标对象区域原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,以获得原型特征距离D,使用掩码平均池化操作为显著对象区域定义一个类别无关距离损失
Figure 327916DEST_PATH_IMAGE003
,并按下式计算类别无关距离损失
Figure 622631DEST_PATH_IMAGE004
Figure 128699DEST_PATH_IMAGE005
其中,h′ 是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
(A3)、将类别无关距离损失与反向显著图进行结合,按下式计算背景区域原型向量
Figure 876075DEST_PATH_IMAGE006
Figure 289739DEST_PATH_IMAGE007
其中,反向显著图
Figure 376644DEST_PATH_IMAGE008
(A4)、背景原型向量被采样到与注意力图相同的空间大小后,进行逐元素相减,在获得背景特征距离
Figure 115930DEST_PATH_IMAGE009
后,按下式计算背景区域的类别无关距离损失
Figure 288285DEST_PATH_IMAGE010
Figure 240061DEST_PATH_IMAGE011
3.根据权利要求1所述的一种基于显著性引导的弱监督语义分割方法,其特征在于:步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
(B1)、在类别无关距离损失中获得目标对象区域和背景区域的类原型后,利用图像级标签
Figure 509368DEST_PATH_IMAGE012
定位与图像中存在的特定类别相关的通道,按下式计算类别特定的距离损失
Figure 357238DEST_PATH_IMAGE013
Figure 79207DEST_PATH_IMAGE014
其中,
Figure 37935DEST_PATH_IMAGE015
是目标对象区域原型向量,
Figure 630591DEST_PATH_IMAGE016
是背景区域原型向量;
(B2)、基于显著性引导的类间和类内关系约束,按下式计算分类网络的总体训练损失
Figure 711679DEST_PATH_IMAGE017
Figure 858627DEST_PATH_IMAGE018
其中,
Figure 683363DEST_PATH_IMAGE019
是用于控制目标对象区域的类别无关距离损失的超参数,
Figure 599367DEST_PATH_IMAGE020
是用于控制背景区域的类别无关距离损失的超参数,
Figure 320198DEST_PATH_IMAGE021
是类别特定距离损失的超参数,
Figure 16759DEST_PATH_IMAGE022
是多标签软边际损失。
4.根据权利要求1所述的一种基于显著性引导的弱监督语义分割方法,其特征在于:步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练,包括以下步骤:
(C1)、借助指示类别存在与否的图像级标签
Figure 317290DEST_PATH_IMAGE023
,过滤掉分割预测
Figure 415696DEST_PATH_IMAGE024
中不应该存在的目标对象区域,如下式所示:
Figure 307428DEST_PATH_IMAGE025
其中
Figure 428968DEST_PATH_IMAGE026
Figure 595507DEST_PATH_IMAGE027
是像素位置索引;
(C2)、重新标记分割预测中与初始伪标签
Figure 220524DEST_PATH_IMAGE028
不一致的背景像素,如下式所示:
Figure 545807DEST_PATH_IMAGE029
(C3)、进一步挖掘网络预测和初始标签中遗漏的目标对象区域,获得进阶伪标签用于弱监督语义分割网络训练,如下式所示:
Figure 951381DEST_PATH_IMAGE030
CN202211473470.0A 2022-11-23 2022-11-23 一种基于显著性引导的弱监督语义分割方法 Pending CN115546490A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211473470.0A CN115546490A (zh) 2022-11-23 2022-11-23 一种基于显著性引导的弱监督语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211473470.0A CN115546490A (zh) 2022-11-23 2022-11-23 一种基于显著性引导的弱监督语义分割方法

Publications (1)

Publication Number Publication Date
CN115546490A true CN115546490A (zh) 2022-12-30

Family

ID=84721269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211473470.0A Pending CN115546490A (zh) 2022-11-23 2022-11-23 一种基于显著性引导的弱监督语义分割方法

Country Status (1)

Country Link
CN (1) CN115546490A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079103A (zh) * 2023-10-16 2023-11-17 暨南大学 一种用于神经网络训练的伪标签生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN114820655A (zh) * 2022-04-26 2022-07-29 中国地质大学(武汉) 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN114820655A (zh) * 2022-04-26 2022-07-29 中国地质大学(武汉) 可靠区域作为注意力机制监督的弱监督建筑物分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAO CHEN等: "Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly Supervised Semantic Segmentation", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079103A (zh) * 2023-10-16 2023-11-17 暨南大学 一种用于神经网络训练的伪标签生成方法及系统
CN117079103B (zh) * 2023-10-16 2024-01-02 暨南大学 一种用于神经网络训练的伪标签生成方法及系统

Similar Documents

Publication Publication Date Title
Hao et al. A brief survey on semantic segmentation with deep learning
Bušta et al. E2e-mlt-an unconstrained end-to-end method for multi-language scene text
Zhu et al. Learning instance activation maps for weakly supervised instance segmentation
Liu et al. Squeezedtext: A real-time scene text recognition by binary convolutional encoder-decoder network
Mishra et al. Top-down and bottom-up cues for scene text recognition
Chen et al. Detection evolution with multi-order contextual co-occurrence
Pan et al. A robust system to detect and localize texts in natural scene images
Pfister et al. Large-scale Learning of Sign Language by Watching TV (Using Co-occurrences).
Ding et al. Phraseclick: toward achieving flexible interactive segmentation by phrase and click
Oliveira et al. Automatic graphic logo detection via fast region-based convolutional networks
Rong et al. Recognizing text-based traffic guide panels with cascaded localization network
Zhu et al. Could scene context be beneficial for scene text detection?
Hashmi et al. Guided table structure recognition through anchor optimization
US20210110189A1 (en) Character-based text detection and recognition
US11769341B2 (en) System and method to extract information from unstructured image documents
Ghosh et al. Understanding movie poster: transfer-deep learning approach for graphic-rich text recognition
CN115546490A (zh) 一种基于显著性引导的弱监督语义分割方法
CN114898372A (zh) 一种基于边缘注意力引导的越南场景文字检测方法
Jain et al. Indian vehicle number-plate recognition using single shot detection and ocr
Figueroa-Flores et al. Hallucinating saliency maps for fine-grained image classification for limited data domains
US9111142B2 (en) Method and apparatus for providing sign information
Aladhadh et al. Recurrent Convolutional Neural Network MSER-Based Approach for Payable Document Processing.
Lee et al. Complementary combination of holistic and component analysis for recognition of low-resolution video character images
CN112785601A (zh) 一种图像分割方法、系统、介质及电子终端
Do et al. SignboardText: Text Detection and Recognition in In-the-Wild Signboard Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221230