CN115546490A

CN115546490A - 一种基于显著性引导的弱监督语义分割方法

Info

Publication number: CN115546490A
Application number: CN202211473470.0A
Authority: CN
Inventors: 陈涛; 黄丹; 孙泽人; 姚亚洲
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2022-12-30

Abstract

本发明公开了一种基于显著性引导的弱监督语义分割方法，包括给定带有图像级弱标签的图像，通过训练一个分类网络，此时利用从注意力图导出的类别激活图定位目标对象区域，生成初始伪标签。本发明通过设计了一个类别无关距离损失，扩大类别激活图中激活的目标对象区域，同时设计了一个类别特定距离损失，使目标对象区域比背景区域具有更高的激活度，由此拉近类内特征和分离类间特征，使显著图在分类网络的训练过程中，可以扩展类别激活图中激活的目标对象区域，提取紧凑完整的目标对象区域；进一步的，通过构建一个对象引导的标签精炼子方法，充分利用分割预测对初始伪标签再训练，为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。

Description

一种基于显著性引导的弱监督语义分割方法

技术领域

本发明涉及弱监语义分割技术领域，具体涉及一种基于显著性引导的弱监督语义分割方法。

背景技术

目前基于图像级标注的弱监督语义分割任务的挑战在于，虽然图像级别标签可以指示特定类别对象的存在，但它们不提供有关其位置或边界的任何线索，故很难直接使用图像级标注来训练分割网络。

现有的工作通常是利用图像级标注训练一个分类网络，然后借助类别激活图(CAMs)生成伪标签来指导语义分割模型的训练，然而，类别激活图只能定位物体最具辨别力的部分，针对小而稀疏的激活区域，难以获得高质量的像素级标签；

故扩大类别激活图中的激活区域以覆盖整个目前对象区域，是弱监督语义分割的主要研究方向，但是当扩展最具辨别力的部分以覆盖更多的对象区域时，对象周围的背景区域也不可避免地会被激活；

鉴于此，在弱监督语义分割任务中，已广泛采用显著图，为伪标签的生成提供背景线索，但是，显著图不能帮助分离显著区域内不同类别的对象，也不能识别显著区域外对象的边界。

因此，如何进一步挖掘显著图的潜力，在分类网络的训练过程中，扩展类别激活图中激活的目标对象区域，同时提取紧凑完整的目标对象区域，生成更加有利于分割网络训练的伪标签，对弱监督语义分割任务来说至关重要。

发明内容

本发明的目的是提供一种基于显著性引导的弱监督语义分割方法，通过设计了一个类别无关距离损失，用以显示最小化类内特征方差，为类别激活图提供边界线索，对类内关系进行约束，防止类别激活图中的目标对象区域激活扩散到背景区域，同时扩大类别激活图中激活的目标对象区域，同时设计了一个类别特定距离损失，最大化不同类间的特征差异，促使网络将目标对象区域和背景特征区域分开，使目标对象区域比背景区域具有更高的激活度，由此拉近类内特征和分离类间特征，挖掘显著图的潜力，使其在分类网络的训练过程中，可以扩展类别激活图中激活的目标对象区域，提取紧凑完整的目标对象区域；进一步的，根据分割预测和从类别激活图获得的初始伪标签具有互补性的特点，构建一个对象引导的标签精炼子方法，以充分利用分割预测和初始伪标签，进而通过分割模型生成进阶伪标签，用于分割网络训练，有利于分割网络训练，以解决技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：一种基于显著性引导的弱监督语义分割方法，包括以下步骤：

步骤（A）、给定带有图像级弱标签的图像，训练一个分类网络，通过构建一个用以显示最小化类内特征方差的类别无关距离损失，对类内关系进行约束，扩大类别激活图中的目标对象区域；

步骤（B）、构建一个类别特定距离损失，以最大化不同类间的特征差异，用以将目标对象区域和背景区域特征区分开，此时利用从注意力图导出的类别激活图定位目标对象区域，生成初始伪标签；

步骤（C）、构建一个对象引导的标签精炼子方法，充分利用分割预测对初始伪标签再训练，进而通过分割模型生成进阶伪标签，用于弱监督语义分割网络训练。

优选的，步骤（A）、给定带有图像级弱标签的图像，训练一个分类网络，通过构建一个用以显示最小化类内特征方差的类别无关距离损失，对类内关系进行约束，扩大类别激活图中的目标对象区域，包括以下步骤：

（A1）、对于只包含一类对象的简单图像，其类别无关的显著图可近似为其相应的目标对象掩码，故借助类别无关的显著图掩码，对特征应用掩码平均池化操作，提取类别原型向量，具体的，当注意力图F 上采样到与掩码M相同的大小后，按下式计算目标对象区域原型向量

：

其中，h是显著图的高度，w是显著图的宽度；

（A2）、目标对象区域原型向量被采样到与注意力图相同的空间大小后，进行逐元素相减，以获得原型特征距离D，使用掩码平均池化操作为显著对象区域定义一个类别无关距离损失

，并按下式计算类别无关距离损失

：

其中，h′是注意力图的高度，w′是注意力图的宽度，c是注意力图的通道数；

（A3）、将类别无关距离损失与反向显著图进行结合，按下式计算背景区域原型向量

：

其中，反向显著图

；

（A4）、背景原型向量被采样到与注意力图相同的空间大小后，进行逐元素相减，在获得背景特征距离

后，按下式计算背景区域的类别无关距离损失

：

。

优选的，步骤（B）、构建一个类别特定距离损失，以最大化不同类间的特征差异，用以将目标对象区域和背景区域特征区分开，此时利用从注意力图导出的类别激活图定位目标对象区域，生成初始伪标签，包括以下步骤：

（B1）、在类别无关距离损失中获得目标对象区域和背景区域的类原型后，利用图像级标签

定位与图像中存在的特定类别相关的通道，按下式计算类别特定的距离损失

：

其中，

是目标对象区域原型向量，

是背景区域原型向量；

（B2）、基于显著性引导的类间和类内关系约束，按下式计算分类网络的总体训练损失

：

其中，

是用于控制目标对象区域的类别无关距离损失的超参数，

是用于控制背景区域的类别无关距离损失的超参数，

是类别特定距离损失的超参数，

是多标签软边际损失。

优选的，步骤（C）、构建一个对象引导的标签精炼子方法，充分利用分割预测对初始伪标签再训练，进而通过分割模型生成进阶伪标签，用于弱监督语义分割网络训练，包括以下步骤：

（C1）、借助指示类别存在与否的图像级标签

，过滤掉分割预测

中不应该存在的目标对象区域，如下式所示：

其中

、

是像素位置索引；

（C2）、重新标记分割预测中与初始伪标签

不一致的背景像素，如下式所示：

；

（C3）、进一步挖掘网络预测和初始标签中遗漏的目标对象区域，获得进阶伪标签用于弱监督语义分割网络训练，如下式所示：

。

与现有技术相比，本发明的有益效果是：

1、本发明通过设计了一个类别无关距离损失，减少了类内特征方差，为类别激活图提供边界线索，促使网络激活显著区域内的完整目标对象，同时对类内关系进行约束，防止类别激活图中的目标对象区域激活扩散到背景区域，并扩大类别激活图中激活的目标对象区域，促使网络学习紧凑且一致的背景特征，帮助减少背景区域内的错误激活，同时通过设计了一个类别特定距离损失，可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值，促使网络将目标对象区域和背景特征区域分开，避免更加一致的类内特征，不能保证目标对象区域的激活高于背景区域，并促使目标对象区域比背景区域具有更高的激活度，避免网络生成平滑的特征，最大化不同类间的特征差异，促使目标对象区域比背景区域具有更高的激活度，进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征，从而挖掘显著图的潜力，使其在分类网络的训练过程中，可以扩展类别激活图中激活的目标对象区域，提取紧凑完整的目标对象区域；

2、本发明通过设计了一个对象引导的标签精炼子方法，以分割预测为基础，在初始伪标签的指导下将部分背景修正为目标或不可靠标签，并通过图像级标注，修正预测中并不存在于图像内的目标类别的像素标签，进一步挖掘网络预测中缺失的类别，进而充分利用分割预测对初始伪标签再训练，进而通过分割模型生成进阶伪标签，为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签，有利于分割网络训练。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明基于显著性引导的类间和类内关系约束算法示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

本发明提供了如图1所示的一种基于显著性引导的弱监督语义分割方法，包括以下步骤：

步骤（A）、给定带有图像级弱标签的图像，训练一个分类网络，通过构建一个用以显示最小化类内特征方差的类别无关距离损失，对类内关系进行约束，扩大类别激活图中的目标对象区域，包括以下步骤：

如图1（a）所示：（A1）、对于只包含一类对象的简单图像，其类别无关的显著图可近似为其相应的目标对象掩码，故借助类别无关的显著图掩码，对特征应用掩码平均池化操作，提取类别原型向量，具体的，当注意力图F 上采样到与掩码M相同的大小后，按下式计算目标对象区域原型向量

：

其中，h是显著图的高度，w是显著图的宽度；

在本实施例中，通过将显著区域内的目标对象区域特征与其类别原型对齐，促使网络在显著对象区域内学习更紧凑、一致，从而在类别激活图中实现更完整的目标对象区域激活；

，并按下式计算类别无关距离损失

：

在本实施例中，定义类别无关距离损失后，不仅可以通过该类别无关距离损失减少类内特征方差，促使网络激活显著区域内的完整目标对象区域；

其次，将类内特征方差与类别原型对齐，还可降低类别激活图中最具辨别力区域的峰值，迫使网络进一步激活其他不太具有辨别力，但又和分类任务密切相关的其它目标对象区域，以保持网络的分类能力；

如图1（b）所示：（A3）将类别无关距离损失与反向显著图进行结合，按下式计算背景区域原型向量

：

其中，反向显著图

；

在本实施例中，可以避免当目标对象区域与其环境具有较强的共现性时，分类网络有时会激活与识别相关的部分背景区域，同时由于显著对象区域只有类内关系约束，为了防止网络为激活的具有高鉴别性的区域学习一个狡猾的位置偏移，绕过显著区域中的类内关系约束，将对象激活转移到背景区域，削弱类别激活图的定位能力，进而将类别无关距离损失与反向显著图进行结合，以鼓励背景特征提取的紧凑性和一致性，即将显著性引导的类别无关距离损失应用于显著图之外的背景区域，促使网络学习紧凑且一致的背景特征，帮助减少背景区域内的错误激活；

后，按下式计算背景区域的类别无关距离损失

：

在本实施例中，通过类别无关距离模型的类内关系约束，可以有效地最小化显著区域内外的特征方差，且该类别无关距离损失显式地约束分类网络在训练过程中，为显著区域内的特征学习一致且紧凑的表征，使得该类别无关距离损失将促使分类网络激活更多的目标对象区域，有利于后期借助类别激活图更好地挖掘完整的目标对象区域；

步骤（B）、构建一个类别特定距离损失，以最大化不同类间的特征差异，用以将目标对象区域和背景区域特征区分开，此时利用从注意力图导出的类别激活图定位目标对象区域，生成初始伪标签，包括以下步骤：

：

其中，

是目标对象区域原型向量，

是背景区域原型向量；

在本实施例中，该类别特定的距离损失可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值；

：

其中，

是用于控制目标对象区域的类别无关距离损失的超参数，

是用于控制背景区域的类别无关距离损失的超参数，

是类别特定距离损失的超参数，

是多标签软边际损失；

在本实施例中，通过一个类别特定距离损失，可以促使网络将目标对象区域和背景特征区域，避免更加一致的类内特征，不能保证目标对象区域的激活高于背景区域；

同时促使目标对象区域比背景区域具有更高的激活度；

且可以避免网络生成平滑的特征，导致目标对象区域和背景区域具有相同的激活值；

同时鉴于目标对象区域被期望在其类别激活图中能够有更高的激活，特定类别的对象原型被显式地鼓励具有比背景原型更大的激活值，此处需要注意的是，CAD 损失和CSD损失仅适用于步骤（B1）中所述简单图像，对于具有两种或两种以上对象类别的复杂图像，显著图和目标对象区域掩码之间的近似不成立，因此仅将 CAD损失和 CSD 损失应用于简单图像，而尽管类间和类内关系约束仅在简单图像上应用，受益于深度网络强大的学习和拟合能力，本发明方法训练得到的网络同样适用于为复杂图像激活紧凑和完整的对象区域，即为复杂图像的每个类别都生成相应的激活图，从而定位每个类别的对象区域；

步骤（C）、构建一个对象引导的标签精炼子方法，充分利用分割预测对初始伪标签再训练，进而通过分割模型生成进阶伪标签，用于弱监督语义分割网络训练，包括以下步骤：

（C1）、借助指示类别存在与否的图像级标签

，过滤掉分割预测

中不应该存在的目标对象区域，如下式所示：

其中

、

是像素位置索引；

在本实施例中，在分割网络训练的过程中，错误的目标对象区域标签会在被更正为 255 后忽略，从而有助于丢弃由误导性信息生成的梯度；

（C2）、重新标记分割预测中与初始伪标签

不一致的背景像素，如下式所示：

；

在本实施例中，鉴于在初始伪标签中，只有显著区域内的像素或在类别激活图中具有高激活度的像素会被识别为非背景区域，故可以假设这些像素是可靠的，不应被视为背景；

；

在本实施例中，通过遍历图像级标签中的所有类别，检查

中是否缺少某些类别的目标对象区域，如果存在类别缺失的情况，便将图像的所有背景设置为 255，由于没有任何线索来纠正当前标记为背景的对象像素，因此，此处将所有背景设置为不可靠的标签，即标为 255，从而在训练过程中进行忽略，进而着重于降低初始伪标签的假负率，即目标对象区域被错标为背景区域的可能，并依靠分割网络的自校正能力来发现遗漏的目标对象区域，进而获得更高质量的伪标签。

在PASCALVOC2012和MSCOCO 数据集上进行了实验和研究，表明了本弱监督语义分割方法的优越性，其在VGG主干网络上，可以在PASCALVOC2012验证集上达到64.3%mIoU，在测试集达到65.4%mIoU，其与利用额外训练图像的方法相比，本弱监督语义分割方法可以将结果提高6.7%mIoU以上。在更强大的 ResNet主干网络上，本弱监督语义分割方法的分割结果在验证集和测试集上分别达到69.3%和69.5%。在更具挑战性的COCO数据集上，本弱监督语义分割方法中提出的算法在验证集上达到了31.2%的最佳性能。

综上所述，本发明通过设计了一个类别无关距离损失，减少了类内特征方差，为类别激活图提供边界线索，促使网络激活显著区域内的完整目标对象，同时对类内关系进行约束，防止类别激活图中的目标对象区域激活扩散到背景区域，并扩大类别激活图中激活的目标对象区域，促使网络学习紧凑且一致的背景特征，帮助减少背景区域内的错误激活，同时通过设计了一个类别特定距离损失，可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值，促使网络将目标对象区域和背景特征区域分开，避免更加一致的类内特征，不能保证目标对象区域的激活高于背景区域，并促使目标对象区域比背景区域具有更高的激活度，避免网络生成平滑的特征，最大化不同类间的特征差异，促使目标对象区域比背景区域具有更高的激活度，进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征，从而挖掘显著图的潜力，使其在分类网络的训练过程中，可以扩展类别激活图中激活的目标对象区域，提取紧凑完整的目标对象区域；

本发明通过设计了一个对象引导的标签精炼子方法，以分割预测为基础，在初始伪标签的指导下将部分背景修正为目标或不可靠标签，并通过图像级标注，修正预测中并不存在于图像内的目标类别的像素标签，进一步挖掘网络预测中缺失的类别，充分利用分割预测对初始伪标签再训练，进而通过分割模型生成进阶伪标签，为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。