CN115937852A

CN115937852A - 一种基于文本驱动的高效弱监督语义分割方法及装置

Info

Publication number: CN115937852A
Application number: CN202211597202.XA
Authority: CN
Inventors: 林钰淇; 陈铭浩; 蔡登�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-07

Abstract

本发明公开了一种基于文本驱动的高效弱监督语义分割方法及装置，包括如下步骤：(1)将图片和对应的类别名输入预训练好的视觉‑语言模型，使用基于梯度的类激活映射得到初始的类激活图；(2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进；(3)使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签；(4)利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割。本发明通过引入基于视觉transformer架构的视觉‑语言模型来高效地为语义分割生成高质量的伪标签，从而提高语义分割模型的分割效率和效果。

Description

一种基于文本驱动的高效弱监督语义分割方法及装置

技术领域

本发明属于计算机视觉中的图像语义分割领域，尤其是涉及一种基于文本驱动的高效弱监督语义分割方法及装置。

背景技术

语义分割是计算机视觉领域中的一个重要任务，其目的是为图像中的每一个像素分配对应的语义标签，如汽车、人、天空等。传统的有监督的语义分割模型需要像素级别的标签作为输入，但是这种像素级的标注成本十分昂贵，需要大量的人力投入和标注时间。为此，人们提出弱监督语义分割来降低标注成本。本发明中的弱监督语义分割指的是只使用图片级别的标注来自动生成像素级别的语义标签(伪标签)。

现有的弱监督语义分割方法大多遵循一种三阶段的范式：(1)使用图片级别的标注在特定的数据集上训练一个分类模型，根据分类模型，为每个训练图像生成一些种子区域。这一步通常是通过计算分类模型的类激活图来实现的；(2)通过将语义信息从种子区域传播到整个图像来生成伪标签。这一步通常需要训练额外的语义一致性网络或者借助显著性图作为辅助来实现。(3)基于得到的像素级别的伪标签，训练最终的语义分割模型。这一步主要是为了验证生成的伪标签的质量。

然而，上述三阶段的范式效率较低，其需要在不同阶段训练不同的模型，训练成本高。因此有一些工作提出端到端的模型来提高效率，比如2020年发表在计算机视觉和模式识别会议Conference on Computer Vision and Pattern Recognition的文章《Single-Stage Semantic Segmentation From Image Labels》和同年发表在Proceedings of theAAAI Conference on Artificial Intelligence的文章《Reliability does matter:Anend-toend weakly supervised semantic segmentation approach》提出了单阶段的方法，大大地简化了生成伪标签的流程。2022年发表在计算机视觉和模式识别会议Conference on Computer Vision and Pattern Recognition的文章《Learning Affinityfrom Attention:End-to-End Weakly-Supervised Semantic Segmentation withTransformers》使用视觉transformer来端到端地生成和改进伪标签，在减少训练代价的同时，进一步提升了语义分割的效果。这类单阶段的方法虽然简便，但是效果对比多阶段的方法还是有较大的差距。

因此，如何在不影响语义分割效果的前提下，尽可能地提高弱监督语义分割的效率，是一个值得研究的问题。

发明内容

本发明提供了一种基于文本驱动的高效弱监督语义分割方法及装置，通过引入基于视觉transformer架构的视觉-语言模型来高效地为语义分割生成高质量的伪标签，从而提高语义分割模型的分割效率和效果。

一种基于文本驱动的高效弱监督语义分割方法，包括如下步骤：

(1)将图片和对应的类别名输入预训练好的视觉-语言模型，使用基于梯度的类激活映射得到初始的类激活图；

(2)基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进；

(3)使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签；

(4)利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割。

进一步地，步骤(1)中，采用在大规模图像-文本对数据上预训练好的视觉-语言模型，其包括一个图像编码器和一个文本编码器，在将类名输入文本编码器之前，对类别名称采用提示词和同义词融合的方式进行扩充。

使用基于梯度的类激活映射时，将softmax引入类激活映射，当前类别c的分类分数Y^c经过softmax后得到概率分类分数s^c，利用概率分数s^c计算梯度，得到新的权重如下：

通过对特征图进行加权求和得到初始的类激活图，公式为：

其中，

表示连接第k个特征图和当前类别c的权重，Z代表特征图中的像素个数，Y^c代表当前类别c的分类分数，Y^c’代表第c’种类别的分类分数，

代表特征图上位于(i,j)位置的激活值，s^c’代表Y^c’经过softmax函数处理之后的概率分数，ReLU激活函数用于去掉对当前类别没有正面影响的特征。

经过softmax处理后得到概率分数s^c的公式为：

式中，c’代表第c’种类别，C代表总类别数。

步骤(2)的具体过程为：

(2-1)步骤(1)得到类激活图M^c的同时，还得到了自注意力权重矩阵W^attn；使用Sinkhorn正则化将自注意力权重归一化，使其行和列的和均为1，记为矩阵D，进而定义语义一致性矩阵A如下：

(2-2)为类激活图M^c设定一个阈值，得到一些连通区域，取这些连通区域的外接矩形作为类别掩码，外接矩形包含了当前类别的像素位置；之后使用这些类别掩码对一致性矩阵A进行遮挡，使其只关注当前类别的像素；

(2-3)使用遮挡后的一致性矩阵进行类激活图改进，过程如下：

式中，M_c和A分别代表类激活图和一致性矩阵，

代表改进后的类激活图，B_c代表外接矩形掩码，⊙代表哈达玛乘积，t代表迭代次数，vec()代表矩阵向量化。

步骤(3)中，使用条件随机场对改进后的类激活图进行后处理时，忽略掉伪标签中置信度较低的像素位置，在后续训练语义分割模型时，不参与损失函数的计算。

一种基于文本驱动的高效弱监督语义分割装置，包括：

类激活图生成模块，用于将图片和对应的类别名输入预训练好的视觉-语言模型，使用基于梯度的类激活映射得到初始的类激活图；

类激活图改进模块，用于基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进；

类激活图后处理模块，用于使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签；

语义分割模块，用于利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割

一种基于文本驱动的高效弱监督语义分割装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上述高效弱监督语义分割方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出的新的弱监督语义分割框架，充分利用了视觉-语言预训练模型以及视觉transformer中的多头自注意力机制，极大地提高了弱监督语义分割的效率。该方法易于实现，不需要任何训练即可生成语义分割的伪标签。

2、本发明提出的框架是文本驱动的，可以通过为类别名特别设计文本端的输入来提高分割效果，并且可以灵活地拓展到新的类别上。通过大量实验证明，使用本发明提出的弱监督语义分割模型，在伪标签生成效率和分割效果上均优于其他同类方法。

附图说明

图1为本发明一种基于文本驱动的高效弱监督语义分割方法流程图：

图2为本发明整体框架和各模块之间的关系；

图3为本发明在PASCAL VOC 2012训练集上生成的伪标签效果。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1和图2所示，一种基于文本驱动的高效弱监督语义分割方法，包括以下步骤：

S01，将图片和对应的类别名输入预训练好的视觉-语言模型，使用基于梯度的类激活映射得到初始的类激活图(种子区域)。

(1)文本输入设计。由于数据集中提供的类别名称一般只有一单词，而预训练的视觉-语言模型CLIP的训练文本是一整句话，本发明按照CLIP中的方法采用提示词对类名进行扩充，比如：”Aphoto of a{类名}”。此外，数据集中给出的类名可能表达含义有限或者有歧义，因此，本发明采用同义词融合的方式对类名进行扩充，以获得更明确的语义表达，比如用”person,people,human”代替”person”。

(2)基于softmax的梯度类激活映射。在原始的GradCAM中，用于计算梯度的分数Y^c是输入softmax之前的，这会导致类别之间缺少竞争，在弱监督语义分割任务上会引起类别混淆的问题，因此本发明将softmax引入GradCAM，当前类别c的分类分数Y^c经过softmax处理后得到概率分数s^c：

用softmax处理后得到的概率分数s^c计算梯度，得到的新的权重如下：

上式表明特征图的权重不仅和当前类别c有关，还会排斥非目标类别，因此最后生成的目标类的类激活图仅包含本类，一定程度上解决了类别混淆问题。

然而，一个数据集中定义的类别是有限的，数据集中的类别往往还会和一些没有定义的背景类混淆，比如把水面误认为船。因此，本发明定义了一个类别相关的背景类集合，来将目标类和背景类进行区分。由于本发明采用的视觉-语言模型CLIP具有零样本分类的能力，因此只需给出背景类的类名即可实现上述目标，而不用重新训练模型。

S02，基于视觉transformer中的多头自注意力机制对初始的类激活图进行改进。

为了不额外训练语义一致性网络，本发明使用视觉transformer中固有的多头自注意力机制作为语义一致性。但是原始的多头自注意力机制是类别无关的，而得到的类激活图是类别可知的，直接使用的话会把误检的像素传播到语义相似的位置，从而加剧噪声点的影响。因此，本发明提出一种类别可知的一致性模块，在上一步中，与类激活图M^c一同得到的还有自注意力权重矩阵W^attn。本发明期望基于注意力矩阵对种子区域进行扩充，为了生成类别可知的一致性矩阵，采用的具体步骤如下：

(1)通过一次类激活映射,可以得到目标类别c的类激活图M^c∈R^h×w，和自注意力权重W^attn∈R^hw×hw，为了得到对称的一致性矩阵，首先使用Sinkhorn正则化将自注意力权重归一化，使其行和列的和均为1，记为矩阵D，进而语义一致性矩阵A定义如下：

(2)为了引入类别信息，为类激活图M^c设定一个阈值，得到一些连通区域，取这些区域的外接矩形作为类别掩码。得到的外接矩形包含了当前类别的像素位置。之后使用这些掩码对一致性矩阵A进行遮挡，使其只关注当前类别的像素，换言之，只有在矩形框内的像素才会用来扩充当前类激活图的种子区域，从而可以减轻噪声的影响。

(3)使用遮掩后的一致性矩阵进行种子区域修正，过程如下：

式中，Mc和A分别代表上述步骤得到的类激活图和一致性矩阵，

代表改进后的类激活图，Bc代表外接矩形掩码，⊙代表哈达玛乘积，t代表迭代次数，vec()代表矩阵向量化。注意上述修正过程S02可以集成到种子区域生成过程S01中，而不用额外训练一个一致性网络，大大提高了弱监督语义分割的效率。

S03，使用条件随机场对改进后的类激活图进行后处理，得到语义分割的伪标签。

使用条件随机场可以明确物体边界，进一步优化类激活图。从类激活图得到伪标签，主流的方法是设定一个阈值，高于阈值的位置为前景，反之为背景。但是生成的伪标签是不准确的，上述做法会引入噪声。基于类激活图中的每个像素位置表示的是其属于某类别的置信度的特点，本发明忽略掉置信度较低的位置，即训练后续分割网络时，其不参与损失函数的计算，这样可以一定程度上减少噪声的影响。

S04，利用生成的伪标签训练语义分割模型。

本阶段只是为了验证生成的语义分割伪标签的质量，本发明提出的伪标签生成过程本身是无需训练的。

为验证本发明的有效性，本发明在PASCAL VOC 2012和COCO 2014数据集上和同类方法进行了对比。PASCAL VOC 2012数据集包含20个类别和1个背景类，分为三个部分：训练集、验证集和测试集，分别有1464、1449和1456张图片。本发明在训练最终的分割网络时采用的是PASCAL VOC 2012的一个增强数据集，包含有10582张图片。COCO 2014数据集包含80类和1个背景类，训练集和验证集分别有82081和40137张图像。

本发明所使用的评判指标是mean intersection-over-union(mIoU)分数，即预测分割图片和真实分割图片中物体的交集和并集的比。本发明先在PASCAL VOC 2012训练集上验证了生成的伪标签的效果，结果如表1所示。

表1

表1中，+CRF和+Affinity network分别代表使用条件随机场和训练额外的一致性网络来优化类激活图。结果表明，本发明所提出的方法可以生成更高质量的伪标签。

为了验证所提出方法的效率，本发明在PASCAL VOC 2012增强训练集上比较了本发明提出方法和其他方法的时间和显存消耗，结果如表2所示。其中时间的单位为小时，显存的单位为十亿字节(GB)。由于本发明直接将预训练的视觉-语言模型迁移到目标数据集上，因此不用额外训练分类模型，此外，使用多头自注意力来改进种子区域避免了训练额外的语义一致性网络，因此本发明生成伪标签的过程是无需训练的，时间和显存消耗大大优于之前的方法。

表2

为了更进一步地评估生成的伪标签的质量，本发明用生成的伪标签训练分割模型，在PASCAL VOC 2012验证集和测试集(表3)以及COCO 2014验证集上(表4)和其他方法进行对比，其中Backbone代表使用的骨干网络，Seg代表使用的分割模型。

本实验采用的骨干网络为ResNet101，基于DeepLabv2网络进行语义分割的训练。如表3和表4所示，本发明提出的方法在PASCAL VOC 2012和COCO 2014数据集上都展现出了优于同类型方法性能。这证明了本发明所提出的基于文本驱动的弱监督语义分割方法的通用性以及优越性。

表3

表4

图3展示了采用本发明算法和另一种基于语言-视觉模型的算法产生的语义分割伪标签的效果。可以明显看出，采用本发明算法产生的伪标签具有更加完整的分割结果，分割图片的整体视觉效果也获得了较大的提升。这定性地证明了本发明所提出的算法的有效性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本驱动的高效弱监督语义分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(1)中，采用在大规模图像-文本对数据上预训练好的视觉-语言模型，其包括一个图像编码器和一个文本编码器，在将类名输入文本编码器之前，对类别名称采用提示词和同义词融合的方式进行扩充。

3.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(1)中，使用基于梯度的类激活映射时，将softmax引入类激活映射，当前类别c的分类分数Y^c经过softmax处理后得到概率分数s^c，利用概率分数s^c计算梯度，得到新的权重如下：

通过对特征图进行加权求和得到初始的类激活图，公式为：

其中，

4.根据权利要求3所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，经过softmax处理后得到概率分数S^c的公式为：

式中，c’代表第c’种类别，C代表总类别数。

5.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(2)的具体过程为：

式中，M_c和A分别代表类激活图和一致性矩阵，

6.根据权利要求1所述的基于文本驱动的高效弱监督语义分割方法，其特征在于，步骤(3)中，使用条件随机场对改进后的类激活图进行后处理时，忽略掉伪标签中置信度较低的像素位置，在后续训练语义分割模型时，不参与损失函数的计算。

7.一种基于文本驱动的高效弱监督语义分割装置，其特征在于，包括：

语义分割模块，用于利用生成的伪标签训练语义分割模型，并利用训练好的语义分割模型对待分割的图片进行语义分割。

8.一种基于文本驱动的高效弱监督语义分割装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现权利要求1～6中任一项所述的高效弱监督语义分割方法。