CN114359559A

CN114359559A - 基于注意力机制图像块度量学习的弱监督语义分割方法

Info

Publication number: CN114359559A
Application number: CN202111578620.XA
Authority: CN
Inventors: 陈百基; 陈可可; 谢东欣
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-15
Anticipated expiration: 2041-12-22
Also published as: CN114359559B

Abstract

本发明公开了一种基于注意力机制图像块度量学习的弱监督语义分割方法，包括：1)基于深度卷积网络的分类网络得到类别激活图像；2)利用类别激活图像得到包含物体定位信息的种子区域与候选区域；3)基于注意力机制分别得到包含前景和背景的图像块提案；4)提取正、负图像块对作为正、负样本对；5)为分类网络增加度量学习任务；6)训练种子区域扩张网络，配合随机游走算法扩大种子区域；7)训练基于深度学习的全监督语义分割网络，得到最终的语义分割掩码。本发明方法引入度量学习产生用于训练的数据，可以兼容各种全监督语义分割网络，在弱监督语义分割中提高生成的种子区域对前景目标物体的覆盖精度，进而提高生成的语义分割掩码的整体精度。

Description

基于注意力机制图像块度量学习的弱监督语义分割方法

技术领域

本发明涉及计算机视觉中语义分割的技术领域，尤其是指一种基于注意力机制图像块度量学习的弱监督语义分割方法。

背景技术

图像语义分割是计算机视觉中十分重要的领域。它是指像素级地识别图像，即标注出图像中每个像素所属的对象类别。目前基于深度学习的图像语义分割技术为较为常见的图像语义分割技术。

目前大多数深度学习模型是一种有监督学习，需要提供训练样本的真实标签进行训练，在图像语义分割领域是指像素级的类别标签。

弱监督学习在图像语义分割领域是指需要的标签并非像素级。然而在图像语义分割领域，像素级的样本真实标签获取成本很高，因此发展不依赖于像素级标签也就是弱监督的图像语义分割方法十分重要。

现在常见的弱监督语义方法大致分为三个阶段：1、获得粗略的类别激活图像。2、对该类别激活图像进行调整。3、用调整后的类别激活图像作为伪标签训练全监督图像语义分割模型。其中前两个步骤为优化的重点，已有技术存在类别激活图像不完整，集中于明显特征的部分。

作为区域生长算法的先验信息，种子区域对目标物体的覆盖精度对整体分割性能的影响较大。基于分类网络类别激活图生成的种子区域主要覆盖目标物体最具有判别性的区域，面临覆盖面积不完整和稀疏等问题。

通过在种子区域生成阶段引入本发明提出的注意力机制图像块度量学习，种子区域的定位和覆盖精度得到提升，进而可以获得精度更高的分割掩码。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于注意力机制图像块度量学习的弱监督语义分割方法，能够利用度量学习的特性，在弱监督语义分割中提高生成的种子区域对前景目标物体的覆盖精度，进而提高生成的语义分割掩码的整体精度。

为实现上述目的，本发明所提供的技术方案为：基于注意力机制图像块度量学习的弱监督语义分割方法，包括以下步骤：

1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络，通过评估像素对于类别分类的贡献程度得到类别激活图(Class Activation Map,CAM)；

2)利用步骤1)得到的类别激活图，通过选取置信度大于阈值的区域，得到目标物体在图像中的定位信息，并定义为种子区域(seed areas)，基于种子区域框出图片中各个类的候选区域(object proposals)，作为粗糙的目标物体定位信息；

3)利用步骤2)的候选区域，采用基于注意力机制由细到粗的图像块生成方法，分别得到包含前景的图像块提案(patch proposals)和包含背景的图像块提案(patchproposals)；

4)利用步骤3)的图像块提案，提取正、负图像块对作为正、负样本对；

5)利用步骤4)的正、负样本对，为分类网络增加度量学习任务，采用多级相似性损失进行训练，在训练过程中提高网络对同一个类别正图像块的响应，降低对背景和其它噪声类别图像块的响应，从而提高种子区域精度；

6)利用训练后的分类网络，得到精度更高的包含目标物体像素级定位信息的种子区域，用于训练种子区域扩张网络，配合随机游走算法扩大种子区域；

7)利用步骤6)中的种子区域扩张网络生成伪掩码，训练基于深度学习的全监督语义分割网络，得到最终的语义分割掩码。

进一步，在步骤1)中，所述分类网络是指以ResNet-38为骨干网络的残差卷积网络；

所述类别激活图为包含了类别信息的图像，表示为：

式中，M_c(x,y)为类别c的类别激活图处于(x,y)处的值；f_n(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值；N_f为分类网络倒数第二层的通道数；n为第二层的通道对应的编号；θ_cn为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重；M_c(x,y)的值的意义为像素区域对c类别的激活强度。

进一步，在步骤2)中，所述种子区域是指在类别图中，激活值大于一个阈值的区域，表示为：

式中，S(x,y)为种子区域S中处于(x,y)处的值，该值代表某一个类别；c为类别；M_c(x,y)为类别c的类别激活图处于(x,y)处的值；

为不同类别c的类别激活图处于位置(x,y)的值中，数值最大的值对应的类别；

为不同类别c的类别激活图处于位置(x,y)的值中，数值最大的值；β₁为超参数，为属于0到1区间的背景类阈值，大于该阈值的像素为非背景类；

基于种子区域，使用了轮廓检测框出图片中各个类的候选区域(objectproposals)，作为粗糙的目标物体定位信息；其中，为了避免噪声的干扰，对于长或宽小于50个像素的候选区域，以及长宽比大于4的候选区域进行了过滤的操作；

采用了非极大值抑制算法(Non-Maximum Suppression,NMS)对具有较大重叠的候选区域进行筛选，筛选出其中具有最大置信度的候选区域。

进一步，在步骤3)中，采用基于注意力机制由细到粗的图像块生成方法，分别得到包含前景的图像块提案，称为前景图像块提案，和包含背景的图像块提案，称为背景图像块提案，具体如下：

前景图像块提案的生成过程为：

对于一个宽和高为W和H的候选区域，首先将候选区域等分成4×4个均等的图像块区域，每个图像块的大小为H/4和W/4；然后靠近边缘的12个图像块被定于为粗粒度前景图像块；对于处于候选区域中心的4个H/4×W/4的图像块，先将它合并之后得到宽和高分别为H/2和W/2的中心区域，再将中心区域等分为3×3个均等的细粒度图像块，最后，将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块；

其中，背景的激活图像在坐标(x,y)处对应的值M^bg(x,y)的生成为：

式中，C_fg是前景的所有类别的集合，c为类别，M^fg(x,y)是类别c的类别激活图在坐标(x,y)处对应的值，α₁为超参数；

背景图像块会在候选区域的高置信度背景区域中生成，并以比前景图像块提案生成中更粗粒度地去进行采样；假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为在候选区域周围一圈，用W/2×H/2大小的窗口，在高置信度背景区域中采样。

进一步，在步骤4)中，所述正样本对有两种，包括：①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对，②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对；所述负样本对有两种，包括：①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对，②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。

进一步，在步骤5)中，所述多级相似性损失表示为：

式中，L_MS为多级相似性损失；α,β和λ是超参数，其中，α用于控制正样本对在损失值计算中的权重，β用于控制负样本对在损失值计算中的权重，λ用于控制特征空间中的间隔；m是样本个数；i、k为样本对中的编号；S_ik是样本i和样本k的相似度；P_i是高信息量正样本对的集合的子集，其中所有样本对都包含样本i；N_i是高信息量负样本对的集合的子集，其中所有样本对都包含样本i；

上述样本也就是步骤4)得到的正、负样本，为图像块对。

进一步，在步骤6)中，所述种子区域扩张网络为亲和度网络，该网络的配置为：

训练样本为基于经过度量学习后的分类网络，再用步骤2)到步骤5)的步骤得出的正、负样本对，同样是图像块组成的样本对；

亲和度表示为：

式中，q、j为样本对中像素点q和j的编号；f^aff(q)为种子区域扩张网络对像素点q提取的特征向量的输出；f^aff(j)为种子区域扩张网络对像素点j提取的特征向量的输出；W_pj为像素点q和j的亲和度；

训练目标为减小负样本的亲和度，增大正样本对的亲和度；

配合随机游走算法扩大种子区域，用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域，扩张到与其亲和度较高的区域。

进一步，在步骤7)中，全监督语义分割网络是指输入为带有像素级类别标签的图像的网络。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明创新点的作用在于为只有图像级标签的数据生成像素级标签，也就是伪掩码，优点是可以与现有的全监督语义分割网络兼容。

2、本发明在弱监督语义分割任务中利用度量学习，拉开了属于不同标签的像素的差距，提高了伪掩码的质量。

3、补充了全监督语义分割任务缺少的训练样本。

4、只使用类激活图像作为标签质量过低，具体表现在激活区域太小太集中，本发明采用多种方法扩大了类激活图的区域。

5、本发明的用处是生成标签，对运行速度的要求小，意味着对设备性能要求不高。

6、本发明的标签只需要图像级别的类别标签，此类标签获取的人工成本低。

附图说明

图1为本发明方法的架构图。

图2为本发明的候选区域和图像块提案示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于注意力机制图像块度量学习的弱监督语义分割方法，其具体情况如下：

1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络，通过评估像素对于类别分类的贡献程度得到类别激活图(Class Activation Map,CAM)。

输入训练过程所需要的超参数。

载入图片数据集及其类别标签，输入图片为RGB格式的三通道矩阵，将图片矩阵的维度从(长度，宽度，三通道)转换为(三通道，长度，宽度)。

使用xavier初始化模型参数，并将想要优化的参数绑定优化器，设置优化器的超参数。

将输入的图片分批次输入网络。

图片流作为最初始候选区域在网络中流过由以下各层组成的ResNet-38分类网络作为的骨干网络，输出特征图。

其中各层的介绍如下表所示。

对这些特征图进行全局平均池化(global average pooling，GAP)，也就是算出每一张特征图的平均值。将这些平均值经过全连接层得到对于类别的概率分布。

训练分类网络，概率分布和标签概率分布经过交叉熵损失函数的计算得到误差L₁，对该误差进行反向传播，接着可以在此处对网络参数进行梯度下降，也可以等后续的多级相似性损失反向传播后，再进行梯度下降，在本实施方法中采用后者。接着利用该网络进行基于图像块的度量学习。

利用上述分类网络和以下公式，计算得到类别激活图M_c。

类别激活图M_c为包含了类别信息的图像，表示为：

M_c(x,y)为类别c的类别激活图处于(x,y)处的值。同理，f_n(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值。N_f为分类网络倒数第二层的通道数。n为第二层的通道对应的编号。θ_cn为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重。M_c(x,y)的值的意义为像素区域对c类别的激活强度。

2)利用步骤1)得到的类别激活图，通过选取置信度大于阈值的区域，得到目标物体在图像中的定位信息，并定义为种子区域(seed areas)，基于种子区域框出图片中各个类的候选区域(object proposals)，作为粗糙的目标物体定位信息。

利用类别激活图计算得到种子区域，种子区域的计算方式如下：

S(x,y)为种子区域S中处于(x,y)处的值，该值代表某一个类别。c为类别。M_c(x,y)为类别c的类别激活图处于(x,y)处的值。

为不同类别c的类别激活图处于位置(x,y)的值中，数值最大的值对应的类别。

为不同类别c的类别激活图处于位置(x,y)的值中，数值最大的值。β₁为超参数，为属于0到1区间的背景类阈值，大于该阈值的像素为非背景类，在本方法中β₁＝0.2。

基于种子区域，使用了轮廓检测框出图片中各个类的候选区域(objectproposals)，作为粗糙的目标物体定位信息。其中为了避免噪声的干扰，对于长或宽小于50个像素的候选区域，以及长宽比大于4的候选区域进行了过滤的操作；先检测出某个类的种子区域的轮廓，对轮廓采样出定位点，对这些定位点进行框选，框的限制是刚好包括种子区域。

采用了非极大值抑制算法(Non-Maximum Suppression,NMS)对具有较大重叠的候选区域进行筛选，此处计算每个框的重叠率iou，此处为重叠率大于0.3的框进行进一步比较，筛选出其中具有最大置信度的候选区域，置信度计算方式为对应类别的类别激活图处于框内区域的平均值，越大置信度越高。

3)利用步骤2)的候选区域，采用基于注意力机制由细到粗的图像块生成方法，分别得到包含前景的图像块提案(patch proposals)，称为前景图像块提案，和包含背景的图像块提案(patch proposals)，称为背景图像块提案。

基于候选区域生成的方式可以得到，越靠近候选区域边界的区域，越可能带有背景噪声。

参考人眼视觉的拮抗同心特性，我们采取从基于注意力机制的由细到粗的图像块生成方法，即从候选区域中心开始，由细到粗地生成前景图像块提案，生成的前景图像块包括细粒度前景图像块：细粒度地关注候选区域中心周围的区域，和粗粒度前景图像块：粗粒度地关注候选区域边缘的区域。

对于一个宽和高为W和H的候选区域，首先将候选区域等分成4×4个均等的图像块区域，每个图像块的大小为H/4和W/4。靠近边缘的12个图像块被定于为粗粒度前景图像块。对于处于候选区域中心的4个H/4×W/4的图像块，先将它合并之后得到宽和高分别为H/2和W/2的中心区域，再将中心区域等分为3×3个均等的细粒度图像块，将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块。参见图2所示，显示了选取图像块的可视化图像。

背景的激活图像在坐标(x,y)处对应的值M^bg(x,y)的生成为：

式中，C_fg是前景的所有类别的集合。c为类别。M^fg(x,y)是类别c的类别激活图在坐标(x,y)处对应的值。α₁为超参数，本方法中为1。

背景图像块会在候选区域的高置信度背景区域中生成，并以比前景图像块提案生成方法中更粗粒度地去进行采样。假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为再候选区域周围一圈，用W/2×H/2大小的窗口，再高置信度背景区域中采样，具体为其中窗口置信度大于。

4)利用步骤3)的图像块提案，提取正、负图像块对作为正、负样本对。

正样本有两种，包括：

①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对，②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。

负样本对有两种，包括：

①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对，②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。

5)利用步骤4)的正、负样本对，为分类网络增加度量学习任务，采用多级相似性损失进行训练，在优化过程中提高网络对同一个类别正样本图像块的响应，降低对背景和其他噪声类别图像块的响应，从而提高种子区域精度。

多级相似性损失，表示为：

L_MS为多级相似性损失。α,β和λ是超参数，其中，α用于控制正样本对在损失值计算中的权重，在本方法中为10。β用于控制负样本对在损失值计算中的权重，在本方法中为15。λ用于控制特征空间中的间隔，在本方法中为1。m是样本个数。i、k为样本对中的编号。S_ik是样本i和样本k的相似度。P_i是高信息量正样本对的集合的子集，其中所有样本对都包含样本i，N_i是高信息量负样本对的集合的子集，其中所有样本对都包含样本i。

上述样本也就是步骤4)得到的正、负样本，为图像块对。

对上述损失进行反向传播，接着对网络的参数进行梯度下降。

如果训练之后效果不好，可以接着重新分类网络的训练也就是步骤1)开始，循环训练多次，在本方法中进行1000遍。

6)利用训练后的分类网络，得到精度更高的包含目标物体像素级定位信息的种子区域，用于训练种子区域扩张网络，配合随机游走算法扩大种子区域。

训练样本为，基于经过度量学习后的分类网络，再用步骤2)到步骤5)的步骤得出的正、负样本对，同样是图像块组成的样本对。

亲和度表示为：

式中，q、j为样本对中像素点q和j的编号；f^aff(q)为种子区域扩张网络对像素点q提取的特征向量的输出；f^aff(j)为种子区域扩张网络对像素点j提取的特征向量的输出；W_pj为像素点q和j的亲和度。

种子区域扩张网络的输出结果越接近代表亲和度越高，因此训练目标为减小负样本的亲和度，增大正样本对的亲和度；该网络的误差为一减去正样本的亲和度的差，加上负样本的亲和度，同样对该网络借助该误差进行训练。

配合随机游走算法(用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域，扩张到与其亲和度较高的区域)，对种子区域进行随机游走，游走的概率为亲和度。对包含种子区域信息的图片上每一个像素计算其与临近区域的其它像素的亲和度，以该亲和度为概率将区域中心的像素的标签拓展到临近区域其它像素。

使用全监督的语义分割网络，在本具体实施方法中使用DeepLabv2，输入图片，像素级标签为上一步生成的伪掩码标注，进行训练后，输出最终的分割掩码。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，包括以下步骤：

1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络，通过评估像素对于类别分类的贡献程度得到类别激活图；

2)利用步骤1)得到的类别激活图，通过选取置信度大于阈值的区域，得到目标物体在图像中的定位信息，并定义为种子区域，基于种子区域框出图片中各个类的候选区域，作为粗糙的目标物体定位信息；

3)利用步骤2)的候选区域，采用基于注意力机制由细到粗的图像块生成方法，分别得到包含前景的图像块提案和包含背景的图像块提案；

2.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤1)中，所述分类网络是指以ResNet-38为骨干网络的残差卷积网络；

所述类别激活图为包含了类别信息的图像，表示为：

3.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤2)中，所述种子区域是指在类别图中，激活值大于一个阈值的区域，表示为：

基于种子区域，使用了轮廓检测框出图片中各个类的候选区域，作为粗糙的目标物体定位信息；其中，为了避免噪声的干扰，对于长或宽小于50个像素的候选区域，以及长宽比大于4的候选区域进行了过滤的操作；

采用了非极大值抑制算法对具有大重叠的候选区域进行筛选，筛选出其中具有最大置信度的候选区域。

4.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤3)中，采用基于注意力机制由细到粗的图像块生成方法，分别得到包含前景的图像块提案，称为前景图像块提案，和包含背景的图像块提案，称为背景图像块提案，具体如下：

前景图像块提案的生成过程为：

5.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤4)中，所述正样本对有两种，包括：①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对，②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对；所述负样本对有两种，包括：①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对，②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。

6.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤5)中，所述多级相似性损失表示为：

上述样本也就是步骤4)得到的正、负样本，为图像块对。

7.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤6)中，所述种子区域扩张网络为亲和度网络，该网络的配置为：

亲和度表示为：

训练目标为减小负样本的亲和度，增大正样本对的亲和度；

配合随机游走算法扩大种子区域，用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域，扩张到与其亲和度高的区域。

8.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法，其特征在于，在步骤7)中，全监督语义分割网络是指输入为带有像素级类别标签的图像的网络。