CN117197459A

CN117197459A - 基于显著性图与注意力机制的弱监督语义分割方法

Info

Publication number: CN117197459A
Application number: CN202311153032.0A
Authority: CN
Inventors: 赵明华; 董莹; 胡静; 都双丽; 石程; 王琳; 李鹏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-08

Abstract

本发明公开了基于显著性图与注意力机制的弱监督语义分割方法，设计改进的Resnet38分类网络，在数据集中选取带有图像级弱标签的待分割图像及其显著性图，输入改进的Resnet38分类网络生成类别激活图；构造改进的Resnet38分类网络的损失函数，通过损失函数对改进的Resnet38分类网络进行约束；选取数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，训练约束后的改进的Resnet38分类网络，得到优化的Resnet38分类网络；将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签；利用待分割图像的伪标签训练一个语义分割模型得到分割结果；能提高语义分割效果。

Description

基于显著性图与注意力机制的弱监督语义分割方法

技术领域

本发明属于图像处理技术领域，具体涉及基于显著性图与注意力机制的弱监督语义分割方法。

背景技术

深度卷积神经网络在计算机领域的快速发展使得图像语义分割任务也取得了突破性进展，在自动驾驶场景理解、医疗图像诊断和遥感图像识别等领域有重要研究意义。然而在实际应用中，基于全监督训练语义分割模型的方法通常依赖于大量的标记数据，造成人力物力的巨大浪费，随着日益庞大的数据集规模，标注数据变得尤为困难。

许多研究表明，弱监督语义分割不需要使用像素级别标签，它通常使用比较容易获得的标注数据(边框级标签、涂鸦标签和图像级别标签)实现分割任务。其中图像级标签是能够以较低成本得到的一种方式，因此，基于图像级标签的弱监督语义分割是目前最广泛的方法。但由于其只提供类别信息而缺乏目标对象位置信息，使得基于图像级标签的方法更加具有挑战性。此方法一般分为两个阶段：(1)使用图像分类网络为目标对象生成伪标签；(2)将生成的为标签作为监督信息训练语义分割模型。

近年来，有研究表明，弱监督语义分割可以大大降低语义分割任务对数据标注的依赖。类激活图(CAM)被广泛应用于解决为目标对象生成伪标签这一问题，但由于分割任务与分类任务本身侧重点不同，经过分类网络获得的CAM存在比较明显的问题，主要包括：(1)CAM通常只在最具判别力的区域有较高响应；(2)CAM无法获得激活对象边界。为了提高伪标签质量，现有的方法主要分为三类:一是在CAM的基础上通过像素点间的相似性进行区域生长，利用随机游走算法从“种子点”扩散语义信息，得到细化的伪标签并以此来训练语义分割网络。二是通过擦除来扩展覆盖范围，擦除经过分类网络得到的CAM区域，破环分类网络的性能，使其再去定位另外的区域重复上述过程直到不能发现其他区域，最终将所有擦除的区域进行合并得到用于监督语义分割网络的伪标签。三是利用现有显著性检测方法生成显著性图作为对象边界的辅助监督信息，生成边界准确的伪标签以提高分割结果。

目前典型区域生长的方法由于前景和背景之间的强相关性几乎无法区分导致没有办法准确区分非目标对象与目标对象的重合像素，则伪标签不完整、不准确；另一方面，现有的基于图像级标签的弱监督语义分割方法大多无法获得目标对象准确的边界信息，使得语义分割效果变差。

发明内容

本发明的目的是提供基于显著性图与注意力机制的弱监督语义分割方法，解决了现有的基于图像级标签的弱监督语义分割方法无法获得目标对象准确的边界信息，使得语义分割效果变差的问题。

本发明所采用的技术方案是，基于显著性图与注意力机制的弱监督语义分割方法，具体按照以下步骤实施：设计改进的Resnet38分类网络，在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图，输入改进的Resnet38分类网络生成类别激活图；构造改进的Resnet38分类网络的损失函数，通过损失函数对改进的Resnet38分类网络进行约束；选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，训练约束后的改进的Resnet38分类网络，得到优化的Resnet38分类网络；将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签；利用待分割图像的伪标签训练一个语义分割模型得到分割结果。

本发明的特点还在于：

改进的Resnet38分类网络具体为：在现有的Resnet38分类网络的后三层结构上连接多级特征融合模块，现有的Resnet38分类网络之后引入注意力机制模块、定位图筛选模块。

注意力机制模块包括空间注意力模块和通道注意力模块，图像输入空间注意力模块，再经过通道注意力模块生成输入图像的类别激活图。

改进的Resnet38分类网络的损失函数计算方法为：

利用显著性损失实现分类目标对象前景图的损失L_sal，显著性损失采用像素平均距离获得：

分类损失由全局平均池化后的分类向量与步骤一图像级标签计算得到，如公式(2)所示：

焦点损失函数为：

L_foc＝-(1-p_t)^elog p_t, (3)

其中，p_t为样本图，e为调节参数，设置为0.25；

L_total＝αL_sal+βL_cls+γL_foc (4)

其中：α，β和γ是调节参数，α和β的值均设为1，γ值是0.01；L_sal为显著性图与目标对象前景图的显著性损失；L_cls为分类网络的分类损失；L_foc为焦点损失；其中：M_s与是指显著性图与目标对象类别激活图，目标对象类别激活图/>目标对象前景图/> 与背景图H表示显著性图的长，W表示显著性图的宽。

训练约束后的改进的Resnet38分类网络具体过程为：

PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，输入改进的Resnet38分类网络；将后三级特征进行特征融合，得到融合后的特征；将融合后的特征送入空间注意力模块增强空间表示能力，再送入通道注意力模块提取重要通道信息；得到图像的类别激活图，将其与带有图像级弱标签的分割图像的显著性图计算显著性损失，迭代训练加入改进的Resnet38分类网络，直到达到设定的迭代次数，得到优化的Resnet38分类网络。

将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签具体过程为：

设置标准阈值μ，将步骤1中得到的类别激活图输入优化的Resnet38分类网络的定位图筛选模块，选择C张类别激活图中需要分割出来的对象没有缺失的以及与显著性图交并比大于μ的类别激活图作为伪标签。

交并比的计算公式为：

Ο(M_i,M_s)＝|N_i∩N_s|/|N_i|,；

其中，C是数据集中的类别数，M_i是第i张定位图，N_i表示定位图M_i进行0.5为阈值的二值化处理之后得到的二值图，N_s表示显著性图M_s进行0.5为阈值的二值化处理之后得到的二值图，μ默认为0.4，y_i表示图像级标签，α是调整前景与背景加权和的超参数，取值为0-1。

本发明的有益效果是：

1.通过将显著性图作为辅助监督信息训练分类网络，进而得到边界信息明显的类激活图，多特征融合模块使得分类网络生成的目标对象定位图语义信息丰富且包含细节信息。

2.在分类损失的基础上加入焦点损失以减少样本类别不平衡带来的影响。

3.融合后的特征输入注意力模块中以增强其空间表示能力与重要通道特征的提取能力，进而得到更加完整的伪标签，能够提高图像语义分割的精度。

附图说明

图1为本发明基于显著性图与注意力机制的弱监督语义分割方法流程图；

图2(a)为在PASCAL VOC 2012数据集中的原图；

图2(b)为图2(a)的地面真实值；

图2(c)为采用本发明方法对图2(a)的分割图；

图3(a)为在MS COCO 2014数据集中的原图；

图3(b)为图3(a)的地面真实值；

图3(c)为采用本发明方法对图3(a)的分割图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于显著性图与注意力机制的弱监督语义分割方法，可用于到自动驾驶、场景理解、医疗诊断以及遥感探测等，如图1所示，具体按照以下步骤实施：

步骤1设计改进的Resnet38分类网络，在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图，输入改进的Resnet38分类网络生成类别激活图；

步骤2构造改进的Resnet38分类网络的损失函数，通过损失函数对改进的Resnet38分类网络进行约束；

改进的Resnet38分类网络的损失函数计算方法为：

焦点损失函数为：

L_foc＝-(1-p_t)^elog p_t, (3)

其中，p_t为样本图，e为调节参数，设置为0.25；

L_total＝αL_sal+βL_cls+γL_foc (4)

步骤3、选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，训练约束后的改进的Resnet38分类网络，得到优化的Resnet38分类网络；具体过程为：

PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，输入改进的Resnet38分类网络；将后三级特征进行特征融合，得到融合后的特征；融合后的特征语义信息丰富并且补充了因为不断地下采样、池化操作丢失的细节信息。

将融合后的特征送入空间注意力模块增强空间表示能力，再送入通道注意力模块提取重要通道信息；得到图像的类别激活图，将其与带有图像级弱标签的分割图像的显著性图计算显著性损失，迭代训练加入改进的Resnet38分类网络，直到达到设定的迭代次数，得到优化的Resnet38分类网络。

步骤4、将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签；具体过程为：

交并比的计算公式为：

Ο(M_i,M_s)＝|N_i∩N_s|/|N_i|,；

步骤5、利用待分割图像的伪标签训练一个语义分割模型得到分割结果。

实施例1

采用多种方法SEC、STC、MCOF、DSRG、SeeNet、OAA、SEAM、EPS、Ours(本发明方法)在PASCAL VOC 2012数据集进行训练，得到的图像分割结果(mIoU)如表1所示：

表1

根据表1中对比可知，本发明方法分割结果比起SEC方法提高了20.8％,比起SEAM方法提高了7％,比起目前最好的EPS方法也提高了0.6％,体现了本发明方法在弱监督语义分割精确度有明显的提高。

实施例2

采用本发明方法与采用EPS方法在PASCAL VOC数据集上的各类分割平均交并比如表2所示。

表2

根据表2对比可知，本发明方法得到的每种类别的交并比均大于EPS，交并比的提升能够提高分割精度。

实施例3

对PASCAL VOC数据集中的原图如图2(a)所示，采用本发明方法进行分割，图2(b)为Ground Truth(地面真实值)，图2(c)为本发明方法得到的分割图，通过图2(b)与图2(c)对比可知，本发明分割结果与地面真实值很接近。

实施例4

对MS COCO 2014数据集的原图如图3(a)所示，采用本发明方法进行分割，图3(b)为Ground Truth(地面真实值)，图3(c)为本发明方法得到的分割图，通过图3(b)与图3(c)对比可知，本发明方法在特征融合和注意力机制的增强下更好地结合了上下文信息，使得细节处更加准确。

通过上述方式，本发明基于显著性图与注意力机制的弱监督语义分割方法，通过将显著性图作为辅助监督信息训练分类网络，进而得到边界信息明显的类激活图，多特征融合模块使得分类网络生成的目标对象定位图语义信息丰富且包含细节信息。在分类损失的基础上加入焦点损失以减少样本类别不平衡带来的影响。融合后的特征输入注意力模块中以增强其空间表示能力与重要通道特征的提取能力，进而得到更加完整的伪标签，能够提高图像语义分割的精度。

Claims

1.基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，具体按照以下步骤实施：设计改进的Resnet38分类网络，在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图，输入改进的Resnet38分类网络生成类别激活图；构造改进的Resnet38分类网络的损失函数，通过损失函数对改进的Resnet38分类网络进行约束；选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本，训练约束后的改进的Resnet38分类网络，得到优化的Resnet38分类网络；将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签；利用待分割图像的伪标签训练一个语义分割模型得到分割结果。

2.根据权利要求1所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述改进的Resnet38分类网络具体为：在现有的Resnet38分类网络的后三层结构上连接多级特征融合模块，现有的Resnet38分类网络之后引入注意力机制模块、定位图筛选模块。

3.根据权利要求2所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述注意力机制模块包括空间注意力模块和通道注意力模块，图像输入所述空间注意力模块，再经过通道注意力模块生成输入图像的类别激活图。

4.根据权利要求1所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述改进的Resnet38分类网络的损失函数计算方法为：

分类损失由全局平均池化后的分类向量与步骤一所述图像级标签计算得到，如公式(2)所示：

焦点损失函数为：

L_foc＝-(1-p_t)^elogp_t, (3)

其中，p_t为样本图，e为调节参数，设置为0.25；

L_total＝αL_sal+βL_cls+γL_foc (4)

5.根据权利要求3所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述训练约束后的改进的Resnet38分类网络具体过程为：

6.根据权利要求2所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签具体过程为：

7.根据权利要求6所述基于显著性图与注意力机制的弱监督语义分割方法，其特征在于，所述交并比的计算公式为：

Ο(M_i,M_s)＝|N_i∩N_s|/|N_i|,；