CN117197459A - 基于显著性图与注意力机制的弱监督语义分割方法 - Google Patents
基于显著性图与注意力机制的弱监督语义分割方法 Download PDFInfo
- Publication number
- CN117197459A CN117197459A CN202311153032.0A CN202311153032A CN117197459A CN 117197459 A CN117197459 A CN 117197459A CN 202311153032 A CN202311153032 A CN 202311153032A CN 117197459 A CN117197459 A CN 117197459A
- Authority
- CN
- China
- Prior art keywords
- resnet38
- image
- classification network
- map
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 230000004913 activation Effects 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000010586 diagram Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001881 scanning electron acoustic microscopy Methods 0.000 description 2
- 241001433879 Camarea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于显著性图与注意力机制的弱监督语义分割方法,设计改进的Resnet38分类网络,在数据集中选取带有图像级弱标签的待分割图像及其显著性图,输入改进的Resnet38分类网络生成类别激活图;构造改进的Resnet38分类网络的损失函数,通过损失函数对改进的Resnet38分类网络进行约束;选取数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,训练约束后的改进的Resnet38分类网络,得到优化的Resnet38分类网络;将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签;利用待分割图像的伪标签训练一个语义分割模型得到分割结果;能提高语义分割效果。
Description
技术领域
本发明属于图像处理技术领域,具体涉及基于显著性图与注意力机制的弱监督语义分割方法。
背景技术
深度卷积神经网络在计算机领域的快速发展使得图像语义分割任务也取得了突破性进展,在自动驾驶场景理解、医疗图像诊断和遥感图像识别等领域有重要研究意义。然而在实际应用中,基于全监督训练语义分割模型的方法通常依赖于大量的标记数据,造成人力物力的巨大浪费,随着日益庞大的数据集规模,标注数据变得尤为困难。
许多研究表明,弱监督语义分割不需要使用像素级别标签,它通常使用比较容易获得的标注数据(边框级标签、涂鸦标签和图像级别标签)实现分割任务。其中图像级标签是能够以较低成本得到的一种方式,因此,基于图像级标签的弱监督语义分割是目前最广泛的方法。但由于其只提供类别信息而缺乏目标对象位置信息,使得基于图像级标签的方法更加具有挑战性。此方法一般分为两个阶段:(1)使用图像分类网络为目标对象生成伪标签;(2)将生成的为标签作为监督信息训练语义分割模型。
近年来,有研究表明,弱监督语义分割可以大大降低语义分割任务对数据标注的依赖。类激活图(CAM)被广泛应用于解决为目标对象生成伪标签这一问题,但由于分割任务与分类任务本身侧重点不同,经过分类网络获得的CAM存在比较明显的问题,主要包括:(1)CAM通常只在最具判别力的区域有较高响应;(2)CAM无法获得激活对象边界。为了提高伪标签质量,现有的方法主要分为三类:一是在CAM的基础上通过像素点间的相似性进行区域生长,利用随机游走算法从“种子点”扩散语义信息,得到细化的伪标签并以此来训练语义分割网络。二是通过擦除来扩展覆盖范围,擦除经过分类网络得到的CAM区域,破环分类网络的性能,使其再去定位另外的区域重复上述过程直到不能发现其他区域,最终将所有擦除的区域进行合并得到用于监督语义分割网络的伪标签。三是利用现有显著性检测方法生成显著性图作为对象边界的辅助监督信息,生成边界准确的伪标签以提高分割结果。
目前典型区域生长的方法由于前景和背景之间的强相关性几乎无法区分导致没有办法准确区分非目标对象与目标对象的重合像素,则伪标签不完整、不准确;另一方面,现有的基于图像级标签的弱监督语义分割方法大多无法获得目标对象准确的边界信息,使得语义分割效果变差。
发明内容
本发明的目的是提供基于显著性图与注意力机制的弱监督语义分割方法,解决了现有的基于图像级标签的弱监督语义分割方法无法获得目标对象准确的边界信息,使得语义分割效果变差的问题。
本发明所采用的技术方案是,基于显著性图与注意力机制的弱监督语义分割方法,具体按照以下步骤实施:设计改进的Resnet38分类网络,在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图,输入改进的Resnet38分类网络生成类别激活图;构造改进的Resnet38分类网络的损失函数,通过损失函数对改进的Resnet38分类网络进行约束;选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,训练约束后的改进的Resnet38分类网络,得到优化的Resnet38分类网络;将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签;利用待分割图像的伪标签训练一个语义分割模型得到分割结果。
本发明的特点还在于:
改进的Resnet38分类网络具体为:在现有的Resnet38分类网络的后三层结构上连接多级特征融合模块,现有的Resnet38分类网络之后引入注意力机制模块、定位图筛选模块。
注意力机制模块包括空间注意力模块和通道注意力模块,图像输入空间注意力模块,再经过通道注意力模块生成输入图像的类别激活图。
改进的Resnet38分类网络的损失函数计算方法为:
利用显著性损失实现分类目标对象前景图的损失Lsal,显著性损失采用像素平均距离获得:
分类损失由全局平均池化后的分类向量与步骤一图像级标签计算得到,如公式(2)所示:
焦点损失函数为:
Lfoc=-(1-pt)elog pt, (3)
其中,pt为样本图,e为调节参数,设置为0.25;
Ltotal=αLsal+βLcls+γLfoc (4)
其中:α,β和γ是调节参数,α和β的值均设为1,γ值是0.01;Lsal为显著性图与目标对象前景图的显著性损失;Lcls为分类网络的分类损失;Lfoc为焦点损失;其中:Ms与是指显著性图与目标对象类别激活图,目标对象类别激活图/>目标对象前景图/> 与背景图H表示显著性图的长,W表示显著性图的宽。
训练约束后的改进的Resnet38分类网络具体过程为:
PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,输入改进的Resnet38分类网络;将后三级特征进行特征融合,得到融合后的特征;将融合后的特征送入空间注意力模块增强空间表示能力,再送入通道注意力模块提取重要通道信息;得到图像的类别激活图,将其与带有图像级弱标签的分割图像的显著性图计算显著性损失,迭代训练加入改进的Resnet38分类网络,直到达到设定的迭代次数,得到优化的Resnet38分类网络。
将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签具体过程为:
设置标准阈值μ,将步骤1中得到的类别激活图输入优化的Resnet38分类网络的定位图筛选模块,选择C张类别激活图中需要分割出来的对象没有缺失的以及与显著性图交并比大于μ的类别激活图作为伪标签。
交并比的计算公式为:
Ο(Mi,Ms)=|Ni∩Ns|/|Ni|,;
其中,C是数据集中的类别数,Mi是第i张定位图,Ni表示定位图Mi进行0.5为阈值的二值化处理之后得到的二值图,Ns表示显著性图Ms进行0.5为阈值的二值化处理之后得到的二值图,μ默认为0.4,yi表示图像级标签,α是调整前景与背景加权和的超参数,取值为0-1。
本发明的有益效果是:
1.通过将显著性图作为辅助监督信息训练分类网络,进而得到边界信息明显的类激活图,多特征融合模块使得分类网络生成的目标对象定位图语义信息丰富且包含细节信息。
2.在分类损失的基础上加入焦点损失以减少样本类别不平衡带来的影响。
3.融合后的特征输入注意力模块中以增强其空间表示能力与重要通道特征的提取能力,进而得到更加完整的伪标签,能够提高图像语义分割的精度。
附图说明
图1为本发明基于显著性图与注意力机制的弱监督语义分割方法流程图;
图2(a)为在PASCAL VOC 2012数据集中的原图;
图2(b)为图2(a)的地面真实值;
图2(c)为采用本发明方法对图2(a)的分割图;
图3(a)为在MS COCO 2014数据集中的原图;
图3(b)为图3(a)的地面真实值;
图3(c)为采用本发明方法对图3(a)的分割图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于显著性图与注意力机制的弱监督语义分割方法,可用于到自动驾驶、场景理解、医疗诊断以及遥感探测等,如图1所示,具体按照以下步骤实施:
步骤1设计改进的Resnet38分类网络,在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图,输入改进的Resnet38分类网络生成类别激活图;
步骤2构造改进的Resnet38分类网络的损失函数,通过损失函数对改进的Resnet38分类网络进行约束;
改进的Resnet38分类网络具体为:在现有的Resnet38分类网络的后三层结构上连接多级特征融合模块,现有的Resnet38分类网络之后引入注意力机制模块、定位图筛选模块。
注意力机制模块包括空间注意力模块和通道注意力模块,图像输入空间注意力模块,再经过通道注意力模块生成输入图像的类别激活图。
改进的Resnet38分类网络的损失函数计算方法为:
利用显著性损失实现分类目标对象前景图的损失Lsal,显著性损失采用像素平均距离获得:
分类损失由全局平均池化后的分类向量与步骤一图像级标签计算得到,如公式(2)所示:
焦点损失函数为:
Lfoc=-(1-pt)elog pt, (3)
其中,pt为样本图,e为调节参数,设置为0.25;
Ltotal=αLsal+βLcls+γLfoc (4)
其中:α,β和γ是调节参数,α和β的值均设为1,γ值是0.01;Lsal为显著性图与目标对象前景图的显著性损失;Lcls为分类网络的分类损失;Lfoc为焦点损失;其中:Ms与是指显著性图与目标对象类别激活图,目标对象类别激活图/>目标对象前景图/> 与背景图H表示显著性图的长,W表示显著性图的宽。
步骤3、选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,训练约束后的改进的Resnet38分类网络,得到优化的Resnet38分类网络;具体过程为:
PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,输入改进的Resnet38分类网络;将后三级特征进行特征融合,得到融合后的特征;融合后的特征语义信息丰富并且补充了因为不断地下采样、池化操作丢失的细节信息。
将融合后的特征送入空间注意力模块增强空间表示能力,再送入通道注意力模块提取重要通道信息;得到图像的类别激活图,将其与带有图像级弱标签的分割图像的显著性图计算显著性损失,迭代训练加入改进的Resnet38分类网络,直到达到设定的迭代次数,得到优化的Resnet38分类网络。
步骤4、将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签;具体过程为:
设置标准阈值μ,将步骤1中得到的类别激活图输入优化的Resnet38分类网络的定位图筛选模块,选择C张类别激活图中需要分割出来的对象没有缺失的以及与显著性图交并比大于μ的类别激活图作为伪标签。
交并比的计算公式为:
Ο(Mi,Ms)=|Ni∩Ns|/|Ni|,;
其中,C是数据集中的类别数,Mi是第i张定位图,Ni表示定位图Mi进行0.5为阈值的二值化处理之后得到的二值图,Ns表示显著性图Ms进行0.5为阈值的二值化处理之后得到的二值图,μ默认为0.4,yi表示图像级标签,α是调整前景与背景加权和的超参数,取值为0-1。
步骤5、利用待分割图像的伪标签训练一个语义分割模型得到分割结果。
实施例1
采用多种方法SEC、STC、MCOF、DSRG、SeeNet、OAA、SEAM、EPS、Ours(本发明方法)在PASCAL VOC 2012数据集进行训练,得到的图像分割结果(mIoU)如表1所示:
表1
根据表1中对比可知,本发明方法分割结果比起SEC方法提高了20.8%,比起SEAM方法提高了7%,比起目前最好的EPS方法也提高了0.6%,体现了本发明方法在弱监督语义分割精确度有明显的提高。
实施例2
采用本发明方法与采用EPS方法在PASCAL VOC数据集上的各类分割平均交并比如表2所示。
表2
根据表2对比可知,本发明方法得到的每种类别的交并比均大于EPS,交并比的提升能够提高分割精度。
实施例3
对PASCAL VOC数据集中的原图如图2(a)所示,采用本发明方法进行分割,图2(b)为Ground Truth(地面真实值),图2(c)为本发明方法得到的分割图,通过图2(b)与图2(c)对比可知,本发明分割结果与地面真实值很接近。
实施例4
对MS COCO 2014数据集的原图如图3(a)所示,采用本发明方法进行分割,图3(b)为Ground Truth(地面真实值),图3(c)为本发明方法得到的分割图,通过图3(b)与图3(c)对比可知,本发明方法在特征融合和注意力机制的增强下更好地结合了上下文信息,使得细节处更加准确。
通过上述方式,本发明基于显著性图与注意力机制的弱监督语义分割方法,通过将显著性图作为辅助监督信息训练分类网络,进而得到边界信息明显的类激活图,多特征融合模块使得分类网络生成的目标对象定位图语义信息丰富且包含细节信息。在分类损失的基础上加入焦点损失以减少样本类别不平衡带来的影响。融合后的特征输入注意力模块中以增强其空间表示能力与重要通道特征的提取能力,进而得到更加完整的伪标签,能够提高图像语义分割的精度。
Claims (7)
1.基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,具体按照以下步骤实施:设计改进的Resnet38分类网络,在PASCAL VOC数据集中选取带有图像级弱标签的待分割图像及其显著性图,输入改进的Resnet38分类网络生成类别激活图;构造改进的Resnet38分类网络的损失函数,通过损失函数对改进的Resnet38分类网络进行约束;选取PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,训练约束后的改进的Resnet38分类网络,得到优化的Resnet38分类网络;将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签;利用待分割图像的伪标签训练一个语义分割模型得到分割结果。
2.根据权利要求1所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述改进的Resnet38分类网络具体为:在现有的Resnet38分类网络的后三层结构上连接多级特征融合模块,现有的Resnet38分类网络之后引入注意力机制模块、定位图筛选模块。
3.根据权利要求2所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述注意力机制模块包括空间注意力模块和通道注意力模块,图像输入所述空间注意力模块,再经过通道注意力模块生成输入图像的类别激活图。
4.根据权利要求1所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述改进的Resnet38分类网络的损失函数计算方法为:
利用显著性损失实现分类目标对象前景图的损失Lsal,显著性损失采用像素平均距离获得:
分类损失由全局平均池化后的分类向量与步骤一所述图像级标签计算得到,如公式(2)所示:
焦点损失函数为:
Lfoc=-(1-pt)elogpt, (3)
其中,pt为样本图,e为调节参数,设置为0.25;
Ltotal=αLsal+βLcls+γLfoc (4)
其中:α,β和γ是调节参数,α和β的值均设为1,γ值是0.01;Lsal为显著性图与目标对象前景图的显著性损失;Lcls为分类网络的分类损失;Lfoc为焦点损失;其中:Ms与是指显著性图与目标对象类别激活图,目标对象类别激活图/>目标对象前景图/> 与背景图H表示显著性图的长,W表示显著性图的宽。
5.根据权利要求3所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述训练约束后的改进的Resnet38分类网络具体过程为:
PASCAL VOC数据集中的多个带有图像级弱标签的分割图像及其显著性图作为训练样本,输入改进的Resnet38分类网络;将后三级特征进行特征融合,得到融合后的特征;将融合后的特征送入空间注意力模块增强空间表示能力,再送入通道注意力模块提取重要通道信息;得到图像的类别激活图,将其与带有图像级弱标签的分割图像的显著性图计算显著性损失,迭代训练加入改进的Resnet38分类网络,直到达到设定的迭代次数,得到优化的Resnet38分类网络。
6.根据权利要求2所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述将类别激活图输入优化的Resnet38分类网络生成待分割图像的伪标签具体过程为:
设置标准阈值μ,将步骤1中得到的类别激活图输入优化的Resnet38分类网络的定位图筛选模块,选择C张类别激活图中需要分割出来的对象没有缺失的以及与显著性图交并比大于μ的类别激活图作为伪标签。
7.根据权利要求6所述基于显著性图与注意力机制的弱监督语义分割方法,其特征在于,所述交并比的计算公式为:
Ο(Mi,Ms)=|Ni∩Ns|/|Ni|,;
其中,C是数据集中的类别数,Mi是第i张定位图,Ni表示定位图Mi进行0.5为阈值的二值化处理之后得到的二值图,Ns表示显著性图Ms进行0.5为阈值的二值化处理之后得到的二值图,μ默认为0.4,yi表示图像级标签,α是调整前景与背景加权和的超参数,取值为0-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153032.0A CN117197459A (zh) | 2023-09-07 | 2023-09-07 | 基于显著性图与注意力机制的弱监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311153032.0A CN117197459A (zh) | 2023-09-07 | 2023-09-07 | 基于显著性图与注意力机制的弱监督语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117197459A true CN117197459A (zh) | 2023-12-08 |
Family
ID=88991823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311153032.0A Pending CN117197459A (zh) | 2023-09-07 | 2023-09-07 | 基于显著性图与注意力机制的弱监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197459A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422732A (zh) * | 2023-12-18 | 2024-01-19 | 湖南自兴智慧医疗科技有限公司 | 病理学图像分割方法及装置 |
-
2023
- 2023-09-07 CN CN202311153032.0A patent/CN117197459A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422732A (zh) * | 2023-12-18 | 2024-01-19 | 湖南自兴智慧医疗科技有限公司 | 病理学图像分割方法及装置 |
CN117422732B (zh) * | 2023-12-18 | 2024-02-23 | 湖南自兴智慧医疗科技有限公司 | 病理学图像分割方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | PGA-Net: Pyramid feature fusion and global context attention network for automated surface defect detection | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
Zhang et al. | Efficient inductive vision transformer for oriented object detection in remote sensing imagery | |
US10262214B1 (en) | Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及系统 | |
Guo et al. | Semantic segmentation for urban planning maps based on U-Net | |
CN105931253A (zh) | 一种基于半监督学习相结合的图像分割方法 | |
CN106504255A (zh) | 一种基于多标签多示例学习的多目标图像联合分割方法 | |
CN117197459A (zh) | 基于显著性图与注意力机制的弱监督语义分割方法 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
Yan et al. | MSG-SR-Net: A weakly supervised network integrating multiscale generation and superpixel refinement for building extraction from high-resolution remotely sensed imageries | |
CN114998815B (zh) | 一种基于视频分析的交通车辆识别追踪方法及系统 | |
CN108509861B (zh) | 一种基于样本学习和目标检测结合的目标跟踪方法和装置 | |
Ru et al. | Learning Visual Words for Weakly-Supervised Semantic Segmentation. | |
CN116342942A (zh) | 基于多级域适应弱监督学习的跨域目标检测方法 | |
CN115019039A (zh) | 一种结合自监督和全局信息增强的实例分割方法及系统 | |
Zhang et al. | Vehicle license plate detection and recognition using deep neural networks and generative adversarial networks | |
Gong et al. | A method for wheat head detection based on yolov4 | |
Zheng et al. | Utilizing bounding box annotations for weakly supervised building extraction from remote-sensing images | |
CN117437426B (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
Chen et al. | Improved fast r-cnn with fusion of optical and 3d data for robust palm tree detection in high resolution uav images | |
CN112419352B (zh) | 一种基于轮廓的小样本语义分割方法 | |
CN113642500A (zh) | 一种基于多阶段域自适应的低照度目标检测方法 | |
Kankane et al. | Detection of Seashore Debris with Fixed Camera Images using Computer Vision and Deep learning | |
Ibrahem et al. | Weakly supervised traffic sign detection in real time using single CNN architecture for multiple purposes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |