CN114359559A - 基于注意力机制图像块度量学习的弱监督语义分割方法 - Google Patents

基于注意力机制图像块度量学习的弱监督语义分割方法 Download PDF

Info

Publication number
CN114359559A
CN114359559A CN202111578620.XA CN202111578620A CN114359559A CN 114359559 A CN114359559 A CN 114359559A CN 202111578620 A CN202111578620 A CN 202111578620A CN 114359559 A CN114359559 A CN 114359559A
Authority
CN
China
Prior art keywords
image block
image
network
class
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111578620.XA
Other languages
English (en)
Other versions
CN114359559B (zh
Inventor
陈百基
陈可可
谢东欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111578620.XA priority Critical patent/CN114359559B/zh
Publication of CN114359559A publication Critical patent/CN114359559A/zh
Application granted granted Critical
Publication of CN114359559B publication Critical patent/CN114359559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制图像块度量学习的弱监督语义分割方法,包括:1)基于深度卷积网络的分类网络得到类别激活图像;2)利用类别激活图像得到包含物体定位信息的种子区域与候选区域;3)基于注意力机制分别得到包含前景和背景的图像块提案;4)提取正、负图像块对作为正、负样本对;5)为分类网络增加度量学习任务;6)训练种子区域扩张网络,配合随机游走算法扩大种子区域;7)训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。本发明方法引入度量学习产生用于训练的数据,可以兼容各种全监督语义分割网络,在弱监督语义分割中提高生成的种子区域对前景目标物体的覆盖精度,进而提高生成的语义分割掩码的整体精度。

Description

基于注意力机制图像块度量学习的弱监督语义分割方法
技术领域
本发明涉及计算机视觉中语义分割的技术领域,尤其是指一种基于注意力机制图像块度量学习的弱监督语义分割方法。
背景技术
图像语义分割是计算机视觉中十分重要的领域。它是指像素级地识别图像,即标注出图像中每个像素所属的对象类别。目前基于深度学习的图像语义分割技术为较为常见的图像语义分割技术。
目前大多数深度学习模型是一种有监督学习,需要提供训练样本的真实标签进行训练,在图像语义分割领域是指像素级的类别标签。
弱监督学习在图像语义分割领域是指需要的标签并非像素级。然而在图像语义分割领域,像素级的样本真实标签获取成本很高,因此发展不依赖于像素级标签也就是弱监督的图像语义分割方法十分重要。
现在常见的弱监督语义方法大致分为三个阶段:1、获得粗略的类别激活图像。2、对该类别激活图像进行调整。3、用调整后的类别激活图像作为伪标签训练全监督图像语义分割模型。其中前两个步骤为优化的重点,已有技术存在类别激活图像不完整,集中于明显特征的部分。
作为区域生长算法的先验信息,种子区域对目标物体的覆盖精度对整体分割性能的影响较大。基于分类网络类别激活图生成的种子区域主要覆盖目标物体最具有判别性的区域,面临覆盖面积不完整和稀疏等问题。
通过在种子区域生成阶段引入本发明提出的注意力机制图像块度量学习,种子区域的定位和覆盖精度得到提升,进而可以获得精度更高的分割掩码。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于注意力机制图像块度量学习的弱监督语义分割方法,能够利用度量学习的特性,在弱监督语义分割中提高生成的种子区域对前景目标物体的覆盖精度,进而提高生成的语义分割掩码的整体精度。
为实现上述目的,本发明所提供的技术方案为:基于注意力机制图像块度量学习的弱监督语义分割方法,包括以下步骤:
1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络,通过评估像素对于类别分类的贡献程度得到类别激活图(Class Activation Map,CAM);
2)利用步骤1)得到的类别激活图,通过选取置信度大于阈值的区域,得到目标物体在图像中的定位信息,并定义为种子区域(seed areas),基于种子区域框出图片中各个类的候选区域(object proposals),作为粗糙的目标物体定位信息;
3)利用步骤2)的候选区域,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案(patch proposals)和包含背景的图像块提案(patchproposals);
4)利用步骤3)的图像块提案,提取正、负图像块对作为正、负样本对;
5)利用步骤4)的正、负样本对,为分类网络增加度量学习任务,采用多级相似性损失进行训练,在训练过程中提高网络对同一个类别正图像块的响应,降低对背景和其它噪声类别图像块的响应,从而提高种子区域精度;
6)利用训练后的分类网络,得到精度更高的包含目标物体像素级定位信息的种子区域,用于训练种子区域扩张网络,配合随机游走算法扩大种子区域;
7)利用步骤6)中的种子区域扩张网络生成伪掩码,训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。
进一步,在步骤1)中,所述分类网络是指以ResNet-38为骨干网络的残差卷积网络;
所述类别激活图为包含了类别信息的图像,表示为:
Figure BDA0003425424400000031
式中,Mc(x,y)为类别c的类别激活图处于(x,y)处的值;fn(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值;Nf为分类网络倒数第二层的通道数;n为第二层的通道对应的编号;θcn为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重;Mc(x,y)的值的意义为像素区域对c类别的激活强度。
进一步,在步骤2)中,所述种子区域是指在类别图中,激活值大于一个阈值的区域,表示为:
Figure BDA0003425424400000032
式中,S(x,y)为种子区域S中处于(x,y)处的值,该值代表某一个类别;c为类别;Mc(x,y)为类别c的类别激活图处于(x,y)处的值;
Figure BDA0003425424400000033
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值对应的类别;
Figure BDA0003425424400000034
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值;β1为超参数,为属于0到1区间的背景类阈值,大于该阈值的像素为非背景类;
基于种子区域,使用了轮廓检测框出图片中各个类的候选区域(objectproposals),作为粗糙的目标物体定位信息;其中,为了避免噪声的干扰,对于长或宽小于50个像素的候选区域,以及长宽比大于4的候选区域进行了过滤的操作;
采用了非极大值抑制算法(Non-Maximum Suppression,NMS)对具有较大重叠的候选区域进行筛选,筛选出其中具有最大置信度的候选区域。
进一步,在步骤3)中,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案,称为前景图像块提案,和包含背景的图像块提案,称为背景图像块提案,具体如下:
前景图像块提案的生成过程为:
对于一个宽和高为W和H的候选区域,首先将候选区域等分成4×4个均等的图像块区域,每个图像块的大小为H/4和W/4;然后靠近边缘的12个图像块被定于为粗粒度前景图像块;对于处于候选区域中心的4个H/4×W/4的图像块,先将它合并之后得到宽和高分别为H/2和W/2的中心区域,再将中心区域等分为3×3个均等的细粒度图像块,最后,将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块;
其中,背景的激活图像在坐标(x,y)处对应的值Mbg(x,y)的生成为:
Figure BDA0003425424400000041
式中,Cfg是前景的所有类别的集合,c为类别,Mfg(x,y)是类别c的类别激活图在坐标(x,y)处对应的值,α1为超参数;
背景图像块会在候选区域的高置信度背景区域中生成,并以比前景图像块提案生成中更粗粒度地去进行采样;假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为在候选区域周围一圈,用W/2×H/2大小的窗口,在高置信度背景区域中采样。
进一步,在步骤4)中,所述正样本对有两种,包括:①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对,②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对;所述负样本对有两种,包括:①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对,②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。
进一步,在步骤5)中,所述多级相似性损失表示为:
Figure BDA0003425424400000051
式中,LMS为多级相似性损失;α,β和λ是超参数,其中,α用于控制正样本对在损失值计算中的权重,β用于控制负样本对在损失值计算中的权重,λ用于控制特征空间中的间隔;m是样本个数;i、k为样本对中的编号;Sik是样本i和样本k的相似度;Pi是高信息量正样本对的集合的子集,其中所有样本对都包含样本i;Ni是高信息量负样本对的集合的子集,其中所有样本对都包含样本i;
上述样本也就是步骤4)得到的正、负样本,为图像块对。
进一步,在步骤6)中,所述种子区域扩张网络为亲和度网络,该网络的配置为:
训练样本为基于经过度量学习后的分类网络,再用步骤2)到步骤5)的步骤得出的正、负样本对,同样是图像块组成的样本对;
亲和度表示为:
Figure BDA0003425424400000052
式中,q、j为样本对中像素点q和j的编号;faff(q)为种子区域扩张网络对像素点q提取的特征向量的输出;faff(j)为种子区域扩张网络对像素点j提取的特征向量的输出;Wpj为像素点q和j的亲和度;
训练目标为减小负样本的亲和度,增大正样本对的亲和度;
配合随机游走算法扩大种子区域,用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域,扩张到与其亲和度较高的区域。
进一步,在步骤7)中,全监督语义分割网络是指输入为带有像素级类别标签的图像的网络。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明创新点的作用在于为只有图像级标签的数据生成像素级标签,也就是伪掩码,优点是可以与现有的全监督语义分割网络兼容。
2、本发明在弱监督语义分割任务中利用度量学习,拉开了属于不同标签的像素的差距,提高了伪掩码的质量。
3、补充了全监督语义分割任务缺少的训练样本。
4、只使用类激活图像作为标签质量过低,具体表现在激活区域太小太集中,本发明采用多种方法扩大了类激活图的区域。
5、本发明的用处是生成标签,对运行速度的要求小,意味着对设备性能要求不高。
6、本发明的标签只需要图像级别的类别标签,此类标签获取的人工成本低。
附图说明
图1为本发明方法的架构图。
图2为本发明的候选区域和图像块提案示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于注意力机制图像块度量学习的弱监督语义分割方法,其具体情况如下:
1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络,通过评估像素对于类别分类的贡献程度得到类别激活图(Class Activation Map,CAM)。
输入训练过程所需要的超参数。
载入图片数据集及其类别标签,输入图片为RGB格式的三通道矩阵,将图片矩阵的维度从(长度,宽度,三通道)转换为(三通道,长度,宽度)。
使用xavier初始化模型参数,并将想要优化的参数绑定优化器,设置优化器的超参数。
将输入的图片分批次输入网络。
图片流作为最初始候选区域在网络中流过由以下各层组成的ResNet-38分类网络作为的骨干网络,输出特征图。
Figure BDA0003425424400000071
其中各层的介绍如下表所示。
Figure BDA0003425424400000072
Figure BDA0003425424400000081
对这些特征图进行全局平均池化(global average pooling,GAP),也就是算出每一张特征图的平均值。将这些平均值经过全连接层得到对于类别的概率分布。
训练分类网络,概率分布和标签概率分布经过交叉熵损失函数的计算得到误差L1,对该误差进行反向传播,接着可以在此处对网络参数进行梯度下降,也可以等后续的多级相似性损失反向传播后,再进行梯度下降,在本实施方法中采用后者。接着利用该网络进行基于图像块的度量学习。
利用上述分类网络和以下公式,计算得到类别激活图Mc
类别激活图Mc为包含了类别信息的图像,表示为:
Figure BDA0003425424400000082
Mc(x,y)为类别c的类别激活图处于(x,y)处的值。同理,fn(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值。Nf为分类网络倒数第二层的通道数。n为第二层的通道对应的编号。θcn为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重。Mc(x,y)的值的意义为像素区域对c类别的激活强度。
2)利用步骤1)得到的类别激活图,通过选取置信度大于阈值的区域,得到目标物体在图像中的定位信息,并定义为种子区域(seed areas),基于种子区域框出图片中各个类的候选区域(object proposals),作为粗糙的目标物体定位信息。
利用类别激活图计算得到种子区域,种子区域的计算方式如下:
Figure BDA0003425424400000091
S(x,y)为种子区域S中处于(x,y)处的值,该值代表某一个类别。c为类别。Mc(x,y)为类别c的类别激活图处于(x,y)处的值。
Figure BDA0003425424400000092
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值对应的类别。
Figure BDA0003425424400000093
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值。β1为超参数,为属于0到1区间的背景类阈值,大于该阈值的像素为非背景类,在本方法中β1=0.2。
基于种子区域,使用了轮廓检测框出图片中各个类的候选区域(objectproposals),作为粗糙的目标物体定位信息。其中为了避免噪声的干扰,对于长或宽小于50个像素的候选区域,以及长宽比大于4的候选区域进行了过滤的操作;先检测出某个类的种子区域的轮廓,对轮廓采样出定位点,对这些定位点进行框选,框的限制是刚好包括种子区域。
采用了非极大值抑制算法(Non-Maximum Suppression,NMS)对具有较大重叠的候选区域进行筛选,此处计算每个框的重叠率iou,此处为重叠率大于0.3的框进行进一步比较,筛选出其中具有最大置信度的候选区域,置信度计算方式为对应类别的类别激活图处于框内区域的平均值,越大置信度越高。
3)利用步骤2)的候选区域,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案(patch proposals),称为前景图像块提案,和包含背景的图像块提案(patch proposals),称为背景图像块提案。
基于候选区域生成的方式可以得到,越靠近候选区域边界的区域,越可能带有背景噪声。
参考人眼视觉的拮抗同心特性,我们采取从基于注意力机制的由细到粗的图像块生成方法,即从候选区域中心开始,由细到粗地生成前景图像块提案,生成的前景图像块包括细粒度前景图像块:细粒度地关注候选区域中心周围的区域,和粗粒度前景图像块:粗粒度地关注候选区域边缘的区域。
对于一个宽和高为W和H的候选区域,首先将候选区域等分成4×4个均等的图像块区域,每个图像块的大小为H/4和W/4。靠近边缘的12个图像块被定于为粗粒度前景图像块。对于处于候选区域中心的4个H/4×W/4的图像块,先将它合并之后得到宽和高分别为H/2和W/2的中心区域,再将中心区域等分为3×3个均等的细粒度图像块,将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块。参见图2所示,显示了选取图像块的可视化图像。
背景的激活图像在坐标(x,y)处对应的值Mbg(x,y)的生成为:
Figure BDA0003425424400000101
式中,Cfg是前景的所有类别的集合。c为类别。Mfg(x,y)是类别c的类别激活图在坐标(x,y)处对应的值。α1为超参数,本方法中为1。
背景图像块会在候选区域的高置信度背景区域中生成,并以比前景图像块提案生成方法中更粗粒度地去进行采样。假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为再候选区域周围一圈,用W/2×H/2大小的窗口,再高置信度背景区域中采样,具体为其中窗口置信度大于。
4)利用步骤3)的图像块提案,提取正、负图像块对作为正、负样本对。
正样本有两种,包括:
①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对,②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。
负样本对有两种,包括:
①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对,②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。
5)利用步骤4)的正、负样本对,为分类网络增加度量学习任务,采用多级相似性损失进行训练,在优化过程中提高网络对同一个类别正样本图像块的响应,降低对背景和其他噪声类别图像块的响应,从而提高种子区域精度。
多级相似性损失,表示为:
Figure BDA0003425424400000111
LMS为多级相似性损失。α,β和λ是超参数,其中,α用于控制正样本对在损失值计算中的权重,在本方法中为10。β用于控制负样本对在损失值计算中的权重,在本方法中为15。λ用于控制特征空间中的间隔,在本方法中为1。m是样本个数。i、k为样本对中的编号。Sik是样本i和样本k的相似度。Pi是高信息量正样本对的集合的子集,其中所有样本对都包含样本i,Ni是高信息量负样本对的集合的子集,其中所有样本对都包含样本i。
上述样本也就是步骤4)得到的正、负样本,为图像块对。
对上述损失进行反向传播,接着对网络的参数进行梯度下降。
如果训练之后效果不好,可以接着重新分类网络的训练也就是步骤1)开始,循环训练多次,在本方法中进行1000遍。
6)利用训练后的分类网络,得到精度更高的包含目标物体像素级定位信息的种子区域,用于训练种子区域扩张网络,配合随机游走算法扩大种子区域。
训练样本为,基于经过度量学习后的分类网络,再用步骤2)到步骤5)的步骤得出的正、负样本对,同样是图像块组成的样本对。
亲和度表示为:
Figure BDA0003425424400000121
式中,q、j为样本对中像素点q和j的编号;faff(q)为种子区域扩张网络对像素点q提取的特征向量的输出;faff(j)为种子区域扩张网络对像素点j提取的特征向量的输出;Wpj为像素点q和j的亲和度。
种子区域扩张网络的输出结果越接近代表亲和度越高,因此训练目标为减小负样本的亲和度,增大正样本对的亲和度;该网络的误差为一减去正样本的亲和度的差,加上负样本的亲和度,同样对该网络借助该误差进行训练。
配合随机游走算法(用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域,扩张到与其亲和度较高的区域),对种子区域进行随机游走,游走的概率为亲和度。对包含种子区域信息的图片上每一个像素计算其与临近区域的其它像素的亲和度,以该亲和度为概率将区域中心的像素的标签拓展到临近区域其它像素。
7)利用步骤6)中的种子区域扩张网络生成伪掩码,训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。
使用全监督的语义分割网络,在本具体实施方法中使用DeepLabv2,输入图片,像素级标签为上一步生成的伪掩码标注,进行训练后,输出最终的分割掩码。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,包括以下步骤:
1)将带有图像级标签的图片数据用于训练基于深度卷积网络的分类网络,通过评估像素对于类别分类的贡献程度得到类别激活图;
2)利用步骤1)得到的类别激活图,通过选取置信度大于阈值的区域,得到目标物体在图像中的定位信息,并定义为种子区域,基于种子区域框出图片中各个类的候选区域,作为粗糙的目标物体定位信息;
3)利用步骤2)的候选区域,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案和包含背景的图像块提案;
4)利用步骤3)的图像块提案,提取正、负图像块对作为正、负样本对;
5)利用步骤4)的正、负样本对,为分类网络增加度量学习任务,采用多级相似性损失进行训练,在训练过程中提高网络对同一个类别正图像块的响应,降低对背景和其它噪声类别图像块的响应,从而提高种子区域精度;
6)利用训练后的分类网络,得到精度更高的包含目标物体像素级定位信息的种子区域,用于训练种子区域扩张网络,配合随机游走算法扩大种子区域;
7)利用步骤6)中的种子区域扩张网络生成伪掩码,训练基于深度学习的全监督语义分割网络,得到最终的语义分割掩码。
2.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤1)中,所述分类网络是指以ResNet-38为骨干网络的残差卷积网络;
所述类别激活图为包含了类别信息的图像,表示为:
Figure FDA0003425424390000011
式中,Mc(x,y)为类别c的类别激活图处于(x,y)处的值;fn(x,y)为分类网络倒数第二层的第n个输出中处于(x,y)处的值;Nf为分类网络倒数第二层的通道数;n为第二层的通道对应的编号;θcn为分类网络倒数第二层第n个输出特征图在第c个类别的输出概率计算中所占权重;Mc(x,y)的值的意义为像素区域对c类别的激活强度。
3.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤2)中,所述种子区域是指在类别图中,激活值大于一个阈值的区域,表示为:
Figure FDA0003425424390000021
式中,S(x,y)为种子区域S中处于(x,y)处的值,该值代表某一个类别;c为类别;Mc(x,y)为类别c的类别激活图处于(x,y)处的值;
Figure FDA0003425424390000022
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值对应的类别;
Figure FDA0003425424390000023
为不同类别c的类别激活图处于位置(x,y)的值中,数值最大的值;β1为超参数,为属于0到1区间的背景类阈值,大于该阈值的像素为非背景类;
基于种子区域,使用了轮廓检测框出图片中各个类的候选区域,作为粗糙的目标物体定位信息;其中,为了避免噪声的干扰,对于长或宽小于50个像素的候选区域,以及长宽比大于4的候选区域进行了过滤的操作;
采用了非极大值抑制算法对具有大重叠的候选区域进行筛选,筛选出其中具有最大置信度的候选区域。
4.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤3)中,采用基于注意力机制由细到粗的图像块生成方法,分别得到包含前景的图像块提案,称为前景图像块提案,和包含背景的图像块提案,称为背景图像块提案,具体如下:
前景图像块提案的生成过程为:
对于一个宽和高为W和H的候选区域,首先将候选区域等分成4×4个均等的图像块区域,每个图像块的大小为H/4和W/4;然后靠近边缘的12个图像块被定于为粗粒度前景图像块;对于处于候选区域中心的4个H/4×W/4的图像块,先将它合并之后得到宽和高分别为H/2和W/2的中心区域,再将中心区域等分为3×3个均等的细粒度图像块,最后,将生成的宽和高分别为H/6和W/6的图像块定义为细粒度前景图像块;
其中,背景的激活图像在坐标(x,y)处对应的值Mbg(x,y)的生成为:
Figure FDA0003425424390000031
式中,Cfg是前景的所有类别的集合,c为类别,Mfg(x,y)是类别c的类别激活图在坐标(x,y)处对应的值,α1为超参数;
背景图像块会在候选区域的高置信度背景区域中生成,并以比前景图像块提案生成中更粗粒度地去进行采样;假设某个候选区域的宽和高分别为W和H,背景图像块提案定义为在候选区域周围一圈,用W/2×H/2大小的窗口,在高置信度背景区域中采样。
5.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤4)中,所述正样本对有两种,包括:①同一个候选区域生成的细粒度图像块和粗粒度图像块组成的图像块对,②同属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对;所述负样本对有两种,包括:①一个候选区域内的图像块和它周围的背景图像块间组成的图像块对,②不属于一个类别的候选区域之间的细粒度图像块之间组成的图像块对。
6.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤5)中,所述多级相似性损失表示为:
Figure FDA0003425424390000041
式中,LMS为多级相似性损失;α,β和λ是超参数,其中,α用于控制正样本对在损失值计算中的权重,β用于控制负样本对在损失值计算中的权重,λ用于控制特征空间中的间隔;m是样本个数;i、k为样本对中的编号;Sik是样本i和样本k的相似度;Pi是高信息量正样本对的集合的子集,其中所有样本对都包含样本i;Ni是高信息量负样本对的集合的子集,其中所有样本对都包含样本i;
上述样本也就是步骤4)得到的正、负样本,为图像块对。
7.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤6)中,所述种子区域扩张网络为亲和度网络,该网络的配置为:
训练样本为基于经过度量学习后的分类网络,再用步骤2)到步骤5)的步骤得出的正、负样本对,同样是图像块组成的样本对;
亲和度表示为:
Figure FDA0003425424390000042
式中,q、j为样本对中像素点q和j的编号;faff(q)为种子区域扩张网络对像素点q提取的特征向量的输出;faff(j)为种子区域扩张网络对像素点j提取的特征向量的输出;Wpj为像素点q和j的亲和度;
训练目标为减小负样本的亲和度,增大正样本对的亲和度;
配合随机游走算法扩大种子区域,用法是将经过度量学习后的分类网络产生的类别激活图中的高激活区域,扩张到与其亲和度高的区域。
8.根据权利要求1所述的基于注意力机制图像块度量学习的弱监督语义分割方法,其特征在于,在步骤7)中,全监督语义分割网络是指输入为带有像素级类别标签的图像的网络。
CN202111578620.XA 2021-12-22 2021-12-22 基于注意力机制图像块度量学习的弱监督语义分割方法 Active CN114359559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111578620.XA CN114359559B (zh) 2021-12-22 2021-12-22 基于注意力机制图像块度量学习的弱监督语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111578620.XA CN114359559B (zh) 2021-12-22 2021-12-22 基于注意力机制图像块度量学习的弱监督语义分割方法

Publications (2)

Publication Number Publication Date
CN114359559A true CN114359559A (zh) 2022-04-15
CN114359559B CN114359559B (zh) 2024-08-06

Family

ID=81101095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111578620.XA Active CN114359559B (zh) 2021-12-22 2021-12-22 基于注意力机制图像块度量学习的弱监督语义分割方法

Country Status (1)

Country Link
CN (1) CN114359559B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393725A (zh) * 2022-10-26 2022-11-25 西南科技大学 一种特征增强和语义分割的桥梁裂缝识别方法
CN116029895A (zh) * 2023-02-23 2023-04-28 广州佰锐网络科技有限公司 一种ai虚拟背景实现方法、系统及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308860A (zh) * 2020-10-28 2021-02-02 西北工业大学 基于自监督学习的对地观测图像语义分割方法
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法
CN113657560A (zh) * 2021-10-20 2021-11-16 南京理工大学 基于节点分类的弱监督图像语义分割方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308860A (zh) * 2020-10-28 2021-02-02 西北工业大学 基于自监督学习的对地观测图像语义分割方法
CN112668579A (zh) * 2020-12-24 2021-04-16 西安电子科技大学 基于自适应亲和力和类别分配的弱监督语义分割方法
CN113657560A (zh) * 2021-10-20 2021-11-16 南京理工大学 基于节点分类的弱监督图像语义分割方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393725A (zh) * 2022-10-26 2022-11-25 西南科技大学 一种特征增强和语义分割的桥梁裂缝识别方法
CN115393725B (zh) * 2022-10-26 2023-03-07 西南科技大学 一种特征增强和语义分割的桥梁裂缝识别方法
CN116029895A (zh) * 2023-02-23 2023-04-28 广州佰锐网络科技有限公司 一种ai虚拟背景实现方法、系统及计算机可读存储介质
CN116029895B (zh) * 2023-02-23 2023-08-04 广州佰锐网络科技有限公司 一种ai虚拟背景实现方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN114359559B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
CN106447658B (zh) 基于全局和局部卷积网络的显著性目标检测方法
CN108230264B (zh) 一种基于ResNet神经网络的单幅图像去雾方法
CN109035149B (zh) 一种基于深度学习的车牌图像去运动模糊方法
CN104182772B (zh) 一种基于深度学习的手势识别方法
CN109154978B (zh) 用于检测植物疾病的系统和方法
CN110059586B (zh) 一种基于空洞残差注意力结构的虹膜定位分割系统
JP2021528784A (ja) パノラマ画像のスカイフィルタ方法及び携帯端末
CN109345472A (zh) 一种复杂场景的红外运动小目标检测方法
CN108960404B (zh) 一种基于图像的人群计数方法及设备
CN114359559B (zh) 基于注意力机制图像块度量学习的弱监督语义分割方法
CN111783819B (zh) 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN112613350A (zh) 一种基于深度神经网络的高分辨率光学遥感图像飞机目标检测方法
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN108305253A (zh) 一种基于多倍率深度学习的病理全切片诊断方法
CN108647682A (zh) 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法
CN106296744A (zh) 一种结合自适应模型和多阴影属性的运动目标检测方法
CN107944403A (zh) 一种图像中的行人属性检测方法及装置
CN111209858A (zh) 一种基于深度卷积神经网络的实时车牌检测方法
CN106874825A (zh) 人脸检测的训练方法、检测方法和装置
CN104766065A (zh) 基于多视角学习的鲁棒性前景检测方法
CN105046202A (zh) 自适应的人脸识别光照处理方法
CN115240020A (zh) 基于弱光补偿的MaskRCNN渗水检测方法及系统
CN111832508B (zh) 基于die_ga的低照度目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant