CN112668579A - 基于自适应亲和力和类别分配的弱监督语义分割方法 - Google Patents
基于自适应亲和力和类别分配的弱监督语义分割方法 Download PDFInfo
- Publication number
- CN112668579A CN112668579A CN202011550953.7A CN202011550953A CN112668579A CN 112668579 A CN112668579 A CN 112668579A CN 202011550953 A CN202011550953 A CN 202011550953A CN 112668579 A CN112668579 A CN 112668579A
- Authority
- CN
- China
- Prior art keywords
- class
- pixel
- semantic segmentation
- classification network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 72
- 230000003044 adaptive effect Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 26
- 238000004088 simulation Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000011800 void material Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出一种基于自适应亲和力和类别分配的弱监督语义分割方法,用于解决现有技术中存在的分割精度较低的技术问题,实现步骤为:获取训练样本集和测试样本集;构建基于自适应亲和力和类别分配的弱监督语义分割模型;对基于自适应亲和力和类别分配的弱监督语义分割模型进行迭代训练;获得语义分割结果。本发明通过使用自适应亲和力损失,计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系,实现了像素点间的信息传递,充分利用了可用的监督信息,同时通过使用类别分配损失,计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离,缓解了网络训练后期对于错误标签的过拟合,提高了网络的抗干扰能力。
Description
技术领域
本发明属于图像处理技术领域,涉及一种弱监督语义分割方法,具体涉及一种基于自适应亲和力和类别分配的弱监督语义分割方法,可用于自动驾驶,场景理解及自动抠图。
背景技术
语义分割是指将图像分割为若干个具有某种特定语义含义的像素区域,并识别出每个区域的目标类别,最终获得一幅具有像素语义标注的图像,从而实现对图像内容的充分理解,被广泛应用于自动驾驶、场景理解等领域。
表征语义分割方法的指标主要有实用性、分割精度和算法复杂性。语义分割方法一般分为传统语义分割方法和基于深度学习的语义分割方法,相比于传统方法,基于深度学习的语义分割方法分割精度高,算法复杂性低,因此得到了广泛关注。根据所给的监督信息不同,基于深度学习的语义分割方法可分为基于有监督的语义分割方法和基于无监督的语义分割方法,相比于基于无监督的语义分割方法,基于有监督的语义分割方法使用了更多的监督信息,有效提高了分割精度。有监督语义分割方法可分为基于全监督的语义分割方法和基于弱监督的语义分割方法。基于全监督的语义分割方法具有较高的分割精度和较低的算法复杂性,但是在基于全监督的语义分割方法的实际应用中,需要获取应用场景下的大量图像作为训练数据,并对这些训练图像进行逐像素的人工标注,标注出图像中每个像素点对应的目标类别,这种昂贵的标注方式需要消耗大量的人力和时间,当应用到新的场景中,需要重新获取大量图像及其像素级标注的数据用于网络训练,实用性较差。基于弱监督的语义分割方法能够使用图像的类别标签而不是大量像素级手工标注进行网络训练,从而大幅度地降低标注成本,提高了语义分割的实用性。
弱监督语义分割方法可分为基于多阶段的弱监督语义分割方法和基于单阶段的弱监督语义分割方法,前者分割精度接近于全监督方法但是算法复杂性较高;后者算法复杂性较低但是分割精度相对较差。在弱监督语义分割方法中,由于无法获取图像中每个像素点的真实标注,影响分割精度的因素主要有监督信息的使用方式以及网络训练的拟合过程。
为了实现在较低复杂性条件下提高分割精度,研发人员对基于单阶段的弱监督语义分割方法进行了改进,例如,Bingfeng Zhang在2020年AAAI会议上发表的论文《Reliability Does Matter:An End-to-End Weakly Supervised SemanticSegmentation Approach》中,公开了一种基于单阶段的弱监督语义分割方法,该方法在对每幅图像进行网络训练的同时生成每幅图像的伪标签,从而使用伪标签监督网络训练生成的分割结果,在分割精度上相较于其他基于单阶段方法有了大幅提升。但是其存在的不足之处在于:由于该方法仅使用交叉熵损失对网络进行训练,忽略了网络输出中的像素间的信息传递,使得伪标签中的监督信息没有得到充分利用,此外,该方法过于依赖伪标签,当伪标签中出现错误标签时,网络训练后期会过拟合于一些伪标签中的错误标签,导致网络的分割精度逐渐下降。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出了一种基于自适应亲和力和类别分配的弱监督语义分割方法,旨在提高基于单阶段的弱监督语义分割方法的分割精度。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2;
(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层,像素分类网络包括多个卷积层;
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数Ltotal:
其中表示图像分类网络的多标签损失函数,和分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示在Ltotal上的加权因子,λ2表示在Ltotal上的加权因子,表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1, 和是表示伪标签中的两个像素点i和j相关关系的集合,表示i和j在邻域尺度为sk的情况下,类别标签均属于前景且类别标签相同,表示i和j的邻域尺度为sk的情况下,类别标签均属于背景且类别标签相同,表示伪标签中的两个像素点i和j在邻域尺度为sk的情况下,其类别标签不相同,和分别表示属于和集合中像素点的个数,和分别表示在集合和的约束下的单一分层自适应亲和力损失函数,表示计算像素分类网络输出的概率pi与pj相关关系的置信度,表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于前景的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,表示像素分类网络输出的概率pi与类别概率中心点ci的距离,表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,Na>1,和分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为At,At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,T≥105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,其中2≥R≥8;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类物体的概率,同时计算每个语义特征对应的训练图像的类激活图和初始伪标签,并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签;
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5;
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新;
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
(4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
本发明与现有技术相比,具有以下优点:
1)本发明由于在对分割模型进行迭代训练过程中,通过弱监督语义分割模型的损失函数中包含的自适应亲和力损失函数,计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系,使属于相同的类别的像素点的概率互相靠近,使属于不同的类别的像素点的概率互相远离,实现了像素分类网络输出中的像素点间的信息传递,充分利用了伪标签中的监督信息,进而提高了弱监督语义分割模型的精度。
2)本发明由于在对分割模型进行迭代训练过程中,通过弱监督语义分割模型的损失函数中包含的类别分配损失函数,计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离,使得每个像素点的概率逼近对应的目标类别的中心,缓解了网络训练后期像素点对对应伪标签中的错误标签的过拟合,提高了网络的抗干扰能力,进而提高了弱监督语义分割模型的精度。
附图说明
图1为本发明的实现流程图;
图2为仿真实验所采用的图像;
图3为本发明和现有技术分割精度的仿真结果对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤。
步骤1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2。本实施例采用国际通用数据库Pascal VOC 2012中给定的用于训练的类别标签及其对应的彩色图像作为训练样本集,S=10582,C=20。
步骤2)构建基于自适应亲和力和类别分配的弱监督语义分割模型At:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层,像素分类网络包括多个卷积层。
在本实施例中,语义特征提取网络包括十五个卷积层和四个池化层,其结构关系为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第十四卷积层→第十五卷积层,其中具体参数为:
第一、第二卷积层的卷积核大小均为3×3,卷积核数量均为64,步长均为1;
第一池化层是最大池化层,大小为3×3,步长为1;
第三、第四卷积层的卷积核大小为3×3,卷积核数量为128,步长为1;
第二池化层是最大池化层,大小为3×3,步长为2;
第五、第六和第七卷积层的卷积核大小均为3×3,卷积核数量均为256,步长均为1;
第三池化层是最大池化层,大小为3×3,步长为2;
第八、第九和第十卷积层的卷积核大小均为3×3,卷积核数量均为512,步长均为1;
第四池化层是最大池化层,大小为3×3,步长为1;
第十一、第十二和第十三卷积层的卷积核大小均为3×3,卷积核数量均为512,步长均为1,空洞率均为2;
第十四卷积层的卷积核大小为3×3,卷积核数量为1024,步长为1,空洞率为1;
第十五卷积层的卷积核大小为1×1,卷积核数量为1024,步长为1。
在本实施例中,图像分类网络具体参数为:全局平均池化层的大小为32×32;全连接层的大小为1024×20。
在本实施例中,像素分类网络包括顺次连接的两个卷积层,具体参数为:
第一卷积层的卷积核大小为3×3,卷积核数量为1024,步长为1,空洞率为12;
第二卷积层的卷积核大小为3×3,卷积核数量为21,步长为1,空洞率为12。
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal:
其中表示图像分类网络的多标签损失函数,和分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示在Ltotal上的加权因子,λ2表示在Ltotal上的加权因子,表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1, 和是表示伪标签中的两个像素点i和j相关关系的集合,表示i和j在邻域尺度为sk的情况下,类别标签均属于物体且类别标签相同,表示i和j的邻域尺度为sk类别标签均属于背景,表示伪标签中的两个像素点i和j在邻域尺度为sk情况下,其类别标签不相同,和分别表示属于和集合中像素点的个数,和分别表示在集合和的约束下的单一分层自适应亲和力损失函数,表示计算像素分类网络输出的概率pi与pj相关关系的置信度,表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于物体的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,表示像素分类网络输出的概率pi与类别概率中心点ci的距离,表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,和分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
步骤3)对基于自适应亲和力和类别分配的弱监督语义分割模型At进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,本实施例中T=105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,当训练样本集中图像数量不足R幅时,将之前选取的图像放回训练样本集之后再进行不放回随机选取,在本实施例中R=4;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类目标的概率,同时计算每个语义特征对应的训练图像的类激活图,并采用条件随机场对每个类激活图中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签,其中每幅训练图像的类激活图和伪标签的具体实现获取步骤为:
(3c1)设定图像分类网络输入层的输出为其中Nf为图像分类网络输入层的特征通道数,fi为第i个通道的特征;设定全连接层的权值参数为其中wi,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值。图像分类网络通过每个语义特征计算每幅训练图像对应的C张分布热图,每张分布热图Hc分别对应一种物体类别。Hc计算公式为:
其中,Hfg表示每幅训练图像的Hc的集合;
(3c2)定义Hc中每个点的概率值为Hc(x,y),(x,y)为该点的坐标,通过分布热图Hc计算背景分布热图Hbg,Hbg计算公式为:
其中,α表示超参数,在本实施例中,α=32。
(3c3)将除了与类别标签对应的其余Hc中的所有值全部置0,将Hbg中小于0.8的点值置0,将与类别标签对应的Hc中小于0.1的点值置0,然后将Hfg与Hbg在通道维度上进行拼接得到总分布热图H,通过H计算得到类激活图Hj,Hj计算公式为:
(3c4)采用条件随机场对Hj中物体区域的分割边缘进行优化,得到伪标签Hs。
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5,具体实现步骤为:
其中,N1表示对应的类别个数,xi表示图像分类网络在像素点i的输出,yi表示伪标签在像素点i的类别标签。
(3e3)像素分类网络使用自适应亲和力损失函数和类别分配损失函数通过每幅训练图像的类激活图和伪标签以及每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的自适应亲和力损失值和类别分配损失值像素分类网络的自适应亲和力损失值和类别分配损失值的具体计算过程为:
其中,(i,j)代表对应像素点的位置坐标,G(xi,j,xi+r,j+r)代表xi,j与其邻域像素点xi+r,j+r的伪标签相关关系。
其中,G(xi,j,xi+r,j+r)=1代表xi,j与xi+r,j+r的伪标签相同,G(xi,j,xi+r,j+r)=0代表xi,j与xi+r,j+r的伪标签不同。根据xi,j与xi+r,j+r的伪标签属于物体或者背景对进行划分得到和表示xi,j与xi+r,j+r均属于物体,表示xi,j与xi+r,j+r均属于背景。
(3e3c)根据每个邻域尺度sk下所构建的集合,计算对应集合下的损失值:
其中,在本实施例中sk∈{4,8,12,24},Nb=4。
(3e3f)根据每幅图像的伪标签和类激活图计算每幅图像存在的每个目标类别的中心ck,其公式如下:
其中,βi表示类激活图中像素点xi的值,lk表示属于目标类别k的像素点的集合,在k的集合中,0表示背景,1到C表示物体。表示xi的特征,在本实施例中为像素分类网络在xi的输出,N表示每幅图像的属于每个目标类别的像素点的个数;
(3e3g)计算每幅训练图像中每个像素点与对应训练图像中的ck的距离,在本实施例中距离计算公式为KL散度,然后选择与每个像素点距离最小的ck的目标类别作为该像素点的新的目标类别根据每幅训练图像中每个像素点新的目标类别对其进行划分得到Efg和Ebg:
(3e4)计算A的损失值L5:
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新,得到本次训练的模型At,其更新公式为:
θt'=θt-α×dθt
其中,θt'为At的参数θt的更新值,α为At的学习速率,dθt为L5对At的参数θt的导数。
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
步骤4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,图像分类网络在步骤4中不使用,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
以下结合仿真实验,对本发明的技术效果进一步说明:
1.仿真条件及内容:
仿真实验采用公共数据集PASCAL VOC 2012,该数据集包含10582张训练样本集,1456张测试样本集。
仿真所用的处理器为Xeon(R)CPU E5-2678 v3@2.50GHz×48,内存为64.00GB,GPU为12G的GeForce GTX1080Ti,仿真平台为Ubuntu16.04操作系统,使用Pytorch深度学习框架,采用Python语言实现。
图2为本次仿真所使用的测试图像,分别利用本发明和现有方法,进行语义分割算法分割精度仿真,仿真结果如图3所示,其中图3(a)为现有技术分割精度仿真结果图,图3(b)为本发明分割精度仿真结果图。
2.仿真结果分析:
从图3(a)的结果看出,现有技术分割精度的仿真结果中出现了语义混叠的现象,很多物体的部分被错误分割为了背景,而一些背景的部分被错误分割为了物体,从图3(b)可以看出,本发明极大地提高了物体与背景的分离程度。将本发明的分割精度仿真结果与真实标注结果进行比对,本发明的分割精度仿真结果的平均交并比mIoU由62.6%提高到90.4%。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (3)
1.一种基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2;
(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层和分类器,像素分类网络包括多个卷积层;
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数Ltotal:
其中表示图像分类网络的多标签损失函数,和分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示在Ltotal上的加权因子,λ2表示在Ltotal上的加权因子,表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1, 和是表示伪标签中的两个像素点i和j相关关系的集合,表示i和j在邻域尺度为sk的情况下,类别标签均属于前景且类别标签相同,表示i和j的邻域尺度为sk的情况下,类别标签均属于背景且类别标签相同,表示伪标签中的两个像素点i和j在邻域尺度为sk的情况下,其类别标签不相同,和分别表示属于和集合中像素点的个数,和分别表示在集合和的约束下的单一分层自适应亲和力损失函数,表示计算像素分类网络输出的概率pi与pj相关关系的置信度,表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于前景的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,表示像素分类网络输出的概率pi与类别概率中心点ci的距离,表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,Na>1,和分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为At,At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,T≥105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,其中2≥R≥8;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类物体的概率,同时计算每个语义特征对应的训练图像的类激活图和初始伪标签,并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签;
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5;
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新;
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
(4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
2.根据权利要求1所述的基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,步骤(3e)中所述的计算At的损失值L5,实现步骤为:
(3e3)像素分类网络使用自适应亲和力损失函数和类别分配损失函数通过每幅训练图像的类激活图和伪标签以及每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的自适应亲和力损失值和类别分配损失值
(3e4)计算A的损失值L5:
3.根据权利要求1所述的基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,步骤(3f)中所述的梯度下降法,其更新公式为:
θt'=θt-α×dθt
其中,θt'为At的参数θt的更新值,α为At的学习速率,dθt为L5对At的参数θt的导数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550953.7A CN112668579A (zh) | 2020-12-24 | 2020-12-24 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011550953.7A CN112668579A (zh) | 2020-12-24 | 2020-12-24 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112668579A true CN112668579A (zh) | 2021-04-16 |
Family
ID=75409997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011550953.7A Pending CN112668579A (zh) | 2020-12-24 | 2020-12-24 | 基于自适应亲和力和类别分配的弱监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668579A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269778A (zh) * | 2021-06-21 | 2021-08-17 | 复旦大学 | 基于迭代的图像弱监督分割方法 |
CN113436204A (zh) * | 2021-06-10 | 2021-09-24 | 中国地质大学(武汉) | 一种高分辨率遥感影像弱监督建筑物提取方法 |
CN113642663A (zh) * | 2021-08-24 | 2021-11-12 | 中国水利水电科学研究院 | 一种卫星遥感影像水体提取方法 |
CN113705647A (zh) * | 2021-08-19 | 2021-11-26 | 电子科技大学 | 一种基于动态间隔的双重语义特征提取方法 |
CN113780477A (zh) * | 2021-10-11 | 2021-12-10 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的眼底图像的测量方法及测量装置 |
CN114049056A (zh) * | 2022-01-14 | 2022-02-15 | 海门市金球体育用品有限公司 | 基于消防风险评估的健身房管理方法及系统 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114882279A (zh) * | 2022-05-10 | 2022-08-09 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114898098A (zh) * | 2022-06-27 | 2022-08-12 | 北京航空航天大学 | 脑组织图像分割方法 |
CN115512169A (zh) * | 2022-11-09 | 2022-12-23 | 之江实验室 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
CN116363372A (zh) * | 2023-06-01 | 2023-06-30 | 之江实验室 | 弱监督语义分割方法、装置、设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132769A1 (en) * | 2015-11-05 | 2017-05-11 | Google Inc. | Edge-Aware Bilateral Image Processing |
CN108038465A (zh) * | 2017-12-25 | 2018-05-15 | 深圳市唯特视科技有限公司 | 一种基于合成数据集的三维多人物姿态估计 |
CN109740465A (zh) * | 2018-12-24 | 2019-05-10 | 南京理工大学 | 一种基于实例分割神经网络框架的车道线检测算法 |
US20190156154A1 (en) * | 2017-11-21 | 2019-05-23 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110163239A (zh) * | 2019-01-25 | 2019-08-23 | 太原理工大学 | 一种基于超像素和条件随机场的弱监督图像语义分割方法 |
WO2019197021A1 (en) * | 2018-04-10 | 2019-10-17 | Huawei Technologies Co., Ltd. | Device and method for instance-level segmentation of an image |
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
CN111860216A (zh) * | 2020-06-30 | 2020-10-30 | 西安工程大学 | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 |
CN112101364A (zh) * | 2020-09-10 | 2020-12-18 | 西安电子科技大学 | 基于参数重要性增量学习的语义分割方法 |
-
2020
- 2020-12-24 CN CN202011550953.7A patent/CN112668579A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132769A1 (en) * | 2015-11-05 | 2017-05-11 | Google Inc. | Edge-Aware Bilateral Image Processing |
US20190156154A1 (en) * | 2017-11-21 | 2019-05-23 | Nvidia Corporation | Training a neural network to predict superpixels using segmentation-aware affinity loss |
CN108038465A (zh) * | 2017-12-25 | 2018-05-15 | 深圳市唯特视科技有限公司 | 一种基于合成数据集的三维多人物姿态估计 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
WO2019197021A1 (en) * | 2018-04-10 | 2019-10-17 | Huawei Technologies Co., Ltd. | Device and method for instance-level segmentation of an image |
CN109801307A (zh) * | 2018-12-17 | 2019-05-24 | 中国科学院深圳先进技术研究院 | 一种全景分割方法、装置及设备 |
CN109740465A (zh) * | 2018-12-24 | 2019-05-10 | 南京理工大学 | 一种基于实例分割神经网络框架的车道线检测算法 |
CN110163239A (zh) * | 2019-01-25 | 2019-08-23 | 太原理工大学 | 一种基于超像素和条件随机场的弱监督图像语义分割方法 |
WO2020156303A1 (zh) * | 2019-01-30 | 2020-08-06 | 广州市百果园信息技术有限公司 | 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质 |
CN111860216A (zh) * | 2020-06-30 | 2020-10-30 | 西安工程大学 | 一种结合注意力机制和部分亲和域场的人体姿态估计方法 |
CN112101364A (zh) * | 2020-09-10 | 2020-12-18 | 西安电子科技大学 | 基于参数重要性增量学习的语义分割方法 |
Non-Patent Citations (3)
Title |
---|
JIWOON AHN 等,: "Learning Pixel-Level Semantic Affinity with Image-Level Supervision for Weakly Supervised Semantic Segmentation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
张志超,: "安全帽佩戴检测方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 * |
李宾皑 等,: "弱监督学习语义分割方法综述", 《数字通信世界》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436204A (zh) * | 2021-06-10 | 2021-09-24 | 中国地质大学(武汉) | 一种高分辨率遥感影像弱监督建筑物提取方法 |
CN113269778A (zh) * | 2021-06-21 | 2021-08-17 | 复旦大学 | 基于迭代的图像弱监督分割方法 |
CN113705647B (zh) * | 2021-08-19 | 2023-04-28 | 电子科技大学 | 一种基于动态间隔的双重语义特征提取方法 |
CN113705647A (zh) * | 2021-08-19 | 2021-11-26 | 电子科技大学 | 一种基于动态间隔的双重语义特征提取方法 |
CN113642663A (zh) * | 2021-08-24 | 2021-11-12 | 中国水利水电科学研究院 | 一种卫星遥感影像水体提取方法 |
CN113642663B (zh) * | 2021-08-24 | 2022-03-22 | 中国水利水电科学研究院 | 一种卫星遥感影像水体提取方法 |
CN113780477A (zh) * | 2021-10-11 | 2021-12-10 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的眼底图像的测量方法及测量装置 |
CN113780477B (zh) * | 2021-10-11 | 2022-07-22 | 深圳硅基智能科技有限公司 | 基于紧框标的深度学习的眼底图像的测量方法及测量装置 |
CN114049056A (zh) * | 2022-01-14 | 2022-02-15 | 海门市金球体育用品有限公司 | 基于消防风险评估的健身房管理方法及系统 |
CN114049056B (zh) * | 2022-01-14 | 2022-04-08 | 海门市金球体育用品有限公司 | 基于消防风险评估的健身房管理方法及系统 |
CN114677515A (zh) * | 2022-04-25 | 2022-06-28 | 电子科技大学 | 基于类间相似性的弱监督语义分割方法 |
CN114882279A (zh) * | 2022-05-10 | 2022-08-09 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114882279B (zh) * | 2022-05-10 | 2024-03-19 | 西安理工大学 | 基于直推式半监督深度学习的多标签图像分类方法 |
CN114898098A (zh) * | 2022-06-27 | 2022-08-12 | 北京航空航天大学 | 脑组织图像分割方法 |
CN114898098B (zh) * | 2022-06-27 | 2024-04-19 | 北京航空航天大学 | 脑组织图像分割方法 |
CN115512169A (zh) * | 2022-11-09 | 2022-12-23 | 之江实验室 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
CN115512169B (zh) * | 2022-11-09 | 2023-07-25 | 之江实验室 | 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 |
CN116363372A (zh) * | 2023-06-01 | 2023-06-30 | 之江实验室 | 弱监督语义分割方法、装置、设备和存储介质 |
CN116363372B (zh) * | 2023-06-01 | 2023-08-15 | 之江实验室 | 弱监督语义分割方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668579A (zh) | 基于自适应亲和力和类别分配的弱监督语义分割方法 | |
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
US10354392B2 (en) | Image guided video semantic object segmentation method and apparatus | |
CN109325547A (zh) | 非机动车图像多标签分类方法、系统、设备及存储介质 | |
CN110598029A (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN111539480B (zh) | 多类别医学图像识别方法及设备 | |
CN109102498B (zh) | 一种宫颈涂片图像中簇型细胞核分割的方法 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
CN110175657B (zh) | 一种图像多标签标记方法、装置、设备及可读存储介质 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN111931867B (zh) | 基于轻量级模型的新冠肺炎x射线图像分类方法及系统 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN110490894A (zh) | 基于改进的低秩稀疏分解的视频前背景分离方法 | |
CN111524140B (zh) | 基于cnn和随机森林法的医学图像语义分割方法 | |
CN114863348A (zh) | 基于自监督的视频目标分割方法 | |
CN115292532A (zh) | 基于伪标签一致性学习的遥感图像域适应检索方法 | |
CN114170446A (zh) | 一种基于深层融合神经网络的温度、亮度特征提取方法 | |
CN110807159B (zh) | 数据标记方法、装置、存储介质及电子设备 | |
CN117152438A (zh) | 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法 | |
CN107452001A (zh) | 一种基于改进fcm算法的遥感图像序列分割方法 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 | |
CN113724195B (zh) | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210416 |
|
WD01 | Invention patent application deemed withdrawn after publication |