CN112668579A - 基于自适应亲和力和类别分配的弱监督语义分割方法 - Google Patents

基于自适应亲和力和类别分配的弱监督语义分割方法 Download PDF

Info

Publication number
CN112668579A
CN112668579A CN202011550953.7A CN202011550953A CN112668579A CN 112668579 A CN112668579 A CN 112668579A CN 202011550953 A CN202011550953 A CN 202011550953A CN 112668579 A CN112668579 A CN 112668579A
Authority
CN
China
Prior art keywords
class
pixel
semantic segmentation
classification network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011550953.7A
Other languages
English (en)
Inventor
张向荣
彭泽林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011550953.7A priority Critical patent/CN112668579A/zh
Publication of CN112668579A publication Critical patent/CN112668579A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出一种基于自适应亲和力和类别分配的弱监督语义分割方法,用于解决现有技术中存在的分割精度较低的技术问题,实现步骤为:获取训练样本集和测试样本集;构建基于自适应亲和力和类别分配的弱监督语义分割模型;对基于自适应亲和力和类别分配的弱监督语义分割模型进行迭代训练;获得语义分割结果。本发明通过使用自适应亲和力损失,计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系,实现了像素点间的信息传递,充分利用了可用的监督信息,同时通过使用类别分配损失,计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离,缓解了网络训练后期对于错误标签的过拟合,提高了网络的抗干扰能力。

Description

基于自适应亲和力和类别分配的弱监督语义分割方法
技术领域
本发明属于图像处理技术领域,涉及一种弱监督语义分割方法,具体涉及一种基于自适应亲和力和类别分配的弱监督语义分割方法,可用于自动驾驶,场景理解及自动抠图。
背景技术
语义分割是指将图像分割为若干个具有某种特定语义含义的像素区域,并识别出每个区域的目标类别,最终获得一幅具有像素语义标注的图像,从而实现对图像内容的充分理解,被广泛应用于自动驾驶、场景理解等领域。
表征语义分割方法的指标主要有实用性、分割精度和算法复杂性。语义分割方法一般分为传统语义分割方法和基于深度学习的语义分割方法,相比于传统方法,基于深度学习的语义分割方法分割精度高,算法复杂性低,因此得到了广泛关注。根据所给的监督信息不同,基于深度学习的语义分割方法可分为基于有监督的语义分割方法和基于无监督的语义分割方法,相比于基于无监督的语义分割方法,基于有监督的语义分割方法使用了更多的监督信息,有效提高了分割精度。有监督语义分割方法可分为基于全监督的语义分割方法和基于弱监督的语义分割方法。基于全监督的语义分割方法具有较高的分割精度和较低的算法复杂性,但是在基于全监督的语义分割方法的实际应用中,需要获取应用场景下的大量图像作为训练数据,并对这些训练图像进行逐像素的人工标注,标注出图像中每个像素点对应的目标类别,这种昂贵的标注方式需要消耗大量的人力和时间,当应用到新的场景中,需要重新获取大量图像及其像素级标注的数据用于网络训练,实用性较差。基于弱监督的语义分割方法能够使用图像的类别标签而不是大量像素级手工标注进行网络训练,从而大幅度地降低标注成本,提高了语义分割的实用性。
弱监督语义分割方法可分为基于多阶段的弱监督语义分割方法和基于单阶段的弱监督语义分割方法,前者分割精度接近于全监督方法但是算法复杂性较高;后者算法复杂性较低但是分割精度相对较差。在弱监督语义分割方法中,由于无法获取图像中每个像素点的真实标注,影响分割精度的因素主要有监督信息的使用方式以及网络训练的拟合过程。
为了实现在较低复杂性条件下提高分割精度,研发人员对基于单阶段的弱监督语义分割方法进行了改进,例如,Bingfeng Zhang在2020年AAAI会议上发表的论文《Reliability Does Matter:An End-to-End Weakly Supervised SemanticSegmentation Approach》中,公开了一种基于单阶段的弱监督语义分割方法,该方法在对每幅图像进行网络训练的同时生成每幅图像的伪标签,从而使用伪标签监督网络训练生成的分割结果,在分割精度上相较于其他基于单阶段方法有了大幅提升。但是其存在的不足之处在于:由于该方法仅使用交叉熵损失对网络进行训练,忽略了网络输出中的像素间的信息传递,使得伪标签中的监督信息没有得到充分利用,此外,该方法过于依赖伪标签,当伪标签中出现错误标签时,网络训练后期会过拟合于一些伪标签中的错误标签,导致网络的分割精度逐渐下降。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提出了一种基于自适应亲和力和类别分配的弱监督语义分割方法,旨在提高基于单阶段的弱监督语义分割方法的分割精度。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2;
(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层,像素分类网络包括多个卷积层;
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数Ltotal
Figure BDA0002857911970000031
Figure BDA0002857911970000032
Figure BDA0002857911970000033
Figure BDA0002857911970000034
Figure BDA0002857911970000035
Figure BDA0002857911970000036
Figure BDA0002857911970000037
Figure BDA0002857911970000038
Figure BDA0002857911970000039
其中
Figure BDA00028579119700000310
表示图像分类网络的多标签损失函数,
Figure BDA00028579119700000311
Figure BDA00028579119700000312
分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示
Figure BDA00028579119700000313
在Ltotal上的加权因子,λ2表示
Figure BDA00028579119700000314
在Ltotal上的加权因子,
Figure BDA00028579119700000315
表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1,
Figure BDA00028579119700000316
Figure BDA00028579119700000317
Figure BDA00028579119700000318
是表示伪标签中的两个像素点i和j相关关系的集合,
Figure BDA00028579119700000319
表示i和j在邻域尺度为sk的情况下,类别标签均属于前景且类别标签相同,
Figure BDA00028579119700000320
表示i和j的邻域尺度为sk的情况下,类别标签均属于背景且类别标签相同,
Figure BDA00028579119700000321
表示伪标签中的两个像素点i和j在邻域尺度为sk的情况下,其类别标签不相同,
Figure BDA00028579119700000322
Figure BDA00028579119700000323
分别表示属于
Figure BDA00028579119700000324
Figure BDA00028579119700000325
集合中像素点的个数,
Figure BDA00028579119700000326
Figure BDA00028579119700000327
分别表示在集合
Figure BDA00028579119700000328
Figure BDA00028579119700000329
的约束下的单一分层自适应亲和力损失函数,
Figure BDA00028579119700000330
表示计算像素分类网络输出的概率pi与pj相关关系的置信度,
Figure BDA0002857911970000041
表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于前景的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,
Figure BDA0002857911970000042
表示像素分类网络输出的概率pi与类别概率中心点ci的距离,
Figure BDA0002857911970000043
表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,Na>1,
Figure BDA0002857911970000044
Figure BDA0002857911970000045
分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为At,At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,T≥105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,其中2≥R≥8;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类物体的概率,同时计算每个语义特征对应的训练图像的类激活图和初始伪标签,并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签;
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新;
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
(4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
本发明与现有技术相比,具有以下优点:
1)本发明由于在对分割模型进行迭代训练过程中,通过弱监督语义分割模型的损失函数中包含的自适应亲和力损失函数,计算一定邻域内的像素分割网络输出的每个像素点的概率之间的相关关系,使属于相同的类别的像素点的概率互相靠近,使属于不同的类别的像素点的概率互相远离,实现了像素分类网络输出中的像素点间的信息传递,充分利用了伪标签中的监督信息,进而提高了弱监督语义分割模型的精度。
2)本发明由于在对分割模型进行迭代训练过程中,通过弱监督语义分割模型的损失函数中包含的类别分配损失函数,计算像素分割网络输出的每个像素点的概率与每个目标类别概率的中心点的距离,使得每个像素点的概率逼近对应的目标类别的中心,缓解了网络训练后期像素点对对应伪标签中的错误标签的过拟合,提高了网络的抗干扰能力,进而提高了弱监督语义分割模型的精度。
附图说明
图1为本发明的实现流程图;
图2为仿真实验所采用的图像;
图3为本发明和现有技术分割精度的仿真结果对比图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤。
步骤1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2。本实施例采用国际通用数据库Pascal VOC 2012中给定的用于训练的类别标签及其对应的彩色图像作为训练样本集,S=10582,C=20。
步骤2)构建基于自适应亲和力和类别分配的弱监督语义分割模型At
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层,像素分类网络包括多个卷积层。
在本实施例中,语义特征提取网络包括十五个卷积层和四个池化层,其结构关系为:第一卷积层→第二卷积层→第一池化层→第三卷积层→第四卷积层→第二池化层→第五卷积层→第六卷积层→第七卷积层→第三池化层→第八卷积层→第九卷积层→第十卷积层→第四池化层→第十一卷积层→第十二卷积层→第十三卷积层→第十四卷积层→第十五卷积层,其中具体参数为:
第一、第二卷积层的卷积核大小均为3×3,卷积核数量均为64,步长均为1;
第一池化层是最大池化层,大小为3×3,步长为1;
第三、第四卷积层的卷积核大小为3×3,卷积核数量为128,步长为1;
第二池化层是最大池化层,大小为3×3,步长为2;
第五、第六和第七卷积层的卷积核大小均为3×3,卷积核数量均为256,步长均为1;
第三池化层是最大池化层,大小为3×3,步长为2;
第八、第九和第十卷积层的卷积核大小均为3×3,卷积核数量均为512,步长均为1;
第四池化层是最大池化层,大小为3×3,步长为1;
第十一、第十二和第十三卷积层的卷积核大小均为3×3,卷积核数量均为512,步长均为1,空洞率均为2;
第十四卷积层的卷积核大小为3×3,卷积核数量为1024,步长为1,空洞率为1;
第十五卷积层的卷积核大小为1×1,卷积核数量为1024,步长为1。
在本实施例中,图像分类网络具体参数为:全局平均池化层的大小为32×32;全连接层的大小为1024×20。
在本实施例中,像素分类网络包括顺次连接的两个卷积层,具体参数为:
第一卷积层的卷积核大小为3×3,卷积核数量为1024,步长为1,空洞率为12;
第二卷积层的卷积核大小为3×3,卷积核数量为21,步长为1,空洞率为12。
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal
Figure BDA0002857911970000071
Figure BDA0002857911970000072
Figure BDA0002857911970000073
Figure BDA0002857911970000074
Figure BDA0002857911970000075
Figure BDA0002857911970000076
Figure BDA0002857911970000077
Figure BDA0002857911970000078
Figure BDA0002857911970000079
其中
Figure BDA00028579119700000710
表示图像分类网络的多标签损失函数,
Figure BDA00028579119700000711
Figure BDA00028579119700000712
分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示
Figure BDA0002857911970000081
在Ltotal上的加权因子,λ2表示
Figure BDA0002857911970000082
在Ltotal上的加权因子,
Figure BDA0002857911970000083
表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1,
Figure BDA0002857911970000084
Figure BDA0002857911970000085
Figure BDA0002857911970000086
是表示伪标签中的两个像素点i和j相关关系的集合,
Figure BDA0002857911970000087
表示i和j在邻域尺度为sk的情况下,类别标签均属于物体且类别标签相同,
Figure BDA0002857911970000088
表示i和j的邻域尺度为sk类别标签均属于背景,
Figure BDA0002857911970000089
表示伪标签中的两个像素点i和j在邻域尺度为sk情况下,其类别标签不相同,
Figure BDA00028579119700000810
Figure BDA00028579119700000811
分别表示属于
Figure BDA00028579119700000812
Figure BDA00028579119700000813
集合中像素点的个数,
Figure BDA00028579119700000814
Figure BDA00028579119700000815
分别表示在集合
Figure BDA00028579119700000816
Figure BDA00028579119700000817
的约束下的单一分层自适应亲和力损失函数,
Figure BDA00028579119700000818
表示计算像素分类网络输出的概率pi与pj相关关系的置信度,
Figure BDA00028579119700000819
表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于物体的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,
Figure BDA00028579119700000820
表示像素分类网络输出的概率pi与类别概率中心点ci的距离,
Figure BDA00028579119700000821
表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,
Figure BDA00028579119700000822
Figure BDA00028579119700000823
分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
步骤3)对基于自适应亲和力和类别分配的弱监督语义分割模型At进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,本实施例中T=105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,当训练样本集中图像数量不足R幅时,将之前选取的图像放回训练样本集之后再进行不放回随机选取,在本实施例中R=4;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类目标的概率,同时计算每个语义特征对应的训练图像的类激活图,并采用条件随机场对每个类激活图中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签,其中每幅训练图像的类激活图和伪标签的具体实现获取步骤为:
(3c1)设定图像分类网络输入层的输出为
Figure BDA0002857911970000091
其中Nf为图像分类网络输入层的特征通道数,fi为第i个通道的特征;设定全连接层的权值参数为
Figure BDA0002857911970000092
其中wi,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值。图像分类网络通过每个语义特征计算每幅训练图像对应的C张分布热图,每张分布热图Hc分别对应一种物体类别。Hc计算公式为:
Figure BDA0002857911970000093
其中,Hfg表示每幅训练图像的Hc的集合;
(3c2)定义Hc中每个点的概率值为Hc(x,y),(x,y)为该点的坐标,通过分布热图Hc计算背景分布热图Hbg,Hbg计算公式为:
Figure BDA0002857911970000094
其中,α表示超参数,在本实施例中,α=32。
(3c3)将除了与类别标签对应的其余Hc中的所有值全部置0,将Hbg中小于0.8的点值置0,将与类别标签对应的Hc中小于0.1的点值置0,然后将Hfg与Hbg在通道维度上进行拼接得到总分布热图H,通过H计算得到类激活图Hj,Hj计算公式为:
Figure BDA0002857911970000095
(3c4)采用条件随机场对Hj中物体区域的分割边缘进行优化,得到伪标签Hs
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5,具体实现步骤为:
(3e1)图像分类网络使用多标签损失函数
Figure BDA0002857911970000101
并通过每幅训练图像的类别标签和属于C类物体的概率,计算图像分类网络损失值
Figure BDA0002857911970000102
其计算公式为:
Figure BDA0002857911970000103
其中,N1表示对应的类别个数,xi表示图像分类网络在像素点i的输出,yi表示伪标签在像素点i的类别标签。
(3e2)像素分类网络使用交叉熵损失函数
Figure BDA0002857911970000104
并通过每幅训练图像的伪标签和每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的交叉熵损失值
Figure BDA0002857911970000105
Figure BDA0002857911970000106
其中,
Figure BDA0002857911970000107
表示训练图像在像素点xi1的真实类标,yi表示像素分类网络在像素点xi1的输出结果,N×N表示输入图像的大小。
(3e3)像素分类网络使用自适应亲和力损失函数
Figure BDA0002857911970000108
和类别分配损失函数
Figure BDA0002857911970000109
通过每幅训练图像的类激活图和伪标签以及每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的自适应亲和力损失值
Figure BDA00028579119700001010
和类别分配损失值
Figure BDA00028579119700001011
像素分类网络的自适应亲和力损失值
Figure BDA00028579119700001012
和类别分配损失值
Figure BDA00028579119700001013
的具体计算过程为:
(3e3a)根据邻域尺度sk,为每幅训练图像构建对应邻域尺度下的亲和力集合
Figure BDA0002857911970000111
Figure BDA0002857911970000112
其中,(i,j)代表对应像素点的位置坐标,G(xi,j,xi+r,j+r)代表xi,j与其邻域像素点xi+r,j+r的伪标签相关关系。
(3e3b)根据xi,j与xi+r,j+r的伪标签的相关关系对
Figure BDA0002857911970000113
进行划分得到
Figure BDA0002857911970000114
Figure BDA0002857911970000115
Figure BDA0002857911970000116
Figure BDA0002857911970000117
其中,G(xi,j,xi+r,j+r)=1代表xi,j与xi+r,j+r的伪标签相同,G(xi,j,xi+r,j+r)=0代表xi,j与xi+r,j+r的伪标签不同。根据xi,j与xi+r,j+r的伪标签属于物体或者背景对
Figure BDA0002857911970000118
进行划分得到
Figure BDA0002857911970000119
Figure BDA00028579119700001110
表示xi,j与xi+r,j+r均属于物体,
Figure BDA00028579119700001111
表示xi,j与xi+r,j+r均属于背景。
(3e3c)根据每个邻域尺度sk下所构建的集合,计算对应集合下的损失值:
Figure BDA00028579119700001112
Figure BDA00028579119700001113
Figure BDA00028579119700001114
其中,在本实施例中,
Figure BDA00028579119700001115
为KL散度,m为3,
Figure BDA00028579119700001116
为xi,j和xi+r,j+r在类激活图中对应概率的较小值。
(3e3d)根据(3e3c)中得到的损失值
Figure BDA00028579119700001117
Figure BDA00028579119700001118
计算单一自适应亲和力损失值
Figure BDA00028579119700001119
Figure BDA00028579119700001120
(3e3e)根据(3e3d)中得到的单一自适应亲和力损失值
Figure BDA0002857911970000121
计算自适应亲和力损失值
Figure BDA0002857911970000122
Figure BDA0002857911970000123
其中,在本实施例中sk∈{4,8,12,24},Nb=4。
(3e3f)根据每幅图像的伪标签和类激活图计算每幅图像存在的每个目标类别的中心ck,其公式如下:
Figure BDA0002857911970000124
其中,βi表示类激活图中像素点xi的值,lk表示属于目标类别k的像素点的集合,在k的集合中,0表示背景,1到C表示物体。
Figure BDA0002857911970000125
表示xi的特征,在本实施例中
Figure BDA0002857911970000126
为像素分类网络在xi的输出,N表示每幅图像的属于每个目标类别的像素点的个数;
(3e3g)计算每幅训练图像中每个像素点与对应训练图像中的ck的距离,在本实施例中距离计算公式为KL散度,然后选择与每个像素点距离最小的ck的目标类别作为该像素点的新的目标类别
Figure BDA0002857911970000127
根据每幅训练图像中每个像素点新的目标类别对其进行划分得到Efg和Ebg
Figure BDA0002857911970000128
Figure BDA0002857911970000129
(3e3h)根据(3e3g)中所构建的集合,计算对应集合下的层次类别分配损失值
Figure BDA00028579119700001210
Figure BDA00028579119700001211
其公式如下:
Figure BDA00028579119700001310
Figure BDA0002857911970000131
其中
Figure BDA0002857911970000132
表示xi与对应目标类别中心点ci的距离,在本实施例中为KL散度,αi表示置信度,其表示如下:
Figure BDA0002857911970000133
其中,
Figure BDA0002857911970000134
表示像素点xi与次近的中心点cj的距离。
根据层次类别分配损失值计算得到类别分配损失值
Figure BDA0002857911970000135
其计算公式如下:
Figure BDA0002857911970000136
(3e4)计算A的损失值L5
Figure BDA0002857911970000137
其中,λ1表示
Figure BDA0002857911970000138
在L5上的加权因子,λ2表示
Figure BDA0002857911970000139
在L5上的加权因子,在本实例中,λ1=0.1,λ2=0.1。
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新,得到本次训练的模型At,其更新公式为:
θt'=θt-α×dθt
其中,θt'为At的参数θt的更新值,α为At的学习速率,dθt为L5对At的参数θt的导数。
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
步骤4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,图像分类网络在步骤4中不使用,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
以下结合仿真实验,对本发明的技术效果进一步说明:
1.仿真条件及内容:
仿真实验采用公共数据集PASCAL VOC 2012,该数据集包含10582张训练样本集,1456张测试样本集。
仿真所用的处理器为
Figure BDA0002857911970000141
Xeon(R)CPU E5-2678 v3@2.50GHz×48,内存为64.00GB,GPU为12G的GeForce GTX1080Ti,仿真平台为Ubuntu16.04操作系统,使用Pytorch深度学习框架,采用Python语言实现。
图2为本次仿真所使用的测试图像,分别利用本发明和现有方法,进行语义分割算法分割精度仿真,仿真结果如图3所示,其中图3(a)为现有技术分割精度仿真结果图,图3(b)为本发明分割精度仿真结果图。
2.仿真结果分析:
从图3(a)的结果看出,现有技术分割精度的仿真结果中出现了语义混叠的现象,很多物体的部分被错误分割为了背景,而一些背景的部分被错误分割为了物体,从图3(b)可以看出,本发明极大地提高了物体与背景的分离程度。将本发明的分割精度仿真结果与真实标注结果进行比对,本发明的分割精度仿真结果的平均交并比mIoU由62.6%提高到90.4%。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (3)

1.一种基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
对共包含C个物体类别的S幅彩色图像中半数以上彩色图像的物体类别进行标注,并将类别标签及其对应的彩色图像作为训练样本集,将其余部分彩色图像作为测试样本集,其中S≥5000,C>2;
(2)构建基于自适应亲和力和类别分配的弱监督语义分割模型A:
(2a)构建包括顺次连接的语义特征提取网络和分类网络的基于自适应亲和力和类别分配的弱监督语义分割模型A,其中语义特征提取网络包括多个卷积层和多个池化层;分类网络包含并行连接的图像分类网络以及像素分类网络,图像分类网络包括顺次连接的全局平均池化层和全连接层和分类器,像素分类网络包括多个卷积层;
(2b)定义基于自适应亲和力和类别分配的弱监督语义分割模型A的损失函数Ltotal
Figure FDA0002857911960000011
Figure FDA0002857911960000012
Figure FDA0002857911960000013
Figure FDA0002857911960000014
Figure FDA0002857911960000015
Figure FDA0002857911960000016
Figure FDA0002857911960000021
Figure FDA0002857911960000022
Figure FDA0002857911960000023
其中
Figure FDA0002857911960000024
表示图像分类网络的多标签损失函数,
Figure FDA0002857911960000025
Figure FDA0002857911960000026
分别表示像素分类网络的交叉熵损失函数、自适应亲和力损失函数和类别分配损失函数,λ1表示
Figure FDA0002857911960000027
在Ltotal上的加权因子,λ2表示
Figure FDA0002857911960000028
在Ltotal上的加权因子,
Figure FDA0002857911960000029
表示在sk邻域尺度下的单一自适应亲和力损失函数,Nb表示邻域尺度的个数,Nb>1,
Figure FDA00028579119600000210
Figure FDA00028579119600000211
Figure FDA00028579119600000212
是表示伪标签中的两个像素点i和j相关关系的集合,
Figure FDA00028579119600000213
表示i和j在邻域尺度为sk的情况下,类别标签均属于前景且类别标签相同,
Figure FDA00028579119600000214
表示i和j的邻域尺度为sk的情况下,类别标签均属于背景且类别标签相同,
Figure FDA00028579119600000215
表示伪标签中的两个像素点i和j在邻域尺度为sk的情况下,其类别标签不相同,
Figure FDA00028579119600000216
Figure FDA00028579119600000217
分别表示属于
Figure FDA00028579119600000218
Figure FDA00028579119600000219
集合中像素点的个数,
Figure FDA00028579119600000220
Figure FDA00028579119600000221
分别表示在集合
Figure FDA00028579119600000222
Figure FDA00028579119600000223
的约束下的单一分层自适应亲和力损失函数,
Figure FDA00028579119600000224
表示计算像素分类网络输出的概率pi与pj相关关系的置信度,
Figure FDA00028579119600000225
表示pi与pj的相似度,max表示求最大值,Efg表示类别分配后伪标签中的像素点xi属于前景的集合,Ebg表示类别分配后伪标签中的像素点xi属于背景的集合,|Ebg|表示属于Ebg集合中像素点的个数,|Efg|表示属于Efg集合中的像素点的个数,αi表示像素点xi的类别分配置信度,
Figure FDA00028579119600000226
表示像素分类网络输出的概率pi与类别概率中心点ci的距离,
Figure FDA00028579119600000227
表示像素分类网络输出的概率pi与类别概率中心点ck的距离,Na表示每幅训练图像中对应的类别标签个数,Na>1,
Figure FDA0002857911960000031
Figure FDA0002857911960000032
分别表示在集合Efg和Ebg的约束下的分层类别分配损失函数;exp表示以自然常数e为底的指数函数,log表示以自然常数e为底的对数函数;
(3)对基于自适应亲和力和类别分配的弱监督语义分割模型A进行迭代训练:
(3a)初始化基于自适应亲和力和类别分配的弱监督语义分割模型A为At,At的权重为在ImageNet数据集上使用骨干网络VGG16训练的分类模型的权重θt,学习速率为α,迭代次数为t,最大迭代次数为T,T≥105,并令t=0,α=0.0001;
(3b)将从训练样本集不放回随机选取的R幅训练图像作为基于自适应亲和力和类别分配的弱监督语义分割模型At的输入进行前向传播,语义特征提取网络提取每幅训练图像的语义特征,其中2≥R≥8;
(3c)图像分类网络对每个语义特征进行图像分类,得到每幅训练图像属于C类物体的概率,同时计算每个语义特征对应的训练图像的类激活图和初始伪标签,并采用条件随机场对每个初始伪标签中物体区域的分割边缘进行优化,得到图像分类网络输出的每幅训练图像的类激活图和伪标签;
(3d)像素分类网络对每个语义特征进行像素分类,得到每幅训练图像中每个像素属于C+1类目标的概率;
(3e)采用基于自适应亲和力和类别分配的弱监督语义分割模型At的损失函数Ltotal,并通过训练样本集中的类别标签,以及步骤(3c)和(3d)的输出结果,计算At的损失值L5
(3f)采用梯度下降法,并通过At的损失值L5对At的权重θt进行更新;
(3g)判断t≥T是否成立,若是,得到训练后的弱监督语义分割模型A',否则,令t=t+1,并执行步骤(3b);
(4)获取语义分割结果:
将测试样本集中的每幅测试图像作为训练后的弱监督语义分割模型A'的输入进行前向传播,语义特征提取网络提取每幅测试图像的语义特征,像素分类网络对每个语义特征进行像素分类,得到每幅测试图像中每个像素属于C+1类目标的概率,并选择其中最大概率对应的目标类别作为每幅测试图像中每个像素的语义标注,最终获得具有像素语义标注的图像作为语义分割结果。
2.根据权利要求1所述的基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,步骤(3e)中所述的计算At的损失值L5,实现步骤为:
(3e1)图像分类网络使用多标签损失函数
Figure FDA0002857911960000041
并通过每幅训练图像的类别标签和属于C类物体的概率,计算图像分类网络损失值
Figure FDA0002857911960000042
(3e2)像素分类网络使用交叉熵损失函数
Figure FDA0002857911960000043
并通过每幅训练图像的伪标签和每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的交叉熵损失值
Figure FDA0002857911960000044
(3e3)像素分类网络使用自适应亲和力损失函数
Figure FDA0002857911960000045
和类别分配损失函数
Figure FDA0002857911960000046
通过每幅训练图像的类激活图和伪标签以及每幅训练图像中每个像素属于C+1类目标的概率,计算像素分类网络的自适应亲和力损失值
Figure FDA0002857911960000047
和类别分配损失值
Figure FDA0002857911960000048
(3e4)计算A的损失值L5
Figure FDA0002857911960000049
3.根据权利要求1所述的基于自适应亲和力和类别分配的弱监督语义分割方法,其特征在于,步骤(3f)中所述的梯度下降法,其更新公式为:
θt'=θt-α×dθt
其中,θt'为At的参数θt的更新值,α为At的学习速率,dθt为L5对At的参数θt的导数。
CN202011550953.7A 2020-12-24 2020-12-24 基于自适应亲和力和类别分配的弱监督语义分割方法 Pending CN112668579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011550953.7A CN112668579A (zh) 2020-12-24 2020-12-24 基于自适应亲和力和类别分配的弱监督语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011550953.7A CN112668579A (zh) 2020-12-24 2020-12-24 基于自适应亲和力和类别分配的弱监督语义分割方法

Publications (1)

Publication Number Publication Date
CN112668579A true CN112668579A (zh) 2021-04-16

Family

ID=75409997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011550953.7A Pending CN112668579A (zh) 2020-12-24 2020-12-24 基于自适应亲和力和类别分配的弱监督语义分割方法

Country Status (1)

Country Link
CN (1) CN112668579A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269778A (zh) * 2021-06-21 2021-08-17 复旦大学 基于迭代的图像弱监督分割方法
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
CN113642663A (zh) * 2021-08-24 2021-11-12 中国水利水电科学研究院 一种卫星遥感影像水体提取方法
CN113705647A (zh) * 2021-08-19 2021-11-26 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN113780477A (zh) * 2021-10-11 2021-12-10 深圳硅基智能科技有限公司 基于紧框标的深度学习的眼底图像的测量方法及测量装置
CN114049056A (zh) * 2022-01-14 2022-02-15 海门市金球体育用品有限公司 基于消防风险评估的健身房管理方法及系统
CN114677515A (zh) * 2022-04-25 2022-06-28 电子科技大学 基于类间相似性的弱监督语义分割方法
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN114898098A (zh) * 2022-06-27 2022-08-12 北京航空航天大学 脑组织图像分割方法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
CN116363372A (zh) * 2023-06-01 2023-06-30 之江实验室 弱监督语义分割方法、装置、设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132769A1 (en) * 2015-11-05 2017-05-11 Google Inc. Edge-Aware Bilateral Image Processing
CN108038465A (zh) * 2017-12-25 2018-05-15 深圳市唯特视科技有限公司 一种基于合成数据集的三维多人物姿态估计
CN109740465A (zh) * 2018-12-24 2019-05-10 南京理工大学 一种基于实例分割神经网络框架的车道线检测算法
US20190156154A1 (en) * 2017-11-21 2019-05-23 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
CN110163239A (zh) * 2019-01-25 2019-08-23 太原理工大学 一种基于超像素和条件随机场的弱监督图像语义分割方法
WO2019197021A1 (en) * 2018-04-10 2019-10-17 Huawei Technologies Co., Ltd. Device and method for instance-level segmentation of an image
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111860216A (zh) * 2020-06-30 2020-10-30 西安工程大学 一种结合注意力机制和部分亲和域场的人体姿态估计方法
CN112101364A (zh) * 2020-09-10 2020-12-18 西安电子科技大学 基于参数重要性增量学习的语义分割方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132769A1 (en) * 2015-11-05 2017-05-11 Google Inc. Edge-Aware Bilateral Image Processing
US20190156154A1 (en) * 2017-11-21 2019-05-23 Nvidia Corporation Training a neural network to predict superpixels using segmentation-aware affinity loss
CN108038465A (zh) * 2017-12-25 2018-05-15 深圳市唯特视科技有限公司 一种基于合成数据集的三维多人物姿态估计
WO2019136946A1 (zh) * 2018-01-15 2019-07-18 中山大学 基于深度学习的弱监督显著性物体检测的方法及系统
WO2019197021A1 (en) * 2018-04-10 2019-10-17 Huawei Technologies Co., Ltd. Device and method for instance-level segmentation of an image
CN109801307A (zh) * 2018-12-17 2019-05-24 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN109740465A (zh) * 2018-12-24 2019-05-10 南京理工大学 一种基于实例分割神经网络框架的车道线检测算法
CN110163239A (zh) * 2019-01-25 2019-08-23 太原理工大学 一种基于超像素和条件随机场的弱监督图像语义分割方法
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111860216A (zh) * 2020-06-30 2020-10-30 西安工程大学 一种结合注意力机制和部分亲和域场的人体姿态估计方法
CN112101364A (zh) * 2020-09-10 2020-12-18 西安电子科技大学 基于参数重要性增量学习的语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIWOON AHN 等,: "Learning Pixel-Level Semantic Affinity with Image-Level Supervision for Weakly Supervised Semantic Segmentation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
张志超,: "安全帽佩戴检测方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 *
李宾皑 等,: "弱监督学习语义分割方法综述", 《数字通信世界》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436204A (zh) * 2021-06-10 2021-09-24 中国地质大学(武汉) 一种高分辨率遥感影像弱监督建筑物提取方法
CN113269778A (zh) * 2021-06-21 2021-08-17 复旦大学 基于迭代的图像弱监督分割方法
CN113705647B (zh) * 2021-08-19 2023-04-28 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN113705647A (zh) * 2021-08-19 2021-11-26 电子科技大学 一种基于动态间隔的双重语义特征提取方法
CN113642663A (zh) * 2021-08-24 2021-11-12 中国水利水电科学研究院 一种卫星遥感影像水体提取方法
CN113642663B (zh) * 2021-08-24 2022-03-22 中国水利水电科学研究院 一种卫星遥感影像水体提取方法
CN113780477A (zh) * 2021-10-11 2021-12-10 深圳硅基智能科技有限公司 基于紧框标的深度学习的眼底图像的测量方法及测量装置
CN113780477B (zh) * 2021-10-11 2022-07-22 深圳硅基智能科技有限公司 基于紧框标的深度学习的眼底图像的测量方法及测量装置
CN114049056A (zh) * 2022-01-14 2022-02-15 海门市金球体育用品有限公司 基于消防风险评估的健身房管理方法及系统
CN114049056B (zh) * 2022-01-14 2022-04-08 海门市金球体育用品有限公司 基于消防风险评估的健身房管理方法及系统
CN114677515A (zh) * 2022-04-25 2022-06-28 电子科技大学 基于类间相似性的弱监督语义分割方法
CN114882279A (zh) * 2022-05-10 2022-08-09 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN114882279B (zh) * 2022-05-10 2024-03-19 西安理工大学 基于直推式半监督深度学习的多标签图像分类方法
CN114898098A (zh) * 2022-06-27 2022-08-12 北京航空航天大学 脑组织图像分割方法
CN114898098B (zh) * 2022-06-27 2024-04-19 北京航空航天大学 脑组织图像分割方法
CN115512169A (zh) * 2022-11-09 2022-12-23 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
CN115512169B (zh) * 2022-11-09 2023-07-25 之江实验室 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
CN116363372A (zh) * 2023-06-01 2023-06-30 之江实验室 弱监督语义分割方法、装置、设备和存储介质
CN116363372B (zh) * 2023-06-01 2023-08-15 之江实验室 弱监督语义分割方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN111191732B (zh) 一种基于全自动学习的目标检测方法
US10354392B2 (en) Image guided video semantic object segmentation method and apparatus
CN109325547A (zh) 非机动车图像多标签分类方法、系统、设备及存储介质
CN110598029A (zh) 基于注意力转移机制的细粒度图像分类方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN111539480B (zh) 多类别医学图像识别方法及设备
CN109102498B (zh) 一种宫颈涂片图像中簇型细胞核分割的方法
CN110399895A (zh) 图像识别的方法和装置
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
CN111931867B (zh) 基于轻量级模型的新冠肺炎x射线图像分类方法及系统
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
CN110490894A (zh) 基于改进的低秩稀疏分解的视频前背景分离方法
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
CN114863348A (zh) 基于自监督的视频目标分割方法
CN115292532A (zh) 基于伪标签一致性学习的遥感图像域适应检索方法
CN114170446A (zh) 一种基于深层融合神经网络的温度、亮度特征提取方法
CN110807159B (zh) 数据标记方法、装置、存储介质及电子设备
CN117152438A (zh) 一种基于改进DeepLabV3+网络的轻量级街景图像语义分割方法
CN107452001A (zh) 一种基于改进fcm算法的遥感图像序列分割方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210416

WD01 Invention patent application deemed withdrawn after publication