CN115761735A - 一种基于自适应伪标签纠正的半监督语义分割方法 - Google Patents

一种基于自适应伪标签纠正的半监督语义分割方法 Download PDF

Info

Publication number
CN115761735A
CN115761735A CN202211432700.9A CN202211432700A CN115761735A CN 115761735 A CN115761735 A CN 115761735A CN 202211432700 A CN202211432700 A CN 202211432700A CN 115761735 A CN115761735 A CN 115761735A
Authority
CN
China
Prior art keywords
image
semantic segmentation
target image
uncertain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211432700.9A
Other languages
English (en)
Inventor
王军
杨宇宇
潘在宇
李玉莲
申政文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211432700.9A priority Critical patent/CN115761735A/zh
Publication of CN115761735A publication Critical patent/CN115761735A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应伪标签纠正的半监督语义分割方法,包括以下步骤:选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域;输入源域图像到深度卷积神经网络中训练得到预训练的语义分割模型;基于目标图像生成的预测概率矩阵使用信息熵和密度聚类算法构建不确定性区域的选择策略;构建自适应伪标签纠正策略得到最终伪标签作为监督,训练半监督语义分割模型;输入目标域验证集中的目标图像到训练后的半监督语义分割模型中验证语义分割的性能。本发明实现了在线更新伪标签,解决了确认偏见问题,缓解了类别不平衡问题,克服了全卷积的缺点,提高了该模型在目标域上的语义分割效果。

Description

一种基于自适应伪标签纠正的半监督语义分割方法
技术领域
本发明属于自监督的域适应语义分割领域,具体涉及一种基于自适应伪标签纠正的半监督语义分割方法。
背景技术
语义分割的目标是为图像中的每个像素指定语义级别的标签,被广泛应用于现实世界,如自动驾驶、机器人操作和医学分析等。然而,分割模型的学习在很大程度上依赖具有像素注释的大量数据,而手动注释是耗时而且高成本的。此外,模型在不同数据上的泛化能力也是一个重大的挑战。为了解决上述问题,已经开展了各种研究工作,域适应是一个很有希望的方法。
最近,自监督训练促进了域适应,使用目标域预测生成的伪标签作为监督训练网络。例如,Cheng等人提出了一种基于双路径学习的域适应语义分割方法,通过两个互补和交互式的单域适配管道对齐源域和目标域,使目标域生成更可靠的伪标签,以自监督训练的方式提高语义分割网络的性能(Yiting Cheng,Fangyun Wei,Jianmin Bao,Dong Chen,Fang Wen,and Wenqiang Zhang.Dual Path Learning for Domainad Aptation ofSemantic Segmentation.
InICCV,9082-9091,2021)。Zheng等人提出了一种通过不确定性估计矫正伪标签学习的一种域适应语义分割方法,通过预测方差对不确定性建模,将不确定性纳入优化目标提高语义分割的性能(Zhengdong Zheng and Yi Yang.Rectifying Pseudo LabelLearning Via Uncertainty Estimation for Domain Adaptive SemanticSegmentation.In INTERNATIONAL JOURNAL OF COMPUTER VISION,129(4):1106-1120,2021)。然而,这些语义分割模型在训练的过程中会逐渐产生对主导类有偏见的伪标签,目前的自适应模型大多更关注置信度高的伪标签,丢弃置信度低的伪标签,使错误不可逆转,因此语义分割网络在自监督训练的整个训练过程中可能永远无法学习某些像素,造成一种确认偏见。
为了充分利用未标记的目标图像数据,每一个像素都应该得到适当的利用。Wang等人提出了一种使用不可靠伪标签的半监督语义分割方法,通过预测熵分离可靠像素和不可靠像素,将每个不可靠像素推送到由负样本组成的类别队列中,并设法用所有候选像素训练模型(Yuchao Wang,Haochen Wang,Yujun Shen,Jingjing Fei,Wei Li,GuoqiangJin,Liwei Wu,Rui Zhao,Xinyi Le.Semi-Supervised Semantic Segmentation UsingUnerliable Pseudo-Label.In CVPR,4248-4257,2022)。虽然该方法有充分利用未标记的数据,但没有考虑下采样和上采样对图像特征级之间细节信息的影响,且在对比学习的过程中计算量也非常大。因此,基于半监督的域适应语义分割的算法还需要进一步研究,算法性能还有待提高。
发明内容
本发明的目的在于提供一种基于自适应伪标签纠正的半监督语义分割方法,基于目标图像生成的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域选择策略和自适应伪标签纠正策略实现在线纠正目标图像伪标签。本发明通过在线纠正目标图像伪标签充分利用未标记的目标图像数据的像素点,避免了过度拟合不正确的伪标签,解决了语义分割模型在训练中对主导类产生确认偏见问题;通过提高不确定区域图像的分辨率再次进行分类预测,充分考虑了目标图像之间的细节信息丢失问题,缓解了类别不平衡问题同时克服了全卷积的缺点,整体提高了半监督语义分割模型的分类性能和在目标域上的泛化能力。
实现本发明目的的技术解决方案为:一种基于自适应伪标签纠正的半监督语义分割方法,包括以下步骤:
步骤1、选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域,将目标域中的目标图像划分为训练集和验证集,转入步骤2。
步骤2、将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,转入步骤3。
步骤3、将目标域的训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域的选择策略,获取目标图像预测概率矩阵中的不确定区域,转入步骤4。
步骤4、找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切获得不确定区域图像,并放大作为二次目标图像,将二次目标图像输入到预训练的语义分割模型,并根据不确定区域的大小上采样生成二次伪标签与目标图像伪标签融合,构建自适应伪标签纠正策略以获取最终伪标签作为目标图像的监督,以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型;当达到预定的训练次数时,获得训练好的半监督语义分割模型,转入步骤5。
步骤5、输入目标域验证集中的目标图像到训练好的半监督语义分割模型生成伪标签验证该网络的语义分割性能。
与现有技术相比,本发明的优点在于:
1)相比现有的语义分割方法,一是大多数语义分割方法只考虑置信度高的标签,忽略了置信度低的标签,导致过度拟合不正确的伪标签,使错误不可逆转从而造成确认偏见的问题;二是大多数语义分割方法使用全卷积对图像进行编码解码,在编码的过程中降低了特征图的分辨率,意味着丢失了一些细节信息,解码的过程中要求编码模型必须十分强大才能很好的还原图像信息,意味着在编码的过程需要更大的模型和计算量。为解决上述两方面的问题,本发明提出了不确定区域选择策略和自适应伪标签纠正策略,提高了半监督语义分割模型的分类性能和在目标域上的泛化能力。
2)本发明提出的基于信息熵和密度聚类的不确定区域选择策略,改变了只使用置信度高的伪标签作为监督的传统训练方式,该方法不仅使用了目标图像上置信度高的标签也充分考虑了置信度低的标签,使目标图像上的每一个像素点都能够的得到充分利用;
3)本发明提出的自适应伪标签纠正策略,一方面实现了在线纠正目标图像伪标签,在语义分割模型训练过程中避免了过度拟合不正确的伪标签,防止错误的不可逆,解决了语义分割模型在训练中对主导类产生确认偏见问题,提高了语义分割模型的性能;另一方面采用了双线性插值等比例放大低分辨率的不确定区域图像,不仅提高了不确定区域图像的分辨率而且相当于扩充了包含有困难分类样本的目标图像,避免了下采样导致的不确定区域图像特征级之间细节信息的丢失也缓解了目标域训练集类别不平衡的问题;
4)本发明在在线纠正目标图像伪标签的过程中,放大后的二次目标图像作为输入再次进行分类预测,在解码的过程中根据不确定区域的大小进行上采样,减小了上采样的倍数,意味着降低了对编码模型的要求并且减少了计算量,克服了全卷积的缺点。
附图说明
图1为本发明基于自适应伪标签纠正的半监督语义分割方法的流程图。
图2为本发明基于自适应伪标签纠正的半监督语义分割方法的模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
结合图1-图2,一种基于自适应伪标签纠正的半监督语义分割方法,包括以下步骤:
步骤1、选择GTA5作为源域数据集,分别有24966张图像和标签,像素大小均为1914×1052;选择Cityscapes城市景观数据集作为目标域数据集,分别有5000张图像和标签,其中2975张训练集、500张验证集和1525张测试集,像素大小均为1024×2048。由于源域目标域的分辨率不同,需要进行归一化处理,本发明将像素大小统一为1024×512;源域与目标域有19个共同类,因此最终分类为19类。令源域表示为
Figure BDA0003945517000000041
其中,S表示源域的图像,
Figure BDA0003945517000000042
表示S对应的地面真实标签,H表示S的高度,即H=1024,W表示S的宽度,即W=512,H×W表示S的分辨率大小,也表示S的像素点的总数,H×W×3中的3表示RGB的三个颜色通道;令目标域表示为DT={T|T∈RH×W×3},其中,T表示目标域的目标图像且没有相应的语义标签,转入步骤2;
步骤2、将源域图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,具体如下:
本发明使用ResNet101-Deeplabv2联合编码作为语义分割的模型,其中ResNet101是backbone网络用来提取特征,该网络101次卷积共分为5层卷积层,将卷积部分作为特征提取器,最后有一个全连接层,作为分类器。在本发明中舍弃全连接层只保留前面5层卷积层作为编码器提取特征,全连接层使用Deeplabv2替换作为分类器;Deeplabv2有一个无轨的空间金字塔ASPP集合方案,在输入特征图中应用了不同速率的平行扩张卷积,然后将它们融合在一起,由于同一类别的物体在图像中可能有不同的尺寸,ASPP有助于解释不同的物体尺寸。在本发明中,Deeplabv2是作为分类器获得像素点的预测概率矩阵,该网络具有四分支,每一分支都由3层全连接层组成,但设有不同的空洞率,分别为[6,12,28,24]。
加载源域中的图像作为输入,输入到ResNet101-Deeplabv2语义分割模型。通过ResNet101编码器提取源域图像的特征向量,再输入到Deeplabv2分类器得到源域图像各像素点分别属于19类的预测概率矩阵
Figure BDA0003945517000000051
其像素点最大的预测概率所在的通道索引值作为分类类别从而生成源域图像伪标签,使用预测概率矩阵与真实地面标签做交叉熵损失进行优化语义分割模型的分割性能,最终得到预训练的语义分割模型,如下式(1)所示:
Figure BDA0003945517000000052
其中,
Figure BDA0003945517000000053
表示源域图像S∈RH×W的交叉熵损失,C表示分类的类别总数,
Figure BDA0003945517000000054
表示的真实地面标签
Figure BDA0003945517000000055
的第i个像素的热编码,
Figure BDA0003945517000000056
Figure BDA0003945517000000057
表示源域图像的第i个像素属于类别c(c∈C)的预测概率。
步骤3、将目标域中训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域的选择策略,获取目标图像预测概率矩阵中的不确定区域,具体如下:
步骤3.1,将目标域训练集中的目标图像T∈RH×W输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵
Figure BDA0003945517000000058
使用信息熵计算目标图像上的各像素点预测概率的分散程度,当像素点的熵小于熵的阈值时将该像素点作为不确定点,如式(2)、式(3)所示:
Figure BDA0003945517000000059
Figure BDA00039455170000000510
其中,
Figure BDA00039455170000000511
表示目标图像第i个像素点的熵映射,
Figure BDA00039455170000000512
表示目标图像的第i个像素的预测概率矩阵,Xn表示第n个不确定点,n∈{1,2,...,N},N表示不确定点的总数,(x,y)表示目标图像上的不确定点的坐标位置,γt表示第t次迭代时的关于信息熵的最低阈值,将γt设置为αt对应的分位数,即γt=np.percent(H().flatten(),100×(1-αt)),H()是目标图像每个像素点的熵映射,αt是选取不确定点的比例,其通过线性策略调整,如式(4)所示:
Figure BDA00039455170000000513
其中,α0表示初始选取不确定点的比例并设置为20%,iter表示当前迭代次数,total iter表示预定的迭代次数。
步骤3.2,密度聚类本质上是一种密度的概念进行聚类,而密度的本质来自于两点之间的距离。对于聚类算法有很多,比如K-means聚类、谱聚类等,但对于K-means聚类首先需要确定需要聚簇的具体数量,对于本发明的不确定点聚为几簇是不可知的,所以不适用;而谱聚类和密度聚类都能够在聚类的过程中自动确定聚为多少簇,但是使用谱聚类的结果在划分不确定区域时要确定中心点位置和剪切方向,而密度聚类可以帮助我们更好的确定中心位置和剪切的区域,最重要的是密度聚类具有抗噪声的优势,即指不属于任何簇的对象,说明可以在对不确定点聚类的过程中去除噪声信息;所以,本发明选择使用密度聚类对不确定点的位置聚类。
基于选取的不确定点使用密度聚类算法寻找目标图像的预测概率矩阵
Figure BDA0003945517000000061
上的不确定区域Tun,密度聚类算法输入的样本集为不确定点的集合D={X1,X2,...,XN},输入的领域参数为(ε,M),ε为密度聚类所确定的半径,将样本集中与核心对像距离不大于ε的样本称为ε-领域,M为ε-领域中至少包含的样本数;密度聚类算法的输出为簇划分A={A1,A2,...,AK},A表示所有不确定点划分为K簇中的集合,AK表示第K簇,如式(5)所示:
Nε(Xj)={Xi∈D|D dist(Xi,Xj)≤ε} (5)
其中,Nε(Xj)表示ε-领域中包含的样本数,Xi,Xj表示核心对象,Xi与Xj不同的是Xj由Xi密度直达,若Xj位于Xi的ε-领域中,且Xi也是核心对象,则称Xj由Xi密度直达,dist(Xi,Xj)表示两核心点之间的距离。
密度聚类算法根据给定邻域参数(ε,M)找出所有核心对象,先任意选取数据集中的一个核心对象为“种子”,然后以此核心对象为出发点,找出由其密度可达的样本生成聚类簇,对于Xj与Xi,存在样本序列R1,R2,...,RZ且R1=Xj,RZ=Xi且Ri+1由Ri密度直达,则称Xj由Xi密度可达,直到所有的核心对象均被访问为止,完成聚类。
步骤3.3,根据密度聚类算法的参数需要,输入不确定点的集合D={X1,X2,...,XN}作为样本集并设置领域参数(ε,M),输出为簇划分A={A1,A2,...,AK},选择K簇中密度最大的一簇
Figure BDA0003945517000000062
则将
Figure BDA0003945517000000063
簇中心作为不确定区域的中心Xo,宽度w设置为2ε,高度h设置4ε,如果不确定区域越出目标图像的范围,利用K簇中密度次优的簇选择不确定区域,依次类推,当K簇都不以上条件满足时,则进入下一种不确定区域选择策略。
本发明设置输入目标图像大小为1024×512×3,依次通过预训练的语义分割模型对输入图像进行编码,不同卷积层输出的特征向量尺寸大小的顺序为:1024×512×3→512×256×64→256×128×64→256×128×256→128×64×512→128×64×1024→128×64×2048→128×64×C,为了使缩放后的特征向量恢复输入目标图像大小后得到预测概率矩阵,解码时需要进行8倍上采样。而本发明为了自适应伪标签纠正过程中使放大后的图像通过上采样直接恢复不确定区域图像的大小,而不是恢复输入的二次目标图像大小,所以我们将领域半径ε分别设置为128、64、32,由于不确定区域的宽度w设置为2ε,高度h设置为4ε,可知不确定区域的大小可以为512×256、256×128或128×64。因为预训练的语义分割模型下采样的最终大小128×64×C,所以通过上采样直接恢复不确定区域图像的大小可以分别设置为上采样4倍、上采样2倍和不需要采样,从而获得二次测概率矩阵和二次伪标签。
根据不确定区域的大小,其包含像素点的个数分别为131072、3276和8192,我们希望不同大小的区域中包含至少一半的不确定点才能称之为不确定区域,所以将ε-领域中至少包含的不确定点数分别设置为65536、16384和4096。通过半监督语义分割模型的不断优化,若不确定区域的不确定点不足4096时,说明半监督语义分割模型已经得到很好的优化,则停止使用不确定区域选择策略。
综上所述,本发明将不确定区域选择策略设置三组领域参数(ε1,M1),(ε2,M2),...,(εm,Mm),即(128,65536),(64,16384),(32,4096),且满足ε123,不确定区域的选择策略分别如下:
策略1:当N>M1时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(ε1,M1),输出不确定区域Tun=[Xo,w,h]。
策略2:当M1≥N>M2或进入下一种选择策略时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(ε2,M2),输出不确定区域Tun=[Xo,w,h]。
策略3:当M2≥N>M3或进入下一种选择策略时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(ε3,M3),输出不确定区域Tun=[Xo,w,h]。
当不确定区域不满足以上策略时,则停止使用不确定区域选择策略。
步骤4、构建自适应伪标签纠正策略以获取最终伪标签作为目标域的监督,以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型,具体如下:
步骤4.1,对于语义分割而言,困难分类的物体大多是因为在数据集中的其类别占比少,且在图像中的分辨率也比较小,也可以称为短尾类,比如人、摩托车、自行车、交通信号灯等,本发明针对充分利用目标图像的每一个像素点和这些短尾类问题提出了自适应伪标签纠正策略,一方面使用双线性插值的方法等比例放大图像到1024×512,则该图像可以作为目标域训练集的补充,平衡了短尾类的占比,以此缓解类别不平衡的问题;另一方面我们将图像等比例放大后作为二次目标图像输入到预训练的语义分割模型中进行编码,从而克服了编码过程中对细节信息的丢失,而解码过程只需要将编码后的特征向量上采样到二次目标图像放大前的大小,降低了对编码模型的要求并且减少了计算量。
找到目标图像上与目标图像伪标签上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切得到不确定区域图像,并使用双线性插值等比例放大不确定区域图像到1024×512以此增强不确定区域图像的分辨率,其放大倍数为
Figure BDA0003945517000000083
放大后的图像作为二次目标图像,输入到预训练的语义分割模型,在编码的过程中得到缩小8倍的二次目标图像的特征向量,其大小为128×64×C。根据不确定区域的大小h×w,上采样
Figure BDA0003945517000000084
倍,恢复与不确定区域图像的大小相同的特征向量,经过softmax激活后得到不确定区域图像的预测概率矩阵和伪标签,分别作为二次预测概率矩阵和二次伪标签,如式(6)、式(7)所示:
Figure BDA0003945517000000081
Figure BDA0003945517000000082
其中,Pun表示二次预测概率矩阵Pun∈Rh×w,Fun表示二次目标图像的特征向量Fun∈Rh×w×C
Figure BDA0003945517000000085
表示二次伪标签
Figure BDA0003945517000000086
步骤4.2,将生成的二次伪标签的四周区域进行零填充,填充后伪标签作为三次伪标签
Figure BDA0003945517000000087
由不确定区域选择策略选取了不确定区域Tun=[Xo,w,h],结合目标图像和不确定区域生成掩码Mask∈RH×W,如式(8)所示:
Figure BDA0003945517000000091
步骤4.3,将目标图像伪标签与二次伪标签融合作为目标图像的最终伪标签,如式(9)所示:
Figure BDA0003945517000000092
其中,
Figure BDA0003945517000000094
表示目标图像的最终伪标签,
Figure BDA0003945517000000095
表示目标图像伪标签。
使用最终伪标签作为监督,如式(10)所示:
Figure BDA0003945517000000093
在训练半监督语义分割模型的过程中,输入源域图像和目标域图像的批次均为1,通过自训练的方式优化模型参数,因此自适应伪标签纠正的半监督语义分割模型的总体损失函数
Figure BDA0003945517000000096
如公式(11)所示:
Figure BDA0003945517000000097
其中,λT为目标损失的权重。在半监督语义分割模型的训练过程中,不确定点的数量越来越少,即熵小于阈值γt的像素的百分比越来越小,所以,希望目标域对半监督语义分割模型的影响也越来越大,则将该权重定义为当前批次训练中熵小于阈值γt的像素的百分比的倒数,如式(12)所示:
Figure BDA0003945517000000098
其中,|BT|表示当前批次输入的图像数量,设置为1,
Figure BDA0003945517000000099
是一个指示函数,如果Xn为不确定点则为1,否则为0。
在训练半监督语义分割模型的过程中,所使用的优化器为SGD,权重衰减为0.0005,使用“poly”调整学习率方法,其衰减机制为
Figure BDA00039455170000000910
Figure BDA00039455170000000911
base_lr是初始学习率设置为0.001,iter是当前迭代次数,total_iter是最大迭代次数设为2k次,power设置为0.9用于调整学习率。
步骤5、输入目标域验证集中的500张目标图像到训练好的半监督语义分割模型生成伪标签,因为目标域验证集中的目标图像有真实地面标签,所以利用生成的伪标签与该图像的真实地面标签计算平均交并比验证半监督语义分割模型的分割性能。

Claims (4)

1.一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,包括以下步骤:
步骤1、选取GTA5数据集构建源域,选取Cityscapes数据集构建目标域,将目标域中的目标图像划分为训练集和验证集,转入步骤2;
步骤2、将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,转入步骤3;
步骤3、将目标域的训练集中的目标图像输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵,使用信息熵和密度聚类算法构建不确定性区域的选择策略,获取目标图像预测概率矩阵中的不确定区域,转入步骤4;
步骤4、找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切获得不确定区域图像,并放大作为二次目标图像,将二次目标图像输入到预训练的语义分割模型,并根据不确定区域的大小上采样生成二次伪标签与目标图像伪标签融合,构建自适应伪标签纠正策略以获取最终伪标签作为目标图像的监督,以相同的批次输入源域图像和目标域图像共同训练半监督语义分割模型;当达到预定的训练次数时,获得训练好的半监督语义分割模型,转入步骤5;
步骤5、输入目标域验证集中的目标图像到训练好的半监督语义分割模型生成伪标签验证该网络的语义分割性能。
2.根据权利要求1所述的一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,步骤2中,将源域中的图像输入到深度卷积神经网络中训练得到预训练的语义分割模型,如式(1)所示:
Figure FDA0003945516990000011
其中,
Figure FDA0003945516990000012
表示源域图像S∈RH×W的交叉熵损失,H表示源域图像的高,W表示源域图像的宽,H×W表示源域图像上的像素点的总数,C表示分类的类别总数,
Figure FDA0003945516990000013
表示的真实地面标签
Figure FDA0003945516990000014
的第i个像素的热编码,
Figure FDA0003945516990000015
Figure FDA0003945516990000016
表示源域图像的第i个像素属于类别c的预测概率,c∈C。
3.根据权利要求2所述的一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,步骤3中,使用信息熵和密度聚类算法构建不确定性区域的选择策略具体如下:
步骤3.1,将目标域训练集中的目标图像T∈RH×W输入到预训练的语义分割模型中生成相应的目标图像的预测概率矩阵
Figure FDA0003945516990000021
使用信息熵计算目标图像上的各像素点预测概率的分散程度,当像素点的熵小于熵的阈值时将该像素点作为不确定点,如式(2)、式(3)所示:
Figure FDA0003945516990000022
Figure FDA0003945516990000023
其中,
Figure FDA0003945516990000024
表示目标图像第i个像素点的熵映射,
Figure FDA0003945516990000025
表示目标图像的第i个像素的预测概率矩阵,Xn表示第n个不确定点,n∈{1,2,...,N},N表示不确定点的总数,(x,y)表示目标图像上的不确定点的坐标位置,γt表示第t次迭代时的关于信息熵的最低阈值,将γt设置为αt对应的分位数,即γt=np.percent(H().flatten(),100×(1-αt)),H()是目标图像每个像素点的熵映射,αt是选取不确定点的比例,其通过线性策略调整,如式(4)所示:
Figure FDA0003945516990000026
其中,α0表示初始选取不确定点的比例并设置为20%,iter表示当前迭代次数,totaliter表示预定的迭代次数。
步骤3.2,基于选取的不确定点使用密度聚类算法寻找目标图像的预测概率矩阵
Figure FDA0003945516990000027
上的不确定区域Tun,密度聚类算法输入的样本集为不确定点的集合D={X1,X2,...,XN},输入的领域参数为(ε,M),ε为密度聚类所确定的半径,将样本集中与核心对象距离不大于ε的样本称为ε-领域,M为ε-领域中至少包含的样本数;密度聚类算法的输出为簇划分A={A1,A2,...,AK},A表示所有不确定点划分为K簇中的集合,AK表示第K簇,如式(5)所示:
Nε(Xj)={Xi∈D|D dist(Xi,Xj)≤ε} (5)
其中,Nε(Xj)表示ε-领域中包含的样本数,Xi,Xj表示核心对象,Xi与Xj不同的是Xj由Xi密度直达,若Xj位于Xi的ε-领域中,且Xi也是核心对象,则称Xj由Xi密度直达,dist(Xi,Xj)表示两核心点之间的距离;
密度聚类算法根据给定邻域参数(ε,M)找出所有核心对象,先任意选取数据集中的一个核心对象为“种子”,然后以此核心对象为出发点,找出由其密度可达的样本生成聚类簇,对于Xj与Xi,存在样本序列R1,R2,...,RZ且R1=Xj,RZ=Xi且Ri+1由Ri密度直达,则称Xj由Xi密度可达,直到所有的核心对象均被访问为止,完成聚类;
步骤3.3,根据密度聚类算法的参数需要,输入不确定点的集合D={X1,X2,...,XN}作为样本集并设置领域参数(ε,M),输出为簇划分A={A1,A2,...,AK},选择K簇中密度最大的一簇
Figure FDA0003945516990000031
则将
Figure FDA0003945516990000032
簇中心作为不确定区域的中心Xo,宽度w设置为2ε,高度h设置为4ε,如果不确定区域越出目标图像的范围,利用K簇中密度次优的簇选择不确定区域,依次类推,当K簇都不以上条件满足时,则进入下一种不确定区域选择策略,因此我们的不确定区域选择策略能够设置多组领域参数,即(ε1,M1),(ε2,M2),...,(εm,Mm),且需要满足ε12>...>εm,不确定区域的选择策略分别如下:
策略1:当N>M1时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(ε1,M1),输出不确定区域Tun=[Xo,w,h];
策略2:当M1≥N>M2或进入下一种选择策略时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(ε2,M2),输出不确定区域Tun=[Xo,w,h];
......
策略m:当Mm-1≥N>Mm或进入下一种选择策略时,输入不确定点的样本集D={X1,X2,...,XN}和领域参数(εm,Mm),输出不确定区域Tun=[Xo,w,h];
当不确定区域不满足以上策略时,则停止迭代训练。
4.根据权利要求3所述的一种基于自适应伪标签纠正的半监督语义分割方法,其特征在于,步骤4中,自适应伪标签纠正策略的构建方法如下:
步骤4.1,找到目标图像上与目标图像预测概率矩阵上的不确定区域对应的同一位置,在目标图像上的这一位置进行剪切获得不确定区域图像,并使用双线性插值等比例放大不确定区域图像以此增大其分辨率,放大倍数为
Figure FDA0003945516990000033
放大后的图像作为二次目标图像,输入到预训练的语义分割网络,在编码的过程中得到缩小8倍的二次目标图像的特征向量,其大小为128×64×C,根据不确定区域的大小h×w,上采样
Figure FDA0003945516990000034
倍,恢复与不确定区域图像的大小相同的特征向量,经过softmax激活后得到不确定区域图像的预测概率矩阵和伪标签,分别作为二次预测概率矩阵和二次伪标签,如式(6)、式(7)所示:
Figure FDA0003945516990000041
Figure FDA0003945516990000042
其中,Pun表示二次预测概率矩阵Pun∈Rh×w,Fun表示二次目标图像的特征向量Fun∈Rh ×w×C
Figure FDA0003945516990000043
表示二次伪标签
Figure FDA0003945516990000044
步骤4.2,将生成的二次伪标签的四周区域进行零填充,填充后伪标签作为三次伪标签
Figure FDA0003945516990000045
由不确定区域选择策略选取了不确定区域Tun=[Xo,w,h],结合目标图像和不确定区域生成掩码Mask∈RH×W,如式(8)所示:
Figure FDA0003945516990000046
步骤4.3,将目标图像伪标签与二次伪标签融合作为目标图像的最终伪标签,如式(9)所示:
Figure FDA0003945516990000047
其中,
Figure FDA0003945516990000048
表示目标图像的最终伪标签,
Figure FDA0003945516990000049
表示目标图像伪标签;
使用最终伪标签作为监督,如式(10)所示:
Figure FDA00039455169900000410
其中,
Figure FDA00039455169900000411
表示目标图像T∈RH×W的交叉熵损失,
Figure FDA00039455169900000412
表示最终伪标签
Figure FDA00039455169900000413
的第i个像素的热编码,
Figure FDA00039455169900000414
表示目标图像的第i个像素属于类别c的预测概率;
在训练半监督语义分割模型的过程中,以相同的批次输入源域图像和目标域图像,通过自训练的方式优化模型参数,因此自适应伪标签纠正的半监督语义分割模型的总体损失函数
Figure FDA00039455169900000417
如公式(11)所示:
Figure FDA00039455169900000415
其中,λT为目标损失的权重,该权重被定义为当前批次训练中熵小于阈值γt的像素的百分比的倒数,如式(12)所示:
Figure FDA00039455169900000416
其中,|BT|表示当前批次输入的图像数量,
Figure FDA00039455169900000418
是一个指示函数,如果Xn为不确定点则为1,否则为0。
CN202211432700.9A 2022-11-16 2022-11-16 一种基于自适应伪标签纠正的半监督语义分割方法 Pending CN115761735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211432700.9A CN115761735A (zh) 2022-11-16 2022-11-16 一种基于自适应伪标签纠正的半监督语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211432700.9A CN115761735A (zh) 2022-11-16 2022-11-16 一种基于自适应伪标签纠正的半监督语义分割方法

Publications (1)

Publication Number Publication Date
CN115761735A true CN115761735A (zh) 2023-03-07

Family

ID=85371696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211432700.9A Pending CN115761735A (zh) 2022-11-16 2022-11-16 一种基于自适应伪标签纠正的半监督语义分割方法

Country Status (1)

Country Link
CN (1) CN115761735A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204626A (zh) * 2023-05-05 2023-06-02 江西尚通科技发展有限公司 基于深度学习的对话新意图发现方法、系统及计算机
CN116229080A (zh) * 2023-05-08 2023-06-06 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质
CN117437426A (zh) * 2023-12-21 2024-01-23 苏州元瞰科技有限公司 一种高密度代表性原型指引的半监督语义分割方法
CN118015021A (zh) * 2024-04-07 2024-05-10 安徽农业大学 基于滑动窗口的主动域自适应跨模态医学图像分割方法
CN118071763A (zh) * 2024-04-16 2024-05-24 浙江大学 一种基于自训练的半监督三维形状分割方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204626A (zh) * 2023-05-05 2023-06-02 江西尚通科技发展有限公司 基于深度学习的对话新意图发现方法、系统及计算机
CN116229080A (zh) * 2023-05-08 2023-06-06 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质
CN116229080B (zh) * 2023-05-08 2023-08-29 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质
CN117437426A (zh) * 2023-12-21 2024-01-23 苏州元瞰科技有限公司 一种高密度代表性原型指引的半监督语义分割方法
CN118015021A (zh) * 2024-04-07 2024-05-10 安徽农业大学 基于滑动窗口的主动域自适应跨模态医学图像分割方法
CN118071763A (zh) * 2024-04-16 2024-05-24 浙江大学 一种基于自训练的半监督三维形状分割方法和装置

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN115761735A (zh) 一种基于自适应伪标签纠正的半监督语义分割方法
CN111882620B (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN105138973A (zh) 人脸认证的方法和装置
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN116469561A (zh) 一种基于深度学习的乳腺癌生存预测方法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN114359930A (zh) 基于融合相似度的深度跨模态哈希方法
CN115100165B (zh) 一种基于肿瘤区域ct图像的结直肠癌t分期方法及系统
CN114926742B (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN115908908A (zh) 基于图注意力网络的遥感图像聚集型目标识别方法及装置
WO2024016424A1 (zh) 基于生成对抗网络的稀疏码本多址编解码系统
CN118277770A (zh) 一种障碍物感知方法、装置、电子设备及存储介质
CN116452862A (zh) 基于领域泛化学习的图像分类方法
CN114119966A (zh) 基于多视角学习与元学习的小样本目标检测方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN117975128A (zh) 基于扩散模型的Yolov5x的森林火灾识别方法及系统
CN116071715A (zh) 一种自动驾驶汽车实时语义分割模型构建方法
CN116682090A (zh) 一种基于改进YOLOv3算法的车辆目标检测方法
CN111275702A (zh) 一种基于卷积神经网络的回环检测方法
CN116645562A (zh) 一种细粒度伪造图像的检测方法及其模型训练方法
CN112990336B (zh) 基于竞争注意力融合的深度三维点云分类网络构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination