CN112116593A - 一种基于基尼指数的领域自适应语义分割方法 - Google Patents

一种基于基尼指数的领域自适应语义分割方法 Download PDF

Info

Publication number
CN112116593A
CN112116593A CN202010781502.8A CN202010781502A CN112116593A CN 112116593 A CN112116593 A CN 112116593A CN 202010781502 A CN202010781502 A CN 202010781502A CN 112116593 A CN112116593 A CN 112116593A
Authority
CN
China
Prior art keywords
domain
data set
target domain
network
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010781502.8A
Other languages
English (en)
Inventor
王立春
胡玉杰
王少帆
孔德慧
李敬华
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010781502.8A priority Critical patent/CN112116593A/zh
Publication of CN112116593A publication Critical patent/CN112116593A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Abstract

本发明公开了一种基于基尼指数的领域自适应语义分割方法,利用基尼指数度量输出预测的不确定性,在输出层对目标域输出预测进行不确定性度量及约束,减小源域和目标域在类别分布上的差异,进行域间自适应;依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集,对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络,对域内自适应分割网络两个子集的输出预测计算基尼指数图,对低置信度样本计算的基尼指数图进行约束,并利用判别器Dt判别基尼指数图属于哪个子集,基于对抗思想减小目标域域内的差异,提高语义标注精度。与现有技术相比较,本发明显著提高了目标域的语义标注准确率。

Description

一种基于基尼指数的领域自适应语义分割方法
技术领域
本发明涉及一种无监督领域自适应语义标注方法,尤其涉及一种基于基尼指数的领域自适应语义分割方法,属于模式识别与计算机视觉领域,可应用于自动驾驶、机器人视觉导航技术中。
背景技术
无监督领域自适应语义分割利用有标注的源域数据和无标注的目标域数据进行训练,学习一个对目标域图像有较好的语义标注效果的模型。精确的无监督领域自适应语义分割对于许多应用至关重要,如自动驾驶、机器人导航等。
无监督领域自适应要解决的主要问题是如何减小源域和目标域之间的差异,通常的策略包括:输入空间的域间自适应,特征空间的域间自适应和输出空间的域间自适应。输入空间的域间自适应对输入图像进行风格转换,实现数据边缘分布的对齐,但由于生成的图像会出现标签不匹配的情况,从而影响目标域的分割精度;特征空间的域间自适应一般使用域分类器与特征生成器进行对抗以提取具有域不变性质的特征,由于特征语义和嵌入结构的复杂性,很难完全获取域不变特征,因而会导致分割结果不佳;输出空间的域间自适应,基于模型输出的预测图利用域分类器和语义分割网络进行对抗适应,或者直接对输出预测分布进行约束,通过对齐源域和目标域的类分布,减小源域和目标域差异。
此外,由于运动、天气等多种因素导致采集得到的目标域内同类数据具有较大差异,这个差异对于目标域语义标注精度有一定影响。一些研究工作在考虑域间自适应的同时也考虑目标域的域内自适应,通常的策略包括:对部分目标域数据赋予伪标签,赋予伪标签的数据集与未赋予伪标签的数据集在特征层利用判别器和特征生成器进行对抗,缩小域内差异。伪标签阈值通常根据经验人为设置,需要大量实验并且可能引入噪声。
发明内容
为有效提高无监督领域自适应语义分割的准确率,本发明采用了一种新的度量输出预测的不确定性的方法,并约束源域和目标域输出预测的不确定性之间的关系,达到缩小源域和目标域之间的差异的目的;在目标域,利用高可靠性的伪标签进行自监督训练,同时在输出空间利用判别器和语义分割网络对抗,减小目标域域内差异。
为实现上述目的,本发明采用的技术方案为一种基于基尼指数的领域自适应语义分割方法,利用基尼指数度量输出预测的不确定性,在输出层对目标域输出预测进行不确定性度量及约束,减小源域和目标域在类别分布上的差异,进行域间自适应;依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集,对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络,对域内自适应分割网络两个子集的输出预测计算基尼指数图,对低置信度样本计算的基尼指数图进行约束,并利用判别器Dt判别基尼指数图属于哪个子集,基于对抗思想减小目标域域内的差异,提高语义标注精度。
利用合成数据集作为源域,真实数据集为目标域。训练时,在域间自适应网络输入源域和目标域图像进行训练,训练完成后,将目标域图像进行划分输入到域内自适应网络进行训练,得到最优分割结果。测试时,利用真实数据集即目标域作为输入,在域内自适应网络得到测试结果。
具体方法步骤如下:
步骤(1),将源域数据集和目标域数据集各取一张RGB图片同时输入域间自适应语义分割网络Gst
步骤(2),利用域间自适应语义分割网络Gst得到源域和目标域的最后两层的输出预测分割图;
步骤(3),将源域最后两层的输出预测图分别和源域图片的groundtruth计算交叉熵损失,并将源域最后两层的损失进行加权求和;
步骤(4),将目标域最后两层的输出预测图分别利用基尼指数计算不确定性损失,并将目标域最后两层的损失加权求和;
步骤(5),将步骤(3)得出的源域最后两层的损失加权求和值和步骤(4)的目标域最后两层的损失加权求和值进行求和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果;
步骤(6),依据训练好的域间自适应语义分割网络Gst的基尼指数结果对目标域数据集划分为高置信度数据集和低置信度数据集;
步骤(7),将划分后的目标域数据集作为域内自适应网络的输入数据集,每次输入一张RGB图片,利用域内自适应语义分割网络Gt分别得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图;
步骤(8),将高置信度数据集最后两层的输出预测图分别和利用域间自适应分割网络Gst得到的高置信度数据集的伪标签计算交叉熵损失,并将两层的损失进行加权求和;
步骤(9)对域内自适应语义分割网络Gt得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图计算基尼指数图,分别得到高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图;
步骤(10)将低置信度最后两层的加权求和的基尼指数图计算不确定性损失;
步骤(11)将高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图输入到判别器,分别贴上域标签1和0,与域内语义分割网络对抗,计算对抗损失;
步骤(12),将步骤(8)、步骤(10)、步骤(11)的损失加和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果。
与现有技术相比较,本发明提出了一种新的无监督领域自适应语义标注方法,即结合域间自适应和目标域域内自适应同时缩小源域和目标域的域间差异以及目标域的域内差异,从而提高目标域的语义标注准确率。
附图说明
图1:域间自适应网络结构图。
图2:语义分割网络结构图。
图3:ASPP模块结构图。
图4:目标域域内自适应网络结构图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
利用合成数据集GTA5作为源域,真实数据集Cityscapes为目标域。训练时,在域间自适应网络输入源域和目标域图像进行训练,训练完成后,将目标域图像进行划分输入到域内自适应网络进行训练,得到最优分割结果。测试时,利用真实数据集即目标域作为输入,在域内自适应网络得到测试结果。
具体方法步骤如下:
步骤(1),将源域数据集和目标域数据集的各取一张RGB图片同时输入域间自适应语义分割网络Gst
步骤(2),利用域间自适应语义分割网络Gst得到源域和目标域的最后两层的输出预测分割图;
步骤(3),将源域最后两层的输出预测图分别和源域图片的groundtruth计算交叉熵损失,并将源域最后两层的损失进行加权求和;
步骤(4),将目标域最后两层的输出预测图分别利用基尼指数计算不确定性损失,并将目标域最后两层的损失加权求和;
步骤(5),将步骤(3)得出的源域最后两层的损失加权求和值和步骤(4)的目标域最后两层的损失加权求和值进行求和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果;
步骤(6),依据训练好的域间自适应语义分割网络Gst的基尼指数结果对目标域数据集划分为高置信度数据集和低置信度数据集;
步骤(7),将划分后的目标域数据集作为域内自适应网络的输入数据集,每次输入一张RGB图片,利用域内自适应语义分割网络Gt分别得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图;
步骤(8),将高置信度数据集最后两层的输出预测图分别和利用域间自适应分割网络Gst得到的高置信度数据集的伪标签计算交叉熵损失,并将两层的损失进行加权求和;
步骤(9)对域内自适应语义分割网络Gt得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图计算基尼指数图,分别得到高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图;
步骤(10)将低置信度最后两层的加权求和的基尼指数图计算不确定性损失;
步骤(11)将高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图输入到判别器,分别贴上域标签1和0,与域内语义分割网络对抗,计算对抗损失;
步骤(12),将步骤(8)、步骤(10)、步骤(11)的损失加和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果。
本发明提出的方法所搭建的模型由两部分组成:1)域间自适应网络,利用基尼指数度量输出预测的不确定性,在输出层对目标域输出预测进行不确定性度量及约束,减小源域和目标域在类别分布上的差异;2)目标域域内自适应网络,依据域间自适应网络对目标域预测的不确定性度量结果将目标域样本集划分为两个子集,高置信度预测对应的样本利用伪标签作为弱监督信息更新域内自适应语义分割网络,对域内自适应分割网络两个子集的输出预测计算基尼指数图,对低置信度样本计算的基尼指数图进行约束,并利用判别器Dt判别基尼指数图属于哪个子集,基于对抗思想减小目标域域内的差异。
1、域间自适应网络:
模型如果只在源域数据集进行训练,与源域图像相似的图像将产生高置信度的输出预测结果,而与目标域图像相似的图像将产生低置信度的输出预测结果。基于此观察,域间自适应的创新点是对目标域图像的输出预测利用基尼指数度量预测的不确定性并对其约束,使得目标域图像同样产生高置信度输出预测结果,从而缩小源域和目标域的差异。
1)域间自适应网络的网络结构
域间自适应网络的网络结构图如图1所示,其中语义分割网络Gst以Deeplab-V2作为基本网络架构,由编码器和解码器两部分构成,Gst网络结构图如图2所示。
编码器以Resnet101作为基础网络,网络结构参数如表1所示。编码器由一个卷积层Conv_1和Conv_2、Conv_3、Conv_4、Conv_5四个block构成,各block分别包括3、4、23、3个残差模块,激活函数都是ReLU函数。
卷积层Conv_1包含stride=2、padding=3的64个7*7滤波器。
四个block中,Conv_2包含一个3*3最大池化层和3个残差模块;Conv_3第一个残差模块的1*1滤波器的stride=2、无padding;Conv_4第一个残差模块的3*3滤波器是stride=1、dilation=2、padding=2的空洞卷积;Conv_5第一个残差模块的3*3滤波器是stride=1、dilation=4、padding=4的空洞卷积;以上没有特别说明的其余残差模块中,3*3滤波器均是stride=1且padding=1的卷积,1*1滤波器均是stride=1且无padding的卷积。
解码器将Conv_4和Conv_5得到的特征图分别输入ASPP模块,ASPP输出的最终特征图是原图的1/8,用双线性插值将其恢复到原图大小,最后使用CRF平滑边界,最终得到两组语义分割结果。ASPP模块的结构如图3所示,详细参数如表2所示。
2)域间自适应网络的损失函数
域间自适应网络的损失包括源域分割损失和目标域预测的不确定性损失。
i.源域分割损失
对源域数据,本发明使用传统的交叉熵作为损失函数计算分割损失,分别基于Conv_5和Conv_4输出的预测计算对应的分割损失
Figure BDA0002620414230000061
Figure BDA0002620414230000062
这两项分割损失的和是语义分割网络Gst的总损失Lseg(xs,ys):
Figure BDA0002620414230000063
Figure BDA0002620414230000064
Figure BDA0002620414230000065
其中,xs∈RH×W×3是分辨率为H×W的源域RGB图像;ys∈RH×W×C是源域图像xs的ground truth,C是类的数量;
Figure BDA0002620414230000066
是语义分割网络Gst的Conv_5输出的源域图像xs的预测分割图;
Figure BDA0002620414230000067
是语义分割网络Gst的Conv_4输出的源域图像xs的预测分割图;β1为超参数。
ii.目标域预测的不确定性损失
本发明采用基尼指数度量目标域预测的不确定性,通过最小化基尼指数约束域间自适应网络对目标域图像得到高置信度的预测结果。
分别对Conv_5和Conv_4输出的目标域图像预测计算像素级基尼指数
Figure BDA0002620414230000068
Figure BDA0002620414230000069
像素级基尼指数计算方式如下:
Figure BDA00026204142300000610
Figure BDA00026204142300000611
xt∈RH×W×3是分辨率为H×W的目标域RGB图像;
Figure BDA0002620414230000071
是基于语义分割网络Gst的Conv_5输出的目标域图像xt的预测分割图计算的基尼指数图,
Figure BDA0002620414230000072
是对应的像素级基尼指数;
Figure BDA0002620414230000073
是基于语义分割网络Gst的Conv_4输出的目标域图像xt的预测分割图计算的基尼指数图,
Figure BDA0002620414230000074
是对应的像素级基尼指数;
Figure BDA0002620414230000075
是语义分割网络Gst的Conv_5输出的目标域图像xt的预测分割图;
Figure BDA0002620414230000076
是语义分割网络Gst的Conv_4输出的目标域图像xt的预测分割图。
目标域图像xt的基尼指数计算方式如下:
Figure BDA0002620414230000077
其中β2为超参数。
目标域图像xt的基尼指数即为目标域预测的不确定性损失:
LGini(xt)=Gini(xt) (7)
语义分割网络Gst的总损失L域间(xs,xt)为:
L域间(xs,xt)=Lseg(xs,ys)+μ1LGini(xt) (8)
其中μ1为超参数。
2、目标域域内自适应网络
由于从真实场景中收集的目标域数据同类内也具有较大差异,所以有必要考虑目标域域内自适应。目标域域内自适应的创新点是利用目标域图像的基尼指数Gini(xt)将目标域数据集划分成高置信度图像子集和低置信度图像子集;利用语义分割网络Gt计算两个子集的基尼指数图,对低置信度样本计算的基尼指数图进行约束;并利用语义分割网络Gt与判别器Dt进行对抗,判别器负责判别基尼指数图属于哪一个子集。
1)目标域图像集划分
依据目标域图像的基尼指数Gini(xt)将目标域样本划分为高置信度图像子集xtH和低置信度图像子集xtL,两个子集合的样本数量比为γ:
Figure BDA0002620414230000078
其中∣·∣表示集合的基数,xtH∪xtL={xt}并且
MAX(Gini(xH))<MIN(Gini(xL)),xH∈xtH,xL∈xtL
2)目标域域内自适应网络的网络结构
目标域域内自适应网络由语义分割网络Gt和判别器Dt两部分构成,网络结构如图4所示。其中,语义分割网络Gt网络结构及参数与Gst相同;判别器Dt的网络结构及参数如表3所示,Dt的激活函数采用Leaky ReLU函数,negative slope为0.2。
3)目标域域内自适应网络的损失函数
目标域域内自适应网络的损失包括三部分:目标域高置信度图像分割损失,目标域低置信度图像不确定性损失,判别器判别损失。
i.高置信度图像分割损失
使用传统的交叉熵损失函数计算高置信度图像的分割损失,分别基于Conv_5和Conv_4输出的预测计算对应的分割损失
Figure BDA0002620414230000081
Figure BDA0002620414230000082
这两项分割损失的和是语义分割网络Gt的总损失Lseg(xH,yH):
Figure BDA0002620414230000083
Figure BDA0002620414230000084
Figure BDA0002620414230000085
其中,xH∈RH×W×3是分辨率为H×W的目标域RGB图像且xH∈xtH;yH∈RH×W×C是目标域图像xH的ground truth,C是类的数量;
Figure BDA0002620414230000086
是语义分割网络Gt的Conv_5输出的目标域图像xH的预测分割图;
Figure BDA0002620414230000087
Figure BDA0002620414230000088
是语义分割网络Gt的Conv_4输出的目标域图像xH的预测分割图,β3为超参数。
ii.低置信度图像不确定性损失
本发明采用基尼指数度量目标域低置信度图像预测的不确定性,通过最小化基尼指数的方法约束模型,使目标域低置信度图像产生高置信度的输出预测结果。
分别对Conv_5和Conv_4输出的目标域图像预测,计算像素级基尼指数
Figure BDA0002620414230000091
Figure BDA0002620414230000092
Figure BDA0002620414230000093
Figure BDA0002620414230000094
其中,xL∈RH×W×3是分辨率为H×W的目标域RGB图像且xL∈xtL
Figure BDA0002620414230000095
是基于语义分割网络Gt的Conv_5输出的目标域图像xL的预测分割图计算的基尼指数图,
Figure BDA0002620414230000096
是对应的像素级基尼指数;
Figure BDA0002620414230000097
Figure BDA0002620414230000098
是基于语义分割网络Gt的Conv_4输出的目标域图像xL的预测分割图计算的基尼指数图,
Figure BDA0002620414230000099
是对应的像素级基尼指数;
Figure BDA00026204142300000910
是语义分割网络Gt的Conv_5输出的目标域图像xL的预测分割图;
Figure BDA00026204142300000911
Figure BDA00026204142300000912
是语义分割网络Gst的Conv_4输出的目标域图像xL的预测分割图。
目标域图像xL的基尼指数计算方式如下:
Figure BDA00026204142300000913
其中β4为超参数。
目标域低置信度图像预测的不确定性损失函数LGini(xL)为:
LGini(xL)=Gini(xL) (16)
iii.判别器判别损失
为了使目标域域内差异减小,本发明以基尼指数图作为判别器Dt的输入,判断输入的基尼指数图对应的源图像是高置信度图像或低置信度图像。本发明在训练判别器的同时训练语义分割网络Gt欺骗判别器。
判别器Dt的输入是高置信度图像的基尼指数图
Figure BDA00026204142300000914
和低置信度图像的基尼指数图
Figure BDA00026204142300000915
Figure BDA00026204142300000916
中像素值的具体计算方式如下:
Figure BDA00026204142300000917
其中β5为超参数,
Figure BDA00026204142300000918
Figure BDA00026204142300000919
的计算分别如式(13)和(14)。
Figure BDA0002620414230000101
中像素值的具体计算方式如下:
Figure BDA0002620414230000102
其中β6为超参数,
Figure BDA0002620414230000103
Figure BDA0002620414230000104
基于Conv_5和Conv_4输出的目标域图像预测计算得到的像素级基尼指数:
Figure BDA0002620414230000105
Figure BDA0002620414230000106
其中,xH∈RH×W×3是分辨率为H×W的目标域RGB图像且xH∈xtH
Figure BDA0002620414230000107
是基于语义分割网络Gt的Conv_5输出的目标域图像xH的预测分割图计算的基尼指数图,
Figure BDA0002620414230000108
是对应的像素级基尼指数;
Figure BDA0002620414230000109
Figure BDA00026204142300001010
是基于语义分割网络Gt的Conv_4输出的目标域图像xH的预测分割图计算的基尼指数图,
Figure BDA00026204142300001011
是对应的像素级基尼指数;
Figure BDA00026204142300001012
是语义分割网络Gt的Conv_5输出的目标域图像xL的预测分割图;
Figure BDA00026204142300001013
Figure BDA00026204142300001014
是语义分割网络Gst的Conv_4输出的目标域图像xL的预测分割图。
将基尼指数图
Figure BDA00026204142300001015
Figure BDA00026204142300001016
输入到判别器,利用交叉熵函数计算二分类损失,判别器Dt的损失函数为:
Figure BDA00026204142300001017
其中,Px是判别器Dt预测样本x是高置信度图像的概率,x∈{xH,xL},xH∈xtH,xL∈xtL,y是样本x的真实标签,如果样本是高置信度图像,y值为1;如果样本是低置信度图像,y值为0。
为了训练Gt欺骗判别器,计算输入为低置信度图像的基尼指数图
Figure BDA00026204142300001018
时的判别器损失:
Figure BDA00026204142300001019
其中
Figure BDA00026204142300001020
是判别器Dt预测样本xL是高置信度图像的概率,y取值为1。
语义分割网络Gt的总损失为L域内(xH,xL):
Figure BDA0002620414230000111
其中,μ2、μadv为超参数。
实施例
1、实验数据集
本发明提出的方法在常用的无监督自适应数据集GTA5-Cityscapes上进行了实验,其中合成数据集GTA5作为源域,真实数据集Cityscapes为目标域。模型在Cityscapes验证集上进行评价。
·GTA5:合成数据集GTA5包含24966幅分辨率为1914×1052的合成图像和相应的ground-truth。这些合成图像是从一个基于洛杉矶市的城市风光视频游戏收集的。自动生成的ground-truth包含33个类别。在GTA5-Cityscapes上进行实验的方法一般只考虑与Cityscapes数据集兼容的19个类别,本发明也不例外。
·Cityscapes:作为从现实世界收集的数据集,Cityscapes提供了3975幅具有精细分割标注的图像。训练集包含2975张图像,验证集包含500幅图像。
2、实验评价指标
本发明使用交并比(Intersection-over-Union,IoU)评估语义分割的性能。IoU值在[0,1]之间取值,值越大分割效果越好,IoU定义如下:
IoU=TP/(TP+FP+FN)
其中TP、FP和FN分别是真阳性(true positive)、假阳性(false positive)和假阴性(false negative)像素的数目。表4中的mIoU是19类的平均IoU。
3、网络训练
域间自适应网络batch size是2,源域输入图像的分辨率为1280×720,目标域输入图像的分辨率为1024×512。训练时把label缩小8倍和网络的计算结果图计算损失;测试时则是对网络的计算结果图扩大8倍进行计算。β1、β3设置为0.1;β2、β4、β5、β6设置为0.2,μ1、μ2、μadv设置为0.01。语义分割网络Gst和Gt的编码器ResNet-101基于ImageNet进行预训练,利用源域分割损失和目标域预测的不确定性损失更新语义分割网络Gst的参数。对于目标域域内自适应,利用高置信度图像的分割损失、低置信度图像的不确定性损失和判别器判别损失更新语义分割网络Gt参数和判别器Dt参数。为了训练Gst和Gt,我们使用SGD优化器,初始学习率为2.5×10-4。学习率为10-4的Adam优化器用于训练Dt
4、实验结果
表4给出了本发明、Adapt-SegMap、MinEnt在常用的无监督自适应数据集GTA5-Cityscapes上的实验结果,本发明的实验结果明显优于对比方法。可以看出,本发明在只进行域间自适应时mIoU达到43.4%;在域间自适应基础上增加目标域域内自适应时mIoU明显提升,γ=1.67时mIoU达到46.4%。
表1:编码器结构参数
Figure BDA0002620414230000121
表2:解码器结构参数
Figure BDA0002620414230000122
表3:判别器结构参数
Figure BDA0002620414230000123
表4改进实验结果对比
Figure BDA0002620414230000131

Claims (3)

1.一种基于基尼指数的领域自适应语义分割方法,其特征在于:利用基尼指数度量输出预测的不确定性,在输出层对目标域输出预测进行不确定性度量及约束,减小源域和目标域在类别分布上的差异,进行域间自适应;依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集,对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络,对域内自适应分割网络两个子集的输出预测计算基尼指数图,对低置信度样本计算的基尼指数图进行约束,并利用判别器Dt判别基尼指数图属于哪个子集,基于对抗思想减小目标域域内的差异,提高语义标注精度。
2.根据权利要求1所述的一种基于基尼指数的领域自适应语义分割方法,其特征在于:利用合成数据集作为源域,真实数据集为目标域;训练时,在域间自适应网络输入源域和目标域图像进行训练,训练完成后,将目标域图像进行划分输入到域内自适应网络进行训练,得到最优分割结果;
具体方法步骤如下:
步骤(1),将源域数据集和目标域数据集各取一张RGB图片(batchsize为2)同时输入域间自适应语义分割网络Gst
步骤(2),利用域间自适应语义分割网络Gst得到源域和目标域的最后两层的输出预测分割图;
步骤(3),将源域最后两层的输出预测图分别和源域图片的groundtruth计算交叉熵损失,并将源域最后两层的损失进行加权求和;
步骤(4),将目标域最后两层的输出预测图分别利用基尼指数计算不确定性损失,并将目标域最后两层的损失加权求和;
步骤(5),将步骤(3)得出的源域最后两层的损失加权求和值和步骤(4)的目标域最后两层的损失加权求和值进行求和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果;
步骤(6),依据训练好的域间自适应语义分割网络Gst的基尼指数结果对目标域数据集划分为高置信度数据集和低置信度数据集;
步骤(7),将划分后的目标域数据集作为域内自适应网络的输入数据集,每次输入一张RGB图片,利用域内自适应语义分割网络Gt分别得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图;
步骤(8),将高置信度数据集最后两层的输出预测图分别和利用域间自适应分割网络Gst得到的高置信度数据集的伪标签计算交叉熵损失,并将两层的损失进行加权求和;
步骤(9)对域内自适应语义分割网络Gt得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图计算基尼指数图,分别得到高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图;
步骤(10)将低置信度最后两层的加权求和的基尼指数图计算不确定性损失;
步骤(11)将高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图输入到判别器,分别贴上域标签1和0,与域内语义分割网络对抗,计算对抗损失;
步骤(12),将步骤(8)、步骤(10)、步骤(11)的损失加和,为了训练最优化模型,我们的目标是利用误差反向传播使得损失最小化,得到最优结果。
3.根据权利要求2所述的一种基于基尼指数的领域自适应语义分割方法,其特征在于:测试时,利用真实数据集即目标域作为输入,在域间自适应网络和域内自适应网络得到测试结果。
CN202010781502.8A 2020-08-06 2020-08-06 一种基于基尼指数的领域自适应语义分割方法 Pending CN112116593A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010781502.8A CN112116593A (zh) 2020-08-06 2020-08-06 一种基于基尼指数的领域自适应语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010781502.8A CN112116593A (zh) 2020-08-06 2020-08-06 一种基于基尼指数的领域自适应语义分割方法

Publications (1)

Publication Number Publication Date
CN112116593A true CN112116593A (zh) 2020-12-22

Family

ID=73799154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010781502.8A Pending CN112116593A (zh) 2020-08-06 2020-08-06 一种基于基尼指数的领域自适应语义分割方法

Country Status (1)

Country Link
CN (1) CN112116593A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113221880A (zh) * 2021-04-29 2021-08-06 上海勃池信息技术有限公司 基于基尼不纯度的ocr版面分析方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113870258A (zh) * 2021-12-01 2021-12-31 浙江大学 一种基于对抗学习的无标签胰腺影像自动分割系统
CN114445413A (zh) * 2022-04-07 2022-05-06 宁波康达凯能医疗科技有限公司 一种基于域自适应的帧间图像语义分割方法与系统
CN114648683A (zh) * 2022-05-23 2022-06-21 天津所托瑞安汽车科技有限公司 基于不确定性分析的神经网络性能提升方法和设备
CN115471662A (zh) * 2022-11-03 2022-12-13 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN111402259A (zh) * 2020-03-23 2020-07-10 杭州健培科技有限公司 一种基于多层次结构关系学习网络的脑肿瘤分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135494A (zh) * 2019-05-10 2019-08-16 南京工业大学 基于最大信息系数和基尼指标的特征选择方法
CN111402259A (zh) * 2020-03-23 2020-07-10 杭州健培科技有限公司 一种基于多层次结构关系学习网络的脑肿瘤分割方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113221880A (zh) * 2021-04-29 2021-08-06 上海勃池信息技术有限公司 基于基尼不纯度的ocr版面分析方法
CN113221880B (zh) * 2021-04-29 2022-08-05 上海勃池信息技术有限公司 基于基尼不纯度的ocr版面分析方法
CN113870258A (zh) * 2021-12-01 2021-12-31 浙江大学 一种基于对抗学习的无标签胰腺影像自动分割系统
CN114445413A (zh) * 2022-04-07 2022-05-06 宁波康达凯能医疗科技有限公司 一种基于域自适应的帧间图像语义分割方法与系统
CN114648683A (zh) * 2022-05-23 2022-06-21 天津所托瑞安汽车科技有限公司 基于不确定性分析的神经网络性能提升方法和设备
CN115471662A (zh) * 2022-11-03 2022-12-13 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质

Similar Documents

Publication Publication Date Title
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Von Stumberg et al. Gn-net: The gauss-newton loss for multi-weather relocalization
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN110473231B (zh) 一种具有预判式学习更新策略的孪生全卷积网络的目标跟踪方法
CN111008639B (zh) 一种基于注意力机制的车牌字符识别方法
CN113902991A (zh) 一种基于级联特征融合的孪生网络目标跟踪方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与系统
CN111950393A (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN110728694A (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN113408472A (zh) 目标重识别模型的训练方法、目标重识别方法及装置
CN114913498A (zh) 一种基于关键点估计的并行多尺度特征聚合车道线检测方法
CN114842553A (zh) 基于残差收缩结构和非局部注意力的行为检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN114596440A (zh) 语义分割模型的生成方法、装置、电子设备及存储介质
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116758610A (zh) 基于注意力机制和特征融合的轻量化人耳识别方法及系统
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法
CN114120202B (zh) 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法
CN116342648A (zh) 基于混合结构注意力引导的孪生网络目标跟踪方法
CN112950615B (zh) 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及系统
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法
CN113408356A (zh) 基于深度学习的行人重识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination