CN112116593A

CN112116593A - 一种基于基尼指数的领域自适应语义分割方法

Info

Publication number: CN112116593A
Application number: CN202010781502.8A
Authority: CN
Inventors: 王立春; 胡玉杰; 王少帆; 孔德慧; 李敬华; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-22

Abstract

本发明公开了一种基于基尼指数的领域自适应语义分割方法，利用基尼指数度量输出预测的不确定性，在输出层对目标域输出预测进行不确定性度量及约束，减小源域和目标域在类别分布上的差异，进行域间自适应；依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集，对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络，对域内自适应分割网络两个子集的输出预测计算基尼指数图，对低置信度样本计算的基尼指数图进行约束，并利用判别器D_t判别基尼指数图属于哪个子集，基于对抗思想减小目标域域内的差异，提高语义标注精度。与现有技术相比较，本发明显著提高了目标域的语义标注准确率。

Description

一种基于基尼指数的领域自适应语义分割方法

技术领域

本发明涉及一种无监督领域自适应语义标注方法，尤其涉及一种基于基尼指数的领域自适应语义分割方法，属于模式识别与计算机视觉领域，可应用于自动驾驶、机器人视觉导航技术中。

背景技术

无监督领域自适应语义分割利用有标注的源域数据和无标注的目标域数据进行训练，学习一个对目标域图像有较好的语义标注效果的模型。精确的无监督领域自适应语义分割对于许多应用至关重要，如自动驾驶、机器人导航等。

无监督领域自适应要解决的主要问题是如何减小源域和目标域之间的差异，通常的策略包括：输入空间的域间自适应，特征空间的域间自适应和输出空间的域间自适应。输入空间的域间自适应对输入图像进行风格转换，实现数据边缘分布的对齐，但由于生成的图像会出现标签不匹配的情况，从而影响目标域的分割精度；特征空间的域间自适应一般使用域分类器与特征生成器进行对抗以提取具有域不变性质的特征，由于特征语义和嵌入结构的复杂性，很难完全获取域不变特征，因而会导致分割结果不佳；输出空间的域间自适应，基于模型输出的预测图利用域分类器和语义分割网络进行对抗适应，或者直接对输出预测分布进行约束，通过对齐源域和目标域的类分布，减小源域和目标域差异。

此外，由于运动、天气等多种因素导致采集得到的目标域内同类数据具有较大差异，这个差异对于目标域语义标注精度有一定影响。一些研究工作在考虑域间自适应的同时也考虑目标域的域内自适应，通常的策略包括：对部分目标域数据赋予伪标签，赋予伪标签的数据集与未赋予伪标签的数据集在特征层利用判别器和特征生成器进行对抗，缩小域内差异。伪标签阈值通常根据经验人为设置，需要大量实验并且可能引入噪声。

发明内容

为有效提高无监督领域自适应语义分割的准确率，本发明采用了一种新的度量输出预测的不确定性的方法，并约束源域和目标域输出预测的不确定性之间的关系，达到缩小源域和目标域之间的差异的目的；在目标域，利用高可靠性的伪标签进行自监督训练，同时在输出空间利用判别器和语义分割网络对抗，减小目标域域内差异。

为实现上述目的，本发明采用的技术方案为一种基于基尼指数的领域自适应语义分割方法，利用基尼指数度量输出预测的不确定性，在输出层对目标域输出预测进行不确定性度量及约束，减小源域和目标域在类别分布上的差异，进行域间自适应；依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集，对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络，对域内自适应分割网络两个子集的输出预测计算基尼指数图，对低置信度样本计算的基尼指数图进行约束，并利用判别器D_t判别基尼指数图属于哪个子集，基于对抗思想减小目标域域内的差异，提高语义标注精度。

利用合成数据集作为源域，真实数据集为目标域。训练时，在域间自适应网络输入源域和目标域图像进行训练，训练完成后，将目标域图像进行划分输入到域内自适应网络进行训练，得到最优分割结果。测试时，利用真实数据集即目标域作为输入，在域内自适应网络得到测试结果。

具体方法步骤如下：

步骤(1)，将源域数据集和目标域数据集各取一张RGB图片同时输入域间自适应语义分割网络G_st；

步骤(2)，利用域间自适应语义分割网络G_st得到源域和目标域的最后两层的输出预测分割图；

步骤(3)，将源域最后两层的输出预测图分别和源域图片的groundtruth计算交叉熵损失，并将源域最后两层的损失进行加权求和；

步骤(4)，将目标域最后两层的输出预测图分别利用基尼指数计算不确定性损失，并将目标域最后两层的损失加权求和；

步骤(5)，将步骤(3)得出的源域最后两层的损失加权求和值和步骤(4)的目标域最后两层的损失加权求和值进行求和，为了训练最优化模型，我们的目标是利用误差反向传播使得损失最小化，得到最优结果；

步骤(6)，依据训练好的域间自适应语义分割网络G_st的基尼指数结果对目标域数据集划分为高置信度数据集和低置信度数据集；

步骤(7)，将划分后的目标域数据集作为域内自适应网络的输入数据集，每次输入一张RGB图片，利用域内自适应语义分割网络G_t分别得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图；

步骤(8)，将高置信度数据集最后两层的输出预测图分别和利用域间自适应分割网络G_st得到的高置信度数据集的伪标签计算交叉熵损失，并将两层的损失进行加权求和；

步骤(9)对域内自适应语义分割网络G_t得到高置信度数据集和低置信度数据集的最后两层的输出预测分割图计算基尼指数图，分别得到高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图；

步骤(10)将低置信度最后两层的加权求和的基尼指数图计算不确定性损失；

步骤(11)将高置信度图像两层加权求和后的基尼指数图和低置信度图像两层加权求和后的基尼指数图输入到判别器，分别贴上域标签1和0，与域内语义分割网络对抗，计算对抗损失；

步骤(12)，将步骤(8)、步骤(10)、步骤(11)的损失加和，为了训练最优化模型，我们的目标是利用误差反向传播使得损失最小化，得到最优结果。

与现有技术相比较，本发明提出了一种新的无监督领域自适应语义标注方法，即结合域间自适应和目标域域内自适应同时缩小源域和目标域的域间差异以及目标域的域内差异，从而提高目标域的语义标注准确率。

附图说明

图1：域间自适应网络结构图。

图2：语义分割网络结构图。

图3：ASPP模块结构图。

图4：目标域域内自适应网络结构图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

利用合成数据集GTA5作为源域，真实数据集Cityscapes为目标域。训练时，在域间自适应网络输入源域和目标域图像进行训练，训练完成后，将目标域图像进行划分输入到域内自适应网络进行训练，得到最优分割结果。测试时，利用真实数据集即目标域作为输入，在域内自适应网络得到测试结果。

具体方法步骤如下：

步骤(1)，将源域数据集和目标域数据集的各取一张RGB图片同时输入域间自适应语义分割网络G_st；

本发明提出的方法所搭建的模型由两部分组成：1)域间自适应网络，利用基尼指数度量输出预测的不确定性，在输出层对目标域输出预测进行不确定性度量及约束，减小源域和目标域在类别分布上的差异；2)目标域域内自适应网络，依据域间自适应网络对目标域预测的不确定性度量结果将目标域样本集划分为两个子集，高置信度预测对应的样本利用伪标签作为弱监督信息更新域内自适应语义分割网络，对域内自适应分割网络两个子集的输出预测计算基尼指数图，对低置信度样本计算的基尼指数图进行约束，并利用判别器Dt判别基尼指数图属于哪个子集，基于对抗思想减小目标域域内的差异。

1、域间自适应网络：

模型如果只在源域数据集进行训练，与源域图像相似的图像将产生高置信度的输出预测结果，而与目标域图像相似的图像将产生低置信度的输出预测结果。基于此观察，域间自适应的创新点是对目标域图像的输出预测利用基尼指数度量预测的不确定性并对其约束，使得目标域图像同样产生高置信度输出预测结果，从而缩小源域和目标域的差异。

1)域间自适应网络的网络结构

域间自适应网络的网络结构图如图1所示，其中语义分割网络G_st以Deeplab-V2作为基本网络架构，由编码器和解码器两部分构成，G_st网络结构图如图2所示。

编码器以Resnet101作为基础网络，网络结构参数如表1所示。编码器由一个卷积层Conv_1和Conv_2、Conv_3、Conv_4、Conv_5四个block构成，各block分别包括3、4、23、3个残差模块，激活函数都是ReLU函数。

卷积层Conv_1包含stride＝2、padding＝3的64个7*7滤波器。

四个block中，Conv_2包含一个3*3最大池化层和3个残差模块；Conv_3第一个残差模块的1*1滤波器的stride＝2、无padding；Conv_4第一个残差模块的3*3滤波器是stride＝1、dilation＝2、padding＝2的空洞卷积；Conv_5第一个残差模块的3*3滤波器是stride＝1、dilation＝4、padding＝4的空洞卷积；以上没有特别说明的其余残差模块中，3*3滤波器均是stride＝1且padding＝1的卷积，1*1滤波器均是stride＝1且无padding的卷积。

解码器将Conv_4和Conv_5得到的特征图分别输入ASPP模块，ASPP输出的最终特征图是原图的1/8，用双线性插值将其恢复到原图大小，最后使用CRF平滑边界，最终得到两组语义分割结果。ASPP模块的结构如图3所示，详细参数如表2所示。

2)域间自适应网络的损失函数

域间自适应网络的损失包括源域分割损失和目标域预测的不确定性损失。

i.源域分割损失

对源域数据，本发明使用传统的交叉熵作为损失函数计算分割损失，分别基于Conv_5和Conv_4输出的预测计算对应的分割损失

和

这两项分割损失的和是语义分割网络G_st的总损失L_seg(x_s,y_s)：

其中，x_s∈R^H×W×3是分辨率为H×W的源域RGB图像；y_s∈R^H×W×C是源域图像x_s的ground truth，C是类的数量；

是语义分割网络G_st的Conv_5输出的源域图像x_s的预测分割图；

是语义分割网络G_st的Conv_4输出的源域图像x_s的预测分割图；β₁为超参数。

ii.目标域预测的不确定性损失

本发明采用基尼指数度量目标域预测的不确定性，通过最小化基尼指数约束域间自适应网络对目标域图像得到高置信度的预测结果。

分别对Conv_5和Conv_4输出的目标域图像预测计算像素级基尼指数

和

像素级基尼指数计算方式如下：

x_t∈R^H×W×3是分辨率为H×W的目标域RGB图像；

是基于语义分割网络G_st的Conv_5输出的目标域图像x_t的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

是基于语义分割网络G_st的Conv_4输出的目标域图像x_t的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

是语义分割网络G_st的Conv_5输出的目标域图像x_t的预测分割图；

是语义分割网络G_st的Conv_4输出的目标域图像x_t的预测分割图。

目标域图像x_t的基尼指数计算方式如下：

其中β₂为超参数。

目标域图像x_t的基尼指数即为目标域预测的不确定性损失：

L_Gini(x_t)＝Gini(x_t) (7)

语义分割网络G_st的总损失L_域间(x_s,x_t)为:

L_域间(x_s,x_t)＝L_seg(x_s,y_s)+μ₁L_Gini(x_t) (8)

其中μ₁为超参数。

2、目标域域内自适应网络

由于从真实场景中收集的目标域数据同类内也具有较大差异，所以有必要考虑目标域域内自适应。目标域域内自适应的创新点是利用目标域图像的基尼指数Gini(x_t)将目标域数据集划分成高置信度图像子集和低置信度图像子集；利用语义分割网络G_t计算两个子集的基尼指数图，对低置信度样本计算的基尼指数图进行约束；并利用语义分割网络G_t与判别器D_t进行对抗，判别器负责判别基尼指数图属于哪一个子集。

1)目标域图像集划分

依据目标域图像的基尼指数Gini(x_t)将目标域样本划分为高置信度图像子集x_tH和低置信度图像子集x_tL，两个子集合的样本数量比为γ：

其中∣·∣表示集合的基数，x_tH∪x_tL＝{x_t}并且

MAX(Gini(x_H))<MIN(Gini(x_L)),x_H∈x_tH,x_L∈x_tL。

2)目标域域内自适应网络的网络结构

目标域域内自适应网络由语义分割网络G_t和判别器D_t两部分构成，网络结构如图4所示。其中，语义分割网络G_t网络结构及参数与G_st相同；判别器D_t的网络结构及参数如表3所示，D_t的激活函数采用Leaky ReLU函数，negative slope为0.2。

3)目标域域内自适应网络的损失函数

目标域域内自适应网络的损失包括三部分：目标域高置信度图像分割损失，目标域低置信度图像不确定性损失，判别器判别损失。

i.高置信度图像分割损失

使用传统的交叉熵损失函数计算高置信度图像的分割损失，分别基于Conv_5和Conv_4输出的预测计算对应的分割损失

和

这两项分割损失的和是语义分割网络G_t的总损失L_seg(x_H,y_H):

其中，x_H∈R^H×W×3是分辨率为H×W的目标域RGB图像且x_H∈x_tH；y_H∈R^H×W×C是目标域图像x_H的ground truth，C是类的数量；

是语义分割网络G_t的Conv_5输出的目标域图像x_H的预测分割图；

是语义分割网络G_t的Conv_4输出的目标域图像x_H的预测分割图，β₃为超参数。

ii.低置信度图像不确定性损失

本发明采用基尼指数度量目标域低置信度图像预测的不确定性，通过最小化基尼指数的方法约束模型，使目标域低置信度图像产生高置信度的输出预测结果。

分别对Conv_5和Conv_4输出的目标域图像预测，计算像素级基尼指数

和

其中，x_L∈R^H×W×3是分辨率为H×W的目标域RGB图像且x_L∈x_tL；

是基于语义分割网络G_t的Conv_5输出的目标域图像x_L的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

是基于语义分割网络G_t的Conv_4输出的目标域图像x_L的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

是语义分割网络G_t的Conv_5输出的目标域图像x_L的预测分割图；

是语义分割网络G_st的Conv_4输出的目标域图像x_L的预测分割图。

目标域图像x_L的基尼指数计算方式如下：

其中β₄为超参数。

目标域低置信度图像预测的不确定性损失函数L_Gini(x_L)为：

L_Gini(x_L)＝Gini(x_L) (16)

iii.判别器判别损失

为了使目标域域内差异减小，本发明以基尼指数图作为判别器D_t的输入，判断输入的基尼指数图对应的源图像是高置信度图像或低置信度图像。本发明在训练判别器的同时训练语义分割网络G_t欺骗判别器。

判别器D_t的输入是高置信度图像的基尼指数图

和低置信度图像的基尼指数图

中像素值的具体计算方式如下：

其中β₅为超参数，

和

的计算分别如式(13)和(14)。

中像素值的具体计算方式如下：

其中β₆为超参数，

和

基于Conv_5和Conv_4输出的目标域图像预测计算得到的像素级基尼指数：

其中，x_H∈R^H×W×3是分辨率为H×W的目标域RGB图像且x_H∈x_tH；

是基于语义分割网络G_t的Conv_5输出的目标域图像x_H的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

是基于语义分割网络G_t的Conv_4输出的目标域图像x_H的预测分割图计算的基尼指数图，

是对应的像素级基尼指数；

将基尼指数图

和

输入到判别器，利用交叉熵函数计算二分类损失，判别器D_t的损失函数为：

其中，P_x是判别器D_t预测样本x是高置信度图像的概率，x∈{x_H，x_L}，x_H∈x_tH，x_L∈x_tL，y是样本x的真实标签，如果样本是高置信度图像，y值为1；如果样本是低置信度图像，y值为0。

为了训练G_t欺骗判别器，计算输入为低置信度图像的基尼指数图

时的判别器损失：

其中

是判别器D_t预测样本x_L是高置信度图像的概率，y取值为1。

语义分割网络G_t的总损失为L_域内(x_H,x_L):

其中，μ₂、μ_adv为超参数。

实施例

1、实验数据集

本发明提出的方法在常用的无监督自适应数据集GTA5-Cityscapes上进行了实验，其中合成数据集GTA5作为源域，真实数据集Cityscapes为目标域。模型在Cityscapes验证集上进行评价。

·GTA5：合成数据集GTA5包含24966幅分辨率为1914×1052的合成图像和相应的ground-truth。这些合成图像是从一个基于洛杉矶市的城市风光视频游戏收集的。自动生成的ground-truth包含33个类别。在GTA5-Cityscapes上进行实验的方法一般只考虑与Cityscapes数据集兼容的19个类别，本发明也不例外。

·Cityscapes：作为从现实世界收集的数据集，Cityscapes提供了3975幅具有精细分割标注的图像。训练集包含2975张图像，验证集包含500幅图像。

2、实验评价指标

本发明使用交并比(Intersection-over-Union,IoU)评估语义分割的性能。IoU值在[0，1]之间取值，值越大分割效果越好，IoU定义如下：

IoU＝TP/(TP+FP+FN)

其中TP、FP和FN分别是真阳性(true positive)、假阳性(false positive)和假阴性(false negative)像素的数目。表4中的mIoU是19类的平均IoU。

3、网络训练

域间自适应网络batch size是2，源域输入图像的分辨率为1280×720，目标域输入图像的分辨率为1024×512。训练时把label缩小8倍和网络的计算结果图计算损失；测试时则是对网络的计算结果图扩大8倍进行计算。β₁、β₃设置为0.1；β₂、β₄、β₅、β₆设置为0.2，μ₁、μ₂、μ_adv设置为0.01。语义分割网络G_st和G_t的编码器ResNet-101基于ImageNet进行预训练，利用源域分割损失和目标域预测的不确定性损失更新语义分割网络G_st的参数。对于目标域域内自适应，利用高置信度图像的分割损失、低置信度图像的不确定性损失和判别器判别损失更新语义分割网络G_t参数和判别器D_t参数。为了训练G_st和G_t，我们使用SGD优化器，初始学习率为2.5×10^-4。学习率为10^-4的Adam优化器用于训练D_t。

4、实验结果

表4给出了本发明、Adapt-SegMap、MinEnt在常用的无监督自适应数据集GTA5-Cityscapes上的实验结果，本发明的实验结果明显优于对比方法。可以看出，本发明在只进行域间自适应时mIoU达到43.4％；在域间自适应基础上增加目标域域内自适应时mIoU明显提升，γ＝1.67时mIoU达到46.4％。

表1：编码器结构参数

表2：解码器结构参数

表3：判别器结构参数

表4改进实验结果对比

Claims

1.一种基于基尼指数的领域自适应语义分割方法，其特征在于：利用基尼指数度量输出预测的不确定性，在输出层对目标域输出预测进行不确定性度量及约束，减小源域和目标域在类别分布上的差异，进行域间自适应；依据基尼指数对目标域预测的不确定性度量结果将目标域样本集划分为两个子集，对域内高置信度预测对应的样本利用伪标签作为弱监督信息训练域内自适应分割网络，对域内自适应分割网络两个子集的输出预测计算基尼指数图，对低置信度样本计算的基尼指数图进行约束，并利用判别器D_t判别基尼指数图属于哪个子集，基于对抗思想减小目标域域内的差异，提高语义标注精度。

2.根据权利要求1所述的一种基于基尼指数的领域自适应语义分割方法，其特征在于：利用合成数据集作为源域，真实数据集为目标域；训练时，在域间自适应网络输入源域和目标域图像进行训练，训练完成后，将目标域图像进行划分输入到域内自适应网络进行训练，得到最优分割结果；

具体方法步骤如下：

步骤(1)，将源域数据集和目标域数据集各取一张RGB图片(batchsize为2)同时输入域间自适应语义分割网络G_st；

3.根据权利要求2所述的一种基于基尼指数的领域自适应语义分割方法，其特征在于：测试时，利用真实数据集即目标域作为输入，在域间自适应网络和域内自适应网络得到测试结果。