CN110222690B

CN110222690B - 一种基于最大二乘损失的无监督域适应语义分割方法

Info

Publication number: CN110222690B
Application number: CN201910353614.0A
Authority: CN
Inventors: 陈铭浩; 蔡登�; 薛弘扬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-08-10
Anticipated expiration: 2039-04-29
Also published as: CN110222690A

Abstract

本发明公开了一种基于最大二乘损失的无监督域适应语义分割方法，包括：(1)在源域上预训练语义分割模型，所述语义分割模型基于ResNet网络；(2)同时提取语义分割模型中第四层的特征，加入一个额外的分类网络，对该网络分支进行同样的预训练；(3)在源域上有监督地训练语义分割模型，同时在目标域上使用最大二乘损失无监督地训练语义分割模型；(4)在目标域，使用ResNet网络最后一层的输出作为伪标签，无监督地训练第四层特征；(5)模型训练完毕，在目标域上对图片输出它的语义分割图。利用本发明，使无监督域适应的语义分割效果中，能够对难训练样本和小物体类别得到更多的训练，提高最后目标域上的语义分割质量。

Description

一种基于最大二乘损失的无监督域适应语义分割方法

技术领域

本发明属于无监督域适应的语义分割领域，尤其是涉及一种基于最大二乘损失的无监督域适应语义分割方法。

背景技术

在过去的十几年中，深度学习在语义分割任务中取得了巨大成功。随着大量公开可利用的网上语义分割模型，语义分割受到了广泛来自工业界和学术界研究者的关注。例如无人驾驶系统中就需要语义分割技术来识别信号灯，以及帮助识别障碍物。对于当前用于深度网络训练的数据集，例如PASCAL VOC-2012和Cityscapes数据集，研究人员已经在当前数据集上的深层模型的表现方面取得了显着进展。然而，这些具有逐像素语义标签的真实数据集需要大量的手动标注工作。对于Cityscapes，准确标记一张图像需要90分钟人力。由于这种数据集标注的困难，用于语义分割的真实世界数据集通常只包含少量样本，这妨碍了模型对各种真实世界情况的推广。克服此限制的一种可能方法是使用合成数据集，例如2016年European Conference on Computer Vision会议上收录的《Playing for data:Ground truth from computer games》中使用Grand Theft Auto V(GTA5)游戏引擎收集游戏中的仿真情景作为数据集，它们花费更少的时间来标记和拥有更多样本。然而，由于两个数据集之间存在较大的外观差异，在合成数据集上训练的模型不能直接用于真实世界的例子。

用于语义分割的无监督域适应(UDA)是旨在解决上述迁移问题的任务。在无监督域适应中，标记的合成数据集称为源域，未标记的真实数据集称为目标域，任务是解决语义分割任务的标记源域和未标记目标域之间的表现差异的问题。无监督域适应的一般概念是利用来自目标域的未标记数据来帮助最小化这两个域之间的性能差距。

传统的域适应方法背后的核心思想是最小化源域和目标域的特征分布之间的差异，这意味着学习域不变特征。分布差异可以通过基于最大均值差异(MMD)的方法来测量或基于对抗性学习的方法。除了全局分布对齐，类别和条件分布对齐也被广泛研究。

最近，受到利用未标记数据的半监督学习的启发，一些基于半监督学习的域适应方法被提出用于隐式地对齐域之间的特征分布。这些基于半监督学习的方法在分类和语义分割中实现了最先进的结果。例如在2018European Conference on Computer Vision会议上收录的《Unsupervised domain adaptation for semantic segmentation via class-balanced self-training》中，提出的类平衡的自学习方法，它假设了具有较高预测概率的区域更准确，让预测概率值高于一定阈值的区域作为训练的伪标签。

熵最小化方法是半监督学习中最流行的方法之一，它鼓励通过减小在无标签样本上的熵来得到明确的聚类分配。在半监督学习研究中，有这样的结论：未标记的例子的信息内容随着类重叠而减少。换句话说，使未标记的样本不那么模糊可以帮助类别之间更加可分离，例如，最小化条件熵。在2018年Arxiv网站上的技术文章《ADVENT:adversarialentropy minimization for domain adaptation in semantic segmentation.》中，他们直接将熵最小化方法用于无监督域适应的语义分割，最小化了目标样本的预测熵，但是其结果不如最先进的方法。

通过分析熵最小化方法的梯度，我们发现较高的预测概率会导致目标样本的较大梯度。如果我们采用自学习中的假设：具有较高预测概率的目标样本更准确，那么具有高精度的区域将比具有低精度的区域更充分地训练。因此，熵最小化方法将允许对易于转移的样本进行充分训练，这阻碍了难以转移的样本的训练过程。熵最小化中的这个问题可以称为概率不平衡：易于转移的类具有更高的概率，这导致比难以转移的类更大的梯度。那么容易分类的类别会过度训练，而难分类的类别会更少训练。此外，我们还注意到未标记目标域中的类不平衡。容易分类的类拥有更多的样本，而难分类的类包含的训练样本则少得多。在传统的监督学习中，平衡类别数量的常规方法是引入加权因子，其通常设置为类频率的相反数，那么一个类的样本越多训练的权重就越小。但是，在无监督域适应任务中，目标域上没有标注好的类标签来计算类频率，使得常规的加权因子在这个任务中不可用。

发明内容

本发明提供了一种基于最大二乘损失的无监督域适应语义分割方法，使无监督域适应的语义分割效果中，能够对难训练样本和小物体类别得到更多的训练，提高最后目标域上的语义分割质量。

本发明的技术方案如下：

一种基于最大二乘损失的无监督域适应语义分割方法，包括：

(1)在源域上预训练语义分割模型，所述语义分割模型基于ResNet网络；

(2)同时提取语义分割模型中第四层的特征，加入一个额外的分类网络，对该网络分支进行同样的预训练；

(3)在源域上有监督地训练语义分割模型，同时在目标域上使用最大二乘损失无监督地训练语义分割模型；

(4)在目标域，使用ResNet网络最后一层的输出作为伪标签，无监督地训练第四层特征；

(5)模型训练完毕，在目标域上对图片输出它的语义分割图。

由于源域上有标签信息，在步骤(1)中，我们使用一般的监督学习方法：模型输出与标签做交叉熵损失，令源域表示为

对于一个源域的样本(x_s,y_s)，所述监督学习公式为：

其中，n表示在H×W二维平面空间中的一个像素点，

为标签y_s在位置n处类c的概率，

是模型在样本x_s的位置n处对类c的预测概率。

在步骤(2)中，提取了ResNet网络的第4层的特征，将它通过一个额外的分类网络。也是用同样的监督学习公式来训练这个网络分支。

在步骤(3)中，同时在源域和目标域上进行训练，令目标域表示为

对于一个源域的样本(x_s,y_s)与一个目标域样本x_t，总的损失函数为

其中，

就是之前说的监督学习公式，而

是在目标域上无监督训练的损失函数，λ_T为目标损失的权重。本发明提出了一个创新的损失函数，称为最大二乘损失，其形式为负的概率平方和：

其中，

是模型在目标样本x_t的位置n处对类c的预测概率。在进一步分析中，证明了这个公式等价于与均匀分布的Pearson散度：

因此，优化最大二乘损失，可以增大与均匀分布的距离，从而降低目标样本的模糊性。通过将目标样本推离分类平面，来实现两个域之间的特征分布匹配。

由于目标域上有类别不平衡现象：容易分类的类具有更多的样本。为了平衡数量的影响，本发明提出一个新的加权因子，含加权因子的最大二乘损失函数为

其中，

为样本图x_t上模型预测为类c的像素数，N为总的像素数，α为对这两个数进行插值的参数，由交叉验证决定；

基于每张图上预测的类别数量，具体公式为：

其中，

是模型在目标样本x_t的位置n处对类c的预测概率；

是在目标样本x_t的位置n的模型预测的类别；

为样本图x_t上模型预测为类c的像素数。

在步骤(4)中，由于最后的输出会比中间层的输出预测准确率高，因此采用让最后的输出作为伪标签来指导中间层特征训练的方法。

其中伪标签的生成方法为：先对最后一层的输出P^final以及第四层的输出P^low做平均，得到集成输出P^ens，然后根据下述方程得到伪标签y^fuse：

其中，

是集成模型在目标样本x_t的位置n处对类c的预测概率，

是模型最后一层输出在目标样本x_t的位置n处对类c^*的预测概率，

是模型第四层输出在目标样本x_t的位置n处对类c^*的预测概率，δ为阈值参数，实验中发现阈值的选择对结果影响不大，因此设定δ为0.98。

步骤(4)中，无监督地训练第四层特征的具体方法为：将伪标签与第四层的输出做交叉熵损失

同时，该损失作为额外的目标域上的损失函数，与其他损失加权平均后得到最后的损失函数，使用SGD进行优化：

其中，λ_T为目标损失的权重，λ_Low为低层网络输出的损失的权重。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出的最大二乘损失的梯度线性增加。与目标域中的熵最小化方法相比，它能够平衡的不同类别的梯度。信心较高的区域仍然具有较大的梯度，但它们的主导效应已经降低，允许其他困难类别获得训练梯度。因此，配备最大二乘损失，我们减轻了熵最小化的概率不平衡问题。

2、本发明利用的新加权因子，能够平衡无标签的目标域的类别数量，解决目标域上的类别不平衡问题，从而使得小物体得到更好的训练，提升输出的语义分割图质量。

3、本发明提出的多层自指导方法，能够自我指导训练中间层的特征。相比其他基准线算法，具有更好的模型性能。

附图说明

图1为本发明方法的网络处理流程示意图；

图2为本发明方法的最大二乘损失的梯度示意图；

图3为本发明的最大二乘损失效果示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明框架主要分为两条分支分别处理两个域的图像：(a)(虚线)源域图像经过网络生成低层分割图和最后的分割图，分别与正确标签做交叉熵损失，其中

为低层分割图与正确标签的交叉熵损失，L_seg为最后的分割图与正确标签的交叉熵损失。(b)(实线)目标域图像经过网络，在最后部分生成的分割图产生最大二乘损失，同时生成一个自引导的伪标签，用于指引中间层输出的分割图。具体步骤分别阐述如下：

(a)源域图像经过网络生成低层分割图和最后的分割图，分别与正确标签做交叉熵损失。基本步骤如下：

1.提取了ResNet网络的第4层的特征，将它通过一个额外的分类网络，得到中间层的输出P^low，而ResNet网络最后的分割输出为P^final。

2.由于源域上的数据有正确标签y_s，使用交叉熵损失：

(b)最大二乘损失。目标域图像经过网络，在最后部分生成的分割图产生最大二乘损失，同时生成一个自引导的伪标签，用于指引中间层输出的分割图。基本步骤如下：

1.目标域图像通过训练模块，得到中间层的输出P^low，以及最后的分割输出P^final。

2.对最后的分割输出P^final使用本发明的最大二乘损失进行无监督训练：

与常用的熵最小化损失相比，最大二乘损失拥有更好的类平衡性，让难迁移样本得到更好的训练，如图2所示。

或者使用本发明的含加权因子的最大二乘损失：

在进一步分析中，证明了最大二乘损失公式等价于与均匀分布的Pearson散度。通过优化最大二乘损失，可以增大与均匀分布的距离，从而降低目标样本的模糊性。通过将目标样本推离分类平面，来实现两个域之间的特征分布匹配，如图3所示。

3.对于中间层的输出P^low，使用与P^final诱导出的自引导伪标签y^fuse的交叉熵损失作为目标函数，进行训练：

将这些损失加权平均得到最后的损失函数，使用SGD进行优化：

其中在实验中λ_T取0.1，λ_Low取0.1。

本发明采用了Deeplabv2的网络结构，配上VGG-16或者ResNet-101的主干。

本发明在两种迁移情景：虚拟到现实迁移，不同城市之间迁移上与其他目前最前沿的域适应语义分割进行对比。

至于从合成数据集到真实世界数据集的转换，我们将Cityscapes视为目标域，并将GTA5或SYNTHIA数据集设置为源域，这与先前工作中的设置相同。Cityscapes数据集包含5000个带标注的图像，其中2048x1024分辨率来自真实的城市街景。GTA5数据集包含24966个带标注的图像，其中1914x1052分辨率取自GTA5游戏。对于SYNTHIA数据集，我们使用SYNTHIA-RAND-CITYSCAPES子集，包含9400张1280x760合成图像。在训练期间，我们使用标记的GTA5或SYNTHIA训练集作为源域，并使用来自Cityscapes训练集的无标注的2975个图像作为目标域。我们评估来自Cityscapes验证集的500幅图像上的所有方法。

在评估中，我们采用每个类别的Intersection-over-Union(IoU)和mean-Intersection-over-Union(mIoU)作为评价指标。我们考虑了GTA5到Cityscapes案例中所有19个类的IoU和mIoU。SYNTHIA只与Cityscapes共享16个类别，我们在SYNTHIA-to-Cityscapes案例中考虑了16级和13级的IoU和mIoU。

对于跨城市适应，我们选择Cityscapes的训练集作为源域，并选择NTHU数据集作为目标域。NTHU数据集由来自四个不同城市：里约，罗马，东京和台北的2048x1024分辨率的图像组成。对于每个城市，我们使用没有标注的3200个图像作为训练的目标域，并且使用标记有13个类的100个图像进行评估。我们考虑共享的13类别IoU和mIoU进行评估。整体对比结果分别如表1、表2和表3所示：

表1

表1为GTA5-to-Cityscapes实验的结果。“MaxSquare”表示本发明的最大二乘损失方法，“MaxSquare+IW”是最大二乘损失与本发明的图像加权因子相结合。``Multi”表示组合多级自导方法。为了比较，本发明重现了熵最小化方法的结果，该方法表示为“MinEnt”。CBST采用更广泛的ResNet模型，比本发明采用的原始ResNet更强大。

从表1可以看出，配备ResNet-101主干，本发明的“MaxSquare+IW+Multi”方法实现了最先进的性能。与“MaxSquare”相比，“MaxSquare+IW”在小物体类别上显示出更好的传递效果，例如围栏，人物，卡车，火车和摩托车。此外，对于那些难以转移的课程，例如地形，公共汽车和自行车，“MaxSquare”的表现优于原始的熵最小化方法“MinEnt”。然而，我们还发现，对于分类良好的公路级的“MaxSquare”结果也比“MinEnt”更好。我们解释了这种现象，即最大二乘损失不仅降低了易于转移类别的梯度，而且还减少了简单样本的梯度，从而可以更有效地训练来自道路类别的困难样本。这种机制类似于focal loss。

表2

表2为SYNTHIA-to-Cityscapes实验的结果。根据其他工作的评估协议，评估了两个数据集之间的共享16类的IoU和mIoU以及除了具有*的类之外的13个类。如表2所示，当配备VGG-16骨架和ResNet-101骨架时，本发明的方法可以获得与其他方法相比有竞争力的结果。此外，对于ResNet-101主干，“MaxSquare+IW”在几个小对象类上超过“MaxSquare”方法，例如交通灯，交通标志和摩托车。

表3

表3显示了从Cityscapes转移到NTHU的四个城市的结果。在所有四个适应性实验中，本发明的“MaxSquare+IW”优于其他最先进的方法约1分。这些出色的结果证明了本发明的最大二乘损失和图像加权因子的有效性。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。