CN110222690B - 一种基于最大二乘损失的无监督域适应语义分割方法 - Google Patents
一种基于最大二乘损失的无监督域适应语义分割方法 Download PDFInfo
- Publication number
- CN110222690B CN110222690B CN201910353614.0A CN201910353614A CN110222690B CN 110222690 B CN110222690 B CN 110222690B CN 201910353614 A CN201910353614 A CN 201910353614A CN 110222690 B CN110222690 B CN 110222690B
- Authority
- CN
- China
- Prior art keywords
- model
- semantic segmentation
- domain
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于最大二乘损失的无监督域适应语义分割方法,包括:(1)在源域上预训练语义分割模型,所述语义分割模型基于ResNet网络;(2)同时提取语义分割模型中第四层的特征,加入一个额外的分类网络,对该网络分支进行同样的预训练;(3)在源域上有监督地训练语义分割模型,同时在目标域上使用最大二乘损失无监督地训练语义分割模型;(4)在目标域,使用ResNet网络最后一层的输出作为伪标签,无监督地训练第四层特征;(5)模型训练完毕,在目标域上对图片输出它的语义分割图。利用本发明,使无监督域适应的语义分割效果中,能够对难训练样本和小物体类别得到更多的训练,提高最后目标域上的语义分割质量。
Description
技术领域
本发明属于无监督域适应的语义分割领域,尤其是涉及一种基于最大二乘损失的无监督域适应语义分割方法。
背景技术
在过去的十几年中,深度学习在语义分割任务中取得了巨大成功。随着大量公开可利用的网上语义分割模型,语义分割受到了广泛来自工业界和学术界研究者的关注。例如无人驾驶系统中就需要语义分割技术来识别信号灯,以及帮助识别障碍物。对于当前用于深度网络训练的数据集,例如PASCAL VOC-2012和Cityscapes数据集,研究人员已经在当前数据集上的深层模型的表现方面取得了显着进展。然而,这些具有逐像素语义标签的真实数据集需要大量的手动标注工作。对于Cityscapes,准确标记一张图像需要90分钟人力。由于这种数据集标注的困难,用于语义分割的真实世界数据集通常只包含少量样本,这妨碍了模型对各种真实世界情况的推广。克服此限制的一种可能方法是使用合成数据集,例如2016年European Conference on Computer Vision会议上收录的《Playing for data:Ground truth from computer games》中使用Grand Theft Auto V(GTA5)游戏引擎收集游戏中的仿真情景作为数据集,它们花费更少的时间来标记和拥有更多样本。然而,由于两个数据集之间存在较大的外观差异,在合成数据集上训练的模型不能直接用于真实世界的例子。
用于语义分割的无监督域适应(UDA)是旨在解决上述迁移问题的任务。在无监督域适应中,标记的合成数据集称为源域,未标记的真实数据集称为目标域,任务是解决语义分割任务的标记源域和未标记目标域之间的表现差异的问题。无监督域适应的一般概念是利用来自目标域的未标记数据来帮助最小化这两个域之间的性能差距。
传统的域适应方法背后的核心思想是最小化源域和目标域的特征分布之间的差异,这意味着学习域不变特征。分布差异可以通过基于最大均值差异(MMD)的方法来测量或基于对抗性学习的方法。除了全局分布对齐,类别和条件分布对齐也被广泛研究。
最近,受到利用未标记数据的半监督学习的启发,一些基于半监督学习的域适应方法被提出用于隐式地对齐域之间的特征分布。这些基于半监督学习的方法在分类和语义分割中实现了最先进的结果。例如在2018European Conference on Computer Vision会议上收录的《Unsupervised domain adaptation for semantic segmentation via class-balanced self-training》中,提出的类平衡的自学习方法,它假设了具有较高预测概率的区域更准确,让预测概率值高于一定阈值的区域作为训练的伪标签。
熵最小化方法是半监督学习中最流行的方法之一,它鼓励通过减小在无标签样本上的熵来得到明确的聚类分配。在半监督学习研究中,有这样的结论:未标记的例子的信息内容随着类重叠而减少。换句话说,使未标记的样本不那么模糊可以帮助类别之间更加可分离,例如,最小化条件熵。在2018年Arxiv网站上的技术文章《ADVENT:adversarialentropy minimization for domain adaptation in semantic segmentation.》中,他们直接将熵最小化方法用于无监督域适应的语义分割,最小化了目标样本的预测熵,但是其结果不如最先进的方法。
通过分析熵最小化方法的梯度,我们发现较高的预测概率会导致目标样本的较大梯度。如果我们采用自学习中的假设:具有较高预测概率的目标样本更准确,那么具有高精度的区域将比具有低精度的区域更充分地训练。因此,熵最小化方法将允许对易于转移的样本进行充分训练,这阻碍了难以转移的样本的训练过程。熵最小化中的这个问题可以称为概率不平衡:易于转移的类具有更高的概率,这导致比难以转移的类更大的梯度。那么容易分类的类别会过度训练,而难分类的类别会更少训练。此外,我们还注意到未标记目标域中的类不平衡。容易分类的类拥有更多的样本,而难分类的类包含的训练样本则少得多。在传统的监督学习中,平衡类别数量的常规方法是引入加权因子,其通常设置为类频率的相反数,那么一个类的样本越多训练的权重就越小。但是,在无监督域适应任务中,目标域上没有标注好的类标签来计算类频率,使得常规的加权因子在这个任务中不可用。
发明内容
本发明提供了一种基于最大二乘损失的无监督域适应语义分割方法,使无监督域适应的语义分割效果中,能够对难训练样本和小物体类别得到更多的训练,提高最后目标域上的语义分割质量。
本发明的技术方案如下:
一种基于最大二乘损失的无监督域适应语义分割方法,包括:
(1)在源域上预训练语义分割模型,所述语义分割模型基于ResNet网络;
(2)同时提取语义分割模型中第四层的特征,加入一个额外的分类网络,对该网络分支进行同样的预训练;
(3)在源域上有监督地训练语义分割模型,同时在目标域上使用最大二乘损失无监督地训练语义分割模型;
(4)在目标域,使用ResNet网络最后一层的输出作为伪标签,无监督地训练第四层特征;
(5)模型训练完毕,在目标域上对图片输出它的语义分割图。
在步骤(2)中,提取了ResNet网络的第4层的特征,将它通过一个额外的分类网络。也是用同样的监督学习公式来训练这个网络分支。
因此,优化最大二乘损失,可以增大与均匀分布的距离,从而降低目标样本的模糊性。通过将目标样本推离分类平面,来实现两个域之间的特征分布匹配。
由于目标域上有类别不平衡现象:容易分类的类具有更多的样本。为了平衡数量的影响,本发明提出一个新的加权因子,含加权因子的最大二乘损失函数为
在步骤(4)中,由于最后的输出会比中间层的输出预测准确率高,因此采用让最后的输出作为伪标签来指导中间层特征训练的方法。
其中伪标签的生成方法为:先对最后一层的输出Pfinal以及第四层的输出Plow做平均,得到集成输出Pens,然后根据下述方程得到伪标签yfuse:
其中,是集成模型在目标样本xt的位置n处对类c的预测概率,是模型最后一层输出在目标样本xt的位置n处对类c*的预测概率,是模型第四层输出在目标样本xt的位置n处对类c*的预测概率,δ为阈值参数,实验中发现阈值的选择对结果影响不大,因此设定δ为0.98。
步骤(4)中,无监督地训练第四层特征的具体方法为:将伪标签与第四层的输出做交叉熵损失
同时,该损失作为额外的目标域上的损失函数,与其他损失加权平均后得到最后的损失函数,使用SGD进行优化:
其中,λT为目标损失的权重,λLow为低层网络输出的损失的权重。
与现有技术相比,本发明具有以下有益效果:
1、本发明提出的最大二乘损失的梯度线性增加。与目标域中的熵最小化方法相比,它能够平衡的不同类别的梯度。信心较高的区域仍然具有较大的梯度,但它们的主导效应已经降低,允许其他困难类别获得训练梯度。因此,配备最大二乘损失,我们减轻了熵最小化的概率不平衡问题。
2、本发明利用的新加权因子,能够平衡无标签的目标域的类别数量,解决目标域上的类别不平衡问题,从而使得小物体得到更好的训练,提升输出的语义分割图质量。
3、本发明提出的多层自指导方法,能够自我指导训练中间层的特征。相比其他基准线算法,具有更好的模型性能。
附图说明
图1为本发明方法的网络处理流程示意图;
图2为本发明方法的最大二乘损失的梯度示意图;
图3为本发明的最大二乘损失效果示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,本发明框架主要分为两条分支分别处理两个域的图像:(a)(虚线)源域图像经过网络生成低层分割图和最后的分割图,分别与正确标签做交叉熵损失,其中为低层分割图与正确标签的交叉熵损失,Lseg为最后的分割图与正确标签的交叉熵损失。(b)(实线)目标域图像经过网络,在最后部分生成的分割图产生最大二乘损失,同时生成一个自引导的伪标签,用于指引中间层输出的分割图。具体步骤分别阐述如下:
(a)源域图像经过网络生成低层分割图和最后的分割图,分别与正确标签做交叉熵损失。基本步骤如下:
1.提取了ResNet网络的第4层的特征,将它通过一个额外的分类网络,得到中间层的输出Plow,而ResNet网络最后的分割输出为Pfinal。
2.由于源域上的数据有正确标签ys,使用交叉熵损失:
(b)最大二乘损失。目标域图像经过网络,在最后部分生成的分割图产生最大二乘损失,同时生成一个自引导的伪标签,用于指引中间层输出的分割图。基本步骤如下:
1.目标域图像通过训练模块,得到中间层的输出Plow,以及最后的分割输出Pfinal。
2.对最后的分割输出Pfinal使用本发明的最大二乘损失进行无监督训练:
与常用的熵最小化损失相比,最大二乘损失拥有更好的类平衡性,让难迁移样本得到更好的训练,如图2所示。
或者使用本发明的含加权因子的最大二乘损失:
在进一步分析中,证明了最大二乘损失公式等价于与均匀分布的Pearson散度。通过优化最大二乘损失,可以增大与均匀分布的距离,从而降低目标样本的模糊性。通过将目标样本推离分类平面,来实现两个域之间的特征分布匹配,如图3所示。
3.对于中间层的输出Plow,使用与Pfinal诱导出的自引导伪标签yfuse的交叉熵损失作为目标函数,进行训练:
将这些损失加权平均得到最后的损失函数,使用SGD进行优化:
其中在实验中λT取0.1,λLow取0.1。
本发明采用了Deeplabv2的网络结构,配上VGG-16或者ResNet-101的主干。
本发明在两种迁移情景:虚拟到现实迁移,不同城市之间迁移上与其他目前最前沿的域适应语义分割进行对比。
至于从合成数据集到真实世界数据集的转换,我们将Cityscapes视为目标域,并将GTA5或SYNTHIA数据集设置为源域,这与先前工作中的设置相同。Cityscapes数据集包含5000个带标注的图像,其中2048x1024分辨率来自真实的城市街景。GTA5数据集包含24966个带标注的图像,其中1914x1052分辨率取自GTA5游戏。对于SYNTHIA数据集,我们使用SYNTHIA-RAND-CITYSCAPES子集,包含9400张1280x760合成图像。在训练期间,我们使用标记的GTA5或SYNTHIA训练集作为源域,并使用来自Cityscapes训练集的无标注的2975个图像作为目标域。我们评估来自Cityscapes验证集的500幅图像上的所有方法。
在评估中,我们采用每个类别的Intersection-over-Union(IoU)和mean-Intersection-over-Union(mIoU)作为评价指标。我们考虑了GTA5到Cityscapes案例中所有19个类的IoU和mIoU。SYNTHIA只与Cityscapes共享16个类别,我们在SYNTHIA-to-Cityscapes案例中考虑了16级和13级的IoU和mIoU。
对于跨城市适应,我们选择Cityscapes的训练集作为源域,并选择NTHU数据集作为目标域。NTHU数据集由来自四个不同城市:里约,罗马,东京和台北的2048x1024分辨率的图像组成。对于每个城市,我们使用没有标注的3200个图像作为训练的目标域,并且使用标记有13个类的100个图像进行评估。我们考虑共享的13类别IoU和mIoU进行评估。整体对比结果分别如表1、表2和表3所示:
表1
表1为GTA5-to-Cityscapes实验的结果。“MaxSquare”表示本发明的最大二乘损失方法,“MaxSquare+IW”是最大二乘损失与本发明的图像加权因子相结合。``Multi”表示组合多级自导方法。为了比较,本发明重现了熵最小化方法的结果,该方法表示为“MinEnt”。CBST采用更广泛的ResNet模型,比本发明采用的原始ResNet更强大。
从表1可以看出,配备ResNet-101主干,本发明的“MaxSquare+IW+Multi”方法实现了最先进的性能。与“MaxSquare”相比,“MaxSquare+IW”在小物体类别上显示出更好的传递效果,例如围栏,人物,卡车,火车和摩托车。此外,对于那些难以转移的课程,例如地形,公共汽车和自行车,“MaxSquare”的表现优于原始的熵最小化方法“MinEnt”。然而,我们还发现,对于分类良好的公路级的“MaxSquare”结果也比“MinEnt”更好。我们解释了这种现象,即最大二乘损失不仅降低了易于转移类别的梯度,而且还减少了简单样本的梯度,从而可以更有效地训练来自道路类别的困难样本。这种机制类似于focal loss。
表2
表2为SYNTHIA-to-Cityscapes实验的结果。根据其他工作的评估协议,评估了两个数据集之间的共享16类的IoU和mIoU以及除了具有*的类之外的13个类。如表2所示,当配备VGG-16骨架和ResNet-101骨架时,本发明的方法可以获得与其他方法相比有竞争力的结果。此外,对于ResNet-101主干,“MaxSquare+IW”在几个小对象类上超过“MaxSquare”方法,例如交通灯,交通标志和摩托车。
表3
表3显示了从Cityscapes转移到NTHU的四个城市的结果。在所有四个适应性实验中,本发明的“MaxSquare+IW”优于其他最先进的方法约1分。这些出色的结果证明了本发明的最大二乘损失和图像加权因子的有效性。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于最大二乘损失的无监督域适应语义分割方法,其特征在于,包括:
(1)在源域上预训练语义分割模型,所述语义分割模型基于ResNet网络;
(2)同时提取语义分割模型中第四层的特征,加入一个额外的分类网络,对该额外的分类网络进行同样的预训练;
(3)在源域上有监督地训练语义分割模型,同时在目标域上使用最大二乘损失无监督地训练语义分割模型;具体训练过程如下:
(4)在目标域,使用ResNet网络最后一层的输出作为伪标签,无监督地训练第四层特征;
(5)模型训练完毕,在目标域上对图片输出它的语义分割图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910353614.0A CN110222690B (zh) | 2019-04-29 | 2019-04-29 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910353614.0A CN110222690B (zh) | 2019-04-29 | 2019-04-29 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222690A CN110222690A (zh) | 2019-09-10 |
CN110222690B true CN110222690B (zh) | 2021-08-10 |
Family
ID=67820397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910353614.0A Active CN110222690B (zh) | 2019-04-29 | 2019-04-29 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222690B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514694B2 (en) | 2019-09-20 | 2022-11-29 | Samsung Electronics Co., Ltd. | Teaching GAN (generative adversarial networks) to generate per-pixel annotation |
CN110837850B (zh) * | 2019-10-23 | 2022-06-21 | 浙江大学 | 一种基于对抗学习损失函数的无监督域适应方法 |
CN113392967A (zh) * | 2020-03-11 | 2021-09-14 | 富士通株式会社 | 领域对抗神经网络的训练方法 |
CN112308862A (zh) * | 2020-06-04 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 图像语义分割模型训练、分割方法、装置以及存储介质 |
CN112381098A (zh) * | 2020-11-19 | 2021-02-19 | 上海交通大学 | 基于目标分割领域自学习的半监督学习方法和系统 |
CN112465836B (zh) * | 2020-12-09 | 2022-06-10 | 北京航空航天大学 | 基于轮廓信息的热红外语义分割无监督领域自适应方法 |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
CN113011427B (zh) * | 2021-03-17 | 2022-06-21 | 中南大学 | 基于自监督对比学习的遥感图像语义分割方法 |
CN113222903A (zh) * | 2021-04-20 | 2021-08-06 | 山东师范大学 | 一种全切片组织病理图像分析方法及系统 |
CN113221905B (zh) * | 2021-05-18 | 2022-05-17 | 浙江大学 | 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质 |
CN113436197B (zh) * | 2021-06-07 | 2022-10-04 | 华东师范大学 | 基于生成对抗和类特征分布的域适应无监督图像分割方法 |
CN113409351B (zh) * | 2021-06-30 | 2022-06-24 | 吉林大学 | 基于最优传输的无监督领域自适应遥感图像分割方法 |
CN113516130B (zh) * | 2021-07-19 | 2024-01-05 | 闽江学院 | 基于熵最小化的半监督图像语义分割方法 |
CN114118167B (zh) * | 2021-12-04 | 2024-02-27 | 河南大学 | 一种针对行为识别的基于自监督少样本学习的动作序列分割方法 |
CN116229080B (zh) * | 2023-05-08 | 2023-08-29 | 中国科学技术大学 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
-
2019
- 2019-04-29 CN CN201910353614.0A patent/CN110222690B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
Non-Patent Citations (3)
Title |
---|
ADVENT: Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation;Tuan-Hung Vu, et al.;《In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》;20181130;第1-10页 * |
Learning to Adapt Structured Output Space for Semantic Segmentation;Yi-Hsuan Tsai, et al.;《In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》;20180622;第7472-7481页 * |
Self-produced Guidance for Weakly-supervised Object Localization;Xiaolin Zhang, et al.;《In Proceedings of the Europe Conference on Computer Vision》;20180914;第1-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110222690A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222690B (zh) | 一种基于最大二乘损失的无监督域适应语义分割方法 | |
Hsu et al. | Progressive domain adaptation for object detection | |
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN109087303B (zh) | 基于迁移学习提升语义分割模型效果的框架 | |
CN112633406A (zh) | 一种基于知识蒸馏的少样本目标检测方法 | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN114120319A (zh) | 一种基于多层次知识蒸馏的连续图像语义分割方法 | |
CN113436197B (zh) | 基于生成对抗和类特征分布的域适应无监督图像分割方法 | |
CN111723812B (zh) | 一种基于序列知识蒸馏的实时语义分割方法 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
WO2024130752A1 (zh) | 一种基于层次化风格的条件文本-电商图片检索方法和系统 | |
Wu et al. | D 2 ada: Dynamic density-aware active domain adaptation for semantic segmentation | |
CN113297961A (zh) | 一种基于边界特征融合孪生循环神经网络的目标跟踪方法 | |
Lu et al. | MFNet: Multi-feature fusion network for real-time semantic segmentation in road scenes | |
CN115564801A (zh) | 一种基于注意力的单目标跟踪方法 | |
Hua et al. | Synthetic to realistic imbalanced domain adaption for urban scene perception | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN112749734B (zh) | 一种基于可迁移注意力机制的领域自适应的目标检测方法 | |
He et al. | Multi-scale feature balance enhancement network for pedestrian detection | |
CN114863176A (zh) | 基于目标域移动机制的多源域自适应方法 | |
Csaba et al. | Multilevel knowledge transfer for cross-domain object detection | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
Lin et al. | Run and chase: Towards accurate source-free domain adaptive object detection | |
Li et al. | Ensemble R-FCN for object detection | |
Xiong et al. | Domain adaptation of object detector using scissor-like networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |