CN115797642A - 基于一致性正则化与半监督领域自适应图像语义分割算法 - Google Patents
基于一致性正则化与半监督领域自适应图像语义分割算法 Download PDFInfo
- Publication number
- CN115797642A CN115797642A CN202310104369.6A CN202310104369A CN115797642A CN 115797642 A CN115797642 A CN 115797642A CN 202310104369 A CN202310104369 A CN 202310104369A CN 115797642 A CN115797642 A CN 115797642A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- network
- domain data
- loss
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 89
- 230000006870 function Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
基于一致性正则化与半监督领域自适应图像语义分割算法,所述算法将伪标签学习和一致性正则化结合,建模源领域的有监督损失和目标领域的损失,减小源领域数据和目标领域数据之间的领域差异,实现高性能的领域自适应图像语义分割;使用语义分割网络最后一个全连接层对应的特征构建原型网络;使用JS散度构建一致性正则化损失,使语义分割网络和原型网络的预测值一致;最后构建自训练的第二阶段在源领域和目标领域上总的损失函数,训练出高性能的语义分割网络。本发明设计的图像语义分割算法基于半监督领域自适应,只需要给目标领域中的少量图像标记语义标签,减少了图像人工标注的工作量。
Description
技术领域
本发明涉及一种基于一致性正则化与半监督领域自适应图像语义分割算法,属图像语义分割技术领域。
背景技术
为了实现高精度跨数据集的图像语义分割,近年来有不少图像语义分割算法采用领域自适应减小领域之间的差异。基于领域自适应的图像分割算法的目标是将在大规模标注源数据集的语义分割模型迁移到一个数据集分布不同的,少量标记或者未标记的目标数据集。根据在训练时是否有可利用的目标领域标签,领域自适应算法可以划分为无监督领域自适应算法和半监督领域自适应算法。其中,无监督领域自适应算法在训练时目标领域数据没有标注信息。半监督领域自适应算法在训练模型时可以使用部分标注或者少量标注的目标领域数据。
在算法性能上,当前基于无监督领域自适应的图像语义分割算法明显落后有监督的图像语义分割算法,主要是因为源领域数据和目标领域数据之间的领域差异。在某些场景中,标注少量目标领域的标签是可行的。因此,相比无监督领域自适应,半监督领域自适应算法的具有更切合实际的前提,具有更好的潜力解决算法在不同数据集上的跨领域泛化问题。
图像语义分割的任务是预测图像中的每个像元的类别。近年来,基于深度卷积网络的图像语义分割取得了长足的进步。训练一个高性能的语义分割网络,往往需要大量标注数据。由于耗时费力且需要一定的专业知识,人工标注采集大量的像素级别的语义分割标注数据集是相当困难的。因此,准确预测图像中所有像元的类别依然是具有挑战的问题,特别当模型在一个数据集(源领域)上训练,在另一个数据集(目标领域)上预测时。源领域和目标领域存在的差异会使在源领域上训练得到的模型在目标领域上精度有一定下降。
发明内容
本发明要解决的技术问题,为了减少数据的标注工作量,解决高精度跨数据集的图像语义分割问题,提出一种基于一致性正则化与半监督领域自适应图像语义分割算法。
实现本发明的技术方案如下,基于一致性正则化与半监督领域自适应图像语义分割算法,所述算法将伪标签学习和一致性正则化结合,建模源领域的有监督损失和目标领域的损失,减小源领域数据和目标领域数据之间的领域差异,实现高性能的领域自适应图像语义分割;使用语义分割网络最后一个全连接层对应的特征构建原型网络;利用样本和原型之间的余弦相似度预测无标签的目标领域样本的类别;使用JS散度(Jensen–Shannondivergence)构建一致性正则化损失,使语义分割网络和原型网络关于无标签的目标领域样本的预测值一致;最后构建自训练的第二阶段在源领域和目标领域上的总的损失函数,训练出高性能的语义分割网络。
所述算法的训练过程由两个阶段的自训练构成,第一阶段为训练语义分割网络和生成伪标签,第二阶段为再次训练语义分割网络;
为带有标记信息的源领域数据集合;为带有标记信息的目标领域数据集合;为无标记信息的目标领域数据集合;其中,、和分别表示对应数据集合中样本的数量;、和分别表示对应像元的特征;和表示对应像元的语义标签;源领域数据集合和目标领域数据集合上预先定义了个类别的标签。
源领域的有监督损失计算如下:
目标领域数据的有监督损失计算如下:
原型网络构建如下:
生成伪标签如下:
所述使用JS散度(Jensen–Shannon divergence)使语义分割网络和原型网络的预测值一致。
对于任意样本,语义分割网络在参数下关于的预测可表示为维的向量;原型网络关于的预测可表示为维的向量;将原型网络对样本关于类别的预测概率表示为;为简洁表示,令;使用JS散度,在无标签的目标领域数据集合上的一致性正则化损失如下表示:
自训练的第二阶段在源领域和目标领域上总的损失函数为:
其中,、和是对应损失项的权重,权重值一般通过交叉验证手工设置;为带有标记信息的源领域数据集合;为带有标记信息的目标领域数据集合;为无标记信息的目标领域数据集合;为参数为的语义分割网络关于的平均交叉熵损失;为无标签的目标领域数据集合上的一致性正则化损失。
本发明的有益效果是,本发明设计的图像语义分割算法基于半监督领域自适应,只需要给目标领域中的少数图像标记语义标签,减少了图像人工标注的工作量;本发明将自训练和一致性正则化结合,可以缩小下源领域和目标领域之间的差距,有利于提高模型在不同数据集间的泛化性;本发明设计的算法可以充分利用的有标签数据和无标签数据。
附图说明
图1为本发明原型网络的构建示意图;
图2为本发明一致化正则化示意图;
图中:1:目标领域中的标记样本,类别A;2:有标记目标领域数据集合中,类别A的原型;3:无标记目标领域数据集合中的样本,被语义分割网络判断为A类,被原型网络判别为B类;4:有标记目标领域数据集合中,类别B的原型;5:目标领域中的带标记样本,类别B;6:无标记目标领域数据集合中的样本,被语义分割网络判断为B类,被原型网络判断为A类;7:类别分隔线;
图3为本发明算法框架示意图。
具体实施方式
本发明的具体实施方式如下:
其中,、和分别表示对应数据集合中样本的数量;、和分别表示对应像元的特征;和表示对应像元的语义标签。源领域数据集合和目标领域数据集合上预先定义了个类别的标签。本算法包含一个语义分割网络和一个原型网络。本算法的语义分割网络适用多种常用的语义分割网络,如FCN、UNet、SegNet和DeepLab等。
计算源领域上的有监督损失:
计算目标领域上的有监督损失:
构建原型网络:
如图2所示,一致性正则化的目的是为无标记的目标领域数据学习具有判别性并且紧凑的特征。
语义分割网络和原型网络都可以用来预测未标记目标领域样本的类别标签。高性能的语义分割网络和原型网络对同一个训练样本应当有尽量相同的预测。也就是说,无标记的目标领域数据集合中的样本在特征空间中离对应类别原型的距离要近(即类内紧凑)。为此,本实施例使用JS散度(Jensen–Shannon Divergence)使语义分割网络和原型网络的预测值一致。
具体地,对于任意样本,语义分割网络在参数下关于的预测可以表示为维的向量。原型网络关于的预测可以表示为维的向量。将原型网络对样本关于类别的预测概率表示为。可以通过公式(5)计算得到。为简洁表示,令。使用JS散度,在无标签的目标领域数据集合上的一致性正则化损失可以如下表示:
图3是本实施例算法框架的结构示意图。
结合参数为的语义分割网络关于的平均交叉熵损失、语义分割网络关于的平均交叉熵损失、语义分割网络关于带有伪标签的目标领域数据集合的平均交叉熵损失、在无标签的目标领域数据集合上的一致性正则化损失,可得,在自训练的第二阶段在源领域和目标领域上的总的损失函数可以表示为:
本实施例基于一致性正则化与半监督领域自适应图像语义分割算法的训练过程主要由两个阶段的自训练构成,第一阶段为训练语义分割网络和生成伪标签,第二阶段为再次训练语义分割网络。
第一阶段:
生成伪标签,在自训练第一阶段的模型训练完成后,使用训练好的语义分割网络预测无标记信息的目标领域数据集合的类别标签。即对于任意样本,使用语义分割网络可以得到该样本的伪标签(语义分割网络关于该样本类别的预测)。带有伪标签的目标领域数据集合可以表示为。
第二阶段:
Claims (6)
1.一种基于一致性正则化与半监督领域自适应图像语义分割算法,其特征在于,所述算法将伪标签学习和一致性正则化结合,建模源领域的有监督损失和目标领域的损失,减小源领域数据和目标领域数据之间的领域差异,实现高性能的领域自适应图像语义分割;使用语义分割网络最后一个全连接层对应的特征构建原型网络;利用样本和原型之间的余弦相似度预测无标签的目标领域样本的类别;使用JS散度构建一致性正则化损失,使语义分割网络和原型网络关于无标签的目标领域样本的预测值一致;最后构建自训练的第二阶段在源领域和目标领域上总的损失函数,训练出高性能的语义分割网络;
所述算法的训练过程由两个阶段的自训练构成,第一阶段为训练语义分割网络和生成伪标签,第二阶段为再次训练语义分割网络;
3.根据权利要求1所述的基于一致性正则化与半监督领域自适应图像语义分割算法,其特征在于,所述构建原型网络如下:
利用样本和原型之间的余弦相似度预测样本的类别:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104369.6A CN115797642B (zh) | 2023-02-13 | 2023-02-13 | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104369.6A CN115797642B (zh) | 2023-02-13 | 2023-02-13 | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115797642A true CN115797642A (zh) | 2023-03-14 |
CN115797642B CN115797642B (zh) | 2023-05-16 |
Family
ID=85430983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310104369.6A Active CN115797642B (zh) | 2023-02-13 | 2023-02-13 | 基于一致性正则化与半监督领域自适应图像语义分割算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115797642B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593596A (zh) * | 2024-01-19 | 2024-02-23 | 四川封面传媒科技有限责任公司 | 一种敏感信息检测方法、系统、电子设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322445A (zh) * | 2019-06-12 | 2019-10-11 | 浙江大学 | 一种基于最大化预测和标签间相关性损失函数的语义分割方法 |
CN112233124A (zh) * | 2020-10-14 | 2021-01-15 | 华东交通大学 | 基于对抗式学习与多模态学习的点云语义分割方法及系统 |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
US20210304352A1 (en) * | 2020-03-31 | 2021-09-30 | Robert Bosch Gmbh | Multi-view consistency regularization for semantic interpretation of equal-rectangular panoramas |
CN113936275A (zh) * | 2021-10-14 | 2022-01-14 | 上海交通大学 | 一种基于区域特征对齐的无监督域适应语义分割方法 |
CN114419323A (zh) * | 2022-03-31 | 2022-04-29 | 华东交通大学 | 基于跨模态学习与领域自适应rgbd图像语义分割方法 |
CN115359485A (zh) * | 2022-09-22 | 2022-11-18 | 佛山沧科智能科技有限公司 | 复杂装卸场景目标物标注数据集生成方法、系统和存储介质 |
-
2023
- 2023-02-13 CN CN202310104369.6A patent/CN115797642B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322445A (zh) * | 2019-06-12 | 2019-10-11 | 浙江大学 | 一种基于最大化预测和标签间相关性损失函数的语义分割方法 |
US20210304352A1 (en) * | 2020-03-31 | 2021-09-30 | Robert Bosch Gmbh | Multi-view consistency regularization for semantic interpretation of equal-rectangular panoramas |
CN112233124A (zh) * | 2020-10-14 | 2021-01-15 | 华东交通大学 | 基于对抗式学习与多模态学习的点云语义分割方法及系统 |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
CN113936275A (zh) * | 2021-10-14 | 2022-01-14 | 上海交通大学 | 一种基于区域特征对齐的无监督域适应语义分割方法 |
CN114419323A (zh) * | 2022-03-31 | 2022-04-29 | 华东交通大学 | 基于跨模态学习与领域自适应rgbd图像语义分割方法 |
CN115359485A (zh) * | 2022-09-22 | 2022-11-18 | 佛山沧科智能科技有限公司 | 复杂装卸场景目标物标注数据集生成方法、系统和存储介质 |
Non-Patent Citations (3)
Title |
---|
QIANYU ZHOU等: "Uncertainty-aware consistency regularization for cross-domain semantic segmentation", ELSEVIER * |
刘腊梅等: "流形正则化的交叉一致性语义分割算法" * |
邵伟志等: "基于一致性正则化与熵最小化的半监督学习算法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593596A (zh) * | 2024-01-19 | 2024-02-23 | 四川封面传媒科技有限责任公司 | 一种敏感信息检测方法、系统、电子设备及介质 |
CN117593596B (zh) * | 2024-01-19 | 2024-04-16 | 四川封面传媒科技有限责任公司 | 一种敏感信息检测方法、系统、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115797642B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717526B (zh) | 一种基于图卷积网络的无监督迁移学习方法 | |
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
CN111552807B (zh) | 一种短文本多标签分类方法 | |
CN109117781B (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN107944410B (zh) | 一种基于卷积神经网络的跨领域面部特征解析方法 | |
CN110569359B (zh) | 识别模型的训练及应用方法、装置、计算设备及存储介质 | |
WO2021022571A1 (zh) | 一种基于交互建模的多标记距离度量学习方法 | |
CN110705591A (zh) | 一种基于最优子空间学习的异构迁移学习方法 | |
Deng et al. | Strongly augmented contrastive clustering | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN114255371A (zh) | 一种基于组件监督网络的小样本图像分类方法 | |
Nguyen et al. | Adaptive nonparametric image parsing | |
CN115797642B (zh) | 基于一致性正则化与半监督领域自适应图像语义分割算法 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN112990340B (zh) | 一种基于特征共享的自学习迁移方法 | |
Zhang et al. | Considering three elements of aesthetics: Multi-task self-supervised feature learning for image style classification | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及系统 | |
Ma et al. | Enhanced soft label for semi-supervised semantic segmentation | |
CN117523295A (zh) | 基于类引导元学习的无源域适应的图像分类方法 | |
Ma et al. | Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos | |
Wang et al. | Learning domain-independent deep representations by mutual information minimization | |
CN113920127B (zh) | 一种训练数据集独立的单样本图像分割方法和系统 | |
CN112750128A (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
CN107993311B (zh) | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |