CN116229080A - 半监督域适应图像语义分割方法、系统、设备及存储介质 - Google Patents
半监督域适应图像语义分割方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116229080A CN116229080A CN202310507088.5A CN202310507088A CN116229080A CN 116229080 A CN116229080 A CN 116229080A CN 202310507088 A CN202310507088 A CN 202310507088A CN 116229080 A CN116229080 A CN 116229080A
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- image semantic
- segmentation network
- image
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 275
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 25
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 111
- 238000002372 labelling Methods 0.000 claims abstract description 54
- 230000000295 complement effect Effects 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种半监督域适应图像语义分割方法、系统、设备及存储介质,它们是一一对应的方案,方案中:构建了跨域联合训练框架,通过使用源域标注图像数据和目标域标注图像数据分别对一个图像语义分割网络进行初始化与监督训练,使得两个监督训练后的图像语义分割网络具有互补性,并通过联合训练的交叉伪标签监督实现互补学习,同时,还将偏源域的第一图像语义分割网络向偏目标域的第二图像语义分割网络对齐,提高图像语义分割网络的目标域性能,从而提升在目标域图像中的语义分割质量。
Description
技术领域
本发明涉及图像语义分割领域,尤其涉及一种半监督域适应图像语义分割方法、系统、设备及存储介质。
背景技术
近几年,深度学习在计算机视觉领域取得了显著的成功,然而其优异的性能很大程度上依赖于大量的高质量有标注的数据集。而对于语义分割这类像素级预测任务,高额的时间成本和人力成本让人工标注数据集不切实际。对此,研究者们提出了域适应学习方法,旨在利用在有大量有标注的源域图像上学习的知识来帮助模型在另一个与源域相关但缺乏标注的目标域上的学习,通过减小领域偏移提高模型在目标域的性能,从而节约目标域上的标注成本。为了实现模型在目标域上的高效学习,半监督域适应提供了少量目标域标注图像数据,以此来进一步指导模型的域适应学习。
常用的解决领域偏移的方法是利用目标域图像数据来减少源域图像数据的域差异。这些域适应的方法一般使用对抗技术,或者对比学习技术。在公开号为CN113706547A的中国发明专利申请《一种基于类别同异性引导的无监督域适应语义分割方法》中,通过图像级和特征级的对抗损失实现域间分布对齐;采用类内聚合与类间推远并行机制的损失函数,拉近域间同类别特征并拉远不同类之间的特征,提高目标域特征的可鉴别性。在公开号为CN113936275A的中国发明专利申请《一种基于区域特征对齐的无监督域适应语义分割方法》中,用跨域混合样本的伪标签为学生模型与教师模型施加一致性损失,在缩小域差异的同时提高了模型在目标域的分割质量;对目标域施加区域对比损失,进一步提高目标域特征的可鉴别性。在公开号为CN114529900A的中国发明专利申请《基于特征原型的半监督域适应语义分割方法和系统》中,通过特征原型对比学习,对提取特征的过程进行了约束,增强了网络提取语义特征的能力,使其能在目标域图像数据分布上取得较好的分割效果。在公开号为CN112541580A的中国发明专利申请《一种基于主动对抗学习的半监督域自适应方法》中,通过领域对抗训练来减轻领域偏移;通过主动学习方法标记最有价值的目标域图像数据,然后使用多类判别器缓解标记的目标域样本与源域样本之间的分布差异。在授权公告号为CN114240955B的中国发明专利《一种半监督的跨领域自适应的图像分割方法》中,通过辅助网络与主网络针对同一个样本产生的不同噪声图像的预测之间的一致性,从而充分利用未标注图像数据进行学习;通过对比学习策略提高域不变特征的学习,有效提高模型的稳定性和泛化能力。然而,上述方法大多利用目标域特征和源域特征进行对抗或者对比学习来减少领域偏移,但是忽略了两个域标注图像的互补信息,即没有充分挖掘两个域的标注图像数据,因此,在目标域图像中的语义分割质量还有待提升。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种半监督域适应图像语义分割方法、系统、设备及存储介质,使用联合训练来充分利用源域与目标域标注图像的互补信息,提升在目标域图像中的语义分割质量。
本发明的目的是通过以下技术方案实现的:
一种半监督域适应图像语义分割方法,包括:
构建跨域联合训练框架并进行训练,所述跨域联合训练框架包括:第一图像语义分割网络与第二图像语义分割网络;训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐;
训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
一种半监督域适应图像语义分割系统,包括:
框架构建与训练单元,用于构建跨域联合训练框架并进行训练,所述跨域联合训练框架包括:第一图像语义分割网络与第二图像语义分割网络;训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐;
语义分割单元,用于训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,构建了跨域联合训练框架,通过使用源域标注图像数据和目标域标注图像数据分别对一个图像语义分割网络进行初始化与监督训练,使得两个监督训练后的图像语义分割网络具有互补性,并通过联合训练的交叉伪标签监督实现互补学习,同时,还将偏源域的第一图像语义分割网络向偏目标域的第二图像语义分割网络对齐,提高图像语义分割网络的目标域性能,从而提升在目标域图像中的语义分割质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种半监督域适应图像语义分割方法的流程图;
图2为本发明实施例提供的跨域联合训练框架结构及其训练原理示意图;
图3为本发明实施例提供的源域和目标域互补性分析示意图;
图4为本发明实施例提供的第二图像语义分割网络对齐损失原理图;
图5为本发明实施例提供的一种半监督域适应图像语义分割系统的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种半监督域适应图像语义分割方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种半监督域适应图像语义分割方法,使用包含两个图像语义分割网络的联合训练框架,并使用源域标注图像数据和目标域标注图像数据分别训练这两个图像语义分割网络,使得两个图像语义分割网络具有互补性,最终通过交叉伪标签监督和模型对齐实现两个图像语义分割网络的互补学习,从而提升在目标域图像中的语义分割质量。
如图1所示,本发明实施例提供的上述方法主要包括如下步骤:
步骤1、构建跨域联合训练框架并进行训练。
本发明实施例中,所述跨域联合训练框架包括:第一图像语义分割网络(源域图像语义分割网络)与第二图像语义分割网络(目标域图像语义分割网络);训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化和监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐。
步骤2、训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
本发明实施例中,训练完毕后,最终两个图像语义分割网络的性能相似,可以任选一个对目标域图像进行语义分割;当然,也可以测试后选择性能更好的图像语义分割网络对目标域图像进行语义分割。
本发明实施例上述方案相较于传统方案主要具有以下优势:(1)与现有方法不同,本发明充分利用了源域和目标域标注数据的互补性,有效提高了源域图像语义分割网络(即前文所述的第一图像语义分割网络)在目标域上的学习;(2)本发明进一步使用目标域图像语义分割网络(即前文所述的第二图像语义分割网络)来减小源域数据的域差异,进一步提升源域图像语义分割网络的目标域性能。总的来说,本发明利用了域间互补性,提升了半监督域适应图像语义分割的准确率。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的上述方法进行详细描述。
一、跨域联合训练框架及训练过程概述。
本发明主要包含三个核心点:第一、探索并验证了源域和目标域图像数据的互补性。第二、构建了跨域联合训练框架,通过使用源域标注图像数据和目标域标注图像数据分别对两个图像语义分割网络进行初始化与初步,使得两个图像语义分割网络具有互补性;并通过联合训练的交叉伪标签监督实现互补学习。第三、提出了对齐损失,将偏源域模型向偏目标域模型对齐,提高模型的目标域性能。
本发明实施例中,采用跨域联合训练(co-training)框架,如图2所示,该跨域联合训练(co-training)框架包括两个图像语义分割网络,称为第一图像语义分割网络(分支一)与第二图像语义分割网络(分支二),两个分支分别使用源域和目标域的标注图像进行初始化和监督训练,使得分支一偏向源域而分支二偏向目标域,从而建模了跨域互补性。两个分支通过基于无标注的目标域图像数据的交叉伪标签监督实现互补学习。此外,将偏源域的分支一向偏目标域的分支二对齐,使得两个网络关注于学习偏向目标域的知识,从而提高分支一在目标域的性能。图2中,实线箭头表示前向传播,虚线箭头表示损失反向传递,带有两道横杠的实线箭头表示不反向传递损失。
二、源域和目标域图像数据的互补性验证。
本发明的核心思路是充分利用源域图像和目标域图像数据的互补信息,提高在目标域的语义分割质量。为此,首先验证了两个域图像数据的互补性。图3比较了两个分别通过源域和目标域标注图像数据进行预热训练的图像语义分割网络在各个类别上的性能,其中,通过源域标注图像数据进行预热训练的图像语义分割网络为第一图像语义分割网络,对应于图3空白背景的柱状区域,通过目标域标注图像数据进行预热训练的图像语义分割网络为第二图像语义分割网络,对应于图3采用斜线填充的柱状区域,平均交并比(MeanIntersection over Union,MIoU)为预热训练的图像语义分割网络的性能指标。此处根据标注像素点的数量将类别分为优势类别和弱势类别。结果表明,源域图像数据训练的模型在弱势类别(如卡车、公交车和摩托车)上表现更好,因为源域图像数据标注丰富;而目标域标注图像数据训练的模型在优势类别(如道路、人行道和建筑)上表现更好,因为其没有域差异,其中,源域对应火车性能为0,因而没显示。即,源域和目标域图像数据具有互补性,且可以在模型训练中进行相互补充。
三、初始化与监督训练。
本发明考虑充分利用两个域图像数据间的互补性,为图像语义分割网络在目标域上的学习提供有益的互补知识。具体来说,使用具有两个网络分支的联合训练框架,通过跨域初始化和跨域模型训练,使两个分支具有跨域互补性。跨域初始化需要两个域各自的预热网络。在本发明实施例中,设置两个图像语义分割网络,使用源域图像数据对其中一个图像语义分割网络(其结构与第一图像语义分割网络相同)进行预热训练,获得源域预热网络,使用目标域图像数据对另一个图像语义分割网络(其结构与第二图像语义分割网络相同)进行预热训练,获得目标域预热网络,使用源域预热网络的参数作为第一图像语义分割网络(分支一)的初始化参数;使用目标域预热网络的参数作为第二图像语义分割网络(分支二)的初始化参数;其中,第一图像语义分割网络的结构相同与第二图像语义分割网络的结构相同,只是初始化的参数不同。
之后,使用源域标注图像数据对第一图像语义分割网络进行监督训练,使用目标域标注图像数据对第二图像语义分割网络进行监督训练,监督训练损失函数表示为:
其中,表示第一图像语义分割网络的监督训练损失函数,/>表示第二图像语义分割网络的监督训练损失函数;H(.)表示设定类型的损失(例如,交叉熵损失);/>表示第一图像语义分割网络输出的源域标注图像数据/>的预测结果,/>表示源域标注图像数据/>的真实标签;/>表示第二图像语义分割网络输出的目标域标注图像数据/>的预测结果,/>表示目标域标注图像数据/>的真实标签。
本发明实施例中,以上预热训练与监督训练属于两个阶段,先进行预热训练获得相应预热网络,再使用预热网络的参数初始化相应的图像语义分割网络,然后进行框架中联合训练。其中,预热训练也可以采用上述监督训练损失函数,之所以分为两个阶段,是由于预测训练主要是为了得到两个图像语义分割网络具有互补性的初始化参数,是脱离于跨域联合训练框架的。最终通过预热训练与监督训练,第一图像语义分割网络和第二图像语义分割网络分别具有源域和目标域的特性,从而具有域间互补性。
此部分训练过程中,第二图像语义分割网络仅使用少量的目标域标注图像数据进行预热训练与监督训练。示例性的:半监督域适应设置下一般为100张,即数据集总量的1/30,当然,此处提供的具体数值仅为示例,并非构成限制,实际应用中,用户可根据实际情况或者经验调整目标域标注图像数据的数目。
四、互补学习。
本发明实施例中,为了实现两分支的互补学习,使用基于无标注的目标域图像数据的交叉伪标签监督。如图3所示,两分支分别提取无标注的目标域图像数据的伪标签,并提供给对方作为监督信号。具体的:将无标注的目标域图像数据分别输入至第一图像语义分割网络与第二图像语义分割网络,根据第一图像语义分割网络输出的预测结果生成第一伪标签,根据第二图像语义分割网络输出的预测结果生成第二伪标签;将第一伪标签作为第二图像语义分割网络的监督信息,将第二伪标签作为第一图像语义分割网络的监督信息,第一图像语义分割网络与第二图像语义分割网络各自利用监督信息进行互补学习。
本发明实施例中,第一图像语义分割网络与第二图像语义分割网络各自利用监督信息进行互补学习时的损失函数表示为:
其中,表示第一图像语义分割网络进行互补学习时的损失函数,/>表示第二图像语义分割网络进行互补学习时的损失函数;H(.)表示设定类型的损失;/>表示第一图像语义分割网络输出的无标注的目标域图像数据/>的预测结果,/>表示第二伪标签;/>表示第二图像语义分割网络输出的无标注的目标域图像数据/>的预测结果,/>表示第一伪标签。
通过交叉伪标签监督,偏向源域的分支一受到分支二伪标签的监督,从而更好地学习优势类别(如道路、人行道和建筑)的知识;同理,分支二受到分支一伪标签的监督,可以更好地学习弱势类别(如卡车、公交车和摩托车)的知识。因此,通过交叉伪标签学习,两个分支可以相互学习对方的优势,有利于提升图像语义分割的性能。
五、第二图像语义分割网络对齐损失(简称为对齐损失)。
考虑到本发明的目标是提高图像语义分割网络在目标域的图像语义分割性能,需要进一步优化偏向源域的分支一,使其在训练过程中向目标域对齐。由于源域图像数据具有域差异,因此主要考虑对源域图像数据的优化。如图4所示,利用第二图像语义分割网络从源域标注图像数据中提取符合目标域分布的源域图像特征,并以此指导第一图像语义分割网络的源域特征提取;具体的:分别使用第一图像语义分割网络与第二图像语义分割网络从源域标注图像数据中提取源域图像特征,并分别计算特征原型,表示为:
其中,为指示函数,当满足/>时,指示函数输出为1,否则,输出为0,符号==是关系运算符,用来判断/>与c的大小是否相同;/>表示一个图像语义分割网络,/>表示一个图像语义分割网络从源域标注图像数据/>中提取的源域图像特征,/>表示一个图像语义分割网络从源域标注图像数据/>中提取的第j个像素位置的源域图像特征,/>表示源域标注图像数据/>中第j个像素位置的真实标签,c表示第c个类别(即类别c),/>为一个图像语义分割网络计算的第c个类别的特征原型,i∈{1,2},i=1时对应于第一图像语义分割网络,i=2时对应于第二图像语义分割网络。
之后,利用第一图像语义分割网络与第二图像语义分割网络对应的特征原型计算对齐损失,通过对齐损失对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐,从而使得框架中的两个网络向目标域分布对齐。
本发明实施例中,所述对齐损失表示为:
通过在第一图像语义分割网络上施加对齐损失,可以使得第一图像语义分割网络提取的源域特征逐渐向目标域分布对齐,有利于第一图像语义分割网络学习目标域知识,并最终通过联合训练提高两个图像语义分割网络在目标域的性能,此处的联合训练是指互补学习和对齐损失,两个图像语义分割网络是不断相互学习的,所以会不断取长补短,一起提高目标域的性能。最后两个图像语义分割网络性能相当,任选其中一个或者选择测试后性能更好的一个图像语义分割网络对图像进行分割即可。
六、总损失函数。
结合上述第三~第五部分的介绍,跨域联合训练框架训练的总损失函数为:
为了便于理解,下面结合一个具体的示例来介绍本发明。
步骤S1、准备源域标注好的训练数据集和目标域的训练集、测试集。随机选取少量目标域数据进行标注。对于源域和目标域的训练集图像,经过图像处理之后(即先缩放再随机裁剪),图像的大小都缩放至第一尺寸,之后,裁剪至第二尺寸,再进行数值归一化处理。
示例性的,第一尺寸可以为512×1024,第二尺寸可以为512×512。
步骤S2、使用Pytorch(一个开源的Python机器学习库)深度学习框架,建立基于跨域联合训练的域适应方法。联合训练框架主要包括两个图像语义分割网络。在训练过程中,两者的初始化和训练数据有所差异。
示例性的,两个图像语义分割网络均可采用基于ResNet101的DeepLabv2分割网络,其中,ResNet101为骨干网络,DeepLabv2为分割网络。
步骤S3、分别用源域标注数据和目标域标注数据训练得到源域预热模型和目标域预热模型,并分别用于初始化联合训练框架中的分支一和分支二。
步骤S4、使用源域标注图像数据作为分支一的训练样本,并施加交叉熵损失,使分支一重点学习源域特性。
步骤S5、使用目标域标注图像数据作为分支二的训练样本,并施加交叉熵损失,使分支二重点学习目标域特性。
步骤S6、使用基于无标注的目标域图像数据的交叉伪标签监督。两个分支分别提取无标注的目标域图像数据的伪标签,并提供给对方作为监督信号,实现互补学习。
步骤S7、施加第二图像语义分割网络对齐损失,利用分支二偏向目标域的优势优化分支一的源域特征,通过减小域差异优化分支一在目标域的学习。
步骤S8、联合训练结束后,输入测试数据集,计算两个分支各自的分割准确度。
通常情况下,最后两个分支指标会变得基本一致,所以任选和选择更好的均可,然后用于图像语义分割任务中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种半监督域适应图像语义分割系统,其主要基于前述实施例提供的方法实现,如图5所示,该系统主要包括:
框架构建与训练单元,用于构建跨域联合训练框架并进行训练,所述跨域联合训练框架包括:第一图像语义分割网络与第二图像语义分割网络;训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐;
语义分割单元,用于训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种半监督域适应图像语义分割方法,其特征在于,包括:
构建跨域联合训练框架并进行训练,所述跨域联合训练框架包括:第一图像语义分割网络与第二图像语义分割网络;训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐;
训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
2.根据权利要求1所述的一种半监督域适应图像语义分割方法,其特征在于,所述使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练包括:
设置两个图像语义分割网络,其中一个使用源域标注图像数据进行预热训练,获得源域预热网络,另一个使用目标域标注图像数据进行预热训练,获得目标域预热网络;使用源域预热网络的参数作为第一图像语义分割网络的初始化参数,使用目标域预热网络的参数作为第二图像语义分割网络的初始化参数;其中,所述第一图像语义分割网络与第二图像语义分割网络的结构相同;
使用源域标注图像数据对第一图像语义分割网络进行监督训练,使用目标域标注图像数据对第二图像语义分割网络进行监督训练,监督训练损失函数表示为:
3.根据权利要求1所述的一种半监督域适应图像语义分割方法,其特征在于,所述第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习包括:
将无标注的目标域图像数据分别输入至第一图像语义分割网络与第二图像语义分割网络,根据第一图像语义分割网络输出的预测结果生成第一伪标签,根据第二图像语义分割网络输出的预测结果生成第二伪标签;将第一伪标签作为第二图像语义分割网络的监督信息,将第二伪标签作为第一图像语义分割网络的监督信息,第一图像语义分割网络与第二图像语义分割网络各自利用监督信息进行互补学习。
5.根据权利要求1所述的一种半监督域适应图像语义分割方法,其特征在于,所述通过第二图像语义分割网络对第一图像语义分割网络进行指导包括:
利用第二图像语义分割网络从源域标注图像数据中提取符合目标域分布的源域图像特征,并以此指导第一图像语义分割网络的源域特征提取。
6.根据权利要求1或5所述的一种半监督域适应图像语义分割方法,其特征在于,所述通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐包括:
分别使用第一图像语义分割网络与第二图像语义分割网络从源域标注图像数据中提取源域图像特征,并分别计算特征原型,表示为:
其中,为指示函数;/>表示一个图像语义分割网络,/>表示一个图像语义分割网络从源域标注图像数据/>中提取的源域图像特征,/>表示一个图像语义分割网络从源域标注图像数据/>中提取的第j个像素位置的源域图像特征,/>表示源域标注图像数据/>中第j个像素位置的真实标签,c表示第c个类别,/>为一个图像语义分割网络计算的第c个类别的特征原型,i∈{1,2},i=1时对应于第一图像语义分割网络,i=2时对应于第二图像语义分割网络;
利用第一图像语义分割网络与第二图像语义分割网络对应的特征原型计算对齐损失,通过对齐损失对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐。
8.一种半监督域适应图像语义分割系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:
框架构建与训练单元,用于构建跨域联合训练框架并进行训练,所述跨域联合训练框架包括:第一图像语义分割网络与第二图像语义分割网络;训练过程包括:使用源域标注图像数据、目标域标注图像数据对应的对第一图像语义分割网络、第二图像语义分割网络进行初始化与监督训练;之后,第一图像语义分割网络与第二图像语义分割网络通过基于无标注的目标域图像数据的交叉伪标签监督进行互补学习,以及,通过第二图像语义分割网络对第一图像语义分割网络进行指导,使第一图像语义分割网络向第二图像语义分割网络对齐;
语义分割单元,用于训练完毕后,利用第一图像语义分割网络或第二图像语义分割网络对输入的目标域图像进行语义分割。
9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507088.5A CN116229080B (zh) | 2023-05-08 | 2023-05-08 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310507088.5A CN116229080B (zh) | 2023-05-08 | 2023-05-08 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116229080A true CN116229080A (zh) | 2023-06-06 |
CN116229080B CN116229080B (zh) | 2023-08-29 |
Family
ID=86587646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310507088.5A Active CN116229080B (zh) | 2023-05-08 | 2023-05-08 | 半监督域适应图像语义分割方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229080B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740117A (zh) * | 2023-06-09 | 2023-09-12 | 华东师范大学 | 一种基于无监督域适应的胃癌病理图像分割方法 |
CN117253097A (zh) * | 2023-11-20 | 2023-12-19 | 中国科学技术大学 | 半监督域适应图像分类方法、系统、设备及存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222690A (zh) * | 2019-04-29 | 2019-09-10 | 浙江大学 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
US20200193269A1 (en) * | 2018-12-18 | 2020-06-18 | Samsung Electronics Co., Ltd. | Recognizer, object recognition method, learning apparatus, and learning method for domain adaptation |
CN111444955A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 一种基于类意识领域自适应的水下声纳图像无监督分类方法 |
CN112016687A (zh) * | 2020-08-20 | 2020-12-01 | 浙江大学 | 一种基于互补伪标签的跨域行人重识别方法 |
US20210064907A1 (en) * | 2019-08-27 | 2021-03-04 | Nvidia Corporation | Cross-domain image processing for object re-identification |
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
CN113343855A (zh) * | 2021-06-09 | 2021-09-03 | 西南交通大学 | 基于引导式子领域自适应的滚动轴承故障诊断系统及方法 |
CN113420775A (zh) * | 2021-03-31 | 2021-09-21 | 中国矿业大学 | 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法 |
CN113627443A (zh) * | 2021-10-11 | 2021-11-09 | 南京码极客科技有限公司 | 一种增强特征空间对抗学习的域自适应语义分割方法 |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
WO2021258967A1 (zh) * | 2020-06-24 | 2021-12-30 | 华为技术有限公司 | 神经网络的训练方法、数据获取方法和装置 |
US20220076074A1 (en) * | 2020-09-09 | 2022-03-10 | Beijing Didi Infinity Technology And Development Co., Ltd. | Multi-source domain adaptation with mutual learning |
US20220138495A1 (en) * | 2020-11-05 | 2022-05-05 | University Of Electronic Science And Technology Of China | Model and method for multi-source domain adaptation by aligning partial features |
CN114529900A (zh) * | 2022-02-14 | 2022-05-24 | 上海交通大学 | 基于特征原型的半监督域适应语义分割方法和系统 |
CN114882521A (zh) * | 2022-03-30 | 2022-08-09 | 河北工业大学 | 基于多分支网络的无监督行人重识别方法及装置 |
CN115205570A (zh) * | 2022-09-14 | 2022-10-18 | 中国海洋大学 | 一种基于对比学习的无监督跨域目标重识别方法 |
WO2022242352A1 (zh) * | 2021-05-21 | 2022-11-24 | 北京沃东天骏信息技术有限公司 | 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质 |
CN115412324A (zh) * | 2022-08-22 | 2022-11-29 | 北京鹏鹄物宇科技发展有限公司 | 基于多模态条件对抗领域适应的空天地网络入侵检测方法 |
CN115630299A (zh) * | 2022-10-11 | 2023-01-20 | 上海大学 | 基于联合域适应网络的旋转机械故障诊断方法及系统 |
CN115761735A (zh) * | 2022-11-16 | 2023-03-07 | 中国矿业大学 | 一种基于自适应伪标签纠正的半监督语义分割方法 |
CN115841574A (zh) * | 2022-12-19 | 2023-03-24 | 中国科学技术大学 | 域适应的激光雷达点云语义分割方法、设备及存储介质 |
-
2023
- 2023-05-08 CN CN202310507088.5A patent/CN116229080B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193269A1 (en) * | 2018-12-18 | 2020-06-18 | Samsung Electronics Co., Ltd. | Recognizer, object recognition method, learning apparatus, and learning method for domain adaptation |
CN110222690A (zh) * | 2019-04-29 | 2019-09-10 | 浙江大学 | 一种基于最大二乘损失的无监督域适应语义分割方法 |
US20210064907A1 (en) * | 2019-08-27 | 2021-03-04 | Nvidia Corporation | Cross-domain image processing for object re-identification |
CN111444955A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 一种基于类意识领域自适应的水下声纳图像无监督分类方法 |
CN113806527A (zh) * | 2020-06-16 | 2021-12-17 | 百度(美国)有限责任公司 | 具有多视图迁移学习的跨语言无监督分类 |
WO2021258967A1 (zh) * | 2020-06-24 | 2021-12-30 | 华为技术有限公司 | 神经网络的训练方法、数据获取方法和装置 |
CN112016687A (zh) * | 2020-08-20 | 2020-12-01 | 浙江大学 | 一种基于互补伪标签的跨域行人重识别方法 |
US20220076074A1 (en) * | 2020-09-09 | 2022-03-10 | Beijing Didi Infinity Technology And Development Co., Ltd. | Multi-source domain adaptation with mutual learning |
US20220138495A1 (en) * | 2020-11-05 | 2022-05-05 | University Of Electronic Science And Technology Of China | Model and method for multi-source domain adaptation by aligning partial features |
CN113420775A (zh) * | 2021-03-31 | 2021-09-21 | 中国矿业大学 | 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法 |
CN113139594A (zh) * | 2021-04-19 | 2021-07-20 | 北京理工大学 | 一种机载图像无人机目标自适应检测方法 |
WO2022242352A1 (zh) * | 2021-05-21 | 2022-11-24 | 北京沃东天骏信息技术有限公司 | 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质 |
CN113343855A (zh) * | 2021-06-09 | 2021-09-03 | 西南交通大学 | 基于引导式子领域自适应的滚动轴承故障诊断系统及方法 |
CN113627443A (zh) * | 2021-10-11 | 2021-11-09 | 南京码极客科技有限公司 | 一种增强特征空间对抗学习的域自适应语义分割方法 |
CN114529900A (zh) * | 2022-02-14 | 2022-05-24 | 上海交通大学 | 基于特征原型的半监督域适应语义分割方法和系统 |
CN114882521A (zh) * | 2022-03-30 | 2022-08-09 | 河北工业大学 | 基于多分支网络的无监督行人重识别方法及装置 |
CN115412324A (zh) * | 2022-08-22 | 2022-11-29 | 北京鹏鹄物宇科技发展有限公司 | 基于多模态条件对抗领域适应的空天地网络入侵检测方法 |
CN115205570A (zh) * | 2022-09-14 | 2022-10-18 | 中国海洋大学 | 一种基于对比学习的无监督跨域目标重识别方法 |
CN115630299A (zh) * | 2022-10-11 | 2023-01-20 | 上海大学 | 基于联合域适应网络的旋转机械故障诊断方法及系统 |
CN115761735A (zh) * | 2022-11-16 | 2023-03-07 | 中国矿业大学 | 一种基于自适应伪标签纠正的半监督语义分割方法 |
CN115841574A (zh) * | 2022-12-19 | 2023-03-24 | 中国科学技术大学 | 域适应的激光雷达点云语义分割方法、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
BO XIONG等: "Multi-organ segmentation: a progressive exploration of learning paradigms under scarce annotation", 《PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》, pages 7209 - 7219 * |
JINSHUO ZHANG等: "DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain Adaptation", 《COMPUTER VISION AND PATTERN RECOGNITION》, pages 1 - 10 * |
王小明等: "内容结构保持的图像风格迁移方法", 《计算机工程与应用》, pages 146 - 154 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740117A (zh) * | 2023-06-09 | 2023-09-12 | 华东师范大学 | 一种基于无监督域适应的胃癌病理图像分割方法 |
CN116740117B (zh) * | 2023-06-09 | 2024-02-06 | 华东师范大学 | 一种基于无监督域适应的胃癌病理图像分割方法 |
CN117253097A (zh) * | 2023-11-20 | 2023-12-19 | 中国科学技术大学 | 半监督域适应图像分类方法、系统、设备及存储介质 |
CN117253097B (zh) * | 2023-11-20 | 2024-02-23 | 中国科学技术大学 | 半监督域适应图像分类方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116229080B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116229080B (zh) | 半监督域适应图像语义分割方法、系统、设备及存储介质 | |
Lin et al. | Moment retrieval via cross-modal interaction networks with query reconstruction | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111027563A (zh) | 一种文本检测方法、装置及识别系统 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN110569359B (zh) | 识别模型的训练及应用方法、装置、计算设备及存储介质 | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN111742345A (zh) | 通过着色的视觉跟踪 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN112417947B (zh) | 关键点检测模型的优化及面部关键点的检测方法及装置 | |
Zhang et al. | Multi-modal fusion with multi-level attention for visual dialog | |
CN115222750A (zh) | 基于多尺度融合注意力的遥感图像分割方法及系统 | |
CN112613434A (zh) | 道路目标检测方法、装置及存储介质 | |
CN117746078B (zh) | 一种基于用户自定义类别的物体检测方法及系统 | |
Zhou et al. | Frequency-aware feature aggregation network with dual-task consistency for RGB-T salient object detection | |
CN114283315A (zh) | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN116758558A (zh) | 基于跨模态生成对抗网络的图文情感分类方法及系统 | |
CN115098646B (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
Li et al. | SiamPolar: Semi-supervised realtime video object segmentation with polar representation | |
Shi et al. | AdaFI-FCN: an adaptive feature integration fully convolutional network for predicting driver’s visual attention | |
Chen et al. | Relation also need attention: Integrating relation information into image captioning | |
US20230267726A1 (en) | Systems and methods for image processing using natural language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |