CN113902913A - 图片语义分割方法及装置 - Google Patents
图片语义分割方法及装置 Download PDFInfo
- Publication number
- CN113902913A CN113902913A CN202111016029.5A CN202111016029A CN113902913A CN 113902913 A CN113902913 A CN 113902913A CN 202111016029 A CN202111016029 A CN 202111016029A CN 113902913 A CN113902913 A CN 113902913A
- Authority
- CN
- China
- Prior art keywords
- target
- source
- loss function
- semantic
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 182
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 189
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000003044 adaptive effect Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 239000000126 substance Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 239000004576 sand Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 101100502320 Arabidopsis thaliana FAD4 gene Proteins 0.000 description 1
- 201000007902 Primary cutaneous amyloidosis Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于语义原型对比学习的域自适应图片语义分割方法及装置,该方法包括:从源域获取源图像对应的预测结果及其对应的真实标签,以及从目标域获取目标图像;将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。本发明利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割,以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离,提高了语义分割模型的准确性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于语义原型对比学习的域自适应图片语义分割方法及装置。
背景技术
领域自适应作为迁移学习的一种,是机器学习领域一个重要且具有挑战性的任务,在图像识别、目标检测以及图像语义分割等领域具有广泛应用。
近几年来,随着无监督自适应语义分割技术的发展,各种新颖的域间对齐方法例如在图像层面上进行风格转换、使用生成对抗网络在特征或分割输出层面上进行对齐都取得了一定的成就。然而,这些方式生成的像素之间不同类别的界限较为不明显,且相同类别的像素在特征空间分散,以致语义分割准确度较差,从而影响语义分割模型的鲁棒性。
发明内容
本发明提供一种基于语义原型对比学习的域自适应图片语义分割方法及装置,用以解决现有技术中相同类别的像素在特征空间分散且不同类别的像素在特征空间中边界不明显以致语义分割模型的鲁棒性较差的缺陷,以提高语义分割域迁移的自适应能力,加强网络对于跨域像素表示的正集中和负分离特性。
本发明提供一种基于语义原型对比学习的域自适应图片语义分割,包括:从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;将所述源图像和所述目标图像分别输入语义分割模型,得到预测结果;所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的;所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出量输入至对比学习模型中得到的。
根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割,所述语义分割模型包括:特征提取层,分别提取输入的所述源图像和所述目标图像的语义特征,得到对应特征图;其中,所述特征图包括源特征图和目标特征图;语义分割层,分别基于所述源特征图和所述目标特征图进行语义分割,得到对应分割结果;其中,所述分割结果包括对应所述源特征图的源分割结果和对应所述目标特征图的目标分割结果;结果输出层,对所述源分割结果和所述目标分割结果添加相应标签,得到对应预测结果;其中,所述目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。
根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割,所述损失函数包括源对比损失函数,所述中间输出量包括真实标签,所述对比学习模型,包括:第一掩码层,基于输入的真实标签,得到源图像的源掩码;第一中心获取层,基于所述源掩码,更新同一语义原型的源预测结果的第一类别中心;第一函数获取层,基于所述源掩码和所述第一类别中心,得到源对比损失函数。
根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割,所述损失函数包括目标对比损失函数,所述中间输出量包括目标分割结果,所述对比学习模型,包括:第一置信度层,基于输入的目标分割结果生成第一置信度图;第二掩码层,根据所述置信度图得到目标掩码;第二中心获取层,基于所述目标掩码,更新同一语义原型的目标预测结果的第二类别中心;第二函数获取层,基于所述目标掩码和所述第二类别中心,得到目标对比损失函数。
根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割,所述损失函数包括自监督损失函数,所述中间输出量包括目标预测结果,所述对比学习模型,包括:第二置信度层,基于输入的目标预测结果生成第二置信度图;伪标签预测层,基于所述第二置信度,生成伪标签;第三函数获取层,利用所述伪标签和所述目标预测结果,得到自监督损失函数。
根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割,所述损失函数包括源对比损失函数、目标对比损失函数和自监督损失函数;
所述源对比损失函数表示为:
其中,表示源对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示源掩码的数量;Msi表示第i个源掩码;Fsi表示第i个源特征图;表示对应源图像的第c个语义原型的第一类别中心,和分别表示正和负语义原型的第一类别中心;l(·)表示源特征图的损失函数;
所述目标对比损失函数表示为:
其中,表示目标对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示目标掩码的数量;Mtj表示第j个目标掩码;Ftj表示第j个目标特征图;表示对应目标图像的第c个语义原型的第二类别中心,和分别表示正和负语义原型的第二类别中心;l(·)表示目标特征图的损失函数;
所述自监督损失函数表示为:
本发明还提供一种基于语义原型对比学习的域自适应图片语义分割装置,包括:数据获取模块,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;语义分割模块,将所述源图像和所述目标图像分别输入语义分割模型,得到预测结果;所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的;所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出特征图和分割结果输入至对比学习模型中得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
本发明提供的基于语义原型对比学习的域自适应图片语义分割方法及装置,利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割,以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离,以便于提高同类别像素以及不同类别的像素在特征空间的特征表示,提高语义分割模型的准确性以及稳定性,提高语义分割域迁移的自适应能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于语义原型对比学习的域自适应图片语义分割方法的流程示意图之一;
图2是本发明提供的基于语义原型对比学习的域自适应图片语义分割方法的流程示意图之二;
图3是本发明提供的训练效果比较示意图之一;
图4是本发明提供的训练效果比较示意图之二;
图5是本发明提供的训练效果比较示意图之三;
图6是本发明提供的全局对齐、粗粒度类对齐和对比学习模型以及真实标签图的结果示意图;
图7是本发明提供的与CAG-UDA分割结果和t-SNE可视化的比较结果示意图;
图8是本发明提供的基于语义原型对比学习的域自适应图片语义分割装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了一种基于语义原型对比学习的域自适应图片语义分割方法的流程示意图,方法包括:
S01,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;
S02,将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
需要说明的是,本说明书中的S0N不代表基于语义原型对比学习的域自适应图片语义分割方法的先后顺序,下面具体结合图2-7描述本发明的基于语义原型对比学习的域自适应图片语义分割方法。
S01,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像。
在本实施例中,获取的源图像集合表示为:
其中,Ds表示源图像集合;Xsi表示第i个源图像Xs;Ysi表示第i个源图像对应的真实标签Ys。
同样的,获取的目标图像集合表示为:
其中,Dt表示源图像集合;Xtj表示第j个源图像Xt;Ytj表示第j个源图像对应的真实标签Yt。
S02,将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
在本实施例中,语义分割模型包括:特征提取层,分别提取输入的源图像和目标图像的语义特征,得到对应特征图;其中,特征图包括源特征图和目标特征图;语义分割层,分别基于源特征图和目标特征图进行语义分割,得到对应分割结果;其中,分割结果包括对应源特征图的源分割结果和对应目标特征图的目标分割结果;结果输出层,对源分割结果和目标分割结果添加相应标签,得到对应预测结果;其中,目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。
需要说明的是,将源图像和目标图像分别输入语义分割模型,得到预测结果,包括:将源图像Xs和目标图像Xt输入特征提取层,得到特征提取层对应输出的源特征图Fs和目标特征图Ft,其中Fs、将源特征图Fs和目标特征图Ft输入语义分割层,得到语义分割层对应输出的源分割结果Os和目标分割结果Ot,其中Os、将源分割结果Os和目标分割结果Ot输入结果输出层,得到结果输出层对应输出的源预测结果Ps和目标预测结果Pt,其中Ps、
另外,利用源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开,并将其传输至对比学习模型,以将属于同一语义原型的像素簇在特征空间中聚集起来,并将其与其他语义原型分开,以提高像素级的紧凑性和可分离性。语义原型为像素值表示的语义信息,并将相同语义信息的像素归为同一语义原型。
在一个可选实施例中,损失函数包括源对比损失函数,中间输出量包括真实标签,对比学习模型,包括:第一掩码层,基于输入的真实标签,得到源图像的源掩码;第一中心获取层,基于源掩码,更新同一语义原型的源预测结果的第一类别中心;第一函数获取层,基于源掩码和第一类别中心,得到源对比损失函数。具体而言:
首先,基于输入的真实标签Ys,得到源图像Xs的源掩码Ms。源掩码表示为:
需要说明的是,h’、w’分别表示对应图像的空间维度;Msi表示第i个源掩码;Ys表示真实标签。
其中,表示对应源图像的第c个语义原型的类别中心;s表示source源域,ns表示对应该source源域的像素点个数;Ⅱ表示指示函数,如果条件成立,则返回1,否则返回0;表示包含属于源特征图Fsi中第c个语义原型的所有像素特征的像素集;|·|是像素集中的像素数;Fsi表示第i个源特征图;h’、w’分别表示对应图像的空间维度。应当注意,对比学习模型仅在初始化模型时计算一次,并且随着模型学习的进行,不断更新对比学习模型。
需要说明的是,在每次更新对比学习模型时,由于每幅源图像的编码中的像素特征是不同的,因此类别中心需要参与至更新过程中以表示最新的语义知识。第c个语义原型的类别中心用属于特征图Fs映射的第c类的源编码中的像素特征的平均值更新,表示为:
其中,α∈[0.1]是更新对比学习模型的系数,α设置为0.1;Ⅱ表示指示函数,如果条件成立,则返回1,否则返回0。应当注意,α=1.0表示对比学习模型在测试期间是固定的训练过程。使用更新的对比学习模型,可以动态地引导跨域像素表示聚集在相应的同类类别中心周围,并揭示源域和目标域之间的内在区别。
最后,基于源掩码和第一类别中心,得到源对比损失函数。
源对比损失函数表示为:
其中,表示源对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示源掩码的数量;Msi表示第i个源掩码;Fsi表示第i个源特征图;表示对应源图像的第c个语义原型的第一类别中心,和分别表示正和负语义原型的第一类别中心;l(·)表示源特征图的损失函数。
源特征图的损失函数,表示为:
需要说明的是,通过计算源特征图Fs的损失函数,以反应数据对于的不兼容性,和分别表示正和负第一类别中心;T表示温度;源特征图的损失函数是利用温度T的softmax公式将正第一类别中心聚集、将负第一类别中心推开,即同类语义原型聚集、不同类语义原型推开,以通过多个未标记的数据学习多个有用的语义知识。
在一个可选实施例中,损失函数包括目标对比损失函数,中间输出量包括目标分割结果,对比学习模型,包括:第一置信度层,基于输入的目标分割结果生成第一置信度图;第二掩码层,根据置信度图得到目标掩码;第二中心获取层,基于目标掩码,更新同一语义原型的目标预测结果的第二类别中心;第二函数获取层,基于目标掩码和第二类别中心,得到目标对比损失函数。
首先,基于输入的目标分割结果Ot生成第一置信度图需要说明的是,第一置信度图中的各置信度值为语义分割层输出的每个分类通道softmax输出的最大项,以使生成的伪标签与置信度值相关联,从而避免在语义分割模型生成目标预测结果时产生训练误差。另外,在选取置信度值形成第一置信度图时,若某个分类通道softmax输出的最大项高于0.9,则将其对应置信度设置为0.9;否则,直接采用该分类通道softmax输出的最大项作为对应置信度值。
随后,基于目标掩码Mt,更新同一语义原型的目标预测结果的第二类别中心应当注意,在更新同一语义原型的目标预测结果的第二类别中心之前,需要先对对比学习模型进行初始化,并计算第二类别中心第二类别中心表示为:
其中,表示对应源图像的第c个语义原型的类别中心;t表示target目标域,nt表示对应该目标域的像素点个数;Ⅱ表示指示函数,如果条件成立,则返回1,否则返回0;表示包含属于目标特征图Ftj中第c个语义类的所有像素特征的像素集;|·|是集合中的像素数;Ftj表示第j个目标特征图。应当注意,对比学习模型仅在初始化模型时计算一次,并且随着模型学习的进行,不断更新对比学习模型。
需要说明的是,在每次更新对比学习模型时,由于每幅目标图像的编码中的像素特征是不同的,因此第二类别中心需要参与至更新过程中以表示最新的语义知识。第c个语义原型的第二类别中心用属于特征图Ft映射的第c类的编码中的像素特征的平均值更新,表示为:
其中,α∈[0.1]是更新对比学习模型的系数,α设置为0.1。应当注意,α=1.0表示对比学习模型在测试期间是固定的训练过程。使用更新的对比学习模型,可以动态地引导跨域像素表示聚集在相应的同一语义原型类别中心周围,并揭示源域和目标域之间的内在区别。
其中,表示目标对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示目标掩码的数量;Mtj表示第j个目标掩码;Ftj表示第j个目标特征图;表示对应目标图像的第c个语义原型的第二类别中心,和分别表示正和负语义原型的第二类别中心;l(·)表示目标特征图的损失函数。
目标特征图的损失函数,表示为:
需要说明的是,通过计算目标特征图Ft的损失函数,以反应数据对于的不兼容性,和分别表示正和负语义原型的第二类别中心;T表示温度;目标特征图的损失函数是利用温度T的softmax公式将正第二类别中心聚集、将负第二类别中心推开,即同类语义原型聚集、不同类语义原型推开,以通过多个未标记的数据学习多个有用的语义知识。
在一个可选实施例中,交叉熵损失函数Lseg表示为:
其中,Ysi表示第i个源图像对应的真实标签;h、w分别表示对应图像的空间维度;c表示真实标签的数量;Psi表示对应第i个源图像的源预测结果。
在一个可选实施例中,损失函数包括源对比损失函数和目标损失函数,对比学习模型,包括:置信度层,基于输入的目标分割结果生成第一置信度图;掩码层,基于输入的真实标签和置信度图,得到源图像的源掩码以及对应目标图像的目标掩码;类别中心获取层,基于源掩码和目标掩码,分别更新同一语义原型的源预测结果的第一类别中心和第二类别中心;函数获取层,基于源掩码和第一类别中心,得到源对比损失函数,以及基于目标掩码和第二类别中心,得到目标对比损失函数。需要说明的是,为了便于对语义分割模型进行训练,结合交叉熵损失函数、源对比损失函数、目标损失函数和配重λ,以缩小源图像数据和目标图像数据之间的域差距并执行分割任务,表示为:
通过结合交叉熵损失函数、源对比损失函数和目标损失函数,以调整语义分割模型,将同类像素簇在特征空间中聚集、不同类像素簇在特征空间中分离。
在一个可选实施例中,损失函数包括自监督损失函数,中间输出量包括目标预测结果,对比学习模型,包括:第二置信度层,基于输入的目标预测结果生成第二置信度图;伪标签预测层,基于第二置信度层,生成伪标签;第三函数获取层,利用伪标签和目标预测结果,得到自监督损失函数。
最后,第三函数获取层,利用伪标签和目标预测结果,得到自监督损失函数,自监督损失函数Lssl表示为:
需要说明的是,在结合交叉熵损失函数、源对比损失函数和目标损失函数调整语义分割模型之后,利用自监督损失函数微调语义分割模型,以使语义分割模型更加适应针对目标域的目标图像数据。
在一个可选实施例中,参考图2,方法还包括:
S11,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;
S12,将源图像Xs和目标图像Xt分别输入语义分割模型,得到预测结果;其中,语义分割模型包括编码器E和解码器D,将源图像Xs和目标图像Xt分别输入编码器E,得到对应的特征图Fs、Ft;将特征图Fs、Ft输入至解码器,得到解码器输出的分割预测结果Ps、Pt;
S13,基于真实标签获取源图像的源掩码Ms;基于源掩码Ms,计算整个源域上第c个类的中心;基于每次输入的不同源掩码,迭代更新对应的第一类别中心,以动态引导跨域像素聚集在相应对应的第一类别中心周围;根据掩码Ms和特征图Fs,计算源域上的源对比损失函数;
基于编码器的分割预测Ot,生成置信度图,得到目标图像的掩码Mt,计算所有目标像素的目标对比损失函数;
基于源图像和对应真实标签,计算交叉熵损失函数;
利用源对比损失函数、目标对比损失函数和交叉熵损失函数,以训练语义分割模型;
S14,基于分割预测结果Pt,选择置信阈值,以生成伪标签,并利用自监督损失函数对语义分割模型进行微调。
需要说明的是,基于源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开,并将其传输至对比学习模型,以将属于同一语义原型的像素簇在特征空间中聚集起来,并将其与其他语义原型分开,以提高像素级的紧凑性和可分离性。
在一个可选实施例中,使用四个流行的基准数据集在“Sim-to-Real”场景下评估基于语义原型对比学习的域自适应图片语义分割方法,即从合成图像(GTA5、Synscapes和SYNTHIA)转移到真实图像(Cityscapes)。Cityscapes包含5000张分辨率为2048×1024的城市场景图像。将其分为训练集、验证集和测试集,分别包含2975、500和1525张图像。与AdaptSegNet、CRST类似,在验证集上评估语义分割模型。GTA5包含24966张图像,分辨率为1914 1052。Synscapes包含25000张图像,分辨率为1440 720。SYNTHIA提供9400张分辨率为1280760的图像。采用PSACAL VOC Intersection-over-Union(IoU)作为评估指标。对于GTA5城市景观和同步景观Cityscapes任务,得到了常见的19个类和尾部类的结果。为了SYNTHIA Cityscapes任务,得到了16和13个语义原型类别的结果。
参考图3-图5,所有模型均采用DeepLab-v2框架,图3示出了Cityscapes验证集与在GTA5上训练的模型的定量比较。mIoU tail用蓝色表示尾类的平均IoU,图4示出了Cityscapes验证集与在Synscapes上训练的模型的定量比较,图5:Cityscapes验证集与在SYNTHIA上训练的模型的定量比较,mIoU*表示13个类的平均IoU,不包括具有*的类。
具体而言,对于GTA5 Cityscapes任务,本实施例方法超过了基于全局对齐的方法,对于VGG-16和ResNet-101,自适应网络分别增加了+9.8%和+9.7%;对于synscape,本实施例方法获得了+4.4%的改进,基于ResNet-101的城市景观任务;对于SYNTHIA城市景观任务,本实施例方法比较对其他人有利。
另外,本实施例方法与其他类对齐方法(CLAN、SSF-DAN、CAG-UDA、SIM、FADA等)相比,总体增长超过1.0%。此外,本实施例方法的性能也与强基线(即自我监督BDL、PyCDA、IntraDA、AdvEnt、CRST和像素关联PLCA方法)相当,甚至更好。上述结果表明,每像素区分表示学习的方式有利于自适应能力。
参考图6,GTA5的定性结果城市景观任务,验证了本实施例方法带来的显著视觉改善。
参考图7,从tSNE可视化的角度,利用t-SNE测量了CAG-UDA和本方法在2D空间的高维像素表示,并将两者结果进行比较,进一步证明本实施例方法在细粒度级别上更具辨别力和一致性。
综上所述,本发明实施例利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割,以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离,以便于提高同类语义原型像素以及不同类语义原型的像素在特征空间的特征表示,提高语义分割模型的准确性以及稳定性,提高语义分割域迁移的自适应能力。
下面对本发明提供的基于语义原型对比学习的域自适应图片语义分割装置进行描述,下文描述的基于语义原型对比学习的域自适应图片语义分割装置与上文描述的基于语义原型对比学习的域自适应图片语义分割方法可相互对应参照。
参考图8,图8示出了一种基于语义原型对比学习的域自适应图片语义分割装置的结构示意图,该装置,包括:
数据获取模块81,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;
语义分割模块82,将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
在本实施例中,语义分割模块82,包括:语义分割子模块,根据输入的源图像和目标图像,得到预测结果;对比学习子模块,交叉熵损失函数以及损失函数训练训练语义分割子模块;其中,交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
具体而言,语义分割子模块包括:特征提取单元,分别提取输入的源图像和目标图像的语义特征,得到对应特征图;其中,特征图包括源特征图和目标特征图;语义分割单元,分别基于源特征图和目标特征图进行语义分割,得到对应分割结果;其中,分割结果包括对应源特征图的源分割结果和对应目标特征图的目标分割结果;结果输出单元,对源分割结果和目标分割结果添加相应标签,得到对应预测结果;其中,目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。通过利用源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开,并将其传输至对比学习模型,以将属于同一语义原型的像素簇在特征空间中聚集起来,并将其与其他语义原型分开,以提高像素级的紧凑性和可分离性。语义原型为像素值表示的语义信息,并将相同语义信息的像素归为同一语义原型。
在一个可选实施例中,损失函数包括源对比损失函数,中间输出量包括真实标签,对比学习子模块,包括:第一掩码单元,基于输入的真实标签,得到源图像的源掩码;第一类别中心获取单元,基于源掩码,更新同一语义原型的源预测结果的第一类别中心;第一函数获取单元,基于源掩码和第一类别中心,得到源对比损失函数。
在一个可选实施例中,损失函数包括目标对比损失函数,中间输出量包括目标分割结果,对比学习子模块,包括:第一置信度单元,基于输入的目标分割结果生成第一置信度图;第二掩码单元,根据置信度图得到目标掩码;第二类别中心获取单元,基于目标掩码,更新同一语义原型的目标预测结果的第二类别中心;第二函数获取单元,基于目标掩码和第二类别中心,得到目标对比损失函数。
在一个可选实施例中,损失函数包括源对比损失函数和目标损失函数,对比学习子模块,包括:第一置信度单元,基于输入的目标分割结果生成第一置信度图;掩码单元,基于输入的真实标签和置信度图,得到源图像的源掩码以及对应目标图像的目标掩码;类别中心获取单元,基于源掩码和目标掩码,分别更新同一语义原型的源预测结果的第一类别中心和第二类别中心;函数获取单元,基于源掩码和第一类别中心,得到源对比损失函数,以及基于目标掩码和第二类别中心,得到目标对比损失函数。需要说明的是,为了便于对语义分割模型进行训练,结合交叉熵损失函数、源对比损失函数、目标损失函数和配重λ,以缩小源图像数据和目标图像数据之间的域差距并执行分割任务,
在一个可选实施例中,损失函数包括自监督损失函数,中间输出量包括目标预测结果,对比学习子模块,包括:第二置信度单元,基于输入的目标预测结果生成第二置信度图;伪标签预测单元,基于第二置信度层,生成伪标签;第三函数获取单元,利用伪标签和目标预测结果,得到自监督损失函数。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)91、通信接口(Communications Interface)92、存储器(memory)93和通信总线94,其中,处理器91,通信接口92,存储器930通过通信总线94完成相互间的通信。处理器91可以调用存储器93中的逻辑指令,以执行基于语义原型对比学习的域自适应图片语义分割方法,该方法包括:从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
此外,上述的存储器93中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于语义原型对比学习的域自适应图片语义分割方法,该方法包括:从源域获取源图像对应的预测结果及其对应的真实标签,以及从目标域获取目标图像;将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于语义原型对比学习的域自适应图片语义分割方法,该方法包括:从源域获取源图像对应的预测结果及其对应的真实标签,以及从目标域获取目标图像;将源图像和目标图像分别输入语义分割模型,得到预测结果;语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;其中,交叉熵损失函数是基于源图像及其对应的真实标签得到的;损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,包括:
从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;
将所述源图像和所述目标图像分别输入语义分割模型,得到预测结果;
所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;
其中,所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的;
所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出量输入至对比学习模型中得到的。
2.根据权利要求1所述的基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,所述语义分割模型包括:
特征提取层,分别提取输入的所述源图像和所述目标图像的语义特征,得到对应特征图;其中,所述特征图包括源特征图和目标特征图;
语义分割层,分别基于所述源特征图和所述目标特征图进行语义分割,得到对应分割结果;其中,所述分割结果包括对应所述源特征图的源分割结果和对应所述目标特征图的目标分割结果;
结果输出层,对所述源分割结果和所述目标分割结果添加相应标签,得到对应预测结果;其中,所述目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。
3.根据权利要求2所述的基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,所述损失函数包括源对比损失函数,所述中间输出量包括真实标签,所述对比学习模型,包括:
第一掩码层,基于输入的真实标签,得到源图像的源掩码;
第一中心获取层,基于所述源掩码,更新同一语义原型的源预测结果的第一类别中心;
第一函数获取层,基于所述源掩码和所述第一类别中心,得到源对比损失函数。
4.根据权利要求2所述的基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,所述损失函数包括目标对比损失函数,所述中间输出量包括目标分割结果,所述对比学习模型,包括:
第一置信度层,基于输入的目标分割结果生成第一置信度图;
第二掩码层,根据所述置信度图得到目标掩码;
第二中心获取层,基于所述目标掩码,更新同一语义原型的目标预测结果的第二类别中心;
第二函数获取层,基于所述目标掩码和所述第二类别中心,得到目标对比损失函数。
5.根据权利要求2所述的基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,所述损失函数包括自监督损失函数,所述中间输出量包括目标预测结果,所述对比学习模型,包括:
第二置信度层,基于输入的目标预测结果生成第二置信度图;
伪标签预测层,基于所述第二置信度,生成伪标签;
第三函数获取层,利用所述伪标签和所述目标预测结果,得到自监督损失函数。
6.根据权利要求1所述的基于语义原型对比学习的域自适应图片语义分割方法,其特征在于,所述损失函数包括源对比损失函数、目标对比损失函数和自监督损失函数;
所述源对比损失函数表示为:
其中,表示源对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示源掩码的数量;Msi表示第i个源掩码;Fsi表示第i个源特征图;表示对应源图像的第c个语义原型的第一类别中心,和分别表示正和负语义原型的第一类别中心;l(·)表示源特征图的损失函数;
所述目标对比损失函数表示为:
其中,表示目标对比损失函数;Ⅱ表示指示函数,若条件成立则返回1,否则返回0;h’、w’分别表示对应图像的空间维度;c表示目标掩码的数量;Mtj表示第j个目标掩码;Ftj表示第j个目标特征图;表示对应目标图像的第c个语义原型的第二类别中心,和分别表示正和负语义原型的第二类别中心;l(·)表示目标特征图的损失函数;
所述自监督损失函数表示为:
7.一种基于语义原型对比学习的域自适应图片语义分割装置,其特征在于,包括:
数据获取模块,从源域获取源图像及其对应的真实标签,以及从目标域获取目标图像;
语义分割模块,将所述源图像和所述目标图像分别输入语义分割模型,得到预测结果;
所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的;
其中,所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的;
所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出特征图和分割结果输入至对比学习模型中得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016029.5A CN113902913A (zh) | 2021-08-31 | 2021-08-31 | 图片语义分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016029.5A CN113902913A (zh) | 2021-08-31 | 2021-08-31 | 图片语义分割方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902913A true CN113902913A (zh) | 2022-01-07 |
Family
ID=79188180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016029.5A Pending CN113902913A (zh) | 2021-08-31 | 2021-08-31 | 图片语义分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902913A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386527A (zh) * | 2022-01-18 | 2022-04-22 | 湖南大学无锡智能控制研究院 | 一种用于域自适应目标检测的类别正则化方法及系统 |
CN114529878A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种基于语义感知的跨域道路场景语义分割方法 |
CN114549913A (zh) * | 2022-04-25 | 2022-05-27 | 深圳思谋信息科技有限公司 | 一种语义分割方法、装置、计算机设备和存储介质 |
CN114648638A (zh) * | 2022-04-02 | 2022-06-21 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、语义分割方法与装置 |
CN115099293A (zh) * | 2022-03-09 | 2022-09-23 | 北京安德医智科技有限公司 | 一种模型训练方法及装置、电子设备和存储介质 |
CN115690094A (zh) * | 2022-12-12 | 2023-02-03 | 常州微亿智造科技有限公司 | 基于自监督网络的工业缺陷检测方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110322446A (zh) * | 2019-07-01 | 2019-10-11 | 华中科技大学 | 一种基于相似性空间对齐的域自适应语义分割方法 |
CN113269024A (zh) * | 2021-03-31 | 2021-08-17 | 中南大学 | 顾及极化统计特性的非监督域自适应网络极化sar地物分类方法及设备 |
-
2021
- 2021-08-31 CN CN202111016029.5A patent/CN113902913A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148142A (zh) * | 2019-05-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、设备和存储介质 |
CN110322446A (zh) * | 2019-07-01 | 2019-10-11 | 华中科技大学 | 一种基于相似性空间对齐的域自适应语义分割方法 |
CN113269024A (zh) * | 2021-03-31 | 2021-08-17 | 中南大学 | 顾及极化统计特性的非监督域自适应网络极化sar地物分类方法及设备 |
Non-Patent Citations (1)
Title |
---|
汤诗雨: "Unsupervised domain adaptation via coarse-to-fine feature alignment method using contrastive learning", ARXIV PREPRINT ARXIV:2103.12371, 23 March 2021 (2021-03-23), pages 1 - 12 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386527A (zh) * | 2022-01-18 | 2022-04-22 | 湖南大学无锡智能控制研究院 | 一种用于域自适应目标检测的类别正则化方法及系统 |
CN114529878A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种基于语义感知的跨域道路场景语义分割方法 |
CN114529878B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种基于语义感知的跨域道路场景语义分割方法 |
CN115099293A (zh) * | 2022-03-09 | 2022-09-23 | 北京安德医智科技有限公司 | 一种模型训练方法及装置、电子设备和存储介质 |
CN114648638A (zh) * | 2022-04-02 | 2022-06-21 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、语义分割方法与装置 |
CN114549913A (zh) * | 2022-04-25 | 2022-05-27 | 深圳思谋信息科技有限公司 | 一种语义分割方法、装置、计算机设备和存储介质 |
CN114549913B (zh) * | 2022-04-25 | 2022-07-19 | 深圳思谋信息科技有限公司 | 一种语义分割方法、装置、计算机设备和存储介质 |
WO2023206944A1 (zh) * | 2022-04-25 | 2023-11-02 | 深圳思谋信息科技有限公司 | 一种语义分割方法、装置、计算机设备和存储介质 |
CN115690094A (zh) * | 2022-12-12 | 2023-02-03 | 常州微亿智造科技有限公司 | 基于自监督网络的工业缺陷检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902913A (zh) | 图片语义分割方法及装置 | |
CN111754596B (zh) | 编辑模型生成、人脸图像编辑方法、装置、设备及介质 | |
US10726304B2 (en) | Refining synthetic data with a generative adversarial network using auxiliary inputs | |
CN106557778B (zh) | 通用物体检测方法和装置、数据处理装置和终端设备 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111414906A (zh) | 纸质票据图片的数据合成与文本识别方法 | |
CN112308862A (zh) | 图像语义分割模型训练、分割方法、装置以及存储介质 | |
CN110222572A (zh) | 跟踪方法、装置、电子设备及存储介质 | |
CN113095333B (zh) | 无监督特征点检测方法及装置 | |
CN113838064B (zh) | 一种基于分支gan使用多时相遥感数据的云去除方法 | |
CN113841161A (zh) | 用于自动生成内容分发图像的可扩展体系架构 | |
US20210056429A1 (en) | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks | |
CN116363374B (zh) | 图像语义分割网络持续学习方法、系统、设备及存储介质 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113822794A (zh) | 一种图像风格转换方法、装置、计算机设备和存储介质 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN116051593A (zh) | 服装图像提取方法及其装置、设备、介质、产品 | |
CN113592807A (zh) | 一种训练方法、图像质量确定方法及装置、电子设备 | |
CN112839185B (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN113591892A (zh) | 一种训练数据的处理方法及装置 | |
CN112016592A (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN113361530A (zh) | 使用交互手段的图像语义精准分割及优化方法 | |
CN116109656A (zh) | 一种基于无监督学习的交互式图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |