CN113902913A

CN113902913A - 图片语义分割方法及装置

Info

Publication number: CN113902913A
Application number: CN202111016029.5A
Authority: CN
Inventors: 乔烽; 韩泽熙; 陈�光; 程新景
Original assignee: International Network Technology Shanghai Co Ltd
Current assignee: International Network Technology Shanghai Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2022-01-07

Abstract

本发明提供一种基于语义原型对比学习的域自适应图片语义分割方法及装置，该方法包括：从源域获取源图像对应的预测结果及其对应的真实标签，以及从目标域获取目标图像；将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。本发明利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割，以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离，提高了语义分割模型的准确性。

Description

图片语义分割方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于语义原型对比学习的域自适应图片语义分割方法及装置。

背景技术

领域自适应作为迁移学习的一种，是机器学习领域一个重要且具有挑战性的任务，在图像识别、目标检测以及图像语义分割等领域具有广泛应用。

近几年来，随着无监督自适应语义分割技术的发展，各种新颖的域间对齐方法例如在图像层面上进行风格转换、使用生成对抗网络在特征或分割输出层面上进行对齐都取得了一定的成就。然而，这些方式生成的像素之间不同类别的界限较为不明显，且相同类别的像素在特征空间分散，以致语义分割准确度较差，从而影响语义分割模型的鲁棒性。

发明内容

本发明提供一种基于语义原型对比学习的域自适应图片语义分割方法及装置，用以解决现有技术中相同类别的像素在特征空间分散且不同类别的像素在特征空间中边界不明显以致语义分割模型的鲁棒性较差的缺陷，以提高语义分割域迁移的自适应能力，加强网络对于跨域像素表示的正集中和负分离特性。

本发明提供一种基于语义原型对比学习的域自适应图片语义分割，包括：从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；将所述源图像和所述目标图像分别输入语义分割模型，得到预测结果；所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的；所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出量输入至对比学习模型中得到的。

根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割，所述语义分割模型包括：特征提取层，分别提取输入的所述源图像和所述目标图像的语义特征，得到对应特征图；其中，所述特征图包括源特征图和目标特征图；语义分割层，分别基于所述源特征图和所述目标特征图进行语义分割，得到对应分割结果；其中，所述分割结果包括对应所述源特征图的源分割结果和对应所述目标特征图的目标分割结果；结果输出层，对所述源分割结果和所述目标分割结果添加相应标签，得到对应预测结果；其中，所述目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。

根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割，所述损失函数包括源对比损失函数，所述中间输出量包括真实标签，所述对比学习模型，包括：第一掩码层，基于输入的真实标签，得到源图像的源掩码；第一中心获取层，基于所述源掩码，更新同一语义原型的源预测结果的第一类别中心；第一函数获取层，基于所述源掩码和所述第一类别中心，得到源对比损失函数。

根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割，所述损失函数包括目标对比损失函数，所述中间输出量包括目标分割结果，所述对比学习模型，包括：第一置信度层，基于输入的目标分割结果生成第一置信度图；第二掩码层，根据所述置信度图得到目标掩码；第二中心获取层，基于所述目标掩码，更新同一语义原型的目标预测结果的第二类别中心；第二函数获取层，基于所述目标掩码和所述第二类别中心，得到目标对比损失函数。

根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割，所述损失函数包括自监督损失函数，所述中间输出量包括目标预测结果，所述对比学习模型，包括：第二置信度层，基于输入的目标预测结果生成第二置信度图；伪标签预测层，基于所述第二置信度，生成伪标签；第三函数获取层，利用所述伪标签和所述目标预测结果，得到自监督损失函数。

根据本发明提供的一种基于语义原型对比学习的域自适应图片语义分割，所述损失函数包括源对比损失函数、目标对比损失函数和自监督损失函数；

所述源对比损失函数表示为：

其中，

表示源对比损失函数；Ⅱ表示指示函数，若

条件成立则返回1，否则返回0；h’、w’分别表示对应图像的空间维度；c表示源掩码的数量；M_si表示第i个源掩码；F_si表示第i个源特征图；

表示对应源图像的第c个语义原型的第一类别中心，

和

分别表示正和负语义原型的第一类别中心；l(·)表示源特征图的损失函数；

所述目标对比损失函数表示为：

其中，

表示目标对比损失函数；Ⅱ表示指示函数，若

条件成立则返回1，否则返回0；h’、w’分别表示对应图像的空间维度；c表示目标掩码的数量；M_tj表示第j个目标掩码；F_tj表示第j个目标特征图；

表示对应目标图像的第c个语义原型的第二类别中心，

和

分别表示正和负语义原型的第二类别中心；l(·)表示目标特征图的损失函数；

所述自监督损失函数表示为：

其中，L_ssl表示自监督损失函数；Ⅱ表示指示函数，若

条件成立则返回1，否则返回0；h’、w’分别表示对应图像的空间维度；c表示伪标签的数量；

表示第j个伪标签；P_j表示第j个目标预测结果。

本发明还提供一种基于语义原型对比学习的域自适应图片语义分割装置，包括：数据获取模块，从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；语义分割模块，将所述源图像和所述目标图像分别输入语义分割模型，得到预测结果；所述语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，所述交叉熵损失函数是基于所述源图像对应的预测结果及其对应的真实标签得到的；所述损失函数是基于将所述真实标签、所述预测结果以及所述语义分割模型的中间输出特征图和分割结果输入至对比学习模型中得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于语义原型对比学习的域自适应图片语义分割方法的步骤。

本发明提供的基于语义原型对比学习的域自适应图片语义分割方法及装置，利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割，以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离，以便于提高同类别像素以及不同类别的像素在特征空间的特征表示，提高语义分割模型的准确性以及稳定性，提高语义分割域迁移的自适应能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于语义原型对比学习的域自适应图片语义分割方法的流程示意图之一；

图2是本发明提供的基于语义原型对比学习的域自适应图片语义分割方法的流程示意图之二；

图3是本发明提供的训练效果比较示意图之一；

图4是本发明提供的训练效果比较示意图之二；

图5是本发明提供的训练效果比较示意图之三；

图6是本发明提供的全局对齐、粗粒度类对齐和对比学习模型以及真实标签图的结果示意图；

图7是本发明提供的与CAG-UDA分割结果和t-SNE可视化的比较结果示意图；

图8是本发明提供的基于语义原型对比学习的域自适应图片语义分割装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种基于语义原型对比学习的域自适应图片语义分割方法的流程示意图，方法包括：

S01，从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；

S02，将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

需要说明的是，本说明书中的S0N不代表基于语义原型对比学习的域自适应图片语义分割方法的先后顺序，下面具体结合图2-7描述本发明的基于语义原型对比学习的域自适应图片语义分割方法。

S01，从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像。

在本实施例中，获取的源图像集合表示为：

其中，D_s表示源图像集合；X_si表示第i个源图像X_s；Y_si表示第i个源图像对应的真实标签Y_s。

同样的，获取的目标图像集合表示为：

其中，D_t表示源图像集合；X_tj表示第j个源图像X_t；Y_tj表示第j个源图像对应的真实标签Y_t。

需要说明的是，目标图像为未标记的图像。另外，X_s,

以及

其中H和W表示图像的空间维度，C是语义类标签的数量。

在本实施例中，语义分割模型包括：特征提取层，分别提取输入的源图像和目标图像的语义特征，得到对应特征图；其中，特征图包括源特征图和目标特征图；语义分割层，分别基于源特征图和目标特征图进行语义分割，得到对应分割结果；其中，分割结果包括对应源特征图的源分割结果和对应目标特征图的目标分割结果；结果输出层，对源分割结果和目标分割结果添加相应标签，得到对应预测结果；其中，目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。

需要说明的是，将源图像和目标图像分别输入语义分割模型，得到预测结果，包括：将源图像X_s和目标图像X_t输入特征提取层，得到特征提取层对应输出的源特征图F_s和目标特征图F_t，其中F_s、

将源特征图F_s和目标特征图F_t输入语义分割层，得到语义分割层对应输出的源分割结果O_s和目标分割结果O_t，其中O_s、

将源分割结果O_s和目标分割结果O_t输入结果输出层，得到结果输出层对应输出的源预测结果P_s和目标预测结果P_t，其中P_s、

另外，利用源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开，并将其传输至对比学习模型，以将属于同一语义原型的像素簇在特征空间中聚集起来，并将其与其他语义原型分开，以提高像素级的紧凑性和可分离性。语义原型为像素值表示的语义信息，并将相同语义信息的像素归为同一语义原型。

在一个可选实施例中，损失函数包括源对比损失函数，中间输出量包括真实标签，对比学习模型，包括：第一掩码层，基于输入的真实标签，得到源图像的源掩码；第一中心获取层，基于源掩码，更新同一语义原型的源预测结果的第一类别中心；第一函数获取层，基于源掩码和第一类别中心，得到源对比损失函数。具体而言：

首先，基于输入的真实标签Y_s，得到源图像X_s的源掩码M_s。源掩码表示为：

需要说明的是，h’、w’分别表示对应图像的空间维度；M_si表示第i个源掩码；Y_s表示真实标签。

其次，基于源掩码M_s，更新同一语义原型的源预测结果的第一类别中心

应当注意，在更新同一语义原型的源预测结果的第一类别中心μ^c之前，需要先对对比学习模型进行初始化，并计算类别中心

类别中心

表示为：

其中，

表示对应源图像的第c个语义原型的类别中心；s表示source源域，n_s表示对应该source源域的像素点个数；Ⅱ表示指示函数，如果

条件成立，则返回1，否则返回0；

表示包含属于源特征图F_si中第c个语义原型的所有像素特征的像素集；|·|是像素集中的像素数；F_si表示第i个源特征图；h’、w’分别表示对应图像的空间维度。应当注意，对比学习模型仅在初始化模型时计算一次，并且随着模型学习的进行，不断更新对比学习模型。

需要说明的是，在每次更新对比学习模型时，由于每幅源图像的编码中的像素特征是不同的，因此类别中心需要参与至更新过程中以表示最新的语义知识。第c个语义原型的类别中心

用属于特征图F_s映射的第c类的源编码中的像素特征的平均值更新，表示为：

其中，α∈[0.1]是更新对比学习模型的系数，α设置为0.1；Ⅱ表示指示函数，如果

条件成立，则返回1，否则返回0。应当注意，α＝1.0表示对比学习模型在测试期间是固定的训练过程。使用更新的对比学习模型，可以动态地引导跨域像素表示聚集在相应的同类类别中心周围，并揭示源域和目标域之间的内在区别。

最后，基于源掩码和第一类别中心，得到源对比损失函数。

源对比损失函数表示为：

其中，

表示源对比损失函数；Ⅱ表示指示函数，若

表示对应源图像的第c个语义原型的第一类别中心，

和

分别表示正和负语义原型的第一类别中心；l(·)表示源特征图的损失函数。

源特征图的损失函数，表示为：

需要说明的是，通过计算源特征图F_s的损失函数，以反应数据对于

的不兼容性，

和

分别表示正和负第一类别中心；T表示温度；源特征图的损失函数是利用温度T的softmax公式将正第一类别中心聚集、将负第一类别中心推开，即同类语义原型聚集、不同类语义原型推开，以通过多个未标记的数据学习多个有用的语义知识。

在一个可选实施例中，损失函数包括目标对比损失函数，中间输出量包括目标分割结果，对比学习模型，包括：第一置信度层，基于输入的目标分割结果生成第一置信度图；第二掩码层，根据置信度图得到目标掩码；第二中心获取层，基于目标掩码，更新同一语义原型的目标预测结果的第二类别中心；第二函数获取层，基于目标掩码和第二类别中心，得到目标对比损失函数。

首先，基于输入的目标分割结果O_t生成第一置信度图

需要说明的是，第一置信度图

中的各置信度值为语义分割层输出的每个分类通道softmax输出的最大项，以使生成的伪标签与置信度值相关联，从而避免在语义分割模型生成目标预测结果时产生训练误差。另外，在选取置信度值形成第一置信度图时，若某个分类通道softmax输出的最大项高于0.9，则将其对应置信度设置为0.9；否则，直接采用该分类通道softmax输出的最大项作为对应置信度值。

其次，根据置信度图

得到目标掩码M_t，目标掩码M_t表示为：

需要说明的是，Ⅱ表示指示函数，如果

条件成立，则返回1，否则返回0；O_t表示目标分割结果；h’、w’分别表示对应图像的空间维度。

随后，基于目标掩码M_t，更新同一语义原型的目标预测结果的第二类别中心

应当注意，在更新同一语义原型的目标预测结果的第二类别中心

之前，需要先对对比学习模型进行初始化，并计算第二类别中心

第二类别中心

表示为：

其中，

表示对应源图像的第c个语义原型的类别中心；t表示target目标域，n_t表示对应该目标域的像素点个数；Ⅱ表示指示函数，如果

条件成立，则返回1，否则返回0；

表示包含属于目标特征图F_tj中第c个语义类的所有像素特征的像素集；|·|是集合中的像素数；F_tj表示第j个目标特征图。应当注意，对比学习模型仅在初始化模型时计算一次，并且随着模型学习的进行，不断更新对比学习模型。

需要说明的是，在每次更新对比学习模型时，由于每幅目标图像的编码中的像素特征是不同的，因此第二类别中心需要参与至更新过程中以表示最新的语义知识。第c个语义原型的第二类别中心

用属于特征图F_t映射的第c类的编码中的像素特征的平均值更新，表示为：

其中，α∈[0.1]是更新对比学习模型的系数，α设置为0.1。应当注意，α＝1.0表示对比学习模型在测试期间是固定的训练过程。使用更新的对比学习模型，可以动态地引导跨域像素表示聚集在相应的同一语义原型类别中心周围，并揭示源域和目标域之间的内在区别。

最后，基于目标掩码M_t和第二类别中心

得到目标对比损失函数。目标对比损失函数表示为：

其中，

表示目标对比损失函数；Ⅱ表示指示函数，若

表示对应目标图像的第c个语义原型的第二类别中心，

和

分别表示正和负语义原型的第二类别中心；l(·)表示目标特征图的损失函数。

目标特征图的损失函数，表示为：

需要说明的是，通过计算目标特征图F_t的损失函数，以反应数据对于

的不兼容性，

和

分别表示正和负语义原型的第二类别中心；T表示温度；目标特征图的损失函数是利用温度T的softmax公式将正第二类别中心聚集、将负第二类别中心推开，即同类语义原型聚集、不同类语义原型推开，以通过多个未标记的数据学习多个有用的语义知识。

在一个可选实施例中，交叉熵损失函数L_seg表示为：

其中，Ys_i表示第i个源图像对应的真实标签；h、w分别表示对应图像的空间维度；c表示真实标签的数量；Ps_i表示对应第i个源图像的源预测结果。

在一个可选实施例中，损失函数包括源对比损失函数和目标损失函数，对比学习模型，包括：置信度层，基于输入的目标分割结果生成第一置信度图；掩码层，基于输入的真实标签和置信度图，得到源图像的源掩码以及对应目标图像的目标掩码；类别中心获取层，基于源掩码和目标掩码，分别更新同一语义原型的源预测结果的第一类别中心和第二类别中心；函数获取层，基于源掩码和第一类别中心，得到源对比损失函数，以及基于目标掩码和第二类别中心，得到目标对比损失函数。需要说明的是，为了便于对语义分割模型进行训练，结合交叉熵损失函数、源对比损失函数、目标损失函数和配重λ，以缩小源图像数据和目标图像数据之间的域差距并执行分割任务，表示为：

通过结合交叉熵损失函数、源对比损失函数和目标损失函数，以调整语义分割模型，将同类像素簇在特征空间中聚集、不同类像素簇在特征空间中分离。

在一个可选实施例中，损失函数包括自监督损失函数，中间输出量包括目标预测结果，对比学习模型，包括：第二置信度层，基于输入的目标预测结果生成第二置信度图；伪标签预测层，基于第二置信度层，生成伪标签；第三函数获取层，利用伪标签和目标预测结果，得到自监督损失函数。

首先，基于输入的目标预测结果P_t生成第二置信度图

需要说明的是，第二置信度图

的生成方式可参照第一置信度图，此处不作进一步描述。

其次，基于第二置信度，生成伪标签，伪标签

表示为：

其中，

表示伪标签；Ⅱ表示指示函数，如果

条件成立，则返回1，否则返回0；P_t表示目标预测结果。

最后，第三函数获取层，利用伪标签和目标预测结果，得到自监督损失函数，自监督损失函数L_ssl表示为：

其中，L_ssl表示自监督损失函数；Ⅱ表示指示函数，若

表示第j个伪标签；P_j表示第j个目标预测结果。

需要说明的是，在结合交叉熵损失函数、源对比损失函数和目标损失函数调整语义分割模型之后，利用自监督损失函数微调语义分割模型，以使语义分割模型更加适应针对目标域的目标图像数据。

在一个可选实施例中，参考图2，方法还包括：

S11，从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；

S12，将源图像X_s和目标图像X_t分别输入语义分割模型，得到预测结果；其中，语义分割模型包括编码器E和解码器D，将源图像X_s和目标图像X_t分别输入编码器E，得到对应的特征图F_s、F_t；将特征图F_s、F_t输入至解码器，得到解码器输出的分割预测结果P_s、P_t；

S13，基于真实标签获取源图像的源掩码Ms；基于源掩码Ms，计算整个源域上第c个类的中心；基于每次输入的不同源掩码，迭代更新对应的第一类别中心，以动态引导跨域像素聚集在相应对应的第一类别中心周围；根据掩码Ms和特征图Fs，计算源域上的源对比损失函数；

基于编码器的分割预测Ot，生成置信度图，得到目标图像的掩码Mt，计算所有目标像素的目标对比损失函数；

基于源图像和对应真实标签，计算交叉熵损失函数；

利用源对比损失函数、目标对比损失函数和交叉熵损失函数，以训练语义分割模型；

S14，基于分割预测结果Pt，选择置信阈值，以生成伪标签，并利用自监督损失函数对语义分割模型进行微调。

需要说明的是，基于源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开，并将其传输至对比学习模型，以将属于同一语义原型的像素簇在特征空间中聚集起来，并将其与其他语义原型分开，以提高像素级的紧凑性和可分离性。

在一个可选实施例中，使用四个流行的基准数据集在“Sim-to-Real”场景下评估基于语义原型对比学习的域自适应图片语义分割方法，即从合成图像(GTA5、Synscapes和SYNTHIA)转移到真实图像(Cityscapes)。Cityscapes包含5000张分辨率为2048×1024的城市场景图像。将其分为训练集、验证集和测试集，分别包含2975、500和1525张图像。与AdaptSegNet、CRST类似，在验证集上评估语义分割模型。GTA5包含24966张图像，分辨率为1914 1052。Synscapes包含25000张图像，分辨率为1440 720。SYNTHIA提供9400张分辨率为1280760的图像。采用PSACAL VOC Intersection-over-Union(IoU)作为评估指标。对于GTA5城市景观和同步景观Cityscapes任务，得到了常见的19个类和尾部类的结果。为了SYNTHIA Cityscapes任务，得到了16和13个语义原型类别的结果。

参考图3-图5，所有模型均采用DeepLab-v2框架，图3示出了Cityscapes验证集与在GTA5上训练的模型的定量比较。mIoU tail用蓝色表示尾类的平均IoU，图4示出了Cityscapes验证集与在Synscapes上训练的模型的定量比较，图5：Cityscapes验证集与在SYNTHIA上训练的模型的定量比较，mIoU*表示13个类的平均IoU，不包括具有*的类。

具体而言，对于GTA5 Cityscapes任务，本实施例方法超过了基于全局对齐的方法，对于VGG-16和ResNet-101，自适应网络分别增加了+9.8％和+9.7％；对于synscape，本实施例方法获得了+4.4％的改进，基于ResNet-101的城市景观任务；对于SYNTHIA城市景观任务，本实施例方法比较对其他人有利。

另外，本实施例方法与其他类对齐方法(CLAN、SSF-DAN、CAG-UDA、SIM、FADA等)相比，总体增长超过1.0％。此外，本实施例方法的性能也与强基线(即自我监督BDL、PyCDA、IntraDA、AdvEnt、CRST和像素关联PLCA方法)相当，甚至更好。上述结果表明，每像素区分表示学习的方式有利于自适应能力。

参考图6，GTA5的定性结果城市景观任务，验证了本实施例方法带来的显著视觉改善。

参考图7，从tSNE可视化的角度，利用t-SNE测量了CAG-UDA和本方法在2D空间的高维像素表示，并将两者结果进行比较，进一步证明本实施例方法在细粒度级别上更具辨别力和一致性。

综上所述，本发明实施例利用交叉熵损失函数以及损失函数训练得到的语义分割模型对源图像和目标图像进行语义分割，以使语义分割模型将输入图像数据的同类像素聚集、不同类像素分离，以便于提高同类语义原型像素以及不同类语义原型的像素在特征空间的特征表示，提高语义分割模型的准确性以及稳定性，提高语义分割域迁移的自适应能力。

下面对本发明提供的基于语义原型对比学习的域自适应图片语义分割装置进行描述，下文描述的基于语义原型对比学习的域自适应图片语义分割装置与上文描述的基于语义原型对比学习的域自适应图片语义分割方法可相互对应参照。

参考图8，图8示出了一种基于语义原型对比学习的域自适应图片语义分割装置的结构示意图，该装置，包括：

数据获取模块81，从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；

语义分割模块82，将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

在本实施例中，语义分割模块82，包括：语义分割子模块，根据输入的源图像和目标图像，得到预测结果；对比学习子模块，交叉熵损失函数以及损失函数训练训练语义分割子模块；其中，交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

具体而言，语义分割子模块包括：特征提取单元，分别提取输入的源图像和目标图像的语义特征，得到对应特征图；其中，特征图包括源特征图和目标特征图；语义分割单元，分别基于源特征图和目标特征图进行语义分割，得到对应分割结果；其中，分割结果包括对应源特征图的源分割结果和对应目标特征图的目标分割结果；结果输出单元，对源分割结果和目标分割结果添加相应标签，得到对应预测结果；其中，目标预测结果包括对应源分割结果的源预测结果和对应目标分割结果的目标预测结果。通过利用源图像和目标图像对应的掩码将源域和目标域中获得的像素表示分开，并将其传输至对比学习模型，以将属于同一语义原型的像素簇在特征空间中聚集起来，并将其与其他语义原型分开，以提高像素级的紧凑性和可分离性。语义原型为像素值表示的语义信息，并将相同语义信息的像素归为同一语义原型。

在一个可选实施例中，损失函数包括源对比损失函数，中间输出量包括真实标签，对比学习子模块，包括：第一掩码单元，基于输入的真实标签，得到源图像的源掩码；第一类别中心获取单元，基于源掩码，更新同一语义原型的源预测结果的第一类别中心；第一函数获取单元，基于源掩码和第一类别中心，得到源对比损失函数。

在一个可选实施例中，损失函数包括目标对比损失函数，中间输出量包括目标分割结果，对比学习子模块，包括：第一置信度单元，基于输入的目标分割结果生成第一置信度图；第二掩码单元，根据置信度图得到目标掩码；第二类别中心获取单元，基于目标掩码，更新同一语义原型的目标预测结果的第二类别中心；第二函数获取单元，基于目标掩码和第二类别中心，得到目标对比损失函数。

在一个可选实施例中，损失函数包括源对比损失函数和目标损失函数，对比学习子模块，包括：第一置信度单元，基于输入的目标分割结果生成第一置信度图；掩码单元，基于输入的真实标签和置信度图，得到源图像的源掩码以及对应目标图像的目标掩码；类别中心获取单元，基于源掩码和目标掩码，分别更新同一语义原型的源预测结果的第一类别中心和第二类别中心；函数获取单元，基于源掩码和第一类别中心，得到源对比损失函数，以及基于目标掩码和第二类别中心，得到目标对比损失函数。需要说明的是，为了便于对语义分割模型进行训练，结合交叉熵损失函数、源对比损失函数、目标损失函数和配重λ，以缩小源图像数据和目标图像数据之间的域差距并执行分割任务，

在一个可选实施例中，损失函数包括自监督损失函数，中间输出量包括目标预测结果，对比学习子模块，包括：第二置信度单元，基于输入的目标预测结果生成第二置信度图；伪标签预测单元，基于第二置信度层，生成伪标签；第三函数获取单元，利用伪标签和目标预测结果，得到自监督损失函数。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)91、通信接口(Communications Interface)92、存储器(memory)93和通信总线94，其中，处理器91，通信接口92，存储器930通过通信总线94完成相互间的通信。处理器91可以调用存储器93中的逻辑指令，以执行基于语义原型对比学习的域自适应图片语义分割方法，该方法包括：从源域获取源图像及其对应的真实标签，以及从目标域获取目标图像；将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像对应的预测结果及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

此外，上述的存储器93中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于语义原型对比学习的域自适应图片语义分割方法，该方法包括：从源域获取源图像对应的预测结果及其对应的真实标签，以及从目标域获取目标图像；将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于语义原型对比学习的域自适应图片语义分割方法，该方法包括：从源域获取源图像对应的预测结果及其对应的真实标签，以及从目标域获取目标图像；将源图像和目标图像分别输入语义分割模型，得到预测结果；语义分割模型是利用交叉熵损失函数以及损失函数训练得到的；其中，交叉熵损失函数是基于源图像及其对应的真实标签得到的；损失函数是基于将真实标签、预测结果以及语义分割模型的中间输出量输入至对比学习模型中得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。