CN115393599A

CN115393599A - 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质

Info

Publication number: CN115393599A
Application number: CN202110560470.3A
Authority: CN
Inventors: 陶大程; 高莉
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-11-25
Also published as: WO2022242352A1

Abstract

本公开涉及一种构建图像语义分割模型和图像处理的方法、装置、电子设备及介质，构建图像语义分割模型的方法包括：在源域图像中确定待粘贴候选区域图像，其同时包含出现频次较高的类别和出现频次较低的长尾类别；针对随机选取的一源域图像和一目标域图像，基于预设的透明度参数，将待粘贴候选区域图像与当前源域图像和当前目标域图像分别融合，得到当前源域混合图像和当前目标域混合图像；将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中；同时训练第一和第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

Description

构建图像语义分割模型和图像处理的方法、装置、电子设备及介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种构建图像语义分割模型和图像处理的方法、装置、电子设备及介质。

背景技术

作为计算机视觉的基本任务之一，对图像进行语义分割可以作为许多实际应用的初步步骤，实际应用包括图像/视频字幕、图像-图像翻译、视频内容分析、场景理解以及自动驾驶等。语义分割的目标是为图像的每个像素预测一个语义类别标签，这样图像中的不同事物就可以相互区分开来。

然而，训练一个表现良好的语义分割模型通常需要大量的像素级标签数据，而手动注释十分耗费人力、财力和物力。由于通过3D游戏引擎生成具有密集像素标签的合成图像要容易得多，所以相关技术中的大部分工作集中在使用虚拟的合成图像来训练语义分割模型上。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：相关技术中，由虚拟合成图像训练得到的语义分割模型在真实图像上的泛化性通常很差，基于虚拟的带有标签的源域图像构建的模型对真实场景图像进行语义分割时，存在预测不准确、预测的可靠度较差的问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种构建图像语义分割模型和图像处理的方法、装置、电子设备及介质。

第一方面，本公开的实施例提供了一种构建图像语义分割模型的方法。上述建图像语义分割模型的方法包括：在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，上述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别；针对一随机选取的源域图像x_s和一随机选取的用于表征真实场景的目标域图像x_t，基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt；其中上述真实场景与上述虚拟场景的统计分布不同；将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，第二机器学习模型与第一机器学习模型的模型结构相同且参数不同，并且第二机器学习模型的参数是第一机器学习模型的参数的指数移动平均；以及同时训练上述第一机器学习模型和上述第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

根据本公开的实施例，上述在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，包括：在源域中随机选取一张源域图像作为源域模板图像x_p，确定上述源域模板图像x_p中占像素总类别为预设比例的类别所对应的图像区域为候选图像区域；根据上述源域中所有源域图像的像素类别分布来确定出现频率最低的k个长尾类别，k≥2且k为整数；从上述k个长尾类别中选出预设个数的类别作为指定长尾类别；在包含上述指定长尾类别的源域图像中选出对应上述指定长尾类别的长尾图像区域；以及将只包括上述候选图像区域的源域图像与只包括上述长尾图像区域的源域图像进行合并，得到上述待粘贴候选区域图像。

根据本公开的实施例，上述基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt，包括：将上述待粘贴候选区域图像按照预设的透明度参数β进行透明化加权处理，0＜β＜1；将上述当前源域图像x_s中与上述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1；将上述当前目标域图像x_t中与上述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1；将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前源域图像x_s进行融合，得到针对当前源域图像x_s的源域混合图像x_ps；以及将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前目标域图像x_t进行融合，得到针对当前目标域图像x_t的目标域混合图像x_pt。

根据本公开的实施例，上述同时训练第一机器学习模型和第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型，包括：基于加权交叉熵损失对第一机器学习模型和第二机器学习模型中的目标域融合图像的概率图进行对齐，实现输出级对齐；基于加权的最大均值差异损失对从第一机器学习模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐；其中，在同时训练第一机器学习模型和第二机器学习模型时，当第一机器学习模型的参数θ通过梯度反向传播进行优化时，第二机器学习模型的参数θ′在训练步骤t中采用指数移动平均的方式进行更新。

根据本公开实施例，第二机器学习模型的参数满足：θ′_t＝α·θ′_t-1+(1-α)·θ_t，t≥2，θ′_t表示第t步中第二机器学习模型的参数，α表示指数移动平均系数，0＜α＜1，θ_t表示第一机器学习模型在训练第t步中的参数。

根据本公开的实施例，上述基于加权交叉熵损失对第二机器学习模型和第一机器学习模型中的目标域融合图像的概率图进行对齐，实现输出级对齐，包括：针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，将当前源域图像x_s、当前源域混合图像x_ps和当前目标域混合图像x_pt输入至第一机器学习模型中进行训练，将对应的当前目标域图像x输入至第二机器学习模型中进行训练；从第二机器学习模型f_θ′中确定当前目标域图像x_t的伪标签

根据第一机器学习模型f_θ确定当前目标域混合图像x_pt的预测语义图p_pt、当前源域图像x_s的预测语义图p_s以及当前源域混合图像x_ps的预测语义图p_ps；根据当前源域图像x_s的真实标签y_s和上述预测语义图p_s确定基于交叉熵的语义分割损失

根据当前源域混合图像x_ps的真实标签y_p和上述预测语义图p_ps确定基于交叉熵的软粘贴语义分割损失

根据当前源域混合图像x_ps的真实标签y_p、当前目标域混合图像x_pt的预测语义图p_pt和当前目标域图像x_t的伪标签

确定预测一致性损失

其中，通过对第一机器学习模型和第二机器学习模型进行多次训练，使得预测一致性损失

收敛，实现输出级对齐。

根据本公开的实施例，上述针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，包括：在上述多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中，通过随机选取的方式得到一组图像作为当前训练的输入，该组图像包括配套的源域图像、源域混合图像、目标域图像和目标域混合图像；在每次训练时基于计数器进行训练次数的计数，直至计数器达到预设次数，计数器达到预设次数对应于神经网络的学习率衰减到零，停止对输入图像的选取。

根据本公开的实施例，上述基于加权的最大均值差异损失对从第一机器学习模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐，包括：根据当前源域混合图像x_ps和目标域混合图像x_pt中提取的特征来确定软粘贴图像区域对齐损失

和全局特征对齐损失

其中，通过对第一机器学习模型和第二机器学习模型进行多次训练，使得软粘贴图像区域对齐损失

和全局特征对齐损失

收敛，实现特征级对齐。

第二方面，本公开的实施例提供了一种图像处理的方法。上述图像处理的方法包括：获取用于表征实际场景的待处理的目标图像；将上述目标图像输入至预先构建的语义分割模型中，由上述语义分割模型输出得到上述目标图像的语义分割结果，上述语义分割模型采用如上所述的构建图像语义分割模型的方法进行构建；以及根据上述语义分割结果对上述目标图像进行处理。

第三方面，本公开的实施例提供了一种用于构建图像语义分割模型的装置。上述构建图像语义分割模型的装置包括：待粘贴候选区域图像确定模块、图像融合模块、模型输入模块和模型训练模块。上述待粘贴候选区域图像确定模块用于在源域图像中确定待粘贴候选区域图像，上述源域图像用于表征虚拟场景，上述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别。上述图像融合模块用于针对一随机选取的源域图像x_s和一随机选取的用于表征真实场景的目标域图像x_t，基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt；其中上述真实场景与上述虚拟场景的统计分布不同。上述模型输入模块用于将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，第二机器学习模型与第一机器学习模型的模型结构相同且参数不同，并且第二机器学习模型的参数是第一机器学习模型的参数的指数移动平均。上述模型训练模块用于同时训练第一机器学习模型和第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

第四方面，本公开的实施例提供了一种图像处理的装置。上述图像处理的装置包括：图像获取模块、语义分割模块和图像处理模块。上述图像获取模块用于获取用于表征实际场景的待处理的目标图像。上述语义分割模块用于将上述目标图像输入至预先构建的语义分割模型中，由上述语义分割模型输出得到上述目标图像的语义分割结果，上述语义分割模型采用如上所述的构建图像语义分割模型的方法构建得到或采用如上所述的构建图像语义分割模型的装置构建得到。上述图像处理模块用于根据上述语义分割结果对上述目标图像进行处理。

第五方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的构建图像语义分割模型的方法或图像处理的方法。

第六方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的构建图像语义分割模型的方法或图像处理的方法。

本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部：

本公开实施例提供的构建图像语义分割模型的方法，通过引入同时包括出现频次较高的类别和出现频次较低的长尾类别的待粘贴候选区域图像，并将待粘贴候选区域图像与源域图像融合得到源域混合图像，将待粘贴候选区域图像与目标域图像融合得到目标域混合图像，在源域图像输入至第一机器学习模型和目标域图像输入至第二机器学习模型进行训练的基础上，还将源域混合图像和目标域混合图像输入至第一机器学习模型进行训练，能够有效减少表征虚拟场景的源域和表征真实场景的目标域二者之间的差异，并目通过第一机器学习模型的输入中新增了源域混合图像和目标域混合图像，能够提升训练得到的语义分割模型在无标签新场景(目标域)的泛化性能，提升该模型的鲁棒性和语义分割的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了适用于本公开实施例的构建图像语义分割模型的方法及装置的系统架构；

图2示意性示出了根据本公开实施例的构建图像语义分割模型的方法的流程图；

图3示意性示出了根据本公开实施例的在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像的操作S21的详细实施流程图；

图4示意性示出了根据本公开实施例的操作S21的具体实施场景图；

图5示意性示出了根据本公开实施例的基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合的操作S22的详细实施流程图；

图6示意性示出了根据本公开实施例的操作S22的具体实施场景图；

图7示意性示出了根据本公开实施例的同时训练学生模型和教师模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型的操作S24的详细实施流程图；

图8示意性出了根据本公开实施例的构建图像语义分割模型的方法的详细实施过程；

图9示意性示出了根据本公开实施例的图像处理的方法的流程图；

图10示意性示出了根据本公开实施例的构建图像语义分割模型的装置的结构框图；

图11示意性示出了根据本公开实施例的图像处理的装置的结构框图；以及

图12示意性示出了本公开实施例提供的一种电子设备的结构框图。

具体实施方式

相关技术中，由于虚拟的合成图像(属于源域)和真实图像(属于目标域)之间的统计分布存在差异，即二者存在领域差异，直接采用源域的图像数据训练得到的语义分割模型去测试目标域的图像，可能会导致语义分割的预测性能产生巨大退化，从而导致模型预测的可信度很差。即，在虚拟合成图像上训练的模型在真实图像上的泛化性很差。重复应用在虚拟的合成数据上学习得到的模型可能会损害该模型在实际数据中的性能，该现象被称为“域偏移(domain shift)”。例如以真实街景视频中的一帧的分割结果为例，对来自视频游戏的合成数据进行训练得到的语义分割模型无法将真实街景正确地分割为不同的语义类别，例如道路、人和车。

因此如何利用带标注的但与目标域数据具有分布差异性的源域数据来指导提高模型的鲁棒性，使其在无标注的目标域上具有较好的分割性能，提升无监督域自适应(UDA)的性能，具有重要的实际价值。

平均教师框架已经被一些方法用于无监督域自适应语义分割，这类UDA方法通过对学生模型和教师模型的目标预测分别采用一致性约束来进行输出级对齐。上述方法虽然有效，但由于对未标记的目标域的预测不准确，特别是在初始训练阶段，仍然存在训练不稳定和收敛慢的问题。

有鉴于此，本公开的实施例提供了一种构建图像语义分割模型的方法及装置，还提供了一种图像处理的方法及装置、电子设备及计算机可读存储介质。上述建图像语义分割模型的方法包括：在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，上述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别；针对一随机选取的源域图像x_s和一随机选取的用于表征真实场景的目标域图像x_t，基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt；其中上述真实场景与上述虚拟场景的统计分布不同；将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，第二机器学习模型与第一机器学习模型的模型结构相同且参数不同，并且第二机器学习模型的参数是第一机器学习模型的参数的指数移动平均；以及同时训练第一机器学习模型和第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

图1示意性示出了适用于本公开实施例的构建图像语义分割模型的方法及装置的系统架构。

参照图1所示，适用于本公开实施例的构建图像语义分割模型的方法及装置的系统架构100包括：终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有图像捕获装置、图片/视频播放类应用等。还可以安装有其他通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是显示屏并且支持图片/视频播放的各种电子设备，该电子设备还可以进一步包括图像捕获装置，例如电子设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、无人驾驶汽车等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所拍摄的图像或视频进行数据处理提供服务支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的图像/视频处理请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的构建图像语义分割模型的方法一般可以由服务器105或具有一定运算能力的终端设备执行。相应地，本公开实施例所提供的构建图像语义分割模型的装置一般可以设置于服务器105中或上述具有一定运算能力的终端设备中。本公开实施例所提供的构建图像语义分割模型的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的构建图像语义分割模型的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本公开的第一个示例性实施例提供了一种构建图像语义分割模型的方法。

本公开的实施例中，第二机器学习模型与第一机器学习模型的模型结构相同且参数不同，并目第二机器学习模型的参数是第一机器学习模型的参数的指数移动平均，本实施例中，以第一机器学习模型为学生模型，第二机器学习模型为教师模型作为示例。

图2示意性示出了根据本公开实施例的构建图像语义分割模型的方法的流程图。

参照图2所示，本公开实施例提供的构建图像语义分割模型的方法，包括以下操作：S21、S22、S23和S24。

在操作S21，在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，上述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别。

这里的出现频次较高的类别是指在所有源域图像中出现较为频繁的类别，例如可以对应在一张给定的源域图像(后续描述为随机选取的源域模板图像)中占总类别预设比例(示例性的，预设比例的取值为1/2)的类别作为出现频次相对较高的高频类别，出现频次较低的长尾类别是指所有源域图像中出现频率最低的多个类别。这里的高低是长尾类别与出现频次较高的类别之间的相对高低的含义，因此术语的保护范围是清楚的。

在操作S22，针对一随机选取的源域图像x_s和一随机选取的用于表征真实场景的目标域图像x_t，基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt。

其中上述真实场景与上述虚拟场景的统计分布不同。

通过将待粘贴候选区域图像与源域和目标域中分布随机选取的源域图像、目标域图像对应进行融合，可以得到针对当前源域图像x_s的当前源域混合图像x_ps和针对当前目标域图像x_t的当前目标域混合图像x_pt。融合得到的当前源域混合图像x_ps和当前目标域混合图像x_pt之间共享相同的图像区域(待粘贴候选区域)，该图像区域可以作为连接源域和目标域这两个领域的中介(或者描述为媒介)，减少源域和目标域之间的领域差异，促进模型在无标签新场景的泛化性能。

在操作S23，将多组配套的源域图像、源域混合图像和目标域混合图像输入至平均教师框架的学生模型中，同时将对应的目标域图像输入至平均教师框架中的教师模型中，以进行训练。

针对一随机选取的源域图像x_s和一随机选取的目标域图像x_t，可以在操作S22中得到与当前源域图像x_s对应的当前源域混合图像x_ps和与当前目标域图像x_t对应的当前目标域混合图像x_pt，从而得到一组配套的输入数据，将其表示为{源域图像，源域混合图像，目标域图像，目标域混合图像}。在操作S23中，将多组配套的输入数据逐次输入至平均教师框架中进行训练，每次训练输入一组配套的输入数据，该组配套的输入数据中，源域图像、源域混合图像和目标域混合图像输入至学生模型中，目标域图像输入至教师模型中。

在操作S24，同时训练学生模型和教师模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

通过同时训练平均教师框架中的学生模型和教师模型，使得源域和目标域之间实现特征级对齐和输出级对齐，此时对应的参数训练好的学生模型和教师模型即为训练完成的语义分割模型。

基于上述操作S21～S24，引入同时包括出现频次较高的类别和出现频次较低的长尾类别的待粘贴候选区域图像，并将待粘贴候选区域图像与源域图像、目标域图像分别融合，对应得到源域混合图像、目标域混合图像，有助于拉近目标域与源域的距离，同时还能够避免由于源域和目标域之间的统计分布差距较大、将源域的部分区域直接硬粘贴导致的空间布局不一致、以及类别不平衡等问题。在源域图像输入至学生模型和目标域图像输入至教师模型进行训练的基础上，还将源域混合图像和目标域混合图像输入至学生模型进行训练，能够有效减少表征虚拟场景的源域和表征真实场景的目标域二者之间的差异，并且通过在平均教师框架的输入中新增了源域混合图像和目标域混合图像，能够提升训练得到的语义分割模型在无标签新场景(目标域)的泛化性能，提升该模型的鲁棒性和语义分割的准确性。

本公开中，各个术语的含义如下。源域：虚拟的街景图像或其他与目标域具有不同统计分布的数据(天气、光照、场景空间布局等等)，有语义标签。目标域：真实的街景图像或其他与源域具有不同统计分布的数据(天气、光照、场景空间布局等等)，没有语义标签。伪标签：利用已有的模型在目标域上进行预测，获得的语义分割结果当作伪标签。平均教师框架：平均教师框架是广泛使用的一个框架，它基于一个简单的想法，即在标记数据的监督下，未标记的数据在不同的扰动下应该产生一致的预测。它包括两个模型，一个学生模型和一个教师模型，其中教师模型是学生模型的指数移动平均(EMA)。教师模型通过在输出层面用一致性正则化调整两个领域，将学到的知识转移到学生模型上。UDA：无监督域自适应是迁移学习的一种特殊情况。目的是把分布不同的源域和目标域的数据，映射到同一个特征空间中，使其在该空间中的距离尽可能接近。于是在特征空间中对源域训练的模型，就可以迁移到目标域上，提高目标域上的准确率源域：虚拟的街景图像或其他与目标域具有不同统计分布的数据(天气、光照、场景空间布局等等)，有语义标签。

图3示意性示出了根据本公开实施例的在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像的操作S21的详细实施流程图。

根据本公开的实施例，参照图3所示，在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像的操作S21包括以下子操作：S211、S212、S213、S214和S215。本公开中，待粘贴候选区域图像是指只包含待粘贴候选区域的源域图像，该源域图像可以通过实施操作S211～S215得到的。

在子操作S211，在源域中随机选取一张源域图像作为源域模板图像x_p，确定上述源域模板图像x_p中占像素总类别为预设比例的类别所对应的图像区域为候选图像区域。

在子操作S212，根据上述源域中所有源域图像的像素类别分布来确定出现频率最低的k个长尾类别，k≥2。

在子操作S213，从上述k个长尾类别中选出预设个数的类别作为指定长尾类别。这里的预设个数小于k，在一些实施例中，预设个数也可以等于k。

在子操作S214，在包含上述指定长尾类别的源域图像中选出对应上述指定长尾类别的长尾图像区域。

在子操作S215，将只包括上述候选图像区域的源域图像与只包括上述长尾图像区域的源域图像进行合并，得到上述待粘贴候选区域图像。

在本公开的实施例中，上述子操作S211中的预设比例可以是一个比例范围内的任意数，示例性的，比例范围可以是1/3～5/9(包含端点值)，根据实际需要该比例范围的值可以进行适应性变化。在一示例性实例中，预设比例可以是1/2，该预设比例的设置，需要保证既不影响对源域图像/目标域图像的较多特征的覆盖，也能够实现源域和目标域之间的连接。

对于一实际的数据集：GTA5数据集，上述子操作S212中的出现频率最低的k个长尾类别分别为：骑手、公共汽车、火车、摩托车和自行车，对应k＝5。对于SYNTHIA数据集而言，出现频率最低的k个长尾类别分别为：墙、灯、公共汽车和自行车，对应k＝4。

在一实施例中，用S表示源域，它包含源域图像X_S和像素级标签Y_S，采用T表示目标域，目标域T只包含未标记的目标域图像X_T。基于无监督域自适应(UDA)的语义分割的目标是在{X_s，Y_S，X_T}上训练一个能为目标域图像X_T准确预测语义标签的模型。

本公开的实施例在平均教师框架下提出了一个新颖的语义分割模型，该语义分割模型基于双重软粘贴(doublesoft paste，DSP)方式获得输入数据，即，通过引入同时包括出现频次较高的类别和出现频次较低的长尾类别的待粘贴候选区域图像，并将待粘贴候选区域图像与源域图像、目标域图像分别融合，对应得到源域混合图像、目标域混合图像，上述源域混合图像和目标域混合图像作为用于模型训练的输入数据，并在平均教师框架下的教师模型和学生模型中进行训练。上述语义分割模型包含两个分割模型，分别为学生模型和教师模型，每个分割模型为一个神经网络，因此学生模型也可以称为学生网络，教师模型也可以称为教师网络。学生模型f_θ的参数θ是可学习的，教师网络f_θ′的参数θ′是由学生模型的参数θ的指数移动平均(EMA)计算得到的。

下面结合具体场景来描述上述子操作S211～S215的实施过程。

在一示例性实施例中，在源域S中共有8个图像(或者描述为图片)，这8个图像分别为图像A～图像H，均为不同的虚拟场景图，例如可以从游戏场景中截图获取或者从其他虚拟场景中获取。这8张图像中共包含的总类别为18类，分别为：树木、摩托车、骑手、公共汽车、火车、自行车、行人、墙壁、围栏、河流、跑道、灯塔、场馆、大厅、旗帜、领奖台、赛车和赛车手。

示例性的，图像A中包含4个类别，分别为树木、行人、公共汽车和围栏。图像B中包含3个类别，分别为火车、河流和树木。图像C中包含4个类别，分别为摩托车、骑手、自行车和跑道。图像D中包含6个类别，分别为树木、灯塔、旗帜、赛车手、赛车和跑道。图像E中包含3个类别，分别为场馆、大厅和领奖台。图像F中包含6个类别，分别为场馆、墙壁、领奖台、跑道、赛车和赛车手。图像G中包含6个类别，分别为树木、公共汽车、河流、围栏、行人和场馆。图像H中包含5个类别，分别为骑手、摩托车、树木、围栏和灯塔。

图4示意性示出了根据本公开实施例的操作S21的具体实施场景图。

图4中示意的图像中，各个框图的放置位置和大小用于表征该框图对应的图像区域的大小和位置，框图内的文字表示该图像区域所对应的类别，为了简化示意，很多图像区域内的实际图像并未示意，仅标明了该图像区域对应的类别。后续的图6的表示方式与之类似。

在子操作S211中，从源域S的8张图像中随机选择一个图像作为源域模板图像x_p，以随机选择图像A作为示例。参照图4所示，在图像A中有4个类别，选取一半(预设比例这里为1/2)的类别作为所对应的图像区域为候选图像区域，即需要选取图像A中的2个类别，这里以随机选择树木和公共汽车这两类作为示例。那么，对应于图像A的2个类别：树木和公共汽车的图像区域分别示意为候选图像区域401a和401b，子操作S215中的只包括上述候选图像区域401a和401b的源域图像对应为401。

给定来自源域S的图像，可以计算像素类别的频率分布为{p₁，p₂，...，p_c}，针对其中一个类别的频率分布满足以下表达式：

其中，c表示所有源域图像的类别总个数，c_ij表示第j张源域图像是否包含类别c_i，N表示源域S中所有源域图像的总个数。其中源域中所有图像的大小尺寸是一致的。

以上述实施例为例，树木、摩托车、骑手、公共汽车、火车、自行车、行人、墙壁、围栏、河流、跑道、灯塔、场馆、大厅、旗帜、领奖台、赛车、赛车手的频率分布依次对应表示为p₁、p₂、p₃、p₄、p₅、p₆、p₇、p₈、p₉、p₁₀、p₁₁、p₁₂、p₁₃、p₁₄、p₁₅、p₁₆、p₁₇、p₁₈，根据表达式(1)可以对应计算得到：p₁(树木)＝5/8，p₂(摩托车)＝2/8，p₃(骑手)＝2/8，p₄(公共汽车)＝2/8，p₅(火车)＝1/8，p₆(自行车)＝1/8，p₇(行人)＝2/8，p₈(墙壁)＝1/8，p₉(围栏)＝3/8，p₁₀(河流)＝2/8，p₁₁(跑道)＝3/8，p₁₂(灯塔)＝2/8，p₁₃(场馆)＝3/8，p₁₄(大厅)＝1/8，p₁₅(旗帜)＝1/8，p₁₆(领奖台)＝2/8，p₁₇(赛车)＝2/8，p₁₈(赛车手)＝2/8。

在子操作S212中，选择频率最低的k个类别作为长尾类别，并将包含这些类别的图像记录为数据集D，以方便后续的采样过程。

本实施例中，以k＝5作为示例，分布频率最低的5个类别分别为：火车、自行车、墙壁、大厅和旗帜，这5个类别为长尾类别。

在子操作S213中，从长尾类别中选出2个类别作为指定长尾类别，示例性的，可以采用随机选择的方式，从火车、自行车、墙壁、大厅和旗帜中选择2个类别作为指定长尾类别。以旗帜和火车作为指定长尾类别作为示例。

在子操作S214中，在包含上述指定长尾类别的源域图像中选出对应上述指定长尾类别的长尾图像区域402a和402b。其中，对应火车的指定长尾类别的长尾图像区域402a可以和对应旗帜的指定长尾类别的长尾图像区域402b分别属于不同的源域图像，或者位于同一个源域图像中。在子操作S215中是将包含所有的指定长尾类别的长尾图像区域的源域图像进行合并后得到的图像，参照图4所示，子操作S215中只包括上述长尾图像区域的源域图像对应为402。

在子操作S215中，将只包括上述候选图像区域的源域图像401与只包括上述长尾图像区域的源域图像402进行合并，得到上述待粘贴候选区域图像403，参照图4所示。

在一实施例中，混合源域、混合目标域是将同时具有出现频次较高的类别和出现频次较低的长尾类别的待粘贴候选区域图像对应软粘贴至源域图像、目标域图像得到的。通过对待粘贴候选区域图像与源域图像/目标域图像的融合采取透明化加权处理(软粘贴)的策略，能够保持被粘贴图像的结构布局完整、外观风格不变，既保留了原始领域的信息，还通过待粘贴候选区域的融合减少了源域和目标域之间的领域差异，增加模型在无标签新场景的泛化性能。

图5示意性示出了根据本公开实施例的基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合的操作S22的详细实施流程图。

根据本公开的实施例，参照图5所示，上述基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt的操作S22包括以下子操作：S221、S222、S223、S224和S225。

在子操作S221，将上述待粘贴候选区域图像按照预设的透明度参数β进行透明化加权处理，0＜β＜1。

在子操作S222，将上述当前源域图像x_s中与上述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1。

在子操作S223，将上述当前目标域图像x_t中与上述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1。

在子操作S224，将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前源域图像x_s进行融合，得到针对当前源域图像x_s的源域混合图像x_ps。

在子操作S225，将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前目标域图像x_t进行融合，得到针对当前目标域图像x_t的目标域混合图像x_pt。

图6示意性示出了根据本公开实施例的操作S22的具体实施场景图。

参照图6所示，由前述操作S21得到的待粘贴候选区域图像403对应在子操作S221中以透明度参数β进行透明化加权处理，对应得到透明化加权处理后的待粘贴候选区域图像603，其中，对待粘贴候选区域图像403以透明度参数β进行透明化加权处理包括：将待粘贴候选区域图像403中的各个待粘贴候选区域进行透明化加权处理，上述各个待粘贴候选区域包括：候选图像区域和指定长尾类别的长尾图像区域。例如图6中对应树木类别的候选图像区域401a、对应公共汽车类别的候选图像区域401b、对应火车类别的长尾图像区域402a、对应旗帜类别的长尾图像区域402b分别进行透明化加权处理后对应得到待粘贴候选区域601a、601b、602a、602b，在图6中采用点填充示意以透明度参数β进行的透明化处理的操作。

在本实施例中，采用前述实施例中的图像E来示例随机选取的当前源域图像x_s，以真实的河流场景对应的图像REAL作为目标域图像x_t的示例。其中，图像E中包含3个类别，分别为场馆、大厅和领奖台。

在子操作S222中和子操作S223中，如图6所示，针对图像E和图像REAL，分别对图像E和图像REAL中的与待粘贴候选区域图像403中的图像区域401a、401b、402a和402b的位置对应的区域按照1-β进行透明化加权处理，其他区域的透明度为1，在图6中采用网格填充示意以透明度参数1-β进行的透明化处理的操作。图像E以透明度参数1-β透明化处理后的对应区域标示为604a、604b、604c和604d，透明化加权处理后的当前源域图像x_s在图6中标示为604。图像REAL以透明度参数1-β透明化处理后的对应区域标示为605a、605b、605c和605d，透明化加权处理后的当前目标域图像x_t在图6中标示为605。

进而可以在子操作S224中，将透明化加权处理后的待粘贴候选区域图像603和透明化加权处理后的当前源域图像x_s604进行融合，得到针对当前源域图像x_s的源域混合图像x_ps606。在子操作S225中，将透明化加权处理后的待粘贴候选区域图像603和透明化加权处理后的当前目标域图像x_t605进行融合，得到针对当前目标域图像x_t的目标域混合图像x_pt607。

上述子操作S221～S225针对源域图像和目标域图像同时进行透明化加权处理的方式可以表述为双软粘贴的方式，可以通过对图像采用双软粘贴的算法实现。由于采用透明化加权的方式将待粘贴候选区域粘贴至源域图像或目标域图像中，因此后续描述中，也将待粘贴候选区域(401a、401b、402a和402b)和对应于透明化处理后的604a、604b、604c和604d统称为软粘贴图像区域。

示例性的，该双软粘贴(DSP)算法如下。

输入：源域模板图像x_p及其标签y_p，源域图像x_s，目标域图像x_t，预先定义的长尾数据集D，透明度参数β

输出：DSP掩码M，源域混合图像x_ps，目标域混合图像x_pt。

DSP算法定义的参数和对应的计算逻辑如下：

S_class←y_p中出现的类别集合

c←从S_class中随机选择S_class/2个类

for每个i，jdo

end for

c_tail，y_tail←从D中随机挑选包含长尾类的图像

for每个i，jdo

如果y_tail(i，j)∈c_tail

那么M(i，j)＝1

end for

x_ps＝βM⊙x_p+(1-βM)⊙x_s，x_pt＝βM⊙x_p+(1-βM)⊙x_t

返回M，x_ps，x_pt。

示例性的，可以将β默认设置为0.8，β还可以是其他参数值，具体参数值可以根据实际需要进行修改。

图7示意性示出了根据本公开实施例的同时训练学生模型和教师模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型的操作S24的详细实施流程图。

根据本公开的实施例，参照图7所示，上述同时训练学生模型和教师模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型的操作S24包括以下子操作：S241和S242。

在子操作S241，基于加权交叉熵损失对教师模型和学生模型中的目标域融合图像的概率图进行对齐，实现输出级对齐。

在子操作S242，基于加权的最大均值差异损失对从学生模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐。

其中，在同时训练学生模型和教师模型时，当学生模型的参数θ通过梯度反向传播进行优化时，教师模型的参数θ′在训练步骤冲采用指数移动平均的方式进行更新，θ′_t＝α·θ′_t-1+(1-α)·θ_t，t≥2，θ′_t表示第t步中教师模型的参数，α表示指数移动平均系数，，0＜α＜1，θ_t表示学生模型在训练第t步中的参数。

具体而言，上述基于加权交叉熵损失对教师模型和学生模型中的目标域融合图像的概率图进行对齐，实现输出级对齐的实施过程包括以下步骤。

(a)、针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，将当前源域图像x_s、当前源域混合图像x_ps和当前目标域混合图像x_pt输入至学生模型中进行训练，将对应的当前目标域图像x_t输入至教师模型中进行训练。

每次训练时，针对当前输入图像数据实施操作(b)～(f)，通过对教师模型和学生模型进行多次训练，使得预测一致性损失

收敛，实现输出级对齐。

(b)、从教师模型f_θ′中确定当前目标域图像x_t的伪标签

(c)、根据学生模型f_θ确定当前目标域混合图像x_pt的预测语义图p_pt、当前源域图像x_s的预测语义图p_s以及当前源域混合图像x_ps的预测语义图p_ps。

(d)、根据当前源域图像x_s的真实标签y_s和上述预测语义图p_s确定基于交叉熵的语义分割损失

根据本公开的实施例，上述基于交叉熵的语义分割损失

满足以下表达式：

其中，H、W、C分别对应表示图像的高、宽、类别数，y_s表示当前源域图像x_s的真实标签。

(e)、根据当前源域混合图像x_ps的真实标签y_p和上述预测语义图p_ps确定基于交叉熵的软粘贴语义分割损失

根据本公开的实施例，上述基于交叉熵的软粘贴语义分割损失

满足以下表达式：

其中，y_p表示源域混合图像的真实标签。

(f)、根据当前源域混合图像x_ps的真实标签y_p、当前目标域混合图像x_pt的预测语义图p_pt和当前目标域图像x_t的伪标签

确定预测一致性损失

由于教师模型和学生模型被认为在不同的扰动下应对同一图像产生相同的预测，所以采用预测一致性损失来训练网络。

根据本公开的实施例，预测一致性损失

满足以下表达式：

上述针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，包括：在上述多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中，通过随机选取的方式得到一组图像作为当前训练的输入，该组图像包括配套的源域图像、源域混合图像、目标域图像和目标域混合图像；在每次训练时基于计数器进行训练次数的计数，直至计数器达到预设次数，停止对输入图像的选取。

根据本公开的实施例，上述基于加权的最大均值差异损失对从学生模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐的实施过程包括：根据当前源域混合图像x_ps和目标域混合图像x_pt中提取的特征来确定软粘贴图像区域对齐损失

和全局特征对齐损失

其中，通过对教师模型和学生模型进行多次训练，使得软粘贴图像区域对齐损失

和全局特征对齐损失

收敛，实现特征级对齐。

由于源域混合图像x_ps和目标域混合图像x_pt具有相同的用于软粘贴图像区域(对应为源域图像)，因此在该区域从x_ps和x_pt中提取的特征应尽可能相似。

为此，采用最大均值差异损失，通过最小化其内核嵌入的最大均值差异来学习可转移特征。

其中，软粘贴图像区域对齐损失

满足以下表达式：

其中，μ(·)表示核均值嵌入，f_e表示学生模型f_θ的特征提取器，

表示再现核希尔伯特空间(RKHS)。由于x_ps和x_pt中的粘贴图像区域具有不同的源域和目标域信息背景，这些信息可能被嵌入到提取的特征中，软粘贴图像区域对齐损失可以隐性地减少域的差距。

全局特征对齐损失

满足以下表达式：

通过试图最小化x_ps和x_pt的全局图像特征的最大均值差异，以对齐源域和目标域这两个领域的特征分布。

其中，对于教师模型和学生模型可以同时进行训练，构建一个总的损失函数，在训练总的损失函数该损失函数包括前述各个损失函数：

其中，λ_feature是一个超参数，用于平衡不同的损失，示例性的，将其设置为0.005。

图8示意性出了根据本公开实施例的构建图像语义分割模型的方法的详细实施过程。

参照图8所示，在源域模板图像中确定待粘贴候选区域图像，将源域模板图像和源域图像通过双重软粘贴(DSP)算法进行融合，得到源域混合图像，将源域模板图像和目标域图像通过DSP算法进行融合，得到目标域混合图像。将源域图像、源域混合图像和目标域混合图像输入至学生网络(对应为学生模型)中，将目标域图像输入至教师网络(对应为教师模型)中。通过同时训练老师网络和学生网络，基于加权交叉熵损失对教师模型和学生模型中的目标域融合图像的概率图进行对齐，实现输出级对齐；基于加权的最大均值差异损失对从学生模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐。

本公开的第二个示例性实施例提供了一种图像处理的方法。

图9示意性示出了根据本公开实施例的图像处理的方法的流程图。

参照图9所示，本公开实施例提供的图像处理的方法包括以下操作：S91、S92和S93。

在操作S91，获取用于表征实际场景的待处理的目标图像。

目标图像可以是视频的某一帧的图像，也可以是待处理的图片。例如在一无人驾驶的应用场景中，要根据无人驾驶车辆行驶过程中拍摄的画面或者视频来进行场景分析，此时目标图像对应为无人驾驶车辆拍摄的视频中的某一个待分析的视频帧图像。

在操作S92，将上述目标图像输入至预先构建的语义分割模型中，由上述语义分割模型输出得到上述目标图像的语义分割结果。

上述语义分割模型采用本公开的构建图像语义分割模型的方法进行构建。例如，可以采用第一实施例描述的操作S21～S24来预先构建语义分割模型，构建完成的语义分割模型在图像处理装置中进行存储，在多次实施操作S91～S92时，无需每次够构建一次语义分割模型，直接将目标图像输入至存储的语义分割模型中进行处理即可。

在上述场景中，将无人驾驶车辆拍摄的视频中的某一个待分析的视频帧图像输入至预先构建的语义分割模型中，由于上述语义分割模型对于实际场景具有良好的预测准确度，因此由上述语义分割模型输出得到上述视频帧图像的语义分割结果可以作为后续分析的基础。

在操作S93，根据上述语义分割结果对上述目标图像进行处理。

在上述场景中，可以根据上述视频帧图像的语义分割结果对该视频帧图像进行场景分析，例如进行安全性分析。

上述操作S93中根据语义分割结果对目标图像进行处理可以拓展至多个实际应用，比如图像/视频增加字幕、图像-图像翻译、视频内容分析、场景理解、自动驾驶，等等，将语义分割的结果作为后续各个实际应用的基础。

本公开的第三个示例性实施例提供了一种用于构建图像语义分割模型的装置。

图10示意意示出了根据本公开实施例的用于构建图像语义分割模型的装置的结构框图。

参照图10所示，本公开实施例提供的用于构建图像语义分割模型的装置1000包括：待粘贴候选区域图像确定模块1001、图像融合模块1002、模型输入模块1003和模型训练模块1004。

上述待粘贴候选区域图像确定模块1001用于在源域图像中确定待粘贴候选区域图像，上述源域图像用于表征虚拟场景，上述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别。

上述图像融合模块1002用于针对一随机选取的源域图像x_s和一随机选取的用于表征真实场景的目标域图像x_t，基于预设的透明度参数，将上述待粘贴候选区域图像与当前源域图像x_s和当前目标域图像x_t分别融合，得到当前源域混合图像x_ps和当前目标域混合图像x_pt。其中上述真实场景与上述虚拟场景的统计分布不同。

上述模型输入模块1003用于将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，第二机器学习模型与第一机器学习模型的模型结构相同且参数不同，并且第二机器学习模型的参数是第一机器学习模型的参数的指数移动平均。

上述模型训练模块1004用于同时训练第一机器学习模型和第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

本公开的第四个示例性实施例提供了一种图像处理的装置。

图11示意性示出了根据本公开实施例的图像处理的装置的结构框图。

参照图11所示，本公开实施例提供的图像处理的装置1100包括：图像获取模块1101、语义分割模块1102和图像处理模块1103。该图像处理的装置1100中存储有预先构建的语义分割模型，或者可以与构建语义分割模型的装置进行数据通信，来调用构建好的语义分割模型进行图像语义分割处理。

上述图像获取模块1101用于获取用于表征实际场景的待处理的目标图像。

上述语义分割模块1102用于将上述目标图像输入至预先构建的语义分割模型中，由上述语义分割模型输出得到上述目标图像的语义分割结果，上述语义分割模型采用如上所述的构建图像语义分割模型的方法构建得到或采用如上所述的构建图像语义分割模型的装置构建得到。

上述图像处理模块1103用于根据上述语义分割结果对上述目标图像进行处理。

上述第三个实施例中，待粘贴候选区域图像确定模块1001、图像融合模块1002、模型输入模块1003以及模型训练模块1004中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。待粘贴候选区域图像确定模块1001、图像融合模块1002、模型输入模块1003以及模型训练模块1004中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，待粘贴候选区域图像确定模块1001、图像融合模块1002、模型输入模块1003以及模型训练模块1004中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

上述第四个实施例中，图像获取模块1101、语义分割模块1 102以及图像处理模块1103中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。图像获取模块1101、语义分割模块1102以及图像处理模块1103中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，图像获取模块1101、语义分割模块1102以及图像处理模块1103中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第五个示例性实施例提供了一种电子设备。

参照图12所示，本公开实施例提供的电子设备1200包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201、通信接口1202和存储器1203通过通信总线1204完成相互间的通信；存储器1203，用于存放计算机程序；处理器1201，用于执行存储器上所存放的程序时，实现如上所述的构建图像语义分割模型的方法或图像处理的方法。

本公开的第六个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的构建图像语义分割模型的方法或图像处理的方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性性计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种构建图像语义分割模型的方法，其特征在于，包括：

在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，所述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别；

针对一随机选取的源域图像和一随机选取的用于表征真实场景的目标域图像，基于预设的透明度参数，将所述待粘贴候选区域图像与当前源域图像和当前目标域图像分别融合，得到当前源域混合图像和当前目标域混合图像；其中所述真实场景与所述虚拟场景的统计分布不同；

将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，所述第二机器学习模型与所述第一机器学习模型的模型结构相同且参数不同，并且所述第二机器学习模型的参数是所述第一机器学习模型的参数的指数移动平均；以及

同时训练所述第一机器学习模型和所述第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

2.根据权利要求1所述的方法，其特征在于，所述在用于表征虚拟场景的源域图像中确定待粘贴候选区域图像，包括：

在源域中随机选取一张源域图像作为源域模板图像，确定所述源域模板图像中占像素总类别为预设比例的类别所对应的图像区域为候选图像区域；

根据所述源域中所有源域图像的像素类别分布来确定出现频率最低的k个长尾类别，k≥2且k为整数；

从所述k个长尾类别中选出预设个数的类别作为指定长尾类别；

在包含所述指定长尾类别的源域图像中选出对应所述指定长尾类别的长尾图像区域；以及

将只包括所述候选图像区域的源域图像与只包括所述长尾图像区域的源域图像进行合并，得到所述待粘贴候选区域图像。

3.根据权利要求1所述的方法，其特征在于，所述基于预设的透明度参数，将所述待粘贴候选区域图像与当前源域图像和当前目标域图像分别融合，得到当前源域混合图像和当前目标域混合图像，包括：

将所述待粘贴候选区域图像按照预设的透明度参数β进行透明化加权处理，0＜β＜1；

将所述当前源域图像中与所述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1；

将所述当前目标域图像中与所述待粘贴候选区域图像的位置对应的区域按照1-β进行透明化加权处理，其余区域的透明度均为1；

将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前源域图像进行融合，得到针对当前源域图像的源域混合图像；以及

将透明化加权处理后的待粘贴候选区域图像和透明化加权处理后的当前目标域图像进行融合，得到针对当前目标域图像的目标域混合图像。

4.根据权利要求1所述的方法，其特征在于，所述同时训练所述第一机器学习模型和所述第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型，包括：

基于加权交叉熵损失对所述第一机器学习模型和所述第二机器学习模型中的目标域融合图像的概率图进行对齐，实现输出级对齐；

基于加权的最大均值差异损失对从所述第一机器学习模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐；

其中，在同时训练所述第一机器学习模型和所述第二机器学习模型时，当所述第一机器学习模型的参数通过梯度反向传播进行优化时，所述第二机器学习模型的参数在训练步骤中采用指数移动平均的方式进行更新。

5.根据权利要求4所述的方法，其特征在于，所述基于加权交叉熵损失对所述第一机器学习模型和所述第二机器学习模型中的目标域融合图像的概率图进行对齐，实现输出级对齐，包括：

针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，将当前源域图像、当前源域混合图像和当前目标域混合图像输入至第一机器学习模型中进行训练，将对应的当前目标域图像输入至第二机器学习模型中进行训练；

从第二机器学习模型中确定当前目标域图像的伪标签；

根据第一机器学习模型确定当前目标域混合图像的预测语义图、当前源域图像的预测语义图以及当前源域混合图像的预测语义图；

根据当前源域图像的真实标签和所述预测语义图确定基于交叉熵的语义分割损失；

根据当前源域混合图像的真实标签和所述预测语义图确定基于交叉熵的软粘贴语义分割损失；

根据当前源域混合图像的真实标签、当前目标域混合图像的预测语义图和当前目标域图像的伪标签确定预测一致性损失；

其中，通过对第二机器学习模型和第一机器学习模型进行多次训练，使得预测一致性损失收敛，实现输出级对齐。

6.根据权利要求5所述的方法，其特征在于，所述针对多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中的任一组图像，包括：

在所述多组配套的源域图像、源域混合图像、目标域图像和目标域混合图像中，通过随机选取的方式得到一组图像作为当前训练的输入，该组图像包括配套的源域图像、源域混合图像、目标域图像和目标域混合图像；在每次训练时基于计数器进行训练次数的计数，直至计数器达到预设次数，停止对输入图像的选取。

7.根据权利要求5所述的方法，其特征在于，所述基于加权的最大均值差异损失对从第一机器学习模型的源域混合图像和目标域混合图像中提取的特征图进行对齐，实现特征级对齐，包括：

根据当前源域混合图像和目标域混合图像中提取的特征来确定软粘贴图像区域对齐损失和全局特征对齐损失；

其中，通过对第二机器学习模型和第一机器学习模型进行多次训练，使得软粘贴图像区域对齐损失和全局特征对齐损失收敛，实现特征级对齐。

8.一种图像处理的方法，其特征在于，包括：

获取用于表征实际场景的待处理的目标图像；

将所述目标图像输入至预先构建的语义分割模型中，由所述语义分割模型输出得到所述目标图像的语义分割结果，所述语义分割模型采用权利要求1-7中任一项所述的方法进行构建；以及

根据所述语义分割结果对所述目标图像进行处理。

9.一种用于构建图像语义分割模型的装置，其特征在于，包括：

待粘贴候选区域图像确定模块，用于在源域图像中确定待粘贴候选区域图像，所述源域图像用于表征虚拟场景，所述待粘贴候选区域图像同时包含出现频次较高的类别和出现频次较低的长尾类别；

图像融合模块，用于针对一随机选取的源域图像和一随机选取的用于表征真实场景的目标域图像，基于预设的透明度参数，将所述待粘贴候选区域图像与当前源域图像和当前目标域图像分别融合，得到当前源域混合图像和当前目标域混合图像；其中所述真实场景与所述虚拟场景的统计分布不同；

模型输入模块，用于将多组配套的源域图像、源域混合图像和目标域混合图像输入至第一机器学习模型中，同时将对应的目标域图像输入至第二机器学习模型中，以进行训练，所述第二机器学习模型与所述第一机器学习模型的模型结构相同且参数不同，并且所述第二机器学习模型的参数是所述第一机器学习模型的参数的指数移动平均；以及

模型训练模块，用于同时训练所述第一机器学习模型和所述第二机器学习模型，使得源域和目标域之间实现特征级对齐和输出级对齐，进而得到训练完成的语义分割模型。

10.一种图像处理的装置，其特征在于，包括：

图像获取模块，用于获取用于表征实际场景的待处理的目标图像；

语义分割模块，用于将所述目标图像输入至预先构建的语义分割模型中，由所述语义分割模型输出得到所述目标图像的语义分割结果，所述语义分割模型采用权利要求1-7中任一项所述的方法构建得到或由权利要求9所述的装置构建得到；以及

图像处理模块，用于根据所述语义分割结果对所述目标图像进行处理。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。