CN114494789B

CN114494789B - 图像风格迁移模型的训练方法、系统、设备及存储介质

Info

Publication number: CN114494789B
Application number: CN202210340249.1A
Authority: CN
Inventors: 王子磊; 毛语实
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-15
Anticipated expiration: 2042-04-02
Also published as: CN114494789A

Abstract

本发明公开了一种图像风格迁移模型的训练方法、系统、设备及存储介质，设计了三部分损失对图像风格迁移模型进行训练：1）通过总的对抗损失可以达到生成器和判别器的最优平衡；2）通过总的循环一致性损失可以保证生成器的重建效果；3）通过对比损失可以提升生成器的输出图像的逼真程度。综合以上三部分损失对图像风格迁移模型进行训练，能够提升图像风格迁移的能力，获得更好的风格迁移后的图像。

Description

图像风格迁移模型的训练方法、系统、设备及存储介质

技术领域

本发明涉及图像风格迁移技术领域，尤其涉及一种图像风格迁移模型的训练方法、系统、设备及存储介质。

背景技术

随着计算机科学的发展及建模能力的提升，计算机可以模拟出与真实场景非常相似的虚拟场景，从而批量产生仿真的虚拟图像和可用于其他计算机视觉任务的标签。然而，由于相关技术的限制及真实场景的复杂性等诸多因素，虚拟图像难以完全与真实图像风格一致，这不仅会影响用户的视觉体验，而且也在一定程度上降低了其在很多下游任务上的应用，如目标检测、语义分割等。因此，风格迁移任务应运而生，通过保留源图像的内容并将其转换成目标域的风格，从而更有效的利用虚拟标签等信息，提高下游任务的准确率。具体地，给定源域X与目标域Y，二者均包含一些不配对的图像X={x∈X}与Y={y∈Y}，风格迁移的最终目标是学习两个映射

及

。

目前图像风格迁移的一般方法包括基于解耦的风格迁移方法和基于循环一致性的风格迁移方法。具体来说，基于循环一致性的方法通常将源域图像编码至低维隐空间，在低维隐空间中将域相关的图像信息由源域转换到目标域，利用转换后的图像信息重建目标域风格的图像，在此过程中，使用两对生成器与判别器，并要求迁移到目标域的图像能够对应地转换回源域，目前基于循环一致性的方法大多使用像素级别的约束，因此，大多存在变形和风格错乱等问题。基于解耦的方法往往将源和目标域图像解耦为在转换过程中保持不变的域不变内容特征和在转换过程中改变的域特定风格特征，通过保留内容特征并替换风格特征达到转换的目的，但是存在内容泄漏的问题。

在公开号为CN113808011A的中国专利申请《一种基于特征融合的风格迁移方法、装置及其相关组件》中，使用基于解耦的风格迁移方法，将图像的风格和内容分别编码，再将所需要的内容特征与风格特征进行融合，由译码器输出最终的迁移结果，能够提高内容细节的质量及与目标域的色彩相似度，但该方法会出现解耦的风格特征中包含内容信息，也就是存在内容泄漏问题；在公开号为CN113837926A的中国专利申请《基于均值标准差的图像迁移方法》中，在不同层次的特征空间对特征进行归一化，通过特征图与源图像进行PSNR和SSIM对比，降低训练模型所需要的时间并减少图像特征出现扭曲和伪影的情况，然而该方法着重提高了训练效率，在生成图像的质量上并无明显提升；在公开号为CN107705242A的中国专利申请《一种结合深度学习与深度感知的图像风格化迁移方法》中，在感知损失网络和深度感知网络的输出特征图上分别计算内容损失、风格损失及景深损失，提高了生成图像的立体感，但仍存在一些类似对应语义内容不匹配和物体扭曲的情况，因此，总体而言，该方案的迁移能力不佳。

发明内容

本发明的目的是提供一种图像风格迁移模型的训练方法、系统、设备及存储介质，能够提升图像风格迁移的能力，获得更好的风格迁移后的图像，进而提高下游任务的准确率，而且也能够减轻内容泄漏问题。

本发明的目的是通过以下技术方案实现的：

一种图像风格迁移模型的训练方法，包括：

构建包含两个生成器与两个判别器的图像风格迁移模型，单个生成器与单个判别器构成一个对抗结构，则构成两个对抗结构，并获取用于训练的源域图像与目标域图像；

将源域图像与目标域图像均分别输入至每一对抗结构，利用两个对抗结构的输出计算总的对抗损失；以及将当前对抗结构的生成器的输出输入至另一对抗结构中，综合两个对抗结构中生成器的输出计算总的循环一致性损失；设置两个特征提取器，一对一的连接单个生成器，通过两个特征提取器进行特征提取，结合从源域图像与目标域图像中提取的特征，以及特征之间的类别关系计算总的对比损失；

联合所述总的对抗损失、总的循环一致性损失与总的对比损失训练所述图像风格迁移模型。

一种图像风格迁移模型的训练系统，包括：

模型构建与图像数据获取单元，用于构建包含两个生成器与两个判别器的图像风格迁移模型，单个生成器与单个判别器构成一个对抗结构，则构成两个对抗结构，并获取用于训练的源域图像与目标域图像；

总的对抗损失计算单元，用于将源域图像与目标域图像均分别输入至每一对抗结构，利用两个对抗结构的输出计算总的对抗损失；

总的循环一致性损失计算单元，用于将当前对抗结构的生成器的输出输入至另一对抗结构中，综合两个对抗结构中生成器的输出计算总的循环一致性损失；

总的对比损失计算单元，通过设置的两个特征提取器，一对一的连接单个生成器，通过两个特征提取器进行特征提取，结合从源域图像与目标域图像中提取的特征，以及特征之间的类别关系计算总的对比损失；

训练单元，用于联合所述总的对抗损失、总的循环一致性损失与总的对比损失训练所述图像风格迁移模型。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，设计了三部分损失对图像风格迁移模型进行训练：1）通过总的对抗损失可以达到生成器和判别器的最优平衡；2）通过总的循环一致性损失可以保证生成器的重建效果；3）通过对比损失可以提升生成器的输出图像的逼真程度。综合以上三部分损失对图像风格迁移模型进行训练，能够提升图像风格迁移的能力，获得更好的风格迁移后的图像。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种图像风格迁移模型的训练方法的流程图；

图2为本发明实施例提供的一种图像风格迁移模型的示意图；

图3为本发明实施例提供的对比学习正负样本选取方法示意图；

图4为本发明实施例提供的弱监督语义分割网络的输入输出示意图；

图5为本发明实施例提供的一种图像风格迁移模型的训练系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种图像风格迁移模型的训练方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种图像风格迁移模型的训练方法，用于进一步提高图像的风格迁移质量，提高下游任务的准确率。针对现有方法普遍存在的物体结构变形和语义内容不匹配的问题，本发明采用主流的编码器-解码器生成器结构以及对抗学习思想，建立风格迁移模型，并使用循环一致性损失约束模型的训练过程。同时，提出了一种新的正负样本选取方法，提高了对比学习与风格迁移任务的契合度，使对比学习方法更好地应用在迁移模型上。新的正负样本选取时所依据的类别信息，由弱监督语义分割网络获得的图像块分类结果确定。具体来说：

随着生成对抗网络中模式崩溃问题的解决，其在风格迁移任务上的应用也逐渐广泛，并逐渐取代gray矩阵等方法成为该任务的主流方法。因此，本发明构建了生成对抗网络相似的图像风格迁移模型。生成对抗网络由生成器及判别器构成：生成器试图生成与目标域风格尽可能相似的图像；而判别器试图对生成图像进行鉴别，判断其是目标域的真实图像还是生成器生成的图像，判别器误分类的比例越高，说明生成器产生的迁移图像越逼真。通过这种方式，达到生成器和判别器的最优平衡。在此技术上，引入了循环一致性损失约束图像风格迁移模型的训练过程；并且，还进行了创新设计，使用弱监督语义分割网络对每个图像块所属的语义类别进行划分，并以此为基础为输入的源域图像划分正负样本，随后使用对比学习的思想，将正负样本间的infoNCE损失（基于互信息的噪声对比估计损失，也即后文介绍的损失

）约束以生成对抗网络为基础的图像风格迁移模型的训练，最终提高迁移效果，使生成图像与目标域图像更为相似。

如图1所示，本发明提供的一种图像风格迁移模型的训练方法主要包括：

步骤1、构建包含两个生成器与两个判别器的图像风格迁移模型，单个生成器与单个判别器构成一个对抗结构，则构成两个对抗结构，并获取用于训练的源域图像与目标域图像。

本发明实施例中，主要训练对象为图像风格迁移模型，图像风格迁移模型主要包括两个生成器与两个判别器；同时，为了训练图像风格迁移模型，需要采集一系列源域图像与目标域图像。

步骤2、将源域图像与目标域图像均分别输入至每一对抗结构，利用两个对抗结构的输出计算总的对抗损失；以及将当前对抗结构的生成器的输出输入至另一对抗结构中，综合两个对抗结构中生成器的输出计算总的循环一致性损失；设置两个特征提取器，一对一的连接单个生成器，通过两个特征提取器进行特征提取，结合从源域图像与目标域图像中提取的特征，以及特征之间的类别关系计算总的对比损失。

本部分主要计算三类损失，计算每一类损失的优选实施方式如下：

1）计算总的对抗损失：第一生成器利用输入的源域图像生成目标域图像，第一判别器用于判别输入图像是否为第一生成器生成的目标域图像，此时第一判别器的输入图像包括第一生成器生成的目标域图像与获取的用于训练的目标域图像；第二生成器利用输入的目标域图像生成源域图像，第二判别器用于判别输入图像是否为第二生成器生成的源域图像，此时第二判别器的输入图像包括第二生成器生成的源域图像与获取的用于训练的源域图像；结合第一判别器与第二判别器的判别结果计算总的对抗损失。

本阶段主要计算图像风格迁移模型总的对抗损失，用以保证生成器生成与目标域图像视觉上相似的结果。

本发明实施例中，对于映射

，利用所述第一判别器的判别结果，计算第一对抗损失，第一判别器D _y的输入不仅包含第一生成器G生成的目标域图像G(x)，还包含真实的目标域图像，即来自目标域图像集合中目标域图像y，第一对抗损失表示为：

其中，G表示第一生成器，D _y表示第一判别器，X表示用于训练的源域图像构成的源域图像集合，x表示源域图像集合X中的源域图像，Y表示用于训练的目标域图像构成的目标域图像集合，y表示目标域图像集合Y中的目标域图像，G(x)表示第一生成器G利用输入的源域图像x生成的目标域图像，D _y(G(x))表示第一判别器D _y对第一生成器G生成的目标域图像G(x)的判别结果（即是否为第一生成器G生成的目标域图像），D _y(y)表示第一判别器D _y对输入的目标域图像y（随机选取）进行判别的结果（即是否为第一生成器G生成的目标域图像），E表示期望，y~Y表示目标域图像y服从目标域图像集合Y中的数据分布，x~X表示源域图像x服从源域图像集合X中的数据分布。

通过上述第一对抗损失，第一生成器G试图生成图像G(x)看起来与目标域中的图像相似；对于第一判别器D _y试图尽可能准确的分辨出生成的目标域图像G(x)和真正的目标域图像y。

基于同样的原理，对于映射

，利用所述第二判别器的判别结果，计算第二对抗损失，第二判别器D _x的输入不仅包含第二生成器F生成的源域图像F(y)，还包含真实的源域图像，即来自源域图像集合中源域图像x，第二对抗损失表示为：

其中，F表示第二生成器，F(y)表示第二生成器F利用输入的目标域图像y生成的源域图像，D _x表示第二判别器，D _x(F(y))表示第二判别器D _x对第二生成器F生成的源域图像F(y)的判别结果（即是否为第二生成器F生成的源域图像），D _x(x)表示第二判别器D _x对输入源域图像x（随机选取）进行判别的结果（即是否为第二生成器F生成的源域图像）。

联合所述第一对抗损失与第二对抗损失，获得总的对抗损失L _GAN：

。

通过以上两个映射

及

的形式可知，生成的目标域图像与源域图像也可以理解为属于集合Y与集合X，但是，在训练阶段，除非明确说明输入为生成的目标域图像或源域图像（即生成的图像），否则，输入的目标域图像或源域图像均为步骤1中获取的图像（即真实图像）。例如，在本步骤中，输入图像即为真实图像，而在后续步骤3中输入包含了真实图像与生成的图像。

图2展示了图像风格迁移模型的示意图；它以生成对抗模型为蓝本，其中生成器采用编码器-译码器结构，在其上添加一个附加的特征提取器来完成对比学习的过程。该图像风格迁移模型包含两个生成器G和F、两个判别器D _x和D _y：其中，右下角图像为目标域图像，左下角图像为生成的源域图像，左上角图像为源域图像，右上角图像为生成的目标域图像；第一生成器G利用源域图像生成目标域图像，由第一编码器G _enc与第一译码器G _dec构成（分别进行编码与译码生成目标域图像），第二生成器F利用目标域图像生成源域图像，由第二编码器F _enc与第二译码器F _dec构成（分别进行编码与译码生成源域图像）；第二判别器D _x判断输入图像是否为第二生成器F生成的图像，第一判别器D _y判断输入图像是否为第一生成器G生成的图像。此外，对于每个映射，将编码器提取的图像特征输入对应的特征提取器H _x和H _y，该特征提取器由两层MLP构成，旨在将编码器提取的特征投影到另一组特征上（具体将在对比损失部分进行介绍）。

2）计算总的循环一致性损失：对于源域图像，通过所述第一生成器生成目标域图像，并输入至所述第二生成器生成新的源域图像；对于目标域图像，通过所述第二生成器生成源域图像，并输入至所述第一生成器生成新的目标域图像；结合所述源域图像与所述新的源域图像的差异，以及所述目标域图像与所述新的目标域图像的差异计算总的循环一致性损失。

本阶段主要计算图像风格迁移模型总的循环一致性损失。循环一致性损失由cyclegan方法（它是一个方法的代称，其使用循环一致性约束的生成对抗网络）率先提出，在目前的主流风格迁移方法中有极为广泛的应用。循环一致性损失实际上是对常规生成对抗网络生成器重建损失的一种优化，旨在防止生成器将所有输入图像映射为同一张目标域图像。具体地，对于源域图像x，循环一致性损失要求其通过映射的

结果再通过映射

后，输出尽可能与源域图像x本身一致；同理，对于目标域图像y也是如此。

基于上述原理，结合所述源域图像与所述新的源域图像的差异，计算第一循环一致性损失，表示为：

其中，E表示期望，G表示第一生成器，F表示第二生成器，X表示用于训练的源域图像构成的源域图像集合，x表示源域图像集合X中的源域图像，Y表示用于训练的目标域图像构成的目标域图像集合，G(x)表示第一生成器G利用输入的源域图像x生成的目标域图像，F(G(x))表示所述第二生成器F生成的新的源域图像；符号||.||₁表示L1范数。

并且，结合所述目标域图像与所述新的目标域图像的差异，计算第二循环一致性损失，表示为：

其中，y表示目标域图像集合Y中的目标域图像，F(y)表示第二生成器F利用输入的目标域图像y生成的源域图像；G(F(y))表示所述第一生成器G生成的新的目标域图像。

联合所述第一循环一致性损失与第二循环一致性损失，获得总的循环一致性损失L _cyc：

。

3）计算总的对比损失：设置第一特征提取器与第二特征提取器；对于源域图像，将所述第一生成器生成的目标域图像通过所述第二生成器进行编码后由所述第二特征提取器提取出特征集合，称为第一特征集合；对于目标域图像，将所述第二生成器生成的源域图像通过所述第一生成器进行编码后由所述第一特征提取器提取出特征集合，称为第二特征集合；并且，基于所述第一特征提取器对所述源域图像进行特征提取，获得第一组特征；基于所述第二特征提取器对所述目标域图像进行特征提取，获得第二组特征；利用所述第一特征集合与所述第二组特征之间的类别关系，以及所述第二特征集合与所述第一组特征之间的类别关系计算总的对比损失。

本阶段主要计算对比损失，首先介绍对比损失的计算原理：对比损失主要用于最大化生成图像与目标域图像相应部分的互信息，以保证生成图像的逼真程度。例如，在图3中，左侧生成图像白色框中的图像块应该与右侧目标域图像中对应的白色框相似，而非其他黑色框中的部分，对比学习的主要思想就是将两个样本关联起来，即所说的查询样本和正样本，而数据集中其他样本被视为负样本。为了更精确的计算互信息，将上述各类样本匹配为K维向量，查询样本记作

、正样本记作

、N个负样本记作

，其中

为第n个负样本，R表示实数集。对这些样本向量做L2标准化并建立(N+1)分类问题，计算选择正样本而非负样本的概率，这一问题即为交叉熵损失：

其中，

为两向量的余弦距离，T为转置符号，

为缩放查询样本和其他样本间距离的参数。

基于上述原理，本发明设计了一种对比损失的计算方案：

一方面，通过弱监督语义分割网络预先获取输入的源域图像与目标域图像各个图像块的标签，方式包括：将源域图像与目标域图像分别输入至语义分割网络各自获得语义分割结果；对源域图像与目标域图像的每个图像块，利用各自的语义分割结果进行归类，获得源域图像与目标域图像的每个图像块的分类标签，每个特征的类别即为特征所属图像块的类别。如图4所示，输入图像经弱监督语义分割网络可以得到相应的语义分割结果，即每个像素的分类结果，此处的输入图像即为输入的源域图像或者目标域图像。

根据语义分割图，可以采用如下方式对图像块进行归类：若当前图像块对应的语义分割图中标记为某一类别c的像素比例超过设定阈值（例如，70%），将当前图像块标记对应类别c的样本。尽管弱监督模型的分割结果精确度有限，但是在上述阈值的限制下，可以保证每个图像块获得正确类别的标记。

此处通过只使用类别标签的弱监督语义分割网络，可以对源域图像与目标域图像中的每个图像块提供辅助的标记信息，为图像风格迁移模型提供了一定的语义约束，提高内容的匹配程度。

另一方面，本阶段会提取出两部分特征，第一部分特征包括：第一特征集合与第二特征集合；第二部分特征包括：第一组特征与第二组特征。

本发明实施例中，设置第一特征提取器H _x与第二特征提取器H _y，分别连接在相应生成器的编码器后方。如之前所述，所述第一生成器包括第一编码器与第一译码器，因而所述第一特征提取器利用所述第一编码器输出的编码结果进行特征提取；同样的，所述第二生成器包括第二编码器与第二译码器，因而所述第二特征提取器利用所述第二编码器输出的编码结果进行特征提取；所述第一编码器与第二编码器结构相同；第一特征提取器与第二特征提取器结构相同。下面介绍以上两部分特征的提取过程。

1）第一特征集合与第二特征集合的提取。

对于源域图像，将所述第一生成器生成的目标域图像通过所述第二生成器中的第二编码器进行编码，选出所述第二编码器输出的L层编码结果输入至所述第二特征提取器，由所述第二特征提取器提取出特征集合，称为第一特征集合，表示为：

其中，G(x)表示第一生成器G利用输入的源域图像x生成的目标域图像，

表示第二编码器F _enc的第l层，

表示第二特征提取器H _y对第l层编码结果进行特征提取，l表示层数序号， L表示选择的总层数（具体所要选择的总层数可根据实际情况设定），

表示第一特征集合中源域图像x的第l层特征，l=1,2,…,L。

对于目标域图像，将所述第二生成器生成的源域图像通过所述第一生成器中的第一编码器进行编码，选出所述第一编码器输出的L层编码结果输入至所述第一特征提取器，由所述第一特征提取器提取出特征集合，称为第二特征集合，表示为：

其中，F(y)表示第二生成器F利用输入的目标域图像y生成的源域图像；

表示第一编码器G _enc的第l层，

表示第一特征提取器H _x对第l层编码结果进行特征提取，

表示第二特征集合中目标域图像y的第l层特征。

2）第一组特征与第二组特征的提取。

基于所述第一特征提取器对所述源域图像进行特征提取，获得第一组特征，所述第一组特征通过所述第一特征提取器从所述第一编码器对源域图像x进行编码后输出的L层编码结果中提取，表示为：

，其中，

表示第一组特征中源域图像x的第l层特征。

基于所述第二特征提取器对所述目标域图像进行特征提取，获得第二组特征，所述第二组特征通过所述第二特征提取器从所述第二编码器针对目标域图像y进行编码后输出的L层编码结果中提取，表示为：

，其中，

表示第二组特征中目标域图像y的第l层特征。

综合以上两个方面的操作，可以选择查询样本以及其对应的正负样本，进而计算出总的对比损失，主要流程：对于第一特征集合，将其中的每一源域图像的每一层特征，均作为第一查询样本，从所述第二组特征中选择一个相同类别的特征作为正样本，并从所述第二组特征中选择N个不同类别的特征作为负样本；其中，N为大于等于1的整数；对于第二特征集合，将其中的每一目标域图像的每一层特征，均作为第二查询样本，从所述第一组特征中选择一个相同类别的特征作为正样本，并从所述第一组特征中选择N个不同类别的特征作为负样本；每一查询样本均利用其对应的正负样本计算对比损失，综合所有查询样本的对比损失作为总的对比损失。上述流程中，由于两部分的特征都是从源域图像与目标域图像中提取出的，因此，可以根据之前对源域图像以及目标域图像中各个图像块的归类结果来确定相应特征的类别，进而确定特征之间的类别关系。本发明中，各类特征维度都是一致的，因此也无需再进行维度统一处理。

此处使用的正负样本选取方法，不同于之前方法相同位置互为正样本的思想，有效解决了图像中不同位置内容相同或相似的情况，提高对比学习效果；本发明通过改进了对比学习在图像风格迁移上的应用方式，能够获得更相似的迁移结果。

总的对比损失的计算方式如下：

对于第一特征集合，源域图像x的第l层特征

作为第一查询样本时，对应的正样本记为

，对应的N个负样本表示为

，

表示源域图像x的第l层特征

的第n个负样本；综合第一特征集合所有源域图像的所有层的特征及对应的正负样本，计算第一对比损失：

其中，E表示期望，X表示用于训练的源域图像构成的源域图像集合，l(.)表示交叉熵损失。

对于第二特征集合，目标域图像y的第l层特征

作为第二查询样本时，对应的正样本记为

，对应的N个负样本表示为

，

表示目标域图像y的第l层特征

的第n个负样本；综合第二特征集合所有目标域图像的所有层的特征及对应的正负样本，计算第二对比损失：

其中，Y表示用于训练的目标域图像构成的目标域图像集合。

联合所述第一对比损失与第二对比损失，获得总的对比损失：

。

需要说明的是，计算以上三个类型的损失时标记的序号仅用于区分不同类型损失的计算流程，并不代表执行的先后顺序，在实际应用中，上述三个类型的损失可以按照需要同步执行，也可以任意顺序先后执行。

步骤3、联合所述总的对抗损失、总的循环一致性损失与总的对比损失训练所述图像风格迁移模型。

联合以上三类损失，构建完整的损失函数，表示为：

其中，λ _GAN、λ _cyc、λ _con为控制相应损失权重的超参数。

基于上述完整的损失函数对所述图像风格迁移模型进行训练，更新所述图像风格迁移模型中的参数（两个生成器与两个判别器的权重），所涉及的后续训练流程与参数更新方式可参照常规技术，本发明不做赘述。

为了便于理解，下面结合一个示例对图像风格迁移模型的训练及应用过程进行介绍。

步骤一、准备训练数据集和测试集，包含源域和目标域的图像和源域图像对应的类别标签。通过双线性插值的方式改变图像的空间大小，使得图像高为512，宽为512，然后进行图像归一化处理。

步骤二、将处理好的训练数据集及对应标签输入弱监督语义分割或实例分割网络，如PRM、IRN等，得到语义/实例分割图。

步骤三、根据对比学习过程中选用的编码器层，将图像分为对应尺寸的图像块，如32*32、16*16等，使用上文所述的标记方式对每一个图像块标记一个类别标签，完成图像块的归类。

步骤四、使用深度学习框架，建立基于对抗生成网络的图像风格迁移模型，模型由生成器、判别器及特征提取器构成。其中，生成器基于残差网络，判别器基于PatchGAN，特征提取器由生成器的编码器部分与两层MLP拼接而成。

步骤五、输入图像到图像风格迁移模型，进行双向的迁移及判别训练，根据生成器及判别器的结果，计算总的对抗损失及总循环一致性损失。

步骤六、将生成图像与目标图像输入特征提取器，按照前文介绍的方案提取两部分特征，并根据步骤三中获取的类别标签，确定正负样本，计算总的对比损失。

步骤七、根据上述步骤五与步骤六构建完整的损失函数，通过反向传播算法以及梯度下降策略，使得损失函数最小化，更新各个生成器、判别器的权重。

步骤八、输入测试数据集至通过前述步骤七训练好的图像风格迁移模型，定性及定量评估图像风格迁移模型的效果。

需要说明的是，以上示例所涉及的图像尺寸，以及具体的网络模型类型均为示意，并非构成限制。在实际应用中，图像尺寸以及网络模型的类型可根据需求或者经验自行调整。

实施例二

本发明还提供一种图像风格迁移模型的训练系统，其主要基于前述实施例一提供的方法实现，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

需要说明的是，上述系统中各单元的主要原理在之前的实施例一中已经做了详细的介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种图像风格迁移模型的训练方法，其特征在于，包括：

联合所述总的对抗损失、总的循环一致性损失与总的对比损失训练所述图像风格迁移模型；

其中，所述设置两个特征提取器，一对一的连接单个生成器，通过两个特征提取器进行特征提取，结合从源域图像与目标域图像中提取的特征，以及特征之间的类别关系计算总的对比损失包括：

设置第一特征提取器与第二特征提取器；对于源域图像，将第一生成器生成的目标域图像通过第二生成器进行编码后由所述第二特征提取器提取出特征集合，称为第一特征集合；对于目标域图像，将所述第二生成器生成的源域图像通过所述第一生成器进行编码后由所述第一特征提取器提取出特征集合，称为第二特征集合；并且，基于所述第一特征提取器对所述源域图像进行特征提取，获得第一组特征；基于所述第二特征提取器对所述目标域图像进行特征提取，获得第二组特征；利用所述第一特征集合与所述第二组特征之间的类别关系，以及所述第二特征集合与所述第一组特征之间的类别关系计算总的对比损失；

其中，特征之间的类别关系通过查询预先获得的源域图像与目标域图像中相应图像块的类别来确定；源域图像与目标域图像中每个图像块的类别通过下述方式获得：将源域图像与目标域图像分别输入至语义分割网络各自获得语义分割结果；对源域图像与目标域图像的每个图像块，利用各自的语义分割结果进行归类，获得源域图像与目标域图像的每个图像块的类别，每个特征的类别即为特征所属图像块的类别。

2.根据权利要求1所述的一种图像风格迁移模型的训练方法，其特征在于，所述将源域图像与目标域图像均分别输入至每一对抗结构，利用两个对抗结构的输出计算总的对抗损失包括：

第一生成器利用输入的源域图像生成目标域图像，第一判别器用于判别输入图像是否为第一生成器生成的目标域图像，此时第一判别器的输入图像包括第一生成器生成的目标域图像与获取的用于训练的目标域图像；第二生成器利用输入的目标域图像生成源域图像，第二判别器用于判别输入图像是否为第二生成器生成的源域图像，此时第二判别器的输入图像包括第二生成器生成的源域图像与获取的用于训练的源域图像；结合第一判别器与第二判别器的判别结果计算总的对抗损失；

其中，利用所述第一判别器的判别结果，计算第一对抗损失，表示为：

其中，G表示第一生成器，D _y表示第一判别器，X表示用于训练的源域图像构成的源域图像集合，x表示源域图像集合X中的源域图像，Y表示用于训练的目标域图像构成的目标域图像集合，y表示目标域图像集合Y中的目标域图像，G(x)表示第一生成器G利用输入的源域图像x生成的目标域图像，D _y(G(x))表示第一判别器D _y对第一生成器G生成的目标域图像G(x)的判别结果，D _y(y)表示第一判别器D _y对输入的目标域图像y的判别结果，E表示期望，y~Y表示目标域图像y服从目标域图像集合Y中的数据分布，x~X表示源域图像x服从源域图像集合X中的数据分布；

利用所述第二判别器的判别结果，计算第二对抗损失，表示为：

其中，F表示第二生成器，F(y)表示第二生成器F利用输入的目标域图像y生成的源域图像，D _x表示第二判别器，D _x(F(y))表示第二判别器D _x对第二生成器F生成的源域图像F(y)的判别结果，D _x(x)表示第二判别器D _x对输入源域图像x的判别结果；

。

3.根据权利要求1所述的一种图像风格迁移模型的训练方法，其特征在于，所述将当前对抗结构的生成器的输出输入至另一对抗结构中，综合两个对抗结构中生成器的输出计算总的循环一致性损失包括：

对于源域图像，通过第一生成器生成目标域图像，并输入至第二生成器生成新的源域图像；对于目标域图像，通过所述第二生成器生成源域图像，并输入至所述第一生成器生成新的目标域图像；结合所述源域图像与所述新的源域图像的差异，以及所述目标域图像与所述新的目标域图像的差异计算总的循环一致性损失；

其中，结合所述源域图像与所述新的源域图像的差异，计算第一循环一致性损失，表示为：

其中，G表示第一生成器，F表示第二生成器，X表示用于训练的源域图像构成的源域图像集合，x表示源域图像集合X中的源域图像，E表示期望，x~X表示源域图像x服从源域图像集合X中的数据分布，Y表示用于训练的目标域图像构成的目标域图像集合，G(x)表示第一生成器G利用输入的源域图像x生成的目标域图像，F(G(x))表示所述第二生成器F生成的新的源域图像；符号||.||₁表示L1范数；

结合所述目标域图像与所述新的目标域图像的差异，计算第二循环一致性损失，表示为：

其中，y表示目标域图像集合Y中的目标域图像，y~Y表示目标域图像y服从目标域图像集合Y中的数据分布，F(y)表示第二生成器F利用输入的目标域图像y生成的源域图像；G(F(y))表示所述第一生成器G生成的新的目标域图像；

。

4.根据权利要求1所述的一种图像风格迁移模型的训练方法，其特征在于，所述设置第一特征提取器与第二特征提取器；对于源域图像，将第一生成器生成的目标域图像通过第二生成器进行编码后由所述第二特征提取器提取出特征集合，称为第一特征集合；对于目标域图像，将所述第二生成器生成的源域图像通过所述第一生成器进行编码后由所述第一特征提取器提取出特征集合，称为第二特征集合包括：

所述第一生成器包括第一编码器与第一译码器，所述第一特征提取器利用所述第一编码器输出的L层编码结果进行特征提取；所述第二生成器包括第二编码器与第二译码器，所述第二特征提取器利用所述第二编码器输出的L层编码结果进行特征提取；