CN112232485A

CN112232485A - 漫画风格图像转换模型的训练方法、图像生成方法及装置

Info

Publication number: CN112232485A
Application number: CN202011104745.4A
Authority: CN
Inventors: 赫然; 丁雨禾; 马鑫; 骆曼迪; 郑爱华; 黄怀波; 单彩峰
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15
Anticipated expiration: 2040-10-15
Also published as: CN112232485B

Abstract

本公开涉及一种漫画风格图像转换模型的训练方法、图像生成方法及装置，具体方法包括：输入的人脸照片送入到编码器，编码器将照片编码到一个公共隐空间，再从隐空间中进行随机采样，利用漫画域的解码器解码后得到风格转换后的图片。同时输入的人脸照片还要送入照片域的形变预测网络，来预测一组扭曲关键点，来对风格转换后的图片进行形状扭曲，之后就得到了最终转换后的漫画图片。本公开提出了一个相对风格损失，该损失将传统的相对损失中的欧氏距离利用格里姆矩阵改进为风格距离。在网络结构优化过程中，可以拉近生成漫画与真实漫画之间的风格距离，同时拉远生成漫画与照片之间的风格距离。从而提升生成图片的纹理质量，减少伪影。

Description

漫画风格图像转换模型的训练方法、图像生成方法及装置

技术领域

本公开属于计算机图形处理技术领域，具体涉及一种漫画风格图像转换模型的训练方法、图像生成方法及装置。

背景技术

人脸照片到漫画的转换是特殊的图像到图像转换任务，具有一定的商业价值，在娱乐、出版业都有应用。

漫画的生成需要夸大面部特征，并重新渲染面部纹理以形成肖像。现有方法主要分为三类：基于变形，基于纹理和同时考虑这两个方面的方法。基于变形的方法通过使用某些引导信息(例如2D标志点，3D网格或绘图线)来关注几何变形。但是，要保证精确的引导信息是一项挑战。此外，它们生成的结果缺少纹理的转换。基于纹理的方法通过广泛使用的生成对抗网络获得漫画的风格，比如使用循环生成器来保持漫画生成中的纹理一致性；以及通过弱监督的对抗学习传递输入图像的纹理。但是，他们仅在表示空间处理形变，因此导致变形能力有限。为了获得在提升纹理效果的同时获得更好的形变效果，以及生成对抗网络及其各种变体的发展，产生了很多同时基于纹理渲染和形变的工作。

发明人认为，大多数风格转换网络并没有对纹理渲染网络进行进一步处理，而漫画数据往往纹理非常的多样化，导致了生成图片的纹理产生许多的伪影。同时训练时身份等标签的需求也不够契合实际应用。

发明内容

本公开的目的是为克服上述现有技术的不足，本公开提出了一种漫画风格图像转换模型的训练方法、图像生成方法及装置，能够至少解决上述技术问题之一。

本公开的第一方面提出一种漫画风格图像转换模型的训练方法，包括以下步骤：

步骤S1、定义相对风格损失，具体定义为：

给定输入为三张图片：照片、纹理转换后的照片、漫画，将照片和纹理转换后的照片作为负样本对，将纹理转换后的照片和漫画作为正样本对，对样本对的三通道求出格里姆矩阵，再对求出的格里姆矩阵求均方差即定义为风格距离；将相对损失中的欧氏距离替换为风格距离,获得相对风格损失；

步骤S2、利用相对风格损失，通过迭代训练得到可以进行照片到漫画转换的对抗生成网络模型。

本公开的第二方面提供一种漫画风格图像转换方法，利用了所述的漫画风格图像转换模型的训练方法，包括以下步骤：

获取目标照片；

将目标照片输入预先训练的漫画风格图像转换模型，对测试用的目标照片进行到漫画域的风格转换，并进行几何形变。

本公开的第三方面提供一种漫画风格图像转换模型的训练装置，包括：

图像获取单元：用于获取图片；

网络获取单元：用于获取预设的对抗生成网络；

模型训练单元：通过机器学习的方式，经多次迭代得到稳定的漫画风格图像转换模型。

本公开的第四方面提供一种漫画风格图像转换装置，包括：

照片获取单元，用于获取待处理的目标照片；

图像生成单元，用于将待处理的目标照片输入至预先训练的漫画风格图像转换模型，以得到漫画风格的图像。

本公开的第五方面提供一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现所述的漫画风格图像转换模型的训练方法，或实现所述的漫画风格图像转换方法。

本公开的第六方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如所述的漫画风格图像转换模型的训练方法，或实现所述的漫画风格图像转换方法。以上一个或多个技术方案的有益效果在于：

本公开利用格里姆矩阵可以放大特征细节的特性来定义风格距离，来改进相对损失中的欧氏距离，进而定义相对风格损失，拉近生成漫画与真实漫画之间的纹理差距，推远生成漫画与照片之间的纹理差距，从而提升纹理效果。此外利用神经网络直接为输入照片预测控制点来进行几何形变。同时省去了身份等标签的使用，提高了模型的实际应用价值。

本公开使用隐空间共享的理论作为基础假设，利用编码器解码器作为基础模型框架，设计了一个两分支对称的转换模型，同时对输入照片进行纹理渲染与几何形变。

附图说明

图1是本公开实施例中在漫画数据库WebCar i cature上进行照片到漫画转换的真实例子，其中第一行为输入的照片，第二行为转换后的漫画图片；

图2是本公开实施例中基于自动形变和相对风格损失的照片到漫画合成方法流程图；

图3是本公开实施例中在有无内容损失和相对风格损失的情况下生成的漫画效果对比情况。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

随着现代科技的发展，人们的需求在不断提高，包括电影广告动画制作、网络游戏、娱乐等领域，本课题都有着应用前景与商业价值。因此在这种背景下，开发一种不需要标签的、基于自动形变和相对风格损失的照片到漫画转换方法是很有必要的。

实施例1

如图1-图3所示，本实施例提供一种漫画风格图像转换模型的训练方法，具体按照以下步骤实施：

步骤S1、定义相对风格损失，具体定义为：给定输入为三张图片：照片、纹理转换后的照片、漫画，将照片和纹理转换后的照片作为负样本对，将纹理转换后的照片和漫画作为正样本对，对样本对的三通道求出格里姆矩阵，再对求出的格里姆矩阵求均方差即定义为风格距离。将相对损失中的欧氏距离替换为风格距离即可获得相对风格损失。

定义风格转换网络训练过程中转换网络的相对风格损失函数，具体定义为：

L_ctr＝β₁Ctr(x_r，x，0)+β₂Ctr(x_r，y，1)+β₃Ctr(y_r，y，0)+β₄Ctr(y_r，y，1)

其中，x_r、y_r分别为纹理转换后的照片和漫画，x、y分别为输入的真实照片和漫画，β₁，β₂，β₃，β₄为权重系数，函数Ctr(·)定义为：

其中，l∈[0，1]是图像对[i₁，i₂]的标签，d(i₁，i₂)为图像对[i₁，i₂]的风格距离，mg为优化风格距离的阈值，风格距离函数d(m，n)定义为：

其中，G^m和Gⁿ是m和n的格里姆矩阵，n_c，n_h，n_w分别为通道数、高、宽。

步骤S2、利用相对风格损失，通过迭代训练得到可以进行照片到漫画转换的对抗生成网络模型，包括：

任取一张照片和漫画图片作为输入，分别送入各自的风格转换网络和形变预测网络，风格转换网络对输入的照片进行纹理上的转换，获得目标域纹理的照片，再利用形变预测网络上输出的控制点进行薄板样条插值，从而获得漫画风格的照片。纹理转换后的图片以及经过纹理转换及几何形变后的图片，分别在两个判别器中进行对抗损失的计算。正样本为真实的漫画图片。

训练分为两个部分：先进行风格转换网络的训练，网络中包括两个域的编码器与解码器，解码器解码生成纹理转换后的图片，转换后的图片与真实漫画之间计算相对风格损失，加入到生成器的总损失中，与两个尺度的风格判别器一同迭代多次达到稳定后完成模型的训练。风格转换网络训练完成后，将其固定后，再利用该网络来训练几何形变网络，几何形变网络与一个几何判别器一同训练迭代多次达到稳定后完成模型的训练。

具体的，利用任意一张256*256的照片和漫画作为输入，训练纹理转换网络和几何预测网络，来对输入照片进行纹理转换和几何形变。

所述的纹理转换网络为编码解码的结构，对于输入的照片和漫画，分别送入本域的编码器，获得内容编码，然后将内容编码送入目标域的解码器，进行解码，来进行纹理转换。所述编码器利用卷积神经网络结构来进行编码，在一实施例中，所述编码器卷积神经网络结构由3个残差块构成，被编码成256*64*64，所述解码器由一个残差块、两层卷积层以及两个上采样层构成，解码器接受内容编码为输入，将其解码回3*256*256。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置。在判别器中，采用卷积神经网络结构将真实图像对和假图像对作为输入，输出采用对抗损失函数来判断真假。

该步骤中，利用照片与/漫画作为网络输入，真实的图像是漫画/照片，训练一对编码器与解码器来进行纹理转换，纹理转换后的照片/漫画与真实的照片/漫画、漫画/照片一起进行相对风格损失的计算，以及对抗损失等损失的计算，迭代多次达到稳定后完成模型的计算。

在所述纹理转换网络训练完成后，固定住该部分的参数，继续训练下一部分的几何形变网络。输入的照片/漫画在形变网络中预测出一组控制点，然后利用控制点对纹理转换后的照片/漫画通过薄板样条插值来进行形变。所述几何形变网络由卷积神经网络组成，在一实施例中，卷积神经网络由两层卷积层和三层全连接层组成，两个卷积核的滤波器大小分别为32*32和4*4，步长分别为4和2。卷积层的层数和每层卷积层中滤波器的个数及大小可根据实际情况进行选择设置。几何形变及纹理转换后的照片/漫画即为最终输出，在判别器中，采用卷积神经网络结构将真实图像对和假图像对作为输入，输出采用对抗损失函数来判断真假。迭代训练多次达到稳定后完成模型的训练。

本公开中利用所述生成对抗网络的高度非线性拟合能力，针对照片到漫画转换的任务，将转换过程分解为纹理转换和几何形变两个部分。特别的，相对风格损失可以提高生成图片的纹理效果。在测试阶段，只需要一张照片，即可通过解码器、编码器、形变网络来完成转换，而不需要漫画图片。

具体的，所述步骤S2包括：

步骤S21：初始化风格转换网络的权重参数，其中风格转换网络的总损失函数为L_G，判别器的总对抗损失函数为L_D。

其中，L_rec为重建损失，L_KL为KL损失，

和

分别为风格转换网络和判别器的对抗损失，L_cont为内容损失，L_ctr是所提出的相对风格损失。α_r，α_K，α_a，α_c，α_ctr是损失的权重系数。

几何形变网络在训练过程中转换网络和判别器的目标函数如下所示：

其中，

和

分别是形变预测网络和判别器的对抗损失，L_idt是身份保持损失，α_a和α_i是损失的权重系数。

上述的对抗生成网络，主要是进行纹理转换与几何形变两个过程，来对输入照片进行转换，所述模型的最终目标为L_G、L_D、

几个损失函数降至最低并且保持稳定。

其中，{α_r，α_K，α_a，α_c，α_ctr，β₁，β₂，β₃，β₄，mg}被设置为：{10，1，1，1，0.5，0.5，0.5，1，1，2.0}。

步骤S22：输入的照片和漫画分别被编码器Enc_a和Enc_b编码到同一个公共内容空间中，照片和漫画的内容编码分别送入到漫画和照片解码器Dec_b和Dec_a中解码，得到纹理转换后的照片和漫画。分别构成假样本，再将漫画和照片分别作为真样本送入到判别器

和

中去，依次迭代训练使得网络的损失函数L_G和L_D均降低至趋于稳定。

步骤S23：固定住S22中训练好的风格转换网络(包括两个编码器、两个解码器)，初始化形变预测网络的权重参数。其中几何形变网络的总损失函数为

判别器的总对抗损失函数为

其中参数{α_i，α_a}设置为{8，1}。

步骤S24：将输入的照片和漫画分别输入到照片和漫画的形变预测网络DPM_a和DPM_b中，为照片和漫画分别预测出一组形变控制点v_a和v_b，分别利用v_a和v_b对纹理转换后的照片和漫画进行薄板样条插值来进行几何扭曲，得到最终转换后的照片和漫画。经过几何形变和风格转换的照片和漫画作为假样本，漫画和照片作为真样本，送入判别器D_b和D_a中去，依次迭代训练使得网络的训练函数

和

均降低至趋于稳定。

纹理转换网络中的转换网络对抗损失函数为：

其中，x_r为纹理转换后的照片，y_r为纹理转换后的漫画，D_b、D_a分别为漫画和照片域的判别器。

纹理转换网络中的判别器对抗损失函数为：

其中，x_r、y_r分别为纹理转换后的照片和漫画，x、y分别为输入的真实照片和漫画，D_b、D_a分别为漫画和照片域的判别器。

纹理转换网络中的转换网络的重建损失函数为：

L_rec＝||Dec_a(c_a)-x||₁+||Dec_b(c_b)-y||₁

其中，Dec_a和Dec_b分别为照片和漫画域的解码器，x、y分别为输入的真实照片和漫画，c_a和c_b分别为照片和漫画的内容编码。

纹理转换网络中的转换网络的KL损失函数为：

L_KL＝KL(q_a(c_a|x)||p_s(c))+KL(q_b(c_b|y)||p_s(c))

其中，x、y分别为输入的真实照片和漫画，c_a和c_b分别为照片和漫画的内容编码。函数KL(·)为KL散度，p_s(c)为标准正态分布，q_a和q_b为照片和漫画待求的分布。

纹理转换网络中的转换网络的内容损失函数为：

L_cont＝||ξ(x)-ξ(x_r)||₁+||ξ(y)-ξ(y_r)||₁

其中，x、y分别为输入的真实照片和漫画，x_r、y_r分别为纹理转换后的照片和漫画，ξ(·)为预训练好的VGG网络。

几何形变网络中预测网络的对抗损失函数如下表示：

其中，x^y和y^x分别为经过几何形变和纹理转换后的照片与漫画，

和

分别为漫画域和照片域的判别器。

几何形变网络中判别器的对抗损失函数如下表示：

其中，x、y分别为输入的真实照片和漫画，x^y和y^x分别为经过几何形变和纹理转换后的照片与漫画，

和

分别为漫画域和照片域的判别器。

几何形变网络中预测网络的身份保持损失函数如下表示：

L_idt＝E||x^y-x||₁+E||y^x-y||₁

其中，x、y分别为输入的真实照片和漫画，x^y和y^x分别为经过几何形变和纹理转换后的照片与漫画。

为了详细说明本公开的具体实施方式及验证本公开的有效性，我们将本公开提出的方法应用于一个公开的漫画数据库——WebCaricature数据库。该数据库包括252个人，6042张漫画，5974张照片。具体的，我们随机挑选100张人脸照片作为测试使用，其余照片与漫画都作为训练集，用于训练网络模型。使用我们所设计的网络结构与损失函数，利用生成器和判别器之间的对抗及梯度反传训练该神经网络。训练过程中不断调整不同任务的权重，直至最后网络收敛，得到用来转换人脸照片的模型。

为了测试该模型的有效性，使用测试人脸照片进行向漫画域转换的操作，生成的结果如图1所示。同时，我们验证了相对风格损失函数和内容损失对模型性能的影响，并与原模型的生成结果进行对比，实验结果如图3所示。该实施例有效证明了本公开所提出方法对照片到漫画转换任务的有效性。

实施例2

本实施例提供一种漫画风格图像转换方法，利用了上述的漫画风格图像转换模型的训练方法，包括以下步骤：获取目标照片；将目标照片输入预先训练的漫画风格图像转换模型，对测试用的目标照片进行到漫画域的风格转换，并进行几何形变。

实施例3

本实施例提供一种漫画风格图像转换模型的训练装置，包括：

图像获取单元：用于获取图片；网络获取单元：用于获取预设的对抗生成网络；模型训练单元：通过机器学习的方式，经多次迭代得到稳定的漫画风格图像转换模型。

实施例4

本实施例提供一种漫画风格图像转换装置，包括：照片获取单元，用于获取待处理的目标照片；图像生成单元，用于将待处理的目标照片输入至预先训练的漫画风格图像转换模型，以得到漫画风格的图像。

实施例5

本实施例提供一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如所述的漫画风格图像转换模型的训练方法，或实现所述的漫画风格图像转换方法。

实施例6

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现所述的漫画风格图像转换模型的训练方法，或实现所述的漫画风格图像转换方法。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种漫画风格图像转换模型的训练方法，其特征在于，包括以下步骤：

步骤S1、定义相对风格损失，具体定义为：

2.根据权利要求1所述的漫画风格图像转换模型的训练方法，其特征在于，步骤2中，任取一张照片和漫画图片作为输入，分别送入各自的风格转换网络和形变预测网络，风格转换网络对输入的照片进行纹理上的转换，获得目标域纹理的照片，再利用形变预测网络上输出的控制点进行薄板样条插值，从而获得漫画风格的照片；纹理转换后的图片以及经过纹理转换及几何形变后的图片，分别在两个判别器中进行对抗损失的计算；正样本为真实的漫画图片；

训练分为两部分：先进行风格转换网络的训练，网络中包括两个域的编码器与解码器，解码器解码生成纹理转换后的图片，转换后的图片与真实漫画之间计算相对风格损失，加入到生成器的总损失中，与两个尺度的风格判别器一同迭代多次达到稳定后完成模型的训练；风格转换网络训练完成后，将其固定后，再利用该网络来训练几何形变网络，几何形变网络与一个几何判别器一同训练迭代多次达到稳定后完成模型的训练。

3.根据权利要求1所述的漫画风格图像转换模型的训练方法，其特征在于，风格转换网络训练过程中转换网络的相对风格损失函数如下表示：

其中，l∈[0，1]是图像对[i₁，i₂]的标签，d(i₁，i₂)为图像对[i₁，i₂]的风格距离，风格距离函数d(m，n)定义为：

4.根据权利要求2所述的漫画风格图像转换模型的训练方法，其特征在于，所述步骤S2包括：

步骤S21：初始化风格转换网络的权重参数，其中转换网络的总损失函数为L_G，判别器的总对抗损失函数为L_D；

步骤S22：输入的照片和漫画分别被编码器Enc_a和Enc_b编码到同一个公共内容空间中，照片和漫画的内容编码分别送入到漫画和照片解码器Dec_b和Dec_a中解码，得到纹理转换后的照片和漫画；分别构成假样本，再将漫画和照片分别作为真样本送入到判别器

和

中去，依次迭代训练使得网络的损失函数L_G和L_D均降低至趋于稳定；

步骤S23：固定住S22中训练好的风格转换网络，初始化形变预测网络的权重参数；其中几何形变网络的总损失函数为

判别器的总对抗损失函数为

步骤S24：将输入的照片和漫画分别输入到照片和漫画的形变预测网络DPM_a和DPM_b中，为照片和漫画分别预测出一组形变控制点v_a和v_b，分别利用v_a和v_b对纹理转换后的照片和漫画进行薄板样条插值来进行几何扭曲，得到最终转换后的照片和漫画；经过几何形变和风格转换的照片和漫画作为假样本，漫画和照片作为真样本，送入判别器D_b和D_a中去，依次迭代训练使得网络的训练函数