CN116630140A

CN116630140A - 一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质

Info

Publication number: CN116630140A
Application number: CN202310333180.4A
Authority: CN
Inventors: 朱高峰; 瞿治国
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-08-22

Abstract

本发明公开了一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质，获取若干对成对的动漫人像图片和真实人像图片作为训练样本；将训练样本输入条件生成对抗网络进行训练，直到损失函数最小时，获得训练好的条件生成对抗网络；将动漫人像图片输入条件生成对抗网络中的生成器，输出真实人像图片。本发明提供的一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质，使得条件生成对抗网络的生成器性能达到最佳，可以将输入的动漫人像图片真实化，做到动漫人像真实化的高效性和实时性。

Description

一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质

技术领域

本发明涉及一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质，属于计算机视觉中的图像处理技术领域。

背景技术

图片风格转化是当今计算机视觉领域的一项研究重点，而人脸图像处理更是成为一个越来越热门的研究领域。传统的人脸图像处理的方法，通常是建立模板库，包含各式各样的五官局部图像。然后画师根据图形学的方法在模板库中选择五官进行拼接，最后对拼接图像的边缘做平滑处理，生成人脸图像。这种方法需要对人像每个部分建模，不但昂贵且耗时耗力。并且受到画师的主观影响，单纯的五官局部图像拼接很难保证合成人脸图像的真实性，合成人脸图像与实际需求的人脸图像可能存在差距。若能从图像数据中学习一个模型，即可将此过程转化为模型学习和推断，生成新的人像图片只需要重新在数据集上对模型进行训练。

随着人工智能深度学习技术的进步和硬件设备的提高，通过人工智能的方法处理图像风格任务变得越来越普及，人脸图像处理中将动漫人像转换为真实人像是一类特殊的任务，由于动漫人像颜色、纹理风格等和真实图像的差异很大，因此传统的方法很难达到理想的效果。

将动漫人像真实化的技术与市面上已经存在的将真人图片动漫化的技术不同，因为动漫人像图片有其独有的动漫风格的特点，即动漫人像图片的展示效果是人像的简化和高度抽象，且对于动漫图片其主要着力点在于有清晰的边缘特征和平滑的着色、纹理效果。而动漫人像真实化则要求重点关注生成真人图像质量效果。真人图片相较于动漫人像图片往往更在意发丝、皱纹、肤色等细节特征信息，而想要更好的表现出这些细节特征则需要高分辨率的图像生成效果。所以，需要对条件生成对抗网络的网络结构进行改进。

针对当前动漫人像真实化的技术缺乏，需要解决传统的图像处理中遇到的难题，做到动漫人像真实化的高效实时性。本发明提出一种基于条件生成对抗网络的动漫人像真实化方法，旨在解决以下多个具体问题：

1)、传统人脸图像风格转换的技术往往需要手工对图像进行拼接，这种图像处理方法不但速度慢且效果差，所以需要借用基于人工智能的深度学习的技术。而市场上主流的是人像动漫化的技术，侧重于生成动漫纹理、风格、着色的图像。

2)、传统的条件生成对抗网络是以随机高斯噪声和类型标签为输入信息，且原始的条件生成对抗网络的生成器结构通常很难生成高分辨率的图片，或高分辨率的图像会损失较多细节信息。所以需要对输入信息和网络的生成器结构进行改进优化。

3)、由于高分辨率图片的判别对于判别器来说并不容易，对于网络结构会要求它更大并且更深，对于计算机的计算资源也会有更高级别的要求，会导致该网络模型不具备普适性，所以需要对网络中的判别器模型结构进行改进优化。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质，实现对大多数的动漫人像的图片进行真实化的效果。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

第一方面，一种基于条件生成对抗网络的动漫人像真人化的实现方法，包括如下步骤：

获取若干对成对的动漫人像图片和真实人像图片作为训练样本。

将训练样本输入条件生成对抗网络进行训练，直到损失函数最小时，获得训练好的条件生成对抗网络。

将动漫人像图片输入条件生成对抗网络中的生成器，输出真实人像图片。

作为优选方案，所述获取若干对成对的动漫人像图片和真实人像图片作为训练样本，包括：

从人像数据集网络上爬取一定数量的成对的动漫人像图片和与之相对应的真实人像图片作为数据集。

在成对的数据集中选取风格一致或接近的动漫人像图片和真实人像图片。

利用爬虫技术，从数据集中爬取成对的图片N张作为训练数据集。

使用Fisherfaces人脸检测算法对训练数据集中的图片进行识别。

获取图片中人脸，并进行统一尺寸大小的裁剪。

将裁剪后的成对的图片作为训练样本。

作为优选方案，所述条件生成对抗网络，包括：整体生成器G，整体判别器D。

所述整体生成器G包括：第一生成器G1，第二生成器G2。所述第一生成器G1，第二生成器G2均由编码器、转换器和解码器组成。其中编码器包括卷积层；转换器包括残差网络；解码器包括反卷积层。

所述整体判别器D包括：第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4。所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4分别在四个不同尺度上进行判别，所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4的输出经过多次卷积后得到判别结果。

作为优选方案，所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4分别在四个不同尺度上进行判别，判别的四个尺度为：1024*1024，512*512，256*256，128*128。

作为优选方案，所述损失函数计算公式如下：

其中：

L_cGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁]

其中，G^*是生成器的优化目标，arg是满足条件的自变量的值，G是整体生成器，D是整体判别器，x是动漫人像图片，y是与动漫人像图片相配对的真实人像图片，z表示随机噪声，λ为可设定参数，E[*]是期望函数，||*||₁是1-范数，min表示生成器的目标是值越越小越好，max表示判别器的目标是值越越大越好，D(x,y)是判别器判别成对的动漫人像图片和真实化人像图片是一对真实图像的概率；G(x,z)表示从生成器生成的真实化人像图片；D(x,G(x,z))是判别器判别成对的动漫人像图片和生成器生成的真实化人像图片不是一对真实图像的概率。

作为优选方案，所述λ＝4。

作为优选方案，所述将训练样本输入条件生成对抗网络进行训练，直到损失函数最小时，获得训练好的条件生成对抗网络，包括：

将训练样本中的动漫人像图片输入第二生成器G2，第二生成器G2的卷积层进行2倍下采样后的信息输入到第一生成器G1，第一生成器G1输出的图片特征信息。

将第二生成器G2的卷积层进行2倍下采样后的信息与第一生成器G1输出的图片特征信息进行特征融合，将特征融合输入到第二生成器G2的残差网络、反卷积层，输出生成的真实化人像图片。

将成对的动漫人像图片与生成的真实化人像图片，成对的动漫人像图片与真实化人像图片分别变换为四个不同尺度，并输入第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4，根据整体判别器D的输出，计算第一损失函数L_cGAN(G,D)。

将生成的真实化人像图片与真实化人像图片分别变换为四个不同尺度，并输入第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4，根据整体判别器D的输出，计算第二损失函数L_L1(G)。

直到第一损失函数L_cGAN(G,D)与第二损失函数L_L1(G)和最小时，训练完成，获得训练好的条件生成对抗网络。

第二方面，一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一方面中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法。

第三方面，一种计算机设备，包括：

存储器，用于存储指令。

处理器，用于执行所述指令，使得所述计算机设备执行如第一方面中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法的操作。

有益效果：本发明提供的一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质，将动漫人像图片和其相对应的真实人像图片输入到条件生成对抗网络中进行训练，通过把动漫人像图片和其相对应的真实人像图片输入到条件生成对抗网络中，训练条件生成对抗网络模型最小化损失函数，此时，生成器能够将输入的动漫人像图片实现真实化。

将条件生成对抗网络在动漫人像真实化方面加以应用，实现一个转换器，输入一张动漫人像图片输出一张对应的真实化的人像图片，做到了实现动漫人像真实化的高效性和实时性，解决了传统方法中的转换效果差，与原动漫人物的图片不相似的问题和传统方法中转换速度过慢的问题。并对条件生成对抗网络的生成器结构模型和判别器结构模型进行了优化，使其在生成图片的质量(纹理/细节特征)、分辨率等方面得到进一步的提升。

本发明使得条件生成对抗网络的生成器性能达到最佳，可以将输入的动漫人像图片真实化，做到动漫人像真实化的高效性和实时性。

附图说明

图1是本发明基于条件生成对抗网络的动漫人像真实化的实现方法的流程图。

图2是条件生成对抗网络结构示意图。

图3是本发明动漫人像真实化的整体网络结构图。

图4是条件生成对抗网络中生成器的网络结构图。

图5是动漫人像真实化网络生成器模型图。

图6是条件生成对抗网络中判别器的网络结构图。

图7是动漫人像真实化网络生成器模型图。

图8是本发明的实验效果图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

为使得本发明的优点，目标和技术路线更清晰明白，下面结合公式和附图对本发明进行详细说明。如图1所示，本节演示整个第一种实施例的一种基于条件生成对抗网络的动漫人像真实化的实现方法过程，包括如下步骤：

步骤1：获取若干对成对的动漫人像图片和真实人像图片作为训练数据集。

步骤1.1：获取人像数据集网站，所述人像数据集网站中有成对的动漫人像图片和真实人像图片，且动漫人像图片和真实人像图片清晰可见。

步骤1.2：从人像数据集网络上爬取一定数量的成对的动漫人像图片和与之相对应的真实人像图片作为数据集。

步骤1.3：在成对的数据集中选取风格一致或接近的动漫人像图片和真实人像图片。

步骤1.4：利用爬虫技术，从数据集中爬取成对的图片8000张作为训练数据集。

步骤2：对训练数据集进行预处理，获得训练样本。

步骤2.1：使用Fisherfaces人脸检测算法对训练数据集中的图片进行识别。

步骤2.2：获取图片中人脸，并进行统一尺寸大小的裁剪，统一裁剪尺寸大小为256*256。

步骤2.3：将裁剪后的图片保存于另一个文件夹，并规定图片的文件名与原文件名相同，并将裁剪后的图片作为训练样本。

步骤3：搭建生成器和判别器，将生成器和判别器组成的网络模型。

步骤3.1：条件生成对抗网络的模型如图2所示，Z代表输入的随机高斯噪声，C代表类型标签，X表示真实图片。生成器G接受Z和C作为输入信息,输出生成图片G(Z)。判别器D接受X、G(Z)、C作为输入信息。动漫人像真实化的网络模型是基于条件生成对抗网络的优化改进，网络模型如图3所示。将输入信息替换为需要转换的动漫人像图片，更好的保证生成图像的效果，并对生成器和判别器进行了优化改进。

步骤3.2：构建生成器，生成器的网络模型如图4所示，主要由编码器、转换器和解码器组成。其中编码器主要包含卷积层(Conv Layer),卷积层的主要作用是基于卷积网络从输入图像提取特征；转换器主要包含残差网络(Resnet Block),残差网络的主要作用是组合不同图像的相近特征，再基于图像特征组合对图像的特征向量进行域转换；解码器主要包含反卷积层(DeConv Layer)，反卷积层的解码方式相反于卷积层的编码方式，反卷积可以从特征向量中还原图片的低级特征。

步骤3.3：动漫人像真实化的整体生成器网络结构，如图5所示：整体生成器G由第一生成器G1和第二生成器G2共同构建组成，其中第一生成器G1接受来自第二生成器G2两倍下采样后的信息作为输入生成低分辨率图像来学习全局特征。第二生成器G2先对输入的图片进行下采样提取图片特征信息，并和第一生成器G1输出的特征信息进行特征融合，最后把特征融合的信息输入到第二生成器G2的后半部分。训练过程中，先训练分辨率较小的第一生成器G1，再将第一生成器G1和第二生成器G2一起训练。如此低分辨率生成器学习图片全局特征，高分辨率生成器学习图片像素级特征，两者结合，提高生成效果。

步骤3.4：构建判别器，判别器的网络模型，如图6所示，判别器中的输入分别为成对的动漫人像图片和真实人像图片、成对的动漫人像图片和生成器生成的真实化人像图片，并基于通道维度把图片合并在一起，判别器对输入图像进行多次卷积最后得到判别结果。

步骤3.5：动漫人像真实化的整体判别网络结构如图7所示：为了更好的判别高分辨率的真假图片，避免设计更深的网络结构造成的过拟合并节约计算资源。整体判别器D由4个相同网络结构的判别器D1，D2，D3，D4组成。对真实图片和生成图片在四个不同尺度上进行判别，判别的四个尺度为：1024*1024，512*512，256*256，128*128，即在不同尺度的特征图上进行判别，越粗糙的尺度的判别器感受野越大，越关注图片的全局一致性。细粒度更高的判别器则主要负责引导生成器合成更精细的特征。判别器会预测是一对真实图片还是生成的图片，并输出所输入的一对图片的预测概率值，判别器的输出分布为0到1，概率值越接近1表示判别器越肯定输入的是一对真实图像。

步骤4：根据条件生成对抗网络构建损失函数。

步骤4.1：判别器的损失函数应该实现允许通过对所有成对的动漫人像图片和真实人像图片，即将判别器的输出置为1。

步骤4.2：判别器的损失函数应该实现拒绝所有将动漫人像图片和从生成器得到的真实化人像图片拼接到的成对图片，即将判别器对应的输出置为0。

步骤4.3：生成器的损失函数应该实现生成器应该使得判别器允许通过所有从生成器输出的真实化人像图片，从而实现生成器的愚弄操作；生成器生成的图像应当不但保留输入图像的特性，还要保证生成的图像清晰可见。

步骤4.4：基于以上所述来构建条件生成对抗网络整体损失函数，并对条件生成对抗网络进行训练来最小化损失函数，并在训练过程基于损失函数不断优化生成器和判别器。

上述损失函数设计为:

其中

L_cGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁]

损失函数公式说明：所述公式中，G^*是生成器的优化目标，arg是满足条件的自变量的值，G是生成器，其中，生成器包括G1，G2。D是判别器，其中，判别器包括：D1，D2，D3，D4，x是动漫人像图片，y是与动漫人像图片相配对的真实人像图片，z表示随机噪声，λ为可设定参数；E[*]是期望函数，||*||₁是1-范数。函数中的min表示生成器的目标是希望该函数的值越越小越好，函数中的max表示判别器的目标是希望该函数的值越越大越好。

L_cGAN(G,D)是该条件生成对抗网络的损失函数；L_L1(G)是损失函数，用来约束生成的真实化人像图片G(x,z)和真实化人像图片y之间的差异。D(x,y)是判别器判别成对的动漫人像图片和真实人像图片是一对真实图像的概率；G(x,z)表示从生成器生成的真实化人像图片；D(x,G(x,z))是判别器判别成对的动漫人像图片和生成器生成的真实化人像图片不是一对真实图像的概率。

由于本发明重点训练生成器G即动漫人像真实化转换器故令λ＝4。当L_cGAN(G,D)训练越好时，判别器判别的难度就会越大，D(x,y)和D(x,G(x,z))就会越接近于1，这时L_cGAN(G,D)的值就会越小；L_L1(G)用来判别生成器生成的真实化人脸图像和训练样本的真实人脸图像之间的差距，当生成器生成的图片和训练样本的图片越接近，两种图片之间的纹理颜色之类的差距也会越小，这时L_L1(G)的值也会越小。

当损失函数G^*最小时，训练完成，训练完成后的生成器就是可以实现动漫人像图片真实化的转换器。训练条件生成对抗网络模型来最小化损失函数，生成器和判别器在训练过程种进行不断的调整优化。当损失函数达到最小，生成器可以实现输入一张动漫人像图片转换成一张真实人像图片。

步骤5：对条件生成对抗网络进行训练，获得训练好的条件生成对抗网络。

动漫人像真实化的整体流程如图1所示，数据集中的图像经过裁剪选择一部分作为训练样本，分别输入到生成器和判别器中。将训练样本中的动漫人像图片输入生成器G生成真实化人像图片，与此同时将训练样本中的动漫人像图片和对应生成的真实化人像图片成对输入判别器D输出判别结果处于0和1之间；再把训练样本中的成对的动漫人像图片和真实化人像图片输入判别器D输出判别结果处于0和1之间，当判别器判别训练样本中的动漫人像图片和对应生成的真实化人像图片越接近于1时表明生成器G效果越好。

当生成对抗网络模型的生成对抗损失满足预设收敛条件时，可以采用生成器G使得动漫人像图片转化对的真实化人像图片。

步骤6：训练好的条件生成对抗网络输入动漫人像图片的测试集，生成真实化人像图片，实现动漫人像真实化的效果。实验效果如图8所示。

第二种实施例一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如第一种实施例中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法。

第三种实施例一种计算机设备，包括：

存储器，用于存储指令。

处理器，用于执行所述指令，使得所述计算机设备执行如第一种实施例中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法的操作。

第四种实施例：

本发明通过深度学习模型对动漫头像进行真实化处理，不但可以加快图像的处理速度，还可以有针对性的对转换的图片出现的不足进行优化。因此，提出基于生成对抗网络的模型来进行动漫人脸真实化处理。

生成对抗网络(GAN)作为被广泛使用的深度生成模型之一，已经在很多任务上展现出惊人的效果，特别是在图像和视频处理任务上,这得益于GAN不同寻常的结构化学习能力。通常来说，一个生成对抗网络包含两个网络：一个名为生成器的生成网络G和一个名为判别器的判别网络D。它通过对结构化数据的分布进行隐式建模，进而来模拟真实数据的分布情况。生成对抗网络的基本思想源自博弈论，通过进行一个极大极小博弈游戏，来达到纳什均衡。

条件生成对抗网络在原始生成对抗网络的基础上对其结构的改善，将需要转换的图像作为输入，输入到生成器，再将生成器得到的假图片与原始真图输入到判别器让其判断真假，如此循环反复训练直到判别器判别不出来真假。最后将需要转换的动漫人像图片输入训练成熟的生成器中得到真实的动漫人像图片。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：包括如下步骤：

获取若干对成对的动漫人像图片和真实人像图片作为训练样本；

将训练样本输入条件生成对抗网络进行训练，直到损失函数最小时，获得训练好的条件生成对抗网络；

2.根据权利要求1所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述获取若干对成对的动漫人像图片和真实人像图片作为训练样本，包括：

从人像数据集网络上爬取一定数量的成对的动漫人像图片和与之相对应的真实人像图片作为数据集；

在成对的数据集中选取风格一致或接近的动漫人像图片和真实人像图片；

利用爬虫技术，从数据集中爬取成对的图片N张作为训练数据集；

使用Fisherfaces人脸检测算法对训练数据集中的图片进行识别；

获取图片中人脸，并进行统一尺寸大小的裁剪；

将裁剪后的成对的图片作为训练样本。

3.根据权利要求1所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述条件生成对抗网络，包括：整体生成器G，整体判别器D；

所述整体生成器G包括：第一生成器G1，第二生成器G2；所述第一生成器G1，第二生成器G2均由编码器、转换器和解码器组成；其中编码器包括卷积层；转换器包括残差网络；解码器包括反卷积层；

所述整体判别器D包括：第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4；所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4分别在四个不同尺度上进行判别，所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4的输出经过多次卷积后得到判别结果。

4.根据权利要求3所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4分别在四个不同尺度上进行判别，判别的四个尺度为：1024*1024，512*512，256*256，128*128。

5.根据权利要求1所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述损失函数计算公式如下：

其中：

L_cGAN(G,D)＝E_x,y[logD(x,y)]+E_x,z[log(1-D(x,G(x,z)))]

L_L1(G)＝E_x,y,z[||y-G(x,z)||₁]

6.根据权利要求5所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述λ＝4。

7.根据权利要求5所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法，其特征在于：所述将训练样本输入条件生成对抗网络进行训练，直到损失函数最小时，获得训练好的条件生成对抗网络，包括：

将训练样本中的动漫人像图片输入第二生成器G2，第二生成器G2的卷积层进行2倍下采样后的信息输入到第一生成器G1，第一生成器G1输出的图片特征信息；

将第二生成器G2的卷积层进行2倍下采样后的信息与第一生成器G1输出的图片特征信息进行特征融合，将特征融合输入到第二生成器G2的残差网络、反卷积层，输出生成的真实化人像图片；

将成对的动漫人像图片与生成的真实化人像图片，成对的动漫人像图片与真实化人像图片分别变换为四个不同尺度，并输入第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4，根据整体判别器D的输出，计算第一损失函数L_cGAN(G,D)；

将生成的真实化人像图片与真实化人像图片分别变换为四个不同尺度，并输入第一判别器D1，第二判别器D2，第三判别器D3，第四判别器D4，根据整体判别器D的输出，计算第二损失函数L_L1(G)；

8.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，该计算机程序被处理器执行时，实现如权利要求1-7中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法。

9.一种计算机设备，其特征在于：包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述计算机设备执行如权利要求1-7中任一所述的一种基于条件生成对抗网络的动漫人像真人化的实现方法的操作。