CN112258387A

CN112258387A - 一种基于人脸照片生成漫画人像的图像转换系统及方法

Info

Publication number: CN112258387A
Application number: CN202011194956.1A
Authority: CN
Inventors: 牛建伟; 苏昊; 李青锋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-22

Abstract

本发明提供了一种基于人脸照片生成漫画人像的图像转换系统及方法，涉及深度学习、计算机视觉和图像处理等技术。本系统包括面部区域截取模块、几何特征获取模块、外观转化模块、几何转化模块和合成模块。本方法对从人脸照片中获取的五官图像利用相应的图像到图像转换网络转换为漫画风格的外观特征；对获取的五官关键点坐标集合利用坐标到坐标的转换网络获得漫画风格的几何位置特征；最后组合输出漫画人像。其中，本发明还提供了一个相似度保留模块和结构平滑损失函数。本发明实现了模拟人类画师的漫画人像转换，保留了漫画家对于不同面部区域的布局手法、面部轮廓几何上的夸张形变，输出结果干扰像素更少、更加整洁、视觉效果更高。

Description

一种基于人脸照片生成漫画人像的图像转换系统及方法

技术领域

本发明涉及深度学习技术、计算机视觉技术和图像处理技术，尤其涉及一种人脸到漫画人像的生成技术。

背景技术

本发明所涉及的漫画(manga)特指日本式黑白漫画，其通常使用黑白色彩和几何夸张来描述人类的外观，姿势和动作。将面部照片自动转换为漫画是一项图像到图像的转换任务，其目的为将输入的内容图像转化为目标艺术化图像。近年来，基于深度学习的图像到图像的翻译取得了显著进展，最近的研究提出了一系列系统的方法。例如，神经风格迁移(neural style transfer)方法；基于生成式对抗神经网络GAN(Generative AdversarialNets)的方法。

然而，基于现有的技术，面向人脸到漫画形象的生成方法通常针对整张图像进行转换，其难以捕捉漫画对真实人物五官和脸型间不同的描绘手法、线条结构和几何夸张，其生成效果与人类画师的作品相差甚远，难以生成逼真的黑白漫画形象。

发明内容

本发明的目的是提供一种模拟人类画师的，基于不同面部区域外观特征和几何分布，根据人脸照片生成漫画人像的自动化方法和系统，称作MangaGAN，以解决现有技术由人脸生成漫画的各种性能的综合效果较差的问题。

本发明提供了一种基于人脸照片生成漫画人像的图像转换系统，在计算机上实现的功能模块包括：面部区域截取模块、几何特征获取模块、外观转化模块、几何转化模块和合成模块。面部区域截取模块从输入的人脸照片裁剪得到不同面部区域的图像，输入外观转化模块。几何特征获取模块从输入的人脸照片中识别获得不同面部区域的关键点坐标集合，输出给几何转化模块。外观转化模块中存储有预先训练好的针对不同面部区域图像的图像到图像的转换网络，对输入的不同面部区域利用相应的转换网络生成漫画风格的外观特征图像，输出给合成模块。几何转化模块中存储有预先训练好的针对不同面部区域、面部轮廓的关键点坐标集合的坐标到坐标的转换网络，根据所输入的关键点坐标集合生成漫画风格的几何位置坐标，输出给合成模块。合成模块将输入的外观特征图像和几何位置坐标组合，输出漫画人像。

相应的，本发明提供了一种基于人脸照片生成漫画人像的图像转换方法，包括：

首先，从输入的正面人物照片中提取人脸上不同的面部区域，获取不同面部区域的关键点坐标集合，获取面部轮廓的关键点坐标集合；

其次，将提取的不同面部区域图像，通过对应的预先训练好的图像到图像转换网络，生成漫画风格的外观特征图像；预先设置的图像到图像转换方法包括但不限于风格迁移方法、对抗生成神经网络方法、图像处理方法；如对提取的左眼、右眼、鼻子、嘴巴和发型的面部区域，分别生成漫画风格左眼、漫画风格右眼、漫画风格鼻子、漫画风格嘴巴、漫画风格发型图像；所涉及的漫画风格可以是任意漫画家的作品风格。

其中，对右眼区域图像和左眼区域图像、嘴巴区域图像使用基于CycleGAN的转换网络N^eye、N^mouth进行漫画风格转换；在转换网络N^eye和N^mouth中增加相似度保留模块，对输入的图像提取不同空间大小和分辨率的特征图；在训练转换网络N^eye和N^mouth时，增加结构平滑损失。

然后，将不同面部区域、面部轮廓的关键点坐标集合，通过坐标到坐标的转换网络，生成对应的漫画风格的几何位置坐标；其中，坐标到坐标的转换网络包括三个子网络：脸型转换子网络N_shp、五官位置转换子网络N_loc和五官大小子网络N_siz；三个子网络均使用CycleGAN中的循环一致性结构实现；CycleGAN是循环生成式对抗神经网络。

最后，将生成的漫画风格的外观特征图像和漫画风格的几何位置坐标组合在一起，输出最终的漫画人像。

相对于现有技术，本发明方法和系统的优点和积极效果在于：

(1)本发明是第一种基于GAN的未配对照片到漫画的自动转换方法和系统，通过不同面部区域的外观特征转换，模拟人类画师的绘制方法，可保留漫画家对于不同面部区域的特定绘制风格；同时，通过将不同面部区域的集合特征转换，保留漫画家对于不同面部区域的布局手法、面部轮廓几何上的夸张形变；因此，本发明既可以保留面部相似性又可以保留流行的漫画风格，从而制作出有吸引力的漫画面孔。

(2)本发明使用新的网络架构来模拟漫画艺术家的绘画过程，该网络架构通过设计的GAN模型生成夸张的脸部几何特征，并通过量身定制的多GAN架构可精细地转换每个面部区域；

(3)本发明在图像到图像转换网络的设计中，提出了相似度保留模块，以有效地改善保留面部相似度和漫画风格的性能。

(4)本发明在图像到图像转换网络的设计中，提出了结构平滑损失，以鼓励产生具有平滑笔触线和较少混乱像素的结果。

(5)本发明生成的漫画人像更加接近人类画师的手绘作品、更具有艺术吸引力；输出结果中，干扰像素更少、更加整洁、视觉效果更高。

附图说明

图1为本发明的基于人脸照片生成漫画人像的图像转换方法的整体流程图；

图2为本发明方法中外观转换网络ATN的功能实现示意图；

图3为本发明提供的相似度保留模块的(a)流程图和(b)网络结构示意图；

图4为本发明几何转换网络GTN的整体流程图；

图5为本发明合成模块的整体流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提供的一种基于人脸照片生成漫画人像的图像转换系统，在计算机上实现的功能模块包括：面部区域截取模块、几何特征获取模块、外观转化模块、几何转化模块和合成模块。面部区域截取模块从输入的人脸照片裁剪得到不同面部区域的图像，具体可参见下面步骤1。几何特征获取模块从输入的人脸照片中识别获得不同面部区域的关键点坐标集合，具体可参见下面步骤2的说明。外观转化模块中存储有预先训练好的针对不同面部区域图像的图像到图像的转换网络ATN，对不同面部区域输入相应的转换网络，获得对应的漫画风格的外观面部特征图像，具体可参见下面步骤3的说明。几何转化模块中存储有预先训练好的针对不同面部区域、面部轮廓的关键点坐标集合的坐标到坐标的转换网络GTN，根据所输入的关键点坐标集合生成漫画风格的几何位置坐标，输出给合成模块，具体可参见下面步骤4的说明。合成模块将输入的外观特征图像和几何位置坐标组合，输出漫画人像，具体实现可参见下面步骤5。

如图1所示，通过模拟漫画艺术家的绘画过程，本发明提供了一种基于人脸照片生成漫画人像的图像转换方法，下面分5个步骤详细叙述具体实施过程。

步骤1：如图1(a)所示，给定一张正面人物照片p，本发明需得到p中人脸不同面部区域的位置，并裁剪得到不同面部区域的图像，包括左眼p^leye、右眼p^reye、鼻子p^nose、嘴巴p^mouth和头发p^hair。其中，面部区域的确定方法不限，包括但不限于人脸检测、识别、分割技术。

步骤2：如图1(c)所示，本发明需得到人脸中不同面部区域的几何特征，其表示为不同面部区域的关键点坐标集合。本发明实施例获得的不同面部区域的关键点坐标集合包括左眼

右眼

鼻子

嘴巴

和脸型

其中，面部区域的关键点坐标的确定方法不限，包括但不限于人脸检测、识别、分割技术。

步骤3：如图1(b)和图2所示，将步骤1所获得的p^leye、p^reye、p^nose、p^mouth、p^hair，利用对应的图像到图像转换网络N^leye、N^reye、N^nose、N^mouth、N^hair，分别生成漫画风格的左眼m^leye、右眼m^reye、鼻子m^nose、嘴巴m^mouth、头发m^hair，其中N^leye、N^reye、N^nose、N^mouth、N^hair包括但不限于风格迁移、生成式对抗神经网络、图像处理技术。

本发明实施例中，N^leye和N^reye使用同一网络N^eye，N^eye和N^mouth主要使用CycleGAN的原理。因此，N^δ(δ∈{eye，mouth})的基础体系结构包括前向/向后的生成器

和对应的判别器

学习外观映射

学习反向外观映射

其中

和

是生成的伪样本；鉴别符

和

学会区分真实样本p^δ和m^δ，和假样本

和

在训练网络N^eye和N^mouth时，采用稳定的最小二乘损失lsgan作为对抗损失

并使用CycleGAN提出的循环一致性损失

CycleGAN是一种生成式对抗神经网络，实现技术可参考文献：Zhu J Y,Park T,Isola P,et al.Unpaired image-to-imagetranslation using cycle-consistent adversarial networks.Proceedings of theIEEE international conference on computer vision.2017：2223-2232。最小二乘损失lsgan可参考文献：Xudong Mao,Qing Li,Haoran Xie,Raymond YK Lau,Zhen Wang,andStephen Paul Smolley.Least squares generative adversarial networks.InProceedings of the IEEE International Conference on Computer Vision,pages2794–2802,2017。

如图2所示，本发明训练了编码器E^eye和E^mouth，以帮助GAN捕获眼睛、嘴巴区域的抽象对应关系。E^eye是一个遵循Pixel2Pixel(像素到像素)的条件GAN模型；E^mouth包括一个通用面部关键点探测器和一个预处理程序，该程序平滑地将嘴巴关键点连接为黑色的条线以指导漫画嘴巴的形状。其中，右眼图像水平翻转后与左眼外观类似，与左眼图像一起输入E^eye，输入网络N^eye，输出漫画后的左眼和右眼图像。Pixel2Pixel的条件GAN模型可参考文献：Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.Image-to-imagetranslation with conditional adversarial networks.IEEE Conference on ComputerVision and Pattern Recognition,pages 5967–5976.IEEE,2017。

如图2所示，将p^nose输入E^nose，E^nose为变分自动编码器，其将输入照片的鼻子区域编码为特征向量，然后将该向量作为种子生成默认的漫画鼻子，其还允许用户根据自己的喜好对其进行更改。对p^hair进行头发与背景分割，输入网络N^hair，获得漫画后的发型。N^hair主要使用ApdrawingGAN技术实现。变分自动编码器可参考文献：Diederik P Kingma and MaxWelling.Auto-encoding variational bayes.arXiv preprint arXiv：1312.6114,2013。ApdrawingGAN技术可参考文献：Ran Yi,Yong-Jin Liu,Yu-Kun Lai,PaulL.Rosin.ApdrawingGAN：Generating artistic portrait drawings from face photoswith hierarchical GANs.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,pages 10743-10752,2019。具体实现本发明此处不在赘述。

本发明对于转换网络N^eye和N^mouth，设计了结构平滑损失L_SS，旨在鼓励网络产生具有平滑笔触线结构的漫画，定义为：

其中，L_SS是基于均值为μ，标准差为σ的高斯模型，，本发明实施例中μ＝255/2；N表示当前要处理的图像中的像素总数，如，当前要处理的图像是p^leye，则N为p^leye中的像素总数；

或

是

或

的第j个或第k个像素的灰度值。其原理为，由于漫画主要由黑白笔划线组成，因此产生不必要的灰色区域会分散漫画的效果并使该结果混乱。因此，当像素的灰度值更接近黑色(0)或白色(255)时，本发明将其损失减小，以平滑黑色描边的渐变边缘并产生清晰的结果。

本发明在对于N^eye和N^mouth中，还提出了一种相似度保留模块(SimilarityPreserving Module,简称SP模块)，用来保证输入和输出的相似性，如图3所示。SP模块的主要思想是将两个图像之间的相似性保持在较低的分辨率下，以便在将其上采样至较高的分辨率时，可以为它们提供相似的空间分布和不同的像素细节。如图3(a)所示，本发明在CycleGAN的正向映射和反向映射上都添加了有一个SP模块。SP模块利用本发明设计的预训练网络φ来提取不同潜在空间和分辨率的特征图。φ的体系结构如图3(b)所示，它仅使用很少的卷积层，因为本发明认为编码特征的对应关系相对清晰。对于前向映射

输入p^δ和

到SP Module，并通过最小化损失函数L_SP，定义为：

其中，参数λ_i和λ_I控制每个目标的相对重要性。

和

用于分别保持像素在像素级和特征级的相似性。参数

和

定义为：

其中，f_i ^φ(x)是将x作为输入时从网络φ的i层提取的特征图。对于N^δ(δ∈{leye，reye})，使用的总体损失

为：

其中，系数α₁到α₄用于平衡相乘的目标。

为对抗损失函数，

为循环一致性损失函数，L_SP为相似度保留模块的最小化损失函数。m^δ、p^δ分别为输入正向映射和反向映射的真实样本；

分别为正向映射和反向映射的生成函数；

分别为正向映射和反向映射的判别函数。

如图3(b)所示，本发明实施例中所使用的SP模块包括5个卷积层(Conv layer)和5个池化层(Pooling layer)，5个卷积层顺序连接，在第一卷积层和第二卷积层后连接第一池化层，在第三、第四和第五卷积层后各连接一个池化层，在第五卷积层后的池化层后还连接一个池化层。第一、第二卷积层为k5n64s1的卷积层，k表示卷积核大小，n表示通道数，s表示步长；第三卷积层为k5n128s1的卷积层；第四卷积层为k5n256s1的卷积层；第五卷积层为k5n512s1的卷积层；通过不同池化层后获得一个不同大小和分辨率的特征图，如图中获得128×128、64×64、32×32、16×16、8×8等尺寸的特征图。

步骤4：如图1(d)和图4所示，根据步骤2中获得的

通过坐标到坐标的转换方法，生成漫画风格的对应几何位置坐标，如左眼

右眼

鼻子

嘴巴

和脸型

的几何位置坐标和漫画风格面部轮廓

的形状坐标。其中，坐标转换方法包括但不限于风格迁移、生成式对抗神经网络、图像处理技术。

本发明实施例中，如图4所示，几何转化模块的目标是将人脸照片的几何特征转换为漫画人像的几何特征。本发明为增加输出结果的多样性，将面部几何特征分为三个属性(脸型、五官的位置和五官的大小)，并分别使用N_shp、N_loc和N_siz三个子网络进行转换，其中脸型表示为面部轮廓的17个关键点坐标，五官位置表示为每个五官关键点的中心坐标，五官的大小表示为每个五官的宽度，即最左最右两个关键点的距离。图4中，L_P和L_M分别表示照片和漫画的所有几何特征，

ξ_shp(l_p)、ξ_loc(l_p)和ξ_siz(l_p)分别表示人脸照片的脸型、五官位置、五官大小的几何特征；ξ_shp(l_m)、ξ_loc(l_m)和ξ_siz(l_m)分别表示漫画人像的脸型、五官位置、五官大小的几何特征。本发明实施例中，N_shp、N_loc、N_siz均使用CycleGAN中提出的循环一致性结构实现，进行坐标转换。

步骤5，如图1(e)和图5所示，根据漫画风格的左眼m^leye、右眼m^reye、鼻子m^nose、嘴巴m^mouth、头发m^hair以及对应的集合位置坐标和漫画风格面部轮廓的形状坐标，将外观样式与几何样式相组合，最终得到生成的漫画人像M。

如图5所示，进行组合时，包括根据几何坐标来调整漫画风格外观特征图像的尺寸和位置，其中，面部曲线由17个关键点使用分段三次Hermite插值多项式(PCHIP)进行调整，最后输出漫画人像M。

Claims

1.一种基于人脸照片生成漫画人像的图像转换方法，其特征在于，包括如下步骤：

步骤1：从输入的正面人物照片中获取不同的面部区域，获取不同面部区域的关键点坐标集合，获取面部轮廓的关键点坐标集合；

步骤2：针对不同面部区域图像，预先训练相应的图像到图像的转换网络，将获得的不同面部区域输入对应的转换网络后，生成漫画风格的外观特征图像；

其中，对右眼区域图像和左眼区域图像使用转换网络N^eye进行漫画风格转换，对嘴巴区域图像使用转换网络N^mouth进行漫画风格转换；在转换网络N^eye和N^mouth中增加相似度保留模块，对输入的图像提取不同空间大小和分辨率的特征图；

步骤3：将不同面部区域、面部轮廓的关键点坐标集合，通过坐标到坐标的转换网络，生成对应的漫画风格的几何位置坐标；

其中，坐标到坐标的转换网络包括三个子网络：脸型转换子网络N_shp、五官位置转换子网络N_loc和五官大小子网络N_siz；三个子网络均使用CycleGAN中的循环一致性结构实现；CycleGAN是循环生成式对抗神经网络；

步骤4：将步骤2生成的漫画风格的外观特征图像和步骤3生成的漫画风格的几何位置坐标组合在一起，输出最终的漫画人像。

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，从正面人物照片中获取的不同面部区域包括左眼、右眼、鼻子、嘴巴和发型。

3.根据权利要求1所述的方法，其特征在于，所述的步骤2中，将获取的右眼区域图像水平翻转后，与左眼区域图像一起输入一个遵循Pixel2Pixel的条件GAN模型编码器，捕获眼睛区域的抽象对应关系，再使用基于CycleGAN的转换网络N^eye生成漫画风格的左眼图像和右眼图像；对获取的嘴巴区域图像，先使用一个编码器，探测嘴巴关键点并平滑地将嘴巴关键点连接为黑色的条线，再使用基于CycleGAN的转换网络N^mouth生成漫画风格的嘴巴；其中，Pixel2Pixel表示像素到像素。

4.根据权利要求1所述的方法，其特征在于，所述的步骤2中，在转换网络N^eye和N^mouth的正向映射和反向映射上都添加相似度保留模块；

对于前向映射

输入p^δ和

到相似度保留模块，并通过最小化损失函数L_SP；p^δ为真实样本；最小化损失函数L_SP如下：

其中，λ_i和λ_I是控制每个目标相对重要性的参数；

和

用于分别保持像素在像素级和特征级的相似性；

和

定义如下：

其中，f_i ^φ(x)是将图x作为输入时从网络φ的i层提取的特征图。

5.根据权利要求1或3所述的方法，其特征在于，所述的步骤2中，对转换网络N^eye和N^mouth进行训练时，采用最小二乘损失作为对抗损失，并使用CycleGAN的循环一致性损失，同时，还使用如下设计的结构平滑损失L_SS，使生成结果中黑白笔划线条结构更加平滑；

其中，L_SS是基于均值为μ，标准差为σ的高斯模型，N表示当前要转换的图像中的像素总数，

或

是

或

的第j个或第k个像素的灰度值，δ∈{eye，mouth}；N^δ(δ∈{eye，mouth})包括正向/反向的生成器

和对应的判别器

学习外观映射

学习反向外观映射

其中

和

是生成的伪样本；判别器

和

学会区分真实样本p^δ和m^δ，以及伪样本

和

6.根据权利要求5所述的方法，其特征在于，所述的步骤2中，转换网络N^eye和N^mouth进行训练时的总体损失为

其中，

为对抗损失函数，

为循环一致性损失函数，L_SP为相似度保留模块的最小化损失函数，

为结构平滑损失函数，α₁～α₄为设置的系数；m^δ、p^δ分别为输入正向映射和反向映射的真实样本；

分别为正向映射和反向映射的生成函数；

分别为正向映射和反向映射的判别函数。

7.一种基于人脸照片生成漫画人像的图像转换系统，其特征在于，在计算机上实现如下：

面部区域截取模块，用于从输入的人脸照片裁剪得到不同面部区域的图像，输入外观转化模块；

几何特征获取模块，用于对输入的人脸照片识别获得不同面部区域的关键点坐标集合以及面部轮廓的关键点坐标集合，输出给几何转化模块；

外观转化模块中存储有预先训练好的针对不同面部区域图像的图像到图像的转换网络，对输入的不同面部区域利用相应的转换网络生成漫画风格的外观特征图像，输出给合成模块；

几何转化模块中存储有预先训练好的针对不同面部区域、面部轮廓的关键点坐标集合的坐标到坐标的转换网络，根据所输入的关键点坐标集合生成漫画风格的几何位置坐标，输出给合成模块；

合成模块将输入的外观特征图像和几何位置坐标组合，输出漫画人像。

8.根据权利要求7所述的系统，其特征在于，所述的外观转化模块中，对右眼区域图像和左眼区域图像、嘴巴区域图像使用基于CycleGAN的转换网络进行漫画风格转换；在基于CycleGAN的转换网络中增加相似度保留模块，对输入图像提取不同空间大小和分辨率的特征图；在训练转换网络时，增加结构平滑损失L_SS；

或

是

或

和对应的判别器

学习外观映射

学习反向外观映射

其中

和

是生成的伪样本；判别器

和

学会区分真实样本p^δ和m^δ，以及伪样本

和