CN112837210B

CN112837210B - 一种基于特征图分块的多形变风格人脸漫画自动生成方法

Info

Publication number: CN112837210B
Application number: CN202110117893.8A
Authority: CN
Inventors: 霍静; 徐洁; 徐园园; 李文斌; 高阳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-09-22
Anticipated expiration: 2041-01-28
Also published as: CN112837210A

Abstract

本发明公开一种基于特征图分块的多形变风格人脸漫画自动生成方法，使用独立的编码器对照片图像和漫画图像的内容信息和风格信息进行编码，形成图像内容编码的隐变量空间，将照片的纹理风格转换为漫画域的风格；将内容编码进行分块处理，对每一块内容编码进行几何变换，再将每一块按照原来的顺序拼接在一起，作为形变后的内容编码与漫画风格编码进行融合；判别器中引入人脸属性识别模块来辅助人脸漫画生成，来提高判别器的监督能力，并将人脸属性划分为全局属性和局部属性。本发明通过调整几何变换参数使生成的漫画具备各种各样的夸张效果；通过人脸属性识别模块，进一步规范人脸结构，从而使模型产生的形变更加合理，生成的人脸漫画图像更加逼真。

Description

一种基于特征图分块的多形变风格人脸漫画自动生成方法

技术领域

本发明属于计算机应用领域，具体涉及一种基于特征图分块的多形变风格人脸漫画自动生成方法。

背景技术

漫画极具视觉艺术性，是一种人们喜闻乐见的艺术表现形式。人脸漫画是漫画的一个具有重要意义的分支，它不仅需要艺术风格的重新渲染，而且注重几何夸张以凸显人物异于常人的特征。它通过夸张、变形等手法突出人物外貌特征和性格特点，同时能够加强人物的亲近感。因此，人脸漫画被广泛应用于社交媒体和日常生活中。

传统的人脸漫画多为专业的漫画家所创作，而它的创作成本比较高，创作周期也比较长。随着社交网络的发展，人脸漫画的使用场景和受众越来越广，自动化人脸漫画创作的娱乐价值和商业价值也不断扩大。人脸漫画的自动生成任务包含两个关键部分：一是纹理风格转变，将艺术风格从给定的参考漫画转移到肖像照片上，使照片在外观造型上呈现与漫画相似的表现风格；二是几何夸张，在保持面部成分的相对几何关系的前提下，强调人物区别于其他人物的主体特征。并且，人脸漫画呈现出丰富灵活的多样性，这一方面表现在漫画本身有素描、油画等多种刻画方式，另一方面表现在漫画家通常使用不同的夸张手法和夸张方式表达不同的情感。这也就意味着，人脸漫画自动生成技术的关注重点主要在于生成的漫画是否生动逼真，以及在纹理风格、几何夸张两个层面都具有多样性。

传统的人脸漫画自动生成方法主要分为基于变形系统的方法、基于规则的方法和基于样本的方法三类。其中，基于变形系统的方法如Akleman提出的将样条(simplice)为变形原语的交互式二维变形技术等，允许用户交互地操作图像；基于特定规则的方法通过人为预设的规则对原始人脸照片进行调整，例如EDFM认为漫画夸张的方向就是扩大特定人物肖像与统计得到的平均人脸之间的差异；基于样本的方法以艺术家的手绘作品为基础，通过分析照片-漫画对之间的相关性来学习变形规则，通过变换原型之间的线性组合达到特征夸张的目的。不难发现，这类方法共同的缺点是，它们过分关注照片和生成漫画间几何上的差异，虽然在形变方法上不断更新，但是大多采用低级图像转换来生成新的图像，虽然它们可以正确地变形某些几何特征，但是基本上特定于素描、铅笔画等简单的纹理风格，因此生成的漫画往往风格单一，缺少丰富的颜色层次和细节。近年来，随着深度学习在计算机视觉领域的广泛应用，对抗生成网络在图像生成模型上取得了很大的进展。与此同时，图像跨域转换模型也不断成熟。比如CycleGAN，MUNIT等，能够将人脸照片转换为漫画的风格。虽然这类方法在纹理层面有很好的表现，但是它们很难直接解决需要很大程度形变的漫画生成问题。基于GAN的训练框架下，WarpGAN使用控制点偏移来控制几何形变的程度和方向，它对于漫画的几何夸张能力相对于其他方法有显著的提升。但是由于WarpGAN的控制点是全局的，并且对于特定的照片，控制点偏移是固定的，所以它仅能生成固定形变风格的漫画，无法满足人们对多种形变样式的要求。因此，这种模型无法捕获真实数据中的丰富形变样式，从而导致其生成的漫画效果不够真实、丰富。

一般来说，人脸漫画自动生成存在如下难点：(1)根据人脸照片生成一张人脸漫画，不仅要改变图像的纹理风格，还要对图像进行一定程度上的夸张变形，并且，这种变形需要突出人物自身特点或者漫画家的特定风格，形变之后得到的漫画图像要逼真自然，保持原照片中人物的身份信息。(2)生成的人脸漫画不仅要具备纹理风格上的多样性，还要具备几何夸张上的任意性，要能在任意位置上对人脸形状进行任意程度的夸张变形。(3)当对人脸图像的几何扭曲程度过小时，人脸形状没有明显变化，很难体现漫画夸张的艺术特点；当对人脸形状进行比较大的几何扭曲时，容易破坏人脸的固有结构，且很容易造成五官缺失或五官错位。因此，在较大的几何形变程度内，保证生成漫画的质量是非常困难的。

发明内容

发明目的：本发明针对人脸漫画自动生成这一任务提出了一种基于特征图分块的多形变风格人脸漫画自动生成方法。

技术方案：本发明所述的一种基于特征图分块的多形变风格人脸漫画自动生成方法，包括以下步骤：

(1)将预先选取的人脸照片、漫画图像数据集划分为训练集和测试集；

(2)将人脸照片和漫画图像分别输入到内容编码器和风格编码器中，从而分别得到照片和漫画图像的内容编码和风格编码；

(3)照片和漫画图像重建：将照片和漫画图像的内容编码和风格编码分别输入到解码器中，重建出照片和漫画图像；

(4)内容特征分块：将内容特征图均分成N块子特征图，在子特征图上分别进行几何夸张；

(5)控制点及偏移量预测：对于每块子特征图，用多层感知器预测初始偏差点和形变之后的控制点偏移，初始控制点由平均初始点和初始偏差点相加得到，目标控制点由初始控制点和控制点偏移相加得到；

(6)子特征图Warping操作：根据每个子特征图上的初始控制点和目标控制点，通过薄板样条插值计算该子特征图每个像素位置上的偏移量，并根据双线性插值得到warping后的子特征图；

(7)子特征图拼接：按照特征图划分的顺序，将warping之后的子特征图拼接在一起，在拼接之前，为每个子特征图上的偏移场添加不同的超参数来控制不同区域的形变程度；

(8)纹理风格转换：将几何形变之后的内容编码与随机采样的风格编码输入到解码器中，解码器将风格编码信息融合到内容特征图中，使生成的图像带有漫画的色彩风格；

(9)将步骤(1)获取的人脸照片、漫画图像和经步骤(8)生成的漫画图像都输入到三分类判别器D中，通过优化判别器损失函数，提高块判别器的分类性能，使生成的图像更趋向于漫画风格；

(10)把判别器训练成3M级分类器，通过优化损失函数，保证模型能产生突出人物面部特征、保持人物身份一致性的合理形变；

(11)在判别器中加入了人脸属性识别的模块，引导生成器对人脸五官的正确生成，使生成的漫画需要与原本的照片保持相同的人脸属性；

(12)基于训练集上采集的人脸照片和漫画图像，训练人脸漫画生成深度网络模型，待模型收敛后保存模型参数；

(13)用训练好的深度网络模型在测试集上进行从照片到漫画的转换，通过采样不同的色彩风格编码和形变程度超参数向量，生成具有不同纹理风格和形变样式的漫画。

进一步地，步骤(4)所述的N的取值范围为4≤N≤16。

进一步地，所述步骤(9)实现过程如下：

将三种类型的图像都输入到三分类判别器D中，通过优化如下损失函数，提高块判别器的分类性能，迫使生成器所生成更具欺骗性的漫画图像：

其中，D₁、D₂、D₃分别表示漫画、照片、生成漫画图像这三种类别的逻辑值，作为输入样本被判别为三种类别的概率，G表示生成器，S表示控制风格的超参数向量，C表示控制几何形变的超参数向量，x_p、x_c分别表示原始照片和真实漫画。

进一步地，所述步骤(10)实现过程如下：

将身份保持与特定的夸张形式相结合，把判别器训练成3M级分类器，通过优化如下损失函数，保证模型能产生突出人物面部特征、保持人物身份一致性的合理形变：

其中，D(y；x)表示3M判别器的输入图像为x时，它判别图像x为类别y的概率，M表示训练集中的人物身份的数量，第一、第二和第三M类分别对应于真实漫画、真实照片和生成图像的M中不同身份，y_p，y_c∈{1，2，3…M}分别表示照片和漫画的身份标签。

进一步地，所述步骤(11)实现过程如下：

为训练集中的每张图片添加56个属性标注，并基于属性之间的互斥关系对属性进行分组，基于人脸属性识别模块对生成的图像进行属性识别，根据属性标注，对预测的属性分类使用交叉熵损失进行误差估计，通过最小化这个误差提升生成的人脸漫画的质量，保证生成的漫画符合人脸生物特征的要求，避免大幅度几何形变对人脸结构的严重破坏。

有益效果：与现有技术相比，本发明的有益效果：1、在图像的内容特征层上进行几何夸张，达到了与在图像层进行几何夸张相比更好的漫画效果；2、将内容特征分块，通过调整几何变换参数使生成的漫画具备各种各样的夸张效果；3、通过在判别器上添加人脸属性识别模块，进一步规范人脸结构，从而使模型产生的形变更加合理，生成的人脸漫画图像更加逼真。

附图说明

图1为本发明流程图；

图2为本发明多形变人脸漫画自动生成模型结构示意图；

图3为本发明中几何形变网络结构示意图；

图4为本发明生成人脸漫画示例图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于特征图分块的多形变风格人脸漫画自动生成方法，构建了多形变人脸漫画生成深度网络模型，如图2所示，模型使用了生成对抗网络的结构。生成器中包含了纹理风格渲染模块和几何形变模块。其中，纹理风格渲染模块是典型的编码解码器结构，通过内容编码器和风格编码器分别得到内容特征图和风格编码，通过联合解码器将来自漫画域的风格编码和经过几何形变模块处理后的内容特征图重构得到漫画图像；几何形变模块对内容特征图进行特征分块，通过预测控制点和偏差对内容特征图进行合理形变。判别器中包含了人脸属性识别模块，通过人脸属性识别对几何形变模块的效果进行约束。

纹理风格渲染模块是对输入照片进行纹理风格渲染使生成的图像具有漫画特有的笔触风格。本发明中的人脸漫画风格转换框架基于MUNIT的基础架构，它能在学习目标风格的基础上，尽可能保留人脸形状和五官特征。

纹理风格渲染模块整体上是一个图像生成器，采用编码解码器结构，先将输入图像经过下采样得到高维特征向量，以尽量保留图像原始特征，再通过上采样将高维特征向量解码并输出图像，使输出图像具有目的域的漫画风格，并利用图像重构来解决图像不成对匹配的问题。为了将原始照片中包含的内容信息和风格信息解耦，并且能够得到多种风格的输出图像，把编码器进一步划分为内容编码器和风格编码器，这里的内容编码空间是照片域和漫画域共享的，而风格编码是服从高斯分布的8维向量，是特定于域的。在编码解码器中，通过残差网络同时保留深层特征空间的全局信息和浅层特征空间的局部细节信息，减少了生成图像的细节丢失。在联合解码器中，使用自适应实例正则化实现了图像的风格转换。联合解码器以几何扭曲之后的内容编码以及随机采样的漫画风格编码作为输入，得到的输出即为该输入照片对应的被漫画风格渲染后的图像。

几何夸张形变模块能够实现任意的几何夸张，这种任意性既包括形变程度的随机性，也包括局部形变位置的随机性。

不同于以往在图像上进行几何夸张的方法，本发明的几何形变网络在特征层上进行夸张。由于在内容特征图上进行几何夸张可以避免图像风格的影响，并且内容特征图包含了原照片丰富的几何形状信息，所以模型能够很好地学习从照片到人脸漫画在几何形状上的非线性映射。几何形变的基本原理是根据初始控制点和目标控制点集合之间的映射关系，对图像进行扭曲变换，为了达到多样化的几何夸张效果，本发明在几何形变之前首先将特征图分块，将特征图均分为规则的四块，对每个子特征块分别进行形变扭曲，使得不同的区域有不同的平均控制点和形变对应关系，形变完成后再把子特征图按照原有的顺序拼接在一起，从而增强了模型几何夸张的能力，有利于生成多种几何夸张样式的人脸漫画。将内容特征图进行分块的详细结构如图3所示：

当几何夸张的程度过大时，有些生成的人脸漫画会存在五官错位或者五官缺失问题。本发明为了对生成器产生的几何形变结果加以约束，对判别器和损失函数加以设计。

为了防止编码器和解码器在图像纹理风格渲染时丢失语义信息，使用图像重建损失对生成器进行约束。给定图像的内容编码和风格编码，通过解码器重建照片x_p和漫画x_c，通过如下损失函数规范内容编码器E_c、风格编码器E_s以及联合解码器R，保证重建后的图像与原图像保持一致：

为了使生成的图像更趋向于漫画风格，使用块判别器对照片、漫画、生成图像进行三级分类。将三种类型的图像都输入到三分类判别器D中，通过优化如下损失函数，一方面不断提高块判别器的分类性能，另一方面迫使生成器生成更具欺骗性的漫画图像：

为了在形变模块中捕捉不同人物的显著特征，并使得生成漫画与原照片中的人脸身份保持一致，将身份保持与特定的夸张形式相结合，把判别器训练成3M级分类器，通过优化如下损失函数，保证模型能产生突出人物面部特征、保持人物身份一致性的合理形变。

为了在形变程度较大的情况下依然保持人脸漫画的生成质量，在判别器中加入了人脸属性识别的模块，来引导生成器对人脸五官的正确生成，避免因过度几何夸张形变产生五官错位或五官缺失的问题，辅助生成器生成符合正常人脸属性的漫画。为训练集中的每张图片都添加了56个属性标注，并基于属性之间的互斥关系对属性进行分组，基于人脸属性识别网络对生成的图像进行属性识别，根据属性标注，对预测的属性分类使用交叉熵损失进行误差估计，通过最小化这个误差提升生成的人脸漫画的质量，保证生成的漫画符合人脸生物特征的要求，避免大幅度几何形变对人脸结构的严重破坏。

如图1所示，本发明提供了一种基于特征图分块的任意形变人脸漫画自动生成方法，具体包括以下步骤：

(1)将预先选取的人脸照片、漫画图像进行预处理，并划分为训练集和测试集。

(2)将人脸照片和漫画图像分别输入到内容编码器和风格编码器中，从而分别得到照片和漫画图像的内容编码和风格编码。

(3)照片和漫画图像重建：将照片和漫画图像的内容编码和风格编码分别输入到解码器中，重建出照片和漫画图像。

(4)内容特征分块：将内容特征图均分成N块子特征图，在子特征图上分别进行几何夸张。N的取值为4至16。

(5)控制点及偏移量预测：对于每块子特征图，用多层感知器预测初始偏差点和形变之后的控制点偏移，初始控制点由平均初始点和初始偏差点相加得到，目标控制点由初始控制点和控制点偏移相加得到。

(6)子特征图Warping操作：根据每个子特征图上的初始控制点和目标控制点，通过薄板样条插值计算该子特征图每个像素位置上的偏移量，并根据双线性插值得到warping后的子特征图。

(7)子特征图拼接：按照特征图划分的顺序，将warping之后的子特征图拼接在一起，在拼接之前，为每个子特征图上的偏移场添加不同的超参数来控制不同区域的形变程度。

(8)纹理风格转换：将几何形变之后的内容编码与随机采样的风格编码输入到解码器中，解码器将风格编码信息融合到内容特征图中，使生成的图像带有漫画的色彩风格。

(9)将步骤(1)获取的人脸照片、漫画图像和经步骤(8)生成的漫画图像都输入到三分类判别器D中，通过优化判别器损失函数，提高块判别器的分类性能，使生成的图像更趋向于漫画风格。

(10)把判别器训练成3M级分类器，通过优化损失函数，保证模型能产生突出人物面部特征、保持人物身份一致性的合理形变。

(11)在判别器中加入了人脸属性识别的模块，引导生成器对人脸五官的正确生成，使生成的漫画需要与原本的照片保持相同的人脸属性。

(12)基于训练集上采集的人脸照片和漫画图像，训练人脸漫画生成深度网络模型，待模型收敛后保存模型参数。

本实施方式中，在训练阶段，根据图像中预先标记的人脸关键点对所有图像进行裁剪和对齐，将图像大小调整为256*256像素；将照片和漫画分别输入到内容编码器和风格编码器中，得到尺寸为64*64的内容特征图和8维的风格编码向量；将图像的内容特征图分为均等的四块，预测每个子特征图的初始控制点和控制点偏差，通过warping操作对子特征图进行几何形变，并结合形变程度超参数向量，按照原本的顺序将子特征图拼接在一起，得到形变后的内容特征图；将形变后的内容特征图输入到解码器中，并随机采样漫画域的风格编码，就可以将照片渲染为带有任意漫画纹理风格的人脸漫画图像；对于模型生成的人脸漫画，通过图像重构损失、区块对抗损失、身份保持损失以及人脸属性识别监督，保证生成的人脸漫画具备漫画域的色彩纹理风格、能够与原始照片保持相同的身份信息、产生的形变不会破坏人脸的基本结构，并且能够满足漫画风格和几何形变两方面的多样性。

在测试阶段，首先对输入照片进行裁剪对齐，然后将预处理后的照片输入到训练好的模型中，模型自动完成对内容特征图的分块及变形处理，随机采样风格编码，模型就能输出生成的人脸漫画图像，如图4所示。

Claims

1.一种基于特征图分块的多形变风格人脸漫画自动生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于特征图分块的多形变风格人脸漫画自动生成方法，其特征在于，步骤(4)所述的N的取值范围为4≤N≤16。

3.根据权利要求1所述的基于特征图分块的多形变风格人脸漫画自动生成方法，其特征在于，所述步骤(9)实现过程如下：

4.根据权利要求3所述的基于特征图分块的多形变风格人脸漫画自动生成方法，其特征在于，所述步骤(10)实现过程如下：

其中，D(y；x)表示3M判别器的输入图像为x时，它判别图像x为类别y的概率，M表示训练集中的人物身份的数量，第一、第二和第三M类分别对应于真实漫画、真实照片和生成图像的M中不同身份，y_p,y_c∈{1,2,3…M}分别表示照片和漫画的身份标签。

5.根据权利要求1所述的基于特征图分块的多形变风格人脸漫画自动生成方法，其特征在于，所述步骤(11)实现过程如下：