CN112767519A

CN112767519A - 结合风格迁移的可控表情生成方法

Info

Publication number: CN112767519A
Application number: CN202011618332.8A
Authority: CN
Inventors: 姬艳丽; 张�浩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-07
Anticipated expiration: 2040-12-30
Also published as: CN112767519B

Abstract

本发明公开了一种结合风格迁移的可控表情生成方法，获取真实人脸表情图像和动漫风格人脸表情图像，以及真实人脸表情图像的AU向量标签；首先随机选取真实人脸表情图像和动漫人脸表情图像训练风格迁移模块，然后使用已训练好的风格迁移模块生成的动漫风格人脸表情图像、该图像的AU向量标签和期望表情的AU向量，对由表情控制生成模块和判别器模块组成的可控表情生成对抗网络进行训练；将某真实人脸表情图像输入至风格迁移模块得到相同表情的动漫风格人脸表情图像，将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块，得到期望表情的动漫风格人脸表情图像。本发明可以在风格迁移的同时，对动漫风格人脸表情图像的表情类别进行控制。

Description

结合风格迁移的可控表情生成方法

技术领域

本发明属于图像表情控制技术领域，更为具体地讲，涉及一种结合风格迁移的可控表情生成方法。

背景技术

面部表情是人类传达情绪和意图的一种通用且重要的方式，因此通过AU向量控制源域风格人脸图像转换成目标风格人脸表情时的表情类别将为其他领域提供更加丰富的应用，如电影业、动漫制作、AR/VR、摄影技术和电子商务等。

随着深度学习在图像生成领域的研究不断深入，大量基于深度学习的风格迁移算法和表情控制算法被提出。目前实现表情类别可控的真实人脸表情图像到目标表情类别的动漫风格人脸表情图像生成过程需要经过多个步骤的处理，如跨风格图像生成模型，人脸表情编辑模型。

传统的可控表情生成方法是离散式的图像生成方式：先训练一个人脸表情编辑模型，实现对人脸表情的控制目的；然后使用跨风格图像生成模型将编辑后的人脸表情图像转换为动漫风格人脸表情图像。这种“模块式”的方法使得训练过程需要消耗大量的计算资源，封装性差，而且无法实现对生成表情的连续控制，生成的表情比较死板。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合风格迁移的可控表情生成方法，将风格迁移模块和表情控制生成模块结合，根据输入的真实人脸图像和AU向量，生成与输入AU向量表情类别一致的动漫风格人脸表情图像，实现对生成的动漫风格人脸表情图像的表情类别控制。

为了实现上述发明目的，本发明结合风格迁移的可控表情生成方法包括以下步骤：

S1：获取若干真实人脸表情图像和动漫风格人脸表情图像，对于每个真实人脸表情图像获取其对应的AU向量作为AU向量标签；

S2：构建和训练风格迁移模块，包括特征编码器1和风格迁移解码器，其中特征编码器1用于对真实人脸表情图像进行高维语义特征提取，风格迁移解码器用于对特征编码器1输出的特征进行解码得到动漫风格人脸表情图像并输出；

对步骤S1获取的真实人脸表情图像和动漫风格人脸表情图像进行随机配对作为训练样本，对风格迁移模块进行无监督训练；

S3：构建可控表情生成对抗网络，包括表情控制生成模块和判别器模块，其中：

表情控制生成模块包括特征编码器2、映射网络、自适应归一化层、表情控制解码器和掩码计算层；表情控制生成模块的输入为风格迁移模块所输出的动漫风格人脸表情图像以及期望表情的AU向量，生成与该AU向量表情类别一致的动漫风格人脸表情图像；其中：

特征编码器2用于提取动漫风格人脸表情图像的高维语义的人脸特征，输出至自适应归一化层；

映射网络用于对输入的AU向量进行解耦，将AU向量的长度调整至与特征编码器2输出的人脸特征通道数一致，将解耦后的AU向量输出至自适应归一化层；

自适应归一化层用于将特征编码器2输出的人脸特征和映射网络解耦后的AU向量结合，将得到的特征输出至表情控制解码器；

表情控制解码器用于对自适应归一化层输出的特征进行解码，输出注意力掩码图像A和颜色掩码图像C至掩码计算层；表情控制解码器包括上采样网络和两层卷积网络，其中上采样网络用于对输入的特征进行上采样，两层卷积网络分别对上采样网络得到的特征进行卷积后分别得到注意力掩码图像A和颜色掩码图像C输出至掩码计算层；

掩码计算层用于将表情控制解码器输出的注意力掩码图像A和颜色掩码图像C与输入的动漫风格人脸表情图像相结合，输出与给定AU向量一致的动漫风格人脸表情图像；掩码计算层采用如下公式计算，输出AU向量为y_g的动漫风格人脸表情图像

其中，

表示表情控制生成模块输入的动漫风格人脸表情图像；

判别器模块包括AU预测器和风格判别器，其中：

AU预测器的输入为动漫风格人脸表情图像，对该动漫风格人脸表情图像的AU向量进行预测，目的是能够准确预测出动漫风格人脸表情图像具有的AU向量；

风格判别器的输入为动漫风格人脸表情图像，输出介于0和1之间真/伪值，目的是对动漫风格是否逼真进行判别；

S4：记步骤S1中真实人脸表情图像为

其AU向量标签为y_o，将真实人脸表情图像

输入至步骤S2中训练好的风格迁移模块，生成AU向量为y_o的动漫风格人脸表情图像

将动漫风格人脸表情图像

AU向量标签y_o和预设的期望表情的AU向量y_g作为训练样本，对可控表情生成对抗网络进行训练；在训练过程中，对判别器模块和表情控制生成模块进行交替训练，具体方法为：

判别器模块训练时，固定住表情控制生成模块的网络权重参数；每次训练包含两组输入：第一组为动漫风格人脸表情图像

和对应的AU向量标签y_o，第二组为表情控制生成模块根据输入的动漫风格人脸表情图像

和AU向量y_g生成的动漫风格人脸表情图像

及AU向量y_g；输出为每组输入预测的AU向量和真/伪值；然后根据预设的损失函数L计算出损失值优化判别器模块网络参数。

表情控制生成模块训练时，固定住判别器模块的网络权重参数；每次训练包含两组输入：第一组输入为动漫风格人脸表情图像

和AU向量y_g，输出生成的动漫风格人脸表情图像

将生成的动漫风格人脸表情图像

和AU向量y_g输入到判别器模块中，预测真/伪值和AU向量；第二组输入为表情控制生成模块根据第一组输入而生成的AU向量为y_g的动漫风格人脸表情图像

及AU向量标签y_o，输出AU向量为y_o的动漫风格人脸表情图像

然后根据预设的损失函数L计算出损失值优化表情控制生成模块网络参数。

S5：对于某真实人脸表情图像，当需要生成期望表情的动漫风格人脸表情图像时，将该真实人脸图像输入至风格迁移模块得到动漫风格人脸表情图像，将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块，得到期望表情的动漫风格人脸表情图像。

本发明结合风格迁移的可控表情生成方法，获取真实人脸表情图像对应的动漫风格人脸表情图像，以及真实人脸表情图像的AU向量标签；首先随机选取真实人脸表情图像和动漫人脸表情图像训练风格迁移模块，然后使用已训练好的风格迁移模块生成的动漫风格人脸表情图像、该图像的AU向量标签和期望表情的AU向量，对由表情控制生成模块和判别器模块组成的可控表情生成对抗网络进行训练；对于某真实人脸表情图像，当需要生成期望表情的动漫风格人脸表情图像时，将该真实人脸图像输入至风格迁移模块得到相同表情的动漫风格人脸表情图像，将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块，得到期望表情的动漫风格人脸表情图像。

本发明可根据输入的AU向量，在风格迁移的同时，对生成的动漫风格人脸表情图像的表情类别进行控制，并且可以通过AU向量中AU单元的不同激活幅度值产生不同幅度的表情，实现表情的连续控制。如给定一幅输入的真实人脸愤怒表情图像，在给定微笑表情的AU向量后将生成动漫风格的微笑表情图像；逐渐改变AU向量对应的微笑表情的不同激活幅度值，将产生不同幅度的微笑表情。

附图说明

图1是本发明结合风格迁移的可控表情生成方法的具体实施方式流程图；

图2是本发明结合风格迁移的可控表情生成方法的整体网络框图；

图3是本实施例中基于CycleGAN网络的风格迁移模块网络结构图；

图4是本发明中表情控制生成模块的网络结构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明结合风格迁移的可控表情生成方法的具体实施方式流程图，如图1所示，本发明结合风格迁移的可控表情生成方法的具体步骤包括：

S101：获取训练样本：

获取若干真实人脸表情图像和动漫风格人脸表情图像，对于每个真实人脸表情图像获取其对应的AU(运动单元)向量作为AU向量标签。

FACS(Facial Action Coding System)是人脸国际标准组织定义的44种人脸运动单元(AU)，这些运动单元可以组合表示人脸表情所有可能的表情(包含皱眉，抿嘴等)。由于离散表情类别和连续的人脸肌肉运动幅度存在本质的联系，因此可使用离散的特定面部肌肉运动单元组合来控制不同类别的人脸表情图像生成，通过改变运动单元的运动幅值可控制生成表情的幅度。为了得到有AU向量标签的真实人脸表情图片，本实施例在FlickrFaces HQ(FFHQ)数据集中选取了17790张真实的人脸表情图像，经过裁剪后使用openface工具获取每张真实人脸表情图像的AU向量作为AU向量标签。每一个表情都可以使用一系列AU编码y_r＝(y₁,y₂,…,y_N)来表示，其中y_n为标准化后介于0到1之间的实数值，表示第n个面部肌肉运动单元的幅度，n＝1,2,…,N，本实施例中N＝17。

为了获得相应的动漫风格人脸表情图像，本实施例通过photo2cartoon的方法将选取的真实人脸表情图像转换为对应的动漫风格人脸表情图像，该方法保留了人物的身份信息，对人脸进行较好的五官细节勾勒。

S102：构建并训练风格迁移模块：

为了在实现图像风格转换的同时对所生成的动漫风格人脸表情图像进行表情控制，本发明采用了结合风格迁移的可控表情生成方式。图2是本发明结合风格迁移的可控表情生成方法的整体网络框图。如图2所示，本发明结合风格迁移的可控表情生成方法的整体网络包括风格迁移模块以及由表情控制生成模块G和判别器模块D构成的可控表情生成对抗网络。

如图2所示，为了实现图像风格从真实到动漫风格的变换，本发明构建了风格迁移模块，其输入

表示AU信息为y_o的真实人脸表情图像，其输出

表示

经风格迁移模块生成的动漫风格人脸表情图像，图像维度都为H×W×3。其中，H表示图像的高度，W表示图像的宽度。如图2所示，本发明中风格迁移模块包括特征编码器1和风格迁移解码器，其中特征编码器1用于对真实人脸表情图像进行高维语义特征提取，风格迁移解码器用于对特征编码器1输出的特征进行解码得到动漫风格人脸表情图像并进行输出。对步骤S101获取的真实人脸表情图像和动漫风格人脸表情图像进行随机配对作为训练样本，对风格迁移模块进行无监督训练。

本实施例中风格迁移模块采用CycleGAN网络。CycleGAN网络是一种典型的无监督的风格转换网络，在源域和目标域之间，无须建立训练数据间一对一的映射，就可有效实现风格迁移的目的。此外，CycleGAN还通过循环一致损失保证风格转换前后的图片内容尽量相似。因此，本实施例中选择CycleGAN网络作为人脸表情图像风格从真实到动漫风格转换的网络。

图3是本实施例中基于CycleGAN网络的风格迁移模块网络结构图。图3中矩形框所代表的是每一次操作过后的特征维度，输入AU信息为y_o的真实人脸表情图像

输出为AU信息为y_o的动漫风格人脸表情图像

Conv表示的是大小为4×4、步长为2、带填充(padding)的卷积核；Deconv表示的是大小为4×4、步长为2、带填充的反卷积核；激活函数有relu激活函数和tanh激活函数。IN为实例归一化(Instance Normalization)。

如图3所示，本实施例中特征编码器1由3层卷积网络和6个残差块构成，并且使用了实例归一化方法来保证图像之间的独立，加快模型的收敛速度。目的是实现对真实人脸表情图像特征的有效提取。风格迁移解码器的网络结构为两层卷积核大小为4×4、步长为2、带填充的反卷积层，将维度为(H/4)×(W/4)×256的特征变换成维度为H×W×64的特征，在这个过程中使用了实例归一化。之后使用一个卷积核大小为7×7、步长为1的卷积层，并使用tanh激活函数，将维度为H×W×64的特征变换为H×W×3的动漫风格人脸表情图像，实现图像风格从真实到动漫风格的变换。

S103：构建可控表情生成对抗网络：

为了实现对生成的动漫风格人脸表情图像进行表情控制，本发明构建了可控表情生成对抗网络。如图2所示，本发明中可控表情生成对抗网络包括表情生成模块G和判别器模块D，其中判别器模块包括风格判别器D_I和AU预测器D_y。图1中

表示表情控制生成模块G根据动漫风格人脸表情图像

以及给定的AU向量y_g，输出AU向量为y_g的动漫风格人脸表情图像

下面分别对2个模块进行详细说明。

·表情控制生成模块

图4是本发明中表情控制生成模块的网络结构图。如图4所示，本发明中表情控制生成模块G包括特征编码器2、映射网络、自适应归一化层、表情控制解码器和掩码计算层，表情控制生成模块G的输入为风格迁移模块所输出的动漫风格人脸表情图像以及AU向量，生成与该AU向量表情一致的动漫风格人脸表情图像。

特征编码器2用于提取动漫风格人脸表情图像的高维语义的人脸特征，输出至自适应归一化层。本实施例中特征编码器2的网络结构和参数设置与特征编码器1的前三层卷积网络一致，目的是实现对动漫风格人脸表情图像特征的有效提取。

映射网络(MappingNet)用于对输入的AU向量进行解耦，即调整AU向量的长度与特征编码器2输出的人脸特征通道数一致，将解耦后的AU向量输出至自适应归一化层。本实施例中映射网络由6层全连接层构成，将AU向量长度从17变换到256。

自适应归一化层(AdaIN)用于将特征编码器2输出的人脸特征和映射网络解耦后的AU向量进行结合，将得到的特征输出至表情控制解码器。人脸特征与AU向量结合的具体做法为：将人脸特征的通道平均值和方差与映射网络解耦后的AU向量的均值和方差对齐。可以采用如下公式表示：

其中，x表示人脸特征，μ(x)、σ(x)分别表示人脸特征的通道平均值和方差，y表示解耦后的AU向量，μ(y)、σ(y)分别表示解耦后的AU向量的通道平均值和方差。

表情控制解码器用于对自适应归一化层输出的特征进行解码，输出注意力掩码图像A和颜色掩码图像C至掩码计算层。表情控制解码器的目的是将AU向量和人脸的肌肉运动对应起来，实现对动漫风格人脸表情图像的表情控制。

本实施例中，表情控制解码器由上采样网络和两层卷积网络构成。上采样网络用于对输入的特征进行上采样。本实施例中上采样网络包括6层残差块网络和2层反卷积网络，输入维度为(H/4)×(W/4)×256的特征，经过6层残差块网络和2层反卷积网络后，输出维度为H×W×64的特征。使用两层卷积网络分别对上采样网络得到的特征进行卷积后分别得到注意力掩码图像A和颜色掩码图像C，输出至掩码计算层；

掩码计算层用于将表情控制解码器输出的注意力掩码图像A和颜色掩码图像C与输入的动漫风格人脸表情图像相结合，输出与给定AU向量一致的动漫风格人脸表情图像。掩码计算层的目的是迫使表情控制解码器根据给定AU向量中的值调整人脸肌肉运动，避免对肤色、头发等属性的调整，实现对生成图像表情的精细控制。

掩码计算层采用如下公式计算，输出AU向量为y_g的动漫风格人脸表情图像I_{d_yg}：

其中，

表示AU向量为y_o动漫风格人脸表情图像。注意力掩码图像A的维度为H×W×1；颜色掩码图像C的维度为H×W×3。A中每个元素的数值介于0和1之间，表示C中每个像素点在输出的

中的贡献率。

·判别器模块

如图2所示，本发明中判别器模块包括AU预测器D_y和风格判别器D_I，其中：

D_y的输入为有AU标签的动漫风格人脸表情图像，预测并输出该图像的AU向量，目的是能够准确预测动漫风格人脸表情图像的AU向量。在训练阶段，D_y应当准确预测输入图像

的AU向量标签y_o。

D_I的输入为动漫风格人脸表情图像，输出介于0和1之间真/伪值，目的是对动漫风格是否逼真进行判别。在训练阶段，D_I将对风格迁移模块生成的动漫风格人脸表情图像视为真，输出1；对表情控制生成模块生成的动漫风格人脸表情图像视为伪，输出0。

S104：训练可控表情生成对抗网络：

记步骤S1中真实人脸表情图像为

其AU向量标签为y_o，将真实人脸表情图像

将动漫风格人脸表情图像

AU向量标签y_o和预设的期望表情的AU向量y_g作为训练样本，对可控表情生成对抗网络进行训练。在训练过程中，对判别器模块和表情控制生成模块进行交替训练，具体方法为：

判别器模块训练时，固定住表情控制生成模块的网络权重参数。每次训练包含两组输入：第一组为动漫风格人脸表情图像

和对应的AU向量标签y_o，第二组为表情控制生成模块根据输入的

和AU向量y_g生成的动漫风格人脸表情图像

及AU向量y_g；输出为每组输入预测的AU向量和真/伪值。然后根据预设的损失函数L计算出损失值优化判别器模块网络参数。

表情控制生成模块训练时，固定住判别器模块的网络权重参数。每次训练包含两组输入：第一组输入为动漫风格人脸表情图像

和AU向量y_g，输出生成的动漫风格人脸表情图像

将生成的

和AU向量y_g输入到判别器模块中，预测真/伪值和AU向量；第二组输入为表情控制生成模块G根据第一组输入而生成的AU向量为y_g的动漫风格人脸表情图像

及AU向量标签y_o，输出AU向量为y_o的动漫风格人脸表情图像

为了更好地实现可控表情生成对抗网络的训练，本实施例中对判别器模块和表情控制生成模块的损失值的计算进行了改进与优化。

本实例中定义的损失函数L包括四项：(1)图像真/伪对抗损失，该损失是为了调整可控表情生成对抗网络的生成图像的分布与风格迁移模块生成的动漫风格人脸表情图像的分布一致；(2)注意力掩码损失，该损失是为了使注意力掩码更加平滑并阻止注意力掩码饱和；(3)表情约束损失，该损失是为了约束可控表情生成对抗网络生成图像的表情与给定AU一致；(4)重建损失，该损失是为了保持人脸身份不变，即动漫风格人脸表情图像在表情改变后的人脸身份信息不改变。以下将对上述四项损失函数作具体描述：

(1)图像真/伪对抗损失

为了使得表情控制生成模块生成的动漫风格人脸表情图像与输入的动漫风格人脸表情图像在风格上不可区分，引入了图像真/伪对抗损失：

其中，E[]表示求取期望。

表示表情控制生成模块G根据输入的图像

和AU向量y_g生成的AU向量为y_g动漫风格人脸表情图像

D_I是为了从风格上区分出表情控制生成模块G的输入和输出图像，其输出值D_I()表示风格判别器D_I根据动漫风格人脸表情图像所预测的真/伪值，D_I()是0到1之间的概率值，越接近0则表示该图像的风格与输入的

越不相似。G的目标是最小化这项损失函数，然而风格判别器D_I的目标是最大化这项损失函数。

(2)注意力掩码损失

由于训练表情控制生成模块时没有注意力掩码图像A的真实标签，A很容易出现饱和现象，即A中的每个元素值为1，这将导致

也就是表情控制生成模块失去了作用。为了避免这种情况的发生，本实施例中使用了一个L1范数来对注意力掩码图像A进行约束。另外，为了使输出的动漫风格的人脸表情图像的颜色更加平滑，还使用了一个全差分损失项来约束注意力掩码图像A。

生成动漫风格人脸表情图像

时的注意力掩码损失为

其计算公式如下：

其中，A表示表情控制生成模块G根据

和y_g输出的注意力掩码图像，A_i,j表示A中像素点(i,j)的掩码值，i＝1,2,…,H，j＝1,2,…,W。第一项为全差分损失项，第二项为L1范数约束项。λ_TV是预设的全差分损失项的超参数，用于控制该项损失的相对重要性。

在训练时表情控制生成模块G还会根据动漫风格人脸表情图像

及AU向量标签y_o，生成AU向量为y_o的动漫风格人脸表情图像

此时会产生注意力掩码损失

(3)表情约束损失

表情控制生成模块不仅要学到生成风格逼真的动漫风格人脸表情图像，生成图像的面部表情也要与输入的AU向量一致，因此设置表情约束损失。该损失函数包括两个部分：第一部分表示D_y对表情控制生成模块G生成的动漫风格人脸表情图像

进行AU预测，输出预测的AU向量

并与期望y_g作AU回归损失，以此来优化表情控制生成模块G；第二部分根据输入的

输出预测的AU向量

并与I_{d_yo}的AU标签y_o作AU回归损失，以此来优化AU预测器D_y。具体的损失函数设置如下：

其中，D_y()表示AU预测器根据动漫风格人脸表情图像输出的该图像的AU预测向量，|| ||₂表示求取二范数。

(4)重建损失

通过上述的损失函数，表情控制生成模块可以生成逼真的动漫风格人脸表情图像，但是没有真实的监督信息来保证输入图像和生成图像身份信息一致。因此引入重建损失惩罚动漫风格人脸表情图像

和

的差异性，迫使表情控制生成模块在生成动漫风格人脸表情图像时保持人物的身份信息不变。该损失函数定义为：

其中，

表示根据动漫风格人脸表情图像

和AU向量标签y_o生成的动漫风格人脸表情图像

为了生成目标图像

将以上4项损失线性组合，建立了一个损失函数L，其定义如下：

其中，λ_I、λ_A、λ_y、λ_rec是控制每部分损失相对重要程度的超参数。

最终，整个可控表情生成对抗网络的训练可定义为下述的最小化最大化问题：

其中，G^*表示可控表情生成对抗网络，

表示以最小化损失值L为目标，优化表情控制生成模块G的网络参数；

表示以最大化损失值L为目标，优化判别器模块D的网络参数。

本实施例中采用表情控制生成模块和判别器模块训练次数为1比3的交替训练方式。具体为固定表情控制生成模块G的网络权重参数，以最大化损失值L为目标训练判别器模块3次；然后固定判别器模块的网络权重参数，以最小化损失值L为目标训练表情控制生成模块1次。经过实验选取的合理的超参数为：λ_I＝0.5、λ_A＝0.00001、λ_TV＝10000、λ_y＝1000、λ_rec＝0.1。一个训练批次的图像数量为16，训练100个epoch。优化器为Adam，其设置为(beta1＝0.5,beta2＝0.999)，前70个epoch的学习率为0.00001，后30个epoch，每个epoch的学习率为上一epoch学习率减去0.0000003。

S105：生成期望表情的动漫风格人脸表情图像：

对于某真实人脸表情图像，当需要生成期望表情的动漫风格人脸表情图像时，将该真实人脸图像输入至风格迁移模块得到动漫风格人脸表情图像，将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块，得到期望表情的动漫风格人脸表情图像。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。