CN111932661B

CN111932661B - 一种人脸表情编辑系统及方法、终端

Info

Publication number: CN111932661B
Application number: CN202010834441.7A
Authority: CN
Inventors: 宋利; 凌军; 薛涵; 解蓉
Original assignee: Shanghai Aiqi Information Technology Co ltd
Current assignee: Shanghai Aiqi Information Technology Co ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2023-10-24
Anticipated expiration: 2040-08-19
Also published as: CN111932661A

Abstract

本发明提供了一种人脸表情编辑系统及方法、终端，利用面部动作单元向量差分模块，计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；将相对动作单元向量作为输入条件，与源人脸图像一起送入合成网络生成器，合成符合目标人脸表情的图片；利用表情条件判别器，预测源表情动作单元向量和目标表情动作单元向量；同时，预测生成人脸图片的动作特征计算表情损失，对合成网络生成器编辑的人脸表情进行优化；利用合成网络判别器，对生成人脸图片进行真假打分计算对抗性损失，对合成网络生成器合成的生成人脸图片质量进行优化。本发明融合编解码网络结构、多尺度特征融合机制与人脸面部动作单元向量差分模块，实现了高质量表情合成。

Description

一种人脸表情编辑系统及方法、终端

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种人脸表情编辑系统及方法、终端。

背景技术

人脸表情编辑是计算机视觉领域极具挑战性的一项任务，其目标是根据输入的人脸表情相对向量，来对原图中的人脸表情进行相应变换，同时保持人脸的头部姿态、身份信息等信息不变。这项技术具备相当广泛的应用，可以扩展到照片编辑、电影制作、虚拟角色动画等诸多新兴应用场景中。尽管近年来生成对抗网络已经在诸如人脸属性转换、妆容转换等域迁移任务中取得了相当出色的表现，但是在人物服饰转换任务上仍有很大的提升空间。

表情编辑任务的挑战性首先体现在任务自身的高难度，其核心问题在于两方面：其一，输入的人脸图片其他表情的各种真实对应图像，比如开心、难过、嘴角上升、眼睑下降等，这就导致表情编辑模型在训练过程中没有真实匹配图像，不利于训练好模型与生成良好的图像。其二，人脸表情涉及细致的纹理信息和几何信息，人眼对于人脸的图像非常敏感，因此需要更细粒度的生成方法才能实现高质量的表情编辑。

其次，现有方法难以满足高质量的人脸表情编辑。现有的人脸表情编辑方法要么采用传统的几何形变的方法，这种方式通常需要确定的第三张人脸图片作为参考，所以在针对细粒度的人脸表情编辑上的能力十分有限，无法满足高质量、灵活的编辑要求。不仅如此，现有方法将输入的刻画人脸全局表情类别特征作为条件信息来训练网络，没有充分利用到更细粒度、更局部的表达方法，因而不足以支撑细粒度的表情人脸生成。

发明内容

本发明针对现有技术中存在的上述技术问题，提出了一种人脸表情编辑系统及方法、终端。

为解决上述技术问题，本发明是通过如下技术方案实现的。

根据本发明的一个方面，提供了一种人脸表情编辑系统，包括：面部动作单元向量差分模块、合成网络生成器、表情条件判别器以及合成网络判别器；其中：

所述面部动作单元向量差分模块，根据输入的源表情动作单元向量与目标表情动作单元向量，得到从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

所述合成网络生成器，根据输入的待编辑的源人脸图像和相对动作单元向量，对源人脸图像进行端到端的特征转换，在不同分辨率的特征下融合相对动作单元向量，完成人脸表情编辑，合成符合目标表情的生成人脸图片；

所述表情条件判别器，用于预测得到输入面部动作单元向量差分模块的源表情动作单元向量和目标表情动作单元向量；同时，预测得到生成人脸图片的动作单元向量，根据动作单元向量计算出表情损失，从而对合成网络生成器编辑的人脸表情进行优化，以更符合目标表情；

所述合成网络判别器，通过对生成人脸图片进行真假打分，计算出对抗性损失，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像。

优选地，所述合成网络生成器包括：编码器、多尺度特征融合模块和解码器；其中：

所述编码器对输入的待编辑的源人脸图像进行特征抽取，得到不同分辨率下的编码特征f_i，i表示编码器的层标号，i∈n，从1到n分辨率逐层降低；在编码器第n层将编码特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器第n-1层的编码特征送入第m层多尺度特征融合模块；第m-2层、第m-1层的多尺度特征融合模块分别接收来自当前层的编码器特征与下一层多尺度特征融合模块的输出特征；所述多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终解码合成符合目标表情的生成人脸图像。

优选地，所述系统还包括如下任一项或任意多项：

-所述表情条件判别器为基于条件满足程度的判别器，通过逐元素的平均平方距离来计算图像与条件的匹配损失作为表情损失；

-所述合成网络判别器采用瓦瑟斯坦距离作为对抗损失，对图像分块处理下的不同块做判别，最后求取平均值作为真实度。

根据本发明的另一个方面，提供了一种人脸表情编辑方法，包括以下步骤：

利用面部动作单元向量差分模块，计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

将相对动作单元向量作为输入条件，与待编辑的源人脸图像一起送入合成网络生成器，合成符合目标人脸表情的图片；

利用表情条件判别器，预测得到源表情动作单元向量和目标表情动作单元向量；同时，预测得到生成人脸图片的动作单元向量，通过动作单元向量计算出表情损失，从而对合成网络生成器编辑的人脸表情进行优化，以更符合目标表情；

利用合成网络判别器，通过对生成人脸图片进行真假打分，计算出对抗性损失，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像。

优选地，所述计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量的方法，包括：

v_rel＝v_tgt-v_src

其中，v_rel,v_tgt,v_src分别代表相对动作单元向量、目标表情动作单元向量、源表情动作单元向量；

当实现的是连续的表情插值时，则通过线性插值相对属性来实现：

v_inter＝v₁+α(v₂-v₁)-v_src,0≤α≤1

其中，v_inter为插值相对动作单元向量，v₁和v₂为任意两个目标表情动作单元向量，α为0到1之间的实数。

优选地，所述将相对动作单元向量作为输入条件，与待编辑的源人脸图像一起送入合成网络生成器，合成符合目标人脸表情的图片，包括：

利用编码器，对输入的源人脸图像进行特征抽取，得到不同分辨率的编码特征f_i，i表示编码器的层标号，i∈n，从1到n分辨率逐层降低；

将编码器第n层的编码特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器第n-1层的编码特征送入第m层多尺度特征融合模块；

第m-2层、第m-1层的多尺度特征融合模块分别接收来自当前层的编码器特征并与下一层多尺度特征融合模块的输出特征；

多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终解码合成符合目标表情的生成人脸图像。

优选地，所述利用编码器，对输入的源人脸图像进行特征抽取，得到不同分辨率的编码特征f_i中：

采用卷积层，将源人脸图像映射到编码器的多个特征空间中，得到不同分辨率下的的编码特征f_i。

优选地，所述将编码器第n层的编码特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器第n-1层的编码特征送入第m层多尺度特征融合模块中：

采用级联的方式，通过将相对表情向量扩展为与来自编码器的编码器特征相同尺寸的张量，并与编码器特征连接到一起，得到级联特征fc：

fc＝concat(f_i,v_rel)

得到的级联特征fc与来自多尺度特征融合模块输出的特征进行多尺度特征融合，从而卷积得到新的输出特征f_i′：

f_i'＝MSF(fc,v_rel,f′_i+1)

新的输出特征f_i′即为多尺度特征融合模块输出的融合特征。

优选地，所述多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终解码合成符合目标表情的生成人脸图像中：

计算出多尺度特征融合模块的输出特征后，该层的融合特征在解码器部分与相同分辨率的图像特征沿着特征通道方向进行级联融合，级联融合后的特征送到当前层的转置卷积层，从而得到更高分辨率的特征，在解码器输出层经过一层卷积与激活函数得到最终的符合目标表情的生成人脸图像。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

相较于现有技术，本发明具有以下优点：

(1)本发明提供的人脸表情编辑系统及方法、终端，融合了：表情动作单元向量差分模块、编码器模块、多尺度特征融合模块、解码器模块；通过相对表情向量刻画了生成图像与输入图像的表情差异性，使得特征图上的每个位置都可以寻找到表情向量中描述相应区域的激活值，从而有效地促进细粒度的人脸表情合成；多尺度特征融合模块则弥补了传统卷积网络的局部性，能够显式地将高层语义特征域低级特征同时联合学习，从而关注到人脸相关和不相关的区域；解码器模块解码图像特征，并结合来自多尺度特征融合模块的各个分辨率下的融合特征，最终合成具有真实度与目标表情的合成人脸图像；

(2)本发明提供的人脸表情编辑系统及方法、终端，将相对表情向量与编码特征联合后得到的特征图送往多尺度特征融合模块，而不是直接在输入时结合两者；表情向量本是高级语义描述，而图像空间属于低层级图像特征，在图像的高层特征空间上与表情向量结合，有利于模型更好地学习到特征表达；本发明通过在网络的中间阶段结合特征与表情向量信息，可以避免直接结合两者所造成的问题；

(3)本发明提供的人脸表情编辑系统及方法、终端，通过合成网络判别器为基于条件满足程度的判别器，用于通过逐元素的平均平方距离来计算图像与条件的匹配损失；现有的许多方法都采用了直接配对判别辅助分类器的方法来设计合成网络判别器结构,但是这种方法都存在着一些弊端：直接串联图像与条件无法帮助合成网络判别器显式地区分不真实性和不匹配性这两种不同的错误来源，当条件信息的维数较多时这种现象尤为明显；

(4)本发明提供的人脸表情编辑系统及方法、终端，通过让合成网络判别器用于对图像分块处理下的不同块做判别，最后求取平均值作为真实度，将分块处理的思想结合到合成网络判别器中，不仅提高了合成网络判别器的鲁棒性，还对图像的纹理和细节等局部信息产生了非常有效的判别式指导；

(5)本发明提供的人脸表情编辑系统及方法、终端，所述合成网络生成器采用循环一致损失来保证姿态以及身份不发生变化。同时表情合成网络生成器采用自重建损失来保证当目标表情动作单元向量与源表情动作单元向量一致时，网络不对输入源图像做任何变化，只具有重建图像的功能；

(6)本发明提供的人脸表情编辑系统及方法、终端，使用对所述合成网络判别器进行梯度惩罚，从而达到稳定合成网络的训练目标。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的人脸表情编辑方法的流程图；

图2为本发明一实施例的人脸表情编辑系统结构示意图；

图3为本发明一实施例的合成网络生成器的结构示意图

图4为本发明一实施例的多尺度特征融合模块的结构示意图；

图5为本发明一实施例中连续编辑生成结果效果图；

图6为本发明一实施例中生成结果与现有不同方法的生成结果比较图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种人脸表情编辑系统，采用生成对抗网络，包括：动作单元向量差分模块、合成网络生成器、表情网络判别器以及合成网络判别器；其中：

动作单元向量差分模块，根据输入的源表情动作单元向量与目标表情动作单元向量，得到从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

合成网络生成器，根据输入的待编辑的源人脸图像和相对动作单元向量，对源人脸图像进行端到端的特征转换，在不同分辨率的特征下融合相对动作单元向量，完成人脸表情编辑，合成符合目标表情的生成人脸图片；

表情条件判别器，用来预测得到输入动作单元向量差分模块的源表情动作单元向量和目标表情动作单元向量；同时，用来预测得到生成人脸图片的动作单元向量，利用动作单元向量，计算出表情损失，从而对合成网络生成器编辑的人脸表情进行优化，以更符合目标表情；

合成网络判别器，通过对生成人脸图片进行真假打分，计算出对抗性损失，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像。

表情条件判别器是对抗训练中的一种条件训练策略，是用来训练合成网络生成器的辅助条件判别器，训练完成之后可以用来得到人脸图像的动作单元向量。

作为一优选实施例，合成网络生成器包括：编码器、多尺度特征融合模块和解码器；其中：

作为一优选实施例，表情条件判别器为基于条件满足程度的判别器，通过逐元素的平均平方距离来计算图像与条件的匹配损失作为表情损失。

作为一优选实施例，合成网络判别器对图像分块处理下的不同块做判别，最后求取平均值作为真实度。

作为一优选实施例，合成网络判别器采用瓦瑟斯坦距离作为对抗损失。

作为一优选实施例，表情合成网络生成器采用自重建损失来保证当目标动作单元向量与源人脸动作单元向量一致时，网络不对输入源图像做任何变化，只充当重建网络的功能。

作为一优选实施例，还包括：使用对合成网络判别器进行梯度惩罚的稳定训练策略来稳定合成网络判别器的训练过程。

在本发明部分实施例中：

动作单元向量差分模块、合成网络生成器与两个判别器构成生成对抗网络，用来完成表情生成：根据输入相对动作单元向量，对源人脸图像进行端到端的特征转换，在不同分辨率的特征下融合表情向量，完成人脸表情编辑。

合成网络生成器与合成网络判别器，用于处理训练与推理问题：将目标表情图像送入合成网络判别器得到目标表情动作单元向量作为表情引导和控制条件，连同源输入图像一起训练合成网络生成器学习从源输入图像到到目标表情的多域映射，以合成目标人脸图片，完成人脸表情编辑。

进一步地，合成网络生成器融合了：

采用编码器在不同分辨率层得到不同尺度(分辨率)的编码特征；

采用多尺度特征融合模块融合来自编码器的编码特征、相对动作单元向量以及下一分辨率下的多尺度特征融合模块的输出作为三个共同输入，从而更好地捕捉人脸的表情信息与生成更合理逼真的面部细节。

采用跨越连接将多尺度融合特征域解码器特征级联，更好地保持了生成图像的质量和真实感。

本发明另一实施例提供了一种人脸表情编辑方法，该方法融合了多尺度特征与相对人脸表情向量，实现了高质量人脸表情生成。

本实施例所提供的人脸表情编辑方法，包括如下步骤：

利用表情条件判别器，预测得到源表情动作单元向量和目标表情动作单元向量；同时，预测得到生成人脸图片的表情特征，通过动作单元向量计算出表情损失，从而对合成网络生成器编辑的人脸表情进行优化，以更符合目标表情；

作为一优选实施例，计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量的方法，包括：

v_rel＝v_tgt-v_src

v_inter＝v₁+α(v₂-v₁)-v_src,0≤α≤1

作为一优选实施例，合成网络生成器包括：编码器、多尺度特征融合模块和解码器；

将相对动作单元向量作为输入条件，与待编辑的源人脸图像一起送入合成网络生成器，合成符合目标人脸表情的图片，包括：

作为一优选实施例，利用编码器，对输入的源人脸图像进行特征抽取，得到不同分辨率的编码特征f_i中：

作为一优选实施例，将编码器第n层的编码特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器第n-1层的编码特征送入第m层多尺度特征融合模块中：

fc＝concat(f_i,v_rel)

f_i'＝MSF(fc,v_rel,f′_i+1)

作为一优选实施例，多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终合成符合目标表情的高质量生成人脸图像中：

作为一优选实施例，激活函数采用Tanh激活函数。

Tanh激活函数为：

Tanh(x)＝sinh(x)/cosh(x)＝(exp(x)-exp(-x))/(exp(x)+exp(-x))。

在本发明部分实施例中，

S11，获得合成网络生成器所需要的条件输入：利用面部动作单元向量差分模块，计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

S12：利用基于深度学习的生成对抗网络处理合成问题：将S11得到的相对表情动作单元作为输入条件，与源人脸图像一起送入合成网络生成器，以合成符合目标人脸表情的图片。

进一步地，合成网络生成器时融合了：

S121：利用所述编码器，对输入的源人脸图像进行特征抽取，得到不同分辨率的特征f_i，i表示编码器的层标号，i∈n，从1到n分辨率逐层降低；

S122：将最低分辨率的编码器特征(即第n层的编码器特征)与S11得到的相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器最后第二层(即第n-1层)的编码特征送入所述第m层多尺度特征融合模块；所述第m-2层、第m-1层的多尺度特征融合模块接收来自当前层的编码器特征与下一层(即第m-1、第m层)多尺度特征融合模块的输出特征；

S123：在解码器模块，多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终解码合成符合目标表情的生成人脸图像。

在本发明部分实施例中，第m层是指第三层，相应的，第m-2层、第m-1层分别为第一层和第二层，对应的下一层分别为第二层和第三层。需要说明的是，合成网络生成器中多尺度特征融合模块的第m层的层数选择，可以还可以为第三层、第四层、第五层等，不限于第三层。

下面结合附图，对本发明上述实施例所提供的系统及方法、终端更进一步详细描述如下。

如图2所示，为本发明实施例所提供的人脸表情编辑系统结构示意图，该系统采用生成对抗网络，采用生成对抗网络，包括：动作单元向量差分模块、合成网络生成器、表情网络判别器以及合成网络判别器；其中：

面部动作单元向量差分模块，根据输入的源表情动作单元向量与目标表情动作单元向量，得到从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

表情条件判别器，预测得到源表情动作单元向量和目标表情动作单元向量；同时，预测得到生成人脸图片的动作单元向量，通过动作单元向量计算出表情损失，从而对合成网络生成器编辑的人脸表情进行优化，以更符合目标表情；

如图1所示，为本发明一实施例的人脸表情编辑方法的流程图，其是基于相对动作单元向量引导和多尺度特征融合机制的人脸表情编辑方法。

请参考图1，本实施例的人脸表情编辑方法包括以下步骤：

S11：利用面部动作单元向量差分模块，计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量；

S12：利用基于深度学习的生成对抗网络处理合成问题：将S11得到的相对表情动作单元向量作为输入条件，与源人脸面部图片一起送入合成网络生成器，以合成符合目标人脸表情的图片；所述的源/目标表情动作单元向量还可以通过表情条件判别器预测得到；

进一步地，如图3所示，合成网络生成器同时融合了：

S121，在合成网络生成器的编码器不同层得到不同分辨率的特征，从而得到不同层多尺度特征融合模块所需要的编码器特征f_i，；

S122，将最低分辨率的特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与特征f_i送入多尺度特征融合模块；所述第一、二层的多尺度特征融合模块接收来自当前层的编码器特征与下一层(第二、三层)多尺度特征融合模块的输出特征；

S123，多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征进行级联融合，最终合成符合目标表情的生成人脸图像。

如图4所示，多尺度特征融合模块的工作过程为：

f_i为编码器在第i层的编码特征，其与相对动作单元向量扩展后张量进行级联，并经过一系列的卷积与采用操作与来自上一层多尺度特征融合模块的输出f′_i+1进行特征融合；

在最后一个卷积层，得到该层多尺度特征融合模块的输出，标记为f_i′。

下面结合具体实例对上述各个步骤中详细技术操作进行说明。

(1)计算相对表情向量。

比起直接使用目标动作单元向量作为条件来指导合成网络生成器生成一张希望得到的目标表情的合成图片，使用相对动作单元向量具有诸多优势。首先来考虑这样的问题，合成网络生成器在给定的目标动作单元向量条件下，需要生成符合目标表情的图像，这就需要对图像做编辑，那么在细粒度的表情编辑下，如果用户只需要编辑人脸的一个局部区域，那么用户仍然需要输入整个动作单元向量，对于一些不需要编辑的区域，需要输入符合源人脸图像的表情参数，这对表情的细粒度编辑来说是不合适的，因为不管输入的表情条件对或者不对，生成器都需要实现对人脸局部做编辑，这对细粒度的表情编辑任务是季度不合适的。

如果使用相对动作单元向量作为条件，那么当需要编辑相关区域的时候，相对动作单元向量为非零，如果相对动作单元向量值为零，那么合成网络生成器则需要实现重建功能，这是一种显示的指引，这样相对动作单元向量就能为合成网络生成器提供有用的条件指导。

由于输入的相对动作单元向量表示了人脸各个局部的肌肉状态变化值，因此图像编辑模型实质上是一个可扩展的多域转换模型。目标是训练一个合成网络生成器来近似这样的图像到图像映射函数，在以相对动作单元向量为条件下，通过映射函数可以将源人脸图像转换成合成人脸图像。在合成网络生成器中采用了编码器-多尺度融合跨越连接-解码器结构；输入的源/目标表情动作单元向量还可以通过表情条件判别器预测得到。

(2)合成网络生成器

使用人脸图片作为输入，用卷积层将源输入图像映射到多个特征空间中，分别拥有不同的分辨率，表示编码器特征，用来作为多尺度特征融合模块的其中一项输入。多尺度特征融合模块采用同一分辨率下的编码器的特征与面部动作单元作为输入，并融合来自下一分辨率下的多尺度特征融合模块的输出，从而更好地捕捉人脸的表情信息与生成更合理逼真的面部细节；为了生成目标表情图片，将不同分辨率下的特征融合来自多尺度特征融合模块的特征，送入解码器中，得到解码图像，更好地保持了生成图像的质量和表情逼真程度。

如图3和图4所示，S121进一步包括：用卷积层将原人脸图像映射到多个特征空间中，不同级的特征用f_i指代，表示编码器特征，用来作为多尺度特征融合模块的其中一项输入。S122进一步包括：用级联的方式将相对表情向量通过扩展为与f_i′相同分辨率的向量连接到一起：

fc＝concat(f_i,v_rel)

得到的fc与来自下一层多尺度特征融合模块的融合特征进行多尺度特征融合，从而得到新的输出f_i′：

f_i'＝MSF(fc,v,f′_i+1)

S123进一步包括：计算出多尺度特征融合模块的输出特征后，该层的特征在解码器部分相同分辨率的特征沿着特征通道方向进行级联，级联后的特征送到当前层的转置卷积层，从而得到更高分辨率的特征，在解码器输出层经过一层卷积与特定的Tanh激活函数得到最终的人脸图像。

较佳实施例中，还增加了稳定训练策略：

由于生成对抗网络的不稳定性，本实施例方法采用了WGAN-GP的策略来稳定训练过程。在WGAN-GP中，梯度惩罚项是通过在真实样本和生成样本的空间直线上采样作为合成网络判别器的输入来进行计算的，这对于合成网络判别器的训练起到了一定的正则化作用，从而有利于约束判别器的快速优化，避免了梯度爆炸与模式奔溃问题。

具体地，在合成网络生成器一次生成的人脸图像中，本实施例在真实图像与生成图像中随机插值，得到插值图像，将图像送到判别器网络中，使用判别器的输出对插值图像求取梯度，该梯度的模需要接近于一，从而实现对判别器的梯度惩罚。

合成网络生成器与判别器构成生成对抗网络，用于处理训练与推理问题：将目标表情图像送入判别器得到目标表情向量作为表情引导和控制条件，连同输入源图像一起训练生成器学习从源图像到到目标表情的多域映射，以合成目标图片，完成人脸表情编辑。

一具体实例中，代码实现由Pytorch完成。在训练阶段，将生成器和判别器的学习率均设为0.0001，并采用Adam优化器，批量大小设为16个样本。首先固定合成网络的参数不变，总共花费40轮训练变形网络，且在最后的10轮内，学习率线性衰减到0。

下面对上述实施例的人脸表情方法的结果进行评估，选择AffectNet作为训练和测试数据集，使用GANimation作为目前最先进的方法，和本发明上述实施例方法进行定量和定性比较。

关于质量评估指标，采用客观评价指标与主观评价指标结合的方式。客观评价指标包括感知分数(IS)，因为其在评估生成样本的真实性和多样性方面更符合人眼视觉特点。越高的IS，说明生成样本越能被正确分类，与真实图像越接近，即生成质量越高。对于每一种模型，对3234张图像随机生成了7种其他的表情，一共得到22638张图像，从而计算IS。

进一步地，客观指标还包括平均内容距离(ACD)，平均内容距离的计算方式为计算人脸图像在表情编辑前与编辑后的身份距离，具体实现为通过第三方人脸识别网络，判断人脸编码的平均平方距离，从而在22638张图像上得到平均结果。

进一步地，客观指标还包括表情距离，计算方法为计算编辑后的人脸图像的表情向量与目标向量的平均平方距离，这个距离越小，说明表情编辑越成功，合成的图像的表情跟目标表情越接近。最终定量比较结果如表1所示。本发明方法的生成样本的IS远比GANimation的结果要大，从2.861提高到了2.940，这说明本发明方法在人脸表情编辑上取得了更先进的成果。

表1本发明实施例与现有方法的感知分数、平均内容距离、表情距离对比

/>

为了比较基准模型与本发明方法在人类主观评价上的性能差异，邀请了20名志愿者评估通过GANimation方法和本发明的方法生成的100对图像。在测试期间，按随机顺序显示图像，并确保用户不知道哪张图像是来自于本发明的方法与GANimation的方法。

进一步地，主观评价指标包括相对真实度，在每次测试中，随机选择一张源图像，并使用GANimation与本方法对该图像进行表情编辑得到两张测试结果，被测试者在两张结果图中选择看起来最自然真实的图像。

进一步地，主观评价指标包括身份信息一致性，在每次测试中，随机选择一张源图像，并将输入图像与GANimation生成的结果或者与本方法生成的结果进行同时展示，被测试者判断这两者的身份信息是否有变化，没有变化表示结果更好。

进一步地，主观评价指标包括表情一致性评价，在每次测试中，随机选择一张源图像与表情参考图像，并使用GANimation与本方法对源图像进行表情编辑，并同时展示表情参考图像与生成的结果，被测试者需要判断两张图像的表情是否一致；进一步地，如果被测试者认为表情不相似，那么需要给0分，如果只是部分相似，则需要给1分，如果被测试者认为表情很相似，那么需要给2分。在1分与2分的指标上，得分比例越高越好，在0分的指标上，得分比例越少越好。

最终定量结果如表2所示。本发明展示的结果比基准方法更好

表2本发明实施例与现有方法的人类主观评价结果对比

为了展示本方法在表情编辑的有效性，本方法测试了在人脸各个局部肌肉状态的编辑效果，结果如图5所示，覆盖了眉毛(AU4)、眼睑(AU5，AU7)、嘴唇(AU12，AU17，AU20)等。可以看到，本方法在细节的编辑上做到了只编辑需要编辑的区域，并且可以实现连续的表情编辑。

为了定性比较生成质量，选择相同的目标人脸表情向量和源图像作为输入，来观察两种方法的生成结果。从图4的观察中，可以发现本发明实施例中的方法可以根据所需的相对动作单元向量成功地转换源图像，并且伪像和编辑痕迹更少。虽然基线模型不太可能生成高质量的细节或保留与未更改表情向量相对应的面部区域，尤其是对于眼睛和嘴巴。在图4下半部分，评估本发明实施例中的方法并讨论在处理极端情况时的模型性能，这些极端情况包括但不限于图像遮挡，肖像，绘画和非人脸。例如，在图4第五排第一张图片显示了手指产生的遮挡。为了编辑这种图像的表情，GANimation需要整个表情向量集合，包括嘴角和下巴的激活状态，这给用户带来了额外负担，并带来了视觉假象的不良增长。相反，本发明实施例的方法无需源表情状态即可编辑表达式。在图4的第八行和第九行中，分别提供了来自绘画和绘画的面部编辑示例。GANimation要么无法有效地操纵具有完全相同表达式的输入图像(第三行，左和第四行，右)，要么引入不自然的伪影和变形(第三行，右和第四行，左)。与GANimation相比，可以轻松找到方法的改进，尽管GANimation在这些图像上取得了合理的结果。

如图6所示，第一/五列代表输入，第二/六列代表提供目标表情的图像，其余的为GANimation的结果与本方法的结果。可以直观地看到，本发明实施例的方法由于使用了多尺度融合架构，所以能得到更接近目标的表情结果。此外，从图3中可以清楚地看到，本发明实施例所提供的方法能够生成最自然、最真实的人脸图片，同时具备非常一致的颜色和精致的纹理细节。GANimation的生成结果却缺乏足够的表情细节，因此不具有真实感。

一实施例中，本发明提供的人脸表情编辑系统及方法，融合了：相对表情向量、特征编码器、多尺度特征融合模块；通过相对表情向量刻画了生成图像与输入图像的表情差异性，使得特征图上的每个位置都可以寻找到表情向量中描述相应区域的激活值，从而有效地促进细粒度的人脸表情合成；多尺度特征及联模块则弥补了传统卷积网络的局部性，能够显式地将高层语义特征域低级特征同时联合学习，从而关注到人脸相关和不相关的区域；

(2)本发明提供的人脸表情编辑系统及方法，将相对表情向量与编码特征联合后得到的特征图送往多尺度特征融合模块，而不是直接在输入时结合两者；表情向量本是高级语义描述，而图像空间属于低层级图像特征，在图像的高层特征空间上与表情向量结合，有利于模型更好地学习到特征表达；本发明通过在网络的中间阶段结合特征与表情向量信息，可以避免直接结合两者所造成的问题；

较佳实施例中，通过判别器为基于条件满足程度的判别器，用于通过逐元素的平均平方距离来计算图像与条件的匹配损失；现有的许多方法都采用了直接配对判别辅助分类器的方法来设计判别器结构,但是这种方法都存在着一些弊端：直接串联图像与条件无法帮助判别器显式地区分不真实性和不匹配性这两种不同的错误来源，当条件信息的维数较多时这种现象尤为明显；

较佳实施例中，通过让判别器用于对图像分块处理下的不同块做判别，最后求取平均值作为真实度，将分块处理的思想结合到判别器中，不仅提高了网络的鲁棒性，还对图像的纹理和细节等局部信息产生了非常有效的判别式指导；

较佳实施例中，表情合成网络生成器采用循环一致损失来保证目标分割图与原始分割图中的人物体型、姿态以及身份不发生变化。同时表情合成网络生成器采用自重建损失来保证当目标表情向量与源表情向量一致时，网络不对输入源图像做任何变化，只充当重建网络的功能；

较佳实施例中，使用稳定训练策略模块用于生成对抗网络中的判别器进行梯度惩罚，从而达到稳定训练的目标。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，处理器执行计算机程序时能够用于执行本发明上述实施例中任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明上述实施例提供的人脸表情编辑系统及方法、终端，根据输入的面部动作单元，计算面对动作单元的相对值，来刻画人脸表情的预期变化；第二级使用生成对抗网络处理合成问题：将输入的人脸面部图片送入编码器，得到不同分辨率的特征，在分辨率最低的中间特征层将特征域面部动作单元级联连接并送入多尺度特征融合模块；多尺度特征融合模块采用同一分辨率下的编码器的特征与面部动作单元作为输入，并融合来自下一分辨率下的多尺度特征融合模块的输出，从而更好地捕捉人脸的表情信息与生成更合理逼真的面部细节；解码器部分，每一分辨率下的特征融合来自多尺度特征融合模块的特征，更好地保持了生成图像的质量和逼真程度。本发明上述实施例提供的人脸面部表情编辑系统及方法、终端，融合了编解码网络结构、多尺度特征融合机制与相对人脸面部动作单元，实现了高质量表情合成。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种人脸表情编辑系统，其特征在于，包括：面部动作单元向量差分模块、合成网络生成器、表情条件判别器以及合成网络判别器；其中：

所述合成网络判别器，通过对生成人脸图片进行真假打分，计算出对抗性损失，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像；

所述合成网络生成器包括：编码器、多尺度特征融合模块和解码器；其中：

2.根据权利要求1所述的人脸表情编辑系统，其特征在于，还包括如下任一项或任意多项：

所述表情条件判别器为基于条件满足程度的判别器，通过逐元素的平均平方距离来计算图像与条件的匹配损失作为表情损失；

所述合成网络判别器采用瓦瑟斯坦距离作为对抗损失，对图像分块处理下的不同块做判别，最后求取平均值作为真实度。

3.一种人脸表情编辑方法，其特征在于，包括以下步骤：

利用合成网络判别器，通过对生成人脸图片进行真假打分，计算出对抗性损失，从而对合成网络生成器合成的生成人脸图片质量进行优化，以更接近真实人脸图像；

所述计算从源表情动作单元向量到目标表情动作单元向量的相对动作单元向量的方法，包括：

v_rel＝v_tgt-v_src

v_inter＝v₁+α(v₂-v₁)-v_src,0≤α≤1

其中，v_inter为插值相对动作单元向量，v₁和v₂为任意两个目标表情动作单元向量，α为0到1之间的实数；

所述将相对动作单元向量作为输入条件，与待编辑的源人脸图像一起送入合成网络生成器，合成符合目标人脸表情的图片，包括：

4.根据权利要求3所述的人脸表情编辑方法，其特征在于，所述利用编码器，对输入的源人脸图像进行特征抽取，得到不同分辨率的编码特征f_i中：

采用卷积层，将源人脸图像映射到编码器的多个特征空间中，得到不同分辨率下的编码特征f_i。

5.根据权利要求3所述的人脸表情编辑方法，其特征在于，所述将编码器第n层的编码特征与相对动作单元向量级联，然后依次通过卷积层、归一化层和激活层，输出的图像特征与编码器第n-1层的编码特征送入第m层多尺度特征融合模块中：

fc＝concat(f_i,v_rel)

f_i'＝MSF(fc,v_rel,f′_i+1)

6.根据权利要求3所述的人脸表情编辑方法，其特征在于，所述多尺度特征融合模块输出的融合特征与解码器解码得到的图像特征再次级联融合，最终解码合成符合目标表情的生成人脸图像中：

7.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求3至6中任一项所述的方法。