CN109829959B

CN109829959B - 基于人脸解析的表情编辑方法及装置

Info

Publication number: CN109829959B
Application number: CN201811593470.8A
Authority: CN
Inventors: 赫然; 张兆翔; 卢治合; 胡坦浩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2021-01-08
Anticipated expiration: 2038-12-25
Also published as: CN109829959A

Abstract

本发明涉及计算机图形学技术领域，具体涉及一种基于人脸解析的表情编辑方法及装置，旨在解决如何在保持人物身份的前提下，更好地对无表情人脸进行表情编辑的技术问题，为此目的，本发明提供的基于人脸解析的表情编辑方法包括：基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取无表情人脸图像和表情强度控制编码对应的有表情人脸解析图；基于预设的人脸表情编辑网络并且根据有表情人脸解析图和无表情人脸图像，获取目标表情图像。基于上述步骤，可以在保持人物身份信息的前提下，对无表情人脸进行不同强度和不同表情的编辑。

Description

基于人脸解析的表情编辑方法及装置

技术领域

本发明涉及计算机图形学技术领域，具体涉及一种基于人脸解析的表情编辑方法及装置。

背景技术

表情编辑是一种典型的图形学处理技术，其主要任务是在保持人物身份的前提下，将人脸表情从源表情转化到目标表情。然而由于人脸的类别多样、强度变化和纹理形变等问题，使得人脸表情编辑技术仍存在一些具有挑战性的问题。

目前，人脸表情编辑的方法主要包括图像重排序、基于流的方法和三维重建等。图像重排序的方法是利用数据库中图像或图像块进行重新排序以接近目标表情，该方法很难处理表情变化较大的人脸表情编辑。基于流的方法是先计算源域图像和目标域图像之间在流图上的差异，利用差异信息指导合成目标人脸表情，然而其编辑效果并不佳。基于三维重建的人脸表情编辑，其编辑效果和性能表现较好，但是其编辑复杂度高，计算效率低，难以推广应用。

相应地，本领域需要一种新的表情编辑方法来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决如何在保持人物身份的前提下，更好地对无表情人脸进行表情编辑的技术问题，为此目的，本发明的第一方面，提供了一种基于人脸解析的表情编辑方法，所述表情编辑方法包括：

基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取所述无表情人脸图像和表情强度控制编码对应的有表情人脸解析图；

基于预设的人脸表情编辑网络并且根据所述有表情人脸解析图和无表情人脸图像，获取目标表情图像；

其中，所述人脸解析预测网络和人脸表情编辑网络均是利用机器学习算法构建的生成对抗网络模型，所述表情强度控制编码包括表情控制编码和强度控制编码。

进一步地，本发明提供的一个优选实施方案为：

在“基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取所述无表情人脸图像和表情强度控制编码对应的有表情人脸解析图”的步骤之前，所述方法还包括：

基于人脸数据库获取有表情人脸解析图标签以及所述有表情人脸解析图标签对应的无表情人脸图像样本；

获取所述有表情人脸解析图像标签对应的表情强度控制编码；

基于所述无表情人脸图像样本、所述有表情人脸解析图像标签对应的表情强度控制编码与所述有表情人脸解析图标签，并且利用所述机器学习算法训练所述人脸解析预测网络；

其中，所述有表情人脸解析图标签为真实的有表情人脸图像对应的解析图。

进一步地，本发明提供的一个优选实施方案为：

所述人脸解析预测网络包括第一生成器、第一判别器和第二判别器，“利用所述机器学习算法训练所述人脸解析预测网络”的步骤包括：

初始化所述人脸解析预测网络的网络参数；

基于所述第一生成器并且根据所述无表情人脸图像样本与所述有表情人脸解析图像标签对应的表情强度控制编码，生成有表情人脸解析图；

基于所述有表情人脸解析图标签和无表情人脸图像样本构建第一真样本对，基于所述生成的有表情人脸解析图和无表情人脸图像样本构建第一假样本对；

以所述有表情人脸解析图标签作为第二真样本，以所述生成的有表情人脸解析图作为第二假样本；

利用所述第一判别器对所述第一真样本对和第一假样本对进行真假判断，以及利用所述第二判别器对所述第二真样本和第二假样本进行真假判断；

利用所述第一判别器的判断结果和所述第二判别器的判断结果，计算所述人脸解析预测网络的损失函数，并且根据所述损失函数更新所述人脸解析预测网络的网络参数，对更新后的人脸解析预测网络重新进行网络训练，直至满足预设的收敛条件。

进一步地，本发明提供的一个优选实施方案为：

所述人脸解析预测网络的损失函数包括生成器损失函数

和判别器损失函数

所述生成器损失函数

和判别器损失函数

分别如下式所示：

其中，所述

表示与所述第一判别器对应的第一生成器损失函数，所述

表示与所述第二判别器的第一生成器损失函数，所述L_pixel1表示预设的基于L₁范数的度量函数，所述L_tv表示预设的正则化项，所述

表示所述第一判别器对应的损失函数，所述

表示所述第二判别器对应的损失函数；

并且其中，所述第一判别器对应的第一生成器损失函数

所述

表示基于I^N在概率分布下的期望，所述D_FP1表示所述第一判别器，所述I^N表示所述无表情人脸图像样本，所述G_FP表示所述第一生成器，所述I_L表示所述强度控制编码，所述E_L表示所述表情控制编码；

所述第二判别器的第一生成器损失函数

所述D_FP2表示所述第二判别器；

所述基于L₁范数的度量函数

所述

表示基于I^N，FP^E在概率分布下的期望，所述FP^E表示所述有表情人脸解析图标签，所述“||||₁”表示L₁范数；

所述正则化项

所述C,W,H分别表示所述人脸解析预测网络输入图像的通道、宽度和高度，所述

分别表示所述人脸解析预测网络输入图像中在位置(w+1,h,c)、(w,h,c)、(w,h+1,c)处的像素，所述“||”表示求绝对值符号，所述λ₁和λ₂分别表示预设的权重系数；

所述第一判别器对应的损失函数

所述第二判别器对应的损失函数

所述

表示基于FP^E在概率分布下的期望。

进一步地，本发明提供的一个优选实施方案为：

在“基于预设的人脸表情编辑网络并且根据所述有表情人脸解析图和无表情人脸图像，获取目标表情图像”的步骤之前，所述方法还包括：

获取无表情人脸图像样本、有表情人脸解析图样本和有表情人脸图像标签；

基于所述无表情人脸图像样本、生成的有表情人脸解析图样本和有表情人脸图像标签，迭代训练所述人脸编辑网络；

其中，所述有表情人脸解析图样本为所述无表情人脸图像样本对应的有表情人脸解析图，所述有表情人脸图像标签为所述无表情人脸图像样本和有表情人脸解析图样本对应的真实的有表情人脸图像。

进一步地，本发明提供的一个优选实施方案为：

所述人脸表情编辑网络包括第二生成器、第三判别器和第四判别器，“基于所述无表情人脸图像样本、生成的有表情人脸解析图样本和有表情人脸图像标签，迭代训练所述人脸编辑网络”的步骤包括：

初始化所述人脸表情编辑网络的网络参数；

基于所述第二生成器并且根据所述无表情人脸图像样本和有表情人脸解析图样本，生成有表情人脸图像；

基于所述有表情人脸图像标签和无表情人脸图像样本构建第三真样本对，基于所述生成的有表情人脸图像和无表情人脸图像样本构建第三假样本对；

基于所述有表情人脸解析图样本、有表情人脸图像标签和无表情人脸图像样本构建第四真样本对，基于所述有表情人脸解析图样本、生成的有表情人脸图像和无表情人脸图像样本构建第四假样本对；

基于所述第三判别器对所述第三真样本对和第三假样本对进行真假判断，以及基于所述第四判别器对所述第四真样本对和第四假样本对进行真假判断；

基于所述第三判别器的判断结果和所述第四判别器的判断结果，计算所述人脸表情编辑网络的损失函数，并且根据所述损失函数更新所述人脸表情编辑网络的网络参数，对更新后的人脸表情编辑网络重新进行网络训练，直至满足预设的收敛条件。

进一步地，本发明提供的一个优选实施方案为：

在“基于所述第二生成器并且根据所述无表情人脸图像样本和有表情人脸解析图样本，生成有表情人脸图像”的步骤之后，所述方法还包括：

分别提取所述生成的有表情人脸图像的身份特征和无表情人脸图像样本的身份特征；

分别提取所述生成的有表情人脸图像的表情特征和有表情人脸图像标签的表情特征；

计算所述生成的有表情人脸图像的身份特征和无表情人脸图像样本的身份特征的相似度，获取第一相似值；

计算所述生成的有表情人脸图像的表情特征和有表情人脸图像标签的表情特征的相似度，获取第二相似值；

基于所述第一相似值和第二相似值更新所述第二生成器的网络参数。

进一步地，本发明提供的一个优选实施方案为：

所述人脸表情编辑网络的损失函数包括生成器损失函数

和判别器损失函数

所述生成器损失函数

和判别器损失函数

分别如下式所示：

其中，所述

表示与所述第三判别器对应的第二生成器损失函数，所述

表示与所述第四判别器对应的第二生成器损失函数，所述L_pixel2表示预设的基于L₁范数的度量函数，所述L_ip表示预设的身份保持损失函数，所述L_ep表示预设的表情保持损失函数，所述F_ep表示预设的表情特征提取函数，所述L_tv表示预设的正则化项，所述

表示所述第三判别器对应的损失函数，所述

表示所述第四判别器对应的损失函数，所述λ₃,λ₄,λ₅,λ₆分别表示预设的权重系数；

并且其中，所述第三判别器对应的第二生成器损失函数

所述

表示基于I^N，

在概率分布下的期望，所述D_FE3表示所述第三判别器，所述I^N表示无表情人脸图像样本，所述G_FE表示所述第二生成器，所述

表示所述生成的有表情人脸解析图样本；

所述第四判别器对应的第二生成器损失函数

所述

表示基于I^N在概率分布下的期望，所述D_FE4表示所述第四判别器，所述I_L表示所述强度控制编码，所述E_L表示所述表情控制编码；

所述基于L₁范数的度量函数

所述

表示基于I^N，I^E，

在概率分布下的期望，所述I^E表示所述有表情人脸图像标签；

所述身份保持损失函数

所述F_ip表示预设的身份特征提取函数，所述“||||₁”表示表示L₁范数；

所述表情保持损失函数

所述F_ep表示预设的表情特征提取函数；

所述第三判别器对应的损失函数

所述

示基于I^N，I^E在概率分布下的期望；

所述第四判别器对应的损失函数

本发明的第二方面，还提供了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于人脸解析的表情编辑方法。

本发明的第三方面，还提供了一种控制装置，包括：处理器，适于执行各条程序；存储设备，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于人脸解析的表情编辑方法。

与最接近的现有技术相比，上述技术方案至少具有如下有益效果：

本发明提供的基于人脸解析的表情编辑方法主要包括如下步骤：基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取无表情人脸图像和表情强度控制编码对应的有表情人脸解析图；基于预设的人脸表情编辑网络并且根据有表情人脸解析图和无表情人脸图像，获取目标表情图像。基于上述步骤可以在保持人物身份信息的前提下，对无表情人脸进行不同强度和不同表情的编辑。

进一步地，基于有表情人脸解析图和无表情人脸图像，获取目标表情图像，以有表情人脸解析图作为约束，更能明确地指导多样性表情的编辑合成，其收敛速度更快、编辑合成效果更好，泛化能力更强。

进一步地，在人脸表情编辑网络的损失函数中加入了身份保持损失函数和表情损失函数，即在图像特征层面进行身份约束和表情约束，以提高人脸表情编辑合成的精确度。

附图说明

图1为本发明实施例中一种基于人脸解析的表情编辑方法的主要步骤示意图；

图2为本发明实施例中一种基于人脸解析的表情编辑方法的主要流程示意图；

图3为本发明实施例中一种基于CK+人脸表情数据库的人脸解析预测网络的测试对比示意图；

图4为本发明实施例中一种基于CK+人脸表情数据库的人脸表情编辑网络的测试对比示意图；

图5为本发明实施例中一种人脸解析预测网络和人脸表情编辑网络中不同结构对人脸编辑性能影响的对比示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

为了保证人脸表情编辑后的逼真效果和保持编辑对象的身份特性，本发明基于人脸解析并且设计了端到端的模型进行人脸表情编辑任务。本发明提出了两个生成对抗网络模型，分别是人脸解析预测网络和人脸表情编辑网，通过人脸解析的生成对抗网络学习拟合目标表情图像和无表情人脸图像之间的高度非线性关系，并且在特征层面增加了身份保持约束和表情保持约束，可以很好地保持编辑对象的身份信息和表情信息。下面结合附图对本发明提供的基于人脸解析的表情编辑方法进行详细说明。

参阅附图1，图1示例性示出了基于人脸解析的表情编辑方法的主要步骤，如图1所示，基于人脸解析的表情编辑方法可以包括：

步骤S101：基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取无表情人脸图像和表情强度控制编码对应的有表情人脸解析图。

步骤S102：基于预设的人脸表情编辑网络并且根据有表情人脸解析图和无表情人脸图像，获取目标表情图像。

具体地，人脸解析预测网络是利用机器学习算法构建的生成对抗网络模型，其以无表情人脸图像和表情强度控制编码作为网络的输入数据，以有表情人脸解析图像作为输出数据。表情强度控制编码包括表情控制编码和强度控制编码，表情控制编码可以是利用数字0和1构建的8位向量编码，例如，以00000001表示表情“笑”，以“00000010”表示表情“怒”，以“00000100”表示表情“哀”，以“00001000”表示表情“哭”等等，每个向量编码表示一种表情，即可以根据所需要编辑的目标表情图像，设置相应的表情控制编码。强度控制编码可以是利用单浮点值编码，从0.1到1设置10个表情强度等级，利用当表情控制编码对应的是表情是“笑”时，0.1表示“微笑”，1表示“大笑”，其他单浮点值依次表示从微笑到大笑的强度递增。又例如当表情控制编码对应的表情是“怒”时，从0.1到1依次表示从微怒到极为愤怒的愤怒程度递增。

人脸解析预测网络可以包括第一生成器、第一判别器和第二判别器。第一生成器可以利用对称卷积神经网络结构先后进行上、下采样操作，以保证生成的有表情人脸解析图大小与真实的有表情人脸解析图大小一致。本实施中，第一生成器的对称卷积神经网络结构由13层卷积层构成，其中每个卷积层都是4×4大小滤波器，步长为2，填充值为1，滤波器的个数先增后减，上、下采样过程中卷积层与其对应的反卷积层在通道通路上进行结合。第一判别器和第二判别器对偶设置，第一判别器和第二判别器可以均采用卷积神经网络结构对其输入数据进行真假判断，并且均是采用分块对抗损失函数来判断真假。本实施中，第一判别器和第二判别器的输入数据大小为14×14。

人脸解析预测网络的网络训练方法可以包括如下步骤：

步骤S201：基于人脸数据库获取有表情人脸解析图标签以及有表情人脸解析图标签对应的无表情人脸图像样本。具体地，有表情人脸解析图标签为真实的有表情人脸图像对应的解析图。为了扩大训练样本的数量，增强人脸解析预测网络的泛化能力，在人脸解析预测网络的训练过程中，对表情人脸解析图标签以及有表情人脸解析图标签对应的无表情人脸图像样本进行随机裁剪得到相同大小训练图像，本实施例中，先将表情人脸解析图标签以及有表情人脸解析图标签对应的无表情人脸图像样本进行脸部68个特征点的提取，提取的特征点包括眼睛、鼻子、嘴巴、眉毛等位置的特征点，根据双眼的特征点获取双眼的位置，根据双眼的位置将训练图像规范化得到统一大小144×144，然后对规范后的训练图像随机裁剪得到128×128大小的训练图像。在人脸解析预测网络的测试阶段，将用于测试的无表情人脸图像样本以图像中心进行裁剪得到128×128大小的图像。

步骤S202：获取有表情人脸解析图像标签对应的表情强度控制编码。具体地，基于有表情人脸解析图像标签对应的表情以及表情强度并且根据预设的表情控制编码和强度控制编码的方法，获取有表情人脸解析图像标签对应的表情强度控制编码。

步骤S203：基于无表情人脸图像样本、有表情人脸解析图像标签对应的表情强度控制编码与有表情人脸解析图标签，并且利用机器学习算法训练人脸解析预测网络。具体地，步骤S203可以包括如下步骤：

步骤S2031：初始化人脸解析预测网络的网络参数；

步骤S2032：基于第一生成器并且根据无表情人脸图像样本与有表情人脸解析图像标签对应的表情强度控制编码，生成有表情人脸解析图；

步骤S2033：基于有表情人脸解析图标签和无表情人脸图像样本构建第一真样本对，基于生成的有表情人脸解析图和无表情人脸图像样本构建第一假样本对；本实施例中，[I^N,G_FP(I^N,I_L,E_L)]表示第一假样本对，[I^N,FP^E]表示第一真样本对。

步骤S2034：以有表情人脸解析图标签作为第二真样本，以生成的有表情人脸解析图作为第二假样本；本实施例中，G_FP(I^N,I_L,E_L)表示第二假样本，[I^N,I^E]表示第二真样本。

步骤S2035：利用第一判别器对第一真样本对和第一假样本对进行真假判断，以及利用第二判别器对第二真样本和第二假样本进行真假判断；

利用第一判别器的判断结果和第二判别器的判断结果，计算人脸解析预测网络的损失函数，并且根据损失函数更新人脸解析预测网络的网络参数，对更新后的人脸解析预测网络重新进行网络训练，直至满足预设的收敛条件。

其中，人脸解析预测网络的损失函数包括第一生成器损失函数及其对应的判别器损失函数，第一生成器损失函数如公式(1)所示：

其中，

表示与第一判别器对应的第一生成器损失函数，并且

表示基于I^N在概率分布下的期望，D_FP1表示第一判别器，I^N表示无表情人脸图像样本，G_FP表示第一生成器，I_L表示强度控制编码，E_L表示表情控制编码，

表示与第二判别器对应的第一生成器损失函数，并且

D_FP2表示第二判别器，L_pixel1表示预设的基于L1范数的度量函数，并且

表示基于I^N，

在概率分布下的期望，FP^E表示有表情人脸解析图标签，“||||₁”表示表示L₁范数，L_tv表示预设的正则化项，并且

C,W,H分别表示人脸解析预测网络输入图像的通道、宽度和高度，

分别表示人脸解析预测网络输入图像中在位置(w+1,h,c)、(w,h,c)、(w,h+1,c)处的像素，所述“||”表示求绝对值符号，所述λ₁和λ₂分别表示预设的权重系数；本实施中，λ₁，λ₂分别为10，10^-4，批处理的大小为5，学习率为2×10^-4。

第一生成器损失函数对应的判别器损失函数如公式(2)所示：

其中，

表示第一判别器对应的损失函数，并且

表示第二判别器对应的损失函数，并且

表示基于FP^E在概率分布下的期望。

人脸表情编辑网络是利用机器学习算法构建的生成对抗网络模型，其以无表情人脸图像和有表情人脸解析图为输入数据，以目标表情图像作为输出数据。人脸表情编辑网络包括第二生成器、第三判别器和第四判别器，其中，第三判别器和第四判别器为对偶设置。

人脸表情编辑网络的网络训练可以包括如下步骤：

步骤S301：获取无表情人脸图像样本、有表情人脸解析图样本和有表情人脸图像标签。具体地，有表情人脸解析图样本为无表情人脸图像样本对应的有表情人脸解析图，有表情人脸图像标签为无表情人脸图像样本和有表情人脸解析图样本对应的真实的有表情人脸图像。为了增强人脸表情编辑网络的泛化能力，对训练数据进行数据增强处理，即在人脸表情编辑网络的训练阶段，对无表情人脸图像样本、有表情人脸解析图样本和有表情人脸图像标签进行随机裁剪得到相同大小的训练图像。

步骤S302：基于无表情人脸图像样本、生成的有表情人脸解析图样本和有表情人脸图像标签，迭代训练人脸编辑网络；具体地，步骤S302可以包括如下步骤：

步骤S3021：初始化人脸表情编辑网络的网络参数；

步骤S3022：基于第二生成器并且根据所述无表情人脸图像样本和有表情人脸解析图样本，生成有表情人脸图像；

可选的，为了更好的保持编辑对象的身份特征和表情特征，还可以增加一个身份保持约束和表情保持约束，即在步骤S3022之后，还可以包括：分别提取生成的有表情人脸图像的身份特征和无表情人脸图像样本的身份特征；分别提取生成的有表情人脸图像的表情特征和有表情人脸图像标签的表情特征；计算生成的有表情人脸图像的身份特征和无表情人脸图像样本的身份特征的相似度，获取第一相似值；计算生成的有表情人脸图像的表情特征和有表情人脸图像标签的表情特征的相似度，获取第二相似值；基于第一相似值和第二相似值更新第二生成器的网络参数。

步骤S3023：基于有表情人脸图像标签和无表情人脸图像样本构建第三真样本对，基于生成的有表情人脸图像和无表情人脸图像样本构建第三假样本对；本实施例中，

表示第三假样本对，[I^N,I^E]表示第三真样本对。

步骤S3024：基于有表情人脸解析图样本、有表情人脸图像标签和无表情人脸图像样本构建第四真样本对，基于有表情人脸解析图样本、生成的有表情人脸图像和无表情人脸图像样本构建第四假样本对；本实施例中，

表示第四假样本对，

表示第四真样本对。

步骤S3025：基于第三判别器对第三真样本对和第三假样本对进行真假判断，以及基于第四判别器对所述第四真样本对和第四假样本对进行真假判断；

步骤S3026：基于第三判别器的判断结果和第四判别器的判断结果，计算人脸表情编辑网络的损失函数，并且根据损失函数更新人脸表情编辑网络的网络参数，对更新后的人脸表情编辑网络重新进行网络训练，直至满足预设的收敛条件。

人脸表情编辑网络的损失函数包括第二生成器损失函数及其对应的判别器损失函数，第二生成器损失函数如公式(3)所示：

其中，

表示与第三判别器对应的第二生成器损失函数，并且

表示基于I^N，

在概率分布下的期望，D_FE3表示第三判别器，I^N表示无表情人脸图像样本，G_FE表示第二生成器，

表示生成的有表情人脸解析图样本，

表示与第四判别器对应的第二生成器损失函数，并且

D_FE4表示第四判别器，I_L表示强度控制编码，E_L表示表情控制编码，L_pixel2表示预设的基于L₁范数的度量函数，并且

，所述

表示基于I^N，I^E，

在概率分布下的期望，所述I^E表示有表情人脸图像标签，L_ip表示预设的身份保持损失函数，并且

，F_ip表示预设的身份特征提取函数，||||₁表示表示L₁范数，L_ep表示预设的表情保持损失函数，并且

，F_ep表示预设的表情特征提取函数，||||₁表示L₁范数，L_tv表示预设的正则化项，λ₃,λ₄,λ₅,λ6分别表示预设的权重系数；本实施中，λ₃,λ₄,λ₅,λ₆分别为10，0.01，0.01，10^-4，批处理大小为5，学习率为2×10^-4。

第二生成器损失函数对应的判别器损失函数如公式(4)所示：

其中，

表示第三判别器对应的损失函数，并且

表示基于I^N，I^E在概率分布下的期望，

表示第四判别器对应的损失函数，并且

最后，基于训练好的人脸解析预测网络和人脸表情编辑网络并且根据预先获取的无表情人脸图像和表情强度控制编码，进行人脸解析预测和表情编辑处理，得到目标表情图像，并对得到的目标表情图像进行人脸指标测试。本实施例中是对目标表情图像的人脸指标测试包括峰值信噪比(PSNR)、结构相似性(SSIM)和人脸验证。

参阅附图2，图2示例性示出了基于人脸解析的表情编辑方法的主要流程，如图2所示是利用训练好的人脸解析预测网络和人脸表情编辑网络进行人脸表情编辑任务。首先将无表情人脸图像和表情强度控制编码输入人脸解析预测网络生成有表情人脸解析图，人脸表情编辑网络根据无表情人脸图像和有表情人脸解析图生成目标表情图像。

为了详细说明本发明的具体实施方式以及验证本发明的有效性，下面以CK+人脸表情数据库为例，说明本发明提供的基于人脸解析的表情编辑方法。CK+人脸表情数据库包括123个人，共593个视频序列，共6种表情，其中表情强度从第一帧到最后一帧逐渐增强。具体地，为了训练人脸解析预测网络和人脸表情编辑网络，从视频序列中选择第一帧和视频序列第六帧后的图像作为训练样本，并按照身份将100对象的图像数据作为训练集，23个对象的图像数据作为测试集。利用脸部关键点提取网络进行关键点提取并进行人脸对齐预处理，然后利用人脸解析预测网络获取有表情人脸解析图。在人脸解析预测网络中，以无表情人脸图像样本和表情强度控制编码结合作为输入，以真实的有表情人脸图像对应的解析图作为有表情人脸解析图像标签，利用生成器和判别器之间的对抗及梯度反传训练该神经网络，直至最后网络收敛，得到训练好的人脸解析预测网络。在人脸表情编辑网络中，以无表情人脸图像样本和有表情人脸解析图样本结合作为输入，以无表情人脸图像样本和有表情人脸解析图样本对应的真实的有表情人脸图像作为有表情人脸图像标签，利用生成器和判别器之间的对抗及梯度反传训练该神经网络，直至最后网络收敛，得到训练好的人脸编辑网络。

参阅附图3，图3示例性示出了基于CK+人脸表情数据库的人脸解析预测网络的测试对比图。如图3所示从上往下数，第一行表示无表情人脸图像，第二行表示真实的有表情人脸图像，第三行表示真实的有表情人脸图像对应的解析图，第四行表示人脸解析预测网络生成的有表情人脸解析图，其中图3中每一列均为同一个编辑对象。通过对比可以发现人脸解析预测网络可以根据无表情人脸图像和表情强度控制编码生成有效的有表情人脸解析图。

参阅附图4，图4示例性示出了基于CK+人脸表情数据库的人脸表情编辑网络的测试对比图，如图4所示从上往下数，第一行表示无表情人脸图像，第二行表示的真实的有表情人脸图像，第三行表示人脸表情编辑网络生成的目标表情图像，其中，图4中的每一列表示同一个编辑对象。通过对比可知人脸表情编辑网络生成的目标表情图像具有有效保持人物身份信息和表情信息的能力。

参阅附图5，图5示例性示出了人脸解析预测网络和人脸表情编辑网络中不同结构对人脸编辑性能影响的对比结果，如图5所示采用三种数据库中数据，分别是Oulu-CASIA、CK+、CAS-PEAL-R1数据库，真正类率为判对样本中的正样本率，假正类率为负样本中的错判率，人脸验证的一般指标为在考虑假正类率为1％和0.1％的情况下真正类率的数值。图5中列出的各项指标为在不同的损失的配置下得到最终人脸验证准确率，包括真实人脸解析，无身份保持(即，无身份保持损失函数)，无表情保持(即，无表情损失函数)，无全局变量正则化，无身份、表情(即，无身份保持损失函数和无表情损失函数)、无身份、全局(即，无身份保持损失函数和无全局变量正则化)，无表情、全局(即，无表情保持损失函数和无全局变量正则化)无表情、身份、全局(即，无表情保持损失函数、无身份保持损失函数和无全局变量正则化)、最终方法(即，本发明基于人脸解析的表情编辑方法的损失函数)，从指标上来看，最终方法在大多数情况下性能表现最佳。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

进一步地，基于上述基于人脸解析的表情编辑方法实施例，本发明还提供了一种存储装置，该存储装置中可以存储有多条程序，程序适于由处理器加载并执行如上述的基于人脸解析的表情编辑方法。

再进一步地，基于上述基于人脸解析的表情编辑方法实施例，本发明还提供了一种处理装置，该处理装置可以包括处理器、存储设备；处理器，适于执行各条程序；存储设备，适于存储多条程序；程序适于由处理器加载并执行如上述的基于人脸解析的表情编辑方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤及装置，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于人脸解析的表情编辑方法，其特征在于，所述表情编辑方法包括：

基于预设的人脸表情编辑网络并且根据所述有表情人脸解析图和无表情人脸图像，获取目标表情图像，具体包括：获取无表情人脸图像样本、有表情人脸解析图样本和有表情人脸图像标签；

其中，所述人脸解析预测网络和人脸表情编辑网络均是利用机器学习算法构建的生成对抗网络模型，所述表情强度控制编码包括表情控制编码和强度控制编码；

所述人脸解析预测网络包括第一生成器、第一判别器和第二判别器，利用所述机器学习算法训练所述人脸解析预测网络；其中，所述人脸解析预测网络的损失函数包括与其生成器对应的损失函数和与其各个判别器对应的损失函数；

所述人脸表情编辑网络包括第二生成器、第三判别器和第四判别器，迭代训练所述人脸表情编辑网络；其中，所述人脸表情编辑网络的损失函数包括与其生成器对应的损失函数和与其各个判别器对应的损失函数。

2.根据权利要求1所述的基于人脸解析的表情编辑方法，其特征在于，在“基于预设的人脸解析预测网络并且根据预先获取的无表情人脸图像和表情强度控制编码，获取所述无表情人脸图像和表情强度控制编码对应的有表情人脸解析图”的步骤之前，还包括：

基于所述无表情人脸图像样本、所述有表情人脸解析图像标签对应的表情强度控制编码与所述有表情人脸解析图标签；

3.根据权利要求2所述的基于人脸解析的表情编辑方法，其特征在于，“利用所述机器学习算法训练所述人脸解析预测网络”的步骤包括：

初始化所述人脸解析预测网络的网络参数；

4.根据权利要求3所述的基于人脸解析的表情编辑方法，其特征在于，所述人脸解析预测网络的损失函数，具体包括：

生成器损失函数

和判别器损失函数

所述生成器损失函数

和判别器损失函数

分别如下式所示：

其中，所述

表示与所述第一判别器对应的第一生成器损失函数，所述

表示所述第一判别器对应的损失函数，所述

表示所述第二判别器对应的损失函数，所述λ₁和λ₂分别表示预设的权重系数；

并且其中，所述第一判别器对应的第一生成器损失函数

所述

所述第二判别器的第一生成器损失函数

所述D_FP2表示所述第二判别器；

所述基于L₁范数的度量函数

所述

表示基于I^N，FP^E在概率分布下的期望，所述FP^E表示所述有表情人脸解析图标签，所述“|| ||₁”表示L₁范数；

所述正则化项

分别表示所述人脸解析预测网络输入图像中在位置(w+1,h,c)、(w,h,c)、(w,h+1,c)处的像素，所述“| |”表示求绝对值符号；

所述第一判别器对应的损失函数

所述第二判别器对应的损失函数

所述

表示基于FP^E在概率分布下的期望。

5.根据权利要求1所述的基于人脸解析的表情编辑方法，其特征在于，在“基于预设的人脸表情编辑网络并且根据所述有表情人脸解析图和无表情人脸图像，获取目标表情图像”的步骤之前，所述方法还包括：

基于所述无表情人脸图像样本、生成的有表情人脸解析图样本和有表情人脸图像标签，迭代训练所述人脸表情编辑网络；

6.根据权利要求5所述的基于人脸解析的表情编辑方法，其特征在于，“基于所述无表情人脸图像样本、生成的有表情人脸解析图样本和有表情人脸图像标签，迭代训练所述人脸表情编辑网络”的步骤包括：

初始化所述人脸表情编辑网络的网络参数；

7.根据权利要求6所述的基于人脸解析的表情编辑方法，其特征在于，在“基于所述第二生成器并且根据所述无表情人脸图像样本和有表情人脸解析图样本，生成有表情人脸图像”的步骤之后，所述方法还包括：

8.根据权利要求7所述的基于人脸解析的表情编辑方法，其特征在于，所述人脸表情编辑网络的损失函数，具体包括：

生成器损失函数

和判别器损失函数

所述生成器损失函数

和判别器损失函数

分别如下式所示：

其中，所述

表示与所述第三判别器对应的第二生成器损失函数，所述

表示所述第三判别器对应的损失函数，所述

并且其中，所述第三判别器对应的第二生成器损失函数

所述

表示基于I^N，

表示所述生成的有表情人脸解析图样本；

所述第四判别器对应的第二生成器损失函数

所述

所述基于L₁范数的度量函数

所述

表示基于I^N，I^E，

所述身份保持损失函数

所述F_ip表示预设的身份特征提取函数，所述“|| ||₁”表示表示L₁范数；

所述表情保持损失函数

所述F_ep表示预设的表情特征提取函数；

所述第三判别器对应的损失函数

所述

表示基于I^N，I^E在概率分布下的期望；

所述第四判别器对应的损失函数

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1至8中任一项所述的基于人脸解析的表情编辑方法。

10.一种控制装置，包括：

处理器，适于执行各条程序；

存储设备，适于存储多条程序；

其特征在于，所述程序适于由处理器加载并执行以实现权利要求1至8中任一项所述的基于人脸解析的表情编辑方法。