CN114724214A

CN114724214A - 一种基于面部动作单元的微表情编辑方法及系统

Info

Publication number: CN114724214A
Application number: CN202210331968.7A
Authority: CN
Inventors: 范启伟; 陈俊龙; 张通
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-07-08
Anticipated expiration: 2042-03-31

Abstract

本发明公开了一种基于面部动作单元的微表情编辑方法及系统，方法包括：获取训练数据，并对训练数据进行预处理；通过优化训练模块对中性生成器进行模型训练；通过优化训练模块对图像编码器、表征编码器以及解码器进行模型训练；将目标人脸图像输入至训练完成的中性生成器，得到目标人物的无表情人脸图像；将目标人物的无表情人脸图像输入至训练完成的图像编码器，得到指定尺寸的带有身份信息的张量T₁；将目标人物人脸区域的表征数据和带有目标人物身份信息的张量T₁输入至训练完成的表征编码器，得到混合有目标人物人脸表情的结果张量T₂；将结果张量T₂输入至训练完成的解码器，得到带有表情的目标人脸图像。本发明能保证编辑有效性，且编辑效果更真实。

Description

一种基于面部动作单元的微表情编辑方法及系统

技术领域

本发明涉及面部微表情编辑的技术领域，尤其涉及到一种基于面部动作单元的微表情编辑方法及系统。

背景技术

人脸面部表情变化本质上是面部肌肉的变化，不同表情表达乃是肌肉的变动而已，例如微笑的表情主要的肌肉变化是笑肌高抬、嘴角上翘，眼睛微眯等，其他表情也类似。面部运动编码系统(FACS，Facial Action Coding System)从人脸解剖学的角度，预先定义了44个面部动作单元(Action Unit，简称AU)用于描述人脸局部区域的肌肉运动，每一个AU都代表了面部的一个细节部位的运动。例如左嘴角上翘、右嘴角下垂、眉毛抬起等。任意的表情及其变化都可以使用44个AU组成的向量表示。不单单描述表情的类型，表情表达的强烈程度在FACS中被描述，AU的编码形式上可以是一个44维度数学向量，各个维度的数值大小对应着该AU的强度。例如，微笑与大笑具有相似的AU向量表达，两者之间在几何空间上的余弦距离很小——被激活的AU是相似的，区别在于两者的模的大小。由于FACS具有详尽的人脸面部相关运动的描述能力，现如今，FACS除了用于描述人脸面部的表情之外，也作为表情数据库和相关人像视频数据库的标签信息。

对于表情编辑技术方法，计算机视觉在近代的大力发展赋能了其技术飞跃。当前已有的技术路线中，定位人脸位置后，经典的机器视觉方法可以利用面部关键点进行模板匹配进行固定像素迁移后，再使用线性插值法填充迁移像素部分的疏缝部分，便得到对应表情；此外还有使用固定匹配的表情贴图，并对交叠部分的像素进行线性融合以便自然。

除了经典的机器视觉方法之外，深度学习技术同样可应用于表情编辑任务之中。利用带有对应表情的同身份数据集，可以训练生成生成对应表情的生成网络。除此之外，也有利用条件生成网络模型通过控制条件改变对应生成表情，该方法需要额外的正则模型来约束生成网络。

但现有的表情编辑方法中的机器视觉方法主要是将图片信息视为数字信号进行处理，主要包括像素迁移、覆盖替代与数据融合，将对应表情的处理步骤，该方法存在明显挑战，如：人脸表情在构成部分及其变化中，面部各部分之间存在联动关系，并且表情的变化还存在着纹理的改变，例如产生微笑会带来一些皱纹褶皱的出现与迁移。纹理的变化、相关部位的迁移等人脸表情细节的展现，若处理不当容易使生成的人脸图片产生“恐怖谷效应”。

而深度学习，虽然其作为一种先进的计算方法，能利用有效的模型设计，能在高维空间对人脸数据进行编辑，但现有的深度学习方法学习难度大，任务处理过程中往往会因为身份属性——长相、光照、阴影、姿态角度等因素导致无法有效地编辑人脸图像。

发明内容

本发明的目的在于克服现有技术的不足，提供一种能保证编辑有效性、编辑效果更真实的基于面部动作单元的微表情编辑方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于面部动作单元的微表情编辑方法，包括：

获取训练数据，并对训练数据进行预处理；

结合预处理后的数据，通过优化训练模块对中性生成器进行模型训练；

在中性生成器训练完成的基础上，通过优化训练模块对图像编码器、表征编码器以及解码器进行模型训练，得到训练完成的图像编码器、表征编码器以及解码器；

将目标人脸图像输入至训练完成的中性生成器，得到目标人物的无表情人脸图像；

将目标人物的无表情人脸图像输入至训练完成的图像编码器，得到指定尺寸的带有身份信息的张量T₁；

将目标人物人脸区域的表征数据和带有目标人物身份信息的张量T₁输入至训练完成的表征编码器，得到混合有目标人物人脸表情的结果张量T₂；

将混合有目标人物人脸表情的结果张量T₂输入至训练完成的解码器，得到带有表情的目标人脸图像。

进一步地，训练数据预处理时，包括得到人脸区域的AU属性；

所述表征编码器为AU编码器。

进一步地，训练数据预处理包括：

使用通用的计算机视觉库将人脸区域裁剪出来并提取出对应人脸区域的AU属性；

统计训练样本的均值以及标准差后进行标准化与归一化处理，接着使用随机裁剪方式进行数据增广。

进一步地，通过优化训练模块对中性生成器进行模型训练时，利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束，该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性；

训练包括：

其中，

为中性生成器对应的目标函数；

为优化训练模块配置的判别器的目标函数，用于与中性生成器对抗训练；

为真实的无表情人脸图像与所述的生成的无表情人脸图像之间的对抗损失函数；

生成的无表情人脸图像所对于的表情分类损失；

为身份属性特征层的损失函数；

为生成的无表情人脸图像与真实的无表情人脸图像之间的预定义特征层的损失函数；λ₁、λ₂、λ₃、λ_p与λ_cls均为预设的权重系数；G_neu为中性生成器，即G_neu(x)为生成器生成的无表情人脸图像；D_neu为优化训练模块配置的无表情判别器，用于判别图像的真实性；D_{neu_cls}为D_neu的另一分支分类输出判别图像的表情类别，函数中使用交叉熵作为该项损失损失函数P_g指代拟合生成的无表情人脸图像的数据分布，式子中x′～P_g表示样本变量x′服从该分布，x′是拟合生成的无表情人脸；P_r指代真实域的无表情人脸图像的数据分布，式中x～P_r表示样本变量x若服从该分布，则x是真实域的无表情人脸；

指代真实的任意表情人脸图像的数据分布，则

指代真实的k个表情类别中第i种表情人脸图像的数据分布，k为可分类的表情的总数，式中

表示样本变量x若服从该分布，则x是第i种表情的人脸图像，

则表示x是有任意一种表情的人脸图像。

进一步地，所述对抗损失函数项

如下式所示：

所述的表情分类损失函数项

如下式所示；

所述身份属性特征层的损失函数项

如下式所示：

所述深度特征层的损失函数项

下式所示：

其中，||||₁表示L1范数；

为身份提取器；f为预训练分类器的特征层；

表示样本

是任意表情的人像x所对应的真实域的无表情样本。

进一步地，通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练时，利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束，该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别；

训练包括：

为训练目标图像编码器、AU编码器和解码器为生成部件总集合的损失函数；

为优化训练模块在对应的训练中配置的判别器的目标函数，用于与生成部件总集合对抗训练；

为合成图像的张量T₂与真实图像的张量T₁之间的对抗损失函数项；

为目标AUs被AU编码器映射至隐式空间后表情张量ΔT的损失函数；

为AU编码器将表情张量ΔT与身份张置

合成的图像张量T₂的损失函数项，其中

指代由无表情真实图像编码得到的张量同时指代着身份信息；

配置为针对输入图像的AUs，利用其中性样本反构出原始的图像损失函数项；

配置为针对合成图像张量T₂对其进行AU属性的甄别从而并进行约束的正则损失函数项；λ_aumap、λ_interp、λ_recon、λ_reg、λ_p、λ_{D_reg}皆为预设的权重系数；G_au为AU编码器M与图像编码器E前后衔接部件的公式化，其将输入图像x与目标AUs编码后融合计算得到输出结果的张量，G_au(x，AUs)＝M(M₁(AUs)，E(G_neu(x)))，其中M₁为解码器M在编码目标AUs的计算结果；D_au为优化训练模块在对应的训练配置的判别器对于张量真实性甄别的输出；D_{au_cls}为优化训练模块在对应的训练配置的判别器对任意张量的AU属性预测输出，设为正则项；P_au为在数据集

中任意样本的AU的数据分布，式子中AUs～P_au表示目标AUs服从该分布，即AUs是

数据集中任意样本中的属性。

进一步地，所述对抗损失函数项

如下式所示：

所述表情张量ΔT的损失函数项

如下式所示：

所述AU编码器中有关表情张量ΔT与身份张量

之间的损失函数项

如下式所示：

所述反构损失函数项

如下式所示：

所述AU属性正则项损失函数项

如下式所示：

G_neu(x)为生成器生成的无表情人脸图像，||||₁表示L1范数。

为实现上述目的，本发明另外提供一种基于面部动作单元的微表情编辑系统，包括训练数据获取模块、训练数据预处理模块、中性生成器、图像编码器、表征编码器、解码器、优化训练模块；

所述训练数据获取模块，用于获取训练数据；

所述训练数据预处理模块，用于对训练数据进行预处理；

所述中性生成器配置为无表情生成器，用于将输入的目标人脸生成为代表着身份信息的中性表情图像；

所述图像编码器，用于将目标人物的无表情人脸图像转化为指定尺寸的带有身份信息的张量T₁；

所述表征编码器，用于将目标表情的表征向量计算生成与张量T₁相同尺寸的张量ΔT，将T₁与ΔT融合计算得到结果张量T₂；

所述解码器，用于对T₂进行解码计算，得到带有表情的目标人脸图像；

所述优化训练模块，用于对中性生成器、图像编码器、表征编码器、解码器进行模型训练。

进一步地，所述训练数据预处理模块进行数据预处理后，得到包括人脸区域的AU属性在内的数据。

进一步地，所述表征编码器为AU编码器。

与现有技术相比，本技术方案原理及优点如下：

1、本技术方案中的中性生成器可以将任意表情的人脸图像，生成无表情的中性样本。且由于优化训练模块的设计，其对应的判别器的多任务设计使得中性生成器能够有效地获取更真实的无表情中性样本。

2、本技术方案中的AU编码器可以利用AU属性所指代的微表情信息融入到无表情中性样本中，从而达到了编辑表情的效果。且由于优化训练模块的设计，对应的判别器所具有的多任务设计使得AU编码器与图像编码器分别将AU信息与图像信息编码后进一步有效地结合计算得到输出张量，经过解码器解码后并最终得到真实性的计算效果。

3、利用AU信息作为输入信息，能够有效地操控每个表情的强度变化以及组合变化，生成的表情具有更高的自由度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于面部动作单元的微表情编辑方法的原理流程图；

图2为本发明实施例一种基于面部动作单元的微表情编辑方法中在线编辑的原理流程图；

图3为本发明一种基于面部动作单元的微表情编辑系统的连接框图。

具体实施方式

下面结合具体实施方式对本发明作进一步说明：

如图1所示，本实施例所述的一种基于面部动作单元的微表情编辑方法，包括：

S1、获取训练数据，并对训练数据进行预处理；

训练数据预处理包括：

统计训练样本的均值以及标准差后进行标准化与归一化处理，接着使用随机裁剪方式进行数据增广；

S2、结合预处理后的数据，通过优化训练模块对中性生成器进行模型训练；

本步骤中，利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束，该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性；

训练包括：

其中，

为中性生成器对应的目标函数；

生成的无表情人脸图像所对于的表情分类损失；

为身份属性特征层的损失函数；

指代真实的任意表情人脸图像的数据分布，则

表示样本变量x若服从该分布，则x是第i种表情的人脸图像，

则表示x是有任意一种表情的人脸图像。

对抗损失函数项

如下式所示：

所述的表情分类损失函数项

如下式所示；

所述身份属性特征层的损失函数项

如下式所示：

所述深度特征层的损失函数项

下式所示：

其中，||||₁表示L1范数；

为身份提取器；f为预训练分类器的特征层；

表示样本

是任意表情的人像x所对应的真实域的无表情样本。

S3、在中性生成器训练完成的基础上，通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练，得到训练完成的图像编码器、AU编码器以及解码器；

本步骤中，利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束，该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别；

训练包括：

为AU编码器将表情张量ΔT与身份张置

合成的图像张量T₂的损失函数项，其中

数据集中任意样本中的属性。

对抗损失函数项

如下式所示：

所述表情张量ΔT的损失函数项

如下式所示：

所述AU编码器中有关表情张量ΔT与身份张量

之间的损失函数项

如下式所示：

所述反构损失函数项

如下式所示：

所述AU属性正则项损失函数项

如下式所示：

G_neu(x)为生成器生成的无表情人脸图像，||||₁表示L1范数。

如图2所示，在线编辑的原理对应步骤S4-S7。

S4、将目标人脸图像输入至训练完成的中性生成器，得到目标人物的无表情人脸图像；

S5、将目标人物的无表情人脸图像输入至训练完成的图像编码器，得到指定尺寸的带有身份信息的张量T₁；

S6、将目标人物人脸区域的AU属性和带有目标人物身份信息的张量T₁输入至训练完成的AU编码器，得到混合有目标人物人脸表情的结果张量T₂；

S7、将混合有目标人物人脸表情的结果张量T₂输入至训练完成的解码器，得到带有表情的目标人脸图像。

如图3所示，本实施例还另外涉及到一种基于面部动作单元的微表情编辑系统，其包括训练数据获取模块、训练数据预处理模块、中性生成器、图像编码器、AU编码器、解码器、优化训练模块；

其中，训练数据获取模块，用于获取训练数据；

训练数据预处理模块，用于对训练数据进行预处理；

中性生成器配置为无表情生成器，用于将输入的目标人脸生成为代表着身份信息的中性表情图像；

图像编码器，用于将目标人物的无表情人脸图像转化为指定尺寸的带有身份信息的张量T₁；

AU编码器，用于将目标表情的AU向量计算生成与张量T₁相同尺寸的张量ΔT，将T₁与ΔT融合计算得到结果张量T₂；

本实施例中，中性生成器可以将任意表情的人脸图像，生成无表情的中性样本。且由于优化训练模块的设计，其对应的判别器的多任务设计使得中性生成器能够有效地获取更真实的无表情中性样本。

AU编码器可以利用AU属性所指代的微表情信息融入到无表情中性样本中，从而达到了编辑表情的效果。且由于优化训练模块的设计，对应的判别器所具有的多任务设计使得AU编码器与图像编码器分别将AU信息与图像信息编码后进一步有效地结合计算得到输出张量，经过解码器解码后并最终得到真实性的计算效果。

利用AU信息作为输入信息，能够有效地操控每个表情的强度变化以及组合变化，生成的表情具有更高的自由度。

另外，上述中，

AU编码器模块采用神经网络进行数据的计算与处理，也可以采用其他的算法，如隐马尔科夫模型HMM、循环神经网络RNN、机器学习模型transformer以及Broad learningsystem等。

优化训练模块提供了AU属性作为各单元判别器的预测输出的优选方案，也可以将其他的人脸相关的特征作为辅助判别器的目标，如人脸特征点信息、如图像HOG图等。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于面部动作单元的微表情编辑方法，其特征在于，包括：

获取训练数据，并对训练数据进行预处理；

2.根据权利要求1所述的一种基于面部动作单元的微表情编辑方法，其特征在于，训练数据预处理时，包括得到人脸区域的AU属性；

所述表征编码器为AU编码器。

3.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法，其特征在于，训练数据预处理包括：

4.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法，其特征在于，通过优化训练模块对中性生成器进行模型训练时，利用生成对抗网络的方式引入一个多任务判别器对中性生成器进行辅助训练和训练约束，该多任务判别器的任务是判别生成图像的真伪以及判别图像的AU属性；

训练包括：

其中，

为中性生成器对应的目标函数；

生成的无表情人脸图像所对于的表情分类损失；

为身份属性特征层的损失函数；

为生成的无表情人脸图像与真实的无表情人脸图像之间的预定义特征层的损失函数；λ₁、λ₂、λ₃、λ_p与λ_cls均为预设的权重系数；G_neu为中性生成器,即G_neu(x)为生成器生成的无表情人脸图像；D_neu为优化训练模块配置的无表情判别器，用于判别图像的真实性；D_{neu_cls}为D_neu的另一分支分类输出判别图像的表情类别，函数中使用交叉熵作为该项损失损失函数P_g指代拟合生成的无表情人脸图像的数据分布，式子中x′～P_g表示样本变量x′服从该分布，x′是拟合生成的无表情人脸；P_r指代真实域的无表情人脸图像的数据分布，式中x～P_r表示样本变量x若服从该分布，则x是真实域的无表情人脸；

指代真实的任意表情人脸图像的数据分布，则

表示样本变量x若服从该分布，则x是第i种表情的人脸图像，

则表示x是有任意一种表情的人脸图像。

5.根据权利要求4所述的一种基于面部动作单元的微表情编辑方法，其特征在于，所述对抗损失函数项

如下式所示：

所述的表情分类损失函数项

如下式所示；

所述身份属性特征层的损失函数项

如下式所示：

所述深度特征层的损失函数项

下式所示：

其中，|| ||₁表示L1范数；

为身份提取器；f为预训练分类器的特征层；

表示样本

是任意表情的人像x所对应的真实域的无表情样本。

6.根据权利要求2所述的一种基于面部动作单元的微表情编辑方法，其特征在于，通过优化训练模块对图像编码器、AU编码器以及解码器进行模型训练时，利用生成对抗网络结构引入一个多任务判别器对目标模型进行约束，该多任务判别器的任务是对隐式空间中的图像张量进行真伪判别以及AU属性判别；

训练包括：

为AU编码器将表情张量ΔT与身份张量

合成的图像张量T₂的损失函数项，其中

配置为针对合成图像张量T₂对其进行AU属性的甄别从而并进行约束的正则损失函数项；λ_aumap、λ_interp、λ_recon、λ_reg、λ_p、λ_{D_reg}皆为预设的权重系数；G_au为AU编码器M与图像编码器E前后衔接部件的公式化，其将输入图像x与目标AUs编码后融合计算得到输出结果的张量,G_au(x，AUs)＝M(M₁(AUs)，E(G_neu(x)))，其中M₁为解码器M在编码目标AUs的计算结果；D_au为优化训练模块在对应的训练配置的判别器对于张量真实性甄别的输出；D_{au_cls}为优化训练模块在对应的训练配置的判别器对任意张量的AU属性预测输出，设为正则项；P_au为在数据集