CN115050087B

CN115050087B - 一种人脸关键点身份和表情解耦方法及装置

Info

Publication number: CN115050087B
Application number: CN202210981411.8A
Authority: CN
Inventors: 梁森; 李融; 陈奕铮
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-18
Anticipated expiration: 2042-08-16
Also published as: CN115050087A

Abstract

本发明公开了一种人脸关键点身份和表情解耦方法及装置，该方法包括：建立模型、训练模型和模型推断三个部分。本发明首先是从人脸图片中进行提取的人脸关键点，然后基于变分自编码器构建模型，其编码器部分将人脸关键点解耦成两个正交的身份隐变量和表情隐变量，解码器部分融合两者并解码成人脸关键点；采集大量的人脸说话视频数据，提取视频每帧的人脸关键点坐标，构建模型并训练模型直至收敛，得到最佳的模型参数用于模型的推断。对任意输入的人脸关键点解耦成身份和表情隐变量，任意组合两者可以生成新的人脸关键点。

Description

一种人脸关键点身份和表情解耦方法及装置

技术领域

本发明涉及计算机动画和内容生成领域，尤其是涉及了一种人脸关键点身份和表情解耦方法及装置。

背景技术

随着深度学习在计算视觉领域的快速发展，人脸解耦表示学习已经获得了内容创造类应用的广泛兴趣，例如人脸再现、头像动画，以及语音驱动人脸说话等。人脸解耦表示学习的核心在于将人脸分解为不同的人脸表示属性，例如身份属性、表情属性和头部姿势属性，其中身份属性表示该人脸是谁，头部姿势属性表示该人脸在世界坐标系中的旋转方向及平移，表情属性表示该人脸具有什么样的表情，比如嘴巴张开的幅度，眼睛闭合的幅度等。

目前人脸的表示模型主要有三种，分别为基于二维外观的人脸关键点表示、基于三维网格的参数化人脸模型，以及基于特征的人脸表示。人脸关键点是一种人脸面部形状和表情的稀疏表示，在多种人脸任务中具有广泛的应用。三维参数化人脸模型通常被称为3DMM，是一种三维面部或头部网格的参数化表示，并由不同的人脸属性组合表示的，比如身份、表情、光照和纹理等属性，具有控制灵活和编辑简单的优势。基于特征的人脸表示模型主要是将人脸图像像素编码到一个特征隐编码空间中，然后在将其应用于不同的下游任务中，比如人脸识别和人脸编辑。

人脸关键点表示模型在上述三种人脸表示中最简单且高效。然而，与基于3DMM的人脸表示模型不同的是，它不具有将人脸属性解耦的能力。如何将人脸关键点分解成具有语义信息的身份和表情属性仍然是当前的一个挑战，原因主要有三点：其一，人脸关键点在二维空间中的表示是稀疏且离散的，这使得难以对身份和表情属性的语义信息进行建模；其二，当前公开数据集中拥有大量的人脸标注数据，但是缺少对身份属性和表情属性的标注数据集，因此很难直接训练基于监督学习的回归模型。其三，当前的方法主要是单一的对某种因素进行回归求解，并没有一种统一的表示框架对人脸关键点进行解耦。

在计算机动画和多媒体领域，对人脸关键点的身份、表情、动作等因素进行解耦是一个很重要的研究方向。该技术可以将人脸关键点的信息进行解耦，然后重新组合，从而实现换脸、动作迁移、表情迁移等内容生成，其在互联网娱乐、短视频创作、动画制作等众多领域有着广泛的需求。

发明内容

针对现有技术的不足，本发明提供一种基于变分自编码器的人脸关键点身份和表情解耦方法对对任意输入的人脸关键点解耦成身份和表情隐变量，任意组合两者可以生成新的人脸关键点。

一种人脸关键点身份和表情解耦方法，包括如下步骤：

（1）提取数据集：使用相机拍摄的方法获取大量的人脸说话视频文件，通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集；

（2）构建模型：所述模型为基于变分自编码器的人脸关键点解耦表示模型，包含编码模块和解码模块，具体为，所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦，生成身份属性隐编码表示空间和表情属性隐编码表示空间；所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样，将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建，得到解码重建的人脸关键点；

（3）模型训练：利用步骤（1）中提取的数据集训练步骤（2）中构建的基于变分自编码器的人脸关键点解耦表示模型，再利用优化损失函数项训练模型直至其收敛，最后得到最佳模型参数的训练模型；

（4）模型推断：利用用步骤（3）中最佳模型参数的训练模型，对任意输入的人脸关键点解耦成身份和表情的隐表示空间；且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。

进一步地，所述步骤（2）中变分自编码器的编码器的解耦具体为：首先使用四层感知机来提取输入的人脸关键点的特征，然后分别并行输入身份嵌入网络和表情嵌入网络中，其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差，即隐表示空间，最后完成对身份和表情的解耦。

进一步地，所述步骤（2）中变分自编码器的解码器的解码重建具体为：首先应用重参数化技巧对身份和表情隐编码分布进行采样得到身份属性的隐编码变量

和表示表情属性的隐编码变量

，然后拼接这两个向量做为解码器的输入，最后通过一个四层感知机网络重建输入的人脸关键点。

进一步地，步骤（3）中所述损失函数项分别为变分损失函数项

，隐编码不变损失项

，隐编码循环不变损失项

，身份保持损失项

和数据不变损失项

；由这五种损失函数项构成了模型优化的目标函数，将人脸关键点的解耦成身份属性和表情属性两个隐编码空间，重建出原始输入的人脸关键点和学习各个属性的语义信息，即让每个隐编码空间表征其对应属性的信息，以及使两个属性相互分离并同时保持其各自的语义信息。

具体地，所述变分损失函数项

的表达式如下：

其中，E为数学期望；

表示人脸关键点

基于身份和表情属性的条件分布概率，用对角协方差矩阵的多元高斯分布来表示，

和

分别表示编码器对人脸关键点

解耦出的身份和表情的概率分布，

和

分别表示身份和表情属性隐空间的先验概率分布，

表示是KL散度，

和

是用来平衡这三者的超参数。

具体地，所述隐编码不变损失项

的表达式如下：

其中

和

分别是来自同一图像

但具有不同的表情

和表情

的人脸关键点；同样的，

和

分别来自不同的图像

和

但具有相同的表情

的人脸关键点，

和

分别表示身份属性编码网络和表情属性编码网络，两者分别可以将输入的人脸关键点

映射到身份和表情的隐表示空间中。

具体地，所述隐编码循环不变损失项

的计算公式如下：

其中，

和

表示身份属性编码网络和表情属性编码网络，

表示解码器网络，

表示具有任意表情的身份A的人脸关键点，

表示具有特定表情

的任意身份的人脸关键点，另外，

分别表示

的身份隐表示变量和

的表情隐表示变量，

分别表示

的身份隐表示变量和

的表情隐表示变量。

具体地，所述身份保持损失项

的表达式如下：

其中

是距离函数,

是边缘超参数，max是取最大值的函数。

具体地，所述数据不变损失项

表达如下：

其中，

表示解码器网络，

分别表示

的身份和表情隐表示变量，

和

分别表示

的身份隐表示变量和

的表情隐表示变量。

一种人脸关键点身份和表情解耦装置，包括：

提取模块：使用相机拍摄的方法获取大量的人脸说话视频文件，通过人脸关键点算法从视频文件中提取得到包含人脸关键点序列的数据集；

构建模块：所述模型为基于变分自编码器的人脸关键点解耦表示模型，包含编码模块和解码模块，具体为，所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦，生成身份属性隐编码表示空间和表情属性隐编码表示空间；所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样，将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建，得到解码重建的人脸关键点；

训练模块：利用提取模块所提取的数据集训练构建模块所构建的基于变分自编码器的人脸关键点解耦表示模型，再利用优化损失函数项训练模型直至其收敛，最后得到最佳模型参数的训练模型；

推断模块：利用训练模块得到的最佳模型参数的训练模型，对任意输入的人脸关键点解耦成身份和表情的隐表示空间；且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。

本发明的有益效果如下：

本发明提出了一种基于变分自编码器的人脸关键点身份和表情解耦方法，该方法包含一个编码模块和一个解码模块，编码模块可以将人脸关键点解耦成身份和表情两种因素，解码模块能够和并这两种因素生成对应的人脸关键点，这种模型设计能够支持不同的人的表情进行迁移，以及身份的迁移。另外本发明提出的模型是基于生成模型，能生成多样性结果，在内容创作中具有较大的优势。

附图说明

图1是本发明的模型框架图；

图2是本发明的测试生成结果图；

图3是本发明的装置流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

由图3所示，一种人脸关键点身份和表情解耦装置，包括：

如图1所示，一种人脸关键点身份和表情解耦方法，包含如下步骤：

步骤一：从人脸图像中提取得到一个包含

个人脸关键点序列的数据集

，其中每个人脸关键点

表示具有68个二维关键点。为了实现人脸的解耦表示，把包含人脸关键点序列的数据集输入到变分自编码的编码器中进行身份和表情的解耦，将每个人脸关键点使用一个隐变量（Latent Variable）

表示，其主要有两个正交部分组成，分别为表示身份属性的隐编码变量

和表示表情属性的隐编码变量

。两种隐变量的先验分布可以简单的定义为对角高斯分布（Diagonal Gaussian Distribution）。因此，隐变量

的先验分布为

，任意一个人脸关键点的边缘似然概率为

：

其中，

和

分别表示

的均值和方差，* 表示身份属性或者表情属性，

代表生成模型的参数，

是人脸关键点

基于身份和表情属性的条件分布，用对角协方差矩阵的多元高斯分布来表示。

本发明采用变分自编码器（VAE）的解码器来近似真实的后验，然后用其编码器

来推断生成身份隐表示空间和表情隐表示空间，其网络结构如图1所示，

的表达式如下：

其中，

代表编码器网络的参数，

和

分别表示身份隐编码分布和表情隐编码空间，都建模为正态分布，由编码器推测出其均值和方差。

前者输出两个后验概率分布用来表示人脸关键点的身份信息和表情信息，后者合并两种信息解码生成它自身。

在编码器模块中，如图1中的编码器部分，本发明使用四层感知机（MLP，Multi- Layer Perception）来提取输入的人脸关键点的特征，然后分别并行输入身份嵌入网络

和表情嵌入网络

中，其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差。在编码器和解码器中，本发明使用ReLU函数作为激活函数，以实现模型的非线性建模和高效训练。总体而言，编码器可以表述为两个映射函数：

将输入的人脸关键点

映射到身份隐表示空间的高斯分布参数

和

，

将输入的人脸关键点

映射到表情隐表示空间的高斯分布参数

和

，具体公式如下：

在解码器模块中，如图1中的解码器部分，首先应用重参数化技巧（Reparameterization Skill）对身份和表情隐编码分布进行采样得到

和

；然后合并这两者做为解码器的输入，通过一个四层的感知机网络重建得到一个与输入的人脸关键点一致的

。其过程如下公式所描述：

其中，

是随机采样函数，

是标准正态分布，

和

是身份隐表示空间分布均值和标准方差，

和

是表情隐表示空间分布均值和标准方差，

和

分别为表示身份属性的隐编码变量和表情属性的隐编码变量，

是重建得到的人脸关键点，是对人脸关键点

进行重建的结果，

表示解码器网络。

为了训练本发明提出的基于变分自编码器的人脸关键点解耦表示模型，需要构建损失函数对模型进行优化。其构建原则主要是为了推动模型将人脸关键点的解耦成身份属性和表情属性两个隐编码空间。因此，为保证精确的重建出原始输入的人脸关键点和学习各个属性的语义信息，即让每个隐编码空间表征其对应属性的信息，以及使两个属性相互分离并同时保持其各自的语义信息，为此，本发明提出了五个损失函数项，分别是变分损失函数项

，隐编码不变损失项

，隐编码循环不变损失项

，身份保持损失项

，以及数据不变损失项

。下面对这五个损失函数项进行具体说明。

其一，变分损失函数项（Evidence Lower Bound Loss，

）。根据变分自编码器的理论，对变分自编码器结构进行优化，需要对输入数据的边缘似然概率的变分下界（Variational Lower Bound，也称为Evidence Lower Bound，ELBO）进行了优化。在本发明中，其需要优化数据对数似然，以及和表情和身份的Kullback-Leibler (KL) 散度项组成，具体损失函数项如下所描述：

其中，第一项为数据对数似然项，也称为数据重构项，它约束模型的输入和重构输出保持一致。身份KL散度项推动着身份隐表示的后验分布

与其先验分布

保持一致；同理，表情KL散度项推动着表情隐表示的后验分布

与其先验分布

保持一致，其中

和

在本章中采用的是标准正态作为其先验分布，其中

和

是用来平衡隐变量KL散度项与数据对数似然项的超参数。

其二，隐编码不变损失（Latent-level Invariant Loss，

）。本发明的主要目标是从人脸关键点表示中将其身份和表情信息进行解耦。根据观察，当一个属性的隐编码被另一个具有相同属性的人脸关键点的该属性隐编码替换时，其重建得到的人脸关键点应该保持不变。换而言之，即当对身份信息进行解耦时，身份属性隐编码应该对表情信息的变化保持不变；同理，当对表情信息进行解耦时，表情属性隐编码应该对身份信息的变化保持不变。因此，可引入一个在隐编码层级上的不变损失项

来对身份和表情属性的隐编码进行约束，其具体计算表示为：

其中

和

分别是来自同一图像

但具有不同的表情

和表情

的人脸关键点；同样的，

和

分别来自不同的图像

和

但具有相同的表情

的人脸关键点。为了对身份属性进行解耦，应该通过最小化

和

的身份隐编码的距离来使得人脸关键点的身份隐编码在表情属性变化时能够保持其自身的不变性；与此相反，为了对表情属性进行解耦，应该通过最小化

和

的表情隐编码的距离来使得人脸关键点的表情隐编码在身份属性变化时能够保持其自身的不变性。

其三，循环不变损失（Cycle-level Invariant Loss，

）。为了使本发明在表示不同属性的语义信息时具有更强的鲁棒性，提出了一个基于隐编码层级的循环不变损失项

。该损失项的核心思路在于当某一属性的隐编码被交换后，其重建结果再次进行解码后得到的其它属性的隐编码应该保持不变。具体而言，当给定两个任意不同身份的人脸关键点

和

，首先进行解码分别得到身份和表情的隐编码，然后交换其身份隐编码，再次分别进行解码的到新的人脸关键点

和

，最后再次对重建的人脸关键点进行分别解码，得到新的身份和表情的隐编码，此时两者的表情隐编码应该和第一次编码得到的表情隐编码保持一致。同理，也可以对任意不同表情的人脸关键点

和

做同样的约束，因此其损失项的表达式可

以计算如下：

其中，E为数学期望符号，

和

表示身份属性编码网络和表情属性编码网络，

表示解码器网络，

表示具有任意表情的身份A的人脸关键点，

表示具有特定表情

的任意身份的人脸关键点。另外，

分别表示

的身份隐表示变量和

的表情隐表示变量，

分别表示

的身份隐表示变量和

的表情隐表示变量。

其四，数据不变损失（Data-level Invariant Loss，

）。与循环不变损失项的原理类似，本发明在数据层次上提出了一个数据不变损失项

以对循环重建得到人脸关键点进行约束，其核心思路在于当某一属性的隐编码被具有相同属性的其它人脸关键点的该属性隐编码替换后，其重建得到的人脸关键点应该与其自身保持相似。具体而言，

和

解码得到身份隐编码应该是一致的，因此交换两者的身份隐编码并再次进行重建得到人脸关键点应该与各自原本的人脸关键点保持一致；同理可知，

和

解码得到的表情隐编码应该是一致的，因此交换两者的表情隐编码并再次进行重建得到人脸关键点应该与各自原本的人脸关键点保持一致，其损失项公式表示如下：

其中，

表示解码器网络，

分别表示

的身份和表情隐表示变量，

和

分别表示

的身份隐表示变量和

的表情隐表示变量。

其五，身份不变损失（Identity-level Invariant Loss，

）。在实际模型训练中，本发明发现人脸关键点的身份隐编码空间很难收敛，其原因可能是由于本发明将身份属性和头部姿势属性结合为一个隐表示空间，因此具有相同身份属性但包含不同头部姿势的人脸关键点的身份隐编码会具有略微不太相同的编码。在这种情况下，本发明提出了一种身份保持损失项

来优化该问题，其核心原理主要在于让具有相同身份属性但具有不同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离比不具有相同身份属性但具体相同头部姿势属性或表情属性的人脸关键点的身份隐编码之间的距离更近。具体而言，利用

，

和

构成一个数据三元组，其中

和

构成一个正样本，其具有相同的身份属性但具有不同的表情属性，

和

构成一个负样本，其具有不同的身份属性但具有不同的表情属性，因此该三元组可以构成一个三元组（Triplet）函数以组建成身份不变损失项，其表达式如下：

其中

是一个距离函数,

是该身份不变损失函数的边缘超参数，max是一个取最大值的函数。

综上五个损失函数项，本发明提出的基于变分自编码器的人脸关键点解耦表示模型可以构建一个统一的损失函数，如下面公式所示，从而进行端到端的模型训练：

其中

、

、

和

分别表示

、

和

损失项的权重，用于平衡不同损失项之间对模型贡献的比例。

为了验证本发明提出模型具有较好的解耦性能，本发明从测试数据集中随机选择8个目标人脸关键点，其中包含4种不同的身份属性并且每种身份有2种表情属性，以及4个驱动人脸关键点，其中包含2种不同的身份属性并且每种身份有2种表情属性；然后分别对这些人脸关键点进行解耦得到其身份属性隐编码和表情属性隐编码；之后分别组合目标人脸关键点的身份隐编码和驱动人脸的表情隐编码进行重建得到新的驱动人脸关键点，其得到的实验结果如图2所示。从实验结果中可以发现，重新组合并重建得到的人脸关键点可以较好的保留目标人脸关键点的身份信息，并且也能比较好的保持驱动人脸关键点的表情信息，这表明的本发明提出的基于变分编码器的人脸关键点检测模型(FLD-VAE)模型具有较好的解耦能力。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种人脸关键点身份和表情解耦方法，其特征在于，包括如下步骤：

（3）模型训练：利用步骤（1）中提取的数据集训练步骤（2）中构建的基于变分自编码器的人脸关键点解耦表示模型，再利用优化损失函数项训练模型直至其收敛，最后得到最佳模型参数的训练模型；所述损失函数项分别为变分损失函数项

，隐编码不变损失项

，隐编码循环不变损失项

，身份保持损失项

和数据不变损失项

；由这五种损失函数项构成了模型优化的目标函数，将人脸关键点的解耦成身份属性和表情属性两个隐编码空间，重建出原始输入的人脸关键点和学习各个属性的语义信息，即让每个隐编码空间表征其对应属性的信息，以及使两个属性相互分离并同时保持其各自的语义信息；

（4）模型推断：利用步骤（3）得到的最佳模型参数的训练模型，对任意输入的人脸关键点解耦成身份和表情的隐表示空间；且任意组合不同的身份和表情隐表示变量生成新的人脸关键点。

2.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述步骤（2）中变分自编码器的编码器的解耦具体为：首先使用四层感知机来提取输入的人脸关键点的特征，然后分别并行输入身份嵌入网络和表情嵌入网络中，其中每个嵌入网络输出一个对角高斯分布的均值和对数标准差，即隐表示空间，最后完成对身份和表情的解耦。

3.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述步骤（2）中变分自编码器的解码器的解码重建具体为：首先应用重参数化技巧对身份和表情隐编码分布进行采样得到身份属性的隐编码变量

和表示表情属性的隐编码变量

4.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述变分损失函数项

的表达式如下：

其中，E为数学期望；

表示人脸关键点

和

分别表示编码器对人脸关键点

解耦出的身份和表情的概率分布，

和

分别表示身份和表情属性隐空间的先验概率分布，

表示是KL散度，

和

是用来平衡这三者的超参数。

5.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述隐编码不变损失项

的表达式如下：

其中

和

分别是来自同一图像

但具有不同的表情

和表情

的人脸关键点；同样的，

和

分别来自不同的图像

和

但具有相同的表情

的人脸关键点，

和

映射到身份和表情的隐表示空间中。

6.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述隐编码循环不变损失项

的计算公式如下：

其中，E为数学期望符号，

和

表示身份属性编码网络和表情属性编码网络，

表示解码器网络，

表示具有任意表情的身份A的人脸关键点，

表示具有特定表情

的任意身份的人脸关键点；

另外，

分别表示

的身份隐表示变量和

的表情隐表示变量，

分别表示

的身份隐表示变量和

的表情隐表示变量。

7.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述身份保持损失项

的表达式如下：

其中，

是距离函数,

是边缘超参数，max是取最大值的函数。

8.根据权利要求1所述的一种人脸关键点身份和表情解耦方法，其特征在于，所述数据不变损失项

表达如下：

其中，

表示解码器网络，

分别表示

的身份和表情隐表示变量，

和

分别表示

的身份隐表示变量和

的表情隐表示变量。

9.一种人脸关键点身份和表情解耦装置，其特征在于，包括：

构建模型：所述模型为基于变分自编码器的人脸关键点解耦表示模型，包含编码模块和解码模块，具体为，所述编码模块是将人脸关键点输入基于变分自编码器的编码器进行身份和表情的解耦，生成身份属性隐编码表示空间和表情属性隐编码表示空间；所述解码模块是对身份属性隐编码表示空间和表情属性隐编码表示空间进行采样，将采样后得到的身份属性的隐编码变量和表示表情属性的隐编码变量合并输入变分自编码器的解码器中解码重建，得到解码重建的人脸关键点；