CN114708586A

CN114708586A - 一种从图像和视频中提取三维人脸表征的方法

Info

Publication number: CN114708586A
Application number: CN202210427450.3A
Authority: CN
Inventors: 颜波; 何瑞安; 谭伟敏; 邢稹
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-07-05

Abstract

本发明属于图像与视频理解技术领域，具体为一种从图像和视频中提取三维人脸表征的方法。本发明通过构建一个三维无监督人脸表征学习网络模型来提取三维人脸表征；本发明从没有标签的自然人脸图像和视频中学习，使用表情变换模块从视频序列学习人脸表情的变化。本发明考虑到内部因素和外部环境，利用人脸的三维性质来解耦多达5个影响因素，包括人脸的材质、形状、表情、姿势和光照。本发明可以用于各种下游任务，如人脸表情识别、姿势估计、人脸验证和人脸正面化。

Description

一种从图像和视频中提取三维人脸表征的方法

技术领域

本发明属于图像与视频理解技术领域，具体涉及一种三维人脸表征提取方法。

背景技术

人脸在人类视觉感知中起着非常关键的作用，在传达身份、信息、表情和意图方面不可或缺。神经网络广泛用于计算机视觉任务中人脸的理解，包括人脸识别、人脸表情识别、姿势估计、人脸重建等，这些工作侧重于每个任务的表现，而忽略了对人脸的整体理解，而且需要大量的带标签数据。人脸表征学习是解决这一缺陷的方法，可作为人脸任务的预训练方法，它使用无监督的模式进行学习无标签样本。

自监督模型只受到来自样本本身的信息的监督，并学习从数据中提取其内部结构。自监督学习广泛应用于计算机视觉任务，包括分类、检测、生成和3D重建。已经有人为这些任务提出了各种类型的网络架构以获得更好的表示：生成模型以及对抗模型，生成模型，例如自动编码器(AE)和变分自动编码器(VAE)；对抗模型，例如生成对抗网络(GAN)。而表征学习是自监督学习中最重要的课题之一，也是一个旨在改善数据特征和提升下游预测器的独立领域。表征学习算法已经应用于很多机器学习任务，例如语言模型、图神经网络和视觉任务。可迁移的解释因素是表征学习的标准，而解耦表征也是一个重要的课题，已经做了很多工作。

一个好的人脸表征可以解耦变化的潜在因素。目前的方法仅使用二维特征，在解决人脸因素方面存在局限性。这会导致人脸表现不佳，从而使下游任务表现不佳。实际上，人脸图像由许多三维结构的因素组成，包括内部因素，即人脸的表情、形状和材质，以及外部因素，即光照和姿势。

对带材质的3D人脸建模已经研究了很长时间。最广泛使用的方法之一是3DMorphable Model(3DMM)[1]，随后进行了许多改进[2,3]。人脸模型是通过3D扫描做PCA得到的，需要大量的人力。并且表示空间受到模型的限制。很难将这些方法推广到自然的人脸图像。为了改进它，Unsup3d[4]和Lifting Autoencoders[5]提出了无监督人脸重建算法。然后，[6]使用标记的身份来实现更好的重构。但是上述方法并没有探索3D人脸模型在表征学习中的潜力。

人脸表征学习旨在为人脸任务获得更好的表征。许多监督学习方法被提出来解决这个问题，但它们需要大量的训练数据[7,8]。最近的一些人脸表征工作使用了3DMM[9,10]。他们需要较少的监督信息，但需要3D人脸先验。GAN是一种无监督的表示学习方法，一些论文沿用了这种方法[11]。然而，现有的工作仅限于某个数据集，并且很难为构建分类器提取通用的人脸表征。

发明内容

本发明的目的在于提供一种从图像和视频中提取三维人脸表征的方法，以便能高效、准确地进行人脸表情识别、姿势估计、人脸验证和人脸正面化等。

本发明中，所述三维人脸表征，包括内部因素和外部因素；其中，内部因素是指：形状、表情、材质；外部因素是指：姿势和光照。

本发明提供的从图像和视频中提取三维人脸表征的方法，构建一个三维无监督人脸表征学习网络模型，该网络模型是一种深度学习神经网络模型，本发明的具体步骤为：

(1)使用编码器从输入图像I分别提取人脸的形状、材质、表情、光照和姿势特征，具体包括：

使用形状编码器E_s提取人脸形状编码C_shape，使用材质编码器E_t提取人脸材质编码C_texture，使用表情编码器E_e提取人脸表情编码C_expr，使用光照编码器E_l提取光照编码C_light，使用姿势编码器E_p提取姿势编码C_pose；

(2)使用表情变换模块W来变换估计的人脸材质与形状；通过表情变换模块W能够使得提取到的人脸表情编码C_expr影响人脸形状编码C_shape和人脸材质编码C_texture的构成，使得提取出来的材质编码和形状编码根据表情不同而有所差异；

(3)根据提取的编码重构出人脸图像；首先使用材质生成器G_t,从提取的材质编码C_texture生成人脸材质图M_t；使用形状生成器G_s,从提取的人脸形状编码C_shape生成人脸深度图M_s；然后，使用渲染器R来使人脸材质图M_t、人脸深度图M_s、光照编码C_light、姿势编码C_pose合成新的人脸图像

渲染器R主要包括光照和投影两个过程；

(4)使用一种新的损失函数来评估重建图像

和输入图像I的差距；首先，使用一个置信度图生成器来预测图像中人脸区域的置信度，该置信度用来指导损失函数关注人脸区域；还使用VGG[12]网络来提取人脸图像的低级和高级语义特征来计算损失；

(5)使用单幅图像对模型进行预训练；

通过构建的神经网络学习框架，使用一定的约束条件进行优化，就能够从编码器提取形状C_shape、材质C_texture、光照C_light和姿势C_pose四种因素；最后使用这个网络输入人脸图像，预测人脸图像的人脸表征，进而对人脸姿势和正面样貌进行判断；

(6)使用视频对模型继续进行训练；

使用一定的约束条件进行优化，从编码器提取表情C_expr、形状C_shape、材质C_texture、光照C_light和姿势C_pose五种因素；使用这个网络输入视频帧序列，预测视频帧中人脸表征，进而对人脸表情、姿势、形状等等因素进行判断。

进一步地：

步骤(1)中，所述材质编码器E_t和形状编码器E_s是一种特征编码器，其结构如图4所示。这两个编码器具有相同的架构，它们都是使用批归一化层的卷积神经网络，输入R、G、B三通道的图像I能够产生256维的编码向量C_shape和C_texture，即：

C_shape＝E_s(I)，

C_texture＝E_t(I)， (1)。

步骤(1)中，所述指光照编码器E_l和姿势编码器E_p是数字编码器，其结构由图5所示。它们也是卷积神经网络，它们分别生成相应的光照和姿势参数，来控制之后的渲染工作。这两个编码器具有相同的结构，除了输出的编码维度略有不同。姿势编码器E_p生成的编码C_pose有6个维度，分别是三维坐标的的平移向量和的旋转角；光照编码器E_l生成的编码C_light有4个维度：环境光参数，漫反射参数和两个光照方向x，y。编码器的输出端使用激活函数Tanh将最终的输出扩展到-1和1之间，然后将其映射到相应的空间，即：

C_light＝E_l(I)，C_pose＝E_p(I) (2)。

步骤(1)中，所述表情编码器E_e不同于其他编码器，由于反向传播时梯度较小且不稳定，在训练表情提取时，上述编码器容易失效。因此，本发明采用一个有残差结构的ResNet18[12]来提取特征。和特征编码器一样，对一张R、G、B三通道输入图像I能够生成256维的编码向量C_expr，即：

C_expr＝E_e(I) (3)。

步骤(2)中，所述的表情变换模块W，是建模视频中人脸表情的关键模块，具体流程为：

首先，将从一系列视频帧中采样人脸形状编码C_shape和人脸材质编码C_texture，在特征空间中对它们进行平均得到

和

假设中性表情人脸可以通过采样序列的平均值来估计。

然后，用获得的人脸表情编码C_expr作为形状C_shape和材质C_texture参数的线性偏差，加入到获取的平均编码中，得到变换后的编码C′_shape和C′_texture。于是，表情变换模块W的过程可以表示为以下公式：

其中，符号

表示x在批量维度上进行平均。

W输入的是材质编码C_texture或形状编码C_shape，与表情编码C_expr；W输出的是变换后的形状代码C′_shape和材质代码C′_texture。这样，将这些特征解分成序列中的序列变异部分和序列不变部分，并分别计算梯度：

其中，第i个材质编码的梯度ΔC_texture,i来自一个序列中所有材质编码的梯度

的平均值，同样，第i个形状编码的梯度ΔC_texture,i来自一个序列中所有形状编码的梯度

的平均值；第i个表情编码的梯度ΔC_expr,i来自对应的形状编码的梯度

和对应的材质编码的梯度

的加和；λ_t是材质表达效应的比例因子，λ_s是形状表达效应的比例因子，通常，取λ_s＝λ_t＝1；||V||是输入视频序列V的长度；当生成器固定时，表情变换模块W从人脸形状编码C_shape和人脸材质编码C_texture在同一视频中的变化中学习表情对材质编码的影响。

步骤(3)中，所述的材质生成器G_t和形状生成器G_s，其网络结构包括堆叠卷积层、转置卷积层和组归一化层，图6中显示了详细的结构。该网络使用256维向量作为输入，材质生成器G_t最终产生3通道的材质图M_t输出，形状生成器G_s产生1通道人脸深度图M_s输出。最终的材质图M_t和深度图M_s用Tanh函数缩放到-1到1的范围，即：

M_t＝G_t(C_texture)，M_s＝G_s(C_shape)， (8)

步骤(3)中，所述渲染器R接受材质图M_t和深度图M_s，还有光照编码C_light、姿势编码C_pose作为参数，可以表示为以下公式。

是重建后的图像，R表示渲染的过程，主要包括光照和投影两个过程。在渲染过程中，首先，将深度图M_s转化为三维渲染管道中的三维网格；然后，将材质图M_t与网格进行融合，得到三维模型的真实表示。

进一步的，步骤(3)中所述的渲染器R的光照过程，使用简化的Phong光照模型，这是一个局部光照的经验模型。通过该光照模型可以从以下方程中得到每个点p的颜色I_p：

I_p＝k_a,p+∑_m∈lightsk_d,p(L_m·N_p)， (10)

其中，lights表示所有光源的集合，L_m表示从表面上的一个点m到每个光源的方向向量，N_p表示从深度图M_s直接得到的到表面的法线。k_a,p为点p环境光系数，k_d,p为点p的漫反射系数。本发明的模型忽略了人脸的镜面反射，因为在大多数情况下，人脸的镜面反射系数小到与漫反射相比可以忽略。光源的方向和强度由光照编码C_light提供，点p的漫反射系数由材质图M_t提供。

进一步的，步骤(3)所述的渲染器的投影过程，使用一个弱透视相机模型，也即光应该与相机平面正交。在透视投影下，成像二维点p与实际三维点位置P之间的转换如下：

p＝s_cK[R_c t_c]P， (11)

其中，K为照相机的内部参数。R_c和t_c是旋转和平移的外部参数，s_c是相机的缩放因子。R_c和t_c可以从姿势编码C_pose中获取。当材质图M_t和深度图M_s，还有光照编码C_light、姿势编码C_pose经过渲染器R的光照和投影就能够得到人脸的二维重建图像

步骤(4)中，所述的重建损失，包括从低像素水平到高特征水平的约束。损失函数由三部分组成：光度损失L_p，特征级损失L_f和身份损失L_i：

(1)光度损失L_p，特征级损失L_f可以表示如下：

其中，I表示输入图像，

表示重建图像。conv代表低级特征提取网络，是通过输入一个预训练过的VGG-19网络[12]提取其中的relu3_3特征来处理的。如图7所示，本发明使用编码器-生成器的结构来生成置信度图，表示为σ，σ_p是光度损失的置信度图，σ_f是特征级损失的置信度图。在这个模型中，光度损失和特征级损失受到估计置信度图σ的约束，基于置信度的评估函数L_conf可以使模型自行校准：

其中，L_conf有三个参数，重建图像

输入图像I，和置信度σ。Ω是有效区域，也就是重建图像

的非背景部分，|Ω|表示有效区域中点的数量。uv表示有效区域中的点坐标，σ_uv为该点的置信度，

表示该点在重建图像

和输入图像I上的像素RGB差值，∑_uv∈Ω表示对所有有效区域的点求和。exp表示自然指数运算，ln表示自然对数运算。

(2)上述损失的L_p和L_f并没有强调人脸的完整性，这很容易导致重建图像的人脸身份特征与原始图像相差很远。因此，本发明也使用了一种身份损失L_i来约束整个人脸的感知一致性。首先，利用函数g将重建图像I与原始图像

相结合，该函数利用原始图像的相应部分来填补重建图像没有的背景。然后，计算补充图像与原始图像之间的感知相似度(LPIPS)[14]，LPIPS试图提取VGG网络[12]中多层特征来计算图像间距离。身份L_i损失可以表示如下。

其中，f为感知相似度的VGG网络，g为填补函数，g有两个参数重建图像

输入图像I，因为重建图像的背景区域是缺失的，所以使用输入图像I的相应区域进行填补。<·>表示余弦距离，||·||表示模长。

(3)损失函数

可以表示为光度损失、较低的特征损失和身份损失的线性组合：

其中，λ_f和λ_i为特征级损失和身份损失的权重,通常取λ_f＝λ_i＝1。

(4)本发明还考虑计算左右脸水平翻转的重建图像得到的损失，并和以上损失线性加和得到最终损失函数：

其中，

是左右脸水平翻转的重建图像，L_tot是最终损失，flip是将材质图M_s和深度图M_t进行左右泛着变换，λ_flip是翻转重建图像的权重，通常取λ_flip＝0.5。接着使用反向传播算法，从损失计算网络的梯度，并更新网络的参数。

步骤(5)中，所述使用图像集，对模型进行预训练，具体流程为：将大型人脸图像集中的图像通过步骤(1)中的编码器得到人脸形状编码C_shape，材质编码C_texture，光照编码C_light，姿势编码C_pose。然后使用步骤(3)中的生成器从形状编码C_shape，材质编码C_texture得到材质图M_t和深度图M_s，公式表示如下：

M_s＝G_s(C_shape)＝G_s(E_s(I))， (18)

M_t＝G_t(C_texture)＝G_t(E_t(I))， (19)

其中，I为输入图像。E_s、E_t分别是形状、材质编码器，G_s、G_t分别是形状、纹理生成器。然后材质图M_t和深度图M_s与光照编码C_light，姿势编码C_pose通过渲染器R生成重建图像

然后，按照步骤(4)计算损失函数L_tot来进行反向传播，训练所有的编码器和生成器(表情编码器除外)。

测试时只需要使用编码器提取人脸形状编码C_shape，材质编码C_texture，光照编码C_light，姿势编码C_pose就可以进行姿势估计、人脸验证和人脸正面化等等后续任务。比如姿势估计就只需要将输入图像I通过姿势编码器E_p，得到姿势编码C_pose，就可以从参数中的得到预测的姿势。

步骤(6)中，所述使用视频对添加表情变换模块之后模型继续进行训练，其中，输入帧从同一视频序列中收集，它们具有不同表情和姿势的动作。与步骤(5)中的步骤不同的是，这里的表情变换模块W，可以将提取到的表情编码C_expr用来处理材质编码C_texture和形状编码C_s _ape,得到变换后的形状编码C′_shape和材质编码C′_texture。生成深度M_s和材质贴图M_t的过程可以用以下公式来表示：

M_s＝G_s(C′_shape)＝G_s(W(C_shape,C_expr))＝G_s(W(E_s(I),E_e(I)))， (20)

M_t＝G_t(C′_texture)＝G_t(W(C_texture,C_expr))＝G_t(W(E_t(I),E_e(I)))， (21)

其中，I为输入图像。E_s、E_t分别是形状、材质编码器，G_s、G_t分别是形状、纹理生成器。

结合之前提取的姿势C_pose和光照C_light信息，深度和材质贴图可以通过渲染器R生成重建的图像

当完成图像集模型训练时，可以很容易地在图像集模型上面添加表情变换模块W和表情编码器E_e，继续在视频上训练，得到适用于视频的模型。本发明使用视频来建模表达的重要原因是，视频中的人脸自然具有相同的身份和化妆。不需要进行任何注释。同时，视频帧包含大量的表情变化，很容易被解耦。测试时只需要将图片通过相应的编码器，就能够从人脸视频中解耦姿势，光照，形状，表情和材质，并且辅助下游各种任务的预测。

本发明的优越性在于以下几点：

(1)本发明提出了一种新颖的基于3D的无监督人脸表征学习模型框架。该模型可以从未标记的图像集和自然视频中学习解耦的3D人脸表征。而现有的人脸表征学习方法仅限于2D特征；

(2)本发明提出了一种新的无监督策略，使用表情变换模块从未注释的视频序列中学习3D人脸表情。3D人脸表情通常需要3D人脸先验来获取，而本发明能在没有任何标签或人脸先验的情况下，将3D人脸表情从身份特征中分离出来；

(3)本发明的模型增加了新的几何信息并探索了潜在的环境因素。本发明模型框架可以发现和解耦多达5个人脸表征因素，包括表情，形状，材质，光照和姿势。

附图说明

图1为基于三维解耦技术的人脸表征学习示意图。

图2为神经网络结构图示。

图3为特征编码器的架构图。

图4为数字编码器的架构图。

图5为表情变换模块结构图。

图6为材质和深度图生成器的架构图。

图7为置信度图生成器的架构图。

图8为中间结果的可视化图。

具体实施方式

(1)本发明使用CelebA数据集[15]从图像集中学习，并使用VoxCeleb数据集[16]从视频中学习。本发明用FaceNet[17]裁剪了CelebA和VoxCeleb数据集，并将其大小调整到128×128。本发明提出的模型是基于PyTorch框架实现的，并使用Adam优化器进行训练。编码器和解码器都是完全卷积的网络。批处理大小设置为16，且这两个训练阶段的学习率均为0.0001。本发明分别对30个时代的图像集和视频序列进行模型训练。

(2)本发明的渲染流程中人脸形状是一个二维的单通道矩阵，它表示人脸的深度图。本发明定义了一个网格，网格的大小与图像相同，它是128×128。它们的x轴和y轴坐标被缩放到-1和1之间，然后z轴坐标来自于深度贴图。这样，本发明得到了一个人脸的三维模型和每个点的法线，以供以后计算。人脸材质在渲染器中被表示为一个三通道的二维矩阵。表示RGB射线各面网格点的漫反射率。光照包括环境光强度、漫反射强度和光方向x、y。本发明是在建模定向光，所以只需要两个变量来描述光的方向。总的来说，本发明首先构建一个人脸形状的三维骨架，然后将人脸材料映射到三维骨架上。然后本发明用光线信息来确定人脸的颜色。最后，本发明使用相机公式来得到本发明以特定角度拍摄的图像，这等效于变换人脸的姿势。

(3)本发明的模型框架由图1所示，旨在从未标记的人脸图像和视频中分离出人脸的材质、形状、表情、姿势和灯光。采用三维分解来分解内部因素(下部)和外部因素(上部)。虚线表示人脸表情是从视频序列的变化中学习到的。这个框架可以有利于许多下游任务，颜色表示表示和任务之间的联系。

(4)本发明的神经网络结构由图2所示，把输入图像I输入编码器E_t、E_s、E_p和E_l，它们分别提取材质、形状、姿势和光照编码。材质图M_t和深度图M_s由使用生成器G_t和G_s的材质编码C_texture和形状编码C_shape生成。深度地图的阴影，以更好地可视化。最后，这两个映射连同姿势C_pose和光照C_light参数通过渲染器，得到最终的重建图像

当从视频中学习时，会有一个额外的表情编码器E_e。提取的表情编码C_expr通过表情变换模块W影响材质和形状编码，生成真正的形状编码C′_shape和材质编码C′_texture。提取的编码将用于人脸表情识别和人脸验证等下游任务。本发明的模型不需要任何监督信息或3DMM人脸模型。

(5)本发明的编码器的架构由图3、4所示，卷积(a、b、c)表示卷积层的核大小为a，步幅为b，填充量为c。卷积层下面的数字表示卷积核的数量。而组标准化层下面的数字表示组的数量。黄色箭头表示LeakyRelu激活函数，斜率为0.2。蓝色的箭头是Relu。

(6)本发明的表情变换模块结构由图5所示。以材质特征为例，首先将材质编码C_texture进行平均，然后添加到表情参数中，形成最终的输出编码。在反向传播过程中，序列变化的特征梯度流将流向表情编码器，而序列不变的特征部分将流向材质和形状编码器。

(7)本发明的生成器的架构由图6、7所示，卷积(a,b,c)和卷积T(a,b,c)分别表示卷积层和转置卷积层的核大小为a，步长为b，填充为c。模块下方的数字表示卷积核的数量。而组归一化层下方的数字表示组的数量。黄色箭头表示Leaky Relu激活函数，斜率为0.2。蓝色箭头是Relu。红色箭头是一个SoftPlus算子。置信度图生成器中的较短的路径用于特征级损失，较长的路径用于光度损失。

(8)本发明的生成结果由图8所示，从左到右：输入图像、中性深度图、深度图、中性人脸形状、人脸形状、中性材质图、材质图、重建图像。形状图像是通过对三维人脸模型(也即深度图)进行阴影处理得到的。

参考文献

[1]Volker Blanz and Thomas Vetter.1999.A morphable model for thesynthesis of3D faces.In SIGGRAPH’99.

[2]Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and XinTong.2019.Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From SingleImage to Image Set.In IEEE Computer Vision and Pattern RecognitionWorkshops.

[3]Yao Feng,Haiwen Feng,Michael J.Black,and TimoBolkart.2021.Learning ananimatable detailed 3D face model from in-the-wildimages.ACM Transactionson Graphics(TOG)40(2021),1–13.

[4]Shangzhe Wu,C.Rupprecht,and Andrea Vedaldi.2020.UnsupervisedLearningof Probably Symmetric Deformable 3D Objects From Images in theWild.2020IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)(2020),1–10.

[5]Mihir Sahasrabudhe,Zhixin Shu,Edward Bartrum,Riza Alp Güler,DimitrisSamaras,and Iasonas Kokkinos.2019.Lifting AutoEncoders:UnsupervisedLearning of a Fully-Disentangled3D Morphable Model Using DeepNon-RigidStructureFrom Motion.2019 IEEE/CVF International Conference onComputerVision Workshop(ICCVW)(2019),4054–4064.

[6]Yujun Shen,Jinjin Gu,Xiaoou Tang,and Bolei Zhou.2020.InterpretingtheLatent Space of GANs for Semantic Face Editing.2020IEEE/CVF ConferenceonComputer Vision and Pattern Recognition(CVPR)(2020),9240–9249.

[7]Luan Tran,Xi Yin,and Xiaoming Liu.2017.Disentangled RepresentationLearning GAN for Pose-Invariant Face Recognition.2017 IEEE Conference onComputerVision and Pattern Recognition(CVPR)(2017),1283–1292.

[8]Huiyuan Yang,UmurAybarsCiftci,and Lijun Yin.2018.FacialExpressionRecognition by De-expression Residue Learning.2018 IEEE/CVFConference onComputer Vision and Pattern Recognition(2018),2168–2177.

[9]Zhongpai Gao,Juyong Zhang,Yudong Guo,Chao Ma,GuangtaoZhai,andXiaokang Yang.2020.Semi-supervised 3D Face Representation LearningfromUnconstrained Photo Collections.2020IEEE/CVF Conference on ComputerVisionand Pattern Recognition Workshops(CVPRW)(2020),1426–1435

[10]Feng Liu,Qijun Zhao,Xiaoming Liu,and Dan Zeng.2020.Joint FaceAlignment and 3D Face Reconstruction with Application to FaceRecognition.IEEETransactions on Pattern Analysis and Machine Intelligence 42(2020),664–678.

[11]Thu Nguyen-Phuoc,Chuan Li,Lucas Theis,Christian Richardt,andYongliangYang.2019.HoloGAN:Unsupervised Learning of 3D Representations FromNatural Images.2019IEEE/CVF International Conference on Computer Vision(ICCV)(2019),7587–7596.

[12]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.DeepResidualLearning for Image Recognition.(2016),770–778.https://doi.org/ 10.1109/CVPR.2016.90

[13]Karen Simonyan and Andrew Zisserman.2015.Very Deep ConvolutionalNetworks for Large-Scale Image Recognition.(2015).http://arxiv.org/abs/1409.1556

[14]Richard Zhang,Phillip Isola,Alexei A.Efros,Eli Shechtman,andOliver Wang.2018.The Unreasonable Effectiveness of Deep Features as aPerceptual Metric.In2018 IEEE/CVF Conference on Computer Vision and PatternRecognition.586–595.https://doi.org/10.1109/CVPR.2018.00068

[15]Ziwei Liu,Ping Luo,Xiaogang Wang,and Xiaoou Tang.2015.DeepLearningFace Attributes in the Wild.In 2015 IEEE International Conference onComputerVision(ICCV).3730–37

[16]Arsha Nagrani,Joon Son Chung,and Andrew Zisserman.2017.VoxCeleb:ALarge-Scale Speaker Identification Dataset.In Proc.Interspeech 2017.2616–262

[17]Florian Schroff,Dmitry Kalenichenko,and JamesPhilbin.2015.FaceNet:Aunified embedding for face recognition and clustering。

Claims

1.一种从图像和视频中提取三维人脸表征的方法，其中，所述三维人脸表征，包括内部因素和外部因素；内部因素是指：形状、表情、材质；外部因素是指：姿势和光照；其特征在于，通过构建一个三维无监督人脸表征学习网络模型来提取三维人脸表征，具体步骤为：

(1)使用所述网络模型中的编码器从输入图像I分别提取人脸的形状、材质、表情、光照和姿势特征，具体包括：

(2)使用所述网络模型中的表情变换模块W来变换估计的人脸材质与形状；包括通过表情变换模块W使得提取到的人脸表情编码C_expr影响人脸形状编码C_shape和人脸材质编码C_texture的构成，使得提取出来的材质编码和形状编码根据表情不同而有所差异；

(3)根据提取的编码重构出人脸图像；首先使用所述网络模型中的材质生成器G_t,从提取的材质编码C_texture生成人脸材质图M_t；使用形状生成器G_s,从提取的人脸形状编码C_shape生成人脸深度图M_s；然后，使用渲染器R来使人脸材质图M_t、人脸深度图M_s、光照编码C_light、姿势编码C_pose合成新的人脸图像

渲染器R过程包括光照和投影两个过程；

(4)使用一种损失函数来评估重建图像

和输入图像I的差距；首先，使用所述网络模型中的置信度图生成器来预测图像中人脸区域的置信度，该置信度用来指导损失函数关注人脸区域；还使用VGG网络来提取人脸图像的低级和高级语义特征来计算损失；

(5)使用单幅图像对所述网络模型进行预训练；

根据构建的网络模型，使用约束条件进行优化，以便从编码器提取形状C_shape、材质C_texture、光照C_light和姿势C_pose四种因素；最后使用该网络模型输入人脸图像，预测人脸图像的人脸表征，进而对人脸姿势和正面样貌进行判断；

(6)使用视频对所述网络模型继续进行训练；

使用约束条件进行优化，从编码器提取表情C_expr、形状C_shape、材质C_texture、光照C_light和姿势C_pose五种因素；使用该网络模型输入视频帧序列，预测视频帧中人脸表征，进而对人脸表情、姿势、形状因素进行判断。

2.根据权利要求1所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(1)中：

所述材质编码器E_t和形状编码器E_s是特征编码器，这两个编码器具有相同的架构，都使用批归一化层的卷积神经网络，输入R、G、B三通道的图像I能够产生256维的编码向量C_shape和C_texture，即：

C_shape＝E_s(I)，

C_texture＝E_t(I)， (1)

所述指光照编码器E_l和姿势编码器E_p是数字编码器，都是卷积神经网络，它们分别生成相应的光照和姿势参数，来控制之后的渲染工作；这两个编码器具有相同的结构；姿势编码器E_p生成的编码C_pose有6个维度，分别是三维坐标的的平移向量和的旋转角；光照编码器E_l生成的编码C_light有4个维度：环境光参数，漫反射参数和两个光照方向x，y；两个编码器的输出端使用激活函数Tanh将最终的输出扩展到-1和1之间，然后将其映射到相应的空间，即：

C_light＝E_l(I)，C_pose＝E_p(I) (2)

所述表情编码器E_e采用一个有残差结构的ResNet18来提取特征；和特征编码器一样，对一张R、G、B三通道输入图像I能够生成256维的编码向量C_expr，即：

C_expr＝E_e(I) (3)。

3.根据权利要求2所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(2)中：所述的表情变换模块W，其操作流程为：

首先，从步骤(1)得到的一系列视频帧中采样人脸形状编码C_shape和人脸材质编码C_texture，在特征空间中对它们进行平均得到

和

假设中性表情人脸通过采样序列的平均值来估计；

然后，用获得的人脸表情编码C_expr作为形状C_shape和材质C_texture参数的线性偏差，加入到获取的平均编码中，得到变换后的编码C′_shape和C′_texture；于是，表情变换模块W的过程表示为以下公式：

其中，符号

表示x在批量维度上进行平均；

W输入的是材质编码C_texture或形状编码C_shape，与表情编码C_expr；W输出的是变换后的形状代码C′_shape和材质代码C′_texture；这样，将这些特征解分成序列中的序列变异部分和序列不变部分，并分别计算梯度：

和对应的材质编码的梯度

4.根据权利要求3所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(3)中：

所述的材质生成器G_t和形状生成器G_s，其网络结构包括堆叠卷积层、转置卷积层和组归一化层；该网络使用256维向量作为输入，材质生成器G_t最终产生3通道的材质图M_t输出，形状生成器G_s产生1通道人脸深度图M_s输出；最终的材质图M_t和深度图M_s用Tanh函数缩放到-1到1的范围，表示为：

M_t＝G_t(C_texture)，M_s＝G_s(C_shape)， (8)

所述渲染器R接受材质图M_t和深度图M_s，还有光照编码C_light、姿势编码C_pose作为参数，表示为以下公式；

是重建后的图像，R为渲染的过程，主要包括光照和投影两个过程；在渲染过程中，首先，将深度图M_s转化为三维渲染管道中的三维网格；然后，将材质图M_t与网格进行融合，得到三维模型的真实表示。

5.根据权利要求4所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(3)中：

所述的渲染器R的光照过程，使用简化的Phong光照模型，通过该光照模型从以下方程中得到每个点p的颜色I_p：

I_p＝k_a,p+∑_m∈lightsk_d,p(L_m·N_p)， (10)

其中，lights表示所有光源的集合，L_m表示从表面上的一个点m到每个光源的方向向量，N_p表示从深度图M_s直接得到的到表面的法线；k_a,p为点p环境光系数，k_d,p为点p的漫反射系数；光源的方向和强度由光照编码C_light提供，点p的漫反射系数由材质图M_t提供；

所述的渲染器的投影过程，使用一个弱透视相机模型，即光与相机平面正交，在透视投影下，成像二维点p与实际三维点位置P之间有如下转换关系：

p＝s_cK[R_c t_c]P， (11)

其中，K为照相机的内部参数；R_c和t_c是外部参数，s_c是相机的缩放因子；R_c和t_c可以从姿势编码C_pose中获取；材质图M_t和深度图M_s，还有光照编码C_light、姿势编码C_pose经过渲染器R的光照和投影，得到人脸的二维重建图像

6.根据权利要求5所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(4)中，所述的重建损失，包括从低像素水平到高特征水平的约束；损失函数由三部分组成：光度损失L_p，特征级损失L_f和身份损失L_i：

(1)光度损失L_p，特征级损失L_f表示如下：

其中，I表示输入图像，

表示重建图像，conv代表低级特征提取网络；σ表示置信度图，使用编码器-生成器结构来生成，σ_p是光度损失的置信度图，σ_f是特征级损失的置信度图；在该网络模型中，光度损失和特征级损失受到估计置信度图σ的约束，基于置信度的评估函数L_conf使模型自行校准：

其中，L_conf有三个参数，重建图像

输入图像I，和置信度σ；Ω是有效区域，也就是重建图像

的非背景部分，|Ω|表示有效区域中点的数量；uv表示有效区域中的点坐标，σ_uv为该点的置信度，

表示该点在重建图像

和输入图像I上的像素RGB差值，∑_uv∈Ω表示对所有有效区域的点求和；

(2)身份损失L_i用来约束整个人脸的感知一致性；首先，利用函数g将重建图像I与原始图像

相结合，该函数利用原始图像的相应部分来填补重建图像没有的背景；然后，计算补充图像与原始图像之间的感知相似度(LPIPS)，感知相似度试图提取VGG网络中多层特征来计算图像间距离；身份L_i损失表示如下：

其中，f为感知相似度的VGG网络，g为填补函数，g有两个参数：重建图像

和输入图像I，因为重建图像的背景区域是缺失的，所以使用输入图像I的相应区域进行填补；<·>表示余弦距离，||·||表示模长；

(3)损失函数

表示为光度损失、较低的特征损失和身份损失的线性组合：

其中，λ_f和λ_i为特征级损失和身份损失的权重；

(4)最后，还考虑计算左右脸水平翻转的重建图像得到的损失，并和以上损失线性加和得到最终损失函数：

其中，

是左右脸水平翻转的重建图像，L_tot是最终损失，flip是将材质图M_s和深度图M_t进行左右泛着变换，λ_flip是翻转重建图像的权重；

接着使用反向传播算法，从损失计算网络的梯度，并更新网络的参数。

7.根据权利要求6所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(5)中，所述使用图像集，对模型进行预训练，具体流程为：将大型人脸图像集中的图像通过步骤(1)中的编码器得到人脸形状编码C_shape，材质编码C_texture，光照编码C_light，姿势编码C_pose；然后使用步骤(3)中的生成器从形状编码C_shape，材质编码C_texture得到材质图M_t和深度图M_s，公式表示如下：

M_s＝G_s(C_shape)＝G_s(E_s(I))， (18)

M_t＝G_t(C_texture)＝G_t(E_t(I))， (19)

其中，I为输入图像，E_s、E_t分别是形状、材质编码器，G_s、G_t分别是形状、纹理生成器；材质图M_t和深度图M_s与光照编码C_light，姿势编码C_pose通过渲染器R生成重建图像

然后，按照步骤(4)计算损失函数L_tot来进行反向传播，训练所有的编码器和生成器，表情编码器除外；

测试时，只使用编码器提取人脸形状编码C_shape，材质编码C_texture，光照编码C_light，姿势编码C_pose就可以进行姿势估计、人脸验证和人脸正面化后续任务。

8.根据权利要求7所述的从图像和视频中提取三维人脸表征的方法，其特征在于，步骤(6)中，所述使用视频对添加表情变换模块之后模型继续进行训练，其中，输入帧从同一视频序列中收集，它们具有不同表情和姿势的动作；与步骤(5)中的步骤不同的是，这里的表情变换模块W，将提取到的表情编码C_expr用来处理材质编码C_texture和形状编码C_shape,得到变换后的形状编码C′_shape和材质编码C′_texture；生成深度M_s和材质贴图M_t的过程用以下公式来表示：

M_s＝G_s(C′_shape)＝G_s(W(C_shape,C_expr))＝G_s(W(E_s(I),E_e(I)))， (20)

其中，I为输入图像；E_s、E_t分别是形状、材质编码器，G_s、G_t分别是形状、纹理生成器；

当完成图像集模型训练时，容易在图像集模型上面添加表情变换模块W和表情编码器E_e，继续在视频上训练，得到适用于视频的模型；测试时只需将图片通过相应的编码器，就能够从人脸视频中解耦姿势、光照、形状、表情和材质，并且辅助下游各种任务的预测。