CN111950477B

CN111950477B - 一种基于视频监督的单图像三维人脸重建方法

Info

Publication number: CN111950477B
Application number: CN202010824674.9A
Authority: CN
Inventors: 孙正兴; 骆守桐; 武蕴杰; 孙蕴瀚
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2024-02-02
Anticipated expiration: 2040-08-17
Also published as: CN111950477A

Abstract

本发明提供了一种基于视频监督的单图像三维人脸重建方法，包括以下步骤：1)构建单图像人脸重建模块：根据视频人脸片段数据集进行训练，训练得到能够从单张人脸图像中重加出基本形状，形状偏移以及反照率图的模型；2)构建姿态光照分解模块：根据视频人脸片段数据集进行训练，得到能够从单张人脸图像中分解出相机姿态和环境光照；3)整体训练框架：包括数据预处理，训练框架设计以及测试三个部分。本发明实现了端到端的基于视频监督的单图像三维人脸重建，本发明方法可以更有效地从一张人脸图像中重建出人脸的三维几何结构，反照率并恢复出相机的姿态和环境光照。

Description

一种基于视频监督的单图像三维人脸重建方法

技术领域

本发明属于三维人脸重建领域，具体涉及一种基于视频监督的单图像三维人脸重建方法。

背景技术

单图像三维人脸重建指的是从单目2D图像中分离出人脸的形状身份(中性几何体)、皮肤外观(或反照率)、表情，以及估计场景照明和相机参数，其在视觉和图形学中有着广泛的应用，包括人脸跟踪、情感识别和多媒体相关的交互式图像/视频编辑任务。

然而从单目二维图像中恢复三维几何结构本身是一个病态问题，不同的几何体在不同的视角下也许有着相同的二维投影，为了消除这种歧义性，基于单图像的三维人脸重建方法，如文献1：Richardson E,Sela M,Kimmel R.3D Face Reconstruction byLearning from Synthetic Data[J].2016.引入3DMM人脸先验模型来消除歧义，这可以将三维重建问题转换为回归问题，他们将随机设置的3DMM模型的参数值所得到的人脸重投影回图像平面生成了合成人脸数据集，并在其上进行网络的回归训练。但他们的方法有两个局限性，1、3DMM模型本身只利用一组数据量较小的白人演员的三维激光扫描获得的，这就限制了其对于不同身份以及种族人群的泛化能力。2、由于3DMM本身的缺陷，利用3DMM合成的人脸数据和真实人脸数据之间存在一定的域差，这就导致了在合成人脸数据集上训练得到的网络无法很好地对真实世界的图像进行泛化。文献2：Deng Y,Yang J,Xu S,etal.Accurate 3D Face Reconstruction With Weakly-Supervised Learning:FromSingle Image to Image Set[C].computer vision and pattern recognition,2019:0-0.直接在真实人脸图像数据集上训练，但是他们的方法依赖于人脸关键点的标注，人脸区域掩码的提取以及一个具体的人脸先验模型，这三个子任务的效果都会限制该方法的性能上限，而且，他们的方法训练十分困难，不易操作。文献3：Wu S,Rupprecht C,VedaldiA.Unsupervised Learning of Probably Symmetric Deformable 3D Objects fromImages in the Wild[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2020:1-10.提出一种无约束的人脸重建方案，他们的方法不再依赖于关键点等一系列的图像标注信息，而是通过引入人脸对称性先验，直接探索图像本身潜在的几何线索，尽管他们的方法可以重建出视觉质量较高的结果(如人脸的一些皱纹等几何细节)，然而，他们的方法在一些大姿态人脸和极端光照的情形下会失效，而因为对称性先验的引入，导致这些情况下重建出来的结果“过度对称”而不再像一张人脸。基于多视角监督的人脸重建，如文献4：Dou P,Kakadiaris I A.Multi-view 3D facereconstruction with deep recurrent neural networks[J].Image and VisionComputing,2018,80:80-91.通过探索左中右三个视图之间的相关性来发现几何线索从而解决歧义问题，但它们的方法无法用于单图像人脸重建，同时，它们对数据的要求是苛刻的，因为需要为他们提供左中右三个视角下同一个人的同一个表情的照片。视频数据，如智能移动设备拍摄的，监控设备拍摄的等，可以说是一种无穷无尽的资源，同时，即使是视频中的一小段片段也可能包含了足够多的三维信息，因此，解决单图像人脸重建问题，基于视频的监督是一条很有前景的研究道路。文献5：Novotny D,Larlus D,Vedaldi A,etal.Capturing the Geometry of Object Categories from Video Supervision[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2020,42(2):261-275.提出一种基于视频监督的三维物体重建方法，他们利用传统SFM对视频帧序列中的物体进行点云重建，再利用得到的点云进行监督，然而，传统SFM通常是十分耗时的，其所需要的后处理工作也十分繁琐，更重要的是，人脸不同于一般刚性物体，人脸丰富的形变使得难以使用SFM得到有效的稠密点云重建，尽管一些NRSFM算法可以解决形变问题，但这些方法重建的点云依然是稀疏的。文献6：Tewari A,Bernard F,Garrido P,et al.FML:Face ModelLearning from Videos[J].arXiv:Computer Vision and Pattern Recognition,2018.提出一种基于视频监督的人脸模型的学习方法，他们通过最小化多帧之间的像素一致性损失来解决可能存在的歧义问题，然而他们的方法依然依赖于关键点的标注。

发明内容

本发明所要解决的技术问题是针对目前的单图像人脸重建中的歧义问题，提出一种基于视频监督的单图像三维人脸重建方法，包括如下步骤：

步骤1，搭建单图像人脸重建模块：搭建单图像编码网络、形状解码网络、形状偏移解码网络以及反照率解码网络，输入一张人脸图片，输出一个形状深度图，形状偏移深度图以及一个反照率图；

步骤2，搭建姿态光照分解模块：建立光照姿态分解网络，输入一张人脸图片，输出图片中人脸的姿态和图片中环境的整体光照情况；

步骤3，通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集，通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块，利用训练好的单图像人脸重建模块实现单张人脸图像进行三维重建。

步骤1包括以下步骤：

步骤1-1，搭建单图像编码网络F_E；

步骤1-2，搭建形状解码网络F_S，形状偏移解码网络F_ΔS，以及反照率解码网络F_A；

步骤1-3，对于一张输入的单张人脸图像I，经过单图像编码网络F_E后得到3个k维的向量编码，分别为形状向量编码v_S、形状偏移向量编码v_ΔS和反照率向量编码v_A，k∈{2ⁿ|5≤n≤10,n∈N⁺}，其中N⁺表示所有自然数的集合，将形状向量编码输入进形状解码网络得到初始形状深度图D_S，将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图D_ΔS，将反照率编码输入进反照率解码网络得到反照率图F_A(I)

步骤1-1中，所述单图像编码网络包含5个基本块，每个基本块包含一个核大小是4，步长是2，填充是1的卷积层，(每一层卷积都将上一层的输出大小缩小两倍)，以及一个组规范化层和一个LeakyReLU层，5个基本块后并列连接3个全连接层，每个全连接层后连接一个Tanh作为激活函数。整个单图像编码网络的输入大小是64×64，输出是3个k维的向量。

步骤1-2中所述的所述的三个解码网络形状解码网络F_S，形状偏移解码网络F_ΔS，以及反照率解码网络F_A都由头、身和尾三个部分组成，头是由一个全连接层和一个ReLU层组成，身是由4个基本块组成，每个基本块内包含一个核大小是4，步长是1，填充是0的反卷积，一个ReLU层，一个组规范化层和一个核大小是3，步长和填充都是1的卷积层；尾是由一个双线性上采样层以及三个核大小是5，步长是1，填充是2的卷积层组成；

三个解码网络的输入大小都是一个k维的向量，经过头后变成一个64维的向量，经过身后变成32×32大小的特征图，最后经过尾变成64×64大小的输出，其中形状解码网络和形状偏移解码网络输出的通道数是1，反照率解码网络输出的通道数是3。

步骤2中，所述姿态光照分解网络包括5个基本块，每个基本块内包括一个核大小是4，步长是2，填充是1的卷积层以及一个ReLU层，5个基本块后跟了一个核大小是1，步长是1，填充是0的卷积层，之后继续跟了Tanh激活函数，网络的输出是一个10维的向量，其中前6维表示姿态，姿态是由三个旋转角度(偏航角，俯仰角，旋转角)以及三个平移量即沿x,y,z轴的平移量表示的，后4维表示光照，光照采用朗博漫反射表示，其中第一维表示环境光照系数，第二维表示漫反射系数，第三到四维表示漫反射光源的方向。

步骤3包含以下步骤：

步骤3-1，数据预处理：对文献Chrysos G G,Antonakos E,Snape P,et al.Acomprehensive performance evaluation of deformable face tracking“in-the-wild”[J].International Journal of Computer Vision,2018,126(2-4):198-232.中的提出的现有视频人脸数据集中的每一段视频进行人脸检测和跟踪，检测和跟踪利用文献BewleyA,Ge Z,Ott L,et al.Simple online and realtime tracking[C]//2016 IEEEInternational Conference on Image Processing(ICIP).IEEE,2016:3464-3468.所提出的方法，利用文献Zhu X,Lei Z,Liu X,et al.Face alignment across large poses:A 3dsolution[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2016:146-155.中的人脸关键点检测方法检测跟踪到的人脸的68个关键点，并根据68个关键点的位置从视频帧中截取人脸，缩放到224×224大小，将处理后的每个视频分成60帧一组的视频片段，制作成视频人脸片段数据集，假设一段视频有F帧，则最终一段视频可以切割成个片段，其中/>表示向下取整，若视频不足60帧，则将其填充(将已有的帧复制到后面)直至多于60帧，填充方式采用“首-尾-尾-首-首...”的填充方式；

步骤3-2，设计训练框架：利用步骤1和步骤2中设计的网络，将人脸视频片段数据集中每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{D_S}、形状偏移深度图{D_ΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L}，对于每一帧的深度图D_S，形状偏移深度图D_ΔS，计算D＝D_S+0.1D_ΔS得到每一帧最终的逐像素的深度图D，将逐像素的深度图D通过已有的深度图到三维网格模型的转换技术得到每一帧的人脸网格模型M，将逐帧的网格模型，反照率图，姿态以及光照输入到文献Kato H,Ushiku Y,Harada T.Neural 3d meshrenderer[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:3907-3916.中设计的可微分光栅渲染器得到每一帧的重投影渲染结果，计算形状深度图一致性损失l_{D_cons}，反照率图一致性损失l_{A_cons}，帧级像素损失l_photo以及VGG特征损失l_vgg，最终计算总损失l：

l＝l_{D_cons}+l_{A_cons}+l_photo+l_vgg，

通过最小化总损失来训练设计好的网络。

步骤3-3，框架测试：输入单张人脸图像，利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像，继续将其缩放至64×64以满足网络的输入，将缩放后的人脸图片按照步骤3-2中所述的逐帧处理的方式得到最终的网格模型。

步骤3-1包含以下步骤

步骤3-1-1：对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息。

步骤3-1-2：将步骤3-1-1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68个关键点检测，并将68个关键点位置还原回视频的原始帧中的位置。

步骤3-1-3：对于同一身份的人的其中一帧，根据检测到的68个关键点，与预定义好的标准正面68点求解几何变换，几何变换包括旋转向量r、平移向量t和缩放s，其中r是一个三维的向量，t是一个二维的向量，s是一个标量；

利用平移向量t对原始帧进行仿射变换，变换后保持帧原始大小；利用缩放s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的，其中，

w'＝w*102/s

h'＝h*102/s

w是原始帧的宽度，h是原始帧的高度；将缩放后的帧以(w'/2,h'/2)处为中心，切割一个224×224的区域即得到预处理好的人脸图像。

对视频人脸数据集中每一个视频执行步骤3-1-1～步骤3-1-3的操作得到224×224分辨率的视频人脸数据，将每一个视频切割成两个以上60帧的视频人脸片段构成最终的视频人脸片段数据集。

步骤3-2中，形状深度图一致性损失l_{D_cons}、反照率图一致性损失l_{A_cons}计算公式如下：

其中，t表示视频段帧的长度，x，y分别表示图像像素点的横坐标、纵坐标，(D_i)_x,y表示第i帧形状深度图上(x,y)处的深度值，同理(A_i)_x,y表示第i帧反照率图上(x,y)处的像素颜色值，W和H分别表示输出图像的宽度和高度。

步骤3-2中，帧级像素损失l_photo计算公式如下：

其中表示第i帧原始帧上(x,y)像素的颜色值，/>表示重渲染后第i帧上(x,y)像素的颜色值。

步骤3-2中，VGG特征损失l_vgg以文献Spyros Gidaris,Praveer Singh,and NikosKomodakis.Unsupervised representation learning by predicting imagerotations.In Proc.ICLR,2018.中预训练16层的VGG网络为基础，求重渲染后帧与原始帧VGG特征之间的欧式距离，在已经训练好的VGG网络上提取一层的特征图，重渲染后的帧当前层的特征图与原始帧对应特征图进行比较：

其中，W_m,n和H_m,n分别表示VGG网络内各个特征图的宽度和高度；Ψ_m,n对应VGG网络中第m个最大池化层之前的第n个卷积获得的特征图。

在视频监督的框架下，本发明提出一种基于视频监督的单图像三维人脸重建方法，该方法将单张人脸图片分解为形状深度图，形状偏移深度图以及反照率图，通过优化帧间的一致性损失和重投影损失进行训练，最终输入单张人脸图片，我们可以重建出相应的人脸几何。

有益效果：本发明具有以下优点：从对监督数据的要求上来说，与背景技术中文献5不同，本发明不需要事先从视频段中标注人脸的三维真值几何，与文献6不同，本发明不依赖关键点的标注，从最终重建结果和精度上来说，与文献3相比，本发明的方法具有更高的重建精度，并能一定程度上缓解他们结果中存在的“过度对称”问题。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的处理流程示意图。

图2a是输入图片示意图。

图2b是对应的预测的反照率图。

图2c是对应的预测的基本形状深度图。

图2d是对应的预测的形状偏移深度图。

图2e是对应的正视角重建结果示意图。

图2f是对应的相应视角下的重建结果示意图。

图2g是对应的重建结果的重投影渲染结果示意图。

具体实施方式

如图1所示，本发明公开的一种基于视频监督的单图像三维人脸重建方法，具体按照以下步骤实施：

1、构建单图像人脸重建模块

输入：单张人脸图片

输出：预测的基本形状深度图，形状偏移深度图以及反照率图

1.1搭建图像编码网络F_E

图像编码网络F_E包含5个基本块，每个基本块包含一个核大小是4，步长是2，填充是1的卷积层，(每一层卷积都将上一层的输出大小缩小两倍)，以及一个组规范化层和一个LeakyReLU层，5个基本块后并列连接3个全连接层，每个全连接层后连接一个Tanh作为激活函数。整个编码网络的输入大小是64×64，输出是3个k维的向量。

1.2搭建形状解码网络F_S，形状偏移解码网络F_ΔS，以及反照率解码网络F_A

三个网络的基本结构是一致的，都由“头”“身”以及“尾”三个部分组成，“头”是由一个全连接层和一个ReLU层组成，主要用于适应不同维度的向量输入，“身”是由4个基本块组成，每个基本块内包含一个核大小是4，步长是1，填充是0的反卷积，一个ReLU层，一个组规范化层和一个核大小是3，步长和填充都是1的卷积层，每个基本块可以将上一层的输出大小放大两倍。“尾”是由一个上采样模块以及三个核大小是5，步长是1，填充是2的卷积层组成。整个解码网络的输入大小是一个k维的向量，经过“头”后变成一个64维的向量，经过“身”后变成32×32大小的特征图，最后经过“尾”变成64×64大小的输出。不同点在于反照率解码网络F_A最后的输出的通道数是3，而形状解码网络F_S和形状偏移解码网络F_ΔS最后输出的通道数是1.

1.3对于一张输入的单张人脸图像I，经过单图像编码网络F_E后得到3个k维的向量编码，即形状向量编码v_S,形状偏移向量编码v_ΔS以及反照率向量编码v_A，将形状向量编码输入进形状解码网络得到初始形状深度图D_S，将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图D_ΔS，将反照率编码输入进反照率解码网络得到反照率图F_A(I)

2、构建姿态光照分解模块

输入：单张人脸图像

输出：相机位姿参数以及环境光照参数

姿态光照分解网络包括5个基本块，每个基本块内包括一个核大小是4，步长是2，填充是1的卷积层以及一个ReLU层，5个基本块后跟了一个核大小是1，步长是1，填充是0的卷积层，之后继续跟了Tanh激活函数，网络的输出是一个10维的向量，其中前6维表示姿态，姿态是由三个旋转角度(偏航角，俯仰角，旋转角)以及三个平移量(沿x,y,z轴的平移量)表示的，后4维表示光照，光照采用朗博漫反射表示，其中第一维表示环境光照系数，第二维表示漫反射系数，第三到四维表示漫反射光源的方向。

3、整体训练框架

通过对视频中的人脸进行检测、跟踪、对齐和切割得到人脸视频片段数据集，通过探索视频片段内的一致性信息来训练单图像人脸重建网络和姿态光照分解网络，以提高人脸重建的精度。最终利用训练好的单图像人脸网络来对单张人脸图像进行三维重建。

3.1数据预处理

输入：视频人脸数据集

输出：视频人脸片段数据集

3.1.1人脸检测及追踪

对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息。

3.1.2人脸关键点检测

将3.1.1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68关键点检测，并将68点关键点位置还原回原始帧中的位置。

3.1.3人脸对齐及裁剪

对于同一身份的人的其中一帧，根据检测到的68点，与预定义好的标准正面68点求解几何变换，变换参数包括旋转向量r，平移向量t以及缩放s，其中r是一个三维的向量，t是一个二维的向量，s是一个标量。首先利用平移向量t对原始帧进行仿射变换，变换后保持帧原始大小，同时将目标人脸中心移到(w/2,h/2)处，其中w是原始帧的宽度，h是原始帧的高度，接着，利用缩放变换s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的，其中

w'＝w*102/s

h'＝h*102/s

最后，将缩放后的帧以(w'/2,h'/2)处为中心，切割一个224×224的区域即得到预处理好的人脸图像。

对视频人脸数据集中每一个视频执行上面的操作得到224×224分辨率的视频人脸数据，将每一个视频切割成很多个60帧的视频人脸片段构成最终的视频人脸片段数据集。

3.2模型训练框架

输入：预处理后的视频人脸片段

输出：每一帧的深度图，反照率图，相机位姿以及环境光照

利用步骤1和步骤2中设计的网络，将每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{D_S}、形状偏移深度图{D_ΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L}，对于每一帧的深度图D_S，形状偏移深度图D_ΔS，计算D＝D_S+0.1D_ΔS得到每一帧最终的逐像素的深度图，将逐像素的深度图D通过已有的深度图到三维网格模型的转换技术得到每一帧的人脸网格模型M，将逐帧的网格模型，反照率图，姿态以及光照输入到现有可微分光栅渲染器得到每一帧的重投影渲染结果，计算形状深度图一致性损失l_{D_cons}，反照率图一致性损失l_{A_cons}，帧级像素损失l_photo以及VGG特征损失l_vgg，通过优化下面的损失项来优化模型。

l＝l_{D_cons}+l_{A_cons}+l_photo+l_vgg

其中深度图一致性损失l_{D_cons}的计算所有帧预测出的形状深度图两两之间的均方差损失，所述反照率图一致性损失l_{A_cons}计算所有帧预测出的反照率图两两之间的L1损失的和，公式如下

其中t表示视频段帧的长度，x，y分别表示图像像素点的横、纵坐标(D_i)_x,y表示第i帧深度图上(x,y)处的深度值，同理(A_i)_x,y表示第i帧反照率图上(x,y)处的像素颜色值，W和H分别表示输出图像的宽度和高度。

所述帧级像素损失l_photo计算重投影后的帧序列和原始帧序列在像素级上的L1损失：

其中，表示第i帧上(x,y)像素的颜色值，/>表示重渲染后第i帧上(x,y)像素的颜色值。

所述的VGG特征损失以文献Spyros Gidaris,Praveer Singh,and NikosKomodakis.Unsupervised representation learning by predicting imagerotations.In Proc.ICLR,2018.中预训练16层的VGG网络为基础，求重渲染后帧与原始帧VGG特征之间的欧式距离，在已经训练好的VGG网络上提取一层的特征图，重渲染后的帧当前层的特征图与原始帧对应特征图进行比较：

3.3框架测试

输入：单张人脸图像

输出：人脸三维几何(网格面片形式)

首先利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像，继续将其缩放至64×64以满足网络的输入，将缩放后的人脸图片按照步骤3-2中所述的方式得到最终的重建结果，具体如图2a～图2g所示，图2a是输入图片示意图。图2b是对应的预测的反照率图。图2c是对应的预测的基本形状深度图。图2d是对应的预测的形状偏移深度图。图2e是对应的正视角重建结果示意图。图2f是相应视角下的重建结果示意图，人脸朝向若与原图越一致，说明姿态预测得越准确。图2g是对应的重建结果的重投影渲染结果示意图。图2b到图2e是本发明对于一张输入图片的分解形式，图2g是利用图2b到图2e的分解结果还原的结果，图2g若与图2a越接近，说明分解得越准确。

本发明提供了一种基于视频监督的单图像三维人脸重建方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于视频监督的单图像三维人脸重建方法，其特征在于，包括如下步骤：

步骤3，通过对现有视频人脸数据集中每一个视频中的人脸进行检测、跟踪、对齐和切割制作成视频人脸片段数据集，通过重投影渲染以及约束每一个视频片段内的一致性信息来优化单图像人脸重建模块和姿态光照分解模块，利用训练好的单图像人脸重建模块实现单张人脸图像进行三维重建；

步骤3包含以下步骤：

步骤3-1，数据预处理：对现有视频人脸数据集中的每一段视频进行人脸检测和跟踪，利用人脸关键点检测方法检测跟踪到的人脸的68个关键点，并根据68个关键点的位置从视频帧中截取人脸，缩放到224×224大小，将处理后的每个视频切割成60帧一组的视频片段，制作成视频人脸片段数据集；

步骤3-2，设计训练框架：利用步骤1和步骤2中设计的网络，将人脸视频片段数据集中每一个视频段中的每一帧输入设计好的网络得到视频段的形状深度图{D_S}、形状偏移深度图{D_ΔS}、反照率图{A}以及所有帧的姿态{P}和光照{L}，对于每一帧的深度图D_S，形状偏移深度图D_ΔS，计算D＝D_S+0.1D_ΔS得到每一帧最终的逐像素的深度图D，将逐像素的深度图D转换得到每一帧的人脸网格模型M，将逐帧的网格模型，反照率图，姿态以及光照输入到可微分光栅渲染器得到每一帧的重投影渲染结果，计算形状深度图一致性损失l_{D_cons}，反照率图一致性损失l_{A_cons}，帧级像素损失l_photo以及VGG特征损失l_vgg，最终计算总损失l：

l＝l_{D_cons}+l_{A_cons}+l_photo+l_vgg，

通过最小化总损失来训练设计好的网络；

步骤3-3，框架测试：输入单张人脸图像，利用步骤3-1中所述的数据预处理方法得到一张224×224的人脸输入图像，继续将其缩放至64×64以满足网络的输入，将缩放后的人脸图片按照步骤3-2中所述的逐帧处理的方式得到最终的网格模型；

步骤3-2中，VGG特征损失l_vgg以预训练的16层的VGG网络为基础，求重渲染后帧与原始帧VGG特征之间的欧式距离，在已经训练好的VGG网络上提取一层的特征图，重渲染后的帧当前层的特征图与原始帧对应特征图进行比较：

其中W_m,n和H_m,n分别表示VGG网络内各个特征图的宽度和高度；Ψ_m,n对应VGG网络中第m个最大池化层之前的第n个卷积获得的特征图；t表示视频段帧的长度，表示第i帧上(x,y)像素的颜色值，/>表示重渲染后第i帧上(x,y)像素的颜色值。

2.根据权利要求1所述的方法，其特征在于，步骤1包括以下步骤：

步骤1-1，搭建单图像编码网络F_E；

步骤1-3，对于一张输入的单张人脸图像I，经过单图像编码网络F_E后得到3个k维的向量编码，分别为形状向量编码v_S、形状偏移向量编码v_ΔS和反照率向量编码v_A，k∈{2ⁿ|5≤n≤10,n∈N⁺}，其中N⁺表示所有自然数的集合，将形状向量编码输入进形状解码网络得到初始形状深度图D_S，将形状偏移向量编码输入进形状偏移解码网络得到形状偏移深度图D_ΔS，将反照率编码输入进反照率解码网络得到反照率图F_A(I)。

3.根据权利要求2所述的方法，其特征在于，步骤1-1中，所述单图像编码网络包含5个基本块，每个基本块包含一个核大小是4，步长是2，填充是1的卷积层，以及一个组规范化层和一个LeakyReLU层，5个基本块后并列连接3个全连接层，每个全连接层后连接一个Tanh作为激活函数，整个单图像编码网络的输入大小是64×64，输出是3个k维的向量。

4.根据权利要求3所述的方法，其特征在于，步骤1-2中所述的三个解码网络形状解码网络F_S，形状偏移解码网络F_ΔS，以及反照率解码网络F_A都由头、身和尾三个部分组成，头是由一个全连接层和一个ReLU层组成，身是由4个基本块组成，每个基本块内包含一个核大小是4，步长是1，填充是0的反卷积，一个ReLU层，一个组规范化层和一个核大小是3，步长和填充都是1的卷积层；尾是由一个双线性上采样层以及三个核大小是5，步长是1，填充是2的卷积层组成；

5.根据权利要求4所述的方法，其特征在于，步骤2中，所述姿态光照分解网络包括5个基本块，每个基本块内包括一个核大小是4，步长是2，填充是1的卷积层以及一个ReLU层，5个基本块后跟了一个核大小是1，步长是1，填充是0的卷积层，之后继续跟了Tanh激活函数，网络的输出是一个10维的向量，其中前6维表示姿态，姿态是由三个旋转角度偏航角，俯仰角，旋转角以及三个平移量即沿x,y,z轴的平移量表示的，后4维表示光照，光照采用朗博漫反射表示，其中第一维表示环境光照系数，第二维表示漫反射系数，第三到四维表示漫反射光源的方向。

6.根据权利要求5所述的方法，其特征在于，步骤3-1包含以下步骤

步骤3-1-1：对视频人脸数据集中每一段视频进行人脸检测和跟踪得到每一帧中人脸包围框以及身份信息；

步骤3-1-2：将步骤3-1-1中得到的同一身份的人的所有帧上包围框所涵盖的区域裁剪下来进行68个关键点检测，并将68个关键点位置还原回视频的原始帧中的位置；

步骤3-1-3：对于同一身份的人的其中一帧，根据检测到的68个关键点，与预定义好的标准正面68点求解几何变换，几何变换包括旋转向量r、平移向量t₁和缩放s，其中r是一个三维的向量，t₁是一个二维的向量，s是一个标量；

利用平移向量t₁对原始帧进行仿射变换，变换后保持帧原始大小；利用缩放s将原始帧缩放成(w'/2,h'/2)的大小以保证人脸大小和预定义好的人脸大小是一致的，其中，

w'＝w*102/s

h'＝h*102/s

w是原始帧的宽度，h是原始帧的高度；将缩放后的帧以(w'/2,h'/2)处为中心，切割一个224×224的区域即得到预处理好的人脸图像；

步骤3-1-4：对视频人脸数据集中每一个视频执行步骤3-1-1～步骤3-1-3的操作得到224×224分辨率的视频人脸数据，将每一个视频切割成两个以上60帧的视频人脸片段构成最终的视频人脸片段数据集。

7.根据权利要求6所述的方法，其特征在于，步骤3-2中，形状深度图一致性损失l_{D_cons}、反照率图一致性损失l_{A_cons}计算公式如下：

其中t表示视频段帧的长度，x，y分别表示图像像素点的横坐标、纵坐标，(D_i)_x,y表示第i帧形状深度图上(x,y)处的深度值，(A_i)_x,y表示第i帧反照率图上(x,y)处的像素颜色值，W和H分别表示输出图像的宽度和高度。

8.根据权利要求7所述的方法，其特征在于，步骤3-2中，帧级像素损失l_photo计算公式如下：

其中表示第i帧上(x,y)像素的颜色值。