CN112818860B

CN112818860B - 基于端到端多任务多尺度神经网络的实时三维人脸重建方法

Info

Publication number: CN112818860B
Application number: CN202110141542.0A
Authority: CN
Inventors: 王珊; 胡勇; 沈旭昆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-06-07
Anticipated expiration: 2041-02-02
Also published as: CN112818860A

Abstract

本发明涉及一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法及系统，其方法包括：步骤S1：定义多尺度人脸几何表示模型；步骤S2：构建基于真实人脸图像的训练数据集；步骤S3：构建并训练端到端的多任务多尺度神经网络，输入人脸图像到所述端到端的多任务多尺度神经网络，输出表示人脸区域的人脸二值遮罩图，表示人脸粗尺度几何的深度图，表示人脸细节的深度偏移图。本发明公开了端到端的多任务多尺度神经网络，由骨干网络和子网络组成。骨干网络与子网络采用不同的网络结构，骨干网络提供不同子网络需要的多层级多尺度特征表示，保证了不同子网络使用的特征独立性，最大程度降低了多任务网络带来的时间损耗。

Description

基于端到端多任务多尺度神经网络的实时三维人脸重建方法

技术领域

本发明涉及计算机虚拟现实技术领域，特别涉及一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法及系统。

背景技术

逼真地重建三维人脸表情模型在计算机游戏、影视制作、社交、医疗等领域有着广泛的应用，传统的三维人脸模型获取和重建多依靠于实验室内繁重和昂贵的硬件设备及可控的光照环境。随着虚拟现实技术和移动智能终端快速走进大众生活，人们越来越多的希望通过低成本设备在日常生活环境下获取高质量的三维人脸表情模型并应用于虚拟环境。利用手机拍摄人脸图像，或者直接利用互联网图像进行三维人脸重建，把获取设备的复杂程度降到了最低，为消费级三维人脸数字化应用带来了新的契机。其中，实时的重建三维人脸模型更是目前虚拟社交、实时游戏等即时类应用的基础，相比于离线重建方法也更加具有挑战性。在可视范围内，人的面部可以从几何尺度划分为不同的层级表示：粗尺度(如鼻子、面颊、嘴唇、眼睑等)，细尺度(如皱纹)。三维人脸重建方法往往在速度和精度上存在矛盾，大多实时的重建方法仅能够恢复粗尺度三维人脸模型，无法重建人脸细节信息。

文献1-C.Cao,D.Bradley,K.Zhou and T.Beeler.Real-time high-fidelityfacial performance capture[J].ACM Trans.Graph.,2015,34(4):1-9.使用先离线学习后在线回归预测几何细节的方法实现了实时高精度的三维人脸表情重建。但是，受限于离线学习时的皱纹细节数据类型，该方法仅适应条纹形状的皱纹预测。

近年来，基于卷积神经网络(CNN，Convolutional neural networks)的强大学习能力，深度学习的方法被用于基于单张图像的三维人脸重建，此类方法从给定的人脸照片数据集训练卷积神经网络，预测三维人脸的几何模型表示参数，从而重建人脸模型。

文献2—E.Richardson,M.Sela and R.Kimmel.3D Face Reconstruction byLearning from Synthetic Data[A].2016Fourth International Conference on 3DVision(3DV)[C].2016,460-469.选择利用3DMM(3D Morphable Models)生成一个足够数量的面部数据集及对应投影得到的2D图像，利用该合成数据进行训练，通过迭代的运算神经网络模型来不断修正重构结果，得到粗尺度面部模型，再通过明暗恢复形状(SFS，ShapeFrom Shading)算法添加几何细节，由于SFS算法耗时较大，无法实现实时的重建。

文献3—E.Richardson,M.Sela,R.Or-El and R.Kimmel.Learning DetailedFace Reconstruction from a Single Image[A].2017IEEE Conference on ComputerVision and Pattern Recognition(CVPR)[C].2017,5553-5562.通过将人脸几何表示为3DMM系数，利用从粗尺度到细尺度的两层网络模式重建细尺度人脸模型。具体来说，作者设计CoarseNet网络预测3DMM形状参数和姿态参数重建粗尺度人脸重建子网络，通过一个中间渲染层将3DMM参数转化为深度图，作为细尺度预测网络FineNet的输入，更新深度图从而重建细尺度人脸模型。由于缺乏细尺度几何信息数据集，作者基于明暗恢复形状方程构建损失函数，采用无监督学习方法训练FineNet网络，细节重建逼真度不足。

文献4—A.S.Jackson,A.Bulat,V.Argyriou and G.Tzimiropoulos.Large Pose3D Face Reconstruction from a Single Image via Direct Volumetric CNNRegression[A].2017IEEE International Conference on Computer Vision(ICCV)[C].2017,1031-1039.提出一种神经网络结构，从对应的2D图像直接训练得到人脸模型的3D顶点，包括被遮挡的不可见部分。利用多特征拟合基于Basel和FaceWarehouse模型联合建立300万张图像对应的三维人脸表情作为训练集。作者首先将三维人脸模型体素化，构建2D像素与3D体素之间的对应关系，将3D人脸的重建网络转化为3D体素的语义分割问题，从而实现2D图像像素到3D体素的直接回归。由于训练数据集的限制，该系统无法获得细尺度的细节信息。

文献5—M.Sela,E.Richardson and R.Kimmel.Unrestricted Facial GeometryReconstruction Using Image-to-Image Translation[A].2017IEEE InternationalConference on Computer Vision(ICCV)[C].2017,1585-1594.提出一种图像对图像(Image-to-Image)的神经网络，输入面部图像，输出为与输入图像对齐的深度图和图像像素与模板面部网格顶点的对应图(Correspondence Map)，再通过一个迭代的非刚体变形算法和细尺度细节信息重构算法得到最终重构结果。该系统同样使用3DMM来生成训练的合成数据集，每一个样例由渲染RGB图像、深度图像、像素与顶点对应图构成。

文献6—A.T.Tran,T.Hassner,I.Masi,E.Paz,Y.Nirkin and G.Medioni.Extreme3D Face Reconstruction:Seeing Through Occlusions[A].2018IEEE/CVF Conferenceon Computer Vision and Pattern Recognition[C].2018,3935-3944.利用已有的残差网络将训练图像集首先进行粗尺度人脸重建，在此基础上利用SFS技术重建人脸细节，从而计算凹凸贴图作为训练标签。

文献7—Y.Guo,J.Zhang,J.Cai,B.Jiang and J.Zheng.CNN-based Real-timeDense Face Reconstruction with Inverse-rendered Photo-realistic Face Images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(6):1294-1307.利用逆向渲染算法和面部细节迁移算法分别生成一组基于3DMM模型表示的粗尺度以及基于顶点偏移图表示细尺度的训练数据集，提出了一种Coarse-to-Fine的深度学习框架，包含三个卷积神经网络分别进行视频第一帧人脸表情的粗尺度重建、后续帧粗尺度表情重建以及细尺度几何信息恢复。

可见，目前深度学习方法大多利用少量3DMM线性模型参数表示粗尺度人脸几何，利用神经网络学习3DMM和相机姿态参数，会导致受线性模型表达能力限制而影响重建准确性。另外，基于深度学习的方法重建精度受限于训练数据集，而获取高精度、覆盖面广(种族、年龄、表情等)的三维人脸数据集是一个非常艰巨的任务。现在工作中常用的方法有两种，第一种是使用随机合成数据，利用随机给定的3DMM模型的形状参数、纹理参数以及光照参数通过渲染合成人脸图像，从而构建3D模型和图像对应的训练标注数据集。然而，合成图像不是真实的人脸照片，会影响重建结果的准确性。第二种是从真实人脸照片集中，利用非实时的三维人脸重建技术重建出高精度的3D模型，并对其进行表情、光照、细节信息的扩展从而构建3D模型和图像对应的训练标注数据集。

发明内容

为了解决上述技术问题，本发明提供一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法及系统。

本发明技术解决方案为：一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法，包括：

步骤S1：定义多尺度人脸几何表示模型，包括：表示人脸区域的人脸二值遮罩图，表示人脸粗尺度几何的深度图，表示人脸细节的深度偏移图；

步骤S2：基于所述多尺度人脸几何表示模型，构建基于真实人脸图像的训练数据集；

步骤S3：构建并训练端到端的多任务多尺度神经网络，其中，所述端到端的多任务多尺度神经网络包含骨干网络和三个子网络，所述三个子网络包含：人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络；

输入人脸图像到所述端到端的多任务多尺度神经网络，输出人脸二值遮罩图、深度图和深度偏移图。

本发明与现有技术相比，具有以下优点：

1、本发明基于真实人脸图像数据集，并对该数据集进行改造以构建训练集，以适应本发明的方法。相比随机合成人脸图像数据作为训练数据，可以提高人脸重建的准确性。

2、本发明公开了一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法，定义了一套多尺度人脸几何表示模型，相较于大多数工作中使用3DMM系数表示人脸几何，本发明定义的人脸模型是基于像素的人脸图像与三维模型之间的映射，可以使重建结果不受3DMM线性模型表达能力的限制，从而提高重建准确性。

3、本发明通过将重建细尺度人脸模型的目标拆分成人脸区域分割、粗尺度重建、细节重建三个子任务，设计构建了骨干网络+子网络的整体网络结构实现端到端细尺度人脸重建。分别设计和构建三个子网络实现不同的子任务，并采用特征金字塔结构的骨干网络，提供不同子网络需要的多层级多尺度特征表示，保证了不同子网络使用的特征独立性，同时最大程度降低了多任务网络带来的时间损耗。

附图说明

图1为本发明实施例中一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法的流程图；

图2为本发明实施例中一种基于端到端多任务多尺度神经网络中特征金字塔结构的骨干网络结构图；

图3为本发明实施例中一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法中步骤S3中人脸区域分割子网络的结构图；

图4为本发明实施例中基于金字塔池化模块的人脸区域分割子网络结构图；

图5为本发明实施例中基于编码解码网络的粗尺度人脸重建子网络和细节重建子网络的结构图；

图6为本发明实施例中粗尺度人脸重建子网络的Coarse to Fine模块的结构图；

图7为本发明实施例中端到端多任务多尺度神经网络结构图；

图8为本发明实施例中基于互联网人脸图像实时三维人脸重建结果的效果图；

图9为本发明实施例中一种于端到端多任务多尺度神经网络的实时三维人脸重建系统的结构框图。

具体实施方式

本发明提供了一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法及系统。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法，包括下述步骤：

步骤S3：构建并训练端到端的多任务多尺度神经网络，其中，端到端的多任务多尺度神经网络包含骨干网络和三个子网络，三个子网络包含：人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络；

输入人脸图像到端到端的多任务多尺度神经网络，输出人脸二值遮罩图、深度图和深度偏移图。

本发明公开了端到端的多任务多尺度神经网络，由骨干网络和三个子网络组成。其中三个子网络分别为人脸区域分割子网络、粗尺度人脸重建子网络和细节重建子网络。三个子网络需要的特征尺度不同，因此骨干网络采用特征金字塔结构，提供不同子网络需要的多层级多尺度特征表示，保证了不同子网络使用的特征独立性，最大程度降低了多任务网络带来的时间损耗。根据任务不同，三个子网络分别采用不同的网络结构处理不同的任务。

在一个实施例中，上述步骤S1：定义多尺度人脸几何表示模型，具体包括：

本发明实施例定义了一套多尺度人脸几何表示模型，从不同的几何尺度来表示三维人脸模型，包括：表示人脸区域的人脸二值遮罩图、表示人脸粗尺度几何的深度图，表示人脸细节的深度偏移图。

在一个实施例中，上述步骤S2：基于所述多尺度人脸几何表示模型，构建基于真实人脸图像的训练数据集，具体包括：

根据本发明公开的多尺度人脸几何表示定义，端到端的多任务多尺度神经网络结构中人脸区域分割、粗尺度人脸重建、细节重建三个子网络分别需要人脸图像及对应的人脸二值遮罩图、深度图及深度偏移图作为标签来构造训练数据。针对此需求，基于文献7的公开数据集进行改造形成了本发明实施例的训练数据，该数据库使用300-W数据库中3131张真实人脸图像，并经30倍扩充得到的2D人脸图像和对应的3D人脸几何模型，3D人脸几何模型包含粗尺度数据和细尺度数据。

在文献7的数据集中粗尺度数据表示为3DMM模型的参数、相机姿态参数及光照参数的组合，具体表示为χ＝{α_id,α_exp,α_alb,s,pitch,yaw,roll,t,r}，其中α_id,α_exp,α_alb分别表示3DMM模型的身份、表情、反射率基的系数，为了多样性和相互补充，这里的3DMM身份及反射率基来自于Basel Face Model，表情基来源于FaceWarehouse；s表示投影矩阵的缩放因子，pitch,yaw,roll表示构成旋转矩阵的欧拉角，t表示平移向量，r表示球面调和光照系数。表示粗尺度人脸重建子网络的参数组合χ利用文中的基于优化的逆向渲染方法计算得到，为了使网络对表情和姿态更加鲁棒，文献7通过随机改变原始图像相机姿态参数和表情参数渲染新的图像来扩充原有的人脸数据集，扩充至原有图像的30倍数据量。由于本发明实施例在粗尺度人脸重建子网络中使用深度图来表示粗尺度人脸几何，因此需要将文献7的参数组合χ通过渲染的方式转换成深度图作为标签。基于OpenGL渲染管线，通过GLSL编程在顶点着色阶段完成计算并自动插值为深度图像。在深度图渲染的过程中的顶点着色阶段，令渲染的人脸区域设置为1，非人脸区域设置为0，生成二值人脸区域遮罩图作为人脸区域分割的标签数据。

本发明基于真实人脸数据集，并对该数据集进行改造以构建训练集，以适应本发明的方法。相比随机合成人脸数据作为训练数据，可以提高人脸重建的准确性。

如图2所示，在一个实施例中，上述步骤S3中的骨干网络使用特征金字塔网络结构，包括至少三个卷积段，其中，

经过1个卷积段，将输出原图分辨率1/2的特征图作为所述细节重建子网络的输入特征图；

经过2个卷积段，将输出原图分辨率1/4的特征图作为所述粗尺度人脸重建子网络的输入特征图；

经过3个卷积段，将输出原图分辨率1/8的特征图作为所述人脸区域分割子网络的输入特征图。

本发明实施例的骨干网络使用了利用深度卷积网络内在的多尺度、金字塔分级的特征金字塔结构进行构造，将低分辨率但语义强的特征和高分辨率但语义弱的特征通过自顶向下的上采样计算，并横向连接网络对应层原特征图，达到所有层级上都有丰富语义且在单输入图像尺度上可以快速构建的目的。

图2展示了基于金字塔结构的骨干网络结构。本发明实施例具体使用残差网络ResNet18，ResNet18由5个卷积段组成，特征图经过每一个卷积段后分辨率减小一半，经过5个卷积段后分辨率减小至原图的1/32。从ResNet18的最深层由顶向下做特征金字塔结构，考虑算法运行效率，针对三个子网络，分别选择特征金字塔网络结构中原图分辨率1/8的特征图作为人脸区域分割子网络的输入特征图，原图分辨率1/4的特征图作为粗尺度人脸重建子网络的输入特征图，原图分辨率1/2的特征图作为细节重建子网络的输入特征图。这样的网络结构保证了不同子任务从骨干网络不同位置提取相应等级的特征图，同时保证了每一子任务所需较强的语义信息。

如图3所示，在一个实施例中，上述步骤S3中人脸区域分割子网络，包括：

步骤S31：使用金字塔池化模块对输入特征图进行不同尺度的池化，输出不同尺度的特征图；

本发明实施例为了降低不同子区域间上下文信息损失，在人脸区域分割子任务中使用金字塔池化模块，利用基于不同区域和不同尺度的上下文信息聚合，从而提高获取全局信息的能力。如图4所示，本发明实施例使用经过特征金字塔结构骨干网络原图分辨率1/8的特征图作为金字塔池化模块的输入，进入池化层1-4分别进行池化核32×32、16×16、8×8、4×4，步长为32、16、8、4的平均池化操作。其中，金字塔池化模块融合了四个不同尺度的特征，最上层为全局池化，下面的池化层将特征图分割为不同的子区域，形成不同位置的池化表示。从上至下，池化核分别覆盖了图片的整个区域、1/4区域以及更小区域。经过池化操作后，输出不同尺度的特征图。

步骤S32：将每一层不同尺度的特征图进行1×1的卷积操作，以及上采样，得到与输入特征图一样尺寸的输出特征图；

将上述步骤得到的不同尺度的特征图，在每一层后使用1×1的卷积进行降维，通过双线性差值上采样输出与原始特征图一样尺寸的输出特征图。

步骤S33：连接不同层的输出特征图，得到人脸二值遮罩图。

连接不同层的特征图，输出最终的人脸二值遮罩图。

其中，人脸区域分割子网络采用交叉熵损失函数，损失函数表示如下述公式(1)：

其中，y表示预测值，

表示真值。

在一个实施例中，上述步骤S3中粗尺度人脸重建子网络和细节重建子网络，经过编码解码网络，分别得到表示人脸粗尺度几何的深度图、表示人脸细节的深度偏移图；其中，编码解码网络包括编码器和解码器，编码器包含多个Conv-BN-ReLU单元，解码器包含多个Conv-BN-DropOut-ReLU单元。

本发明实施例的粗尺度人脸重建子网络和细节重建子网络根据输入特征图预测得到表示粗尺度人脸几何的深度图和表示人脸细节的深度偏移图。本发明实施例中的粗尺度人脸重建子网络和细节重建子网络均采用了文献P.Isola,J.Zhu,T.Zhou andA.A.Efros.Image-to-Image Translation with Conditional Adversarial Networks[A].2017IEEE Conference on Computer Vision and Pattern Recognition[C],2017,5967-5976.处理图像到图像转换任务的编码解码网络，该网络包括编码器和解码器。

编码器分别包含若干个Conv-BN-ReLU单元，每经过一个编码单元特征图尺寸收缩为原来的1/2，经过一个解码单元特征图尺寸上升为原来的2倍。由于本发明粗尺度和细节重建子网络的输入特征图分辨率不同，因此包含的网络单元数量不同，对其网络结构进行了相应调整。

针对粗尺度人脸重建子网络，输入为原图分辨率1/4的特征图，该网络的编码器和解码器分别包含6个Conv-BN-ReLU单元，整个网络包含12个这样的单元，每个单元包含不同数量的卷积核。具体网络结构如图5所示：

编码器：C64-C128-C256-C512-C512-C512

解码器：CD512-CD512-C512-C256-C128-C64

其中Ck代表一个Conv-BN-ReLU单元，k代表卷积核数量，CDk表示一个Conv-BN-DropOut-ReLU单元，卷积核的大小均为2×2，步长为2。

细节重建子网络由于输入为原图分辨率1/2的特征图，该网络的编码器和解码器分别包含7个Conv-BN-ReLU单元，整个网络包含14个这样的单元，具体网络结构为：

编码器：C64-C128-C256-C512-C512-C512-C512

解码器：CD512-CD512-CD512-C512-C256-C128-C64

在此编、解码器的镜像层之间还设计了跳线，这样每条跳线将两个镜像层的所有通道连接在一起,使得输入和输出之间可以共享神经网络低层的信息，从而增加预测的准确性。

由于粗尺度人脸重建子网络的输入是经过特征金字塔结构骨干网络原图分辨率1/4的特征图，为了进行稠密的逐像素预测，需要将低分辨率特征图提升至原图分辨率预测，而直接将原图分辨率1/4的特征图上采样至原图分辨率输出会带来一定误差。因此，本发明在粗尺度人脸重建子网络的输出后增加一个Coarse to Fine模块，将输出分辨率提升至与原图一致。

在一个实施例中，在粗尺度人脸重建子网络的输出之后，增加Coarse to Fine模块，使得输出粗尺度人脸图分辨率与输入原图的分辨率一致。

如图6所示，该Coarse to Fine模块中，首先将粗尺度人脸重建子网络输出的原图1/4分辨率的特征图经过一个上卷积层，该上卷积层由上池化与一个卷积组成，上卷积输出的结果与预测结果上采样后的特征图进行连接得到新的特征图，这一操作将特征图的分辨率提升至原图1/2，利用该特征图得到原图1/2分辨率的预测结果，经过上采样后得到最终的与原图分辨率一致的预测结果。

粗尺度人脸重建子网络和细节重建子网络的损失函数均使用Smooth_L1损失函数，如下述公式(2)～(3)：

其中，y表示预测值，

表示真值。

如图7所示，展示了一种基于端到端多任务多尺度神经网络的整体结构图，其基于互联网人脸图像实时三维人脸重建的结果如图8所示。本发明公开了一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法，定义了一套多尺度人脸几何表示模型，相较于大多数工作中使用3DMM系数表示人脸几何图像，本发明可以使重建结果不受3DMM线性模型表达能力的限制，从而提高重建准确性。

实施例二

如图9所示，本发明实施例提供了一种基于端到端多任务多尺度神经网络的实时三维人脸重建系统，包括下述模块：

定义人脸模型模块41，用于定义多尺度人脸几何表示模型，包括：表示人脸区域的人脸二值遮罩图，表示人脸粗尺度几何的深度图，表示人脸细节的深度偏移图；

构建训练数据集模块42，用于基于多尺度人脸几何表示模型，构建基于真实人脸图像的训练数据集；

训练神经网络模块43，用于构建并训练端到端的多任务多尺度神经网络，其中，所述端到端的多任务多尺度神经网络包含骨干网络和三个子网络；所述三个子网络包含：人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络；

输入人脸图像到端到端的多任务多尺度神经网络，输出人脸二值遮罩图、深度图、深度偏移图。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，包括：

2.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，所述步骤S1：定义的多尺度人脸几何表示模型，是基于像素的人脸图像与三维人脸模型之间的映射，具体包括：表示人脸区域的人脸二值遮罩图，表示人脸粗尺度几何的深度图，表示人脸细节的深度偏移图。

3.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，所述步骤S3中所述骨干网络使用特征金字塔网络结构，包括至少三个卷积段，其中，

经过1个所述卷积段，输出原图分辨率1/2的特征图作为所述细节重建子网络的输入特征图；

经过2个所述卷积段，输出原图分辨率1/4的特征图作为所述粗尺度人脸重建子网络的输入特征图；

经过3个所述卷积段，输出原图分辨率1/8的特征图作为所述人脸区域分割子网络的输入特征图。

4.根据权利要求3所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，所述步骤S3中所述人脸区域分割子网络，包括：

步骤S31：使用金字塔池化模块对所述输入特征图进行不同尺度的池化，输出不同尺度的特征图；

步骤S32：将每一层不同尺度的特征图进行1×1的卷积操作，以及上采样，得到与所述输入特征图一样尺寸的输出特征图；

步骤S33：连接不同层的所述输出特征图，得到所述人脸二值遮罩图。

5.根据权利要求1所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，所述步骤S3所述粗尺度人脸重建子网络和所述细节重建子网络，采用编码解码网络，经过编码解码网络分别得到所述表示人脸粗尺度几何的深度图和所述表示人脸细节的深度偏移图；其中，所述编码解码网络包括编码器和解码器，所述编码器包含多个Conv-BN-ReLU单元，所述解码器包含多个Conv-BN-DropOut-ReLU单元。

6.根据权利要求5所述的基于端到端多任务多尺度神经网络的实时三维人脸重建方法，其特征在于，在所述粗尺度人脸重建子网络的输出之后，增加CoarsetoFine模块，使得输出所述表示人脸粗尺度几何的深度图分辨率与输入原图的分辨率一致。

7.一种基于端到端多任务多尺度神经网络的实时三维人脸重建系统，其特征在于，包括下述模块：

定义人脸模型模块，用于定义多尺度人脸几何表示模型，包括：人脸二值遮罩图，深度图和深度偏移图；

构建训练数据集模块，用于基于所述多尺度人脸几何表示模型，构建基于真实人脸图像的训练数据集；

训练神经网络模块，用于构建并训练端到端的多任务多尺度神经网络，其中，所述端到端的多任务多尺度神经网络包含骨干网络和三个子网络；所述三个子网络包含：人脸区域分割子网络、粗尺度人脸重建子网络、细节重建子网络；

输入人脸图像经过所述端到端的多任务多尺度神经网络，分别输出人脸二值遮罩图、深度图和深度偏移图。