CN114494576A

CN114494576A - 一种基于隐函数的快速高精度多视点人脸三维重建方法

Info

Publication number: CN114494576A
Application number: CN202111595948.2A
Authority: CN
Inventors: 朱昊; 肖云泽; 刁政宇; 杨皓天; 曹汛
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-05-13

Abstract

本发明公开了一种基于隐函数的快速高精度多视点人脸三维重建方法，属于计算机视觉领域。该方法包括：获取多视点人脸数据；使用人脸参数化模型生成初始的人脸模板，将人脸模板展开成平面构建解空间；采用隐函数表示人脸表面，构建基于隐函数的人脸表面预测网络；构建解空间正则化网络；根据多视点图片生成预测人脸模型的纹理；构建置换贴图预测网络；训练网络，通过输入的多视点图片预测高精度的人脸三维模型。利用本发明方法重建的人脸三维模型，具有很高的精度，保留了脸部毛孔级的细节信息，同时具有重建速度快的优势。

Description

一种基于隐函数的快速高精度多视点人脸三维重建方法

技术领域

本发明涉及计算机视觉领域，具体地说，本发明涉及一种基于隐函数的快速高精度多视点人脸三维重建方法。

背景技术

近年来，随着计算机视觉技术的发展，三维人脸建模在虚拟现实技术、电影动画、游戏设计、医学科学等领域应用越来越广泛。然而，获取具有细节特征的高精度人脸三维信息代价高昂，例如三维激光扫描仪、结构光扫描仪，但是利用多视图的人脸三维重建方法具有成本低、速度快、实现简单等优势，已经成为人脸三维重建重要的研究课题。目前，多视点的人脸三维重建算法可以分为三大类。

第一类方法是传统的多视点三维重建方法。首先获得多幅不同角度的图片，然后由已经标定好的相机参数，或者通过运动恢复结构算法得到相机参数，经过立体匹配，得到不同视角下的三维信息，再通过各种优化方法融合三维信息得到三维模型。基于三维模型的表示形式可以分为基于体素、基于点云、基于深度图的重建方法，如Furukawa Y和PonceJ等人(Furukawa Y,Ponce J.Accurate,dense,and robust multiview stereopsis[J].IEEE transactions on pattern analysis and machine intelligence,2009,32(8):1362-1376.)提出的一种基于点云的三维重建算法。该方法通过特征匹配、点云扩展、点云优化等步骤，重建出物体的稠密点云。但这类方法不限于对人脸重建，没有利用人脸的先验信息，而且随着图像数量的增多，优化引入的计算量呈几何量级增长，重建的精度和速度都不是特别理想。

第二类是基于学习的多视点三维重建方法。近年来，随着深度学习的发展，基于深度神经网络的三维重建方法不断涌现。Yao Yao,Luo Zixin和Li Shiwei(Yao Y,Luo Z,LiS,et al.Mvsnet:Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:767-783.)基于前人的研究，提出了一种深度学习的三维重建方法。该方法首先通过卷积神经网络提取出图像的特征，然后在参考图像相机前建立一个锥形的解空间，通过不同视角特征的映射进行代价匹配，再用三维卷积网络对解空间进行正则化处理，最终回归出参考图像视角下的深度图。这类方法继承了深度学习快速预测结果的优点，但因为显存等因素的限制，代价模型的分辨率受到制约，最终重建的精度较低，无法保留脸部的毛孔皱纹等细节信息。而且由于多视角融合，重建出的人脸可能存在部分区域缺失的问题。

第三种是专门对人脸的多视点三维重建方法。三维重建中，人脸较为特殊，它包含非常多的几何细节，但相对缺少光学上的特征，因此传统的重建方法对于恢复人脸细节效果较差。Thabo Beeler,Bernd Bickel和A.Paul Beardsley等人(Beeler T,Bickel B,Beardsley P,et al.High-quality single-shot capture of facial geometry[M]//ACMSIGGRAPH 2010papers.2010:1-9.)基于金字塔层级的立体匹配框架，加入了平滑约束、顺序约束和唯一性约束恢复人脸的形状，并通过迭代优化的方法，逐级重建出具有毛孔级细节的人脸三维模型。这类方法是目前多视点三维重建精度最高，细节最好的方法，但因为是基于迭代的优化方法，不仅对计算资源有较高的要求，而且重建一个人脸三维模型的时间较长，通常大于二十分钟。

因此，传统方法的重建人脸精度较差，而且速度也较慢；基于深度学习的方法重建速度快，但缺少人脸的细节信息；专门针对人脸的三维重建算法精度高，但引入巨大的计算量和过多的重建时间。目前需要研究一种快速且高精度人脸三维重建方法。

发明内容

对于上述现有方法中存在的缺陷，为了兼顾重建出的人脸三维模型的速度与精度，本发明的目的是提供一种快速精准地重建人脸三维模型的方法，基于人脸的先验信息和深度学习方法，实现对人脸在解空间的预测。

为了实现上述发明目的，本发明方法采用的技术方案如下：

一种基于隐函数的快速高精度多视点人脸三维重建方法，包括如下步骤：

S1，数据的获取：从数据集直接获取多视点人脸图像、图像相机参数、对应的人脸三维网格模型真值、纹理以及置换贴图；

S2，人脸模板的生成与解空间的构建：提取每幅图像的人脸关键点，估计其三维坐标；使用人脸参数化模型，根据人脸三维关键点的约束生成人脸模型作为初始人脸模板；将人脸模板UV展开，在人脸模板的UV空间增加正交于UV的维度D，构建UVD的解空间，并计算三维人脸模型真值在UVD空间和人脸模板的距离，得到位移图；

S3，构建基于隐函数的人脸表面预测网络：采用隐函数表示人脸表面；在步骤S2生成的UVD空间采样，根据采样点沿D维度到人脸三维模型真值的距离，计算对应采样点的标签函数值作为真值，将其与采样点坐标、图像以及对应的相机参数作为一组训练数据，用于训练基于隐函数的人脸表面预测网络；

S4，构建解空间正则化网络：以一定分辨率在步骤S2生成的UVD空间采样，输入至基于隐函数的人脸表面预测网络，得到对应分辨率的预测值三维数组，将其与步骤S2生成的位移图真值作为一组训练数据，用于训练解空间正则化网络；

S5，纹理生成：通过步骤S2的人脸模板利用步骤S4输出的位移图生成预测的人脸三维模型，将步骤S1获得的图像映射至预测的人脸模型的UV空间，加权融合生成人脸模型的纹理；

S6，构建置换贴图预测网络：将步骤S1获得的纹理和置换贴图真值作为一组训练数据，用于训练置换贴图预测网络；

S7，训练网络与预测人脸模型：分别训练步骤S3、S4和S6中的网络；输入测试的多视点人脸图片和相机参数，首先生成初始人脸模板以及对应解空间，根据需要以选定分辨率在解空间采样，输入至基于隐函数的人脸表面预测网络，然后将所有采样点的预测值输入至解空间正则化网络，得到基于人脸模板的位移图并生成对应的人脸三维模型，再根据输入图像生成三维模型的纹理，输入至置换贴图预测网络，得到预测的置换贴图，最终恢复出高精度的人脸三维模型。

进一步地，所述步骤S2的具体步骤为：为了估计人脸关键点的三维坐标，对于每一幅图像，首先提取人脸关键点在图像坐标系下的坐标，根据相机内外参数计算投影矩阵，最小化估计的三维人脸关键影在每幅图的投影误差之和，通过最小二乘法解得人脸关键点的三维坐标；使用人脸参数化模型生成初始的人脸模型，由于参数化人脸模型具有拓扑一致性，相应的人脸关键点由特定索引表示，因此可以直接获得参数化人脸模型的三维关键点，最小化其与通过图像估计的人脸关键点的距离误差，通过优化的方式解得初始人脸模板；将初始的人脸模板映射至UV空间，得到表示顶点坐标的UV图，在人脸模板UV空间增加正交于UV的维度D，维度D以当前顶点为零点，当前顶点的法线为正方向，构建UVD空间，D维度的值代表沿顶点法线方向移动的距离，因此，UVD空间可以表示一系列人脸表面附近的点；由于参数化人脸模型可能包含脸部以外区域，因此在UV空间绘制人脸轮廓，将轮廓内的脸部区域像素置为1，轮廓外部置为0，作为UV空间的人脸掩膜，所有涉及UV空间的图均和掩膜相乘；计算人脸模板每个点沿D方向到三维人脸模型真值的距离，生成相应的位移图。

进一步地，所述步骤S3的具体步骤为：在建立的UVD空间下，采用隐函数描述预测的人脸表面，即UVD空间任意一点存在一个标签值；在UVD空间进行采样，以及设置采样点的标签值作为真值，标签值为沿着D维度以人脸模型真值为中心的一维高斯分布；用采样点坐标、图像、相机参数以及采样点标签值作为基于隐函数的人脸表面预测网络一组训练数据，该网络负责预测UVD空间中任意一点的标签值。

进一步地，所述步骤S4的具体步骤为：以选定的分辨率遍历UVD空间采样，输入步骤S3的网络，得到隐函数在该分辨率下的函数值，由于得到的隐函数值在UVD空间包含噪声，直接由隐函数生成的表面存在异常值和不光滑等问题，因此将生成的所有值按UVD维度构成三维数组，输入至解空间正则化网络，对应的真值为步骤S2生成的UV位移图，所述解空间正则化网络负责优化隐式表面，生成基于人脸模板的位移图，作用于人脸模板即可得到对应的人脸三维模型。

进一步地，所述步骤S5的具体步骤为：步骤S4生成的人脸表面与步骤S2生成的初始人脸模板具有相同的UV映射，根据相机参数将每幅输入图片映射至预测人脸表面得到映射的UV图；因为人脸光照可以近似为均匀光照，使用Lambert反射模型，并依此计算每幅图像每个像素对纹理贡献的权重，生成每幅图像的在UV空间的权重图像，其中对相机不可见的区域为0，可见区域的值为该点对应模型顶点的法线与该点到相机中心方向夹角的余弦值，最后对所有权重图像逐像素进行归一化处理，使得每个顶点对应的权重和为1，作为每幅UV图的对纹理贡献的权重，最后加权生成预测人脸模型的纹理。

本发明通过构建一种新的多视点人脸三维重建方法，从多视点人脸图片出发，经过生成初始人脸模板构建UVD解空间、隐函数预测表面、正则化解空间、生成纹理、预测置换贴图等过程，快速重建出高精度的人脸三维模型。本发明和现有技术相比，其显著优点：采用深度学习方法，能快速预测人脸三维模型；将代价模型由欧式空间转换至UVD空间，缩小了解空间，提高了预测模型的精度；采用隐函数表示曲面的方法，缩小代价模型的空间占用，提升了预测的分辨率，进一步提高精度；同时预测人脸置换贴图，可以保留人脸的细节信息。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例中运行阶段的流程图。

图3为本发明实施例中(a)参数化人脸模型UV纹理图，(b)脸部UV掩膜图。

图4为本发明实施例中基于隐函数的人脸表面预测网络的结构图。

图5为本发明实施例中解空间正则化网络的结构图。

图6为本发明实施例中置换贴图预测网络的结构图。

图7为本发明实施例中部分中间重建结果效果展示图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例的一种基于隐函数的快速高精度多视点人脸三维重建方法，包括如下步骤：

(1)使用FaceScape人脸模型数据库(Yang H,Zhu H,Wang Y,et al.Facescape:alarge-scale high quality 3d face dataset and detailed riggable 3d faceprediction[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2020:601-610.)的多视点人脸数据。包括7120个人脸模型(359个人的20种表情模型)，每个模型对应的59张多视点人脸图片，图片对应的相机参数，以及纹理和置换贴图。随机选取80％的模型作为训练集，20％的模型作为测试集。对于每一组数据，根据FaceScape提供的图像间特征匹配数量选取最高的N(本实施例N＝10)幅，根据畸变参数对图像去畸变，并将分辨率处理为864×1296。

(2)使用Dlib库提取每幅图像M(M＝68)个人脸关键点

由相机参数计算相机的投影矩阵

那么对应的三维人脸关键点

可以最小化误差方程求解：

其中

为第j个三维人脸关键点，分别采用最小二乘法解得M个三维人脸关键点在世界坐标系下坐标

使用FaceScape提供的参数化人脸模型，该人脸模型的形状由身份系数

和表情系数

的双线性关系决定，记作

而且该模型具有拓扑一致性，即该模型拥有固定的顶点数，对应索引的顶点语义相同，因此根据特定的索引，得到该模型的三维人脸关键点

再将该组关键点映射至世界坐标系，通过最小化能量方程求解身份系数

和表情系数

其中s为尺度变换系数，R为3×3的旋转矩阵，t为3×1的平移向量。

采用最小二乘法解得身份系数id和表情系数

以及对应的人脸模型

作为初始人脸模板。将该模型UV展开(UV unwrapping)，因为人脸参数模型的拓扑一致性，UV展开具有同样的映射，模型展开的UV图记为I_{base_pos}，展开的法向量图记为I_{base_norm_raw}，对应的大小均为256×256×3。为了避免顶点法线之间在人脸附近区域相交的情况，使用21×21的高斯卷积核对法向量图进行卷积处理，得到平滑后的法向量图I_{base_norm}。在I_{base_pos}基础上建立正交于UV的维度D，构建UVD空间，其中维度D表示：对于UV空间任意一个坐标(u,v)，以I_{base_pos}(u,v)的三维坐标为零点，I_{base_norm}(u,v)代表的向量为正方向。因此UVD空间坐标可以表示人脸模板附近的一系列点。根据FaceScape提供的真值模型，计算模板UV图每个像素对应顶点沿D方向到真值模型的距离，得到位移图I_{gt_disp}，大小为256×256，用作后续训练和测试的真值，同时真值人脸模型的UV图可以表示为I_{gt_pos}＝I_{base_pos}+k·I_{base_norm}·I_{gt_disp}，其中k为尺度系数，用于归一化距离。因为人脸模型UV展开的是整个人的头部，如图3(a)所示，需要掩膜对其中的脸部进行提取，如图3(b)所示，人脸轮廓内掩膜为1，外部为0，所有涉及UV空间的图均乘以掩膜。

(3)使用隐函数表示脸部曲面，定义隐函数

其中s为隐函数的标签值，d(p)表示点p在人脸模板D维度的归一化值，V(p)表示点p处图像提取的特征的方差，计算方式为：

其中

表示从第i幅图像经过特征提取网络的c维特征，Π_i为第i幅图像的相机投影函数。

采用多层感知机(Multilayer Perceptron，简称MLP)实现这个隐函数，对应的标签

表示采样点沿维度D是真实模型表面的可能性，采用一维高斯分布实现：

其中d为该点归一化的D坐标，

为对应真值归一化的D坐标，σ₁设置为0.05。

如图4所示，基于隐函数的解空间预测网络包含图像特征提取和隐函数学习两个部分。采用卷积神经网络提取图像特征，隐函数学习需要在UVD空间采样，训练阶段，在UVD空间中，UV维度随机采样，D维度分别进行均匀采样和真值附近采样共10000个点，并保持两者比例为1：16，真值附近采样的概率密度函数为：

其中u,v分别表示UV坐标，d表示归一化的D坐标，

表示真值归一化的D坐标，A为概率密度函数归一化系数，σ₂设置为0.1。

训练过程中，批次(batch)的大小设置为1，使用Adam优化器，学习率设为0.0001，采用L2损失作为损失函数，共训练200个迭代周期(epoch)。测试阶段，以256×256×201的分辨率遍历UVD空间计算隐函数值，得到相应分辨率的三维数组V_pred，由UVD空间的定义可知，对于任意一个坐标(u,v)，在V_pred(u,v,:)隐函数的最大值的索引即为真实表面最可能的位置。

(4)上一步得到的隐函数值的三维数组V_pred中，包含了较大的噪声，如果直接采用最大值索引的方式会出现预测的人脸表面不平滑的现象。因此，将V_pred输入解空间后处理网络，如图5所示，该网络结构主体采用类似3DU-Net的编码器-解码器结构，最后一层为softargma x层，生成预测的位移图I_{pred_disp}。训练阶段，在训练集上生成每一个样本对应的隐函数值得三维数组V_train，并将其作为这一阶段的训练集，真值为步骤(2)生成的位移图I_{base_disp}，批次的大小设置为2，网络使用Adam优化器，学习率为0.0001，采用L2损失作为损失函数，共训练25个迭代周期。预测阶段，直接使用网络输出的位移图I_{pred_disp}作为结果，将对应位移施加在人脸模板上得到预测的UV图I_{pred_pos}＝I_{base_pos}+k·I_{base_norm}·I_{pred_disp}，将I_{pred_pos}连接成三角网格生成预测的人脸模型M_pred。

(5)对上一步预测的UV图I_{pred_pos}进行双线性上采样得到I_{predH_pos}，分辨率由256×256×3提升至1024×1024×3，并计算相应的法向量图I_{predH_norm}。从N张输入图像提取并融合人脸模型的纹理贴图T：

其中I_i表示第i幅输入图像由投影矩阵映射到UV图I_{predH_pos}的图像，W_i表示I_i对纹理贡献的权重图像，分辨率与I_i一致。基于Lambert反射模型，定义权重：

其中I_{camera_i}(u,v)表示第i幅输入图像的相机中心到I_{predH_pos}(u,v)方向的单位向量，M_i为掩模，当(u,v)处对于相机中心可见(没有遮挡)时为1，其余为0。

(6)置换贴图预测网络采用pix2pixHD网络(Wang T C,Liu M Y,Zhu J Y,etal.Hi gh-resolution image synthesis and semantic manipulation withconditional gans[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2018:8798-8807.)，结构如图6所示，使用FaceScape提供的纹理和置换贴图训练。预测时将上一步生成的高分辨率纹理贴图T(1024×1024×3)作为输入，生成对应的置换贴图，最终作用于模型M_pred得到高精度的人脸三维模型。

(7)输入测试集的多视点人脸图片和对应相机参数，首先生成初始人脸模板以及对应解空间，以256×256×201的分辨率在解空间采样，输入至基于隐函数的人脸表面预测网络，然后将所有采样点的预测值输入至解空间正则化网络，得到基于人脸模板的位移图并生成对应的三维模型，再根据输入图像生成纹理，输入至置换贴图预测网络，得到预测的置换贴图，最终恢复出高精度的人脸三维模型，计算与测试集真值模型的误差，误差使用Chamfer距离，计算公式为

其中v是具有n个顶点的真值人脸模型

u是具有m个顶点的预测人脸模型

分别采用数据集上平均绝对误差MAE和均方根误差RMS，平均重建时间Time作为指标，结果如表1所示，部分可视化的中间结果如图7所示。

表1：测试集定量结果

MAE(mm)	RMS(mm)	Time(s)
			0.175	0.202	12.9

从实验结果来看，本方法从10张多视点人脸图片，平均13s重建出人脸的三维模型，且平均误差小于0.2mm，同时可以较好地保留人脸的细节信息。实验证明本方法重建人脸三维模型具有快速、精准的特点。

下面进行消融实验来验证本方法的有效性，实验包括

1、人脸模板(Base)。实验中直接使用双线性模型生成的人脸模板作为三维重建结果。

2、在人脸模板基础上采用三维卷积神经网络(Base+3DCNN)。实验中将隐函数预测部分替换成三维卷积神经网络预测，并将预测结果直接作为三维重建结果。

3、在人脸模板基础上采用隐函数预测(Base+IF)。实验中将隐函数预测的模型直接作为三维重建结果。

4、在人脸模板基础上采用隐函数预测，并对预测的结果进行正则化(Base+IF+Reg)，实验中采用正则化的预测结果直接作为三维重建结果。

5、完整方法(Full)，即本发明所述的完整方法。

表2为测试集上5组消融实验的结果。

表2：消融实验定量结果

方法	MAE(mm)	RMS(mm)
			Base	2.821	2.987
Base+3DCNN	0.230	0.269
			Base+IF	0.195	0.212
Base+IF+Reg	0.171	0.200
			Full	0.175	0.202

通过实验结果的对比，本发明中采用隐函数预测表面优于采用三维卷积神经网络；人脸模板将误差缩小至3mm以下；隐函数预测的人脸表面将误差缩小至0.3mm以下；对解空间正则化处理进一步提高了算法的精度，同时具有平滑模型的作用；置换贴图虽然在精度数值上略微有负面影响，但是相对于正则化处理的重建结果，具有更多的人脸细节，包括脸部的一些毛孔等，如图7所示。

Claims

1.一种基于隐函数的快速高精度多视点人脸三维重建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于隐函数的快速高精度多视点人脸三维重建方法，其特征在于，所述步骤S2的具体步骤为：为了估计人脸关键点的三维坐标，对于每一幅图像，首先提取人脸关键点在图像坐标系下的坐标，根据相机内外参数计算投影矩阵，最小化估计的三维人脸关键影在每幅图的投影误差之和，通过最小二乘法解得人脸关键点的三维坐标；使用人脸参数化模型生成初始的人脸模型，由于参数化人脸模型具有拓扑一致性，相应的人脸关键点由特定索引表示，因此可以直接获得参数化人脸模型的三维关键点，最小化其与通过图像估计的人脸关键点的距离误差，通过优化的方式解得初始人脸模板；将初始的人脸模板映射至UV空间，得到表示顶点坐标的UV图，在人脸模板UV空间增加正交于UV的维度D，维度D以当前顶点为零点，当前顶点的法线为正方向，构建UVD空间，D维度的值代表沿顶点法线方向移动的距离，因此，UVD空间可以表示一系列人脸表面附近的点；由于参数化人脸模型可能包含脸部以外区域，因此在UV空间绘制人脸轮廓，将轮廓内的脸部区域像素置为1，轮廓外部置为0，作为UV空间的人脸掩膜，所有涉及UV空间的图均和掩膜相乘；计算人脸模板每个点沿D方向到三维人脸模型真值的距离，生成相应的位移图。

3.根据权利要求1所述的一种基于隐函数的快速高精度多视点人脸三维重建方法，其特征在于，所述步骤S3的具体步骤为：在建立的UVD空间下，采用隐函数描述预测的人脸表面，即UVD空间任意一点存在一个标签值；在UVD空间进行采样，以及设置采样点的标签值作为真值，标签值为沿着D维度以人脸模型真值为中心的一维高斯分布；用采样点坐标、图像、相机参数以及采样点标签值作为基于隐函数的人脸表面预测网络一组训练数据，该网络负责预测UVD空间中任意一点的标签值。

4.根据权利要求1所述的一种基于隐函数的快速高精度多视点人脸三维重建方法，其特征在于，所述步骤S4的具体步骤为：以选定的分辨率遍历UVD空间采样，输入步骤S3的网络，得到隐函数在该分辨率下的函数值，由于得到的隐函数值在UVD空间包含噪声，直接由隐函数生成的表面存在异常值和不光滑等问题，因此将生成的所有值按UVD维度构成三维数组，输入至解空间正则化网络，对应的真值为步骤S2生成的UV位移图，所述解空间正则化网络负责优化隐式表面，生成基于人脸模板的位移图，作用于人脸模板即可得到对应的人脸三维模型。

5.根据权利要求1所述的一种基于隐函数的快速高精度多视点人脸三维重建方法，其特征在于，所述步骤S5的具体步骤为：步骤S4生成的人脸表面与步骤S2生成的初始人脸模板具有相同的UV映射，根据相机参数将每幅输入图片映射至预测人脸表面得到映射的UV图；因为人脸光照可以近似为均匀光照，使用Lambert反射模型，并依此计算每幅图像每个像素对纹理贡献的权重，生成每幅图像的在UV空间的权重图像，其中对相机不可见的区域为0，可见区域的值为该点对应模型顶点的法线与该点到相机中心方向夹角的余弦值，最后对所有权重图像逐像素进行归一化处理，使得每个顶点对应的权重和为1，作为每幅UV图的对纹理贡献的权重，最后加权生成预测人脸模型的纹理。