CN111091624B

CN111091624B - 一种从单张图片生成高精度可驱动人脸三维模型的方法

Info

Publication number: CN111091624B
Application number: CN201911320035.2A
Authority: CN
Inventors: 朱昊; 杨皓天; 汪晏如; 黄铭锴; 沈秋; 曹汛; 杨睿刚
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-09-28
Anticipated expiration: 2039-12-19
Also published as: CN111091624A

Abstract

本发明公开一种从单幅图片生成高精度可驱动人脸三维模型的方法。该方法包括：使用大规模三维人脸数据库建立参数化模型，包括用于表示粗略外形的双线性模型和用于表示细节外形的置换贴图；使用数据库中的图片和置换贴图训练神经网络；输入单幅人脸图片，得到人脸双线性模型参数，进而得到图片中人脸对应的一套表情基模型；将得到的人脸纹理贴图和顶点位移图输入训练好的神经网络，得到关键表情的置换贴图；根据输入的驱动参数，将关键表情的置换贴图按照掩模局部加权叠加得到驱动参数对应表情的置换贴图，由此可以得到高精度的任意表情的人脸三维模型。本方法得到的三维人脸模型具有很高的精度，包含了毛孔级别的细节和表情变化导致的动态皱纹。

Description

一种从单张图片生成高精度可驱动人脸三维模型的方法

技术领域

本发明属于计算机视觉领域，具体地说，本发明涉及一种从单张图片生成高精度可驱动人脸三维模型的方法。

背景技术

人脸三维模型在动画和影视制作、虚拟现实、人机交互等方面有众多应用。传统的高精度人脸三维重建需要昂贵的采集设备和复杂的操作流程，如多视点采集系统和激光扫描仪等。由于基于单张图片的人脸三维重建具有速度快、成本低等优势，近年来已经成为了计算机视觉和计算机图形学研究的热点。近年来的基于单张图像的人脸三维重建研究可以分为两个方向，即基于参数模型的人脸三维重建和人脸模型上细节的预测。

第一个方向基于参数化人脸模型，即将三维人脸表示为低维的形状和纹理参数。参数化人脸模型内在地限制了人脸的先验关系，将人脸三维重建转换为了参数拟合的问题，通过从图片获得模型参数，进而得到人脸三维模型。例如，Romdhani Sami等人(Romdhani S,Vetter T.Estimating 3D shape and texture using pixel intensity,edges,specular highlights,texture constraints and a prior[C]//2005IEEEComputer Society Conference on Computer Vision and Pattern Recognition(CVPR'05).IEEE,2005,2:986-993)提出，根据输入图片上的边缘、像素值等特征建立能量方程，然后用最优化的方法，由最小化能量方程得到图片对应的人脸3DMM(3DMorphable Model)模型参数。ZhuXiangyu等人(Zhu X,Liu X,Lei Z,et al.Face alignment in full poserange:A 3d total solution[J].IEEE transactions on pattern analysis andmachine intelligence,2017,41(1):78-92)提出通过神经网络回归的方法，预测图片对应的3DMM参数，并通过数据增强的方法提高了在人脸大角度旋转情况下的准确性。ChaudhuriBindita等人(Chaudhuri B,Vesdapunt N,Wang B.Joint Face Detection andFacial Motion Retargeting for Multiple Faces[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:9719-9728)提出通过神经网络同时进行人脸检测和模型参数预测能够取得更好的效果，并使用预测的表情参数进行了三维人脸模型的表情驱动。虽然基于参数模型的表示方法大大简化了人脸三维重建的难度，并且利用身份和表情参数分离的参数模型能够得到可驱动的人脸三维模型，但由于参数模型的表示能力有限，因此重建出的三维模型精度较低，不包含皱纹等细节。

为了解决参数模型表示能力有限的问题，得到更高精度的人脸模型，一些研究者提出了使用由粗到精的方法，在低精度人脸参数模型的基础上添加细节。例如，SelaMatan等人(Sela M,Richardson E,Kimmel R.Unrestricted facial geometry reconstructionusing image-to-image translation[C]//Proceedings of the IEEE InternationalConference on Computer Vision.2017:1576-1585)提出首先用神经网络预测图片对应的深度图，然后根据输入图片高通滤波之后得到的高频细节进一步精细化深度图，最终得到了包含细节的人脸三维模型。Tran Anh Tuan等人(Tran A T,Hassner T,Masi I,etal.Extreme 3D Face Reconstruction:Seeing Through Occlusions[C]//CVPR.2018:3935-3944)提出在3DMM得到的粗糙人脸模型的基础上，使用神经网络预测的凹凸贴图表示皱纹尺度的人脸细节。Chen Zhang(Chen Z,Zhang G,Zhang Z,et al.Photo-RealisticFacial Details Synthesis from Single Immage[J].arXivpreprint arXiv:1903.10873,2019)等人提出同样在3DMM得到的粗糙人脸模型的基础上，使用条件生成对抗网络预测输入图片对应的置换贴图，实现了从一般环境下的单张图片中恢复高精度的人脸三维模型。但现有方法只能得到对应输入图片的静态的人脸细节，而无法生成表情相关的动态细节，例如表情变化导致的皱纹等，因此无法获得高精度的可以进行表情驱动的人脸三维模型。

发明内容

针对以上现有技术的不足，本发明提供了一种从单张图片生成高精度可驱动人脸三维模型的方法，该方法输入为单张图片，利用人脸双线性模型得到基础的可驱动人脸三维模型，并将其与动态细节预测网络预测的动态置换贴图相结合，得到高精度的可以进行表情驱动的人脸三维模型。

为了实现上述发明目的，本发明方法采用的技术方案如下：

一种从单张图片生成高精度可驱动人脸三维模型的方法，包括如下步骤：

S1：数据采集与处理：采集大量高精度人脸模型数据，处理成拓扑一致的三维网格模型，进一步生成表示粗略形状的人脸双线性模型和表示细节的置换贴图；

S2：动态细节预测网络的训练：使用步骤S1中采集的数据，以人脸三维网格模型的纹理贴图和各关键表情下纹理空间上的顶点位移图作为输入，以各关键表情对应的置换贴图作为输出，训练神经网络；

S3：基础人脸模型拟合：输入单张人脸图片，从中得到人脸双线性模型的参数，进而得到图片对应的人脸三维模型和一套表情基模型；

S4：预测关键表情的置换贴图：将从单张图片得到的人脸纹理贴图和从双线性模型得到的纹理空间上的顶点位移图输入步骤S2中训练好的动态细节预测网络，得到关键表情对应的置换贴图；

S5：动态细节生成：根据输入的任意表情基系数，将关键表情的置换贴图局部加权后线性叠加得到表情基系数对应表情的动态置换贴图；所述动态置换贴图与步骤S3中得到的一套表情基模型共同渲染得到高精度可驱动人脸三维模型。

进一步地，所述步骤S1的具体过程为：

S11，使用三维重建系统采集高精度人脸数据库，数据库中的原始模型来自多个不同外貌的真实人脸，每个人脸的模型包括中立表情模型和其他数个关键表情下的模型；

S12，从采集的原始数据得到拓扑结构一致的人脸三维网格模型，进而生成人脸双线性模型；

S13，对采集的原始模型做平滑操作，计算平滑之后的模型表面到原始模型表面延法向的距离，并将对应的距离值储存在步骤S12得到的拓扑结构一致的人脸三维网格模型的纹理空间，得到表示人脸细节的置换贴图。

进一步地，所述步骤S2的具体过程为：

S21，任选步骤S1得到的数据库中同一个人的两个不同表情，分别作为原始表情和目标表情，获得这两个表情的拓扑结构一致的人脸三维网络模型，计算两个模型对应顶点之间的位移，并将此位移储存在原始表情的人脸三维网格模型的纹理空间，得到顶点位移图；其中，三角形面片顶点之间的像素值根据其在三角形内的重心坐标插值补全；

S22，将原始表情的人脸三维网格模型的纹理贴图与步骤S21得到的顶点位移图在通道维度连接作为动态细节预测网络的输入，将目标表情的置换贴图作为输出，训练神经网络以预测目标表情的置换贴图。

进一步地，所述步骤S4的具体过程为：

S41，将输入的单张图片中人脸部分的像素投影到步骤S3中得到的图片对应的人脸三维模型的纹理空间，得到此人脸三维模型的纹理贴图；

S42，把步骤S3中得到的图片对应的人脸三维模型作为原始表情，由双线性模型得到其他关键表情的人脸模型，获得原始表情到各关键表情的顶点位移图；

S43，将步骤S41得到的纹理贴图和步骤S42得到的各关键表情的顶点位移图依次连接后输入步骤S22中训练好的动态细节预测网络，输出各关键表情对应的置换贴图。

进一步地，所述步骤S5的具体过程为：

S51，计算表情基模型中各表情基模型的顶点到中性表情的表情基模型上对应顶点的距离，将此距离储存在表情基模型的纹理空间；其中，三角形面片顶点之间的像素值根据其在三角形内的重心坐标插值补全，并将数值归一化到0到1之间，称为各表情基模型的激活位置图；

S52，根据输入的任意表情基系数及各关键表情对应的固定的表情基系数，将各表情基模型对应的激活位置图线性加权叠加，得到输入的表情基系数对应的各关键表情的置换贴图掩模；

S53，将步骤S4得到的关键表情对应的置换贴图利用步骤S52得到的掩模叠加，得到当前输入的表情基系数对应的动态置换贴图；

S54，根据输入的表情基系数，利用步骤S3的表情基模型，得到粗略的目标表情的人脸三维模型；将粗略的目标表情的人脸三维模型与步骤S53得到的动态置换贴图共同渲染，得到对应任意表情基系数的高精度人脸三维模型。

本发明的有益效果是：

(1)相比于多视点重建及主动式扫描方法，本发明输入仅为单张图片，不需要昂贵的采集设备和繁琐的操作流程。

(2)相比于已有的单视图人脸重建方法，本发明所得到的模型兼顾高精度和可操控性，包含了从图片中恢复出的毛孔级别的细节和表情变化导致的动态皱纹。

(3)本方法特别适用于普通用户，在任何环境中只要使用单个相机拍摄一张照片，即可用普通桌面电脑得到高精度的可驱动人脸三维模型，在影视制作、虚拟现实、人机交互等方面有广阔的应用前景。

(4)此外，本方法非常高效，在普通电脑上仅需数分钟即可从图片自动得到可驱动人脸三维模型，中间过程无需人工操作。

附图说明

图1为本发明方法的流程图；

图2为本发明实施例中运行阶段的流程图；

图3为本发明实施例中得到的测试结果；

图4为本发明消融实验中各个结果的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种从单张图片生成高精度可驱动人脸三维模型的方法，具体过程如下：

(1)数据采集与处理：使用多视点三维重建系统采集938个人的脸部三维模型。数据库中包含不同年龄的人，每个人采集中性表情和微笑、皱眉等其他19个关键表情下的人脸三维模型。

对采集的中性表情的模型，直接采用非刚性迭代最近点(Amberg B,Romdhani S,Vetter T.Optimal step nonrigid ICP algorithms for surface registration[C]//2007IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2007:1-8)的方法，将一个统一的模板模型形变为每个采集的原始模型。对于其他表情的模型，首先利用一套对应表情的模板模型，通过形变迁移(Sumner R W,

J.Deformationtransfer for triangle meshes[J].ACM Transactions on graphics(TOG),2004,23(3):399-405)的方法将每个人中性表情的模型形变为对应表情，然后再用非刚性迭代最近点的方法将其形变为采集的模型。这样就得到了拓扑结构一致的人脸三维模型。

利用Li Hao等人(Li H,Weise T,Pauly M.Example-based facial rigging[C]//Acm transactions on graphics(tog).ACM,2010,29(4):32)提出的方法，将上面得到的每个人20个表情的拓扑结构一致的模型拆分为52个FACS表情基模型。将数据库中的所有模型表示为26317(顶点数)×52(表情数)×938(人数)的张量，然后用Tucker分解的方法将此张量分解为小的核心张量C_r和低维的身份参数和表情参数，即为人脸双线性模型。给定任意身份参数w_id和表情参数w_exp，可以得到对应的人脸三维模型：

V＝C_r×w_exp×w_id

其中V为生成的模型上的顶点位置。

由于上述处理之后的表情基模型顶点和面片数较少，丢失了原始模型中皱纹、毛孔等高精度的细节信息，因此需要进一步计算表示细节信息的置换贴图。具体方法为，对每个采集的原始模型做平滑操作，计算平滑之后的模型表面到原始模型表面的延法向距离，并将对应的距离值储存在上述对齐之后的拓扑结构一致的人脸模型的纹理空间，得到表示人脸细节的置换贴图。

(2)动态细节预测网络的训练：任选步骤(1)得到的数据库中同一个人的两个不同表情(称为原始表情和目标表情)的拓扑结构一致的人脸模型，计算两个模型对应顶点之间的位移，并将此位移储存在模型的纹理空间，得到顶点位移图，表示由于表情变化导致的模型表面的形变。三角形面片顶点之间的像素值根据其在三角形内的重心坐标插值补全。将原始表情的人脸模型的纹理贴图与上述顶点位移图在通道维度连接作为动态细节预测网络的输入，将目标表情的置换贴图作为输出，训练神经网络预测目标表情的置换贴图。为了生成高分辨率的置换贴图，动态细节预测网络使用了与pix2pixHD(Wang T C,Liu M Y,ZhuJ Y,et al.High-resolution image synthesis and semantic manipulation withconditional gans[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2018:8798-8807)类似的结构，神经网络的损失函数为生成对抗损失L_adv和特征匹配损失L_FM的结合：

其中G是生成器，D₁、D₂和D₃是具有相同的LSGAN(Mao X,Li Q,Xie H,et al.Leastsquares generative adversarial networks[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2017:2794-2802)结构的判别器，但输入的图片尺度不同。

(3)基础人脸模型拟合：输入单张人脸图片，根据人脸特征点位置、图片像素值和参数先验建立能量方程。具体地说，首先，使用人脸特征点检测器检测输入图片上的特征点位置。假设相机是弱透视投影，人脸特征点位置的能量函数E_lan定义为双线性模型生成的人脸三维模型上的对应点投影到图像平面上之后与检测到的二维特征点L^(k)的距离：

其中s为弱透视投影的尺度参数，R是旋转矩阵，t是平移量。图片像素值的能量函数E_pixel是为了使拟合的模型与输入图片在没有特征点约束的位置更加匹配。假设人脸为朗伯(Lambertian)表面，将光照方向表示为法向量的前三阶球谐函数，人脸的反射率用步骤(1)中采集的数据库得到的PCA模型表示，能量函数定义为：

其中Ω是对应人脸正面的像素的集合，

是生成的人脸，I是输入图片。假设双线性模型的身份、表情参数和反射率参数的是以步骤(1)中采集的数据库中的数据的均值为中心的高斯分布，最终的能量函数E表示为：

E＝E_lan+λ₁E_pixel+λ₂E_id+λ₃E_exp+λ₄E_alb

其中E_id、E_exp和E_alb分别为身份、表情和反射率参数的正则化项，λ₁、λ₂、λ₃和λ₄分别为各项的权重。使用梯度下降的方法交替优化不同的参数，直到收敛。得到输入图片中人脸对应的身份参数w_id之后，可以利用双线性模型得到对应的表情基模型B_i：

其中

为步骤(1)中Tucker分解得到的表情基模型B_i对应的表情参数。

(4)关键表情的置换贴图预测：根据步骤(3)中拟合的人脸三维模型和投影参数，将输入的单张图片中人脸部分的像素投影到拟合出的人脸模型的纹理空间，得到模型的纹理贴图；把步骤(3)中拟合的对应输入图片的人脸模型作为原始表情，将拟合出的身份参数和20个关键表情对应的表情参数输入双线性模型，可以得到关键表情的人脸模型。利用步骤(2)中的方法得到原始表情到各关键表情的顶点位移图；将纹理贴图和原始表情到各关键表情的顶点位移图依次在通道方向拼接，输入步骤(2)中训练好的动态细节预测网络，输出20个关键表情对应的置换贴图。

(5)表情驱动：输入任意表情基系数(驱动参数)α，对应表情的基础模型F可以由步骤(3)得到的52个表情基模型线性组合得到：

对应表情的置换贴图Z则由中性表情的置换贴图

和其他19个关键表情的置换贴图

局部加权后线性叠加得到：

其中M是权重掩模，其大小与置换贴图相同，像素值在0到1之间，⊙表示对应元素相乘。为了计算权重掩模，考虑到表情基模型都是局部的表情变化，首先计算每个表情基模型e_j对应的激活掩模A_j：

A_j(p)＝||e_j(p)-e₀(p)||₂

其中A_j(p)表示第j个激活掩模上位置p的像素值，e_j(p)和e₀(p)分别表示表情基模型e_j和中性表情的模型e₀上对应顶点的位置。然后将激活掩模归一化至0到1之间。得到所有51个表情基模型对应的激活掩模A_j后，第i个权重掩模M_i可以表示为激活掩模经过当前表情基系数α和第i个关键表情对应的固定的表情基系数

加权之后的叠加：

其中α^j是α的第j个元素。M₀的计算方式为：

对任意输入的表情基系数α，将得到的目标表情的基础人脸三维模型F与表示人脸细节的置换贴图Z共同渲染，可以得到系数α对应表情的高精度人脸三维模型。

实施例

本实施例在一台配备Intel Core i7(4.2GHz)中央处理器和NVIDIATITAN Xp显卡的台式计算机上实现了本发明的应用。使用高精度多视点人脸三维重建系统采集了938个人，每人20个表情的人脸三维模型，使用其中888个人的模型作为训练数据，共17760张置换贴图。剩下的50人的模型作为测试集。使用Adam优化器训练动态细节预测网络，学习率设置为0.0002。输入动态细节预测网络的纹理贴图和输出的置换贴图的分辨率都为1024×1024。在单块NVIDIATITAN Xp显卡上训练动态细节预测网络大约需要2天。参数模型使用了50个身份参数、52个表情参数和100个反射率参数。

在多组图片上测试基于本实施例的系统，包括数据库中的图片和来自网络的图片。本方法的运行阶段输入为单张图片，在普通个人电脑上仅需数分钟即可得到可驱动人脸三维模型，整个过程无需手动操作。图3展示了本方法在一些图片上的测试结果。为了显示本方法生成的人脸模型可驱动的特性，图中展示了预测的模型在原始表情和张嘴、皱眉等5个其他表情下的结果。可以看到，本方法生成的可驱动人脸三维模型不仅包含了从图片中恢复出的毛孔级别的静态细节，当驱动至目标表情后，也生成了生动的表情变化导致的皱纹等动态细节。

下面进行了消融实验来验证本方法的有效性。实验包括：

1.无动态置换贴图。实验中去掉了动态置换图的生成部分，即对所有不同的驱动参数，使用从原始图片中直接预测的相同的置换贴图。其他步骤与上述完整过程相同。

2.无顶点位移图。实验中不使用顶点位移图作为动态细节预测网络的输入，而使用对应表情的独热编码(One-Hot Encoding)作为动态细节预测网络生成目标表情置换贴图的条件信息，将各关键表情的独热编码与纹理图拼接后作为动态细节预测网络的输入。其他步骤与上述完整过程相同。

3.完整方法。即本发明所述的完整方法。

在数据库的测试集上比较了上述3个实验的结果，如图4所示。可以看到，无动态置换贴图和无顶点位移图的方法生成的模型在进行表情驱动之后，都没有表情变化导致的皱纹等动态细节。而本发明完整方法则根据驱动参数生成了目标表情对应的皱纹等细节，使生成的驱动模型更加生动逼真。

Claims

1.一种从单张图片生成高精度可驱动人脸三维模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种从单张图片生成高精度可驱动人脸三维模型的方法，其特征在于，所述步骤S1的具体过程为：

3.根据权利要求1所述的一种从单张图片生成高精度可驱动人脸三维模型的方法，其特征在于，所述步骤S2的具体过程为：

4.根据权利要求1所述的一种从单张图片生成高精度可驱动人脸三维模型的方法，其特征在于，所述步骤S4的具体过程为：

5.根据权利要求1所述的一种从单张图片生成高精度可驱动人脸三维模型的方法，其特征在于，所述步骤S5的具体过程为：