CN114821750A

CN114821750A - 一种基于三维人脸重建的面部动捕方法及系统

Info

Publication number: CN114821750A
Application number: CN202210608837.9A
Authority: CN
Inventors: 罗凌
Original assignee: Beijing Yingshu Technology Co ltd
Current assignee: Beijing Yingshu Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-07-29

Abstract

本发明公开了一种基于三维人脸重建的面部动捕方法及系统，使用训练集对模型进行训练，模型包括ResNet50网络模块和可微分渲染模块，利用ResNet50网络模块预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ、3D人脸位姿向量p。可利用预测得到的不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成，能够实时驱动，具有很强的通用性，可以在复杂场景中执行面部动捕任务。该方法属于单目无标记动捕的范畴，不依赖额外的传感器，因此在动作捕捉上更加灵活。仅仅需要一个摄像头，便可以捕捉使用者的面部表情并将其通过一个虚拟的人物形象呈现在屏幕上。

Description

一种基于三维人脸重建的面部动捕方法及系统

技术领域

本发明涉及面部动作捕捉技术领域，具体涉及一种基于三维人脸重建的面部动捕方法及系统。

背景技术

面部动作捕捉，也称为面部表情捕捉，是动作捕捉技术的一个分支，它使用机械装置、相机或其他硬件设备来记录人类的面部表情，并将其转换成一系列数据来驱动虚拟人的面部表情和头部朝向。与捕捉由关节点构成、驱动更为稳定的人体动作相比，面部表情更微妙、更复杂，因此对数据精度要求更高。目前，基于光学的面部运动捕捉技术在学术界和工业界占据主导地位，尤其是基于普通摄像头的面部运动捕捉技术，具有成本低、易于获取和使用的优点。

发明内容

为此，本发明提供一种基于三维人脸重建的面部动捕方法及系统，可以借助不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成，能够实时驱动，具有很强的通用性，可以在复杂场景中执行面部动捕任务。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于三维人脸重建的面部动捕方法，所述方法包括：

使用训练集对模型进行训练，所述模型包括ResNet50网络模块和可微分渲染模块，利用ResNet50网络模块预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ、3D人脸位姿向量p；

假设相机模型满足透视投影关系，根据预测得到的人脸参数，结合3DMM模型和面部光照模型，利用可微分渲染模块渲染得到人脸图像，根据输入图像以及得到的渲染图像进行损失函数计算；

将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β，利用表情系数向量β驱动虚拟人生成不同表情。

进一步地，所述3DMM模型表达式为：

其中，

和

分别为人脸的形状向量和纹理向量；

代表向量空间；V表示三维人脸表面的面片顶点数量；

和

分别为平均人脸形状向量和平均面部纹理向量；B_id、B_exp和B_tex分别代表脸型、面部表情细节及面部纹理经PCA降维得到的基向量；

为不同项所对应的系数向量，上角标代表维度。

进一步地，所述面部光照模型为：

假设人脸皮肤的反射属性满足朗伯模型，其在所有观察方向上都具有同样的亮度，并且完全不吸收地反射所有的入射光，基于此，用球面谐波函数近似场景光照；

一个具有表面法线n_i和皮肤纹理t_i的人脸面片顶点s_i，其辐射度即光照为

其中，Φ_b：

为球形谐波基函数；γ_b为Φ_b对应的系数，即为所述面部光照系数向量，这里给定B个波段，并且单色光

进一步地，所述3D人脸位姿向量p包括旋转向量R和平移向量t。

进一步地，所述损失函数为：

其中，

为人脸身份损失，

为人脸关键点损失，

为人脸皮肤区域的光照损失，

为人脸形状和纹理系数的正则损失，L_exp为表情矛盾损失，λ_pho，λ_lmk，λ_id，λ_exp，λ_reg分别为对应损失的权重系数。

进一步地，所述表情矛盾损失为：

其中，1{·}为指示函数；不同表情基之间存在共生矛盾问题，β_i和β_j为不同矛盾表情基对分别对应的系数。

进一步地，根据预测得到的人脸参数，结合3DMM模型和面部光照模型，利用可微分渲染模块渲染得到人脸图像，具体包括：

将预测得到位姿向量中包含的旋转向量转化为旋转矩阵，通过旋转矩阵改变人脸朝向；将得到的人脸形状系数向量α、表情系数向量β和纹理系数向量δ输入到3DMM模型公式中得到人脸形状向量和纹理向量，将得到的人脸形状向量与旋转矩阵通过矩阵相乘得到最终形状；将光照系数向量γ和得到的纹理向量输入至面部光照模型公式得到面部皮肤光照；经过使用PyTorch3D图形库对颜色和纹理进行渲染得到渲染后的人脸图像。

进一步地，利用训练的ResNet50网络预测得到的表情系数向量β驱动虚拟人生成不同表情，具体还包括：

通过改变旋转矩阵来驱动虚拟人不同的头部朝向。

根据本发明实施例的第二面，提出了一种基于三维人脸重建的面部动捕系统，所述系统包括：

ResNet50网络模型训练模块，用于使用训练集对模型进行训练，所述模型包括ResNet50网络模块和可微分渲染模块，利用ResNet50网络模块预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ和3D人脸位姿向量p；

根据预测得到的人脸参数，结合3DMM模型和面部光照模型，利用可微分渲染模块渲染得到人脸图像，根据输入图像以及得到的渲染图像进行损失函数计算；

表情捕捉与生成模块，用于将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β，利用表情系数向量β驱动虚拟人生成不同表情。

本发明具有如下优点：

本发明提出一种基于三维人脸重建的面部动捕方法及系统，使用自定义训练集对模型进行训练，模型包括ResNet50网络模块和可微分渲染模块，利用ResNet50网络模块预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ、3D人脸位姿向量p。可利用预测得到的不同的表情基系数和旋转矩阵来驱动虚拟人面部动作生成，能够实时驱动，具有很强的通用性，可以在复杂场景中执行面部动捕任务。该方法属于单目无标记动捕的范畴，不依赖额外的传感器，因此在动作捕捉上更加灵活。仅仅需要一个摄像头，便可以捕捉使用者的面部表情并将其通过一个虚拟的人物形象呈现在屏幕上。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法的流程示意图；

图2为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法的模型框架示意图；

图3为本发明实施例1提供的一种基于三维人脸重建的面部动捕方法中矛盾表情基对。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种基于三维人脸重建的面部动捕方法，所述方法包括：

S100、使用训练集对模型进行训练，所述模型包括ResNet50网络模块和可微分渲染模块，利用ResNet50网络模块预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ、3D人脸位姿向量p。

本实施例中，人脸先验统计模型3DMM表达式为：

其中，

和

分别为人脸的形状向量和纹理向量；

代表向量空间；V表示三维人脸表面的面片顶点数量；

和

为不同项所对应的系数向量，上角标代表维度。

所述面部光照模型为：

其中，Φ_b：

为球形谐波基函数；γ_b为Φ_b对应的系数，即为所述面部光照系数向量，这里给定B＝3个波段，并且单色光

选择固定焦距的透视相机模型，将3D人脸投影到2D平面上。3D人脸位姿p可简单由旋转向量R和平移向量t表示。

上面涉及的五个系数，即：

需要通过模型预测的方式获得。

需要指出的是表情系数向量通过变形迁移，从FaceWarehouse迁移到BFM拓扑模型。

S200、假设相机模型满足透视投影关系，根据预测得到的人脸参数，结合3DMM模型和面部光照模型，利用可微分渲染模块渲染得到人脸图像，根据输入图像以及得到的渲染图像进行损失函数计算。

S300、将用户人脸图像输入至训练的ResNet50网络预测得到表情系数向量β，利用表情系数向量β驱动虚拟人生成不同表情。

具体实施过程：

图像预处理阶段，首先利用现有的人脸框检测器，例如：使用CenterFace提取人脸感兴趣区域；然后在保证图像不被拉伸的前提下，将区域修正为正方形；最后，图片大小被调整为224×224像素作为神经网络的输入。

本实施例中，如图2所示，以ResNet50为骨干网络，将输出端全连接层的神经元个数调整为239个，用于推断上面提及的5个系数

共包括239维的系数向量。为便于表情系数的预测，利用Sigmoid函数将其范围限制到0-1。

然后，通过罗斯里格斯公式将旋转向量转化为旋转矩阵，通过旋转矩阵改变人脸朝向；将得到的人脸形状系数向量α、表情系数向量β和纹理系数向量δ输入到3DMM模型公式中得到人脸形状向量和纹理向量。人的面部朝向可能在改变，3DMM模型计算的人脸形状向量只是求形状的变化，而旋转矩阵代表面部朝向的改变。因此形状由估计的形状和旋转矩阵共同决定，将得到的人脸形状向量与旋转矩阵通过矩阵相乘得到最终形状。将光照系数向量γ和得到的纹理向量输入至面部光照模型公式得到面部皮肤光照。

再根据3DMM提供的3D点位索引关系，找到面片顶点与68个人脸关键点索引之间的对应关系，并通过透视相机投影将其映射到二维图像平面上。

所谓的改变人脸形状信息，其实是通过三维面片顶点的偏移来实现的；然后，3DMM中一共有35709个顶点，我们采用的是弱监督的训练方式，只需要2D人脸关键点就能训练整个模型。现在的问题就是我们得到的35709个点通过透视投影后如何与二维人脸关键点真值相对应，进而利用这一对应关系计算关键点损失。本实施例利用了透视投影关系求3D->2D，但是35709个点显然不对应68点，这里有个点位对应关系，我们仅需要一部分的点就行，从35709个点中找到与68个关键点对应的点。

最后PyTorch3D库利用得到人脸形状、纹理、光照，渲染出2D人脸图像。

考虑到3D数据标签的获取难度，训练中采用弱监督的思想对模型进行端到端训练，进而模型能够通过数据学习的方式预测对应的系数。损失函数涉及渲染后的人脸身份、人脸关键点、人脸皮肤区域的光照、表情矛盾损失以及其余正则项的监督。

(1)人脸身份损失：选择ArcFace人脸识别网络，分别将原图像I和渲染图像

投入模型得到低纬嵌入向量(文献中一般称其为“embeddings”)，通过计算两者之间的余弦距离来判断生成图像与原图像之间的“逼真度”。

(2)人脸关键点损失：2D关键点在偏航角θ_yaw∈(-20，20)时，选择PIPNet算法输出作为标签；其余情况下选择输出FAN算法作为标签。损失函数可表述为

其中，i为人脸关键点的索引；w_i为不同关键点对应的权重系数，为增强眼睛及嘴唇区域关键点的训练效果，将其权重调整为10，其余系数默认为1；L_i为代表每个人脸关键点的2D位置的标签值，

为预估值。

(3)人脸皮肤区域的光照损失：为排除非脸部区域对光照结果的影响，利用最先进的pyfacer算法提取人脸mask，随后进行光照损失计算。

其中，P为可微分渲染后的人脸区域；M为标签mask区域；||·||₂为L₂损失。

(4)正则化损失：为防止训练中人脸形状和纹理退化对结果造成的影响，这里依次给出两者的正则损失，以规避上述问题。

(5)与传统的三维人脸重建不同，需要考虑不同表情基之间存在共生矛盾问题，例如：“眉毛弯下”和“眉毛抬高”，图3给出了不同的矛盾表情基对，针对这个问题提出了表情限制损失。表情矛盾损失为：

其中，1{·}为指示函数；β_i和β_j为不同矛盾表情基对分别对应的系数。

具体的，整个模型的损失函数为：

其中，

为人脸身份损失，

为人脸关键点损失，

为人脸皮肤区域的光照损失，

为人脸形状和纹理系数的正则损失，L_exp为表情矛盾损失，λ_pho，λ_lmk，λ_id，λ_exp，λ_req分别为对应损失的权重系数。其中，λ_pho，λ_lmk，λ_id，λ_reg实验性地设置为1.9,0.5,0.2,1e^-4；正则化损失中的参数λ_α＝1和λ_δ＝1.7e^-3。

模型训练：实验中，首先对输入图片进行数据增强，包括：随机翻转、随机放大缩小、随机旋转θ∈(-30,30)等操作，避免模型过拟合；其次，以优化器Adam为基准(初始学习率为1e^-3)，批量大小为12迭代100,000次，模型在60,000和80,000次时学习率下降为原来的1/10。当模型训练到50,000次时，使能表情基矛盾损失。模型在ResNet50基础上进行微调，GPU型号为Nvidia2080Ti。

训练数据集选取：数据集选自表情丰富的FEAFA+，包含了230,163张根据FACS面部表情编码规则采集的图片。由于数据集既包含室内场景，也包含室外场景，因此非常适合面部动捕。不仅如此，针对夸张表情的面部动捕需求，我们额外采集了25,676张带夸张表情的真实人脸数据，同时利用UE4/UE5绑定metahuman人物得到了22,372张虚拟人面部图片用于模型训练。

具体应用：该算法可利用估计的的面部表情系数与数字人脸进行绑定。具体来讲，需要依据上面提到的面部拓扑结构制作相应的数字人，并且指定面部的blendshape在0-1之间。通过将预测的46个表情基系数分配给相应的数字人表情基，就可以实现数字人面部的实时驱动。另外，人脸的朝向信息可通过相机的旋转信息反向推出。

在Python语言和TensorRT加速库的支持下，整个推断过程平均20ms左右。

实施例2

与上述实施例1相对应的，本实施例提出了一种基于三维人脸重建的面部动捕系统，所述系统包括：

ResNet50网络模型训练模块，用于使用训练集对ResNet50网络模型进行训练，利用ResNet50网络模型预测得到人脸参数，所述人脸参数包括基于3DMM模型的人脸形状系数向量α、表情系数向量β和纹理系数向量δ，以及面部皮肤光照系数向量γ、3D人脸位姿向量p；

根据预测得到的人脸参数以及3DMM模型、面部光照模型计算面部的形状、纹理和光照，并根据三维人脸面片顶点与二维人脸关键点的点位对应关系获取与二维人脸关键点对应的面片顶点，根据得到的面部的形状、纹理和光照以及面片顶点进行渲染得到人脸图像；

根据网络模型的输入图像以及得到的渲染图像，利用定义的损失函数对模型进行训练得到优化后的ResNet50网络模型；

表情捕捉与生成模块，用于将用户人脸图像输入至训练的ResNet50网络模型预测得到表情系数向量β，利用表情系数向量β驱动虚拟人生成不同表情。

本发明实施例提供的一种基于三维人脸重建的面部动捕系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。