CN116152399A

CN116152399A - 三维人脸形状生成方法、装置、设备及存储介质

Info

Publication number: CN116152399A
Application number: CN202111389685.XA
Authority: CN
Inventors: 张玉兵
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-05-23

Abstract

本申请提出一种一种三维人脸形状生成方法、装置、设备及存储介质，该三维人脸形状生成方法，包括：通过训练好的第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数；基于第一3DMM参数和预设的3DMM模型确定二维人脸图像对应的粗糙三维人脸形状；根据二维人脸图像和粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数；基于第二3DMM参数和预设的3DMM模型确定二维人脸图像对应的精细三维人脸形状。本申请可先通过第一参数估计网络模型预测的第一3DMM参数得到输入的二维人脸图像粗糙三维人脸形状，再根据该粗糙三维人脸形状，通过第二参数估计网络模型预测的第二3DMM参数，得到精细三维人脸形状。

Description

三维人脸形状生成方法、装置、设备及存储介质

技术领域

本申请属于图像处理技术领域，具体涉及一种三维人脸形状生成方法、装置、设备及存储介质。

背景技术

随着科技的发展，人们的网络社交生活越来越丰富，网络直播、在线教育、视频会议、虚拟现实等应用层出不穷。为了人们可以在网络世界中更好地互动，人脸动作捕捉和驱动等虚拟化技术得到了大力发展，特别是基于普通摄像头，例如手机、平板电脑等便携式移动终端上的摄像头，所拍摄图像的面部动作捕捉和驱动技术，由于不需要特殊的设备，受到了广泛关注。

对于面部动作捕捉和驱动技术，通常是从2D(二维)人脸图像中捕捉人脸的表情和头部姿势，并将其迁移到3D(三维)虚拟角色上，以实现驱动3D人脸的目标。但是，现有技术在构造3D表情模板时，通常对每个人都构造具有同样表情形变的3D表情模板，而忽略了不同人之间同一个表情的差异性，缺乏不同个体间的个性化体现，从而影响了人脸表情的准确拟合和驱动。

发明内容

本申请提出一种三维人脸形状生成方法、装置、设备及存储介质，可先通过第一参数估计网络模型预测的第一3DMM参数得到输入的二维人脸图像粗糙三维人脸形状，再根据该粗糙三维人脸形状，通过第二参数估计网络模型预测的第二3DMM参数，得到精细三维人脸形状。

本申请第一方面实施例提出了一种三维人脸形状生成方法，包括：

通过训练好的第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数；

基于所述第一3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的粗糙三维人脸形状；

根据所述二维人脸图像和所述粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数；

基于所述第二3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的精细三维人脸形状。

在本申请的一些实施例中，根据所述二维人脸图像和所述粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数，包括：

确定所述粗糙三维人脸形状相对于预设标准人脸的三维表情形变，所述预设标准人脸根据所述二维人脸图像自3DMM模型的预设标准人脸集中选择；

根据所粗糙三维人脸形状和所述三维表情形变，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数。

在本申请的一些实施例中，确定所述粗糙三维人脸形状相对于预设标准人脸的三维表情形变，包括：

通过UV映射将所述粗糙三维人脸形状映射到UV空间，得到所述粗糙三维人脸形状对应的粗糙二维UV图；

确定所述粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变；

根据二维表情形变，通过映射网络确定所述粗糙三维人脸形状相对于预设标准人脸的三维表情形变。

在本申请的一些实施例中，确定所述粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变之后，还包括：

计算所述二维表情形变每一个顶点的欧式距离，根据所述欧式距离，形成所述二维表情形变的注意力掩码，所述注意力掩码大于等于0，且小于等于1。

在本申请的一些实施例中，所述第一3DMM参数包括身份系数、表情系数、纹理系数、光照系数及位姿系数；所述第二3DMM参数包括表情系数、纹理系数、光照系数及位姿系数。

在本申请的一些实施例中，所述通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数之前，还包括：

获取第一训练集；所述第一训练集包括多个人脸样本图像，每个人脸样本图像对应一组粗糙3DMM参数；

根据所述第一训练集，对第一参数估计网络模型进行训练。

在本申请的一些实施例中，根据所述第一训练集，对第一参数估计网络模型进行训练，包括：

将所述第一训练集中的每个人脸样本图像输入第一参数估计网络模型中，得到所述人脸样本图像对应的3DMM参数；

通过预设第一损失函数训练第一参数估计网络模型，使基于所述人脸样本图像得到的3DMM参数等于对应的粗糙3DMM参数。

在本申请的一些实施例中，所述预设第一损失函数为：

Lcom＝λ_phoL_pho+λ_perL_per+λ_lmL_lm+λ_regL_reg+λ_spL_sp

其中，L_pho，L_per，L_lm和(L_reg，L_sp)分别为通过图像重构损失函数、图像感知损失函数、关键点重构损失函数和正则损失函数计算的损失值；λ_pho，λ_per，λ_lm，λ_reg，λ_sp均大于0，分别为相应损失函数的超参数。

在本申请的一些实施例中，所述根据所述二维人脸图像和所述粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数之前，还包括：

获取第二训练集，所述第二训练集包括多个人脸样本图像和每个人脸样本图像对应的粗糙三维人脸样本形状、精细3DMM参数；

根据所述第二训练集，对第二参数估计网络模型进行训练。

在本申请的一些实施例中，根据所述第二训练集，对训练好的第二参数估计网络模型进行训练，包括：

确定第二训练集中的每个人脸样本图像对应的粗糙三维人脸样本形状相对于预设标准人脸的三维表情样本形变，所述预设标准人脸根据所述二维人脸图像自3DMM模型的预设标准人脸集中选择；

通过预设第二损失函数对第二参数估计网络模型进行训练，使基于所述人脸样本图像和对应的粗糙三维人脸形状得到的3DMM参数等于对应的所述精细3DMM参数。

在本申请的一些实施例中，所述预设第二第二损失函数为：

L＝L_com+λ_graL_gra

其中，L_com为所述预设第一损失函数，L_gra为表情梯度损失函数，λ_gra>0为表情梯度损失函数的超参数。

在本申请的一些实施例中，所述表情梯度损失函数为：

其中，G_a→b表示变形后的三维人脸图像b对于原三维人脸图像a的梯度。

在本申请的一些实施例中，所述基于所述第一3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的粗糙三维人脸形状，包括：

基于所述第一3DMM参数和预设的3DMM模型，确定所述二维人脸图像对应的第一套三维表情模板，所述第一套三维表情模板包括多个表情不同的粗糙三维人脸形状；

基于所述第二3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的精细三维人脸形状，包括：

基于所述第二3DMM参数和预设的3DMM模型，确定所述二维人脸图像对应的第二套三维表情模板，所述第二套三维表情模板包括多个表情不同的精细三维人脸形状。

本申请第二方面的实施例提供了一种三维人脸形状生成装置，包括：

第一参数计算模块，用于通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数；

粗糙形状确定模块，用于基于所述第一3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的粗糙三维人脸形状；

第二参数计算模块，用于根据所述二维人脸图像和所述粗糙三维人脸形状，通过第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数；

精细形状确定模块，用于基于所述第二3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的精细三维人脸形状。

本申请第三方面的实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现上述第一方面所述的方法。

本申请第四方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现上述第一方面所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例提供的三维人脸形状生成方法，先通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数，并基于第一3DMM参数和预设的3DMM模型确定二维人脸图像对应的粗糙三维人脸形状，再根据二维人脸图像和粗糙三维人脸形状，通过第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数，并基于第二3DMM参数和预设的3DMM模型确定二维人脸图像对应的精细三维人脸形状，如此，从粗糙到精细通过的两阶段生成个性化的三维人脸形状，关注了不同人的个性化3D人脸形状的构建，充分考虑了每个人在相同表情下的特异性，从而会提高3D人脸重建和表情拟合的准确性，加强了人脸驱动的效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种三维人脸形状生成方法的流程示意图；

图2示出了本申请一实施例所提供的粗糙表情模板的生成过程示意图；

图3示出了本申请一实施例所提供的精细表情模板的生成过程示意图；

图4示出了本申请一实施例所提供的三维人脸形状生成装置的结构示意图；

图5示出了本申请一实施例所提供的一种电子设备的结构示意图；

图6示出了本申请一实施例所提供的一种存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

下面结合附图来描述根据本申请实施例提出的一种三维人脸形状生成方法、装置、设备及存储介质。

目前，相关技术中一般是基于三维人脸形变模型(3DMM模型)的3D人脸生成技术来实现从2D(二维)人脸图像中捕捉人脸的表情和头部姿势，并将其迁移到3D虚拟角色上，以实现驱动3D人脸的目的。但是，在构造3D表情模板(三维人脸形状)时，通常对每个人都构造具有同样表情形变的三维人脸形状，而忽略了不同人之间同一个表情的差异性，缺乏不同个体间的个性化体现，从而影响了人脸表情的准确拟合和驱动。

基于此，本申请实施例提供了一种三维人脸形状生成方法，可应用于任意能够实现图像处理的服务器或其他电子机设备(如电脑、平板、手机等)上，该方法基于比较成熟的3DMM模型(人脸3D形变统计模型)实现，先通过训练好的第一参数估计网络模型和预设的3DMM模型确定输入二维人脸图像的对应的粗糙三维人脸形状，再根据该粗糙三维人脸形状和输入的二维人脸图像，通过训练好的第二参数估计网络模型和预设的3DMM模型，即可确定的对应的精细三维人脸形状。该方法充分考虑了不同人之间同一个表情的差异性，为每个人构造不同的精细化表情形状，充分体现了不同个体间的个性化，基于本方法生成的精细三维人脸形状，在拟合二维人脸图像的表情时能够更好地捕捉待人脸的准确表情，从而提高人脸驱动的准确性。

3DMM模型是一种较为基础的三维人脸统计模型，可以根据输入的二维人脸图像重建构生成三维人脸形状，并可通过调整该3DMM模型的参数(即3DMM)得到与输入的二维人脸图像最为近似的三维人脸形状。对于每个人的二维人脸图像，都有一组对应的3DMM参数，使通过该组模型参数下的3DMM模型生成的三维人脸形状与该二维人脸图像最为近似。

3DMM模型可由网格(Mesh)组成，网格通常是指三角网格，三角网格可以由在三维空间中的顶点及三个顶点间的三角面片组成。每个顶点除了位置坐标以外，还可以包含颜色、法线等信息。3DMM参数可以包括但不限于身份系数、表情系数、纹理(色彩亮度)系数、光照系数及头部位姿系数，可以理解为3DMM模型中关于身份、表情、纹理、光照及头部位姿的加权值。3DMM模型的每一维系数控制人脸的局部的变化。

本实施例中3DMM模型可以采用如下公式(1)和(2)表示，并使用Basel Face Model数据集的基于主成分分析(PCA)的身份基底B_id和纹理基底和B_tex，以具有明确语义信息的表情模板(如瞪眼、闭眼、皱眉、挑眉等表情单元)的FaceWarehouse数据集基于面部动作编码系统FACS的46个表情模板偏移量(即三维人脸形状相对于3DMM模型的预设标准人脸形状的形变量)作为本实施例使用的表情基底B_exp对该3DMM模型及本实施例提供的人脸形状生成方法进行详细说明。

其中，

分别表示该3DMM模型的平均人脸的形状(即预设标准人脸形状)坐标值和纹理像素值，n表示3D人脸的顶点数，/>

表示包括n个三维坐标的数据集或矩阵，S(α,β)表示3D人脸顶点的三维坐标，T(δ)表示3D人脸顶点的RBG顶点颜色的像素值。/>

和/>

分别表示身份基底、表情基底和纹理基底(其中，46表示FaceWarehouse数据集基于面部动作编码系统FACS的表情模板数，80表示色彩维度)，/>

与/>

分别是相应的3DMM系数。

基于3DMM模型和参数估计网络预测的3DMM系数α、β、δ，可以通过上述公式(1)和公式(2)与3DMM基底相结合，重建出3D人脸的形状和纹理。

由于本实施例使用的表情基底B_exp是来自Facewarehouse模型的46个3D表情模板偏移量(即表情模板相对于无表情人脸模板的形变量)。因此，在参数估计网络对输入人脸图像预测得到身份系数α后，我们可以将公式(1)改写为：

S(β)＝B₀+B_expβ(3)

其中，

表示输入人脸图像重建的预设标准人脸，即无表情的3D人脸。再进一步，我们可以将公式(3)改写为：

其中，B_i表示第i个3D表情模板，

由上述3D表情模板构造公式可知，对于任意一个人脸图像，其3D表情模板相对于中性3D人脸的形变都是一样的。然而，在实际中不同人的同一个表情模板会有一定差异性，而采用这种方法构造的表情模板不能建模这种差异性，在拟合人脸表情的时候会损失一些精度。所以，本实施例在通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数之前，先对第一参数估计网络模型进行训练。在通过训练好的第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数之前，先对第二参数估计网络模型进行训练。以提高第一参数估计网络模型和第二参数估计网络模型预测3DMM参数的准确性。

在一实施方式中，上述训练第一参数估计网络模型的操作，具体可以包括以下步骤：

步骤A1，获取第一训练集；第一训练集包括多个人脸样本图像，每个人脸样本图像对应一组粗糙3DMM参数。

可以直接从现有的图像集(如CelebA名人数据集、Public Figures FaceDatabase哥伦比亚大学公众人物面部数据库、color FERET Database彩色FERET数据库、MTFL dataset多任务面部地标数据集、Voxceleb2名人采访视频数据集等等)中选取若干人脸图像，也可以根据需要实际拍摄多张人脸图像。并可通过试验得到选取的每张人脸图像对应的，能够生成与该人脸样本图像最为近似的三维人脸形状的一组3DMM参数。将选取的人脸图像作为人脸样本图像，将每张人脸样本图像对应的一组3DMM参数作为该人脸样本图像的粗糙3DMM参数，并将该人脸样本图像和粗糙3DMM参数组成样本对，由多个该样本对组成第一训练集，用于对第一参数估计网络模型进行训练，以使得第一参数估计网络模型预测的3DMM系数更加准确。

步骤A2，根据第一训练集，对第一参数估计网络模型进行训练。

从第一训练集中选取上述样本对，每个训练周期从训练集中获取的样本对的数目可以为多个。将样本对中的人脸样本图像输入第一参数估计网络模型中，该第一参数估计网络模型可以为任意能够通过深度学习，估计出输入的人脸图像对应的3DMM参数即可。

在一实施方式中，上述步骤A2具体可以包括以下步骤：步骤A21，将第一训练集中的每个人脸样本图像输入第一参数估计网络模型中，得到人脸样本图像对应的3DMM参数。步骤A22，通过预设第一损失函数训练第一参数估计网络模型，使人脸样本图像对应的3DMM参数等于对应的粗糙3DMM参数。

具体地，上述预设第一损失函数为：

L_com＝λ_phoL_pho+λ_perL_per+λ_lmL_lm+λ_regL_reg+λ_spL_sp (5)

其中，L_pho，L_per，L_lm和(L_reg，L_sp)分别为通过图像重构损失函数、图像感知损失函数、关键点重构损失函数和正则损失函数计算的损失值；λ_pho，λ_per，λ_lm，λ_reg，λ_sp均大于0，分别为相应损失函数的超参数。具体地，图像重构的过程中，通常图像重构损失相对于其他几个损失对每个人脸图像的影响较大，相应地，λ_pho的值可以相对较大，明显大于其它几个参数，例如可设置为1-10之间的任意数值。而关键点重构损失函数相对于其他几个损失对每个人脸图像的影响不是很大，相应地，λ_reg的值可以相对较小，明显小于其它几个参数，例如可设置为10^-k，k可大于或等于3。而λ_lm和λ_sp可取值0-1之间。具体地，λ_per，λ_lm，λ_reg，λ_sp可分别设置为1.9、0.2、0.1、0.0001和0.1。

本实施例使用图像重构损失计算输入图像I与相应的渲染图像

之间的像素误差。图像重构损失函数如下面公式(6)所示：/>

其中，i表示像素索引，

表示3D人脸在图像中的脸部渲染区域。A表示通过现有的人脸分割算法检测的人脸掩码，人脸掩码可理解为当前像素所在位置位于人脸的概率，

表示，当该像素位置是人脸皮肤时其值为1，反之为0。

本实施例利用预训练好的人脸识别网络提取输入图像I与相应的渲染图像

的网络特征，并使用余弦距离来计算两个网络特征之间的相似性，即图像感知损失。该损失定义如下面公式(7)所示：

其中f(·)代表从人脸识别网络提取的深层特征，<·,·>代表向量内积。

关键点重构损失定义为从3D关键点检测器检测的真实人脸关键点Q与3D人脸投影的关键点

之间的均方误差，其中，3D人脸的关键点是指人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等，可以通过顶点索引得到，并通过投影模型投影到2D图像平面上，该损失定义如下面公式(8)所示：

其中，i代表关键点索引，n代表人脸关键点的数量，可根据关键点检测器确定，可以为68、81、106等，ω_i代表关键点的权重，本方案将人脸轮廓关键点权重设置为1，其它人脸关键点权重设置为大于1的自然数，例如10。

为防止3D人脸的形状和纹理退化，致使得不到有意义的3D人脸，本实施例对人脸形状与纹理的系数进行正则损失约束，该约束定义如下面公式(9)所示：

其中，λ_α和λ_δ分别表示系数α_n和δ_n的超参数，设置为1和0.001。

此外，本实施例还使用正则损失来促使表情系数的稀疏化表达，，该损失定义如下面公式(10)所示：

其中，m代表表情模板数(例如m＝46)，i代表表情模板的索引，λ_α表示系数α_n的超参数，β_i表示第i个3D表情模板。

本实施例为了对参数估计网络进行训练，本实施例将带有纹理的3D人脸渲染到图像平面上，该过程引入3DMM模型的光照系数γ与位姿系数p。重建的3D人脸纹理T进一步经过球谐(Spherical Harmonics)光照模型处理(结合光照系数γ)，建模人脸图像的环境光照。为了将3D人脸投影到图像平面，本实施例采用透视投影相机模型(结合位姿系数p)。最后，我们将经过光照处理的3D人脸通过投影模型渲染到2D图像上，以得到渲染到图像平面的渲染图像，参与到网络的训练当中。

在另一实施方式中，上述训练第二参数估计网络模型的操作，具体可以包括以下步骤：

步骤B1，获取第二训练集，第二训练集包括多个人脸样本图像和每个人脸样本图像对应的粗糙三维人脸样本形状、精细3DMM参数。

第二训练集中的人脸样本图像和对应的精细3DMM参数的获取方式可以参照第一训练集中的获取方式，在此不再赘述。第二训练集中的粗糙三维人脸样本形状即，将选取的人脸样本图像输入系数为对应的精细3DMM参数的3DMM模型中输出的粗糙三维人脸样本形状。然后将选组的人脸样本图像和对应的精细3DMM参数及粗糙三维人脸样本形状组成样本组，多个样本组构成该第二训练集，用于对第二参数估计网络模型进行训练，以使得第二参数估计网络模型预测的精细3DMM参数更加准确。

步骤B2，根据第二训练集，对第二参数估计网络模型进行训练。

从第二训练集中选取上述样本组，每个训练周期从训练集中获取的样本组的数目可以为多个。将样本组中的人脸样本图像和粗糙三维人脸样本形状输入第二参数估计网络模型中，该第二参数估计网络模型可以为任意能够通过深度学习，估计出输入的人脸图像和粗糙三维人脸样本形状对应的精细3DMM参数即可。

在另一实施方式中，上述步骤B2具体可以包括以下步骤：

步骤B21，确定第二训练集中的每个人脸样本图像对应的粗糙三维人脸样本形状相对于预设标准人脸的三维表情样本形变，预设标准人脸根据二维人脸图像自3DMM模型的预设标准人脸集中选择。

本实施例为了生成精细化的三维人脸形状，在粗糙三维人脸形状的基础上针对不同人学习个性化表情形变。具体地，首先通过UV映射将粗糙三维人脸样本形状映射到UV空间，得到粗糙三维人脸样本形状对应的二维样本UV图。然后确定二维样本UV图相对于预设标准人脸的二维UV图的二维表情样本形变，并根据二维表情样本形变，通过映射网络确定粗糙三维人脸样本形状相对于预设标准人脸的三维表情样本形变。

具体地，确定二维样本UV图相对于预设标准人脸的二维UV图的二维表情样本形变之后，还可以计算粗糙三维人脸形状对于预设标准人脸的形变B_i-B₀每一个顶点的欧式距离,并设定一个阈值0.001将低于该阈值的顶点位置设置为0，再将这个形变值归一化到0-1范围，作为注意力掩码A_i(注意力掩码大于等于0，且小于等于1)。注意力掩码A_i反映二维表情形变局部区域重要性，可以将待学习的个性化二维表情形变约束在跟粗糙三维形状相似的局部区域，因此，可将注意力掩码A_i加到个性化二维表情形变Δ_i上，定义从UV空间映射到3D空间的函数为F，则三维表情样本形变可表示为F(A_iΔ_i)。

步骤B22，通过预设第二损失函数对第二参数估计网络模型进行训练，使基于人脸样本图像和对应的粗糙三维人脸形状得到的3DMM参数等于对应的精细3DMM参数。

为了更好地利用神经网络进行训练，可首先将粗糙三维人脸形状映射到2D的UV空间中进行学习，学习完再从UV空间映射回3D空间。可定义从UV空间映射到3D空间的函数为F。则精细三维人脸形状的表示如下面公式(9)所示：

其中，F(A_iΔ_i)表示第i张人脸图像的三维表情样本形变，有公式(9)可知，经过精细化的三维人脸形状B′_i＝B_i+F(A_iΔ_i)，相对于粗糙三维人脸形状B_i，添加了个性化的表情形变。

计算精细3DMM参数的过程中，与计算粗糙3DMM参数阶段相比，除了3D人脸的形状表达不一样外，其他3DMM模型的表达(例如纹理模型、光照模型、投影模型)均相同。

在精细的三维人脸形状生成阶段，同样可以采用粗糙三维人脸形状生成阶段的训练方式，通过在2D图像空间进行自监督训练范式，来监督第二参数估计网络和映射网络的训练。

具体地，为了防止加了个性化表情形变后会改变原来表情模板的语义信息，还引入了一个额外的表情模板梯度损失。因此，上述预设第二损失函数的定义可如下面公式(10)所示：

L＝L_com+λ_graL_gra(10)

其中，L_com为预设第一损失函数，L_gra为表情梯度损失函数，λ_gra＞0为表情梯度损失函数的超参数。

如果直接向粗糙三维人脸形状添加自由的形变，即使在使用注意力掩码将其限制在局部区域之后，也有可能可以改变人脸表情的语义。为了进行人脸表情驱动，不同人的人脸表情应该具有相同的语义信息。因此，可使用表情模板梯度损失促使变形后的精细化的三维人脸形状的梯度和粗糙三维人脸形状的梯度相接近，该表情梯度损失函数定义如下面公式(11)所示：

其中，G_a→b表示同一张人脸图像的精细三维人脸图像b对于粗糙三维人脸图像a的梯度。

需要说明的是，由于第二参数估计网络模型基于第一参数估计网络模型得到的粗糙人脸形状进行训练，可以确定第二参数估计网络模型预测的身份系数与第一参数估计网络模型预测的身份系数相同，所以，在第二参数估计网络模型训练过程中，可仅训练表情系数、纹理(色彩亮度)系数、光照系数及头部位姿系数。

通过上述方式训练得到上述训练好的第一参数估计网络模型和第二参数估计网络模型后，如图1所示，通过以下步骤利用该第一参数估计网络模型和第二参数估计网络模型来生成三维人脸形状，具体包括：

步骤S1，通过训练好的第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数。

该三维人脸形状生成方法的执行主体可以为服务器，服务器接收到终端输入的任意一张二维人脸图像，可通过上述训练好的第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数，具体计算过程可参照上述第一参数估计网络模型的训练过程，在此不再赘述。

步骤S2，基于第一3DMM参数和预设的3DMM模型确定二维人脸图像对应的粗糙三维人脸形状。

服务器在计算出第一3DMM参数之后，可将计算出的第一3DMM参数赋值于预设的3DMM模型，形成输入的二维人脸图像对应的特定粗糙3DMM模型，将该二维人脸图像输入至该特定粗糙3DMM模型，便可输出该二维人脸图像对应的粗糙三维人脸形状。

步骤S3，根据二维人脸图像和粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数。

服务器在生成粗糙三维人脸形状之后，可先确定粗糙三维人脸形状相对于预设标准人脸的三维表情形变，其中，预设标准人脸根据二维人脸图像自3DMM模型的预设标准人脸集中选择。

具体地，为了减轻个性化三维表情形变学习的难度，可通过UV映射将粗糙三维人脸形状映射到二维的UV空间，利用卷积神经网络学习在UV空间的精细化三维表情形变，即先得到粗糙三维人脸形状对应的粗糙二维UV图。然后，确定粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变；根据二维表情形变，通过映射网络确定粗糙三维人脸形状相对于预设标准人脸的三维表情形变。

在一实施方式中，确定粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变之后，还可以包括：计算二维表情形变每一个顶点的欧式距离，根据欧式距离，形成二维表情形变的注意力掩码，注意力掩码大于等于0，且小于等于1。

需要说明的是，上述通过UV空间确定三维表情形变的方法只是本实施例的较佳实施方式，本实施例并不以此为限，例如，也可以直接利用其他3D网络在3D空间进行个性化表情模板形变的学习。

服务器确定粗糙三维人脸形状相对于预设标准人脸的三维表情形变之后，可根据所粗糙三维人脸形状和三维表情形变，通过训练好的第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数。具体计算过程可参照上述第二参数估计网络模型的训练过程，在此不再赘述。

步骤S4，基于第二3DMM参数和预设的3DMM模型确定二维人脸图像对应的精细三维人脸形状。

服务器在计算出上述第二3DMM参数之后，可将计算出的第二3DMM参数赋值于预设的3DMM模型，形成输入的二维人脸图像对应的特定精细3DMM模型，将该二维人脸图像输入至该特定精细3DMM模型，便可输出该二维人脸图像对应的精细三维人脸形状。

在一实施方式中，该三维人脸形状生成方法可应用于人脸驱动技术，该三维人脸形状生成的过程可以为人脸驱动技术过程中生成表情模板的过程，相应地，该方法还可以包括：基于第一3DMM参数和预设的3DMM模型，确定二维人脸图像对应的第一套三维表情模板，第一套三维表情模板包括多个表情不同的粗糙三维人脸形状；基于第二3DMM参数和预设的3DMM模型，确定二维人脸图像对应的第二套三维表情模板，第二套三维表情模板包括多个表情不同的精细三维人脸形状。通过该方法生成表情模板，对于不同的人，生成不同的表情模板，充分考虑了每个人在相同表情下的特异性，可以提高3D人脸重建和表情拟合的准确性，从而加强了人脸驱动的效果，可使得人脸驱动过程更加灵敏。

需要说明的是，上述各实施方式中应用FaceWarehouse数据集、Basel Face Model数据集、CelebA名人数据集及Voxceleb2名人采访视频数据集仅用于对该三维人脸形状生成方法进行详细说明，并不是对本实施例的限定，该三维人脸形状生成方法具体实施过程中也可以采用其它数据集，只要能实现该三维人脸形状生成方法就行。

为了便于理解本申请实施例提供的方法，下面结合附图进行说明。如图2和图3所示，服务器接收到输入的二维人脸图像之后，可以通过训练好的第一参数估计网络，预测该二维人脸图像的粗糙3DMM系数(包括身份系数α、表情系数β、纹理系数δ、光照系数γ及头部位姿系数p)，然后基于该粗糙3DMM系数和预设的3DMM模型，可生成该二维人脸图像对应的46个粗糙三维表情模板，可重建得到该二维人脸图像的粗糙的3D人脸形状(将重建得到3D人脸渲染到输入的二维人脸图像上，通过多个自监督训练损失函数可监督第一参数估计网络的训练)。然后，可将粗糙三维表情模板和原始输入的二维人脸图像均输入到第二参数估计网络，预测该二维人脸图像的精细3DMM系数(包括表情系数β、纹理系数δ、光照系数γ及头部位姿系数p)，然后基于该精细3DMM系数和预设的3DMM模型，可生成该二维人脸图像对应的46个精细三维表情模板，可重建得到该二维人脸图像的精细化的3D人脸形状(将重建得到3D人脸渲染到输入的二维人脸图像上，通过多个自监督训练损失函数可监督第而参数估计网络的训练，上述精细三维表情模板可用于训练映射网络)。

本实施例提供的三维人脸形状生成方法，先通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数，并基于第一3DMM参数和预设的3DMM模型确定二维人脸图像对应的粗糙三维人脸形状，再根据二维人脸图像和粗糙三维人脸形状，通过第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数，并基于第二3DMM参数和预设的3DMM模型确定二维人脸图像对应的精细三维人脸形状，如此，从粗糙到精细通过的两阶段生成个性化的三维人脸形状，关注了不同人的个性化3D人脸形状的构建，充分考虑了每个人在相同表情下的特异性，从而会提高3D人脸重建和表情拟合的准确性，加强了人脸驱动的效果。

基于上述实施例相同的构思，本申请实施例还提供一种三维人脸形状生成装置，该装置用于执行上述任一实施例提供的三维人脸形状生成方法。如图4所示，该装置包括：

粗糙形状确定模块，用于基于第一3DMM参数和预设的3DMM模型确定二维人脸图像对应的粗糙三维人脸形状；

第二参数计算模块，用于根据二维人脸图像和粗糙三维人脸形状，通过第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数；

精细形状确定模块，用于基于第二3DMM参数和预设的3DMM模型确定二维人脸图像对应的精细三维人脸形状。

在一实施方式中，第二参数计算模块，具体用于：

确定粗糙三维人脸形状相对于预设标准人脸的三维表情形变，预设标准人脸根据二维人脸图像自3DMM模型的预设标准人脸集中选择；

根据所粗糙三维人脸形状和三维表情形变，通过训练好的第二参数估计网络模型，计算二维人脸图像对应的第二3DMM参数。

在另一实施方式中，第二参数计算模块，进一步用于：

通过UV映射将粗糙三维人脸形状映射到UV空间，得到粗糙三维人脸形状对应的粗糙二维UV图；

确定粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变；

根据二维表情形变，通过映射网络确定粗糙三维人脸形状相对于预设标准人脸的三维表情形变。

在另一实施方式中，第二参数计算模块，还用于：

计算二维表情形变每一个顶点的欧式距离，根据欧式距离，形成二维表情形变的注意力掩码，注意力掩码大于等于0，且小于等于1。

该三维人脸形状生成装置还包括第一训练模块，该第一训练模块用于：

获取第一训练集；第一训练集包括多个人脸样本图像，每个人脸样本图像对应一组粗糙3DMM参数；

根据第一训练集，对第一参数估计网络模型进行训练。

在另一实施方式中，该第一训练模块，具体用于：

将第一训练集中的每个人脸样本图像输入第一参数估计网络模型中，得到人脸样本图像对应的3DMM参数；

通过预设第一损失函数训练第一参数估计网络模型，使基于人脸样本图像得到的3DMM参数等于对应的粗糙3DMM参数。

在另一实施方式中，该三维人脸形状生成装置还包括第二训练模块，该第二训练模块用于：

获取第二训练集，第二训练集包括多个人脸样本图像和每个人脸样本图像对应的粗糙三维人脸样本形状、精细3DMM参数；

根据第二训练集，对第二参数估计网络模型进行训练。

在另一实施方式中，该第二训练模块，具体用于：

确定第二训练集中的每个人脸样本图像对应的粗糙三维人脸样本形状相对于预设标准人脸的三维表情样本形变，预设标准人脸根据二维人脸图像自3DMM模型的预设标准人脸集中选择；

通过预设第二损失函数对第二参数估计网络模型进行训练，使基于人脸样本图像和对应的粗糙三维人脸形状得到的3DMM参数等于对应的精细3DMM参数。

在另一实施方式中，粗糙形状确定模块，具体用于：

基于第一3DMM参数和预设的3DMM模型，确定二维人脸图像对应的第一套三维表情模板，第一套三维表情模板包括多个表情不同的粗糙三维人脸形状；

精细形状确定模块，具体用于：

基于第二3DMM参数和预设的3DMM模型，确定二维人脸图像对应的第二套三维表情模板，第二套三维表情模板包括多个表情不同的精细三维人脸形状。

本申请的上述实施例提供的图像处理装置与本申请实施例提供的三维人脸形状生成方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种电子设备，以执行上述三维人脸形状生成方法。请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，电子设备8包括：处理器800，存储器801，总线802和通信接口803，处理器800、通信接口803和存储器801通过总线802连接；存储器801中存储有可在处理器800上运行的计算机程序，处理器800运行计算机程序时执行本申请前述任一实施方式所提供的三维人脸形状生成方法。

其中，存储器801可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口803(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线802可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器801用于存储程序，处理器800在接收到执行指令后，执行程序，前述本申请实施例任一实施方式揭示的三维人脸形状生成方法可以应用于处理器800中，或者由处理器800实现。

处理器800可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器800中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器800可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器800读取存储器801中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的三维人脸形状生成方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的三维人脸形状生成方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施方式所提供的三维人脸形状生成方法。

需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的三维人脸形状生成方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下示意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种三维人脸形状生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述二维人脸图像和所述粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数，包括：

3.根据权利要求2所述的方法，其特征在于，确定所述粗糙三维人脸形状相对于预设标准人脸的三维表情形变，包括：

4.根据权利要求3所述的方法，其特征在于，确定所述粗糙二维UV图相对于预设标准人脸的二维UV图的二维表情形变之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述第一3DMM参数包括身份系数、表情系数、纹理系数、光照系数及位姿系数；所述第二3DMM参数包括表情系数、纹理系数、光照系数及位姿系数。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述通过第一参数估计网络模型，计算输入的二维人脸图像对应的第一3DMM参数之前，还包括：

根据所述第一训练集，对第一参数估计网络模型进行训练。

7.根据权利要求6所述的方法，其特征在于，根据所述第一训练集，对第一参数估计网络模型进行训练，包括：

8.根据权利要求7所述的方法，其特征在于，所述预设第一损失函数为：

L_com＝λ_phoL_pho+λ_perL_per+λ_lmL_lm+λ_regL_reg+λ_spL_sp

其中，L_pho，L_per，L_lm和(L_reg,L_sp)分别为通过图像重构损失函数、图像感知损失函数、关键点重构损失函数和正则损失函数计算的损失值；λ_pho，λ_per，λ_lm，λ_reg，λ_sp均大于0，分别为相应损失函数的超参数。

9.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述二维人脸图像和所述粗糙三维人脸形状，通过训练好的第二参数估计网络模型，计算所述二维人脸图像对应的第二3DMM参数之前，还包括：

根据所述第二训练集，对第二参数估计网络模型进行训练。

10.根据权利要求9所述的方法，其特征在于，根据所述第二训练集，对训练好的第二参数估计网络模型进行训练，包括：

11.根据权利要求10所述的方法，其特征在于，所述预设第二第二损失函数为：

L＝L_com+_graL_gra

12.根据权利要求11所述的方法，其特征在于，所述表情梯度损失函数为：

13.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述第一3DMM参数和预设的3DMM模型确定所述二维人脸图像对应的粗糙三维人脸形状，包括：

14.一种三维人脸形状生成装置，其特征在于，包括：

15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-13任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-13中任一项所述的方法。