CN114926591A

CN114926591A - 多分支深度学习的3d人脸重建模型训练方法、系统及介质

Info

Publication number: CN114926591A
Application number: CN202210574406.5A
Authority: CN
Inventors: 梁柱锦; 虞虹玲; 张壮辉; 朱世新; 严蕤; 郭怡适
Original assignee: Imagedt Co ltd
Current assignee: Imagedt Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-19

Abstract

本发明公开了一种多分支深度学习的3D人脸重建模型训练方法、系统及介质，方法包括：将第一人脸图像输入到人脸识别网络和人脸对齐网络得到第一身份信息和第一关键点位置信息；根据第一身份信息确定第一人脸几何形状信息，并将第一身份信息和第一关键点位置信息输入到表情识别网络中，得到第一人脸表情信息；将第一关键点位置信息、第一人脸几何形状信息以及第一人脸表情信息输入到生成对抗网络中，得到第一渲染图像；根据第一渲染图像更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数，得到最优参数组合。本发明提高了生成的3D人脸图像的真实性和准确性，可广泛应用于计算机视觉技术领域。

Description

多分支深度学习的3D人脸重建模型训练方法、系统及介质

技术领域

本发明涉及计算机视觉技术领域，尤其是一种多分支深度学习的3D人脸重建模型训练方法、系统及介质。

背景技术

人脸3D重建技术作为计算机视觉、机器学习等交叉领域的核心研究课题之一，近年来被广泛地应用在人机交互、游戏、动画等领域。人脸3D重建是指通过人脸的2D图像还原成人脸的3D信息，包括人脸的纹理信息、光照反射信息、表情信息、几何形状信息等。传统的3D人脸生成是由昂贵的捕捉系统或专业人员完成的，随着计算机计算能力的提高，算法生成的3D人脸越来越逼真，而成本相对传统方法较低廉，因此受到了许多研究者的关注。

从2D人脸图像到3D人脸的重建的过程是一个不确定的问题，因为同一个3D人脸模型可以生成多张2D图像，很难确定哪一张对应真实的3D人脸，而成功的关键是添加先验知识来消除具有歧义的解决方案。一般来说，人脸3D重建方法可分为三种：基于统计学的方法，基于光度测量的方法和基于深度学习的方法。基于统计学的方法将先验知识编码在一个3D人脸模型中，最经典的是三维可变形模型(3D Morphable Models，3DMM)。3DMM生成3D人脸的过程即求解一组线性参数的过程，它由形状模型和可选的纹理和颜色模型等组成，分别通过主成分分析法(Principal Component Analysis，PCA)求得平均3D人脸形状等信息，然后对参数优化，生成与输入的2D人脸图像相对应的3D人脸。基于光度测量的方法，将3D人脸模型与光度立体视觉方法相结合来估计人脸表面法线。这种策略是基于人脸表面的反射率建模，会影响人脸重建后的质量，且原始数据使用来自多个图像的信息，会进一步造成解决方案的歧义，所以并没有其它两种方法应用广泛。基于深度学习的方法，通过从大量原始数据的训练中学习先验知识，即直接学习2D图像和3D人脸之间的映射，然后输出高质量的3D人脸信息。该方法的出现使得人脸3D重建技术得到了巨大的发展。

目前，基于深度学习的方法按神经网络架构的不同可分为4种类别：基于卷积神经网络的人脸3D重建算法、基于自编码器的人脸3D重建算法、基于图卷积网络的人脸3D重建算法和基于生成对抗网络(Generative Adversarial Network,GAN)的人脸3D重建算法。其中，GAN被证明在2D人脸图像上进行训练时，可以生成具有真实特征的图像，得到照片般逼真的高分辨率人脸，也有越来越多的GAN算法尝试生成用于3D人脸的纹理贴图。

然而，生成一个具有真实纹理的高保真3D人脸仍具有技术难度。皱纹等几何结构细节是年龄和面部表情的重要指标，对于生成真实的虚拟人至关重要。3DMM算法中使用PCA处理模型尽管有其优势，但受到线性空间容量的限制，无法充分表示高频信息，通常会导致纹理模型过于平滑，以致面部纹理失真；而现有的部分算法通过直接对输入图像进行超分辨率处理，以期得到高分辨率的纹理贴图，但这种方法对输入图像的质量要求很高，也不符合现实情况，即不适应于普通设备获取的非高清图像；有部分算法通过用大量高质量的UV数据作为训练集训练GAN，效果虽然很好，可是算法过分依赖于训练数据。

此外，纹理、几何形状与表情应该具有潜在的关联信息，如果分别独立训练各模型参数，有可能会导致渲染后的图像失去真实感，因此，有的算法直接通过网络训练出所有的参数，并直接在UV空间中完成数据对齐，不需要再额外的转换成3DMM参数形式，但这种方法并不能做到各方面参数都训练得很完美，且模型相对来说较复杂。当输入为视频帧的连续序列时，现有算法很少有预防遮挡的措施，因此对于遮挡情况的鲁棒性不好。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种多分支深度学习的3D人脸重建模型训练方法，该方法提高了生成的3D人脸图像的真实性和准确性。

本发明实施例的另一个目的在于提供一种多分支深度学习的3D人脸重建模型训练系统。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练方法，包括以下步骤：

获取第一人脸图像，将所述第一人脸图像输入到预先构建的人脸识别网络得到第一身份信息，并将所述第一人脸图像输入到预先构建的人脸对齐网络得到第一关键点位置信息；

根据所述第一身份信息确定第一人脸几何形状信息，并将所述第一身份信息和所述第一关键点位置信息输入到预先构建的表情识别网络中，得到第一人脸表情信息；

将所述第一关键点位置信息、所述第一人脸几何形状信息以及所述第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像；

根据所述第一渲染图像更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数，得到最优参数组合，进而根据所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络以及所述最优参数组合得到3D人脸重建模型。

进一步地，在本发明的一个实施例中，所述人脸识别网络为FaceNet网络，所述人脸对齐网络为MTCNN网络，所述表情识别网络为轻量型RingNet网络。

进一步地，在本发明的一个实施例中，所述根据所述第一身份信息确定第一人脸几何形状信息这一步骤，其具体为：

通过主成分分析算法对所述第一人脸图像进行特征提取和降维处理得到降维矩阵，根据所述第一身份信息和所述降维矩阵确定第一人脸几何形状信息。

进一步地，在本发明的一个实施例中，所述生成对抗网络包括生成器和判别器，所述生成器包括纹理生成模块和渲染模块，所述生成器用于根据所述第一关键点位置信息、所述第一人脸几何形状信息、所述第一人脸表情信息以及所述生成对抗网络的预设参数生成渲染图像，所述判别器用于根据生成器输出的渲染图像通过反向传播算法更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数。

进一步地，在本发明的一个实施例中，所述将所述第一关键点位置信息、所述第一人脸几何形状信息以及所述第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像这一步骤，其具体包括：

将所述第一关键点位置信息输入到所述纹理生成模块得到第一纹理贴图；

对所述第一纹理贴图进行超分辨率处理得到第二纹理贴图；

根据所述第二纹理贴图确定纹理法向量，根据所述第一人脸几何形状信息确定人脸几何形状法向量，根据所述第一人脸表情信息确定人脸表情法向量；

将所述纹理法向量、人脸几何形状法向量以及人脸表情法向量输入到所述渲染模块得到第一法线贴图；

对所述第一法线贴图进行可微分渲染得到第一渲染图像。

进一步地，在本发明的一个实施例中，所述根据所述第一渲染图像更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数，得到最优参数组合这一步骤，其具体包括：

将所述第一渲染图像输入到所述判别器，根据预设的损失函数计算得到损失值；

根据所述损失值通过梯度下降算法和反向传播算法更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数；

当损失值达到预设的第一阈值，或，迭代次数达到预设的第二阈值，或，测试精度达到预设的第三阈值，停止训练，得到所述最优参数组合。

进一步地，在本发明的一个实施例中，所述损失函数为：

L＝m_KL_K+m_PL_P+m_idL_id+m_fL_f+m_RL_R

其中，L表示损失值，L_K表示对齐损失，m_K表示对齐损失的权值，L_P表示感知损失，m_P表示感知损失的权值，L_id表示身份信息损失，m_id表示身份信息损失的权值，L_f表示视频连续性损失，m_f表示视频连续性损失的权值，L_R表示正则化损失，m_R表示正则化损失的权值。

第二方面，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练系统，包括：

身份信息及关键点位置信息确定模块，用于获取第一人脸图像，将所述第一人脸图像输入到预先构建的人脸识别网络得到第一身份信息，并将所述第一人脸图像输入到预先构建的人脸对齐网络得到第一关键点位置信息；

人脸几何形状信息及人脸表情信息确定模块，用于根据所述第一身份信息确定第一人脸几何形状信息，并将所述第一身份信息和所述第一关键点位置信息输入到预先构建的表情识别网络中，得到第一人脸表情信息；

渲染图像确定模块，用于将所述第一关键点位置信息、所述第一人脸几何形状信息以及所述第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像；

网络参数优化模块，用于根据所述第一渲染图像更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数，得到最优参数组合，进而根据所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络以及所述最优参数组合得到3D人脸重建模型。

第三方面，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的一种多分支深度学习的3D人脸重建模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的一种多分支深度学习的3D人脸重建模型训练方法。

本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到：

本发明实施例通过人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络形成多分支深度学习的3D人脸重建模型，先将人脸图像输入到人脸识别网络和人脸对齐网络得到身份信息和关键点位置信息，然后根据身份信息确定人脸几何形状信息，并将身份信息和关键点位置信息输入到表情识别网络得到人脸表情信息，再将关键点位置信息、人脸几何形状信息以及人脸表情信息输入到生成对抗网络得到渲染图像，基于该渲染图像和预设的损失函数对人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络进行网络参数更新，直至得到最优参数组合，从而可以得到训练好的3D人脸重建模型。本发明实施例通过多个分支网络的联合训练来更新各分支网络的网络参数，可以对各分支网络的人脸特征之间的潜在关联进行学习，保持了多个模态的人脸特征的相关性，提高了生成的3D人脸图像的真实性和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面对本发明实施例中所需要使用的附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明实施例提供的一种多分支深度学习的3D人脸重建模型训练方法的步骤流程图；

图2为本发明实施例提供的一种多分支深度学习的3D人脸重建模型的训练流程示意图；

图3为本发明实施例提供的一种多分支深度学习的3D人脸重建模型训练系统的结构框图；

图4为本发明实施例提供的一种多分支深度学习的3D人脸重建模型训练装置的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，多个的含义是两个或两个以上，如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。

传统的3DMM模型使用UV贴图进行3D人脸重建，每个顶点包含的纹理信息都存在UV坐标里。UV空间定义了图片每个像素点的信息，这些点与3D模型是相互联系的。纹理可以反映物体表面属性，通过映射函数将参数空间值转换到纹理UV空间。这个过程就称为贴图，也就是纹理贴图。通过对矢量化的UV贴图进行PCA分析，可以得到贴图的平均基。具体来说，3DMM模型的人脸外观模型S_model和纹理模型T_model分别是：

其中，人脸外观模型S_model包括几何形状模型和表情模型，

表示根据数据集中的人脸计算出的平均形状向量，同理，

是平均纹理向量；U_s，U_e，U_t分别表示PCA分析的基子集与预测的形状参数α_s、表情参数α_e、纹理参数α_t的线性组合。

3DMM的参数拟合过程可以看做如下最优化问题：

其中，I⁰表示输入的2D人脸图像，I^R表示渲染后的图像，α＝[α_s,α_e,α_t,α_l,α_c]，α_l和α_c分别表示光照参数和相机参数，∑α_s,e,l ²表示正则化过程，用于约束参数α_s，α_e和α_t，防止超出平均人脸的正常范围，以及出现偏离现实的光照。

由于3DMM模型原理相对简单，将各个属性(纹理、形状等)拟合到3DMM并不复杂，且3DMM与深度学习算法相结合重建出的3D人脸相比仅使用3DMM重建出的人脸可以拥有更多的纹理细节，因此本发明实施例采用了3DMM的框架，通过改进各个属性的提取方法获取人脸特征，通过多分支网络的联合训练优化3D人脸重建模型，从而可以生成具有高精度细节信息的3D人脸重建图像。本发明实施例的每个分支网络用于估计一个单一属性(身份、表情、纹理等特征)，通过这种方式，每个分支可以专注于一个任务，提高准确性。考虑到几何形状、纹理和表情等特征具有潜在的相关性，可先分开训练至各分支网络都收敛到较好的权重后，再将各分支网络联通后进行联合训练，从而得到更优的网络参数组合。

参照图1，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练方法，具体包括以下步骤：

S101、获取第一人脸图像，将第一人脸图像输入到预先构建的人脸识别网络得到第一身份信息，并将第一人脸图像输入到预先构建的人脸对齐网络得到第一关键点位置信息。

具体地，人脸识别网络和人脸对齐网络均可采用现有的神经网络模型，采用人脸图像训练集预先训练至模型收敛后，再开始本发明实施例的联合训练流程。当输入一张2D人脸图像时，均需要通过上述两个网络提取人脸身份信息和人脸关键点位置信息，然后再分别输入到其它分支网络，用于后续的模型训练。

S102、根据第一身份信息确定第一人脸几何形状信息，并将第一身份信息和第一关键点位置信息输入到预先构建的表情识别网络中，得到第一人脸表情信息。

进一步作为可选的实施方式，人脸识别网络为FaceNet网络，人脸对齐网络为MTCNN网络，表情识别网络为轻量型RingNet网络。

具体地，本发明实施例通过人脸识别网络FaceNet提取输入2D图像的人脸身份信息，其原理是利用卷积神经网络学习欧式空间特征，当两幅图像特征向量间的欧式距离越小，表示两幅图像是同一个人的可能性越大。

本发明实施例通过人脸对齐网络MTCNN进行人脸关键点检测，这是一种实时实现人脸检测与关键点标定的基于CNN方式的级联检测方法。

本发明实施例采用的轻量型RingNet网络是在RingNet网络的基础上增加了SE模块(Squeeze and Excite Modules)，RingNet网络是一种基于多编码器-解码器的架构，它可以捕捉3D面部表情，并可以用于动画驱动，而SE模块的作用是在不影响结果准确性的前提下，降低模型尺寸和复杂性，这样可以使算法符合实时性应用的需求。由于RingNet输出的不是3DMM参数的形式，本发明实施例在网络输出层将其转换成3DMM参数形式，以达到数据对齐的要求。与人脸识别网络和人脸对齐网络的预训练相类似，本发明实施例通过学习不同表情(如快乐、悲伤、惊讶、厌恶和恐惧等)特征对轻量型RingNet网络进行预训练，然后再进行本发明实施例的多分支网络联合训练。

进一步作为可选的实施方式，根据第一身份信息确定第一人脸几何形状信息这一步骤，其具体为：

通过主成分分析算法对第一人脸图像进行特征提取和降维处理得到降维矩阵，根据第一身份信息和降维矩阵确定第一人脸几何形状信息。

具体地，主成分分析法分为以下几个步骤：

1.数据预处理(data preprocessing)；

2.求取协方差矩阵(covarience matrix)；

3.求取协方差矩阵的特征值(eigenvalue)与特征向量(eigenvector)；

4.依据特征值大小选取适当数量的特征向量作为基(basis)组成一子空间；

5.将原始矩阵投射(project)到该子空间得到降维矩阵。

本发明实施例中，通过主成分分析法对第一人脸图像进行特征提取和降维处理得到降维矩阵，然后结合前述步骤得到的身份信息即可确定人脸几何形状信息。

S103、将第一关键点位置信息、第一人脸几何形状信息以及第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像。

进一步作为可选的实施方式，生成对抗网络包括生成器和判别器，生成器包括纹理生成模块和渲染模块，生成器用于根据第一关键点位置信息、第一人脸几何形状信息、第一人脸表情信息以及生成对抗网络的预设参数生成渲染图像，判别器用于根据生成器输出的渲染图像通过反向传播算法更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数。

进一步作为可选的实施方式，将第一关键点位置信息、第一人脸几何形状信息以及第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像这一步骤，其具体包括：

S1031、将第一关键点位置信息输入到纹理生成模块得到第一纹理贴图；

S1032、对第一纹理贴图进行超分辨率处理得到第二纹理贴图；

S1033、根据第二纹理贴图确定纹理法向量，根据第一人脸几何形状信息确定人脸几何形状法向量，根据第一人脸表情信息确定人脸表情法向量；

S1034、将纹理法向量、人脸几何形状法向量以及人脸表情法向量输入到渲染模块得到第一法线贴图；

S1035、对第一法线贴图进行可微分渲染得到第一渲染图像。

具体地，本发明实施例提出一种生成对抗式网络MB-GAN，它由生成器和判别器组成，生成器包含2个模块，即纹理生成模块和渲染模块。

纹理生成模块用于生成高分辨率的纹理贴图并进行超分辨率处理，生成的纹理贴图用于替代3DMM中的纹理模型。通过具有高分辨率的UV纹理贴图数据集训练MB-GAN网络，可以生成较高质量的纹理贴图。针对生成的纹理贴图仍有质量提升空间这一问题，本发明实施例进一步对纹理贴图作超分辨率处理，以保证纹理的细节更加丰富。超分辨率处理是指对图像分辨率的放大，本发明实施例采用的是最新的RealSR算法，通过对生成的纹理贴图分辨率放大8倍，得到更清晰的UV纹理贴图。

渲染模块用于生成法线贴图并进行可微分渲染。法线贴图是由人脸几何形状法向量、人脸表情法向量以及纹理法向量共同组成的。作为凹凸纹理的扩展，法线贴图包括许多细节的表面信息，每个像素点的法线值可用做光照计算，渲染时通过使用光照参数和该点法线值来表示纹理的凹凸效果。在完成可微分渲染后，可输入到判别器进行网络参数的更新。

此外，与前述的人脸识别网络、人脸对齐网络以及表情识别网络的预训练类似，本发明实施例的MB-GAN网络在进行多分支网络联合训练之前，也需要进行预训练。基于不同任务，各个分支网络的训练数据集是不同的，其中，MB-GAN网络的训练集是由大规模3D纹理组成的，它们由经过处理的1000个不同的人从3个视角(左面，正面，右面)生成的高分辨率纹理贴图组成。此外，MB-GAN网络从AFLW2000-3D数据集的高斯分布中采样相机和照明参数，该数据集包含2000张3D人脸图像，其中每张人脸图像都包含对应的3DMM系数与68个人脸关键点；RealFaceDB数据集可用于训练表情识别网络，它包括在7种不同的表情下的200多个不同年龄和特征的人的面孔。

S104、根据第一渲染图像更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数，得到最优参数组合，进而根据人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络以及最优参数组合得到3D人脸重建模型。

具体地，本发明实施例的MB-GAN网络的作用是渲染生成符合3DMM参数分布的高保真的3D人脸图像，在训练中通过整合各分支网络输出的几何形状和表情等特征，以及MB-GAN网络自身生成的纹理、相机、光照等参数，输入渲染模块，利用可微分渲染，将上述求得的参数解耦合，并反向传播到各分支网络进行网络参数更新，从而减小渲染图片与真实图片之间的差异。MB-GAN网络在经过上述训练之后，可以生成最优的参数组合，使得输入的2D人脸图像在经过各分支网络处理后输入到MB-GAN网络可以最终渲染出高保真的3D人脸图像。本发明实施例的3D人脸重建模型由处于最优参数组合状态下的各个分支网络组成。

进一步作为可选的实施方式，根据第一渲染图像更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数，得到最优参数组合这一步骤，其具体包括：

A1、将第一渲染图像输入到判别器，根据预设的损失函数计算得到损失值；

A2、根据损失值通过梯度下降算法和反向传播算法更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数；

A3、当损失值达到预设的第一阈值，或，迭代次数达到预设的第二阈值，或，测试精度达到预设的第三阈值，停止训练，得到最优参数组合。

进一步作为可选的实施方式，损失函数为：

L＝m_KL_K+m_PL_P+m_idL_id+m_fL_f+m_RL_R

具体地，在本发明实施例的损失函数中，对齐损失L_K用于保证渲染后的图像与输入图像人脸关键点对齐的一致性；除了图像层面的损失，还要考虑特征层面的感知损失，计算通过FaceNet网络提取的输入图像和渲染后的图像的特征表示的余弦距离，可以得到感知损失L_P，用于提高参数质量；身份信息损失L_id用于保证人脸识别获取的输入图像的身份信息仍被渲染后的图像完整保存；当输入图像为连续性的视频帧时，通过保留上一帧渲染后图像的身份特征信息，将当前帧渲染后的图像的身份信息与其计算得到视频连续性损失L_f，它用于防止当前帧出现遮挡导致渲染后的图像与上一帧有较大偏差；为保证重建的3D人脸的几何形状和纹理的真实性，提出正则化损失L_R，用于强制各分支网络输出的参数服从3DMM的正态分布：

L_R＝w_s||α_s||+w_e||α_e||+w_t||α_t||

其中，w_s、w_e以及w_t分别表示几何形状特征、人脸表情特征以及纹理特征的权值，α_s、α_e以及α_t分别表示几何形状特征、人脸表情特征以及纹理特征。

本发明实施例通过梯度下降算法和反向传播算法同时优化所有分支网络的网络参数，以最小化上述损失项的加权组合(即本发明实施例的损失值)，达到模型拟合的目的。

以上对本发明实施例的方法步骤进行了说明。如图2所示为本发明实施例提供的一种多分支深度学习的3D人脸重建模型的训练流程示意图。首先，输入2D人脸图像，通过人脸识别网络FaceNet采集身份信息，并通过人脸对齐网络MTCNN检测人脸关键点位置；然后利用PCA方法获取3DMM的人脸几何形状信息，同时将身份信息和关键点位置信息输入到表情识别网络得到人脸表情信息，再将关键点位置信息、人脸几何形状信息以及人脸表情信息输入到本发明实施例提出的MB-GAN网络中，生成高精度的纹理贴图和法线贴图，通过可微分渲染生成渲染图像，然后计算损失值，通过反向传播算法更新所有分支网络的网络参数，达到预设的收敛条件后得到最优参数组合，此时即可得到训练好的3D人脸重建模型。将2D人脸图像直接输入到该3D人脸重建模型即可渲染出高保真的3D人脸图像。可以认识到，本发明实施例通过多个分支网络的联合训练来更新各分支网络的网络参数，可以对各分支网络的人脸特征之间的潜在关联进行学习，保持了多个模态的人脸特征的相关性，提高了生成的3D人脸图像的真实性和准确性。

可以理解的是，对于纹理贴图质量的问题，本发明实施例通过用纹理UV数据集训练提出的MB-GAN，在生成高精度的纹理贴图后再进行超分辨率处理，进一步提高纹理精度，这样处理可以平衡对于训练数据集和输入图像的质量要求；对于纹理、几何形状与表情特征之间存在的潜在关联信息的问题，本发明实施例设计了多个损失项，把不同分支输出的特征整合在MB-GAN中进行反向传播，并迭代优化出最终的参数组合，这样设计既可以最大化各分支网络的优势，又可以学习各模型参数之间的潜在联系；对于实时性问题，本发明实施例增加了特征选择的模块，有助于在保证模型准确率的情况下，降低运算规模；对于遮挡问题，除了表情模型生成网络的训练数据集是带有遮挡的人脸之外，本发明实施例还设计了视频连续性损失，利用视频帧之间的时间信息有效应对遮挡情况。此外，本发明实施例充分利用了生成式渲染器的优势，使用可微分渲染技术以生成与输入图像身份信息相似的图片为目标，反推出更准确和连续的人脸几何形状与纹理，进一步提高了生成的3D人脸图像的真实性和准确性。

参照图3，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练系统，包括：

身份信息及关键点位置信息确定模块，用于获取第一人脸图像，将第一人脸图像输入到预先构建的人脸识别网络得到第一身份信息，并将第一人脸图像输入到预先构建的人脸对齐网络得到第一关键点位置信息；

人脸几何形状信息及人脸表情信息确定模块，用于根据第一身份信息确定第一人脸几何形状信息，并将第一身份信息和第一关键点位置信息输入到预先构建的表情识别网络中，得到第一人脸表情信息；

渲染图像确定模块，用于将第一关键点位置信息、第一人脸几何形状信息以及第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像；

网络参数优化模块，用于根据第一渲染图像更新人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络的网络参数，得到最优参数组合，进而根据人脸识别网络、人脸对齐网络、表情识别网络以及生成对抗网络以及最优参数组合得到3D人脸重建模型。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参照图4，本发明实施例提供了一种多分支深度学习的3D人脸重建模型训练装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当上述至少一个程序被上述至少一个处理器执行时，使得上述至少一个处理器实现上述的一种多分支深度学习的3D人脸重建模型训练方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，该处理器可执行的程序在由处理器执行时用于执行上述一种多分支深度学习的3D人脸重建模型训练方法。

本发明实施例的一种计算机可读存储介质，可执行本发明方法实施例所提供的一种多分支深度学习的3D人脸重建模型训练方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或上述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，上述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印上述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得上述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多分支深度学习的3D人脸重建模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于：所述人脸识别网络为FaceNet网络，所述人脸对齐网络为MTCNN网络，所述表情识别网络为轻量型RingNet网络。

3.根据权利要求1所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于，所述根据所述第一身份信息确定第一人脸几何形状信息这一步骤，其具体为：

4.根据权利要求1所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于：所述生成对抗网络包括生成器和判别器，所述生成器包括纹理生成模块和渲染模块，所述生成器用于根据所述第一关键点位置信息、所述第一人脸几何形状信息、所述第一人脸表情信息以及所述生成对抗网络的预设参数生成渲染图像，所述判别器用于根据生成器输出的渲染图像通过反向传播算法更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数。

5.根据权利要求4所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于，所述将所述第一关键点位置信息、所述第一人脸几何形状信息以及所述第一人脸表情信息输入到预先构建的生成对抗网络中，得到第一渲染图像这一步骤，其具体包括：

对所述第一纹理贴图进行超分辨率处理得到第二纹理贴图；

对所述第一法线贴图进行可微分渲染得到第一渲染图像。

6.根据权利要求4所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于，所述根据所述第一渲染图像更新所述人脸识别网络、所述人脸对齐网络、所述表情识别网络以及所述生成对抗网络的网络参数，得到最优参数组合这一步骤，其具体包括：

7.根据权利要求6所述的一种多分支深度学习的3D人脸重建模型训练方法，其特征在于，所述损失函数为：

L＝m_KL_K+m_PL_P+m_idL_id+m_fL_f+m_RL_R

8.一种多分支深度学习的3D人脸重建模型训练系统，其特征在于，包括：

9.一种多分支深度学习的3D人脸重建模型训练装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种多分支深度学习的3D人脸重建模型训练方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种多分支深度学习的3D人脸重建模型训练方法。