CN114782610A

CN114782610A - 一种结合神经纹理的可操控3d人脸重建方法及系统

Info

Publication number: CN114782610A
Application number: CN202210440730.8A
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Yingshu Technology Co ltd
Current assignee: Beijing Yingshu Technology Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-22

Abstract

本发明公开了一种结合神经纹理的可操控3D人脸重建方法及系统，采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片，构建训练集；将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练，并利用训练后的深度神经网络模型预测得到线性人脸模型参数，所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数；将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸3D几何形状模型以及对应的人脸贴图。其结果可以被主流渲染引擎兼容、并且通过引入神经纹理，使得渲染结果更加逼真。

Description

一种结合神经纹理的可操控3D人脸重建方法及系统

技术领域

本发明涉及3D人脸重建技术领域，具体涉及一种结合神经纹理的可操控 3D人脸重建方法及系统。

背景技术

3D人脸重建是一个非常重要的计算机视觉任务，得到了广泛研究和应用。数字化身生成包含众多技术环节，包括人脸重建、身体重建、声音重建等等，其中人脸重建的发展较为成熟，人脸重建任务的重点，除了制作外形逼真的 3D模型之外，还包括非刚性运动的参数化建模，以控制和模拟面部的复杂表情。市面已有的方法包括，借助采集系统(包括单目相机、深度相机、相机阵列等)完成3D人脸模型的自动化、半自动化重建，但需要人工介入进行所谓的RIG操作，也即骨骼/控制点绑定，以便于在后续的3D处理和渲染软件中通过线性蒙皮算法(简称LBS)，进行参数化控制，整个过程还无法实现全自动化，因而限制了该服务的产能；还有一些基于统计的AI模型，例如BFM、 FLAME、FaceScape等，通过构建大规模人脸3D扫描数据，训练了可用的 3DMM模型，可以通过单张或多张图片进行参数估计，可以实现人脸的自动化3D建模，但是一方面，重建后渲染输出的逼真度有限，另一方面，这些AI化的参数与主流的渲染引擎，例如U3D、UE4无法实现兼容，难以被程序化自动操控。

发明内容

为此，本发明提供一种结合神经纹理的可操控3D人脸重建方法及系统，以解决现有3D人脸重建存在的无法与主流的渲染引擎兼容、渲染输出的逼真度有限、无法实现全自动化的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种结合神经纹理的可操控3D人脸重建方法，所述方法包括：

采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片，构建训练集；

将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练，并利用训练后的深度神经网络模型预测得到线性人脸模型参数，所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数；

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸 3D几何形状模型以及对应的人脸贴图。

进一步地，所述方法还包括：基于人脸线性参数化表示，将人脸的形状、表情、外观分别表示为100维、50维、50维子空间，构建人脸线性参数化模型：

分别用S和A表示人脸的3D几何形状和外观：

其中，S代表目标3D人脸的顶点位置，

对应3DMM数据集计算得到的顶点位置的平均值；S_i、E_i分别代表通过PCA算法得到的个体和表情的主分量；参数β_i、δ_i分别代表S_i和E_i的权重；

A代表目标3D人脸的贴图像素值，

对应3DMM数据集计算得到的贴图像素值的平均值；A_i代表通过PCA算法得到的3D人脸贴图像素值；参数α_i代表A_i的权重。

进一步地，所述方法还包括：构建深度神经网络模型，具体为：

所述深度神经网络模型包括第一编码器、解码器、神经纹理编码器以及渲染器；

所述第一编码器的输入为图像{I_{i，i＝1～N}}，N为抽帧的图像数，输出为线性人脸模型参数{β_{i,i＝1～100}}、{δ_i,i＝1～50}、{α_i,i＝1～50}；

所述解码器包括第一解码器和第二解码器，所述第一解码器的输入为参数β_{i,i＝1～100}}、{δ_i,i＝1～50}，输出为3D人脸几何形状S，第二解码器的输入为参数{α_i,i＝1～50}，输出为3D人脸贴图A；

所述神经纹理编码器输入为3D人脸贴图A，输出为神经纹理{T_i,i＝1～M}，共计M个神经纹理；

所述渲染器包括第一渲染器和第二渲染器，所述第一渲染器为神经渲染器，输入为神经纹理T，输出为RGB图像

所述第二渲染器为可微分渲染器，输入为S和A，输出为渲染图像

进一步地，所述方法还包括：

定义目标损失函数如下：

L＝L₁+εL₂

其中，

ε为权重系数；

根据所述目标损失函数对深度神经网络模型进行训练直至模型收敛。

进一步地，所述方法还包括：

制作中性表情模型M₀，对应δ_i,i＝1～50＝0；选择M_i,i＝1～15，对应δ_i,i＝1～15＝ 4；以及M_{i,i＝16～30}，对应δ_i,i＝1～15＝-4；将M₁～M₃₀共计30个3D模型，通过 FBX SDK分别绑定到M₀的30个变形通道上，输出为FBX文件，其中表情模型M是对S和A中的权重系数取特定的值，将贴图A绑定到顶点S上后获得的一个3D模型。

根据本发明实施例的第二方面，提出了一种结合神经纹理的可操控3D人脸重建系统，所述系统包括：

图片获取模块，用于采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片；

人脸重建模块，用于将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练，并利用训练后的深度神经网络模型预测得到线性人脸模型参数，所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数；

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸 3D模型以及对应的人脸贴图。

本发明具有如下优点：

本发明提出的一种结合神经纹理的可操控3D人脸重建方法及系统，采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片，构建训练集；将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练，并利用训练后的深度神经网络模型预测得到线性人脸模型参数，所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数；将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸3D几何形状模型以及对应的人脸贴图。其结果可以被主流渲染引擎兼容、并且通过引入神经纹理，使得渲染结果更加逼真。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方法的流程示意图；

图2为本发明实施例1提供的一种结合神经纹理的可操控3D人脸重建方法中深度卷积神经网络模型的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实施例提出了一种结合神经纹理的可操控3D人脸重建方法，该方法包括：

S100、采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片，构建训练集；

S200、将获取的多张图片输入至预先构建的深度神经网络模型对模型进行训练，并利用训练后的深度神经网络模型预测得到线性人脸模型参数，所述线性人脸模型参数包括3D人脸几何形状参数和3D人脸贴图参数；

S300、将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸3D几何形状模型以及对应的人脸贴图。

本实施例提出的通过多张图片实现自动化3D人脸重建的方法，其结果可以被主流渲染引擎兼容、并且通过引入神经纹理，使得渲染结果更加逼真，具体实施步骤如下：

1、通过任意录像设备(例如手机)采集一段时长大概5s的用户面部的视频；该视频包含自然的头部运动和面部表情变化；通过抽帧获得N张图片作为系统的输入。

2、基于人脸线性参数化表示(例如采用FLAME模型)，将人脸的形状、表情、外观分别表示为100维、50维、50维子空间，记作：

S和A分别表示人脸的3D几何形状和外观(Albedo贴图)；

其中，S代表目标3D人脸的顶点位置，

对应3DMM(例如采用FLAME 模型)数据集计算得到的顶点位置的平均值；S_i、E_i、分别代表通过PCA算法得到的个体和表情的主分量；β_i、δ_i分别代表S_i和E_i的权重；

A代表目标3D人脸的贴图像素值，

对应3DMM(例如采用FLAME模型)数据集计算得到的贴图像素值的平均值；A_i代表通过PCA算法得到的3D 人脸贴图像素值；α_i代表A_i的权重。

3、构建一个神经网络，如图2所示，由四部分组成，分别是编码器Encoder、解码器Decoder、神经纹理编码器NTexture、渲染器NRender。

编码器Encoder的输入是图像{I_{i，i＝1～N}}，输出包含步骤(2)中的线性人脸模型参数{β_{i,i＝1～100}}、{δ_i,i＝1～50}、{α_i,i＝1～50}；

解码器包含两部分，Decoder-1的输入为{β_{i,i＝1～100}}、{δ_i,i＝1～50}，输出为 3D模型S；Decoder-2的输入为{α_i,i＝1～50}，输出为A；

神经纹理编码器的输入是A，输出是神经纹理{T_i,i＝1～M}，共计M个神经纹理，存储在G-Buffer中；简单情况下M＝3(如果考虑到光照，则M可以扩展，以包含光照信息)；

渲染器也包含两部分，NRender-1的输入为T，输出为

神经渲染器NRender-1采用U-Net网络结构，将G-Buffer中的神经纹理通过 Image-to-image的方式输出成RGB图像；NRender-2的输入为S和A，输出为

NRender-2采用可微分渲染器，例如PyTorch3D。

4、定义目标损失函数如下：

L＝L₁+εL₂

其中，

ε为权重系数。

根据上述网络结构和损失函数的定义，在训练数据集上进行模型训练，得到优化的深度神经网络模型Model。该Model的输入为多张图像，预测得到线性人脸模型参数{β_{i,i＝1～100}}、{δ_i,i＝1～50}、{α_i,i＝1～50}，通过(2)中的定义，即可获得重建人脸3D模型，以及对应的贴图。

5、为了使步骤(4)中得到的模型和贴图兼容于主流的渲染引擎，制作中性表情模型M₀，对应δ_i,i＝1～50＝0，中性表情即没有表情；并选择对应的δ_i在预设取值区间的n个表情模型M₁～M_n，取值区间使其涵盖足够自然表情。本实施例中，选择M_i,i＝1～15，对应δ_i,i＝1～15＝4；以及M_{i,i＝16～30}，对应δ_i,i＝1～15＝ -4。实践中我们只选取最“重要”的前15个模型。可以理解为矩阵PCA分解后，特征值最大的前15个基向量。一半对应正偏置，一半对应负偏置，因此共计30个表情，(-4,4)区间是经验值，可以涵盖足够自然的表情，例如咧嘴表情，如果对应参数值过大，即为过于夸张、不自然的表情。将M₁～M₃₀共计30个3D模型，通过FBX SDK分别绑定到M₀的30个变形通道(变形通道是3D制作软件Maya等中的一个特定称谓，代表3D对象的某种形变控制器属性)上，输出为FBX文件。该FBX文件带有30个Blendshapes(BlendShapes是一种图形学技术，用一种简化而有效的方法处理非刚性变形，即用一组指定形状的加权组合来表带任意复杂的形状，而不必对每个顶点进行变形处理)，可以被U3D、UE4等主流渲染引擎支持，从而实现了自动RIG。

实施例2

与上述实施例1相对应的，本实施例提出了一种结合神经纹理的可操控 3D人脸重建系统，所述系统包括：

图片获取模块，用于采集用户面部视频，所述视频包含自然的头部运动和面部表情变化，对所述视频进行抽帧获取多张图片，构建训练集；

本发明实施例提供的一种结合神经纹理的可操控3D人脸重建系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种结合神经纹理的可操控3D人脸重建方法，其特征在于，所述方法包括：

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸3D几何形状模型以及对应的人脸贴图。

2.根据权利要求1所述的一种结合神经纹理的可操控3D人脸重建方法，其特征在于，所述方法还包括：基于人脸线性参数化表示，将人脸的形状、表情、外观分别表示为100维、50维、50维子空间，构建人脸线性参数化模型：

分别用S和A表示人脸的3D几何形状和外观：

其中，S代表目标3D人脸的顶点位置，

A代表目标3D人脸的贴图像素值，

3.根据权利要求1所述的一种结合神经纹理的可操控3D人脸重建方法，其特征在于，所述方法还包括：构建深度神经网络模型，具体为：

所述第一编码器的输入为图像{I_{i，i＝1～N}}，N为抽帧的图像数，输出为线性人脸模型参数{β_{i，i＝1～100}}、{δ_{i，i＝1～50}}、{α_{i，i＝1～50}}；

所述解码器包括第一解码器和第二解码器，所述第一解码器的输入为参数{β_{i，i＝1～100}}、{δ_{i，i＝1～50}}，输出为3D人脸几何形状S，第二解码器的输入为参数{α_{i，i＝1～50}}，输出为3D人脸贴图A；

所述神经纹理编码器输入为3D人脸贴图A，输出为神经纹理{T_{i，i＝1～M}}，共计M个神经纹理；

4.根据权利要求3所述的一种结合神经纹理的可操控3D人脸重建方法，其特征在于，所述方法还包括：

定义目标损失函数如下：

L＝L₁+εL₂

其中，

ε为权重系数；

5.根据权利要求3所述的一种结合神经纹理的可操控3D人脸重建方法，其特征在于，所述方法还包括：

制作中性表情模型M₀，对应δ_{i，i＝1～50}＝0，并选择对应的δ_i在预设取值区间的n个表情模型M₁～M_n，取值区间使其涵盖足够自然表情；将M₁～M_n共计n个3D模型，通过FBX SDK分别绑定到M₀的n个变形通道上，输出为FBX文件，其中表情模型M是对S和A中的权重系数取特定的值，将贴图A绑定到顶点S上后获得的3D模型。

6.一种结合神经纹理的可操控3D人脸重建系统，其特征在于，所述系统包括：

将得到的线性人脸模型参数输入至预先构建的人脸线性参数化模型，所述人脸线性参数化模型包括3D人脸几何形状和3D人脸贴图，得到重建的人脸3D模型以及对应的人脸贴图。