CN117036620A

CN117036620A - 基于单幅图像的三维人脸重建方法

Info

Publication number: CN117036620A
Application number: CN202311284845.3A
Authority: CN
Inventors: 黄章进; 武兴
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-10
Anticipated expiration: 2043-10-07
Also published as: CN117036620B

Abstract

本发明公开了一种基于单幅图像的三维人脸重建方法，包括如下方法步骤：S1、构建数据集，用数据集对辅助编码器进行半监督训练，辅助编码器以源人脸图片作为输入，输出参数；S2、使用预训练模型作为身份编码器，身份编码器以源人脸图片作为输入，输出身份编码；S3、将辅助编码器和身份编码器的输出通过联合优化过程进行优化，解码输出重建人脸形状；S4、将重建人脸形状调整姿态进行渲染作为目标人脸，将源人脸图片作为源人脸进行重演得到具有互补姿态的人脸图片，从源人脸图片与互补姿态的人脸图片提取纹理，构成重建的纹理贴图，将纹理贴图与重建人脸形状结合得到重建人脸。本发明可以得到高质量、高保真的重建纹理图。

Description

基于单幅图像的三维人脸重建方法

技术领域

本发明涉及三维重建技术领域，尤其涉及一种基于单幅图像的三维人脸重建方法。

背景技术

三维人脸重建在人脸识别、VR/AR、人机交互和人脸动画等领域有着广泛的应用。和传统的二维人脸识别相比，三维人脸识别通过对人的面部进行三维重建，获取人脸的颜色、纹理、深度等信息，同时也能够准确识别人脸的微表情变化，可以抵抗来自人脸图片、人脸视频等的干扰，从而提高人脸识别的安全性。

目前通过高精度三维人脸采集设备进行三维人脸建模往往代价较高，在日常场景下很难实现，所以基于单幅人脸图像的高质量三维人脸重建受到越来越多的关注。同时，由于头部形状、姿态、面部表情、复杂的背景、光照条件、遮挡的多样性和复杂性，单张无约束图像的人脸重建仍然是一个有待解决的问题。

近年来，深度学习的快速发展促进了基于回归的方法，该方法通常使用深度神经网络来回归三维形变模型参数，显著提高了三维人脸重建的质量和效率。但是，基于深度神经网络的方法通常需要大量的数据集，这些数据集采集往往代价较高，甚至在很多场景下无法实现。一些方法使用合成数据来监督训练，通过合成方法生成的人脸图片通常与真实图片之间存在一定的差距，它们在表情、光照、背景方面缺乏多样性，导致网络泛化能力差。有些工作以无监督或弱监督的方式训练网络，这些方法仅需要二维人脸图片以及其对应的二维人脸特征点，但是特征点的检测往往数量较少、精度不足，难以恢复高质量的人脸形状。

除形状外，纹理是决定重建结果是否逼真的另一个重要属性。三维形变模型中的纹理空间不足以恢复出保留输入图像人脸身份的高保真纹理映射，一些工作构建数据集并训练对抗生成网络作为解码器来取代三维形变模型的线性纹理基向量以提高纹理图的质量，然而重建的保真度仍然受到训练集中身份数目的限制。一些工作从图片重建出3D网格后，根据图片像素与网格三角形片元的对应关系从原图中提取纹理贴图，这种方法可以提高重建的保真度，但是贴图质量受到原图分辨率限制并且存在许多瑕疵。

在计算机视觉和图形学中，从单一图像重建人脸的三维形状和纹理是一项重要且具有挑战性的任务。近年来，基于学习的重建方法在这一任务中表现出了突出的性能，但其有效性由于缺乏具有三维标注的训练数据而受到严重限制。因此，如何提供一种基于单幅图像的三维人脸重建方法是本领域技术人员亟须解决的问题。

发明内容

本发明的一个目的在于提出一种基于单幅图像的三维人脸重建方法，本发明利用StyleGAN2逼真的生成能力，对原始图像中由于自遮挡导致的纹理信息缺失进行补充，得到高质量、高保真的重建纹理图。

根据本发明实施例的一种基于单幅图像的三维人脸重建方法，包括如下方法步骤：

S1、构建数据集，用数据集对辅助编码器进行半监督训练，辅助编码器以源人脸图片作为输入，输出人脸参数模型的身份参数、光照参数和相机参数；

S2、使用预训练模型作为身份编码器，身份编码器以源人脸图片作为输入，输出身份编码；

S3、将辅助编码器和身份编码器的输出通过联合优化过程进行优化，解码输出重建人脸形状；

S4、将重建人脸形状调整姿态进行渲染作为目标人脸，将源人脸图片作为源人脸进行重演得到具有互补姿态的人脸图片，从源人脸图片与互补姿态的人脸图片提取纹理，构成重建的纹理贴图，将纹理贴图与重建人脸形状结合得到重建人脸。

可选的，所述数据集内包括自然场景人脸图像和有标注图像。

可选的，所述S1具体包括：

使用可微渲染训练辅助编码器，使用前100个人脸参数模型的身份、前50个人脸参数模型的身份表情/>和前50个人脸参数模型的身份外观/>；

通过在输入图像和重建图像/>之间的误差进行反向传播来更新神经网络，并计算总的损失为：

；

其中，表示混合关键点损失，/>表示光度损失，表示感知水平损失，/>表示正则化损失，/>，，/>，/>，/>。

可选的，所述混合关键点损失使用正交相机模型计算标注的二维面部关键点与从估计的人脸参数模型的身份网格相应点/>投影到二维空间的对应关键点之间的L1损失：

；

其中，s表示自然场景人脸图像，t表示平移，表示自然场景人脸图像，表示有标注图像，/>表示范数，/>表示L1的范数；

所述光度损失用于衡量输入图像和重建图像/>之间的差异：

；

其中，表示人脸的遮罩，人脸的遮罩将面部皮肤区域的值赋为1，其他地方的值赋为0；

所述感知水平损失通过使用人脸识别模型来计算输入图像和重建图像/>的深度特征向量/>的余弦距离：

；

所述正则化损失包括人脸参数模型的外观正则化项/>，人脸参数模型的身份正则化项/>和人脸参数模型的表情正则化项/>。

可选的，所述混合关键点损失具体包括：

将BFM人脸模型网格转换为人脸参数模型的身份拓扑结构；

通过优化正交相机模型，根据检测到的关键点将人脸参数模型的身份网格与图像对齐；

获得对齐的人脸参数模型的身份网格的投影面部顶点作为密集关键点。

可选的，所述身份编码器包括由MICA数据集训练的ArcFace模型和映射网络，所述身份编码器的输出是一个位于人脸参数模型的身份形状空间内的300维单位向量，所述人脸参数模型的身份/>被解码生成一个具有中性姿态和表情的人脸网格。

可选的，所述身份编码器得到人脸参数模型的身份，所述辅助编码器得到姿态编码，人脸参数模型的表情/>编码，相机c编码，光照l编码，人脸参数模型的外观/>编码。

可选的，所述S3具体包括：

在第一阶段，通过最小化一个能量函数来优化：

；

其中，，使用FAN人脸检测算法检测68个关键点，/>与/>相同，/>包括姿态正则化项/>，相机正则化项/>，光照正则化项/>和人脸参数模型的外观正则化项；

第二阶段冻结了第一阶段优化的参数，通过最小化来优化：

；

其中，包括人脸参数模型的身份正则化项/>和人脸参数模型的表情正则化项/>。

本发明的有益效果是：

（1）本发明使用一个辅助编码器和一个身份编码器将输入的图像编码为人脸参数模型的身份的参数，在随后的联合优化过程中，通过最小化基于可微渲染的能量函数，对回归参数进行进一步优化，根据一种半监督的混合关键点损失从自然场景人脸图像和有标注数据集来训练辅助编码器。

（2）本发明提出的形状重建框架和半监督学习策略减轻了基于学习的方法对真实三维扫描数据的依赖，提高了形状重建的精度，根据所得到的人脸形状，通过对StyleGAN2的样式风格空间解耦，得到具有互补姿态的重演人脸图像，从源图像和重演后的图像中提取纹理构成人脸纹理图，利用StyleGAN2逼真的生成能力，对原始图像中由于自遮挡导致的纹理信息缺失进行补充，得到高质量、高保真的重建纹理图。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于单幅图像的三维人脸重建方法的整体流程图；

图2为本发明提出的一种基于单幅图像的三维人脸重建方法中形状重建的示例说明流程图；

图3为本发明提出的一种基于单幅图像的三维人脸重建方法中辅助编码器的训练方式流程图；

图4为本发明提出的一种基于单幅图像的三维人脸重建方法中渲染驱动的纹理提取的详细方法流程图；

图5为本发明提出的一种基于单幅图像的三维人脸重建方法中与不同纹理重建方法的定性比较图。

具体实施方式

现在结合附图对本发明做进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于单幅图像的三维人脸重建方法，本发明的流程可以分为两部分，形状重建和纹理重建。

形状重建，以单幅人脸图像作为输入，本发明使用身份编码器、辅助编码器和一个联合优化过程来回归人脸参数模型的身份以重建人脸形状，参数解码后得到一个具有姿态和表情的人脸网格。

纹理重建，基于重建的高精度人脸形状，本发明使用一种新的渲染驱动的方式提取一个1024×1024的纹理贴图，通过将纹理贴图与人脸网格关联起来，实现了最终的三维人脸表示。

对实施方式进行举例，包括如下方法步骤：

本实施方式中，使用自然场景图像和有标注图像构建数据集。

自然场景图像包含VGGFace2、CelebA和FFHQ，涵盖了各种姿态、年龄和身份，使用FAN人脸检测算法来检测人脸并将图像裁剪为 224×224，裁剪后的图像经过置信度设置为0.9的mediapipe进行数据清洗，最终得到约1000K自然场景人脸图像。有标记数据集是由300W-LP构成，包含约120K带标注的合成人脸图像。

本实施方式中，S1具体包括：

本发明选择人脸参数模型的身份来提供几何先验，人脸参数模型的身份具有更完整的头部区域和更丰富的表情，有利于下游应用。人脸参数模型的身份有个顶点，/>个关节（脖子，下巴，眼球），由/>定义，输入形状参数/>，姿态参数/>和表情/>，返回N个顶点。人脸参数模型的身份的纹理空间由BFM转化而来，定义为/>，其中反照率参数/>。本发明使用由比例s和平移t表示的正交相机模型c进行3D-2D投影。照明模型是基于人脸是兰伯曲面这一假设的球面谐波。

参考图2，本实施方式使用可微渲染训练辅助编码器（ResNet-50），使用前100个人脸参数模型的身份、前50个人脸参数模型的身份表情/>和前50个人脸参数模型的身份外观/>，在本实施方式没有使用人脸参数模型的身份全部的300个形状参数，因为/>在本实施方式的目标是帮助其他参数的回归，并将在下面的步骤中被身份编码器的输出所取代，用于训练的数据集由有标注数据集和自然场景人脸图像组成，以实现半监督训练。

；

其中，表示混合关键点损失，/>表示光度损失，表示感知水平损失，/>表示正则化损失，在预训练过程中，只有来自自然场景人脸图像的关键点损失和正则化损失被用于良好的初始化，/>，，在正式训练期间，将使用/>，/>，/>，，与以往工作的关键点损失不同，本实施方式设计的混合关键点损失更有效地进行精确的形状重建。

本实施方式中，对于自然场景人脸图像，本实施方式使用了122个关键点，其中，105个来自mediapipe框架，17个来自FAN人脸检测算法，当使用来自300W-LP数据集的有标注图像时，3D信息是使用BFM形变模型表示，并且没有与图像对齐，为了解决这个问题，本实施方式执行以下步骤：

将BFM人脸模型网格转换为人脸参数模型的身份拓扑结构；

本实施方式中，混合关键点损失使用正交相机模型计算标注的二维面部关键点/>与从估计的人脸参数模型的身份网格相应点/>投影到二维空间的对应关键点之间的L1损失：

；

其中，s表示比例，t表示平移，表示自然场景人脸图像，/>表示有标注图像，/>表示范数，/>表示L1的范数；

为了增强形状重建框架对遮挡和诸如眼镜或头发等面部配饰的鲁棒性，本实施方式采用了一个面部解析模型，光度损失用于衡量输入图像和重建图像/>之间的差异：

；

其中，表示人脸的遮罩，人脸的遮罩将面部皮肤区域的值赋为1，其他地方的值赋为0，通过使用人脸的遮罩，可以在重建过程中重点关注面部皮肤区域；

单独使用上述图片层面信息可以导致基于CNN的三维人脸重建网络的局部最小问题，因此引入了来自人脸识别网络的弱监督信号，感知水平损失通过使用人脸识别模型来计算输入图像和重建图像/>的深度特征向量/>的余弦距离：

；

正则化损失包括人脸参数模型的外观正则化项/>，人脸参数模型的身份正则化项/>和人脸参数模型的表情正则化项/>来避免网络退化。

本实施方式中，为了从输入图像中获得更鲁棒的身份编码，本实施方式采用了ArcFace模型提取对姿态或光照不变的身份特征，本实施方式通过将ArcFace纳入形状重建框架来提高身份表示的准确性和可靠性，身份编码器包括由MICA数据集训练的ArcFace模型和映射网络，身份编码器的输出是一个位于人脸参数模型的身份形状空间内的300维单位向量，人脸参数模型的身份/>被解码生成一个具有中性姿态和表情的人脸网格。

参考图3，本实施方式中，身份编码器得到人脸参数模型的身份，辅助编码器得到姿态/>编码，人脸参数模型的表情/>编码，相机c编码，光照l编码，人脸参数模型的外观编码。

本实施方式中，使用两阶段拟合过程来优化上述参数：

在第一阶段，通过最小化一个能量函数来优化：

；

其中，，使用FAN人脸检测算法检测68个关键点，因为mediapipe检测到的关键点对于大角度的姿态通常是不准确的，与/>相同，/>包括姿态正则化项/>，相机正则化项/>，光照正则化项/>和人脸参数模型的外观正则化项/>；

第二阶段冻结了第一阶段优化的参数，通过最小化来优化：

；

本实施方式中，经过上述形状重建后，三维人脸通过投影与图像对齐，三维网格由三角形面组成，而图像则由像素组成，本实施方式采用了双线性插值法建立它们之间的对应关系，人脸参数模型的身份还为其拓扑结构中的每个三角形面提供了UV坐标，因此，通过对齐的网格和图像，可以从图像中提取纹理。然而，由于来自输入图像的像素信息不足，纹理映射中的某些像素区域可能缺乏准确的颜色表示。为了克服这一限制，利用StyleGAN2脸部数据集的生成能力，本实施方式通过渲染驱动的人脸重演来实现逼真和精细的纹理重建。

参考图4，StyleGAN2脸部数据集提供了一个隐空间，在该空间中可以实现合成图像的语义编辑，基于此，一种人脸重演方法StyleMask将目标图像的姿态和表情转移到源图像中，同时保持源图像的身份特征不变，StyleMask开发了一个掩码网络用于处理源风格编码和目标风格编码/>之间的差异，该掩码网络输出重演后的风格编码/>，然后利用它来生成重演的图像，本实施方式将这种重演方法应用于纹理重建，并对源图像中因为自遮挡导致的纹理信息缺失进行补充，重建的三维形状的姿态或表情可以灵活地调整，从而得到渲染的目标图像，然后，利用e4e的逆向方法和StyleMask中的掩码网络，得到了与源图像具有互补姿态的重演人脸图像，源图像和重演图像分别与相应的三维网格对齐，因此可以从不同姿态的人脸中提取纹理，最后得到了重建的高质量、高保真的纹理贴图。

参考图5，定性地比较了本实施方式提出的方法与目前两种最先进的方法DECA和Deep3D，DECA由于侧面视图自遮挡导致了纹理上的显著缺陷，由于重建形状精度不足导致眼睛部位缺乏网格与纹理贴图间的对齐，Deep3D失去了输入图像中出现的皱纹等细节，这降低了其保真度，相比之下，本实施方式由于高度精确的形状重建框架显示出重建形状和纹理间更好的对齐效果，并因为StyleGAN2逼真的生成能力显示出更完整和生动的面部外观。

上表1为 NoW验证和测试集上的重建误差，NoW数据集包含来自100个测试对象的2054张图像，包括各种表情、姿态和遮挡，数据集被分为验证集和测试集，NoW为每个测试对象提供了3D扫描，在本实施方式中使用的评价度量是刚性对齐后的3D扫描到重建网格的距离，给出了本实施方式的方法与其他最先进的方法的性能比较，本实施方式在验证集和测试集上都达到了最低的误差均值、中位数和标准差，超过了目前在NoW基准测试中所有已发表的方法，这表明，本发明具有最高的重建精度，并且在各种表情、姿态和遮挡下具有鲁棒性。

上表2-表3分别表示REALY基准测试上正面视角的重建误差和REALY基准测试上侧面视角的重建误差，REALY数据集关注于真实扫描和预测网格在四个特定的面部区域之间的相似性：鼻子、嘴部、前额和脸颊。数据集被分为两个子集：正面视图和侧视图，分别计算每个区域的平均值、中位数和标准差，并计算四个面部区域的平均归一化均方误差进行排序，本实施方式的方法在前视图和侧视图上分别比DECA模型高出14.6%和13.8%，分别比MICA模型高出19.5%和15.3%。

本发明使用一个辅助编码器和一个身份编码器将输入的图像编码为人脸参数模型的身份的参数，在随后的联合优化过程中，通过最小化基于可微渲染的能量函数，对回归参数进行进一步优化，根据一种半监督的混合关键点损失从自然场景人脸图像和有标注数据集来训练辅助编码器。

本发明提出的形状重建框架和半监督学习策略减轻了基于学习的方法对真实三维扫描数据的依赖，提高了形状重建的精度，根据所得到的人脸形状，通过对StyleGAN2的样式风格空间解耦，得到具有互补姿态的重演人脸图像，从源图像和重演后的图像中提取纹理构成人脸纹理图，利用StyleGAN2逼真的生成能力，对原始图像中由于自遮挡导致的纹理信息缺失进行补充，得到高质量、高保真的重建纹理图。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于单幅图像的三维人脸重建方法，其特征在于，包括如下方法步骤：

2.根据权利要求1所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述数据集内包括自然场景人脸图像和有标注图像。

3.根据权利要求2所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述S1具体包括：

使用可微渲染训练辅助编码器，使用人脸参数模型的身份、人脸参数模型的身份表情/>和人脸参数模型的身份外观/>；

通过在输入图像和重建图像/>之间的误差进行反向传播来更新神经网络，并计算总的损失为：/>；

4.根据权利要求3所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述混合关键点损失使用正交相机模型计算标注的二维面部关键点/>与从估计的人脸参数模型的身份网格相应点/>投影到二维空间的对应关键点之间的L1损失：

；

其中，s表示自然场景人脸图像，t表示平移，表示自然场景人脸图像，/>表示有标注图像，/>表示范数，/>表示L1的范数；

所述光度损失用于衡量输入图像和重建图像/>之间的差异：

；

所述正则化损失包括人脸参数模型的外观正则化项/>，人脸参数模型的身份正则化项/>和人脸参数模型的表情/>。

5.根据权利要求4所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述混合关键点损失具体包括：

将BFM人脸模型网格转换为人脸参数模型的身份拓扑结构；

6.根据权利要求1所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述身份编码器包括由MICA数据集训练的ArcFace模型和映射网络，所述身份编码器的输出是一个位于人脸参数模型的身份形状空间内的300维单位向量，所述人脸参数模型的身份/>被解码生成一个具有中性姿态和表情的人脸网格。

7.根据权利要求6所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述身份编码器得到人脸参数模型的身份，所述辅助编码器得到姿态/>编码，人脸参数模型的表情/>编码，相机c编码，光照l编码，人脸参数模型的外观/>编码。

8.根据权利要求7所述的一种基于单幅图像的三维人脸重建方法，其特征在于，所述S3具体包括：

在第一阶段，通过最小化一个能量函数来优化：

；

第二阶段冻结了第一阶段优化的参数，通过最小化来优化：

；