CN114972619A

CN114972619A - 一种基于自对齐双重回归的单图像人脸三维重建方法

Info

Publication number: CN114972619A
Application number: CN202110199236.2A
Authority: CN
Inventors: 王利民; 阮泽宇; 武港山
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-08-30

Abstract

一种基于自对齐双重回归的单图像人脸三维重建方法，包括处理训练数据阶段，网络配置阶段，训练阶段和测试阶段。本发明方法基于注意力机制对人脸未被遮挡区域进行了增强，从而提升了对遮挡的鲁棒性；对三维人脸的姿态和形状进行解耦，单独学习与姿态无关的三维人脸形状回归，提升了人脸重建的精度，削弱了姿态变化的负面影响；将姿态信息编码在作为中间结果的粗糙人脸模型中，并通过自对齐的后处理过程结合估计出的人脸区域可见度提取出人脸姿态，相比于现有单图像人脸三维重建方法中直接回归姿态的方式，本发明对于人脸图像中存在遮挡、姿态变化的情况具有更好的鲁棒性。

Description

一种基于自对齐双重回归的单图像人脸三维重建方法

技术领域

本发明属于计算机软件技术领域，涉及人脸三维重建技术，具体为一种基于自对齐双重回归的单图像人脸三维重建方法。

背景技术

单图像人脸三维重建是指从单张二维人脸图像中恢复人脸的三维几何结构，在人脸识别、人脸编辑、人机交互等领域被广泛应用。现有的主流方法是基于深度神经网络(Deep Neural Networks，DNN)对人脸进行重建，其大体可分为基于参数化模型的方法和无模型的方法。

传统的基于参数化模型的方法通常利用3DMM(3D Morphable Model，三维形变模型)，该模型是从一组已对齐的三维人脸模型中学习到的，以PCA(Principal ComponentAnalysis，主成分分析)得到的基函数来表示，通过预测PCA基的系数进行人脸形状重建，通过单独预测人脸模型的旋转角度、平移量、尺度以得到人脸姿态。基于3DMM的方法容易得到具有生理合理性、三维模型完整的重建结果，但这类方法高度依赖于所使用的3DMM，其重建精度受限于线性基，重建出的人脸判别性不足。近年来，一些研究通过学习非线性的3DMM来提升模型的表示能力，例如，Luan Tran等人使用DNN作为3DMM解码器，通过对投影、光照、反照率进行建模并结合可微分的渲染层进行训练，取得了不错的效果。

无模型的方法则不使用参数化模型，而是直接对人脸的三维几何结构进行回归，这类方法不依赖参数化模型，理论上对面部细节有更强的表示能力。A.S.Jackson等人提出了VRNet，将三维人脸模型用体素表示，使用三维卷积网络直接对人脸体素进行回归，他们的方法不依赖3DMM，但空间复杂度较高。Y.Feng等人提出PRNet(《Joint 3D FaceReconstruction and Dense Alignment with Position Map Regression Network》，Computer Vision–ECCV 2018pp 557-574)，将三维人脸形状用二维的UV map(UV positionmap，UV位置贴图)表示，从而可以使用二维全卷积网络进行回归，显著降低了空间复杂度，同时有较好的重建精度和速度。

现有的方法往往在受控场景下有很好的表现，但对于非受控场景，例如人脸被部分遮挡、面部有较大的姿态偏转的情况下，性能会明显下降。人脸图像中被遮挡的区域往往会作为噪声信号带来干扰，而被遮挡的区域的三维几何结构缺少足够的信息进行重建；人脸的三维结构由于姿态和形状的同时变化而具有庞大的解空间，难以学习。本发明通过对遮挡和姿态进行建模，引入先验信息，将人脸三维重建问题分解为若干更易解决的子问题，从而以较低的计算代价的提高人脸重建方法对于遮挡和姿态变化的鲁棒性。

发明内容

本发明要解决的问题是：现有的单图像人脸三维重建方法对人脸被部分遮挡、面部姿态变化的情况，在重建中会出现鲁棒性不足的问题而，重建性能及准确性都受到影响。

本发明的技术方案为：一种基于自对齐双重回归的单图像人脸三维重建方法，基于注意力机制对人脸未被遮挡区域进行增强，对三维人脸的姿态和形状进行解耦后分别回归，并通过自对齐的后处理过程结合在一起，完成三维人脸重建，包括处理训练数据阶段，网络配置阶段，训练阶段和测试阶段：

1)处理训练样例阶段：每个原始训练样例包含一张无约束场景下的人脸图像I和对应的三维人脸网格模型G，G中各顶点的坐标值与人脸的姿态相关，称G为姿态相关人脸，先将G标准化为尺度、朝向、中心位置都相同的正脸，称为姿态无关人脸S，取所有样例的姿态无关人脸S的均值作为平均脸

姿态无关人脸S和平均脸

的差为人脸形变D，将G、S、

D转换为UV map表示，将姿态相关人脸G投影到人脸图像平面并添加仿真遮挡得到人脸掩膜A，人脸掩膜A中的前景对应人脸图像中面部未被遮挡的区域，背景代表不属于面部的区域或面部被遮挡的区域，处理完毕后，将平均脸

作为先验知识，每个处理后的训练样例包含一张作为输入的人脸图像I，和期望的预测输出A、D、S、G；

2)网络配置阶段：使用基于残差网络ResNet的自编码器作为基础网络结构，建立三维人脸重建模型，模型以人脸图像I为输入，预测输出中间结果A、D，并最终输出G，模型包括以下配置：

2.1)抽取图像低层特征：用1个卷积层和6个连续的残差块从输入的人脸图像I中提取低层特征F_l；

2.2)注意力分支：将低层特征F_l输入由5个卷积层组成的分支网络，得到预测的人脸掩膜A；

2.3)抽取图像高层特征：将人脸掩膜A进行e指数操作后和低层特征F_l点乘，从而加强人脸未被遮挡区域的特征，然后由4个连续的残差块处理得到高层特征F_h；

2.4)双重回归模块：将高层特征F_h输入10个连续的反卷积层，然后分别由两组7层反卷积层得到用UV map表示的人脸形变D和初步姿态相关人脸P，将人脸形变D与训练样例的先验知识平均脸

相加，得到预测的姿态无关人脸S，P包含了人脸重建所需的姿态信息，S包含了人脸重建所需的几何形状信息；

2.5)自对齐模块：将初步姿态相关人脸P投影到图像平面，结合人脸掩膜A，得到P中每个点的可见度V，利用P和S中对应的关键点的可见度作为权重，计算对应关键点间的加权相似变换矩阵M，用M对S进行变换以对齐到P，得到姿态相关人脸G，作为重建模型的最终输出；

3)训练阶段：对配置的模型采用训练数据进行训练，使用加权的均方误差MSE作为姿态相关人脸G、P和人脸形变D的损失函数，使用二分类交叉熵BCE作为人脸掩膜的损失函数，使用Adam优化器进行参数更新，使用warm up策略调整学习率；

4)测试阶段：将测试数据的人脸图像序列输入到训练完成的模型中，得到重建结果。

本发明与现有技术相比有如下优点

本发明提出了一种通过回归姿态无关人脸和姿态相关人脸并对二者进行对齐以得到最终人脸模型的方法。这种处理方式相比于直接回归姿态相关人脸的方式而言可以重建出更精细的人脸外形；相比于通过直接回归人脸姿态和姿态无关人脸的方式，例如基于3DMM的方法，本发明对于姿态变化更鲁棒。

本发明采取一种感知遮挡的注意力机制，通过模型中的注意力分支预测人脸掩膜，掩膜的前景即为人脸未被遮挡的区域，可以估计人脸的可见区域，进而降低被遮挡区域提取出的特征的权重，并在后处理过程中，在自对齐模块的加权相似变换矩阵的计算中，关键点以可见度作为权重，未被遮挡的人脸区域的可见度高，被遮挡的区域的可见度低，使重建过程更多地依赖更容易准确回归的未被遮挡的人脸区域，使得人脸重建对不同面部遮挡情况更鲁棒。

现有技术大多在实时性上不能满足需求，或不能满足端到端训练的需求，本发明提出了一种高效的人脸重建方法，通过构建的重建模型可以对图像进行实时的人脸三维重建，并且可以进行端到端的训练。

附图说明

图1是本发明所使用的系统框架图。

图2是本发明量化测试结果图。

图3是本发明样例效果图。

图4是本发明添加仿真遮挡的示意图。

具体实施方式

本发明提出一种基于自对齐双重回归的单图像人脸三维重建方法，基于注意力机制对人脸图像进行了遮挡检测，对未被遮挡区域的特征进行了增强，同时回归了姿态相关的人脸和姿态无关的人脸作为中间结果，并通过一种考虑了人脸可见区域的自对齐过程处理得到最终三维人脸重建结果。所述人脸三维重建步骤包括处理训练数据阶段，网络配置阶段，训练阶段，测试阶段，具体说明如下。

1)处理训练数据：每个原始训练样例为一张无约束场景下的人脸图像和对应的人脸网格模型标签，将人脸图像按人脸目标框中心裁剪，缩放至256×256×3，将正确标注GT(Ground Truth)人脸模型转换成用UV map表示的人脸形变和姿态相关人脸，并根据姿态相关人脸在图像平面上的投影得到GT人脸掩膜，对人脸目标框的大小、中心位置添加原始目标框大小的0-0.2倍的随机噪声，并进行标准化，得到人脸图像I及对应的姿态相关人脸G，G为网格模型的格式，也即人脸网格模型，对每个训练样例中的姿态相关人脸G，将其标准化为尺度、朝向、中心位置都相同的正脸，称为姿态无关人脸S，取所有样例的姿态无关人脸S的均值得到平均脸

求姿态无关人脸S和平均脸

的差得到人脸形变D，将G、S、

D转换为UVmap表示，将姿态相关人脸G投影到人脸图像平面并添加仿真遮挡得到人脸掩膜A，具体如下：

1.本发明假定姿态相关人脸G到二维图像平面的投影为弱透视投影：

其中Pr为人脸模型投影到二维图像上的几何结构，投影后被覆盖的区域的值置为1，未被覆盖的值置为0，然后缩放得到32×32×1的人脸掩膜A。

2.姿态相关人脸G和姿态无关人脸S间的变换关系为：

G＝f*R*S+t，

其中f为缩放尺度，R为代表人脸朝向的旋转矩阵，t为人脸平移量。姿态无关人脸中的正脸具体是指中心坐标为(0,0,0)，面部朝向与相机平面垂直的人脸。

3.姿态无关人脸S、平均脸

和人脸形变D间的关系为：

其中N为训练样例的样本数量。

4.将G、S、

D转换为UV map表示的方式为，先通过

计算映射θ:p→(u,v)：

u＝α₁·Y+β₁,

其中

代表

中下标为p的点的三维坐标，(u,v)表示其映射到UV空间的坐标，α₁、α₂、β₁、β₂为缩放和平移常量。G、S、

D通过映射θ均可以得到256×256×3的UV map，其满足如下性质：

其中*分别指代G、S、

D，表示对应项的UV map数据。

5.对人脸图像随机添加仿真遮挡图案，对添加遮挡后的图像进行随机的旋转、对称、通道变换等数据增强操作，遮挡的面积为0-0.3倍的人脸目标框面积，遮挡时将相应的人脸掩膜中的对应区域的值置为0，如图4所示。

经过对训练样例的处理，得到张量Tensor形式训练样例，由原始训练样例(I,G)得到本发明的训练样例(I，G，S，D，A)，训练时按批大小随机加载。

2)网络配置阶段，即人脸重建模型构建阶段，若无特殊说明，下述的卷积层均默认由卷积操作、批归一化BN(Batch Normalization)、ReLU激活函数构成，卷积核为4×4，参数采用随机初始化。残差块为ResNet的Bottleneck Block结构，由3个卷积核依次为1×1、4×4、1×1的卷积层和跳跃连接组成。具体如下：

2.1)抽取图像低层特征：对每批输入进网络的人脸图像I，先由1个卷积层将特征通道数扩充至16，再经过6个连续的残差块，其中第2、4、6个残差块对特征图进行步长为2的降采样并将特征通道扩大1倍，得到低层特征F_l∈R^{B×32×32×128}，其中B为批大小；具体计算如下：

F_l＝Resblock⁶(Conv(I))，F_l∈R^{B×32×32×128}，

其中conv表示卷积层，Resblock表示残差块；

2.2)注意力分支：将低层特征F_l输入由5个卷积层组成的分支网络，其中第5个卷积层将特征通道数降至1以得到输出人脸掩膜A，具体计算如下：

A＝Conv⁵(F_l)，A∈R^B×32×32×1；

2.3)抽取图像高层特征：将人脸掩膜A进行e指数操作后和低层特征F_l点乘，然后经由4个连续的残差块处理，其中第2、4个残差块对特征图进行步长为2的降采样并将特征通道扩大1倍，得到高层特征F_h∈R^B×8×8×512，具体计算如下：

2.4)双重回归模块：将高层特征F_h输入10个连续的反卷积层，其中第4、7、10层进行步长为2的上采样并将特征通道减小为之前的一半，然后由两组并行的7层反卷积层处理，其中第2、4层进行步长为2的上采样并将特征通道减小为之前的一半，第7层将输出通道数将为3且以Sigmoid为激活函数，两组并行的反卷积层分别得到用UV map表示的初步姿态相关人脸P∈R^{B×256×256×3}和人脸形变D∈R^{B×256×256×3}，初步姿态相关人脸P在形状上更粗糙，并非模型的最终输出，将人脸形变D与平均脸

相加得到姿态无关人脸S，具体计算如下：

F_share＝Transconv¹⁰(F_h),F_h∈R^B×8×8×512，

P＝Transconv⁷(F_share),P∈R^{B×256×256×3}，

D＝Transconv⁷(F_share),D∈R^{B×256×256×3}，

其中Transconv表示反卷积层；

2.5)自对齐模块：计算P中每点所在面的法向量，结合人脸掩膜A，可得到P中每个点的可见度Vis，利用P和S中的k组一一对应的关键点K_P和K_s，以K_P的可见度作为权重，计算K_S和K_P间的加权相似变换M，加权相似变换M包括旋转矩阵R，平移量t和尺度缩放因子f，

为一个4×4的矩阵，其中R是3×3的矩阵,t是3×1。用M对S进行变换以对齐到P，得到最终输出的三维人脸，即姿态相关人脸G，具体计算过程如下：

其中i表示第i个关键点，其三维坐标为(x_i,y_i,z_i)，所在平面的法向量为

W是k×k的权重矩阵；

计算两组关键点的均值M_S和M_P：

其中K_S(i)表示S的第i个关键点，K_P(i)表示P的第i个关键点，‖W‖₁是1范数；

相似变换中的尺度缩放因子为：

归一化后的两组关键点为：

K′_S＝f*(K_S-M_S),

K′_P＝K_P-M_P,

U,∑,P＝SVD(H),

其中SVD是对协方差矩阵H进行的奇异值分解；

R＝P*U^T，

t＝M_P-R*M_S，

R为要计算的相似变换的旋转矩阵，t为平移量；

G＝f*R*S+t，G∈R^{B×256×256×3}，

G即为最终输出的重建人脸。

人脸重建模型的数据流程示意如图1所示，输入的人脸图像经一系列特征提取、注意力分支、双重回归、自对齐处理之后，最终输出重建的三维模型，模型的输入数据包括人脸图像I和先验知识平均脸

输出姿态相关人脸G，即三维人脸网格模型，实现对图像的三维重建。

3)训练阶段：使用步骤1)处理的训练样例(I，G，S，D，A)及先验知识训练步骤2)建立的三维人脸重建模型，使用MSE(Mean Square Error)作为姿态相关人脸G、P和人脸形变D的损失函数，使用BCE(Binary Cross Entropy)作为人脸掩膜的损失函数，使用Adam优化器进行参数更新，迭代指定次数或模型完全收敛后停止。

4)测试阶段

将训练好的网络参数加载到上述配置的网络模型中，得到构建完成的三维人脸重建模型，对测试数据图像进行人脸目标检测，根据检测框进行中心裁剪并变形为256×256×3，并进行标准化，然后输入到三维人脸重建模型中，输出得到三维人脸重建的结果。

本发明提出了一种基于自对齐双重回归的单图像人脸三维重建方法。下面通过具体实施例进行进一步说明。经过在300W LP数据集上的训练和AFLW2000数据集上的测试达到了高精度和鲁棒性，使用Python3.6编程语言，Pytorch1.2以上深度学习框架实施。

图1是本发明所使用的系统框架图，具体实施步骤如下：

1)数据的准备阶段，训练数据和测试数据均使用基本相同的方式进行处理，将人脸图像按人脸目标框裁剪并缩放为256×256×3，并将GT(Ground Truth)人脸模型转换成用UV map表示的人脸形变和姿态相关人脸，并根据姿态相关人脸在图像平面上的投影得到GT人脸掩膜。对训练和测试数据处理的区别在于，对训练数据的人脸检测框加入了噪声，并对人脸图像和人脸掩膜添加了随机的仿真遮挡。使用Pickle将处理之后的122450个样本的数据集分组打包成630个文件，以便于在内存有限时减少小文件读取次数加快IO速度。训练程序读取图像后，进行随机的旋转、对称、通道变换等数据增强操作，然后进行标准化，最后转化为张量Tensor形式，按批大小随机加载。

2)模型的配置阶段，首先经过由1个单独的卷积层和6个残差块组成的低层编码器，抽取图像低层特征；然后将低层特征输入到由5个卷积层组成的注意力分支网络中，得到人脸掩膜；将人脸掩膜做e指数操作后与低层特征点乘，得到增强后的特征图，输入到由4个残差块组成的高层编码器，得到高层特征；随后高层特征通过两组并行的17层反卷积解码器，得到作为中间结果的姿态相关人脸和姿态无关人脸，其中，这两个解码器共用前10层参数量较大的反卷积层，但靠近输出端的后面7层各自独立，最后一层的激活函数为Sigmoid；从中间结果的姿态相关人脸和姿态无关人脸中取出两组相互一一对应的关键点，根据关键点所在平面的法向量和人脸掩膜计算姿态相关人脸的关键点的可见度，而后以可见度作为权重对两组关键点进行加权平均和归一化，同时得到两组关键点之间的尺度缩放因子，然后以可见度为权重求出加权的协方差矩阵，对协方差矩阵进行SVD以求出归一化后的两组关键点间的最优旋转变换矩阵，进而得到原关键点间相似变换的偏移量，至此两组关键点间的最优相似变换已求出；用相似变换将姿态无关人脸对齐到姿态相关人脸，从而得到最终重建结果。计算过程以一种可导的方式实现，从而使得网络模型可以完全运行在GPU上进行端到端的训练。

3)训练阶段，本实施例使用MSE(Mean Square Error)作为姿态相关人脸G、P和人脸形变D的损失函数，使用BCE(Binary Cross Entropy)作为人脸掩膜的损失函数，以每个点与其4邻域内的点的均值的差的绝对值作为平滑度损失函数。使用Adam优化器进行参数更新。设置批大小为16，即每次迭代从训练集中取16个样本输入网络训练。使用warm up策略调整学习率，初始学习率为0.00001，经过4轮训练匀速增大至0.0001，随后进行指数衰减，衰减率为0.85。在1块GTX 1080 Ti GPU上训练。

4)测试阶段

对测试数据进行与训练数据相同的处理，对人脸目标框进行中心裁剪并变形为256*256并进行标准化作为输入图像，在人脸三维重建、二维和三维的稀疏人脸对齐(共计算68个点)、二维和三维的稠密人脸对齐(计算45000个点)的任务上进行了测试，所使用的测试指标均为NME(normalized mean error)。另外为测试不同面部姿态下的表现，对面部偏航角0-30度、30-60度、60-90度区间内样本分别进行了测试。模型的平均预测速度为70帧/秒。量化测试结果见图2，与Y.Feng等人提出的PRNet相比，本发明方法在不同的面部姿态下有相对较稳定的重建性能，且平均误差处在较低水平。本发明在测试集上的效果样例如图3所示，第一排是人脸图像，包括人脸被部分遮挡、面部姿态变化的情况，第二排图像是稀疏对齐的结果，主要作用是展示重建出的人脸模型的关键点和轮廓线，第三排是重建的三维模型，可见对于无约束场景下的人脸图像，如部分遮挡、夸张的面部表情、较大的面部偏转等情况下，本发明重建出的人脸模型视觉上可以贴合图像中的人脸，映证了量化测试的结果。

Claims

1.一种基于自对齐双重回归的单图像人脸三维重建方法，其特征是基于注意力机制对人脸未被遮挡区域进行增强，对三维人脸的姿态和形状进行解耦后分别回归，并通过自对齐的后处理过程结合在一起，完成三维人脸重建，包括处理训练数据阶段，网络配置阶段，训练阶段和测试阶段：

姿态无关人脸S和平均脸

的差为人脸形变D，将G、S、

2.根据权利要求1所述的一种基于自对齐双重回归的单图像人脸三维重建方法，其特征是步骤1)中，对所有样例进行预处理，将人脸图像按人脸目标框裁剪并缩放为256×256×3，并将GT人脸模型转换成用UV map表示的人脸形变和姿态相关人脸，并根据姿态相关人脸在图像平面上的投影得到GT人脸掩膜，对训练数据的人脸检测框加入噪声，并对人脸图像和人脸掩膜添加随机的仿真遮挡，对添加遮挡后的图像进行随机的旋转、对称、通道变换等数据增强操作，然后进行标准化，最后训练样例转化为张量Tensor形式(I，G，S，D，A)，用于训练时按批大小随机加载。

3.根据权利要求1所述的一种基于自对齐双重回归的单图像人脸三维重建方法，其特征是步骤2)的网络配置中，卷积层由卷积操作、批归一化BN和ReLU激活函数构成，卷积核为4×4，参数采用随机初始化，残差块为ResNet的Bottleneck Block结构，由3个卷积核依次为1×1、4×4、1×1的卷积层和跳跃连接组成。

4.根据权利要求1所述的一种基于自对齐双重回归的单图像人脸三维重建方法，其特征是步骤2.5)中，计算人脸上点的可见度的方式为，计算该点所在平面的法向量，法向量在z轴方向上的分量小于0则可见度为0，否则为该点投影到图像平面后在人脸掩膜A中的对应值。

5.根据权利要求1所述的一种基于自对齐双重回归的单图像人脸三维重建方法，其特征是步骤2.5)中，对姿态无关人脸S的变换包含缩放、旋转和平移：从姿态无关人脸S和初步姿态相关人脸P中取出两组相互一一对应的关键点，以可见度作为权重对两组关键点进行加权平均和归一化，同时得到两组关键点之间的尺度缩放因子，然后以可见度为权重求出归一化后的两组点的协方差矩阵，对协方差矩阵进行奇异值分解SVD，求出归一化后的两组关键点间的最优旋转变换矩阵，即加权相似变换矩阵M，通过加权相似变换矩阵M对姿态无关人脸S进行旋转变换，以尺度缩放因子对姿态无关人脸S进行缩放，以旋转缩放后与初步姿态相关人脸P求差的平均值作为相似变换中的平移量。