CN113129432A

CN113129432A - 一种3d人脸重建方法

Info

Publication number: CN113129432A
Application number: CN202110449423.1A
Authority: CN
Inventors: 陈力军; 刘佳; 陈明睿; 汪付星
Original assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Current assignee: Jiangsu Tuke Robot Co ltd; Nanjing University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-16
Anticipated expiration: 2041-04-25
Also published as: CN113129432B

Abstract

本发明涉及一种3D人脸重建方法，包括：将同一人的若干图片组成图片集，使用人脸关键点检测器检测图片集中某一图片所包含的若干第一关键点的位置坐标，组成第一关键点矩阵；手动标记出3DMM模型中的若干第二关键点，将其坐标组成第二关键点矩阵；对第二关键点矩阵进行投影变换获得第三关键点矩阵，将第一关键点矩阵与第三关键点矩阵进行拟合，得到人脸姿态和人脸形状，组成粗略的3D人脸模型；估计某一图片对应的环境光照及人脸纹理；处理环境光照并识别高光反射区域；计算3D人脸模型中每一顶点的可依赖性；计算精确的人脸法向量及人脸纹理；通过精确的法向量重建曲面，获得精确的3D人脸模型。利用本发明方法能够在非控制条件下获得精确的3D人脸模型。

Description

一种3D人脸重建方法

技术领域

本发明涉及三维重建算法领域，具体涉及一种3D人脸重建方法。

背景技术

3D人脸重建是指通过一张或多张2D图片计算得到对应的3D人脸模型。3D人脸重建技术在电影、虚拟现实、游戏、安防等行业具有重要应用，例如，人脸识别、人脸动画、稠密关键点检测等技术。现有技术中，3D人脸重建主要是通过以下步骤实现：如图1所示，第一步是识别2D图片中人脸关键点并用参数化的3D人脸模型拟合，即修改3D人脸模型中的参数来使3D人脸模型中的关键点和2D图片中的人脸关键点匹配得到较为粗略的3D人脸模型；第二步通过光度立体法估计环境光照、人脸纹理(即人脸本身的颜色)，并计算人脸上每一点的法向量；第三步即对上述法向量做积分获得精细的3D人脸模型。

然而，现有的3D人脸重建算法均是基于人脸图像在2D图片中的形成过程只包含漫反射的假设而设计的，忽略了室外环境下还存在极为常见的高光反射。若仍使用现有技术中的3D人脸重建算法重建人脸，则上述算法会试图扭曲人脸曲面来让皮肤在漫反射的假设下产生明亮的效果，使得人脸重建的最终结果不准确。

发明内容

为了克服现有技术中存在的问题，本发明提供一种3D人脸重建方法，能够在非控制条件下获得精确的3D人脸重建结果。

基于上述目的，本发明的技术方案如下：

一种3D人脸重建方法，所述方法包括：将同一人的若干2D图片组成图片集，使用人脸关键点检测器检测图片集中某一图片所包含的若干第一关键点的位置坐标，并组成第一关键点矩阵；手动标记出3DMM模型中的若干第二关键点，将其坐标组成第二关键点矩阵；对所述第二关键点矩阵进行投影变换获得第三关键点矩阵，将所述第一关键点矩阵与所述第三关键点矩阵进行拟合，得到人脸姿态和人脸形状，组成粗略的3D人脸模型；估计某一图片对应的环境光照及人脸纹理；处理环境光照并识别高光反射区域；计算粗略的3D人脸模型中每一顶点的可依赖性；计算精确的人脸法向量及人脸纹理；通过精确的法向量重建曲面，获得精确的3D人脸模型。

其中，所述3DMM模型为BFM2019。所述拟合的方法包括：估计所述人脸姿态；对所述第二关键点进行迁移；计算所述人脸形状；其中，所述人脸姿态通过计算旋转矩阵和平移向量得到；所述人脸形状通过计算形状向量和表情向量得到。

其中，所述环境光照近似为单色光照，计算3D人脸网络中任一顶点的图像强度与第二正交基内积的平方与所述图像强度与第三正交基内积的平方之和，若其大于第一阈值，则判断所述顶点属于高光反射区域。

其中，所述环境光照分解为双色光照，计算3D人脸网络中任一顶点的图像强度与第五正交基内积的平方与所述图像强度与第六正交基内积的平方之和，若其大于第二阈值，则判断所述顶点属于高光反射区域。

其中，所述计算粗略的3D人脸模型中每一顶点的可依赖性的方法包括：将背对相机的顶点的可依赖性定义为零；将被遮挡部分所包含顶点的可依赖性定义为零；将所述高光反射区域所包含顶点的可依赖性定义为零；令人脸其他部分所包含顶点的可依赖性正比于所述顶点的邻域面积在图像平面的投影。

本发明具有以下有益效果：

本发明方法通过迁移第二关键点并对迁移后的第二关键点进行投影获得第三关键点，接着将第三关键点与第一关键点进行拟合获得较为粗略的3D人脸模型；通过估计环境光照及人脸纹理、处理环境光照并识别高光反射区域、计算粗略的3D人脸模型中每一顶点的可依赖性、计算精确的人脸法向量及人脸纹理并重建曲面等步骤能够利用非控制条件下获得的2D图片重建出精确的3D人脸模型。

此外，本发明方法将环境光照近似为单色光照，计算顶点图像强度与第二正交基内积的平方与所述图像强度与第三正交基内积的平方之和，通过判断其与第一阈值的大小识别出粗略的3D人脸模型中的高光反射区域。

此外，本发明方法将环境光照分解为双色光照，计算顶点图像强度与第五正交基内积的平方与所述图像强度与第六正交基内积的平方之和，通过判断其与第二阈值的大小识别出粗略的3D人脸模型中的高光反射区域。

下文将结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例，附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为现有技术中，3D人脸重建算法的步骤示意图；

图2为本发明的3D人脸重建方法的步骤示意图；

图3为人脸关键点的示意图，其中，图3(a)为包含人脸的2D图片，脸上标注的若干点即为第一关键点；图3(b)为3D人脸模型中的第二关键点在2D图中的投影，其上标注的若干点即为第三关键点；

图4为3D人脸模型中的第二关键点在2D图中的投影，其上标注的若干点即为第三外部关键点可能移动位置的示意图；

图5为将图3(b)中远离相机半边脸的若干第三外部关键点水平移动的示意图；

图6为3D网络中人脸区域示意图，其中，图6(a)是眼角区域示意图，图6(b)是脸颊区域示意图；

图7为三角网络中一部分顶点法向量的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

如图2所示，为本发明方法的步骤示意图，将同一人的若干2D图片组成图片集，使用人脸关键点检测器检测图片集中某一图片所包含的若干第一关键点的位置坐标，并组成第一关键点矩阵；手动标记出3DMM模型中的若干第二关键点，将其坐标组成第二关键点矩阵；对第二关键点矩阵进行投影变换获得第三关键点矩阵，将第一关键点矩阵与第三关键点矩阵进行拟合，得到人脸姿态和人脸形状，组成粗略的3D人脸模型；估计某一图片对应的环境光照及人脸纹理；分解环境光照并识别高光反射区域；计算粗略的3D人脸模型中每一顶点的可依赖性；计算精确的人脸法向量及人脸纹理；通过精确的法向量重建曲面，获得精确的3D人脸模型。

设2D图片集中为同一个人的n张图片。使用人脸关键点检测器得到2D图片集中第i张图片的68个第一关键点，第一关键点包括眼睛、鼻子、嘴及人脸边缘的若干重要点，并将68个第一关键点的坐标组成第一关键点矩阵W⁽ⁱ⁾

其中，2D图片中的68个第一关键点坐标由关键点检测器中的PFLD算法自动检测，属于现有技术。

本发明方法采用3DMM模型来拟合人脸，3DMM模型是描述3D人脸最成功的模型之一，它是由3D人脸数据库进行主成分分析得到的线性统计模型，并给出了3D人脸根据个体形状、表情形状和纹理变化的统计分布。本发明方法中使用3DMM模型的一个公开版本BFM2019模型。BFM2019模型中，3D人脸由一个m个顶点的三角网络表示，包含形状S和纹理T两个方面。其中，形状矩阵

中存储了m个顶点中每个顶点的坐标x,y,z的值；纹理矩阵

中存储了m个顶点中每个顶点的颜色通道R,G,B的值。因此，任意人脸<S,T>可表示成平均脸

和人脸向量u_k,v_k,

(其中，u_k,v_k,w_k分别表示和身份有关的形状变化，和表情有关的形状变化、纹理变化)的线性组合，即：

其中，

分别代表人脸的形状系数、表情系数、纹理系数，α_k,β_k,γ_k服从正态分布，方差分别为

可以理解的，同一人脸在不同图片中形状系数和纹理系数相同，而表情系数不同。公式(1)、

(2)中的各个参数为p＝199,q＝100,r＝199。此外，m＝47439。综上，BFM2019模型中的3D人脸网络包含47439个顶点和94464个三角形。

接着，用Meshlab软件手动标记出BFM2019模型中的68个第二关键点，并将其坐标组成第二关键点矩阵

对第二关键点矩阵

进行投影变换获得第三关键点矩阵，将第一关键点矩阵W⁽ⁱ⁾与第三关键点矩阵进行拟合，得到人脸姿态和人脸形状，组成粗略的3D人脸。其中，人脸姿态包括旋转矩阵R和平移向量t；人脸形状包括形状向量α和每张2D图片中人脸的表情向量β⁽ⁱ⁾。

接着轮流进行以下步骤来获得旋转矩阵R、平移向量t、形状向量α及表情向量β⁽ⁱ⁾。所述步骤包括：估计人脸姿态；对第二关键点进行迁移；计算人脸形状(包括形状向量α和表情向量β⁽ⁱ⁾)。上述步骤一般进行2轮或3轮即可得到较为精确的结果。

估计人脸姿态：

首先需要固定人脸形状，计算2D图片中每一张图片的人脸姿态，包括旋转矩阵R

和平移向量t

首次估计人脸姿态时，由于人脸形状S未知，可用平均脸

替代。接着，对第二关键点的坐标进行二维投影得到第三关键点，最小化第一关键点的坐标与第三关键点的坐标之间的差，即有下式：

其中，

是第二关键点在BFM2019模型中的坐标。

假设在拍摄2D图片时，相机距离人脸较远，即把上述3D到2D的变换近似为弱透视投影，这就要求旋转矩阵R是一个缩放后的正交矩阵的前两行，即旋转矩阵R的前两行正交并且模相等。现有技术中给出了满足上述条件的旋转矩阵R和平移向量t的近似求解方法，具体参见论文[Optimum fiducials under weak perspective projection]，即为：设

的3行为X^T,Y^T,Z^T；W的2行为x^T,y^T；X的均值为

X的归一化坐标是

同理：设R的两行是χ和ψ，

先计算χ和ψ的估计

和

它们满足

即：

结合前述要求即：要求R的两行正交并且模相等，即χ·ψ＝0且||χ||＝||ψ||，于是求下式的最小值：

因此，利用上述方法本发明可求出旋转矩阵R为

平移向量t为

对第二关键点进行迁移：

将68个第一/第二/第三关键点分为两部分，以第一关键点为例：一部分为第一外部关键点(共计17个，编号为1-17)，另一部分为第一内部关键点(共计51个，编号为18-68)。如图3所示，当2D图片中的人脸姿态为非正脸时，部分第一关键点可能与部分第三关键点不能准确对应，其中，图3(a)中人脸标注的若干点即是关键点检测器针对2D图片检测出的第一关键点，图3(b)中人脸标注的若干点则是第二关键点在2D图中的投影，即第三关键点。可见，在远离相机的半张脸上部分第一关键点与部分第三关键点并不对应。

可以理解的，人脸中外部关键点会根据人脸姿态的变化在水平方向发生移动，示例性的，在人脸姿态发生变化时，对于靠近相机的半张脸来讲，部分第三外部关键点保持不动；而对于远离相机的半张脸来讲，部分第三外部关键点则会发生移动，如图4所示，图中标注的若干点即为第三外部关键点可能移动到的位置示意图。因此，为使第一外部关键点与第三外部关键点最大可能的相互对应，本发明将远离相机半边脸所包含的第二外部关键点进行水平移动，再获得其投影后的第三外部关键点。如图5所示，即为将图3(b)中远离相机半边脸所包含的第二外部关键点进行水平移动后，第三外部关键点在人脸上的示意图。

具体的，在代码实现时找到迁移后的第二关键点的索引方法是：将3D人脸网络中的47439个顶点从上到下(按z轴坐标)分成100个等价类，根据上一步估计出的人脸姿态对3D人脸网络包含的所有顶点进行投影变换后，对于远离相机的半张脸，找到第二关键点所在的等价类中x轴坐标最靠外的顶点进行索引，这些顶点即为与第一关键点对应的移动后的第二关键点。

计算人脸形状(包括形状向量α和表情向量β⁽ⁱ⁾)：

根据前述BFM2019模型的人脸形状公式(公式(1))可知，本发明需要找到最合适的人脸形状向量α和表情向量β使得第二关键点在进行投影后得到的第三关键点的坐标尽量接近第一关键点的坐标位置。

图片集中为同一个人的n张2D图片，可以理解的，这n张图片对应的人脸形状向量α相同(因为人脸形状向量α描述的是这个人的个体信息)；而表情向量β⁽ⁱ⁾不同(因为表情向量β⁽ⁱ⁾描述的是每张图片的人脸表情信息)。

接着，利用贝叶斯估计来计算最合适的形状向量α和n个表情向量β⁽ⁱ⁾。α和β⁽ⁱ⁾的概率分布由方差

和

决定，二者的先验分布分别为p维和q维正态分布，即为：

在任一2D图片i中，设

为关键点检测器检测到的2D图片中第一关键点的位置W⁽ⁱ⁾离迁移后的第三关键点所在位置的差，则有：

上述位置之差D⁽ⁱ⁾实质上是由相机模型的误差和关键点检测器的误差而产生，假设D⁽ⁱ⁾内的元素服从正态分布N(0,σ^(err))，则形状向量α和表情向量β⁽ⁱ⁾生成第一关键点的位置W⁽ⁱ⁾的概率p(W⁽ⁱ⁾|α,β⁽ⁱ⁾)为：

其中，||D⁽ⁱ⁾||_F是矩阵D⁽ⁱ⁾的Frobenius范数，

是一个未知的常数，在代码实现中可以将其设置为一个超参数。

由贝叶斯公式：已知第一关键点的位置W⁽ⁱ⁾后，BFM2019模型中参数α,β⁽ⁱ⁾的后验概率为：先验概率p(α)和p(β⁽ⁱ⁾)与α,β⁽ⁱ⁾生成W⁽ⁱ⁾的概率p(W⁽ⁱ⁾|α,β⁽ⁱ⁾)的乘积，表示为：

接着，最大化上述后验概率即：

这是一个关于α和β⁽ⁱ⁾的凸二次规划问题，可依据现有技术中的数学知识快速求解出α及β⁽ⁱ⁾。(由于上述计算过程较为繁琐，本专利不再示出。)

需要注意的是，在进行第一轮人脸姿态和人脸形状向量估计时，由于无法进行第二关键点的迁移，所以只用51个内部第二关键点来估计。在接下来的第二轮和第三轮估计中，则使用迁移后的所有第二关键点进行投影后获得的第三关键点进行估计。

三轮估计结束后得到粗略的人脸形状S_i，表示为：

即参数为α和β⁽ⁱ⁾的BFM2019模型及旋转矩阵R⁽ⁱ⁾和平移向量t⁽ⁱ⁾，即从3D模型到2D图片的投影变换。

通过上述步骤本发明已获得每张2D图片

对应的3D人脸网络，用公式表示即为：

以及进行拟合时所解出的弱透视投影变换[R⁽ⁱ⁾|t⁽ⁱ⁾](即旋转矩阵R、平移向量t)，结合上述信息本发明可采样出3D人脸网络中的47439个顶点在每张2D图片中的图像强度，组成张量

其中的元素：

其中，元素I_ij代表与第i张2D图片对应的3D人脸网络中第j个顶点三个颜色通道的强度；

代表第i张2D图片；(u,v)是与第i张2D图片对应的第i个3D人脸网络中第j个顶点经过投影变换后的坐标，其中，

当上述坐标为非整数时，用双线性插值法进行采样。

上述拟合出的3D人脸网络S⁽ⁱ⁾由于使用的BFM2019模型是由主成分分析得出，即仅保留了比较重要的主成分而忽略了高频的细节信息；此外，在进行拟合时只利用了稀疏的第三关键点坐标，因此得到的3D人脸模型较为粗略。在后续步骤中，需要估计出2D图片对应的环境光照及3D人脸网络中每个顶点的纹理及几何信息来给上述较为粗略的3D人脸模型加入高频细节，最终重建出更精确的3D人脸。

估计2D图片对应的环境光照及人脸纹理：

在进行高光反射区域的识别之前，需要先对处于漫反射情况下的图像生成过程进行介绍，这部分属于现有技术：

假设所有光源都是无限远的，且不考虑由物体自身的遮挡所产生的阴影，假设物体在接收光照时向所有方向反射相同强度的光，即物体表面符合朗伯定律。

接着，由于光源可能是分散的(例如天空)或存在多个光源，因此，将整个环境中的光照分布用一个关于方向的函数l(u_l)来描述，即定义在单位球面S²上的函数，其中，u_l是单位向量。

根据朗伯反射物体的性质，对一张2D图片上的某一点(法向量为v_r，反射率为ρ)来讲，其被一条方向为u_l的光线照射得到的图像强度I为：

I＝ρmax(u_l·v_r,0)l(u_l).

上式即为图像生成公式。反射函数r(v_r)定义为法向量为v_r(v_r∈S²)的物体表面上反射率ρ为常数1的点在光照l下的图像强度，其也是定义在单位球面S²上的函数，其等于在各个方向u_l上的光照l(u_l)下的和，即有：

其中，κ(x)＝max(x,0)。上式形式类似卷积，因此定义卷积运算*为：

即有：r(v_r)＝κ*l.

记函数k：

则k(u)＝max(u·(0,0,1),0)＝κ(u·(0,0,1)).(代表：函数k输入单位球面S²上的点，输出实数)

其中，k和l都是在单位球面S²上的函数。根据球谐函数的性质可知，任意定义在单位球面S²上的平方可积函数都可展开成球谐函数的和，因此，光照函数l(u_l)可展开为：

其中，Y^(n,m)：

为球谐函数(代表函数Y^(n,m)输入单位球面S²上的点，输出实数)，定义为：

其中，

-n≤m≤n，且P^(n,m)是伴随勒让德多项式即有：

此外，Y^(n,m)的前4项在直角坐标下的表达式为：

类似于公式(5)，k可展开为：

其中，上式k的展开式中只有m＝0的项系数非零，这是因为k是绕z轴旋转对称的函数。此外，系数k⁽ⁿ⁾的前两项分别为：

且lim_n→∞k⁽ⁿ⁾＝O(n^-2)

根据Funk-Hecke定理，

可推出：

此外，对于自然环境中的光照l，系数l^(n,m)增长的速度较慢，且k⁽ⁿ⁾迅速下降，所以上式中的r(v_r)即可用前N阶球谐函数来近似即有：

根据现有技术中对上式的理论计算及实验结果表明，一般情况下取阶数N为1或2，近似效果较好。当阶数N为1时球谐图片的个数为4；当阶数N为2时球谐图片的个数为9。本发明中将N取1，即对光照函数l(u_l)和反射函数r(v_r)取球谐展开的前4项，分别表示为：

上述即为2D图片中单个颜色通道的图像生成过程。当考虑3个颜色通道时，对于第i张2D图片来讲，设其对应的3D人脸网络中第j个顶点的法向量为n_ij，三个颜色通道的反射率

因此，该顶点的某一个颜色通道c(c∈{R,G,B})的对应的图像强度I_ijc为：

其中，H_ij(x,y,z)是根据法向量n_ij计算得出的球谐函数的值，l_ic是图片I_i对应的光照向量，其中，H_ij(x,y,z)＝[1,x,y,z]^T；n_ij＝[x,y,z]^T；

因此，在球谐展开阶数N＝1时，将每张2D图片的环境光照记为12维向量

其中，每个颜色通道占4维。

令

将上式的3个颜色通道合并起来，得到一点的图像强度I_ij即为：

因此，公式(6)即为漫反射情况下的图像生成公式在1阶球谐展开下的近似。

由于已知每张2D图片所对应3D人脸网络中每个顶点的图像强度I_ij，且前述步骤中已计算得出每个顶点的法向量n_ij，即可完全确定

(因为

由

组成)，因此，现有技术中用公式(6)来估计每张2D图片的环境光照及人脸纹理。这个方法因为图像强度的采样点很多(每张图片47439个)而人脸纹理向量和光照向量的维数都很小，所以虽然这部分中没有考虑高光反射的影响，使用该方法也可以估计出非常精确的人脸纹理和环境光照。

接着，计算环境光照

和纹理系数

使下式最小：

其中，i为2D图片的索引，j为3D人脸网络中顶点的索引，

是BFM2019模型公式(公式(2))中向量

中的第j个顶点对应的3个颜色通道的值，

是BFM2019模型公式中的纹理向量w_k中的第j个顶点对应的3个颜色通道的值。公式(7)中关于环境光照l_i和纹理系数γ都是凸二次规划问题，有闭式解，所以轮流优化l_i和γ即可快速求解。

接着，在计算出环境光照l_i和纹理系数γ的基础上，进一步将环境光照l_i近似分解成一种或两种颜色光照的和，以便在下述具体的高光反射区域的识别中用到。值得注意的是，由于每张2D图片的环境光照估计过程各不相关，为表示简洁，这部分所涉及的符号表示将2D图片的索引i省去。

处理环境光照：

对于一张图片I，设其对应的3D人脸的第j个顶点法向量为

三个颜色通道的反射率为

在前述步骤中已经解出了12维光照向量l，记为：

由：

c∈{R,G,B}可得：

因此，定义在单位球面S²上的光照函数l_c(u)即有：

因此，需要找到一个单色光μ＝(μ_R,μ_G,μ_B)^T，使得某一种以μ为颜色的环境光照可以与原环境光照l最大近似，将这种单色的环境光照表示成4维向量

即有：

那么，与其对应的完整的12维光照向量表示为：

在颜色通道c上的光照函数为：

其中，上二式中

为未知量。

由于上述单色的光照函数

要与原光照函数l_c(u)尽可能的接近，且

和l_c(u)都是希尔伯特空间

中的函数，因此，最小化

和l_c(u)在单位球面上的积分，并在3个颜色通道上求和，用公式表示即为：

化简得：

其中：

上式等价于求矩阵

的秩为1的近似矩阵

易知需将

进行SVD分解，即：

因此：

μ_R＝v₁₁,μ_G＝v₂₁,μ_B＝v₃₁.

以上即为将环境光照近似为一种单色光照的方法。根据SVD分解的性质可得：

其中，u₁,u₂,

v₁,v₂,

u_k为公式(8)中的[u_1k u_2k u_3k u_4k]^T，v_k为公式(8)中的[v_1k v_2k v_3k]^T；且

是秩为1的矩阵中

的最优近似；

是秩为2的矩阵中

的最优近似。所以光照l可完全分解为3种不同颜色的单色光照的和，或近似分解为1种或2种颜色单色光照的和。其中，σ₁、σ₂、σ₃按递减顺序排列(σ₁>σ₂>σ₃>0)，依次代表3种颜色所占的比例。此外，μ＝(v₁₁,v₂₁,v₃₁)^T,ν＝(v₁₂,v₂₂,v₃₂)^T,ω＝(v₁₃,v₂₃,v₃₃)^T分别表示3种颜色的RGB值。

接着，若

则认为单色光照对环境光照近似效果较好；若如果

则需要将环境光照近似成两种颜色(μ,ν)的和。实践表明，在实际环境中，σ₁,σ₂,σ₃通常递减很快，极少会出现σ₃较大的情况，因此，在估计环境光照的颜色以及后续的高光反射区域识别时无需考虑σ₃。

以上即为漫反射情况下的图像生成过程，尤其适用于使用可控环境下的2D图片实现人脸的3D重建；本发明在现有技术基础上对其进行改进，即使得本发明方法能够使用非控制条件下的2D图片实现人脸的3D重建。其中，可控环境是指：在室内不受高光反射影响的条件下拍摄、可用多摄像头在多角度同时拍摄并已知光源位置和强度的情形；例如电影工业中的光照舞台系统；非控制条件是指：拍摄照片时，未知环境光照、未知相机参数的情形，示例性的，从互联网下载的若干2D图片即为非控制条件下的2D图片。本专利中非控制条件具体指拍摄照片时既包含漫反射也包含高光反射的情况。

识别高光反射区域：

具体的，非控制条件下的2D图片包含漫反射和高光反射两部分，根据双色模型(现有技术)，假设环境光照为单色：那么，2D图片中物体表面一点的图像强度e等于两种颜色d,

的线性组合，即有：

e＝σ_dd+σ_ss,#(9)

其中，系数σ_d和σ_s只与物体表面的几何形状及材质有关；d代表物体表面在环境光照下经过纯漫反射产生的颜色，s代表物体表面在环境光照下经过纯高光反射产生的颜色。

(1)当环境光照近似为单色光照时：

设环境光照的颜色为

人脸中点j的反射率为

那么，公式(9)中，d＝μ⊙ρ_j,s＝μ，即2D图片中一点的颜色I_j为μ⊙ρ_j和μ的线性组合即有：

I_j＝σ_d(μ⊙ρ_j)+σ_sμ.#(10)

接着，本发明方法通过旋转顶点颜色来找出2D图片I中受高光反射影响较大的区域。由于在前述步骤中已通过计算得到人脸纹理的近似值ρ和环境光照颜色的近似值μ(其中，ρ为公式(7)算出的纹理系数代入3DMM纹理即公式(2)得到的粗略纹理；环境光照颜色μ为公式(8)计算得到的μ＝(v₁₁,v₂₁,v₃₁)^T)，因此，对与2D图片I对应的粗略的3D人脸模型中的每一个顶点j，均存在一个正交矩阵

使得：

其中，令

r₂和r₃分别为

(

为三维欧氏空间)中与r₁正交的子空间中的第二正交基、第三正交基，因此：

a＝r₁(μ⊙ρ_j)＝||μ⊙ρ_j||，r₂(μ⊙ρ_j)＝r₃(μ⊙ρ_j)＝0。

将矩阵R_j作用在公式(10)中即有：

其中，

的值既受漫反射影响也受高光反射影响；而

和

的值仅受高光反射影响，由于σ_s为公式(10)中高光反射项的系数，因此，本发明方法将

(第二正交基与图像强度的内积)和

(第三正交基与图像强度的内积)的数值大小视为判断3D人脸网络中顶点j是否受高光反射影响的依据。这是因为，顶点颜色旋转后有两个颜色通道的图像强度仅由高光反射产生，即由这两个颜色通道的值判断一个顶点是否受高光反射影响较大。需要注意的是，高光反射区域由3D人脸模型中的一部分顶点表示，这些顶点可以投影到2D图中得到它们对应的像素。

此外，由于R_j是顶点j的正交矩阵，即有：

又因已令

所以式：

不受本发明方法选取的子空间的基的影响，因此令ε为第一阈值，

可知，3D人脸网络中满足公式(11)的若干顶点j即属于受高光反射影响较大的点，由若干上述顶点j组成的区域即为受高光反射影响较大的区域。具体的，在顶点颜色旋转后

和

这两个颜色通道仅包含高光反射，不包含漫反射，即可依据

的大小判断该顶点是否受高光反射影响。识别出受高光反射影响较大的区域后，在接下来的法向量估计步骤中需要去掉上述顶点j，值得注意的是，公式(11)中的第一阈值ε是一个可调的超参数。

(2)环境光照分解为双色光照时：

对公式(8)中的矩阵

进行SVD分解后，若

即将环境光照l近似成两种颜色μ、v的和，即环境光照向量l中对应于颜色通道c的4维向量即为：

其中，μ，

(

代表四维欧氏空间)。那么，对与2D图片I对应的3D人脸网络中的每一个顶点j，即有：

其中：I_j代表图片I中顶点j对应的像素值；

(其中，

是指两种光照颜色μ,ν的线性组合，其中的系数由球谐函数

和光照向量

决定)，因此，类似于单色光照中的计算方法，对与2D图片I对应的粗略的3D人脸模型中的每一个顶点j，均存在一个正交矩阵

使得：

令

r₅和r₆分别为

中与r₄正交的子空间的第五正交基、第六正交基，则有：

所以

(第五正交基与图像强度的内积)和

(第六正交基与图像强度的内积)这两个颜色通道仅包含高光反射，可依据

的大小判断顶点j是否受高光反射影响。令ε′为第二阈值，

那么：

对任一顶点j来讲，当满足公式(12)时，认为该顶点j属于受高光反射影响较大的区域。

识别出受高光反射影响较大的区域之后，接着，对人脸三角网络的法向量进行估计。

计算粗略的3D人脸模型中每一顶点的可依赖性：

结合现有技术及实践经验可知，在3D人脸网络的47439个顶点中，不同顶点的权重有所区别，示例性的，在一张2D图片中，人脸的某些部分是背对相机的，那么与该部分对应的3D人脸网络中的顶点的可依赖性应被赋予的权重为0，这是因为这部分顶点不包含任何人脸重建所需要的信息；可以理解的，正对相机的顶点则应被赋予较高的权重。此外，由于每张图片中人脸姿态和表情均不相同，即n张图片应使用n个向量来存储3D人脸网络中每个顶点的可依赖性。

本发明方法用d_ij表示第i张图所对应的3D模型中第j个顶点的可依赖性，对可依赖性进行较为精确的描述需要考虑如下4项：

①背对相机的顶点(即法向量和视向向量的夹角大于90°)，d_ij＝0。

②被遮挡的部分包含的顶点(比如人脸是侧脸时，鼻子可能挡住部分人脸)d_ij＝0.(由于前述步骤中已估计出第一3D人脸模型，可用Z-buffer算法(现有技术)计算遮挡位置。)

③高光反射区域所包含的顶点，d_ij＝0。

④人脸其它部分的可依赖性正比于顶点的邻域面积(指与该顶点邻接的三角形面积之和)在图像平面的投影。

对于第4项，如图6所示，图6(a)是眼角附近的区域，图6(b)是脸颊上的区域，图6(a)中的顶点数量远大于图6(b)中的顶点数量，若不考虑顶点的邻域面积，那么在进行人脸法向量的估计时，将会在眼角附近赋予比脸颊更大的权重，这显然不符合人脸分布规律(脸颊的权重要大于眼角的权重)即会降低人脸重建的准确性。

综上，令第i张图中第j个顶点的可依赖性d_ij：

其中，c_i是第i张图的视向向量(指投影方向)，n_j是顶点j的法向量(此处的法向量是指由人脸形状S_i计算出的粗略法向量)，

是公式(3)中旋转矩阵R⁽ⁱ⁾的两行的叉积，

代表顶点j的邻域面积。

接着，在下一节计算精确法向量的公式(13)中，最小化估计颜色与原图颜色的差时，对每个顶点乘以其可依赖性d_ij即为计算得到的精确的人脸法向量，具体参见下一节。

计算精确的人脸法向量及人脸纹理：

前述步骤中已获得较为粗略的人脸纹理估计ρ即为：

对应于每张图片I_i的粗略的环境光照估计l_i

即为公式(7)中计算出的光照向量、粗略的人脸形状S_i即为：

以及根据人脸形状S_i估计出的每个顶点的法向量n_ij。

根据公式(6)即漫反射情况下的图像生成公式在1阶球谐展开下的近似，本发明方法希望计算精确的

使得下式最小，用公式表示即为：

其中，

是第i张图对应的3D模型，

是

里第j个顶点，n_ij是由粗略的人脸形状S_i计算出的法向量，要求其满足

公式(13)中添加

项的原因是：利用本发明方法获得的精确3D人脸与BFM2019模型构建的粗略3D人脸之间的距离不要太远。

接着，将n_ij初始化为

轮流最小化l、ρ、n。公式(13)中关于l_i和ρ_jc都是最小二乘问题，有闭式解，属于现有技术；如图7所示，关于n_ij是只包含一个等式约束的二次约束二次规划问题，可在多项式时间内求解，亦属于现有技术，因此，可解出精确的人脸法向量n和人脸纹理ρ。

通过精确法向量重建曲面：

通过以上步骤利用本发明方法已获得每张图片中m个顶点的精确法向量，在这一步骤中，通过形变粗略人脸来重建出精细的人脸三角网络，属于现有技术。值得注意的是，在这个过程中，顶点间的连接方式保持不变，即只修改顶点的三维坐标。

具体的，设前述得到的粗略三角网络中顶点j的坐标为

平均曲率为H_j、精确法向量为n_j、m个顶点的坐标组成矩阵

平均曲率组成对角矩阵

法向量组成矩阵

由现有技术可知，Laplace-Beltrami算子

作用在顶点j的三维坐标上等于负的平均曲率乘法向量，即有：

因此，需要找到顶点坐标矩阵

使得下式最小：

其中，X只包括三角网络中的非边界顶点X⁽ⁱⁿ⁾，而不包括边界顶点X^(b)。(在BFM2019模型中有47023个非边界顶点，416个边界顶点)

对于边界顶点，它们的Laplace-Beltrami算子退化为一维形式即有：

其中，

是边界上与j相邻的两个顶点。

本发明方法要求形变前后的人脸3D网络边界形状保持不变，即最小化形变前后Laplace-Beltrami算子作用到边界顶点坐标上的值的差异，即有下式：

其中，X^(b)是416个边界顶点的坐标，

是边界顶点在粗略三角网络中的坐标。

此外，本发明方法还在公式(14)和公式(15)的基础上加上正则化项使解出的精确(包含人脸细节)三角网络X距离粗略三角网络X₀较近，即有：

其中，R,t为公式(3)中估计出的旋转矩阵和平移向量；W为需要解出的精细三角网络所包含的68个人脸关键点的坐标；land是68个关键点的索引。

则：最终的损失函数为：

最终的损失函数是一个稀疏线性方程组，可快速求解。此处需要解出使损失函数最小的X即可，X包含人脸曲面上每个顶点的坐标。

本发明方法通过迁移第二关键点并对迁移后的第二关键点进行二维投影获得第三关键点，接着将第三关键点与第一关键点进行拟合获得较为粗略的3D人脸模型；通过估计环境光照及人脸纹理、处理环境光照并识别高光反射区域、计算粗略的3D人脸模型中每一顶点的可依赖性、计算精确的人脸法向量及人脸纹理并重建曲面等步骤能够利用非控制条件下获得的2D图片重建出精确的3D人脸模型。

此外，本发明方法将环境光照近似为单色光照，计算顶点图像强度与第二正交基内积的平方与所述图像强度与第三正交基内积的平方之和，通过判断其与第一阈值的大小识别出粗略的3D人脸模型中的高光反射区域；本发明方法将环境光照分解为双色光照，计算顶点图像强度与第五正交基内积的平方与所述图像强度与第六正交基内积的平方之和，通过判断其与第二阈值的大小识别出粗略的3D人脸模型中的高光反射区域。识别出高光反射区域后，在后续的人脸重建步骤中避开上述高光反射区域，利用图片的其余部分来得到精细的3D人脸模型。

本发明方法的输入为：在搜索引擎或2D人脸数据集中找同一人的n张图片。

本发明方法的数据集和参数设置为：粗略人脸估计中使用的3DMM模型为BFM2019(Basel Face Model)，其中的参数为m＝47439,p＝199,q＝100,r＝199。BFM2019模型中的3D人脸网络包含47439个顶点和94464个三角形。其中的数据包含：平均脸的顶点三维坐标

纹理

主成分分析得到的个体形状特征向量

表情形状特征向量

纹理特征向量

及它们对应的方差

其中，BFM2019的三角网络中68个人脸关键点是用MeshLab软件手动标记的，关键点的定义来自CMU Multi-PIE人脸数据集。2D图片中的68个关键点坐标由PFLD算法自动检测。公式(4)中的参数τ设为80；公式(7)中的参数η设为0.0001；公式(11)和公式(12)中的参数ε、ε′均设为0.3；公式(13)中的参数ξ设为0.2。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种3D人脸重建方法，其特征在于，所述方法包括：将同一人的若干2D图片组成图片集，使用人脸关键点检测器检测图片集中某一图片所包含的若干第一关键点的位置坐标，并组成第一关键点矩阵；手动标记出3DMM模型中的若干第二关键点，将其坐标组成第二关键点矩阵；对所述第二关键点矩阵进行投影变换获得第三关键点矩阵，将所述第一关键点矩阵与所述第三关键点矩阵进行拟合，得到人脸姿态和人脸形状，组成粗略的3D人脸模型；估计某一图片对应的环境光照及人脸纹理；处理环境光照并识别高光反射区域；计算粗略的3D人脸模型中每一顶点的可依赖性；计算精确的人脸法向量及人脸纹理；通过精确的法向量重建曲面，获得精确的3D人脸模型。

2.根据权利要求1所述的方法，其特征在于，所述3DMM模型为BFM2019。

3.根据权利要求1所述的方法，其特征在于，所述拟合的方法包括：估计所述人脸姿态；对所述第二关键点进行迁移；计算所述人脸形状；其中，所述人脸姿态通过计算旋转矩阵和平移向量得到；所述人脸形状通过计算形状向量和表情向量得到。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述环境光照近似为单色光照，计算3D人脸网络中任一顶点的图像强度与第二正交基内积的平方与所述图像强度与第三正交基内积的平方之和，若其大于第一阈值，则判断所述顶点属于高光反射区域。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述环境光照分解为双色光照，计算3D人脸网络中任一顶点的图像强度与第五正交基内积的平方与所述图像强度与第六正交基内积的平方之和，若其大于第二阈值，则判断所述顶点属于高光反射区域。

6.根据权利要求4-5任一项所述的方法，其特征在于，所述计算粗略的3D人脸模型中每一顶点的可依赖性的方法包括：将背对相机的顶点的可依赖性定义为零；将被遮挡部分所包含顶点的可依赖性定义为零；将所述高光反射区域所包含顶点的可依赖性定义为零；令人脸其他部分所包含顶点的可依赖性正比于所述顶点的邻域面积在图像平面的投影。