CN102521586B

CN102521586B - 一种用于拍照手机的高分辨率三维人脸扫描方法

Info

Publication number: CN102521586B
Application number: CN201110404815.2A
Authority: CN
Inventors: 高巍; 沈晔湖; 朱怡; 魏磊; 貊睿; 彭振云
Original assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Current assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Priority date: 2011-12-08
Filing date: 2011-12-08
Publication date: 2014-03-12
Anticipated expiration: 2031-12-08
Also published as: CN102521586A

Abstract

本发明揭示了一种用于拍照手机的高分辨率三维人脸扫描方法，其通过构建三维人脸参考模板、通过拍照手机进行扫描对象的数据采集，对输入的图像进行特征点定位和伽马校正的预处理后，进行三维人脸的粗重建与细重建，最后以顶点法向量的形式存储形状信息，从而完成用拍照手机获得高分辨率的三维人脸扫描，且本发明具有成本低、分辨率高、速度快的优点。

Description

一种用于拍照手机的高分辨率三维人脸扫描方法

技术领域

本发明涉及计算机视觉和计算机图形学领域，尤其涉及一种使用普通拍照手机完成高分辨率三维人脸扫描的方法。

背景技术

三维人脸扫描在诸如人机交互、影视制作、游戏娱乐、视频通信等领域具有广泛的应用。但目前，该任务的完成需要借助于大型、昂贵的设备或高复杂度、高交互操作要求的重建算法。普通消费者在日常生活中还不能便捷地实现三维人脸扫描。

当前的三维人脸扫描方法主要有两大类，第一类是借助激光扫描仪或深度相机等设备，直接采集扫描对象的三维信息，第二类是从一幅或多幅二维人脸图像中重建出三维信息。通过激光扫描仪采集的三维人脸具有图像精确的特征，但实际使用上也存在不少问题，问题之一是设备庞大且昂贵，很难进入日常生活。此外，扫描需要用户全程做长时间配合，并且头部必须保持不动。

在公开号为CN101996416A，名称为“3D人脸捕获方法和设备”的中国专利中公开了一种使用CCD相机和深度相机完成三维人脸扫描的方法，同激光扫描仪相比，深度相机的体积和费用都减少很多。但其功能单一，且价格仍比较高，普通消费者也难以接受的。另外，TOF(Time-of-Flight，光照时间)相机在室外环境或玻璃背景等情况下很难采集到非常准确的数据。同时，TOF相机的分辨率也比较低。

在专利公开号为US2009052748的美国专利中公开了一种从2D表示构建人脸的3D表示的方法和系统，其揭示了从单幅中性表情正面人脸图像中重建三维人脸。但由单幅图重建三维信息是不适定问题，其结果导致重建的三维人脸往往不稳健。同时，单幅正面图像也不能较好的解决被遮挡区域的纹理映射问题。

在公开号为CN102222363A的中国专利中，公开了一种从人脸图像快速构建高精度个性化人脸模型的方法，其揭示了使用从固定角度拍摄的5张图像实现三维人脸的重建。固定角度拍摄对用户提出了较高的交互要求。同时，重建过程中还需要用户手工标定41个特征点位置和特征点对应关系。此外，该方法仅仅依赖于41个特征点实现重建，而忽略了光照信息和反射率信息。这导致前期手工标定的误差会对重建结果产生非常大的影响，进而导致高精度的三维扫描在实际使用中很难被实现。

发明内容

本发明的目的是为克服现有技术的不足，提供一种新的用于手机的高分辨率三维人脸扫描方法，其通过日常拍照手机实现三维人脸的高分辨率的扫描，且具有成本低、分辨率高、速度快的优点。

为实现上述目的，本发明提出如下技术方案：一种用于拍照手机的高分辨率三维人脸扫描方法，包括以下步骤：

第一步，依据三维人脸数据库构建三维人脸参考模板；

第二步，通过拍照手机完成扫描对象的数据采集；

第三步，对输入的图像进行预处理，包括特征点定位和伽马校正；

第四步，粗重建三维人脸，以完成姿态归一化和光照、形状、反射率的初始值估计；

第五步，以粗重建结果为初始值，细重建三维人脸，对光照、形状、反射率进行更为精细的优化；

第六步，细重建完成后，以顶点法向量的形式存储形状信息。

其中，所述第一步中三维人脸参考模板的构建包括：

1)从三维人脸数据库中筛选出用于计算参考模板的数据集；

2)将将笛卡尔坐标系下的三维人脸数据集展开到柱面坐标系下，得到每个三维人脸三通道的纹理图像和单通道的形状图像；

3)将三维描述的人脸数据集转换成二维描述，在二维数据集上使用光流技术，完成各人脸的像素级稠密对齐；

4)在对齐后的二维人脸数据集上，计算平均人脸图像并标定出特征点。

所述三维描述的人脸数据集转换成二维描述是通过三通道纹理图像和单通道形状图像合并得到一幅四通道图像而完成的。

所述平均人脸图像的计算是在对齐后的二维人脸数据集上，计算平均图像，然后，将四通道平均图像重新分解为三通道纹理图像和单通道形状图像，最后，将柱面坐标系下的纹理图像和形状图像投影回笛卡尔坐标系，从而得到平均人脸的三维描述。

所述第四步中的姿态归一化是姿态参数通过仿射摄像机模型描述为：

(\begin{matrix} u \\ v \end{matrix}) = M_{2 \times 3} (\begin{matrix} x \\ y \\ z \end{matrix}) + (\begin{matrix} t_{1} \\ t_{2} \end{matrix})

其中(x，y，z)为参考模板上的特征点，(u，v)为输入图像上的特征点，(t₁，t₂)为平移向量，M_2×3是包含旋转、缩放和投影的2×3线性映射矩阵。

所述第四步中的光照、形状、反射率的初始值估计是由姿态归一化的m幅正面图像构建m×p的矩阵I，其中m为选出的图像数，p为每幅图像的像素数目，并通过主成分分析得到：

I \approx \overset{&OverBar;}{I} + α C_{I}

其中行对应于平均图像，α为m×(m-1)的光照系数初始值，C_I为(m-1)×p的形状和反射率初始值。

所述第五步中更为精细的优化包括最小化重建误差，保持粗重建的α不变，对C_I的每一列求解如下优化问题，

\min_{C_{I}^{j}} [| | I^{j} - ({\overset{&OverBar;}{I}}^{j} + α C_{I}^{j}) | | + C_{I}^{jT} R C_{I}^{j}]

其中I^j

分别为I

C_I的第j列，

R = diag (- 1,1,1,1), | | I^{j} - ({\overset{&OverBar;}{I}}^{j} + α C_{I}^{j}) | |

描述重建误差，

描述顶点法向量的单位长度约束。

所述第五步中更为精细的优化包括最小化重建人脸同人脸参考模板间的距离。

在保持重建误差不变的基础上，引入调节矩阵以进一步减小重建人脸同人脸参考模板间的距离。

减小重建人脸同人脸参考模板间的距离是通过Levenberg-Marquardt方法完成。

针对单幅图像不稳健且不能较好实现被遮挡区域纹理映射的问题，本发明通过选用不同角度的5幅图像来解决，但不同于公开号为CN102222363A的专利所揭示的方法，本发明的用户可以随意进行拍摄，只要鼻子可以部分或全部可见即可，而不是必须从正面、左侧面45度、左侧面90度、右侧面45度、右侧面90度5个固定角度拍摄。

针对三维扫描需要用户做大量配合工作的问题，本发明只需用户提供5张照片或1段视频。之后的整个重建过程完全自动完成。其中，特征点标定是通过主动轮廓模型(Active Shape Model，ASM)自动实现。

针对特征点标定误差给重建结果带来较大影响的问题，本发明在特征点约束之外，同时使用光照和反射率约束实现三维重建。其中，光照信息通过球面谐波基的线性朗伯模型来描述。

针对引入光照和反射率约束后计算复杂度增大的问题，本发明提出粗、细两步重建的方法。粗、细两步重建将复杂的单步全局优化问题分解成三个简单的优化问题和一个PCA问题。三个简单的优化问题中，前两个可以借助线性运算实现快速求解，第三个借助较近的初始位置也可以实现迅速的全局收敛。

与现有技术相比，采用本发明后，本发明具有下列有益效果：

第一、成本低：激光扫描仪和TOF相机的价格都在数万元以上，而拍照手机的价格一般只在几千元；

第二、应用简便：用户的采集操作非常简便，没有很多的定量要求；

第三、工序节省：用户提供照片或视频后，不再需要任何交互工作；

第四、分辨率高：以500万像素的手机为例，只要人脸区域能够占到照片的五分之一大小，本发明就可以重建出100万顶点的三维人脸数据；

第五、精度高：特征点、光照和反射率信息的同时约束使重建结果对各种误差具有较好的鲁棒性；

第六、速度快：粗、细两步重建的过程大大简化了计算的复杂度。

附图说明

图1是本发明用于拍照手机的高分辨率三维人脸扫描方法的流程图；

图2是图1中粗、细两步重建的流程图；

图3是标出了特征点的三维平均人脸示意图。

具体实施方式

下面将结合本发明的附图，对本发明优选实施例中的技术方案进行清楚、完整的描述。

结合图1至图3，是本发明用于拍照手机的高分辨率三维人脸扫描方法具体实施步骤包括如下：

第一步，构建三维人脸参考模板；该步骤依据三维人脸数据库，计算出平均人脸，并标定出特征点，重建过程中，标定后的三维平均人脸被用作参考模板。该参考模板的详细构建过程包含以下5个步骤：

1)筛选数据集

按照无明显光照方向且男女数量相等的标准，从数据库中筛选出用于计算参考模板的数据集，例如男、女各50人的三维人脸数据。

2)柱面坐标展开

将笛卡尔坐标系下的三维人脸数据集展开到柱面坐标系下。展开后，每个三维人脸得到两幅二维图像。一幅为三通道的纹理图像。另一幅为单通道的形状图像。

3)光流对齐

对每个三维人脸，由其对应的三通道纹理图像和单通道形状图像合并得到一幅四通道图像。由此，三维描述的人脸数据集被转换成二维描述。在二维数据集上使用光流技术，完成各人脸的像素级稠密对齐。

4)计算平均人脸

在对齐后的二维人脸数据集上，计算平均图像，然后，将四通道平均图像重新分解为三通道纹理图像和单通道形状图像。最后，将柱面坐标系下的纹理图像和形状图像投影回笛卡尔坐标系，从而得到平均人脸的三维描述。

5)标定特征点

在三维平均人脸上，标定出特征点，如图3所示的57个特征点，其中包含16个眼睛轮廓点、11个鼻子轮廓点、17个嘴部轮廓点和13个外部轮廓点。完成标定的三维平均人脸即为重建过程中的参考模板。

第二步，通过拍照手机完成扫描对象的数据采集。本实施例中采集的数据是5幅图像，这些图像可以是任意角度的照片，也可以是视频中任意抽取的帧画面，但必须满足鼻子部分或全部可见。

第三步，对输入的图像进行预处理。该步骤包含两个阶段，一是特征点定位，即图3所示的57个特征点需要在每幅输入图像上完成标定，定位过程可以通过主动轮廓模型自动完成；二是伽马校正，伽马校正后，手机摄像头引起的色彩非线性畸变得到补偿。

第四步，粗重建三维人脸。该阶段的任务是完成姿态归一化和光照、形状、反射率的初始值估计。其中姿态归一化是姿态参数通过仿射摄像机模型描述，为：

(\begin{matrix} u \\ v \end{matrix}) = M_{2 \times 3} (\begin{matrix} x \\ y \\ z \end{matrix}) + (\begin{matrix} t_{1} \\ t_{2} \end{matrix}) - - - (1)

其中(x，y，z)为参考模板上的特征点，(u，v)为输入图像上的特征点，(t₁，t₂)为平移向量，M_2×3是包含旋转、缩放和投影的2×3线性映射矩阵。对某一特定输入图像，式(1)应用在57对特征点可以得到57个方程。所得方程组关于(t₁，t₂)和M_2×3的最小二乘解即为当前图像的姿态参数。

得到姿态参数后，首先将参考模板人脸对齐到输入图像的姿态上。其次，输入图像被反投影到参考模板。然后，新的三维人脸被转至正面并重新渲染成单通道图像。对所有输入图像执行上述操作，从而得到姿态归一化的5幅正面人脸图像。

光照、形状、反射率的初始值估计是由姿态归一化的5幅正面图像构建5×p的矩阵I，其中p为每幅图像的像素数目。使用主成分分析(PrincipalComponent Analysis，PCA)将I降至4维，得到：

I \approx \overset{&OverBar;}{I} + α C_{I} - - - (2)

其中

行对应于平均图像，α为5×4的光照系数初始值，C_I为4×p的形状和反射率初始值。C_I每一列的元素依次对应当前像素的ρ、ρn_x、ρn_y和ρn_z，ρ为反射率，(n_x，n_y，n_z)为单位长度的顶点法向量。

第五步，细重建三维人脸。该阶段的任务是以粗重建结果为初始值，对光照、形状、反射率进行两步更为精细的优化。包括：

1)最小化重建误差，保持粗重建的α不变，对C_I的每一列求解如下优化问题，

\min_{C_{I}^{j}} [| | I^{j} - ({\overset{&OverBar;}{I}}^{j} + α C_{I}^{j}) | | + C_{I}^{jT} R C_{I}^{j}] - - - (3)

即使

达到最小时的

其中I^j、

分别为I、

C_I的第j列，R＝diag(-1，1，1，1)。式(3)中，

描述重建误差，

描述顶点法向量的单位长度约束。

2)最小化重建人脸同人脸参考模板间的距离

在保持重建误差

不变的基础上，引入调节矩阵A，进一步减小重建人脸同人脸参考模板间的距离。即寻找如下问题的最优解，

\min_{A} {| | C_{I}^{t} - {AC}_{I} | |}^{2} - - - (4)

即求解使

达到最小时的A值，其中A为任意4×4矩阵，

为模板人脸对应的形状和反射率。该问题的求解以细重建第一步优化的C_I为初始值，通过Levenberg-Marquardt方法完成。优化后，新的光照系数为αA^-1，形状和反射率为AC_I。

第六步，细重建完成后，以顶点法向量的形式存储形状信息。由法向量和深度梯度的关系

{(n_{x}, n_{y}, n_{z})}^{T} = {(z_{x}, z_{y}, - 1)}^{T} / \sqrt{{z_{x}}^{2} + {z_{y}}^{2} + 1} - - - (5)

可知z_x＝-n_x/n_z，z_y＝-n_y/n_z，其中z_x、z_y分别为深度z在x、y方向的梯度。保持模板人脸与z轴相交点的坐标不变，再结合上述梯度信息，即可得到重建人脸形状的顶点坐标描述。

重建人脸的纹理映射通过平均使用所有输入图像来完成。在5幅输入图像上可以找到对应像点像素的顶点处，反射率取为所有对应位置像素的平均值。在5幅输入图像上找不到对应像点像素的顶点处，反射率取为最邻近四顶点的双线性插值。

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的教示及揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：包括以下步骤：

第一步，依据三维人脸数据库构建三维人脸参考模板；

第二步，通过拍照手机完成扫描对象的数据采集；

第六步，细重建完成后，以顶点法向量的形式存储形状信息，其中：

所述粗重建包括姿态归一化和光照、形状、反射率的初始值估计，其中姿态归一化是姿态参数通过仿射摄像机模型描述为：

其中(x,y,z)为参考模板上的特征点，(u,v)为输入图像上的特征点，(t₁,t₂)为平移向量，M_2×3是包含旋转、缩放和投影的2×3线性映射矩阵；

所述细重建包括最小化重建误差和最小化重建人脸同人脸参考模板间的距离，其中最小化重建误差通过保持粗重建的a不变，对C_I的每一列求解如下优化问题，

其中I为5幅正面图像构建的5×p矩阵，p为每幅图像的像素数目，

行对应于平均图像，a为5×4的光照系数初始值，C_I为4×p的形状和反射率初始值，I^j、

分别为I、

C_I的第j列，R=diag(-1,1,1,1)，

描述重建误差，

描述顶点法向量的单位长度约束。

2.根据权利要求1所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：所述第一步中三维人脸参考模板的构建包括：

1）从三维人脸数据库中筛选出用于计算参考模板的数据集；

2）将笛卡尔坐标系下的三维人脸数据集展开到柱面坐标系下，得到每个三维人脸三通道的纹理图像和单通道的形状图像；

3）将三维描述的人脸数据集转换成二维描述，在二维数据集上使用光流技术，完成各人脸的像素级稠密对齐；

4）在对齐后的二维人脸数据集上，计算平均人脸图像并标定出特征点。

3.根据权利要求2所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：三维描述的人脸数据集转换成二维描述是通过三通道纹理图像和单通道形状图像合并得到一幅四通道图像而完成的。

4.根据权利要求2所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：所述平均人脸图像的计算是在对齐后的二维人脸数据集上，计算平均图像，然后，将四通道平均图像重新分解为三通道纹理图像和单通道形状图像，最后，将柱面坐标系下的纹理图像和形状图像投影回笛卡尔坐标系，从而得到平均人脸的三维描述。

5.根据权利要求1所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：所述第四步中的光照、形状、反射率的初始值估计是由姿态归一化的5幅正面图像构建5×p的矩阵I，其中p为每幅图像的像素数目，并通过主成分分析得到：

其中

行对应于平均图像，a为5×4的光照系数初始值，C_I为4×p的形状和反射率初始值。

6.根据权利要求1所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：所述第五步中更为精细的优化包括最小化重建人脸同人脸参考模板间的距离。

7.根据权利要求1所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：在保持重建误差

不变的基础上，引入调节矩阵以进一步减小重建人脸同人脸参考模板间的距离。

8.根据权利要求7所述的用于拍照手机的高分辨率三维人脸扫描方法，其特征在于：减小重建人脸同人脸参考模板间的距离是通过Levenberg-Marquardt方法完成。