CN108121950A

CN108121950A - 一种基于3d模型的大姿态人脸对齐方法和系统

Info

Publication number: CN108121950A
Application number: CN201711264003.6A
Authority: CN
Inventors: 李方敏; 陈珂; 彭小兵; 杨志邦; 栾悉道
Original assignee: Changsha University
Current assignee: Hunan Maiyi Information Technology Co.,Ltd.
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-06-05
Anticipated expiration: 2037-12-05
Also published as: CN108121950B

Abstract

本发明公开了一种基于3D模型的大姿态人脸对齐方法，包括：建立基于PCA的3DMM模型，构建由3D面部扫描仪采集的N个二维面部特征点所组成的向量集合U，构建得到的3DMM模型与构建的向量集合U之间的关系式，构建改进CNN网络模型，其是在现有CNN网络模型中每一个可视化块中增加一个可视化层实现，用于将其所在可视化块的特征提取出来，并将其传递给下一个可视化块，基于现有的公开人脸数据集获取训练样本，使用该训练样本训练构建的改进CNN网络模型，以获得对应的参数，获取二维人脸图片，并将该二维人脸图片输入训练的改进CNN网络模型中。本发明能够解决现有大姿态人脸对齐方法所存在的不能同时兼顾特征点的密集程度和训练阶段收敛速度的技术问题。

Description

一种基于3D模型的大姿态人脸对齐方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于3D模型的大姿态人脸对齐方法和系统。

背景技术

目前，人脸对齐技术已经成为计算机视觉领域中一个新的研究热点，它是对面部元素(如眼睛、鼻子、嘴巴、轮廓)进行对齐的过程。准确的人脸对齐是实现许多人脸相关任务(包括人脸识别、3D人脸重建、人脸动画等)的重要前提。

在人脸对齐技术的研究中，大姿态(即±90°的人脸角度)人脸对齐(Large poseface alignment，简称LPFA)是一个研究难点。目前通常采用稀疏的特征点估计方式，但这会大大降低人脸对齐的效果(例如在侧脸的情况下会导致人脸对齐效果较差)。为了解决此问题，一些算法通过使用密集的特征点估计实现大姿态人脸对齐，但由于其缺乏端到端的训练，并多采用手工特征提取方式，因此导致训练阶段收敛速度慢。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于3D模型的大姿态人脸对齐方法和系统，其目的在于，在通过使用密集的特征点估计实现大姿态人脸对齐的同时，保证高的训练和收敛速度，从而解决现有大姿态人脸对齐方法所存在的不能同时兼顾特征点的密集程度和训练阶段收敛速度的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于3D模型的大姿态人脸对齐方法，包括以下步骤：

(1)建立基于PCA的3DMM模型，其通过以下等式(1)表示：

S_id表示基于3D面部扫描仪采集的三维面部的形状分量，p_id表示形状参数，S_exp表示基于3D面部扫描仪采集的三维面部的表情分量，p_exp表示表情参数，N表示3D面部扫描仪采集的三维面部特征点的数量；

(2)构建由3D面部扫描仪采集的N个二维面部特征点所组成的向量集合U：

其中u和v分别代表不同二维面部特征点的横坐标和纵坐标；

(3)构建步骤(1)得到的3DMM模型与步骤(2)构建的向量集合U之间的关系式：

其中Pr为矩阵，且有[m₁，m₂，…，m₈]为相机投影矩阵，m₉、m₁₀、m₁₁为根据m₁，m₂，…，m₈求得的数，且[m₉，m₁₀，m₁₁]＝[m₁，m₂，m₃]×[m₄，m₅，m₆]，m₁₂等于0。

(4)构建改进CNN网络模型，其是在现有CNN网络模型中每一个可视化块中增加一个可视化层实现，用于将其所在可视化块的特征提取出来，并将其传递给下一个可视化块；

(5)基于现有的公开人脸数据集(诸如300W、AFW等)获取训练样本，使用该训练样本训练步骤(4)中构建的改进CNN网络模型，以获得对应的m₁，m₂，…，m₈、p_id、p_exp；

(6)获取二维人脸图片，并将该二维人脸图片输入步骤(5)中训练的改进CNN网络模型中，以得到对应的人脸对齐结果。

优选地，步骤(1)中使用199个形状分量i＝{1，2，…，199}来表示身份特征，使用29个表情分量j＝{1，2，…，29}来表示表情特征，平均形状和身份分量S_id是由BFM模型得到，表情分量S_exp是由三维人脸表情数据库得到。

优选地，可视化层用于对任意角度的人脸图像进行可视化，具体需要对人脸图像每个三维顶点的可见性进行估计，即，首先剔除与相机垂直的一些顶点，如果多个顶点的像素相同，则只保留最小深度值的点。

优选地，CNN网络模型中包括6个可视化块。

优选地，公开人脸数据集包括300W、AFW、以及AFLW数据集。

优选地，步骤(6)具体是利用步骤(2)和步骤(3)中所反映的二维面部特征点与三维面部特征点之间的关系式，获取最终的人脸对齐结果。

按照本发明的另一方面，提供了一种基于3D模型的大姿态人脸对齐系统，包括：

第一模块，用于建立基于PCA的3DMM模型，其通过以下等式(1)表示：

第二模块，用于构建由3D面部扫描仪采集的N个二维面部特征点所组成的向量集合U：

其中u和v分别代表不同二维面部特征点的横坐标和纵坐标；

第三模块，用于构建第一模块得到的3DMM模型与第二模块构建的向量集合U之间的关系式：

第四模块，用于构建改进CNN网络模型，其是在现有CNN网络模型中每一个可视化块中增加一个可视化层实现，用于将其所在可视化块的特征提取出来，并将其传递给下一个可视化块；

第五模块，用于基于现有的公开人脸数据集(诸如300W、AFW等)获取训练样本，使用该训练样本训练第五模块构建的改进CNN网络模型，以获得对应的m₁，m₂，…，m₈、p_id、p_exp；

第六模块，用于获取二维人脸图片，并将该二维人脸图片输入第五模块训练的改进CNN网络模型中，以得到对应的人脸对齐结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明使用密集的3DMM重建三维形状人脸，并用投影矩阵表示二维脸型，实现了密集的特征点估计，并进而保证了良好的人脸对齐效果。

2、本发明基于深度学习网络的特性，通过使用CNN训练一个模型，避免了手动特征提取。

3、本发明通过在CNN网络模型中引入一个新层，即由几个可视化块组成的CNN架构(这种架构可被看作是浅CNNs级联)，新层可视化了前面一个可视化块的对齐结果，并将其应用于后面的可视化块中，因此，其允许端到端训练，并进而在训练阶段，与传统的CNNs级联相比，能够实现更快地收敛。

附图说明

图1是本发明构建的改进CNN网络模型的架构图。

图2是本发明构建的可视化层用于对任意角度的人脸图像进行可视化时，对人脸图像每个三维顶点进行可见性估计的示意图。

图3是本发明基于3D模型的大姿态人脸对齐方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图3所示，本发明基于3D模型的大姿态人脸对齐方法包括以下步骤：

(1)建立基于主成分分析(Primary component analysis，简称PCA)的3D形变(3DMorphable Model，简称3DMM)模型，其通过以下等式(1)表示：

S_id表示基于3D面部扫描仪采集的三维面部的形状分量，p_id表示形状参数，S_exp表示基于3D面部扫描仪采集的三维面部的表情分量，p_exp表示表情参数，N表示3D面部扫描仪采集的三维面部特征点的数量。

在本发明中，使用199个形状分量i＝{1，2，…，199}来表示身份特征，如高/矮、轻/重、男/女等；使用29个表情分量j＝{1，2，…，29}来表示表情特征，如张口、微笑、亲吻等，平均形状和身份分量S_id是由Basel面部模型(Basel face model，简称BFM)得到，表情分量S_exp是由三维人脸表情数据库(FaceWarehouse)得到。

其中u和v分别代表二维面部特征点的横坐标和纵坐标；

其中Pr为矩阵，且有[m₁，m₂，…，m₈]为相机投影矩阵(Cameraprojection matrix)，m₉、m₁₀、m₁₁为根据m₁，m₂，…，m₈求得的数，且[m₉，m₁₀，m₁₁]＝[m₁，m₂，m₃]×[m₄，m₅，m₆]，m₁₂等于0。

(4)构建改进CNN网络模型，其是在现有CNN网络模型中每一个可视化块(Visualization block)中增加一个可视化层(Visualization layer)实现(如图1所示)，用于将其所在可视化块的特征提取出来，并将其传递给下一个可视化块；

可视化层用于对任意角度的人脸图像进行可视化，具体需要对人脸图像每个三维顶点的可见性进行估计。为了避免通过代价昂贵的可见性测试，这里采用了两种近似方法：首先，剔除了与相机垂直的一些顶点，其次，如果多个顶点的像素相同，我们只保留最小深度值的点。如图2所示，有四个顶点投影到一个相同的像素，其中两个在它们的法线(箭头)的z分量中有负值，在另外两个值为正值的情况下，选择更小的深度(更接近于图像平面)。

在本发明中，CNN网络模型中包括有6个可视化块。

具体而言，由于步骤(5)中已经得到了m₁，m₂，…，m₈、p_id、p_exp，本步骤就是利用步骤(2)和步骤(3)中所反映的二维面部特征点与三维面部特征点之间的关系式，获取最终的人脸对齐结果。

实验结果

以下将对两个具有挑战性的LPFA数据集，即AFLW和AFW进行定性和定量的评估，同时对正面人脸数据集300W进行测试。

1)实验准备

300W:300W将多个数据库(包括AFW、LFPW、HELEN、IBUG)与标准的68个特征点标签进行组合。300W是最常用的用于评价近-前方脸部对齐(Near-frontal face alignmen)的数据库，其包含3417张训练图像和689张测试图像，它们被分别分成普通数据集(554张图像)和挑战数据集(135张图像)。

AFW:AFW数据集包含468个人脸的205张图像，使用最多6个具有可视标签的特征点和边界框来标注每张图像。

AFLW:AFLW数据库是具有25K个大姿态人脸图像的数据集，其包括21080个大姿态变化的野外人脸(倾斜角-90°到90°)。AFLW数据集特别适用于评价大姿态的人脸对齐性能。本发明中使用的是包括3901张训练图像和1299张测试图像构成的子集。使用34个特征点和边界框来标注该子集中的所有人脸图像。

实现细节：实现是建立在Caffe框架上的。在所有的实验中，我们使用6个可视化块(Nv)与两个卷积层(Nc)和完全连接层(图1中仅仅出于示意的目的示出了两个可视化块)。在训练阶段，将权重衰减设置为0.005，动量因子设置为0.97，初始学习速率设置为1e-6。总的来说，所有实验的训练阶段持续33个周期。

评价策略：对于定量评价，我们使用两个传统指标。第一个是平均像素误差(Meanaverage pixel error，简称MAPE)，这是特征点的像素误差的平均值，另一个是标准化平均误差(Normalized mean error，简称NME)，即特征点的标准化估计误差的平均值。

2)数据集评估

对AFLW数据集的评估:将本发明与几种最先进的大姿态人脸对齐方法进行了比较。在AFLW上，我们将本发明和LPFA、姿态不变变人脸对齐(Pose invariant facealignment，简称PIFA)以及鲁棒性级联姿态回归(Robust cascaded pose regression，简称RCPR)的NME指标进行比较。下表1表明，本发明提出的方法比其他方法达到更高的精度。

表1

本发明	LPFA	PIFA	RCPR
				4.67	4.72	8.04	6.26

对AFW数据集的评价:在AFW数据集上，将LPFA、PIFA、级联可变形模型(Cascadeddeformable shape model，简称CDM)、以及树形结构部分模型(Tree structured partmodel total suspended particulate matter，简称TSPM)在MAPE度量方面进行比较。下表2的结果再次显示了本发明方法的优越性。

表2

本发明方法	LPFA	PIFA	CDM	TSPM
					6.77	7.43	8.61	9.13	11.09

对300W数据集的评价:虽然本发明的主要目标是LPFA，但也评估了最广泛使用的300W数据集。在300W数据集上不同方法得到的NWE如下表3所示，可看出与本发明最相近的方法是3D密集人脸对齐(3D Dense Face Alignment，简称3DDFA)，它也估计m和p，本发明的方法在一般的和具有挑战性的数据集上效果都优于它。

表3

方法	普通数据集	挑战数据集	整个数据集
				RCPR	6.18	17.26	8.35
SDM	5.57	15.4	7.50
				LBF	4.95	11.98	6.32
CFSS	4.73	9.98	5.76
				RCFA[36]	4.03	9.85	5.32
RAR[37]	4.12	8.35	4.94
				3DDFA[8]	6.15	10.59	7.01
3DDFA+SDM	5.53	9.56	6.31
				本发明方法	5.44	9.47	6.30

3)网络结构的优点

时间复杂度：与CNNs的级联相比，本发明提出的端到端训练的主要优势之一是缩短训练时间。该方法需要33个周期，大约需要2.5天。同样的训练和测试数据集，[9]需要每个CNN的70个时代。总共6个CNNs，需要7天左右。同样，[8]的方法需要12天左右的时间来训练3个CNNs，每一个都有20个epochs，尽管使用了不同的训练数据。与[9]相比，本发明方法减少了一半以上的训练时间。

可视化层的影响：为了分析可视化层的影响，我们给每一个可视化块的全连接层参数中添加5％噪声，并计算AFLW数据集上的误差。NMEs为(4.46，4.53，4.60，4.46，4.53，5.16)，这一分析表明，可视化图像对后块的影响较大，因为早期块的不精确参数可以在以后的块中得到补偿。在另一个实验中，我们在没有可视化层的情况下训练网络。AFLW的最后一个NME为7.18％，显示了可视化层在训练神经网络方面的重要性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于3D模型的大姿态人脸对齐方法，其特征在于，包括以下步骤：

(1)建立基于PCA的3DMM模型，其通过以下等式(1)表示：

<mrow> <mi>S</mi> <mo>=</mo> <mover> <mi>S</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msubsup> <mi>p</mi> <mrow> <mi>i</mi> <mi>d</mi> </mrow> <mi>i</mi> </msubsup> <msubsup> <mi>S</mi> <mrow> <mi>i</mi> <mi>d</mi> </mrow> <mi>i</mi> </msubsup> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msubsup> <mi>p</mi> <mi>exp</mi> <mi>j</mi> </msubsup> <msubsup> <mi>S</mi> <mi>exp</mi> <mi>j</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中u和v分别代表不同二维面部特征点的横坐标和纵坐标；

2.根据权利要求1所述的大姿态人脸对齐方法，其特征在于，步骤(1)中使用199个形状分量i＝{1，2，…，199}来表示身份特征，使用29个表情分量j＝{1，2，…，29}来表示表情特征，平均形状和身份分量S_id是由BFM模型得到，表情分量S_exp是由三维人脸表情数据库得到。

3.根据权利要求1所述的大姿态人脸对齐方法，其特征在于，可视化层用于对任意角度的人脸图像进行可视化，具体需要对人脸图像每个三维顶点的可见性进行估计，即，首先剔除与相机垂直的一些顶点，如果多个顶点的像素相同，则只保留最小深度值的点。

4.根据权利要求1所述的大姿态人脸对齐方法，其特征在于，CNN网络模型中包括6个可视化块。

5.根据权利要求1所述的大姿态人脸对齐方法，其特征在于，公开人脸数据集包括300W、AFW、以及AFLW数据集。

6.根据权利要求1所述的大姿态人脸对齐方法，其特征在于，步骤(6)具体是利用步骤(2)和步骤(3)中所反映的二维面部特征点与三维面部特征点之间的关系式，获取最终的人脸对齐结果。

7.一种基于3D模型的大姿态人脸对齐系统，其特征在于，包括：

其中u和v分别代表不同二维面部特征点的横坐标和纵坐标；