CN110175529A

CN110175529A - 一种基于降噪自编码网络的三维人脸特征点定位方法

Info

Publication number: CN110175529A
Application number: CN201910358243.5A
Authority: CN
Inventors: 盖绍彦; 汪亮; 达飞鹏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-27
Anticipated expiration: 2039-04-30
Also published as: CN110175529B

Abstract

本发明公开了一种基于降噪自编码网络的三维人脸特征点定位方法。该方法的实现步骤为：从杂乱的人脸点云中提取鼻尖点坐标。通过鼻尖点的位置对人脸区域提取并进行预处理。训练一个人脸模型，并且对该模型对人脸进行手动区域分割，依据该分割人脸和刚性匹配算法，将待检测人脸分成多个区域。对每个区域进行遮挡检测，并将遮挡程度转变为系数表示。对分割的每个遮挡区域训练一个降噪自编码器，每个降噪自编码器输出一个特征点定位结果。通过遮挡系数对多个特征点定位结果进行融合得到最终结果，完成整个定点算法。

Description

一种基于降噪自编码网络的三维人脸特征点定位方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于降噪自编码网络的三维人脸特征点定位方法。

背景技术

在人脸验证，人脸识别，人脸表情识别等研究领域，需要准确的人脸特征点坐标以便更方便的提取特征。如何准确并自动定位人脸特征点得到了越来越多学者的关注和研究。由于受光照影响，基于二维图片的特征点定位在复杂情况下仍然存在着较大误差。因此，在三维点云上进行人脸特征点定位被广泛研究和应用。三维点云描述了人脸表面丰富的信息，包括曲率变化和深度变化等。然而，在实际情况下设备采集得到的人脸表面往往存在着遮挡物，例如散乱的头发，眼镜，口罩等，这些遮挡物能够使得人脸曲面发生不规则形变，而人脸特征点的位置处于容易被遮挡的区域，如眼睛区域和嘴巴区域。如何在人脸点云部分被遮挡的情况下准确定位特征点成为了亟待解决的问题。

发明内容

发明目的：针对现实情况下，三维人脸数据常常带有的局部遮挡的情况，本发明提供一种基于降噪自编码网络的三维人脸特征点定位方法。通过使用降噪自编码器并对人脸进行分区域定位，可以解决遮挡下的三维人脸特征点定位问题。

技术方案：本发明所述一种基于视角变换与多视角特征的大视角图像匹配方法为了实现上述目的，本方案的实现步骤为：

一种基于降噪自编码网络的三维人脸特征点定位方法，具体包括以下步骤：

步骤1：从人脸点云中定位鼻尖坐标，进行人脸切割并提取感兴趣区域；

步骤2：对人脸进行去噪处理，去除点云表面的噪点；

步骤3：训练一个人脸模型，并且对该模型对人脸进行手动区域分割，依据该分割人脸和刚性匹配算法，将待检测人脸分成多个区域；

步骤4：对每个区域进行遮挡检测，并将遮挡程度转变为系数表示；

步骤5：对分割的每个遮挡区域训练一个降噪自编码器，每个降噪自编码器输出一个特征点定位结果；

步骤6：通过遮挡系数对多个特征点定位结果进行融合得到最终结果，完成整个定点算法。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，所述步骤1中，从人脸点云中定位鼻尖坐标，进行人脸切割并提取感兴趣区域的步骤如下：

步骤1.1：计算每个顶点的散度，对于一个包含N个顶点的三维曲面，准化后的矢量场的定义如下：

式中和代表有关于x，y，z的数量函数，i，j，k则代表x轴，y轴，z轴的单位矢量，考虑一个半径为r，球心为pz的一个微型球面，在球面坐标系下该矢量场的散度计算公式如下：

式中n为pz的法向量，表示该点的散度；

步骤1.2：依据步骤1.1计算所有顶点的散度值，并选取拥有最大散度值的顶点为鼻尖点；

步骤1.3：鼻尖点处于人脸最中心的突出位置，以鼻尖为中心，90mm为半径来切割整个人脸点云，可剔除除去人脸之外的无关区域。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，步骤2中，对人脸进行去噪处理，去除点云表面的噪点的方法如下：

步骤2.1：在经过人脸切割后，人脸表面还存在部分离群的噪点，这些离群点会导致人脸表面出现局部尖锐区域，因此需要去除离群点，定义离周围邻域点的距离大于一定的阈值dt为离群点，邻域点的数量为8，阈值的计算方法如下：

d_t＝μ+0.6σ

式中μ代表整个人脸点云邻域顶点间的平均距离，σ代表标准差，在经过去除离群点后，对点云进行归一化重采样，采样距离为1mm。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，所述步骤3中，训练人脸模型并对待测人脸进行分割的步骤如下：

步骤3.1：选取500个不同的人脸点云并进行点云降采样，采样距离为1mm，从采样后的点云选择一个样本作为基准，将其他人脸通过ICP算法对齐到基准人脸，得到平均人脸模型；

步骤3.2：使用ICP算法将人脸表面对齐到AvFM上，AvFM的使用可以使得所有的库集人脸具有一对一的对应关系，假设人脸表示为O＝{p₁,...,p_r}，p_r表示人脸点云中的顶点，AvFM表示为M_v＝{m₁,...m_t}，m_t表示AvFM中的顶点；基于AvFM的对齐算法目的在于找到一个刚性变换T包括三个方向的旋转和平移：

Τ(p_i)＝R_xR_yR_zp_i+t

式中R_x，R_y和R_z分别代表以x轴，y轴，z轴为轴心的旋转矩阵，t为平移矩阵；变换后的对齐误差可由下式得到：

式中AvFM中的顶点mj对应于测试人脸顶点pi；对齐过程的优化目标函数为：

作为一种全局性的对齐算法，使用ICP算法求得最优变换矩阵；对平均人脸模型AvFM进行手动切割来构建平均区域模型AvRM；在测试人脸和AvFM粗略对齐后，两者之间的顶点数量和顺序已经保持一致；

步骤3.3：假设第一步粗对齐后的人脸表示为AvRM表示为考虑对各个区域分开做ICP对齐，对于第k个区域，变换矩阵如下：

优化目标函数表示如下：

完成第二步对齐后，可以将任意测试人脸进行5个区域的分割。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，所述步骤4中，对每个区域进行遮挡检测，并将遮挡程度转变为系数表示的方法如下：

步骤4.1：接下来分析平均区域模型AvRM与对齐后的测试人脸区域的差异；通过计算待测人脸和平均区域模型z轴差值来描述遮挡程度：

式中和分别表示第k个区域待测人脸和AvRM的平均z轴差值，tk表示第k个区域的顶点数量。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，所述步骤5中，对分割的每个遮挡区域训练一个降噪自编码器并输出特征点定位结果的方法如下：

步骤5.1：对人脸点云每个顶点计算形状指数，公式如下：

式中λ₁，λ₂为主曲率；

投影得到的形状指数特征图是一个二维灰度图，灰度值和形状指数值一一对应，记为SI；因此，SI可作为下一步降噪自编码器的输入；

步骤5.2：假设自编码器的输入为x∈[0，1]^d，首先需要一个映射函数将该输入映射一个隐藏层y∈[0，1]^d′；映射函数的表达式为：

式中映射参数标记为s(.)为非线性激活函数例如sigmod或者tanh函数；W是一个d×d′维的权重矩阵，b是一个偏置向量；接着隐藏层y被映射到一个重构层z∈[0，1]^d，映射函数的表达式为：

z＝g_θ′(y)＝s(W′y+b′)

式中映射参数标记为θ′＝{W′,b′}；每个训练数据x⁽ⁱ⁾会被映射到一个对应的编码向量y⁽ⁱ⁾和一个重构向量z⁽ⁱ⁾；表示对原始数据x的一次随机映射得到被损坏的数据映射方法有多种，如随机将一些输入节点的值置为0，或者添加一些噪声；整个模型的参数确定由最小化平均重构误差得到：

式中LH(.)是一个损失函数，使用较多的平方损失误差函数：

L_H(x,z)＝||x-z||²

在完成降噪自编码器的训练后，舍弃重构层并在编码后连接一个分类器或者回归层，便可完成有监督训练；

步骤5.3：对于给定的一个人脸点云O，形状指数特征图为SI，形状代表其三维人脸特征点坐标集合，其特征点的数量为N，定义的表达形式如下：

接下来，降噪自编码器的训练步骤如下：

1)假设有个训练样本，Ωi代表第i个无遮挡的人脸，则代表第i个对应区域带有遮挡的人脸，表示人脸对应的形状，编码与解码参数训练的损失函数如下：

式中S_I(Ω_i)代表人脸Ω_i的形状指数特征图，h(.)代表编码层映射函数，g(.)代表解码层映射函数；

2)自编码器的参数训练完成后，在中间层后连接一层线性回归层完成有监督训练；利用压缩后的中间特征进行线性回归预测特征点形状；线性回归的参数训练过程依赖于最小化如下损失函数：

式中l(.)表示线性回归映射函数，其表达形式为：

l(x)＝W″x+b″

根据训练数据遮挡区域的不同，分成人脸左眼区域LE，右眼区域RE，鼻梁区域N，嘴部区域M四个不同的训练集训练，得到4个对应的降噪自编码器，用(f_RE，f_LE，f_M，f_N)四个映射函数表示；f_RE代表RE区域的映射函数，f_LE代表LE区域的映射函数，f_M代表M区域的映射函数，f_N代表N区域的映射函数。

作为本发明基于降噪自编码网络的三维人脸特征点定位方法的进一步优选方案，所述步骤6中，通过遮挡系数对多个特征点定位结果进行融合得到最终结果如下：

步骤6.1：为了预测特征点的位置，需要学习一个映射函数实现SI到特征点坐标的映射：

其中F(.)代表整个降噪自编码器网络，←表示从右到左的映射关系；具体来说，由于网络是由四个自编码器的并行处理，上式可转换成：

其中(f_RE，f_LE，f_M，f_N)表示四个映射函数，(ω_RE,ω_LE,ω_M,ω_N)四个参数代表各个区域的遮挡权重参数，由步骤4.1得到；可得到最终特征点的输出结果。

有益效果：本发明提供的一种基于降噪自编码网络的三维人脸特征点定位方法，相比现有技术，具有以下有益效果：

对人脸进行分块处理，每个块区域分别训练一个降噪自编码器，降噪自编码器能够从被损坏数据中提取未损坏数据的特征，根据多个区域的降噪自编码器的并行预测可以极大提高对于遮挡情况的人脸特征点定位准确度。

附图说明

图1为本发明完整方法流程；

图2为本发明人脸感兴趣区域提取和人脸切割示意图；

图3为本发明人脸点云噪点去除示意图；

图4为本发明人脸区域分割和遮挡程度检测，嘴巴区域显示遮挡严重，其它区域显示基本无遮挡；

图5为本发明降噪自编码器的训练过程图；

图6为本发明人脸特征点模型示意图；

图7为本发明训练数据的扩充示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

下面参照附图，对本发明具体实施方案做更为详细的描述。编程实现工具选用MATLAB R2015b和VS2015对Bosphorus库和FRGC v2.0库中人脸点云分别进行实验。

本发明的具体实施步骤如下：

步骤1：从人脸点云中定位鼻尖坐标，进行人脸切割并提取感兴趣区域。

步骤1.1：首先需要计算每个顶点的散度。对于一个包含N个顶点的三维曲面,用p_z表示曲面上的顶点，z＝1,…N(N代表三维曲面的中的顶点数量)，标准化后的矢量场的定义如下：

式中和代表有关于x，y，z的数量函数。i，j，k则代表x轴，y轴，z轴的单位矢量。接着，考虑一个半径为r，球心为p_z的一个微型球面。在球面坐标系下该矢量场的散度计算公式如下：

式中n为p_z的法向量，表示该点的散度。

步骤1.2：依据步骤1.1计算所有顶点的散度值，并选取拥有最大散度值的顶点为鼻尖点。

步骤1.3：鼻尖点处于人脸最中心的突出位置，以鼻尖为中心，90mm为半径来切割整个人脸点云，可以剔除除去人脸之外的无关区域。如图2所示。

步骤2：对人脸进行去噪处理，去除点云表面的噪点。

步骤2.1：在经过人脸切割后，人脸表面还存在部分离群的噪点，这些离群点会导致人脸表面出现局部尖锐区域，因此需要去除离群点。如图3所示。定义离周围邻域点的距离大于一定的阈值d_t为离群点，邻域点的数量为8。阈值的计算方法如下：

d_t＝μ+0.6σ

式中μ代表整个人脸点云邻域顶点间的平均距离，σ代表标准差。在经过去除离群点后，对点云进行归一化重采样，采样距离为1mm。

步骤3：训练人脸模型并对待测人脸进行分割。

步骤3.1：首先，选取500个不同的人脸点云并进行点云降采样，采样距离为1mm，从采样后的点云选择一个样本作为基准，将其他人脸通过ICP算法对齐到基准人脸，最后得到平均人脸模型(Average Facial Model，AvFM)。

步骤3.2：首先使用ICP算法将人脸表面对齐到AvFM上，AvFM的使用可以使得所有的库集人脸具有一对一的对应关系。假设人脸表示为O＝{p₁,...,p_r}，p_r表示人脸点云中的顶点。AvFM表示为M_v＝{m₁,...m_t}，m_t表示AvFM中的顶点。基于AvFM的对齐算法目的在于找到一个刚性变换T包括三个方向的旋转和平移：

Τ(p_i)＝R_xR_yR_zp_i+t

式中R_x，R_y和R_z分别代表以x轴，y轴，z轴为轴心的旋转矩阵，t为平移矩阵。变换后的对齐误差可由下式得到：

式中AvFM中的顶点m_j对应于测试人脸顶点p_i。对齐过程的优化目标函数为：

作为一种全局性的对齐算法，本章使用ICP算法求得最优变换矩阵。接下来，对平均人脸模型AvFM进行手动切割来构建平均区域模型AvRM。在测试人脸和AvFM粗略对齐后，两者之间的顶点数量和顺序已经保持一致。

优化目标函数表示如下：

完成第二步对齐后，可以将任意测试人脸进行5个区域的分割。如图4所示。

步骤4：对每个区域进行遮挡检测，并将遮挡程度转变为系数表示。

步骤4.1：接下来分析平均区域模型AvRM与对齐后的测试人脸区域的差异。因此，通过计算待测人脸和平均区域模型z轴差值来描述遮挡程度：

式中和分别表示第k个区域待测人脸和AvRM的平均z轴差值，t_k表示第k个区域的顶点数量。

步骤5：对分割的每个遮挡区域训练一个降噪自编码器并输出特征点定位结果。

步骤5.1：对人脸点云每个顶点计算形状指数，公式如下：

式中λ₁，λ₂为主曲率

投影得到的形状指数特征图是一个二维灰度图，灰度值和形状指数值一一对应，记为S_I。因此，S_I可作为下一步降噪自编码器的输入。

步骤5.2：假设自编码器的输入为x∈[0，1]^d，首先需要一个映射函数将该输入映射一个隐藏层y∈[0，1]^d′。映射函数的表达式为：

式中映射参数标记为s(.)为非线性激活函数例如sigmod或者tanh函数。W是一个d×d′维的权重矩阵，b是一个偏置向量。接着隐藏层y被映射到一个重构层z∈[0，1]^d，映射函数的表达式为：

z＝g_θ′(y)＝s(W′y+b′)

式中映射参数标记为θ′＝{W′,b′}。每个训练数据x⁽ⁱ⁾会被映射到一个对应的编码向量y⁽ⁱ⁾和一个重构向量z⁽ⁱ⁾。表示对原始数据x的一次随机映射得到被损坏的数据映射方法有多种，如随机将一些输入节点的值置为0，或者添加一些噪声。整个模型的参数确定由最小化平均重构误差得到：

式中L_H(.)是一个损失函数，例如使用较多的平方损失误差函数：

L_H(x,z)＝||x-z||²

在完成降噪自编码器的训练后，舍弃重构层并在编码后连接一个分类器或者回归层，便可完成有监督训练。最后一层的参数可由随机初始化确定。本章算法所输出的为人脸特征点的坐标，因此所接层为线性回归层。最后根据梯度下降的算法最小化线性回归层的损失函数，可以对整个网络参数进行微调进而完成整个网络的训练

步骤5.3：对于给定的一个人脸点云O，形状指数特征图为S_I，形状代表其三维人脸特征点坐标集合，其特征点的数量为N，定义的表达形式如下：

接下来，降噪自编码器的训练步骤如下：

1)假设有个训练样本，Ω_i代表第i个无遮挡的人脸，则代表第i个对应区域带有遮挡的人脸，表示人脸对应的形状。编码与解码参数训练的损失函数如下：

式中S_I(Ω_i)代表人脸Ω_i的形状指数特征图，h(.)代表编码层映射函数，g(.)代表解码层映射函数。

2)自编码器的参数训练完成后，在中间层后连接一层线性回归层完成有监督训练。利用压缩后的中间特征进行线性回归预测特征点形状。线性回归的参数训练过程依赖于最小化如下损失函数：

式中l(.)表示线性回归映射函数，其表达形式为：

l(x)＝W″x+b″

图5展示了一个降噪自编码器的整个训练过程。根据训练数据遮挡区域的不同，分成人脸左眼区域LE，右眼区域RE，鼻梁区域N，嘴部区域M四个不同的训练集训练，得到4个对应的降噪自编码器,用(f_RE，f_LE，f_M，f_N)四个映射函数表示。f_RE代表RE区域的映射函数，f_LE代表LE区域的映射函数，f_M代表M区域的映射函数，f_N代表N区域的映射函数。

FRGCv2.0和Bosphorus数据库中的人脸包含了22个特征点模型，如图6所示。但训练数据只有4000个左右，对于训练网络模型会导致过拟合的问题。为了克服过拟合和提升网络性能，增加训练数据很有必要。如图7所示，对数据库中人脸做一些角度随机的旋转和镜像变换，得到面部不同朝向的人脸。首先，对人脸在水平方向做角度间隔为15°的旋转，角度范围为(-45°,45°)，然后在垂直方向做15°的旋转，角度范围为(-30°,30°)，最后对每张人脸做一次水平方向的镜像变换。同时，手工标记的特征点坐标也做对应变换。在完成数据集扩充后，训练样本的总数达到了80000左右。

步骤6：通过遮挡系数对多个特征点定位结果进行融合得到最终结果。

步骤6.1：根据遮挡系数和4个降噪自编码器的输出，可以得到最终特征点的结果，计算方式如下：

其中←表示从右到左的映射关系。其中(f_RE，f_LE，f_M，f_N)为四个映射函数，(ω_RE,ω_LE,ω_M,ω_N)四个参数代表各个区域的遮挡权重参数，由步骤4.1得到。根据上式可得到最终特征点的输出结果。

Claims

1.一种基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，具体包括以下步骤：

步骤2：对人脸进行去噪处理，去除点云表面的噪点；

2.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，所述步骤1中，从人脸点云中定位鼻尖坐标，进行人脸切割并提取感兴趣区域的步骤如下：

式中和代表有关于x，y，z的数量函数，i，j，k则代表x轴，y轴，z轴的单位矢量，考虑一个半径为r，球心为p_z的一个微型球面，在球面坐标系下该矢量场的散度计算公式如下：

式中n为p_z的法向量，表示该点的散度；

3.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，步骤2中，对人脸进行去噪处理，去除点云表面的噪点的方法如下：

步骤2.1：在经过人脸切割后，人脸表面还存在部分离群的噪点，这些离群点会导致人脸表面出现局部尖锐区域，因此需要去除离群点，定义离周围邻域点的距离大于一定的阈值d_t为离群点，邻域点的数量为8，阈值的计算方法如下：

d_t＝μ+0.6σ

4.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，所述步骤3中，训练人脸模型并对待测人脸进行分割的步骤如下：

Τ(p_i)＝R_xR_yR_zp_i+t

式中AvFM中的顶点m_j对应于测试人脸顶点p_i；对齐过程的优化目标函数为：

优化目标函数表示如下：

5.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，所述步骤4中，对每个区域进行遮挡检测，并将遮挡程度转变为系数表示的方法如下：

6.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，所述步骤5中，对分割的每个遮挡区域训练一个降噪自编码器并输出特征点定位结果的方法如下：

步骤5.1：对人脸点云每个顶点计算形状指数，公式如下：

式中λ₁，λ₂为主曲率；

投影得到的形状指数特征图是一个二维灰度图，灰度值和形状指数值一一对应，记为S_I；因此，S_I可作为下一步降噪自编码器的输入；

z＝g_θ′(y)＝s(W′y+b′)

式中L_H(.)是一个损失函数，使用较多的平方损失误差函数：

L_H(x,z)＝||x-z||²

接下来，降噪自编码器的训练步骤如下：

1)假设有个训练样本，Ω_i代表第i个无遮挡的人脸，则代表第i个对应区域带有遮挡的人脸，表示人脸对应的形状，编码与解码参数训练的损失函数如下：

式中l(.)表示线性回归映射函数，其表达形式为：

l(x)＝W″x+b″

7.据权利要求1所述的基于降噪自编码网络的三维人脸特征点定位方法，其特征在于，所述步骤6中，通过遮挡系数对多个特征点定位结果进行融合得到最终结果如下：