CN109299643B

CN109299643B - 一种基于大姿态对准的人脸识别方法及系统

Info

Publication number: CN109299643B
Application number: CN201810785065.XA
Authority: CN
Inventors: 杨欧
Original assignee: Shenzhen Polytechnic
Current assignee: Shenzhen Polytechnic
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-04-14
Anticipated expiration: 2038-07-17
Also published as: CN109299643A

Abstract

本发明公开了一种基于大姿态对准的人脸识别方法及系统。所述方法包括：(1)获取待识别的单张人脸图像；(2)将单张人脸图像与人脸三维模型进行大姿态对准；(3)三维人脸重建模型进行重建，获得人脸3DMM参数；(4)计算余弦相似性判断待识别的人脸与目标人脸是否匹配。所述系统包括：人脸图像获取模块、大姿态对齐模块、三维人脸重建模块、和识别模块。本发明实现了基于不同姿态的单张人脸照片的人脸识别技术，大大扩展了人脸识别技术的应用范围，例如监控摄像头视频源的人脸识别。

Description

一种基于大姿态对准的人脸识别方法及系统

技术领域

本发明属于人脸识别领域，更具体地，涉及一种基于大姿态对准的人脸识别方法及系统。

背景技术

人脸识别技术是一项热门的计算机技术，属于生物特征识别，是对人的面部特征进行个体识别的技术。在安全管理、电子身份证、逃犯追捕、自助服务、信息安全领域都有着广阔的应用前景。

然而目前的人脸识别技术，都是基于特定的姿态的，例如免冠正面照，否则比对的时候，由于姿态不同，因此难以提取到识别算法要求的相应特征，导致识别困难。但是这种对姿态的要求，限制了人脸识别技术的应用领域，例如追捕逃犯的应用中，只能在特定场合进行筛查，而不能通过监控摄像头进行筛查，造成信息浪费。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于大姿态对准的人脸识别方法及系统，其目的在于，通过一张人脸照片，进行大姿态对准后，三维建模提取人脸特征进行识别，降低图片采集要求，扩大人脸识别技术的应用范围，由此解决现有的人脸识别技术，对图像采集时人脸姿态要求严格，造成信息浪费的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于大姿态对准的人脸识别方法，包括以下步骤：

(1)获取待识别的单张人脸图像；

(2)将步骤(1)中获得的单张人脸图像与人脸三维模型进行大姿态对准，获得人脸姿态坐标及人脸特征点位置；

(3)根据步骤(1)获得的待识别的单张人脸图像和步骤(2)获得的人脸姿态坐标输入三维人脸重建模型进行重建，获得重建的三维人脸，并根据步骤(2)获得的特征点位置获得待识别的人脸3DMM参数；

(4)将步骤(3)获得的待识别的人脸3DMM参数与目标人脸3DMM参数进行比对，计算待识别的人脸3DMM参数与目标人脸3DMM参数的余弦相似性，判断待识别的人脸与目标人脸是否匹配：当所述余弦相似性超过预设的相似性阈值时，判断待识别的人脸与目标人脸匹配；否则判断为不匹配。

优选地，所述基于大姿态对准的人脸识别方法，其步骤(2)采用基于回归的方法进行对准，优选LPFA、PIFA、CDM、TSPM、或基于卷积神经网络的大姿态人脸对齐方法。

优选地，所述基于大姿态对准的人脸识别方法，其步骤(2)采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

所述可视化块包括一个可视化层、多个卷积层、以及多个全连接层；

所述可视化层输入为当前姿态参数，经投影处理后输出2D人脸图像；所述2D人脸图像与输入人脸图像一同输入串联的多个卷积层，输出深层人脸图像作为级联的下一可视化块的输入人脸图像；将深层人脸图像和当前参数通过输入多个串联的全连接层，输出更新的姿态参数作为下一可视化块的当前姿态参数。

优选地，所述基于大姿态对准的人脸识别方法，其步骤(3)采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型，优选采用LeNet、AlexNet、VGG、ResNet、或ResNet-101模型。

优选地，所述基于大姿态对准的人脸识别方法，其步骤(4)所述余弦相似性按照如下方法计算：

其中，y_o1为待识别的人脸3DMM参数，y_o2为目标人脸3DMM参数，D为关于y_o1和y_o2的余弦相似性。

按照本发明的另一个方面，提供了一种基于大姿态对准的人脸识别系统，包括：

人脸图像获取模块，用于获取待识别的单张人脸图像；

大姿态对齐模块，用于将人脸图像获取模块获取的单张人脸图像与人脸三维模型进行大姿态对准，获得人脸姿态坐标及人脸特征点位置；

三维人脸重建模块，用于根据所述人脸图像获取模块获取的单张人脸图像和大姿态对准模块获取的人脸姿态坐标输入三维人脸重建模型进行重建，获得重建的三维人脸，并根所述大姿态对准模块获取的特征点位置获得待识别的人脸3DMM参数；

识别模块，用于根据三维人脸重建模块获取的待识别的人脸3DMM参数与目标人脸3DMM参数进行比对，计算待识别的人脸3DMM参数与目标人脸3DMM参数的余弦相似性，判断待识别的人脸与目标人脸是否匹配：当所述余弦相似性超过预设的相似性阈值时，判断待识别的人脸与目标人脸匹配；否则判断为不匹配。

优选地，所述基于大姿态对准的人脸识别系统，其所述大姿态对齐模块采用基于回归的方法进行对准，优选LPFA、PIFA、CDM、TSPM、或基于卷积神经网络的大姿态人脸对齐方法。

优选地，所述基于大姿态对准的人脸识别系统，其所述大姿态对齐模块采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

优选地，所述基于大姿态对准的人脸识别系统，其所述三维人脸重建模块采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型，优选采用LeNet、AlexNet、VGG、ResNet、或ResNet-101模型。

优选地，所述基于大姿态对准的人脸识别系统，其所述识别模块采用的余弦相似性按照如下方法计算：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，，能够取得下列有益效果：

本发明通过对获取的单张人脸照片，首先进行大姿态对准，使得三维人脸重建和相应特征提取成为可能，在此基础之上进行三建模提取人脸特征进行识别，从而精确提取待识别的人脸特征，和目标人脸特征进行匹配，从而实现任意大姿态的人脸识别。总体而言本发明实现了基于不同姿态的单张人脸照片的人脸识别技术，大大扩展了人脸识别技术的应用范围，例如监控摄像头视频源的人脸识别。

附图说明

图1是本发明提供的基于大姿态对准的人脸识别方法流程示意图；

图2是本发明提供的基于大姿态对准的人脸识别系统结构示意图；

图3是本发明实施例提供的大姿态对齐结果示例；

图4是本发明实施例提供的大姿态对准用级联神经网络的可视化块结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于大姿态对准的人脸识别方法，如图1所示，包括以下步骤：

(1)获取待识别的单张人脸图像；

优选采用基于回归的方法进行对准，例如LPFA(Jourabloo A,Liu X.Large-PoseFace Alignment via CNN-Based Dense 3D Model Fitting[C]//Computer Vision andPattern Recognition.IEEE,2016.)、PIFA(Jourabloo A,Liu X.Pose-Invariant 3D FaceAlignment[J].2015,7:3694-3702.)、CDM(Yu X,Huang J,Zhang S,et al.Pose-FreeFacial Landmark Fitting via Optimized Part Mixtures and Cascaded DeformableShape Model[C]//IEEE International Conference on Computer Vision.IEEE,2014:1944-1951.)、TSPM(Ramanan D.Face detection,pose estimation,and landmarklocalization in the wild[C]//Computer Vision and Pattern Recognition.IEEE,2012:2879-2886.)、基于卷积神经网络的大姿态人脸对齐方法；采用基于卷积神经网络的大姿态人脸对其方法，优选采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

所述可视化层输入为当前姿态参数，经投影处理后输出2D人脸图像；所述2D人脸图像与输入人脸图像一同输入串联的多个卷积层，输出深层人脸图像作为级联的下一可视化块的输入人脸图像；将深层人脸图像和当前参数通过输入多个串联的全连接层，输出更新的姿态参数作为下一可视化块的当前姿态参数。所述姿态参数为投影参数m和形状参数p之间的非线性映射关系，记作O＝{M,P}；所述投影处理，即将由3D人脸模型投影得到2D人脸图像，可采用深度缓存技术(Z－buffering)；所述每一个卷积层后面仅接一个批量标准化层(BN层)和一个修正线性单元层(ReLU层)；所述串联的全连接层之间优选具有修正线性单元层(ReLU层)和dropout层，最后一个全连接层用于估计更新的目标参数，记作ΔO，可视化块的输出是更深层次的特征和新的目标姿态参数(ΔO+O)。

所述级联的基于卷积的神经网络在训练阶段的反向传播机制中，可视化块通过将误差反向传播，实现对前一可视化块中卷积层和全连接层的调整，使得当前可视化块可以为下一可视化块提取更好的图像特征，从而优化整个网络结构的参数估计。

所述级联的基于卷积的神经网络中每一可视化块训练收敛条件为：

A、所述可视化块输出的姿态参数与期望输出的目标姿态参数的加权参数距离损失函数的值小于该可视化块的收敛阈值。所述加权参数距离损失函数的值按照如下方法计算：

E_wpdl＝(ΔO-(O^g-O⁰))^TW(ΔO-(O^g-O⁰))

其中：

W＝diag(w₁,w₂,…,w_n)

w_i＝‖V(O^d(i))-V(O^g)‖/∑w_i

O^d(i)_i＝(O⁰+ΔO)_i

其中，W是代表每个参数对应权重的矩阵，O^g为期望输出的目标姿态参数，O^d(i)中的第i个分量对应为预估的所述可视化块输出的姿态参数(O⁰+ΔO)的第i个分量，其他分量则取自期望输出的目标姿态参数O^g对应的分量，‖V(O^d(i))-V(O^g)‖表示第i个模型参数分量对应的对齐误差。为了简化计算，在计算误差时将W视作为常量。

或B、所述可视化块输出的三维模型投影的二维图像与真实二维图像特征点欧式距离损失函数的值小于该可视化块的收敛阈值。所述二维特征点欧式距离E_l损失函数的值按照如下方法计算：

E₁＝||f(O⁰+ΔO)-U||²

其中U表示二维特征点位置的预期值，f(.)函数的作用是使用当前估计出的三维模型得到对应的二维特征点输出值，O⁰为所述可视化块输入的姿态参数，O⁰+ΔO为所述可视化块输出的姿态参数，f(O⁰+ΔO)即所述可视化块输出的姿态参数表示的三位人脸模型对应的二位特征点输出值。

优选采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型，具体采用LeNet、AlexNet、VGG、ResNet、或ResNet-101(He K,Zhang X,Ren S,et al.Deep ResidualLearning for Image Recognition[J].2015:770-778.)，优选采用ResNet-101模型；

任意个体的人脸3DMM模型(S_model,T_model)可表示为：

其中，S_model表示形状输出数据集，T_model表示纹理输出数据集，

表示形状参数对应的平均形状向量，

表示纹理参数对应的平均纹理向量；W_S表示形状参数矩阵，W_T表示纹理参数组成的矩阵；

表示形状基向量所对应的组合系数，

表示纹理基向量所对应的组合系数；3DMM参数表示为

优选，3DMM参数表示为

经过主成分分析选择。

所述基于3DMM算法结合卷积神经网络模型训练收敛条件为：

三维人脸重建损失函数的值小于预设的重建阈值。所述三维人脸重建损失函数的值，为调整欧式距离，按照如下方法计算：

其中，L(y_o,y)为关于y_o和y的损失函数的值，y_o为模型的实际输出3DMM参数，y为模型的目标输出3DMM参数值，y⁺＝sing(y).y；y_o ⁺＝sing(y).y_o；y_max＝max(y⁺,y_o ⁺)，

为模型对应的过拟合误差，

为欠拟合误差，λ₁和λ₂为预先设置的调整参数，控制这两个误差的此消彼长。

所述余弦相似性按照如下方法计算：

本发明提供的基于大姿态对准的人脸识别系统，如图2所示，包括：

人脸图像获取模块，用于获取待识别的单张人脸图像；

优选采用，基于回归的方法进行对准，例如LPFA(Jourabloo A,Liu X.Large-PoseFace Alignment via CNN-Based Dense 3D ModelFitting[C]//Computer Vision andPattern Recognition.IEEE,2016.)、PIFA(Jourabloo A,Liu X.Pose-Invariant 3D FaceAlignment[J].2015,7:3694-3702.)、CDM(Yu X,Huang J,Zhang S,et al.Pose-FreeFacial Landmark Fitting via Optimized Part Mixtures and Cascaded DeformableShape Model[C]//IEEE International Conference on Computer Vision.IEEE,2014:1944-1951.)、TSPM(Ramanan D.Face detection,pose estimation,and landmarklocalization in the wild[C]//Computer Vision and Pattern Recognition.IEEE,2012:2879-2886.)、基于卷积神经网络的大姿态人脸对齐方法；采用基于卷积神经网络的大姿态人脸对其方法，优选采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

E_wpdl＝(ΔO-(O^g-O⁰))^TW(ΔO-(O^g-O⁰))

其中：

W＝diag(w₁,w₂,…,w_n)

w_i＝‖V(O^d(i))-V(O^g)‖/∑w_i

O^d(i)_i＝(O⁰+ΔO)_i

E_l＝||f(O⁰+ΔO)-U||²

优选采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型，具体采用LeNet、AlexNet、VGG、ResNet、和ResNet-101(He K,Zhang X,Ren S,et al.Deep ResidualLearning for Image Recognition[J].2015:770-778.)，优选采用ResNet-101模型；

任意个体的人脸3DMM模型(S_model,T_model)可表示为：

表示形状参数对应的平均形状向量，

表示形状基向量所对应的组合系数，

表示纹理基向量所对应的组合系数；3DMM参数表示为

优选，3DMM参数表示为

经过主成分分析选择。

所述基于3DMM算法结合卷积神经网络模型训练收敛条件为：

为模型对应的过拟合误差，

所述余弦相似性按照如下方法计算：

以下为实施例：

实施例1

一种基于大姿态对准的人脸识别方法，如图1所示，包括以下步骤：

(1)获取待识别的单张人脸图像；

(2)将步骤(1)中获得的单张人脸图像与人脸三维模型进行大姿态对准，获得人脸姿态坐标及人脸特征点位置，如图3所示；

采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括六个级联的可视化块，前三个可视化块用于姿态参数更新，后三个可视化块用于度量二位特征点误差；

所述可视化块，如图4所示，包括一个可视化层、两个卷积层、以及两个全连接层；

所述可视化层输入为当前姿态参数，经投影处理后输出2D人脸图像；所述2D人脸图像与输入人脸图像一同输入串联的两个卷积层，每一个卷积层后面紧接一个批量标准化层(BN层)和一个ReLU层，输出深层人脸图像作为级联的下一可视化块的输入人脸图像；将深层人脸图像和当前参数通过输入两个串联的全连接层，两个全连接层的长度分别为800和236，在两个全连接层之间，前一个全连接层后面连接着一个ReLU层和一个dropout层，输出更新的姿态参数作为下一可视化块的当前姿态参数。所述姿态参数为投影参数m和形状参数p之间的非线性映射关系，记作O＝{M,P}；所述投影处理，即将由3D人脸模型采用深度缓存技术(Z－buffering)投影得到2D人脸图像；最后一个全连接层用于估计更新的目标参数，记作ΔO，可视化块的输出是更深层次的特征和新的目标姿态参数(ΔO+O)。

本实施例采用端到端优化，所述级联的基于卷积的神经网络在训练阶段的反向传播机制中，可视化块通过将误差反向传播，实现对前一可视化块中卷积层和全连接层的调整，使得当前可视化块可以为下一可视化块提取更好的图像特征，从而优化整个网络结构的参数估计

前三个可视化块训练收敛条件为条件A，后三个可视化块训练收敛条件为条件B：

E_wpdl＝(ΔO-(O^g-O⁰))^TW(ΔO-(O^g-O⁰))

其中：

W＝diag(w₁,w₂,…,w_n)

w_i＝‖V(O^d(i))-V(O^g)‖/∑w_i

O^d(i)_i＝(O⁰+ΔO)_i

或B、所述可视化块输出的三维模型投影的二维图像与真实二维图像特征点欧式距离损失函数的值小于该可视化块的收敛阈值。所述二维特征点欧式距离E₁损失函数的值按照如下方法计算：

E_l＝||f(O⁰+ΔO)-U||²

采用ResNet-101模型；

人脸数据按照如下方法预处理：

I、图像边界处理：对人脸图像样本进行归一化的处理，采用图像边界处理的方式，调用OpenCV库中的copyMakeBorder方法，该方法通过扩充原图像的边缘，将尺寸过小的图像变大，然后以外插值的方式填充图像的边界，采用的插值方式是复制最边缘像素的方式，即将最边缘像素的值复制到扩充边界中。

II、人脸检测：直接使用dlib库中自带的frontal_face_detector作为人脸的特征分类器来检测图像中的人脸。

III、特征点定位：采用所提出的LPFA-CNN方法，完成对输入样本图片的人脸特征点定位。

任意个体的人脸3DMM模型(S_mode,T_model)可表示为：

表示形状参数对应的平均形状向量，

表示形状基向量所对应的组合系数，

表示纹理基向量所对应的组合系数；3DMM参数表示为

3DMM参数表示为

经过主成分分析选择

和

长度均为99。

所述基于3DMM算法结合卷积神经网络模型训练收敛条件为：

为模型对应的过拟合误差，

为欠拟合误差，λ₁和λ₂为预先设置的调整参数，λ₁＝1，λ₂＝3。

(4)将步骤(3)获得的待识别的人脸3DMM参数与目标人脸3DMM参数进行比对，计算待识别的人脸3DMM参数与目标人脸3DMM参数的余弦相似性，判断待识别的人脸与目标人脸是否匹配：当所述余弦相似性超过预设的相似性阈值时，判断待识别的人脸与目标人脸匹配；否则判断为不匹配，所述相似性阈值，设置为70％。

所述余弦相似性按照如下方法计算：

实施例2

一种基于大姿态对准的人脸识别系统，如图2所示，包括：

人脸图像获取模块，用于获取待识别的单张人脸图像；

E_wpdl＝(ΔO-(O^g-O⁰))^TW(ΔO-(O^g-O⁰))

其中：

W＝diag(w₁,w₂,…,w_n)

w_i＝‖V(O^d(i))-V(O^g)‖/∑w_i

O^d(i)_i＝(O⁰+ΔO)_i

E_l＝||f(O⁰+ΔO)-U||²

采用ResNet-101模型；

三维人脸重建模块还包括人脸数据预处理子模块，按照如下方法进行人脸数据预处理：

任意个体的人脸3DMM模型(S_model,T_model)可表示为：

表示形状参数对应的平均形状向量，

表示形状基向量所对应的组合系数，

表示纹理基向量所对应的组合系数；3DMM参数表示为

3DMM参数表示为

经过主成分分析选择

和

长度均为99。

所述基于3DMM算法结合卷积神经网络模型训练收敛条件为：

为模型对应的过拟合误差，

为欠拟合误差，λ₁和λ₂为预先设置的调整参数，λ₁＝1，λ₂＝3。识别模块，用于根据三维人脸重建模块获取的待识别的人脸3DMM参数与目标人脸3DMM参数进行比对，计算待识别的人脸3DMM参数与目标人脸3DMM参数的余弦相似性，判断待识别的人脸与目标人脸是否匹配：当所述余弦相似性超过预设的相似性阈值时，判断待识别的人脸与目标人脸匹配；否则判断为不匹配。所述相似性阈值，设置为70％。

所述余弦相似性按照如下方法计算：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大姿态对准的人脸识别方法，其特征在于，包括以下步骤：

(1)获取待识别的单张人脸2D图像；

(2)将步骤(1)中获得的单张人脸2D图像与人脸三维模型进行大姿态对准，获得人脸姿态坐标及人脸特征点位置；采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

所述可视化层输入为当前姿态参数，经投影处理后输出2D人脸图像；所述2D人脸图像与步骤(1)获取的单张人脸2D图像一同输入串联的多个卷积层，输出深层人脸图像作为级联的下一可视化块的输入人脸图像；将深层人脸图像和当前参数通过输入多个串联的全连接层，输出更新的姿态参数作为下一可视化块的当前姿态参数；

2.如权利要求1所述的基于大姿态对准的人脸识别方法，其特征在于，步骤(3)采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型。

3.如权利要求2所述的基于大姿态对准的人脸识别方法，其特征在于，步骤(3)采用LeNet、AlexNet、VGG、ResNet、或ResNet-101模型。

4.如权利要求1所述的基于大姿态对准的人脸识别方法，其特征在于，步骤(4)所述余弦相似性按照如下方法计算：

5.一种基于大姿态对准的人脸识别系统，其特征在于，包括：

人脸图像获取模块，用于获取待识别的单张人脸2D图像；

大姿态对齐模块，用于将人脸图像获取模块获取的单张人脸图像与人脸三维模型进行大姿态对准，获得人脸姿态坐标及人脸特征点位置；所述大姿态对齐模块采用级联的基于卷积的神经网络：具体卷积神经网络结构如下：

所述级联的卷积神经网络包括多个级联的可视化块；

所述可视化层输入为当前姿态参数，经投影处理后输出2D人脸图像；所述2D人脸图像与人脸图像获取模块获取的单张人脸2D图像一同输入串联的多个卷积层，输出深层人脸图像作为级联的下一可视化块的输入人脸图像；将深层人脸图像和当前参数通过输入多个串联的全连接层，输出更新的姿态参数作为下一可视化块的当前姿态参数；

6.如权利要求5所述的基于大姿态对准的人脸识别系统，其特征在于，所述三维人脸重建模块采用基于3DMM算法结合卷积神经网络模型作为三维人脸重建模型。

7.如权利要求6所述的基于大姿态对准的人脸识别系统，其特征在于，所述三维人脸重建模块采用LeNet、AlexNet、VGG、ResNet、或ResNet-101模型。

8.如权利要求5所述的基于大姿态对准的人脸识别系统，其特征在于，所述识别模块采用的余弦相似性按照如下方法计算：