CN108805056B

CN108805056B - 一种基于3d人脸模型的摄像监控人脸样本扩充方法

Info

Publication number: CN108805056B
Application number: CN201810530124.9A
Authority: CN
Inventors: 曹宗杰; 王亮; 崔宗勇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2021-10-08
Anticipated expiration: 2038-05-29
Also published as: CN108805056A

Abstract

本发明涉及人脸样本扩充和人脸识别领域，具体的说是涉及一种摄像监控人脸样本扩充方法。本发明使用3D人脸用用模型，在只有一张正面人脸照片的基础上，合成其他视角的人脸照片，很好的解决了摄像监控人脸样本缺少、识别率低的问题。通过在合成人脸数据集上训练的深度神经网络可以获得很好的摄像监控人脸识别性能。

Description

一种基于3D人脸模型的摄像监控人脸样本扩充方法

技术领域

本发明涉及人脸样本扩充和人脸识别领域，具体的说是涉及一种摄像监控人脸样本扩充方法。

背景技术

在过去几年中，人脸识别性能得到了巨大的提升，这种性能的提升很大一部分来源于深度学习方法的成功，该方法从大量训练集中学习人脸的特征表示。这些方法提出了一个基本的假设，即通过收集足够多的训练集，深度网络将有足够多的类间和类内变化的样本，从这些变化中，网络可以学会分辨每个样本和其他样本外观变换的特征。

不幸的是，这种潜在的假设在实践中往往不存在。即便是庞大的数据集，如CASIAWebFace数据集，每类只包含少量的样本，而且样本之间表现出巨大的差异，主要体现在不同的光照和姿态下样本呈现出不一样的效果，这些数据集提供的类内和类间差异的变化是有限的。特别是在摄像监控样本中，每个类别往往只有特别少的样本，有的甚至只有一张正面照片。最近的许多方法使用计算机图形技术，通过对人脸照片合成许多新的视角的照片来扩充数据集，从而使得深度网络有很大的性能提升。但是在摄像监控样本中这些方法并没有取得很好的效果，主要原因在于样本的差异性。不同于现有数据集，摄像监控样本最大的差异体现在其大姿态上。一般来讲，摄像监控样本很大一部分是自从高出往下拍摄，且包含一定的大的角度，因此样本扩充方法需要考虑从正面照片生成包含大的俯仰角的人脸照片。

在由正面视图生成其他视图的人脸照片时，关键问题在于保持人脸局部特征不变，即生成的大角度人脸照片的局部特征和正面人脸照片相应的局部特征变化不大甚至不变。在计算机视觉领域，通常在合成新视图时，估计输入照片中人脸的3D几何形状以匹配输入照片，通过对3D人脸模型旋转一定的角度来生成需要的视图。借助于此方法，可以极大地扩充数据集，提高深度网络的识别率。

但是此过程严重依赖于重建的准确性，而且对于人脸特征点检测有极高的准确度要求。此外，由于摄像监控样本的复杂，光照的变化和照片分辨率低等原因，并不能直接使用此过程进行其他视角人脸样本的扩充。

发明内容

针对上述存在的问题或不足，为了实现摄像监控样本的多视图扩充，使得在只有一张正面照或其他小角度人脸照片的前提下可以扩充更多的其他视角的照片，本发明借助通用3D人脸模型，在不估计形状的前提下，通过2D人脸特征点和3D模型特征点匹配，可以有效的实现多视角样本扩充，而且相比之前的方法，该算法在保证精确度的同时，简化了合成和渲染过程，计算速度也得到了极大的提升。

本发明由以下步骤实现，其扩充算法流程见附图1，实现过程见附图2。

步骤1、人脸检测、裁剪、缩放到标准坐标系。

此过程对样本扩充算法的输入照片进行了预处理操作，主要是检测输入照片中的人脸区域，裁剪并缩放到固定的大小以匹配3D模型。

步骤2、人脸特征点检测、投影矩阵估计。

使用现有的特征点检测算法对预处理后的人脸照片进行68个2D特征点检测。借助于3D通用模型的3D特征点，可以估计得到投影矩阵。其过程如下：

假设2D特征点坐标为(x_k,y_k)，3D特征点坐标为(X_k,Y_k,Z_k)，3D特征点在相机中的坐标为(U_k,V_k,W_k)，则对应关系为：

其中，R为旋转矩阵(3x3)，t为平移向量(3x1)，f_x,f_y表示相机x,y方向的焦距，c_x,c_y表示相机的光学中心，A即相机的内参矩阵，s为尺度因子。若忽略掉尺度因子，给定相机内参矩阵A，可以得到旋转矩阵R和平移向量t，进而可以得到投影矩阵C＝A[R t]。

步骤3、分离3D模型投影到2D图片的人脸区域。

在由正面人脸照片合成其他视角的过程中需要分离出背景和人脸区域，只进行人脸区域的合成，而忽略背景区域，从可以减少背景区域对人脸识别的影响。该过程如下：

首先通过投影矩阵C将3D模型坐标点(X_k,Y_k,Z_k)投影到2D平面坐标点(x_k,y_k)：

(x_k,y_k)^T＝C*(X_k,Y_k,Z_k)^T

由3D模型的人脸区域的索引，可以分别得到2D平面人脸区域和背景区域的坐标值和对应的索引，进而可以分离出人脸和背景。

步骤4、合成固定视角照片I_R

由给定的3D人脸模型，通过指定参考投影矩阵C_M＝A_M[R_M t_M]来产生该模型固定角度的合成渲染视图。其中，A_M是相机内参矩阵，[R_M t_M]是由旋转矩阵R_M和平移向量t_M组成的矩阵。通过选择旋转矩阵和平移向量来产生模型的固定视角的视图，作为参考视图I_R，由步骤3，可以得到参考视图I_R的人脸区域的背景区域。其过程如下：

在产生参考视图I_R时，为参考视图的每个像素点p'存储该像素点位于3D模型表面上点的3D坐标P＝(X,Y,Z)^T，其中，p'＝C_MP，p_i'是由位于3D模型表面的坐标点P_i＝(X_i,Y_i,Z_i)^T通过投影矩阵C_M投影而来。令p_i＝(x_i y_i)^T是输入照片I_F的人脸特征点。

同样，可以通过投影矩阵C_Q来产生输入人脸照片I_F的每个像素点的坐标p_i＝(x_iy_i)^T。I_F和参考视图I_R对应像素点是通过3D模型中相同位置的3D坐标点投影产生。

通过双线性插值，采样输入人脸照片I_F中像素点p处的强度，然后将采样的强度分配给新的视图中的相应像素点p'，重映射后合成固定视角的人脸照片I_R。

附图说明

图1为人脸样本扩充算法流程图；

图2为人脸样本扩充算法实现过程示意图；

图3为使用扩充后的人脸样本进行训练网络的训练损失和测试准确率；

图4为使用训练好的模型进行准确预测的结果图；

图5为使用训练好的模型预测错误的结果图。

具体实施方式

下面以图2所示人脸照片为例，对本发明作进一步说明。

本发明是为了解决在只有一张正面人脸照片的情况下，扩充摄像监控人脸样本，使得在其他视角和环境下的人脸样本也可以正确识别。本发明使用26类样本，每类只使用一张正面照片进行样本扩充，分别在x轴、y轴和z轴进行不同角度旋转，生成多个角度的人脸照片，同时在处理过程中忽略了背景信息，即不对背景区域进行合成。为了进一步扩充数据集，在扩充后的数据集基础上，进行了简单的裁剪、旋转、亮度调节等变换，这样将每个样本扩充为3000张样本，每类包含多个视角的人脸样本。将扩充后的人脸数据集分为训练集和测试集，比例为8:2，即训练样本62400张，测试样本15600张。采用VGG16深度神经网络进行训练，然后使用训练的网络对图2样本的其他视角和环境的人脸照片进行预测。

实验的系统环境为Ubuntu16.04，使用Caffe框架训练VGG16网络。网络参数设置为：train_batch和test_batch为64，iter_test设置为300次，base_lr为0.001，每隔10000次减小一次。网络训练20000次可以收敛，且在测试集上的准确率为0.996，如图3所示。使用训练好的网络对其他视角和环境的人脸照片进行预测，当人脸视角为90度时，即侧面人脸或者接近侧面的情况下会识别出错，其他视角下的人脸照片有很好的准确率。使用训练好的深度网络模型进行预测的结果见图4和图5。

Claims

1.一种基于3D人脸模型的摄像监控人脸样本扩充方法，其特征在于，包括以下具体步骤：

步骤1、人脸预处理：人脸检测、裁剪，并缩放到标准坐标系，使其能与3D模型匹配为准；

步骤2、人脸特征点检测、投影矩阵估计：

使用人脸特征点检测算法检测68个特征点(x_k,y_k)，k＝1,2,...,68，3D人脸模型上的3D特征点坐标为(X_k,Y_k,Z_k)，假设3D特征点在相机中的坐标为(U_k,V_k,W_k)，则对应关系为：

其中，R为旋转矩阵(3x3)，t为平移向量(3x1)，f_x,f_y表示相机x,y方向的焦距，c_x,c_y表示相机的光学中心，A即相机的内参矩阵，s为尺度因子；设定忽略尺度因子，给定相机内参矩阵A，可得到旋转矩阵R和平移向量t，进而得到投影矩阵C＝A[R t]；

步骤3、分离3D模型投影到2D图片的人脸区域：

(x_k,y_k)^T＝C*(X_k,Y_k,Z_k)^T

由3D模型的人脸区域的索引，分别得到2D平面人脸区域和背景区域的坐标值和对应的索引，进而可以分离出人脸和背景；

步骤4、合成固定视角人脸照片I_R：

由给定的3D人脸模型，通过指定参考投影矩阵C_M＝A_M[R_M t_M]来产生该模型固定角度的合成渲染视图；其中，A_M是相机内参矩阵，[R_M t_M]是由旋转矩阵R_M和平移向量t_M组成的矩阵；通过选择旋转矩阵和平移向量来产生模型的固定视角的视图，作为参考视图I_R，由步骤3，可以得到参考视图I_R的人脸区域的背景区域，具体为：

在产生参考视图I_R时，为参考视图的每个像素点p'存储该像素点位于3D模型表面上点的3D坐标P＝(X,Y,Z)^T，其中，p'＝C_MP，即p'是由位于3D模型表面的坐标点P＝(X,Y,Z)^T通过投影矩阵C_M投影而来；令p_i＝(x_i,y_i)^T是输入照片I_F的人脸特征点；

同样，可以通过投影矩阵C_Q来产生输入人脸照片I_F的每个像素点的坐标p_i＝(x_i,y_i)^T；I_F和参考视图I_R对应像素点是通过3D模型中相同位置的3D坐标点投影产生；