CN108197587B

CN108197587B - 一种通过人脸深度预测进行多模态人脸识别的方法

Info

Publication number: CN108197587B
Application number: CN201810048218.2A
Authority: CN
Inventors: 崔继运; 韩琥; 张�杰; 山世光; 陈熙霖
Original assignee: Seetatech Beijing Technology Co ltd
Current assignee: Seetatech Beijing Technology Co ltd
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2021-08-03
Anticipated expiration: 2038-01-18
Also published as: CN108197587A

Abstract

本发明公开了一种通过人脸深度预测进行多模态人脸识别的方法，其步骤为：数据提取；Depth模态数据人脸分割及尺度化：级联网络模型训练：人脸识别网络训练；模型融合；测试阶段。本发明中网络模型所预测出的人脸Depth图像不仅和真实的人脸Depth图像相近，而且级联的分类网络增加了预测出的Depth图像的类间距离，使得预测出的人脸Depth图像具有更丰富的身份信息。通过人脸RGB模态来预测人脸的Depth模态，增加了人脸模态数据的多样性，可以在不改变现有RGB相机硬件前提下实现多模态人脸识别。RGB模态结合预测出的Depth模态，多模态人脸识别准确率高于单一使用RGB模态数据的人脸识别准确率。

Description

一种通过人脸深度预测进行多模态人脸识别的方法

技术领域

本发明涉及一种人脸识别的方法，尤其涉及一种通过人脸深度预测进行多模态人脸识别的方法。

背景技术

RGB(红、绿、蓝三个通道的颜色)单模态人脸识别技术目前已经达到了瓶颈，但是在非可控条件下，比如人脸姿态的变化，尤其是光照的变化对RGB人脸识别精度仍然有很大的影响。随着Kinect和RealSense相机的出现与普及，人们可以获取到除了RGB模态之外更多其他模态的人脸数据，比如Depth(深度)和NIR(近红外)等。Depth和NIR模态的人脸数据不受光照的影响，即使在黑暗中也能获取到精确的人脸信息。因此，结合RGB和Depth两种模态进行多模态人脸识别可以大大提高对光照的鲁棒性。但目前普遍应用的相机仍然是普通的RGB相机，如果大面积更换为Kinect或者RealSense多模态相机，无论是从成本还是技术上都存在很大的难度。在不改变现有RGB单模态相机的前提下，为了融合进人脸的Depth模态信息，急需开发一种利用人脸判别式深度预测方法进行多模态人脸识别的技术。

针对上述研发方向，有学者设计了依赖于Kinect或者RealSense多模态相机获取到的人脸模态数据并利用卷积神经网络进行多模态融合的人脸识别技术。除了人脸的RGB模态，该技术涉及到的人脸Depth和NIR模态均是由相应的设备采集得到。该技术的主要特征为：多模态融合卷积神经网络结构由两部分组成，网络结构的前半部分为多个网络分支，每一个分支网络的输入数据对应人脸的一个模态信息，后半部分为一个融合网络，将前半部分的多个网络分支融合后进行卷积操作，计算人脸多个模态的融合特征；网络结构融合后的特征有一个监督信号，且每个分支网络也有相应模态的监督信号。另外设计一个网络结构为多模态共享的深度卷积神经网络，将各个人脸模态不加区分的送入该网络中训练，并分别提取不同模态的特征。对上述两个网络得到的特征分别进行相似度计算并加权求和作为最终的融合相似度。该技术手段具有以下缺陷：利用了人脸的多种模态信息，但这些信息均是从相应设备采集得来，在实际人脸识别应用上对硬件设备要求比较高；而且该技术中除了RGB模态之外的其他模态的人脸定位均是从RGB模态的人脸定位映射得到，致使在RGB模态数据人脸定位不精确或者无法进行人脸定位的情况下(黑暗环境中无法进行RGB模态的人脸定位)，其他模态的人脸识别效果受限于RGB模态的人脸识别效果。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种通过人脸深度预测进行多模态人脸识别的方法。

为了解决以上技术问题，本发明采用的技术方案是：一种通过人脸深度预测进行多模态人脸识别的方法，其整体步骤为：

步骤一、数据提取阶段：

利用人脸检测引擎对人脸RGB图像进行人脸检测和关键点定位，裁切出人脸区域并将人脸区域保存为256x256像素大小的图像；

步骤二、Depth模态数据人脸分割及尺度化：

a、获取crop出的人脸Depth数据的直方图；

b、对直方图做平滑处理，消除存在的噪声；

c、在平滑后的直方图上进行Depth模态数据人脸分割，确定人脸的深度范围；

d、将人脸深度范围映射到阈值[0,255]，做尺度化处理；

步骤三、级联网络模型训练：

采用人脸深度预测网络和分类网络级联的网络模型进行训练；

步骤四、人脸识别网络训练；

人脸的RGB模态数据和预测出的Depth模态数据分别训练出各自的模型M₁和M₂；待人脸识别网络模型训练完成后，提取网络结构中loss1/fc层的向量作为人脸的特征向量；人脸的相似度度量采用特征向量的cosine距离，假设RGB模态数据集上的人脸识别率为r₁，Depth模态数据集上的人脸识别率为r₂；

步骤五、模型融合；

在相似度度量层级上进行模型融合，在测试阶段，RGB模态的相似度为S₁，预测出的Depth模态的相似度为S₂，则融合后的相似度计算如下：

步骤六、测试阶段；

a、通过RGB单模态相机获取RGB模态数据，并裁切出人脸区域；送入模型M₁提取RGB模态的人脸特征并分别与注册集中的RGB模态人脸特征计算consine距离作为相似度度量；

b、将步骤a得到的人脸RGB模态图像送入深度预测网络模型中，预测出对应的Depth模态人脸图像，送入模型M₂提取Depth模态的人脸特征并与注册集中的Depth模态人脸特征计算consine距离作为相似度度量；

c、利用步骤五提出的相似度融合方法进行两种模态的人脸相似度融合，融合结果作为多模态人脸识别的相似度。

步骤一中的关键点定位通常采用五点定位的方式，五点分别为2个眼角、鼻尖、2个嘴角。

进一步地，步骤一中，对于提供RGB模态到Depth模态坐标映射关系的数据集，直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据，Depth模态的数据保存时的尺寸为256x256像素大小；

对于没有提供两者映射关系的数据集，因为其采集的Depth模态数据和NIR模态数据共享同一个坐标系，即Depth模态人脸区域的坐标位置和NIR模态人脸区域的坐标位置是一致的，将NIR模态的人脸数据视为灰度图像用人脸检测器检测出人脸区域作为Depth模态下人脸区域的位置。

进一步地，步骤二中对直方图做平滑处理的公式为：

式中，i表示图1中下标的数值(同时也是距离为i)；t是迭代的次数，其取值范围为1～T；H_t，i为迭代t次时下标i对应的高度；将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声，形成平滑的直方图，便于确定人脸区域的范围。

进一步地，步骤二中人脸分割及尺度化处理的具体方法为：

从最大值点向左连续寻找数值不小于threshold的最左侧的点的下标值即为人脸区域最靠近相机的距离数值，从最大值向右连续寻找数值不小于threshold的最右侧的点的下标值即为人脸区域最远的距离数值；

记人脸区域最近的距离为m，最远的距离为M，U为原始获取的16位无符号整数的裁切出的人脸Depth数据，D为尺度化后的人脸Depth图像，尺度化计算公式如下：

其中，d_k为D的第k个像素值，u_k是U的第k个位置的人脸深度值，threshold依经验取值为50。

进一步地，步骤三中，由于两个网络的收敛速率不同，在前期的模型训练时，将两个网络分开来训练，此时分类网络的输入为真实人脸Depth图像数据；在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning直至级联网络的loss达到收敛状态。

进一步地，步骤三中级联网络模型训练的具体过程为：

a、深度预测网络的输入为3通道的RGB人脸图像，记为I，深度预测网络的输出为预测的人脸深度信息D^*，记人脸的真实深度图像为D，深度预测网络的输出作为分类网络的输入，分类网络的输出为预测的人脸深度图像的类别C^*，记真实的类别为C；

人脸深度预测网络由8个卷积层和3个反卷积层组成，除了最后一个反卷积层，其余的卷积层和反卷积层后各接了一个BatchNormalization层和PReLU层；为了增加网络高层的感受野大小，在第一、第二和第五个卷积层后各接了一个Pooling层，损失函数采用Euclidean Loss；深度预测网络的监督信号为L₂Loss，即预测的人脸深度信息D^*和真实人脸深度图像的误差：

其中，D_ij表示D图像的第i行第j列；

表示D^*图像的第i行第j列；P、Q分别表示图像的高度、宽度；

b、深度人脸分类网络的是由8个卷积层和3个全连接层组成，在每一个卷积层之后，都接有一个BatchNormalization层和ReLU层，分类网络结构中，分别在第一个、第二个、第四个、第六个和第八个卷积层后各接有Pooling层；分类网络的前两个全连接层之后分别接了一个ReLU层和Dropout层，第三个全连接层的输出结果直接用来计算分类损失，损失函数采用SoftmaxwithLoss；

c、级联网络的loss为两个监督信号的加权和，由于L₂Loss的数量级远高于分类损失SoftmaxwithLoss的数值，设置预测网络的Loss的权值为0.001；级联网络的优化目标为：

其中，W_F为深度预测网络的权值，W_C为分类网络的权值，F_F和F_C分别为深度预测网络模型和分类网络模型；z是分类网络输出的向量，对应图4中最后输出的分类网络的该层特征，表示的是每一类人脸的概率；假设训练集中是N个人的人脸数据，那么z的维度就为N，j的取值范围是[0,N-1]；z_j表示预测为第j个人的概率，y是人脸数据的lable，即人脸的真实类别，z_y是预测为正确的人脸类别的概率；

优化目标的第一部分为深度预测网络的监督信号，第二部分为分类网络的监督信号，其中α＝0.001，β＝1。

本发明提出了一种人脸Depth预测网络和分类网络级联的卷积神经网络结构，该网络模型所预测出的人脸Depth图像不仅和真实的人脸Depth图像相近，而且级联的分类网络增加了预测出的Depth图像的类间距离，使得预测出的人脸Depth图像具有更丰富的身份信息。通过人脸RGB模态来预测人脸的Depth模态，增加了人脸模态数据的多样性，可以在不改变现有RGB相机硬件前提下实现多模态人脸识别。RGB模态结合预测出的Depth模态，多模态人脸识别准确率高于单一使用RGB模态数据的人脸识别准确率。

附图说明

图1为人脸Depth模态数据直方图及平滑效果展示图。

图2为Depth模态数据人脸分割及尺度化之前的人脸Depth图像。

图3为对图2进行人脸分割及尺度化之后的Depth图像。

图4为级联网络模型结构图。

图5为多模态人脸识别过程图。

图6为人脸深度预测网络与分类网络级联网络模型的构建过程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一种通过人脸深度预测进行多模态人脸识别的方法，整体步骤为：

步骤一、数据提取阶段：

利用现有的人脸检测引擎对人脸RGB图像进行人脸检测和5点(2个眼角、鼻尖、2个嘴角)定位，裁切出人脸区域并将人脸区域保存为256x256像素大小的图像。

对于提供RGB模态到Depth模态坐标映射关系的数据集，直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据，Depth模态的数据保存时的尺寸为256x256像素大小。

步骤二、Depth模态数据人脸分割及尺度化：

Kinect或RealSense相机采集的到的深度数值为16位无符号整数，为了突出人脸形状，在人脸深度图像中分割出人脸区域做尺度化，并去除背景和前景的影响。

如图1～3所示，具体操作过程如下：

a、首先绘制人脸Depth模态数据的直方图(图1中浅色线条所示)，由于裁切出的人脸图像中大部分区域为人脸区域，所以在直方图中会出现2～3个波峰，其中面积最大的波峰为人脸区域的波峰，该峰左测的波峰(如果有的话)为前景区域波峰，右侧的波峰(如果有的话)代表的是背景区域波峰。

b、对直方图进行平滑处理(图1中深色线条所示)：初始的直方图不够平滑，呈锯齿状态，需要进行平滑处理，平滑处理采用的公式如公式一所示；将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声，形成平滑的直方图，便于确定人脸区域的范围。

式中，i表示图1中下标的数值(同时也是距离为i)；t是迭代的次数，其取值范围为1～T；H_t，i为迭代t次时下标i对应的高度。

c、通过计算找到平滑的直方图中最大值点即为人脸区域所在范围的直方图的波峰。人脸分割的方式为：从最大值点向左连续寻找数值不小于threshold(阈值)的最左侧的点(图1中左侧虚线交叉点)的下标值即为人脸区域最靠近相机的距离数值，从最大值向右连续寻找数值不小于threshold的最右侧的点(图1中右侧虚线交叉点)的下标值即为人脸区域最远的距离数值。人脸的深度范围即为图1中竖直虚线中间的范围。

d、将人脸深度范围映射到值域[0,255]，做尺度化处理：记人脸区域最近的距离为m，最远的距离为M，U为原始获取的16位无符号整数的裁切出的人脸Depth数据，D为尺度化后的人脸Depth图像，尺度化计算公式如下：

其中，d_k为D的第k个像素值，u_k是U的第k个位置的人脸深度值，根据经验，threshold取值为50时处理效果最好。

步骤三、级联网络模型训练：

采用人脸深度预测网络和分类网络级联的网络模型，网络结构如图4所示，图中，上排卷积网络表示人脸深度预测网络，下排卷积网络表示表示人脸深度分类网络。

a、深度预测网络的输入为3通道的RGB人脸图像，记为I，深度预测网络的输出为预测的人脸深度信息D^*，记人脸的真实深度图像为D，深度预测网络的输出作为分类网络的输入，分类网络的输出为预测的人脸深度图像的类别C^*，记真实的类别为C。人脸深度预测网络由8个卷积层和3个反卷积层组成，除了最后一个反卷积层，其余的卷积层和反卷积层后各接了一个BatchNormalization层和PReLU层。为了增加网络高层的感受野大小，在第一、第二和第五个卷积层后各接了一个Pooling层，损失函数采用Euclidean Loss(欧式距离损失函数)。深度预测网络的监督信号为L₂Loss，即预测的人脸深度信息D^*和真实人脸深度图像的误差：

其中，D_ij表示D图像的第i行第j列；

表示D^*图像的第i行第j列；P、Q分别表示图像的高度、宽度。

b、深度人脸分类网络的是由8个卷积层和3个全连接层组成，在每一个卷积层之后，都接有一个BatchNormalization层和ReLU层，分类网络结构中，分别在第一个、第二个、第四个、第六个和第八个卷积层后各接有Pooling层。分类网络的前两个全连接层之后分别接了一个ReLU层和Dropout层，第三个全连接层的输出结果直接用来计算分类损失，损失函数采用SoftmaxwithLoss(一种分类训练损失函数)。

c、由于两个网络的收敛速率不同，在前期的模型训练时，将两个网络分开来训练，此时分类网络的输入为真实人脸Depth图像数据。在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning(finetuning是利用别人训练好的模型，再加上自己的数据进行新模型训练的常用手段)直至级联网络的loss达到收敛状态。级联网络的loss为两个监督信号的加权和，由于L₂Loss的数量级远高于分类损失SoftmaxwithLoss的数值，设置预测网络的Loss的权值为0.001。级联网络的优化目标为：

其中，W_F为深度预测网络的权值，W_C为分类网络的权值，F_F和F_C分别为深度预测网络模型和分类网络模型；z是分类网络输出的向量，对应图4中最后输出的分类网络的该层特征，表示的是每一类人脸的概率。假设训练集中是N个人的人脸数据，那么z的维度就为N，j的取值范围是[0,N-1]；z_j表示预测为第j个人的概率，y是人脸数据的lable，即人脸的真实类别，z_y是预测为正确的人脸类别的概率。

优化目标的第一部分为深度预测网络的监督信号，第二部分为分类网络的监督信号，其中α＝0.001，β＝1。α、β的取值说明：因为计算出的两个loss的数值不在同一个数量级上，所以前面加上系数来限制两个loss在同一个数量级上。

步骤四、人脸识别网络模型采用Google Inceptive V2提出的网络结构，人脸的RGB模态数据和预测出的Depth模态数据分别训练出各自的模型M₁和M₂。待模型训练完成后，提取网络结构中loss1/fc层的向量作为人脸的特征向量。人脸的相似度度量采用特征向量的cosine(余弦)距离，假设RGB模态数据集上的人脸识别率为r₁，Depth模态数据集上的人脸识别率为r₂。

步骤五、模型融合：在相似度度量层级上进行模型融合，在测试阶段，RGB模态的相似度为s₁，预测出的Depth模态的相似度为s₂，则融合后的相似度计算如下：

步骤六、测试阶段。模型测试示意图如图5所示：

a、通过普通的RGB单模态相机获取RGB模态数据，并裁切出人脸区域。送入模型M₁提取RGB模态的人脸特征并分别与注册集中的RGB模态人脸特征计算consine距离作为相似度度量。

b、将步骤a得到的人脸RGB模态图像送入深度预测网络模型中，预测出对应的Depth模态人脸图像，送入模型M₂提取Depth模态的人脸特征并与注册集中的Depth模态人脸特征计算consine距离作为相似度度量。

本发明的创新点与关键点在于：

(1)设计了一个人脸Depth预测网络和分类网络级联的深度卷积神经网络结构来预测人脸可判别式的Depth图像，在网络训练阶段输入的数据为人脸RGB图像和人脸类别，在网络测试阶段输入的数据仅为人脸RGB图像。在该级联网络中，深度预测网络的输出作为分类网络的输入来达到两个网络级联的效果。

如图6所示，对于级联的两个卷积神经网络，分别有两个监督信号，通过计算L₂Loss即计算人脸深度预测网络的输出与人脸真实Depth图像的Euclidean Distance作为人脸深度预测网络的监督信号，计算分类网络输出的人脸类别概率和人脸真实类别之间的SoftmaxwithLoss作为分类网络的监督信号，通过这两个监督信号，预测网络输出的人脸Depth图像不仅趋向于真实人脸Depth图像，而且使得预测出的Depth图像更加富有身份信息。

技术效果是：通过人脸深度预测网络和分类网络级联的卷积神经网络生成的人脸Depth图像比单纯的使用预测网络生成的人脸Depth图像在人脸识别准确率上有很大的提升。

(2)如图5所示，对于裁切好的人脸RGB模态数据和预测出的Depth模态数据分别送入人脸识别网络训练，对于两种模态数据分别训练出两个模型M1和M2。在测试阶段，同一个人的两个模态数据在对应的训练模型上提取出指定层的特征作为计算人脸相似度的特征向量。通过计算两个特征向量的余弦距离作为人脸相似度的度量方式。对于人脸的两种模态的特征向量，在人脸相似度层面进行融合。

技术效果是：两种模态融合后的人脸识别准确率高于单一模态的人脸识别准确率。

(3)采用RealSense设备采集得到的深度数值是16位无符号整数，对深度人脸数据的预处理操作为：1)根据RealSense采集得到的近红外图像中的人脸坐标得到深度图像中的人脸坐标；2)通过绘制人脸图像的深度直方图将人脸区域分割出来，人脸区域的深度范围缩放到0到255，背景和前景区域的深度范围统一置为0。

技术效果是：通过去除Depth图像中的非人脸区域，可以减少非人脸因素的干扰，提高Depth数据人脸识别准确率。

本发明创造性的提出了通过预测手段来产生人脸的其他模态，即通过人脸的RGB模态信息来预测人脸的判别式Depth模态信息，即在Depth模态信息中融合了更多的身份信息，并将两种模态结合起来进行RGB-D多模态人脸识别。由RealSense多模态相机获取得到的Depth信息和NIR信息共享同一个坐标，即Depth模态中人脸坐标和NIR模态中人脸坐标保持一致，本发明将NIR模态作为灰度图像送入人脸检测器中进行人脸定位，得到的定位坐标即为Depth模态中的人脸定位坐标，使得Depth模态中的人脸检测不受RGB模态和光照的影响。本技发明不改变现有的RGB单模态相机的情况下，只在算法层面进行设计即可实现多模态人脸识别。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述方法的整体步骤为：

步骤一、数据提取阶段：

步骤二、Depth模态数据人脸分割及尺度化：

a、获取crop出的人脸Depth数据的直方图；

b、对直方图做平滑处理，消除存在的噪声；

d、将人脸深度范围映射到阈值[0,255]，做尺度化处理；

步骤三、级联网络模型训练：

采用人脸深度预测网络和分类网络级联的网络模型进行训练；级联网络模型训练的具体过程为：

其中，D_ij表示D图像的第i行第j列；

表示D^*图像的第i行第j列；P、Q分别表示图像的高度、宽度；

其中，W_F为深度预测网络的权值，W_C为分类网络的权值，F_F和F_C分别为深度预测网络模型和分类网络模型；z是分类网络输出的向量，对应最后输出的分类网络的特征，表示的是每一类人脸的概率；假设训练集中是N个人的人脸数据，那么z的维度就为N，j的取值范围是[0,N-1]；zj表示预测为第j个人的概率，y是人脸数据的lable，即人脸的真实类别，zy是预测为正确的人脸类别的概率；

优化目标的第一部分为深度预测网络的监督信号，第二部分为分类网络的监督信号，其中α＝0.001，β＝1；

步骤四、人脸识别网络训练；

步骤五、模型融合；

步骤六、测试阶段；

2.根据权利要求1所述的通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述步骤一中的关键点定位通常采用五点定位的方式，五点分别为2个眼角、鼻尖、2个嘴角。

3.根据权利要求1或2所述的通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述步骤一中，对于提供RGB模态到Depth模态坐标映射关系的数据集，直接根据RGB检测出的人脸坐标位置映射到Depth模态的人脸区域并裁切出Depth模态的人脸数据，Depth模态的数据保存时的尺寸为256x256像素大小；

4.根据权利要求1所述的通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述步骤二中对直方图做平滑处理的公式为：

式中，i表示距离；t是迭代的次数，其取值范围为1～T；H_t，i为迭代t次时下标i对应的高度；将公式一迭代计算T次后可消除Depth数据的直方图中存在的噪声，形成平滑的直方图，便于确定人脸区域的范围。

5.根据权利要求4所述的通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述步骤二中人脸分割及尺度化处理的具体方法为：

6.根据权利要求5所述的通过人脸深度预测进行多模态人脸识别的方法，其特征在于：所述步骤三中，由于两个网络的收敛速率不同，在前期的模型训练时，将两个网络分开来训练，此时分类网络的输入为真实人脸Depth图像数据；在两个网络模型分别达到收敛状态后再将两个网络模型级联起来并在之前预训练的模型基础上进行finetuning直至级联网络的loss达到收敛状态。