CN111401107B

CN111401107B - 基于特征融合神经网络的多模态人脸识别方法

Info

Publication number: CN111401107B
Application number: CN201910001632.2A
Authority: CN
Inventors: 陈嘉君; 徐树公; 曹姗; 张舜卿
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2023-08-18
Anticipated expiration: 2039-01-02
Also published as: CN111401107A

Abstract

一种基于特征融合神经网络的多模态人脸识别方法，通过融合特征卷积神经网络，以预处理后正常光源下的可见光图像和红外光图像作为训练集进行训练，并在训练后对各种光源情况下的可见光图像和红外光图像进行识别。本发明采用特征融合卷积网络，融合可见光人脸和近红外人脸的特征，在应对不同光照强度下，获得更加高的人脸识别结果，在应对无光、弱光，正常光源下，特征融合网络具有高鲁棒性和高准确率。

Description

基于特征融合神经网络的多模态人脸识别方法

技术领域

本发明涉及的是一种人工智能识别领域的技术，具体是一种基于特征融合神经网络的多模态人脸识别方法。

背景技术

现有的人脸识别方法一般采用HOG、LBP、LGBP等算法或神经网络来提取特征进行人脸识别。但这些方法很适合运用于正常光源下的人脸情况。一旦人脸在非正常光强下，人脸识别的准确率就会不理想。

现有的改进技术中有通过先计算拍摄到的人脸图像受光照影响的程度，并根据影响程度调整人脸图像的明暗值，后再通过神经网络进行处理，或通过红外线方式提取人脸图像进行后续特征提取。但这些技术在特征提取前都无法避免地会产生图像中的信息的损失。因而影响后续特征提取以及识别率。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于特征融合神经网络的多模态人脸识别方法，采用特征融合卷积网络，融合可见光人脸和近红外人脸的特征，在应对不同光照强度下，获得更加高的人脸识别结果，在应对无光、弱光，正常光源下，特征融合网络具有高鲁棒性和高准确率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于特征融合神经网络的多模态人脸识别方法，通过融合特征卷积神经网络，以预处理后正常光源下的可见光图像和红外光图像作为训练集进行训练，并在训练后对各种光源情况下的可见光图像和红外光图像进行识别。

所述的预处理是指：按照相同帧率同步截取可见光和近红外的人脸图像，对各光谱图像进行人脸检测、人脸定位和剪裁，分别生成可见光与近红外光下同步的人脸图像，分别记为V(可见光人脸)和N(近红外人脸)。

所述的各种光源包括：正常光源、弱光和无光情况。

所述的融合特征卷积神经网络，包括可见光分支网络层、近红外分支网络层、融合层和预测层。

所述的可见光分支网络层和近红外分支网络层均为卷积神经网络且各包括五个卷积块和一个全连接层，其中：第一卷积块和第二卷积块均包括两个用于特征提取的卷积层和一个用于降维的最大池化层，第三至第五卷积块均包括三个用于特征提取的卷积层和一个用于降维的最大池化层，每一层运算操作后的特征图都经过Relu函数作为非线性激活函数。

可见光与近红外图像分别经过各自的卷积层进行卷积操作提取特征值，之后经过各自网络的全连接层。

所述的融合层通过融合操作将可见光分支网络层最后的全连接层的特征向量与近红外分支网络层最后的全连接层的特征向量串联起来，得到的特征向量包含了可见光的特征和近红外的特征。

在应对不同光强下，可见光图像可获得更多的人脸细节特征，但会严重受到光强的影响，但是近红外却对光强的影响不敏感，所以在恶劣光源下可以获得人脸的特征。在融合过程中，分别将卷积层学习到的可见光与近红外特征进行串联互补，在应对光强影响下，特征信息会比单光谱的更加丰富。并将串联起来的特征向量，送入之后预测层进行人脸预测。

所述的预测层所采用的人脸的标签为one-hot标签，以softmax进行人脸概率预测，通过softmax输出每个注册人脸的概率，取概率最大的人脸作为最后的人脸识别结果；训练损失函数选用交叉熵(Categorical Crossentropy)。

本发明涉及一种实现上述方法的系统，包括：预处理模块、识别模块和结果输出模块，其中：预处理模块将收到的可见光图像和近红外图像进行人脸检测、人脸定位和剪裁处理后输出至包含融合特征卷积神经网络的识别模块，识别模块根据可见光图像和近红外图像对融合特征卷积神经网络进行训练或测试，并输出图像相似概率结果至结果输出模块，结果输出模块经过各概率比较输出最大概率人脸类别作为输出识别结果。

技术效果

本发明采用的特征融合卷积神经网络分别融合了可见光和近红外的优点，近红外弥补了可见光对光强敏感的缺点，可见光弥补了近红外纹理特征少的缺点。首先使用各自分支的卷积网络提取特征，然后经过融合层进行融合。在Oulu-CASIA数据集的识别精度达到了很好的结果。

相比现有技术仅用单光谱训练的人脸识别网络，本发明提出的特征融合卷积神经网络在应对无光，暗光情况下有很高的人脸识别准确率。并且在正常光源下也能获得更好的识别准确率。

附图说明

图1多模态人脸识别实现流程图

图2为提出的融合特征卷积网络。

具体实施方式

如图1所示，为本实施例涉及的一种基于特征融合神经网络的多模态人脸识别方法，通过融合特征卷积神经网络分别对预处理后的可见光图像和红外光图像进行识别。本实施例在Oulu-CASIA公开的近红外与可见光人脸数据集上进行测试。

Oulu-CASIA人脸数据集包含三种不同光源下的可见光人脸和近红外人脸，且近红外人脸图像和可见光人脸图像是一一对应的，其中：数据集的人脸包含六种表情，分别为惊讶，开心，悲伤，生气，恐惧和沮丧，总共包含80个类别的人，并包含两部分，一部分包含50类人，其中大部分是法国人，另一部分包含30类人，其中大部分是中国人；三种光强情况分为无光，弱光和正常光。每个不同的光源下，每个类别的人有30个样本。

步骤1)对于训练数据，先进行数据预处理，分别对正常光源下的可见光和近红外人脸图像进行人脸定位、裁剪和尺寸归一化，使得每个图像的输入尺寸大小为224×224，并给每个人脸图像设置相对应类别的标签，标签形式为one-hot标签格式，作为特征融合的卷积神经网络的输入数据。

本实施例在训练时仅使用正常光源下的人脸图片，每个人取6张注册人脸，即可见光和近红外各480张人脸图片。测试时，在不同光源下，每个人取32张测试图片，即可见光和近红外各1920张人脸图片。

训练过程中，卷积核和权重进行随机初始化，偏置项置为0。采用随机梯度下降(SGD)算法对网络进行网络参数的更新和梯度的优化，当网络迭代次数达到预设值时，训练停止并保存训练好的特征融合卷积神经网络。

所述的特征融合卷积神经网络由可见光卷积网络分支和近红外卷积网络分支组成，各包括五个卷积块和一个全连接层，其中：

第一卷积块包括两个卷积核尺寸为3×3、步长为1×1、卷积核数量为64的卷积层和一个卷积核为2×2、步长为2×2的最大池化层。

第二卷积块包括两个卷积核尺寸为3×3、步长为1×1、卷积核数量为128的卷积层和一个卷积核为2×2、步长为2×2的最大池化层。

第三卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为256的卷积层和一个卷积核为2×2、步长为2×2的最大池化层。

第四卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为512的卷积层和一个卷积核为2×2、步长为2×2的最大池化层。

第五卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为512的卷积层和一个卷积核为2×2、步长为2×2的最大池化层。

两个全连接层各有4096个节点。

在融合层将两个分支网络得到的特征向量进行串联，即得到8192个节点。融合层之后经过一个全连接层，全连接层的节点为80，80为数据集人类别的数量，之后经过softmax激活函数，用于输出不同类别的预测概率。除了融合之后的全连接层，其余卷积层和全连接层都使用ReLU激活函数，进行非线性转换。

步骤2)测试过程：测试的人脸图像包含正常光源、弱光和无光的情况。对测试人脸样本采用和训练阶段同样的数据预处理和融合特征卷积神经网络的步骤。将测试样本输入到保存的特征融合卷积神经网络模型中，输出预测结果，并计算识别准确率。如表1、表2所示，本方法在Oulu-CASIA的公开数据集上能取得很好的结果。与单光谱卷积神经网络人脸识别，特征融合卷积神经网络在应对三种光源下都有很好的表现和结果。

光谱	正常光源	弱光	无光
				可见光	98.75％	6.40％	8.13％
近红外光	96.30％	87.03％	79.84％

表1不同光源下单光谱的人脸识别结果

光照条件	注册人脸个数(3)	注册人脸个数(6)
			正常光源	95.63％	98.75％
弱光	86.97％	91.56％
			无光	80.72％	85.31％

表2不同光源下的特征融合网络的人脸识别结果

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于特征融合神经网络的多模态人脸识别方法，通过融合特征卷积神经网络，以预处理后正常光源下的可见光图像和红外光图像作为训练集进行训练，并在训练后对各种光源情况下的可见光图像和红外光图像进行识别；

所述的融合特征卷积神经网络，包括可见光分支网络层、近红外分支网络层、融合层和预测层；

所述的可见光分支网络层和近红外分支网络层均为卷积神经网络且各包括五个卷积块和一个全连接层，其中：第一卷积块和第二卷积块均包括两个用于特征提取的卷积层和一个用于降维的最大池化层，第三至第五卷积块均包括三个用于特征提取的卷积层和一个用于降维的最大池化层，每一层运算操作后的特征图都经过Relu函数作为非线性激活函数；可见光与近红外图像分别经过各自的卷积层进行卷积操作提取特征值，之后经过各自网络的全连接层；

所述的第一卷积块包括两个卷积核尺寸为3×3、步长为1×1、卷积核数量为64的卷积层和一个卷积核为2×2、步长为2×2的最大池化层；

第二卷积块包括两个卷积核尺寸为3×3、步长为1×1、卷积核数量为128的卷积层和一个卷积核为2×2、步长为2×2的最大池化层；

第三卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为256的卷积层和一个卷积核为2×2、步长为2×2的最大池化层；

第四卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为512的卷积层和一个卷积核为2×2、步长为2×2的最大池化层；

第五卷积块包括三个卷积核尺寸为3×3、步长为1×1、卷积核数量为512的卷积层和一个卷积核为2×2、步长为2×2的最大池化层；

两个全连接层各有4096个节点；

所述的融合层通过融合操作将可见光分支网络层最后的全连接层的特征向量与近红外分支网络层最后的全连接层的特征向量串联起来，得到的特征向量包含了可见光的特征和近红外的特征；

所述的预测层所采用的人脸的标签为one-hot标签，以softmax进行人脸概率预测，通过softmax输出每个注册人脸的概率，取概率最大的人脸作为最后的人脸识别结果；训练损失函数选用交叉熵；

2.一种实现权利要求1所述方法的系统，其特征在于，包括：预处理模块、识别模块和结果输出模块，其中：预处理模块将收到的可见光图像和近红外图像进行人脸检测、人脸定位和剪裁处理后输出至包含融合特征卷积神经网络的识别模块，识别模块根据可见光图像和近红外图像对融合特征卷积神经网络进行训练或测试，并输出图像相似概率结果至结果输出模块，结果输出模块经过各概率比较输出最大概率人脸类别作为输出识别结果。