CN110674677A

CN110674677A - 一种多模态多层融合的用于人脸反欺骗的深度神经网络

Info

Publication number: CN110674677A
Application number: CN201910722261.7A
Authority: CN
Inventors: 纪荣嵘; 匡华峰; 刘弘
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2020-01-10

Abstract

一种多模态多层融合的用于人脸反欺骗的深度神经网络，涉及图像异常样本检测。包括图像特征提取前端和一个神经网络分类器；网络包含参差神经网络层、多模态权重自适应模块以及全连接层分类单元；神经网络前端包括多个不同模态数据处理分支，用于分别处理多种不同模态的图像数据，每一个分支由多个残差神经网络层连接组成；每个分支的各层残差神经网络层输出的图像特征通过多模态权重自适应模块进行特征融合；多模态权重自适应模块包含上分支和下分支，上分支用于通过一个图像卷积操作对多种模态信息的特征进行融合，得到一个融合特征；下分支包含图像卷积操作单元、全局池化层、softmax单元、ReLU激活单元和全连接层。

Description

一种多模态多层融合的用于人脸反欺骗的深度神经网络

技术领域

本发明涉及图像异常样本检测，是基于平均中心损失函数的一种多模态多层融合的用于人脸反欺骗检查的深度神经网络。

背景技术

随着深度神经网络在人脸识别任务上取得卓越的效果，基于深度学习的人脸检测技术已经广泛的部署在现实应用中，包括手机解锁、门禁系统以及人脸支付等。但基于深度神经网络的人脸识别系统已经被证实非常容易受到对抗样本的干扰，这些干扰包括但不限于通过打印照片或播放相关的人脸视频来对人脸识别系统进行破解。显然，通过这种干扰进行人脸认证是非法的。因此，人脸反欺骗技术被引起重视，它的主要目的在于检测当前系统捕获的人脸是否是合法的人脸，合法人脸则输入系统进一步验证，否则直接拒绝验证。

传统的人脸反欺骗方法将该问题看出是一个二分类问题，即将真实人脸分为正类，而异常人脸则为负类。以前的方法大多数使用人工设计的特征，比如LBP，HoG，SURF等(具体内容可以参考文献Ivana Chingovska,AndréAnjos,and Sébastien Marcel.2012.Onthe eff ectivenessof local binary patterns in face anti-spoofing.InProceedings of the BIOSIG)，来训练一个二分类器。但这些人工设计的特征往往比较局限，它们对不同的环境和设备较为敏感，容易收到对抗样本的干扰。随着深度学习的发展，深度神经网络被用于人脸反欺骗任务，并取得了卓越的表现。基于神经网络的方法(参考文献Jianwei Yang,Zhen Lei,and Stan Z Li.2014.Learn convolutional neuralnetworkfor face anti-spoofing.arXiv:1408.5601(2014))通过使用采集到的图像的颜色，纹理，结构等信息对进行网络训练，最后进行二分类检测。但现有的方法只是单一的使用的可见光(RGB图像)信息。这些信息对光照或环境的改变非常敏感，同时这些方法很容易过拟合，模型的泛化能力较差。

为了解决上述问题，考虑使用多模态信息，在现实应用中，近红外(NIR)信息已经被广泛用于人脸识别任务中(参考文献Stan Z Li,RuFeng Chu,ShengCai Liao,and LunZhang.2007.Illuminationinvariant face recognition using near-infraredimages.IEEE Trans.on patternanalysis and machine intelligence(2007))，增加了NIR信息的人脸识别系统能极大的提高人脸识别的准确率以及模型的反欺骗能力。另一方面，使用深度信息用于人脸识别任务同样取得了卓越的效果(参考文献Yan Wang,FudongNian,Teng Li,Zhijun Meng,and Kongqiao Wang.2017.Robustface anti-spoofing with depth information.Journal of Visual Communication andImageRepresentation(2017))。深度信息对人脸识别系统同样是一个非常重要的信息，它能反应现实环境的空间结构，能有效地检测对抗样本以及提高人脸识别的准确率。在使用多模态信息中，主要的关键挑战有两点：1、如何高效的融合不同模态的信息。2、如何使用网络中的不同层次的特征。此外，为了解决深度神经网络容易过拟合的问题。考虑重新设计模型的损失函数，使得模型有更强的鲁棒性。

发明内容

本发明的目的在于解决以往在用深度神经网络进行人脸反欺骗检测时，无法使用多模态信息，以及对神经网络每一层的层次信息未能充分利用，同时由于单一的损失函数训练出来的模型容易过拟合等问题，提出基于平均中心损失函数的一种多模态多层融合的用于人脸反欺骗的深度神经网络。

所述多模态多层融合的用于人脸反欺骗的深度神经网络包括图像特征提取前端和一个神经网络分类器；网络包含参差神经网络层、多模态权重自适应模块以及全连接层分类单元；神经网络前端包括多个不同模态数据处理分支，用于分别处理多种不同模态的图像数据，每一个分支由多个残差神经网络层连接组成；每个分支的各层残差神经网络层输出的图像特征通过多模态权重自适应模块进行特征融合，在图像特征通过最后一个多模态权重自适应模块后，图像特征输入到一个残差神经网络层，并输出一个多维的特征向量，最后特征向量通过一个全连接层进行分类；

所述多模态权重自适应模块包含两个分支——上分支和下分支，上分支用于通过一个图像卷积操作对多种模态信息的特征进行融合，得到一个融合特征；下分支作为一个权重自适应学习模块，包含图像卷积操作单元、全局池化层、softmax单元、ReLU激活单元和全连接层；图像卷积操作单元和全局池化层用于对不同模态信息进行信息压缩和结合，softmaxt单元和ReLU单元用于对压缩后的信息进行归一化并激活，全连接层用于重新分配各个模态的权重值，该模块通过压缩每个模态特征的全局信息得到所有模态的信息描述符；所有模态的信息描述符连接后得到一个模态描述向量，通过一个全连接层生成一个C_n维的权重标量。

所述多种不同模态的图像数据包括彩色图像、深度图像、红外图像等。

本发明的优点如下：

通过本发明提出的网络结构，能够获得更鲁棒以及泛化能力更强的人脸反欺骗模型，能够学到区别性更强的特征。网络结构充分的考虑了不同模态所包含的信息得重要性，同时也关注于深度神经网络不同层次所包含的不同抽象特征。通过提出的多模态权重自适应模块进行特征融合，从而充分的利用了各模态信息，以及网络中不同层次的信息。同时，通过使用平均二分类中心损失函数对网络进行训练，使得模型进一步学习到更具有区别性的特征，提高模型的准确率以及泛化能力。本发明采用一种多模态多层次融合的神经网络架构，同时使用创新的平均二分类损失函数来使模型学的更有区别的特征，使得模型更具鲁棒性和泛化能力。本发明提高了模型的分类准确率，以及不同数据的泛化能力，从而使得本发明能够更好得适用于大规模真实环境下的人脸反欺骗任务。

附图说明

图1为本发明的网络结构框架图。

图2为本发明的多模态权重自适应模块图。

具体实施方式

以下实施例将结合附图对本发明作详细的说明。

本发明实例包括以下部分：

1.多模态多层融合网络，如图1所示，网络使用多模态数据进行输入，包括RGB、Depth、NIR、HSV和YCbCr五种模态信息，对于每一种模态图像，深度神经网络单独使用一个resnet34网络对其特征抽取，resnet34网络包含5层残差神经网络层(以下用res*来表示resnet34网络的第几层残差网络层，res1表示第一层)，深度神经网络使用前3个残差神经网络层抽取出来的特征进行融合。融合方式为多模态权重自适应方式，深度神经网络首先使用res1层的多模态特征进行融合，融合后输出一个新融合特征，该特征与下一层的多模态特征继续进行融合，直到最后一层(res4)之后模型使用一个全局池化层产生一个512维的判别特征，最后输入一个全连接层进行二分类。

2.多模态权重自适应模块，如图2所示，模块包含两个分支，上分支通过一个卷积操作对多种模态信息的特征进行融合，得到一个融合特征f∈R^CnxWxH,下分支作为一个权重自适应学习模块，首先通过压缩每个模态特征的全局信息得到一个模态描述子(M_desc),具体计算公式为：

其中f_c是模态特征，δ表示ReLU函数(具体可以参考Vinod Nair and Geoffrey EHinton.2010.Rectifi ed linear units improve restrictedboltzmann machines.InProceedings of the ICML)，每一个模态的特征输入一个卷积层，输出一个1*H*W的特征，然后通过全局平均池化层进一步进行信息压缩，最后通过一个激活函数得到最后的模态描述符。通过上述操作可以得到所有模态的信息描述符。然后欺骗的深度神经网络通过连接所有的模态描述符得到一个模态描述向量V_desc，接着对模态描述向量进行softmax操作，最后通过一个全连接层生成一个C_n维的权重标量v.相关计算公式为：

Vnormal＝ζ(V_desc)，

v＝σ(w*V_normal)，

frw＝F_scale(v*f)，

其中σ表示sigmodal函数，ζ表示softmax函数，F表示通道间的乘法计算，最后得到一个调整过权重的特征f_rw。

3.平均二分类中心损失函数

为了使模型能更鲁棒性，欺骗的深度神经网络提出了平均二分类中心损失函数(Average Binary Center loss),具体的定义如下：

其中，N表示样本的数量，i表示第几个样本,C_live/spoof表示特征中心，△表示边界阙值，f表示用于抽取特征的深度神经网络模型，欺骗的深度神经网络提出平均二分类中心损失函数基于以下考虑，在人脸反欺骗任务中，主要是二分类，由于人脸结构的相似性，很容易造成真实样本于假样本的分布区域进行重叠，从而导致分类错误，所以欺骗的深度神经网络在损失中最大化两个中心位置的距离，从而保证两个中心分离，使模型学到区别性更强的特征。

以CASIA-SURF数据为例进行说明：CASIA-SURF包含6万张112×112大小的图片。图片总共可以分为1000个人脸，每个人脸都包含3中模态信息(RGB，Depth，NIR)。

CASIA-SURF数据集中方法实验结果参见表1和2。

表1不同的模态数量实验结果

表2不同的融合方式以及损失函数实验结果

基于本发明，在多模态数据集CASIA-SURF上进行了实验验证，实验结果如表1和2所示，表1给出使用不同数量的模态信息的实验结果，评价标准为TPR@FPR＝10-4.该评价准则为Receiver Operating Characteristic(ROC)曲线，表2给出不同的融合方式以及不同损失函数的实验结果。通过实验结果对比可以看出，本发明取得了最优的结果。

Claims

1.一种多模态多层融合的用于人脸反欺骗的深度神经网络，其特征在于包括图像特征提取前端和一个神经网络分类器；网络包含参差神经网络层、多模态权重自适应模块以及全连接层分类单元；神经网络前端包括多个不同模态数据处理分支，用于分别处理多种不同模态的图像数据，每一个分支由多个残差神经网络层连接组成；每个分支的各层残差神经网络层输出的图像特征通过多模态权重自适应模块进行特征融合，在图像特征通过最后一个多模态权重自适应模块后，图像特征输入到一个残差神经网络层，并输出一个多维的特征向量，最后特征向量通过一个全连接层进行分类；

2.如权利要求1所述一种多模态多层融合的用于人脸反欺骗的深度神经网络，其特征在于所述多种不同模态的图像数据包括彩色图像、深度图像、红外图像。