CN106203373B

CN106203373B - 一种基于深度视觉词袋模型的人脸活体检测方法

Info

Publication number: CN106203373B
Application number: CN201610570537.0A
Authority: CN
Inventors: 杨达坤; 赖剑煌; 梅岭
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2019-04-16
Anticipated expiration: 2036-07-19
Also published as: CN106203373A

Abstract

本发明公开了一种基于深度视觉词袋模型的人脸活体检测方法，该方法包括以下步骤：对于训练集中每一个人脸活体图像，计算其对应的LBP特征；利用深度稀疏自编码网络将LBP特征编码成高级特征；利用训练集的人脸图像的类标对整个深度稀疏自编码网络进行训练，得到更具有区分性的高级特征；将更具有区分性的高级特征输入到LIBSVM进行训练，从而建立SVM模型；将计算的LBP特征输入深度稀疏自编码网络得到高级特征，然后利用建立的SVM模型对其进行分类，得到人脸活体图像的类标。本发明能够得到更有鲁棒性、更有区别性的高级特征，从而对非控条件下的人脸活体检测具有更高的检测率。

Description

一种基于深度视觉词袋模型的人脸活体检测方法

技术领域

本发明涉及模式识别与机器学习领域，特别涉及人脸识别方法。

背景技术

在生物识别系统中，自动人脸识别技术起着重要的作用，同时人脸欺骗攻击也越来越被关注。一个非法用户可以持有合法用户的人脸照片或者视频来欺骗人脸识别系统，从而通过系统的识别和验证。目前的解决办法通常是依赖像LBP和WLD这类的图像描述子，然后利用分类器对这些描述子进行分类。然而这些手工涉及的低级特征对于大量的人脸图像数据缺乏足够的区分性。

发明内容

为了解决现有技术所存在的问题，本发明提出一种基于深度视觉词袋模型的人脸活体检测方法，该方法利用深度稀疏自编码网络获得高级特征，通过BOW模块和深度视觉结构的融合互补和强化得到深度层级视觉特征，最后利用SVM模型对深度层级视觉特征进行分类来判别是否活体，能够得到更有鲁棒性、更有区别性的高级特征，从而对非控条件下的人脸活体检测具有更高的检测率。

本发明采用如下技术方案来实现：一种基于深度视觉词袋模型的人脸活体检测方法，包括以下步骤：

步骤a、对于训练集中每一个人脸活体图像，计算其对应的LBP特征；

步骤b、利用深度稀疏自编码网络将LBP特征编码成高级特征；

步骤c、利用训练集的人脸图像的类标对整个深度稀疏自编码网络进行训练，得到更具有区分性的高级特征；

步骤d、将步骤c得到更具有区分性的高级特征输入到LIBSVM进行训练，从而建立SVM模型；

步骤e、将步骤a计算的LBP特征输入步骤b的深度稀疏自编码网络得到高级特征，然后利用步骤d建立的SVM模型对其进行分类，得到人脸活体图像的类标。

从以上技术方案可知，本发明的主要原理为：采用适合人脸活体检测的LBP描述子提取底层特征，并且对于词袋模型的第二模块――词典生成和特征量化部分，引入了基于深度视觉的稀疏自编码结构将LBP低级特征编码成高级特征；通过BOW模块和深度视觉结构的融合互补和强化，得到了这个深度层级视觉特征；最后利用SVM对这个深度层级视觉特征进行分类来判别是否活体。与现有技术相比，本发明所具有的有益效果为：

利用深度稀疏自编码网络进行非监督的训练，从而得到比人工设计的特征更泛化，更具有区别性的高级特征；并且利用词袋模型和深度稀疏自编码网络相结合得到深度层级视觉特征，这个深度层级视觉特征比传统的词袋模型得到的特征向量更具有有效性和鲁棒性。

附图说明

图1为本发明方法的操作流程图；

图2为深度稀疏自编码网络的结构示意图；

图3为自编码网络的结构示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明基于深度视觉词袋模型的人脸活体检测方法，可分为两个训练阶段和一个测试阶段：(1)训练阶段1：首先利用LBP描述子提取训练集中人脸图像的低级特征，然后由稀疏自编码网络(SAE)组成的深度学习架构将低级特征编码成高级特征，最后根据训练集中人脸图像的活体类标来得到更有区别性的高级特征；(2)训练阶段2：将先前得到的高级特征输入LIBSVM进行训练，从而建立SVM模型；(3)测试阶段：将测试的人脸图像输入深度视觉词袋模型得到高级特征，再将高级特征输入已建立的SVM模型从而判定人脸图像是否为活体。

如图1所示，本发明具体包括下述步骤：

步骤1：将人脸图像数据集中的部分作为训练集，剩下的图像作为测试集；

步骤2：对于训练集中的每一个人脸图像，计算其对应的LBP特征；

对于训练集中的每一个人脸图像I，把图像I分解成一系列的图像块，用W和L分别表示横向和纵向的图像块数量，因此图像I由W×L个图像块组成。通过改变W和L的大小，我们可以得到不同尺度下图像像素的局部描述子表达。

对每个图像块提取LBP特征作为特征描述，此特征可以描绘图像的微观纹理特征以及空间信息。对于给定像素点(x_c,y_c)，它的原始LBP特征可以计算为：

其中P为像素点(x_c,y_c)的编码邻域像素点个数，R为编码半径，g_c和g_p分别是中心点和邻域点的灰度值，s(x)定义为：

再根据原始LBP特征计算均匀模式的LBP特征，其计算公式为：

其中P、R分别取8和1，所以每个人脸活体图像的LBP特征是59维的。

步骤3：利用深度稀疏自编码网络将LBP特征编码成高级特征；

深度稀疏自编码网络的结构如图2所示，包括四层神经元：一层输入层、一层输出层以及两层隐层，其中输入层和两层隐层构成了堆叠的两个稀疏自编码网络，每个稀疏自编码网络包括编码和解码过程，如图3所示，其计算公式如下：

编码：对于每个输入向量x＝(x₁,x₂,…,x_N)^T，隐层单元输出为：

h＝(h₁,h₂,…,h_M)^T＝f(Wx+b)

解码：对于隐层单元向量h＝(h₁,h₂,…,h_M)^T，输出层单元输出为：

y＝(y₁,y₂,…,y_N)^T＝g(W'h+b')

这里的函数f和g都采用sigmoid函数z(x)＝1/(1+exp(-x))。

对于稀疏自编码网络的稀疏性，尽量使得所有隐层单元的平均激活值l为0。由于隐层第j个单元的平均激活值为这里的D是样本个数，对于理想分布l和真实分布l_j的相似度，这里采用KL散度来衡量，其计算公式如下：

那么稀疏自编码网络可以被描述成下面的优化问题：

由于稀疏自编码网络是一个输入等于输出的网络，即x＝y，所以根据这个可以无监督训练得到权值W,W'和阈值b,b'。由训练得到的权值和阈值可以将LBP特征编码成高级特征，即四层深度稀疏自编码网络的第三层的隐层单元输出值。

步骤4：利用训练集的人脸图像的类标对整个深度稀疏自编码网络进行训练，得到更具有区分性的高级特征；

对于训练集中人脸图像的类标，利用logistics损失函数进行有监督训练，从而得到更具有区分性的高级特征。

步骤5：将步骤4学习到的更具有区分性的高级特征输入到LIBSVM进行训练，从而建立SVM模型；

这里SVM模型的分类器使用LIBSVM作为基础的SVM实现工具。SVM模型的分类器选择的核函数为高斯核函数并且采用交叉验证方法进行训练，利用网格搜索方法寻找最优参数集{c,g}。

步骤6：将步骤2的测试集的人脸活体图像的LBP特征输入步骤3的深度稀疏自编码网络得到高级特征，然后利用步骤5建立的SVM模型对其进行分类来得到人脸活体图像的类标。

本实施例通过以下两个实验对本发明的效果进行说明：第一个实验选择NUAA活体人脸数据库，该数据库包含15个人的12614张人脸图像，其中3491张真人脸图像和9123张假人脸图像，这些图像都是64*64的灰度图。第二个实验选择CASIA活体人脸数据库，该数据库包含50个人的600段人脸视频，其中20个人的人脸视频作为训练集，30个人的人脸视频作为测试集。对以上两个数据库的人脸图片，我们将它们做图像分块处理，然后以单张图像为单位对图像块进行本发明的BOW算法处理。BOW算法先将输入图片数据用LBP图像描述子得到初级的人脸特征，然后用SAE深度学习模块学习到高级的人脸特征编码，最后通过训练集训练出来的SVM模型对高级特征进行判别得到最后的分类结果。

对于第一个实验，一共评估了7种不同的方法，它们是：LBP，WLD，MSLBP(H-Face)，MSLBP(Face)，DOG(H-Face)，DOG(Face)和本发明提出的方法。如表1所示，在NUAA数据库上对比了不同方法的活体检测性能指标，BOW方法在NUAA数据库上实现了94.3％的精度，并且我们发现改变BOW方法的图像分块方式对活体检测的性能也有很大影响，表中BOW4采用的是将每张图片按长和宽均分为四块进行编码，BOW2是将每张图片分为左右两块进行编码，BOW1是将整幅图作为一个整体编码。BOW4和BOW2的结果要好于BOW1，说明分块编码能提高活体检测的性能。

表1：BOW在NUAA数据库上与其它方法的比较

方法	AUC	Accuracy	EER	HTER
					BOW4	0.967	0.937	0.076	0.074
BOW2	0.966	0.943	0.048	0.059
					BOW1	0.833	0.816	0.250	0.209
LBP	0.932	0.891	0.081	0.097
					WLD	0.885	0.818	0.218	0.243
DoG	0.717	0.746	0.359	0.362
					DoG,H-Face	0.830	0.818	0.233	0.254
MsLBP	0.873	0.749	0.239	0.272
					MsLBP,H-Face	0.990	0.927	0.248	0.242

对于第二个实验，一共评估了9种不同的方法，它们是：LBP，LBP-TOP，WLD，WLD-TOP，MSLBP(H-Face)，MSLBP(Face)，DOG(H-Face)，DOG(Face)和本发明提出的方法。表2给出了BOW和LBP，LBP-TOP以及WLD这三种常用的活体检测描述子方法在CASIA数据库上的精度，AUC，EER和HTER等性能指标。从表2中可以得知，BOW方法在EER和HTER这两个反映误差的指标上最低，同时在精度和AUC这两个反映准确率的指标上最高。因此，通过表2的结果可以看出将描述子嵌入基于词袋模型的层级视觉编码结构提高了描述子本身的活体检测性能。

表2：BOW在CASIA数据库上与三种描述子的比较

方法	AUC	Accuracy	EER	HTER
					BOW	0.946	0.911	0.112	0.198
LBP-top	0.866	0.791	0.171	0.387
					WLD	0.854	0.871	0.177	0.222
LBP	0.828	0.784	0.247	0.264

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度视觉词袋模型的人脸活体检测方法，其特征在于，包括以下步骤：

步骤b、利用深度稀疏自编码网络将LBP特征编码成高级特征；

步骤e、将步骤a计算的LBP特征输入步骤b的深度稀疏自编码网络得到高级特征，然后利用步骤d建立的SVM模型对其进行分类，得到人脸活体图像的类标；

所述深度稀疏自编码网络包括四层神经元：一层输入层、一层输出层以及两层隐层，输入层和两层隐层构成了堆叠的两个稀疏自编码网络；每个稀疏自编码网络包括编码和解码过程，

h＝(h₁,h₂,…,h_M)^T＝f(Wx+b)

y＝(y₁,y₂,…,y_N)^T＝g(W'h+b')

其中函数f和g都采用sigmoid函数z(x)＝1/(1+exp(-x))；

对于稀疏自编码网络的稀疏性，使得所有隐层单元的平均激活值l为0；由于隐层第j个单元的平均激活值为D是样本个数；对于理想分布l和真实分布l_j的相似度采用KL散度来衡量，其计算公式如下：

稀疏自编码网络被描述成下面的优化问题：

根据稀疏自编码网络是一个输入等于输出的网络，即x＝y，无监督训练得到权值W,W'和阈值b,b'；由训练得到的权值和阈值将LBP特征编码成高级特征，即四层深度稀疏自编码网络的第三层的隐层单元输出值。

2.根据权利要求1所述的方法，其特征在于，所述LBP特征采取均匀LBP模式，先提取中心像素点的原始LBP特征，再根据原始LBP特征计算均匀模式的LBP特征，其计算公式为：

其中函数s(x)定义为：

P为像素点(x_c，y_c)的编码邻域像素点个数，R为编码半径，g_c和g_p分别是中心点和邻域点的灰度值。

3.根据权利要求1所述的方法，其特征在于，对于训练集的人脸图像的类标，利用logistics损失函数进行有监督训练，从而得到更具有区分性的高级特征。

4.根据权利要求1所述的方法，其特征在于，所述SVM模型的分类器使用LIBSVM作为基础的SVM实现工具，SVM模型的分类器选择的核函数为高斯核函数并且采用交叉验证方法进行训练，利用网格搜索方法寻找最优参数集{c，g}。