CN111860056A

CN111860056A - 基于眨眼的活体检测方法、装置、可读存储介质及设备

Info

Publication number: CN111860056A
Application number: CN201910352702.9A
Authority: CN
Inventors: 周军; 王洋; 江武明; 丁松
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2020-10-30
Anticipated expiration: 2039-04-29
Also published as: CN111860056B

Abstract

本发明公开了一种基于眨眼的活体检测方法、装置、计算机可读存储介质及设备，属于人脸识别领域。该方法包括：对连续多帧人脸图像进行预处理，得到眼部图像；将眼部图像输入轻量级神经网络，得到人眼特征向量；使用多元回归softmax计算人眼特征向量的得分，若得分大于设定分值，则判定人眼状态是闭眼，否则，判定人眼状态是睁眼；根据所有人眼状态判断是否有眨眼动作，若存在眨眼动作，则活体检测通过，否则，活体检测不通过。其中，轻量级神经网络包括4个卷积层、4个池化层、1个全连接层和1个sigmoid层，损失函数为binary log los。本发明不但能够解决眨眼判断中姿态、光照等变化导致分类准确率下降的问题，还可以使得人脸活体检测的响应时间较短且稳定。

Description

基于眨眼的活体检测方法、装置、可读存储介质及设备

技术领域

本发明涉及人脸识别领域，特别是指一种基于眨眼的活体检测方法、装置、计算机可读存储介质及设备。

背景技术

随着人脸识别和认证在金融、信息安全等领域的广泛应用，出现越来越多的身份盗用、虚假身份的问题，其中主要是采用假体对识别和认证系统进行攻击。所以，人脸活体检测具有极其重要的意义。而基于眨眼检测的人脸检活方法则具有用户配合度低，判断准确度高等优点而被广泛的采用。

按照眨眼判断的规则区分，现有技术中基于眨眼的活体检测方法大体上可以分为基于特征点定位的方法和基于图像分类的方法两类。

(1)基于特征点定位的方法

基于特征点定位的方法是根据连续几帧图像人眼特征点位置的相对变化来判断是否有眨眼动作。针对连续几帧图像首先要进行特征点定位，并根据连续两帧或几帧图像中人眼同一位置点坐标的差值来判断是否有眨眼动作。具体来说，眨眼动作存在时，人眼上部分定位的特征点应先向下移动在向上移动，即特征定位点的纵坐标应先减小在增大，人眼下部分定位的特征点应该恰好相反，并且同时存在。

基于人脸特征点定位的眨眼判断方法需要完全依赖于较准确人脸特征点定位。并且，该方法需要准确的描述人眼周围的多个关键点，需要定位的关键点多而准确，但现实中定位的准确性极易受到光照、姿态等外界变化的影响。所以，该方法对特征点定位的依赖性较高，对光照等变化鲁棒性较差。

(2)基于图像分类的方法

该方法是根据人眼的图像判断其状态为睁眼或是闭眼，通过连续多帧的状态统计判断是否存在眨眼动作。针对图像进行二分类(睁眼或是闭眼)，分类算法会直接影响最终的判断结果，基于传统方法的二分类精度相对较低，基于深度学习的方法的准确性依赖于网络的深度和宽度，但深度和宽度较大的卷积神经网络会导致较慢的计算速度。

发明内容

为解决上述技术问题，本发明提供一种基于眨眼的活体检测方法、装置、计算机可读存储介质及设备，本发明不但能够解决眨眼判断中姿态、光照等变化导致分类准确率下降的问题，还可以使得人脸活体检测的响应时间较短且稳定。

本发明提供技术方案如下：

第一方面，本发明提供一种基于眨眼的活体检测方法，所述方法包括：

对获取的连续多帧人脸图像进行预处理，得到多帧人脸图像的眼部图像；

将所述多帧人脸图像的眼部图像输入预先训练的轻量级神经网络，得到多个人眼特征向量；

使用多元回归softmax计算每个人眼特征向量的得分，若人眼特征向量的得分大于设定分值，则判定该帧人脸图像的人眼状态是闭眼，否则，判定该帧人脸图像的人眼状态是睁眼；

根据所有人脸图像的人眼状态判断是否有眨眼动作，若存在眨眼动作，则活体检测通过，否则，活体检测不通过；

其中，所述轻量级神经网络包括4个卷积层、4个池化层、1个全连接层和1个sigmoid层，所述轻量级神经网络的损失函数为binary log los。

进一步的，所述根据所有人脸图像的人眼状态判断是否有眨眼动作，包括：

对连续的多帧人脸图像中的每帧人脸图像，统计该帧人脸图像以及该帧人脸图像之前的若干帧人脸图像的人眼状态，若人眼状态是闭眼的数量大于设定数量，则将该帧人脸图像标记为第一状态，否则，将该帧人脸图像标记为第二状态；

若连续的多帧人脸图像存在第一状态和第二状态的交替变化，则判定有眨眼动作。

进一步的，所述预处理包括：

对人脸图像进行人脸检测和特征点定位；并对人脸检测得到的人脸检测框内的人脸区域进行人脸对齐、归一化和灰度化处理，得到脸部图像；

根据特征点定位得到的左眼或右眼的特征点，在人脸图像上选取左眼或右眼区域，并进行灰度化和归一化处理，得到眼部图像。

进一步的，所述基于眨眼的活体检测方法还包括：

将每帧人脸图像的脸部图像进行二维FFT，将脸部图像从空间域转化到频率域上；

计算所有脸部图像在频率域上的响应值的平均值并进行归一化，若平归一化后的均值大于设定数值，则执行下一步，否则，活体检测不通过；

判断相邻两帧人脸图像通过人脸检测得到的人脸检测框的相对位置变化，若连续的多帧人脸图像中有超过设定数目的相邻两帧人脸图像的人脸检测框的相对位置变化超过设定阈值，则活体检测不通过，否则，执行所述根据所有人脸图像的人眼状态判断是否有眨眼动作。

进一步的，所述轻量级神经网络包括依次相连的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、全连接层和sigmoid层。

第二方面，本发明提供一种基于眨眼的活体检测装置，所述装置包括：

预处理模块，用于对获取的连续多帧人脸图像进行预处理，得到多帧人脸图像的眼部图像；

人眼特征向量获取模块，用于将所述多帧人脸图像的眼部图像输入预先训练的轻量级神经网络，得到多个人眼特征向量；

人眼状态判断模块，用于使用多元回归softmax计算每个人眼特征向量的得分，若人眼特征向量的得分大于设定分值，则判定该帧人脸图像的人眼状态是闭眼，否则，判定该帧人脸图像的人眼状态是睁眼；

活体检测模块，用于根据所有人脸图像的人眼状态判断是否有眨眼动作，若存在眨眼动作，则活体检测通过，否则，活体检测不通过；

进一步的，所述根据所有人脸图像的人眼状态判断是否有眨眼动作通过如下单元实现：

状态标记单元，用于对连续的多帧人脸图像中的每帧人脸图像，统计该帧人脸图像以及该帧人脸图像之前的若干帧人脸图像的人眼状态，若人眼状态是闭眼的数量大于设定数量，则将该帧人脸图像标记为第一状态，否则，将该帧人脸图像标记为第二状态；

眨眼判断单元，用于若连续的多帧人脸图像存在第一状态和第二状态的交替变化，则判定有眨眼动作。

进一步的，所述预处理模块包括：

脸部图像获取单元，用于对人脸图像进行人脸检测和特征点定位；并对人脸检测得到的人脸检测框内的人脸区域进行人脸对齐、归一化和灰度化处理，得到脸部图像；

眼部图像获取单元，用于根据特征点定位得到的左眼或右眼的特征点，在人脸图像上选取左眼或右眼区域，并进行灰度化和归一化处理，得到眼部图像；

进一步的，所述基于眨眼的活体检测装置还包括人脸清晰度检测模块和人脸抖动检测模块：

所述人脸清晰度检测模块包括：

二维FFT模块，用于将每帧人脸图像的脸部图像进行二维FFT，将脸部图像从空间域转化到频率域上；

平均值计算单元，用于计算所有脸部图像在频率域上的响应值的平均值并进行归一化，若归一化后的平均值大于设定数值，则执行人脸抖动检测模块，否则，活体检测不通过；

所述人脸抖动检测模块包括：判断相邻两帧人脸图像通过人脸检测得到的人脸检测框的相对位置变化，若连续的多帧人脸图像中有超过设定数目的相邻两帧人脸图像的人脸检测框的相对位置变化超过设定阈值，则活体检测不通过，否则，执行活体检测模块。

第三方面，本发明提供一种用于基于眨眼的活体检测的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括第一方面所述的基于眨眼的活体检测方法的步骤。

第四方面，本发明提供一种用于基于眨眼的活体检测的设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现第一方面所述的基于眨眼的活体检测方法的步骤。

本发明具有以下有益效果：

本发明首先从视频中获取多帧人脸图像并提取出眼部图像，将眼部图像输入本发明设计的轻量级神经网络后得到人眼特征向量。使用多元回归softmax判断人眼状态是睁眼还是闭眼，并根据人脸图像的人眼状态的变化判断是否有眨眼动作来进行活体检测。本发明使用设计的轻量级神经网络提取人眼特征向量，结合多元回归softmax判断人眼状态。不但能够解决眨眼判断中姿态、光照等变化导致分类准确率下降的问题，还可以使得人脸活体检测的响应时间较短且稳定。

附图说明

图1为本发明的基于眨眼的活体检测方法流程图；

图2为脸部图像提取示意图；

图3为眼部图像提取示意图；

图4为本发明的基于眨眼的活体检测装置示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施提供了一种基于眨眼的活体检测方法，如图1所示，该方法包括：

步骤S100：对获取的连续多帧人脸图像进行预处理，得到多帧人脸图像的眼部图像。

基于眨眼的人脸活体检测方法需要判断一段视频中人是否进行了眨眼的动作，从而判该视频中的人为活体或为假体。在实际操作中，需要对视频中的单帧图像进行操作，所以首先需要对人脸检活的视频进行解析，进而获得每一帧图像。这里需要指出的是，在解析图像时只要保证每秒可以获得15帧以上的图像即可(15帧～30帧)。

当从一段视频中解析出多帧人脸图像后，对每一帧人脸图像进行预处理，得到眼部图像，用于轻量级神经网络的输入。

步骤S200：将前述的多帧人脸图像的眼部图像输入预先训练的轻量级神经网络，得到多个人眼特征向量。

本发明通过神经网络自动的学习和提取特征，避免了人工特征设计时主观性的不足。并且，本发明使用轻量级神经网络，缩短了人脸活体检测的响应时间。

步骤S300：使用多元回归softmax计算每个人眼特征向量的得分，若人眼特征向量的得分大于设定分值，则判定该帧人脸图像的人眼状态是闭眼，否则，判定该帧人脸图像的人眼状态是睁眼。

获得人眼特征向量后，需要根据该特征判断人眼状态，本发明使用的是多元回归softmax。若经过多元回归后的得分为a，a的值越大，这说明人眼越可能为闭眼状态，可以将状态值记为s＝1。反之，说明人眼越可能为睁眼状态，可以将状态值记为s＝0。

本发明使用轻量级神经网络提取人眼特征向量，并结合多元回归softmax判断人眼状态。不但能够解决眨眼判断中姿态、光照等变化导致分类准确率下降的问题，还可以使得人脸活体检测的响应时间较短且稳定。

步骤S400：根据所有人脸图像的人眼状态判断是否有眨眼动作，若人眼状态存在睁眼和闭眼的变化，则有眨眼动作，则活体检测通过，否则，活体检测不通过。

其中，本发明的轻量级神经网络包括4个卷积层、4个池化层、1个全连接层和1个sigmoid层，轻量级神经网络的损失函数为binary log los。

本发明根据所有人脸图像的人眼状态判断是否有眨眼动作，一种实施方式是：若所有的人脸图像中前后两帧或前后较少几帧的人眼状态存在睁眼和闭眼的变化，则认为是有眨眼动作。这种实施方式中，由于单帧人脸图像的睁眼状态和闭眼状态判断可能存在错误，导致在比较前后两帧或前后较少几帧的人眼状态是否存在睁眼和闭眼的变化时的结果不准确。因此这种方法不够稳定，会导致结果的误判。

基于此，本发明提供以下一种判断是否有眨眼的方法：

步骤S410：对连续的多帧人脸图像中的每帧人脸图像，统计该帧人脸图像以及该帧人脸图像之前的若干帧人脸图像的人眼状态，若人眼状态是闭眼的数量大于设定数量，则将该帧人脸图像标记为第一状态，否则，将该帧人脸图像标记为第二状态。

步骤S420：若连续的多帧人脸图像存在第一状态和第二状态的交替变化，则判定有眨眼动作。

本发明以该帧人脸图像和该帧人脸图像之前的若干帧人脸图像的睁闭眼状态的统计值判断该帧人脸图像是第一状态还是第二状态，若这些人眼状态是闭眼的数量大于设定数量，则将该帧人脸图像标记为第一状态，否则，将该帧人脸图像标记为第二状态。第一状态表示该帧人脸图像为闭眼，这个闭眼不是之前的人眼特征向量的得分得到的闭眼状态，而是根据对多帧人脸图像的睁眼状态和闭眼状态的统计值确定的，其结果更加准确。同理第二状态表示该帧人脸图像为睁眼，其结果也更加准确。通过判断第一状态和第二状态的是否存在变化判定是否有眨眼动作，其结果也更加准确。

本发明使用当前人脸图像和之前的若干帧人脸图像的人眼状态的统计值来综合判断是否存在眨眼动作，相比于使用前后两帧或前后较少几帧的状态统计方法，本方法更加准确稳定。

本发明综合判断了连续15帧的人眼状态。具体的实现方式如下：

给定一个长度为15的分数数组T，并初始化T[i]＝0,(i＝0,2,…,14)，对于第t帧图像，T[t/15]＝s_t，其中s_t为第t帧图像的人眼状态，[t/15]表示链表存储器，该链表存储器的结构为先进先出，当链表存储器达到预设容量时，如果有下一帧数据存入，则最先存入链表中的数据删除。统计15帧中1和0的数目之和，如果大于设定数量10(需要说明的是，此处设定数量10仅仅用于解释本发明，并不用于对本发明进行限定)，则记录状态为true，反之记为false，即对每一帧图像计算

若S_t≥10，则给定记录状态A_t＝true(第一状态)，若S_t＜10，则给定记录状态A_t＝false(第二状态)，每15帧图像能获得一个记录状态，多帧图像能获得多个记录状态，若在数组A中出现状态true和false的交替变化，这说明存在眨眼动作。

本发明中，预处理可以包括如下步骤：

步骤S110：对人脸图像进行人脸检测和特征点定位；并对人脸检测得到的人脸检测框内的人脸区域进行人脸对齐、归一化和灰度化处理，得到脸部图像，如图2所示。

优选采用基于Cascade CNN的人脸检测算法FaceCraft进行人脸检测，检测获得的人脸检测框一方面可以用于后续的人脸抖动检测，另一方面可以与SDM方法结合进行特征点定位。这里需要指出的是，人脸检测方法不限于FaceCraft，只要可以获取人脸位置即可，比如Harr-AdaBoost,SSD,Faster RCNN等。同样的，特征点定位方法也不限于SDM，只需要获取人脸中心位置即可，如LBF，LAB等。

接着，将特征点定位后的眼睛坐标对齐到(30,30)和(30,70)的位置，并将人脸检测框内的人脸区域归一化和灰度化为100×100的脸部图像，用于后续的人脸清晰度检测。

步骤S120：根据特征点定位得到的左眼或右眼的特征点，在人脸图像上选取左眼或右眼区域，并进行灰度化和归一化处理，得到眼部图像，作为轻量级神经网络的输入。

如图3所示，在特征点定位后的人脸图像上获取左眼(或右眼)的四个临界特征点(上下左右四个点)的坐标，将1，4点横坐标分别减加5个像素，2，3点的纵坐标分别减加5个像素，即

x₁＝x₁-5

x₄＝x₄+5

y₂＝y₂-5

y₃＝y₃+5

之所以对人眼图像边界进行扩充是为了减弱定位误差带来的影响，由修正后的边界坐标可以获取人眼部区域，然后将其进行灰度化。显然，获得图像块为一个矩形，即图像的宽高不相等，并且长度要远大于宽度。接着对图像进行尺度上的放缩，将长和宽均归一化到32个像素大小，得到眼部图像。对图像进行尺度上的放缩，一方面是将图像归一化到同一个尺度上，有利于网络的输入，另一方面，会在高度上有一个拉伸，使得眼部的状态更加的明显，有利于判断。

图像的模糊和抖动等也极容易导致眨眼判断不准确，影响活体检测结果。本发明的基于眨眼的活体检测方法还包括人脸清晰度检测和人脸抖动检测。

人脸清晰度检测包括：

步骤S130：将每帧人脸图像的脸部图像进行二维FFT，将脸部图像从空间域转化到频率域上。

本发明中采用傅里叶变换进行人脸清晰度检测，即对归一化后的脸部图像进行二维FFT(Fast Fourier Transform，快速傅里叶变换)，将脸部图像从空间域转化到频率域上。

在数字图像处理中，图像的频率是表征图像中灰度变化剧烈程度的指标，即灰度在平面空间上的梯度。由于人脸像素的分布变化较大，所以清晰的人脸图像在频率域上的响应值较大，反之，若图像模糊，在频率域上的响应值较小。

步骤S140：计算所有脸部图像在频率域上的响应值的平均值并进行归一化，若归一化后的平均值大于设定数值，则执行人脸抖动检测，否则，活体检测不通过。

为了方便统计，本发明中计算了大小为100×100的脸部图像经过FFT后在频率域上响应值的平均值(平均响应值)，并进一步将平均响应值归一化到[10,2550]，设定数值为500。若脸部图像的FFT平均响应值归一化后大于或等于500，则说明图像清晰，执行人脸抖动检测过程，反之，若脸部图像的FFT平均响应值归一化后小于500，则说明图像模糊，直接判定活体检测不通过。

具体过程为：对每一帧100×100的脸部图像进行FFT，获得每一帧图像对应的响应值，再将15帧图像的响应值加和后求平均获得平均响应值，再将平均响应值归一化到[10,2550]，假设平均响应值为a，归一化后的值为b，则b＝|a-10|/2550，最后将b与设定数值500比较。

人脸抖动检测包括：

步骤S150：判断相邻两帧人脸图像通过人脸检测得到的人脸检测框的相对位置变化，若连续的多帧人脸图像中有超过设定数目的相邻两帧人脸图像的人脸检测框的相对位置变化超过设定阈值，则活体检测不通过，否则，执行根据所有人脸图像的人眼状态判断是否有眨眼动作。

本发明的基于眨眼的活体检测方法是对视频中每一帧图像的综合判断的结果，当视频中图像出现快速的人脸抖动时，会大大降低人眼状态的判别准确率，所以本发明使用了人脸抖动检测算法，若判断出现人脸抖动，则说明人脸活体检测不通过。

本发明对相邻两帧图像的人脸检测框的位置进行判断，若人脸位置多次出现相邻两帧图像的人脸检测框位置变化过大，则说明出现人脸抖动。

假设，连续两幅图像I₁和I₂，经过人脸检测获得人脸的人脸检测框bounding-box分别为bbox₁＝(x₁,y₁,w₁,h₁)和bbox₂＝(x₂,y₂,w₂,h₂)。其中x_i和y_i(i＝1,2)分别表示bounding-box左上点的横纵坐标，w_i和h_i(i＝1,2)分别表示bounding-box的宽和高。计算两幅图像bounding-box左上点位置的相对变化σ，即

若相对变化σ大于或等于设定阈值，则说明人脸存在抖动，反之相对变化σ小于阈值，则说明图像稳定。多次连续判断相邻两帧图像是否存在抖动，根据综合判断的结果即可给出非活体或需进一步判断的结论.

例如：获取15帧图像，相邻两帧的检测框之间相互比较，获得多个相对变化σ，将每个相对变化σ与设定阈值比较，从而判断是否存在抖动，之后统计抖动的数目和不抖动的数目，如果抖动的数目大于一定的数值，则认为15帧图像存在抖动现象，则活体检测不通过，否则，执行根据所有人脸图像的人眼状态判断是否有眨眼动作的步骤，进一步判断是否是活体。

本发明对预处理后得到的眼部图像分别输入预先训练好的轻级CNN获得每一帧人脸图像的人眼特征向量，将每一帧图像的人眼特征使用softmax对人眼特征进行分类，获得每一帧图像的人眼状态(睁眼、闭眼)，之后统计15帧图像的人眼状态，同时判断预处理后的人脸图像是否清晰，如果清晰，则判断预处理后的图像是否抖动，如果不抖动，同时如果15帧图像的人眼状态表明存在眨眼动作，则判断人脸图像来自于活体。

本发明通过人脸清晰度检测和人脸抖动检测可以有效的解决由于图像模糊或抖动对基于眨眼的人脸活体检测带来的影响，提高了活体检测的准确定。

作为本发明的另一种改进，提供一种具体结构的轻量级神经网络，其中：该轻量级神经网络包括依次相连的第一卷积层Conv1、第一池化层Pool1、第二卷积层Conv2、第二池化层Pool2、第三卷积层Conv31、第三池化层Pool3、第四卷积层Conv41、第四池化层Pool4、全连接层Fc1和sigmoid层。轻量级神经网络的网络结构和相关参数如下表1所示。

表1.网络结构和相关参数

名称	类型	滤波大小/步长	卷积大小	输出特征的大小
					Conv1	Convolution	3*3/1	331*16	323216
Pool1	max pooling	2*2/2		161616
					Conv2	Convolution	3*3/1	3316*32	161632
Pool2	max pooling	2*2/2		8832
					Conv31	convolution	3*3/1	3332*64	8864
Pool3	max pooling	2*2/2		4464
					Conv41	convolution	3*3/2	3364*128	22128
Pool4	max pooling	2*2/2		11128
					Fc1	fully connection	1*1/1	11128*128	11128
Sigmoid1	Sigmoid			111
					Cost1	binary log loss			111

在每一个卷积层Convolution后使用Relu作为激活函数并使用BN方法加速收敛。

在提取人眼特征向量之前，需要对轻量级神经网络进行训练：

卷积神经网络中的运算主要包括卷积、激活和下采样等。

假设第(l+1)层的输入为

连接l层和第(l+1)层的权重和第(l+1)层的偏置分别为W^l+1和b^l+1，则第(l+1)层的卷积结果z^l+1如公式(2)所示。

对上述卷积结果进行ReLU激活函数激活，则可以得到该层的输出x^l+1：

为了使卷积获得特征更加的抽象以及稀疏，对该层激活后的卷积结果Max-Pooling下采样，Max-Pooling算子定义如下：

其中，yⁱ表示对神经元xⁱ进行s×s大小不重叠局部区域下采样得到的结果，m表示步长，j表示第j个神经元。

在训练的过程中，使用的损失函数为交叉熵损失，即

卷积神经网络的训练过程实际上就是以最小化损失函数为最终目的，调节网络中的参数。在特征提取过程中，网络的参数不再改变。当一幅人脸图像进入卷积神经网络时，经过运算即可得到图像的特征向量。

在人眼特征提取时，使用采用上述方法训练好的轻量级神经网络，对输入的眼部图像，进行如下操作：

(1)对宽和高均为32个像素的灰度眼部图像，以1为步长进行16通道的3×3的卷积。并进行ReLU操作，得到16维的宽和高均为32的特征图。

(2)对(1)获得的特征图进行2×2的Max Pooling下采样，获得16维的宽和高均为16的特征图

(3)对上述特征图以1为步长进行32通道的3×3的卷积。并进行ReLU操作，得到32维的宽和高均为16的特征图。

(4)对(3)获得的特征图进行2×2的Max Pooling下采样，获得32维的宽和高均为8的特征图

(5)对(4)获得的特征图以1为步长进行64通道的3×3的卷积。并进行ReLU操作，得到64维的宽和高均为8的特征图。

(6)对(5)获得的特征图进行2×2的Max Pooling下采样，获得64维的宽和高均为4的特征图

(7)对上述特征图上以2为步长进行128通道的3×3的卷积。并进行ReLU操作，得到128维的宽和高均为2的特征图。

(8)对(7)获得的特征图进行2×2的Max Pooling下采样，获得128维的宽和高均为1的特征图

(9)将上述128个宽和高均为1的特征图形成一个向量，即为人眼特征向量。

本发明利用眨眼判断完成人脸活体检测，对人脸图像分别进行了清晰度检测和抖动检测，使用轻量级神经网络提取人眼特征并使用多元回归判断人眼状态，最后结合多帧图像人眼状态给出人脸活体检测的综合判断。该方法具有以下几个优势：

1、清晰度判断和抖动判断可以有效的解决模糊图像以及图像晃动对结果导致的误判。

2、通过网络可以自动的学习和提取人眼特征，避免了人工特征设计时主观性的不足。

3、基于人眼状态判断和连续多帧图像判断的方法更加的稳定。

4、本发明提出方法，在采集的1000个人脸合体检测视频上，判断准确率可以达到99.57％。

实施例2：

本发明实施例提供了一种基于眨眼的活体检测装置，如图4所示，该装置包括：

预处理模块10，用于对获取的连续多帧人脸图像进行预处理，得到多帧人脸图像的眼部图像。

人眼特征向量获取模块20，用于将多帧人脸图像的眼部图像输入预先训练的轻量级神经网络，得到多个人眼特征向量。

人眼状态判断模块30，用于使用多元回归softmax计算每个人眼特征向量的得分，若人眼特征向量的得分大于设定分值，则判定该帧人脸图像的人眼状态是闭眼，否则，判定该帧人脸图像的人眼状态是睁眼。

活体检测模块40，用于根据所有人脸图像的人眼状态判断是否有眨眼动作，若存在眨眼动作，则活体检测通过，否则，活体检测不通过。

其中，轻量级神经网络包括4个卷积层、4个池化层、1个全连接层和1个sigmoid层，轻量级神经网络的损失函数为binary log los。

进一步的，根据所有人脸图像的人眼状态判断是否有眨眼动作可以通过如下单元实现：

状态标记单元，用于对连续的多帧人脸图像中的每帧人脸图像，统计该帧人脸图像以及该帧人脸图像之前的若干帧人脸图像的人眼状态，若人眼状态是闭眼的数量大于设定数量，则将该帧人脸图像标记为第一状态，否则，将该帧人脸图像标记为第二状态。

本发明使用当前人脸图像和之前的若干帧人脸图像的人眼状态的统计值来综合判断是否存在眨眼动作，相比于使用前后两帧或前后较少几帧的状态统计方法，本方法更加稳定。

本发明中，预处理模块可以包括：

脸部图像获取单元，用于对人脸图像进行人脸检测、特征点定位、人脸对齐、归一化和灰度化处理，得到脸部图像。

眼部图像获取单元，用于根据特征点定位得到的左眼或右眼的特征点，选取左眼或右眼区域，并进行灰度化和归一化处理，得到眼部图像。

图像的模糊和抖动等也极容易导致眨眼判断不准确，影响活体检测结果。本发明的基于眨眼的活体检测装置还包括人脸清晰度检测模块和人脸抖动检测模块：

人脸清晰度检测模块包括：

二维FFT模块，用于将每帧人脸图像的脸部图像进行二维FFT，将脸部图像从空间域转化到频率域上。

平均值计算单元，用于计算所有脸部图像在频率域上的响应值的平均值，若平均值大于设定数值，则执行人脸抖动检测模块，否则，活体检测不通过。

人脸抖动检测模块包括：判断相邻两帧人脸图像通过人脸检测得到的人脸检测框的相对位置变化，若连续的多帧人脸图像中有超过设定数目的相邻两帧人脸图像的人脸检测框的相对位置变化超过设定阈值，则活体检测不通过，否则，执行活体检测模块。

作为本发明的另一种改进，提供一种具体结构的轻量级神经网络，其中：该轻量级神经网络包括依次相连的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、全连接层和sigmoid层。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

实施例3：

本说明书提供的上述实施例所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例1所描述方案的效果。因此，本发明还提供用于基于眨眼的活体检测的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括实施例1的基于眨眼的活体检测方法的步骤。

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

实施例4：

本发明还提供一种用于基于眨眼的活体检测的设备，所述的设备可以为单独的计算机，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述用于基于眨眼的活体检测的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器，处理器执行所述指令时实现上述任意一个或者多个实施例1中所述基于眨眼的活体检测方法的步骤。

上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

需要说明的是，本说明书上述所述的装置或者系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类、存储介质+程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于眨眼的活体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于眨眼的活体检测方法，其特征在于，所述根据所有人脸图像的人眼状态判断是否有眨眼动作，包括：

3.根据权利要求1所述的基于眨眼的活体检测方法，其特征在于，所述预处理包括：

4.根据权利要求3所述的基于眨眼的活体检测方法，其特征在于，所述基于眨眼的活体检测方法还包括：

计算所有脸部图像在频率域上的响应值的平均值并进行归一化，若归一化后的平均值大于设定数值，则执行下一步，否则，活体检测不通过；

5.根据权利要求1-4任一所述的基于眨眼的活体检测方法，其特征在于，所述轻量级神经网络包括依次相连的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、全连接层和sigmoid层。

6.一种基于眨眼的活体检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的基于眨眼的活体检测装置，其特征在于，所述根据所有人脸图像的人眼状态判断是否有眨眼动作通过如下单元实现：

8.根据权利要求6所述的基于眨眼的活体检测装置，其特征在于，所述预处理模块包括：

所述基于眨眼的活体检测装置还包括人脸清晰度检测模块和人脸抖动检测模块：

所述人脸清晰度检测模块包括：

9.一种用于基于眨眼的活体检测的计算机可读存储介质，其特征在于，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括权利要求1-5任一所述基于眨眼的活体检测方法的步骤。

10.一种用于基于眨眼的活体检测的设备，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-5中任意一项所述基于眨眼的活体检测方法的步骤。