CN111368666A

CN111368666A - 一种基于新型池化及注意力机制双流网络的活体检测方法

Info

Publication number: CN111368666A
Application number: CN202010116617.5A
Authority: CN
Inventors: 宋晓宁; 汪亚航; 冯振华; 於东军
Original assignee: Shanghai Litu Information Technology Co ltd
Current assignee: Shanghai Litu Information Technology Co ltd
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-07-03
Anticipated expiration: 2040-02-25
Also published as: CN111368666B

Abstract

本发明公开了一种基于新型池化及注意力机制双流网络的活体检测方法，包括构建空间流网络和时间流网络结合的双流网络；提取光流图片并进行面部检测，得到所述双流网络的两个输入；在所述双流网络末端加入空间金字塔池化和全局平均混合池化，利用全连接层对两个池化后的特征进行分类并做分数层面的融合；对所述空间流网络和所述时间流网络进行特征层面的融合；最后输出融合的特征完成活体检测。本发明的有益效果：充分考虑时间维度，提出的空间金字塔和全局平均混合池化策略能有效的利用特征；针对包含多种攻击类型、图片质量差异较大的数据集，网络模型均能取得较低的错误率。

Description

一种基于新型池化及注意力机制双流网络的活体检测方法

技术领域

本发明涉及活体检测的技术领域，尤其涉及一种基于新型池化及注意力机制双流网络的活体检测方法。

背景技术

近年来人脸识别技术在当前的社会起着重要的作用，但也出现了大量的欺诈攻击对人脸识别产生了威胁，比如打印攻击和重放攻击。传统的活体检测方法是以手工方式提取特征且缺乏对时间维度的考虑，导致检测效果不佳。卷积神经网络的流行以及计算机视觉的发展使得高精度的人脸识别成为了可能。TaigmanY等人提出了DeepFace，其精度达到了97.35％，相较之前最佳表现错误率降低了27％。相较于过去的指纹或者虹膜，人脸包含着更多的信息，也更加可区分，并且人脸识别在交互上更加友好。

随着人脸识别的广泛应用，出现了很多的欺诈策略。人脸的欺诈主要是通过在人脸识别系统前面呈现照片或者视频等假的实体而骗过系统。对于没有加入活体检测的人脸识别算法，则可以通过一个人的照片就能骗过系统。由此可见，高稳定性、高识别率的欺诈检测算法对人脸识别系统的重要性。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的技术问题是：传统的活体检测方法是以手工方式提取特征且缺乏对时间维度的考虑，导致检测效果不佳。

为解决上述技术问题，本发明提供如下技术方案：一种基于新型池化及注意力机制双流网络的活体检测方法，包括构建空间流网络和时间流网络结合的双流网络；提取光流图片并进行面部检测，得到所述双流网络的两个输入；在所述双流网络末端加入空间金字塔池化和全局平均混合池化，利用全连接层对两个池化后的特征进行分类并做分数层面的融合；对所述空间流网络和所述时间流网络进行特征层面的融合；最后输出融合的特征完成活体检测。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述空间流网络定义如下，

score_s＝SpatialNet(x)

其中x代表RGB或者HSV不同颜色空间的图片；SpatialNet包括多个卷积层、由GAP和SPP构成的混合池化层；scores代表所述空间流网络的输出分数。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述时间流网络定义如下，

x'＝TVNet(x₁,x₂)

score_t＝TemporalNet(x')

其中x₁，x₂代表RGB图片的两帧，经过TVNet网络则产生一张光流图片x'，代表两张图片对应像素的位置差，因此其中包含了时间维度的信息；TemporalNet包括多个带有残差块的层。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述双流网络学习过程中，包括，

定义SpatialNet计算损失为：

loss_s＝cross_entropy(score_s,label)

其中score_s是空间流网络的输出；label代表输入x的标签；cross_entropy为交叉熵损失；空间流则是优化loss_s，使其最小即可；

定义TemporalNet计算损失为：

loss_t＝cross_entropy(score_t,label)

其中score_t是时间流网络的输出，时间流则是优化loss_t，使其最小即可。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述空间金字塔池化包括，输入图片经过多个卷积模块后得出一个特征图；通过空间金字塔池化将特征图划分为多块，得到一个n维的特征；使用全连接层以及softmax对所述n维特征进行分类得到代表真脸置信度的分数。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述全局平均混合池化包括，输入图片经过前面的多个卷积模块得出一个特征图；对特征图进行全局平局池化得到一个m维的特征；使用softmax对这个m维特征进行分类得到一个分数。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述分数层面的融合包括将所述空间金字塔池化和所述全局平均混合池化两个池化的分数融合成一个空间金字塔全局平均混合池化。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：利用融合模块进行所述特征层面的融合，包括，

定义所述融合模块：

其中f_s和f_t分别代表所述空间流网络提取的特征和所述时间流网络提取的特征；经过通道注意力模块学习两个特征对应的对应权重的大小；将学习到的权重和特征相乘得到按权分配后的特征；把按权分配后的特征相加得到最终融合的特征。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：包括在所述空间流网络上进行了不同颜色空间输入的测试，并得出最适合的颜色空间。

作为本发明所述的基于混合池化双流网络的活体检测方法的一种优选方案，其中：所述不同颜色空间输入包括，

HSV颜色空间包含色相、饱和度、明度三个分量；

Ycrcb颜色空间包含了明亮度、色度和RGB；

把RGB颜色空间转化为HSV，如下：

把RGB转化为Ycrcb，如下：

分别使用RGB颜色空间、HSV颜色空间和Ycrcb颜色空间以及多个颜色空间堆叠的方案得出有效的颜色空间作为所述空间流网络的输入。

本发明的有益效果：充分考虑时间维度，提出的空间金字塔和全局平均混合池化策略能有效的利用特征；针对包含多种攻击类型、图片质量差异较大的数据集，网络模型均能取得较低的错误率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述常见攻击方式的示意图；

图2为本发明第一种实施例所述RGB图片及对应的光流图片，其中图2(a)为TVNet光流图片，图2(b)为opencv光流图片；

图3为本发明第一种实施例所述空间金字塔池化的示意图；

图4为本发明第一种实施例所述全局平均池化的示意图；

图5(a)为本发明第一种实施例所述空间流网络的示意图；

图5(b)为本发明第一种实施例所述时间流网络的示意图；

图5(c)为本发明第一种实施例所述残差块的示意图；

图5(d)为本发明第一种实施例所述融合模块的示意图；

图6为本发明第二种实施例所述CASIA-FASD中的三种攻击方式的示意图；

图7为本发明第二种实施例所述特征图的可视化的示意图；

图8为本发明第二种实施例所述使用类激活图进行可视化的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

人脸识别技术在当前的社会起着重要的作用，但也出现了大量的欺诈攻击对人脸识别产生了威胁，比如打印攻击和重放攻击。为便于理解，参照图1展示的三种攻击方式，当前存在的欺诈策略有如下的三种方式：

(1)打印攻击；

(2)视频攻击；

(3)3D面具攻击。

考虑到3D面具攻击需要更多的面部信息以及较高的成本，所以当下急需解决的是打印攻击和视频攻击。不同的攻击方式存在着不同的弱点。打印攻击，由于是打印的照片，所以缺少时间上的信息，比如眼动信息或者嘴动信息等；视频重放攻击，由于用显示屏作为呈现设备，因此存在质量降低、产生摩尔噪声等问题。本实施例提出的基于混合池化的双流活体检测网络充分结合了二者的特点，对时间和空间分别建模并进行融合。

当前主流的检测算法可以大致分为两类，一种是基于传统的方案，一种是基于深度学习的方案。有相关技术提出使用LBP作为欺诈检测的一个有效特征，并用SVM作为分类器，取得了不错的结果。后来的很多方法都是基于LBP进行的研究。除了LBP特征之外，类似的还有HoG、Haar、SURF等传统的特征也被应用到欺诈检测领域。

除此之外，由于欺诈图片的质量以及纹理都与真正的人脸有所区别，所以有相关技术提出了利用图片的纹理特征，利用图片的质量来进行欺诈检测。不过上述的特征都只能针对单张图片，忽略了对应的时间维度上面的信息，所以出现了一些基于运动的方法，有相关技术则分别利用眼动或者嘴动信息，根据正常人每秒的眼动次数或嘴动次数来识别打印攻击。尽管增加时间维度的信息后，欺诈检测的错误率不断降低，但在现实中的表现却不尽如人意，原因是数据集中无法收集到所有可能出现的欺诈类型，所以有相关技术把欺诈检测的问题定义为异常检测，把欺诈样本看作异常点，这样在训练时只需要学习正样本的分布即可，而与欺诈样本无关，类似于上面的方案，有相关技术则分别利用图片质量和GMM来学习正样本的分布。虽然传统的手工提取特征方法也能取得不错的结果，但是其特征设计比较困难以及泛化能力有限，比如对打印攻击有效的基于运动的方案，但是对于视频重放攻击就无能为力了。

而随着深度学习的兴起以及卷积神经网络强大的特征表达能力，相关方法也被引入到欺诈检测里面。有技术提出使用卷积神经网络来解决人脸欺诈的问题。相较于传统的特征，卷积神经网络具有强大的表征能力，能提取出更具有区分性的特征，并且这个提取特征的过程可以从学习中得到，省去了人工设计的步骤。卷积神经网络的核心在于如何设计监督和网络结构，能够使得网络学习的泛化能力更强、提取的特征可区分度更高。有相关技术使用迁移学习的方案，能够有效的减少过拟合并且减少网络训练的难度。有相关技术则是利用分块，把原图像分割成一个个小块，然后分块训练。有相关技术则是采取了一些特殊的训练策略来避免网络的过拟合效应。有相关技术是用rPPg以及面部深度作为监督来引导网络学习到更有效的信息。

以上提到的深度学习方法都是基于空间维度的信息，而没有利用时间维度的信息。也有的技术引入了CNN-LSTM结构，利用CNN学习每个帧的空间特征信息，然后用LSTM学习多帧之间时间信息，同样的有相关技术使用LBP-TOP结合CNN也是由于LBP-TOP包含有时间维度的信息，也有相关技术使用的3DCNN也是为了考虑时间上面的差异。而有的技术则假设照片或者视频攻击会引入噪声，所以把欺诈检测问题看作估计噪声函数的过程。有相关技术利用度量学习来学习正负样本的分布，有相关技术提出的DTN则是对之前提出的异常检测方案的缺点做了进一步的改进。

结合上述说明，可以看出不同的攻击方案各有其特点。之前的很多算法对于时间维度的信息处理是采用了3DCNN或者LBP-TOP等特征，但这些特征把时间维度的信息和空间维度的信息混在一起，并不能很好的表征时间维度起到的作用，因此本实施例提出了一种双流网络结构，包含了空间流和时间流两部分，这样就能清晰的表征时间流的作用。

除此之外，本实施例还提出一种基于空间金字塔和全局平均混合池化的模块。空间金字塔池化可以多尺度的学习特征层的信息，相对于之前的全连接，全局平均池化够在不破坏特征空间信息的前提下降低特征的维度。最后把两个池化的特征分别输入到全连接层进行分类，把分类结果融合为最终的结果。

随着深度学习的不断发展，其逐渐应用于计算机视觉的各个领域。深度学习的卷积核具有可学习性，且较传统手工提取的特征具有更强的泛化能力，因此深度学习广泛应用于图片特征的学习。深度学习的关键是网络的结构设计。卷积神经网络一般包括输入层、卷积层、池化层和激活函数等。本实施例以输入层和池化层为切入点，提出了一个输入是光流图片和普通图片的混合池化网络。

光流这个概念，它代表着空间运动物体在成像平面上的像素运动的瞬间速度，是通过图像序列中像素在时间维度上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间的对应关系，从而计算出相邻帧之间物体的运动信息的一种方案。

假设一张图中一帧图像的像素为I(x,y,t)，其中x，y代表像素所在位置，t代表第t帧。在时间dt后移动到下一帧图像的(x+dx,y+dy)位置，根据光流法中在连续两帧图像之间像素的灰度值不改变这一假设可以得到，

I(x,y,t)＝I(x+dx,y+dy,t+dt) (1)

对(1)式右侧进行泰勒级数展开，消去相同项，得到如下方程：

I_xdx+I_ydy+I_zdt＝0 (2)

令

把(2)式的两边除以dt，得到：

I_xu+I_yv＝-I_t (3)

则(3)这个等式叫做光流方程，其中I_x和I_y是图像梯度，I_t是时间方向的梯度，所以最后只需要求出u,v，即可求u,v。

上述光流解决方案是利用传统方案进行处理，而将其展开为卷积网络的形式，则可以构建一个端到端的可训练的光流网络，这个光流网络可以直接嵌入到一个有学习任务的网络里面，二者可以同时学习参数，使得光流图片越来越精细，分类结果也越来越好。

图2展示了通过RGB图片生成的光流图片，图2(a)子图是通过TVNet不进行训练直接获取的光流图片，图2(b)子图是通过opencv里面的光流法生成的光流图片，可以看出TVNet产生的光流图片更加细腻，能够捕获到更富有细节的时间信息。并且TVNet是可训练的，所以在训练的过程中能够进一步的学习。除此之外还能够看出对于打印攻击，由于纸张是长方形的缘故，导致光流图片也呈现出长方形的轮廓。在活体检测中，利用光流图片来代表时间维度上的信息。

空间金字塔池化为了解决目标检测中目标尺度不统一提出的方法，可以避免对图片进行缩放或者剪裁，消除普通卷积神经网络需要固定大小输入的要求。空间金字塔池化层结构如图3所示，

假设输入是一个w×h×c的特征图，第一级是对每个通道做最大池化，最终得到一个维度为c的特征。第二级是先把图片分为4个小块，然后对每个小块进行最大池化，则会得到一个4×c维的特征，第三级是先把图片分为16个小块，再对每个小块进行最大池化，则会得到一个16×c维的特征。最后把三级的特征连接在一起，可以得到一个21×c维的特征，这个特征就是三级空间金字塔池化的输出结果。从计算结果可以明显看出输出的特征大小和输入的特征大小无关。

对于活体检测而言，对图片进行缩放会破坏图片的信息，所以加入了空间金字塔池化之后，就可以输入任意大小的图片，而不用进行缩放。空间金字塔池化结构能够做到对特征信息进行融合，先处理特征的整体，再处理特征的局部，能够从细密级和粗糙级上理解图像，这样就能够学习到多个尺度上的图片特征。在活体检测方面，空间金字塔池化具有如下优势：

(1)不进行缩放，减少高频信息损失；

(2)从多个尺度融合深层特征信息

全局平均池化：早期的卷积神经网络，输入一般会经过卷积层、池化层以及一个或多个全连接层。但这种网络结构，其全连接层往往参数过多，极易出现过拟合的现象。使用全局平均池化层代替全连接层，这样既能够对数据进行降维，还能够极大地减少网络的参数。全局平均池化的结构如图4所示。从图中可以看出对于一个输入为w×h×c的特征图，经过全局平均池化后得到一个维度为c×1的特征。全局平均池化的降维和减少参数的特性使其能对整个网络在结构上做正则化进而防止过拟合。

此外，利用全局平均池化特征图的每个通道产生一个特征的特点，根据最后分类结果中每个特征起到的权重代表了每个特征图起到的权重，将特征图的每个通道和权重相乘再相加，最后得到一个类激活图，通过这个类激活图，就能够对结果进行一些可视化，清楚地看到是图片的哪个部分起到作用，可以为以后的研究指明方向。

基于上述，本实施例提出一种基于新型池化及注意力机制双流网络的活体检测方法，当前欺诈检测的方法多是基于卷积神经网络，很多方案为了避免过拟合，在输入图片层面做了一些工作，比如把图片分割为多个小块，也有些利用结构来获取时间维度的信息。基于已有的研究，本实施例提出了一种基于空间金字塔和全局平均混合池化的双流网络结构。在空间金字塔池化中，能够从特征层面进行分块操作。双流网络结构中的时间流能够更加有效的学习到时间维度的信息。最后通过一个超参数可以动态调节时间流和空间流的比例。

具体包括以下步骤，

S1：构建空间流网络和时间流网络结合的双流网络；

其中空间流网络定义如下，

score_s＝SpatialNet(x)

式中x代表RGB或者HSV不同颜色空间的图片；SpatialNet包括多个卷积层、由GAP和SPP构成的混合池化层；scores代表空间流网络的输出分数。

时间流网络定义如下，

x'＝TVNet(x₁,x₂)

score_t＝TemporalNet(x') (1)

式中x₁，x₂代表RGB图片的两帧，经过TVNet网络则产生一张光流图片x'，代表两张图片对应像素的位置差，因此其中包含了时间维度的信息；TemporalNet包括多个带有残差块(参照图5(c)的示意)的层。

双流网络学习过程中，包括，

定义SpatialNet计算损失为：

loss_s＝cross_entropy(score_s,label)

定义TemporalNet计算损失为：

loss_t＝cross_entropy(score_t,label)

双流网络结构如图5(a)表示空间流网络的结构，图5(b)表示时间流网络的结构。

双流网络结构包含了空间流网络和时间流网络。过去有许多的方法尝试把时间信息考虑进去，例如过去的CNN-LSTM或者3DCNN，它们是把时间维度上面的信息和空间上面的信息合成一种特征了，但有时候时间信息并不一定带来的就是积极的影响，例如对于重放攻击或者活动幅度较小的攻击，时间信息就会带来负面影响，所以直接使用带时间维度信息的特征并不能灵活的分配空间信息和时间信息的比例。而在本实施例的双流网络中，空间维度和时间维度是分开的，可以动态的进行两个维度结果的融合。

S2：提取光流图片并进行面部检测，得到双流网络的两个输入；

S3：在双流网络末端加入空间金字塔池化和全局平均混合池化，利用全连接层对两个池化后的特征进行分类并做分数层面的融合。

空间金字塔池化包括，

输入图片经过多个卷积模块后得出一个特征图；

通过空间金字塔池化将特征图划分为多块，得到一个n维的特征；

使用全连接层以及softmax对n维特征进行分类得到代表真脸置信度的分数。

全局平均混合池化包括，

输入图片经过前面的多个卷积模块得出一个特征图；

对特征图进行全局平局池化得到一个m维的特征；

使用softmax对这个m维特征进行分类得到一个分数。

分数层面的融合包括将空间金字塔池化和全局平均混合池化两个池化的分数融合成一个空间金字塔全局平均混合池化。

本步骤中为了学习到更加可区分的特征，之前的很多方法都采用了局部和全局相结合的方案，把原始数据切割成多个小块，然后把每个小块都作为一个输入进行学习。本步骤则引入了空间金字塔池化(SPP)，在多个尺度上对特征图进行分块，从而取代了之前的直接对输入图片分块。

参照图5(a)所示，输入图片经过前面的多个卷积模块后，能够得出一个特征图，通过空间金字塔池化将特征图划分为多块，得到一个n维的特征，最后使用全连接层以及softmax对这个n维特征进行分类得到一个代表真脸置信度的分数。

在欺诈检测领域，传统卷积神经网络利用最大池化或者平均池化达到下采样的目的，并把池化后的结果直接展开成一维的，但是这样会破坏了图片的空间层面的信息。在目标检测的领域，很多方案采用了全局平均池化的方案(GAP)，在进行全连接操作之前，先进行全局平均池化可实现减少参数、降低特征图的维度及减少过拟合，同时可保证不破坏特征图的空间特性。

参照图5(b)中，输入图片经过前面的多个卷积模块，能够得出一个特征图，对特征图进行全局平局池化，得到一个m维的特征，最后使用softmax对这个m维特征进行分类得到一个分数。

空间金字塔池化对特征分块，较好地展示了信息的局部性特征。全局平均池化对整个特征图进行池化，较好地展示了信息的全局性特征。把两个池化的分数融合成一个空间金字塔全局平均混合池化，这样就能够学习到更加全面的信息。

S4：对空间流网络和时间流网络进行特征层面的融合；

利用融合模块进行特征层面的融合，包括，

定义融合模块：

其中f_s和f_t分别代表空间流网络提取的特征和时间流网络提取的特征；

经过通道注意力模块学习两个特征对应的对应权重的大小；

将学习到的权重和特征相乘得到按权分配后的特征；

把按权分配后的特征相加得到最终融合的特征。

需要说明的是，有效的特征融合能够极大的提高网络的性能，在深度学习领域，融合可以分为分数层面的融合、特征层面的融合。特征融合又分为了Sumfusion、Maxfusion等融合方案。而在本实施例中发现之前的这些融合方案并不能很好的对空间流和时间流的特征进行互补的融合，所以提出了一种基于注意力机制的融合方案。

该基于注意力机制的融合方案是基于一个通用的通道注意力框架，从图5(d)可以看出融合模块可以对两个特征进行融合，融合结果为一个特征。

经过一个通道注意力模块学习两个特征对应的对应权重的大小，最后将学习到的权重和特征相乘得到按权分配后的特征，最后把按权分配后的特征相加得到最终融合的特征。因为在通道注意力里面的权重都是可学习的，所以基于注意力的特征融合能够灵活的分配两个特征对应的权重，融合得到更好的结果。

S5：最后输出融合的特征完成活体检测。

同时在现有技术中，对不同颜色空间的有效性进行了大量的实验，有些只采用了单个颜色空间，例如只使用RGB，也有些采用了多个颜色空间堆叠，比如采用的HSV+YcbCr的方案进行学习。因此本实施例中使用了RGB颜色空间、HSV颜色空间、Ycrcb颜色空间以及多个颜色空间堆叠的方案来进行实验，进而得出一个有效的颜色空间作为本次实验空间流的输入。

考虑不同颜色空间对检测性能的影响，由于每个颜色空间包含的信息不同，各自有各自的特点，其中RGB包含了丰富的空间信息，和人类看到的色彩最为相近，而HSV和Ycrcb颜色空间则对亮度更加敏感。可以通过下面的公式进行转化：

具体的，不同颜色空间输入包括，

HSV颜色空间包含色相、饱和度、明度三个分量；

Ycrcb颜色空间包含了明亮度、色度和RGB；

把RGB颜色空间转化为HSV，如下：

把RGB转化为Ycrcb，如下：

分别使用RGB颜色空间、HSV颜色空间和Ycrcb颜色空间以及多个颜色空间堆叠的方案得出有效的颜色空间作为空间流网络的输入。

实施例2

为了验证提出结构的有效性，本实施例在主流数据集上的验证实验。首先对当前主流的数据集做一个简短的说明，然后展示本次实验的实验结果。

当前主流的数据集包括CASIA-FASD数据集、Replay-attack数据集。

CASIA-FASD数据集里面包含了不同图片质量以及不同攻击方式的视频。CASIA-FASD里面一共包含50个主题，其中训练集20个，测试集30个。每个主题包括了3个真脸以及9个攻击。攻击类型分为弯曲照片攻击、剪洞攻击和视频攻击。图6展示了三种攻击方式。其中每种攻击分为高分辨率、低分辨率以及正常分辨率三种情况。CASIA-FASD中定义了7种测试方案：

弯曲照片测试，测试的时候只使用弯曲照片和真实照片。

剪洞测试，测试的时候只使用剪洞照片和真实照片。

视频测试，测试的时候只使用视频攻击照片和真实照片。

低分辨率测试，测试的时候只使用低分辨率的图片。

正常分辨率测试，测试的时候只使用正常分辨率的图片。

高分辨测试，测试的时候只使用高分辨率的图片。

整体测试，测试的时候把所有的数据都进行测试。

因此本实施例中的实验也按照上面的7种测试方案，对CASIA-FASD进行测试。

Replay-attack数据集里面包含了不同场景以及不同攻击方式的视频。为了便于评估，数据集分为了训练集、验证集和测试集。每个集合里面包含真脸以及攻击。Replay-attack里面包含打印攻击、视频重放攻击。攻击分为了手持以及固定两种形式。由于固定和手持造成的晃动并不大，所以在时间维度上面的信息较少。数据集中收集了不同光照条件下的信息，这也使得测试结果更加接近现实情形。

(1)实验准备阶段：

在开始实验前，需要进行数据预处理。

对于空间流，首先对视频进行图片采样，这里采用每隔3帧取样一张图片的形式。其次，使用MTCNN进行人脸检测，将人脸的部分裁剪出来得到224*224大小的人脸。最后进行数据增强，由于在数据集里面攻击样本比较少，所以进行攻击样本的扩大，并且加入一些随机亮度、随机翻转等。

对于时间流，由于两张空间流才能对应一张光流的图片，为了统一处理，则把视频第一帧t1作为启动帧在训练的时候不使用，因此空间流的样本是{t2,t3,t4,...}，对应光流的照片是{t2-t1,t3-t2,t4-t3,...}，从而使空间流和时间流对应起来，方便后面融合。

光流的计算则采用opencv中的光流计算方法。图片的背景信息在欺诈检测中也会起到重要作用，所以对于光流图片是利用带背景信息的图片产生的光流，而不是经过人脸检测后的面部图片。

训练时采用Adam优化器对卷积神经网络进行优化，学习率采用1e-4，batch的大小为32，对时间流网络和空间流网络分别进行训练。测试时把两个网络的结果带入到公式(1)中得到最终的预测结果。

(2)评估方法：

在CASIA-FASD数据集上面的实验，采用等错误率(EER)作为评判标准，等错误率是错误接受率FAR和错误拒绝率FRR相等时的错误率，也是ROC曲线与对角线的交点。在Replay-attack数据集上则使用等错误率和半错误率(HTER)做为评判标准，其中HTER的定义如下：

其中FPR是假阳性率，又称为误诊率，代表本来是正样本但被预测为负样本的百分比，FNR是假阴性率，又称为漏诊率，代表本来是负样本但被预测样本的百分比，κ可以通过验证集确定。

(3)实验结果：

为了验证空间金字塔和全局平均混合池化以及时间流网络的作用，在CASIA-FASD和Replay-attack数据集上做了大量的对比实验，如表1展现了不同的方案在7种CASIA-FASD场景下的EER(％)。

表1：不同的方案在7种CASIA-FASD场景下的EER(％)。

如表1展现了不同的方案在7种CASIA-FASD场景下的EER(％)，上面的方案代表没有加入空间金字塔和全局平局混合池化，下面的方案代表加入了空间金字塔和全局平局混合池化。可以看出增加了空间金字塔和全局平均混合池化后取得了更好的结果，用RGB颜色空间作为输入的空间流的EER从2.963％降低到2.141％。时间流上的EER从11.414％降到9.005％。在空间流上，做了不同通道以及多通道堆叠的实验，可以看出在本文提出的结构中RGB通道表现出了更好的结果，原因是RGB到Ycrcb可以通过线性变换得到，而这正是卷积神经网络所擅长的。在时间流上，单个时间流表现并不是很好，但当其和空间流进行融合后还是有所提升的，在单个时间流上面结果是9.005％，融合后能够达到1.701％。而通过对CASIA-FASD的7种不同场景进行测试，可以看出本文的方法对于正常质量下的图片具有更好的鉴别能力，而对于不同的欺诈方式表现结果差别不是太大。

表2：不同的方案Replay-attack下的EER(％)和HTER(％)。

由表2展示了本实施例提出的方案在Replay-attack上面的EER和HTER，可以看出加了空间金字塔和全局平均混合池化明显有更好的结果，在空间流上面能取得0.071％的EER和0.109％的HTER。而对于颜色空间，在未加混合池化的时候，HSV颜色空间在HTER上也取得了不错的结果，而加入混合池化后RGB则取得了更好的结果，主要原因是Replay-attack数据集里面有很多亮度不稳定的样本，所以在对颜色空间更敏感的HSV上面取得了微弱的优势，而加入混合池化后，混合池化能够指导网络学习到更加全局以及局部的信息，而且RGB颜色空间也可以通过变换得到HSV，所以HSV的微弱优势就被抵消了。从表2还可以看出Replay-attack的时间流网络效果就没有那么好了，原因是在Replay-attack里面，大多数视频抖动非常小，所以在时间维度产生的信息也相对较少。因此在Replay-attack的实验中可以调小时间流网络所占的比例，减少造成的负影响。最终空间流和时间流融合能够达到0.091％的EER以及0.082％的HTER。

表3：在CASIA-FASD上与当前主流方案对比。

如表3展示了本申请提出的方案在CASIA-FASD上面的表现同当前主流方案的对比，无论是和结合了时间维度信息的方法还是和采用了训练策略的方法对比，本方案都取得了更好的结果。

表4：在Replay-attack上与当前主流方案对比。

如表4展示了本申请提出的方案在Replay-attack上面的表现和当前主流方案的对比，无论是和基于图片质量的方法、结合了时间维度信息的方法还是和采用了一些训练策略的方法对比，我们的方案都取得了更好的结果。

(4)实验结果分析：

上述实验表明本申请提出的方案取得了有效的结果。相较于过去的方案，本申请提出的混合池化结构能够在特征层面做全局和局部信息的学习，空间金字塔和全局平均混合池化能够对特征进行多尺度和大尺度的划分，获得更加丰富的感受野。双流结构中空间网络用来学习图片的空间特性，能够检测出一些空间上的欺诈特征，比如打印边框、手机边框等。而时间网络用来学习视频的时间特性，能够检测出一些时间上的欺诈特征，比如眼动、嘴动等。双流结构对空间信息和时间信息分别建模，通过参数来调节两个模型的占比，这样能够对空间和时间的有效性进行区分。下面通过可视化的方式来对网络内部情况进行分析。

(5)结果可视化：

卷积网络一直被作为“黑盒”，因为看不到卷积神经网络的内部结构，而可视化的方案很好的解决了这一问题。可视化方案增大了结果的可解释性，通过分析可视化结果，也能为未来的研究做出参考。

图7展示了4个样本在网络中输出的特征图，4个样本分别是真脸、真脸、打印攻击和视频攻击，打印攻击会造成图片质量降低，第一行展示了4个样本对打印攻击响应时的特征图，可以看出打印攻击的特征图产生模糊的现象，视频攻击会产生镜面反射，第二行展示了4个样本对视频攻击响应时的特征图，可以看出视频攻击的特征图产生了大块的亮斑。

图8使用类激活图的方式展示了在不同攻击方式下，卷积网络的关注点，从左到右依次为真脸、打印攻击和视频攻击。红色代表关注度大的点，可以看出关注点都在边缘区域，原因是边缘部位更容易区分。打印的照片边缘是长方形，视频的边缘有黑边，但是真脸的边缘是光滑曲线，可见卷积神经网络聪明的学习到了关键区域。但是这种聪明也有弊端，如果遇见离摄像头比较近的样本，就不会出现边缘，可能会导致误判。集中所有注意力在边缘的学习，也会影响到卷积神经网络学习到更加具有代表性以及更加本质的特征。

(6)实验结论：

本申请结合空间维度以及时间维度，提出了基于混合池化的双流活体检测网络结构模型。时间流网络学习时间维度的信息，空间流网络学习空间维度的信息。实验结果表明，对于面部活动大的数据集，时间流能够起到很好的辅助作用。空间金字塔和全局平均混合池化是通过在网络里面加入混合池化块来进行的，空间金字塔池化可以多尺度的学习，全局平均池化能够充分学习全局信息并且结合类激活图能够做一个很好的可视化工作。在和其他的算法对比中，本申请的方法在错误率以及半错误率上面都优于当前的主流方案。

通过实验部分，对不同的颜色空间进行了测试，选出最适合的颜色空间。同时进行了空间流、时间流以及融合后的对比，基于混合池化及不基于混合池化的对比。因此本实施例贡献可以总结如下：

(1)创新性的使用了空间金字塔和全局平均混合池化；

(2)提出了一个结合空间信息和时间信息的双流网络；

(3)在空间流上进行了不同颜色空间的测试，并得出最适合的颜色空间。

本方法同时考虑了不同颜色空间对检测性能的影响，通过实验确定了本实施例方法所采用的最优颜色空间。结果在CASIA-FASD和Replay-attack两个数据集上做了多组对比实验，最终在CASIA-FASD数据集上获得了1.701％的EER；在Replay-attack数据集上获得了0.091％的EER以及0.082％的HTER。结论是基于混合池化的双流活体检测网络充分考虑时间维度，提出的空间金字塔和全局平均混合池化策略能有效的利用特征。实验结果表明，针对包含多种攻击类型，图片质量差异较大的数据集，该网络模型均能取得较低的错误率。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于新型池化及注意力机制双流网络的活体检测方法，其特征在于：包括，

构建空间流网络和时间流网络结合的双流网络；

提取光流图片并进行面部检测，得到所述双流网络的两个输入；

在所述双流网络末端加入空间金字塔池化和全局平均混合池化，利用全连接层对两个池化后的特征进行分类并做分数层面的融合；

对所述空间流网络和所述时间流网络进行特征层面的融合；

最后输出融合的特征完成活体检测。

2.如权利要求1所述的基于混合池化双流网络的活体检测方法，其特征在于：所述空间流网络定义如下，

score_s＝SpatialNet(x)

3.如权利要求1所述的基于混合池化双流网络的活体检测方法，其特征在于：所述时间流网络定义如下，

x'＝TVNet(x₁,x₂)

score_t＝TemporalNet(x')

4.如权利要求2或3所述的基于混合池化双流网络的活体检测方法，其特征在于：所述双流网络学习过程中，包括，

定义SpatialNet计算损失为：

loss_s＝cross_entropy(score_s,label)

定义TemporalNet计算损失为：

loss_t＝cross_entropy(score_t,label)

5.如权利要求4所述的基于混合池化双流网络的活体检测方法，其特征在于：所述空间金字塔池化包括，

输入图片经过多个卷积模块后得出一个特征图；

使用全连接层以及softmax对所述n维特征进行分类得到代表真脸置信度的分数。

6.如权利要求5所述的基于混合池化双流网络的活体检测方法，其特征在于：所述全局平均混合池化包括，

输入图片经过前面的多个卷积模块得出一个特征图；

对特征图进行全局平局池化得到一个m维的特征；

使用softmax对这个m维特征进行分类得到一个分数。

7.如权利要求6所述的基于混合池化双流网络的活体检测方法，其特征在于：所述分数层面的融合包括将所述空间金字塔池化和所述全局平均混合池化两个池化的分数融合成一个空间金字塔全局平均混合池化。

8.如权利要求5～7任一所述的基于混合池化双流网络的活体检测方法，其特征在于：利用融合模块进行所述特征层面的融合，包括，

定义所述融合模块：

其中f_s和f_t分别代表所述空间流网络提取的特征和所述时间流网络提取的特征；

经过通道注意力模块学习两个特征对应的对应权重的大小；

将学习到的权重和特征相乘得到按权分配后的特征；

把按权分配后的特征相加得到最终融合的特征。

9.如权利要求8所述的基于混合池化双流网络的活体检测方法，其特征在于：包括在所述空间流网络上进行了不同颜色空间输入的测试，并得出最适合的颜色空间。

10.如权利要求9所述的基于混合池化双流网络的活体检测方法，其特征在于：所述不同颜色空间输入包括，

HSV颜色空间包含色相、饱和度、明度三个分量；

Ycrcb颜色空间包含了明亮度、色度和RGB；

把RGB颜色空间转化为HSV，如下：

把RGB转化为Ycrcb，如下：