CN117133059B

CN117133059B - 一种基于局部注意力机制的人脸活体检测方法及装置

Info

Publication number: CN117133059B
Application number: CN202311045752.5A
Authority: CN
Inventors: 刘艳; 张梁凤; 陈磊; 李凯; 孙梦磊; 杨思琪; 邢煜梓; 胡梅钰; 陈松路; 殷绪成
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2024-03-01
Anticipated expiration: 2043-08-18
Also published as: CN117133059A

Abstract

本发明提供一种基于局部注意力机制的人脸活体检测方法和装置，方法包括：S1、将人脸活体检测数据集中的视频进行预处理，得到预处理后的图片数据；S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型Vi T中，插入局部注意力Patch Attent i on模块和新的MLP分类头，再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调，得到训练完成的Vi T*模型；S3、使用所述Vi T*模型作为教师网络，指导插入局部注意力Patch Attent i on模块的轻量级Vi T‑T i ny模型学习，训练得到最终的Vi T‑T i ny*模型；S4、使用最终的Vi T‑T i ny*模型进行推理，判断待检测图片是否为真实人脸。本发明对演示攻击具有良好的分辨能力，从而提升模型检测精度。

Description

一种基于局部注意力机制的人脸活体检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别是指一种基于局部注意力机制的人脸活体检测方法及装置。

背景技术

在科学技术不断发展的今天，人脸识别在许多领域都得到广泛的应用，最常见的如线上支付、智能家居，此外，还有安全监控、海关安检、金融授权等领域。但目前的人脸识别系统广泛存在容易将照片、视频中的人脸认为是真实人脸的问题，使得人脸识别变得不安全。在如今的数字化、信息化时代，他人照片、视频等信息可轻易获得，不需要太高的成本即可对人脸识别系统进行攻击。为了抵御这些演示攻击(包含人脸信息的打印照片、回放照片、回放视频，以及3D硅胶面具等用于欺骗人脸识别系统的介质)，保障人脸识别过程的安全，区分真假人脸的人脸活体检测技术(区分真实人脸和照片、视频等非活体人脸，保护人脸识别系统免于演示攻击)被引入到人脸识别系统中。

早期的研究通常采用手工设计的描述算子提取特征，再使用支持向量机(SVM)进行分类。这些方法基本是利用相邻像素之间的局部关系作为判别特征，这对于描述真实人脸和演示攻击之间的详细不变信息(例如颜色纹理，莫尔图图案和噪声伪像)具有鲁棒性，但是很难分辨出视频回放或高清打印图片与真实人脸之间的细微差别。对比之下，深度学习以数据驱动方式学习到的特征比手工设计的描述算子提取到的特征更具优势。除了最初的使用卷积神经网络提取单帧特征之外，有的研究者考虑了真实人脸和演示攻击在时间维度上的差异，并使用LSTM级联基于多帧的CNN特征，以实现鲁棒动态线索传播，这些方法都采用二值交叉熵损失监督网路，可以使得模型快速收敛，然而，这些监督信号仅为模型学习区分真实人脸和演示攻击提供全局约束，这可能导致人脸活体检测模型容易过拟合到不忠实的模式，例如，屏幕边框。

发明内容

本发明提供了一种基于局部注意力机制的人脸活体检测方法及装置。所述技术方案如下：

一方面，提供了一种基于局部注意力机制的人脸活体检测方法，包括：

S1、将人脸活体检测数据集中的视频进行预处理，得到预处理后的图片数据；

S2、在图像分类数据集ImageNet上预训练的视觉Transformer模型ViT中，插入局部注意力Patch Attention模块和新的MLP分类头，再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调，得到训练完成的ViT*模型；

S3、使用所述ViT*模型作为教师网络，指导插入局部注意力Patch Attention模块的轻量级ViT-Tiny模型学习，训练得到最终的ViT-Tiny*模型；

S4、使用最终的ViT-Tiny*模型进行推理，判断待检测图片是否为真实人脸。

可选地，所述S1，具体包括：

S11、将所述人脸活体检测数据集中的真假人脸视频拆帧处理，以多张图片的形式保存；

S12、对所述多张图片进行人脸检测，对图片进行裁剪，仅保留人脸区域，并去除背景区域的干扰；

S13、采用随机水平翻转和随机打乱patch位置的数据增广方式对图片进行变换，得到新的图片，并将图片调整为指定大小。

可选地，所述视觉Transformer模型ViT包括：

使用16×16卷积将输入图片按patch裁剪，并编码成Patch Embedding，与可学习的分类token和位置编码整合后输入到Block中；

ViT共包括12个堆叠在一起的Block，上一个Block的输出作为下一个Block的输入，每个Block的结构都相同，最后一个Block的输出称为高层特征，高层特征输入到多类别的MLP分类头得到分类结果；

Block的结构为：

输入特征首先经过归一化层，再进入到包括12个头的多头注意力模块，多头注意力模块处理后的特征与跳连的Block的输入特征相加得到新的中间特征，中间特征经过一个归一化层后进入MLP，得到的特征与跳连的中间特征相加，作为Block的输出。

可选地，所述S2，具体包括：

S21、将预训练的ViT模型中多类别的MLP分类头替换成二分类的MLP分类头；

S22、使用所述预处理后的图片数据微调二分类的MLP分类头的参数，冻结除二分类的MLP分类头之外的其他参数，并保存微调后的ViT模型；

S23、在保存的ViT模型中插入所述Patch Attention模块，冻结部分参数，继续微调模型，并保留验证过程的最佳模型，得到训练完成的ViT*模型；

所述Patch Attention模块对原始的Patch Embedding进行加权，通过参数的迭代更新为不同patch及patch中不同位置的像素点分配不同的权重；

所述Patch Attention模块插在ViT模型的Patcu Embedding之后，包括3个分支，patch加权分支、跳连分支、pixel加权分支，patch加权分支的输出与pixel加权分支的输出分别与原始的Patch Embedding相乘，对原始Patch Embedding中每个patch和patch中不同的位置分别赋予不同的权重；两个加权后的Patch Embedding与跳连分支相加，得到所述Patch Attention模块的输出，作为新的Patch Embedding进入ViT模型中，其中patch加权分支得到的Patch Embedding和pixel加权分支得到的Patch Embedding的权重比例分别为α和β；

所述patch加权分支的输出描述为式(5-1)：

y_patch＝Sigmoid(fc₂(ReLU(fc₁(pool_1×768(x))))) (式5-1)

式中，x表示输入Patch Embedding，y_patch表示输出，Sigmoid()和ReLU()表示相应激活函数，fc₁()和fc₂()分别表示全连接层1和2，pool_1×768()表示池化核尺寸和步长均为₁×768的平均池化层；

所述pixel加权分支的输出描述为式(5-2)：

y_pixel＝Sigmoid(fc₄(ReLU(fc₃(pooL_196×1(x))))) (式5-2)

式中，x表示输入Patch Embedding，y_pixel表示输出，Sigmoid()和ReLU()表示相应激活函数，fc₃()和fc₄()分别表示全连接层3和4，

pool_196×1()表示池化核尺寸和步长均为196×1的平均池化层；

所述Patch Attention模块的输出描述为式(5-3)：

y_attention＝y_shotcut+αy_patchx+βy_pixelx (式5-3)

式中，y_shortcut表示跳连分支Patch Embedding，y_attention表示输出的新的PatchEmbedding，α表示patch加权分支的输出所占权重，β表示pixel加权分支的输出所占权重。

可选地，所述方法还包括：

在ViT模型的每个Block中插入一个特征增广模块，对每个Block的输出特征进行随机增广，增广方式描述为式(5-4)：

x′＝ax+b(式5-4)

式中，x′为增广后的特征，x为各个Block输出的特征，a为实数，b为实数组成的矩阵，b的维度与x相同，b中的每一个元素与a都从均值为0，标准差为1的正态分布中随机选择。

可选地，所述S23中的冻结部分参数，继续微调模型，具体包括：

使用所述预处理后的图片数据微调所述Patch Attention模块和最后2个Block以及MLP分类头的参数，冻结其他所有参数，采用二值交叉熵损失进行监督。

可选地，所述轻量级ViT-Tiny模型是包含5.7M参数的，具有和ViT模型相同结构的模型，ViT-Tiny*模型为插入了Patch Attention模块的轻量级ViT-Tiny模型。

可选地，所述S3，具体包括：

将所述预处理后的图片数据分别输入训练好的ViT*模型和未训练过的ViT-Tiny*模型，使用均方误差MSE损失约束ViT-Tiny*提取的高层特征与ViT*提取的高层特征趋向一致；

ViT-Tiny*模型中MLP分类头的结构和参数与ViT*模型中的MLP分类头一致；

在训练过程中，ViT*模型的所有参数被冻结，ViT-Tiny*模型仅冻结MLP分类头的参数，使用MSE损失和二值交叉熵损失共同监督ViT-Tiny*模型更新其Encoder参数，保留验证过程的最佳ViT-Tiny*模型作为最终的ViT-Tiny*模型。

可选地，所述方法还包括在用于微调的所述预处理后的图片数据中引入目标域的少量样本，使得模型能够适应目标域。

另一方面，提供了一种基于局部注意力机制的人脸活体检测装置，所述装置包括：

预处理模块，用于将人脸活体检测数据集中的视频进行预处理，得到预处理后的图片数据；

第一训练模块，用于在图像分类数据集ImageNet上预训练的视觉Transformer模型ViT中，插入局部注意力Patch Attention模块和新的MLP分类头，再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调，得到训练完成的ViT*模型；

第二训练模块，用于使用所述ViT*模型作为教师网络，指导插入局部注意力PatchAttention模块的轻量级ViT-Tiny模型学习，训练得到最终的ViT-Tiny*模型；

推理模块，用于使用最终的ViT-Tiny*模型进行推理，判断待检测图片是否为真实人脸。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现上述基于局部注意力机制的人脸活体检测方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现上述基于局部注意力机制的人脸活体检测方法。

本发明提供的技术方案带来的有益效果至少包括：

1)现有的人脸活体检测方法大多采用完整的图片作为网络输入，忽略了局部图像可能包含更具判别性的细粒度线索。有些方法即使关注到了局部信息的重要性，从图片中随机选择patch作为网络输入，但是忽略了patch的位置信息。本发明认为在活体检测任务中，图片的局部信息同全局信息一样重要，并且不同位置的局部信息的重要程度也各不相同。本发明将完整的图像依次裁剪成多个patch输入到网络中，不丢失信息的同时使得网络关注局部特征。为了使得网络更加关注到具有判别性特征的区域，本发明设计了一个PatchAttention模块以学习各个patch和每个patch中各个位置的重要程度，对不同的patch和其中的像素点赋予不同的权重，从而去除冗余信息，提高网络对关键信息的关注度。并且，考虑到patch之间的相关性，为了提升模型对全局信息的把握，本发明采用视觉Transformer作为主干网络，捕捉patch之间的全局关系。因此，本发明能过够提高模型对细粒度信息的捕获能力，使之对演示攻击具有良好的分辨能力，从而提升模型检测精度。

2)由于人脸活体检测的数据集规模通常较小，从头开始训练模型容易出现过拟合，使得实际测试的性能下降。本发明在ImageNet上预训练的视觉Transformer模型中插入局部注意力Patch Attention模块和新的MLP分类头，再使用人脸活体检测数据集对齐进行微调，不仅能缓解数据集规模较小带来的过拟合问题，也能使模型很好地适应人脸活体检测任务。

3)在人脸活体检测中，如何提高模型的泛化能力是核心问题。目前主流的做法是采用域泛化和域自适应的方法将源域和目标域对齐，从而能够将源域训练得到的知识直接应用于目标域中。虽然这些方法都能够有效提高模型对未知域数据的泛化能力，但是需要大量的目标域数据，而收集大量目标域数据通常较为困难，且成本较高。本发明采用few-shot(小样本，指引入目标域的少量样本参与模型训练)的方法，在用于微调的数据中引入目标域的少量样本。此方法不需要收集大量目标域数据，而只需要少量的目标域标记样本，在实际应用中容易实现，使得本发明的实际落地成为可能。

4)人脸活体检测仅关心样本图片是否为真实人脸，并不关心其身份信息。而完整的人脸图像通常包含丰富的上下文信息，如身份等，此类信息容易对网络训练产生干扰。因此，本发明采用随机打乱patch顺序的数据增广方式对数据进行处理，使之无法辨别身份，去除了部分上下文信息，能够有效帮助模型聚焦于活体检测任务，达到更好性能。而在推理阶段，训练好的模型的参数固定，不再学习新的知识，身份信息不再会对其造成干扰，因此不再进行patch打乱操作。

5)本发明先训练大型ViT*模型，再利用大型ViT*模型指导轻量级视觉Transformer网络ViT-Tiny*模型训练，使之能够提取到有效的高层特征，获得与ViT*模型相差无几的性能，最终使用训练好的轻量级ViT-Tiny*模型进行推理，可以大大降低模型的参数量(由90M降低至6M)，便于部署，同时加快推理速度。

6)为了防止过拟合，同时增强模型泛化能力，训练过程中，本发明在ViT模型的每个Block中插入一个特征增广模块，对每个Block的输出特征进行随机增广，不仅能防止过拟合，而且增强了模型泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于局部注意力机制的人脸活体检测方法流程图；

图2是本发明实施例提供的预处理中人脸检测及裁剪过程示意图；

图3是本发明实施例提供的预处理中数据增广示意图；

图4是本发明实施例提供的ViT模型处理输入图片的过程示意图；

图5是本发明实施例提供的视觉Transformer(ViT模型)ViT结构示意图；

图6是本发明实施例提供的ViT*模型结构示意图；

图7是本发明实施例提供的ViT*模型指导ViT-Tiny*模型训练示意图；

图8是本发明实施例提供的推理过程示意图；

图9是本发明实施例提供的一种基于局部注意力机制的人脸活体检测装置框图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种基于局部注意力机制的人脸活体检测方法，包括：

本发明实施例利用视觉Transformer对图像进行patch(从完整图片中裁剪的局部区域)的分割，提取局部信息的同时捕捉patch之间的全局关系，并在模型中引入局部注意力Patch Attention模块，提高模型对判别性特征(如颜色失真、摩尔条纹、裁剪边缘等)的关注度和对细粒度信息的捕获能力，从而提升模型的检测效果。本发明实施例采用人脸活体检测数据微调在ImageNet上预训练的原始视觉Transformer模型，缓解人脸活体检测数据集规模较小带来的过拟合问题，同时，在用于微调的数据中引入目标域的少量样本，使得模型能够适应目标域。并采用微调后的原始Transformer作为教师网络，指导轻量级Transformer模型学习，使得轻量级Transformer模型即可达到与原始Transformer模型相差无几的性能，从而可以直接在人脸活体检测应用中部署轻量级Transformer模型，加快推理速度的同时保持检测精度。此外，本发明实施例提出了一种基于patch的数据增广方式，通过打乱patch的位置，降低无关的上下文信息(身份信息等)对模型的干扰，增加数据多样性的同时使得模型更加关注活体与非活体相关的信息，从而提升人脸活体检测的效果。为了防止过拟合，同时增强模型泛化能力，训练过程中，本发明实施例在ViT模型的每个Block中插入一个特征增广模块，对每个Block的输出特征进行随机增广，不仅能防止过拟合，而且增强了模型泛化能力，下面结合图2-8，详细说明本发明实施例提供的一种基于局部注意力机制的人脸活体检测方法，包括：

本发明实施例使用人脸活体检测数据集(OULU-NPU、ldiap Replay-Attack、MSU-MFSD、CASlA-MFSD数据集)作为“三留一”(使用其中3个数据集训练，1个数据集测试)实验的数据集，使用CelebA-Spoof数据集作为补充数据集参与训练。为了使模型能够更好地泛化到目标域，本发明实施例使用了目标域的5个真实人脸样本和5个演示攻击样本参与训练。

可选地，所述S1，具体包括：

S12、对所述多张图片进行人脸检测，对图片进行裁剪，仅保留人脸区域(使之更接近人脸识别场景)，并去除背景区域的干扰；

本发明实施例采用MTCNN模型对图像进行人脸检测，取检测结果中较长的边作为基准，对较短的边采取由中心向两侧延长相同距离的措施，使之与较长的边相等。两边相等之后再裁剪，得到正方形的人脸区域图像，如图2所示，本操作可以防止调整图像大小时改变人脸形状。

S13、采用随机水平翻转和随机打乱patch位置的数据增广方式对图片进行变换，得到新的图片，并将图片调整为指定大小(比如，可以为224×224像素)。

为了降低无关的上下文信息(身份信息等)对模型的干扰，增加数据多样性的同时，使得模型更加关注活体与非活体相关的信息，本发明实施例实施例采用基于patch的数据增广方式，通过随机水平翻转和随机打乱patch位置，从而提升人脸活体检测的效果。

本发明实施例随机水平翻转的概率设置为50％，随机水平翻转和随机打乱patch位置的效果图如图3中a)和b)所示。

本发明实施例在训练过程中，每个视频中取1帧图像作为训练数据；在后续推理过程中，每个视频取2帧图像作为测试数据。

本发明实施例采用视觉Transformer作为主干网络，Transformer的多头自注意力机制使其拥有比CNN更大的感受野，从而具备较强的捕获全局关系的能力，其跳连结构使得高层神经元能够很好地接收到来自低层神经元的特征和纹理信息，从而更好地将低层纹理信息和高层语义信息相结合，获得更全面的特征用于分类。由于人脸活体检测数据集规模较小，为了防止过拟合，本发明实施例采用在图像分类数据集ImageNet上训练的ViT模型为预训练模型。

可选地，如图4所示，输入图像的尺寸为224×224×3，可划分为196个16×16×3的patch，每个16×16×3的patch经过卷积操作变换为1×1×768的特征，再经平铺后变为1×768的特征，最终得到的Patch Embedding尺寸为196×768，因此，Patch Embedding中不同的行代表不同位置的patch，不同的列代表patch中不同位置的像素点。

可选地，如图5所示，所述视觉Transformer模型ViT包括：

使用16×16卷积将输入图片按patch裁剪，并编码成Patch Embedding，与可学习的分类token(cls)和位置编码整合后输入到Block中；

Block的结构为：

输入特征首先经过归一化层，再进入到包括12个头的多头注意力模块(即特征被平均分成12份分别处理，处理完再拼接成完整的特征)，多头注意力模块处理后的特征与跳连的Block的输入特征相加得到新的中间特征，中间特征经过一个归一化层后进入MLP(MLP由两个全连接层和一个GELU激活函数层构成，两个全连接层的神经元数量分别为3072和768，激活函数层位于两个全连接层之间)，得到的特征与跳连的中间特征相加，作为Block的输出。

可选地，所述S2，具体包括：

因为人脸活体检测是二分类任务(区分属于真实人脸或演示攻击)，为了使预训练模型能够用于二分类任务，本发明实施例将预训练模型中多类别的MLP分类头替换成二分类的MLP分类头。二分类的MLP分类头由2个全连接层构成，神经元数量分别为512和2。

为了使二分类头能够适用于人脸活体检测任务，区分真实人脸与演示攻击，因此使用所述预处理后的图片数据微调二分类的MLP分类头的参数，冻结除二分类的MLP分类头之外的其他参数，微调过程采用二值交叉熵损失衡量ViT模型实际输出与预期结果(样本标签)的差距，采用梯度下降算法对MLP分类头的参数进行更新。

ViT模型对输入图片按patch裁剪的过程如图4所示，224×224的输入图片被16×16的卷积核以16为步长裁剪为196个16×16的patch，并编码成196×768的PatchEmbedding输入到ViT模型中。该做法将所有的patch视为同等重要，忽略了不同位置的patch包含的人脸活体相关的线索(如反射条纹等)可能不同，因此重要程度也各不相同。因此，本发明实施例采用Patch Attention模块对原始的Patch Embedding进行加权，通过参数的迭代更新为不同patch及patch中不同位置的像素点分配不同的权重，使得模型能够更加关注对人脸活体检测重要的区域，减少对不重要区域的关注。

如图6所示，所述Patch Attention模块插在ViT模型的Patch Embedding之后，包括3个分支，如图6中Patch Attention模块结构中左边的patch加权分支、中间的跳连分支、右边的pixel加权分支，patch加权分支的输出与pixel加权分支的输出分别与原始的PatchEmbedding相乘，对原始Patch Embedding中每个patch和patch中不同的位置分别赋予不同的权重；两个加权后的Patch Embedding与跳连分支相加，得到所述Patch Attention模块的输出，作为新的Patch Embedding进入ViT模型中，其中patch加权分支得到的PatchEmbedding和pixel加权分支得到的Patch Embedding的权重比例分别为α和β；

所述patch加权分支的输出描述为式(5-1)：

y_patch＝Sigmoid(fc₂(ReLU(fc₁(pool_1×768(x))))) (式5-1)

式中，x表示输入Patch Embedding，y_patch表示输出，Sigmoid()和ReLU()表示相应激活函数，fc₁()和fc₂()分别表示全连接层1和2，

pool_1×768()表示池化核尺寸和步长均为1×768的平均池化层；

所述pixel加权分支的输出描述为式(5-2)：

y_pixel＝sigmoid(fc₄(ReLU(fc₃(pool_196×1(x))))) (式5-2)

pool_196×1()表示池化核尺寸和步长均为196×1的平均池化层；

所述Patch Attention模块的输出描述为式(5-3)：

y_attention＝y_shotcut+αy_patchx+βy_pixelx (式5-3)

式中，y_shortcut表示跳连分支Patch Embedding，yattention表示输出的新的PatchEmbedding，α表示patch加权分支的输出所占权重，β表示pixel加权分支的输出所占权重。

本发明实施例中Patch Attention模块的patch加权分支，采用1×768的平均池化核对Patch Embedding进行平均池化，获得196×1的权重向量，再经过两个全连接层使得权重成为可学习变量，进而对Patch Embedding中的每个patch分别赋予权重；pixel加权分支，采用196×1的平均池化核和全连接层获得可学习的1×768尺寸的权重向量，对patch中每个像素点位置分别赋予权重，全连接层1和全连接层3的神经元数量均为16，全连接层2的神经元数量为196，全连接层4的神经元数量为768。本发明实施例的α和β可以人为设置(根据不同的数据集设置不同的比例)，也可以作为可学习的参数让神经网络自己学，也可以比较一下两种方法，选择性能好的。

可选地，所述方法还包括：

在ViT模型的每个Block中插入一个特征增广模块(如图6最右边的Block结构中所示)，对每个Block的输出特征进行随机增广，增广方式描述为式(5-4)：

x′＝ax+b (式5-4)

S3、使用所述ViT*模型作为教师网络，指导插入局部注意力PatchAttention模块的轻量级ViT-Tiny模型学习，训练得到最终的ViT-Tiny*模型；

本发明实施例的ViT-Tiny模型与ViT模型的整体结构一致，仅在特征宽度和多头注意力的头数上做了改变，ViT-Tiny模型的Patch Embedding宽度为192，即ViT-Tiny模型的Patch Embedding尺寸为196×192，而ViT模型的Patch Embedding尺寸为196×768，ViT-Tiny模型的很多神经元数量也会比ViT模型少很多，整体参数也会减少很多，多头注意力的头数为3(即特征平均分成3份进行处理)，因此ViT-Tiny*模型中Patch Attention模块的patch加权分支中，池化层的池化核尺寸和步长均为1×192，其他参数设置与ViT*模型中的Patch Attention模块一致，而因为Patch Attention模块的参数量很小，不影响他整体的参数量，所以整体来说ViT-Tiny模型的参数量还是比ViT模型要小非常多。

经过2次微调，步骤S2得到的ViT*模型已经可以在人脸活体检测任务上表现良好，但由于其参数量(约90M)较大，推理速度较慢。轻量级ViT-Tin模型仅包含5.7M参数，推理速度较快，方便部署。但是，由于人脸活体检测数据集与ViT-Tiny参数量均较小，直接参与训练的轻量级ViT-Tiny模型提取的高层特征相比ViT模型较差；并且当下游任务数据量较小时，预训练的ViT-Tiny模型难以适应新的任务。因此，本发明实施例借助更大规模的模型(ViT*模型)帮助轻量级ViT-Tiny模型训练。

可选地，如图7所示，所述S3，具体包括：

将所述预处理后的图片数据分别输入训练好的ViT*模型和未训练过的ViT-Tiny*模型，使用均方误差MSE损失约束ViT-Tiny*提取的高层特征与ViT*提取的高层特征趋向一致(从而使得ViT-Tiny*模型可以提取到较好的高层特征用于分类)；

由于ViT*模型的参数主要集中在除分类头的之外的Encoder中，MLP分类头的参数量较小，因此，ViT-Tiny*模型可以直接使用ViT*模型中已经训练良好的MLP分类头，即ViT-Tiny*模型中MLP分类头的结构和参数与ViT*模型中的MLP分类头一致。

可选地，本发明实施例的方法还包括在用于微调的所述预处理后的图片数据中引入目标域的少量样本，使得模型能够适应目标域。

本发明实施例采用Pytorch1.8.1深度学习框架，利用Adam优化器，初始学习率设置为0.0001，训练批量为30，所有的实验都是在一台含有4块NVIDIA Titan XP GPU的机器上进行。

可选地，如图8所示，所述S4，具体包括：

S41、对输入的待检测图片进行人脸检测并裁剪(在推理过程不进行数据增广)；

S42、将裁剪好的人脸图像缩放至224×224；

S43、将缩放后的图像输入最终的ViT-Tiny*模型，得到图片属于真实人脸或演示攻击的概率，选择概率较大的类别作为最终的分类结果。

本发明实施例还可以根据标签计算模型分类的准确率。

如图9所示，本发明实施例还提供了一种基于局部注意力机制的人脸活体检测装置，所述装置包括：

预处理模块910，用于将人脸活体检测数据集中的视频进行预处理，得到预处理后的图片数据；

第一训练模块920，用于在图像分类数据集ImageNet上预训练的视觉Transformer模型ViT中，插入局部注意力Patch Attention模块和新的MLP分类头，再使用所述预处理后的图片数据对新的视觉Transformer模型进行微调，得到训练完成的ViT*模型；

第二训练模块930，用于使用所述ViT*模型作为教师网络，指导插入局部注意力Patch Attention模块的轻量级ViT-Tiny模型学习，训练得到最终的ViT-Tiny*模型；

推理模块940，用于使用最终的ViT-Tiny*模型进行推理，判断待检测图片是否为真实人脸。

本发明实施例提供的一种基于局部注意力机制的人脸活体检测装置，其功能结构与本发明实施例提供的一种基于局部注意力机制的人脸活体检测方法相对应，在此不再赘述。

图10是本发明实施例提供的一种电子设备1000的结构示意图，该电子设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有指令，所述指令由所述处理器1001加载并执行以实现上述基于局部注意力机制的人脸活体检测方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于局部注意力机制的人脸活体检测方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部注意力机制的人脸活体检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述S1，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述视觉Transformer模型ViT包括：

Block的结构为：

4.根据权利要求3所述的方法，其特征在于，所述S2，具体包括：

所述Patch Attention模块插在ViT模型的Patch Embedding之后，包括3个分支，patch加权分支、跳连分支、pixel加权分支，patch加权分支的输出与pixel加权分支的输出分别与原始的Patch Embedding相乘，对原始Patch Embedding中每个patch和patch中不同的位置分别赋予不同的权重；两个加权后的Patch Embedding与跳连分支相加，得到所述PatchAttention模块的输出，作为新的Patch Embedding进入ViT模型中，其中patch加权分支得到的Patch Embedding和pixel加权分支得到的Patch Embedding的权重比例分别为α和β；

所述patch加权分支的输出描述为式(5-1)：

y_patch＝Sigmoid(fc₂(ReLU(fc₁(pool_1×768(x))))) (式5-1)

pool_1×768()表示池化核尺寸和步长均为1×768的平均池化层；

所述pixel加权分支的输出描述为式(5-2)：

y_pixel＝Sigmoid(fc₄(ReLU(fc₃(pool_196×1(x))))) (式5-2)

式中，x表示输入Patch Embedding，ypixel表示输出，Sigmoid()和ReLU()表示相应激活函数，fc₃()和fc₄()分别表示全连接层3和4，

pool_196×1()表示池化核尺寸和步长均为196×1的平均池化层；

所述Patch Attention模块的输出描述为式(5-3)：

y_attention＝y_shotcut+αy_patchx+βy_pixelx (式5-3)

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

x′＝ax+b(式5-4)

6.根据权利要求4所述的方法，其特征在于，所述S23中的冻结部分参数，继续微调模型，具体包括：

7.根据权利要求1所述的方法，其特征在于，所述轻量级ViT-Tiny模型是包含5.7M参数的，具有和ViT模型相同结构的模型，ViT-Tiny*模型为插入了Patch Attention模块的轻量级ViT-Tiny模型。

8.根据权利要求1所述的方法，其特征在于，所述S3，具体包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括在用于微调的所述预处理后的图片数据中引入目标域的少量样本，使得模型能够适应目标域。

10.一种基于局部注意力机制的人脸活体检测装置，其特征在于，所述装置包括：