CN114648815A

CN114648815A - 结合注意力机制和残差网络的人脸活体检测方法及系统

Info

Publication number: CN114648815A
Application number: CN202210320730.4A
Authority: CN
Inventors: 孔月萍; 李鑫远; 李静; 刘楚
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-06-21

Abstract

本发明公开了一种结合注意力机制和残差网络的人脸活体检测方法及系统，包括：构建注意力机制模块和残差网络结合的SE‑ResNet50网络模型；获取训练样本，并利用训练样本对SE‑ResNet50网络模型进行训练；利用训练后的SE‑ResNet50网络模型进行人脸活体检测，该方法及系统能够提高真假人脸的检测正确率。

Description

结合注意力机制和残差网络的人脸活体检测方法及系统

技术领域

本发明属于人脸活体检测技术领域，涉及一种结合注意力机制和残差网络的人脸活体检测方法及系统。

背景技术

随着生物特征识别技术的发展，相比于指纹、语音和虹膜等生物识别技术，人脸识别技术以其非接触式的用户友好性、廉价采集设备的安装方便性、识别验证的快速有效性在智慧城市建设的许多场合中应用。但人脸识别技术快速发展的背后，存在一个较大的安全隐患，易受非法用户借助“合法用户的照片、视频”等媒体介质进行恶意攻击，给社会财产及人身安全带来危险，既有的人脸活体检测技术需要被检测人做张嘴、眨眼等动作主动完成配合认证，使用体验不佳，更易受真实人脸剪辑视频的攻击，如何提高真假人脸的检测正确率是一大技术难题。

发明内容

本发明的目的在于克服既有技术的上述缺点，提供一种结合注意力机制和残差网络的人脸活体检测方法及系统，该方法及系统能够提高真假人脸的检测正确率。

为达到上述目的，本发明所述的结合注意力机制和残差网络的人脸活体检测方法包括：

构建注意力机制模块和残差网络结合的SE-ResNet50网络模型；

获取训练样本，并利用训练样本对SE-ResNet50网络模型进行训练；

利用训练后的SE-ResNet50网络模型进行人脸活体检测。

从公开的人脸反欺诈数据集Replay-Attack中选取真实人脸样本及虚假人脸样本，将选取的真实人脸样本及虚假人脸样本作为训练样本。

注意力机制模块包括输入层及输出层，其中，输入层包括全局平均计算模块、第一全连接层及Relu激活函数，输出层包括第二全连接层及Sigmoid激活函数。

注意力机制模块的输入数据为人脸图像RGB三通道经过卷积后提取的特征矩阵，注意力机制模块的输出为调整权重后的特征矩阵。

构建SE-ResNet50网络的具体操作为：

SE-ResNet50网络由四个卷积块和一个全连接层组成，每个卷积块分别由注意力机制残差块及若干残差块组成，全连接层由2个神经元组成。

SE-ResNet50网络的输入为待检测人脸图像，SE-ResNet50网络的输出为真实或虚假人脸的检测概率。

获取训练样本的具体操作为：

对公开的人脸反欺诈数据集Replay-Attack中每秒25帧共15秒分辨率为320×240的mov格式视频进行人脸检测，获取人脸区域，以人脸区域为基准向外扩展预设尺度的背景区，再每间隔五帧截取一张人脸图像，对截取的图像进行归一化处理，将归一化后的图像作为训练样本。

本发明所述的结合注意力机制和残差网络的人脸活体检测系统包括：

构建模块，用于构建注意力机制模块和残差网络结合的SE-ResNet50网络模型；

训练模块，用于获取训练样本，并利用训练样本对SE-ResNet50网络模型进行训练；

检测模块，用于调用训练后的SE-ResNet50网络模型进行人脸活体检测。

本发明具有以下有益效果：

本发明所述的结合注意力机制和残差网络的人脸活体检测方法及系统在具体操作时，将深度残差网络与注意力机制相结合，基于注意力机制模块和残差网络结合的SE-ResNet50网络模型进行人脸活体检测，使得网络模型更加关注真实人脸的鼻尖区域以及虚假人脸的边缘区域，以提高真假人脸的检测正确率，为检测虚假人脸攻击提供更加有力的技术手段。

附图说明

图1a为注意力机制SE的组成结构图；

图1b为残差块Res的组成结构图；

图1c为注意力机制残差块SE-Res的组成结构图；

图2为SE-ResNet50网络模型的结构图；

图3为SE-ResNet50网络模型的损失函数变化曲线图；

图4为SE-ResNet50网络模型的检测准确率变化曲线图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

附图中展示了根据本发明公开实施例的结构示意图。这些图并非按比例绘制的，为了清楚表达目的，放大了某些细节，也可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

深度神经网络在虚假人脸检测攻击中有着出色的性能，可有效提取真实人脸与虚假人脸的差异性特征。但是随着网络深度的增加，优化难度增加，导致模型性能下降。因此利用SE-ResNet50网络残差块增加了从前到后的直连操作，可以向下一个网络单元提供在卷积操作中丢失的关键信息，这样当深层网络退化时，将浅层的特征传到深层，能保证网络性能至少不比浅层的网络效果差。而SE-ResNet50网络中SE模块则可以对每个通道的权重系数进行学习，让网络更加关注真实人脸的鼻尖以及虚假人脸的边缘区域，最后优化训练好的网络模型，使他们在虚假和真实人脸的检测性能上进一步提升。

基于以上分析，参考图1a至图2，本发明所述的结合注意力机制和残差网络的人脸活体检测方法包括：

1)构建注意力机制模块和残差网络结合的SE-ResNet50网络模型；

2)获取训练样本，并利用训练样本对SE-ResNet50网络模型进行训练；

具体的，从公开人脸反欺诈数据集Replay-Attack中选取真实人脸样本及虚假人脸样本，将选取的真实人脸样本及虚假人脸样本作为训练样本，其中，对公开人脸反欺诈数据集Replay-Attack中每秒25帧共15秒分辨率为320×240的mov格式视频进行人脸检测，获取人脸区域，以人脸区域为基准向外扩展预设尺度的背景区，再每间隔五帧截取一张图像，对截取的图像进行归一化处理，将归一化后的图像作为训练样本。

3)利用训练后的SE-ResNet50网络模型进行人脸活体检测。

步骤1)中的注意力机制模块包括输入层及输出层，其中，输入层包括全局平均计算模块、第一全连接层及Relu激活函数，输出层包括第二全连接层及Sigmoid激活函数；注意力机制模块的输入数据为人脸图像RGB三通道经过卷积后提取的特征矩阵，注意力机制模块的输出为调整权重后的特征矩阵。

具体的，SE-ResNet50网络由四个卷积块和一个全连接层组成，每个卷积块分别由注意力机制残差块和若干残差块组成，以第一个卷积块为例，它由一个注意力机制残差块SE-Res和两个残差块Res组成，每个残差块由三个卷积层组成，第一卷积层包含64个尺度为1×1的卷积核；第二卷积层包含64个尺度为3×3的卷积核；第三卷积层包含256个尺度为3×3的卷积核，注意力机制模块SE位于残差块第三卷积层之后、残差连接之前，从而构成注意力机制残差块SE-Res，SE-ResNet50网络结构及具体参数表如表1所示，网络模型最后的全连接层由2个神经元组成。

表1

步骤3)中对SE-ResNet50网络模型进行训练的具体操作为：

虚假人脸检测是二分类问题，为了让SE-ResNet50网络模型适合于虚假人脸检测问题，将最后的全连接层神经元数量设置为2，分别对应真实人脸和虚假人脸两个目标类别，全连接层之后使用softmax函数计算最后特征向量z属于每个类别j的概率y_j，j值为1、2，其中，

在网络训练过程中，利用损失函数来评价SE-ResNet50网络模型的预测值与真实值的差异程度，损失值越小，则模型性能越好，选择与softmax结合更好的交叉熵loss作为损失函数，loss为：

其中，N表示样本总数量，l_i表示样本i的真实类别标签，设真人标签为0，假人标签为1，y_i表示样本i的预测概率，将构造好的训练集和验证集送入SE-ResNet50网络模型进行迭代训练，选取Adam优化算法优化损失函数，设置初始学习率α＝0.00001，批训练样本数batchsize＝128，网络迭代次数epoch＝100，激活函数为ReLU。在训练过程中应用早停法，当SE-ResNet50网络模型的检测准确率在10个周期内没有增加，则表明迭代收敛到最优解，结束训练。SE-ResNet50网络模型的损失函数和检测准确率变化曲线如图3及图4，由此可以看出，SE-ResNet50网络模型在第9个epoch时性能达到最好，并在之后10个周期内没有增加，此时结束训练，保存SE-ResNet50网络模型的参数。

为验证本发明的有效性，采用所构建、划分出的测试集进行模型性能测试，其真假人脸检测的正确率如表2所示。

表2

检测模块，用于利用训练后的SE-ResNet50网络模型进行人脸活体检测。

Claims

1.一种结合注意力机制和残差网络的人脸活体检测方法，其特征在于，包括：

构建注意力机制模块和残差网络结合的SE-ResNet50网络模型；

利用训练后的SE-ResNet50网络模型进行人脸活体检测。

2.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，从公开人脸反欺诈数据集Replay-Attack中选取真实人脸样本及虚假人脸样本，将选取的真实人脸样本及虚假人脸样本作为训练样本。

3.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，注意力机制模块包括输入层及输出层，其中，输入层包括全局平均计算模块、第一全连接层及Relu激活函数，输出层包括第二全连接层及Sigmoid激活函数。

4.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，注意力机制模块的输入数据为人脸图像RGB三通道经过卷积后提取的特征矩阵，注意力机制模块的输出为调整权重后的特征矩阵。

5.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，构建SE-ResNet50网络的具体操作为：

6.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，SE-ResNet50网络的输入为待检测人脸图像，SE-ResNet50网络的输出为真实或虚假人脸的检测概率。

7.根据权利要求1所述的结合注意力机制和残差网络的人脸活体检测方法，其特征在于，获取训练样本的具体操作为：

对公开人脸反欺诈数据集Replay-Attack中每秒25帧共15秒分辨率为320×240的mov格式视频进行人脸检测，获取人脸区域，以人脸区域为基准向外扩展预设尺度的背景区，再每间隔五帧截取一张图像，将截取的图像进行归一化处理，将归一化后的图像作为训练样本。

8.一种结合注意力机制和残差网络的人脸活体检测系统，其特征在于，包括：