CN115131880B

CN115131880B - 一种多尺度注意力融合的双重监督人脸活体检测方法

Info

Publication number: CN115131880B
Application number: CN202210599350.9A
Authority: CN
Inventors: 黄睿; 王鑫
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2024-05-10
Anticipated expiration: 2042-05-30
Also published as: CN115131880A

Abstract

本发明公开了一种多尺度注意力融合的双重监督人脸活体检测方法，包括以下步骤：预处理图像，获取目标输入图像，并对目标输入图像进行原始特征的提取，得到目标输入图像的原始深度特征；对原始深度特征进行多层次特征的提取，对多层次特征进行基于注意力机制的特征优化，并进行融合，得到融合后的特征图；对融合后的特征图展开并训练模型，得到训练后的人脸活体检测模型；对待检测人脸视频中采集到的图像进行人脸检测，对待检测的人脸图像输入到训练好的人脸活体检测模型，得到最终真假人脸的判别；反馈结果以便进行后续的处理。本发明的一种多尺度注意力融合的双重监督人脸活体检测方法，实现端到端训练模型，提高检测性能、检测精度和泛化能力。

Description

一种多尺度注意力融合的双重监督人脸活体检测方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种多尺度注意力融合的双重监督人脸活体检测方法。

背景技术

随着信息时代的飞速发展，基于人工智能的人脸识别系统已在门禁、安检、金融支付等领域得到了广泛的应用。但人脸识别系统一般不会对输入人脸的来源进行甄别，因此不法分子利用合法用户的人脸图像和视频欺骗人脸识别系统，造成巨大安全隐患。人脸活体度检测的目的是判断待检测人脸是来自真实人体还是图像或视频等假的实体，有利于防范人脸识别系统面临的人脸伪造攻击，对于提高人脸识别系统的安全性有重要意义。

在相关技术中，人脸活体检测算法的研究大致可以划分为传统的基于人工特征的方法和基于深度学习的方法。早期的人脸活体检测算法一般先从人脸图像中提取图像的纹理特征，再通过分类器进行真实人脸和攻击人脸的判别。由于传统的人工特征表征能力不强，且易受光照变化的影响，导致系统的识别性能不佳。基于深度学习的人脸活体检测方法采用端到端训练方式，并且深度特征表征能力更强，无需人工设计，因此可以获得更好的识别精度。但基于深度学习的人脸活体检测方法对背景信息较为敏感，且难以提取有效的本质特征信息。

当前基于深度学习的人脸活体度检测研究已经取得较大进展，但模型的精度及其泛化性能仍在很大程度上受到场景复杂度的制约。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是现有的人脸活体度检测方法存在的易受复杂背景信息的影响，难以提取有效的本质特征信息，导致模型检测精度以及泛化能力低等问题。本发明提供了一种多尺度注意力融合的双重监督人脸活体检测方法，实现端到端训练模型，尽可能在复杂背景条件下提取人脸图像中有效的判别信息，提高检测性能、检测精度和泛化能力。

为实现上述目的，本发明提供了一种多尺度注意力融合的双重监督人脸活体检测方法，包括以下步骤：

预处理图像，获取训练集图像，进行人脸检测和关键点检测，得到人脸框位置信息和关键点位置信息，根据人脸框信息和关键点信息对人脸图像，进行裁剪和归一化处理；

获取目标输入图像，并通过特征预提取网络对目标输入图像进行原始特征的提取，得到目标输入图像的原始深度特征；

对原始深度特征采用三个不同卷积块进行多层次特征的提取，得到低中高三个层次的特征；

对多层次特征进行基于注意力机制的特征优化，将优化后的特征调整到同等维度大小的特征并进行融合，得到融合后的特征图；

对融合后的特征图展开为一个一维向量，送入到全连接层中，通过全连接层输出二维特征，分别表示活体概率值和非活体概率值。并采用基于二值掩码和二值标签的联合监督训练模型，得到训练后的人脸活体检测模型；

对待检测人脸视频进行采集处理，将采集得到的视频进行切割成单帧图像；对于采集到的图像进行人脸检测，如果有人脸，采用预处理图像步骤对人脸图像进行处理得到待检测的人脸图像；

对待检测的人脸图像输入到训练好的人脸活体检测模型，得到最终真假人脸的判别，如果判别结果为真人脸时，系统会允许通过，否则，该输入图像为假人脸，不允许通过；

将判别结果反馈给使用方，使用方根据判别结果进行后续的处理。

进一步地，获取目标输入图像，并通过特征预提取网络对目标输入图像进行原始特征的提取，得到目标输入图像的原始深度特征，具体是使用预训练的卷积神经网络对目标输入图像进行原始深度特征的提取，其中，提取原始深度特征的网络采用开源网络。

进一步地，采用三个不同卷积块进行多层次特征的提取，包括原始深度特征的特征图通道数不同、特征图的高不同和特征图的宽不同。

进一步地，对多层次特征进行基于注意力机制的特征优化，具体包括采用开源的注意力机制网络进行特征的优化处理。

进一步地，预处理图像，获取训练集图像时，需要获取大量的训练样本作为训练集样本，训练集样本应包括大量的正样本和大量的负样本。

进一步地，所述正样本的采集条件设置为在自然光、逆光、人工照明、强光、背景单一和背景复杂等多个场景下进行，在采集的过程中参与拍摄的志愿者做出摇头、身体前倾和后仰以及在做出不同的面部表情等动作；所述负样本包括多种攻击类型的人脸图像。

进一步地，采用经典的ResNet34网络的前七个卷积块作为预提取特征网络的主干框架，从输入图像中提取到原始深度特征。

进一步地，对融合后的特征图展开为一个一维向量，采用基于二值掩码和二值标签的交叉熵损失函数(Cross-Entropy Loss)联合监督训练模型，其中，双重监督损失函数公式为：

总损失函数：L＝L_binary+L_binary-mask

其中，L_binary-mask＝-(Ylog(M))+(1-Y)log(1-M)，L_binary＝-(ylog(p))+(1-y)log(1-p)

其中，Y是二值掩码标定值，约定真实人脸的二值掩码值为全1，攻击人脸的二值掩码值为全0；M为模型预测的特征图；y是人脸图像的真实标签值，p为模型的预测值。

进一步地，通过输出的预测值和输入样本图像的标注值，结合损失函数，并使用Adam优化器算法，设置学习率大小为1×10^-4，最小化损失函数对模型参数进行更新，直到模型收敛为止。

技术效果

本发明提出的多尺度注意力融合的双重监督人脸活体检测方法，不但可以端到端训练模型，并尽可能在复杂背景条件下提取人脸图像中有效的判别信息，在实际应用中有着卓越的检测性能和泛化能力。

首先本发明的多尺度注意力融合的双重监督人脸活体检测方法利用特征预提取网络提取人脸图像中的原始深度特征，过滤掉部分无关的信息，进一步地，利用三个不同的卷积块提取低中高三个层次的特征，提取具有丰富上下文的语义信息，并采用注意力机制对多层次特征进行优化融合处理，将模型的重点关注在判别信息多的区域；最后将融合后的特征图展开为一个一维向量，采用基于二值掩码和二值标签联合训练模型，引导模型学习鲁棒性的本质特征。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的一种多尺度注意力融合的双重监督人脸活体检测方法的流程示意图；

图2是本发明的一种多尺度注意力融合的双重监督人脸活体检测网络模型的网络结构图；

图3是本发明的一个卷积块网络结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下描述中，为了说明而不是为了限定，提出了诸如特定内部程序、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

如图1所示，本实施例提供了一种多尺度注意力融合的双重监督人脸活体检测方法；通过特征预提取网络提取训练集图像中的原始深度特征，采用三个不同的卷积块提取多层次的特征，再采用基于注意力机制对多层次特征进行优化融合，最终采用基于二值掩码和二值标签来拟合监督训练模型。通过本发明提供的方法，可在复杂背景下准确识别输入是否为人脸活体(即判别真假人脸，以下将真人脸称为活体，假人脸称为非活体)，而且模型运行效率高，能够满足现实应用中的实时识别要求。本发明的一种多尺度注意力融合的双重监督人脸活体检测方法具体包括以下步骤：

S1：预处理图像，获取训练集图像，进行人脸检测和关键点检测，得到人脸框位置信息和关键点位置信息，根据人脸框信息和关键点信息对所述人脸图像，进行裁剪和归一化处理；

在本发明实施例中，为训练出高检测精度的人脸活体检测模型，需要获取大量的训练样本作为训练集样本，其中，训练集样本应包括大量的活体样本，即正样本，和大量的非活体样本，即负样本。并且训练集样本应包含尽可能多的参与者进行拍摄采集，对于正样本采集条件可以在自然光、逆光、人工照明、强光、背景单一和背景复杂等多个场景下进行，在采集的过程中参与拍摄的志愿者可以做出摇头、身体前倾和后仰以及在做出不同的面部表情等动作，对于负样本，可以涵盖多种攻击类型的人脸图像，除了常见的打印照片攻击、视频重放攻击和3D面具攻击，还可以包含多种新型的攻击行为，例如化妆和换脸等。

本发明实施例中的训练集数据应采集完整的人脸图像进行本模型的训练，训练集数据的结构设计为(x_i,y_i)，i＝1,2,L,N，其中，x_i表示第i个训练样本图像，y_i表示第i个训练样本图像的标签值，如1为活体，即正样本，0表示非活体，即负样本，N是训练集总的样本数。在训练模型之前，为了保证训练集样本图像尺寸的一致性，以满足基于多尺度注意力融合的双重监督模型对于输入图像的要求，需要对训练样本图像，进行裁剪和归一化处理，具体地，可以使用人脸检测网络(Multi-task Convolutional Neural Network,MTCNN)网络对训练样本图像进行人脸检测得到人脸框和关键点信息，利用这些信息将人脸图像裁剪到固定尺寸，例如256×256大小，并进行归一化处理。另外，若遇到训练样本量不够的情况，可以采用随机翻转、随机裁剪和随机调整亮度等操作，以保证训练样本量充足的要求。

S2：获取目标输入图像，通过特征预提取网络对所述目标输入图像进行原始深度特征的提取，过滤掉一些无关信息的影响，得到目标输入图像的原始深度特征；

对训练样本图像进行裁剪和归一化处理后，可以采用随机打乱样本图像顺序的方式输入到多尺度注意力融合的双重监督模型中，由于RGB图像中可能包含一些噪声的干扰，为了过滤掉一些无关信息的影响，同时为后续多层次特征的提取提供一个相对稳定的环境，先需要通过特征预提取网络对输入图像进行原始深度特征的提取。具体地，可以采用经典的ResNet34网络的前七个卷积块作为预提取特征网络的主干框架，从输入图像中提取到原始深度特征。

S3：对所述原始深度特征采用三个不同卷积块进行多层次特征的提取，提取具有丰富上下文信息的语义信息，得到低中高三个层次的特征；

网络的高层特征往往包含了更丰富的语义信息，底层特征则包含更多的细节信息，为了在复杂场景下能够提取到丰富的上下文语义信息，采用了一种多层次特征提取模块，依次通过三个不同的卷积块，分别输出低层次、中层次和高层次三个不同层次的特征。

S4：对多层次特征进行基于注意力机制的特征优化，将模型的感知重点关注在具有丰富判别信息的区域中，抑制无关的区域，将优化后的特征调整到同等维度大小的特征并进行融合，得到融合后的特征图；

将低中高三个层次的特征进行融合，直接将上述提取到的多层次特征进行融合，可能会造成特征信息的丢失。为了捕捉更多的背景和语义信息，可以采用注意力机制来优化这些特征并最大化融合多层次的特征，将感知聚焦在特征的重要部分，并抑制其他无用的信息，例如聚焦于面部图像中的细节纹理信息，而抑制面部区域以外的背景信息。具体地，依次将低层次、中层次和高层次的特征输入到注意力机制模块中进行优化，将优化后的特征调整到相同维度大小的特征图并按照通道方向串接在一起，形成一个总的特征向量，用于后续的像素级监督训练。

S5：对融合后的特征图展开为一个一维向量，送入到全连接层中，通过全连接层输出二维特征，分别表示活体概率值和非活体概率值。并采用基于二值掩码和二值标签的联合监督训练模型，引导模型学习鲁棒性的本质特征，得到训练后的人脸活体检测模型。

具体地，对融合后的特征图展开为一个一维向量，采用基于二值掩码和二值标签的交叉熵损失函数(Cross-Entropy Loss)联合监督训练模型，引导模型学习具有丰富的上下文语义信息，也更具有鲁棒性的特征。双重监督损失函数公式为：

总损失函数：L＝L_binary+L_binary-mask

其中,Y是二值掩码标定值，约定真实人脸的二值掩码值为全1，攻击人脸的二值掩码值为全0；M为模型预测的特征图；y是人脸图像的真实标签值，p为模型的预测值。

下面结合图2所示多尺度注意力融合的双重监督网络模型的和图3所示的卷积块网络结构图，对本发明实施例的模型训练过程进行举例说明：

如图2所示，获取到训练集图像(x_i,y_i)，i＝1,2,L,N，对训练集人脸图像进行裁剪和归一化处理，调整模型的输入图像尺寸为3×256×256，其中3代表样本的三个通道，采用随机打乱N个样本图像顺序的方式输入到多尺度注意力融合的双重监督模型。

通过特征预提取网络进行原始深度特征的提取，采用ResNet34网络的前七个卷积块作为主干框架，该模块的输入维度大小为3×256×256，输出特征的维度为128×32×32。

采用三个不同卷积块进行多层次特征的提取。以图3卷积块一的结构参数为例，结合图2可以看出每个卷积块由三个卷积层和一个最大池化层组成，其中，每个卷积层后面都有一个ReLU激活层和一个批归一化层。具体地，卷积块一的输入特征维度为128×32×32，输出特征维度为196×32×32，卷积块二的输入特征维度为196×32×32，输出特征维度缩放到256×16×16，卷积块三的输入特征维度为256×16×16，输出特征维度缩放至512×8×8，得到低层次、中层次和高层次三个不同层次的特征。

对多层次特征进行基于注意力机制的特征优化融合。将特征维度为196×32×32、256×16×16和512×8×8的多层次特征依次输入到注意力模块中进行特征优化，将优化后的特征调整到相同维度大小的特征图并按照通道方向串接在一起，形成一个总的特征向量，可以表达为F_out＝Concat(C(F_low),C(F_mid),F_high)，其中F_low、F_mid和F_high分别表示低层次优化后、中层次优化后和高层次优化后的特征，其中Concat表示多个特征按照通道方向进行串接操作，C为下采样操作，调整特征维度大小为8×8，F_out为最终融合后输出的特征图，维度大小为964×8×8。

对融合后的特征图展开为一个一维向量，送入到全连接层中，通过全连接层输出二维特征，分别表示活体概率值和非活体概率值，采用基于二值掩码和二值标签的交叉熵损失函数联合监督训练模型。通过输出的预测值和输入样本图像的标注值，结合损失函数，并使用Adam优化器算法，设置学习率大小为1×10^-4，最小化损失函数对模型参数进行更新，直到模型收敛为止。

S6：对待检测人脸视频进行采集处理，将采集得到的视频进行切割成单帧图像；对于采集到的图像进行人脸检测，如果有人脸，采用步骤1对人脸图像进行处理得到待检测的人脸图像，如果没有，继续检测人脸，等待检测人脸的出现；

本发明实施例中，只需采集用户人脸图像的信息，无需用户做出配合动作，也即采用的静默活体检测的方式，而本发明实施例为保证该静默活体检测方式能够具备较高的检测准确度。

S7：对待检测的人脸图像输入到训练好的人脸活体检测模型，得到最终真假人脸的判别，如果判别结果为活体时，系统会允许通过，否则，该输入图像为假体，不允许通过；

采用了预先训练好的多尺度注意力融合的双重监督网络模型作为活体检测模型，来对所述待验证图像进行活体检测。具体地，基于输出的活体概率和非活体概率，确定待验证图像被判定为活体还是非活体，如果判别结果为活体时，系统会允许通过，否则，该输入图像为假体，不允许通过。

S8：将判别结果反馈给使用方，使用方根据判别结果进行后续的处理；

在具体使用中，首先获取训练集图像，进行人脸检测和关键点检测，得到人脸框位置信息和关键点位置信息，根据人脸框信息和关键点信息对所述人脸图像，进行裁剪和归一化处理，接着通过特征预提取网络对所述目标输入图像进行原始特征的提取，过滤掉一些无关信息的影响，得到目标输入图像的原始深度特征，然后对原始深度特征采用三个不同卷积块进行多层次特征的提取，提取具有丰富上下文信息的语义信息，得到低中高三个层次的特征，再对多层次特征进行基于注意力机制的特征优化，将模型的感知重点关注在具有丰富判别信息的区域中，抑制无关的区域，将优化后的特征调整到同等维度大小的特征并进行融合，得到融合后的特征图，最后对融合后的特征图展开为一维向量，采用基于二值掩码和二值标签的联合监督训练模型，引导模型学习鲁棒性的本质特征，得到训练后的人脸活体检测模型。对待检测人脸视频进行采集处理，将采集得到的视频进行切割成单帧图像，对于采集到的图像进行人脸检测，如果有人脸，采用步骤1对人脸图像进行处理得到待检测的人脸图像，如果没有，继续检测人脸，等待检测人脸的出现，对检测的人脸图像输入到训练好的人脸活体检测模型，得到最终真假人脸的判别，如果判别结果为活体时，系统会允许通过，否则，该输入图像为假体，不允许通过，最后将判别结果反馈给使用方，使用方根据判别结果进行后续的处理。本发明提出的多尺度注意力融合的双重监督人脸活体检测方法，不但可以端到端训练模型，并尽可能在复杂背景条件下提取人脸图像中有效的判别信息，在实际应用中有着卓越的检测性能和泛化能力。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，包括以下步骤：

预处理图像，获取训练集图像，进行人脸检测和关键点检测，得到人脸框位置信息和关键点位置信息，根据人脸框信息和关键点信息对所述人脸图像，进行裁剪和归一化处理；

获取目标输入图像，通过特征预提取网络对所述目标输入图像进行原始深度特征的提取，得到目标输入图像的原始深度特征；

对所述原始深度特征采用三个不同卷积块进行多层次特征的提取，得到低中高三个层次的特征；

对融合后的特征图展开为一个一维向量，送入到全连接层中，通过全连接层输出二维特征，分别表示活体概率值和非活体概率值，并采用基于二值掩码和二值标签的联合监督训练模型，得到训练后的人脸活体检测模型；

2.如权利要求1所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，获取目标输入图像，并通过特征预提取网络对所述目标输入图像进行原始特征的提取，得到目标输入图像的原始深度特征，具体是使用预训练的卷积神经网络对所述目标输入图像进行原始深度特征的提取，其中，提取原始深度特征的网络采用开源网络。

3.如权利要求1所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，采用三个不同卷积块进行多层次特征的提取，包括原始深度特征的特征图通道数不同、特征图的高不同和特征图的宽不同。

4.如权利要求3所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，对多层次特征进行基于注意力机制的特征优化，具体包括采用开源的注意力机制网络进行特征的优化处理。

5.如权利要求1所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，预处理图像，获取训练集图像时，需要获取大量的训练样本作为训练集样本，所述训练集样本包括大量的正样本和大量的负样本。

6.如权利要求5所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，所述正样本的采集条件设置为包括在自然光、逆光、人工照明、强光、背景单一和背景复杂的多个场景下进行，在采集的过程中参与拍摄的志愿者做出包括摇头、身体前倾和后仰以及在做出不同的面部表情的动作；所述负样本包括多种攻击类型的人脸图像。

7.如权利要求2所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，采用经典的ResNet34网络的前七个卷积块作为预提取特征网络的主干框架，从输入图像中提取到原始深度特征。

8.如权利要求1所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，对融合后的特征图展开为一个一维向量，采用基于二值掩码和二值标签的交叉熵损失函数(Cross-Entropy Loss)联合监督训练模型，其中，双重监督损失函数公式为：

总损失函数：L＝L_binary+L_binary-mask

9.如权利要求8所述的一种多尺度注意力融合的双重监督人脸活体检测方法，其特征在于，通过输出的预测值和输入样本图像的标注值，结合损失函数，并使用Adam优化器算法，设置学习率大小为1×10^-4，最小化损失函数对模型参数进行更新，直到模型收敛为止。