CN116453232A

CN116453232A - 人脸活体检测方法、人脸活体检测模型的训练方法和装置

Info

Publication number: CN116453232A
Application number: CN202310426851.1A
Authority: CN
Inventors: 陈昕; 张劲风; 辛冠希; 钱贝贝
Original assignee: Orbbec Inc
Current assignee: Orbbec Inc
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-18

Abstract

本申请实施例提供一种人脸活体检测方法、人脸活体检测模型的训练方法和装置。该人脸活体检测方法包括：获取目标人脸图像；对目标人脸图像进行语义分割得到人脸掩码；通过分类模块对目标人脸图像和人脸掩码的融合图像进行分类得到人脸分类特征，其中，分类模块为通过不同数据增强图像样本和对应于分类模块的训练模块训练得到的神经网络模型；根据人脸分类特征确定目标人脸图像中的人脸是否为活体。通过该技术方案，融合图像既具有原始目标人脸图像中的图像细节特征，又具有人脸掩码中的用于区分人脸不同区域的掩码信息，在对融合图像进行分类的过程中，可考虑人脸不同区域的欺骗信息的差异性，进而提升人脸活体检测的准确性。

Description

人脸活体检测方法、人脸活体检测模型的训练方法和装置

技术领域

本申请涉及生物特征检测领域，并且更为具体地，涉及一种人脸活体检测方法、人脸活体检测模型的训练方法和装置。

背景技术

随着计算机和网络技术的飞速发展，人脸识别技术已广泛应用在各种需要身份检测的场景中，例如，智能门禁、智能门锁、移动终端、公共安全、娱乐、军事等诸多行业及领域。活体检测技术可以辅助人脸识别判断捕捉到的人脸是真实人脸还是伪造人脸攻击，因而活体检测技术对于身份检测的安全性能的提升十分重要。

鉴于此，如何提升人脸活体检测的性能，是一项亟待解决的技术问题。

发明内容

本申请实施例提供一种人脸活体检测方法、人脸活体检测模型的训练方法和装置，能够提升人脸活体检测的性能。

第一方面，提供一种人脸活体检测方法，包括：获取目标人脸图像；对目标人脸图像进行语义分割得到人脸掩码；通过分类模块对目标人脸图像和人脸掩码的融合图像进行分类得到人脸分类特征，其中，所述分类模块为通过不同数据增强图像样本和对应于所述分类模块的训练模块训练得到的神经网络模型；根据人脸分类特征确定目标人脸图像中的人脸是否为活体。

通过本申请实施例的技术方案，在人脸活体检测过程中，首先对获取的目标人脸图像进行语义分割得到人脸掩码，通过该人脸掩码可以识别出目标人脸图像中的不同区域(例如五官区域和非五官区域等)。融合该人脸掩码以及目标人脸图像的融合图像既可以具有原始目标人脸图像中的图像细节特征，又可以具有人脸掩码中的用于区分人脸不同区域的掩码信息。在对融合图像进行分类的过程中，可考虑人脸不同区域的欺骗信息的差异性，对该融合图像进行分类得到的人脸分类特征可自适应的考虑目标人脸图像中不同人脸区域的特征权重，进而提升人脸活体检测的准确性。进一步地，利用不同数据增强方式的图像样本以及训练模块可对用于人脸活体检测的分类模块进行训练，能够训练分类模块对于不同数据增强方式的图像样本的输出统一的检测结果，从而提升人脸活体检测过程对于强光照场景、图片质量模糊和噪声干扰较大的场景鲁棒性，减小光照、场景噪声、设备成像质量对于人脸活体检测的干扰，提升人脸活体检测的准确度。

第二方面，提供一种人脸活体检测模型的训练方法，包括：获取人脸活体检测模型，人脸活体检测模型包括：分类模块和人脸语义分割模块；获取对应于分类模块的训练模块；向分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练分类模块得到目标人脸活体检测模型中的目标分类模块，其中，第一数据增强图像样本和第二数据增强图像样本通过同一图像样本经过不同数据增强方式得到；向人脸语义分割模块输入人脸图像样本，得到预测的人脸掩码；根据人脸掩码和人脸图像样本的掩码标签，对人脸语义分割模块进行训练，以得到目标人脸活体检测模型中的目标人脸语义分割模块。

第三方面，提供一种人脸活体检测装置，包括：处理器和存储器，存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序以执行：如第一方面或第一方面中任一可能的实施方式中的人脸活体检测方法。

第四方面，提供一种人脸活体检测模型的训练装置，包括：处理器和存储器，存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序以执行：如第二方面或第二方面中任一可能的实施方式中的人脸活体检测模型的训练方法。

第五方面，提供一种计算机可读存储介质，用于存储计算机程序，计算机程序使得计算机执行：如第一方面或第一方面中任一可能的实施方式中的人脸活体检测方法，和/或，如第二方面或第二方面中任一可能的实施方式中的人脸活体检测模型的训练方法。

附图说明

图1是根据本申请实施例提供的一种人脸活体检测系统的示意性框图。

图2是根据本申请实施例提供的另一人脸活体检测系统的示意性框图。

图3是根据本申请实施例提供的一种人脸活体检测方法的示意性流程框图。

图4是根据本申请实施例提供的一种人脸活体检测模型的示意性结构框图。

图5是根据本申请实施例提供的一种目标人脸图像及其对应的人脸掩码的示意图。

图6是根据本申请实施例提供的另一人脸活体检测方法的示意性流程框图。

图7是根据本申请实施例提供的人脸语义分割模块的一种示意性结构图。

图8是根据本申请实施例提供的分类模块的一种示意性结构图。

图9是根据本申请实施例提供的第二编码器的一种示意性结构框图。

图10是根据本申请实施例提供的第二解码器和分类器的一种示意性结构框图。

图11是根据本申请实施例提供的一种人脸活体检测模型的训练方法的示意性流程框图。

图12是根据本申请实施例提供的应用于人脸活体检测模型训练的分类模块和训练模块的一种示意性结构图。

图13是根据本申请实施例提供的另一人脸活体检测模型的训练方法的示意性流程框图。

图14是根据本申请实施例提供的另一人脸活体检测模型的训练方法的示意性流程框图。

图15是根据本申请实施例提供的应用于人脸活体检测模型训练的目标人脸语义分割模块、分类模块和训练模块的一种示意性结构图。

图16是根据本申请实施例提供的一种人脸活体检测装置的示意性结构框图。

图17是根据本申请实施例提供的一种人脸活体检测模型的训练装置的示意性结构框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

本申请实施例可适用于人脸活体检测系统，该人脸活体检测系统可以应用于人脸识别系统中，用于实现人脸识别以及人脸活体检测功能。可选地，该人脸活体检测系统可以应用于具有图像采集装置(如摄像头)的各种电子设备，该电子设备可以为手机，平板电脑，智能可穿戴装置、智能门锁等等，本申请对此不做具体限定。

为了更好地理解本申请实施例的方案，下面先结合图1至图2对本申请实施例可能的应用场景进行简单的介绍。

图1示出了一种人脸活体检测系统，该人脸活体检测系统包括用户设备以及数据处理设备。其中，用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为人脸识别或人脸活体检测处理的发起端，用户可通过用户设备发起人脸识别或人脸活体检测请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的语音和文本等数据，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习等方式的数据处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在数据处理设备上，也可以在其它网络服务器上。

在图1所示的人脸活体检测系统中，数据处理设备内部的处理器可用于调用机器学习模型/深度学习模型(例如，神经网络模型等)，该处理器可通过调用该机器学习模型/深度学习模型以执行人脸活体检测。具体地，用户设备可以接收用户的指令，例如用户设备可以接收用户输入的图像或者视频流，然后向数据处理设备发起请求，使得数据处理设备中的处理器针对用户设备得到的该图像或者视频流，调用人脸活体检测模型执行人脸活体检测，从而得到针对该图像或者视频流的活体检测结果。进一步地，该数据处理设备中的处理器还可以用于执行人脸识别检测，即针对由用户设备得到的该图像或者视频流确定人脸识别结果。

在图1所示实施例中，数据处理设备中的处理器除了可从用户设备获取图像或者视频流，并针对图像或者视频流执行人脸活体检测和人脸识别检测以外，还可以通过交互接口从其它设备获取图像样本或视频样本，并利用该样本对初始的人脸活体检测模型进行训练，经过训练后的性能较优的人脸活体检测模型再用于执行上述人脸活体检测。

可选地，上述用于执行人脸活体检测和人脸活体检测模型训练的数据处理设备可以为同一个物理设备，例如，同一个服务器。或者，上述用于执行人脸活体检测和人脸活体检测模型训练的数据处理设备也可以为分立的不同物理设备，例如，利用不同的服务器执行人脸活体检测和人脸活体检测模型训练。

图2示出了另一种人脸活体检测系统，在图2中，用户设备直接作为数据处理设备，该用户设备能够直接接收来自用户的输入并直接由用户设备本身的硬件(例如处理器)进行处理，具体过程与图1相似，详细方案可参考上面的描述，在此不再赘述。

在图2中，用户设备自身就可以执行本申请实施例的人脸活体检测和/或人脸活体检测模型训练。在一些相关技术中，人脸活体检测模型较容易受到光照、场景噪声、设备成像质量的干扰，在强光照场景、图片质量模糊和噪声干扰较大的情况下鲁棒性较弱。另外，在人脸活体检测模型的训练的过程中，从整张图片提取特征输入至活体检测模型中，未充分考虑到人脸不同部位存在的欺诈信息具备差异性，算法模型对于遮挡、大胡子和打印局部五官攻击的准确度较弱。

鉴于此，本申请提供一种人脸活体检测方法和装置、以及人脸活体检测模型的训练方法和装置，能够解决上述活体检测模型的检测性能不佳的问题。

图3示出了本申请实施例提供的一种人脸活体检测方法300的示意性流程框图。

如图3所示，该人脸活体检测方法300包括以下步骤。

S310：获取目标人脸图像。

S320：对目标人脸图像进行语义分割得到人脸掩码。

S330：对目标人脸图像和人脸掩码的融合图像进行分类得到人脸分类特征。

S340：根据人脸分类特征确定目标人脸图像中的人脸是否为活体。

可选地，本申请实施例提供的人脸活体检测方法300可以由上文图1和图2中所示的数据处理设备执行，具体地，该人脸活体检测方法300可由数据处理设备中的处理器执行。

可选地，数据处理设备的存储器中可存储有人脸活体检测模型，数据处理设备的处理器用于调用该人脸活体检测模型从而执行上述人脸活体检测方法300。

为了便于理解和描述，图4示出了本申请实施例提供的一种人脸活体检测模型400的示意性结构框图。如图4所示，该人脸活体检测模型400可包括：人脸语义分割模块410、分类模块420和激活模块430。

下面结合图3和图4，说明本申请实施例中人脸活体检测方法300的具体实现方式。

在步骤S310中，数据处理设备的处理器可从用户设备获取目标人脸图像。可以理解的是，用户设备可具有摄像头或者其它拍摄设备，可对用户人脸拍摄得到图像或视频，该目标人脸图像可以为原始拍摄图像或者视频中的人脸区域图像。或者，在其它替代实施方式或者应用场景中，数据处理设备还可通过其它手段或方式获取待进行活体检测的目标人脸图像，本申请实施例对数据处理设备获取目标人脸图像的具体实现方式不做限定。

在步骤S320中，数据处理设备的处理器可通过调用人脸活体检测模型400中的人脸语义分割模块410对目标人脸图像进行语义分割，得到人脸掩码。

语义分割是目标检测的扩展，其输出的是目标按类别区分的人脸掩码，而不是边框。作为示例，图5示出了一种目标人脸图像及其对应的人脸掩码的示意图。其中，图5中的(a)图为目标人脸图像，图5中的(b)图为人脸掩码图像。

如图5中的(b)图所示，在该人脸掩码图像中，利用不同的颜色标识出了人脸的不同区域。例如，在该人脸掩码图像中，非五官区域的颜色不同于五官区域的颜色，且不同五官区域的颜色可互不相同。通过该人脸掩码图像或者说人脸掩码，可以对人脸中的目标区域实现更精准的定位，并且不受目标区域的复杂形状的影响。

对于具有脸部遮挡(例如眼镜等)、大胡子、打印局部五官等特征的目标人脸图像，五官区域存在的欺骗信息高于非五官区域(脸颊、额头等)。其中，欺骗信息容易使得现有的活体检测模型对活体人体误报为非活体，或者，对非活体人体误报为活体，造成活体检测的准确率较低，影响用户体验。

例如，在目标人脸图像为真人戴眼镜并有大胡子的情况下，现有的活体检测模型容易对目标人脸图像报非活体。在该图像中，明显可见在眼睛和嘴巴等五官区域有光斑和胡子等干扰信息，而额头和脸颊等非五官区域干扰信息较弱。

鉴于此，在本申请实施例中，在人脸活体检测模型400中增加人脸语义分割模块410，可以通过语义分割识别出目标人脸图像中的不同区域(例如五官区域和非五官区域)，从而便于后续分类模块420在对目标人脸图像中的特征进行分类处理时，自适应的提取目标人脸图像中不同人脸区域的特征，从而有利于特征分类的准确性，进而提升人脸活体检测的准确性。

在步骤S330中，数据处理设备的处理器可通过调用人脸活体检测模型400中的分类模块420对目标人脸图像和人脸掩码的融合图像进行分类得到人脸分类特征。

具体地，目标人脸图像和人脸掩码的融合图像既可以具有原始目标人脸图像中的图像细节特征，又可以具有人脸掩码中的用于区分人脸不同区域的掩码信息。将该融合图像输入至分类模块420，可以使得分类模块420可以较佳的针对融合图像中不同区域的人脸特征进行提取和分类，从而有利于得到准确度较高的人脸活体识别结果。

在本申请实施例中，分类模块420可具有较佳的特征提取性能以及分类性能，其可以对输入的融合图像进行深层次以及多维度的特征提取，且考虑到人脸不同区域的欺骗信息的差异性，从而提取出能够有效表征人脸是否为非活体的人脸分类特征。换言之，根据该人脸分类特征，可以有效分辨出目标人脸图像中的人脸是否为活体人脸。

在步骤S340中，数据处理设备的处理器可通过调用人脸活体检测模型400中的激活模块430，根据分类模块420输出的人脸分类特征确定目标人脸图像中的人脸是否为活体人脸。

可选地，在本申请实施例中，激活模块430中可包括激活函数。可选地，在人脸活体检测模型400中，上述人脸语义分割模块410和分类模块420可以为神经网络，神经网络中的神经元一般包括线性单元。在人脸活体检测模型400中增加激活函数，可以增加非线性因素，解决线性模型表达能力不足的缺陷，提升人脸活体检测模型400整体的活体检测性能。

综上，通过本申请实施例的技术方案，在人脸活体检测过程中，首先对获取的目标人脸图像进行语义分割得到人脸掩码，通过该人脸掩码可以识别出目标人脸图像中的不同区域(例如五官区域和非五官区域等)。融合该人脸掩码以及目标人脸图像的融合图像既可以具有原始目标人脸图像中的图像细节特征，又可以具有人脸掩码中的用于区分人脸不同区域的掩码信息。在对融合图像进行分类的过程中，可考虑人脸不同区域的欺骗信息的差异性，对该融合图像进行分类得到的人脸分类特征可自适应的考虑目标人脸图像中不同人脸区域的特征权重，进而提升人脸活体检测的准确性。

可选地，在本申请一些实施方式中，上述分类模块420可以为通过训练模块和不同数据增强图像样本训练得到的神经网络模型，其中，训练模块对应于分类模块420，例如，该训练模块和分类模块420中的至少部分模型结构以及至少部分模型参数相同。

具体地，在分类模块420的训练过程中，将不同数据增强图像样本(例如第一数据增强图像样本和第二数据增强图像样本)分别输入至分类模块420和训练模块，通过约束该训练模块和分类模块420的输出，可以训练分类模块420中的网络参数。在该过程中，对分类模块420和训练模块输出进行约束，可以使得分类模型420能够针对不同的数据增强学习到一致性的本质特征，提升算法的对噪声、光照等抗干扰能力。

因此，通过该实施方式的技术方案，不同数据增强方式的图像样本以及训练模块对人脸活体检测模型400中的分类模块420进行训练，能够训练人脸活体检测模型400对于不同数据增强方式的图像样本的输出统一的检测结果，从而提升人脸活体检测模型400对于强光照场景、图片质量模糊和噪声干扰较大的场景鲁棒性，减小光照、场景噪声、设备成像质量对于人脸活体检测模型400的干扰，提升人脸活体检测模型400在实际应用过程中活体检测的准确度。

为了便于说明，本实施方式中分类模块420以及人脸语义分割模块410等的相关训练方法在下文中进行具体描述，此处先针对分类模块420以及人脸语义分割模块410执行人脸活体检测的具体过程进行说明。

图6示出了本申请实施例提供的另一人脸活体检测方法500的示意性流程框图。

如图6所示，该人脸活体检测方法500包括以下步骤。

S510：获取目标人脸图像。

S521：通过第一编码器对目标人脸图像进行特征提取并下采样得到人脸特征图像。

S522：通过第一解码器对人脸特征图像进行特征提取并上采样得到人脸掩码。

S531：通过第二编码器提取目标人脸图像和人脸掩码融合后的融合图像中的人脸特征信息。

S532：通过第二解码器将人脸特征信息转换为目标维度的目标特征信息。

S533：通过分类器对目标特征信息进行分类，得到人脸分类特征。

S541：通过激活函数对人脸分类特征进行处理得到分类值。

S542：根据分类值确定目标人脸图像中的人脸是否为活体。

可选地，在本申请实施例中，步骤S521至步骤S522可以为上文图3所示实施例中步骤S320的一种实现方式。步骤S531至步骤S533可以为步骤S330的一种实现方式。步骤S541至步骤S542可以为步骤S340的一种实现方式。

具体地，在步骤S521至步骤S522中，第一编码器和第一解码器可以为人脸活体检测模型400的人脸语义分割模块410中的网络结构。换言之，人脸语义分割模块410可包括该第一编码器和第二解码器。

将目标人脸图像输入至第一编码器后，该第一编码器可对该目标人脸图像进行多维度的特征提取。该第一编码器中可设置有卷积层和池化层，卷积层可用于对目标人脸图像进行特征提取，池化层可用于对特征进行下采样处理。通过该下采样处理，可以对提取的特征进行进一步筛选，减少参数和计算量。

第一解码器可接收第一编码器输出的人脸特征图像，可选地，该人脸特征图像的数量可以为多个，且该多个人脸特征图像的尺寸和/或维度不同，该多个人脸特征图像的尺寸可小于第一编码器输入的目标人脸图像的尺寸。该第一解码器可用于恢复原始分辨率，即该第一解码器输出的人脸掩码的分辨率(尺寸)与第一编码器输入的目标人脸图像的分辨率(尺寸)相同。

可选地，第一解码器中可设置有卷积层和反卷积层，卷积层可用于对第一编码器输出的人脸特征图像进行进一步的特征提取，反卷积层可对尺寸较小的特征图像进行上采样，从而输出并恢复原始分辨率的人脸掩码，以便于该人脸掩码与目标人脸图像相互融合。

可选地，在一些实施方式中，本申请实施例中人脸语义分割模块410中的第一编码器和第一解码器结构可以类似于U-Net网络结构中的编码器和解码器。或者，在其它替代实施方式中，该人脸语义分割模块410还可以采用类型的网络结构。

通过本申请实施例的技术方案，通过第一编码器和第一解码器实现对目标人脸图像的语义分割得到人脸掩码，一方面，第一编码器和第一解码器均能进行特征提取，从而有利于对目标人脸图像进行深层次且多维度的特征分析，从而提升语义分割的准确性和鲁棒性，另一方面，第一编码器对目标人脸图像进行下采样处理，可以便于对提取的特征进行进一步筛选，减少特征参数和计算量，第一解码器对特征图像进行上采样处理，可以输出并恢复原始分辨率的人脸掩码，以便于该人脸掩码与目标人脸图像相互融合。

图7示出了本申请实施例提供的人脸语义分割模块410的一种示意性结构图。

如图7所示，在该人脸语义分割模块410中，第一编码器411可包括多个卷积单元(图中示为Conv)。在上述步骤S521中，可通过多个卷积单元对目标人脸图像进行多次特征提取并下采样得到多个人脸特征图像，该多个人脸特征图像的维度不同。

可选地，在一些实施方式中，该多个卷积单元中每个卷积单元可包括以下至少一种网络结构：卷积层、池化层、批量归一化层、全连接层和激活层。

如上所述，卷积层可用于提取输入数据的特征。池化层可用于对输入数据进行降维，简化卷积网络计算时的复杂度，减少网络要学习的参数梳理，同时保持特征的某种不变性。池化的方法包括但不限于：对邻域内特征点取最大值(max-pooling)和对邻域内特征点求平均(mean-pooling)。

另外，批量归一化(Batch Normalization，BN)层可设置在卷积层之后，在进行卷积或者其他操作之后，使用BN层将数据进行规整后，其输出作为下一层的输入。全连接层用于将前层(卷积、池化等层)计算得到的特征空间映射样本标记空间，能够减少特征位置对于分类结果的影响，提高整个网络的鲁棒性。激活层用于对输入的特征进行非线性变换。

通过本申请实施例的技术方案，第一编码器包括多个卷积单元，使得第一编码器具有一定的卷积深度。另外，多个卷积单元可生成多个维度的人脸特征图像，该多个维度的人脸特征图像可以更为全面的表征目标人脸图像中的人脸特征，有利于提升人脸语义分割模块410对于人脸不同区域的分割性能。

再者，在多个卷积单元的每个卷积单元中，卷积层和池化层可用于实现卷积和下采样的基本功能，批量归一化层、全连接层以及激活层可以进一步优化卷积单元的特征提取性能，提升第一编码器及其所在的人脸语义分割模块410的鲁棒性。

继续参见图7所示，在该人脸语义分割模块410中，第一解码器412可包括多个特征单元，该多个特征单元与第一编码器中的多个卷积单元一一对应。在上述步骤S522中，可通过该第一解码器412中的多个特征单元对多个人脸特征图像进行特征提取并上采样得到人脸掩码。

可选地，在一些实施方式中，多个特征单元中每个特征单元包括：卷积层(图7中采用卷积箭头示出)、上采样层(图7中用上采样箭头示出)和特征拼接层(图7中用特征拼接符号示出)，该多个特征单元串行连接，且该多个特征单元中下一层特征单元连接于上一层特征单元的特征拼接层。

具体地，在第一解码器412中，多个特征单元中的第一特征单元4121可包括：第一卷积层、第一上采样层和第一特征拼接层，该第一特征单元4121可对应于第一编码器411中的第一卷积单元4111。

可选地，如图7所示，该第一特征单元4121可以为第一解码器412中的最下层特征单元，即该第一特征单元4121可以为用于输出人脸掩码的特征单元。与该第一特征单元4121对应的第一卷积单元4111可以为第一解码器412中的最上层卷积单元，即该第一卷积单元4111可以为第一编码器411中用于输入目标人脸图像的卷积单元。

在该实施方式中，可通过第一卷积层提取第一卷积单元输出的第一人脸特征图像的第一特征信息，通过第一上采样层对第一特征单元的上一层特征单元输出的特征进行上采样得到第二特征信息，且通过第一特征拼接层拼接该第一特征信息与该第二特征信息，以得到人脸掩码。

可以理解的是，除了第一特征单元4121以外，第一解码器412中每一层特征单元均可以按照上述过程对与其对应的卷积单元输出的人脸特征图像进行处理。

另外，需要说明的是，在第一解码器412的多个特征单元中，位于最上层的特征单元(例如图7中所示的第三个特征单元)输入的特征图像可以基于第一编码器411中最下层的卷积单元(例如图7中所示的第三个卷积单元)输出的人脸特征图像处理得到。例如，该第一编码器411中最下层的卷积单元输出的人脸特征图像经过上采样后输入至第一解码器412中最上层的特征单元。

通过本申请实施例的技术方案，第一解码器包括多个特征单元，且该多个特征与第一编码器中的多个卷积单元一一对应，因而该多个特征单元能够对多个卷积单元输出的多个维度的人脸特征图像进行进一步特征提取和融合，从而提升人脸语义分割模块410对于人脸不同区域的分割性能。

进一步地，在该多个特征单元中，每个特征单元还包括特征拼接层，该特征拼接层能够实现第一编码器411与第一解码器412之间的“跳层连接”，该“跳层连接”可用于融合第一编码器411和第一解码器412在对应维度下提取的特征，有利于进一步提升人脸语义分割模块410对于人脸不同区域的分割性能以及该人脸语义分割模块410的鲁棒性。

上文结合图6和图7对本申请实施例提供的人脸语义分割模块410以及人脸语义分割的过程进行了描述，下面结合图6和图8说明本申请实施例提供的分类模块420以及分类过程。

图8示出了本申请实施例提供的分类模块420的一种示意性结构图。如图8所示，该分类模块420包括：第二编码器421、第二解码器422以及分类器423。结合图6所示的人脸活体检测方法500，在步骤S531至步骤S533中，数据处理设备的处理器可通过调用第二编码器421提取目标人脸图像和人脸掩码融合后的融合图像中的人脸特征信息(图8中示为F’)，通过调用第二解码器422将第二编码器421输出的人脸特征信息转换为目标维度的目标特征信息(图8中示为F”)，且通过调用分类器423对该第二解码器422输出的目标特征信息进行分类，得到人脸分类特征(图8中示为CF”)。

通过本申请实施例的技术方案，利用第二编码器421能够对目标人脸图像和人脸掩码融合后的融合图像进行进一步的特征提取，该提取得到的人脸特征信息有利于较为准确的分辨人脸是否为非活体，从而提升人脸活体检测的准确性。进一步地，利用第二解码器422能够将人脸特征信息转换为目标维度的目标特征信息，有利于后续分类器423的分类处理，提升分类模块420的分类处理效率。

图9示出了本申请实施例提供的第二编码器421的一种示意性结构框图。该第二编码器421可包括主干网络4211和投影网络4212。其中，图9中的(a)图示出了主干网络4211的一种示意性结构框图，图9中的(b)图示出了投影网络4212的一种示意性结构框图。

在上述步骤S531中，数据处理设备的处理器可通过调用该主干网络4211提取融合图像中的多种特征，并对该多种特征进行融合，以形成目标特征信息。且该处理器可通过投影网络4212将该主干网络4211输出的目标特征信息映射至预设特征空间，以得到人脸特征信息。

通过实施方式的技术方案，利用第二编码器421中的主干网络4211可进一步提取目标人脸图像与人脸掩码的融合图像的多种特征，并对该多种特征进行融合，该融合后得到的目标特征信息能够更为全面的表征目标人脸图像中的活体信息，从而有利于提升人脸活体检测的准确度。进一步地，利用投影网络4212将该主干网络4211输出的目标特征信息映射至预设特征空间，在该特征空间中能够更为有效的区分活体和非活体，因而该投影网络4212的设置能够进一步提升人脸活体检测的准确度。

作为一种示例，如图9中的(a)图所示，第二编码器421的主干网络4221可包括：多个卷积层、上采样层、下采样层以及特征拼接层。在通过主干网络4221提取融合图像中的多种特征，并对多种特征进行融合，以形成目标特征信息的过程中，可通过卷积层提取融合图像中的多种特征，通过上采样层对多种特征中的第一特征进行上采样得到第一目标特征，通过下采样层对多种特征中的第二特征进行下采样得到第二目标特征，且通过特征拼接层拼接第一目标特征和第二目标特征，以形成目标特征信息。

可选地，在图9中(a)图所示的主干网络4211中，目标人脸图像和人脸掩码的融合图像输入至卷积层中，经过一次或多次卷积后，进入特征拼接层、上采样层和下采样层。该特征拼接层不仅用于拼接下采样层输出的第二目标特征与上采样层输出的第一目标特征，还可以拼接卷积层输出的第三目标特征。经过特征拼接层拼接后的特征可进一步通过卷积层处理，进而输出目标特征信息。

需要说明的是，图9中的(a)图仅作为示意，示出了本申请实施例提供的一种主干网络4211的网络结构图。在其它替代实施例中，该主干网络4211还可以包括其它功能的网络层，或者，该主干网络4211中卷积层、上采样层、下采样层以及特征拼接层的数量可以为其它设定值。该主干网络4211旨在实现特征提取以及特征拼接融合即可，本申请实施例对该主干网络4211的具体网络结构不做限定。

可选地，如图9中的(b)图所示，第二编码器421的投影网络4212可包括至少一层卷积层。例如，图9中的(b)图示出了3层卷积层。通过该投影网络4212中的至少一层卷积层，可以实现主干网络4211输出的目标特征信息可投影映射至预设特征空间，以便于进行活体与非活体的判断。

同样的，图9中的(b)图仅作为示意，示出了本申请实施例提供的一种投影网络4212的网络结构图。在其它替代实施例中，该投影网络4212还可以包括其它功能的网络层以实现特征空间的映射，或者，该投影网络4212中卷积层的数量还可以为其它设定值。该投影网络4212旨在实现特征空间的映射即可，本申请实施例对该投影网络4212的具体网络结构不做限定。

图10示出了本申请实施例提供的第二解码器422和分类器423的一种示意性结构框图。其中，图10中的(a)图示出了第二解码器422的一种示意性结构框图，图10中的(b)图示出了分类器423的一种示意性结构框图。在本申请实施例中，第二解码器422和分类器423均可由至少一层卷积层构成。其中，第二解码器422中的至少一层卷积层用于实现将第二编码器421中投影网络4212输出的人脸特征信息转换为目标维度的目标特征信息。另外，该第二解码器422中的至少一层卷积层还可以进一步加深网络深度，增加模型参数，使模型学到更鲁棒的特征，从而提升人脸活体检测的准确性。

可以理解的是，图10仅作为示意，示出了本申请实施例提供的第二解码器422和分类器423的一种网络结构图。在其它替代实施例中，该第二解码器422和分类器423还可以包括其它功能的网络层，或者，该第二解码器422和分类器423中卷积层的数量可以为其它设定值。

返回继续参考图6，在步骤S541至步骤S542中，激活函数可以实现于上文图4所示的人脸活体检测模型400的激活模块430中。该激活函数可向人脸活体检测模型400引入非线性，提高人脸活体检测模型400的表达能力。

作为示例，在本申请实施例中，激活函数可以为Sigmoid激活函数。该Sigmoid激活函数的输出范围是0到1。由于输出值限定在0到1，因此它对人脸活体检测模型400的输出进行了归一化，且十分适宜作为预测概率的模型的输出函数。

具体地，分类模块420将输出的人脸分类特征传输至激活模块430后，该激活模块430中的Sigmoid激活函数可对该人脸分类特征进行处理并得到一个0到1之间分类值，若该分类值大于0.5，则确定目标人脸图像中的人脸为活体，反之，若该分类值小于或等于0.5，则确定目标人脸图像中的人脸为非活体。

当然，在其它替代实施例中，除了Sigmoid激活函数以外，激活模块430中的激活函数还可以为相关技术领域中的其它激活函数，本申请实施例对此不做具体限定。

上文结合图3至图10说明了本申请提供的人脸活体检测方法以及人脸活体检测模型，下面结合图11至图15说明本申请提供的人脸活体检测模型的训练方法。

图11示出了本申请提供的一种人脸活体检测模型的训练方法600的示意性流程框图。在本实施例中，该人脸活体检测模型的训练方法600可以包括以下步骤。

S610：获取人脸活体检测模型，该人脸活体检测模型包括：分类模块。

S620：获取对应于分类模块的训练模块。

S630：向该分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练该分类模块得到目标人脸活体检测模型中的目标分类模块。其中，第一数据增强图像样本和第二数据增强图像样本由同一图像样本经过不同数据增强方式得到。

可选地，本申请实施例提供的人脸活体检测模型的训练方法600可以由上文图1和图2中所示的数据处理设备执行，具体地，该训练方法600可由数据处理设备中的处理器执行。

可选地，数据处理设备的存储器中可存储有人脸活体检测模型，数据处理设备的处理器用于调用该人脸活体检测模型从而执行上述训练方法600。

在一些实施方式中，本申请实施例中的人脸活体检测模型可以为初始人脸活体检测模型，该初始人脸活体检测模型的模型架构可以与上文图4所示实施例的人脸活体检测模型400的模型架构相同，差别仅在于该初始人脸活体检测模型中的模型参数不同于上述人脸活体检测模型400的模型参数。另外，可以理解的是，本申请实施例中初始人脸活体检测模型经过训练之后，即其中的参数调整之后，可以形成上述人脸活体检测模型400作为目标人脸活体检测模型，以执行上文实施例中的人脸活体检测方法。

在步骤S610中，人脸活体检测模型中的分类模块可以为初始分类模块，该初始分类模块可以与上文图4和图8所示实施例的分类模块420的模型架构相同，差别仅在于该初始分类模块中的模型参数不同于上述分类模块420的模型参数。另外，该初始分类模块经过训练之后，即其中的参数调整之后，可以形成上述分类模块420作为目标人脸活体检测模型中的目标分类模块。

具体地，数据处理设备的存储器中可存储有该分类模块，处理器可调用该分类模块并获取训练图像样本以对其进行训练。

在步骤S620中，数据处理设备的存储器除了存储有分类模块以外，还可进一步存储有用于训练该分类模块的训练模块。数据处理设备的处理器可获取该训练模块以及训练图像样本，对人脸活体检测模型中的分类模块进行训练。

可以理解的是，该训练模块仅应用于本申请实施例中人脸活体检测模型的分类模块的训练过程，而不参与上述图3至图10所示实施例的人脸活体检测过程。

在步骤S630中，数据处理设备的处理器可向上述分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，并通过该第一数据增强图像样本、第二数据增强图像样本和训练模块对分类模块进行训练，以得到目标人脸活体检测模型中的目标分类模块。其中，第一数据增强图像样本和第二数据增强图像样本由同一图像样本经过不同数据增强方式得到。

具体地，第一数据增强图像样本和第二数据增强图像样本可用于模拟人脸活体检测模型在实际活体检测过程中可能会遇见的场景。对于同一用户的人脸活体检测，在光照、场景噪声、设备成像质量等外界因素发生变化时，采集的人脸图像会发生一定的变化，若人脸活体检测模型对于强光照场景、图片质量模糊和噪声干扰较大的场景鲁棒性较弱，则会影响人脸活体检测的准确性。

鉴于此，本申请实施例可针对同一个目标人脸，采集有若干张不同的人脸图像，且对同一人脸图像进行不同类别和程度的数据增强，得到第一数据增强图像样本和第二数据增强图像样本。作为示例，第一数据增强图像样本和第二数据增强图像样本的数据增强方法可包括如下方式中的任意两种：随机抠取，随机亮度增强、随机对比度增强，随机擦除，随机剪切以及局部置乱等等。

进一步地，将该第一数据增强图像样本和第二数据增强图像样本分别输入至分类模块和训练模块以训练分类模块，在训练过程中，对分类模块和训练模块输出进行约束，可以使得分类模型能够针对不同的数据增强学习到一致性的本质特征，提升算法的对噪声、光照等抗干扰能力。

可选地，在一些实施方式中，可通过如下步骤执行对人脸活体检测模型中分类模块的训练。

S631：向分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本。

S632：根据分类模块基于第一数据增强图像样本和第二数据增强图像样本输出的预测结果和训练模块基于第二数据增强图像样本和第一数据增强样本输出的预测结果计算损失值。

S633：基于损失值对分类模块进行迭代训练直至损失值收敛，以得到目标人脸活体检测模型中的目标分类模块。

可以理解的是，上述步骤S631至步骤S633可以为上文图11所示实施例中步骤S630的一种实现方式。

在该实施方式中，分类模块和训练模块可分别接收第一数据增强图像样本和第二数据增强图像样本。即分类模块接收第一数据增强图像样本时，训练模块接收第二数据增强图像样本，分类模块接收第二数据增强图像样本时，训练模块接收第一数据增强图像样本。

在该情况下，分类模块可输出基于第一数据增强图像样本的第一预测结果以及基于第二数据增强图像样本的第二预测结果，训练模块可输出基于第二数据增强图像样本的第三预测结果以及基于第一数据增强图像样本的第四预测结果。

数据处理设备的处理器可基于上述第一预测结果、第二预测结果、第三预测结果以及第四预测结果计算分类模块的损失值，从而更新该分类模块的模型参数，并继续向分类模块和训练模块输入不同的数据增强样本，以计算分类模块新的损失值，从而对分类模块进行迭代训练直至该损失值收敛。在损失值收敛的情况下，分类模块中的模型参数更新迭代完成，此时形成的分类模块即可作为用于人脸活体检测的目标分类模块，例如上文实施例中的分类模块420。

通过该实施方式的技术方案，分类模块和训练模块分别接收两种不同的数据增强图像样本，且该分类模块和训练模块可分别输出基于两种不同数据增强图像样本的预测结果，根据该预测结果计算损失值以训练分类模块，可以使得分类模块能够良好的应对不同类型的数据图像样本，提升分类模块的鲁棒性，从而进一步提升分类模块所在的人脸活体检测模型的活体检测性能。

图12示出了本申请实施例提供的应用于人脸活体检测模型训练的分类模块720和训练模块740的一种示意性结构图。

如图12所示，在本申请实施例中，分类模块720包括：检测编码器721和检测解码器722，训练模块740包括：训练编码器741。

具体地，该检测编码器721和训练编码器741的网络结构相同，例如，该检测编码器721和训练编码器741的网络结构可以与上文图8和图9所示的第二编码器421的网络结构相同。该检测编码器721和训练编码器741的网络权重参数相同，即二者的权重参数共享。

在该情况下，当第一数据增强图像样本P1和第二数据增强图像样本P2分别输入至分类模块720和训练模块740的情况下，分类模块720中的检测编码器721和检测解码器722可基于第一数据增强图像样本P1输出第一特征预测结果F1，且基于第二数据增强图像样本P2输出第二特征预测结果F2。另外，训练模块740中的训练编码器741可基于第二数据增强图像样本P2输出第三特征预测结果H1，且基于第一数据增强图像样本P1输出第四特征预测结果H2。

数据处理设备的处理器可根据上述第一特征预测结果F1、第二特征预测结果F2、第三特征预测结果H1和第四特征预测结果H2计算用于模型训练的损失值中的第一损失值。

在本申请实施例中，分类模块720和训练模块740的网络结构不同，有利于在该两条网络结构不同的分支中学习到不同数据增强图像样本的一致性信息，提升分类模块720的分类准确性以及鲁棒性。另外，分类模块720中检测编码器721和训练模块740中训练编码器741的网络结构相同且权重参数共享，有利于保持检测编码器721和训练编码器741特征提取方式的一致性，有利于后续比较该检测编码器721和训练编码器741通过同一提取方式对不同数据增强图像样本提取出的特征的差异性(即根据第一特征预测结果F1、第二特征预测结果F2、第三特征预测结果H1和第四特征预测结果H2计算得到第一损失值)，并根据该差异性调整并优化分类模块720中的网络参数，能够有效提升分类模块720的分类准确性以及鲁棒性。

在一些实施方式中，数据处理设备的处理器可根据第一预设损失函数、上述第一特征预测结果F1、第二特征预测结果F2、第三特征预测结果H1和第四特征预测结果H2计算第一损失值L_feature。

可选地，该第一预设损失函数为：

在上述第一预设损失函数中，FS表示特征相似度，FS可采用如下公式计算：

其中，F(包括F1和F2)和H(包括H1和H2)均为S2×C的特征图像，S表示特征图像的长和宽，C表示特征图像的通道，Fi表示F中第i个S2的特征向量。类似地，Hj表示H中第j个S2的特征向量，i和j为大于0且小于或等于C的正整数。F和H之间的特征相似度FS(F，H)可以为H的各特征向量Hj和F的各特征向量Fi的向量相乘之和。

通过该实施方式的技术方案，可以约束分类模块720和训练模块740基于不同数据增强图像样本输出的特征预测结果的特征相似度，进而对分类模块720进行训练，该技术方案能够保障分类模块720对于不同数据增强场景的模型训练的有效性，提升分类模块720的训练效果以得到具有较佳鲁棒性的目标分类模块。

在上述实施方式的技术方案中，第三特征预测结果H1和第四特征预测结果H2为训练模块740在停止梯度反向传播的情况下输出的特征预测结果。具体地，在分类模块720的训练过程中，分类模块720的网络参数通过损失值的梯度反向传播进行迭代更新。由于训练模块740网络结构与分类模块720不同，若训练模块740的网络参数也执行梯度反向传播，则该训练模块740的网络参数与分类模块720不同，会影响二者之间预测结果的比对，进而影响分类模块720的训练结果。

鉴于此，在本实施方式中，会先冻结训练模块740的网络参数，使得训练模块740停止梯度反向传播，然后基于损失值更新分类模块720的网络参数，再将分类模块720的网络参数同步共享至训练模块740。通过该实施方式的技术方案，能够有效保障在分类模块720的训练过程中，训练模块740和分类模块720之间的参数同步，以保障分类模块720的训练效果。

继续参见图12所示，在本申请实施例中，分类模块720还包括：检测分类器723，训练模块740还包括：训练分类器743。

具体地，该检测分类器723和训练分类器743的网络结构相同，例如，该检测分类器723和训练分类器743的网络结构可以与上文图8和图10所示的分类器423的网络结构相同。且该检测分类器723和训练分类器743的网络权重参数相同，即二者的权重参数共享。

在该情况下，当第一数据增强图像样本P1和第二数据增强图像样本P2分别输入至分类模块720和训练模块740的情况下，分类模块720中的检测分类器723可基于第一数据增强图像样本P1输出第一分类预测结果CF1，且基于第二数据增强图像样本P2输出第二分类预测结果CF2。另外，训练模块740中的训练分类器743可基于第二数据增强图像样本P2输出第三分类预测结果CH1，且基于第一数据增强图像样本P1输出第四分类预测结果CH2。

数据处理设备的处理器可根据上述第一分类预测结果CF1、第二分类预测结果CF2、第三分类预测结果CH1和第四分类预测结果CH2计算用于模型训练的损失值中的第二损失值。

可以理解的是，参见图12所示，在分类模块720中，检测分类器723可连接于检测解码器722，即数据增强图像样本经过检测编码器721和检测解码器722处理后，输出特征预测结果F，该检测分类器723用于对该特征预测结果F进行处理得到分类预测结果CF。类似地，在训练模块740中，训练分类器743可连接于训练编码器741，即数据增强图像样本经过训练编码器741处理后，输出特征预测结果H，该训练分类器743用于对该特征预测结果H进行处理得到分类预测结果CH。

在本申请实施例中，分类模块720和训练模块740可分别通过检测分类器723和训练分类器743输出分类预测结果，该分类预测结果可较为直观的表征分类模块720和训练模块740输出的活体预测结果。另外，检测分类器723和训练分类器743的网络结构相同且权重参数共享，有利于保持检测分类器723和训练分类器743分类方式的一致性。通过比较该检测分类器723和训练分类器743通过同一分类方式对不同数据增强图像样本分类的差异性(即根据第一分类预测结果CF1、第二分类预测结果CF2、第三分类预测结果CH1和第四分类预测结果CH2计算得到第二损失值)，并根据该差异性调整并优化分类模块720中的网络参数，能够进一步提升分类模块720的分类准确性以及鲁棒性。

在一些实施方式中，数据处理设备的处理器可根据第二预设损失函数、上述第一分类预测结果CF1、第二分类预测结果CF2、第三分类预测结果CH1和第四分类预测结果CH2计算第二损失值L_map。

可选地，该第二预设损失函数为：

在上述第二预设损失函数中，MSE表示均方误差。

通过该实施方式的技术方案，可以约束分类模块720和训练模块740基于不同数据增强图像样本输出的分类预测结果之间的差异度，进而对分类模块720进行训练，该技术方案能够进一步保障分类模块720对于不同数据增强场景的模型训练的有效性，提升分类模块720的训练效果以得到具有较佳鲁棒性的目标分类模块。

可选地，分类模块720的模型训练的损失值除了可包括上述第一损失值L_feature和第二损失值L_map以外，还可以进一步包括第三损失值。

具体地，数据处理设备的处理器可根据第三分类预测结果CH1、第四分类预测结果CH2以及第一数据增强图像样本P1和第二数据增强图像样本P2的标签M计算用于模型训练的损失值中的第三损失值，其中，该标签M用于指示第一数据增强图像样本P1和第二数据增强图像样本P2是否为活体样本。可选地，该标签M可以为二值化图像标签。

通过该实施方式的技术方案，利用训练模块740输出的第三分类预测结果CH1、第四分类预测结果CH2与第一数据增强图像样本P1和第二数据增强图像样本P2的标签M计算第三损失值，能够有效表征训练模块740的分类预测结果与真实标签值的差异，且训练模块740的网络参数与分类模块720的网络参数共享，基于该第三损失值调整分类模块720的网络参数以对该分类模块720进行训练，能够达到较优的训练效果，提升分类模块720以及人脸活体检测模型的整体性能。

在一些实施方式中，数据处理设备的处理器可根据第三预设损失函数、第三分类预测结果CH1、第四分类预测结果CH2以及第一数据增强图像样本P1和第二数据增强图像样本P2的标签Y计算第三损失值L_label。

可选地，该第三预设损失函数为：

在上述第三预设损失函数中，MSE表示均方误差。

综上，在本申请实施例提供的分类模块720的训练过程中，总的损失函数可以为：L_all＝L_feature+L_map+L_label，其中，L_all为总的损失值，L_feature、L_map和L_label可以分别为上文实施例中的第一损失值、第二损失值和第三损失值。

基于该总的损失值对分类模块720进行训练，可以综合考虑分类模块720与训练模块740基于不同数据增强图像样本输出的多种预测结果之间的差异，能够有效且较为全面的保障分类模块720对于不同数据增强场景的模型训练的有效性，有效提升分类模块720的训练效果以得到具有较佳鲁棒性的目标分类模块。

上文结合图11至图12说明了本申请实施例提供的对于人脸活体检测模型中分类模块720的训练方法，可选地，在一些实施例中，人脸活体检测模型还可以进一步包括：人脸语义分割模块，对应的，人脸活体检测模型的训练方法还可包括该人脸语义分割模块的训练方法。

图13示出了本申请提供的另一人脸活体检测模型的训练方法800的示意性流程框图。

如图13所示，该人脸活体检测模型的训练方法800可以包括以下步骤。

S810：获取人脸活体检测模型，该人脸活体检测模型包括：人脸语义分割模块和分类模块。

S820：向人脸语义分割模块输入人脸图像样本，得到预测的人脸掩码。

S830：根据人脸掩码和人脸图像样本的掩码标签，对人脸语义分割模块进行训练，以得到目标人脸活体检测模型中的目标人脸语义分割模块。

S840：获取对应于分类模块的训练模块。

S850：向该分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练该分类模块得到目标人脸活体检测模型中的目标分类模块。其中，第一数据增强图像样本和第二数据增强图像样本由同一图像样本经过不同数据增强方式得到。

类似于上述训练方法600，本申请实施例提供的训练方法800也可以由上文图1和图2中所示的数据处理设备执行，具体地，该训练方法800可由数据处理设备中的处理器执行。该数据处理设备的存储器中可存储有人脸活体检测模型，其中，该人脸活体检测模型可以包括人脸语义分割模块和分类模块。

在步骤S810中，人脸活体检测模型中的人脸语义分割模块和分类模块可以为初始人脸语义分割模块和初始分类模块，该初始人脸语义分割模块可以与上文图该4和图8所示实施例的人脸语义分割模块410的模型架构相同，差别仅在于该初始人脸语义分割模块中的模型参数不同于上述人脸语义分割模块410的模型参数。另外，该初始人脸语义分割模块经过训练之后，即其中的参数调整之后，可以形成上述人脸语义分割模块410作为目标人脸活体检测模型中的目标人脸语义分割模块。可以理解的是，初始分类模块的相关技术方案与上述初始人脸语义分割模块类似。另外，该初始分类模块的相关技术方案也可以参见上文图11和图12的相关描述，此处不做过多赘述。

在步骤S820中，数据处理设备的处理器可向人脸语义分割模块输入人脸图像样本，得到预测的人脸掩码。具体地，该人脸语义分割模块对人脸图像样本进行语义分割并得到预测的人脸掩码的过程可以参见上文2至图7所示实施例的技术方案，此处不做过多赘述。

在步骤S830中，数据处理设备的处理器可根据人脸掩码和人脸图像样本的掩码标签，对人脸语义分割模块进行训练，以得到目标人脸活体检测模型中的目标人脸语义分割模块。具体地，该人脸图像样本的掩码标签为真实掩码标签，其掩码信息可表征真实人脸的不同位置区域。根据预测的人脸掩码和真实的掩码标签对人脸语义分割模块进行训练，可以得到预测性能较佳的目标人脸语义分割模块，从而提升人脸活体检测模型的活体检测性能。

步骤S840至步骤S850为针对人脸活体检测模型中分类模块的训练方法，可选地，该分类模块的训练过程可以与上述人脸语义分割模块的训练过程相互独立，或者，该分类模块的训练过程也可以基于训练完成的目标人脸语义分割模块进行。具体地，该步骤S840和步骤S850的相关技术方案可以参见上文图11和图12所示实施例的相关描述，此处不做过多赘述。

可选地，在一些实施方式中，数据处理设备的处理器可根据第四预设损失函数计算人脸掩码和掩码标签的掩码损失值，并基于该掩码损失值对人脸语义分割模块进行迭代训练直至该掩码损失值收敛，以得到目标人脸语义分割模块。

可选地，上述第四预设损失函数可以为：L_mask＝CE(P_mask,I_mask)，其中，L_mask为掩码损失值，P_mask为人脸掩码，I_mask为掩码标签，CE表示交叉熵。

具体地，

其中，H、W和C分别表示人脸掩码和掩码标签的高度、宽度和通道数，i为大于0且小于或等于H的正整数，j为大于0且小于或等于W的正整数，k为大于0且小于或等于C的正整数。

通过该实施方式的技术方案，利用交叉熵衡量并约束人脸掩码和掩码标签之间的差异，从而对人脸语义分割模块进行训练，可以使得人脸语义分割模块具有较佳的训练效果，从而提升训练得到的目标人脸语义分割模块的语义分割性能，进而提升目标人脸活体检测模型的活体检测性能。

在一些实施方式中，可利用训练得到的目标人脸语义分割模块得到上述用于训练分类模块的第一数据增强图像样本和第二数据增强图像样本。

基于上文图13所示实施例，图14示出了本申请提供的另一人脸活体检测模型的训练方法900的示意性流程框图。如图14所示，该人脸活体检测模型的训练方法900可以包括以下步骤。

S910：获取人脸活体检测模型，该人脸活体检测模型包括：人脸语义分割模块和分类模块。

S920：向人脸语义分割模块输入人脸图像样本，得到预测的人脸掩码。

S930：根据人脸掩码和人脸图像样本的掩码标签，对人脸语义分割模块进行训练，以得到目标人脸活体检测模型中的目标人脸语义分割模块。

S940：向目标人脸语义分割模块输入目标人脸图像样本，得到预测的目标人脸掩码。

S950：对目标人脸图像样本进行第一数据增强，并将第一数据增强后的目标人脸图像样本与目标人脸掩码融合，得到第一数据增强图像样本。

S960：对目标人脸图像样本进行第二数据增强，并将第二数据增强后的目标人脸图像样本与目标人脸掩码融合，得到第二数据增强图像样本。

S970：获取对应于分类模块的训练模块。

S980：向该分类模块和训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练该分类模块得到目标人脸活体检测模型中的目标分类模块。其中，第一数据增强图像样本和第二数据增强图像样本由同一图像样本经过不同数据增强方式得到。

具体地，在本申请实施例中，步骤S910至步骤S930以及步骤S970至步骤S980的具体技术方案可以参见上文图13所示实施例的具体描述，此处不做过多赘述。

为了便于描述本申请实施例的方案，图15示出了本申请实施例提供的应用于人脸活体检测模型训练的目标人脸语义分割模块1010、分类模块1020和训练模块1040的一种示意性结构图。

结合图14和图15所示，在步骤S940中，数据处理设备的处理器可向目标人脸语义分割模块1010输入目标人脸图像样本I，得到预测的目标人脸掩码FSSM。

在步骤S950中，数据处理设备的处理器可调用第一数据增强处理器1050对目标人脸图像样本I进行第一数据增强，并将第一数据增强后的目标人脸图像样本与目标人脸掩码FSSM融合，得到第一数据增强图像样本P1。

在步骤S960中，数据处理设备的处理器可调用第二数据增强处理器1060对目标人脸图像样本进行第二数据增强，并将第二数据增强后的目标人脸图像样本与目标人脸掩码FSSM融合，得到第二数据增强图像样本P2。

在后续步骤S970至步骤S980中，第一数据增强图像样本P1和第二数据增强图像样本P2可作为输入分别输入至分类模块1020和训练模块1040中，用于训练该分类模块1020。可选地，该分类模块1020和训练模块1040可以与上文图12所示实施例中分类模块720和训练模块740相同。根据第一数据增强图像样本P1和第二数据增强图像样本P2训练分类模块1020的相关技术方案可以参见上文图12中根据第一数据增强图像样本P1和第二数据增强图像样本P2训练分类模块720的技术方案。

另外，在本申请实施例中，第一数据增强图像样本P1和第二数据增强图像样本P2可以由目标人脸图像样本I通过不同的数据增强方式得到，因而该第一数据增强图像样本P1和第二数据增强图像样本P2的标签M可以为目标人脸图像样本I的标签M。在对分类模块1020进行训练的过程中，第三损失值可以基于该人脸图像样本I的标签M计算得到。

在图15所示实施例中，分类模块1020和训练模块1040的网络结构可采用如下数学关系式表示：

F＝Dec(Enc(Aug1(I))),C_F＝Cls(F)；

H＝Enc(Aug2(I)),C_H＝Cls(H)；

其中，I表示输入的目标人脸图像样本，Aug1表示第一数据增强处理器1050的第一数据增强方式，Aug2表示第二数据增强处理器1060的第二数据增强方式，Enc、Dec和Cls分别表示编码器、解码器和分类器，其中，分类模块1020中的编码器与训练模块1040的编码器权重共享，分类模块1020中的分类器与训练模块1040的分类器权重共享。F表示分类模块1020中解码器输出的特征预测结果，CF表示分类模块1020中分类器输出的分类预测结果，H表示训练模块1040中编码器输出的特征预测结果，CH表示训练模块1040中分类器输出的分类预测结果。

通过本申请实施例的技术方案，用于训练人脸活体检测模型中分类模型的第一数据增强图像样本和第二数据增强图像样本为融合有人脸掩码的图像样本，且该人脸掩码由训练后的目标人脸语义分割模块预测得到。因此，该分类模型不仅对于不同数据增强方式的图像样本具有较佳的鲁棒性，减小模型对光照、场景噪声、设备成像质量对于活体分类检测干扰，且还考虑到人脸不同区域的欺骗信息的差异性，提升模型算法对局部遮挡人脸的分类准确度。

可选地，在实际训练应用过程中，上述分类模块1020和训练模块1040可采用随机梯度下降(stochastic gradient descent，SGD)优化器进行优化，在该SGD优化器中，动量(momentum)设置0.9，权重衰减为1e-4，初始学习率为1e-3。

可选地，上述人脸语义分割模块1采用自适应矩估计(adaptive momentestimation，Adam)优化器进行优化，在该Adam优化器中，动量momentum设置0.9，权重衰减为5e-5，学习率设置为1e-5。

本申请还提供一种人脸活体检测装置。图16示出了本申请实施例提供的一种人脸活体检测装置1100的示意性结构框图。

如图16所示，该人脸活体检测装置1100可以包括：处理器1110和存储器1120，该存储器1120用于存储计算机程序，该处理器1110用于调用并运行存储器1120中存储的计算机程序以执行上文任一实施例提供的人脸活体检测方法。

具体地，上文任一人脸活体检测方法中应用的人脸活体检测模型可以为存储于该存储器1120中的计算机程序，处理器1110可调用该人脸活体检测模型以执行上文任一实施例提供的人脸活体检测方法。

可选地，该人脸活体检测装置1100可以上文图1和图2所示实施例中的数据处理设置。例如，该人脸活体检测装置1100可以为用户设备，例如，手机终端、平板电脑，智能可穿戴装置、智能门锁等等。又例如，该人脸活体检测装置1100也可以为云服务器、网络服务器、应用服务器以及管理服务器等等。

本申请还提供一种人脸活体检测模型的训练装置。图17示出了本申请实施例提供的一种人脸活体检测模型的训练装置1200的示意性结构框图。该人脸活体检测模型的训练装置1200可以包括：处理器1210和存储器1220，该存储器1220用于存储计算机程序，该处理器1210用于调用并运行存储器1220中存储的计算机程序以执行上文任一实施例提供的人脸活体检测模型的训练方法。

可选地，在本申请实施例提供的训练装置1200中，存储器1220可从外部获取人脸活体检测模型，或者，该人脸活体检测模型也可以存储于该存储器1220中。存储器1220可存储有用于执行人脸活体检测模型训练方法的计算机程序，处理器1210可调用该计算机程序以对人脸活体检测模型进行训练。

可选地，该人脸活体检测模型的训练装置1200也可以上文图1和图2所示实施例中的数据处理设置。例如，该人脸活体检测模型的训练装置1200可以为用户设备，例如，手机终端、平板电脑，智能可穿戴装置、智能门锁等等。又例如，该人脸活体检测模型的训练装置1200也可以为云服务器、网络服务器、应用服务器以及管理服务器等等。

在一些实施方式中，本申请实施例提供的人脸活体检测模型的训练装置1200可以与上文图16所示实施例中的人脸活体检测装置1100为同一装置，或者，该人脸活体检测模型的训练装置1200也可以与上文图16所示实施例中的人脸活体检测装置1100为不同装置。

本申请还提供了一种计算机程序产品，该计算机程序产品被上述处理器1110或处理器1210执行时实现本申请中任一方法实施例所述的方法。

该计算机程序产品可以存储在上述存储器1120或存储器1220中，该计算机程序可经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

应理解，本申请上述任一实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

另外，本申请上述任一实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)或动态随机存取存储器(Dynamic RAM，DRAM)等等。

应理解，本申请实施例中的公式只是一种示例，而非限制本申请实施例的范围，各公式可以进行变形，这些变形也应属于本申请保护的范围。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此并不限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。本申请所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人脸活体检测方法，其特征在于，包括：

获取目标人脸图像；

对所述目标人脸图像进行语义分割得到人脸掩码；

通过分类模块对所述目标人脸图像和所述人脸掩码的融合图像进行分类得到人脸分类特征，其中，所述分类模块为通过不同数据增强图像样本和对应于所述分类模块的训练模块训练得到的神经网络模型；

根据所述人脸分类特征确定所述目标人脸图像中的人脸是否为活体。

2.根据权利要求1所述的人脸活体检测方法，其特征在于，所述对所述目标人脸图像进行语义分割得到人脸掩码，包括：

通过第一编码器对所述目标人脸图像进行特征提取并下采样得到人脸特征图像；

通过第一解码器对所述人脸特征图像进行特征提取并上采样得到所述人脸掩码。

3.根据权利要求2所述的人脸活体检测方法，其特征在于，所述第一编码器包括：多个卷积单元；其中，所述通过第一编码器对所述目标人脸图像进行特征提取并下采样得到人脸特征图像，包括：

通过所述多个卷积单元对所述目标人脸图像进行多次特征提取并下采样得到多个人脸特征图像，其中，所述多个人脸特征图像的维度不同；

所述第一解码器包括：多个特征单元，所述多个特征单元与所述多个卷积单元一一对应；其中，所述通过第一解码器对所述人脸特征图像进行特征提取并上采样得到所述人脸掩码，包括：

通过所述多个特征单元对所述多个人脸特征图像进行特征提取并上采样得到所述人脸掩码。

4.根据权利要求3所述的人脸活体检测方法，其特征在于，所述多个特征单元中每个特征单元包括：卷积层、上采样层和特征拼接层，所述多个特征单元串行连接，所述多个特征单元中下一层特征单元连接于上一层特征单元的特征拼接层；

所述多个特征单元中第一特征单元包括：第一卷积层、第一上采样层和第一特征拼接层，所述第一特征单元对应于所述多个卷积单元中的第一卷积单元；

其中，所述通过所述多个特征单元对所述多个人脸特征图像进行特征提取并上采样得到所述人脸掩码，包括：

通过所述第一卷积层提取所述第一卷积单元输出的第一人脸特征图像的第一特征信息；

通过所述第一上采样层对所述第一特征单元的上一层特征单元输出的拼接特征进行上采样得到第二特征信息；

通过所述第一特征拼接层拼接所述第一特征信息与所述第二特征信息，以得到所述人脸掩码。

5.根据权利要求1至4中任一项所述的人脸活体检测方法，其特征在于，所述分类模块包括：第二编码器、第二解码器和分类器；

其中，所述通过分类模块对所述目标人脸图像和所述人脸掩码的融合图像进行分类得到人脸分类特征，包括：

通过所述第二编码器提取所述融合图像中的人脸特征信息；

通过所述第二解码器将所述人脸特征信息转换为目标维度的目标特征信息；

通过所述分类器对所述目标特征信息进行分类，得到所述人脸分类特征。

6.根据权利要求5所述的人脸活体检测方法，其特征在于，所述第二编码器包括：主干网络和投影网络；

其中，所述通过所述第二编码器提取所述融合图像中的人脸特征信息，包括：

通过所述主干网络提取所述融合图像中的多种特征，并对所述多种特征进行融合，以形成目标特征信息；

通过所述投影网络将所述目标特征信息映射至预设特征空间，以得到所述人脸特征信息。

7.根据权利要求6所述的人脸活体检测方法，其特征在于，所述主干网络包括：卷积层、上采样层、下采样层以及特征拼接层；

其中，所述通过所述主干网络提取所述融合图像中的多种特征，并对所述多种特征进行融合，以形成目标特征信息，包括：

通过所述卷积层提取所述融合图像中的多种特征；

通过所述上采样层对所述多种特征中的第一特征进行上采样得到第一目标特征；

通过所述下采样层对所述多种特征中的第二特征进行下采样得到第二目标特征；

通过所述特征拼接层拼接所述第一目标特征和所述第二目标特征，以形成所述目标特征信息。

8.一种人脸活体检测模型的训练方法，其特征在于，包括：

获取人脸活体检测模型，所述人脸活体检测模型包括：分类模块和人脸语义分割模块；

获取对应于所述分类模块的训练模块；

向所述分类模块和所述训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练所述分类模块得到目标人脸活体检测模型中的目标分类模块，其中，所述第一数据增强图像样本和所述第二数据增强图像样本通过同一图像样本经过不同数据增强方式得到；

向所述人脸语义分割模块输入人脸图像样本，得到预测的人脸掩码；

根据所述人脸掩码和所述人脸图像样本的掩码标签，对所述人脸语义分割模块进行训练，以得到所述目标人脸活体检测模型中的目标人脸语义分割模块。

9.根据权利要求8所述的训练方法，其特征在于，所述向所述分类模块和所述训练模块分别输入第一数据增强图像样本和第二数据增强图像样本，以训练所述分类模块得到目标人脸活体检测模型中的目标分类模块，包括：

向所述分类模块和所述训练模块分别输入第一数据增强图像样本和第二数据增强图像样本；

根据所述分类模块基于所述第一数据增强图像样本和所述第二数据增强图像样本输出的预测结果和所述训练模块基于所述第二数据增强图像样本和所述第一数据增强样本输出的预测结果计算损失值；

基于所述损失值对所述分类模块进行迭代训练直至所述损失值收敛，以得到所述目标人脸活体检测模型中的目标分类模块。

10.根据权利要求9所述的训练方法，其特征在于，所述分类模块包括：检测编码器和检测解码器，所述训练模块包括：训练编码器，所述检测编码器和所述训练编码器的网络结构相同且权重参数相同；

其中，所述根据所述分类模块基于所述第一数据增强图像样本和所述第二数据增强图像样本输出的预测结果和所述训练模块基于所述第二数据增强图像样本和所述第一数据增强样本输出的预测结果计算损失值，包括：

获取所述检测编码器和所述解码器基于所述第一数据增强图像样本输出的第一特征预测结果和基于所述第二数据增强图像样本输出的第二特征预测结果；

获取所述训练编码器基于所述第二数据增强图像样本输出的第三特征预测结果和基于所述第一数据增强图像样本输出的第四特征预测结果；

根据所述第一特征预测结果、所述第二特征预测结果、所述第三特征预测结果和所述第四特征预测结果计算所述损失值中的第一损失值。

11.根据权利要求10所述的训练方法，其特征在于，所述根据所述第一特征预测结果、所述第二特征预测结果、所述第三特征预测结果和所述第四特征预测结果计算所述损失值中的第一损失值，包括：

根据第一预设损失函数、所述第一特征预测结果、所述第二特征预测结果、所述第三特征预测结果和所述第四特征预测结果计算所述损失值中的第一损失值；

所述第一预设损失函数为：

其中，L_feature为所述第一损失值，F1为所述第一特征预测结果，F2为所述第二特征预测结果，H2为所述第三特征预测结果，H1为所述第四特征预测结果，FS表示特征相似度；

所述第三特征预测结果和所述第四特征预测结果为所述训练模块在停止梯度反向传播的情况下输出的特征预测结果。

12.根据权利要求9至11中任一项所述的训练方法，其特征在于，所述分类模块包括：检测分类器，所述训练模块包括：训练分类器，所述检测分类器和所述训练分类器的网络结构相同且权重参数相同；

获取所述检测分类器基于所述第一数据增强图像样本输出的第一分类预测结果和基于所述第二数据增强图像样本输出的第二分类预测结果；

获取所述训练分类器基于所述第二数据增强图像样本输出的第三分类预测结果和基于所述第一数据增强图像样本输出的第四分类预测结果；

根据所述第一分类预测结果、所述第二分类预测结果、所述第三分类预测结果和所述第四分类预测结果计算所述损失值中的第二损失值。

13.根据权利要求12所述的训练方法，其特征在于，所述根据所述第一分类预测结果、所述第二分类预测结果、所述第三分类预测结果和所述第四分类预测结果计算所述损失值中的第二损失值，包括：

根据第二预设损失函数、所述第一分类预测结果、所述第二分类预测结果、所述第三分类预测结果和所述第四分类预测结果计算所述损失值中的第二损失值；

所述第二预设损失函数为：

其中，L_map为所述第二损失值，C_F1为所述第一分类预测结果，C_F2为所述第二分类预测结果，C_H2为所述第三分类预测结果，C_H1为所述第四分类预测结果，MSE表示均方误差。

14.根据权利要求12所述的训练方法，其特征在于，所述根据所述分类模块基于所述第一数据增强图像样本和所述第二数据增强图像样本输出的预测结果和所述训练模块基于所述第二数据增强图像样本和所述第一数据增强样本输出的预测结果计算损失值，还包括：

根据第三预设损失函数、所述第三分类预测结果、所述第四分类预测结果以及所述第一数据增强图像样本和所述第二数据增强图像样本的标签计算所述损失值中的第三损失值；

所述第三预设损失函数为：

其中，L_label为所述第三损失值，C_H2为所述第三分类预测结果，C_H1为所述第四分类预测结果，Y为所述第一数据增强图像样本和所述第二数据增强图像样本的标签，MSE表示均方误差。

15.根据权利要求8至11中任一项所述的训练方法，其特征在于，所述根据所述人脸掩码和所述人脸图像样本的掩码标签，对所述人脸语义分割模块进行训练，以得到所述目标人脸活体检测模型中的目标人脸语义分割模块，包括：

根据第四预设损失函数计算所述人脸掩码和所述掩码标签的掩码损失值；

基于所述掩码损失值对人脸语义分割模块进行迭代训练直至所述掩码损失值收敛，以得到所述目标人脸语义分割模块；

其中，所述第四预设损失函数为：L_mask＝CE(P_mask,I_mask)，L_mask为所述掩码损失值，P_mask为所述人脸掩码，I_mask为所述掩码标签，CE表示交叉熵。

16.一种人脸活体检测装置，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序以执行：如权利要求1至7中任一项所述的人脸活体检测方法。

17.一种人脸活体检测模型的训练装置，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序以执行：如权利要求8至15中任一项所述的人脸活体检测模型的训练方法。

18.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行：如权利要求1至7中任一项所述的人脸活体检测方法，和/或，如权利要求8至15中任一项所述的人脸活体检测模型的训练方法。