CN117496601B

CN117496601B - 基于细分类和对抗域泛化的人脸活体检测系统及方法

Info

Publication number: CN117496601B
Application number: CN202311823660.5A
Authority: CN
Inventors: 蔡体健; 罗词勇; 陈均; 陈子涵
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-05
Anticipated expiration: 2043-12-28
Also published as: CN117496601A

Abstract

本发明属于人脸识别技术领域，涉及一种基于细分类和对抗域泛化的人脸活体检测系统及方法，该人脸活体检测系统由特征提取器、域鉴别器和分类器组成；该方法将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征，并进行归一化处理，将归一化特征输入分类器进行预测分类，并将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失；结合加权的域对抗损失、自适应分类损失和N对损失构建综合优化目标，采用综合优化目标对特征提取器和分类器进行优化训练。本发明增强了对不同人脸图像特征细节的提取，提升了鲁棒性、泛化性能、分类精度。

Description

基于细分类和对抗域泛化的人脸活体检测系统及方法

技术领域

本发明属于人脸识别技术领域，涉及一种基于细分类和对抗域泛化的人脸活体检测系统及方法。

背景技术

人脸活体检测是一种用于验证人脸是否属于真实活体的技术。它的目的是区分真实人脸和伪造的人脸，例如照片、视频或面具等，以确保系统只接受真实的人脸，并提高安全性以防止伪装行为。同时，人脸活体检测也是一个不断演变的问题，攻击与防御不断迭代发展，这使得它面临着新的挑战。目前，人脸活体检测的技术挑战主要包括以下几点：

在不同的数据集中，人脸图像的采集设备和环境均有较大差异，采集的图像数据集质量参差不齐。不同的数据集使用各种捕捉设备、不同的攻击类型、不同的照明条件、背景场景。因此，在这些数据集之间存在较大的域偏移。人脸活体检测方法在某一数据集内的检测效果往往在跨数据集时检测精度下降。

在基于域泛化的人脸活体检测方法中，对于不同人脸数据集进行公共特征空间的学习时，容易出现距离公共特征空间较远的值，不加选择地对这些难迁移样本进行训练会破坏方法的泛化能力。

攻击者使用高质量的假体或面具来模仿真实人脸，使得它们在外观和特征上与真实活体人脸非常相似。这种相似性导致了真实人脸和伪装样本之间的特征重叠严重。高质量伪装样本更加难以通过人脸活体检测方法准确区分它们。

发明内容

本发明的目的在于提供了基于细分类和对抗域泛化的人脸活体检测系统及方法，以更好识别真实人脸，防止伪装。

基于细分类和对抗域泛化的人脸活体检测系统，由特征提取器、域鉴别器和分类器组成；

所述特征提取器用于对不同源域的人脸图像分别提取出真实人脸特征和攻击人脸特征，并将真实人脸特征和攻击人脸特征经过归一化处理后输入分类器进行分类；

所述域鉴别器用于鉴别来自不同源域的真实人脸特征，对攻击人脸特征不做处理，域鉴别器与特征提取器形成单边的对抗学习，使人脸活体检测系统在进行真实人脸特征提取时忽略域间差异，从而在特征空间中混合不同源域的真实人脸；

所述分类器则用于对人脸图像进行真实人脸图像和攻击人脸图像的分类；

使用引入动态内核生成器的ConvNeXt网络作为特征提取器的主干网络，所述主干网络由多个堆叠模块组成，每个堆叠模块由下采样层、若干卷积块和动态卷积块组成；所述动态卷积块包括静态卷积分支和动态内核分支；其中，静态卷积分支中仅有一个固定参数的卷积块对后一半输入特征进行卷积操作；动态内核分支结构中则包含全局平均池化操作，先将前一半的输入特征进行全局平均池化，而后，对全局平均池化后的特征进行卷积操作生成基于每个实例的动态内核，最后使用动态内核进行卷积操作提取前一半的输入特征的特有特征。

进一步优选，所述主干网络由四个堆叠模块组成，第一个堆叠模块依次由下采样层、3个卷积块和1个动态卷积块组成，第二个堆叠模块和四个堆叠模块的结构与第一个堆叠模块结构相同，第三个堆叠模块依次由下采样层、9个卷积块和1个动态卷积块组成。

本发明的基于细分类和对抗域泛化的人脸活体检测方法，步骤如下：

S1：根据伪装展示材料以及伪装方式的不同，将不同数据集进行细粒度的类别划分；从不同源域中获取人脸图像，将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征，并将提取的真实人脸特征和攻击人脸特征进行归一化处理，得到归一化特征；

S2：将归一化特征输入分类器进行预测分类，并将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失；

S3：采用添加调制因子的自适应交叉熵损失函数对分类器进行训练，得到自适应分类损失；以及使用N对度量学习优化进行训练，得到N对损失；

S4：结合加权的域对抗损失、自适应分类损失和N对损失构建综合优化目标，采用综合优化目标对特征提取器和分类器进行优化训练；

S5：将目标域中的测试样本输入优化后的特征提取器和分类器进行人脸活体检测。

进一步优选，所述将不同数据集进行细粒度的类别划分的操作为：在人脸图像进入特征提取器之前，首先根据伪装展示材料和伪装方式的不同，对不同数据集中的人脸图像进行更细粒度的划分。

进一步优选，将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征的过程为：首先将人脸图像进行下采样操作，即输入到卷积核大小k=4，步距s=4的卷积块，并进行层归一化；然后通过ConvNeXt网络自带的卷积块进行卷积操作；通过一个卷积核大小k=7，步距为s=1，填充值p=3的卷积块卷积后，使用两个相同的卷积核大小k=1，步距s=1的卷积块对特征进一步提取，最后与输入该卷积块的特征级联进入下一个堆叠模块；动态卷积块则用于提取不同人脸图像的特有特征；在ConvNeXt网络的后续下采样层中均使用卷积核大小k=2，步距s=2的卷积层进行下采样；在所有卷积块执行完后通过一个全局平均池化操作得到输出特征。

进一步优选，所述归一化处理是L2归一化处理。

进一步优选，将归一化特征输入分类器进行预测分类时，采用以下公式来衡量分类器分类的不确定性：

；

其中，C表示类别总数， c表示类别， c=1表示为真实人脸特征，表示信息熵，表示输入的样本在分类器中预测为 c 类的概率。

进一步优选，将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失，具体过程如下：

对抗训练过程的最终优化目标如公式所示：

；

其中，表示加权的域对抗损失，x表示输入的图像特征，X表示源域集合，y表示 x的域标签，Y表示域标签集合，E表示期望值，G表示特征提取器，G(x)表示特征提取器输出， D代表域判别器；表示指示函数，当n=y时，表示域鉴别器正确的鉴别出了输入的人脸图像所属的域，函数值取1，否则取0，为熵感知权重，。

进一步优选，自适应分类损失表示如下：

；

其中，为分类损失，为调制因子，为自适应指数。

进一步优选，综合优化目标的总体优化损失如下所示：

；

其中，表示总体优化损失，代表 N对损失，表示加权的域对抗损失的贡献度大小，表示N对损失的贡献度大小，表示自适应分类损失的贡献度大小。

本发明具有如下优点：

（1）将动态内核生成器网络结构引入ConvNeXt网络中，通过自动生成实例自适应滤波器，使滤波器学习到更加全面的样本自适应特征，同时增强了网络对不同人脸图像特征细节的提取，提升了网络在应对未知数据的鲁棒性。

（2）针对高质量伪装样本分类难问题，提出了适用于分类器的调制因子。通过添加调制因子，在训练程中加大对难分类样本的惩罚程度，使网络增加对该类样本的关注，获得了更好的泛化性能。

（3）根据采样设备、伪装展示材料以及伪装方式的不同，将数据集进行细粒度的类别划分并结合N对度量学习损失优化获得了更好分类边界，有效提升了方法的分类精度。

附图说明

图1为基于细分类和对抗域泛化的人脸活体检测方法流程图。

图2为基于细分类和对抗域泛化的人脸活体检测系统示意图。

图3为特征提取器的示意图。

图4为动态卷积块的示意图。

具体实施方式

下面结合附图和实施例进一步详细阐明本发明。

如图1所示，基于细分类和对抗域泛化的人脸活体检测系统，由特征提取器、域鉴别器和分类器组成；

所述分类器则用于对人脸图像进行真实人脸图像和攻击人脸图像的分类。

本实施例使用引入动态内核生成器的ConvNeXt网络作为特征提取器的主干网络。如图2所示，主干网络由四个堆叠模块组成，每个堆叠模块由下采样层加上卷积块和动态卷积块组成。在ConvNeXt网络中拥有多个尺度的卷积块，第一个堆叠模块依次由下采样层、3个卷积块和1个动态卷积块组成，第二个堆叠模块和四个堆叠模块的结构与第一个堆叠模块结构相同，第三个堆叠模块依次由下采样层、9个卷积块和1个动态卷积块组成，四个堆叠模块可以从不同的空间尺度提取特征，从而更好地捕捉人脸图像的结构信息。嵌入的动态卷积块可以提取不同人脸图像的特有特征。在人脸图像的特征提取过程中，特征提取器依据图像标签对真实人脸特征和攻击人脸特征进行同时提取并共享网络权重。

此外，鉴于对不同源域进行特征提取过程中样本的多样性，仅通过一个静态滤波器来提取实例自适应特征是非常困难的。本实施例在特征提取器中引入了动态的内核生成器，即特征提取器中的动态卷积块。动态卷积块可以自动生成实例自适应滤波器，从而有助于滤波器学习全面的实例自适应特征，以便进行更进一步的领域泛化。

如图4所示，动态卷积块包括静态卷积分支和动态内核分支。其中，静态卷积分支中仅有一个固定参数的卷积块对后一半输入特征进行卷积操作。动态内核分支结构中则包含全局平均池化操作，先将前一半的输入特征进行全局平均池化，而后，对全局平均池化后的特征进行卷积操作生成基于每个实例的动态内核，最后使用动态内核进行卷积操作提取前一半的输入特征的特有特征。静态卷积分支具有固定参数，而动态内核分支具有基于每个实例的参数。简而言之，动态的内核生成器的设计允许系统根据每个样本的特征动态调整内核，从而更好地适应不同的数据样本，提高了系统的泛化能力。

如图4所示，代表第i个样本的输入特征，代表动态卷积块第i个样本的输出特征。静态卷积分支和动态内核分支在训练阶段都是同时优化的。具体来说，首先将在通道维度上平均分为两部分，分别表示为静态处理特征和动态处理特征。在动态内核分支中，具有前一半通道的动态处理特征先被送入到全局平均池化层（GAP），再通过卷积块，生成实例自适应内核；然后，利用实例自适应内核通过卷积提取动态处理特征的特有特征；在静态卷积分支中，具有后半通道的静态处理特征被直接送入到静态内核中。

将静态卷积分支的输出特征表示为；将动态内核分支的输出特征表示为；

，；

其中表示动态卷积的核参数，取决于输入特征，表示全局平均池化操作，表示卷积操作；

然后在通道维度上连接静态卷积分支的输出特征和动态内核分支的输出特征，并将结果馈送到卷积块中以输出特征，表示为：

；

其中表示融合操作。

如图1所示，基于细分类和对抗域泛化的人脸活体检测方法，步骤如下：

所述将不同数据集进行细粒度的类别划分的操作为：在人脸图像进入特征提取器之前，首先根据伪装展示材料和伪装方式的不同，对不同数据集中的人脸图像进行更细粒度的划分。这种划分能够保证方法在训练过程中接触到更多类别的人脸图像，可以使得方法更加关注不同类别之间的差异，从而更好地学习和识别各种伪装行为。对于具体的数据集，使用四个公共的人脸活体检测数据集来评估方法的有效性。分别为CASIA-FASD、MSU-MFSD、Replay-Attack和OULU-NPU。

CASIA-FASD是通过在自然场景下使用不同分辨率的三台相机收集的，包含打印照片攻击、挖洞照片攻击和在平板电脑上播放视频的重放攻击。

MSU-MFSD是通过使用笔记本电脑和手机摄像头收集的，包含三种不同的攻击。分别是打印照片攻击，在平板电脑和另一部手机上播放录制的视频两种视频重放攻击。

Replay-Attack是由同一个设备在两种不同的环境下收集的，一种是背景统一的灯光照明，另一种是场景复杂的日光照明，包含打印照片攻击和两种不同分辨率设备的视频重放攻击。

OULU-NPU是在3 种不同的光照环境和背景下，使用6部不同的手机录制的，包含两台不同设备的打印照片攻击和两台不同显示器的视频重放攻击。

在对数据集进行细粒度划分过程中，本发明根据伪装展示材料以及伪装方式的不同对数据集进一步细分。其中，OULU-NPU数据集的6部手机设备共有3种不同分辨率，所以展示材料数为3。详细分类信息如表1所示。

表1 .数据集

参照图3，将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征的过程为：由于是使用图像的RGB通道，特征提取器的输入图像大小即为224×224×3。首先将人脸图像进行下采样操作，即输入到卷积核大小k=4，步距s=4的卷积块，并进行层归一化。然后通过ConvNeXt网络自带的卷积块进行卷积操作。通过一个卷积核大小k=7，步距为s=1，填充值p=3的卷积块卷积后，使用两个相同的卷积核大小k=1，步距s=1的卷积块对特征进一步提取，最后与输入该卷积块的特征级联进入下一个堆叠模块。动态卷积块则用于提取不同人脸图像的特有特征。此外，在该网络的后续下采样层中均使用卷积核大小k=2，步距s=2的卷积层进行下采样。在所有卷积块执行完后通过一个全局平均池化操作得到输出特征。

所述归一化处理是L2归一化处理。由于人脸图像数据集在采集过程中，相机的质量和图像的背景等条件的不同都会导致数据集内和不同数据集之间存在较大差异。因此，需要在对人脸图像进行特征提取后进行L2归一化处理，以进一步提高特征提取器的性能。

在不同源域中的人脸图像所使用的拍摄设备的不同和拍摄环境的差别，往往会出现负迁移样本从而影响对抗学习的过程，使对抗学习效果下降。将归一化特征输入分类器进行预测分类时，采用以下公式来衡量分类器分类的不确定性。

；

本发明中，将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失，具体过程如下：

对于多源域的特征学习，源域集合，分别表示第 1，2，…，K个源域；域标签集合，分别表示第1，2，…，K个域标签；每个源域都含有真实人脸和攻击人脸样本。由于不同攻击人脸特征之间的特征分布差异远大于真实人脸特征，进行特征对齐后会严重影响对不可见域的分类精度，本发明中的域鉴别器只对真实人脸特征进行单边的领域鉴别。通过特征提取器与域鉴别器的对抗学习训练，在特征空间中混淆不同源域的真实人脸特征，形成单边的对抗训练过程。具体做法是在特征提取器和域鉴别器之间插入梯度反向层（GRL），使反向传播过程中域鉴别器的损失梯度反向传播到特征提取器的参数前自动取反，进而实现类似于GAN网络的对抗训练过程。由于有多个源域需要分类，因此采用标准的交叉熵损失函数来优化在单向对抗学习下的网络，即如下式所示：

；

其中，表示对抗训练损失，x表示输入的图像特征，y表示x的域标签，E表示期望值，G表示特征提取器，G(x)表示特征提取器输出， D代表域判别器，在优化过程中，G与 D将进行迭代式的对抗训练；表示指示函数，当n=y时，表示域鉴别器正确的鉴别出了输入的人脸图像所属的域，函数值取1，否则取0。

为了减小负迁移样本的影响，熵感知权重被用来对样本重新加权，当分类器预测的不确定性越大时，熵感知权重值越小，在对抗训练时，域鉴别器被混淆的程度减小。加入熵感知权重调整以后，对抗训练过程的最终优化目标如公式所示：

。

其中，表示加权的域对抗损失。

使用N对度量学习优化对方法进行训练，得到N对损失：本发明使用度量学习中的N对损失（N-pair loss）对样本类别边界进行约束优化，以提高方法的泛化性能。在以往使用较多的三元组损失中，参数更新过程仅比较了单个负样本，即锚点样本与正样本和负样本进行距离优化。这导致方法在学习过程中忽略了其他类别的负样本，限制了方法在区分不同类别样本时的能力。在这种情况下，将输入样本与来自多个类的负样本进行比较并同时将它们区分开来无疑是更好的选择。但在每一次参数更新中，都需要输入N×(N+1)个样本，其数据规模太大，这对于大规模数据集的深度神经网络来说是难以完成的。

N对损失对此问题进行了优化对于需要分离的N对样本，N对损失仅保留锚点样本和单个相对应的正样本，利用不同类别锚点的正样本来充当当前锚点的负样本，这使得每一个批量的样本大小由原先的N×(N+1)降低为2N。对于每一对正样本对，N对损失选择其他类别的样本作为负样本，并与正样本对组合形成负样本对。N对损失使锚样本与其他类别的样本保持距离，从而加快收敛速度并提高区分能力。具体公式如下：

；

其中，表示N对损失，、分别表示输入锚样本图像和正样本图像，表示锚样本图像、正样本图像的输出特征。是第类的锚样本图像特征，、分别是第 i、类的正样本图像特征，表示的转置。

二分类方法假定所有伪装样本具有相同的数据分布，将所有伪装样本归为一类，会模糊各种伪装人脸的伪装特征，阻碍了正负样本之间的有效决策边界的学习。与以往简单的二分类方法不同，本发明将根据伪装展示材料以及伪装方式的不同，将数据集进行细粒度的类别划分。进一步减小类内差异，有利于类内共性特征的学习，可以有效地降低分类错误率。

设每个源域共有C类图像样本，使用表示第k个源域中的第c类样本，其中k∈ {1，2，…， K}，c∈{1，2，…， C}。当c=1时，则表示为第k个源域中的真实人脸图像；由于输入的每一个批次中含有M个样本，分类损失可以表示为：

；

其中，为第i个样本的真实概率分布，当第i个的真实类别等于c时值为1，否则为 0；为第i个样本属于第c类的预测概率。

在分类过程中，数据集中的高质量伪装样本会对训练造成影响。所以，本发明通过添加调制因子，在训练程中加大对该类样本的惩罚程度，提高方法对难分类样本的分类性能。调制因子表示为，其中，为自适应指数，在实验中设置为2。该调制因子可以基于每个批次内的分类精度自适应地调整交叉熵损失的权重。直观地说，分类精度越低，调制因子越大，这使得一批包含更多高质量伪装分类样本的人脸图像在训练过程中受到更多的关注。因此，可以挖掘属于源域难分类样本的辨别线索，以进一步提高学习特征的可转移能力。可以将自适应分类损失表示如下：

；

其中，为分类损失。

采用综合优化目标对特征提取器和分类器进行优化训练：在方法的总体优化过程中，结合加权的域对抗损失、自适应分类损失和N对损失，构建综合优化目标是一种有效的策略。将多个损失函数进行叠加，可以综合考虑不同损失之间的信息。在人脸活体检测任务中，不同损失可能关注不同的方面，如分类准确率、负样本迁移等。通过将它们叠加在一起，可以使得方法在训练过程中同时考虑这些方面，从而得到更好的性能。其中，加权的域对抗损失是一种对抗性学习策略，它通过在训练过程中引入域间的对抗性，使得方法能够更好地适应不同数据集之间的差异。自适应分类损失是一种分类器优化策略，它通过在训练过程中根据分类器的表现自适应地调整损失函数的权重，从而使得分类器能够更好地学习和识别各种伪装行为。N对损失通过引入多个样本对之间的相似性约束，使得方法能够更好地学习和识别人脸图像中的特征和结构。综上所述，结合加权的域对抗损失、自适应分类损失和N对损失构建综合优化目标可以有效地提高人脸图像识别的准确性和鲁棒性。

综合优化目标的总体优化损失如下所示：

；

其中，表示总体优化损失，、、分别代表加权的域对抗损失、N 对损失和自适应分类损失。表示加权的域对抗损失的贡献度大小，表示N对损失的贡献度大小，表示自适应分类损失的贡献度大小。

在测试阶段，直接将目标域中的测试样本输入优化后的特征提取器和分类器进行人脸活体检测。

本发明通过以下实验过程验证基于细分类和对抗域泛化的人脸活体检测方法的检测效果：

实验环境为 Windows10操作系统，单个的NVDIA GeForce RTX 3080显卡，内存为32GB，深度学习框架为 PyTorch。本发明利用半错误率(Half Total Error Rate， HTER)和曲线下的面积(Area Under Curve， AUC)进行性能评估。

在图像预处理阶段，通过MTCNN算法对齐所有视频帧后裁剪面部区域，并将裁剪区域的大小调整为224×224。在这里只提取图像的RGB通道，所以输入大小为224×224×3。由于视频中不同帧之间的差异很小，因此本发明在每个视频中随机采样一帧作为训练数据。

每个训练步骤中，从所有训练数据集中采样相同数量的真实数据和攻击数据。训练过程中的Batch size设置为60，选择随机梯度下降(Stochastic Gradient Descent， SGD)作为优化器，动量参数设置为 0.9，权值衰减设为5e-4，初始学习率为1e-3。超参数、、分别设置为0.1，2，1。在测试时从目标域的每个视频中随机选择两帧图像进行测试。

本发明在CASIA-FASD、MSU-MFSD、Replay-Attack和OULU-NPU数据集上进行了跨数据集测试实验。为方便表示，分别用C、M、I、O简记。在实验中，一个数据集被视为一个域，从四个公开数据集中随机选择三个数据集作为训练的源域，剩下的一个作为测试集。因此，本发明进行了以下四种跨数据集协议实验：I＆C＆M to O 、O＆C＆I to M、O＆M＆I to C、O＆C＆M to I。实验结果与其他人脸活体检测算法的比较如表2所示。

表2 .本发明的方法与的其他人脸活体检测方法的比较

由表2可知，与三正交平面的局部二值模式（LBPTOP）、多尺度的局部二值模式（MS_LBP）、色彩纹理分析（Color Texture）、二值卷积神经网络（Binary CNN）这些传统方法比较，基于领域泛化的人脸活体检测方法性能有明显的提升。传统方法的 HTER 平均性能在30%到 50%之间，而基于领域泛化的方法的平均性能在 9%到 25%之间。这主要是因为在人脸活体检测中，不同的域之间存在较大的域差异，而传统的方法在训练时并没有考虑减轻域差异，因此表现出较差的泛化能力。

此外，与具有对抗特征学习的领域泛化（MMD-AAE）、多对抗判别深度域泛化技术（MADDG）、多域分解表示学习检测（DR-MD-Net）、动态中心差分网络搜索（NAS-FAS）、正则化的细粒度元学习（RFM）、双重加权领域泛化（DRDG）、混合领域的泛化表示学习（D2AM）、自领域适应（SDA）、自适应归一化表示学习（ANRL）、特征生成和假设验证（FGHV）、单边对抗域泛化（SSDG-R）这些领域泛化的方法比较，在四种跨数据集协议中的三种协议下，分别优于现有的方法，并获得了最佳的平均结果，这些结果验证了本发明的有效性。其中SSDG-R是本发明的基线方法。从表中可以看出，本发明方法在O＆C＆I to M、O＆M＆I to C、O＆C＆M toI三个协议上的性能均有提升，尤其在O＆C＆I to M中HTER性能显著提升，从原来的7.38%降至1.75%。其原因可能是相较于基准方法，本发明在分类过程中将非活体样本进一步的细分，平衡了不同类别样本数目，且目标域M的数据样本数量是四个数据集中最少的。所以，性能提升较其余两个协议更为明显。

为应对源域极其有限的情况，本发明限制源域数量对算法进行了进一步的评估。选择MSU-MFSD(M)和 Replay-Attack(I)数据集作为训练的源域，其余两个数据集CASIA-MESD(C)和 OULU-NPU(O)，分别作为测试的目标域。测试结果如表3所示。

表 3 .限制源域情况下与其他方法的比较

从表3可以看出，本发明方法在有限源域的情况下相比于MS LBP、LBP-TOP、ColorTexture、MADDG、SSDG-M、DRDG等方法效果更好。其主要原因可能是本发明方法对负迁移样本的限制提升了算法所学习到的公共特征空间的泛化能力。致使在使用M和I两个具有显著差异的数据集中进行训练时仍能保持较好的性能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于细分类和对抗域泛化的人脸活体检测系统，其特征在于，由特征提取器、域鉴别器和分类器组成；

所述分类器，用于对人脸图像进行真实人脸图像和攻击人脸图像的分类;根据伪装展示材料和伪装方式的不同，对不同数据集中的人脸图像进行更细粒度的划分;采用添加调制因子的自适应交叉熵损失函数对分类器进行训练，得到自适应分类损失；

2.根据权利要求1所述的基于细分类和对抗域泛化的人脸活体检测系统，其特征在于，所述主干网络由四个堆叠模块组成，第一个堆叠模块依次由下采样层、3个卷积块和1个动态卷积块组成，第二个堆叠模块和四个堆叠模块的结构与第一个堆叠模块结构相同，第三个堆叠模块依次由下采样层、9个卷积块和1个动态卷积块组成。

3.基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，采用权利要求1所述的人脸活体检测系统，步骤如下：

S1：根据伪装展示材料以及伪装方式的不同，将不同数据集进行细粒度的类别划分；从不同源域中获取人脸图像，将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征，并将提取的真实人脸特征和攻击人脸特征分别进行归一化处理，得到归一化特征；

S2：将归一化特征分别输入分类器进行预测分类，并将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失；

4.根据权利要求3所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，将人脸图像通过特征提取器分别提取真实人脸特征和攻击人脸特征的过程为：首先将人脸图像进行下采样操作，即输入到卷积核大小k=4，步距s=4的卷积块，并进行层归一化；然后通过ConvNeXt网络自带的卷积块进行卷积操作；通过一个卷积核大小k=7，步距为s=1，填充值p=3的卷积块卷积后，使用两个相同的卷积核大小k=1，步距s=1的卷积块对特征进一步提取，最后与输入该卷积块的特征级联进入下一个堆叠模块；动态卷积块则用于提取不同人脸图像的特有特征；在ConvNeXt网络的后续下采样层中均使用卷积核大小k=2，步距s=2的卷积层进行下采样；在所有卷积块执行完后通过一个全局平均池化操作得到输出特征。

5.根据权利要求3所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，所述归一化处理是L2归一化处理。

6.根据权利要求3所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，将归一化特征输入分类器进行预测分类时，采用以下公式来衡量分类器分类的不确定性：

；

其中，C表示类别总数， c表示类别， c=1表示为真实人脸特征，表示信息熵，/>表示输入的样本在分类器中预测为c 类的概率。

7.根据权利要求6所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，将分类结果作为权重添加进域鉴别模块，域鉴别器与特征提取器进行对抗训练，得到加权的域对抗损失，具体过程如下：

对抗训练过程的最终优化目标如公式所示：

；

其中，表示加权的域对抗损失，x表示输入的图像特征，X表示源域集合，y表示x的域标签，Y表示域标签集合，E表示期望值，G表示特征提取器，G(x)表示特征提取器输出， D代表域判别器； />表示指示函数，当n=y时，表示域鉴别器正确的鉴别出了输入的人脸图像所属的域，函数值取1，否则取0，/>为熵感知权重，/>。

8.根据权利要求7所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，自适应分类损失表示如下：

；

其中，为分类损失， />为调制因子，/>为自适应指数。

9.根据权利要求8所述的基于细分类和对抗域泛化的人脸活体检测方法，其特征在于，综合优化目标的总体优化损失如下所示：

；

其中，表示总体优化损失，/>代表 N对损失，/>表示加权的域对抗损失的贡献度大小，/>表示N对损失的贡献度大小，/>表示自适应分类损失的贡献度大小。