CN113486875B

CN113486875B - 基于词分离和自适应的跨域人脸表示攻击检测方法和系统

Info

Publication number: CN113486875B
Application number: CN202111049208.9A
Authority: CN
Inventors: 张天翊; 赵洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-07
Anticipated expiration: 2041-09-08
Also published as: CN113486875A

Abstract

本发明公开了基于词分离和自适应的跨域人脸表示攻击检测方法和系统，属于人脸识别领域。本发明采用VLAD聚合方法对局部特征进行量化，利用视觉词汇对特征空间进行局部划分，从而保持局部辨识能力，并进一步提出词汇分离和自适应方法来修改针对跨域PAD任务的检测方法，其中词汇分离方法将词汇划分为领域共享型和领域特定型视觉词汇，领域共享型单词对应所有域的泛化属性，而领域特定型的单词对应特定域的属性，以应对跨领域场景下的活体和攻击面孔的多样性；词汇自适应方法模仿了端到端训练中K均值算法的最大化步骤，保证了视觉词汇定位在分配的局部特征的中心，从而带来鲁棒的相似性度量。

Description

基于词分离和自适应的跨域人脸表示攻击检测方法和系统

技术领域

本发明涉及人脸识别领域，具体涉及一种基于基于词分离和自适应的跨域人脸表示攻击检测方法和系统。

背景技术

人脸识别的应用，如智能手机解锁、门禁、电子钱包支付等，通常与隐私相关，并在日常生活中应用广泛。然而，人脸识别系统可能很容易被各种表示攻击模式 (如打印攻击、重放攻击和3D面具攻击)绕过。如今，人脸图像很容易通过社交软件和互联网图像的途径获取，使人脸表示攻击检测（PAD，也即反欺诈）成为了保证人脸识别系统可靠性的关键步骤。

为了解决人脸反欺诈问题，网络上发布了大量具有不同的对象特征、攻击类型和模式的数据集。同时，提出了多种方法来判断活体人脸和假人脸之间的决策边界，例如基于图像纹理的方法通过利用外观线索（例如颜色纹理和图像扭曲线索）来检测攻击；基于时间的方法利用时间线索（例如面部动作和rPPG）来检测攻击；以及基于深度特征的方法，例如一种单边对抗学习方法，其中特征生成器被训练成只对真实面孔不分域，对虚假面孔则不然。

尽管现有的很多方法在数据集内部测试中显示出了良好的结果，但在跨数据集（域）场景中，即训练和测试数据来自具有不同攻击类型和识别环境的不同数据集时，它们的性能会显著下降。此外，现有的基于深度特征的方法通常是通过全局平均池化得到的，由于大多数的欺骗线索是微小的局部图像模式，这种简单的池化方法仅给出了局部特征映射的粗略求和，失去了局部鉴别能力。

发明内容

为了解决上述中的技术问题，本发明提供了一种基于词分离和自适应的跨域人脸表示攻击检测方法和系统。

本发明采用如下技术方案：

一种基于词分离和自适应的跨域人脸表示攻击检测方法，包括以下步骤：

1）建立由局部特征提取模块、聚类模块、词汇分离模块、质心自适应模块和聚合模块构成的人脸表示攻击检测模型；以及利用局部特征提取模块和聚类模块对不同域的真实人脸图像和虚假人脸图像进行编码，得到人脸图像的局部特征和K个视觉聚类，将K个聚类质心作为词汇集；

2）利用局部特征进行簇内识别，计算簇内鉴别损失；

利用词汇分离模块将词汇集中的聚类质心划分为共享视觉词汇和特定视觉词汇，计算两种词汇的正交损失；

利用质心自适应模块计算每一个视觉聚类下的局部特征的特征中心与聚类质心的质心自适应损失；

3）将人脸图像的局部特征量化到最接近的视觉词汇，计算赋值矩阵；利用聚合模块对局部特征与其对应的聚类质心之间的残差进行加权聚合，得到该人脸图像的NetVLAD表示；利用共享视觉词汇下的NetVLAD表示计算对抗损失，利用共享视觉词汇和特定视觉词汇的NetVLAD表示相结合计算分类损失和全局损失；

4）将步骤2）和步骤3）中损失值的加权结果作为总损失，训练人脸表示攻击检测模型，利用训练好的人脸表示攻击检测模型实现攻击检测。

进一步的，所述的局部特征提取模块采用CNN网络，所述的聚类模块采用k-means网络。利用k-means网络对人脸图像的局部特征进行聚类，得到K个视觉聚类，将每一个聚类质心表示为c_k，即一个视觉词汇，构成词汇集V。

进一步的，利用训练好的人脸表示攻击检测模型进行攻击检测时，首先获得待检测人脸图像在每一个聚类下的NetVLAD表示，比较待检测人脸图像与真实人脸图像对应的NetVLAD表示之间的相似性，根据相似性结果的预设阈值判断是否遭遇攻击。

本发明还提出了一种基于词分离和自适应的跨域人脸表示攻击检测系统，用于实现上述的跨域人脸表示攻击检测方法。

与现有技术相比，本发明的优势在于：本发明采用VLAD聚合方法对局部特征进行量化，利用视觉词汇对特征空间进行局部划分，从而保持局部辨识能力，并进一步提出词汇分离和自适应方法来修改针对跨域PAD任务的检测方法，其中词汇分离方法将词汇划分为领域共享型和领域特定型视觉词汇，领域共享型单词对应所有域的泛化属性，而领域特定型的单词对应特定域的属性，以应对跨领域场景下的活体和攻击面孔的多样性；词汇自适应方法模仿了端到端训练中K均值算法的最大化步骤，保证了视觉词汇定位在分配的局部特征的中心，从而带来鲁棒的相似性度量。

附图说明

图1为本发明方法的整体框架设计图。

图2为本发明中的局部特征分布和视觉词汇示意图；图2中的（a）采用视觉聚簇局部划分特征空间，使视觉词汇的局部特征的残差聚合到全局表示；图2中的（b）残差相似度对聚类质心位置敏感。

图3为本发明提出的词汇自适应方法的示意图；图3中的（a）期望聚类质心趋近于分配的特征中心；图3中的（b）真实残差中心与虚假残差中心之间的夹角。

图4为局部特征分配到聚类的统计数量的可视化结果；图4中的（a）真实与虚假分布；图4中的（b）不同域下的分布。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明提出的基于词汇分离和自适应的跨域人脸表示攻击检测方法，主要包括以下几部分内容：

1.建立由局部特征提取模块、聚类模块、词汇分离模块、质心自适应模块和聚合模块构成的人脸表示攻击检测模型；以及利用局部特征提取模块和聚类模块对不同域的真实人脸图像和虚假人脸图像进行编码，得到人脸图像的局部特征图和K个视觉聚类，将K个聚类质心作为词汇集。

2.利用局部特征图进行簇内识别，计算簇内鉴别损失。

3.提出一种词汇分离方法，利用词汇分离模块将词汇划分为共享视觉词汇和特定视觉词汇，根据两种词汇计算正交损失。

4.提出一种质心自适应方法，利用质心自适应模块计算每一个视觉聚类下的局部特征的特征中心与聚类质心的质心自适应损失。

5.将人脸图像的局部特征量化到最接近的视觉词汇，计算赋值矩阵；由聚合模块根据赋值矩阵对局部特征与其对应的聚类质心之间的残差进行加权聚合，得到NetVLAD表示。

6.将新引入的簇内鉴别损失、正交损失、质心自适应损失与传统的分类损失、三重损失、对抗性损失相结合，根据总损失训练人脸表示攻击检测模型；利用训练好的模型实现攻击检测。

下面结合具体实施例，对上述六个部分内容进行具体介绍。

（一）对真实和虚假人脸进行编码

（1.1）人脸图像准备：获取不同域下的真实图像和攻击图像，构成训练图像集X={X₁,X₂,…,X_i,…X_S}，其来自S 个不同的源域D={D₁,D₂,…,D_i,…, D_S}，其中X_i对应于第i个源域D_i下的图像；标记图像的真假，将标签集合记为Y={Y₁,Y₂,…, Y_i,…,Y_S} (Y_i∈{0,1}，真或假)。

（1.2）采用CNN网络提取人脸图像的局部特征

，N表示局部特征的数量， f_i表示第i个局部特征，维度记为d，每一个人脸图像样本对应一个N*d的局部特征图。

对所有人脸图像样本的局部特征图进行k-means聚类，获得K个视觉聚类，将每一个聚类质心表示为

，即一个视觉词汇，构成词汇集

。

（二）簇内鉴别损失

计算公式为：

其中，

和

分别为第k个聚类中真实人脸和虚假人脸的残差中心，

是平方Frobenius范数，

为簇内鉴别损失。

（三）词汇分离

人脸采集中的主要条件(光照、人脸外观、摄像头质量等)的无限变化带来了不同的数据分布，也给对齐表示分布带来了困难。当不同的数据集具有不同的攻击类型时，这种情况更加明显。假设所有域都有共享成分和特定成分，共享成分和特定成分都有助于识别攻击，并且只有共享成分需要跨域对齐。

在本发明提出的词汇分离策略中，将词汇划分为K1个共享视觉词汇

和K2个特定视觉词汇

，表示为V=[Vsh; Vsp]，K1+K2=K；通过这两种词汇分别得到了最终的共享表示Fsh和特定表示Fsp；在优化过程中，将共享表示和特定表示结合起来进行识别，但只用对抗性损失将共享表示的分布对齐，如图1右侧所示。

利用Vsh和Vsp计算正交损失：

其中，

为正交损失，上角标T表示转置。

此处，共享表示Fsh和特定表示Fsp分别是在共享视觉词汇Vsh和特定视觉词汇Vsp的基础上提取特征得到的，可以采用现有的神经网络实现，属于已有技术，本发明不做进一步限定。

（四）质心自适应

经过k-means聚类获得了初始化的视觉词汇后，最终的期望是将局部特征赋给最接近的视觉词汇。本发明发现传统的优化过程存在缺陷，因为传统方法只有将局部特征赋给视觉词汇的步骤，而没有像k-means算法那样重新计算视觉词汇的最大化步骤。如图2中的(b)所示，VLAD表示的残差相似度比较是词汇敏感的，两组局部特征在视觉词汇轻微变化的情况下，相似度变化较大。在理想情况下，视觉词汇应该位于指定的特征中心，作为k-means算法的最大化步骤来给出VLAD表示的鲁棒的相似性度量。因此在训练阶段，本发明提出了一种质心自适应方法，通过最小化聚类质心与对应的局部特征中心之间的距离来模拟最大步长。

在经过k-means聚类后，将局部特征赋给了最接近的视觉词汇，将第k个聚类（硬量化）所对应的局部特征集记作

，其中，N_k为第k个聚类所赋的局部特征的个数，

表示赋给第k个聚类的第i个局部特征。

如图3中的(a)的质心自适应所示，计算分配特征的中心，并期望与聚类质心接近。计算分配的局部特征的特征中心与聚类质心的质心自适应损失：

其中，

表示质心自适应损失，c_k为第k个聚类质心，即第k个视觉词汇；

表示第k个聚类所赋的所有局部特征的特征中心，称为分配的特征中心。

为了进一步提高聚类内的鉴别能力，本发明在每个聚类中使用一个显式的约束使真实图像的特征中心远离虚假图像。如图3中的(b)所示，本发明强制使真实残差中心和假残差中心之间的夹角α较大，从而形成了（二）中所述的簇内鉴别损失(intra)。

（五）计算NetVLAD表示

（5.1）结合人脸图像的局部特征

、词汇集

和K个视觉聚类划分特征空间，如图2中的(a)所示，局部特征被量化到最接近的视觉词汇，得到赋值矩阵A：

其中，上角标T为转置，A_i,k表示赋值矩阵A中的元素，c_k表示第k个视觉词汇，即词汇集中的第k个视觉词汇。

赋值步骤是通过在局部特征上使用1×1卷积层来实现的，然后使用soft-max函数来缩放数值。

（5.2）计算局部特征与其对应的聚类质心之间的残差：

其中，r_i,k表示第i个局部特征对第k个聚类质心的残差。

（5.3）利用赋值矩阵对残差进行加权，将其聚合为NetVLAD表示

：

其中，

对应第k个聚类下的NetVLAD表示，t为调节参数，当

时，对应的是将最接近的聚类赋值为1或0的硬量化情况。在本实施例中，考虑软量化来处理量化噪声，并根据经验将t设为3。

表示第i个局部特征对临近的第

个聚类的赋值参数，

表示临近第i个局部特征的视觉词汇的总个数。

（六）总损失

其中，

为总损失，

为分类损失，

为三重损失，

为对抗性损失，

为正交损失，

为质心自适应损失，

为簇内鉴别损失。

所述的分类损失、三重损失、对抗性损失为传统训练方式采用的损失函数，利用全局平均池化(GAP)得到局部特征的全局表示，通过分类损失和三重损失在特征空间中分离出真假人脸来进行优化，以此获得鉴别能力。利用生成器与用于成功区分域的鉴别器进行极小极大博弈，形成对抗性损失来得到所有源域的泛化特征。

其中，人脸图像x的全局特征表示为：

分类损失函数为：

其中X表示训练图像集，Y表示标签集，利用交叉熵损失作为分类损失；1_[k=y]为指示函数，当k=y成立时输出1，不成立时输出0。

进一步采用两类三重损失通过在特征空间分离真假人脸弥补了分类损失：

其中，x_a与正样本x_p具有相同的标记，与负样本x_n具有不同的标记，m为余量。

对抗性损失将所有源域的分布对齐，并保证对未知域的泛化能力：

其中，Y_D为相应域下的标签，1_[s=y]为指示函数，当s=y成立时输出1，不成立时输出0。

传统的训练方式采用了上述三类损失，本发明在此基础上引入簇内鉴别、词汇分离和自适应策略对模型训练进行了修正。

在本发明的一项具体实施中，利用训练好的模型中的特征提取模块获取待检测人脸图像的局部特征，根据（五）中的方法获得待检测人脸图像的NetVLAD表示，比较待检测人脸图像与真实人脸图像对应的NetVLAD表示之间的相似性，根据相似性结果判断是否遭遇攻击。

将第k个聚类下的相似度表示为：

其中，

表示真实人脸图像中第k个聚类下的NetVLAD表示，

表示待检测人脸图像中第k个聚类下的NetVLAD表示；x₁表示真实人脸图像，x₂表示待检测人脸图像，f_i表示第i个局部特征，f_j表示第j个局部特征，r_i,k表示第i个局部特征对第k个聚类质心的残差，r_j,k表示第j个局部特征对第k个聚类质心的残差；〈.〉表示距离计算。

可以看出，本发明通过将局部特征分配给最接近的聚类质心，采用选择性匹配的方式，只比较残差的簇内相似性。与传统的全局匹配方式相比，选择性匹配更加合理，因为人类在比较两张脸时通常比较相同的面部部位。

与前述的基于词分离和自适应的跨域人脸表示攻击检测方法的实施例相对应，本申请还提供了一种基于词分离和自适应的跨域人脸表示攻击检测系统的实施例，其包括：

局部特征提取模块：其用于提取人脸图像的局部特征。

聚类模块，其用于人脸图像的局部特征进行聚类，得到K个视觉聚类，将聚类质心作为词汇集。

簇内识别模块，其用于利用局部特征进行簇内识别，计算簇内鉴别损失。

词汇分离模块，其用于将词汇集中的聚类质心划分为共享视觉词汇和特定视觉词汇，计算两种词汇的正交损失。

质心自适应模块，其用于计算每一个视觉聚类下的局部特征的特征中心与聚类质心的质心自适应损失。

聚合模块，其用于将人脸图像的局部特征量化到最接近的视觉词汇，计算赋值矩阵；对局部特征与其对应的聚类质心之间的残差进行加权聚合，得到该人脸图像的NetVLAD表示。

相似性攻击检测模块，其用于基于每一个聚类下的相似度实现攻击检测。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为聚合模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

本发明在OULU-NPU(简称O)、CASIA-FASD(简称C)、Idiap应答攻击(简称I)和MSU-MFSD (简称M)四个公共数据集上评估了本发明提出的攻击检测方法的性能。如表1所示，这四个数据集收集自不同的识别设备、攻击类型、光照条件、背景和人种。因此，这些数据集之间存在显著的域差异性。

表1：用于评估的四个FAS数据集

注释：攻击类型P表示打印照片，D表示显示照片，R表示回放视频，C表示切割照片

本实施例采用MTCNN算法对人脸进行检测和校正，将检测到的所有人脸大小调整为256×256×3的尺寸作为网络的输入。遵循单帧设置，其中选择一个视频中的一帧进行训练，两帧进行测试。本实施例在ResNet-18 (R)和MADDG (M)架构上实现了该方法，并将最终的卷积层替换为128-d的卷积核，将局部特征的维数降至128-d。

对于NetVLAD，词汇是随机初始化的，词汇分离是手动设置的，因为最终层是重新初始化的，并且那里没有共享和特定词汇的线索。对训练数量为60(每个域10个真脸和10个假脸)使用SGD优化器，初始学习率为0.001，经过1500次迭代后降至0.0001。

如表2所示，列出了现有的几种具有代表性的人脸反欺诈方法的跨域检测模型的性能，如Multi-Scale LBP (MS-LBP) ；二进制CNN ；图像失真分析(IDA) ；颜色纹理 (CT)；LBPTOP和辅助监督，并将本发明的方法（VLAD-VSA）与它们进行比较。

表2：在四个攻击类型组合中与最先进的跨域人脸PAD方法的比较

与最新的基于三重损失和对抗性损失的各种复杂方法相比，本发明采用简单的两类三重损失和对抗性损失，没有引入额外的深度和ID监督，本发明的先进性在于采用VLAD表示的基础上再使用基于词汇分离和自适应方法进行修正。

从表2可以看出，本发明在四个跨域评估组合下的性能显著超过了大多数现有方法，说明采用本发明提出的词汇分离和自适应策略的VLAD表示对跨域PAD任务具有良好的泛化和识别能力。

在MADDG架构上，在O&M&I to C组合中，本发明的表现略差于MD-DRL，原因在于MD-DRL采用了辅助ID监督，设计了三个编码器，使得参数多了三倍，结构极其复杂。在剩下的三个组合中，本发明明显优于MD-DRL。

为了进一步验证词汇分离(VS)和词汇自适应(VA)的有效性，表3给出了单独VLAD方法、VLAD+VS方法、VLAD+VA方法、VLAD-VAS方法（即，VLAD+VS+VA）实验结果。

表3：基于ResNet架构的VLAD表示、词汇自适应和分离方法的消融结果

从表3中可见，VLAD + VS和VLAD + VA均在VLAD的基础上，所有组合和指标的性能都有一致的提升。当VLAD同时与VS和VA两种方法结合时(VLAD- VSA)，VLAD的性能有进一步地提高。

本实施例还进一步在只有两个源域可用情况下的有限的源域组合上评估了所提出的方法。如表4所示，将MSU-MFSD和Idiap重放攻击数据集作为源域，CASIA-FASD (M&I toC)或OULU-NPU (M&I to O)作为目标域。可以看出，本发明的方法在两个组合上超过了大多数现有的方法，可与最先进的MD-DRL在M&I to C组合上相媲美。对于M&I to O组合，其中目标域比两个源域有更多的视频，两个指标的提升更明显，这证明了在有限源域和有限训练数据的困难情况下，本发明的攻击检测方法仍然能够表现出其优异性。

表4：有限源域下（MADDG）的跨域PAD结果的比较

本发明提出的词汇自适应方法包含了保证聚类质心靠近对应的特征中心的质心自适应方法，以及提高了簇内判别能力的簇内判别损失法。

为了理解局部特征分配给视觉聚类的情形，本实施例在OULU-NPU, CASIA-FASD和MSU-MFSD数据集中训练了一个包含8个视觉词汇的VLAD-VSA模型(7个共享词汇和一个特定词汇)，在每个域随机选取70幅真实图像和70幅虚假图像，并统计聚类中的局部特征分配数量。真假特征和多域特征的分配情况如图4所示。其中，如图4中的(a)所示，集群的大部分通常是真实或虚假的特征其中的一类。例如，第四个聚类中的大部分局部特征是虚假的，第三个聚类中的大部分局部特征是真实的。它证明了视觉词汇倾向于捕捉特定的线索来识别真实或虚假的面孔。特定的词汇(第8个)以虚假特征为主，表明虚假图像容易包含特定于一个数据集的模式。且，视觉词汇是跨域泛化的。在图4中的(b)中，可以发现聚类通常是域无关的，因为所有聚类中三个域的特征数量是相似的。聚类不明显偏向某一个域，证明了它们的泛化能力。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于词分离和自适应的跨域人脸表示攻击检测方法，其特征在于，包括以下步骤：

1)建立由局部特征提取模块、聚类模块、词汇分离模块、质心自适应模块和聚合模块构成的人脸表示攻击检测模型；以及利用局部特征提取模块和聚类模块对不同域的真实人脸图像和虚假人脸图像进行编码，得到人脸图像的局部特征和K个视觉聚类，将K个聚类质心作为词汇集；

2)利用局部特征进行簇内识别，计算簇内鉴别损失；所述的簇内鉴别损失表示为：

其中，

和

分别为第k个聚类中真实人脸和虚假人脸的残差中心，

是平方Frobenius范数，

为簇内鉴别损失；

利用词汇分离模块将词汇集中的聚类质心划分为K1个共享视觉词汇Vsh和K2个特定视觉词汇Vsp，表示为V＝[Vsh；Vsp]，K1+K2＝K，V为词汇集；计算两种词汇的正交损失；所述的正交损失计算公式为：

其中，

为正交损失，上角标T表示转置，

是平方Frobenius范数；

利用质心自适应模块计算每一个视觉聚类下的局部特征的特征中心与聚类质心的质心自适应损失；所述的质心自适应模块计算过程具体为：

将局部特征赋给最接近的视觉词汇，将第k个聚类所对应的局部特征集记作

其中，N_k为第k个聚类所赋的局部特征的个数，f_i,k表示赋给第k个聚类的第i个局部特征；

计算分配的局部特征的特征中心：

其中，

为第k个聚类所赋的所有局部特征的特征中心；

计算每一个聚类下的特征中心与聚类质心的质心自适应损失

其中，c_k为第k个聚类质心，即第k个视觉词汇；

是平方Frobenius范数，K为视觉聚类的数量；

3)将人脸图像的局部特征量化到最接近的视觉词汇，计算赋值矩阵；利用聚合模块对局部特征与其对应的聚类质心之间的残差进行加权聚合，得到该人脸图像的NetVLAD表示；利用共享视觉词汇下的NetVLAD表示计算对抗损失，利用共享视觉词汇和特定视觉词汇的NetVLAD表示相结合计算分类损失和全局损失；

所述的人脸图像的NetVLAD表示计算过程为：

3.1)将人脸图像的局部特征量化到最接近的视觉词汇，计算赋值矩阵：

其中，上角标T为转置，A_i,k表示赋值矩阵A中的元素；

为人脸图像的局部特征图，N表示局部特征的数量，f_i表示第i个局部特征；V表示词汇集，c_k表示第k个聚类质心，即词汇集中的第k个视觉词汇；

3.2)计算局部特征与其对应的聚类质心之间的残差：

r_i,k＝f_i-c_k

其中，r_i,k表示第i个局部特征对第k个聚类质心的残差；

3.3)利用赋值矩阵对残差进行加权，将其聚合为NetVLAD表示

其中，

对应第k个聚类下的NetVLAD表示，t为调节参数，A_i,k′表示第i个局部特征对临近的第k′个聚类的赋值；

4)将步骤2)和步骤3)中损失值的加权结果作为总损失，训练人脸表示攻击检测模型，利用训练好的人脸表示攻击检测模型实现攻击检测。

2.根据权利要求1所述的基于词分离和自适应的跨域人脸表示攻击检测方法，其特征在于，所述的局部特征提取模块采用CNN网络，所述的聚类模块采用k-means网络。

3.根据权利要求2所述的基于词分离和自适应的跨域人脸表示攻击检测方法，其特征在于，利用k-means网络对人脸图像的局部特征进行聚类，得到K个视觉聚类，将每一个聚类质心表示为c_k，即一个视觉词汇，构成词汇集

4.根据权利要求1所述的基于词分离和自适应的跨域人脸表示攻击检测方法，其特征在于，利用训练好的人脸表示攻击检测模型进行攻击检测时，首先获得待检测人脸图像在每一个聚类下的NetVLAD表示，比较待检测人脸图像与真实人脸图像对应的NetVLAD表示之间的相似性，根据相似性结果的预设阈值判断是否遭遇攻击。

5.根据权利要求4所述的基于词分离和自适应的跨域人脸表示攻击检测方法，其特征在于，所述的相似性计算公式为：

其中，

表示真实人脸图像中第k个聚类下的NetVLAD表示，

表示待检测人脸图像中第k个聚类下的NetVLAD表示；x₁表示真实人脸图像，x₂表示待检测人脸图像，f_i表示第i个局部特征，f_j表示第j个局部特征，r_i,k表示第i个局部特征对第k个聚类质心的残差，r_j,k表示第j个局部特征对第k个聚类质心的残差；<.>表示距离计算。

6.一种基于词分离和自适应的跨域人脸表示攻击检测系统，其特征在于，用于实现权利要求1所述的跨域人脸表示攻击检测方法。