CN117197857A

CN117197857A - 人脸伪造攻击检测、人脸识别方法、装置和设备

Info

Publication number: CN117197857A
Application number: CN202310507010.3A
Authority: CN
Inventors: 武文琦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-12-08

Abstract

本说明书实施例公开了一种人脸伪造攻击检测、人脸识别方法、装置和设备，所述人脸伪造攻击检测方法可对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；针对所述视频帧序列中的任一视频帧，将该视频帧输入第一特征嵌入模型，得到该视频帧的第一特征，并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征；基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征；将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果。

Description

人脸伪造攻击检测、人脸识别方法、装置和设备

技术领域

本文件涉及计算机技术领域，尤其涉及一种人脸伪造攻击检测、人脸识别方法、装置和设备。

背景技术

近年来，AI换脸成了一个热门的娱乐项目，市面上也出现了一些能够提供AI换脸服务的应用程序(Application，APP)，降低了AI换脸的门槛。

然而，AI换脸技术在给人们提供娱乐便利的同时，也给基于人脸识别的网络安全系统带来了风险。例如，利用AI换脸技术伪造人脸攻击人脸识别系统，从而进行谋利。因此，亟需提出一种人脸伪造攻击检测技术，以准确地发现人脸伪造攻击。

发明内容

本说明书实施例提供了一种人脸伪造攻击检测、人脸识别方法、装置和设备，以准确地检测视频中是否存在人脸伪造攻击。

为解决上述技术问题，本说明书实施例是这样实现的：

第一方面，提出了一种人脸伪造攻击检测方法，包括：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

针对所述视频帧序列中的任一视频帧，将该视频帧输入第一特征嵌入模型，得到该视频帧的第一特征，并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征；

基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征；

将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果。

第二方面，提出了一种人脸识别方法，包括：

获取待识别用户的人脸视频；

基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；

若包含，则确定针对所述待识别用户的人脸识别不通过。

第三方面，提出了一种人脸伪造攻击检测装置，包括：

预处理模块，对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

特征嵌入模块，针对所述视频帧序列中的任一视频帧，将该视频帧输入第一特征嵌入模型，得到该视频帧的第一特征，并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征；

特征融合模块，基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征；

分类模块，将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果。

第四方面，提出了一种人脸识别装置，包括：

视频获取模块，获取待识别用户的人脸视频；

人脸伪造检测模块，基于如第一方面所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；

确定模块，在所述人脸视频中包含人脸伪造的情况下，确定针对所述待识别用户的人脸识别不通过。

第五方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

第六方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

第七方面，提出了一种电子设备，包括：

处理器；以及

获取待识别用户的人脸视频；

若包含，则确定针对所述待识别用户的人脸识别不通过。

第八方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取待识别用户的人脸视频；

若包含，则确定针对所述待识别用户的人脸识别不通过。

本说明书实施例提供的以上至少一个技术方案，在将待检测视频拆分生成视频帧序列后，先通过第一特征嵌入模型提取出视频帧序列中各视频帧的第一特征，然后将第一特征输入具有自我注意力机制的第二特征嵌入模型，提取得到能够体现视频帧中的纹理细节信息的第二特征，再对视频帧序列中各视频帧的第二特征进行融合，可得到更有利于区分真实人脸和人脸伪造的融合特征，从而实现准确检测待检测视频中是否存在人脸伪造攻击的检测结果，进而可以预防遭受人脸伪造攻击。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1是本说明书实施例提供的一种人脸伪造攻击检测方法的流程示意图。

图2是本说明书实施例提供的一种人脸伪造攻击检测方法的原理示意图之一。

图3是本说明书实施例提供的一种人脸伪造攻击检测方法的原理示意图之二。

图4是本说明书实施例提供的第二特征嵌入模型的输入特征示意图。

图5是本说明书实施例提供的一种人脸识别方法的流程示意图。

图6是本说明书一个实施例提供的一种电子设备的结构示意图。

图7是本说明书一实施例提供的一种人脸伪造攻击检测装置的结构示意图。

图8是本说明书一实施例提供的一种人脸识别装置的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

为了准确地检测视频中是否存在人脸伪造，从而预防人脸伪造攻击，本说明书实施例提出了一种人脸伪造攻击检测方法和装置，该方法和装置可以由电子设备执行，或者由安装在电子设备中的软件或硬件设备执行。这里的电子设备包括但不限于终端设备和服务器，所述终端设备包括但不限于：智能手机、个人电脑(personal computer，PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种，所述服务器包括但不限于：单台服务器、多台服务器、服务器集群以及云服务器中的任一种。

下面先对本说明书实施例提供的一种人脸伪造攻击检测方法进行介绍。

如图1所示，本说明书实施例提出的一种人脸伪造攻击检测方法，可包括：

步骤102、对包含人脸的待检测视频进行拆帧处理，生成视频帧序列。

例如，对于包含n+1帧的待检测视频，将其拆帧处理得到的视频帧序列可表示为：T0、T1、T2、……、Tn，其中，0至n表示视频帧在待检测视频中的时序。

步骤104、针对所述视频帧序列中的任一视频帧，将该视频帧输入第一特征嵌入模型，得到该视频帧的第一特征，并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

其中，第一特征嵌入模型和第二特征嵌入模型为图像特征提取模型。在本说明书实施例中，第一特征嵌入模型可以看作是基础网络(backbone)，第二特征嵌入模型可以看作是特征增强网络。具体的，第一特征嵌入模型可以是残差网络(ResNet)、Inception和孪生网络中的任一网络。由于残差网络中包含残差结构，而残差结构可以有效地增强特征的表达能力，因此，第一特征嵌入模型可以是残差网络，具体可以是ResNet18。第二特征嵌入模型可以是具有自我注意力机制(self-attention)的特征嵌入模型，例如Transformer。

上述第一特征嵌入模型和上述第二特征嵌入模型是预先训练得到的。可选的，在训练上述第一特征嵌入模型和上述第二特征嵌入模型时，除了采用交叉熵等一般的损失函数，还可以采用三元组损失函数(Triplet loss)作为损失函数来判断模型是否达到收敛，因为Triplet loss引入对比学习的思想，所以可以更好地拉大两个类别之间的特征距离，即可以扩大真实人脸和人脸伪造两个类别的类间距离，从而更好的对第一特征嵌入模型和上述第二特征嵌入模型的学习过程进行约束。

本说明书实施例中的步骤104，旨在先利用第一特征嵌入模型(如ResNet18)提取出视频帧中的基础特征(第一特征)，然后再通过具有自我注意力机制的第二特征嵌入模型(如Transformer)进一步优化视频帧的特征表达，提取得到能够体现视频帧中的纹理细节信息(人脸内细节和人脸轮廓细节)的第二特征，以便于更好地区分真实人脸和伪造人脸。

图2和图3分别示出了本说明书实施例提供的一种人脸伪造攻击检测方法的两个实现原理示意图。从图2和图3可以看出，将待检测视频进行拆帧处理得到视频帧序列以后，可以将视频帧序列中的视频帧逐一输入第一特征嵌入模型，得到各视频帧对应的第一特征；而对于各视频帧的第二特征的提取，至少存在如下两种方式：

第一种方式

如图2所示，直接将视频帧序列中各视频帧的第一特征分别对应输入第二特征嵌入模型，得到视频帧序列中各视频帧的第二特征。也即，所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，包括：将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

进一步的，在上述第一种方式中，在所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征前，所述方法还可以包括：获取该视频帧的人工提取特征；相应的，所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，可包括：将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。其中，一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature，比如直方图、hog特征等。

第二种方式

如图3所示，在步骤104前，先将所述待检测视频输入视频描述生成模块，得到所述待检测视频中各视频帧的内容描述文本；将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型，得到所述待检测视频中各视频帧的文本特征；然后，将视频帧序列中各视频帧的第一特征和文本特征分别对应输入第二特征嵌入模型，得到视频帧序列中各视频帧的第二特征。也即，所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，包括：将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

其中，视频描述生成模块可以是video caption，文本特征嵌入模型可以是生成型预训练变换器3(Generative Pre-trained Transformer 3，GPT3)，当然，文本特征嵌入模型还可以是其他自然语言处理模型(Natural Language Processing,NLP)。

进一步的，在所述第二特征嵌入模型为Transformer的情况下，所述将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，包括：该视频帧的第一特征输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征。需要说明的，关于Transformer的结构以及query的含义请参考相关技术，本说明书不再赘述。

图4示出了本说明书实施例提供的第二特征嵌入模型的输入特征示意图。参考图4可知，第二特征嵌入模型的输入包括视频帧的第一特征和文本特征的融合(Concat)，例如，对于视频帧T0，其第一特征可以表示为I0，其文本特征可表示为T0_t，那么视频帧T0对应的第二特征嵌入模型的输入包括I0与T0_t的融合，具体可以表示为I0-T0_t，对于其他视频帧，以此类推，不再赘述。

可以看出，在上述第二种方式中，在确定视频帧的第二特征时，除了视频帧的图像特征(第一特征)外，还引入了视频帧的文本特征，实现了图文特征的融合，因此可以从视频内容理解的角度提升人脸伪造攻击的检测效果。

可选的，在上述第二种方式中，在所述该视频帧的第一特征输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征前，所述方法还可以包括：获取该视频帧的人工提取特征；相应的，所述该视频帧的第一特征输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征，可包括：将该视频帧的第一特征和人工提取特征融合后输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征。同样的，一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature，比如直方图、hog特征等。

可以理解，无论是在上述第一种方式中，还是在上述第二种方式中，引入人工提取特征工后，可以进一步增强图像纹理差异性上的区别，从而可以进一步提升人脸伪造攻击的检测效果。

步骤106、基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征。

基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征的方式也有很多种，下面列举三种。

第一种方式

将所述视频帧序列中的视频帧的第二特征进行拼接(Concat)，得到所述待检测视频的融合特征。可以理解，由于视频帧的第二特征能体现视频帧中的纹理细节信息(如人脸内细节和人脸轮廓细节)，因此，对视频帧序列中的各视频帧第二特征进行拼接得到的融合特征，能够从人脸细节方面识别出真实人脸和伪造人脸。

第二种方式

由于在视频人脸伪造攻击检测任务中，人脸伪造中的缺陷区域除了体现在人脸内细节和轮廓细节的突变(第二特征本身)外，还可能体现在视频帧间某些敏感区域的突变，因此，若能提取到如上两种特征，则可以更准确地检测出人脸伪造攻击。

具体的，如图2或图3所示，将所述视频帧序列中的视频帧的第二特征进行拼接，得到所述待检测视频的基础空间特征；基于所述视频帧序列中相邻两个视频帧的第二特征，确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到)，并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接，得到所述待检测视频的时序空间特征(时序纹理增强信息)；将所述基础空间特征和所述时序空间特征进行融合(如Concat)，得到所述待检测视频的融合特征。

不难看出，上述第二种方式，一方面通过第二特征嵌入模型的self-attention机制提取单帧图像中的纹理细节信息(基础空间特征)，另一方面通过确定帧间差异获得待检测视频的时序纹理增强信息(时序空间特征)，最后再对这两部分特征进行融合，得到更有利于区分真实人脸视频和人脸伪造视频的特征，因此可以更好地提升人脸伪造攻击的检测效果。

第三种方式

除了体现纹理细节信息的基础空间特征和体现时序纹理增强信息的时序空间特征外，还可以通过引入待检测视频的文本特征，进一步实现图文特征的融合，以从视频内容理解的角度进一步提升人脸伪造攻击的检测效果。

具体的，如图2或图3所示，可以先将所述视频帧序列中的视频帧的第二特征进行拼接(具体的，将所述视频帧序列中相邻两个视频帧的第二特征按序拼接)，得到所述待检测视频的基础空间特征；然后基于所述视频帧序列中相邻两个视频帧的第二特征，确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到)，并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接，得到所述待检测视频的时序空间特征；最后将所述基础空间特征和所述时序空间特征和所述待检测视频的文本特征(或所述待检测视频中各视频帧的文本特征，即整个待检测视频的文本特征)进行融合，得到所述待检测视频的融合特征。

同样的，如图3所示，所述待检测视频的文本特征可在下述步骤108前，通过如下方式获得：将所述待检测视频输入视频描述生成模块，得到所述待检测视频的内容描述文本；将所述内容描述文本输入文本特征嵌入模型，得到所述待检测视频的文本特征。可以理解，此处是将整个待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合。

需要说明的是，在本说明书实施例中，出现了两次图文特征的融合(如图3中的虚线箭头所指)，第一次是将待检测视频中各视频帧的文本特征作为第二特征嵌入模型的输入，第二次是将待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合，在具体实现时，可以将这两次融合择一引入本说明书实施例提供的一种人脸伪造攻击检测方法中，也可以将这两次融合均引入本说明书实施例提供的一种人脸伪造攻击检测方法中。

步骤108、将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果。

其中，所述分类模型也是预先训练得到的，所述分类模型可以是任何分类模型，例如逻辑回归模型softmax。如图2或图3所示，所述分类模型的输出为所述待检测视频中的人脸为真实人脸或人脸伪造，即得到所述待检测视频是否存在人脸伪造攻击的检测结果。

本说明书实施例提供的一种人脸伪造攻击检测方法，在将待检测视频拆分生成视频帧序列后，先通过第一特征嵌入模型提取出视频帧序列中各视频帧的第一特征，然后将第一特征输入具有自我注意力机制的第二特征嵌入模型，提取得到能够体现视频帧中的纹理细节信息的第二特征，再对视频帧序列中各视频帧的第二特征进行融合，可得到更有利于区分真实人脸和人脸伪造的融合特征，从而实现准确检测待检测视频中是否存在人脸伪造攻击的检测结果，进而可以预防遭受人脸伪造攻击。

可选的，本说明书实施例提供的一种人脸伪造攻击检测方法，一方面通过第二特征嵌入模型的self-attention机制提取单帧图像中的纹理细节信息(基础空间特征)，另一方面通过确定帧间差异获得待检测视频的时序纹理增强信息(时序空间特征)，最后再对这两部分特征进行融合，得到更有利于区分真实人脸视频和人脸伪造视频的特征，因此可以更好地提升人脸伪造攻击的检测效果。

可选的，本说明书实施例提供的一种人脸伪造攻击检测方法，除了视频帧的图像特征(第一特征)外，还引入了视频帧的文本特征，实现了图文特征的融合，因此可以从视频内容理解的角度提升人脸伪造攻击的检测效果。

可选的，本说明书实施例提供的一种人脸伪造攻击检测方法，引入人工提取特征工后，可以进一步增强图像纹理差异性上的区别，从而可以进一步提升人脸伪造攻击的检测效果。

在上述一种人脸伪造攻击检测方法的基础上，本说明书实施例还提出了一种人脸识别方法，以防止基于人脸识别的认证系统遭受人脸伪造攻击，下面进行简要说明。

如图5所示，本说明实施例提出的一种人脸识别方法，可以包括：

步骤502、获取待识别用户的人脸视频。

步骤504、基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；若为是执行步骤506。

也就是说，将所述人脸视频作为待检测视频进行检测，以确认所述人脸视频中是否包含人脸伪造。

步骤506、确定针对所述待识别用户的人脸识别不通过。

可选的，若步骤504的检测结果为所述人脸视频中不包含人脸伪造，则进行下一步的人脸比对环节，以做出身份认证是否通过的结论。

可以理解，若检测到用于人脸识别的人脸视频中包含人脸伪造，说明可能有非法用户在尝试通过人脸伪造欺骗人脸识别系统，企图通过人脸伪造视频欺骗人脸识别系统通过身份认证，从而实现非法目的。但是通过本说明书实施例提供的人脸识别方法，不仅可以准确地检测人脸伪造攻击，还可以在检测出人脸伪造攻击后，给出人脸识别不通过的识别结果，从而阻断进一步地身份认证，最终可以避免人脸伪造攻击得逞，保护了使用该人脸识别系统的业务系统的安全。

以上对本说明书提供的方法进行了说明，下面对本说明书提供的电子设备进行介绍。

图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成人脸伪造攻击检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成人脸识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取待识别用户的人脸视频；

基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；

若包含，则确定针对所述待识别用户的人脸识别不通过。

上述如本说明书图1或图5所示实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1或图5所示的实施例提供的方法，本说明书不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1示实施例的方法，并具体用于执行以下操作：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图5所示实施例的方法，并具体用于执行以下操作：

获取待识别用户的人脸视频；

若包含，则确定针对所述待识别用户的人脸识别不通过。

下面对本说明书实施例提供的装置进行说明。

如图7所示，本说明书的一个实施例提供了一种人脸伪造攻击检测装置700，在一种软件实施方式中，装置700可包括：预处理模块701、特征嵌入模块702、特征融合模块703和分类模块704。

预处理模块701，对包含人脸的待检测视频进行拆帧处理，生成视频帧序列。

特征嵌入模块702，针对所述视频帧序列中的任一视频帧，将该视频帧输入第一特征嵌入模型，得到该视频帧的第一特征，并将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

上述第一特征嵌入模型和上述第二特征嵌入模型是预先训练得到的。可选的，在训练上述第一特征嵌入模型和上述第二特征嵌入模型时，除了采用交叉熵等一般的损失函数，还可以采用三元组损失函数(Triplet loss)作为损失函数来判断模型是否达到收敛，因为Triplet loss引入对比学习的思想，所以可以更好地拉大两个类别之间的特征距离，即可以扩大真实人脸和伪造人脸两个类别的类间距离，从而更好的对第一特征嵌入模型和上述第二特征嵌入模型的学习过程进行约束。

本说明书实施例中的特征嵌入模块702，旨在先利用第一特征嵌入模型(如ResNet18)提取出视频帧中的基础特征(第一特征)，然后再通过具有自我注意力机制的第二特征嵌入模型(如Transformer)进一步优化视频帧的特征表达，提取得到能够体现视频帧中的纹理细节信息(人脸内细节和人脸轮廓细节)的第二特征，以便于更好地区分真实人脸和人脸伪造。

具体的，特征嵌入模块702可以将视频帧序列中的视频帧逐一输入第一特征嵌入模型，得到各视频帧对应的第一特征；而对于各视频帧的第二特征的提取，至少存在如下两种方式：

第一种方式

特征嵌入模块702，可将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

进一步的，在上述第一种方式中，装置700还可以包括：人工特征获取模块，以在将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征前，获取该视频帧的人工提取特征；相应的，特征嵌入模块702，可将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。其中，一个视频帧对应的人工提取特征可以包括但不限于handcraftedfeature，比如直方图、hog特征等。

第二种方式

装置700还可以包括：文本生成模块和文本特征提取模块。

文本生成模块，将所述待检测视频输入视频描述生成模块，得到所述待检测视频中各视频帧的内容描述文本。

文本特征提取模块，将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型，得到所述待检测视频中各视频帧的文本特征。

相应的，特征嵌入模块702，可将视频帧序列中各视频帧的第一特征和文本特征分别对应输入第二特征嵌入模型，得到视频帧序列中各视频帧的第二特征。

进一步的，在所述第二特征嵌入模型为Transformer的情况下，特征嵌入模块702，可将该视频帧的第一特征输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征。需要说明的，关于Transformer的结构以及query的含义请参考相关技术，本说明书不再赘述。

可选的，在上述第二种方式中，装置700还可以包括：人工特征获取模块，以获取该视频帧的人工提取特征；相应的，特征嵌入模块702，可将该视频帧的第一特征和人工提取特征融合后输入所述第二特征嵌入模型，并将该视频帧的文本特征以query(查询)的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征。同样的，一个视频帧对应的人工提取特征可以包括但不限于handcrafted feature，比如直方图、hog特征等。

特征融合模块703，基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征。

具体的，特征融合模块703基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征的方式也有很多种，下面列举三种。

第一种方式

第二种方式

具体的，将所述视频帧序列中的视频帧的第二特征进行拼接，得到所述待检测视频的基础空间特征；基于所述视频帧序列中相邻两个视频帧的第二特征，确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到)，并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接，得到所述待检测视频的时序空间特征(时序纹理增强信息)；将所述基础空间特征和所述时序空间特征进行融合(如Concat)，得到所述待检测视频的融合特征。

第三种方式

具体的，可以先将所述视频帧序列中的视频帧的第二特征进行拼接(具体的，将所述视频帧序列中相邻两个视频帧的第二特征按序拼接)，得到所述待检测视频的基础空间特征；然后基于所述视频帧序列中相邻两个视频帧的第二特征，确定所述相邻两个视频帧之间的帧间差异特征(可以通过对相邻两个视频帧的第二特征求差得到)，并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接，得到所述待检测视频的时序空间特征；最后将所述基础空间特征和所述时序空间特征和所述待检测视频的文本特征(或所述待检测视频中各视频帧的文本特征，即整个待检测视频的文本特征)进行融合，得到所述待检测视频的融合特征。

同样的，装置700还可以包括：文本生成模块和文本特征提取模块。

文本生成模块，将所述待检测视频输入视频描述生成模块，得到所述待检测视频的内容描述文本。

文本特征提取模块，将所述内容描述文本输入文本特征嵌入模型，得到所述待检测视频的文本特征。

可以理解，此处是将整个待检测视频的文本特征作为全局特征与所述基础空间特征以及所述时序空间特征进行融合。

分类模块704，将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果。

其中，所述分类模型也是预先训练得到的，所述分类模型可以是任何分类模型，例如逻辑回归模型softmax。

需要说明的是，人脸伪造攻击检测装置700能够实现图1提供的一种人脸伪造攻击检测方法，并能取得相同的技术效果，详细内容可参考上文对方法实施例部分的描述，不再赘述。

如图8所示，本说明书的一个实施例提供了一种人脸识别装置800，在一种软件实施方式中，装置800可包括：视频获取模块801、人脸伪造检测模块802和确定模块803。

视频获取模块801，获取待识别用户的人脸视频。

人脸伪造检测模块802，基于本说明书实施例提供的一种人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造。

确定模块803，在所述人脸视频中包含人脸伪造的情况下，确定针对所述待识别用户的人脸识别不通过。

需要说明的是，人脸伪造攻击检测装置800能够实现图5提供的一种人脸识别方法，并能取得相同的技术效果，详细内容可参考上文对方法实施例部分的描述，不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一字符可以是一个，也可以是多个。

还需要说明的是，术语”包括”、”包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句”包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种人脸伪造攻击检测方法，包括：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

2.根据权利要求1所述的方法，在所述将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果前，所述方法还包括：

将所述待检测视频输入视频描述生成模块，得到所述待检测视频中各视频帧的内容描述文本；

将所述待检测视频中各视频帧的内容描述文本输入文本特征嵌入模型，得到所述待检测视频中各视频帧的文本特征；

其中，所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，包括：

将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

3.根据权利要求2所述的方法，在所述第二特征嵌入模型为Transformer的情况下，所述将该视频帧的第一特征和该视频帧的文本特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征，包括：

将该视频帧的第一特征输入所述第二特征嵌入模型，并将该视频帧的文本特征以query的方式输入所述第二特征嵌入模型，得到该视频帧的第二特征。

4.根据权利要求2或3所述的方法，其中，所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征，包括：

将所述视频帧序列中的视频帧的第二特征进行拼接，得到所述待检测视频的基础空间特征；

基于所述视频帧序列中相邻两个视频帧的第二特征，确定所述相邻两个视频帧之间的帧间差异特征，并将所述视频帧序列中相邻两个视频帧之间的帧间差异特征按序拼接，得到所述待检测视频的时序空间特征；

将所述基础空间特征、所述时序空间特征和所述待检测视频中各视频帧的文本特征进行融合，得到所述待检测视频的融合特征。

5.根据权利要求1-3任一项所述的方法，其中，所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征，包括：

将所述基础空间特征和所述时序空间特征进行融合，得到所述待检测视频的融合特征。

6.根据权利要求1所述的方法，在所述将所述融合特征输入分类模型，得到所述待检测视频是否存在人脸伪造攻击的检测结果前，所述方法还包括：

将所述待检测视频输入视频描述生成模块，得到所述待检测视频的内容描述文本；

将所述内容描述文本输入文本特征嵌入模型，得到所述待检测视频的文本特征；

其中，所述基于所述视频帧序列中的视频帧的第二特征确定所述待检测视频的融合特征，包括：

将所述基础空间特征、所述时序空间特征和所述文本特征进行融合，得到所述待检测视频的融合特征。

7.根据权利要求1所述的方法，在所述将该视频帧的第一特征输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征前，所述方法还包括：

获取该视频帧的人工提取特征；

将该视频帧的第一特征和人工提取特征融合后输入具有自我注意力机制的第二特征嵌入模型，得到该视频帧的第二特征。

8.根据权利要求1-3、6-7任一项所述的方法，

训练所述第一特征嵌入模型和所述第二特征嵌入模型时所采用的损失函数包括：三元组损失函数。

9.根据权利要求1-3、6-7任一项所述的方法，所述第一特征嵌入模型包括下述一项：

残差网络；

Inception；

孪生网络。

10.根据权利要求1-2、6-7任一项所述的方法，

所述第二特征嵌入模型为Transformer。

11.一种人脸识别方法，包括：

获取待识别用户的人脸视频；

基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；

若包含，则确定针对所述待识别用户的人脸识别不通过。

12.一种人脸伪造攻击检测装置，包括：

13.一种人脸识别装置，包括：

视频获取模块，获取待识别用户的人脸视频；

人脸伪造检测模块，基于如权利要求1-10任一项所述的人脸伪造攻击检测方法检测所述人脸视频中是否包含人脸伪造；

14.一种电子设备，包括：

处理器；以及

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

15.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

对包含人脸的待检测视频进行拆帧处理，生成视频帧序列；

16.一种电子设备，包括：

处理器；以及

获取待识别用户的人脸视频；

若包含，则确定针对所述待识别用户的人脸识别不通过。

17.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

获取待识别用户的人脸视频；

若包含，则确定针对所述待识别用户的人脸识别不通过。