CN115953709A

CN115953709A - 对抗攻击的检测方法和系统

Info

Publication number: CN115953709A
Application number: CN202211537847.4A
Authority: CN
Inventors: 曹佳炯; 丁菁汀
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-04-11

Abstract

本说明书提供的对抗攻击的检测方法和系统，在获取目标用户的目标用户视频后，将目标用户视频中的多帧用户视频帧分别与目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定目标用户对应的比对波动特征，该比对波动特征包括不同用户视频帧与所述预设用户图像的同一图像区块之间的比对差异波动的特征，以及基于比对信息与比对波动特征，确定目标用户的对抗攻击检测结果，并输出对抗攻击检测结果；该方案可以提升对抗攻击的检测准确率。

Description

对抗攻击的检测方法和系统

技术领域

本说明书涉及图像识别领域，尤其涉及一种对抗攻击的检测方法和系统。

背景技术

近年来，随着互联网技术的飞速发展，面部识别的应用范围也越来越广泛。在面部识别过程那个，对抗攻击由于其隐蔽性，是安全风险最高的对攻手段之一。以人脸识别为例，所谓对抗攻击指在人脸区域粘贴对抗贴纸或者戴对抗眼镜等攻击手段，使得人脸识别系统发生误判(比如，A用户粘贴对抗贴纸后，被错误识别为B用户)的攻击手段。现有的对抗攻击的检测方法往往采用分类模型进行对抗攻击检测或者基于预处理/重建的对抗攻击无效化方式进行对抗攻击检测。

在对现有技术的研究和实践过程中，本申请的发明人发现采用分类模型进行对抗攻击检测时，针对攻击元素面部较小的攻击难以精准检测，而基于对抗攻击无效化的方式在对抗元素进行无效化时，对正常样本也会进行预处理，从而影响了正常样本在后续面部识别中的成功率，因此，导致对抗攻击的检测准确率较低。

发明内容

本说明书提供一种准确率更高的对抗攻击的检测方法和系统。

第一方面，本说明书提供一种对抗攻击的检测方法，包括：获取目标用户的目标用户视频，所述目标用户视频包括多帧用户视频帧；将所述多帧用户视频帧分别与所述目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定所述目标用户对应的比对波动特征，所述比对波动特征包括不同用户视频帧与所述预设用户图像的同一图像区块之间的比对信息波动的特征；以及基于所述比对信息与所述比对波动特征，确定所述目标用户的对抗攻击检测结果，并输出所述对抗攻击检测结果。

在一些实施例中，所述获取目标用户的目标用户视频，包括：获取所述目标用户的初始用户视频，所述初始用户视频包括所述目标用户完成至少一个目标动作后采集的用户视频；对所述初始用户视频进行人脸检测，并对所述初始用户视频进行人脸校准；以及在所述初始用户视频的所述人脸检测和所述人脸校准通过时，在所述初始用户视频中提取出预设位置的所述多帧用户视频帧，得到所述目标用户视频。

在一些实施例中，所述获取所述目标用户的初始用户视频，包括：在预设动作类型集合中选取出目标动作类型；展示所述目标动作类型对应的动作提示信息，以便所述目标用户基于所述动作提示信息完成所述目标动作类型对应的至少一个目标动作；以及采集所述目标用户在完成所述至少一个目标动作的实时视频，得到所述初始用户视频。

在一些实施例中，所述目标动作类型包括摇头、眨眼、点头、张嘴或皱眉中的至少一种。

在一些实施例中，所述采集所述目标用户在完成所述至少一个目标动作的实时视频，得到所述初始用户视频，包括：采集所述目标用户的实时视频，并在所述实时视频中识别出当前动作；以及在所述当前动作包括所述至少一个目标动作时，停止采集所述实时视频，并将所述实时视频作为所述初始用户视频。

在一些实施例中，所述将所述多帧用户视频帧分别与所述目标用户的预设用户图像进行分块比对，包括：采用分块比对模型分别对所述多帧用户视频帧和所述目标用户的预设用户图像进行分块特征提取，得到所述图像区块对应的区域特征集合；在所述区域特征集合中选取出同一所述图像区块分别对应的目标区域特征和对照区域特征，所述目标区域特征为所述多帧用户视频帧对应的区域特征，所述对照区域特征为所述预设用户图像对应的区域特征；以及将所述目标区域特征和所述对照区域特征进行比对，以得到所述比对信息。

在一些实施例中，所述采用分块比对模型分别对所述多帧用户视频帧和所述目标用户的预设用户图像进行分块特征提取，得到所述图像区块对应的区域特征集合，包括：将所述多帧用户视频帧中每一用户视频帧和所述预设用户图像分割为第一预设数量的所述图像区块；采用所述分块比对模型分别对所述每一用户视频帧和所述预设用户图像进行特征提取，以及基于提取出的特征图谱分别选取出每一所述图像区块对应的目标特征图谱，并对所述目标特征图谱进行特征编码，得到所述区域特征集合。

在一些实施例中，所述将所述目标区域特征和所述对照区域特征进行对比，以得到比对信息，包括：将所述目标区域特征和所述对照区域特征进行对比，得到所述目标区域特征对应的目标图像区块的比对值，所述比对值表征所述多个用户视频帧的目标图像区块与所述预设用户图像中对应的所述目标图像区块之间相似程度；将所述多个用户视频帧帧中同一用户视频帧的目标图像区块的比对值进行融合，得到所述多个用户视频帧中每一用户视频帧对应的子比对信息；以及将所述每一用户视频帧对应的子比对信息作为所述比对信息。

在一些实施例中，所述分块比对模型的训练过程包括以下步骤：获取第一用户样本的用户图像样本，并将所述用户图像样本分割为第二预设数量的样本图像区块；将所述用户图像样本输入至预设分块比对模型，以得到每一所述样本图像区块对应的第一预测用户类别和区块相似度信息，所述区块相似度信息包括所述样本图像区块之间的特征相似度；以及基于所述第一预测用户类别和区块相似度信息，确定所述用户图像样本的分块比对损失信息，并基于所述分块比对损失信息对所述预设分块比对模型进行收敛，得到所述分块比对模型。

在一些实施例中，所述预设分块比对模型包括特征图谱提取网络、分块特征编码网络和对比学习网络；以及所述将所述用户图像样本输入至预设分块比对模型，以得到每一所述样本图像区块对应的第一预测用户类别和区块相似度信息，包括：采用所述特征图谱提取网络对所述用户图像样本进行特征提取，得到所述用户图像样本的样本特征图谱，采用所述分块特征编码网络对所述样本特征图谱中每一所述样本图像区块对应的特征图谱进行特征编码，得到每一所述样本图像区块对应的样本区域特征，以及将所述样本区域特征输入至所述对比学习网络，以得到所述样本区域特征之间的区块相似度信息和每一所述样本图像区块的第一预测用户类别。

在一些实施例中，所述基于所述第一预测用户类别和区块相似度信息，确定所述用户图像样本的分块比对损失信息，包括：获取所述用户图像样本的第一标注用户类别，并将所述第一预测用户类别与所述第一标注用户类别进行对比，以得到区块分类损失信息；基于所述区块相似度信息，确定每一所述样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息，所述邻域一致性损失信息的约束条件为约束相邻的样本图像区块的样本区域特征之间的相似度在预设相似度范围内；以及将所述区块分类损失信息与所述邻域一致性损失信息进行融合，得到所述用户图像样本的分块比对损失信息。

在一些实施例中，所述基于所述区块相似度信息，确定每一所述样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息，包括：在所述样本图像区块中选取出每一所述样本图像区块对应的相邻样本图像区块；在所述区块相似度信息中提取出每一所述样本图像区块与对应的所述相邻样本图像区块之间的目标区块相似度；以及基于所述目标区块相似度，确定每一所述样本图像区块对应的邻域一致性损失信息。

在一些实施例中，所述比对信息包括所述多帧用户视频帧中每一用户视频帧与所述预设用户图像之间的子比对信息；以及所述基于得到的比对信息，确定所述目标用户对应的比对波动特征，包括：基于所述每一用户视频帧的时序信息，确定相邻的所述用户视频帧之间的所述子比对信息的差值，得到比对差值信息，以及采用所述对比波动检测模型的波动编码网络对所述对比差值信息进行特征编码，得到所述目标用户对应的比对波动特征。

在一些实施例中，所述基于所述比对信息与所述比对波动特征，确定所述目标用户的对抗攻击检测结果，包括：将所述比对信息和所述比对波动特征分别输入至所述比对波动检测模型，以得到所述目标用户的对抗攻击概率；以及在所述对抗攻击概率大于预设概率阈值时，确定所述目标用户为对抗攻击用户，并将所述对抗攻击用户作为所述对抗攻击检测结果。

在一些实施例中，所述比对波动检测模型还包括比对编码网络和对抗攻击检测网络；以及所述将所述比对信息和所述比对波动特征分别输入至所述比对波动检测模型，以得到所述目标用户的对抗攻击概率，包括：采用所述对比编码网络对所述比对信息进行特征编码，得到比对特征，采用所述对抗攻击检测网络将所述比对特征和所述比对波动特征进行特征融合，得到对抗攻击分类特征，以及基于所述对抗攻击分类特征，确定所述目标用户的对抗攻击概率。

在一些实施例中，所述比对波动检测模型的训练过程包括以下步骤：获取第二用户样本的比对信息样本和所述比对信息样本对应的比对差值信息样本；将所述对比信息样本和所述比对差值信息样本分别输入至预设比对波动检测模型，得到预测对抗攻击概率；以及基于所述预测对抗攻击概率，对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型。

在一些实施例中，所述基于所述预测对抗攻击概率，对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型，包括：基于所述预测对抗攻击概率，确定所述第二用户样本的第二预测用户类别；获取所述第二用户样本的第二标注用户类别，并将所述第二预测用户类别与所述第二标注用户类别进行对比，以得到波动分类损失信息；以及基于所述波动分类损失信息对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型。

第二方面，本说明书还提供一种对抗攻击的检测系统，包括：至少一个存储介质，存储有至少一个指令集，用于进行对抗攻击的检测；以及至少一个处理器，同所述至少一个存储介质通信连接，其中，当所述对抗攻击的检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的对抗攻击的检测方法。

由以上技术方案可知，本说明书提供的对抗攻击的检测方法和系统，在获取目标用户的目标用户视频后，该目标用户视频包括多帧用户视频帧，将多帧用户视频帧分别与目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定目标用户对应的比对波动特征，该比对波动特征包括不同用户视频帧与所述预设用户图像的同一图像区块之间的比对差异波动的特征，以及基于比对信息与比对波动特征，确定目标用户的对抗攻击检测结果，并输出对抗攻击检测结果；由于该方案可以将用户视频帧与预设用户图像进行分块对比，从而得到细粒度的比对信息，从而应对不同面积大小的攻击元素，而且，基于对比信息确定出比对波动特征，并通过对比波动特征和比对信息进行对抗攻击检测，无需对输入的样本进行处理，从而可以保证正常样本的检测性能，因此，可以提升对抗攻击的检测准确率。

本说明书提供的对抗攻击的检测方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的对抗攻击的检测方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种对抗攻击的检测系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图；

图3示出了根据本说明书的实施例提供的一种对抗攻击的检测方法流程图；以及

图4示出了根据本说明书的实施例提供的一种人脸识别场景下对抗攻击检测的整体流程示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，本说明书将对以下描述将会出现的术语进行如下解释：

随机动作：在本方案中，指在人脸认证阶段，提示用户配合完成各类动作(比如眨眼、点头、摇头等等)，完成动作的类型每次随机生成。

比对分波动分析：在本方案中，指分析动作的各个阶段中，人脸图像比对信息的波动情况。一般而言，相比正常样本，对抗攻击的比对信息波动会更大。

对抗攻击：指在人脸区域粘贴对抗贴纸或者其他对抗元素(面积较小，一般在人脸的50％以下)，从而使得人脸识别系统发生误判的攻击手段(比如A用户粘贴对抗贴纸后，被错误识别为B用户)。

在对本说明书具体实施例说明之前，先对本说明书的应用场景进行如下介绍：

本说明书提供的对抗攻击的检测方法可以应用在任意的对抗攻击检测场景中，比如，在人脸支付或人脸识别等场景中，可以通过本说明书的对抗攻击的检测方法对采集的待支付或待识别的目标用户的在完成随机动作下采集到的目标用户视频进行对抗攻击的检测；在身份验证场景中，可以通过本说明书的对抗攻击的检测方法对采集的目标用户视频进行对抗攻击检测；还可以应用在任意的对抗攻击检测场景中，在此就不再一一赘述。

本领域技术人员应当明白，本说明书所述的活体检测方法和系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种对抗攻击的检测系统001的应用场景示意图。对抗攻击的检测系统001(以下简称系统001)可以应用于任意场景的对抗攻击的检测，比如，人脸支付场景下的对抗攻击的检测、人脸识别场景下的对抗攻击的检测、身份验证场景下的对抗攻击的检测，等等，如图1所示，系统001可以包括用户100、客户端200、服务器300以及网络400。

用户100可以为触发对目标用户的目标用户视频进行对抗攻击检测的用户，用户100可以在客户端200进行对抗攻击的检测操作。

客户端200可以为响应于用户100的对抗攻击的检测操作采集目标用户完成随机动作下的目标用户视频并进行对抗攻击检测的设备。在一些实施例中，所述对抗攻击的检测方法可以在客户端200上执行。此时，客户端200可以存储有执行本说明书描述的对抗攻击的检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示，客户端200可以与服务器300进行通信连接。在一些实施例中，服务器300可以与多个客户端200进行通信连接。在一些实施例中，客户端200可以通过网络400与服务器300交互，以接收或发送消息等，比如接收或发送面部视频。在一些实施例中，客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实手柄、增强现实头盔、增强现实眼镜、增强现实手柄或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端200可以包括图像采集设备，用于采集目标用户在完成随机动作下的目标用户视频。在一些实施例中，所述图像采集设备可以是二维图像采集设备(比如RGB摄像头)，也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器，等等)。在一些实施例中，客户端200可以是具有定位技术的设备，用于定位客户端200的位置。

在一些实施例中，客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中，客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集目标用户在完成随机动作下的目标用户视频。在一些实施例中，所述用户100还可以通过所述目标APP触发对抗攻击的检测请求。所述目标APP可以响应于所述对抗攻击的检测请求，执行本说明书描述的对抗攻击的检测方法。所述对抗攻击的检测方法将在后面的内容中详细介绍。

服务器300可以是提供各种服务的服务器，例如对客户端200上采集的目标用户视频进行对抗攻击检测提供支持的后台服务器。在一些实施例中，所述对抗攻击的检测方法可以在服务器300上执行。此时，服务器300可以存储有执行本说明书描述的对抗攻击的检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接，并接收客户端200发送的数据。

网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示，客户端200和服务器300可以同网络400连接，并且通过网络400互相传输信息或数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙^TM网络、ZigBee^TM网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点，通过该接入点，客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。

应该理解，图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端200、服务器300和网络400。

需要说明的是，所述对抗攻击的检测方法可以完全在客户端200上执行，也可以完全在服务器300上执行，还可以部分在客户端200上执行，部分在服务器300上执行。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的对抗攻击的检测方法。所述对抗攻击的检测方法在本说明书中的其他部分介绍。当所述对抗攻击的检测方法在客户端200上执行时，计算设备600可以是客户端200。当所述对抗攻击的检测方法在服务器300上执行时，计算设备600可以是服务器300。当所述对抗攻击的检测方法可以部分在客户端200上执行，部分在服务器300上执行时，计算设备600可以是客户端200和服务器300。

如图2所示，计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中，计算设备600还可以包括通信端口650和内部通信总线610。同时，计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件，包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信，比如，通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的对抗攻击的检测方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时，至少一个处理器620读取所述至少一个指令集，并且根据所述至少一个指令集的指示，执行本说明书提供的对抗攻击的检测方法。处理器620可以执行对抗攻击的检测方法包含的所有步骤。处理器620可以是一个或多个处理器的形式，在一些实施例中，处理器620可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中心处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备600中仅描述了一个处理器620。然而，应当注意，本说明书中计算设备600还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备600的处理器620执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种对抗攻击的检测方法P100的流程图。如前，计算设备600可以执行本说明书的对抗攻击的检测方法P100。具体地，处理器620可以读取存储在其本地存储介质中的指令集，然后根据指令集的规定，执行本说明书的对抗攻击的检测方法P100。如图3所示，方法P100可以包括：

S110：获取目标用户的目标用户视频。

其中，目标用户视频包括多帧用户视频帧。用户视频帧可以为包含目标用户的全部身体部位或部分身体不为的视频帧。

其中，获取目标用户的目标用户视频的方式可以有多种，具体可以如下：

例如，处理器620可以通过图像采集设备直接采集目标用户的目标用户视频，或者，可以接收用户100通过客户端200或终端上传的目标用户的目标用户视频，或者，还可以接收对抗攻击检测请求，该对抗攻击检测请求中包括目标用户的目标用户视频的存储地址，基于该存储地址，获取目标用户视频，等等。

其中，采集目标用户的目标用户视频的方式可以有多种，比如，处理器620可以获取目标用户的初始用户视频，对初始用户视频进行人脸检测，并对初始人脸视频进行人脸校准，以及在初始用户视频的人脸检测和人脸校准通过时，在初始用户视频中提取出预设位置的多帧用户视频帧，得到目标用户视频，等等。

其中，初始用户视频为目标用户完成至少一个目标动作后采集的用户视频。目标动作可以包括摇头、眨眼、点头、张嘴或皱眉中的至少一种。目标动作还可以包括除上述动作以外的其他动作，比如，还可以包括大笑、跳跃、、弯腰、举手、抬腿或摆臂中的至少一种。获取目标用户的初始用户视频的方式可以有多种，比如，处理器620可以在预设动作类型集合中选取出目标动作类型，展示目标动作类型对应的动作提示信息，以便目标用户基于动作提示信息完成目标动作对应的至少一个目标动作，以及采集目标用户完成至少一个目标动作的实时视频，得到初始用户视频。

其中，动作提示信息可以为提示用户完成目标动作类型对应的至少一个目标动作的信息。以目标动作类型为摇头为例，则摇头对应的动作提示信息就可以为“请摇头”或者其他可以指示目标用户摇头的提示信息。展示目标动作类型对应的动作提示信息的方式可以有多种，比如，处理器620可以通过UI(交互截面)直接显式该动作提示信息，或者，还可以通过语音或声光的形式展示动作提示信息，等等。

处理器620在展示目标动作类型对应的动作提示信息之后，便可以采集目标用户在完成至少一个目标动作的实时视频，采集的方式可以有多种，比如，处理器620可以在触发展示动作提示信息之后或同时，采集目标用户在预设时间内的实时视频，并在实时视频中识别出当前动作，以及在当前动作包括至少一个目标动作时，停止采集实时视频，并将实时视频作为初始用户视频，或者，还可以采集目标用户的预设时间段的实时视频，并对采集到的实时视频进行动作检测，基于动作检测结果，确定目标用户完成至少一个目标动作的动作完成信息，在动作完成信息指示目标用户已完成至少一个目标动作时，将采集到的实时视频作为初始用户视频，等等。

其中，对实时视频进行动作检测的方式可以有多种，比如，处理器620可以采用基于关键点的动作分类模型对实时视频进行动作检测，或者，还可以采用其他动作检测算法对实时视频进行动作检测。

处理器620在获取目标用户的初始用户视频之后，便可以对初始用户视频进行人脸检测和人脸校准。所述人脸检测可以为在初始用户视频中检测视频帧是否包含目标用户的人脸，所述人脸校准可以为在包含人脸的视频帧中校准脸部各个部位或特征点的位置。

处理器620在初始用户视频的人脸检测和人脸校准通过时，便可以在初始用户视频中提取出预设位置的多帧用户视频帧，从而得到目标用户视频。所述预设位置可以为预先设定的提取用户视频帧的位置，该预设位置可以有多种，比如，可以为初始用户视频的用户视频帧序列中中间的预设数量的视频帧，或者，也可以为第n帧以后的预设数量的用户视频帧，等等。以预设位置为中间位置的50帧为例，处理器620就可以在初始用户视频中提取出视频帧序列中中间位置的50帧用户视频帧，从而得到目标用户视频。

S120：将多帧用户视频帧分别与目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定目标用户对应的比对波动特征。

其中，预设用户图像可以为目标用户在人脸识别系统或者其他用户识别系统中的留底图像，该留底图像为目标用户预先留存的真实图像(活体图像)。

其中，比对信息可以为将用户视频帧与预设用户图像分割为预设数量的图像区块后，将对应的图像区块进行比对后的信息。

其中，比对波动特征包括不同用户视频帧与预设用户图像的同一图像区块之前的比对信息波动的特征。所述图像区块可以为将用户视频帧和预设用户图像进行分块之后得到的图像。比如，以用户视频帧和预设用户图像的尺寸为256*256，将用户视频帧和预设用户图像分块为32*32大小的patch(图像区块)，每一帧用户视频帧和预设用户图像就可以被分割为8*8个图像区块。

其中，将多帧用户视频帧分别与目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定目标用户对应的比对波动特征的方式具体可以如下：

S121：将多帧用户视频帧分别与目标用户的预设用户图像进行分块比对。

例如，处理器620可以采用分块比对模型分别对多帧用户视频帧和目标用户的预设用户图像进行分块特征提取，得到图像区块对应的区域特征集合，在区域特征集合中选取出同一图像区块分别对应的目标区域特征和对照区域特征，以及将目标区域特征和对照区域特征进行对比，以得到对比信息。

其中，采用分块比对模型分别对多帧用户视频帧和目标用户的预设用户图像进行分块特征提取的方式可以有多种，比如，处理器620可以将多帧用户视频帧中每一用户视频帧和预设用户图像分割为第一预设数量的图像区块，采用分块比对模型分别对每一用户视频帧和预设用户图像进行特征提取，以及基于提取出的特征图谱分别选取出每一图像区块对应的目标特征图谱，并对目标特征图谱进行特征编码，得到区域特征集合。

其中，特征图谱可以为整张图像对应的特征图谱，整张图像可以包括多帧用户视频帧中每一帧用户视频帧，也可以包括预设用户图像。预设用户图像和用户视频帧的尺寸可以相同，也可以不同，如果不同的话，可以将预设用户图像和用户视频帧的尺寸进行调整，从而得到相同尺寸的预设用户图像和用户视频帧。区域特征集合可以包括多帧用户视频帧中每一用户视频帧的每一个图像区块对应的区域特征，还可以包括预设用户图像中每一图像区块对应的区域特征。

处理器620在得到图像区块对应的区域特征集合之后，便可以在区域特征集合中选取出同一图像区块分别对应的目标区域特征和对照区域特征。所述目标区域特征为多帧用户视频帧对应的区域特征。所述对照区域特征为预设用户图像对应的区域特征。在区域特征集合中选取出目标区域特征和对照区域特征的方式可以有多种，比如，以分割出的图像区块的数量为N个为例，处理器620可以在区域特征集合中选取出每一用户视频帧中第i个图像区块对应的区域特征，得到目标区域特征，在区域特征集合中选取出预设用户图像中第i个图像区块对应的区域特征，得到第目标区域特征对应的对照区域特征。

处理器620在选取出目标区域特征和对照区域特征之后，便可以将目标区域特征和对照区域特征进行比对，从而得到比对信息。将目标区域特征和对照区域特征进行比对的方式可以有多种，比如，处理器620可以将目标区域特征和对照区域特征进行对比，得到目标区域特征对应的目标区域特征对应的目标图像区块的比对值，将多个用户视频帧中每一用户视频帧的目标图像区块的比对值进行融合，得到多个用户视频帧中每一用户视频帧对应的子比对信息，以及将每一用户视频帧对应的子比对信息作为比对信息。

其中，比对值表征多个用户视频帧的目标图像区块与预设用户图像中对应的目标图像区块之间的相似程度，一般而言，相比正常样本，对抗攻击的比对值(分)波动会更大。将目标区域特征和对照区域特征进行对比的方式可以有多种，比如，处理器620可以获取目标区域特征与对照区域特征之间的特征相似度，并将该特征相似度作为比对值，或者，可以获取目标区域特征与对照区域特征之间的特征距离，并将特征距离作为比对值，或者，还可以获取目标区域特征与对照区域特征之间的特征相似度和/或特征距离，并基于特征相似度和/或特征距离，确定目标图像区块的比对值。

处理器620在确定出目标图像区块的比对值之后，便可以将多个用户视频帧中同一用户视频帧的目标图像区块的比对值进行融合，从而得到多个用户视频帧中每一用户视频帧对应的子比对信息。融合的方式可以有多种，比如，以用户视频帧和预设用户图像包括N个图像区块为例，处理器620可以将N个图像区块分别对应的比对值构建为比对值矩阵，并将该比对值矩阵作为一帧用户视频帧对应的子比对信息。

处理器620在将同一用户视频帧的目标图像区块的比对值进行融合之后，便可以将融合后得到的每一用户视频帧对应的子比对信息作为比对信息。以用户视频帧的帧数为50帧，图像区块为8*8个为例，则比对信息就可以包括5个8*8的比对值矩阵。

其中，分块比对模型可以直接从第三方获取，也可以自行训练得到。分块比对模型的训练过程可以包括以下步骤：处理器620可以获取第一用户样本的用户图像样本，并将用户图像样本分割为第二预设数量的样本图像区块，将用户图像样本输入至预设分块比对模型，以得到每一样本图像区块对应的第一预测用户类别和区块相似度信息，该区块相似度信息包括样本图像区块之间的特征相似度，基于第一预测用户类别和区块相似度信息，确定用户图像样本的分块比对损失信息，并基于分块比对损失信息对预设分块比对模型进行收敛，得到分块比对模型。

其中，预设分块比对模型包括特征图谱提取网络、分块特征编码网络和对比学习网络。所述特征图谱提取网络为对用户图像样本提取特征图谱的网络。所述分块特征编码网络为样本图像区块对应的目标特征图谱进行特征编码的网络。所述对比学习网络用于对用户图像样本进行对抗攻击分类和确定样本图像区块之间的图像特征的相似程度。将所述用户图像样本输入至预设分块比对模型，以得到每一所述样本图像区块对应的第一预测用户类别和区块相似度信息的方式可以有多种，比如，处理器620可以采用特征提取图谱对用户图像样本进行特征提取，得到用户图像样本的样本特征图谱，采用分块特征编码网络对样本特征图谱中每一样本图像区块对应的特征图谱进行编码，得到每一样本图像区块对应的样本区域特征，以及将样本区域特征输入至对比学习网络，以得到样本区域特征之间的区块相似度信息和每一样本图像区块的第一预测用户类别。

其中，区块相似度信息可以包括用户图像样本中样本图像区块之间的样本区域特征的特征相似度。第一预测用户类别可以为基于样本区域特征预测出的对应的样本图像区块对应的用户类别，该用户类别可以包括对抗攻击用户或正常用户(活体用户)中的一种。

处理器620在确定出第一预测用户类别和区块相似度信息之后，便可以确定用户图像样本的分块比对损失信息。所述分块比对损失信息可以为对用户图像样本进行分块比对后产生的损失信息。分块比对损失信息可以包括区块分类损失信息和领域一致性损失信息。所述区块分类损失信息可以为基于样本图像区块的样本区域特征对第一用户样本进行对抗攻击分类的预测结果与标注结果之间差异对应的损失信息。所述领域一致性损失信息可以为相邻的样本图像区块的样本区域特征之间的差异对应的损失信息。所述领域一致性损失信息的约束条件可以为约束相邻的样本图像区块的样本区域特征之间的相似度在预设相似度范围内，也就说约束相邻的样本图像区块(patch)的样本区域特征尽量一致，这里的样本区域特征可以为特征向量。确定用户图像样本的分块比对损失信息的方式可以有多种，比如，处理器620可以获取用户图像样本的第一标注用户类别，并将第一预测用户类别与第一标注用户类别进行对比，以得到区块分类损失信息，基于区块相似度信息，确定每一样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息，以及将区块分类损失信息与领域一致性损失信息进行融合，得到用户图像样本的分块比对损失信息。

其中，将第一预测用户类别与第一标注用户类别进行对比的方式可以有多种，比如，处理器620可以采用交叉熵损失函数，将第一预测用户类别与第一标注用户类别进行对比，从而得到区块分类损失信息，或者，还可以采用其他对比损失函数，将将第一预测用户类别与第一标注用户类别进行对比，从而得到区块分类损失信息，等等。

其中，基于所述区块相似度信息，确定每一所述样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息的方式可以有多种，比如，处理器620可以在样本图像区块中选取出每一样本图像区块对应的相邻样本图像区块，在区块相似度信息中提取出每一样本图像区块与对应的相邻样本图像区块之间的目标区块相似度，以及基于目标区块相似度，确定每一样本图像区块对应的领域一致性损失信息。

其中，相邻样本图像区块为与目标样本图像区块直接相邻或间接相邻的预设数量的样本图像区块，比如，可以包括目标样本图像区块的前、后、左、右四个方位的样本图像区块，或者，也可以包括目标样本图像区块的前、后、左、右、左前、左后、右前和右后等方位的样本图像区块，等等。

处理器620在提取出每一样本图像区块与相邻样本图像区块之间的目标区块相似度之后，便可以基于目标区块相似度，确定每一样本图像区块对应的邻域一致性损失信息。确定邻域一致性损失信息的方式可以有多种，比如，处理器620可以获取目标区块相似度与预设相似度阈值之间的相似度差值，从而得到每一样本图像区块对应的相似度差值集合，并基于相似度差值集合，确定每一样本图像区块对应的邻域一致性损失信息，或者，还可以获取每一样本图像区块对应的目标区块相似度的均值，得到相似度均值，并获取相似度矩阵与预设相似度阈值的相似度差值，基于该相似度差值，确定对应的样本图像区块对应的邻域一致性损失信息，等等。

处理器620在确定出区块分类损失信息和邻域一致性损失信息之后，便可以将区块分类损失信息和邻域一致性损失信息进行融合，从而得到用户图像样本的分块比对损失信息。融合的方式可以有多种，比如，处理器620可以直接将区块分类损失信息和邻域一致性损失信息相加，从而得到用户图像样本的分块对比损失信息，具体可以如公式(1)所示：

Loss_total＝Loss_cls+Loss_feat (1)

其中，Loss_total为分块对比损失信息，Loss_cls为区块分类损失信息，Loss_feat为邻域一致性损失信息。

在一些实施例中，处理器620还可以获取分块对比权重，并基于分块比对权重，分别对区块分类损失信息和邻域一致性损失信息进行加权，将加权后的区块分类损失信息和加权后的邻域一致性损失信息相加，从而得到用户图像样本的分块比对损失信息。

处理器620在确定出用户图像样本的分块比对损失信息之后，便可以基于分块比对损失信息对预设分块比对模型进行收敛，从而得到训练后的分块比对模型。对预设分块比对模型进行收敛的方式可以有多种，比如，处理器620可以采用梯度下降算法，基于分块比对损失信息对预设分块比对模型的网络参数进行更新，得到更新后的预设分块比对模型，并将预设分块比对模型更新为更新后的预设分块比对模型，返回执行获取第一用户样本的用户图像样本的步骤，直至预设分块比对模型收敛时为止，得到训练后的分块比对模型，或者，还可以采用其他网络参数更新算法，基于分块比对损失信息对预设分块比对模型的网络参数进行更新，得到更新后的预设分块比对模型，并将预设分块比对模型更新为更新后的预设分块比对模型，返回执行获取第一用户样本的用户图像样本的步骤，直至预设分块比对模型收敛时为止，得到训练后的分块比对模型。

其中，预设分类比对模型的收敛条件可以有多种，比如，可以包括对预设分块比对模型的网络参数的更新次数达到预设次数，或者，还可以为预设分块比对模型的精度达到预设精度，等等。

其中，需要说明的是，对预设比对模型进行训练，得到分块比对模型，该分块比对模型中应用的过程中，主要用于产出细粒度的区域特征，比如，可以包括用户视频帧和预设用户图像中各个图像区块对应的区域特征。

S122：基于得到的比对信息，确定目标用户对应的比对波动特征。

其中，比对信息包括多帧用户视频帧中每一用户视频帧与预设用户图像之间的子比对信息，所述子比对信息可以为包含每一个图像区块的比对值的比对值矩阵，具体详见上文所述，在此就不再一一赘述。

其中，基于得到的比对信息，确定目标用户对应的比对波动特征的方式可以有多种，具体可以如下：

例如，处理器620可以基于每一用户视频帧的时序信息，确定相邻的用户视频帧之间的子比对信息的差值，得到比对差值信息，以及采用比对波动检测模型的波动编码网络对比对差值进行特征编码，得到目标用户对应的比对波动特征。

其中，比对差值信息可以为相邻的用户视频帧之间的比对值矩阵之间的差值，比如，可以为第2帧用户视频帧对应的比对值矩阵与第1帧用户视频帧对应的比对值矩阵之间的比对差值矩阵。以用户视频帧的帧数为50帧为例，则比对差值信息就可以包括49个比对差值矩阵。基于每一用户视频帧的时序信息，确定相邻的用户视频帧之间的子对比信息的差值的方式可以有多种，比如，处理器620可以获取每一用户视频帧的时序信息，基于该时序信息，对每一用户视频帧进行排序，基于排序结果，分别确定两个相邻的用户视频帧对应的比对值矩阵之间的差值，从而得到比对差值信息。

处理器620在确定出比对差值信息之后，便可以采用比对波动检测模型的波动特征编码网络对比对差值信息进行特征编码，从而得到目标用户对应的比对波动特征。

其中，比对波动检测模型可以包括波动特征编码网络，所述波动特征编码网络为对比对差值进行特征编码的网络。波动特征编码网络的输入为对比差值信息，输出波动特征。另外，比对波动检测模型还可以包括比对编码网络和对抗攻击检测网络。所述比对编码网络可以为对比对信息进行特征编码的网络，比对编码网络的输入为比对信息，输出为该比对信息对应的比对特征。所述对抗攻击检测网络为对目标用户进行对抗攻击检测的网络，对抗攻击检测网络的输入为比对特征和波动特征，输出为对抗攻击概率。所述对抗攻击概率未表征目标用户为对抗攻击用户的概率，当该对抗攻击概率大于预设概率阈值时，就可以确定该目标用户为对抗攻击用户。

在一些实施例中，处理器620可以直接获取比对波动检测模型，还可以对预设比对波动检测模型进行训练，从而得到训练后的比对波动检测模型。比对波动检测模型的训练过程可以包括以下步骤：处理器620可以获取第二用户样本的比对信息样本和比对信息样本对应的比对差值信息样本，将比对信息样本和比对差值信息样本分别输入至预设比对波动检测模型，得到预测对抗攻击概率，以及基于预测对抗攻击概率，对预设比对波动检测模型进行收敛，得到比对波动检测模型。

其中，第二用户样本可以与第一用户样本相同，也可以与第一用户样本不同。获取第二用户样本的比对信息样本和比对信息样本对应的比对差值信息样本的方式可以有多种，比如，处理器620可以直接获取第二用户样本的比对信息样本和比对信息样本对应的比对差值信息样本，或者，还可以获取第二用户样本的多帧用户视频帧样本和预设用户图像样本，并将多帧用户视频帧样本和预设用户图像样本输入至分块比对模型，从而得到对应的图像区块对应样本区域特征，并基于样本区域特征，确定多帧用户视频帧样本对应的比对信息样本，然后，获取相邻的用户视频帧样本之间的比对信息样本的差值，从而得到比对信息样本对应的比对差值信息样本，等等。

处理器620在获取比对信息样本和比对差值信息样本之后，便可以将比对信息样本和比对差值信息样本分别输入至预设比对波动检测模型，从而给得到预测对抗攻击检测概率。采用预设比对波动检测模型预测出预测对抗攻击检测概率的方式可以有多种，比如，处理器620可以采用预设比对波动模型在比对差值信息样本中提取出样本比对波动特征，并在比对信息样本中提取出样本比对特征，并将样本比对波动特征和样本比对特征进行拼接，得到样本对抗攻击分类特征，并基于该样本对抗攻击分类特征，确定出对抗攻击概率。

其中，将样本波动特征和样本比对特征进行拼接的方式可以有多种，比如，处理器620可以直接将样本比对波动特征和样本比对特征进行拼接，从而得到样本对抗攻击分类特征，或者，还可以获取攻击权重，并基于攻击权重，分别对样本比对波动特征和样本比对特征进行加权，将加权后的样本波动特征和加权后的样本比对特征进行拼接，从而得到样本对抗攻击分类特征，等等。

其中，处理器620在将样本比对波动特征和样本比对特征进行拼接之后，便可以拼接得到的样本对抗攻击分类特征，确定第二用户样本的预测对抗攻击概率。确定预测对抗攻击概率的方式可以有多种，比如，处理器620可以采用分类器对样本对抗攻击分类特征进行分类，得到每一候选类别对应的预测概率，并在预测概率中选取出候选类别为对抗攻击用户的预测概率，从而得到预测对抗攻击概率，或者，还可以采用全连接层(FC)将样本对抗攻击分类特征映射至每一候选类别，从而得到每一候选类别对应的预测概率，在预测概率中选取出候选类别为对抗攻击用户的预测概率，从而得到预测对抗攻击概率，等等。

处理器620在确定出目标用户的预测对抗攻击概率之后，便可以基于预测对抗攻击概率，对预设比对波动检测模型进行收敛，从而得到比对波动检测模型。对预设比对波动检测模型收敛的方式可以有多种，比如，处理器620可以基于预测对抗攻击概率，确定第二用户样本的第二预测用户类别，获取第二用户样本的第二标注用户类别，并将第二预测用户类别与第二标注用户类别进行对比，以得到波动分类损失信息，以及基于波动分类损失信息对预设比对波动检测模型进行收敛，得到比对波动检测模型。

其中，基于预测对抗攻击概率，确定第二用户样本的第二预测用户类别的方式可以有多种，比如，处理器620可以将预测对抗攻击概率与预设攻击概率阈值进行对比，在预测对抗攻击概率大于预设攻击概率阈值时，确定第二用户样本的第二预测用户类别为对抗攻击用户，在预测对抗攻击概率小于预设攻击概率阈值时，确定第二用户样本的第二预测用户类别为正常用户(活体用户)；或者，还可以基于预测对抗攻击概率，确定第二用户样本的活体概率，在预测对抗攻击概率大于活体概率时，确定第二用户样本的第二预测用户类别为对抗攻击用户，在预测对抗攻击概率大于活体概率时，确定第二用户样本的第二预测用户类别为正常用户(活体用户)，等等。

处理器620在确定第二预测用户类别和获取第二用户样本的第二标注用户类别之后，便可以将第二预测用户类别与第二标注用户类别进行对比，从而得到波动分类损失信息。将第二预测用户类别与第二标注用户类别进行对比的方式可以有多种，比如，处理器620可以采用交叉熵损失函数，将第二预测用户类别与第二标注用户类别进行对比，从而得到波动分类损失信息，或者，还可以以采用其他分类损失函数，将第二预测用户类别与第二标注用户类别进行对比，从而得到波动分类损失信息，等等。

处理器620在确定出波动分类损失信息之后，便可以基于波动分类损失信息对预设比对波动检测模型进行收敛，从而得到比对波动检测模型。对预设波动检测模型进行收敛的方式与对预设分块比对模型进行收敛的方式类似，详见上文所述，在此就不再一一赘述。

S130：基于比对信息与比对波动特征，确定目标用户的对抗攻击检测结果，并输出对抗攻击检测结果。

其中，对抗攻击检测结果可以为目标用户的用户类别，该用户类别包括正常用户(活体用户)或对抗攻击用户中的一种。所述正常用户可以为不存在对抗攻击的用户，所述对抗攻击用户就可以为存在对抗攻击风险的用户。

其中，基于比对信息与比对波动特征，确定目标用户的对抗攻击检测结果的方式可以有多种，具体可以如下：

例如，处理器620可以将比对信息和比对波动特征分别输入至比对波动检测模型，以得到目标用户的对抗攻击概率，以及在对抗攻击检测概率大于预设概率阈值时，确定目标用户为对抗攻击用户，并将对抗攻击用户作为对抗攻击检测结果；或者，还可以在对抗攻击检测概率小于预设概率阈值时，确定目标用户为正常用户(活体用户)，并将正常用户(活体用户)作为对抗攻击检测结果。

其中，比对波动检测模型还可以包括比对编码网络和对抗攻击检测网络。处理器620将比对信息和比对波动特征分别输入至比对波动检测模型，以得到目标用户的对抗攻击概率的方式可以有多种，比如，处理器620可以采用比对编码网络对比对信息进行特征编码，得到比对特征，采用对抗攻击检测网络将比对特征和比对波动特征进行特征融合，得到对抗攻击分类特征，以及基于对抗攻击分类特征，确定目标用户的对抗攻击概率。

其中，处理器620将比对特征和比对波动特征进行融合的方式与将样本比对特征和样本比对波动特征进行拼接的方式类似，详见上文所述，在此就不再一一赘述。

处理器620在将比对特征和比对波动特征进行融合之后，便可以基于融合得到的对抗攻击分类特征，确定目标用户的对抗攻击概率。确定对抗攻击概率的方式与确定预测对抗攻击概率的方式类似，详见上文所述，在此就不再一一赘述。

处理器620在确定出目标用户的对抗攻击概率之后，便可以在对抗攻击概率大于预设概率阈值时，确定目标用户为对抗攻击用户，并将对抗攻击用户作为对抗攻击检测结果；或者，在对抗攻击概率小于预设概率阈值时，确定目标用户为正常用户(活体)用户，并将正常用户(活体用户)作为对抗攻击检测结果。

处理器620在确定出目标用户的对抗攻击检测结果之后，便可以输出该对抗攻击检测结果。输出该对抗攻击检测结果的方式可以有多种，比如，处理器620可以直接将对抗攻击检测结果发送至用户100对应的客户端200、终端或服务器，以便客户端200、终端或服务器基于对抗攻击检测结果对目标用户或目标用户对应的业务请求进行响应，或者，还可以直接可视化展示该对抗攻击检测结果，等等。

其中，可视化展示对抗攻击检测结果的方式可以有多种，比如，处理器620可以直接显示该对抗攻击检测结果，或者，可以通过声光等方式展示该对抗攻击检测结果(譬如，通过语音播报对抗攻击检测结果，或者，可以通过显式不同颜色的光显式不同类型的对抗攻击检测结果过，或者，还可以通过声光联动的方式展示对抗攻击检测结果)，或者，还可以针对特定类型的对抗攻击检测结果进行展示(譬如，仅针对对抗攻击用户这一类型的对抗攻击检测结果进行展示，或者，仅针对正常用户这一类型的对抗攻击检测结果进行展示，等等)，等等。

在一些实施例中，处理器620还可以在确定出目标用户的对抗攻击检测结果或者输出该对抗攻击检测结果之后，基于该对抗攻击检测结果对目标用户或者目标用户对应的业务请求进行响应，响应的方式可以有多种，比如，处理器620可以直接对目标用户或目标用户对应的业务请求进行拦截，或者，处理器620还可以直接对目标用户进行二次验证，并基于二次验证结果，对目标用户或目标用户对应的业务请求进行最终的响应，等等。

其中，在人脸识别场景下，本方案可以采用随机动作和分块比对值的波动分析来实现对抗攻击的检测，整体的检测流程可以如图4所示，可以包括数据采集和预处理、分块比对模型训练、多帧比对值波动分析和对抗攻击检测，具体可以如下：

(1)数据采集和预处理：传统的对抗攻击检测方法都是静默式采集，即在采集过程中不需要用户进行额外的配合也不引入任何主动信息(例如打光)。由于没有额外信息的引入，这会使得对于对抗攻击的检测难度变大，因此，本方案在数据采集的过程中引入了随机动作，即要求目标用户配合完成一个随机动作，然后，对于整个动作过程进行数据采集和预处理，从而丰富输入信息。整个采集过程主要包括随机动作类型生成、UI交互提示用户、动作完成度检测和实时数据采集等，从而得到采集到的初始用户视频。然后，对于采集到的初始用户视频进行人脸检测和校准，取整个视频帧序列中间的50帧人脸数据作为后续的基础数据(目标用户视频)。

(2)分块区域比对：现有的人脸比对模型都通过深度学习模型(例如卷积神经网络和transformer等)对整个人脸区域进行特征提取，得到一个特征向量。然而，对于只在局部区域生效的对抗攻击，针对整个人脸区域只提取一个特征向量就损失了大量的空间信息，因此，本方案通过训练分块比对模型，然后，将多帧用户视频帧和预设用户图像(目标用户在人脸识别系统中预存的留底图像)进行分块，然后，通过分块比对模型提取每个区域的特征，从而可以得到细粒度的图像区块的区域特征。分块比对模型的具体训练和应用过程详见上文所述，在此就不再一一赘述。

(3)多帧比对值波动分析：对预设比对波动检测模型进行训练，得到比对波动检测模型，具体的训练过程可以参见上文所述，在此就不再一一赘述。然后，将用户视频帧和预设用户图像(目标用户的留底图像)对应的图像区块之间的区域特征进行比对，从而得到该图像区块的比对值，然后，将对比值进行组合，从而得到每一用户视频帧对应的比对值矩阵。然后，就可以取整个动作过程中多帧用户视频帧分别对应的比对值矩阵，采用比对波动检测模型进行波动分析，从而得到目标用户的对抗攻击概率p。波动分析具体的过程可以详见上文所述，在此就不再一一赘述。

(4)对抗攻击检测：如果p大于提前设定的阈值T，则判断为对抗攻击，否则判断为正常样本。

其中，本方案，首先在交互阶段引入随机动作，并进行对应的采集和预处理，从而引入更多的信息，然后，训练分块比对模型，生成细粒度的比对值，以应对不同面积大小的对抗元素(比如，对抗贴纸或对抗眼镜，等等)，最后，基于比对值的波动和动作类型，进行对抗攻击的检测，从而大幅提升对抗攻击的检测精度。

综上所述，本说明书提供的对抗攻击的检测方法P100和系统001，在获取目标用户的目标用户视频后，该目标用户视频包括多帧用户视频帧，将多帧用户视频帧分别与目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定目标用户对应的比对波动特征，该比对波动特征包括不同用户视频帧与所述预设用户图像的同一图像区块之间的比对差异波动的特征，以及基于比对信息与比对波动特征，确定目标用户的对抗攻击检测结果，并输出对抗攻击检测结果；由于该方案可以将用户视频帧与预设用户图像进行分块对比，从而得到细粒度的比对信息，从而应对不同面积大小的攻击元素，而且，基于对比信息确定出比对波动特征，并通过对比波动特征和比对信息进行对抗攻击检测，无需对输入的样本进行处理，从而可以保证正常样本的检测性能，因此，可以提升对抗攻击的检测准确率。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来进行对抗攻击检测的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的对抗攻击的检测方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备600上运行时，所述程序代码用于使计算设备600执行本说明书描述的对抗攻击的检测方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备600上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种对抗攻击的检测方法，包括：

获取目标用户的目标用户视频，所述目标用户视频包括多帧用户视频帧；

将所述多帧用户视频帧分别与所述目标用户的预设用户图像进行分块比对，并基于得到的比对信息，确定所述目标用户对应的比对波动特征，所述比对波动特征包括不同用户视频帧与所述预设用户图像的同一图像区块之间的比对信息波动的特征；以及

基于所述比对信息与所述比对波动特征，确定所述目标用户的对抗攻击检测结果，并输出所述对抗攻击检测结果。

2.根据权利要求1所述的对抗攻击的检测方法，其中，所述获取目标用户的目标用户视频，包括：

获取所述目标用户的初始用户视频，所述初始用户视频包括所述目标用户完成至少一个目标动作后采集的用户视频；

对所述初始用户视频进行人脸检测，并对所述初始用户视频进行人脸校准；以及

在所述初始用户视频的所述人脸检测和所述人脸校准通过时，在所述初始用户视频中提取出预设位置的所述多帧用户视频帧，得到所述目标用户视频。

3.根据权利要求2所述的对抗攻击的检测方法，其中，所述获取所述目标用户的初始用户视频，包括：

在预设动作类型集合中选取出目标动作类型；

展示所述目标动作类型对应的动作提示信息，以便所述目标用户基于所述动作提示信息完成所述目标动作类型对应的至少一个目标动作；以及

采集所述目标用户在完成所述至少一个目标动作的实时视频，得到所述初始用户视频。

4.根据权利要求3所述的对抗攻击的检测方法，其中，所述目标动作类型包括摇头、眨眼、点头、张嘴或皱眉中的至少一种。

5.根据权利要求3所述的对抗攻击的检测方法，其中，所述采集所述目标用户在完成所述至少一个目标动作的实时视频，得到所述初始用户视频，包括：

采集所述目标用户的实时视频，并在所述实时视频中识别出当前动作；以及

在所述当前动作包括所述至少一个目标动作时，停止采集所述实时视频，并将所述实时视频作为所述初始用户视频。

6.根据权利要求1所述的对抗攻击检测方法，其中，所述将所述多帧用户视频帧分别与所述目标用户的预设用户图像进行分块比对，包括：

采用分块比对模型分别对所述多帧用户视频帧和所述目标用户的预设用户图像进行分块特征提取，得到所述图像区块对应的区域特征集合；

在所述区域特征集合中选取出同一所述图像区块分别对应的目标区域特征和对照区域特征，所述目标区域特征为所述多帧用户视频帧对应的区域特征，所述对照区域特征为所述预设用户图像对应的区域特征；以及

将所述目标区域特征和所述对照区域特征进行比对，以得到所述比对信息。

7.根据权利要求6所述的对抗攻击的检测方法，其中，所述采用分块比对模型分别对所述多帧用户视频帧和所述目标用户的预设用户图像进行分块特征提取，得到所述图像区块对应的区域特征集合，包括：

将所述多帧用户视频帧中每一用户视频帧和所述预设用户图像分割为第一预设数量的所述图像区块；

采用所述分块比对模型分别对所述每一用户视频帧和所述预设用户图像进行特征提取，以及

基于提取出的特征图谱分别选取出每一所述图像区块对应的目标特征图谱，并对所述目标特征图谱进行特征编码，得到所述区域特征集合。

8.根据权利要求6所述的对抗攻击的检测方法，其中，所述将所述目标区域特征和所述对照区域特征进行对比，以得到比对信息，包括：

将所述目标区域特征和所述对照区域特征进行对比，得到所述目标区域特征对应的目标图像区块的比对值，所述比对值表征所述多个用户视频帧的目标图像区块与所述预设用户图像中对应的所述目标图像区块之间相似程度；

将所述多个用户视频帧帧中同一用户视频帧的目标图像区块的比对值进行融合，得到所述多个用户视频帧中每一用户视频帧对应的子比对信息；以及

将所述每一用户视频帧对应的子比对信息作为所述比对信息。

9.根据权利要求6所述的对抗攻击的检测方法，其中，所述分块比对模型的训练过程包括以下步骤：

获取第一用户样本的用户图像样本，并将所述用户图像样本分割为第二预设数量的样本图像区块；

将所述用户图像样本输入至预设分块比对模型，以得到每一所述样本图像区块对应的第一预测用户类别和区块相似度信息，所述区块相似度信息包括所述样本图像区块之间的特征相似度；以及

基于所述第一预测用户类别和区块相似度信息，确定所述用户图像样本的分块比对损失信息，并基于所述分块比对损失信息对所述预设分块比对模型进行收敛，得到所述分块比对模型。

10.根据权利要求9所述的对抗攻击的检测方法，其中，所述预设分块比对模型包括特征图谱提取网络、分块特征编码网络和对比学习网络；以及

所述将所述用户图像样本输入至预设分块比对模型，以得到每一所述样本图像区块对应的第一预测用户类别和区块相似度信息，包括：

采用所述特征图谱提取网络对所述用户图像样本进行特征提取，得到所述用户图像样本的样本特征图谱，

采用所述分块特征编码网络对所述样本特征图谱中每一所述样本图像区块对应的特征图谱进行特征编码，得到每一所述样本图像区块对应的样本区域特征，以及

将所述样本区域特征输入至所述对比学习网络，以得到所述样本区域特征之间的区块相似度信息和每一所述样本图像区块的第一预测用户类别。

11.根据权利要求9所述的对抗攻击检测方法，其中，所述基于所述第一预测用户类别和区块相似度信息，确定所述用户图像样本的分块比对损失信息，包括：

获取所述用户图像样本的第一标注用户类别，并将所述第一预测用户类别与所述第一标注用户类别进行对比，以得到区块分类损失信息；

基于所述区块相似度信息，确定每一所述样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息，所述邻域一致性损失信息的约束条件为约束相邻的样本图像区块的样本区域特征之间的相似度在预设相似度范围内；以及

将所述区块分类损失信息与所述邻域一致性损失信息进行融合，得到所述用户图像样本的分块比对损失信息。

12.根据权利要求11所述的对抗攻击的检测方法，其中，所述基于所述区块相似度信息，确定每一所述样本图像区块与对应的相邻样本图像区块之间的邻域一致性损失信息，包括：

在所述样本图像区块中选取出每一所述样本图像区块对应的相邻样本图像区块；

在所述区块相似度信息中提取出每一所述样本图像区块与对应的所述相邻样本图像区块之间的目标区块相似度；以及

基于所述目标区块相似度，确定每一所述样本图像区块对应的邻域一致性损失信息。

13.根据权利要求1所述的对抗攻击的检测方法，其中，所述比对信息包括所述多帧用户视频帧中每一用户视频帧与所述预设用户图像之间的子比对信息；以及

所述基于得到的比对信息，确定所述目标用户对应的比对波动特征，包括：

基于所述每一用户视频帧的时序信息，确定相邻的所述用户视频帧之间的所述子比对信息的差值，得到比对差值信息，以及

采用所述对比波动检测模型的波动编码网络对所述对比差值信息进行特征编码，得到所述目标用户对应的比对波动特征。

14.根据权利要求13所述对抗攻击的检测方法，其中，所述基于所述比对信息与所述比对波动特征，确定所述目标用户的对抗攻击检测结果，包括：

将所述比对信息和所述比对波动特征分别输入至所述比对波动检测模型，以得到所述目标用户的对抗攻击概率；以及

在所述对抗攻击概率大于预设概率阈值时，确定所述目标用户为对抗攻击用户，并将所述对抗攻击用户作为所述对抗攻击检测结果。

15.根据权利要求14所述的对抗攻击的检测方法，其中，所述比对波动检测模型还包括比对编码网络和对抗攻击检测网络；以及

所述将所述比对信息和所述比对波动特征分别输入至所述比对波动检测模型，以得到所述目标用户的对抗攻击概率，包括：

采用所述对比编码网络对所述比对信息进行特征编码，得到比对特征，

采用所述对抗攻击检测网络将所述比对特征和所述比对波动特征进行特征融合，得到对抗攻击分类特征，以及

基于所述对抗攻击分类特征，确定所述目标用户的对抗攻击概率。

16.根据权利要求13所述的对抗攻击的检测方法，其中，所述比对波动检测模型的训练过程包括以下步骤：

获取第二用户样本的比对信息样本和所述比对信息样本对应的比对差值信息样本；

将所述对比信息样本和所述比对差值信息样本分别输入至预设比对波动检测模型，得到预测对抗攻击概率；以及

基于所述预测对抗攻击概率，对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型。

17.根据权利要求16所述的对抗攻击的检测方法，其中，所述基于所述预测对抗攻击概率，对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型，包括：

基于所述预测对抗攻击概率，确定所述第二用户样本的第二预测用户类别；

获取所述第二用户样本的第二标注用户类别，并将所述第二预测用户类别与所述第二标注用户类别进行对比，以得到波动分类损失信息；以及

基于所述波动分类损失信息对所述预设比对波动检测模型进行收敛，得到所述比对波动检测模型。

18.一种对抗攻击的检测系统，包括：

至少一个存储介质，存储有至少一个指令集，用于进行对抗攻击的检测；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述对抗攻击的检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-17中任一项所述的对抗攻击的检测方法。