CN115984977A

CN115984977A - 活体检测方法和系统

Info

Publication number: CN115984977A
Application number: CN202211424517.4A
Authority: CN
Inventors: 曹佳炯
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-04-18

Abstract

本说明书提供的活体检测方法和系统，在获取目标面部视频，并在目标面部视频中提取出多个显著性图像帧后，在多个显著性图像帧中识别出攻击区域和活体区域，并基于攻击区域和活体区域，生成攻击图像帧和活体图像帧，以及基于攻击图像帧和活体图像帧，确定目标面部视频的活体类别；该方案可以提升活体检测的准确率和效率。

Description

活体检测方法和系统

技术领域

本说明书涉及图像识别领域，尤其涉及一种活体检测方法和系统。

背景技术

近年来，随着互联网技术的飞速发展，在人脸识别系统中活体检测已经成为不可缺少的一环，通过活体检测可以有效拦截非活体类型的攻击样本。现有的活体检测方法往往通过单帧面部图像或者多张图像面部直接进行活体检测。

在对现有技术的研究和实践中，本申请的发明人发现基于单帧面部图像进行活体检测时，单帧面部图像的信息量比较有限，使得检测精度较低，而直接采用多张图像进行活体检测，往往计算资源的消耗较大，难以在计算资源有限的普通设备上使用，因此，导致活体检测的准确率和效率较低。

发明内容

本说明书提供一种准确率和效率更高的活体检测方法和系统。

第一方面，本说明书提供一种活体检测方法，包括：获取目标面部视频，并在所述目标面部视频中提取出多个显著性图像帧；在所述多个显著性图像帧中识别出攻击区域和活体区域，并基于所述攻击区域和活体区域，生成攻击图像帧和活体图像帧；以及基于所述攻击图像帧和所述活体图像帧，确定所述目标面部视频的活体类别。

在一些实施例中，所述在所述目标面部视频中提取出多个显著性图像帧，包括：对所述目标面部视频的图像帧进行过滤，以得到候选图像帧集合；以及对所述候选图像帧集合进行显著性采样，得到多个显著性图像帧。

在一些实施例中，所述对所述目标面部视频的图像帧进行过滤，以得到候选图像帧集合，包括：对所述目标面部视频进行分帧，得到原始图像帧集合；在所述原始图像帧集合中选取出至少一张面部图像帧，得到面部图像帧集合；以及基于所述面部图像帧集合的图像帧数量，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合。

在一些实施例中，所述基于所述面部图像帧集合的图像帧数量，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合，包括：基于所述面部图像帧集合的图像帧数量，确定所述面部图像帧集合与所述原始图像帧集合的帧数比值；在所述帧数比值未超过预设帧数比值阈值时，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到所述候选图像帧集合。

在一些实施例中，所述基于所述面部图像帧集合的图像帧数量，确定所述面部图像帧集合与所述原始图像帧集合的帧数比值之后，还包括：在所述帧数比值超过所述预设帧数比值阈值时，返回执行所述获取目标面部视频的步骤，直至所述帧数比值未超过所述预设帧数比值阈值时为止。

在一些实施例中，所述对所述候选图像帧集合进行显著性采样，得到多个显著性图像帧，包括：对所述候选图像帧集合中的每一候选图像帧进行特征提取，得到所述每一候选图像帧的图像特征；对所述图像特征进行降维，以得到所述候选图像帧集合的主成分特征；以及基于所述主成分特征，在所述候选图像帧集合中选取出多个显著性图像帧。

在一些实施例中，所述基于所述主成分特征，在所述候选图像帧集合中选取出多个显著性图像帧，包括：获取所述每一候选图像帧的图像特征与所述主成分特征之间的特征相似度；以及基于所述特征相似度，在所述候选图像帧集合中选取出多个显著性图像帧。

在一些实施例中，所述在所述多个显著性图像帧中识别出攻击区域和活体区域，包括：将所述多个显著性图像帧中每一显著性图像帧划分为多个图像区域，得到所述多个图像区域中每一图像区域对应的区域图像；采用区域检测网络对所述区域图像进行活体检测，得到所述每一图像区域的区域活体概率和区域攻击概率；以及基于所述区域活体概率和所述区域攻击概率，在所述多个显著性图像帧中识别出攻击区域和活体区域。

在一些实施例中，所述基于所述区域活体概率和所述区域攻击概率，在所述多个显著性图像帧中识别出攻击区域和活体区域，包括：基于所述区域活体概率，在所述多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到所述活体区域；以及基于所述区域攻击概率，在所述多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到所述攻击区域。

在一些实施例中，所述基于所述攻击区域和活体区域，生成攻击图像帧和活体图像帧，包括：基于所述攻击区域在所述每一显著性图像帧中的区域位置，对所述攻击区域进行组合，得到攻击图像帧；以及基于所述活体区域在所述每一显著性图像帧中的区域位置，对所述活体区域进行组合，得到活体图像帧。

在一些实施例中，所述攻击图像帧和所述活体图像帧的数量相同，且所述攻击图像帧和所述活体图像帧的数量小于所述多个显著性图像帧的数量。

在一些实施例中，所述基于所述攻击图像帧和所述活体图像帧，确定所述目标面部视频的活体类别，包括：采用活体检测网络将所述攻击图像帧和所述活体图像帧进行对比，以得到攻击概率图谱；以及基于所述攻击概率图谱，确定所述目标面部视频的活体类别。

在一些实施例中，所述活体检测网络包括活体编码子网络、攻击编码子网络和融合对比子网络；以及所述采用活体检测网络将所述攻击图像帧和所述活体图像帧进行对比，以得到攻击概率图谱，包括：采用所述活体编码子网络对所述活体图像帧进行特征编码，得到活体特征，采用所述攻击编码子网络对所述攻击图像帧进行特征编码，得到攻击特征，以及采用所述融合对比子网络将所述活体特征和所述攻击特征进行对比，以得到所述攻击概率图谱。

在一些实施例中，所述采用所述融合对比子网络将所述活体特征和所述攻击特征进行对比，以得到所述攻击概率图谱，包括：采用所述融合对比子网络在所述活体特征和所述攻击特征中提取出同一像素位置的特征，得到每一像素位置的像素活体特征和像素攻击特征；将所述像素活体特征和像素攻击特征进行对比，以得到所述每一像素位置对应的像素攻击概率；以及将所述每一像素位置对应的像素攻击概率进行组合，得到所述攻击概率图谱。

在一些实施例中，所述将所述像素活体特征和像素攻击特征进行对比，以得到所述每一像素位置对应的像素攻击概率，包括：将所述每一像素位置的像素活体特征和像素攻击特征进行拼接，得到像素融合特征；获取所述每一像素位置的像素活体特征和所述像素攻击特征的特征距离；以及基于所述像素融合特征和所述特征距离，确定所述每一像素位置对应的像素攻击概率。

在一些实施例中，所述活体检测网络的训练过程包括以下步骤：获取图像帧样本，所述图像帧样本包括活体图像帧样本和攻击图像帧样本；采用预设活体检测网络对所述图像帧样本进行特征提取，并基于提取出的样本活体特征和样本攻击特征，预测所述图像帧样本对应的攻击概率，得到预测概率图谱；以及基于所述样本活体特征、所述样本攻击特征和所述预测概率图谱，确定所述图像帧样本的目标活体损失信息，并基于所述目标活体损失信息对所述预设活体检测网络进行收敛，得到训练后的活体检测网络。

在一些实施例中，所述基于所述样本活体特征、所述样本攻击特征和所述预测概率图谱，确定所述图像帧样本的目标活体损失信息，包括：获取所述样本活体特征和所述样本攻击特征之间的特征距离，以得到所述图像帧样本的对比损失信息，所述对比损失信息的约束条件为最大化所述样本攻击特征和所述样本活体特征之间的特征距离；基于所述预测概率图谱，确定所述图像帧样本的每一像素位置的预测活体类别，并将所述预测活体类别与所述图像帧样本中的标注活体类别进行对比，以得到所述每一像素位置对应的活体分类损失信息；以及将所述对比损失信息和所述活体分类损失信息进行融合，得到所述图像帧样本的目标活体损失信息。

在一些实施例中，所述基于所述攻击概率图谱，确定所述目标面部视频的活体类别，包括：获取所述攻击概率图谱中的每一像素位置对应的像素攻击概率的平均值，得到目标攻击概率；以及在所述目标攻击概率大于预设攻击概率阈值时，确定所述目标面部视频的活体类别为攻击。

在一些实施例中，还包括：在所述目标攻击概率小于或等于所述预设攻击概率阈值时，确定所述目标面部视频的活体类别为活体。

在一些实施例中，所述基于所述攻击概率图谱，确定所述目标面部视频的活体类别，包括：在所述攻击概率图谱中每一像素位置对应的像素攻击概率中选取出最大的像素攻击概率，得到目标攻击概率；以及在所述目标攻击概率大于预设攻击概率阈值时，确定所述目标面部视频的活体类别为攻击。

第二方面，本说明书还提供一种活体检测系统，包括：至少一个存储介质，存储有至少一个指令集，用于进行活体检测；以及至少一个处理器，同所述至少一个存储介质通信连接，其中，当所述活体检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的活体检测方法。

由以上技术方案可知，本说明书提供的活体检测方法和系统，在获取目标面部视频，并在目标面部视频中提取出多个显著性图像帧后，在多个显著性图像帧中识别出攻击区域和活体区域，并基于攻击区域和活体区域，生成攻击图像帧和活体图像帧，以及基于攻击图像帧和活体图像帧，确定目标面部视频的活体类别；由于该方案可以在目标面部视频中提取出多个显著帧，从而降低输入的帧数和复杂度，另外，在多个显著性图像帧中识别出关键区域，并组合攻击图像帧和活体图像帧，然后，基于攻击图像帧和活体图像帧做出活体判断，相对单帧图像来说，可以提取到更多且更准确的用于活体检测的信息，从而可以提升检测精度，相对于多帧图像来说，可以在保证精度不受影响的情况下，降低多帧活体算法的计算资源消耗，因此，可以提升活体检测的准确率和效率。

本说明书提供的活体检测方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的活体检测方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种活体检测系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图；

图3示出了根据本说明书的实施例提供的一种活体检测方法流程图；以及

图4示出了根据本说明书的实施例提供的一种活体检测方法的整体流程示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，本说明书将对以下描述将会出现的术语进行如下解释：

活体防攻击：面部识别系统中，对活体攻击(包括手机照片、纸质照片或面部等攻击行为)进行检测和拦截的技术。

时序信息和线索：是指在多帧图像中提取运动信息以及攻击线索的方式，所述攻击线索可以为与攻击相关的信息。

自适应：有别于提前定义，指利用已知的信息进行推理，并进行合理的选择。

在对本说明书具体实施例说明之前，先对本说明书的应用场景进行如下介绍：

本说明书提供的活体检测方法可以应用在任意的活体检测场景中，比如，在人脸支付场景中，可以通过本说明书的活体检测方法对采集的待支付用户的人脸图像进行活体检测；在身份验证场景中，可以通过本说明书的活体检测方法对采集的用户的身份图像进行活体检测；还可以应用在任意的人脸识别场景中，在此就不再一一赘述。

本领域技术人员应当明白，本说明书所述的活体检测方法和系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种活体检测系统001的应用场景示意图。活体检测系统001(以下简称系统001)可以应用于任意场景的活体检测，比如，人脸支付场景下的活体检测、身份验证场景下的活体检测、其他人脸识别场景下的活体检测，等等，如图1所示，系统001可以包括目标用户100、客户端200、服务器300以及网络400。

目标用户100可以为触发对目标面部视频进行活体检测的用户，目标用户100可以在客户端200进行活体检测的操作。

客户端200可以为响应于目标用户100的活体检测操作对目标面部视频进行活体检测的设备。在一些实施例中，所述活体检测方法可以在客户端200上执行。此时，客户端200可以存储有执行本说明书描述的活体检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示，客户端200可以与服务器300进行通信连接。在一些实施例中，服务器300可以与多个客户端200进行通信连接。在一些实施例中，客户端200可以通过网络400与服务器300交互，以接收或发送消息等。在一些实施例中，客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端200可以包括图像采集设备，用于采集目标面部视频。在一些实施例中，所述图像采集设备可以是二维图像采集设备(比如RGB摄像头)，也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器，等等)。在一些实施例中，客户端200可以是具有定位技术的设备，用于定位客户端200的位置。

在一些实施例中，客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为目标用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中，客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集目标面部视频。在一些实施例中，所述目标对象100还可以通过所述目标APP触发活体检测请求。所述目标APP可以响应于所活体检测请求，执行本说明书描述的活体检测方法。所述活体检测方法将在后面的内容中详细介绍。

服务器300可以是提供各种服务的服务器，例如对客户端200上采集的目标面部视频和对目标面部视频进行活体检测提供支持的后台服务器。在一些实施例中，所述活体检测方法可以在服务器300上执行。此时，服务器300可以存储有执行本说明书描述的活体检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接，并接收客户端200发送的数据。

网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示，客户端200和服务器300可以同网络400连接，并且通过网络400互相传输信息或数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络^TM、ZigBee^TM网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点，通过该接入点，客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。

应该理解，图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端200、服务器300和网络400。

需要说明的是，所述活体检测方法可以完全在客户端200上执行，也可以完全在服务器300上执行，还可以部分在客户端200上执行，部分在服务器300上执行。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的活体检测方法。所述活体检测方法在本说明书中的其他部分介绍。当所述活体检测方法在客户端200上执行时，计算设备600可以是客户端200。当所述活体检测方法在服务器300上执行时，计算设备600可以是服务器300。当所述活体检测方法可以部分在客户端200上执行，部分在服务器300上执行时，计算设备600可以是客户端200和服务器300。

如图2所示，计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中，计算设备600还可以包括通信端口650和内部通信总线610。同时，计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件，包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信，比如，通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的活体检测方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时，至少一个处理器620读取所述至少一个指令集，并且根据所述至少一个指令集的指示，执行本说明书提供的活体检测方法。处理器620可以执行活体检测方法包含的所有步骤。处理器620可以是一个或多个处理器的形式，在一些实施例中，处理器620可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中心处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备600中仅描述了一个处理器620。然而，应当注意，本说明书中计算设备600还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备600的处理器620执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种活体检测方法P100的流程图。如前，计算设备600可以执行本说明书的活体检测方法P100。具体地，处理器620可以读取存储在其本地存储介质中的指令集，然后根据指令集的规定，执行本说明书的活体检测方法P100。如图3所示，方法P100可以包括：

S110：获取目标面部视频，并在目标面部视频中提取出多个显著性图像帧。

其中，显著性图像帧可以为目标面部视频中的关键帧，或者，还可以为目标面部视频帧与主成分特征最相关的图像帧。显著性特征图像帧中可以包括与攻击或活体相关的线索信息。

其中，目标面部视频可以为需要进行活体检测的用户或对象的面部视频。所述面部视频可以包括包含生物的面部的视频，比如，人脸视频或者动物面部视频，等等。获取目标面部视频的方式可以有多种，具体可以如下：

例如，处理器620可以直接获取目标用户100或者需要进行活体检测的用户或对象通过客户端200或终端上传的目标面部视频，或者，可以通过图像采集设备采集需要进行活体检测的用户或对象的面部视频，从而得到目标面部视频，或者，可以从网络或者视频数据库中获取原始视频，并在原始视频中选取出包含面部的面部视频，从而得到目标面部视频，或者，在目标面部视频的数量较多或者内存较大时，还可以接收活体检测请求，该活体检测请求携带目标面部视频的存储地址，基于该存储地址，就可以获取目标面部视频，等等。

处理器620在获取目标面部视频之后，便可以在目标面部视频中提取出多个显著性图像帧。提取多个显著性图像帧的方式可以有多种，比如，处理器620可以对目标面部视频的图像帧进行过滤，以得到候选图像帧集合，以及对候选图像帧集合进行显著性采样，得到多个显著性图像帧。

其中，处理器620对目标面部视频的图像帧进行过滤的方式可以有多种，比如，处理器620可以对目标面部视频进行分帧，得到原始图像帧集合，在原始图像帧集合中选取出至少一张面部图像帧，得到面部图像帧集合，以及基于面部图像帧集合的图像帧数量，对面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合。

其中，面部图像帧可以为包括面部的图像帧，以面部为人脸为例，就可以为包括人脸的图像帧。基于面部图像帧集合的图像帧数量，对面部图像帧集合中的面部图像帧进行均匀下采样的方式可以有多种，比如，处理器620可以基于面部图像帧集合的图像帧数量，确定面部图像帧集合与原始图像帧集合的帧数比值，在帧数比值未超过预设帧数比值阈值时，对面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合，在帧数比值超过预设帧数比值阈值时，返回执行获取目标面部视频的步骤，直至帧数比值未超过预设帧数比值阈值时为止。

其中，预设帧数比值阈值可以为预先设定的帧数比值的阈值，该预设帧数比值阈值可以根据实际应用进行设定，比如，可以为20％或者其他比值。以预设帧数比值阈值为20％，目标面部视频为人脸视频为例，就可以理解为对人脸视频的所有图像帧进行人脸检测，如果没有人脸的帧数超过20％，就需要要求用户重新进行采样，如果少于20％，则抛弃没有人脸的图像帧，并对包含人脸的图像帧(即面部图像帧)进行均匀下采样。对面部图像帧进行均匀下采样的方式可以有多种，比如，处理器620可以在面部图像帧集合中每隔预设帧数采样一帧，从而得到候选图像帧集合。以预设帧数为3帧为例，就可以为在面部图像帧集合中每隔3帧采样出1帧，直至对面部图像帧集合全部采样完成为止，从而得到候选图像帧集合。

其中，通过对面部图像帧集合中的面部图像帧进行均匀下采样，就可以减少数据处理量，从而降低计算资源的消耗，进而提升活体检测的检测效率。

处理器620在对目标面部视频的图像帧进行过滤得到候选图像帧集合之后，便可以对候选图像帧集合进行显著性采样，得到多个显著新图像帧。对候选图像帧集合进行显著性采样的方式可以有多种，比如，处理器620可以对候选图像帧集合中的每一候选图像帧进行特征提取，得到每一候选图像帧的图像特征，对图像特征进行降维，以得到候选图像帧集合的主成分特征，以及基于主成分特征，在候选图像帧集合中选取出多个显著性图像帧。

其中，对候选图像帧集合中的每一候选图像帧进行特征提取的方式可以多种，比如，处理器620可以采用图像特征提取网络对候选图像帧集合中每一候选图像帧进行特征提取，从而得到每一候选图像帧的图像特征。图像特征提取网络的网络结构可以有多种，比如，可以包括HoG(一种特征提取网络)、SIFT(一种特征提取网络)或DNN(深度神经网络)，等等。

处理器620对每一候选图像帧进行特征提取之后，便可以对图像特征进行降维，以得到候选图像帧集合的主成分特征。所述主成分特征为对候选图像帧集合中的候选图像帧的图像帧进行压缩并提取出的特征信息，该主成分特征可以包括候选图像帧集合对应的大部分图像特征的信息，但是主成分特征是一个新的变量，是图像特征(即初始变量)的线性组合。主成分特征中可以包括多个新的变量，这些新的变量之间是不相关。总的来说，主成分特征可以理解为对每一候选图像帧的图像特征进行压缩后提取出的大部分特征信息所组成的特征。处理器620对图像特征进行降维，以得到候选图像特征集合的主成分特征的方式可以有多种，比如，处理器620可以采用主成分分析算法(PCA)对图像特征进行降维，降维至M维，在降维的图像特征中提取出主成分特征，或者，还可以采用其他主成分分析方法对图像特征进行降维，以得到候选图像特征集合的主成分特征，等等。

处理器620在提取出候选图像帧集合的主成分特征之后，便可以基于主成分特征，在候选图像帧集合中选取出多个显著性图像特征。基于主成分特征，在候选图像帧集合中选取出多个显著性图像帧的方式可以有多种，比如，处理器620可以获取每一候选图像帧的图像特征与主成分特征之间的特征相似度，以及基于特征相似度度，在候选图像帧集合中选取出多个显著性图像帧。

其中，获取每一候选图像帧的图像特征与主成分特征之间的特征相似度的方式可以有多种，比如，处理器620可以计算每一候选图像帧的图像特征与主成分特征之间的余弦相似度，并将该余弦相似度最为特征相似度，或者，还可以计算每一候选图像帧的图像特征与主成分特征之间的特征距离，从而得到特征相似度，等等。

其中，特征距离的类型可以有多种，比如，可以包括欧式距离、LI/L2距离、或者其他类型的特征距离，等等。

处理器620在获取图像特征与主成分特征之间的特征相似度之后，便可以基于特征相似度，在候选图像帧集合中选取出多个显著性图像帧。基于特征相似度，在候选图像帧集合中选取出多个显著性图像帧的方式可以有多种，比如，处理器620可以对特征相似度进行排序，并基于排序结果，在候选图像帧集合中选取出特征相似度度排序在TOP K的候选图像帧，从而得到多个显著性图像帧，或者，还可以在候选图像帧集合中选取出特征相似度超过预设相似度阈值的至少一个候选图像帧，从而得到多个显著性图像帧，等等。

S120：在多个显著性图像帧中识别出攻击区域和活体区域，并基于攻击区域和活体区域，生成攻击图像帧和活体图像帧。

其中，攻击区域为多个显著性图像中存在攻击线索的区域，所述攻击线索就可以理解为与攻击相关的信息。活体区域为多个显著性图像中存在活体线索的区域，所述活体线索就可以理解为与活体相关的信息。

其中，攻击图像帧可以为将攻击区域进行组合得到的图像帧。活体图像帧可以为将活体区域进行组合得到的图像帧。攻击图像帧和活体图像帧的数量相同，且攻击图像帧和活体图像帧的数量小于多个显著性图像帧的数量，从而可以在保证精度不受影响的情况下，尽可能降低进行活体检测的图像帧的帧数，从而降低多帧活体检测的计算资源消耗，进而提升多帧活体检测的检测效率。

其中，在多个显著性图像帧中识别出攻击区域和活体区域的方式可以有多种，具体可以如下：

例如，处理器620可以将多个显著性图像帧中每一显著性图像帧划分为多个图像区域，得到多个图像区域中每一图像对应的区域图像，采用区域检测网络对区域图像进行活体检测，得到每一图像区域的区域活体概率和区域攻击概率，以及基于区域活体概率和区域攻击概率，在多个显著性图像帧中识别出攻击区域和活体区域。

其中，图像区域可以为预设尺寸的矩形区域。将多个显著性图像帧中每一显著性图像帧划分为多个图像区域的方式可以有多种，比如，处理器620可以直接将每一显著性图像帧划分为均匀的预设数量的图像区域，从而就可以得到每一图像区域对应的区域图像，譬如，以预设数量为16为例，就可以直接将每一显著性图像帧划分为均匀的16个区域(4*4个矩形区域)，每一矩形区域作为一个图像区域，将该图像区域对应的图像作为区域图像；或者，还可以获取显著性图像帧的尺寸，基于该尺寸，确定区域划分的目标数量，然后，将每一显著性图像帧划分为目标数量的矩形区域，每一矩形区域作为一个图像区域，将该图像区域对应的图像作为区域图像，等等。

处理器620在对每一显著性图像帧划分为多个图像区域之后，便可以采用区域检测网络对区域图像进行活体检测，得到每一图像区域的区域活体概率和区域攻击概率。所述区域活体概率可以为对应的图像区域存在与活体相关信息的概率，所述区域攻击概率可以为对应的区域存在与攻击相关信息的概率。所述区域活体概率和区域攻击概率的和可以为1，也可以不为1，他们之间可以关联，也可以是独立判断的。处理器620采用区域检测网络对区域图像进行活体检测的方式可以有多种，比如，处理器620可以采用区域检测网络中的特征提取子网络在区域图像中提取出分类特征，并采用区域检测网络中的分类子网络基于分类特征，对区域图像进行活体分类，从而得到该区域图像对应的图像区域的区域活体概率和区域攻击概率。

其中，区域检测网络的网络结构可以有多种，比如，可以包括shufflenet v2x0.25(一种轻量级卷积网络)或者其他任意可以进行活体检测的网络，等等。

其中，区域检测网络的训练可以通过分类损失函数进行训练。训练的过程可以包括：获取图像样本，该图像样本可以包括多个样本区域，将每一样本区域的区域图像输入至预设区域检测网络，从而得到每一样本区域的预测活体类别，并将每一样本区域的预测活体类别和对应的样本区域的标注活体类别进行对比，从而得到每一样本区域的区域分类损失信息，并基于区域分类损失信息对预设区域检测网络进行收敛，得到训练后的区域检测网络。

其中，基于区域分类损失信息对预设区域检测网络进行收敛的方式可以有多种，比如，处理器620可以基于区域分类损失信息，采用梯度下降算法(SGD)对预设区域检测网络的网络参数进行更新，返回执行获取图像样本的过程，直至预设区域检测网络收敛时为止，得到训练后的区域检测网络，或者，还可以基于区域分类损失信息，采用其他网络参数更新算法对设区域检测网络的网络参数进行更新，返回执行获取图像样本的过程，直至预设区域检测网络收敛时为止，得到训练后的区域检测网络，等等。

处理器620在采用区域检测网络对区域图像进行活体检测之后，便可以基于检测出的每一图像区域的区域活体概率和区域攻击概率，在多个显著性图像帧中识别出攻击区域和活体区域。在多个显著性图像帧中识别出攻击区域和活体区域的方式可以有多种，比如，处理器620可以基于区域活体概率，在多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到活体区域，以及基于区域攻击概率，在多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到攻击区域。

其中，以多个显著性图像帧的数量为M个，每一显著性图像帧被分为4个矩形区域，分别为图像区域1、图像区域2、图像区域3和图像区域4为例，基于区域活体概率，在多个显著性图像帧中选取出活体区域的方式可以有多种，比如，在M个图像区域1中选取出区域活体概率最大的图像区域1，就可以将该图像区域1作为活体区域，或者，还可以在M个图像区域1中选取出区域活体概率TOP K的图像区域1，就可以将这个K个图像1作为活体区域，依次类推，可以分别在M个图像区域2、M分图像区域3和M个图像区域3中选取出活体区域。可以发现，显著性图像帧中的每一个相同位置中都可以选取出至少一个图像区域作为活体区域，这样就可以保证至少可以组成成一张活体图像帧。

其中，攻击区域的选取方式与活体区域的选取方式类似，详见上文所述，在此就不再一一赘述。

处理器620在多个显著性图像帧中识别出攻击区域和活体区域之后，便可以基于攻击区域和活体区域，生成攻击图像帧和活体图像帧。基于攻击区域和活体区域，生成攻击图像帧和活体图像帧的方式可以有多种，比如，处理器620可以基于攻击区域在每一显著性图像中的区域位置，对攻击区域进行组合，得到攻击图像帧，以及基于活体区域在每一显著性图像帧中的区域位置，对活体区域进行组合，得到活体图像帧。

其中，以每一显著性图像帧划分为4个图像区域，包括图像区域1、图像区域2、图像区域3和图像区域4为例，每一个图像区域对应一个区域位置，这四个图像区域内的图像共同构成一张显著性图像帧。对于活体区域来说，可以将活体区域内的图像区域1、图像区域2、图像区域3和图像区域4按照区域位置进行组合，从而就可以构成一张图像帧，将该图像帧作为活体图像帧。对于攻击区域来说，也是采用类似的组合方式，将攻击区域内的图像区域1、图像区域2、图像区域3和图像区域4按照区域位置进行组合，从而就可以构建一张图像帧，将该图像帧作为攻击图像帧。

其中，需要说明的是，如果活体区域或攻击区域中同一个位置存在多个图像区域时，就可以组成多个活体图像帧或攻击图像帧，比如，活体区域或攻击区域中存在多个图像区域1，就可以将多个图像区域1分别与其他图像区域进行组合，就可以得到多个活体图像帧或攻击图像帧。对于多个活体图像帧或多个攻击图像帧，其帧数依然小于多个显著性图像帧的数量。

S130：基于攻击图像帧和活体图像帧，确定目标面部视频的活体类别。

其中，活体类别可以包括活体视频或攻击视频中的一种。基于攻击图像帧和活体图像帧，确定目标面部视频的活体类别的方式可以有多种，具体可以如下：

例如，处理器620可以采用活体检测网络将攻击图像帧和活体图像帧进行对比，以得到攻击概率图谱，基于攻击概率图谱，确定目标面部视频的活体类别。

其中，攻击概率图谱可以为攻击图像帧和活体图像帧中像素级的攻击概率的集合，也可以理解为每一像素位置对应的攻击概率所组合的概率图谱(概率集合)。

其中，活体检测网络可以包括活体编码子网络、攻击编码子网络和融合对比子网络。所述活体编码子网络为对活体图像帧进行特征编码的网络，所述攻击编码子网络为对攻击图像帧进行特征编码的网络，所述融合对比网络为将活体特征和攻击特征进行对比，以得到像素级攻击概率的网络。活体编码子网络的输入为活体图像帧，输出为对应的特征向量(活体特征)。攻击编码子网络的输入为攻击图像帧，输出为对应的特征向量(攻击特征)。融合对比网络的输入为活体特征和攻击特征，输出为像素级(pixel-wise)的攻击概率。因此，采用活体检测网络将攻击图像帧和活体图像帧进行对比的方式可以有多种，比如，处理器620可以采用活体编码子网络对活体图像帧进行特征编码，得到活体特征，采用攻击编码子网络对攻击图像帧进行特征编码，得到攻击特征，以及采用融合对比子网络将活体特征和攻击特征进行对比，以得到攻击概率图谱。

其中，采用融合对比子网络将活体特征和攻击特征进行对比的方式可以有多种，比如，处理620可以采用融合对比子网络在活体特征和攻击特征中提取出同一像素位置的特征，得到每一像素位置的像素活体特征和像素攻击特征，将像素活体特征和像素攻击特征进行对比，以得到每一像素位置对应的像素攻击概率，以及将每一像素位置对应的像素攻击概率进行组合，得到攻击概率图谱。

其中，将将像素活体特征和像素攻击特征进行对比的方式可以有多种，比如，处理器620可以将每一像素位置的像素活体特征和像素攻击特征进行拼接，得到像素融合特征，获取每一像素位置的像素活体特征和像素攻击认证的特征距离，以及基于像素融合特征和特征距离，确定每一像素位置对应的像素攻击概率。

其中，特征距离的类型可以有多种，比如，可以包括欧式距离、LI/L2距离或者其他类型的特征距离，等等。

处理器620在得到每一像素位置对应的像素攻击概率之后，便可以将每一像素位置对应的像素攻击概率进行组合，组合的方式可以有多种，比如，处理器620可以基于像素位置，将对应的像素攻击概率添加至预设图谱的对应的位置，从而就可以得到攻击概率图谱。由于攻击图像帧和活体图像帧的尺寸相同，因此，攻击图像帧和活体图像帧的像素位置存在一一对应的关系，因此，预设图谱中的每一个像素位置也可以与攻击图像帧/活体图像帧的像素位置对应。

其中，处理器620在采用活体检测网络将所述攻击图像帧和所述活体图像帧进行对比，以得到攻击概率图谱之前，还可以预设对活体检测网络进行训练，从而得到训练后的活体检测网络。活体检测网络的训练过程可以包括以下步骤：处理器620可以获取图像帧样本，该图像帧样本可以包括活体图像帧样本和攻击图像帧样本，采用预设活体检测网络对图像帧样本进行特征提取，并基于提取出样本活体特征和样本攻击特征，预测图像帧样本对应的攻击概率，得到预测概率图谱，以及基于样本活体特征、样本攻击认证和预测概率图谱，确定图像帧样本的目标活体损失信息，并基于目标活体损失信息对预设活体检测网络进行收敛，得到训练后的活体检测网络。

其中，目标活体损失信息可以为对图像帧样本进行活体检测而产生的损失信息。基于样本活体特征、样本攻击特征和预测概率图谱，确定图像帧样本的目标活体损失信息的方式可以有多种，比如，处理器620可以获取样本活体特征和样本攻击特征之间的特征距离，以得到图像帧样本的对比损失信息，基于预测概率图谱，确定图像帧样本的每一像素的预测活体类别，并将预测活体类别与图像帧样本中的标注活体类别进行对比，以得到每一像素位置对应的活体分类损失信息，以及将对比损失信息和活体分类损失信息进行融合，得到图像帧样本的目标活体损失信息。

其中，对比损失信息可以为将样本活体特征和样本攻击特征进行对比后产生的损失信息。对比损失信息的约束条件为最大化样本攻击特征和样本活体特征之间的特征距离。特征距离的类型可以有多种，比如，可以包括欧式距离、L1/L2距离或者其他类型的特征距离，等等。

其中，活体分类损失信息可以为每一像素位置的预测活体类别与标注活体类别之间的对比结果产生的损失信息。处理器620在确定出对比损失信息和活体分类损失信息之后，便可以将对比损失信息和活体分类损失信息进行融合，从而得到目标活体损失信息。将对比损失信息和活体分类损失信息进行融合的方式可以有多种，比如，处理器620可以直接将对比损失信息和活体分类损失信息相加，从而得到图像帧样本的目标活体损失信息，或者，还可以获取损失权重，并基于该损失权重，分别对对比损失信息和活体分类损失信息进行加权，并将加权后的对比损失信息和加权后的活体分类损失信息相加，从而得到图像帧样本的目标活体损失信息，等等。

处理器620在确定出图像帧样本的目标活体损失信息之后，便可以基于目标活体损失信息对预设活体检测网络进行收敛，从而得到训练后的活体检测网络。预设活体检测网络的收敛方式可以有多种，比如，处理器620可以基于目标活体损失信息，采用梯度下降算法(SGD)对预设活体检测网络的网络参数进行更新，返回执行获取图像帧样本的过程，直至预设活体检测网络收敛时为止，得到训练后的活体检测网络，或者，还可以基于目标活体损失信息，采用其他网络参数更新算法对预设活体检测网络的网络参数进行更新，返回执行获取图像帧样本的过程，直至预设活体检测网络收敛时为止，得到训练后的活体检测网络，等等。

处理器620在对预设活体检测网络进行训练，得到训练后的活体检测网络之后，便可以采用活体检测网络将攻击图像帧和活体图像帧进行对比，以得到攻击概率图谱。

处理器620在得到攻击概率图谱之后，便可以基于攻击概率图谱，确定目标面部视频的活体类别。确定目标面部视频的活体类别的方式可以有多种，比如，处理器620可以获取攻击概率图谱中的每一像素位置对应的像素攻击概率的平均值，得到目标攻击概率，在目标攻击概率大于预设攻击概率阈值时，确定目标面部视频的活体类别为攻击，在目标攻击概率小于或等于预设攻击概率阈值时，确定目标面部视频的活体类别为活体；或者，还可以在攻击概率图谱中每一像素位置对应的像素攻击概率中选取出最大的像素攻击概率，得到目标攻击概率，在目标攻击概率大于预设攻击概率阈值时，确定目标面部视频的活体类别为攻击，在目标攻击概率小于或等于预设攻击概率阈值时，确定目标面部视频的活体类别为活体，等等。

处理器620在确定出目标面部视频的活体类别之后，便可以将活体类别作为活体检测结果进行输出。输出活体检测结果的方式可以有多种，比如，处理器620可以直接将活体检测结果发送至目标用户100的客户端200或终端，或者，可以将活体检测结果发送至验证服务器，以便该验证服务器基于活体检测结果，对目标用户100的面部验证进行处理，或者，还可以可视化的形式展示该目标面部视频的活体检测结果，等等。

其中，可视化的形式展示该目标面部视频的活体检测结果的方式可以有多种，比如，处理器620可以直接显式该目标面部视频的活体检测结果，或者，可以语音播报该目标面部视频的活体检测结果，或者，还以触发该活体检测结果对应的声光显式，譬如，检测为攻击时，进行声光报警，等等。

在一些实施例中，还可以基于目标面部视频的活体检测结果，对目标面部视频进行处理，比如，以应用场景为人脸识别场景为例，在活体检测结果为目标面部视频为攻击视频时，直接拦截该目标面部视频对应的人脸识别请求，并进行报警提示，在活体检测结果为目标面部视频为活体视频时，对目标面部视频中的用户进行面部识别，等等。

其中，本方案在针对目标面部视频进行活体检测时，可以采用关键帧采用算法采样出比较有信息量的显著性图像帧，从而有效降低输入帧数和复杂度。然后，利用自适应多帧区域(patch)提取和组合方法，从显著性图像帧中提取出关键区域(攻击区域和活体区域)，并组合成攻击图像帧和活体图像帧，最后，基于攻击图像帧和活体图像帧的对比得到像素级的攻击概率图谱，并做出最后的活体判断，从而在保证精度不受影响的情况下，降低多帧活体检测过程的计算资源消耗。以面部为人脸为例，针对人脸视频的活体检测流程，整体流程示意图可以如图4所示，主要包括四个部分：视频信息采集和预处理、自适应区域提取与组合、基于自适应区域的活体检测和活体判断，具体可以如下：

(1)视频信息采集和预处理

例如，处理器620可以在用户开始人脸识别后，采集1-3秒的视频数据(一般美秒有20-30帧图像)，对所有的数据进行人脸检测，如果没有人脸的帧数超过20％，就可以要求用户重新进行采集，如果小于20％，就可以抛弃没有人脸的数据，对过滤后的数据进行均匀下采样(每隔3帧采样1帧)，从而减少数据处理量。然后，可以采用使用HoG/SIFT或者DNN对图像进行特征提取，每张图像得到对应N维特征。利用PCA将特征降维到M维，并得到主成分向量(主成分特征)，将与主成分向量最相关的M帧数据作为显著性图像帧。

(2)自适应区域提取与组合

例如，处理器620可以将每一帧的显著性图像帧均分为均匀的16个区域(4*4个矩形区域)，得到patch图像，将patch图像输入shufflenet v2 x0.25(区域检测网络)中，就可以得到该patch对应的攻击/活体概率。对于每个位置的patch，找到攻击概率/活体概率最大的对应位置的patch作为最终的patch，并组成最后的图像(攻击图像帧和活体图像帧)。

其中，shufflenet v2 x0.25网络的训练过程可以见上文所述，在此就不再一一赘述。

(3)基于自适应区域的活体检测

例如，处理器620可以将活体图像帧输入至活体检测网络的活体编码子网络，得到活体特征，将攻击图像帧输入至活体检测网络的攻击编码子网络，得到攻击特征，然后，将攻击特征和活体特征输入至活体检测网络的融合对比子网络，从而得到攻击概率图谱。

其中，活体检测网络的训练过程可以参见上文所述，在此就不再一一赘述。

(4)活体判断

例如，处理器620可以基于攻击概率图谱的图谱均值进行活体判断，比如，处理器620可以对攻击概率图谱中的攻击概率求平均，得到概率p，如果p大于提前设定的阈值T，则判断为攻击，否则为活体。处理器620还可以基于攻击概率图谱的图谱最大值进行活体判断，比如，对攻击概率图谱求最大值，得到概率p，如果p大于提前设定的阈值T，则判断为攻击，否则为活体，等等。

综上所述，本说明书提供的活体检测方法P100和系统001，在获取目标面部视频，并在目标面部视频中提取出多个显著性图像帧后，在多个显著性图像帧中识别出攻击区域和活体区域，并基于攻击区域和活体区域，生成攻击图像帧和活体图像帧，以及基于攻击图像帧和活体图像帧，确定目标面部视频的活体类别；由于该方案可以在目标面部视频中提取出多个显著帧，从而降低输入的帧数和复杂度，另外，在多个显著性图像帧中识别出关键区域，并组合攻击图像帧和活体图像帧，然后，基于攻击图像帧和活体图像帧做出活体判断，相对单帧图像来说，可以提取到更多且更准确的用于活体检测的信息，从而可以提升检测精度，相对于多帧图像来说，可以在保证精度不受影响的情况下，降低多帧活体算法的计算资源消耗，因此，可以提升活体检测的准确率和效率。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来进行活体检测的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的活体检测方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备600上运行时，所述程序代码用于使计算设备600执行本说明书描述的活体检测方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备600上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种活体检测方法，包括：

获取目标面部视频，并在所述目标面部视频中提取出多个显著性图像帧；

在所述多个显著性图像帧中识别出攻击区域和活体区域，并基于所述攻击区域和活体区域，生成攻击图像帧和活体图像帧；以及

基于所述攻击图像帧和所述活体图像帧，确定所述目标面部视频的活体类别。

2.根据权利要求1所述的活体检测方法，其中，所述在所述目标面部视频中提取出多个显著性图像帧，包括：

对所述目标面部视频的图像帧进行过滤，以得到候选图像帧集合；以及

对所述候选图像帧集合进行显著性采样，得到多个显著性图像帧。

3.根据权利要求2所述的活体检测方法，其中，所述对所述目标面部视频的图像帧进行过滤，以得到候选图像帧集合，包括：

对所述目标面部视频进行分帧，得到原始图像帧集合；

在所述原始图像帧集合中选取出至少一张面部图像帧，得到面部图像帧集合；以及

基于所述面部图像帧集合的图像帧数量，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合。

4.根据权利要求3所述的活体检测方法，其中，所述基于所述面部图像帧集合的图像帧数量，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到候选图像帧集合，包括：

基于所述面部图像帧集合的图像帧数量，确定所述面部图像帧集合与所述原始图像帧集合的帧数比值；

在所述帧数比值未超过预设帧数比值阈值时，对所述面部图像帧集合中的面部图像帧进行均匀下采样，得到所述候选图像帧集合。

5.根据权利要求4所述的活体检测方法，其中，所述基于所述面部图像帧集合的图像帧数量，确定所述面部图像帧集合与所述原始图像帧集合的帧数比值之后，还包括：

在所述帧数比值超过所述预设帧数比值阈值时，返回执行所述获取目标面部视频的步骤，直至所述帧数比值未超过所述预设帧数比值阈值时为止。

6.根据权利要求2所述的活体检测方法，其中，所述对所述候选图像帧集合进行显著性采样，得到多个显著性图像帧，包括：

对所述候选图像帧集合中的每一候选图像帧进行特征提取，得到所述每一候选图像帧的图像特征；

对所述图像特征进行降维，以得到所述候选图像帧集合的主成分特征；以及

基于所述主成分特征，在所述候选图像帧集合中选取出多个显著性图像帧。

7.根据权利要求6所述的活体检测方法，其中，所述基于所述主成分特征，在所述候选图像帧集合中选取出多个显著性图像帧，包括：

获取所述每一候选图像帧的图像特征与所述主成分特征之间的特征相似度；以及

基于所述特征相似度，在所述候选图像帧集合中选取出多个显著性图像帧。

8.根据权利要求1所述的活体检测方法，其中，所述在所述多个显著性图像帧中识别出攻击区域和活体区域，包括：

将所述多个显著性图像帧中每一显著性图像帧划分为多个图像区域，得到所述多个图像区域中每一图像区域对应的区域图像；

采用区域检测网络对所述区域图像进行活体检测，得到所述每一图像区域的区域活体概率和区域攻击概率；以及

基于所述区域活体概率和所述区域攻击概率，在所述多个显著性图像帧中识别出攻击区域和活体区域。

9.根据权利要求8所述的活体检测方法，其中，所述基于所述区域活体概率和所述区域攻击概率，在所述多个显著性图像帧中识别出攻击区域和活体区域，包括：

基于所述区域活体概率，在所述多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到所述活体区域；以及

基于所述区域攻击概率，在所述多个显著性图像帧中同一位置的图像区域中选取出至少一个图像区域，得到所述攻击区域。

10.根据权利要求1所述的活体检测方法，其中，所述基于所述攻击区域和活体区域，生成攻击图像帧和活体图像帧，包括：

基于所述攻击区域在所述每一显著性图像帧中的区域位置，对所述攻击区域进行组合，得到攻击图像帧；以及

基于所述活体区域在所述每一显著性图像帧中的区域位置，对所述活体区域进行组合，得到活体图像帧。

11.根据权利要求10所述的活体检测方法，其中，所述攻击图像帧和所述活体图像帧的数量相同，且所述攻击图像帧和所述活体图像帧的数量小于所述多个显著性图像帧的数量。

12.根据权利要求1所述的活体检测方法，其中，所述基于所述攻击图像帧和所述活体图像帧，确定所述目标面部视频的活体类别，包括：

采用活体检测网络将所述攻击图像帧和所述活体图像帧进行对比，以得到攻击概率图谱；以及

基于所述攻击概率图谱，确定所述目标面部视频的活体类别。

13.根据权利要求12所述的活体检测方法，其中，所述活体检测网络包括活体编码子网络、攻击编码子网络和融合对比子网络；以及

所述采用活体检测网络将所述攻击图像帧和所述活体图像帧进行对比，以得到攻击概率图谱，包括：

采用所述活体编码子网络对所述活体图像帧进行特征编码，得到活体特征，

采用所述攻击编码子网络对所述攻击图像帧进行特征编码，得到攻击特征，以及

采用所述融合对比子网络将所述活体特征和所述攻击特征进行对比，以得到所述攻击概率图谱。

14.根据权利要求13所述的活体检测方法，其中，所述采用所述融合对比子网络将所述活体特征和所述攻击特征进行对比，以得到所述攻击概率图谱，包括：

采用所述融合对比子网络在所述活体特征和所述攻击特征中提取出同一像素位置的特征，得到每一像素位置的像素活体特征和像素攻击特征；

将所述像素活体特征和像素攻击特征进行对比，以得到所述每一像素位置对应的像素攻击概率；以及

将所述每一像素位置对应的像素攻击概率进行组合，得到所述攻击概率图谱。

15.根据权利要求14所述的活体检测方法，其中，所述将所述像素活体特征和像素攻击特征进行对比，以得到所述每一像素位置对应的像素攻击概率，包括：

将所述每一像素位置的像素活体特征和像素攻击特征进行拼接，得到像素融合特征；

获取所述每一像素位置的像素活体特征和所述像素攻击特征的特征距离；以及

基于所述像素融合特征和所述特征距离，确定所述每一像素位置对应的像素攻击概率。

16.根据权利要求12所述的活体检测方法，其中，所述活体检测网络的训练过程包括以下步骤：

获取图像帧样本，所述图像帧样本包括活体图像帧样本和攻击图像帧样本；

采用预设活体检测网络对所述图像帧样本进行特征提取，并基于提取出的样本活体特征和样本攻击特征，预测所述图像帧样本对应的攻击概率，得到预测概率图谱；以及

基于所述样本活体特征、所述样本攻击特征和所述预测概率图谱，确定所述图像帧样本的目标活体损失信息，并基于所述目标活体损失信息对所述预设活体检测网络进行收敛，得到训练后的活体检测网络。

17.根据权利要求16所述的活体检测方法，其中，所述基于所述样本活体特征、所述样本攻击特征和所述预测概率图谱，确定所述图像帧样本的目标活体损失信息，包括：

获取所述样本活体特征和所述样本攻击特征之间的特征距离，以得到所述图像帧样本的对比损失信息，所述对比损失信息的约束条件为最大化所述样本攻击特征和所述样本活体特征之间的特征距离；

基于所述预测概率图谱，确定所述图像帧样本的每一像素位置的预测活体类别，并将所述预测活体类别与所述图像帧样本中的标注活体类别进行对比，以得到所述每一像素位置对应的活体分类损失信息；以及

将所述对比损失信息和所述活体分类损失信息进行融合，得到所述图像帧样本的目标活体损失信息。

18.根据权利要求12所述的活体检测方法，其中，所述基于所述攻击概率图谱，确定所述目标面部视频的活体类别，包括：

获取所述攻击概率图谱中的每一像素位置对应的像素攻击概率的平均值，得到目标攻击概率；以及

在所述目标攻击概率大于预设攻击概率阈值时，确定所述目标面部视频的活体类别为攻击。

19.根据权利要求18所述的活体检测方法，其中，还包括：

在所述目标攻击概率小于或等于所述预设攻击概率阈值时，确定所述目标面部视频的活体类别为活体。

20.根据权利要求12所述的活体检测方法，其中，所述基于所述攻击概率图谱，确定所述目标面部视频的活体类别，包括：

在所述攻击概率图谱中每一像素位置对应的像素攻击概率中选取出最大的像素攻击概率，得到目标攻击概率；以及

21.一种活体检测系统，包括：

至少一个存储介质，存储有至少一个指令集，用于进行活体检测；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述活体检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-20中任一项所述的活体检测方法。