CN116343346A

CN116343346A - 活体检测方法和系统

Info

Publication number: CN116343346A
Application number: CN202310149515.7A
Authority: CN
Inventors: 曹佳炯
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-27

Abstract

本说明书提供的活体检测方法和系统，在获得目标用户在多个模态下的用户图像，得到多模态图像组，并在所述多模态图像组中选取出第一模态图像和第二模态图像后，所述第一模态图像的图像质量大于所述第二模态图像的图像质量，基于第一模态图像，对第二模态图像进行质量增强，以得到增强后的目标多模态图像组，以及将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果，并输出活体检测结果；该方案可以提升活体检测的准确率。

Description

活体检测方法和系统

技术领域

本说明书涉及活体检测领域，尤其涉及一种活体检测方法和系统。

背景技术

近年来，随着互联网技术的飞速发展，在人脸识别系统中活体检测已经成为不可缺少的一环，通过活体检测可以有效拦截非活体类型的攻击样本。为了提升活体检测的准确率，现有的活体检测方法往往可以通过采集用户在多个模态下的图像进行活体检测。

在对现有技术的研究和实践过程中，本申请的发明人发现多模态成像系统由于需要同时采集多种模态的图像，使得采集到的图像的质量相对不稳定，会出现一个或多个模态质量低的情况，因此，导致活体检测的准确率较低。

发明内容

本说明书提供一种准确率更高的活体检测方法和系统。

第一方面，本说明书提供一种活体检测方法，包括：获得目标用户的多模态图像组，并在所述多模态图像组中选取出第一模态图像和第二模态图像，所述多模态图像组包括所述目标用户在多个模态下的用户图像，所述第一模态图像的图像质量大于所述第二模态图像的图像质量；基于所述第一模态图像，对所述第二模态图像进行质量增强，以得到增强后的目标多模态图像组；以及将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户的活体检测结果，并输出所述活体检测结果。

在一些实施例中，所述多个模态包括色彩图像、深度图像、红外图像或热成像图像中的至少两种模态。

在一些实施例中，所述在所述多模态图像组中选取出第一模态图像和第二模态图像，包括：将所述多模态图像组输入至质量检测模型，以得到所述多模态图像组中每一模态对应的模态图像的图像质量值；基于所述图像质量值，对所述模态图像进行质量排序；以及基于排序结果，在所述多模态图像组中选取出所述第一模态图像和所述第二模态图像。

在一些实施例中，所述基于排序结果，在所述多模态图像组中选取出所述第一模态图像和所述第二模态图像，包括：基于排序结果，在所述多模态图像组中选取出预设排序范围对应的至少一个模态图像，得到所述第二模态图像；以及将所述多模态图像组中除所述第二模态图像以外的模态图像作为所述第一模态图像。

在一些实施例中，所述质量检测模型的训练过程包括以下步骤：获得所述多个模态对应的第一图像样本组，所述第一图像样本组包括所述多个模态中每一模态对应的第一模态图像样本；将所述第一图像样本组输入至预设质量检测模型，以得到所述每一模态对应的模态图像特征集合和所述第一模态图像样本的预测图像质量值；以及基于所述模态图像特征集合和所述预测图像质量值，对所述预设质量检测模型进行收敛，以得到训练后的所述质量检测模型。

在一些实施例中，所述预设质量检测模型包括所述每一模态对应的特征提取网络、模态关系识别网络和质量预测网络；以及所述将所述第一图像样本组输入至预设质量检测模型，以得到所述每一模态对应的模态图像特征集合和所述第一模态图像样本的预测图像质量值，包括：将所述第一模态图像样本输入至对应模态的特征提取网络，得到所述每一模态的样本图像特征，将所述样本图像特征输入至所述模态关系识别网络，以得到不同模态之间的模态关系特征和所述样本图像特征对应的模态回归特征，并将所述模态回归特征和对应的所述样本图像特征作为对应模态的所述模态图像特征集合，以及将所述样本图像特征和所述模态关系特征输入至所述质量预测网络，以得到所述第一模态图像样本的预测图像质量值。

在一些实施例中，所述模态关系识别网络包括模态转换子网络，以及所述将所述样本图像特征输入至所述模态关系识别网络，以得到不同模态之间的模态关系特征和所述样本图像特征对应的模态回归特征，包括：将所述样本图像特征输入至所述模态转换子网络，以得到其他模态对应的模态图像特征，所述其他模态为所述多个模态中除所述样本图像特征对应的模态以外的模态，将所述模态图像特征作为所述样本图像特征对应的模态回归特征，并确定所述模态回归特征与对应模态的样本图像特征之间的特征差值，以及将所述特征差值进行融合，以得到所述不同模态之间的模态关系特征。

在一些实施例中，所述对预设质量检测模型进行收敛，以得到训练后的所述质量检测模型，包括：基于所述预测图像质量值，确定所述第一图像样本组对应的图像质量损失信息；基于所述模态图像特征集合，确定所述第一图像样本组对应的特征回归损失信息，所述特征回归损失信息的约束条件为约束模态回归特征与对应模态的样本图像特征之间的特征差值小于预设差值阈值；将所述图像质量损失信息和所述特征回归损失信息进行融合，并基于融合后的质量检测损失信息，对预设质量检测模型进行收敛，得到所述质量检测模型。

在一些实施例中，所述基于所述预测图像质量，确定所述第一图像样本组对应的图像质量损失信息，包括：获得所述第一图像样本组中标注的质量排序结果和所述第一模态图像样本对应的标注图像质量值；将所述标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，以得到所述第一图像样本组对应的质量回归损失信息；基于所述预测图像质量值，确定所述第一图像样本组的预测质量排序结果，并将所述质量排序结果与所述预测质量排序结果进行对比，以得到所述第一图像样本组对应的质量排序损失信息；以及将所述质量回归损失信息和所述质量排序损失信息作为所述图像质量损失信息。

在一些实施例中，所述对所述第二模态图像进行质量增强，以得到增强后的目标多模态图像组，包括：采用图像质量增强模型分别对所述第一模态图像和所述第二模态图像进行特征提取，得到所述第一模态图像的第一图像内容特征和所述第二模态图像的第二图像内容特征；以及基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，并将所述第一模态图像和所述增强后的第二模态图像作为所述目标多模态图像组。

在一些实施例中，所述基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，包括：基于所述第二图像内容特征，在所述第一图像内容特征中提取出所述第二模态图像对应的候选图像内容特征；将所述第二图像内容特征与所述候选图像内容特征进行拼接，得到所述第二模态图像对应的目标图像内容特征；以及基于所述目标图像内容特征，生成所述第二模态图像对应的目标模态图像，并将所述目标模态图像作为所述增强后的第二模态图像。

在一些实施例中，所述基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，包括：将所述第一图像内容特征与所述第二图像内容特征进行对比，以得到内容增量特征；以及基于所述内容增量特征，生成内容增量图像，并将所述内容增量图像与所述第二模态图像进行叠加，以得到所述增强后的第二模态图像。

在一些实施例中，所述图像质量增强模型的训练过程包括以下步骤：获得所述多个模态对应的初始图像样本组，并对所述初始图像样本组中的至少一个模态的图像样本进行扰动，得到第二模态图像样本；将所述初始图像样本组中未进行扰动的图像样本作为第三模态图像样本，所述第三模态图像样本的图像质量大于所述第二模态图像样本的图像质量；将所述第二模态图像样本和所述第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本；以及基于所述增强后的第二模态图像样本和所述初始图像样本组，对所述预设图像质量增强模型进行收敛，得到训练后的所述图像质量增强模型。

在一些实施例中，所述预设图像质量增强模型包括扰动前的图像样本对应的第一特征编码网络、所述扰动后的图像样本对应的第二特征编码网络和融合解码网络；以及所述将所述第二模态图像样本和所述第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本，包括：将所述第二模态图像样本输入至所述第一特征编码网络，以得到第一样本图像内容特征，将所述第三模态图像样本输入至所述第二特征编码网络，以得到第二样本图像内容特征，以及将所述第一样本图像内容特征和所述第二样本图像内容特征输入至所述融合解码网络，以得到所述增强后的第二模态图像样本。

在一些实施例中，所述对所述预设图像质量增强模型进行收敛，得到训练后的所述图像质量增强模型，包括：在所述初始图像样本图像组中提取出所述第二模态图像样本在扰动前的图像样本，得到初始图像样本；将所述初始图像样本与所述增强后的第二模态图像样本进行对比，以得到图像重建损失信息；以及基于所述图像重建损失信息，对所述预设图像质量增强模型进行收敛，得到所述图像质量增强模型。

在一些实施例中，所述将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户的活体检测结果，包括：将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户对应的攻击概率；以及在所述攻击概率大于预设概率阈值时，确定所述目标用户的活体检测结果为攻击用户。

在一些实施例中，还包括：在所述攻击概率小于所述预设概率阈值时，确定所述目标用户的活体检测用户为正常用户。

在一些实施例中，所述目标活体检测模型的训练过程包括以下步骤：获得所述多个模态对应的第二图像样本组；将所述第二图像样本组输入至预设活体检测模型，以得到所述第二图像样本组对应预测活体类别集合；以及基于所述预测活体类别集合，对所述预设活体检测模型进行收敛，以得到训练后的所述目标活体检测模型。

在一些实施例中，所述第二图像样本组包括第四模态图像样本和第五模态图像样本，所述第四模态图像样本的图像质量大于所述第五模态图像样本的图像质量，所述预设活体检测模型包括所述第四模态图像样本对应的第三特征编码网络、所述第五模态图像样本对应的第四特征编码网络和融合检测网络；以及所述将所述第二图像样本组输入至预设活体检测模型，以得到所述第二图像样本组对应预测活体类别集合，包括：将所述第四模态图像样本输入至所述第三特征编码网络，得到第一图像活体特征和所述第一图像活体特征对应的第一预测活体类别，将所述第五模态图像样本输入至所述第四特征编码网络，得到第二图像活体特征和所述第二图像活体特征对应的第二预测活体类别，将所述第一图像活体特征和所述第二图像活体特征输入至所述融合检测网络，得到融合活体特征和所述融合活体特征对应的第三预测活体类别，以及将所述第一预测活体类别、所述第二预测活体类别和所述第三预测活体类别作为所述预测活体类别集合。

在一些实施例中，所述对所述预设活体检测模型进行收敛，以得到训练后的所述目标活体检测模型，包括：获得所述第二图像样本组对应的标注活体类别，并将所述标注活体类别中分别与所述预测活体类别集合中每一预测活体类别进行对比，以得到活体分类损失信息；将所述预测活体类别集合中不同类别的预测活体类别进行对比，以得到预测一致性损失信息；以及将所述活体分类损失信息和所述预测一致性损失信息进行融合，并基于融合后的活体检测损失信息对预设活体检测模型进行收敛，得到所述目标活体检测模型。

第二方面，本说明书还提供一种活体检测系统，包括：至少一个存储介质，存储有至少一个指令集，用于进行活体检测；以及至少一个处理器，同所述至少一个存储介质通信连接，其中，当所述活体检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的活体检测方法。

由以上技术方案可知，本说明书提供的活体检测方法和系统，在获得目标用户在多个模态下的用户图像，得到多模态图像组，并在所述多模态图像组中选取出第一模态图像和第二模态图像后，所述第一模态图像的图像质量大于所述第二模态图像的图像质量，基于第一模态图像，对第二模态图像进行质量增强，以得到增强后的目标多模态图像组，以及将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果，并输出活体检测结果；由于该方案可以在多个模态下的多模态图像组中识别出质量不同的模态图像，并通过图像质量高的模态图像的信息作为辅助，对图像质量低的模态图像进行质量增强，可以提升低质量模态的模态图像的图像质量，从而可以保证采集到的多个模态的模态图像的质量稳定，因此，可以提升活体检测的准确率。

本说明书提供的活体检测方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的活体检测方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种活体检测系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图；

图3示出了根据本说明书的实施例提供的一种活体检测方法流程图；

图4示出了根据本说明书的实施例提供的一种人脸识别场景下的活体检测的整体流程示意图；以及

图5示出了根据本说明书的实施例提供的一种对目标用户进行多模态的活体检测的流程示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述，本说明书将对以下描述将会出现的术语进行如下解释：

多模态：指的是多种不同类型的图像模态，比如，可以包括色彩图像(RGB或者其他颜色空间对应的图像)、红外图像(NIR)、深度图像(Depth)和热成像图像，等等。

质量增强：指通过深度学习的方法将低质量的图像增强为高质量的图像；

活体检测：人脸识别系统中，对活体攻击(包括手机照片，纸质照片以及面具等攻击行为)进行检测和拦截的算法技术。

在对本说明书具体实施例说明之前，先对本说明书的应用场景进行如下介绍：

本说明书提供的活体检测方法可以应用在任意的活体检测场景中，比如，在人脸支付场景中，可以通过本说明书的活体检测方法对采集的待支付用户的人脸图像进行活体检测；在身份验证场景中，可以通过本说明书的活体检测方法对采集的用户的身份图像进行活体检测；还可以应用在任意的人脸识别场景中，在此就不再一一赘述。

本领域技术人员应当明白，本说明书所述的活体检测方法和系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种活体检测系统001的应用场景示意图。活体检测系统001(以下简称系统001)可以应用于任意场景的活体检测，比如，人脸支付场景下的活体检测、身份验证场景下的活体检测、人脸识别场景下的活体检测，等等，如图1所示，系统001可以包括用户100、客户端200、服务器300以及网络400。

用户100可以为触发对目标用户进行活体检测的用户，用户100可以在客户端200进行活体检测操作，用户100可以为目标用户，也可以为其他用户。

客户端200可以为响应于用户100的活体检测操作对目标用户进行活体检测的设备。在一些实施例中，所述活体检测方法可以在客户端200上执行。此时，客户端200可以存储有执行本说明书描述的活体检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示，客户端200可以与服务器300进行通信连接。在一些实施例中，服务器300可以与多个客户端200进行通信连接。在一些实施例中，客户端200可以通过网络400与服务器300交互，以接收或发送消息等，比如接收或发送目标用户的多模态图像组等。在一些实施例中，客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实手柄、增强现实头盔、增强现实眼镜、增强现实手柄或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端200可以包括图像采集设备，用于采集目标用户在多个模态下的用户图像，从而获得多模态图像组。在一些实施例中，所述图像采集设备可以是二维图像采集设备(比如RGB摄像头)，也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器，等等)。在一些实施例中，客户端200可以是具有定位技术的设备，用于定位客户端200的位置。

在一些实施例中，客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中，客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集目标用户在多个模态下的用户图像，从而获得多模态图像组。在一些实施例中，所述用户100还可以通过所述目标APP触发活体检测请求。所述目标APP可以响应于所述活体检测请求，执行本说明书描述的活体检测方法。所述活体检测方法将在后面的内容中详细介绍。

服务器300可以是提供各种服务的服务器，例如对客户端200上采集的多模态图像组进行活体检测提供支持的后台服务器。在一些实施例中，所述活体检测方法可以在服务器300上执行。此时，服务器300可以存储有执行本说明书描述的活体检测方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接，并接收客户端200发送的数据。

网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示，客户端200和服务器300可以同网络400连接，并且通过网络400互相传输信息或数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙^TM网络、ZigBee^TM网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点，通过该接入点，客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。

应该理解，图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端200、服务器300和网络400。

需要说明的是，所述活体检测方法可以完全在客户端200上执行，也可以完全在服务器300上执行，还可以部分在客户端200上执行，部分在服务器300上执行。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的活体检测方法。所述活体检测方法在本说明书中的其他部分介绍。当所述活体检测方法在客户端200上执行时，计算设备600可以是客户端200。当所述活体检测方法在服务器300上执行时，计算设备600可以是服务器300。当所述活体检测方法可以部分在客户端200上执行，部分在服务器300上执行时，计算设备600可以是客户端200和服务器300。

如图2所示，计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中，计算设备600还可以包括通信端口650和内部通信总线610。同时，计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件，包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信，比如，通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的活体检测方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时，至少一个处理器620读取所述至少一个指令集，并且根据所述至少一个指令集的指示，执行本说明书提供的活体检测方法。处理器620可以执行活体检测方法包含的所有步骤。处理器620可以是一个或多个处理器的形式，在一些实施例中，处理器620可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中心处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备600中仅描述了一个处理器620。然而，应当注意，本说明书中计算设备600还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备600的处理器620执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种活体检测方法P100的流程图。如前，计算设备600可以执行本说明书的活体检测方法P100。具体地，处理器620可以读取存储在其本地存储介质中的指令集，然后根据指令集的规定，执行本说明书的活体检测方法P100。如图3所示，方法P100可以包括：

S110：获得目标用户的多模态图像组，并在多模态图像组中选取出第一模态图像和第二模态图像。

其中，多模态图像组包括目标用户在多个模态下的用户图像。所述多个模态包括色彩图像、深度图像、红外图像或热成像图像中的至少两种模态。所述色彩图像可以包括RGB图像，也可以包括其他颜色空间对应的图像，还可以包括灰度图像、黑白图像或者其他类型的色彩图像。所述用户图像可以为包含目标用户的生物特征的图像。所述生物特征可以包括面部、躯体、虹膜、巩膜、指纹、掌纹、声纹或骨骼投影中的至少一个。

其中，第一模态图像和第二模态图像的模态不同，且第一模态图像的图像质量大于第二模态图像的图像质量。所述图像质量用于表征模态图像的好坏，通过可以包括多个维度，比如，清晰度、完整程度(是否存在残缺或遮罩)、明暗程度、分辨率或图像尺寸，等等。

其中，获得目标用户的多模态图像组的方式可以有多种，具体可以如下：

例如，处理器620可以直接获得用户100通过客户端200或终端上传的目标用户的多模态图像样本组，或者，可以在网络或图像数据库中获得目标用户在多个模态下的用户图像，从而得到目标用户的多模态图像组，或者，可以通过多个模态中每一模态对应的图像采集设备采集对应模态下的目标用户的用户图像，从而得到目标用户的多模态图像组，或者，在目标用户的多模态图像组的内存较大或者图像数量较多时，还可以接收活体检测请求，该活体检测请求中携带多模态图像组的存储地址，基于该存储地址，获得目标用户的多模态图像组，等等。

处理器620在获得目标用户的多模态图像组之后，便可以在多模态图像组中选取出第一模态图像和第二模态图像。选取出第一模态图像和第二模态图像的方式可以有多种，比如，处理器620可以将多模态图像组输入至质量检测模型，以得到多模态图像组中每一模态对应的模态图像的图像质量值，基于图像质量值，对模态图像进行质量排序，以及基于排序结果，在多模态图像组中选取出第一模态图像和第二模态图像。

其中，图像质量值可以为表征多模态图像组中每一模态对应的模态图像的图像质量在多磨图像组中的好坏程度。图像质量值的范围可以根据实际应用来进行设定，比如，可以为1-10，1为图像质量最差，10为图像质量最好，或者，1为图像质量最好，10为图像质量最好，或者，还可以为其他任意数值范围。基于图像质量值，对模态图像进行质量排序的方式可以有多种，比如，处理器620可以根据图像质量值的数值从大至小或者从小到大进行排序，从而得到排序结果，或者，还可以按照实际的图像质量，从图像质量最好至最差依次排序，从而得到排序结果，等等。

处理器620在对模态图像进行质量排序之后，便可以基于排序结果，在多模态图像组中选取出第一模态图像和第二模态图像。选取第一模态图像和第二模态图像的方式可以有多种，比如，处理器620可以基于排序结果，在多模态图像组中选取出预设排序范围对应的至少一个模态图像，得到第二模态图像，以及将多模态图像组中除第二模态图像以外的模态图像作为第一模态图像。

其中，预设排序范围可以为预先设定的排序范围。预设排序范围可以根据实际应用进行设定。预设排序范围对应的模态图像的数量可以为一个也可以为多个，在对应一个时，可以为对应图像质量最低的模态图像(即图像质量值的极值(最大或最小))；在对应多个时，就可以为图像质量较低的模态图像，以图像质量值越大图像质量越高为例，图像质量较低的模态图像就可以为图像质量值最小的至少两个模态图像。以图像质量值越大图像质量越高，排序顺序为从大到小排序为例，在预设排序范围为最后一个时，第二模态图像就可以为排序队列中排在最后一位的模态图像，此时，第二模态图像就可以为多模态图像组中图像质量最差(图像质量值最小)的模态图像；在预设排序范围为最后三个时，第二模态图像就可以为排序队列中排在最后三个的模态图像，依次类推。在选取出低质量的第二模态图像之后，处理器620就可以直接将多模态图像组中除第二模态图像以外的模态图像作为高质量模态的第一模态图像。

在一些实施例中，处理器620还可以对预设质量检测模型进行训练，从而得到训练后的质量检测模型。质量检测模型的训练过程可以包括以下步骤：处理器620可以获得多个模态对应的第一图像样本组，该第一图像样本组包括多个模态中每一模态对应的第一模态图像样本，将第一图像样本组输入至预设质量检测模型，以得到每一模态对应的模态图像特征集合和第一模态图像样本对应的预测图像质量值，以及基于模态图像特征集合和预测图像质量值，对预设质量检测模型进行收敛，以得到训练后的质量检测模型。

其中，预设质量检测模型可以包括每一模态对应的特征提取网络、模态关系识别网络和质量预测网络。所述特征提取网络可以为用于对对应模态的图像样本进行特征提取，比如，RGB图像对应的特征提取网络就可以对RGB图像进行特征提取，从而输出RGB特征，NIR图像对应的特征提取网络就对NIR图像进行特征提取，从而输出NIR特征，等等。模态关系识别网络可以为识别出不同模态之间的特征关系的网络，这里的特征关系主要通过不同模态的样本图像特征之间的差分特征来体现。质量预测网络就可以为预测每一模态对应的模态图像的图像质量值。将第一图像样本组输入至预设质量模型，以得到每一模态对应的模态图像特征集合和第一模态图像样本的预测图像质量值的方式可以有多种，比如，处理器620可以将第一模态图像样本输入至对应模态的特征提取网络，以得到每一模态的样本图像特征，将样本图像特征输入至模态关系识别网络，以得到不同模态之间的模态关系特征和样本图像特征对应的模态回归特征，并将模态回归特征和对应的样本图像特征作为对应模态的模态图像特征集合，以及将样本图像特征和模态关系特征输入至质量预测网络，以得到第一模态图像样本的预测图像值。

其中，模态关系识别网络可以包括模态转换子网络，模态转换子网络主要用于将一个模态的样本图像特征转换为另一个模态的样本图像特征，模态转换后的样本图像特征就可以为模态回归特征，比如，将RGB图像的样本图像特征转换为NIR图像的样本图像特征，此时，NIR图像的样本特征就可以为RGB图像的样本图像特征对应的模态回归特征，或者，将NIR图像的样本图像特征转换为RGB图像的样本图像特征，此时，RGB图像的样本图像特征就可以为NIR图像的样本图像特征对应的模态回归特征，等等。模态关系特征可以表征不同模态的样本图像特征之间的特征关系，这里的特征关系可以用差分特征来表达，因此，模态关系特征也可以理解为不同模态的样本图像特征之间的差分特征。将样本图像特征输入至模态转换子网络，以得到不同模态之间的模态关系特征和样本图像特征对应的模态回归特征的方式可以有多种，比如，处理器620可以将样本图像特征输入至模态转换子网络，以得到其他模态对应的模态图像特征，将模态图像特征作为样本图像特征对应的模态回归特征，并确定模态回归特征与对应模态的样本图像特征之间的特征差值，以及将特征差值进行融合，以得到不同模态之间的模态关系特征。

其中，其他模态为多个模态中除样本图像特征对应的模态以外的模态，比如，以样本图像特征对应的模态为RGB图像为例，则其他模态就可以为除RGB图像以外的其他模态，譬如，可以为NIR图像、Depth图像或者模态，等等。模态图像特征可以为对样本图像特征进行模态转换后的样本图像特征，比如，以多个模态包括RGB图像和NIR图像为例，处理器620将RGB图像的样本图像特征进行模态转换后，就可以得到NIR图像对应的样本图像特征，此时的NIR图像对应的样本图像特征就可以为NIR图像对应的模态图像特征，将NIR图像的样本图像特征进行模态转换后，就可以得到RGB图像对应的样本图像特征，此时的RGB图像的样本图像特征就可以为RGB图像对应的模态图像特征，等等。

处理器620在将样本图像特征转换为其他模态的模态图像特征之后，便可以将模态图像特征作为样本图像特征对应的模态回归特征。比如，处理器620将RGB图像的样本图像特征转换为NIR图像的模态图像特征之后，便可以将NIR图像的模态图像特征作为RGB图像的样本特征对应的模态回归特征。

处理器620在得到样本图像特征对应的模态回归特征之后，便可以确定模态回归特征与对应模态的样本图像特征之间的特征差值。确定特征差值的方式可以有多种，比如，以模态回归特征对应的模态为RGB图像为例，处理器620就可以确定模态回归特征与RGB图像的样本图像特征之间的特征差值，这里的特征差值的形式可以有包括特征距离、特征相似度或者其他类型的差值。

处理器620在确定出模态回归特征与对应模态的样本图像特征之间的特征差值之后，便可以将特征差值进行融合，以得到不同模态之间的模态关系特征。比如，以多个模态包括RGB图像和NIR图像为例，处理器620可以将RGB图像对应的特征差值和NIR图像对应的特征差值相加，从而得到差分特征，将差分特征作为RGB图像与NIR图像之间的模态关系特征。

其中，以多个模态包括RGB图像和NIR图像为例，对于模态关系特征的确定过程可以包括：处理器620将RGB图像输入至RGB图像对应的特征提取网络，得到RGB图像特征，将NIR图像输入至NIR图像对应的特征提取网络，得到NIR图像特征，将RGB特征输入至模态转换子网络，得到模态转换后的NIR回归图像特征，将NIR图像特征输入至模态转换子网络，得到模态转换后的RGB回归图像特征，然后，确定RGB图像特征与RGB回归图像特征之间的特征差值，得到RGB特征差值，确定NIR图像特征与NIR回归图像特征之间的特征差值，NIR特征差值，将RGB特征差值和NIR特征差值相加，得到NIR图像与RGB图像之间的差分特征，将该差分特征作为NIR图像与RGB图像之间的模态关系特征。

处理器620在得到不同模态之间的模态关系特征之后，可以将样本图像特征和模态关系特征输入至质量预测网络，以得到第一模态图像样本的预测图像值。需要说明的是，最后输出的每一个模态对应的第一模态图像样本的预测图像质量值。

处理器620在得到不同模态之间的模态关系特征和样本图像特征对应的模态回归特征之后，还可以将模态回归特征和对应的样本图像特征作为对应模态的模态图像特征集合。以样本图像特征的模态为RGB图像，多个模态包括RGB图像、NIR图像和Depth图像为例，则RGB图像对应的模态图像特征集合中可以包括RGB图像对应的样本图像特征、通过RGB图像对应的样本图像特征回归出的NIR图像对应的模态回归特征和Depth图像对应的模态回归特征，等等。

处理器620在得到模态图像特征集合和预测图像质量值之后，便可以基于模态图像特征集合和预测图像值，对预设质量检测模型进行收敛，以得到训练后的质量检测模型。对预设质量检测模型进行收敛的方式可以有多种，比如，处理器620可以基于预测图像质量值，确定第一图像样本组对应的图像质量损失信息，基于模态图像特征集合，确定第一图像样本图像组对应的特征回归损失信息，将图像质量损失信息和特征回归损失信息进行融合，并基于融合后的质量检测损失信息，对预设质量检测模型进行收敛，得到质量检测模型。

其中，图像质量损失信息可以为通过对图像样本进行图像质量预测产生的损失信息。确定第一图像样本组对应的图像质量损失信息的方式可以有多种，比如，处理器620可以获得第一图像样本组中标注的质量排序结果和第一模态图像样本对应的标注图像质量，将标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，以得到第一图像样本组对应的质量回归损失信息，基于预测图像质量值，确定第一图像样本组的预测质量排序结果，并将质量排序结果与预测质量排序结果进行对比，以得到第一图像样本组对应的质量排序损失信息，以及将质量回归损失信息和质量排序损失信息作为图像质量损失信息。

其中，质量回归损失信息可以为对图像样本进行图像质量值回归时产生的损失信息。将标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，以得到质量回归损失信息的方式可以有多种，比如，处理器620可以采用交叉熵损失函数，将标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，从而得到第一模态图像样本对应的初始质量回归损失信息，将第一图像样本组中的每一第一模态图像样本对应的初始质量回归损失信息进行累加，从而得到质量回归损失信息，或者，还可以采用其他类型的损失函数，将标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，从而得到第一模态图像样本对应的初始质量回归损失信息，将第一图像样本组中的每一第一模态图像样本对应的初始质量回归损失信息进行累加，从而得到质量回归损失信息，等等。

其中，处理器620确定第一图像样本组的预测质量排序结果的方式与对模态图像进行质量排序的方式类似，详见上文所述，在此就不再一一赘述。处理器620在确定出第一图像样本组的预测质量排序结果之后，便可以将质量排序结果与预测质量排序结果进行对比，从而得到第一图像样组对应的质量排序损失信息。所述质量排序损失信息可以为对第一图像样本组中的第一模态图像样本进行质量排序时产生的损失信息。将质量排序结果与预测质量排序结果进行对比的方式可以有多种，比如，处理器620可以采用交叉熵损失函数或者其他类型的损失函数，将预测质量排序结果与标注的质量排序结果进行对比，从而得到第一图像样本组对应的质量排序损失信息。

处理器620在确定出质量回归损失信息和质量排序损失信息之后，便可以将质量回归损失信息和质量排序损失信息作为图像质量损失信息。

其中，特征回归损失信息可以为采用一个模态的样本图像特征回归出其他模态的样本图像特征(模态回归特征)时产生的损失信息。特征回归损失信息的约束条件为约束模态回归特征与对应模态的样本图像特征之间的特征差值小于预设差异阈值。确定第一图像样本组对应的特征回归损失信息的方式可以有多种，比如，处理器620可以在模态图像特征集合中选取出模态回归特征和模态回归特征对应模态的目标样本图像特征，确定模态回归特征与目标样本图像特征之间的目标特征差值，并基于目标特征差值，确定对应模态的初始特征回归损失信息，将初始回归特征损失信息进行融合，从而得到特征回归损失信息。譬如，以多个模态包括RGB图像和NIR图像为例，处理器620就可以确定出RGB图像对应的模态回归特征与RGB图像对应的目标样本图像特征之间的特征差值，得到RGB特征差值，确定出NIR图像对应的模态回归特征与NIR图像对应的目标样本图像特征之间的特征差值，得到NIR特征差值，然后，基于RGB特征差值确定RGB图像对应的初始特征回归损失信息，基于NIR特征差值确定NIR图像对应的初始特征回归损失信息，将NIR图像对应的初始特征回归损失信息和RGB图像对应的初始特征回归损失信息进行融合，就可以得到第一样本图像组对应的特征回归损失信息，或者，还可以直接基于NIR特征差值和RGB特征差值，确定出第一样本图像组对应的特征回归损失信息。

处理器620在确定出图像质量损失信息和特征回归损失信息之后，便可以将图像质量损失信息和特征回归损失信息进行融合，融合的方式可以有多种，比如，处理器620可以直接将图像质量损失信息和特征回归损失信息相加，从而得到融合后的质量检测损失信息，具体可以如公式(1)所示：

Loss_total1＝Loss_quality+Loss_ranking+Loss_regression(1)

其中，Loss_total1为质量检测损失信息，Loss_quality为质量回归损失信息，Loss_ranking为质量排序损失信息，Loss_regrrssion为特征回归损失信息。

在一些实施例中，将图像质量损失信息和特征回归损失信息融合的方式还可以包括：处理器620获得质量检测权重，并基于质量检测权重，对图像质量损失信息和特征回归损失信息进行加权，并将加权后的图像质量损失信息和加权后的特征回归损失信息进行融合，从而得到融合后的质量检测损失信息。

处理器620在将图像质量损失信息和特征回归损失信息进行融合之后，便可以基于融合后的质量检测损失信息，对预设质量检测模型进行收敛，从而得到质量检测模型。对预设质量检测模型进行收敛的方式可以有多种，比如，处理器620可以采用梯度下降算法或者其他网络参数更新算法，基于质量检测损失信息，对预设质量检测模型的网络参数进行更新，得到更新后的初始质量检测模型，将预设质量检测模型更新为初始质量检测模型，返回执行获得第一图像样本组的步骤，直至预设质量检测模型收敛时为止，从而得到训练后的质量检测模型，等等。

S120：基于第一模态图像，对第二模态图像进行质量增强，以得到增强后的多模态图像组。

其中，质量增强可以为提升或者增加第二模态图像的图像质量。

其中，基于第一模态图像，对第二模态图像进行质量增强的方式可以有多种，具体可以如下：

例如，处理器620可以采用质量增强模型分别对第一模态图像和第二模态图像进行特征提取，得到第一模态图像的第一图像内容特征和第二模态图像的第二图像内容特征，以及基于第一图像内容特征和第二图像内容特征，生成增强后的第二模态图像，并将第一模态图像和增强后的第二模态图像作为目标多模态图像组。

其中，第一图像内容特征为第一模态图像中图像内容相关的特征信息，第二图像内容特征为第二模态图像中图像内容相关的特征信息。由于第一模态图像和第二模态图像中的用户为同一用户，且环境为同一环境，不同模态的模态图像之间可以包含相同的图像内容和不同的图像内容。通过图像质量较好的第一模态图像中的图像内容，可以辅助调整或补充第二模态图像中的图像内容，从而提升第二模态图像的图像质量，进而就可以生成增强后的第二模态图像。基于第一图像特征和第二图像内容特征，生成增强后的第二模态图像的方式可以有多种，比如，处理器620可以基于第二图像内容特征，在第一图像内容特征中提取出第二模态图像对应的候选图像内容特征，将第二图像内容特征与候选图像内容特征进行拼接，得到第二模态图像对应的目标图像内容特征，基于目标图像内容特征，生成第二模态图像对应的目标模态图像，并将目标模态图像作为增强后的第二模态图像，或者，可以将第一图像内容特征与第二图像内容特征进行对比，以得到内容增量特征，以及基于内容增量特征，生成增量图像，并将增量图像与第二模态图像进行叠加，以得到增强后的第二模态图像，或者，还可以直接将第一图像内容特征与第二图像内容特征进行融合，并基于融合后的图像内容特征，生成融合模态图像，并将融合模态图像作为增强后的第二模态图像，等等。

其中，候选图像内容特征就可以为候选内容对应的特征信息，所述候选内容为第二模态图像中不存在的第一模态图像中包含的图像内容，比如，第一模态图像中包含图像内容A和B，第二模态图像中仅包含图像内容B，此时，候选内容就可以为图像内容A。在第一图像内容特征中提取出第二模态图像对应的候选图像内容特征的方式可以有多种，比如，处理器620可以将第一图像内容特征转换为第二模态对应的图像内容特征，从而得到转换后的图像内容特征，确定转换后的图像内容特征与第二图像内容特征之间的特征差值，从而得到候选图像内容特征，或者，还可以直接确定出第二图像内容特征与第一图像内容特征之间的特征差值，从而得到候选图像内容特征，等等。

处理器620在提取出候选图像内容特征之后，便可以将第二图像内容特征与候选图像内容特征进行拼接，从而得到第二模态图像对应的目标图像内容特征。将第二图像内容与候选图像内容特征进行拼接的方式可以有多种，比如，处理器620可以直接将候选图像内容与第二图像内容特征直接进行拼接，或者，在候选图像内容特征对应的图像模态与第二模态图像的模态不同时，还可以将候选图像内容特征进行模态转换，并将转换后的候选图像内容特征与第二图像内容特征进行拼接，从而得到第二模态图像对应的目标图像内容特征，等等。

处理器620在将第二图像内容特征与候选图像内容特征进行拼接之后，便可以基于拼接后的目标图像内容特征，生成第二模态图像对应的目标模态图像，并将目标模态图像作为增强后的第二模态图像。

其中，内容增量特征可以为第一图像内容特征中包含的第二图像内容特征中不存在的特征信息。将第一图像内容特征与第二图像内容特征进行对比的方式可以有多种，比如，处理器620可以直接将第一图像内容特征与第二图像内容特征进行对比，并基于对比结果，将第一图像内容特征中存在的图像内容特征，且第二图像内容中不存在的图像内容特征作为内容增量特征，或者，还可以将对第一图像内容特征进行模态转换，并将转换后的第一图像内容特征与第二图像内容特征进行对比，从而得到内容增量特征，等等。

处理器620在得到内容增量特征之后，便可以基于内容增量特征，生成内容增量图像，然后，将内容增量图像与第二模态图像进行叠加，从而得到增强后的第二模态图像。然后，将第一模态图像和增强后的第二模态图像作为目标多模态图像组。

在一些实施例中，处理器620还可以对图像质量增强模型进行训练，从而采用训练后的图像质量增强模型对第二模态图像进行图像质量的增强。图像质量增强模型的训练过程可以包括以下步骤：处理器620可以获得多个模态对应的初始图像样本组，并对初始图像样本组中的至少一个模态的图像样本进行扰动，得到第二模态图像样本，将初始图像样本组中未进行扰动的图像样本作为第三模态图像样本，将第二模态图像样本和第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本，以及基于增强后的第二模态图像样本和初始图像样本组，对预设图像质量增强模型进行收敛，得到训练后的图像质量增强模型。

其中，第二模态图像样本为对图像样本进行扰动后的图像样本，第三模态图像样本为未进行扰动的图像样本，因此，第三模态图像样本的图像质量大于第二模态图像样本的图像质量。扰动的方式可以有多种，比如，添加噪声、遮罩、或者降低图像质量的操作，等等。

其中，预设图像质量增强模型可以包括扰动前的图像样本对应的第一特征编码网络、扰动后的图像样本对应的第二特征编码网络(即低质量模态对应的第二特征编码网络)和融合解码网络。所述第一特征编码网络可以理解为高质量模态对应的特征编码网络，主要用于对第三模态图像样本进行特征编码，从而得到高质量模态对应的样本图像内容特征。所述第二特征编码网络可以理解为低质量模态对应的特征编码网络，主要用于对图像质量较低的第二模态图像样本进行特征编码，从而得到低质量模态对应的样本图像内容特征。所述融合解码网络就可以为基于样本图像特征的融合，以生成增强后的低质量模态对应模态图像样本的网络。将第二模态图像样本和第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本的方式可以有多种，比如，处理器620可以将第二模态图像样本输入至第一特征编码网络，以得到第一样本图像内容特征，将第三模态图像输入至第二特征编码网络，以得到第二样本图像内容特征，以及将第一样本图像内容特征和第二样本图像内容特征输入至融合解码网络，以得到增强后的第二模态图像样本。

处理器620对第二模态图像样本进行质量增强后，便可以基于增强后的第二模态图像样本和初始图像样本组，对预设图像质量增强模型进行收敛，从而得到训练后的图像质量增强模型。对预设图像质量增强模型进行收敛的方式可以有多种，比如，处理器620可以在初始图像样本组中提取出第二模态图像样本在扰动前的图像样本，得到初始图像样本，将初始图像样本与增强后的第二模态图像样本进行对比，以得到图像重建损失信息，以及基于图像重建损失信息，对预设图像质量增强模型进行收敛，得到图像质量增强模型。

其中，图像重建损失信息可以为将扰动后的图像样本恢复为扰动前的图像样本时产生的损失信息。所述扰动后的图像样本就可以为第二模态图像样本，对第二模态图像样本进行图像质量的增强就可以看作是恢复为扰动前的图像样本。将初始图像样本与增强后的第二模态图像样本进行对比的方式可以有多种，比如，处理器620可以确定初始图像样本与增强后的第二模态图像样本的像素差值，并基于像素差值，确定出图像重建损失信息，或者，还可以分别对初始图像样本和增强后的第二模态图像样本进行特征提取，并确定提取出的特征之间的特征距离或者特征相似度，基于特征距离或特征相似度，确定出图像重建损失信息，等等。

处理器620在确定出图像重建损失信息之后，便可以基于图像重建损失信息，对预设图像质量增强模型进行收敛，从而得到图像质量增强模型。对预设图像质量增强模型进行收敛的方式与对预设质量检测模型进行收敛的方式类似，详见上文所述，在此就不再一一赘述。

S130：将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果，并输出活体检测结果。

其中，活体检测结果可以包括目标用户为正常用户(活体用户/真人用户)或攻击用户中的一种。

其中，将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果，并输出活体检测结果的方式可以有多种，具体可以如下：

S131：将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果。

例如，处理器620可以将目标多模态图像组输入至目标活体检测模型，以得到目标用户对应的攻击概率，在攻击概率大于预设概率阈值时，确定目标用户的活体检测结果过为攻击用户，或者，在攻击概率小于预设概率阈值时，确定目标用户的活体检测结果为正常用户。

其中，攻击概率可以为表征目标用户为攻击用户的概率。

在一些实施例中，处理器620还可以对活体检测模型进行训练，从而采用训练后的目标活体检测模型对目标用户进行活体检测。目标活体检测模型的训练过程可以包括以下步骤：处理器620可以获得多个模态对应的第二图像样本组，将第二图像样本组输入至预设活体检测模型，以得到第二图像样本组对应的预测活体类别集合，以及基于预测活体类别集合，对预设活体检测模型进行收敛，以得到训练后的目标活体检测模型。

其中，第二图像样本组包括第四模态图像样本和第五模态图像样本，第四模态图像样本的图像质量大于第五模态图像样本的图像质量，也就可以理解为第四模态图像样本为高质量模态对应的模态图像样本，第五模态图像样本为低质量模态对应的模态图像样本。

其中，预设活体检测模型包括第四模态图像样本对应的第三特征编码网络、第五模态图像样本对应的第四特征编码网络和融合检测网络。所述第三特征编码网络可以为对高质量模态的模态图像样本进行特征提取和活体分类的网络。第四特征编码网络可以为对质量增强后的低质量模态的模态图像样本进行特征提取和活体分类的网络。所述融合检测网络可以为将高质量模态的图像活体特征和低质量模态的图像活体特征进行融合并活体分类的网络。将第二图像样本组输入至预设活体检测模型，以得到第二图像样本组对应的预测活体类别集合的方式可以有多种，比如，处理器620可以将第四模态图像样本输入至第三特征编码网络，得到第一图像活体特征和第一图像活体特征对应的第一预测活体类别，将第五模态图像样本输入至第四特征编码网络，得到第二图像活体特征和第二活体图像特征对应的第二预测活体类别，将第一图像活体特征和第二图像活体特征输入至融合检测网络，得到融合活体特征和融合活体特征对应的第三预测活体类别，以及将第一预测活体类别、第二预测活体类别和第三预测活体类别作为预测活体类别集合。

处理器620在得到预测活体类别集合之后，便可以基于预测活体类别集合，对预设活体检测模型进行收敛，从而得到训练后的目标活体检测模型。对预设活体检测模型进行收敛的方式可以有多种，比如，处理器620可以获得第二图像样本组对应的标注活体类别，并将标注活体类别分别与预测活体类别集合中每一预测活体类别进行对比，以得到活体分类损失信息，将预测活体类别集合中不同类别的预测活体类别进行对比，以得到预测一致性损失信息，以及将活体分类损失信息和预测一致性损失信息进行融合，并基于融合后的活体检测损失信息对预设活体检测模型进行收敛，得到目标活体检测模型。

其中，活体分类损失信息可以为对第二图像样本组中图像样本进行活体分类时产生的损失信息。将标注活体类别分别与预测活体类别集合中每一预测活体类别进行对比，以得到活体分类损失信息的方式可以有多种，比如，处理器620可以将标注活体分类损失信息与第一预测活体类别进行对比，以得到高质量模态对应的第一初始活体分类损失信息，将标注活体类别与第二预测活体类别进行对比，以得到低质量模态对应的第二初始活体分类损失信息，将标注活体类别与第三预测活体类别进行对比，以得到融合活体特征对应的第三初始活体分类损失信息，将第一初始活体分类损失信息、第二初始活体分类损失信息和第三初始活体分类损失信息相加，从而得到活体分类损失信息。

其中，预测一致性损失信息可以理解为针对不同类型的图像活体特征进行活体分类预测时产生的一致性损失。预测一致性损失信息的约束条件可以为约束不同类型的图像活体特征预测的出活体类别之间的误差在预设误差范围内，也就是说不同类型的图像活体特征预测的活体类别之间尽量保持一致。确定预测一致性损失信息的方式可以有多种，比如，处理器620可以将预测活体类别集合中的第一预测活体类别与第二预测活体类别进行对比，以得到第一预测类别损失信息，将第一预测活体类别与第三预测活体类别进行对比，以得到第二预测类别损失信息，将第二预测活体类别与第三预测活体类别进行对比，以得到第三预测类别损失信息，然后，将第一预测类别损失信息、第二预测类别损失信息和第三预测类别损失信息相加，从而得到预测一致性损失信息。

处理器620在确定出活体分类损失信息和预测一致性损失信息之后，便可以将分类损失信息和预测一致性损失信息进行融合，从而得到融合后的活体检测损失信息。融合的方式可以有多种，比如，处理器620可以直接将分类损失信息和预测一致性损失信息相加，从而得到目标活体损失信息，具体可以如公式(2)所示：

Loss_total2＝Loss_cls+Loss_consistency (2)

其中，Loss_total2为活体检测损失信息，Loss_cla为活体分类损失信息，Loss_consistency为预测一致性损失信息。

在一些实施例中，将分类损失信息和预测一致性损失信息进行融合的方式还可以包括：处理器620获得活体检测权重，并基于活体检测权重，分别对分类损失信息和预测一致性损失信息进行加权，并将加权后的分类损失信息和加权后的预测一致性损失信息相加，从而得到活体检测损失信息。

处理器620在将分类损失信息和预测一致性损失信息进行融合之后，便可以基于融合后的活体检测损失信息，对预设活体检测模型进行收敛，从而得到训练后的目标活体检测模型。对预设活体检测模型进行收敛的方式与对预设质量检测模型进行收敛的方式类似，详见上文所述，在此就不再一一赘述。

S132：输出活体检测结果。

例如，处理器620可以直接将活体检测结果发送至用户100或目标用户对应的客户端200、终端或服务器，以便客户端200、终端或服务器基于活体检测结果对目标用户或目标用户对应的请求进行响应，或者，还可以直接可视化展示该活体检测结果，等等。

其中，可视化展示活体检测结果的方式可以有多种，比如，处理器620可以直接显示该活体检测结果，或者，可以通过声光等方式展示该活体检测结果(譬如，通过语音播报活体检测结果，或者，可以通过显式不同颜色的光显式不同类型的活体检测结果，或者，还可以通过声光联动的方式展示活体检测结果)，或者，还可以针对特定类型的活体检测结果进行展示(譬如，仅针对攻击用户这一类型的活体检测结果进行展示，或者，仅针对正常用户这一类型的活体检测结果进行展示，等等)，等等。

在一些实施例中，处理器620还可以在确定出目标用户的活体检测结果或者输出该活体检测结果之后，基于该活体检测结果对目标用户或者目标用户对应的请求进行响应，响应的方式可以有多种，比如，处理器620可以直接对目标用户或目标用户对应的请求进行拦截，或者，处理器620还可以直接对目标用户进行二次验证，并基于二次验证结果，对目标用户或目标用户对应的请求进行最终的响应，等等。

其中，在人脸识别场景下，本方案可以基于高质量模态的图像来提升低质量模态的图像的质量，从而利用质量增强后的图像进行活体检测，整体的检测流程可以包括：多模态质量排序、多模态质量增强、多模态活体检测模型训练、以及模型部署与活体检测等四部分，如图4所示，具体可以如下：

(1)多模态质量排序：利用多模态图像之间的关系，进行多模态图像的质量检测和相对质量的排序；通过质量检测和排序，可以找出低质量的模态，在后续环节对其进行质量增强，从而增强多模态活体检测的性能。质量排序的主要包括采集多模态人脸图像(比如，包括RGB、NIR和Depth的人脸图像)，人工对图像质量进行标注，然后，通过标注后的多模态图像样本，对预设质量检测模型进行训练，训练的过程参见上文所述。通过训练后的质量检测模型就可以对多模态的人脸图像预测出质量分，进而基于质量分对图像进行质量排序。

(2)多模态质量增强：基于质量较好的模态作为参考，对质量较差的模态进行跨模态的质量增强，例如，当RGB和Depth质量较好且NIR质量较差时，利用RGB和Depth的信息辅助进行NIR质量增强，生成更加高质量的NIR图像。图像质量增强可以通过图像质量增强模型来实现，图像质量增强模型的训练过程参见上文所述。

(3)多模态活体检测模型训练：通过质量增强后的图像样本和高质量模态对应的图像样本，对预设活体检测模型进行训练，从而得到训练后的目标活体检测模型。预设活体检测模型的训练可以参见上文所述。另外，在进行多模态的目标活体检测模型的训练或者应用时，相对于质量增强前的图像，增强后的图像可以显著降低对于用户的打扰，而且，还可以提升目标活体检测模型的检测精度或检测性能。

(4)模型部署与活体检测：通过多模态的成像系统，采集目标用户的多模态下的人脸图像(比如RGB+NIR+Depth图像)，从而得到多模态图像组，将多模态图像组输入至多模态图像的质量检测模型中，从而得到每一模态的人脸图像的质量分，将质量分最低的作为低质量模态的人脸图像，将多模态图像组中其他的人脸图像作为高质量模态的人脸图像。基于高质量模态的人脸图像，将低质量模态的人脸图像通过图像质量增强模型进行质量增强，从而得到增强后的低质量模态的人脸图像。将高质量模态的人脸图像和增强后的低质量模态的人脸图像输入至对应的多模态的目标活体检测模型，从而得到目标用户的攻击概率p，对于提前设定的攻击概率阈值T，在p大于T时，则判断目标用户为攻击用户，否则判断为正常用户(活体用户)。以低质量模态对应的人脸图像为NIR图像为例，活体检测的具体流程可以如图5所示。

综上所述，本说明书提供的图活体检测方法P100和系统001，在获得目标用户在多个模态下的用户图像，得到多模态图像组，并在所述多模态图像组中选取出第一模态图像和第二模态图像后，所述第一模态图像的图像质量大于所述第二模态图像的图像质量，基于第一模态图像，对第二模态图像进行质量增强，以得到增强后的目标多模态图像组，以及将目标多模态图像组输入至目标活体检测模型，以得到目标用户的活体检测结果，并输出活体检测结果；由于该方案可以在多个模态下的多模态图像组中识别出质量不同的模态图像，并通过图像质量高的模态图像的信息作为辅助，对图像质量低的模态图像进行质量增强，可以提升低质量模态的模态图像的图像质量，从而可以保证采集到的多个模态的模态图像的质量稳定，因此，可以提升活体检测的准确率。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来进行活体检测的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的活体检测方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备600上运行时，所述程序代码用于使计算设备600执行本说明书描述的活体检测方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备600上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种活体检测方法，包括：

获得目标用户的多模态图像组，并在所述多模态图像组中选取出第一模态图像和第二模态图像，所述多模态图像组包括所述目标用户在多个模态下的用户图像，所述第一模态图像的图像质量大于所述第二模态图像的图像质量；

基于所述第一模态图像，对所述第二模态图像进行质量增强，以得到增强后的目标多模态图像组；以及

将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户的活体检测结果，并输出所述活体检测结果。

2.根据权利要求1所述的活体检测方法，其中，所述多个模态包括色彩图像、深度图像、红外图像或热成像图像中的至少两种模态。

3.根据权利要求1所述的活体检测方法，其中，所述在所述多模态图像组中选取出第一模态图像和第二模态图像，包括：

将所述多模态图像组输入至质量检测模型，以得到所述多模态图像组中每一模态对应的模态图像的图像质量值；

基于所述图像质量值，对所述模态图像进行质量排序；以及

基于排序结果，在所述多模态图像组中选取出所述第一模态图像和所述第二模态图像。

4.根据权利要求3所述的活体检测方法，其中，所述基于排序结果，在所述多模态图像组中选取出所述第一模态图像和所述第二模态图像，包括：

基于排序结果，在所述多模态图像组中选取出预设排序范围对应的至少一个模态图像，得到所述第二模态图像；以及

将所述多模态图像组中除所述第二模态图像以外的模态图像作为所述第一模态图像。

5.根据权利要求3所述的活体检测方法，其中，所述质量检测模型的训练过程包括以下步骤：

获得所述多个模态对应的第一图像样本组，所述第一图像样本组包括所述多个模态中每一模态对应的第一模态图像样本；

将所述第一图像样本组输入至预设质量检测模型，以得到所述每一模态对应的模态图像特征集合和所述第一模态图像样本的预测图像质量值；以及

基于所述模态图像特征集合和所述预测图像质量值，对所述预设质量检测模型进行收敛，以得到训练后的所述质量检测模型。

6.根据权利要求5所述的活体检测方法，其中，所述预设质量检测模型包括所述每一模态对应的特征提取网络、模态关系识别网络和质量预测网络；以及

所述将所述第一图像样本组输入至预设质量检测模型，以得到所述每一模态对应的模态图像特征集合和所述第一模态图像样本的预测图像质量值，包括：

将所述第一模态图像样本输入至对应模态的特征提取网络，得到所述每一模态的样本图像特征，

将所述样本图像特征输入至所述模态关系识别网络，以得到不同模态之间的模态关系特征和所述样本图像特征对应的模态回归特征，并将所述模态回归特征和对应的所述样本图像特征作为对应模态的所述模态图像特征集合，以及

将所述样本图像特征和所述模态关系特征输入至所述质量预测网络，以得到所述第一模态图像样本的预测图像质量值。

7.根据权利要求6所述的活体检测方法，其中，所述模态关系识别网络包括模态转换子网络，以及

所述将所述样本图像特征输入至所述模态关系识别网络，以得到不同模态之间的模态关系特征和所述样本图像特征对应的模态回归特征，包括：

将所述样本图像特征输入至所述模态转换子网络，以得到其他模态对应的模态图像特征，所述其他模态为所述多个模态中除所述样本图像特征对应的模态以外的模态，

将所述模态图像特征作为所述样本图像特征对应的模态回归特征，并确定所述模态回归特征与对应模态的样本图像特征之间的特征差值，以及

将所述特征差值进行融合，以得到所述不同模态之间的模态关系特征。

8.根据权利要求5所述的活体检测方法，其中，所述对预设质量检测模型进行收敛，以得到训练后的所述质量检测模型，包括：

基于所述预测图像质量值，确定所述第一图像样本组对应的图像质量损失信息；

基于所述模态图像特征集合，确定所述第一图像样本组对应的特征回归损失信息，所述特征回归损失信息的约束条件为约束模态回归特征与对应模态的样本图像特征之间的特征差值小于预设差值阈值；

将所述图像质量损失信息和所述特征回归损失信息进行融合，并基于融合后的质量检测损失信息，对预设质量检测模型进行收敛，得到所述质量检测模型。

9.根据权利要求8所述的活体检测方法，其中，所述基于所述预测图像质量，确定所述第一图像样本组对应的图像质量损失信息，包括：

获得所述第一图像样本组中标注的质量排序结果和所述第一模态图像样本对应的标注图像质量值；

将所述标注图像质量值与对应的第一模态图像样本的预测图像质量值进行对比，以得到所述第一图像样本组对应的质量回归损失信息；

基于所述预测图像质量值，确定所述第一图像样本组的预测质量排序结果，并将所述质量排序结果与所述预测质量排序结果进行对比，以得到所述第一图像样本组对应的质量排序损失信息；以及

将所述质量回归损失信息和所述质量排序损失信息作为所述图像质量损失信息。

10.根据权利要求1所述的活体检测方法，其中，所述对所述第二模态图像进行质量增强，以得到增强后的目标多模态图像组，包括：

采用图像质量增强模型分别对所述第一模态图像和所述第二模态图像进行特征提取，得到所述第一模态图像的第一图像内容特征和所述第二模态图像的第二图像内容特征；以及

基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，并将所述第一模态图像和所述增强后的第二模态图像作为所述目标多模态图像组。

11.根据权利要求10所述的活体检测方法，其中，所述基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，包括：

基于所述第二图像内容特征，在所述第一图像内容特征中提取出所述第二模态图像对应的候选图像内容特征；

将所述第二图像内容特征与所述候选图像内容特征进行拼接，得到所述第二模态图像对应的目标图像内容特征；以及

基于所述目标图像内容特征，生成所述第二模态图像对应的目标模态图像，并将所述目标模态图像作为所述增强后的第二模态图像。

12.根据权利要求10所述的活体检测方法，其中，所述基于所述第一图像内容特征和所述第二图像内容特征，生成增强后的第二模态图像，包括：

将所述第一图像内容特征与所述第二图像内容特征进行对比，以得到内容增量特征；以及

基于所述内容增量特征，生成内容增量图像，并将所述内容增量图像与所述第二模态图像进行叠加，以得到所述增强后的第二模态图像。

13.根据权利要求10所述的活体检测方法，其中，所述图像质量增强模型的训练过程包括以下步骤：

获得所述多个模态对应的初始图像样本组，并对所述初始图像样本组中的至少一个模态的图像样本进行扰动，得到第二模态图像样本；

将所述初始图像样本组中未进行扰动的图像样本作为第三模态图像样本，所述第三模态图像样本的图像质量大于所述第二模态图像样本的图像质量；

将所述第二模态图像样本和所述第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本；以及

基于所述增强后的第二模态图像样本和所述初始图像样本组，对所述预设图像质量增强模型进行收敛，得到训练后的所述图像质量增强模型。

14.根据权利要求13所述的活体检测方法，其中，所述预设图像质量增强模型包括扰动前的图像样本对应的第一特征编码网络、所述扰动后的图像样本对应的第二特征编码网络和融合解码网络；以及

所述将所述第二模态图像样本和所述第三模态图像样本输入至预设图像质量增强模型，以得到增强后的第二模态图像样本，包括：

将所述第二模态图像样本输入至所述第一特征编码网络，以得到第一样本图像内容特征，

将所述第三模态图像样本输入至所述第二特征编码网络，以得到第二样本图像内容特征，以及

将所述第一样本图像内容特征和所述第二样本图像内容特征输入至所述融合解码网络，以得到所述增强后的第二模态图像样本。

15.根据权利要求13所述的活体检测方法，其中，所述对所述预设图像质量增强模型进行收敛，得到训练后的所述图像质量增强模型，包括：

在所述初始图像样本图像组中提取出所述第二模态图像样本在扰动前的图像样本，得到初始图像样本；

将所述初始图像样本与所述增强后的第二模态图像样本进行对比，以得到图像重建损失信息；以及

基于所述图像重建损失信息，对所述预设图像质量增强模型进行收敛，得到所述图像质量增强模型。

16.根据权利要求1所述的活体检测方法，其中，所述将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户的活体检测结果，包括：

将所述目标多模态图像组输入至目标活体检测模型，以得到所述目标用户对应的攻击概率；以及

在所述攻击概率大于预设概率阈值时，确定所述目标用户的活体检测结果为攻击用户。

17.根据权利要求16所述的活体检测方法，其中，还包括：

在所述攻击概率小于所述预设概率阈值时，确定所述目标用户的活体检测用户为正常用户。

18.根据权利要求1所述的活体检测方法，其中，所述目标活体检测模型的训练过程包括以下步骤：

获得所述多个模态对应的第二图像样本组；

将所述第二图像样本组输入至预设活体检测模型，以得到所述第二图像样本组对应预测活体类别集合；以及

基于所述预测活体类别集合，对所述预设活体检测模型进行收敛，以得到训练后的所述目标活体检测模型。

19.根据权利要求18所述的活体检测方法，其中，所述第二图像样本组包括第四模态图像样本和第五模态图像样本，所述第四模态图像样本的图像质量大于所述第五模态图像样本的图像质量，所述预设活体检测模型包括所述第四模态图像样本对应的第三特征编码网络、所述第五模态图像样本对应的第四特征编码网络和融合检测网络；以及

所述将所述第二图像样本组输入至预设活体检测模型，以得到所述第二图像样本组对应预测活体类别集合，包括：

将所述第四模态图像样本输入至所述第三特征编码网络，得到第一图像活体特征和所述第一图像活体特征对应的第一预测活体类别，

将所述第五模态图像样本输入至所述第四特征编码网络，得到第二图像活体特征和所述第二图像活体特征对应的第二预测活体类别，

将所述第一图像活体特征和所述第二图像活体特征输入至所述融合检测网络，得到融合活体特征和所述融合活体特征对应的第三预测活体类别，以及

将所述第一预测活体类别、所述第二预测活体类别和所述第三预测活体类别作为所述预测活体类别集合。

20.根据权利要求18所述的活体检测方法，其中，所述对所述预设活体检测模型进行收敛，以得到训练后的所述目标活体检测模型，包括：

获得所述第二图像样本组对应的标注活体类别，并将所述标注活体类别中分别与所述预测活体类别集合中每一预测活体类别进行对比，以得到活体分类损失信息；

将所述预测活体类别集合中不同类别的预测活体类别进行对比，以得到预测一致性损失信息；以及

将所述活体分类损失信息和所述预测一致性损失信息进行融合，并基于融合后的活体检测损失信息对预设活体检测模型进行收敛，得到所述目标活体检测模型。

21.一种活体检测系统，包括：

至少一个存储介质，存储有至少一个指令集，用于进行活体检测；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述活体检测系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-20中任一项所述的活体检测方法。