CN116959127A

CN116959127A - 活体检测方法、活体检测模型训练方法、装置及电子设备

Info

Publication number: CN116959127A
Application number: CN202310804978.2A
Authority: CN
Inventors: 王珂尧; 张国生
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-27

Abstract

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，具体为计算机视觉、图像处理、深度学习等技术领域，可应用于智慧城市等场景，具体涉及一种活体检测方法、活体检测模型训练方法、装置及电子设备。具体实现方案为：获取针对目标对象的多张活体检测图像；针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；基于多个光流特征组，获得针对目标对象的活体检测结果。采用本公开可以提高活体检测结果的准确性。

Description

活体检测方法、活体检测模型训练方法、装置及电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域，具体为计算机视觉、图像处理、深度学习等技术领域，可应用于智慧城市等场景，具体涉及一种活体检测方法、活体检测模型训练方法、装置及电子设备。

背景技术

活体检测技术是指通过电子设备判别目标人脸是真实人脸，还是伪造的人脸攻击的技术，人脸攻击可以是合法用户的图片或提前拍摄的视频等。

发明内容

本公开提供了一种活体检测方法、活体检测模型训练方法、装置及电子设备。

根据本公开的一方面，提供了一种活体检测方法，包括：

获取针对目标对象的多张活体检测图像；

针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；

将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

基于多个光流特征组，获得针对目标对象的活体检测结果。

根据本公开的另一方面，提供了一种活体检测模型训练方法，包括：

获取针对目标训练对象的多张活体检测图像样本；

针对每张活体检测图像样本，从活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个人脸图像样本组包括具有相同尺度的多张人脸图像样本；

将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

在待训练的活体检测模型中，基于多个光流特征样本组，获得针对目标训练对象的活体预测结果；

根据活体预测结果和针对目标训练对象的活体预测标签，对待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

根据本公开的另一方面，提供了一种活体检测装置，包括：

检测图像获取单元，用于获取针对目标对象的多张活体检测图像；

人脸图像获取单元，用于针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；

光流特征获取单元，用于将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

活体检测单元，用于基于多个光流特征组，获得针对目标对象的活体检测结果。

根据本公开的另一方面，提供了一种活体检测模型训练装置，包括：

检测图像样本获取单元，用于获取针对目标训练对象的多张活体检测图像样本；

人脸图像样本获取单元，用于针对每张活体检测图像样本，从活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个人脸图像样本组包括具有相同尺度的多张人脸图像样本；

光流特征样本获取单元，用于将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

活体预测单元，用于在待训练的活体检测模型中，基于多个光流特征样本组，获得针对目标训练对象的活体预测结果；

模型训练单元，用于根据活体预测结果和针对目标训练对象的活体预测标签，对待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；

与该至少一个处理器通信连接的存储器；

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。

采用本公开可以提高活体检测结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种活体检测方法的流程示意图；

图2A和2B为本公开实施例提供的一种人脸图像的截取方式说明图；

图3为本公开实施例提供的一种个人脸图像组的组成方式说明图；

图4为本公开实施例提供的一种图像特征分组的组成方式说明图；

图5A和5B为本公开实施例提供的一种图像光流特征的获取方式说明图；

图6A和6B为本公开实施例提供的一种活体检测结果的获取过程说明图；

图7为本公开实施例提供的一种活体检测方法的完整流程说明图；

图8为本公开实施例提供的一种活体检测模型训练方法的流程示意图；

图9为本公开实施例提供的一种活体检测方法和/或活体检测模型训练方法的场景示意图；

图10为本公开实施例提供的一种活体检测装置的示意性结构框图；

图11为本公开实施例提供的一种活体检测模型训练装置的示意性结构框图；

图12为本公开实施例提供的一种电子设备的示意性结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，活体检测方法主要分为两大类：第一类方法，通过卷积神经网络对目标对象的人脸图像进行特征提取，获得人脸特征提取结果，再据此获得针对目标对象的活体检测结果；第二类方法，通过传统的人脸手工特征提取的方式，对目标对象的人脸图像进行特征提取，获得人脸特征提取结果，再据此获得针对目标对象的活体检测结果。其中，第一类方法通常仅通过卷积神经网络对目标对象的单张人脸图像进行特征提取，获得人脸特征提取结果，再据此获得针对目标对象的活体检测结果。第二类方法具体可以是基于手工设计的特征提取器，对目标对象的人脸图像进行特征提取，获得人脸特征提取结果，然后，通过支持向量机(Support Vector Machine，SVM)等传统分类器对人脸特征提取结果进行分类，获得针对目标对象的活体检测结果。

经发明人研究发现，以上第一类方法中，由于仅通过卷积神经网络对目标对象的单张人脸图像进行特征提取，获得人脸特征提取结果时，因此，样本泛化能力差，对于复杂多样的攻击方式应对能力较差，会降低活体检测结果的准确性。第二类方法对于真实检测场景中可能存在的人脸姿态过大或光照差异较大等情况，鲁棒性较差，因此，也会降低活体检测结果的准确性。

基于以上背景，本公开实施例提供了一种活体检测方法，其可以应用于电子设备。以下，将结合图1所示流程示意图，对本公开实施例提供的一种活体检测方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S101，获取针对目标对象的多张活体检测图像；

步骤S102，针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；

步骤S103，将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

步骤S104，基于多个光流特征组，获得针对目标对象的活体检测结果。

其中，多张活体检测图像可以从人脸视频中获取。在一具体示例中，多张活体检测图像可以从人脸视频中按照预设时间间隔抽取、且每张活体检测图像中均包括目标对象。其中，预设时间间隔可以是8秒(S)，本公开实施例对此不作具体限制。

此外，本公开实施例中，针对每张活体检测图像，在从该张活体检测图像中截取至少两张不同尺度的人脸图像时，可以使得每张人脸图像均包括目标对象的人脸区域。基于此，可以理解的是，本公开实施例中，任意两张人脸图像之间的尺度差异主要取决于这两张人脸图像中所涵盖的目标对象的背景区域的大小。在针对每张活体检测图像，从该张活体检测图像中截取至少两张不同尺度的人脸图像之后，可以基于获取到的所有人脸图像，组成至少两个人脸图像组。其中，每个人脸图像组包括具有相同尺度的多张人脸图像。

在获得至少两个人脸图像组之后，可以将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组。在一具体示例中，针对每个人脸图像组，可以基于该人脸图像组所包括的多张人脸图像，获得多个图像光流特征，再组成与该人脸图像组对应的光流特征组。其中，每个图像光流特征可以用于表征该人脸图像组所包括的多张人脸图像中，两张人脸图像之间的光流特征差异。

在获得多个光流特征组之后，可以基于多个光流特征组，获得针对目标对象的活体检测结果。在一具体示例中，针对每个人脸图像组，可以将该人脸图像组所包括的图像光流特征进行拼接，获得局部特征拼接结果，并通过目标特征提取网络，获得与该局部特征拼接结果对应的局部特征提取结果，最终，可以获得多个局部特征拼接结果，再基于多个局部特征拼接结果，获得针对目标对象的活体检测结果。其中，目标特征提取网络可以是基于注意力机制实现的特征提取网络，例如，Vision Transformer。

采用本公开实施例提供的活体检测方法，可以获取针对目标对象的多张活体检测图像；针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；基于多个光流特征组，获得针对目标对象的活体检测结果。一方面，由于活体检测过程中，所用的多张人脸图像是多尺度的，因此，可以提高活体检测方法的泛化能力，使得该活体检测方法对于复杂多样的攻击方式具有较强的应对能力，从而提高活体检测结果的准确性；另一方面，由于在获取到至少两个人脸图像组之后，是将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组，并基于多个光流特征组，获得针对目标对象的活体检测结果，而非直接基于人脸图像组本身，获得针对目标对象的活体检测结果，因此，对于真实检测场景中可能存在的人脸姿态过大或光照差异较大等情况，也具有较强的鲁棒性，从而进一步提高活体检测结果的准确性。

本公开实施例中，人脸视频可以是智慧城市、考勤、门禁、安防、金融支付、安全监控等多种场景下，通过监控设备采集的针对目标对象的监控视频。

此外，需要说明的是，本公开实施例中，“从活体检测图像中截取至少两张不同尺度的人脸图像”可以包括以下步骤：

对活体检测图像进行图像预处理，以确定活体检测图像中目标对象的人脸预测区域；

从人脸预测区域中确定目标对象的人脸关键点；

基于人脸关键点，确定活体检测图像中目标对象的人脸区域；

根据活体检测图像中目标对象的人脸区域，从活体检测图像中截取至少两张不同尺度的人脸图像。

本公开实施例中，可以通过人脸检测模型，对活体检测图像进行图像预处理，以确定活体检测图像中目标对象的人脸预测区域，以及通过人脸关键点检测模型，从人脸预测区域中确定目标对象的人脸关键点，并基于人脸关键点，确定活体检测图像中目标对象的人脸区域。例如，可以通过人脸关键点检测模型，在人脸预测区域中确定目标对象的72个人脸关键点，分别表征为(x1，y1)、(x2，y2)……(x72，y72)，并根据这72个人脸关键点，确定活体检测图像中目标对象的人脸区域。

请结合图2A和图2B，在确定活体检测图像中目标对象的人脸区域之后，可以根据该张活体检测图像中目标对象的人脸区域，通过仿射变换的方式，从该张活体检测图像中截取至少两张不同尺度的人脸图像、且每张人脸图像均包括目标对象的人脸区域。此后，可以对每张人脸图像进行尺度调整，以实现人脸图像的尺度统一化。例如，可以将每张人脸图像的尺寸调整为112*112单位像素，本公开实施例对此不作具体限制。

在一些可选的实施方式中，至少两张不同尺度的人脸图像可以包括第一人脸图像和第二人脸图像，其中，第一人脸图像包括目标对象的人脸区域，第二人脸图像包括目标对象的人脸区域和至少部分背景区域。如图2A所示，在一具体示例中，第一人脸图像可以是目标对象的人脸区域的外接矩形所涵盖的图像区域，也即，第一人脸图像可以是目标对象的人脸区域的一倍尺寸图像，第二人脸图像可以是目标对象的人脸区域的两倍尺寸图像。此外，如图2B所示，本公开实施例中，在获得第一人脸图像之后，还可以通过(0，0，0)像素，对第一人脸图像所涵盖的背景区域进行掩码处理，获得新的第一人脸图像。

通过以上设置，本公开实施例中，至少两张不同尺度的人脸图像可以包括第一人脸图像和第二人脸图像，其中，第一人脸图像包括目标对象的人脸区域，第二人脸图像包括目标对象的人脸区域和至少部分背景区域。基于此，活体检测方法可以基于活体检测图像的前景区域(也即，目标对象的人脸区域)进行图像光流特征的处理，也可以结合活体检测图像的前景区域和背景区域(具体可以是同一人脸图像中的前景区域和背景区域，也可以是不同人脸图像中的前景区域和背景区域)进行图像光流特征的处理，可以提高活体检测方法的泛化能力，使得该活体检测方法对于复杂多样的攻击方式具有较强的应对能力，从而提高活体检测结果的准确性。

此外，本公开实施例中，在从活体检测图像中截取至少两张不同尺度的人脸图像之后，还可以对每张人脸图像进行归一化处理和数据增强处理。在一具体示例中，针对每张人脸图像，可以将该张人脸图像中的每个像素点的像素值减去128，再除以256，是的每个像素点的像素值在县像素区间[-0.5，0.5]之间，以简化人脸图像的图像数据。此后，再对经过简化的人脸图像进行数据增强处理。其中，数据增强处理可以包括翻转、旋转、裁剪、变形、缩放等处理中的至少一者，以提高活体检测方法的泛化能力。

请结合图3，本公开实施例中，假设，活体检测图像有8张、且针对每张活体检测图像，从该张活体检测图像中截取的至少两张不同尺度的人脸图像包括第一人脸图像和第二人脸图像，那么，在对每张人脸图像进行归一化处理和数据增强处理之后，可以组成两个人脸图像组，其中，第一人脸图像组包括8张第一人脸图像，分别为第一人脸图像A、第一人脸图像B……第一人脸图像H，第二人脸图像组包括8张第二人脸图像，分别为第二人脸图像A、第二人脸图像B……第二人脸图像H。

在一些可选的实施方式中，“将每个人脸图像组转换为包括多个图像光流特征的光流特征组”可以包括以下步骤：

利用人脸图像组所包括的多张人脸图像，构建多个图像特征分组；其中，每个图像特征分组包括两张初始特征图像、且每张初始特征图像对应人脸图像组所包括的多张人脸图像中的一张人脸图像；

计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征；

基于多个光流差异特征，组成包括多个图像光流特征的光流特征组。

其中，每张初始特征图像对应人脸图像组所包括的多张人脸图像中的一张人脸图像。在一具体示例中，每张初始特征图像即为一张人脸图像。

此外，在获取到与人脸图像组所包括的多张人脸图像一一对应的多张初始特征图像之后，可以对多张初始特征图像进行两两组合，以构建多个图像特征分组。其中，图像特征分组的数量与该人脸图像组所包括的人脸图像的数量相同。

在构建多个图像特征分组之后，再计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征，并基于多个光流差异特征，组成包括多个图像光流特征的光流特征组。在一具体示例中，可以通过Farneback等稠密光流算法，计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征；在另一具体示例中，可以通过Lucas-Kanade等稀疏光流算法，计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，本公开实施例对此不作具体限制。

通过以上步骤，本公开实施例中，可以利用人脸图像组所包括的多张人脸图像，构建多个图像特征分组；其中，每个图像特征分组包括两张初始特征图像、且每张初始特征图像对应人脸图像组所包括的多张人脸图像中的一张人脸图像；计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征；基于多个光流差异特征，组成包括多个图像光流特征的光流特征组。由于每张初始特征图像对应人脸图像组所包括的多张人脸图像中的一张人脸图像，因此，可以增强光流特征组与该张人脸图像组所包括的多张人脸图像的相关性，从而提高活体检测结果的准确性。

在一些可选的实施方式中，“利用人脸图像组所包括的多张人脸图像，构建多个图像特征分组”可以包括以下步骤：

在活体检测模型中，通过第一特征提取网络，利用人脸图像组所包括的多张人脸图像，获取多张初始特征图像；其中，多张初始特征图像与人脸图像组所包括的多张人脸图像一一对应；

利用多张初始特征图像，构建多个图像特征分组。

其中，第一特征提取网络可以是卷积神经网络、且第一特征提取网络可以包括3个卷积层。以人脸图像组所包括的多张人脸图像中，每张人脸图像的尺寸为112*112单位像素为例，在一具体示例中，可以将第一特征提取网络所包括的第三个卷积层的步长设置为2。如此，可以实现对该人脸图像组所包括的多张人脸图像中的每张人脸图像进行降采样处理，将每张人脸图像的尺寸调整为56*56单位像素，以简化人脸图像的图像数据。

在获取到多张初始特征图像之后，再利用多张初始特征图像，构建多个图像特征分组。

通过以上步骤，本公开实施例中，由于可以在活体检测模型中，通过第一特征提取网络，利用人脸图像组所包括的多张人脸图像，获取多张初始特征图像、且多张初始特征图像与人脸图像组所包括的多张人脸图像一一对应，以提高人脸图像的特征表示能力，使得在利用多张初始特征图像，构建多个图像特征分组、且将图像特征分组应用于活体检测方法的后续步骤时，可以进一步提高活体检测结果的准确性。

在一些可选的实施方式中，“利用多张初始特征图像，构建多个图像特征分组”可以包括以下步骤：

在多张初始特征图像中存在视频时间戳晚于第一目标图像的至少一张候选特征图像的情况下，从至少一张候选特征图像中选取视频时间戳靠近第一目标图像的第二目标图像；其中，第一目标图像为多张初始特征图像中的任一图像；

在多张初始特征图像中不存在视频时间戳晚于第一目标图像的至少一张候选特征图像的情况下，从多张初始特征图像中选取任意初始特征图像，作为第二目标图像；

构建包括第一目标图像和第二目标图像的图像特征分组。

其中，每张初始特征图像具有一个对应的视频时间戳，该视频时间戳用于表征与该初始特征图像对应的人脸图像在人脸视频中所对应的图像帧播放时间。

请结合图4，假设，存在第一人脸图像组、且第一人脸图像组包括8张第一人脸图像，分别为第一人脸图像A、第一人脸图像B……第一人脸图像H、且第一人脸图像A、第一人脸图像B……第一人脸图像H在人脸视频中所对应的图像帧播放时间依次靠后，其中，第一人脸图像A对应初始特征图像A，第一人脸图像B对应初始特征图像B，并以此类推，因此，初始特征图像A、初始特征图像B……初始特征图像H在人脸视频中所对应的图像帧播放时间也是依次靠后的。

在以初始特征图像A作为第一目标图像时，8张初始特征图像中存在视频时间戳晚于第一目标图像的至少一张候选特征图像，因此，可以从该至少一张候选特征图像中选取视频时间戳靠近第一目标图像的初始特征图像B，作为第二目标图像，以构建包括第一目标图像和第二目标图像的图像特征分组A；在以初始特征图像B作为第一目标图像时，8张初始特征图像中存在视频时间戳晚于第一目标图像的至少一张候选特征图像，因此，可以从该至少一张候选特征图像中选取视频时间戳靠近第一目标图像的初始特征图像C，作为第二目标图像，以构建包括第一目标图像和第二目标图像的图像特征分组B；以此类推，最终可以构建7个图像特征分组。

在以初始特征图像H作为第一目标图像时，8张初始特征图像中不存在视频时间戳晚于第一目标图像的至少一张候选特征图像，因此，可以从8张初始特征图像中选取任意初始特征图像，作为第二目标图像。例如，可以选取初始特征图像A，作为第二目标图像，以构建包括第一目标图像和第二目标图像的图像特征分组H。

最终，可以构建8个图像特征分组，分别为图像特征分组A、图像特征分组B……图像特征分组H。

通过以上步骤，本公开实施例中，可以尽量保证图像特征分组中的第一目标图像和第二目标图像具有较小的光流特征差异，从而提高光流特征差异的捕获能力，以进一步提高活体检测结果的准确性。

在构建多个图像特征分组，并计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征之后，可以基于多个光流差异特征，直接组成包括多个图像光流特征的光流特征组，也即，可以将每个光流差异特征作为一个图像光流特征，以获得多个图像光流特征，再组成包括多个图像光流特征的光流特征组。在一些可选的实施方式中，“基于多个光流差异特征，组成包括多个图像光流特征的光流特征组”可以包括以下步骤：

针对每个光流差异特征，从人脸图像组所包括的多张人脸图像中确定与光流差异特征对应的目标人脸图像；

基于光流差异特征和目标人脸图像作特征融合处理，获得与光流差异特征对应的图像光流特征；

通过与多个光流差异特征一一对应的多个图像光流特征，组成光流特征组。

在一具体示例中，可以将光流差异特征与目标人脸图像进行特征融合，获得与光流差异特征对应的图像光流特征。请结合图5A，假设，存在图像特征分组A，其包括初始特征图像A和初始特征图像B、且初始特征图像A与初始特征图像B之间有光流差异特征A，与光流差异特征A对应的目标人脸图像为第一人脸图像A。那么，可以将光流差异特征A与第一人脸图像A进行特征融合，获得与光流差异特征A对应的图像光流特征A。

在另一具体示例中，可以确定与目标人脸图像对应的初始特征图像，作为目标特征图像，将光流差异特征与目标特征图像进行特征融合，获得与光流差异特征对应的图像光流特征。请结合图5B，假设，存在图像特征分组A，其包括初始特征图像A和初始特征图像B、且初始特征图像A与初始特征图像B之间有光流差异特征A，与光流差异特征A对应的目标人脸图像为第一人脸图像A。那么，可以确定与第一人脸图像A对应的初始特征图像A，作为目标特征图像，将光流差异特征A与初始特征图像A进行特征融合，获得与光流差异特征A对应的图像光流特征A。

通过以上步骤，本公开实施例中，可以针对每个光流差异特征，从人脸图像组所包括的多张人脸图像中确定与光流差异特征对应的目标人脸图像；基于光流差异特征和目标人脸图像作特征融合处理，获得与光流差异特征对应的图像光流特征；通过与多个光流差异特征一一对应的多个图像光流特征，组成光流特征组。由于图像光流特征是基于光流差异特征和目标人脸图像作特征融合处理获得的，因此，图像光流特征除了用于表征对应的图像特征分组所包括的两张初始特征图像之间的光流差异特征之外，还用于表征该两张初始特征图像的像素特征，从而提高光流特征组的特征表示能力，以进一步提高活体检测结果的准确性。

在一些可选的实施方式中，“基于多个光流特征组，获得针对目标对象的活体检测结果”可以包括以下步骤：

对多个光流特征组中包括的图像光流特征进行拼接，获得特征拼接结果；

在活体检测模型中，通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果；

基于特征提取结果，获得针对目标对象的活体检测结果。

在一具体示例中，可以按照多个光流特征组中每个图像光流特征对应的视频时间戳，对所有图像光流特征进行拼接，获得特征拼接结果。

请结合图6A，假设，活体检测图像有8张、且针对每张活体检测图像，从该张活体检测图像中截取的至少两张不同尺度的人脸图像包括第一人脸图像和第二人脸图像，那么，可以组成包括8张第一人脸图像的第一人脸图像组，以及包括8张第二人脸图像的第二人脸图像组，再获得与第一人脸图像组对应的第一光流特征组(包括8个图像光流特征)，以及与第二人脸图像组对应的第二光流特征组(包括8个图像光流特征)，最终，可以获得16个图像光流特征。此后，请结合图6B，可以按照每个图像光流特征对应的视频时间戳，对该16个图像光流特征进行拼接，获得特征拼接结果，再在活体检测模型中，通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果，并通过分类器，基于特征提取结果，获得针对目标对象的活体检测结果。

通过以上步骤，本公开实施例中，可以对多个光流特征组中包括的图像光流特征进行拼接，获得特征拼接结果；在活体检测模型中，通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果；基于特征提取结果，获得针对目标对象的活体检测结。由于第二特征提取网络处理的是对多个光流特征组中包括的图像光流特征进行拼接，获得特征拼接结果，因此，可以根据任意图像光流特征的自相关性，以及任何两个图像光流特征之间的相关性，实现特征提取，从而提高特征提取结果的特征表示能力，以进一步提高活体检测结果的准确性。

在一些可选的实施方式中，第二特征提取网络为基于注意力机制实现的特征提取网络，例如，Vision Transformer。

在一具体示例中，在将特征拼接结果输入第二特征提取网络之前，可以在特征拼接结果中增加一个可学习的嵌入向量(Class Token)——初始类别特征块，那么，在通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果之后，可以从特征提取结果中确定与初始类别特征块对应的目标类别特征块，再通过分类器，基于目标类别特征块，获得针对目标对象的活体检测结果。

通过以上步骤，本公开实施例中，第二特征提取网络为基于注意力机制实现的特征提取网络，因此，在通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果的过程中，可以基于注意力机制，关注到任意图像光流特征的自相关性，以及任何两个图像光流特征之间的相关性，实现特征提取，从而提高特征提取结果的特征表示能力，以进一步提高活体检测结果的准确性。

以下，将结合图7，对本公开实施例提供的一种活体检测方法的完整流程进行说明。

首先，从人脸视频中获取针对目标对象的多张活体检测图像。

此后，针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像。

在一具体示例中，在从活体检测图像中截取至少两张不同尺度的人脸图像时，可以对活体检测图像进行图像预处理，以确定活体检测图像中目标对象的人脸预测区域；从人脸预测区域中确定目标对象的人脸关键点；基于人脸关键点，确定活体检测图像中目标对象的人脸区域；根据活体检测图像中目标对象的人脸区域，从活体检测图像中截取至少两张不同尺度的人脸图像。

其中，至少两张不同尺度的人脸图像可以包括第一人脸图像和第二人脸图像，第一人脸图像包括目标对象的人脸区域，第二人脸图像包括目标对象的人脸区域和至少部分背景区域。更具体地，第一人脸图像可以是目标对象的人脸区域的外接矩形所涵盖的图像区域，也即，第一人脸图像可以是目标对象的人脸区域的一倍尺寸图像，第二人脸图像可以是目标对象的人脸区域的两倍尺寸图像。

此外，需要说明的是，本公开实施例中，在从活体检测图像中截取至少两张不同尺度的人脸图像之后，还可以对每张人脸图像进行归一化处理和数据增强处理。

接着，将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组。

在一具体示例中，可以利用人脸图像组所包括的多张人脸图像，构建多个图像特征分组；其中，每个图像特征分组包括两张初始特征图像、且每张初始特征图像对应人脸图像组所包括的多张人脸图像中的一张人脸图像；计算每个图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征；基于多个光流差异特征，组成包括多个图像光流特征的光流特征组。

其中，利用人脸图像组所包括的多张人脸图像，构建多个图像特征分组时，可以在活体检测模型中，通过第一特征提取网络，利用人脸图像组所包括的多张人脸图像，获取多张初始特征图像；其中，多张初始特征图像与人脸图像组所包括的多张人脸图像一一对应；利用多张初始特征图像，构建多个图像特征分组。其中，第一特征提取网络可以是卷积神经网络。

其中，基于多个光流差异特征，组成包括多个图像光流特征的光流特征组时，可以针对每个光流差异特征，从人脸图像组所包括的多张人脸图像中确定与光流差异特征对应的目标人脸图像；基于光流差异特征和目标人脸图像作特征融合处理，获得与光流差异特征对应的图像光流特征；通过与多个光流差异特征一一对应的多个图像光流特征，组成光流特征组。

最后，基于多个光流特征组，获得针对目标对象的活体检测结果。

在一具体示例中，可以对多个光流特征组中包括的图像光流特征进行拼接，获得特征拼接结果；在活体检测模型中，通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果；基于特征提取结果，获得针对目标对象的活体检测结果。

其中，第二特征提取网络为基于注意力机制实现的特征提取网络，例如，VisionTransformer。

在将特征拼接结果输入第二特征提取网络之前，可以在特征拼接结果中增加一个可学习的嵌入向量(Class Token)——初始类别特征块，那么，在通过第二特征提取网络，获得与特征拼接结果对应的特征提取结果之后，可以从特征提取结果中确定与初始类别特征块对应的目标类别特征块，再通过分类器，基于目标类别特征块，获得针对目标对象的活体检测结果。

本公开实施例提供了一种活体检测模型训练方法，其可以应用于电子设备。以下，将结合图8所示流程示意图，对本公开实施例提供的一种活体检测模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

步骤S801，获取针对目标训练对象的多张活体检测图像样本；

步骤S802，针对每张活体检测图像样本，从活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个人脸图像样本组包括具有相同尺度的多张人脸图像样本；

步骤S803，将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

步骤S804，在待训练的活体检测模型中，基于多个光流特征样本组，获得针对目标训练对象的活体预测结果；

步骤S805，根据活体预测结果和针对目标训练对象的活体预测标签，对待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

在一具体示例中，可以基于二分类交叉熵损失函数，根据活体预测结果和针对目标训练对象的活体预测标签，对待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

采用本公开实施例提供的活体检测模型训练方法，一方面，由于活体检测模型的训练过程中，所用的多张人脸图像样本是多尺度的，因此，可以提高活体检测模型的泛化能力，使得该活体检测模型对于复杂多样的攻击方式具有较强的应对能力，从而提高活体检测结果的准确性；另一方面，由于在获取到至少两个人脸图像样本组之后，是将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组，并基于多个光流特征样本组，获得针对目标训练对象的活体预测结果，而非直接基于人脸图像样本组本身，获得针对目标训练对象的活体预测结果，因此，对于真实检测场景中可能存在的人脸姿态过大或光照差异较大等情况，也具有较强的鲁棒性，从而进一步提高活体检测结果的准确性。

在一些可选的实施方式中，至少两张不同尺度的人脸图像样本可以包括第一人脸图像样本和第二人脸图像样本，其中，第一人脸图像样本包括目标训练对象的人脸区域，第二人脸图像样本包括目标训练对象的人脸区域和至少部分背景区域。

在一些可选的实施方式中，“将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组”可以包括以下步骤：

利用人脸图像样本组所包括的多张人脸图像样本，构建多个图像特征样本分组；其中，每个图像特征样本分组包括两张初始特征图像样本、且每张初始特征图像样本对应人脸图像样本组所包括的多张人脸图像样本中的一张人脸图像样本；

计算每个图像特征样本分组所包括的两张初始特征图像样本之间的光流差异特征样本，以获得多个光流差异特征样本；

基于多个光流差异特征样本，组成包括多个图像光流特征样本的光流特征样本组。

在一些可选的实施方式中，“利用人脸图像样本组所包括的多张人脸图像样本，构建多个图像特征样本分组”可以包括以下步骤：

在活体检测模型中，通过第一特征提取网络，利用人脸图像样本组所包括的多张人脸图像样本，获取多张初始特征图像样本；其中，多张初始特征图像样本与人脸图像样本组所包括的多张人脸图像样本一一对应；

利用多张初始特征图像样本，构建多个图像特征样本分组。

基于此，可以理解的是，本公开实施例中，对待训练的活体检测模型进行训练包括对第一特征提取网络进行训练。

在一些可选的实施方式中，“利用多张初始特征图像样本，构建多个图像特征样本分组”可以包括以下步骤：

在多张初始特征图像样本中存在视频时间戳晚于第一目标图像样本的至少一张候选特征图像样本的情况下，从至少一张候选特征图像样本中选取视频时间戳靠近第一目标图像样本的第二目标图像样本；其中，第一目标图像样本为多张初始特征图像样本中的任一图像样本；

在多张初始特征图像样本中不存在视频时间戳晚于第一目标图像样本的至少一张候选特征图像样本的情况下，从多张初始特征图像样本中选取任意初始特征图像样本，作为第二目标图像样本；

构建包括第一目标图像样本和第二目标图像样本的图像特征样本分组。

在一些可选的实施方式中，“基于多个光流差异特征样本，组成包括多个图像光流特征样本的光流特征样本组”可以包括以下步骤：

针对每个光流差异特征样本，从人脸图像样本组所包括的多张人脸图像样本中确定与光流差异特征样本对应的目标人脸图像样本；

基于光流差异特征样本和目标人脸图像样本作特征融合处理，获得与光流差异特征样本对应的图像光流特征样本；

通过与多个光流差异特征样本一一对应的多个图像光流特征样本，组成光流特征样本组。

在一些可选的实施方式中，“基于多个光流特征样本组，获得针对目标训练对象的活体预测结果”可以包括以下步骤：

对多个光流特征样本组中包括的图像光流特征样本进行拼接，获得特征拼接结果样本；

在活体检测模型中，通过第二特征提取网络，获得与特征拼接结果样本对应的特征提取结果样本；

基于特征提取结果样本，获得针对目标训练对象的活体预测结果。

基于此，可以理解的是，本公开实施例中，对待训练的活体检测模型进行训练包括对第二特征提取网络进行训练。

此外，在一具体示例中，可以通过随机排列的方式，对多个光流特征样本组中包括的图像光流特征样本进行拼接，获得特征拼接结果样本，从而提高活体检测模型的泛化能力。

在一些可选的实施方式中，第二特征提取网络为基于注意力机制实现的特征提取网络。

可以理解的是，本公开实施例中，活体检测模型训练方法各个步骤中相关名词的表征意义，以及各个步骤的实施方式，可以参见上述活体检测方法实施例中对应部分的相关描述，在此不作赘述。

请参阅图9，为本公开实施例提供的一种活体检测方法的场景示意图。

如前所述的，本公开实施例提供的活体检测方法和/或活体检测模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，服务器、膝上型计算机、台式计算机、工作台、个人数字处理、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

电子设备可以用于：

获取针对目标对象的多张活体检测图像；

基于多个光流特征组，获得针对目标对象的活体检测结果。

电子设备也可以用于：

获取针对目标训练对象的多张活体检测图像样本；

需要说明的是，本公开实施例中，图9所示的场景示意图仅为示意性而非限制性的，本领域技术人员可以基于图9示例进行各种显而易见的变化和/或替换，获得的技术方案仍属于本公开实施例的公开范围。

为了更好地实施活体检测方法，本公开实施例还提供一种活体检测装置，其具体可以集成于电子设备。以下，将结合图10所示结构示意图，对公开实施例提供的一种活体检测装置1000进行说明。

活体检测装置1000包括：

检测图像获取单元1001，用于获取针对目标对象的多张活体检测图像；

人脸图像获取单元1002，用于针对每张活体检测图像，从活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个人脸图像组包括具有相同尺度的多张人脸图像；

光流特征获取单元1003，用于将每个人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

活体检测单元1004，用于基于多个光流特征组，获得针对目标对象的活体检测结果。

在一些可选的实施方式中，光流特征获取单元1003用于：

利用多张初始特征图像，构建多个图像特征分组。

在一些可选的实施方式中，光流特征获取单元1003用于：

构建包括第一目标图像和第二目标图像的图像特征分组。

在一些可选的实施方式中，光流特征获取单元1003用于：

在一些可选的实施方式中，活体检测单元1004用于：

基于特征提取结果，获得针对目标对象的活体检测结果。

在一些可选的实施方式中，至少两张不同尺度的人脸图像包括第一人脸图像和第二人脸图像；其中，第一人脸图像包括目标对象的人脸区域，第二人脸图像包括目标对象的人脸区域和部分背景区域。

本公开实施例的活体检测装置1000的各单元的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不作赘述。

为了更好地实施活体检测方法，本公开实施例还提供一种活体检测模型训练装置，其具体可以集成于电子设备。以下，将结合图11所示结构示意图，对公开实施例提供的一种活体检测装置1100进行说明。

活体检测模型训练装置1100，包括：

检测图像样本获取单元1101，用于获取针对目标训练对象的多张活体检测图像样本；

人脸图像样本获取单元1102，用于针对每张活体检测图像样本，从活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个人脸图像样本组包括具有相同尺度的多张人脸图像样本；

光流特征样本获取单元1103，用于将每个人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

活体预测单元1104，用于在待训练的活体检测模型中，基于多个光流特征样本组，获得针对目标训练对象的活体预测结果；

模型训练单元1105，用于根据活体预测结果和针对目标训练对象的活体预测标签，对待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

在一些可选的实施方式中，光流特征样本获取单元1103用于：

利用多张初始特征图像样本，构建多个图像特征样本分组。

在一些可选的实施方式中，光流特征样本获取单元1103用于：

在一些可选的实施方式中，活体预测单元1104用于：

本公开的技术方案中，所涉及的用户个人信息(例如，人脸图像和/或人脸图像样本)的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的计算机程序或从存储单元12012加载到随机访问存储器(Random Access Memory，RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如，活体检测方法和/或活体检测模型训练方法。例如，在一些实施例中，活体检测方法和/或活体检测模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元12012。在一些实施例中，计算机程序的部分或全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的活体检测方法和/或活体检测模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行活体检测方法和/或活体检测模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Product，ASSP)、芯片上系统的系统(System On Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据采集装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)显示器或液晶显示器(Liquid Crystal Display，LCD))；以及键盘和指向装置(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或包括中间件部件的计算系统(例如，应用服务器)、或包括前端部件的计算系统(例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local AreaNetwork，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或是结合了区块链的服务器。

本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行活体检测方法和/或活体检测模型训练方法。

本公开实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现活体检测方法和/或活体检测模型训练方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。此外，本公开中，诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。此外，本公开中“多个”，可以理解为至少两个，“任一”可以理解为任何一者。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种活体检测方法，包括：

获取针对目标对象的多张活体检测图像；

针对每张所述活体检测图像，从所述活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个所述人脸图像组包括具有相同尺度的多张人脸图像；

将每个所述人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

基于所述多个光流特征组，获得针对所述目标对象的活体检测结果。

2.根据权利要求1所述的方法，其中，所述将每个所述人脸图像组转换为包括多个图像光流特征的光流特征组，包括：

利用所述人脸图像组所包括的多张人脸图像，构建多个图像特征分组；其中，每个所述图像特征分组包括两张初始特征图像、且每张所述初始特征图像对应所述人脸图像组所包括的多张人脸图像中的一张人脸图像；

计算每个所述图像特征分组所包括的两张初始特征图像之间的光流差异特征，以获得多个光流差异特征；

基于所述多个光流差异特征，组成包括所述多个图像光流特征的所述光流特征组。

3.根据权利要求2所述的方法，其中，所述利用所述人脸图像组所包括的多张人脸图像，构建多个图像特征分组，包括：

在活体检测模型中，通过第一特征提取网络，利用所述人脸图像组所包括的多张人脸图像，获取多张初始特征图像；其中，所述多张初始特征图像与所述人脸图像组所包括的多张人脸图像一一对应；

利用所述多张初始特征图像，构建所述多个图像特征分组。

4.根据权利要求3所述的方法，其中，所述利用所述多张初始特征图像，构建所述多个图像特征分组，包括：

在所述多张初始特征图像中存在视频时间戳晚于第一目标图像的至少一张候选特征图像的情况下，从所述至少一张候选特征图像中选取视频时间戳靠近所述第一目标图像的第二目标图像；其中，所述第一目标图像为所述多张初始特征图像中的任一图像；

在所述多张初始特征图像中不存在视频时间戳晚于所述第一目标图像的至少一张候选特征图像的情况下，从所述多张初始特征图像中选取任意初始特征图像，作为所述第二目标图像；

构建包括所述第一目标图像和所述第二目标图像的所述图像特征分组。

5.根据权利要求2所述的方法，其中，所述基于所述多个光流差异特征，组成包括所述多个图像光流特征的所述光流特征组，包括：

针对每个所述光流差异特征，从所述人脸图像组所包括的多张人脸图像中确定与所述光流差异特征对应的目标人脸图像；

基于所述光流差异特征和所述目标人脸图像作特征融合处理，获得与所述光流差异特征对应的图像光流特征；

通过与所述多个光流差异特征一一对应的所述多个图像光流特征，组成所述光流特征组。

6.根据权利要求1所述的方法，其中，所述基于所述多个光流特征组，获得针对所述目标对象的活体检测结果，包括：

对所述多个光流特征组中包括的图像光流特征进行拼接，获得特征拼接结果；

在活体检测模型中，通过第二特征提取网络，获得与所述特征拼接结果对应的特征提取结果；

基于所述特征提取结果，获得针对所述目标对象的所述活体检测结果。

7.根据权利要求6所述的方法，其中，所述第二特征提取网络为基于注意力机制实现的特征提取网络。

8.根据权利要求1～7中任一项所述的方法，其中，所述至少两张不同尺度的人脸图像包括第一人脸图像和第二人脸图像；其中，所述第一人脸图像包括所述目标对象的人脸区域，所述第二人脸图像包括所述目标对象的人脸区域和至少部分背景区域。

9.一种活体检测模型训练方法，包括：

获取针对目标训练对象的多张活体检测图像样本；

针对每张所述活体检测图像样本，从所述活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个所述人脸图像样本组包括具有相同尺度的多张人脸图像样本；

将每个所述人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

在待训练的活体检测模型中，基于所述多个光流特征样本组，获得针对所述目标训练对象的活体预测结果；

根据所述活体预测结果和针对所述目标训练对象的活体预测标签，对所述待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

10.一种活体检测装置，包括：

人脸图像获取单元，用于针对每张所述活体检测图像，从所述活体检测图像中截取至少两张不同尺度的人脸图像，以组成至少两个人脸图像组；其中，每个所述人脸图像组包括具有相同尺度的多张人脸图像；

光流特征获取单元，用于将每个所述人脸图像组转换为包括多个图像光流特征的光流特征组，以获得多个光流特征组；

活体检测单元，用于基于所述多个光流特征组，获得针对所述目标对象的活体检测结果。

11.根据权利要求10所述的装置，其中，所述光流特征获取单元用于：

12.根据权利要求11所述的装置，其中，所述光流特征获取单元用于：

利用所述多张初始特征图像，构建所述多个图像特征分组。

13.根据权利要求12所述的装置，其中，所述光流特征获取单元用于：

14.根据权利要求11所述的装置，其中，所述光流特征获取单元用于：

15.根据权利要求10所述的装置，其中，所述活体检测单元，用于：

16.根据权利要求15所述的装置，其中，所述第二特征提取网络为基于注意力机制实现的特征提取网络。

17.根据权利要求10～16中任一项所述的装置，其中，所述至少两张不同尺度的人脸图像包括第一人脸图像和第二人脸图像；其中，所述第一人脸图像包括所述目标对象的人脸区域，所述第二人脸图像包括所述目标对象的人脸区域和部分背景区域。

18.一种活体检测模型训练装置，包括：

人脸图像样本获取单元，用于针对每张所述活体检测图像样本，从所述活体检测图像样本中截取至少两张不同尺度的人脸图像样本，以组成至少两个人脸图像样本组；其中，每个所述人脸图像样本组包括具有相同尺度的多张人脸图像样本；

光流特征样本获取单元，用于将每个所述人脸图像样本组转换为包括多个图像光流特征样本的光流特征样本组，以获得多个光流特征样本组；

活体预测单元，用于在待训练的活体检测模型中，基于所述多个光流特征样本组，获得针对所述目标训练对象的活体预测结果；

模型训练单元，用于根据所述活体预测结果和针对所述目标训练对象的活体预测标签，对所述待训练的活体检测模型进行训练，获得经过训练的活体检测模型。

19.一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～9中任一项所述的方法。