CN110378219B

CN110378219B - 活体检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN110378219B
Application number: CN201910512041.1A
Authority: CN
Inventors: 王鹏; 姚聪; 卢江虎; 李念
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-11-19
Anticipated expiration: 2039-06-13
Also published as: WO2020248780A1; CN110378219A

Abstract

本申请实施例涉及数据处理技术领域，提供了一种活体检测方法、装置、电子设备及可读存储介质。所述活体检测方法包括：从针对待检测对象所采集的视频中提取多帧视频图像；针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率；根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。本申请提供的活体检测方法可以提高活体检测的准确性。

Description

活体检测方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种活体检测方法、装置、电子设备及可读存储介质。

背景技术

随着数据处理技术领域中的身份识别技术广泛应用于安防、金融等领域，例如基于人脸识别、掌纹识别或指纹识别的门禁解锁、手机解锁、远程支付、远程开户等，身份识别技术的安全性越来越受到人们的关注。例如人们会关注在通过设备对识别对象进行识别时，如何确定识别对象是来自于真实的人。为此，相关技术提出了活体检测方法。

以人脸识别技术为例，在针对人脸图像进行活体检测时，相关技术提出的检测方法是：首先要求待检测对象在镜头前完成张嘴、眨眼等指定面部动作，镜头针对指定面部动作采集一张人脸图像，处理器基于该张人脸图像，判断该张人脸图像中的待检测对象是否是活体。然而，张嘴、眨眼等面部动作会影响人脸识别的准确性，也降低了用户体验。并且无论是针对人脸识别，还是针对掌纹识别等，均是以单张图像为基础，进行活体检测，活体检测的准确性较低。

发明内容

本申请实施例提供一种活体检测方法、装置、电子设备及可读存储介质，旨在提高活体检测的准确性。

本申请实施例第一方面提供了一种活体检测方法，所述方法包括：

从针对待检测对象所采集的视频中提取多帧视频图像；

针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率；

根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

可选地，所述方法还包括：

根据所述多帧视频图像的帧间相关性，确定所述帧间相关性表征所述待检测对象是否为活体的第二概率；

根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：

根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

可选地，所述方法还包括：

对所述多帧视频图像各自的特征进行拼接，得到所述视频的特征，该视频特征用于表征所述帧间相关性。

可选地，根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：

为所述第二概率和所述多帧视频图像各自对应的第一概率分配权重，其中，所述第二概率对应的权重大于每个所述第一概率对应的权重；

根据所述第二概率及其对应的概率，以及所述多帧视频图像各自对应的第一概率及其对应的权重，确定所述待检测对象是否为活体。

可选地，所述方法还包括：

获得样本视频集，所述样本集包括多个携带标记的样本视频，样本视频携带的标记表征该样本视频是否是针对活体所采集的视频；

针对所述样本视频集包括的每个携带标记的样本视频，执行以下步骤：

从该携带标记的样本视频中提取多帧样本视频图像；

将所述多帧样本视频图像中的每帧样本视频图像输入待训练模型的卷积层，得到该帧样本视频图像的特征；

将该帧样本视频图像的特征输入所述待训练模型的第一全连接层，得到该帧样本视频图像对应的第三概率，该第三概率表征该帧样本视频图像是否来源于针对活体所采集的视频；

将所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率；

根据所述预估概率以及多帧样本视频图像各自对应的第三概率，建立损失函数，以更新所述待训练模型，获得活体检测模型；

针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率，包括：

将所述多帧视频图像中的每帧视频图像输入所述活体检测模型的卷积层，得到该帧视频图像的特征；

将该帧视频图像的特征输入所述活体检测模型的第一全连接层，以确定该帧视频图像表征所述待检测对象是否为活体的第一概率。

可选地，所述方法还包括：

对所述多帧样本视频图像各自的特征进行拼接，得到所述样本视频的特征；

将所述样本视频的特征输入所述待训练模型的第三全连接层，得到所述样本视频是否是针对活体所采集的视频的第四概率；

将所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率，包括：

将所述第四概率以及所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率。

可选地，根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：

将所述多帧视频图像各自对应的第一概率输入所述活体检测模型的第二全连接层，确定所述待检测对象是否为活体。

可选地，所述方法还包括：

获得视频采集装置在所述待检测对象处于静默状态下所采集的视频。

本申请实施例第二方面提供一种活体检测装置，所述装置包括：

第一提取模块，用于从针对待检测对象所采集的视频中提取多帧视频图像；

第一确定模块，用于针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率；

第二确定模块，用于根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

可选地，所述装置还包括：

第三确定模块，用于根据所述多帧视频图像的帧间相关性，确定所述帧间相关性表征所述待检测对象是否为活体的第二概率；

所述第二确定模块包括：

第一确定子模块，用于根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

可选地，所述装置还包括：

第一拼接模块，用于对所述多帧视频图像各自的特征进行拼接，得到所述视频的特征，该视频特征用于表征所述帧间相关性。

可选地，所述第一确定子模块包括：

分配子单元，用于为所述第二概率和所述多帧视频图像各自对应的第一概率分配权重，其中，所述第二概率对应的权重大于每个所述第一概率对应的权重；

确定子单元，用于根据所述第二概率及其对应的概率，以及所述多帧视频图像各自对应的第一概率及其对应的权重，确定所述待检测对象是否为活体。

可选地，所述装置还包括：

第一获得模块，用于获得样本视频集，所述样本集包括多个携带标记的样本视频，样本视频携带的标记表征该样本视频是否是针对活体所采集的视频；

第二提取模块，用于针对所述样本视频集包括的每个携带标记的样本视频，从该携带标记的样本视频中提取多帧样本视频图像；

第一输入模块，用于将所述多帧样本视频图像中的每帧样本视频图像输入待训练模型的卷积层，得到该帧样本视频图像的特征；

第二输入模块，用于将该帧样本视频图像的特征输入所述待训练模型的第一全连接层，得到该帧样本视频图像对应的第三概率，该第三概率表征该帧样本视频图像是否来源于针对活体所采集的视频；

第三输入模块，用于将所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率；

第二获得模块，用于根据所述预估概率以及多帧样本视频图像各自对应的第三概率，建立损失函数，以更新所述待训练模型，获得活体检测模型；

所述第一确定模块包括：

第一输入子模块，用于将所述多帧视频图像中的每帧视频图像输入所述活体检测模型的卷积层，得到该帧视频图像的特征；

第二输入子模块，用于将该帧视频图像的特征输入所述活体检测模型的第一全连接层，以确定该帧视频图像表征所述待检测对象是否为活体的第一概率。

可选地，所述装置还包括：

第二拼接模块，用于对所述多帧样本视频图像各自的特征进行拼接，得到所述样本视频的特征；

第四输入模块，用于将所述样本视频的特征输入所述待训练模型的第三全连接层，得到所述样本视频是否是针对活体所采集的视频的第四概率；

所述第三输入模块包括：

第三输入子模块，用于将所述第四概率以及所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率。

可选地，所述第三确定模块包括：

第四输入子模块，用于将所述多帧视频图像各自对应的第一概率输入所述活体检测模型的第二全连接层，确定所述待检测对象是否为活体。

可选地，所述装置还包括：

第三获得模块，用于获得视频采集装置在所述待检测对象处于静默状态下所采集的视频。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请提供的活体检测方法，通过从针对待检测对象所采集的视频中提取多帧视频图像，针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率，最后根据所确定出的多个第一概率，综合地确定待检测对象是否为活体。

一方面，由于本申请提供的活体检测方法中，是以一段针对待检测对象所采集的视频为基础，执行活体检测。具体地，从该视频中提取多帧视频图像，利用多帧视频图像表征该段视频，再针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率，最后根据所确定出的多个第一概率，综合地确定待检测对象是否为活体。相比于现有技术中是针对单张图像进行活体检测，本申请以视频为基础，执行活体检测，检测结果更加准确。

另一方面，由于本申请提供的活体检测方法中，针对待检测对象所采集的视频，从其中提取多帧视频图像，可以减少该视频的冗余信息，从而降低计算量，提高检测效率。

再一方面，本申请提供的活体检测方法不要求待检测对象在镜头前完成张嘴、眨眼等指定面部动作，不仅可以避免面部动作对人脸识别准确性的影响，又可以使得用户在不必做出指定面部动作的情况下，完成活体检测，从而提高用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中活体检测模型的训练过程示意图；

图2是本申请一实施例提出的活体检测方法的流程图；

图3是本申请一实施例提出的活体检测方法的另一流程图；

图4是本申请一实施例提供的活体检测装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在基于身份识别技术的门禁解锁、手机解锁、远程支付、远程开户等应用场景中，设备需要采集用户的指纹或掌纹，或者需要拍摄用户的人脸或掌纹等识别对象。以识别对象为拍摄的人脸或掌纹等为例，为了避免攻击者通过将他人的人脸照片或掌纹照片展示给拍摄装置，导致攻击者在未经他人允许的情况下通过验证，从而私自进入他人账户或账号的情况发生，需要对拍摄装置所拍摄的照片中的人脸或掌纹等进行活体检测，以确定其是否来自于真实的人，即确定其是否来自于活体。

相关技术提供的种活体判断方法：首先要求待检测对象在镜头前完成张嘴、眨眼等指定面部动作，镜头针对指定面部动作采集一张人脸图像，处理器基于该张人脸图像，判断该张人脸图像中的待检测对象是否是活体。然而，张嘴、眨眼等面部动作会影响人脸识别的准确性，也降低了用户体验。并且无论是针对人脸识别，还是针对掌纹识别等，均是以单张图像为基础，进行活体检测，活体检测的准确性较低。

为了提高活体检测准确性，申请人提出：以一段针对待检测对象所采集的视频为基础，执行活体检测。为了表征该段视频，本申请从该段视频中提取出多帧视频图像，再针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率，最后根据所确定出的多个第一概率，综合地确定待检测对象是否为活体。相比于现有技术中是针对单张图像进行活体检测，本申请以视频为基础，执行活体检测，检测结果更加准确。

为了能更智能地实施申请人提出的上述方法，使得该方法的应用范围更广，申请人首先构建了待训练模型，并基于样本视频集对该待训练模型进行训练，得到活体检测模型(例如：下文所述的第一活体检测模型或第二活体检测模型)，申请人利用该活体检测模型执行上述方法中的部分或全部步骤。

参考图1，图1是本申请一实施例中活体检测模型的训练过程示意图。图1中，活体检测模型包括：卷积层、第一全连接层以及第二全连接层。其中，卷积层可具体采用卷积神经网络。应当理解的，申请人预先构建的待训练模型的模型结构与图1所示的活体检测模型的模型结构相同，待训练模型也包括卷积层、第一全连接层以及第二全连接层，而经过训练后，待训练模型的模型参数被更新调整，最终得到活体检测模型。

为了对待训练模型进行训练，以得到活体检测模型，本申请一实施例提出以下步骤。需要预先说明的是，以下各步骤中具体以样本视频集是关于人脸的样本视频集为例，对各步骤进行了介绍。应当理解的，样本视频集的类型不局限于是关于人脸的样本视频集，例如还可以是关于掌纹的样本视频集，如果基于关于掌纹的样本视频集对待训练模型进行训练，最终所得的活体检测模型可用于针对掌纹视频进行活体检测。

S110：获得样本视频集，所述样本集包括多个携带标记的样本视频，样本视频携带的标记表征该样本视频是否是针对活体所采集的视频。

本实施例中，样本视频集中的部分或全部样本视频可以是视频采集装置在训练参与者处于静默状态下所采集的视频。在对训练参与者采集视频时，训练参与者仅需注视视频采集装置即可，不要求训练参与者在镜头前完成张嘴、眨眼、朗读等指定面部动作。

示例地，可以针对多位训练参与者(真人)中的每位训练参与者的脸部，拍摄一段静默视频，视频的时长可控制在1至3秒，对此类针对真人拍摄的视频进行标注，使此类视频携带标签，该标签表征此类视频是针对活体所采集的视频。可以针对多张打印照片、屏幕显示照片以及面具等非活体中的每个非活体，拍摄一段视频，视频的时长可控制在1至3秒，对此类针对非活体拍摄的视频进行标注，使此类视频携带标签，该标签表征此类视频不是针对活体所采集的视频。

S120：针对所述样本视频集包括的每个携带标记的样本视频，从该携带标记的样本视频中提取多帧样本视频图像。

示例地，针对每个携带标记的样本视频，可以首先将其划分为N个子段，然后从每个子段中提取一帧RGB视频图像，作为所述样本视频图像，最终从每个携带标记的样本视频中总共可以提取出N帧样本视频图像。

S130：将所述多帧样本视频图像中的每帧样本视频图像输入待训练模型的卷积层，得到该帧样本视频图像的特征。

示例地，可以将N帧样本视频图像依次输入待训练模型的卷积神经网络，卷积神经网络针对每一帧样本视频图像，输出一个三维的卷积特征，即该帧样本视频图像的特征。应当理解的，多帧样本视频图像可共用一个卷积神经网络，多帧样本视频图像中的每帧样本视频图像也可以分别对应一个卷积神经网络。因此待训练模型中包括的卷积神经网络可以是一个，也可以是多个。

S140：将该帧样本视频图像的特征输入所述待训练模型的第一全连接层，得到该帧样本视频图像对应的第三概率，该第三概率表征该帧样本视频图像是否来源于针对活体所采集的视频。

示例地，可以将N帧样本视频图像各自的特征依次输入第一全连接层，第一全连接层针对每一帧样本视频图像的特征，输出一个形如(x,y)的概率向量，即所述第三概率，其中x表示该帧样本视频图像是来源于针对活体所采集的视频的概率，y表示该帧样本视频图像是来源于针对非活体所采集的视频的概率。

S150：将所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率。

示例地，可以将N帧样本视频图像对应的N个第三概率输入第二全连接层，第二全连接层针对N个第三概率，输出一个形如(X,Y)的概率向量，即所述预估概率，其中X表示该样本视频是针对活体所采集的视频的概率，Y表示该样本视频是针对非活体所采集的视频的概率。

S160：根据所述预估概率以及多帧样本视频图像各自对应的第三概率，建立损失函数，以更新所述待训练模型，获得活体检测模型。

示例地，根据预估概率，例如形如(X,Y)的概率向量，以及根据多帧样本视频图像各自对应的第三概率，例如形如(x,y)的概率向量，建立损失函数，采用梯度下降法，更新待训练模型的参数，并将更新后的待训练模型投入下一轮训练。经过多轮训练后，获得活体检测模型。例如，在经过固定的M轮训练后，如1000轮训练，结束训练，获得活体检测模型。又例如，在连续多轮训练的损失函数反映出待训练模型已经可以准确地预测出样本视频是否为活体的情况下，结束训练，获得活体检测模型。

例如，建立损失函数的实施方式可以是：将N个第三概率分别与样本视频携带的标记进行比较，其中每个第三概率是预测结果，样本视频携带的标记表征真实情况，得到N个第一比较结果，N个第一比较结果可以表征待训练模型在此轮训练中，对样本视频预测的准确性。然后将预估概率与样本视频携带的标记进行比较，其中预估概率是预测结果，样本视频携带的标记表征真实情况，得到一个第二比较结果，第二比较结果也可以表征待训练模型在此轮训练中，对样本视频预测的准确性。

最后根据第二比较结果以及N个第一比较结果，对待训练模型的参数进行调整，以更新待训练模型。将更新后的待训练模型投入下一轮训练，经过多轮训练后，获得活体检测模型。

通过在建立损失函数时，同时考虑了样本视频对应的预估概率，以及每帧样本视频图像对应的第三概率，一方面可以加快待训练模型的收敛速度，另一方面使得模型在训练期间不仅基于待训练模型对样本视频的预测准确性，对待训练模型的参数进行更新，还基于待训练模型对每帧样本视频图像的预测准确性，对待训练模型的参数进行更新，使最终得到的活体检测模型可以输出更准确的预测结果。

通过执行步骤S110至步骤S160，获得了第一活体检测模型，该第一活体检测模型在应用期间，可以执行以下各步骤中的部分步骤或全部步骤：从针对待检测对象所采集的视频中提取出多帧视频图像，再针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率，最后根据所确定出的多个第一概率，综合地确定待检测对象是否为活体。

为了进一步提高活体检测的准确性，本申请申请人发现，除了从一段视频中提取的多帧视频图像可以表征该段视频，多帧视频图像的帧间相关性也可以用于表征该段视频，如果同时利用多帧视频图像以及多帧视频图像的帧间相关性表征该段视频，在进行活体检测时，进一步引入帧间相关性，可以进一步提高活体检测准确性。

基于上述发现，申请人进一步提出：将帧间相关性引入活体检测方法，首先确定出帧间相关性表征待检测对象是否为活体的第二概率，然后再根据该第二概率和多帧视频图像各自对应的第一概率，确定待检测对象是否为活体。从而进一步提高活体检测的准确性。

为了能更智能地实施申请人提出的上述方法，使得该方法的应用范围更广，申请人首先构建了待训练模型，并基于样本视频集对该待训练模型进行训练，得到活体检测模型。申请人利用该活体检测模型执行上述进一步提出的方法中的部分或全部步骤。

请继续参考图1，图1中，活体检测模型还可以包括：特征组合模块和第三全连接层。应当理解的，申请人预先构建的待训练模型的模型结构与图1所示的活体检测模型的模型结构相同，待训练模型同样还可以包括特征组合模块和第三全连接层，而经过训练后，待训练模型的模型参数被更新调整，最终得到活体检测模型。

为了对待训练模型进行训练，以得到活体检测模型，本申请一实施例在步骤S110、S120、S130、S140以及S160的基础上，进一步提出步骤S142、S144以及S150’，需要预先说明的是，步骤S130、S140、S142、S144、S150’以及S160是多轮训练中每一轮训练的各个步骤：

S142：对所述多帧样本视频图像各自的特征进行拼接，得到所述样本视频的特征。

示例地，在经过步骤S130得到N个三维的卷积特征后，可以利用特征组合模块将这N个三维的卷积特征进行堆叠，得到一个新的三维的卷积特征，作为所述样本视频的特征，样本视频的特征可以表征多帧样本视频图像的帧间相关性。例如在经过步骤S130得到8个36*36*25的卷积特征，将这8个36*36*25的卷积特征进行堆叠后，得到一个36*36*200的卷积特征，该36*36*200的卷积特征作为样本视频的特征。

S144：将所述样本视频的特征输入所述待训练模型的第三全连接层，得到所述样本视频是否是针对活体所采集的视频的第四概率。

示例地，可以将样本视频的特征输入第三全连接层，第三全连接层针对样本视频的特征，输出形如(x’,y’)的概率向量，即所述第四概率，其中x’表示该样本视频是针对活体所采集的视频的概率，y’表示该样本视频是针对非活体所采集的视频的概率。

S150’：将所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率。该步骤具体包括：将所述第四概率以及所述多帧样本视频图像各自对应的第三概率输入所述待训练模型的第二全连接层，得到所述样本视频是否是针对活体所采集的视频的预估概率。

示例地，可以将样本视频对应的第四概率以及N帧样本视频图像对应的N个第三概率输入第二全连接层，第二全连接层针对N+1个概率，输出一个形如(X,Y)的概率向量，即所述预估概率，其中X表示该样本视频是针对活体所采集的视频的概率，Y表示该样本视频是针对非活体所采集的视频的概率。

通过执行步骤S110、S120、S130、S140、S142、S144、S150’以及S160，获得了第二活体检测模型，该第二活体检测模型在应用期间，可以执行以下各步骤中的部分步骤或全部步骤：从针对待检测对象所采集的视频中提取多帧视频图像，针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率；并针对多帧视频图像的帧间相关性，确定出帧间相关性表征待检测对象是否为活体的第二概率，最后根据该第二概率和多帧视频图像各自对应的第一概率，确定待检测对象是否为活体。

本申请的上述各实施例主要提出了基于样本视频集，对待训练模型的两种训练过程，并最终分别得到第一活体检测模型和第二活体检测模型。以下，本申请将着重介绍活体检测方法，并示意性地介绍如何将第一活体检测模型或第二活体检测模型应用于活体检测方法中。

参考图2，图2是本申请一实施例提出的活体检测方法的流程图。如图2所示，该方法包括以下步骤：

S22：从针对待检测对象所采集的视频中提取多帧视频图像。

本实施例中，待检测对象是指：需要检测其是否为活体的对象。示例地，待检测对象不局限于仅是待检测的人脸，例如待检测对象还可以是待检测的掌纹或指纹等。如果待检测对象是掌纹，则针对待检测对象所采集的视频是一段针对待检测的掌纹所拍摄的视频。

本实施例中，所述方法还包括：获得视频采集装置在所述待检测对象处于静默状态下所采集的视频。

换言之，针对待检测对象所采集的视频可以是针对该待检测对象所采集的静默视频。示例地，在待检测对象呈静默状态时，为待检测对象采集一段视频，例如为待检测对象采集一段1至3秒的短视频。本实施例中，在对用户采集视频时，仅需用户注视视频采集装置即可，不要求用户在镜头前完成张嘴、眨眼、朗读等指定面部动作，不仅可以避免面部动作对人脸识别准确性的影响，又可以使得用户在不必做出指定面部动作的情况下，完成活体检测，从而提高用户体验。

本实施例中，在从视频中提取多帧视频图像时，可以等帧间间隔地提取，提取的视频图像可以是RGB图像。示例地，针对一段视频，例如每隔5帧视频图像，提取出一帧视频图像。以一段视频包括48帧视频图像为例，提取出的各帧视频图像分别是：第6帧、第12帧、第18帧、第24帧、第30帧、第36帧、第42帧、第48帧。

或者，本实施例中，在从视频中提取多帧视频图像时，可以首先将该视频分为多个子段，然后从每个子段中提取一帧视频图像。示例地，针对一段视频，例如将该视频等分为N个子段，针对每个子段，从中随机提取一帧视频图像，或者从该子段的中间处提取一帧视频图像。

以上实施例中，通过等帧间间隔地提取多帧视频图像，或通过将视频分为多个子段，然后从每个子段中提取一帧视频图像，使得提取到的多帧视频图像是均匀分布在该视频中的视频图像，多帧视频图像能更准确地表征该视频的内容，从而进一步提高活体检测准确性。

本实施例中，从针对待检测对象所采集的视频中提取出的多帧视频图像，利用多帧视频图像表征该段视频，使得本申请所提出的活体检测方法是以视频为基础，进行活体检测。相比于现有技术中是针对单张图像进行活体检测，本申请以视频为基础，执行活体检测，检测结果更加准确。又由于本申请针对待检测对象所采集的视频，从其中提取多帧视频图像，可以减少该视频的冗余信息，从而降低计算量，提高检测效率。

S24：针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率。

本实施例中，视频图像的特征可以是卷积特征。示例地，为了能根据每帧视频图像的特征，确定该帧视频图像对应的第一概率，可以利用上述经过训练所获得的第一活体检测模型。具体地，将所述多帧视频图像中的每帧视频图像输入所述活体检测模型的卷积层，得到该帧视频图像的特征；再将该帧视频图像的特征输入所述活体检测模型的第一全连接层，以确定该帧视频图像表征所述待检测对象是否为活体的第一概率。

其中，每帧视频图像对应的第一概率可以是形如(x,y)的概率向量，其中x表示待检测对象是活体的概率，y表示待检测对象是非活体的概率。

在实际应用中，可以通过卷积神经网络获得每帧视频图像的特征，也可以使用其它图像特征提取的方法提取每帧视频图像的特征。然后将每帧视频图像的特征输入上述第一活体检测模型的第一全连接层，以确定该帧视频图像表征所述待检测对象是否为活体的第一概率。

S26：根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

示例地，可以利用上述经过训练所获得的第一活体检测模型确定待检测对象是否为活体。具体地，将所述多帧视频图像各自对应的第一概率输入所述活体检测模型的第二全连接层，确定所述待检测对象是否为活体。例如，将所多帧视频图像中的每帧视频图像输入所述活体检测模型中的卷积层，卷积层输出每帧视频图像的特征；每帧视频图像的特征接着被输入至活体检测模型的第一全连接层，第一全连接层输出每帧视频图像对应的第一概率；每帧视频图像对应的第一概率再被输入至活体检测模型的第二全连接层，第二全连接层输出预估概率，该预估概率是表征待检测对象是否为活体的综合性概率。

其中，预估概率可以是形如(X,Y)的概率向量，其中X表示待检测对象是活体的综合性概率，Y表示待检测对象是非活体的综合性概率。可通过比较X与Y的大小关系，在X大于Y的情况下，确定待检测对象是活体。

或者示例地，在通过步骤S24获得多帧视频图像各自对应的第一概率后，可以通过计算多个第一概率的平均值，以确定待检测对象是否为活体。例如多帧视频图像各自对应的第一概率是形如(x,y)的概率向量，其中x表示待检测对象是活体的概率，y表示待检测对象是非活体的概率。假设从视频中提取的8帧视频图像各自对应的概率向量分别是：(35.9,13.0)、(43.2,5.6)、(34.7,14.3)、(44.6,5.4)、(58.6,2.1)、(41.8,6.7)、(29.2,17.8)、(21.4,22.8),根据以上8个概率向量，计算出综合的平均概率向量为(38.7,11.0)，其中表示待检测对象是活体的概率大于表示待检测对象是非活体的概率，确定待检测对象是活体。

通过执行步骤S22、步骤S24以及步骤S26，以一段针对待检测对象所采集的视频为基础，执行活体检测。具体地，从该视频中提取多帧视频图像，利用多帧视频图像表征该段视频，再针对每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征待检测对象是否为活体的第一概率，最后根据所确定出的多个第一概率，综合地确定待检测对象是否为活体。相比于现有技术中是针对单张图像进行活体检测，本申请以视频为基础，执行活体检测，检测结果更加准确。

本申请申请人发现，除了从一段视频中提取的多帧视频图像可以表征该段视频，多帧视频图像的帧间相关性也可以用于表征该段视频，如果同时利用多帧视频图像以及多帧视频图像的帧间相关性表征该段视频，在进行活体检测时，进一步引入帧间相关性，可以进一步提高活体检测准确性。

为了进一步提高活体检测的准确性，参考图3，图3是本申请一实施例提出的活体检测方法的另一流程图。如图3所示，该方法包括以下步骤：

S22：从针对待检测对象所采集的视频中提取多帧视频图像。

S25：根据所述多帧视频图像的帧间相关性，确定所述帧间相关性表征所述待检测对象是否为活体的第二概率；

本实施例中，帧间相关性是指：多帧视频图像的帧与帧之间的信息。具体地，可以针对多帧视频图像中的每帧视频图像，提取该帧视频图像的特征，并对多帧视频图像各自的特征进行拼接，得到所述视频的特征，该视频特征用于表征所述帧间相关性。

示例地，可以将多帧视频图像输入至上述经过训练所获得的第二活体检测模型的卷积层，该卷积层输出每帧视频图像的三维的卷积特征，该三维的卷积特征即是视频图像的特征。然后将多个三维的卷积特征进行堆叠，得到一个新的三维的卷积特征，作为视频的特征，该视频特征用于表征所述帧间相关性。例如，8帧视频图像输入活体检测模型后，该活体检测模型的卷积层输出8个36*36*25的卷积特征，该活体检测模型的特征组合模块将这8个36*36*25的卷积特征进行堆叠后，得到一个36*36*200的卷积特征，该36*36*200的卷积特征作为视频的特征。

本实施例中，为了确定所述帧间相关性表征所述待检测对象是否为活体的第二概率，可以将表征帧间相关性的视频特征输入上述经过训练所获得的第二活体检测模型的第三全连接层，该第三全连接层根据该视频特征，输出表征待检测对象是否为活体的第二概率。其中，第二概率可以是形如(x’,y’)的概率向量，其中x’表示待检测对象是活体的概率，y’表示待检测对象是非活体的概率。

S26’：根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

示例地，在根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体时，可以利用上述经过训练所获得的第二活体检测模型，以确定待检测对象是否为活体。具体的，可以将帧间相关性表征待检测对象是否为活体的第二概率，和多帧视频图像各自对应的第一概率输入至第二活体检测模型的第二全连接层，该第二全连接层输出预估概率，该预估概率是表征待检测对象是否为活体的综合性概率。

或者示例地，根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，可以具体包括：

S26'-1：为所述第二概率和所述多帧视频图像各自对应的第一概率分配权重，其中，所述第二概率对应的权重大于每个所述第一概率对应的权重；

S26'-2：根据所述第二概率及其对应的概率，以及所述多帧视频图像各自对应的第一概率及其对应的权重，确定所述待检测对象是否为活体。

例如，8帧视频图像输入活体检测模型后，经过活体检测模型的卷积层和第一全连接层，输出8帧视频图像各自对应的第一概率，假设8个第一概率分别是：(35.9,13.0)、(43.2,5.6)、(34.7,14.3)、(44.6,5.4)、(58.6,2.1)、(41.8,6.7)、(29.2,17.8)、(21.4,22.8)。卷积层针对每帧视频图像输出的特征均是36*36*25的卷积特征，特征组合模块将这8个36*36*25的卷积特征进行堆叠后，得到一个36*36*200的卷积特征，该36*36*200的卷积特征作为视频的特征，表征多帧视频图像的帧间相关性。该视频的特征经过活体检测模型的第三全连接层后，输出第二概率，假设第二概率是(50.1,3.5)。

然后为第二概率和多帧视频图像各自对应的第一概率分配权重，例如为第二概率分配的权重是1/2，为每个第一概率分配的权重是1/16。根据所述第二概率及其对应的概率，以及所述多帧视频图像各自对应的第一概率及其对应的权重，计算加权平均概率，根据该加权平均概率确定待检测对象是否为活体。具体地，经过加权平均计算后，得到的加权平均概率是(44.4,7.3)，其中表示待检测对象是活体的概率大于表示待检测对象是非活体的概率，则确定出待检测对象是活体。

通过执行步骤S26'-1和步骤S26'-2，为第二概率分配较大权重，可以突出多帧视频图像的帧间相关性在表征一段视频信息时所占的比重，以及在活体检测过程中对提高检测准确性所发挥的作用，从而进一步提高活体检测的准确性。

应当理解的，本申请上述各实施例所列举的数值，如第一概率、第二概率的具体数值，又如卷积特征各维度的数值等，均是示意性的数值，用于示意性地对各实施例步骤进行解释。

基于同一发明构思，本申请一实施例提供一种活体检测装置。参考图4，图4是本申请一实施例提供的活体检测装置的示意图。如图4所示，该装置包括：

第一提取模块41，用于从针对待检测对象所采集的视频中提取多帧视频图像；

第一确定模块42，用于针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率；

第二确定模块43，用于根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体。

可选地，所述装置还包括：

所述第二确定模块包括：

可选地，所述装置还包括：

可选地，所述第一确定子模块包括：

可选地，所述装置还包括：

所述第一确定模块包括：

可选地，所述装置还包括：

所述第三输入模块包括：

可选地，所述第三确定模块包括：

可选地，所述装置还包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的活体检测方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的活体检测方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种活体检测方法、装置、电子设备及可读存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

从针对待检测对象所采集的视频中提取多帧视频图像；

针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率，包括将所述多帧视频图像中的每帧视频图像输入活体检测模型的卷积层，得到该帧视频图像的特征，以及将该帧视频图像的特征输入所述活体检测模型的第一全连接层，得到所述第一概率；

根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：将所述多帧视频图像各自对应的第一概率输入所述活体检测模型的第二全连接层，确定所述待检测对象是否为活体。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对所述多帧视频图像各自的特征进行拼接，得到所述视频的特征，所述视频的特征用于表征所述帧间相关性。

4.根据权利要求2所述的方法，其特征在于，根据所述第二概率和所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：

根据所述第二概率及其对应的权重，以及所述多帧视频图像各自对应的第一概率及其对应的权重，确定所述待检测对象是否为活体。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获得样本视频集，所述样本视频集包括多个携带标记的样本视频，样本视频携带的标记表征该样本视频是否是针对活体所采集的视频；

从该携带标记的样本视频中提取多帧样本视频图像；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述方法还包括：

8.一种活体检测装置，其特征在于，所述装置包括：

第一确定模块，用于针对所述多帧视频图像中的每帧视频图像，根据该帧视频图像的特征，确定该帧视频图像表征所述待检测对象是否为活体的第一概率，包括将所述多帧视频图像中的每帧视频图像输入活体检测模型的卷积层，得到该帧视频图像的特征，以及将该帧视频图像的特征输入所述活体检测模型的第一全连接层，得到所述第一概率；

第二确定模块，用于根据所述多帧视频图像各自对应的第一概率，确定所述待检测对象是否为活体，包括：将所述多帧视频图像各自对应的第一概率输入所述活体检测模型的第二全连接层，确定所述待检测对象是否为活体。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-7任一所述的方法的步骤。