CN112215180B

CN112215180B - 一种活体检测方法及装置

Info

Publication number: CN112215180B
Application number: CN202011125080.5A
Authority: CN
Inventors: 邓新哲; 毕明伟; 丁守鸿; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-05-07
Anticipated expiration: 2040-10-20
Also published as: CN112215180A

Abstract

本申请实施例提供一种活体检测方法及装置，涉及计算机技术领域，方法包括:获取针对目标对象的待检测视频；从所述待检测视频中获得目标对象的人脸全局图像序列，以及与所述检测活动对应的人脸局部图像序列；分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到第一特征提取处理结果、第二特征提取处理结果，根据第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征；基于所述人脸融合特征，确定所述待检侧对象的活体检测结果。提高了检测的准确率以及效率。

Description

一种活体检测方法及装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种活体检测方法及装置。

背景技术

随着智能终端不断普及和功能的日益强大，移动互联网应用已经全面融入并影响人们的生活。特别的，在移动支付以及互联网金融的快速发展背景下，用户的身份鉴别日益重要。传统的基于用户名和密码的身份鉴别模式由于易盗用、难记忆等问题，逐渐无法满足用户体验和应用的安全要求。

随着人脸识别技术的飞速发展，人脸识别技术越来越多的应用在人们的日常生活中，目前基于生物特征识别的身份鉴别技术成为主流方案之一。

但是现有技术中存在很多不法分子伪造活体来进行身份识别，并在身份识别成功后进行危害财产、人身、公共等安全的行为，所以如何提高人脸识别安全性成为一个亟待解决的问题。

发明内容

本申请实施例提供了一种活体检测方法及装置，用以提高人脸识别安全性。

一方面，本申请实施例提供一种活体检测方法，方法包括：

获取针对目标对象的待检测视频，待检测视频是目标对象执行检测活动时确定的；

从待检测视频中获得目标对象的人脸全局图像序列，以及与检测活动对应的人脸局部图像序列；

分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到人脸全局图像序列对应的第一特征提取处理结果，以及人脸局部图像序列对应的第二特征提取处理结果；

根据第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征；

基于人脸融合特征，确定待检侧对象的活体检测结果。

一方面，本申请实施例提供了一种活体检测装置，包括：

获取单元，用于获取针对目标对象的待检测视频，待检测视频是目标对象执行检测活动时确定的；

图像序列确定单元，用于从待检测视频中获得目标对象的人脸全局图像序列，以及与检测活动对应的人脸局部图像序列；

特征提取单元，用于分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到人脸全局图像序列对应的第一特征提取处理结果，以及人脸局部图像序列对应的第二特征提取处理结果；根据第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征；

活体检测结果确定单元，用于基于人脸融合特征，确定待检侧对象的活体检测结果。

可选的，图像序列确定单元，具体用于：

确定每帧待检测视频帧中与检测动作对应的设定检测点位置信息；

根据每帧待检测视频帧中设定检测点位置信息，确定每帧待检测视频帧中与检测动作对应的人脸局部的变化值；

将与设定阈值匹配的变化值对应的待检测视频帧作为关键帧，并提取关键帧以及与关键视频帧时序关联的其它待检测视频帧中与检测动作对应的人脸局部图像信息，并基于各人脸局部图像信息构成人脸局部图像序列。

可选的，特征提取单元具体用于：

在每层特征提取处理过程中，将每个图像序列中N个相邻的图像作为一个通道信息，对通道信息进行多层特征提取处理，得到通道时序特征，其中N大于等于2；

将每个通道信息对应的通道时序特征进行融合，得到表征每个图像序列中相邻图像之间时序关联性的时序特征。

可选的，特征提取单元具体用于：

将人脸全局图像序列输入至第一特征提取网络，通过第一特征提取网络包括的多层第一特征提取子网络进行多层特征提取处理，得到第一特征提取处理结果；

将每个人脸局部图像序列输入至对应的各第二特征提取网络，通过每个第二特征提取网络包括的多层第二特征提取子网络进行多层特征提取处理，得到每个第二特征提取处理结果，第一特征提取网络与每个第二特征提取网络是联合训练得到的。

可选的，第一特征提取子网络为三维卷积处理网络，第二特征提取子网络为三维卷积处理网络，第一特征提取子网络的数量与第二特征提取子网络的数量相同。

可选的，特征提取单元具体用于：

将第一特征提取网络中第i-1个三维卷积处理网络的第一输出值以及与每个第二特征提取网络中第i-1个三维卷积处理网络的第二输出值的进行融合，得到融合值，其中i大于等于2；

将融合值作为第一特征提取网络中第i个三维卷积处理网络的输入值，通过第i个卷积处理网络进行特征提取处理。

可选的，特征提取单元具体用于：

基于第一特征提取网络中第i-1个三维卷积处理网络的第一输出值的维度，将每个第二特征提取网络中第i-1个三维卷积处理网络的第二输出值调整为更新第二输出值，每个更新第二输出值的维度与第一输出值的维度相同；

将所有更新第二输出值与第一输出值进行融合，得到融合值。

可选的，特征提取单元还用于：

确定人脸全局图像序列的特征提取结果中与检测活动对应的目标局部特征提取结果；

确定目标局部特征提取结果与人脸局部图像序列的特征提取结果之间的特征差异值小于特征差异阈值。

可选的，特征提取单元具体用于：

获取训练样本，训练样本是待检测样本对象控制人脸局部执行检测样本活动时确定的；

从训练样本中获得待检测样本对象的人脸全局样本图像序列，以及与检测样本活动对应的人脸局部样本图像序列；

将人脸全局样本图像序列输入至第一特征提取网络，得到全局样本序列特征，将每个人脸局部样本图像序列输入至对应的第二特征提取网络，得到每个人脸局部样本图像序列对应的局部样本序列特征；

将全局样本序列特征以及每个局部样本序列特征进行特征融合，得到融合样本特征，并根据融合样本特征确定预测标签信息；

基于目标标签信息以及预测标签信息确定损失值，基于损失值调整第一特征提取网络以及每个第二特征提取网络的模型参数并继续迭代训练，直至满足迭代停止条件时结束训练，目标标签信息用于表征待检测样本对象为活体的概率值。

可选的，活体检测结果确定单元具体用于：

基于人脸融合特征，确定人脸融特征对应的活体概率值；

若确定活体概率值不小于获得的检测阈值，则确定目标对象为活体。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现活体检测方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行活体检测方法。

一方面，本申请实施例提供了一种计算机程序产品，包括计算机程序或指令，当计算机程序或指令被执行时，实现至少一个处理器能够执行活体检测方法。

在本申请实施例中，当目标对象执行检测活动后，得到了针对目标对象的待检测视频，并从待检测视频中获得人脸全局图像序列以及与检测活动对应的人脸局部图像序列，基于人脸全局图像序列以及与检测活动对应的人脸局部图像序列确定目标对象对应的人脸融合特征，基于人脸融合特征，确定了活体检测结果。

具体的，基于人脸全局图像序列以及与检测活动对应的人脸局部图像序列确定目标对象对应的人脸融合特征的过程为：分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到人脸全局图像序列对应的第一特征提取处理结果，以及人脸局部图像序列对应的第二特征提取处理结果；根据第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征。

在本申请实施例中，首先考虑了目标对象在执行检测活动时的人脸全局图像以及与检测活动对应的人脸局部图像的特征，具体的，通过多层特征提取处理过程，能够获得所述人脸全局图像序列以及所述人脸局部图像序列中多维度的特征，并融合人脸全局图像以及人脸局部图像的融合图像信息得到目标对象对应的人脸融合特征，即在特征提取过程中，将人脸全局图像序列的特征提取结果与所述人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，既考虑了目标对象在执行检测活动时的全局特征，也考虑了局部特征，所以能够更全面的提取出目标对象在执行检测活动的特征，基于更全面的特征，能够得到更准确的活体检测结果。

进一步地，在本申请实施例中，为了能够得到目标对象的时序信息以及时序特征，所以在本申请实施例中，不是从单针图像中获得目标对象的融合特征，而是通过人脸全局图像序列以及与检测活动对应的人脸局部图像序列得到人脸融合特征，即获得的是基于时序性图像信息得到的特征，所以本申请实施例中得到的人脸融合特征，能够更好的表征目标对象在执行检测动作时的动态特征，能够提高对活体与非活体的识别能力，进而提高了检测的准确率以及效率。

在各个生物特征识别场景下，由于能够更加准确确定目标对象的活体检测结果，所以能够进一步提高生物特征识别技术的安全性，保证了害财产、人身以及公共安全。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种活体检测方法的流程示意图；

图3为本申请实施例提供的一种关键点跟踪技术的方法示意图；

图4为本申请实施例提供的一种人脸关键点示意图；

图5为本申请实施例提供的一种嘴部关键点示意图；

图6为本申请实施例提供的一种眼部关键点示意图；

图7为本申请实施例提供的一种从待检测视频这种提取局部图像序列的方法示意图；

图8为本申请实施例提供的一种深度学习模型的结构示意图；

图9为本申请实施例提供的一种特征融合方法的流程示意图；

图10为本申请实施例提供的一种活体检测方法的流程示意图；

图11为本申请实施例提供的一种小活体检测装置的结构示意图；

图12为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

活体：指具有生命的物体，如活着的动物、植物、人体及其组织。例如活体为人体、眼球、虹膜等。在本申请实施例中，用目标对象来表征活体，即目标对象可以是动物、植物、人体及其组织。

活体检测：是在一些身份验证、身份识别场景中确定对象真实生理特征的方法，即确定检测对象是否为活体的方法。例如，针对人体进行活体检测时，通常检测人脸，通过检测人脸的特征与真实人脸生理特征进行比对，来确定用户是否为真实活体。

在本申请实施例中，目标对象可以是活体，也可以不是活体，即通过各种方式伪造的“活体”，可以认为是非活体，也可以认为是针对活体检测方法的攻击对象。

进一步地，对人脸识别系统的攻击，主要有照片攻击、视频攻击等。非法分子或者假冒用户在获得合法用户的照片或视频后，使用合法用户的照片或视频作为伪造的人脸试图欺骗系统。活体检测可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。

通常在活体检测过程中，需要使用到人工智能技术。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

由于人工智能技术的先进性，所以可以使用人工智能技术进行活体检测。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例中的活体检测过程涉及到机器学习技术，将在下文中进行介绍。

卷积神经网络(Convolutional Neural Networks，CNN)：是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

由于卷积神经网络可以提取图像中各个层级的特征，所以可以使用卷积神经网络来提取待检测图像中的特征，来进一步判断待检测图像中的目标对象是否为活体。

损失函数：在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数(loss)的输出值越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程，损失函数的值可以定义为损失值。

训练样本：在机器学习/深度学习中，用一定容量的样本值来训练神经网络。求得神经网络中各神经元之间的连接权重。训练样本中通常包括正样本以及负样本。

正样本：是与训练目的匹配的样本，例如，训练模型的目的是确定活体，所以将活体图像作为正样本。

负样本：指的是与训练目的不匹配的样本，例如，训练模型的目的是确定活体，所以非活体图像作为负样本。

在介绍了上述名词后，现在基于现有技术中存在的问题，说明本申请的构思。

随着技术的发展，人脸识别系统的应用场景越来越广泛，目前出现了许多通过使用包含有他人人脸的照片、视频，或者套用他人的人脸面具等方式来伪装成他人，以蒙混通过人脸识别，对他人的权益安全产生威胁的现象。因此，在进行人脸识别之前，还会先使用活体检测方法进行活体检测，以确定所要识别的图像数据中的人脸对象是否是真实的人类的脸，而不是照片、视频或者面具等。又由于不同场景所对应的环境条件、识别要求等会存在差异，导致针对不同的场景，往往需要分别单独训练建立对应的活体检测模型来进行活体检测。

现有技术中，业内常用的活体检测技术可以按照其依赖的特征信息或是输入信息归三类：1、基于用户面部纹理分析的活体检测算法；2、基于用户面部深度信息的活体检测算法；3、基于多模态输入信息的活体检测算法。

基于用户面部图像细节纹理信息分析的活体检测算法主要基于攻击样本的面部纹理和真人的面部纹理存在一定程度的差异，通过捕捉这种差异来判断当前样本是否为活体。

但是对于高清翻拍，比如高清照片翻拍或高清屏幕翻拍，这类攻击手段，翻拍后样本中人脸面部纹理与真人面部纹理的差异微乎其微，很难通过算法对齐进行捕捉。所以，该算法只适用于检测翻拍痕迹比较显著的翻拍攻击。

基于用户面部深度信息的活体检测算法的主要原理是通过终端上特定的硬件设备获取人脸深度信息，并根据该深度信息来判断当前用户是真人还是平面翻拍攻击(平面翻拍指的是照片、证件、屏幕翻拍)。

显而易见的是，从根本原理上这类基于面部深度信息的活体检测算法就无法对面具攻击产生有效的防御。此外，这种基于面部深度信息的活体检测算法，还非常依赖特定的硬件设备，因而在使用成本上也存在着很大的缺陷。另外，面部深度信息的活体检测算法还易受环境光影响，在室外强光环境下，算法的性能会有所下降。

基于多模态输入信息的活体检测算法一般需要特定的硬件设备(如红色-绿色-蓝色-深度RGBD相机、红外相机、结构光传感器等)支持，用以获取带有深度信息或是红外光照射下的图像。这一类算法一般会结合原始红色-绿色-蓝色RGB图像、深度图像、红外成像这三类模态的一种或几种作为输入，利用原始图片在不同模态下的成像作为辅助信息进行活体检测。

但是该算法的缺点在于它非常依赖于硬件设备，相对于传统的检测方法成本较高，不利于在市场上推广，且数据采集易受周围环境的影响。

基于上述问题，本申请的发明人首先构思了一种活体检测方法，能够解决上述现有活体检测方法中存在的问题。发明人构思了一种基于用户面部动作的活体检测算法。基于用户面部动作的活体检测算法的主要技术原理是通过在终端界面显示动作指令(例如摇头、眨眼、张嘴等)，用户根据动作指令做出相应的动作，然后依次通过人脸检测、人脸关键点定位、动作检测等一系列算法来判断当然用户是否做出符合要求的动作。如果是，则认为当前用户是真人活体，否则判定当前用户是攻击样本。

但是本申请的发明人进一步发现，上述活体检测算法还是不能避免一个问题，当通过合成视频的方式制造出与动作指令匹配的动作时，上述检测算法则不能正确识别是否为活体。

本申请的发明人进一步构思，在现有人脸编辑技术的基础上制造出合成视频时，在合成视频中进行眨眼、张嘴和摇头等动作时，比较容易出现人工合成痕迹的状态，虽然人工合成痕迹在局部图像纹理上的瑕疵越来越难以辨别，也即是基于单帧的算法无法准确识别人工合成痕迹，但是在时序上这类合成动作却异常僵硬及不自然，与活体有很大差距。

所以基于上述分析，本申请的发明人发明了一种利用时序信息进行活体检测的方法，当目标对象执行检测活动后，得到了针对目标对象的待检测视频，并从待检测视频中获得人脸全局图像序列以及与检测活动对应的人脸局部图像序列，并基于人脸全局图像序列以及与检测活动对应的人脸局部图像序列确定目标对象对应的人脸融合特征，基于人脸融合特征，确定了活体检测结果。

也就是说，在基于单帧进行活体检测的算法上，拓展了算法对于时序信息的分析处理能力，以及对多个局部部位融合分析的能力，可以更加有效的对活体进行鉴别。

在各个生物特征识别场景下，由于能够更加准确确定待检测图像的活体检测结果，所以能够进一步提高生物特征识别技术的安全性，保证了害财产、人身以及公共安全。

参考图1，其为本申请实施例适用的一种系统架构图，该系统架构至少包括M个终端设备101以及服务器102，M个终端设备101即图1中所示的终端设备101～1至终端设备101～M，M为正整数，M的值本申请实施例并不进行限制。

终端设备101中安装有客户端，该客户端由服务器102提供活体检测服务。终端设备101中的客户端可以是浏览器客户端、视频应用客户端等。终端设备101中的客户端是各应用的客户端，即可以通过终端设备101运行各应用，并通过各应用将服务器102确定的活体检测结果显示给目标用户。

终端设备101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

进一步地，终端设备101可以获取摄像设备103中获取针对目标对象的待检测视频，并将获取针对目标对象的待检测视频上传给服务器102，其中摄像设备103与终端设备101可以位于同一装置中，即摄像设备103为终端设备101中的一部分，摄像设备103与终端设备101也可以是两个独立的设备，在此不做限定。

服务器102为提供计算能力的终端设备，服务器102根据终端设备101上传的待检测视频，确定待检测视频中目标对象的活体检测结果，服务器102可以包括一个或多个处理器1021、存储器1022以及与终端设备101交互的I/O接口1023等。此外，服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请实施例中，服务器102进行活体检测时，从待检测视频中获得目标对象的人脸全局图像序列，以及与检测活动对应的人脸局部图像序列；根据人脸全局图像序列和人脸局部图像序列获得目标对象的人脸融合特征；基于人脸融合特征，确定待检侧对象的活体检测结果。

进一步地，在本申请实施例中，服务器102通过活体检测模型对待检测图像进行活体检测，得到活体检测结果，活体检测模型可以保存在服务器102中的存储器1022中，也可以保存在其它的存储介质中，例如云储存中，在本申请实施例中不做限定。

在本申请实施例中，活体检测模型的训练过程可以是服务器102执行的，具体的，服务器102获取训练样本，训练样本是待检测样本对象控制人脸局部执行检测样本活动时确定的；从训练样本中获得待检测样本对象的人脸全局样本图像序列，以及与检测样本活动对应的人脸局部样本图像序列；将人脸全局样本图像序列输入至第一特征提取单元，得到全局样本序列特征，将每个人脸局部样本图像序列输入至对应的第二特征提取单元，得到每个人脸局部样本图像序列对应的局部样本序列特征；将全局样本序列特征以及每个局部样本序列特征进行特征融合，得到融合样本特征，并根据融合样本特征确定预测标签信息；基于目标标签信息以及预测标签信息确定损失值，基于损失值调整第一特征提取单元以及每个第二特征提取单元的模型参数并继续迭代训练，直至满足迭代停止条件时结束训练，目标标签信息用于表征待检测样本对象为活体的概率值。

当然，在本申请实施例中，活体检测模型的训练过程还可以是其它设备执行的，服务器102可以从其它设备中获取已训练的活体检测模型。

用户可以通过终端设备101内安装的客户端来访问服务器102，从而能够接收服务器102确定的活体检测结果。例如，该终端设备101可以通过支付类应用客户端来访问服务器102，还可以通过浏览器客户端中支付类应用来访问服务器102确定待检测视频中目标对象的活体检测结果。

服务器102确定了待检测视频中目标对象的活体检测结果后，将待检测视频中目标对象的活体检测结果发送给终端设备101，并显示在终端设备101的客户端中。

示例性的，用户为进行消费的消费者，终端设备101为消费者使用的电子设备，例如手机，消费者使用终端设备101中的支付应用进行购物，支付应用对应的服务器102需要确定当前是否为预设的消费者，所以终端设备101通过摄像设备获取执行检测活动时产生的待检测视频，将待检测视频上传至服务器102，服务器102基于活体检测模型，确定待检测视频中的目标对象(待检测视频中的“消费者”)是否为活体，且是否是预设的消费者，当确定消费者是活体，且是预设的消费者，则可以通过活体检测，并将检测结果发送给终端设备101，实现支付功能；当确定消费者不是活体，则不能通过活体检测，并将活体检测结果发送给终端设备101，不能进行支付。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

基于上述设计思想以及上述应用场景，下面对本申请实施例的活体检测方法进行具体介绍。

如图2所示，本申请实施例提供一种活体检测方法，具体包括：

步骤S201，获取针对目标对象的待检测视频，所述待检测视频是所述目标对象执行检测活动时确定的。

具体的，在本申请实施例中，当需要检测目标对象是否为活体时，需要目标对象执行检测活动，检测活动表示的是一种进行活体检测的指令动作，需要目标对象控制人脸局部执行检测活动。

所以当目标对象为活体时，活体可以执行检测活动，从而得到待检测视频；当目标对象为非活体时，则可能是通过合成视频的方式，得到待检测视频。

在本申请实施例中，检测活动对应不同的人脸局部，检测活动可以是一个指令动作，也可以是多个指令动作。其中，检测活动可以是任意人脸局部可执行的动作，例如，张嘴、点头、耸鼻、皱眉、闭眼等动作。

示例性的，在本申请实施例中，检测活动是多个指令动作，其中一个指令动作是张嘴，另一个指令动作为闭眼；当目标对象为活体时，活体控制人脸中的嘴部局部区域，执行张嘴的检测活动，然后活体控制人脸中的眼睛局部区域，执行闭眼的检测活动。

当然，上述只是一种示例性的说明，还有其它执行检测活动的方法，在此不做赘述。

在本申请实施例中，检测活动可以是通过文字的方式、语音的方式、视频的方式展示给目标对象，便于目标对象能够执行检测活动。

进一步地，在本申请实施例中，获取的待检测视频可以是目标对象进入视频采集设备的采集范围内后开始进行采集的，也可以是在目标对象开始执行检测活动时开始进行采集的，在本申请实施例中不做限定。

步骤S202，从待检测视频中获得目标对象的人脸全局图像序列，以及与检测活动对应的人脸局部图像序列。

具体的，在本申请实施例中，在获取到待检测视频后，为了能够基于时序信息，以及局部以及全局的信息，来准确的确定目标对象的活体检测结果，所以需要确定待检测视频中，目标对象的时序信息，在本申请实施例中用图像序列来表示时序信息，同时，还需要确定待检测视频中，人脸全局信息以及局部信息，所以基于上述内容可知，需要从待检测视频中，目标对象在执行检测活动后，得到的人脸全局图像序列以及人脸局部图像序列。

在本申请实施例中，人脸局部图像序列是与检测活动对应的，即目标对象执行检测活动时，是控制人脸局部来进行动作的，所以人脸局部图像序列也是根据检测活动对应的人脸局部的图像信息确定的。

具体的，在本申请实施例中，由于检测活动可以是一个检测动作，也可以是一系列的检测动作序列，所以本申请实施例中的人脸局部图像序列可以是一个检测动作对应的图像序列，也可以是不同的检测动作对应的多个图像序列。

示例性的，在本申请实施例中，检测活动包括两个检测动作，一个是张嘴，一个是闭眼，所以从待检测视频中确定的目标对象的人脸局部图像序列，一个是目标对象控制人脸的嘴部局部区域执行张嘴的动作时，嘴部局部区域的图像序列；一个是目标对象控制人脸的眼部局部区域执行闭眼的动作时，眼部局部区域的图像序列。

进一步地，在本申请实施例中，图像序列可以是目标对象执行检测活动的全部图像组成的图像序列，示例性的，检测活动为张嘴的动作，则目标对象执行检测活动的全部图像为从目标对象开始张嘴，到嘴部张开到最大位置的过程中所有的成像图像，也就是待检测视频中上述过程对应的全部视频帧。

具体的，在待检测视频中，第3帧视频帧为目标对象开始张嘴的视频帧，第20帧视频帧为目标对象嘴部张开到最大位置的视频帧，则将第3帧视频帧至第20帧视频帧为嘴部局部区域的图像序列。

在上述确定人脸局部图像序列的过程中，需要确定待检测视频帧中检测活动对应的人脸局部区域的运动状态，例如嘴部是否张开，嘴部是否张开到最大位置，或者眼部是否闭合，眼部是否闭合到设定位置等，所以在本申请实施例中，为了能够准确的确定待检测视频帧中检测活动对应的人脸局部区域的运动状态，可以通过确定检测目标对象的设定检测点的位置信息，得到待检测视频帧中检测活动对应的人脸局部区域的运动状态。

一种可选的实施例中，针对不同的待检测视频，可以有不同的设定检测点，同样的，设定检测点的数量也可以不同。

示例性的，在针对待检测视频1中的目标对象1进行活体检测时，设置的设定检测点为目标对象1的眼部区域的检测点，检测点的个数为10；在针对待检测视频2中的目标对象2进行活体检测时，设置的设定检测点为目标对象2的嘴部区域的检测点，检测点的个数为20。

在本申请实施例中，首先需要确定各待检测视频帧中的各设定检测点，一种可选的实施例，可以通过人工标注的方式，确定每帧待检测视频帧中的所有设定检测点。

另一种可选的实施例，可以通过关键点检测技术结合人工标识的方式，确定每帧待检测视频帧中的所有设定检测点，即通过关键点检测技术确定每帧待检测视频帧中人脸面部关键点，然后基于检测出的人脸面部关键点进行人工标注，得到各待检测视频帧中的各设定检测点。

还有一种可选的实施例，可以通过已训练的设定检测点检测模型来确定各待检测视频帧中的各设定检测点。设定检测点检测模型可以是深度学习模型，通过深度学习模型的高效、准确性，快速确定各待检测视频帧中的各设定检测点。

当使用设定检测点检测模型确定各待检测视频帧中的各设定检测点前，还需要通过训练过程，训练能够准确识别各待检测视频帧中的各设定检测点的设定检测点检测模型。

在训练设定检测点检测模型时，可以通过具有各设定检测点的视频帧样本对待训练的设定检测点检测模型进行迭代训练，得到已训练的设定检测点检测模型，具体的训练过程在此不做赘述。

在上述实施例中，为了能够便于确定各待检测视频帧中的各设定检测点，可以首先将各待检测视频帧中的人脸区域提取出来，提取人脸区域的方法有多种，可以是通过人工提取的方法，也可以通过人脸边缘检测技术、人脸特征提取技术等方法，提取人脸区域。

结合上述内容，下面结合一种优选的实施例来解释确定各待检测视频帧中的各设定检测点的过程。

在本申请实施例中，针对各待检测视频帧确定各设定检测点时，可以针对待检测视频帧中的第一帧进行人脸关键点检测，待检测视频帧中的其他帧进行关键点跟踪，从而能够快速确定各待检测视频帧中各设定检测点。

示例性的，在本申请实施例中，如图3所示，首先对待检测视频中的各待检测视频帧提取人脸区域，然后对待检测视频中的第一帧的人脸区域进行人脸关键点检测，检测的方法可以上述任一检测方法。

在对第一帧进行人脸区域进行关键点检测后，得到第一帧的人脸区域中的各设定检测点，并基于关键点跟踪技术，确定待检测视频中其他待检测视频帧中的各设定检测点。

进一步地，在本申请实施例中，为了能够保证各设定检测点的准确性，所以还可以设置检测帧，即将待检测视频中的设定帧作为检测帧，使用关键点跟踪技术确定检测帧中各第一设定检测点，使用关键点检测技术对检测帧确定各第二设定检测点，若各第一设定检测点与对应的各第二设定检测点存在偏差，则以第二设定检测点为基准，使用关键点跟踪技术，确定检测帧后成像的其他待检测视频帧很中的各设定检测点。

当然，上述只是几种确定各待检测视频帧中的各设定检测点的方法，还有其他确定各待检测视频帧中的各设定检测点的方法，在此不做赘述。

在介绍了上述确定各待检测视频帧中的各设定检测点的方法后，示例性的介绍每帧待检测视频帧中各设定检测点的位置，如图4所示，在图4中，待检测视频帧中的人脸区域中包括多个设定检测点，分别位于眉部区域、眼部区域、鼻子区域、嘴巴区域以及脸部轮廓区域。在图4中，每个区域中的设定检测点的个数只是一种示意，具体的数量不做赘述。

通过上述内容可知，可以确定每帧待检测视频帧中各设定检测点的位置，基于每帧待检测视频帧中各设定检测点的位置，进而能够确定目标对象在执行检测活动时的各设定检测点的位置变化。通过各设定检测点的位置变化能够准确确定人脸局部图像序列。

具体的，在本申请实施例中，若检测活动为一个检测指令，或者一个检测动作时，则基于该检测动作对应的各设定检测点的位置变化，确定与检测动作对应的人脸局部图像序列。

示例性的，检测活动为张嘴，则检测活动对应的检测动作为张嘴，张嘴的检测动嘴对应的各设定检测点为目标对象的人脸嘴部区域中的各设定检测点。确定每帧待检测视频帧中，人脸嘴部区域的各设定检测点的位置，并基于人脸嘴部区域的各设定检测点的位置变化，确定与检测动作(张嘴)对应的人脸局部图像序列。

在本申请实施例中，若检测活动为多个检测指令，或者多个检测动作时，则基于每个检测动作对应的各设定检测点的位置变化，并根据每个检测动作对应的各设定检测点的位置变化，确定与每个检测动作对应的人脸局部图像序列。

示例性的，检测活动为张嘴以及闭眼，则检测活动对应的检测动作为张嘴以及闭眼，张嘴的检测动作对应的各设定检测点为目标对象的人脸嘴部区域中的各设定检测点。确定每帧待检测视频帧中，人脸嘴部区域的各设定检测点的位置，并基于人脸嘴部区域的各设定检测点的位置变化，确定与检测动作(张嘴)对应的人脸局部图像序列。

同样的，闭眼的检测动作对应的各设定检测点为目标对象的人脸眼部区域中的各设定检测点。确定每帧待检测视频帧中，人脸眼部区域的各设定检测点的位置，并基于人脸眼部区域的各设定检测点的位置变化，确定与检测动作(闭眼)对应的人脸局部图像序列。

进一步地，在本申请实施例中，当检测活动为张嘴时，可以通过能够计算目标对象张嘴的幅度的设定检测点，来确定目标对象的张嘴幅度或者张嘴距离。

示例性的，如图5所示，分别表示3帧待检测视频帧中的嘴部区域中各设定检测点的分布图，具体的，针对每帧待检测视频帧中的嘴部区域，分别存在设定检测点1—设定检测点12，从图5中的3帧待检测视频帧可以示意性展示目标对象从开始张嘴到最大距离的过程。

从图5中可以看出，当待检测视频帧中嘴部区域执行了张嘴动作时，可以通过设定检测点11以及设定检测点12之间的距离，确定目标对象张嘴的幅度或者张嘴距离，基于嘴部区域的检测点11以及设定检测点12之间的距离变化，能够确定与检测动作(张嘴)对应的人脸局部图像序列。

在本申请实施例中，当设定检测点11以及设定检测点12之间的距离大于设定张嘴距离阈值时，则确定目标对象已经执行完张嘴的动作。在本申请实施例中，设定张嘴距离阈值可以基于大量的活体张嘴数据进行统计得到的，当然还有其它确定设定张嘴距离阈值的方法，在此不做赘述。

由上述内容可知，通过每帧待检测视频帧中的设定检测点11以及设定检测点12，可以确定目标对象开始张嘴时对应的第一待检测视频帧，以及目标对象嘴巴张开最大时对应的第二待检测视频帧，可以将第一待检测视频帧以及第二待检测视频帧之间的所有待检测视频帧作为人脸局部图像序列。

另一种可选的实施例中，当检测活动为闭眼时，可以通过能够计算目标对象闭眼的幅度的设定检测点，来确定目标对象的闭眼幅度。

示例性的，如图6所示，分别表示2帧待检测视频帧中的眼部区域中各设定检测点的分布图，具体的，针对每帧待检测视频帧中的眼部区域，分别存在设定检测点1—设定检测点4，从图6中的2帧待检测视频帧可以示意性展示目标对象从开始闭眼到设定幅度的过程。设定幅度可以为目标对象将眼睛完全闭合。

从图6中可以看出，当待检测视频帧中眼部区域执行了闭眼动作时，可以通过设定检测点2以及设定检测点4之间的距离，确定目标对象闭眼的幅度，基于嘴部区域的检测点2以及设定检测点4之间的距离变化，能够确定与检测动作(闭眼)对应的人脸局部图像序列。

在本申请实施例中，当设定检测点2以及设定检测点4之间的距离小于设定闭眼距离阈值时，则确定目标对象已经执行完闭眼的动作。在本申请实施例中，设定闭眼距离阈值可以基于大量的活体闭眼数据进行统计得到的，当然还有其它确定设定闭眼距离阈值的方法，在此不做赘述。

由上述内容可知，通过每帧待检测视频帧中的设定检测点2以及设定检测点4，可以确定目标对象开始闭眼时对应的第三待检测视频帧，以及目标对象闭眼最大幅度时对应的第四待检测视频帧，可以将第三待检测视频帧以及第四待检测视频帧之间的所有待检测视频帧作为目标对象执行闭眼检测活动的人脸局部图像序列。

从上述内容可知，在本申请实施例中，首先确定每帧待检测视频帧中与检测活动对应的设定检测点位置信息；然后根据每帧待检测视频帧中设定检测点位置信息，确定每帧待检测视频帧中与检测活动对应的人脸局部的变化值；在确定人脸局部的变化值后，确定与设定阈值匹配的变化值对应的待检测视频帧，例如与设定张嘴阈值匹配或者与设定闭眼阈值匹配的变化值，将设定阈值匹配的变化值对应的待检测视频帧作为关键帧，例如将张嘴幅度与设定张嘴阈值匹配的待检测视频帧作为关键帧，或者将闭眼幅度与设定闭眼阈值匹配的待检测视频帧作为关键帧。

一种可选的实施例中，在确定了待检测视频中的关键帧后，根据关键帧以及与关键帧时序相关的其它待检测帧确定人脸局部图像序列。

具体的，在本申请实施例中，与关键帧时序相关的其它待检测帧可以是成像时间在关键帧之后的待检测视频帧，例如关键帧为待检测视频中的第5帧待检测视频帧，待检测视频帧是按照成像时间由先至后的顺序得到的，所以可以将第5帧后的所有待检测视频帧作为人脸局部图像序列，例如待检测视频有20帧待检测帧，则将第5帧至第20帧待检测视频帧作为人脸局部图像序列；或者，可以将设定数量的成像时间在关键帧之后的待检测视频帧以及关键帧作为人脸局部图像序列，例如，从第6帧至第20帧待检测视频帧中选择设定数量的待检测视频帧，并连同关键帧作为人脸局部图像序列。在本申请实施例中，可以根据不同的活体检测的目的设置人脸局部图像序列中待检测视频帧的数量，具体的数量不做限定。

另一种可选的实施例中，与关键帧时序相关的其它待检测帧可以是成像时间在关键帧之前的待检测视频帧，例如待检测视频有20帧待检测帧，关键帧为待检测视频中的第5帧，待检测视频帧是按照成像时间由先至后的顺序得到的，所以可以将第5帧前的所有待检测视频帧作为人脸局部图像序列，例如将第1帧至第5帧待检测视频帧作为人脸局部图像序列；或者，可以将设定数量的成像时间在关键帧之前的待检测视频帧以及关键帧作为人脸局部图像序列，例如，从第1帧至第4帧待检测视频帧中选择设定数量的待检测视频帧，并连同关键帧作为人脸局部图像序列。

还有一种可选的实施例中，与关键帧时序相关的其它待检测帧可以是成像时间在关键帧之前以及成像时间在关键帧之后的待检测视频帧，例如关键帧为待检测视频帧中的第5帧，待检测视频帧是按照成像时间由先至后的顺序得到的，所以可以将第5帧前的第一数量的待检测视频帧以及将第5帧、第5帧后的第二数量的待检测视频帧作为人脸局部图像序列，例如从第1帧至第4帧中选择第一数量的待检测视频帧，从第6帧至第20帧选择第二数量的待检测视频帧，连同关键帧确定了人脸局部图像序列。

在上述实施例中，第一数量与第二数量可以相同，也可以不同，在此不做限定。

下面结合具体实施例示例性确定人脸局部图像序列的方法，在本申请实施例中，检测活动为两个动作序列，两个动作序列为闭眼动作以及张嘴动作，目标对象是先后执行两个动作序列的，首先执行的是闭眼动作。

确定待检测视频中与闭眼动作对应的设定检测点位置信息，以及与张嘴动作对应的设定检测点位置信息，根据每帧待检测视频帧中各设定检测点位置信息，确定了每帧待检测视频帧中嘴巴状态的变化值以及眼睛状态的变化值。

将张嘴距离最大的待检测视频帧作为张嘴动作对应的关键帧，确定的张嘴动作对应的关键帧为第10帧，将眼睛闭合最大的待检测视频帧作为闭眼动作对应的关键帧，确定的闭眼动作对应的关键帧为第20帧。

针对张嘴动作，将第10帧关键帧为基准，以前后10帧为筛选区间，在时序维度上前后随机筛选出2帧待检测视频帧的方式，选择张嘴动作对应的人脸局部图像序列，可以将前后10帧平均划分为2个片段，在每个片段中随机抽取1帧。

同样的，针对闭眼动作，将第20帧关键帧为基准，以前后10帧为筛选区间，在时序维度上前后随机筛选出2帧待检测视频帧的方式，选择闭眼动作对应的人脸局部图像序列，可以将前后10帧平均划分为2个片段，在每个片段中随机抽取1帧。

从上述内容可知，与检测活动对应的人脸局部图像序列为两个图像序列，分别为与张嘴对应的5帧以及与闭眼动嘴对应的5帧。

在本申请实施例中，人脸局部图像序列中的各图像，可以是整个人脸区域的图像，也可以是与检测活动对应的人脸局部区域的图像。

示例性的，在本申请实施例中，检测活动为张嘴动作，所以形成的人脸局部图像序列如图7所示，是人脸嘴部局部图像的序列。从图7中可以确定，待检测视频中是由包括人脸完整区域的各待检测视频帧组成，在形成人脸局部图像序列后，变为人脸嘴部图像的序列。

通过上述内容，可以确定得到人脸局部图像的方法，可以利用上述任一实施例中的方法得到待检测视频中与检测活动对应的人脸局部图像序列，下面介绍得到人脸全局图像序列的方法。

在本申请实施例中，人脸全局图像序列可以是人脸局部图像序列对应的包括人脸全部区域的图像序列，即在得到人脸局部图像序列后，将人脸局部图像序列中的每帧图像对应的人脸全部区域的图像构成人脸全局图像序列。

示例性的，人脸局部图像序列包括待检测视频帧1中的嘴部区域图像、待检测视频帧3中的嘴部区域图像、待检测视频帧5中的嘴部区域图像、待检测视频帧6中的嘴部区域图像、待检测视频帧8中的嘴部区域图像，则将待检测视频帧1中的人脸全部区域图像、待检测视频帧3中的人脸全部区域图像、待检测视频帧5中的人脸全部区域图像、待检测视频帧6中的人脸全部区域图像、待检测视频帧8中的人脸全部区域图像作为人脸全局图像序列。

另一种可选的实施例中，人脸全局图像序列与人脸局部图像序列没有相关关系，可以将待检测视频中的任意包括人脸全部区域的多帧图像作为人脸全局图像序列，人脸全局图像序列中的图像帧的数量与人脸局部图像序列中的图像帧的数量相同。

示例性的，人脸局部图像序列中的图像帧的数量为10，则可以从待检测视频中任意包括人脸全部区域的10帧图像作为人脸全局图像序列。

当然，上述只是两种示例性的确定待检测视频帧中人脸全局图像序列的方法，还有其他确定待检测视频帧中人脸全局图像序列的方法，在此不做限定。

步骤S203，分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到人脸全局图像序列对应的第一特征提取处理结果，以及人脸局部图像序列对应的第二特征提取处理结果，根据所述第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征。

具体的，在确定了待检测视频中的人脸全局图像序列和人脸局部图像序列后，基于人脸全局图像序列和人脸局部图像序列可以确定待检测视频中的目标对象的人脸融合特征，也就是能够得到人脸局部特征以及人脸全局特征的融合特征。

所以在本申请实施例中，可以通过分别提取人脸全局图像序列的全局特征以及提取人脸局部图像序列的局部特征后，将全局特征以及局部特征进行融合，得到人脸融合特征。

在本申请实施例中，提取人脸全局图像序列的全局特征的方法可以是针对人脸全局图像序列中的每帧图像进行人脸特征提取，也可以是针对人脸全局图像序列整体进行人脸特征提取。

同样的，在本申请实施例中，提取人脸局部图像序列的局部特征的方法可以是针对人脸局部图像序列中的每帧图像进行与检测活动对应的人脸局部特征提取，也可以是针对人脸局部图像序列整体进行与检测活动对应的人脸局部特征提取。

在本申请实施例中，若检测活动对应的检测动作为至少两个检测动作序列，则在提取人脸局部图像序列的局部特征时，针对每个检测动作对应的人脸局部图像序列进行特征提取。

一种可选的实施例中，在本申请实施例中对人脸全局图像序列以及人脸局部图像序列分别进行多层特征提取，每次特征提取过程中至少是基于每个图像序列中相邻图像之间时序关联性的时序特征，每次特征提取过程后，得到该层特征提取的结果。

具体的，在每层特征提取处理过程中，将每个图像序列中N个相邻的图像作为一个通道信息，对通道信息进行多层特征提取处理，得到通道时序特征，其中N大于等于2；

例如，在本申请实施例中，每个图像序列中包括8帧图像，将每个图像序列中3帧相邻的图像作为一个通道信息，即将第1、2、3作为一个通道信息、将第2、3、4作为一个通道信息、将第3、4、5作为一个通道信息、将第4、5、6作为一个通道信息、将第5、6、7作为一个通道信息、将第6、7、8作为一个通道信息，然后将每个通道信息对应的通道时序特征进行融合，在上述处理过程中，充分考虑了每个图像序列中相邻图像之间时序关联性的时序特征。

在本申请实施例中，确定人脸融合特征的过程可以是在确定人脸全局图像序列的第一特征和人脸局部图像序列第二特征后，基于第一特征以及第二特征得到人脸融合特征。

示例性的，对针对人脸全局图像序列进行特征提取，得到第一特征；针对人脸局部图像序列进行特征提取，得到第二特征；将第一特征以及第二特征进行特征融合，例如特征相加或则特征加权相加的过程，得到人脸融合特征。

另一种可选的实施例中，确定人脸融合特征的过程可以是在确定人脸全局图像序列的第一特征的过程中和人脸局部图像序列第二特征的过程中就实现了特征融合。

示例性的，在对人脸全局图像序列进行特征提取时，会首先得到第一子特征，同样的，在对人脸局部图像序列进行特征提取时，会首先得到第二子特征，将第一子特征以及第二子特征进行融合，得到人脸第一融合特征；继续对人脸全局图像序列进行特征提取，得到下一个人脸第一融合特征，将各人脸第一融合特征进行融合，得到人脸融合特征。

一种可选的实施例中，由于在本申请实施例中分别对所述人脸全局图像序列以及所述人脸局部图像序列进行多层特征提取处理，所以可以在每层特征提取处理后，进行特征融合，在特征融合后，对融合后的特征提取结果进行下层特征提取处理。

在本申请实施例中，在进行特征融合时，可以将人脸全局图像序列对应的特征提取结果向人脸局部图像序列对应的特征提取结果进行融合，并将融合后的特征提取结果进行下层特征提取处理，该特征提取处理与人脸局部图像序列对应。也可以将人脸局部图像序列对应的特征提取结果向人脸全局图像序列对应的特征提取结果进行融合，并将融合后的特征提取结果进行下层特征提取处理，该特征提取处理与人脸全局图像序列对应。

另一种可选的实施例中，可以在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与所述人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理。

进一步地，在本申请实施例中，检测活动对应的检测动作的数量不同，人脸融合特征的方法也不同；示例性进行解释，检测活动对应两个检测动作，所以得到的人脸局部图像序列为第一人脸局部图像序列以及第二人脸局部图像序列。

例如，在对人脸全局图像序列进行特征提取时，会首先得到第一子特征，同样的，在对第一人脸局部图像序列进行特征提取时，会首先得到第二子特征，在对第二人脸局部图像序列进行特征提取时，会首先得到第三子特征，将第一子特征、第二子特征以及第三子特征进行融合，得到人脸第一融合特征；继续对人脸全局图像序列进行特征提取，得到下一个人脸第一融合特征，将各人脸第一融合特征进行融合，得到人脸融合特征。

例如，在本申请实施例中，在对人脸全局图像序列进行特征提取时，会首先得到第一子特征，同样的，在对第一人脸局部图像序列进行特征提取时，会首先得到第二子特征，将第一子特征、第二子特征进行融合，得到人脸第一融合特征；继续对人脸全局图像序列进行特征提取，得到第一子特征以及第二子特征，然后针对第一人脸局部图像序列进行特征提取，得到第三子特征，将第一子特征、第二子特征以及第三子特征进行融合，得到人脸第一融合特征。

所以从上述内容可知，检测活动对应的检测动作的数量不同，人脸融合特征的方法也不同，上述只是几种示例性的确定人脸融合特征的方法，还有其他人脸融合特征的方法，在此不做赘述。

上述内容为概括性确定人脸融合特征的方法，下面首先具体介绍特征提取的方法。

在本申请实施例中，将提取出的特征进行融合的方法，可以是使用主成分分析的方法进行特征提取，还可以基于局部二值模式的方法进行特征提取，或者其他方式进行特征提取。

在本申请实施例中，针对人脸局部图像序列的特征提取方法可以与针对人脸全局图像序列的特征提取方法相同，也可以不同；或者，不同的检测动作对应的人脸全局图像序列的特征提取方法可以相同，也可以不同，在本申请实施例中不做限定。

深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力，在满足特定条件的应用场景下，已经达到了超越现有算法的识别或分类性能。所以在本申请实施例中，还可以使用深度学习模型来进行特征提取。

在本申请实施例中，可以针对人脸局部图像序列、人脸全局图像序列进行特征提取处理时使用的是深度学习模型，深度学习模型可以是卷积神经网络CNN。

一种可选的实施例中，特征提取网络为CNN，如图8所示，在图8中，卷积神经网络CNN中包括卷积层801、池化层(max pooling)802和全连接层803，本申请实施例不限制各个层结构的数量。

卷积层801用于提取特征的层，分为卷积操作和激活操作两部分。其中，进行卷积操作时，使用预先经过训练学习得到的卷积核进行特征提取，进行激活操作时，使用激活函数对卷积得到的特征图进行激活处理，常用的激活函数包括线性整流(Rectified LinearUnit，ReLU)函数、S型(Sigmoid)函数和双曲正切(Tanh)函数等。

池化层802，位于卷积层801之后，用于降低卷积层输出的特征向量，即缩小特征图的尺寸，同时改善过拟合问题。常用的池化方式包括平均池化(mean-pooling)、最大池化(max-pooling)和随机池化(stochastic-pooling)等。

全连接层803用来把池化层802提取到的特征综合起来。

另一种可选的实施例中，可以针对整体的人脸局部图像序列、人脸全局图像序列使用深度学习模型进行特征提取，由于图像序列包括多帧图像，所以为了能够针对多帧图像进行整体的特征提取，可以使用三维卷积神经网络3D-CNN进行特征提取。

三维卷积神经网络3D-CNN是通过堆叠多个连续的帧组成一个立方体，也就是将人脸局部图像序列、人脸全局图像序列分别组成立方体，然后在立方体中运用三维卷积核来进行特征提取。在这个结构中，卷积层中每一个特征图都会与上一卷积层中多个邻近的连续帧相连，因此捕捉运动信息。

三维卷积神经网络3D-CNN的卷积过程实际上是结合了图像序列中各图像帧中的时间和空间特征，即三维卷积神经网络3D-CNN能更好的捕获图像序列中的时间和空间的特征信息。

三维卷积神经网络3D-CNN与卷积神经网络CNN的结构类似，示例性的进行介绍。

三维卷积神经网络3D-CNN包括三个结构，分别为下采样层、上采样层以及全连接层。

第一部分下采样层(相当于图8中的卷积层801)，下采样层的数量不做限制，可以是多层，例如为四层，每个下采样层包含重复的3*3*3的卷积核，每次下采样后特征图变为原来的一半，但是在卷积部分，特征通道数则增加一倍。

第二部分上采样层(相当于图8中的池化层802)，上采样层的数量不做限制，可以是多层，每个上采样层包含重复的2*2*2的卷积核，并减半特征通道数目，并依次与下采样层的特征图直接结合成一个新的特征。

第三部分是全连接层：将上采样层得到的特征综合起来，得到特征提取结果。

所以在本申请实施例中，可以通过三维卷积神经网络3D-CNN对人脸局部图像序列以及人脸全局图像序列进行特征提取。

一种可选的实施例中，通过三维卷积神经网络3D-CNN分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，在每层特征提取处理过程中，将每个图像序列中N个相邻的图像作为一个通道信息，对通道信息进行多层特征提取处理，得到通道时序特征。

在本申请实施例中，可以通过一个三维卷积神经网络3D-CNN对人脸局部图像序列以及人脸全局图像序列进行特征提取，也可以通过两个三维卷积神经网络3D-CNN分别对人脸局部图像序列以及人脸全局图像序列进行特征提取，在此不做限定。

以一个三维卷积神经网络3D-CNN对人脸局部图像序列以及人脸全局图像序列进行特征提取进行说明，在本申请实施例中，三维卷积神经网络3D-CNN包括两个特征提取网络，一个特征提取网络来提取人脸全局图像序列的特征，另一个特征提取网络，提取人脸局部图像序列的特征。

提取人脸局部图像序列的特征提取网络的数量可以与基于检测活动中包括的检测动作的数量相同。

也就是说，可以将人脸全局图像序列输入至第一特征提取网络，通过第一特征提取网络包括的多层第一特征提取子网络进行多层特征提取处理，得到第一特征提取处理结果；将每个人脸局部图像序列输入至对应的各第二特征提取网络，通过每个第二特征提取网络包括的多层第二特征提取子网络进行多层特征提取处理，得到每个第二特征提取处理结果，第一特征提取网络与每个第二特征提取网络是联合训练得到的。

进一步地，在本申请实施例中，为了能够提取处理得到同样层级的特征，所以第一特征提取子网络为三维卷积处理网络，第二特征提取子网络为三维卷积处理网络，第一特征提取子网络的数量与第二特征提取子网络的数量相同。

基于前述介绍的特征融合的过程，可以得知，将全局序列特征以及每个局部序列特征进行特征融合，可以是在确定全局序列特征以及每个局部序列特征后进行的，也可以是在确定全局序列特征以及每个局部序列特征的过程中进行的。

一种可选的实施例中，由于在通过三维卷积神经网络3D-CNN对各图像序列进行特征提取的过程中，会进行多次卷积处理，或者进行多次反卷积处理，则可以在每次对各图像序列进行卷积处理或者反卷积处理后，进行一次特征融合，得到子融合特征，然后基于各子融合特征，确定融合特征。

另一种可选的实施例中，还可以在每次对各图像序列进行卷积处理或者反卷积处理后，将每个图像序列的卷积处理结果或者反卷积处理，融合到其他图像序列的卷积处理结果或者反卷积处理中，将每个图像序列的卷积处理结果继续进行卷积处理或者反卷积处理，将融合后的卷积处理结果继续进行卷积处理或者反卷积处理，并在卷积或者反卷积处理结束时，将卷积或者反卷积结果进行融合。

也就是说，在本申请实施例中，在卷积或者反卷积处理过程中就进行了特征融合，并基于特征融合的结果进一步提取特征，能够获得更多细节的特征。

为了便于描述，可以将卷积处理、反卷积处理都描述为卷积处理，所以在本申请实施例中，第一特征提取网络、第二特征提取网络具有多级三维卷积处理网络，将人脸全局图像序列输入至第一特征提取网络，并经过n级三维卷积处理网络进行卷积处理，得到人脸全局图像序列对应的全局序列特征，其中n大于等于2，在本申请实施例中，三维卷积处理网络就是上述描述中的特征提取子网络。

将每个人脸局部图像序列输入至对应的各第二特征提取网络，并经过每个第二特征提取网络的n级三维卷积处理网络进行卷积处理，得到每个人脸局部图像序列对应的局部序列特征，其中n大于等于2。

进一步地，在本申请实施例中，将第一特征提取网络中第i-1个三维卷积处理网络的第一输出值以及与每个第二特征提取网络中第i-1个三维卷积处理网络的第二输出值的进行融合，得到融合值，其中i大于等于2；将融合值作为第一特征提取网络中第i个三维卷积处理网络的输入值，通过第i个三维卷积处理网络进行特征提取处理。

具体的，以在第一特征提取网络提取特征的过程中，融合第二特征提取网络提取的特征的过程进行解释。

具体的，将人脸全局图像序列输入至第一特征提取网络，并经过第一特征提取网络的n级三维卷积处理网络进行卷积处理，得到全局序列特征，其中，第i个卷积处理网络的输入值为第一特征提取网络中第i-1个卷积处理网络的第一输出值以及与每个第二特征提取网络中第i-1个卷积处理网络的第二输出值的融合值，i大于等于2。

在本申请实施例中，由于在特征融合过程中，会有特征维度不同的问题，例如局部特征与全局特征的特征维度不同，所以在融合过程中，首先需要调整特征维度。

具体的，在本申请实施例中，基于第一特征提取网络中第i-1个三维卷积处理网络的第一输出值的维度，将每个第二特征提取网络中第i-1个三维卷积处理网络的第二输出值调整为更新第二输出值，每个更新第二输出值的维度与第一输出值的维度相同；将所有更新第二输出值与第一输出值进行融合，得到融合值。

当然，在本申请实施例中，还可以是将第一特征提取网络中第i-1个三维卷积处理网络的第一输出值的维度调整为每个第二特征提取网络中第i-1个三维卷积处理网络的第二输出值的维度，处理结果与上述过程相似，在此不做赘述。

在本申请实施例中，在进行特征融合前，还需要确定通过人脸全局图像序列确定的特征结果与人脸局部图像序列确定的特征结果是否能够进行融合。

在本申请实施例中，如果通过人脸全局图像序列确定的特征结果与人脸局部图像序列确定的特征结果之间的差异性相差大于设定的特征差异阈值，则可以认为，两个特征不能融合，也可以进一步确定目标对象不是活体。

所以在本申请实施例中，在通过人脸全局图像序列确定的特征结果与人脸局部图像序列确定的特征结果进行融合前，确定人脸全局图像序列的特征提取结果中与检测活动对应的目标局部特征提取结果；确定目标局部特征提取结果与人脸局部图像序列的特征提取结果之间的特征差异值小于特征差异阈值。

也就是说，只有确定目标局部特征提取结果与人脸局部图像序列的特征提取结果之间的特征差异值小于特征差异阈值，才继续进行特征融合以及特征提取的过程，若确定目标局部特征提取结果与人脸局部图像序列的特征提取结果之间的特征差异值不小于特征差异阈值，则直接确定目标对象不是活体。

下面结合具体的示例解释上述过程，如图9所示，检测活动为闭眼以及张嘴动作，则确定的人脸局部图像序列为闭眼动作对应的眼部图像序列以及张嘴动作对应的嘴部图像序列。

通过第一特征提取网络以及两个第二特征提取网络分别对人脸全局图像序列、眼部图像序列以及嘴部图像序列进行特征提取。

具体的，第一特征提取网络以及两个第二特征提取网络的三维卷积处理网络的数量相同，如图9所示，三维卷积处理网络的数量为3。

为了便于区分，第一特征提取网络中的三维卷积处理网络为三维卷积网络1、三维卷积网络2、三维卷积网络3；第一个第二特征提取网络中的三维卷积处理网络为三维卷积网络11、三维卷积网络22、三维卷积网络33；第二个第二特征提取网络中的三维卷积处理网络为三维卷积网络111、三维卷积网络222、三维卷积网络333。

进一步地，在图9中，三维卷积网络1的处理结果为卷积特征1，三维卷积网络11的处理结果为卷积特征11，三维卷积网络111的处理结果为卷积特征111，将卷积特征11、卷积特征111与卷积特征1进行融合，融合后的特征输入至三维卷积网络2中，卷积特征11输入至三维卷积网络22中，卷积特征111输入至三维卷积网络222中，三维卷积网络2的处理结果为卷积特征2，三维卷积网络22的处理结果为卷积特征22，三维卷积网络222的处理结果为卷积特征222；将卷积特征22、卷积特征222与卷积特征2进行融合，融合后的特征输入至三维卷积网络3中，卷积特征22输入至三维卷积网络33中，卷积特征222输入至三维卷积网络333中，三维卷积网络3的处理结果为卷积特征3，三维卷积网络33的处理结果为卷积特征33，三维卷积网络333的处理结果为卷积特征333；将卷积特征33、卷积特征333与卷积特征3进行融合，得到融合特征。

在本申请实施例中，每次三维卷积处理网络处理的结果可以是特征图或者特征图序列，所以在上述融合的过程中，由于各特征提取网络提取的特征数据的尺寸不同，即特征维度不同，还涉及到特征图维度的调整。

在本申请实施例中，先将嘴部、眼部的特征图维度调整到与人脸全局图像的特征图维度，然后将嘴部、眼部的特征图中除嘴部、眼部所在范围的像素外，其余像素全部置1，并通过像素对应相乘的方式，得到融合特征。

上述过程只是一种融合特征的方法，还有其他的融合特征的方法，例如卷积特征1与卷积特征11进行融合，将融合后的特征输入至三维卷积网络2中，得到卷积特征2；卷积特征2与卷积特征222进行融合，将融合后的特征输入至三维卷积网络3中。还有其他的融合特征的方法，在此不做赘述。

当然，上述实施例中只是以将嘴部、眼部的特征融合到人脸全局特征中的过程，还可以是将人脸全局特征融合到嘴部、眼部的特征中，具体的过程与上述特征融合的过程相似，在此不展开叙述。

在本申请实施例中，在使用深度学习模型进行特征提取前，还需要对深度学习模型进行训练，以便得到能够准确提取特征的深度学习模型。

在训练过程中，首先需要获取训练样本，训练样本是待检测样本对象控制人脸局部执行检测样本活动时确定的；可以认为，为了提高深度学习模型的特征提取能力，所以检测样本活动与检测活动相同或者相近。

在本申请实施例中，训练样本可以包括正样本以及负样本，正样本为活体执行检测样本活动时产生的检测视频样本，负样本为非活体伪造的执行检测样本活动时产生的检测视频样本。

在获取到训练样本后，从训练样本中获得待检测样本对象的人脸全局样本图像序列，以及与检测样本活动对应的人脸局部样本图像序列；将人脸全局样本图像序列输入至第一特征提取网络，得到全局样本序列特征，将每个人脸局部样本图像序列输入至对应的第二特征提取网络，得到每个人脸局部样本图像序列对应的局部样本序列特征；将全局样本序列特征以及每个局部样本序列特征进行特征融合，得到融合样本特征，并根据融合样本特征确定预测标签信息。预测标签表示的是通过模型的特征提取结果，确定的待检测样本对象为活体的概率值。

也就是说，通过模型的特征提取结果，确定的待检测样本对象为活体的概率值与待检测样本对象活体的真实概率值之间的差异，来调整第一特征提取网络以及各第二特征提取网络的参数，可以认为确定的待检测样本对象为活体的概率值与待检测样本对象活体的真实概率值之间的差异越小，则模型的特征提取能力越准确。

步骤S204，基于人脸融合特征，确定待检侧对象的活体检测结果。

当提取出人脸融合特征后，将人脸融合特征映射为活体检测结果，在本申请实施例中，活体检测结果可以是目标对象为活体、非活体的结果，也可以是目标对象为活体的概率值。

由于活体检测的业务场景不同，所以一种可选的实施例中，基于人脸融合特征，确定人脸融特征对应的活体概率值；若确定活体概率值不小于获得的检测阈值，则确定目标对象为活体。

检测阈值可以基于不同的活体检测业务进行设置，例如活体检测业务的安全等级高，则设置的检测阈值较高，活体检测业务的安全等级低，则设置的检测阈值较低。

例如小区门禁对住户进行活体检测时，设置的检测阈值相较于银行支付对用户进行活体检测时设置的检测阈值。

在介绍了上述的训练过程以及检测过程后，本申请实施例中的活体检测方法可以应用于不同的应用场景中。例如支付场景、网约车场景以及小区门禁的管理场景。

示例性的，当用户需要进行远程开户时，为了确认开户人的真实身份，也采用了活体检测的技术，一种可选的流程如下：首先用户会在应用前端通过摄像头获取一张包含人脸的图像。前端将该图像传输到后端并调用活体检测算法。并将结果返回前端。如果判定为活体则通过，否则开户失败。

另一种可选的实施例中，在人脸支付过程中，活体检测是把控支付安全的一个重要环节，高精度的活体检测方法可以拒绝一些非法攻击试图进行的交易，保证交易的安全，保证公司和个人的利益不受损害。

综上所述，如图10所示，在本申请实施例中，针对某业务需要对用户进行活体检测时，获取活体检测视频，该活体检测视频是用户执行检测活动后得到的。

基于人脸检测的方法，检测视频中各视频帧中的人脸，基于人脸关键点检测技术，确定人脸中的检测关键点，并基于关键点追踪技术，得到各视频帧中的检测关键点信息。

基于各视频帧中的检测关键点信息确定了视频中的关键帧，基于与关键帧有时序关联的其他视频帧，确定全局视频图像序列以及局部视频图像序列。

对全局视频图像序列以及局部视频图像序列进行特征提取以及特征融合的处理，得到融合特征。

针对业务的需求以及融合特征，确定用户是否为活体，也确定了用户是否能够执行业务。

在本申请实施例中，首先考虑了目标对象在执行检测活动时的人脸全局图像以及与检测活动对应的人脸局部图像，并融合人脸全局图像以及人脸局部图像的融合图像信息得到目标对象对应的人脸融合特征，既考虑了目标对象在执行检测活动时的全局特征，也考虑了局部特征，所以能够更全面的提取出目标对象在执行检测活动的特征，基于更全面的特征，能够得到更准确的活体检测结果。

基于相同的技术构思，本申请实施例提供了一种活体检测装置，如图11所示，包括：

获取单元1101，用于获取针对目标对象的待检测视频，待检测视频是目标对象执行检测活动时确定的；

图像序列确定单元1102，用于从待检测视频中获得目标对象的人脸全局图像序列，以及与检测活动对应的人脸局部图像序列；

特征提取单元1103，用于分别对人脸全局图像序列以及人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸全局图像序列的特征提取结果与人脸局部图像序列的特征提取结果融合，对融合后的特征提取结果进行下层特征提取处理，得到人脸全局图像序列对应的第一特征提取处理结果，以及人脸局部图像序列对应的第二特征提取处理结果；根据第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征；

活体检测结果确定单元1104，用于基于人脸融合特征，确定待检侧对象的活体检测结果。

可选的，图像序列确定单元1102，具体用于：

确定检测活动对应的检测动作序列，检测动作序列中包括至少一个检测动作；

从待检测视频中获得每个检测动作对应的人脸局部图像序列。

可选的，特征提取单元1103具体用于：

可选的，特征提取单元1103还用于：

可选的，活体检测结果确定单元1104具体用于：

基于人脸融合特征，确定人脸融特征对应的活体概率值；

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图12所示，包括至少一个处理器1201，以及与至少一个处理器连接的存储器1202，本申请实施例中不限定处理器1201与存储器1202之间的具体连接介质，图12中处理器1201和存储器1202之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1202存储有可被至少一个处理器1201执行的指令，至少一个处理器1201通过执行存储器1202存储的指令，可以执行前述的活体检测方法中所包括的步骤。

其中，处理器1201是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1202内的指令以及调用存储在存储器1202内的数据，从而创建虚拟机。可选的，处理器1201可包括一个或多个处理单元，处理器1201可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1201中。在一些实施例中，处理器1201和存储器1202可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1201可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1202可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行活体检测方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种活体检测方法，其特征在于，所述方法包括：

获取针对目标对象的待检测视频，所述待检测视频是所述目标对象执行检测活动时确定的；

从所述待检测视频中获得所述目标对象的人脸全局图像序列；以及，确定所述待检测视频中每帧待检测视频帧中与所述检测活动对应的设定检测点位置信息；

根据所述每帧待检测视频帧中所述设定检测点位置信息，确定所述每帧待检测视频帧中与所述检测活动对应的人脸局部的变化值；

将与设定阈值匹配的变化值对应的待检测视频帧作为关键帧，并提取所述关键帧以及与所述关键视频帧时序关联的其它待检测视频帧中与所述检测活动对应的人脸局部图像信息，并基于各所述人脸局部图像信息构成人脸局部图像序列；

分别对所述人脸全局图像序列以及所述人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸局部图像序列的特征提取结果向人脸全局图像序列的特征提取结果进行融合，并将融合后的特征提取结果进行下层特征提取处理，得到所述人脸全局图像序列对应的第一特征提取处理结果，以及所述人脸局部图像序列对应的第二特征提取处理结果，所述下层特征提取处理与所述人脸全局图像序列对应；

根据所述第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征；

基于所述人脸融合特征，确定待检测对象的活体检测结果。

2.根据权利要求1所述的方法，其特征在于，所述从所述待检测视频中获得与所述检测活动对应的人脸局部图像序列，包括：

确定所述检测活动对应的检测动作序列，所述检测动作序列中包括至少一个检测动作；

从所述待检测视频中获得每个所述检测动作对应的人脸局部图像序列。

3.根据权利要求2所述的方法，其特征在于，所述分别对所述人脸全局图像序列以及所述人脸局部图像序列进行多层特征提取处理，得到对应的第一特征提取处理结果以及第二特征提取处理结果，包括：

在每层特征提取处理过程中，将每个所述图像序列中N个相邻的图像作为一个通道信息，对所述通道信息进行多层特征提取处理，得到通道时序特征，其中N大于等于2；

将每个所述通道信息对应的通道时序特征进行融合，得到表征每个所述图像序列中相邻图像之间时序关联性的时序特征。

4.根据权利要求3所述的方法，其特征在于，所述分别对所述人脸全局图像序列以及所述人脸局部图像序列进行多层特征提取处理，得到对应的第一特征提取处理结果以及第二特征提取处理结果，包括：

将所述人脸全局图像序列输入至第一特征提取网络，通过所述第一特征提取网络包括的多层第一特征提取子网络进行多层特征提取处理，得到所述第一特征提取处理结果；

将每个所述人脸局部图像序列输入至对应的各第二特征提取网络，通过每个所述第二特征提取网络包括的多层第二特征提取子网络进行多层特征提取处理，得到每个所述第二特征提取处理结果，所述第一特征提取网络与每个所述第二特征提取网络是联合训练得到的。

5.根据权利要求4所述的方法，其特征在于，所述第一特征提取子网络为三维卷积处理网络，所述第二特征提取子网络为三维卷积处理网络，所述第一特征提取子网络的数量与所述第二特征提取子网络的数量相同。

6.根据权利要求5所述的方法，其特征在于，所述在至少一层特征提取处理后，将人脸局部图像序列的特征提取结果向人脸全局图像序列的特征提取结果进行融合，并将融合后的特征提取结果进行下层特征提取处理，包括：

将所述第一特征提取网络中第i-1个所述三维卷积处理网络的第一输出值以及与每个所述第二特征提取网络中第i-1个所述三维卷积处理网络的第二输出值的进行融合，得到融合值，其中i大于等于2；

将所述融合值作为所述第一特征提取网络中第i个所述三维卷积处理网络的输入值，通过第i个所述三维卷积处理网络进行特征提取处理。

7.根据权利要求6所述的方法，其特征在于，所述将所述第一特征提取网络中第i-1个卷积处理网络的第一输出值以及与每个所述第二特征提取网络中第i-1个卷积处理网络的第二输出值的进行融合，得到融合值，包括：

基于所述第一特征提取网络中第i-1个所述三维卷积处理网络的所述第一输出值的维度，将每个所述第二特征提取网络中第i-1个所述三维卷积处理网络的所述第二输出值调整为更新第二输出值，每个所述更新第二输出值的维度与所述第一输出值的维度相同；

将所有所述更新第二输出值与所述第一输出值进行融合，得到所述融合值。

8.根据权利要求1~7任一所述的方法，其特征在于，所述在至少一层特征提取处理后，将人脸局部图像序列的特征提取结果向人脸全局图像序列的特征提取结果进行融合前，还包括：

确定所述人脸全局图像序列的特征提取结果中与所述检测活动对应的目标局部特征提取结果；

确定所述目标局部特征提取结果与所述人脸局部图像序列的特征提取结果之间的特征差异值小于特征差异阈值。

9.根据权利要求4所述的方法，其特征在于，所述第一特征提取网络与每个所述第二特征提取网络是联合训练得到的，包括：

获取训练样本，所述训练样本是待检测样本对象控制人脸局部执行检测样本活动时确定的；

从所述训练样本中获得待检测样本对象的人脸全局样本图像序列，以及与所述检测样本活动对应的人脸局部样本图像序列；

将所述人脸全局样本图像序列输入至第一特征提取网络，得到全局样本序列特征，将每个所述人脸局部样本图像序列输入至对应的第二特征提取网络，得到每个所述人脸局部样本图像序列对应的局部样本序列特征；

将所述全局样本序列特征以及每个所述局部样本序列特征进行特征融合，得到融合样本特征，并根据所述融合样本特征确定预测标签信息；

基于目标标签信息以及所述预测标签信息确定损失值，基于所述损失值调整所述第一特征提取网络以及每个所述第二特征提取网络的模型参数并继续迭代训练，直至满足迭代停止条件时结束训练，所述目标标签信息用于表征所述待检测样本对象为活体的概率值。

10.根据权利要求1所述的方法，其特征在于，所述基于所述人脸融合特征，确定所述目标对象的活体检测结果，包括：

基于所述人脸融合特征，确定所述人脸融特征对应的活体概率值；

若确定所述活体概率值不小于获得的检测阈值，则确定所述目标对象为活体。

11.一种活体检测装置，其特征在于，包括：

获取单元，用于获取针对目标对象的待检测视频，所述待检测视频是所述目标对象执行检测活动时确定的；

图像序列确定单元，用于从所述待检测视频中获得所述目标对象的人脸全局图像序列；以及，确定所述待检测视频中每帧待检测视频帧中与所述检测活动对应的设定检测点位置信息；

特征提取单元，用于分别对所述人脸全局图像序列以及所述人脸局部图像序列进行多层特征提取处理，每层特征提取结果中至少包括表征每个图像序列中相邻图像之间时序关联性的时序特征，在至少一层特征提取处理后，将人脸局部图像序列的特征提取结果向人脸全局图像序列的特征提取结果进行融合，并将融合后的特征提取结果进行下层特征提取处理，得到所述人脸全局图像序列对应的第一特征提取处理结果，以及所述人脸局部图像序列对应的第二特征提取处理结果；根据所述第一特征提取处理结果以及第二特征提取处理结果确定人脸融合特征，所述下层特征提取处理与所述人脸全局图像序列对应；

活体检测结果确定单元，用于基于所述人脸融合特征，确定待检测对象的活体检测结果。

12.根据权利要求11所述的活体检测装置，其特征在于，所述图像序列确定单元，具体用于：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1~10任一权利要求所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1~10任一权利要求所述方法的步骤。