CN115311723A

CN115311723A - 活体检测方法、装置及计算机可读存储介质

Info

Publication number: CN115311723A
Application number: CN202210981282.2A
Authority: CN
Inventors: 梁俊杰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-08

Abstract

本申请提供一种活体检测方法、装置及计算机可读存储介质，该方法通过获取具有眨眼动作的面部图像信息；其中，所述具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；根据所述面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率；判断所述第一活体检测概率是否大于预设阈值；若所述第一活体检测概率大于预设阈值，则确定活体检测通过。通过面部识别模型和分类模型对具有眨眼动作的面部图像的处理，得到了准确率较高的活体检测概率，实现了提高了活体检测的准确率，从而提高了抗外部攻击的能力。

Description

活体检测方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种活体检测方法、装置及计算机可读存储介质。

背景技术

随着计算机技术的不断发展，人脸活体检测的功能应用场景越来越丰富，例如：人脸活体检测功能可以用于考勤软件、支付软件、社交软件等，但是网络黑客利用假人脸或者视频拼接的方式来完成线上人脸识别，进而对用户会造成的非常严重的损失。因此，在各种场景下人脸识别的过程的安全性和可信度成为了至关重要的问题。

在现有技术中，存在较多的活体检测产品：动作活检、静默活检、脸部炫光活检等等，虽然能够解决人脸活体检测过程中的安全性，但是上述这些产品都存在较为明显的不足，其检测出来的活体检准确率较低，导致不足以抵抗网络黑客的攻击。因此，还需进一步提高活体检测的准确率。

发明内容

本发明实施例的目的在于一种活体检测方法、装置及计算机可读存储介质，通过面部识别模型、预设分类模型和双流体模型对面部RGB图像和深度时序图像的特征信息进行处理，以得到准确的活体检测概率，用以解决现有技术中活体检测的准确率低的问题。

第一方面，本申请实施例提供了一种活体检测方法，方法包括：

获取具有眨眼动作的面部图像信息；其中，所述具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；

根据所述面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率；

判断所述第一活体检测概率是否大于预设阈值；

若所述第一活体检测概率大于预设阈值，则确定活体检测通过。

在上述实现过程中，通过获取具有眨眼动作的面部RGB图像以及面部深度时序图像，并基于面部识别模型和分类模型对面部RGB图像和面部深度时序图像进行识别，得到活体检测概率，然后根据预先设置的活体检测概率阈值来确定当前用户是否通过活体检测，由于同时采用了具有眨眼动作的面部RGB图像和面部深度时序图像，有效避免了待检测人员利用仅具有二维特征的图像进行混淆活体检测，从而提高了活体检测的准确率，以此提高了抗外部攻击的能力。

可选地，其中，所述分类模型包括预设分类模型和双流体模型；

所述根据所述面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率，包括：

利用所述面部识别模型对所述面部RGB图像和所述面部深度时序图像进行分析，得到多帧面部图和多帧面部深度图；

利用所述面部识别模型对多帧所述面部图进行分析，得到多帧眼睛区域图；

将多帧所述眼睛区域图分别映射到对应的多帧所述面部深度图中，得到多帧眼睛区域深度图。

在上述实现过程中，通过利用面部识别模型对面部RGB图像和面部深度图像进行分析，得到多帧面部图和面部深度图，然后又利用面部识别模型对面部图进行分析，得到多帧眼睛区域图，最后将多帧眼睛区域图映射到多帧面部深度图中，得到多帧眼睛区域深度图，由于本申请的活体检概率是基于面部图、眼睛区域图和眼睛区域深度图综合后得到的活体概率，使得面部RGB图、眼睛区域图和眼睛区域深度图成为了提高活体检测概率的准确度的必不可少的条件。

可选地，所述将多帧所述眼睛区域图分别映射到对应的多帧所述面部深度图中，得到多帧眼睛区域深度图的步骤之后，还包括：

将多帧所述面部图进行归一化处理，得到多帧归一化处理后的所述面部图；

将多帧归一化处理后的所述面部图输入所述预设分类模型，得到所述预设分类模型输出的多帧所述面部图的活体检测概率；

将多帧所述面部图的活体检测概率进行加权平均，得到第二活体检测概率。

在上述实现过程中，通过将多帧面部进行归一化处理，然后将归一化处理后的面部图输入到预设分类模型中，然后输出多帧面部图的活体检测概率，最后将多帧不同面部图的活体检测概率进行加权平均，得到基于面部图的活体检测概率，由于本申请的活体检概率的准确度是基于面部图的活体检测概率、眼睛区域图和眼睛区域深度图融合后的活体检测概率综合得到的，使得面部图的活体概率为提升活体检测概率准确度提供了有效依据。

可选地，所述将多帧所述面部图的活体检测概率进行加权平均，得到第二活体检测概率的步骤之后，还包括：

将多帧所述眼睛区域图和多帧所述眼睛区域深度图进行归一化处理，得到多帧归一化处理后的所述眼睛区域图和多帧归一化处理后的所述眼睛区域深度图；

将多帧归一化处理后的所述眼睛区域图和多帧归一化处理后的所述眼睛区域深度图输入所述双流体模型，得到所述双流体模型输出的多个眼睛区域图和眼睛区域深度图的活体检测概率；

将多个所述眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率。

在上述实现过程中，通过将多帧眼睛区域图和眼睛区域深度图输入双流体模型，然后得到基于眼睛区域图和眼睛区域深度图的活体检测概率，最后将不同帧的眼睛区域图和对应的眼睛区域深度图的活体检测概率进行加权平均，得到多组眼睛区域图和眼睛区域深度图的活体检测概率，最后将多组眼睛区域图和眼睛区域深度图的活体检测概率进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率，由于本申请的活体检概率的准确度是基于面部图的活体检测概率、眼睛区域图和眼睛区域深度图融合后的活体检测概率综合得到的，使得眼睛区域图和眼睛区域深度图融合后的活体检测概率为提升活体检测概率准确度提供了有效依据。

可选地，其中，所述双流体模型包括第一stream结构和第二stream结构；所述将多帧归一化处理后的所述眼睛区域图和多帧归一化处理后的所述眼睛区域深度图输入双流体模型，得到所述双流体模型输出的多个眼睛区域图和眼睛区域深度图的活体检测概率，包括：

将多帧所述眼睛区域图输入所述第一stream结构，得到所述第一stream结构输出的多个眼睛区域图的活体检测概率；

将多帧所述眼睛区域深度图输入所述第二stream结构，得到所述第二stream结构输出的多个眼睛区域深度图的活体检测概率；

将多个所述眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到所述第三活体检测概率。

在上述实现过程中，通过双流体模型中的第一stream结构和第二stream结构分别对多帧眼睛区域图和多帧眼睛区域深度图进行识别，然后将第一stream结构输出的每一帧眼睛区域图的活体检测概率与对应的第二stream结构输出的眼睛区域深度图的活体检测概率进行加权平均，得到每一帧眼睛区域与对应的眼睛区域深度图融合后的活体检测概率，最后将多帧眼睛区域与对应的眼睛区域深度图融合后的活体检测概率进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率，由于双流体模型中的第一stream结构和第二stream结构能够对眼睛区域图和眼睛区域深度图两种图像进行识别和融合，使得能够有效地从不同维度综合确定出待检测人员面部图像的活体检测概率。

可选地，所述将多个所述眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率的步骤之后，还包括：

将所述第二活体检测概率和所述第三活体检测概率进行加权平均，得到所述第一活体检测概率。

在上述实现过程中，通过将基于面部图的活体检测概率和基于眼睛区域图和眼睛区域深度图的活体检测概率进行加权平均，得到最终的活体检测概率，使能够从面部图、眼睛区域图和眼睛区域深度图这三方面综合分析活体检测概率，从而提高了活体检测概率的准确度。

可选地，其中，所述预设分类模型为定制神经网络模型；所述定制神经网络模型包括SE Block模块、Adam算法和余弦退火算法；SE Block模块用于对细微的特征进行识别；Adam算法和余弦退火算法用于对内部参数值进行优化。

在上述实现过程中，通过向定制神经网络模型加入SE Block模块来让算法对细微的特征进行识别，还向轻量级神经网络中加入Adam算法和余弦退火算法来让算法可以迭代更新权重和加快收敛速度，然后得到预设分类模型，由于预设分类模型中包括SE Block模块和Adam算法和余弦退火算法，能够有效地对面部图的特征进行更好的识别，从而提高了对面部图的识别效果，进一步提高了基于面部图的活体检测概率的准确度。

可选地，若所述第一活体检测概率小于或等于预设阈值，则确定活体检测未通过。

在上述实现过程中，通过根据预先设置的活体检测概率阈值来确定当前用户是否通过活体检测，若检测概率未超过预先设置的活体检测概率，由于活体检测概率未超过预先设置的活体检测概率，则说明当前用户没有通过活体检测，从而无法让外部进行攻击，避免了对用户造成损失。

第二方面，本申请实施例还提供了一种活体检测装置，包括：

获取模块，用于获取具有眨眼动作的面部图像信息；其中，所述具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；

检测模块，用于根据所述面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率；

判断模块，用于判断所述第一活体检测概率是否大于预设阈值；

确定模块，用于若所述第一活体检测概率大于预设阈值，则确定活体检测通过。

上述实施例，提供的活体检测装置具有与上述第一方面，或第一方面的任意一种可选的实施方式所提供的一种活体检测方法相同的有益效果，此处不作赘述。

第三方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上面描述的方法。

上述实施例，提供的存储介质具有与上述第一方面，或第一方面的任意一种可选的实施方式所提供的一种活体检测方法相同的有益效果，此处不作赘述。

综上，本发明提供一种活体检测方法，该方法通过获取具有眨眼动作的面部图像信息；其中，具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；根据面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率；判断第一活体检测概率是否大于预设阈值；若第一活体检测概率大于预设阈值，则确定活体检测通过。通过面部识别模型和分类模型对具有眨眼动作的面部图像的处理，得到了准确率较高的活体检测概率，实现了提高了活体检测的准确率，从而提高了抗外部攻击的能力。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的结构框图；

图2为本申请实施例提供的一种活体检测方法的流程示意图；

图3为本申请实施例提供的面部识别模型的关键点在面部RGB图中的位置示意图；

图4为本申请实施例提供的定制神经网络模型的结构示意图；

图5为本申请实施例提供的双流体模型结构示意图；

图6为本申请实施例提供的一个活体检测装置的功能模块示意图。

具体实施方式

下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

在本申请实施例的描述中，技术术语“第一”、“第二”等仅用于区别不同对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

为便于对本实施例进行理解，首先对执行本申请实施例所公开的活体检测方法的电子设备进行详细介绍。

如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中，存储器111可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，简称EEPROM)等。其中，存储器111用于存储程序，处理器113在接收到执行指令后，执行程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

上述的输入输出单元115用于提供给用户输入数据实现用户与电子设备100的交互。输入输出单元115可以是，但不限于，鼠标和键盘等。

显示单元116在电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述活体检测方法的实现过程。

需要说明的是，由于现有技术中是通过摄像头对用户面部进行图像采集，得到面部RGB图像，然后通过人脸识别技术对面部RGB图像进行分析，最终得到分析结果，但是上述的方法对于人工合成的面部视频无法与真人的面部视频形成差别的识别，所以现有技术的人脸识别技术在当下已不能满足保证用户信息安全的需求了，而本申请实施例是发现正常的用户的眨眼动作的深度时序图与合成的眨眼动作深度时序图存在差异，差异体现为合成的眨眼动作的深度时序图只会看到一片，而正常的用户眨眼动作的深度时序图会清晰地看到眨眼动作的变化，也即这一区别特征正是我们用于区分两种不同环境下的深度时序图的有效手段，其次，为了更好地获取时序信息，以及考虑不能对用户造成过多的影响和提升用户体验，而简单的眨眼动作让用户更容易接受。因此，本申请实施例选择的是对具有眨眼动作的面部RGB图像和面部深度时序图进行特征分析和识别，以此来进行活体检测。

另外，现有技术对面部RGB图像的分析和识别仅仅是二维识别，而本申请实施例对具有眨眼动作的面部RGB图像和深度时序的分析识别是三维识别，因此，本申请实施例提供的活体检测方法的准确率比现有技术的活体检测方法的准确率更高。

请参见图2示出的本申请实施例提供的一种活体检测方法的流程示意图。

步骤S200，获取具有眨眼动作的面部图像信息；其中，具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；

本申请实施例的执行主体是电子设备100，该电子设备100中可以设置有摄像头和具有Lidar(Light Detection and Ranging，激光探测及测距系统)技术的电子设备，或者摄像头和具有Lidar技术的电子设备与电子设备100分离而独立存在，但需要与电子设备100通信连接。

在一个实施例中，电子设备100获取摄像头和具有Lidar技术的电子设备采集的面部图像之后，电子设备100对面部图像进行识别，得到具有眨眼动作的面部RGB图像和面部深度时序图像。

在一个实施例中，眨眼动作的面部图像信息包括眨眼动作的面部RGB图像和眨眼动作的面部深度时序图，是指摄像头采集的面部RGB图像和具有Lidar技术的电子设备采集的面部深度时序图具有眨眼动作这一特征，也就是说如果摄像头和具有Lidar技术的电子设备在采集图像信息时，只会将具有眨眼动作的面部RGB图像和面部深度时序图发送给电子设备100。另外，面部图像可以是待检测用户真实的面部图像，还可以是合成的面部图像。

具体地，当电子设备100需要对面部图像信息进行活体检测时，其中，面部图像信息可以是待检测用户真实的面部图像信息，还可以是网络黑客(也即外部攻击者)替换或人工合成的面部图像信息，通过摄像头和具有Lidar技术的电子设备在同一时刻同时对面部图像信息进行采集处理，得到面部RGB图像和面部深度时序图，然后电子设备100获取摄像头和具有Lidar技术的电子设备采集的面部RGB图和面部深度时序图。

步骤S400，根据面部RGB图像以及面部深度时序图像，基于面部识别模型和分类模型，得到第一活体检测概率；

请参见图3示出的本申请实施例提供的面部识别模型的关键点在面部RGB图中的位置示意图。

如图3所示，面部识别模型在对面部RGB图像进行识别时，会在面部RGB图像上添加多个landmark关键点(也即人脸特征点)，多个人脸特征点可以包括用于表征人脸轮廓的人脸特征点、用于表征右眉的人脸特征点、用于表征左眉的人脸特征点、用于表征鼻子的人脸特征点、用于表征左眼的人脸特征点、用于表征右眼的人脸特征点、用于表征上嘴唇的人脸特征点，以及用于表征下嘴唇的人脸特征点。

面部识别模型包括但不限于mediapipe、dlib、ssd-face、cengterface和DBFace等等，其中，mediapipe相较于其他面部识别模型来说，mediapipe检测的效果更优，具体体现为：一方面mediapipe具有68个landmark点，可以更精确对面部图像进行信息捕捉，另一方面mediapipe不需要额外的landmark算法，使得其具有更好的处理效率，所以面部识别模型可以根据实际应用需求进行选择，本申请实施例在此不做具体限定。

分类模型包括预设分类模型和双流体模型，预设分类模型是指对轻量级神经网络模型(例如，mobileNetV3)改进后的模型。

具体地，在电子设备100采集道摄像头获取的面部RGB图像和具有Lidar技术的电子设备获取的面部深度时序图后，利用面部识别模型和分类模型对面部RGB图像和面部深度时序图进行识别和分析，从而得到面部图像的活体检测概率。

在一个实施例中，步骤S400具体可以包括：步骤S410-S430。

步骤S410，利用面部识别模型对面部RGB图像和面部深度时序图像进行分析，得到多帧面部图和多帧面部深度图。

帧：影响动画中最小单位的单幅影像画面。一帧就是一副静止的图像，连续的帧就形成动画，如电视图像等。通常说帧数，简单地说，就是在1秒钟时间里传输的图像的帧数，也可以理解为图形处理器每秒钟能够刷新几次，通常用FPS(Frames Per Second，每秒钟帧数)表示。每一帧都是静止的图像，快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画，FPS越大，所显示的动作就会越流畅。

需要说明的是，由于面部RGB图和面部深度时序图不仅包括人脸区域，还包括人脸区域以外的区域，所以在对面部RGB图像和面部深度时序图进行识别时，为了防止人脸区域以外的区域的干扰，本申请实施例是对面部RGB图和面部深度时序图进行视频帧提取的时候仅仅是提取具有人脸的视频帧，也即面部图和面部深度图。

其中，面部RGB图像和面部深度时序图的时长根据面部RGB图像和面部深度时序图的FPS数值、其中的面部RGB图像和面部深度时序图包含人脸的数量以及需要提取面部图的数量有关，所以面部RGB图像和面部深度时序图的时长可根据具体情况和需求来设定，本申请实施例在此不做具体限定。例如：若FPS数值较大，面部RGB图像和面部深度时序图的时长则可以为较短时长，例如：1s、2s等等，若FPS数值较小，面部RGB图像和面部深度时序图的时长则可以为较长时长，例如：10s、20s等等。

具体的，将获取到的面部RGB图像和面部深度时序图输入面部识别模型后，面部识别模型通过识别面部RGB图像和面部深度时序图中每一帧面部图的landmark关键点来判断当前面部图是否存在人脸，如果面部识别模型识别出当前帧的面部图和面部深度时序图存在人脸，则将当前帧的面部图和面部深度时序图则提取出来，最后得到多帧面部图和面部深度时序图。

步骤S420，利用面部识别模型对多帧面部图进行分析，得到多帧眼睛区域图；

具体地，将面部RGB图像输入面部识别模型后，面部识别模型获取面部RGB图像面部的人脸关键landmark关键点，然后根据这些关键点筛选出属于眼睛区域的landmark关键点，最后根据属于眼睛区域的landmark关键得到眼睛区域，而眼睛区域中图片即是眼睛区域图。

步骤S430，将多帧眼睛区域图分别映射到对应的多帧面部深度图中，得到多帧眼睛区域深度图。

具体地，将多帧眼睛区域图和多帧深度图映射到世界坐标系中后，得到多帧眼睛区域的坐标值，其中，眼睛区域的坐标是多个坐标值，然后根据眼睛区域的坐标值来识别出深度图中与眼睛区域坐标值相对应的区域，而得到的区域也即眼睛区域深度图。

上述活体检测方法，通过利用面部识别模型对面部RGB图像和面部深度图像进行分析，得到多帧面部图和面部深度图，然后又利用面部识别模型对面部图进行分析，得到多帧眼睛区域图，最后将多帧眼睛区域图映射到多帧面部深度图中，得到多帧眼睛区域深度图，由于本申请的活体检概率是基于面部图、眼睛区域图和眼睛区域深度图综合后得到的活体概率，使得面部RGB图、眼睛区域图和眼睛区域深度图成为了提高活体检测概率的准确度的必不可少的条件。

在一个实施例中，步骤S430之后还可以包括：步骤S440-460。

步骤S440，将多帧面部图进行归一化处理，得到多帧归一化处理后的面部图；

归一化处理是指将数值变换为(0,1)之间的小数，是把有量纲表达是变为了无量纲表达式，其目的在于为了数据处理方便。

需要说明的是，由于面部图的每个点的像素值范围是在0-255之间的数值，但对于预设分类模型(改进后的神经网络模型)来说这个数值太大，会导致模型的计算速度过慢，所以一般来说，在向神经网络模型输入图像数据时都会做归一化处理，以提升模型对于数据的处理效率。

具体地，将多帧面部图的每个点的像素值除以255，也即归一化处理，然后得到多帧面部图的中每个点归一化处理的像素值。

步骤S450，将多帧归一化处理后的面部图输入预设分类模型，得到预设分类模型输出的多帧面部图的活体检测概率；

步骤S460，将多帧面部图的活体检测概率进行加权平均，得到第二活体检测概率。

需要说明的是，由于对单帧面部图的活体检测不足以表明上述摄像头采集面部图像为待检测用户的真人图像，因此，本申请实施例是对多帧面部图进行分析和识别，而且不同帧面部图在输入预设分类模型后得到的活体检测概率不一致，最后根据多帧面部图的活体检测概率综合计算得出当前摄像头的采集面部图像为活体的概率。

在一个实施例中，在对多帧面部图图的活体检测进行加权平均的时候，应当对活体检测概率较高的面部图赋予较大权重值，以避免较低活体检测的面部图占据主导地位，从而可以有效地提升基于面部图的活体检测概率的准确度。

具体地，在对多帧面部图进行归一化处理，得到多帧面部图各个点的像素值后，将其输入至预设分类模型中，预设分类模型对每帧面部图的各个点的像素值进行计算，最终输出每帧面部图为活体的概率值，最后将每帧面部图为活体的概率进行加权平均，得到基于面部图的活体检测概率。

上述活体检测方法，通过将多帧面部进行归一化处理，然后将归一化处理后的面部图输入到预设分类模型中，然后输出多帧面部图的活体检测概率，最后将多帧不同面部图的活体检测概率进行加权平均，得到基于面部图的活体检测概率，由于本申请的活体检概率的准确度是基于面部图的活体检测概率、眼睛区域图和眼睛区域深度图融合后的活体检测概率综合得到的，使得面部图的活体概率为提升活体检测概率准确度提供了有效依据。

在一个实施例中，预设分类模型包括定制神经网络模型；定制神经网络模型包括SE Block模块、Adam算法和余弦退火算法；SE Block模块用于对细微的特征进行识别；Adam算法和余弦退火算法用于对内部参数值进行优化。

可理解的是，为了满足本申请实施例对于活体检测方法的需求，所以对初始的轻量级神经网络模型进行了改进。

请参见图4示出的本申请实施例提供的定制神经网络模型的结构示意图。

如图4所示，定制神经网络模型是指对轻量级神经网络模型改进后的模型，轻量级神经网络模型的模型参数较少，且性能不差于较重量级模型的性能。其中，轻量级神经网络模型包括输入层(未示出)、卷积层(Conv)、池化层(未示出)、输出层(未示出)，其中，卷积层包括SE Block模块，在对调整不同参数的学习率加入了Adam优化器，还通过余弦退火函数对学习率进行不断降低以加快模型训练时的收敛速度。其中，轻量级神经网络包括但不限于SqueezeNet、MobileNetV3、ShuffeNet和Xception等等，具体可根据实际应用需求选择，本申请实施例在此不做具体限定。

SE Block模块是一种图像识别结构，它通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率，也即可以使得神经网络模型内部的算法关注一些重要特征信息。其中，SE Block模块可以设置在神经网络模型中任意一层的分类器上，也可以根据实际需求设置在某一层分类器，本申请实施例在此不做具体限定。

Adam优化器是一种可以替代传统随机梯度下降过程中一阶优化算法，它能基于训练数据迭代地更新神经网络中每层分类器的权重值，也即能够对每个不同的参数调整不同的学习率，例如：对频繁变化的参数以更小步长进行更新，而稀疏的参数以更大的步长进行更新。它的优点在于计算高效，内存需求少；适用于大规模的数据及参数的场景；适用于不稳定的目标函数；适用于稀疏或梯度存在很大噪声的问题。

余弦退火(CosineAnnealing)是一种用于对学习率进行衰减的算法，常用余弦函数来降低学习率，它能加快模型的收敛速度，模型效果更佳。其原理为：当接近损失函数的全局最小值时，学习率应该变得更小，随着余弦函数的自变量的增大，余弦函数值先缓慢下降，然后加速下降，再减速下降，如果此时选择一个较大的学习率，模型可能会出现振荡现象，所以需要对学习率进行衰减，使得模型逐步区域稳定。其中，余弦函数为：

其中η_t表示余弦退火后的学习率，

表示第i次热重启的学习率的最小值，

表示第i次热重启的学习率的最大值，i表示第几次热重启，T_cur表示神经网络模型训练的次数，T_i表示神经网络模型训练的总次数。

具体地，在训练轻量级神经网络模型的过程中加入了SE Block模块，使得轻量级神经网络模型可以关注我们想要一些关于面部图的特征信息，加入Adam算法，使得轻量级神经网络模型可以对面部图不同的特征信息设置不同的学习率，同时还加入余弦退火函数，使得轻量级神经网络模型可以加快收敛对于每个面部特征信息的训练，而且轻量级神经网络模型的初始学习率设定为0.00045，在经过上述训练之后，得到预设分类模型，从而使得预设分类模型能够满足本申请实施例活体检测方法的需求。

上述活体检测方法，通过向轻量级神经网络模型加入SE Block模块来让算法对细微的特征进行识别，还向轻量级神经网络中加入Adam算法和余弦退火算法来让算法可以迭代更新权重和加快收敛速度，然后得到预设分类模型，由于预设分类模型中包括SE Block模块和Adam算法和余弦退火算法，能够有效地对面部图的特征进行更好的识别，从而提高了对面部图的识别效果，进一步提高了基于面部图的活体检测概率的准确度。

在一个实施例中，在步骤S460之后还可以包括：步骤S470-S490。

步骤S470，将多帧眼睛区域图和多帧眼睛区域深度图进行归一化处理，得到多帧归一化处理后的眼睛区域图和多帧归一化处理后的眼睛区域深度图；

具体地，通过对多帧眼睛区域图和多帧眼睛区域深度图的图像的归一化处理后，得到多帧眼睛区域图的各个点的像素值和多帧眼睛区域深度图的各个点的像素值。

步骤S480，将多帧归一化处理后的眼睛区域图和多帧归一化处理后的眼睛区域深度图输入双流体模型，得到双流体模型输出的多个眼睛区域图和眼睛区域深度图的活体检测概率；

需要说明的是，由于对单帧眼睛区域图和单帧眼睛区域图的活体检测不足以表明上述摄像头采集面部图像和具有Lidar技术的电子设备采集深度时序图像为待检测用户的真人图像，因此，本申请实施例是对多帧眼睛区域图和多帧眼睛区域深度图进行分析和识别，而且不同帧的眼睛区域图和每帧眼睛区域深度图在输入双流体模型后，得到的二者融合后的活体检测概率不一致，最后根据二者融合后的活体检测概率综合计算得出当前摄像头的采集面部图像和当前具有Lidar技术的电子设备采集的面部深度时序图为活体的概率。

具体地，基于上述，将多帧眼睛区域图的各个点的像素值和多帧眼睛区域深度图的各个点的像素值输入双流体模型，双流体模型中的空间流对多帧眼睛区域图的各个点的像素值进行计算，得到多帧眼睛区域图的活体检测概率，而双流体模型的空间流对多帧眼睛区域深度图的各个点的像素值进行计算，得到多帧眼睛区域深度图的活体检测概率，然后根据softmax将每帧眼睛区域图与对应帧的眼睛区域图的活体检测概率进行融合，得到多个每帧眼睛区域图和眼睛区域深度图融合后的活体检测概率。

步骤S490，将多个眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率。

可选地，在对多帧面部图图的活体检测进行加权平均的时候，应当对活体检测概率较高的一组眼睛区域图和眼睛区域深度图赋予较大权重值，以避免较低活体检测的一组眼睛区域图和眼睛区域深度图占据主导地位，从而可以有效地提升基于面部图的活体检测概率的准确度。

具体地，将多个每帧眼睛区域图和眼睛区域深度图融合后的活体检测概率进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率。

上述活体检测方法，通过将多帧眼睛区域图和眼睛区域深度图输入双流体模型，然后得到基于眼睛区域图和眼睛区域深度图的活体检测概率，最后将不同帧的眼睛区域图和对应的眼睛区域深度图的活体检测概率进行加权平均，得到多组眼睛区域图和眼睛区域深度图的活体检测概率，最后将多组眼睛区域图和眼睛区域深度图的活体检测概率进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率，由于本申请的活体检概率的准确度是基于面部图的活体检测概率、眼睛区域图和眼睛区域深度图融合后的活体检测概率综合得到的，使得眼睛区域图和眼睛区域深度图融合后的活体检测概率为提升活体检测概率准确度提供了有效依据。

在一个实施例中，其中，双流体模型包括第一stream结构和第二stream结构，具体请参见图5示出的本申请实施例提供的双流体模型的结构示意图。

如图5所示，双流体模型包括第一stream结构和第二stream结构，第一stream结构处理精致图像帧，得到形状信息，第二stream结构处理连续多帧稠密光流，得到运动信息，最后将形状信息和运动信息经过输出层(softmax)做分类的融合。

步骤S481，将多帧眼睛区域图输入第一stream结构，得到第一stream结构输出的多个眼睛区域图的活体检测概率；

步骤S482，将多帧眼睛区域深度图输入第二stream结构，得到第二stream结构输出的多个眼睛区域深度图的活体检测概率；

步骤S483，将多个眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率。

在一个实施例中，第一stream结构分别有5个卷积层(conv)、3个池化层(pooling)(未示出)、2个全连接层(FC)和1个输出层(softmax)，卷积层用于对输入眼睛区域图的各个点的像素值进行特征提取，池化层(未示出)用于在卷积层进行特征提取后对特征进行选择和信息过滤，全连接层用于对选择和信息过滤的特征进行非线性组合以得到输出，输出层用于将输出的特征进行归一化处理，而多个特征归一化处理后值的累计和为1，然后输出其中一个特征的概率值；第二stream结构分别有5个conv层、3个pooling层(未示出)、2个全连接层(FC)和1个sofxmax层，第二stream结构与第一stream结构内部各层的作用相同，不同的是第二stream结构是用于对眼睛区域深度图进行处理。其中，在第一stream结构和第二stream结构的最后还包括一个加权平均层(class score fusion)，加权平均层用于将多组眼睛区域图的活体检测概率值与眼睛区域深度图的活体概率值进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率。

上述活体检测方法，通过双流体模型中的第一stream结构和第二stream结构分别对多帧眼睛区域图和多帧眼睛区域深度图进行识别，然后将第一stream结构输出的每一帧眼睛区域图的活体检测概率与对应的第二stream结构输出的眼睛区域深度图的活体检测概率进行加权平均，得到每一帧眼睛区域与对应的眼睛区域深度图融合后的活体检测概率，最后将多帧眼睛区域与对应的眼睛区域深度图融合后的活体检测概率进行加权平均，得到基于眼睛区域图和眼睛区域深度图的活体检测概率，由于双流体模型中的第一stream结构和第二stream结构能够对眼睛区域图和眼睛区域深度图两种图像进行识别和融合，使得能够有效地从不同维度综合确定出待检测人员面部图像的活体检测概率。

在一个实施例中，在步骤S483之后还可以包括：步骤S484。

步骤S484，将第二活体检测概率和第三活体检测概率进行加权平均，得到第一活体检测概率。

需要说明的是，为了保证本申请实施例的活体检测方法相比传统的活体检测技术具有更高的准确度，需要提取不同方面的面部图像信息进行综合分析，所以在基于眼部区域图和眼睛区域深度图的基础上结合了面部图。

在一个实施例中，加权公式为：P(cls)＝0.454*clsa+0.545*clsb，其中，P(cls)表示第一活体检测概率，clsa表示第二活体检测概率，clsb表示第三活体检测概率。其中，第二活体检测概率，也即基于面部图的活体检测概率的权重值为0.454，第三活体检测概率，也即基于眼睛区域图和眼睛区域深度图的权重值为0.545，通过上述可以知道，本申请实施例的活体检测方法对于根据眼睛区域图和眼睛区域深度图检测出的活体检测概率比较认可，是因为合成的眨眼动作的眼睛区域图和眼睛区域深度图会变形，合成的眨眼动作的眼睛区域图和眼睛区域图的各个点像素值与正常采集的眨眼动作的眼睛区域图和眼睛区域深度图进行各个点的像素值不一致，这对于双流体模型来说可以很清楚地区分出来眼睛区域图和眼睛区域图深度是合成的还是真实采集的，所以给予了眼睛区域图和眼睛区域深度图的活体检测概率更高的权重值。

具体地，在经过预设分类模型对面部图进行计算处理，得到基于面部图的活体检测概率以及经过双流体模型对眼睛区域图和演讲区域深度图计算处理，得到基于眼睛区域图和深度图的活体检测概率后，将二者的活体检测概率进行加权平均，以得到最终的活体检测概率。

上述活体检测方法，通过将基于面部图的活体检测概率和基于眼睛区域图和眼睛区域深度图的活体检测概率进行加权平均，得到最终的活体检测概率，使能够从面部图、眼睛区域图和眼睛区域深度图这三方面综合分析活体检测概率，从而提高了活体检测概率的准确度。

步骤S600，判断第一活体检测概率是否大于预设阈值；

其中，预设阈值是指预先设置的活体检测的标准概率值，活体检测的标准概率可以是在0.5～0.7范围之间，具体数值可根据实际应用需求设置，本申请实施例在此不做具体限定，例如：如果上述的活体检测方法是应用银行存储款机，在此种情况下肯定是需要更高的活体检测准确度，则可以设置为最大值0.7，这样可以更好地抵抗外部攻击；如果是对于个人用户手机上对于身份信息的简单认证，在此种情况下则不要较高的活体检测准确度，因此可以设置为最小值0.5，以方便提升用户体验。

具体的，在经过面部识别模型、预设分类模型和双流体模型对面部RGB图像和面部深度时序图分析和处理后，得到基于面部RGB图像和面部深度时序图的活体检测概率，然后判断活体检测概率是否大于预设设置的活体检测的标准概率。

步骤S800，若第一活体检测概率大于预设阈值，则确定活体检测通过。

具体地，当基于面部RGB图像和面部深度时序图的活体检测概率大于预先设置的活体检测的标准概率时，则说明摄像头和具有Lidar技术的电子设备是采集的待检测用户真人的面部图像信息，而不是网络黑客(也即外部攻击者)替换或人工合成的面部图像信息，也即电子设备获取的面部图像信息通过活体检测。

上述活体检测方法，通过获取具有眨眼动作的面部RGB图像以及面部深度时序图像，并基于面部识别模型和分类模型对面部RGB图像和面部深度时序图像进行识别，得到活体检测概率，然后根据预先设置的活体检测概率阈值来确定当前用户是否通过活体检测，由于同时采用了具有眨眼动作的面部RGB图像和面部深度时序图像，有效避免了待检测人员利用仅具有二维特征的图像进行混淆活体检测，从而提高了活体检测的准确率，进一步提高了抗外部攻击的能力。

另外，在本申请一个或多个实施例中，对于活体检测的过程无需用户参与，在用户无感的情况下就完成了用户体验，能够提升用户体验。

在一个实施例中，在步骤S800之后，方法还可以包括：

步骤S900，若第一活体检测概率小于或等于预设阈值，则确定活体检测未通过。

具体地，当基于面部RGB图像和面部深度时序图的活体检测概率小于或等于预先设置的活体检测的标准概率时，则说明摄像头和具有Lidar技术的电子设备是采集的是网络黑客(也即外部攻击者)替换或人工合成的面部图像信息，也即电子设备获取的面部图像信息未通过活体检测。

上述活体检测方法，通过根据预先设置的活体检测概率阈值来确定当前用户是否通过活体检测，若检测概率未超过预先设置的活体检测概率，由于活体检测概率未超过预先设置的活体检测概率，则说明当前用户没有通过活体检测，从而无法让外部进行攻击，避免了对用户造成损失。

请参见图6示出的本申请实施例提供的活体检测装置200的结构示意图，该活体检测装置包括：

获取模块110，用于获取具有眨眼动作的面部图像信息；具有眨眼动作的面部图像信息包括面部RGB图像和面部深度时序图像；

检测模块120，用于基于面部RGB图像、面部深度时序图、面部识别模型和分类模型，得到第一活体检测概率；

判断模块130，用于判断第一活体检测概率是否大于预设阈值；

确定模块140，用于若第一活体检测概率大于预设阈值，则确定活体检测通过。

可选地，其中，分类模型包括预设分类模型和双流体模型；检测模块120还可以用于：

利用面部识别模型对面部RGB图像和面部深度时序图像进行分析，得到多帧面部图和多帧面部深度图；

利用面部识别模型对多帧面部图进行分析，得到多帧眼睛区域图；

将多帧眼睛区域图分别映射到对应的多帧面部深度图中，得到多帧眼睛区域深度图。

可选地，检测模块120还可以用于：

将多帧面部图进行归一化处理，得到多帧归一化处理后的面部图；

将多帧归一化处理后的面部图输入预设分类模型，得到预设分类模型输出的多帧面部图的活体检测概率；

将多帧面部图的活体检测概率进行加权平均，得到第二活体检测概率。

可选地，检测模块120还可以用于：

将多帧眼睛区域图和多帧眼睛区域深度图进行归一化处理，得到多帧归一化处理后的眼睛区域图和多帧归一化处理后的眼睛区域深度图；

将多帧归一化处理后的眼睛区域图和多帧归一化处理后的眼睛区域深度图输入双流体模型，得到双流体模型输出的多个眼睛区域图和眼睛区域深度图的活体检测概率；

将多个眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率。

可选地，其中，双流体模型包括第一stream结构和第二stream结构；检测模块120还可以用于：

将多帧眼睛区域图输入第一stream结构，得到第一stream结构输出的多个眼睛区域图的活体检测概率；

将多帧眼睛区域深度图输入第二stream结构，得到第二stream结构输出的多个眼睛区域深度图的活体检测概率；

可选地，检测模块120还可以用于：

将第二活体检测概率和第三活体检测概率进行加权平均，得到第一活体检测概率。

可选地，其中，预设分类模型包括定制神经网络模型；定制神经网络模型包括SEBlock模块、Adam算法和余弦退火算法；SE Block模块用于对细微的特征进行识别；Adam算法和余弦退火算法用于对内部参数值进行优化。

可选地，确定模块140还可以用于：

若第一活体检测概率小于或等于预设阈值，则确定活体检测未通过。

应理解的是，该装置与上述的活体检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

除了上述实施例外，本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器113运行时执行如上的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种活体检测方法，其特征在于，所述活体检测方法包括：

判断所述第一活体检测概率是否大于预设阈值；

2.根据权利要求1所述活体检测方法，其特征在于，其中，所述分类模型包括预设分类模型和双流体模型；

3.据权利要求2所述活体检测方法，其特征在于，所述将多帧所述眼睛区域图分别映射到对应的多帧所述面部深度图中，得到多帧眼睛区域深度图的步骤之后，还包括：

4.据权利要求3所述活体检测方法，其特征在于，所述将多帧所述面部图的活体检测概率进行加权平均，得到第二活体检测概率的步骤之后，还包括：

5.根据权利要求4所述活体检测方法，其特征在于，其中，所述双流体模型包括第一stream结构和第二stream结构；所述将多帧归一化处理后的所述眼睛区域图和多帧归一化处理后的所述眼睛区域深度图输入双流体模型，得到所述双流体模型输出的多个眼睛区域图和眼睛区域深度图的活体检测概率，包括：

6.据权利要求4或5所述活体检测方法，其特征在于，所述将多个所述眼睛区域图和眼睛区域深度图的人脸活体检测概率进行加权平均，得到第三活体检测概率的步骤之后，还包括：

7.根据权利要求3所述活体检测方法，其特征在于，其中，所述预设分类模型包括定制神经网络模型；

所述定制神经网络模型包括SE Block模块、Adam算法和余弦退火算法；所述SE Block模块用于对细微的特征进行识别；所述Adam算法和余弦退火算法用于对内部参数值进行优化。

8.根据权利要求1所述活体检测方法，其特征在于，所述方法还包括：若所述第一活体检测概率小于或等于预设阈值，则确定活体检测未通过。

9.一种活体检测装置，其特征在于，所述装置包括：

检测模块，用于根据所述面部RGB图像以及面部深度时序图，基于面部识别模型和分类模型，得到第一活体检测概率；

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法。