CN112036331A

CN112036331A - 活体检测模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112036331A
Application number: CN202010913539.1A
Authority: CN
Inventors: 姚太平; 张克越; 尹邦杰; 吴双; 孟嘉; 丁守鸿; 李季檩; 吴运声
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04
Anticipated expiration: 2040-09-03
Also published as: CN112036331B

Abstract

本申请公开了一种活体检测模型的训练方法、装置、设备及存储介质，涉及人工智能的计算机视觉技术。该方法包括：获取样本数据，样本数据包括彩色图像、辅助图像和标签，辅助图像包括深度图像和红外图像中的至少一种；将样本数据中的彩色图像输入特征提取层得到图像特征；将图像特征输入估计模型得到辅助估计图像；将图像特征输入分类器得到活体检测结果；采用估计损失函数计算辅助估计图像和辅助图像之间的辅助损失；采用分类损失函数计算活体检测结果和标签之间的分类损失；根据辅助损失和分类损失训练特征提取层、估计模型和分类器得到活体检测模型。该方法可以提高活体检测准确度和检测效率。

Description

活体检测模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能的计算机视觉技术，特别涉及一种活体检测模型的训练方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，人脸识别技术在各个领域广泛应用，例如，利用人脸识别技术实现门禁解锁、手机解锁、在线支付等，人脸识别技术的安全性越来越受到人们的关注。很多不法分子伪造活体来进行人脸识别，并在人脸识别成功后进行危害财产、人身、公共安全的行为。为防止不法攻击，人脸识别技术中的活体检测技术就显得尤为重要。

相关技术中，提供了一种基于用户面部动作识别的活体检测算法，该算法的技术原理是：终端向用户发送一系列人脸动作指令，例如，眨眼、张嘴、摇头等，用户按照人脸动作指令做出响应动作。当用户执行动作后，算法会依次执行人脸检测、五官定位、动作检测等操作来判断用户是否按照指令完成动作。如果是，则认为当前用户是真人，否则认为当前用户是攻击样本。

相关技术中的活体检测算法，需要对用户的多张图像进行动作检测，检测耗时较长，检测效率低。

发明内容

本申请实施例提供了一种活体检测模型的训练方法、装置、设备及存储介质，可以简化活体检测方式，提高活体检测效率。所述技术方案如下：

根据本申请的一个方面，提供了一种活体检测模型的训练方法，所述活体检测模型至少包括特征提取层和分类器；所述方法包括：

获取样本数据，所述样本数据包括彩色图像、辅助图像和标签，所述辅助图像包括深度图像和红外图像中的至少一种；

将所述样本数据中的所述彩色图像输入所述特征提取层得到图像特征；将所述图像特征输入估计模型得到辅助估计图像；将所述图像特征输入所述分类器得到活体检测结果；

采用估计损失函数计算所述辅助估计图像和所述辅助图像之间的辅助损失；

采用分类损失函数计算所述活体检测结果和所述标签之间的分类损失；

根据所述辅助损失和所述分类损失训练所述特征提取层、所述估计模型和所述分类器得到所述活体检测模型。

根据本申请的另一方面，提供了一种活体检测模型的训练装置，所述活体检测模型至少包括特征提取层和分类器；所述装置包括：

获取模块，用于获取样本数据，所述样本数据包括彩色图像、辅助图像和标签，所述辅助图像包括深度图像和红外图像中的至少一种；

模型模块，用于将所述样本数据中的所述彩色图像输入所述特征提取层得到图像特征；将所述图像特征输入估计模型得到辅助估计图像；将所述图像特征输入所述分类器得到活体检测结果；

计算模块，用于采用估计损失函数计算所述辅助估计图像和所述辅助图像之间的辅助损失；

所述计算模块，还用于采用分类损失函数计算所述活体检测结果和所述标签之间的分类损失；

训练模块，用于根据所述辅助损失和所述分类损失训练所述特征提取层、所述估计模型和所述分类器得到所述活体检测模型。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的活体检测模型的训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上方面所述的活体检测模型的训练方法。

根据本公开实施例的另一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的活体检测模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过在训练活体检测模型时，在特征提取层输出图像特征后，用分类器得到活体检测结果，同时利用图像特征去预测输出辅助估计图像，然后用辅助估计图像和实际的辅助图像计算一个损失，用活体检测结果和样本的标签来计算一个损失，利用分类的损失和对辅助图像预测的损失，来训练调整特征提取层、分类器，从而得到活体检测模型，使活体检测模型可以学习活体图像在红外图像或深度图像上的特征，根据提取到的红外图像或深度图像上的特征进行活体检测，提高检测准确率。同时，利用该方法训练得到的活体检测模型，在实际应用时只需要用到特征提取层和分类层，只需要输入彩色图像就可以进行活体检测，不需要用到红外图像或深度图像，简化活体检测的方法，减少计算量，提高活体检测的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的框图；

图2是本申请一个示例性实施例提供的活体检测模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的图像获取的示意图；

图4是本申请另一个示例性实施例提供的样本图像剪裁的示意图；

图5是本申请另一个示例性实施例提供的活体检测模型的训练方法的示意图；

图6是本申请另一个示例性实施例提供的活体检测模型的示意图；

图7是本申请另一个示例性实施例提供的活体检测模型的训练方法的流程图；

图8是本申请另一个示例性实施例提供的活体检测模型的训练方法的流程图；

图9是本申请另一个示例性实施例提供的活体检测模型的训练方法的流程图；

图10是本申请另一个示例性实施例提供的活体检测模型的训练方法的示意图；

图11是本申请另一个示例性实施例提供的活体检测模型的训练方法的流程图；

图12是本申请另一个示例性实施例提供的活体检测模型的训练方法的示意图；

图13是本申请另一个示例性实施例提供的活体检测方法的流程图；

图14是本申请另一个示例性实施例提供的活体检测方法的流程图；

图15是本申请另一个示例性实施例提供的活体检测模型的训练装置的框图；

图16是本申请另一个示例性实施例提供的服务器的结构示意图；

图17是本申请另一个示例性实施例提供的终端的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例涉及的若干个名词进行简介：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

活体检测：是在一些身份验证场景确定对象真实生理特征的方法，在人脸识别应用中，活体检测能验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等攻击手段，从而帮助终端甄别欺诈行为，保障用户的利益。

图1示出了本申请一个示例性实施例提供的计算机系统的结构示意图，该计算机系统包括终端120和服务器140。

终端120与服务器140之间通过有线或者无线网络相互连接。

终端120可以包括具有刷脸支付功能的支付设备、具有刷脸支付功能的POS(PointOf Sale，销售终端)、智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。

终端120包括摄像装置，摄像装置用于采集彩色图像和辅助图像，例如，摄像装置可以是：单目相机、双目相机、深度相机(RGB-D相机)、红外相机中的至少一种。示例性的，终端120还包括显示器；显示器用于显示活体检测界面，或，显示摄像装置采集到的图像(RGB图像、深度图像或红外图像)，或，显示活体检测结果。

终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序；上述第一程序被第一处理器调用执行以实现活体检测模型的训练方法。第一存储器可以包括但不限于以下几种：随机存取存储器(Random Access Memory，RAM)、只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

第一处理器可以是一个或者多个集成电路芯片组成。可选地，第一处理器可以是通用处理器，比如，中央处理器(Central Processing Unit，CPU)或者网络处理器(NetworkProcessor，NP)。可选地，第一处理器可以通过调用活体检测模型来实现活体检测。示例性的，终端中的活体检测模型可以是由终端训练得到的；或，由服务器训练得到，终端从服务器获取。

服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序，上述第二程序被第二处理器调用来实现本申请提供的活体检测模型的训练方法。示例性的，第二存储器中存储有活体检测模型，上述活体检测模型被第二处理器调用以进行活体检测。可选地，第二存储器可以包括但不限于以下几种：RAM、ROM、PROM、EPROM、EEPROM。可选地，第二处理器可以是通用处理器，比如，CPU或者NP。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

示意性的，本申请提供的活体检测模型可以应用于人脸识别、刷脸支付、用户刷脸登录、刷脸门禁、用户刷脸认证等应用场景中。

图2示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由如图1所示的终端或服务器来执行。所述方法包括：

步骤201，获取样本数据，样本数据包括彩色图像、辅助图像和标签，辅助图像包括深度图像和红外图像中的至少一种。

示例性的，首先获取一批样本数据集，样本数据集中包括至少一个样本数据，每个样本数据包括彩色图像、辅助图像和标签。示例性的，彩色图像可以是RGB图像，辅助图像可以是红外图像和深度图像中的至少一种。

示例性的，样本数据集中包括正样本和负样本，正样本的标签为活体。示例性的，正样本中的彩色图像和辅助图像可以是使用摄像装置采集到的活体的图像，例如，如图3所示，用RGBD摄像机采集彩色图像(RGB图像404)和深度图像408，用红外摄像机采集红外图像409。示例性的，正样本中的彩色图像和辅助图像也可以是从网络上获取的活体的图像，或，本地存储的活体的图像，或通过其他途径获取的活体的图像。例如，活体的图像可以是人体图像、人脸图像、动物图像、植物图像、微生物图像中的至少一种。

示例性的，负样本的标签可以根据活体检测模型输出的分类情况而定。

当活体检测模型是二分类模型时(活体、非活体)，即，活体检测模型输出图像属于活体的概率值，进而确定该图像是否属于活体，则负样本的标签为非活体，例如，用0代表非活体，1代表活体，则负样本的标签为0。此时，负样本中的彩色图像和辅助图像可以是使用摄像装置采集到的非活体的图像。或，通过网络、本地存储或其他途径获得的非活体的图像。例如，非活体图像可以是物体图像、物品图像、建筑图像、风景图像中的至少一种。

当活体检测模型是多分类模型时，例如，活体检测模型输出图像属于活体的概率值和属于攻击的概率值，即，活体检测模型输出图像属于活体、攻击两个类别的两个概率值。则负样本的标签为攻击，例如，用(1,0)代表活体，(0,1)代表非活体，则负样本的标签为(0,1)。示例性的，负样本的彩色图像和辅助图像可以是平面纸片攻击的图像、平面屏幕攻击的图像、3D模型攻击的图像中的至少一种。平面纸片攻击的图像可以是拍摄纸片、照片、证件的图像、拍摄抠洞纸片的图像。平面屏幕攻击的图像可以是拍摄屏幕上显示的活体的图像。3D模型攻击的图像可以是拍摄真人戴面具的图像、拍摄3D模型的图像等。

示例性的，基于上述对负样本攻击类型的分类，活体检测模型还可以是另一种多分类模型，例如，活体检测模型输出图像分别属于活体、平面攻击、3D攻击的三个概率值，当然，活体检测模型输出的图像分类可以更少或更多，则，此时对应地将负样本根据分类标注为两个标签：平面攻击和3D攻击，例如，用(1,0,0)代表活体，(0,1,0)代表平面攻击，(0,0,1)代表3D攻击，则当负样本是平面攻击时其标签为(0,1,0)，当负样本是3D攻击时其标签为(0,0,1)。

示例性的，彩色图像和辅助图像具有对应关系，彩色图像和辅助图像对应同一时刻的画面，即，彩色图像和辅助图像是拍摄同一画面的图像。示例性的，彩色图像和辅助图像的拍摄时间戳、拍摄焦距、拍摄角度、拍摄视野范围相同。示例性的，彩色图像和辅助图像大小相同，将彩色图像和辅助图像置于相同的坐标系中，相同位置的像素点在相同上方向上具有相同的变化趋势(物体边线、光影变化趋势等相同)。

示例性的，辅助图像包括深度图像；或，辅助图像包括红外图像；或，辅助图像包括深度图像和红外图像。需要说明的是，本申请提供的活体检测模型，仅在训练阶段会使用辅助图像来辅助训练模型，在实际应用活体检测模型时，只需要用到彩色图像不需要用到辅助图像，即，活体检测模型可以根据彩色图像来检测活体。

示例性的，在一种可选的实施例中，在摄像装置采集到原始彩色图像和原始辅助图像后，会对原始彩色图像进行人脸区域识别，得到原始彩色图像中的人脸区域，然后根据人脸区域的位置对原始彩色图像和原始辅助图像进行剪裁，将剪裁得到的人脸区域的图像确定为样本数据中的彩色图像和辅助图像。

示例性的，计算机设备可以采用任意的人脸区域识别方式对原始彩色图像进行人脸区域识别。例如，可以采用人脸区域识别模型对原始图像进行人脸区域识别。示例性的，人脸区域识别模型可以是目标检测模型，例如，人脸区域识别模型可以使用Faster R-CNN模型、SSD(Single Shot MultiBox Detector，单镜头多盒检测器)模型或YOLO模型中的任意一种来训练得到的模型。Faster R-CNN模型可以参照2015年发表的论文《Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks(快速R-CNN：基于区域建议网络的实时目标检测)》。SSD模型可以参照2016年在ECCV(EuropeanConference on Computer Vision，欧洲计算机视觉国际会议)发表的论文《SSD:SingleShot MultiBox Detector(SSD：单镜头多盒检测器)》。YOLO模型可以参照2015年发表的论文《You Only Look Once:Unified,Real-Time Object Detection(你只看一次：统一的、实时的对象检测)》。

示例性的，如图4所示，在对原始彩色图像(a)进行人脸区域识别后，得到原始彩色图像(a)中的人脸区域(b)。计算机设备可以将人脸区域(b)剪裁下来作为样本数据中的彩色图像和辅助图像。示例性的，计算机设备也可以根据人脸区域(b)确定一个略小的剪裁区域(c)，将剪裁区域(c)剪裁下来作为样本数据中的彩色图像和辅助图像。示例性的，剪裁区域(c)可以是与人脸区域(b)呈中心对称，且边线长度小于人脸区域的区域。示例性的，剪裁区域(c)可以在人脸区域(b)的基础上各个边线向内部各缩进15像素点后确定的区域。示例性的，对原始彩色图像和原始辅助图像进行剪裁可以保证后续活体检测模型更加关注人脸中心区域的彩色信息、深度信息或红外信息，提高活体检测模型的准确度。

步骤202，将样本数据中的彩色图像输入特征提取层得到图像特征。

示例性的，如图5所示，在训练阶段的活体检测模型包括了三个组成部分：特征提取层401、估计模型402和分类器403。其中，特征提取层401分别与估计模型402和分类器403相连。计算机设备首先将样本数据中的彩色图像(RGB图像404)输入到特征提取层401进行特征提取，得到图像特征405。

示例性的，特征提取层可以使用VGGNet、ResNet、DenseNet等模型实现。VGG Net由牛津大学的视觉几何组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发的深度卷积神经网络。参照论文《Very Deep Convolutional Networks for Large-scale Image Recognition(用于大规模图像识别的深度卷积网络)》。ResNet是由来自Microsoft Research(微软研究院)的4位学者在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual Recognition Challenge，ILSVRC)提出的卷积神经网络。参照论文《Deep Residual Learning for Image Recognition(基于深度残差学习的图像识别)》。DenseNet是2017年在CVPR(IEEE Conference on Computer Vision and PatternRecognition，IEEE国际计算机视觉与模式识别会议)上提出的卷积神经网络。参照论文《Densely Connected Convolutional Networks(密接卷积网络)》。示例性的，特征提取层是卷积神经网络。

步骤203，将图像特征输入估计模型得到辅助估计图像。

估计模型用于根据彩色图像的图像特征，预测彩色图像对应的辅助图像。

示例性的，如图5所示，在得到RGB图像404的图像特征405后，将图像特征405输入到估计模型402中预测辅助图像得到辅助估计图像。

步骤204，将图像特征输入分类器得到活体检测结果。

分类器用于根据彩色图像的图像特征，预测彩色图像所属的分类。示例性的，分类器输出彩色图像属于每一类别的概率值。活体检测结果即为分类结果，示例性的，活体检测结果可以是彩色图像属于哪种类别，也可以是彩色图像属于各个类别的概率值。示例性的，当活体检测结果是具体的类别时，计算机设备在得到彩色图像属于各个类别的概率值后，可以将概率值最大的类别确定为活体检测结果。

示例性的，分类器可以是带有全局池化的全连接分类层，或，带有卷积层的全连接分类层，或其他种类的全连接分类层。

示例性的，如图5所示，在得到RGB图像404的图像特征405后，将图像特征405输入到分类器403中预测类别得到活体检测结果。例如，活体检测结果是该RGB图像404为活体，或，该RGB图像404为非活体。

步骤205，采用估计损失函数计算辅助估计图像和辅助图像之间的辅助损失。

示例性的，计算机设备根据估计模型预测得到的辅助估计图像，与实际的辅助图像的差距，调整特征提取层和估计模型中的参数，使估计模型能够根据图像特征准确预测辅助图像。

步骤206，采用分类损失函数计算活体检测结果和标签之间的分类损失。

示例性的，计算机设备根据彩色图像的活体检测结果，与实际的标签的差距，调整特征提取层和分类器中的参数，使分类器能够准确预测彩色图像的类别。

示例性的，给出一种分类损失函数：

其中，loss_classifier为分类损失，N为样本数据集中的样本数据总数，i为样本数据集中的第i个样本数据，y_i为第i个样本数据的标签，Enc(x_i)为特征提取层输出的图像特征，classifier(Enc(x_i))为分类器输出的活体检测结果。

步骤207，根据辅助损失和分类损失训练特征提取层、估计模型和分类器得到活体检测模型。

示例性的，计算机设备根据辅助损失训练特征提取层和估计模型，根据分类损失训练特征提取层和分类器。示例性的，在一次训练结束后，可以使用同一批样本数据集(样本数据)进行迭代训练。

示例性的，训练结束后，可以得到活体检测模型。示例性的，活体检测模型是由特征提取层和分类器组成的模型。例如，如图6所示，活体检测模型包括特征提取层401和分类器403，即，活体检测模型直接根据彩色图像输出检测结果，不需要用到深度图像或红外图像。示例性的，活体检测模型也可以是由特征提取层、分类器和估计模型组成的模型，例如，如图5所示，活体检测模型包括特征提取层401、分类器403和估计模型402，即，活体检测模型根据彩色图像输出检测结果和辅助估计图像，根据辅助估计图像来辅助修正检测结果，进而得到最终的检测结果。

综上所述，本实施例提供的方法，通过在训练活体检测模型时，在特征提取层输出图像特征后，用分类器得到活体检测结果，同时利用图像特征去预测输出辅助估计图像，然后用辅助估计图像和实际的辅助图像计算一个损失，用活体检测结果和样本的标签来计算一个损失，利用分类的损失和对辅助图像预测的损失，来训练调整特征提取层、分类器，从而得到活体检测模型，使活体检测模型可以学习活体图像在红外图像或深度图像上的特征，根据提取到的红外图像或深度图像上的特征进行活体检测，提高检测准确率。同时，利用该方法训练得到的活体检测模型，在实际应用时只需要用到特征提取层和分类层，只需要输入彩色图像就可以进行活体检测，不需要用到红外图像或深度图像，简化活体检测的方法，减少计算量，提高活体检测的效率。

示例性的，给出一种辅助图像是深度图像的示例性实施例。

图7示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由如图1所示的终端或服务器来执行。基于图2所示的示例性实施例，步骤203包括步骤2031，步骤205包括步骤2051，步骤207包括步骤2071。

步骤2031，将图像特征输入深度估计模型得到深度估计图像，深度估计模型用于根据图像特征预测彩色图像的深度图像。

示例性的，当辅助图像包括深度图像时，对应的，估计模型包括深度图像对应的深度估计模型，深度估计模型用于根据彩色图像的图像特征，预测彩色图像对应的深度图像。

示例性的，深度估计模型包括n个顺序连接的深度估计模块，n是正整数；则将图像特征输入深度估计模型得到深度估计图像，可以是：

将图像特征输入第1个深度估计模块，得到第1个深度估计结果；

将第i-1个深度估计结果输入n个深度估计模块中的第i个深度估计模块，得到第i个深度估计结果，i是大于1小于或等于n的整数；

响应于i＝n，将第n个深度估计结果输出为深度估计图像。

例如，深度估计模型包括顺序连接的三个深度估计模块，则计算机设备将图像特征输入第1个深度估计模块得到第1个深度估计结果，将第1个深度估计结果输入第2个深度估计模块得到第2个深度估计结果，将第2个深度估计结果输入第3个深度估计模块得到深度估计图像。

示例性的，深度估计模块由卷积层、BN层和激活层组成。第i个深度估计模块包括：第i个深度卷积层、第i个深度BN层和第i个深度激活层，i是大于1小于或等于n的整数；

则将第i-1个深度估计结果输入n个深度估计模块中的第i个深度估计模块，得到第i个深度估计结果，可以是：

将第i-1个深度估计结果输入第i个深度卷积层得到第i个深度卷积结果；

将第i个深度卷积结果输入BN层得到第i个深度归一化结果；

将第i个归一化结果输入第i个深度激活层得到第i个深度估计结果。

示例性的，深度卷积层用于对输入的数据进行卷积；深度BN层用于对输入的数据进行归一化处理，使之均值为0方差为1；深度激活层使用激活函数对输入数据进行激活，使模型对数据的处理不局限于线性变换。

步骤2051，采用深度损失函数计算深度估计图像和深度图像之间的深度损失。

示例性的，计算机设备根据深度估计模型预测得到的深度估计图像，与实际的深度图像的差距，调整特征提取层和深度估计模型中的参数，使深度估计模型能够根据图像特征准确预测深度图像。

示例性的，给出一种深度损失函数：

loss_depth＝E_x～(img)|Estimator_dep(Enc(x))-dep_x||₁

其中，loss_depth为深度损失，E_x～(img)为期望，Enc(x)为第x个样本数据的图像特征，Estimator_dep(Enc(x))为第x个样本数据的深度估计图像，dep_x为第x个样本数据中的深度图像。

步骤2071，根据分类损失和深度损失训练特征提取层、深度估计模型和分类器得到活体检测模型。

示例性的，计算机设备根据深度损失训练特征提取层和深度估计模型，根据分类损失训练特征提取层和分类器。

示例性的，训练结束后，可以得到活体检测模型。示例性的，活体检测模型是由特征提取层和分类器组成的模型。

示例性的，活体检测模型也可以是由特征提取层、分类器和深度估计模型组成的模型，即，活体检测模型根据彩色图像输出检测结果和深度估计图像，根据深度估计图像来辅助修正检测结果，进而得到最终的检测结果。示例性的，在得到深度估计图像后，可以根据深度估计图像计算得到深度估计值，深度估计值可以是深度估计图像中像素值的平均值或中位值。可以为深度估计值来设定一个阈值，当深度估计值大于阈值时，彩色图像为活体，小于阈值时，彩色图像为非活体。计算机设备可以综合分类器的活体检测结果，和根据深度估计图像得到的估计结果，来最终确定彩色图像的检测结果。

例如，当根据深度估计图像得到的估计结果是彩色图像为活体，且分类器的检测结果为活体时，输出彩色图像的检测结果为活体，其他情况则输出彩色图像的检测结果为非活体。

示例性的，也可以将深度估计值乘以深度估计系数，得到一个数值，将该数值加到分类器输出的分类的概率值上，得到新的概率值，然后根据新的概率值判断彩色图像是否为活体。

综上所述，本实施例提供的方法，通过在训练活体检测模型时，在特征提取层输出图像特征后，用分类器得到活体检测结果，同时利用图像特征去预测输出深度估计图像，然后用深度估计图像和实际的深度图像计算一个损失，用活体检测结果和样本的标签来计算一个损失，利用分类的损失和对深度图像预测的损失，来训练调整特征提取层、分类器，从而得到活体检测模型，使活体检测模型可以学习活体图像在深度图像上的特征，根据提取到的深度图像上的特征进行活体检测，提高检测准确率。同时，利用该方法训练得到的活体检测模型，在实际应用时只需要用到特征提取层和分类层，只需要输入彩色图像就可以进行活体检测，不需要用到深度图像，简化活体检测的方法，减少计算量，提高活体检测的效率。

本实施例提供的方法，通过将深度估计模型设置为卷积层、BN层加激活层的结构；使用BN层来将卷积层输出的数据归一化至均值为0方差为1，可以加速手链、防止过拟合；利用激活层中的激活函数，加入非线性因素的，将特征映射到高维的非线性区间进行解释，解决线性模型所不能解决的问题；从而加快模型训练，提高模型的预测能力。

示例性的，给出一种辅助图像是红外图像的示例性实施例。

图8示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由如图1所示的终端或服务器来执行。基于图2所示的示例性实施例，步骤203包括步骤2032，步骤205包括步骤2052，步骤207包括步骤2072。

步骤2032，将图像特征输入红外估计模型得到红外估计图像，红外估计模型用于根据图像特征预测彩色图像的红外图像。

示例性的，当辅助图像包括红外图像时，对应的，估计模型包括红外图像对应的红外估计模型，红外估计模型用于根据彩色图像的图像特征，预测彩色图像对应的红外图像。

示例性的，红外估计模型包括m个顺序连接的红外估计模块，m是正整数；则将图像特征输入红外估计模型得到红外估计图像，可以是：

将图像特征输入第1个红外估计模块，得到第1个红外估计结果；

将第j-1个红外估计结果输入m个红外估计模块中的第j个红外估计模块，得到第j个红外估计结果，j是大于1小于或等于m的整数；

响应于j＝m，将第m个红外估计结果输出为红外估计图像。

例如，红外估计模型包括顺序连接的三个红外估计模块，则计算机设备将图像特征输入第1个红外估计模块得到第1个红外估计结果，将第1个红外估计结果输入第2个红外估计模块得到第2个红外估计结果，将第2个红外估计结果输入第3个红外估计模块得到红外估计图像。

示例性的，红外估计模块由卷积层、BN层和激活层组成。第j个红外估计模块包括：第j个红外卷积层、第j个红外BN层和第j个红外激活层，j是大于1小于或等于m的整数；

则将第j-1个红外估计结果输入m个红外估计模块中的第j个红外估计模块，得到第j个红外估计结果，可以是：

将第j-1个红外估计结果输入第j个红外卷积层得到第j个红外卷积结果；

将第j个红外卷积结果输入BN层得到第j个红外归一化结果；

将第j个归一化结果输入第j个红外激活层得到第j个红外估计结果。

示例性的，红外卷积层用于对输入的数据进行卷积；红外BN层用于对输入的数据进行归一化处理，使之均值为0方差为1；红外激活层使用激活函数对输入数据进行激活，使模型对数据的处理不局限于线性变换。

步骤2052，采用红外损失函数计算红外估计图像和红外图像之间的红外损失。

示例性的，计算机设备根据红外估计模型预测得到的红外估计图像，与实际的红外图像的差距，调整特征提取层和红外估计模型中的参数，使红外估计模型能够根据图像特征准确预测红外图像。

示例性的，给出一种红外损失函数：

loss_infrared＝E_x～(img)|Estimator_infrared(Enc(x))-infrared_x||₁

其中，loss_infrared为红外损失，E_x～(img)为期望，Enc(x)为第x个样本数据的图像特征，Estimator_infrared(Enc(x))为第x个样本数据的红外估计图像，infrared_x为第x个样本数据中的红外图像。

步骤2072，根据分类损失和红外损失训练特征提取层、红外估计模型和分类器得到活体检测模型。

示例性的，计算机设备根据红外损失训练特征提取层和红外估计模型，根据分类损失训练特征提取层和分类器。

示例性的，活体检测模型也可以是由特征提取层、分类器和红外估计模型组成的模型，即，活体检测模型根据彩色图像输出检测结果和红外估计图像，根据红外估计图像来辅助修正检测结果，进而得到最终的检测结果。示例性的，在得到红外估计图像后，可以根据红外估计图像计算得到红外估计值，红外估计值可以是红外估计图像中像素值的平均值或中位值。可以为红外估计值来设定一个阈值，当红外估计值大于阈值时，彩色图像为活体，小于阈值时，彩色图像为非活体。计算机设备可以综合分类器的活体检测结果，和根据红外估计图像得到的估计结果，来最终确定彩色图像的检测结果。

例如，当根据红外估计图像得到的估计结果是彩色图像为活体，且分类器的检测结果为活体时，输出彩色图像的检测结果为活体，其他情况则输出彩色图像的检测结果为非活体。

示例性的，也可以将红外估计值乘以红外估计系数，得到一个数值，将该数值加到分类器输出的分类的概率值上，得到新的概率值，然后根据新的概率值判断彩色图像是否为活体。

综上所述，本实施例提供的方法，通过在训练活体检测模型时，在特征提取层输出图像特征后，用分类器得到活体检测结果，同时利用图像特征去预测输出红外估计图像，然后用红外估计图像和实际的红外图像计算一个损失，用活体检测结果和样本的标签来计算一个损失，利用分类的损失和对红外图像预测的损失，来训练调整特征提取层、分类器，从而得到活体检测模型，使活体检测模型可以学习活体图像在红外图像上的特征，根据提取到的红外图像上的特征进行活体检测，提高检测准确率。同时，利用该方法训练得到的活体检测模型，在实际应用时只需要用到特征提取层和分类层，只需要输入彩色图像就可以进行活体检测，不需要用到红外图像，简化活体检测的方法，减少计算量，提高活体检测的效率。

本实施例提供的方法，通过将红外估计模型设置为卷积层、BN层加激活层的结构；使用BN层来将卷积层输出的数据归一化至均值为0方差为1，可以加速手链、防止过拟合；利用激活层中的激活函数，加入非线性因素的，将特征映射到高维的非线性区间进行解释，解决线性模型所不能解决的问题；从而加快模型训练，提高模型的预测能力。

示例性的，给出一种辅助图像包括深度图像和红外图像的示例性实施例。

图9示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由如图1所示的终端或服务器来执行。基于图2所示的示例性实施例，步骤203包括步骤2031和步骤2032，步骤205包括步骤2051和步骤2052，步骤207包括步骤2073。

步骤2031，将图像特征输入深度估计模型得到深度估计图像。

例如，如图10所示，在得到RGB图像404的图像特征405后，将图像特征405输入深度估计模型406得到深度估计图像。

步骤2032，将图像特征输入红外估计模型得到红外估计图像。

例如，如图10所示，在得到RGB图像404的图像特征405后，将图像特征405输入红外估计模型407得到红外估计图像。

步骤2073，根据分类损失、深度损失和红外损失训练特征提取层、深度估计模型、红外估计模型和分类器得到活体检测模型。

示例性的，计算机设备根据分类损失训练特征提取层和分类器，根据深度损失训练特征提取层和深度估计模型，根据红外损失训练特征提取层和红外估计模型。

示例性的，活体检测模型也可以是由特征提取层、分类器、深度估计模型和红外估计模型组成的模型，即，活体检测模型根据彩色图像输出检测结果、深度估计图像和红外估计图像，根据深度估计图像和红外估计图像来辅助修正检测结果，进而得到最终的检测结果。

综上所述，本实施例提供的方法，通过在训练活体检测模型时，在特征提取层输出图像特征后，用分类器得到活体检测结果，同时利用图像特征去预测输出深度估计图像和红外估计图像，然后用深度估计图像和实际的深度图像计算一个深度损失，用红外估计图像和实际的红外图像计算一个红外损失，用活体检测结果和样本的标签来计算一个分类损失，利用分类损失、红外损失和深度损失来训练调整特征提取层、分类器、深度估计模型和红外估计模型，从而得到活体检测模型，使活体检测模型可以学习活体图像在红外图像和深度图像上的特征，根据提取到的红外图像和深度图像上的特征进行活体检测，提高检测准确率。同时，利用该方法训练得到的活体检测模型，在实际应用时只需要用到特征提取层和分类层，只需要输入彩色图像就可以进行活体检测，不需要用到红外图像和深度图像，简化活体检测的方法，减少计算量，提高活体检测的效率。

示例性的，当辅助图像包括深度图像和红外图像时，本申请实施例提供了另外一种模型结构。

图11示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由如图1所示的终端或服务器来执行。基于图2所示的示例性实施例，步骤202包括步骤2021至步骤2023，步骤203包括步骤2033和步骤2034，步骤204包括步骤2041，步骤205包括步骤2051和步骤2052，步骤207包括步骤2073。

步骤2021，将样本数据中的彩色图像输入第一特征提取层得到第一图像特征。

示例性的，当辅助图像包括深度图像和红外图像时，可以设置两个特征提取层，分别用于学习在深度图像上的特征和在红外图像上的特征，提取彩色图像的两个图像特征。示例性的，特征提取层包括深度估计模型对应的第一特征提取层，和，红外估计模型对应的第二特征提取层。

例如，如图12所示，将RGB图像404输入第一特征提取层410得到第一图像特征411。

步骤2022，将样本数据中的彩色图像输入第二特征提取层得到第二图像特征。

例如，如图12所示，将RGB图像404输入第二特征提取层412得到第二图像特征413。

步骤2023，根据第一图像特征和第二图像特征得到第三图像特征。

示例性的，计算机设备根据第一图像特征和第二图像得到计算得到第三图像特征。例如，第一图像特征加第二图像特征得到第三图像特征；或，第一图像特征与第一权重系数相乘得到第一乘积，第二图像特征与第二权重系数相乘得到第二乘积，第一乘积加第二乘积等于第三特征图像。

例如，如图12所示，将第一图像特征411和第二图像特征413相加得到第三图像特征414。

步骤2033，将第一图像特征输入深度估计模型得到深度估计图像。

示例性的，用第一特征提取层提取的第一图像特征，输入深度估计模型，预测深度图像得到深度估计图像。

例如，如图12所示，将第一图像特征411输入深度估计模型406得到深度估计图像。

步骤2034，将第二图像特征输入红外估计模型得到红外估计图像。

示例性的，用第二特征提取层提取的第二图像特征，输入红外估计模型，预测红外图像得到红外估计图像。

例如，如图12所示，将第二图像特征413输入红外估计模型407得到红外估计图像。

步骤2041，将第三图像特征输入分类器得到活体检测结果。

示例性的，计算机设备将第一图像特征和第二图像特征合并得到第三图像特征，使第三图像特征兼具在深度图像上提取的特征和在红外图像上提取上的特征，然后将第三图像特征输入分类器进行分类，得到彩色图像的活体检测结果。

例如，如图12所示，将第三图像特征414输入分类器403得到活体检测结果。

示例性的，计算机设备根据深度损失调整第一特征提取层和深度估计模型，根据红外损失调整第二特征提取层和红外估计模型，根据分类损失调整第一特征提取层、第二特征提取层和分类器。

示例性的，训练结束后，可以得到活体检测模型。示例性的，活体检测模型是由第一特征提取层、第二特征提取层和分类器组成的模型。

示例性的，活体检测模型也可以是由第一特征提取层、第二特征提取层、分类器、深度估计模型和红外估计模型组成的模型，即，活体检测模型根据彩色图像输出检测结果、深度估计图像和红外估计图像，根据深度估计图像和红外估计图像来辅助修正检测结果，进而得到最终的检测结果。

综上所述，本实施例提供的方法，通过为深度层面和红外层面分别设置一个特征提取层，两个特征提取层分别学习彩色图像在深度和红外两个层面上的特征，得到两个特征图像，然后将两个特征图像合并为一个特征图像输入到分类器中进行分类，使活体检测模型能够兼顾彩色图像在深度和红外上的特征，提高活体检测的准确度。

示例性的，给出一种使用上述活体检测模型的训练方法得到的活体检测模型，进行活体检测的示例性实施例。

图13示出了本申请一个示例性实施例提供的活体检测模型的训练方法的流程图。该方法可以由计算机设备执行，例如，如图1所示的终端或服务器来执行。该方法包括。

步骤301，获取测试图像，测试图像为彩色图像。

示例性的，以应用阶段的活体检测模型包括特征提取层和分类器为例，调用活体检测模型进行活体检测的方法包括步骤301至步骤303。

首先，计算机设备获取测试图像，测试图像为彩色图像(RGB图像)，当然，彩色图像还可以是其他种类的图像，例如，YCrCb图像、CMYK图像等。

示例性的，计算机设备也可以根据步骤201所提供的图像剪裁方法对获取到的原始测试图像进行人脸区域识别和剪裁，得到剪裁后的测试图像。

步骤302，将测试图像输入活体检测模型的特征提取层得到测试图像特征。

示例性的，计算机设备将测试图像输入特征提取层进行特征提取，得到测试图像特征。例如，如图6所示，计算机设备将测试图像415输入特征提取层401进行特征提取，得到测试图像特征416。

示例性的，当特征提取层包括第一特征提取层和第二特征提取层时，计算机设备将测试图像输入第一特征提取层得到第一测试图像特征，将测试图像输入第二特征提取层得到第二测试图像特征，将第一测试图像特征和第二测试图像特征相加得到测试图像特征。

步骤303，将测试图像特征输入分类器得到检测结果。

例如，如图6所示，计算机设备将测试图像特征输入分类器403得到检测结果。

示例性的，当活体检测模型还包括估计模型时，如图14所示，该方法还包括。

步骤304，将测试图像特征输入估计模型，得到估计图像。

示例性的，当应用阶段的活体检测模型还包括估计模型时，还可以得到辅助估计图像，则，计算机设备还可以根据辅助估计图像来辅助判断彩色图像的类别。

例如，当估计模型包括深度估计模型时，计算机设备还可以获取到深度估计图像；当估计模型包括红外估计模型时，计算机设备还可以获取红外估计图像。

步骤305，根据估计图像和检测结果得到最终的检测结果。

示例性的，可以根据图7、图8、图9所提供的示例性实施例中，对步骤2071、步骤2072、步骤2073的解释中所列举的根据辅助估计图像(红外估计图像和深度估计图像)和活体检测结果得到最终的活体检测结果的方法，来类比步骤305中根据估计图像和检测结果得到最终的检测结果的方法，在此不再赘述。

综上所述，本实施例提供的方法，由于在训练阶段特征提取层已经学习了深度图像和红外图像上的特征，在实际应用时只需要用特征提取层和分类层，对输入的彩色图像就进行活体检测，不需要用到红外图像和深度图像，就可以得到准确的活体检测结果。简化活体检测的方法，减少计算量，提高活体检测的效率。

本实施例提供的方法，通过在应用时保留估计模型，使计算机设备可以根据估计模型输出的估计图像、分类器输出的检测结果，综合判断测试图像的类别，进一步提高活体检测模型的检测准确度。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可以结合参考上述方法实施例中相应的记载，本文不再赘述。

图15示出了本申请的一个示例性实施例提供的活体检测模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端或服务器的全部或一部分，所述活体检测模型至少包括特征提取层和分类器；该装置包括：

获取模块501，用于获取样本数据，所述样本数据包括彩色图像、辅助图像和标签，所述辅助图像包括深度图像和红外图像中的至少一种；

模型模块502，用于将所述样本数据中的所述彩色图像输入所述特征提取层得到图像特征；将所述图像特征输入估计模型得到辅助估计图像；将所述图像特征输入所述分类器得到活体检测结果；

计算模块503，用于采用估计损失函数计算所述辅助估计图像和所述辅助图像之间的辅助损失；

所述计算模块503，还用于采用分类损失函数计算所述活体检测结果和所述标签之间的分类损失；

训练模块504，用于根据所述辅助损失和所述分类损失训练所述特征提取层、所述估计模型和所述分类器得到所述活体检测模型。

在一个可选的示例性实施例中，所述辅助图像包括所述深度图像和所述红外图像；

所述模型模块502，还用于将所述图像特征输入深度估计模型得到深度估计图像，所述深度估计模型用于根据所述图像特征预测所述彩色图像的所述深度图像；

所述模型模块502，还用于将所述图像特征输入红外估计模型得到红外估计图像，所述红外估计模型用于根据所述图像特征预测所述彩色图像的所述红外图像；

所述计算模块503，还用于采用深度损失函数计算所述深度估计图像和所述深度图像之间的深度损失；

所述计算模块503，还用于采用红外损失函数计算所述红外估计图像和所述红外图像之间的红外损失；

所述训练模块504，还用于根据所述分类损失、所述深度损失和所述红外损失训练所述特征提取层、所述深度估计模型、所述红外估计模型和所述分类器得到活体检测模型。

在一个可选的示例性实施例中，所述辅助图像包括所述深度图像；

所述训练模块504，还用于根据所述分类损失和所述深度损失训练所述特征提取层、所述深度估计模型和所述分类器得到活体检测模型。

在一个可选的示例性实施例中，所述辅助图像包括所述红外图像；

所述训练模块504，还用于根据所述分类损失和所述红外损失训练所述特征提取层、所述红外估计模型和所述分类器得到活体检测模型。

在一个可选的示例性实施例中，所述深度估计模型包括n个顺序连接的深度估计模块，n是正整数；

所述模型模块502，还用于将所述图像特征输入第1个所述深度估计模块，得到第1个深度估计结果；

所述模型模块502，还用于将第i-1个深度估计结果输入n个所述深度估计模块中的第i个所述深度估计模块，得到第i个深度估计结果，i是大于1小于或等于n的整数；

所述模型模块502，还用于响应于i＝n，将第n个深度估计结果输出为所述深度估计图像。

在一个可选的示例性实施例中，第i个深度估计模块包括：第i个深度卷积层、第i个深度BN层和第i个深度激活层，i是大于1小于或等于n的整数；

所述模型模块502，还用于将所述第i-1个深度估计结果输入所述第i个深度卷积层得到第i个深度卷积结果；

所述模型模块502，还用于将所述第i个深度卷积结果输入所述BN层得到第i个深度归一化结果；

所述模型模块502，还用于将所述第i个归一化结果输入所述第i个深度激活层得到所述第i个深度估计结果。

在一个可选的示例性实施例中，所述红外估计模型包括m个顺序连接的红外估计模块，m是正整数；

所述模型模块502，还用于将所述图像特征输入第1个所述红外估计模块，得到第1个红外估计结果；

所述模型模块502，还用于将第j-1个红外估计结果输入m个所述红外估计模块中的第j个所述红外估计模块，得到第j个红外估计结果，j是大于1小于或等于m的整数；

所述模型模块502，还用于响应于j＝m，将第m个红外估计结果输出为所述红外估计图像。

在一个可选的示例性实施例中，第j个红外估计模块包括：第j个红外卷积层、第j个红外BN层和第j个红外激活层，j是大于1小于或等于m的整数；

所述模型模块502，还用于将所述第j-1个红外估计结果输入所述第j个红外卷积层得到第j个红外卷积结果；

所述模型模块502，还用于将所述第j个红外卷积结果输入所述BN层得到第j个红外归一化结果；

所述模型模块502，还用于将所述第j个归一化结果输入所述第j个红外激活层得到所述第j个红外估计结果。

在一个可选的示例性实施例中，所述特征提取层包括所述深度估计模型对应的第一特征提取层，和，所述红外估计模型对应的第二特征提取层；

所述模型模块502，还用于将所述样本数据中的所述彩色图像输入所述第一特征提取层得到第一图像特征；

所述模型模块502，还用于将所述样本数据中的所述彩色图像输入所述第二特征提取层得到第二图像特征；

所述模型模块502，还用于将所述第一图像特征输入所述深度估计模型得到所述深度估计图像；

所述模型模块502，还用于所述将所述图像特征输入红外估计模型得到红外估计图像，包括：

所述模型模块502，还用于将所述第二图像特征输入所述红外估计模型得到所述红外估计图像；

所述模型模块502，还用于根据所述第一图像特征和所述第二图像特征得到第三图像特征；

所述模型模块502，还用于将所述第三图像特征输入分类器得到所述活体检测结果。

在一个可选的示例性实施例中，所述获取模块501，还用于获取测试图像，所述测试图像为彩色图像；

所述模型模块502，还用于将所述测试图像输入所述活体检测模型的所述特征提取层得到测试图像特征；

所述模型模块502，还用于将所述测试图像特征输入所述分类器得到所述检测结果。

在一个可选的示例性实施例中，所述活体检测模型还包括所述估计模型；

所述模型模块502，还用于将所述测试图像特征输入所述估计模型，得到估计图像；

所述模型模块502，还用于根据所述估计图像和所述检测结果得到最终的检测结果。

图16是本申请一个实施例提供的服务器的结构示意图。具体来讲：服务器1000包括中央处理单元(英文：Central Processing Unit，简称：CPU)1001、包括随机存取存储器(英文：Random Access Memory，简称：RAM)1002和只读存储器(英文：Read-Only Memory，简称：ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入/输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入/输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1007可以包括诸如硬盘或者只读光盘(英文：Compact Disc Read-Only Memory，简称：CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文：Erasable Programmable Read-Only Memory，简称：EPROM)、电可擦除可编程只读存储器(英文：Electrically Erasable Programmable Read-Only Memory，简称：EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(英文：Digital Versatile Disc，简称：DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

本申请还提供了一种终端，该终端包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的活体检测模型的训练方法。需要说明的是，该终端可以是如下图17所提供的终端。

图17示出了本申请一个示例性实施例提供的终端1100的结构框图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的活体检测模型的训练方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。示例性的，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。示例性的，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图17中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的活体检测模型的训练方法。

本申请还提供一种计算机设备，该计算机设备包括：处理器和存储器，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的活体检测模型的训练方法。

本申请还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的活体检测模型的训练方法。

本申请还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的活体检测模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种活体检测模型的训练方法，其特征在于，所述活体检测模型至少包括特征提取层和分类器；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述辅助图像包括所述深度图像和所述红外图像；

所述将所述图像特征输入估计模型得到辅助估计图像，包括：

将所述图像特征输入深度估计模型得到深度估计图像，所述深度估计模型用于根据所述图像特征预测所述彩色图像的所述深度图像；

将所述图像特征输入红外估计模型得到红外估计图像，所述红外估计模型用于根据所述图像特征预测所述彩色图像的所述红外图像；

所述采用估计损失函数计算所述辅助估计图像和所述辅助图像之间的辅助损失，包括：

采用深度损失函数计算所述深度估计图像和所述深度图像之间的深度损失；

采用红外损失函数计算所述红外估计图像和所述红外图像之间的红外损失；

所述根据所述辅助损失和所述分类损失训练所述特征提取层、估计模型和所述分类器得到活体检测模型，包括：

根据所述分类损失、所述深度损失和所述红外损失训练所述特征提取层、所述深度估计模型、所述红外估计模型和所述分类器得到活体检测模型。

3.根据权利要求1所述的方法，其特征在于，所述辅助图像包括所述深度图像；

根据所述分类损失和所述深度损失训练所述特征提取层、所述深度估计模型和所述分类器得到活体检测模型。

4.根据权利要求1所述的方法，其特征在于，所述辅助图像包括所述红外图像；

根据所述分类损失和所述红外损失训练所述特征提取层、所述红外估计模型和所述分类器得到活体检测模型。

5.根据权利要求2或3所述的方法，其特征在于，所述深度估计模型包括n个顺序连接的深度估计模块，n是正整数；

所述将所述图像特征输入深度估计模型得到深度估计图像，包括：

将所述图像特征输入第1个所述深度估计模块，得到第1个深度估计结果；

将第i-1个深度估计结果输入n个所述深度估计模块中的第i个所述深度估计模块，得到第i个深度估计结果，i是大于1小于或等于n的整数；

响应于i＝n，将第n个深度估计结果输出为所述深度估计图像。

6.根据权利要求5所述的方法，其特征在于，所述第i个深度估计模块包括：第i个深度卷积层、第i个深度BN层和第i个深度激活层，i是大于1小于或等于n的整数；

所述将第i-1个深度估计结果输入第i个所述深度估计模块，包括：

将所述第i-1个深度估计结果输入所述第i个深度卷积层得到第i个深度卷积结果；

将所述第i个深度卷积结果输入所述BN层得到第i个深度归一化结果；

将所述第i个归一化结果输入所述第i个深度激活层得到所述第i个深度估计结果。

7.根据权利要求2或4所述的方法，其特征在于，所述红外估计模型包括m个顺序连接的红外估计模块，m是正整数；

所述将所述图像特征输入红外估计模型得到红外估计图像，包括：

将所述图像特征输入第1个所述红外估计模块，得到第1个红外估计结果；

将第j-1个红外估计结果输入m个所述红外估计模块中的第j个所述红外估计模块，得到第j个红外估计结果，j是大于1小于或等于m的整数；

响应于j＝m，将第m个红外估计结果输出为所述红外估计图像。

8.根据权利要求7所述的方法，其特征在于，第j个红外估计模块包括：第j个红外卷积层、第j个红外BN层和第j个红外激活层，j是大于1小于或等于m的整数；

所述将第j-1个红外估计结果输入第j个所述红外估计模块，包括：

将所述第j-1个红外估计结果输入所述第j个红外卷积层得到第j个红外卷积结果；

将所述第j个红外卷积结果输入所述BN层得到第j个红外归一化结果；

将所述第j个归一化结果输入所述第j个红外激活层得到所述第j个红外估计结果。

9.根据权利要求2所述的方法，其特征在于，所述特征提取层包括所述深度估计模型对应的第一特征提取层，和，所述红外估计模型对应的第二特征提取层；

所述将所述样本数据中的所述彩色图像输入特征提取层得到图像特征，包括：

将所述样本数据中的所述彩色图像输入所述第一特征提取层得到第一图像特征；

将所述样本数据中的所述彩色图像输入所述第二特征提取层得到第二图像特征；

将所述第一图像特征输入所述深度估计模型得到所述深度估计图像；

将所述第二图像特征输入所述红外估计模型得到所述红外估计图像；

所述将所述图像特征输入分类器得到活体检测结果，包括：

根据所述第一图像特征和所述第二图像特征得到第三图像特征；

将所述第三图像特征输入分类器得到所述活体检测结果。

10.根据权利要求1至4任一所述的方法，其特征在于，所述方法包括：

获取测试图像，所述测试图像为彩色图像；

将所述测试图像输入所述活体检测模型的所述特征提取层得到测试图像特征；

将所述测试图像特征输入所述分类器得到所述检测结果。

11.根据权利要求10所述的方法，其特征在于，所述活体检测模型还包括所述估计模型；所述方法还包括：

将所述测试图像特征输入所述估计模型，得到估计图像；

根据所述估计图像和所述检测结果得到最终的检测结果。

12.一种活体检测模型的训练装置，其特征在于，所述活体检测模型至少包括特征提取层和分类器；所述装置包括：

13.一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行，以实现如权利要求1至11任一项所述的活体检测模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至11任一项所述的活体检测模型的训练方法。