CN112651333A

CN112651333A - 静默活体检测方法、装置、终端设备和存储介质

Info

Publication number: CN112651333A
Application number: CN202011554751.XA
Authority: CN
Inventors: 张力文; 林聪�; 金子杰; 佟乐; 肖贵宝; 潘浩; 王刚
Original assignee: CENTURY DRAGON INFORMATION NETWORK CO LTD
Current assignee: Tianyi Shilian Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-13
Anticipated expiration: 2040-12-24
Also published as: CN112651333B

Abstract

本申请提供了一种静默活体检测方法、装置、终端设备和存储介质，方法包括获取待检测图像；将待检测图像输入至预先训练的静默活体检测模型，输出待检测图像的活体预测概率；其中，静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括改进的卷积运算模块，改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；根据活体预测概率来判断待检测图像是否通过检测。该方法采用了改进的卷积神经网络，即对卷积神经网络进行改进，在骨架网络中加入SENet模块和注意力模块，使其提取的特诊更加准确，从而增强了静默活体检测的准确性。

Description

静默活体检测方法、装置、终端设备和存储介质

技术领域

本申请涉及人脸识别技术领域，具体涉及一种静默活体检测方法、终端设备和计算机可读存储介质。

背景技术

随着科技不断发展，图像识别(例如人脸识别)作为一种身份验证技术应用于日常生活的方方面面。活体检测是图像识别中非常重要的一种。活体检测是指用户按照系统指示做出相应的动作，防止用户在一些重要环境下用照片骗过系统完成验证。在用户按照系统提示完成相应动作后，后台对用户完成的动作进行识别，并提示用户活体检测是否通过。

活体检测在社保、网上开户等重要场合都有其应用。通过验证确定老年人身份真实且健在后才能进行养老金的领取。网上开户时需要用户验证，证明并非用户用照片完成验证，以保证用户信息的真实、有效和安全。

现有的较为准确的活体检测模型，多为动作配合式活体检测，用户交互不友好；现有静默活体检测系统多为单目活体检测，检测时间长，准确率较低，容易被攻击。

申请内容

有鉴于此，本申请实施例中提供了一种静默活体检测方法、装置、终端设备和计算机可读存储介质，以克服现有技术的静默活体检测中检测时间长，准确性较低的的问题。

第一方面，本申请实施例提供了一种静默活体检测方法，该方法包括：

获取待检测图像；

将所述待检测图像输入至预先训练的静默活体检测模型，输出所述待检测图像的活体预测概率；其中，所述静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，所述改进的卷积神经网络包括改进的卷积运算模块，所述改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；

根据所述活体预测概率来判断所述待检测图像是否通过检测。

第二方面，本申请实施例提供了一种静默活体检测装置，该装置包括：

待检测图像获取模块，用于获取待检测图像；

活体预测概率输出模块，用于将所述待检测图像输入至预先训练的静默活体检测模型，输出所述待检测图像的活体预测概率；其中，所述静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，所述改进的卷积神经网络包括改进的卷积运算模块，所述改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；

检测判断模块，用于根据所述活体预测概率来判断所述待检测图像是否通过检测。

第三方面，本申请实施例提供了一种终端设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的静默活体检测方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的静默活体检测方法。

本申请实施例提供的静默活体检测方法、装置、终端设备和计算机可读存储介质，获取待检测图像；将待检测图像输入至预先训练的静默活体检测模型，输出待检测图像的活体预测概率；其中，静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括改进的卷积运算模块，改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；根据活体预测概率来判断待检测图像是否通过检测。该方法采用了改进的卷积神经网络，即对卷积神经网络进行改进，在骨架网络中加入SENet模块和注意力模块，使其提取的特诊更加准确，从而增强了静默活体检测的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的静默活体检测方法的应用场景示意图；

图2为本申请一个实施例提供的静默活体检测方法的流程示意图；

图3为本申请一个实施例提供的静默活体检测模型训练方法的流程示意图；

图4为本申请一个实施例提供的改进的卷积神经网络结构示意图；

图5为本申请一个实施例提供的MobileNet网络结构示意图；

图6为本申请一个实施例提供的ResNet50网络结构示意图；

图7为本申请一个实施例提供的SENet模块结构示意图；

图8为本申请另一个实施例提供的SENet模块的示意图；

图9为本申请一个实施例提供的静默活体检测装置结构图；

图10为本申请一个实施例中提供的终端设备的结构示意图；

图11为本申请一个实施例中提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更详细说明本申请，下面结合附图对本申请提供的一种静默活体检测方法、装置、终端设备和计算机存储介质，进行具体地描述。

请参考图1，图1示出了本申请实施例提供的静默活体检测方法的应用场景的示意图，该应用场景包括本申请实施例提供的终端设备102和服务器104，其中服务器104与终端设备102之间设置有网络。网络用于在终端设备102和服务器104之间提供通信链路的介质。其中，终端设备102通过网络与服务器104交互，以接收或发送消息等，服务器104可以是提供各种服务的服务器104。其中服务器104可以用来执行本申请实施例中提供的静默活体检测方法，服务器104可以从终端设备102中获取待检测图像，然后将待检测图像输入预先训练的静默活体检测模型从而定位出待检测图像中的文本区域和公式区域。另外，服务器104还可以将定位的结果返回至终端设备102等。此外，服务器104可以存储有预先训练的静默活体检测模型；终端设备102可以用来对待识别人体(例如某个人)进行拍照生成待检测图像。

可选的，终端设备102可以是具有显示屏的各种电子设备，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备102可以泛指多个终端设备中的一个。此外，终端设备102也可以用来执行本申请实施例中提供的一种静默活体检测方法。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。

基于此，本申请实施例中提供了一种静默活体检测方法。请参阅图2，图2示出了本申请实施例提供的一种静默活体检测方法的流程示意图，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S110，获取待检测图像；

在对图像进识别之前，需要先对图像是否为静默活体图像。因此，在本实施例中待检测图像是指任意的需要进行静默活体判断或确定的图像。其中，待检测图像可以是图像采集设备(例如智能终端、摄像设备等)拍摄需要进行人脸识别等操作的人员产生的图片，通常是一些人脸图像。

另外，待检测图像的角度(即图像是否发生倾斜)、颜色、大小、分辨率等不限，只要能符合图像识别的最低要求即可。

步骤S120，将待检测图像输入至预先训练的静默活体检测模型，输出待检测图像的活体预测概率；其中，静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括改进的卷积运算模块，改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的。

具体地，模型训练就是给定输入向量和目标输出值，然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值，并根据目标输出值和实际输出值来计算偏量，并判断偏量是否在容许范围内；若在容许范围内，则训练结束并固定相关参数；若不在容许范围内，不断去调整网络结构或函数中的一些参数，直至在偏量在容许范围内或达到了某一结束条件时，训练结束并固定相关参数，最后根据固定的相关参数即可得到训练完成的模型。

而本实施例中的静默活体检测模型的训练实际上为：将标记的图像样本作为输入向量输入至改进的卷积神经网络，将图像样本的活体预测结果作为目标输出值；求隐含层，输出各层单元的输出，求出目标输出值和实际输出值偏差，当偏差在不容许范围内，计算网络层中神经元的误差，求误差梯度，并更新权值，重新求隐含层，输出各层单元的输出，求出目标值和实际值偏差，直至偏差在容许范围内，训练结束，固定权重和阈值，从而得到预先训练的静默活体检测模型。此外，在本实施例中，采用改进的卷积神经网络，改进的卷积神经网络能极大的简化了静默活体检测的流程，也能提升静默活体检测的效果、速度和准确性。改进的卷积神经网络主要包括改进的卷积运算模块，所述改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的。加入SENet模块和加入注意力模块即卷积运算模块中引入了SENet和注意力机制，能进一步提高文本检测的准确率。

另外，标记的图像样本是指对图像样本进行标记，一般情况下，就是对图像样本进行活体和非活体进行标记。

活体预测概率是指待检测图像属于活体的概率。

在一种可选的实施例方式中，在进行静默活体检测模型训练时可以使用人脸识别和性别检测的预训练模型作为初始化参数，然后在四个数据集上进行fine-tuning(微调)。例如可以使用预训练的网络(例如在ImageNet上训练的分类1000类的网络等)。

步骤S130，根据活体预测概率来判断待检测图像是否通过检测。

具体地，根据待检测图像的活体预测概率就可以来确定该待检测图像是否属于活体，如果属于活体那么通过检测；反之，不通过检测。可选地，根据活体预测概率来判断待检测图像是否通过检测的步骤中，通常采用活体预测概率与预设阈值进行比较，当活体预测概率大于或等于预设阈值时，判定待检测图像通过检测，反之则不通过检测。其中，预设阈值可以是一个预先设置的值，通常情况下根据经验值以及模型训练情况进行确定。

为了便于理解本方案，给出一个详细的实施例。例如，某一个用户需要在一网站上进行身份时，该用户可以采用手机等智能终端拍摄自己形成待检测图像，然后将待检测图像上传至某网站相关服务器，某网站相关服务器可以采用本发明实施例中的预先训练的静默活体检测模型对待检测图像进行检测识别，从而来判断该用户是否为本人活体检测，避免该用户或者其他人员采用该用户的照片等骗过网站系统完整身份验证。

本申请实施例提供的静默活体检测方法，获取待检测图像；将待检测图像输入至预先训练的静默活体检测模型，输出待检测图像的活体预测概率；其中，静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括改进的卷积运算模块，改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；根据活体预测概率来判断待检测图像是否通过检测。该方法采用了改进的卷积神经网络，即对卷积神经网络进行改进，在骨架网络中加入SENet模块和注意力模块，使其提取的特诊更加准确，从而增强了静默活体检测的准确性。

在一个实施例中，请参照图3，静默活体检测模型的训练方法，包括：

步骤S210，获取图像样本，对图像样本进行标记，得到标记的图像样本；

在本实施例中，首先要准备比较多(例如几千张、几万张等)数量的图像样本。图像样本包括活体图样样本和非活体图像样本。其中，活体图像样本可以是采用红外摄像头采集人物脸部形成的红外照片、双目摄像头获取人物脸部形成的图片以及普通拍摄设备采集人物脸部形成的不同颜色光照图像。而非活体图像可以是采用拍摄设备拍摄人物脸部照片或图片形成的，也可以是从网络的人像数据库中进行爬取的。静默活体检测的核心问题是通过获取活体图像和非活体图像之间的特征差异，比如摩尔纹、边框、深度信息、红外信息等。静默活体检测根据图像源的区别主要分为三类，分别是红外图像活体检测、深度图像活体检测，色彩空间图像活体检测。

红外图像活体检测是通过红外摄像头采集红外照片，真实的人脸和纸片、屏幕、立体面具等攻击媒介的反射特性都是不同的，所以成像也不同，而这种差异在红外波反射方面会更加明显，比如说，一块屏幕在红外成像的画面里，就只有白花花的一片，连人脸都没了，攻击完全不可能得逞。深度图像活体检测是通过双目摄像头获取图片的深度信息进行活体检测。真实人脸的深度信息和纸片、屏幕采集的深度图像有明显的差异，通过信息特征分类，能有效对抗翻拍形式的非活体攻击。基于色彩空间图像的静默活体检测，一般是根据纹理特征的差异，主要是摩尔纹，进行活体检测，真实人脸和照片残生的摩尔纹是不同的。

通常情况下，图像样本越多，其训练的模型更加精确；但图像样本太多会降低模型训练的速度。因此，在实际应用中，选择合适数量的图像样本即可，但在准备图像样本时尽可能使样本多样化。其中在准备图像样本时可以建立数据训练集，将图像样本存储至数据训练集中。

在获取到图像样本后，需要对图像样本进行活体和非活体标记。可选地，在标记过程中，可以采用活体和非活体标签来对图像样本进行图像样本标记。

在一个实施例中，对图像样本进行标记，得到标记的图像样本的步骤中，包括：对图像样本进行分析，将活体图像样本标记为正样本，非活体图像样本比较为负样本。

在一种可选地实施方式中，可以采用labelimg软件来对图像样本做标记，在活体图像样本上进行标记，从而生成活体标签，在非活体图像样本上进行标记，生成得活体标签，将活体标签和非活体标签保存在相应的(例如xml)格式文件中。

可选地，通过人工拍摄活体图片、对图片进行标注共得到200000张活体图片，最终制作成包含正负样本各200000张的活体检测数据集。

步骤S220，构建改进的卷积神经网络，其中改进的卷积神经网络包括改进的卷积运算模块、全局平均池化层和softmax预测层，改进的卷积运算模块包括依次连接的骨架网络、SENet模块、注意力模块和特征融合模块，SENet模块和注意力模块的数量与骨架网络的网络结构层数相同；

步骤S230，将标记的图像样本输入改进的卷积运算模块进行特征提取，得到深度特征图。

步骤S240，将深度特征图分别依次输入全局平均池化层和softmax预测层，输出实际预测结果；

步骤S250，对改进的卷积神经网络的权重进行调整，直至实际预测结果与目标预测结果的偏差在容许范围内时，训练完成，得到静默活体检测模型。

具体的，改进的卷积神经网络包括改进的卷积运算模块、全局平均池化层和softmax预测层，改进的卷积运算模块包括依次连接的骨架网络、SENet模块、注意力模块和特征融合模块，SENet模块和注意力模块的数量与骨架网络的网络结构层数相同。其中改进的卷积运算模块主要用于来对图像样本进行深度特征提取，全局平均池化层主要用于对改进的卷积运算模块输出的深度特征图进行全局平均池化处理。softmax预测层主要用于对全局平均池化后的深度特征图进行处理，输出实际预测结果。然后将实际预测结果与目标预测结果进行比较，看其偏差是否在预设范围，若是，则训练完成，得到静默活体检测模型。其中，预设范围可以是一个预设的值，表示可接收的实际值与目标值最大偏差。

图4为本发明实施例中提供的一个改进的卷积神经网络示意图。如图4所示，该改进的卷积神经网络包括3层网络结构(或3通道)的骨架网络、3个SENet模块(即图中的SEblock)、在每一个SENet模块之后都有一个注意力模块(图中未示出)，在注意力模块后是特征融合模块、全局平均池化层(GAP)和softmax预测层。值得注意的是在本实施例中，由于输入的图像样本采用的是3种颜色的图像，因此采用的是3层网络结构的骨架网络，其中骨架网络的网络结构层数可以是不固定的，跟输入的图像样本有关。图4中的res1-res4是指改进的卷积运算模块，res1-res3主要是骨架网络模块，res4主要是SENet模块进和注意力模块，三个通道的res3的输出结果经过SE-Block处理后的特征值进行attention(注意力模块)处理后再进行融合；而agg1、agg2、agg3是用来融合三个通道的res1、res2、res3输出特征的特征融合模块。

该模型训练方法，采用基于深度学习方法构建鲁棒性和泛化能力更强的神经网络模块，可以高效、准确地检测人脸的活体属性。

在一个实施例中，骨架网络包括ResNet网络或MobileNet网络；将标记的图像样本输入改进的卷积运算模块进行特征提取，得到深度特征图的步骤中，包括：将标记的图像样本输入ResNet网络或MobileNet网络进行特征提取，得到多通道的初始特征图；将每个通道的初始特征图依次输入至SENet模块、注意力模块和特征融合模块进行特征压缩、加权计算以及特征融合，得到深度特征图。

具体地，骨架网络是采用MobileNet或者ResNet。可选地，ResNet网络可以是ResNet50网络。

请参照图5，MobileNet是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络，MobileNet的主要工作是用depthwise sparable convolutions(深度级可分离卷积)替代过去的standard convolutions(标准卷积)来解决卷积网络的计算效率和参数量的问题。MobileNet基于是depthwise sparable convolutions(深度级可分离卷积)，它可以将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)。深度卷积将每个卷积核应用到每一个通道，而1×1卷积用来组合通道卷积的输出，使用分解后的卷积效果和标准卷积效果是近似的。MobileNet通常包括自上而下连接的3×3的深度级可分离卷积、BN层、ReLU层、1×1卷积、BN层和ReLU层。MobileNet在计算量和参数量上具有绝对的优势。BN和ReLU层表示非线性激活单元，主要用于避免卷积神经网络只能拟合线性数据，不能拟合非线性数据，从未造成后续模型训练不准确甚至导致训练失败的问题。

ResNet在2015年被提出，在ImageNet比赛分类任务上获得第一名，它主要是解决随着网络的加深，出现了训练集准确率下降的现象。如图6所示，ResNet50有2个基本的block，一个是恒等模块(Identity Block)，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是卷积模块(Conv Block)，输入和输出的维度是不一样的，所以不能连续串联，它的作用本来就是为了改变特征向量的维度，ResNet50的准确度有了很大的提升。

采用MobileNet作为骨架网络计算量小，而采用ResNet50作为骨架网络特征提取的准确度高，进而提高静默活体检测的准确性。

在一个实施例中，将每个通道的初始特征图依次输入至SENet模块和注意力模块进行压缩、加权计算和特征融合的步骤中，包括：将每个通道的初始特征图依次输入至SENet模块进行特征压缩，得到每个通道的压缩后特征图和每个通道的压缩后特征图对应的权重。

具体而言，虽然MobileNet或者ResNet50都有各自的优势。但为了进一步提高静默活体检测的准确性，在本实施例中，对MobileNet或者ResNet50网络架构进行了优化，即在MobileNet或ResNet50的每层网络结构(即通道或输出通道)加入了SeNet block来进行通道的优化。如图7至图8所示，SeNet block核心就是Squeeze(Fsq)和Excitation(Fex)两个操作。

首先是Squeeze操作，顺着空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布，而且使得靠近输入的层也可以获得全局的感受野，这一点在很多任务中都是非常有用的。即Squeeze操作就是在得到多个featuremap之后采用全局平均池化操作对其每个feature map进行压缩，使其C个feature map最后变成1*1*C的实数数列。如图8中的Global pooling区域就是Squeeze操作。

其次是Excitation操作，它是一个类似于循环神经网络中门的机制。通过参数w来为每个特征通道生成权重，其中参数w被学习用来显式地建模特征通道间的相关性。即Excitation操作选择采用一个简单的门机制，使用sigmoid激活函数来全面捕获通道依赖性。

请参照图8所示，SeNet block包括Residual层、和自上向下依次连接的GlobalPooling(全局池化层)、FC层(全连接层)、ReLU层、FC层(全连接层)、Sigmoid函数层和Scale层，其中Residual层连接Scale层。ReLU层表示非线性激活单元，主要用于避免卷积神经网络只能拟合线性数据，不能拟合非线性数据，从未造成后续模型训练不准确甚至导致训练失败的问题。

在本实施例中，采用SENet模块对每个通道的初始特征图进行特征压缩和权重赋值，从而得到每个通道的压缩后特征图和每个通道的压缩后特征图对应的权重。该方法使用了多层次特征聚合模块，将不同网络层输出的不同尺度的特征进行融合，充分利用来自不同模态粗细层级的特征，以便后期采用注意力模块进行加权运算，使得后续训练得到的静默活体检测模型更加精确

在一个实施例中，将每个通道的初始特征图依次输入至SENet模块和注意力模块进行压缩、加权计算和特征融合的步骤中，还包括：采用注意力模块根据每个通道的压缩后特征图的权重来对每个通道的压缩后特征图进行加权计算。

注意力模块通常包括Scale层和自上向下依次连接的Global Pooling(全局池化层)、1×1Conv(1×1卷积层)、BN/ReLU层、1×1Conv(1×1卷积层)、BN层和Sigmoid函数层，其中Sigmoid函数层连接Scale层。BN和ReLU层表示非线性激活单元，主要用于避免卷积神经网络只能拟合线性数据，不能拟合非线性数据，从未造成后续模型训练不准确甚至导致训练失败的问题。

注意力模块主要用于对不同层的特征图进行加权融合。由于不同层特征图拥有不同特性的特征，采用注意力模块可以根据每个通道的压缩后特征图的特性(即权重)采用加权融合方法，使得得到的深度特征图更加精确，从而使得后续训练得到的静默活体检测模型更加精确。

在一个实施例中，在将标记的图像样本输入改进的卷积运算模块进行特征提取，得到深度特征图的步骤之前，包括：采用一种或多种增强处理方法对标记的图像样本进行图像增强处理，其中增强处理方法包括图像翻转、图像裁剪、图像旋转、图像平移、添加噪声和图像色彩转换空间。

其中，在对图像样本进行标记之前或之后，需要对图样样本进行预处理，在数据预处理方面主要是对数据进行数据增强，数据增强的操作具体有翻转(Flipping)、色彩空间(Color space)、裁剪(Cropping)、旋转(Rotation)、平移(Translation)、噪声(Noiseinjection)、色彩转换空间(Color space transformations)等。

翻转对于图像而言，主要是进行水平翻转和垂直翻转。数字图像数据通常被编码为一个维度的张量(height×width×color channels)，在颜色通道空间中执行增强，这是非常常见的数据增强方法。非常简单的图像增强包括隔离单色通道，如R、G或B，或者是对其直方图进行改变，用的比较多的方法：调节亮度，对比度，饱和度，直方图均衡化，白平衡，clahe等。裁剪是为了改变图片center的大小。旋转是让图像在0-360°内旋转，顺时针，逆时针都可以，轻微旋转在1°-20°和-1°到-20°，平移是向左、向右、向上或向下移动图像，是非常有用的转换，以避免数据中的位置偏移。图片增加噪声提高模型的鲁棒性，常见的有高斯模糊，椒盐噪声，均值滤波等。色彩空间转换是将图像在rgb，hsv，lab等色彩空间之间相互转换。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请公开的实施例中详细描述了一种静默活体检测方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述方法的静默活体检测装置，下面给出具体的实施例进行详细说明。

请参阅图9，为本申请实施例公开的一种静默活体检测装置，主要包括：

待检测图像获取模块902，用于获取待检测图像；

活体预测概率输出模块904，用于将待检测图像输入至预先训练的静默活体检测模型，输出待检测图像的活体预测概率；其中，静默活体检测模型是采用标记的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括改进的卷积运算模块，改进的卷积运算模块是在骨架网络的每一层网络结构中加入SENet模块和注意力模块而形成的；

检测判断模块906，用于根据活体预测概率来判断待检测图像是否通过检测。

在一个实施例中，包括：

图像样本获取模块，用于获取图像样本；

图像样本标记模块，用于对图像样本进行标记，得到标记的图像样本；

神经网络构建模块，用于构建改进的卷积神经网络，其中改进的卷积神经网络包括改进的卷积运算模块、全局平均池化层和softmax预测层，改进的卷积运算模块包括依次连接的骨架网络、SENet模块、注意力模块和特征融合模块，SENet模块和注意力模块的数量与骨架网络的网络结构层数相同；

深度特征图获得模块，用于将标记的图像样本输入改进的卷积运算模块进行特征提取，得到深度特征图；

实际预测结果获得模块，用于将深度特征图分别依次输入全局平均池化层和softmax预测层，输出实际预测结果；

静默活体检测模型获得模块，用于对改进的卷积神经网络的权重进行调整，直至实际预测结果与目标预测结果的偏差在容许范围内时，训练完成，得到静默活体检测模型。

在一个实施例中，骨架网络包括ResNet网络或MobileNet网络；深度特征图获得模块包括：初始特征图获取模块：

初始特征图获取模块，用于将标记的图像样本输入ResNet网络或MobileNet网络进行特征提取，得到多通道的初始特征图；

深度特征图获得模块，用于将每个通道的初始特征图依次输入至SENet模块、注意力模块和特征融合模块进行特征压缩、加权计算以及特征融合，得到深度特征图。

在一个实施例中，还包括：

压缩特征及权重获得模块，用于将每个通道的初始特征图依次输入至SENet模块进行特征压缩，得到每个通道的压缩后特征图和每个通道的压缩后特征图对应的权重。

在一个实施例中，还包括：

加权计算模块，用于采用注意力模块根据每个通道的压缩后特征图的权重来对每个通道的压缩后特征图进行加权计算。

在一个实施例中，图像样本标记模块，还用于对图像样本进行分析，将活体图像样本标记为正样本，非活体图像样本比较为负样本。

在一个实施例中，还包括：

图像增强处理模块，用于采用一种或多种增强处理方法对标记的图像样本进行图像增强处理，其中增强处理方法包括图像翻转、图像裁剪、图像旋转、图像平移、添加噪声和图像色彩转换空间。

关于静默活体检测装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参考图10，图10其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备100可以是计算机设备。本申请中的终端设备100可以包括一个或多个如下部件：处理器1002、存储器1004以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1004中并被配置为由一个或多个处理器1002执行，一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法，也可以配置用于执行上述应用于图像中文本公式的定位的方法实施例中所描述的方法。

处理器1002可以包括一个或者多个处理核。处理器1002利用各种接口和线路连接整个终端设备100内的各个部分，通过运行或执行存储在存储器1004内的指令、程序、代码集或指令集，以及调用存储在存储器1004内的数据，执行终端设备100的各种功能和处理数据。可选地，处理器1002可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArray，PL A)中的至少一种硬件形式来实现。处理器1002可集成中央处理器(CentralProcessing Unit，CPU)、埋点数据的上报验证器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1002中，单独通过一块通信芯片进行实现。

存储器1004可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1004可用于存储指令、程序、代码、代码集或指令集。存储器1004可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备100在使用中所创建的数据等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

综上，本申请实施例提供的终端设备用于实现前述方法实施例中相应的静默活体检测方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图11，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质110中存储有程序代码，程序代码可被处理器调用执行上述静默活体检测方法实施例中所描述的方法，也可以被处理器调用执行上述静默活体检测方法实施例中所描述的方法。

计算机可读取存储介质110可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质110包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质110具有执行上述方法中的任何方法步骤的程序代码112的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码112可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种静默活体检测方法，其特征在于，所述方法包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述静默活体检测模型的训练方法，包括：

获取图像样本，对所述图像样本进行标记，得到所述标记的图像样本；

构建所述改进的卷积神经网络，其中所述改进的卷积神经网络包括改进的卷积运算模块、全局平均池化层和softmax预测层，所述改进的卷积运算模块包括依次连接的所述骨架网络、所述SENet模块、所述注意力模块和特征融合模块，所述SENet模块和所述注意力模块的数量与所述骨架网络的网络结构层数相同；

将所述标记的图像样本输入所述改进的卷积运算模块进行特征提取，得到深度特征图；

将所述深度特征图分别依次输入所述全局平均池化层和所述softmax预测层，输出实际预测结果；

对所述改进的卷积神经网络的权重进行调整，直至实际预测结果与目标预测结果的偏差在容许范围内时，训练完成，得到所述静默活体检测模型。

3.根据权利要求2所述的方法，其特征在于，所述骨架网络包括ResNet网络或MobileNet网络；将所述标记的图像样本输入所述改进的卷积运算模块进行特征提取，得到深度特征图的步骤中，包括：

将所述标记的图像样本输入所述ResNet网络或MobileNet网络进行特征提取，得到多通道的初始特征图；

将每个通道的初始特征图依次输入至所述SENet模块、所述注意力模块和所述特征融合模块进行特征压缩、加权计算以及特征融合，得到所述深度特征图。

4.根据权利要求2所述的方法，其特征在于，将每个通道的初始特征图依次输入至所述SENet模块和所述注意力模块进行压缩、加权计算和特征融合的步骤中，包括：

将每个通道的初始特征图依次输入至所述SENet模块进行特征压缩，得到每个通道的压缩后特征图和每个通道的压缩后特征图对应的权重。

5.根据权利要求4所述的方法，其特征在于，将每个通道的初始特征图依次输入至所述SENet模块和所述注意力模块进行压缩、加权计算和特征融合的步骤中，还包括：

采用所述注意力模块根据所述每个通道的压缩后特征图的权重来对所述每个通道的压缩后特征图进行加权计算。

6.根据权利要求2所述的方法，其特征在于，对所述图像样本进行标记，得到所述标记的图像样本的步骤中，包括：

对所述图像样本进行分析，将活体图像样本标记为正样本，非活体图像样本比较为负样本。

7.根据权利要求1-6任一项所述的方法，其特征在于，在将所述标记的图像样本输入所述改进的卷积运算模块进行特征提取，得到深度特征图的步骤之前，包括：

采用一种或多种增强处理方法对所述标记的图像样本进行图像增强处理，其中增强处理方法包括图像翻转、图像裁剪、图像旋转、图像平移、添加噪声和图像色彩转换空间。

8.一种静默活体检测装置，其特征在于，所述装置包括：

待检测图像获取模块，用于获取待检测图像；

9.一种终端设备，其特征在于，包括：

存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。