CN111881706A

CN111881706A - 活体检测、图像分类和模型训练方法、装置、设备及介质

Info

Publication number: CN111881706A
Application number: CN201911186208.6A
Authority: CN
Inventors: 付华; 赵立军; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd; Mashang Consumer Finance Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-11-03
Anticipated expiration: 2039-11-27
Also published as: CN111881706B; CN113642466B; CN113642466A

Abstract

本发明公开了一种活体检测、图像分类和模型训练方法、装置、设备及介质，涉及图像处理技术领域，以提高活体检测的速度。该方法包括：获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；将所述第一融合图像输入到第一模型中，得到第一活体检测结果。其中，第一模型为SqueezeNet，所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。本发明实施例可提高活体检测的速度。

Description

活体检测、图像分类和模型训练方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种活体检测、图像分类和模型训练方法、装置、设备及介质。

背景技术

随着人脸识别、人脸解锁等技术在金融、门禁、移动设备等日常生活中的广泛应用，人脸防伪/活体检测(Face Anti-Spoofing)技术近年来得到了越来越多的关注。基于更深更复杂的深度神经网络模型，目前在服务器端运行的活体检测模型可以达到99％的准确率。随着应用场景的增加，需要一种在可移动的终端实时运行的活体检测模型。

目前，在可移动的终端上大多采用交互方式来进行活体检测。但是，这种方式要求被检测对象配合做动作，比较耗时，从而影响了检测速度。

发明内容

本发明实施例提供一种活体检测、图像分类和模型训练方法、装置、设备及介质。

第一方面，本发明实施例提供了一种活体检测方法，包括：

获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB(Red，Green，Blue，红、绿、蓝)图和所述RGB图对应的一帧深度图；

将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；

将所述第一融合图像输入到第一模型中，得到第一活体检测结果；

其中，第一模型为SqueezeNet；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

第二方面，本发明实施例还提供一种模型训练方法，包括：

获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧红绿蓝RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；

将所述训练样本集输入机器学习网络模型，训练得到第一模型；

其中，所述第一模型为压缩网络SqueezeNet；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

第三方面，本发明实施例还提供了一种图像分类方法，包括：

获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

将所述第一融合图像输入到第一模型中，得到图像分类结果；

其中，第一模型为SqueezeNet；所述RGB图中目标区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

第四方面，本发明实施例还提供了一种活体检测装置，包括：

第一获取模块，用于获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

第一融合模块，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；

第一处理模块，用于将所述第一融合图像输入到第一模型中，得到第一活体检测结果；

其中，所述第一模型为SqueezeNet；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

第五方面，本发明实施例还提供了一种模型训练装置，包括：

第一获取模块，用于获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；

训练模块，用于将所述训练样本集输入机器学习网络模型，训练得到第一模型；

第六方面，本发明实施例还提供了一种图像分类装置，包括：

第一获取模块，用于获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

第一处理模块，用于将所述第一融合图像输入到第一模型中，得到图像分类结果；

其中，所述第一模型为SqueezeNet；所述RGB图中目标区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

第七方面，本发明实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的第一方面或第二方面或第三方面所述的方法中的步骤。

第八方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的第一方面或第二方面或第三方面所述的方法中的步骤。

在本发明实施例中，利用获取的目标人脸图像组中的单帧RGB图和对应的深度图像进行融合，并利用融合后的结果作为模型的输入，从而得到活体检测结果。因此，利用本发明实施例的装置，无需被检测对象配合做动作，从而提高了检测速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的活体检测方法的流程图之一；

图2是本发明实施例提供的选取目标人脸图像组的流程图；

图3是本发明实施例提供的图像融合过程的示意图；

图4是本发明实施例提供的Fire Module的结构图；

图5是本发明实施例提供的活体检测方法的流程图之二；

图6是本发明实施例提供的模型训练方法的流程图；

图7是本发明实施例提供的图像分类方法的流程图；

图8是本发明实施例提供的活体检测装置的结构图；

图9是本发明实施例提供的模型训练装置的结构图；

图10是本发明实施例提供的图像分类装置的结构图；

图11是本发明实施例提供的电子设备的结构图之一；

图12是本发明实施例提供的电子设备的结构图之二；

图13是本发明实施例提供的电子设备的结构图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的活体检测方法的流程图，应用于电子设备，如可移动的终端等。如图1所示，包括以下步骤：

步骤101、获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

在本发明实施例中，可通过电子设备提供的摄像头获取目标人脸图像组。实际应用中，通过电子设备提供的摄像头可获取多个人脸图像组。在本发明实施例中，为提高判断的准确性，要求目标人脸图像组中，RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。其中，该第一预设要求和第二预设要求可根据需要设置。

例如，该第一预设要求可以是人脸区域的大小大于某个预设值，第二预设要求可以是深度大于某个预设值。

因此，在步骤101之前，所述方法还可包括：获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图，然后，从所述待检测的人脸图像组中选取所述目标人脸图像组。

结合图2所示，示出了选取目标人脸图像组的过程。对于获取的待检测的人脸图像组中的一帧RGB图和所述RGB图对应的一帧深度图，首先，判断RGB中是否存在人脸区域。若存在，则继续后续处理。否则，可重新获取人脸图像组。在存在人脸区域的情况下，在RGB图中确定人脸区域，并判断人脸区域的大小是否符合要求。若符合要求则继续后续处理，否则重新获取人脸图像组。在人脸图像的大小符合预设要求的情况下，从RGB图中裁剪出人脸区域。在裁剪出的人脸区域中，RGB图和深度图的像素位置一一对应。对于裁剪出的人脸区域，判断其深度是否符合要求。若符合要求，则继续后续处理。否则，可重新获取人脸图像组。同时，对于裁剪出的人脸区域还要判断其是否存在人脸被遮挡的现象。若不存在，则继续后续处理。否则，可重新获取人脸图像组。假设不存在人脸遮挡，且裁剪出的人脸区域的深度符合预设要求，那么，可作为目标人脸图像组，并进行后续处理。

步骤102、将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像。

结合图3所示，在本发明实施例中，融合方式可包括以下几种：

(1)仅保留深度图，得到单通道图(记为A，Depth(1))；

(2)将深度图映射成彩色图(记为B)，并将彩色图和RGB图进行叠加(如按照不同的权重进行叠加)，得到三通道图(Depth(3)+Color(3))；

(3)仅保留深度图，得到单通道图；将单通道图添加到RGB图的Alpha通道上，得到四通道图(Color(3)+Depth(a))；

(4)将深度图映射成彩色图(记为B)(Depth(3))；

(5)将RGB图转换为单通道灰度图，将深度图映射成彩色图；将单通道灰度图添加到彩色图的Alpha通道上，得到四通道图(Depth(3)+Color(a))。

那么，相应的，在此步骤中，所述第一方式可以是以上融合方式中的任意一种。具体的，按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者

将所述深度图映射成第一彩色图，并将所述第一彩色图和所述RGB图进行叠加，得到三通道图；或者

仅保留所述深度图，得到第二单通道图；将所述第二单通道图添加到所述RGB图的Alpha通道上，得到四通道图；或者

将所述深度图映射成第二彩色图；或者

将所述RGB图转换为单通道灰度图，将所述深度图映射成第二彩色图；将所述单通道灰度图添加到所述第二彩色图的Alpha通道上，得到四通道图。

步骤103、将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

在本发明实施例中，所述第一模型例如可以是SqueezeNet等等。由于对现有的SqueezeNet进行了改进，因此，本发明实施例中的SqueezeNet可以称为改进的SqueezeNet。所述SqueezeNet包括Fire Module和Streaming Module(流模块)。

图4是本发明实施例中Fire Module的结构图。其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层。所述Squeeze层、Expand层的作用和现有技术中的相同，区别在于，所述Squeeze层和所述Expand层使用1×1的卷积核和3×3的可变形卷积Deformable Convolution(DConv)的卷积核进行卷积运算。所述BatchNorm层用于对模型进行收敛。通过对模型进行收敛，可提高获得准确的模型的速度。

其中，所述3×3的Deformable Convolution包括：Deformable Convolution V2或者Deformable Convolution V1；

或者，所述Deformable Convolution是空洞卷积Dilated Convolution；

或者，所述3×3的可变形卷积Deformable Convolution用1×3的DeformableConvolution与3×1的Deformable Convolution的组合替换；

所述流模块Streaming Module为k×k的可变形深度卷积Deformable DepthwiseConvolution，用于对图像的各个区域进行加权计算；所述k为大于1的正整数。

其中，所述k×k的可变形深度卷积Deformable Depthwise Convolution(DDWConv)是利用k×k的深度卷积Depthwise Convolution和以下任一卷积方式相结合得到的：

可变形卷积Deformable Convolution V2或Deformable Convolution V1或空洞卷积Dilated Convolution；

或者，所述流模块Streaming Module包括：1×k的可变形深度卷积DeformableDepthwise Convolution与k×1的可变形深度卷积Deformable Depthwise Convolution的结合。

具体地，所述流模块Streaming Module为7×7的Deformable DepthwiseConvolution，用于对图像的各个区域进行加权计算；

其中，所述7×7的Deformable Depthwise Convolution是利用7×7的深度卷积Deformable Convolution和以下任一卷积方式相结合得到的：

或者，7×7的Deformable Depthwise Convolution也可用：1×7的DeformableDepthwise Convolution与7×1的Deformable Depthwise Convolution的组合来替换。

所述Streaming Module用于对图像的各个区域进行加权计算，从而可提高模型的准确率。

在实际应用中，SqueezeNet还可以利用MobileNet、ShuffleNet、EfficientNet等来实现。

参见图5，图5是本发明实施例提供的活体检测方法的流程图，应用于电子设备，如可移动的终端等。如图5所示，包括以下步骤：

步骤501、训练第一模型。

其中，所述第一模型可包括SqueezeNet等等。

以SqueezeNet为例，在本发明实施例中，对SqueezeNet进行改进，得到改进的SqueezeNet。在本发明实施例中，所述SqueezeNet包括Fire Module和Streaming Module。关于SqueezeNet的描述可参见前述实施例的描述。

其中，在此步骤中，获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的，然后，将所述训练样本集输入机器学习网络模型，训练得到所述第一模型。

步骤502、获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

步骤503、从所述待检测的人脸图像组中选取目标人脸图像组。其中，所述目标人脸图像组中包括一帧RGB图和RGB图对应的一帧深度图；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

步骤504、将所述目标人脸图像组的RGB图和深度图以第一融合方式进行融合，得到第一融合图像。

步骤505、将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

在本发明实施例中，第一活体检测结果可以是数值。通过将该数值和预先设定的阈值进行比较，从而可确定是否包括真实的人脸图像。此外，如果第一活体检测结果的数值符合预设要求，例如数值位于某个数值范围内，为了提高检测结果的准确性，还可再将进行后续的级联判断。

步骤506、将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同。

所述第一融合方式和所述第二融合方式的具体内容可参照前述实施例的描述。

步骤507、将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果。

其中，所述第一模型和所述第二模型是不同的模型。所述第二模型例如可以是FeatherNet、MobileNet、ShuffleNet、EfficientNet等。在实际应用中，还可预先训练所述第二模型。

步骤508、根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

在本发明实施例中，第二活体检测结果可以是数值。那么，在此，对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果。

所述运算包括以下任意一种：计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；计算所述第一活体检测结果和所述第二活体检测结果的平均值。当然，在实际应用中还可有其他的计算方式，在本发明实施例中不做限定。

对于获得的运算值，将其和某个预设值进行比较，从而确定是否包括真实的人脸图像。

在获得第一活体检测结果后，再获得第二活体检测结果，并综合第一活体检测结果和第二活体检测结果，得到最终的活体检测结果。通过以上的级联检测，可提高检测结果的准确性。

在本发明实施例中，利用获取的目标人脸图像组中的单帧RGB图和对应的深度图像进行融合，并利用融合后的结果作为模型的输入，从而得到活体检测结果。因此，利用本发明实施例的装置，无需被检测对象配合做动作，从而提高了检测速度。此外，由于本发明实施例的方案采用SqueezeNet，模型非常小，因此，适合在终端等移动端设置。

参见图6，图6是本发明实施例提供的模型训练方法的流程图。如图6所示，包括以下步骤：

步骤601、获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的。

其中，在此步骤中，可获取待处理图像，然后对所述待处理图像添加标注。所述待处理图像包括一帧RGB图以及和所述RGB图对应的一帧深度图。在进行标注时，可对RGB图和深度图都进行标注，也可只对RGB图或者深度图进行标注。其中，所述标注用于表示图像中是否存在真正的人脸图像。之后，对RGB图和深度图进行融合，得到融合图像。其中，融合方式可参照前述实施例的描述。

在此，利用平衡交叉熵损失函数(a-Balanced Focal Loss)作为损失函数训练分类模型，对所述待处理图像添加标注，从而可有效缓解训练样本的类别和难易程度分布不均衡的问题，提升模型的泛化能力和准确率。

其中，平衡交叉熵损失函数计算方式如下：

FL(p_t)＝-a_t(1-p_t)^γlog(p_t)

FL是一个尺度动态可调的交叉熵损失函数，在FL中有两个参数a_t和γ，其中，a_t的主要作用是解决正负样本的不平衡的问题，γ主要是解决难易样本的不平衡的问题。

此外，还可用a-Balanced Cross Entropy Loss作为损失函数，同时配合OHEM(Online Hard Example Mining，困难样本在线挖掘)，用以解决不均衡的问题。

步骤602、将所述训练样本集输入机器学习网络模型，训练得到第一模型。

本发明实施例中，所述第一模型为SqueezeNet。所述SqueezeNet包括Fire Module和流模块Streaming Module。

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层。所述Squeeze层、Expand层的作用和现有技术中的相同，区别在于，所述Squeeze层和所述Expand层使用1×1的卷积核和3×3的可变形卷积Deformable Convolution的卷积核进行卷积运算。所述BatchNorm层用于对模型进行收敛。通过对模型进行收敛，可提高获得准确的模型的速度。

用Streaming Module(流模块)替换GAP(Global Average Pooling，全局平均化池)层，用于对图像的各个区域进行加权计算，从而提高模型的准确度；

其中，所述Deformable Convolution包括：Deformable Convolution V2或者Deformable Convolution V1；

或者，所述Deformable Convolution是空洞卷积Dilated Convolution；

其中，所述k×k的可变形深度卷积Deformable Depthwise Convolution是利用k×k的深度卷积Depthwise Convolution和以下任一卷积方式相结合得到的：

此外，在本发明实施例中，采用Deformable Convolution代替SqueezeNet中的3×3卷积核，使卷积核集中在更有效感受区域上，从而加强模型的特征提取，提升模型的准确率。

SqueezeNet模型体积小，更适合在移动端上应用。在上述实施例的基础上，还可对训练得到的模型进行剪枝和再训练，从而进一步缩减模型。

通过以上描述可以看出，在本发明实施例中，使用单帧的RGB图像和深度图像进行多种方式的融合，提高了处理速度，并通过级联判断提高了检测结果的准确性。由于本发明实施例中的SqueezeNet模型比较小，因此，适合在移动端运行。同时，在训练SqueezeNet模型的过程中利用了a-Balanced Focal Loss，可有效缓解训练样本的类别和难易程度分布不均衡的问题，从而提升模型的泛化能力和准确率。此外，本发明实施例中，利用Deformable Convolution代替现有的SqueezeNet中的3×3卷积核，使卷积核集中在更有效的感受区域上，从而可加强模型的特征提取，提升模型的准确率。

参见图7，图7是本发明实施例提供的图像分类方法的流程图。如图7所示，包括以下步骤：

步骤701、获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

其中，所述目标图像组可以是包括任意内容的图像，比如人脸，风景等。

步骤702、将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像。

其中，融合方式可参见前述实施例的描述。

步骤703、将所述第一融合图像输入到第一模型中，得到图像分类结果。

其中，所述第一模型为压缩网络SqueezeNet。所述RGB图中目标区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。其中，所述目标区域例如可以为人脸区域等。所述第一预设要求和所述第二预设要求的含义，可参照前述方法实施例的描述。

所述压缩网络SqueezeNet的具体结构请参见上述内容，另外，所述压缩网络SqueezeNet的训练方法请参见前述内容。根据分类目标的不同，在此可有不同的图像分类结果。例如，所述图像分类结果可以是包括人脸的图像和不包括人脸的图像，包括风景的图像和不包括风景的图像等。

在本发明实施例中，利用获取的单帧RGB图和对应的深度图进行融合，并利用融合后的结果作为模型的输入，从而得到图像分类结果。因此，利用本发明实施例的装置，提高了图像分类的速度。

本发明实施例还提供了一种活体检测装置。参见图8，图8是本发明实施例提供的活体检测装置的结构图。由于活体检测装置解决问题的原理与本发明实施例中活体检测方法相似，因此该活体检测装置的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，活体检测装置包括：第一获取模块801，用于获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；第一融合模块802，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；第一处理模块803，用于将所述第一融合图像输入到第一模型中，得到第一活体检测结果；其中，所述第一模型为SqueezeNet，所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

可选的，所述第一融合模块802按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者

将所述深度图映射成第二彩色图；或者

可选的，所述装置还可包括：

第二融合模块，用于将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同；

第二处理模块，用于将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果；其中，所述第一模型和所述第二模型是不同的模型；

第三处理模块，用于根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

可选的，所述第三处理模块，用于对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果；

所述运算包括以下任意一种：

计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；或者

计算所述第一活体检测结果和所述第二活体检测结果的平均值。

可选的，所述装置还可包括：

训练模块，用于利用本发明实施例的模型训练方法训练所述第一模型。其中，第一模型的描述可参照前述实施例的描述。

本发明实施例提供的装置，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供了一种模型训练装置。参见图9，图9是本发明实施例提供的模型训练装置的结构图。由于模型训练装置解决问题的原理与本发明实施例中模型训练方法相似，因此该模型训练装置的实施可以参见方法的实施，重复之处不再赘述。

如图9所示，模型训练装置包括：第一获取模块901，用于获获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；训练模块902，用于将所述训练样本集输入机器学习网络模型，训练得到第一模型；其中，所述第一模型为SqueezeNet。所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

可选的，所述SqueezeNet包括Fire Module和流模块Streaming Module；

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层；

所述Squeeze层和所述Expand层使用1×1的卷积核和3×3的可变形卷积Deformable Convolution的卷积核进行卷积运算；所述BatchNorm层用于对模型进行收敛；

所述流模块Streaming Module用于对图像的各个区域进行加权计算；

或者，所述Deformable Convolution是空洞卷积Dilated Convolution；

所述流模块Streaming Module为k×k的可变形深度卷积Deformable DepthwiseConvolution，用于对图像的各个区域进行加权计算；

本发明实施例还提供了一种图像分类装置。参见图10，图10是本发明实施例提供的图像分类装置的结构图。由于图像分类装置解决问题的原理与本发明实施例中图像分类方法相似，因此该图像分类装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，图像分类装置包括：第一获取模块1001，用于获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；第一融合模块1002，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；第一处理模块1003，用于将所述第一融合图像输入到第一模型中，得到图像分类结果；

其中，所述第一模型为压缩网络SqueezeNet，所述RGB图中目标区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

如图11所示，本发明实施例的电子设备，包括：处理器1100，用于读取存储器1120中的程序，执行下列过程：

获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧红绿蓝RGB图和所述RGB图对应的一帧深度图；

将所述第一融合图像输入到第一模型中，得到第一活体检测结果；其中，所述第一模型为SqueezeNet，所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

收发机1111，用于在处理器1100的控制下接收和发送数据。

其中，在图11中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1100代表的一个或多个处理器和存储器1120代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1111可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1100负责管理总线架构和通常的处理，存储器1120可以存储处理器1100在执行操作时所使用的数据。

处理器1100负责管理总线架构和通常的处理，存储器1120可以存储处理器1100在执行操作时所使用的数据。

处理器1100还用于读取所述程序，执行如下步骤:

按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者

将所述深度图映射成第二彩色图；或者

处理器1100还用于读取所述程序，执行如下步骤:

将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同；

将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果；其中，所述第一模型和所述第二模型是不同的模型；

根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

处理器1100还用于读取所述程序，执行如下步骤:

对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果；

所述运算包括以下任意一种：

处理器1100还用于读取所述程序，执行如下步骤:

利用本发明实施例的模型训练方法训练所述第一模型。

所述第一模型的含义可参照前述实施例的描述。

如图12所示，本发明实施例的电子设备，包括：处理器1200，用于读取存储器1220中的程序，执行下列过程：

其中，所述第一模型为压缩网络SqueezeNet，所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

收发机1210，用于在处理器1200的控制下接收和发送数据。

其中，在图12中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1200代表的一个或多个处理器和存储器1220代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1210可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1200负责管理总线架构和通常的处理，存储器1220可以存储处理器1200在执行操作时所使用的数据。

处理器1200负责管理总线架构和通常的处理，存储器1220可以存储处理器1200在执行操作时所使用的数据。

其中，所述SqueezeNet包括Fire Module和流模块Streaming Module；

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层；

或者，所述Deformable Convolution是空洞卷积Dilated Convolution；

如图13所示，本发明实施例的电子设备，包括：处理器1300，用于读取存储器1320中的程序，执行下列过程：

其中，第一模型为SqueezeNet，所述RGB图中目标区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

收发机1310，用于在处理器1300的控制下接收和发送数据。

其中，在图13中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1300代表的一个或多个处理器和存储器1320代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1310可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1300负责管理总线架构和通常的处理，存储器1320可以存储处理器1300在执行操作时所使用的数据。

处理器1300负责管理总线架构和通常的处理，存储器1320可以存储处理器1300在执行操作时所使用的数据。

所述第一模型的含义可参照前述实施例的描述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述活体检测方法或者模型训练方法或图像分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述SqueezeNet包括Fire Module和流模块Streaming Module；

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层；

所述Squeeze层和所述Expand层使用1×1的卷积核和3×3的可变形卷积DeformableConvolution的卷积核进行卷积运算；所述BatchNorm层用于对模型进行收敛；

其中，所述3×3的可变形卷积Deformable Convolution包括：可变形卷积DeformableConvolution V2或者可变形卷积Deformable Convolution V1；

或者，所述3×3的可变形卷积Deformable Convolution是空洞卷积DilatedConvolution；

或者，所述3×3的可变形卷积Deformable Convolution用1×3的可变形卷积Deformable Convolution与3×1的可变形卷积Deformable Convolution的组合替换；

所述流模块Streaming Module为k×k的可变形深度卷积Deformable DepthwiseConvolution，用于对图像的各个区域进行加权计算，所述k为大于1的正整数；

可变形卷积Deformable Convolution V2或可变形卷积Deformable Convolution V1或空洞卷积Dilated Convolution；

3.根据权利要求1所述的方法，其特征在于，通过以下任意一种方式得到所述融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第一彩色图，并将所述第一彩色图和所述RGB图进行叠加，得到三通道图；或者，

仅保留所述深度图，得到第二单通道图；将所述第二单通道图添加到所述RGB图的Alpha通道上，得到四通道图；或者，

将所述深度图映射成第二彩色图；或者，

4.一种活体检测方法，其特征在于，包括：

获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

其中，第一模型为SqueezeNet，所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

5.根据权利要求4所述的方法，其特征在于，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像，包括以下任意一种方式：

仅保留所述深度图，得到第一单通道图；或者

将所述深度图映射成第二彩色图；或者

6.根据权利要求4所述的方法，其特征在于，在所述将所述第一融合图像输入到第一模型中，得到第一活体检测结果之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果，包括：

所述运算包括以下任意一种：

8.根据权利要求4所述的方法，其特征在于，所述SqueezeNet包括Fire Module和流模块Streaming Module；

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层；

或者，所述3×3的可变形卷积Deformable Convolution包括空洞卷积DilatedConvolution；

9.一种图像分类方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述SqueezeNet包括Fire Module和流模块Streaming Module；

其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层；

或者，所述3×3的可变形卷积Deformable Convolution用1×3的变形卷积DeformableConvolution与3×1的可变形卷积Deformable Convolution的组合替换；

11.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，

所述处理器，用于读取存储器中的程序实现如权利要求1至3中任一项所述的方法中的步骤；或者实现如权利要求4至8中任一项所述的方法中的步骤；或者实现如权利要求9-10任一项所述的方法中的步骤。

12.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的方法中的步骤；或者实现如权利要求4至8中任一项所述的方法中的步骤；或者实现如权利要求9-10任一项所述的方法中的步骤。