CN112861602A

CN112861602A - 基于深度可分离卷积的人脸活体识别模型压缩和移植方法

Info

Publication number: CN112861602A
Application number: CN202011435882.6A
Authority: CN
Inventors: 谢巍; 周延; 陈定权; 许练濠
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-05-28
Anticipated expiration: 2040-12-10
Also published as: CN112861602B

Abstract

本发明涉及一种基于深度可分离卷积的人脸活体识别模型压缩和移植方法，包括如下步骤：S1、通过数据增强的方式获得一个训练数据集；S2、利用改进的卷积神经网络对图像进行训练，并保存训练后得到的卷积神经网络模型；S3、基于深度可分离卷积对模型进行压缩，削减模型大小，使得模型参数削减为原始模型的20％左右，使得其尺寸更适合于移动端。S4、通过对模型权重进行半精度Float16量化进一步地压缩模型，加快模型推理速度，使得模型大小压缩为S3步骤的50％，移动端识别速度缩短为400ms，完成模型在移动端软件的移植。本发明基于深度可分离卷积对模型进行压缩且Float16半精度量化。

Description

基于深度可分离卷积的人脸活体识别模型压缩和移植方法

技术领域

本发明涉及计算机视觉、深度卷积神经网络以及模型压缩领域，具体涉及基于深度可分离卷积的人脸活体识别模型压缩和移植方法。

背景技术

随着图像处理技术、计算机视觉算法等的日益成熟，人脸识别技术得到蓬勃的发展，而其中人脸防伪技术也是一个重要的研究课题。活体检测是在一些身份验证场景确定对象真实生理特征的方法，在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。

深度神经网络在计算机视觉,语音识别等领域取得了巨大成功.然而,目前的深度神经网络模型需要消耗大量的计算资源和存储空间,限制了在移动终端和车载设备等低存储,低延迟需求环境下的应用。近年来深度神经网络在目标识别,图像分类等领域取得了重大突破,然而训练和测试这些大型深度神经网络存在几点限制:1)训练和测试这些深度神经网络需要进行大量的计算(训练和测试将消耗大量的时间),需要高性能的计算设备(例如GPU)来加快训练和测试速度；2)深度神经网络模型通常包含大量的参数,需要大容量的高速内存来存储模型.上述限制阻碍了神经网络等技术的广泛应用,现阶段神经网络的训练和测试通常是在高性能服务器或者集群下面运行,在一些对实时性要求较高的移动设备如手机上的应用受到限制。针对模型大小和实时性要求，近年来国内外学者研究出许多模型压缩算法。文献(Luo J,Wu J.An entropy-based pruning method for CNNcompression[J].arXiv:1706.05791,2017)提出了一种基于熵的方法来评价滤波器的重要性，裁掉不重要的滤波器权重，得到了一个更小的网络模型；文献(He Y, Liu P,Wang Z,et al.Filter pruning via geometric median for deep convolutional neuralnetworks acceleration[C]//Proceedings of the 2019 IEEE Conference on ComputerVision and Pattern Recognition,Long Beach,Jun 16-20,2019.Washington: IEEEComputer Society,2019:4340-4349.)基于随机裁剪的方法对模型进行压缩；文献(Li X,Long R,Yan J,et al.TANet:a tiny plankton classification network for mobiledevices[J].Mobile Information Systems,2019(4):1-8.)设计了一种基于注意力机制的轻量级卷积神经网络；一种NASNet体系结构的方法，利用搜索方法在感兴趣的数据集中找到良好的卷积体系结构；基于离散空间的搜索算法存在计算量大的问题，文献(Liu H,Simonyan K,Yang Y.Darts:differentiable architecture search[J].arXiv:1806.09055,2018.)提出了一种称为可微结构搜索的算法，将搜索空间转化为连续的领域；文献(He Y H，Zhang X Y,Sun J.Channel pruning for accelerating very deepneural networks[C]//Proceedings of the 2017 IEEE International Conference onComputer Vision,Venice,Oct 22-29,2017.Washington: IEEE Computer Society,2017:1389-1397.)通过基于LASS回归的通道选择方法和利用最小二乘重构进行有效的网络通道剪枝。

上述的一些主流网络压缩技术局限于通道删除等剪枝算法，对模型性能损害比较大，会使得模型准确率下降较为剧烈。

发明内容

为了解决以上问题，本发明提出了一种基于深度可分离卷积的人脸活体识别模型压缩和移植方法。卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络，能够对输入信息进行平移不变分类，被广泛应用于图像识别，自然语言处理，音频处理等领域。而深度可分离卷积是一种更为紧凑的网络结构，通过小尺寸的1*1逐点卷积和单通道的深度卷积来降低网络的参数量；本发明提出的算法分为四个步骤：首先是通过数据增强的方式获得一个数据丰富的训练集，然后利用若利用改进的卷积神经网络对图像进行训练，并保存训练后得到的卷积神经网络模型，接着是基于深度可分离卷积对模型进行压缩，削减模型大小，使得其尺寸更适合于移动端。最后通过模型量化进一步进行模型压缩，加快模型推理速度，完成模型在移动端软件的移植。

本发明至少通过如下技术方案之一实现。

基于深度可分离卷积的人脸活体识别模型压缩和移植方法，包括以下步骤：

S1、通过数据增强的方式进行训练；

S2、利用卷积神经网络对训练数据集的图像进行训练，并保存训练后得到的卷积神经网络模型；

S3、基于深度可分离卷积对卷积神经网络模型进行压缩；

S4、通过对卷积神经网络模型权重进行半精度Float16量化进一步压缩模型，将压缩后的卷积神经网络模型移植到移动端中。

优选的，步骤S1所述的训练数据集通过以下方式获得：

根据CASIA-FASD数据集中的视频，逐帧从图像中剪出人脸，这些图像构成训练数据集的一部分；拍摄不同场景下的真假脸的样本图片作为训练数据集的另一部分，并对训练数据集进行图像亮度、对比度、饱和度随机调整，随机旋转的数据增强处理。

优选的，步骤S2所述改进的卷积神经网络结构如下：

所述基于深度可分离卷积改进的VGG11网络，改进的VGG11网络包括11 个卷积层和三个全连接层，前面六层卷积层分别为三组深度可分离卷积，每层卷积层后面加ReLU层即卷积层+ReLU层，每两个卷积层+ReLU层后面连接一个最大池化层和一个随机失活层即dropout，最后的三个随机失活层后面分别连接一层全连接层，每个全连接层后面连接有ReLU层，最后的ReLU层连接 softmax层；在前两个卷积层的输出中，每个卷积层连接一个批量归一化(Batch Normalization，BN)层，BN层连接一个最大池化层，该最大池化层再与一个随机失活层连接。

优选的，改进的卷积神经网络的训练方式如下：

1)对前两层卷积层的输出进行批量归一化(Batch Normalization)，批量归一化原理公式如下：

其中x^(k)是输入的第k维向量，E[x^(k)]为x^(k)的均值，Var[x^(k)]为x^(k)的方差；

2)对每层卷积层输出使用dropout；

3)学习率采用衰减学习率，在训练改进的卷积神经网络时，使用学习率控制参数的更新速度。

优选的，采用dropout的VGG11网络结构计算公式如下：

r_j ^(l)～Bernoulli(p)

y^(l)＝r^(l)*y^(l)

z_i ^(l+1)＝w_i ^(l+1)y^l+b_i ^(l+1)

y_i ^(l+1)＝f(z_i ^(l+1))

其中，z_i ^(l+1)是改进后的卷积神经网络中某层的输出，y_i ^(l+1)是改进后的卷积神经网络的最终输出，y^(l)是经过dropout操作后的某层神经元输出值，Bernoulli 函数是为了随机生成一个0或者1的向量r_j ^(l)，y^(l)是改进后的卷积神经网络的第l层输出，y^l为经过dropout处理后的第l层输出，w_i ^(l+1)为改进后的卷积神经网络的l+1层的权重，b_i ^(l+1)为改进后的卷积神经网络的l+1层的偏置，p为神经元的激活概率。

优选的，BN层批量归一化如下：

考虑一个大小为m的向量B＝{x₁...，x_i，x_m}，x_i为向量中的元素，以及两个待学习的参数γ和β，用来保持模型的表达能力，则经过BN层后的输出 y_i＝BN_γ,β(x_i)

y_i＝γx_i+β≡BN_γ,β(x_i)

其中，μ_B是最小批次均值，σ_B ²是最小批次方差，x_i为归一化化后的x_i，ε为常量。

优选的，所述改进的卷积神经网络输入层的图像进行预处理后再进行卷积；所述预处理包括将图像缩放为统一的大小。

优选的，步骤S3所述压缩方法基于深度可分离卷积，具体如下：

假设输入特征图尺寸为D_F×D_F×M，卷积核尺寸为D_K×D_K×M，输出特征图尺寸为D_F×D_F×N，标准卷积层的参数量为：(D_K×D_K×M)×N；

其中，D_F为输入特征图的边长，M为输入特征图的通道数；D_K为卷积核的边长，N为输出特征图的通道数；

深度卷积参数量为(D_K×D_K×1)×M，深度卷积负责滤波，作用在输入的每个通道上；逐点卷积参数量为(1×1×M)×N，逐点卷积负责转换通道，作用在深度卷积的输出特征映射上，两者合即为深度可分离卷积；

深度可分离卷积参数量为标准卷积：

优选的，步骤S4所述的量化是将连续取值的浮点型模型权重或流经模型的张量数据定点近似离散值的过程，以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程，而模型的输入输出依然是浮点型。

优选的，所述的量化方法如下：

通过模型量化桥接定点与浮点，建立有效的数据映射关系：

由浮点到定点的量化公式如下：

由定点到浮点反量化公式如下：

R＝(Q-Z)*S

其中，R表示真实的浮点值，Q表示量化后的定点值，Z表示0浮点值对应的量化定点值，S则为定点量化后可表示的最小刻度，S和Z的求值公式如下：

R_max表示最大的浮点值，R_min表示最小的浮点值，Q_max表示最大的定点值， Q_min表示最小的定点值。

与现有技术相比，本发明的有益效果是：

现有的一些网络压缩技术局限于通道删除等剪枝算法，对模型性能损害比较大，会使得模型准确率下降较为剧烈。本发明实现模型性能与大小的平衡，在保证较高准确率的同时完成模型压缩与移植，通过深度可分离卷积减少80％的模型大小，进一步地通过模型量化使得模型中的所有常量值都存储在16位浮点数中，而不是32位浮点数。由于这些常量值通常控制整个模型大小，因此通常会将模型大小减少大约一半。并且精度损失是可忽略的。深度学习模型通常能够在使用比最初训练时更少的精度的情况下产生良好的推理结果。

附图说明

图1本实施例的卷积神经网络的结构图；

图2本实施例的训练流程图；

图3本实施例的float16量化在各网络上的模型柱状图。

具体实施方式

下面结合附图和具体实施例对发明做出进一步说明。

如图1所示的一种基于单目的人脸静默活体检测方法，包括以下步骤：

S1、通过数据增强的方式获得一个训练数据集，对数据进行增强处理；具体获取过程如下：

根据中国科学院自动化研究所人脸反欺骗数据库(CASIA DATABASE)中的视频，逐帧从图像中剪出人脸，这些图像构成训练数据集的一部分；拍摄不同场景下的真假脸的样本图片(Actual scenario)作为训练样本，并对训练数据集进行图像亮度、饱和度随机调整、随机旋转的数据增强处理。CAASA-FASD 数据集由视频组成，每个视频由100到200个视频帧组成。对于每个视频捕获 30帧(每帧之间的间隔相同)。

也可以使用南京航空航天大学人脸反欺骗数据库(NUAA-DATABASE)中的人脸图像作为训练数据集，NUAA数据库的图像在不同光照条件下，由不同的人进行拍摄而成的。对人脸图像进行随机亮度调整，随机饱和度调整，随机对比度调整以及随机翻转以增加模型泛化能力；

S2、利用改进的卷积神经网络对图像进行训练，并保存训练后得到的卷积神经网络模型；

如图2所示，所述基于深度可分离卷积改进的VGG11网络结构，并用改进后的VGG11(VGG全称是Visual Geometry Group属于牛津大学科学工程系， VGG11是指该课题组研究出来的一个11层的卷积神经网络)网络来分类真假脸。与原有的VGG11网络基础上，改进的VGG11网络结构包括11个卷积层和三个全连接层(Fully connetcted)，每层卷积层(Conv)后面加一个ReLU层即卷积层 +ReLU层，每两个卷积层+ReLU层后面加有一个最大池化层(max pooling)和一个随机失活层即dropout，最后的三个随机失活层后面分别加一层全连接层，每个全连接层后面加有线性整流函数(ReLU)层，最后的ReLU层连接softmax层；在前两个卷积层的输出中，每个卷积层连接一个BN层(批归一化层)，BN层连接一个最大池化层，该最大池化层再与一个随机失活层连接。

S3、基于深度可分离卷积对模型进行压缩，削减模型大小，使得模型参数削减为原始模型的20％左右，使得其尺寸更适合于移动端。

S301、将VGG11卷积神经网络结构进行改进：

首先原始的VGG11卷积神经网络结构如表1所示，包括一个输入层，8个卷积层，两个全连接层和一个归一化指数函数(Softmax)层；第一个卷积层和第二个卷积层分别包含64个卷积核和128个卷积核；卷积核的大小是7×7和 5×5，第一个卷积层和第二个卷积层的后面分别是一个最大池化层，最大池化层的大小是2×2；第三个卷积层和第四卷积层之间权值共享，卷积层分别包含256 个卷积核，每个卷积核的大小为3×3；第五个卷积层和第六个卷积层之间权值共享，卷积层分别包含512个卷积核，每个卷积核的大小为3×3；第七个卷积层和第八个卷积层之间权值共享，卷积层分别包含512个卷积核，每个卷积核的大小为3×3，全连接层与第八个卷积层完全相连；输入层的图像是 200×200×3个像素点，包含RGB的三个通道，对该图像进行预处理(重新缩放为统一的200*200的大小)后方可进行卷积神经网络处理。

表1原始VGG11网络结构

其中，Conv表示卷积层，Pool表示池化层，Fully connected表示全连接层。

最后一层是Softmax层，softmax层表示为:

其中y'_j是网络最后一层的前一层的输出，j表示类别索引，y_j表示当前元素的指数与所有元素指数和的比值，y_j包括两个神经元，这两个神经元对应一张真实脸和一张假脸的二元分类的图像的概率分布。

本发明采用的基于深度可分离卷积而改进的VGG11卷积神经网络结构如表 2所示，包括八个卷积层、三个全连接层和一个softmax层，中间的激活函数采用ReLU激活函数，池化层采用最大池化函数。不过，对后六层卷积核的尺寸做出改变，分别变换为三个3*3的深度卷积和1*1的逐点卷积的深度可分离卷积组合，利用该结构的网络对人脸图像进行训练得到真假脸判别模型，从而实现活体的单目静默检测。

表2基于深度可分离卷积改进的网络结构

其中，表1所示结构的卷积层参数量为

N₁＝7×7×3+5×5×64+3×3×128+3×3×256+3×3×256+3×3×512+3×3×512+3×3×1024＝25939

表2所示结构的卷积层参数量为

N₂＝3×3×3+3×3×64+3×3×64+1×1×128+3×3×128+1×1×256+3×3×256+1×1×512＝5531

由上面两式可得，经深度可分离卷积改进后的VGG-11网络的卷积层参数量变为原来的

S302、改进的VGG11网络的训练具体如下：

1)对前两层卷积层输出进行批量归一化(Batch Normalization)，对输入数据做归一化处理，从而保证卷积神经网络的中间输出数值稳定，以防止梯度消失，批量归一化原理公式如下：

其中x^(k)是输入的第k维向量，E[x^(k)]为x^(k)的均值，Var[x^(k)]为x^(k)的方差。

2)对每层卷积层输出使用dropout，即在前向传播的时候，让某个神经元的激活值以概率p停止工作，防止过拟合的发生；

3)学习率采用衰减学习率,在训练神经网络时，使用学习率控制参数的更新速度；学习率较小时，会大大降低参数的更新速度；学习率较大时，会使搜索过程中发生震荡，导致参数在极优值附近徘徊，因此采用衰减学习率能够解决这个问题。

其中的随机失活(Dropout)方法是随机选择一部分网络的节点进行遗忘，任何一个模型不能完全把数据进行100％的区分。当某一类中出现异常数据时，网络将把这些异常数据当成规律进行学习，从而过拟合问题也将随之产生。由于异常数据出现的概率比主流数据出现的概率低很多，在每次模型优化过程中，主动忽略一些节点的数据，进而降低异常数据获得学习的概率，从而增强网络的泛化能力。

没有采用dropout的计算公式如下：

z_i ^(l+1)＝w_i ^(l+1)y^l+b_i ^(l+1)

y_i ^(l+1)＝f(z_i ^(l+1))

采用dropout的VGG11网络结构计算公式如下：

r_j ^(l)～Bernoulli(p)

y^(l)＝r^(l)*y^(l)

z_i ^(l+1)＝w_i ^(l+1)y^l+b_i ^(l+1)

y_i ^(l+1)＝f(z_i ^(l+1))

值得注意的是，仅仅训练时才使用dropout,而在测试时不需要加入dropout。因此在进行测试时keep_prob设为1，即神经元的激活率为百分之百，代表不需要丢弃。

而BN(批量归一化)层的设置最大限度地保证每次的正向传播输出在同一分布上防止梯度弥散的产生，将经过BN层的数据都归一化成均值为0方差为1 的标准高斯分布，批量归一化原理如下：

y_i＝γx_i+β≡BN_γ,β(x_i)

其中，μ_B是最小批次均值，σ_B ²是最小批次方差，x_i为归一化化后的x_i，ε为一常量，设为1。

将真脸样本、假脸样本以及数据增强以后的样本都打上标签，然后进行训练；损失函数采用交叉熵函数(cross entropy)；学习率采用衰减学习率，即每间隔800步都衰减为原来的百分之九十，实现模型训练开始时步长较长训练速度较快，而到后期时步长较短不容易错过全局最优点；将该活体检测方法成功集成于一个人脸识别系统中。

S4、通过对积神经网络模型权重进行半精度Float16量化进一步地压缩模型，加快积神经网络模型推理速度，使得模型大小压缩为原来的50％，移动端识别速度缩短为400ms，完成卷积神经网络模型在移动端软件的移植。

模型量化即以较低的推理精度损失将连续取值(或者大量可能的离散取值) 的浮点型模型权重或流经模型的张量数据定点近似(通常为int8)为有限多个(或较少的)离散值的过程，它是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程，而模型的输入输出依然是浮点型，从而达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标。

本发明采取了半精度float16量化，这是一种仅量化权重的量化方法，训练后的float16量化减少了模型的尺寸(高达50％)，同时牺牲了很少的精度。它量化模型常量(如权重和偏差值)从全精度浮点数(Float32位)到降低精度浮点数数据类型(Float 16)。

如图3所示，float16量化在各大网络上模型的压缩情况由柱状图可得 MobileNet(移动端网络)V1和V2模型以及MobileNet SSD(基于移动端网络的多框检测模型SSD)模型在float16量化后模型都缩减为原来的一半。

在本发明S3中经过深度可分离卷积压缩过的模型进一步地通过float16 半精度量化，在样本量为5000的测试集上测试准确率，并在相同的硬件— rk3399安卓开发板上测试识别时间，量化后的结果如表3所示：

表3量化后的结果

由上表可得，在经过步骤S1深度可分离卷积改进的模型准确率相比于原始模型下降了1.04％，而模型大小与之前计算的缩减到20％的大小基本一致，识别时间减少为0.89s,在经过步骤S3进一步地模型量化后，准确率几乎没有变化，只下降了0.03个百分点，同时识别时间进一步缩短为0.42s,因此更适用于实时场景以及移动端的移植。

本发明实现模型性能与大小的平衡，在保证较高准确率的同时完成模型压缩与移植，通过深度可分离卷积减少80％的模型大小，进一步地通过模型量化使得模型中的所有常量值都存储在16位浮点数中，而不是32位浮点数。由于这些常量值通常控制整个模型大小，因此通常会将模型大小减少大约一半，并且精度损失是可忽略的。深度学习模型通常能够在使用比最初训练时更少的精度的情况下产生良好的推理结果。

以上所述仅为本发明较佳的实施例，并未因此限制本发明的实施方法及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，包括以下步骤：

S1、通过数据增强的方式进行训练；

S3、基于深度可分离卷积对卷积神经网络模型进行压缩；

2.根据权利要求1所述的基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，步骤S1所述的训练数据集通过以下方式获得：

3.根据权利要求2所述的基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，步骤S2所述改进的卷积神经网络结构如下：

所述基于深度可分离卷积改进的VGG11网络，改进的VGG11网络包括11个卷积层和三个全连接层，前面六层卷积层分别为三组深度可分离卷积，每层卷积层后面加ReLU层即卷积层+ReLU层，每两个卷积层+ReLU层后面连接一个最大池化层和一个随机失活层即dropout，最后的三个随机失活层后面分别连接一层全连接层，每个全连接层后面连接有ReLU层，最后的ReLU层连接softmax层；在前两个卷积层的输出中，每个卷积层连接一个批量归一化(Batch Normalization，BN)层，BN层连接一个最大池化层，该最大池化层再与一个随机失活层连接。

4.根据权利要求3所述的基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，改进的卷积神经网络的训练方式如下：

2)对每层卷积层输出使用dropout；

5.根据权利要求4所述的基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，采用dropout的VGG11网络结构计算公式如下：

r_j ^(l)～Bernoulli(p)

y^(l)＝r^(l)*y^(l)

z_i ^(l+1)＝w_i ^(l+1)y^l+b_i ^(l+1)

y_i ^(l+1)＝f(z_i ^(l+1))

其中，z_i ^(l+1)是改进后的卷积神经网络中某层的输出，y_i ^(l+1)是改进后的卷积神经网络的最终输出，y^(l)是经过dropout操作后的某层神经元输出值，Bernoulli函数是为了随机生成一个0或者1的向量r_j ^(l)，y^(l)是改进后的卷积神经网络的第l层输出，y^l为经过dropout处理后的第l层输出，w_i ^(l+1)为改进后的卷积神经网络的l+1层的权重，b_i ^(l+1)为改进后的卷积神经网络的l+1层的偏置，p为神经元的激活概率。

6.根据权利要求5所述的基于深度可分离卷积的人脸活体识别模型压缩和移植方法，其特征在于，BN层批量归一化如下：

考虑一个大小为m的向量B＝{x₁...，x_i，x_m}，x_i为向量中的元素，以及两个待学习的参数γ和β，用来保持模型的表达能力，则经过BN层后的输出y_i＝BN_γ,β(x_i)