CN108985236B

CN108985236B - 一种基于深度化可分离卷积模型的人脸识别方法

Info

Publication number: CN108985236B
Application number: CN201810805062.8A
Authority: CN
Inventors: 杨通; 彭若波; 杜曦
Original assignee: Nanjing Kiwi Network Technology Co ltd
Current assignee: Nanjing Kiwi Network Technology Co ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2021-08-17
Anticipated expiration: 2038-07-20
Also published as: CN108985236A

Abstract

本发明涉及一种基于深度化可分离卷积模型的人脸识别方法，包括以下步骤：第一步、读取人脸图像样本数据集；第二步、建立深度化可分离卷积模型，所述深度化可分离卷积模型在相邻的两个卷积模块之间级联了多个残差瓶颈模块；第三步、利用梯度下降算法更新深度化可分离卷积模型参数；第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别。本发明可以在保证人脸识别准确率的基础上提高识别速度，实验表明，本发明可以在保证识别准确率在高于99%的前提下，使得其在ARMv8移动终端上的识别速度达到了小于300ms从而可以会使移动端设备拥有准确且快速的人脸识别功能。

Description

一种基于深度化可分离卷积模型的人脸识别方法

技术领域

本发明涉及一种基于深度化可分离卷积模型的人脸识别方法，属于人脸识别技术领域。

背景技术

近年来，人脸识别在日常生活中的需求已越来越大。一些领域例如人脸门禁、人脸考勤、人脸购票、人脸追凶都有着很大的发展空间，这些领域对于人脸识别的速度和准确性都有着很高的要求。基于深度学习的卷积神经网络是人脸识别技术的基石，该网络通过梯度下降反馈来不断来减小模型输出值与真实值的差从而逼近真实结果。

目前人脸识别技术主要着重于追求准确度上的提升，然而要想让人脸识别技术在生活中的运用更加普遍化，更加用户友好，识别的速度也是该技术不可或缺的一部分。现有的深度神经卷积网络模型例比如ResNet-50，其预测准确度虽已达到97％以上，但是该模型离投入到实际产品中使用仍有着很大提升空间。一些改进后的网络模型例如Facenet等，其计算精确性通过利用残差单元使其模型的准确性得到了提升，但其仍面临着占用内存过大、计算速度过低等问题。

发明内容

本发明要解决技术问题是：提供一种可以在保证识别准确率的基础上提高识别速度、减小资源占用的人脸识别方法。

为了解决上述技术问题，本发明提出的技术方案是：一种基于深度化可分离卷积模型的人脸识别方法，包括以下步骤：

第一步、读取人脸图像样本数据集，每幅人脸图像为3通道，其高度为112个像素，宽度为112个像素；

第二步、建立深度化可分离卷积模型，所述深度化可分离卷积模型在两个卷积模块之间级联了多个残差瓶颈模块，如下表所示：

表中，第一列为各模块的输入图像大小，第二列为模块名称，第三列为通道数，第四列为该模块的重复次数，第四列为步幅间距，卷积核采用3*3；

第三步、利用梯度下降算法更新深度化可分离卷积模型参数

1)通过所述深度化可分离卷积模型将所述样本数据集的人脸图像映射成512维特征向量；

2)计算损失函数，所述损失函数由Softmax函数和ArcFace函数加权构成，其中，Softmax函数的表达式如下：

式中，x表示样本经深度化可分离卷积模型映射而成的特征向量，N表示所述样本数据集的大小，i取值1～N，y_i表示样本x_i对应的标签；W向量表示待优化参数，包括

和W_j，

表示样本x_i在其标签y_i处的权重，W_j表示输出节点j处的权重；b向量包括

和b_j，

表示样本x_i在其标签y_i处的偏差，b_j表示输出节点j处的偏差；

ArcFace函数的表达式如下：

式中，

为样本x_i与其对应标签y_i的权重

的夹角，θ_j为样本x_i与输出节点j处的权重W_j的夹角；m、s为预设参数，0.2≤m≤2，50≤s≤100；

最终的损失函数为：

L_total＝L_softmax+L_arcface；

3)计算损失函数的梯度下降距离

其中μ是预设的学习率；

4)确定损失函数的梯度下降距离是否小于预设阈值ε，如果是则执行第四步，否则更新W向量后再执行步骤1)，更新W向量的表达式如下：

第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别。

本发明的思想得益于2018年由Mark Sandler，Andrew Howard，Menglong Zhu，Andrey Zhmoginov，Liang-Chieh Chen发表的论文《MobileNetV2:Inverted Residualsand Linear Bottlenecks》(以下为叙述方便，简称为“引用论文”)。本发明在引用论文的基础上，对模型结构、损失函数等都做了优化，不仅保证了人脸识别的准确率，而且提升了人脸识别的速度。

本发明中的深度化可分离卷积(Depthwise Separable Convolution)网络模型可参考引用论文。其中深度化卷积是指在网络模型中相邻的两个卷积模块中，用尽可能多的卷积核连接输入通道，当卷积数量达到一定程度时，每一个通道都有一个自己的卷积核，这样就相当于每一个通道都被赋予了不同的权重。而以人脸作为输入层数据的图像一般不同位置像素点所携带的人脸数据信息是不一样的(靠近图片中央的位置会携带较多的人脸信息，靠近图片边角的位置则携带较少的人脸信息)，所以这种给每个通道赋予不用卷积核的网络相当于给每个通道赋予了不同权重，因而将更加适用于以人脸作为输入层的图像。

本发明的改进之处在于对两个卷积模块之间级联了若干残差瓶颈模块。这是因为申请人发现现在普遍用到的卷积神经网络里都会用到ReLU模块或是PReLU模块(可参见引用论文)，这些非线性函数总是会造成原始数据的丢失，而残差瓶颈模块的目的正是为了减少原始数据的丢失，其原理是通过增加卷积模块与卷积模块之间的连接层数来增加输入图像层与输出域之间的维度差，从而减少了ReLU或是PReLU造成的信息丢失。

本发明通过简化网络层次，优化网络结构，在保证识别准确率在高于99％的前提下，使得其在ARMv8移动终端上的识别速度达到了小于300ms，超出目前的主流解决方案。该结果将会使移动端设备拥有准确且快速的人脸识别功能。

现有技术中，在大多数可用的卷积神经网络模型中，Softmax损失函数被用作训练深层模型的监督信号。本发明对于损失函数的选择方面，在保留Softmax函数的基础之上，还增加了ArcFace损失函数，Softmax函数主要解决类间距离(不同人之间鉴别能力)的优化，而ArcFace函数的采用可以扩大每个分类面之间的间距，从而使得靠近边界的数据在分类过程中准确率更高，这样就在保证人脸识别准确性的基础上，大幅提高了人脸识别速度。

为了进一步提高识别准确率和识别的速度，本发明还对训练数据进行了优化，具体如下：对人脸数据集中已有的人脸数据样本通过FaceNet方法进行映射，得到在X维特征空间的一系列特征向量集合Λ＝{λ₁,λ₂,λ₃,···}，其中每一组特征向量λ_i均为X维，我们通过比较两组特征向量的夹角来判断其相似性。假设Λ中的两组X维特征向量分别为λ_i＝{v_i1,v_i2,...,v_ix}，λ_j＝{v_j1,v_j2,...,v_jx}，则其夹角

在计算特征向量的两两夹角之前，预先设定某一角度的余弦阈值为0.6～0.9。当两组特征向量的夹角θ的余弦值小于预设阈值时，则两组特征向量对应的人脸数据样本具有相似性，并对具有相似性的人脸数据样本进行去重处理。

具体实施方式

实施例

本实施例的基于深度化可分离卷积模型的人脸识别方法，包括以下步骤：

现有的海量数据库，例如VGGFace2，其中的部分数据存在极高的相似性，并且有一些非人脸的污染数据存在其中。因此对数据库中的数据进行合并和清理是非常必要的一步，具体方法为：

对人脸数据集中已有的人脸数据样本通过FaceNet方法进行映射，得到在X维特征空间的一系列特征向量集合Λ＝{λ₁,λ₂,λ₃,···}，其中每一组特征向量λ_i均为X维，我们通过比较两组特征向量的夹角来判断其相似性。假设Λ中的两组X维特征向量分别为λ_i＝{v_i1,v_i2,...,v_ix}，λ_j＝{v_j1,v_j2,...,v_jx}，则其夹角

本实施例中X取512，即将人脸数据样本通过FaceNet方法进行映射为512维特征向量来判断其相似性。这样不仅保留了数据的多样性，而且提高了模型的训练速度。

第二步、建立深度化可分离卷积模型，所述深度化可分离卷积模型在相邻的两个卷积模块之间级联了多个残差瓶颈模块，如下表所示：

表中，第一列为各模块的输入图像大小，第二列为模块名称，第三列为通道数，第四列为该模块的重复次数，第四列为步幅间距，卷积核采用3*3。

本实施例在两个卷积模块之间加入了一些残差瓶颈模块(bottleneck)，从而得到本发明的深度化可分离卷积模型以及模型中各模块的连接方式。为了简化说明，该表中的PReLU函数层和批量归一化BN层以及下采样单元层，均已略去，可参考引用论文。

训练时我们把长度为112像素，宽度为112像素，3通道的图像作为输入，经过本模型进行训练，输出128维的特征向量，从而完成从输入图像到输出特征值的映射。

第三步、利用梯度下降算法更新深度化可分离卷积模型参数

和W_j，

和b_j，

表示样本x_i在其标签y_i处的偏差，b_j表示输出节点j处的偏差。

本实施例中Softmax函数、W向量、b向量、输出节点j均与2016年由Yandong Wen,Kaipeng Zhang,Zhifeng Li和Yu Qiao发表的论文《A Discriminative Feature LearningApproach for Deep Face Recognition》中相同，其表达式、计算方法与该论文中的Softmax函数均一致。

ArcFace函数的表达式如下：

式中，

为样本x_i与其对应标签y_i的权重

最终的损失函数为：

L_total＝L_softmax+L_arcface；

3)计算损失函数的梯度下降距离

其中μ是预设的学习率，可根据经验获得，本实施例中μ取0.1；

4)确定损失函数的梯度下降距离是否小于预设阈值，其中预设阈值ε通常可取0.01，可根据经验调整；如果梯度下降距离是否小于预设阈值则执行第四步，否则更新W向量后再执行步骤1)，更新W向量的表达式如下：

第四步、通过更新参数后的深度化可分离卷积模型进行人脸识别，即通过更新后的深度化可分离卷积模型输出人脸特征值，计算不同人脸图像特征值的相似度进行人脸识别，具体识别方法可参考引用论文。

本发明不局限于上述实施例所述的具体技术方案，除上述实施例外，本发明还可以有其他实施方式。对于本领域的技术人员来说，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等形成的技术方案，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度化可分离卷积模型的人脸识别方法，包括以下步骤：

输入图像大小模块名称通道数重复次数步幅间距 112*112*3 Conv3*3 64 1 2 56*56*64 Depthwise conv3*3 64 1 1 56*56*64 bottleneck 64 5 2 28*28*64 bottleneck 128 1 2 14*14*128 bottleneck 128 6 1 14*14*128 bottleneck 128 1 2 7*7*128 bottleneck 128 2 1 7*7*128 Conv1*1 512 1 1 7*7*512 linear GDConv7*7 512 1 1 1*1*512 linear conv1*1 128 1 1

第三步、利用梯度下降算法更新深度化可分离卷积模型参数