CN106599883A

CN106599883A - 一种基于cnn的多层次图像语义的人脸识别方法

Info

Publication number: CN106599883A
Application number: CN201710134068.2A
Authority: CN
Inventors: 王华锋; 田贵成; 刘万泉; 潘海侠; 蔡叶荷
Original assignee: 王华锋
Current assignee: Ruishi netcloud (Hangzhou) Technology Co.,Ltd.
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2017-04-26
Anticipated expiration: 2037-03-08
Also published as: CN106599883B

Abstract

本发明提供了一种基于CNN的多层次图像语义的人脸识别方法，该方法在VGGNet基础上做了进一步优化，提出了一种新的网络结构，对多层特征进行跨层拼接，使得最终提取的图像特征具有多层次图像语义。同时在卷积神经网络的训练中，加入提取到的传统特征作为附加特征，使得CNN特征信息更加完备。然后通过对浅层卷积层进行结构优化，减少冗余计算，使得模型的计算量大幅度减少。最后使用改进的矩阵分解算法对卷积层进行加速，可以在1秒的时间内对网络进行加速，在加速比达到4倍的情况下不降低模型准确率。本发明实现的人脸比对算法具有高准确率高实时性的特点，与现有算法对比，具有更高的准确率，同时计算效率也更高。

Description

一种基于CNN的多层次图像语义的人脸识别方法

技术领域

本发明提供了一种基于CNN的多层次图像语义的人脸识别方法，涉及深度学习、计算机视觉技术领域。

背景技术

基于生物特征的身份识别技术已经被广泛应用到诸如门禁、视频安防监控、人机交互等场景中。我国生物识别技术市场规模增长迅速，预计将在2020年达到300亿左右的市场规模。常用的生物识别技术主要有：人脸、视网膜、指纹、步态等方式。在众多生物识别技术中，人脸识别技术具有非侵犯性，非接触式，易操作性等优势。而且，人脸图像数据的采集也相对容易，采集交互方式更友好，可直接采用摄像头进行捕获，这使得人脸识别应用场景更加广泛。但同时人脸识别又是一个复杂和困难的技术，其原因主要有：人脸具有多样的变化性，人的脸上分布着五十多块面部肌肉，这些肌肉的运动导致不同面部表情的出现，会造成人脸特征的显著改变；随着年龄的增长，皱纹的出现和面部肌肉的松弛使得人脸的结构和纹理都将发生改变；由于光照、视角、摄取角度不同，可能会造成图像的灰度畸变、角度旋转等，降低了图像质量，增大了识别难度。因此需要一种快速、简洁、高效的人脸识别算法。

常见的人脸识别方法主要有：基于几何特征的人脸识别方法、基于模板匹配的人脸识别方法、基于模型的人脸识别方法、基于深度学习的人脸识别方法。

基于几何特征的方法：这是人脸识别技术发展中，应用最早的方法。该方法通过提取人脸的几何特征，包括人脸部件的归一化的点间距离、比率以及人脸的一些特征点，如眼角、嘴角、鼻尖等部位所构成的二维拓扑结构进行识别的方法。所构造的几何特征既要清晰区分不同对象人脸的差异，又要对光照背景条件不敏感，常规的几何特征量很难满足这些要求。因此该方法识别效果不理想。

基于模板匹配的人脸识别方法：该方法主要是利用计算模板和图像灰度的自相关性来实现识别功能。模板匹配的关键点在于得到标准的人脸模板，所以模板的标准性以及图片中的有效干扰都会对检测结果造成不可忽略的影响，模板匹配的计算结果以及阈值选取的影响问题，也会使人脸识别效果大幅下降。

基于模型的人脸识别方法：该方法通过统计分析和匹配学习找出人脸和非人脸，以及不同人脸之间的联系。和模板匹配的方法相比，基于模型方法的模板是通过样本学习获得，而非人为设定。但是这种方法提取的特征大多是图像的局部低级特征，没有考虑图像的全局信息及高级语义，因此泛化能力比较差。

基于深度学习的人脸识别方法：该类方法使用大量的训练样本进行人脸特征的自动学习，能够提取到优秀的具有区分度的人脸特征。但是，也同样存在一些不足，例如：卷积神经网络能够提取到高层次的图像语义，但是往往也会忽略到一些局部的面部关键特征；由于网络模型复杂，计算量巨大，通常无法满足实时性的要求。

为了解决上述问题，本发明提供了一种基于CNN的多层次图像语义的人脸识别方法，该方法能够提取高层次的图像语义，准确高效快速的实现人脸识别任务。

发明内容

本发明要解决的技术问题是：克服了现有人脸识别方法中特征提取不充分、语义不丰富、鲁棒性不足、实时性差等问题。提供了一种基于CNN的多层次图像语义的人脸识别方法。

本发明采用的技术方案为：一种基于CNN的多层次图像语义的人脸识别方法，包括以下四个步骤：

步骤(1)、首先采用自适应中值滤波算法对输入图像进行去噪处理，然后截取检测到的人脸区域图像，再使用双线性插值算法对人脸图像进行归一化处理，提高人脸识别准确率，归一化后的图像尺寸为256*224。

步骤(2)、然后将步骤(1)归一化后的图像的每个通道都进行直方图均衡化操作，再把均衡化后的人脸图像切分成若干个区域，把每个区域对应的直方图向量拼接成一个大向量，与八采样点的LBP算子进行计算，得到图像的高维LBP特征。

步骤(3)、把提取到的LBP特征作为图像的附加特征，加入到卷积神经网络的训练中。设计网络结构时，保持conv4_3层的特征图尺寸，并将conv4_3与conv5_3层的特征图尺寸统一到与conv4_3相同的尺寸。在conv3_3层特征图中使用平均池化采样，对conv5_3层特征图中使用反卷积操作对特征图进行上采样。然后将conv3_3，conv4_3，conv5_3三层计算得到的特征进行拼接，再经过一层全连接层，将全连接层的输出作为最终的图像特征。

步骤(4)、两张人脸图像均经过步骤(3)后，得到两个1024维的特征向量，需要通过特征相似度计算去评判两张人脸的相似程度。利用自适应距离计算方法来计算两组特征的欧氏距离相似度。最后与先验的阈值进行比对，若结果高于阈值则判定为同一个人，否则不属于同一个人。

进一步地，步骤(1)中所述的自适应中值滤波器的好处在于，当图像中某个区域内噪声干扰程度很高的时候，使用较大的滤波窗口进行去噪，能够更加有效地消除噪声；当区域内噪声干扰小的时候，使用窗口小的滤波窗口进行去噪，能够保留更好的图像细节。

进一步地，步骤(2)中所述的LBP特征在计算时采用八采样点的LBP算子进行计算，那么LBP特征值的取值范围为0～255，对切分后每个区域的的每个特征值进行统计，可以得到一个包含256个二进制数的直方图，最后拼接每一个区域的直方图向量。

进一步地，步骤(3)中所述的跨层拼接是在VGGNet网络的基础上做的优化，在Conv5_3之前保持VGGNet原始结构，把conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让特征能够包含多层语义信息，使得特征的信息完备性更强。最后在两个全连接层之后接一个Softmax作为分类器，对图像进行分类。

进一步地，步骤(4)中所述的自适应特征相似度是在欧式距离的基础上做出的改进，在计算时加入特征每个维度的重要性权重w，采用梯度下降法来计算欧式距离的特征权重w。

本发明的原理在于：

本发明提供了一种基于CNN的多层次图像语义的人脸识别方法，克服了现有人脸识别方法中特征提取不充分、语义不丰富、鲁棒性不足、实时性差等问题。本方法适用于多种场景下的人脸识别任务，具有准确率高，泛化能力强，实时性好的特点。本方法包含四个步骤：首先采用自适应中值滤波算法对输入图像进行去噪处理，然后截取检测到的人脸区域图像进行归一化处理，提高人脸识别准确率，归一化后的图像尺寸为256*224。最后将图像的每个通道都进行直方图均衡化操作。再把均衡化后的人脸图像切分成若干个区域，把每个区域对应的直方图向量拼接成一个大向量，与八采样点的LBP算子进行计算，得到图像的高维LBP特征。然后把提取到的LBP特征作为图像的附加特征，加入到卷积神经网络的训练中。将conv3_3，conv4_3，conv5_3三层计算得到的特征进行拼接，再经过一层全连接层，将全连接层的输出作为最终的图像特征向量。最后利用自适应距离计算方法来计算两组特征的欧氏距离相似度。与先验的阈值进行比对，若结果高于阈值则判定为同一个人，否则不属于同一个人。

本发明的内容主要包括以下四个方面：

人脸图像的预处理。实际应用中，由于检测对象存在运动情况、光照条件不稳定等因素，导致输入的人脸图像质量较差，给识别任务带来极大困难。因此，需要一种有效的方法来对图像进行预处理以提高算法预测的准确率。本方法在检测前首先通过自适应中值滤波器算法对输入图像进行去噪处理，更加有效地消除图像噪声同时保留原始人脸的图像细节。接着截取检测到的人脸区域图像进行归一化处理，调整到统一尺寸。再使用直方图均衡化来增加图像的局部对比度。

多层特征跨层拼接。目前常用的卷积神经网络通常都是采用卷积-下采样-卷积这样递进式的网络结构，随着网络层次的增加，提取到的特征所表示的图像语义会越来越复杂，然而也会使得一些在低层次网络结构中提取到的局部信息随着网络层次的增加而消失。为了避免这样的情况发生，以及保留更多层次语义的信息，本发明在设计网络结构时保留VGGNet Conv5_3层之前的原始结构，把conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让特征能够包含多层语义信息，使得特征的信息完备性更强。最后在两个全连接层之后接一个Softmax作为分类器，对图像进行分类。。

融合传统特征与CNN特征。不同类别的特征之间可能存在信息冗余或者信息互斥，使得最终的融合特征优势不明显；而且不同类别的特征，特征值的值域范围差距很大，卷积神经网络的特征值往往在-1～1之间，而传统特征的值域可能在几百甚至几千，特征值差异过大也会造成特征相似度计算时候的困难。为了解决上述的问题，本发明首先对不同类别的特征值进行归一化操作，使其尽可能一致。所使用的方式是离差标准化，即对数据进行线性变换，使其值域能够映射到[-1,1]之间。然后在卷积神经网络的训练中，加入传统特征作为附加特征，再经过一层全连接层，将全连接的输出作为最终的融合特征。这样得到的特征能够充分利用局部信息与全局信息的优势，同时能够避免一些信息冗余以及互斥的情况。

基于矩阵分解的卷积层加速算法。卷积神经网络能够提取得到非常丰富、高层语义的图像特征，但是其训练却非常耗时，一个卷积神经网络有千万数量级的参数需要训练，大量的待训练的参数必然导致较长的训练时间；而且卷积神经网络通常拥有几十层的网络结构，在反向传播的过程中，梯度会随着网络层数的增加而递减(梯度弥散问题)，这使得越深的网络模型，收敛速度越慢。卷积神经网络中卷积层通常有几百个卷积核，这就可能导致跨通道之间存在信息冗余，信息的冗余往往意味着利用的矩阵的秩会比较低。因此可以利用低秩滤波器对卷积层进行加速，本发明在Jaderberg方法的基础上进行改进，不仅大大提升网络结构加速的效率，可以在1秒的时间内对网络进行加速，并且不依赖于数据集。而且对于层数深的网络结构同样表现很好。

本发明与现有技术相比的优点在于：

1、本发明提出的多层特征跨层拼接方法，对不同卷积层采用不同的采样策略，首先保持conv4_3层的特征图尺寸，并将conv4_3与conv5_3层的特征图尺寸统一到与conv4_3相同的尺寸。在conv3_3层特征图中使用平均池化采样，对conv5_3层特征图中使用反卷积操作对特征图进行上采样。最后把conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让特征能够包含多层语义信息，使得特征的信息完备性更强。同时使用一个分辨率的输入，即可得到多种分辨率的特征，大大减少计算量。

2、本发明提出的融合传统特征与CNN特征的训练方法，首先对不同类别的特征值进行归一化操作，使其尽可能一致。所使用的方式是离差标准化，即对数据进行线性变换，使其值域能够映射到[-1,1]之间。然后在卷积神经网络的训练中，就加入传统特征作为附加特征，再经过一层全连接层，将全连接的输出作为最终的融合特征。这样得到的特征能够充分利用局部信息与全局信息的优势，同时能够避免一些信息冗余以及互斥的情况。

3、本发明提出的基于矩阵分解的卷积层加速算法，利用了多个卷积核在空间维度以及跨通道之间存在的冗余信息。通过剔除这些信息冗余来减少计算操作，把卷积核近似为两个低秩的卷积核，即水平卷积核与垂直卷积核的叠加，以此来减少矩阵的计算量。

附图说明

图1为本发明的基于CNN的多层次图像语义的人脸识别方法流程图。

图2为图像归一化示意图。

图3为多层次特征跨层拼接示意图。

图4为减少层内冗余卷积滤波器示意图。

图5为融合传统特征与CNN特征示意图。

图6为基于矩阵分解的卷积层加速示意图。

具体实施方式

图1给出了本发明的总体处理流程，下面结合其他附图及具体实施方式进一步说明本发明。

本发明提供一种基于CNN的多层次图像语义的人脸识别方法，主要步骤介绍如下：

1、人脸图像预处理模块

实际应用中，由于检测对象存在运动情况、光照条件不稳定等因素，导致输入的人脸图像质量较差，给识别任务带来极大困难。因此人脸图像的预处理是非常重要的一个环节，关系着最终人脸识别算法的准确度，因而需要一种行之有效的方法对图像进行预处理。

1)、本方法首先通过自适应中值滤波算法对图像进行去噪，当图像中某个区域内噪声干扰程度很高的时候，使用较大的滤波窗口进行去噪，能够更加有效地消除噪声；当区域内噪声干扰小的时候，使用窗口小的滤波窗口进行去噪，能够保留更好的图像细节。

2)、如图2所示，使用人脸检测算法从输入图像中截取出人脸区域，经过人脸检测截取之后的图像，尺寸大小不一，而卷积神经网络的输入需要统一的图像尺寸，有必要将所有图像尺寸调整到统一的尺寸。因此，会涉及到图像的放大、缩小操作，本发明使用双线性插值算法进行图像尺寸的调整，经过图像归一化之后，不仅可以保留原始人脸图像的特征，同时使其结构和大小能够更加适合人脸识别的要求，能够有效提高人脸识别准确率。归一化后的人脸尺寸为256*224。

3)、得到归一化操作的人脸图像之后，再使用直方图均衡化操作，以此来增强图像的局部对比度，使图像对比度更加清晰。

2、多层特征跨层拼接的新的卷积神经网络结构

目前常用的卷积神经网络通常都是采用卷积-下采样-卷积这样递进式的网络结构，随着网络层次的增加，提取到的特征所表示的图像语义会越来越复杂，然而也会使得一些在低层次网络结构中提取到的局部信息随着网络层次的增加而消失。为了避免这样的情况发生，以及保留更多层次语义的信息，本发明提出了一种新的网络结构，对多层特征进行跨层拼接，使得最终提取的特征信息更加丰富。

1)、多层特征跨层拼接

本发明在VGGNet的基础上做了进一步的优化，Conv5_3之前保持VGGNet原始结构，把conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让特征能够包含多层语义信息，使得特征的信息完备性更强。最后在两个全连接层之后接一个Softmax作为分类器，对图像进行分类。如图3所示，该网络使用的图像输入尺寸为224*224，将全图通过正常卷积层生成特征图，将conv3_3，conv4_3，conv5_3三层计算得到的特征图转换到统一尺度进行拼接。各个特征图的尺度不一致，越往后特征图的尺寸越小，因此需要对不同层采用不同的采样策略，保持conv4_3层的特征图尺寸，并将conv4_3与conv5_3层的特征图尺寸统一到与conv4_3相同的尺寸。在conv3_3层特征图中使用平均池化采样，对conv5_3层特征图中使用反卷积操作对特征图进行上采样。

2)、减少卷积层内冗余参数

如图4所示，原始卷积层有96个卷积核，卷积操作计算完成之后，会进行特征的归一化，然后再使用ReLU激活函数，作为下一个卷积层的输入。由于浅层的卷积层多通道之间存在冗余，卷积滤波器都是成对出现，因此可以只计算48个卷积核，并且直接将这48个卷积核的结果直接乘-1来进行取反操作，然后将这2个48个卷积结果进行拼接，得到与原始的96个卷积核计算得到尺寸相同的特征图，后续操作不变。通过对浅层卷积层进行结构优化，减少了冗余计算，使得网络模型的计算量大幅减少，实验表明，浅层的卷积层操作速度能够提升2倍。

3、融合传统特征与CNN特征

传统的特征融合方式，是在传统特征与卷积神经网络分别独立提取完之后，使用特征选择与特征变换方法进行融合。从效果上看，略有提升，但是提升得很少。主要是因为：

●不同类别的特征之间可能存在信息冗余或者信息互斥，使得最终的融合特征优势不明显；

●不同类别的特征，特征值的值域范围差距很大，卷积神经网络的特征值往往在-1～1之间，而传统特征的值域可能在几百甚至几千，特征值差异过大也会造成特征相似度计算时候的困难；

为了解决上述的问题，本文首先对不同类别的特征值进行归一化操作，使其尽可能一致。所使用的方式是离差标准化，即对数据进行线性变换，使其值域能够映射到[-1,1]之间，映射函数如下：

其中，x代表原始数据，x*是处理后的数据，min代表数据集中的最小值，max代表数据集中的最大值。

为了解决特征存在信息冗余以及信息互斥的问题，本文又提出了一种新的特征融合方式，如图5所示，在卷积神经网络的训练中，就加入传统特征作为附加特征，再经过一层全连接层，将全连接的输出作为最终的融合特征。这样得到的特征能够充分利用局部信息与全局信息的优势，同时能够避免一些信息冗余以及互斥的情况。

4、基于矩阵分解的卷积层加速算法

卷积神经网络中卷积层通常有几百个卷积核，这就可能导致跨通道之间存在信息冗余，信息的冗余往往意味着利用的矩阵的秩会比较低。因此可以利用低秩滤波器对卷积层进行加速，经典的方法是Jaderberg针对卷积神经网络的加速做的相应研究，它将卷积层的大矩阵拆分成两个小矩阵相乘，以此来减少矩阵的计算量。

在CNN中，卷积核是一个4维的张量W∈R^N×d×d×C，其中C是特征图的输入通道数，N是相应的输出通道数，d是卷积核的大小,同样可以用一个3维的向量W_i∈R^d×d×C来表示第i个卷积核。令(x,y)为特征图中的坐标，Z∈R^N×d×d×C为输入特征图，那么，输出的特征图F＝(F₁，...，F_N)就可以定义如下了：

其中x′,y′是求和中的循环变量。现在要优化的目标就是找到最近似W的W′，同时需要保证高效率以及不牺牲太多的精度。本文提出下面的机制来进行W的近似，主要是利用了在空间维度以及跨通道之间存在的冗余信息。通过剔除这些信息冗余来减少计算操作，把卷积核近似为两个低秩的卷积核，即水平卷积核与垂直卷积核的叠加，如图6所示。

使用两个低秩的卷积核(水平、垂直卷积核)进行近似之后，W可以表示为W′，即：

其中，K是用来控制秩的参数，H∈R^N×1×d×K是水平卷积核，V∈R^K×1×d×C是垂直卷积核，T代表矩阵的转置。这两个卷积核都是可以通过训练进行学习得到的参数。将上式代入得到：

原始的卷积操作计算复杂度为O(d²NCXY)，经过上述优化之后，复杂度得到降低，其中水平卷积核计算复杂度为：O(dKCXY)，垂直卷积核计算复杂度为：O(dNKXY)，总计算复杂度为：O(dK(N+C)XY)。可以通过K的大小调整加速比α：

本发明提出了两步优化策略进行水平卷积核H和垂直卷积核V参数的学习，从而得到近似于W的W′：

1)通过优化目标函数||W′-W||来学习原始卷积核W的近似卷积核W′；

2)通过对整个CNN网络的微调进一步减少精度的损失；

本发明提出的基于矩阵分解的卷积层加速算法，可以在1秒的时间内对网络进行加速，并且不依赖于数据集。同时，对于层数较深的网络结构同样表现很好。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于CNN的多层次图像语义的人脸识别方法，其特征在于包括以下四个步骤：

步骤(1)、首先采用自适应中值滤波算法对输入图像进行去噪处理，然后截取检测到的人脸区域图像，再使用双线性插值算法对人脸图像进行归一化处理，提高人脸识别准确率，归一化后的图像尺寸为256*224；

步骤(2)、然后将步骤(1)归一化后的图像的每个通道都进行直方图均衡化操作，再把均衡化后的人脸图像切分成若干个区域，把每个区域对应的直方图向量拼接成一个大向量，与八采样点的LBP算子进行计算，得到图像的高维LBP特征；

步骤(3)、把提取到的LBP特征作为图像的附加特征，加入到卷积神经网络的训练中；设计网络结构时，保持conv4_3层的特征图尺寸，并将conv4_3与conv5_3层的特征图尺寸统一到与conv4_3相同的尺寸，在conv3_3层特征图中使用平均池化采样，对conv5_3层特征图中使用反卷积操作对特征图进行上采样，然后将conv3_3，conv4_3，conv5_3三层计算得到的特征进行拼接，再经过一层全连接层，将全连接层的输出作为最终的图像特征；

步骤(4)、两张人脸图像均经过步骤(3)后，得到两个1024维的特征向量，需要通过特征相似度计算去评判两张人脸的相似程度，利用自适应距离计算方法来计算两组特征的欧氏距离相似度，最后与先验的阈值进行比对，若结果高于阈值则判定为同一个人，否则不属于同一个人。

2.根据权利要求1所述的基于CNN的多层次图像语义的人脸识别方法，其特征在于：步骤(1)中所述的自适应中值滤波器的好处在于，当图像中某个区域内噪声干扰程度很高的时候，使用较大的滤波窗口进行去噪，能够更加有效地消除噪声；当区域内噪声干扰小的时候，使用窗口小的滤波窗口进行去噪，能够保留更好的图像细节。

3.根据权利要求1所述的基于CNN的多层次图像语义的人脸识别方法，其特征在于：步骤(2)中所述的LBP特征在计算时采用八采样点的LBP算子进行计算，那么LBP特征值的取值范围为0～255，对切分后每个区域的的每个特征值进行统计，可以得到一个包含256个二进制数的直方图，最后拼接每一个区域的直方图向量。

4.根据权利要求1所述的基于CNN的多层次图像语义的人脸识别方法，其特征在于：步骤(3)中所述的跨层拼接是在VGGNet网络的基础上做的优化，在Conv5_3之前保持VGGNet原始结构，把conv3_3、conv4_3、conv5_3这三个卷积层拼接成一个新的卷积层，让特征能够包含多层语义信息，使得特征的信息完备性更强，最后在两个全连接层之后接一个Softmax作为分类器，对图像进行分类。

5.根据权利要求1所述的基于CNN的多层次图像语义的人脸识别方法，其特征在于：步骤(4)中所述的自适应特征相似度是在欧式距离的基础上做出的改进，在计算时加入特征每个维度的重要性权重w，采用梯度下降法来计算欧式距离的特征权重w。