CN108509920B

CN108509920B - 基于CNN的多patch多通道联合特征选择学习的人脸识别方法

Info

Publication number: CN108509920B
Application number: CN201810293102.5A
Authority: CN
Inventors: 田青; 张文强; 毛军翔; 沈传奇
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2022-04-26
Anticipated expiration: 2038-04-04
Also published as: CN108509920A

Abstract

本发明公开了一种基于CNN的多patch多通道联合特征选择学习的人脸识别方法，属于人脸识别技术领域。该方法首先将原始人脸图像分割成多张子图像，每张子图像再分离成多张通道图像；然后为每张通道图像构建一个CNN网络模型，输入通道图像进行识别；接下来首先将同一子图像的多个通道神经网络进行连接，得到对应多张子图像的多个子图像神经网络，然后将多个子图像神经网络进行连接，作为最终的模型识别结果。本发明通过对现有卷积神经网络模型进行改进以及创新，从而达到优化和提升模型的效果，使得卷积神经网络模型的人脸识别能力更加精准，为其在日常生活、工业发展、科学研究等领域的广泛应用提供更有力的技术保障。

Description

基于CNN的多patch多通道联合特征选择学习的人脸识别方法

技术领域

本发明属于人脸识别技术领域，具体涉及一种基于卷积神经网络的人脸识别方法。

背景技术

近年来，基于生物特征的身份识别技术在日常生活的诸多场景之中已经得到了广泛的应用。在众多生物识别技术中，人脸识别技术具有非侵犯性、非接触性、易操作性等优势，而且人脸图像数据的采集也更加容易。这样也就使得人脸识别技术在信息安全、身份验证、场所监控、人机交互等领域的应用场景变得更加广泛。因此，深入研究人脸识别对于考勤、安全、娱乐等方面具有重要的理论和实际意义。

目前，常见的人脸识别方法主要有：基于几何特征的人脸识别方法、基于模板匹配的人脸识别方法、基于模型的人脸识别方法以及基于深度学习的人脸识别方法。其中，基于几何特征的人脸识别方法是人脸识别技术发展中应用最早的方法。但是这种方法需要通过提取人脸的几何特征，并且要求这些特征既要清晰地区分不同对象人脸的差异，还要对光照背景条件不敏感，而常规的几何特征向量不能很好地满足这些需求，因此该方法识别效果并不理想。基于模板匹配的人脸识别方法主要是利用计算模板和图像灰度的自相关性来实现识别功能。但在这过程中，模板的标准性以及图像中的一些干扰都会对检测的结果造成很大的影响，这样就大大降低了人脸识别的效果。基于模型的人脸识别方法通过统计分析和匹配学习找出人脸以及不同人脸之间的联系。但是这种方法提取的大多是图像的低级局部特征，所以导致人脸识别的泛化能力比较差。

随着深度学习相关理论的完善，基于深度学习的图像识别方法也迅速发展，其中，基于卷积神经网络(Convolutional Neural Network，CNN)的图像识别技术已经得到广泛应用。卷积神经网络是一种前馈神经网络，本质上实现了一种输入到输出的映射关系，不需要任何输入和输出之间的精确数学表达式，只要用已知的模式对卷积神经网络加以训练，就可以使网络具有输入输出之间的映射关系。卷积神经网络的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有着很出色的表现。网络整体由一个或多个卷积层和顶端的全连接层组成，同时也包括权重向量和池化层(Pooling Layer)，这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。

基于卷积神经网络的人脸识别技术凭借其优秀的人脸识别正确率成为了人脸识别的首选方案。基于卷积神经网络的人脸识别方法主要流程为：收集人脸数据集并对其进行预处理，将处理好的数据集输入卷积神经网络的输入层中，然后神经网络通过不断的迭代训练调整神经网络层的向量权重使神经网络的损失函数达到收敛。以上步骤结束后即完成了对卷积神经网络的训练过程，随后只要将需要检测的人脸图像输入到已经训练好的卷积神经网络输入层当中，模型即可输出其对应的人脸身份预测结果。虽然当前基于深度学习的人脸识别方法在准确率上已经强于很多传统算法，但是也同样存在着一些不足，例如，这种方法往往会忽略部分局部的面部关键特征，并且在处理图像时只会对原始图像的整体人脸进行特征学习，这在某种程度上降低了人脸识别的准确率。

发明内容

发明目的：针对现有技术的不足，本发明提出一种基于CNN的多patch多通道联合特征选择学习的人脸识别方法，能够实现将卷积神经网络模块化并细分神经网络，加强模型的人脸识别功能，提升模型对于人脸显著特征的信息采取功能，弥补了传统利用卷积神经网络在人脸识别应用中的不足。

技术方案：本发明所述的一种基于CNN的多patch多通道联合特征选择学习的人脸识别方法，首先将原始人脸图像分割成多张子图像，每张子图像再分离成多张通道图像；然后为每张通道图像构建一个CNN网络模型，输入通道图像进行识别；接下来首先将同一子图像的多个通道神经网络进行连接，得到对应多张子图像的多个子网络，然后将多个子网络进行连接，作为最终的模型识别结果。具体地，本发明的方法包括以下步骤：

S1、将原始人脸图像分割为四个子图像，分别为左眼子图像、右眼子图像、鼻子子图像和嘴巴子图像；

S2、对每个子图像进行RGB通道分离，分别得到三个通道图像，四个子图像共得到12个通道图像；

S3、为每个通道图像构建一个CNN网络模型，称为通道神经网络，将通道图像分别输入对应的通道神经网络进行识别；

S4、针对每张子图像，通过将不同通道神经网络的权值向量进行融合而将三个通道神经网络相互连接，形成一个子图像神经网络，四张子图像得到四个子图像神经网络；

S5、将四个子图像神经网络进行连接，连接的方法是将每个子图像神经网络的识别结果加权相加，作为最终的模型识别结果。

其中，步骤S3中，通道神经网络中每个通道均包括三段依次连接的卷积层、归一化层、池化层、激活层。

步骤S4中将三个通道神经网络的权值向量进行融合的方法为组稀流(Grouplasso)算法，Group Lasso算法的约束方程如下所示：

其中y表示样品的真实标签，θ表示投影向量，z表示样品矩阵，λ表示正则化参数，人为设定。将上式应用到本发明的模型中，则需要添加到损失函数中的正则化项如下所示：

其中的d表示通道神经网络的权值向量的维度，w_i表示w矩阵的第i行，分别来自于不同的通道神经网络。构建新的损失函数为：

new loss function＝old loss function+α||W||_2,1

其中，α为控制参数，主要作用是控制联合特征选择算法在约束公式中所占的比重。

步骤S5中，模型最终的输出结果由下式确定：

其中F(result)即为模型输出的最终结果，p为子图像的数量，此处即为4，f_i表示第i个子图像神经网络的识别结果，H_i为第i个子图像神经网络的权值参数，根据以往的实验效果人为设定。

有益效果：

1、传统的卷积神经网络采用整张人脸进行识别，而本发明将人脸图像进行分割，分割成四块具有显著局部特征的子模块图像，每个子模块的图像再对应一个完整的卷积神经网络；在上述模块图像的神经网络的基础上，利用图像的三通道对模块图像进行基于RGB通道的图像划分，将原先的模块化之后的卷积神经网络再次分割成三通道神经网络。相较于传统卷积神经网络由一整条庞大的神经网络构成，本发明通过多patch以及多通道技术将该神经网络进行模块划分，能够增强神经网络的特定模块处理功能，从而提升人脸识别的准确率，同时细分之后的神经网络能够一定程度上降低神经网络的训练时间，而训练时间过长一直是卷积神经网络发展的一个关键瓶颈。

2、本发明采用基于组稀流即Group Lasso算法的联合特征选择，能够将三通道神经网络在全连接层进行融合，同时组稀流算法能够有效地提高神经网络的特征选择性能，从而提高神经网络在人脸识别中的准确度。

附图说明

图1是本发明的模型框架图；

图2是根据本发明的人脸图像多patch处理示意图；

图3是根据本发明的三通道神经网络架构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

图1为本发明提出的基于CNN的人脸识别模型框架图。基于CNN的多patch多通道联合特征选择学习的人脸识别方法总体流程如下：首先将整张人脸图像先分割成四张子图像，每张子图像再分成三张通道图像；然后每张通道图像构建一个CNN网络模型，一共有12个通道神经网络；接下来首先针对每个子图像将三通道神经网络进行连接，融合完之后相当于有了四个子网络(即四patch神经网络，对应四张子图像)，然后再将四个子网络进行连接，作为最终的模型识别结果。该方法中多patch指的是通过对原始人脸图像分割出的左眼子图、右眼子图、鼻子子图和嘴巴子图，这里的多patch也可以理解为多模块。其中，每个patch又会分为三个通道图像，这里的通道是指RGB色彩通道，即RGB三原色，需要把原始人脸图像分解成RGB三原色图像。三通道神经网络融合的策略采用组稀流(Group Lasso)算法，四patch神经网络融合的策略采用输出层定义权重的方法，即将每个子网络的识别结果加权相加，从而可将一共十二个小的子神经网络模型融合成本发明所用模型。以下详述具体实现过程。

S1：对人脸图像进行有针对性的分割和提取，将人脸分割成多个子模块，即多个patch，得到多个子图像。

传统CNN人脸识别方法通过统计分析和匹配学习找出人脸以及不同人脸之间的联系，这种方法提取的大多是图像的低级局部特征，所以导致人脸识别的泛化能力比较差。本发明通过对特定区域的人脸局部特征进行提取，能够从根本上改善这一缺陷。根据先验信息可知，人脸的左眼、右眼、鼻子、嘴巴所提供的特征信息占了人脸的绝大部分关键信息。因此，首先将人脸的该四个局部地区图像进行提取，以y₁、y₂、y₃、y₄分别表示根据左眼、右眼、鼻子、嘴巴所分割出来的图像。图2为对人脸图像进行多patch处理的示意图。

在步骤S1的实施过程中，需要首先实现自动寻找眼睛、鼻子、嘴巴特征。实现这一功能可以采用一些现有的特征匹配算法，下面列出几种常用的特征匹配算法，均可用于该图像分割的实现。

(1)Sift算法：尺度不变特征转换(Scale-invariant feature transform，SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。

(2)Surf算法：SURF(Speeded-Up Robust Features)算法的算子在保持SIFT算子优良性能特点的基础上，同时解决了SIFT计算复杂度高、耗时长的缺点，对兴趣点提取及其特征向量描述方面进行了改进，且计算速度得到提高，缺点是实时性不高，并且对于边缘光滑目标的特征点提取能力较弱。

(3)Orb算法：Orb算法来自于Fast算法与Brief算法的结合，其中Fast算法全称为Features from accelerated segment test，是一种用于特征点检测的算法，Brief算法全称为Binary Robust Independent Elementary Features，是一种对于已检测到的特征点进行描述的算法。Orb算法首先利用Fast算法进行特征点提取，然后利用Fast算法给提取到的特征点增加方向性，使得特征点具有旋转不变性，并提出了构造金字塔方法，解决了尺度不变性。

以上特征匹配算法各有优劣，可以结合不同的应用情况选取其中较为合适的特征匹配算法对图像进行分割，将原始的人脸图像划分成四个patch即四个子图像。如果人脸图像在三维空间中存在大角度旋转，那可采用Sift算法进行分割。如果人脸图像存在旋转的同时，没有对分割时间进行限制，那么可以采用Surf算法，Surf算法虽然整体平均分割时间较快，但会出现部分图像分割时间很慢的情况；如果人脸图像不存在旋转情况，此时可采用Orb算法，该算法速度和精准度要略高于前两种算法。

S2：在完成对人脸图像多patch划分之后，针对每个patch，即每个子图像，都基于RGB通道进行分离，得到三个通道图像。

RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色。在步骤S1中，对原始人脸图像进行了分割，得到了四个子图像，此时对任意一个子图像y_i，可以根据它的三通道获得三张基于子图像y_i产生的图像。例如从R通道可以获取根据red颜色分量构成的通道图像，从G通道可以获取根据green颜色分量构成的通道图像。四个子图像共得到12个通道图像，此处采用

表示第i个子图像的第j个通道所得到的通道图像。具体方法如下：RGB图像实际上是以数字矩阵的形式存储在计算机中的，所以可以利用程序读取RGB图像的图像信息，然后保存成矩阵形式，该矩阵有三行，即三个向量，从上到下的每一行分别对应R通道图像，G通道图像，B通道图像的图像信息，那么再将这三个向量分别保存成三张图像，便分离出了三通道图像。在进行了三通道分离之后，该三张图像能够保持其原先的光影即面部特征信息，同时利用通道分离实际上增加了图像的色彩信息，理论上在获得更多的图像信息的条件下，神经网络能够获得更好的训练效果，同时识别率也会进一步上升。

S3：为每个通道图像构建基于CNN的网络模型，称为通道神经网络。将通道图像输入通道神经网络进行识别。针对每个子图像的通道神经网络模型架构如图3所示，其中虚线框中包含了卷积层、归一化层、池化层、激活层，该虚线框所代表的一小段神经网络在每个通道网络中一共连续出现三次，这里分别称为第一小段神经网络、第二小段神经网络、第三小段神经网络。第一小段神经网络中的卷积层、归一化层、池化层、激活层各有128个子层，即，卷积层由128个卷积子层构成，归一化层由128个归一化子层构成，池化层由128个池化子层构成，激活层由128个激活子层构成；第二小段神经网络中的卷积层、归一化层、池化层、激活层各有256个子层；第三小段神经网络中的卷积层、归一化层、池化层、激活层各有512个子层。卷积层的输入为图像，然后利用滤波器对图像进行卷积操作，其输出为经过卷积操作的多个特征图像；归一化层的输入为卷积层产生的特征图像，作用是将输入的特征图像矩阵的均值变为0，方差变为1，然后输出经过归一化的特征图像矩阵；池化层是将归一化层产生的多个特征图像矩阵中的部分图像矩阵进行池化操作，即图像融合，减少特征图像矩阵的数量，然后输出图像矩阵；激活层主要由激活函数构成，激活层接收图像矩阵，然后将图像矩阵作为参数传入激活函数，其输出对应该图像属于不同样品种类的概率。下面考虑如何将该三通道的神经网络进行融合。

S4：针对每个子图像，在传统神经网络训练权值向量的基础上，根据组稀流(GroupLasso)算法对权值向量进行优化，同时将不同通道的神经网络的权值向量融合，从而将三个通道神经网络相互连接，得到子图像神经网络，也称为patch神经网络。

在基于McCulloch-Pitts神经元模型的传统卷积神经网络中，各个神经元之间依靠权值向量进行信息传递，训练神经网络的实质即是在训练神经网络层的权值向量。传统CNN权值训练主要采用后向传播算法。在CNN的输入端输入训练集图像之后，后向传播算法通过调节各个神经网络层的权值向量，使得神经网络对于训练集的人脸识别的正确率最高。在调节结束之后，即达到了训练神经网络的目的，此时的权值向量即不再改变。基于组稀流的联合特征选择算法应用于神经网络训练权值向量的过程中，能够提高神经网络的特征选择能力以及识别准确率。本发明采用基于Group Lasso的联合特征选择能够提高神经网络的特征选择能力以及识别准确率，以下对该算法流程进行详细描述。

在统计学和机器学习中，Lasso(least absolute shrinkage and selectionoperator，最小绝对值收敛和选择算子)算法是一种同时进行特征选择和正则化的回归分析方法，旨在增强统计模型的预测准确性和可解释性。Lasso算法最初用于计算最小二乘法模型，这个简单的算法揭示了很多估计量的重要性质，如估计量与岭回归(Ridgeregression或Tikhonov regularization)和最佳子集选择的关系，Lasso系数估计值(estimate)和软阈值(soft thresholding)之间的联系。Lasso的主要思想是构造一个一阶惩罚函数获得一个精炼的模型，通过最终确定一些变量的系数为0进行特征筛选。其约束方程公式1及推导方程公式2如下所示。

公式1和公式2中的y表示样品标签，X表示样品矩阵，w为权值向量，θ表示阈值，人为设定，λ表示正则化参数，人为设定。

Group Lasso算法在Lasso算法的基础上，改进了特征选取的策略，增强了典型特征选取的效果，能更加广泛运用于联合特征选择的统计问题当中。Group Lasso的约束方程如下所示：

公式3中的y表示样品的真实标签，θ表示投影向量，z表示样品矩阵，可以看到公式3中的左半部分

可以解释为通过约束公式使样品在经过投影向量θ变化之后与真实标签之间的距离最短，也就是模型识别率最高。公式3的右半部分

为Group Lasso正则化项，通过添加该项能进一步提高模型的识别正确率。将该式应用到本发明中的模型，那么样品就是指人脸图像，样品标签指的是人脸对应的人名，θ指的是权值向量w，公式3中的左半部分可以替换为神经网络中的损失函数，损失函数的目标就是使得特征图像的识别率最高，那么只需要将公式3的右半部分添加到损失函数中即实现了GroupLasso算法。需要添加到损失函数中的正则化项如公式4所示。

公式4中的d表示神经网络的权值向量的维度，w_i表示w矩阵的第i行，几个w分别来自于不同的通道神经网络，然后通过公式4将不同的权值向量相加即实现了联合特征选择。

公式4的作用是将步骤S3中所划分的三个通道的神经网络的权值向量相连接，即将该三个神经网络进行融合。之后根据Group Lasso算法，需要将公式4的计算结果嵌入到三通道神经网络的全连接层中的损失函数当中，即重新定义全连接层中的损失函数。新的损失函数公式如下：

new loss function＝old loss function+α||W||_2,1 (5)

可以看到，新的损失函数相比之前的损失函数多了一个偏置项，该偏置项的作用即是实现Group Lasso算法的特征联合选择功能。其中，偏置项的参数α主要作用是控制联合特征选择算法在约束公式中所占的比重，如果该值过大可能使模型过拟合，从而导致识别率下降，而该值过低可能导致联合特征选择无法发挥效果，所以该参数需要人为地设定，具体设定的值可依据以往实验效果的经验得出。

S5：将四个子图像神经网络进行连接，对四个patch神经网络的融合的方法不同于Group Lasso对全连接层进行改造的方法，可以直接在输出层将四个patch的输出结果进行融合，融合的方式采用最直接的权重定义法，即人为设定四个权重值H_i，但是该权重要满足一定的约束条件，最终完整模型的输出结果由以下公式得出：

公式6中的F(result)即为模型输出的最终结果，p为子图像的数量，此处即为4，f_i表示第i个子图像神经网络的识别结果，第i个子图像神经网络的权值参数H_i根据以往的实验效果人为设定，若追求更加好的模型表现效果，可以利用优化算法得到使模型正确率更高的权值参数H_i。优化算法可以分为非启发式与启发式算法，其中启发式算法有蚁群算法、模拟退火算法等，非启发式算法有梯度下降算法、牛顿法等，可选取其中任一算法对该出权值参数进行调整。

Claims

1.一种基于CNN的多patch多通道联合特征选择学习的人脸识别方法，其特征在于，所述方法首先将原始人脸图像分割成多张子图像，每张子图像再分离成多张通道图像；然后为每张通道图像构建一个CNN网络模型，输入通道图像进行识别；接下来首先将同一子图像的多个通道神经网络进行连接，得到对应多张子图像的多个子图像神经网络，然后将多个子图像神经网络进行连接，作为最终的模型识别结果；包括以下步骤：

S3、为每个通道图像构建一个CNN网络模型，称为通道神经网络，将通道图像分别输入对应的通道神经网络进行识别，其中通道神经网络中每个通道包括三段依次连接的卷积层、归一化层、池化层、激活层；

S4、针对每张子图像，通过将不同通道神经网络的权值向量进行融合而将三个通道神经网络相互连接，形成一个子图像神经网络，四张子图像得到四个子图像神经网络，其中将不同通道神经网络的权值向量进行融合采用组稀流算法，其约束方程如下所示：

其中y表示样品的真实标签，θ表示投影向量，z表示样品矩阵，λ表示正则化参数；

2.根据权利要求1所述的基于CNN的多patch多通道联合特征选择学习的人脸识别方法，其特征在于，所述步骤S1中，将原始人脸图像进行分割采用Sift算法、Surf算法、Orb算法中的任一种。

3.根据权利要求1所述的基于CNN的多patch多通道联合特征选择学习的人脸识别方法，其特征在于，所述步骤S2中RGB通道分离的方法为：读取RGB图像的图像信息并保存成矩阵形式，该矩阵有三行，即三个向量，分别对应R通道图像、G通道图像、B通道图像的图像信息，再将这三个向量分别保存成三张图像，便分离出了三通道图像。

4.根据权利要求1所述的基于CNN的多patch多通道联合特征选择学习的人脸识别方法，其特征在于，所述组稀流算法约束方程添加到损失函数中的正则化项如下所示：

其中的d表示通道神经网络的权值向量的维度，w_i表示w矩阵的第i行，分别来自于不同的通道神经网络。

5.根据权利要求1所述的基于CNN的多patch多通道联合特征选择学习的人脸识别方法，其特征在于，所述步骤S5中最终模型的输出结果由下式得出：

式中的F(result)即为模型输出的最终结果，其中p为子图像的数量，f_i表示第i个子图像神经网络的识别结果，H_i表示权值参数。