CN109886160B

CN109886160B - 一种非限定条件下的人脸识别方法

Info

Publication number: CN109886160B
Application number: CN201910091792.0A
Authority: CN
Inventors: 王慧燕
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2021-03-09
Anticipated expiration: 2039-01-30
Also published as: CN109886160A

Abstract

本发明提供一种非限定条件下的人脸识别方法，包括如下步骤：S1）图像预处理；S2）人脸特征提取；S3）SVD权值分解操作；S4）人脸识别网络前向传播；S5）人脸识别。本发明的优点为：算法中适当地增加inception结构，可增加网络的宽度和深度，使模型可以提取到不同尺度的、更丰富、更鲁棒的人脸特征。本发明的算法可以使用小规模的数据训练达到大规模数据下训练得到的模型的相差无几的识别效果。

Description

一种非限定条件下的人脸识别方法

技术领域

本发明涉及计算机视觉中的智能视频监控技术领域，具体涉及一种非限定条件下的人脸识别方法。

背景技术

在大型的视频监控场所，如地铁站、广场、机场等，对于监控系统中的人脸进行识别，非限定条件下的人脸的特征匹配是一个关键步骤。对于这种非限定条件下的人脸识别的数据非常的有限，目前应用较广的人脸识别算法都是在公开的大规模数据集上训练得到的。对于这种非限定条件下的人脸识别采用上述算法进行识别，识别效果较差。

发明内容

本发明的目的是提供一种基于深度卷积神经网络、可大大提高人脸匹配速度及效率的非限定条件下的人脸识别方法。

为了达到上述目的，本发明通过以下技术方案来实现：

一种非限定条件下的人脸识别方法，包括如下步骤：

S1)图像预处理

提取多个摄像头下拍摄的人脸图像，将人脸图像按每个人分类并赋标签，标签的取值为[0,…,m]，m为所有人数减1；

将所有人脸图像重新采样到大小为224×224像素并减去ImageNet均值(104,117,123)，随机打乱图像，将图像转换成适用于Caffe框架的lmdb数据存储结构；

S2)人脸特征提取

以VGG-Face作为卷积层提取特征，删除最后的全连接层，增加inception结构，inception结构包括inception v2结构和inception v3结构；inception v2将两个3*3的卷积代替5*5的大卷积，inception v3将一个大的卷积拆分成多个小的卷积；添加两个全连接层，在最后一层输出增加分类损失函数softmaxloss()；

从预处理好的图像中选取n个训练样本，作为卷积神经网络第一层的感知节点，将人工标注的训练样本通过网络数据层输入到网络中进行训练；

随机初始化卷积核的参数，将卷积核与每张图像进行卷积，得出的特征映射图再输入到之后的其他层，采用随机梯度下降算法优化网络权重，训练网络模型直到收敛；

S3)SVD权值分解操作

网络模型最后的全连接层分别为fc7层和fc8层，fc7层提取的特征用来计算人脸之间的距离，特征维度为4096，fc8层提取的特征为人脸分类的类别数，类别数为2262；

S3-1)将fc7层的权重进行分解，公式为W＝USV^T；其中，用US代替W，然后用WW^T的特征向量代替权重；

S3-2)固定fc7的参数不变，用同样的训练集继续fine-tune直至收敛；

S3-3)不固定fc7的参数不变，用同样的训练集继续fine-tune直至收敛；

S3-4)重复S3-1)至S3-3)；

S4)人脸识别网络前向传播

读取视频图像序列中的视频帧，将视频帧图像送入训练好的人脸检测网络模型中进行前向传播操作，将检测到的人脸图像做预处理后输入到人脸识别网络中，取倒数第二个全连接层，即fc7层的输出向量f＝[f1,f2,…,fn]作为每个图像的特征值，n为特征向量的维数；

S5)人脸识别

采用余弦相似度作为特征相似度，采用两个特征向量夹角的余弦值作为衡量两个人脸差异大小的度量；

两个特征向量分别为

两个特征向量的夹角为θ，计算公式为

其中

和

为人脸的特征向量，维数取4096，若cos(θ)<＝threshold，则为同一个人脸，否则不为同一个人脸，threshold为经验阈值。

本发明与现有技术相比，具有以下优点：

本发明一种非限定条件下的人脸识别方法，是一种基于深度卷积神经网络的、适用于人脸卡口相机及各类视频监控的人脸识别算法。算法中适当地增加inception结构，可增加网络的宽度和深度，使模型可以提取到不同尺度的、更丰富、更鲁棒的人脸特征。本发明的算法可以使用小规模的数据训练达到大规模数据下训练得到的模型的相差无几的识别效果。

与传统的神经网络相比，深度卷积神经网络克服了网络层数较少的问题，通过对特征进行逐层变换，获得更加抽象的特征表达，并且将目标分类作为网络的最后输出层实现，大大提高了人脸匹配的速度和效率。本发明的效果和速度均可达到state-of-art级别。

如果还想提升模型的泛化能力，可以通过增量学习方法，再使用上述方法进行训练，以获得更好的特征提取的模型。

附图说明

图1是本发明一种非限定条件下的人脸识别方法的流程示意图。

图2是本发明一种非限定条件下的人脸识别方法的人脸识别网络结构示意图。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

一种非限定条件下的人脸识别方法，包括如下步骤：

S1)图像预处理

提取多个摄像头下拍摄的人脸图像，将人脸图像按每个人分类并赋标签，同一个人给相同的标签，标签的取值范围为[0,…,m]，m为所有人数减1；

将所有人脸图像重新采样到大小为224×224像素，每个像素的取值都是在0-255之间，每个通道上的像素值都减去ImageNet上图片均值，R、G、B三个通道上对应的均值分别为104、117、123，随机打乱图像，将图像转换成适用于Caffe框架的lmdb数据存储结构。

S2)人脸特征提取

以VGG-Face作为卷积层提取特征，VGG的前四层中，每一层都是经过卷积、激活和池化，每经过一层，feature map的大小都减少一半，通道数增加，第五层只进行了卷积操作，输出的feature map大小为14x14，然后删除VGG最后的全连接层，增加inception结构，inception结构包括inception v2结构和inception v3结构；inception v2将两个3*3的卷积代替5*5的大卷积，在减少参数的同时建立更多的非线性变换，使得卷积神经网络对特征的学习能力更强；inception v3将一个大的卷积拆分成多个小的卷积，使得网络深度进一步增加，增加网络的非线性。例如经典的v3结构将7*7的卷积被分成1*7卷积和7*1卷积，或者将3*3卷积拆成1*3卷积和3*1卷积；一方面，节约了大量参数，参数的减少加速了运算，并一定程度上减轻了过拟合现象，同时，增加了非线性扩展，提高了网络模型的表达能力，提升泛化能力；这种将对称的卷积核拆分成非对称的结构增加了提取的特征的多样性，这样的卷积结构可以处理更丰富的空间特征；我们在网络中大量地使用了1*1的卷积，因为1*1的卷积可以实现特征图之间的跨通道交互和信息整合，还可以进行卷积核通道数的降维和升维，同时也相应减少了网络参数；

添加两个全连接层，在最后一层输出增加分类损失函数softmaxloss()；

从预处理好的图像中选取n个训练样本，作为卷积神经网络第一层的感知节点，将人工标注的训练样本通过网络数据层输入到网络中进行训练，训练数据包含图像以及图像中所有人脸的id信息；

随机初始化卷积核的参数，将卷积核与每张图像进行卷积，得出的特征映射图再输入到之后的其他层，采用随机梯度下降算法优化网络权重，训练网络模型直到收敛。

S3)SVD权值分解操作

网络中的全连接层是以向量内积形式进行特征的相似性度量或者说分类，全连接层的权重之间存在相关性的，训练出来的特征也是有相关性的，而在特征匹配的普遍测试中是以欧式距离进行相似性度量的，因此存在一定的误差。为了去除特征之间的相关性，我们使用全连接权重分解方法继续fine-tune。具体分解和训练方法如下：

网络模型最后的全连接层分别为fc7层和fc8层，fc7层提取的特征用来计算人脸之间的距离，特征维度为4096；fc8层提取的特征为人脸分类的类别数，类别数为2262；

S3-1)在训练至收敛的网络模型中，为了去除特征之间的相关性，提高分类效果，将fc7层的权重进行分解，公式为W＝USV^T；其中，用US代替W，然后用WW^T的特征向量代替权重，W是fc7层的权重矩阵，任意一个nxm的实矩阵W都可以分解成USV^T，U是nxn的标准正交矩阵，V是mxm的标准正交矩阵，S是nxm的对角矩阵,T是转置符号；

S3-2)固定权值分解后的fc7的参数不变，用同样的训练集继续微调网络参数直至收敛；

S3-3)不固定fc7的参数不变，用同样的训练集继续微调网络参数直至收敛；

S3-4)重复S3-1)至S3-3)6次；

S4)人脸识别网络(NCCFR)前向传播

读取视频图像序列中的视频帧，将视频帧图像送入训练好的人脸检测网络模型中进行前向传播操作，将检测到的人脸图像做预处理后输入到人脸识别网络中，取倒数第二个全连接层，即fc7层的输出向量f＝[f1,f2,…,fn]作为每个图像的特征值，n为特征向量的维数，n＝4096；

S5)人脸识别

两个特征向量分别为

两个特征向量的夹角为θ，计算公式为

其中

和

为人脸的4096维特征向量，若cos(θ)<＝threshold，则为同一个人脸，否则不为同一个人脸，threshold为经验阈值。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种非限定条件下的人脸识别方法，其特征在于包括如下步骤：

S1)图像预处理

将所有人脸图像重新采样到大小为224×224像素，每个像素的取值都是在0-255之间，每个通道上的像素值都减去ImageNet上图片均值，R、G、B三个通道上对应的均值分别为104、117、123，随机打乱图像，将图像转换成适用于Caffe框架的lmdb数据存储结构；

S2)人脸特征提取

以VGG-Face作为卷积层提取特征，VGG的前四层中，每一层都是经过卷积、激活和池化，每经过一层，feature map的大小都减少一半，通道数增加，第五层只进行了卷积操作，输出的feature map大小为14x14，然后删除VGG最后的全连接层，增加inception结构，inception结构包括inception v2结构和inception v3结构；inception v2将两个3*3的卷积代替5*5的大卷积，inception v3将一个大的卷积拆分成多个小的卷积；

从预处理好的图像中选取n个训练样本作为卷积神经网络第一层的感知节点，将人工标注的训练样本输入到网络中进行迭代训练；

S3)SVD权值分解操作

S3-1)将fc7层的权重进行分解，公式为W＝USV^T；其中，用US代替W，然后用WW^T的特征向量代替权重，W是fc7层的权重矩阵，任意一个nxm的实矩阵W都可以分解成USV^T，U是nxn的标准正交矩阵，V是mxm的标准正交矩阵，S是nxm的对角矩阵,T是转置符号；

S3-2)固定fc7的参数不变，用同样的训练集继续微调网络参数直至收敛；

S3-4)重复S3-1)至S3-3)；

S4)人脸识别网络前向传播

S5)人脸识别

两个特征向量分别为

两个特征向量的夹角为θ，计算公式为

其中

和

为人脸的特征向量，维数取4096，若cos(θ)＜＝threshold,则为同一个人脸，否则不为同一个人脸，threshold为经验阈值。