CN108710831A

CN108710831A - 一种基于机器视觉的小数据集人脸识别算法

Info

Publication number: CN108710831A
Application number: CN201810370703.1A
Authority: CN
Inventors: 田联房; 张枫; 杜启亮
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-10-26
Anticipated expiration: 2038-04-24
Also published as: CN108710831B

Abstract

本发明公开了一种基于机器视觉的小数据集人脸识别算法，包括步骤：1)数据集的构建与预处理；2)利用生成对抗网络为图像不足的类别生成虚拟图像；3)利用数据增强算法对所有类别图像进行数据扩充；4)利用卷积神经网络构建适合数据的模型；5)对设计的模型进行训练；6)利用摄像机获取目标图像，导入训练好的模型，再进行人脸识别。通过本发明算法可以对缺少人脸数据的应用场景进行高准确率的人脸识别。

Description

一种基于机器视觉的小数据集人脸识别算法

技术领域

本发明涉及图像模式识别的技术领域，尤其是指一种基于机器视觉的小数据集人脸识别算法。

背景技术

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。与虹膜，指纹等生物技术相比，其显著优势是人脸信息丰富，信息采集直观自然且非接触，并且可以远距离操作。因为公共安全，身份认证，数字娱乐产业等领域面部分析和建模的需求提升，人脸识别技术越来越受到学术界和工业界的重视。人脸识别的应用场景十分广泛，如重要通道出入口，大厦门禁系统，互联网登陆验证等，有些应用场景无法获取大量数据，那么一种基于小数据集的人脸识别算法显得尤为重要。本发明采用摄像头获取人脸，并载入小数据集训练的人脸识别模型，进行身份认证。

目前实现人脸识别算法有很多种，其中一种是基于机器学习的人脸识别算法。通过对人脸提取特征，再设计分类器进行识别，但受光照不均，人脸表情等的影响，对非限定条件下的人脸鲁棒性较差。另一种是基于通用深度学习方法。通过获取大量人脸数据，训练深度神经网络模型，再进行识别，准确率高且鲁棒性强，但是需要海量数据，超长的训练时间以及强大的硬件条件，特定应用场景无法满足。以上局限性使得目前的人脸识别方法难以适应非限制条件下小数据集的人脸识别需求。

综合以上论述，发明一种在小数据集前提下，适用非限制条件下人脸的识别方法具有较高的实际应用价值。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于机器视觉的小数据集人脸识别算法，主要采用生成对抗网络为图像不足的类别补充数据，并利用数据增强算法扩充数据，再设计匹配数据集的深度神经网络模型，并训练，使人脸识别系统在小数据集的提前提下获得高准确率。

为实现上述目的，本发明所提供的技术方案为：一种基于机器视觉的小数据集人脸识别算法，包括以下步骤：

1)数据集的构建与预处理；

2)利用生成对抗网络为图像不足的类别生成虚拟图像；

3)利用数据增强算法对所有类别图像进行数据扩充；

4)利用卷积神经网络构建适合数据的模型；

5)对设计的模型进行训练；

6)利用摄像机获取目标图像，进行人脸识别。

在步骤1)中，采用实际场景中拍摄到的人脸图像集，即原始数据集，人脸图像集的特点是小且不均衡，图像总数量少，同时类别之间数据量差别大；采用现有机器学习库dlib人脸检测工具对原始图像实现人脸检测与人脸对齐，裁剪出目标人脸，以保证获取的图像满足人脸识别的要求，即取去除多余背景。

在步骤2)中，利用生成对抗网络为图像较少类别生成虚拟图像，包括以下步骤：

2.1)构建判别器

构建自编码器作为生成对抗网络的判别器；编码器由4类结构组成：卷积层结合elu激活层作为固定结构、下采样层、卷积层和全连接层；解码器由4种结构组成：全连接层、卷积层结合elu激活层作为固定结构、resize层和卷积层；编码器与解码器结合作为自编码器；

编码器网络结构为：

第一层由3个子层组成，每个子层为一个卷积层与一个激活层组成；

第二层为卷积层；

第三层为池化层；

第四层由2个子层组成，每个子层由一个卷积层与一个激活层组成；

第五层为卷积层；

第六层为池化层；

第七层由2个子层组成，每个子层为一个卷积层与一个激活层组成；

第八层为卷积层；

第九层为池化层；

第十层由2个子层组成，每个子层为一个卷积层与一个激活层组成；

第十一层为卷积层；

第十二层为池化层；

第十三层由2个子层组成，每个子层为一个卷积层与一个激活层组成；

第十四层为全连接层；

解码器结构为：

第一层为全连接层；

第二层改变输入的形状；

第三层由两个子层组成，每个子层为一个卷积层与一个激活层组成；

第四层为resize层改变图像大小；

第五层由两个子层组成，每个子层为一个卷积层与一个激活层组成；

第六层为resize层改变图像大小；

第七层由两个子层组成，每个子层为一个卷积层与一个激活层组成；

第八层resize层改变图像大小；

第九层由两个子层组成，每个子层为一个卷积层与一个激活层组成；

第十层resize层改变图像大小；

第十一层由两个子层组成，每个子层为一个卷积层与一个激活层组成；

第十一层为卷积层；

2.2)构建生成器

生成器结构与步骤2.1)中解码器相同；

2.3)设置损失函数

生成对抗网络的损失函数为：

L(v)＝|v-D(v)|^η

其中，L(v)为v的损失函数，v为图像的样本，D为自编码器函数，η取值1或者2；

L_D＝L(x)-k_t·L(G(z_D)) (2)

L_G＝L(G(z_G)) (3)

k_t+1＝k_t+λ_k(γL(x)-L(G(z_G))) (4)

其中(2)～(3)式为平衡条件，即网络损失函数，L_D为判别器损失函数，L_G为生成器损失函数；L为(1)式，G为解码器函数，z_D输入判别器的向量，维数为128，z_G输入生成器的向量，维数为128；k_t为比例因子，λ_k为k的比例增益，γ为生成器与判别器的均衡参数；

2.4)设置训练参数

使用Adam优化器优化网络，设置输入图像批次、学习率、衰减率、衰减速度。

在步骤3)中，利用数据增强算法对所有类别图像进行数据扩充，包括以下步骤：

3.1)随机改图像大小

将人脸转换为适合神经网络的输入，随机使用双线性插值、最近邻方法，双三次插值法和面积插值法将人脸图像转换为标准大小；

3.2)随机图像水平翻转

在训练过程中随机翻转图像；

3.3)随机图像片段获取

在保留所需人脸信息的情况下，随机减少部分背景信息；

3.4)随机图像色相调整

随机调整图像的亮度、对比度、饱和度和色相；

3.5)随机添加噪声干扰

为图像添加分布为N(0,1)的高斯噪声。

在步骤4)中，利用卷积神经网络构建适合数据的模型，包括以下步骤：

4.1)结合数据选取构建模型，模型包括多个残差模块、卷积层、下采样层、随机失活层；

输入图像在进行步骤3)后输入深度残差神经网络；

第一层为卷积层；

第二层为最大池化层；

第三层为连续三个相同残差块，若残差块输入为x,输出为H(BN(x))＝F(BN(x))+S(BN(x))，其中x为block的输入，BN(x)表示对x进行批标准化，F(x)为多层卷积结构；

第四层残差块结构与第三层残差块结构相同；

第五层残差块结构与第三层残差块结构相同；

第六层残差块结构与第三层残差块结构相同；

第七层为平均池化层；

第八层为随机失活层，公式如下

r^(l)～Bernoulli(p)

y～^(l)＝r^(l)·y^(l)

其中，r^(l)服从概率为p的伯努利分布，y^(l)为第l层的激活值，y～^(l)为第l层的输出值，为第l+1层的网络权值，b_i ^(l+1)为第l+1层的偏置，为第l+1层的隐藏层输入，f(·)为激活函数；

第九层为卷积层，卷积核为(1,1)，滤波器数量为类别数量n，输出为1×1×n；

4.2)设置损失函数

设置交叉熵函数与中心损失函数，交叉熵损失函数如下：

其中，y’为真实的概率分布，即标签的one-hot编码，y是预测的概率分布，即网络残差网络输出，大小为1×1×n；

中心损失函数取第七层输出为深度特征，公式如下：

其中，L_c为中心损失，x_i为类别的深度特征，为第i类深度特征中心，m表示mini-batch的大小，为避免错误的标记样本对训练样本造成干扰，采用a来控制特征中心的学习速率，L_c关于x_i的导数与的更新如下式:

其中，δ(条件)，若条件为真，则δ(条件)为1，否则为0；网络取出全局池化层的特征作为类别深度特征，该特征为2048维的向量，整个网络的损失函数定义式如下：

L＝L_s+λL_c

其中，L_s为交叉熵损失函数，λ为标量，用于平衡两种损失函数。

在步骤5)中，对模型改进后的模型进行训练，包括以下步骤：

5.1)设置训练参数

设置实验优化器为Adam，学习率、衰减率、衰减速度、批次大小、dropout层的失活概率、中心损失的中心学习率、中心损失函数的权重系数。

5.2)设置训练完成标志

设置验证集实时检测模型训练情况，训练完成标志为已达迭代次数或验证集准确率得到满足。

在步骤6)中，首先利用摄像头获取实时人脸图像，利用机器视觉库dlib进行人脸检测，导入步骤5)训练完成的模型进行预测。

本发明与现有技术相比，具有如下优点与有益效果：

1、使用生成对抗网络与数据增强算法对图片类别进行扩充以满足数据量少的人脸应用场景。

2、采用多种简单实用的技巧改进网络，有效解决了深度神经网络容易过拟合的缺点。

3、对小数据集进行数据扩充并改进网络，使网络容量与数据量匹配，大大减少了模型训练时间。

4、可以对数据量少且数据不均衡的人脸识别应用场景提供高准确率的人脸识别系统。

附图说明

图1为本发明算法流程图。

图2为残差网络训练流程图。

图3为生成对抗网络效果图，其中(a)为中间结果，(b)为生成结果。

图4为数据增强效果图，其中(a)为色彩变化，(b)为随机截取和水平翻转，(c)为图像增强算法效果。

图5为模型损失连接图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1和图2所示，本实施例所提供的基于机器视觉的小数据集人脸识别算法，包括以下步骤：

1)数据集的构建与预处理

采用实际场景中拍摄到的人脸图像集，即原始数据集。人脸图像集的特点是小且不均衡，图像总数量较少，同时类别之间数据量差别很大。采用现有机器学习库dlib人脸检测工具对原始图像实现人脸检测与人脸对齐，裁剪出目标人脸，以保证获取的图像满足人脸识别的基本要求，即取去除多余背景。

2)利用生成对抗网络为图像较少类别生成虚拟图像，如图3所示，包括以下步骤：

2.1)构建判别器

构建输入图像大小为128×128×3、特征层为128的自编码器作为生成对抗网络的判别器。编码器由4个结构组成：卷积层结合elu激活层作为固定结构，下采样层，卷积层和全连接层，其具体操作将图像转换为1×1×128的特征。解码器由4种结构组成，全连接层，卷积层结合elu激活层作为固定结构，resize层和卷积层。编码器与解码器结合作为自编码器。

编码器网络结构为：

网络输入为128×128×3的图像。

第一层由3个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为128×128×128。

第二层为卷积层，卷积核为(3,3),步长为1，滤波器为256个，进行补零操作,输出为128×128×256。

第三层为池化层，池化核为(2,2),步长为1，输出为64×64×256。

第四层由2个子层组成，每个子层由一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为256个，进行补零操作，输出为64×64×256。

第五层为卷积层，卷积核为(3,3),步长为1，滤波器为384个，进行补零操作,输出为64×64×384。

第六层为池化层，池化核为(2,2),步长为1，输出为32×32×384。

第七层由2个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为384个，进行补零操作，输出为32×32×384。

第八层为卷积层，卷积核为(3,3),步长为1，滤波器为512个，进行补零操作，输出为32×32×512。

第九层为池化层，池化核为(2,2),步长为1，输出为16×16×512。

第十层由2个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为512个，进行补零操作，输出为16×16×512。

第十一层为卷积层，卷积核为(3,3),步长为1，滤波器为640个，进行补零操作，输出为16×16×640。

第十二层为池化层，池化核为(2,2),步长为1，输出为8×8×640。

第十三层由2个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为640个，进行补零操作，输出为8×8×640。

第十四层为全连接层，输出为1×128。

解码器结构为：

网络输入为1×128的向量。

第一层为全连接层，输出为1×8192。

第二层改变输入的形状，输出为8×8×128。

第三层由两个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为8×8×128。

第四层为resize层改变图像大小，输出为16×16×128。

第五层由两个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为16×16×128。

第六层为resize层改变图像大小，输出为32×32×128。

第七层由两个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为32×32×128。

第八层resize层改变图像大小，输出为64×64×128。

第九层由两个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为64×64×128。

第十层resize层改变图像大小，输出为128×128×128。

第十一层由两个子层组成，每个子层为一个卷积层与一个激活层组成。其中卷积层的卷积核为(3,3),步长为1，滤波器为128个，进行补零操作，输出为128×128×128。

第十一层为卷积层，卷积核为(3,3),步长为1，滤波器为3个，进行补零操作，输出大小为图像128×128×3。

2.2)构建生成器

生成器结构与步骤2.1)中解码器相同。

2.3)设置损失函数

生成对抗网络的损失函数为

L(v)＝|v-D(v)|^η

其中L(v)为v的损失函数，v为图像的样本，D为自编码器函数，η取值1或者2。

L_D＝L(x)-k_t·L(G(z_D)) (2)

L_G＝L(G(z_G)) (3)

k_t+1＝k_t+λ_k(γL(x)-L(G(z_G))) (4)

其中(2)～(3)式为平衡条件，即网络损失函数，L_D为判别器损失函数，L_G为生成器损失函数。L为(1)式，G为解码器函数，z_D输入判别器的向量，维数为128，z_G输入生成器的向量，维数为128。k_t为比例因子，λ_k为k的比例增益，γ为生成器与判别器的均衡参数。

2.4)设置训练参数

使用Adam优化器优化网络，设置输入图像批次为16，学习率为0.0001，衰减率为0.95，衰减速度为2k。

3)利用数据增强算法对所有类别图像进行数据扩充，如图4所示，包括以下步骤：

3.1)随机改图像大小

将人脸转换为适合神经网络的输入，随机使用双线性插值、最近邻方法，双三次插值法和面积插值法将人脸图像转换为标准大小。

3.2)随机图像水平翻转

在训练过程中随机翻转图像。

3.3)随机图像片段获取

在保留足够人脸信息的情况下，随机减少部分背景信息。

3.4)随机图像色相调整

随机调整图像的亮度，对比度，饱和度和色相。

3.5)随机添加噪声干扰

为图像添加分布为N(0,1)的高斯噪声。

4)利用卷积神经网络构建适合数据的模型，包括以下步骤：

4.1)结合数据选取构建模型。模型主要由多个残差模块，卷积层，下采样层，随机失活层等组成。

输入图像为224×224×3，进行步骤3)后输入深度残差神经网络。

第一层为卷积层，卷积核为(7,7)，步长为2，滤波器数量为64，输出为112×112×64。

第二层为最大池化层，池化核为(2,2),步长为2，输出为56×56×64。

第三层为连续三个相同残差块，若残差块输入为x,输出为H(BN(x))＝F(BN(x))+S(BN(x))，其中x为block的输入，BN(x)表示对x进行批标准化。F(x)为多层卷积结构，第一层为核(1,1),滤波器64，第二层为核(3,3),滤波器64，第三层为核(1,1),滤波器256。S(x)为卷积操作，作用是令x与F(x)通道数相同,最后输出为56×56×256。

第四层残差块结构与第三层残差块结构相同，但F(x)为多层卷积结构有所改变，即第一层为核(1,1),滤波器128，第二层为核(3,3),滤波器128，第三层为核(1,1),滤波器512，连续4个上述残差块为第四层，最后输出为28×28×512。

第五层残差块结构与第三层残差块结构相同，但F(x)为多层卷积结构有所改变，即第一层为核(1,1),滤波器256，第二层为核(3,3),滤波器256，第三层为核(1,1),滤波器1024，连续6个上述残差块为第五层，最后输出为14×14×1024。

第六层残差块结构与第三层残差块结构相同，但F(x)为多层卷积结构有所改变，即第一层为核(1,1),滤波器512，第二层为核(3,3),滤波器512，第三层为核(1,1),滤波器512，连续3个上述残差块为第六层，最后输出为7×7×2048。

第七层为平均池化层，池化核为(7,7),步长为7，输出为1×1×2048

第八层为随机失活层，公式如下

r^(l)～Bernoulli(p)

y～^(l)＝r^(l)·y^(l)

其中r^(l)服从概率为p的伯努利分布，y^(l)为第l层的激活值，y～^(l)为第l层的输出值，为第l+1层的网络权值，b_i ^(l+1)为第l+1层的偏置。为第l+1层的隐藏层输入，f(·)为激活函数。

第九层为卷积层，卷积核为(1,1)，滤波器数量为类别数量n，输出为1×1×n。

4.2)设置损失函数

设置交叉熵函数与中心损失函数，交叉熵损失函数如下：

其中y’为真实的概率分布，即标签的one-hot编码，y是预测的概率分布。即网络残差网络输出(大小为1×1×n)。

中心损失函数取第七层输出为深度特征，公式如下：

其中，L_c为中心损失，x_i为类别的深度特征，为第i类深度特征中心。m表示mini-batch的大小。为避免错误的标记样本对训练样本造成严重干扰，采用a来控制特征中心的学习速率。L_c关于x_i的导数与的更新如下式:

其中，δ(条件)，若条件为真，则δ(条件)为1，否则为0。本文的网络取出全局池化层的特征作为类别深度特征，该特征为2048维的向量。整个网络的损失函数定义式如下，损失连接图如图5所示：

L＝L_s+λL_c

5)对模型改进后的模型进行训练，包括以下步骤：

5.1)设置训练参数

设置实验优化器为Adam，学习率为0.001，衰减率为0.95，衰减速度为10K，批次大小为64张。dropout层的失活概率为0.5，中心损失的中心学习率为0.5，中心损失函数的权重系数为0.003。

5.2)设置训练完成标志

6)利用摄像头获取实时人脸图像，利用机器视觉库dlib进行人脸检测，导入步骤5)训练完成的模型进行预测。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于机器视觉的小数据集人脸识别算法，其特征在于，包括以下步骤：

1)数据集的构建与预处理；

2)利用生成对抗网络为图像不足的类别生成虚拟图像；

3)利用数据增强算法对所有类别图像进行数据扩充；

4)利用卷积神经网络构建适合数据的模型；

5)对设计的模型进行训练；

6)利用摄像机获取目标图像，进行人脸识别。

2.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于：在步骤1)中，采用实际场景中拍摄到的人脸图像集，即原始数据集，人脸图像集的特点是小且不均衡，图像总数量少，同时类别之间数据量差别大；采用现有机器学习库dlib人脸检测工具对原始图像实现人脸检测与人脸对齐，裁剪出目标人脸，以保证获取的图像满足人脸识别的要求，即取去除多余背景。

3.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于，在步骤2)中，利用生成对抗网络为图像较少类别生成虚拟图像，包括以下步骤：

2.1)构建判别器

编码器网络结构为：

第二层为卷积层；

第三层为池化层；

第五层为卷积层；

第六层为池化层；

第八层为卷积层；

第九层为池化层；

第十一层为卷积层；

第十二层为池化层；

第十四层为全连接层；

解码器结构为：

第一层为全连接层；

第二层改变输入的形状；

第四层为resize层改变图像大小；

第六层为resize层改变图像大小；

第八层resize层改变图像大小；

第十层resize层改变图像大小；

第十一层为卷积层；

2.2)构建生成器

生成器结构与步骤2.1)中解码器相同；

2.3)设置损失函数

生成对抗网络的损失函数为：

L(v)＝|v-D(v)|^η

L_D＝L(x)-k_t·L(G(z_D)) (2)

L_G＝L(G(z_G)) (3)

k_t+1＝k_t+λ_k(γL(x)-L(G(z_G))) (4)

2.4)设置训练参数

4.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于，在步骤3)中，利用数据增强算法对所有类别图像进行数据扩充，包括以下步骤：

3.1)随机改图像大小

3.2)随机图像水平翻转

在训练过程中随机翻转图像；

3.3)随机图像片段获取

在保留所需人脸信息的情况下，随机减少部分背景信息；

3.4)随机图像色相调整

随机调整图像的亮度、对比度、饱和度和色相；

3.5)随机添加噪声干扰

为图像添加分布为N(0,1)的高斯噪声。

5.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于，在步骤4)中，利用卷积神经网络构建适合数据的模型，包括以下步骤：

输入图像在进行步骤3)后输入深度残差神经网络；

第一层为卷积层；

第二层为最大池化层；

第四层残差块结构与第三层残差块结构相同；

第五层残差块结构与第三层残差块结构相同；

第六层残差块结构与第三层残差块结构相同；

第七层为平均池化层；

第八层为随机失活层，公式如下

r^(l)～Bernoulli(p)

y～^(l)＝r^(l)·y^(l)

4.2)设置损失函数

设置交叉熵函数与中心损失函数，交叉熵损失函数如下：

其中，y'为真实的概率分布，即标签的one-hot编码，y是预测的概率分布，即网络残差网络输出，大小为1×1×n；

中心损失函数取第七层输出为深度特征，公式如下：

L＝L_s+λL_c

6.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于，在步骤5)中，对模型改进后的模型进行训练，包括以下步骤：

5.1)设置训练参数

设置实验优化器为Adam，学习率、衰减率、衰减速度、批次大小、dropout层的失活概率、中心损失的中心学习率、中心损失函数的权重系数；

5.2)设置训练完成标志

7.根据权利要求1所述的一种基于机器视觉的小数据集人脸识别算法，其特征在于，在步骤6)中，首先利用摄像头获取实时人脸图像，利用机器视觉库dlib进行人脸检测，导入步骤5)训练完成的模型进行预测。