CN113505740A

CN113505740A - 基于迁移学习和卷积神经网络的面部识别方法

Info

Publication number: CN113505740A
Application number: CN202110849654.1A
Authority: CN
Inventors: 黄先开; 蔡志彬; 韩致远; 张跃
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-15
Anticipated expiration: 2041-07-27
Also published as: CN113505740B

Abstract

本发明公开了一种基于迁移学习和卷积神经网络的面部识别方法，包括：建立VGG‑16模型并对其进行训练得到训练后的VGG‑16模型，将其迁移至暹罗网络中，对训练后的VGG‑16模型进行微调得到微调后的VGG‑16模型；在暹罗网络中输入一对待判断的图像，微调后的VGG‑16模型分别提取出第一面部图像的特征向量和第二面部图像的特征向量，根据特征向量计算欧几里德距离；根据欧几里德距离得到预测值；若预测值为0，则第一面部图像与第二面部图像属于同一个人；若预测值为1，则第一面部图像与第二面部图像不属于同一个人。通过将VGG‑16模型迁移至暹罗模型中，权重在并行的卷积神经网络之间共享，提高人脸识别效率。

Description

基于迁移学习和卷积神经网络的面部识别方法

技术领域

本发明涉及面部识别技术领域，更具体地，涉及一种基于迁移学习和卷积神经网络的面部识别方法。

背景技术

人脸识别是一种完善的生物特征识别方法，广泛应用于军事、金融、公安、日常生活等多个领域。人脸识别任务可以分为“人脸验证”和“人脸识别”两个子任务。在每个场景中，首先，一组已知人物的图像被记录在一个图库中，当要进行实验时，探针图像将显示给系统。人脸验证对图库和探测图像逐个计算相似度指数，以确定这两幅图像是否属于一个人；而人脸识别则通过计算一比多的相似度指数来确定探测人脸图像的具体身份。目前人脸识别面临两大挑战，一个挑战是类内变化，即角色内变化。这意味着，由于灯光、面部表情、姿势、化妆、发型、年龄等方面的变化，一个身份可能会在外观上发生变化。另一个挑战是人与人或身份之间的相似性。例如，不同的身份可能会有相似的外观，比如双胞胎、亲戚甚至陌生人之间的相似性。

迁移学习是一种模仿人类学习和解决问题过程的知识转移技术。通常，当我们解决问题时，使用的方法会受到过去的经验以及当前问题的状况的影响。以类似的方式，迁移学习方法试图利用先前获取的领域知识来快速有效地处理相关领域的任务。随着诸如DenseNet和ResNet模型之类的超深度卷积神经网络的引入，迁移学习为解决相关的计算机视觉任务，例如图像分类和图像分割，而提供了一种有效且计算经济的解决方案。这种方法主要用于对一个新问题进行建模的数据较少的情况下。因此，可以利用之前在大数据集上训练的深度学习模型，并利用与新问题有共同基础的深度学习模型，在之前模型中获得的知识上构建转移学习模型。

卷积神经网络CNN是基于图像的分析的一项重大突破。它们可以有效地用于图像分类。随着迁移学习的出现，卷积神经网络CNN已添加了更新的功能。使用ImageNet数据集训练的诸如VGG-16，InceptionV3等迁移学习模型可用于构建更快，更有效的图像分类模型。

暹罗网络(Siamese Networks)是具有两个相似的并行神经网络的体系结构。网络具有相同的配置，具有相同的权重和参数，并且这两个网络之间共享权重。每个网络都有一个不同的输入，即图像，它们的输出被组合起来以提供一些预测。

因此，提供一种基于迁移学习和卷积神经网络的面部识别方法是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于迁移学习和卷积神经网络的面部识别方法，包括：

使用深度学习框架建立VGG-16模型；

输入ImageNet数据集对所述VGG-16模型进行训练得到训练后的VGG-16模型，所述ImageNet数据集包括多张标注图像，所述训练后的VGG-16模型包括顺次级联的第一块、第二块、第三块、第四块、第五块、第一完全连接层；

将所述训练后的VGG-16模型迁移至暹罗网络中，并对所述训练后的VGG-16模型进行微调得到微调后的VGG-16模型，包括，自定义第二完全连接层，用所述第二完全连接层替换所述第一完全连接层，且冻结所述训练后的VGG-16模型中的所述第一块至所述第四块；

在所述暹罗网络中输入一对待判断的图像，所述一对待判断的图像包括第一面部图像和第二面部图像，所述微调后的VGG-16模型分别提取出所述第一面部图像的特征向量和所述第二面部图像的特征向量，按照以下方式计算所述第一面部图像的特征向量和所述第二面部图像的特征向量之间的欧几里德距离：

D＝||f(x₀)-f(x₁)||²，

其中，D为所述第一面部图像的特征向量和所述第二面部图像的特征向量之间的欧几里德距离，f(x₀)为所述第一面部图像的特征向量，f(x₁)为所述第二面部图像的特征向量；

根据所述欧几里德距离得到所述第一面部图像与所述第二面部图像的预测值，按照以下方法进行计算：

其中，A为所述预测值，D为所述第一面部图像的特征向量和所述第二面部图像的特征向量之间的欧几里德距离；

若所述预测值为0，则所述第一面部图像与所述第二面部图像为相似图像，属于同一个人；

若所述预测值为1，则所述第一面部图像与所述第二面部图像为不相似图像，不属于同一个人。

优选地，还包括根据所述欧几里德距离进行对比损失函数的计算，按照以下方法计算：

L＝(1-y)D²+y[max((m-D)，0)]²，

其中，L为所述第一面部图像和所述第二面部图像的损失值，y为所述相似图像或所述不相似图像的二进制标签，当所述第一面部图像与所述第二面部图像为所述相似图像时，y＝0；当所述第一面部图像与所述第二面部图像为所述不相似图像时，y＝1，m为一个大于0的边际值；

所述暹罗网络通过反向传播所述损失值计算所述微调后的VGG-16模型的梯度，更新所述微调后的VGG-16模型的权重。

优选地，所述训练后的VGG-16模型中，所述第一块、所述第二块、所述第三块、所述第四块和所述第五块共包括13层卷积层、5层池化层，所述第一完全连接层中包括顺次级联的第一完全连接层甲、第一完全连接层乙和第一完全连接层丙，所述第一完全连接层甲和所述第一完全连接层乙均包括4096个神经元，所述第一连接层丙包括1000个神经元。

优选地，所述卷积层的内核为3×3，所述池化层的内核为2×2。

优选地，所述第二完全连接层包括顺次级联的第二完全连接层甲、第二完全连接层乙和第二完全连接层丙，所述第二完全连接层甲、所述第二完全连接层乙和所述第二完全连接层丙均包括512个神经元及RELU激活函数。

优选地，所述标注图像的尺寸为128×128×3。

优选地，还包括LFW数据集，所述LFW数据集包括多名待测人员的面部图像，所述面部图像的尺寸为250×250，所述面部图像均标有对应所述待测人员的名字，每位所述待测人员至少对应两张所述面部图像；

在所述暹罗网络中输入所述LFW数据集，生成与所述暹罗网络结构兼容的训练数据。

优选地，在所述暹罗网络中输入所述LFW数据集时，所述微调后的VGG-16模型会对所述面部图像进行裁剪，按照以下步骤裁剪：

固定裁剪尺寸为128×128，设置训练尺寸为128，裁剪时捕获所述面部图像全部的统计数据，再完全覆盖所述面部图像的所述训练尺寸。

优选地，在所述LFW数据集中，60％的所述面部图像用于训练，40％的所述面部图像用于测试。

优选地，所述微调后的VGG-16模型的采用ADAM优化器，所述ADAM优化器的学习率为5×10^-7，批处理的数量为32。

与现有技术相比，本发明提供的基于迁移学习和卷积神经网络的面部识别方法，至少实现了如下的有益效果：

1、本发明提供的基于迁移学习和卷积神经网络的面部识别方法将训练后的VGG-16模型迁移至暹罗网络中，并且暹罗网络是一个具有两个相似的并行卷积神经网络的体系结构，其具有相同的配置、权重和参数，权重在并行的卷积神经网络之间共享，在只有很少的样本的情况下进行多种类别的人脸识别时，提高人脸识别效率。

2、本发明提供的基于迁移学习和卷积神经网络的面部识别方法在暹罗网络中微调后的VGG-16模型分别提取出第一面部图像的特征向量和第二面部图像的特征向量，基于卷积神经网络进行计算，减少了繁琐的工作量。

3、本发明提供的基于迁移学习和卷积神经网络的面部识别方法对训练后的VGG-16模型进行微调得到微调后的VGG-16模型，提高暹罗网络的识别精度。

当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是本发明提供的一种基于迁移学习和卷积神经网络的面部识别方法的流程图；

图2是微调后的VGG-16模型的架构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

以下结合图1和图2所示，图1为图1是本发明提供的一种基于迁移学习和卷积神经网络的面部识别方法的流程图，图2是微调后的VGG-16模型的架构图。本发明提供的基于迁移学习和卷积神经网络的面部识别方法，包括：

使用深度学习框架建立VGG-16模型；

可选地，采用Keras作为深度学习框架。

输入ImageNet数据集对VGG-16模型进行训练得到训练后的VGG-16模型，ImageNet数据集包括多张标注图像，训练后的VGG-16模型包括顺次级联的第一块、第二块、第三块、第四块、第五块、第一完全连接层；训练后的VGG-16模型准确度提高，准确率达到92.7％。

其中，输入ImageNet数据集对VGG-16模型进行训练中一次具体的训练过程为：

输入图像；

在第一块内经过64个卷积核的两次卷积后，采用一次max pooling。经过第一次卷积后，有1728个训练参数；经过第二次卷积后，有36864个训练参数；

在第二块内经过128个卷积核的两次卷积后，采用一次max pooling，在第二块内经过两次卷积后，有147456个训练参数；

在第三块内经过256个卷积核的三次卷积后，采用一次max pooling，在第三块内经过三次卷积后，有589824个训练参数；

在第四块内经过512个卷积核的三次卷积后，采用一次max pooling，在第四块内经过三次卷积后，有2359296个训练参数；

在第五块内经过512个卷积核的三次卷积后，采用一次max pooling，在第五块内经过三次卷积后，有2359296个训练参数；

在经过第一完全连接层。

将训练后的VGG-16模型迁移至暹罗网络中，并对训练后的VGG-16模型进行微调得到微调后的VGG-16模型，包括，自定义第二完全连接层，用第二完全连接层替换第一完全连接层，且冻结训练后的VGG-16模型中的第一块至第四块，冻结第一块至第四块后，在对训练后的VGG-16模型进行训练时，第一块至第四块的权重不会发生改变；

对训练后的VGG-16模型进行微调得到微调后的VGG-16模型，提高暹罗网络的识别精度。

暹罗网络是一个具有两个相似的并行卷积神经网络的体系结构，其具有相同的配置、权重和参数，权重在并行的卷积神经网络之间共享，在只有很少的样本的情况下进行多种类别的人脸识别时，提高人脸识别效率。

在暹罗网络中输入一对待判断的图像，一对待判断的图像包括第一面部图像和第二面部图像，微调后的VGG-16模型分别提取出第一面部图像的特征向量和第二面部图像的特征向量，基于卷积神经网络进行计算，减少了繁琐的工作量。

其中，一对待判断的图像也被称为标签对。

按照以下方式计算第一面部图像的特征向量和第二面部图像的特征向量之间的欧几里德距离：

D＝||f(x₀)-f(x₁)||²，

其中，D为第一面部图像的特征向量和第二面部图像的特征向量之间的欧几里德距离，f(x₀)为第一面部图像的特征向量，f(x₁)为第二面部图像的特征向量；

欧几里德距离也称欧氏距离。如果输出矢量足够接近，则模型判断输入的一对待判断的图像是相似的或者是不相似的。由于每对待判断的图像的标签初始化为0或1，因为预测值也应该为0或1，这样预测值和实际值之间的比较将更加准确和正确。

根据欧几里德距离得到第一面部图像与第二面部图像的预测值，按照以下方法进行计算：

其中，A为预测值，D为第一面部图像的特征向量和第二面部图像的特征向量之间的欧几里德距离；

若预测值为0，则第一面部图像与第二面部图像为相似图像，属于同一个人；

若预测值为1，则第一面部图像与第二面部图像为不相似图像，不属于同一个人。

在一些实施例中，还包括根据欧几里德距离进行对比损失函数的计算，按照以下方法计算：

L＝(1-y)D²+y[max((m-D)，0)]²，

其中，L为第一面部图像和第二面部图像的损失值，y为相似图像或不相似图像的二进制标签，当第一面部图像与第二面部图像为相似图像时，y＝0；当第一面部图像与第二面部图像为不相似图像时，y＝1，m为一个大于0的边际值；

边际值的存在表明，超过边际值并不影响对比损失函数，在一些试验中，假设m的值为1。

暹罗网络通过反向传播损失值计算微调后的VGG-16模型的梯度，更新微调后的VGG-16模型的权重。

使用对比损失函数进行自适应模型估计，能够使相似的面部图像变得更近，而不相似的面部图像变得更远，试图令相似的面部图像对的欧几里德距离的平方最小化，而另不相似的面部图像对的欧几里德距离的平方最大化。

其中，训练后的VGG-16模型中，第一块、第二块、第三块、第四块和第五块共包括13层卷积层、5层池化层，第一完全连接层中包括顺次级联的第一完全连接层甲、第一完全连接层乙和第一完全连接层丙，第一完全连接层甲和第一完全连接层乙均包括4096个神经元，第一连接层丙包括1000个神经元。每一个卷积层都不会改变前一层的图像的长和宽，通过卷积可以实现通道数的增加，进行纬度和尺寸的变换操作。池化层可以降低图像尺寸并且提高网络的抗干扰能力，在本实施例中，池化层选取的是maxpooling。

卷积神经网络由若干卷积层和池化层堆叠的方式构成，比较容易形成较深的网络结构。

优选地，卷积层的内核为3×3，池化层的内核为2×2。多个3×3的卷积核比一个较大尺寸的卷积核有更多层的非线性函数，增加了非线性表达，使判决函数更具有判决性。

优选地，第二完全连接层包括顺次级联的第二完全连接层甲、第二完全连接层乙和第二完全连接层丙，第二完全连接层甲、第二完全连接层乙和第二完全连接层丙均包括512个神经元及RELU激活函数。

采用RELU激活函数，能够节省计算量，避免梯度消失的问题，并且RELU激活函数会使一部分神经元的输出为0，造成网络的稀疏性，减少参数的互相依存关系，缓解了过拟合问题的发生。

优选地，标注图像的尺寸为128×128×3。

在一些实施例中，还包括LFW数据集，LFW数据集包括多名待测人员的面部图像，面部图像的尺寸为250×250，面部图像均标有对应待测人员的名字，每位待测人员至少对应两张面部图像；

在暹罗网络中输入LFW数据集，生成与暹罗网络结构兼容的训练数据。

优选地，在LFW数据集中包括约1680名待测人员的面部图像，LFW数据集中包括面部图像越有13000张，均为彩色图像。

可选地，在暹罗网络中输入LFW数据集时，微调后的VGG-16模型会对面部图像进行裁剪，按照以下步骤裁剪：

固定裁剪尺寸为128×128，设置训练尺寸为128，裁剪时捕获面部图像全部的统计数据，再完全覆盖面部图像的训练尺寸。

其中，在LFW数据集中，60％的面部图像用于训练，40％的面部图像用于测试。

在一些实施例中，可将LFW数据集随机分割为两个训练子集和测试子集。

优选地，微调后的VGG-16模型的采用ADAM优化器，ADAM优化器的学习率为5×10^-7，批处理的数量为32，批处理的数量并不限制于此。

在本发明中，使用一个暹罗网络的架构来实现人脸识别，该架构由两个相似的卷积神经网络和迁移学习组成，使用迁移学习来解决人脸识别问题，用预先训练过的VGG-16模型作为架构中可用的卷积神经网络来进行特征提取。并结合欧氏距离计算一对待判断的图像的相似度。通过对比损失函数进行网络训练，最小化属于通一个人的图像对之间的相似性，最大化属于不同个体的图像对之间的相似性。最后利用相似度准则判断这两张图像是否属于一人。本发明对人脸识别具有较好的准确性，具有一定的实用价值。

通过上述实施例可知，本发明提供的基于迁移学习和卷积神经网络的面部识别方法，至少实现了如下的有益效果：

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于迁移学习和卷积神经网络的面部识别方法，其特征在于，包括：

使用深度学习框架建立VGG-16模型；

D＝‖f(x₀)-f(x₁)‖²,

2.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，还包括根据所述欧几里德距离进行对比损失函数的计算，按照以下方法计算：

L＝(1-y)D²+y[max((m-D),0)]²，

3.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，所述训练后的VGG-16模型中，所述第一块、所述第二块、所述第三块、所述第四块和所述第五块共包括13层卷积层、5层池化层，所述第一完全连接层中包括顺次级联的第一完全连接层甲、第一完全连接层乙和第一完全连接层丙，所述第一完全连接层甲和所述第一完全连接层乙均包括4096个神经元，所述第一连接层丙包括1000个神经元。

4.根据权利要求3所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，所述卷积层的内核为3×3，所述池化层的内核为2×2。

5.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，所述第二完全连接层包括顺次级联的第二完全连接层甲、第二完全连接层乙和第二完全连接层丙，所述第二完全连接层甲、所述第二完全连接层乙和所述第二完全连接层丙均包括512个神经元及RELU激活函数。

6.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，所述标注图像的尺寸为128×128×3。

7.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，还包括LFW数据集，所述LFW数据集包括多名待测人员的面部图像，所述面部图像的尺寸为250×250，所述面部图像均标有对应所述待测人员的名字，每位所述待测人员至少对应两张所述面部图像；

8.根据权利要求7所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，在所述暹罗网络中输入所述LFW数据集时，所述微调后的VGG-16模型会对所述面部图像进行裁剪，按照以下步骤裁剪：

9.根据权利要求7所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，在所述LFW数据集中，60％的所述面部图像用于训练，40％的所述面部图像用于测试。

10.根据权利要求1所述的基于迁移学习和卷积神经网络的面部识别方法，其特征在于，所述微调后的VGG-16模型的采用ADAM优化器，所述ADAM优化器的学习率为5×10^-7，批处理的数量为32。