CN110110650A

CN110110650A - 行人中的人脸识别方法

Info

Publication number: CN110110650A
Application number: CN201910365672.5A
Authority: CN
Inventors: 谢雪梅; 汪芳羽; 金楷; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-02
Filing date: 2019-05-02
Publication date: 2019-08-09

Abstract

本发明公开了一种行人中的人脸识别方法，主要解决现有技术里人脸跟踪丢造成误识的问题。其实现方案是：1、制备网络训练数据集；2、用网络训练数据集对行人检测网络、人脸检测网络、人脸识别网络这三个网络分别进行训练；3、制备多角度人脸特征数据库；4、用训练好的行人检测网络检测图像行人区域并跟踪行人区域；5、用训练好的人脸检测网络在行人区域内检测人脸区域；6、用训练好的人脸识别网络对人脸区域进行特征提取；7、将提取的特征与人脸特征数据库进行特征匹配，取特征匹配最好的结果作为人脸识别结果。本发明提高了人脸识别的准确率和稳定性，可用于多角度下的视频监控。

Description

行人中的人脸识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种人脸识别方法，可用于多角度下的视频监控。

技术背景

人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术，它由计算机分析人脸图像，从图像中提取有效信息并自动鉴别，人脸识别技术广泛应用于安全系统及人机交互等方面，已成为计算机视觉和模式识别领域中重要的研究课题之一。

传统的人脸识别算法包括几何特征方法，支持向量机，PCA等。几何特征方法速度快，但识别率较低。支持向量机和PCA方法准确率相对较高，但需要大量的训练样本。

近几年时出现的深度学习人脸识别算法相比传统方法，采用更深的网络结构，能够更好的学习数据的分布，提高了人脸识别的准确率。对于多角度的人脸识别通常使用视频监控实现，不需要测试者刻意配合，可以应用在课堂质量评估，会场签到等应用场景。但在现实环境中，要实时采集到的人脸图像信息角度多样，会受到人体毛发，口罩，帽子等常佩戴物体遮挡等多种因素的干扰，导致人脸识别误检率高，使得人脸识别技术的复杂度大大提高。

为了提高人脸识别的准确率，能够获取一段时间的人脸区域用于人脸识别，现有的深度学习人脸识别算法常常采取人脸检测并跟踪再识别的方法，但由于人脸目标比较小，且形变严重，所以容易出现人脸跟踪丢框，无法长时间跟踪人脸，仍存在较高的误检率。

发明内容

本发明的目的在于针对上述已有的技术的不足，提出一种行人中的人脸识别方法，以减小人脸跟踪的丢框，提高人脸识别的准确率。

本发明的技术方案是：通过跟踪算法跟踪检测出的行人，并锁定每个行人的标号，将这个行人的一段时间内的检测和跟踪的行人区域框进行人脸检测，得到这段时间内的所有人脸检测框；将人脸检测框通过人脸识别网络提取特征向量与特征数据库的特征向量进行比较，并取匹配最好的结果作为最终识别结果，以在动态识别过程中减少形变和遮挡引起的识别误差。其实现步骤包括如下：

(1)制备行人检测，人脸检测，人脸识别网络的训练数据集；

(2)采用随机梯度下降算法，用行人检测，人脸检测，人脸识别网络的训练数据集现有的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet分别进行训练，得到训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet；

(3)制备多角度人脸特征数据库：

(3a)采集一个未采集过的待识别人员正脸、左右侧脸、仰视和俯视共5张人脸图像，并纪录待识别人员的姓名；

(3b)将每张图像输入到训练好的人脸检测网络MTCNN中，人脸检测网络MTCNN输出每张人脸图像对应的人脸区域；

(3c)将每张图像对应的人脸区域输入到训练好的人脸识别网络FaceNet，输出每张人脸图像的512维人脸特征向量；

(3d)将所采集的待识别人员的姓名和5张人脸图像的512维人脸特征向量映射成一个字典；

(3e)判断是否采集完所有待识别人员的图像，若是，则用所有的映射字典组成人脸特征数据库；执行(4)，否则，返回(3a)；

(4)检测并跟踪图像的行人区域：

(4a)对摄像头的视频流进行一次实时采样，获得一张采集图像；

(4b)判断当前行人区域集合是否为空，若是，将采集的图像输入到行人检测网络Yolov3中，执行(4c)，否则，执行(4d)；

(4c)行人检测网络Yolov3判断输入的图像中是否含有至少一个行人区域，若是，行人检测网络Yolov3输出图像中所有的行人区域，并组成一个行人区域集合，执行(4d)，否则，返回(4a)；

(4d)判断行人区域集合是否替代了10次：若是，执行(4e)，否则，将行人区域集合输入到C++的机器学习算法工具包的deep-sort函数中，得到跟行人跟踪区域集合后，再用行人跟踪区域集合替代当前行人区域集合；

(4e)利用交并比公式，依次将行人区域集合内的行人区域与上次采样图像的行人区域集合内的所有行人区域分别计算重叠度，若重叠度中的最大值大于0.1，则用这次采样图像的行人区域替换为最大值对应的上次采样图像的行人区域，执行(5)，否则，保留这次采样图像的行人区域，执行(5)；

(5)将行人区域集合内的每一个行人区域分别输入到人脸检测网络MTCNN，人脸检测网络MTCNN分别输出对应的人脸区域，用所有的人脸区域组成当前人脸区域集合；

(6)将当前人脸区域集合中的每一个人脸区域输入到人脸识别网络FaceNet，输出每一个人脸区域对应的512维特征向量，并计算每一个人脸区域的特征向量与人脸特征数据库的特征向量的相似度；

(7)判断(6)是否进行了20次，若是，将所有的余弦相似度中最大值大于0.22的人脸区域判定无效识别，在人脸数据库中找到其余的余弦相似度最大值对应的特征向量，通过特征向量找到该人脸区域对应的人的信息，完成人脸识别，否则，返回(4)；

本发明与现有技术相比具有以下优点：

1.人脸识别稳定性强

现有的人脸识别方法采取人脸检测并跟踪再识别的方法，由于人脸目标较小容易出现人脸跟踪丢框，无法长时间跟踪人脸。而本发明采用了行人检测并跟踪的方法来实现锁定一个人连续的位置信息，能够在较长时间内稳定跟踪行人，从而获得更多信息用于人脸识别，使得本发明提高了人脸识别的稳定性。

2.人脸识别准确率高

现有的人脸识别场景复杂，人脸由于遮挡或形变导致误检率高。本发明采用了行人检测跟踪而不是人脸检测跟踪，能够在人脸遮挡或形变时仍能锁定为同一个人的人脸信息，减少了误识，提高了人脸识别的准确率。

附图说明

图1是本发明的实现流程图；

图2是本发明的仿真结果图。

具体实施方式

下面结合附图对本发明实施例和效果做进一步的描述。

参照图1，本发明的实现步骤如下：

步骤1，制备网络训练数据集。

(1.1)分别采集拥有行人位置信息图像至少10万张、人脸位置信息图像至少3万张、人脸身份信息图像至少20万张；

(1.2)将所采集的具有行人位置、人脸位置信息、人脸身份信息的图像各自组成行人检测、人脸检测、人脸识别网络的训练数据集。

步骤2，训练网络。

(2.1)从github网站上下载行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet；

所述行人检测网络Yolov3的结构依次为：第一卷积层→第二卷积层→第一残差块→第三卷积层→第二残差块→第四卷积层→第三残差块→第五卷积层→第四残差块→第六卷积层→第五残差块→池化层→全连接层→softmax层，其中：

第一残差块的结构依次为：第七卷积层→第八卷积层→第一残差层；

第二残差块包括两个串联连接的残差块，每个残差块结构依次为：第九卷积层→第十卷积层→第二残差层；

第三残差块包括8个串联连接的残差块，每个残差块的结构依次为：第十一卷积层→第十二卷积层→第三残差层；

第四残差块包括8个串联连接的残差块，每个残差块2的结构依次为：第十三卷积层→第十四卷积层→第四残差层；

第五残差块包括4个串联连接的残差块，每个残差块的结构依次为：第十五卷积层→第十六卷积层→第五残差层；

第一至第十六卷积层的卷积核大小依次设置为3、3、3、3、3、3、1、2、1、2、1、2、1、2、1、2，卷积核通道数依次设置为32、64、128、256、512、1024、32、64、64、128、128、256、256、512、512、1024，卷积核步长依次设置为1、2、2、2、2、2、1、1、1、1、1、1、1、1、1、1；

全连接层的节点数设置为1000；

所述人脸检测网络MTCNN，其由P、R、O三个子网络顺次连接组成，其中：

P子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第三卷积层→第三PRelu层→分类分支层；该分类分支层包含并联两路，一路依次为第四卷积层→softmax层，另一路为第五卷积层；第一至第五卷积层的卷积核大小依次设置为3、3、3、1、1，卷积核通道数依次设置为10、16、32、2、4，卷积核步长均设置为1；

R子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第二池化层→第三卷积层→第三PRelu层→第一全连接层→第四PRelu层→分类分支层；该分类分支层包含并联两路，一路依次为第二全连接层→softmax层，另一路为第三全连接层；第一至第三卷积层的卷积核大小依次设置为3、3、2，卷积核通道数依次设置为28、48、64，卷积核步长均设置为1；第一至第三全连接层的节点数依次设置为128、2、4；

O子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第二池化层→第三卷积层→第三PRelu层→第三池化层→第四卷积层→第四PRelu层→第一全连接层→分类分支层；该分类分支层包含并联三路，第一路依次为第五PRelu层→第二全连接层→softmax层，第二路为第三全连接层，第三路为第四全连接层；第一至第四卷积层的卷积核大小依次设置为3、3、3、2，卷积核通道数依次设置为32、64、64、128，卷积核步长均设置为1；第一至第三全连接层的节点数依次设置为256、2、4；

所述人脸识别网络FaceNet的结构依次为：第一卷积层→第二卷积层→第三卷积层→第一池化层→第四卷积层→第五卷积层→第六卷积层→第一残差块→第一降维块→第二残差块→第二降维块→第三残差块→第二池化层→全连接层，其中：

第一残差块包括5个串联连接的残差块，每个残差快的结构依次为：第一分类分支层→第一残差层→第七卷积层；该第一分类分支层包含并联三路，第一路为第八卷积层，第二路依次为第九卷积层→第十卷积层，第三路依次为第十一卷积层→第十二卷积层→第十三卷积层；

第二残差块包括10个串联连接的残差块，每个残差块的结构依次为:第二分类分支→第二残差层→第十四卷积层；该第二分类分支层包含并联两路；一路为第十五卷积层，另一路依次为第十六卷积层→第十七卷积层→第十八卷积层；

第三残差块包括5个串联连接的残差块，每个残差块的结构依次为：第三分类分支→第三残差层→第十九卷积层；该第三分类分支层包含并联两路；一路为第二十卷积层，另一路依次为第二十一卷积层→第二十二卷积层→第二十三卷积层；

第一降维块的结构依次为：第四分类分支层→第四残差层；该第四分类分支层包含并联三路，第一路为第二十四卷积层，第二路依次为第二十五卷积层→第二十六卷积层→第二十七卷积层，第三路为第三池化层；

第二降维块的结构依次为：第五分类分支层→第五残差层；该第五分类分支层包含并联四路；第一路依次为第二十八卷积层→第二十九卷积层，第二路依次为第三十卷积层→第三十一卷积层，第三路依次为第三十二卷积层→第三十三卷积层→第三十四卷积层→第三十一卷积层，第四路为第四池化层；

第一至第三十四卷积层的卷积核大小依次设置为3、3、3、1、3、3、1、1、1、1、1、3、1、3、3、1、1、1×7、7×1、1、1、1×3、3×1、3、1、3、3、1、3、1、3、1、3、3、3，卷积核通道数依次设置为32、32、64、80、192、256、3、3、3、32、32、32、32、32、32、128、128、128、128、192、192、192、192、256、384、256、384、256、384、256、256、256、256、3，卷积核步长依次设置为2、1、1、1、1、2、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、2、1、1、2、1、2、1、2、1、1、2，将全连接层的节点数设置为512；

(2.2)在[20000,25000]的范围，任意选取一个值作为行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的迭代次数，并将这三个网络中所有参数设置为均值0，方差1的高斯随机数，学习速率均设置为0.001；

(2.3)分别从行人检测，人脸检测，人脸识别网络各自的训练数据集中随机选取16个样本，将行人检测网络的训练集输入行人检测网络Yolov3，输出每个样本行人的得分值和位置信息，将人脸检测网络的训练集输入人脸检测网络MTCNN，输出每个样本人脸的得分值和位置信息，将人脸识别网络的训练集输入到人脸识别网络FaceNet，输出每个样本的人脸的得分值和身份信息；

(2.4)利用下述损失函数计算公式，计算所选取的样本损失值的平均值：

其中，l_j表示网络所选样本损失值的平均值，j＝1,2,3，l₁表示行人检测网络Yolov3所选样本损失值的平均值，l₂表示人脸检测网络MTCNN所选样本损失值的平均值，l₃表示人脸识别网络FaceNe所选样本损失值的平均值，i表示所选样本的序号，表示行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数为θ_j时对所选取样本的输出值，θ_j表示当前迭代更新前的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值，表示每个样本对应的标签值；

(2.5)按照下式，对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值进行更新：

其中，θ′_j表示网络更新后的参数值，j＝1,2,3，θ′₁表示行人检测网络Yolov3更新后的参数值，θ′₂表示人脸检测网络MTCNN更新后的参数值，θ′₃表示人脸识别网络FaceNet更新后的参数值，表示所选样本损失值的平均值对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet参数的求导值，θ_j表示更新前的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值；

(2.6)判断(2.5)是否达到设置的迭代次数，若是，得到训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet，否则，返回(2.3)。

步骤3，制备多角度人脸特征数据库。

制备人脸特征数据库现有技术有两种方法，第一种是制备单角度的人脸特征数据库，只采集待识别人员的正脸图像；第二种是制备多角度人脸特征数据库，采集待识别人员的多个角度的多张人脸图像。本发明采取但不限于第二种方法，其实现步骤如下：

(3.1)采集一个未采集过的待识别人员正脸、左右侧脸、仰视和俯视共5张人脸图像，并纪录待识别人员的姓名；

(3.2)将每张图像输入到训练好的人脸检测网络MTCNN中，人脸检测网络MTCNN输出每张人脸图像对应的人脸区域；

(3.3)将每张图像对应的人脸区域输入到训练好的人脸识别网络FaceNet，输出每张人脸图像的512维人脸特征向量；

(3.4)将所采集的待识别人员的姓名和5张人脸图像的512维人脸特征向量映射成一个字典；

(3.5)判断是否采集完所有待识别人员的图像，若是，则用所有的映射字典组成人脸特征数据库；执行步骤4，否则，返回(3.1)。

步骤4，检测并跟踪图像的行人区域。

(4.1)对摄像头的视频流进行一次实时采样，获得一张采集图像；

(4.2)判断当前行人区域集合是否为空，若是，将采集的图像输入到行人检测网络Yolov3中，执行(4.3)，否则，执行(4.4)；

(4.3)行人检测网络Yolov3判断输入的图像中是否含有至少一个行人区域：若是，则行人检测网络Yolov3输出图像中所有的行人区域，并组成一个行人区域集合，执行(4.4)，否则，返回(4.1)；

(4.4)判断行人区域集合是否替代了10次：若是，则执行(4.5)，否则，将行人区域集合输入到C++的机器学习算法工具包的deep-sort函数中，得到跟行人跟踪区域集合后，再用行人跟踪区域集合替代当前行人区域集合后执行(4.5)；

(4.5)利用交并比公式，依次将行人区域集合内的行人区域与上次采样图像的行人区域集合内的所有行人区域分别计算重叠度；

其中，IOU表示本次采样图像的行人区域与上次采样图像的行人区域的重叠度，A表示从采样图像的行人区域集合内选中的行人区域，B表示上次采样图像的行人区域集合内的一个行人区域；

(4.6)判断所有重叠度中的最大值是否大于0.1：若是，则用这次采样图像的行人区域替换为最大值对应的上次采样图像的行人区域，执行步骤5，否则，保留这次采样图像的行人区域，执行步骤5。

步骤5，在行人区域内检测人脸区域。

将行人区域集合内的每一个行人区域分别输入到人脸检测网络MTCNN，人脸检测网络MTCNN分别输出对应的人脸区域，用所有的人脸区域组成当前人脸区域集合。

步骤6，特征匹配。

将当前人脸区域集合中的每一个人脸区域输入到人脸识别网络FaceNet，输出每一个人脸区域对应的512维特征向量，并计算每一个人脸区域的特征向量与人脸特征数据库的特征向量的相似度：

其中，α表示每一个人脸区域的特征向量与人脸特征数据库的特征向量的相似度，X表示人脸区域特征向量，Y表示人脸特征库特征向量，T表示转置操作，arccos表示反三角函数中的反余弦操作。

步骤7，人脸识别。

人脸识别现有技术有两种方法。第一种是直接训练人脸分类器来识别人脸，第二种是通过计算人脸特征向量与人脸特征数据库的相似度来识别人脸，本步骤采取但不限于第二种方法，其实现步骤如下：

判断步骤6是否进行了20次，若是，将所有的余弦相似度中最大值大于0.22的人脸区域判定无效识别，在人脸数据库中找到其余的余弦相似度最大值对应的特征向量，通过特征向量找到该人脸区域对应的人的信息，完成人脸识别，否则，返回步骤4。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验所用计算机配置的处理器为Intel Core i7-6850K CPU，显卡为NVIDIA GeForce GTX 1080Ti，内存为128GB。计算机系统为ubuntu16.04，应用Tensorflow深度学习网络框架实现仿真实验。

本发明的仿真实验的训练数据如下：

行人检测网络Yolov3，所使用的训练数据集为COCO2014，该数据供包含164062张图片，里面标注了包含了行人在内的91类分类物体。

人脸检测网络MTCNN，所使用的训练数据集为WiderFace，Wider Face数据集是由香港中文大学创建的，该数据集共包含有32000张图片，393000个标注人脸，标注人脸有较大程度的尺寸、姿态和遮挡等变化。

人脸识别网络FaceNet，所使用的训练数据集为VGGFace2，VGGFace2是一个大规模人脸识别数据集，包含331万张图像，9131个身份信息，平均每个身份信息对应的图片个数为362.6，这些图像覆盖了大范围的人体姿态，年龄和种族。

本发明的仿真实验的测试数据为西安电子科技大学主楼二区走廊拍摄的视频，视频的帧率为25帧/秒。

2.仿真实验内容：

用本发明方法，采用仿真条件的训练数据集分别对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet这三个网络进行训练，得到训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet；再将训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet在西安电子科技大学主楼二区走廊的实时视频上进行测试，实时完成人脸识别，结果如图2所示，其中，

图2(a)、图2(b)是不同行人在同一个摄像头Camera II-134下的测试结果，图2(c)是行人在摄像头Camera II-126下的测试结果，在行人外边的框为行人区域，人脸上的框为人脸区域，行人区域左上角为人脸识别的结果，均为正确识别结果。

从图2中可以得到如下结论：本发明具有稳定和精确的人脸识别效果，同时具有良好的实时性。

Claims

1.一种行人中的人脸识别方法，其特征在于，包括如下：

(1)制备行人检测，人脸检测，人脸识别网络的训练数据集；

(2)采用随机梯度下降算法，用行人检测，人脸检测，人脸识别网络的训练数据集对现有的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet分别进行训练，得到训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet；

(3)制备多角度人脸特征数据库：

(4)检测并跟踪图像的行人区域：

(7)判断(6)是否进行了20次，若是，将所有的余弦相似度中最大值大于0.22的人脸区域判定无效识别，在人脸数据库中找到其余的余弦相似度最大值对应的特征向量，通过特征向量找到该人脸区域对应的人的信息，完成人脸识别，否则，返回(4)。

2.根据权利要求1所述的方法，其特征在于：(1)中的训练数据集，其制备步骤如下：

(1a)分别采集拥有行人位置信息图像至少10万张、人脸位置信息图像至少3万张、人脸身份信息图像至少20万张；

(1b)将所采集的具有行人位置、人脸位置信息、人脸身份信息的图像各自组成行人检测、人脸检测、人脸识别网络的训练数据集。

3.根据权利要求1所述的方法，其特征在于：(2)中行人检测网络Yolov3的结构依次为：第一卷积层→第二卷积层→第一残差块→第三卷积层→第二残差块→第四卷积层→第三残差块→第五卷积层→第四残差块→第六卷积层→第五残差块→池化层→全连接层→softmax层；

所述的第一残差块的结构依次为：第七卷积层→第八卷积层→第一残差层；

所述的第二残差块包括两个顺次连接的残差块，每个残差块结构依次为：第九卷积层→第十卷积层→第二残差层；

所述的第三残差块包括8个顺次连接的残差块，每个残差块的结构依次为：第十一卷积层→第十二卷积层→第三残差层；

所述的第四残差块包括8个顺次连接的残差块，每个残差块2的结构依次为：第十三卷积层→第十四卷积层→第四残差层；

所述的第五残差块包括4个顺次连接的残差块，每个残差块的结构依次为：第十五卷积层→第十六卷积层→第五残差层；

全连接层的节点数设置为1000。

4.根据权利要求1所述的方法，其特征在于：(2)中的人脸检测网络MTCNN，其由P、R、O三个子网络顺次连接组成；

所述P子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第三卷积层→第三PRelu层→分类分支层；该分类分支层包含并联两路，一路依次为第四卷积层→softmax层，另一路为第五卷积层；第一至第五卷积层的卷积核大小依次设置为3、3、3、1、1，卷积核通道数依次设置为10、16、32、2、4，卷积核步长均设置为1；

所述R子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第二池化层→第三卷积层→第三PRelu层→第一全连接层→第四PRelu层→分类分支层；该分类分支层包含并联两路，一路依次为第二全连接层→softmax层，另一路为第三全连接层；第一至第三卷积层的卷积核大小依次设置为3、3、2，卷积核通道数依次设置为28、48、64，卷积核步长均设置为1；第一至第三全连接层的节点数依次设置为128、2、4；

所述O子网络的结构依次为：第一卷积层→第一PRelu层→第一池化层→第二卷积层→第二PRelu层→第二池化层→第三卷积层→第三PRelu层→第三池化层→第四卷积层→第四PRelu层→第一全连接层→分类分支层；该分类分支层包含并联三路，第一路依次为第五PRelu层→第二全连接层→softmax层，第二路为第三全连接层，第三路为第四全连接层；第一至第四卷积层的卷积核大小依次设置为3、3、3、2，卷积核通道数依次设置为32、64、64、128，卷积核步长均设置为1；第一至第三全连接层的节点数依次设置为256、2、4。

5.根据权利要求1所述的方法，其特征在于：(2)中的人脸识别网络FaceNet的结构依次为：第一卷积层→第二卷积层→第三卷积层→第一池化层→第四卷积层→第五卷积层→第六卷积层→第一残差块→第一降维块→第二残差块→第二降维块→第三残差块→第二池化层→全连接层；

所述的第一残差块包括5个顺次连接的残差块，每个残差快的结构依次为：第一分类分支层→第一残差层→第七卷积层；该第一分类分支层包含并联三路，第一路为第八卷积层，第二路依次为第九卷积层→第十卷积层，第三路依次为第十一卷积层→第十二卷积层→第十三卷积层；

所述的第二残差块包括10个顺次连接的残差块，每个残差块的结构依次为:第二分类分支→第二残差层→第十四卷积层；该第二分类分支层包含并联两路；一路为第十五卷积层，另一路依次为第十六卷积层→第十七卷积层→第十八卷积层；

所述的第三残差块包括5个顺次连接的残差块，每个残差块的结构依次为：第三分类分支→第三残差层→第十九卷积层；该第三分类分支层包含并联两路；一路为第二十卷积层，另一路依次为第二十一卷积层→第二十二卷积层→第二十三卷积层；

所述的第一降维块的结构依次为：第四分类分支层→第四残差层；该第四分类分支层包含并联三路，第一路为第二十四卷积层，第二路依次为第二十五卷积层→第二十六卷积层→第二十七卷积层，第三路为第三池化层；

所述的第二降维块的结构依次为：第五分类分支层→第五残差层；该第五分类分支层包含并联四路；第一路依次为第二十八卷积层→第二十九卷积层，第二路依次为第三十卷积层→第三十一卷积层，第三路依次为第三十二卷积层→第三十三卷积层→第三十四卷积层→第三十一卷积层，第四路为第四池化层；

第一至第三十四卷积层的卷积核大小依次设置为3、3、3、1、3、3、1、1、1、1、1、3、1、3、3、1、1、1×7、7×1、1、1、1×3、3×1、3、1、3、3、1、3、1、3、1、3、3、3，卷积核通道数依次设置为32、32、64、80、192、256、3、3、3、32、32、32、32、32、32、128、128、128、128、192、192、192、192、256、384、256、384、256、384、256、256、256、256、3，卷积核步长依次设置为2、1、1、1、1、2、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、1、2、1、1、2、1、2、1、2、1、1、2，将全连接层的节点数设置为512。

6.根据权利要求1所述的方法，其特征在于，(2)中用随机梯度下降算法对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet进行训练步骤如下：

(2a)在[20000,25000]的范围，任意选取一个值作为行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的迭代次数，将三个网络中所有参数设置为均值0，方差1的高斯随机数，学习速率均设置为0.001；

(2b)分别从行人检测，人脸检测，人脸识别网络各自的训练数据集中随机选取16个样本，将行人检测网络的训练集输入行人检测网络Yolov3，输出每个样本行人的得分值和位置信息，将人脸检测网络的训练集输入人脸检测网络MTCNN，输出每个样本人脸的得分值和位置信息，将人脸识别网络的训练集输入到人脸识别网络FaceNet，输出每个样本的人脸的得分值和身份信息；

(2c)利用下述损失函数计算公式，计算所选取的样本损失值的平均值：

其中，l_j表示网络所选样本损失值的平均值，j＝1,2,3，l₁表示行人检测网络Yolov3所选样本损失值的平均值，l₂表示人脸检测网络MTCNN所选样本损失值的平均值，l₃表示人脸识别网络FaceNe所选样本损失值的平均值，i表示所选样本的序号，i＝1,2,…,16，表示行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数为θ_j时对所选取样本的输出值，θ_j表示当前迭代更新前的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值，表示每个样本对应的标签值；

(2d)按照下式，对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值进行更新：

其中，θ_j'表示网络更新后的参数值，j＝1,2,3，θ₁'表示行人检测网络Yolov3更新后的参数值，θ₂'表示人脸检测网络MTCNN更新后的参数值，θ₃'表示人脸识别网络FaceNet更新后的参数值，表示所选样本损失值的平均值对行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet参数的求导值，θ_j表示更新前的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet的参数值；

(2e)判断(2d)是否达到设置的迭代次数，若是，得到训练好的行人检测网络Yolov3，人脸检测网络MTCNN，人脸识别网络FaceNet，否则，返回(2b)。

7.根据权利要求1所述的行人中的人脸识别方法，其特征在于：(4e)中的交并比公式如下：

其中，IOU表示本次采样图像的行人区域与上次采样图像的行人区域的重叠度，A表示从采样图像的行人区域集合内选中的行人区域，B表示上次采样图像的行人区域集合内的一个行人区域。

8.根据权利要求1所述的方法，其特征在于：(6)中计算人脸区域的特征向量与人脸特征数据库的特征向量的相似度，计算公式如下：