CN109993061B

CN109993061B - 一种人脸检测与识别方法、系统以及终端设备

Info

Publication number: CN109993061B
Application number: CN201910157360.5A
Authority: CN
Inventors: 殷绪成; 李凯; 杨博闻; 杨春
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-12-07
Anticipated expiration: 2039-03-01
Also published as: CN109993061A

Abstract

本发明公开了一种人脸检测与识别方法、系统以及终端设备。该方法方法集成了MTCNN和用YOLOv3两种深度学习方法，本方法首先通过利用MTCNN模型来对所输入的图片进行快速高效地人脸检测，以进行一次的检测筛选，而当MTCNN模型对所输入的图片检测不出人脸时，则通过采用YOLOv3模型进行二次检测筛选，以对所输入的图片进行更为全面的的人脸识别，在道路监控中，面对车内人脸的情景，本方法结合了两种模型的优点，提高了整体的检出率；同时因为两种模型速度都较快，所以保证了速度；而对MTCNN模型输出结果中的关键点处理，更是减少了旋转人脸对后续人脸识别任务的影响。

Description

一种人脸检测与识别方法、系统以及终端设备

技术领域

本发明涉及计算机视觉领域，具体涉及一种人脸检测与识别方法、系统以及终端设备。

背景技术

人脸检测识别作为较为成熟的技术，已经应用于比如上班打卡，智能门铃，智慧交通等领域。在智慧交通领域，对道路监控视频进行处理是一项很基础也很关键的任务，是采集证据，提供破案思路的重要手段。

人脸检测技术主要指对图像或视频的某帧采取一定策略，判断其是否含有人脸以及获取人脸的位置信息，是人脸识别系统的关键一环。传统的人脸检测技术通常采用提取图片中的特征(harr特征等)，从而判断是够含有人脸的方法，无法获得人脸的具体位置，或者说其检测结果不便于后续处理，基于深度学习的人脸检测技术则使用深层神经网络，从图像中抽象出高层特征，不仅能判断是否含有人脸，更能预测出人脸的位置，鲁棒性更强，准确率更高。

R-CNN(Region-based Convolutional Neural Network)(Ross B.Girshick,JeffDonahue, Trevor Darrell,and Jitendra Malik.2014.Rich Feature Hierarchies forAccurate Object Detection and Semantic Segmentation.In CVPR’14Proceedings ofthe 2014IEEE Conference on Computer Vision and Pattern Recognition.580–587.)是一种经典的区域检测方法。R-CNN用选择性搜索(selective search)算法在图像中提取侯选框，并将归一化后的候选区域输入到CNN网络中，进行特征的提取。对于CNN特征，再用SVM分类来做识别，用线性回归来微调边框位置与大小。但是，R-CNN相当耗时，因为通过选择性搜索产生的候选框太多，每个候选框都需要进入CNN网络提取特征，计算效率不够高，有很多计算是重复的。之后人们研究出SPP-Net(空间金字塔池)替代选择性搜索，形成FastR-CNN和 Faster R-CNN(Shaoqing Ren,Kaiming He,Ross B.Girshick,and JianSun.2015.Faster R-CNN:towards real-time object detection with region proposalnetworks.In NIPS’ 15Proceedings of the 28th International Conference onNeural Information Processing Systems-Volume 1,Vol.2015.91–99.)网络。Faster R-CNN最大的贡献就是提出了 RPN(Region Proposal Networks)网络结构，RPN的核心思想是使用卷积神经网络直接产生候选框(region proposal)，使用的方法本质上虽然还是滑动窗口，但产生的候选框数远远少于选择性搜索产生的候选框数目。借助RPN结构，Faster R-CNN成为一个两阶段的端到端检测框架。所谓两阶段，即一阶段用于产生候选框，另一阶段对候选框进行处理。虽然这种类型的网络结构已经能解决大部分问题，但在运行速度上有不小的缺陷，为了实现实时检测，人们开始研究一阶段的网络，希望将候选框的生成和特征提取集中到一个网络，从而提高运行速度。

YOLO(Joseph Redmon,Santosh Divvala,Ross Girshick,and AliFarhadi.2016.You Only Look Once:Unified,Real-Time Object Detection.CVPR)和SSD(Wei Liu,Dragomir Anguelov,Dumitru Erhan,Christian Szegedy,Scott E.Reed,Cheng-Yang Fu,and Alexander C.Berg.2016.SSD:Single Shot MultiBoxDetector.european conference on computer vision(2016),21–37.)是受业界认可的一阶段，或称端到端型的网络结构模型。 YOLO将物体检测作为回归问题求解。实现从原始图像的输入到物体位置和类别的输出，输入图像经过一次Inference(推断)，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。其借鉴了GoogleNet分类网络的结构，对每个网格预测两个边框(anchor),通过这点替代了选择性搜索或RPN网络。YOLO的结构图见附图1。但第一个版本的YOLO的速度还是很慢，相对于实时的要求来讲，而且对于不同尺寸的同种物体的泛化能力比较弱。SSD的主干网络是VGGnet，其特点在于使用了多尺度技巧，将三种尺度的特征结合在一起进行分类和回归。

文献1(K.Zhang and Z.Zhang and Z.Li and Y.Qiao.2015.Joint FaceDetection and Alignment Using Multitask Cascaded Convolutional Networks.IEEESignal Processing Letters.23(10):1499-1503.)提出了一种级联的神经网络MTCNN，算法原理见附图2，这是一种三级级联网络，第一级P-net(proposal network，)对图像采用图像金字塔技巧，然后使用边界框回归(Bounding box regression)生成候选框，再使用非极大值抑制(NMS)进行过滤；第二级R-net(refine network)则对上一级生成的候选框进行进一步的筛选，同样使用边界框回归和非极大值抑制方法；第三级O-net(output network)在第二级的基础上加入了对人脸5个关键点位置的回归。文献2(Redmon,Joseph andFarhadi, Ali.2018.YOLOv3:An Incremental Improvement.arXiv)改进了上文中YOLO的神经网络结构，添加了多尺度融合技术，并且使用了k-means聚类的方法，优化了对anchor尺寸的选择，增强了对不同尺度物体的泛化能力，形成了神经网络YOLOv3，网络架构见附图4。

上述人脸检测技术虽然已经被普遍接受，但各自有优缺点。MTCNN模型因为加入了关键点位置的检测，所以比较方便之后进行人脸识别，但侧面、遮挡的人脸的关键点信息不足，所以该模型对这类人脸的检测率较低，同时本身的误检率会因为多了一个指标而升高；YOLOv3 模型改进了原模型对小人脸的检测，但如果将检测结果直接用于人脸识别，会因为人脸可能的偏转问题导致识别率下降。

人脸识别技术指利用人的面部特征进行身份识别的生物识别技术。文献3(Liu,Weiyang and Wen,Yandong and Yu,Zhiding and Li,Ming and Raj,Bhiksha and Song,Le.2017. SphereFace:Deep Hypersphere Embedding for Face Recognition.CVPR)基于传统的softmax 采用了权值归一化的技巧，使用了角间距的概念，很好的实现了最大类间间距和最小类内间距的识别标准。

发明内容

为了解决现有人脸识别检测率以及识别率低的问题，本发明实施例提供了一种人脸检测与识别方法、系统、终端设备以及计算机可读存储介质。

为实现上述目的，本发明的技术方案是：

第一方面，本发明实施例提供了一种人脸检测与识别方法，包括；

利用多任务卷积神经网络MTCNN模型对所输入的图片进行人脸检测，以检测出该所图片是否包含人脸；

当采用多任务卷积神经网络MTCNN模型检测出该所输入的图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

当采用多任务卷积神经网络MTCNN模型检测出所输入的图片没有包含有人脸时，则对该所输入的图片采用YOLOv3模型进行进行人脸检测，以检测出该所输入的图片是否包含人脸，当检测出该图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

对所述输出剪切出来的人脸图片提取出目标人脸特征，并与数据库人脸进行比对，筛选出余弦相似度最高的人脸作为识别结果。

第二方面，本发明实施例提供了一种人脸检测与识别系统，包括：

第一人脸检测模块，其通过利用多任务卷积神经网络MTCNN模型对所输入的图片进行人脸检测，以检测出该所图片是否包含人脸；当检测出该所输入的图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

第二人脸检测模块，其用于当第一人脸检测模块检测出所输入的图片没有包含有人脸时则对该所输入的图片采用YOLOv3模型进行进行人脸检测，以检测出该所输入的图片是否包含人脸；当检测出该图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

特征提取模块，其用于对第一人脸检测模块或第二人脸检测模块所输出剪切出来的人脸图片进行目标人脸特征提取；

比对模块，其用于将所述特征提取模块所提取出的目标人脸特征与数据库人脸进行比对，筛选出余弦相似度最高的人脸作为识别结果。

第三方面，本发明实施例提供了一种人脸检测与识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所提供的方法步骤。

第四方面，本本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如如上述第一方面所提供的方法步骤。

本发明与现有技术相比，其有益效果在于：

本发明集成了MTCNN和YOLOv3两种深度学习方法，更将人脸检测，人脸识别技术结合起来，形成一套行之有效的人脸检测-识别系统。在道路监控中，面对车内人脸的情景，本方案结合了两种模型的优点，提高了整体的检出率；同时因为两种模型速度都较快，所以保证了速度；而对MTCNN模型输出结果中的关键点处理，更是减少了旋转人脸对后续人脸识别任务的影响。

附图说明

图1为YOLOv1网络结构图

图2为MTCNN三级级联结构图

图3为MTCNN三级结构对应的网络架构图，左上角对应P-net(proposal network)，右上角对应R-net(refine network)，下方对应的是O-net(output network)

图4为YOLOv3的网络结构图；

图5为本发明实施例提供的人脸检测与识别方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的内容做进一步详细说明。

实施例：

在本实施例中，本发明的所应用的场景是：在道路交通的监控视频中，对车辆中的人脸进行检测与识别。由于交通的监控视频中，车辆中的人脸相对车辆就已经够小，更不用说相对于车道。所以即使监控摄像头本身的像素足够高，最后抓拍到的图片中的人脸也足够小，同时因为人在车内，面部会受外界光照的影响，很多情况是处于阴影之中。本实施例主要针对上述道路交通监控中，车辆中的人脸特点，提出了一种人脸检测与识别方法。具体地，请参考图5，本实施例提供的人脸检测与识别方法包括：

由此可知，本方法集成了MTCNN和用YOLOv3两种深度学习方法，本方法首先通过利用 MTCNN模型来对所输入的图片进行快速高效地人脸检测，进行第一次的检测筛选，而当MTCNN 模型对所输入的图片检测不出人脸时，则通过采用YOLOv3模型进行二次检测筛选，这样便可以对所有输入的图片进行更为全面的人脸检测。在道路监控中，面对车内人脸的情景，本方法结合了两种模型的优点，提高了整体的检出率；同时因为两种模型速度都较快，所以保证了速度；而对MTCNN模型输出结果中的关键点处理，更是减少了旋转人脸对后续人脸识别任务的影响。

具体地，在人脸识别方面，本方法使用Sphereface模型提取人脸特征。一方面需要保存数据库中人脸的人脸特征；一方面，通过以下公式比对目标人脸和数据库人脸之间的余弦相似度：

其中，A＝(A₁，A₂，…，A_n)，B＝(B₁，B₂，...，B_n)，分别表示目标人脸和数据库人脸的特征向量。

通过比较阈值，在人脸数据库中确定候选人脸集，通常情况下选取相似度最高的人脸作为最终的识别结果，以保证识别的准确性。

其中，MTCNN的三层级联网络结构见附图3。在进入P-net之前，需要对输入进行金字塔化，其层数由两个因素决定，第一个是设置的最小人脸minSize，第二个是缩放因子factor，最小人脸表示min(w,h)，可以根据以下公式计算图像金字塔的层数：

minL＝min(w,h)*(12/minsize)*factor^(n)，n＝{0,1,2,3,...,N}

R-net和O-net都是为了对P-net中的候选框进行筛选，不同之处在于O-net加入了五个关键点(左眼，右眼，鼻子，嘴巴右下角，嘴巴左下角)位置的约束，这样使得网络本身的优化目标从原来的是否有人脸的二分类问题，加人脸位置的回归问题，变成了上述两个问题再加五个关键点位置的回归问题。所以，对于前两个模型，关键点位置的回归造成的损失设为0，相应的要调整最后一层模型的损失函数中，对应三个问题部分的权值。

关于YOLOv3的训练，如图4，在输入之前对数据进行归一化处理，便于之后加入其它数据训练是不用考虑分布。同时，YOLOv3的anchor尺寸通过对训练数据使用k-means方法分类得到合适的尺寸，一般分为9类，即九组尺寸(长、宽)。之后使用了负样本采样技巧，防止征服样本比例差距过大，保证模型的泛化能力，防止出现过拟合现象。

优选地，在对采用多任务卷积神经网络MTCNN模型所输出剪切出来的人脸图片提取出目标人脸特征之前还对该人脸图片进行仿射变换。也就是说，在人脸检测结果出来之后，尽可能根据五个关键点(左眼，右眼，鼻子，嘴巴右下角，嘴巴左下角)的信息，对人脸进行仿射变换，减小人脸旋转对之后人脸识别任务的影响。

本方法在具体实验应用时，使用多个移动的数据记录器在不同地点收集视频，然后对视频中出现的人脸进行了标注。加上Widerface和CelebA数据集。前者共32,203张图片，包括393,703张人脸，涉及61种活动，后者有10,177个名人身份的202,599张人脸，提供了 5个关键点信息，以及40个属性。用于训练MTCNN和YOLOv3模型。

测网络预训练阶段：使用widerface数据集对MTCNN和YOLOv3模型进行预训练，让模型首先具有相当的检测人脸的能力。

检测网络微调阶段：使用标注好的上千张车内人脸数据对两模型进行调整，使其在道路监控的情况下具有一定的泛化能力。

检测网络测试阶段：分别使用了事先随机划分好的widerface数据集和车内人脸数据集对两种模型进行了测试，根据测试结果调整训练方案和最后的阈值。

识别网络的训练集是MS-Celeb-1M。该数据集含有十万明星的一百万张人脸图片。

在本发明的实验中，我们使用Caffe框架作为训练工具。MTCNN中P-net训练阶段的初始学习率是0.005，每批次128张图片；R-net的初始学习率是0.002，每批次128张图片，O-net的初始学习率是0.005，每批次128张图片。

在训练之前需要对数据集进行处理。上述已经提到过P-net会对输入图片的图片金字塔进行学习，以增强在尺度上的鲁棒性。在生成图片金字塔的时候，会随机生成一些框，与真实框计算IOU(目标框和真实框之间交集和并集的商)，并依据这个将框标记为负样本，正样本，局部样本。对于R-net和O-net网络，两者的输入数据由上一级网络，分别是P-net 和R-net产生的框和真实框计算IOU值得到，也意味着训练过程是递进式，先训练P-net，再训练R-net，最后加入关键点数据训练O-net。

较佳地，，当IOU小于0.3，标记该图片(框)为负样本；当IOU大于0.65，标记该图片(框)为正样本；当IOU在0.4和0.65之间，标记该图片(框)为局部样本。训练阶段 P-net的输入固定在12*12，R-net的输入固定在24*24，O-net的输入固定在48*48。

训练YOLO时，首先对数据集按照以下公式进行归一化处理：

中心点x坐标计算公式：

中心点y坐标计算公式：

目标框宽度的计算公式：

目标框高度计算公式：

其中，(x1,y1)(x2,y2)为标记框的左下角和右上角坐标，w,h分别为图像的宽和高。

在开始训练之前，首先对训练集进行分析，用k-means聚类方法对训练集中人脸框进行分类，将分类结果作为anchor的尺寸。

较佳地，设定k为9，对widerface数据集进行分类，得到9组anchor的值为(24，29),(32，40),(43，55),(60，77),(83，110),(118，157),(178，236),(279， 368),(464，615)。

训练阶段图片尺寸固定在448*448，每一小批次8张图片，每批次256张图片，初始学习率定为0.001。

Sphereface的训练过程中，初始学习率为0.01，每批次128张图片。

以上实验分别在配置有NVIDIA GeForce 1080ti，NVIDIA Tesla P4的服务器上实现。

通过实验发现，通过使用本实施例提供的人脸检测与识别方法所得人脸检测与人脸识别网络在LFW测试数据集上的识别准确率能够达到99％以上，在车辆内人脸的困难测试集上的识别准确率为77％，1:1比对的准确率为93％。

相应地，本实施例还提供了一种人脸检测与识别系统，包括：

由此可知，本系统通过设置有第一人脸检测模块和第二人脸检测模块，第一人脸检测模块首先通过利用MTCNN模型来对所输入的图片进行快速高效地人脸检测，以进行一次的检测筛选，而当MTCNN模型对所输入的图片检测不出人脸时，则第二人脸检测模块通过采用YOLOv3 模型进行二次检测筛选，以对所输入的图片进行更为全面的的人脸识别，在道路监控中，面对车内人脸的情景，本方法结合了两种模型的优点，提高了整体的检出率。

具体地，该比对模块通过以下公式来比对目标人脸特征与数据库人脸之间的余弦相似度：

其中，A＝(A₁，A₂，…，A_n)，B＝(B₁，B₂，...，B_n)，分别表示目标人脸和数据库人脸的特征向量；

通过比较阈值，在人脸数据库中确定候选人脸集，选取相似度最高的人脸作为最终的识别结果。

优选地，上述的人脸检测与识别系统还仿射变换模块，其用于对第一人脸检测模块所输出剪切出来的人脸图片进行仿射变换，并将仿射变换后的人脸图片传输至特征提取模块进行处理，以减小人脸旋转对之后人脸识别任务的影响。

优选地，该特征提取模块通过采用Sphereface模型来对对第一人脸检测模块或第二人脸检测模块所输出剪切出来的人脸图片进行人脸特征提取，以保证提取准确性。

此外，本实施例还提供了一种人脸检测与识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，该处理器执行所述计算机程序时实现如上述所提供的人脸检测与识别方法所实现的步骤。相应地，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所提供的人脸检测与识别方法所实现的步骤。

上述实施例只是为了说明本发明的技术构思及特点，其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种人脸检测与识别方法，其特征在于，包括；

利用多任务卷积神经网络MTCNN模型对所输入的图片进行人脸检测，以检测出该图片是否包含人脸；

当采用多任务卷积神经网络MTCNN模型检测出所输入的图片没有包含有人脸时，则对该所输入的图片采用YOLOv3模型进行人脸检测，以检测出该所输入的图片是否包含人脸，当检测出该图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

对所述输出剪切出来的人脸图片提取出目标人脸特征，并与数据库人脸进行比对，筛选出余弦相似度最高的人脸作为识别结果；

通过以下公式来比对目标人脸特征与数据库人脸之间的余弦相似度：

通过比较阈值，在人脸数据库中确定候选人脸集，选取相似度最高的人脸作为最终的识别结果；

通过采用Sphereface模型来对所述输出剪切出来的人脸图片提取出目标人脸特征；

利用多任务卷积神经网络MTCNN模型对所输入的图片进行人脸检测时，图片在进入MTCNN模型P-net之前，需要对输入图片进行金字塔化，其层数由两个因素决定，第一个是设置的最小人脸minSize，第二个是缩放因子factor，最小人脸表示min(w,h)，根据以下公式计算图像金字塔的层数：

minL＝min(w,h)*(12/minsize)*factor^(n)，n＝{0,1,2,3,...,N}

R-net和O-net都是为了对P-net中的候选框进行筛选，不同之处在于O-net加入了五个关键点，左眼，右眼，鼻子，嘴巴右下角，嘴巴左下角位置的约束；

在对采用多任务卷积神经网络MTCNN模型所输出剪切出来的人脸图片提取出目标人脸特征之前还对该人脸图片进行仿射变换。

2.一种人脸检测与识别系统，其特征在于，包括：

第一人脸检测模块，其通过利用多任务卷积神经网络MTCNN模型对所输入的图片进行人脸检测，以检测出该图片是否包含人脸；当检测出该所输入的图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

第二人脸检测模块，其用于当第一人脸检测模块检测出所输入的图片没有包含有人脸时则对该所输入的图片采用YOLOv3模型进行人脸检测，以检测出该所输入的图片是否包含人脸；当检测出该图片包含有人脸时，则对该图片进行剪切，输出剪切出来的人脸图片；

比对模块，其用于将所述特征提取模块所提取出的目标人脸特征与数据库人脸进行比对，筛选出余弦相似度最高的人脸作为识别结果；

仿射变换模块，其用于对第一人脸检测模块所输出剪切出来的人脸图片进行仿射变换，并将仿射变换后的人脸图片传输至特征提取模块进行处理；

所述特征提取模块通过采用Sphereface模型来对第一人脸检测模块或第二人脸检测模块所输出剪切出来的人脸图片进行人脸特征提取；

minL＝min(w,h)*(12/minsize)*factor^(n)，n＝{0,1,2,3,...,N}

R-net和O-net都是为了对P-net中的候选框进行筛选，不同之处在于O-net加入了五个关键点，左眼，右眼，鼻子，嘴巴右下角，嘴巴左下角位置的约束。

3.一种人脸检测与识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述的方法步骤。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1所述的方法步骤。