CN113486712A

CN113486712A - 一种基于深度学习的多人脸识别方法、系统和介质

Info

Publication number: CN113486712A
Application number: CN202110601514.2A
Authority: CN
Inventors: 王志慧; 郭琪; 范道尔吉; 武慧娟
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-10-08
Anticipated expiration: 2041-05-31
Also published as: CN113486712B

Abstract

本公开涉及一种基于深度学习的多人脸识别方法、系统和介质。其中方法包括：对采集到的多人脸图像进行预处理，以获取多人脸图像的图像金字塔；对多人脸图像进行人脸识别以及场景识别；人脸识别包括：基于图像金字塔，利用多任务级联卷积神经网络，对多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像；从多人脸图像中提取多个候选人脸图像的图像特征，以基于图像特征，对多个候选人脸图像同步执行人脸识别，以得到人脸识别结果；场景识别包括：基于场景理解确定多人脸图像所属的场景作为场景识别结果；提取经人脸识别确定的人员在经场景识别确定的场景中对应的场景信息；可视化人员的身份信息和场景信息。

Description

一种基于深度学习的多人脸识别方法、系统和介质

技术领域

本公开涉及人脸识别领域，更具体地，涉及一种基于深度学习的多人脸识别方法、系统和介质。

背景技术

生物识别的方法由于具有唯一性、普遍性、实用性和易获取性的特点，在工业界和学术界都受到很大的关注。

在众多生物识别方法中，获取简单，存储方便的人脸识别，是目前最受欢迎的识别手段。用深度学习来进行人脸识别是目前工业界和学术界的主流手段，一般分为共有三个阶段，分别是人脸检测、人脸对齐、人脸识别。

首先，输入视频帧或是单张图片进行人脸检测和对齐，得到人脸位置的坐标和人脸关键点的坐标。之后，把检测的人脸结果转化为向量，与数据库已存的人脸特征向量进行欧氏距离或是余弦相似度的计算，根据比对相似度得到识别结果。

使用深度学习的人脸识别方法要达到优良效果的首要因素，就是拥有大量的数据集。其次，目前识别场景对人脸识算的法性能的要求越来越高，针对场景出现的多人脸、多角度、不良光照等等因素，都会导致精度达不到实际的要求的现状。除此之外，复杂的深度学习模型对设备也提出了很高的要求，模型也需要考虑到设备的成本和硬件的算力。

近两年新冠疫情爆发，并且逐渐常态化，抵御新冠疫情的最有效方法就是戴口罩隔离，所以公共场合的出行，人们都会选择戴口罩出行，这也对人脸识别提出了新的要求。

人脸识别的主要任务是确定识别出人脸的身份，其在各个方面都有广泛的利用，很多顶尖的科技公司都投入了大量的精力去研发推广人脸识别算法。

早期的人脸识别着眼于全局特征的层面，但是全局特征单模式的提取方式对人脸姿势和光照的变化非常敏感。为了进一步提高面对环境变换的鲁棒性，更多着眼于人脸局部特征的描述的研究开始被重视。

但是基于传统特征的人脸识别方法依旧存在泛化能力不强的缺陷。

使用深度学习的人脸识别算法性能的提高主要包括两个重要优化方向。第一个是设计性能优越的深度特征提取的网络架构。ResNet开创了一个新的复杂网络结构的思路，提出了“抄近道”的思想，使用了一种新的连接方式，改变了网络向前向后更新信息的方式，极大地提升了网络的性能。当然随着网络结构越来越复杂，计算消耗的问题也被关注。因此，轻量化网络成为近年来的一个研究热点，比如MobileNet深度可分离卷积，利用在三维层面分离卷积的思想，比传统卷积极大减少计算量。ShuffleNet通过逐点群卷积和通道混洗，在保证精度同时大大降低计算量。SqueezeNet压缩模型的思路是利用1*1卷积进行替换原有的卷积。ESPNetv2利用逐点群卷积和深度空洞可分离卷积在轻量化上更上一层楼。GhostNet拆分卷积生成的过程，通过传统的卷积生成一部分特征图，然后在生成的这部分特征图的基础上，通过线性操作再获取更多数量的特征图。FeatherNets基于流模块的极限光网络结构，弥补了全局平均池化GAP(Global Average Pooling)的不足，并且使用较少的参数。

第二个重要部分则是优化损失函数。Softmax loss因为其易于优化，收敛快等特性被广泛应用于图像分类领域。近年来，人脸识别领域的主要技术进展集中在如何改进Softmax loss。L-Softmax在Softmax Loss上引入了 margin(间隔)的概念，使得不同类可以更好地被区分，但是并没有引入权重归一化。SphereFace通过一个很形象的特征分布图，展示了引入margin 的效果，揭示了margin的增加，可以把类内被压缩的更紧凑，类间的界限变得更加清晰。AM-softmax loss将乘性的margin改成了加性的margin，并对网络提取的特征进行特征归一化操作，从而进一步提升了网络提取特征的可区分度。ArcFaceloss同样也是加性的margin，差别是在角度空间内对分类边界进行最大化，具有更强的几何解释，并且对分类的要求更为严格，取得的效果也较好。

最近一段时间，新冠疫情带来的人脸识别任务激发了带有AI人脸检测算法的红外测温、口罩佩戴检测等设备的研发和制备，可以说，识别带有部分遮挡的人脸已经是时下人脸识别的一个趋势。利用注意力机制(Attention) 进行有遮挡的人脸识别，使用RetinaNet最为骨干网络，利用了针对各尺度锚框(anchor)的注意力机制强调人脸区域，隐式地学到遮挡区域的人脸。此外，基于3DMM逆生成和生成对抗网络的方法来恢复被遮挡的人脸图像，在提出的对抗网络之前利用3DMM，并结合全局和局部对抗卷积神经网络来学习面部去遮挡模型。

随着人脸识别技术不断发展，很多在实际应用中具有广大前景的相关技术也不断涌出。例如：(1)包括云端服务器和终端的系统，其中终端用于获取待识别人脸图像，检测所存储的第一人脸识别模型与云端服务器所存储的第二人脸识别模型是否相同；(2)基于3D重建的人头识别，利用目标对称性构建3D模型，对人头照片进行3D重建,获得3D重建图像中进行人头识别。 (3)在多个预设位置上分别采集用户的脸部图像,确定采集图像的所述预设位置,并在确定的所述预设位置上采集用户当前的脸部图像,根据确定的所述预设位置在存储中进行识别；(4)基于人脸识别算法的疫情防控智能系统，包括箱体，感应组件,所述感应组件包括设置于所述箱体顶部延伸端的测温模块、设置于所述箱体侧面的人机交互模块,以及与所述人机交互模块相邻设置有身份识别模块；(5)疫情监控系统，属于物联网技术领域，包括云端服务器和监控端，云端服务器包括待检测对象的身份信息，并用于监控和分析疫情数据、指挥和调度防疫人员进行抗疫。

相比于传统的单人脸检测，多人脸检测存在更多的挑战和难题。比如，光照等环境条件无法得到很好地控制，同时还存在人脸之间会存在遮挡、人脸的尺寸多变、小尺寸人脸、人脸姿态复杂等问题。基于传统方法的人脸检测方法，往往采用一组人工标记特征来训练分类器，依赖于人脸的局部特征提取，所以依旧无法处理复杂场景的多人脸检测。近些年，深度学习凭借着性能的优越性被广泛用来解决各种图像视觉任务上，但是目前的基于深度学习的方法，常用的人脸特征提取网络往往会通过池化层缩小图像的尺寸，来增大感受野，然后通过上采样来扩大图像的尺寸。在多人脸场景中，小人脸就会被前述过程过多降维而直接忽略掉了，这导致在多人脸检测中存在部分人脸漏检的现象。同样，多人脸检测既需要大尺寸核捕获高分辨率的特征，同时又需要小尺寸核捕获低分辨率特征。

在多人脸识别的过程中，由于人脸数的增加和环境的复杂程度的提高，会使得不同的人脸有角度、尺寸、光线条件的差异，这就要求网络有更好的特征学习能力，可以获得更加丰富和多层次的人脸特征。基于深度学习实现的人脸识别算法，常采用结构复杂、层数较深的比较庞大的网络模型来提取人脸特征，这就导致网络的计算量比较大。并且，当人脸识别算法落地在多人脸环境中，同时识别多个人脸准确率变低、速度变慢，若逐个进行识别，则效率会大大降低。

同时，由于2019年年底新型冠状病毒肺炎疫情的发生，在抗击疫情的过程中，各城区对于外来人员的流动管控已刻不容缓。其中，重中之重的是交通枢纽及时对来往人员的信息进行监控及跟踪。而且抵御新冠疫情的最有效方法就是戴口罩隔离，每逢特殊节日或是一些特定场所人员总是很密集，这使得监管越来越力不从心，目前的一些方法，无法针对特定场合和人员所处的相应场景对识别人员身份输出有效信息，而且对带有口罩的遮挡人脸识别识别效果不佳。

发明内容

提供了本公开以解决现有技术中存在的上述问题。

具体地，针对目前方法无法适应在新冠疫情监控防御的多人脸场景下，对遮挡人脸高效快速地进行人脸检测和识别的不足，本公开提出一种基于深度学习的多人脸识别方案，其基于多人脸检测算法，针对小尺寸、低分率人脸的漏检现象，解决识别算法模型大、无法在移动设备搭建的不足等问题；进一步加入遮挡人脸数据集进行训练，以解决目前人脸识别算法在面对疫情防控之下戴口罩人脸的识别性能不佳的问题。同时加入场景理解，可以针对所理解判断的相应场景显示每个人的多方面信息内容。

本公开的第一方面提供了一种基于深度学习的多人脸识别方法。所述方法包括：步骤S1、对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；步骤S2、对所述多人脸图像进行人脸识别以及场景识别；步骤S3、根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；步骤 S4、可视化所述人员的身份信息和场景信息。

其中，所述人脸识别具体包括：基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、R-Net、O-Net；以及根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述多个候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息。

其中，所述场景识别具体包括：基于场景理解确定所述多人脸图像所属的场景作为场景识别结果。

具体地，在所述步骤S1中，所述预处理包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

具体地，在所述步骤S2中，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取所述多个候选人脸图像，具体包括：所述P-Net为第一级网络，利用所述P-Net，对所述图像金字塔中的图像进行基于检测框的分类结果的粗筛选，以获取第一候选集，并确定所述第一候选集中的图像的检测框的坐标信息；所述R-Net为第二级网络，利用所述R-Net，基于所述检测框的坐标信息从所述多人脸图像中截取对应的图像，以获取第二候选集；所述O-Net为第三级网络，利用所述O-Net，对所述第二候选集中的图像进行优化筛选，以获取第三候选集，并提取所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息；将所述第三候选集中的图像作为所述多个候选人脸图像，将所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息作为所述多个候选人脸图像的附加信息。

具体地，在所述步骤S2中，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用 Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

本公开的第二方面提供了一种基于深度学习的多人脸识别系统。所述系统包括：第一处理单元，被配置为，对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；第二处理单元，被配置为，包括人脸识别单元和场景识别单元；第三处理单元，被配置为，根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；第四处理单元，被配置为，可视化所述人员的身份信息和场景信息。

其中，所述人脸识别单元被配置为，基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、R-Net、O-Net；以及根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述多个候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息。

其中，所述场景识别单元被配置为，对所述多人脸图像进行场景识别：基于场景理解确定所述多人脸图像所属的场景作为场景识别结果。

具体地，所述第一处理单元具体被配置为，执行所述预处理具体包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

具体地，所述第二处理单元具体被配置为，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取所述多个候选人脸图像，具体包括：所述P-Net为第一级网络，利用所述P-Net，对所述图像金字塔中的图像进行基于检测框的分类结果的粗筛选，以获取第一候选集，并确定所述第一候选集中的图像的检测框的坐标信息；所述R-Net为第二级网络，利用所述 R-Net，基于所述检测框的坐标信息从所述多人脸图像中截取对应的图像，以获取第二候选集；所述O-Net为第三级网络，利用所述O-Net，对所述第二候选集中的图像进行优化筛选，以获取第三候选集，并提取所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息；将所述第三候选集中的图像作为所述多个候选人脸图像，将所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息作为所述多个候选人脸图像的附加信息。

具体地，所述第二处理单元具体被配置为，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

本公开的第三方面提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本公开第一方面中任一项所述的一种基于深度学习的多人脸识别方法中的步骤。

综上，本公开的技术方案在多人脸检测中采用新设计的特征提取网络，结合新的数据增强方法和优化后的检测流程来准确实现在多人脸环境中进行人脸区域检测和特征对齐，极大减少了漏检现象。在多人脸识别中多人脸特征的轻量级网络结构具有良好的识别性能。进一步利用经训练的人脸识别模型，提高对口罩遮挡的人脸的检测和识别能力。同时加入场景理解，可以针对应用环境显示该人员的多个信息，方便在不同的适用场景进行针对性输出。最后设计开发了搭载提出方法的识别系统，齐聚友界面友好、方便用户操作使用、模型轻量、易于在移动和嵌入设设备进行搭载、方便推广的特点。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了根据本公开实施例的一种基于深度学习的多人脸识别方法的流程图；

图2示出了根据本公开实施例的多任务级联卷积神经网络的 Pixelfusion单元和Pixelfusion_main单元结构图；

图3示出了根据本公开实施例的多任务级联卷积神经网络的卷积神经网络的架构示意图；

图4为示出了根据本公开实施例的优化后的基于多任务级联卷积神经网络的多人脸检测流程图；

图5为示出了根据本公开实施例的Multi-GhostNet的网络结构图；

图6示出了根据本公开实施例的基于多任务级联卷积神经网络和 Multi-GhostNet的多人脸检测与识别的整体算法图；

图7示出了根据本公开实施例的结合场景理解的多人脸检测与识别方法的原理性示意图；

图8示出了根据本公开实施例的运行流程图；

图9示出了根据本公开实施例的多人脸检测效果图；

图10示出了根据本公开实施例的多人脸对齐效果图；

图11示出了根据本公开实施例的结合场景理解后的多人脸识别效果图；

图12示出了根据本公开实施例的GUI系统登录界面图；

图13示出了根据本公开实施例的基于多人脸检测与识别的GUI系统核心算法的框架图；以及

图14示出了根据本公开实施例的一种基于深度学习的多人脸识别系统的结构图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

下面将结合附图详细说明，本公开第一方面提出了一种基于深度学习的多人脸识别方法。图1示出了根据本公开实施例的一种基于深度学习的多人脸识别方法的流程图；如图1所示，所述方法包括：步骤S1、对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；步骤S2、对所述多人脸图像进行人脸识别以及场景识别；步骤S3、根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；步骤S4、可视化所述人员的身份信息和场景信息。

其中，所述人脸识别具体包括：基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，以数据增强的方式对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、R-Net、O-Net；以及根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述候选人脸图像执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息。

在步骤S1中，对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔。

具体地，所述预处理包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

在一些实施例中，在多人脸场景采用高清摄像机通过实时码流来抓拍人脸，提供输入数据；对测试图片进行中值滤波；对测试图片进行剪裁直到大等于12*12，堆叠这些不同大小的图片形成图像金字塔。

在步骤S2中，对所述多人脸图像进行人脸识别以及场景识别。

一、人脸识别

(1)基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、 R-Net、O-Net。

具体地，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，具体包括：所述P-Net为第一级网络，利用所述 P-Net，对所述图像金字塔中的图像进行基于检测框的分类结果的粗筛选，以获取第一候选集，并确定所述第一候选集中的图像的检测框的坐标信息；所述R-Net为第二级网络，利用所述R-Net，基于所述检测框的坐标信息从所述多人脸图像中截取对应的图像，以获取第二候选集；所述O-Net为第三级网络，利用所述O-Net，对所述第二候选集中的图像进行优化筛选，以获取第三候选集，并提取所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息；将所述第三候选集中的图像作为所述多个候选人脸图像，将所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息作为所述多个候选人脸图像的附加信息。

在一些实施例中，将图像金字塔输入多任务级联卷积神经网络的第一级网络P-Net，得到大量的候选：人脸框根据分类得分，筛选掉一大部分的候选，再根据得到的4个偏移量对检测框进行校准后得到检测框的左上右下的坐标；经过P-Net筛选出来的候选图片，经过第二级网络R-Net：根据P-Net 输出的坐标，去原图上截取出图片，剪裁为24*24，输入到R-Net，进行进一步筛选人脸检测框；经过R-Net筛选很多候选后的图像输入到第三级网络 O-Net进行最终优化，输出准确的人脸检测框坐标和关键点坐标：根据R-Net 输出的坐标，去原图上截取出图片，剪裁为48*48，输入到O-Net，得到最终人脸检测和对齐的结果。

为解决单尺度核尺寸的局限性，获得更高的精度和效率，满足多人脸检测算法的要求，本发明做出了针对性改进，利用多卷积核和空洞卷积的思想，设计了新的多任务级联卷积神经网络结构，改善了单尺度卷积核尺寸的局限性，获得更高的精度和效率，满足了多人脸检测既需要大尺寸核捕获高分辨率的特征，同时需要小尺寸核捕获低分辨率特征的需求。多任务级联卷积神经网络的核心是Pixelfusion单元和Pixelfusion_main单元，如图2所示，增加了卷积核的多样性；利用空洞卷积代替了池化层，以不增加计算量的前提下获得较大的感受野，保留了更加丰富的特征，提取更多分辨率的特征；同时加入通道混洗使得更多通道得到关注、输出的特征更加丰富，提高了网络的表达能力。每个改进的卷积神经网络架构如图3所示。

在多人脸检测任务中，数据集的质量是非常重要的。为提高模型泛化能力，减少获取新数据的成本，解决过拟合问题，本发明采取旋转、依据概率水平翻转、依据概率垂直翻转、转换为Tensor的形式、标准化这五种数据增强方法。在实际训练中，发现P-Net、R-Net、O-Net三级网络各自有着不同的作用——P-Net完成初筛，R-Net进一步筛选候选框，而O-Net则是最后的精细筛选确定位置。如果采用相同的增强方式，效果反而不太理想。但加入数据增强方式过多，则不利于O-Net完成最终优化任务，所以经过多种组合方式的实验，提出了如表1所示的新的数据集增强方式，对三种网络进行不同的优化方案。

表1数据增强方案

	P-Net	R-Net	O-Net
				Transforms.randomrotation	√	√
Transforms.randomverticalflip
				Transforms.randomhorizontalflip
Transforms.totensor	√	√	√
				Transforms.normalize	√	√	√

同时，本发明使用中值滤波器优化了检测过程，以更好地适应黑暗场景中多人脸的检测，优化后的检测流程如图4所示。

(2)根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述多个候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息。

具体地，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

在一些实施例中，通过提取网络Multi-GhostNet进行特征提取，得到人脸512维度特征向量；将特征X_i和权重W_j分别归一化为：

和

行矩阵相乘，得到全连接输出：

经过归一化的操作，最后结果为cosθ_j。为了获得特征值X_i和权重W_yi之间的角度θ_yi，将cos(θ_yi)执行反余弦操作，其中y_i为真实的标签；对θ_yi在cos算子里面加如角度惩罚项m，将值设立为 m＝0.5，得到cos(θ_yi+m)，对得到的特征乘以参数来放大，得到输出s*cosθ_j；将结果输送到Softmax函数：

最后得到预测的输出概率，得到识别结果。

为了改善人脸识别特征提取网络复杂不易搭载的缺陷，进一步提高识别效率。在人脸识别算法Arcface的基础上，本发明提出了新的轻量化人脸特征提取网络结构Multi-GhostNet，加入Ghost module，包含了五个Ghost Bottleneck，通过常规卷积获得一部分特征图，然后利用计算开销小的线性操作补充获得所需数量的特征图，减少冗余的产生。利用基于在角度空间增加margin思想的ARCface loss对网络进行监督，可以在多个识别目标中可以提取更加全面的特征，也解决了多人脸识别中容易忽略较小目标的问题。而且轻量化的网络模型设计调整了网络深度，不会导致模型训练难度过大，减少网络过深带来的计算负担，改善了多人脸识别速度过慢的缺点，兼得速度和精度的要求。

同时使用武汉大学国家多媒体软件工程技术研究中心提出的真实世界口罩遮挡人脸识别数据集(RMFRD)进行迁移训练，提高对口罩遮挡的人脸的检测和识别能力。Multi-GhostNet的结构如图5所示，基于Multi-MTCNN的多人脸检测和Multi-GhostNet的多人脸识别的整体算法如图6所示。

二、场景识别

所述场景识别具体包括：基于场景理解确定所述多人脸图像所属的场景作为场景识别结果。

在一些实施例中，场景理解对获取图像中的场景进行理解分析，判断图像中的人员出于何种场景。

在步骤S3，根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息。

在步骤S4，可视化所述人员的身份信息和场景信息

在一些实施例中，基于识别出的场景，自动调用相对应部门的数据库信息匹配识别的人脸身份ID，进一步显示所识别出的人脸的相关信息。人脸目标被识别出时，系统显示端自动滚动显示每个人的姓名、性别等信息，并同时依据场景理解调取相应部门的数据库信息显示信息内容。如果识别结果为未知人员，显示端输出“无此人”信息。

为了满足由于疫情监控需要，对人流量较大的特殊场景，输出相应的人脸信息的迫切需求。本发明加入了场景理解的过程，通过自动调用相对应部门的数据库信息来显示所识别出的多个人的相关信息，例如人员的姓名、性别、航行或列车行程记录、疫苗接种情况等。通过加入了环境感知任务,提出了一个深层的道路场景分割网络(Road SceneSegmentation Network,RSSNet),该网络为32层的全卷积神经网络,由卷积编码网络和反卷积解码网络组成。网络中采用批正则化层防止了深度网络在训练中容易出现的梯度消失问题；在激活层中采用了Maxout激活函数，进一步缓解了梯度消失,避免网络陷入饱和模式以及出现神经元死亡现象；同时在网络中适当使用 Dropout操作，防止了模型出现过拟合现象；编码网络存储了特征图的最大池化索引并在解码网络中使用它们，保留了重要的边缘信息。结合场景理解的多人脸检测与识别方法的原理性示意图、流程图分别如图7和图8所示。

具体示例

为了验证本发明的多人脸检测对齐和识别模型的性能，并且显示模型的轻量性。为了对比验证本文提出的网络性能的优越性，表2是采用不同网络模型在三个测试集上的精度，由表2可以得出，本发明提出的基于深度学习的多人脸检测和识别模型，在三个验证集上的精度都大于轻量化的模型 MobileNet-v1，并且略小于结构十分复杂的模型ResNet-50。以牺牲非常小的精度损失，换来近二十倍模型的尺寸缩小量。除了考虑模型的精度，为了解决在多人脸同步识别中，同时识别多个人脸带来速度过慢的缺陷，网络的计算量也是一个重要的考量因素，所以为了验证轻量性，表3记录了三种模型的参数量和模型大小、以及FLOPs。人脸识别的精度的评价是定义如下：正确识别的为人脸的样本数/实际人脸样本数；模型复杂度评价的FlOPs是计算定义如下：FLOPs＝2HW(C_INK2+1)C_OUT，其中，H，W，C_IN是特征图输入的长宽高和通道数，K是卷积核，C_OUT是输出通道数。

表2不同模型识别精度性能对比

Network	AgeDB-30	CFP_FP	LFW
				ResNet-50	96.05％	95.22％	99.78％
Mobilenet-v1	88.67％	88.52％	98.49％
				Ours	93.63％	89.69％	99.31％

表3不同模型大小对比

Network	FLOPs	Parameters	Size/MB
				ResNet-50	6322027520	43797696	167
Mobilenet-v1	227835648	1200512	4.7
				Ours	74598656	1733952	6.7

总结表2和表3的内容，说明本发明新设计模型和复杂的识别模型相比，虽识别准确率略低，但是更加轻量，网络模型大小仅为6.7MB，远远小于 RestNet-50的167Mb，可以很好地在移动设备上部署。同时，准确率远远大于轻量模型Mobilenet--v1。并且，通过计算代表浮点运算次数FLOPs，我们提出的网络模型的FLOPs相比于其他算法模型，大大减小，计算代价明显下降，复杂度明显减小。

综上所述，本公开第一方面的方法很好地兼顾了多人脸检测和识别速度和精度的需求，可以完成在多人脸场景下对人脸身份的检测和识别。从长远来看，在如今疫情防控常态的发展趋势下，在机场、火车站等人流密集，外来人员多的地点，人工核实来往人员身份，存在精度容易下降、等待时间长等缺点。由于是人工操作，不仅要额外增加防控人员，且容易出现纰漏，易接触，一旦出现缺口，后果不堪设想。部署本发明自动化、低成本、效率更高的多人脸检测和识别系统，是理想的监测手段。在未来，载入来往人员交通信息数据库，可以在出站闸口进行部署，对来往人员进行身份识别。显示出其基本信息，分析风险、及时预警，真正做到可防可控。例如，当场景理解结果为火车站时，可以显示出人脸的姓名、年龄、是否佩戴口罩、以及乘坐车次。当在人流密集的街头部署时，可以显示出多个人脸的信息，还可包含近七天飞机或者是火车的出行状况，预期效果分别如图9-11所示。

为了适应在移动设备上的搭建需求，考虑用户对界面设计的要求，本发明涉及开发GUI界面。在PyCharm上利用PyQt设计实现了一套多人脸检测和识别系统，该系统搭载了可应用于人流吞吐量大的场景下的、加入场景理解的基于深度学习的多人脸检测和识别算法。系统很好地兼顾了精度和速度的要求，轻巧、易于在移动设备上搭建，界面简洁清晰、功能强大，可以为用户提供多人脸检测和识别的各种需求。GUI系统登录界面如图12所示，GUI 系统核心算法如图13所示。

本公开的第二方面提供了一种基于深度学习的多人脸识别系统。图14 示出了根据本公开实施例的一种基于深度学习的多人脸识别系统的结构图，如图14所示，所述系统1400包括：第一处理单元1401，被配置为，对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；第二处理单元1402，被配置为，包括人脸识别单元1402-1和场景识别单元1402-2；第三处理单元1403，被配置为，根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；第四处理单元1401，被配置为，可视化所述人员的身份信息和场景信息。

其中，所述人脸识别单元1402-1被配置为，基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、R-Net、O-Net；以及根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述多个候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息。

其中，所述场景识别单元1402-2被配置为，对所述多人脸图像进行场景识别：基于场景理解确定所述多人脸图像所属的场景作为场景识别结果。

具体地，所述第一处理单元1401具体被配置为，执行所述预处理具体包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

具体地，所述第二处理单元1402具体被配置为，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取所述多个候选人脸图像，具体包括：所述P-Net为第一级网络，利用所述P-Net，对所述图像金字塔中的图像进行基于检测框的分类结果的粗筛选，以获取第一候选集，并确定所述第一候选集中的图像的检测框的坐标信息；所述R-Net为第二级网络，利用所述R-Net，基于所述检测框的坐标信息从所述多人脸图像中截取对应的图像，以获取第二候选集；所述O-Net为第三级网络，利用所述O-Net，对所述第二候选集中的图像进行优化筛选，以获取第三候选集，并提取所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息；将所述第三候选集中的图像作为所述多个候选人脸图像，将所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息作为所述多个候选人脸图像的附加信息。

具体地，所述第二处理单元1402具体被配置为，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

注意，根据本公开的各个实施例中的各个模块，可以实现为存储在存储器上的计算机可执行指令，由处理器执行时可以实现相应的步骤；也可以实现为具有相应逻辑计算能力的硬件；也可以实现为软件和硬件的组合(固件)。在一些实施例中，处理器可以实现为FPGA、ASIC、DSP芯片、SOC(片上系统)、 MPU(例如但不限于Cortex)、等中的任何一种。处理器可以通信地耦合到存储器并且被配置为执行存储在其中的计算机可执行指令。存储器可以包括只读存储器(ROM)、闪存、随机存取存储器(RAM)、诸如同步DRAM(SDRAM) 或Rambus DRAM的动态随机存取存储器(DRAM)、静态存储器(例如，闪存、静态随机存取存储器)等，其上以任何格式存储计算机可执行指令。计算机可执行指令可以被处理器访问，从ROM或者任何其他合适的存储位置读取，并加载到RAM中供处理器执行，以实现根据本公开中的各个实施例。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种基于深度学习的多人脸识别方法，其特征在于，所述方法包括：

步骤S1、对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；

步骤S2、对所述多人脸图像进行人脸识别以及场景识别；其中：

所述人脸识别具体包括：

基于所述图像金字塔，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取多个候选人脸图像，其中所述三级网络分别为P-Net、R-Net、O-Net；以及

根据所述人脸检测和对齐的结果，利用轻量级网络模型从所述多人脸图像中提取所述多个候选人脸图像的图像特征，以基于所述图像特征，利用经训练的人脸识别模型，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，其中所述人脸识别结果包括经所述人脸识别确定的人员的身份信息；

所述场景识别具体包括：

基于场景理解确定所述多人脸图像所属的场景作为场景识别结果；

步骤S3、根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；

步骤S4、可视化所述人员的身份信息和场景信息。

2.根据权利要求1所述的一种基于深度学习的多人脸识别方法，其特征在于，在所述步骤S1中，所述预处理包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

3.根据权利要求1所述的一种基于深度学习的多人脸识别方法，其特征在于，在所述步骤S2中，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取所述多个候选人脸图像，具体包括：

所述P-Net为第一级网络，利用所述P-Net，对所述图像金字塔中的图像进行基于检测框的分类结果的粗筛选，以获取第一候选集，并确定所述第一候选集中的图像的检测框的坐标信息；

所述R-Net为第二级网络，利用所述R-Net，基于所述检测框的坐标信息从所述多人脸图像中截取对应的图像，以获取第二候选集；

所述O-Net为第三级网络，利用所述O-Net，对所述第二候选集中的图像进行优化筛选，以获取第三候选集，并提取所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息；

将所述第三候选集中的图像作为所述多个候选人脸图像，将所述第三候选集中的图像的检测框的坐标信息和关键点的坐标信息作为所述多个候选人脸图像的附加信息。

4.根据权利要求1所述的一种基于深度学习的多人脸识别方法，其特征在于，在所述步骤S2中，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

5.一种基于深度学习的多人脸识别系统，其特征在于，所述系统包括：

第一处理单元，被配置为，对采集到的多人脸图像进行预处理，以获取所述多人脸图像的图像金字塔；

第二处理单元，被配置为，包括人脸识别单元和场景识别单元，其中：

所述人脸识别单元被配置为，对所述多人脸图像进行人脸识别，具体包括；

所述场景识别单元被配置为，对所述多人脸图像进行场景识别：

第三处理单元，被配置为，根据所述人脸识别结果和所述场景识别结果，提取经所述人脸识别确定的所述人员在经所述场景识别确定的所述场景中对应的场景信息；

第四处理单元，被配置为，可视化所述人员的身份信息和场景信息。

6.根据权利要求5所述的一种基于深度学习的多人脸识别系统，其特征在于，所述第一处理单元具体被配置为，执行所述预处理具体包括：对所述多人脸图像进行中值滤波；剪裁经所述中值滤波的多人脸图像至预定尺寸；堆叠符合所述预定尺寸的多人脸图像以获取所述图像金字塔。

7.根据权利要求5所述的一种基于深度学习的多人脸识别系统，其特征在于，所述第二处理单元具体被配置为，利用包含三级网络的多任务级联卷积神经网络，通过数据增强和检测优化对所述多人脸图像一次性执行针对多人脸的人脸检测和对齐，以获取所述多个候选人脸图像，具体包括：

8.根据权利要求5所述的一种基于深度学习的多人脸识别系统，其特征在于，所述第二处理单元具体被配置为，对所述多个候选人脸图像同步执行人脸识别，以得到人脸识别结果，具体包括：根据所述图像特征和预设权重，利用Softmax函数计算各个候选人脸图像的输出概率，基于所述输出概率确定所述识别结果。

9.一种存储有指令的非暂时性计算机可读介质，其特征在于，当所述指令由处理器执行时，执行根据权利要求1-4中任一项所述的一种基于深度学习的多人脸识别方法中的步骤。