CN113537107A

CN113537107A - 一种基于深度学习的人脸识别及追踪方法、装置及设备

Info

Publication number: CN113537107A
Application number: CN202110837252.XA
Authority: CN
Inventors: 邹宗锐; 张宁
Original assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Current assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-22

Abstract

本申请实施例公开了一种基于深度学习的人脸识别及追踪方法、装置及设备。方法包括：实时获取预设区域内每个摄像头拍摄的视频流，并对视频流逐帧进行人脸目标检测；对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；将人脸特征向量以及人脸目标的访问记录存储在访客列表中；对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；在访客列表中，检索与目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。用于解决人脸识别跨摄像头追踪和人脸检索过程中计算量大、效率低的技术问题。

Description

一种基于深度学习的人脸识别及追踪方法、装置及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种基于深度学习的人脸识别及追踪方法、装置及设备。

背景技术

随着国家数字化战略不断深入，越来越多的园区厂区需要人脸识别服务，不仅仅为了限制无关人员进出，也有追踪不特定的人员何时进入或离开某一区域，或查询该人员出现在什么区域的场景需求。但目前的人脸识别功能大多只支持判断某一人员是否存在白名单中，它们很少可以记录不在人员名单中的人员，并在其他摄像头中追踪查询这一陌生人再度出现的画面。而支持追踪人物的方法则所需的计算量较为庞大，需要占用较多硬件资源，否则难以保证计算速度。

现有的技术中，一般会对视频图像帧中的人脸进行多目标追踪，也就是在一段视频中，不光要检测其中每一帧图像中的所有人脸的位置，还要确定前后两帧图像之间的人脸是否为同一个目标。对于视频中的每一个人脸，都对他们进行特征提取，获得它们的特征向量，然后对特征向量进行比对，判断它是否为特定人物。其中，多目标追踪的算法，如SORT、DeepSORT、MOTDT，都使用了卡尔曼滤波和匈牙利算法，尤其是DeepSORT还添加了级联匹配(Matching Cascade)和新轨迹的确认(confirmed)，这样的算法计算量大，对设备计算能力要求较高。若画面中同时存在多个人脸，就使得特征向量的比对变得困难。同时，这些算法即使使用了目标追踪算法，也仅仅只能在一个摄像头画面内进行追踪，而无法跨摄像头进行人物的追踪。

发明内容

本申请实施例提供了一种基于深度学习的人脸识别及追踪方法、装置及设备，用于解决人脸识别跨摄像头追踪和人脸检索过程中计算量大、效率低的技术问题。

本申请实施例采用下述技术方案：

本申请实施例提供了一种基于深度学习的人脸识别及追踪方法，包括：实时获取预设区域内每个摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测；对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中；其中，所述访问记录至少包括以下一项或多项：拍摄所述人脸目标的摄像头信息、所述摄像头拍摄到所述人脸目标的时间、所述人脸目标对应的人员身份信息；对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。

本申请实施例通过检测一个或多个摄像头画面中的一个或多个人脸目标，对人脸目标进行特征提取后确定人脸目标的身份，并将人脸特征向量记录在访客列表中；以及通过提取一张人脸图像的人脸特征，在所有访客列表中进行比对，找出所有该人脸出现过的场景记录。以实现厂区或园区内的人脸识别以及人员追踪。

在一种可行的实施方式中，实时获取预设区域内若干摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测，具体包括：为所述预设区域内的每个摄像头创建一个线程，并通过所述线程读取所述每个摄像头拍摄的视频流；其中，所述每个摄像头对应一个唯一的编号；创建一个消息队列；将所述摄像头的编号以及所述摄像头拍摄的最新图像帧传入所述消息队列；读取所述消息队列中的编号以及最新图像帧；基于所述编号确定所述最新图像帧的来源摄像头，并对所述最新图像帧进行人脸目标检测。

本申请实施例对于每一个需要检测的摄像头，都开启一个线程，读取视频流，并将摄像头编号及最新一帧图像传入消息队列中。同时对用来进行人脸检测和人脸特征提取的类进行单独实例化为模型类，并令它监听消息队列，若消息队列中传入新的图像帧，则将其取出。模型类接收到图像帧后，首先判断它的来源摄像头，然后对图像进行人脸检测和特征提取，并将提取的特征向量与访问记录写入该摄像头对应的访客列表中，从而降低深度学习模型对资源的占用。

在一种可行的实施方式中，所述基于所述编号确定所述最新图像帧的来源摄像头，并对所述最新图像帧进行人脸目标检测，具体包括：通过卷积神经网络对所述最新图像帧进行预处理，得到图像矩阵；通过分类器对所述图像矩阵进行人脸识别，得到若干人脸候选框以及所述若干人脸候选框的置信度；基于所述若干人脸候选框的置信度，对所述若干人脸候选框进行非极大值抑制，得到剩余人脸候选框；将识别到非人脸目标的所述剩余人脸候选框删除，得到人脸目标框；确定所述人脸目标框内关键点的坐标；其中，所述关键点包括左眼眼角对应的点、右眼眼角对应的点、鼻底对应的点、左嘴角对应的点以及右嘴角对应的点；基于所述关键点的坐标，通过仿射变换技术对所述人脸目标框中的人脸目标进行人脸矫正，从而得到最终的人脸目标。

在一种可行的实施方式中，在对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量之前，所述方法还包括：记录所述来源摄像头的第一预设图像帧中包含的若干所述人脸目标框的坐标；其中，所述人脸目标框的坐标通过左上角点的坐标以及右下角点的坐标进行表示；确定所述最新图像帧中检测到的人脸目标框与所述第一预设图像帧中包含的若干人脸目标框的交并比；在至少一个所述交并比大于第一预设阈值的情况下，不对所述最新图像帧中的人脸目标进行特征提取。

在一种可行的实施方式中，对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中，具体包括：记录所述来源摄像头的第二预设图像帧中包含的若干人脸目标的人脸特征向量；在所述交并比均小于或等于第一预设阈值的情况下，对所述最新图像帧中的人脸目标进行特征提取；确定所述最新图像帧中的人脸特征向量与所述第二预设图像帧中的人脸特征向量的第一相似度；在所述第一相似度均小于或等于第二预设阈值的情况下，确定所述最新图像帧中的人脸特征向量对应的人脸目标的访问记录，并将所述访问记录以及所述最新图像帧中的人脸特征向量存储在所述访客列表中；在任一第一相似度大于第二预设阈值的情况下，不存储所述最新图像帧中的人脸特征向量。

为避免摄像头中每一帧都检测到同一张人脸时重复记录人员信息，一般应对图像中的目标进行多目标跟踪，判断图像中的一个目标与前后帧图像中存在的目标是否为同一目标。但进行多目标跟踪需要消耗大量资源，特别是需要通过卷积神经网络进行特征提取，产生了很大的计算量。本申请实施例通过前后图像帧的人脸候选框坐标和人脸特征向量比对的方式替代了多目标跟踪，降低了资源占用量，提高了计算速度。

在一种可行的实施方式中，所述访客列表包括已知访客列表以及陌生访客列表；将所述访问记录以及所述最新图像帧中的人脸特征向量存储在所述访客列表中，具体包括：对预设人员名单中的人员照片进行人脸特征提取，得到已知人脸特征库；将所述最新图像帧中的人脸特征向量与所述已知人脸特征库中的人脸特征向量进行对比；在所述最新图像帧中的人脸特征向量属于所述已知人脸特征库的情况下，将所述最新图像帧中的人脸特征向量存储在所述已知访客列表中；在所述最新图像帧中的人脸特征向量不属于所述已知人脸特征库的情况下，将所述最新图像帧中的人脸特征向量存储在所述陌生访客列表中。

在一种可行的实施方式中，在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录，具体包括：确定所述目标人脸特征向量与所述访客列表中的人脸特征向量的第二相似度；检索所述第二相似度大于第三预设阈值的所有人脸特征向量；返回所述所有人脸特征向量对应的访问记录。

本申请实施例在检索目标对象时，不需要重新从访客记录图像中提取特征，而是直接利用人脸检测时提取的人脸特征进行比对，以达到减少计算量，提升检索效率的目的。

在一种可行的实施方式中，在返回所述所有人脸特征向量对应的访问记录之后，所述方法还包括：根据所述访问记录中的人员身份信息，筛选与所述目标对象身份一致的人脸特征向量；根据所述访问记录中的摄像头信息以及所述摄像头拍摄到所述人脸目标的时间，确定所述目标对象出现过的位置以及到达所述位置的时间，从而确定所述目标对象的运动轨迹；其中，所述摄像头信息至少包括摄像头的编号。

另外，本申请实施例还提供了一种基于深度学习的人脸识别及追踪装置，包括：人脸检测模块，用于实时获取预设区域内每个摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测；以及，对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；以及，将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中；人脸检索模块，用于对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；以及，在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。

本申请实施例还提供了一种基于深度学习的人脸识别及追踪设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一实施方式所述的一种基于深度学习的人脸识别及追踪方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本申请实施例通过人脸检测模块以及人脸检索模块实现了厂区或园区内人员的人脸识别以及轨迹追踪，并通过前后坐标信息和人脸特征比对的方式替代了多目标跟踪，降低了资源占用量，提高了计算速度。还通过直接利用人脸检测时提取出的人脸特征进行检索目标对象，减少了人脸检索的计算量，提升了人脸检索的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例提供的一种基于深度学习的人脸识别及追踪方法流程图；

图2为本申请实施例提供的一种人脸目标检测流程示意图；

图3为本申请实施例提供的一种基于深度学习的人脸识别及追踪装置的结构示意图；

图4为本申请实施例提供的一种基于深度学习的人脸识别及追踪设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1为本申请实施例提供的一种基于深度学习的人脸识别及追踪方法流程图，如图1所示，人脸识别及追踪方法具体可包括S101-S106：

S101、实时获取预设区域内每个摄像头拍摄的视频流，并对视频流逐帧进行人脸目标检测。

具体地，在进行人脸检测之前，预先在人脸检测模块中建立一个用于人脸目标检测的消息队列，并为预设区域内的每个摄像头创建一个线程，用于读取每个摄像头拍摄的视频流，其中，每个摄像头对应一个唯一的编号。以及实时将摄像头的编号以及拍摄的最新图像帧传入消息队列。以及，将用于人脸检测和人脸特征提取的类单独实例化为模型类。

进一步地，在人脸检测模块启动之后，通过模型类监听消息队列。在监听到消息队列中传入编号和图像帧后，人脸检测模块读取消息队列中的编号以及最新图像帧。基于该编号确定该最新图像帧的来源摄像头，并对该最新图像帧进行人脸目标检测。

进一步地，进行人脸目标检测的方法为：首先将图像按照预设比例进行下采样，逐级缩小图像尺寸，构建图像金字塔，然后利用一个全卷积神经网络，对图像金字塔进行卷积操作，得到图像矩阵。然后，通过分类器对图像矩阵进行分类，得到相互重叠的若干人脸候选框以及人脸候选框对应的置信度。将这些相互重叠的人脸候选框进行非极大值抑制，非极大值抑制的具体算法流程如下：(1)将所有人脸候选框按照置信度排序，选中最高置信度的人脸候选框；(2)遍历其余的人脸候选框，如果和最高置信度的人脸候选框的交并比(IOU)大于一定的阈值，就将该候选框删除；(3)在和最高置信度的人脸候选框的交并比小于或等于该阈值的人脸候选框中继续选一个置信度最高的人脸候选框，重复步骤(1)-(2)，直至没有任何两个人脸候选框的交并比超过该阈值。

进一步地，将所有经过非极大值抑制的人脸候选框传入另一个卷积神经网络中，进一步判断剩余的人脸候选框中识别的是否是人脸目标，删除识别的是非人脸目标的人脸候选框，从而得到人脸目标框。确定人脸目标框内关键点的坐标；其中，关键点包括左眼眼角对应的点、右眼眼角对应的点、鼻底对应的点、左嘴角对应的点以及右嘴角对应的点。并将人脸目标框所包含的图像矩阵映射为表示上述关键点坐标的向量。此时，已经检测到了图像帧中所有的人脸目标，以及人脸目标中关键点的位置，并通过人脸目标框将每个人脸目标框了出来。

进一步地，根据关键点坐标，通过仿射变换将关键点点变换至固定位置，即对人脸目标框中的人脸目标进行人脸对齐，也叫人脸矫正。进而得到最终检测到的人脸目标。

在一个实施例中，如图2所示，原始图像在经过卷积神经网络的识别后，会在每个人脸目标上产生若干个相互重叠的人脸候选框(如图2中的第二张图像)，通过非极大值抑制算法在若干个重叠的人脸候选框中选出置信度最高的一个人脸候选框作为人脸目标框(如图2中的第三张图像)。最后确定人脸目标的双眼、鼻子以及嘴巴对应的五个关键点(如图2中的第四张图像)，通过仿射变换技术对人脸目标进行矫正，得到最终检测出的人脸目标。

S102、人脸检测模块确定最新图像帧中检测到的人脸目标是否与前面的图像帧中的人脸目标为同一目标，若是，则不进行特征提取。

具体地，记录来源摄像头的第一预设图像帧中包含的若干人脸目标框的坐标；其中，人脸目标框的坐标通过左上角点的坐标以及右下角点的坐标进行表示；确定最新图像帧中检测到的人脸目标框与第一预设图像帧中包含的若干人脸目标框的交并比；在至少一个交并比大于第一预设阈值的情况下，不对最新图像帧中的人脸目标进行特征提取。

在一个实施例中，第一预设图像帧可以是最新图像帧之前的10帧图像。例如在内存中建立摄像头-最近人脸坐标字典，对于每个摄像头，首先记录其最近的10帧图像中检测到的人脸目标的坐标，该坐标由人脸目标框的左上角、右下角两个点的横纵坐标构成。在该摄像头图像中检测到人脸目标后，与该摄像头最近10帧中的人脸目标坐标进行逐一比对，计算它们的交并比，若交并比大于某一阈值，则认为该人脸目标与前帧中的人脸目标为同一目标，不进行特征提取。

S103、人脸检测模块对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量。

具体地，记录来源摄像头的第二预设图像帧中包含的若干人脸目标的人脸特征向量。在S102中计算的交并比均小于或等于第一预设阈值的情况下，对最新图像帧中的人脸目标进行特征提取。然后确定最新图像帧中的人脸特征向量与第二预设图像帧中的人脸特征向量的第一相似度。在任一第一相似度大于第二预设阈值的情况下，不存储该最新图像帧中的人脸特征向量。

在一个实施例中，第二预设图像帧可以是最新图像帧之前的30帧图像.例如在内存中建立摄像头-最近人脸特征的字典，对于每个摄像头，记录其最近的30帧图像中检测到的人脸特征向量，当最新图像帧中的人脸目标坐标与前帧的人脸目标坐标交并比都不超过第一预设阈值时，提取最新图像帧中人脸目标的人脸特征向量，并与该摄像头-人脸特征字典中记录的人脸特征向量进行比对，若摄像头-人脸特征字典中存在任一人脸特征向量与最新图像帧中新提取的人脸特征向量的相似度超过第二预设阈值，则认为该人脸目标已经被记录，不做新的记录。

在一个实施例中，提取人脸特征向量的方法为通过卷积神经网络提取经过人脸目标检测后的图像，提取512维的人脸特征向量。

S104、将人脸特征向量以及人脸目标的访问记录存储在访客列表中。

具体地，访客列表包括已知访客列表以及陌生访客列表。在进行人脸检测之前，人脸检测模块会提前对预设人员名单中的人员照片进行人脸特征提取，得到已知人脸特征库。

进一步地，在S103中计算的若干第一相似度均小于或等于第二预设阈值的情况下，人脸检测模块将最新图像帧中的人脸特征向量与已知人脸特征库中的人脸特征向量进行对比，确定最新图像帧中的人脸目标是否属于预设人员名单中的人，若是，则确定该人脸目标对应的人员身份信息，并将对应的访问记录以及人脸特征向量存储在所述已知访客列表中。若否，则确定该人脸目标对应的人员身份信息为未知，并将对应的访问记录的人脸特征向量存储在陌生访客列表中。其中，访问记录至少包括以下一项或多项：拍摄该人脸目标的摄像头信息、摄像头拍摄到该人脸目标的时间以及该人脸目标对应的人员身份信息。摄像头信息至少包括摄像头的编号。

在一个实施例中，已知身份的人员的访问记录包括拍摄该人脸目标的摄像头信息、摄像头拍摄到该人脸目标的时间以及该人脸目标对应的人员身份信息。未知身份的人员的访问记录包括拍摄该人脸目标的摄像头信息以及摄像头拍摄到该人脸目标的时间。

作为一种可行的实施方式，若摄像头-人脸特征字典中没有任何人脸特征向量与最新图像帧中提取的人脸特征向量的相似度超过第二预设阈值，则认为该人脸目标是最新出现在该摄像头画面中。然后将该人脸目标的人脸特征向量与已知人脸特征库中的人脸特征向量计算相似度，根据相似度判断该人脸目标是否是预设人员名单中的成员，若是，则确认他的姓名、身份证号等身份信息，然后确定拍摄该人脸目标的摄像头的编号、拍摄到该人脸目标的时间，将上述信息以及人脸特征向量记录到已知访客列表中。若不是预设人员名单中的成员，则确定身份为未知，然后确定拍摄该人脸目标的摄像头的编号、拍摄到该人脸目标的时间，将上述信息以及人脸特征向量记录到陌生访客列表中。

S105、人脸检索模块对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量。

具体地，根据具体需求确定需要追踪的目标对象，并将目标对象的照片输入人脸检索模块中，以使人脸检索模块根据照片提取目标对象的512维人脸特征向量，即目标人脸特征向量。

S106、人脸检索模块在访客列表中，检索与目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录，得到目标对象的运动轨迹。

具体地，人脸检索模块确定目标人脸特征向量与访客列表中的人脸特征向量的第二相似度。然后检索第二相似度大于第三预设阈值的所有人脸特征向量。并返回检索到的人脸特征向量对应的访问记录。

进一步地，根据访问记录中的人员身份信息，筛选与目标对象身份一致的人脸特征向量。然后根据访问记录中的摄像头信息以及摄像头拍摄到该人脸目标的时间，确定目标对象出现过的位置以及到达该位置的时间，从而确定目标对象的运动轨迹。

在一个实施例中，若在访客列表中共检索出符合条件的5条访问记录以及对应的人脸特征向量，这5条访问记录的内容分别为：8:00-1号摄像头-员工一；9:00-3号摄像头-员工一；10:00-2号摄像头-员工一；11:00-5号摄像头-员工一；12:00-4号摄像头-员工一；则可以得出员工一的运动轨迹为8点到达1号摄像头位置-->9点到达3号摄像头位置-->10点到达2号摄像头位置-->11点到达5号摄像头位置-->12点到达4号摄像头位置。

需要说明的是，上述所有实施例只用于理解本方案，并不用于限制本方案实际应用时的具体数值及使用方法。

图3为本申请实施例提供的一种基于深度学习的人脸识别及追踪装置的结构示意图，如图3所示，装置包括：

人脸检测模块310，用于实时获取预设区域内每个摄像头拍摄的视频流，并对视频流逐帧进行人脸目标检测；以及，对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；以及，将人脸特征向量以及人脸目标的访问记录存储在访客列表中；

人脸检索模块320，用于对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；以及，在访客列表中，检索与目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。

图4为本申请实施例提供的一种基于深度学习的人脸识别及追踪设备的结构示意图，如图4所示，设备包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一步骤。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的人脸识别及追踪方法，其特征在于，所述方法包括：

实时获取预设区域内每个摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测；

对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；

将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中；其中，所述访问记录至少包括以下一项或多项：拍摄所述人脸目标的摄像头信息、所述摄像头拍摄到所述人脸目标的时间、所述人脸目标对应的人员身份信息；

对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；

在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。

2.根据权利要求1所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，实时获取预设区域内若干摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测，具体包括：

为所述预设区域内的每个摄像头创建一个线程，并通过所述线程读取所述每个摄像头拍摄的视频流；其中，所述每个摄像头对应一个唯一的编号；

创建一个消息队列；

将所述摄像头的编号以及所述摄像头拍摄的最新图像帧传入所述消息队列；

读取所述消息队列中的编号以及最新图像帧；

基于所述编号确定所述最新图像帧的来源摄像头，并对所述最新图像帧进行人脸目标检测。

3.根据权利要求2所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，所述基于所述编号确定所述最新图像帧的来源摄像头，并对所述最新图像帧进行人脸目标检测，具体包括：

通过卷积神经网络对所述最新图像帧进行预处理，得到图像矩阵；

通过分类器对所述图像矩阵进行人脸识别，得到若干人脸候选框以及所述若干人脸候选框的置信度；

基于所述若干人脸候选框的置信度，对所述若干人脸候选框进行非极大值抑制，得到剩余人脸候选框；

将识别到非人脸目标的所述剩余人脸候选框删除，得到人脸目标框；

确定所述人脸目标框内关键点的坐标；其中，所述关键点包括左眼眼角对应的点、右眼眼角对应的点、鼻底对应的点、左嘴角对应的点以及右嘴角对应的点；

基于所述关键点的坐标，通过仿射变换技术对所述人脸目标框中的人脸目标进行人脸矫正，从而得到最终的人脸目标。

4.根据权利要求3所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，在对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量之前，所述方法还包括：

记录所述来源摄像头的第一预设图像帧中包含的若干所述人脸目标框的坐标；其中，所述人脸目标框的坐标通过左上角点的坐标以及右下角点的坐标进行表示；

确定所述最新图像帧中检测到的人脸目标框与所述第一预设图像帧中包含的若干人脸目标框的交并比；

在至少一个所述交并比大于第一预设阈值的情况下，不对所述最新图像帧中的人脸目标进行特征提取。

5.根据权利要求4所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中，具体包括：

记录所述来源摄像头的第二预设图像帧中包含的若干人脸目标的人脸特征向量；

在所述交并比均小于或等于第一预设阈值的情况下，对所述最新图像帧中的人脸目标进行特征提取；

确定所述最新图像帧中的人脸特征向量与所述第二预设图像帧中的人脸特征向量的若干第一相似度；

在所述第一相似度均小于或等于第二预设阈值的情况下，确定所述最新图像帧中的人脸特征向量对应的人脸目标的访问记录，并将所述访问记录以及所述最新图像帧中的人脸特征向量存储在所述访客列表中；

在任一第一相似度大于第二预设阈值的情况下，不存储所述最新图像帧中的人脸特征向量。

6.根据权利要求5所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，所述访客列表包括已知访客列表以及陌生访客列表；

将所述访问记录以及所述最新图像帧中的人脸特征向量存储在所述访客列表中，具体包括：

对预设人员名单中的人员照片进行人脸特征提取，得到已知人脸特征库；

将所述最新图像帧中的人脸特征向量与所述已知人脸特征库中的人脸特征向量进行对比；

在所述最新图像帧中的人脸特征向量属于所述已知人脸特征库的情况下，将所述最新图像帧中的人脸特征向量存储在所述已知访客列表中；

在所述最新图像帧中的人脸特征向量不属于所述已知人脸特征库的情况下，将所述最新图像帧中的人脸特征向量存储在所述陌生访客列表中。

7.根据权利要求1所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录，具体包括：

确定所述目标人脸特征向量与所述访客列表中的人脸特征向量的第二相似度；

检索所述第二相似度大于第三预设阈值的所有人脸特征向量；

返回所述所有人脸特征向量对应的访问记录。

8.根据权利要求7所述的一种基于深度学习的人脸识别及追踪方法，其特征在于，在返回所述所有人脸特征向量对应的访问记录之后，所述方法还包括：

根据所述访问记录中的人员身份信息，筛选与所述目标对象身份一致的人脸特征向量；

根据所述访问记录中的摄像头信息以及所述摄像头拍摄到所述人脸目标的时间，确定所述目标对象出现过的位置以及到达所述位置的时间，从而确定所述目标对象的运动轨迹；其中，所述摄像头信息至少包括摄像头的编号。

9.一种基于深度学习的人脸识别及追踪装置，其特征在于，包括：

人脸检测模块，用于实时获取预设区域内每个摄像头拍摄的视频流，并对所述视频流逐帧进行人脸目标检测；以及，对检测到的人脸目标进行人脸特征提取，得到对应的人脸特征向量；以及，将所述人脸特征向量以及所述人脸目标的访问记录存储在访客列表中；

人脸检索模块，用于对需要追踪的目标对象进行人脸特征提取，得到目标人脸特征向量；以及，在所述访客列表中，检索与所述目标人脸特征向量相匹配的所有人脸特征向量，并返回匹配到的所有人脸特征向量对应的访问记录。

10.一种基于深度学习的人脸识别及追踪设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的一种基于深度学习的人脸识别及追踪方法。