CN116311063A

CN116311063A - 监控视频下基于人脸识别的人员细粒度跟踪方法及系统

Info

Publication number: CN116311063A
Application number: CN202310274653.8A
Authority: CN
Inventors: 杨阳; 张南南; 刘云霞; 李雪; 孙齐悦; 李玉军; 翟超; 彭朝祥
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本发明公开的监控视频下基于人脸识别的人员细粒度跟踪方法及系统，通过确定监控视频中不同人员目标框的独立时间段，确定了设定时间点视频帧所处时间段的类型，基于多个设定时间点视频帧的身份信息，确定每个人员编号下每个独立时间段的身份识别结果，解决了细粒度场景下因目标跟踪算法存在的ID交换造成的人员身份错误跟踪问题；为提高人员身份确认准确率，提出自适应人脸识别机制，根据标准判断此时是否适合进行人脸识别，以解决人员密集时因人员框重叠造成的人脸误检问题；同时，基于上述改进，本发明能够实现身份的前后向跟踪，在初、后期人脸识别操作难以实施时，也可以根据时间段在身份连续跟踪字典中获取人员身份。

Description

监控视频下基于人脸识别的人员细粒度跟踪方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及监控视频下基于人脸识别的人员细粒度跟踪方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，随着计算机视觉技术的蓬勃发展和对机器学习研究的深入，人脸识别和目标跟踪作为其两大重要分支也经历了重大变革与创新，并广泛应用于智能监管、门禁安防、智慧交通等生活中的各个领域。

监控视频中常常使用行人重识别或人脸识别技术来确认人员身份，相较于室外环境，室内环境下监控摄像头捕获到清晰的人脸图片的机会较多，因此人脸识别可以作为身份识别的技术支撑。人脸识别和目标跟踪技术的联合对确认室内监控视频中的人员身份并进一步了解其运动轨迹起到了至关重要的作用。现有方法中，对于每一视频帧通常是先利用目标检测算法获取人员坐标信息及图像，并送入人脸识别算法中，将提取到的人脸特征与人脸库的特征进行相似度计算，若超过一定阈值，则确认其身份。目标跟踪中产生的人员编号与人员身份匹配时，通常使用两种方法，一是对于每一编号，将人脸识别的结果储存下来，进行下一帧预测时首先判定人员身份是否已经标识，若未标识则进一步进行人脸识别，这种方法经过一次或多次人脸识别即可确认身份；二是考虑到由于一次或少次人脸识别结果具有偶然性，可能出现识别错误的情况，因此在统计学的基础上做了进一步的改进，将每一个存在人脸的目标框图片送入人脸识别算法中，保存每一编号的多次人脸识别结果，处理完所有视频帧，基于上述身份信息，统计每个姓名出现的次数，选取出现次数最多的姓名作为该编号的身份标识。

然而，由于现有目标跟踪算法存在一定的缺陷，例如跟踪过程中的ID交换问题，将对人员身份的跟踪产生干扰，甚至造成身份标识错乱。基于上述方法二，若在跟踪过程中出现了ID交换问题，那么同一编号下会有两人甚至多人与之匹配，若在交换前后都保存了有效的人脸身份信息，那么在后续的身份统计阶段将忽视某个时间段内的少量真实身份信息，从而使这一编号下的不同人员出现身份标识错误的问题。尤其是对于衣着相同、体态相似、区分性差的细粒度人群，这必然会对依据外在特征对目标框进行相似性匹配的目标跟踪算法造成不良影响，ID交换问题将进一步加剧，进而对人员身份的确认造成更大的干扰。

另外，在目标跟踪过程中运用人脸识别技术，将跟踪目标框送入人脸识别模型中，可获得当前目标框的人员身份。但是当监控视频中的人员过于密集时，人员识别算法输出的目标框之间将产生大比例重叠，可能出现一个目标框中同时存在多个人脸的情况，这会导致人脸识别算法出现误检，将与之不相关的身份信息赋予此目标框的身份标识。如果不进行相应的有针对性的处理，同时若在跟踪过程中只检测到一次甚至未检测到该人员的人脸，这将对后续的身份统计造成极大干扰，导致身份匹配错乱的问题。

发明内容

本发明为了解决上述问题，提出了监控视频下基于人脸识别的人员细粒度跟踪方法及系统，实现了监控视频中准确的人员目标跟踪定位及身份确认。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了监控视频下基于人脸识别的人员细粒度跟踪方法，包括：

获取监控视频；

通过目标框对监控视频中的人员目标进行框选，并为每个人员目标的目标框设置单独的人员编号；对每个目标框进行目标跟踪，在跟踪过程中，对设定时间点视频帧的目标框进行身份识别，获得相应设定时间点视频帧中各目标框的身份信息；

对于每个目标框，计算在监控视频的每一帧中与其余目标框的交并比，通过交并比，确定目标框的独立时间段；

判断每个设定时间点视频帧所处的时间段；

对于每个人员编号，分别对处于同一独立时间段的设定时间点视频帧的身份信息进行统计，选取出现次数最多的身份信息，为每个人员编号在每个独立时间段内的身份识别结果；

通过身份识别结果对监控视频进行标注，获得人员跟踪视频。

第二方面，提出了监控视频下基于人脸识别的人员细粒度跟踪系统，包括：

监控视频获取模块，用于获取监控视频；

目标识别及目标跟踪模块，用于通过目标框对监控视频中的人员目标进行框选，并为每个人员目标的目标框设置单独的人员编号；对每个目标框进行目标跟踪，在跟踪过程中，对设定时间点视频帧的目标框进行身份识别，获得相应设定时间点视频帧中各目标框的身份信息；

目标框独立时间段身份识别模块，用于对于每个目标框，计算在监控视频的每一帧中与其余目标框的交并比，通过交并比，确定目标框的独立时间段；判断每个设定时间点视频帧所处的时间段；对于每个人员编号，分别对处于同一独立时间段的设定时间点视频帧的身份信息进行统计，选取出现次数最多的身份信息，为每个人员编号在每个独立时间段内的身份识别结果；

人员跟踪视频获取模块，用于通过身份识别结果对监控视频进行标注，获得人员跟踪视频。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成监控视频下基于人脸识别的人员细粒度跟踪方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成监控视频下基于人脸识别的人员细粒度跟踪方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明在进行人员目标的目标跟踪时，根据目标框在每一帧中交并比的变化，确定目标框的独立时间段，对于每个人员编号下的每个独立时间段，选定出现次数最多的身份信息，为独立时间段内，每个人员编号的身份识别结果，实现了ID交换前后的身份纠错，保证了目标跟踪的准确性，解决了细粒度场景下因目标跟踪算法存在的ID交换造成的人员身份错误跟踪问题。

2、本发明在进行人脸识别时，通过目标框之间的交并比，作为是否适合进行人脸识别的指标，并以人脸与目标框中人员的匹配程度为辅助，剔除对身份确认造成干扰的图片，保证人脸识别的准确性，解决因人员密集时目标框重叠造成的人脸误检问题。

3、由于相邻视频帧间的人脸差异较小，为节约计算成本，本发明每隔设定时间获取当前视频帧中的人脸图像，仅对设定时间点视频帧中的目标框进行身份识别。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例1公开方法的流程图；

图2为实施例1公开的独立时间段分区示意图；

图3为实施例1公开的不同人员编号的身份信息按时间段归类存储示意图；

图4为实施例1公开的基于时间段的身份连续跟踪纠错方法示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

首先进行术语解释：

1、角度裕度(Angular Margin)：是人脸识别模型loss中常用的决策边界，对特征向量和权重归一化，在二者之间的角度θ上添加角度间隔m，从而惩罚样本深度特征与其对应权重之间的角度，进一步达到减小类内差异、增加类间差异的效果。

2、匈牙利算法：是一种涉及到数学领域中的为求解分配任务中最优组合方案的优化算法，能够实现最小权值最优匹配。

3、IoU：全称为交并比，主要用在目标检测中，计算的是“预测框”和“真实框”的交叠率，即它们交集和并集的比值，是一种用来度量在特定数据集中检测相应物体准确度的一个标准。

4、ID交换：理想情况下，多目标跟踪算法在对目标进行跟踪时，会为不同目标分配独一无二的人员编号，而在实际应用中，因目标遮挡、模糊、密集等因素，经常发生跟踪不连贯、人员编号变化的情况，存在不同人员在相互接触过程中跟踪算法将二者的跟踪轨迹、目标框、人员编号匹配错误的问题，表现为二者在接触前后人员编号交换的情形。

实施例1

在该实施例中，公开了监控视频下基于人脸识别的人员细粒度跟踪方法，如图1所示，包括：

S1：获取监控视频。

每个监控视频均包括多个视频帧，将时间最早的视频帧定义为第一帧。

本实施例涉及到人脸识别，对人脸图像质量要求较高，建议使用分辨率2K及以上的摄像头进行视频录制。下载获取所需时间段内的监控视频，利用完善后的系统按帧读取该视频。

S2：通过目标框对监控视频中的人员目标进行框选，并为每个人员目标的目标框设置单独的人员编号；对每个目标框进行目标跟踪，在跟踪过程中，对设定时间点视频帧的目标框进行身份识别，获得相应设定时间点视频帧中每个目标框的身份信息。

具体的，利用目标检测算法对每一帧中的人员目标进行检测识别，获得每一帧中所有人员目标的位置坐标。

当某一帧中人员目标的目标框与该帧之前的人员跟踪轨迹均不能进行匹配时，判定该帧中人员目标的位置为该人员目标的初始位置。

监控视频的所有人员目标包括第一帧出现的人员目标及后续帧出现的新的人员目标，该人员目标在某一帧中第一次出现。

人员目标在监控视频中第一次出现的位置为人员目标的初始位置。

判断后续帧中是否出现新的人员目标的标准是：

将某一帧中的目标框与该帧之前的人员跟踪轨迹进行匹配；

当没有人员跟踪轨迹与该帧中的目标框进行匹配时，该目标框框选的人员目标为新的人员目标，框选出的位置为新的人员目标的初始位置。

为每个人员目标的目标框设置单独的人员编号。

利用目标跟踪算法，对每个目标框进行目标跟踪。具体的采用目标跟踪算法中高效实现数据关联的多目标跟踪模型，对目标框进行目标跟踪，对于低分框并不是粗暴的去除，而是先暂时保存，利用目标框和目标轨迹的位置重合度对低分框与跟踪轨迹进行匹配，从而将被遮挡或模糊的物体从低分框中挖掘出来，保证跟踪轨迹的连贯性。

多目标跟踪模型进行目标跟踪之前，需要先利用目标检测算法给出视频帧中目标框位置，并为目标框赋分，如果该目标特征明显、轮廓清晰、无遮挡等，目标检测算法会将此目标框赋予大于等于第一分值的高分，为高分框，如果该目标被遮挡或模糊等，则赋予小于第一分值的低分，为低分框，表明目标检测算法对该目标的检测不是很确定。

对目标检测算法获得的高分框和低分框，二者独立处理，不轻易舍弃低分结果；

在进行目标跟踪时，首先将高分框与之前的跟踪轨迹进行匹配，将没有与高分框进行匹配的跟踪轨迹与低分框进行匹配，提高低分框的轨迹连贯性；

对于没有轨迹与之匹配的高分框，判定该高分框框选出新的人员目标，为该高分框创建新的跟踪轨迹，并分配新的人员编号；

对于没有匹配上目标框的跟踪轨迹，保留设定时间后，若后续没有与之匹配的目标框，则舍弃，如对于没有匹配上目标框的跟踪轨迹，对其保留30帧，若后续没有再次出现，则去除此条轨迹信息。

为获得目标框准确的跟踪轨迹，使用卡尔曼滤波对下一帧的目标框进行预测，获取预测框的位置，将预测框与高分框之间的交并比(IoU)值作为相似度匹配指标，当预测框与高分框之间的交并比小于设定阈值时，利用匈牙利算法将跟踪轨迹与目标框进行匹配。

卡尔曼滤波是一种利用线性状态方程对观测数据做状态周期性最优估计的算法，具体公式如下：

其中，

表示系统状态x_k的估计值，z_k表示此周期状态的观测值，g_k是卡尔曼增益，介于0～1之间，每周期更新一次，表示对测量值的信任程度。

在目标跟踪过程中对设定时间点视频帧的目标框进行身份识别，获得相应的设定时间点视频帧的目标框的身份信息，并将身份信息与目标框的人员编号关联。

本实施例采用人脸质量自适应模型对设定时间点视频帧的目标框进行人脸识别，获得设定时间点视频帧目标框的身份信息，其中，人脸质量自适应模型以目标框框选的人员目标为输入，以获取的目标框的身份信息为输出，通过人脸识别算法构建获得。

本实施例将人脸识别算法与目标跟踪算法进行联合，构建基础的身份确认与跟踪体系，并创建了待查询人脸数据库。

待查询人脸数据库具备随时添加、修改、删除人脸图片的模式，根据监控场景，自定义选取需要进行身份识别及跟踪监测的人员，拍摄其正面、微侧面、微低头等多角度的多张人脸图片，按照“姓名+序号”的命名格式存储至待查询人脸数据库中。

通过编写代码，实现读取人脸数据库、按需查询目标人员图片、一键删除或重命名的功能。

人脸识别算法选用目前性能优势大、对低质量人脸图片识别准确率提升明显的人脸质量自适应模型。在训练过程中，使用一种基于图像质量自适应的损失函数，能够为不同质量不同难度的训练样本分配不同的权重。以角度裕度会根据训练样本的难度来对梯度进行缩放为基础，提出自适应改变裕度函数机制，以在图像质量高时强调困难样本，在图像质量低时忽略困难样本，即无法识别的样本，保证模型训练的正常进行，及模型训练的质量。同时，该模型无需使用额外的模块来评估图像质量，其证明并引入了特征范数来实现高效、快速的图像质量表示。

本实施例公开的人脸质量自适应模型对每个样本的特征范数进行归一化，获得归一化后的特征范数，通过归一化后的特征范数来调整损失函数中的裕度函数，基于特征范数来调整裕度函数，利用裕度函数可以改变决策边界位置的原理，实现为不同样本分配不同的训练难度。

对每个样本的特征范数进行归一化，获得归一化后的特征范数

具体为：

其中，‖z_i‖代表第i个样本的特征范数，μ_z和σ_z分别表示在一个batch size里所有样本特征范数的均值和标准差，并通过相应处理，使得上式的输出范围限制在[-1,1]之间。

通过归一化后的特征范数来调整损失函数中的裕度函数，获得损失函数，损失函数公式如下：

其中，m是一个尺度超参数，表示裕度；s是一个用于缩放的超参数；θ_j是样本的特征向量与第j个分类器权重向量之间的夹角；y_i是Ground Truth的标签索引；g_angle和g_add是两个自适应项，是与图像质量指标相关的函数，公式定义如下：

分析目标跟踪算法和人脸识别算法的代码逻辑，创建符合逻辑要求的虚拟环境，在目标跟踪算法内部引入预训练好的人脸识别模型，在目标跟踪算法读取视频帧并识别人员目标框后，将截取到的图片送入人脸识别模型进行当前目标框人员的身份识别。

在目标跟踪的过程中同时进行人脸识别，由于相邻帧之间图片像素差异较小，为节约时间成本和计算资源，本实施例并没有对监控视频的每一帧均进行身份识别，而是采用每隔20帧获取设定时间点视频帧，仅对设定时间点视频帧的目标框进行身份识别。

为了剔除对身份确认造成干扰的图片，保证人脸识别的准确性，解决因人员密集时目标框重叠造成的人脸误检问题，本实施例还通过每一设定时间点视频帧中每个目标框与其余目标框的交并比、及目标框中人脸是否与该目标框中人员匹配对目标框进行筛选，仅对筛选出的目标框进行身份识别，保证了目标框人脸识别的准确性。

其中，在同一帧中，计算目标框之间交并比的公式为：

其中，A、B代表不同的目标框的位置坐标，用两个目标框的位置集合之间的交集、并集来表示两目标框之间的重合度。

即，本实施例对设定时间点视频帧的目标框进行身份识别时，选取与其余目标框的交并比等于零的目标框，及与其余目标框的交并比至少一个大于零而小于设定阈值，且满足目标框中的人脸与目标框中人员相匹配的目标框进行人脸识别，获得相应设定时间点视频帧中各目标框的身份信息。

将交并比的阈值设定为0.5，当当前目标框与其他目标框的IoU值至少有一个大于等于0.5时，说明当前目标框与某个目标框之间有较大重叠，两个目标人脸同时出现在重叠区域的概率较大，很容易在后续人脸识别中误检、为不同目标框赋予错乱的身份，因此当两个目标框的交并比超过0.5时，忽略当前目标框中的人脸，不对当前目标框中人员进行人脸身份识别。

当当前目标框与其余目标框之间的IoU值均介于0～0.5之间时，两者重叠率较低，可进一步确认此时是否适合进行人脸识别。将当前截取出来的目标框送入人脸检测模块，判断此图片上是否存在人脸，若存在，则获取人脸坐标区域。并对此区域与整体目标框进行位置合理性判别，计算人脸区域是否位于目标框区域的上四分之一中间部位，若人脸区域没有位于目标框区域的上四分之一中间部位，则认为此人脸与当前目标框并不同属一人，停止进一步的人脸识别；若人脸区域位于目标框区域的上四分之一中间部位，判定目标框中的人脸与目标框中人员相匹配，对该目标框中的人脸区域进行识别，获取当前目标框的身份信息。

当前目标框与其他所有目标框之间的IoU值都为0时，认为此时并无其他人员框对其产生干扰，可正常进行人脸的检测、识别等操作。

S3：对于每个目标框，计算在监控视频的每一帧中与其余目标框的交并比，通过交并比，确定目标框的独立时间段；判断每个设定时间点视频帧所处的时间段；对于每个人员编号，分别对处于同一独立时间段的设定时间点视频帧的身份信息进行统计，选取出现次数最多的身份信息，为每个人员编号在每个独立时间段内的身份识别结果。

为了确定目标框的独立时间段，本实施例对于监控视频的每一帧的每个目标框，均计算了与其余目标框的交并比。

在利用目标跟踪算法实现人员目标检测与跟踪的过程中，对不同人员目标赋予不同的人员编号。若在跟踪过程中人员目标一直出现在监控画面中且没有外界遮挡，且没有发生ID交换的情况，那么该人员目标的人员编号将一直跟随该目标框实现个人信息串联，可以作为后续身份匹配的基础。但若在跟踪过程中发生了人员编号交换问题，则需要相应的处理实现身份连续跟踪纠错。故本实施例还根据人员独立的时间段内没有外界信息干扰的原理，实现基于时间段的身份连续跟踪纠错。

在跟踪算法运行过程中，依次获取每一帧中的不同人员目标的人员编号，并依次将其目标框位置坐标分别与同时间点的其他人员坐标进行IoU计算，判断当前时间点是否可能存在发生ID交换的机会。经过充分实验验证，监控视角下该问题多发生在两人或多人之间产生遮挡、重叠之后，为实现ID交换后的身份纠错，不再只基于人员编号匹配身份，同时考虑时间段的问题：ID交换前后此编号的身份是不同的。将所有目标框的状态分为两种：独立和重叠；认为其他目标框与其重叠时可能发生错误交换问题，将身份统计重点放在除重叠状态之外的独立状态，对不同的独立时间段分别进行身份信息统计，对此人员编号下的不同独立时间段赋予不同的身份信息。

本实施例确定目标框的独立时间段的过程为：

选取目标框在监控视频每一帧中的最大交并比；

从最大交并比第一次出现大于第一数值的帧，至最大交并比最后一次大于或等于第二数值的帧，确定为目标框的非独立时间段；

将监控视频除去非独立时间段后，剩余时间段确定为目标框的独立时间段。

以第一数值为0.5，第二数值为0.2，对确定目标框的独立时间段的过程进行说明。

本实施例创建用于存储不同人员编号不同状态的时间节点的列表s，将s的索引与人员编号相关联，将不同人员编号的时间节点信息存储在s中相应索引位置下。对于每一人员目标框，记录其上一帧中与其他目标框的IoU值的最大值，为目标框的最大交并比，与当前帧中最大交并比进行对比，为防止连续帧的IoU最大值存在波动对状态判断造成干扰，舍弃单阈值判断标准，使用两个不同数值作为不同状态的分界点，假设任一目标框第1帧的最大IoU值为0，如果当前帧最大IoU大于0.5且上一帧小于等于0.5，记为不再独立，并记录当前帧数，作为重叠开始的时间节点，如果当前帧的最大IoU小于0.2且上一帧大于等于0.2，记录当前帧数，作为重叠结束、开始独立的时间节点；从不再独立帧至重叠结束、开始独立帧的上一帧，为目标框的非独立时间段，上述时间节点以数字形式存储至另一个列表w中，在此目标框消失之后完成记录，并将此列表w存储到上述记录全体状态时间节点的列表s的相应索引下。由于第1帧IoU的限定，可保证每一编号的时间节点列表w中的第一个时间节点状态是开始重叠，后续状态是开始独立、开始重叠的循环。

在整个系统运行过程中，会不断对不同视频帧中的人员进行人脸识别，识别结果会连同当前的帧数、人员编号、目标框位置坐标等信息保存下来，方便后续的身份统计，记存储人员信息的为列表r。

读取确定目标框的独立时间段过程中保存下来的列表s，对其所有元素进行时间段划分，因为各元素中的第一个数值表示对应人员编号的目标框开始重叠的时间，因此认为从第1帧到第一个数值之间是该人员目标框的第一个独立时间段；列表各元素中存储的第二个数值表示开始独立的时间点，认为第一个数值到第二个数值之间该目标框与其他目标框发生重叠，忽略此阶段的身份信息；认为第二个数值到第三个数值之间是此目标框的第二个独立时间段，依此类推，获取所有目标框的所有独立的时间段。独立时间段分区示意图如图2所示。

用列表多重嵌套的方式保存不同人员编号不同独立时间段内的身份信息，创建总体列表i，将该列表的索引也与人员编号进行关联，将不同人员编号的身份信息保存在对应索引的元素内。i中的任意元素按照对应人员编号的独立时间段数目创建相应长度的列表t，用来存储不同独立时间段内的身份信息，例如，人员编号为1的目标框在其出现的时间内有三段独立时间，则将该人员编号的t长度创建为3，且t的每一个元素也创建为新的列表t_n，并将列表t保存至总列表i的索引为1的元素内。依次读取存储人员信息的列表r内元素，获取该信息的人员编号、身份信息、当前信息的时间帧数，根据该人员编号的独立时间段信息判断时间帧数是否处于独立时间段内、处于第n个独立时间段。判断当前信息中身份信息是否存在，若存储为未知，则忽略此条信息，若存储为其他实际名称，则将该结果存储到该编号的列表t相应的第n个元素列表t_n内。重复操作上述步骤，实现将所有人员编号的人脸身份信息基于独立时间段完成分组。不同人员编号的身份信息按时间段归类存储示意图如图3所示。

从而确定每个人员编号在每个时间段内的身份信息，由于一个人员编号可能存在不同身份。按照上述列表i的创建原理，采用列表嵌套的方式，将不同人员编号的不同独立时间段内的身份保存下来，实现根据列表索引找到对应人员编号的所有身份。

基于时间段的身份连续跟踪纠错方法示意图如图4所示。

S4：通过身份识别结果对监控视频进行标注，获得人员跟踪视频。

通过身份识别结果，对监控视频按帧对每一帧中出现的目标框及身份信息进行标注，获得人员跟踪视频。

在对监控视频进行标注时，根据视频帧所处帧数查找目标框的位置坐标和人员编号；根据帧数和人员编号，确定目标框所处时间段的类型；获取人员编号所处独立时间段的身份识别结果，并根据目标框的位置坐标和所处帧数，将身份识别结果标注于监控视频上，获得人员跟踪视频。

具体的，依次获取监控视频的每一帧画面，根据当前视频帧数查找该时间点存在的目标框位置坐标和人员编号，并根据该时间点和人员编号判断对此人员来说此时属于哪一个时间段，进而获取位于独立时间段内的身份识别结果；按照目标框位置坐标在画面相应位置画框，并将身份识别结果标注在目标框上方。对视频的每一帧都进行相同操作，最终输出连续的人员身份确定的跟踪视频。

本实施例公开方法基于现有的目标跟踪与人脸识别技术，针对两种技术联合以实现细粒度场景下身份确认与人员跟踪过程中出现的一些问题，提出解决方案。以目标框独立时间段内没有外界干扰的理念为基础，提出基于时间段的身份连续跟踪纠错方法，对基于人员编号匹配的身份确认跟踪方法进行改进，利用跟踪过程中人员目标框重叠时间点之间的人脸身份信息，依次统计每一独立时间段内的人脸身份信息，完成ID交换前后的身份纠错，解决细粒度场景下因目标跟踪算法存在的ID交换造成的人员身份错误跟踪问题；为解决因人员密集时目标框重叠造成的人脸误检问题，提出自适应人脸识别机制，利用目标框之间的IoU数值作为当下是否适合进行人脸识别的指标，并以人脸坐标与人体框之间的匹配程度为辅助，剔除对身份确认造成干扰的图片。

本实施例公开方法，可以实现身份的前后向跟踪，在较难获取清晰人脸图像时可以根据相同独立时间段内的连续跟踪身份字典获取当前身份，而无需时时刻刻进行人脸识别，可以实现高效、快速、准确的身份识别与跟踪。

实施例2

在该实施例中，公开了监控视频下基于人脸识别的人员细粒度跟踪系统，包括：

监控视频获取模块，用于获取监控视频；

目标识别及目标跟踪模块，用于通过目标框对监控视频中的人员目标进行框选，并为每个人员目标的目标框设置单独的人员编号；对每个目标框进行目标跟踪，在跟踪过程中，对设定时间点视频帧的目标框进行身份识别，获得相应视频帧的身份信息；

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的监控视频下基于人脸识别的人员细粒度跟踪方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的监控视频下基于人脸识别的人员细粒度跟踪方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，包括：

获取监控视频；

判断每个设定时间点视频帧所处的时间段；

2.如权利要求1所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，将目标框进行高分框和低分框分类；

在进行目标跟踪时，首先将高分框与之前的跟踪轨迹进行匹配，将没有与高分框进行匹配的跟踪轨迹与低分框进行匹配。

3.如权利要求2所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，对于没有轨迹与之匹配的高分框，判定该高分框框选出新的人员目标，为该高分框创建新的跟踪轨迹，并分配新的人员编号。

4.如权利要求1所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，对设定时间点视频帧的目标框进行身份识别时，选取与其余目标框的交并比等于零的目标框，及与其余目标框的交并比至少一个大于零而小于设定阈值，且满足目标框中的人脸与目标框中人员相匹配的目标框进行人脸识别，获得相应设定时间点视频帧中各目标框的身份信息。

5.如权利要求1所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，确定目标框的独立时间段的过程为：

选取目标框在监控视频的每一帧中的最大交并比；

6.如权利要求1所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，采用人脸质量自适应模型对目标框进行人脸检测，获得目标框的身份信息，其中，人脸质量自适应模型以目标框框选的人员目标为输入，以获取的目标框的身份信息为输出。

7.如权利要求1所述的监控视频下基于人脸识别的人员细粒度跟踪方法，其特征在于，在对监控视频进行标注时，根据每一帧所处帧数查找目标框的位置坐标和人员编号；根据帧数和人员编号，确定目标框所处时间段的类型；获取人员编号所处独立时间段的身份识别结果，并根据目标框的位置坐标和所处帧数，将身份识别结果标注于监控视频上，获得人员跟踪视频。

8.监控视频下基于人脸识别的人员细粒度跟踪系统，其特征在于，包括：

监控视频获取模块，用于获取监控视频；

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的监控视频下基于人脸识别的人员细粒度跟踪方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的监控视频下基于人脸识别的人员细粒度跟踪方法的步骤。