CN115457623A

CN115457623A - 停留时长检测方法、装置及服务器

Info

Publication number: CN115457623A
Application number: CN202210967425.4A
Authority: CN
Inventors: 郑洁; 雷霓; 王书诚; 黄亮; 叶荣军; 刘剑; 沈欢; 陈祖刚; 方书雅; 王浩; 羿舒文; 李欢
Original assignee: 722th Research Institute of CSIC
Current assignee: 722th Research Institute of CSIC
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-12-09

Abstract

本公开提供了一种停留时长检测方法、装置及服务器。该方法包括：依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框；利用跟踪算法处理第一图像和对应的第一检测框，得到第一图像的新增人物集合、已匹配人物集合和未匹配人物集合；若新增人物集合不为空，或已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对第一图像进行检测，并生成与人脸对应的第二检测框；将第一图像的第一检测框和第二检测框进行匹配；对第二检测框中人脸进行人脸识别，获得第二检测框中人脸的人物信息；根据视频流的每一帧图像检测到的人物信息，确定视频流拍摄到的各个人物的停留时长。

Description

停留时长检测方法、装置及服务器

技术领域

本公开涉及安防技术领域，特别涉及一种停留时长检测方法、装置及服务器。

背景技术

随着人工智能技术的快速发展，人脸检测识别作为典型的人工智能技术已越来越多地应用到监控安防领域中。

发明内容

本公开实施例提供了一种停留时长检测方法、装置及服务器。所述技术方案如下：

本公开至少一实施例提供了一种停留时长检测方法，所述方法包括：

依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，所述第一图像为所述视频流中的任一帧图像；

利用跟踪算法处理所述第一图像和对应的第一检测框，得到所述第一图像的新增人物集合、已匹配人物集合和未匹配人物集合；

若所述新增人物集合不为空，或所述已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对所述第一图像进行检测，并生成与人脸对应的第二检测框；

将所述第一图像的第一检测框和所述第二检测框进行匹配；

对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息；

根据所述视频流的每一帧图像检测到的人物信息，确定所述视频流拍摄到的各个人物的停留时长。

可选地，所述将所述第一图像的第一检测框和所述第二检测框进行匹配，包括：

获取所述第一图像中的所述第一检测框的顶点坐标、所述第二检测框的顶点坐标和所述第二检测框中人脸特征点的坐标；

根据所述第一检测框的顶点坐标和所述第二检测框中人脸特征点的坐标，确定各个所述第二检测框和各个所述第一检测框的包含关系，所述包含关系是指所述第二检测框中人脸特征点均位于所述第一检测框内；

若存在所述第一检测框和所述第二检测框存在一对一包含关系，则确定所述第一检测框和所述第二检测框存在一对一匹配关系；

若存在所述第一检测框和所述第二检测框存在一对多或多对一包含关系，则根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系。

可选地，所述根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系，包括：

按照以下公式计算存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的关联系数：

其中，Face_i表示第i个第二检测框的面积，Pedestrian_j表示第j个第一检测框的面积，Face_i∩Pedestrian_j表示所述第i个第二检测框和所述第j个第一检测框的交叠面积，P_ij表示所述第i个第二检测框和所述第j个第一检测框的关联系数；

根据所述第一检测框和所述第二检测框的关联系数，利用匈牙利算法或KM算法确定所述第一检测框和所述第二检测框的一对一匹配关系。

可选地，所述对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息，包括：

提取所述第二检测框中人脸的特征向量；

将提取出的所述特征向量和人脸特征库中的各类别的特征向量进行比对，并计算欧式距离；

根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率；

根据所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，确定所述第二检测框中人脸关联的类别对应的人物信息。

可选地，所述根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，包括：

利用以下公式计算所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率：

P＝α·P_total+(1-α)·P_best；

其中，P_total指所述第二检测框中人脸的特征向量与所述人脸特征库中第一类别的所有人脸特征向量的欧式距离小于欧式距离阈值的数量，和所述第一类别的特征向量总数的比值，所述第一类别为所述人脸特征库中的任一类别；P_best指所述第二检测框中人脸的最优特征概率；α为系数；

其中，N为所述第一类别的特征向量总数，Num为小于欧式距离阈值的数量，d为欧式距离，threshold为欧式距离阈值；

其中，d_min指所述第二检测框中人脸的特征向量与所述人脸特征库中第一类别的所有人脸特征向量的欧式距离的最小值。

本公开至少一实施例提供了一种停留时长检测装置，所述装置包括：

目标检测算法模块，用于依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，所述第一图像为所述视频流中的任一帧图像；

跟踪算法模块，用于利用跟踪算法处理所述第一图像和对应的第一检测框，得到所述第一图像的新增人物集合、已匹配人物集合和未匹配人物集合；

人脸检测算法模块，用于若所述新增人物集合不为空，或所述已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对所述第一图像进行检测，并生成与人脸对应的第二检测框；

匹配模块，用于将所述第一图像的第一检测框和所述第二检测框进行匹配；

人脸识别模块，用于对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息；

确定模块，用于根据所述视频流的每一帧图像检测到的人物信息，确定所述视频流拍摄到的各个人物的停留时长。

可选地，所述匹配模块，用于获取所述第一图像中的所述第一检测框的顶点坐标、所述第二检测框的顶点坐标和所述第二检测框中人脸特征点的坐标；根据所述第一检测框的顶点坐标和所述第二检测框中人脸特征点的坐标，确定各个所述第二检测框和各个所述第一检测框的包含关系，所述包含关系是指所述第二检测框中人脸特征点均位于所述第一检测框内；若存在所述第一检测框和所述第二检测框存在一对一包含关系，则确定所述第一检测框和所述第二检测框存在一对一匹配关系；若存在所述第一检测框和所述第二检测框存在一对多或多对一包含关系，则根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系。

可选地，所述人脸识别模块，用于提取所述第二检测框中人脸的特征向量；将提取出的所述特征向量和人脸特征库中的各类别的特征向量进行比对，并计算欧式距离；根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率；根据所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，确定所述第二检测框中人脸关联的类别对应的人物信息。

本公开至少一实施例提供了一种服务器，所述服务器包括处理器和存储器，所述存储器存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如前所述的停留时长检测方法。

本公开至少一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如前任一项所述的停留时长检测方法。

本公开实施例提供的技术方案带来的有益效果是：

在本公开实施例中，通过目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，通过跟踪算法处理得到第一图像的新增人物集合、已匹配人物集合和未匹配人物集合，当新增人物集合不为空，或已匹配人物集合不为空且跟踪次数达到阈值时，才进行人脸检测及后续的人脸识别，然后将识别的人物和人脸匹配，从而保证对具体人物停留时长的准确检测。通过这种设计，可以在没有新增人物但存在已匹配人物的情况下，周期性地进行人脸检测算法，避免在没有新增人物的情况下，每幅图像都进行人脸检测和识别，从而节省了处理资源。同时，由于这种方案无需每一帧都进行人脸检测和识别，避免了无法获取人脸正面图像的情况下，相关技术因为不能持续进行人脸检测和识别从而导致时长统计出错，同时避免了无法获取人脸正面图像的情况下持续进行检测和识别，浪费处理资源的问题。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种停留时长检测方法的流程图；

图2是本公开实施例提供的一种停留时长检测方法的流程图；

图3是本公开实施例提供的检测框的示意图；

图4是本公开实施例提供的分类示意图；

图5是本公开实施例提供的函数曲线示意图；

图6是本公开实施例提供的一种停留时长检测装置的框图；

图7是本公开实施例提供的一种服务器的结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

除非另作定义，此处使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”、“第三”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同，并不排除其他元件或者物件。

相关技术在视频采集图像时，往往很难获取人脸正面图像从而无法识别，以及采集过程中容易受到光照、遮挡、外表附属物等干扰导致识别正确率降低，造成相关技术中每一帧识别检测到的人物的人脸的方式，存在处理资源浪费。

图1是本公开实施例提供的一种停留时长检测方法的流程图。参见图1，所述方法包括：

101：依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，所述第一图像为所述视频流中的任一帧图像。

在本公开实施例中，该停留时长检测方法可以由服务器执行，服务器获取监控设备(例如摄像头)拍摄到的视频流，根据视频流对监控设备拍摄到的画面所在区域内的人物进行检测，同时可以确定人物在该区域内的停留时长。

在本公开实施例中，服务器对视频流的每一帧图像都进行步骤101～步骤105的处理，从而最终能够根据多帧图像的人物信息，确定出人物停留时长。

102：利用跟踪算法处理所述第一图像和对应的第一检测框，得到所述第一图像的新增人物集合、已匹配人物集合和未匹配人物集合。

其中，新增人物集合是指相比于上一帧图像，第一图像中新增的人物的集合。而已匹配人物集合是指在上一张图像中已经出现，且在第一图像中再次出现的人物的集合。未匹配人物集合是指上一帧图像中出现，而第一图像没有再次出现的人物的集合，表明人物可能已经离开了视野范围，此时用离开时间减去进入时间即为停留时长，当然，为了增加检测统计的可靠性，并不是进入到未匹配人物集合的人物就会立马被认为是离开状态，而是一定的时间内人物持续位于未匹配人物集合才会认为是离开状态，未匹配人物集合里的人物也有可能再次被检测跟踪到而回到已匹配集合中。上述三个集合通过跟踪算法对上一帧图像和第一图像及各自的第一检测框进行处理得到。

在本公开实施例中，通过目标检测算法确定出的每个人物，都可以给出一个标识，该编号与人物对应的第一检测框的顶点坐标对应。前述新增人物集合和已匹配人物集合可以是标识的集合。

103：若所述新增人物集合不为空，或所述已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对所述第一图像进行检测，并生成与人脸对应的第二检测框。

这里，所述已匹配人物集合跟踪次数达到阈值是指，连续处理的图像帧数达到阈值时，例如连续处理60帧，此时对第一图像中的所有人脸进行检测和匹配。当达到阈值后，重新对跟踪次数进行计数。通过这种设计，可以在没有新增人物但存在已匹配人物的情况下，周期性地进行人脸检测算法，避免在没有新增人物的情况下，每幅图像都进行人脸检测和识别，从而节省了处理资源。

若所述新增人物集合为空且所述已匹配人物集合为空，则停止该方法流程。

若所述新增人物集合为空且所述已匹配人物集合不为空但跟踪次数未达到阈值，则停止该方法流程。

前述新增人物集合和已匹配人物集合中的人物都是在检测范围内检测到的。除了新增人物集合和已匹配人物集合外，还检测未知人物合集，也即处于检测范围外的人物，对于未知人物合集中的人物(对应一个第一检测框)，如果处于检测范围外超过一定时间，则从未知人物合集中删除。

值得说明的是，本公开提到的目标检测算法、跟踪算法和人脸检测算法均为成熟算法，本公开对此不做限定。

104：将所述第一图像的第一检测框和所述第二检测框进行匹配。

也即将人物的轮廓和脸对应上，这样后续进行人脸识别时，可以确定识别的是哪个人物。

105：对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息。

这里，人物信息可以包括姓名等身份信息，还包括该人物进行该区域的时间信息。

其中，人物信息可以从数据库中根据人脸识别结果得到，而人物进行该区域的时间信息则根据该第二检测框对应的第一检测框第一次出现所在的视频帧的时间得到。

在本公开实施例中，服务器可以记录每一帧图像的识别和处理结果，包括每帧图像的新增人物集合和已匹配人物集合等，这样就能够很容易在人脸识别后，根据第二检测框匹配的第一检测框对应的人物的标识，确定进入时间。

106：根据所述视频流的每一帧图像检测到的人物信息，确定所述视频流拍摄到的各个人物的停留时长。

根据人物第一次出现的图像的时间和最后出现的图像的时间，从而能够得到人物的停留时长。

图2是本公开实施例提供的一种停留时长检测方法的流程图。参见图2，所述方法包括：

201：依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，所述第一图像为所述视频流中的任一帧图像。

在本公开实施例中，服务器对视频流的每一帧图像都进行步骤201～步骤211的处理，从而最终能够根据多帧图像的人物信息，确定出人物停留时长。

202：利用跟踪算法处理所述第一图像和对应的第一检测框，得到所述第一图像的新增人物集合、已匹配人物集合和未匹配人物集合。

203：若所述新增人物集合不为空，或所述已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对所述第一图像进行检测，并生成与人脸对应的第二检测框。

204：获取所述第一图像中的所述第一检测框的顶点坐标、所述第二检测框的顶点坐标和所述第二检测框中人脸特征点的坐标。

在本公开一种可能的实现方式中，第一检测框和第二检测框均为矩形，且第一检测框的尺寸大于第二检测框。

图3是本公开实施例提供的一种第一检测框和第二检测框的示意图。参见图3，其中第一检测框包括A1、A2、A3和A4，第二检测框包括B1、B2、B3和B4。第一检测框和第二检测框均为矩形，每个检测框包括4个顶点，服务器可以获取每个检测框的4个顶点的坐标。

在本公开另一种可能的实现方式中，第一检测框和第二检测框也可以为其他形状，对此不做限定。

除此之外，在每个第二检测框中，服务器通过人脸检测算法进行人脸检测、人脸对齐、人脸特征提取，可以确定出人脸的五个关键特征点，例如，左眼、右眼、鼻子、左嘴角、右嘴角。然后，服务器得到这五个特征点的坐标。

205：根据所述第一检测框的顶点坐标和所述第二检测框中人脸特征点的坐标，确定各个所述第二检测框和各个所述第一检测框的包含关系，所述包含关系是指所述第二检测框中人脸特征点均位于所述第一检测框内。

在本公开一种可能的实现方式中，人脸特征点均位于对应的第二检测框中。后续示例均以人脸特征点均位于对应的第二检测框中为例进行说明。

在本公开另一种可能的实现方式中，人脸特征点可以部分位于对应的第二检测框中，对此不做限制。

206：若存在所述第一检测框和所述第二检测框存在一对一包含关系，则确定所述第一检测框和所述第二检测框存在一对一匹配关系。

参见图3，第一检测框A1和第二检测框B1存在一对一包含关系，则确定第一检测框A1和第二检测框B1存在一对一匹配关系。

207：若存在所述第一检测框和所述第二检测框存在一对多或多对一包含关系，则根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系。

参见图3，第一检测框A2分别和第二检测框B2、B3、B4存在包含关系，也即存在一对多包含关系，而第一检测框A2、A3和A4分别和第二检测框B4存在包含关系，也即存在多对一包含关系。

目标检测算法获得第一检测框集合A{A1,A2,A3,A4}，人脸检测算法获得第二检测框集合B{B1,B2,B3,B4}。遍历集合A和集合B，如果集合B中某一第二检测框的五个关键特征点坐标均在集合A某一第一检测框内，则认为它们是一对潜在的包含关系，得到集合C{A1B1,A2B2,A2B3,A2B4,A3B3,A3B4,A4B4}。由于A1B1是一对一，那么直接认为A1和B1存在一对一匹配关系。集合C剩余的元素，均为一对多或多对多的匹配关系，可以按照如下方式进行处理：

第一步，按照以下公式计算存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的关联系数：

其中，Face_i表示第i个第二检测框的面积，Pedestrian_j表示第j个第一检测框的面积，Face_i∩Pedestrian_j表示所述第i个第二检测框和所述第j个第一检测框的交叠面积，P_ij表示所述第i个第二检测框和所述第j个第一检测框的关联系数。

这里，i和j均为正整数，例如，需要采用步骤207进行匹配的第一检测框数量为a，第二检测框数量为b，a和b均为正整数，则i的取值从0到a，j的取值从0到b。

按照第一步可得到关联系数集合C{PA2B2,PA2B3,PA2B4,PA3B3,PA3B4,PA4B4}，如下表所示：

	B2	B3	B4
				A2	PA2B2	PA2B3	PA2B4
A3	0	PA3B3	PA3B4
				A4	0	0	PA4B4

关联系数矩阵如下：

第二步，根据所述第一检测框和所述第二检测框的关联系数，利用匈牙利算法或KM(Kuhn-Munkres)算法确定所述第一检测框和所述第二检测框的一对一匹配关系。

利用匈牙利算法或KM算法计算上述关联系数矩阵的最佳匹配关系，一种可信的匹配结果为{A2B2,A3B3,A4B4}。因此，最终匹配结果为{A1B1,A2B2,A3B3,A4B4}。

208：提取所述第二检测框中人脸的特征向量。

示例性地，服务器通过人脸检测算法进行人脸检测、人脸对齐、人脸特征提取，可以获得人脸的512维人脸特征向量。

当然，这里的512维仅为示例，也可以是其他维数的特征向量。

209：将提取出的所述特征向量和人脸特征库中的各类别的特征向量进行比对，并计算欧式距离。

也即，计算提取出的所述特征向量和人脸特征库中每个特征向量的欧式距离。

在该步骤之前，该方法还可以包括：获取人脸特征库。

示例性地，利用已知样本数据训练人脸特征库。假设样本数据有M个人脸类别，每个类别有N张图像(每个类别图像数量不一定相同)，即总共有M·N张图像，M和N均为正整数。对于数据集中的每张图像，利用人脸检测算法检测人脸区域并定位关键点位置(左眼、右眼、鼻子、左嘴角、右嘴角五个关键点)，然后利用仿射变化进行人脸对齐，再利用人脸特征提取算法提取每个人脸的512维特征向量。这样可得到M·N个512维特征向量，这些特征向量和其对应的类别标签即为该数据样本人脸特征库。这里，一个类别可以对应一个人物。

210：根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率。

示例性地，步骤210可以包括：

P＝α·P_total+(1-α)·P_best；

其中，P_total指所述第二检测框中人脸的特征向量与所述人脸特征库中第一类别的所有人脸特征向量的欧式距离小于欧式距离阈值的数量，和所述第一类别的特征向量总数的比值，目的是考虑整体的识别准确率，避免仅采用单个样本比对的最佳值作为判别的依据从而导致错误识别。如图4左侧所示，第二检测框中人脸的特征向量与人脸特征库中一个类别A中的一个样本的特征向量A1最近，若仅考虑单个样本，会把S错分成A类别，而本公开通过考虑各个类别中所有样本的情况，会将S分类到B中。所述第一类别为所述人脸特征库中的任一类别。P_best指所述第二检测框中人脸的最优特征概率，目的是考虑单个样本的识别准确率，避免仅采用整体样本的判断结果作为判别的依据从而导致误识别，如图4右侧所示，S与类别A的各个样本的特征向量距离全在阈值之内，而与类别B中一个样本的特征向量距离超出了阈值，如果仅考虑整体，会把S错分成A样本，而本公开通过考虑各个类别中单个样本的情况，会将S分类到B中。综上，本公开在进行分类时，会同时考虑单个样本及样本整体的情况，从而保证分类的准确。α为系数，一般根据经验取值，α越大则越置信群体判断结果，反之则越置信个体判断结果。

其中，N为所述第一类别的特征向量总数，也即第一类别的样本数，Num为小于欧式距离阈值的数量，d为欧式距离，threshold为欧式距离阈值；

P_best函数曲线如图5所示，可以看出，P_best在d_min越靠两端时，概率越接近1或0，d_min在threshold附近时变化曲线最陡，此现象符合实际。

当识别概率低于设定值时，认为第二检测框中人脸与所述人脸特征库中的各类别均不匹配，此时可以发出告警显示。

211：根据所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，确定所述第二检测框中人脸关联的类别对应的人物信息。

212：根据所述视频流的每一帧图像检测到的人物信息，确定所述视频流拍摄到的各个人物的停留时长。

下面通过示例对本公开提供的方法进行说明：

假设某一时刻人物A进入视频监控区域内，采集每一帧图像，通过目标检测算法检测到人物A，并将人物A对应的框和原始图像输入到行人跟踪算法中，行人跟踪算法认为行人框A为新增行人(初始为“未知人员”)，对该帧图像立即执行一次人脸检测和识别，通过将人脸框和行人框匹配起来，赋予行人框A相应的属性(如姓名、进入时间等)。

人物A在区域内持续停留过程中，对人物A进行实时跟踪，每帧跟踪结束后，认为人物A属于匹配的跟踪目标，更新人物A的最后访问时间。这一过程既避免了对每帧图像进行人脸检测和识别，也可解决A背身无法获取人脸情况下持续监视的问题。同时为了应对人脸可能产生误识别或某一次无法检测人脸的问题，后续跟踪的同时每间隔一段时间执行一次人脸检测和识别，并将所有的识别结果进行统计累加，统计次数最多的即为最后识别结果。若某一目标连续几次都被识别为“未知人员”，即发出告警显示。

人物A离开区域后，人物A会被跟踪算法认定为未匹配行人，当未匹配次数达到一定次数后，即认为人物A已经离开此区域，保存人物A的历史记录，并将A从未匹配人物集合中删除。

通过本公开提供的方法本方法可以对关键区域和场所进行监控并检测非法进入人员、统计人员停留时长。

图6是本公开实施例提供的一种停留时长检测装置的结构示意图。参见图6，所述停留时长检测装置包括：目标检测算法模块301、跟踪算法模块302、人脸检测算法模块303、匹配模块304、人脸识别模块305和确定模块306。

其中，目标检测算法模块301，用于依次获取视频流的每一帧图像，利用目标检测算法检测出第一图像中的所有人物，并为检测到的人物生成第一检测框，所述第一图像为所述视频流中的任一帧图像；

跟踪算法模块302，用于利用跟踪算法处理所述第一图像和对应的第一检测框，得到所述第一图像的新增人物集合、已匹配人物集合和未匹配人物集合；

人脸检测算法模块303，用于若所述新增人物集合不为空，或所述已匹配人物集合不为空且跟踪次数达到阈值，则利用人脸检测算法对所述第一图像进行检测，并生成与人脸对应的第二检测框；

匹配模块304，用于将所述第一图像的第一检测框和所述第二检测框进行匹配；

人脸识别模块305，用于对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息；

确定模块306，用于根据所述视频流的每一帧图像检测到的人物信息，确定所述视频流拍摄到的各个人物的停留时长。

可选地，所述匹配模块304，用于获取所述第一图像中的所述第一检测框的顶点坐标、所述第二检测框的顶点坐标和所述第二检测框中人脸特征点的坐标；根据所述第一检测框的顶点坐标和所述第二检测框中人脸特征点的坐标，确定各个所述第二检测框和各个所述第一检测框的包含关系，所述包含关系是指所述第二检测框中人脸特征点均位于所述第一检测框内；若存在所述第一检测框和所述第二检测框存在一对一包含关系，则确定所述第一检测框和所述第二检测框存在一对一匹配关系；若存在所述第一检测框和所述第二检测框存在一对多或多对一包含关系，则根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系。

可选地，所述匹配模块304，用于按照以下公式计算存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的关联系数：

可选地，所述人脸识别模块305，用于提取所述第二检测框中人脸的特征向量；将提取出的所述特征向量和人脸特征库中的各类别的特征向量进行比对，并计算欧式距离；根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率；根据所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，确定所述第二检测框中人脸关联的类别对应的人物信息。

可选地，所述人脸识别模块305，用于利用以下公式计算所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率：

P＝α·P_total+(1-α)·P_best；

需要说明的是：上述实施例提供的停留时长检测装置在进行停留时长检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的停留时长检测装置与停留时长检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本公开实施例提供的一种服务器的结构框图。通常，服务器包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的由服务器执行的停留时长检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种停留时长检测方法，其特征在于，所述方法包括：

将所述第一图像的第一检测框和所述第二检测框进行匹配；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像的第一检测框和所述第二检测框进行匹配，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第二检测框中人脸进行人脸识别，获得所述第二检测框中人脸的人物信息，包括：

提取所述第二检测框中人脸的特征向量；

5.根据权利要求4所述的方法，其特征在于，所述根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，包括：

P＝α·P_total+(1-α)·P_best；

6.一种停留时长检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述匹配模块，用于获取所述第一图像中的所述第一检测框的顶点坐标、所述第二检测框的顶点坐标和所述第二检测框中人脸特征点的坐标；根据所述第一检测框的顶点坐标和所述第二检测框中人脸特征点的坐标，确定各个所述第二检测框和各个所述第一检测框的包含关系，所述包含关系是指所述第二检测框中人脸特征点均位于所述第一检测框内；若存在所述第一检测框和所述第二检测框存在一对一包含关系，则确定所述第一检测框和所述第二检测框存在一对一匹配关系；若存在所述第一检测框和所述第二检测框存在一对多或多对一包含关系，则根据存在一对多或多对一包含关系的所述第一检测框和所述第二检测框的面积，确定所述第一检测框和所述第二检测框的一对一匹配关系。

8.根据权利要求6所述的装置，其特征在于，所述人脸识别模块，用于提取所述第二检测框中人脸的特征向量；将提取出的所述特征向量和人脸特征库中的各类别的特征向量进行比对，并计算欧式距离；根据提取出的所述特征向量和所述人脸特征库中的各类别的特征向量的欧式距离，确定所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率；根据所述第二检测框中人脸与所述人脸特征库中的各类别的识别概率，确定所述第二检测框中人脸关联的类别对应的人物信息。

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如权利要求1至5任一项所述的停留时长检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至5任一项所述的停留时长检测方法。