CN117496446B

CN117496446B - 一种基于目标检测和级联匹配的人流量统计方法

Info

Publication number: CN117496446B
Application number: CN202311854054.XA
Authority: CN
Inventors: 张鹏; 翟月; 肖景洋; 李末; 王泽灏; 赵威; 李爱华; 李刚; 吴敏思; 董克
Original assignee: Shenyang Elysan Electronic Technology Co ltd
Current assignee: Shenyang Elysan Electronic Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-15
Anticipated expiration: 2043-12-29
Also published as: CN117496446A

Abstract

本发明公开一种基于目标检测和级联匹配的人流量统计方法，步骤为：提取连续图像帧送入目标检测器中输出边界框预测和类别预测；对类别预测的行人检测结果保留、非行人类别结果丢弃；级联匹配准备；进行第一次级联匹配，即高分检测行人边界框和行人轨迹之间的匹配；进行第二次级联匹配，即低分检测行人边界框和第一次匹配中未匹配成功轨迹之间的匹配，判断行人边界框与行人轨迹之间的匹配关系，对行人轨迹进行初始化、删除、关联、重激活，并根据行人轨迹的数量计算人流量。本发明对常规的运动预测进行必要的信息补充，缓解由于视觉特征缺少造成的行人ID切换问题，针对快速运动的行人能够有效预测，提高了轨迹匹配的精准度和人流量统计的准确性。

Description

一种基于目标检测和级联匹配的人流量统计方法

技术领域

本发明涉及行人检测与跟踪技术领域，具体为一种基于目标检测和级联匹配的人流量统计方法。

背景技术

人员密集且人员流动大的公共场所常常面临着安全隐患。以地铁车站为例，在高峰时段或紧急情况下，车站内人满为患，可能导致乘客的情绪紧张和焦虑。这种情况下，人群聚集在狭小有限的空间中，容易引发拥挤、踩踏等混乱现象，对人们的安全出行带来了极大影响。因此，采用人流管理和安全预警系统对于减轻拥挤和应对突发事件至关重要。

地铁车站的安全管理需要综合考虑各种潜在风险，采用现代技术和监控系统，可以提高乘客出行的安全系数。这不仅关乎地铁系统的正常运营和城市的交通安全，还关系到乘客的生命安全。因此，安全管理是地铁运营的重要组成部分，需要不断改进和完善。随着计算机视觉技术的不断进步，目标检测和跟踪方法在工业生产领域得到了广泛的应用。在过去，人流量统计主要采用背景差、帧差、光流法和方向梯度直方图等传统技术来检测行人流量，然后利用颜色、形状等特征进行行人的重新识别。然而，随着深度学习技术的崛起，目标检测和跟踪方法逐渐转向了基于深度神经网络的检测算法。这种变革使得目标检测和跟踪方法更加准确且具有更高的稳健性。

深度神经网络能够提取更为丰富和高级的特征表示，从而实现更精确的目标检测和跟踪。它能够学习到大数据中的复杂模式和特征，有效区分目标和背景，从而可显著提高检测的准确性。目前，常用于图像和视频的目标检测和跟踪方法包括R-CNN、Fast R-CNN、YOLO、FairMot、TransTrack、ByteTrack等。然而，为了进一步提高行人检测和跟踪的精度，并解决目标检测算法可能导致的行人漏检问题，以及关联匹配策略中存在的缺陷，如当前行人与历史行人轨迹错误匹配的问题，有必要提出一种基于目标检测和级联匹配的人流量统计方法，将有效改进人流量统计的准确性和可靠性，对于地铁车站等人流密集场所的安保具有重要意义。

发明内容

针对现有技术中人流密集场所行人检测和跟踪的误差大、并存在行人遮挡等，目标检测算法可能导致的行人漏检问题以及关联匹配策略中存在的当前行人与历史行人轨迹错误匹配等不足，本发明要解决的技术问题是提供一种基于目标检测和级联匹配的人流量统计方法，以应对采用传统方法统计人流量时所存在的一系列由于人流量过大，行人遮挡带来的人流量统计误差问题。

为解决上述技术问题，本发明采用的技术方案是：

S1、从监控视频流中提取连续图像帧F _t；

S2、对图像帧F _t进行图像预处理操作后，送入目标检测器中，得到边界框预测和类别预测；

S3、根据边界框预测和类别预测，结合阈值筛选和非极大值抑制技术，去除重复的行人检测结果和非行人类别结果，并输出有效的行人检测结果，包括检测行人边界框集合D _t和对应的置信度集合S _t；

S4、级联匹配准备过程，以设定的边界框置信度阈值为标准，以置信度为划分依据，将步骤S3得到的检测行人边界框集合D _t划分为高分检测行人边界框集合和低分检测行人边界框集合；

S5、以前一帧的活跃轨迹集合作为输入，利用运动状态估计器得到预测行人边界框集合/>；

S6、进行第一次级联匹配，将步骤S5得到的预测行人边界框集合与高分检测行人边界框集合进行运动预测相似度和视觉特征向量相似度计算，并利用运动状态估计器得到高分匹配轨迹集合、剩余高分检测行人边界框集合以及剩余活跃轨迹集合；

S7、将剩余高分检测行人边界框集合与F _t-1帧的未激活轨迹集合最近时刻匹配行人边界框集合/>中的元素逐个进行视觉特征向量相似度计算，满足视觉特征向量相似度要求进行轨迹重匹配的轨迹离开F _t-1帧的未激活轨迹集合/>，并进入重激活轨迹集合/>，否则对剩余高分检测行人边界框集合/>中的行人边界框进行初始化生成新轨迹集合/>；

S8、进行第二次级联匹配，将低分检测行人边界框集合与剩余活跃轨迹集合通过运动状态估计器得到的剩余预测行人边界框集合/>，利用组合优化算法得到低分匹配轨迹集合/>、剩余低分检测行人边界框集合/>以及二次剩余活跃轨迹集合/>；

S9、将剩余低分检测行人边界框集合视为背景，从检测行人边界框集合D _t中删除；

S10、将二次剩余活跃轨迹集合与F _t-1帧的未激活轨迹集合进行合并成为F _t帧的未激活轨迹集合/>；F _t帧的未激活轨迹集合中每个轨迹的未匹配计数加1，若未匹配计数超过未匹配计数阈值N，则从F _t帧的未激活轨迹集合/>中将对应轨迹删除；高分匹配轨迹集合/>、低分匹配轨迹集合/>、重激活轨迹集合/>和新轨迹集合/>中每个轨迹的未匹配计数置为0，合并高分匹配轨迹集合/>、低分匹配轨迹集合/>、重激活轨迹集合、新轨迹集合/>得到图像帧F _t的活跃轨迹集合/>；合并图像帧F _t的活跃轨迹集合/>、F _t帧的未激活轨迹集合/>得到图像帧F _t的全部轨迹集合T _t；对图像帧F _t的活跃轨迹集合/>中包含的轨迹数量进行统计，得到t时刻的人流量信息P _t；t代表当前时刻；

S11、初始化目标检测器、运动状态估计器以及组合优化算法，重复步骤S2至步骤S11，得到每个图像帧F _t的轨迹集合T _t和人流量信息P _t。

所述监控视频流为实时获取的被监控区域的视频监控数据；所述目标检测器负责处理采集到的视频监控数据，输出相应的目标检测结果；所述级联匹配是通过跟踪目标检测结果，并根据行人出现顺序和行人轨迹的编号分配行人ID，对人流量信息进行统计。

目标检测器通过非极大值抑制和阈值筛选去除干扰目标，得到检测行人边界框集合D _t与置信度集合S _t；目标检测器得到行人边界框坐标信息det＝(x ,y ,w ,h)，x为检测行人边界框左上角的横坐标，y为检测行人边界框左上角的纵坐标，w为检测行人边界框的宽度，h为检测行人边界框的高度。

步骤S4中，以行人的边界框置信度阈值作为分类标准，将置信度大于等于的检测行人边界框划分为高分检测行人边界框，将置信度大于等于最小置信度并小于边界框置信度阈值的检测行人边界框划分为低分检测行人边界框，置信度小于的检测行人边界框通过阈值筛选操作去除。

步骤S5中，以前一帧的活跃轨迹集合作为输入，利用卡尔曼滤波器得到预测行人边界框集合/>，其中需要预测的状态是：

x _k =[x _c(k),y _c(k) ,w(k) ,h(k)，d[x _c(k)],d[y _c(k)] ,d[w(k)] ,d[h(k)]]^T (1)

其中，x _k为第k个预测行人边界框的运动状态， x _c(k)为第k个预测行人边界框左上角的横坐标，y _c(k)为第k个预测行人边界框左上角的纵坐标，w(k)为第k个预测行人边界框宽，h(k)为第k个预测行人边界框的高，d[x _c(k)]为x _c(k)的微分，d[y _c(k)]为y _c(k)的微分，d[w(k)]为w(k)的微分，d[h(k)]为h(k)的微分，k代表当前预测行人边界框在集合内的序号；c为二维平面的预测基准点。

步骤S6中预测行人边界框集合与高分检测行人边界框集合/>进行运动预测相似度计算，具体为：

计算自适应扩展交并比，若行人运动的速度超过画面内所有行人平均运动速度，则将其视为快速移动的行人，对其使用扩展交并比系数进行相似度计算；否则扩展交并比系数设置为0，通过自适应扩展交并比，得到运动预测相似度。

步骤S6中，视觉特征向量相似度计算是分别对当前检测到的高分检测行人边界框集合和预测行人边界框集合/>分别生成高分行人边界框视觉特征向量Y ^high和预测行人边界框视觉特征向量Y ^p；

应用图像切片技术和特征提取注意机制的提取方法对输入行人边界框图像切片；

应用骨干网络Resnet-18来提取行人边界框的视觉特征，将行人边界框的视觉特征图分成数量为s×e的切片S _i∈R ^n×s×e，其中n为特征图的通道数量，s为横向切片数量，e为纵向切片数量，S _i为第i个切片，R ^n×s×e为切片所在的坐标空间；

向每个切片添加一个一维位置嵌入E _p，假设目前s、e均为2，每个切片表示为：

S _i=S _i+E _p(2)

其中，i=A,B,C,D；E _p =1,2,3,4；A为行人边界框的左上部分，B为行人边界框的右上部分，C为行人边界框的左下部分，D为行人边界框的右下部分；E _P代表A~D位置对应关系；

应用特征切片序列S={S _A ~S _D}作为注意力模块的输入，利用深度神经网络中的注意力机制通过将查询内容输入到矩阵Q中来计算注意力函数，同时将匹配条件和匹配的内容分别输入到矩阵K和矩阵V中，Q-K-V注意力模块的计算表示为：

(3)

Q、K、V分别代表Query矩阵、Key矩阵和Value矩阵；

其中d _K是关键向量的维度，每个切片在通过 Q-K-V 注意力模块后都有一个输出S _i；将通过 Q-K-V 注意力模块的每个特征切片序列S={S _A ~S _D}的输出表示为以下等式：

S _A =SA(Q _S1 ,K _S1 ,V _S1)+CA(Q _S1 ,K _S2 ,V _S2)+CA(Q _S1 ,K _S3 ,V _S3)+CA(Q _S1 ,K _S4 ,V _S4)

S _B =SA(Q _S2 ,K _S2 ,V _S2)+CA(Q _S2 ,K _S1 ,V _S1)+CA(Q _S2 ,K _S3 ,V _S3)+CA(Q _S2 ,K _S4 ,V _S4)

S _C =SA(Q _S3 ,K _S3 ,V _S3)+CA(Q _S3 ,K _S1, V _S1)+CA(Q _S3 ,K _S2 ,V _S2)+CA(Q _S3 ,K _S4 ,V _S4)

S _D =SA(Q _S4 ,K _S4 ,V _S4)+CA(Q _S4 ,K _S1 ,V _S1)+CA(Q _S4 ,K _S2 ,V _S2)+CA(Q _S4 ,K _S3 ,V _S3) (4)

其中Q _Si是S _i得到的Query矩阵，K _Si是S _i得到的Key矩阵，V _Si是S _i得到的Value矩阵，SA代表自注意力机制，CA代表交叉注意力机制；

在得到特征切片序列 S={S _A ~S _D}后，使用连接机制将S _A ~S _D拼接，以保留输入图像的特征；

在得到当前检测到的高分行人边界框视觉特征向量Y ^high和预测行人边界框视觉特征向量Y ^p后，通过全连接层对Y ^high和Y ^p进行特征修正得到修正视觉特征向量，并通过余弦相似度对Y ^high和Y ^p的修正视觉特征向量进行相似度计算，最后通过归一化操作获得便于计算的视觉特征向量相似度M _v；将运动预测相似度M _k和视觉特征向量相似度M _v通过以下公式得到代价矩阵：

C _high =M _k(m,l)-(1-M _v(m,l)) (5)

其中M _k（m,l）是第m个轨迹和第l个检测行人边界框之间的运动预测相似度，由运动状态估计器生成，M _v（m,l）是第m个轨迹和第l个检测行人边界框之间的视觉特征向量相似度，由视觉特征向量相似度计算方法生成；最后在级联匹配的第一次匹配中使用代价矩阵C _high通过匈牙利算法完成匹配。

步骤S7中，对剩余高分检测行人边界框集合中的轨迹计算视觉特征向量，并依次与F _t-1帧的未激活轨迹集合/>所对应的视觉特征向量计算视觉特征向量相似度Ｍ _v，如果出现视觉特征向量相似度Ｍ _v大于等于及格线的视觉特征向量，则将剩余高分检测行人边界框集合/>与F _t-1帧的未激活轨迹集合/>进行匹配，并将匹配后的轨迹放置于重激活轨迹集合/>中，并且将未匹配数置0；若出现两个及两个以上视觉特征向量相似度Ｍ _v大于等于及格线，则以视觉特征向量相似度最高匹配轨迹为准，并对行人离开和进入监控视野的行为进行记录；若视觉特征向量相似度Ｍ _v均小于及格线，则将剩余高分检测行人边界框集合/>中的检测行人边界框初始化为新轨迹集合/>中轨迹的第一帧图像。

步骤S10中，将步骤S8中二次剩余活跃轨迹集合与F _t-1帧的未激活轨迹集合/>进行合并得到F _t帧的未激活轨迹集合/>，若F _t帧的未激活轨迹集合/>中任一轨迹的未匹配数达到未匹配计数阈值N，则视该轨迹所属的行人从监控视野中消失，在t时刻从F _t帧的未激活轨迹集合/>中删除轨迹。

与现有技术相比，本发明具有以下有益技术效果及优点：

1．本发明基于目标检测和级联匹配的人流量统计方法，使用一种多模态的特征融合机制，基于卡尔曼滤波器的运动预测算法和基于注意力机制的视觉特征向量提取方法，能提高有效信息来源广度和深度，对常规的运动预测进行必要的信息补充，缓解由于视觉特征缺少造成的行人ID切换问题；

2. 本发明方法使用自适应扩展交并比，能有效提高卡尔曼滤波器的稳健性，针对快速运动的行人能够有效的进行运动预测。

3. 本发明方法使用级联匹配算法，对不同置信度的行人边界框分类进行操作，提高当前行人与历史行人轨迹匹配的精准度；

4．本发明方法对一定时间内出现过的行人的视觉特征向量和轨迹进行记录保存，当某行人在一定时间内重复出现时，可对其历史轨迹进行匹配，减少同一行人的重复轨迹，有效提高人流量统计的准确性。

附图说明

图1为本发明一种基于目标检测和级联匹配的人流量统计方法流程图；

图2为本发明方法中自适应扩展交并比示意图；

图3为本发明方法中基于注意力机制的视觉特征向量提取模块网络结构示意图；

图4为本发明方法中视觉特征向量相似度计算方法结构图。

具体实施方式

下面结合附图对本发明进行详细说明，但本发明的保护范围不受附图所限。

本发明提供一种基于目标检测和级联匹配的人流量统计方法，旨在应对传统方法统计人流量时所存在的一系列由于人流量过大，行人遮挡带来的人流量统计误差问题，本发明的主要目的是通过对行人轨迹的追踪进行人流量统计。

如图1所示，本发明方法包括以下步骤：

S1、从监控视频流中提取连续图像帧F _t；

S2、对图像帧F _t进行图像预处理操作后，送入目标检测器（采用YOLOV8）中，得到边界框预测和类别预测；

S3、根据边界框预测和类别预测，结合阈值筛选和非极大值抑制（NMS）技术，去除重复的行人检测结果和非行人类别结果，并输出有效的行人检测结果，包括检测行人边界框集合D _t和对应的置信度集合S _t；

S5、以前一帧的活跃轨迹集合作为输入，利用运动状态估计器（采用卡尔曼滤波器）得到预测行人边界框集合/>；

S6、进行第一次级联匹配，将步骤S5得到的预测行人边界框集合与高分检测行人边界框集合进行运动预测相似度和视觉特征向量相似度计算，并利用运动状态估计器（采用匈牙利算法匹配）得到高分匹配轨迹集合、剩余高分检测行人边界框集合以及剩余活跃轨迹集合；

本实施例以地铁车站人流量检测为例，通过安装于地铁站入口侧的摄像头实时监控地铁车站的视频流，应用于相关场景中的服务器首先把从安装部署于检测现场的摄像头获取的视频流解码成连续图像帧，首先提取连续的图像帧，然后在每一帧图像中，进行行人边界框的检测，并基于置信度阈值对检测到的行人边界框进行分类，将它们划分为高分检测行人边界框、低分检测行人边界框和背景区域；接下来，采用卡尔曼滤波器和基于注意力机制的视觉特征提取模块，分别处理高分和低分检测行人边界框，以获得有关其运动信息和视觉信息的数据。这些信息通过门函数进行融合，生成了综合的融合特征。

为了对高分检测行人边界框和低分检测行人边界框进行匹配，本发明采用匈牙利算法，并使用融合特征和运动特征作为匹配的依据。这样，系统能够更准确地跟踪和识别人流密集场所中的行人，实现高效的监控和人流管理。这一技术有效地结合了视觉信息和运动信息，提高了行人检测和跟踪的准确性和鲁棒性。

所述监控视频流为实时获取的被监控区域的视频监控数据，目标检测器为YOLOV8，其主要职责是处理从视频监控中采集到的视频数据，然后生成相应的目标检测结果。本发明还具备级联匹配跟踪功能，用于跟踪已检测到的目标，并根据它们出现的顺序和运动轨迹的编号来为每个行人分配唯一的标识号（ID），以便进行个体的追踪和统计。因此，系统可以有效地监测和记录人流量信息。

步骤S3中，目标检测器YOLOV8执行了关键的任务，即获取检测行人边界框集合和相应的置信度集合。这个过程经历了一系列关键步骤，包括非极大值抑制和阈值筛选，以便去除可能的干扰目标，从而获得最终的检测行人边界框集合和置信度集合。

在这一过程中，目标检测器获得了关于检测行人边界框的重要信息，其中det表示行人边界框坐标信息，包括了行人边界框左上角坐标(x, y)以及在图像中的大小(w, h)。这些坐标和尺寸信息对于准确地定位和识别行人在监控画面中的位置至关重要。

在YOLOV8检测行人边界框的过程中，通过计算和分析，帮助目标检测器准确地识别行人边界框，并伴随着相应的置信度，以便在后续的处理中能够对这些检测到的行人进行更精确的跟踪和识别。这一阶段的操作是整个系统中的关键环节，确保了目标检测的准确性和可靠性。

本实施例中，在步骤S4的高分检测行人边界框集合与步骤S5的预测行人边界框集合进行匹配计算前，以行人的边界框置信度阈值作为分类标准，将置信度大于等于的检测行人边界框划分为高分检测行人边界框，将置信度在（包含 0.2，不包含）之间的行人边界框划分为低分检测行人边界框，置信度为0.2（不包含0.2）以下的检测行人边界框在阈值筛选操作时已去除。

计算自适应扩展交并比，若行人运动的速度超过画面内所有行人平均运动速度，则将其视为快速移动的行人，对其使用扩展交并比系数进行相似度计算；否则扩展交并比系数设置为0，通过自适应扩展交并比，得到运动预测相似度M _k。

本实施例中，自适应性表现在对行人运动速度的评估上。如果某个行人的运动速度超过了画面中所有行人的平均运动速度，那么把这个行人视为快速移动的行人，然后对其运用扩展交并比来进行相似度评分的计算。这个扩展交并比的扩展系数被设定为0.3，也就是说，本方法将行人的边界框扩展为原始边界框的长和宽的1.3倍，以增加其检测的范围。

反之，如果行人的运动速度没有超过平均速度，那么扩展系数就被设置为0，不对其进行扩展。通过这种自适应扩展交并比的方法，系统可以获得一个关于行人运动的预测相似度评分，这有助于更准确地识别快速移动的行人。自适应扩展交并比的示意图如图2所示。

步骤S6中，视觉特征向量相似度计算是通过视觉特征向量提取模块实现，如图3所示，对当前检测到的高分检测行人边界框集合和预测行人边界框集合/>分别生成高分行人边界框视觉特征向量Y ^high和预测行人边界框视觉特征向量Y ^p；本发明使用图像切片技术和特征提取注意机制的提取方法对输入行人边界框图像切片；对输入行人边界框图像切片，将其分为左上部分、右上部分、左下部分、右下部分（以图像横竖两个中心轴对称平均分配），应用骨干网络Resnet-18来提取行人边界框的视觉特征，将行人边界框的特征图分成数量为s×e的切片S _i∈R ^n×s×e，其中n=4，为特征图的通道数量，s为横向切片数量，e为纵向切片数量，S _i为第i个切片，R ^n×s×e为切片所在的坐标空间；

向每个切片添加一个一维位置嵌入E _p，假设目前s、e均为2（还可以有其他数值，如s为3、e为2，或s为1、e为4等多种情况），每个切片表示为：

S _i=S _i+E _p(2)

其中，i=A,B,C,D；E _p =1,2,3,4；A为行人边界框的左上部分，B为行人边界框的右上部分，C为行人边界框的左下部分，D为行人边界框的右下部分；E _P代表A~D的位置对应关系；即A~D分别对应1~4；

(3)

Q、K、V分别代表Query矩阵、Key矩阵和Value矩阵；

C _high =M _k(m,l)-(1-M _v(m,l)) (5)

其中M _k（m,l）是第m个轨迹和第l个检测行人边界框之间的运动预测相似度，由运动状态估计器生成，M _v（m,l）是第m个轨迹和第l个检测行人边界框之间的视觉特征向量相似度，由视觉特征向量相似度计算方法生成（如图4所示）；最后在级联匹配的第一次匹配中使用代价矩阵C _high通过匈牙利算法完成匹配。

步骤S7中，对剩余高分检测行人边界框集合中的轨迹计算视觉特征向量，并依次与F _t-1帧的未激活轨迹集合/>所对应的视觉特征向量计算视觉特征向量相似度Ｍ _v，如果出现视觉特征向量相似度Ｍ _v大于等于及格线的视觉特征向量（说明匹配成功），则将剩余高分检测行人边界框集合/>与F _t-1帧的未激活轨迹集合进行匹配，并将匹配后的轨迹放置于重激活轨迹集合/>中，并且将未匹配数置0；若出现两个及两个以上视觉特征向量相似度Ｍ _v大于等于及格线，则以视觉特征向量相似度最高匹配轨迹为准，并对行人离开和进入监控视野的行为进行记录；若视觉特征向量相似度Ｍ _v均小于及格线（说明匹配不成功），则将剩余高分检测行人边界框集合中的检测行人边界框初始化为新轨迹集合/>中轨迹的第一帧图像。

本步骤针对剩余高分检测行人边界框集合的每个行人边界框进行了一系列重要的操作。首先，对这些剩余高分检测行人边界框，计算其相应的视觉特征向量，这些特征向量用于描述行人的视觉特征。接下来，将这些视觉特征向量与F _t-1帧中未激活轨迹集合/>所对应的视觉特征向量逐一进行相似度的计算。

如果某一行人边界框的视觉特征向量与任何未匹配轨迹的特征向量之间的相似度大于或等于预设的阈值0.6，那么这个未匹配的高分检测行人边界框就会被与相应的未匹配轨迹进行匹配，并将该轨迹放入重激活轨迹集合中。同时，未匹配的行人数量被重置为0。如果两个或两个以上剩余高分检测行人边界框的相似度评分都高于0.6，将以评分最高的轨迹为准，并记录行人进入和离开监控视野的行为。

然而，如果所有剩余高分检测行人边界框的视觉相似度评分都小于0.6，那么未匹配成功的剩余高分检测行人边界框将被初始化为新轨迹集合中的轨迹的第一帧图像，为其建立新的轨迹。这一步骤确保对于那些在某一帧中无法与已有轨迹匹配的行人，能够被正确地跟踪和识别，从而保持了本发明方法的鲁棒性和准确性。

步骤S8中，对于剩余活跃轨迹集合使用卡尔曼滤波器获得剩余预测行人边界框集合/>，并与低分检测行人边界框集合/>利用匈牙利算法匹配。

步骤S10是将步骤S8中二次剩余活跃轨迹集合与F _t-1帧的未激活轨迹集合/>进行合并得到F _t帧的未激活轨迹集合/>，若F _t帧的未激活轨迹集合/>中任一轨迹的未匹配数达到未匹配计数阈值N，则视该轨迹所属的行人从监控视野中消失，在t时刻从F _t帧的未激活轨迹集合/>中删除轨迹，本实施例中N为30。

本发明使用于相关场景中的服务器，首先把从安装部署于检测现场的摄像头获取的视频流解码成连续图像帧，然后传入到目标检测器中进行特征提取，得到边界框预测和类别预测，之后把目标检测器输出的类别预测按照类别进行分类，将其分为行人对象和非行人对象，将行人对象保留，非行人对象丢弃；再对保留的边界框按照置信度阈值进行划分，获得高、低分检测行人边界框，从而进行级联匹配，第一次为高分检测行人边界框和行人轨迹之间的匹配，第二次为低分检测行人边界框和第一次匹配中未匹配成功轨迹之间的匹配，由此可以通过匈牙利算法的数据计算，判断行人边界框与行人轨迹之间的匹配关系，并对行人轨迹进行相应的管理，如初始化、删除、关联以及重激活等，并根据行人轨迹的数量计算人流量。

综上所述，本发明通过综合应用深度学习和运动预测技术，通过采用多模态的信息融合策略，提高了深度神经网络的输入信息丰富度。本发明还设计了新型的视觉信息特征提取模块（指步骤S6+步骤S7的过程），面向不同尺度的行人图像均能够做到有效的信息采集。在行人间遮挡效果明显以及行人密集场景下，本发明保持了良好的轨迹追踪的精度和人流量统计的准确度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本实例发明，凡在本发明的精神和原则之内，所做的任何修改，等同替换、改进等均应包含在本发明的保护范围内。

Claims

1.一种基于目标检测和级联匹配的人流量统计方法，其特征在于包括以下步骤：

S1、从监控视频流中提取连续图像帧F _t；

S4、级联匹配准备过程，以设定的边界框置信度阈值为标准，以置信度为划分依据，将步骤S3得到的检测行人边界框集合D _t划分为高分检测行人边界框集合/>和低分检测行人边界框集合/>；

S6、进行第一次级联匹配，将步骤S5得到的预测行人边界框集合与高分检测行人边界框集合/>进行运动预测相似度/>和视觉特征向量相似度/>计算，并利用运动状态估计器得到高分匹配轨迹集合/>、剩余高分检测行人边界框集合/>以及剩余活跃轨迹集合/>；

S10、将二次剩余活跃轨迹集合与F _t-1帧的未激活轨迹集合/>进行合并成为F _t帧的未激活轨迹集合/>；F _t帧的未激活轨迹集合/>中每个轨迹的未匹配计数加1，若未匹配计数超过未匹配计数阈值N，则从F _t帧的未激活轨迹集合/>中将对应轨迹删除；高分匹配轨迹集合/>、低分匹配轨迹集合/>、重激活轨迹集合/>和新轨迹集合/>中每个轨迹的未匹配计数置为0，合并高分匹配轨迹集合/>、低分匹配轨迹集合/>、重激活轨迹集合/>、新轨迹集合得到图像帧F _t的活跃轨迹集合/>；合并图像帧F _t的活跃轨迹集合/>、F _t帧的未激活轨迹集合/>得到图像帧F _t的全部轨迹集合T _t；对图像帧F _t的活跃轨迹集合/>中包含的轨迹数量进行统计，得到t时刻的人流量信息P _t；t代表当前时刻；

2.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：所述监控视频流为实时获取的被监控区域的视频监控数据；所述目标检测器负责处理采集到的视频监控数据，输出相应的目标检测结果；所述级联匹配是通过跟踪目标检测结果，并根据行人出现顺序和行人轨迹的编号分配行人ID，对人流量信息进行统计。

3.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：目标检测器通过非极大值抑制和阈值筛选去除干扰目标，得到检测行人边界框集合D _t与置信度集合S _t；目标检测器得到行人边界框坐标信息det＝(x ,y ,w ,h)，x为检测行人边界框左上角的横坐标，y为检测行人边界框左上角的纵坐标，w为检测行人边界框的宽度，h为检测行人边界框的高度。

4.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：

步骤S4中，以行人的边界框置信度阈值作为分类标准，将置信度大于等于/>的检测行人边界框划分为高分检测行人边界框，将置信度大于等于最小置信度/>并小于边界框置信度阈值/>的检测行人边界框划分为低分检测行人边界框，置信度小于/>的检测行人边界框通过阈值筛选操作去除。

5.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：

6.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：步骤S6中预测行人边界框集合与高分检测行人边界框集合/>进行运动预测相似度计算，具体为：

7.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：

S _i=S _i +E _p(2)

(3)

Q、K、V分别代表Query矩阵、Key矩阵和Value矩阵；

其中d _K是关键向量的维度，每个切片在通过 Q-K-V 注意力模块后都有一个输出 S _i；将通过 Q-K-V 注意力模块的每个特征切片序列S={S _A ~S _D}的输出表示为以下等式：

C _high =M _k(m,l)-(1-M _v(m,l)) (5)

其中M _k（m,l）是第m个轨迹和第l个检测行人边界框之间的运动预测相似度，由运动状态估计器生成，M _v（m, l）是第m个轨迹和第l个检测行人边界框之间的视觉特征向量相似度，由视觉特征向量相似度计算方法生成；最后在级联匹配的第一次匹配中使用代价矩阵C _high通过匈牙利算法完成匹配。

8.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：步骤S7中，对剩余高分检测行人边界框集合中的轨迹计算视觉特征向量，并依次与F _t-1帧的未激活轨迹集合/>所对应的视觉特征向量计算视觉特征向量相似度Ｍ _v，如果出现视觉特征向量相似度Ｍ _v大于等于及格线的视觉特征向量，则将剩余高分检测行人边界框集合/>与F _t-1帧的未激活轨迹集合/>进行匹配，并将匹配后的轨迹放置于重激活轨迹集合/>中，并且将未匹配数置0；若出现两个及两个以上视觉特征向量相似度Ｍ _v大于等于及格线，则以视觉特征向量相似度最高匹配轨迹为准，并对行人离开和进入监控视野的行为进行记录；若视觉特征向量相似度Ｍ _v均小于及格线，则将剩余高分检测行人边界框集合/>中的检测行人边界框初始化为新轨迹集合/>中轨迹的第一帧图像。

9.根据权利要求1所述的基于目标检测和级联匹配的人流量统计方法，其特征在于：步骤S10中，将步骤S8中二次剩余活跃轨迹集合与F _t-1帧的未激活轨迹集合进行合并得到F _t帧的未激活轨迹集合/>，若F _t帧的未激活轨迹集合中任一轨迹的未匹配数达到未匹配计数阈值N，则视该轨迹所属的行人从监控视野中消失，在t时刻从F _t帧的未激活轨迹集合/>中删除轨迹。