CN113743260A

CN113743260A - 一种地铁站台密集人流情况下的行人跟踪方法

Info

Publication number: CN113743260A
Application number: CN202110966427.7A
Authority: CN
Inventors: 余贵珍; 刘文韬; 周彬; 杨松岳; 龚子任
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-12-03
Anticipated expiration: 2041-08-23
Also published as: CN113743260B

Abstract

本发明公开了一种地铁站台密集人流情况下的行人跟踪方法，基于跟踪算法deepsort以及目标检测网络yolov5来实时对地铁站台行人进行跟踪，通过yolov5实现行人检测后，用deepsort算法给每一位行人分配ID，将检测框和跟踪框进行级联匹配，采用DIOU阈值和马氏距离阈值的阶梯式筛选，并持续跟踪，直至行人走出摄像头范围；本发明在保证跟踪精准度的同时，可以达到30FPS的处理帧率，满足实时化部署要求。

Description

一种地铁站台密集人流情况下的行人跟踪方法

技术领域

本发明涉及一种地铁站台密集人流情况下的行人跟踪方法，属于智能轨道交通环境感知领域。

背景技术

随着我国城市规模的高速发展，城市化进程的逐步加快，城镇人口和人均机动车保有量水平急速增加，交通拥堵现象日益严重。而具有载客量大、运送效率高、能源消耗低的城市轨道交通已经成为缓解城市交通拥堵问题的必然选择。另一方面，人流量的剧增会导致地铁站台管理混乱，出现部分乘客逃票，以及偷窃等情况。

目前地铁站防止逃票以及偷窃等违法行为，主要依靠地铁工作人员巡视。这一方法过于耗费人力，且人工巡视难免会有疏漏，导致逃票行为依然时有发生。

发明内容

本发明的目的在于克服现有技术的不足，提供一种地铁站台密集人流情况下的行人跟踪方法，基于跟踪算法deepsort以及目标检测网络yolov5来实时对地铁站台行人进行跟踪，通过yolov5实现行人检测后，用deepsort算法给每一位行人分配ID，并持续跟踪，直至行人走出摄像头范围。本发明在保证跟踪精准度的同时，可以达到30FPS的处理帧率，满足实时化部署要求。

本发明的技术方案如下：

一种地铁站台密集人流情况下的行人跟踪方法，基于跟踪算法deepsort以及目标检测网络yolov5来实时对地铁站台行人进行跟踪，包括如下步骤：

步骤1：安装传感器，在地铁站台高处安装摄像头；

步骤2：采集视频数据，应用步骤1安装的摄像头进行数据采集，采集的数据为包含地铁站台各个时间段的行人流视频数据；

步骤3：制作行人训练集，通过采集到的视频数据，从中尽可能多的选取行人图片作为训练集，并从中选取部分数据作为测试集，用来测试地铁站台行人检测的效果；

步骤4：数据集标注，根据标注要求进行标注；

步骤5：Yolov5目标检测模型训练，使用yolov5目标检测网络获得地铁站台行人检测框；

步骤6：将训练的模型转成trt格式，并用C++调用；

步骤7：deepsort算法完成行人跟踪，采用deepsort接收检测结果，对各检测框进行前处理，接着将检测框和跟踪框进行级联匹配，采用DIOU阈值和马氏距离阈值的阶梯式筛选，并对未成功匹配的进行DIOU匹配，最后根据DIOU匹配情况进行后续操作并更新特征向量集；

步骤8：重复以上步骤5-7，持续对目标进行跟踪。

优选地，步骤5的使用yolov5目标检测网络获得地铁站台行人检测框具体方式为：应用得到的所述训练集进行训练，先将VOC格式的标注文件转换为训练需要的txt格式，选用最轻量化，深度和宽度都最小的Yolov5s网络进行训练，并进行数据集强化；最终损失函数为：

S代表13,26,52，即grid的大小。B＝3，即每个grid的锚框数量；

L_giou表示检测框和先验框之间的GIOU值所造成的损失；

第一行表示定位损失，

表示如果边界框先验和GT目标比其他的GT目标重叠多，则计入损失函数，但如果重叠度小于阈值，则不计入损失函数，

同理；

λ_iou定位损失iou_normalizer；

λ_cls目标置信度损失cls_normalizer；

C_i为边界先验框置信度，

为GT置信度，均为1；

λ_c分类损失classes_multiplers，使用标准交叉熵损失函数；

为GT真实分类函数，p_i(c)为先验框预测分类函数。

优选地，所述Yolov5网络由卷积层和x个残差组件通过concat连接而成，SPP采用1×1，5×5，9×9，13×13的最大池化方式，进行多尺度融合；所述Yolov5网络的Loss函数是GIOULoss，先计算两个框的最小闭包区域面积，再计算闭包区域中都不属于两个框的区域占闭包区域面积的比重，再计算IOU，最后用IOU减去上述比重得到GIOU。

优选地，步骤7中将检测框和跟踪框进行级联匹配的具体方式为：

步骤A：将已存在的跟踪器分为跟踪器confirmed tracks和临时跟踪器unconfirmed tracks；

步骤B：针对confirmed tracks，使其与当前的检测结果进行级联匹配，循环遍历过程为：

首先计算当前帧每个检测框的特征向量与这一层中每个跟踪器已保存的特征集之间的余弦距离矩阵cost_matrix，取最小值作为该跟踪器与检测结果之间的计算值，完成匈牙利匹配，采用如下公式：

x_i，y_i表示检测框和跟踪框的特征向量；

cosθ表示检测框和跟踪框的余弦距离；

然后在cost_matrix中，进行运动信息约束，对每个跟踪器，计算其预测结果和检测结果之间的马氏距离M_ij与DIOU值D_ij，分别设置马氏距离和DIOU的梯度阈值；

最后将经由max_distance处理之后的cost_matrix作为匈牙利算法的输入，得到线性匹配结果，并去除差距较大的匹配对；

步骤C：针对Unconformed tracks和上一步中未能成功匹配的跟踪器一起组成DIOU匹配矩阵diou_candidates，与未匹配成功的检测结果unmatched_detection再次进行匈牙利匹配；

步骤D：合并步骤B、步骤C的结果，得到最终的匹配结果。

优选地，所述马氏距离公式为：

表示检测框和跟踪框的位置信息；

表示二者马氏距离；

所述DIOU距离公式为：

b，b^gt分别表示检测框和跟踪框的中心点，ρ代表计算两个中心点间的欧氏距离。c表示能够同时覆盖检测框和跟踪框的最小矩形的对角线距离，

表示检测框和跟踪框的DIOU距离，IoU表示检测框和跟踪框的IOU值。

优选地，步骤7中根据匹配情况进行后续操作具体为：

步骤E：针对匹配成功的，更新卡尔曼滤波的一系列运动变量、匹配次数以及重置上一次匹配成功的事件time_since_update，检测框的特征向量保存在这个跟踪器的特征集中；连续匹配6帧后将跟踪器的状态由临时tentative tracker改为已确定confirmedtracker；

步骤F：针对unmatched_tracks：如果这个跟踪器是还没经过确认的，直接从跟踪器列表中删除；如果跟踪器是之前经过确认的，但是已经连续max_age帧没能匹配到结果，则判定该跟踪器无效，从列表中删除；

步骤G：针对未匹配成功的检测框unmatche_detections，为其创建新的临时跟踪器。

优选地，步骤7中更新特征向量集具体为：更新已经确认的跟踪器的特征向量集，向量集最多保存最近与之匹配的50帧结果的特征向量，如果向量集超过50张图片，则会自动删去最早的一张图片。

与现有技术相比，本发明的地铁站台密集人流情况下的行人跟踪方法的优势在于以下几点：

1、本发明的一种地铁站台密集人流情况下的行人跟踪方法，提出了一种密集人流(4人/平方米)场景下(如地铁站台)的行人连续跟踪技术，基于Deepsort跟踪算法并采用yolov5目标检测网络，实现了在人流密度大，遮挡严重情况下的行人高效实时检测，实现密集行人跟踪。

2、本发明的一种地铁站台密集人流情况下的行人跟踪方法，采用级联匹配和特征向量匹配算法，并把DIOU阈值检测加入了级联匹配算法中，实现了视野里每一位行人的长时间持续跟踪。

3、本发明的一种地铁站台密集人流情况下的行人跟踪方法，采用了DIOU阈值和马氏距离阈值的阶梯式筛选机制。对于因为遮挡或离开摄像头区域而短时间跟踪失败的行人，在其重新出现时可以继续跟踪，并且保持消失前的跟踪ID。

附图说明

图1为本发明地铁站台密集人流情况下的行人跟踪方法deepsort整体流程图；

图2为本发明地铁站台密集人流情况下的行人跟踪方法级联匹配流程图；

图3为本发明地铁站台密集人流情况下的行人跟踪方法DIOU匹配流程图；

图4为本发明地铁站台密集人流情况下的行人跟踪方法跟踪器更新流程图；

图5为本发明地铁站台密集人流情况下的行人跟踪方法DIOU检测原理图；

图6为本发明地铁站台密集人流情况下的行人跟踪方法ReID模型网络结构图；

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

本发明提出一种地铁站台密集人流情况下的行人跟踪方法，其整体流程如图1所示，需要选取一具体地铁站台，实时跟踪站台行人，实现对行人的检测和跟踪，具体步骤如下：

步骤1：安装传感器

经许可后，在地铁站台安装摄像头，要求尽量放在高处，防止被人群遮挡，应尽量扩大范围，并尽量正对重点观测地点，如收费站口、站台口、等待处等，实现对站台行人数据的采集。

步骤2：采集视频数据

应用步骤1安装的摄像头进行数据采集，采集的数据为包含地铁站台各个时间段的行人流视频数据。

步骤3：制作行人训练集

根据上面所采集到的视频数据，从中尽可能多的选取站台行人图片作为训练集，所选行人图片应包含各种可能情况，比如行人遮挡，需在可见情况下尽可能多标注行人，包括大部分被遮挡的行人，而不能像往常一样只标注很明显的行人，这样才能实现密集人流下的行人检测。例如可选出2700张包含较多行人遮挡情况、列车出入站时密集的行人流等的图片，从而可以更符合真实情况。

还需要从训练集中选出一部分作为测试集，来检测训练出模型的效果，例如可选出500张相同地铁站台时间不同的行人流图片，测试图片需包含一天内各个时段的行人流向，包括早高峰和晚高峰这种人流密集时段，以达到最贴近实际的检测效果。

步骤4：数据集标注

根据标注要求进行标注即可。

步骤5：Yolov5目标检测模型训练

使用yolov5目标检测网络获得地铁站台行人检测框，难点在于地铁站台在等车高峰时段行人较多，导致目标遮挡现象严重，无法做到完美区分，可能出现两个人检测成一个的问题，需要调整NMS等方法，增大地铁站台行人数据集，从而得到更好的效果，可采用如下方式：

应用得到的训练集进行训练，先将VOC格式的标注文件转换为训练需要的txt格式，选用最轻量化，深度和宽度都最小的Yolov5s网络进行训练，并进行数据集强化，包括自适应缩放大小以及图片Mosaic增强等手段，设置batch_size为128，训练300个epoch。

5.1)Backbone部分继承了Yolov3的部分网络结构，并加入了修改。Yolov3使用的是darknet53网络，Yolov5保留了主要结构，但在残差网络部分进行了修改，借鉴了CSPNet的网络结构，由卷积层和x个残差组件通过concat连接而成。SPP采用1×1，5×5，9×9，13×13的最大池化方式，进行多尺度融合。

5.2)Yolov5的Loss函数是GIOULoss，先计算两个框的最小闭包区域面积，再计算闭包区域中都不属于两个框的区域占闭包区域面积的比重，再计算IOU，最后用IOU减去这个比重就能得到GIOU。这种方法收敛比原来的单纯计算IOU面积的方式熟练快很多，训练速度加快，解决了两个框没有交集，IOU＝0无法计算loss的问题还有IOU无法精确反应两者重合度大小的问题。

最终损失函数为：

S代表13,26,52，即grid的大小。B＝3，即每个grid的锚框数量。

L_giou表示检测框和先验框之间的GIOU值所造成的损失；

第一行表示定位损失，

同理。

λ_iou定位损失iou_normalizer

λ_cls目标置信度损失cls_normalizer

C_i为边界先验框置信度，

为GT置信度，均为1

λ_c分类损失classes_multiplers，使用标准交叉熵损失函数

为GT真实分类函数，p_i(c)为先验框预测分类函数。

步骤6：将训练的模型转成trt格式，并用C++调用

为了部署模型，需要使用TensorRT，这是一款将python版本的深度学习模型转换成C++可识别模型的库，而且可以大大加快模型运算速度。但由于Yolov5有一部分动态输入，TensorRT无法直接转换，需要在Tensor中重新写一遍Yolov5s的网络结构，然后调用网络结构。最终速度与python模型一样，且完成了C++的调用。速度达到了100FPS，且平均召回率达到了97.2％，准确度和速度均达到实时检测要求。

步骤7：deepsort算法完成行人跟踪

如图2所示，将Yolov5行人检测的结果传递给deepsort，实现行人跟踪，具体方式如下：

7.1)从Yolov5网络获取当前帧的行人检测结果，根据检测框大小和置信度筛选检测框。确认track的状态是否正常。

7.2)进行检测结果和跟踪预测结果的匹配，如图3所示，级联匹配是指根据跟踪器优先程度先后进行匹配，优先程度根据上一次匹配成功的帧数与此帧差值决定，差值越小，代表匹配度最高，从而优先匹配，差值较大，说明匹配度较低，降低此跟踪器匹配优先权。从而提高长时间匹配成功的跟踪器的匹配精度，具体方式如下：

(1)将已存在的跟踪器分为跟踪器(confirmed tracks)和临时跟踪器(unconfirmed tracks)

(2)针对confirmed tracks，使其与当前的检测结果进行级联匹配。这个匹配操作需要从刚刚匹配成功的跟踪器循环遍历到最多已经有30帧没有匹配的跟踪器。这样做是为了对更加频繁出现的目标赋予优先权。confirmed tracks在连续30帧没能成功匹配时才会被删除，所以，那种状态为confirmed，但却已经好多帧没有匹配到检测结果的跟踪器是存在的。

循环遍历过程：

计算当前帧每个检测框的特征向量与这一层中每个跟踪器已保存的特征集之间的余弦距离矩阵cost_matrix，取最小值作为该跟踪器与检测结果之间的计算值，其中余弦距离是一种相似度度量方式，可以用来衡量不同个体在维度之间的差异。可以用来计算检测器和跟踪器特征向量之间的距离，以此完成匈牙利匹配。

x_i，y_i表示检测框和跟踪框的特征向量

cosθ表示检测框和跟踪框的余弦距离。

在cost_matrix中，进行运动信息约束。对每个跟踪器，计算其预测结果和检测结果之间的马氏距离M_ij与DIOU值D_ij，设置马氏距离M₁和M₂，其中M₁＜M₂；DIOU的梯度阈值D₁和D₂，其中D₁＜D₂。M_ij与D_ij需满足M_ij＞M₁&&D_ij＞D₂||M_ij＞M₂&&D_ij＞D₁。对不能满足此条件的，将cost_matrix中相应的位置设为无穷大，这里加入马氏距离和DIOU公式。

马氏距离公式：

表示检测框和跟踪框的位置信息；

表示目标

和

的马氏距离。马氏距离就是改进后的欧氏距离，它规避了欧氏距离中对于数据特征方差不同的风险，在计算中添加了协方差矩阵，其目的就是进行方差归一化，从而使所谓的“距离”精准符合数据特征以及实际意义。

DIOU距离公式：

DIOU为IOU的改进，解决了当两个目标框不重合时IOU始终为0，无法提供优化梯度的问题，同时通过加入惩罚项，DIOU可以准确表达两个框中心点之间的距离，适合发明中检测框和跟踪框重叠度的计算。

将经由max_distance处理之后的cost_matrix作为匈牙利算法的输入，得到线性匹配结果，并去除差距较大的匹配对。

(3)Unconformed tracks和上一步中未能成功匹配的跟踪器一起组成DIOU匹配矩阵(diou_candidates)，与未匹配成功的检测结果(unmatched_detection)再次进行匈牙利匹配。缓解因为表现突变或者部分遮挡导致的较大变化。

(4)合并(2)、(3)的结果，得到最终的匹配结果。

7.3)根据匹配情况进行后续相应操作，如图4所示。

(1)针对匹配成功的，要用检测结果去更新相应的跟踪器参数：

更新包括以下几个操作：更新卡尔曼滤波的一系列运动变量、匹配次数以及重置上一次匹配成功的事件(time_since_update)；检测框的特征向量保存在这个跟踪器的特征集中；如果已经连续匹配6帧，将此跟踪器的状态由临时(tentative tracker)改为已确定(confirmed tracker)。

(2)针对unmatched_tracks：

如果这个跟踪器是还没经过确认的，直接从跟踪器列表中删除；如果跟踪器是之前经过确认的，但是已经连续max_age帧没能匹配到结果，则判定该跟踪器无效，从列表中删除。

(3)针对未匹配成功的检测框(unmatche_detections)，为其创建新的临时跟踪器。

7.4)更新已经确认的跟踪器的特征向量集，向量集最多保存最近与之匹配的50帧结果的特征向量。行人特征提取模型提取图片的108维特征向量，对于每个跟踪器，算法会存储50帧内的跟踪框特征向量。确保特征向量能准确描述跟踪器，去除那些过时的特征向量。这个特征集在进行余弦距离计算的时候将会发挥作用。实际上，在当前帧，会计算第i个物体跟踪的所有特征向量和第j个物体检测之间的最小余弦距离。

步骤8：重复以上步骤5-7，并持续对目标进行跟踪。

以上所述之实施例仅为本发明的较佳实施例，并非对本发明做任何形式上的限制。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，利用上述揭示的技术内容对本发明技术方案作出更多可能的变动和润饰，或修改均为本发明的等效实施例。故凡未脱离本发明技术方案的内容，依据本发明之思路所作的等同等效变化，均应涵盖于本发明的保护范围内。

Claims

1.一种地铁站台密集人流情况下的行人跟踪方法，基于跟踪算法deepsort以及目标检测网络yolov5来实时对地铁站台行人进行跟踪，其特征在于，包括如下步骤：

步骤1：安装传感器，在地铁站台高处安装摄像头；

步骤4：数据集标注，根据标注要求进行标注；

步骤6：将训练的模型转成trt格式，并用C++调用；

步骤8：重复以上步骤5-7，持续对目标进行跟踪。

2.根据权利要求1所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述步骤5的使用yolov5目标检测网络获得地铁站台行人检测框具体方式为：应用得到的所述训练集进行训练，先将VOC格式的标注文件转换为训练需要的txt格式，选用最轻量化，深度和宽度都最小的Yolov5s网络进行训练，并进行数据集强化；最终损失函数为：

S代表13,26,52，即grid的大小；B＝3，即每个grid的锚框数量；

L_giou表示检测框和先验框之间的GIOU值所造成的损失；

第一行表示定位损失，

同理；

λ_iou定位损失iou_normalizer；

λ_cls目标置信度损失cls_normalizer；

C_i为边界先验框置信度，

为GT置信度，均为1；

λ_c分类损失classes_multiplers，使用标准交叉熵损失函数；

为GT真实分类函数，p_i(c)为先验框预测分类函数。

3.根据权利要求2所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述Yolov5网络由卷积层和x个残差组件通过concat连接而成，SPP采用1×1，5×5，9×9，13×13的最大池化方式，进行多尺度融合；所述Yolov5网络的Loss函数是GIOULoss，先计算两个框的最小闭包区域面积，再计算闭包区域中都不属于两个框的区域占闭包区域面积的比重，再计算IOU，最后用IOU减去上述比重得到GIOU。

4.根据权利要求1所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述步骤7中将检测框和跟踪框进行级联匹配的具体方式为：

步骤A：将已存在的跟踪器分为跟踪器confirmed tracks和临时跟踪器unconfirmedtracks；

x_i，y_i表示检测框和跟踪框的特征向量；

cosθ表示表示检测框和跟踪框的余弦距离；

步骤D：合并步骤B、步骤C的结果，得到最终的匹配结果。

5.根据权利要求4所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述马氏距离公式为：

表示检测框和跟踪框的位置信息；

表示二者马氏距离；

所述DIOU距离公式为：

b，b^gt分别表示检测框和跟踪框的中心点，ρ代表计算两个中心点间的欧氏距离；c表示能够同时覆盖检测框和跟踪框的最小矩形的对角线距离，

6.根据权利要求1所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述步骤7中根据匹配情况进行后续操作具体为：

7.根据权利要求1所述的一种地铁站台密集人流情况下的行人跟踪方法，其特征在于，所述步骤7中更新特征向量集具体为：更新已经确认的跟踪器的特征向量集，向量集最多保存最近与之匹配的50帧结果的特征向量，如果向量集超过50张图片，则会自动删去最早的一张图片。