CN114612860A

CN114612860A - 基于计算机视觉的轨道交通站内客流识别与预测方法

Info

Publication number: CN114612860A
Application number: CN202210187871.3A
Authority: CN
Inventors: 张金雷; 杨立兴; 陈瑶; 阴佳腾; 戚建国; 李华; 高自友
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-10

Abstract

本发明公开了一种基于计算机视觉的轨道交通站内客流识别与预测方法。该方法包括：采集轨道交通站内目标场景下的视频信息；将所述视频信息输入到经训练的目标检测模型，获得视频中每帧图片内目标的坐标信息，其中该目标检测模型以识别乘客头部为检测目标；将所述目标的坐标信息输入到目标跟踪模型，对目标进行逐帧跟踪，得到目标的运行轨迹信息；统计所述目标的运行轨迹信息，获得多个历史时间段的客流时间序列，并将该客流时间序列输入到长短期记忆网络，预测出后续时间段的客流信息。本发明能够准确的实时识别和预测轨道交通站内精细化场景下的短时客流信息，为智能交通建设提供了新方向。

Description

基于计算机视觉的轨道交通站内客流识别与预测方法

技术领域

本发明涉及客流预测技术领域，更具体地，涉及一种基于计算机视觉的轨道交通站内客流识别与预测方法。

背景技术

随着城市化进程的加快，轨道交通客流量不断增加，短时客流识别与预测相关研究也日渐增多。现有轨道交通短时客流预测相关研究通常以整个车站为最小单元，但随着智慧地铁的建设，以车站为最小单位进行短时客流预测已经不能满足更加精细化的轨道交通客流管理需要。因此，轨道交通短时客流预测需要向着更加精细化、科学化的方向改进，例如，需要针对轨道交通车站内部单个闸机口、楼扶梯口、换乘通道、站台等客流瓶颈处场景，进行更加精细化的短时客流识别与预测。基于精细化的轨道交通站内场景短时客流预测信息，乘客可更加合理地规划出行，轨道交通运营管理部门可以及时采取措施疏散站内拥挤乘客，预测和处理紧急情况，保障乘客乘车安全，提升乘客出行体验。因此，研究轨道交通站内不同场景下更加精细化的短时客流识别与预测意义重大。

新兴的深度学习以及计算机视觉的工具可以应用于短时客流预测。然而，目前还没有相关的模型将计算机视觉的工具与轨道交通车站内部场景的监控视频结合，用于轨道交通站内场景的短时客流预测。同时，有必要在模型识别客流量的实时性和准确性之间进行权衡。

近年来，基于计算机视觉的目标检测与目标跟踪相关研究发展迅速，为利用现有的站内监控视频数据，进行更加精细化的短时客流识别与预测提供了可用的算法。目标检测指对视频当前帧内的所有乘客进行检测，目标跟踪指对视频内的所有乘客轨迹进行跟踪，客流识别指利用目标检测与目标跟踪进行乘客数量统计以及客流时间序列提取。

具体地，目标检测是计算机视觉领域的基础研究内容，其基本思路是通过处理视频或图片，检测其中的目标。例如，可借助目标检测算法对道路车辆进行检测、分类与计数，对轨道交通站内场景下的乘客进行目标检测。如基于深度学习和光流法对上下车乘客进行检测，或者基于卷积神经网络对站台场景的乘客进行计数，或者通过存档的视频数据对站台留守乘客数量进行统计。然而，既有的轨道交通相关研究仅关注客流识别，而忽略了对站内不同场景下的客流进行短时预测，难以根据未来客流量进行更加精细化的客流管理。

利用视频进行乘客数量统计以及客流时间序列提取时，需要借助目标跟踪算法对乘客轨迹进行跟踪，从而进行乘客计数。目标跟踪算法是基于目标检测结果进行的，Wojke等人于2017年提出的Deep SORT算法是当前较为主流的目标跟踪算法，其使用卡尔曼滤波器对跟踪目标进行预测，再根据交并比(Intersection over Union，IoU)使用匈牙利算法和级联匹配对跟踪目标进行匹配。当目标被长时间遮挡时，Deep SORT可以较好地进行行人重识别。因此，使用目标检测与目标跟踪结合的方式可以确定检测目标的轨迹，从而实现视频内的乘客数量统计以及客流时间序列提取，例如对入侵铁路的异物进行检测和跟踪。然而，目标跟踪算法降低了利用视频进行目标检测与跟踪的实时性，因此在进行实时的目标检测与跟踪时，需要考虑如何对模型以及视频进行处理，以满足实时检测与跟踪的要求。

短时客流预测相关研究由来已久，从传统的基于数理统计的预测模型，到基于机器学习的预测模型，再到基于深度学习的预测模型，短时客流预测经历了长远的发展。道路交通领域的ST-ResNet、DCRNN、GE-GAN等深度学习框架，以及轨道交通领域的ResLSTM、ConvGCN等深度学习框架，均为当前较为先进的短时客流预测模型。然而，在现有技术中，轨道交通客流数据主要来源于AFC刷卡数据，只能统计车站整体的进出站人数，从宏观上研究轨道交通各站间的客流规律。对于轨道交通站内的闸机口、楼扶梯口、换乘通道、站台等场景，其精细化短时客流识别与预测相关的研究不充分，因此难以从微观层面分析站内不同场景下的客流运行规律。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于计算机视觉的轨道交通站内客流识别与预测方法。该方法包括以下步骤：

采集轨道交通站内目标场景下的视频信息；

将所述视频信息输入到经训练的目标检测模型，获得视频中每帧图片内目标的坐标信息，其中该目标检测模型以识别乘客头部为检测目标；

将所述目标的坐标信息输入到目标跟踪模型，对目标进行逐帧跟踪，得到目标的运行轨迹信息；

统计所述目标的运行轨迹信息，获得多个历史时间段的客流时间序列，并将该客流时间序列输入到长短期记忆网络，预测出后续时间段的客流信息。

与现有技术相比，本发明的优点在于，提出了一种实时的、可在线训练的、端到端的精细化短时客流预测模型，能够实时识别和预测轨道交通站内精细化场景下的短时客流，所提出的模型可以为智能交通的建设提供一种新方向。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的客流预测模型整体框架图；

图2是根据本发明一个实施例的目标检测模型YOLOv5的结构图；

图3是根据本发明一个实施例的目标跟踪模型Deep SORT的结构示意图；

图4是根据本发明一个实施例的对目标检测模型进行剪枝的过程示意图；

图5是根据本发明一个实施例的对目标检测模型剪枝的修剪细节示意图；

图6是根据本发明一个实施例的客流识别模型的识别界面示意图；

图7是根据本发明一个实施例的LSTM模型的整体结构和内部三个门的结构示意图；

图8是根据本发明一个实施例的用于对YOLOv5进行目标识别训练的数据集包含的三个场景示意，包括闸机口和两个换乘通道；

图9是根据本发明一个实施例的选择不同帧数对识别时间与识别结果的影响示意图；

图10是根据本发明一个实施例的YOLOv5目标检测模型在三个场景中识别乘客头部的效果示意图；

图11是根据本发明一个实施例的正常训练与稀疏训练的γ值分布情况示意图；

图12是根据本发明一个实施例的表示客流识别部分的统计结果与真实值的对比示意图；

图13是根据本发明一个实施例的客流预测模型Detect-Predict在早高峰视频数据上的精细化短时客流预测结果示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提出了一种实时的、可在线训练的、端到端的精细化短时客流预测模型(或称为Detect-Predict)。该模型总体上包括：获取轨道交通内部场景的实时监控视频；将视频输入至模型的客流识别部分用于乘客数量统计以及客流时间序列提取；将提取到的客流序列输入至模型的客流预测部分，得到实时的客流预测结果。

本发明的技术方案主要包括以下部分：首先，对所要解决的科学问题进行详细定义。然后展示了所提出的Detect-Predict模型的详细构建过程。最后，使用拍摄的北京地铁某站某楼扶梯口连续五个周五的早高峰6:30-9:30的视频数据进行试验，验证了该模型的合理性和准确性。

(1)问题定义

为了进行精细化短时客流识别与预测，首先需要对视频中的乘客进行目标检测和目标跟踪，以获取乘客数量以及客流时间序列，然后利用获取的客流时间序列进行预测，Detect-Predict模型可表示为：

Y＝f₂(f₂(f₁(X))) (1)

式中X为监控视频数据，Y为当前场景下的短时客流预测结果，f₁为训练后的YOLOv5目标检测算法，f₂为Deep SORT目标跟踪算法，f₂为LSTM短时客流预测算法。

对于目标检测算法f₁，将采集到的每张图片及其标注作为算法的训练集

其中i表示所输入图片的序号，i最大可取n＝2428；m_i为第i张图片上标注的检测目标数量，

分别表示第i张图片、第m_i个标注目标的中心点坐标以及检测框的宽和高。使用

训练YOLOv5目标检测算法，得到适用于轨道交通站内场景、检测目标为乘客头部的YOLOv5算法，YOLOv5算法训练前后可表示为：

式中，f′₁为训练前的YOLOv5算法，f₁为训练后的YOLOv5算法。

利用训练后的YOLOv5算法f₁，得到输入视频中每帧图片内的检测目标坐标f₁(X_j)，并将其输入Deep SORT目标跟踪算法f₂中，对检测目标进行逐帧跟踪，得到乘客的运行轨迹，进而对视频中的乘客数量进行统计，得到统计结果y_j。因此，以监控视频数据X作为输入，借助目标检测算法f₁与目标跟踪算法f₂，可得到客流时间序列识别结果，表示为：

y_j＝f₂(f₁(X_j)) (3)

式中，X_j为第j个时间段的监控视频数据，y_j为第j个时间段内的客流识别统计结果，在一个实施例中以5分钟为时间粒度进行客流统计。

最后，将多个时间段的客流识别与统计结果作为客流时间序列，输入LSTM(长短期记忆网络)短时客流预测模型f₃中，可得到当前场景下的精细化短时客流预测结果，表示为：

Y＝f₂(y₁ y₂ … y_t) (4)

式中t为历史时间步，例如采用8个历史时间步，Y为未来1个时间步的客流预测结果。本发明提出的框架中，可利用实时的客流统计结果，对LSTM短时客流预测模型f₃进行在线训练并微调，以提升LSTM算法的实时在线预测精度。

(2)模型结构

本发明提供的基于计算机视觉的轨道交通站内精细化短时客流识别与预测模型Detect-Predict的整体结构如图1所示。

在构建Detect-Predict模型前，首先利用闸机口、楼扶梯口、换乘通道、站台等处拍摄并标注乘客头部的图片数据集训练YOLOv5目标检测算法，使得模型能够在轨道交通站内场景下进行乘客头部检测。并且，对模型进行剪枝压缩，以满足实时性及模型部署要求。然后，利用训练并剪枝优化后的YOLOv5目标检测算法，进行乘客数量统计以及客流时间序列提取。最后利用提取的客流时间序列训练LSTM模型，得到预训练后的短时客流预测模型。

基于上述训练并剪枝优化后的YOLOv5目标检测算法，以及LSTM短时客流预测模型，构建端到端的精细化短时客流识别与预测Detect-Predict模型，模型总体输入轨道交通站内各场景下的监控视频，输出精细化的短时客流预测结果，并通过不断在线训练，提升模型的预测效果。为了平衡识别精度与处理速度，该模型首先将输入视频处理为30FPS，并输入以头部为检测目标的YOLOv5算法，检测视频中每帧图片的目标。然后，将检测完毕的、带有检测框的每帧检测结果依次输入到Deep SORT目标跟踪算法中，获取每位乘客的运行轨迹，并根据运行轨迹统计如5分钟时间粒度下视频中的乘客数量。目标检测和目标跟踪部分共同构成客流识别算法。最后，将上述客流识别算法输出的客流时间序列实时输入到LSTM算法中进行精细化短时客流预测，同时对LSTM算法进行在线训练与微调，以提升LSTM算法的后续预测精度。

1)、乘客数量统计以及客流时间序列提取算法

在对轨道交通站内闸机口等场景进行精细化短时客流预测之前，首先需要对各场景下的客流数量进行识别和统计。本发明利用轨道交通站内已有的视频监控设备，借助计算机视觉领域的YOLOv5目标检测算法和Deep SORT目标跟踪算法，根据每位乘客在画面中的通行情况统计乘客数量。需要注意的是，视频中存在乘客之间互相遮挡问题，由于轨道交通站内视频监控的视角通常较高，头部遮挡情况较轻，因此本发明将检测目标设置为乘客的头部，以减少画面中乘客密集时互相遮挡对检测精度的影响。

在一个实施例中，采用的YOLOv5目标检测算法是对YOLO系列算法的轻量化改进和检测速度的进一步优化，因此更适合检测需要满足实时性和需要进行部署应用的轨道交通场景。YOLOv5算法结构如图2所示，总体上包括Backbone、Neck和Head。Backbone负责提取图片中的信息，所提取的信息随着卷积层数的加深而增多。由浅层物理信息，如轮廓特点，到深层语义信息，如乘客特征。Backbone中的C3层使用shortcut残差网络解决网络层数增加导致的梯度发散问题。同时，在Backbone最后的卷积层和全连接层之间加入SPP(空间金字塔)层进行池化，使得全连接层也可以适应不同尺度的输入图片。Neck将提取出的信息充分利用，生成特征金字塔，用于检测不同尺度的目标，不同尺度的目标检测结果分别从Head端的不同卷积层输出。

Deep SORT跟踪算法是在以乘客头部为目标的检测算法的基础上，对输入每帧图片中的乘客进行重识别，从而获得乘客的运行轨迹。Deep SORT的核心算法是卡尔曼滤波算法和匈牙利算法，卡尔曼滤波算法用于对下一帧的目标检测框进行预测，匈牙利算法用于级联匹配和IoU(交并比)匹配。通过不断的预测和匹配过程，得到乘客的运行轨迹。在一个实施例中，使用的Deep SORT权重为在大型行人重识别数据集上训练后得到的权重，其算法结构如图3所示。

考虑到短时客流预测的落地应用，需要节省计算资源，便于模型部署和移植。因此，进一步对YOLOv5算法进行压缩，以提高检测速度，进而可将其部署到轨道交通站内不同场景。在一个实施例中，采取通道剪枝的方法Network Slimming对YOLOv5算法进行剪枝，使得YOLOv5算法更加紧凑。

参见图4所示，对模型进行剪枝的整体流程为，使用标注乘客头部的数据集对YOLOv5算法进行正常训练得到能够检测乘客头部的初始网络。正常训练使得算法专注于检测轨道交通站内场景下的乘客头部，将完成正常训练的YOLOv5作为初始网络对BatchNormalization(BN)层进行剪枝；进行稀疏训练，改变BN层参数的权重分布，使其均值逐渐趋向于0；对参数趋向于0的BN层进行剪枝，剪枝后的算法参数减少；对剪枝后的算法进行微调，使得算法的精度回升，压缩工作完成，得到紧凑的算法。

首先，BN层可以有效的解决深度神经网络随着深度的增加引起的训练困难、收敛难度增加问题，起到保护梯度、防止过拟合作用。BN层的计算公式为：

其中，x_i和y_i为BN层的输入和输出，

为当前的批量，

和

是小批量

上特征图的均值和标准差，γ和β对应BN层的权重和偏差，∈是设定的小数值常数，避免出现分母为零的情况。当权重γ接近于0时，可以将此输出剪掉。

接下来，通过稀疏化训练使部分权重γ逼近0，稀疏化训练需要在损失函数内添加权重γ的L1正则约束，实现γ的稀疏化：

等式右边的第一项为正常训练的损失，第二项为γ的L1正则约束，其中g(γ)＝|γ|，λ为正则系数，用来平衡原始的损失函数和约束项。稀疏化后将γ逼近0的通道剪掉，此处剪掉稀疏化训练后值为0.1及以下的γ值。并进行微调训练，使得检测的精度回升，得到更紧凑的以乘客头部作为目标的检测算法。

剪枝效果示例如图5所示，剪枝之前神经元的连接如图5(a)所示，γ值接近0的神经元较少；稀疏训练后神经元的连接如图5(b)所示，部分神经元的γ值接近0。将接近0的神经元修剪后，整个网络被压缩成图5(c)所示的结构，使得模型更加紧凑，模型体积压缩，有利于节约计算资源，进而将模型部署到轨道交通站内相应场景，实现落地应用。

然后，将剪枝完成后更紧凑的YOLO v5目标检测算法与Deep SORT目标跟踪算法组合用于乘客数量统计，将不同时间段统计的乘客数量组合成客流时间序列。

最后，规定乘客检测框左侧中点处为检测撞线点，如图6中乘客检测框的标记点处。在监控画面中设置两条横向的居中检测线，如图6中两条不同颜色的长横线，作为两条检测线。根据乘客运行轨迹的标定点通过画面中横向检测线的顺序判断画面中乘客的通行方向和数量，具体为，标定点依次通过两条检测线则相应通过方向乘客数量计数增加一个单位。例如，ID号为41的乘客标记点先通过上方检测线再通过下方检测线，则下行方向Down的数量加一。最终以此输出5分钟时间粒度下乘客通行数量的时间序列数据，实时输入后续短时客流预测算法中。

2)、短时客流预测算法

利用上述模型输出的以5分钟为时间粒度的客流时间序列，构建LSTM短时客流预测算法进行短时客流预测。LSTM算法相较于传统的循环神经网络有其优势，传统的RNN由于梯度消失和梯度爆炸等问题，存在信息丢失，无法处理记忆长期信息的任务。LSTM算法由于存在特殊的记忆单元，可以在一定程度上解决长期依赖问题。LSTM的结构如图7所示，其使用单元状态来保存长期的信息，从而解决长期依赖问题。LSTM的关键在于控制用来保存长期状态的单元状态，LSTM算法使用三个门作为三个控制开关，使得信息选择性通过。遗忘门负责接收上一个模块传过来的信息，并决定被遗忘和被保存进此模块长期状态的信息，记忆门决定被保存到长期状态的信息，输出门决定作为输出传到下一个长期状态中进行处理的信息。图7即为LSTM算法三个门的结构，图中σ为sigmoid激活函数，tanh为双曲正切激活函数。

基于LSTM短时客流预测算法，将得到的客流时间序列实时输入到短时客流预测算法中进行预测，同时，将实时提取的客流时间序列不断输出至LSTM算法中，对LSTM算法进行实时在线训练，以不断提升其预测精度。

至此，完整的基于计算机视觉的端到端轨道交通站内精细化短时客流识别与预测模型构建完毕。

(3)实验及分析

为验证本发明的效果，进行了仿真实验。在本部分中，将对实验环境及数据集进行简介，然后对Detect-Predict模型的检测部分与预测部分的模型配置以及实验结果进行分析。

1.实验环境及数据简介

(1)实验环境

实验平台为64位win10服务器，CPU为i9-10900X，GPU为RTX3080，配置CUDA10.0+Anaconda3，使用PyTorch深度学习框架1.9.0版本。

(2)目标检测数据集简介

本发明的检测目标为轨道交通站内场景下的乘客，因此拍摄了北京地铁某站站内闸机口、楼扶梯口、换乘通道、站台等处多个机位共计2428张图片，并标注了45983个检测目标作为轨道交通站内场景下的乘客头部数据集(而非乘客全身数据集)，用于对YOLOv5目标检测算法进行训练，以减少遮挡情况对检测精度的影响。拍摄的部分场景如图8所示，拍摄画面内的乘客角度变化丰富：图8(a)闸机口的乘客比较分散，没有分布的明显规律，使得学习到的特征更集中于检测目标本身；图8(b)换乘通道1的乘客大多背对摄像头，使得学习到的特征角度更加多样化；图8(c)换乘通道2的乘客十分密集，使得算法更能适应密集场景下的目标检测。在图片标注过程中，使用LabelImg开源软件标注数据集每张图片中的每个乘客头部，以此作为YOLOv5算法的检测目标。数据集中每个检测对象都被准确标记，图8中的方框为标注结果。数据集中每张图片的标注结果都存储到单独的txt文件中，以此数据集训练目标检测算法可以提高其在不同角度、不同尺度等方面检测乘客头部的准确性。

(3)精细化短时客流识别与预测模型数据简介

精细化短时客流识别与预测模型使用的数据是拍摄的北京地铁某站某楼扶梯口连续五个周五的早高峰6:30-9:30的视频数据，每天的视频时长为180分钟，视频的分辨率为1080P。按照5分钟的时间粒度统计下行方向通过视频检测线的乘客数量，每天生成36个早高峰客流时间序列。视频中的真实人数由人工计数确定，用以验证Detect-Predict模型的准确性。

客流识别工作的识别时间不能超过视频本身的时长，对于5分钟的视频，客流识别的时间不能超过5分钟，否则会影响识别的实时性；同时，视频帧数越高，识别结果越接近真实值，但识别的时间越长。因此，为了平衡客流识别的实时性与准确性，本发明将一段5分钟的视频数据处理成如图9所示的12个不同帧数下的视频，并统计该帧数下对应的识别时间以及识别结果，该5分钟视频内的真实乘客人数为112人。图9展示了选择不同帧数对识别时间与识别结果的影响，其中纵轴表示识别结果，横轴表示识别时间，超过5分钟即不满足识别的实时性。

由图9可知，随着视频帧数的增加，识别时间相应增长，识别结果更加准确，当视频帧数为30FPS时，识别时间小于5分钟，能够满足实时性要求。在满足实时性的前提下，视频帧数为30FPS下的识别结果最接近真实值，且该识别结果能够满足准确性要求。因此，本发明选取30FPS的视频作为精细化短时客流识别与预测模型的输入。

2.乘客数量统计以及客流时间序列提取算法

(1)正常训练

在实验中，利用上述目标检测数据集训练基于YOLOv5的目标检测算法，训练迭代次数epoch为300，经过训练得到轨道交通站内场景下乘客头部检测的权重。在交并比IoU为0.5的情况下目标检测算法的精确率Precision为0.912，召回率Recall为0.779，平均精度mAP为82.1％。

精确率的计算公式为：

其中，TP_A为乘客头部被正确检测的数量，FP_A为将背景错误地识别为乘客的检测数量。

召回率的计算公式为：

其中，FN_A为将乘客头部错误地检测为背景的数量。

在目标检测中，每一个检测类别都可以Recall和Precision分别为横坐标和纵坐标绘制一条RP曲线，AP为该曲线下的面积，mAP是多个类别AP的平均值，在本发明中与AP意义相同。

训练后算法的可视化结果如图10所示，其中检测框为模型的检测结果。该结果显示轨道交通站内多个场景的检测效果较好，正对、背对镜头的乘客能够得以识别，密集通道处的遮挡乘客也得到了较好的识别。这表明该检测算法可以满足统计乘客数量以及提取客流时间序列的需求。

(2)稀疏训练

以上述正常训练得到的YOLOv5作为初始网络，对其BN层的权重γ进行稀疏化处理，其中正则系数λ设置为0.0001。未进行稀疏训练时，初始网络的权重γ值随训练迭代次数epoch的分布如图11(a)所示，随着训练迭代次数的增加，权重γ始终接近均值为1的正态分布，其中几乎没有接近0的权重参数，因此可用于剪枝的BN层较少，难以达到模型压缩的效果。对网络进行稀疏化训练后，权重γ值随训练迭代次数epoch的分布如图11(b)所示，BN层的参数随着训练迭代次数的增加，权重分布的均值逐渐趋向于0，因此，存在较多权重的取值接近于0，可用于剪枝的BN层较多，满足剪枝条件，剪枝后能够达到模型压缩的效果。

(3)模型剪枝及微调

随着训练次数的增加，越来越多的权重γ值接近于0。为了加快模型的训练速度，将权重γ值接近于0的BN层从网络中删除，从而达到剪枝压缩的目的。

经过微调，剪枝前后的模型效果对比参见下表1。

表1剪枝前后模型对比

由表1可知，剪枝的所有步骤完成后，目标检测算法的mAP上升了一个百分点，并且权重文件和参数数量均得到了较好的压缩。将剪枝后的乘客头部检测算法与Deep SORT目标跟踪算法相结合构成客流识别算法，用于统计乘客数量以及提取客流时间序列，其中Deep SORT算法已在大型行人重识别数据集上训练完毕，适用于对乘客头部进行追踪。

以某楼扶梯口下行方向乘客的统计为例，利用客流识别算法对该场景下的乘客数量进行统计。每5min输出一次统计结果，得到以5min为时间粒度的时间序列数据。将连续五个周五的早高峰视频数据统计与识别结果进行可视化，如图12所示。结果显示算法识别结果与真实值接近，满足预测需要。

此外，该算法在该楼扶梯口连续五个周五的早高峰6:30-9:30的视频数据上进行测试，得到算法准确率为99.48％。准确率Accuracy的计算参见公式(9)。

其中，TP_B为乘客被正确识别且计数的数量；TN_B为非乘客没有被计数的数量；FP_B为假阳性，即非乘客被错误识别并计数的数量；FN_B为假阴性，即乘客被错误识别且并未得到计数的数量。

3.精细化短时客流预测

利用上述识别的客流时间序列，构建基于LSTM的短时客流预测模型，取80％的数据为训练集，学习率为0.002，迭代次数epoch为1500。剩余20％的数据为测试集，用于端到端的Detect-Predict模型的测试，该模型预测结果的RMSE为11.07，MAE为8.02，WMAPE为12.57％，预测结果如图13所示。可以看出，预测结果能够基本拟合真实结果，说明Detect-Predict模型具有较好的短时客流预测效果。

(4)结论

本发明基于人工智能算法，提出了一种轨道交通站内场景下的精细化短时客流识别与预测Detect-Predict模型框架，模型以轨道交通站内各场景下的拍摄视频为输入，以精细化的短时客流预测结果为输出，同时可通过在线训练来提升模型的预测效果，并满足实时性以及模型部署要求，可利用轨道交通站内已有监控设备进行相应场景下的精细化短时客流预测。同时，拍摄并标注了含有2428张图片以及45983个检测目标的目标检测数据集，以及拍摄了某地铁车站楼扶梯口处连续五个周五的早高峰900分钟的视频监控数据。通过实验分析，本发明主要研究结论如下：

1)、当视频取30FPS时，短时客流识别算法能够同时满足实时性与准确性要求。

2)、本发明采用的通道剪枝方法能够有效降低模型体积和参数量，节省计算资源，使得剪枝后的模型权重文件大小由14.4M减小到2.9M，参数数量由706万减少到139万。

3)、本发明提出的端到端的Detect-Predict模型中，识别部分的Accuracy为91.0％，召回率Recall为78.0％，平均精度mAP为82.1％，预测部分的RMSE为11.07，MAE为8.02，WMAPE为12.57％，精细化短时客流识别与预测效果均较好，可用于实际部署应用，掌握轨道交通站内微观客流变化规律，从而进行精细化客流监控和运营管理。

4)、由于轨道交通站内场景具有复杂多样性，本发明提出的模型精度可能受监控设备的分辨率、乘客的重叠程度等外部因素影响。整体模型架构较为复杂，内部模块的优化和参数设置等仍需继续研究。在此基础上对模型内部结构进行优化，对输入视频和模型精度的影响关系进行探究，有望实现精度更高、鲁棒性更强的轨道交通站内精细化短时客流的识别与预测。

5)、从表1中可以看出，本发明所提出的模型在剪枝后更加轻量化，便于部署到轨道交通站内场景中。在早高峰视频数据中，该模型预测结果的RMSE为11.07，MAE为8.02，WMAPE为12.57％，满足预测的精度要求。本发明提出的模型框架，在满足实时性的前提下可以对轨道交通站内精细化场景的客流进行短时预测，对实际应用具有重要意义。

应理解的是，在不违背本发明精神和范围的前提下，本领域技术可对上述实施例进行适当的改变或变型。例如，除采用YOLOv5作为目标检测模型外，也可以采用YOLOv4等；除采用Deep SORT作为多目标跟踪模型外，也可采用SORT模型。此外，LSTM模型可采用GRU时间序列预测模型替换。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于计算机视觉的轨道交通站内客流识别与预测方法，包括以下步骤：

采集轨道交通站内目标场景下的视频信息；

2.根据权利要求1所述的方法，其中，根据以下步骤训练所述目标检测模型：

将采集到目标场景下的每张图片及其标注作为训练集，标记为

其中i表示所输入图片的序号，m_i为第i张图片上标注的检测目标数量，

分别表示第i张图片、第m_i个标注目标的中心点坐标以及检测框的宽和高；

使用训练集

训练目标检测模型，获得输入和输出之间的对应关系，表示为：

其中，n表示i的最大取值。

3.根据权利要求2所述的方法，其中，所述目标跟踪模型根据以下映射关系确定目标的运行轨迹信息：

y_j＝f₂(f₁(X_j))

其中，X_j为第j个时间段的视频信息，y_j为第j个时间段内的客流识别统计结果。

4.根据权利要求1所述的方法，其中，所述长短期记忆网络根据以下映射关系获得后续时间段的客流信息：

Y＝f₃(y₁ y₂ … y_t)

其中t为历史时间步，Y为未来1个时间步的客流预测结果，(y₁ y₂ … y_t)为多个历史时间段的客流时间序列。

5.根据权利要求1所述的方法，其中，所述目标检测模型是YOLOv5，包括Backbone、Neck和Head模块，其中Backbone用于提取输入图片的浅层物理信息和深层语义信息，Backbone中的C3层使用shortcut残差网络，并在Backbone最后的卷积层和全连接层之间加入空间金字塔层进行池化，使得全连接层适应不同尺度的输入图片；Neck将提取的信息生成特征金字塔，用于检测不同尺度的目标，不同尺度的目标检测结果分别从Head端的不同卷积层输出。

6.根据权利要求1所述的方法，其中，所述目标跟踪模型是Deep SORT，以乘客头部作为检测目标，并对输入每帧图片中的乘客进行重识别，从而获得乘客的运行轨迹，且DeepSORT采用卡尔曼滤波算法对下一帧的目标检测框进行预测，采用匈牙利算法用于级联匹配和交并比匹配。

7.根据权利要求5所述的方法，其中，还包括对YOLOv5模型进行压缩，压缩过程包括：

使用标注乘客头部的数据集对YOLOv5模型进行正常训练得到检测乘客头部的初始网络；

将完成正常训练的YOLOv5作为初始网络对批标准化BN层进行剪枝；

进行稀疏训练，改变BN层参数的权重分布，使其均值逐渐趋向于0；

对参数趋向于0的BN层进行剪枝；

以提升模型精度为目标，对剪枝后的模型进行微调。

8.根据权利要求1所述的方法，其特征在于，所述目标场景包括轨道交通车站内部单个闸机口、楼扶梯口、换乘通道和站台。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。