CN113723687B

CN113723687B - 一种基于时空特征的地铁短时客流预测方法

Info

Publication number: CN113723687B
Application number: CN202111018093.7A
Authority: CN
Inventors: 邹亮; 龙韵诗
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2024-02-06
Anticipated expiration: 2041-08-30
Also published as: CN113723687A

Abstract

本发明公开了一种基于时空特征的地铁短时客流预测方法，包括步骤：获取目标地铁站在待预测时间段下的待预测特征；待预测特征包括：待预测时间特征和待预测空间特征，待预测时间特征包括：与待预测时间段相邻的前若干个时间段的客流量、待预测时间段的工作日特征、目标地铁站在不同日期同一时间段的客流量均值，待预测空间特征包括：目标地铁站以及目标地铁站的相似地铁站的工作日客流量之和；根据待预测特征和训练好的随机森林模型，确定目标地铁站在待预测时间段下的预测客流量。由于通过待预测时间特征和待预测空间特征作为特征输入，并结合随机森林模型，对目标地铁站在待预测时间段下的的预测客流量，预测精度较高，提高了预测的准确性。

Description

一种基于时空特征的地铁短时客流预测方法

技术领域

本发明涉及城市轨道交通地铁技术领域，尤其涉及的是一种基于时空特征的地铁短时客流预测方法。

背景技术

地铁是城市重要的轨道交通基础设施，其运营里程逐年递增。地铁作为重要的交通出行方式被更多的居民选择，同时也给地铁系统带来了更大的客运强度。巨大的客运强度大幅提高了运营难度：地铁站点客流一天内出现多个客流高峰，在高峰期间，大量人群在短期间内集中涌入空间有限的地铁站，不仅会产生巨大的交通压力，还会带来严重的安全隐患。这给地铁运营管理部门做好动态管控增加难度。同时，地铁短时间内的客流因受多种复杂因素影响而呈现波动性，现有技术难以针对短时间的客流进行准确预测并进行提早预警。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于时空特征的地铁短时客流预测方法，旨在解决现有技术中无法对地铁站的客流量进行准确预测的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于时空特征的地铁短时客流预测方法，其中，包括步骤：

获取目标地铁站在待预测时间段下的待预测特征；其中，所述待预测特征包括：待预测时间特征和待预测空间特征，所述待预测时间特征包括：与待预测时间段相邻的前若干个时间段的客流量、待预测时间段的工作日特征、所述目标地铁站在不同日期同一时间段的客流量均值，所述待预测空间特征包括：所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和；

根据所述待预测特征和所述训练好的随机森林模型，确定所述目标地铁站在所述待预测时间段下的预测客流量。

所述的基于时空特征的地铁短时客流预测方法，其中，所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和为客流量非加权求和或客流量加权求和。

所述的基于时空特征的地铁短时客流预测方法，其中，所述客流量加权求和为：

其中，x_{weight_sum}表示客流量加权求和，x_t表示目标地铁站的工作日客流量，w表示目标地铁站的权值，表示目标地铁站的第i个相似地铁站的客流量，w_i表示目标地铁站的第i个相似地铁站的权值，n表示与目标地铁站的相似地铁站的数量，d_i表示目标地铁站与第i个相似地铁站之间的距离。

所述的基于时空特征的地铁短时客流预测方法，其中，所述目标地铁站与第i个相似地铁站之间的距离为

d_i＝R*arccos[cos(y)*cos(y′_i)*cos(x-x′_i)+sin(y)*sin(y′_i)]

其中，R表示地球半径，x表示目标地铁站的经度，y表示目标地铁站的纬度，x'_i表示第i个相似地铁站的经度，y'_i表示第i个相似地铁站的纬度。

所述的基于时空特征的地铁短时客流预测方法，其中，所述客流量非加权求和为：

其中，x_t表示目标地铁站的工作日客流量，表示目标地铁站的第i个相似地铁站的客流量，n表示目标地铁站的相似地铁站的数量。

所述的基于时空特征的地铁短时客流预测方法，其中，所述相似地铁站为与目标地铁站的聚类类别相同的地铁站，所述目标地铁站的聚类类别根据目标地铁站在各工作日的平均客流量确定。

所述的基于时空特征的地铁短时客流预测方法，其中，所述训练好的随机森林模型采用如下步骤训练得到：

获取各地铁站的历史刷卡数据；

根据所述历史刷卡数据，确定各地铁站在各历史时间段下的历史特征和历史客流量；其中，所述历史特征包括：与历史时间段相邻的前若干个时间段的客流量、历史时间段的工作日特征、地铁站在不同日期同一时间段的客流量均值，所述历史空间特征包括：地铁站以及该地铁站的相似地铁站的工作日客流量之和；

根据各地铁站在各历史时间段下的所述历史特征和所述历史客流量，确定所述历史刷卡数据对应的数据集；

基于所述数据集，对随机森林模型进行训练，得到训练好的随机森林模型。

所述的基于时空特征的地铁短时客流预测方法，其中，所述历史刷卡数据为地铁站在各时间段下的客流量；所述获取各地铁站的历史刷卡数据包括：

获取刷卡记录；其中，所述刷卡记录包括：刷卡闸机号和刷卡时间；

针对每一条刷卡记录，根据该刷卡记录中的刷卡闸机号，确定该刷卡记录对应的地铁站；

针对每一个地铁站，根据该地铁站对应的所有刷卡记录中的刷卡时间，确定该地铁站在各时间段下的客流量，以得到各地铁站的历史刷卡数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

有益效果：由于通过待预测时间特征和待预测空间特征作为特征输入，并结合随机森林模型，对目标地铁站在待预测时间段下的的预测客流量，预测精度较高，提高了预测的准确性。

附图说明

图1是本发明中地铁站每时间段平均客流在工作日与非工作日随时间变化的客流图。

图2是本发明中同一时段客流在不同日期具有相似客流趋势变化关系图。

图3是本发明中基于时空特征的地铁短时客流预测方法的流程图。

图4是本发明中5种聚类类别的平均客流曲线趋势图。

图5是本发明中不同地铁站的平均客流曲线趋势图。

图6为本发明中随机森林模型的框架图。

图7为本发明随机森林模型的预测结果图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请同时参阅图1-图7，本发明提供了一种基于时空特征的地铁短时客流预测方法的一些实施例。

如图3所示，本发明实施例的基于时空特征的地铁短时客流预测方法，包括以下步骤：

步骤S100、获取目标地铁站在待预测时间段下的待预测特征；其中，所述待预测特征包括：待预测时间特征和待预测空间特征，所述待预测时间特征包括：与待预测时间段相邻的前若干个时间段的客流量、待预测时间段的工作日特征、所述目标地铁站在不同日期同一时间段的客流量均值，所述待预测空间特征包括：所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和。

待预测时间段是指当前时间之后尚未到来的时间段，也就是说，本发明的基于时空特征的地铁短时客流预测方法是对未来一段时间内目标地铁站的客流量进行预测，需要说明的是，通常带预测时间段为一较短的时间段，例如，几分钟，几十分钟等。

由于影响地铁站的客流量的因素较多，例如，有些地铁站在工作日的客流量较大，在非工作日的客流量较小，有些地铁站则相反，在工作日的客流量较小，在非工作日的客流量较大。有些地铁站会出现多个客流高峰，也就是说，在某一段时间内客流量较大，在另一段时间内客流量较小。因此，在预测是，需要获取目标地铁站在待预测时间段下的待预测特征，待预测特征包括：待预测时间特征和待预测空间特征，也就是说，将影响客流量的影响因素分成时间特征和空间特征两类。

待预测时间特征包括：与待预测时间段相邻的前若干个时间段的客流量、待预测时间段的工作日特征、所述目标地铁站在不同日期同一时间段的客流量均值。例如，将每天地铁的运营时间分成T个时间段，依次为1，2，3，4，…，t，…，T。待预测时间段为t，则与待预测时间段相邻的前若干个时间段为t-1，t-2，t-3，t-4，…，t-k，k表示前若干个时间段的数量，可以根据设置，具体通过最大互信息分析(Maximal Information Coefficient，MIC)分析方法对被预测时段与相邻时段进行分析，选取计算系数大于0.65的时间段，从而确定k的具体数值。需要说明的是，按照时间顺序，将t-k，…，t-4，t-3，t-2，t-1，t依次排列，且相邻两个时间段相互衔接，且无间隔。与待预测时间段相邻的前若干个时间段的客流量可以表示为{x_t-1，x_t-2，x_t-3，x_t-4，…x_t-k}。

如图1所示，客流在工作日与非工作日的变化形态有显著区别。待预测时间段的工作日特征采用布尔值对状态进行表征，该工作日特征为1维特征，例如，采取0和1进行表征。待预测时间段所处的日期若是工作日，则工作日特征表示为1；待预测时间段所处的日期若是非工作日，则工作日特征表示为0。

目标地铁站在不同日期同一时间段的客流量均值，例如，采用表示日期d时间段t内的客流量，需要说明的是，不同日期是指多个处于预测时间段之前的日期，这些日期可以是连续的，也可以是分散的，例如，目标地铁站在不同日期同一时间段的客流量为则目标地铁站在不同日期同一时间段的客流量均值为：

其中，表示目标地铁站在不同日期同一时间段的客流量均值，/>表示目标地铁站在日期d_m时间段t内的客流量，m表示日期的数量。需要说明的是，这里的时间段t与待预测时间段t是不同日期的同一时间段，因此，都采用t表示。

需要说明的是，如图2所示，不同日期同一时间段的客流量具有相似变化趋势，采用靠近待预测时间段的日期计算客流量均值时，可以更好的反映客流时段趋势，有利于提高客流量预测的准确性。

具体地，所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和是指目标地铁站的工作日客流量以及相似地铁站的工作日客流量的总和，该总和的计算方式有多种，例如，采用客流量非加权求和，或者采用客流量加权求和。

所述客流量加权求和为：

可以理解的是，相似地铁站与目标地铁站的距离越近，则两个地铁站的相似度越高，客流特征越相似，因此相似地铁站的权值越大。采用客流量加权求和更能准确地预测目标地铁站在待预测时间段下的客流量。

距离的计算方式可以有多种，本申请中采用经纬度计算目标地铁站和相似地铁站之间的距离。所述目标地铁站与第i个相似地铁站之间的距离为

d_i＝R*arccos[cos(y)*cos(y′_i)*cos(x-x′_i)+sin(y)*sin(y′_i)]

其中，R表示地球半径，x表示目标地铁站的经度，y表示目标地铁站的纬度，x'_i表示第i个相似地铁站的经度，y'_i表示第i个相似地铁站的纬度。地球半径R＝6371.0km。

当然还可以采用其它方式得到相似地铁站与目标地铁站之间的距离，例如，采用测量的方式得到相似地铁站与目标地铁站之间的距离，还可以从地图上测量得到相似地铁站与目标地铁站之间的距离。

为了简化计算，采用客流量非加权求和，所述客流量非加权求和为：

相似地铁站是指与目标地铁站的客流特征相同的地铁站。可以对将各地铁站的客流特征进行分类，例如，各地铁站按照工作日的平均客流量进行分类。当然还可以采用聚类分析的方式，确定目标地铁站的相似地铁站，所述相似地铁站为与目标地铁站的聚类类别相同的地铁站，所述目标地铁站的聚类类别根据目标地铁站在各工作日的平均客流量确定。

例如，采用K-means方法对所有地铁站点的工作日平均客流进行聚类分析，得到若干个聚类类别，从而确定目标地铁站的聚类类别后，择可以确定目标地铁站的相似地铁站。如图4和图5所示，本申请中将地铁站的聚类类别分成5种聚类类别，具体为：低客流量地铁站、中等客流量地铁站、高客流量地铁站、高出行客流量地铁站以及高归家客流量地铁站。低客流量地铁站是指最高客流量低于第一预设阈值的地铁站，中等客流量地铁站是指最高客流量在第一预设阈值和第二预设阈值之间的地铁站，高客流量地铁站是指最高客流量在第二预设阈值和第三预设阈值之间的地铁站，高出行客流量地铁站是指最高客流量高于第三预设阈值且早高峰客流量大于晚高峰客流量的地铁站，高归家客流量地铁站是指最高客流量高于第三预设阈值且早高峰客流量小于晚高峰客流量的地铁站。其中，第一预设阈值小于第二预设阈值，第二预设阈值小于第三预设阈值。

步骤S200、根据所述待预测特征和所述训练好的随机森林模型，确定所述目标地铁站在所述待预测时间段下的预测客流量。

具体地，得到待预测特征后，将待预测特征作为输入数据输入训练好的随机森林模型，通过随机森林模型输出目标地铁站在待预测时间段下的预测客流量。

所述训练好的随机森林模型采用如下步骤训练得到：

步骤A100、获取各地铁站的历史刷卡数据。

具体地，获取各地铁站的历史刷卡数据，也就是说，基于各地铁站在现有的刷卡数据，构建数据集对随机森林模型进行训练，当然，还可以将数据集分成训练集和测试集，先通过训练集训练随机森林模型，再通过测试集进行测试。

具体地，所述历史刷卡数据为地铁站在各时间段下的客流量。

步骤A100具体包括：

步骤A110、获取刷卡记录；其中，所述刷卡记录包括：刷卡闸机号和刷卡时间；

步骤A120、针对每一条刷卡记录，根据该刷卡记录中的刷卡闸机号，确定该刷卡记录对应的地铁站；

步骤A130、针对每一个地铁站，根据该地铁站对应的所有刷卡记录中的刷卡时间，确定该地铁站在各时间段下的客流量，以得到各地铁站的历史刷卡数据。

具体地，刷卡记录是指乘客在地铁站刷卡闸机刷卡的记录，刷卡记录包括刷卡闸机号和刷卡时间，刷卡记录可以有进站刷卡记录和出站刷卡刷卡，本申请不对进站刷卡记录和出站刷卡记录做区分，均作为客流量。通常，刷卡记录并不包括地铁站的信息，因此，但是可以通过刷卡闸机号确定该刷卡记录属于哪个地铁站，因此，先根据刷卡记录中的刷卡闸机号，确定刷卡记录对应的地铁站，从而将刷卡记录与地铁站匹配起来，当然每个地铁站可以有多个刷卡记录。

然后根据每个地铁站对应的所有刷卡记录中的刷卡时间，确定该地铁站在各时间段下的客流量，也就得到各地铁站的历史刷卡数据。需要说明的是，地铁站在各时间段下的客流量包括：地铁站在不同日期的各时间段下的客流量。

需要说明的是，在形成历史刷卡数据时，可以采用python的datetime方法将时间展示成年：月：日：时：分：秒的格式(即yy:mm:dd:hh:mm:ss)，从而便于确定各时间段下的客流量，具体采用pandas库中的resample方法把原有刷卡记录处理为时间段下的客流量。

步骤A200、根据所述历史刷卡数据，确定各地铁站在各历史时间段下的历史特征和历史客流量；其中，所述历史特征包括：历史时间特征以及历史空间特征，所述历史时间特征包括：与历史时间段相邻的前若干个时间段的客流量、历史时间段的工作日特征、地铁站在不同日期同一时间段的客流量均值，所述历史空间特征包括：地铁站以及该地铁站的相似地铁站的工作日客流量之和。

具体地，在得到历史刷卡数据后，根据历史刷卡数据确定地铁站在各历史时间段下的历史特征和历史客流量，历史特征包括历史时间特征和历史空间特征。历史时间段可以是刷卡时间的任意一时间段，可以针对每个地铁站的每个历史时间段，确定该地铁站在该历史时间段下的历史时间特征和历史空间特征。

步骤A300、根据各地铁站在各历史时间段下的所述历史特征和所述历史客流量，确定所述历史刷卡数据对应的数据集。

每个地铁站在每个历史时间段下的历史特征和历史客流量都可以作为一个训练样本，将所有训练样本形成数据集。可以将所有数据集作为训练集，当然可以把数据集中前75％的数据划分为训练集，后25％数据划分为测试集。

步骤A400、基于所述数据集，对随机森林模型进行训练，得到训练好的随机森林模型。

如图6所示，随机森林模型运用Python语言Scikit-learn库中的RandomForestRegressor函数进行建模，相关参数赋值为n_estimators＝30，max_depth＝7，min_samples_split＝80，min_samples_leaf＝10，max_features＝9，其余参数保留模型默认初始值。

在训练过程中，将历史特征输入随机森林模型，通过随机森林模型输出历史特征对应的生成客流量，当生成客流量和历史客流量满足预设条件时，则得到训练好的随机森林模型。当生成客流量和历史客流量不满足预设条件时，则根据生成客流量和历史客流量修改随机森林模型的参数，并继续执行历史特征输入随机森林模型，通过随机森林模型输出历史特征对应的生成客流量的步骤，直至生成客流量和历史客流量满足预设条件时，得到训练好的随机森林模型。

如图7所示，地铁站未来短时间内(15分钟)的客流量进行预测，客流量的真实值和预测值基本一致，能给地铁部门做好提前预警和布置相关运营管控策略提供决策依据。

本发明的有益效果如下：

本发明通过对地铁站历史刷卡数据进行处理和分析，提出一种通过客流数据减缓自身波动性的特征构造方法。在时间维度上，通过使用最大互信息系数(MIC)对影响因素与客流变化的关系进行分析评估能有效进行高关联特征遴选，对比常用的相关性分析方法，该方法具有计算复杂度低和鲁棒性高的优势；在空间维度上，组合相似客流的地铁站点进行输入，减缓了客流数据波动性，相较于已有研究减缓数据波动性的处理方法(如：时间序列模型、信号频谱处理模型或其它组合模型)而言，降低了整体预测复杂度，更简便快捷。最后结合随机森林算法构建地铁短时客流预测模型。本发明为地铁站短时客流量预测提供了一种可靠的解决方法，运算高效且预测精度高，为地铁安保部署，保障安全出行所需的流量预测数据提供了解决办法。

基于上述任意一实施例所述的基于时空特征的地铁短时客流预测方法，本发明还提供了一种计算机设备的较佳实施例：

计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

获取待预测时间段和目标地铁站，根据所述待预测时间段和目标地铁站，确定所述目标地铁站在所述待预测时间段下的待预测特征；所述待预测特征包括：待预测时间特征和待预测空间特征，所述待预测时间特征包括：与待预测时间相邻的前若干个时间段的客流量、待预测时间段的工作日特征、所述目标地铁站在不同日期同一时间段的客流量均值，所述待预测空间特征包括：所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和；

基于上述任意一实施例所述的基于时空特征的地铁短时客流预测方法，本发明还提供了一种计算机可读存储介质的较佳实施例：

计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于时空特征的地铁短时客流预测方法，其特征在于，包括步骤：

根据所述待预测特征和训练好的随机森林模型，确定所述目标地铁站在所述待预测时间段下的预测客流量；

所述目标地铁站以及所述目标地铁站的相似地铁站的工作日客流量之和为客流量加权求和；所述客流量加权求和为：

其中，x_{weight_sum}表示客流量加权求和，x_t表示目标地铁站的工作日客流量，w表示目标地铁站的权值，表示目标地铁站的第i个相似地铁站的客流量，w_i表示目标地铁站的第i个相似地铁站的权值，n表示与目标地铁站的相似地铁站的数量，d_i表示目标地铁站与第i个相似地铁站之间的距离；所述目标地铁站与第i个相似地铁站之间的距离为：

d_i＝R*arccos[cos(y)*cos(y′_i)*cos(x-x′_i)+sin(y)*sin(y′_i)]

其中，R表示地球半径，x表示目标地铁站的经度，y表示目标地铁站的纬度，x′_i表示第i个相似地铁站的经度，y′_i表示第i个相似地铁站的纬度；

所述目标地铁站的相似地铁站为与目标地铁站的聚类类别相同的地铁站，所述目标地铁站的聚类类别根据目标地铁站在各工作日的平均客流量确定；采用K-means方法对所有地铁站点的工作日平均客流量进行聚类分析，得到若干个聚类类别，从而确定目标地铁站的聚类类别后，确定目标地铁站的相似地铁站；其中，聚类类别包括：低客流量地铁站、中等客流量地铁站、高客流量地铁站、高出行客流量地铁站以及高归家客流量地铁站；低客流量地铁站是指最高客流量低于第一预设阈值的地铁站，中等客流量地铁站是指最高客流量在第一预设阈值和第二预设阈值之间的地铁站，高客流量地铁站是指最高客流量在第二预设阈值和第三预设阈值之间的地铁站，高出行客流量地铁站是指最高客流量高于第三预设阈值且早高峰客流量大于晚高峰客流量的地铁站，高归家客流量地铁站是指最高客流量高于第三预设阈值且早高峰客流量小于晚高峰客流量的地铁站；其中，第一预设阈值小于第二预设阈值，第二预设阈值小于第三预设阈值。

2.根据权利要求1所述的基于时空特征的地铁短时客流预测方法，其特征在于，所述训练好的随机森林模型采用如下步骤训练得到：

获取各地铁站的历史刷卡数据；

根据所述历史刷卡数据，确定各地铁站在各历史时间段下的历史特征和历史客流量；其中，所述历史特征包括：与历史时间段相邻的前若干个时间段的客流量、历史时间段的工作日特征、地铁站在不同日期同一时间段的客流量均值，所述历史客流量包括：地铁站以及该地铁站的相似地铁站的工作日客流量之和；

3.根据权利要求2所述的基于时空特征的地铁短时客流预测方法，其特征在于，所述历史刷卡数据为地铁站在各时间段下的客流量；所述获取各地铁站的历史刷卡数据包括：

4.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。