CN112686417A

CN112686417A - 一种地铁大客流预测方法、系统及电子设备

Info

Publication number: CN112686417A
Application number: CN201910993773.7A
Authority: CN
Inventors: 赵娟娟; 须成忠; 张帆
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2021-04-20
Anticipated expiration: 2039-10-18
Also published as: WO2021072959A1; CN112686417B

Abstract

本申请涉及一种地铁大客流预测方法、系统及电子设备。包括：步骤a：根据历史乘客出行数据提取地铁静态特征及动态特征；步骤b：基于地铁实时在线客流与历史平均客流的偏移量计算各站点的客流聚集指数，并结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及会发生大客流事件的具体站点；步骤c：根据所述会发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量。在大客流场景下，相比传统方法本申请具有较高的预测精度。

Description

一种地铁大客流预测方法、系统及电子设备

技术领域

本申请属于智能公共交通技术领域，特别涉及一种地铁大客流预测方法、系统及电子设备。

背景技术

城市轨道交通以速度快、运量大、时间准、污染小、能耗低等优点，逐渐成为市民公共交通出行的主要方式。目前城市轨道交通已成为国内外大型城市发展公共交通、缓解道路交通压力的最佳解决方案之一。而对客流的实时预测尤其是对大客流的预测是客流疏散、动态列车调度、区间车调度等的基础。

目前，国内外研究学者已经在客流预测方面展开了大量的研究，比如轨道交通站点客流量、区间断面流量等的预测。但现有的预测方法主要针对通常情况下的客流做分析与预测，或者对已经发生大客流的站点做监测，无法适用于预测未来在短时间出现大客流的场景。相对于通常情况，对由大型活动等原因造成的在较短时间内在某站点汇聚大量客流的情况的预测具有更加重要的意义，例如维持公共交通安全等。

发明内容

本申请提供了一种地铁大客流预测方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种地铁大客流预测方法，包括以下步骤：

步骤a：根据历史乘客出行数据提取地铁静态特征及动态特征；

步骤b：基于地铁实时在线客流与历史平均客流的偏移量计算各站点的客流聚集指数，并结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及会发生大客流事件的具体站点；

步骤c：根据所述会发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述静态特征包括在线客流A_i,k,c、站点累计客流Ac_j,c、各时段历史平均客流、历史发生大客流事件的次数F_j、站点平均花费时间Cd_j；其中，各时段历史平均客流包括在线历史平均客流量、累计客流量，分别使用

表示A_i,k,c,Ac_j,k对应的历史平均值；所述动态特征包括两站之间花费时间cst_i,j、客流平均贡献率

本申请实施例采取的技术方案还包括：在所述步骤b中，所述基于实时在线客流与历史平均客流的偏移量实时估算各站点的客流聚集指数具体为：假设在过去时段T_k从站点s_i进站的乘客，在时间段T_c之后仍然在线的乘客数量相比历史平均值的偏移量

大，则表示R_i,k,c这部分乘客会在未来时段T_c+m向别的站点聚集；如果地铁全网很多站点的客流都有在T_c+m时段向站点s_j聚集的趋势，则认为在未来时段T_c+m的s_j站会出现大客流事件；R_i,k,c可能去往的站点以及所影响的时段与两站之间花费时间有关系；偏移量R_i,k,c服从泊松分布R_i,k,c～P(λ)，使用置信区间检验偏移量R_i,k,c>0是否异常，如果R_i,k,c异常，则将R_i,k,c>0称为关键客流；如果R_i,k,c是关键客流，假设R_i,k,c去往站点s_j，那么R_i,k,c在未来时段T_c+m到达站点s_j的客流量，或R_i,k,c对在未来时段T_c+m在s_j站点的发生大客流事件的贡献率计算为：

未来时段T_c+m在s_j站的客流聚集指数GS_c,j,m定义为：在T_c+m-M～T_c时段范围从其它站点进站的关键客流对在未来时段T_c+m在站点s_j的大客流贡献率之和，计算为：

本申请实施例采取的技术方案还包括：在所述步骤b中，所述结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及会发生大客流事件的具体站点具体包括：

步骤b1：根据客流聚集指数筛选出可能发生大客流的潜在聚集站点集合；在当前时段T_c，为了判断未来时段T_c+m是否发生大客流事件，首先将客流聚集指数GS_c,j,m大于阈值G_max的前N_B个站点作为可能发生大客流事件的站点，并添加到大客流聚集站点集合S_B中；

步骤b2：根据所述潜在聚集站点集合中各个站点的静态特征及动态特征建立Logit模型，判断将要发生大客流事件的具体站点；首先，判断所述大客流聚集站点集合S_B中各个站点在最近时段是否已经出现了客流聚集情况；如果是，则将该站点作为大客流事件发生站点；如果大客流聚集站点集合S_B中各个站点在最近时段没有出现客流聚集情况，则计算S_B中各站点发生大客流事件的概率，将概率最大的站点作为大客流发生的站点；对于s_j∈S_B中的每一个站点，客流聚集指数GS_c,j,m可以反映其动态特征，结合站点s_j的历史发生大客流事件的次数F_j以及站点平均花费时间Cd_j，并基于多概率选择模型logit计算各站点发生大客流事件的概率。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量具体包括：假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m；D_j,c+m表示为平均客流量

与偏移量Δ之和，即

Δ表示为I_c+m-N～I_c时段的贡献量Δ_p和I_c+1～I_c+m时段的贡献量Δ_f两部分，假设在每一次大客流事件中，参与大客流聚集的乘客进站时间服从均匀分布，则Δ_f/Δ的比值可以计算为：

上述公式中，Pr_Δ(t_o∈[I_c+m-N I_c])表示在Δ中，在过去时段进站的乘客比例；如果已知大客流贡献率，Δ计算为Δ＝Δ_p×θ；

如果过去在站点s_j发生过大客流事件，则所述大客流贡献率为历史平均大客流贡献率；如果过去在站点s_j从来没有发生过大客流事件，则构建线性回归模型

使用平均花费时间贡献率

和客流平均贡献率

估计站点s_i的大客流贡献率；其中所述时间贡献率

计算方法为：

本申请实施例采取的另一技术方案为：一种地铁大客流预测系统，包括：

特征提取模块：用于根据历史乘客出行数据提取地铁静态特征及动态特征；

大客流聚集站点判断模块：用于基于地铁实时在线客流与历史平均客流的偏移量计算各站点的客流聚集指数，并结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及会发生大客流事件的具体站点；

大客流量预测模块：用于根据所述会发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量。

本申请实施例采取的技术方案还包括：所述静态特征包括在线客流A_i,k,c、站点累计客流Ac_j,c、各时段历史平均客流、历史发生大客流事件的次数F_j、站点平均花费时间Cd_j；其中，各时段历史平均客流包括在线历史平均客流量、累计客流量，分别使用

本申请实施例采取的技术方案还包括：所述大客流聚集站点判断模块包括：

客流聚集指数计算单元：用于基于实时在线客流与历史平均客流的偏移量实时估算各站点的客流聚集指数；假设在过去时段T_k从站点s_i进站的乘客，在时间段T_c之后仍然在线的乘客数量相比历史平均值的偏移量

本申请实施例采取的技术方案还包括：所述大客流聚集站点判断模块还包括：

大客流聚集站点预测单元：用于根据客流聚集指数筛选出可能发生大客流的潜在聚集站点集合，然后根据潜在聚集站点集合中各个站点的静态特征以及动态特征建立Logit模型，判断将要发生大客流事件的具体站点；具体为：

在当前时段T_c，为了判断未来时段T_c+m是否发生大客流事件，首先将客流聚集指数GS_c,j,m大于阈值G_max的前N_B个站点作为可能发生大客流事件的站点，并添加到大客流聚集站点集合S_B中；判断所述大客流聚集站点集合S_B中各个站点在最近时段是否已经出现了客流聚集情况；如果是，则将该站点作为大客流事件发生站点；如果大客流聚集站点集合S_B中各个站点在最近时段没有出现客流聚集情况，则计算S_B中各站点发生大客流事件的概率，将概率最大的站点作为大客流发生的站点；对于s_j∈S_B中的每一个站点，客流聚集指数GS_c,j,m可以反映其动态特征，结合站点s_j的历史发生大客流事件的次数F_j以及站点平均花费时间Cd_j，并基于多概率选择模型logit计算各站点发生大客流事件的概率。

本申请实施例采取的技术方案还包括：所述大客流量预测模块根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量具体包括：假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m；D_j,c+m表示为平均客流量

与偏移量Δ之和，即

使用平均花费时间贡献率

和客流平均贡献率

估计站点s_i的大客流贡献率；其中所述时间贡献率

计算方法为：

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的地铁大客流预测方法的以下操作：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的地铁大客流预测方法、系统及电子设备通过对历史长期的乘客出行数据做深入分析，基于各站点历史大客流发生次数、最近时段客流的变化量、以及站点相关特征判断未来短期将要发生大客流事件的具体站点，并结合历史是否发生过大客流事件，以及该站点其它的动态和静态特征预测未来短期的精确客流量。在大客流场景下，相比传统方法本申请具有较高的预测精度。

附图说明

图1是本申请实施例的地铁大客流预测方法的流程图；

图2为大客流聚集实例图；

图3是本申请实施例的地铁大客流预测系统的结构示意图；

图4是本申请实施例提供的地铁大客流预测方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的不足，本申请通过对历史长期的乘客出行数据做深入分析，对未来短期内流入大量客流(出站客流)的站点和流入(出站)客流量进行实时预测。为了清楚描述及解释本申请的技术方案，首先给出本申请使用到的如下定义，然后对本申请的具体技术内容进行详细说明：

定义1(地铁系统)：一个地铁系统由多条线路L＝{l₁,l₂,…,l_|L|}和多个站点S＝{s₁,s₂,…,s_|S|}组成，其中|L|和|S|分别表示线路条数和站点个数；本申请所指的线路是带有方向性的逻辑线路，例如深圳1号线从罗湖到机场东与从机场东到罗湖为两条不同的线路。

定义2(乘客出行)：乘客的一次出行tr关联S_o,S_d,t_o,t_d四个属性，分别表示进站站点、出站站点、进站时间、出站时间。

定义3(时段集合)：将一天按固定的间隔τ划分为多个时段T₁,T₂,…T_|T|，第k时段T_k所包含的时间范围为{(k-1)τ,kτ}。

定义4(进站客流)：使用O_i,k表示在T_k时间段从站点s_i进站的乘客数量，计算方法为：O_i,k＝|{tr|tr∈Tr,tr.s_o＝s_i,tr.t_o∈T_k}|，其中Tr表示预测当天的所有已产生的出行；.操作用于统计符合条件的出行数量。

定义5(出站客流)：使用D_i,k表示在在T_k时间段从站点s_i出站的乘客数量，计算方法为D_i,k＝|{tr|tr∈Tr,tr.s_d＝s_i,tr.t_d∈T_k}|。

定义6(OD客流)：使用OD_i,j,_k,n表示在T_k时间段从s_i站点进站，在T_k+n时段从s_j出站的乘客数量，计算方法为OD_i,j,k,n＝|{tr|tr∈Tr,tr.s_b＝s_i,tr.t_b∈T_k,tr.s_e＝s_j,tr.t_e∈T_k+n}|.。

定义7(大客流事件):对于某站点s_j，如果在时间段T_b出站的客流量与历史平均值的差大于某设定阈值Δ_max，则表示站点s_j在时间段T_b发生了大客流事件。

问题定义:给出历史长期和实时的地铁智能卡交易数据，每一条交易数据包含乘客进(出)站的刷卡时间和站点，本申请的目的是预测未来时段T_c+m(T_c为当前时段，m＝1,2,3,…)地铁系统是否发生大客流事件，以及发生大客流事件的站点和具体客流量。例如图1展示了2014年9月28日深圳会展中心站点的出站客流和历史平均客流。如果将阈值Δ_max设定为3000，将时间间隔τ设置为半小时，则判定会展中心站点在8:00～8:30发生了大客流事件。

请参阅图2，是本申请实施例的地铁大客流预测方法的流程图。本申请实施例的地铁大客流预测方法包括以下步骤：

步骤100：根据历史长期的乘客出行数据提取地铁静态特征及动态特征；

步骤100中，地铁静态特征及动态特征是大客流聚集站点判定和大客流量预测的基础。静态特征即与站点相关的特征，包括在线客流、站点累计客流、各时段历史平均客流、历史发生大客流事件的次数、站点平均花费时间等。具体如下：

(1)在线客流；在线客流表示已经刷卡进站还没有出站的乘客。以下实施例使用A_i,k,c表示在时间段T_k从站点s_i刷卡进站的乘客中，直到T_c之后还处于地铁系统的乘客数量；A_i,k,c计算方法为：

(2)站点累计客流；给定站点s_i，以及某天的当前时段T_c,累计客流指的是在过去各个时段进出站客流之间差值的累计和。以下实施例使用Ac_j,c标识站点s_j的累计客流，计算方法为：

(3)各时段历史平均客流；各时段历史平均客流包括在线历史平均客流量、累计客流量。本申请分别使用

表示A_i,k,c,Ac_j,k对应的历史平均值。

(4)历史发生大客流事件的次数；某站点的历史大客流发生次数在一定程度上反应了此站点大客流发生的可能性。以下实施例使用F_j表示大客流事件在s_j站点发生的次数。需要注明的是，大客流事件发生的次数按连续时间段统计。例如在某天的9:00～13:00之间站点s_j发生了大客流，虽然中间跨越多个时间段，由于发生的是同一事件，所以只统计一次。

(5)站点平均花费时间；一般而言，一个城市的中心区域比郊区更容易发生大客流聚集事件。给定某站点s_j，来自全网其它站点的乘客前往此站点的平均花费时间Cd_j在一定程度上反应了此站点的区域特征。从其它各站点到此站点出行的平均时间越长在某种程度上说明此站点可能越偏远。平均花费时间小的站点可能处于中心区域，反之为郊区。以下使用Cd_j表示站点s_j的区域特征，用从站点s_j出站的乘客的平均花费时间表示，Cd_j计算公式为：

动态特征涉及多个站点，包括两站之间花费时间、客流平均贡献率等。具体的：

(1)两站之间时间花费；两站之间的花费时间是影响从各站点进站的客流到达其它站点时间的重要因素。乘客出行数据记录了每一位乘客完整的进出站时间，这为计算两站之间花费时间分布提供了充足的数据支撑。本申请实施例中，分别提取两类时间花费特征。第一类是两站之间的平均花费时间，表示两站之间花费时间的总体描述。以下使用cst_i,j标识站点s_i和站点s_j之间的平均花费时间。计算方法为：

第二类是一天不同时间段的花费时间分布，描述时间的局部特征，这是由于列车调度时间，例如发车间隔等因素的影响，两站之间乘客所花费时间也会不同，所以针对不同的时间段对两站之间的时间花费分别做统计。将在T_k时间段从s_i进站前往s_j的乘客中，在T_k,T_k+1,…T_k+M时间段从s_j出站的比例记做：

计算方法为：

公式(3)中，M为地铁系统任意两站之间花费时间最多的时间段的数量。

(2)客流平均贡献率；客流平均贡献率指的是从某站点出站的乘客从其它各站点进站的比例。使用矩阵

表示从站点s_j出站的乘客进站站点的平均贡献率，

的计算方法为：

公式(4)中，Tr_all表示乘客的所有历史出行记录。

本申请实施例中，由于居民的出行受工作生活等因素影响呈现7天周期性，在工作日、周末、节假日三类情况下呈现出不同的特征，因此本申请针工作日、周末、节假日三类情况分别进行静态特征及动态特征的提取。

步骤200：基于实时在线客流与历史平均客流的偏移量计算各站点的客流聚集指数，并结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及发生大客流事件的具体站点；

步骤200中，为了清楚描述大客流事件的预测方式，以下分两个步骤进行具体描述：

步骤201：基于实时在线客流与历史平均客流的偏移量实时估算各站点的客流聚集指数；

步骤201中，由于乘客的出站时间要晚于进站时间，在未来时段T_c+m从某站点s_j出站的乘客中包含在前期时段T_c+m-M～T_c从其它站点进站的乘客。如果某站点在未来时段T_c+m内会发生大量客流流入，那么相比平常情况下，在前期时段T_c+m-M～T_c进站的乘客会存在往站点s_j聚集的趋势，本申请实施例中将该趋势称之为客流聚集指数。

进一步地，未来时段T_c+m内各个站点的客流聚集指数计算方式具体包括：任意站点s_j在未来时段T_c+m的聚集指数用于描述全网在线乘客在T_c+m时段内在站点s_j异常聚集的趋势。根据分析，该异常聚集趋势包括以下两点规律：(1)通常情况下乘客出行呈现规律性，在线客流在时空分布上比较接近平均值，而在随机性强的大客流聚集情况下，其偏离平均值较大。(2)乘客的出行时间与乘客数量成反比。即出行时间越短，乘客数量越多，说明乘客更倾向于向附近区域聚集。

基于以上规律，如果在过去时段T_k从站点s_i进站的乘客，在时间段T_c之后仍然在线的乘客数量相比历史平均值的偏移量

较大，那么R_i,k,c这部分客流很可能在未来时段T_c+m向别的站点聚集。R_i,k,c可能去往的站点以及所影响的时段与两站之间时间花费有关系。如果地铁全网很多站点的客流都有在T_c+m时段向站点s_j聚集的趋势，那么在未来时段T_c+m的s_j站很有可能出现大客流事件。

通过对历史数据分析，发现偏移量R_i,k,c服从泊松分布R_i,k,c～P(λ)，其中参数λ可以通过使用极大似然估计得到。本申请使用95％作为置信区间来检验偏移量R_i,k,c>0是否异常，并使用N(R_i,k,c)标识R_i,k,c是否通过异常检验，如果通过检验值为0，否则为1。如果R_i,k,c异常，则将R_i,k,c>0称为关键客流。

如果R_i,k,c是关键客流，假设R_i,k,c去往站点s_j，那么R_i,k,c在未来时段T_c+m到达站点s_j的客流量，或R_i,k,c对在未来时段T_c+m在s_j站点的发生大客流事件的贡献率可以计算为：

其中，未来时段T_c+m在s_j站的客流聚集指数GS_c,j,m定义为：在T_c+m-M～T_c时段范围从其它站点进站的关键客流对在未来时段T_c+m在站点s_j的大客流贡献率之和，可以计算为：

步骤202：根据客流聚集指数筛选出可能发生大客流的潜在聚集站点集合，然后根据潜在聚集站点集合中各个站点的静态特征及动态特征建立Logit模型，判断将要发生大客流事件的具体站点；

步骤202中，根据以上客流聚集指数的定义，可以看到如果整个地铁网络的乘客有向站点s_j聚集的趋势，那么也有可能向站点s_j的邻居站点聚集，即s_j与其邻居站点的客流聚集指数相差可能较小，因此其相邻站点也有可能被判断为大客流聚集的站点，为了防止误判断，本申请分以下两个步骤进行大客流事件发生站点的判断：

步骤2021：潜在大客流聚集站点选择；在当前时段T_c，为了判断未来时段T_c+m是否发生大客流事件，首先将客流聚集指数GS_c,j,m大于阈值G_max的前N_B个站点作为可能发生大客流事件的站点，并添加到大客流聚集站点集合S_B中；

步骤2021中，阈值G_max的选择方式具体为：首先将历史数据按照是否发生大客流事件分为发生大客流数据D_B和通常情况下数据D_N两类。然后分别计算D_B和D_N中对应的客流聚集指数的分布f_B和f_n，并选择在D_B中的分布密度远远大于在D_N中的聚集指数的区域。正常情况下，该区域处于聚集指数值较大的部分，并设定阈值G_max为满足条件f_B(x>G_max)>95％的最大值。

N_B的选择方式具体为：针对每一次大客流事件，找到大客流聚集指数大于阈值G_max的所有站点，并对这些站点按照客流聚集指数从大到小进行编号，编号中最大的值作为N_B的值。

步骤2022：大客流聚集站点判定；大客流聚集站点判定的目的是从大客流聚集站点集合S_B中选择出最可能发生大客流的站点s_b。一般情况下，大客流事件是由于大型活动引起的，且大客流事件会延续一段时间，即某站点如果在当前时段出现了客流聚集，在下一个时段也有可能出现客流聚集。另外，各站点是否发生以及发生大客流事件的概率与各站点相关特征有关系，例如发生次数，区域特征等。

本申请实施例中，大客流聚集站点判定方式具体为：

首先，判断大客流聚集站点集合S_B中各个站点在最近时段是否已经出现了客流聚集情况；各个站点s_j∈S_B的累计客流Ac_j,c可以反映客流的聚集趋势，因此计算S_B中每个站点的累计客流，并判断是否出现了大客流事件，如果是，则将此站点作为大客流事件发生站点。如果大客流聚集站点集合S_B中各个站点在最近时段没有出现客流聚集情况，则计算S_B中各站点发生大客流事件的概率，将概率最大的站点作为大客流发生的站点。对于s_j∈S_B中的每一个站点，客流聚集指数GS_c,j,m可以反映其动态特征，结合站点s_j的历史发生大客流事件的次数F_j、站点平均花费时间Cd_j等特征，并基于多概率选择模型logit计算各站点发生大客流事件的概率。Logit模型使用效用理论为：站点s_j发生大客流事件的可能性与其效用值U_j＝θ₁×GS_c,j,m+θ₂×F_j+θ₃×Cd_j有关系，效用值越大，其发生的可能性越大。乘客前往站点s_j的概率计算公式为：

公式(7)中，参数θ₁,θ₂,θ₃可以通过历史大客流事件拟合得到。

步骤300：根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量；

步骤300中，假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，本步骤的目的是预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m。D_j,c+m可以表示为平均客流量

与偏移量Δ之和，即

以下将客流量预测问题归结为对Δ的预测。

由于站点间所花费时间的不同，在未来时段T_c+m在站点s_j出站的乘客进站时间段也会不同。一部分乘客在过去时段I_c+m-N～I_c已经进站，另一部分乘客将在未来时段I_c+1～I_c+m进站，所以Δ可以表示为Δ_p和Δ_f两部分，分别为I_c+m-N～I_c时段的贡献量和I_c+1～I_c+m时段的贡献量。其中客流聚集指数是在I_c+m-N～I_c时段内进站的关键客流对Δ的贡献，即Δ_p的值。

为了计算Δ_f的值，首先定义大客流贡献率。给定某次大客流事件发生的时段T_k和站点s_j，使用R表示各个站点的客流对Δ的贡献比例。此次大客流量D_j,k与平均客流量

的差值记为

从任意其它站点s_i进站的乘客数量

与平均客流量的差值记为

各个站点对Δ的贡献比例称作大客流贡献率，用向量R＝{r¹,r²,…,r^|S|}表示，其中

表示站点s_i对Δ的贡献比。

假设在每一次大客流事件中，参与大客流聚集的乘客进站时间服从均匀分布(在交通领域经常使用的假设，例如公交乘客到达站点的时间等)，那么Δ_f/Δ的比值可以计算为：

公式(8)中，Pr_Δ(t_o∈[I_c+m-N I_c])表示在Δ中，在过去时段进站的乘客比例。如果已知大客流贡献率，Δ可以计算为Δ＝Δ_p×θ。

为了估计大客流贡献率，首先介绍两点发现：

(1)通过对同一站点发生过两次以上大客流事件，或者持续多个时间段的同一件大客流事件进行分析，发现相同站点在不同大客流事件中对此站点的贡献率比例基本稳定。这是因为由于区域等因素的影响，往此站点聚集的客流的源站点分布比较规律。

(2)任意一个其它站点s_i对Δ的贡献率与两站之间的平均花费时间

以及客流平均贡献率β_j有比较强的相关性，这是因为乘客更加关注距离自己近的聚集事件，即乘客更倾向于在附近区域聚集。

基于上述两点，如果过去在站点s_j发生过大客流事件，那么大客流贡献率估计为历史平均大客流贡献率。如果过去在此站点从来没有发生过大客流事件，构建线性回归模型

使用平均花费时间贡献率

和客流平均贡献率

去估计站点s_i的大客流贡献比。其中时间贡献率

计算方法为：

请参阅图3，是本申请实施例的地铁大客流预测系统的结构示意图。本申请实施例的地铁大客流预测系统包括特征提取模块、大客流聚集站点判断模块和大客流量预测模块。

特征提取模块：用于根据历史长期的乘客出行数据提取地铁静态特征和动态特征；具体的，特征提取模块包括：

用于提取站点静态特征的静态特征提取单元：静态特征即与站点相关的特征，包括在线客流、站点累计客流、各时段历史平均客流、历史发生大客流事件的次数、站点平均花费时间等。具体如下：

表示A_i,k,c,Ac_j,k对应的历史平均值。

用于提取地铁网络特征的动态特征提取单元：地铁网络特征涉及多个站点，包括两站之间花费时间、客流平均贡献率等。具体为：

计算方法为：

表示从站点s_j出站的乘客进站站点的平均贡献率，

的计算方法为：

公式(4)中，Tr_all表示乘客的所有历史出行记录。

大客流聚集站点判断模块：用于基于实时在线客流与历史平均客流的偏移量计算各站点的客流聚集指数，并根据各站点的客流聚集指数、站点静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及发生大客流事件的具体站点；具体的，大客流聚集站点判断模块包括：

客流聚集指数计算单元：用于基于实时在线客流与历史平均客流的偏移量实时估算各站点的客流聚集指数；由于乘客的出站时间要晚于进站时间，在未来时段T_c+m从某站点s_j出站的乘客中包含在前期时段T_c+m-M～T_c从其它站点进站的乘客。如果某站点在未来时段T_c+m内会发生大量客流流入，那么相比平常情况下，在前期时段T_c+m-M～T_c进站的乘客会存在往站点s_j聚集的趋势，本申请实施例中将该趋势称之为客流聚集指数。

大客流聚集站点预测单元：用于根据客流聚集指数筛选出可能发生大客流的潜在聚集站点集合，然后根据潜在聚集站点集合中各个站点的静态特征以及动态特征建立Logit模型，判断将要发生大客流事件的具体站点；根据以上客流聚集指数的定义，可以看到如果整个地铁网络的乘客有向站点s_j聚集的趋势，那么也有可能向站点s_j的邻居站点聚集，即s_j与其邻居站点的客流聚集指数相差可能较小，因此其相邻站点也有可能被判断为大客流聚集的站点，为了防止误判断，本申请分以下两个步骤进行大客流事件发生站点的判断：

一、潜在大客流聚集站点选择；在当前时段T_c，为了判断未来时段T_c+m是否发生大客流事件，首先将客流聚集指数GS_c,j,m大于阈值G_max的前N_B个站点作为可能发生大客流事件的站点，并添加到大客流聚集站点集合S_B中。

上述中，阈值G_max的选择方式具体为：首先将历史数据按照是否发生大客流事件分为发生大客流数据D_B和通常情况下数据D_N两类。然后分别计算D_B和D_N中对应的客流聚集指数的分布f_B和f_n，并选择在D_B中的分布密度远远大于在D_N中的聚集指数的区域。正常情况下，该区域处于聚集指数值较大的部分，并设定阈值G_max为满足条件f_B(x>G_max)>95％的最大值。

二、大客流聚集站点判定；大客流聚集站点判定的目的是从大客流聚集站点集合S_B中选择出最可能发生大客流的站点s_b。一般情况下，大客流事件是由于大型活动引起的，且大客流事件会延续一段时间，即某站点如果在当前时段出现了客流聚集，在下一个时段也有可能出现客流聚集。另外，各站点是否发生以及发生大客流事件的概率与各站点相关特征有关系，例如发生次数，区域特征等。

大客流聚集站点判定方式具体为：首先，判断大客流聚集站点集合S_B中各个站点在最近时段是否已经出现了客流聚集情况；各个站点s_j∈S_B的累计客流Ac_j,c可以反映客流的聚集趋势，因此计算S_B中每个站点的累计客流，并判断是否出现了大客流事件，如果是，则将此站点作为大客流事件发生站点。如果大客流聚集站点集合S_B中各个站点在最近时段没有出现客流聚集情况，则计算S_B中各站点发生大客流事件的概率，将概率最大的站点作为大客流发生的站点。对于s_j∈S_B中的每一个站点，客流聚集指数GS_c,j,m可以反映其动态特征，结合站点s_j的历史发生大客流事件的次数F_j、站点平均花费时间Cd_j等特征，并基于多概率选择模型logit计算各站点发生大客流事件的概率。Logit模型使用效用理论为：站点s_j发生大客流事件的可能性与其效用值U_j＝θ₁×GS_c,j,m+θ₂×F_j+θ₃×Cd_j有关系，效用值越大，其发生的可能性越大。乘客前往站点s_j的概率计算公式为：

大客流量预测模块：用于根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量；假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，本步骤的目的是预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m。D_j,c+m可以表示为平均客流量

与偏移量Δ之和，即

以下将客流量预测问题归结为对Δ的预测。

的差值记为

从任意其它站点s_i进站的乘客数量

与平均客流量的差值记为

表示站点s_i对Δ的贡献比。

为了估计大客流贡献率，首先介绍两点发现：

使用平均花费时间贡献率

和客流平均贡献率

去估计站点s_i的大客流贡献比。其中时间贡献率

计算方法为：

图4是本申请实施例提供的地铁大客流预测方法的硬件设备结构示意图。如图4所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

本申请实施例的地铁大客流预测方法、系统及电子设备通过对历史长期的乘客出行数据做深入分析，基于各站点历史大客流发生次数、最近时段客流的变化量、以及站点相关特征判断未来短期将要发生大客流事件的具体站点，并结合历史是否发生过大客流事件，以及该站点其它的动态和静态特征预测未来短期的精确客流量。在大客流场景下，相比传统方法本申请具有较高的预测精度。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本申请中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种地铁大客流预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的地铁大客流预测方法，其特征在于，在所述步骤a中，所述静态特征包括在线客流A_i,k,c、站点累计客流Ac_j,c、各时段历史平均客流、历史发生大客流事件的次数F_j、站点平均花费时间Cd_j；其中，各时段历史平均客流包括在线历史平均客流量、累计客流量，分别使用

3.根据权利要求2所述的地铁大客流预测方法，其特征在于，在所述步骤b中，所述基于实时在线客流与历史平均客流的偏移量实时估算各站点的客流聚集指数具体为：假设在过去时段T_k从站点s_i进站的乘客，在时间段T_c之后仍然在线的乘客数量相比历史平均值的偏移量

4.根据权利要求3所述的地铁大客流预测方法，其特征在于，在所述步骤b中，所述结合各站点的客流聚集指数、静态特征以及动态特征判断未来时段地铁网络是否会发生大客流事件，以及会发生大客流事件的具体站点具体包括：

5.根据权利要求4所述的地铁大客流预测方法，其特征在于，在所述步骤c中，所述根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量具体包括：假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m；D_j,c+m表示为平均客流量

与偏移量Δ之和，即

使用平均花费时间贡献率

和客流平均贡献率

估计站点s_i的大客流贡献率；其中所述时间贡献率

计算方法为：

6.一种地铁大客流预测系统，其特征在于，包括：

7.根据权利要求6所述的地铁大客流预测系统，其特征在于，所述静态特征包括在线客流A_i,k,c、站点累计客流Ac_j,c、各时段历史平均客流、历史发生大客流事件的次数F_j、站点平均花费时间Cd_j；其中，各时段历史平均客流包括在线历史平均客流量、累计客流量，分别使用

8.根据权利要求7所述的地铁大客流预测系统，其特征在于，所述大客流聚集站点判断模块包括：

9.根据权利要求8所述的地铁大客流预测系统，其特征在于，所述大客流聚集站点判断模块还包括：

10.根据权利要求9所述的地铁大客流预测系统，其特征在于，所述大客流量预测模块根据发生大客流事件的具体站点对应的静态特征及动态特征预测该站点在未来时段的精确客流量具体包括：假设在时段T_c时判定未来时段T_c+m在s_j站点将发生大客流事件，客流聚集指数为GS_c,j,m，预测在未来时段T_c+m流入站点s_j的客流量D_j,c+m；D_j,c+m表示为平均客流量

与偏移量Δ之和，即

使用平均花费时间贡献率

和客流平均贡献率

估计站点s_i的大客流贡献率；其中所述时间贡献率

计算方法为：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至5任一项所述的地铁大客流预测方法的以下操作：