CN111428934B

CN111428934B - 一种基于实时统计数据的公交站点短时客流预测方法

Info

Publication number: CN111428934B
Application number: CN202010245046.5A
Authority: CN
Inventors: 翟华伟; 崔立成; 张维石; 田瑞杰
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-11-24
Anticipated expiration: 2040-03-31
Also published as: CN111428934A

Abstract

本发明提供一种基于实时统计数据的公交站点短时客流预测方法，包括：将客流时间序列分解为线性趋势部分与非线性特征部分；使用时间序列模型对客流时间序列的线性趋势部分进行预测；利用深度信念网络对客流时间序列非线性特征部分进行预测；利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型；基于所述组合预测模型各单一时间尺度客流时间序列预测结果，利用改进极限学习机算法建立混合关系预测模型；利用所述混合关系预测模型预测短时客流变化。本发明综合分析客流统计数据线性特性和非线性特性，有效提高站点客流预测精度。

Description

一种基于实时统计数据的公交站点短时客流预测方法

技术领域

本发明涉及智能交通技术领域，具体而言，尤其涉及一种基于实时统计数据的公交站点短时客流预测方法。

背景技术

短时客流预测已经成为优化公交运营调度，建立弹性发车时刻表，提高公交服务水平的重要决策依据。目前，常见的短时客流预测方法主要有三类：线性方法、非线性方法和组合方法。线性方法主要是以时间序列、线性回归为主，这类方法构造简单，但是这类方法对于相对平稳的客流变化情况，预测结果较为准确，一旦客流发生较大波动，预测精度就会出现较大偏离。非线性方法主要有人工神经网络、支持向量机，这类方法能较好的适应复杂变化的短时客流变化情况，但是通常需要较为复杂并且耗时的算法训练，当遇到大规模多站点短时客流预测需求时则效率降低，并且普适性较低。为了弥补线性和非线性方法的不足，一些研究者将多个线性或非线性方法组合后，进行短时客流预测。组合方法对于提高预测精度和适应性具有一定优势，但是构造过程相对较为复杂，并没有考虑在实际企业运营中需要对上千个站点或者上百条线路同时进行短时客流预测的需求。

发明专利“基于IC卡记录的公交站间OD客流预测方法及装置”(申请号：201110136063.6)通过数据处理中心实时获取各公交站点的公交IC卡刷卡数据，对数据分类修正后，结合历史客流数据对下一时段的公交OD客流进行预测。该方法使用IC卡数据，由于部分乘客使用现金，特别是现在大量乘客使用手机支付，导致IC卡交易记录不能的涵盖所有乘客统计信息，另外通过IC卡获取完整OD记录一般适用于分段计费的公交车上，通过乘客下车后形成完整的交易记录获取乘客出行OD，在一票制的情况下推算乘客出行OD需要更为复杂的算法。因此，不论哪种方式实时性都难以得到保障。实时性和统计样本不足，对客流预测精度会产生较大影响。

发明专利申请“一种公交短时客流的预测方法”(申请号201410797092.0)同样也是采用公交IC卡数据按照预设的时间间隔进行聚合，以周、日和时间间隔为尺度建立相应的时间序列进行客流预测，根据单一时间序列模型的预测结果，利用卡尔曼滤波机交互多模型算法建立混合模型对单一模型预测结果进行修正，提高预测精度，该模型采用IC卡交易数据仍然存在客流覆盖不完善，统计样本的不足会导致预测精度与实际有较大偏差，另外，根据公交企业的实际运行状况，IC卡数据极少有实时回传到企业数据中心，因此实时进行客流预测的难度较大。发明专利“一种短时公交客流弦不变量预测方法”(申请号201810139745.4)提出一种基于弦理论的短时公交客流预测方法，通过模拟弦结构建立弦不变量客流预测模型，通过对客流时间序列进行聚类分析后，然后使用弦不变量模型基于聚类后的数据进行预测。具体实施方法是对一天一条线路的客流总量进行分时预测，存在的问题在于线路总客流在各个时间段内变化相对稳定，对整个线路客流总数进行统计会消除不同站点客流波动情况，尽管提高了精度，但是无法真实的反应线路上不同站点的波动情况，降低对实际业务的应用支撑价值。发明专利“一种基于Holt-Winters模型的公交客流预测方法”(申请号201410424175.5)采用公交车GPS数据、公交站点位置信息和公交IC卡刷卡数据对站点客流量进行统计，并以10分钟间隔进行排序，结合历史数据，建立Holt-Winters模型对未来客流变化情况进行预测。发明专利“一种公交线路客流预测的方法”(申请号201511020078.0)采用IC数据并结合天气等因素构建多元线性回归方法模型进行公交线路客流预测。另外，由于轨道交通和公交的客流统计方式有较大不同，因此适用于轨道交通的模式，不一定适用于公交客流预测。综上，目前已检索到的相关专利申请主要采用的是IC卡数据作为预测基础，其采样覆盖度、实时性等因素不能满足支撑企业运行的需求。

发明内容

根据上述提出现有技术采样覆盖度低、实时性差的技术问题，而提供一种基于实时统计数据的公交站点短时客流预测方法。本方法将线性方法和非线性方法有机组合在一起，构造分层混合预测算法，对客流统计序列的线性时序特征和非线性变化特征进行综合处理，提高算法预测精度，同时提供在大数据环境下的并发算法，满足面对多站点大规模客流统计数据的短时预测需求。

本发明采用的技术手段如下：

一种基于实时统计数据的公交站点短时客流预测方法，包括：将客流时间序列分解为线性趋势部分与非线性特征部分；使用时间序列模型对客流时间序列的线性趋势部分进行预测；利用深度信念网络对客流时间序列非线性特征部分进行预测；利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型；基于所述组合预测模型各单一时间尺度客流时间序列预测结果，利用改进极限学习机算法建立混合关系预测模型；利用所述混合关系预测模型预测短时客流变化。

较现有技术相比，本发明具有以下优点：

1、本发明所述基于实时统计数据的公交站点短时客流预测方法，综合分析客流统计数据线性特性和非线性特性，有效提高站点客流预测精度。

2、本发明所述基于实时统计数据的公交站点短时客流预测方法，分析同一站点不同时间尺度下客流统计数据间的关联关系，借助历史客流统计数据，有效提高短时客流预测精度。

基于上述理由本发明可在智能交通等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法基本流程图

图2是本发明方法结构图。

图3a是实施例中第一个工作日7：30—9：30公交上车客流预测结果。

图3b是实施例中第二个工作日7：30—9：30公交上车客流预测结果。

图3c是实施例中第三个工作日7：30—9：30公交上车客流预测结果。

图4a是实施例中第一个非工作日7：30—9：30公交上车客流预测结果。

图4b是实施例中第二个非工作日7：30—9：30公交上车客流预测结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种基于实时统计数据的公交站点短时客流预测方法，包括：将客流时间序列分解为线性趋势部分与非线性特征部分；使用时间序列模型对客流时间序列的线性趋势部分进行预测；利用深度信念网络对客流时间序列非线性特征部分进行预测；利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型；基于所述组合预测模型各单一时间尺度客流时间序列预测结果，利用改进极限学习机算法建立混合关系预测模型；利用所述混合关系预测模型预测短时客流变化。

进一步作为本发明的优选，所述客流时间序列为按照等时间间隔聚合后的原始客流统计数据。所述客流时间序列包括站点编号、聚合时间区间以及聚合时间区间内原始客流统计数据之和。

进一步作为本发明的优选，所述使用时间序列模型对客流时间序列的线性趋势部分进行预测，包括：

S1.对客流时间序列进行平稳性检验，若不平稳，对客流时间序列进行差分分析，并再次检验差分分析后时间序列的平稳性；

S2.校验客流时间序列自相关函数和偏自相关函数的拖尾和截尾特性，确定客流时间序列模型参数p和q的取值区间；

S3.根据客流时间序列的时变特性，对平稳时间序列建立时间序列模型；

S4.根据时间序列模型拟合度检验确定客流时间序列模型参数p和q的值；

S5.利用不同时间尺度的客流时间序列数据进行客流预测，输出不同时间尺度下的预测结果序列。

进一步作为本发明的优选，所述利用深度信念网络对客流时间序列非线性特征部分进行预测，包括利用深度信念网络对客流残差序列进行预测；所述客流残差序列基于客流的实测值以及客流时间序列的线性趋势部分预测结果的残差分析得到。

进一步作为本发明的优选，所述利用深度信念网络对客流残差序列进行预测，包括：

S1.基于客流时间序列数据特点和实际需求，确定深度信念网络隐含层的层数；

S2.对客流时间序列进行主成分分析，基于主成分数量确定深度信念网络输入层维度，并基于客流预测的实际需求，确定深度信念网络的输出层维度；

S3.基于受限玻尔兹曼机可视层和隐含层节点间的关系确定深度信念网络隐层神经元数目；

S4.进行各单一时间尺度的客流时间序列数据残差预测。

进一步作为本发明的优选，所述利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型，包括：

S1.新增一个隐层神经元；

S2.基于神经网络现有隐层神经元的输入权和偏置，采用横向平均传播法动态确定新增隐层神经元的输入权和偏置；

S3.基于增量极限学习机算法特点，计算新增隐层神经元的输出权值；

S4.判断新增隐层神经元后神经网络网络的输出误差及隐层神经元数量满足阈值要求，满足要求停止循环，否则跳转到S1继续循环。

下面通过具体的应用实例对本发明的方案做进一步说明。

如图1所示，本发明执行时主要包括数据准备步骤和数据分析及预测步骤。

其中，数据准备步骤主要利用安装在公交车的上下车门处的客流统计仪，通过识别乘客上下车行为进行客流统计。针对运营线路A上某一站点a_j的客流统计序列与该线路运营车辆通过并在该站点停靠的车辆序列有关。

定义线路A上的运营车辆停靠线路站点a_j的序列为BUS＝{busID_i,i＝1,2,…,n},(1)

其中，busID₁为当日线路A运营开始第一趟在线路站点a_j停靠的车辆，busID_n为当日线路A运营结束最后一趟在线路站点a_j停靠的车辆。

车载客流统计仪在车辆停靠站点进行上下客数量统计，在车辆驶离车站后将站点上下客统计数据上传到企业运营中心的数据库中。因此，可以将站点a_j一日内的客流统计序列定义为一个有序数列

其中，定义

其中，stopID是站点编码，t_i是运营车辆busID_i离开站点后上传客流统计数据的时间，count为公交车busID_i在站点stopID停靠上下车人数的统计值。

由于受到发车间隔、前序靠站时间以及路况等多种因素影响，导致车辆到站时间不固定，到站间隔也不固定，直接使用原始上传的客流统计数据构造统计序列难以发现客流变化规律，将原始客流统计数据按照等时间间隔进行聚合，定义聚合时间间隔为

time_interval＝{time_interval|time_interval∈(1min,2min,…,60min)}. (4)

由于是进行短时客流预测，最长时间间隔不超过1小时，并且综合考虑不同线路车辆发车间隔，平均到站时间等因素，根据具体线路选择5分钟、15分钟、30分钟作为聚合时间间隔。

根据聚合时间间隔，以及始发车到站时间(始发车到站时间与线路发车时刻表相关)，由于早班始发车发车时间固定，并且线路途经道路状况可控，到达中间站的时间也相对稳定，可以设置一个固定时间锚点则一日内客流统计的时间间隔采样序列可以定义为：

则

其中，为该线路末班车驶离站点stopID的时间，可以选择上传客流统计的时间，公式(6)计算结果向上取整，得到最后一个聚合间隔的时间点。

数据按照等间隔聚合后形成新的客流统计序列，定义为

其中，定义为如下三元组

其中，time_k为聚合的时间区间，tcount为聚合时间区间内原始客流统计数据之和，计算公式如下：

time_q＜time₁+q*time_interval， (10)

time_p≥time₁+p*time_interval. (11)

如图2所示，数据分析及预测阶段主要包含以下步骤：

(1)检验时间序列数据的平稳性，基于时间序列的时变特征建立时间序列预测模型，分别对t时刻的客流统计数据使用线性方法进行初步预测，得到客流初步预测序列其中L为线性预测方法标识。具体包括：

S1.时间序列平稳性检验。对时间序列进行ADF(Augmented Dickey-Fuller)检验，验证其平稳性，如果不平稳，对时间序列进行差分分析，再次采用ADF检验其平稳性。进行时间序列平稳性检验主要为了确定没有随机趋势或确定趋势，否则将会产生“伪回归”问题。即避免了部分数据的高度相关仅仅是因为二者同时随时间有向上或向下的变动趋势，并没有真正联系，而造成的数据中趋势项，季节项等无法消除，从而在残差分析中无法准确进行分析。

S2.校验时间序列自相关函数(ACF)和偏自相关函数(PACF)的拖尾和截尾特性，确定时间序列模型参数p和q的取值区间，其中p为自回归项，q为偏自回归项；

S3.根据时间序列的时变特性，对平稳时间序列建立时间序列模型，时间序列模型包括AR(p)模型(自回归模型)、MA(q)模型(移动平均模型)、ARMA(p,q)模型以及d次差分的ARIMA(p,d,q)模型。具体地，

AR(p)模型：

MA(q)模型：

ARMA(p,q)模型：

ARIMA(p,d,q)模型：

其中B为后移算子，d为差分阶数，为p阶AR算子，θ_q为q阶MA算子，{e_t}为均值为零的白噪声序列，ε_t为误差项。

S4.使用AIC(Akaike Info Criterion，赤池信息准则)、SC(Schwarz Criterion，施瓦茨准则)和HQC(Hannan-Quinn Criterion，汉南-奎因准则)信息准则检验时间序列模型拟合度，从而确定滞后阶数p和q的值。

S5.利用不同时间尺度的时间序列数据进行客流预测，输出不同时间尺度下的预测结果序列。

(2)基于客流统计序列的实测值，分别对初步预测结果进行差分分析，获取客流残差序列/>针对客流时间序列预测问题，将其分解为线性和非线性两部分分析，使用时间序列模型分析客流时间序列的线性趋势变化，并基于客流实测值，分析客流残差非线性变化，E_t＝X_t-X_t,L。

(3)基于单一时间尺度的客流残差序列利用深度信念网络，建立残差序列预测模型，预测残差序列的变化情况，得到残差预测序列/>其中NL为非线性预测方法标识。具体包括：

S1.基于时间序列客流数据特点和实际需求，确定深度信念网络隐含层的层数n；

S2.时间序列主成分分析，基于主成分数量确定深度信念网络输入层维度v₀，并给予客流预测的实际需求，确定深度信念网络的输出层维度为m_n+1；

S3.基于受限玻尔兹曼机(RBM)可视层v_i和隐含层节点h_i间的关系，确定深度信念网络隐层神经元数目，其中h_i∈[0.5v_i,1.5v_i]；

S4.单一时间尺度的时间序列数据残差预测。

(4)分析客流初步预测序列和客流残差预测序列/>改进极限学习机算法，建立初步预测结果和残差序列预测结果的组合预测模型，将/>和有机组合在一起。

(5)基于各单一时间尺度时间序列预测结果，利用改进极限学习机建立混合关系预测模型。步骤(4)-步骤(5)均使用改进极限学习机进行预测，包括以下步骤：

S1.新增一个隐层神经元，即为L＝L+1；

新增隐层神经元的输入权：

新增隐层神经元的偏置：

其中，ω_k,L+1为神经网络第k个输入层神经元到第L+1个隐层神经元的连接权，h_L+1为第L+1个隐层神经元的输出矩阵，β_L+1为第L+1个隐层神经元的连接权。

S3.基于增量极限学习机算法特点，计算新增隐层神经元的输出权值，

e_L为增加隐层神经元前神经网络的输出误差，H_L+1为新增第L+1个隐层神经元的输出矩阵；

S4.新增隐层神经元后神经网络网络的输出误差为e_L+1＝e_L-β_L+1‖H_L+1‖，对于给定的阀值L_max和ε，如果L<L_max&&‖e_L+1‖<ε，则跳转到S1继续循环。

(6)利用所属预测模型预测短时客流变化。

实施例1

下面对本发明的实施例作详细说明，本实施例以发明技术方案为前提，给出了详细的实施方法和具体操作过程，但本发明的保护范围不限于下述的实施例。

选取大连市28路公交车第7站2018年10月1日至2019年3月31日上午7:30—9:30时段内公交上车客流为本发明实施例。以5分钟为时间间隔聚合公交上车客流，每日可获得24个数据样本，整个时间周期内共4464条数据样本。利用上述步骤(1)—(6)进行公交站点上车客流预测。首先构建工作日内同一时刻、非工作日同一时刻和每周同一天同一时刻三个时间序列，分析数据在不同时间统计维度上的时变特性。根据时间序列数据的特性，经过单位根检验、模型参数选择和滞后阶数选择，建立满足本次实施例数据需求的时间序列模型，ARIMA(2,1,2)；对时间序列模型ARIMA(2,1,2)的输出结果序列进行差分分析，获取残差序列；基于残差序列数据，进行主成分分析，确定深度信念网络的输入层维度v₀＝15，并基于实际需求确定深度信念网络的输出层维度m_n+1＝1，基于受限玻尔兹曼机(RBM)可视层v_i和隐含层节点h_i间的关系，h_i∈[0.5v_i,1.5v_i]，经试验分析，选取h_i＝1.2v_i确定隐含层神经节点数量h_i＝18，隐含层数量n＝4；最后基于反复试验和经验积累，选取改进极限学习机神经网络的阀值L_max＝25，ε＝10(MSE误差)；最后利用改进极限学习机神经网络对客流进行精确预测。

图3a-3c和图4a-4b展示了2019年3月某一周工作日和非工作日的7：30—9：30公交上车客流预测结果，并与ARIMA(2,1,2)、ARIMA(2,1,1)、ELM、TS-ANN和SLMBP方法的预测结果进行比较。

为了更好地说明本发明方法在预测精度上的优势，采取均方误差(MSE)和平均绝对百分误差(MAPE)对预测结果进行评价，并与ARIMA(2,1,2)、ARIMA(2,1,1)、ELM、TS-ANN和SLMBP方法的预测结果进行比较(见表1、表2)。

比较结果表明，本发明提出的方法在预测精度上优于传统预测方法。

表1MAPE误差比较

表2MSE误差比较

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于实时统计数据的公交站点短时客流预测方法，其特征在于，包括：

将客流时间序列分解为线性趋势部分与非线性特征部分；

使用时间序列模型对客流时间序列的线性趋势部分进行预测；

利用深度信念网络对客流时间序列非线性特征部分进行预测，包括利用深度信念网络对客流残差序列进行预测，所述客流残差序列是基于客流的实测值以及客流时间序列的线性趋势部分预测结果的残差分析得到，具体包括：

S301.基于客流时间序列数据特点和实际需求，确定深度信念网络隐含层的层数，

S302.对客流时间序列进行主成分分析，基于主成分数量确定深度信念网络输入层维度，并基于客流预测的实际需求，确定深度信念网络的输出层维度，

S303.基于受限玻尔兹曼机可视层和隐含层节点间的关系确定深度信念网络隐层神经元数目，

S304.进行各单一时间尺度的客流时间序列数据残差预测；

利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型；

基于所述组合预测模型各单一时间尺度客流时间序列预测结果，利用改进极限学习机算法建立混合关系预测模型；

利用所述混合关系预测模型预测短时客流变化。

2.根据权利要求1所述的基于实时统计数据的公交站点短时客流预测方法，其特征在于，所述客流时间序列为按照等时间间隔聚合后的原始客流统计数据。

3.根据权利要求2所述的基于实时统计数据的公交站点短时客流预测方法，其特征在于，所述客流时间序列包括站点编号、聚合时间区间以及聚合时间区间内原始客流统计数据之和。

4.根据权利要求1所述的基于实时统计数据的公交站点短时客流预测方法，其特征在于，使用时间序列模型对客流时间序列的线性趋势部分进行预测，包括：

S201.对客流时间序列进行平稳性检验，若序列不平稳，对客流时间序列进行差分分析，并再次检验差分分析后时间序列的平稳性；

S202.校验客流时间序列自相关函数和偏自相关函数的拖尾和截尾特性，确定客流时间序列模型参数p和q的取值区间，其中p为自回归项，q为偏自回归项；

S203.根据客流时间序列的时变特性，对平稳时间序列建立时间序列模型；

S204.根据时间序列模型拟合度检验确定客流时间序列模型参数p和q的值；

S205.利用不同时间尺度的客流时间序列数据分别进行客流预测，输出不同时间尺度下的预测结果序列。

5.根据权利要求1所述的基于实时统计数据的公交站点短时客流预测方法，其特征在于，所述利用改进极限学习机算法建立基于客流时间序列的线性趋势部分预测结果以及客流时间序列非线性特征部分预测结果的组合预测模型，包括：

S401.新增一个隐层神经元；

S402.基于神经网络现有隐层神经元的输入权和偏置，采用横向平均传播法动态确定新增隐层神经元的输入权和偏置；

S403.基于增量极限学习机算法特点，计算新增隐层神经元的输出权值；

S404.判断新增隐层神经元后神经网络的输出误差及隐层神经元数量满足阈值要求，满足要求结束循环，否则跳转到S401继续循环。