CN106951976A - 一种基于模式分类的公交客流预测方法 - Google Patents
一种基于模式分类的公交客流预测方法 Download PDFInfo
- Publication number
- CN106951976A CN106951976A CN201610892640.7A CN201610892640A CN106951976A CN 106951976 A CN106951976 A CN 106951976A CN 201610892640 A CN201610892640 A CN 201610892640A CN 106951976 A CN106951976 A CN 106951976A
- Authority
- CN
- China
- Prior art keywords
- factor
- influence
- passenger flow
- value
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 230000035945 sensitivity Effects 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 46
- 230000000694 effects Effects 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000010206 sensitivity analysis Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims description 2
- 230000001932 seasonal effect Effects 0.000 abstract description 4
- 238000013139 quantization Methods 0.000 abstract description 3
- 239000007787 solid Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012731 temporal analysis Methods 0.000 description 2
- 238000000700 time series analysis Methods 0.000 description 2
- 235000010082 Averrhoa carambola Nutrition 0.000 description 1
- 240000006063 Averrhoa carambola Species 0.000 description 1
- 241001252564 Chrysopsis Species 0.000 description 1
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 1
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于模式分类的公交客流预测方法。该方法包括以下步骤:日期属性量化矩阵建立;影响因素与客流量之间的相关性与敏感性评价;通过特征工程处理,获取加权日期属性量化矩阵;进一步根据目标日期的属性,在矩阵中进行Shepard插值预测。本发明对影响公交客流因素进行模式分类,能有效反映客流量时段性和季节性变化,实现了公交客流的高精度和鲁棒性预测,相比传统的公交客流预测方法,本发明方法有更高的预测精度的较强的鲁棒性,且参数依赖性较小,为公交车辆运力配置和运营调度奠定了坚实的数据基础。
Description
技术领域
本发明涉及公交运营调度,特别是涉及一种基于模式分类的公交客流预测方法。
背景技术
准确及时的公交车辆调度是公交系统运行效率的保证,公交线网规划和运营调度的首要技术参数是运力规模的配置,而运力配置又取决于客流量的大小,其精确性和可靠性将对公交线网规划和运行调度的决策造成很大影响。公交客流信息对调度的有效性会产生显著影响,尤其在公交网络调度过程中,一条线路客流量变化引起的车辆运行延误可能传播到其他线路甚至引起“级联失效”的现象,因此,准确的客流预测是公交车辆运营计划制定和车辆调度工作重要的决策依据。此外,面向中长期的公交线网规划涉及到基础设施的投资和建设,一旦成型就不可随意改变,例如包括线路、枢纽场站规划,购车计划等的线网规划,其规划的基础数据也是公交客流需求,而客流需求往往呈现随时段和季节性的波动,因此要求公交客流预测能够反映未来交通量的不确定性。
对于公交客流预测问题,目前研究所使用的预测方法主要集中在统计学预测方法和机器学习预测方法使用的方法,主要分为如下几类:时间序列分析、统计预测、神经网络、支持向量机。传统的统计学预测方法如时间序列分析何统计预测方法单纯从数据统计的角度分析客流规律,进而进行统计预测,预测质量很大程度上依赖统计数据质量,因而此类方法精度不高,可靠性低。传统的机器学习预测方法,如神经网络和支持向量机,提高了预测精度与可靠性,但均具有模型复杂,参数依赖性大,对训练数据质量依赖性高等缺陷。
现实生活中影响公交客流的因素众多且复杂,如:日期的工作日性质,学时性质,节假日,天气等因素。这些因素的存在为公交客流预测带来了很大的不确定性。然而,传统方法都未将影响公交客流的各种因素进行有效划分,未能在模式分类的基础上进行系统有效的综合,因而限制了预测精度的提升。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供一种基于模式分类的公交客流预测方法,具体技术方案如下。
一种基于模式分类的公交客流预测方法,其包括如下步骤:第一步提取日期与客流相关的属性,将其量化并归一化处理,建立针对日期的多维属性矩阵;第二步评价每个属性与客流之间的相关性与敏感性,提取有效预测的维度,并对每个有效维度赋权;第三步在预处理后的属性矩阵中,在历史数据的基础上,对目标日期的时段客流利用Shepard插值预测算法进行预测。
第一步中,一个时段的公交客流量受多种因素的影响,包括日期、工作日、节假日、学时性质、天气、气温等因素。为此,本发明利用特征工程的概念,将研究对象的特征量化抽象为多维矢量,经过标准化处理去除量纲效应,再经过相关性检验,保留相关性显著的影响因子,并根据敏感性分析结果确定此影响因子对日期属性向量相异度的贡献(此过程将会在后文详述),建立日期属性矩阵,以此作为Shepard插值预测算法的数据基础。公交客流预测的影响因素经过特征工程处理后,可得相应日期属性的多维向量,日期属性向量之间距离越短则公交客流数越相近。经过特征工程处理,客流预测问题转化为多维属性空间中,数据点的插值问题,适用Shepard插值算法。
进一步地,第二步中,设在收集的影响因子及其对应的客流量的数据集B中,
一共有n条数据记录,m个影响因子。
设影响因子序列为Aj=[a1j;a2j;...;aij;...;anj](j表示第j个影响因子,aij表示第i个历史数据的第j个影响因子的量化值),
影响因子向量为xi=[ai1,ai2,...,aji,...aim],xi对应的客流量为yi(其中i表示第i个样本)
客流量序列为Y=[y1;y2;...;yi;...;yn]
则影响因子-客流量矩阵为:
其中Aj为B中的第j列,Y为B中的第m+1列,[xi,yi]为B中的第i行。
设表示由m个影响因子组成的m维数据空间,则满足
令第j个影响因子序列Aj与目标值序列Y的相关系数为rj,依次评估候选影响因素与目标值的相关系数并获得相关系数向量R=[r1;r2;...;rj;...;rm],若rj为正,则第j个影响因素在相应时段与目标值正相关,否则负相关。显然,|rj|越大,该因素对目标值的影响越大。根据相关性理论经验值,当|rj|>0.3时,则认为该因子与该时段客流是相关的,否则是不相关的,需要剔除此影响因子。
Shepard预测的基本思想是,根据此次预测值的影响因子x,利用历史n个已知点在空间中内插本次预测值,使得评价函数E最小。
其中
其中为预测值,x为其对应的影响因子序列,di(x,xi)为x与xi之间的欧式距离,wi为yi对的插值权重,b为Shepard模型参数,表示影响因子向量之间的距离对目标值的影响程度大小,一般为大于1的常数,b值越大则距离插值点越近的已知点的插值权重越大。建立Shepard模型的关键在于根据历史数据确定模型参数b的最优值,b值过低则拟合平面平坦,插值精度不足,b值过高则拟合平面粗糙,出现过拟合现象。
对式(1)求导并令其为0,解得最优为:
对于b值,可以利用历史样本进行交叉验证的方法,寻求最优b值。本发明以最小平均绝对误差为目标,建立下式求取最优b值。b值一般为大于1的实数,而随着b值的增加,距离插值点远的点对目标点的插值权重越低,距离目标差值近的点对目标点的插值权重越高,超过一定数值会导致远距离的已知点对目标点的插值权重过低,最终会出现插值点的值无限接近最近点的值的过拟合现象。本发明根据经验确定b的取值范围。
式中,MAE(b)为某一b值下,参与交叉验证的点的预测结果与实际值的最小平均绝对误差, yi是第i个历史样本的实际值,为历史样本对应影响因子序列xi插值计算所得的预测值。式(5)可利用快速遗传算法求解。
第三步中,Shepard算法需计算不同x之间的差异性(欧氏距离),以此分配插值权重。但是不同影响因子对x之间差异性的贡献程度是不同的,如工作日性质在早晚高峰时段对于客流的影响,远大于极端天气在相同时段对客流的影响,但在不同x之间的距离计算时却不能反映出此类差异。
本文利用敏感性分析方法确定每个影响因子的权重。然后利用加权欧氏距离评估不同x 之间的差异性。计算第m个影响因子的权重,首先保持其他m-1个影响因子的值不变,遍历第m个影响因子的取值am并计算目标值y的变动幅度Δy和am值的变动幅度Δam,则敏感系数γm=Δy/Δam。γj的实际意义为影响因子序列Aj的变动能引起客流值变化的幅度。进而求得各影响因子的权值序列V=[γ1;γ2;...;γj;...;γm]。
通过以上步骤求得每个日期对应时段的加权后的影响因子序列,进而利用Shepard算法进行客流预测。因此公式(3)修改为
与传统方法相比,通过对影响公交客流的相关性因素进行模式识别和分类而建立的客流预测模型更具有科学合理性,本发明从公交系统元素的特性出发,通过分析公交客流的影响因素、内部要素和层次性等内容,提出了一种基于模式分类的公交客流预测方法,综合考虑了影响公交客流的各种因素,实现了对公交系统特征的准确识别和捕获,与传统的客流预测方法相比,该发明的预测方法具有精度高,参数依赖性小的优点。
附图说明
图1为实例中客流预测模型流程图。
图2a~图2e为各属性与客流之间的相关性及其权重示例图。
图3a和图3b为实例中典型工作日与节假日的预测流量对比图。
图4为实例中218路公交线路空间示意图。
具体实施方式
以下结合附图和实例对本发明的具体实施作进一步说明,但本发明的实施和保护不限于此。
1基于Shepard算法的公交客流预测模型构建
本发明算法主要的思路是:第一步提取日期与客流相关的属性,将其量化并归一化处理,建立针对日期的多维属性矩阵;第二步评价每个属性与客流之间的相关性与敏感性,提取有效预测的维度,并对每个有效维度赋权;第三步在预处理后的属性矩阵中,在历史数据的基础上,对目标日期的时段客流利用Shepard插值预测算法进行预测;最后进行预测结果质量评估。
1.1Shepard插值算法
公交客流与其影响因子之间是复杂的非线性关系,现实中很难用精确的数学函数来描述其内在的数量关系。而历史的客流数据是这个函数模型中离散的观测数据,并且影响因子越相近则客流值越相近。基于插值预测理论[李庆杨,王能超,易大义.数值分析[M].2001:21-22],本发明提出基于Shepard插值模型的客流预测方法。
Shepard算法,即全局距离加权近邻算法(IDW Inverse Distance Weighted),此算法是一种相似预测法,基于相近相似的原理,即两个对象影响因子相近,则影响因子对应的目标值相近,反之,影响因子相似性越小,相应的目标值相差越大。在客流预测问题中,日期属性之间的相似性越高,则客流状态越相近。此预测算法以预测点与历史点之间的日期属性相似性为权重进行加权平均插值,与预测点越相似则赋予的权重越大。
Shepard算法使用条件有两条:1.预测因子与目标值之间的相关性在统计上是显著的。 2.预测因子与目标值之间的历史样本集应具有足够的代表性。上述两条件可通过历史客流数据与影响因子之间的相关性检验验证。通过对历史客流预测方法的研究,可见客流与影响因子之间具有统计上的相关性,本发明通过计算影响因子与历史客流之间的相关系数进行评定。基于客流统计与现代化公交信息环境,可以收集长时间跨度,细时间粒度,特定线路的客流历史信息。
一个时段的公交客流量受多种因素的影响,包括日期、工作日、节假日、学时性质、天气、气温等因素。为此,本发明利用特征工程的概念,将研究对象的特征量化抽象为多维矢量,经过标准化处理去除量纲效应,再经过相关性检验,保留相关性显著的影响因子,并根据敏感性分析结果确定此影响因子对日期属性向量相异度的贡献(此过程将会在后文详述), 建立日期属性矩阵,以此作为Shepard插值预测算法的数据基础。公交客流预测的影响因素经过特征工程处理后,可得相应日期属性的多维向量,日期属性向量之间距离越短则公交客流数越相近。经过特征工程处理,客流预测问题转化为多维属性空间中,数据点的插值问题,适用Shepard插值算法。
设在收集的影响因子及其对应的客流量的数据集B中,一共有n条数据记录,m个影响因子。
设影响因子为Aj=[a1j,a2j,...,aij,...anj](j表示第j个影响因子,aij表示第i个历史数据的第j个影响因子的量化值);影响因子序列为xi=[ai1,ai2,...,aji,...aim],xi对应的客流量为yi (其中i表示第i个样本);客流量序列为Y=[y1,y2,...,yi,...yn]
则影响因子-客流量矩阵为:
设表示由m个影响因子组成的m维数据空间,则满足
令第j个影响因子序列Aj与目标值序列Y的相关系数为rj,依次评估候选影响因素与目标值的相关系数并获得相关系数向量R=(r1,r2,...,rj,...,rm),若rj为正,则第j个影响因素在相应时段与目标值正相关,否则负相关。显然,|rj|越大,该因素对目标值的影响越大。根据相关性理论经验值,当|rj|>0.3时,则认为该因子与该时段客流是相关的,否则是不相关的,需要剔除此影响因子。
Shepard预测的基本思想是,根据此次预测值的影响因子x,利用历史n个已知点在空间中内插本次预测值,使得评价函数E最小。
其中
其中为预测值,x为其对应的影响因子序列,di(x,xi)为x与xi之间的欧式距离,wi为yi对的插值权重,b为Shepard模型参数,表示影响因子向量之间的距离对目标值的影响程度大小,一般为大于1的常数,b值越大则距离插值点越近的已知点的插值权重越大。建立Shepard模型的关键在于根据历史数据确定模型参数b的最优值,b值过低则拟合平面平坦,插值精度不足,b值过高则拟合平面粗糙,出现过拟合现象。
对式(1)求导并令其为0,解得最优为:
对于b值,可以利用历史样本进行交叉验证的方法,寻求最优b值。本发明以最小平均绝对误差为目标,建立下式求取最优b值。b值一般为大于1的实数,而随着b值的增加,距离插值点远的点对目标点的插值权重越低,距离目标差值近的点对目标点的插值权重越高,超过一定数值会导致远距离的已知点对目标点的插值权重过低,最终会出现插值点的值无限接近最近点的值的过拟合现象。本发明根据经验确定b的取值范围。
式中,MAE(b)为某一b值下,参与交叉验证的点的预测结果与实际值的最小平均绝对误差,yi是第i个历史样本的实际值,为历史样本对应影响因子序列xi插值计算所得的预测值。式(5)可利用快速遗传算法求解。
1.2对Shepard插值算法的改进
Shepard算法需计算不同x之间的差异性(欧氏距离),以此分配插值权重。但是不同影响因子对x之间差异性的贡献程度是不同的,如工作日性质在早晚高峰时段对于客流的影响,远大于极端天气在相同时段对客流的影响,但在不同x之间的距离计算时却不能反映出此类差异。
本发明利用敏感性分析方法确定每个影响因子的权重。然后利用加权欧氏距离评估不同 x之间的差异性。计算第m个影响因子的权重,首先保持其他m-1个影响因子的值不变,遍历第m个影响因子的取值am并计算目标值y的变动幅度Δy和am值的变动幅度Δam,则敏感系数γm=Δy/Δam。γj的实际意义为影响因子Aj的变动能引起客流值变化的幅度。进而求得各影响因子的权值序列V=[γ1,γ2,...,γj,...γm]。
通过以上步骤求得每个日期对应时段的加权后的影响因子序列,进而利用Shepard算法进行客流预测。因此公式(3)修改为
1.3预测误差指标
设真实数据为yi,预测值为利用以下四个指标进行预测结果评估。
1)平均绝对误差(Mean Absolute Error,MAE)
平均绝对误差表示预测值的总体平均偏离程度。
2)均方误差(Mean Square Error,MSE)
均方误差表示预测总体的可靠性
3)平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)
平均绝对百分比误差表示相对的平均偏离程度
4)均方百分比误差(Mean Square Percentage Error,MSP)
均方百分比误差表示相对的可靠性程度。
2应用实例
为验证本发明提出的算法,选取广州市218路2014年8月1日至2014年12月31日每天6点至22点每一小时时段的线路客流统计数据为例,利用所提出的模型,提取并预测2014年12月24日至2014年12月31日的分时段客流。如图4,218线路是广州市区主要线路之一,两端终点站为杨桃公园总站与中科院化学所总站。线路经过广州市天河区中心城区,沿途经过众多居民区,四个高等院校及数个中小学,是市民出行的热点线路,客流组成复杂,客流影响因素众多。
客流受季节影响较大,所以第一个属性因子按照月份为日期属性赋值,赋值为一年中的第几个月,用a1表示;工作/节假日是影响客流量和客流分布规律的一大因素,将工作日属性赋值为0,假日属性赋值为1,用a2表示;学时性质(包括寒暑假)对于学生及教职工客流有较大的影响,上学日取值为0;学生放假日取值为1,用a3表示;气温对客流的时间分布和非刚需客流的客流量有一定的影响,根据相关文献及广州实地情况,将气温分为低温,常温和炎热三个级别,日均温15℃以下取值0,15℃至25℃取值1,25℃以上取值3,用a4表示。极端天气对非刚需客流量和客流的时间分布有一定的影响,将当日大到暴雨等极端天气赋值为1,其余时间赋值为0,用a5表示。最终,日期属性向量确定为:(a1,a2,a3,a4,a5)
为消除量纲对属性值的影响,首先对各个属性值进行标准化处理,表1为部分日期标准化后的量化属性值示例:
表1日期量化属性值
由于出行目的多样性和客流结构的复杂性,各个影响因子对特定的线路的影响程度是不同的。通过计算分时段(这里按一小时为最小时段)的相关性矩阵,绘制图2。图中虚线表示相关性阈值,相关性大于此阈值则认为此影响因子与客流之间的相关性是显著的,否则不显著。从图中可以看出,季节性的客流波动主要集中在午平峰和晚平峰时段;工作日性质和学时性质对于早晚高峰的影响权重较大,且早高峰高于晚高峰,对于午间客流也有一定的影响,总体来说工作日性质的影响大于学时性质的影响;气温对于午平峰时段的客流有较大影响;对于此条特定线路,极端天气对于客流的影响可以忽略。
综上,根据本发明所提算法,将量化的影响因素权重加于影响因子序列中,并将加权后的影响因子序列代入Shepard模型对目标日期进行插值预测。利用文献[金菊良,魏一鸣,丁晶等. 年径流预测的Shepard插值模型[J].长江科学院院报.2002,19(1):52-55.]所提出的快速遗传算法,解得最优b值为3.54。
为检验本发明所提出算法的有效性,这里同时建立了BP神经网络和支持向量机模型对线网客流量进行预测,训练数据为剔除不相关影响因子后的标注化日期属性向量及其对应的客流量。以同一数据集为基础,使用三种算法预测共同目标日期的客流量并对结果进行评价,预测结果质量评价见表3。笔者选取了某一典型工作日和某一典型节假日为例进行绘图,结果如图3所示。由图3(a)可见,由于工作日客流比较稳定,三种预测算法精度均较高,但 Shepard算法精度略高于其他两种算法。由图3(b)可见,由于假期客流数据的影响因素多且复杂,Shepard插值预测算法的精度和可靠性明显大于神经网络算法,略高于支持向量机算法。由于训练样本较小和极端数据的存在,神经网络模型和支持向量机模型易受影响从而影响预测精度,Shepard插值预测算法在加权平均过程中降低了噪音数据对预测结果的影响。神经网络模型在模型建立的过程中需要确定神经网络类型,神经网络层数,各层结点个数,激励函数,初始网络权重,迭代次数,最小误差以及其他相关训练参数。支持向量机模型也需要确定模型类型,核函数类型,gamma值,惩罚系数以及其他相关训练参数。相比于其他两种算法,Shepard插值预测算法只有一个影响拟合程度的b值,参数依赖性小,易于标定最优的预测算法模型。
综上,因为神经网络算法和支持向量机算法具有较强的参数依赖性,且训练样本的选取十分严格,相对而言Shepard插值预测算法在这两方面有明显的优势,实验结果也表明其在精度与可靠性上均优于其他两种算法。
表3不同预测算法之间的对比
公交系统是城市客运系统的重要组成部分,客流预测是公交系统调度的重要决策基础。本发明针对短时的公交线网客流进行了预测,利用Shepard插值预测算法建立了预测模型,并与传统的神经网络算法和支持向量机算法在同一数据集中进行了预测结果的对比分析。结果表明,本发明所提出的算法具有精度较高,参数依赖性小等优点,证明了模型的正确性与有效性,可以为公交调度提供近期未来任一日期任一时段准确的客流预测,为降低公交运营成本,提高服务水平提供了依据。
Claims (4)
1.一种基于模式分类的公交客流预测方法,其特征在于包括如下步骤:第一步提取日期与客流相关的属性,将其量化并归一化处理,建立针对日期的多维属性矩阵;第二步评价每个属性与客流之间的相关性与敏感性,提取有效预测的维度,并对每个有效维度赋权;第三步在预处理后的属性矩阵中,在历史数据的基础上,对目标日期的时段客流利用Shepard插值预测算法进行预测。
2.根据权利要求1所述的一种基于模式分类的公交客流预测方法,其特征在于第一步中,一个时段的公交客流量受多种因素的影响,包括日期、工作日、节假日、学时性质、天气和气温因素;利用特征工程的概念,将日期与客流相关的属性的特征量化抽象为多维矢量,经过去除量纲效应,再经过相关性检验,保留相关性显著的影响因子,并根据敏感性分析结果确定此影响因子对日期属性向量相异度的贡献,建立日期属性矩阵,以此为Shepard插值预测算法的数据基础;公交客流预测的影响因素经过特征工程处理,得相应日期属性的多维向量,日期属性向量之间距离越短则公交客流数越相近。
3.根据权利要求1所述的一种基于模式分类的公交客流预测方法,其特征在于第二步中,设在收集的影响因子及其对应的客流量的数据集B中,一共有n条数据记录,m个影响因子;
设影响因子序列为Aj=[a1j;a2j;...;aij;...;anj],j表示第j个影响因子,aij表示第i个历史数据的第j个影响因子的量化值,
影响因子向量为xi=[ai1,ai2,...,aji,...aim],xi对应的客流量为yi,其中i表示第i个样本;
客流量序列为Y=[y1;y2;...;yi;...;yn]
则影响因子-客流量矩阵为:
其中Aj为B中的第j列,Y为B中的第m+1列,[xi,yi]为B中的第i行;
设表示由m个影响因子组成的m维数据空间,则满足
令第j个影响因子序列Aj与目标值序列Y的相关系数为rj,依次评估候选影响因素与目标值的相关系数并获得相关系数向量R=(r1,r2,...,rj,...,rm),若rj为正,则第j个影响因素在相应时段与目标值正相关,否则负相关;显然,|rj|越大,该因素对目标值的影响越大;根据相关性理论经验值,当|rj|>0.3时,则认为该因子与该时段客流是相关的,否则是不相关的,需要剔除此影响因子。
4.根据权利要求1所述的一种基于模式分类的公交客流预测方法,其特征在于第三步中,根据第二步中预测值的影响因子向量xi,利用历史n个已知点在空间中内插本次预测值,使得评价函数E最小。
其中
其中为预测值,x为其对应的影响因子序列,di(x,xi)为x与xi之间的欧式距离,wi为yi对的插值权重,b为Shepard模型参数,表示影响因子向量之间的距离对目标值的影响程度大小,为大于1的常数,b值越大则距离插值点越近的已知点的插值权重越大;建立Shepard模型的关键在于根据历史数据确定模型参数b的最优值,b值过低则拟合平面平坦,插值精度不足,b值过高则拟合平面粗糙,出现过拟合现象;
对式(1)求导并令其为0,解得最优为:
对于b值,利用历史样本进行交叉验证的方法,寻求最优b值;以最小平均绝对误差为目标,建立下式求取最优b值;b值为大于1的实数,而随着b值的增加,距离插值点远的点对目标点的插值权重越低,距离目标差值近的点对目标点的插值权重越高,超过设定数值会导致远距离的已知点对目标点的插值权重过低,最终会出现插值点的值无限接近最近点的值的过拟合现象;根据经验确定b的取值范围,
式中,MAE(b)为某一b值下,参与交叉验证的点的预测结果与实际值的最小平均绝对误差,yi是第i个历史样本的实际值,为历史样本对应影响因子序列xi插值计算所得的预测值;
Shepard算法需计算不同x之间的差异性即欧氏距离,以此分配插值权重;但是不同影响因子对x之间差异性的贡献程度是不同的,在不同x之间的距离计算时不能反映出此类差异;
利用敏感性分析方法确定每个影响因子的权重;然后利用加权欧氏距离评估不同x之间的差异性;计算第m个影响因子的权重,首先保持其他m-1个影响因子的值不变,遍历第m个影响因子的取值am并计算目标值y的变动幅度Δy和am值的变动幅度Δam,则敏感系数γm=Δy/Δam;γj的实际意义为影响因子序列Aj的变动能引起客流值变化的幅度;进而求得各影响因子的权值序列V=[γ1,γ2,...,γj,...γm];
通过以上步骤求得每个日期对应时段的加权后的影响因子序列,进而利用Shepard算法进行客流预测;因此公式(3)修改为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610892640.7A CN106951976B (zh) | 2016-10-12 | 2016-10-12 | 一种基于模式分类的公交客流预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610892640.7A CN106951976B (zh) | 2016-10-12 | 2016-10-12 | 一种基于模式分类的公交客流预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106951976A true CN106951976A (zh) | 2017-07-14 |
CN106951976B CN106951976B (zh) | 2021-09-21 |
Family
ID=59465344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610892640.7A Expired - Fee Related CN106951976B (zh) | 2016-10-12 | 2016-10-12 | 一种基于模式分类的公交客流预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951976B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515842A (zh) * | 2017-07-19 | 2017-12-26 | 中南大学 | 一种城市人口密度动态预测方法及系统 |
CN108022009A (zh) * | 2017-11-30 | 2018-05-11 | 北京交通大学 | 一种关于高速铁路客流的组合预测方法 |
CN108346287A (zh) * | 2018-01-30 | 2018-07-31 | 浙江大学 | 基于影响因素分析的交通流量序列模式匹配方法 |
CN109299825A (zh) * | 2018-09-26 | 2019-02-01 | 重庆英传智能科技研究院有限公司 | 一种基于轨道交通实时客流的预测方法及预测系统 |
CN109344991A (zh) * | 2018-08-03 | 2019-02-15 | 华南理工大学 | 一种公交线路最高断面客流预测方法 |
CN109376935A (zh) * | 2018-10-31 | 2019-02-22 | 东南大学 | 一种基于神经网络的公交客流分时段组合预测方法 |
CN110020666A (zh) * | 2019-02-21 | 2019-07-16 | 华南理工大学 | 一种基于乘客行为模式的公共交通广告投放方法及系统 |
CN110459050A (zh) * | 2019-05-27 | 2019-11-15 | 华南理工大学 | 一种基于混合决策树的短期公交客流预测方法 |
CN110991492A (zh) * | 2019-11-12 | 2020-04-10 | 广西大学 | 基于层次模式识别的旅游需求预测方法及系统 |
CN111461384A (zh) * | 2019-12-10 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 对象流量预测方法、装置及设备 |
CN111860992A (zh) * | 2020-07-13 | 2020-10-30 | 上海云角信息技术有限公司 | 客流量预测方法、装置、设备及存储介质 |
CN111914395A (zh) * | 2020-06-30 | 2020-11-10 | 河海大学 | 一种基于arima-gc-svr的高拱坝谷幅变形预测分析方法 |
CN113033921A (zh) * | 2021-04-28 | 2021-06-25 | 北京市交通信息中心 | 一种基于多元逐步回归分析的公交线路客流预测方法 |
CN114819290A (zh) * | 2022-04-04 | 2022-07-29 | 南京行者易智能交通科技有限公司 | 一种基于stacking的多环境下短时公交客流预测方法 |
CN115249120A (zh) * | 2022-06-16 | 2022-10-28 | 北京轨道交通路网管理有限公司 | 设备开机计划的确定方法、装置及电子设备 |
CN117575684A (zh) * | 2024-01-15 | 2024-02-20 | 杭州路过网络有限公司 | 一种客流量预测方法及系统 |
CN117996756A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司青州市供电公司 | 基于多维影响因子的新能源发电预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034350A (zh) * | 2009-09-30 | 2011-04-27 | 北京四通智能交通系统集成有限公司 | 交通流数据短时预测方法及系统 |
WO2013128486A1 (ja) * | 2012-02-29 | 2013-09-06 | 株式会社 日立製作所 | 交通量予測システム |
CN104821082A (zh) * | 2015-04-29 | 2015-08-05 | 电子科技大学 | 一种基于综合评价的短时交通流预测方法 |
CN105512741A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种公交客流组合预测方法 |
-
2016
- 2016-10-12 CN CN201610892640.7A patent/CN106951976B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102034350A (zh) * | 2009-09-30 | 2011-04-27 | 北京四通智能交通系统集成有限公司 | 交通流数据短时预测方法及系统 |
WO2013128486A1 (ja) * | 2012-02-29 | 2013-09-06 | 株式会社 日立製作所 | 交通量予測システム |
CN105512741A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种公交客流组合预测方法 |
CN104821082A (zh) * | 2015-04-29 | 2015-08-05 | 电子科技大学 | 一种基于综合评价的短时交通流预测方法 |
Non-Patent Citations (2)
Title |
---|
上海申通地铁集团有限公司: "《上海市轨道交通9号线一期(松江新城站-宜山路站)工程设计》", 31 October 2012, 上海科学技术出版社 * |
金菊良等: "年径流预测的Shepard插值模型", 《长江科学院院报》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515842B (zh) * | 2017-07-19 | 2018-06-19 | 中南大学 | 一种城市人口密度动态预测方法及系统 |
CN107515842A (zh) * | 2017-07-19 | 2017-12-26 | 中南大学 | 一种城市人口密度动态预测方法及系统 |
CN108022009A (zh) * | 2017-11-30 | 2018-05-11 | 北京交通大学 | 一种关于高速铁路客流的组合预测方法 |
CN108022009B (zh) * | 2017-11-30 | 2021-07-02 | 北京交通大学 | 一种关于高速铁路客流的组合预测方法 |
CN108346287B (zh) * | 2018-01-30 | 2020-08-04 | 浙江大学 | 基于影响因素分析的交通流量序列模式匹配方法 |
CN108346287A (zh) * | 2018-01-30 | 2018-07-31 | 浙江大学 | 基于影响因素分析的交通流量序列模式匹配方法 |
CN109344991A (zh) * | 2018-08-03 | 2019-02-15 | 华南理工大学 | 一种公交线路最高断面客流预测方法 |
CN109344991B (zh) * | 2018-08-03 | 2022-03-29 | 华南理工大学 | 一种公交线路最高断面客流预测方法 |
CN109299825A (zh) * | 2018-09-26 | 2019-02-01 | 重庆英传智能科技研究院有限公司 | 一种基于轨道交通实时客流的预测方法及预测系统 |
CN109376935A (zh) * | 2018-10-31 | 2019-02-22 | 东南大学 | 一种基于神经网络的公交客流分时段组合预测方法 |
CN110020666A (zh) * | 2019-02-21 | 2019-07-16 | 华南理工大学 | 一种基于乘客行为模式的公共交通广告投放方法及系统 |
CN110459050A (zh) * | 2019-05-27 | 2019-11-15 | 华南理工大学 | 一种基于混合决策树的短期公交客流预测方法 |
CN110459050B (zh) * | 2019-05-27 | 2021-07-20 | 华南理工大学 | 一种基于混合决策树的短期公交客流预测方法 |
CN110991492A (zh) * | 2019-11-12 | 2020-04-10 | 广西大学 | 基于层次模式识别的旅游需求预测方法及系统 |
CN110991492B (zh) * | 2019-11-12 | 2022-07-12 | 广西大学 | 基于层次模式识别的旅游需求预测方法及系统 |
CN111461384A (zh) * | 2019-12-10 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 对象流量预测方法、装置及设备 |
CN111461384B (zh) * | 2019-12-10 | 2024-04-05 | 阿里巴巴集团控股有限公司 | 对象流量预测方法、装置及设备 |
CN111914395B (zh) * | 2020-06-30 | 2022-11-08 | 河海大学 | 一种基于arima-gc-svr的高拱坝谷幅变形预测分析方法 |
CN111914395A (zh) * | 2020-06-30 | 2020-11-10 | 河海大学 | 一种基于arima-gc-svr的高拱坝谷幅变形预测分析方法 |
CN111860992A (zh) * | 2020-07-13 | 2020-10-30 | 上海云角信息技术有限公司 | 客流量预测方法、装置、设备及存储介质 |
CN113033921A (zh) * | 2021-04-28 | 2021-06-25 | 北京市交通信息中心 | 一种基于多元逐步回归分析的公交线路客流预测方法 |
CN113033921B (zh) * | 2021-04-28 | 2021-12-28 | 北京市交通信息中心 | 一种基于多元逐步回归分析的公交线路客流预测方法 |
CN114819290A (zh) * | 2022-04-04 | 2022-07-29 | 南京行者易智能交通科技有限公司 | 一种基于stacking的多环境下短时公交客流预测方法 |
CN115249120A (zh) * | 2022-06-16 | 2022-10-28 | 北京轨道交通路网管理有限公司 | 设备开机计划的确定方法、装置及电子设备 |
CN115249120B (zh) * | 2022-06-16 | 2024-03-22 | 北京轨道交通路网管理有限公司 | 设备开机计划的确定方法、装置及电子设备 |
CN117575684A (zh) * | 2024-01-15 | 2024-02-20 | 杭州路过网络有限公司 | 一种客流量预测方法及系统 |
CN117575684B (zh) * | 2024-01-15 | 2024-04-05 | 杭州路过网络有限公司 | 一种客流量预测方法及系统 |
CN117996756A (zh) * | 2024-04-02 | 2024-05-07 | 国网山东省电力公司青州市供电公司 | 基于多维影响因子的新能源发电预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106951976B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951976A (zh) | 一种基于模式分类的公交客流预测方法 | |
Ma et al. | Spatiotemporal prediction of PM2. 5 concentrations at different time granularities using IDW-BLSTM | |
CN110570651B (zh) | 一种基于深度学习的路网交通态势预测方法及系统 | |
CN112465243B (zh) | 一种空气质量预报方法及系统 | |
CN106651036A (zh) | 空气质量预报系统 | |
CN111665575B (zh) | 一种基于统计动力的中长期降雨分级耦合预报方法及系统 | |
CN113159364A (zh) | 一种大型交通场站的客流预测方法及系统 | |
CN104778837A (zh) | 一种道路交通运行态势多时间尺度预测方法 | |
Eyoh et al. | Modelling and predicting future urban expansion of Lagos, Nigeria from remote sensing data using logistic regression and GIS | |
CN113537569B (zh) | 一种基于权重堆叠决策树的短时公交客流预测方法及系统 | |
Jonnalagadda et al. | Forecasting atmospheric visibility using auto regressive recurrent neural network | |
Niska et al. | Evaluation of an integrated modelling system containing a multi-layer perceptron model and the numerical weather prediction model HIRLAM for the forecasting of urban airborne pollutant concentrations | |
CN105678406A (zh) | 一种基于云模型的短期负荷预测方法 | |
CN117332909B (zh) | 基于智能体的多尺度城市内涝道路交通暴露性预测方法 | |
CN116153125A (zh) | 一种基于ida-rnn模型的空间维度公交到达时间预测方法 | |
CN117114176A (zh) | 基于数据分析和机器学习的土地利用变化预测方法及系统 | |
Kar et al. | Intelligent traffic prediction by combining weather and road traffic condition information: a deep learning-based approach | |
CN117436653A (zh) | 一种网约车出行需求的预测模型构建方法和预测方法 | |
Carpentieri et al. | Urban Energy Consumption in the City of Naples (Italy): A Geographically Weighted Regression Approach | |
CN108053646A (zh) | 基于时间敏感特征的交通特征获取方法、预测方法及系统 | |
Donnelly et al. | Short-term forecasting of nitrogen dioxide (NO 2) levels using a hybrid statistical and air mass history modelling approach | |
Wang et al. | A deep prediction model of traffic flow considering precipitation impact | |
CN114254250B (zh) | 一种考虑时空非平稳性的网约车出行需求预测方法 | |
CN105469157A (zh) | 路侧停车需求对停车费率敏感度的空间异质性分析方法 | |
CN115600498A (zh) | 一种基于人工神经网络的风速预报订正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210921 |
|
CF01 | Termination of patent right due to non-payment of annual fee |