CN113537569A - 一种基于权重堆叠决策树的短时公交客流预测方法及系统 - Google Patents

一种基于权重堆叠决策树的短时公交客流预测方法及系统 Download PDF

Info

Publication number
CN113537569A
CN113537569A CN202110678413.5A CN202110678413A CN113537569A CN 113537569 A CN113537569 A CN 113537569A CN 202110678413 A CN202110678413 A CN 202110678413A CN 113537569 A CN113537569 A CN 113537569A
Authority
CN
China
Prior art keywords
prediction
passenger flow
data
test
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110678413.5A
Other languages
English (en)
Other versions
CN113537569B (zh
Inventor
巫威眺
曾坤
夏弋松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110678413.5A priority Critical patent/CN113537569B/zh
Publication of CN113537569A publication Critical patent/CN113537569A/zh
Application granted granted Critical
Publication of CN113537569B publication Critical patent/CN113537569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于权重堆叠决策树的短时公交客流预测方法及系统,包括下列步骤:1)对公交IC卡数据进行预处理,并聚合为小时客流数据;2)根据公交线路所在地点和历史客流的时间区间获取待测路线特征数据,建立特征矩阵并进行归一化操作;3)对获取的特征进行独立性检验,对不同的特征和预测标签之间进行相关性检验,对特征进行正态分布检验;4)构建权重堆叠梯度提升树模型;5)通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。本发明具有更高的预测精度以及预测稳定性,能充分发挥公共交通领域大数据的价值,有效地提取多源影响因子与客流之间关联性,对公交短期客流作更精准的预测。

Description

一种基于权重堆叠决策树的短时公交客流预测方法及系统
技术领域
本发明涉及智能交通客流预测和机器学习技术的研究领域,特别涉及一种基于权重堆叠决策树的短时公交客流预测方法及系统。
背景技术
随着社会经济的发展,城市居民的交通出行需求和城市公共交通体系所面对的交通负荷日益增加,北上广等各大一线城市近年来经常性地发生大规模交通拥堵事件。为了改善城市日益严峻的出行环境、缓解城市交通压力、提升客运服务水平,城市公共交通系统的完善与公交客流预测变得越来越重要。当前国内公共交通系统的投入多集中在基础设施建设领域,而对公交客流预测的投入明显不足,造成城市公交线网的规划与设计与实际公交客流变化不能适应,令公交系统的运力出现浪费。此外,进行公交线网短时客流预测能精准并合理地调整为公交线路规划和调度优化提供依据,为减少交通拥堵、乘客出行损失、城市交通污染以及能源消耗提供助力。
影响城市公交客流预测的因素十分复杂,传统的公交客流预测主要从纯数理统计的角度对公交客流进行拟合。多运用时间序列、自回归模型、灰色系统等统计方法进行预测。然而,公交客流随时间波动趋势明显,受天气、节假日、乘客类型等诸多因素影响。传统的统计科学预测方法很难对客流变化的本质规律和影响机理做出解释,模型对不同数据的适应性也比较差,预测精度亦不尽如人意。
近年来,随着人工智能领域和机器学习各类算法的蓬勃发展,诞生了很多新的数据预测方法。比如神经网络模型、SVM支持向量机、随机森林以及各类决策树模型。这些方法和模型的预测精度和准确性较传统方法要好,在电商、电力等领域已经有了较为成熟的应用场景,国内外也有少部分的学者将这类新型预测方法用于交通领域,但是SVM和深度学习类的方法有着调参复杂、训练时间长和对数据集的依赖程度高等问题。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于权重堆叠决策树的短时公交客流预测方法及系统,能够有效地提取多源影响因子与客流之间关联性,对提高短时公交客流预测的效率和精度有极大帮助。
本发明的第一目的在于提供一种基于权重堆叠决策树的短时公交客流预测方法。
本发明的第二目的在于提供一种基于权重堆叠决策树的短时公交客流预测系统。
本发明的目的通过以下的技术方案实现:
一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,包括以下步骤:
通过数据获取装置获取公交IC卡数据,所述公交IC卡数据包括客流信息和持卡人信息;
对公交IC卡数据进行预处理,提取客流特征信息和持卡人群特征信息,并将公交IC卡数据聚合为小时客流数据;
基于待预测线路所在地点和历史客流时间区间获取待预测线路特征数据,建立特征矩阵并进行归一化处理;所述待预测线路特征数据包括:小时、日期、周几、一年中第几周、一年中第几天、是否节假日、最高温、最低温、降雨量、空气指数;
对待预测线路特征数据之间进行独立性检验,将客流设定为预测标签,对不同的特征和预测标签之间进行相关性检验;得到预测标签相关度高的多源特征;
以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换,使得变换后的特征数据接近正态分布,和小时客流数据一同作为后续预测的基础数据;
构建权重堆叠梯度提升树模型;
将客流数据划分出训练集,通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
进一步地,所述待预测线路特征数据包括当前测试时间、是否为节假日、当前温度、当前降雨量、空气质量。
进一步地,所述独立性检验,具体如下:设定存在X、Y两个变量,对这两个变量的T1、T2两种属性进行独立性检验,用χ2检验对影响因子之间的独立性,计算如下:
Figure BDA0003121706190000031
其中,a、b、c、d代表不同变量属性组合的样本频数;
假设有N个影响因子,则需要进行
Figure BDA0003121706190000033
次检验,当检验结果显示某一对影响因子之间非独立时需要剔除其中一个。
进一步地,所述相关性检验,具体如下:
通过皮尔逊相关系数判断影响因子和客流之间的相关程度,皮尔逊相关系数实质上是两个变量X、Y之间的协方差与它们各自标准差乘积之间的比值,计算如下:
Figure BDA0003121706190000032
其中,cov(X,Y)表示协方差,σX表示变量X的标准差,σY表示变量Y的标准差,X表示变量X的值,
Figure BDA0003121706190000034
表示变量X的平均值,Y表示变量Y的值,
Figure BDA0003121706190000035
表示变量Y的平均值;
当ρX,Y的值在[-1,0]之间时,X、Y呈现负相关的特征;
当ρX,Y的值在[0,1]之间时,X、Y呈现正相关的特征;
当ρX,Y的绝对值显著趋于0时,表明X、Y之间相关性较弱;
当ρX,Y的绝对值显著趋于1时,表明X、Y之间相关性极强。
进一步地,所述权重堆叠梯度提升树模型包括梯度提升树、权重堆叠,其中梯度提升树具体如下:
通过构建m棵子决策树h(x;a1),...,h(x;am),第n棵子树的表达式为Fn(x);
Fn(x)=Fn-1(x)+vβnh(x;an),
其中,Fn-1(x)代表第1棵子树到第n-1棵子树的累加之和,βn代表第n棵子树的权重,v(v∈(0,1))代表学习率;
为了使得模型收敛且学习精度得到保证,在学习率和学习器的数量之间做一个权衡:
假设第n-1轮训练得到的学习器为Fn-1(x),损失函数为L(y,Fn-1(x)),第n轮的训练目标就是找到一个βnh(x;an)使得本轮的损失函数L(y,Fn-1(x))达到最小值;
第一步,初始化学习器:
Figure BDA0003121706190000041
其中,argmin()函数是指使后面式子达到最小值时变量的取值,L()函数是指损失函数,这里为平方损失,yi是预测标签,c是决策树;
第二步,对于i=1,...,M不断迭代分类器,M表示迭代次数,即弱学习器的数量;
a)对于样本i=1,...,n,计算损失函数的负梯度在当前模型的值并将它作为残差的估计值;GBDT梯度提升树的损失函数有:均方差、绝对误差、Huber损失等,对于平方损失函数而言,它的负梯度就是真实值与预测值之间的残差,因此本文选择平方损失作为梯度提升的损失函数:
Figure BDA0003121706190000042
b)对于
Figure BDA0003121706190000043
拟合一颗Cart回归树,得到第m棵回归树和它所对应的叶子节点区域Rjm,j=1,2,...,J表示每棵树的叶子节点个数;
c)通过线性搜索的方式计算j=1,2,...,J每个叶子节点最佳的拟合值;
Figure BDA0003121706190000044
d)更新回归树
Figure BDA0003121706190000045
第三步,得到最终的强学习器
Figure BDA0003121706190000046
权重堆叠,具体如下:
将原始数据集划分为训练集和测试集,然后使用基础模型采用5折交叉验证法对训练集的五个部分进行预测。后来,该方法以相同的方式预测测试数据集。进行具有5个副本的“训练-预测”过程会产生5个训练集的预测结果;然后将预测结果按相应顺序组合;将测试集的5个预测结果的平均值合并到新的列向量中,然后将其作为新功能添加到原始数据中;如果采用多个基础模型,则应重复上述过程以连续生成新功能;随后,第二层模型用于训练由基础模型生成的结果,并获得测试集的最终预测结果;
引入一种注意机制;
a)基于精度的放缩
首先,对于从“Predict 1”-“Predict K”到新特征“Predict”的过程,简单平均的计算过程被基于特征权重的加权平均代替,具体权重由以下得出;
Figure BDA0003121706190000051
其中pu表示第u个“Predict”的精度,MAPEn表示第u个“Predict”的平均绝对百分比误差值;
b)基于时间的放缩
类似地,在K折交叉验证后,将时间加权到训练集中。通过预测其余部分以获得Predict u,Predict u的时间权重可以计算如下:
Figure BDA0003121706190000052
其中τ代表距离权重放缩参数;
初始过程为τ=1,取值范围为离散值(1/5,1/4,…,1/2,1,2,…5);对5折交叉验证生成的“Predict 1”-“Predict 5”进行时间加权,从而获得测试集新特征“Predict”;随后,计算第二层的误差,并将其与简单平均加权的结果进行比较;如果预测结果得到改善,则朝着τ>1的方向连续迭代,直到误差不再减小为止;否则,沿τ<1的方向连续迭代,直到找到最佳权重距离缩放参数τ。
进一步地,所述以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换,具体为:对绝对偏度大于0.8的特征进行Box-Cox变换以改善特征的分布特性。
进一步地,还包括:使用相对误差指标MAPE,即平均绝对百分比误差来衡量预测结果的精准度;
Figure BDA0003121706190000061
其中N为样本数量,oi为第i个样本的真实值,pi为第i个样本的预测值。
进一步地,所述将客流数据划分出训练集,通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果,具体如下:将客流数据按比例划分为预测集和训练集,通过权重堆叠梯度提升树模型,对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
进一步地,所述将客流数据按比例划分为预测集和训练集,具体为按20%和80%的比例进行划分。
本发明的第二目的通过以下技术方案实现:
一种基于权重堆叠决策树的短时公交客流预测系统,用于一种基于权重堆叠决策树的短时公交客流预测方法,包括:
预测数据获取生成模块,用于生成预测所需的数据,包括获取待预测线路的公交IC卡数据以及外部特征数据,所述需要使用的公交IC卡数据是客流数据,所述的外部特征数据包括小时、日期、周几、一年中第几周、一年中第几天、是否节假日、最高温、最低温、降雨量、空气指数;
预测数据检验模块,用于对预测数据检验,包括独立性检验、相关性检验、正态分布检验,所述的独立性检验是对特征数据之间进行独立性检验,设定预测标签,所述的相关性检验是对不同的特征和预测标签之间进行相关性检验,得到预测标签相关度高的多源特征,所述的正态分布检验是以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换;
预测模块,用于预测数据,包括构建权重堆叠梯度提升树模型以及进行预测过程,得到预测结果。
本发明与现有技术相比,具有如下优点和有益效果:
根据本发明提出的权重堆叠梯度提升树模型,对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。本发明相比传统的机器学习模型和普通的堆叠方法具有更高的预测精度以及预测稳定性,能充分发挥公共交通领域大数据的价值,有效地提取多源影响因子与客流之间关联性,对公交短期客流作更精准的预测。
附图说明
图1是本发明所述一种基于权重堆叠决策树的短时公交客流预测方法的流程图;
图2是本发明所述实施例中预测方法实际原理流程图;
图3是本发明所述实施例中改进堆叠方法原理图;
图4是本发明所述实施例中缩放堆叠过程的流程图;
图5是本发明所述实施例中104路公交线路图;
图6是本发明所述实施例中565路公交线路图;
图7a是本发明所述实施例中不同模型50次运行单步向前预测的结果对比图;
图7b是本发明所述实施例中不同模型50次运行2步向前预测的结果对比图;
图7c是本发明所述实施例中不同模型50次运行3步向前预测的结果对比图;
图8a是本发明所述实施例中104路公交工作日和非工作日预测情况对比图;
图8b是本发明所述实施例中565路公交工作日和非工作日预测情况对比图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
一种基于权重堆叠决策树的短时公交客流预测方法,如图1所示,包括以下步骤:
通过数据获取装置获取公交IC卡数据,所述公交IC卡数据包括客流信息和持卡人信息;
对公交IC卡数据进行预处理,提取客流特征信息和持卡人群特征信息,并将公交IC卡数据聚合为小时客流数据;
基于待预测线路所在地点和历史客流时间区间获取待预测线路特征数据,建立特征矩阵并进行归一化处理;所述待预测线路特征数据包括:小时、日期、周几、一年中第几周、一年中第几天、是否节假日、最高温、最低温、降雨量、空气指数;
对待预测线路特征数据之间进行独立性检验,将客流设定为预测标签,对不同的特征和预测标签之间进行相关性检验;得到预测标签相关度高的多源特征;
以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换,使得变换后的特征数据接近正态分布,和小时客流数据一同作为后续预测的基础数据;
构建权重堆叠梯度提升树模型;
将客流数据划分出训练集,通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
实际原理流程图如图2所示。
具体如下:
一、模型建立
在获得数据之后,对公交IC卡数据进行预处理,提取客流和刷卡人群有关的特征并将数据聚合为小时客流数据。
根据公交线路所在地点和历史客流的时间区间使用python爬虫获取相应的周几、节假日、温度、降雨量、空气质量等特征数据,建立特征矩阵并进行归一化操作。
对获取的特征之间进行独立性检验,对不同的特征和预测标签之间进行相关性检验。挑选出和预测标签相关度较高的多源特征。然后以绝对偏度为量化指标对上述特征进行正态分布检验,对绝对偏度大于0.8的特征进行Box-Cox变换以改善特征的分布特性。
独立性检验原理如下:
假设存在X、Y两个变量,现对这两个变量的T1、T2两种属性进行独立性检验,用x2检验对影响因子之间的独立性,这两种属性的列联表如下所示:
Figure BDA0003121706190000091
计算χ2的公式如下所示:
Figure BDA0003121706190000092
其中,a、b、c、d代表不同变量属性组合的样本频数。
假设有N个影响因子,则需要进行
Figure BDA0003121706190000093
次检验,当检验结果显示某一对影响因子之间非独立时需要剔除其中一个。
相关性检验原理如下:
通过皮尔逊相关系数判断影响因子和客流之间的相关程度,皮尔逊相关性系数是用来表征两个变量之间的线形相关性程度,皮尔逊相关系数实质上是两个变量X、Y之间的协方差与它们各自标准差乘积之间的比值具体公式如下所示:
Figure BDA0003121706190000101
上式中,cov(X,Y)表示协方差,σX表示变量X的标准差,σY表示变量Y的标准差,X表示变量X的值,
Figure BDA0003121706190000102
表示变量X的平均值,Y表示变量Y的值,
Figure BDA0003121706190000103
表示变量Y的平均值;。
皮尔逊相关系数的解释如下:
1)、当ρX,Y的值在[-1,0]之间时,X、Y呈现负相关的特征;
2)、当ρX,Y的值在[0,1]之间时,X、Y呈现正相关的特征;
3)、当ρX,Y的绝对值显著趋于0时,表明X、Y之间相关性较弱;
4)、当ρX,Y的绝对值显著趋于1时,表明X、Y之间相关性极强;
本发明在实际操作过程中设定,相关系数大于0.4时认为影响因子和客流之间存在较强相关性,对特征予以保留。
将客流数据划分为预测集和训练集,通过本发明提出的权重堆叠梯度提升树模型,对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
权重堆叠梯度提升树模型包括两大原理:梯度提升树原理、权重堆叠原理。
梯度提升树原理如下:
GBDT是一种以Cart树模型为基函数通一系列的Boosting过程针对上一轮学习过程中的分类失误不断训练进而提升决策准确率的高效机器学习算法。这项算法曾在地铁客流预测、电力预测中有过应用,都显示了极高的预测精度和优越的泛化性能。
GBDT属于集成学习中Boosting家族范畴内的一员,其学习机理为通过构建m棵子决策树h(x;a1),...,h(x;am),第n棵子树的表达式为Fn(x)。
Fn(x)=Fn-1(x)+vβnh(x;an) (3)
其中,Fn-1(x)代表第1棵子树到第n-1棵子树的累加之和,βn代表第n棵子树的权重,v(v∈(0,1))代表学习率,当v越小时,就需要更多的学习器模型才能收敛;然而v给定的过大,最终的学习精度又得不到保证。因此我们需要在学习率和学习器的数量之间做一个权衡。
假设第n-1轮训练得到的学习器为Fn-1(x),损失函数为L(y,Fn-1(x)),第n轮的训练目标就是找到一个βnh(x;an)使得本轮的损失函数L(y,Fn-1(x))达到最小值。
第一步,初始化学习器。
Figure BDA0003121706190000111
其中,argmin()函数是指使后面式子达到最小值时变量的取值,L()函数是指损失函数,这里为平方损失,yi是预测标签,c是决策树。
第二步,对于i=1,...,M(M表示迭代次数,即弱学习器的数量)不断迭代分类器。
a)对于样本i=1,...,n,计算损失函数的负梯度在当前模型的值并将它作为残差的估计值。GBDT梯度提升树的损失函数有:均方差、绝对误差、Huber损失等,对于平方损失函数而言,它的负梯度就是真实值与预测值之间的残差,因此本文选择平方损失作为梯度提升的损失函数。
Figure BDA0003121706190000112
b)对于
Figure BDA0003121706190000113
拟合一颗Cart回归树,得到第m棵回归树和它所对应的叶子节点区域Rjm,j=1,2,...,j表示每棵树的叶子节点个数。
c)通过线性搜索的方式计算j=1,2,...,j每个叶子节点最佳的拟合值。
Figure BDA0003121706190000121
d)更新回归树
Figure BDA0003121706190000122
第三步,得到最终的强学习器
Figure BDA0003121706190000123
权重堆叠原理具体如下:
首先,将原始数据集划分为训练集和测试集,然后使用基础模型采用5折交叉验证法对训练集的五个部分进行预测。后来,该方法以相同的方式预测测试数据集。进行具有5个副本的“训练-预测”过程会产生5个训练集的预测结果(预测1-预测5)。然后将预测结果按相应顺序组合。将测试集的5个预测结果的平均值合并到新的列向量中,然后将其作为新功能添加到原始数据中。如果采用多个基础模型,则应重复上述过程以连续生成新功能。随后,第二层模型用于训练由基础模型生成的结果,并获得测试集的最终预测结果。
尽管与传统的单一机学习模型相比,堆叠方法在可伸缩性和可扩展性方面具有优势,但是它仍然存在某些缺陷。首先,通过5次交叉验证生成的“Predict1”-“Predict 5”具有不同的参数组合和预测精度。如果仅通过求平均值获得测试集的新特征“Predict”,那么高精度项的优势将受到损害。其次,对于时间序列预测,时间上的数据顺序非常重要。假设按时间顺序将训练集划分为K个部分,使得第K个部分所属的时间间隔距训练集最远,而第一部分距离训练集最近。显然,由第1、2、3...(K-1)部分数据预测的测试集的新特征“Predict”应该具有比其他训练集组合更高的时间权重。
为了解决上述两个问题,我们通过引入一种新颖的注意机制来设计一种“缩放”堆叠方法,如图3所示。具体过程分为两个步骤。
a)基于精度的放缩
首先,对于从“Predict 1”-“Predict K”到新特征“Predict”的过程,简单平均的计算过程被基于特征权重的加权平均代替,具体权重由式(9)得出。
Figure BDA0003121706190000131
其中pu表示第u个“Predict”的精度,MAPEn表示第u个“Predict”的平均绝对百分比误差值。
b)基于时间的放缩
类似地,在K折交叉验证后,将时间加权到训练集中。通过预测其余部分以获得Predict u,Predict u的时间权重可以计算如下:
Figure BDA0003121706190000132
其中τ代表距离权重放缩参数。
为了说明这个概念,考虑初始过程为τ=1,取值范围为离散值(1/5,1/4,…,1/2,1,2,…5)。对5折交叉验证生成的“Predict 1”-“Predict 5”进行时间加权,从而获得测试集新特征“Predict”。随后,计算第二层的误差,并将其与简单平均加权的结果进行比较。如果预测结果得到改善,则朝着τ>1的方向连续迭代,直到误差不再减小为止。否则,沿τ<1的方向连续迭代,直到找到最佳权重距离缩放参数τ。缩放堆叠过程的流程图如图4所示。
本发明使用相对误差指标MAPE(mean average absolute percentage error),即平均绝对百分比误差来衡量预测结果的精准度。
Figure BDA0003121706190000141
其中N为样本数量,oi为第i个样本的真实值,pi为第i个样本的预测值。
算例分析
本发明选取广州市的两条实际公交线路104号和565号公交线路进行验证。104号和565号公交车的路线长度分别由15和48个站组成。104号线始于中山八路总站,终点为海印桥总站,全长8.8公里。565号线始于大学城总站,终止于穗盐路总站,全长35公里。公交线路的拓扑结构如图5和图6所示。乘客需求数据是从当地公交公司收集的。下表提供了这两条公交线路的客流统计数据。正如我们所看到的,565号线的每小时和每日客流高于104号线,而就标准差而言,104号线的客流比565号线更小。其他多源信息是从互联网上获得,例如政府信息和中国气象局的网站。
Figure BDA0003121706190000142
给定时间段内的公共汽车客流受一系列因素的影响,例如日期,工作日,天气和温度。每个因素的影响可能截然不同。在物联网时代,可以使用多源大数据识别特定环境下的乘客特征。除了智能卡数据,还可以从相关部门的公告中轻松收集其他属性,例如工作日/节假日和上课日/节假日。例如,可以通过本地历史天气记录获取历史天气信息,可以通过天气预报获取未来天气信息。
在实际应用中,特征呈现出异构形式。一些特征是连续的数值变量,而另一些则是离散的分类变量。离散变量应转换为数字,以便于算法操作。本文介绍了三种潜在的外部因素,数据描述和处理方法讨论如下:
第一类是时间。通常,公交车客流随时间呈现明显的潮汐波动。因此,一天中的时间应被视为潜在的影响因素。旅客需求也可能呈现季节性变化模式。例如,在夏季,教育旅行减少而休闲旅行增加。因此,选择一年中的星期几和一年中的几日作为影响因素是合理的。实际上,客流通常会在一周内出现反复波动。同时,工作日从星期一到星期五的客流可能非常不同,特别是对于大城市。例如,在广州和北京,由于学生和通勤者等需求激增,周一和周五的载客量是工作日中最高的。因此,还选择星期几作为因素。
第二类影响因素是天气,例如每日最高温度,每日最低温度,雨天和空气质量指数(AQI)。这些指标可能会对特定时间段内的客流变化模式产生重大影响,尤其是对于弹性需求。本文根据降雨水平将雨天分为三类。值0表示没有雨和少雨的天气,包括晴天,多云和晴转小雨(24小时总降雨量≤10mm)。值1表示降雨适中的天气,包括阴转小雨,雷阵雨和小雨至中雨(10mm<24小时内的总降雨量≤25mm)。值2表示高降雨天气,包括大雨和极端天气(24小时总降雨量>25mm)。此外,空气质量可能会对乘车率产生一定影响。当天的空气质量指数表示当前或预计将要污染的空气程度。随着AQI的增加,更大比例的人口可能会遭受越来越严重的不利健康影响。在这项研究中,AQI指数分为四类。值0(AQI<50)和值1(50<AQI<100)分别表示良好和优良的质量。值2(100<AQI<200)和3(200<AQI<300)分别表示轻度污染和中度污染,而值4(AQI>300)表示严重污染。
第三类与假期相关,包括周末或法定假日。某些假期(例如五一劳动节和国庆节)将对特定区域的客流产生很大影响,从而导致爆炸性的需求下降或增长。综上所述,总共选择了10个与时间,天气和假期相关的因素。下表总结了各种影响因素的选择,以及它们的相应属性和每个特征的峰度值。
Figure BDA0003121706190000161
为了验证本发明改进后的权重堆叠模型(SS-GBDT)相比传统的机器学习模型和普通的堆叠方法具有更高的预测精度和优势,选用随机森林(RF)、长短期记忆神经网络(LSTM)、支持向量机(SVM)、梯度提升决策树(GBDT)以及普通的双层堆叠模型(S-GBDT)进行对比。对比结果如图7和图8所示。
图7(a)、图7(b)、图7(c)分别是3种不同预测步长下几种模型在最优参数条件下运行50次后的预测精度以及精度分布情况。图8a和图8b为几种模型在工作日和非工作日的预测情况。总体而言改进后的权重堆叠模型(SS-GBDT)在精度上具有明显的优势。并且无论是在精度上还是预测的稳定性上改进后的权重堆叠模型(SS-GBDT)都要远远优于其他5种模型。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,包括以下步骤:
通过数据获取装置获取公交IC卡数据,所述公交IC卡数据包括客流信息和持卡人信息;
对公交IC卡数据进行预处理,提取客流特征信息和持卡人群特征信息,并将公交IC卡数据聚合为小时客流数据;
基于待预测线路所在地点和历史客流时间区间获取待预测线路特征数据,建立特征矩阵并进行归一化处理;所述待预测线路特征数据包括:小时、日期、周几、一年中第几周、一年中第几天、是否节假日、最高温、最低温、降雨量、空气指数;
对待预测线路特征数据之间进行独立性检验,将客流设定为预测标签,对不同的特征和预测标签之间进行相关性检验;得到预测标签相关度高的多源特征;
以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换,使得变换后的特征数据接近正态分布,和小时客流数据一同作为后续预测的基础数据;
构建权重堆叠梯度提升树模型;
将客流数据划分出训练集,通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
2.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述待预测线路特征数据包括当前测试时间、是否为节假日、当前温度、当前降雨量、空气质量。
3.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述独立性检验,具体如下:设定存在X、Y两个变量,对这两个变量的T1、T2两种属性进行独立性检验,用χ2检验对影响因子之间的独立性,计算如下:
Figure FDA0003121706180000011
其中,a、b、c、d代表不同变量属性组合的样本频数;
假设有N个影响因子,则需要进行
Figure FDA0003121706180000012
次检验,当检验结果显示某一对影响因子之间非独立时需要剔除其中一个。
4.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述相关性检验,具体如下:
通过皮尔逊相关系数判断影响因子和客流之间的相关程度,皮尔逊相关系数实质上是两个变量X、Y之间的协方差与它们各自标准差乘积之间的比值,计算如下:
Figure FDA0003121706180000021
其中,cov(X,Y)表示协方差,σX表示变量X的标准差,σY表示变量Y的标准差,X表示变量X的值,
Figure FDA0003121706180000022
表示变量X的平均值,Y表示变量Y的值,
Figure FDA0003121706180000023
表示变量Y的平均值;
当ρX,Y的值在[-1,0]之间时,X、Y呈现负相关的特征;
当ρX,Y的值在[0,1]之间时,X、Y呈现正相关的特征;
当ρX,Y的绝对值显著趋于0时,表明X、Y之间相关性较弱;
当ρX,Y的绝对值显著趋于1时,表明X、Y之间相关性极强。
5.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述权重堆叠梯度提升树模型包括梯度提升树、权重堆叠,其中梯度提升树具体如下:
通过构建m棵子决策树h(x;a1),...,h(x;am),第n棵子树的表达式为Fn(x);
Fn(x)=Fn-1(x)+vβnh(x;an),
其中,Fn-1(x)代表第1棵子树到第n-1棵子树的累加之和,βn代表第n棵子树的权重,v(v∈(0,1))代表学习率;
为了使得模型收敛且学习精度得到保证,在学习率和学习器的数量之间做一个权衡:
假设第n-1轮训练得到的学习器为Fn-1(x),损失函数为L(y,Fn-1(x)),第n轮的训练目标就是找到一个βnh(x;an)使得本轮的损失函数L(y,Fn-1(x))达到最小值;
第一步,初始化学习器:
Figure FDA0003121706180000024
其中,arg min()函数是指使后面式子达到最小值时变量的取值,L()函数是指损失函数,这里为平方损失,yi是预测标签,c是决策树;
第二步,对于i=1,...,M不断迭代分类器,M表示迭代次数,即弱学习器的数量;
a)对于样本i=1,...,n,计算损失函数的负梯度在当前模型的值并将它作为残差的估计值;GBDT梯度提升树的损失函数有:均方差、绝对误差、Huber损失等,对于平方损失函数而言,它的负梯度就是真实值与预测值之间的残差,因此本文选择平方损失作为梯度提升的损失函数:
Figure FDA0003121706180000031
b)对于
Figure FDA0003121706180000032
拟合一颗Cart回归树,得到第m棵回归树和它所对应的叶子节点区域Rjm,j=1,2,...,J表示每棵树的叶子节点个数;
c)通过线性搜索的方式计算j=1,2,...,J每个叶子节点最佳的拟合值;
Figure FDA0003121706180000033
d)更新回归树
Figure FDA0003121706180000034
第三步,得到最终的强学习器
Figure FDA0003121706180000035
权重堆叠,具体如下:
将原始数据集划分为训练集和测试集,然后使用基础模型采用5折交叉验证法对训练集的五个部分进行预测;后续该方法以相同的方式预测测试数据集;进行具有5个副本的“训练-预测”过程会产生5个训练集的预测结果;然后将预测结果按相应顺序组合;将测试集的5个预测结果的平均值合并到新的列向量中,然后将其作为新功能添加到原始数据中;如果采用多个基础模型,则应重复上述过程以连续生成新功能;随后,第二层模型用于训练由基础模型生成的结果,并获得测试集的最终预测结果;
引入一种注意机制;
a)基于精度的放缩
首先,对于从“Predict 1”-“Predict K”到新特征“Predict”的过程,简单平均的计算过程被基于特征权重的加权平均代替,具体权重由以下得出;
Figure FDA0003121706180000041
其中pu表示第u个“Predict”的精度,MAPEn表示第u个“Predict”的平均绝对百分比误差值;
b)基于时间的放缩
类似地,在K折交叉验证后,将时间加权到训练集中;通过预测其余部分以获得Predictu,Predict u的时间权重可以计算如下:
Figure FDA0003121706180000042
其中τ代表距离权重放缩参数;
初始过程为τ=1,取值范围为离散值(1/5,1/4,…,1/2,1,2,…5);对5折交叉验证生成的“Predict 1”-“Predict 5”进行时间加权,从而获得测试集新特征“Predict”;随后,计算第二层的误差,并将其与简单平均加权的结果进行比较;如果预测结果得到改善,则朝着τ>1的方向连续迭代,直到误差不再减小为止;否则,沿τ<1的方向连续迭代,直到找到最佳权重距离缩放参数τ。
6.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换,具体为:对绝对偏度大于0.8的特征进行Box-Cox变换以改善特征的分布特性。
7.根据权利要求6所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,还包括:使用相对误差指标MAPE,即平均绝对百分比误差来衡量预测结果的精准度;
Figure FDA0003121706180000043
其中N为样本数量,oi为第i个样本的真实值,pi为第i个样本的预测值。
8.根据权利要求1所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述将客流数据划分出训练集,通过权重堆叠梯度提升树模型对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果,具体如下:将客流数据按比例划分为预测集和训练集,通过权重堆叠梯度提升树模型,对训练集进行训练,然后对预测时段的客流进行预测,得到预测结果。
9.根据权利要求8所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,所述将客流数据按比例划分为预测集和训练集,具体为按20%和80%的比例进行划分。
10.一种基于权重堆叠决策树的短时公交客流预测系统,用于实现权利要求1-9任一权利要求所述的一种基于权重堆叠决策树的短时公交客流预测方法,其特征在于,包括:
预测数据获取生成模块,用于生成预测所需的数据,包括获取待预测线路的公交IC卡数据以及外部特征数据,所述需要使用的公交IC卡数据是客流数据,所述的外部特征数据包括小时、日期、周几、一年中第几周、一年中第几天、是否节假日、最高温、最低温、降雨量、空气指数;
预测数据检验模块,用于对预测数据检验,包括独立性检验、相关性检验、正态分布检验,所述的独立性检验是对特征数据之间进行独立性检验,设定预测标签,所述的相关性检验是对不同的特征和预测标签之间进行相关性检验,得到预测标签相关度高的多源特征,所述的正态分布检验是以绝对偏度为量化指标对多源特征进行正态分布检验,对绝对偏度大的特征进行Box-Cox变换;
预测模块,用于预测数据,包括构建权重堆叠梯度提升树模型以及进行预测过程,得到预测结果。
CN202110678413.5A 2021-06-18 2021-06-18 一种基于权重堆叠决策树的短时公交客流预测方法及系统 Active CN113537569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110678413.5A CN113537569B (zh) 2021-06-18 2021-06-18 一种基于权重堆叠决策树的短时公交客流预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110678413.5A CN113537569B (zh) 2021-06-18 2021-06-18 一种基于权重堆叠决策树的短时公交客流预测方法及系统

Publications (2)

Publication Number Publication Date
CN113537569A true CN113537569A (zh) 2021-10-22
CN113537569B CN113537569B (zh) 2023-11-28

Family

ID=78125249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110678413.5A Active CN113537569B (zh) 2021-06-18 2021-06-18 一种基于权重堆叠决策树的短时公交客流预测方法及系统

Country Status (1)

Country Link
CN (1) CN113537569B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819290A (zh) * 2022-04-04 2022-07-29 南京行者易智能交通科技有限公司 一种基于stacking的多环境下短时公交客流预测方法
CN116050673A (zh) * 2023-03-31 2023-05-02 深圳市城市交通规划设计研究中心股份有限公司 基于CNN-BiLSTM的城市公交客流短时预测方法
CN117057488A (zh) * 2023-10-12 2023-11-14 江南大学附属医院 基于人工智能模型的放射医疗设备工作量预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
CN109034449A (zh) * 2018-06-14 2018-12-18 华南理工大学 基于深度学习和乘客行为模式的短期公交客流预测方法
US20200311749A1 (en) * 2019-03-27 2020-10-01 Dell Products L.P. System for Generating and Using a Stacked Prediction Model to Forecast Market Behavior
CN111754025A (zh) * 2020-05-25 2020-10-09 苏州大学文正学院 基于cnn+gru的公交短时客流预测方法
CN112766597A (zh) * 2021-01-29 2021-05-07 中国科学院自动化研究所 公交客流预测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180158552A1 (en) * 2016-12-01 2018-06-07 University Of Southern California Interpretable deep learning framework for mining and predictive modeling of health care data
CN109034449A (zh) * 2018-06-14 2018-12-18 华南理工大学 基于深度学习和乘客行为模式的短期公交客流预测方法
US20200311749A1 (en) * 2019-03-27 2020-10-01 Dell Products L.P. System for Generating and Using a Stacked Prediction Model to Forecast Market Behavior
CN111754025A (zh) * 2020-05-25 2020-10-09 苏州大学文正学院 基于cnn+gru的公交短时客流预测方法
CN112766597A (zh) * 2021-01-29 2021-05-07 中国科学院自动化研究所 公交客流预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏国恩;唐琪;张显全;: "改进的多层感知机在客户流失预测中的应用", 计算机工程与应用, no. 14, pages 263 - 269 *
池贤昭;陈鹏;祝佳莉;耿小情;: "基于stacking组合模型的轨道交通换乘站短期客流预测", 工程与建设, no. 03, pages 41 - 45 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819290A (zh) * 2022-04-04 2022-07-29 南京行者易智能交通科技有限公司 一种基于stacking的多环境下短时公交客流预测方法
CN116050673A (zh) * 2023-03-31 2023-05-02 深圳市城市交通规划设计研究中心股份有限公司 基于CNN-BiLSTM的城市公交客流短时预测方法
CN116050673B (zh) * 2023-03-31 2023-08-01 深圳市城市交通规划设计研究中心股份有限公司 基于CNN-BiLSTM的城市公交客流短时预测方法
CN117057488A (zh) * 2023-10-12 2023-11-14 江南大学附属医院 基于人工智能模型的放射医疗设备工作量预测方法及系统
CN117057488B (zh) * 2023-10-12 2023-12-26 江南大学附属医院 基于人工智能模型的放射医疗设备工作量预测方法及系统

Also Published As

Publication number Publication date
CN113537569B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN110570651B (zh) 一种基于深度学习的路网交通态势预测方法及系统
CN113537569B (zh) 一种基于权重堆叠决策树的短时公交客流预测方法及系统
Li et al. A spatial-temporal layer-wise relevance propagation method for improving interpretability and prediction accuracy of LSTM building energy prediction
CN110390349A (zh) 基于XGBoost模型的公交车客流量预测建模方法
CN110503104B (zh) 一种基于卷积神经网络的短时剩余车位数量预测方法
CN108256724B (zh) 一种基于动态行业系数的配电网可开放容量规划方法
CN107103394A (zh) 一种基于神经网络的轨道交通实时客流预测方法
CN112966871B (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
CN113487066A (zh) 基于多属性增强图卷积-Informer模型的长时序货运量预测方法
Selvi et al. Investigation of performance of electric load power forecasting in multiple time horizons with new architecture realized in multivariate linear regression and feed-forward neural network techniques
CN109376907B (zh) 适应输配电网一体化规划的高压配网变电站负荷预测方法
CN105678406A (zh) 一种基于云模型的短期负荷预测方法
Shao et al. Modeling and forecasting the electricity clearing price: A novel BELM based pattern classification framework and a comparative analytic study on multi-layer BELM and LSTM
Pan et al. Multivariable sales prediction for filling stations via GA improved BiLSTM
CN117829375B (zh) 城际往返客运的多区域需求预测方法、装置、设备和介质
CN116663742A (zh) 基于多因素和模型融合的区域运力预测方法
CN110490365A (zh) 一种基于多源数据融合预测网约车订单量的方法
Vijayalakshmi et al. Multivariate Congestion Prediction using Stacked LSTM Autoencoder based Bidirectional LSTM Model.
CN109978236A (zh) 一种基于特征组合的小水电短期功率精细化预测方法
CN111815051B (zh) 考虑天气影响因素的grnn光伏发电预测方法
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Widhalm et al. Robust road link speed estimates for sparse or missing probe vehicle data
CN109034453A (zh) 一种基于多标记神经网络的短期电力负荷预测方法
CN114139984A (zh) 基于流量与事故协同感知的城市交通事故风险预测方法
Chen et al. A bidirectional context-aware and multi-scale fusion hybrid network for short-term traffic flow prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant