CN110533214A - 一种基于XGBoost算法的地铁客流量短时预测方法 - Google Patents
一种基于XGBoost算法的地铁客流量短时预测方法 Download PDFInfo
- Publication number
- CN110533214A CN110533214A CN201910627233.7A CN201910627233A CN110533214A CN 110533214 A CN110533214 A CN 110533214A CN 201910627233 A CN201910627233 A CN 201910627233A CN 110533214 A CN110533214 A CN 110533214A
- Authority
- CN
- China
- Prior art keywords
- subway
- data
- passenger flow
- short
- xgboost algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013459 approach Methods 0.000 title claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000010219 correlation analysis Methods 0.000 claims abstract description 10
- 230000008901 benefit Effects 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010220 Pearson correlation analysis Methods 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于XGBoost算法的地铁客流量短时预测方法,该方法基于交通大数据建模,结合AFC系统,充分利用交通大数据的优势。通过相关分析筛选变量,考虑多模式交通对地铁需求的影响构建特征向量。最后,利用XGBoost算法进行预测,根据添加策略进行迭代分裂,得到地铁客流量短时预测结果。本发明提供的预测方法,对各交通运输方式之间的协调调度起到指导作用,有利于地铁客流量过饱和时实现提前预警。
Description
技术领域
本发明涉及地铁客流量预测方法,特别是涉及了一种基于XGBoost算法的地铁客流量短时预测方法。
背景技术
城市轨道交通的快速发展,解决了城市大部分的交通拥堵问题,使人们日常的出行及活动越来越方便,但是同时也给轨道交通的管理部门的相关工作增加了难度。就北京而言,为了最大程度上满足早高峰的客流需求,管理部门缩短了在早高峰期间发车间距,来提升线路的运营能力。然而在上下班高峰期,轨道交通仍然无法满足所有乘客的需求,根据北京市第五次综合交通调查结果显示,截止2014年年底,自2000年以来,轨道交通线网全年客运量增长了693%,由此可见,地铁客流量大幅增加导致在高峰时段过饱和的问题亟待解决。为解决这一问题,就需要通过尽量高精度的短时客流量预测,一方面,在地铁客流量过饱和时实现提前预警,以便地铁相关部门采取相应的应对措施;另一方面,实时、准确的预测对城市轨道交通日常客流量组织也具有十分重要的意义。
发明内容
发明目的:本发明的目的是设计一种基于XGBoost算法的地铁客流量短时预测方法,考虑多模式交通对地铁需求的影响,结合AFC系统,充分利用交通大数据的优势,利用XGBoost算法在预测短时内地铁客流量,从而为交通系统的运行提供指导意义,有助于优化城市轨道交通日常客流量组织,提高乘客乘坐地铁的出行体验。
技术方案:为了实现上述设计要求,本发明采取以下技术方案:(1)基于交通大数据建模,结合AFC系统,充分利用交通大数据的优势,提高预测精度;(2)通过相关分析筛选变量,考虑多模式交通对地铁需求的影响构建特征向量;(3)利用XGBoost算法进行预测,根据添加策略进行迭代分裂,得到地铁客流量短时预测结果。
所述步骤(1)包括如下步骤:(1-1)收集一定范围内的AFC系统数据,包括通过一卡通采集的地铁、公交上车量数据,及高德手机导航数据计算得到的城市道路拥堵指数;(1-2)从限定研究范围、数据错误、数据噪点、数据冗余四个方面对原始数据进行数据清洗;(1-3)将数据分为工作日非高峰时段、工作日高峰时段、节假日三个部分,分别进行分析预测。
所述步骤(2)包括如下步骤:(2-1)通过Pearson相关分析筛选变量,当相关系数超过0.5时则认为两种因素呈强相关关系;(2-2)考虑多模式交通对地铁需求的影响,从地铁客流量、公交客流量和道路情况三个方面构建特征向量。
有益效果:
本发明提供的基于XGBoost算法的地铁客流量短时预测方法,具有以下优点:1、XGBoost算法实现了一种分裂节点寻找的近似算法,用于加速和减小内存消耗,计算速度明显提升;2、构建特征向量,考虑多模式交通对地铁需求的影响,更为广泛地选取变量;3、考虑多模式交通对地铁需求的影响,即变量的选取更具有广泛性,有利于对各交通运输方式之间的协调调度起到指导作用;4、结合AFC系统,充分利用交通大数据的优势,利用多元化数据有效及时地对地铁出行量进行预测,提高预测精度。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明进行详细的描述。
如图1所示,本发明包括以下步骤:
1)基于交通大数据建模,结合AFC系统,充分利用交通大数据的优势,提高预测精度。
AFC系统的全称是Automatic Fare Collection System,即城市轨道交通自动售检票系统。该系统是一种由计算机集中控制的自动售票(包括半自动售票)、自动检票以及自动收费和统计的封闭式自动化网络系统。
A、数据收集
收集一定范围内的AFC系统数据,包括通过一卡通采集的地铁、公交上车量数据,及高德手机导航数据计算得到的城市道路拥堵指数(一定程度上反应小汽车的交通需求)。其中,区域拥堵指数c定义为:
其中n为区域内道路条数;ti为该时段ki辆车的平均行驶时间;vi为相应道路限速;ki为某一时段第i条路上通过的车辆数;K为该时段区域内车辆总数。
B、数据清洗
由于公交卡识别错误、系统故障等影响因素,原始收集数据中存在部分错误数据、冗余数据,因此从限定研究范围、数据错误、数据噪点、数据冗余四个方面对原始数据进行数据清洗。
C、数据处理
在地铁站存在较为明显的晚高峰,此外节假日与工作日客流量分布变化形式差异较大,根据这一特点,对收集数据进行分类处理,将数据分为工作日非高峰时段、工作日高峰时段、节假日三个部分,分别进行分析预测。
2)通过相关分析筛选变量,考虑多模式交通对地铁需求的影响构建特征向量。
A、相关分析筛选变量
采用相关系数法进行相关分析,考虑到Spearman秩相关系数,Kendall相关系数均需要利用数据的秩,在进行高维的相关分析时均比较复杂,因此选择Pearson相关系数进行相关分析。Pearson相关系数定义如下:
r描述的是两个变量间线性相关强弱的程度,r的绝对值越大表明相关性越强。当相关系数超过0.5时则认为两种因素呈强相关关系,以此为标准进行变量的筛选。
B、构建特征向量
如下表所示,从地铁客流量、公交客流量和道路情况三个方面构建特征向量。考虑多模式交通对地铁需求的影响,选取的变量包括地铁站附近所有道路在一段时期内的拥堵指数、附近公交车在临近时间段内的乘客上车量以及地铁站本身前半小时内的上车量数据。
3)利用XGBoost算法进行预测,根据添加策略进行迭代分裂,得到地铁客流量短时预测结果。
极端梯度提升树(extreme gradient boosting,XGBoost)是梯度提升机器算法(gradient boosting machine)的扩展,是一组分类回归树(CART)的集成。通常,单棵树的强度不足以在实践中使用。因此使用集合模型,将多棵树的预测结合在一起。将每个树的预测分数相加以得到最终分数。
A、构建目标函数
其中K是树的数量,fk是函数空间F里的一个函数,F也是所有可能的CART的集合。
目标函数为:
其中,为训练误差;为正则化项,yi为真实值,为估计值,fk为估计函数,它控制了树的结构和节点上的得分。训练fk的难度远远高于一般机器学习中参数的训练,为此,本发明采用一种添加策略。
B、添加策略
固定已经学习到的模型,再每次向模型里添加一棵树,将第t次得到的预测记为则有
…
利用MSE作为我们的损失函数,那么目标函数变为:
其中
C、定义模型复杂度Ω(f)
首先完善f(x)的定义:ft(x)=wq(x),w∈RT,q:Rd→{1,2,…T}
其中w是叶子上的分数矢量,q是一个将每个数据点分配给相应叶子的映射,T是叶子的数量。则将复杂性定义为
可以写出在加入了第t棵树后的目标函数:
其中,Ij={i|q(xi)=j},
最后的目标函数是关于wj的二次函数,这样它的极小值点和极小值分别为:
最后一个式子obj*正是衡量树结构q(x)好坏的标准,值越小代表结构越好。
D、迭代分裂
每次迭代优化树的一层,假设一个叶子分裂为两个叶子,则它的得分增加为:
如果增益小于γ,就不将此叶子分裂。
以上所述仅是本发明的优选实施方式,不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
Claims (4)
1.一种基于XGBoost算法的地铁客流量短时预测方法,其特征在于结合AFC系统建模,通过相关分析筛选变量,考虑多模式交通对地铁需求的影响构建特征向量,最后利用XGBoost算法进行预测地铁客流量;该方法包括如下步骤:
(1)基于交通大数据建模,结合AFC系统,充分利用交通大数据的优势,提高预测精度;
(2)通过相关分析筛选变量,考虑多模式交通对地铁需求的影响构建特征向;
(3)利用XGBoost算法进行预测,根据添加策略进行迭代分裂,得到地铁客流量短时预测结果。
2.根据权利要求1所述基于XGBoost算法的地铁客流量短时预测方法,其特征在于:所述步骤(1)包括如下步骤:
(1-1)收集一定范围内的AFC系统数据,包括通过一卡通采集的地铁、公交上车量数据;
(1-2)由高德手机导航数据计算得到城市道路拥堵指数:其中n为区域内道路条数;ti为该时段ki辆车的平均行驶时间;vi为相应道路限速;ki为某一时段第i条路上通过的车辆数;K为该时段区域内车辆总数;
(1-3)从限定研究范围、数据错误、数据噪点、数据冗余四个方面对原始数据进行数据清洗
(1-4)将数据分为工作日非高峰时段、工作日高峰时段、节假日三个部分,分别进行分析预测。
3.根据权利要求1所述的基于XGBoost算法的地铁客流量短时预测方法,其特征在于:所述步骤(2)包括如下步骤:
(2-1)选择Pearson相关系数进行相关分析:当相关系数超过0.5时则认为两种因素呈强相关关系,以此为标准进行变量的筛选;
(2-2)从地铁客流量、公交客流量和道路情况三个方面构建特征向量包括t时刻、t-1时刻和t-2时刻的地铁上车量、公交上车量和道路拥堵指数。
4.根据权利要求1所述的基于XGBoost算法的地铁客流量短时预测方法,其特征在于:所述步骤(3)包括如下步骤:
(3-1)构建目标函数:其中,为训练误差;为正则化项,yi为真实值,为估计值,fk为估计函数,它控制了树的结构和节点上的得分;
(3-2)固定已经学习到的模型,再每次向模型里添加一棵树,将第t次得到的预测记为目标函数变为:
(3-3)定义模型复杂度:其中ft(x)=wq(x),w∈RT,q:Rd→{1,2,…T},w是叶子上的分数矢量,q是一个将每个数据点分配给相应叶子的映射,T是叶子的数量。
(3-4)每次迭代优化树的一层,假设一个叶子分裂为两个叶子,则它的得分增加为:如果增益小于γ,就不将此叶子分裂。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627233.7A CN110533214A (zh) | 2019-07-12 | 2019-07-12 | 一种基于XGBoost算法的地铁客流量短时预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627233.7A CN110533214A (zh) | 2019-07-12 | 2019-07-12 | 一种基于XGBoost算法的地铁客流量短时预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110533214A true CN110533214A (zh) | 2019-12-03 |
Family
ID=68659772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627233.7A Pending CN110533214A (zh) | 2019-07-12 | 2019-07-12 | 一种基于XGBoost算法的地铁客流量短时预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533214A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414719A (zh) * | 2020-04-28 | 2020-07-14 | 中南大学 | 地铁站周边特征提取、交通需求估计方法及装置 |
CN112785044A (zh) * | 2020-12-31 | 2021-05-11 | 广州交信投科技股份有限公司 | 公共交通工具的实时满载率预测方法、装置、设备和介质 |
CN113469469A (zh) * | 2021-09-02 | 2021-10-01 | 杭州华网信息技术有限公司 | 一种基于分段式损失函数的学生体能分数预测方法 |
CN113570862A (zh) * | 2021-07-28 | 2021-10-29 | 太原理工大学 | 一种基于XGboost算法的大型交通拥堵预警方法 |
-
2019
- 2019-07-12 CN CN201910627233.7A patent/CN110533214A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414719A (zh) * | 2020-04-28 | 2020-07-14 | 中南大学 | 地铁站周边特征提取、交通需求估计方法及装置 |
CN112785044A (zh) * | 2020-12-31 | 2021-05-11 | 广州交信投科技股份有限公司 | 公共交通工具的实时满载率预测方法、装置、设备和介质 |
CN112785044B (zh) * | 2020-12-31 | 2021-11-23 | 广州交信投科技股份有限公司 | 公共交通工具的实时满载率预测方法、装置、设备和介质 |
CN113570862A (zh) * | 2021-07-28 | 2021-10-29 | 太原理工大学 | 一种基于XGboost算法的大型交通拥堵预警方法 |
CN113570862B (zh) * | 2021-07-28 | 2022-05-10 | 太原理工大学 | 一种基于XGboost算法的大型交通拥堵预警方法 |
CN113469469A (zh) * | 2021-09-02 | 2021-10-01 | 杭州华网信息技术有限公司 | 一种基于分段式损失函数的学生体能分数预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533214A (zh) | 一种基于XGBoost算法的地铁客流量短时预测方法 | |
Taniguchi et al. | Modelling city logistics using recent innovative technologies | |
Schiffer et al. | The electric location routing problem with time windows and partial recharging | |
Bischoff et al. | City-wide shared taxis: A simulation study in Berlin | |
Hsu et al. | Competition between high-speed and conventional rail systems: A game theoretical approach | |
CN110836675B (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
Militão et al. | Optimal fleet size for a shared demand-responsive transport system with human-driven vs automated vehicles: A total cost minimization approach | |
Hamadneh et al. | Impacts of shared autonomous vehicles on the travelers’ mobility | |
Venturini et al. | Linking narratives and energy system modelling in transport scenarios: A participatory perspective from Denmark | |
CN109934403A (zh) | 基于数学模型的电动汽车居民区域充电负荷分析预测方法 | |
Auad-Perez et al. | Ridesharing and fleet sizing for on-demand multimodal transit systems | |
Erath et al. | Large-scale agent-based transport demand model for Singapore | |
CN111291321A (zh) | 基于大数据的城市交通模型构建方法 | |
CN114358808A (zh) | 基于多源数据融合的公交od估计及分配方法 | |
CN115392949A (zh) | 基于乘客出发时间选择的轨道交通早高峰分时定价方法 | |
Castagna et al. | Demand-responsive rebalancing zone generation for reinforcement learning-based on-demand mobility | |
CN110567474B (zh) | 基于大数据的出租车实时巡游路线推荐系统及方法 | |
CN113469451B (zh) | 基于启发式算法的定制公交线路生成方法 | |
CN115170006A (zh) | 发车调度方法、装置、设备和存储介质 | |
Nasiboglu et al. | Origin-destination matrix generation using smart card data: Case study for Izmir | |
US11657446B2 (en) | Information processing apparatus for generating a vehicle operation plan in a plurality of different rental modes | |
CN108022009B (zh) | 一种关于高速铁路客流的组合预测方法 | |
Straka et al. | Use cases and introductory analysis of the dataset collected within the large network of public charging stations | |
Iravani et al. | Developing an urban congestion pricing model by considering sustainability improvement and using a multi-objective optimization approach | |
Jokinen | Economic perspectives on automated demand responsive transportation and shared taxi services-analytical models and simulations for policy analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191203 |
|
WD01 | Invention patent application deemed withdrawn after publication |