CN110555989B - 一种基于Xgboost算法的交通量预测方法 - Google Patents

一种基于Xgboost算法的交通量预测方法 Download PDF

Info

Publication number
CN110555989B
CN110555989B CN201910756049.2A CN201910756049A CN110555989B CN 110555989 B CN110555989 B CN 110555989B CN 201910756049 A CN201910756049 A CN 201910756049A CN 110555989 B CN110555989 B CN 110555989B
Authority
CN
China
Prior art keywords
data
traffic
xgboost
prediction
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910756049.2A
Other languages
English (en)
Other versions
CN110555989A (zh
Inventor
温惠英
张东冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910756049.2A priority Critical patent/CN110555989B/zh
Publication of CN110555989A publication Critical patent/CN110555989A/zh
Application granted granted Critical
Publication of CN110555989B publication Critical patent/CN110555989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Analytical Chemistry (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于Xgboost算法的交通量预测方法,包括如下步骤:步骤S1:采集交通量数据,进行数据归一化,划分为训练数据和测试数据;步骤S2:基于Xgboost算法,对训练数据进行模型训练,确定模型参数;步骤S3:输入Xgboost模型参数、测试数据,进行交通流的预测;步骤S4:对Xgboost模型预测结果进行误差评估,还原预测数据进行输出。本发明的Xgboost模型在预测精度提升的同时,预测时间大幅减少,在高速公路交通量的预测中具有更好的预测性能和泛化能力。

Description

一种基于Xgboost算法的交通量预测方法
技术领域
本发明涉及机器学习方法和交通量预测等技术领域,具体涉及一种基于Xgboost算法的交通量预测方法。
背景技术
交通流量是反应高速公路交通状态的重要指标,短期的交通量预测是高速公路管理的重要内容,是智能交通的重点方向。高速公路系统是复杂非线性的系统,对短期交通量的研究有助于管理部门发布交通信息发布和提高交通诱导效果,提高高速公路系统的运行效率和稳定性。
在统计特性研究层面,有趋势外推法、线性回归、隐形马尔科夫预测模型及卡尔曼滤波等。在机器学习方法层面,通过挖掘历史数据隐含的信息,实现交通量的迭代估计。支持向量机、迭代决策树、随机森林、贝叶斯网络、小波理论、改进粒子群算法优化BP神经网络等不同模型都应用在交通量的预测中。在深度学习中,采用深度信念网络对数据先进行特征学习提取,再采用顶层SVM模型进行预测。
以上模型将机器学习理论应用到交通量预测领域,并取得了较好的成果。但在有限的计算条件下,这些模型因为复合了双重甚至更多的模型,参数较多,模型预测时间长,对预测精度有影响。
发明内容
针对上述及问题,本发明提供了一种基于Xgboost算法的交通量预测方法,旨在解决在交通量预测中,由于复合模型预测带来的参数寻优困难、计算资源消耗大,预测性能较差的问题。
本发明的上述目的至少通过如下技术方案之一实现:
一种基于Xgboost算法的交通量预测方法,包括如下步骤:
步骤S1:采集交通量数据,进行数据归一化,划分为训练数据和测试数据;
步骤S2:基于Xgboost算法,对训练数据进行模型训练,确定模型参数;
步骤S3:输入Xgboost模型参数、测试数据,进行交通流的预测;
步骤S4:对Xgboost模型预测结果进行误差评估,还原预测数据进行输出。
进一步地,所述步骤S1具体包括:
采用线圈对行驶车辆信息收集统计,并分为若干不同时间间隔的交通量数据;
对数据进行归一化,并按照比例划分为训练数据和测试数据,其中,所述数据归一化采用min-max标准化,公式如下:
Figure BDA0002168746780000021
其中,x*是归一化后的交通量数据,其中max为样本数据的最大值,min为样本数据的最小值。
进一步地,所述分为若干不同时间间隔的交通量数据具体指分为30分钟、60分钟两个不同间隔的交通量数据。
进一步地,所述步骤S2中,Xgboost算法将一系列弱学习器的预测结果组合成为强学习器,对损失函数进行二阶泰勒展开,将预测项和正则化项结合起来,在优化过程中加入二阶导数信息,简化目标函数实现计算资源优化,采用弱分类器集成算法选取合适的参数,具体流程包括:
步骤S21、采用岭回归算法(Ridge Regression)运行训练数据,选取最优alpha值;
步骤S22、采用随机森林算法(Random Forest)运行训练数据,选取最优参数;
步骤S23、采用融合算法(Stacking)采取两种模型的优点,提取最优参数,完成模型训练。
进一步地,所述步骤S3具体包括:
输入Xgboost模型参数,采用时间窗步长参数对输入数据进行处理,将前n个时刻的交通量数据输入训练好的Xgboost模型,生成下一时刻的交通量数据预测结果,即n+1时刻的交通量。
进一步地,所述步骤S4具体包括:
采用训练好的Xgboost模型对预测数据进行交通量预测,将预测数据同实际数据进行误差计算,误差计算采用均方误差(MSE)和均方根误差(RMSE)作为评估指标,还原预测数据进行输出:
均方误差:
Figure BDA0002168746780000022
均方根误差(RMSE):
Figure BDA0002168746780000023
式中:n是数据集个数,
Figure BDA0002168746780000024
代表预测数据,yi代表真实数据。
本发明提出的一种基于Xgboost算法的交通量预测方法,包括如下步骤:对线圈采集的数据进行归一化处理,分为训练数据和测试数据;采用粒子群算法对LSTM神经网络的模型参数进行优化;对Xgboost模型进行训练;调用预测模型对测试数据进行预测,并评估预测误差。本发明利用了Xgboost模型集成弱学习器、运算速度快的特点,可以得到更高的预测精度,且对不同间隔数据样本有良好的适用性。
与现有技术相比,本发明的有益效果在于:
1、Xgboost模型底层使用CART树,叶子节点采用数值,有助于算法的高效优化,提升运行速度;
2、Xgboost模型分类树切割点采用近似值算法,枚举类算法提高了运行速度;
3、Xgboost模型将损失函数扩展到二阶可导,可以更加快速地得到最优解;
3、Xgboost模型对不同间隔的数据样本具有良好的适用性。
附图说明
图1是本发明实施例的流程示意图。
图2是四种模型不同数据中的预测均方误差。
图3是四种模型不同数据中的预测均方跟。
具体实施方式
下面结合实例对本发明做进一步的说明,所描述的实施例旨在便于对本发明的理解,但对其不起任何限定作用。
一种基于Xgboost算法的交通量预测方法,主要流程如图1所示,包括如下步骤:
步骤S1:交通量数据采集,并进行数据归一化预处理,分为训练数据和测试数据。
所述交通量数据来源于城市公路线圈采集的车辆信息,获得时间段内交通量信息,数据样本间隔可以根据实际预测需求制定,本发明采用的是30分钟、60分钟两个间隔样本数据。读取获得原始交通量数据,采用min-max标准化方法对数据归一化:
Figure BDA0002168746780000031
其中,x*是归一化后的交通量数据,其中max为样本数据的最大值,min为样本数据的最小值。
步骤S2、基于Xgboost算法,对训练数据进行模型训练,确定模型参数;其中,Xgboost将一系列弱学习器的预测结果组合成为强学习器,对损失函数进行二阶泰勒展开,将预测项和正则化项结合起来,在优化过程中加入二阶导数信息,简化目标函数实现计算资源优化。采用弱分类器集成算法选取合适的参数。
具体包括步骤:
步骤S21、采用岭回归算法(Ridge Regression)运行训练数据,选取最优alpha值;
步骤S22、采用随机森林算法(Random Forest)运行训练数据,选取最优参数;
步骤S23、采用融合算法(Stacking)采取两种模型的优点,提取最优参数,完成模型训练;
步骤S3、:输入Xgboost模型参数、测试数据,进行交通流的预测;具体包括包括:输入Xgboost模型参数,采用时间窗步长参数对输入数据进行处理,将前n个时刻的交通量数据输入训练好的Xgboost模型,生成下一时刻的交通量数据预测结果,即n+1时刻的交通量。
步骤S4、对Xgboost模型预测结果进行误差评估,还原预测数据进行输出,具体包括:采用训练好的Xgboost模型对预测数据进行交通量预测,将预测数据同实际数据进行误差计算,误差计算采用均方误差(MSE)和均方根误差(RMSE)作为评估指标:
均方误差:
Figure BDA0002168746780000041
均方根误差(RMSE):
Figure BDA0002168746780000042
式中:n是数据集个数,
Figure BDA0002168746780000043
代表预测数据,yi代表真实数据。
本发明的有效性可以通过实施例来进一步说明,实施例的数据不限制本发明的应用范围。
实验平台:处理器为Intel i5-6500,内存为16.0GB;系统是Windows10(64位);程序语言版本为Python3.6。
实验内容:
本实施例的数据来源广州市某公路的线圈数据。采取方法为每隔5分钟交通量数据。本实施例的数据量大,真实性高。本发明的数据整理后采集间隔分别为30分钟,60分钟,能够有效保证管理部门数据预测需求。采用离差标准化方法进行归一化,实验以前8天数据为训练集,后2天数据为测试集。
根据训练数据得到Xgboost模型参数,分别为:learning_rate=0.1,n_estimators=100,max_depth=5,min_child_weight=5,gamma=0.1,reg_alpha=1,reg_lambda=1。将这些参数作为Xgboost模型的参数进行测试数据的预测。
实验选取了在行程时间预测中常用的模型作为对照:随机森林算法(RF)、支持向量机算法(SVM)、最近邻算法(KNN),同本发明的算法(Xgboost)进行预测性能对比。
图2是四种模型不同数据中的预测均方误差,图3是四种模型不同数据中的预测均方跟。四种模型的行程时间预测性能对比如表1所示。
表1为算法行程时间预测性能对比
Figure BDA0002168746780000051
综上所述,本发明提出的一种基于Xgboost算法的交通量预测方法,能够获得更好的预测性能,在降低模型的复杂度、减少过拟合、降低计算量的同时,提高了交通量预测精度。本发明所提出的方法,在两个不同间隔数据中误差均最低,证明了方法具有良好的适用性。
以上是本发明的实施例,但本发明并不局限于上述特定实施方式,凡依本发明技术方案作出的改变,所产生的功能作用未超出本方法技术方案的范围时,其同样应当视作本发明所公开的内容。

Claims (5)

1.一种基于Xgboost算法的交通量预测方法,其特征在于,包括如下步骤:
步骤S1:采集交通量数据,进行数据归一化,划分为训练数据和测试数据;
步骤S2:基于Xgboost算法,对训练数据进行模型训练,确定模型参数;
步骤S3:输入Xgboost模型参数、测试数据,进行交通流的预测;
步骤S4:对Xgboost模型预测结果进行误差评估,还原预测数据进行输出;
其中,所述步骤S2中,Xgboost算法将一系列弱学习器的预测结果组合成为强学习器,对损失函数进行二阶泰勒展开,将预测项和正则化项结合起来,在优化过程中加入二阶导数信息,简化目标函数实现计算资源优化,采用弱分类器集成算法选取合适的参数,具体流程包括:
步骤S21、采用岭回归算法运行训练数据,选取最优alpha值;
步骤S22、采用随机森林算法运行训练数据,选取最优参数;
步骤S23、采用融合算法采取两种模型的优点,提取最优参数,完成模型训练。
2.根据权利要求1所示的基于Xgboost算法的交通量预测方法,其特征在于,所述步骤S1具体包括:
采用线圈对行驶车辆信息收集统计,并分为若干不同时间间隔的交通量数据;
对数据进行归一化,并按照比例划分为训练数据和测试数据,其中,所述数据归一化采用min-max标准化,公式如下:
Figure FDA0003146976420000011
其中,x*是归一化后的交通量数据,其中max为样本数据的最大值,min为样本数据的最小值。
3.根据权利要求2所示的基于Xgboost算法的交通量预测方法,其特征在于,所述分为若干不同时间间隔的交通量数据具体指分为30分钟、60分钟两个不同间隔的交通量数据。
4.根据权利要求1所示的基于Xgboost算法的交通量预测方法,其特征在于,所述步骤S3具体包括:
输入Xgboost模型参数,采用时间窗步长参数对输入数据进行处理,将前n个时刻的交通量数据输入训练好的Xgboost模型,生成下一时刻的交通量数据预测结果,即n+1时刻的交通量。
5.根据权利要求1所示的基于Xgboost算法的交通量预测方法,其特征在于,所述步骤S4具体包括:
采用训练好的Xgboost模型对预测数据进行交通量预测,将预测数据同实际数据进行误差计算,误差计算采用均方误差和均方根误差作为评估指标,还原预测数据进行输出:
均方误差:
Figure FDA0003146976420000021
均方根误差:
Figure FDA0003146976420000022
式中:n是数据集个数,
Figure FDA0003146976420000023
代表预测数据,yi代表真实数据。
CN201910756049.2A 2019-08-16 2019-08-16 一种基于Xgboost算法的交通量预测方法 Active CN110555989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910756049.2A CN110555989B (zh) 2019-08-16 2019-08-16 一种基于Xgboost算法的交通量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910756049.2A CN110555989B (zh) 2019-08-16 2019-08-16 一种基于Xgboost算法的交通量预测方法

Publications (2)

Publication Number Publication Date
CN110555989A CN110555989A (zh) 2019-12-10
CN110555989B true CN110555989B (zh) 2021-10-26

Family

ID=68737551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910756049.2A Active CN110555989B (zh) 2019-08-16 2019-08-16 一种基于Xgboost算法的交通量预测方法

Country Status (1)

Country Link
CN (1) CN110555989B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063194A (zh) * 2020-01-13 2020-04-24 兰州理工大学 一种交通流预测方法
CN111462485A (zh) * 2020-03-31 2020-07-28 电子科技大学 一种基于机器学习的交通路口拥堵的预测方法
CN112668500B (zh) * 2020-12-30 2023-12-29 太原科技大学 一种基于Xgboost的轧机多目标振动预测方法
CN112651570B (zh) * 2020-12-31 2022-07-26 长安大学 高速公路服务区交通量预测模型构建、预测方法及装置
CN113570862B (zh) * 2021-07-28 2022-05-10 太原理工大学 一种基于XGboost算法的大型交通拥堵预警方法
CN114463014B (zh) * 2022-02-23 2023-07-07 河南科技大学 基于SVM-Xgboost的移动支付风险预警方法
CN115440029B (zh) * 2022-07-29 2023-08-08 重庆大学 一种考虑检测设备分布的车检器数据修复方法
CN115439206B (zh) * 2022-11-08 2023-03-07 税友信息技术有限公司 一种申报数据预测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730893A (zh) * 2017-11-30 2018-02-23 大连理工大学 一种基于乘客出行多维特征的共享巴士站点客流预测方法
CN107919016A (zh) * 2017-11-15 2018-04-17 夏莹杰 基于多源检测器数据的交通流参数缺失填补方法
CN109191828A (zh) * 2018-07-16 2019-01-11 江苏智通交通科技有限公司 基于集成学习的交通参与者事故风险预测方法
CN109191840A (zh) * 2018-09-13 2019-01-11 电子科技大学 一种基于智能终端的实时交通状况判定方法
CN109243172A (zh) * 2018-07-25 2019-01-18 华南理工大学 基于遗传算法优化lstm神经网络的交通流预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164709A (zh) * 2012-12-24 2013-06-19 天津工业大学 一种基于禁忌搜索算法优化支持向量机的方法
CN107392241B (zh) * 2017-07-17 2020-12-25 北京邮电大学 一种基于加权列抽样XGBoost的图像目标分类方法
CN110110862A (zh) * 2019-05-10 2019-08-09 电子科技大学 一种基于适应性模型的超参数优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107919016A (zh) * 2017-11-15 2018-04-17 夏莹杰 基于多源检测器数据的交通流参数缺失填补方法
CN107730893A (zh) * 2017-11-30 2018-02-23 大连理工大学 一种基于乘客出行多维特征的共享巴士站点客流预测方法
CN109191828A (zh) * 2018-07-16 2019-01-11 江苏智通交通科技有限公司 基于集成学习的交通参与者事故风险预测方法
CN109243172A (zh) * 2018-07-25 2019-01-18 华南理工大学 基于遗传算法优化lstm神经网络的交通流预测方法
CN109191840A (zh) * 2018-09-13 2019-01-11 电子科技大学 一种基于智能终端的实时交通状况判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于XGBoost节假日路网流量预测研究;黄骞等;《公路》;20181231;正文摘要、3.1节,3.3节 *
短时交通流量预测分析;刘永超;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20190115;摘要第2段,正文第4.3.2节第1-2段、最后一段,第5.2节第1段 *

Also Published As

Publication number Publication date
CN110555989A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110555989B (zh) 一种基于Xgboost算法的交通量预测方法
CN108986470B (zh) 粒子群算法优化lstm神经网络的行程时间预测方法
CN109243172B (zh) 基于遗传算法优化lstm神经网络的交通流预测方法
CN110782658B (zh) 一种基于LightGBM算法的交通量预测方法
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
CN110648014B (zh) 一种基于时空分位数回归的区域风电预测方法及系统
CN113554466B (zh) 一种短期用电量预测模型构建方法、预测方法和装置
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN113780684A (zh) 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法
CN113988426A (zh) 一种基于fcm聚类和lstm的电动汽车充电负荷预测方法及系统
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN115099461A (zh) 基于双分支特征提取的太阳辐射预测方法及系统
CN115310536A (zh) 基于神经网络和gcn深度学习模型的水库水位预测预警方法
CN116244647A (zh) 一种无人机集群的运行状态估计方法
Yuan et al. Research on K nearest neighbor non-parametric regression algorithm based on KD-tree and clustering analysis
Alkarim et al. Ensemble Learning-based Algorithms for Traffic Flow Prediction in Smart Traffic Systems
CN112001436A (zh) 一种基于改进的极限学习机的水质分类方法
Gao et al. Short-term traffic flow prediction based on time-Space characteristics
CN116578858A (zh) 基于图神经网络的空压机故障预测与健康度评价方法及系统
Mao et al. Naive Bayesian algorithm classification model with local attribute weighted based on KNN
Khairuddin et al. Hybrid neighbourhood component analysis with gradient tree boosting for feature selection in forecasting crime rate
Wang et al. Prediction of air pollution based on FCM-HMM Multi-model
CN114548212A (zh) 一种水质评价方法及系统
Li et al. GA-SVR traffic flow prediction based on phase space reconstruction with improved KNN method
CN113822583A (zh) 配电网投资需求预测方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant