CN113222208A - 一种基于Ada-XGBoost的交通事故预测系统 - Google Patents
一种基于Ada-XGBoost的交通事故预测系统 Download PDFInfo
- Publication number
- CN113222208A CN113222208A CN202110324880.8A CN202110324880A CN113222208A CN 113222208 A CN113222208 A CN 113222208A CN 202110324880 A CN202110324880 A CN 202110324880A CN 113222208 A CN113222208 A CN 113222208A
- Authority
- CN
- China
- Prior art keywords
- prediction
- xgboost
- traffic accident
- model
- evaluation index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000002790 cross-validation Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000007547 defect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012843 least square support vector machine Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Ada‑XGBoost的交通事故预测系统,该系统包括基预测模型模块和实际预测应用两个模块。主要包括以下步骤:S1、收集交通事故历史数据,整理成训练样本集;S2、应用网格搜索法结合K折交叉验证对XGBoost进行参数寻优;S3、基于AdaBoost集成优化后的XGBoost;S4、同S2的方法,对AdaBoost进行参数寻优;S5、构建AdaBoost‑XGBoost强预测器(Ada‑XGBoost),训练模型并计算性能评价指标;S6、判断评价指标的合理性,如果合理,保存模型为基预测模型模块。否则,重复S2至S5,直至合理;S7、将待测样本集输入实际预测应用模块,实现交通事故预测。本发明以预测性能较佳的XGBoost为基算法,引入AdaBoost集成框架,同时进行参数寻优,构建的交通事故预测系统易于实现、效率较高、泛化能力较强。
Description
技术领域
本发明属于道路交通安全的技术领域,尤其涉及一种基于Ada-XGBoost的交通事故预测系统。
背景技术
随着我国经济社会的不断发展,人们对高品质生活的追求不断提高,汽车逐渐成为了最为普遍的出行方式。2020年8月,生态环境部发布的《中国移动源环境管理年报》显示,2019年,全国机动车保有量达3.48亿辆;汽车保有量达2.6亿辆,同比增长8.8%。另一方面,道路交通网络也得到了迅速的发展、完善。然而,随之而来的,还有不断增多的交通事故,交通安全问题日益严峻。因此,高效、高准确率的开展交通事故预防工作十分必要且紧迫。交通事故预测是交通事故预防的基础、核心工作。开展交通事故预测研究工作可以帮助相关部门提前了解交通事故发展趋势,进而更有针对性的采取预先管控措施,为事故预防工作提供了重要的科学支撑。它可以实现交通事故的被动处理转变为主动管控,有助于降低事故发生概率,提高道路交通安全水平,具有重要的理论价值及现实意义。
交通事故影响因素众多,建立传统的数学模型无法准确描述众多影响因素与交通事故指标的复杂的非线性关系,结果可信度较差。机器学习是利用历史数据训练出模型,然后使用模型进行预测的一种方法。基于机器学习构建道路交通事故预测系统即是对交通事故历史数据进行分析,根据其中的规律预测事故未来发展趋势,只要将历史数据存储进系统,系统即可以自动学习得到下一周期的交通事故情况。基于机器学习构建交通事故预测系统可以综合考虑多种评价指标,预测结果可靠性更高。
目前,交通事故预测领域的常用机器学习算法有神经网络类、支持向量机(SVM)等。例如,双尺度方程结合长短期记忆神经网络,建立的基于双尺度长短期记忆网络的交通事故量预测模型,通过附加动量因子改进的BP神经网络交通事故预测模型,基于贝叶斯网络的交通事故预测模型,基于支持向量机的交通事故预测模型,及基于最小二乘支持向量机的交通事故预测模型等。
神经网络类模型可执行聚类及预测等多种任务,当模型与数据匹配时,它能以任意期望精度使任何复杂的非线性模型与多维数据匹配。支持向量机在经验风险最小化的基础上同时采用了结构风险最小化准则,可以很好地解决小样本、非线性、高维数等实际问题。
然而,现有技术方案只是满足了交通事故预测模型保持较高准确率的要求。神经网络存在学习时间长、可能陷入局部最小值的不足。支持向量机在解决非线性问题时,找到一个合适的核函数较为困难,在大样本容量场景中效率较低。而且单一模型泛化能力有限,且对样本集依赖性较强。
发明内容
基于上述现有技术的不足,本发明所要解决的问题在于提供一种基于Ada-XGBoost的交通事故预测系统,解决现有预测模型易发生过拟合、效率较低、在大样本容量的场景中适用性较低的问题。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明提供一种基于Ada-XGBoost的交通事故预测系统,系统主要包含基预测模型模块和实际预测应用两个模块,预测实现包括以下步骤:
S1:应用数据归一化、填充缺失值等预处理措施对采集的原始交通事故历史数据进行预处理,整理成用于训练模型的样本集;
S2:将S1中最终得到的样本集输入系统的第一处输出处,训练XGBoost基预测器n次,得到n个XGBoost基预测器。
S3:基于AdaBoost集成框架,将S2中得到的n个基预测器加权组合,得到Ada-XGBoost集成模型;
S4:输出模型误差。如果在合理范围内,则保存模型,即为系统的基预测模型。否则,则返回至S2,更改XGBoost基预测器的主要超参数及训练基预测器的次数n等超参数的取值,然后重复S2-S4,直至模型输出的误差在合理范围内。
S5:将待预测的样本数据进行预处理,输入至系统的基预测模型模块,训练模型,系统输出值即为相应交通事故指标的预测值。
综上,本发明以一种由多棵CART树集成的算法,XGBoost为基本算法构建交通事故预测系统,XGBoost算法具有预测精度较高、训练速度较快、抗拟合能力较强、对样本量和特征数据类型要求较低等特点。同时,为了解决单一模型泛化能力有限、对样本依赖性较强等问题,本发明采用基于AdaBoost框架集成多个XGBoost基预测器的方式构建预测模型,在保证了预测精度的同时,增强了模型在交通事故预测场景中的适用性,极大改善了模型的预测性能。
上述说明仅是本发明技术方案的概述,为了更清晰简明的了解本发明的主要技术手段,可以按照说明书的内容进行实施。为了让本发明的目的、特征和实施方式更加浅显易懂,以下结合优选实施例,并结合附图,详细说明如下。
附图说明
为了更清晰地说明本发明的技术路线,下面将对附图作简单地介绍,
图1为本发明的基于Ada-XGBoost的基预测模型模块的基本原理图;
图2为本发明的基于机器学习的交通事故预测系统的流程图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及优点通过该详细说明将更加一目了然。
如图1至图2所示,应用本发明的基于Ada-XGBoost的交通事故预测系统实现交通事故指标的预测,包括以下步骤:
步骤1:收集预测对象的历史交通事故数据信息,获取预测对象的规律信息。历史事故数据的信息数量没有具体限制,为了确保预测结果的准确性,应秉承多多益善的原则。
步骤2:对历史数据样本集采取无量纲化、填充缺失值等预处理措施,将预处理后的数据集整理成用于训练预测模型的训练集,输入系统。
步骤3:超参数取值是影响模型预测性能的直接因素,因此,本发明引入参数寻优方法。基于训练集,应用网格搜索法对XGBoost的最大树深、决策树子树数量和学习率等主要超参数进行参数寻优。为了避免模型出现过拟合,同时进行K折交叉验证(以K=5为例)。
步骤4:应用AdaBoost集成框架集成步骤3中得到的参数优化后的XGBoost基预测器。下面对具体流程和算法公式进行简要说明:
Step1:初始化迭代次数n=1时,训练样本的权重分布Dn(i):
D1(i)=(ω11,ω12,...,ω1i),ω1i=1/m,i=1,2,...,m
Step2:训练GSK-XGBoost基预测器Gn(x)。
Step3:计算基预测器的预测误差:
计算基预测器的预测误差率:
Step4:计算基预测器在最终强预测器中所占的权重:
Step5:计算βn=en 2,更新权值分布:
其中,标准化因子乙的求法如下:
同时,更新迭代次数n=n+1。
Step6:若n≤N,返回Step2;否则执行Step7。
Step7:加权组合成强预测器:
步骤5:与步骤3所述寻优方法相同,基于训练集,应用网格搜索法同时进行5折交叉验证,对AdaBoost的基本算法迭代次数、学习率及随机数种子等主要超参数进行参数寻优。
步骤6:根据步骤3和步骤5的参数寻优结果构建Ada-XGBoost集成模型,应用训练集训练模型,同时计算模型的评价绝对误差、均方根误差等性能评价指标。
步骤7:分析步骤5输出的模型性能评价指标,如果在合理范围,则该模型即为系统的基预测模型模块,保存模型。否则,重复进行步骤3至步骤6,直至输出的评价指标处于合理范围值内。
步骤8:对待预测的交通事故数据进行预处理,整理成待预测样本集。
步骤9:将待预测样本集输入至系统的实际预测应用模块,进行交通事故实例的预测。
步骤10:输出系统预测的交通事故指标值。
值得说明的是,本发明可以应用的情景还有很多,比如预测的交通场景对象可以是道路,或者是更具体的铁路、山路、高速公路等。预测的周期可以为年度、季度甚至月份。而且以季度或者月份为时间周期开展预测研究时,可以有效规避因气象因素对交通安全造成的不可避免的影响,预测结果更具说明性。另外,预测的交通事故指标可以是事故次数、死亡人数、受伤次数及经济损失等变量。鉴于原理相同,此处不一一赘述。以上所述仅是为了说明本发明的实施方式,不能以此来限定本发明之权利范围。对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明保护范围。
Claims (2)
1.一种基于Ada-XGBoost的交通事故预测系统,其特征在于,包括以下步骤:
S1:收集交通事故历史数据信息,获取分析对象的交通安全规律;
S2:应用归一化、填充缺失值等预处理方法对交通事故历史数据、待预测数据进行预处理,形成可以输入预测系统的训练集、待预测样本集;
S3:基于AdaBoost框架集成多个XGBoost,消除应用单一算法建立模型的不足;
S4:应用网格搜索法结合K折交叉验证对AdaBoost和XGBoost进行参数寻优。
S5:根据模型评价指标值判断基预测模型的可行性,进而构建基预测模型模块;
S6:将待预测样本集输入至系统的实际预测应用模块,实现交通事故实例的预测,输出预测的交通事故指标值。
2.如权利要求1所述的基于Ada-XGBoost的交通事故预测系统,其特征在于,在步骤S5中,计算模型的评价指标值,观察评价指标值的大小,当评价指标值在合理范围内时,说明模型的预测误差为可接受范围,模型的预测准确率较高,此时应用于实际预测时得到的交通事故指标值可信度较高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324880.8A CN113222208A (zh) | 2021-03-26 | 2021-03-26 | 一种基于Ada-XGBoost的交通事故预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110324880.8A CN113222208A (zh) | 2021-03-26 | 2021-03-26 | 一种基于Ada-XGBoost的交通事故预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113222208A true CN113222208A (zh) | 2021-08-06 |
Family
ID=77084195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110324880.8A Withdrawn CN113222208A (zh) | 2021-03-26 | 2021-03-26 | 一种基于Ada-XGBoost的交通事故预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113222208A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780641A (zh) * | 2021-08-31 | 2021-12-10 | 同济大学 | 一种基于迁移学习的事故预测方法及装置 |
CN115018110A (zh) * | 2022-01-11 | 2022-09-06 | 昆明理工大学 | 一种基于XGBoost的公路阻断损失预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110848A (zh) * | 2019-05-05 | 2019-08-09 | 武汉烽火众智数字技术有限责任公司 | 一种组合预测模型构建方法及装置 |
CN110543988A (zh) * | 2019-08-28 | 2019-12-06 | 上海电力大学 | 一种基于XGBoost算法的光伏短期出力预测系统及方法 |
-
2021
- 2021-03-26 CN CN202110324880.8A patent/CN113222208A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110848A (zh) * | 2019-05-05 | 2019-08-09 | 武汉烽火众智数字技术有限责任公司 | 一种组合预测模型构建方法及装置 |
CN110543988A (zh) * | 2019-08-28 | 2019-12-06 | 上海电力大学 | 一种基于XGBoost算法的光伏短期出力预测系统及方法 |
Non-Patent Citations (2)
Title |
---|
李兴兵;黄力;: "基于神经网络的区域交通事故数预测建模研究", 信息系统工程, no. 05, 20 May 2020 (2020-05-20) * |
纪俊红 等: ""基于GSK-AdaBoost-LightGBM的交通事故死亡人数预测研究"", 《安全与环境工程》, vol. 28, no. 1, 31 January 2021 (2021-01-31), pages 24 - 28 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780641A (zh) * | 2021-08-31 | 2021-12-10 | 同济大学 | 一种基于迁移学习的事故预测方法及装置 |
CN115018110A (zh) * | 2022-01-11 | 2022-09-06 | 昆明理工大学 | 一种基于XGBoost的公路阻断损失预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377984B (zh) | 一种工业设备剩余有效寿命预测方法、系统及电子设备 | |
Shen et al. | Wind speed prediction of unmanned sailboat based on CNN and LSTM hybrid neural network | |
CN111301426A (zh) | 基于gru网络模型预测未来行驶过程能耗的方法 | |
CN111382929A (zh) | 一种构建河流硅藻水华预警模型的方法及装置 | |
CN113657668A (zh) | 基于lstm网络的电力负荷预测方法及系统 | |
CN111126868B (zh) | 一种道路交通事故发生风险确定方法及系统 | |
CN112966871B (zh) | 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统 | |
CN113222208A (zh) | 一种基于Ada-XGBoost的交通事故预测系统 | |
CN104992244A (zh) | 一种基于sarima和rbf神经网络集成组合模型的机场货运量预测分析方法 | |
CN110555989A (zh) | 一种基于Xgboost算法的交通量预测方法 | |
Xu et al. | A combined model of random forest and multilayer perceptron to forecast expressway traffic flow | |
CN115456306A (zh) | 一种母线负荷预测方法、系统、设备及存储介质 | |
CN114742209A (zh) | 一种短时交通流预测方法及系统 | |
CN116933946A (zh) | 一种基于客流去向结构的轨道交通od客流预测方法及系统 | |
CN104217296A (zh) | 一种上市公司绩效综合评价方法 | |
CN116862743A (zh) | 一种旅客联程运输方案预测方法、系统及设备和介质 | |
CN116663742A (zh) | 基于多因素和模型融合的区域运力预测方法 | |
CN116739172A (zh) | 一种基于爬坡识别的海上风电功率超短期预测方法及装置 | |
CN113344290B (zh) | 基于U-Net网络的次季节降水气象预报订正方法 | |
CN115238789A (zh) | 基于改进gru的金融行业另类数据预测方法和系统 | |
CN115271154A (zh) | 一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法 | |
CN113807704A (zh) | 一种城市轨道交通数据的智能算法平台构建方法 | |
CN108985526B (zh) | 运力预测方法及装置、计算机可读存储介质、终端 | |
CN112801356A (zh) | 一种基于ma-lssvm的电力负荷预测方法 | |
CN117892463B (zh) | 一种基于负荷预测的低压配电网设计系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210806 |
|
WW01 | Invention patent application withdrawn after publication |