CN113326971A - 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 - Google Patents
一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 Download PDFInfo
- Publication number
- CN113326971A CN113326971A CN202110480788.0A CN202110480788A CN113326971A CN 113326971 A CN113326971 A CN 113326971A CN 202110480788 A CN202110480788 A CN 202110480788A CN 113326971 A CN113326971 A CN 113326971A
- Authority
- CN
- China
- Prior art keywords
- duration
- traffic accident
- adaboost
- pca
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于PCA和Adaboost的隧道交通事故持续时间预测方法,包括以下步骤:导入历史交通事故数据:首先对数据进行预处理,根据事故的持续时间划分为短、中、长和特长四个等级;并对预测模型中的输入变量进行缺失值检验和处理;最后对分类变量进行热编码处理。使用PCA方法对原输入变量进行去中心化处理并计算其协方差矩阵,在此基础上计算其特征值和特征向量,从小到大依次确定若干个特征值及相应的特征向量。首先基于弱分类器对交通事故持续时间进行分类,经过对样本的训练得到基础分类结果;然后采用Adaboost迭代框架计算弱分类器的分类错误样本,提高分类错误样本的权值,在此基础上构建下一个弱分类器,多次迭代后得到最终的强分类器。
Description
技术领域
本发明涉及交通事故预测领域,具体是指一种基于PCA(Principle ComponentAnalysis,主成分分析法)和Adaboost(Adaboost分类)的高速公路隧道持续时间预测方法。
背景技术
高速公路作为国家经济的动脉,在城市中远距离交通运输中起着无可比拟的作用。而高速公路隧道作为公路交通中的一种特殊的构造物是交通事故的多发点,也是严重事故的易发点。相较于普通路段,隧道路段的事故会造成更大程度的交通拥堵,从而导致交通出行者需要花费更多的出行时间和成本,同时也会对人身、财产安全造成一定的威胁,容易引发一系列社会问题。因此,及时准确的预测交通事故持续时间是实现有效交通管控的前提条件,而且可以为事故下诱导性和预测性交通信息的及时发布、以及事故影响的快速消除提供依据。
目前针对高速公路隧道交通事故持续时间的预测方法主要包括两类。第一类是参数模型,这种模型一般假设事故持续时间满足某种分布,然后进行拟合优度的检验,其中常用的有对数正态分布、威布尔分布等。常用的方法包括概率分布、回归分析、决策树、生存分析等方法。这类方法的有点在于模型较为简单,并且对于最后的预测结果解释性较强;而确定是对数据质量要求较高,且预测精度往往不高。第二类方法是非参数方法,如神经网络、遗传算法、随机森林、支持向量机、贝叶斯网络等方法。尤其是近年来,随着“人工智能”、“数据挖掘”等思想的发展,以上方法得到了很大发展。且众多学者的研究结果表明相较于参数方法,非参数方法的预测精度更高,而其缺点是非参数方法的可移植性较差,且该类方法往往是依赖于“黑箱操作”,因此对于预测结果的解释性不如参数方法。本文提出一种基于PCA和Adaboost算法的隧道交通事故持续时间预测方法,能直接采用弱分类器对隧道交通事故进行分类,并采用Adaboost的迭代框架将弱分类器集成为强分类器,从而进一步提高了分类准确率。
发明内容
本发明的主要目的在于解决现有技术中存在的隧道交通事故持续时间样本量较大且预测精度不够高的问题,提供一种基于PCA和Adaboost的隧道交通事故持续时间预测方法。
本发明为解决上述技术问题采用以下技术方案:
一种基于PCA和Adaboost的隧道交通事故持续时间预测方法,包括如下步骤:
第一步:从高速公路事件管理中心数据库提取历史隧道交通事故数据,根据事故持续时间划分为短、中、长和特长四个等级,并对数据进行缺失值检验和筛选;
第二步:使用PAC主成分分析法对第一步得到的数据进行的分析处理;
第三步:将第二步所得的主成分矩阵和相对应的事故持续时间的等级,代入Adaboost模型及逆行训练,最终得到隧道交通事故持续时间的预测模型。
进一步,第一步的执行步骤如下:
(1)根据事故持续时间的长短划分为短、中、长和特长四个等级;
(2)对输入变量中的类型进行检验,对于缺失值比例大于30%的变量不予考虑;对于缺失值比例不超过30%的变量使用特定方法填充缺失值;
(3)对分类变量进行热编码处理。
进一步,第二步的执行步骤如下:
设第一步得到的数据中包含有m个样本,且每个样本维度为n,X={X1,X2,X3,…Xn}={x11,x12,x13,…,x1n;x21,x22,x23,…,x2n;…;xm1,xm1,xm3,…,xmn},xij为第i个样本中第j个维度;
(1)采用Min-max归一化方法进行归一化,得到标准化矩阵Z;
(3)求解协方差矩阵R的特征值和特征向量;
(4)选取最大的k个特征值,并将其对应的k个特征向量作为行向量组成特征向量矩阵P;其中,k<n;
(5)用Z与P相乘,得到主成分矩阵为Y=PZ。
进一步,第三步的执行步骤如下:
(1)输入训练集T={Y,C}={(Y1,C1),…,(Yi,Ci),…,(Ym,Cm)},其中Y为经过PCA处理得到的主成分矩阵,m为样本数,Ci表示对应Yi的事故持续时间的等级;
(2)调用弱分类器,并初始化迭代次数a=1;
(4)使用分配权重后的输入训练集迭代训练弱分类器;
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明是一种基于PCA和Adaboost的隧道交通事故持续时间预测方法,经过原始数据地导入及预处理阶段,使用PCA方法提取特征向量,并使用弱分类器对隧道交通事故持续时间进行分类,之后使用Adaboost迭代框架将弱分类器组合成强分类器,从而提高了持续时间等级的预测转确率。
附图说明
图1是本发明所述隧道交通事故预测方法的流程示意图。
具体实施方式
以下结合具体实施实例和附图对本发明的技术方案作进一步阐述。
一种基于PCA和Adaboost的隧道交通事故持续时间预测方法,如图1所示,包括如下步骤:
第一步,从某省的高速公路事件管理中心数据库提取隧道交通事故持续时间相关数据,并对数据集中的持续时间划分等级和输入变量进行处理;
(1)根据事故持续时间的长短划分为短、中、长和特长四个等级;
(2)对输入变量中的类型进行检验,对于缺失值比例大于30%的变量不予考虑;对于缺失值比例不超过30%的变量使用特定方法填充缺失值;
(3)对分类变量进行热编码处理。
第二步,使用PAC主成分分析法对输入变量原始数据相关矩阵内部结构关系的分析和计算,生成一系列互不相关的新输入变量;
(1)对输入变量进行去归一化处理;
(2)计算标准化矩阵的协方差矩阵;
(3)计算协方差矩阵的特征值和特征向量;
(4)选择若干个数的特征值及相应的特征向量;
(5)根据特征向量矩阵和原输入变量计算得到主成分矩阵。
第三步,将所得的主成分矩阵和相对应的结果矩阵,即事故持续时间的等级,代入Adaboost模型及逆行训练,最终得到隧道事故持续时间的预测模型。
(1)调用弱分类器,并确定弱分类器的迭代次数;
(2)初始化每个样本的权重进行构建第一个弱分类器,并得到该训练后的错误率;
(3)基于该错误率更新下一次迭代过程中的权重,并构建下一次弱分类器;
(4)重复上一步步骤,直至迭代结束;
(5)组合以上若干个弱分类器的训练结果。
本发明的进一步改进在于,通过对输入变量中的缺失值处理时,对于连续型数值变量采用该变量的均值替代缺失值;而对于分类变量,以尽量不改变已有数据的分布比例为原则,随机补充空缺值,并重复该操作10次。以上两种操作都在一定程度上减少了数据缺失值引起的误差。
本发明的进一步改进在于,通过灵活地选用使预测精度达到最大地特征向量个数,从而减小了随机固定或者因个人经验固定特征向量个数而引起地误差。
本发明的进一步改进在于,引入了Boost算法的思想,即采用分类性能较为强大的Adaboost模型用于解决隧道交通事故持续时间的分类问题。
下面通过具体实施例,对以上方法作进一步阐述。
第一步,从高速公路事件管理中心提取隧道交通事故持续时间相关数据,并对数据进行相关预处理。
本实例涉及数据共涉及1725起高速公路隧道交通事故,其中按照持续时间的长短从小至大排列处于40%、70%和90%的样本所对应的事故持续时间分别为47min、94min、189min,为了方便划分及解释,本发明中依据其微调值将事故持续时间等级划分为四个水平,即1)短型持续时间(<45min);2=中型持续时间(45min≤T<90min);3)长型持续时间(90min≤T<180min);4)长型持续时间(T≥180min)。
本发明中不考虑缺失值比例大于30%的变量(如:影响车道)。而对于缺失值比例不超过30%的连续变量(如:隧道交通量AADT),采用该变量的均值替换缺失值;而对于缺失值比例不超过30%的分类变量,以不改变已有数据分布情况为原则,使用已有类别随机填补缺失值,如对于“天气类型”变量,分别含有“良好”和“恶劣”的样本数为1305和132起,共计1437起,数据缺失值所占比例为(1725-1437)/1725*100%=20.04%,因此随机填充“”和“”类别的样本数为262起和26起。同时,为了较小单次填充所引起的误差,本操作执行10次,取预测准确率的均值为最终预测准确率,即
对于分类变量,使用热编码方法对其处理,如对于“天气”变量,仅含有“良好”和“恶劣”两种类别,经过热编码方法处理后原数据从1列数据变为两列数据,“良好”和“恶劣”所对应的样本用(1,0)和(0,1)来分别表示。
第二步,使用PAC主成分分析法对输入变量原始数据相关矩阵内部结构关系的分析和计算,生成一系列互不相关的新输入变量。
对于包含有m个样本,且每个样本维度为n的输入向量集X={X1,X2,X3,…Xn}={x11,x12,x13,…,x1n;x21,x22,x23,…,x2n;…;xm1,xm2,xm3,…,xmn}。
(3)求解协方差矩阵的特征值λi和特征向量bi。
(4)选取最大的k个特征值,并将其对应的k个特征向量分别作为行向量组成特征向量矩阵P(k<n)。在本发明中,为了确定预测性能最佳的k值,将k的值从1至n依次测试。
(5)用Z与选取的特征向量P相乘,得到k个主成分,即降维结果,结果主成分矩阵为Y=PZ。
第三步:将所得的主成分矩阵和相对应的结果矩阵,即事故持续时间的等级,代入Adaboost模型及进行训练,最终得到隧道事故持续时间的预测模型。具体实现步骤如下:
(1)输入训练集T={Y,C}={(Y1,C1),(Y2,C2),…(Ym,Cm)},其中Y为经过PCA处理得到的主成分矩阵,行数为m,表示样本量为m;列数为k,表示对于每个样本,其维度为k。矩阵C表示对于每个样本,其相对应的值,即对应于每起事故发生时的因素,其所对应的事故持续时间等级。
(2)调用弱分类器;并规定弱分类器的迭代次数a=1,2,3,…,A.。
(4)在设置初始状态后开始使用权重分布为Da的样本T循环训练A个弱分类器。
(6)根据错误率ea计算分类器Ga在最终强分类器中所占的权重且由公式可得,当错误率小于1/2时,αa随着错误率的减小而增大,此时分类错误率较小的分类器将占有更大的权重,因此设定当ea>0.5时,停止迭代。
(7)根据第a个弱分类器的分布情况修正第(a+1)个分类器的样本权重Da+1=(wa+1,1,wa+1,2,wa+1,3,…,wa+1,m),其中 由公式可以看出,分类错误的样本权重增加,分类正确的样本权重减少,因此可以增大上一轮被分类错误的样本被正确分类的概率。
本发明实例阐述中,所构建的基于PAC和Adaboost的隧道交通事故持续时间预测模型,首先从数据库中提取相关数据,经数据预处理阶段得到用于隧道交通持续时间预测数据的样本数据,;然后使用PCA方法对该数据的输入变量原始数据相关矩阵内部结构关系的分析和计算,生成一系列互不相关的新输入变量其中,;之后将主成分矩阵相应的输出变量代入弱分类器学习迭代,根据预测错误率更新下一次弱分类器的权重,并最后组合所以弱分类器得到强分类器。其中,在PCA阶段,为了获得最佳预测性能,分别计算每若干个特征值及相应的特征向量下的预测精度,取最高值代表最佳预测性能;同时为了减小单次测试偶然性引起的误差,对分类变量缺失值的替补操作重复10次。
应当指出,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也在本申请权利要求的保护范围内。
Claims (4)
1.一种基于PCA和Adaboost的隧道交通事故持续时间预测方法,其特征在于,包括如下步骤:
第一步:从高速公路事件管理中心数据库提取历史隧道交通事故数据,根据事故持续时间划分为短、中、长和特长四个等级,并对数据进行缺失值检验和筛选;
第二步:使用PAC主成分分析法对第一步得到的数据进行的分析处理;
第三步:将第二步所得的主成分矩阵和相对应的事故持续时间的等级,代入Adaboost模型及逆行训练,最终得到隧道交通事故持续时间的预测模型。
2.根据权利要求1所述的一种基于PCA和Adaboost的隧道持续时间预测方法,其特征在于,第一步的执行步骤如下:
(1)根据事故持续时间的长短划分为短、中、长和特长四个等级;
(2)对输入变量中的类型进行检验,对于缺失值比例大于30%的变量不予考虑;对于缺失值比例不超过30%的变量使用特定方法填充缺失值;
(3)对分类变量进行热编码处理。
3.根据权利要求1所述的一种基于PCA和Adaboost的隧道持续时间预测方法,其特征在于,第二步的执行步骤如下:
设第一步得到的数据中包含有m个样本,且每个样本维度为n,X={X1,X2,X3,...Xn,}={x11,x12,x13,...,x1n;x21,x22,x23,...,x2n;...;xm1,xm2,xm3,...,xmn},xij为第i个样本中第j个维度;
(1)采用Min-max归一化方法进行归一化,得到标准化矩阵Z;
(3)求解协方差矩阵R的特征值和特征向量;
(4)选取最大的k个特征值,并将其对应的k个特征向量作为行向量组成特征向量矩阵P;其中,k<n;
(5)用Z与P相乘,得到主成分矩阵为Y=PZ。
4.根据权利要求1所述的一种基于PCA和Adaboost的隧道持续时间预测方法,其特征在于,第三步的执行步骤如下:
(1)输入训练集T=(Y,C)={(Y1,C1),...,(Yi,Ci),...,(Ym,Cm)},其中Y为经过PCA处理得到的主成分矩阵,m为行数,Ci表示对应Yi的事故持续时间的等级;
(2)调用弱分类器,并初始化迭代次数a=1;
(4)使用分配权重后的输入训练集迭代训练弱分类器;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480788.0A CN113326971A (zh) | 2021-04-30 | 2021-04-30 | 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110480788.0A CN113326971A (zh) | 2021-04-30 | 2021-04-30 | 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113326971A true CN113326971A (zh) | 2021-08-31 |
Family
ID=77414040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110480788.0A Pending CN113326971A (zh) | 2021-04-30 | 2021-04-30 | 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326971A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018213A (zh) * | 2022-08-09 | 2022-09-06 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558969A (zh) * | 2018-11-07 | 2019-04-02 | 南京邮电大学 | 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型 |
CN112308136A (zh) * | 2020-10-29 | 2021-02-02 | 江苏大学 | 一种基于SVM-Adaboost的驾驶分心检测方法 |
-
2021
- 2021-04-30 CN CN202110480788.0A patent/CN113326971A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558969A (zh) * | 2018-11-07 | 2019-04-02 | 南京邮电大学 | 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型 |
CN112308136A (zh) * | 2020-10-29 | 2021-02-02 | 江苏大学 | 一种基于SVM-Adaboost的驾驶分心检测方法 |
Non-Patent Citations (2)
Title |
---|
何珂 等: "基于PCA-RF组合模型的隧道交通事故持续时间预测", 《交通信息与安全》, pages 26 - 31 * |
张军;胡震波;朱新山;: "基于AdaBoost分类器的实时交通事故预测", 计算机应用, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018213A (zh) * | 2022-08-09 | 2022-09-06 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
CN115018213B (zh) * | 2022-08-09 | 2022-11-25 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101220B (zh) | 一种无监督模型参数迁移的滚动轴承寿命预测方法 | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
Nair et al. | Implicit mixtures of restricted Boltzmann machines | |
CN111832608B (zh) | 一种基于单阶段检测模型yolov3的铁谱图像多磨粒识别方法 | |
CN111523579B (zh) | 一种基于改进深度学习的车型识别方法及系统 | |
CN113011796A (zh) | 一种基于“层次分析-神经网络”的食用油安全预警方法 | |
CN112270355A (zh) | 基于大数据技术与sae-gru的主动安全预测方法 | |
CN110455512B (zh) | 基于深度自编码器dae的旋转机械多集成故障诊断方法 | |
CN111985825A (zh) | 一种用于滚磨机定向仪的晶面质量评估方法 | |
CN114048468A (zh) | 入侵检测的方法、入侵检测模型训练的方法、装置及介质 | |
Handoyo et al. | The varying threshold values of logistic regression and linear discriminant for classifying fraudulent firm | |
CN112990545A (zh) | 一种高速公路交织区交通安全状态预测方法 | |
CN114926299A (zh) | 一种基于大数据分析的预测车辆事故风险预测方法 | |
CN113326971A (zh) | 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法 | |
Jumanov et al. | Optimization of identification of images of micro-objects taking into account systematic error based on neural networks | |
CN116244657A (zh) | 基于生成对抗网络和集成学习的列车轴温异常识别方法 | |
CN115860582A (zh) | 一种基于自适应提升算法的冲击危险性智能预警方法 | |
CN114298413A (zh) | 一种水电机组振摆趋势预测方法 | |
CN114637620A (zh) | 一种基于svm算法的数据库系统异常分类预测方法 | |
CN114429166A (zh) | 数据的高维特征获取方法、装置、设备及计算机存储介质 | |
Huang et al. | Dynamic boosting in deep learning using reconstruction error | |
Most | An adaptive response surface approach for structural reliability analyses based on support vector machines | |
CN116881828B (zh) | 一种基于子空间相似度的knn算法的异常检测方法 | |
Chen | Brain Tumor Prediction with LSTM Method | |
CN107609348A (zh) | 高通量转录组数据样本分类数目估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |