CN110119891B - 一种适于大数据的交通安全影响因素辨识方法 - Google Patents
一种适于大数据的交通安全影响因素辨识方法 Download PDFInfo
- Publication number
- CN110119891B CN110119891B CN201910347945.3A CN201910347945A CN110119891B CN 110119891 B CN110119891 B CN 110119891B CN 201910347945 A CN201910347945 A CN 201910347945A CN 110119891 B CN110119891 B CN 110119891B
- Authority
- CN
- China
- Prior art keywords
- traffic safety
- decision tree
- value
- model
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003066 decision tree Methods 0.000 claims abstract description 40
- 206010039203 Road traffic accident Diseases 0.000 claims abstract description 38
- 230000036961 partial effect Effects 0.000 claims abstract description 16
- 230000001419 dependent effect Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 11
- 230000034994 death Effects 0.000 description 7
- 231100000517 death Toxicity 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Analytical Chemistry (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种适于大数据的交通安全影响因素辨识方法,包括步骤:S1、通过分析识别潜在交通安全影响因素并进行有效数据的采集;S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型;S3、使用穷举法获取最优性能参数组合;S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。本发明有助于了解经济发展,人口特征和道路网络对区域交通事故的共同影响,有助于决策者采取综合对策来改善道路安全。
Description
技术领域
本发明涉及交通安全领域,具体涉及一种适于大数据的交通安全影响因素辨识方法。
背景技术
近年来,随着社会经济的飞速发展,交通安全问题日益突出,逐渐引起了国内外社会各界专家的广泛关注,成为目前交通管理部门必须面对的重点和难点问题。而改善交通安全问题的关键就是交通安全影响因素的辨识,从源头探寻正确而有效的交通安全改善措施。因此,各国学者纷纷投身于交通安全的影响因素的研究,探讨交通事故的严重程度与驾驶行为、国民生产总值、人口与车辆保有量等因素之间的研究,还对对摩托车和卡车事故等特殊交通事故的影响因素进行了大量研究。而从研究方法上来看,主流方法可以大致分为两类:统计回归模型以及机器学习。前者包括负二项回归模型,向量自回归模型,立方回归模型,逻辑回归模型,多元逻辑回归模型等。另一方面,机器学习方法的原理是在没有先验数据的前提下,为输入变量和输出变量构建一个非线性关系。其中,人工神经网络模型广泛应用于许多运输领域,因为它们能够处理多个数据集合之间的复杂关系。然而,人工神经网络的缺点是局部最小值和参数化问题,以及过度拟合的问题。此外,需要大量的训练样本以便提供良好的概括性能。支持向量机是另一种机器学习方法。支持向量机有可能克服神经网络的缺点,并能够处理非线性,小样本,高维度,局部最小值和过拟合等问题
然而,这些模型的一个最为关键的问题就是:无法评估各个预测变量之间对交通事故的相对影响。充分了解影响因素对交通事故的相对重要性有助于预测和改善未来的交通安全。此外,识别和排列影响因素可以帮助节省成本,因为数据采集和维护费用通常很昂贵。尽管可以进行灵敏度分析来进行识别,但是只能做到每次评估一个变量时假设其他变量保持不变,无法做到影响因素之间复杂相互作用效应的识别。另一方面,大多数关于交通事故分析的现有研究仅考虑有限数量的影响因素。交通事故是不同交织因素的结果。经济发展,人口特征和道路网络是了解区域社会状况的关键因素。他们的相互作用在包括城市规划,交通和社会科学在内的各个领域都很普遍和重要。例如,社会人口统计与流动模式和经济发展密切相关。社会经济因素与车辆保有量和潜在的碰撞风险密切相关。因此迫切需要探索社会经济、人口特征和道路网络相关的各种因素将在宏观层面上如何对道路安全性能产生影响。
发明内容
本发明的目的是为了能够同时分析社会经济、人口特征和道路网络相关的多种因素在宏观层面上对道路安全性能产生的影响,提供一种适于大数据的交通安全影响因素辨识方法。
本发明的目的可以通过采取如下技术方案达到:
一种适于大数据的交通安全影响因素辨识方法,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型,从而以数据挖掘的方式来分析多种因素分别对交通事故数、经济损失、受伤人数以及死亡人数的影响程度;
S3、使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合;
S4、分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
进一步地,步骤S1具体从社会经济、人口特征和道路网络三大相关影响因素出发,识别潜在交通安全影响因素并进行有效数据的采集。
进一步地,所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;
所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;
所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度。
进一步地,步骤S2中,建立梯度提升决策树(GBDT)模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
步骤S205:估计回归树叶子节点γjm的值:
步骤S206:得到本轮迭代所得学习机器:
步骤S207:继续进行多轮迭代,得到最终的决策模型:
进一步地,所述步骤S3具体包括:
使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树(GBDT)模型,并使用相应的评判指标,计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型。因梯度提升决策树模型的表现由决策树数量M,单棵决策树的叶子数J及学习效率R这三个参数决定,因此建立梯度提升决策树模型后需要使用穷举法,根据不同组合的模型性能参数,建立了一系列的GBDT模型,其好处在于通过逐个比较在各种性能参数组合情况下所建立GBDT模型的预测精度,能够准确地获取决策树数量M,单棵决策树的叶子数J及学习效率R三个性能参数的最佳组合。
进一步地,所述计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型时,使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标,计算不同参数组合情况下模型的预测精准度,并选取获得MAPE最小值的模型作为最优梯度提升决策树模型,所述平均绝对百分比误差的定义如下:
其中,n代表预测的年份总数,Oi代表第i年的因变量实际值,代表同年的因变量预测值,则MAPE则可以代表模型预测的精准度,使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标的好处在于MAPE不仅仅考虑了模型预测值与真实值之间的误差大小,还考虑了误差大小与真实值之间的比例问题,常被作为衡量机器学习预测算法结果好坏的评价指标。
进一步地,所述步骤S5中,所述偏效应函数通过最优梯度提升决策树(GBDT)模型的局部依赖图来描述各个重要影响因素的偏效应,偏效应在表示单一变量对因变量的影响趋势的同时,不忽略与其他各个变量之间的关联,不受线性假设的约束,因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。
本发明相对于现有技术具有如下的优点及效果:
本发明公开的适于大数据的交通安全影响因素辨识方法,创新性地使用梯度增强决策树的数据挖掘方法,以探索多个综合因素对四种交通事故指标(即交通事故数量,伤亡人数,经济损失)的影响,有助于了解经济发展,人口特征和道路网络对区域交通事故的共同影响,有助于决策者采取综合对策来改善道路安全。与其他具有“黑箱”特征的传统机器学习方法相比,GBDT模型不仅具有更高的预测精度,而且能更好地处理解释变量之间的多重共线性,更重要的是对交通事故预测的影响因素进行排序。并且最终各个影响因素的偏效应可以为规划实践提供更为准确可靠且深入的见解。
附图说明
图1为本发明实施例的适于大数据的交通安全影响因素辨识方法的流程示意图;
图2(a)-图2(d)为不同叶子数和学习效率组合下MAPE与树的数量之间的关系图。
图3(a)-图3(b)为不同叶子数和树的数量组合下MAPE与学习效率之间的关系图。
图4(a)-图4(b)为不同学习效率和树的数量组合下MAPE与叶子数之间的关系图。
图5(a)-图5(f)为交通事故数的各重要影响因素偏效应图。
图6(a)-图6(f)为经济损失的各重要影响因素偏效应图。
图7(a)-图7(f)为受伤人数的各重要影响因素偏效应图。
图8(a)-图8(f)为死亡人数的各重要影响因素偏效应图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例的应用场景为:
广东省中山市位于珠江三角洲中南部,作为粤港澳大湾区的一员,近几年来经济快速发展,交通安全问题也日益凸显,因此本发明拟采用中山市2000-2016年17年间的交通事故数、经济损失、受伤人数、死亡人数四大交通安全指标数据,以及27种潜在安全影响因素的数据来进行GBDT模型的建立与分析,对中山市的交通安全影响因素进行辨识及分析。
如图1所示,针对上述应用场景,本实施例提供了一种适于大数据的交通安全影响因素辨识方法,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型;
S3、使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合;
S4、分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
具体而言,步骤S1所述通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集的过程中,将分别以交通事故数、直接经济损失、受伤人数、死亡人数作为因变量,自变量的选取则涵盖了经济发展因素、人口因素、路网状况等多方面因素,所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度。具体变量设置如表1所示。其中,各类型车辆保有量数据来源于中山市交警支队统计资料,其余数据均来自于中山市统计年鉴。
表1变量选取
具体而言,步骤S2中,建立梯度提升决策树(GBDT)模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
步骤S205:估计回归树叶子节点γjm的值:
步骤S206:得到本轮迭代所得学习机器:
步骤S207:继续进行多轮迭代,得到最终的决策模型:
具体而言,步骤S3中所述使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合时,因梯度提升决策树模型的表现由决策树数量M,单棵决策树的叶子数J及学习效率R这三个参数决定,故使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树(GBDT)模型(如图2至图4所示),并使用相应的评判指标,即使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标,计算不同参数组合情况下模型的预测精准度,并选取获得MAPE最小值的模型作为最优GBDT模型,所述平均绝对百分比误差的定义如下:
其中,n代表预测的年份总数,Oi代表第i年的因变量实际值,代表同年的因变量预测值,则MAPE则可以代表模型预测的精准度。本实施例在模型建立过程中,将预测年份的数据选定为测试数据,预测年份之前的数据选定为训练集。以决策树数量M=(20,500),单棵决策树的叶子数J=(2,10)及学习效率R=(0.001,0.1),采用穷举法建立多个GBDT模型,求得最优性能参数的组合。
具体而言,步骤S4中所述分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序时,建模所得重要度排序如表2所示。对于经济发展因素而言,除经济损失外,摩托车保有量是所有指标最重要的影响因素。中型汽车保有量是造成经济损失,交通事故和受伤人数的第二大影响因素。人均GDP是经济损失的主要影响因素,对道路安全的影响大于GDP,其中GDP对四项指标的相对重要性均小于15%。
表2各变量相关重要度排序整合表
RI=相对重要度
在各行业中,第三产业对交通事故的影响比其他行业更为显着。第三产业对交通事故,伤亡人数以及经济损失的相对重要性分别为13.74%,14%,6.72%和16.36%。这是因为交通运输业属于第三产业。第一产业对死亡人数的贡献率为11.42%,高于第二产业和第三产业。第二产业对交通事故,经济损失和受伤人数的影响较小,相对重要性分别为4.16%,6.03%和6.67。
客运量对四个交通事故指标的影响均高于货运量。客流量在经济损失和死亡人数中起着重要作用,其中,它对经济损失的相对重要性达到了79.48%。
在不同的车型中,除经济损失外,摩托车所有权是所有指标中最重要的影响因素。这与中山经常发生摩托车事故导致大量人员伤亡的事实相符。中型公交车拥有量是经济损失的第二大影响因素,对交通事故数,受伤人数与死亡人数的相对重要性分别为98.05%,94.13%和86.19%。中型货车对上述三项指标的贡献率也超过60%。
关于社会人口特征因素,市区人口对四项指标的贡献最大,这也是影响交通事故和死亡人数以及经济损失的重要因素。总人口是死亡人数的第二大影响因素,而对其他指标的影响较小。它对交通事故数和受伤人数以及经济损失的相对重要性分别为5.45%,12.73%和7.82%。外来人口对交通事故和死亡人数以及经济损失的影响较大,相对重要性分别为33.28%,60.84%和27.99%。可能的原因是,外来人口比例大则代表人口流动性更强,这直接影响到交通安全教育的实施效果。驾驶员数量仅占四项指标的11.65%,8.76%,8.97%和11.45%,这可能归功于当地政府对驾驶员的良好教育。
在道路网络因素方面,道路里程对交通事故的影响一般会在道路坡度下降时增加。道路网络因素对死亡人数的影响普遍较低,相对重要性低于6%。但是,等外公路里程对交通事故数,受伤人数和经济损失的影响相对较大,相对重要性分别为44.07%,47.89%和94.29%。此外,高速公路里程对各指标的影响都最低,相对重要性分别仅为0.79%,0.15%,1.08%和5.79%。
具体而言,步骤S5中,偏效应函数通过GBDT的局部依赖图来描述各个重要影响因素的偏效应。偏效应在表示单一变量对因变量的影响趋势的同时,不忽略与其他各个变量之间的关联,不受线性假设的约束,因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。本实施例对交通事故数、经济损失、死亡人数以及受伤人数影响程度最大的六大关键因素的偏效应依次如附图5至图8所示。
综上,根据本发明的辨识方法,得出各个潜在影响因素对交通安全的相对影响因素,相较于传统机器学习方法,本发明更能够处理多个变量之间复杂的非线性关系,解决数据之间多重共线性的问题,并且具备优越的准确性,能够帮助当地决策者更好地了解经济,社会人口和道路网络的变化如何影响道路安全。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种适于大数据的交通安全影响因素辨识方法,其特征在于,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;具体从社会经济、人口特征和道路网络三大相关影响因素出发,识别潜在交通安全影响因素并进行有效数据的采集;所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;
所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;
所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型;建立梯度提升决策树模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
步骤S205:估计回归树叶子节点γjm的值:
步骤S206:得到本轮迭代所得学习机器:
步骤S207:继续进行多轮迭代,得到最终的决策模型:
S3、使用穷举法获取最优梯度提升决策树模型性能参数组合;
S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
2.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法,其特征在于所述步骤S3具体包括:
使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树模型,并使用相应的评判指标,计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树模型。
4.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法,其特征在于,所述步骤S5中,所述偏效应函数通过最优梯度提升决策树模型的局部依赖图来描述各个重要影响因素的偏效应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347945.3A CN110119891B (zh) | 2019-04-28 | 2019-04-28 | 一种适于大数据的交通安全影响因素辨识方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347945.3A CN110119891B (zh) | 2019-04-28 | 2019-04-28 | 一种适于大数据的交通安全影响因素辨识方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110119891A CN110119891A (zh) | 2019-08-13 |
CN110119891B true CN110119891B (zh) | 2022-12-16 |
Family
ID=67521600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910347945.3A Expired - Fee Related CN110119891B (zh) | 2019-04-28 | 2019-04-28 | 一种适于大数据的交通安全影响因素辨识方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119891B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115829061B (zh) * | 2023-02-21 | 2023-04-28 | 中国电子科技集团公司第二十八研究所 | 一种基于历史案例和经验知识学习的应急事故处置方法 |
CN116777300B (zh) * | 2023-07-24 | 2024-03-22 | 武汉大学 | 基于梯度提升决策树的城市道路交通事故风险评估方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN106991510A (zh) * | 2017-05-31 | 2017-07-28 | 福建江夏学院 | 一种基于时空分布特征预测城市交通事故的方法 |
WO2018191048A1 (en) * | 2017-04-13 | 2018-10-18 | Oracle International Corporation | System to predict pipe leaks |
CA3028630A1 (en) * | 2018-03-01 | 2019-03-18 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for identifying risky driving behavior |
-
2019
- 2019-04-28 CN CN201910347945.3A patent/CN110119891B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
WO2018191048A1 (en) * | 2017-04-13 | 2018-10-18 | Oracle International Corporation | System to predict pipe leaks |
CN106991510A (zh) * | 2017-05-31 | 2017-07-28 | 福建江夏学院 | 一种基于时空分布特征预测城市交通事故的方法 |
CA3028630A1 (en) * | 2018-03-01 | 2019-03-18 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for identifying risky driving behavior |
Non-Patent Citations (1)
Title |
---|
基于梯度提升决策树的高速公路交织区汇入位置模型;李根等;《交通运输系统工程与信息》;20180615(第03期);第88-93页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110119891A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345117B (zh) | 一种多维数据驱动的交通运输主体综合画像方法 | |
CN105374209B (zh) | 一种城市区域路网运行状态特征信息提取方法 | |
CN104298881A (zh) | 一种基于贝叶斯网络模型的公交环境动态变化预报方法 | |
CN111126868B (zh) | 一种道路交通事故发生风险确定方法及系统 | |
CN110119891B (zh) | 一种适于大数据的交通安全影响因素辨识方法 | |
CN114299742B (zh) | 一种高速公路的限速信息动态识别与更新推荐方法 | |
CN112700185B (zh) | 基于仿生智能优化的物流路线规划方法及系统 | |
CN112836967B (zh) | 新能源汽车电池安全风险评估系统 | |
CN114971009A (zh) | 一种车险出险预测方法及计算机设备 | |
Zhang | Research on risk projection of urban road traffic safety based on RS-SVM combination model. | |
CN113379318A (zh) | 公共交通系统运营服务质量评价方法、装置和计算机设备 | |
CN116309610B (zh) | 一种基于人工智能的车辆管理方法及系统 | |
CN113222208A (zh) | 一种基于Ada-XGBoost的交通事故预测系统 | |
CN116541786A (zh) | 基于驾驶行为的网约车识别方法、装置及系统 | |
CN116934200A (zh) | 一种基于大数据的物流运输监管系统和方法 | |
CN107274100A (zh) | 基于电力大数据的经济预警分析方法 | |
CN114419894B (zh) | 一种路内停车泊位设置与使用监测的方法与系统 | |
CN114580874B (zh) | 一种适用于高速公路风险评估的多维分布式数据分析系统 | |
Wang | Optimization of ABC Classification Method for Automobile Spare Parts based on DEA | |
CN114399340A (zh) | 一种二手车辆的出售价值计算方法 | |
CN114493363A (zh) | 城市公交事故风险因素分析方法 | |
CN115169630A (zh) | 一种电动汽车充电负荷预测方法及装置 | |
CN112035546B (zh) | 一种车况信号数据的油耗相关性因子分析方法 | |
CN111275306A (zh) | 电梯改造评估方法及电梯改造评估系统 | |
CN116579677B (zh) | 一种高速铁路电务车载设备全生命周期管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221216 |