CN110119891B - 一种适于大数据的交通安全影响因素辨识方法 - Google Patents

一种适于大数据的交通安全影响因素辨识方法 Download PDF

Info

Publication number
CN110119891B
CN110119891B CN201910347945.3A CN201910347945A CN110119891B CN 110119891 B CN110119891 B CN 110119891B CN 201910347945 A CN201910347945 A CN 201910347945A CN 110119891 B CN110119891 B CN 110119891B
Authority
CN
China
Prior art keywords
traffic safety
decision tree
value
model
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910347945.3A
Other languages
English (en)
Other versions
CN110119891A (zh
Inventor
巫威眺
江书妍
靳文舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910347945.3A priority Critical patent/CN110119891B/zh
Publication of CN110119891A publication Critical patent/CN110119891A/zh
Application granted granted Critical
Publication of CN110119891B publication Critical patent/CN110119891B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种适于大数据的交通安全影响因素辨识方法,包括步骤:S1、通过分析识别潜在交通安全影响因素并进行有效数据的采集;S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型;S3、使用穷举法获取最优性能参数组合;S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。本发明有助于了解经济发展,人口特征和道路网络对区域交通事故的共同影响,有助于决策者采取综合对策来改善道路安全。

Description

一种适于大数据的交通安全影响因素辨识方法
技术领域
本发明涉及交通安全领域,具体涉及一种适于大数据的交通安全影响因素辨识方法。
背景技术
近年来,随着社会经济的飞速发展,交通安全问题日益突出,逐渐引起了国内外社会各界专家的广泛关注,成为目前交通管理部门必须面对的重点和难点问题。而改善交通安全问题的关键就是交通安全影响因素的辨识,从源头探寻正确而有效的交通安全改善措施。因此,各国学者纷纷投身于交通安全的影响因素的研究,探讨交通事故的严重程度与驾驶行为、国民生产总值、人口与车辆保有量等因素之间的研究,还对对摩托车和卡车事故等特殊交通事故的影响因素进行了大量研究。而从研究方法上来看,主流方法可以大致分为两类:统计回归模型以及机器学习。前者包括负二项回归模型,向量自回归模型,立方回归模型,逻辑回归模型,多元逻辑回归模型等。另一方面,机器学习方法的原理是在没有先验数据的前提下,为输入变量和输出变量构建一个非线性关系。其中,人工神经网络模型广泛应用于许多运输领域,因为它们能够处理多个数据集合之间的复杂关系。然而,人工神经网络的缺点是局部最小值和参数化问题,以及过度拟合的问题。此外,需要大量的训练样本以便提供良好的概括性能。支持向量机是另一种机器学习方法。支持向量机有可能克服神经网络的缺点,并能够处理非线性,小样本,高维度,局部最小值和过拟合等问题
然而,这些模型的一个最为关键的问题就是:无法评估各个预测变量之间对交通事故的相对影响。充分了解影响因素对交通事故的相对重要性有助于预测和改善未来的交通安全。此外,识别和排列影响因素可以帮助节省成本,因为数据采集和维护费用通常很昂贵。尽管可以进行灵敏度分析来进行识别,但是只能做到每次评估一个变量时假设其他变量保持不变,无法做到影响因素之间复杂相互作用效应的识别。另一方面,大多数关于交通事故分析的现有研究仅考虑有限数量的影响因素。交通事故是不同交织因素的结果。经济发展,人口特征和道路网络是了解区域社会状况的关键因素。他们的相互作用在包括城市规划,交通和社会科学在内的各个领域都很普遍和重要。例如,社会人口统计与流动模式和经济发展密切相关。社会经济因素与车辆保有量和潜在的碰撞风险密切相关。因此迫切需要探索社会经济、人口特征和道路网络相关的各种因素将在宏观层面上如何对道路安全性能产生影响。
发明内容
本发明的目的是为了能够同时分析社会经济、人口特征和道路网络相关的多种因素在宏观层面上对道路安全性能产生的影响,提供一种适于大数据的交通安全影响因素辨识方法。
本发明的目的可以通过采取如下技术方案达到:
一种适于大数据的交通安全影响因素辨识方法,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型,从而以数据挖掘的方式来分析多种因素分别对交通事故数、经济损失、受伤人数以及死亡人数的影响程度;
S3、使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合;
S4、分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
进一步地,步骤S1具体从社会经济、人口特征和道路网络三大相关影响因素出发,识别潜在交通安全影响因素并进行有效数据的采集。
进一步地,所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;
所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;
所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度。
进一步地,步骤S2中,建立梯度提升决策树(GBDT)模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
Figure BDA0002042991120000031
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
Figure BDA0002042991120000041
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
Figure BDA0002042991120000042
其中,Rjm代表叶子节点可能节点值,
Figure BDA0002042991120000043
则代表yi的负梯度值;
步骤S205:估计回归树叶子节点γjm的值:
Figure BDA0002042991120000044
步骤S206:得到本轮迭代所得学习机器:
Figure BDA0002042991120000045
其中,I代表xi的判断函数,
Figure BDA0002042991120000046
步骤S207:继续进行多轮迭代,得到最终的决策模型:
Figure BDA0002042991120000047
进一步地,所述步骤S3具体包括:
使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树(GBDT)模型,并使用相应的评判指标,计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型。因梯度提升决策树模型的表现由决策树数量M,单棵决策树的叶子数J及学习效率R这三个参数决定,因此建立梯度提升决策树模型后需要使用穷举法,根据不同组合的模型性能参数,建立了一系列的GBDT模型,其好处在于通过逐个比较在各种性能参数组合情况下所建立GBDT模型的预测精度,能够准确地获取决策树数量M,单棵决策树的叶子数J及学习效率R三个性能参数的最佳组合。
进一步地,所述计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型时,使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标,计算不同参数组合情况下模型的预测精准度,并选取获得MAPE最小值的模型作为最优梯度提升决策树模型,所述平均绝对百分比误差的定义如下:
Figure BDA0002042991120000051
其中,n代表预测的年份总数,Oi代表第i年的因变量实际值,
Figure BDA0002042991120000052
代表同年的因变量预测值,则MAPE则可以代表模型预测的精准度,使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标的好处在于MAPE不仅仅考虑了模型预测值与真实值之间的误差大小,还考虑了误差大小与真实值之间的比例问题,常被作为衡量机器学习预测算法结果好坏的评价指标。
进一步地,所述步骤S5中,所述偏效应函数通过最优梯度提升决策树(GBDT)模型的局部依赖图来描述各个重要影响因素的偏效应,偏效应在表示单一变量对因变量的影响趋势的同时,不忽略与其他各个变量之间的关联,不受线性假设的约束,因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。
本发明相对于现有技术具有如下的优点及效果:
本发明公开的适于大数据的交通安全影响因素辨识方法,创新性地使用梯度增强决策树的数据挖掘方法,以探索多个综合因素对四种交通事故指标(即交通事故数量,伤亡人数,经济损失)的影响,有助于了解经济发展,人口特征和道路网络对区域交通事故的共同影响,有助于决策者采取综合对策来改善道路安全。与其他具有“黑箱”特征的传统机器学习方法相比,GBDT模型不仅具有更高的预测精度,而且能更好地处理解释变量之间的多重共线性,更重要的是对交通事故预测的影响因素进行排序。并且最终各个影响因素的偏效应可以为规划实践提供更为准确可靠且深入的见解。
附图说明
图1为本发明实施例的适于大数据的交通安全影响因素辨识方法的流程示意图;
图2(a)-图2(d)为不同叶子数和学习效率组合下MAPE与树的数量之间的关系图。
图3(a)-图3(b)为不同叶子数和树的数量组合下MAPE与学习效率之间的关系图。
图4(a)-图4(b)为不同学习效率和树的数量组合下MAPE与叶子数之间的关系图。
图5(a)-图5(f)为交通事故数的各重要影响因素偏效应图。
图6(a)-图6(f)为经济损失的各重要影响因素偏效应图。
图7(a)-图7(f)为受伤人数的各重要影响因素偏效应图。
图8(a)-图8(f)为死亡人数的各重要影响因素偏效应图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例的应用场景为:
广东省中山市位于珠江三角洲中南部,作为粤港澳大湾区的一员,近几年来经济快速发展,交通安全问题也日益凸显,因此本发明拟采用中山市2000-2016年17年间的交通事故数、经济损失、受伤人数、死亡人数四大交通安全指标数据,以及27种潜在安全影响因素的数据来进行GBDT模型的建立与分析,对中山市的交通安全影响因素进行辨识及分析。
如图1所示,针对上述应用场景,本实施例提供了一种适于大数据的交通安全影响因素辨识方法,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型;
S3、使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合;
S4、分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
具体而言,步骤S1所述通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集的过程中,将分别以交通事故数、直接经济损失、受伤人数、死亡人数作为因变量,自变量的选取则涵盖了经济发展因素、人口因素、路网状况等多方面因素,所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度。具体变量设置如表1所示。其中,各类型车辆保有量数据来源于中山市交警支队统计资料,其余数据均来自于中山市统计年鉴。
表1变量选取
Figure BDA0002042991120000091
Figure BDA0002042991120000101
具体而言,步骤S2中,建立梯度提升决策树(GBDT)模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
Figure BDA0002042991120000102
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
Figure BDA0002042991120000111
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
Figure BDA0002042991120000112
其中,Rjm代表叶子节点可能节点值,
Figure BDA0002042991120000113
则代表yi的负梯度值;
步骤S205:估计回归树叶子节点γjm的值:
Figure BDA0002042991120000114
步骤S206:得到本轮迭代所得学习机器:
Figure BDA0002042991120000115
其中,I代表xi的判断函数,
Figure BDA0002042991120000116
步骤S207:继续进行多轮迭代,得到最终的决策模型:
Figure BDA0002042991120000117
具体而言,步骤S3中所述使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合时,因梯度提升决策树模型的表现由决策树数量M,单棵决策树的叶子数J及学习效率R这三个参数决定,故使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树(GBDT)模型(如图2至图4所示),并使用相应的评判指标,即使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标,计算不同参数组合情况下模型的预测精准度,并选取获得MAPE最小值的模型作为最优GBDT模型,所述平均绝对百分比误差的定义如下:
Figure BDA0002042991120000121
其中,n代表预测的年份总数,Oi代表第i年的因变量实际值,
Figure BDA0002042991120000122
代表同年的因变量预测值,则MAPE则可以代表模型预测的精准度。本实施例在模型建立过程中,将预测年份的数据选定为测试数据,预测年份之前的数据选定为训练集。以决策树数量M=(20,500),单棵决策树的叶子数J=(2,10)及学习效率R=(0.001,0.1),采用穷举法建立多个GBDT模型,求得最优性能参数的组合。
具体而言,步骤S4中所述分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序时,建模所得重要度排序如表2所示。对于经济发展因素而言,除经济损失外,摩托车保有量是所有指标最重要的影响因素。中型汽车保有量是造成经济损失,交通事故和受伤人数的第二大影响因素。人均GDP是经济损失的主要影响因素,对道路安全的影响大于GDP,其中GDP对四项指标的相对重要性均小于15%。
表2各变量相关重要度排序整合表
Figure BDA0002042991120000123
Figure BDA0002042991120000131
Figure BDA0002042991120000141
RI=相对重要度
在各行业中,第三产业对交通事故的影响比其他行业更为显着。第三产业对交通事故,伤亡人数以及经济损失的相对重要性分别为13.74%,14%,6.72%和16.36%。这是因为交通运输业属于第三产业。第一产业对死亡人数的贡献率为11.42%,高于第二产业和第三产业。第二产业对交通事故,经济损失和受伤人数的影响较小,相对重要性分别为4.16%,6.03%和6.67。
客运量对四个交通事故指标的影响均高于货运量。客流量在经济损失和死亡人数中起着重要作用,其中,它对经济损失的相对重要性达到了79.48%。
在不同的车型中,除经济损失外,摩托车所有权是所有指标中最重要的影响因素。这与中山经常发生摩托车事故导致大量人员伤亡的事实相符。中型公交车拥有量是经济损失的第二大影响因素,对交通事故数,受伤人数与死亡人数的相对重要性分别为98.05%,94.13%和86.19%。中型货车对上述三项指标的贡献率也超过60%。
关于社会人口特征因素,市区人口对四项指标的贡献最大,这也是影响交通事故和死亡人数以及经济损失的重要因素。总人口是死亡人数的第二大影响因素,而对其他指标的影响较小。它对交通事故数和受伤人数以及经济损失的相对重要性分别为5.45%,12.73%和7.82%。外来人口对交通事故和死亡人数以及经济损失的影响较大,相对重要性分别为33.28%,60.84%和27.99%。可能的原因是,外来人口比例大则代表人口流动性更强,这直接影响到交通安全教育的实施效果。驾驶员数量仅占四项指标的11.65%,8.76%,8.97%和11.45%,这可能归功于当地政府对驾驶员的良好教育。
在道路网络因素方面,道路里程对交通事故的影响一般会在道路坡度下降时增加。道路网络因素对死亡人数的影响普遍较低,相对重要性低于6%。但是,等外公路里程对交通事故数,受伤人数和经济损失的影响相对较大,相对重要性分别为44.07%,47.89%和94.29%。此外,高速公路里程对各指标的影响都最低,相对重要性分别仅为0.79%,0.15%,1.08%和5.79%。
具体而言,步骤S5中,偏效应函数通过GBDT的局部依赖图来描述各个重要影响因素的偏效应。偏效应在表示单一变量对因变量的影响趋势的同时,不忽略与其他各个变量之间的关联,不受线性假设的约束,因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。本实施例对交通事故数、经济损失、死亡人数以及受伤人数影响程度最大的六大关键因素的偏效应依次如附图5至图8所示。
综上,根据本发明的辨识方法,得出各个潜在影响因素对交通安全的相对影响因素,相较于传统机器学习方法,本发明更能够处理多个变量之间复杂的非线性关系,解决数据之间多重共线性的问题,并且具备优越的准确性,能够帮助当地决策者更好地了解经济,社会人口和道路网络的变化如何影响道路安全。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种适于大数据的交通安全影响因素辨识方法,其特征在于,包括以下步骤:
S1、通过对现阶段交通安全状况进行分析,识别潜在交通安全影响因素并进行有效数据的采集;具体从社会经济、人口特征和道路网络三大相关影响因素出发,识别潜在交通安全影响因素并进行有效数据的采集;所述的社会经济相关影响因素包括:国民生产总值,人均国民生产总值,第一、二、三产业生产总值,客运量,货运量,小、中、大型汽车保有量,小、中、大型货车保有量和摩托车保有量;
所述人口特征相关影响因素包括:总人口数,市区人口,户籍人口,外来人口以及驾驶人数量;
所述道路网络相关影响因素包括:高速公路里程,一、二、三、四级道路里程,等外公路里程,总里程和路网密度;
S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型;建立梯度提升决策树模型具体包括:
步骤S201:根据数据特征对测试集以及训练集进行相关定义;
步骤S202:初始化学习机器:
Figure FDA0003859802560000011
其中,argmin代表的是求取使目标函数取最小值时的变量值,ρ代表的是使损失函数极小化的估计常数值,是一棵根节点为1的回归树,而L(yi,ρ)为均方误差损失函数,xi定义为所选定的交通安全指标第i年的数据,如交通事故数、经济损失、受伤人数等;yi则被定义为潜在影响因素第i年的数据;
步骤S203:计算残差,并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值:
Figure FDA0003859802560000021
其中,m代表迭代次数且m=1,2,....M,M则代表决策树的总量;
步骤S204:拟合一棵含有j个叶子节点的回归树:
Figure FDA0003859802560000022
其中,Rjm代表叶子节点可能节点值,
Figure FDA0003859802560000023
则代表yi的负梯度值;
步骤S205:估计回归树叶子节点γjm的值:
Figure FDA0003859802560000024
步骤S206:得到本轮迭代所得学习机器:
Figure FDA0003859802560000025
其中,I代表xi的判断函数,
Figure FDA0003859802560000026
步骤S207:继续进行多轮迭代,得到最终的决策模型:
Figure FDA0003859802560000027
S3、使用穷举法获取最优梯度提升决策树模型性能参数组合;
S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性,并进行排序;
S5、建立偏效应函数,对重要影响因素进行偏效应分析,从而辨识出用于改善交通安全的交通安全影响因素。
2.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法,其特征在于所述步骤S3具体包括:
使用穷举法,根据不同组合的模型性能参数,建立了一系列的梯度提升决策树模型,并使用相应的评判指标,计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树模型。
3.根据权利要求2所述的适于大数据的交通安全影响因素辨识方法,其特征在于,所述计算不同参数组合情况下模型的预测精准度,并选取误差值最小的模型作为最优梯度提升决策树模型时,使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标,计算不同参数组合情况下模型的预测精准度,并选取获得MAPE最小值的模型作为最优梯度提升决策树模型,所述平均绝对百分比误差的定义如下:
Figure FDA0003859802560000031
其中,n代表预测的年份总数,Oi代表第i年的因变量实际值,
Figure FDA0003859802560000032
代表同年的因变量预测值。
4.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法,其特征在于,所述步骤S5中,所述偏效应函数通过最优梯度提升决策树模型的局部依赖图来描述各个重要影响因素的偏效应。
CN201910347945.3A 2019-04-28 2019-04-28 一种适于大数据的交通安全影响因素辨识方法 Expired - Fee Related CN110119891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910347945.3A CN110119891B (zh) 2019-04-28 2019-04-28 一种适于大数据的交通安全影响因素辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910347945.3A CN110119891B (zh) 2019-04-28 2019-04-28 一种适于大数据的交通安全影响因素辨识方法

Publications (2)

Publication Number Publication Date
CN110119891A CN110119891A (zh) 2019-08-13
CN110119891B true CN110119891B (zh) 2022-12-16

Family

ID=67521600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910347945.3A Expired - Fee Related CN110119891B (zh) 2019-04-28 2019-04-28 一种适于大数据的交通安全影响因素辨识方法

Country Status (1)

Country Link
CN (1) CN110119891B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115829061B (zh) * 2023-02-21 2023-04-28 中国电子科技集团公司第二十八研究所 一种基于历史案例和经验知识学习的应急事故处置方法
CN116777300B (zh) * 2023-07-24 2024-03-22 武汉大学 基于梯度提升决策树的城市道路交通事故风险评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512768A (zh) * 2015-12-14 2016-04-20 上海交通大学 大数据环境下用户用电关联因素辨识及用电量预测方法
CN106991510A (zh) * 2017-05-31 2017-07-28 福建江夏学院 一种基于时空分布特征预测城市交通事故的方法
WO2018191048A1 (en) * 2017-04-13 2018-10-18 Oracle International Corporation System to predict pipe leaks
CA3028630A1 (en) * 2018-03-01 2019-03-18 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for identifying risky driving behavior

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512768A (zh) * 2015-12-14 2016-04-20 上海交通大学 大数据环境下用户用电关联因素辨识及用电量预测方法
WO2018191048A1 (en) * 2017-04-13 2018-10-18 Oracle International Corporation System to predict pipe leaks
CN106991510A (zh) * 2017-05-31 2017-07-28 福建江夏学院 一种基于时空分布特征预测城市交通事故的方法
CA3028630A1 (en) * 2018-03-01 2019-03-18 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for identifying risky driving behavior

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于梯度提升决策树的高速公路交织区汇入位置模型;李根等;《交通运输系统工程与信息》;20180615(第03期);第88-93页 *

Also Published As

Publication number Publication date
CN110119891A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN109345117B (zh) 一种多维数据驱动的交通运输主体综合画像方法
CN105374209B (zh) 一种城市区域路网运行状态特征信息提取方法
CN104298881A (zh) 一种基于贝叶斯网络模型的公交环境动态变化预报方法
CN111126868B (zh) 一种道路交通事故发生风险确定方法及系统
CN110119891B (zh) 一种适于大数据的交通安全影响因素辨识方法
CN114299742B (zh) 一种高速公路的限速信息动态识别与更新推荐方法
CN112700185B (zh) 基于仿生智能优化的物流路线规划方法及系统
CN112836967B (zh) 新能源汽车电池安全风险评估系统
CN114971009A (zh) 一种车险出险预测方法及计算机设备
Zhang Research on risk projection of urban road traffic safety based on RS-SVM combination model.
CN113379318A (zh) 公共交通系统运营服务质量评价方法、装置和计算机设备
CN116309610B (zh) 一种基于人工智能的车辆管理方法及系统
CN113222208A (zh) 一种基于Ada-XGBoost的交通事故预测系统
CN116541786A (zh) 基于驾驶行为的网约车识别方法、装置及系统
CN116934200A (zh) 一种基于大数据的物流运输监管系统和方法
CN107274100A (zh) 基于电力大数据的经济预警分析方法
CN114419894B (zh) 一种路内停车泊位设置与使用监测的方法与系统
CN114580874B (zh) 一种适用于高速公路风险评估的多维分布式数据分析系统
Wang Optimization of ABC Classification Method for Automobile Spare Parts based on DEA
CN114399340A (zh) 一种二手车辆的出售价值计算方法
CN114493363A (zh) 城市公交事故风险因素分析方法
CN115169630A (zh) 一种电动汽车充电负荷预测方法及装置
CN112035546B (zh) 一种车况信号数据的油耗相关性因子分析方法
CN111275306A (zh) 电梯改造评估方法及电梯改造评估系统
CN116579677B (zh) 一种高速铁路电务车载设备全生命周期管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221216