CN110119891B

CN110119891B - 一种适于大数据的交通安全影响因素辨识方法

Info

Publication number: CN110119891B
Application number: CN201910347945.3A
Authority: CN
Inventors: 巫威眺; 江书妍; 靳文舟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2022-12-16
Anticipated expiration: 2039-04-28
Also published as: CN110119891A

Abstract

本发明公开了一种适于大数据的交通安全影响因素辨识方法，包括步骤：S1、通过分析识别潜在交通安全影响因素并进行有效数据的采集；S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型；S3、使用穷举法获取最优性能参数组合；S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性，并进行排序；S5、建立偏效应函数，对重要影响因素进行偏效应分析，从而辨识出用于改善交通安全的交通安全影响因素。本发明有助于了解经济发展，人口特征和道路网络对区域交通事故的共同影响，有助于决策者采取综合对策来改善道路安全。

Description

一种适于大数据的交通安全影响因素辨识方法

技术领域

本发明涉及交通安全领域，具体涉及一种适于大数据的交通安全影响因素辨识方法。

背景技术

近年来，随着社会经济的飞速发展，交通安全问题日益突出，逐渐引起了国内外社会各界专家的广泛关注，成为目前交通管理部门必须面对的重点和难点问题。而改善交通安全问题的关键就是交通安全影响因素的辨识，从源头探寻正确而有效的交通安全改善措施。因此，各国学者纷纷投身于交通安全的影响因素的研究，探讨交通事故的严重程度与驾驶行为、国民生产总值、人口与车辆保有量等因素之间的研究，还对对摩托车和卡车事故等特殊交通事故的影响因素进行了大量研究。而从研究方法上来看，主流方法可以大致分为两类：统计回归模型以及机器学习。前者包括负二项回归模型，向量自回归模型，立方回归模型，逻辑回归模型，多元逻辑回归模型等。另一方面，机器学习方法的原理是在没有先验数据的前提下，为输入变量和输出变量构建一个非线性关系。其中，人工神经网络模型广泛应用于许多运输领域，因为它们能够处理多个数据集合之间的复杂关系。然而，人工神经网络的缺点是局部最小值和参数化问题，以及过度拟合的问题。此外，需要大量的训练样本以便提供良好的概括性能。支持向量机是另一种机器学习方法。支持向量机有可能克服神经网络的缺点，并能够处理非线性，小样本，高维度，局部最小值和过拟合等问题

然而，这些模型的一个最为关键的问题就是：无法评估各个预测变量之间对交通事故的相对影响。充分了解影响因素对交通事故的相对重要性有助于预测和改善未来的交通安全。此外，识别和排列影响因素可以帮助节省成本，因为数据采集和维护费用通常很昂贵。尽管可以进行灵敏度分析来进行识别，但是只能做到每次评估一个变量时假设其他变量保持不变，无法做到影响因素之间复杂相互作用效应的识别。另一方面，大多数关于交通事故分析的现有研究仅考虑有限数量的影响因素。交通事故是不同交织因素的结果。经济发展，人口特征和道路网络是了解区域社会状况的关键因素。他们的相互作用在包括城市规划，交通和社会科学在内的各个领域都很普遍和重要。例如，社会人口统计与流动模式和经济发展密切相关。社会经济因素与车辆保有量和潜在的碰撞风险密切相关。因此迫切需要探索社会经济、人口特征和道路网络相关的各种因素将在宏观层面上如何对道路安全性能产生影响。

发明内容

本发明的目的是为了能够同时分析社会经济、人口特征和道路网络相关的多种因素在宏观层面上对道路安全性能产生的影响，提供一种适于大数据的交通安全影响因素辨识方法。

本发明的目的可以通过采取如下技术方案达到：

一种适于大数据的交通安全影响因素辨识方法，包括以下步骤：

S1、通过对现阶段交通安全状况进行分析，识别潜在交通安全影响因素并进行有效数据的采集；

S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型，从而以数据挖掘的方式来分析多种因素分别对交通事故数、经济损失、受伤人数以及死亡人数的影响程度；

S3、使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合；

S4、分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性，并进行排序；

S5、建立偏效应函数，对重要影响因素进行偏效应分析，从而辨识出用于改善交通安全的交通安全影响因素。

进一步地，步骤S1具体从社会经济、人口特征和道路网络三大相关影响因素出发，识别潜在交通安全影响因素并进行有效数据的采集。

进一步地，所述的社会经济相关影响因素包括：国民生产总值，人均国民生产总值，第一、二、三产业生产总值，客运量，货运量，小、中、大型汽车保有量，小、中、大型货车保有量和摩托车保有量；

所述人口特征相关影响因素包括：总人口数，市区人口，户籍人口，外来人口以及驾驶人数量；

所述道路网络相关影响因素包括：高速公路里程，一、二、三、四级道路里程，等外公路里程，总里程和路网密度。

进一步地，步骤S2中，建立梯度提升决策树(GBDT)模型具体包括：

步骤S201：根据数据特征对测试集以及训练集进行相关定义；

步骤S202：初始化学习机器：

其中，argmin代表的是求取使目标函数取最小值时的变量值，ρ代表的是使损失函数极小化的估计常数值，是一棵根节点为1的回归树，而L(y_i,ρ)为均方误差损失函数，x_i定义为所选定的交通安全指标第i年的数据，如交通事故数、经济损失、受伤人数等；y_i则被定义为潜在影响因素第i年的数据；

步骤S203：计算残差，并且在计算过程中利用损失函数的负梯度在当前模型的值来作为残差的近似值：

其中，m代表迭代次数且m＝1,2,....M，M则代表决策树的总量；

步骤S204：拟合一棵含有j个叶子节点的回归树：

其中，R_jm代表叶子节点可能节点值，

则代表y_i的负梯度值；

步骤S205：估计回归树叶子节点γ_jm的值：

步骤S206：得到本轮迭代所得学习机器：

其中，I代表x_i的判断函数，

步骤S207：继续进行多轮迭代，得到最终的决策模型：

进一步地，所述步骤S3具体包括：

使用穷举法，根据不同组合的模型性能参数，建立了一系列的梯度提升决策树(GBDT)模型，并使用相应的评判指标，计算不同参数组合情况下模型的预测精准度，并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型。因梯度提升决策树模型的表现由决策树数量M，单棵决策树的叶子数J及学习效率R这三个参数决定，因此建立梯度提升决策树模型后需要使用穷举法，根据不同组合的模型性能参数，建立了一系列的GBDT模型，其好处在于通过逐个比较在各种性能参数组合情况下所建立GBDT模型的预测精度，能够准确地获取决策树数量M，单棵决策树的叶子数J及学习效率R三个性能参数的最佳组合。

进一步地，所述计算不同参数组合情况下模型的预测精准度，并选取误差值最小的模型作为最优梯度提升决策树(GBDT)模型时，使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标，计算不同参数组合情况下模型的预测精准度，并选取获得MAPE最小值的模型作为最优梯度提升决策树模型，所述平均绝对百分比误差的定义如下：

其中，n代表预测的年份总数，O_i代表第i年的因变量实际值，

代表同年的因变量预测值，则MAPE则可以代表模型预测的精准度，使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标的好处在于MAPE不仅仅考虑了模型预测值与真实值之间的误差大小，还考虑了误差大小与真实值之间的比例问题，常被作为衡量机器学习预测算法结果好坏的评价指标。

进一步地，所述步骤S5中，所述偏效应函数通过最优梯度提升决策树(GBDT)模型的局部依赖图来描述各个重要影响因素的偏效应，偏效应在表示单一变量对因变量的影响趋势的同时，不忽略与其他各个变量之间的关联，不受线性假设的约束，因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。

本发明相对于现有技术具有如下的优点及效果：

本发明公开的适于大数据的交通安全影响因素辨识方法，创新性地使用梯度增强决策树的数据挖掘方法，以探索多个综合因素对四种交通事故指标(即交通事故数量，伤亡人数，经济损失)的影响，有助于了解经济发展，人口特征和道路网络对区域交通事故的共同影响，有助于决策者采取综合对策来改善道路安全。与其他具有“黑箱”特征的传统机器学习方法相比，GBDT模型不仅具有更高的预测精度，而且能更好地处理解释变量之间的多重共线性，更重要的是对交通事故预测的影响因素进行排序。并且最终各个影响因素的偏效应可以为规划实践提供更为准确可靠且深入的见解。

附图说明

图1为本发明实施例的适于大数据的交通安全影响因素辨识方法的流程示意图；

图2(a)-图2(d)为不同叶子数和学习效率组合下MAPE与树的数量之间的关系图。

图3(a)-图3(b)为不同叶子数和树的数量组合下MAPE与学习效率之间的关系图。

图4(a)-图4(b)为不同学习效率和树的数量组合下MAPE与叶子数之间的关系图。

图5(a)-图5(f)为交通事故数的各重要影响因素偏效应图。

图6(a)-图6(f)为经济损失的各重要影响因素偏效应图。

图7(a)-图7(f)为受伤人数的各重要影响因素偏效应图。

图8(a)-图8(f)为死亡人数的各重要影响因素偏效应图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例的应用场景为：

广东省中山市位于珠江三角洲中南部，作为粤港澳大湾区的一员，近几年来经济快速发展，交通安全问题也日益凸显，因此本发明拟采用中山市2000-2016年17年间的交通事故数、经济损失、受伤人数、死亡人数四大交通安全指标数据，以及27种潜在安全影响因素的数据来进行GBDT模型的建立与分析，对中山市的交通安全影响因素进行辨识及分析。

如图1所示，针对上述应用场景，本实施例提供了一种适于大数据的交通安全影响因素辨识方法，包括以下步骤：

S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树(GBDT)模型；

具体而言，步骤S1所述通过对现阶段交通安全状况进行分析，识别潜在交通安全影响因素并进行有效数据的采集的过程中，将分别以交通事故数、直接经济损失、受伤人数、死亡人数作为因变量，自变量的选取则涵盖了经济发展因素、人口因素、路网状况等多方面因素，所述的社会经济相关影响因素包括：国民生产总值，人均国民生产总值，第一、二、三产业生产总值，客运量，货运量，小、中、大型汽车保有量，小、中、大型货车保有量和摩托车保有量；所述人口特征相关影响因素包括：总人口数，市区人口，户籍人口，外来人口以及驾驶人数量；所述道路网络相关影响因素包括：高速公路里程，一、二、三、四级道路里程，等外公路里程，总里程和路网密度。具体变量设置如表1所示。其中，各类型车辆保有量数据来源于中山市交警支队统计资料，其余数据均来自于中山市统计年鉴。

表1变量选取

具体而言，步骤S2中，建立梯度提升决策树(GBDT)模型具体包括：

步骤S201：根据数据特征对测试集以及训练集进行相关定义；

步骤S202：初始化学习机器：

其中，m代表迭代次数且m＝1,2,....M，M则代表决策树的总量；

步骤S204：拟合一棵含有j个叶子节点的回归树：

其中，R_jm代表叶子节点可能节点值，

则代表y_i的负梯度值；

步骤S205：估计回归树叶子节点γ_jm的值：

步骤S206：得到本轮迭代所得学习机器：

其中，I代表x_i的判断函数，

步骤S207：继续进行多轮迭代，得到最终的决策模型：

具体而言，步骤S3中所述使用穷举法获取最优梯度提升决策树(GBDT)模型性能参数组合时，因梯度提升决策树模型的表现由决策树数量M，单棵决策树的叶子数J及学习效率R这三个参数决定，故使用穷举法，根据不同组合的模型性能参数，建立了一系列的梯度提升决策树(GBDT)模型(如图2至图4所示)，并使用相应的评判指标，即使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标，计算不同参数组合情况下模型的预测精准度，并选取获得MAPE最小值的模型作为最优GBDT模型，所述平均绝对百分比误差的定义如下：

代表同年的因变量预测值，则MAPE则可以代表模型预测的精准度。本实施例在模型建立过程中，将预测年份的数据选定为测试数据，预测年份之前的数据选定为训练集。以决策树数量M＝(20,500)，单棵决策树的叶子数J＝(2，10)及学习效率R＝(0.001，0.1)，采用穷举法建立多个GBDT模型，求得最优性能参数的组合。

具体而言，步骤S4中所述分别使用最优梯度提升决策树(GBDT)模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性，并进行排序时，建模所得重要度排序如表2所示。对于经济发展因素而言，除经济损失外，摩托车保有量是所有指标最重要的影响因素。中型汽车保有量是造成经济损失，交通事故和受伤人数的第二大影响因素。人均GDP是经济损失的主要影响因素，对道路安全的影响大于GDP，其中GDP对四项指标的相对重要性均小于15％。

表2各变量相关重要度排序整合表

RI＝相对重要度

在各行业中，第三产业对交通事故的影响比其他行业更为显着。第三产业对交通事故，伤亡人数以及经济损失的相对重要性分别为13.74％，14％，6.72％和16.36％。这是因为交通运输业属于第三产业。第一产业对死亡人数的贡献率为11.42％，高于第二产业和第三产业。第二产业对交通事故，经济损失和受伤人数的影响较小，相对重要性分别为4.16％，6.03％和6.67。

客运量对四个交通事故指标的影响均高于货运量。客流量在经济损失和死亡人数中起着重要作用，其中，它对经济损失的相对重要性达到了79.48％。

在不同的车型中，除经济损失外，摩托车所有权是所有指标中最重要的影响因素。这与中山经常发生摩托车事故导致大量人员伤亡的事实相符。中型公交车拥有量是经济损失的第二大影响因素，对交通事故数，受伤人数与死亡人数的相对重要性分别为98.05％，94.13％和86.19％。中型货车对上述三项指标的贡献率也超过60％。

关于社会人口特征因素，市区人口对四项指标的贡献最大，这也是影响交通事故和死亡人数以及经济损失的重要因素。总人口是死亡人数的第二大影响因素，而对其他指标的影响较小。它对交通事故数和受伤人数以及经济损失的相对重要性分别为5.45％，12.73％和7.82％。外来人口对交通事故和死亡人数以及经济损失的影响较大，相对重要性分别为33.28％，60.84％和27.99％。可能的原因是，外来人口比例大则代表人口流动性更强，这直接影响到交通安全教育的实施效果。驾驶员数量仅占四项指标的11.65％，8.76％，8.97％和11.45％，这可能归功于当地政府对驾驶员的良好教育。

在道路网络因素方面，道路里程对交通事故的影响一般会在道路坡度下降时增加。道路网络因素对死亡人数的影响普遍较低，相对重要性低于6％。但是，等外公路里程对交通事故数，受伤人数和经济损失的影响相对较大，相对重要性分别为44.07％，47.89％和94.29％。此外，高速公路里程对各指标的影响都最低，相对重要性分别仅为0.79％，0.15％，1.08％和5.79％。

具体而言，步骤S5中，偏效应函数通过GBDT的局部依赖图来描述各个重要影响因素的偏效应。偏效应在表示单一变量对因变量的影响趋势的同时，不忽略与其他各个变量之间的关联，不受线性假设的约束，因此可以根据局部依赖图来对各个自变量与因变量之间的关系进行更好地阐述。本实施例对交通事故数、经济损失、死亡人数以及受伤人数影响程度最大的六大关键因素的偏效应依次如附图5至图8所示。

综上，根据本发明的辨识方法，得出各个潜在影响因素对交通安全的相对影响因素，相较于传统机器学习方法，本发明更能够处理多个变量之间复杂的非线性关系，解决数据之间多重共线性的问题，并且具备优越的准确性，能够帮助当地决策者更好地了解经济，社会人口和道路网络的变化如何影响道路安全。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种适于大数据的交通安全影响因素辨识方法，其特征在于，包括以下步骤：

S1、通过对现阶段交通安全状况进行分析，识别潜在交通安全影响因素并进行有效数据的采集；具体从社会经济、人口特征和道路网络三大相关影响因素出发，识别潜在交通安全影响因素并进行有效数据的采集；所述的社会经济相关影响因素包括：国民生产总值，人均国民生产总值，第一、二、三产业生产总值，客运量，货运量，小、中、大型汽车保有量，小、中、大型货车保有量和摩托车保有量；

所述道路网络相关影响因素包括：高速公路里程，一、二、三、四级道路里程，等外公路里程，总里程和路网密度；

S2、分别以交通事故数、经济损失、受伤人数以及死亡人数作为因变量建立梯度提升决策树模型；建立梯度提升决策树模型具体包括：

步骤S201：根据数据特征对测试集以及训练集进行相关定义；

步骤S202：初始化学习机器：

其中，argmin代表的是求取使目标函数取最小值时的变量值，ρ代表的是使损失函数极小化的估计常数值，是一棵根节点为1的回归树，而L(y_i,ρ)为均方误差损失函数，x_i定义为所选定的交通安全指标第_i年的数据，如交通事故数、经济损失、受伤人数等；y_i则被定义为潜在影响因素第i年的数据；

其中，m代表迭代次数且m＝1,2,....M，M则代表决策树的总量；

步骤S204：拟合一棵含有j个叶子节点的回归树：

其中，R_jm代表叶子节点可能节点值，

则代表y_i的负梯度值；

步骤S205：估计回归树叶子节点γ_jm的值：

步骤S206：得到本轮迭代所得学习机器：

其中，I代表x_i的判断函数，

步骤S207：继续进行多轮迭代，得到最终的决策模型：

S3、使用穷举法获取最优梯度提升决策树模型性能参数组合；

S4、分别使用最优梯度提升决策树模型性能参数组合计算各个因素对交通事故数、经济损失、受伤人数以及死亡人数的相对重要性，并进行排序；

2.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法，其特征在于所述步骤S3具体包括：

使用穷举法，根据不同组合的模型性能参数，建立了一系列的梯度提升决策树模型，并使用相应的评判指标，计算不同参数组合情况下模型的预测精准度，并选取误差值最小的模型作为最优梯度提升决策树模型。

3.根据权利要求2所述的适于大数据的交通安全影响因素辨识方法，其特征在于，所述计算不同参数组合情况下模型的预测精准度，并选取误差值最小的模型作为最优梯度提升决策树模型时，使用平均绝对百分比误差(MAPE)作为模型的预测精准度的评判指标，计算不同参数组合情况下模型的预测精准度，并选取获得MAPE最小值的模型作为最优梯度提升决策树模型，所述平均绝对百分比误差的定义如下：

代表同年的因变量预测值。

4.根据权利要求1所述的适于大数据的交通安全影响因素辨识方法，其特征在于，所述步骤S5中，所述偏效应函数通过最优梯度提升决策树模型的局部依赖图来描述各个重要影响因素的偏效应。