CN116049668A

CN116049668A - 一种基于机器学习的自动驾驶事故严重程度预测方法

Info

Publication number: CN116049668A
Application number: CN202211642644.1A
Authority: CN
Inventors: 郭延永; 刘佩; 刘攀; 岳全胜; 吴秀梅; 陈晓薇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-02

Abstract

本发明公开了一种基于机器学习的自动驾驶事故严重程度预测方法，包括如下步骤：(1)获取自动驾驶事故多源数据，对数据进行联合和预处理形成事故集D₁；(2)对D₁进行稀疏性分析和相关性检验，剔除冗余属性并保留与事故严重程度、事故类型相关性强的变量，建立事故集D₂；(3)通过SMOTE算法对D₂重采样，均衡事故严重程度、事故类型两种特征的类别比例；(4)导入XGBoost模型，将D₂按比例划分为训练集和测试集，利用网格搜索原理调试XGBoost模型超参并得到相对优的超参组合；(5)利用步骤4相对优的超参组合建立基于XGBoost算法的自动驾驶事故严重程度预测模型，在步骤4得到的训练集上训练自动驾驶事故严重程度预测模型并在测试集上验证该模型预测性能。

Description

一种基于机器学习的自动驾驶事故严重程度预测方法

技术领域

本发明属于事故致因分析领域，尤其涉及一种基于机器学习的自动驾驶事故严重程度预测方法。

背景技术

自动驾驶技术的飞速发展为道路安全提供了新的改善途径，但在网联自动驾驶车辆在实际运用中也暴露出诸多问题。针对历年的事故数据进行事故严重程度和事故类别的预测，从历史数据以及实车实验中发掘有用信息，能够建立有效完备的自动驾驶事故预警以及事后紧急处理机制，对于改善自动驾驶车辆上路条件，提高自动驾驶交通安全，降低事故损失具有重要意义。但是目前有关自动驾驶事故的数据大都来自单一的事故报告，仅包含交通参与者、事故时间等信息，缺乏道路几何设计、交通设施等重要信息，需要从其他数据源补充扩充自动驾驶事故特征集。当前有关事故预测的研究大多针对传统交通事故，且不同严重程度的事故类别存在严重不平衡现象，严重事故记录往往占少。因此，需要解决原始事故数据中类别不平衡问题并将先进的机器学习方法引入自动驾驶事故领域，对事故严重程度进行预测。

发明内容

发明目的：本发明的目的在于提供一种基于机器学习的自动驾驶事故严重程度预测方法，采用SMOTE重采样方法对不均衡数据进行重采样，并引入XGBoost模型构造自动驾驶事故的严重程度类别分类器，提升自动驾驶事故预测的性能。

技术方案：本发明的基于机器学习的自动驾驶事故严重程度预测方法，包括如下步骤：

步骤1、获取自动驾驶历年事故多源数据，对多源数据进行联合和预处理形成事故数据集D₁；

步骤2、对事故数据集D₁进行稀疏性分析和相关性检验，剔除部分冗余属性并保留与事故严重程度、事故类型相关性强的变量，建立事故预测数据集D₂；

步骤3、通过SMOTE算法对自动驾驶事故重采样，均衡D₂中事故严重程度、事故类型两种特征的类别比例；

步骤4、导入XGBoost模型，将事故预测数据集D₂按比例划分为训练集和测试集，利用网格搜索原理调试XGBoost模型的超参数，得到相对优的模型超参组合；

步骤5、利用步骤4的相对优的模型超参组合建立基于XGBoost算法的自动驾驶事故严重程度预测模型，在步骤4划分得到的训练集上训练自动驾驶事故严重程度预测模型并在测试集上验证该模型的预测性能，通过指标评估自动驾驶事故严重程度预测模型性能并分析预测结果。

进一步地，步骤1中，所述自动驾驶历年事故多源数据包括事故报告原始数据集和卫星地图地点数据集，预处理为对缺失值利用众数填充、对脏数据进行删除。

进一步地，步骤2中，通过Pearson相关系数初步筛选影响因素，保留与事故严重程度、事故类型相关性强的变量，公式为：

式中，cov(X，Y)是特征X与特征Y的协方差，σ_X和σ_Y分别是特征X与特征Y的标准差，Xi与Yi表示第i条事故数据中的X特征与Y特征，E(X)与E(Y)表示n条事故数据中所有X与Y特征的期望频数。

进一步地，步骤3中，采用SMOTE算法扩充较少类别的事故样本，平衡数据集，对于待扩充样本，先计算每个样本间欧几里得距离，然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据，从K个近邻样本中随机选出一个样本按式2生成新样本，直到达到新样本数量需求；式2为：

x_new＝x+rand(0，1)*(x_c-x) (2)

其中，x_new表示一个新样本；x表示一个原始的待扩充自动驾驶事故样本；x_c表示K邻近中随机抽中的一个样本；rand(0,1)生成0与1间的随机数。

进一步地，步骤4中，所述模型超参组合包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化。

进一步地，步骤4、5中，对训练集进行五折验证的划分，每份都作为验证集，在训练时用其中4份进行模型训练，余下1份作为验证检验分类模型性能，重复过程5次直至训练结束，每次训练加权平均作为模型最终性能指标；对于第i个事故样本的最终预测值用式3计算：

其中，x_i表示样本特征，f_k(x_i)表示第k棵树对样本x_i的预测结果，把这些值相加在得到最终的结果

利用损失函数最小化优化梯度提升树、提高预测精度，如式4：

其中，将

与上一个梯度树计算得到的值联系起来，优化损失函数如下：

得到损失函数后，利用贪心算法构建梯度提升树，计算当前树的损失值再穷举所有可能性，取损失函数降低最多的树为当前树的形状，不断迭代直至损失函数降低至阈值为止，即可得到最优的预测结果。

进一步地，步骤5中，所述指标包括准确率、召回率和F1分数。

有益效果：与现有技术相比，本发明具有如下显著优点：本发明所述的一种基于机器学习的自动驾驶事故类型及严重程度预测方法，从原始自动驾驶事故历史数据入手，通过多种途径采集多源数据包括车辆运动、环境因素、道路设施等，丰富了现有事故报告特征。通过变量筛选剔除冗余属性并对字符型数据进行数字编码，将原事故数据集有效预处理为便于机器学习方法挖掘与分析的数据集。引入SMOTE过采样技术和集成学习方法XGBoost，解决了数据不平衡问题并且使用多个弱学习器进行高效学习，提高了分类性能和事故预测准确率。

附图说明

图1为本发明的方法流程图；

图2为XGBoost模型搭建过程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明为解决上述问题采用以下技术方案：一种基于机器学习的自动驾驶事故严重程度预测方法，如图1所示，包括以下步骤：

步骤1、自动驾驶事故相关数据采集，包括事故报告原始数据及卫星地图地点数据收集。在网络上搜索美国加州机动车管理局公开的网联自动驾驶事故数据集D₁，通过2015年1月到2022年10月的479条详细事故报告，对车辆运动行为、车辆类型、事故类型、事故发生时间等直接因素进行数据采集；利用事故地点在Google Map上匹配经纬度，采集道路类型、几何设计因素、交通设施等数据D₂。对多源数据D₁、D₂利用事故ID进行联合和预处理，建立事故挖掘与分析数据集D。根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境等多因素事故集合。对事故数据集进行预处理，对缺失值利用众数填充、对脏数据进行删除。

表1事故挖掘与分析数据集D

步骤2、对数据集D₁进行稀疏性分析和相关性检验，剔除部分冗余属性并保留与事故严重程度、事故类型相关性强的属性，进行硬编码将字符型变量转化为数值型变量，建立事故预测数据集D₂。通过Pearson相关系数初步筛选影响因素，保留与事故严重程度、事故类型相关性强的变量，如事故类型、自动驾驶车辆在事故前的运动行为、手动驾驶车辆在事故前的运动行为、天气、光照、交叉口几何设计、道路类型等。对筛选后的属性中每个标签值对映射为无序数值变量。

表2变量筛选及特征编码后的数据集D₂

Num	Vec_type	AV_Move	Time	…	Weather	Severity	Crash_type	…	Bus_sta	…	Road_park
												1	1	1	1	…	1	1	1	…	1	…	1
2	2	2	2	…	2	2	2	…	1	…	1
												3	4	5	4	…	3	3	4	…	0	…	0
…	…	…	…	…	…	…	…	…	…	…	…
												478	2	7	1	…	5	2	5	…	0	…	1
479	3	9	3	…	4	4	6	…	0	…	0

步骤3、基于SMOTE算法对自动驾驶事故重采样，均衡严重程度、事故类别的比例。采用SMOTE过采样技术扩充较少类别的事故样本，平衡数据集。对于待扩充样本，先计算每个样本间欧几里得距离，然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据，从K个近邻样本中随机选出一个样本按式2生成新样本，直到达到新样本数量需求。

x_new＝x+rand(0，1)*(x_c-x) (2)

其中，x_new表示一个新样本；x表示一个原始的待扩充自动驾驶事故样本；x_c表示K邻近中随机抽中的一个样本；rand(0,1)生成0与1间的随机数。设置K＝6，采样平衡后非严重事故与严重事故比例保持在5:1，生成自动驾驶事故新样本分布情况如下表。

表3生成自动驾驶事故样本分布情况

事故类型	无损失事故	轻微事故	中等事故	严重事故
					追尾	28	107	27	25
侧向碰撞	14	63	18	17
					正面相撞	12	48	14	8
撞击固定物	9	30	12	11
					撞击行人或非机动车	7	9	15	22
总计	70	257	92	83

步骤4、利用网格搜索原理调试超参数，得到相对优的算法超参组合。超参包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化，通过五折交叉验证后确定相对优的算法超参组合{iterations：1000，max depth：4，learning rate：0.15，min_child_weigh：5，gamma:0.4，subsample：0.9，reg_alpha＝1e-05，reg_lambda：1}。如图2所示

步骤5、对样本随机排序后按照8:2的比例划分训练集和测试集，使用XGBoost算法在训练集数据训练分类器，并在测试集上验证模型的预测性能。对训练集进行五折验证的划分，每份都作为验证集，在训练时用其中4份进行模型训练，余下1份作为验证检验分类模型性能，重复过程5次直至训练结束，每次训练加权平均作为模型最终性能指标。对于第i个事故样本的最终预测值用式3计算，利用损失函数最小化(式4)优化梯度提升树、提高预测精度。

其中，x_i表示样本特征，f_k(x_i)表示第k棵树对样本x_i的预测结果，最后把这些值都相加在一起就得到了最终的结果

其中，将

得到损失函数后，利用贪心算法构建梯度提升树，计算当前树的损失值再穷举所有可能性，取损失函数降低最多的树为当前树的形状，不断迭代直至损失函数降低至阈值为止，即可得到最优的预测结果，使用准确率、召回率、F1分数对模型进行性能评估。

根据事故样本的真实类别和模型输出结果预测结果，评价指标按下式计算：

其中，L为事故严重程度类型总数，在本实施例中为4；N_i是事故严重程度为i的样本个数，N是事故样本总数，TP_i是正确预测为第i类严重程度的事故样本数，FP_i是错误预测为第i类严重程度的事故样本数，TN_i是预测为除i类外严重程度的事故样本数，FN_i是错误预测为除i类严重程度的事故样本数。

根据四个评价指标的计算公式，对XGBoost分类器性能进行评估，部分指标计算得到的值如下：四种严重程度的AUC分别为无损失事故，0.77，轻微事故，0.87，中等事故，0.80，严重事故，0.65。预测准确率分别为无损失事故，0.76，轻微事故，0.90，中等事故，0.85，严重事故，0.68。上述评估指标的值都远大于0.5，说明本发明所提供的方法在测试集上表现良好，对于自动驾驶事故严重程度预测准确率较高。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，包括如下步骤：

步骤3、通过SMOTE算法对自动驾驶事故重采样，均衡事故预测数据集D₂中事故严重程度、事故类型两种特征的类别比例；

2.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤1中，所述自动驾驶历年事故多源数据包括事故报告原始数据集和卫星地图地点数据集，预处理为对缺失值利用众数填充、对脏数据进行删除。

3.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤2中，通过Pearson相关系数初步筛选影响因素，保留与事故严重程度、事故类型相关性强的变量，公式为：

式中，cov(X，Y)是特征X与特征Y的协方差，σ_X和σ_Y分别是特征X与特征Y的标准差，X_i与Y_i表示第i条事故数据中的X特征与Y特征，E(X)与E(Y)表示n条事故数据中所有X与Y特征的期望频数。

4.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤3中，通过SMOTE算法对自动驾驶事故重采样，平衡数据集，对于待扩充的数据集样本，先计算每个样本间欧几里得距离，然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据，从K个近邻样本中随机选出一个样本按式2生成新样本，直到达到新样本数量需求；式2为：

x_new＝x+rand(0，1)*(x_c-x) (2)

其中，x_new表示一个新样本；x表示一个原始的待扩充自动驾驶事故样本；xc表示K邻近中随机抽中的一个样本；rand(0,1)生成0与1间的随机数。

5.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤4中，所述模型超参组合包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化。

6.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤4、5中，对训练集进行五折验证的划分，每份都作为验证集，在训练时用其中4份进行模型训练，余下1份作为验证检验分类模型性能，重复过程5次直至训练结束，每次训练加权平均作为模型最终性能指标；对于第i个事故样本的最终预测值用式3计算：

其中，将

7.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法，其特征在于，步骤5中，所述指标包括准确率、召回率和F1分数。