CN116049668A - 一种基于机器学习的自动驾驶事故严重程度预测方法 - Google Patents

一种基于机器学习的自动驾驶事故严重程度预测方法 Download PDF

Info

Publication number
CN116049668A
CN116049668A CN202211642644.1A CN202211642644A CN116049668A CN 116049668 A CN116049668 A CN 116049668A CN 202211642644 A CN202211642644 A CN 202211642644A CN 116049668 A CN116049668 A CN 116049668A
Authority
CN
China
Prior art keywords
accident
automatic driving
model
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211642644.1A
Other languages
English (en)
Inventor
郭延永
刘佩
刘攀
岳全胜
吴秀梅
陈晓薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211642644.1A priority Critical patent/CN116049668A/zh
Publication of CN116049668A publication Critical patent/CN116049668A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的自动驾驶事故严重程度预测方法,包括如下步骤:(1)获取自动驾驶事故多源数据,对数据进行联合和预处理形成事故集D1;(2)对D1进行稀疏性分析和相关性检验,剔除冗余属性并保留与事故严重程度、事故类型相关性强的变量,建立事故集D2;(3)通过SMOTE算法对D2重采样,均衡事故严重程度、事故类型两种特征的类别比例;(4)导入XGBoost模型,将D2按比例划分为训练集和测试集,利用网格搜索原理调试XGBoost模型超参并得到相对优的超参组合;(5)利用步骤4相对优的超参组合建立基于XGBoost算法的自动驾驶事故严重程度预测模型,在步骤4得到的训练集上训练自动驾驶事故严重程度预测模型并在测试集上验证该模型预测性能。

Description

一种基于机器学习的自动驾驶事故严重程度预测方法
技术领域
本发明属于事故致因分析领域,尤其涉及一种基于机器学习的自动驾驶事故严重程度预测方法。
背景技术
自动驾驶技术的飞速发展为道路安全提供了新的改善途径,但在网联自动驾驶车辆在实际运用中也暴露出诸多问题。针对历年的事故数据进行事故严重程度和事故类别的预测,从历史数据以及实车实验中发掘有用信息,能够建立有效完备的自动驾驶事故预警以及事后紧急处理机制,对于改善自动驾驶车辆上路条件,提高自动驾驶交通安全,降低事故损失具有重要意义。但是目前有关自动驾驶事故的数据大都来自单一的事故报告,仅包含交通参与者、事故时间等信息,缺乏道路几何设计、交通设施等重要信息,需要从其他数据源补充扩充自动驾驶事故特征集。当前有关事故预测的研究大多针对传统交通事故,且不同严重程度的事故类别存在严重不平衡现象,严重事故记录往往占少。因此,需要解决原始事故数据中类别不平衡问题并将先进的机器学习方法引入自动驾驶事故领域,对事故严重程度进行预测。
发明内容
发明目的:本发明的目的在于提供一种基于机器学习的自动驾驶事故严重程度预测方法,采用SMOTE重采样方法对不均衡数据进行重采样,并引入XGBoost模型构造自动驾驶事故的严重程度类别分类器,提升自动驾驶事故预测的性能。
技术方案:本发明的基于机器学习的自动驾驶事故严重程度预测方法,包括如下步骤:
步骤1、获取自动驾驶历年事故多源数据,对多源数据进行联合和预处理形成事故数据集D1
步骤2、对事故数据集D1进行稀疏性分析和相关性检验,剔除部分冗余属性并保留与事故严重程度、事故类型相关性强的变量,建立事故预测数据集D2
步骤3、通过SMOTE算法对自动驾驶事故重采样,均衡D2中事故严重程度、事故类型两种特征的类别比例;
步骤4、导入XGBoost模型,将事故预测数据集D2按比例划分为训练集和测试集,利用网格搜索原理调试XGBoost模型的超参数,得到相对优的模型超参组合;
步骤5、利用步骤4的相对优的模型超参组合建立基于XGBoost算法的自动驾驶事故严重程度预测模型,在步骤4划分得到的训练集上训练自动驾驶事故严重程度预测模型并在测试集上验证该模型的预测性能,通过指标评估自动驾驶事故严重程度预测模型性能并分析预测结果。
进一步地,步骤1中,所述自动驾驶历年事故多源数据包括事故报告原始数据集和卫星地图地点数据集,预处理为对缺失值利用众数填充、对脏数据进行删除。
进一步地,步骤2中,通过Pearson相关系数初步筛选影响因素,保留与事故严重程度、事故类型相关性强的变量,公式为:
Figure BDA0004008293610000021
式中,cov(X,Y)是特征X与特征Y的协方差,σX和σY分别是特征X与特征Y的标准差,Xi与Yi表示第i条事故数据中的X特征与Y特征,E(X)与E(Y)表示n条事故数据中所有X与Y特征的期望频数。
进一步地,步骤3中,采用SMOTE算法扩充较少类别的事故样本,平衡数据集,对于待扩充样本,先计算每个样本间欧几里得距离,然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据,从K个近邻样本中随机选出一个样本按式2生成新样本,直到达到新样本数量需求;式2为:
xnew=x+rand(0,1)*(xc-x)        (2)
其中,xnew表示一个新样本;x表示一个原始的待扩充自动驾驶事故样本;xc表示K邻近中随机抽中的一个样本;rand(0,1)生成0与1间的随机数。
进一步地,步骤4中,所述模型超参组合包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化。
进一步地,步骤4、5中,对训练集进行五折验证的划分,每份都作为验证集,在训练时用其中4份进行模型训练,余下1份作为验证检验分类模型性能,重复过程5次直至训练结束,每次训练加权平均作为模型最终性能指标;对于第i个事故样本的最终预测值用式3计算:
Figure BDA0004008293610000031
其中,xi表示样本特征,fk(xi)表示第k棵树对样本xi的预测结果,把这些值相加在得到最终的结果
Figure BDA0004008293610000032
利用损失函数最小化优化梯度提升树、提高预测精度,如式4:
Figure BDA0004008293610000033
其中,将
Figure BDA0004008293610000034
与上一个梯度树计算得到的值联系起来,优化损失函数如下:
Figure BDA0004008293610000035
得到损失函数后,利用贪心算法构建梯度提升树,计算当前树的损失值再穷举所有可能性,取损失函数降低最多的树为当前树的形状,不断迭代直至损失函数降低至阈值为止,即可得到最优的预测结果。
进一步地,步骤5中,所述指标包括准确率、召回率和F1分数。
有益效果:与现有技术相比,本发明具有如下显著优点:本发明所述的一种基于机器学习的自动驾驶事故类型及严重程度预测方法,从原始自动驾驶事故历史数据入手,通过多种途径采集多源数据包括车辆运动、环境因素、道路设施等,丰富了现有事故报告特征。通过变量筛选剔除冗余属性并对字符型数据进行数字编码,将原事故数据集有效预处理为便于机器学习方法挖掘与分析的数据集。引入SMOTE过采样技术和集成学习方法XGBoost,解决了数据不平衡问题并且使用多个弱学习器进行高效学习,提高了分类性能和事故预测准确率。
附图说明
图1为本发明的方法流程图;
图2为XGBoost模型搭建过程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明为解决上述问题采用以下技术方案:一种基于机器学习的自动驾驶事故严重程度预测方法,如图1所示,包括以下步骤:
步骤1、自动驾驶事故相关数据采集,包括事故报告原始数据及卫星地图地点数据收集。在网络上搜索美国加州机动车管理局公开的网联自动驾驶事故数据集D1,通过2015年1月到2022年10月的479条详细事故报告,对车辆运动行为、车辆类型、事故类型、事故发生时间等直接因素进行数据采集;利用事故地点在Google Map上匹配经纬度,采集道路类型、几何设计因素、交通设施等数据D2。对多源数据D1、D2利用事故ID进行联合和预处理,建立事故挖掘与分析数据集D。根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境等多因素事故集合。对事故数据集进行预处理,对缺失值利用众数填充、对脏数据进行删除。
表1事故挖掘与分析数据集D
Figure BDA0004008293610000041
步骤2、对数据集D1进行稀疏性分析和相关性检验,剔除部分冗余属性并保留与事故严重程度、事故类型相关性强的属性,进行硬编码将字符型变量转化为数值型变量,建立事故预测数据集D2。通过Pearson相关系数初步筛选影响因素,保留与事故严重程度、事故类型相关性强的变量,如事故类型、自动驾驶车辆在事故前的运动行为、手动驾驶车辆在事故前的运动行为、天气、光照、交叉口几何设计、道路类型等。对筛选后的属性中每个标签值对映射为无序数值变量。
Figure BDA0004008293610000042
表2变量筛选及特征编码后的数据集D2
Num Vec_type AV_Move Time Weather Severity Crash_type Bus_sta Road_park
1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 1 1
3 4 5 4 3 3 4 0 0
478 2 7 1 5 2 5 0 1
479 3 9 3 4 4 6 0 0
步骤3、基于SMOTE算法对自动驾驶事故重采样,均衡严重程度、事故类别的比例。采用SMOTE过采样技术扩充较少类别的事故样本,平衡数据集。对于待扩充样本,先计算每个样本间欧几里得距离,然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据,从K个近邻样本中随机选出一个样本按式2生成新样本,直到达到新样本数量需求。
xnew=x+rand(0,1)*(xc-x)     (2)
其中,xnew表示一个新样本;x表示一个原始的待扩充自动驾驶事故样本;xc表示K邻近中随机抽中的一个样本;rand(0,1)生成0与1间的随机数。设置K=6,采样平衡后非严重事故与严重事故比例保持在5:1,生成自动驾驶事故新样本分布情况如下表。
表3生成自动驾驶事故样本分布情况
事故类型 无损失事故 轻微事故 中等事故 严重事故
追尾 28 107 27 25
侧向碰撞 14 63 18 17
正面相撞 12 48 14 8
撞击固定物 9 30 12 11
撞击行人或非机动车 7 9 15 22
总计 70 257 92 83
步骤4、利用网格搜索原理调试超参数,得到相对优的算法超参组合。超参包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化,通过五折交叉验证后确定相对优的算法超参组合{iterations:1000,max depth:4,learning rate:0.15,min_child_weigh:5,gamma:0.4,subsample:0.9,reg_alpha=1e-05,reg_lambda:1}。如图2所示
步骤5、对样本随机排序后按照8:2的比例划分训练集和测试集,使用XGBoost算法在训练集数据训练分类器,并在测试集上验证模型的预测性能。对训练集进行五折验证的划分,每份都作为验证集,在训练时用其中4份进行模型训练,余下1份作为验证检验分类模型性能,重复过程5次直至训练结束,每次训练加权平均作为模型最终性能指标。对于第i个事故样本的最终预测值用式3计算,利用损失函数最小化(式4)优化梯度提升树、提高预测精度。
Figure BDA0004008293610000051
其中,xi表示样本特征,fk(xi)表示第k棵树对样本xi的预测结果,最后把这些值都相加在一起就得到了最终的结果
Figure BDA0004008293610000061
Figure BDA0004008293610000062
其中,将
Figure BDA0004008293610000063
与上一个梯度树计算得到的值联系起来,优化损失函数如下:
Figure BDA0004008293610000064
得到损失函数后,利用贪心算法构建梯度提升树,计算当前树的损失值再穷举所有可能性,取损失函数降低最多的树为当前树的形状,不断迭代直至损失函数降低至阈值为止,即可得到最优的预测结果,使用准确率、召回率、F1分数对模型进行性能评估。
根据事故样本的真实类别和模型输出结果预测结果,评价指标按下式计算:
Figure BDA0004008293610000065
Figure BDA0004008293610000066
Figure BDA0004008293610000067
Figure BDA0004008293610000068
其中,L为事故严重程度类型总数,在本实施例中为4;Ni是事故严重程度为i的样本个数,N是事故样本总数,TPi是正确预测为第i类严重程度的事故样本数,FPi是错误预测为第i类严重程度的事故样本数,TNi是预测为除i类外严重程度的事故样本数,FNi是错误预测为除i类严重程度的事故样本数。
根据四个评价指标的计算公式,对XGBoost分类器性能进行评估,部分指标计算得到的值如下:四种严重程度的AUC分别为无损失事故,0.77,轻微事故,0.87,中等事故,0.80,严重事故,0.65。预测准确率分别为无损失事故,0.76,轻微事故,0.90,中等事故,0.85,严重事故,0.68。上述评估指标的值都远大于0.5,说明本发明所提供的方法在测试集上表现良好,对于自动驾驶事故严重程度预测准确率较高。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (7)

1.一种基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,包括如下步骤:
步骤1、获取自动驾驶历年事故多源数据,对多源数据进行联合和预处理形成事故数据集D1
步骤2、对事故数据集D1进行稀疏性分析和相关性检验,剔除部分冗余属性并保留与事故严重程度、事故类型相关性强的变量,建立事故预测数据集D2
步骤3、通过SMOTE算法对自动驾驶事故重采样,均衡事故预测数据集D2中事故严重程度、事故类型两种特征的类别比例;
步骤4、导入XGBoost模型,将事故预测数据集D2按比例划分为训练集和测试集,利用网格搜索原理调试XGBoost模型的超参数,得到相对优的模型超参组合;
步骤5、利用步骤4的相对优的模型超参组合建立基于XGBoost算法的自动驾驶事故严重程度预测模型,在步骤4划分得到的训练集上训练自动驾驶事故严重程度预测模型并在测试集上验证该模型的预测性能,通过指标评估自动驾驶事故严重程度预测模型性能并分析预测结果。
2.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤1中,所述自动驾驶历年事故多源数据包括事故报告原始数据集和卫星地图地点数据集,预处理为对缺失值利用众数填充、对脏数据进行删除。
3.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤2中,通过Pearson相关系数初步筛选影响因素,保留与事故严重程度、事故类型相关性强的变量,公式为:
Figure FDA0004008293600000011
式中,cov(X,Y)是特征X与特征Y的协方差,σX和σY分别是特征X与特征Y的标准差,Xi与Yi表示第i条事故数据中的X特征与Y特征,E(X)与E(Y)表示n条事故数据中所有X与Y特征的期望频数。
4.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤3中,通过SMOTE算法对自动驾驶事故重采样,平衡数据集,对于待扩充的数据集样本,先计算每个样本间欧几里得距离,然后使用SMOTE算法扫描每个样本点以每个样本点的K个最邻近样本点为依据,从K个近邻样本中随机选出一个样本按式2生成新样本,直到达到新样本数量需求;式2为:
xnew=x+rand(0,1)*(xc-x)    (2)
其中,xnew表示一个新样本;x表示一个原始的待扩充自动驾驶事故样本;xc表示K邻近中随机抽中的一个样本;rand(0,1)生成0与1间的随机数。
5.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤4中,所述模型超参组合包括迭代次数、树深度、学习率、子集观察值最小权重和、结点分割时最小损失函数减小值、样本采样率、L1正则化、L2正则化。
6.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤4、5中,对训练集进行五折验证的划分,每份都作为验证集,在训练时用其中4份进行模型训练,余下1份作为验证检验分类模型性能,重复过程5次直至训练结束,每次训练加权平均作为模型最终性能指标;对于第i个事故样本的最终预测值用式3计算:
Figure FDA0004008293600000021
其中,xi表示样本特征,fk(xi)表示第k棵树对样本xi的预测结果,把这些值相加在得到最终的结果
Figure FDA0004008293600000024
利用损失函数最小化优化梯度提升树、提高预测精度,如式4:
Figure FDA0004008293600000022
其中,将
Figure FDA0004008293600000025
与上一个梯度树计算得到的值联系起来,优化损失函数如下:
Figure FDA0004008293600000023
得到损失函数后,利用贪心算法构建梯度提升树,计算当前树的损失值再穷举所有可能性,取损失函数降低最多的树为当前树的形状,不断迭代直至损失函数降低至阈值为止,即可得到最优的预测结果。
7.根据权利要求1所述的基于机器学习的自动驾驶事故严重程度预测方法,其特征在于,步骤5中,所述指标包括准确率、召回率和F1分数。
CN202211642644.1A 2022-12-20 2022-12-20 一种基于机器学习的自动驾驶事故严重程度预测方法 Pending CN116049668A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211642644.1A CN116049668A (zh) 2022-12-20 2022-12-20 一种基于机器学习的自动驾驶事故严重程度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211642644.1A CN116049668A (zh) 2022-12-20 2022-12-20 一种基于机器学习的自动驾驶事故严重程度预测方法

Publications (1)

Publication Number Publication Date
CN116049668A true CN116049668A (zh) 2023-05-02

Family

ID=86117270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211642644.1A Pending CN116049668A (zh) 2022-12-20 2022-12-20 一种基于机器学习的自动驾驶事故严重程度预测方法

Country Status (1)

Country Link
CN (1) CN116049668A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776819A (zh) * 2023-05-26 2023-09-19 深圳市海孜寻网络科技有限公司 一种集成电路设计方案的测试方法
CN117172381A (zh) * 2023-09-05 2023-12-05 薪海科技(上海)有限公司 基于大数据的风险预测方法
CN117725488A (zh) * 2024-02-06 2024-03-19 河北元泰建中项目管理有限公司 基于机器学习的建筑工程项目安全性能预测方法及系统
CN117724137A (zh) * 2023-11-21 2024-03-19 江苏北斗星通汽车电子有限公司 一种基于多模态传感器的汽车事故自动检测系统及方法
CN117829370A (zh) * 2024-01-05 2024-04-05 兰州交通大学 一种交通事故严重程度预测方法、系统及计算机设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776819A (zh) * 2023-05-26 2023-09-19 深圳市海孜寻网络科技有限公司 一种集成电路设计方案的测试方法
CN117172381A (zh) * 2023-09-05 2023-12-05 薪海科技(上海)有限公司 基于大数据的风险预测方法
CN117724137A (zh) * 2023-11-21 2024-03-19 江苏北斗星通汽车电子有限公司 一种基于多模态传感器的汽车事故自动检测系统及方法
CN117829370A (zh) * 2024-01-05 2024-04-05 兰州交通大学 一种交通事故严重程度预测方法、系统及计算机设备
CN117829370B (zh) * 2024-01-05 2024-06-11 兰州交通大学 一种交通事故严重程度预测方法、系统及计算机设备
CN117725488A (zh) * 2024-02-06 2024-03-19 河北元泰建中项目管理有限公司 基于机器学习的建筑工程项目安全性能预测方法及系统
CN117725488B (zh) * 2024-02-06 2024-04-30 河北元泰建中项目管理有限公司 基于机器学习的建筑工程项目安全性能预测方法及系统

Similar Documents

Publication Publication Date Title
CN116049668A (zh) 一种基于机器学习的自动驾驶事故严重程度预测方法
CN110929939B (zh) 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法
CN111784017A (zh) 一种基于路况因素回归分析的公路交通事故数量预测方法
WO2021013190A1 (zh) 基于气象参数的高速列车导航盲区定位方法及系统
CN108229567B (zh) 驾驶员身份识别方法及装置
CN111667204A (zh) 自动驾驶开放测试道路环境风险度确定、分级方法及系统
CN109992635B (zh) 一种震后泥石流早期识别方法
CN112966853A (zh) 基于时空残差混合模型的城市路网短时交通流预测方法
CN112966871A (zh) 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统
CN114299742B (zh) 一种高速公路的限速信息动态识别与更新推荐方法
CN114913689B (zh) 一种基于先验知识时变图卷积网络的交通流预测方法
CN111985782B (zh) 基于环境感知的自动驾驶有轨电车运行风险评估方法
CN114371009A (zh) 基于改进随机森林的高速列车轴承故障诊断方法
CN114332825A (zh) 基于深度学习的道路地形分布识别方法、设备和存储介质
CN117540303A (zh) 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统
CN115794801B (zh) 一种挖掘自动驾驶事故致因链式关系的数据分析方法
CN116384627A (zh) 一种基于机器学习的地质灾害评价方法
CN114998719A (zh) 一种基于深度学习和多源遥感数据的林火预测方法
CN112948965A (zh) 一种基于机器学习和统计验证的汽车行驶工况的构建方法
CN113642162A (zh) 一种城市道路交通应急预案仿真综合分析方法
Tian et al. Understanding scenarios for cooperative V2P safety applications using connected vehicle datasets
CN116484266B (zh) 一种精细城市用地类型识别模型训练方法
CN117829370B (zh) 一种交通事故严重程度预测方法、系统及计算机设备
CN116777300B (zh) 基于梯度提升决策树的城市道路交通事故风险评估方法
CN113205685B (zh) 基于全局-局部残差组合模型的短时交通流预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination