CN115794801B - 一种挖掘自动驾驶事故致因链式关系的数据分析方法 - Google Patents
一种挖掘自动驾驶事故致因链式关系的数据分析方法 Download PDFInfo
- Publication number
- CN115794801B CN115794801B CN202211663796.XA CN202211663796A CN115794801B CN 115794801 B CN115794801 B CN 115794801B CN 202211663796 A CN202211663796 A CN 202211663796A CN 115794801 B CN115794801 B CN 115794801B
- Authority
- CN
- China
- Prior art keywords
- accident
- automatic driving
- data
- data set
- frequent item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种挖掘自动驾驶事故致因链式关系的数据分析方法,通过采集自动驾驶事故数据,基于Apriori算法构建事故致因链式关联规则分析模型,对算法进行改进快速生成与事故严重程度有关的关联规则,探究网联自动驾驶车辆不同严重程度的事故成因和发生模式,分析各关键因素之间的相关关系,为安全自动驾驶提供可靠建议。此种方法能够结合严重程度有针对性地获取自动驾驶事故多种影响因素的链式关系组合,获得简洁准确的事故致因链式关系结果,了解影响自动驾驶碰撞事故发生的主要因素,有助于交通机构制定有效的政策措施和工程对策,提高道路运输系统的效率和安全服务水平。
Description
技术领域
本发明属于事故数据挖掘领域,尤其涉及一种基于Apriori算法挖掘自动驾驶事故致因链式关系的数据分析方法。
背景技术
分析自动驾驶交通事故关键因素是理解事故发生致因和提高自动驾驶车辆运行安全的有效途径。关联规则挖掘是一种有效的数据挖掘方法,能够挖掘与事故发生相关的关键因素。目前涉及关联规则的研究大多数关注传统人工车辆和摩托车事故,由于自动驾驶车辆碰撞与传统车辆碰撞在特征和机制上的不同,缺乏对智能网联车辆碰撞事故的分析;此外,现有研究仅分析自动驾驶事故的影响因素,对因素关联性和事故严重程度相关规则的深入分析较少。因此,在车辆智能化、道路网联化的数字环境下,需要探究网联自动驾驶车辆不同严重程度的事故成因和发生模式,分析各关键因素之间的相关关系,为安全自动驾驶提供可靠建议,以提高道路安全设计以及道路管理部门制定针对CAV的管理改进政策。
发明内容
本发明的目的,在于提供一种挖掘自动驾驶事故致因链式关系的数据分析方法,能够结合严重程度有针对性地获取自动驾驶事故多种影响因素的链式关系组合,获得简洁准确的事故致因链式关系结果,了解影响自动驾驶碰撞事故发生的主要因素,有助于交通机构制定有效的政策措施和工程对策,提高道路运输系统的效率和安全服务水平。
为了达成上述目的,本发明的解决方案是:
一种挖掘自动驾驶事故致因链式关系的数据分析方法,包括如下步骤:
步骤1,采集自动驾驶历年事故,对数据进行初步清洗获得与事故直接相关的数据集D1,并通过事故地点在卫星地图获得道路设计及设施数据集D2;
步骤2,利用事故ID将数据集D1、D2进行联合和预处理,建立自动驾驶事故挖掘与分析数据集D;
步骤3,采用描述性统计手段对事故挖掘与分析数据集D进行探索性分析,通过显著性检验方法找出导致自动驾驶事故的主要影响因素;
步骤4,根据选择的影响因素确定关联规则的自动驾驶事故属性,确定支持度和可信度的阈值,利用Apriori算法建立事故数据集的频繁项集;
步骤5,基于获取的频繁项集通过提升度阈值确定有效的关联规则,分析自动驾驶事故潜在的发生机制;
步骤6,在Apriori算法上对连接频繁项集的步骤进行改进,结尾处加入包含“事故严重程度”的判断。
上述步骤1中,得到数据集D1的方法是,在网络上搜索网联自动驾驶事故官方数据集,通过调查年限内详细事故报告,采集包含车辆运动行为、车辆类型、事故类型、事故发生时间在内的直接因素的相关数据。
上述步骤1中,采集卫星地图地点数据D2的方法是,利用事故地点在卫星地图上匹配经纬度,采集道路类型、几何设计因素、交通设施相关数据。
上述步骤2中,利用事故ID将数据集D1、D2进行联合包括,根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境在内的多因素事故数据集。
上述步骤2中,预处理的方法是,对缺失值利用众数填充、对脏数据进行删除、将文本编码为Apriori算法可识别标签。
上述步骤3的具体内容是:
步骤31,采用卡方检验公式对事故数据集无序分类变量进行显著性检验,删除不显著变量;
步骤32,利用皮尔逊相关系数计算变量相关性,保留与事故严重程度相关性强的变量。
采用上述方案后,本发明通过采集自动驾驶事故数据,基于Apriori算法构建事故致因链式关联规则分析模型,对算法进行改进快速生成与事故严重程度有关的关联规则,探究网联自动驾驶车辆不同严重程度的事故成因和发生模式,分析各关键因素之间的相关关系,为安全自动驾驶提供可靠建议,以提高道路安全设计以及道路管理部门制定针对网联自动驾驶车辆的管理改进政策,具有实际的工程运用价值。
附图说明
图1是本发明的流程图。
具体实施方式
如图1所示,本发明提供一种挖掘自动驾驶事故致因链式关系的数据分析方法,包括如下步骤:
步骤1、自动驾驶事故相关数据采集,包括事故报告原始数据及卫星地图地点数据收集。在网络上搜索美国加州机动车管理局公开的网联自动驾驶事故数据集D1,通过2015年1月到2021年12月的357条详细事故报告,对车辆运动行为、车辆类型、事故类型、事故发生时间等直接因素进行数据采集;利用事故地点在Google Map上匹配经纬度,采集道路类型、几何设计因素、交通设施等数据D2;
步骤2、对多源数据D1、D2利用事故ID进行联合和预处理,建立事故挖掘与分析数据集D。根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境等多因素事故集合。对事故数据集进行预处理,对缺失值利用众数填充、对脏数据进行删除、将不同变量下的属性值编码为Apriori算法可识别标签。
步骤3、采用描述性统计手段对自动驾驶事故挖掘与分析数据集进行探索性分析,通过显著性检验等方法找出导致自动驾驶事故的主要影响因素。采取卡方检验公式(式1)对事故数据集无序分类变量进行显著性检验,利用皮尔逊相关系数(式2)计算变量关系性,初步筛选事故影响因素。
其中,Ai为i特征的频数,Ei为特征i的期望频数,k为特征数,n为总频数,pi为特征i的期望频率。利用χ2值判断变量显著性,删除不显著变量。
其中,cov(X,Y)是特征X与特征Y的协方差,σX和σY分别是特征X与特征Y的标准差,Xi与Yi表示第i条事故数据中的特征X与特征Y,E(X)与E(Y)表示n条事故数据中所有特征X与Y的期望频数。
利用ρxY判断变量相关性,保留与事故严重程度相关性强的变量。
通过上述步骤共获得19个事故影响因素进行进一步的关联规则挖掘。
步骤4、根据选择的19个影响因素确定关联规则的自动驾驶事故属性,确定支持度(式3)和可信度(式4)阈值,利用Apriori算法建立事故数据集的频繁项集。本发明推荐minsup=0.1,minconf=0.7。
其中,Count(X∩Y)为特征项X与特征项Y共同出现的次数,N表示特征项总数,Support(X)为特征项X占数据总项集的比例;表示同时包含特征项X与特征项Y的项集占数据总项集的比例;/>表示包含特征项X与特征项Y的项集与包含特征项X的项集的比例。
利用Apriori算法建立事故数据集的频繁项集的过程是:首先扫描包含19个自动驾驶事故影响因素的数据集,生成候选集C1,再由C1通过支持度阈值过滤,生成频繁项集L1;将L1中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C2,C2通过支持度阈值过滤,生成频繁项集L2;将L2中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C3,C3通过支持度阈值过滤,生成频繁项集L3……直到Lk不为空集为止。
代码如下:
步骤5、基于步骤4中生成的频繁项集通过置信度阈值(minconf=0.7)和提升度阈值(minlift=1,计算式见公式5)确定事故数据集D的有效关联规则,分析自动驾驶事故潜在的发生机制。例如规则{Signal_int=Non-signalized intersection}=>{Severity=Minor}说明轻微严重程度的自动驾驶事故通常发生在非信号交叉口,{Vec_type=Privatecar}=>{Severity=Moderate}说明中等严重程度的自动驾驶事故往往涉及私家车等。
步骤6、基于Apriori算法对连接频繁项集的步骤进行改进,对频繁项集Lk-1中的特征项按照Apriori原理进行连接前加入包含“事故严重程度”的判断,如果生成的频繁项集中不含"NONE"、"MINOR"、"MOD"、"MAJOR"四种事故严重程度特征项,则对该频繁项集进行剪枝操作产生候选集Ck,Ck通过支持度阈值过滤,生成频繁项集Lk,更快获取具有针对性的规则。
所述步骤6可通过如下代码实现:
以下将结合具体实施例对本发明的技术方案及有益效果进行详细说明。
1)自动驾驶事故数据采集D1和D2,如表1、表2所示。
表1事故报告原始数据D1
表2事故地点数据D2
2)对多源数据D1、D2利用事故ID进行联合和预处理,建立事故挖掘与分析数据集D,如表3所示。
表3事故挖掘与分析数据集D
3)采用描述性统计手段对自动驾驶事故挖掘与分析数据集进行探索性分析,通过显著性检验等方法计算χ2和ρXY,找出导致自动驾驶事故的主要影响因素。
4)根据选择的19个影响因素确定关联规则的自动驾驶事故属性,计算支持度和可信度,利用Apriori算法建立事故数据集的频繁项集挖掘模型。
基于设定的支持度和可信度阈值minsup=0.1,minconf=0.7,利用Apriori算法挖掘事故数据集的频繁项集。
5)基于获取的频繁项集通过minlift=1确定有效的整体关联规则,分析自动驾驶事故潜在的发生机制。部分结果如表4所示:
表4事故挖掘与分析数据集D整体有效规则部分概览
Association rules | S | C | L | Association rules | S | C | L |
{BusS_F,CON3}=>{TIM4} | 0.104 | 0.860 | 3.938 | {AV_MOV2,ROA2}=>{A} | 0.171 | 0.726 | 1.424 |
{CON3,MINOR}=>{TIM4} | 0.104 | 0.822 | 3.763 | {AV_MOV2,CV_MOV1}=>{TYP1} | 0.126 | 0.789 | 1.409 |
{M,TIM4}=>{CON3} | 0.148 | 0.707 | 3.504 | {CON3,CycleL_F}=>{Sig_T} | 0.104 | 0.740 | 1.405 |
{3,M}=>{Sig_T} | 0.140 | 0.820 | 1.557 | {BusS_T,INT2}=>{Sig_T} | 0.196 | 0.737 | 1.399 |
{RoadP_T,Sig_F}=>{ROA2} | 0.196 | 0.864 | 1.442 | {2,BusS_T}=>{ROA2} | 0.129 | 0.836 | 1.395 |
{C,ROA2}=>{Sig_T} | 0.140 | 0.862 | 1.438 | {CycleL_F,Sig_F}=>{ROA2} | 0.196 | 0.824 | 1.374 |
{SUR1,TYP3}=>{C} | 0.106 | 0.704 | 1.436 | {A,AV_MOV2}=>{TYP1} | 0.202 | 0.766 | 1.367 |
{AV_MOV2,VEC1}=>{TYP1} | 0.289 | 0.798 | 1.425 | {CV_MOV1,Sig_F}=>{ROA2} | 0.109 | 0.796 | 1.328 |
6)利用改进的Apriori算法快速且有针对性地获取右项为“事故严重程度”的关联规则,部分结果如表5所示。
表5事故挖掘与分析数据集D事故严重程度有效规则部分概览
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (4)
1.一种挖掘自动驾驶事故致因链式关系的数据分析方法,其特征在于包括如下步骤:
步骤1,采集自动驾驶历年事故,对数据进行初步清洗获得与事故直接相关的数据集D1,并通过事故地点在卫星地图获得道路设计及设施数据集D2;
所述步骤1中,得到数据集D1的方法是,在网络上搜索网联自动驾驶事故官方数据集,通过调查年限内详细事故报告,采集包含车辆运动行为、车辆类型、事故类型、事故发生时间在内的直接因素的相关数据;
步骤2,利用事故ID将数据集D1、D2进行联合和预处理,建立自动驾驶事故挖掘与分析数据集D;
步骤3,采用描述性统计手段对事故挖掘与分析数据集D进行探索性分析,通过显著性检验方法找出导致自动驾驶事故的主要影响因素;
所述步骤3的具体内容是:
步骤31,采用卡方检验公式对事故数据集无序分类变量进行显著性检验,删除不显著变量;
步骤32,利用皮尔逊相关系数计算变量相关性,保留与事故严重程度相关性强的变量;
步骤4,根据选择的影响因素确定关联规则的自动驾驶事故属性,确定支持度和可信度的阈值,利用Apriori算法建立事故数据集的频繁项集;
所述步骤4中,利用Apriori算法建立事故数据集的频繁项集的过程是:首先扫描包含自动驾驶事故影响因素的数据集,生成候选集C1,再由C1通过支持度阈值过滤,生成频繁项集L1;将L1中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C2,C2通过支持度阈值过滤,生成频繁项集L2;将L2中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C3,C3通过支持度阈值过滤,生成频繁项集L3……直到Lk不为空集为止;
步骤5,基于获取的频繁项集通过提升度阈值确定有效的关联规则,分析自动驾驶事故潜在的发生机制;
步骤6,在Apriori算法上对连接频繁项集的步骤进行改进,结尾处加入包含“事故严重程度”的判断;
所述步骤6中,基于Apriori算法对连接频繁项集的步骤进行改进,对频繁项集Lk-1中的特征项按照Apriori原理进行连接前加入包含“事故严重程度”的判断,如果生成的频繁项集中不含"NONE"、"MINOR"、"MOD"、"MAJOR"四种事故严重程度特征项,则对该频繁项集进行剪枝操作产生候选集Ck,Ck通过支持度阈值过滤,生成频繁项集Lk,更快获取具有针对性的规则。
2.如权利要求1所述的挖掘自动驾驶事故致因链式关系的数据分析方法,其特征在于:所述步骤1中,采集卫星地图地点数据D2的方法是,利用事故地点在卫星地图上匹配经纬度,采集道路类型、几何设计因素、交通设施相关数据。
3.如权利要求1所述的挖掘自动驾驶事故致因链式关系的数据分析方法,其特征在于:所述步骤2中,利用事故ID将数据集D1、D2进行联合包括,根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境在内的多因素事故数据集。
4.如权利要求1或3所述的挖掘自动驾驶事故致因链式关系的数据分析方法,其特征在于:所述步骤2中,预处理的方法是,对缺失值利用众数填充、对脏数据进行删除、将文本编码为Apriori算法可识别标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211663796.XA CN115794801B (zh) | 2022-12-23 | 2022-12-23 | 一种挖掘自动驾驶事故致因链式关系的数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211663796.XA CN115794801B (zh) | 2022-12-23 | 2022-12-23 | 一种挖掘自动驾驶事故致因链式关系的数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115794801A CN115794801A (zh) | 2023-03-14 |
CN115794801B true CN115794801B (zh) | 2023-08-15 |
Family
ID=85427811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211663796.XA Active CN115794801B (zh) | 2022-12-23 | 2022-12-23 | 一种挖掘自动驾驶事故致因链式关系的数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794801B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079462B (zh) * | 2023-08-24 | 2024-05-07 | 云南省交通投资建设集团有限公司 | 一种基于Apriori算法的路段突发交通事件预测系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176565A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 一种基于多维时间序列的电气设备故障预测方法 |
CN105955209A (zh) * | 2016-04-26 | 2016-09-21 | 中南民族大学 | 一种基于数据挖掘制造业工厂设备布局方法 |
CN107741993A (zh) * | 2017-11-06 | 2018-02-27 | 佛山市章扬科技有限公司 | 一种高校数字图书馆数据挖掘的方法 |
CN108579700A (zh) * | 2018-05-14 | 2018-09-28 | 集美大学 | 一种多空隙吸附有机挥发物碳酸钙高岭土复合材料及制备方法 |
CN108717786A (zh) * | 2018-07-17 | 2018-10-30 | 南京航空航天大学 | 一种基于普适性元规则的交通事故致因挖掘方法 |
CN113792193A (zh) * | 2021-08-27 | 2021-12-14 | 武汉理工大学 | 一种面向内河航标的事故数据挖掘方法与系统 |
CN114580874A (zh) * | 2022-02-24 | 2022-06-03 | 哈尔滨工业大学 | 一种适用于高速公路风险评估的多维分布式数据分析系统 |
CN114756656A (zh) * | 2022-04-29 | 2022-07-15 | 河海大学 | 基于改进Apriori算法的水利工程安全隐患描述关联规则挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812543B2 (en) * | 2011-03-31 | 2014-08-19 | Infosys Limited | Methods and systems for mining association rules |
-
2022
- 2022-12-23 CN CN202211663796.XA patent/CN115794801B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176565A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 一种基于多维时间序列的电气设备故障预测方法 |
CN105955209A (zh) * | 2016-04-26 | 2016-09-21 | 中南民族大学 | 一种基于数据挖掘制造业工厂设备布局方法 |
CN107741993A (zh) * | 2017-11-06 | 2018-02-27 | 佛山市章扬科技有限公司 | 一种高校数字图书馆数据挖掘的方法 |
CN108579700A (zh) * | 2018-05-14 | 2018-09-28 | 集美大学 | 一种多空隙吸附有机挥发物碳酸钙高岭土复合材料及制备方法 |
CN108717786A (zh) * | 2018-07-17 | 2018-10-30 | 南京航空航天大学 | 一种基于普适性元规则的交通事故致因挖掘方法 |
CN113792193A (zh) * | 2021-08-27 | 2021-12-14 | 武汉理工大学 | 一种面向内河航标的事故数据挖掘方法与系统 |
CN114580874A (zh) * | 2022-02-24 | 2022-06-03 | 哈尔滨工业大学 | 一种适用于高速公路风险评估的多维分布式数据分析系统 |
CN114756656A (zh) * | 2022-04-29 | 2022-07-15 | 河海大学 | 基于改进Apriori算法的水利工程安全隐患描述关联规则挖掘方法 |
Non-Patent Citations (1)
Title |
---|
Exploring the impacts of traffic flow states on freeway normal crashes, primary crashes, and secondary crashes;Bo Yang等;IET;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115794801A (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145170B (zh) | 一种道路交通事故数据挖掘服务器、方法和系统 | |
CN115794801B (zh) | 一种挖掘自动驾驶事故致因链式关系的数据分析方法 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN109767618B (zh) | 一种公安交管业务异常数据综合研判方法及系统 | |
CN114299742B (zh) | 一种高速公路的限速信息动态识别与更新推荐方法 | |
CN114332825B (zh) | 基于深度学习的道路地形分布识别方法、设备和存储介质 | |
Xi et al. | A hybrid algorithm of traffic accident data mining on cause analysis | |
CN116049668A (zh) | 一种基于机器学习的自动驾驶事故严重程度预测方法 | |
CN111612334A (zh) | 一种基于车联网数据的驾驶行为风险评级的判定方法 | |
Yan et al. | The identification algorithm and model construction of automobile insurance fraud based on data mining | |
Cheong et al. | Missing traffic data imputation for artificial intelligence in intelligent transportation systems: review of methods, limitations, and challenges | |
CN110188324B (zh) | 一种基于特征向量空间滤值的交通事故poisson回归分析方法 | |
CN116824868B (zh) | 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质 | |
CN117455237A (zh) | 一种基于多源数据的道路交通事故风险预测方法 | |
CN112651666A (zh) | 一种基于驾驶模式转移特征的驾驶员风险评估方法 | |
CN114580874B (zh) | 一种适用于高速公路风险评估的多维分布式数据分析系统 | |
Marukatat | Structure-based rule selection framework for association rule mining of traffic accident data | |
CN116013084A (zh) | 交通管控场景确定方法、装置、电子设备及存储介质 | |
CN113011713B (zh) | 一种基于信息熵的驾驶员驾驶稳定性评估方法 | |
Lamarche-Perrin et al. | Informational measures of aggregation for complex systems analysis | |
CN117829370B (zh) | 一种交通事故严重程度预测方法、系统及计算机设备 | |
CN115035722B (zh) | 基于时空特征和社交媒体相结合的道路安全风险预测方法 | |
CN112183615B (zh) | 一种带有马尔可夫链数据处理的汽车风险用户筛查方法 | |
CN117829370A (zh) | 一种交通事故严重程度预测方法、系统及计算机设备 | |
CN115762140B (zh) | 一种考虑变量异质性的高速公路交通事故风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |