CN115794801B

CN115794801B - 一种挖掘自动驾驶事故致因链式关系的数据分析方法

Info

Publication number: CN115794801B
Application number: CN202211663796.XA
Authority: CN
Inventors: 郭延永; 刘佩; 刘攀; 岳全胜; 陈晓薇; 吴秀梅
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-08-15
Anticipated expiration: 2042-12-23
Also published as: CN115794801A

Abstract

本发明公开一种挖掘自动驾驶事故致因链式关系的数据分析方法，通过采集自动驾驶事故数据，基于Apriori算法构建事故致因链式关联规则分析模型，对算法进行改进快速生成与事故严重程度有关的关联规则，探究网联自动驾驶车辆不同严重程度的事故成因和发生模式，分析各关键因素之间的相关关系，为安全自动驾驶提供可靠建议。此种方法能够结合严重程度有针对性地获取自动驾驶事故多种影响因素的链式关系组合，获得简洁准确的事故致因链式关系结果，了解影响自动驾驶碰撞事故发生的主要因素，有助于交通机构制定有效的政策措施和工程对策，提高道路运输系统的效率和安全服务水平。

Description

一种挖掘自动驾驶事故致因链式关系的数据分析方法

技术领域

本发明属于事故数据挖掘领域，尤其涉及一种基于Apriori算法挖掘自动驾驶事故致因链式关系的数据分析方法。

背景技术

分析自动驾驶交通事故关键因素是理解事故发生致因和提高自动驾驶车辆运行安全的有效途径。关联规则挖掘是一种有效的数据挖掘方法，能够挖掘与事故发生相关的关键因素。目前涉及关联规则的研究大多数关注传统人工车辆和摩托车事故，由于自动驾驶车辆碰撞与传统车辆碰撞在特征和机制上的不同，缺乏对智能网联车辆碰撞事故的分析；此外，现有研究仅分析自动驾驶事故的影响因素，对因素关联性和事故严重程度相关规则的深入分析较少。因此，在车辆智能化、道路网联化的数字环境下，需要探究网联自动驾驶车辆不同严重程度的事故成因和发生模式，分析各关键因素之间的相关关系，为安全自动驾驶提供可靠建议，以提高道路安全设计以及道路管理部门制定针对CAV的管理改进政策。

发明内容

本发明的目的，在于提供一种挖掘自动驾驶事故致因链式关系的数据分析方法，能够结合严重程度有针对性地获取自动驾驶事故多种影响因素的链式关系组合，获得简洁准确的事故致因链式关系结果，了解影响自动驾驶碰撞事故发生的主要因素，有助于交通机构制定有效的政策措施和工程对策，提高道路运输系统的效率和安全服务水平。

为了达成上述目的，本发明的解决方案是：

一种挖掘自动驾驶事故致因链式关系的数据分析方法，包括如下步骤：

步骤1，采集自动驾驶历年事故，对数据进行初步清洗获得与事故直接相关的数据集D₁，并通过事故地点在卫星地图获得道路设计及设施数据集D₂；

步骤2，利用事故ID将数据集D₁、D₂进行联合和预处理，建立自动驾驶事故挖掘与分析数据集D；

步骤3，采用描述性统计手段对事故挖掘与分析数据集D进行探索性分析，通过显著性检验方法找出导致自动驾驶事故的主要影响因素；

步骤4，根据选择的影响因素确定关联规则的自动驾驶事故属性，确定支持度和可信度的阈值，利用Apriori算法建立事故数据集的频繁项集；

步骤5，基于获取的频繁项集通过提升度阈值确定有效的关联规则，分析自动驾驶事故潜在的发生机制；

步骤6，在Apriori算法上对连接频繁项集的步骤进行改进，结尾处加入包含“事故严重程度”的判断。

上述步骤1中，得到数据集D₁的方法是，在网络上搜索网联自动驾驶事故官方数据集，通过调查年限内详细事故报告，采集包含车辆运动行为、车辆类型、事故类型、事故发生时间在内的直接因素的相关数据。

上述步骤1中，采集卫星地图地点数据D₂的方法是，利用事故地点在卫星地图上匹配经纬度，采集道路类型、几何设计因素、交通设施相关数据。

上述步骤2中，利用事故ID将数据集D₁、D₂进行联合包括，根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境在内的多因素事故数据集。

上述步骤2中，预处理的方法是，对缺失值利用众数填充、对脏数据进行删除、将文本编码为Apriori算法可识别标签。

上述步骤3的具体内容是：

步骤31，采用卡方检验公式对事故数据集无序分类变量进行显著性检验，删除不显著变量；

步骤32，利用皮尔逊相关系数计算变量相关性，保留与事故严重程度相关性强的变量。

采用上述方案后，本发明通过采集自动驾驶事故数据，基于Apriori算法构建事故致因链式关联规则分析模型，对算法进行改进快速生成与事故严重程度有关的关联规则，探究网联自动驾驶车辆不同严重程度的事故成因和发生模式，分析各关键因素之间的相关关系，为安全自动驾驶提供可靠建议，以提高道路安全设计以及道路管理部门制定针对网联自动驾驶车辆的管理改进政策，具有实际的工程运用价值。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示，本发明提供一种挖掘自动驾驶事故致因链式关系的数据分析方法，包括如下步骤：

步骤1、自动驾驶事故相关数据采集，包括事故报告原始数据及卫星地图地点数据收集。在网络上搜索美国加州机动车管理局公开的网联自动驾驶事故数据集D₁，通过2015年1月到2021年12月的357条详细事故报告，对车辆运动行为、车辆类型、事故类型、事故发生时间等直接因素进行数据采集；利用事故地点在Google Map上匹配经纬度，采集道路类型、几何设计因素、交通设施等数据D₂；

步骤2、对多源数据D₁、D₂利用事故ID进行联合和预处理，建立事故挖掘与分析数据集D。根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境等多因素事故集合。对事故数据集进行预处理，对缺失值利用众数填充、对脏数据进行删除、将不同变量下的属性值编码为Apriori算法可识别标签。

步骤3、采用描述性统计手段对自动驾驶事故挖掘与分析数据集进行探索性分析，通过显著性检验等方法找出导致自动驾驶事故的主要影响因素。采取卡方检验公式(式1)对事故数据集无序分类变量进行显著性检验，利用皮尔逊相关系数(式2)计算变量关系性，初步筛选事故影响因素。

其中，A_i为i特征的频数，E_i为特征i的期望频数，k为特征数，n为总频数，p_i为特征i的期望频率。利用χ²值判断变量显著性，删除不显著变量。

其中，cov(X，Y)是特征X与特征Y的协方差，σ_X和σ_Y分别是特征X与特征Y的标准差，Xi与Yi表示第i条事故数据中的特征X与特征Y，E(X)与E(Y)表示n条事故数据中所有特征X与Y的期望频数。

利用ρ_xY判断变量相关性，保留与事故严重程度相关性强的变量。

通过上述步骤共获得19个事故影响因素进行进一步的关联规则挖掘。

步骤4、根据选择的19个影响因素确定关联规则的自动驾驶事故属性，确定支持度(式3)和可信度(式4)阈值，利用Apriori算法建立事故数据集的频繁项集。本发明推荐minsup＝0.1，minconf＝0.7。

其中，Count(X∩Y)为特征项X与特征项Y共同出现的次数，N表示特征项总数，Support(X)为特征项X占数据总项集的比例；表示同时包含特征项X与特征项Y的项集占数据总项集的比例；/>表示包含特征项X与特征项Y的项集与包含特征项X的项集的比例。

利用Apriori算法建立事故数据集的频繁项集的过程是：首先扫描包含19个自动驾驶事故影响因素的数据集，生成候选集C₁，再由C₁通过支持度阈值过滤，生成频繁项集L₁；将L₁中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C₂，C₂通过支持度阈值过滤，生成频繁项集L₂；将L₂中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C₃，C₃通过支持度阈值过滤，生成频繁项集L₃……直到L_k不为空集为止。

代码如下：

步骤5、基于步骤4中生成的频繁项集通过置信度阈值(minconf＝0.7)和提升度阈值(minlift＝1，计算式见公式5)确定事故数据集D的有效关联规则，分析自动驾驶事故潜在的发生机制。例如规则{Signal_int＝Non-signalized intersection}＝>{Severity＝Minor}说明轻微严重程度的自动驾驶事故通常发生在非信号交叉口，{Vec_type＝Privatecar}＝>{Severity＝Moderate}说明中等严重程度的自动驾驶事故往往涉及私家车等。

步骤6、基于Apriori算法对连接频繁项集的步骤进行改进，对频繁项集L_k-1中的特征项按照Apriori原理进行连接前加入包含“事故严重程度”的判断，如果生成的频繁项集中不含"NONE"、"MINOR"、"MOD"、"MAJOR"四种事故严重程度特征项，则对该频繁项集进行剪枝操作产生候选集C_k，C_k通过支持度阈值过滤，生成频繁项集L_k，更快获取具有针对性的规则。

所述步骤6可通过如下代码实现：

以下将结合具体实施例对本发明的技术方案及有益效果进行详细说明。

1)自动驾驶事故数据采集D₁和D₂，如表1、表2所示。

表1事故报告原始数据D₁

表2事故地点数据D₂

2)对多源数据D₁、D₂利用事故ID进行联合和预处理，建立事故挖掘与分析数据集D，如表3所示。

表3事故挖掘与分析数据集D

3)采用描述性统计手段对自动驾驶事故挖掘与分析数据集进行探索性分析，通过显著性检验等方法计算χ²和ρ_XY，找出导致自动驾驶事故的主要影响因素。

4)根据选择的19个影响因素确定关联规则的自动驾驶事故属性，计算支持度和可信度，利用Apriori算法建立事故数据集的频繁项集挖掘模型。

基于设定的支持度和可信度阈值minsup＝0.1，minconf＝0.7，利用Apriori算法挖掘事故数据集的频繁项集。

5)基于获取的频繁项集通过minlift＝1确定有效的整体关联规则，分析自动驾驶事故潜在的发生机制。部分结果如表4所示：

表4事故挖掘与分析数据集D整体有效规则部分概览

Association rules	S	C	L	Association rules	S	C	L
								{BusS_F,CON3}＝>{TIM4}	0.104	0.860	3.938	{AV_MOV2,ROA2}＝>{A}	0.171	0.726	1.424
{CON3,MINOR}＝>{TIM4}	0.104	0.822	3.763	{AV_MOV2,CV_MOV1}＝>{TYP1}	0.126	0.789	1.409
								{M,TIM4}＝>{CON3}	0.148	0.707	3.504	{CON3,CycleL_F}＝>{Sig_T}	0.104	0.740	1.405
{3,M}＝>{Sig_T}	0.140	0.820	1.557	{BusS_T,INT2}＝>{Sig_T}	0.196	0.737	1.399
								{RoadP_T,Sig_F}＝>{ROA2}	0.196	0.864	1.442	{2,BusS_T}＝>{ROA2}	0.129	0.836	1.395
{C,ROA2}＝>{Sig_T}	0.140	0.862	1.438	{CycleL_F,Sig_F}＝>{ROA2}	0.196	0.824	1.374
								{SUR1,TYP3}＝>{C}	0.106	0.704	1.436	{A,AV_MOV2}＝>{TYP1}	0.202	0.766	1.367
{AV_MOV2,VEC1}＝>{TYP1}	0.289	0.798	1.425	{CV_MOV1,Sig_F}＝>{ROA2}	0.109	0.796	1.328

6)利用改进的Apriori算法快速且有针对性地获取右项为“事故严重程度”的关联规则，部分结果如表5所示。

表5事故挖掘与分析数据集D事故严重程度有效规则部分概览

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种挖掘自动驾驶事故致因链式关系的数据分析方法，其特征在于包括如下步骤：

所述步骤1中，得到数据集D₁的方法是，在网络上搜索网联自动驾驶事故官方数据集，通过调查年限内详细事故报告，采集包含车辆运动行为、车辆类型、事故类型、事故发生时间在内的直接因素的相关数据；

所述步骤3的具体内容是：

步骤32，利用皮尔逊相关系数计算变量相关性，保留与事故严重程度相关性强的变量；

所述步骤4中，利用Apriori算法建立事故数据集的频繁项集的过程是：首先扫描包含自动驾驶事故影响因素的数据集，生成候选集C₁，再由C₁通过支持度阈值过滤，生成频繁项集L₁；将L₁中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C₂，C₂通过支持度阈值过滤，生成频繁项集L₂；将L₂中的特征项按照Apriori原理进行连接和剪枝操作产生候选集C₃，C₃通过支持度阈值过滤，生成频繁项集L₃……直到L_k不为空集为止；

步骤6，在Apriori算法上对连接频繁项集的步骤进行改进，结尾处加入包含“事故严重程度”的判断；

所述步骤6中，基于Apriori算法对连接频繁项集的步骤进行改进，对频繁项集L_k-1中的特征项按照Apriori原理进行连接前加入包含“事故严重程度”的判断，如果生成的频繁项集中不含"NONE"、"MINOR"、"MOD"、"MAJOR"四种事故严重程度特征项，则对该频繁项集进行剪枝操作产生候选集C_k，C_k通过支持度阈值过滤，生成频繁项集L_k，更快获取具有针对性的规则。

2.如权利要求1所述的挖掘自动驾驶事故致因链式关系的数据分析方法，其特征在于：所述步骤1中，采集卫星地图地点数据D₂的方法是，利用事故地点在卫星地图上匹配经纬度，采集道路类型、几何设计因素、交通设施相关数据。

3.如权利要求1所述的挖掘自动驾驶事故致因链式关系的数据分析方法，其特征在于：所述步骤2中，利用事故ID将数据集D₁、D₂进行联合包括，根据事故地点索引按行合并原始数据集和地点数据集形成包含道路、车辆、环境在内的多因素事故数据集。

4.如权利要求1或3所述的挖掘自动驾驶事故致因链式关系的数据分析方法，其特征在于：所述步骤2中，预处理的方法是，对缺失值利用众数填充、对脏数据进行删除、将文本编码为Apriori算法可识别标签。