CN110263074B

CN110263074B - 一种基于lle和k均值法挖掘违法事故对应关系的方法

Info

Publication number: CN110263074B
Application number: CN201910564249.8A
Authority: CN
Inventors: 王晨; 宋燕超; 寇思元
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2023-08-25
Anticipated expiration: 2039-06-26
Also published as: CN110263074A

Abstract

本发明提供了一种基于LLE和K均值法挖掘违法事故对应关系的方法。包括：收集交通违法与交通事故关联性分析所需数据；考虑不同的指标对交通事故进行分类；选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签；对违法类型‑事故类型进行计数，构建违法类型‑事故类型矩阵；确定三种阈值对交通违法类型进行筛选；构建人员‑类型对应矩阵；使用零均值标准化方法对数据进行标准化处理；使用LLE非线性降维法将数据由高维降至低维；针对两种不同的事故类型分类方式，分别使用改进的K‑均值算法进行聚类分析。本发明克服传统K‑均值算法中存在的随机性大的问题，进一步挖掘交通违法类型和交通事故类型之间存在的对应关系。

Description

一种基于LLE和K均值法挖掘违法事故对应关系的方法

技术领域

本发明涉及一种基于LLE和K均值法挖掘违法事故对应关系的方法，属于智能交通技术领域。

背景技术

道路交通事故受到交通系统各种因素的影响，驾驶员的驾驶行为是造成交通事故的主要因素，据以往数据显示超过90％的交通事故是由人为因素引起的。另外在人为因素中，82％的因素是驾驶员有意识和危险的驾驶行为。驾驶员的危险驾驶行为通常记录在个人历史交通违法记录中。因此，通过广泛探索历史交通违法和交通事故记录，可以揭示驾驶员危险驾驶行为与交通事故之间的内在联系。

交通违法行为与交通事故之间的关系已经被研究多年，但主要集中在一种或两种类型的危险驾驶行为和交通事故发生的关联。其中，文章《Risk-taking Attitudes andRisky Driving Behavior》中，作者Hilde Iversen得出鲁莽驾驶，不系安全带和醉酒驾驶等非法驾驶行为与交通事故的发生呈显正相关。作者宋传平等人通过灰色度分析交通事故规律，发现疲劳驾驶，超速驾驶和超车等驾驶行为是导致道路交通事故的主要因素。在以前的文献中，还发现了一些特定的交通违法行为与事故风险相关，例如超速和闯红灯。另一方面，目前关于交通违法和交通事故关联性分析的研究主要集中在驾驶行为因素与交通事故指标(事故数量、死亡人数、受伤人数、直接经济损失)之间的关系上。

目前已有的交通违法与交通事故关联性分析方法包括：多项Logistic回归模型计算不同的交通违法类型造成轻微交通事故、严重交通事故和致命交通事故的概率；通过建立和分析车辆驾驶员人为因素与事故危险之间的灰色关联模型，评估车辆驾驶员对不同类型道路交通引起的事故危害程度的影响因素；采用相关分析法分析由道路交通事故导致的总死亡人数与驾龄1-5年司机引发的交通事故导致的死亡人数之间的关系以及交通事故的分布情况。另外，在以往事故违法对应关系研究中，多采用线性降维方法，忽略了两者之间可能潜在的非线性关系。在本发明中我们采用LLE非线性降维方法，提取两者之间潜在的非线性关系，深入探究违法事故对应关系，挖掘出和事故关联度较高的重点交通违法类型。

发明内容

为了解决上述存在的问题，本发明公开了一种基于LLE和K均值法挖掘违法事故对应关系的方法，根据收集到的交通事故和违法记录，设定3种阈值对交通违法类型进行筛选，选出更具研究价值的违法类型；采用LLE非线形降维方法，将人员信息由高维空间映射到低维空间，挖掘交通违法类型和交通事故类型之间的非线性关系；针对不同的交通事故分类方式，分别采用改进的K-均值算法对交通违法类型和交通事故类型进行聚类，克服传统K-均值算法中存在的随机性大的问题，进一步地挖掘交通违法类型和交通事故类型之间存在的对应关系。

上述的目的通过以下技术方案实现：

一种基于LLE和K均值法挖掘违法事故对应关系的方法，该方法包括如下步骤：

S1.收集交通违法与交通事故关联性分析所需数据，包括人事信息，交通违法信息，交通事故信息；

S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据，考虑不同的指标对交通事故进行分类，所考虑的指标包括事故严重程度、事故发生形态；

S3.针对不同的交通事故类型分类方式，选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签；

S4.针对不同的交通事故类型分类方式，对违法类型-事故类型进行计数，构建违法类型-事故类型矩阵；

S5.确定三种阈值对交通违法类型进行筛选，三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值；

S6.选择违法标签中含有筛选违法类型的人员作为行，事故类型和筛选违法类型作为列，构建人员-类型对应矩阵；

S7.根据步骤S6生成的矩阵，将类型看作样本点，人员看作维度，使用零均值标准化方法对数据进行标准化处理；

S8.在不损失重要信息的前提下，使用LLE非线性降维法将数据由高维降至低维；

S9.针对两种不同的事故类型分类方式，分别使用改进的K-均值算法进行聚类分析。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S2中所述的事故发生形态包括：同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞；所述事故严重程度分为：简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤：

S51.将交通违法类型发生频率的25％分位数作为阈值，对交通违法类型进行第一次筛选；

S52.将交通违法标签发生频率的25％分位数作为阈值，对交通违法类型进行第二次筛选；

S53.将离散系数的25％分位数作为阈值，对交通违法类型进行第三次筛选。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤：

S81.采用欧式距离计算每个样本点的近邻数；

S82.通过约束条件最小化价值函数，从而计算能够从最近邻点中最优重构样本点的权重，公式及约束条件如下：

约束条件一：每个样本点只能由其最近邻点重构，且如果/>不属于最近邻点强制W_ij＝0；

约束条件二：权重矩阵中每一行和为1，即∑_jW_ij＝1，

其中，ε)W)为价值函数公式，为样本点，W_ij为第j个数据点在样本点i的重建中所占权重；

S83.根据权重计算出能够最优重构高维样本点的低维向量，从而能够底部非零特征向量最小化嵌入价值函数，公式如下：

其中，φ(Y)为嵌入价值函数，为映射后的低维向量。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤：

S91.确定最佳聚类数目；

S92.确定初始聚类中心；

S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S91所述确定最佳聚类数目应满足以下要求：

1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目；

2)要求每一个交通事故类型都应包含在聚类结果中，且不同的交通事故类型应该聚类到不同的类之中；

3)要求每一个类中交通违法类型的数目尽可能小于10，使违法事故类型的对应关系更加清晰。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，步骤S92所述确定初始聚类中心具体包括以下步骤：

1)从样本中随机抽取一个点作为初始聚类中心；

2)根据概率从样本中选取下一个聚类中心，概率公式如下：

D(x)²/∑_x∈XD(x)² (3)

3)重复步骤2)直到确定了全部的聚类中心。

所述的基于LLE和K均值法挖掘违法事故对应关系的方法，在所述步骤S93中得到的聚类结果中，应保留交通违法类型和交通事故类型的对应关系，这种对应关系将根据如下关系式体现：

p(v_mc_n)＞p(v_m)×p(c_n) (4)

其中，p(v_mc_n)为违法-事故类型发生概率，p(v_m)为交通违法类型发生概率，p(c_n)为交通事故类型发生概率。

有益效果：

本发明与现有技术相比，具有以下优点：

1.本发明通过观察分析大量数据，分析了多种交通违法类型和交通事故类型，获取了多种交通违法与多种交通事故之间的多对多关系；

2.本发明考虑了交通违法和交通事故类型之间的高维非线性关系，采用LLE非线性降维算法对交通违法和交通事故类映射到低维空间；

3.本发明提出改进的K-均值算法，解决了传统K-均值算法中存在的由于其固有的初始聚类中心随机性大的问题。本发明结合了传统K-均值算法的简易性、有效性和改进K-均值算法初始聚类中心随机性小的优势，更有效得对交通违法类型和交通事故类型进行聚类。

附图说明

图1为本发明的方法流程图；

图2为依据事故发生形态分类下的聚类数目轮廓系数图；

图3为依据事故严重程度分类下的聚类数目的轮廓系数图；

图4为依据事故发生形态分类下的聚类结果图；

图5为依据事故严重程度分类下的聚类结果图。

具体实施方式

图1是本发明的方法流程图，如图1所示，本发明的一种基于LLE和K均值法挖掘违法事故对应关系的方法，该方法包括如下步骤：

S81.采用欧式距离计算每个样本点的近邻数；

约束条件二：权重矩阵中每一行和为1，即∑_jW_ij＝1，

其中，ε(W)为价值函数公式，为样本点，W_ij为第j个数据点在样本点i的重建中所占权重；

其中，φ(Y)为嵌入价值函数，为映射后的低维向量。

S91.确定最佳聚类数目；

S92.确定初始聚类中心；

1)从样本中随机抽取一个点作为初始聚类中心；

2)根据概率从样本中选取下一个聚类中心，概率公式如下：

D(x)²/∑_x∈XD(x)² (3)

3)重复步骤2)直到确定了全部的聚类中心。

p(v_mc_n)＞p(v_m)×p(c_n) (4)

表1为依据事故发生形态分类下的建模过程相关参数：

表2为依据事故严重程度分类下的建模过程相关参数：

表3为依据事故发生形态交通违法和交通事故对应分析结果：

表4为依据事故严重程度交通违法和交通事故对应分析结果：

从对应分析结果可以看出，易发生违法占道行驶的非机动车驾驶者更有可能造成同向刮擦、对向刮擦或正面碰撞类型的事故，易发生未保持安全距离的机动车驾驶者更有可能造成追尾碰撞类型的事故，易发生违法变更车道的机动车驾驶者更有可能造成同向侧面碰撞类型的事故，易发生违法占道行驶的机动车驾驶者更有可能造成对向侧面碰撞类型的事故，易发生违反交通信号的非机动车驾驶者更有可能造成直角侧面碰撞类型的事故。以上从事故发生形态考虑的对应分析结果比较符合现实逻辑，也反映出本发明中对应分析模型的适用性和合理性。

从事故严重程度考虑来看，对应分析的结果表明：易发生违法装载的机动车驾驶者更有可能造成严重伤人及死亡事故，易发生未按规定让行的机动车驾驶者更有可能造成轻微伤人事故，而易发生超速行驶、违法停车、违法占道行驶等的机动车驾驶者更有可能造成财产损失事故。值得注意的是机动车违反交通信号却更可能造成简易事故，可能是由于当地交通流量不大或大多在绿灯末红灯初违反交通信号，发生了事故但没有造成太大损失。从结果来看，机动车违法装载、未按规定让行、超速行驶、违法停车、违法占道行驶等违法行为容易造成人员伤亡或财产损失，交通管理部门应对这些重点违法类型进行重点整治。

需要说明的是，上述实施例仅用来说明本发明的结构及其工作效果，而并不用作限制本发明的保护范围。本领域内的普通技术人员在不违背本发明思路及结构的情况下对上述实施例进行的调整或优化，仍应视作为本发明权利要求所涵盖。

Claims

1.一种基于LLE和K均值法挖掘违法事故对应关系的方法，其特征在于：该方法包括如下步骤：

S9.针对两种不同的事故类型分类方式，分别使用改进的K-均值算法进行聚类分析；

步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤：

S81.采用欧式距离计算每个样本点的近邻数；

约束条件二：权重矩阵中每一行和为1，即∑_jW_ij＝1，

其中，φ(Y)为嵌入价值函数，为映射后的低维向量；

步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤：

S91.确定最佳聚类数目；

S92.确定初始聚类中心；

S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类；

步骤S91所述确定最佳聚类数目应满足以下要求：

3)要求每一个类中交通违法类型的数目尽可能小于10，使违法事故类型的对应关系更加清晰；

步骤S92所述确定初始聚类中心具体包括以下步骤：

1)从样本中随机抽取一个点作为初始聚类中心；

2)根据概率从样本中选取下一个聚类中心，概率公式如下：

D(x)²/∑_x∈XD(x)²(3)

3)重复步骤2)直到确定了全部的聚类中心；

在所述步骤S93中得到的聚类结果中，应保留交通违法类型和交通事故类型的对应关系，这种对应关系将根据如下关系式体现：

p(v_mc_n)>p(v_m)×p(c_n) (4)

2.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法，其特征在于：步骤S2中所述的事故发生形态包括：同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞；所述事故严重程度分为：简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。

3.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法，其特征在于：步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤：