CN109408557A

CN109408557A - 一种基于多重对应和K-means聚类的交通事故成因分析方法

Info

Publication number: CN109408557A
Application number: CN201811150213.7A
Authority: CN
Inventors: 夏井新; 樊朋光; 王晨; 宋燕超; 刘林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-01
Anticipated expiration: 2038-09-29
Also published as: CN109408557B

Abstract

本发明公开了一种基于多重对应和K‑means聚类的交通事故成因分析方法，包括如下步骤：(1)根据获取的交通事故数据集，选取影响交通事故发生的变量并分类；(2)通过数据库统计各变量的类别数和相应事故数量，筛选合并异常值的变量类别，得到事故数据表；(3)将得到的事故数据表处理得到二进制指标矩阵；(4)将事故类型作为表征事故特征的变量进行多重对应分析，得到各变量类别的多重对应分析坐标；(5)使用局部线性嵌入算法对事故数据多重对应分析所得变量类别坐标进行降维，得到LLE降维坐标；(6)使用K‑means聚类算法对变量类别进行聚类，并根据聚类结果进行分析。本发明根据聚类结果从多维度综合探究交通事故成因，不仅是分析二维对应分析图。

Description

一种基于多重对应和K-means聚类的交通事故成因分析方法

技术领域

本发明涉及道路交通技术领域，尤其是一种基于多重对应和K-means聚类的交通事故成因分析方法。

背景技术

道路交通系统的构成要素包括人、车、道路、环境，每个要素自成子系统又相互作用，而交通事故的发生是由于各个子系统自身出现问题或相互间作用失调。通过对大量交通事故数据的研究，对道路安全提出针对性的干预手段或改善措施，以达到降低事故风险和减轻事故伤害严重程度的目的。

影响交通事故的潜在风险众多，包括交通参与者、车辆、道路和环境等。目前，现有研究主要关注驾驶者年龄、性别、驾龄等和危险驾驶行为。道路方面主要研究道路网络、道路设计、交通控制等对交通事故的影响。车辆安全研究主要包括主动安全方面的车辆智能防撞技术与被动安全方面的车辆安全设施的设计优化、车辆安全测试法规的制定和应用等。

当前，公安交通管理部门记录了大量的交通事故数据，但只是以采集到的数据为基础进行简单的分类统计说明，没有进行相关性分析，很难发现交通系统各要素对交通事故的综合影响，不能够详细的分析交通事故成因。

发明内容

本发明所要解决的技术问题在于，提供一种基于多重对应和K-means聚类的交通事故成因分析方法，能够根据聚类结果从多维度综合探究交通事故成因，不仅是分析二维对应分析图。

为解决上述技术问题，本发明提供一种基于多重对应和K-means聚类的交通事故成因分析方法，包括如下步骤：

(1)根据获取的交通事故数据集，选取影响交通事故发生的变量并分类；

(2)通过Mysql数据库统计各变量的类别数和相应事故数量，筛选合并异常值的变量类别，得到事故数据表；

(3)将得到的事故数据表处理得到二进制指标矩阵；

(4)将事故类型作为表征事故特征的变量进行多重对应分析，得到各变量类别的多重对应分析坐标；

(5)使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维，得到LLE降维坐标；

(6)使用K-means聚类算法对变量类别进行聚类，并根据聚类结果进行分析。

优选的，步骤(3)中，将得到的事故数据表处理得到二进制指标矩阵具体包括如下步骤：

(31)设选取的事故数据包括n起交通事故，共有p个数据字段(变量)每个字段的类别个数分别为k₁,…,k_j,…,k_p，则数据集的类别总数为设变量j的类别l为jl；

(32)定义二进制指标矩阵的元素为设X_jl与jl相关联，X_jl＝[x_1jl，…，x_njl]，变量j的k_j个类别构成与变量相关的二进制指标矩阵，n*k_j项，对于所有的p个类别变量，通过横向连接得到整个数据集二进制指标矩阵X：

其中，矩阵X的行和全部等于p，列和是变量的单类别边际频率，设为V_jl，各变量全部类别的列和等于n，得到矩阵X的总和为np；第i行的行百分比jl列的列百分比

(33)设对应矩阵为P＝(1/np)X；设行质量向量为r＝P1，对于矩阵X，r中的每一个元素均为设列质量向量为c＝P^T1，对于矩阵X，c中的每一个元素为设D_r和D_c分别为行质量与列质量的对角矩阵，行百分比或列百分比之间的“卡方距离”是由或度量定义的加权欧氏距离。

优选的，步骤(4)中，将事故类型作为表征事故特征的变量进行多重对应分析，得到各变量类别的多重对应分析坐标具体包括如下步骤：

(41)将事故类型作为表征事故特征的变量，然后选取驾驶员、车辆、道路和环境四个方面的变量，进行多重对应分析；

(42)多重对应分析方法的实现过程包括

(a)奇异值分解的计算：

保留其K^*个主成分，设为M＝UD_αV^T；U为包含行特征向量的矩阵；D_α为奇异值对角矩阵，是特征值矩阵；V为包含列特征向量的矩阵；

(b)行点和列点的坐标coordinate分别为：

(c)设d_r和d_c分别为行和列与其各自相应质心之间的χ²距离：

d_r＝diag{FF^T}

d_C＝diag{GG^T}

(d)行和列在某一维度ζ上的表现质量(余弦平方cos2)分别为：

其中，和分别为d_r和d_c的相应元素，cos2测量观测或变量类别与特定维度之间的关联程度；

(43)对事故数据进行两次多重对应分析：

(a)第一次多重对应分析：根据得到的特征值信息和变量类别在各维度上的表现质量cos2，筛选出表现质量差的变量；

(b)第二次多重对应分析：去除表现质量差的变量后进行多重对应分析，得到变量类别的多重对应分析坐标。

优选的，步骤(5)中，使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维，得到LLE降维坐标具体包括如下步骤：

(51)设多重对应分析坐标D＝{x₁,x₂,…,x_m}^T，最近邻数kl，降维到的维数d；要求1＜kl＜m，m为变量类别数；采用奇数；选择kl值时，使它总是样本数的一小部分，本发明中kl为距离样本数平方根较小的奇数；

(52)对于i＝1,2,…,m，计算x_i的kl个最近邻(x_i1,x_i2,,x_ikl)，按欧式距离度量；

(53)求局部协方差矩阵Z_i＝(x_i-x_j)^T(x_i-x_j)，并求出相应的权重系数向量：

其中1_kl为kl维全1向量；

(54)权重系数向量W_i构成权重系数矩阵W，设矩阵M＝(I-W)^T(I-W)，计算矩阵M的前(d+1)个特征值和相对应的特征向量{y₁,y₂,…,y_d+1}；

(55)由第二个到第(d+1)个特征向量组成的矩阵即为需要的LLE降维坐标：

D′＝{y₂,y₃,…,y_d+1}

其中，D′和D的变量类别数相同，不同的是坐标维数和相应坐标，因此：

D′＝{x₁′,x₂′,…,x_m′}^T。

优选的，步骤(6)中，使用K-means聚类算法对变量类别进行聚类，并根据聚类结果进行分析具体包括如下步骤：

(61)计算轮廓系数，确定最佳聚类数K：

(a)D′＝{x₁′,x₂′,,x_m′}^T，设将变量类别分为k个簇，为C＝(c₁,c₂,…c_j,…,c_k)，对于变量类别x′_i，计算簇内不相似度a(x′_i)＝average(x′_i到同簇其他变量类别的距离)，计算簇间不相似度b(x′_i)＝min(x_i′到其它簇c_j所有变量类别点的平均距离b_ij)；

(b)定义变量类别x_i′的轮廓系数为s(x_i′)

所有变量类别的s(x_i′)的均值是聚类结果的轮廓系数，是聚类是否合理的有效度量；

(c)遍历k＝2,3,…,15，每一个k值重复执行30次算法，计算轮廓系数，然后确定最佳聚类数K；

(62)进行K-means聚类，并解读聚类结果：

(a)随机选取K个变量类别作为各簇的初始中心点，设各簇中心点集合为C_ZJ＝(C₁,C₂,…C_j,…C_K)，使用误差平方和作为聚类的目标函数；

(b)计算变量类别与所有簇的初始中心点的距离，假设变量类别x_i′距离簇C_j的中心点最近，则将x_i′标记为C_j，然后计算误差平方和

其中，K表示聚类数，C_j表示第j各中心，dist表示欧氏距离；

(c)计算并更新每个簇中变量类别的坐标平均值，将其定为每个簇的新的聚类中心点；

迭代步骤(b)和(c)，直到误差平方和达到最优或者达到最大迭代次数，结束聚类，然后解读聚类结果。

本发明的有益效果为：(1)本发明通过采用多重对应分析方法，综合考虑影响事故发生的驾驶员、车辆、道路和环境等方面的因素，用事故类型来表征事故；(2)通过LLE算法对变量类别的多重对应分析坐标进行降维，增强多重对应分析结果的可读性；(3)用K-means聚类算法对变量类别进行均，根据聚类结果从多维度综合探究交通事故成因，不仅是分析二维对应分析图；(4)用R语言编程实现MCA、LLE、K-means三种算法，计算过程的每一个步骤均可以可视化展示，并以图形的方式展示分析结果。

附图说明

图1为本发明的变量类别数量示意图。

图2为本发明的事故类型示意图。

图3为本发明的聚类结果示意图。

图4为本发明的方法流程示意图。

图5为本发明的多重对应分析二维示意图。

具体实施方式

如图4所示，一种基于多重对应和K-means聚类的交通事故成因分析方法，包括如下步骤：

(3)将得到的事故数据表处理得到二进制指标矩阵；

本发明的数据处理部分主要使用MySQL数据库管理系统，涉及数据筛选、合并和统计，本发明的采用的多重对应分析、局部线性嵌入算法和K-means聚类算法的实现过程在R中完成。

实施例采用的数据是某市2015—2017年的严重交通事故数据，共有1430起事故数据，包含驾驶员信息、车辆信息、环境信息、道路信息和事故类型等。

通过MySQL处理原始数据，删除各变量中类别占比小于1％的类别，排除异常值的影响，然后统计各变量类别涉及的事故数量分布图，如图1所示。

图1可以用来识别频率很低的变量类别，这些类型的变量会扭曲多重分析结果，应当删除。从图1中发现：性别、车辆类型、在道路横断面位置三个变量中，存在明显的某一变量类别大于其他同等类别(其他类别占比均小于15％)，且变量性质表现出不能合并类别特征，实施例分析删去这三个变量。且年龄和驾龄两个变量的类别数较多，考虑类别合并。最终用于算法分析的交通事故数据，如表1所示：

表1交通事故数据

将上述所得的数据表处理得到二进制指标矩阵，如表2所示(由于数据量大，只象征性地列出矩阵框架)：

表2事故数据指标矩阵

首先，应用R语言软件中的RSQLite包连接MySQL数据库，利用RODBC包读写数据指标矩阵；采用FactoMineR和factoextra程序包，编写多重对应分析代码；采用lle包实现LLE算法，对多重对应分析坐标降维；采用factoextra和cluster包完成K-means聚类算法。

本发明是一种基于多重对应和K-means聚类的交通事故成因分析方法，将事故类型作为分析主体，下面将结合R语言操作环境具体说明分析过程。

(1)第一次多重对应分析：有关特征值的计算结果表3所示，

表3事故类型：特征值信息

表3中，特征值的中位数是0.121393，特征值的均值为0.125，在维度Dim.15的特征值两边，因此统计变量类别在前12维度上的表现质量。变量类别在各维度上的表现质量(cos2)如表4所示(前12维度)。

表4事故类型：变量类别在各维度上的表现质量

以前12维度所保留的累计方差百分比60.49895％作为阈值筛选表现差的变量类别，对照表4分析发现，天气变量的所有变量类别在前12维度上的表现质量均小于阈值，因此在第二次多重分析中删除这一变量。

(2)第二次多重对应分析：去除表现质量差的变量后进行多重对应分析，得到变量类别的多重对应分析坐标，如表5所示(部分列出)。

表5事故类型：多重对应分析坐标

(3)使用LLE算法对所得变量类别的多重对应分析坐标进行降维：

变量类别的数量为30个，根据选择标准，本发明选定最近邻数kl为5，带入算法求得降维到的维度d＝3，得到LLE降维坐标如表6所示。

表6事故类型：LLE降维坐标

(4)使用K-means聚类算法对变量类别进行聚类，并根据聚类结果进行分析：

本发明遍历聚类数k＝2,3,…,15，每一个k值重复执行30次聚类算法，得到各个聚类数的轮廓系数，如表7所示，得到聚类数和轮廓系数的关系曲线，如图2所示，从图中可以得出，最佳聚类数K＝4。

表7事故类型：聚类数的轮廓系数

聚类数	轮廓系数
		2	0.5014
3	0.550849
		4	0.592446
5	0.35566
		6	0.328037
7	0.244134
		8	0.287475
9	0.272941
		10	0.283707
11	0.27051
		12	0.264327
13	0.254195
		14	0.246004
15	0.193036

将K＝4带入K-means算法，得到变量类别的聚类结果，如表8所示，对聚类结果进行可视化展示，如图3所示。

表8变量类别聚类结果

根据表8和图3可以得出以下结论：

(1)聚类结果分类1包含死亡事故，表征驾驶员特征的变量类别为年龄21-30岁、驾龄2年以下，表征环境特征的变量类别为能见度100-200米和200米以上，照明条件为白天，表征道路特征的变量类别为道路类型是一般城市道路，道路物理隔离是中心隔离和机非隔离。

说明：死亡事故的发生倾向于驾龄短的年轻驾驶者，这可能与驾驶者的驾驶心理特征相关，应重点关注这一类驾驶人群；在有中心隔离或机非隔离的一般城市道路上，且驾驶环境是能见度在100米以上的白天能够发生死亡事故，表明该地区交管部门在做好分隔不同道路使用者的同时，也应很好的限制驾驶速度，设置提示牌或是路段测速装置等。

(2)聚类结果分类2包含财产损失事故，表征环境特征的夜间有路灯照明和黎明两种照明条件。

说明：这种聚类结果表明在这两种照明条件下更倾向于发生财产损失事故，但并不表明其他条件下不会造成财产损失事故，这恰恰说明了财产损失事故是最难防控的事故类型。交通事故往往是意外造成的，无论严重程度如何，均伴随着财产损失，这种情况下可以做好的就是减少事故的发生，但是无法避免。

(3)聚类结果分类3包含夜间无路灯照明和黄昏两种照明条件。

说明：在时间节点上，这两种情况是相邻的时间段，且黄昏的定义很难明确，分析认为这两种情况下发生的事故是相似的，聚类才被分到一组，这里认为这是同等照明条件；另外，这一聚类结果没有与任何事故类型相关联，说明这种照明条件下或者说是夜间驾车情况下，发生任何类型的事故都有可能，无明显的倾向性。因此，分析认为，夜间应安排交警巡逻或是在路边设置警示闪烁装置，作为对驾驶者的一种提示，降低发生事故的风险。

(4)聚类结果分类4包含伤人事故，表征驾驶员特征的变量类别为年龄31-40岁、41-50岁、50岁以上，驾龄3-5年、6-10年、11年以上，表征环境特征的变量类别为能见度50-100米和50米以下，表征道路特征的变量类别为道路类型是城市快速路以及二、三、四级公路和等外公路，道路物理隔离是中心隔离加机非隔离和无隔离。

说明：随着驾驶者年龄和驾龄的增长(并不是指年龄大，驾龄就长)，即使发生严重事故，其结果更多的是倾向于伤人事故，分析认为：年龄增长伴随着社会责任感的提升、驾龄增长伴随着驾驶经验提高和驾驶情境认知增多是产生上述效果的主要原因；在能见度为100米以下的情况下，驾驶者驾驶时会变得小心谨慎，在城市快速路上发生事故，可能是由于车流量大或者是能见度低造成的换道频繁导致的，认为除现有的道路提示牌外，推广车载内置导航的使用可以降低该种情况下的事故发生；等外公路，又称简易公路，指达不到最低功能型等级公路标准的公路，多位于郊区农村道路，无道路隔离设施，四级公路是是沟通县、乡、村的支线公路，也无道路隔离设施，在能见度较低的情况下，在这两种公路发生的事故多为车辆自身事故，由于速度低，发生的事故类型多为伤人事故或财产损失事故，认为在这些道路的转弯或是交叉口处，增设提示装置和一定的保护设施可以降低事故发生率；二级和三级公路是干线公路，设置有中心隔离加机非隔离设施，运输繁忙且能适应各种车辆行驶，在能见度较低情况下，多发生刮蹭和追尾事故，由于货车居多，一般造成的为伤人事故，建议在天气差和能见度低时，可以通过控制道路流量、增加上路巡逻来降低事故的发生，路上巡逻可以有效防止驾驶员在无测速路段超速行驶，避免更严重的事故发生。

本发明使用MySQL数据库对交通事故数据的处理过程，以及针对各字段不同类别的筛选合并流程；将事故类型作为表征事故特征的变量进行多重对应分析，多重分析筛选表现质量差的变量的方法；使用局部线性嵌入(LLE)算法对事故数据多重对应分析所得变量类别坐标进行降维，得到LLE降维坐标，增强多重对应分析结果的可读性；使用K-means聚类算法对变量类别进行聚类，根据聚类结果进行分析，多维度探究交通事故成因；在R语言编程环境下，以流程方式完成“事故类型多重对应分析(MCA)——LLE对变量类别坐标降维——K-means聚类多维度探究事故成因”这三种算法的实现，并在R中可视化交通事故影响因素多重对应分析结果。

Claims

1.一种基于多重对应和K-means聚类的交通事故成因分析方法，其特征在于，包括如下步骤：

(3)将得到的事故数据表处理得到二进制指标矩阵；

2.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法，其特征在于，步骤(3)中，将得到的事故数据表处理得到二进制指标矩阵具体包括如下步骤：

(31)设选取的事故数据包括n起交通事故，共有p个数据字段每个字段的类别个数分别为k₁，…，k_j，…，k_p，则数据集的类别总数为J＝1，2，…，p，设变量j的类别l为jl；

(32)定义二进制指标矩阵的元素为i＝1，2，…n；设X_jl与jl相关联，X_jl＝[x_1jl，…，x_njl]，变量j的k_j个类别构成与变量相关的二进制指标矩阵，n*k_j项，对于所有的p个类别变量，通过横向连接得到整个数据集二进制指标矩阵X：

3.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法，其特征在于，步骤(4)中，将事故类型作为表征事故特征的变量进行多重对应分析，得到各变量类别的多重对应分析坐标具体包括如下步骤：

(42)多重对应分析方法的实现过程包括

(a)奇异值分解的计算：

(b)行点和列点的坐标coordinate分别为：

(c)设d_r和d_c分别为行和列与其各自相应质心之间的χ²距离：

d_r＝diag{FF^T}

d_c＝diag{GG^T}

(d)行和列在某一维度ζ上的表现质量(余弦平方cos2)分别为：

(43)对事故数据进行两次多重对应分析：

4.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法，其特征在于，步骤(5)中，使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维，得到LLE降维坐标具体包括如下步骤：

(51)设多重对应分析坐标D＝{x₁，x₂，…，x_m}^T，最近邻数kl，降维到的维数d；要求1＜kl＜m，m为变量类别数；采用奇数；选择kl值时，使它总是样本数的一小部分，本发明中kl为距离样本数平方根较小的奇数；

(52)对于i＝1，2，…，m，计算x_i的kl个最近邻(x_i1，x_i2，…，x_ikl)，按欧式距离度量；

其中1_kl为kl维全1向量；

(54)权重系数向量W_i构成权重系数矩阵w，设矩阵M＝(I-W)^T(I-W)，计算矩阵M的前(d+1)个特征值和相对应的特征向量{y₁，y₂，…，y_d+1}；

D′＝{y₂，y₃，…，y_d+1}

D′＝{x₁′，x₂′，…，x_m′}^T。

5.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法，其特征在于，步骤(6)中，使用K-means聚类算法对变量类别进行聚类，并根据聚类结果进行分析具体包括如下步骤：

(61)计算轮廓系数，确定最佳聚类数K：

(a)D′＝{x₁′，x₂′，…，x_m′}^T，设将变量类别分为k个簇，为C＝(c₁，c₂，…c_j，…，c_k)，对于变量类别x′_i，计算簇内不相似度a(x′_i)＝average(x′_i到同簇其他变量类别的距离)，计算簇间不相似度b(x′_i)＝min(x_i′到其它簇c_j所有变量类别点的平均距离b_ij)；

(b)定义变量类别x_i′的轮廓系数为s(x_i′)

(c)遍历k＝2，3，…，15，每一个k值重复执行30次算法，计算轮廓系数，然后确定最佳聚类数K；

(62)进行K-means聚类，并解读聚类结果：

(a)随机选取K个变量类别作为各簇的初始中心点，设各簇中心点集合为C_ZJ＝(C₁，C₂，…Cj，…C_K)，使用误差平方和作为聚类的目标函数；

其中，K表示聚类数，C_j表示第j各中心，dist表示欧氏距离；