CN109408557A - 一种基于多重对应和K-means聚类的交通事故成因分析方法 - Google Patents
一种基于多重对应和K-means聚类的交通事故成因分析方法 Download PDFInfo
- Publication number
- CN109408557A CN109408557A CN201811150213.7A CN201811150213A CN109408557A CN 109408557 A CN109408557 A CN 109408557A CN 201811150213 A CN201811150213 A CN 201811150213A CN 109408557 A CN109408557 A CN 109408557A
- Authority
- CN
- China
- Prior art keywords
- variable
- accident
- matrix
- clustering
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 81
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000003064 k means clustering Methods 0.000 claims abstract description 25
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 101100234408 Danio rerio kif7 gene Proteins 0.000 claims description 5
- 101100221620 Drosophila melanogaster cos gene Proteins 0.000 claims description 5
- 101100398237 Xenopus tropicalis kif11 gene Proteins 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000012512 characterization method Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 abstract 1
- 238000003786 synthesis reaction Methods 0.000 abstract 1
- 238000002955 isolation Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 230000000266 injurious effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000009781 safety test method Methods 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 231100000041 toxicology testing Toxicity 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于多重对应和K‑means聚类的交通事故成因分析方法,包括如下步骤:(1)根据获取的交通事故数据集,选取影响交通事故发生的变量并分类;(2)通过数据库统计各变量的类别数和相应事故数量,筛选合并异常值的变量类别,得到事故数据表;(3)将得到的事故数据表处理得到二进制指标矩阵;(4)将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标;(5)使用局部线性嵌入算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标;(6)使用K‑means聚类算法对变量类别进行聚类,并根据聚类结果进行分析。本发明根据聚类结果从多维度综合探究交通事故成因,不仅是分析二维对应分析图。
Description
技术领域
本发明涉及道路交通技术领域,尤其是一种基于多重对应和K-means聚类的交通事故成因分析方法。
背景技术
道路交通系统的构成要素包括人、车、道路、环境,每个要素自成子系统又相互作用,而交通事故的发生是由于各个子系统自身出现问题或相互间作用失调。通过对大量交通事故数据的研究,对道路安全提出针对性的干预手段或改善措施,以达到降低事故风险和减轻事故伤害严重程度的目的。
影响交通事故的潜在风险众多,包括交通参与者、车辆、道路和环境等。目前,现有研究主要关注驾驶者年龄、性别、驾龄等和危险驾驶行为。道路方面主要研究道路网络、道路设计、交通控制等对交通事故的影响。车辆安全研究主要包括主动安全方面的车辆智能防撞技术与被动安全方面的车辆安全设施的设计优化、车辆安全测试法规的制定和应用等。
当前,公安交通管理部门记录了大量的交通事故数据,但只是以采集到的数据为基础进行简单的分类统计说明,没有进行相关性分析,很难发现交通系统各要素对交通事故的综合影响,不能够详细的分析交通事故成因。
发明内容
本发明所要解决的技术问题在于,提供一种基于多重对应和K-means聚类的交通事故成因分析方法,能够根据聚类结果从多维度综合探究交通事故成因,不仅是分析二维对应分析图。
为解决上述技术问题,本发明提供一种基于多重对应和K-means聚类的交通事故成因分析方法,包括如下步骤:
(1)根据获取的交通事故数据集,选取影响交通事故发生的变量并分类;
(2)通过Mysql数据库统计各变量的类别数和相应事故数量,筛选合并异常值的变量类别,得到事故数据表;
(3)将得到的事故数据表处理得到二进制指标矩阵;
(4)将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标;
(5)使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标;
(6)使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析。
优选的,步骤(3)中,将得到的事故数据表处理得到二进制指标矩阵具体包括如下步骤:
(31)设选取的事故数据包括n起交通事故,共有p个数据字段(变量)每个字段的类别个数分别为k1,…,kj,…,kp,则数据集的类别总数为设变量j的类别l为jl;
(32)定义二进制指标矩阵的元素为设Xjl与jl相关联,Xjl=[x1jl,…,xnjl],变量j的kj个类别构成与变量相关的二进制指标矩阵,n*kj项,对于所有的p个类别变量,通过横向连接得到整个数据集二进制指标矩阵X:
其中,矩阵X的行和全部等于p,列和是变量的单类别边际频率,设为Vjl,各变量全部类别的列和等于n,得到矩阵X的总和为np;第i行的行百分比jl列的列百分比
(33)设对应矩阵为P=(1/np)X;设行质量向量为r=P1,对于矩阵X,r中的每一个元素均为设列质量向量为c=PT1,对于矩阵X,c中的每一个元素为设Dr和Dc分别为行质量与列质量的对角矩阵,行百分比或列百分比之间的“卡方距离”是由或度量定义的加权欧氏距离。
优选的,步骤(4)中,将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标具体包括如下步骤:
(41)将事故类型作为表征事故特征的变量,然后选取驾驶员、车辆、道路和环境四个方面的变量,进行多重对应分析;
(42)多重对应分析方法的实现过程包括
(a)奇异值分解的计算:
保留其K*个主成分,设为M=UDαVT;U为包含行特征向量的矩阵;Dα为奇异值对角矩阵,是特征值矩阵;V为包含列特征向量的矩阵;
(b)行点和列点的坐标coordinate分别为:
(c)设dr和dc分别为行和列与其各自相应质心之间的χ2距离:
dr=diag{FFT}
dC=diag{GGT}
(d)行和列在某一维度ζ上的表现质量(余弦平方cos2)分别为:
其中,和分别为dr和dc的相应元素,cos2测量观测或变量类别与特定维度之间的关联程度;
(43)对事故数据进行两次多重对应分析:
(a)第一次多重对应分析:根据得到的特征值信息和变量类别在各维度上的表现质量cos2,筛选出表现质量差的变量;
(b)第二次多重对应分析:去除表现质量差的变量后进行多重对应分析,得到变量类别的多重对应分析坐标。
优选的,步骤(5)中,使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标具体包括如下步骤:
(51)设多重对应分析坐标D={x1,x2,…,xm}T,最近邻数kl,降维到的维数d;要求1<kl<m,m为变量类别数;采用奇数;选择kl值时,使它总是样本数的一小部分,本发明中kl为距离样本数平方根较小的奇数;
(52)对于i=1,2,…,m,计算xi的kl个最近邻(xi1,xi2,,xikl),按欧式距离度量;
(53)求局部协方差矩阵Zi=(xi-xj)T(xi-xj),并求出相应的权重系数向量:
其中1kl为kl维全1向量;
(54)权重系数向量Wi构成权重系数矩阵W,设矩阵M=(I-W)T(I-W),计算矩阵M的前(d+1)个特征值和相对应的特征向量{y1,y2,…,yd+1};
(55)由第二个到第(d+1)个特征向量组成的矩阵即为需要的LLE降维坐标:
D′={y2,y3,…,yd+1}
其中,D′和D的变量类别数相同,不同的是坐标维数和相应坐标,因此:
D′={x1′,x2′,…,xm′}T。
优选的,步骤(6)中,使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析具体包括如下步骤:
(61)计算轮廓系数,确定最佳聚类数K:
(a)D′={x1′,x2′,,xm′}T,设将变量类别分为k个簇,为C=(c1,c2,…cj,…,ck),对于变量类别x′i,计算簇内不相似度a(x′i)=average(x′i到同簇其他变量类别的距离),计算簇间不相似度b(x′i)=min(xi′到其它簇cj所有变量类别点的平均距离bij);
(b)定义变量类别xi′的轮廓系数为s(xi′)
所有变量类别的s(xi′)的均值是聚类结果的轮廓系数,是聚类是否合理的有效度量;
(c)遍历k=2,3,…,15,每一个k值重复执行30次算法,计算轮廓系数,然后确定最佳聚类数K;
(62)进行K-means聚类,并解读聚类结果:
(a)随机选取K个变量类别作为各簇的初始中心点,设各簇中心点集合为CZJ=(C1,C2,…Cj,…CK),使用误差平方和作为聚类的目标函数;
(b)计算变量类别与所有簇的初始中心点的距离,假设变量类别xi′距离簇Cj的中心点最近,则将xi′标记为Cj,然后计算误差平方和
其中,K表示聚类数,Cj表示第j各中心,dist表示欧氏距离;
(c)计算并更新每个簇中变量类别的坐标平均值,将其定为每个簇的新的聚类中心点;
迭代步骤(b)和(c),直到误差平方和达到最优或者达到最大迭代次数,结束聚类,然后解读聚类结果。
本发明的有益效果为:(1)本发明通过采用多重对应分析方法,综合考虑影响事故发生的驾驶员、车辆、道路和环境等方面的因素,用事故类型来表征事故;(2)通过LLE算法对变量类别的多重对应分析坐标进行降维,增强多重对应分析结果的可读性;(3)用K-means聚类算法对变量类别进行均,根据聚类结果从多维度综合探究交通事故成因,不仅是分析二维对应分析图;(4)用R语言编程实现MCA、LLE、K-means三种算法,计算过程的每一个步骤均可以可视化展示,并以图形的方式展示分析结果。
附图说明
图1为本发明的变量类别数量示意图。
图2为本发明的事故类型示意图。
图3为本发明的聚类结果示意图。
图4为本发明的方法流程示意图。
图5为本发明的多重对应分析二维示意图。
具体实施方式
如图4所示,一种基于多重对应和K-means聚类的交通事故成因分析方法,包括如下步骤:
(1)根据获取的交通事故数据集,选取影响交通事故发生的变量并分类;
(2)通过Mysql数据库统计各变量的类别数和相应事故数量,筛选合并异常值的变量类别,得到事故数据表;
(3)将得到的事故数据表处理得到二进制指标矩阵;
(4)将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标;
(5)使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标;
(6)使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析。
本发明的数据处理部分主要使用MySQL数据库管理系统,涉及数据筛选、合并和统计,本发明的采用的多重对应分析、局部线性嵌入算法和K-means聚类算法的实现过程在R中完成。
实施例采用的数据是某市2015—2017年的严重交通事故数据,共有1430起事故数据,包含驾驶员信息、车辆信息、环境信息、道路信息和事故类型等。
通过MySQL处理原始数据,删除各变量中类别占比小于1%的类别,排除异常值的影响,然后统计各变量类别涉及的事故数量分布图,如图1所示。
图1可以用来识别频率很低的变量类别,这些类型的变量会扭曲多重分析结果,应当删除。从图1中发现:性别、车辆类型、在道路横断面位置三个变量中,存在明显的某一变量类别大于其他同等类别(其他类别占比均小于15%),且变量性质表现出不能合并类别特征,实施例分析删去这三个变量。且年龄和驾龄两个变量的类别数较多,考虑类别合并。最终用于算法分析的交通事故数据,如表1所示:
表1交通事故数据
将上述所得的数据表处理得到二进制指标矩阵,如表2所示(由于数据量大,只象征性地列出矩阵框架):
表2事故数据指标矩阵
首先,应用R语言软件中的RSQLite包连接MySQL数据库,利用RODBC包读写数据指标矩阵;采用FactoMineR和factoextra程序包,编写多重对应分析代码;采用lle包实现LLE算法,对多重对应分析坐标降维;采用factoextra和cluster包完成K-means聚类算法。
本发明是一种基于多重对应和K-means聚类的交通事故成因分析方法,将事故类型作为分析主体,下面将结合R语言操作环境具体说明分析过程。
(1)第一次多重对应分析:有关特征值的计算结果表3所示,
表3事故类型:特征值信息
表3中,特征值的中位数是0.121393,特征值的均值为0.125,在维度Dim.15的特征值两边,因此统计变量类别在前12维度上的表现质量。变量类别在各维度上的表现质量(cos2)如表4所示(前12维度)。
表4事故类型:变量类别在各维度上的表现质量
以前12维度所保留的累计方差百分比60.49895%作为阈值筛选表现差的变量类别,对照表4分析发现,天气变量的所有变量类别在前12维度上的表现质量均小于阈值,因此在第二次多重分析中删除这一变量。
(2)第二次多重对应分析:去除表现质量差的变量后进行多重对应分析,得到变量类别的多重对应分析坐标,如表5所示(部分列出)。
表5事故类型:多重对应分析坐标
(3)使用LLE算法对所得变量类别的多重对应分析坐标进行降维:
变量类别的数量为30个,根据选择标准,本发明选定最近邻数kl为5,带入算法求得降维到的维度d=3,得到LLE降维坐标如表6所示。
表6事故类型:LLE降维坐标
(4)使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析:
本发明遍历聚类数k=2,3,…,15,每一个k值重复执行30次聚类算法,得到各个聚类数的轮廓系数,如表7所示,得到聚类数和轮廓系数的关系曲线,如图2所示,从图中可以得出,最佳聚类数K=4。
表7事故类型:聚类数的轮廓系数
聚类数 | 轮廓系数 |
2 | 0.5014 |
3 | 0.550849 |
4 | 0.592446 |
5 | 0.35566 |
6 | 0.328037 |
7 | 0.244134 |
8 | 0.287475 |
9 | 0.272941 |
10 | 0.283707 |
11 | 0.27051 |
12 | 0.264327 |
13 | 0.254195 |
14 | 0.246004 |
15 | 0.193036 |
将K=4带入K-means算法,得到变量类别的聚类结果,如表8所示,对聚类结果进行可视化展示,如图3所示。
表8变量类别聚类结果
根据表8和图3可以得出以下结论:
(1)聚类结果分类1包含死亡事故,表征驾驶员特征的变量类别为年龄21-30岁、驾龄2年以下,表征环境特征的变量类别为能见度100-200米和200米以上,照明条件为白天,表征道路特征的变量类别为道路类型是一般城市道路,道路物理隔离是中心隔离和机非隔离。
说明:死亡事故的发生倾向于驾龄短的年轻驾驶者,这可能与驾驶者的驾驶心理特征相关,应重点关注这一类驾驶人群;在有中心隔离或机非隔离的一般城市道路上,且驾驶环境是能见度在100米以上的白天能够发生死亡事故,表明该地区交管部门在做好分隔不同道路使用者的同时,也应很好的限制驾驶速度,设置提示牌或是路段测速装置等。
(2)聚类结果分类2包含财产损失事故,表征环境特征的夜间有路灯照明和黎明两种照明条件。
说明:这种聚类结果表明在这两种照明条件下更倾向于发生财产损失事故,但并不表明其他条件下不会造成财产损失事故,这恰恰说明了财产损失事故是最难防控的事故类型。交通事故往往是意外造成的,无论严重程度如何,均伴随着财产损失,这种情况下可以做好的就是减少事故的发生,但是无法避免。
(3)聚类结果分类3包含夜间无路灯照明和黄昏两种照明条件。
说明:在时间节点上,这两种情况是相邻的时间段,且黄昏的定义很难明确,分析认为这两种情况下发生的事故是相似的,聚类才被分到一组,这里认为这是同等照明条件;另外,这一聚类结果没有与任何事故类型相关联,说明这种照明条件下或者说是夜间驾车情况下,发生任何类型的事故都有可能,无明显的倾向性。因此,分析认为,夜间应安排交警巡逻或是在路边设置警示闪烁装置,作为对驾驶者的一种提示,降低发生事故的风险。
(4)聚类结果分类4包含伤人事故,表征驾驶员特征的变量类别为年龄31-40岁、41-50岁、50岁以上,驾龄3-5年、6-10年、11年以上,表征环境特征的变量类别为能见度50-100米和50米以下,表征道路特征的变量类别为道路类型是城市快速路以及二、三、四级公路和等外公路,道路物理隔离是中心隔离加机非隔离和无隔离。
说明:随着驾驶者年龄和驾龄的增长(并不是指年龄大,驾龄就长),即使发生严重事故,其结果更多的是倾向于伤人事故,分析认为:年龄增长伴随着社会责任感的提升、驾龄增长伴随着驾驶经验提高和驾驶情境认知增多是产生上述效果的主要原因;在能见度为100米以下的情况下,驾驶者驾驶时会变得小心谨慎,在城市快速路上发生事故,可能是由于车流量大或者是能见度低造成的换道频繁导致的,认为除现有的道路提示牌外,推广车载内置导航的使用可以降低该种情况下的事故发生;等外公路,又称简易公路,指达不到最低功能型等级公路标准的公路,多位于郊区农村道路,无道路隔离设施,四级公路是是沟通县、乡、村的支线公路,也无道路隔离设施,在能见度较低的情况下,在这两种公路发生的事故多为车辆自身事故,由于速度低,发生的事故类型多为伤人事故或财产损失事故,认为在这些道路的转弯或是交叉口处,增设提示装置和一定的保护设施可以降低事故发生率;二级和三级公路是干线公路,设置有中心隔离加机非隔离设施,运输繁忙且能适应各种车辆行驶,在能见度较低情况下,多发生刮蹭和追尾事故,由于货车居多,一般造成的为伤人事故,建议在天气差和能见度低时,可以通过控制道路流量、增加上路巡逻来降低事故的发生,路上巡逻可以有效防止驾驶员在无测速路段超速行驶,避免更严重的事故发生。
本发明使用MySQL数据库对交通事故数据的处理过程,以及针对各字段不同类别的筛选合并流程;将事故类型作为表征事故特征的变量进行多重对应分析,多重分析筛选表现质量差的变量的方法;使用局部线性嵌入(LLE)算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标,增强多重对应分析结果的可读性;使用K-means聚类算法对变量类别进行聚类,根据聚类结果进行分析,多维度探究交通事故成因;在R语言编程环境下,以流程方式完成“事故类型多重对应分析(MCA)——LLE对变量类别坐标降维——K-means聚类多维度探究事故成因”这三种算法的实现,并在R中可视化交通事故影响因素多重对应分析结果。
Claims (5)
1.一种基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,包括如下步骤:
(1)根据获取的交通事故数据集,选取影响交通事故发生的变量并分类;
(2)通过Mysql数据库统计各变量的类别数和相应事故数量,筛选合并异常值的变量类别,得到事故数据表;
(3)将得到的事故数据表处理得到二进制指标矩阵;
(4)将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标;
(5)使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标;
(6)使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析。
2.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,步骤(3)中,将得到的事故数据表处理得到二进制指标矩阵具体包括如下步骤:
(31)设选取的事故数据包括n起交通事故,共有p个数据字段每个字段的类别个数分别为k1,…,kj,…,kp,则数据集的类别总数为J=1,2,…,p,设变量j的类别l为jl;
(32)定义二进制指标矩阵的元素为i=1,2,…n;设Xjl与jl相关联,Xjl=[x1jl,…,xnjl],变量j的kj个类别构成与变量相关的二进制指标矩阵,n*kj项,对于所有的p个类别变量,通过横向连接得到整个数据集二进制指标矩阵X:
其中,矩阵X的行和全部等于p,列和是变量的单类别边际频率,设为Vjl,各变量全部类别的列和等于n,得到矩阵X的总和为np;第i行的行百分比jl列的列百分比
(33)设对应矩阵为P=(1/np)X;设行质量向量为r=P1,对于矩阵X,r中的每一个元素均为设列质量向量为c=PT1,对于矩阵X,c中的每一个元素为设Dr和Dc分别为行质量与列质量的对角矩阵,行百分比或列百分比之间的“卡方距离”是由或度量定义的加权欧氏距离。
3.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,步骤(4)中,将事故类型作为表征事故特征的变量进行多重对应分析,得到各变量类别的多重对应分析坐标具体包括如下步骤:
(41)将事故类型作为表征事故特征的变量,然后选取驾驶员、车辆、道路和环境四个方面的变量,进行多重对应分析;
(42)多重对应分析方法的实现过程包括
(a)奇异值分解的计算:
保留其K*个主成分,设为M=UDαVT;U为包含行特征向量的矩阵;Dα为奇异值对角矩阵,是特征值矩阵;V为包含列特征向量的矩阵;
(b)行点和列点的坐标coordinate分别为:
(c)设dr和dc分别为行和列与其各自相应质心之间的χ2距离:
dr=diag{FFT}
dc=diag{GGT}
(d)行和列在某一维度ζ上的表现质量(余弦平方cos2)分别为:
其中,和分别为dr和dc的相应元素,cos2测量观测或变量类别与特定维度之间的关联程度;
(43)对事故数据进行两次多重对应分析:
(a)第一次多重对应分析:根据得到的特征值信息和变量类别在各维度上的表现质量cos2,筛选出表现质量差的变量;
(b)第二次多重对应分析:去除表现质量差的变量后进行多重对应分析,得到变量类别的多重对应分析坐标。
4.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,步骤(5)中,使用局部线性嵌入LLE算法对事故数据多重对应分析所得变量类别坐标进行降维,得到LLE降维坐标具体包括如下步骤:
(51)设多重对应分析坐标D={x1,x2,…,xm}T,最近邻数kl,降维到的维数d;要求1<kl<m,m为变量类别数;采用奇数;选择kl值时,使它总是样本数的一小部分,本发明中kl为距离样本数平方根较小的奇数;
(52)对于i=1,2,…,m,计算xi的kl个最近邻(xi1,xi2,…,xikl),按欧式距离度量;
(53)求局部协方差矩阵Zi=(xi-xj)T(xi-xj),并求出相应的权重系数向量:
其中1kl为kl维全1向量;
(54)权重系数向量Wi构成权重系数矩阵w,设矩阵M=(I-W)T(I-W),计算矩阵M的前(d+1)个特征值和相对应的特征向量{y1,y2,…,yd+1};
(55)由第二个到第(d+1)个特征向量组成的矩阵即为需要的LLE降维坐标:
D′={y2,y3,…,yd+1}
其中,D′和D的变量类别数相同,不同的是坐标维数和相应坐标,因此:
D′={x1′,x2′,…,xm′}T。
5.如权利要求1所述的基于多重对应和K-means聚类的交通事故成因分析方法,其特征在于,步骤(6)中,使用K-means聚类算法对变量类别进行聚类,并根据聚类结果进行分析具体包括如下步骤:
(61)计算轮廓系数,确定最佳聚类数K:
(a)D′={x1′,x2′,…,xm′}T,设将变量类别分为k个簇,为C=(c1,c2,…cj,…,ck),对于变量类别x′i,计算簇内不相似度a(x′i)=average(x′i到同簇其他变量类别的距离),计算簇间不相似度b(x′i)=min(xi′到其它簇cj所有变量类别点的平均距离bij);
(b)定义变量类别xi′的轮廓系数为s(xi′)
所有变量类别的s(xi′)的均值是聚类结果的轮廓系数,是聚类是否合理的有效度量;
(c)遍历k=2,3,…,15,每一个k值重复执行30次算法,计算轮廓系数,然后确定最佳聚类数K;
(62)进行K-means聚类,并解读聚类结果:
(a)随机选取K个变量类别作为各簇的初始中心点,设各簇中心点集合为CZJ=(C1,C2,…Cj,…CK),使用误差平方和作为聚类的目标函数;
(b)计算变量类别与所有簇的初始中心点的距离,假设变量类别xi′距离簇Cj的中心点最近,则将xi′标记为Cj,然后计算误差平方和
其中,K表示聚类数,Cj表示第j各中心,dist表示欧氏距离;
(c)计算并更新每个簇中变量类别的坐标平均值,将其定为每个簇的新的聚类中心点;
迭代步骤(b)和(c),直到误差平方和达到最优或者达到最大迭代次数,结束聚类,然后解读聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150213.7A CN109408557B (zh) | 2018-09-29 | 2018-09-29 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811150213.7A CN109408557B (zh) | 2018-09-29 | 2018-09-29 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408557A true CN109408557A (zh) | 2019-03-01 |
CN109408557B CN109408557B (zh) | 2021-09-28 |
Family
ID=65466576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811150213.7A Active CN109408557B (zh) | 2018-09-29 | 2018-09-29 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408557B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263074A (zh) * | 2019-06-26 | 2019-09-20 | 东南大学 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
CN111414698A (zh) * | 2020-03-25 | 2020-07-14 | 青岛理工大学 | 一种地铁隧道开挖地表沉降成因的对应分析方法 |
CN111563467A (zh) * | 2020-05-13 | 2020-08-21 | 金陵科技学院 | 一种基于机器视觉的太阳能板清洁系统 |
CN111859815A (zh) * | 2020-07-31 | 2020-10-30 | 中国汽车工程研究院股份有限公司 | 一种电池报警特征数据的模式聚类方法与事故特征识别技术 |
CN112597820A (zh) * | 2020-12-10 | 2021-04-02 | 南京长峰航天电子科技有限公司 | 一种基于雷达信号分选的目标聚类方法 |
CN114937359A (zh) * | 2022-05-20 | 2022-08-23 | 四川大学 | 交通基础设施级联故障定位分析方法、系统、终端及介质 |
CN116011745A (zh) * | 2022-12-20 | 2023-04-25 | 速度时空信息科技股份有限公司 | 一种基于云服务的生态修复方案优化方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100329529A1 (en) * | 2007-10-29 | 2010-12-30 | The Trustees Of The University Of Pennsylvania | Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri) |
CN106096507A (zh) * | 2016-05-27 | 2016-11-09 | 中兴软创科技股份有限公司 | 智慧交通黑车识别方法 |
CN108280415A (zh) * | 2018-01-17 | 2018-07-13 | 武汉理工大学 | 基于智能移动终端的驾驶行为识别方法 |
CN108596409A (zh) * | 2018-07-16 | 2018-09-28 | 江苏智通交通科技有限公司 | 提升交通危险人员事故风险预测精度的方法 |
-
2018
- 2018-09-29 CN CN201811150213.7A patent/CN109408557B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100329529A1 (en) * | 2007-10-29 | 2010-12-30 | The Trustees Of The University Of Pennsylvania | Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri) |
CN106096507A (zh) * | 2016-05-27 | 2016-11-09 | 中兴软创科技股份有限公司 | 智慧交通黑车识别方法 |
CN108280415A (zh) * | 2018-01-17 | 2018-07-13 | 武汉理工大学 | 基于智能移动终端的驾驶行为识别方法 |
CN108596409A (zh) * | 2018-07-16 | 2018-09-28 | 江苏智通交通科技有限公司 | 提升交通危险人员事故风险预测精度的方法 |
Non-Patent Citations (1)
Title |
---|
韩志艳: "《语音识别及语音可视化技术研究》", 31 January 2017, 东北大学出版社 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263074A (zh) * | 2019-06-26 | 2019-09-20 | 东南大学 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
CN110263074B (zh) * | 2019-06-26 | 2023-08-25 | 东南大学 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
CN111414698A (zh) * | 2020-03-25 | 2020-07-14 | 青岛理工大学 | 一种地铁隧道开挖地表沉降成因的对应分析方法 |
CN111563467A (zh) * | 2020-05-13 | 2020-08-21 | 金陵科技学院 | 一种基于机器视觉的太阳能板清洁系统 |
CN111859815A (zh) * | 2020-07-31 | 2020-10-30 | 中国汽车工程研究院股份有限公司 | 一种电池报警特征数据的模式聚类方法与事故特征识别技术 |
CN111859815B (zh) * | 2020-07-31 | 2023-05-23 | 中国汽车工程研究院股份有限公司 | 一种电池报警特征数据的模式聚类方法与事故特征识别技术 |
CN112597820A (zh) * | 2020-12-10 | 2021-04-02 | 南京长峰航天电子科技有限公司 | 一种基于雷达信号分选的目标聚类方法 |
CN114937359A (zh) * | 2022-05-20 | 2022-08-23 | 四川大学 | 交通基础设施级联故障定位分析方法、系统、终端及介质 |
CN116011745A (zh) * | 2022-12-20 | 2023-04-25 | 速度时空信息科技股份有限公司 | 一种基于云服务的生态修复方案优化方法及系统 |
CN116011745B (zh) * | 2022-12-20 | 2024-02-13 | 速度科技股份有限公司 | 一种基于云服务的生态修复方案优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109408557B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408557B (zh) | 一种基于多重对应和K-means聚类的交通事故成因分析方法 | |
Li et al. | Using latent class analysis and mixed logit model to explore risk factors on driver injury severity in single-vehicle crashes | |
CN109448369B (zh) | 高速公路实时运行风险计算方法 | |
Yu et al. | A latent class approach for driver injury severity analysis in highway single vehicle crash considering unobserved heterogeneity and temporal influence | |
CN110544373B (zh) | 一种基于北斗车联网的货车预警信息提取与风险识别方法 | |
Ma et al. | Driving style recognition and comparisons among driving tasks based on driver behavior in the online car-hailing industry | |
Haleem et al. | Effect of driver’s age and side of impact on crash severity along urban freeways: A mixed logit approach | |
Song et al. | Modeling pedestrian-injury severities in pedestrian-vehicle crashes considering spatiotemporal patterns: Insights from different hierarchical Bayesian random-effects models | |
CN108550263B (zh) | 一种基于故障树模型的高速公路交通事故成因分析方法 | |
CN110197588A (zh) | 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置 | |
CN105946860B (zh) | 一种考虑驾驶风格的弯道车速预测方法 | |
Jin et al. | Assessment of expressway traffic safety using Gaussian mixture model based on time to collision | |
CN109635852B (zh) | 一种基于多维属性的用户画像构建与聚类方法 | |
Kang et al. | Cluster-based approach to analyzing crash injury severity at highway–rail grade crossings | |
Jeng et al. | Real-time vehicle classification using inductive loop signature data | |
CN114168646A (zh) | 基于多数据融合的营运车辆运输监控方法及系统 | |
Sun et al. | A hybrid approach of random forest and random parameters logit model of injury severity modeling of vulnerable road users involved crashes | |
Sanjurjo-De-No et al. | Driver pattern identification in road crashes in spain | |
CN113095387B (zh) | 基于联网车载adas的道路风险识别方法 | |
CN116682264B (zh) | 一种港口车辆主动安全防控系统 | |
Zhang | Research on risk projection of urban road traffic safety based on RS-SVM combination model. | |
Wong et al. | Analyzing heterogeneous accident data from the perspective of accident occurrence | |
CN116596307A (zh) | 一种基于公交运营安全数据构建驾驶员安全画像模型的方法 | |
Jain et al. | Analysis of road accidents in India and prediction of accident severity | |
Hashemi et al. | Exploratory Analysis of Roadway Departure Crashes Contributing Factors Based on Classification and Regression Trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |