CN110263074A - 一种基于lle和k均值法挖掘违法事故对应关系的方法 - Google Patents
一种基于lle和k均值法挖掘违法事故对应关系的方法 Download PDFInfo
- Publication number
- CN110263074A CN110263074A CN201910564249.8A CN201910564249A CN110263074A CN 110263074 A CN110263074 A CN 110263074A CN 201910564249 A CN201910564249 A CN 201910564249A CN 110263074 A CN110263074 A CN 110263074A
- Authority
- CN
- China
- Prior art keywords
- accident
- type
- traffic
- illegal
- lle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012935 Averaging Methods 0.000 title claims abstract description 29
- 206010039203 Road traffic accident Diseases 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 238000012098 association analyses Methods 0.000 claims abstract description 8
- 230000006378 damage Effects 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 13
- 208000027418 Wounds and injury Diseases 0.000 claims description 11
- 208000014674 injury Diseases 0.000 claims description 11
- 239000006185 dispersion Substances 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000007790 scraping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 11
- 230000006399 behavior Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 2
- 238000012097 association analysis method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003245 working effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
- G06F18/21355—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis nonlinear criteria, e.g. embedding a manifold in a Euclidean space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于LLE和K均值法挖掘违法事故对应关系的方法。包括:收集交通违法与交通事故关联性分析所需数据;考虑不同的指标对交通事故进行分类;选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;对违法类型‑事故类型进行计数,构建违法类型‑事故类型矩阵;确定三种阈值对交通违法类型进行筛选;构建人员‑类型对应矩阵;使用零均值标准化方法对数据进行标准化处理;使用LLE非线性降维法将数据由高维降至低维;针对两种不同的事故类型分类方式,分别使用改进的K‑均值算法进行聚类分析。本发明克服传统K‑均值算法中存在的随机性大的问题,进一步挖掘交通违法类型和交通事故类型之间存在的对应关系。
Description
技术领域
本发明涉及一种基于LLE和K均值法挖掘违法事故对应关系的方法,属于智能交通技术领域。
背景技术
道路交通事故受到交通系统各种因素的影响,驾驶员的驾驶行为是造成交通事故的主要因素,据以往数据显示超过90%的交通事故是由人为因素引起的。另外在人为因素中,82%的因素是驾驶员有意识和危险的驾驶行为。驾驶员的危险驾驶行为通常记录在个人历史交通违法记录中。因此,通过广泛探索历史交通违法和交通事故记录,可以揭示驾驶员危险驾驶行为与交通事故之间的内在联系。
交通违法行为与交通事故之间的关系已经被研究多年,但主要集中在一种或两种类型的危险驾驶行为和交通事故发生的关联。其中,文章《Risk-taking Attitudes andRisky Driving Behavior》中,作者Hilde Iversen得出鲁莽驾驶,不系安全带和醉酒驾驶等非法驾驶行为与交通事故的发生呈显正相关。作者宋传平等人通过灰色度分析交通事故规律,发现疲劳驾驶,超速驾驶和超车等驾驶行为是导致道路交通事故的主要因素。在以前的文献中,还发现了一些特定的交通违法行为与事故风险相关,例如超速和闯红灯。另一方面,目前关于交通违法和交通事故关联性分析的研究主要集中在驾驶行为因素与交通事故指标(事故数量、死亡人数、受伤人数、直接经济损失)之间的关系上。
目前已有的交通违法与交通事故关联性分析方法包括:多项Logistic回归模型计算不同的交通违法类型造成轻微交通事故、严重交通事故和致命交通事故的概率;通过建立和分析车辆驾驶员人为因素与事故危险之间的灰色关联模型,评估车辆驾驶员对不同类型道路交通引起的事故危害程度的影响因素;采用相关分析法分析由道路交通事故导致的总死亡人数与驾龄1-5年司机引发的交通事故导致的死亡人数之间的关系以及交通事故的分布情况。另外,在以往事故违法对应关系研究中,多采用线性降维方法,忽略了两者之间可能潜在的非线性关系。在本发明中我们采用LLE非线性降维方法,提取两者之间潜在的非线性关系,深入探究违法事故对应关系,挖掘出和事故关联度较高的重点交通违法类型。
发明内容
为了解决上述存在的问题,本发明公开了一种基于LLE和K均值法挖掘违法事故对应关系的方法,根据收集到的交通事故和违法记录,设定3种阈值对交通违法类型进行筛选,选出更具研究价值的违法类型;采用LLE非线形降维方法,将人员信息由高维空间映射到低维空间,挖掘交通违法类型和交通事故类型之间的非线性关系;针对不同的交通事故分类方式,分别采用改进的K-均值算法对交通违法类型和交通事故类型进行聚类,克服传统K-均值算法中存在的随机性大的问题,进一步地挖掘交通违法类型和交通事故类型之间存在的对应关系。
上述的目的通过以下技术方案实现:
一种基于LLE和K均值法挖掘违法事故对应关系的方法,该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε)W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2 (3)
3)重复步骤2)直到确定了全部的聚类中心。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
有益效果:
本发明与现有技术相比,具有以下优点:
1.本发明通过观察分析大量数据,分析了多种交通违法类型和交通事故类型,获取了多种交通违法与多种交通事故之间的多对多关系;
2.本发明考虑了交通违法和交通事故类型之间的高维非线性关系,采用LLE非线性降维算法对交通违法和交通事故类映射到低维空间;
3.本发明提出改进的K-均值算法,解决了传统K-均值算法中存在的由于其固有的初始聚类中心随机性大的问题。本发明结合了传统K-均值算法的简易性、有效性和改进K-均值算法初始聚类中心随机性小的优势,更有效得对交通违法类型和交通事故类型进行聚类。
附图说明
图1为本发明的方法流程图;
图2为依据事故发生形态分类下的聚类数目轮廓系数图;
图3为依据事故严重程度分类下的聚类数目的轮廓系数图;
图4为依据事故发生形态分类下的聚类结果图;
图5为依据事故严重程度分类下的聚类结果图。
具体实施方式
图1是本发明的方法流程图,如图1所示,本发明的一种基于LLE和K均值法挖掘违法事故对应关系的方法,该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε(W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2 (3)
3)重复步骤2)直到确定了全部的聚类中心。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
表1为依据事故发生形态分类下的建模过程相关参数:
表2为依据事故严重程度分类下的建模过程相关参数:
表3为依据事故发生形态交通违法和交通事故对应分析结果:
表4为依据事故严重程度交通违法和交通事故对应分析结果:
从对应分析结果可以看出,易发生违法占道行驶的非机动车驾驶者更有可能造成同向刮擦、对向刮擦或正面碰撞类型的事故,易发生未保持安全距离的机动车驾驶者更有可能造成追尾碰撞类型的事故,易发生违法变更车道的机动车驾驶者更有可能造成同向侧面碰撞类型的事故,易发生违法占道行驶的机动车驾驶者更有可能造成对向侧面碰撞类型的事故,易发生违反交通信号的非机动车驾驶者更有可能造成直角侧面碰撞类型的事故。以上从事故发生形态考虑的对应分析结果比较符合现实逻辑,也反映出本发明中对应分析模型的适用性和合理性。
从事故严重程度考虑来看,对应分析的结果表明:易发生违法装载的机动车驾驶者更有可能造成严重伤人及死亡事故,易发生未按规定让行的机动车驾驶者更有可能造成轻微伤人事故,而易发生超速行驶、违法停车、违法占道行驶等的机动车驾驶者更有可能造成财产损失事故。值得注意的是机动车违反交通信号却更可能造成简易事故,可能是由于当地交通流量不大或大多在绿灯末红灯初违反交通信号,发生了事故但没有造成太大损失。从结果来看,机动车违法装载、未按规定让行、超速行驶、违法停车、违法占道行驶等违法行为容易造成人员伤亡或财产损失,交通管理部门应对这些重点违法类型进行重点整治。
需要说明的是,上述实施例仅用来说明本发明的结构及其工作效果,而并不用作限制本发明的保护范围。本领域内的普通技术人员在不违背本发明思路及结构的情况下对上述实施例进行的调整或优化,仍应视作为本发明权利要求所涵盖。
Claims (8)
1.一种基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析。
2.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
3.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
4.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε(W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量。
5.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。
6.根据权利要求5所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰。
7.根据权利要求5所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2 (3)
3)重复步骤2)直到确定了全部的聚类中心。
8.根据权利要求5所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910564249.8A CN110263074B (zh) | 2019-06-26 | 2019-06-26 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910564249.8A CN110263074B (zh) | 2019-06-26 | 2019-06-26 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110263074A true CN110263074A (zh) | 2019-09-20 |
CN110263074B CN110263074B (zh) | 2023-08-25 |
Family
ID=67922086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910564249.8A Active CN110263074B (zh) | 2019-06-26 | 2019-06-26 | 一种基于lle和k均值法挖掘违法事故对应关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263074B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648537A (zh) * | 2019-09-28 | 2020-01-03 | 安徽百诚慧通科技有限公司 | 一种基于海恩法则的交通事故相关性分析方法 |
CN111221876A (zh) * | 2020-01-07 | 2020-06-02 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130291108A1 (en) * | 2012-04-26 | 2013-10-31 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining |
CN106778866A (zh) * | 2016-12-15 | 2017-05-31 | 东南大学 | 交通事故中事故类型和违章类型对应分析方法 |
CN109408557A (zh) * | 2018-09-29 | 2019-03-01 | 东南大学 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
-
2019
- 2019-06-26 CN CN201910564249.8A patent/CN110263074B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130291108A1 (en) * | 2012-04-26 | 2013-10-31 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining |
CN106778866A (zh) * | 2016-12-15 | 2017-05-31 | 东南大学 | 交通事故中事故类型和违章类型对应分析方法 |
CN109408557A (zh) * | 2018-09-29 | 2019-03-01 | 东南大学 | 一种基于多重对应和K-means聚类的交通事故成因分析方法 |
Non-Patent Citations (1)
Title |
---|
冯燕 等: "《基于LLE-k均值方法的中文文本聚类》", 《计算机与数字工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648537A (zh) * | 2019-09-28 | 2020-01-03 | 安徽百诚慧通科技有限公司 | 一种基于海恩法则的交通事故相关性分析方法 |
CN111221876A (zh) * | 2020-01-07 | 2020-06-02 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
WO2021139112A1 (zh) * | 2020-01-07 | 2021-07-15 | 平安科技(深圳)有限公司 | 数据降维处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110263074B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | An explanatory analysis of driver injury severity in rear-end crashes using a decision table/Naïve Bayes (DTNB) hybrid classifier | |
Najafi Moghaddam Gilani et al. | Data‐Driven Urban Traffic Accident Analysis and Prediction Using Logit and Machine Learning‐Based Pattern Recognition Models | |
Pande et al. | Comprehensive analysis of the relationship between real-time traffic surveillance data and rear-end crashes on freeways | |
Ahmad et al. | Exploring factors associated with crash severity on motorways in Pakistan | |
Kang et al. | Cluster-based approach to analyzing crash injury severity at highway–rail grade crossings | |
CN108550263A (zh) | 一种基于故障树模型的高速公路交通事故成因分析方法 | |
Samerei et al. | Modelling bus-pedestrian crash severity in the state of Victoria, Australia | |
Peng et al. | Investigation on the injuries of drivers and copilots in rear-end crashes between trucks based on real world accident data in China | |
CN108717786A (zh) | 一种基于普适性元规则的交通事故致因挖掘方法 | |
Hao et al. | Severity of injuries to motor vehicle drivers at highway–rail grade crossings in the United States | |
Sivasankaran et al. | Identifying patterns of pedestrian crashes in urban metropolitan roads in India using association rule mining | |
CN110263074A (zh) | 一种基于lle和k均值法挖掘违法事故对应关系的方法 | |
Kardar et al. | A generalized ordered probit model for analyzing driver injury severity of head-on crashes on two-lane rural highways in Malaysia | |
Shokohyar et al. | The effect of drivers' demographic characteristics on road accidents in different seasons using data mining | |
Song et al. | Modeling crash severity by considering risk indicators of driver and roadway: A Bayesian network approach | |
Fang et al. | Driver risk assessment using traffic violation and accident data by machine learning approaches | |
Islam et al. | Evaluation and spatial analysis of road accidents in Bangladesh: an emerging and alarming issue | |
Gao et al. | Research on automated modeling algorithm using association rules for traffic accidents | |
Gilani et al. | Analysis of the effect of the speed factor on highway safety using the machine learning method | |
Yuan et al. | Cluster and factor analysis on data of fatal traffic crashes in China | |
Tamakloe et al. | Key factors affecting motorcycle-barrier crash severity: an innovative cluster-regression technique | |
Kitali et al. | Understanding the factors associated with severity of aging population-involved pedestrian crashes in Florida. | |
Rahimi et al. | Exploring crash causation for large truck-involved accidents: A hierarchical framework | |
Chiou et al. | Contributory factors to crash severity in Taiwan's freeways: genetic mining rule approach | |
Lee et al. | Bivariate Ordered Modeling of Crash Injury Severity Level of Drivers and School-Age Passengers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |