CN110263074B - 一种基于lle和k均值法挖掘违法事故对应关系的方法 - Google Patents

一种基于lle和k均值法挖掘违法事故对应关系的方法 Download PDF

Info

Publication number
CN110263074B
CN110263074B CN201910564249.8A CN201910564249A CN110263074B CN 110263074 B CN110263074 B CN 110263074B CN 201910564249 A CN201910564249 A CN 201910564249A CN 110263074 B CN110263074 B CN 110263074B
Authority
CN
China
Prior art keywords
accident
traffic
types
illegal
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910564249.8A
Other languages
English (en)
Other versions
CN110263074A (zh
Inventor
王晨
宋燕超
寇思元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910564249.8A priority Critical patent/CN110263074B/zh
Publication of CN110263074A publication Critical patent/CN110263074A/zh
Application granted granted Critical
Publication of CN110263074B publication Critical patent/CN110263074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • G06F18/21355Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis nonlinear criteria, e.g. embedding a manifold in a Euclidean space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种基于LLE和K均值法挖掘违法事故对应关系的方法。包括:收集交通违法与交通事故关联性分析所需数据;考虑不同的指标对交通事故进行分类;选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;对违法类型‑事故类型进行计数,构建违法类型‑事故类型矩阵;确定三种阈值对交通违法类型进行筛选;构建人员‑类型对应矩阵;使用零均值标准化方法对数据进行标准化处理;使用LLE非线性降维法将数据由高维降至低维;针对两种不同的事故类型分类方式,分别使用改进的K‑均值算法进行聚类分析。本发明克服传统K‑均值算法中存在的随机性大的问题,进一步挖掘交通违法类型和交通事故类型之间存在的对应关系。

Description

一种基于LLE和K均值法挖掘违法事故对应关系的方法
技术领域
本发明涉及一种基于LLE和K均值法挖掘违法事故对应关系的方法,属于智能交通技术领域。
背景技术
道路交通事故受到交通系统各种因素的影响,驾驶员的驾驶行为是造成交通事故的主要因素,据以往数据显示超过90%的交通事故是由人为因素引起的。另外在人为因素中,82%的因素是驾驶员有意识和危险的驾驶行为。驾驶员的危险驾驶行为通常记录在个人历史交通违法记录中。因此,通过广泛探索历史交通违法和交通事故记录,可以揭示驾驶员危险驾驶行为与交通事故之间的内在联系。
交通违法行为与交通事故之间的关系已经被研究多年,但主要集中在一种或两种类型的危险驾驶行为和交通事故发生的关联。其中,文章《Risk-taking Attitudes andRisky Driving Behavior》中,作者Hilde Iversen得出鲁莽驾驶,不系安全带和醉酒驾驶等非法驾驶行为与交通事故的发生呈显正相关。作者宋传平等人通过灰色度分析交通事故规律,发现疲劳驾驶,超速驾驶和超车等驾驶行为是导致道路交通事故的主要因素。在以前的文献中,还发现了一些特定的交通违法行为与事故风险相关,例如超速和闯红灯。另一方面,目前关于交通违法和交通事故关联性分析的研究主要集中在驾驶行为因素与交通事故指标(事故数量、死亡人数、受伤人数、直接经济损失)之间的关系上。
目前已有的交通违法与交通事故关联性分析方法包括:多项Logistic回归模型计算不同的交通违法类型造成轻微交通事故、严重交通事故和致命交通事故的概率;通过建立和分析车辆驾驶员人为因素与事故危险之间的灰色关联模型,评估车辆驾驶员对不同类型道路交通引起的事故危害程度的影响因素;采用相关分析法分析由道路交通事故导致的总死亡人数与驾龄1-5年司机引发的交通事故导致的死亡人数之间的关系以及交通事故的分布情况。另外,在以往事故违法对应关系研究中,多采用线性降维方法,忽略了两者之间可能潜在的非线性关系。在本发明中我们采用LLE非线性降维方法,提取两者之间潜在的非线性关系,深入探究违法事故对应关系,挖掘出和事故关联度较高的重点交通违法类型。
发明内容
为了解决上述存在的问题,本发明公开了一种基于LLE和K均值法挖掘违法事故对应关系的方法,根据收集到的交通事故和违法记录,设定3种阈值对交通违法类型进行筛选,选出更具研究价值的违法类型;采用LLE非线形降维方法,将人员信息由高维空间映射到低维空间,挖掘交通违法类型和交通事故类型之间的非线性关系;针对不同的交通事故分类方式,分别采用改进的K-均值算法对交通违法类型和交通事故类型进行聚类,克服传统K-均值算法中存在的随机性大的问题,进一步地挖掘交通违法类型和交通事故类型之间存在的对应关系。
上述的目的通过以下技术方案实现:
一种基于LLE和K均值法挖掘违法事故对应关系的方法,该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果/>不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε)W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2 (3)
3)重复步骤2)直到确定了全部的聚类中心。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
有益效果:
本发明与现有技术相比,具有以下优点:
1.本发明通过观察分析大量数据,分析了多种交通违法类型和交通事故类型,获取了多种交通违法与多种交通事故之间的多对多关系;
2.本发明考虑了交通违法和交通事故类型之间的高维非线性关系,采用LLE非线性降维算法对交通违法和交通事故类映射到低维空间;
3.本发明提出改进的K-均值算法,解决了传统K-均值算法中存在的由于其固有的初始聚类中心随机性大的问题。本发明结合了传统K-均值算法的简易性、有效性和改进K-均值算法初始聚类中心随机性小的优势,更有效得对交通违法类型和交通事故类型进行聚类。
附图说明
图1为本发明的方法流程图;
图2为依据事故发生形态分类下的聚类数目轮廓系数图;
图3为依据事故严重程度分类下的聚类数目的轮廓系数图;
图4为依据事故发生形态分类下的聚类结果图;
图5为依据事故严重程度分类下的聚类结果图。
具体实施方式
图1是本发明的方法流程图,如图1所示,本发明的一种基于LLE和K均值法挖掘违法事故对应关系的方法,该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果/>不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε(W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2 (3)
3)重复步骤2)直到确定了全部的聚类中心。
所述的基于LLE和K均值法挖掘违法事故对应关系的方法,在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
表1为依据事故发生形态分类下的建模过程相关参数:
表2为依据事故严重程度分类下的建模过程相关参数:
表3为依据事故发生形态交通违法和交通事故对应分析结果:
表4为依据事故严重程度交通违法和交通事故对应分析结果:
从对应分析结果可以看出,易发生违法占道行驶的非机动车驾驶者更有可能造成同向刮擦、对向刮擦或正面碰撞类型的事故,易发生未保持安全距离的机动车驾驶者更有可能造成追尾碰撞类型的事故,易发生违法变更车道的机动车驾驶者更有可能造成同向侧面碰撞类型的事故,易发生违法占道行驶的机动车驾驶者更有可能造成对向侧面碰撞类型的事故,易发生违反交通信号的非机动车驾驶者更有可能造成直角侧面碰撞类型的事故。以上从事故发生形态考虑的对应分析结果比较符合现实逻辑,也反映出本发明中对应分析模型的适用性和合理性。
从事故严重程度考虑来看,对应分析的结果表明:易发生违法装载的机动车驾驶者更有可能造成严重伤人及死亡事故,易发生未按规定让行的机动车驾驶者更有可能造成轻微伤人事故,而易发生超速行驶、违法停车、违法占道行驶等的机动车驾驶者更有可能造成财产损失事故。值得注意的是机动车违反交通信号却更可能造成简易事故,可能是由于当地交通流量不大或大多在绿灯末红灯初违反交通信号,发生了事故但没有造成太大损失。从结果来看,机动车违法装载、未按规定让行、超速行驶、违法停车、违法占道行驶等违法行为容易造成人员伤亡或财产损失,交通管理部门应对这些重点违法类型进行重点整治。
需要说明的是,上述实施例仅用来说明本发明的结构及其工作效果,而并不用作限制本发明的保护范围。本领域内的普通技术人员在不违背本发明思路及结构的情况下对上述实施例进行的调整或优化,仍应视作为本发明权利要求所涵盖。

Claims (3)

1.一种基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:该方法包括如下步骤:
S1.收集交通违法与交通事故关联性分析所需数据,包括人事信息,交通违法信息,交通事故信息;
S2.根据步骤S1收集到的交通违法与交通事故关联性分析所需数据,考虑不同的指标对交通事故进行分类,所考虑的指标包括事故严重程度、事故发生形态;
S3.针对不同的交通事故类型分类方式,选择发生次数最高的违法类型和事故类型分别作为人员的违法标签和事故标签;
S4.针对不同的交通事故类型分类方式,对违法类型-事故类型进行计数,构建违法类型-事故类型矩阵;
S5.确定三种阈值对交通违法类型进行筛选,三种阈值包括违法类型频率阈值、违法标签频率阈值和离散系数阈值;
S6.选择违法标签中含有筛选违法类型的人员作为行,事故类型和筛选违法类型作为列,构建人员-类型对应矩阵;
S7.根据步骤S6生成的矩阵,将类型看作样本点,人员看作维度,使用零均值标准化方法对数据进行标准化处理;
S8.在不损失重要信息的前提下,使用LLE非线性降维法将数据由高维降至低维;
S9.针对两种不同的事故类型分类方式,分别使用改进的K-均值算法进行聚类分析;
步骤S8中所述的使用LLE非线性降维法将数据由高维降至低维具体包括以下步骤:
S81.采用欧式距离计算每个样本点的近邻数;
S82.通过约束条件最小化价值函数,从而计算能够从最近邻点中最优重构样本点的权重,公式及约束条件如下:
约束条件一:每个样本点只能由其最近邻点重构,且如果/>不属于最近邻点强制Wij=0;
约束条件二:权重矩阵中每一行和为1,即∑jWij=1,
其中,ε(W)为价值函数公式,为样本点,Wij为第j个数据点在样本点i的重建中所占权重;
S83.根据权重计算出能够最优重构高维样本点的低维向量,从而能够底部非零特征向量最小化嵌入价值函数,公式如下:
其中,φ(Y)为嵌入价值函数,为映射后的低维向量;
步骤S9中所述的使用改进的K-均值算法进行聚类分析具体包括以下步骤:
S91.确定最佳聚类数目;
S92.确定初始聚类中心;
S93.采用欧式距离作为变量之间的聚类函数对交通违法类型和交通事故类型进行聚类;
步骤S91所述确定最佳聚类数目应满足以下要求:
1)要求选择具有较大平均轮廓宽度的聚类结果对应的聚类数目;
2)要求每一个交通事故类型都应包含在聚类结果中,且不同的交通事故类型应该聚类到不同的类之中;
3)要求每一个类中交通违法类型的数目尽可能小于10,使违法事故类型的对应关系更加清晰;
步骤S92所述确定初始聚类中心具体包括以下步骤:
1)从样本中随机抽取一个点作为初始聚类中心;
2)根据概率从样本中选取下一个聚类中心,概率公式如下:
D(x)2/∑x∈XD(x)2(3)
3)重复步骤2)直到确定了全部的聚类中心;
在所述步骤S93中得到的聚类结果中,应保留交通违法类型和交通事故类型的对应关系,这种对应关系将根据如下关系式体现:
p(vmcn)>p(vm)×p(cn) (4)
其中,p(vmcn)为违法-事故类型发生概率,p(vm)为交通违法类型发生概率,p(cn)为交通事故类型发生概率。
2.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S2中所述的事故发生形态包括:同向刮擦、对向刮擦、正面碰撞、追尾碰撞、同向侧面碰撞、对向侧面碰撞、直角侧面碰撞、角度不确定的侧面碰撞;所述事故严重程度分为:简易事故、财产损失事故、轻微伤人事故、严重伤人及死亡事故。
3.根据权利要求1所述的基于LLE和K均值法挖掘违法事故对应关系的方法,其特征在于:步骤S5中所述的确定三种阈值对交通违法类型进行筛选的具体方法包括以下步骤:
S51.将交通违法类型发生频率的25%分位数作为阈值,对交通违法类型进行第一次筛选;
S52.将交通违法标签发生频率的25%分位数作为阈值,对交通违法类型进行第二次筛选;
S53.将离散系数的25%分位数作为阈值,对交通违法类型进行第三次筛选。
CN201910564249.8A 2019-06-26 2019-06-26 一种基于lle和k均值法挖掘违法事故对应关系的方法 Active CN110263074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910564249.8A CN110263074B (zh) 2019-06-26 2019-06-26 一种基于lle和k均值法挖掘违法事故对应关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910564249.8A CN110263074B (zh) 2019-06-26 2019-06-26 一种基于lle和k均值法挖掘违法事故对应关系的方法

Publications (2)

Publication Number Publication Date
CN110263074A CN110263074A (zh) 2019-09-20
CN110263074B true CN110263074B (zh) 2023-08-25

Family

ID=67922086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910564249.8A Active CN110263074B (zh) 2019-06-26 2019-06-26 一种基于lle和k均值法挖掘违法事故对应关系的方法

Country Status (1)

Country Link
CN (1) CN110263074B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648537B (zh) * 2019-09-28 2021-03-05 安徽百诚慧通科技有限公司 一种基于海恩法则的交通事故相关性分析方法
CN111221876A (zh) * 2020-01-07 2020-06-02 平安科技(深圳)有限公司 数据降维处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130291108A1 (en) * 2012-04-26 2013-10-31 Electronics And Telecommunications Research Institute Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining
CN106778866A (zh) * 2016-12-15 2017-05-31 东南大学 交通事故中事故类型和违章类型对应分析方法
CN109408557A (zh) * 2018-09-29 2019-03-01 东南大学 一种基于多重对应和K-means聚类的交通事故成因分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130291108A1 (en) * 2012-04-26 2013-10-31 Electronics And Telecommunications Research Institute Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining
CN106778866A (zh) * 2016-12-15 2017-05-31 东南大学 交通事故中事故类型和违章类型对应分析方法
CN109408557A (zh) * 2018-09-29 2019-03-01 东南大学 一种基于多重对应和K-means聚类的交通事故成因分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于LLE-k均值方法的中文文本聚类》;冯燕 等;《计算机与数字工程》;20101130;全文 *

Also Published As

Publication number Publication date
CN110263074A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
Najafi Moghaddam Gilani et al. Data‐Driven Urban Traffic Accident Analysis and Prediction Using Logit and Machine Learning‐Based Pattern Recognition Models
CN110866677B (zh) 一种基于基准化分析的驾驶人相对风险评价方法
Depaire et al. Traffic accident segmentation by means of latent class clustering
Ahmed et al. Bayesian updating approach for real-time safety evaluation with automatic vehicle identification data
Kang et al. Cluster-based approach to analyzing crash injury severity at highway–rail grade crossings
CN108682149B (zh) 基于二项Logistic回归的公路事故黑点路段线形致因分析方法
CN110263074B (zh) 一种基于lle和k均值法挖掘违法事故对应关系的方法
Esenturk et al. Identification of traffic accident patterns via cluster analysis and test scenario development for autonomous vehicles
CN110570655B (zh) 基于层次聚类和决策树的车辆特征评估方法
CN114168646A (zh) 基于多数据融合的营运车辆运输监控方法及系统
Kitali et al. Evaluating aging pedestrian crash severity with Bayesian complementary log–log model for improved prediction accuracy
Shahin et al. Cluster-based association rule mining for an intersection accident dataset
Sun et al. A hybrid approach of random forest and random parameters logit model of injury severity modeling of vulnerable road users involved crashes
Shahin et al. Exploring factors in a crossroad dataset using cluster-based association rule mining
Sanjurjo-De-No et al. Driver pattern identification in road crashes in spain
Zou et al. Multivariate analysis of car-following behavior data using a coupled hidden Markov model
Alicioglu et al. Assessing accident risk using ordinal regression and multinomial logistic regression data generation
Bobermin et al. A novel approach to set driving simulator experiments based on traffic crash data
CN116061953A (zh) 一种基于行驶轨迹数据的货车危险驾驶行为判别评价方法
Yokoyama et al. Do drivers' behaviors reflect their past driving histories?-large scale examination of vehicle recorder data
Shaon et al. Crash data-based investigation into how injury severity is affected by driver errors
Tamakloe et al. Key factors affecting motorcycle-barrier crash severity: an innovative cluster-regression technique
CN112036709B (zh) 基于随机森林的降雨天气高速公路二次事故致因分析方法
Äyrämö et al. Mining road traffic accidents
Yaghoubi et al. Model-based clustering (MBC) for road data via multivariate mixture of normal distributions and factor analysis (FA)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant