CN112183597B - 一种基于谱聚类的非均衡交通事故严重程度分析方法 - Google Patents

一种基于谱聚类的非均衡交通事故严重程度分析方法 Download PDF

Info

Publication number
CN112183597B
CN112183597B CN202010995568.7A CN202010995568A CN112183597B CN 112183597 B CN112183597 B CN 112183597B CN 202010995568 A CN202010995568 A CN 202010995568A CN 112183597 B CN112183597 B CN 112183597B
Authority
CN
China
Prior art keywords
accident
severity
data
sample
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010995568.7A
Other languages
English (en)
Other versions
CN112183597A (zh
Inventor
谢国
上官安琪
费蓉
穆凌霞
黑新宏
姬文江
马维纲
张春丽
杨静
金永泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shengxia Intellectual Property Operation Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010995568.7A priority Critical patent/CN112183597B/zh
Publication of CN112183597A publication Critical patent/CN112183597A/zh
Application granted granted Critical
Publication of CN112183597B publication Critical patent/CN112183597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Discrete Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于谱聚类的非均衡交通事故严重程度分析方法,首先通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D';通过编码技术将原始事故数据D'进行离散编码及归一化,得到有效事故数据D;然后结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样,得到先验分布均衡的事故数据T;将结构化事故数据T转化为事故图数据G;最后结合谱聚类算法,得到不同环境因素对应的事故严重程度。本发明解决了现有技术中存在的事故数据分布不均衡导致事故严重程度分析效果较差的问题。

Description

一种基于谱聚类的非均衡交通事故严重程度分析方法
技术领域
本发明属于交通事故安全分析技术领域,具体涉及一种基于谱聚类的非均衡交通事故严重程度分析方法。
背景技术
随着经济快速发展,人们的交通需求增大,交通供需矛盾也随之增大,不断出现的交通事故、交叉路口的交通拥堵、以及目前道路两侧的难以停车问题已经成为城市稳定发展过程中的障碍。如何在易发生交通事故路段,通过检测设备获取周围不同类型的环境因素,并通过建立环境因素与事故严重程度之间的关联模型,对预防道路交通事故发生,并降低事故严重程度,提高道路交通安全水平有着极为重要的意义。
在对交通事故严重程度分析过程中,首先需要记录车辆发生事故时的环境因素数据。然后,通过对该数据进行预处理,使其成为有效数据。最后得到不同环境因素所对应的事故严重程度,得到不同环境因素与事故严重程度之间的关系。而在分析过程中,由于传统的统计模型算法需要提前假设某些参数的分布,这些分布在一定程度上与真实情况有偏差,并进一步地影响后期分析结果的可信度。而机器学习方法主要是基于真实事故数据进行分析,得到不同环境因素对应于不同事故严重程度结果,无需对模型参数进行先验假设。
发明内容
本发明的目的是提供一种基于谱聚类的非均衡交通事故严重程度分析方法,解决了现有技术中存在的事故数据分布不均衡导致事故严重程度分析效果较差的问题。
本发明所采用的技术方案是,一种基于谱聚类的非均衡交通事故严重程度分析方法,具体按照以下步骤实施:
步骤1、通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D';
步骤2、通过编码技术将原始事故数据D'进行离散编码及归一化,得到有效事故数据D;
步骤3、结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样,得到先验分布均衡的事故数据T;
步骤4、将结构化事故数据T转化为事故图数据G;
步骤5、结合谱聚类算法,得到不同环境因素对应的事故严重程度。
本发明的特点还在于,
步骤2具体如下:
步骤2.1、设原始事故数据D'={x',y'},
其中,x'代表整个环境因素样本,q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数,x'p,q表示发生第p起事故时周围的环境因素q;y'代表整个事故严重程度样本,y'p表示第p起事故的严重程度;
步骤2.2、通过离散编码,将每个环境因素以及事故严重程度所对应的结果映射为一个数字,设天气因素中:雨天=1,晴天=2,刮风=3,雪天=4,大雾=5,霜冻=6,其他=7;路面因素中:干燥=1,潮湿=2,结冰=3,淤泥=4,融雪=5,积水6,其他=7;事故严重程度:轻微事故=1,一般事故=2,重大事故=3,特大事故=4,将所有环境因素x'与事故严重程度y'离散化,得到离散型事故数据x'n、y',x'n表示事故严重程度所对应的n个环境因素,y'表示离散后的事故严重程度;
步骤2.3、通过步骤2.2得到离散型事故数据x'n,利用最大最小归一化方法,对离散型事故数据x'n进行归一化,如公式(1)所示:
其中,x'n表示事故严重程度所对应的n个环境因素,xn是归一化后的环境因素,n表示环境因素个数;
因此得到有效事故数据D={x,y},
其中,x代表有效数据D中整个环境因素样本,xp,q表示有效数据D中发生第p起事故时周围的环境因素q;y代表有效数据D中整个事故严重程度样本,yp表示有效数据D中第p起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数。
步骤3具体如下:
步骤3.1、确定有效事故数据D中的少类事故严重程度样本ys,s=1,2,...,N,N为少类事故严重程度样本总数;每个ys对应有n个环境因素,事故严重程度ys所对应的第q个环境因素为ys,q,q=1,2,...,n;确定有效事故数据D中的多类事故严重程度样本yg,g=1,2,...,M,M为多类事故严重程度样本总数,事故严重程度yg所对应的第q个环境因素为yg,q
步骤3.2、统计少类事故严重程度样本ys周围的h个同类样本点,h=1,...,5,计算yh s与ys之间相对应第q个环境因素的差值diffq=yh s,q-ys,q,然后利用公式(2)计算新生成的环境因素fi,q
其中,α是范围在[0,1]内的随机值,fs,q是所产生的新的少类样本,s=1,2,...,N为少类事故严重程度样本,N为少类事故严重程度样本总数,ys,q,q=1,2,...,n事故严重程度ys所对应的第q个环境因素,yh s,q为少类事故严重程度样本ys,q周围的第h个同类样本点所对应的第q个环境因素,q=1,...,n表示环境因素;
通过上述过程计算少类样本ys对应的不同环境因素值fs,q=[fs,1,...,fs,n],从而得到新的少类样本ys,其对应的环境因素为fs,q,将其融入至有效事故数据D中,D的少类样本数目增大,使得事故数据分布均衡,得到先验分布均衡的事故数据T={X,Y},其中,
其中,X代表先验分布均衡的事故数据T中整个环境因素样本,Xp',q表示先验分布均衡的事故数据T中发生第p'起事故时周围的环境因素q;Y代表先验分布均衡的事故数据T中整个事故严重程度样本,Yp表示先验分布均衡的事故数据T中第p'起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p'=1,...,M表示发生的事故,M为先验分布均衡的事故数据T中的事故总数,M=m+l,m为原始长度,l是通过重采样生成的新样本数。
步骤4具体如下:
步骤4.1、通过步骤3得到先验分布均衡的事故数据T={X,Y},为了构建事故图数据G=(V,E),其中,V表示事故数据中的不同的事故严重程度Yp'所对应的环境因素集合,简称为事故集合,E表示事故集合中各节点相连接的边的集合,V=(X1,...,Xi,...,XM),i=1,2,...,M,M为先验分布均衡的事故数据T中的事故总数,也为事故集合节点Xi的总数;通过计算事故数据T中事故集合里不同节点Xi之间的权重值来判断节点Xi之间是否相连,构建边集合E,也称为邻接矩阵W;
步骤4.2、利用全连接法计算各个节点之间的权重wij,并选择高斯核函数作为核函数定义权重wij,其中wij表示事故集合里节点Xi与节点Xj之间的权重,其中Xi代表事故严重程度样本Yi所对应的所有影响因素,Xj代表事故严重程度样本Yj所对应的所有影响因素,由于每两个节点之间无方向之分,因此wij=wji,具体计算过程如公式(3)所示:
得到大小为M×M的邻接矩阵
其中,M为事故集合节点Xi的总数;
因此,通过构建邻接矩阵W得到边集合E,将先验分布均衡的事故数据T={X,Y}转化为事故图数据G=(V,E)。
步骤5具体如下:
步骤5.1、通过步骤4得到各个事故集合节点之间的权重wij,通过计算与每个事故集合节点Xi相连的所有节点的权重之和di,计算公式如公式(4)所示:
其中,M表示事故集合节点Xi的总数,进而得到M×M的度矩阵D为对角矩阵;
步骤5.2、通过步骤4得到的邻接矩阵和步骤5.1得到的事故图数据G的度矩阵,而拉普拉斯矩阵L是由度矩阵与邻接矩阵之差得到,如公式(5)所示:
L=D-W (5)
然后构建标准化拉普拉斯矩阵Lsym,如公式(6)所示:
Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2 (6)
再计算标准化拉普拉斯矩阵Lsym的k个特征值及特征值对应的特征向量fk,且k<M,将不同特征值对应的特征向量fk组成矩阵其中,fk=[f'1,k,...,f'i,k,...,f'M,k]T,表示一组特征向量,再对其进行行标准化,得到大小为M×k的特征矩阵/>
通过转置特征矩阵F,得到新的矩阵
步骤5.3、事故严重程度分为C个等级,C={C1,C2,C3,C4},因此,需要聚为C类。通过K近邻算法在新的矩阵Q选择C个初始聚类中心,通过计算每个聚类中心与周围节点之间的距离划分类别,依据为不同的聚类中心与其周围的节点距离最小,与其他聚类中心周围的节点距离最大,则说明聚类成功,最终将事故图数据G中事故严重程度所对应的不同环境因素数据聚为C类,每一类代表一个事故严重程度,即将矩阵Q中不同的向量按照距离划分为C个不同的事故严重程度等级,若某一类别数量较大,则需要通过分析该类别所对应的环境因素,改善交通运行条件。
本发明的有益效果是,一种基于谱聚类的非均衡交通事故严重程度分析方法,通过该方法能够有效地改善分布不均衡的事故严重程度分析准确度,通过分析不同的环境因素造成的事故严重程度,为交通管理部门分析事故提供技术支持,并进一步地提高道路安全水平,降低交通拥堵状态等。
附图说明
图1是本发明一种基于谱聚类的非均衡交通事故严重程度分析方法的总体流程图;
图2是本发明一种基于谱聚类的非均衡交通事故严重程度分析方法中数据离散化及归一化具体过程。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明通过对所记录的事故数据进行预处理,针对先验分布不平衡的事故数据,结合重采样技术使其不同类型的事故数据分布均衡,提高后期聚类效果。然后,通过谱聚类算法构建事故图数据,建立不同影响因素与事故严重程度关系模型,即通过不同的环境因素得到对应的事故严重程度等级结果。通过该方法能够利用不同环境因素得到所对应的事故严重程度,提高了道路交通安全,并为交通管理部门决策规划、交通事故分析提供技术支持。
解决交通事故严重程度分析问题的基本思想是:通过检测设备记录发生事故时周围环境因素的历史数据,利用编码技术将所记录的环境因素进行离散化,然后结合SMOTE算法对离散后的分布不均衡样本数据进行重采样,以获取先验分布均匀样本数据,再利用谱聚类方法对处理后的数据进行训练,得到不同环境因素与事故严重程度之间的关联模型。目前在分析事故严重程度分析中,绝大多数主要通过使用应用于结构化数据的方法,例如支持向量机,K近邻,随机森林等基础方法,这种方法无法获取数据之间隐藏的作用关系。而谱聚类能够将结构化数据转化为图数据,以此获取各个节点之间的隐藏关系。
本发明一种基于谱聚类的非均衡交通事故严重程度分析方法,流程如图1所示,具体按照以下步骤实施:
步骤1、通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D';
步骤2、通过编码技术将原始事故数据D'进行离散编码及归一化,得到有效事故数据D;
如图2所示,步骤2具体如下:
步骤2.1、设原始事故数据D'={x',y'},
其中,x'代表整个环境因素样本,q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数,x'p,q表示发生第p起事故时周围的环境因素q;y'代表整个事故严重程度样本,y'p表示第p起事故的严重程度;
步骤2.2、通过离散编码,将每个环境因素以及事故严重程度所对应的结果映射为一个数字,设天气因素中:雨天=1,晴天=2,刮风=3,雪天=4,大雾=5,霜冻=6,其他=7;路面因素中:干燥=1,潮湿=2,结冰=3,淤泥=4,融雪=5,积水6,其他=7;事故严重程度:轻微事故=1,一般事故=2,重大事故=3,特大事故=4,将所有环境因素x'与事故严重程度y'离散化,得到离散型事故数据x'n、y',x'n表示事故严重程度所对应的n个环境因素,y'表示离散后的事故严重程度;
步骤2.3、通过步骤2.2得到离散型事故数据x'n,利用最大最小归一化方法,对离散型事故数据x'n进行归一化,如公式(1)所示:
其中,x'n表示事故严重程度所对应的n个环境因素,xn是归一化后的环境因素,n表示环境因素个数;
因此得到有效事故数据D={x,y},
其中,x代表有效数据D中整个环境因素样本,xp,q表示有效数据D中发生第p起事故时周围的环境因素q;y代表有效数据D中整个事故严重程度样本,yp表示有效数据D中第p起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数。
步骤3、结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样,得到先验分布均衡的事故数据T;
步骤3具体如下:
步骤3.1、确定有效事故数据D中的少类事故严重程度样本ys,s=1,2,...,N,N为少类事故严重程度样本总数;每个ys对应有n个环境因素,事故严重程度ys所对应的第q个环境因素为ys,q,q=1,2,...,n;确定有效事故数据D中的多类事故严重程度样本yg,g=1,2,...,M,M为多类事故严重程度样本总数,事故严重程度yg所对应的第q个环境因素为yg,q
步骤3.2、统计少类事故严重程度样本ys周围的h个同类样本点,h=1,...,5,计算yh s与ys之间相对应第q个环境因素的差值diffq=yh s,q-ys,q,然后利用公式(2)计算新生成的环境因素fi,q
其中,α是范围在[0,1]内的随机值,fs,q是所产生的新的少类样本,s=1,2,...,N为少类事故严重程度样本,N为少类事故严重程度样本总数,ys,q,q=1,2,...,n事故严重程度ys所对应的第q个环境因素,yh s,q为少类事故严重程度样本ys,q周围的第h个同类样本点所对应的第q个环境因素,q=1,...,n表示环境因素;
通过上述过程计算少类样本ys对应的不同环境因素值fs,q=[fs,1,...,fs,n],从而得到新的少类样本ys,其对应的环境因素为fs,q,将其融入至有效事故数据D中,D的少类样本数目增大,使得事故数据分布均衡,得到先验分布均衡的事故数据T={X,Y},其中,
其中,X代表先验分布均衡的事故数据T中整个环境因素样本,Xp',q表示先验分布均衡的事故数据T中发生第p'起事故时周围的环境因素q;Y代表先验分布均衡的事故数据T中整个事故严重程度样本,Yp表示先验分布均衡的事故数据T中第p'起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p'=1,...,M表示发生的事故,M为先验分布均衡的事故数据T中的事故总数,M=m+l,m为原始长度,l是通过重采样生成的新样本数。
步骤4、将结构化事故数据T转化为事故图数据G;
步骤4具体如下:
步骤4.1、通过步骤3得到先验分布均衡的事故数据T={X,Y},为了构建事故图数据G=(V,E),其中,V表示事故数据中的不同的事故严重程度Yp'所对应的环境因素集合,简称为事故集合,E表示事故集合中各节点相连接的边的集合,V=(X1,...,Xi,...,XM),i=1,2,...,M,M为先验分布均衡的事故数据T中的事故总数,也为事故集合节点Xi的总数;通过计算事故数据T中事故集合里不同节点Xi之间的权重值来判断节点Xi之间是否相连,构建边集合E,也称为邻接矩阵W;
步骤4.2、利用全连接法计算各个节点之间的权重wij,并选择高斯核函数作为核函数定义权重wij,其中wij表示事故集合里节点Xi与节点Xj之间的权重,其中Xi代表事故严重程度样本Yi所对应的所有影响因素,Xj代表事故严重程度样本Yj所对应的所有影响因素,由于每两个节点之间无方向之分,因此wij=wji,具体计算过程如公式(3)所示:
得到大小为M×M的邻接矩阵
其中,M为事故集合节点Xi的总数;
因此,通过构建邻接矩阵W得到边集合E,将先验分布均衡的事故数据T={X,Y}转化为事故图数据G=(V,E)。
步骤5、结合谱聚类算法,得到不同环境因素对应的事故严重程度。
步骤5具体如下:
步骤5.1、通过步骤4得到各个事故集合节点之间的权重wij,通过计算与每个事故集合节点Xi相连的所有节点的权重之和di,计算公式如公式(4)所示:
其中,M表示事故集合节点Xi的总数,进而得到M×M的度矩阵D为对角矩阵;
步骤5.2、通过步骤4得到的邻接矩阵和步骤5.1得到的事故图数据G的度矩阵,而拉普拉斯矩阵L是由度矩阵与邻接矩阵之差得到,如公式(5)所示:
L=D-W (5)
然后构建标准化拉普拉斯矩阵Lsym,如公式(6)所示:
Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2 (6)
再计算标准化拉普拉斯矩阵Lsym的k个特征值及特征值对应的特征向量fk,且k<M,将不同特征值对应的特征向量fk组成矩阵其中,fk=[f'1,k,...,f'i,k,...,f'M,k]T,表示一组特征向量,再对其进行行标准化,得到大小为M×k的特征矩阵/>
通过转置特征矩阵F,得到新的矩阵
步骤5.3、事故严重程度分为C个等级,C={C1,C2,C3,C4},因此,需要聚为C类。通过K近邻算法在新的矩阵Q选择C个初始聚类中心,通过计算每个聚类中心与周围节点之间的距离划分类别,依据为不同的聚类中心与其周围的节点距离最小,与其他聚类中心周围的节点距离最大,则说明聚类成功,最终将事故图数据G中事故严重程度所对应的不同环境因素数据聚为C类,每一类代表一个事故严重程度,即将矩阵Q中不同的向量按照距离划分为C个不同的事故严重程度等级,若某一类别数量较大,则需要通过分析该类别所对应的环境因素,改善交通运行条件。

Claims (1)

1.一种基于谱聚类的非均衡交通事故严重程度分析方法,其特征在于,具体按照以下步骤实施:
步骤1、通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D';
步骤2、通过编码技术将原始事故数据D'进行离散编码及归一化,得到有效事故数据D;
所述步骤2具体如下:
步骤2.1、设原始事故数据D'={x',y'},
其中,x'代表整个环境因素样本,q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数,x'p,q表示发生第p起事故时周围的环境因素q;y'代表整个事故严重程度样本,y'p表示第p起事故的严重程度;
步骤2.2、通过离散编码,将每个环境因素以及事故严重程度所对应的结果映射为一个数字,设天气因素中:雨天=1,晴天=2,刮风=3,雪天=4,大雾=5,霜冻=6,其他=7;路面因素中:干燥=1,潮湿=2,结冰=3,淤泥=4,融雪=5,积水=6,其他=7;事故严重程度:轻微事故=1,一般事故=2,重大事故=3,特大事故=4,将所有环境因素x'与事故严重程度y'离散化,得到离散型事故数据x'n、y',x'n表示事故严重程度所对应的n个环境因素,y'表示离散后的事故严重程度;
步骤2.3、通过步骤2.2得到离散型事故数据x'n,利用最大最小归一化方法,对离散型事故数据x'n进行归一化,如公式(1)所示:
其中,x'n表示事故严重程度所对应的n个环境因素,xn是归一化后的环境因素,n表示环境因素个数;
因此得到有效事故数据D={x,y},
其中,x代表有效数据D中整个环境因素样本,xp,q表示有效数据D中发生第p起事故时周围的环境因素q;y代表有效数据D中整个事故严重程度样本,yp表示有效数据D中第p起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p=1,...,m表示发生的事故,m为记录的事故总数;
步骤3、结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样,得到先验分布均衡的事故数据T;
所述步骤3具体如下:
步骤3.1、确定有效事故数据D中的少类事故严重程度样本ys,s=1,2,...,N,N为少类事故严重程度样本总数;每个ys对应有n个环境因素,事故严重程度ys所对应的第q个环境因素为ys,q,q=1,2,...,n;确定有效事故数据D中的多类事故严重程度样本yg,g=1,2,...,M,M为多类事故严重程度样本总数,事故严重程度yg所对应的第q个环境因素为yg,q
步骤3.2、统计少类事故严重程度样本ys周围的h个同类样本点,h=1,...,5,计算yh s与ys之间相对应第q个环境因素的差值diffq=yh s,q-ys,q,然后利用公式(2)计算新生成的环境因素fs,q
其中,α是范围在[0,1]内的随机值,fs,q是所产生的新的少类样本,s=1,2,...,N为少类事故严重程度样本,N为少类事故严重程度样本总数,ys,q,q=1,2,...,n事故严重程度ys所对应的第q个环境因素,yh s,q为少类事故严重程度样本ys,q周围的第h个同类样本点所对应的第q个环境因素,q=1,...,n表示环境因素;
通过上述过程计算少类样本ys对应的不同环境因素值fs,q=[fs,1,...,fs,n],从而得到新的少类样本ys,其对应的环境因素为fs,q,将其融入至有效事故数据D中,D的少类样本数目增大,使得事故数据分布均衡,得到先验分布均衡的事故数据T={X,Y},其中,
其中,X代表先验分布均衡的事故数据T中整个环境因素样本,Xp',q表示先验分布均衡的事故数据T中发生第p'起事故时周围的环境因素q;Y代表先验分布均衡的事故数据T中整个事故严重程度样本,Yp表示先验分布均衡的事故数据T中第p'起事故的严重程度;q=1,...,n表示环境因素,n表示影响因素总数,p'=1,...,M表示发生的事故,M为先验分布均衡的事故数据T中的事故总数,M=m+l,m为原始长度,l是通过重采样生成的新样本数;
步骤4、将结构化事故数据T转化为事故图数据G;
所述步骤4具体如下:
步骤4.1、通过步骤3得到先验分布均衡的事故数据T={X,Y},为了构建事故图数据G=(V,E),其中,V表示事故数据中的不同的事故严重程度Yp'所对应的环境因素集合,简称为事故集合,E表示事故集合中各节点相连接的边的集合,V=(X1,...,Xi,...,XM),i=1,2,...,M,M为先验分布均衡的事故数据T中的事故总数,也为事故集合节点Xi的总数;通过计算事故数据T中事故集合里不同节点Xi之间的权重值来判断节点Xi之间是否相连,构建边集合E,也称为邻接矩阵W;
步骤4.2、利用全连接法计算各个节点之间的权重wij,并选择高斯核函数作为核函数定义权重wij,其中wij表示事故集合里节点Xi与节点Xj之间的权重,其中Xi代表事故严重程度样本Yi所对应的所有影响因素,Xj代表事故严重程度样本Yj所对应的所有影响因素,由于每两个节点之间无方向之分,因此wij=wji,具体计算过程如公式(3)所示:
得到大小为M×M的邻接矩阵
其中,M为事故集合节点Xi的总数;
因此,通过构建邻接矩阵W得到边集合E,将先验分布均衡的事故数据T={X,Y}转化为事故图数据G=(V,E);
步骤5、结合谱聚类算法,得到不同环境因素对应的事故严重程度,
所述步骤5具体如下:
步骤5.1、通过步骤4得到各个事故集合节点之间的权重wij,通过计算与每个事故集合节点Xi相连的所有节点的权重之和di,计算公式如公式(4)所示:
其中,M表示事故集合节点Xi的总数,进而得到M×M的度矩阵D为对角矩阵;
步骤5.2、通过步骤4得到的邻接矩阵和步骤5.1得到的事故图数据G的度矩阵,而拉普拉斯矩阵L是由度矩阵与邻接矩阵之差得到,如公式(5)所示:
L=D-W (5)
然后构建标准化拉普拉斯矩阵Lsym,如公式(6)所示:
Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2 (6)
再计算标准化拉普拉斯矩阵Lsym的k个特征值及特征值对应的特征向量fk,且k<M,将不同特征值对应的特征向量fk组成矩阵其中,fk=[f'1,k,...,f'i,k,...,f'M,k]T,表示一组特征向量,再对其进行行标准化,得到大小为M×k的特征矩阵
通过转置特征矩阵F,得到新的矩阵
步骤5.3、事故严重程度分为C个等级,C={C1,C2,C3,C4},因此,需要聚为C类,通过K近邻算法在新的矩阵Q选择C个初始聚类中心,通过计算每个聚类中心与周围节点之间的距离划分类别,依据为不同的聚类中心与其周围的节点距离最小,与其他聚类中心周围的节点距离最大,则说明聚类成功,最终将事故图数据G中事故严重程度所对应的不同环境因素数据聚为C类,每一类代表一个事故严重程度,即将矩阵Q中不同的向量按照距离划分为C个不同的事故严重程度等级,若某一类别数量较大,则需要通过分析该类别所对应的环境因素,改善交通运行条件。
CN202010995568.7A 2020-09-21 2020-09-21 一种基于谱聚类的非均衡交通事故严重程度分析方法 Active CN112183597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010995568.7A CN112183597B (zh) 2020-09-21 2020-09-21 一种基于谱聚类的非均衡交通事故严重程度分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010995568.7A CN112183597B (zh) 2020-09-21 2020-09-21 一种基于谱聚类的非均衡交通事故严重程度分析方法

Publications (2)

Publication Number Publication Date
CN112183597A CN112183597A (zh) 2021-01-05
CN112183597B true CN112183597B (zh) 2023-10-31

Family

ID=73955689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010995568.7A Active CN112183597B (zh) 2020-09-21 2020-09-21 一种基于谱聚类的非均衡交通事故严重程度分析方法

Country Status (1)

Country Link
CN (1) CN112183597B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240048B (zh) * 2021-06-03 2023-08-22 北京交通大学 一种基于改进模糊c均值的交通事故影响范围聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN110097071A (zh) * 2019-03-18 2019-08-06 深圳蓝韵医学影像有限公司 基于谱聚类与K-means结合的乳腺病变区域的识别方法与装置
CN110929761A (zh) * 2019-10-30 2020-03-27 南京理工大学 智能系统安全体系态势感知构架中采集样本的平衡方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180365556A1 (en) * 2017-07-31 2018-12-20 Seematics Systems Ltd System and method for generating and using descriptors of artificial neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN109492673A (zh) * 2018-10-19 2019-03-19 南京理工大学 一种基于谱聚类采样的不平衡数据预测方法
CN110097071A (zh) * 2019-03-18 2019-08-06 深圳蓝韵医学影像有限公司 基于谱聚类与K-means结合的乳腺病变区域的识别方法与装置
CN110929761A (zh) * 2019-10-30 2020-03-27 南京理工大学 智能系统安全体系态势感知构架中采集样本的平衡方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An oversampling framework for imbalanced classification based on Laplacian eigenmaps;Xiucai Ye;《Neurocomputing》;20200725;107-116页 *
Probability model selection and parameter evolutionary estimation for clustering imbalanced data without sampling;Jiancong Fan;《Neurocomputing》;20161026;172-181页 *
基于谱聚类下采样失衡数据下SVM故障检测;陶新民;《振动与冲击》;20130925;30-36页 *
考虑类内不平衡的谱聚类过抽样方法;骆自超;《计算机工程与应用》;20140619;120-125,138页 *

Also Published As

Publication number Publication date
CN112183597A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN102637357B (zh) 一种区域交通状态评价方法
CN114783183B (zh) 一种基于交通态势算法的监控方法与系统
CN106997669B (zh) 一种基于特征重要性的判断交通拥堵成因的方法
Kim et al. Urban traffic flow prediction system using a multifactor pattern recognition model
Lin et al. Data mining and complex network algorithms for traffic accident analysis
CN104809877B (zh) 基于特征参数加权gefcm算法的高速公路地点交通状态估计方法
CN109215350B (zh) 一种基于rfid电子车牌数据的短期交通状态预测方法
CN110675626B (zh) 基于多维数据的交通事故黑点预测方法、装置及介质
CN103942953A (zh) 一种基于浮动车数据的城市路网动态交通拥挤预测方法
CN111462485A (zh) 一种基于机器学习的交通路口拥堵的预测方法
CN113392885B (zh) 一种基于随机森林理论的交通事故时空热点判别方法
CN109598930B (zh) 一种自动检测高架封闭系统
CN106023592A (zh) 一种基于gps数据的交通拥堵检测方法
CN111583628B (zh) 基于数据质量控制的道路网重型货车交通流量预测方法
CN108665703A (zh) 基于宏观基本图的路网状态转换点判别方法
CN110555565A (zh) 基于决策树模型的高速路出口匝道事故严重程度预测方法
CN106297296B (zh) 一种基于稀疏轨迹点数据的细粒度旅行时间分配方法
CN114299742B (zh) 一种高速公路的限速信息动态识别与更新推荐方法
CN105809193A (zh) 一种基于kmeans算法的非法运营车辆的识别方法
CN116523397B (zh) 基于熵权法和gmm聚类算法的城市交通网络弹性评估方法
CN112183597B (zh) 一种基于谱聚类的非均衡交通事故严重程度分析方法
Samoili et al. Investigation of lane flow distribution on hard shoulder running freeways
CN117238126A (zh) 一种连续流道路场景下的交通事故风险评估方法
CN116597642A (zh) 一种交通拥堵状况的预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240205

Address after: 510000 room 101-2, building 2, No. 95, Daguan Middle Road, Tianhe District, Guangzhou City, Guangdong Province (office only)

Patentee after: Guangzhou shengxia Intellectual Property Operation Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Patentee before: XI'AN University OF TECHNOLOGY

Country or region before: China