CN112183597B

CN112183597B - 一种基于谱聚类的非均衡交通事故严重程度分析方法

Info

Publication number: CN112183597B
Application number: CN202010995568.7A
Authority: CN
Inventors: 谢国; 上官安琪; 费蓉; 穆凌霞; 黑新宏; 姬文江; 马维纲; 张春丽; 杨静; 金永泽
Original assignee: Xian University of Technology
Current assignee: Guangzhou Shengxia Intellectual Property Operation Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2023-10-31
Anticipated expiration: 2040-09-21
Also published as: CN112183597A

Abstract

本发明公开了一种基于谱聚类的非均衡交通事故严重程度分析方法，首先通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D'；通过编码技术将原始事故数据D'进行离散编码及归一化，得到有效事故数据D；然后结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样，得到先验分布均衡的事故数据T；将结构化事故数据T转化为事故图数据G；最后结合谱聚类算法，得到不同环境因素对应的事故严重程度。本发明解决了现有技术中存在的事故数据分布不均衡导致事故严重程度分析效果较差的问题。

Description

一种基于谱聚类的非均衡交通事故严重程度分析方法

技术领域

本发明属于交通事故安全分析技术领域，具体涉及一种基于谱聚类的非均衡交通事故严重程度分析方法。

背景技术

随着经济快速发展，人们的交通需求增大，交通供需矛盾也随之增大，不断出现的交通事故、交叉路口的交通拥堵、以及目前道路两侧的难以停车问题已经成为城市稳定发展过程中的障碍。如何在易发生交通事故路段，通过检测设备获取周围不同类型的环境因素，并通过建立环境因素与事故严重程度之间的关联模型，对预防道路交通事故发生，并降低事故严重程度，提高道路交通安全水平有着极为重要的意义。

在对交通事故严重程度分析过程中，首先需要记录车辆发生事故时的环境因素数据。然后，通过对该数据进行预处理，使其成为有效数据。最后得到不同环境因素所对应的事故严重程度，得到不同环境因素与事故严重程度之间的关系。而在分析过程中，由于传统的统计模型算法需要提前假设某些参数的分布，这些分布在一定程度上与真实情况有偏差，并进一步地影响后期分析结果的可信度。而机器学习方法主要是基于真实事故数据进行分析，得到不同环境因素对应于不同事故严重程度结果，无需对模型参数进行先验假设。

发明内容

本发明的目的是提供一种基于谱聚类的非均衡交通事故严重程度分析方法，解决了现有技术中存在的事故数据分布不均衡导致事故严重程度分析效果较差的问题。

本发明所采用的技术方案是，一种基于谱聚类的非均衡交通事故严重程度分析方法，具体按照以下步骤实施：

步骤1、通过路段摄像头或者检测器记录车辆在运行过程中发生车祸时的原始事故数据D'；

步骤2、通过编码技术将原始事故数据D'进行离散编码及归一化，得到有效事故数据D；

步骤3、结合合成少数类过采样技术SMOTE算法将有效事故数据D进行重采样，得到先验分布均衡的事故数据T；

步骤4、将结构化事故数据T转化为事故图数据G；

步骤5、结合谱聚类算法，得到不同环境因素对应的事故严重程度。

本发明的特点还在于，

步骤2具体如下：

步骤2.1、设原始事故数据D'＝{x',y'}，

其中，x'代表整个环境因素样本，q＝1,...,n表示环境因素，n表示影响因素总数，p＝1,...,m表示发生的事故，m为记录的事故总数，x'_p,q表示发生第p起事故时周围的环境因素q；y'代表整个事故严重程度样本，y'_p表示第p起事故的严重程度；

步骤2.2、通过离散编码，将每个环境因素以及事故严重程度所对应的结果映射为一个数字，设天气因素中：雨天＝1，晴天＝2，刮风＝3，雪天＝4，大雾＝5，霜冻＝6，其他＝7；路面因素中：干燥＝1，潮湿＝2，结冰＝3，淤泥＝4，融雪＝5，积水6，其他＝7；事故严重程度：轻微事故＝1，一般事故＝2，重大事故＝3，特大事故＝4，将所有环境因素x'与事故严重程度y'离散化，得到离散型事故数据x'_n、y'，x'_n表示事故严重程度所对应的n个环境因素，y'表示离散后的事故严重程度；

步骤2.3、通过步骤2.2得到离散型事故数据x'_n，利用最大最小归一化方法，对离散型事故数据x'_n进行归一化，如公式(1)所示：

其中，x'_n表示事故严重程度所对应的n个环境因素，x_n是归一化后的环境因素，n表示环境因素个数；

因此得到有效事故数据D＝{x,y}，

其中，x代表有效数据D中整个环境因素样本，x_p,q表示有效数据D中发生第p起事故时周围的环境因素q；y代表有效数据D中整个事故严重程度样本，y_p表示有效数据D中第p起事故的严重程度；q＝1,...,n表示环境因素，n表示影响因素总数，p＝1,...,m表示发生的事故，m为记录的事故总数。

步骤3具体如下：

步骤3.1、确定有效事故数据D中的少类事故严重程度样本y_s,s＝1,2,...,N，N为少类事故严重程度样本总数；每个y_s对应有n个环境因素，事故严重程度y_s所对应的第q个环境因素为y_s,q,q＝1,2,...,n；确定有效事故数据D中的多类事故严重程度样本y_g,g＝1,2,...,M，M为多类事故严重程度样本总数，事故严重程度y_g所对应的第q个环境因素为y_g,q；

步骤3.2、统计少类事故严重程度样本y_s周围的h个同类样本点，h＝1,...,5，计算y^h _s与y_s之间相对应第q个环境因素的差值diff_q＝y^h _s,q-y_s,q，然后利用公式(2)计算新生成的环境因素f_i,q，

其中，α是范围在[0,1]内的随机值，f_s,q是所产生的新的少类样本，s＝1,2,...,N为少类事故严重程度样本，N为少类事故严重程度样本总数，y_s,q,q＝1,2,...,n事故严重程度y_s所对应的第q个环境因素，y^h _s,q为少类事故严重程度样本y_s,q周围的第h个同类样本点所对应的第q个环境因素，q＝1,...,n表示环境因素；

通过上述过程计算少类样本y_s对应的不同环境因素值f_s,q＝[f_s,1,...,f_s,n]，从而得到新的少类样本y_s，其对应的环境因素为f_s,q，将其融入至有效事故数据D中，D的少类样本数目增大，使得事故数据分布均衡，得到先验分布均衡的事故数据T＝{X,Y}，其中，

其中，X代表先验分布均衡的事故数据T中整个环境因素样本，X_p',q表示先验分布均衡的事故数据T中发生第p'起事故时周围的环境因素q；Y代表先验分布均衡的事故数据T中整个事故严重程度样本，Y_p表示先验分布均衡的事故数据T中第p'起事故的严重程度；q＝1,...,n表示环境因素，n表示影响因素总数，p'＝1,...,M表示发生的事故，M为先验分布均衡的事故数据T中的事故总数，M＝m+l，m为原始长度，l是通过重采样生成的新样本数。

步骤4具体如下：

步骤4.1、通过步骤3得到先验分布均衡的事故数据T＝{X,Y}，为了构建事故图数据G＝(V,E)，其中，V表示事故数据中的不同的事故严重程度Y_p'所对应的环境因素集合，简称为事故集合，E表示事故集合中各节点相连接的边的集合，V＝(X₁,...,X_i,...,X_M),i＝1,2,...,M，M为先验分布均衡的事故数据T中的事故总数，也为事故集合节点X_i的总数；通过计算事故数据T中事故集合里不同节点X_i之间的权重值来判断节点X_i之间是否相连，构建边集合E，也称为邻接矩阵W；

步骤4.2、利用全连接法计算各个节点之间的权重w_ij，并选择高斯核函数作为核函数定义权重w_ij，其中w_ij表示事故集合里节点X_i与节点X_j之间的权重，其中X_i代表事故严重程度样本Y_i所对应的所有影响因素，X_j代表事故严重程度样本Y_j所对应的所有影响因素，由于每两个节点之间无方向之分，因此w_ij＝w_ji，具体计算过程如公式(3)所示：

得到大小为M×M的邻接矩阵

其中，M为事故集合节点X_i的总数；

因此，通过构建邻接矩阵W得到边集合E，将先验分布均衡的事故数据T＝{X,Y}转化为事故图数据G＝(V,E)。

步骤5具体如下：

步骤5.1、通过步骤4得到各个事故集合节点之间的权重w_ij，通过计算与每个事故集合节点X_i相连的所有节点的权重之和d_i，计算公式如公式(4)所示：

其中，M表示事故集合节点X_i的总数，进而得到M×M的度矩阵D为对角矩阵；

步骤5.2、通过步骤4得到的邻接矩阵和步骤5.1得到的事故图数据G的度矩阵，而拉普拉斯矩阵L是由度矩阵与邻接矩阵之差得到，如公式(5)所示：

L＝D-W (5)

然后构建标准化拉普拉斯矩阵L^sym，如公式(6)所示：

L^sym＝D^-1/2LD^-1/2＝I-D^-1/2WD^-1/2 (6)

再计算标准化拉普拉斯矩阵L^sym的k个特征值及特征值对应的特征向量f_k，且k＜M，将不同特征值对应的特征向量f_k组成矩阵其中，f_k＝[f'_1,k,...,f'_i,k,...,f'_M,k]^T，表示一组特征向量，再对其进行行标准化，得到大小为M×k的特征矩阵/>

通过转置特征矩阵F，得到新的矩阵

步骤5.3、事故严重程度分为C个等级，C＝{C₁,C₂,C₃,C₄}，因此，需要聚为C类。通过K近邻算法在新的矩阵Q选择C个初始聚类中心，通过计算每个聚类中心与周围节点之间的距离划分类别，依据为不同的聚类中心与其周围的节点距离最小，与其他聚类中心周围的节点距离最大，则说明聚类成功，最终将事故图数据G中事故严重程度所对应的不同环境因素数据聚为C类，每一类代表一个事故严重程度，即将矩阵Q中不同的向量按照距离划分为C个不同的事故严重程度等级，若某一类别数量较大，则需要通过分析该类别所对应的环境因素，改善交通运行条件。

本发明的有益效果是，一种基于谱聚类的非均衡交通事故严重程度分析方法，通过该方法能够有效地改善分布不均衡的事故严重程度分析准确度，通过分析不同的环境因素造成的事故严重程度，为交通管理部门分析事故提供技术支持，并进一步地提高道路安全水平，降低交通拥堵状态等。

附图说明

图1是本发明一种基于谱聚类的非均衡交通事故严重程度分析方法的总体流程图；

图2是本发明一种基于谱聚类的非均衡交通事故严重程度分析方法中数据离散化及归一化具体过程。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明通过对所记录的事故数据进行预处理，针对先验分布不平衡的事故数据，结合重采样技术使其不同类型的事故数据分布均衡，提高后期聚类效果。然后，通过谱聚类算法构建事故图数据，建立不同影响因素与事故严重程度关系模型，即通过不同的环境因素得到对应的事故严重程度等级结果。通过该方法能够利用不同环境因素得到所对应的事故严重程度，提高了道路交通安全，并为交通管理部门决策规划、交通事故分析提供技术支持。

解决交通事故严重程度分析问题的基本思想是：通过检测设备记录发生事故时周围环境因素的历史数据，利用编码技术将所记录的环境因素进行离散化，然后结合SMOTE算法对离散后的分布不均衡样本数据进行重采样，以获取先验分布均匀样本数据，再利用谱聚类方法对处理后的数据进行训练，得到不同环境因素与事故严重程度之间的关联模型。目前在分析事故严重程度分析中，绝大多数主要通过使用应用于结构化数据的方法，例如支持向量机，K近邻，随机森林等基础方法，这种方法无法获取数据之间隐藏的作用关系。而谱聚类能够将结构化数据转化为图数据，以此获取各个节点之间的隐藏关系。

本发明一种基于谱聚类的非均衡交通事故严重程度分析方法，流程如图1所示，具体按照以下步骤实施：

如图2所示，步骤2具体如下：

步骤2.1、设原始事故数据D'＝{x',y'}，

因此得到有效事故数据D＝{x,y}，

步骤3具体如下：

步骤4、将结构化事故数据T转化为事故图数据G；

步骤4具体如下：

得到大小为M×M的邻接矩阵

其中，M为事故集合节点X_i的总数；

步骤5具体如下：

L＝D-W (5)

然后构建标准化拉普拉斯矩阵L^sym，如公式(6)所示：

L^sym＝D^-1/2LD^-1/2＝I-D^-1/2WD^-1/2 (6)

通过转置特征矩阵F，得到新的矩阵

Claims

1.一种基于谱聚类的非均衡交通事故严重程度分析方法，其特征在于，具体按照以下步骤实施：

所述步骤2具体如下：

步骤2.1、设原始事故数据D'＝{x',y'}，

步骤2.2、通过离散编码，将每个环境因素以及事故严重程度所对应的结果映射为一个数字，设天气因素中：雨天＝1，晴天＝2，刮风＝3，雪天＝4，大雾＝5，霜冻＝6，其他＝7；路面因素中：干燥＝1，潮湿＝2，结冰＝3，淤泥＝4，融雪＝5，积水＝6，其他＝7；事故严重程度：轻微事故＝1，一般事故＝2，重大事故＝3，特大事故＝4，将所有环境因素x'与事故严重程度y'离散化，得到离散型事故数据x'_n、y'，x'_n表示事故严重程度所对应的n个环境因素，y'表示离散后的事故严重程度；

因此得到有效事故数据D＝{x,y}，

其中，x代表有效数据D中整个环境因素样本，x_p,q表示有效数据D中发生第p起事故时周围的环境因素q；y代表有效数据D中整个事故严重程度样本，y_p表示有效数据D中第p起事故的严重程度；q＝1,...,n表示环境因素，n表示影响因素总数，p＝1,...,m表示发生的事故，m为记录的事故总数；

所述步骤3具体如下：

步骤3.2、统计少类事故严重程度样本y_s周围的h个同类样本点，h＝1,...,5，计算y^h _s与y_s之间相对应第q个环境因素的差值diff_q＝y^h _s,q-y_s,q，然后利用公式(2)计算新生成的环境因素f_s,q，

其中，X代表先验分布均衡的事故数据T中整个环境因素样本，X_p',q表示先验分布均衡的事故数据T中发生第p'起事故时周围的环境因素q；Y代表先验分布均衡的事故数据T中整个事故严重程度样本，Y_p表示先验分布均衡的事故数据T中第p'起事故的严重程度；q＝1,...,n表示环境因素，n表示影响因素总数，p'＝1,...,M表示发生的事故，M为先验分布均衡的事故数据T中的事故总数，M＝m+l，m为原始长度，l是通过重采样生成的新样本数；

步骤4、将结构化事故数据T转化为事故图数据G；

所述步骤4具体如下：

得到大小为M×M的邻接矩阵

其中，M为事故集合节点X_i的总数；

因此，通过构建邻接矩阵W得到边集合E，将先验分布均衡的事故数据T＝{X,Y}转化为事故图数据G＝(V,E)；

步骤5、结合谱聚类算法，得到不同环境因素对应的事故严重程度，

所述步骤5具体如下：

L＝D-W (5)

然后构建标准化拉普拉斯矩阵Lsym，如公式(6)所示：

L^sym＝D^-1/2LD^-1/2＝I-D^-1/2WD^-1/2 (6)

再计算标准化拉普拉斯矩阵Lsym的k个特征值及特征值对应的特征向量f_k，且k＜M，将不同特征值对应的特征向量f_k组成矩阵其中，f_k＝[f'_1,k,...,f'_i,k,...,f'_M,k]^T，表示一组特征向量，再对其进行行标准化，得到大小为M×k的特征矩阵

通过转置特征矩阵F，得到新的矩阵

步骤5.3、事故严重程度分为C个等级，C＝{C₁,C₂,C₃,C₄}，因此，需要聚为C类，通过K近邻算法在新的矩阵Q选择C个初始聚类中心，通过计算每个聚类中心与周围节点之间的距离划分类别，依据为不同的聚类中心与其周围的节点距离最小，与其他聚类中心周围的节点距离最大，则说明聚类成功，最终将事故图数据G中事故严重程度所对应的不同环境因素数据聚为C类，每一类代表一个事故严重程度，即将矩阵Q中不同的向量按照距离划分为C个不同的事故严重程度等级，若某一类别数量较大，则需要通过分析该类别所对应的环境因素，改善交通运行条件。