CN112732905A

CN112732905A - 一种基于知识图谱的交通事故分析与防控方法及系统

Info

Publication number: CN112732905A
Application number: CN202011420444.2A
Authority: CN
Inventors: 季青原; 吴建平; 徐甲; 吴越; 聂文涛; 陈乾; 林文霞; 吴占宁; 温晓岳
Original assignee: Enjoyor Co Ltd
Current assignee: Enjoyor Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-04-30
Anticipated expiration: 2040-12-08
Also published as: CN112732905B

Abstract

一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下：S1.提取交通事故数据，构建交通事故知识图谱G；S2.训练GraphSAGE模型，对交通事故知识图谱G中的事故实体进行表示学习，然后进行聚类分析，移除偶发的交通事故；S3.训练多分类任务的全连接深度神经网络，利用事故的向量表示，对其对应的标签进行预测；S4.利用向量表示空间的欧式距离，生成特定标签事故主要成因表。本发明基于交通事故知识图谱，使用GraphSAGE模型对交通事件进行表示学习，随后进行聚类分析，并删除交通事故随机噪声。然后使用多分类任务的全连接深度神经网络，利用事故的向量表示对事故标签进行预测。同时生成特定标签事故主要成因表，用以支持下游的事故预警以及防控等具体工作。

Description

一种基于知识图谱的交通事故分析与防控方法及系统

技术领域

本发明属于智能交通工程领域，涉及一种基于知识图谱的交通事故分析与防控方法及系统。

背景技术

随着城市人口与城市人均汽车保有量的增长，城市交通事故也变得日益频发。交通事故包含了多种环境特征(天气状态，能见度，路口的车道数，事故发生的时段等)。传统的交通事故分析方法往往基于报表方式，试图对交通事故进行统计学上的分析。很难从深层次的交通事故特征中挖掘事故成因(比如，针对给定的天气状况，能见度，车流量等信息，在某个具备某些特征的路口，有可能发生哪些类型的事故，而其中最可能的是哪几类)。

近年来，随着非结构化数据的海量涌现，知识图谱技术经历了高速发展。该技术在融合多源异构数据与挖掘数据隐含关联方面取得了长足进步。因此知识图谱技术在交通事故分析领域也有进一步应用的空间与价值。

发明内容

针对上述背景技术介绍中存在的问题，本发明的目的在于提供了一种有更好预测与分析能力并对交通事故防控方面的应用做出贡献的基于知识图谱的交通事故分析与防控方法及系统，基于交通事故知识图谱，首先使对交通事件进行表示学习，。然后使用多分类任务的全连接深度神经网络，利用事故的向量表示对事故标签进行预测。同时生成特定标签事故主要成因表，用以支持下游的事故预警以及防控等具体工作。

本发明采用的技术方案是：

一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下：

S1.提取交通事故数据，构建交通事故知识图谱G；

S2.对交通事故知识图谱G中的实体进行表示学习，生成实体的向量表示；

S3.基于已训练的多分类任务的全连接深度神经网络，利用交通事故的向量表示，对其对应的交通事故标签进行预测；

S4.利用向量表示空间，生成交通事故标签事故主要成因，所述事故主要成因为交通事故知识图谱G中与交通事故标签相关的实体。

进一步，步骤S2还包括步骤：利用事故的向量表示进行聚类分析，移除偶发的交通事故。

进一步，步骤S1中的交通事故知识图谱G的构建步骤包括：

S1.1提取交通事故的原始多维特征，至少包括交通事故环境特征和交通事故事件特征；

S1.2将交通事故的原始多维特征转化为数值特征，获得交通事故环境特征X1、X2、…、Xk、…、XK，Xk表示第k个环境特征，K表示环境特征个数，x_X1表示环境特征X1的值，N_X1表示环境特征X1的取值个数，交通事故事件特征：Y1、Y2、…、Ym、…、YM，Ym表示第m个事件特征，M表示事件特征个数，y_Y1表示事件特征Y1的值，N_Y1表示环境特征Y1的取值个数；

S1.3根据交通事故事件特征，提取交通事故标签Y；

交通事故标签Y＝g(Y1,Y2,…,Ym,…,YM)，g()表示事故标签提取函数；

S1.4提取实例实体，关系，概念实体，生成交通事故知识图谱G，其中实例实体指交通事故特征对应的某一具体物体、事件；概念实体指交通事故特征对应的具体值；关系指实例实体和概念实体的关系以及实例实体和实例实体的关系。

进一步，步骤S2的具体步骤包括：

S2.1.训练GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习，生成实体的向量表示；

S2.2.利用K-Means算法对交通事故知识图谱G中的交通事故实体进行聚类；

S2.3.将与聚类中心距离超出阈值的交通事故实体认为是偶发的交通事故，并且从知识图谱G中移除。

进一步，步骤S2.1中表示学习的具体过程如下：

记交通事故知识图谱G中所有的实体的集合为V，且对于每一个实体

，假设其已经具备初始的向量表示

那么GraphSAGE输出结果z_v的过程如下：

其中，公式(1)(2)(3)为GraphSAGE第1层神经网络的计算过程，而公式(4)(5)(6)为GraphSAGE第2层神经网络的计算过程；N(v)是一个集合，表示的是实体v所邻接的所有实体；AGG₁和AGG₂是第1层与第2层的聚合函数；公式(1)表示：对一个实体v的每一个邻居u，取这些邻居的向量表示

然后对它们做平均池化操作，得到

此外，

表示的是向量

的模长，CONCAT表示向量的拼接操作；最后W¹和W²分别为每一层的权重矩阵，而函数σ(·)是逻辑函数；

训练GraphSAGE模型时的损失函数：

其中，J(v)表示的是对实体v的损失函数，T表示的是矩阵转置操作，u表示的是从v的邻居中随机采样得到得一个实体，x表示的是距离v的hop距离hop>hop_limit的被随机获取的实体，hop距离为两个实体之间经过的关系最小个数，Q为负例样本采样次数。

进一步，步骤S2.2中K-Means算法的聚类过程如下：

基于预先给定的超参数k，K-Means算法的目的是生成一系列的簇C＝{C₁,C₂,…,C_k}，使得每一个交通实体a属于其中的一个簇；K-Means算法优化目标是最小化平方差E:

其中dist(·)为欧式空间的距离，而μ_i代表的是簇C_i的中心；

为了获得每一个簇，K-Means算法的运算步骤如下：

步骤(0)：指定簇的个数k，指定最大迭代次数N，将所有的交通事故向量表示a的集合记为样本A，当前迭代次数M设为0；

步骤(1)：从A中随机选择k个样本作为初始的k个簇的中心{μ₁，μ₂，...，μ_k}；

步骤(2)：M加1，如果M＞N则进入步骤(3)；如果M≤N，那么：

步骤(2.1)：将簇划分C初始化为

步骤(2.2)：对每一个交通事故样本a_i，计算其和各个簇中心{μ₁，μ₂，...，μ_k}的距离d_ij＝dist(a_i，μ_j)，然后将a_i归入最小的d_ij所对应的类别λ_i，然后更新

步骤(2.3)：对于j＝1,2,…,k，利用簇C_j包含的样本点重新计算其中心

步骤(2.4)：如果每个簇的中心都没有发生变化，则进入步骤(3)；否则进入步骤(2)；

步骤(3)：输出簇分类结果C＝{C₁,C₂,C₃,…,C_k}。

进一步，步骤S2.3的过程如下：

在K-Means算法计算完毕以后，获得了k个簇，预设距离阈值超参数t，那么初始化集合N；

针对每一个簇C_i：

针对C_i中的每一个交通事件向量表示a，计算其与簇中心μ_i的距离d。如果d＞t，则更新N：N＝N∪{a}

将集合N中包含的向量所对应的交通事故实体从交通事故知识图谱G中移除；

假设在移除之前，所有的交通事故向量表示的集合为A；在移除之后，将剩余的交通事故向量表示的集合记为A_clean：

A_clean＝A-N。

进一步，步骤S3中所述多分类任务的全连接深度神经网络的训练过程的具体步骤包括：

利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型；所述深度全连接神经网络模型包括1个输入层，至少1个隐藏层，1个输出层；模型输出结果是一个R维度的概率向量y，向量y中的每一个维度i的取值y_i表示了一个交通事故的向量表示a对应被分到第i类标签的概率；

训练该模型用到多分类交叉熵损失函数：

其中t_i＝1，如果训练样本对应标签类别i，反之t_i＝0。

进一步，步骤S4的具体过程包括：

在对知识图谱G中实体的表示学习后，将每一个实体映射到欧式空间R^d，用于推测某一类标签的交通事故可能主要成因；具体的步骤如下：

步骤(4.1)：在R^d空间中搜寻所有标签为b的交通事故，共找到k个，分别为a₁,a₂,..,a_k；

步骤(4.2)：对于R_d空间中的每一个概念实体e，计算标签b到实体e的距离D_b,e：

其中D_b,e指的是标签b对应的交通事故到实体e的距离的平均值；

步骤(4.3)：选取D_b,e最小的若干个概念实体，并将这若干个概念实体认为是标签b对应的事故的事故主要成因。

本发明还提供了一种来实现上述方法的基于知识图谱的交通事故分析与防控系统，包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块，模块与模块之间电学连接，其中，

交通事故知识图谱G构建模块用于采集交通事故环境数据，根据交通事故环境数据生成交通事故知识图谱G，输出交通事故知识图谱G；

交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G，根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示，输出交通事故知识图谱G中所有实体的向量表示；

交通事故标签预测模块采集交通事故实体的向量表示，根据交通事故实体的向量表示生成对应的交通事故标签，输出交通事故标签；

交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签，分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。

进一步，还包括交通事故去噪模块，所述交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示，对交通事故实体进行聚类，将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除，输出交通事故知识图谱G中所有实体的向量表示。

本发明与现有技术相比，其显著优点包括：核心是使用知识图谱技术，将交通事故多种不同类型的特征进行耦合与建模。不同于传统的分析方法，孤立地直接利用事故的特征进行分类或者是预测，本发明将交通事故特征与路网基础设施特征以及路网的拓扑结构联合考虑，基于多分类深度神经网络以及特定标签事故成因分析，将获得比传统方法更好的预测与分析能力，并对交通事故防控方面的应用做出贡献。

附图说明

图1是本发明的总体流程图。

图2是本发明的交通事故知识图谱G的示意图。

图3是本发明针对事故实体的表示学习，聚类以及去噪的流程图。

图4是GraphSAGE模型第k-1层与第k层的计算示意图。

图5是本发明的多分类任务的全连接深度神经网络结构示意图。

图6是本发明的具体应用示例图。

图7是本发明现有的交通事故知识图谱G中添加新的交通事故实体，并利用训练好的GraphSAGE模型计算其向量表示的示意图。

图8是本发明在图2所示的交通事故知识图谱G中加入新的事故实体后的交通事故知识图谱G的示意图。

图9是本发明系统第一种实施例的结构图。

图10是本发明交通事故标签预测模块生成结构图。

图11是本发明系统第二种实施例的结构图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

实施例一

参见图1，本实施例提供了一种基于知识图谱的交通事故分析与防控方法，主要步骤如下：

S1.提取交通事故数据，构建交通事故知识图谱G；

S2.对交通事故知识图谱G中的事故实体进行表示学习，生成实体的向量表示；

S4.利用向量表示空间，生成交通事故标签事故主要成因，事故主要成因为交通事故知识图谱G中与交通事故标签相关的实体。

具体如下：

S1.交通事故知识图谱G的构建包括：

S1.1提取交通事故的原始多维特征，至少包括交通事故环境特征和交通事故事件特征，交通事故环境特征为导致交通事故发生的原因、交通事故发生所在环境等相关特征，交通事故事件特征为交通事故发生时这一事件本身的特征。

交通事故环境特征可以以下一种或多种：事故基础特征、交通状态特征、路口设施特征，事故基础特征可以以下一种或多种：天气、能见度、时段、路面状况、照明、星期，交通状态特征可以以下一种或多种：车速、拥堵率、流量，路口设施特征可以以下一种或多种：路口规模、隔离带、信控类型。

交通事故事件特征可以以下一种或多种：事故类型、撞击类型、事故损失。

其中交通事故的原始多维特征，如表1所示。

表1.交通事故的原始多维特征(示例)

S1.2将交通事故的原始多维特征转化为数值特征；

分类数据，用不同数值表示不同分类数据，如天气、路面状况，天气特征：晴＝1，雨＝2，阴＝3，雪＝4；

连续数据，对连续数据进行等级划分，用不同数值表示不同等级数据，如能见度、时段，能见度特征：等级划分为极低(0到50米)、低(50米到100米)、中等(100米到150米)、高(150米到200米)，极低＝1，低＝2，中等＝3，高＝4；

获得交通事故环境特征X1、X2、…、Xk、…、XK，Xk表示第k个环境特征，K表示环境特征个数，x_X1表示环境特征X1的值，N_X1表示环境特征X1的取值个数，事件特征：Y1、Y2、…、Ym、…、YM，Ym表示第m个事件特征，M表示事件特征个数，y_Y1表示事件特征Y1的值，N_Y1表示环境特征Y1的取值个数；

如：X1为天气特征，N_X1为4，x_X1为{晴＝1，雨＝2，阴＝3，雪＝4}之一；X2为路面状况，N_X2为2，x_X2为{路面完好＝1，路面施工＝2}之一。

交通事故包含的特征主要包含四大类，分别是事故基础特征(事故发生的时段，能见度，道路施工情况等)、交通状态特征(事故发生时的交通状态信息)、路口设施特征(事故所在路口的基础设施状况)、事故结果特征(事故造成的结果与影响)。每一大类的特征由一些具体的特征构成，且这些特征的取值都是离散化的。

S1.3根据事件特征，提取交通事故标签；

交通事故标签，Y＝g(Y1,Y2,…,Ym,…,YM)，g()表示事故标签提取函数，

提取1：一个标签对应一组事件特征，用不同数值表示不同标签，如事故标签1对应一组事件特征(事故类型：机动车–机动车，撞击类型：正面碰撞，事故损失：轻微)，事故标签1＝1，事故标签2＝2；

提取2：一个标签对应一组事件特征，统计指定时间段内该标签发生的概率，对概率进行等级划分，用不同数值表示不同概率等级，如：一年内，事故标签1发生概率为0.001(概率等级极低＝1)，事故标签2发生概率为0.056(概率等级中等＝3)。

对于事故结果特征(事故类型、撞击类型、事故损失)，将进行进一步的特征工程。具体来说，对于这三项特征进行合理的排列组合，用单一的一项标签来表示事故的结果。如表2所示(假设一共有R种合理的排列组合结果)：

表2.利用事故类型，撞击类型以及事故损失来生成事故标签

S1.4提取实例实体，关系，概念实体，生成交通事故知识图谱G；

1)提取实例实体，实例实体指：交通事故特征对应的某一具体物体、事件(往往由地理信息数据平台直接获取)；

如：交通事故、路口、路段、建筑物(学校、地铁、商场)；

2)提取概念实体，概念实体指：交通事故特征对应的具体值为一个概念实体(往往通过人工构建的方式获取)；

如：阴、星期一；

3)提取关系，关系指：实例实体和概念实体的关系，实例实体和实例实体的关系；

如：实例实体：交通事故1，概念实体：阴，x_X1＝3，关系：天气特征，X1，表示交通事故1天气特征阴；

实例实体1：路口1，实例实体2：路口2，关系：相邻，表示路口1相邻路口2；

实例实体1：路口1，实例实体2：事故1，关系：发生，表示路口1发生交通事故1。

一个交通事故知识图谱G举例：

以指定交通区域DS内指定时间段T内的事故知识图谱G，交通区域DS内有2个路口：路口1、路口2，时间段T内路口1发生3起交通事故：事故1、事故2、事故3，路口1路口规模特征为中路口，路口1信控类型特征为信控路口，路口2路口规模为大路口，路口2相邻路口1，事故1时段特征为晚高峰，事故1事故标签特征为标签3，事故3时段特征为晚高峰，事故3事故标签特征为标签10。

事故知识图谱G中，实例实体：路口1、路口2、事故1、事故2、事故3，概念实体：中路口、大路口、信控路口、晚高峰、标签3、标签10，关系：相邻、发生、路口规模、信控类型、时段、事故标签。

在完成长时间的交通事故数据提取(比如一个城市半年或者是一年的交通事故)，便可生成交通事故知识图谱G，如图2所示。

图2的知识图谱包含了2个路口，以及3起事故。该知识图谱包含了2种类型的实体，分别是实例实体和概念实体。不同的实例实体由不同的ID区分(比如路口1、路口2，事故1、事故2、事故3)。而对于概念实体，无需附上ID，因为其在知识图谱中最多只出现一次(比如“信控路口”实体在图谱中只有1个，尽管路口1和路口2都是信控路口；同理，事故1和事故3对应的拥堵率都为“中拥堵率”，那么图谱中也只有1个“中拥堵率”实体)。应用这样的知识图谱表示方法，就可以将复数的交通事故与单个路口关联在一起(比如事故1和事故3都发生在路口1上)。

需要说明的是，每一个事故对应的标签，并不会放在知识图谱G中。该标签信息会在后续的S3与S4的步骤中再用到。也就是说，G中存放的，主要是交通事故发生的环境以及路网的基础硬件信息。

S2.针对交通事故知识图谱G中的实体进行表示学习，生成实体的向量表示。

可以采用TransE模型、GraphSAGE模型及其他表示学习的方法对交通事故知识图谱G中的实体进行表示学习。

其中TransE模型是知识图谱进行表示学习的经典模型，其核心思想是，将知识图谱中的实体的关系都投影到d维的向量空间R^d，并且将三元组(h,r,t)近似为向量空间中的运算：

h+r≈t

进一步地，TransE模型定义了得分函数(score function)，也就是向量运算结果的模长。得分函数f_r(h，t)在(h,r,t)这个三元组为真(亦即在知识图谱中存在时)，尽可能大：

f_r(h，t)＝-|h+t-r|

利用TransE模型进行知识表示学习，需要借助神经网络。最简单的单层前馈神经网络便可以用于该工作。具体来说，首先需要对知识图谱中的三元组的向量表示初始化与归一化。接下来，在神经网络的每一次迭代中，进行负采样，并且最小化损失函数L来进行模型参数的更新。负采样所指的是，随机替换一个三元组(h,r,t)中的头部实体h，或者尾部实体t，得到(h’,r,t)或者(h,r,t’)或者(h’,r,t’)。损失函数L定义为：

其中G代表正样本集也就是交通事故知识图谱本身，而代表G^-负样本集，也就是每一个负样本(不存在于G中的样本)所构成的集合。而γ是预先定义的超参数，控制表示学习结果的精度。

交通事故的发生可能有一定的偶然性，也就是噪声数据的存在。举例来说，假设对于某一路口，数据可能展现出一种趋势，那就只在早晚高峰，以及能见度较差，且路面处于施工时，才发生事故。但是可能观察到发生于该路口的极少量事故，是在平峰时段，能见度最好，且路面完好的状况下发生的。这些极少量事故数据，就是所谓的噪声数据。由于本发明的目的是对不同标签的事故的成因进行分析，因此进行去噪工作有助于提升分析准确率。利用事故的向量表示进行聚类分析，聚类范围之外的交通事故实体认为是偶发的交通事故，从交通事故知识图谱G中移除。聚类分析方法可以采用K-Means算法、k-medoids算法、CLARA(Clustering LARge Application)算法、FCM算法等。

一个实施例中，这项工作主要包含三道工序，如图3所示。

S2.1.训练GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习

交通事故知识图谱G(如图2所示)中的所有实体，均以非结构化的方式被表示(图中的节点)，因而无法直接被应用于传统的机器学习模型(比如回归模型，分类模型等)。本发明对G中的实体进行表示学习，从而让实体被表示为结构化数据(比如固定维度的一维向量)。

本发明通过GraphSAGE模型，对G中的所有实体(节点)进行表示学习。GraphSAGE的核心是多层神经网络，而每一层有一个聚合函数(Aggregator)。该模型的基本思想是，图谱中每一个实体的向量表示，应该和其附近的实体的向量表示有关。本发明使用2层神经网络的GraphSAGE模型，表示学习的向量维度length，设置为50，其他数值如30、40也可以。

交通事故知识图谱G实际上是一个有向图(参考图2中的关系上的箭头)，而GraphSAGE的输入往往是一个无向图，因此需要对G中的所有关系“无向化”。现在定义，当且仅当两个实体之间的hop距离为1时，称两个实体互为邻居。这样一来，对于GraphSAGE模型来说，交通事故知识图谱G中的实体之间的邻居关系其实是对称的。(对于图2来说，路口1是事故1的邻居，而事故1也是路口1的邻居；事故1是“中能见度”的邻居，而“中能见度”也是事故1的邻居)。

此外，GraphSAGE会为G中的每一个实体都学习其向量化表示。也就是说，每一个实例实体(图2中的路口1、路口2、事故1、事故2、事故3)以及每一个概念实体(图2中的“晴”实体、“中车速”实体、“星期五”实体等等)都会获得向量化表示。虽然之后利用多分类深度神经网络的时候，只会用到“事故”实体的向量表示，但是GraphSAGE是一种归纳式(inductive)的图学习模型，任何实体的向量表示，都和其相邻的实体向量表示有关(比如图2中的“路口1”的向量表示，是和“事故1”的向量表示有关的)。

假设其已经具备初始的向量表示

那么GraphSAGE输出结果z_v(通过一次完整的正向传播)的过程如下：

其中，公式(1)(2)(3)为GraphSAGE第1层神经网络的计算过程，而公式(4)(5)(6)为GraphSAGE第2层神经网络的计算过程。N(v)是一个集合，表示的是实体v所邻接的所有实体。AGG₁和AGG₂是第1层与第2层的聚合函数，这两个聚合函数都是平均池化(mean pooling)函数。也就是说，公式(1)表示：对一个实体v的每一个邻居u，取这些邻居的向量表示

然后对它们做平均池化操作，得到

此外，

表示的是向量

的模长，CONCAT表示向量的拼接操作(具体来说，1个维度为(1,50)的向量和1个维度为(1,50)的向量拼接为1个维度为(2,50)的向量)。最后W¹和W²分别为每一层的权重矩阵，而函数σ(·)是逻辑函数(sigmoidfunction)。训练GraphSAGE模型，实际上训练的就是权重矩阵W¹和W²。

图4所展示的是一个GraphSAGE模型相邻两层(k-1层与k层)之间的关系示意图。以图4中右侧的示例知识图谱G为例(包含了7个实体与6个关系)。对于中心实体v来说，与其相邻的4个实体构成了N(v)。那么在计算

时，除了用到

以外，还会用到来自N(v)中的每个实体u的在k-1层的向量表示，亦即4个

为了训练GraphSAGE中的权重矩阵W¹与W²，需要定义损失函数：

其中，J(v)表示的是对实体v的损失函数，T表示的是矩阵转置操作，u表示的是从v的邻居中随机采样得到得一个实体，x表示的是距离v的hop距离hop>hop_limit的被随机获取的实体(也称x为负例样本)，hop距离为两个实体之间经过的关系最小个数，Q为负例样本采样次数。在本发明中，Q为5，而定义负例样本用到的hop距离限制hop_limit为5。最后，J(G)为整个知识图谱G的损失函数，在每一次进行GraphSAGE正向传播(亦即公式(1)到公式(7))后计算J(G)，并利用梯度下降法更新权重矩阵W¹与W²。该过程将迭代DN次，并最终完成权重矩阵的训练。

需要指出的是，如上所述，在进行GraphSAGE模型训练之前，已经假定每一个实体v具有一个对应的向量表示

(在本发明中，这是一个50维的向量，亦即(x₁,x₂,…,x₅₀))。这是需要通过随机化的方式生成的，一般会采取服从正态分布的50维随机向量，来初始化每个实体的向量表示。

S2.2.利用K-Means算法对G中的事故实体进行聚类

交通事故知识图谱G中的所有实体(包括交通事故实体)，都通过GraphSAGE模型，学习了一个50维度的向量表示(x₁,x₂,…,x₅₀)。现在，使用传统的机器学习聚类算法K-Means对所有的交通事故实体，在50维的向量空间中进行聚类分析。

基于预先给定的超参数k(簇的个数)，K-Means算法的目的是生成一系列的簇C＝{C₁,C₂,…,C_k}，使得每一个交通实体a属于其中的一个簇。K-Means算法优化目标是最小化平方差E:

其中dist(·)为欧式空间的距离，而μ_i代表的是簇C_i的中心。为了获得每一个簇，K-Means算法的运算步骤如下：

步骤(0)：指定簇的个数k(在本发明中设定为100)，指定最大迭代次数N(本发明指定500)，将所有的交通事故向量表示a的集合记为样本A，当前迭代次数M设为0；

步骤(2)：M加1，如果M＞N则进入步骤(3)；如果M≤N，那么：

步骤(2.1)：将簇划分C初始化为

步骤(3)：输出簇分类结果C＝{C₁,C₂,C₃,…,C_k}。

S2.3.针对交通事故数据的去噪

在K-Means算法计算完毕以后，获得了k个簇(本发明中为100)，预设距离超参数t(本发明为1.5)。那么初始化集合N。针对每一个簇C_i：

至此，集合N中便包含了与其对应的聚类中心的距离超出距离阈值的一些交通事故实体向量。将这些向量所对应的交通事故实体认为是噪声，即偶发的交通事故，并且从交通事故知识图谱G中移除(包括移除和这些交通事故实体直接相连的所有关系)。假设在去噪之前，所有的交通事故向量表示的集合为A；在去噪之后，将剩余的交通事故向量表示的集合记为A_clean，也就是说：

A_clean＝A-N。

S3.训练多分类任务的深度神经网络利用事故的向量表示对事故的标签进行预测；

一个实施例中，聚类分析方法采用k-medoids算法，每一个实体v具有一个对应的向量表示h_v，k-medoids算法步骤：

1、任意选取k个点作为medoids；

2、按照与medoids最近的原则，将剩余点分配到当前最佳的medoids代表的类中；

3、在每一类中，计算每个成员点对应的准则函数，选取准则函数最小时对应的点作为新的medoids，其中准则函数是:当前medoids代表的类中所有其他点到该medoids的距离之和；

4、重复2-3的过程，直到所有的medoids点不再发生变化，或已达到设定的最大迭代次数；

5、获得k个聚类中心。

S3.训练多分类任务的全连接深度神经网络，利用事故的向量表示，对其对应的标签进行预测。

利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型(结构如图5所示)。该模型包括1个输入层，至少1个隐藏层，1个输出层。这里采用模型结构由3个隐藏层构成，每1个隐藏层的神经元数量分别为32，16，8(神经元数量可以依据隐藏层个数、输入层接收的输入向量维度进行设置)。前3个激活函数为ReLU，而最后1个激活函数为Softmax。模型输入为知识图谱G中，每个交通事故实体的向量表示以及对应的交通事故标签，模型输出结果是一个R维度的概率向量y(其中R对应于表2中交通事故的标签数量)。向量y中的每一个维度i的取值y_i表示了一个交通事故的向量表示a对应被分到第i类标签的概率。

在该神经网络模型中，权重矩阵为W₁，W₂，W₃，W₄，对应的偏置为b₁，b₂，b₃，b₄为需要训练而获得的。权重矩阵需要通过学习得到，而模型输入为x₀，输入为y。

W₁x₀+b₁＝h₁ (12)

x₁＝ReLU(h₁) (13)

W₂x₁+b₂＝h₂ (14)

x₂＝ReLU(h₂) (15)

W₃x₂+b₃＝h₃ (16)

x₃＝ReLU(h₃) (17)

W₄x₃+b₃＝h₄ (18)

y＝Softmax(h₄) (19)

训练该模型用到多分类交叉熵损失函数：

其中t_i＝1，如果训练样本对应标签类别i，反之t_i＝0。

多分类任务的全连接深度神经网络模型训练完成后，输入特定的交通事故实体的向量表示(与特定知识图谱G、特定交通事故环境特征相对应)，可以输出该交通事故的向量表示对应每一类交通事故标签的概率，概率靠前的标签可以作为该特定的交通事故标签。

S4.利用向量表示空间，生成特定事故标签主要成因表。

在对交通事故知识图谱G中实体的表示学习后，将每一个实体映射到欧式空间R^d(比如在本专利的例子中，d＝50)。那么R^d其实已经包含了关键信息，用于推测某一类标签(比如标签为b)的交通事故可能主要成因。具体的步骤是这样的：

步骤(4.1)：在R^d空间中搜寻所有标签为b的事故(已经被表示成向量了)，共找到k个，分别为a₁,a₂,..,a_k；

步骤(4.2)：对于R_d空间中的每一个概念实体e(比如“晴”，“星期五”，“高车流量”等，且e同样被表示成向量了)，计算标签b到实体e的距离D_b,e：

也就是说D_b,e指的是标签b对应的事故到实体e的距离的平均值。这里也可以采用马氏距离、皮尔逊相关系数等方法计算标签b到实体e的距离。

步骤(4.3)：接下来选取D_b,e最小的三个概念实体，并将它们认为是标签b对应的事故的主要的产生原因。这样考虑的原因，是当两个向量之间的距离更小时，说明它们有更高的相似性或者说相关性。

这样便可以针对每一种标签的事故，分析其最有可能的成因，形成可供查阅的表格，并为后续的工作(事故预防，预警)提供技术支持。比如表3所展示的就是一种可能特定事故主要成因表。

表3.特定标签事故主要成因表(示例)

事故标签	Top 1事故成因	Top 2事故成因	Top 3事故成因
				标签1	雨	低能见度	路面施工
标签2	高流量	星期五	晚高峰
				标签3	中车速	早高峰	中拥堵率
标签4	无路灯	雨	高流量
				…	…	…	…
标签R	雪	路面施工	中能见度

具体应用例如下：

在完成GraphSAGE模型与多分类深度神经网络之后，便可以利用全新的交通数据，针对可能发生的交通事故类型进行分析，以及对应的预防。这具体包含3个步骤(如图6所示)。

具体来说，根据在某一个路口获取的全新的交通数据，比如某一时刻的实时数据(天气，车流，照明情况，时段等等)，在交通知识图谱中生成一个新的“交通事故”实体v_new。以此作为一个新的特定交通事故，然后利用训练好的GraphSAGE模型，计算其对应的向量表示a_new。计算a_new的过程实际上就是将公式(1)至公式(7)执行一次。图7以比较直观的方式展示了这一过程。也就是说，每需要进行一次新的可能的事故分析，都需要在现有的交通事故知识图谱G中加入事故实体v_new，并做向量表示的计算。由于交通事故知识图谱G中的所有其他实体都已经有学习好的向量表示，那么新的事故实体v_new通过其在交通事故知识图谱G中的邻居以及邻居的邻居(因为GraphSAGE模型是2层的)的向量表示，来获取该实体的向量表示a_new。

图8更好地说明了将新数据利用到现有的交通事故知识图谱G的过程(在图2的基础之上)。假设在某一个时刻，路口2处于一系列的状态(晴天、低拥堵率、星期日、高车流量、早高峰等等)，那么可以添加一个新的事故实体(事故4，亦即图7中的v_new)。加入该事故实体的意思，并不是说路口2已经发生了事故，而是为了计算，如果路口2在这种状态下发生事故，最有可能的事故标签是哪几种。对于图8而言，除了“事故4”实体，其余的每一个实体都有对应的向量表示(因为已经通过GraphSAGE训练得到)。那么“事故4”实体的向量表示，其实是依次执行公式(1)到公式(7)，也就是经过一次完整的GraphSAGE模型的正向传播，依赖“事故4”周围实体的向量表示就可以得到。也就是说，利用V_new可以获得a_new(向量表示)。

在获得了a_new之后，便利用训练好的多分类深度神经网络，进行正向传播运算得到对应结果y。需要强调的是，y预测的是该交通事故属于每一类标签的概率，那么可以取概率最高的top 3的标签，作为最有可能的事故标签类型然后查询表3，获取这些标签下的事故最有可能的成因，也可以通过计算事故标签类型和实体的距离寻找成因，并进行相应的预警或者是防范(比如，如果这些标签的事故对应的可能成因有“雨天”，“高流量”等因素，那么需要针对性地对路口进行限流或者是保证路面排水的顺利进行)。

实施例二

参照图9、图10，本实施例提供了一种实施例一所述的基于知识图谱的交通事故分析与防控方法的基于知识图谱的交通事故分析与防控系统，包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块，模块与模块之间电学连接，其中，

交通事故知识图谱G构建模块用于采集交通事故环境数据，根据交通事故环境数据生成交通事故知识图谱G，输出交通事故知识图谱G，所述交通事故环境数据可以以下一种或多种：事故基础特征、交通状态特征、路口设施特征，事故基础特征可以以下一种或多种：天气、能见度、时段、路面状况、照明、星期，交通状态特征可以以下一种或多种：车速、拥堵率、流量，路口设施特征可以以下一种或多种：路口规模、隔离带、信控类型；所述交通事故知识图谱G通过实例实体，关系，概念实体表示，实例实体指交通事故环境数据对应的某一具体物体、事件，概念实体指交通事环境数据对应的具体值；关系指实例实体和概念实体的关系以及实例实体和实例实体的关系；

交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G，根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示，输出交通事故知识图谱G中所有实体的向量表示，可以采用训练好的TransE模型、GraphSAGE模型或其他表示学习的算法模型；模型输入为正样本集、负样本集交通事故知识图谱G，以最小化实体与正样本距离，最大化实体与负样本距离为损失函数训练，达到训练目标后，输出实体的向量表示；

交通事故标签预测模块采集交通事故实体的向量表示，根据交通事故实体的向量表示生成对应的交通事故标签，输出交通事故标签，交通事故标签预测模块可以采用训练好的多分类任务的全连接深度神经网络；多分类任务的全连接深度神经网络包括1个输入层，至少1个隐藏层，1个输出层，模型输入为样本集知识图谱G中，每个交通事故实体的向量表示，模型输出结果是一个R维度的概率向量y，R为交通事故标签类别数，y值越高，属于该类交通事故标签的可能性越大；

交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签，分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。假设MA个交通事故实体向量表示，MB个概念实体向量表示，NA个交通事故标签，第Na个交通事故标签下有Ma个交通事故实体向量表示，计算Ma个交通事故实体向量表示和第Mb个概念实体向量表示的距离和D(Na，Mb)，距离和越小，表示该概念实体对该类交通事故的影响越大。

实施例三

参照图11，本实施例提供了一种实施例一所述的基于知识图谱的交通事故分析与防控方法的基于知识图谱的交通事故分析与防控系统，包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故去噪模块，交通事故标签预测模块、交通事故成因分析模块，模块与模块之间电学连接，其中，

交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示，对交通事故实体进行聚类，将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除，输出交通事故知识图谱G中所有实体的向量表示；

本实施例在实施例二的基础上增加了交通事故去噪模块，使得基于知识图谱的交通事故分析与防控系统更好的预测与分析能力。

Claims

1.一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下：

S1.提取交通事故数据，构建交通事故知识图谱G；

2.根据权利要求1所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S2还包括步骤：利用事故的向量表示进行聚类分析，移除偶发的交通事故。

3.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S1中的交通事故知识图谱G的构建步骤包括：

S1.3根据交通事故事件特征，提取交通事故标签Y；

4.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S2的具体步骤包括：

S2.1.训练TransE模型或GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习，生成实体的向量表示；

S2.2.利用K-Means算法或k-medoids算法对交通事故知识图谱G中的交通事故实体进行聚类；

S2.3.将与聚类中心距离超出距离阈值的交通事故实体认为是偶发的交通事故，并且从交通事故知识图谱G中移除。

5.根据权利要求4所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S2.1中采用GraphSAGE模型进行表示学习的具体过程如下：

记交通事故知识图谱G中所有的实体的集合为V，且对于每一个实体v∈V，假设其已经具备初始的向量表示

那么GraphSAGE输出结果z_v的过程如下：

然后对它们做平均池化操作，得到

此外，

表示的是向量

训练GraphSAGE模型时的损失函数：

其中，J(v)表示的是对实体v的损失函数，

表示的是矩阵转置操作，u表示的是从v的邻居中随机采样得到得一个实体，x表示的是距离v的hop距离hop＞hop_limit的被随机获取的实体，hop距离为两个实体之间经过的关系最小个数，Q为负例样本采样次数。

6.根据权利要求4所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S2.2中采用K-Means算法的聚类过程如下：

基于预先给定的超参数k，K-Means算法的目的是生成一系列的簇C＝{C₁，C₂，...，C_k}，使得每一个交通实体a属于其中的一个簇；K-Means算法优化目标是最小化平方差E：

其中dist(·)为欧式空间的距离，而μ_i代表的是簇C_i的中心；

为了获得每一个簇，K-Means算法的运算步骤如下：

步骤(2)：M加1，如果M＞N则进入步骤(3)；如果M≤N，那么：

步骤(2.1)：将簇划分C初始化为

步骤(2.2)：对每一个交通事故样本a_i，计算其和各个簇中心{μ₁，μ₂，...，μ_k}的距离d_ij＝dist(a_i，μ_j)，然后将ai归入最小的d_ij所对应的类别λ_i，然后更新

步骤(2.3)：对于j＝1，2，...，k，利用簇C_j包含的样本点重新计算其中心

步骤(3)：输出簇分类结果C＝{C₁，C₂，C₃，...，C_k}。

7.根据权利要求6所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S2.3的过程如下：

针对每一个簇C_i：

A_clean＝A-N。

8.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S3中所述多分类任务的全连接深度神经网络的训练过程的具体步骤包括：

利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型；所述深度全连接神经网络模型包括1个输入层，至少1个隐藏层，1个输出层；模型输出结果是一个R维度的概率向量y，向量y中的每一个维度i的取值yi表示了一个交通事故的向量表示a对应被分到第i类标签的概率；

训练该模型用到多分类交叉熵损失函数：

其中t_i＝1，如果训练样本对应标签类别i，反之t_i＝0。

9.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法，其特征在于：步骤S4的具体过程包括：

在对知识图谱G中实体的表示学习后，将每一个实体映射到欧式空间Rd，用于推测某一类事故标签的交通事故可能主要成因；具体的步骤如下：

步骤(4.1)：在Rd空间中搜寻所有标签为b的交通事故，共找到k个，分别为a₁，a₂，..，a_k；

步骤(4.2)：对于Rd空间中的每一个概念实体e，计算标签b到实体e的距离D_b,e：

10.一种基于知识图谱的交通事故分析与防控系统，包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块，模块与模块之间电学连接，其中，

11.根据权利要求10所述的一种基于知识图谱的交通事故分析与防控系统，其特征在于：还包括交通事故去噪模块，所述交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示，对交通事故实体进行聚类，将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除，输出交通事故知识图谱G中所有实体的向量表示。