CN112732905A - 一种基于知识图谱的交通事故分析与防控方法及系统 - Google Patents

一种基于知识图谱的交通事故分析与防控方法及系统 Download PDF

Info

Publication number
CN112732905A
CN112732905A CN202011420444.2A CN202011420444A CN112732905A CN 112732905 A CN112732905 A CN 112732905A CN 202011420444 A CN202011420444 A CN 202011420444A CN 112732905 A CN112732905 A CN 112732905A
Authority
CN
China
Prior art keywords
traffic accident
accident
entity
traffic
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011420444.2A
Other languages
English (en)
Other versions
CN112732905B (zh
Inventor
季青原
吴建平
徐甲
吴越
聂文涛
陈乾
林文霞
吴占宁
温晓岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enjoyor Co Ltd
Original Assignee
Enjoyor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enjoyor Co Ltd filed Critical Enjoyor Co Ltd
Priority to CN202011420444.2A priority Critical patent/CN112732905B/zh
Publication of CN112732905A publication Critical patent/CN112732905A/zh
Application granted granted Critical
Publication of CN112732905B publication Critical patent/CN112732905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下:S1.提取交通事故数据,构建交通事故知识图谱G;S2.训练GraphSAGE模型,对交通事故知识图谱G中的事故实体进行表示学习,然后进行聚类分析,移除偶发的交通事故;S3.训练多分类任务的全连接深度神经网络,利用事故的向量表示,对其对应的标签进行预测;S4.利用向量表示空间的欧式距离,生成特定标签事故主要成因表。本发明基于交通事故知识图谱,使用GraphSAGE模型对交通事件进行表示学习,随后进行聚类分析,并删除交通事故随机噪声。然后使用多分类任务的全连接深度神经网络,利用事故的向量表示对事故标签进行预测。同时生成特定标签事故主要成因表,用以支持下游的事故预警以及防控等具体工作。

Description

一种基于知识图谱的交通事故分析与防控方法及系统
技术领域
本发明属于智能交通工程领域,涉及一种基于知识图谱的交通事故分析与防控方法及系统。
背景技术
随着城市人口与城市人均汽车保有量的增长,城市交通事故也变得日益频发。交通事故包含了多种环境特征(天气状态,能见度,路口的车道数,事故发生的时段等)。传统的交通事故分析方法往往基于报表方式,试图对交通事故进行统计学上的分析。很难从深层次的交通事故特征中挖掘事故成因(比如,针对给定的天气状况,能见度,车流量等信息,在某个具备某些特征的路口,有可能发生哪些类型的事故,而其中最可能的是哪几类)。
近年来,随着非结构化数据的海量涌现,知识图谱技术经历了高速发展。该技术在融合多源异构数据与挖掘数据隐含关联方面取得了长足进步。因此知识图谱技术在交通事故分析领域也有进一步应用的空间与价值。
发明内容
针对上述背景技术介绍中存在的问题,本发明的目的在于提供了一种有更好预测与分析能力并对交通事故防控方面的应用做出贡献的基于知识图谱的交通事故分析与防控方法及系统,基于交通事故知识图谱,首先使对交通事件进行表示学习,。然后使用多分类任务的全连接深度神经网络,利用事故的向量表示对事故标签进行预测。同时生成特定标签事故主要成因表,用以支持下游的事故预警以及防控等具体工作。
本发明采用的技术方案是:
一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下:
S1.提取交通事故数据,构建交通事故知识图谱G;
S2.对交通事故知识图谱G中的实体进行表示学习,生成实体的向量表示;
S3.基于已训练的多分类任务的全连接深度神经网络,利用交通事故的向量表示,对其对应的交通事故标签进行预测;
S4.利用向量表示空间,生成交通事故标签事故主要成因,所述事故主要成因为交通事故知识图谱G中与交通事故标签相关的实体。
进一步,步骤S2还包括步骤:利用事故的向量表示进行聚类分析,移除偶发的交通事故。
进一步,步骤S1中的交通事故知识图谱G的构建步骤包括:
S1.1提取交通事故的原始多维特征,至少包括交通事故环境特征和交通事故事件特征;
S1.2将交通事故的原始多维特征转化为数值特征,获得交通事故环境特征X1、X2、…、Xk、…、XK,Xk表示第k个环境特征,K表示环境特征个数,x_X1表示环境特征X1的值,N_X1表示环境特征X1的取值个数,交通事故事件特征:Y1、Y2、…、Ym、…、YM,Ym表示第m个事件特征,M表示事件特征个数,y_Y1表示事件特征Y1的值,N_Y1表示环境特征Y1的取值个数;
S1.3根据交通事故事件特征,提取交通事故标签Y;
交通事故标签Y=g(Y1,Y2,…,Ym,…,YM),g()表示事故标签提取函数;
S1.4提取实例实体,关系,概念实体,生成交通事故知识图谱G,其中实例实体指交通事故特征对应的某一具体物体、事件;概念实体指交通事故特征对应的具体值;关系指实例实体和概念实体的关系以及实例实体和实例实体的关系。
进一步,步骤S2的具体步骤包括:
S2.1.训练GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习,生成实体的向量表示;
S2.2.利用K-Means算法对交通事故知识图谱G中的交通事故实体进行聚类;
S2.3.将与聚类中心距离超出阈值的交通事故实体认为是偶发的交通事故,并且从知识图谱G中移除。
进一步,步骤S2.1中表示学习的具体过程如下:
记交通事故知识图谱G中所有的实体的集合为V,且对于每一个实体
Figure BDA00028220210400000311
,假设其已经具备初始的向量表示
Figure BDA0002822021040000031
那么GraphSAGE输出结果zv的过程如下:
Figure BDA0002822021040000032
Figure BDA0002822021040000033
Figure BDA0002822021040000034
Figure BDA0002822021040000035
Figure BDA0002822021040000036
Figure BDA0002822021040000037
Figure BDA0002822021040000038
其中,公式(1)(2)(3)为GraphSAGE第1层神经网络的计算过程,而公式(4)(5)(6)为GraphSAGE第2层神经网络的计算过程;N(v)是一个集合,表示的是实体v所邻接的所有实体;AGG1和AGG2是第1层与第2层的聚合函数;公式(1)表示:对一个实体v的每一个邻居u,取这些邻居的向量表示
Figure BDA0002822021040000039
然后对它们做平均池化操作,得到
Figure BDA0002822021040000041
此外,
Figure BDA0002822021040000042
表示的是向量
Figure BDA0002822021040000043
的模长,CONCAT表示向量的拼接操作;最后W1和W2分别为每一层的权重矩阵,而函数σ(·)是逻辑函数;
训练GraphSAGE模型时的损失函数:
Figure BDA0002822021040000044
Figure BDA0002822021040000045
其中,J(v)表示的是对实体v的损失函数,T表示的是矩阵转置操作,u表示的是从v的邻居中随机采样得到得一个实体,x表示的是距离v的hop距离hop>hop_limit的被随机获取的实体,hop距离为两个实体之间经过的关系最小个数,Q为负例样本采样次数。
进一步,步骤S2.2中K-Means算法的聚类过程如下:
基于预先给定的超参数k,K-Means算法的目的是生成一系列的簇C={C1,C2,…,Ck},使得每一个交通实体a属于其中的一个簇;K-Means算法优化目标是最小化平方差E:
Figure BDA0002822021040000046
Figure BDA0002822021040000047
其中dist(·)为欧式空间的距离,而μi代表的是簇Ci的中心;
为了获得每一个簇,K-Means算法的运算步骤如下:
步骤(0):指定簇的个数k,指定最大迭代次数N,将所有的交通事故向量表示a的集合记为样本A,当前迭代次数M设为0;
步骤(1):从A中随机选择k个样本作为初始的k个簇的中心{μ1,μ2,...,μk};
步骤(2):M加1,如果M>N则进入步骤(3);如果M≤N,那么:
步骤(2.1):将簇划分C初始化为
Figure BDA0002822021040000052
步骤(2.2):对每一个交通事故样本ai,计算其和各个簇中心{μ1,μ2,...,μk}的距离dij=dist(ai,μj),然后将ai归入最小的dij所对应的类别λi,然后更新
Figure BDA0002822021040000053
步骤(2.3):对于j=1,2,…,k,利用簇Cj包含的样本点重新计算其中心
Figure BDA0002822021040000051
步骤(2.4):如果每个簇的中心都没有发生变化,则进入步骤(3);否则进入步骤(2);
步骤(3):输出簇分类结果C={C1,C2,C3,…,Ck}。
进一步,步骤S2.3的过程如下:
在K-Means算法计算完毕以后,获得了k个簇,预设距离阈值超参数t,那么初始化集合N;
针对每一个簇Ci
针对Ci中的每一个交通事件向量表示a,计算其与簇中心μi的距离d。如果d>t,则更新N:N=N∪{a}
将集合N中包含的向量所对应的交通事故实体从交通事故知识图谱G中移除;
假设在移除之前,所有的交通事故向量表示的集合为A;在移除之后,将剩余的交通事故向量表示的集合记为Aclean
Aclean=A-N。
进一步,步骤S3中所述多分类任务的全连接深度神经网络的训练过程的具体步骤包括:
利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型;所述深度全连接神经网络模型包括1个输入层,至少1个隐藏层,1个输出层;模型输出结果是一个R维度的概率向量y,向量y中的每一个维度i的取值yi表示了一个交通事故的向量表示a对应被分到第i类标签的概率;
训练该模型用到多分类交叉熵损失函数:
Figure BDA0002822021040000061
其中ti=1,如果训练样本对应标签类别i,反之ti=0。
进一步,步骤S4的具体过程包括:
在对知识图谱G中实体的表示学习后,将每一个实体映射到欧式空间Rd,用于推测某一类标签的交通事故可能主要成因;具体的步骤如下:
步骤(4.1):在Rd空间中搜寻所有标签为b的交通事故,共找到k个,分别为a1,a2,..,ak
步骤(4.2):对于Rd空间中的每一个概念实体e,计算标签b到实体e的距离Db,e
Figure BDA0002822021040000062
其中Db,e指的是标签b对应的交通事故到实体e的距离的平均值;
步骤(4.3):选取Db,e最小的若干个概念实体,并将这若干个概念实体认为是标签b对应的事故的事故主要成因。
本发明还提供了一种来实现上述方法的基于知识图谱的交通事故分析与防控系统,包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块,模块与模块之间电学连接,其中,
交通事故知识图谱G构建模块用于采集交通事故环境数据,根据交通事故环境数据生成交通事故知识图谱G,输出交通事故知识图谱G;
交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G,根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示,输出交通事故知识图谱G中所有实体的向量表示;
交通事故标签预测模块采集交通事故实体的向量表示,根据交通事故实体的向量表示生成对应的交通事故标签,输出交通事故标签;
交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签,分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。
进一步,还包括交通事故去噪模块,所述交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示,对交通事故实体进行聚类,将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除,输出交通事故知识图谱G中所有实体的向量表示。
本发明与现有技术相比,其显著优点包括:核心是使用知识图谱技术,将交通事故多种不同类型的特征进行耦合与建模。不同于传统的分析方法,孤立地直接利用事故的特征进行分类或者是预测,本发明将交通事故特征与路网基础设施特征以及路网的拓扑结构联合考虑,基于多分类深度神经网络以及特定标签事故成因分析,将获得比传统方法更好的预测与分析能力,并对交通事故防控方面的应用做出贡献。
附图说明
图1是本发明的总体流程图。
图2是本发明的交通事故知识图谱G的示意图。
图3是本发明针对事故实体的表示学习,聚类以及去噪的流程图。
图4是GraphSAGE模型第k-1层与第k层的计算示意图。
图5是本发明的多分类任务的全连接深度神经网络结构示意图。
图6是本发明的具体应用示例图。
图7是本发明现有的交通事故知识图谱G中添加新的交通事故实体,并利用训练好的GraphSAGE模型计算其向量表示的示意图。
图8是本发明在图2所示的交通事故知识图谱G中加入新的事故实体后的交通事故知识图谱G的示意图。
图9是本发明系统第一种实施例的结构图。
图10是本发明交通事故标签预测模块生成结构图。
图11是本发明系统第二种实施例的结构图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
实施例一
参见图1,本实施例提供了一种基于知识图谱的交通事故分析与防控方法,主要步骤如下:
S1.提取交通事故数据,构建交通事故知识图谱G;
S2.对交通事故知识图谱G中的事故实体进行表示学习,生成实体的向量表示;
S3.基于已训练的多分类任务的全连接深度神经网络,利用交通事故的向量表示,对其对应的交通事故标签进行预测;
S4.利用向量表示空间,生成交通事故标签事故主要成因,事故主要成因为交通事故知识图谱G中与交通事故标签相关的实体。
具体如下:
S1.交通事故知识图谱G的构建包括:
S1.1提取交通事故的原始多维特征,至少包括交通事故环境特征和交通事故事件特征,交通事故环境特征为导致交通事故发生的原因、交通事故发生所在环境等相关特征,交通事故事件特征为交通事故发生时这一事件本身的特征。
交通事故环境特征可以以下一种或多种:事故基础特征、交通状态特征、路口设施特征,事故基础特征可以以下一种或多种:天气、能见度、时段、路面状况、照明、星期,交通状态特征可以以下一种或多种:车速、拥堵率、流量,路口设施特征可以以下一种或多种:路口规模、隔离带、信控类型。
交通事故事件特征可以以下一种或多种:事故类型、撞击类型、事故损失。
其中交通事故的原始多维特征,如表1所示。
表1.交通事故的原始多维特征(示例)
Figure BDA0002822021040000091
Figure BDA0002822021040000101
S1.2将交通事故的原始多维特征转化为数值特征;
分类数据,用不同数值表示不同分类数据,如天气、路面状况,天气特征:晴=1,雨=2,阴=3,雪=4;
连续数据,对连续数据进行等级划分,用不同数值表示不同等级数据,如能见度、时段,能见度特征:等级划分为极低(0到50米)、低(50米到100米)、中等(100米到150米)、高(150米到200米),极低=1,低=2,中等=3,高=4;
获得交通事故环境特征X1、X2、…、Xk、…、XK,Xk表示第k个环境特征,K表示环境特征个数,x_X1表示环境特征X1的值,N_X1表示环境特征X1的取值个数,事件特征:Y1、Y2、…、Ym、…、YM,Ym表示第m个事件特征,M表示事件特征个数,y_Y1表示事件特征Y1的值,N_Y1表示环境特征Y1的取值个数;
如:X1为天气特征,N_X1为4,x_X1为{晴=1,雨=2,阴=3,雪=4}之一;X2为路面状况,N_X2为2,x_X2为{路面完好=1,路面施工=2}之一。
交通事故包含的特征主要包含四大类,分别是事故基础特征(事故发生的时段,能见度,道路施工情况等)、交通状态特征(事故发生时的交通状态信息)、路口设施特征(事故所在路口的基础设施状况)、事故结果特征(事故造成的结果与影响)。每一大类的特征由一些具体的特征构成,且这些特征的取值都是离散化的。
S1.3根据事件特征,提取交通事故标签;
交通事故标签,Y=g(Y1,Y2,…,Ym,…,YM),g()表示事故标签提取函数,
提取1:一个标签对应一组事件特征,用不同数值表示不同标签,如事故标签1对应一组事件特征(事故类型:机动车–机动车,撞击类型:正面碰撞,事故损失:轻微),事故标签1=1,事故标签2=2;
提取2:一个标签对应一组事件特征,统计指定时间段内该标签发生的概率,对概率进行等级划分,用不同数值表示不同概率等级,如:一年内,事故标签1发生概率为0.001(概率等级极低=1),事故标签2发生概率为0.056(概率等级中等=3)。
对于事故结果特征(事故类型、撞击类型、事故损失),将进行进一步的特征工程。具体来说,对于这三项特征进行合理的排列组合,用单一的一项标签来表示事故的结果。如表2所示(假设一共有R种合理的排列组合结果):
表2.利用事故类型,撞击类型以及事故损失来生成事故标签
Figure BDA0002822021040000121
S1.4提取实例实体,关系,概念实体,生成交通事故知识图谱G;
1)提取实例实体,实例实体指:交通事故特征对应的某一具体物体、事件(往往由地理信息数据平台直接获取);
如:交通事故、路口、路段、建筑物(学校、地铁、商场);
2)提取概念实体,概念实体指:交通事故特征对应的具体值为一个概念实体(往往通过人工构建的方式获取);
如:阴、星期一;
3)提取关系,关系指:实例实体和概念实体的关系,实例实体和实例实体的关系;
如:实例实体:交通事故1,概念实体:阴,x_X1=3,关系:天气特征,X1,表示交通事故1天气特征阴;
实例实体1:路口1,实例实体2:路口2,关系:相邻,表示路口1相邻路口2;
实例实体1:路口1,实例实体2:事故1,关系:发生,表示路口1发生交通事故1。
一个交通事故知识图谱G举例:
以指定交通区域DS内指定时间段T内的事故知识图谱G,交通区域DS内有2个路口:路口1、路口2,时间段T内路口1发生3起交通事故:事故1、事故2、事故3,路口1路口规模特征为中路口,路口1信控类型特征为信控路口,路口2路口规模为大路口,路口2相邻路口1,事故1时段特征为晚高峰,事故1事故标签特征为标签3,事故3时段特征为晚高峰,事故3事故标签特征为标签10。
事故知识图谱G中,实例实体:路口1、路口2、事故1、事故2、事故3,概念实体:中路口、大路口、信控路口、晚高峰、标签3、标签10,关系:相邻、发生、路口规模、信控类型、时段、事故标签。
在完成长时间的交通事故数据提取(比如一个城市半年或者是一年的交通事故),便可生成交通事故知识图谱G,如图2所示。
图2的知识图谱包含了2个路口,以及3起事故。该知识图谱包含了2种类型的实体,分别是实例实体和概念实体。不同的实例实体由不同的ID区分(比如路口1、路口2,事故1、事故2、事故3)。而对于概念实体,无需附上ID,因为其在知识图谱中最多只出现一次(比如“信控路口”实体在图谱中只有1个,尽管路口1和路口2都是信控路口;同理,事故1和事故3对应的拥堵率都为“中拥堵率”,那么图谱中也只有1个“中拥堵率”实体)。应用这样的知识图谱表示方法,就可以将复数的交通事故与单个路口关联在一起(比如事故1和事故3都发生在路口1上)。
需要说明的是,每一个事故对应的标签,并不会放在知识图谱G中。该标签信息会在后续的S3与S4的步骤中再用到。也就是说,G中存放的,主要是交通事故发生的环境以及路网的基础硬件信息。
S2.针对交通事故知识图谱G中的实体进行表示学习,生成实体的向量表示。
可以采用TransE模型、GraphSAGE模型及其他表示学习的方法对交通事故知识图谱G中的实体进行表示学习。
其中TransE模型是知识图谱进行表示学习的经典模型,其核心思想是,将知识图谱中的实体的关系都投影到d维的向量空间Rd,并且将三元组(h,r,t)近似为向量空间中的运算:
h+r≈t
进一步地,TransE模型定义了得分函数(score function),也就是向量运算结果的模长。得分函数fr(h,t)在(h,r,t)这个三元组为真(亦即在知识图谱中存在时),尽可能大:
fr(h,t)=-|h+t-r|
利用TransE模型进行知识表示学习,需要借助神经网络。最简单的单层前馈神经网络便可以用于该工作。具体来说,首先需要对知识图谱中的三元组的向量表示初始化与归一化。接下来,在神经网络的每一次迭代中,进行负采样,并且最小化损失函数L来进行模型参数的更新。负采样所指的是,随机替换一个三元组(h,r,t)中的头部实体h,或者尾部实体t,得到(h’,r,t)或者(h,r,t’)或者(h’,r,t’)。损失函数L定义为:
Figure BDA0002822021040000151
其中G代表正样本集也就是交通事故知识图谱本身,而代表G-负样本集,也就是每一个负样本(不存在于G中的样本)所构成的集合。而γ是预先定义的超参数,控制表示学习结果的精度。
交通事故的发生可能有一定的偶然性,也就是噪声数据的存在。举例来说,假设对于某一路口,数据可能展现出一种趋势,那就只在早晚高峰,以及能见度较差,且路面处于施工时,才发生事故。但是可能观察到发生于该路口的极少量事故,是在平峰时段,能见度最好,且路面完好的状况下发生的。这些极少量事故数据,就是所谓的噪声数据。由于本发明的目的是对不同标签的事故的成因进行分析,因此进行去噪工作有助于提升分析准确率。利用事故的向量表示进行聚类分析,聚类范围之外的交通事故实体认为是偶发的交通事故,从交通事故知识图谱G中移除。聚类分析方法可以采用K-Means算法、k-medoids算法、CLARA(Clustering LARge Application)算法、FCM算法等。
一个实施例中,这项工作主要包含三道工序,如图3所示。
S2.1.训练GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习
交通事故知识图谱G(如图2所示)中的所有实体,均以非结构化的方式被表示(图中的节点),因而无法直接被应用于传统的机器学习模型(比如回归模型,分类模型等)。本发明对G中的实体进行表示学习,从而让实体被表示为结构化数据(比如固定维度的一维向量)。
本发明通过GraphSAGE模型,对G中的所有实体(节点)进行表示学习。GraphSAGE的核心是多层神经网络,而每一层有一个聚合函数(Aggregator)。该模型的基本思想是,图谱中每一个实体的向量表示,应该和其附近的实体的向量表示有关。本发明使用2层神经网络的GraphSAGE模型,表示学习的向量维度length,设置为50,其他数值如30、40也可以。
交通事故知识图谱G实际上是一个有向图(参考图2中的关系上的箭头),而GraphSAGE的输入往往是一个无向图,因此需要对G中的所有关系“无向化”。现在定义,当且仅当两个实体之间的hop距离为1时,称两个实体互为邻居。这样一来,对于GraphSAGE模型来说,交通事故知识图谱G中的实体之间的邻居关系其实是对称的。(对于图2来说,路口1是事故1的邻居,而事故1也是路口1的邻居;事故1是“中能见度”的邻居,而“中能见度”也是事故1的邻居)。
此外,GraphSAGE会为G中的每一个实体都学习其向量化表示。也就是说,每一个实例实体(图2中的路口1、路口2、事故1、事故2、事故3)以及每一个概念实体(图2中的“晴”实体、“中车速”实体、“星期五”实体等等)都会获得向量化表示。虽然之后利用多分类深度神经网络的时候,只会用到“事故”实体的向量表示,但是GraphSAGE是一种归纳式(inductive)的图学习模型,任何实体的向量表示,都和其相邻的实体向量表示有关(比如图2中的“路口1”的向量表示,是和“事故1”的向量表示有关的)。
记交通事故知识图谱G中所有的实体的集合为V,且对于每一个实体
Figure BDA0002822021040000164
假设其已经具备初始的向量表示
Figure BDA0002822021040000161
那么GraphSAGE输出结果zv(通过一次完整的正向传播)的过程如下:
Figure BDA0002822021040000162
Figure BDA0002822021040000163
Figure BDA0002822021040000171
Figure BDA0002822021040000172
Figure BDA0002822021040000173
Figure BDA0002822021040000174
Figure BDA0002822021040000175
其中,公式(1)(2)(3)为GraphSAGE第1层神经网络的计算过程,而公式(4)(5)(6)为GraphSAGE第2层神经网络的计算过程。N(v)是一个集合,表示的是实体v所邻接的所有实体。AGG1和AGG2是第1层与第2层的聚合函数,这两个聚合函数都是平均池化(mean pooling)函数。也就是说,公式(1)表示:对一个实体v的每一个邻居u,取这些邻居的向量表示
Figure BDA0002822021040000176
然后对它们做平均池化操作,得到
Figure BDA0002822021040000177
此外,
Figure BDA0002822021040000178
表示的是向量
Figure BDA0002822021040000179
的模长,CONCAT表示向量的拼接操作(具体来说,1个维度为(1,50)的向量和1个维度为(1,50)的向量拼接为1个维度为(2,50)的向量)。最后W1和W2分别为每一层的权重矩阵,而函数σ(·)是逻辑函数(sigmoidfunction)。训练GraphSAGE模型,实际上训练的就是权重矩阵W1和W2
图4所展示的是一个GraphSAGE模型相邻两层(k-1层与k层)之间的关系示意图。以图4中右侧的示例知识图谱G为例(包含了7个实体与6个关系)。对于中心实体v来说,与其相邻的4个实体构成了N(v)。那么在计算
Figure BDA00028220210400001710
时,除了用到
Figure BDA00028220210400001711
以外,还会用到来自N(v)中的每个实体u的在k-1层的向量表示,亦即4个
Figure BDA00028220210400001712
为了训练GraphSAGE中的权重矩阵W1与W2,需要定义损失函数:
Figure BDA0002822021040000181
Figure BDA0002822021040000182
其中,J(v)表示的是对实体v的损失函数,T表示的是矩阵转置操作,u表示的是从v的邻居中随机采样得到得一个实体,x表示的是距离v的hop距离hop>hop_limit的被随机获取的实体(也称x为负例样本),hop距离为两个实体之间经过的关系最小个数,Q为负例样本采样次数。在本发明中,Q为5,而定义负例样本用到的hop距离限制hop_limit为5。最后,J(G)为整个知识图谱G的损失函数,在每一次进行GraphSAGE正向传播(亦即公式(1)到公式(7))后计算J(G),并利用梯度下降法更新权重矩阵W1与W2。该过程将迭代DN次,并最终完成权重矩阵的训练。
需要指出的是,如上所述,在进行GraphSAGE模型训练之前,已经假定每一个实体v具有一个对应的向量表示
Figure BDA0002822021040000183
(在本发明中,这是一个50维的向量,亦即(x1,x2,…,x50))。这是需要通过随机化的方式生成的,一般会采取服从正态分布的50维随机向量,来初始化每个实体的向量表示。
S2.2.利用K-Means算法对G中的事故实体进行聚类
交通事故知识图谱G中的所有实体(包括交通事故实体),都通过GraphSAGE模型,学习了一个50维度的向量表示(x1,x2,…,x50)。现在,使用传统的机器学习聚类算法K-Means对所有的交通事故实体,在50维的向量空间中进行聚类分析。
基于预先给定的超参数k(簇的个数),K-Means算法的目的是生成一系列的簇C={C1,C2,…,Ck},使得每一个交通实体a属于其中的一个簇。K-Means算法优化目标是最小化平方差E:
Figure BDA0002822021040000191
Figure BDA0002822021040000192
其中dist(·)为欧式空间的距离,而μi代表的是簇Ci的中心。为了获得每一个簇,K-Means算法的运算步骤如下:
步骤(0):指定簇的个数k(在本发明中设定为100),指定最大迭代次数N(本发明指定500),将所有的交通事故向量表示a的集合记为样本A,当前迭代次数M设为0;
步骤(1):从A中随机选择k个样本作为初始的k个簇的中心{μ1,μ2,...,μk};
步骤(2):M加1,如果M>N则进入步骤(3);如果M≤N,那么:
步骤(2.1):将簇划分C初始化为
Figure BDA0002822021040000193
步骤(2.2):对每一个交通事故样本ai,计算其和各个簇中心{μ1,μ2,...,μk}的距离dij=dist(ai,μj),然后将ai归入最小的dij所对应的类别λi,然后更新
Figure BDA0002822021040000195
步骤(2.3):对于j=1,2,…,k,利用簇Cj包含的样本点重新计算其中心
Figure BDA0002822021040000194
步骤(2.4):如果每个簇的中心都没有发生变化,则进入步骤(3);否则进入步骤(2);
步骤(3):输出簇分类结果C={C1,C2,C3,…,Ck}。
S2.3.针对交通事故数据的去噪
在K-Means算法计算完毕以后,获得了k个簇(本发明中为100),预设距离超参数t(本发明为1.5)。那么初始化集合N。针对每一个簇Ci
针对Ci中的每一个交通事件向量表示a,计算其与簇中心μi的距离d。如果d>t,则更新N:N=N∪{a}
至此,集合N中便包含了与其对应的聚类中心的距离超出距离阈值的一些交通事故实体向量。将这些向量所对应的交通事故实体认为是噪声,即偶发的交通事故,并且从交通事故知识图谱G中移除(包括移除和这些交通事故实体直接相连的所有关系)。假设在去噪之前,所有的交通事故向量表示的集合为A;在去噪之后,将剩余的交通事故向量表示的集合记为Aclean,也就是说:
Aclean=A-N。
S3.训练多分类任务的深度神经网络利用事故的向量表示对事故的标签进行预测;
一个实施例中,聚类分析方法采用k-medoids算法,每一个实体v具有一个对应的向量表示hv,k-medoids算法步骤:
1、任意选取k个点作为medoids;
2、按照与medoids最近的原则,将剩余点分配到当前最佳的medoids代表的类中;
3、在每一类中,计算每个成员点对应的准则函数,选取准则函数最小时对应的点作为新的medoids,其中准则函数是:当前medoids代表的类中所有其他点到该medoids的距离之和;
4、重复2-3的过程,直到所有的medoids点不再发生变化,或已达到设定的最大迭代次数;
5、获得k个聚类中心。
S3.训练多分类任务的全连接深度神经网络,利用事故的向量表示,对其对应的标签进行预测。
利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型(结构如图5所示)。该模型包括1个输入层,至少1个隐藏层,1个输出层。这里采用模型结构由3个隐藏层构成,每1个隐藏层的神经元数量分别为32,16,8(神经元数量可以依据隐藏层个数、输入层接收的输入向量维度进行设置)。前3个激活函数为ReLU,而最后1个激活函数为Softmax。模型输入为知识图谱G中,每个交通事故实体的向量表示以及对应的交通事故标签,模型输出结果是一个R维度的概率向量y(其中R对应于表2中交通事故的标签数量)。向量y中的每一个维度i的取值yi表示了一个交通事故的向量表示a对应被分到第i类标签的概率。
在该神经网络模型中,权重矩阵为W1,W2,W3,W4,对应的偏置为b1,b2,b3,b4为需要训练而获得的。权重矩阵需要通过学习得到,而模型输入为x0,输入为y。
W1x0+b1=h1 (12)
x1=ReLU(h1) (13)
W2x1+b2=h2 (14)
x2=ReLU(h2) (15)
W3x2+b3=h3 (16)
x3=ReLU(h3) (17)
W4x3+b3=h4 (18)
y=Softmax(h4) (19)
训练该模型用到多分类交叉熵损失函数:
Figure BDA0002822021040000221
其中ti=1,如果训练样本对应标签类别i,反之ti=0。
多分类任务的全连接深度神经网络模型训练完成后,输入特定的交通事故实体的向量表示(与特定知识图谱G、特定交通事故环境特征相对应),可以输出该交通事故的向量表示对应每一类交通事故标签的概率,概率靠前的标签可以作为该特定的交通事故标签。
S4.利用向量表示空间,生成特定事故标签主要成因表。
在对交通事故知识图谱G中实体的表示学习后,将每一个实体映射到欧式空间Rd(比如在本专利的例子中,d=50)。那么Rd其实已经包含了关键信息,用于推测某一类标签(比如标签为b)的交通事故可能主要成因。具体的步骤是这样的:
步骤(4.1):在Rd空间中搜寻所有标签为b的事故(已经被表示成向量了),共找到k个,分别为a1,a2,..,ak
步骤(4.2):对于Rd空间中的每一个概念实体e(比如“晴”,“星期五”,“高车流量”等,且e同样被表示成向量了),计算标签b到实体e的距离Db,e
Figure BDA0002822021040000222
也就是说Db,e指的是标签b对应的事故到实体e的距离的平均值。这里也可以采用马氏距离、皮尔逊相关系数等方法计算标签b到实体e的距离。
步骤(4.3):接下来选取Db,e最小的三个概念实体,并将它们认为是标签b对应的事故的主要的产生原因。这样考虑的原因,是当两个向量之间的距离更小时,说明它们有更高的相似性或者说相关性。
这样便可以针对每一种标签的事故,分析其最有可能的成因,形成可供查阅的表格,并为后续的工作(事故预防,预警)提供技术支持。比如表3所展示的就是一种可能特定事故主要成因表。
表3.特定标签事故主要成因表(示例)
事故标签 Top 1事故成因 Top 2事故成因 Top 3事故成因
标签1 低能见度 路面施工
标签2 高流量 星期五 晚高峰
标签3 中车速 早高峰 中拥堵率
标签4 无路灯 高流量
标签R 路面施工 中能见度
具体应用例如下:
在完成GraphSAGE模型与多分类深度神经网络之后,便可以利用全新的交通数据,针对可能发生的交通事故类型进行分析,以及对应的预防。这具体包含3个步骤(如图6所示)。
具体来说,根据在某一个路口获取的全新的交通数据,比如某一时刻的实时数据(天气,车流,照明情况,时段等等),在交通知识图谱中生成一个新的“交通事故”实体vnew。以此作为一个新的特定交通事故,然后利用训练好的GraphSAGE模型,计算其对应的向量表示anew。计算anew的过程实际上就是将公式(1)至公式(7)执行一次。图7以比较直观的方式展示了这一过程。也就是说,每需要进行一次新的可能的事故分析,都需要在现有的交通事故知识图谱G中加入事故实体vnew,并做向量表示的计算。由于交通事故知识图谱G中的所有其他实体都已经有学习好的向量表示,那么新的事故实体vnew通过其在交通事故知识图谱G中的邻居以及邻居的邻居(因为GraphSAGE模型是2层的)的向量表示,来获取该实体的向量表示anew
图8更好地说明了将新数据利用到现有的交通事故知识图谱G的过程(在图2的基础之上)。假设在某一个时刻,路口2处于一系列的状态(晴天、低拥堵率、星期日、高车流量、早高峰等等),那么可以添加一个新的事故实体(事故4,亦即图7中的vnew)。加入该事故实体的意思,并不是说路口2已经发生了事故,而是为了计算,如果路口2在这种状态下发生事故,最有可能的事故标签是哪几种。对于图8而言,除了“事故4”实体,其余的每一个实体都有对应的向量表示(因为已经通过GraphSAGE训练得到)。那么“事故4”实体的向量表示,其实是依次执行公式(1)到公式(7),也就是经过一次完整的GraphSAGE模型的正向传播,依赖“事故4”周围实体的向量表示就可以得到。也就是说,利用Vnew可以获得anew(向量表示)。
在获得了anew之后,便利用训练好的多分类深度神经网络,进行正向传播运算得到对应结果y。需要强调的是,y预测的是该交通事故属于每一类标签的概率,那么可以取概率最高的top 3的标签,作为最有可能的事故标签类型然后查询表3,获取这些标签下的事故最有可能的成因,也可以通过计算事故标签类型和实体的距离寻找成因,并进行相应的预警或者是防范(比如,如果这些标签的事故对应的可能成因有“雨天”,“高流量”等因素,那么需要针对性地对路口进行限流或者是保证路面排水的顺利进行)。
实施例二
参照图9、图10,本实施例提供了一种实施例一所述的基于知识图谱的交通事故分析与防控方法的基于知识图谱的交通事故分析与防控系统,包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块,模块与模块之间电学连接,其中,
交通事故知识图谱G构建模块用于采集交通事故环境数据,根据交通事故环境数据生成交通事故知识图谱G,输出交通事故知识图谱G,所述交通事故环境数据可以以下一种或多种:事故基础特征、交通状态特征、路口设施特征,事故基础特征可以以下一种或多种:天气、能见度、时段、路面状况、照明、星期,交通状态特征可以以下一种或多种:车速、拥堵率、流量,路口设施特征可以以下一种或多种:路口规模、隔离带、信控类型;所述交通事故知识图谱G通过实例实体,关系,概念实体表示,实例实体指交通事故环境数据对应的某一具体物体、事件,概念实体指交通事环境数据对应的具体值;关系指实例实体和概念实体的关系以及实例实体和实例实体的关系;
交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G,根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示,输出交通事故知识图谱G中所有实体的向量表示,可以采用训练好的TransE模型、GraphSAGE模型或其他表示学习的算法模型;模型输入为正样本集、负样本集交通事故知识图谱G,以最小化实体与正样本距离,最大化实体与负样本距离为损失函数训练,达到训练目标后,输出实体的向量表示;
交通事故标签预测模块采集交通事故实体的向量表示,根据交通事故实体的向量表示生成对应的交通事故标签,输出交通事故标签,交通事故标签预测模块可以采用训练好的多分类任务的全连接深度神经网络;多分类任务的全连接深度神经网络包括1个输入层,至少1个隐藏层,1个输出层,模型输入为样本集知识图谱G中,每个交通事故实体的向量表示,模型输出结果是一个R维度的概率向量y,R为交通事故标签类别数,y值越高,属于该类交通事故标签的可能性越大;
交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签,分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。假设MA个交通事故实体向量表示,MB个概念实体向量表示,NA个交通事故标签,第Na个交通事故标签下有Ma个交通事故实体向量表示,计算Ma个交通事故实体向量表示和第Mb个概念实体向量表示的距离和D(Na,Mb),距离和越小,表示该概念实体对该类交通事故的影响越大。
实施例三
参照图11,本实施例提供了一种实施例一所述的基于知识图谱的交通事故分析与防控方法的基于知识图谱的交通事故分析与防控系统,包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故去噪模块,交通事故标签预测模块、交通事故成因分析模块,模块与模块之间电学连接,其中,
交通事故知识图谱G构建模块用于采集交通事故环境数据,根据交通事故环境数据生成交通事故知识图谱G,输出交通事故知识图谱G;
交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G,根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示,输出交通事故知识图谱G中所有实体的向量表示;
交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示,对交通事故实体进行聚类,将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除,输出交通事故知识图谱G中所有实体的向量表示;
交通事故标签预测模块采集交通事故实体的向量表示,根据交通事故实体的向量表示生成对应的交通事故标签,输出交通事故标签;
交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签,分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。
本实施例在实施例二的基础上增加了交通事故去噪模块,使得基于知识图谱的交通事故分析与防控系统更好的预测与分析能力。

Claims (11)

1.一种基于知识图谱的交通事故分析与防控方法,其具体步骤如下:
S1.提取交通事故数据,构建交通事故知识图谱G;
S2.对交通事故知识图谱G中的实体进行表示学习,生成实体的向量表示;
S3.基于已训练的多分类任务的全连接深度神经网络,利用交通事故的向量表示,对其对应的交通事故标签进行预测;
S4.利用向量表示空间,生成交通事故标签事故主要成因,所述事故主要成因为交通事故知识图谱G中与交通事故标签相关的实体。
2.根据权利要求1所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S2还包括步骤:利用事故的向量表示进行聚类分析,移除偶发的交通事故。
3.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S1中的交通事故知识图谱G的构建步骤包括:
S1.1提取交通事故的原始多维特征,至少包括交通事故环境特征和交通事故事件特征;
S1.2将交通事故的原始多维特征转化为数值特征,获得交通事故环境特征X1、X2、…、Xk、…、XK,Xk表示第k个环境特征,K表示环境特征个数,x_X1表示环境特征X1的值,N_X1表示环境特征X1的取值个数,交通事故事件特征:Y1、Y2、…、Ym、…、YM,Ym表示第m个事件特征,M表示事件特征个数,y_Y1表示事件特征Y1的值,N_Y1表示环境特征Y1的取值个数;
S1.3根据交通事故事件特征,提取交通事故标签Y;
交通事故标签Y=g(Y1,Y2,…,Ym,…,YM),g()表示事故标签提取函数;
S1.4提取实例实体,关系,概念实体,生成交通事故知识图谱G,其中实例实体指交通事故特征对应的某一具体物体、事件;概念实体指交通事故特征对应的具体值;关系指实例实体和概念实体的关系以及实例实体和实例实体的关系。
4.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S2的具体步骤包括:
S2.1.训练TransE模型或GraphSAGE模型对交通事故知识图谱G中的实体进行表示学习,生成实体的向量表示;
S2.2.利用K-Means算法或k-medoids算法对交通事故知识图谱G中的交通事故实体进行聚类;
S2.3.将与聚类中心距离超出距离阈值的交通事故实体认为是偶发的交通事故,并且从交通事故知识图谱G中移除。
5.根据权利要求4所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S2.1中采用GraphSAGE模型进行表示学习的具体过程如下:
记交通事故知识图谱G中所有的实体的集合为V,且对于每一个实体v∈V,假设其已经具备初始的向量表示
Figure RE-FDA0002980109310000021
那么GraphSAGE输出结果zv的过程如下:
Figure RE-FDA0002980109310000022
Figure RE-FDA0002980109310000023
Figure RE-FDA0002980109310000024
Figure RE-FDA0002980109310000025
Figure RE-FDA0002980109310000026
Figure RE-FDA0002980109310000027
Figure RE-FDA0002980109310000028
其中,公式(1)(2)(3)为GraphSAGE第1层神经网络的计算过程,而公式(4)(5)(6)为GraphSAGE第2层神经网络的计算过程;N(v)是一个集合,表示的是实体v所邻接的所有实体;AGG1和AGG2是第1层与第2层的聚合函数;公式(1)表示:对一个实体v的每一个邻居u,取这些邻居的向量表示
Figure RE-FDA0002980109310000031
然后对它们做平均池化操作,得到
Figure RE-FDA0002980109310000032
此外,
Figure RE-FDA0002980109310000033
表示的是向量
Figure RE-FDA0002980109310000034
的模长,CONCAT表示向量的拼接操作;最后W1和W2分别为每一层的权重矩阵,而函数σ(·)是逻辑函数;
训练GraphSAGE模型时的损失函数:
Figure RE-FDA0002980109310000035
Figure RE-FDA0002980109310000036
其中,J(v)表示的是对实体v的损失函数,
Figure RE-FDA0002980109310000038
表示的是矩阵转置操作,u表示的是从v的邻居中随机采样得到得一个实体,x表示的是距离v的hop距离hop>hop_limit的被随机获取的实体,hop距离为两个实体之间经过的关系最小个数,Q为负例样本采样次数。
6.根据权利要求4所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S2.2中采用K-Means算法的聚类过程如下:
基于预先给定的超参数k,K-Means算法的目的是生成一系列的簇C={C1,C2,...,Ck},使得每一个交通实体a属于其中的一个簇;K-Means算法优化目标是最小化平方差E:
Figure RE-FDA0002980109310000037
Figure RE-FDA0002980109310000041
其中dist(·)为欧式空间的距离,而μi代表的是簇Ci的中心;
为了获得每一个簇,K-Means算法的运算步骤如下:
步骤(0):指定簇的个数k,指定最大迭代次数N,将所有的交通事故向量表示a的集合记为样本A,当前迭代次数M设为0;
步骤(1):从A中随机选择k个样本作为初始的k个簇的中心{μ1,μ2,...,μk};
步骤(2):M加1,如果M>N则进入步骤(3);如果M≤N,那么:
步骤(2.1):将簇划分C初始化为
Figure RE-FDA0002980109310000042
步骤(2.2):对每一个交通事故样本ai,计算其和各个簇中心{μ1,μ2,...,μk}的距离dij=dist(ai,μj),然后将ai归入最小的dij所对应的类别λi,然后更新
Figure RE-FDA0002980109310000043
步骤(2.3):对于j=1,2,...,k,利用簇Cj包含的样本点重新计算其中心
Figure RE-FDA0002980109310000044
步骤(2.4):如果每个簇的中心都没有发生变化,则进入步骤(3);否则进入步骤(2);
步骤(3):输出簇分类结果C={C1,C2,C3,...,Ck}。
7.根据权利要求6所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S2.3的过程如下:
在K-Means算法计算完毕以后,获得了k个簇,预设距离阈值超参数t,那么初始化集合N;
针对每一个簇Ci
针对Ci中的每一个交通事件向量表示a,计算其与簇中心μi的距离d。如果d>t,则更新N:N=N∪{a}
将集合N中包含的向量所对应的交通事故实体从交通事故知识图谱G中移除;
假设在移除之前,所有的交通事故向量表示的集合为A;在移除之后,将剩余的交通事故向量表示的集合记为Aclean
Aclean=A-N。
8.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S3中所述多分类任务的全连接深度神经网络的训练过程的具体步骤包括:
利用知识图谱G中样本训练一个用于多分类任务的深度全连接神经网络模型;所述深度全连接神经网络模型包括1个输入层,至少1个隐藏层,1个输出层;模型输出结果是一个R维度的概率向量y,向量y中的每一个维度i的取值yi表示了一个交通事故的向量表示a对应被分到第i类标签的概率;
训练该模型用到多分类交叉熵损失函数:
Figure RE-FDA0002980109310000051
其中ti=1,如果训练样本对应标签类别i,反之ti=0。
9.根据权利要求1或2所述的一种基于知识图谱的交通事故分析与防控方法,其特征在于:步骤S4的具体过程包括:
在对知识图谱G中实体的表示学习后,将每一个实体映射到欧式空间Rd,用于推测某一类事故标签的交通事故可能主要成因;具体的步骤如下:
步骤(4.1):在Rd空间中搜寻所有标签为b的交通事故,共找到k个,分别为a1,a2,..,ak
步骤(4.2):对于Rd空间中的每一个概念实体e,计算标签b到实体e的距离Db,e
Figure RE-FDA0002980109310000061
其中Db,e指的是标签b对应的交通事故到实体e的距离的平均值;
步骤(4.3):选取Db,e最小的若干个概念实体,并将这若干个概念实体认为是标签b对应的事故的事故主要成因。
10.一种基于知识图谱的交通事故分析与防控系统,包括交通事故知识图谱G构建模块、交通事故知识图谱G实体向量生成模块、交通事故标签预测模块、交通事故成因分析模块,模块与模块之间电学连接,其中,
交通事故知识图谱G构建模块用于采集交通事故环境数据,根据交通事故环境数据生成交通事故知识图谱G,输出交通事故知识图谱G;
交通事故知识图谱G实体向量生成模块采集根据交通事故知识图谱G,根据交通事故知识图谱G生成交通事故知识图谱G中所有实体的向量表示,输出交通事故知识图谱G中所有实体的向量表示;
交通事故标签预测模块采集交通事故实体的向量表示,根据交通事故实体的向量表示生成对应的交通事故标签,输出交通事故标签;
交通事故成因分析模块采集交通事故实体的向量表示、概念实体的向量表示、交通事故标签,分析每类交通事故标签下的交通事故实体与所有概念实体的距离关系。
11.根据权利要求10所述的一种基于知识图谱的交通事故分析与防控系统,其特征在于:还包括交通事故去噪模块,所述交通事故去噪模块采集交通事故知识图谱G中所有实体的向量表示,对交通事故实体进行聚类,将与聚类中心距离超出距离阈值的交通事故实体从交通事故知识图谱G移除,输出交通事故知识图谱G中所有实体的向量表示。
CN202011420444.2A 2020-12-08 2020-12-08 一种基于知识图谱的交通事故分析与防控方法及系统 Active CN112732905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011420444.2A CN112732905B (zh) 2020-12-08 2020-12-08 一种基于知识图谱的交通事故分析与防控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011420444.2A CN112732905B (zh) 2020-12-08 2020-12-08 一种基于知识图谱的交通事故分析与防控方法及系统

Publications (2)

Publication Number Publication Date
CN112732905A true CN112732905A (zh) 2021-04-30
CN112732905B CN112732905B (zh) 2022-06-14

Family

ID=75598321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011420444.2A Active CN112732905B (zh) 2020-12-08 2020-12-08 一种基于知识图谱的交通事故分析与防控方法及系统

Country Status (1)

Country Link
CN (1) CN112732905B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449204A (zh) * 2021-07-13 2021-09-28 中国人民解放军国防科技大学 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113689697A (zh) * 2021-08-13 2021-11-23 南京理工大学 一种基于规则匹配和知识图谱的交通事件影响分析方法
CN114117064A (zh) * 2021-11-09 2022-03-01 西南交通大学 一种基于多时间粒度的知识动态演化方法及应用
CN117252449A (zh) * 2023-11-20 2023-12-19 水润天府新材料有限公司 一种全透式排水低噪路面施工工艺及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417033A (zh) * 2018-03-23 2018-08-17 四川高路交通信息工程有限公司 基于多维因素的高速路交通事故分析预测方法
CN111209472A (zh) * 2019-12-24 2020-05-29 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路事故故障关联和事故故障原因分析方法及系统
US20200218988A1 (en) * 2019-01-08 2020-07-09 International Business Machines Corporation Generating free text representing semantic relationships between linked entities in a knowledge graph
CN111682960A (zh) * 2020-05-14 2020-09-18 深圳市有方科技股份有限公司 一种物联网网络及设备的故障诊断方法及装置
CN111832922A (zh) * 2020-06-30 2020-10-27 北方工业大学 基于知识图谱推理的食品安全事件风险研判方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417033A (zh) * 2018-03-23 2018-08-17 四川高路交通信息工程有限公司 基于多维因素的高速路交通事故分析预测方法
US20200218988A1 (en) * 2019-01-08 2020-07-09 International Business Machines Corporation Generating free text representing semantic relationships between linked entities in a knowledge graph
CN111209472A (zh) * 2019-12-24 2020-05-29 中国铁道科学研究院集团有限公司电子计算技术研究所 一种铁路事故故障关联和事故故障原因分析方法及系统
CN111682960A (zh) * 2020-05-14 2020-09-18 深圳市有方科技股份有限公司 一种物联网网络及设备的故障诊断方法及装置
CN111832922A (zh) * 2020-06-30 2020-10-27 北方工业大学 基于知识图谱推理的食品安全事件风险研判方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QIAN ZHAO: "Construction and application research of knowledge graph in aviation risk field", 《2017 ASIA CONFERENCE ON MECHANICAL AND AEROSPACE ENGINEERING》 *
王丹等: "城市道路交通安全影响因素分析", 《贵州大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449204A (zh) * 2021-07-13 2021-09-28 中国人民解放军国防科技大学 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113689697A (zh) * 2021-08-13 2021-11-23 南京理工大学 一种基于规则匹配和知识图谱的交通事件影响分析方法
CN113689697B (zh) * 2021-08-13 2022-06-28 南京理工大学 一种基于规则匹配和知识图谱的交通事件影响分析方法、系统、设备、可读存储介质
CN114117064A (zh) * 2021-11-09 2022-03-01 西南交通大学 一种基于多时间粒度的知识动态演化方法及应用
CN114117064B (zh) * 2021-11-09 2023-05-26 西南交通大学 一种基于多时间粒度的知识动态演化的城市地铁流量预测方法
CN117252449A (zh) * 2023-11-20 2023-12-19 水润天府新材料有限公司 一种全透式排水低噪路面施工工艺及系统
CN117252449B (zh) * 2023-11-20 2024-01-30 水润天府新材料有限公司 一种全透式排水低噪路面施工工艺及系统

Also Published As

Publication number Publication date
CN112732905B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112732905B (zh) 一种基于知识图谱的交通事故分析与防控方法及系统
Zhang et al. A novel generative adversarial network for estimation of trip travel time distribution with trajectory data
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
CN109697852B (zh) 基于时序交通事件的城市道路拥堵程度预测方法
Park et al. Real-time prediction and avoidance of secondary crashes under unexpected traffic congestion
Shang et al. A hybrid method for traffic incident duration prediction using BOA‐optimized random Forest combined with neighborhood components analysis
CN109410588B (zh) 一种基于交通大数据的交通事故演化分析方法
WO2021013190A1 (zh) 基于气象参数的高速列车导航盲区定位方法及系统
CN112270355A (zh) 基于大数据技术与sae-gru的主动安全预测方法
CN116628455B (zh) 一种城市交通碳排放监测与决策支持方法及系统
CN104268546A (zh) 一种基于主题模型的动态场景分类方法
CN112685504A (zh) 一种面向生产过程的分布式迁移图学习方法
CN114299742B (zh) 一种高速公路的限速信息动态识别与更新推荐方法
CN115662113B (zh) 一种信号交叉口人车博弈冲突风险评估与预警方法
CN111907523A (zh) 一种基于模糊推理的车辆跟驰寻优控制方法
CN113159371B (zh) 基于跨模态数据融合的未知目标特征建模与需求预测方法
Thu et al. Multi-source data analysis for bike sharing systems
Patil Machine Learning for Traffic Management in Large-Scale Urban Networks: A Review
CN112101132B (zh) 一种基于图嵌入模型和度量学习的交通状况预测方法
Wang et al. Dynamic traffic prediction based on traffic flow mining
CN102880881A (zh) 一种基于二类支持向量机和遗传算法的轿车车型识别方法
Prathilothamai et al. Traffic prediction system using IoT cluster based evolutionary under sampling approach
Ara et al. Identifying the Severity of Road Accident Impact on Traffic Flow by Ensemble Model
Feng et al. Risk analysis of road traffic accidents based on improved data mining method
Schütt et al. Exploring the Range of Possible Outcomes by means of Logical Scenario Analysis and Reduction for Testing Automated Driving Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant after: Yinjiang Technology Co.,Ltd.

Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Applicant before: ENJOYOR Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant