CN117455237A

CN117455237A - 一种基于多源数据的道路交通事故风险预测方法

Info

Publication number: CN117455237A
Application number: CN202311476522.4A
Authority: CN
Inventors: 韩珣; 李兆杰; 何美玲; 武晓晖; 孟光荣; 陈磊
Original assignee: Sichuan Police College; Jiangsu University
Current assignee: Sichuan Police College; Jiangsu University
Priority date: 2023-11-07
Filing date: 2023-11-07
Publication date: 2024-01-26

Abstract

本发明公开一种基于多源数据的道路交通事故风险预测方法，挖掘基于社交媒体的交通事故数据，计算交通小区d内路段r的网络核密度值；求解基于传统交通数据的交通事故影响因子；计算基于正负影响因素模型的改进核密度，构建基于改进核密度和实时交通流数据的隐马尔可夫模型，模型通过BIC指标确定隐状态数量的最优解。最后基于社交媒体数据对道路交通总风险值进行评估。本发明结合社交媒体数据、传统交通数据和实时交通流数据来计算交通事故风险值，建立隐马尔可夫模型，利用社交媒体数据对交通事故风险建模，可在给定可观测数据序列的情况下对路段改进事故核密度状态进行预测，并结合成本风险最终估计路段的事故风险值，定量刻画道路网络中各个路段的事故风险。

Description

一种基于多源数据的道路交通事故风险预测方法

技术领域

本发明涉及道路交通安全领域，具体涉及一种基于多源数据的道路交通事故风险预测方法。

背景技术

道路交通是人们生活中的主要出行方式之一，近年来道路交通环境日益复杂，交通事故造成的人员伤亡和经济损失严重，对社会安定和人民健康安全造成严重影响。因此，科学预测道路交通事故风险对交通安全和道路管理至关重要。

在目前的研究中，研究人员通过分析交通数据、道路特征和驾驶员行为，使用机器学习、深度学习和统计学习等方法，以期能够预测道路交通的风险。然而，现有方法存在一定的局限性：(1)数据来源单一：多数方法过于依赖于单一数据源，如交通摄像头、交通传感器或历史事故数据，忽略了多源数据综合利用的潜力，特别是准确精炼的社交媒体数据。(2)预测准确性：某些方法在预测性能方面表现不佳，因为它们未能充分考虑社交媒体数据、天气信息、特殊事件或其他重要因素的影响，这些数据可能不足以全面描述交通状况，从而难以实现准确的交通风险预测。(3)实时性：一些方法侧重宏观交通风险的预测，而未能实时预测道路实际状况下的交通事故风险，无法应对突发交通情况。(4)可解释性：某些深度学习方法难以解释模型建模过程中的各个决策步骤的含义，导致模型可解释性不高。

例如，专利CN102360525B公开一种基于判别分析的快速道路实时交通事故风险预测方法，该技术方案克服现有技术利用集计统计量分析交通安全存在的技术缺陷，建立实时交通流特征与事故风险之间的联系，但没有关注从传统渠道获得的交通调查信息和社交媒体信息，数据形式较为单一。另外，判别式为多项式，形式较为简单，无法建模复杂关系。

例如，专利CN114880852A公开一种基于社会感知数据的建模分析方法与系统，该技术方案建立一个行人交通事故影响因子感知系统，识别行人交通事故的易发点。技术缺陷是：行人交通事故网络核密度值仅根据行人历史事故点，展示行人事故易发点在路网上的热度分布，并把所有的影响因素统一考虑，做回归分析，没有考虑各种影响因素对事故的影响，也没有把其他数据集成到核密度当中，核密度中蕴含的信息有限。

又例如，专利CN115238958A公开一种基于复杂交通场景的危险事件链提取方法及系统，该技术方案利用隐马尔可夫模型估计风险估计行车风险系数，根据道路危险事件状态以及车辆行车风险系数分布划分静态等级，从而建立隐状态序列，隐状态数量固定，忽略了其他可能的隐状态数量对模型准确性的影响。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于多源数据的道路交通事故风险预测方法，本发明结合社交媒体数据、传统交通数据和实时交通流数据来计算交通事故风险值，建立以改进事故核密度为隐状态，交通流检测设备探测到的数据为可观测状态的隐马尔可夫模型，模型通过BIC指标确定隐状态数量的最优解，并进一步利用从社交媒体数据中挖掘到的信息，对交通事故风险进行建模。能够更准确地发掘不同来源信息的深层关系和内在相关性，得出的模型在给定可观测数据序列的情况下，能够对路段改进事故核密度状态进行预测，并结合成本风险的计算，最终估计路段的事故风险值，定量刻画道路网络中各个路段的事故风险。

技术方案：本发明的一种基于多源数据的道路交通事故风险预测方法，包括以下步骤：

步骤S1、挖掘基于社交媒体的交通事故数据，包括道路交通事故发生位置、事故的开始和终止时间戳和事故占用车道信息，对所得交通事故数据进行预处理，计算第d个交通小区内第r条道路路段的网络核密度值参照公式(1)可得到路网上所有位置的核密度数值；

步骤S2、求解基于传统交通数据的交通事故影响因子；

首先，将导致交通事故危险程度增加的传统交通数据设为正影响因素Ai，将导致交通事故危险程度减小的传统交通数据设为负影响因素Bi；然后，以正影响因素和负影响因素两类传统交通数据为自变量、以交通小区内道路网络上的全部交通事故数量为因变量，使用负二项回归拟合模型，得到正影响因素拟合模型和负影响因素拟合模型；

步骤S3、计算基于正负影响因素模型的改进核密度，具体方法为：

步骤S31、将某交通小区d内所有道路的传统指标数据(包括但不限于伤亡人数、卡车比例、公交车比例、平均交通量、车流平均密度、人口密度等等，即正负影响因素对应数据)分别代入本区域的正影响因素拟合模型和负影响因素拟合模型，得到交通小区d内r道路上由正影响因素Ai得出的模型对事故数量的估计以及r道路上由负影响因素Bi得出的模型对事故数量的估计/>

步骤S32、对和/>分别进行规范化得到正负影响因子风险值/>和/>

步骤S33、计算改进核密度值计算公式如下/>

步骤S4、构建基于改进核密度值和实时交通流数据的隐马尔可夫模型；具体方法为：

步骤S41、确定隐马尔可夫模型的隐状态序列I{·}，设定隐状态数量S，将各个路段的最高改进核密度值进行排序并分割，得到隐马尔可夫模型隐状态序列；

步骤S42、确定隐马尔可夫模型的观测状态序列O{·}，提取路段事故地点上游传感器数据，得到隐马尔可夫模型观测状态序列；

步骤S43、随机生成初始状态矩阵π{·}；

步骤S44、采用Baum–Welch算法实现模型的学习：采用算法不断更新初始状态、状态转移概率、发射概率，直到满足收敛条件，得到隐马尔可夫模型；

步骤S45、建立不同隐状态数的隐马尔可夫模型并预测改进核密度序列：计算不同隐状态数的隐马尔可夫模型的BIC指标，拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量，这个模型为最终的预测模型；给定实时获取的观测序列，用维特比算法进行状态解码得出预测的改进核密度序列；

步骤S5、基于社交媒体数据对道路交通总风险值R_k进行评估，R_k＝i_k(C_T+C_S)，

C_T为时间风险成本C_T，利用从社交媒体数据中提取到的事故持续时间的信息，结合事故影响，对时间风险进行量化表示；

C_S为空间风险成本C_S，利用从社交媒体数据中提取到的事故占用车道信息，对发生事故的路段进行分类，量化不同占用车道情况对交通系统的影响，从而量化空间风险；

最后把时间成本风险、空间成本风险和预测的改进核密度做融合计算，得到路段交通事故风险预测值R_k。

进一步地，所述步骤S1的详细过程为：

步骤S11、账户登录和数据采集，实现对目标用户发布的微博时间、正文内容的自动获取，同时获取传统交通数据和实时交通流运行数据；

步骤S12、对步骤S11所得数据进行去噪和分词预处理；

步骤S13、数据地图匹配，提取时间和地点关键词，把目标数据映射到地图中；

步骤S14、计算网络核密度值，对道路上的事故发生事件进行核密度值的计算；

其中，数据类型包括社交媒体数据、传统交通数据、实时交通流数据；社交媒体数据包含事故发生时间地点，占用车道信息，事故开始和结束信息等；传统交通数据包括但不限于平均交通量、卡车比例、公交车比例、车流平均密度、道路密度、信号交叉口数量、人口数、人口密度、事故伤亡人数、财产损失量等；实时交通流数据包括事故地点上游交通传感器实时平均速度。

进一步地，所述步骤S2构建正影响因素拟合模型和负影响因素拟合模型的详细方法为：

引入一个均值为1和方差为α的伽马分布误差项exp(ε_r)，有条件概率分布：

并有：

λ_r＝exp(βX_r+ε_r) (16)

其中β为解释变量系数的向量，X_r为解释变量的向量。故有无条件分布的最大似然函数：

将似然函数最大化求得各个解释变量的系数β和方差α，最后得到拟合数学模型：

ln(λ_r)＝∑_t＝1β_tx_t+β₀ (18)

β_t为第t个事故影响因素的系数，x_t为第t个事故影响因素，β₀为常数。在交通小区d中，由正影响因素Ai得出的模型对事故数量估计为μ_d，由负影响因素Bi得出的模型对事故数量估计为η_d。

进一步地，为防止不同区域(交通小区)的数据差距过大，需在交通小区范围下将两个指标分别规范化，具体过程如下：

其中，R为交通小区d内道路数量。

进一步地，所述步骤S4的详细过程为：

首先，确定隐马尔可夫模型的隐状态序列I{·}，方法为；

设定隐马尔可夫模型的隐状态数量S，并设整个研究区域共有K条路段，把这些路段的改进核密度的最高值记为KD^k，其中，k∈[1,K]，需要确定各个核密度值的相对大小，从而进行隐状态的划分；其中，依照从大到小的顺序对KD^k进行排序，最大值为KD^(K)，最小值为KD⁽¹⁾，每一个隐状态的核密度跨度为故有隐状态序列：

然后，确定隐马尔可夫模型的观测状态序列O{·}，方法为：

以各个选取路段的最高核密度值为中心，观察事故地点上游线圈在事故发生前10分钟的探测数据，获取上游平均速度值；平均速度在各个路段上的序列为：

O＝{o₁,o₂,…,o_K}；

进而获得区域的隐马尔可夫模型：λ＝(I,O,π)；

采用Baum–Welch算法来实现模型的学习，具体过程如下：

设定函数Q：

其中，P(O,I|λ)为观测序列和隐状态序列同时出现的概率。是隐马尔可夫模型的估计，λ是隐马尔可夫模型；展开上式并对参数求极值，最终得到初始状态、状态转移概率、发射概率的重估公式：

π_i＝γ₁(i) (22)

并有：

其中，是从隐状态i_n转移到隐状态i_n+1的概率，也称为状态转移概率；/>为i_n隐状态时获得o_n这个观测状态的概率，i,j是隐状态序列I中的任意两个隐状态；

α_k(i)被称为前向概率，是指在隐马尔可夫模型λ已知的情况下，从路段1到路段k的观测序列为O＝{o₁,o₂,…,o_k}并有路段k的隐状态为i的概率；

β_k(i)被称为后向概率，是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下，从k+1到K的观测序列为o_k+1,o_k+2,…,o_K的概率，使用上述公式可以得到更新的隐马尔可夫模型再继续进行重新估计，直到满足收敛条件/>从而得到一个隐马尔可夫模型，此模型的隐状态数量为S；

继续创建隐状态数为S-1,S-2,…,3,2的隐马尔可夫模型，然后采用BIC准则评估各个模型，具体方式如下：

BIC＝uln(M)-2ln(L) (27)

其中，u是模型的总参数数量，上述隐马尔可夫模型中，总的参数数量为N+N²+NK，M是观测数据的样本数量，即观测序列的长度K，ln(L)是模型的对数似然函数值，隐马尔可夫模型的似然函数是给定模型下，所有观测状态序列发生的概率，可表示为：

P(O|I,O,π)＝∑_IP(O|I,λ)P(I|λ) (28)

计算不同隐状态数的隐马尔可夫模型的BIC指标，选择具有最小BIC值的模型作为最终模型；

给定路段交通流数据检测序列，使用维特比算法进行状态解码，从而得到各个路段的改进核密度隐状态序列I＝{·}，其中包含的信息是每个路段的改进核密度预测值。

进一步地，所述步骤S5评估时间成本计算方法为：

定义持续时间为[0,1)小时的事故为轻度影响，持续时间为[1,2)小时的事故为中度影响，持续时间为[2,3)小时的事故为重度影响；

时间成本C_T的计算方法如下：

C_T＝7a₁+5a₂+3a₃；

其中，a₁、a₂、a₃分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量。

进一步地，所述步骤S5评估空间成本计算方法如下：

若路段是单向四车道路段，则路段上交通事故记录的空间成本风险为：C_S1＝b₁+4b₂+4b₃+5b₄，其中，b₁、b₂、b₃、b₄分别为交通事故占据最右侧车道、右侧第二条车道、左侧第二条车道、最左侧车道的情形出现次数；

若路段是单向三车道路段，则路段上交通事故记录的空间成本风险为：C_S2＝b₅+4b₆+5b₇，其中，b₅、b₆、b₇分别为交通事故占据最右侧车道、中间车道、最左侧车道的情形出现次数；

若路段是单向双车道路段，则路段上交通事故记录的空间成本风险为：C_s3＝5b₈+5b₉，其中，b₈、b₉分别为交通事故占据右侧车道和左侧车道的情形出现次数；

若路段是单向单车道路段，则路段上交通事故记录的空间成本风险为：C_S4＝5b₁₀，其中，C_s1、C_s2、C_S3、C_S4分别为四车道、三车道、两车道、单车道的空间成本，b₁₀为交通事故发生次数。

有益效果：与现有技术相比，本发明具有以下优点：

1、本发明根据从社交媒体中收集到的交通事故发生的热度来判断事故发生的可能性大小，其中按照传统交通数据的属性对判断核密度指标进行改写，考虑了传统交通数据与交通事故之间的联系，使核密度指标包含社交媒体信息和传统交通数据信息。

2、本发明在模型建立方面，不断调整参数，根据评判指标的最小值划定合适的隐状态数量，使得模型更为准确，更加深刻地解释改进核密度水平与实时交通监测数据的联系。

3、本发明使用事故持续时间和占据车道的特征对交通事故风险进行评估，充分利用社交媒体数据的信息判断事故对交通系统产生的影响，并将其视为一种事故风险，融入到总风险的评估当中。

4、本发明充分利用可以收集到的交通数据，包括社交媒体数据、传统交通数据、实时交通流数据，运用可解释性较强的隐马尔可夫统计模型进行建模，描述各个状态之间的联系以及转换关系，对交通事故风险进行预测。

附图说明

图1为本发明的整体流程示意图；

图2为本发明实施例中交叉口区域网络核密度函数示意图；

图3为本发明实施例中对应交通事故数据匹配的流程示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

为解决现有技术缺陷，本发明充分整合社交媒体数据、传统交通数据和实时交通流数据，以更全面地预测和评估道路交通事故的风险，有助于发掘交通事故黑点，提前预警交通事故风险，完善交通安全管理，减少事故的发生，提高交通系统的运行效率。

如图1所示，本发明提出一种基于多源数据的道路交通事故风险预测方法，包括以下步骤：步骤S1：基于社交媒体的交通事故数据挖掘。随着互联网技术的发展，人们使用社交媒体平台的频率不断增加，更有一些官方机构入驻社交媒体平台，发布权威信息，其中不乏一些地方交通管理机构。这些交通管理机构会在社交媒体平台上对区域内的交通状况进行实时播报，从而让社交媒体平台用户及时了解区域内的交通状况，方便市民对出行做好规划，避开拥堵、行驶缓慢等交通状况发生的路段，也可以通过具体文本信息来提醒驾驶员小心驾驶，注意避让。交通管理机构发布的信息不会删除，所以通过网络爬虫的方法获取相关区域内的历史交通事故这一方法是可行的。

通过观察社交媒体平台的组织形式，发现微博账号页面使用下拉自动加载网页内容，是一种动态网页，不同于静态网页在服务器端生成并发送给客户端的固定内容，动态网页在客户端加载和渲染过程中，通过JavaScript等脚本技术动态生成和更新内容。所以这一类型的网页的内容无法通过简单地下载网页源代码来获取，而需要模拟人类操作浏览器行为来执行脚本，并获取最终呈现的内容。在本发明中使用一种网页自动化测试工具Selenium，设计登录微博，浏览微博信息，自动爬取并收集微博内容的算法并实现操作，具体过程如下：

步骤S11：账户登录和数据采集。具体过程如下：利用Python引入Selenium库，构建微博爬虫系统，打开浏览器，准备好用于登录的账号和密码，使用Selenium进行浏览器网页自动化操作，进行系统登陆，搜索目标用户，设计算法对目标用户的微博界面进行下拉加载，研究目标用户发布微博的网页结构，设计相关算法，实现对目标用户发布的微博时间、正文内容的自动获取。

步骤S12：数据预处理。具体过程如下：由于获取到的数据来源是官方的交通信息发布平台，所以微博文本较为纯净，详细阐述的信息包括时间、详细位置、事件类型、事故占用的车道等信息。

首先对获取到的微博文本进行去噪，防止无关文本信息内容对后续操作产生不必要的影响，去噪的内容如下：与事件描述无关的文字信息如：话题标签“#路况播报#”、“#早高峰路况播报#”等；引用用户内容，如：“@username”；与事件描述无关的符号信息如：表情符号；字数过短文本。

其次，为了便于分析和提取文本信息，对文本进行分词处理：分词是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程，不同于英文字符，中文语句没有自然分隔符来把词语分开。中文分词是文本挖掘的基础，目前已有多种中文分词工具。为了提取到微博文本中的地点、时间、事件类型等信息，要把微博文本进行打断处理，使一段微博文字拆分成若干词语。例如：微博文本“16时36分，外环高速东行白花洞隧道入口路段，发生一起交通事故，占据最左侧车道，该路段车辆缓行，请途经车友注意安全避让。”可以使用常见中文分词工具HanLP拆分成以下结构：“16时/36分/,/外环/高速/东行/白花洞/隧道/入口/路段/,/发生/一起/交通/事故/,/占据/最/左侧/车道/,/该/路段/车辆/缓行/,/请/途经/车友/注意/安全/避让/。/”。

步骤S13：数据地图匹配。具体过程如下：用工具进行分词之后，识别出分词处理之后的每个微博文本中有关“事故”的关键词，并把对应微博中的时间、地点信息提取出来，例如上文中的“16时36分”、“外环高速”、“东行”、“白花洞”、“隧道”、“入口”。并将这些文字信息存储到数据库中，建立好数据库之后，调用百度地图地理编码服务API，获取各个文本信息内容对应地点的WGS-84经纬度坐标，使用ArcGIS地理信息系统软件把这些事故点的经纬度坐标投影到由天地图网站获取的城市道路网络底图上。

步骤S14：计算网络核密度值。核密度估计作为一种非参数检验方法，随着地理信息系统(GIS)的进一步发展，核密度估计可以被应用在热点可视化当中，可以更加直观地展示事故点的热度分布。具体过程是：对道路网络上的事故点进行网络核密度估计，通过核密度估计函数可得整个研究区域道路网路的核密度值分布。核密度估计函数可以表示为：

式中，K(q)为核函数，k(·)为基本核函数，一般为高斯核函数，q为核中心，p_i为交通事故点，i＝1,2,L,n，h为搜索窗宽，ds(q,p_i)为核中心到事故点的距离。基本思想是：在搜索窗宽范围内，K(q)等于研究位置(整个路网)附近各个交通事故点核密度的累积，交叉口区域网络核密度函数示意图如图二所示。

步骤S15：对应交通事故数据匹配。注意到存在标志同一件交通事故开始和结束的微博，依照时间顺序，首先会出现交通事故发生的微博，经过一段时间后，将会出现类似“事故现场清理完毕，交通恢复正常”相关微博。通过S12中收集的微博文本，寻找某一事故发生3小时内是否存在标志本事故清理完毕的相关微博文本，如果存在，则把两条微博两两配对，认为这两条微博完整描述了事故的发生和结束，并记录两条微博所描述的时间。如果不存在，则认为只有事故发生的信息，跳过此条微博信息，继续寻找下一条文本信息。具体过程流程示意图如图三所示。

步骤S16：提取占用车道信息。通过S12中拆解的微博文本，提取“占据左侧车道及右侧车道”、“占据左侧第二条车道”等语句，存储至数据库中，记录对应交通事故占用车道的信息，同时记录车道数量信息。若对应微博文本中不包含对应的语句，则忽略此条微博文本信息。

步骤S2：基于传统交通数据的交通事故影响因子的求解。除了运用新型的社交媒体平台上的信息之外，通过交通调查，传感器感应等传统方式获取到的基础交通数据如年平均日交通量、车流平均速度、道路平均交通量、车流平均密度、交通小区道路总长度、事故受伤人数、事故死亡人数、事故财产损失等指标也同样重要，这类数据反映着经济发展、经济建设等因素对区域内交通的影响，代表着一个区域中交通出行的基本特征，从而与事故风险存在密切联系，可以作为评判事故风险的标准。以上述多种交通数据为自变量，对交通事故数量进行建模可以得到传统交通数据与事故数量的关系。本发明获取研究区域内所有交通小区的传统交通数据，对数据进行分类处理，具体过程如下：

步骤S21：确定与交通事故风险具有正相关或负相关关系的传统交通数据。具体过程如下：

设定判断依据：假设核密度值代表事故风险(即危险程度)，并假设某个区域(交通小区)内事故数量一定，某个影响因素指标增加将会导致危险程度增加，则称此影响因素为正影响因素Ai，反之，若某个影响因素指标增加将会导致危险程度减小，则称此影响因素为负影响因素Bi。例如：对于伤亡人数这个指标，在某条道路上，发生的事故数量固定的情况下，伤亡人数越多，说明这条道路的危险程度越高，即伤亡人数与危险程度成正比关系，称为正影响因素，同理，卡车比例、公交车比例等指标也属于正影响因素。反之，某条道路上，发生的事故数量固定的情况下，平均交通量越大，说明单位平均交通量发生的交通事故数量越小，区域内道路的危险程度越低，平均交通量为负影响因素，同理，车流平均密度、人口密度等指标也属于负影响因素。

由此，本发明提供了一种判断传统交通数据和道路危险程度之间关系的方法。

步骤S22：计算交通事故影响因子。泊松回归模型常用于计数模型的拟合，而且泊松回归模型在描述交通事故时具有良好的统计特性，但是它有一个重要的限制条件：即事故数据的均值和方差相等。负二项回归模型消除了这一个约束，应用更为广泛。以正影响因素和负影响因素两类传统交通数据为自变量、以交通小区内道路网络上的全部交通事故数量为因变量，使用负二项回归拟合模型，得到正影响因素和负影响因素拟合模型，具体过程如下：

并有：

λ_r＝exp(βX_r+ε_r) (3)

其中，P(n_r)为路段r发生n起事故的概率，λ_r为道路路段r内事故发生数量的期望，X_r为道路路段r中正影响因素或负影响因素(解释变量)的向量(自变量)，β是各个解释变量的系数向量。

把上述条件概率分布化简，得到n_r的无条件分布：

其中，无条件分布的最大似然函数为：

其中，R为小区内道路总数，将似然函数最大化求得各个解释变量的系数β和方差α，最后得到拟合数学模型：

β_t为第t个事故影响因素的系数，x_t为第t个事故影响因素，β₀为常数。

与把全部传统交通数据进行一次负二项回归不同，此做法分别求出正负两个影响因素的数学模型：在交通小区d中，由正影响因素Ai得出的模型对事故数量估计为μ_d，由负影响因素Bi得出的模型对事故数量估计为η_d。此为交通事故影响因子。

步骤S3：基于正负影响因素模型的改进核密度计算方法。具体过程如下：

步骤S31：将某个区域(交通小区)内所有道路的传统指标数据(包括但不限于伤亡人数、卡车比例、公交车比例、平均交通量、车流平均密度、人口密度等等，即上文所述的正负影响因素对应数据)分别代入本区域的模型并进行计算。具体地，交通小区d中，r道路上由正影响因素Ai得出的模型对事故数量估计为r道路上由负影响因素Bi得出的模型对事故数量估计为/>此指标的含义是：在上述影响因素的作用下，d交通小区内，r道路可能会发生的事故数量。为防止不同区域(交通小区)的数据差距过大，需要在交通小区范围下将两个指标分别规范化，具体过程如下：

其中，R为交通小区d内的道路数量，最终得到每条道路的正负影响因子风险值和/>

步骤S32：计算改进核密度值。将上述得到的正影响因子风险值与S14中得到的道路网路核密度值相乘，负影响因子风险值与S14中得到的道路网络核密度值相除，得到改进的核密度值，具体过程如下：

其中，为改进核密度，/>为S14中所得的原始核密度。与仅使用单一数据来源进行事故热点分析不同，此方法所得出的改进核密度结合了社交媒体数据以及传统交通数据，一定程度上从类型更多的信息中总结了事故发生的规律和分布。通过分析从传统渠道获取的数据的性质，对传统数据如何影响危险程度进行判断，并结合从社交媒体当中提取到的交通事故信息，对核密度估计做出改进。

步骤S4：基于改进核密度值和实时交通流数据的隐马尔可夫模型建立及预测。道路上存在的实时交通数据采集设施也是重要的数据来源，与传统交通数据相比，此类数据更为微观，体现更具体的交通流信息。有研究表明这种类型的数据可以准确指示交通事故的发生，存在重要的参考价值，本发明运用此类数据构建隐马尔可夫模型。

本发明关心的指标是改进核密度的预测值。因此引入隐马尔可夫模型并做出改进。在隐马尔可夫模型中，有三个基本的序列需要建立，分别是隐状态序列、观测状态序列和初始状态序列。本发明的思路是：在建立隐状态序列过程中首先进行隐状态数量的确定，通过循环建立拥有不同隐状态数的隐马尔可夫模型，然后对不同模型进行判别，确定隐状态数量的最优解，从而确定最终的隐马尔可夫模型。

区域内所有道路都是研究对象，按照隐马尔可夫模型的定义，本发明为区域内所有道路创建一个虚拟的序列，即由各条道路的改进核密度值组成的隐马尔可夫隐状态序列，用实时交通数据采集设施所采集到的数据序列作为隐马尔可夫模型的观测状态序列。具体过程如下：

步骤S41：确定隐马尔可夫模型的隐状态序列I{·}。为提高预测的精度，本发明通过不断迭代寻找隐状态数量的最优解，而非人为设定隐状态数量。具体过程如下：设定隐马尔可夫模型的隐状态数量S，并设整个研究区域共有K条路段，把这些路段的改进核密度的最高值记为KD^k，其中，k∈[1,K]，需要确定各个核密度值的相对大小，从而进行隐状态的划分。其中，依照从大到小的顺序对KD^k进行排序，最大值为KD^(K)，最小值为KD⁽¹⁾，每一个隐状态的核密度跨度为(KD^(K)-KD⁽¹⁾)/S，有隐状态序列：

步骤S42：确定隐马尔可夫模型的观测状态序列O{·}。这部分数据由交通传感器获取，有大量研究显示公路交通事故风险与交通流实时运行的参数存在紧密关联。以各个选取路段的最高核密度值为中心，观察事故地点上游线圈在事故发生前10分钟的探测数据，获取上游平均速度值。平均速度在各个路段上的序列为：

O＝{o₁,o₂,…,o_K} (11)

此序列作为隐马尔可夫模型的可观测数据序列O{·}。

步骤S43：确定初始状态矩阵π{·}。由于后续的模型训练会对状态矩阵进行修正，所以初始状态矩阵π{·}可以随机生成。综上，就获得了区域的隐马尔可夫模型λ：

λ＝(I,O,π) (12)

步骤S44：采用Baum–Welch算法来实现模型的学习。具体过程如下：

设定函数Q：

其中，P(O,I|λ)为观测序列和隐状态序列同时出现的概率。是隐马尔可夫模型参数的估计，λ是隐马尔可夫模型。上式可以展开为：

其中，是从隐状态i_n转移到隐状态i_n+1的概率，也称为状态转移概率；/>为i_n隐状态时获得o_n这个观测状态的概率。然后对上述函数进行极大化，分别对每一项求偏导数和极值，分别得到初始状态、状态转移概率、发射概率的重估公式：

π_i＝γ₁(i) (15)

并有：

其中，i,j是隐状态序列I中的任意两个隐状态，α_k(i)被称为前向概率，是指在隐马尔可夫模型λ已知的情况下，从路段1到路段k的观测序列为O＝{o₁,o₂,…,o_k}并有路段k的隐状态为i的概率，即：

α_k(i)＝P(o₁,o₂,K,o_k,i_k＝i|λ) (20)

β_k(i)被称为后向概率，是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下，从观测序列为k+1到K的观测序列为o_k+1,o_k+2,K,o_K的概率，即：

β_k(i)＝P(o_k+1,o_k+2,K,o_K|λ,i_k＝i) (21)

使用上述公式就可以得到一组新的参数π_i,a_ij,b_j(m)，从而得到更新的隐马尔可夫模型再继续进行重新估计，直到满足收敛条件/>从而得到一个隐马尔可夫模型，此模型的隐状态数量为S，为S42中设定的参数。

步骤S45：建立不同隐状态数的隐马尔可夫模型。依照上文，继续创建隐状态数为S-1,S-2,L,3,2的隐马尔可夫模型，然后采用BIC准则评估各个模型，具体方式如下：

BIC＝u ln(M)-2ln(L) (22)

其中，u是模型的总参数数量，上述隐马尔可夫模型中，总的参数数量为N+N²+NK，M是观测数据的样本数量，即观测序列的长度K，ln(L)是模型的对数似然函数值，隐马尔可夫模型的似然函数是给定模型下，所有观测状态序列发生的概率，可以表示为：

计算不同隐状态数的隐马尔可夫模型的BIC指标，拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量，这个模型为最终的预测模型。。BIC值越小，表示模型在拟合数据时更好地权衡了拟合能力和模型复杂性。至此，就得到一个基于社交媒体数据，历史数据，实时交通流数据建立的隐马尔可夫模型。

给定路段交通流数据检测序列，可以使用维特比算法进行状态解码，从而可以得到各个路段的改进核密度隐状态序列I＝{·}，序列中隐状态的取值范围是(i₁,i₂,L,i_s)，隐状态数量为K，即道路数量。由于改进核密度包含了来自于社交媒体的交通事故信息和传统交通信息，所以改进核密度一定程度上反映了路段上事故发生倾向。

步骤S5：基于社交媒体数据的道路交通总风险值的评估。道路拥堵可以被视为一种交通风险，因为它对驾驶员和乘客的安全和舒适性产生负面影响，并增加了事故发生的可能性。交通事故发生之后，交通拥堵极易出现，本发明留意社交媒体数据所提供的更深层次的与交通拥堵相关的信息，把交通事故风险分为时间成本风险和空间成本风险。具体过程如下：

步骤S51：评估时间成本风险。从在S15中提取两两配对的微博信息中提取所描述的时间，假设事故开始时的时间戳是T_s，时间结束时的时间戳是T_e，则有事故持续时间为T＝T_e-T_s，统计发生在某条路段上的所有交通事故的持续时间，设共有y个交通事故信息对，则共有y个持续时间。持续时间反映了交通事故从开始对交通造成影响到交通恢复正常运行的时间。持续时间越长，表示这个位置一旦发生交通事故，对交通系统的影响也越大，交通系统通常要花费更多的时间成本恢复至正常状态。把时间成本分为三级：重度影响、中度影响和轻度影响。持续时间t为[0,1)小时的事故为轻度影响，持续时间t为[1,2)小时的事故为中度影响，持续时间t为[2,3)小时的事故为重度影响。路段上交通事故记录的时间成本风险为：

C_T＝7a₁+5a₂+3a₃(24)

其中，a₁、a₂、a₃分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量，并且a₁+a₂+a₃＝y。

步骤S52：评估空间成本风险。从S16中获取的信息中判断各个路段上每个交通事故数据点对应的占用车道信息，并根据对应路段的车道数量评估空间成本风险C_S。若路段是单向四车道路段，则路段上交通事故记录的空间成本风险为：

C_S1＝b₁+4b₂+4b₃+5b₄(25)

其中，b₁、b₂、b₃、b₄分别为交通事故占据最右侧车道、右侧第二条车道、左侧第二条车道、最左侧车道的情形出现次数。若路段是单向三车道路段，则路段上交通事故记录的空间成本风险为：

C_S2＝b₅+4b₆+5b₇(26)

其中，b₅、b₆、b₇分别为交通事故占据最右侧车道、中间车道、最左侧车道的情形出现次数。若路段是单向双车道路段，则路段上交通事故记录的空间成本风险为：

C_S3＝5b₈+5b₉(27)

其中，b₈、b₉分别为交通事故占据右侧车道和左侧车道的情形出现次数。若路段是单向单车道路段，则路段上交通事故记录的空间成本风险为：

C_S4＝5b₁₀(28)

其中，b₁₀为交通事故发生次数。

步骤S53：评估路段总风险值。路段总风险为上述成本风险和改进核密度的乘积，路段k的总风险值可由下式计算得到：

R_k＝i_k(C_T+C_S)(29)

重复上述步骤得到区域内所有路段的交通事故风险值。

基于本发明能够有效结合多种数据，展示路段的交通事故风险，给管理部门提供有效信息，达到预防事故发生、减少财产损失和人员伤亡等目的。

Claims

1.一种基于多源数据的道路交通事故风险预测方法，其特征在于，包括以下步骤：

步骤S1、挖掘基于社交媒体的交通事故数据，包括道路交通事故发生位置、事故的开始和终止时间戳和事故占用车道信息，对所得交通事故数据进行预处理，计算第d个交通小区内第r条道路路段的网络核密度值

步骤S2、求解基于传统交通数据的交通事故影响因子；

步骤S31、将某交通小区d内所有道路的传统指标数据分别代入本区域的正影响因素拟合模型和负影响因素拟合模型，得到交通小区d内r道路上由正影响因素Ai得出的模型对事故数量的估计以及r道路上由负影响因素Bi得出的模型对事故数量的估计/>

步骤S33、计算改进核密度值计算公式为：/>

首先，确定隐马尔可夫模型的隐状态序列I{·}，设定隐状态数量S，将各个路段的最高改进核密度值进行排序并分割，得到隐马尔可夫模型隐状态序列；

然后，确定隐马尔可夫模型的观测状态序列O{·}，提取路段事故地点上游传感器数据，得到隐马尔可夫模型观测状态序列；

接着，随机生成初始状态矩阵π{·}；

再者，采用Baum–Welch算法实现模型的学习：采用算法不断更新初始状态、状态转移概率、发射概率，直到满足收敛条件，得到隐马尔可夫模型；

最后，建立不同隐状态数的隐马尔可夫模型并预测改进核密度序列：计算不同隐状态数的隐马尔可夫模型的BIC指标，拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量，这个模型为最终的预测模型；给定实时获取的观测序列，用维特比算法进行状态解码得出预测的改进核密度序列；

步骤S5、基于社交媒体数据对道路交通总风险值R_k进行评估，R_k＝i_k(C_T+C_S)；其中C_T为时间风险成本，C_S为空间风险成本。

2.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S1的详细过程为：

步骤S12、对步骤S11所得数据进行去噪和分词预处理；

其中，数据类型包括社交媒体数据、传统交通数据和实时交通流数据；社交媒体数据包含事故发生时间地点、占用车道信息、事故开始和结束信息；传统交通数据包括平均交通量、卡车比例、公交车比例、车流平均密度、道路密度、信号交叉口数量、人口数、人口密度、事故伤亡人数和财产损失量；实时交通流数据包括事故地点上游交通传感器实时平均速度。

3.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S2构建正影响因素拟合模型和负影响因素拟合模型的详细方法为：

并有：

λ_r＝exp(βX_r+ε_r) (2)

其中β为解释变量系数的向量，X_r为解释变量的向量；故有无条件分布的最大似然函数：

ln(λ_r)＝∑_t＝1β_tx_t+β₀ (4)

β_t为第t个事故影响因素的系数，x_t为第t个事故影响因素，β₀为常数；在交通小区d中，由正影响因素Ai得出的模型对事故数量估计为μ_d，由负影响因素Bi得出的模型对事故数量估计为η_d。

4.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S32中规范化处理公式为：

其中，R为交通小区d内道路数量。

5.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S4的详细过程为：

首先，确定隐马尔可夫模型的隐状态序列I{·}，方法为：

设定隐马尔可夫模型的隐状态数量S，并设整个研究区域共有K条路段，把这些路段的改进核密度的最高值记为KD^k，其中，k∈[1，K]，需要确定各个核密度值的相对大小，从而进行状态的划分；其中，依照从大到小的顺序对KD^k进行排序，最大值为KD^(K)，最小值为KD⁽¹⁾，每一个隐状态的核密度跨度为故有隐状态序列：

然后，确定隐马尔可夫模型的观测状态序列O{·}，方法为：

O＝{o₁，o₂，…，o_K}；

进而获得区域的隐马尔可夫模型：λ＝(I，O，π)；

采用Baum-Welch算法来实现模型的学习，具体过程如下：

设定函数Q：

其中，P(O，I|λ)为观测序列和隐状态序列同时出现的概率，是隐马尔可夫模型的估计，λ是隐马尔可夫模型；展开上式并对参数求极值，最终得到初始状态、状态转移概率、发射概率的重估公式：

π_i＝γ₁(i) (8)

并有：

其中，是从隐状态i_n转移到隐状态i_n+1的概率，也称为状态转移概率；/>为i_n隐状态时获得o_n这个观测状态的概率；i，j是隐状态序列I中的任意两个隐状态；

α_k(i)为前向概率，是指在隐马尔可夫模型λ已知的情况下，从路段1到路段k的观测序列为O＝{o₁，o₂，…，o_k}并有路段k的隐状态为i的概率；

β_k(i)为后向概率，是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下，从观测序列为k+1到K的观测序列为o_k+1，o_k+2，...，o_K的概率，使用上述公式得到更新的隐马尔可夫模型再继续进行重新估计，直到满足收敛条件/>从而得到一个隐马尔可夫模型，此模型的隐状态数量为S；

继续创建隐状态数为S-1，S-2，…，3，2的隐马尔可夫模型，然后采用BIC准则评估各个模型，具体方式如下：

BIC＝u ln(M)-2ln(L) (13)

其中，u是模型的总参数数量，上述隐马尔可夫模型中，总的参数数量为N+N²+NK，M是观测数据的样本数量，即观测序列的长度K，ln(L)是模型的对数似然函数值，隐马尔可夫模型的似然函数是给定模型下，所有观测状态序列发生的概率可表示为：

P(O|I，O，π)＝∑_IP(O|I，λ)P(I|λ) (14)

给定路段交通流数据检测序列，使用维特比算法进行状态解码，从而可以得到各个路段的改进核密度隐状态序列I＝{·}，其中包含的信息是每个路段的改进核密度预测值。

6.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S5时间成本C_T的计算方法为：

定义持续时间为[0，1)小时的事故为轻度影响，持续时间为[1，2)小时的事故为中度影响，持续时间为[2，3)小时的事故为重度影响；

时间成本计算方法如下：C_T＝7a₁+5a₂+3a₃；

a₁、a₂、a₃分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量。

7.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法，其特征在于，所述步骤S5空间成本C_S的计算方法如下：

若路段是单向单车道路段，则路段上交通事故记录的空间成本风险为：C_S4＝5b₁₀，b₁₀为交通事故发生次数。