CN112837533B

CN112837533B - 一种考虑风险因素时变特征的公路事故频次预测方法

Info

Publication number: CN112837533B
Application number: CN202110021359.7A
Authority: CN
Inventors: 陈一锴; 于淑君; 石琴; 王飞; 董满生
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-11-19
Anticipated expiration: 2041-01-08
Also published as: CN112837533A

Abstract

本发明公开了一种考虑风险因素时变特征的公路事故频次预测方法，其步骤如下：1、采集和处理历史交通事故数据及相关风险因素数据；2、建立Logistic回归模型；3、采用约登指数法计算Logistic模型的分类阈值；4、基于Logistic模型和历史事故数据，计算模型的阳性预测值(Positive predictive value)和阴性预测值(Negative predictive value)；5、利用计算得到的阳性预测值和阴性预测值，进行事故频次预测。本发明能克服传统事故频次模型无法反映风险因素的时变特征对事故的影响的问题，有利于提高事故频次预测方法的预测精度。

Description

一种考虑风险因素时变特征的公路事故频次预测方法

技术领域

本发明涉及一种考虑风险因素时变特征的公路事故频次预测方法，属于道路交通安全分析技术领域。

背景技术

构建交通事故频次与道路几何特征、交通状态、天气等风险因素之间的关系，从而进行事故频次预测，是公路安全评价的常用方法。在传统事故频次预测模型中，由于因变量为较长时间范围内(如一年)的总事故数，因此，对交通状态、天气等时变风险因素，只能采用相应时间范围内的统计指标(如年平均日交通量、年总降雨量)作为自变量。然而，上述因素的时变特征对事故风险具有显著影响。与非高峰时段相比，高峰时段道路交通量大、占有率高、车速低，道路呈同步流、宽运动堵塞流状态，追尾、换道事故风险明显增加；相对于晴天，雨、雪天气下驾驶员的可视距离缩短、制动距离增加，事故风险上升。综上所述，传统事故频次预测模型无法精准刻画因素时变特征对事故风险的影响，导致道路的事故频次预测不准确。

发明内容

本发明为克服上述现有技术所存在的问题，提出一种考虑风险因素时变特征的公路事故频次预测方法，以期能准确表征时变特征对事故风险的影响，增强模型的预测能力，以提升道路事故黑点识别的准确性，从而为道路交通安全改善对策的制定提供可靠的科学依据。

为达到上述目的，本发明采用如下技术方案：

本发明一种考虑风险因素时变特征的公路事故频次预测方法的特点是按如下步骤进行：

步骤1、采集和处理历史交通事故数据及相关风险因素数据；

步骤1.1、将研究道路划分成K个同性质路段；

步骤1.2、建立训练集；

步骤1.2.1、在交通事故数据库中，获取研究道路的历史交通事故数据；

步骤1.2.2、依据历史事故的发生时间，采集事故发生时间前一段时间的交通状态数据；

步骤1.2.3、采用随机采样的方法，从研究道路的各路段未发生事故的时间中随机选择非事故事件的发生时间和所处路段，并依据抽取的非事故事件的发生时间和所处路段，采集非事故事件的交通状态数据；

步骤1.2.4、依据事故和非事故事件的所处路段，获取事故和非事故事件所处路段的道路几何特征数据；

步骤1.2.5、依据事故和非事故事件的发生时间，在气象站中提取天气数据；

步骤1.2.6、整合事故和非事故事件的交通状态、道路几何特征、天气数据，形成N个样本数据，从而得到训练集；在训练集中，将第i个样本是否为事故样本记为y_i，若y_i＝1，表示第i个样本为事故样本，若y_i＝0，表示第i个样本为非事故样本；i＝1,2,3,…,N；以事故和非事故事件的交通状态、道路几何特征、天气数据中的各个状态量作为相关风险因素；

步骤2、利用式(1)建立Logistic回归模型；

式(1)中，Bernoulli(·)表示伯努利分布，p_i表示第i个样本为事故样本的概率；1-p_i表示第i个样本为非事故样本的概率；β₀为截距，β_r为第r个风险因素的系数，x_ri为第i个样本中第r个风险因素的值，r＝1,2,3,…,R；R表示风险因素的总数；

步骤3、利用所述训练集对Logistic模型进行参数估计，令β为β₀和β_r组成的向量，利用极大似然估计法，求出使如式(3)所示的似然函数L(β)取最大值时的估计参数β′：

步骤4、采用约登指数法计算Logistic模型的分类阈值；

步骤4.1、利用Logistic模型计算训练集中各样本的事故概率，并根据结果绘制ROC曲线；

步骤4.2、利用式(4)对ROC曲线上的每个点计算约登指数：

S(j)＝S_e(j)+S_p(j)-1 (4)

式(4)中，S(j)表示ROC曲线上第j个点的约登指数，S_e(j)表示ROC曲线上第j个点的灵敏度值，S_p(j)表示ROC曲线上第j个点的特异度值；

步骤4.3、挑选最大约登指数对应的阈值作为分类阈值；

步骤5、基于Logistic模型和历史交通事故数据，计算模型的阳性预测值和阴性预测值；

步骤5.1、建立测试集；

步骤5.1.1、在交通事故数据库中，采集研究道路其他时间L内的历史交通事故数据；

步骤5.1.2、周期性采集研究道路中各路段在时间L内每一时刻前一段时间内的交通状态数据；

步骤5.1.3、采集在时间L内的每个时刻的天气数据；

步骤5.1.4、按照时间顺序，整合各路段的交通状态数据、天气数据、道路几何特征数据并依次形成若干个样本数据；

步骤5.1.5、根据时间L内的历史交通事故数据中所采集的事故发生的经纬度信息，将事故定位到相应路段上；

步骤5.1.6、根据时间L内事故的发生时间，将事故发生时间的对应样本数据标记为1，其余的样本数据作为非事故事件，标记为0，从而形成测试集；

步骤5.2、基于所述测试集中各时刻前一段时间内的交通状态数据、天气数据、道路几何特征数据，利用Logistic模型计算每个时刻的事故概率，并依据所述分类阈值，对事故概率进行分类，当概率大于分类阈值时，则认为发生交通事故，记为1，若概率小于分类阈值，则认为没有发生事故，记为0；

步骤5.3、根据测试集的事故概率分类结果和实际事故情况，统计以下数据：

(1)事故正确预测为事故的数量，并用TP表示；

(2)非事故正确预测为非事故的数量，并用FN表示；

(3)非事故被错误预测为事故的数量，并用FP表示；

(4)事故被错误预测为非事故的数量，并用TN表示；

步骤5.4、依据统计得到的数量FP和TP，利用式(5)计算阳性预测值PPV：

PPV＝TP/(FP+TP) (5)

步骤5.5、依据统计得到的数量FN和TN，利用式(6)计算阴性预测值NPV：

NPV＝FN/(FN+TN) (6)

步骤6、利用计算得到的阳性预测值和阴性预测值，进行事故频次预测；

步骤6.1、周期性采集预测时段内每一时刻前一段时间的交通状态、天气和道路几何特征数据，形成验证集，并利用Logistic模型计算每个时刻的事故概率；

步骤6.2、依据所述分类阈值，对所述验证集中各时刻的事故概率进行分类，当概率大于分类阈值时，则认为发生交通事故，记为1，若概率小于分类阈值，则认为没有发生事故，记为0；

步骤6.3、统计验证集中各路段标记为1的事故数量和标记为0的非事故数量；

步骤6.4、利用式(7)预测各路段的最终事故数：

C_k＝T_k×PPV+F_k×NPV (7)

式(7)中，C_k表示第k个路段的最终事故数预测值，T_k表示第k个路段的事故数量，F_k表示第k个路段的非事故数量，k＝1,2,…,K。

与已有技术相比，本发明有益效果体现在：

1、与传统事故频次预测模型相比，本发明方法将预测时段内的交通状态、天气等时变数据纳入模型，充分考虑了风险因素时变特征对事故的影响，从而显著提升了模型的预测精度；

2、本发明方法利用随机采样法选取非事故样本，减少了非事故数量，使事故数和非事故数达到平衡，提高了模型的拟合优度；

3、本发明方法采用依据约登指数法确定Logistic模型的分类阈值，有效提高了预测事故和非事故数的分类准确性，从而提升了事故频次预测方法的预测精度。

附图说明

图1为本发明考虑风险因素时变特征的公路事故频次预测方法基本流程图；

图2为本发明的ROC曲线图。

具体实施方式

本实施例中，如图1所示，一种考虑风险因素时变特征的公路事故频次预测方法，以美国加州I-880公路为例，按如下步骤进行：

步骤1、采集和处理历史交通事故数据及相关风险因素数据；

步骤1.1、对I-880公路进行路段划分，按照同性质的路段划分方法，即具有相同车道数和平面线型的路段划分为同一路段，将道路划分成K个同性质路段；此外，若划分的路段中有小于0.1英里的路段，则将该路段合并至与其相似度最高的相邻路段中，最终，将I-880公路划分为174个同性质路段；

步骤1.2、建立训练集；

步骤1.2.1、在交通事故数据库中，获取I-880公路一年内的历史事故以及事故发生的时间、经纬度等相关信息，最终，获取得到I-880公路2017年1月至2017年12月事故数共836 起；

步骤1.2.2、依据历史事故的发生时间，采集事故发生时间前5-10分钟的交通状态数据，包括交通量、速度、占有率等；

步骤1.2.3、以1:4作为事故数与非事故数的比例，采用随机采样的方法，从I-880公路的各路段未发生事故的时间中随机选择非事故事件的发生时间和所处路段，并依据抽取的非事故事件的发生时间和所处路段，采集非事故事件的交通状态数据，包括交通量、速度、占有率等；

步骤1.2.4、依据事故和非事故事件的所处路段，获取事故和非事故事件所处路段的道路几何特征数据，包括车道数、是否为曲线、是否有进出口匝道等；

步骤1.2.5、依据事故和非事故事件的发生时间，在气象站中提取天气数据，包括降雨量、能见度等，由于气象站的精度为1小时，因此，将事故和非事故事件发生时间所在小时的天气，作为事故和非事故发生时的天气特征；

步骤1.2.6、整合事故和非事故事件的交通状态、道路几何特征、天气数据，形成N个样本数据，从而得到训练集；在训练集中，将第i个样本是否为事故样本记为y_i，若y_i＝1，表示第i个样本为事故样本，若y_i＝0第i个样本为非事故样本；i＝1,2,3,…,N；经统计，训练集中的事故数为836，非事故数为3344；以事故和非事故事件的交通状态、道路几何特征、天气数据中的各个状态量作为相关风险因素；

采集的相关风险因素如表1所示：

表1用于事故频次预测的候选变量

步骤2、采用逐步回归法筛选有显著性影响的变量，筛选得到的变量有：Speed、Volume、 Curvature、Off-ramp、Lane，利用式(1)建立Logistic回归模型：

步骤3、利用所述训练集和筛选出的变量对Logistic模型进行参数估计，令β为β₀和β_r组成的向量，利用极大似然估计法，求出使如式(3)所示的似然函数L(β)取最大值时的估计参数β′：

在RStudio软件中，采用极大似然估计对Logistic模型进行求解，求得的各变量的参数估计结果如表2所示：

表2 Logistic模型参数估计结果

步骤4、采用约登指数法计算Logistic模型的分类阈值；

步骤4.1、利用Logistic模型计算训练集中各样本的事故概率，并根据结果绘制ROC曲线，ROC曲线如图2所示；

步骤4.2、利用式(4)对ROC曲线上的每个点计算约登指数：

S(j)＝S_e(j)+S_p(j)-1 (4)

式(4)中S(j)表示ROC曲线上j点的约登指数，S_e(j)表示ROC曲线上j点的灵敏度值，S_p(j) 表示ROC曲线上j点的特异度值；

步骤4.3、挑选最大约登指数对应的阈值作为分类阈值；在RStudio软件中，计算本模型的分类阈值，得到本模型的分类阈值为0.211。

步骤5、基于Logistic模型和历史事故数据，计算模型的阳性预测值和阴性预测值；

步骤5.1、建立测试集；

步骤5.1.1、在交通事故数据库中，采集I-880公路2018年1月1日-31日的历史交通事故的发生时间、经纬度等信息；

步骤5.1.2、以5分钟为间隔，采集I-880公路中各路段该月内每一时刻前5-10分钟内的交通数据，如在8:00时刻，提取的交通数据为7:50-7:55间的数据，采集的交通状态数据包括交通量、速度、占有率等；

步骤5.1.3、采集该月内每个时刻的天气数据，包括降雨量、能见度等；

步骤5.1.5、根据2018年1月的历史交通事故数据中所采集的事故发生的经纬度信息，将事故定位到相应路段上；

步骤5.1.6、根据2018年1月内事故的发生时间，将事故发生时间的样本数据标记为1，如事故发生时间为8:00，则将8：00对应的数据标记为1，其余的样本数据作为非事故事件，标记为0，从而形成测试集；

步骤5.2、基于所述测试集中各时刻前5-10分钟的交通状态数据、天气数据、道路几何特征数据，利用Logistic模型计算每个时刻的事故概率，并依据所述分类阈值，对事故概率进行分类，当概率大于分类阈值时，则认为发生交通事故，记为1，若概率小于分类阈值，则认为没有发生事故，记为0；

步骤5.3、根据测试集的预测结果和实际事故情况，统计以下数据：

(1)事故正确预测为事故的数量，并用TP表示；

(2)非事故正确预测为非事故的数量，并用FN表示；

(3)非事故被错误预测为事故的数量，并用FP表示；

(4)事故被错误预测为非事故的数量，并用TN表示；

经过统计，I-880路段上预测和实际事故数与非事故数如表3所示：

表3测试集的事故分类结果

PPV＝TP/(FP+TP) (5)

计算得到阳性预测值为0.0131％；

NPV＝FN/(FN+TN) (6)

阴性预测值为0.00137％；

步骤6.1、根据步骤2.1筛选出的自变量，以5分钟为间隔，采集2018年2月1日至3月31日内每一时刻前5-10分钟的速度、交通量、车道数、是否有出口匝道、是否为曲线信息，形成验证集，用于预测各路段2018年2-3月的事故数；在RStudio软件中，依据所述验证集，利用Logistic模型计算每个时刻的事故概率；

步骤6.4、利用式(7)预测各路段的最终事故数：

C_k＝T_k×PPV+F_k×NPV (7)

式(7)中，C_k表示第k个路段的最终事故数预测值，T_k表示第k个路段的事故数量，F_k表示第k个路段的非事故数量，k＝1,2,…,174。

步骤6.6、模型比较：

步骤6.6.1、比较本发明方法与传统事故频次预测模型在事故频次预测方面的优劣性，采用的传统事故频次模型为负二项模型和零膨胀负二项模型，两个模型的公式如下：

负二项模型：

式(8)中，y_kt表示第k个路段t月的事故数，λ_kt表示第k个路段t月的事故数期望值，α为离散参数；t＝1,2,…,12；

式(9)中，β₀为截距，β_r为第r个变量的系数，x_ktr为第r个变量的值，ε为误差项，服从均值为1，方差为α的伽玛分布；

零膨胀负二项模型：

式(10)中，P_kt为零事故状态下的概率，采用Logistic模型表示；

式(12)中，γ₀为截距，γ_m为系数，z_ktm为第m个解释变量；

上述模型使用的变量如表4所示：

表4用于传统事故频次模型的变量

依据2017年1-12月的事故数以及相关变量数据，在RStudio软件中，建立上述两个模型，首先采用逐步回归法选取显著性变量，然后采用极大似然法进行参数估计，各模型的参数估计结果如表5、表6所示：

表5负二项模型参数估计结果

表6零膨胀负二项模型参数估计结果

步骤5.6.2、采用平均绝对偏差(MAE)比较不同事故频次预测方法的预测能力，指标值越小，说明预测方法的预测精度越高，MAE的计算公式如下：

式(14)中，y_kt和y′_kt分别表示第i个路段t月的交通事故数的实际观测值和预测值；

不同预测方法的MAE值见表7：

表7评价指标比较

由表7可知，本发明方法的MAE最低，说明本方法在考虑风险因素的时变特征后，提高了事故频次预测方法的精度，较传统的事故频次模型有较大的优越性。