CN111784017A

CN111784017A - 一种基于路况因素回归分析的公路交通事故数量预测方法

Info

Publication number: CN111784017A
Application number: CN201910265174.3A
Authority: CN
Inventors: 张潇丹; 陈永胜; 黄程韦
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2020-10-16
Anticipated expiration: 2039-04-03
Also published as: CN111784017B

Abstract

本发明公开了一种基于路况因素回归分析的公路交通事故数量预测方法，通过机器的方式、基于公路各个路段的交通事故的历史数据，确定事故发生概率在时间和空间上的密度函数与公路路况参数之间的关系，建立事故预测模型，进而预测特定时间范围和空间范围内可能发生的事故数量。通过本发明的公路交通事故预测方法，能够全面地考虑公路的路况因素，对事故发生概率在时间和空间上的密度函数进行有效的估计，从而能够客观有效地对特定时间范围和空间范围内可能发生的事故的数量进行预测。

Description

一种基于路况因素回归分析的公路交通事故数量预测方法

技术领域

本发明主要涉及公路交通事故数量的预测方法，特别涉及一种采用智能信息处理技术、基于路况因素回归分析的公路交通事故数量预测方法。

背景技术

公路交通事故数量的预测是交通安全领域的一个重要课题。通过对公路交通事故数量的有效预测，能够有效地指导公路建设的重点方向，及时发现危险路段，进而有效避免交通事故的发生。

在传统的公路规划设计中，通常依靠经验和历史纪录、采用人工的方式简单地进行事故数量的预测。这种方法通常只能考虑简单的路况因素，受到人的经验、计算能力的限制，其考虑的公路特征的数量有限，无法全面、准确地反映实际公路的复杂行驶环境与公路事故数量之间的关联。

因此，实有必要设计一种基于自动化客观分析、通过数据驱动的方式实现的公路交通事故数量预测方法，来弥补人工预测的缺点和不足。

发明内容

本发明的目的在于，提供一种基于路况因素回归分析的公路事故数量预测方法，通过机器的方式、基于公路各个路段的交通事故的历史数据，确定事故发生概率在时间和空间上的密度函数与公路路况参数之间的关系，建立事故预测模型，进而预测特定时间范围和空间范围内可能发生的事故数量。

为实现上述目的，本发明提供了一种公路事故数量预测方法，包括以下步骤：

对公路上过去N年的事故数据进行预处理，分别根据事故发生的时间和空间位置进行分类，建立事故数量与时间和空间位置之间的对应关系；

基于事故数量与时间和空间位置之间的对应关系估计事故概率密度函数；

提取公路上各个路段相对应的路况参数，形成第一路况参数集合，所述第一路况参数集合包含多个样本，每个样本具有多个特征并且包含对应于每个特征的参数描述；

将所述第一路况参数集合中的参数描述数值化，并基于空间位置上的对应性，建立估计的事故概率函数与数值化后的第一路况参数集合O’的对应关系；

将数值化后的第一路况参数集合O’中的至少部分样本输入如下的弹性网络回归函数：

y＝h_a(x_input)＝a₀+a₁*o_1+a₂*o_2+...+a_i*o_i+...+a_n*o_n，

其中，y为函数的输出，x_input是回归函数的输入值；o_i为第一路况参数集合O’中的各个路况参数，其中i的取值为1到n，n为自然数，a_n为第n个变量的线性组合权重，a₀为加性偏置量，以对应的概率密度函数值作为弹性网络回归函数的目标输出值，采用回归分析的方法，确定回归函数的参数a₀、a₁、a₂、……、a_n，建立公路事故数量预测模型；

按照与形成所述第一路况参数集合相同的方式提取与公路上各个路段相对应的路况参数，形成第二路况参数集合，所述第二路况参数集合包含至少一个样本，每个样本具有多个特征并且包含对应于每个特征的参数描述；

按照与所述第一路况参数集合相同的方式将所述第二路况参数集合的参数描述数值化；

将数值化后的所述第二路况参数集合中的样本输入所述公路事故数量预测模型，即可得到各个路段所对应的概率密度函数值，从而获得相应的概率密度函数；

对概率密度函数在时间维度和空间维度上进行二重积分，即可得到相应的时间和空间范围上的预测的事故数量。

优选地，所述基于事故数量与时间和空间位置之间的对应关系估计事故概率密度函数的步骤还包括：通过插值的方式对那些从未发生过事故的路段进行事故概率密度的赋值。

优选地，所述公路事故数量预测方法，还包括对估计的概率密度函数进行平滑处理的步骤。

优选地，所述公路事故数量预测方法，进一步包括如下的特征优化步骤：

在将数值化后的第一路况参数集合O’中的样本输入到弹性网络回归函数之前，通过数据驱动的方式，采用混合蛙跳算法对所述数值化后的第一路况参数集合O’中样本的特征维度进行优化，降低用于建模的样本的特征的数量，生成最优特征组合。

优选地，所述特征优化步骤进一步包括如下步骤：

(1)从所述数值化后的第一路况参数集合中，选取置信度高的数据，作为混合蛙跳算法的验证数据；

(2)基于所述验证数据通过随机组合路况参数生成混合蛙跳算法的不同个体，每个个体代表一个特征向量，所述特征向量的每个特征从所述第一数据集合的样本的特征中选出，每个特征向量代表一种可能的特征组合方式，其维度不超过所述第一数据集合的样本的特征维度；

(3)针对每个个体所代表的路况因素向量，利用所述弹性网络回归函数进行分析，将其误差做为优化算法的适应度函数，选择适应度值高的个体，通过随机组合部分路况参数，生成下一代的个体；

(4)当误差小于预设的门限值或这迭代次数超过预定的上限时，结束迭代，保存最优特征组合，否则重复步骤(3)。

优选地，所述公路事故数量预测方法进一步包括如下的数据矫正步骤：

在将所述第一路况参数集合中的参数描述数值化之前，对公路的各个路况参数进行矫正，排除参数描述明显与公路实际情况不符的路况参数。

优选地，所述数据矫正步骤进一步包括如下步骤：

人工筛选可信度高的数据，建立概率分布模型；

对路况参数进行错误预测，计算后验概率的数值，对低于经验门限值的进行矫正；

采用概率模型的期望值作为矫正值。

优选地，提取路况参数的方式包括：

基于实地勘查和测量获取公路的路况参数，至少包括：路侧物体距离、坡度、警告标志；

基于规划设计文件抽取公路的路况参数，至少包括：区域类型、护栏高度、车道数、限速、车道宽度；

基于视频监控装置采集的视频自动提取路况参数，至少包括：路侧物体类别、照明情况、积雪路段、积水路段。

优选地，基于视频监控装置采集的视频自动提取路况参数的步骤进一步包括以下步骤：

从视频数据中检测关键帧：提取前后两帧的数据的图像像素矩阵，I₁、I₂，计算其差分图像：D＝I₁-I₂，对D进行两次膨胀算子操作、两次腐蚀算子操作，滤除图像噪点，得到D’，对D’进行二值化，得到D²，如果D²中像素为1的区域超过预定的比例，则判断为关键帧；

建立路侧物体、照明情况、积雪路段、积水路段的模板：收集路侧物体、照明情况、积雪路段、积水路段对应的图像样本，提取图像的SIFT特征，建立各类场景的模板，包括：路侧物体-树木、路侧物体-悬崖、路侧物体-建筑、路侧物体-岩壁、路侧物体-农田、照明-良好、照明-较差、照明-很差、积雪路段-一般、积雪路段-严重、积雪路段- 无积雪、积水路段-一般、积水路段-严重、积水路段-无积水；

根据关键帧与模板的比较确定关键帧对应的场景：对关键帧图像提取SIFT特征，根据特征和模板之间的欧式距离，进行分类，将特征分配到距离最接近的模板上，所配得特征数量最多的模板其所属类别，即为识别得到的当前关键帧图像所属于的场景类别；

对视频中的关键帧的识别结果，进行投票法融合，取多帧识别的类别结果中的多数做为最终的类别识别结果。

优选地，所述数值化后的第一路况参数集合被分成多个子集，所述多个子集至少包括训练集和验证集，所述训练集用于对回归模型进行训练，所述验证集用于调节训练时的超参数设置。

优选地，所述多个子集还包括测试集，所述测试集用于评估所述公路事故数量预测模型的可靠度。

优选地，采用所述弹性网络回归函数进行回归分析的过程如下：

(1)求解参数损失函数达到最小，损失函数的计算方法为：

(2)进行参数的正则化约束，增加正则化约束后的损失函数更新为：

(3)增加L1距离的正则化约束项到损失函数中：

其中正则化的参数设置为，γ₁＝0.1，γ₂＝0.5。

(4)对损失函数求解梯度，采用梯度下降法求出最小损失对应的模型参数a_i，其中学习速率设为0.01，最大迭代次数设置为5000次，停止迭代的损失函数阈值条件为小于0.0001。

通过本发明的公路交通事故预测方法，能够全面地考虑公路的路况因素，对事故发生概率在时间和空间上的密度函数进行有效的估计，从而能够客观有效地对特定时间范围和空间范围内可能发生的事故的数量进行预测。

附图说明

图1为根据本发明优选实施例的事故数据预处理的流程示意图；

图2为根据本发明优选实施例的估计事故密度函数的流程示意图；

图3为根据本发明优选实施例的路况参数列表的示意图；

图4为根据本发明优选实施例的数字化后的路况参数列表的示意图；

图5为根据本发明优选实施例的公路交通事故数量预测方法的流程示意图；

图6为根据本发明优选实施例的表示训练数据、验证数据以及测试数据的误差分布的示意图。

具体实施方式

下面结合附图，对本发明的优选实施例作更进一步的说明，以使本领域技术人员更好地理解本发明。

本发明通过采集描述公路路况的参数，将路况参数变换为计算机可识别的数据形式，并基于各个路段上交通事故的历史数据对事故数量概率密度函数进行估计，以概率密度函数值作为目标、采用弹性网络回归分析的方法，确定概率密度函数的回归模型的参数，建立反映路况参数与特定时间、空间范围内事故数量之间关系的预测模型，进而通过该模型预测可能发生的交通事故的数量。

图1为根据本发明优选实施例的事故数据预处理的流程示意图。

公路交通事故数据的统计，来自于相关公路路段的事故记录，原始的事故记录往往包含很多无效的信息，记录的格式也多种多样，因此需要对数据进行清洗，剔除无关的数据，保留事故的地点、时间等关键信息。

对交通事故历史数据的处理，包括提取事故发生的日期、事故地点的公路名、路桩号。对事故报告中文本信息的提取，可以通过Python等脚本程序进行自动化的处理，通过分词，命名实体识别等步骤完成。对自动处理后的结果，可以进行人工的复查和纠错。经过上述的预处理过程，可以形成具有统一数据格式的事故数据。

对特定公路上过去N年的事故数据进行预处理后，分别根据月份、路段进行时间和空间上的数据分类，从而构造以下的函数关系：

f＝F(M,K)；

其中，M为月份的序号(过去N年中每个月的序号，顺序递增，跨年时不归零)， K代表路段的编号，f为非负整数，代表特定的路段内、特定的月份中发生的交通事故的数量。

由此，特定公路上过去N年的事故数据就被转换成二维数组的形式，数组中存储的数据表示第M个月中在第K个路段上发生的交通事故的数量。

在本发明的优选实施例中，上述的二维数组被进一步分解为一维的离散序列。对于固定的月份M(例如取值为0、1、2……m)，事故数量f与路段K之间的关系可以分别表示为：

f0＝F(0,K)；

f1＝F(1,K)；

...

fm＝F(m,K)，

即，对于路段K而言，第m个月中发生的事故数量为fm。

这些离散序列表示，过往事故的发生往往在空间位置上是孤立的。但从概率的角度来看，事故发生的可能性是遍布公路上的所有位置的；而且，对于相同或相邻的路段，其发生事故的概率也是相近的。因此，在对事故概率密度的估计中，可以在空间上对事故数量的分布进行插值，由此通过有限的、离散的事故分布来逼近连续的概率分布函数。

图2为根据本发明优选实施例的估计事故密度函数的流程示意图。如附图2所示，对初步获得的事故坐标分布，进行密度的计算、插值，可以构造出一个可以统计的密度函数。

首先，对事故的发生位置进行标定，获得一维的离散信号；接着，以固定的间距统计事故发生的密度，即一定距离内发生的事故的数量；最后，通过插值的方式对那些从未发生过事故的路段进行事故概率密度的赋值。应该理解，未发生过事故的地点，并非发生事故的可能性低，实际上，只要距离事故发生地点足够近，事故发生的概率也应该非常接近。

为了提高抽样率，即提高路段的分辨率，可以对上述的离散序列进行插值。在本发明的优选实施例中，以100米为单位(通常对应于两个相邻路桩的间隔)，在整个公路长度范围内，计算每一百米的路段对应的事故概率密度值。

令函数F中第K个路段的长度为L_k(单位为千米)，各个路段的长度可以不同，但在本发明的优选实施例中，令每个路段的间隔相等。每个路段上的事故数量为f，则对应的事故密度为p_k＝f/L_k，

在进行插值提高分辨率时，增加对应路段范围内的抽样点取值，从1个抽样值，提高到floor(L_k/10)个抽样值，其中floor代表取整运算，令在该路段范围内的所有抽样点对应的事故数量密度都为p_k。

通过上述过程，可以获得插值后的概率密度函数F’。

在本发明的优选实施例中，为了进一步逼近概率密度函数以及消除训练过程中不利于准确拟合映射关系的突变值，可以对概率密度函数进行平滑处理。将获取的插值后的概率密度函数进行平滑处理，依次遍历各个抽样点，在当前抽样点的前后C个抽样点的领域内，进行高斯函数的卷积运算，对数据进行平滑，以抑制事故密度函数值的突变。在利用高斯函数进行平滑处理是，C的取值通常为5-10，可以根据采样间隔的大小相应调整。经过平滑处理，得到概率密度函数F”。应该理解，本发明并不局限于通过高斯函数进行平滑处理，还可以采用其它的方法，比如求平均值法。

获得了路段各个路桩处的事故概率密度，就可以基于各个路桩出的路况参数和事故概率密度之间的对应关系，建立回归模型，通过回归分析确定公路路况参数和事故发生概率之间的关系。

在本发明的优选实施例中，可以通过下述过程建立公路路况参数的数据结构，其中包括公路不同位置的坐标、坐标对应的路况参数以及坐标对应的事故发生概率密度值。

首先，公路不同位置的坐标与公路路况参数的对应关系如下：

公路位置坐标X→最接近的公路桩号Z→公路的路况参数O，

其中→代表映射关系；

接着，将公路位置坐标X转化为每100米为1个计量单位，即K’＝floor(X/100)，

由此就可以得到公路位置坐标与事故概率密度函数之间的对应关系：

公路坐标K’→事故概率密度函数F’或F”中对应的数值p＝F’(K’)或p＝F”(K’)。

通过上述过程，就可以依据相同的位置坐标值，在概率密度值与路况参数之间建立对应关系，构成一一映射，即：

公路的路况参数O→事故概率密度数值p；

其中O为一个向量的集合，包含了可能影响特定路段上事故数量的路况参数的列表以及对应的参数值，例如隔离带高度、坡度、左侧障碍物、右侧障碍物、限速、路面情况、警示标志、转弯半径、车道数量、交叉口类型、交叉口流量、交叉口视距、交叉口角度、诱导设施、照明情况、车道变窄、路面低洼等各种参数。实际上，路况参数并不局限于这些参数，还可以是根据经验、专家知识归纳的其它因素。

为了满足机器学习和后续建模的要求，需要从已知的公路路况数据中提取公路路况参数，并变换为计算机可识别的数据形式。

在本发明的优选实施例中，获取路况参数的方式包括：

1、针对具体的公路路段，基于实地勘查和测量获取公路的路况参数，包括：中间带类型、振动标线、路测条件(例如，左侧路侧物距离、右侧路侧物体距离、路测净空)、路肩振动带、硬路肩宽度(左侧路肩宽度、右侧路肩宽度)、交叉口类型、交叉口流量、交叉口视距、交叉口角度、交叉口安全性、交叉口渠化、护栏状况(左侧护栏状况、右侧护栏状况)、警告标志、弯道安全性、线形诱导设施、隧道、单向车道数等。

2、基于规划设计文件抽取公路的路况参数，包括：区域类型、护栏高度、车道数、限速、车道宽度、弯道半径、坡度等。为了从规划文档中获取数据，可以从文档中进行关键词的自动抽取，利用自然语言处理的分词工具进行分词，再进行关键词词典的建立，从而获得指定路段的公路环境参数。

3、基于视频监控装置采集的视频自动提取路况参数，包括：路侧物体类别、照明情况、积雪路段、积水路段等。为了从视频中获取环境参数，可以采用图像识别的方法从监控视频的图像帧中提取。

在本发明的优选实施例中，通过提取关键帧，即计算两帧相邻帧之间的像素变化，对于变化大的帧认为是出现交通车辆的帧，不予提取公路信息，对于变化小的帧认为是静止画面，有利于提取公路环境信息，避免车辆干扰。对清晰度和光照进行计算，通过图像质量的客观评价，选取合适的高清晰度帧进行特征提取。采用SIFT(Scale InvariantFeature Transform)特征，或者LBP(Local Binary Pattern)图像特征，对公路图像进行特征提取，依靠人工标注的监督信息，即公路环境类别标签，如路侧物体类别等，进行图像模板的提取，训练好的模型即可用于公路环境参数的自动识别。

在本发明的优选实施例中，基于视频监控自动提取路面情况参数的步骤具体包括：

(1)从视频数据中检测关键帧：提取前后两帧的数据的图像像素矩阵，I₁、I₂，计算其差分图像：D＝I₁-I₂，对D进行两次膨胀算子操作、两次腐蚀算子操作，滤除图像噪点，得到D’，例如，可以采用Opencv图像处理工具进行膨胀算子操作和腐蚀算子操作，采用默认的3*3模板；对D’进行二值化，得到D²，即，二值化后的结果的符号，取值有0和1，如果D²中像素为1的区域超过一定的比例，如30％，则判断为关键帧；这里 30％是一个可以调节的经验值，例如还可以是35％、25％等，比例越大代表筛选出的关键帧里的物体运动速度越大；

(2)建立路侧物体、照明情况、积雪路段、积水路段的模板：收集路侧物体、照明情况、积雪路段、积水路段等不同场景对应的图像样本，提取图像的SIFT特征，建立各类场景的模板，包括：路侧物体-树木、路侧物体-悬崖、路侧物体-建筑、路侧物体 -岩壁、路侧物体-农田、照明-良好、照明-较差、照明-很差、积雪路段-一般、积雪路段 -严重、积雪路段-无积雪、积水路段-一般、积水路段-严重、积水路段-无积水；

(3)根据关键帧与模板的比较确定关键帧对应的场景：对关键帧图像提取SIFT特征，根据特征和模板之间的欧式距离，进行分类，将特征分配到距离最接近的模板上，所配得特征数量最多的模板其所属类别，即为识别得到的当前关键帧图像所属于的场景类别；

(4)对视频中的关键帧的识别结果，进行投票法融合，取多帧识别的类别结果中的多数做为最终的类别识别结果。

基于对视频数据的分析与识别技术，自动提取路况参数，能够从有效地避免人工提取的主观性对结果可靠性的影响，并且能够显著提高路况参数提取的效率。

在本发明的优选实施例中，可以根据公路路况参数中的公路名称、行驶方向、桩号确定对应的路段，进而在路段的概率密度值与路况参数之间建立对应关系。

在本发明的优选实施例中，可以将获取的路况参数用统一的形式表示，即构建公路路况参数数据结构，由此能够有效减少后续数据优化以及建模过程的工作量，有利于提高数据优化和建模的效率。

通常，通过以上方式获得的路况参数大都是采用文本语言的方式进行描述的，例如：如附图3所示，中间带类型，可以描述为中心线；左侧物体，可以描述为直径大于10 厘米的树、混凝土护栏等；交叉口流量，可以描述为1000到5000量等模糊概念。

在本发明的优选实施例中，公路路况参数数据结构中的路况参数列表采用数据表格的形式，或者成为特征向量，数据表格中其余每一列都代表一个路况参数；数据表格中的每一行对应一段路段的路况数据。

在本发明的优选实施例中，用来描述各个路况参数的文字短语是相对固定的，即，选自一个有限(数量不大)的集合，用于描述该路段的路况参数的特征。从随机过程的角度看，每一列对应一个特征的离散符号集合，每一个单元即是一个离散随机变量，其取值符合某一概率分布(如混合高斯分布)，每个取值是从该列的集合中随机生成一个离散符号。为了适合通过深度神经网络进行建模，可以对原始公路路况参数数据结构中的路况参数列表进行预处理，即数值化，将其中的文字短语转换为易于被计算机识别和处理的形式，例如，用0-N的自然数表示，当然也可以采用任何其它符号形式。

图4示出了根据本发明的优选实施例的、经过数字化的路况参数列表，图中每行对应一个路段参数样本，每列对应一个公路参数指标。从图4中可以看到，该CSV格式的数据中存在大量的0，这是正常的情况，因为原始的公路数据表格中，有大量共性的数据取值，都以“无”、“未开发”、“足够”等不变的取值存在。公路设施数据中，相似情况的公路路段会大量重复出现，因此实际的表格数值也会大量相等的重复出现。同时，可以看到，原始数据中有些特征具有明确的物理含义，例如，速度限制。对于这一类特征，速度的高低之间蕴含着潜在的安全信息，速度越快，发生事故的可能性越高。如果将这类特征转换为离散符号，则丢失了这类特征数值上的内在关系，因为离散符号无法体现不同速度限制与事故发生概率之间的互相关系。因此，对于具有特定物理意义的数值形式参数描述，在对路况参数列表进行预处理时，提取和保留其数字数值，而不是简单的通过0、1、2、3等来代表其特征值。

在本发明的优选实施例中，为了保证建模以及后续预测的可靠性，在对原始的路况参数列表进行数字化处理之前，可以对其中的公路路况参数值进行校正，排除与实际路况不相符的参数值。

公路路况参数的矫正，可以通过以下过程进行：

(1)人工筛选可信度高的数据，即采用多人评价打分的方法，设人数为N，参数数量为M，分数记为S，获得每人对每个参数的可靠度的打分S_n,m，其中n代表打分者的编号，m代表参数的编号，通过统计每人的打分的可信度，进行分数的权重融合，即在同一个参数不同人的打分范围内统计每人打分的偏差，

为参数m 上所有人打分的均值，将其与每人给出的打分做差，超过阈值th的部分作为偏差，不超过阈值th的部分置零，认为是合理的偏差，即，

Error_n,m＝abs(S_n,m-Mean(S_m))，ifabs(S_n,m-Mean(S_m))>th，

Error_n,m＝0，ifabs(S_n,m-Mean(S_m))<＝th，

在所有参数上都进行同样的偏差计算，取其平均值，作为最终每人的偏差，偏差越大，置信度越低，

每个人的打分的置信度为：

通过每人的置信度，对每个参数的打分进行加权处理，获得加权的均值：

将此分值作为依据筛选出得分高的参数用于建模；

(2)对路况参数的取值value，进行混合高斯模型的统计建模，即估计其均值向量M_Value＝[m₁,m₂,m₃,m_h]，h为混合度(例如，可以将混合度参数设置为4-64之间的数值)，即为高斯分量的个数，估计其协方差矩阵Σ_i，权重a_i，并且计算每个数值的后验概率 P(value|M_Value,Σ)；

(3)低于经验门限值的数值，用其数学期望值代替，

从而进行矫正，这里的经验门限值一般为取Log对数后，大约在负的几十到几百左右，通常根据建模效果来设置和调节，一般为少量(0.1％)比例的代替矫正。

建立起事故概率密度值与路况参数之间的映射关系后，每一个采样点的概率密度值都对应一组路况数据。也就是说，获得了各个路段路桩处的事故概率密度。实际上，并非所有路况参数都与事故概率密度存在密切的关系。因此，在进行回归分析之前，可以首先通过优化算法，对各个路况参数进行优选和排除，将一些无关的路况参数剔除，以降低回归模型的复杂度，即，采用更少的参数，建模的速度更快，模型的误差也更小，从而有效地提高回归分析的效果。

一方面，路况参数特征向量的特征维度一般较高，如果直接用来进行建模会使模型非常复杂，带来巨大的运算量；另一方面，在样本量不够充足的情况下，也无法有效提取众多路况参数与事故发生概率之间的关系。因此，在本发明的优选实施例中，通过压缩降维的方式对路况参数的特征向量进行特征优化，即，通过减少路况参数列表中特征的数量，排除不相关或者相关度小的特征维度，生成最优特征组合，从而简化待建立的模型，提高建模的效率和可靠性，以及改善模型预测事故数量的速度。

在本发明的优选实施例中，采用混合蛙跳算法(Shuffled Frog LeapingAlgorithm SFLA)对路况参数的特征向量O进行降维优化，达到降低维度的效果。一般将特征维度从原始的30-100个维度(对应公路的环境因素)，降低到10个维度左右。

采用混合蛙跳算法对路况参数的特征向量O进行降维优化，首先对种群进行初始化，任意选取N个路况参数构成一个混合蛙跳算法中的个体，通过混合不同的路况因素，构成新的个体，每一个个体代表一种特征维度的组合方式。

针对每个个体所代表的路况因素向量，进行弹性网络回归分析，将其误差做为优化算法的适应度函数，优选适应度值大的个体，通过随机组合部分的路况因素，生成下一代的个体；

重复以上过程，直到误差小于一定的门限值，或迭代次数超过上限。

优化后特征向量O’的维度减小，实现了维度压缩优化的目的，同时也表明其所包含的各个特征维度与事故数量的概率密度相关性更大，构成了最优特征组合。

在本发明的优选实施例中，通过混合蛙跳算法进行特征的优化时，可以采用下面将详细描述的弹性网络(ElasticNet)回归模型。ElasticNet是一种使用L1距离和L2距离作为正则化矩阵的线性回归模型。

在本发明的优选实施例中，采用如下的线性回归函数：

y＝h_a(x_input)＝a₀+a₁*o_1+a₂*o_2+...+a_i*o_i+...+a_n*o_n，

其中，y为函数的输出，其值是概率密度函数值；x_input是回归函数的输入值，是路况参数的多个变量O’，记每个路况参数为o_i，其中i的取值为1到n，n为自然数，表示路况参数变量的数量；其中a_n为线性组合权重，代表第n个变量的重要程度，a₀为加性偏置量。

基于上面的回归函数，将降维后的路况参数向量O’作为多维的自变量，以对应的概率密度函数值作为回归分析的目标函数值，采用回归分析的方法，进行概率密度函数的估计，即，求回归函数的参数a₀、a₁、a₂、……、a_n。

在本发明的优选实施例中，通过梯度下降法，采用ElasticNet模型中的正则化方法计算代价函数，通过使回归模型的输出数据在数值上与输入的路况参数对应的概率密度值最接近，来求回归模型的参数。

在本发明的优选实施例中，采用弹性网络回归模型进行事故数据的回归分析，过程如下：

第一步：求解参数损失函数达到最小，损失函数的计算方法为：

第二步：避免对训练数据的过拟合，进行参数的正则化约束，增加正则化约束后的损失函数更新为：

起到的效果是使得被约束的参数a_i不能过大。

参照弹性网络模型的正则化，其定义是增加L1距离的正则化约束项，到损失函数中：

其中正则化的参数设置为，γ₁＝0.1，γ₂＝0.5。

第三步：对损失函数求解梯度，采用梯度下降法求出最小损失对应的模型参数a_i。学习速率设为：0.01，设置最大迭代次数为5000次，停止迭代的损失函数阈值条件为小于0.0001。

除了梯度下降法，还可以采用最小二乘法、最大似然估计求解参数，通过令偏导数等于零求解极值，不需要设置初始参数。

在本发明的优选实施例中，当损失函数不再变化，或者波动范围小于阈值0.0001时)，认为建模完成，保存回归模型的参数，就可以获得用于预测事故数量概率密度的模型。

在本发明的优选实施例中，将基于事故历史数据分为训练集、验证集和测试集，其中，训练集用于对回归模型进行训练；验证集用于调节训练时的超参数设置，例如学习率、最大迭代次数、停止迭代的阈值条件等；测试集用于评估模型的可靠度。采用梯度下降算法(学习率0.01)用训练集的数据对模型进行训练，来获得回归模型的权重参数；然后，使用相对于训练集独立的验证集数据测试调节训练过程的超参数设置，包括调节学习率、最大迭代次数、停止迭代的阈值条件，通过不断改变超参数设置的值，观察模型在验证集数据上的损失函数的变化，目标是使得损失函数最小，由此获得回归分析的超参数设置。至此，就完成了对回归分析模型的训练，保存回归参数，获得了可以用来预测公路事故概率密度的回归模型，该模型体现了路况参数与事故发生概率之间的复杂的函数关系。

借助于测试集数据可以评估回归模型的性能。通过比较发现，如果将训练集和验证集不区分，用同样的数据对模型进行训练和调节超参数设置，会引发过拟合的问题。通过使用彼此独立的训练集和验证集数据，可以有效避免这种情况的发生。

图5为根据本发明优选实施例的公路交通事故数量预测方法的流程示意图。

图6示出了根据本发明优选实施例的表示训练数据、验证数据以及测试数据的误差分布的示意图，其中，横轴表示每公里事故数量的误差，纵轴表示误差样本的数量。如图6所示，在大量的实际事故历史数据上进行了实验，通过回归分析，能够得到可靠的事故数量的概率密度函数模型。

在基于实际路况因素进行事故数量的预测时，按照处理历史事故数据同样的方式获取并处理最优特征组合所对应的路况参数，将其输入建立好的弹性网络回归模型，计算弹性网络回归函数，即可得到各个路段所对应的概率密度函数值，进一步对概率密度函数在时间和空间上进行二重积分，就能够获得指定的时间范围和路段地理范围内可能发生的事故数量的预测值。

当前面建模时是以月为时间单位对历史事故数量进行统计时，如果预测的仍然是每个月中可能发生的交通事故的数量，则无需在时间的维度上进行积分。本领域技术人员能够理解，建模时对历史事故数量进行统计也可以以其它时间单位为基础进行。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种公路事故数量预测方法，包括以下步骤：

y＝h_a(x_input)＝a₀+a₁*o_1+a₂*o_2+...+a_i*o_i+...+a_n*o_n，

2.根据权利要求1所述的公路事故数量预测方法，所述基于事故数量与时间和空间位置之间的对应关系估计事故概率密度函数的步骤还包括：通过插值的方式对那些从未发生过事故的路段进行事故概率密度的赋值。

3.根据权利要求1或2所述的公路事故数量预测方法，还包括对估计的概率密度函数进行平滑处理的步骤。

4.根据权利要求1或2所述的公路事故数量预测方法，进一步包括如下的特征优化步骤：

5.根据权利要求4所述的公路事故数量预测方法，其中所述特征优化步骤进一步包括如下步骤：

6.根据权利要求1或2所述的公路事故数量预测方法，进一步包括如下的数据矫正步骤：

7.根据权利要求6所述的公路事故数量预测方法，其中所述数据矫正步骤进一步包括如下步骤：

人工筛选可信度高的数据，建立概率分布模型；

采用概率模型的期望值作为矫正值。

8.根据权利要求1所述的公路事故数量预测方法，其中，提取路况参数的方式包括：

9.根据权利要求8所述的公路事故数量预测方法，其中基于视频监控装置采集的视频自动提取路况参数的步骤进一步包括以下步骤：

建立路侧物体、照明情况、积雪路段、积水路段的模板：收集路侧物体、照明情况、积雪路段、积水路段对应的图像样本，提取图像的SIFT特征，建立各类场景的模板，包括：路侧物体-树木、路侧物体-悬崖、路侧物体-建筑、路侧物体-岩壁、路侧物体-农田、照明-良好、照明-较差、照明-很差、积雪路段-一般、积雪路段-严重、积雪路段-无积雪、积水路段-一般、积水路段-严重、积水路段-无积水；

10.根据权利要求1所述的公路事故数量预测方法，其中，所述数值化后的第一路况参数集合被分成多个子集，所述多个子集至少包括训练集和验证集，所述训练集用于对回归模型进行训练，所述验证集用于调节训练时的超参数设置。

11.根据权利要求10所述的公路事故数量预测方法，其中，所述多个子集还包括测试集，所述测试集用于评估所述公路事故数量预测模型的可靠度。

12.根据权利要求1所述的公路事故数量预测方法，其中，采用所述弹性网络回归函数进行回归分析的过程如下：

(1)求解参数损失函数达到最小，损失函数的计算方法为：

(3)增加L1距离的正则化约束项到损失函数中：

其中正则化的参数设置为，γ₁＝0.1，γ₂＝0.5。