CN114626684A

CN114626684A - 一种大数据驱动的高速公路交通事件持续时间预测方法

Info

Publication number: CN114626684A
Application number: CN202210152038.5A
Authority: CN
Inventors: 陈娇娜; 李道峰; 陶伟俊; 陈学娜
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-06-14

Abstract

本发明提供了一种大数据驱动的高速公路交通事件持续时间预测方法；包括：步骤1，建立高速公路交通事件数据集，提取研究所需的字段；步骤2，对提取的数据字段进行预处理；步骤3，在数据预处理的基础上，建立随机森林模型，对高速公路交通事件持续时间进行预测；步骤4，在数据预处理的基础上，结合事件文本信息的特征向量，建立基于随机森林的文本数据特征预测模型；步骤5，采用平均绝对误差、平均相对误差对预测模型精度进行对比分析。本发明融合结构化的影响因素和半结构化的文本信息，能够在不同状况下对高速公路交通事件持续时间进行预测，从而实现道路管理者和使用者对交通事件更加全面可靠的预判。

Description

一种大数据驱动的高速公路交通事件持续时间预测方法

技术领域

本发明涉及智能交通领域；尤其涉及一种大数据驱动的高速公路交通事件持续时间预测方法。

背景技术

高速公路交通事件是指对交通安全、道路运行状态、通行能力、行程时间等有影响以及交通运行管理部门关注的事件。随着智能交通监控系统日益完善，人身和财产的安全得到必要保障，但是由交通事件引发的拥堵和延误日趋常态化。交通事件仍然是高速公路交通拥堵的主要原因，其造成的时间延误成为行业内和社会公众的关注焦点。合理预测高速公路交通事件持续时间，可以实现路网的诱导分流控制，避免巨大的行车时间损失，为公众出行提供决策依据和可靠的道路服务。对于这些事件，倘若不能够及时的进行处理，很可能引发二次交通事故，这就意味着交通事件严重程度的加剧，进一步也延长了交通事件持续时间。因此，对高速公路交通事件持续时间预测这一任务变得格外关键。

目前，交通事件持续时间研究侧重于交通事故、车辆抛锚、自然灾害等事件的持续时间预测，但是临时性养护施工、特殊车辆通行、货物掉落、道路损毁等交通事件也时有发生，同样也会造成较长时间的交通拥堵。面对这类交通事件，现有持续时间预测模型的适应性略有不足。同时，交通事件信息在不同运营管理单位和不同业务处置角色之间的流转，包含有自然语言的文本数据描述。相较于结构化的属性特征，文本数据包含的信息具有一定的丰富性和多元性，因此可以从中获取更多对交通事件持续时间研究有帮助的信息，融合交通事件文本信息对预测模型的建立具有积极意义。

发明内容

本发明的目的是提供了一种精确可靠的基于大数据技术和文本挖掘的高速公路交通事件持续时间预测方法。本发明在海量、多源的高速公路交通事件数据集的基础上，将结构化数据挖掘与文本分析相结合，以对道路通行能力有影响的交通事件为研究对象，建立高速公路交通事件持续时间预测模型，以避免巨大的行车时间损失，为公众出行提供决策依据和可靠的道路服务。

本发明是通过以下技术方案实现的：

本发明涉及一种大数据驱动的高速公路交通事件持续时间预测方法，包括如下步骤：

步骤1，建立高速公路交通事件数据集，提取研究所需的字段；

步骤2，对提取的数据字段进行预处理，包括对结构化数据的预处理和文本数据的预处理；

步骤3，在数据预处理的基础上，采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性建立随机森林模型，对高速公路交通事件持续时间进行预测；

步骤4，在数据预处理的基础上，采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性，结合事件文本信息的特征向量，建立基于随机森林的交通事件持续时间预测模型；

步骤5，采用平均绝对误差(MAE)、平均相对误差(MAPE)两项评价指标对2种预测模型精度进行对比分析；通过对比结果，可知基于文本挖掘和随机森林算法的高速公路交通事件持续时间预测模型具有较优的性能指标，并在实际数据中表现出更好的适用性。

优选地，步骤1中的具体步骤为：将高速公路交通事件数据中的结构化数据与文本数据相结合，形成高速公路交通事件大数据，并从中提取研究所需要的字段。

(1)从结构化数据中，提取所需要的字段包括：事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。

(2)从文本数据中，提取的字段包括：事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。

优选地，步骤2中，所述预处理的四个主要任务：数据清洗、数据集成、数据变换和数据规约；该步骤结合研究目标，设计数据库表结构及其字段，以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同，数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要，将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常，对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。

步骤2中，所述结构化数据的预处理具体为：

(1)数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据，包括缺失数据、错误数据等。异常数据主要包含：缺少交通事件报警时间或者事件处理完成时间、异常时间数据记录、异常位置数据记录。

(2)根据高速公路交通事件发生后，数据记录中的报警时间和交通事件处理完成时间两个字段，构造新的字段，计算高速公路交通事件持续时间，表达式(5)如下所示：

t_duration＝t_processdone-t_alarm (5)

式(1)中，t_duration交通事件持续时间，t_processdone为交通事件处理完成时间，t_alarm为报警时间。

(3)计算交通事件持续时间样本数据的上下四分位数，以上下两个分位值为有效数据区间的上限和下限，超出该范围的数据被认为是噪声数据。表达式(6)、(7)如下所示：

t_limit-down＝t_25％-1.5×(t_75％-t_25％) (6)

t_limit-up＝t_25％+1.5×(t_75％-t_25％) (7)

式(6)中，t_limit-down为有效数据区间G的下限；式(7)中t_limit-up为有效数据区间G的上限；t_25％和t_75％分别表示样本数据的25％和75％分位数。

(4)对研究字段中的类型数据，如天气状况、交通事故类型、天气状况、涉及车辆类型等字段进行数字编码，便于后续计算。

步骤2中，所述文本数据的预处理具体为：

对文本数据进行分词处理，需保证文本的主要信息。文本中存在大量感叹词、语气词、虚词等一些对研究无意义的词，因此，需要进行去停用词处理，从而大大降低文本中冗余特征数量，避免无用特征对后续模型构建的干扰，处理过程如下：

对于一个含有n个文本的集合D＝{d₁,d₁,…,d_n},以及在所有文本中出现的m个单词的集合w＝{w₁,w₂,…,w_m}。将单词在文本中出现的数据用一个单词-文本矩阵表示，记作X，如下：

这是一个m×n矩阵，元素x_ij表示单词w_i在文本d_j中出现的权值，权值通常用单词频率-逆文本频率(TF-IDF)表示，其表达式(8)如下所示：

式中tf_ij是单词w_i出现在文本d_j中的频数，tf_.j是文本d_j中出现的所有单词的频数之和,df_i是含有单词w_i的文本数，df是文本集合D的全部文本数。

所述步骤3的具体分析过程为：

(1)在步骤2的基础上，从结构化数据中，进行S次随机抽样，每次随机抽取(有放回抽样)m个特征和n个数据样本组成特征向量空间C_S和数据集D_S(其中，S＝1,2,3,…),构建S棵决策树，构建决策树所采用的算法为C4.5，其用信息增益比来选择特征，其信息增益比表达式(9)如下所示：

式(5)中，A代表某个特征，D代表数据集。

其中

n表示根据特征A将数据集D划分为子集的个数，分别为D₁,D₂,…D_n，i＝1,2,3…,n，θ(D,A)为特征A对训练数据集的信息增益。

(2)对决策树进行剪枝处理

为了防止在构建决策树之后，出现过拟合的现象，即队训数据集有很强的预测效果，但对测试数据集的预测效果却大大降低。对每棵决策树进行剪枝处理，具体步骤如下：

决策树的剪枝往往通过极小化决策树整体的损失函数来实现，设树T的叶结点个数为|T|，t是树T的叶结点，该叶结点有N_t个样本点，其中k类的样本点有N_tk个，k＝1,2,…,K，H_t(T)为叶节点t上的经验熵，α≥0为参数，则决策树学习的损失函数可以定义为

其中，经验熵为

将式(2)代入式(1)，并将最终表达式中右端第一项记作

综合以上，可得

C_α(T)＝C(T)+α|T|………(4)

式(3)中，C(T)表示模型对训练集的预测误差，|T|表示模型的复杂度；式(4)中参数α≥0控制两者之间的影响。

对剪枝前后的决策树进行，运用上述式(4)，分别计算两棵树的预测误差，若满足以下条件：

C_α(T_后)≤C_α(T_前)

则进行剪枝，即将父节点变为新的叶节点。

(3)构建随机森林模型

在上述所生成的决策树的基础上，构建随机森林模型，构建规则为：

需要运用每一棵决策树对实时的交通事件持续时间进行预测，最后以“少数服从多数”的原则，确定为最终的交通事件持续时间预测值。

所述步骤4的具体分析过程为：

将结构化数据处理的结果和对文本进行数据挖掘的结果相结合，构成新的交通事件数据集，采用数据集中的特征量和样本，构建基于随机森林的文本数据特征预测模型，其构建过程与步骤3中预测模型构建相似，不同的是二者采用的数据集有所差异，主要体现在特征数量上的不同。

所述步骤5的具体分析过程为：

平均绝对误差E_MAE和平均相对误差E_MAPE计算公式如下所示。

式中，N为样本数量，t_p(i)表示第i个样本的预测值，t_a(i)表示第i个样本的实际值。

采用平均绝对误差(MAE)、平均相对误差(MAPE)评价指标对两种预测模型精度进行对比分析。实验结果显示：基于随机森林和文本挖掘的预测模型相较于单纯的随机森林预测模型，其平均绝对误差和平均相对误差有明显降低。基于随机森林和文本挖掘的高速公路交通事件预测模型不仅预测精度高，而且对不同类型的交通事件，该预测模型在适应能力方面也呈现出一定的优势。

现有持续时间预测模型注重关注追尾、相撞、等突发性交通事故，数据来源主要为公安部门或者交警部门的统计数据。然而，交通事件仍然是高速公路交通拥堵的主要原因，道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等偶发性交通事件的持续时间尚未被充分讨论。现有研究的数据源大多数为事故类型、涉及车辆类型、伤亡人数、受影响的车道数目、事故地点、天气状况、时段等结构化属性数据。在高速公路交通事件记录中同时包含自然语言描述的文本信息，对事件的基础信息、响应措施、实施效果等进行描述。

交通事件持续时间与多种因素相关，如时间特征、事件特征、道路特性、交通特征和天气状况等。现有技术通过结构化数据分析致因机理，提取显著性影响因素来对交通事件持续时间进行预测。

本发明具有以下优点：

(1)本发明在海量、多源的高速公路交通事件数据集的基础上，将结构化数据挖掘与文本分析相结合，以对道路通行能力有影响的交通事件为对象，建立高速公路交通事件持续时间预测模型，以避免巨大的行车时间损失，为公众出行提供决策依据和可靠的道路服务；所涉及的预测模型不仅能够对突发性交通事故、自然灾害进行持续时间预测，而且能够对道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等典型偶发性交通事件进行预测。

(2)本发明不仅考虑显著性影响因素，而且将数据集中半结构化数据纳入预测方法，对交通事件信息报送的自然语言描述进行文本分析，丰富交通事件的特征向量维度，以实现更准确的持续时间预测；本发明将交通事件文本信息纳入研究范畴，运用自然语言的文本分析提取特征向量。本发明融合文本挖掘和数据驱动算法建立高速公路交通事件持续时间预测模型，以实现预测模型准确性和适应性的提升。

附图说明

图1是本发明方法计算过程流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。应当指出的是，以下的实施实例只是对本发明的进一步说明，但本发明的保护范围并不限于以下实施例。

实施例

本实施例涉及一种大数据驱动的高速公路交通事件持续时间预测方法，见图1所示，包括如下步骤：

步骤1中的具体步骤为：将高速公路交通事件数据中的结构化数据与文本数据相结合，形成高速公路交通事件大数据，并从中提取研究所需要的字段。

(1)从结构化数据中，提取所需要的字段包括事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。

(2)从文本数据中，提取的字段包括事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。

步骤2中，所述预处理的四个主要任务：数据清洗、数据集成、数据变换和数据规约；该步骤结合研究目标，设计数据库表结构及其字段，以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同，数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要，将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常，对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。

所述结构化数据的预处理具体为：

t_duration＝t_processdone-t_alarm (5)

t_limit-down＝t_25％-1.5×(t_75％-t_25％) (6)

t_limit-up＝t_25％+1.5×(t_75％-t_25％) (7)

所述文本数据的预处理具体为：

所述步骤3的具体分析过程为：

式(5)中，A代表某个特征，D代表数据集。

其中

(2)对决策树进行剪枝处理

其中，经验熵为

将式(2)代入式(1)，并将最终表达式中右端第一项记作

综合以上，可得

C_α(T)＝C(T)+α|T|………(4)

C_α(T_后)≤C_α(T_前)

则进行剪枝，即将父节点变为新的叶节点。

(3)构建随机森林模型

所述步骤4的具体分析过程为：

所述步骤5的具体分析过程为：

平均绝对误差E_MAE和平均相对误差E_MAPE计算公式如下所示。

本发明在以往交通事件持续时间研究的基础上，结合文本数据挖掘，融合结构化的属性特征和半结构化的文本数据，形成新的交通事件数据集。在此基础上，构建了一种基于大数据技术和文本挖掘的高速公路交通事件持续时间预测模型，以实现预测模型准确性和适应性的提升。对于交通管理者而言，能够根据预测时间合理进行应急指挥调度；对于道路使用者而言，能够根据预测时间合理的安排行程规划。总而言之，可以更好的提高道路交通的使用效率。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质。

Claims

1.一种大数据驱动的高速公路交通事件持续时间预测方法，其特征在于，包括如下步骤：

步骤3，在数据预处理的基础上，采用结构化数据属性建立随机森林模型，对高速公路交通事件持续时间进行预测；

步骤4，在数据预处理的基础上，采用结构化数据属性并结合事件文本信息的特征向量，建立基于随机森林的持续时间预测模型；

步骤5，采用平均绝对误差、平均相对误差两项评价指标对2种预测模型精度进行对比分析。

2.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法，其特征在于，步骤1中的具体步骤为：将高速公路交通事件数据中的结构化数据与文本数据相结合，形成高速公路交通事件大数据，并从中提取研究所需要的字段。

3.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法，其特征在于，步骤2中，所述预处理的四个任务为：数据清洗、数据集成、数据变换和数据规约。

4.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法，其特征在于，步骤3中，所述属性为：交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型。

5.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法，其特征在于，步骤4中，所述属性为：交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型，以及根据自然语言描述的事件信息所提取的文本特征向量。