CN114626684A - 一种大数据驱动的高速公路交通事件持续时间预测方法 - Google Patents

一种大数据驱动的高速公路交通事件持续时间预测方法 Download PDF

Info

Publication number
CN114626684A
CN114626684A CN202210152038.5A CN202210152038A CN114626684A CN 114626684 A CN114626684 A CN 114626684A CN 202210152038 A CN202210152038 A CN 202210152038A CN 114626684 A CN114626684 A CN 114626684A
Authority
CN
China
Prior art keywords
data
highway traffic
traffic incident
text
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210152038.5A
Other languages
English (en)
Inventor
陈娇娜
李道峰
陶伟俊
陈学娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Shiyou University
Original Assignee
Xian Shiyou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Shiyou University filed Critical Xian Shiyou University
Priority to CN202210152038.5A priority Critical patent/CN114626684A/zh
Publication of CN114626684A publication Critical patent/CN114626684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种大数据驱动的高速公路交通事件持续时间预测方法;包括:步骤1,建立高速公路交通事件数据集,提取研究所需的字段;步骤2,对提取的数据字段进行预处理;步骤3,在数据预处理的基础上,建立随机森林模型,对高速公路交通事件持续时间进行预测;步骤4,在数据预处理的基础上,结合事件文本信息的特征向量,建立基于随机森林的文本数据特征预测模型;步骤5,采用平均绝对误差、平均相对误差对预测模型精度进行对比分析。本发明融合结构化的影响因素和半结构化的文本信息,能够在不同状况下对高速公路交通事件持续时间进行预测,从而实现道路管理者和使用者对交通事件更加全面可靠的预判。

Description

一种大数据驱动的高速公路交通事件持续时间预测方法
技术领域
本发明涉及智能交通领域;尤其涉及一种大数据驱动的高速公路交通事件持续时间预测方法。
背景技术
高速公路交通事件是指对交通安全、道路运行状态、通行能力、行程时间等有影响以及交通运行管理部门关注的事件。随着智能交通监控系统日益完善,人身和财产的安全得到必要保障,但是由交通事件引发的拥堵和延误日趋常态化。交通事件仍然是高速公路交通拥堵的主要原因,其造成的时间延误成为行业内和社会公众的关注焦点。合理预测高速公路交通事件持续时间,可以实现路网的诱导分流控制,避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务。对于这些事件,倘若不能够及时的进行处理,很可能引发二次交通事故,这就意味着交通事件严重程度的加剧,进一步也延长了交通事件持续时间。因此,对高速公路交通事件持续时间预测这一任务变得格外关键。
目前,交通事件持续时间研究侧重于交通事故、车辆抛锚、自然灾害等事件的持续时间预测,但是临时性养护施工、特殊车辆通行、货物掉落、道路损毁等交通事件也时有发生,同样也会造成较长时间的交通拥堵。面对这类交通事件,现有持续时间预测模型的适应性略有不足。同时,交通事件信息在不同运营管理单位和不同业务处置角色之间的流转,包含有自然语言的文本数据描述。相较于结构化的属性特征,文本数据包含的信息具有一定的丰富性和多元性,因此可以从中获取更多对交通事件持续时间研究有帮助的信息,融合交通事件文本信息对预测模型的建立具有积极意义。
发明内容
本发明的目的是提供了一种精确可靠的基于大数据技术和文本挖掘的高速公路交通事件持续时间预测方法。本发明在海量、多源的高速公路交通事件数据集的基础上,将结构化数据挖掘与文本分析相结合,以对道路通行能力有影响的交通事件为研究对象,建立高速公路交通事件持续时间预测模型,以避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务。
本发明是通过以下技术方案实现的:
本发明涉及一种大数据驱动的高速公路交通事件持续时间预测方法,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性,结合事件文本信息的特征向量,建立基于随机森林的交通事件持续时间预测模型;
步骤5,采用平均绝对误差(MAE)、平均相对误差(MAPE)两项评价指标对2种预测模型精度进行对比分析;通过对比结果,可知基于文本挖掘和随机森林算法的高速公路交通事件持续时间预测模型具有较优的性能指标,并在实际数据中表现出更好的适用性。
优选地,步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
(1)从结构化数据中,提取所需要的字段包括:事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。
(2)从文本数据中,提取的字段包括:事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。
优选地,步骤2中,所述预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约;该步骤结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
步骤2中,所述结构化数据的预处理具体为:
(1)数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少交通事件报警时间或者事件处理完成时间、异常时间数据记录、异常位置数据记录。
(2)根据高速公路交通事件发生后,数据记录中的报警时间和交通事件处理完成时间两个字段,构造新的字段,计算高速公路交通事件持续时间,表达式(5)如下所示:
tduration=tprocessdone-talarm (5)
式(1)中,tduration交通事件持续时间,tprocessdone为交通事件处理完成时间,talarm为报警时间。
(3)计算交通事件持续时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。表达式(6)、(7)如下所示:
tlimit-down=t25%-1.5×(t75%-t25%) (6)
tlimit-up=t25%+1.5×(t75%-t25%) (7)
式(6)中,tlimit-down为有效数据区间G的下限;式(7)中tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
(4)对研究字段中的类型数据,如天气状况、交通事故类型、天气状况、涉及车辆类型等字段进行数字编码,便于后续计算。
步骤2中,所述文本数据的预处理具体为:
对文本数据进行分词处理,需保证文本的主要信息。文本中存在大量感叹词、语气词、虚词等一些对研究无意义的词,因此,需要进行去停用词处理,从而大大降低文本中冗余特征数量,避免无用特征对后续模型构建的干扰,处理过程如下:
对于一个含有n个文本的集合D={d1,d1,…,dn},以及在所有文本中出现的m个单词的集合w={w1,w2,…,wm}。将单词在文本中出现的数据用一个单词-文本矩阵表示,记作X,如下:
Figure BDA0003510793560000041
这是一个m×n矩阵,元素xij表示单词wi在文本dj中出现的权值,权值通常用单词频率-逆文本频率(TF-IDF)表示,其表达式(8)如下所示:
Figure BDA0003510793560000051
式中tfij是单词wi出现在文本dj中的频数,tf.j是文本dj中出现的所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。
所述步骤3的具体分析过程为:
(1)在步骤2的基础上,从结构化数据中,进行S次随机抽样,每次随机抽取(有放回抽样)m个特征和n个数据样本组成特征向量空间CS和数据集DS(其中,S=1,2,3,…),构建S棵决策树,构建决策树所采用的算法为C4.5,其用信息增益比来选择特征,其信息增益比表达式(9)如下所示:
Figure BDA0003510793560000052
式(5)中,A代表某个特征,D代表数据集。
其中
Figure BDA0003510793560000053
n表示根据特征A将数据集D划分为子集的个数,分别为D1,D2,…Dn,i=1,2,3…,n,θ(D,A)为特征A对训练数据集的信息增益。
(2)对决策树进行剪枝处理
为了防止在构建决策树之后,出现过拟合的现象,即队训数据集有很强的预测效果,但对测试数据集的预测效果却大大降低。对每棵决策树进行剪枝处理,具体步骤如下:
决策树的剪枝往往通过极小化决策树整体的损失函数来实现,设树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,其中k类的样本点有Ntk个,k=1,2,…,K,Ht(T)为叶节点t上的经验熵,α≥0为参数,则决策树学习的损失函数可以定义为
Figure BDA0003510793560000054
其中,经验熵为
Figure BDA0003510793560000061
将式(2)代入式(1),并将最终表达式中右端第一项记作
Figure BDA0003510793560000062
综合以上,可得
Cα(T)=C(T)+α|T|………(4)
式(3)中,C(T)表示模型对训练集的预测误差,|T|表示模型的复杂度;式(4)中参数α≥0控制两者之间的影响。
对剪枝前后的决策树进行,运用上述式(4),分别计算两棵树的预测误差,若满足以下条件:
Cα(T)≤Cα(T)
则进行剪枝,即将父节点变为新的叶节点。
(3)构建随机森林模型
在上述所生成的决策树的基础上,构建随机森林模型,构建规则为:
需要运用每一棵决策树对实时的交通事件持续时间进行预测,最后以“少数服从多数”的原则,确定为最终的交通事件持续时间预测值。
所述步骤4的具体分析过程为:
将结构化数据处理的结果和对文本进行数据挖掘的结果相结合,构成新的交通事件数据集,采用数据集中的特征量和样本,构建基于随机森林的文本数据特征预测模型,其构建过程与步骤3中预测模型构建相似,不同的是二者采用的数据集有所差异,主要体现在特征数量上的不同。
所述步骤5的具体分析过程为:
平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示。
Figure BDA0003510793560000063
Figure BDA0003510793560000071
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值。
采用平均绝对误差(MAE)、平均相对误差(MAPE)评价指标对两种预测模型精度进行对比分析。实验结果显示:基于随机森林和文本挖掘的预测模型相较于单纯的随机森林预测模型,其平均绝对误差和平均相对误差有明显降低。基于随机森林和文本挖掘的高速公路交通事件预测模型不仅预测精度高,而且对不同类型的交通事件,该预测模型在适应能力方面也呈现出一定的优势。
现有持续时间预测模型注重关注追尾、相撞、等突发性交通事故,数据来源主要为公安部门或者交警部门的统计数据。然而,交通事件仍然是高速公路交通拥堵的主要原因,道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等偶发性交通事件的持续时间尚未被充分讨论。现有研究的数据源大多数为事故类型、涉及车辆类型、伤亡人数、受影响的车道数目、事故地点、天气状况、时段等结构化属性数据。在高速公路交通事件记录中同时包含自然语言描述的文本信息,对事件的基础信息、响应措施、实施效果等进行描述。
交通事件持续时间与多种因素相关,如时间特征、事件特征、道路特性、交通特征和天气状况等。现有技术通过结构化数据分析致因机理,提取显著性影响因素来对交通事件持续时间进行预测。
本发明具有以下优点:
(1)本发明在海量、多源的高速公路交通事件数据集的基础上,将结构化数据挖掘与文本分析相结合,以对道路通行能力有影响的交通事件为对象,建立高速公路交通事件持续时间预测模型,以避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务;所涉及的预测模型不仅能够对突发性交通事故、自然灾害进行持续时间预测,而且能够对道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等典型偶发性交通事件进行预测。
(2)本发明不仅考虑显著性影响因素,而且将数据集中半结构化数据纳入预测方法,对交通事件信息报送的自然语言描述进行文本分析,丰富交通事件的特征向量维度,以实现更准确的持续时间预测;本发明将交通事件文本信息纳入研究范畴,运用自然语言的文本分析提取特征向量。本发明融合文本挖掘和数据驱动算法建立高速公路交通事件持续时间预测模型,以实现预测模型准确性和适应性的提升。
附图说明
图1是本发明方法计算过程流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。应当指出的是,以下的实施实例只是对本发明的进一步说明,但本发明的保护范围并不限于以下实施例。
实施例
本实施例涉及一种大数据驱动的高速公路交通事件持续时间预测方法,见图1所示,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性,结合事件文本信息的特征向量,建立基于随机森林的交通事件持续时间预测模型;
步骤5,采用平均绝对误差(MAE)、平均相对误差(MAPE)两项评价指标对2种预测模型精度进行对比分析;通过对比结果,可知基于文本挖掘和随机森林算法的高速公路交通事件持续时间预测模型具有较优的性能指标,并在实际数据中表现出更好的适用性。
步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
(1)从结构化数据中,提取所需要的字段包括事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。
(2)从文本数据中,提取的字段包括事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。
步骤2中,所述预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约;该步骤结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
所述结构化数据的预处理具体为:
(1)数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少交通事件报警时间或者事件处理完成时间、异常时间数据记录、异常位置数据记录。
(2)根据高速公路交通事件发生后,数据记录中的报警时间和交通事件处理完成时间两个字段,构造新的字段,计算高速公路交通事件持续时间,表达式(5)如下所示:
tduration=tprocessdone-talarm (5)
式(1)中,tduration交通事件持续时间,tprocessdone为交通事件处理完成时间,talarm为报警时间。
(3)计算交通事件持续时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。表达式(6)、(7)如下所示:
tlimit-down=t25%-1.5×(t75%-t25%) (6)
tlimit-up=t25%+1.5×(t75%-t25%) (7)
式(6)中,tlimit-down为有效数据区间G的下限;式(7)中tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
(4)对研究字段中的类型数据,如天气状况、交通事故类型、天气状况、涉及车辆类型等字段进行数字编码,便于后续计算。
所述文本数据的预处理具体为:
对文本数据进行分词处理,需保证文本的主要信息。文本中存在大量感叹词、语气词、虚词等一些对研究无意义的词,因此,需要进行去停用词处理,从而大大降低文本中冗余特征数量,避免无用特征对后续模型构建的干扰,处理过程如下:
对于一个含有n个文本的集合D={d1,d1,…,dn},以及在所有文本中出现的m个单词的集合w={w1,w2,…,wm}。将单词在文本中出现的数据用一个单词-文本矩阵表示,记作X,如下:
Figure BDA0003510793560000111
这是一个m×n矩阵,元素xij表示单词wi在文本dj中出现的权值,权值通常用单词频率-逆文本频率(TF-IDF)表示,其表达式(8)如下所示:
Figure BDA0003510793560000112
式中tfij是单词wi出现在文本dj中的频数,tf.j是文本dj中出现的所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。
所述步骤3的具体分析过程为:
(1)在步骤2的基础上,从结构化数据中,进行S次随机抽样,每次随机抽取(有放回抽样)m个特征和n个数据样本组成特征向量空间CS和数据集DS(其中,S=1,2,3,…),构建S棵决策树,构建决策树所采用的算法为C4.5,其用信息增益比来选择特征,其信息增益比表达式(9)如下所示:
Figure BDA0003510793560000113
式(5)中,A代表某个特征,D代表数据集。
其中
Figure BDA0003510793560000114
n表示根据特征A将数据集D划分为子集的个数,分别为D1,D2,…Dn,i=1,2,3…,n,θ(D,A)为特征A对训练数据集的信息增益。
(2)对决策树进行剪枝处理
为了防止在构建决策树之后,出现过拟合的现象,即队训数据集有很强的预测效果,但对测试数据集的预测效果却大大降低。对每棵决策树进行剪枝处理,具体步骤如下:
决策树的剪枝往往通过极小化决策树整体的损失函数来实现,设树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,其中k类的样本点有Ntk个,k=1,2,…,K,Ht(T)为叶节点t上的经验熵,α≥0为参数,则决策树学习的损失函数可以定义为
Figure BDA0003510793560000121
其中,经验熵为
Figure BDA0003510793560000122
将式(2)代入式(1),并将最终表达式中右端第一项记作
Figure BDA0003510793560000123
综合以上,可得
Cα(T)=C(T)+α|T|………(4)
式(3)中,C(T)表示模型对训练集的预测误差,|T|表示模型的复杂度;式(4)中参数α≥0控制两者之间的影响。
对剪枝前后的决策树进行,运用上述式(4),分别计算两棵树的预测误差,若满足以下条件:
Cα(T)≤Cα(T)
则进行剪枝,即将父节点变为新的叶节点。
(3)构建随机森林模型
在上述所生成的决策树的基础上,构建随机森林模型,构建规则为:
需要运用每一棵决策树对实时的交通事件持续时间进行预测,最后以“少数服从多数”的原则,确定为最终的交通事件持续时间预测值。
所述步骤4的具体分析过程为:
将结构化数据处理的结果和对文本进行数据挖掘的结果相结合,构成新的交通事件数据集,采用数据集中的特征量和样本,构建基于随机森林的文本数据特征预测模型,其构建过程与步骤3中预测模型构建相似,不同的是二者采用的数据集有所差异,主要体现在特征数量上的不同。
所述步骤5的具体分析过程为:
平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示。
Figure BDA0003510793560000131
Figure BDA0003510793560000132
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值。
采用平均绝对误差(MAE)、平均相对误差(MAPE)评价指标对两种预测模型精度进行对比分析。实验结果显示:基于随机森林和文本挖掘的预测模型相较于单纯的随机森林预测模型,其平均绝对误差和平均相对误差有明显降低。基于随机森林和文本挖掘的高速公路交通事件预测模型不仅预测精度高,而且对不同类型的交通事件,该预测模型在适应能力方面也呈现出一定的优势。
本发明在以往交通事件持续时间研究的基础上,结合文本数据挖掘,融合结构化的属性特征和半结构化的文本数据,形成新的交通事件数据集。在此基础上,构建了一种基于大数据技术和文本挖掘的高速公路交通事件持续时间预测模型,以实现预测模型准确性和适应性的提升。对于交通管理者而言,能够根据预测时间合理进行应急指挥调度;对于道路使用者而言,能够根据预测时间合理的安排行程规划。总而言之,可以更好的提高道路交通的使用效率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质。

Claims (5)

1.一种大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用结构化数据属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用结构化数据属性并结合事件文本信息的特征向量,建立基于随机森林的持续时间预测模型;
步骤5,采用平均绝对误差、平均相对误差两项评价指标对2种预测模型精度进行对比分析。
2.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
3.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤2中,所述预处理的四个任务为:数据清洗、数据集成、数据变换和数据规约。
4.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤3中,所述属性为:交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型。
5.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤4中,所述属性为:交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型,以及根据自然语言描述的事件信息所提取的文本特征向量。
CN202210152038.5A 2022-02-18 2022-02-18 一种大数据驱动的高速公路交通事件持续时间预测方法 Pending CN114626684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210152038.5A CN114626684A (zh) 2022-02-18 2022-02-18 一种大数据驱动的高速公路交通事件持续时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210152038.5A CN114626684A (zh) 2022-02-18 2022-02-18 一种大数据驱动的高速公路交通事件持续时间预测方法

Publications (1)

Publication Number Publication Date
CN114626684A true CN114626684A (zh) 2022-06-14

Family

ID=81899633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210152038.5A Pending CN114626684A (zh) 2022-02-18 2022-02-18 一种大数据驱动的高速公路交通事件持续时间预测方法

Country Status (1)

Country Link
CN (1) CN114626684A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114852135A (zh) * 2022-07-08 2022-08-05 八维通科技有限公司 基于大数据的类轨道交通行驶预测方法
CN115018213A (zh) * 2022-08-09 2022-09-06 深圳市城市交通规划设计研究中心股份有限公司 高速公路事故持续时间预测方法、电子设备及存储介质
CN117149983A (zh) * 2023-10-30 2023-12-01 山东高速信息集团有限公司 基于高速公路业务智能对话的方法、装置及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114852135A (zh) * 2022-07-08 2022-08-05 八维通科技有限公司 基于大数据的类轨道交通行驶预测方法
CN114852135B (zh) * 2022-07-08 2022-10-04 八维通科技有限公司 基于大数据的类轨道交通行驶预测方法
CN115018213A (zh) * 2022-08-09 2022-09-06 深圳市城市交通规划设计研究中心股份有限公司 高速公路事故持续时间预测方法、电子设备及存储介质
CN115018213B (zh) * 2022-08-09 2022-11-25 深圳市城市交通规划设计研究中心股份有限公司 高速公路事故持续时间预测方法、电子设备及存储介质
CN117149983A (zh) * 2023-10-30 2023-12-01 山东高速信息集团有限公司 基于高速公路业务智能对话的方法、装置及设备
CN117149983B (zh) * 2023-10-30 2024-02-27 山东高速信息集团有限公司 基于高速公路业务智能对话的方法、装置及设备

Similar Documents

Publication Publication Date Title
Zhang et al. Bayesian neural networks for flight trajectory prediction and safety assessment
Park et al. Real-time prediction and avoidance of secondary crashes under unexpected traffic congestion
Lin et al. A combined M5P tree and hazard-based duration model for predicting urban freeway traffic accident durations
CN114626684A (zh) 一种大数据驱动的高速公路交通事件持续时间预测方法
Yuan et al. Real-time crash risk prediction using long short-term memory recurrent neural network
Park et al. Real-time prediction of secondary incident occurrences using vehicle probe data
Pande et al. Assessment of freeway traffic parameters leading to lane-change related collisions
Lee et al. A computerized feature selection method using genetic algorithms to forecast freeway accident duration times
Shang et al. A hybrid method for traffic incident duration prediction using BOA‐optimized random Forest combined with neighborhood components analysis
Vlahogianni et al. Freeway operations, spatiotemporal-incident characteristics, and secondary-crash occurrence
Chang et al. Prediction of freeway incident duration based on classification tree analysis
Khan et al. Statistical and neural classifiers to detect traffic operational problems on urban arterials
Liu et al. Predicting Real‐Time Crash Risk for Urban Expressways in China
Weng et al. Cluster-based lognormal distribution model for accident duration
CN112116263A (zh) 一种交通路口风险级别评估方法、装置、电子设备及存储介质
Jiang et al. Safe route mapping of roadways using multiple sourced data
Alnami et al. Highway accident severity prediction for optimal resource allocation of emergency vehicles and personnel
Al-Najada et al. Real-time incident clearance time prediction using traffic data from internet of mobility sensors
Yang et al. Developing a new real-time traffic safety management framework for urban expressways utilizing reinforcement learning tree
Liao et al. Hierarchical quantitative analysis to evaluate unsafe driving behaviour from massive trajectory data
Lee Freeway travel time forecast using artifical neural networks with cluster method
CN113222361A (zh) 一种突发事件应急救援方案的生成方法
Gu et al. Duration prediction for truck crashes based on the XGBoost algorithm
CN115392756A (zh) 一种基于交通大数据的危险品运输救援调度方法
Huang Svm-based real-time identification model of dangerous traffic stream state

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination