CN114626684A - 一种大数据驱动的高速公路交通事件持续时间预测方法 - Google Patents
一种大数据驱动的高速公路交通事件持续时间预测方法 Download PDFInfo
- Publication number
- CN114626684A CN114626684A CN202210152038.5A CN202210152038A CN114626684A CN 114626684 A CN114626684 A CN 114626684A CN 202210152038 A CN202210152038 A CN 202210152038A CN 114626684 A CN114626684 A CN 114626684A
- Authority
- CN
- China
- Prior art keywords
- data
- highway traffic
- traffic incident
- text
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 238000007637 random forest analysis Methods 0.000 claims abstract description 22
- 238000011160 research Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 9
- 206010039203 Road traffic accident Diseases 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013501 data transformation Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000010835 comparative analysis Methods 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 16
- 238000010276 construction Methods 0.000 description 13
- 238000005065 mining Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000007418 data mining Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 10
- 238000013138 pruning Methods 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 4
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种大数据驱动的高速公路交通事件持续时间预测方法;包括:步骤1,建立高速公路交通事件数据集,提取研究所需的字段;步骤2,对提取的数据字段进行预处理;步骤3,在数据预处理的基础上,建立随机森林模型,对高速公路交通事件持续时间进行预测;步骤4,在数据预处理的基础上,结合事件文本信息的特征向量,建立基于随机森林的文本数据特征预测模型;步骤5,采用平均绝对误差、平均相对误差对预测模型精度进行对比分析。本发明融合结构化的影响因素和半结构化的文本信息,能够在不同状况下对高速公路交通事件持续时间进行预测,从而实现道路管理者和使用者对交通事件更加全面可靠的预判。
Description
技术领域
本发明涉及智能交通领域;尤其涉及一种大数据驱动的高速公路交通事件持续时间预测方法。
背景技术
高速公路交通事件是指对交通安全、道路运行状态、通行能力、行程时间等有影响以及交通运行管理部门关注的事件。随着智能交通监控系统日益完善,人身和财产的安全得到必要保障,但是由交通事件引发的拥堵和延误日趋常态化。交通事件仍然是高速公路交通拥堵的主要原因,其造成的时间延误成为行业内和社会公众的关注焦点。合理预测高速公路交通事件持续时间,可以实现路网的诱导分流控制,避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务。对于这些事件,倘若不能够及时的进行处理,很可能引发二次交通事故,这就意味着交通事件严重程度的加剧,进一步也延长了交通事件持续时间。因此,对高速公路交通事件持续时间预测这一任务变得格外关键。
目前,交通事件持续时间研究侧重于交通事故、车辆抛锚、自然灾害等事件的持续时间预测,但是临时性养护施工、特殊车辆通行、货物掉落、道路损毁等交通事件也时有发生,同样也会造成较长时间的交通拥堵。面对这类交通事件,现有持续时间预测模型的适应性略有不足。同时,交通事件信息在不同运营管理单位和不同业务处置角色之间的流转,包含有自然语言的文本数据描述。相较于结构化的属性特征,文本数据包含的信息具有一定的丰富性和多元性,因此可以从中获取更多对交通事件持续时间研究有帮助的信息,融合交通事件文本信息对预测模型的建立具有积极意义。
发明内容
本发明的目的是提供了一种精确可靠的基于大数据技术和文本挖掘的高速公路交通事件持续时间预测方法。本发明在海量、多源的高速公路交通事件数据集的基础上,将结构化数据挖掘与文本分析相结合,以对道路通行能力有影响的交通事件为研究对象,建立高速公路交通事件持续时间预测模型,以避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务。
本发明是通过以下技术方案实现的:
本发明涉及一种大数据驱动的高速公路交通事件持续时间预测方法,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性,结合事件文本信息的特征向量,建立基于随机森林的交通事件持续时间预测模型;
步骤5,采用平均绝对误差(MAE)、平均相对误差(MAPE)两项评价指标对2种预测模型精度进行对比分析;通过对比结果,可知基于文本挖掘和随机森林算法的高速公路交通事件持续时间预测模型具有较优的性能指标,并在实际数据中表现出更好的适用性。
优选地,步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
(1)从结构化数据中,提取所需要的字段包括:事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。
(2)从文本数据中,提取的字段包括:事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。
优选地,步骤2中,所述预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约;该步骤结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
步骤2中,所述结构化数据的预处理具体为:
(1)数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少交通事件报警时间或者事件处理完成时间、异常时间数据记录、异常位置数据记录。
(2)根据高速公路交通事件发生后,数据记录中的报警时间和交通事件处理完成时间两个字段,构造新的字段,计算高速公路交通事件持续时间,表达式(5)如下所示:
tduration=tprocessdone-talarm (5)
式(1)中,tduration交通事件持续时间,tprocessdone为交通事件处理完成时间,talarm为报警时间。
(3)计算交通事件持续时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。表达式(6)、(7)如下所示:
tlimit-down=t25%-1.5×(t75%-t25%) (6)
tlimit-up=t25%+1.5×(t75%-t25%) (7)
式(6)中,tlimit-down为有效数据区间G的下限;式(7)中tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
(4)对研究字段中的类型数据,如天气状况、交通事故类型、天气状况、涉及车辆类型等字段进行数字编码,便于后续计算。
步骤2中,所述文本数据的预处理具体为:
对文本数据进行分词处理,需保证文本的主要信息。文本中存在大量感叹词、语气词、虚词等一些对研究无意义的词,因此,需要进行去停用词处理,从而大大降低文本中冗余特征数量,避免无用特征对后续模型构建的干扰,处理过程如下:
对于一个含有n个文本的集合D={d1,d1,…,dn},以及在所有文本中出现的m个单词的集合w={w1,w2,…,wm}。将单词在文本中出现的数据用一个单词-文本矩阵表示,记作X,如下:
这是一个m×n矩阵,元素xij表示单词wi在文本dj中出现的权值,权值通常用单词频率-逆文本频率(TF-IDF)表示,其表达式(8)如下所示:
式中tfij是单词wi出现在文本dj中的频数,tf.j是文本dj中出现的所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。
所述步骤3的具体分析过程为:
(1)在步骤2的基础上,从结构化数据中,进行S次随机抽样,每次随机抽取(有放回抽样)m个特征和n个数据样本组成特征向量空间CS和数据集DS(其中,S=1,2,3,…),构建S棵决策树,构建决策树所采用的算法为C4.5,其用信息增益比来选择特征,其信息增益比表达式(9)如下所示:
式(5)中,A代表某个特征,D代表数据集。
n表示根据特征A将数据集D划分为子集的个数,分别为D1,D2,…Dn,i=1,2,3…,n,θ(D,A)为特征A对训练数据集的信息增益。
(2)对决策树进行剪枝处理
为了防止在构建决策树之后,出现过拟合的现象,即队训数据集有很强的预测效果,但对测试数据集的预测效果却大大降低。对每棵决策树进行剪枝处理,具体步骤如下:
决策树的剪枝往往通过极小化决策树整体的损失函数来实现,设树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,其中k类的样本点有Ntk个,k=1,2,…,K,Ht(T)为叶节点t上的经验熵,α≥0为参数,则决策树学习的损失函数可以定义为
其中,经验熵为
将式(2)代入式(1),并将最终表达式中右端第一项记作
综合以上,可得
Cα(T)=C(T)+α|T|………(4)
式(3)中,C(T)表示模型对训练集的预测误差,|T|表示模型的复杂度;式(4)中参数α≥0控制两者之间的影响。
对剪枝前后的决策树进行,运用上述式(4),分别计算两棵树的预测误差,若满足以下条件:
Cα(T后)≤Cα(T前)
则进行剪枝,即将父节点变为新的叶节点。
(3)构建随机森林模型
在上述所生成的决策树的基础上,构建随机森林模型,构建规则为:
需要运用每一棵决策树对实时的交通事件持续时间进行预测,最后以“少数服从多数”的原则,确定为最终的交通事件持续时间预测值。
所述步骤4的具体分析过程为:
将结构化数据处理的结果和对文本进行数据挖掘的结果相结合,构成新的交通事件数据集,采用数据集中的特征量和样本,构建基于随机森林的文本数据特征预测模型,其构建过程与步骤3中预测模型构建相似,不同的是二者采用的数据集有所差异,主要体现在特征数量上的不同。
所述步骤5的具体分析过程为:
平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示。
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值。
采用平均绝对误差(MAE)、平均相对误差(MAPE)评价指标对两种预测模型精度进行对比分析。实验结果显示:基于随机森林和文本挖掘的预测模型相较于单纯的随机森林预测模型,其平均绝对误差和平均相对误差有明显降低。基于随机森林和文本挖掘的高速公路交通事件预测模型不仅预测精度高,而且对不同类型的交通事件,该预测模型在适应能力方面也呈现出一定的优势。
现有持续时间预测模型注重关注追尾、相撞、等突发性交通事故,数据来源主要为公安部门或者交警部门的统计数据。然而,交通事件仍然是高速公路交通拥堵的主要原因,道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等偶发性交通事件的持续时间尚未被充分讨论。现有研究的数据源大多数为事故类型、涉及车辆类型、伤亡人数、受影响的车道数目、事故地点、天气状况、时段等结构化属性数据。在高速公路交通事件记录中同时包含自然语言描述的文本信息,对事件的基础信息、响应措施、实施效果等进行描述。
交通事件持续时间与多种因素相关,如时间特征、事件特征、道路特性、交通特征和天气状况等。现有技术通过结构化数据分析致因机理,提取显著性影响因素来对交通事件持续时间进行预测。
本发明具有以下优点:
(1)本发明在海量、多源的高速公路交通事件数据集的基础上,将结构化数据挖掘与文本分析相结合,以对道路通行能力有影响的交通事件为对象,建立高速公路交通事件持续时间预测模型,以避免巨大的行车时间损失,为公众出行提供决策依据和可靠的道路服务;所涉及的预测模型不仅能够对突发性交通事故、自然灾害进行持续时间预测,而且能够对道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大导致通行缓慢等典型偶发性交通事件进行预测。
(2)本发明不仅考虑显著性影响因素,而且将数据集中半结构化数据纳入预测方法,对交通事件信息报送的自然语言描述进行文本分析,丰富交通事件的特征向量维度,以实现更准确的持续时间预测;本发明将交通事件文本信息纳入研究范畴,运用自然语言的文本分析提取特征向量。本发明融合文本挖掘和数据驱动算法建立高速公路交通事件持续时间预测模型,以实现预测模型准确性和适应性的提升。
附图说明
图1是本发明方法计算过程流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。应当指出的是,以下的实施实例只是对本发明的进一步说明,但本发明的保护范围并不限于以下实施例。
实施例
本实施例涉及一种大数据驱动的高速公路交通事件持续时间预测方法,见图1所示,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型属性,结合事件文本信息的特征向量,建立基于随机森林的交通事件持续时间预测模型;
步骤5,采用平均绝对误差(MAE)、平均相对误差(MAPE)两项评价指标对2种预测模型精度进行对比分析;通过对比结果,可知基于文本挖掘和随机森林算法的高速公路交通事件持续时间预测模型具有较优的性能指标,并在实际数据中表现出更好的适用性。
步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
(1)从结构化数据中,提取所需要的字段包括事件编号、方向、报警人员、报警时间、伤亡人数、车辆损坏数量、影响范围、天气状况、事件处理完成时间等。
(2)从文本数据中,提取的字段包括事件发生时间、事件发生的具体路段、碰撞事故具体情况(单车撞护栏、两车或者多车相撞等)、是否起火、涉及车辆类型(面包车、半挂车等)、占用车道情况(1车道、2车道、3车道)、道路通行能力(拥堵程度)、道路遗洒物、临时性养护施工、特殊车辆通行、交通流量大、处置措施、处置效果、处置部门、响应进度等字段等。
步骤2中,所述预处理的四个主要任务:数据清洗、数据集成、数据变换和数据规约;该步骤结合研究目标,设计数据库表结构及其字段,以保证海量样本条件下数据查询和分析的效率。数据挖掘需要的数据通常来源不全相同,数据集成是指将多个不同的数据源合并存放于同一个数据存储中的操作。数据变换指结合挖掘任务或挖掘算法的需要,将数据转换成特定的、规范化的形式。可以根据已有的属性集构造出新的属性。通常,对完整的大数据集进行数据挖掘必然耗费很长时间或者进行复杂的分析计算。数据规约是指在保障数据完整性的前提下产生更小的新的数据集。
所述结构化数据的预处理具体为:
(1)数据清洗就是将原始数据集中的重复数据、噪声数据等与研究目标无关的数据进行筛选和删除。剔除异常数据,包括缺失数据、错误数据等。异常数据主要包含:缺少交通事件报警时间或者事件处理完成时间、异常时间数据记录、异常位置数据记录。
(2)根据高速公路交通事件发生后,数据记录中的报警时间和交通事件处理完成时间两个字段,构造新的字段,计算高速公路交通事件持续时间,表达式(5)如下所示:
tduration=tprocessdone-talarm (5)
式(1)中,tduration交通事件持续时间,tprocessdone为交通事件处理完成时间,talarm为报警时间。
(3)计算交通事件持续时间样本数据的上下四分位数,以上下两个分位值为有效数据区间的上限和下限,超出该范围的数据被认为是噪声数据。表达式(6)、(7)如下所示:
tlimit-down=t25%-1.5×(t75%-t25%) (6)
tlimit-up=t25%+1.5×(t75%-t25%) (7)
式(6)中,tlimit-down为有效数据区间G的下限;式(7)中tlimit-up为有效数据区间G的上限;t25%和t75%分别表示样本数据的25%和75%分位数。
(4)对研究字段中的类型数据,如天气状况、交通事故类型、天气状况、涉及车辆类型等字段进行数字编码,便于后续计算。
所述文本数据的预处理具体为:
对文本数据进行分词处理,需保证文本的主要信息。文本中存在大量感叹词、语气词、虚词等一些对研究无意义的词,因此,需要进行去停用词处理,从而大大降低文本中冗余特征数量,避免无用特征对后续模型构建的干扰,处理过程如下:
对于一个含有n个文本的集合D={d1,d1,…,dn},以及在所有文本中出现的m个单词的集合w={w1,w2,…,wm}。将单词在文本中出现的数据用一个单词-文本矩阵表示,记作X,如下:
这是一个m×n矩阵,元素xij表示单词wi在文本dj中出现的权值,权值通常用单词频率-逆文本频率(TF-IDF)表示,其表达式(8)如下所示:
式中tfij是单词wi出现在文本dj中的频数,tf.j是文本dj中出现的所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。
所述步骤3的具体分析过程为:
(1)在步骤2的基础上,从结构化数据中,进行S次随机抽样,每次随机抽取(有放回抽样)m个特征和n个数据样本组成特征向量空间CS和数据集DS(其中,S=1,2,3,…),构建S棵决策树,构建决策树所采用的算法为C4.5,其用信息增益比来选择特征,其信息增益比表达式(9)如下所示:
式(5)中,A代表某个特征,D代表数据集。
n表示根据特征A将数据集D划分为子集的个数,分别为D1,D2,…Dn,i=1,2,3…,n,θ(D,A)为特征A对训练数据集的信息增益。
(2)对决策树进行剪枝处理
为了防止在构建决策树之后,出现过拟合的现象,即队训数据集有很强的预测效果,但对测试数据集的预测效果却大大降低。对每棵决策树进行剪枝处理,具体步骤如下:
决策树的剪枝往往通过极小化决策树整体的损失函数来实现,设树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,其中k类的样本点有Ntk个,k=1,2,…,K,Ht(T)为叶节点t上的经验熵,α≥0为参数,则决策树学习的损失函数可以定义为
其中,经验熵为
将式(2)代入式(1),并将最终表达式中右端第一项记作
综合以上,可得
Cα(T)=C(T)+α|T|………(4)
式(3)中,C(T)表示模型对训练集的预测误差,|T|表示模型的复杂度;式(4)中参数α≥0控制两者之间的影响。
对剪枝前后的决策树进行,运用上述式(4),分别计算两棵树的预测误差,若满足以下条件:
Cα(T后)≤Cα(T前)
则进行剪枝,即将父节点变为新的叶节点。
(3)构建随机森林模型
在上述所生成的决策树的基础上,构建随机森林模型,构建规则为:
需要运用每一棵决策树对实时的交通事件持续时间进行预测,最后以“少数服从多数”的原则,确定为最终的交通事件持续时间预测值。
所述步骤4的具体分析过程为:
将结构化数据处理的结果和对文本进行数据挖掘的结果相结合,构成新的交通事件数据集,采用数据集中的特征量和样本,构建基于随机森林的文本数据特征预测模型,其构建过程与步骤3中预测模型构建相似,不同的是二者采用的数据集有所差异,主要体现在特征数量上的不同。
所述步骤5的具体分析过程为:
平均绝对误差EMAE和平均相对误差EMAPE计算公式如下所示。
式中,N为样本数量,tp(i)表示第i个样本的预测值,ta(i)表示第i个样本的实际值。
采用平均绝对误差(MAE)、平均相对误差(MAPE)评价指标对两种预测模型精度进行对比分析。实验结果显示:基于随机森林和文本挖掘的预测模型相较于单纯的随机森林预测模型,其平均绝对误差和平均相对误差有明显降低。基于随机森林和文本挖掘的高速公路交通事件预测模型不仅预测精度高,而且对不同类型的交通事件,该预测模型在适应能力方面也呈现出一定的优势。
本发明在以往交通事件持续时间研究的基础上,结合文本数据挖掘,融合结构化的属性特征和半结构化的文本数据,形成新的交通事件数据集。在此基础上,构建了一种基于大数据技术和文本挖掘的高速公路交通事件持续时间预测模型,以实现预测模型准确性和适应性的提升。对于交通管理者而言,能够根据预测时间合理进行应急指挥调度;对于道路使用者而言,能够根据预测时间合理的安排行程规划。总而言之,可以更好的提高道路交通的使用效率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质。
Claims (5)
1.一种大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,包括如下步骤:
步骤1,建立高速公路交通事件数据集,提取研究所需的字段;
步骤2,对提取的数据字段进行预处理,包括对结构化数据的预处理和文本数据的预处理;
步骤3,在数据预处理的基础上,采用结构化数据属性建立随机森林模型,对高速公路交通事件持续时间进行预测;
步骤4,在数据预处理的基础上,采用结构化数据属性并结合事件文本信息的特征向量,建立基于随机森林的持续时间预测模型;
步骤5,采用平均绝对误差、平均相对误差两项评价指标对2种预测模型精度进行对比分析。
2.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤1中的具体步骤为:将高速公路交通事件数据中的结构化数据与文本数据相结合,形成高速公路交通事件大数据,并从中提取研究所需要的字段。
3.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤2中,所述预处理的四个任务为:数据清洗、数据集成、数据变换和数据规约。
4.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤3中,所述属性为:交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型。
5.如权利要求1所述的大数据驱动的高速公路交通事件持续时间预测方法,其特征在于,步骤4中,所述属性为:交通事故、车辆故障、道路遗洒物、天气状况、伤亡人数、发生位置、报警类型,以及根据自然语言描述的事件信息所提取的文本特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210152038.5A CN114626684A (zh) | 2022-02-18 | 2022-02-18 | 一种大数据驱动的高速公路交通事件持续时间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210152038.5A CN114626684A (zh) | 2022-02-18 | 2022-02-18 | 一种大数据驱动的高速公路交通事件持续时间预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114626684A true CN114626684A (zh) | 2022-06-14 |
Family
ID=81899633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210152038.5A Pending CN114626684A (zh) | 2022-02-18 | 2022-02-18 | 一种大数据驱动的高速公路交通事件持续时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626684A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114852135A (zh) * | 2022-07-08 | 2022-08-05 | 八维通科技有限公司 | 基于大数据的类轨道交通行驶预测方法 |
CN115018213A (zh) * | 2022-08-09 | 2022-09-06 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
CN117149983A (zh) * | 2023-10-30 | 2023-12-01 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
-
2022
- 2022-02-18 CN CN202210152038.5A patent/CN114626684A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114852135A (zh) * | 2022-07-08 | 2022-08-05 | 八维通科技有限公司 | 基于大数据的类轨道交通行驶预测方法 |
CN114852135B (zh) * | 2022-07-08 | 2022-10-04 | 八维通科技有限公司 | 基于大数据的类轨道交通行驶预测方法 |
CN115018213A (zh) * | 2022-08-09 | 2022-09-06 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
CN115018213B (zh) * | 2022-08-09 | 2022-11-25 | 深圳市城市交通规划设计研究中心股份有限公司 | 高速公路事故持续时间预测方法、电子设备及存储介质 |
CN117149983A (zh) * | 2023-10-30 | 2023-12-01 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
CN117149983B (zh) * | 2023-10-30 | 2024-02-27 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Bayesian neural networks for flight trajectory prediction and safety assessment | |
Park et al. | Real-time prediction and avoidance of secondary crashes under unexpected traffic congestion | |
Lin et al. | A combined M5P tree and hazard-based duration model for predicting urban freeway traffic accident durations | |
CN114626684A (zh) | 一种大数据驱动的高速公路交通事件持续时间预测方法 | |
Shang et al. | A Hybrid Method for Traffic Incident Duration Prediction Using BOA‐Optimized Random Forest Combined with Neighborhood Components Analysis | |
Park et al. | Real-time prediction of secondary incident occurrences using vehicle probe data | |
Pande et al. | Assessment of freeway traffic parameters leading to lane-change related collisions | |
Lee et al. | A computerized feature selection method using genetic algorithms to forecast freeway accident duration times | |
Nguyen et al. | Automatic classification of traffic incident's severity using machine learning approaches | |
Vlahogianni et al. | Freeway operations, spatiotemporal-incident characteristics, and secondary-crash occurrence | |
Zhu et al. | Flight time prediction for fuel loading decisions with a deep learning approach | |
Chang et al. | Prediction of freeway incident duration based on classification tree analysis | |
Khan et al. | Statistical and neural classifiers to detect traffic operational problems on urban arterials | |
Weng et al. | Cluster-based lognormal distribution model for accident duration | |
CN113222361A (zh) | 一种突发事件应急救援方案的生成方法 | |
CN112116263A (zh) | 一种交通路口风险级别评估方法、装置、电子设备及存储介质 | |
Jiang et al. | Safe route mapping of roadways using multiple sourced data | |
CN117912254B (zh) | 一种高速公路空地检测协同布设方法、设备及介质 | |
Alnami et al. | Highway accident severity prediction for optimal resource allocation of emergency vehicles and personnel | |
Yang et al. | Developing a new real-time traffic safety management framework for urban expressways utilizing reinforcement learning tree | |
Al-Najada et al. | Real-time incident clearance time prediction using traffic data from internet of mobility sensors | |
Islam et al. | Evaluating the impact of freeway service patrol on incident clearance times: a spatial transferability test | |
Abdi et al. | A Two‐Stage Sequential Framework for Traffic Accident Post‐Impact Prediction Utilizing Real‐Time Traffic, Weather, and Accident Data | |
Liao et al. | Hierarchical quantitative analysis to evaluate unsafe driving behaviour from massive trajectory data | |
Gu et al. | Duration prediction for truck crashes based on the XGBoost algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |