CN104408907A

CN104408907A - 具有在线优化能力的高速公路交通事件持续时间预测方法

Info

Publication number: CN104408907A
Application number: CN201410604118.5A
Authority: CN
Inventors: 孙棣华; 赵敏; 刘卫宁; 罗例东
Original assignee: Chongqing University
Current assignee: Chongqing Kezhiyuan Technology Co ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-03-11
Anticipated expiration: 2034-10-31
Also published as: CN104408907B

Abstract

本发明公开了一种具有在线优化能力的高速公路交通事件持续时间预测方法，本发明选择三种具有更新能力的单体预测模型实现融合预测，通过动态分析各单体预测模型的误差，利用误差反比例法来动态分配各自的权值；当获取一定的新交通事件后，对各单体预测模型及其参数进行修正优化，并对比分析修正前后的模型优劣，选择更优的模型参与融合预测。待又获得一定新的交通事件后，再对模型进行优化处理，并对比择优使用。在优化过程中，若有新的交通事件需要预测时，则沿用原模型实施预测，待优化完成后择优使用。可使得每次预测时预测模型不必存储和检索大量数据，也可保障预测的时效性。提高高速公路交通事件持续时间的预测精度，提高公路网运行效率。

Description

具有在线优化能力的高速公路交通事件持续时间预测方法

技术领域

本发明涉及交通运行状态分析领域，特别涉及一种高速公路交通事件持续时间在线融合预测技术。

背景技术

交通拥堵已经成为世界上很多国家面临的主要交通问题之一，交通事件(如交通事故、车辆抛锚、天气状况等)是造成高速公路交通拥堵的主要原因之一。近年来随着我国社会和经济的快速发展、汽车工业的迅速扩张，城市化进程逐步加快，我国机动车拥有量猛增，交通需求迅速增长。随着交通流量的增加，车速的加快、危险品运输种类的增加等，高速公路交通拥挤、交通事故等频频发生，由交通事件造成的交通堵塞、交通延误及二次事故的发生也必然上升，造成严重的人员伤亡和财产损失。此外，公路的安全和畅通一直是国家主干公路网交通管理中的两大重心，而交通突发事件情况下的应急处置管理，则是非常态交通管理的核心。若能够及时获得高速路网上的交通信息、准确地掌握路网的交通拥挤状态，将有助于道路交通管理人员充分利用交通系统的时空资源，确定最佳的紧急救援方案、交通管控措施以和安全隐患排除对策，对道路的交通流进行管理和引导，缓解交通拥挤，从而有效地减少交通延误、减少交通运行风险、提高交通事件管理的水平。为此，对交通事故持续时间实施有效的预测，对于事件现场状况和未来走势的理解和预测、应急资源需求和资源调度、应急预案生成和交通组织管理决策优化等方面，具有重要的意义。

在交通事件持续时间预测方面，当前国内外对此研究的预测方法主要可以分为两大块：一类是基于统计分析的模型，主要包括基于概率分布的预测方法、基于条件概率的预测方法、回归分析模型、时间序列模型等；一类是不考虑分布特点的预测模型，主要包括模糊逻辑模型、决策树预测模型、非参数回归模型等。各种方法都具有一定的优点，但也存在局限性。交通事件是随机事件，它不仅受道路交通系统中各要素的制约，还受到社会、自然等多种偶然因素的影响(如天气、事故类型、到场时间、占用车道数、涉及车辆数、伤亡人数、救援车辆数等随机因素)，而当前单一的交通事件持续时间预测模型，均不能在不同时刻、不同情况下保持绝对较好的预测精度，并且，不同的预测模型各有其优点和缺点，相互间并不排斥，而是相互联系、相互补充。为此，可以通过融合不同预测模型，取长补短，以提高预测精度。对于融合预测方法，其关键的一个方面是对各单体预测模型权值的动态确定，权值确定的合理程度直接决定着预测精度的高低。

清华大学的李瑞敏和赵小强基于多元回归模型、决策树模型(CHAID和CART树的决策树模型)、离散选择模型(多元Logit模型、顺序Probit模型)，建立了层析分析综合预测方法。通过比较不同预测模型的误差，用层次分析方法求取各模型的权值，进而对各单体预测模型的预测结果加权叠加以实现融合预测。结果表明层次分析综合模型提高了预测精度。采用多个单体预测模型实施融合预测更具有效。

随着时间推移，道路行车环境的变化或改善以及运管部门对交通事件管控能力的提升等，交通事件特性会发生变化，未来影响交通事件的相关显著性因素将会与当前和历史事件有所区别，并且同一类型事件的持续时间也将发生变化。而当前国内外已提出的单体预测模型、融合预测模型使用的是静态和离线的算法，无法对模型中的参数值和内部结构进行在线调整，这将导致预测模型预测精度的下降。

发明内容

有鉴于此，本发明所要解决的技术问题是提供一种具有在线优化能力的高速公路交通事件持续时间预测方法。

本发明的目的是这样实现的：

本发明提供的具有在线优化能力的高速公路交通事件持续时间预测方法，包括以下步骤：

步骤1：从事件数据库中读取当前待预测交通事件的属性信息，并判别当前待预测交通事件所属的事件类型；

步骤2：基于当前待预测交通事件的信息，利用各单体预测模型对当前待预测交通事件的持续时间分别进行单独预测，获得各单体预测模型的预测结果；

步骤3：将各单体预测模型实施融合预测；根据误差反比例法的加权叠加融合策略进行预测结果融合生成融合预测结果；

步骤4：将单体预测模型各自预测结果及融合预测结果存储于事件数据库中，同时存储交通事件信息，并在事件数据库中做预测结果标识以区分不同模型的预测结果；做事件标识以区分不同的交通事件；

步骤5：完成当前待预测交通事件持续时间预测后，获取交通事件的实际持续时间，同时计算各单体预测模型对当前交通事件的预测误差，存于事件数据库中，并与当前事件及其预测结果匹配；若当前事件持续时间在规定的一定时间内一直被记录为空或为0的异常情况，则交通事件不做处理，直接转至步骤10；

步骤6：该类交通事件新增计数值自增1；

步骤7：对当前待预测交通事件和历史交通事件持续时间数据进行处理，获取当前待预测交通事件的实际持续时间和历史交通事件持续时间的均值，对该类交通事件的持续时间参数估计值进行修正；

步骤8：根据交通事件的类型，在事件数据库中找寻同类型的事件，并获取各历史交通事件的信息，计算各单体预测模型对该类各历史交通事件持续时间的预测误差

步骤9：利用各单体预测模型预测误差求取各模型的融合权重；求取各单体预测模型对该类型交通事件的预测误差之和及其平均值，获得各单体预测模型的预测误差值；并利用误差反比例法求取各单体预测模型的融合权重；

步骤10：判断该类型交通事件是否大于预测次数阈值n，如果否，则判断有无新的交通事件需要预测，如果是，则返回至步骤1；

步骤11：将新增的n起交通事件与历史交通事件进行综合分析，对各单体预测模型的参数进行优化；

步骤12：判断模型或参数是否优化完成，若优化完成，则转至步骤13；否则判断当前是否有新的交通事件需要预测其持续时间，若有，则返回步骤1，并利用原模型实施预测，若无，则继续判断模型或参数是否优化完成；

步骤13：将重新标定参数或重新修正后的各单体预测模型与原单体预测模型作对比分析；在事件数据库中，随机选择各类事件若干，利用各单体预测模型的新旧模型分别对不同的交通事件持续时间进行预测，并统计各事件预测的精度；针对某一类交通事件，若新模型的预测精度优于原模型，则采用新模型实施下次预测，同时，存储各自预测结果及误差；否则，沿用原模型实施下次预测；

步骤14：利用择优后的模型对未来交通事件的持续时间实施预测，若有新的交通事件需要预测其持续时间，则返回步骤1。

进一步，所述步骤3中的融合预测采用误差反比例法的加权叠加融合策略进行，具体过程如下：

S31：读取三种单体预测模型各自的预测结果；

S32：读取三种单体预测模型各自的融合权重；

S33：利用融合权重对各单体预测模型预测结果加权求和；

S34：获得交通事件持续时间融合预测结果；

S35：将预测结果存储于事件数据库中。

进一步，所述步骤7中的持续时间参数估计值修正具体过程如下：

S71：剔除明显非有效数据，所述明显非有效数据包括事件持续时间为0、事件本身信息记录缺少数据项较多、信息重复录入的数据；

S72：计算持续时间数据的均值和三倍均方差3σ_t，若离群值的偏差大于3σ_t，则判定为异常值并剔除；

S73：求取经数据预处理后的事件持续时间数据的均值，并对模型中的相关持续时间参数估计值进行修正。

进一步，所述步骤9中的融合权重计算采用通过误差均值的倒数求取，具体过程如下：

S911：初始化各单体预测模型的融合权重均设置为0；

S912：获得三种单体预测模型近k次的预测误差；

S913：分别求取三种单体预测模型近k次的预测误差之和；

S914：判断某单体预测模型误差和是否为0，如果是，则对该单体预测模型的误差之和赋值为0.01；

S915：如果否，则分别求取三种单体预测模型近k次误差的均值；

S916：分别求取三种预测模型误差均值的倒数；

S917：分别求取三种预测模型误差均值的倒数之和；

S918：分别求取各模型误差均值的倒数占三模型误差均值倒数之和的比例；

S919：获得三种单体预测模型各自的融合权重。

进一步，所述步骤9中的融合权重计算采用通过误差和的倒数求取，具体过程如下：

S921：初始化各单体预测模型的融合权重均设置为0；

S922：获得三种单体预测模型近k次的预测误差；

S923：分别求取三种单体预测模型近k次的预测误差之和；

S924：判断某单体预测模型误差和是否为0，如果是，则对该单体预测模型的误差之和赋值为0.01；

S925：如果否，则分别求取各模型误差之和的倒数占三模型误差和的倒数之和的比例；

S926：获得三种单体预测模型各自的融合权重。

进一步，所述步骤11中的各单体预测模型参数优化具体过程如下：

S111：数据预处理，以剔除异常数据，并将数据信息数字化、统一规范化处理；包括如下两大部分：

1)去噪处理，剔除异常数据，包括事件持续时间为0、持续时间过长、事件本身信息记录缺少数据项和信息重复录入数据；去噪的方法采用对比同样特征事件的持续时间数据，剔除出其中离群较远的点，并判断事件信息记录的完整性；实施步骤如下：

A.首先，剔除明显非有效数据，包括事件持续时间为0、事件本身信息记录缺少数据项较多、信息重复录入等数据；

B.其次，计算持续时间数据的均值和三倍均方差3σ_t，即若离群值的偏差大于3σ_t，则判定为异常值并剔除；

C.最后，将处理后的事件数据存储于有效事件数据表中；

2)数字化处理，对文字的记录信息做数字化处理，将影响因素的定性描述进行定量标定，并对其赋值；对于事件数据信息的数字化处理，将事件信息存储于历史事件数据库时，同时实现对各种信息的数字化预处理，并将处理结果与事件信息匹配存储于历史事件数据库中；

S112：影响因素显著性分析；

利用方差分析法对各因素进行显著性分析，取显著性水平为0.01至0.05，若分析后获得的显著因素太少或模型需要包含较多变量时，则增大显著性水平，取值为0.1；

S113：对各单体预测模型做参数优化或模型修正，具体如下：

1)对于多元回归预测模型，在新增交通事件后，对各因素重新做显著性分析，重新选择或补充模型变量，采用逐步回归方法按以下步骤来实现并重新标定各变量的回归系数：

SA1：完成数据处理及因素的显著性分析；

SA2：对变量标准化；

SA3：计算相关系数矩阵；

SA4：确定F检验值(F1、F2)；

SA5：开始实施逐步计算；

SA6：变量引入处理：计算未引入变量的偏回归平方和Vi，比较大小并计算最大者的F值；

SA7：判断检验值F＞F1是否成立，如果否，则输出原始回归方程，并做效果检验、完成并输出结果，结束处理；

SA8：如果是，则已入选变量数增1；

SA9：做相关系数矩阵变换；

SA10：判断已入选变量数＜2是否成立，如果是，则返回步骤SA6；

SA11：如果否，则进行变量剔除处理：计算已引入变量的偏回归平方和Vi，比较大小并计算最小者的F值；

SA12：判断F＜F2是否成立，如果否，则返回步骤SA6；

SA13：如果是，则已引入变量数减1；返回步骤SA9。

2)对于贝叶斯决策树预测模型，模型优化具体过程如下：

SB1：完成数据处理及因素的显著性分析；

SB2：判断当前各显著性因素是否已处理完成，如果是，则求取该类交通事件实际持续时间的均值；并修正模型中的持续时间估计值；进入到步骤SB6；如果否，则判断是否存在某一新的显著因素，进入下一步；

SB3：如果是，则根据受该因素影响的事件来修正模型结构及持续时间估计值，进入到步骤SB6；

SB4：如果否，判断是否存在多个影响显著的新因素，如果否，则进入到步骤SB6；

SB5：如果是，则利用贝叶斯推理方法重构决策树结构；

SB6：输出模型的优化结果；

SB7：结束分析处理。

3)对于基于生存分析的预测模型，模型优化具体过程如下：

SC1：完成数据处理及因素的显著性分析；

SC2：采用参数加速失效模型建立模型的基本形式；

SC3：确定模型的变量组；

SC4：利用极大似然估计法求解模型的参数值；

SC5：求取模型对应的AIC值；

SC6：判断全部处理完成是否成立，如果否，则返回步骤SC3；

SC7：如果是，则找寻AIC值为最小的模型及对应的参数值；

SC8：输出模型及对应的参数值。

本发明的有益效果在于：本发明提供的一种具有在线优化能力的高速公路交通事件持续时间预测方法，对模型进行在线优化更新，适应随时间变化的交通事件特性，可以提高高速公路交通事件持续时间的预测精度，进而，有助于提升高速路网交通管控的智能化水平，提高对公众的服务水平，促进公路网运行效率的提高。由于实施运行中，需要已建立了历史事件数据库、交通事件持续时间预测事件数据库(统称为事件数据库)，并设已存储有各单体预测模型针对不同类型事件的预测结果及误差；此外，预测时需能够较及时地获取交通事件的属性信息，并存储于事件数据库中，因为事发时能较及时地获取交通事件的属性信息并存储于历史事件数据库中，可保障预测的有效实施。并且，对新发生事件的各属性信息的记录均是按规定进行有效的记录，仅会存在极少的错误记录。

在该融合预测方法中，将各单体预测模型融合权值的分析确定和模型优化及择优处理置于预测完成后进行，可使得每次预测时预测模型不必存储和检索大量数据，也可保障预测的时效性。

本发明选择三种具有更新能力的单体预测模型实现融合预测，通过动态分析各单体预测模型的误差，利用误差反比例法来动态分配各自的权值；当获取一定的新交通事件后，对各单体预测模型及其参数进行修正优化，并针对不同类型的事件，对比分析修正前后的模型优劣，通过精度对比的择优机制，选择更优的模型参与融合预测。待又获得一定新的交通事件后，再对模型进行优化处理，并对比择优使用。在优化过程中，若有新的交通事件需要预测时，则沿用原模型实施预测，待优化完成后择优使用。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1示出了具有在线优化能力的高速公路交通事件持续时间预测方法的流程示意图；

图2示出了各单体预测模型融合预测流程图；

图3示出了各单体预测模型融合权重通过误差均值的倒数求取来确定的流程图；

图4示出了各单体预测模型融合权重通过误差和的倒数求取来确定的流程图；

图5示出了多元回归预测模型优化流程图；

图6示出了贝叶斯决策树模型优化流程图；

图7示出了贝叶斯决策树修正前示意图；

图8示出了贝叶斯决策树修正后示意图；

图9示出了基于生存(风险)分析的预测模型优化流程图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

实施例1

如附图所示，本发明提供的具有在线优化能力的高速公路交通事件持续时间预测方法，包括以下步骤：

步骤6：该类交通事件新增计数值自增1；

所述步骤3中的融合预测采用误差反比例法的加权叠加融合策略进行，具体过程如下：

S31：读取三种单体预测模型各自的预测结果；

S32：读取三种单体预测模型各自的融合权重；

S33：利用融合权重对各单体预测模型预测结果加权求和；

S34：获得交通事件持续时间融合预测结果；

S35：将预测结果存储于事件数据库中。

所述步骤7中的持续时间参数估计值修正具体过程如下：

所述步骤9中的融合权重计算采用通过误差均值的倒数求取，具体过程如下：

S911：初始化各单体预测模型的融合权重均设置为0；

S912：获得三种单体预测模型近k次的预测误差；

S913：分别求取三种单体预测模型近k次的预测误差之和；

S916：分别求取三种预测模型误差均值的倒数；

S917：分别求取三种预测模型误差均值的倒数之和；

S919：获得三种单体预测模型各自的融合权重。

所述步骤9中的融合权重计算采用通过误差和的倒数求取，具体过程如下：

S921：初始化各单体预测模型的融合权重均设置为0；

S922：获得三种单体预测模型近k次的预测误差；

S923：分别求取三种单体预测模型近k次的预测误差之和；

S926：获得三种单体预测模型各自的融合权重。

所述步骤11中的各单体预测模型参数优化具体过程如下：

C.最后，将处理后的事件数据存储于有效事件数据表中；

S112：影响因素显著性分析；

S113：对各单体预测模型做参数优化或模型修正，具体如下：

SA1：完成数据处理及因素的显著性分析；

SA2：对变量标准化；

SA3：计算相关系数矩阵；

SA4：确定F检验值(F1、F2)；

SA5：开始实施逐步计算；

SA8：如果是，则已入选变量数增1；

SA9：做相关系数矩阵变换；

SA12：判断F＜F2是否成立，如果否，则返回步骤SA6；

SA13：如果是，则已引入变量数减1；返回步骤SA9。

2)对于贝叶斯决策树预测模型，模型优化具体过程如下：

SB1：完成数据处理及因素的显著性分析；

SB5：如果是，则利用贝叶斯推理方法重构决策树结构；

SB6：输出模型的优化结果；

SB7：结束分析处理。

3)对于基于生存分析的预测模型，模型优化具体过程如下：

SC1：完成数据处理及因素的显著性分析；

SC2：采用参数加速失效模型建立模型的基本形式；

SC3：确定模型的变量组；

SC4：利用极大似然估计法求解模型的参数值；

SC5：求取模型对应的AIC值；

SC6：判断全部处理完成是否成立，如果否，则返回步骤SC3；

SC7：如果是，则找寻AIC值为最小的模型及对应的参数值；

SC8：输出模型及对应的参数值。

实施例2

本实施例与实施例1的区别仅在于：

本实施例提供的具有在线优化能力的高速公路交通事件持续时间预测方法，包括如下步骤：

步骤1：从事件数据库中读取当前待预测交通事件的属性信息，并判别该交通事件所属的事件类型；

交通事件属性信息可从事件数据库读取外，也可以选择由事件信息输入模块直接及时输入，但优选事件数据库读取方式。

步骤2：基于当前交通事件的信息，利用各单体预测模型(多元回归预测模型、贝叶斯决策树预测模型、基于生存(风险)分析的预测模型)对该事件的持续时间分别进行单独预测，获得各单体预测模型的预测结果；

步骤3：将各单体预测模型实施融合预测。根据误差反比例法的加权叠加融合策略进行预测结果融合，融合预测机制参见图2；

在相同时间下，对同一交通事件，各单体预测模型的预测精度仍有高低之分，因此，为了进一步提高预测精度，减少预测误差，需要对各单体预测模型进行融合预测。融合的思想是充分考虑各个单体预测模型在历史时间里的预测精度以及模型本身的适用环境。本发明采用误差反比例法确定权重，其原则是权重与误差大小成反比，即误差大的给予小的权重，误差小的给予大的权重。通过对各单体预测模型的预测结果加权叠加实现融合预测。

步骤4：将单体预测模型各自预测结果及融合预测结果存储于历史交通事件持续时间预测事件数据库中，同时存储事件信息，并在事件数据库中做预测结果标识以区分不同模型的预测结果、做事件标识以区分不同的交通事件；

步骤5：完成当前交通事件持续时间预测后，获取事件的实际持续时间，同时计算各单体预测模型对当前事件的预测误差，存于事件数据库中，并与当前事件及其预测结果匹配。若当前事件持续时间在规定的一定时间内(根据运管部门对业务的要求设定，如要求事发后24小时或48小时内)一直被记录为空或为0等异常情况，则此事件可不做处理，直接转至步骤10。

步骤6：该类事件新增计数值自增1，即有count_E+1；

步骤7：对当前事件和历史事件持续时间数据进行处理，获取当前事件的实际持续时间和历史交通事件持续时间的均值，以此对贝叶斯决策树模型中该类事件的持续时间参数估计值进行修正；主要包括如下几部分：

(1)首先，剔除明显非有效数据，包括事件持续时间为0、事件本身信息记录缺少数据项较多、信息重复录入等数据；

(2)其次，利用持续时间数据的均值和标准差做进一步处理。可利用均值和三倍均方差(3σ_t)来处理，即若离群值的偏差大于3σ_t，则有理由将之判定为异常值并剔除；

(3)求取经数据预处理后的事件持续时间数据的均值，并以此对模型中的相关持续时间参数估计值进行修正。

随着时间推移，道路行车环境的变化或改善以及运管部门对交通事件管控能力的提升，未来发生的交通事件的特性及其持续时间将会与历史交通事件有所区别，为此，需要将新交通事件的实际持续时间和历史交通事件持续时间综合分析，求取该类事件持续时间的均值，重新给出持续时间估计值，这样可将行车环境和管控能力的变化反映其中，以在一定程度上减小贝叶斯决策树模型对未来交通事件持续时间的预测误差。

步骤8：根据事件的类型，在历史交通事件持续时间预测事件数据库中找寻同类型的事件，并获取各历史交通事件的信息，主要需包括各单体预测模型对该类各历史交通事件持续时间的预测误差

针对不同类型的交通事件，用同一种预测模型，其预测精度也存在差异，则需要根据事件类型统计各单体预测模型的预测误差。

步骤9：利用各单体预测模型预测误差求取各模型的融合权重。求取各单体预测模型对该类型交通事件的预测误差之和及其平均值，获得各单体预测模型的预测误差值。并利用误差反比例法求取各单体预测模型的融合权重，为未来进行该类交通事件持续时间融合预测提供各单体预测模型的权重值。各单体预测模型的融合权重确定方法流程参见图3、图4；

步骤10：判断该类型事件是否已预测n次(n≥1，即事件数据库中该类事件已新增n起，有count_E＝n)，如果预测次数未达到n次，便判断有无新的事件需要预测，若有则返回至步骤1。

步骤11：将新增的n起交通事件与历史交通事件进行综合分析，对各单体预测模型的参数进行优化或做模型修正；实施的主要步骤如下：

(1)数据预处理，以剔除异常数据，并将数据信息数字化、统一规范化处理；主要包括如下两大部分：

1)去噪处理。主要是剔除异常数据，如事件持续时间为0、持续时间特别长(如超过24h)、事件本身信息记录缺少数据项较多、信息重复录入等。去噪的方法是通过对比同样特征事件的持续时间数据，剔除出其中离群较远的点，并判断事件信息记录的完整性。此处可利用持续时间数据的均值和标准差来剔除离群较远的点。实施步骤如下：

B.其次，利用持续时间数据的均值和标准差做进一步处理。可利用均值和三倍均方差(3σ_t)来处理，即若离群值的偏差大于3σ_t，则有理由将之判定为异常值并剔除。

C.最后，将处理后的事件数据(包括事件的各属性信息)存储于“有效事件数据表”中，以便为后续工作(如模型优化)做数据准备。

2)数字化处理。主要是对文字的记录信息等做数字化处理，是将影响因素的定性描述进行定量标定，并对其赋值。对于事件数据信息的数字化处理，可在将事件信息存储于历史事件数据库时，同时实现对各种信息的数字化预处理，并将处理结果与事件信息匹配存储于历史事件数据库中。

(2)影响因素显著性分析；

在所有影响因素中，有的因素影响可能很大，而有的因素则影响很小。为了减少预测成本，提高预测精度，需要从多种因素中找出主要影响因素，区别各因素的影响程度，此外，测定的变量越多，实施的难度就越大。可利用方差分析法对各因素进行显著性分析，一般可取显著性水平为0.01或0.05，但若分析后获得的显著因素太少或模型需要包含较多变量时，应增大显著性水平，如取值为0.1。

(3)对各单体预测模型做参数优化或模型修正。

1)对于多元回归预测模型，其模型优化机制参见图5。

由于影响事件持续时间因素繁多复杂，随机性强，因此，对历史事件所包含信息的不断补充完善，考虑更多的影响因素，将会有助于提高预测精度。此外，初始模型建立时采用的样本毕竟有限，对某些因素的显著性分析可能存在欠充分，则需要在新增事件后，对各因素重新做显著性分析，重新选择或补充模型变量，并重新标定各变量的回归系数，此处采用逐步回归方法实现。

2)对于贝叶斯决策树预测模型，模型优化机制参见图6。

随着时间的推移，道路行车环境的变化或改善以及运管部门对交通事件管控能力的提升等，会影响交通事件持续时间的长短，需要将新增事件与历史事件综合分析，重新修正预测时间参数估计值或决策树结构，此外，当有更多的事件数据可用于进行显著性分析时，可以进一步对决策树进行完善和细化，有助于提高预测精度。

3)对于基于生存(风险)分析的预测模型，模型优化机制参见图9。

对于基于生存分析的预测模型，模型的参数估计值的时间稳定性需要大量的数据来验证。因此，在获取新的事件后，需要将新增事件与历史事件综合分析，重新修正参数估计值。在完成数据处理和因素显著性分析后，对模型进行参数优化或模型修正。

步骤12：判断模型或参数是否优化完成，若优化完成，则转至步骤13；否则判断当前是否有新的交通事件需要预测其持续时间，若有，则返回步骤1，并利用原模型实施预测，若无，则继续判断模型或参数是否优化完成。

步骤13：将重新标定参数或重新修正后的各单体预测模型与原单体预测模型作对比分析。在事件数据库中，随机选择各类事件若干，利用各单体预测模型的新旧模型分别对不同的交通事件持续时间进行预测，并统计各事件预测的精度。针对某一类交通事件，若新模型的预测精度优于原模型，则采用新模型实施下次预测，同时，存储各自预测结果及误差。否则，沿用原模型实施下次预测；

由于利用新交通事件与历史交通事件综合分析，重新标定模型参数或做模型修正后，新旧模型对各类交通事件持续时间的预测精度可能存在不一致性，需要对不同类型的交通事件分别进行对比分析，以对新旧模型择优使用。

实施例3

本实施例与实施例2的区别仅在于：

参见图1，具有在线优化能力的高速公路交通事件持续时间预测方法，包括如下步骤：

交通事件属性信息可从事件数据库读取外，也可以选择由事件信息输入模块直接及时输入，但优选数据库读取方式。

对预测结果进行融合，计算公式为：

\hat{y} (t) = Σ_{i = 1}^{n} w_{i} (t) \cdot {\hat{y}}_{i} (t);

式中：—第i种单体预测模型在t时刻的预测值；的权重。

步骤4：将单体预测模型各自预测结果及融合预测结果存储于历史交通事件持续时间预测数据库中，同时存储事件信息，并在数据库中做预测结果标识以区分不同模型的预测结果、做事件标识以区分不同的交通事件；

步骤5：完成当前交通事件持续时间预测后，获取事件的实际持续时间，同时计算各单体预测模型对当前事件的预测误差，存于数据库中，并与当前事件及其预测结果匹配。若当前事件持续时间在规定的一定时间内(根据运管部门对业务的要求设定，如要求事发后24小时或48小时内)一直被记录为空或为0等异常情况，则此事件可不做处理，直接转至步骤10；

步骤6：该类事件新增计数值自增1，即有count_E+1；

(2)其次，利用持续时间数据的均值和标准差做进一步处理。设持续时间数据的均值为标准差为σ_t，事件实际持续时间值为t_i，则离群较远点的剔除规则为：

1)如果存在则认为该条数据是有效数据，不予剔除；

2)如果存在或者则判定t_i所对应的该条数据为异常数据，应予以剔除。

步骤8：根据事件的类型，在历史交通事件持续时间预测数据库中找寻同类型的事件，并获取各历史交通事件的信息，主要需包括各单体预测模型对该类各历史交通事件持续时间的预测误差

步骤9：利用各单体预测模型预测误差求取各模型的融合权重。求取各单体预测模型对该类型交通事件的预测误差之和及其平均值，获得各单体预测模型的预测误差值。并利用误差反比例法求取各单体预测模型的融合权重，为未来进行该类交通事件持续时间融合预测提供各单体预测模型的权重值。各单体预测模型的融合权重确定流程参见图3和图4；

由步骤3中的融合预测计算公式可以看出，最重要的步骤即是权重的确定，它决定了某个模型输出信息对最终预测结果所起的作用，将直接影响到模型融合预测的精度。期望的权重应是能够根据预测误差的变化不断调整，以使精度最好的预测结果可以对最终的输出起到最大的作用。为此，定义动态误差为：

e_{d, i}^{j} (t) = \frac{1}{k} [e_{ar, i}^{j} (t) + e_{ar, i}^{j} (t - 1) + . . . + e_{ar, i}^{j} (t - k)]

式中：—i模型对j类事件在t时段的动态误差，它实际上是t之前k个时段内(或k次预测)i模型误差的均值；

k—误差累积数，通常可以取历史总数，也可根据预测要求来确定其合适的取值，此时一般取临近t的历史预测数；

—t时段i模型对j类事件预测结果的绝对相对误差。的计算公式为：

e_{ar, i}^{j} (t) = | \frac{y (t) - {\hat{y}}_{i} (t)}{y (t)} |;

式中：y(t)—t时事件的实测持续时间；

—i模型对t时事件持续时间的预测值。

得到每种预测模型的动态误差之后，便可以据此确定各模型预测结果的融合权重w_i(t)。w_i(t)是一个随着变化而不断变化的函数。本发明采用反比例法确定权重，其原则是权重与误差大小成反比，即误差大的给予小的权重，误差小的给予大的权重。

其流程图描述如下所示：

a)初始化各单体预测模型的融合权重w_i(t)为0；

b)获得三种单体预测模型近k次的预测误差；

c)分别获得三种预测模型k次误差之和，并判断某单体预测模型的误差之和是否为0，如果为0，则给该模型误差之和赋值为0.01；

d)通过反比例法得到每个预测模型的权重。首先分别求取三种预测模型近k次误差的均值以及均值的倒数；

e)再者，求取三种预测模型误差均值的倒数之和，并以各预测模型误差均值的倒数占三种预测模型误差均值倒数之和的比例来标定各模型的权重。

w_{i} (t) = \frac{[1 / e_{ar, i}^{j} (t)]}{Σ_{i = 1}^{m} [1 / e_{ar, i}^{j} (t)]}

式中：—为某单体预测模型k次误差均值的倒数；

—为各单体预测模型k次误差均值的倒数之和；

m—单体预测模型的数量。

此外，可直接根据各单体预测模型误差之和的倒数占三种预测模型误差和的倒数之和的比例求取权重。

w_{i} (t) = \frac{[1 / Σ_{h = 0}^{k} e_{ar, i}^{j} (t - h)]}{Σ_{i = 1}^{m} [1 / Σ_{h = 0}^{k} e_{ar, i}^{j} (t - h)]}

式中：—为某单体预测模型k次误差之和的倒数；

—为各单体预测模型k次误差和的倒数之和。

步骤10：判断该类型事件是否已预测n次(n≥1，即数据库中该类事件已新增n起，有count_E＝n)，如果预测次数未达到n次，便判断有无新的事件需要预测，若有则返回至步骤1。

(1)数据预处理

数据预处理主要包括：去噪及数字化处理等，以剔除异常数据，并将数据信息统一规范化。

1)去噪处理主要是剔除异常数据，如事件持续时间为0、持续时间特别长(如超过24h)、事件本身信息记录缺少数据项较多、信息重复录入等。去噪的方法是通过对比同样特征事件的持续时间数据，剔除出其中离群较远的点，并判断事件信息记录的完整性。此处可利用持续时间数据的均值和标准差来剔除离群较远的点。实施步骤如下：

B.其次，利用持续时间数据的均值和标准差做进一步处理。设持续时间数据的均值为_t，标准差为σ_t，事件实际持续时间值为t_i，则离群较远点的剔除规则为：

如果存在则认为该条数据是有效数据，不予剔除；

如果存在或者则判定t_i所对应的该条数据为异常数据，应予以剔除。

2)对文字的记录信息等做数字化处理，是将影响因素的定性描述进行定量标定，并对其赋值。对于事件数据信息的数字化处理，可在将事件信息存储于历史事件数据库时，同时实现对各种信息的数字化预处理，并将处理结果与事件信息匹配存储于历史事件数据库中。处理方法及结果参见表1。

表1 交通事件数据表格字段及其因子水平解释

说明：表1仅为示例，用于说明方法；在实际应用中，可根据具体的情况更改。

(2)影响因素显著性分析；

(3)对各单体预测模型做参数优化或模型修正。

1)对于多元回归预测模型，其模型优化机制参见图5。

按影响因子x₁,x₂,…,x_m对事件持续时间y的影响作用大小，由大至小地将各影响因子逐个引入回归方程。在回归处理过程中，已被引入方程中的因子，在新因子引入后有可能因变成对y作用不显著而随时从方程中剔除出去，已剔除的因子在新变量引入后也可重新放回，以便获得具有某种最优性质的回归方程。当所有引入方程中的变量的作用均达到了显著水平，同时不能再引入新变量，则逐步回归结束，输出回归方程。

a)计算变量均值离差平方和L₁₁,L₂₂,…,L_pp,L_yy，并记各自标准化变量为

u_{j} = \frac{x_{j} - \overset{&OverBar;}{x_{j}}}{\sqrt{L_{jj}}}, j = 1, . . ., p,

u_{p - 1} = \frac{y - \overset{&OverBar;}{y}}{\sqrt{L_{yy}}} .

b)计算相关系数矩阵R⁽⁰⁾。

c)取定用于检验的F值。引入变量时，自由度取f₁＝1,f₂＝n-k-2，检验临界值为F₁；剔除变量时，自由度取f₁＝1,f₂＝n-k-1，检验临界值为F₂。但通常实际应用取F₁＝F₂。

d)逐步计算。根据因子影响作用由大至小地将变量引入方程做分析处理。设已有k个变量引入：x_i1,x_i2,…,x_ik，且各不相同。R⁽⁰⁾经变换后为R^(k)＝(ri_j ^(k))，对j＝1,…,k逐一计算标准化变量u_ij的偏回归平方和并记做F检验，若对具有值的引入变量，其对应的F＞F₁，则该变量需引入；若对具有最小值的已引入变量存在F＜F₂，则剔除，否则对其他已引入变量继续做剔除检验至满足要求为止。

e)对d)循环，直到选出满足要求的变量。如设最终选择有互不相同的m个变量。R⁽⁰⁾经变换为R^(m)＝(ri_j ^(m))，输出回归方程为：

\frac{y - \overset{&OverBar;}{y}}{\sqrt{L_{yy}}} = r_{i 1, (p + 1)}^{(m)} \frac{x_{i 1} - \overset{&OverBar;}{x_{i 1}}}{\sqrt{L_{i 1 i 1}}} + . . . + r_{im, (p + 1)}^{(m)} \frac{x_{im} - \overset{&OverBar;}{x_{im}}}{\sqrt{L_{imim}}}

由此可处理获得回归方程，同时对回归效果做检验，完成回归分析处理，获得回归模型及其参数。

2)对于贝叶斯决策树预测模型，模型优化机制参见图6。

①完成因素显著性分析后，首先判断加入新的事件分析后，各影响因素是否在之前已有考虑，若已考虑且影响显著性没有变化，则按步骤7方式处理，即步骤7已处理，此处可不做处理。

②若存在某一影响较显著的新因素，此时对决策树模型及其持续时间参数做修正，可在该类事件预测决策树的底层添加分支，以表征当事件存在此因素影响时的事件持续时间。

设历史交通事件数据库中该类事件受到该新增显著因素影响的事件数量为n_e，各单一事件的实际持续时间为Te_i，则采用下式来估计事件持续时间参数。

T_{e} = \frac{1}{n_{e}} Σ_{i = 1}^{n_{e}} T e_{i}

式中：T_e表示该类事件受新增显著因素影响下的持续时间估计值，为经修正后的持续时间估计值。

此处设T_h为该类事件不受新增显著因素影响下的持续时间估计值，即原决策树模型中该类事件持续时间估计值。决策树修正示意图参见图7和图8；图中，θ_i(θ₁、θ₂、……)表示条件节点；0/f表示贝叶斯节点，其中：0表示节点不进行任何计算，直接根据条件θ_i转向下一属性测试节点，f表示需要计算f的值，此处的函数f是朴素的贝叶斯公式；n_i(n₀、n₁、……)表示属性节点；T_e表示上述的该类事件受新增显著因素影响下的持续时间估计值，为修正后的持续时间估计值；T_h表示上述的该类事件不受新增显著因素影响下的持续时间估计值，即原决策树模型中该类事件持续时间估计值；

③当存在多个影响显著的新因素时，此时可能需要对决策树结构进行修正、完善或细化。为此，基于朴素贝叶斯推理方法，重新构建事件持续时间预测决策树。

对于基于生存(风险)分析的预测模型，模型的参数估计值的时间稳定性需要大量的数据来验证。因此，在获取新的事件后，需要将新增事件与历史事件综合分析，重新修正参数估计值。在完成数据处理和因素显著性分析后，对模型进行参数优化或模型修正。此处采用参数加速失效模型(AFT)。

a)建立模型的基本形式

假定事件持续时间T的连续概率密度函数为f(t)，其分布函数为则生存函数S(t)＝1-F(t)＝P(T≥t)，亦为生存率，表示具有协变量X的观察对象其生存时间T≥t的概率。当事件持续时间t后，在后续时间Δt结束的概率表示为条件概率P(t≤T≤t+Δt|T≥t)，用风险函数(风险率)表示。对事件发生时间Z的自然对数Y＝ln(Z)建模，取参数模型一般形式为：

Y＝μ+γX+σW

式中，μ为截距；γ＝(γ₁,γ₂,…,γ_p)为回归系数向量；X为协变量矩阵；σ为未知的尺度参数；W为误差项。

令S₀(t)为随机向量exp(μ+σW)的生存函数，对所有的观测时刻z，带有协变量X的危险率与基本危险率的关系则为：

h(t|X)＝h₀[texp(-γX)]exp(-γX)

对生存函数，若Y为对数罗吉斯蒂分布模型，则有：

S (t | X) = {[1 + t^{\frac{1}{σ}} \exp ({\hat{n}}_{i})]}^{- 1} = {[1 + t^{\frac{1}{σ}} \exp \frac{- μ - γX}{σ}]}^{- 1}

b)模型参数估计

模型的参数可以通过极大似然估计法求取。设样本数为n，定义f_j(t_j)和S_j(t_j)为观测个体j在时刻t_j的密度函数和生存函数，其示性函数为δ_j，构造似然函数为：

L (γ, μ, σ) = Π_{j = 1}^{n} {f_{j} (t_{j})}^{δ_{j}} {S_{j} (t_{j})}^{1 - δ_{j}}

基于上式，根据极大似然估计法的实施步骤求解参数值。并利用赤池信息量准则(AIC)来判断相对优劣性以选择更优的模型。

此处需判断AIC的取值是否为最小，若模型满足要求，则完成对模型参数的优化，输出新模型。其中，AIC函数定义为：

A_IC＝-2l+2(e+c)

式中：l为对数似然函数；e为模型中协变量的个数；c为模型中独立参数的个数。

步骤13：将重新标定参数或重新修正后的各单体预测模型与原单体预测模型作对比分析。在历史交通事件数据库中，随机选择各类事件若干，利用各单体预测模型的新旧模型分别对不同的交通事件持续时间进行预测，并统计各事件预测的精度。针对某一类交通事件，若新模型的预测精度优于原模型，则采用新模型实施下次预测，同时，存储各自预测结果及误差。否则，沿用原模型实施下次预测；

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明所限定的精神和范围。

Claims

1.具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：包括以下步骤：

步骤6：该类交通事件新增计数值自增1；

2.根据权利要求1所述的具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：所述步骤3中的融合预测采用误差反比例法的加权叠加融合策略进行，具体过程如下：

S31：读取三种单体预测模型各自的预测结果；

S32：读取三种单体预测模型各自的融合权重；

S33：利用融合权重对各单体预测模型预测结果加权求和；

S34：获得交通事件持续时间融合预测结果；

S35：将预测结果存储于事件数据库中。

3.根据权利要求1所述的具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：所述步骤7中的持续时间参数估计值修正具体过程如下：

4.根据权利要求1所述的具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：所述步骤9中的融合权重计算采用通过误差均值的倒数求取，具体过程如下：

S911：初始化各单体预测模型的融合权重均设置为0；

S912：获得三种单体预测模型近k次的预测误差；

S913：分别求取三种单体预测模型近k次的预测误差之和；

S916：分别求取三种预测模型误差均值的倒数；

S917：分别求取三种预测模型误差均值的倒数之和；

S919：获得三种单体预测模型各自的融合权重。

5.根据权利要求1所述的具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：所述步骤9中的融合权重计算采用通过误差和的倒数求取，具体过程如下：

S921：初始化各单体预测模型的融合权重均设置为0；

S922：获得三种单体预测模型近k次的预测误差；

S923：分别求取三种单体预测模型近k次的预测误差之和；

S926：获得三种单体预测模型各自的融合权重。

6.根据权利要求1所述的具有在线优化能力的高速公路交通事件持续时间预测方法，其特征在于：所述步骤11中的各单体预测模型参数优化具体过程如下：

C.最后，将处理后的事件数据存储于有效事件数据表中；

S112：影响因素显著性分析；

S113：对各单体预测模型做参数优化或模型修正，具体如下：

SA1：完成数据处理及因素的显著性分析；

SA2：对变量标准化；

SA3：计算相关系数矩阵；

SA4：确定F检验值(F1、F2)；

SA5：开始实施逐步计算；

SA8：如果是，则已入选变量数增1；

SA9：做相关系数矩阵变换；

SA12：判断F＜F2是否成立，如果否，则返回步骤SA6；

SA13：如果是，则已引入变量数减1；返回步骤SA9；

2)对于贝叶斯决策树预测模型，模型优化具体过程如下：

SB1：完成数据处理及因素的显著性分析；

SB5：如果是，则利用贝叶斯推理方法重构决策树结构；

SB6：输出模型的优化结果；

SB7：结束分析处理；

3)对于基于生存分析的预测模型，模型优化具体过程如下：

SC1：完成数据处理及因素的显著性分析；

SC2：采用参数加速失效模型建立模型的基本形式；

SC3：确定模型的变量组；

SC4：利用极大似然估计法求解模型的参数值；

SC5：求取模型对应的AIC值；

SC6：判断全部处理完成是否成立，如果否，则返回步骤SC3；

SC7：如果是，则找寻AIC值为最小的模型及对应的参数值；

SC8：输出模型及对应的参数值。