CN107798871A

CN107798871A - 一种高速公路收费站交通流量预测方法及系统

Info

Publication number: CN107798871A
Application number: CN201711022719.5A
Authority: CN
Inventors: 李�浩; 康雁; 刘家辉; 陈铁; 王蓉宇; 李琛; 饶宇浩; 何磊; 张凡; 张一凡
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-03-13
Anticipated expiration: 2037-10-27
Also published as: CN107798871B

Abstract

本发明属于交通数据处理领域，公开了一种高速公路收费站交通流量预测方法及系统，采用的聚类方法以空间中k个点为中心进行聚类，对最靠近的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果；高速公路收费站交通流量预测方法还包括：采用关联规则和调用arules包对数据进行处理。本发明解决了大多建模过程与传统时间序列模型相似，存在模型参数无法动态调整，样本量过大导致序列的平稳性减弱，建模过程复杂等不足的问题。

Description

一种高速公路收费站交通流量预测方法及系统

技术领域

本发明属于交通数据处理领域，尤其涉及一种高速公路收费站交通流量预测方法及系统。

背景技术

交通流量预测能有效缓解交通拥堵，降低事故发生率，给出行者舒适安全的交通环境。道路交通变化是一个实时、非线性、非平稳的随机过程，统计时段越短，交通流量短时变化的随机性和不确定性越强。由于十字路口是城市交通的重要组成部分，交通情况复杂，干扰因素多，其交通能力不足的问题已成为交通网络的瓶颈。因此，十字路口短时交通流量预测的研究是实现城市交通智能化的一个关键问题。

实时准确地把握高速公路的交通状态以保障其畅通有序运行，对于城市建设和经济发展具有十分重要的意义，现有检测技术已经能够实时监测高速公路的交通状态，但交通管理部门和出行者更关心未来短时间内的交通状态，预测未来短时间内的交通状态不仅能够为交管部门进行交通管制提供决策和支持，同时能够对出行者加以有效的路径诱导，短时交通状态预测的关键在于短时交通流量预测"目前关于短时交通流量预测的方法很多"如：时间序列模型、卡尔曼滤波、线性回归、历史平均等方法，时间序列模型就是其中较为成熟的预测方法之一，时间序列模型最主要的特征就是承认观测值之间的依赖关系和相关性，其优点在于不仅考虑了观测数据在时间序列上的依存性，同时也考虑了随机波动的干扰，因此能够进行动态预测，国内外不少学者利用该方法对短时交通流量预测进行了一系列研究。

综上所述，现有技术存在的问题是：

大多建模过程与传统时间序列模型相似，时间间隔较大，预测数据不精确，存在模型参数无法动态调整，样本量过大导致序列的平稳性减弱，建模过程复杂等不足,在一个序列中同时含有多个周期分量时，阶数较低的自回归移动平均模型很难将多个周期同时反映出来,自回归移动平均模型损失样本点，这对于较短的交通流量时间序列将会引起严重的问题。

技术问题不能有效解决的原因为：不同的地区存在影响交通流量的众多因素，单从流量数据本身建立模型来进行预测并不准确，而实际交通情况还存在一定的偶然性，技术问题只能尽可能缩小与实际的误差。

解决的难度在于：对影响交通流量数据因素的不确定性和具体的影响程度，涉及大量的数据类型和不同的数据格式，以及具体地区人群的主观因素和出行的行为特征。同时，交通流量具有复杂的非线性特征，需要分析的交通流量时间序列也多是非线性、非平稳的数据，各种经典的时间序列分析方法遇到非线性、非平稳的数据就会有精确度不够的缺陷，或者得到的结果没有清晰的实际交通情况含义，因此，有必要对交通流量波动中的非线性、非平稳的数据采用新的方法进行分析和研究，考虑特殊值得影响因素。

解决的意义在于：更加准确地预测实际的交通流量数据，充分考虑不同地区周边因素和自然因素对其的影响，更进一步的是，通过数据本身挖掘出人群主观因素的影响，分析人群的出行特点对交通流量数据的具体影响。

发明内容

针对现有技术存在的问题，本发明提供了一种高速公路收费站交通流量预测方法及系统。

本发明是这样实现的，因为需要预测交通流量，所以首先分别采用了ARIMA算法和Holt-Winters算法。因为两种方法分别用在数据上有着不同的效果，但是所预测的值的效果并没有能够达到最好的效果。这是因为Holt-Winters算法太难计算了。每个点的计算都让你绞尽脑汁。而且也不能通过之前的计算结果推算出加权移动平均值。移动平均值永远不可能应用于现有的数据集边缘的数据，因为它们的窗口宽度是有限的。而ARIMA模型是通过将预测对象随时间推移而形成的数据序列当成一个随机序列，因此在预测交通流量的时候因为两种算法都有所限制因此需要提出更好的方法去解决，所以本发明采用了两种算法相结合的办法，通过两种算法的优势互补，便能够尽可能的得到最佳的预测值。

类似地，移动平均法也不能应用于现有数据集的范围之外。其结果是，它们对预测毫无用处。

一种高速公路收费站交通流量预测方法，所述高速公路收费站交通流量预测方法包括：首先，源数据格式可能并不一致，需要进行数据预处理，提取出交通流量的相关信息，然后采用聚类算法对数据进行聚类分析，得到相同类别的数据，之后采用ARIMA算法、Holt-Winters等方法对上述类别的数据建立相关模型，进行数据的初步预测，最后将预测结果与影响流量数据的因素采用多元线性回归的方法对数据进行分析，考虑其它因素对流量预测的影响，调整相关参数或修改部分特殊值，使最终预测数据能够更加准确地接近真实值。

进一步，采用的聚类方法以空间中k个点为中心进行聚类，对最靠近的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

进一步，高速公路收费站交通流量预测方法还包括：采用关联规则和调用arules包对数据进行处理，具体包括：

保留并更新平滑后的信号和平滑后的趋势两个量的状态，两个等式和两个拌合参数有：

s_i＝αx_i+(1-α)(s_i-1+t_i-1)， (1)

t_i＝β(s_i-s_i-1)+(1-β)t_i-1， (2)

式(2)为平滑后的趋势；

然后每增加一个时间步长，就在式(2)平滑值上增加一次最后的平滑趋势：

x_i+k＝s_i+ht_i；

最后，给三次指数平滑法添加第三个量，用来表达季节性。

进一步，用来表达季节性包括：累加式表达季节性和累乘式表达季节性；

累加式表达季节性对应的等式：

s_i＝α(x_i-p_i-k)+(1-α)(s_i-1+t_i-1)，

t_i＝β(s_i-s_i-1)+(1-β)t_i-1，

p_i＝γ(x_i-s_i)+(1-γ)p_i-k，

x_i+k＝s_i+ht_i+p_i-k+k，

累乘式表达季节性的等式：

t_i＝β(s_i-s_i-1)+(1-β)t_i-1，

x_i＝(s_i+ht_i)p_i-k+k；

其中，pi指周期的长度。

本发明的另一目的在于提供一种高速公路收费站交通流量预测系统。

本发明的优点及积极效果为：

本发明解决了大多建模过程与传统时间序列模型相似，存在模型参数无法动态调整，样本量过大导致序列的平稳性减弱，建模过程复杂等不足的问题。

带来的直接技术效果有：通过聚类预处理和使用多元线性回归和关联规则等，根据本方案中MAPE值评估标准，提高了流量预测的正确率14.7％，和现有技术对比，有效的进行了参数的范围控制和流量预测的准确性，具体体现在天气数据，道路数据，路面数据对流量数据的影响程度。

附图说明

图1是本发明实施例提供的高速公路收费站交通流量预测方法流程图。

图2是本发明实施例提供的数据源散点图。

图3是本发明实施例提供的截取要预测数据的前一周数据来建立模型图。

图4是本发明实施例提供的通过对自相关图和偏自相关图的分析得到最佳的阶层p和阶数q图。

图5是本发明实施例提供的acf和pacf图。

图6是本发明实施例提供的ARIMA在此次数据预测中，进行短期预测结果较好，所以选择用迭代的方式对后面的数据进行预测图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

本发明实施例提供的高速公路收费站交通流量预测方法，采用的聚类方法以空间中k个点为中心进行聚类，对最靠近的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

如图1所示，本发明实施例提供的高速公路收费站交通流量预测方法，包括：

S101：首先，源数据格式可能并不一致，需要进行数据预处理，提取出交通流量的相关信息，然后采用聚类算法对数据进行聚类分析，得到相同类别的数据，之后采用ARIMA算法、Holt-Winters等方法对上述类别的数据建立相关模型，进行数据的初步预测。

S102：最后将预测结果与影响流量数据的因素采用多元线性回归的方法对数据进行分析，考虑其它因素对流量预测的影响，调整相关参数或修改部分特殊值，使最终预测数据能够更加准确地接近真实值。

一、下面结合具体实施例对本发明的应用原理作进一步描述。

1、数据预处理

本发明数据预处理将比赛数据分为不同道口，且每种到达道口的时间按照每20min的间隔进行切分。同时，天气数据也按照每20min的时间间隔进行切分。

聚类预处理

考虑到第14周(需要预测的周)的数据不一定与前面所有的周都有相似性，于是乎，进行聚类，观察14周与之前哪些周是属于一类的，然后求这一类的平均值作为预测值。

本发明采用的聚类方法为K-means。K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

二，下面结合算法设计对本发明作进一步描述。

关联规则——Apriori算法

算法描述

关联规则(AssociationRules)是无监督的机器学习方法，用于知识发现，而非预测。

关联规则的学习器(learner)无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。

关联规则主要用来发现Pattern，最经典的应用是购物篮分析，当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现，如电影推荐、约会网站或者药物间的相互副作用。

1.项集ItemSet

这是一条关联规则：{News，Finance}-＞{Sports}

括号内的Item集合称为项集。如上例，{News,Finance}是一个项

集，{Sports}也是一个项集。这个例子就是一条关联规则：基于历

史记录，同时看过News和Finance版块的人很有可能会看Sports

版块。

{News,Finance}是这条规则的Left-hand-side(LHS or Antecedent){Sports}是这条规则的Right-hand-side(RHS or Consequent)

LHS(Left Hand Side)的项集和RHS(Right Hand Side)的项集不能有交集。

2.支持度Support

项集的支持度就是该项集出现的次数除以总的记录数(交易数)。

Support({News})＝5/6＝0.83

Support({News,Finance})＝4/6＝0.67

Support({Sports})＝2/6＝0.33

支持度的意义在于度量项集在整个事务集中出现的频次。发现规则的时候，希望关注频次高的项集。

3.置信度Confidence

关联规则X->Y的置信度计算公式

规则的置信度的意义在于项集{X，Y}同时出现的次数占项集{X}出现次数的比例。发生X的条件下，又发生Y的概率。

4.提升度Lift

则的提升度的意义在于度量项集{X}和项集{Y}的独立性。即，Lift(X->Y)＝1表面{X}，{Y}相互独立。[注：P(XY)＝P(X)*P(Y),if X is independent ofY]

如果该值＝1,说明两个条件没有任何关联,如果<1,说明A条件(或者说A事件的发生)与B事件是相斥的,一般在数据挖掘中当提升度大于3时,才承认挖掘出的关联规则是有价值的。

三、下面结合Apriori算法对本发明作进一步描述。

如果项集A是频繁的，那么它的子集都是频繁的。如果项集A是不频繁的，那么所有包括它的父集都是不频繁的。

例子：{X,Y}是频繁的，那么{X}，{Y}也是频繁的。如果{Z}是不频繁的，那么{X,Z},{Y,Z},{X,Y,Z}都是不频繁的。

a)生成频繁项集

给定最小支持度Sup，计算出所有大于等于Sup的项集。

第一步，计算出单个item的项集，过滤掉那些不满足最小支持度的项集。

第二步，基于第一步，生成两个item的项集，过滤掉那些不满足最小支持度的项集。

第三步，基于第二步，生成三个item的项集，过滤掉那些不满足最小支持度的项集。

b)规则生成

给定Confidence、Lift或者Conviction，基于上述生成的频繁项集，生成规则，过滤掉那些不满足目标度量的规则。因为规则相关的度量都是通过支持度计算得来，所以这部分过滤的过程很容易完成。

四、下面结合算法设计对本发明作进一步描述。

在交通流量预测中，为了找出数据与数据之间是否存在关联关系，因此可以采用关联规则对数据进行处理。本发明采用R语言进行实现，通过调用arules包来进行处理。

1、Holt—winters(指数平滑法)原理：

指数平滑法有几种不同形式：一次指数平滑法针对没有趋势和季节性的序列，二次指数平滑法针对有趋势但没有季节性的序列。术语“Holt-Winters法”有时特指三次指数平滑法。

所有的指数平滑法都要更新上一时间步长的计算结果，并使用当前时间步长的数据中包含的新信息。它们通过“混合”新信息和旧信息来实现，而相关的新旧信息的权重由一个可调整的拌和参数来控制。各种方法的不同之处在于它们跟踪的量的个数和对应的拌和参数的个数。

一次指数平滑法的递推关系特别简单：

s_i＝αx_i+(1-α)s_i-1

其中，s_i是时间步长i上经过平滑后的值，x_i是这个时间步长上的实际(未平滑的)数据。看到s_i是怎么由原始数据和上一时间步长的平滑值混合而成的。拌和参数α可以是0和1之间的任意值，它控制着新旧信息之间的平衡：当α接近1时，本发明就只保留当前数据点(即完全没有对序列进行平滑)；当α接近0时，本发明就只保留前面的平滑值(也就是说整个曲线都是平的)。

一次指数平滑法适用于没有总体趋势的时间序列。如果用来处理有总体趋势的序列，平滑值将往往滞后于原始数据，除非的值接近1，但这样一来就会造成不够平滑。

一次指数平滑所得的计算结果可以在数据集范围之外进行扩展，因此也就可以用来进行预测。预测也非常简单：

x_i+k＝s_i

二次指数平滑法保留了趋势的详细信息，从而改正了这个缺点。换句话说，本发明保留并更新两个量的状态：平滑后的信号和平滑后的趋势。它有两个等式和两个拌合参数：

s_i＝αx_i+(1-α)(s_i-1+t_i-1)

t_i＝β(s_i-s_i-1)+(1-β)t_i-1

第二个等式描述了平滑后的趋势。当前趋势的未平滑“值”是当前平滑值和上一个平滑值的差；也就是说当前趋势告诉本发明在上一个时间步长里平滑信号改变了多少。要想使趋势平滑，本发明用一次指数平滑法对趋势进行处理，并使用拌合参数.为获得平滑信号，本发明像上次那样进行一次混合，但要同时考虑到上一个平滑信号及趋势。第一个等式的最后那个项可以对当前平滑信号进行估计——假设在单个时间步长里本发明保持着上一个趋势。

若要利用该计算结果进行预测，本发明就取最后那个平滑值，然后每增加一个时间步长，就在该平滑值上增加一次最后那个平滑趋势：

x_i+k＝s_i+ht_i

最后，本发明给三次指数平滑法添加第三个量，用来描述季节性。本发明有必要区分一下累加式和累乘式季节性，累加式对应的等式：

s_i＝α(x_i-p_i-k)+(1-α)(s_i-1+t_i-1)

t_i＝β(s_i-s_i-1)+(1-β)t_i-1

p_i＝γ(x_i-s_i)+(1-γ)p_i-k

x_i+k＝s_i+ht_i+p_i-k+k

累乘式的等式：

t_i＝β(s_i-s_i-1)+(1-β)t_i-1

x_i＝(s_i+ht_i)p_i-k+k

其中，pi是指“周期性”部分，是这个周期的长度。前面的等式中也包含预测的等式。

所有的指数平滑方法都是基于递推关系的，这表明本发明要先设定初始值才能使用它们。选择什么样的初始值并不特别重要：指数式衰减规律说明所有的指数平滑方法的“记忆”能力都是很短的，只需经过几个时间步长，初始值的影响就会变得微乎其微。一些合理的初始值：

且

t₀＝0或者t₀＝x₁-x₀

对三次指数平滑法而言，本发明必须初始化一个完整的“季节”的值，不过本发明可以简单地设置为全1(针对累乘式)或全0(针对累加式)。只有当序列的长度较短时，本发明需要慎重考虑初始值的选取。

2、指数平滑法处理时间序列：

时间序列一般具有趋势性与季节性。时间序列(time series)是一系列有序的数据。通常是等时间间隔的采样数据。如果不是等间隔，则一般会标注每个数据点的时间刻度。

那么分解一个时间序列意味着把它拆分成构成元件，一般序列包含一个趋势部分、一个不规则部分，如果是一个季节性时间序列，则还有一个季节性部分。分解非季节性数据，一个非季节性时间序列包含一个趋势部分和一个不规则部分。为了估计出一个非季节性时间序列的趋势部分，使之能够用相加模型进行描述，最常用的方法便是指数平滑法。

本发明采用time series普遍使用的数据airline passenger进行预测，

Holt-Winters的思想是把数据分解成三个成分：平均水平(level)，趋势(trend)，周期性(seasonality)。R里面一个简单的函数stl就可以把原始数据进行分解：

一阶Holt—Winters假设数据是stationary的(静态分布)，即是普通的指数平滑。二阶算法假设数据有一个趋势，这个趋势可以是加性的(additive,线性趋势)，也可以是乘性的(multiplicative,非线性趋势)，只是公式里面一个小小的不同而已。三阶算法在二阶的假设基础上，多了一个周期性的成分。同样这个周期性成分可以是additive和multiplicative的。举个例子，如果每个二月的人数都比往年增加1000人，这就是additive；如果每个二月的人数都比往年增加120％，那么就是multiplicative。可以看出来，holt-winters对于具有一定季节性与趋势性的时间序列数据集的预测效果是相对较好的。

3、回归分析：

回归分析基本原理：

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛，回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且自变量之间存在线性相关，则称为多重线性回归分析。

多元线性回归：

很多实际问题中，影响响应变量的因素不止一个，因此综合需要考虑与之相关的其他变量，此类回归分析为多元回归分析。也就是说多元回归分析是对随机变量Y与n个自变量X1、X2…Xn之间存在的线性相关关系。在对于交通数据问题的分析中，天气因素也是影响车辆通过时间的因素之一，而由于官方给出的天气数据中，因变量太多，但是由于并不是每个因变量都会对车辆通过时间产生影响，因此，进行多元回归分析是很有必要的。

五、下面结合ARIMA算法对本发明作进一步描述。

1、算法描述

ARIMA全称为自回归积分滑动平均模型(Autoregressive Integrated MovingAverage Model,简记ARIMA)，是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名时间序列预测方法，所以又称为box-jenkins模型、博克思-詹金斯法。

其中ARIMA(p，d，q)称为差分自回归移动平均模型，AR是自回归，p为自回归项；MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数。

所谓ARIMA模型，是指将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。

ARIMA模型根据原序列是否平稳以及回归中所含部分的不同，包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。

2、ARIMA模型预测的基本程序：

(一)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律，对序列的平稳性进行识别。一般来讲，经济运行的时间序列都不是平稳序列。

(二)对非平稳序列进行平稳化处理。如果数据序列是非平稳的，并存在一定的增长或下降趋势，则需要对数据进行差分处理，如果数据存在异方差，则需对数据进行技术处理，直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。

(三)根据时间序列模型的识别规则，建立相应的模型。若平稳序列的偏相关函数是截尾的，而自相关函数是拖尾的，可断定序列适合AR模型；若平稳序列的偏相关函数是拖尾的，而自相关函数是截尾的，则可断定序列适合MA模型；若平稳序列的偏相关函数和自相关函数均是拖尾的，则序列适合ARMA模型。(截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF)；拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。)

(四)进行参数估计，检验是否具有统计意义。

(五)进行假设检验，诊断残差序列是否为白噪声。

(六)利用已通过检验的模型进行预测分析。

六、下面结合关联规则——Apriori算法实现对本发明作进一步描述。

1、Apriori算法实现

通过调用arules来实现关联规则，因此需要对其设置参数。

该数据包默认的support＝0.1,confidence＝0.8,minlen＝1,maxlen＝10，根据数据的需要，本发明设置为support＝00.1,confidence＝0.8,minlen＝2,maxlen＝10

对于minlen，maxlen这里指规则的LHS+RHS的并集的元素个数。所以minlen＝1，意味着{}＝>{beer}是合法的规则。本发明往往不需要这种规则，所以需要设定minlen＝2。

结果分析：一共找出了1086条规则，这些规则中有两条为最频繁项集，因此继续分析这些频繁项集；这些规则之中联系并不是很紧密。因此使用关联规则的效果不是很明显，还需要用其他算法来进行处理。

2、Holt—winters：

(1)在数据预处理过后，发现，交通数据给出的20分钟的时间间隔并不在R语言所给的时间预测包函数预测周期内，于是，初步考虑了两种方法对其进行解决。

方案一：扩大时间间隔，将20分钟扩大为1小时，以便R语言时间序列预测包处理。

方案二：选用非标准的时间序列格式对数据进行处理(人为拆分时间间隔，给定时间序列周期)。

经过实验发现，方案一能更大的保留数据的原始信息，数据处理更真实有效。

(2)对交通数据进行季节性与趋势性分析。经过分析，发现其趋势性与季节性不是特别显著，用holt-winters可能不太适合。

(3)实验结果显示，运用R语言自带holt-winters包进行预测，实验数据出现了无趋势性的预测结果，整个数据太过趋于平稳，因此决定放弃此方法。

3、回归分析：

在初步提交结果后，本发明发现，天气数据的加入，可能会使结果往更好的方向发展。于是本发明考虑将天气数据加入到预测模型中来。

首先，由于天气表中的影响因素太多，首先对天气数据进行了主成分分析。可以发现，天气数据七个成分中，有三个成分影响因素太小，初步考虑将其删除。

在对天气数据集进行了主成分分析后，为了进一步分析天气数据各因变量之间的关系，画出了各变量之间的关系图进行分析，对天气表中各项数据进行了相关性检验。

分析发现，气压和海平面气压相关性非常强，因此在后续的预测中，海平面气压这个属性可以考虑进行剔除。

再观察气压与温度，发现有线性相关的关系。

对于风向这个因素，观察可以发现其与其他因素没有任何相关性，考虑在以后的预测中也可以将其剔除。

接下来对气压与温度的线性关系进行进一步分析。

在经过分析后发现，想要找到一个天气因变量用来加入预测模型中，显然不太合适，于是本发明提出了多元线性回归模型。没有添加前期预测结果的平均时间～天气数据多元线性回归。

天气数据对车辆通过平均时间存在一个多元线性的函数关系。

但是，仅靠天气数据预测的结果，实在难以服众，所以加入了之前的预测结果作为多元中的一元。

4、ARIMA算法

数据源散点图如图2：该数据为三个月内每天早上8点-10点某个路口到收费站的数据的叠加，其中横坐标为每20分钟的时间窗口从进入路口到收费站车辆的平均行驶时间，所以一天有6条数据，三个月大约有90多个数据间隔。

由于数据源数量太多，所以用ARIMA来预测将考虑大量数据的相关性，导致结果较为平稳，所以截取要预测数据的前一周数据来建立模型，如图3所示。

P-value值等于0.156<0.5，说明数据中不存在单位根，序列趋于平稳性，可以使用ARIMA模型进行分析。

5、假如数据不平稳，则需要进行差分处理：airdiff<-diff(airlog,differences＝1)。

对得到的平稳时间序列分别求得其自相关系数ACF和偏自相关系数PACF，通过对自相关图和偏自相关图的分析，如图4，得到最佳的阶层p和阶数q。由以上得到的d、q、p，得到ARIMA模型。

>acfY<-acf(Y,lag.max＝200,plot＝FALSE)

>plot(acfY)

>pacfY<-pacf(Y,lag.max＝100,plot＝FALSE)

>plot(pacfY)。

6、根据acf和pacf图初步确定参数(p,d,q)为(1,0,0)如图5。

可以看出由于AR模型和MA模型的累加，单纯的由ACF和PACF图判定参数效果不好，所以在R中可以使用ARIMA自动定阶，将会自动给出aic准则中数值最小的模型：

>Y1<-auto.arima(Y,trace＝TRUE)。

7、根据自动定阶的参数建立相应的模型：

>Y2<-arima(Y,order＝c(1,1,1),seasonal＝list(order＝c(0,0,1),period＝6))

然后对模型进行检测。

8、根据建立好的模型进行数据预测，预测出之后一天的数据，为6条，与实际数据进行比较和参考，同时画出置信区间：

prop<-Y

prop.fore<-predict(Y2,n.ahead＝6)#将未来5期预测值保存在prop.fore变量中

U<-prop.fore$pred+1.96*prop.fore$se#会自动产生方差

L<-prop.fore$pred-1.96*prop.fore$se#算出95％置信区间

ts.plot(prop,prop.fore$pred,col＝1:2)#作时序图，含预测。

lines(U,col＝"blue",lty＝"dashed")

lines(L,col＝"blue",lty＝"dashed")#在时序图中作出95％置信区间

ts.plot(y,prop.fore$pred,col＝1:2)。

9、由于ARIMA在此次数据预测中，进行短期预测结果较好，所以选择用迭代的方式对后面的数据进行预测。如图6。

横坐标从6之后的数据都是有前一周的数据预测出来的，如1-6预测第7天(6-7)的数据，2-7预测第8天(7-8)的数据，所以模型参数基本不变。

10、根据赛题进行评估(与该算法无关)：

在R中的使用：

EM<-mean(abs((x1-x2)/x1))#预测数据的衡量指标

print(EM)

求出EM的值，EM值越低越好，从而得出最符合还案例的模型预测结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高速公路收费站交通流量预测方法，其特征在于，所述高速公路收费站交通流量预测方法包括：

首先，源数据格式进行数据预处理，提取出交通流量的相关信息，然后采用聚类算法对数据进行聚类分析，得到相同类别的数据，之后采用ARIMA算法、Holt-Winters方法对得到的相同类别的数据建立相关模型；再进行数据的初步预测，最后将预测结果与影响流量数据的因素采用多元线性回归的方法对数据进行分析，同时调整相关参数或修改部分特殊值，使最终预测数据接近真实值。

2.如权利要求1所述的高速公路收费站交通流量预测方法，其特征在于，采用的聚类方法以空间中k个点为中心进行聚类，对最靠近的对象归类，通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

3.如权利要求1所述的高速公路收费站交通流量预测方法，其特征在于，高速公路收费站交通流量预测方法还包括：采用关联规则和调用arules包对数据进行处理，具体包括：

s_i＝αx_i+(1-α)(s_i-1+t_i-1)， (1)

t_i＝β(s_i-s_i-1)+(1-β)t_i-1， (2)

其中α，β是平滑参数，si是之前i个数据的平滑值，取值为[0,1]，α越接近1，平滑后的值越接近当前时间的数据值，数据越不平滑，α越接近0，平滑后的值越接近前i个数据的平滑值，数据越平滑，α，β的值通常可以多尝试几次以达到最佳效果。

式(2)为平滑后的趋势；

x_i+k＝s_i+ht_i；

最后，给三次指数平滑法添加第三个量，用来表达季节性。

4.如权利要求3所述的高速公路收费站交通流量预测方法，其特征在于，用来表达季节性包括：累加式表达季节性和累乘式表达季节性；

累加式表达季节性对应的等式：

s_i＝α(x_i-p_i-k)+(1-α)(s_i-1+t_i-1)，

t_i＝β(s_i-s_i-1)+(1-β)t_i-1，

p_i＝γ(x_i-s_i)+(1-γ)p_i-k，

x_i+k＝s_i+ht_i+p_i-k+k，

累乘式表达季节性的等式：

<mrow> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>&alpha;</mi> <mfrac> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

t_i＝β(s_i-s_i-1)+(1-β)t_i-1，

<mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>&gamma;</mi> <mfrac> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>s</mi> <mi>i</mi> </msub> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> </mrow>

x_i＝(s_i+ht_i)p_i-k+k；

其中，pi指周期的长度，γ是平滑参数。

5.一种如权利要求1所述的高速公路收费站交通流量预测方法的高速公路收费站交通流量预测系统。