CN109598936A

CN109598936A - 一种基于动态stknn模型的短时交通预测方法

Info

Publication number: CN109598936A
Application number: CN201811547414.0A
Authority: CN
Inventors: 陆锋; 程诗奋; 彭澎
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-04-09
Anticipated expiration: 2038-12-18
Also published as: CN109598936B

Abstract

本发明公开了一种基于动态STKNN模型的短时交通预测方法，步骤为：a、特征表示：通过对每个道路片段历史天的交通条件求平均值，利用平均速度向量来对每个道路片段进行特征表示；b、交通模式自动识别：通过AP聚类算法自动识别道路网络相似的交通模式；c、自动划分时间区间：针对自动识别出的多种交通模式，通过K‑Means算法自动划分时间区间；d、构建自适应的STKNN模型：针对步骤2和步骤3获取的每个交通模式的每个时间区间，分别构建STKNN模型。本发明可以直接帮助交通管理部门制定合理和高效的策略来缓解交通拥堵，实现道路网络交通流量的再分配，同时可以帮助大众实现准确的路径规划。

Description

一种基于动态STKNN模型的短时交通预测方法

技术领域

本发明涉及一种短时交通预测方法，尤其涉及一种基于动态STKNN模型的短时交通预测方法，属于信息技术服务领域。

背景技术

短时交通预测作为智能交通系统重要的一部分，可以帮助用户合理的规划路径以及提供智能的位置服务，缓解道路拥堵，从而减少交通排放，同时，可以帮助交通部门实施有效的交通管制、合理配置基础设施以及优化信号灯的时间，从而提高交通的操作效率。

在过去几十年，大量的时空建模方法被提出用于解决短时交通预测的问题，这些方法为短时交通预测提供了可选方案，但依然存在很多未解决的技术问题。考虑到交通条件在时间上具有非线性和非平稳性变化特征，即便是相同的道路片段，在不同的时间区间具有不同的变化模式，例如在峰值区间道路片段的相关性强度要高于平峰区间；在拥堵时空间邻居的大小要小于自由流，因此短时交通预测模型的结构应该能适应交通条件的动态变化。然而，现有技术针对整个时间范围建模，其隐喻的假设是把交通预测当作一个静态的点过程，忽略了交通条件在时间上的动态属性特征，导致模型结构在整个时间范围内仍是固定不变的，例如相同的道路片段在不同的时间区间(早高峰和晚高峰)具有相同数目的空间邻居，这是预测模型无法获得满意结果的一个主要原因。另一方面，现有技术采用人为设定全局固定的时间区间的划分策略，使得不同交通变化模式的道路片段具有相同的时间区间，例如某些道路片段的早高峰在6: 00-8:00，而另一些道路片段的早高峰在5:00-7:00，因此无法反映细粒度的时间非平稳性变化特征。

精确的表示时空对于短时交通预测模型精度的提升至关重要，可以通过在预测模型中整合时空信息或交通条件的动态特性来实现。现有技术在整合时空信息方面取得了一定的成功，例如引入时空状态矩阵来表征交通条件；构建自适应的模型来抓取道路交通的异质属性特征，使得短时交通预测模型的精度有了一定的提升。然而，在刻画交通条件在时间上的动态性方面依然存在不足。鉴于此，本发明考虑道路交通的空间异质性和时间非平稳性特征，提出了一种动态的STKNN模型实现短时交通的高效预测。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于动态STKNN 模型的短时交通预测方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于动态 STKNN模型的短时交通预测方法，方法的整体步骤为：

a、特征表示：构建表示所有道路片段历史时刻交通条件的三维张量，三维张量的每一个切面代表每个道路片段所有历史天的交通条件变化曲线；通过对每个道路片段历史天的交通条件求平均值，利用平均速度向量来对每个道路片段进行特征表示；

b、交通模式自动识别：通过AP聚类算法自动识别道路网络相似的交通模式；

c、自动划分时间区间：针对自动识别出的多种交通模式，通过K-Means算法自动划分时间区间，用于比较不同时间区间交通条件的变化差异；

d、构建自适应的STKNN模型：针对步骤2和步骤3获取的每个交通模式的每个时间区间，分别构建STKNN模型。

步骤a、特征表示的具体方法为：假设道路网络存在N条道路片段，道路片段u的历史交通条件X_u可表示为其中，表示维度为D×T的二维实数集，表示道路片段u在第i天的时间序列，D 表示历史总天数，T表示一天中总的时间间隔，因此，整个道路网络的历史交通条件可以用一个三维张量X表示，则X_u,d,t表示道路片段u在第d天t时刻的交通条件值，表示维度为N×D×T的实数集；对每个道路片段所有历史天的对应时间间隔的交通条件求平均，利用平均时间序列来表示每个道路片段的历史交通条件的平均变化模式，其形式化表示如公式Ⅰ，其中∑为求和符号。

步骤b的具体方法为：将所有交通条件的特征数据集表示为U，可以将看作T维空间内的1个数据点，则待聚类的数据点可用索引表示为{1,2,...,N}；将所有样本点看作网络中的节点，输入相似度矩阵S，i,k∈[1,N]，其中s_i,k表示数据点i和数据点k之间的相似度，s_i,k的值越大表示数据点i与数据点k的距离越近，数据点k作为数据点i的聚类中心的能力越强；s_k,k称为偏好度，作为数据点k能否成为代表点的评判标准，该值越大表明该点成为代表点的可能性越大，偏好度通常取相似度的中位数；通过节点之间的双向信息传递直至收敛，得到聚类中心集合，使得网络全局函数最大，如公式Ⅱ所示：

其中，F为所有数据点聚类中心点的集合，arg max为当因变量最大时求变量的函数，c_i为数据点i的聚类中心点，表示第i个点到其对应的类代表点c_i之间的相似度。h_k是对潜在代表点c_k的惩罚值，表示若数据点c_i选择数据点k作为其类代表点，即c_i＝k，那么数据点k必须选择自身作为聚类中心点，即c_k＝k；否则，数据点k不能成为聚类中心点；

在AP聚类算法迭代过程中传递两类信息，每种消息考虑不同类型的竞争，分别为吸引度信息r_i,k和归属度信息a_i,k；其中，r_i,k表示从数据点i发送信息到数据点k，表示数据点k适合作为数据点i的聚类中心的程度；a_i,k表示从数据点k发送信息到数据点i，描述数据点i选择数据点k作为聚类中心的适合程度；通过建立和聚类准则函数对应的因子图模型，应用置信传播理论进行信息的更新，使得因子图的全局函数最大，完成聚类；其信息更新过程按照公式Ⅲ：

其中，←表示信息更新过程中的赋值操作，k'表示所有满足k'≠k条件的数据点，i'表示所有满足i'≠{i,k}或i'≠k条件的数据点；当算法收敛或达到一定的迭代次数时，每个数据点i的聚类中心c_i，当且仅当k满足公式Ⅳ。

步骤c、自动划分时间区间的具体方法为：通过步骤2识别的道路网络交通模式，假设第m个交通模式时间序列z_m,i表示第m个交通模式在时间间隔i的交通条件；时间序列分区的目的是划分到k_m个不相交的同质类表示将第m个交通模式划分的第i个时间分区，k_m表示第m个交通模式时间序列的分区个数，可在迭代过程中通过计算平均轮廓系数来自动确定，n_m，j表示第m个交通模式下第j个分区的样本数；针对序列数据聚类问题，定义如公式Ⅴ的映射关系：

其中，b为时间序列分区边界点的集合，为映射符号，b_j为第m个交通模式下第j个分区的左边界；可定义一个准则函数J_m来度量分区的质量，通过寻找一个分区策略使得准则函数达到最优；准则函数J_m的定义如公式Ⅵ：

其中，H_m,j描述了分区的异质性，μ_m,j为分区的均值，最小化准则函数直到分区边界点不再移动；在每一步的迭代过程中，引入严格的顺序限制，聚类中前半部分的样本只允许移动到后半部分的样本只允许移动到在聚类中样本z_m,j移动到聚类产生的准则函数的变化如公式Ⅶ计算：

当且仅当ΔJ(z_j，j，l)＜0，才重新分配该样本并更新聚类均值和准则函数的值，此时如公式Ⅷ所示：其中，z_j为第m个交通模式在第j个分区的交通条件，μ_j为分区的均值，n_j为第j个分区的样本数，l表示第l个分区。

步骤d、STKNN模型的建立方法包括步骤：样本构建、距离函数定义、候选邻居选取、预测函数定义、预测值生成。

样本构建的方法为：利用时空状态矩阵表征道路片段每一时刻的交通条件，所有历史时刻的交通条件数据则堆叠形成时空三维立方体，并划分为历史时空数据集、训练时空数据集、测试时空数据集；

假设Y_m,j为第m个交通模式的第j个分区的历史交通条件数据集，即Y_m,j为整个道路网络的历史交通条件的子集，仅取对应交通模式下的时间区间的交通条件构建预测模型；其中，N_m为第m个交通模式的道路片段数目；T_m,j为第m 个交通模式中第j个分区的时间间隔数目，T_m,j＝n_m,j；为了便于后续计算，我们将Y_m,j进行重排，将所有历史天的时间区间按时间顺序排成一列，形成其中Yr_m,j表示第m个交通模式的第j个分区所有道路片段的历史交通条件矩阵，Tr_m,j＝D×T_m,j，Tr_m,j为第m个交通模式中第j个分区在历史总天数的时间间隔数目，即将3维张量转化为2维矩阵；

以第m个交通模式的第j个分区的历史交通条件数据集为例，道路片段u在时间间隔t的时空状态矩阵可定义为其中，ln表示道路片段u 的空间邻居个数，lc表示时间窗口的长度，ln∈[1，N_m]，lc∈[1，Tr_m，j]；为了便于描述，令G＝Yr_m，j，则G_u表示第m个交通模式的第j个分区下第u个道路片段所有历史天的交通条件时间序列；

在空间维度，采用互相关函数来选取空间邻居，给定两个道路片段u和v，互相关函数可定义为如公式Ⅸ：

其中，为时间序列G_u和时间序列G_V在延迟的互相关系数，μ_u和μ_v分别为G_u和G_v的均值，σ_u和σ_v分别为G_u和G_V的标准差，E表示数学期望；通过公式Ⅸ可以看到，互相关函数可看作关于时间延迟的函数，使得互相关函数取值最大的时间延迟值即为周围路段v对预测路段u影响的平均延迟时间，即满足公式Ⅹ：

其中，ψ_v为平均延迟时间，当且仅当ψ_v在预测时间范围Δt内，才能对预测道路片段产生影响，即可被选为目标道路片段的空间邻居，形式化定义如公式Ⅺ：

其中，为道路片段u的空间邻居的集合，在逻辑符号中含义为任意一个；

在时间维度，采用自相关函数确定时间窗口的大小；给定预测道路片段 u，在时间延迟δ下的自相关函数ρ_u(δ)可定义为公式Ⅻ：

其中，E表示数学期望，G_u,t表示第m个交通模式的第j个分区下第u个道路片段所有历史天在时间间隔t的交通条件时间序列，μ_u为G_u的均值，σ_u为G_u的标准差，G_u,t-δ为第m个交通模式的第j个分区下第u个道路片段所有历史天在时间间隔t不受时间延迟δ影响的交通条件时间序列；

在利用自相关选取时间窗口时，保证在最大延迟范围内，交通条件具有显著的时间依赖性；然后在此范围内，采用交叉验证，选取使得预测模型误差最小的时间延迟，即为最优的时间窗口大小；在获取了空间邻居和时间窗口，按照时间顺序堆叠每个时间间隔的时空状态矩阵，则可得到3维的时空张量，然后按照设定的训练天数和测试天数，可将时空张量划分为历史时空张量、训练时空张量、测试时空张量；

距离函数定义的方法为：分别在时空状态矩阵的时间和空间维度赋予权重来构造权重欧几里得距离函数；采用时空权重欧几里得距离函数来为预测道路片段选取候选邻居；时空权重矩阵的定义如下：在时间维度，按照时间的线性分布赋值道路片段u的时间权重其中ti和tj分别表示时间权重矩阵中第ti和tj个值；在空间维度，利用互相关系数表示空间权重其中si 和sj表示空间权重矩阵中第si和sj个值；时空权重的分配方式如公式ⅩⅢ所示：

通过在时空状态矩阵中引入时空权重，时空权重欧几里得距离函数Γ_u，t定义如公式ⅩⅣ：

其中，MC_u，t定义为道路片段u在时间间隔t的时空状态矩阵；

候选邻居选取方法为：通过计算时空状态矩阵之间的欧几里得距离，得到预测道路的个候选邻居；通过计算任意两个时空状态矩阵MC_u，t和MC_u，tk之间的权重欧几里得距离d(Γ_u，t，Γ_u，tk)，MC_u，t和MC_u，tk分别表示道路片段u在时间间隔t和tk的时空状态矩阵；选取个距离最小的时空状态矩阵，则可得到预测道路的个候选邻，如公式ⅩⅤ：

其中，trac表示矩阵的迹；Γ_u，t，Γ_u，tk表示道路片段u在时间间隔t和tk的时空权重状态矩阵；

预测函数定义的方法为：利用高斯函数为选取的个候选邻居分配不同的权重，从而整合得到目标道路片段u的预测值如公式ⅩⅥ所示：

其中，表示预测道路片段的第个候选邻居下一时刻的交通条件，为预测道路片段的第个候选邻居的权重，第个候选邻居与预测道路片段之间的距离；a为高斯权重参数，采用交叉验证的方式，选取使得预测误差最小的a值作为其参数值；

预测值生成的方法为：整合个候选邻居下一时刻的交通条件值得到目标道路片段交通条件的预测值。

本发明通过对各路段各时段交通条件的整合与分析实现了对道路拥堵预测的功能；AP聚类算法来自动识别道路网络存在的交通模式，使得相同聚类的道路片段具有强的空间相关性，从而简化了预测模型的输入；利用K-Means算法来为每种交通模式划分时间区间，通过比较不同道路片段在不同交通模式的时间区间下交通条件的差异性，来刻画时间非平稳性特征，从而解决了现有技术采用人为划分时间区间的方式或者针对整个时间范围建模存在的问题。在此基础上，我们提出三维时空张量数据模型来表征交通条件，考虑道路网络存在的空间异质性，为每个道路片段构建自适应的STKNN模型，实现了短时交通的高效预测。本发明可以直接帮助交通管理部门制定合理和高效的策略来缓解交通拥堵，实现道路网络交通流量的再分配，同时可以帮助大众实现准确的路径规划。

附图说明

图1为本发明的总体步骤流程图。

图2为图1中聚类和分区后交通模式1下的效果参考图。

图3为图1中聚类和分区后交通模式N下的效果参考图。

具体实施方式

下面结合具体实施方式对本发明作进一步详细的说明。

如图1～3所示的一种基于动态STKNN模型的短时交通预测方法，方法的整体步骤为：

假设道路网络存在N条道路片段，道路片段u的历史交通条件X_u可表示为其中，表示维度为D×T的二维实数集，表示道路片段u在第i天的时间序列，D表示历史总天数，T表示一天中总的时间间隔，例如按照5分钟的时间间隔进行采样，则T＝288。因此，整个道路网络的历史交通条件可以用一个三维张量X表示，则X_u,d,t表示道路片段u在第d天t时刻的交通条件值，表示维度为 N×D×T的实数集。对每个道路片段所有历史天的对应时间间隔的交通条件求平均，利用平均时间序列来表示每个道路片段的历史交通条件的平均变化模式，其形式化表示如公式Ⅰ，其中∑为求和符号。

b、交通模式自动识别：通过AP聚类算法自动识别道路网络相似的交通模式；通过步骤1对每个道路片段的历史交通条件特征进行表示后，本发明采用 AP聚类算法来识别道路片段相似的交通模式。将所有交通条件的特征数据集表示为U，可以将看作T维空间内的1个数据点，则待聚类的数据点可用索引表示为{1,2,...,N}。AP聚类算法将所有样本点看作网络中的节点，输入相似度矩阵S，i,k∈[1,N]，其中s_i,k表示数据点i和数据点k之间的相似度，使用欧式距离的负值表示，s_i,k的值越大表示数据点i与数据点k的距离越近，数据点k作为数据点i的聚类中心的能力越强。s_k,k称为偏好度，作为数据点k能否成为代表点的评判标准，该值越大表明该点成为代表点的可能性越大，偏好度通常取相似度的中位数。通过节点之间的双向信息传递直至收敛，得到聚类中心集合，使得网络全局函数最大，如公式Ⅱ所示：

其中，F为所有数据点聚类中心点的集合，arg max为当因变量最大时求变量的函数，c_i为数据点i的聚类中心点，表示第i个点到其对应的类代表点 c_i之间的相似度。h_k是对潜在代表点c_k的惩罚值，表示若数据点c_i选择数据点k作为其类代表点，即c_i＝k，那么数据点k必须选择自身作为聚类中心点，即c_k＝k；否则，数据点k不能成为聚类中心点。

在AP聚类算法迭代过程中传递两类信息，每种消息考虑不同类型的竞争，分别为吸引度信息r_i,k和归属度信息a_i,k。其中，r_i,k表示从数据点i发送信息到数据点k，表示数据点k适合作为数据点i的聚类中心的程度；a_i,k表示从数据点k发送信息到数据点i，描述数据点i选择数据点k作为聚类中心的适合程度。通过建立和聚类准则函数对应的因子图模型，应用置信传播理论进行信息的更新，使得因子图的全局函数最大，完成聚类。其信息更新过程按照公式Ⅲ：

其中，←表示信息更新过程中的赋值操作，k'表示所有满足k'≠k条件的数据点，i'表示所有满足i'≠{i,k}或i'≠k条件的数据点；当算法收敛或达到一定的迭代次数时，每个数据点i的聚类中心c_i，当且仅当k满足公式Ⅳ：

c、自动划分时间区间：针对自动识别出的多种交通模式，通过K-Means算法自动划分时间区间，用于比较不同时间区间交通条件的变化差异；通过步骤 2识别的道路网络交通模式，本发明利用Warped K-Means算法得到每种交通模式的时间区间划分策略。假设第m个交通模式时间序列z_m,i表示第m个交通模式在时间间隔i的交通条件。时间序列分区的目的是划分到k_m个不相交的同质类 1＜k_m＜＜T，表示将第m个交通模式划分的第i个分区。其中，k_m表示第m 个交通模式时间序列的分区个数，可在迭代过程中通过计算平均轮廓系数来自动确定，n_m，j表示第m个交通模式下第j个分区的样本数,j∈[1,k_m]。针对序列数据聚类问题，定义如公式Ⅴ的映射关系：

其中，b为时间序列分区边界点的集合，为映射符号，b_j为第m个交通模式下第j个分区的左边界。可定义一个准则函数J_m来度量分区的质量，通过寻找一个分区策略使得准则函数达到最优。准则函数J_m的定义如公式Ⅵ：

其中，H_m,j描述了分区的异质性，μ_m,j为分区的均值。利用取样迭代优化策略来最小化准则函数，直到分区边界点不再移动。在每一步的迭代过程中，引入严格的顺序限制，聚类中前半部分的样本只允许移动到后半部分的样本只允许移动到在聚类中样本z_m,j移动到聚类产生的准则函数的变化按照如下公式Ⅶ计算：

d、自适应的STKNN模型：针对步骤2和步骤3获取的每个交通模式的每个时间区间，分别构建STKNN模型。

通过步骤2自动识别道路网路的交通模式以及步骤3获取每种交通模式的分区策略，考虑空间异质性和时间非平稳性的存在，本发明针对不同模式下不同时间区间中的不同道路片段构建自适应的STKNN模型，以实现短时交通的预测。具体包括如下步骤：

a、样本构建；利用时空状态矩阵表征道路片段每一时刻的交通条件，所有历史时刻的交通条件数据则堆叠形成时空三维立方体，并划分为历史时空数据集、训练时空数据集、测试时空数据集；假设Y_m,j为第m个交通模式的第j 个分区的历史交通条件数据集，即Y_m,j为整个道路网络的历史交通条件的子集，仅取对应交通模式下的时间区间的交通条件构建预测模型。其中，N_m为第m个交通模式的道路片段数目；T_m,j为第m个交通模式的第j个分区的时间间隔数目，T_m,j＝n_m,j。为了便于后续计算，我们将Y_m,j进行重排，将所有历史天的时间区间按时间顺序排成一列，形成其中Yr_m,j表示第m个交通模式的第j个分区所有道路片段的历史交通条件矩阵，Tr_m,j＝D×T_m,j，Tr_m,j为第m个交通模式中第j个分区在历史总天数的时间间隔数目，即将3维张量转化为2维矩阵。

在道路网络中，道路片段的交通条件通常受其周围道路片段的影响，同时在时间维度具有时间依赖性。因此，本发明利用时空状态矩阵来表征每个道路片段每个时间间隔的交通条件。确定时空状态矩阵的关键在于如何确定空间邻居和时间窗口。以第m个交通模式的第j个分区的历史交通条件数据集为例，道路片段u在时间间隔t的时空状态矩阵可定义为其中，ln表示道路片段u的空间邻居个数，lc表示时间窗口的长度，ln∈[1，N_m]，lc∈[1，Tr_m，j]。为了便于描述，令G＝Yr_m,j，则G_u表示第m个交通模式的第j个分区下第u个道路片段所有历史天的交通条件时间序列，

在空间维度，本发明采用互相关函数来选取空间邻居，给定两个道路片段 u和v，互相关函数可定义为如公式Ⅸ：

其中，为时间序列G_u和时间序列G_V在延迟的互相关系数，μ_u和μ_v分别为G_u和G_v的均值，σ_u和σ_v分别为G_u和G_V的标准差，E表示数学期望。通过公式Ⅸ可以看到，互相关函数可看作关于时间延迟的函数，使得互相关函数取值最大的时间延迟值即为周围路段v对预测路段u影响的平均延迟时间，即满足公式Ⅹ：

其中，为道路片段u的空间邻居的集合，在逻辑符号中含义为任意一个。

在时间维度，本发明采用自相关函数确定时间窗口的大小。给定预测道路片段u，在时间延迟δ下的自相关函数ρ_u(δ)可定义为公式Ⅻ：

其中，E表示数学期望，G_u,t表示第m个交通模式的第j个分区下第u个道路片段所有历史天在时间间隔t的交通条件时间序列，μ_u为G_u的均值，σ_u为G_u的标准差，G_u,t-δ为第m个交通模式的第j个分区下第u个道路片段所有历史天在时间间隔t不受时间延迟δ影响的交通条件时间序列。

在利用自相关选取时间窗口时，保证在最大延迟范围内，交通条件具有显著的时间依赖性。然后在此范围内，采用交叉验证，选取使得预测模型误差最小的时间延迟，即为最优的时间窗口大小。在获取了空间邻居和时间窗口，按照时间顺序堆叠每个时间间隔的时空状态矩阵，则可得到3维的时空张量，然后按照设定的训练天数和测试天数，可将时空张量划分为历史时空张量、训练时空张量、测试时空张量。

b、距离函数定义；分别在时空状态矩阵的时间和空间维度赋予权重来构造权重欧几里得距离函数；本发明采用时空权重欧几里得距离函数来为预测道路片段选取候选邻居。时空权重矩阵的定义如下：在时间维度，按照时间的线性分布赋值道路片段u的时间权重其中ti和tj分别表示时间权重矩阵中第ti和tj个值。在空间维度，利用互相关系数表示空间权重其中 si和sj表示空间权重矩阵中第si和sj个值；时空权重的分配方式如公式ⅩⅢ所示：

c、候选邻居选取；通过计算时空状态矩阵之间的欧几里得距离，得到预测道路的个候选邻居；通过计算任意两个时空状态矩阵MC_u，t和MC_u，tk之间的权重欧几里得距离d(Γ_u，t，Γ_u，tk)，MC_u，t和MC_u，tk表示道路片段u在时间间隔t和tk 的时空状态矩阵。选取个距离最小的时空状态矩阵，则可得到预测道路的个候选邻，如公式ⅩⅤ：

其中，trac表示矩阵的迹；Γ_u，t，Γ_u，tk表示道路片段u在时间间隔t和tk的时空权重状态矩阵。

d、预测函数定义；利用高斯函数为选取的个候选邻居分配不同的权重，从而整合得到目标道路片段u的预测值如公式ⅩⅥ。

其中，表示预测道路片段的第个候选邻居下一时刻的交通条件，为预测道路片段的第个候选邻居的权重，第个候选邻居与预测道路片段之间的距离。a为高斯权重参数，采用交叉验证的方式，选取使得预测误差最小的a值作为其参数值，a＝0.029。

e、预测值生成；整合个候选邻居下一时刻的交通条件值得到目标道路片段交通条件的预测值。

本发明相比现有技术主要有以下优点：

a、本发明通过AP聚类算法来自动识别道路网络存在的交通模式，使得相同聚类的道路片段具有强的空间相关性，从而简化了预测模型的输入；

b、K-Means算法来为每种交通模式划分时间区间，通过比较不同道路片段在不同交通模式的时间区间下交通条件的差异性，来刻画时间非平稳性特征，从而解决了现有技术采用人为划分时间区间的方式或者针对整个时间范围建模存在的问题；

c、我们提出三维时空张量数据模型来表征交通条件，考虑道路网络存在的空间异质性，为每个道路片段构建自适应的STKNN模型，实现了短时交通的高效预测；

d、本发明可以直接帮助交通管理部门制定合理和高效的策略来缓解交通拥堵，实现道路网络交通流量的再分配，同时可以帮助大众实现准确的路径规划。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于动态STKNN模型的短时交通预测方法，其特征在于：所述方法的整体步骤为：

d、构建自适应的STKNN模型：针对步骤b和步骤c获取的每个交通模式的每个时间区间，分别构建STKNN模型。

2.根据权利要求1所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述步骤a、特征表示的具体方法为：假设道路网络存在N条道路片段，道路片段u的历史交通条件X_u可表示为其中，表示维度为D×T的二维实数集，表示道路片段u在第i天的时间序列，D表示历史总天数，T表示一天中总的时间间隔，因此，整个道路网络的历史交通条件可以用一个三维张量X表示，则X_u,d,t表示道路片段u在第d天t时刻的交通条件值，表示维度为N×D×T的实数集；对每个道路片段所有历史天的对应时间间隔的交通条件求平均，利用平均时间序列来表示每个道路片段的历史交通条件的平均变化模式，其形式化表示如公式Ⅰ,其中∑为求和符号。

3.根据权利要求1所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述步骤b中的AP聚类算法具体为：将所有交通条件的特征数据集表示为U，可以将看作T维空间内的1个数据点，则待聚类的数据点可用索引表示为{1,2,...,N}；将所有样本点看作网络中的节点，输入相似度矩阵S，其中s_i,k表示数据点i和数据点k之间的相似度，s_i,k的值越大表示数据点i与数据点k的距离越近，数据点k作为数据点i的聚类中心的能力越强；s_k,k称为偏好度，作为数据点k能否成为代表点的评判标准，该值越大表明该点成为代表点的可能性越大，偏好度通常取相似度的中位数；通过节点之间的双向信息传递直至收敛，得到聚类中心集合，使得网络全局函数最大，如公式Ⅱ所示：

其中，F为所有数据点聚类中心点的集合，argmax为当因变量最大时求变量的函数，c_i为数据点i的聚类中心点，表示第i个点到其对应的类代表点c_i之间的相似度。h_k是对潜在代表点c_k的惩罚值，表示若数据点c_i选择数据点k作为其类代表点，即c_i＝k，那么数据点k必须选择自身作为聚类中心点，即c_k＝k；否则，数据点k不能成为聚类中心点；

4.根据权利要求1所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述步骤c中通过K-Means算法自动划分时间区间的具体方法为：通过步骤2识别的道路网络交通模式，假设第m个交通模式时间序列z_m,i表示第m个交通模式在时间间隔i的交通条件；时间序列分区的目的是划分到k_m个不相交的同质类1＜k_m＜＜T，表示将第m个交通模式划分的第i个时间分区，k_m表示第m个交通模式时间序列的分区个数，可在迭代过程中通过计算平均轮廓系数来自动确定，n_m，j表示第m个交通模式下第j个分区的样本数；针对序列数据聚类问题，定义如公式Ⅴ的映射关系：

5.根据权利要求1所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述步骤d中STKNN模型的建立方法包括步骤：样本构建、距离函数定义、候选邻居选取、预测函数定义、预测值生成。

6.根据权利要求5所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述样本构建的方法为：利用时空状态矩阵表征道路片段每一时刻的交通条件，所有历史时刻的交通条件数据则堆叠形成时空三维立方体，并划分为历史时空数据集、训练时空数据集、测试时空数据集；

假设Y_m,j为第m个交通模式的第j个分区的历史交通条件数据集，即Y_m,j为整个道路网络的历史交通条件的子集，仅取对应交通模式下的时间区间的交通条件构建预测模型；其中，N_m为第m个交通模式的道路片段数目；T_m,j为第m个交通模式中第j个分区的时间间隔数目，T_m,j＝n_m,j；为了便于后续计算，我们将Y_m,j进行重排，将所有历史天的时间区间按时间顺序排成一列，形成其中Yr_m,j表示第m个交通模式的第j个分区所有道路片段的历史交通条件矩阵，Tr_m,j＝D×T_m,j，Tr_m,j为第m个交通模式中第j个分区在历史总天数的时间间隔数目，即将3维张量转化为2维矩阵；

以第m个交通模式的第j个分区的历史交通条件数据集为例，道路片段u在时间间隔t的时空状态矩阵可定义为其中，ln表示道路片段u的空间邻居个数，lc表示时间窗口的长度，ln∈[1，N_m]，lc∈[1，Tr_m，j]；为了便于描述，令G＝Yr_m，j，则G_u表示第m个交通模式的第j个分区下第u个道路片段所有历史天的交通条件时间序列；

在时间维度，采用自相关函数确定时间窗口的大小；给定预测道路片段u，在时间延迟δ下的自相关函数ρ_u(δ)可定义为公式Ⅻ：

在利用自相关选取时间窗口时，保证在最大延迟范围内，交通条件具有显著的时间依赖性；然后在此范围内，采用交叉验证，选取使得预测模型误差最小的时间延迟，即为最优的时间窗口大小；在获取了空间邻居和时间窗口，按照时间顺序堆叠每个时间间隔的时空状态矩阵，则可得到3维的时空张量，然后按照设定的训练天数和测试天数，可将时空张量划分为历史时空张量、训练时空张量、测试时空张量。

7.根据权利要求5所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述距离函数定义的方法为：分别在时空状态矩阵的时间和空间维度赋予权重来构造权重欧几里得距离函数；采用时空权重欧几里得距离函数来为预测道路片段选取候选邻居；时空权重矩阵的定义如下：在时间维度，按照时间的线性分布赋值道路片段u的时间权重其中ti和tj分别表示时间权重矩阵中第ti和tj个值；在空间维度，利用互相关系数表示空间权重其中si和sj表示空间权重矩阵中第si和sj个值；时空权重的分配方式如公式ⅩⅢ所示：

其中，MC_u，t定义为道路片段u在时间间隔t的时空状态矩阵。

8.根据权利要求5所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述候选邻居选取的方法为：通过计算时空状态矩阵之间的欧几里得距离，得到预测道路的个候选邻居；通过计算任意两个时空状态矩阵MC_u，t和MC_u，tk之间的权重欧几里得距离d(Γ_u，t，Γ_u，tk)，MC_u，t和MC_u，tk分别表示道路片段u在时间间隔t和tk的时空状态矩阵；选取个距离最小的时空状态矩阵，则可得到预测道路的个候选邻，如公式ⅩⅤ：

9.根据权利要求5所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述预测函数定义的方法为：利用高斯函数为选取的个候选邻居分配不同的权重，从而整合得到目标道路片段u的预测值如公式ⅩⅥ所示：

其中，表示预测道路片段的第个候选邻居下一时刻的交通条件，为预测道路片段的第个候选邻居的权重，第个候选邻居与预测道路片段之间的距离；a为高斯权重参数，采用交叉验证的方式，选取使得预测误差最小的a值作为其参数值。

10.根据权利要求5所述的基于动态STKNN模型的短时交通预测方法，其特征在于：所述预测值生成的方法为：整合个候选邻居下一时刻的交通条件值得到目标道路片段交通条件的预测值。