CN106251625B

CN106251625B - 大数据环境下立体城市交通路网全局状态预测方法

Info

Publication number: CN106251625B
Application number: CN201610686958.XA
Authority: CN
Inventors: 袁铖珏; 李德伟; 席裕庚
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2019-10-01
Anticipated expiration: 2036-08-18
Also published as: CN106251625A

Abstract

一种大数据环境下立体城市路网全局状态预测方法，针对耦合多层的大规模城市交通路网，定义了包含耦合信息的全局交通模式，并提出了提取路网主要特征的方法，将高维状态时间序列转换为离散状态类序列，简化了高维数据在处理和预测中的困难。从交通的周期性、延迟性等特征出发，构建包含多元交通特性的历史状态转移信息库，充分利用海量数据的信息和数据驱动思想，运用马尔科夫转移概率理论，实现了多步全局交通状态的预测。全局的交通预测可以一次性获取各个区域的交通状态，与现有的交通预测方法相比，本发明在快速获得长期预测结果基础上，具有较好效果的预测输出。

Description

大数据环境下立体城市交通路网全局状态预测方法

技术领域

本发明涉及城市交通路网交通状态预测领域，具体是一种大数据环境下立体城市交通路网全局状态预测方法。

背景技术

城市交通状态不仅能影响个人出行体验，也是城市良性发展的重要指标。城市智能交通系统(Intelligent Transportation System)的实现能够改善交通运行效率，提高城市环境质量，提升市民生活品质，因此智能交通是相关研究者和城市管理部门长期关注的焦点。准确可靠的交通状态定义和预测为智能交通系统提供了核心基础。

经过对现有技术的文献检索发现，早期的研究者使用传统时间序列分析的方法来预测交通变量，包括历史平均模型，移动自回归，卡尔曼滤波等。还有一些研究者使用交通理论搭建相关模型并对其中的变量进行预测，例如元胞传递模型，S模型可以用来预测未来交通趋势。但这些方法和模型是建立在理想化的数学理论之上，比较难处理实际生活中复杂的大规模城市交通情况。近年来越来越多的机器学习方法被用在交通预测中，比如Chun-Hsin Wu等在2004年的IEEE Transactions on Intelligent Transportation System上发表的Travel-time prediction with support vector regression中用支持向量机的方法预测行程时间，Siyan Liu等在2015年的Journal of Shanghai JiaotongUniversity(Science)上发表的A Short-term Traffic FlowForecasting Method and ItsApplications中采用人工神经网络预测短期交通流量，Yanyan Xu等在2013年的Intelligent Vehicles Symposium上发表的Short-term Traffic Volume Predictionusing Classification and Regression Trees中使用分类和回归树的方式预测短期交通流量，Yisheng Lv等学者在2014年的IEEE Transactions on IntelligentTransportation Systems上发表的Traffic Flow Prediction With Big Data:A DeepLearning Approach中提出了采用深度学习方法预测交通流的思路。以上这些方法都是以单个交通变量作为预测目标，常见的交通变量包括交通流量、道路平均速度、车辆运行时间、排队长度等，这些交通变量能够在某种程度上反映交通状态。目前的研究方法在预测时大多只考虑了单个路段或路口，没有很好地把交通要素之间的关联影响纳入预测方法。

随着交通数据采集技术的进步，研究者掌握了越来越多的交通数据，数据采集方式包括道路定点检测器、浮动车、移动通信数据、车辆拍照检测数据等。近年来大数据分析技术的兴起也给交通研究带来了新的启迪和机遇。大数据分析技术的核心是从多样且海量的数据中，快速获取有价值的信息。现代城市交通拥有多元化的交通要素，而且包含了要素之间的丰富的相互关联，比如城市多层交通路网数据和它们之间的关联耦合关系。

发明内容

针对现有的研究背景，本发明提供了一种大数据环境下对立体城市交通路网全局状态的预测方法，利用大数据提供的空间和时间关联信息，将耦合网络之间的关联因子纳入预测方法，能够较高精度地快速获取未来全局交通状态信息，且方法通用性好，适用于多层交通网络的预测。

该预测方法由以下几个步骤构成。

步骤1、数据预处理。该步骤的输入为道路拓扑图和原始数据，具体包括以下几个子步骤：

S1、按照道路属性(主干路、次干路、快速路、匝道路等)进行网络分层，对所采集的数据进行数据清洗，将各层路网数据分开存储，获得历史数据集。

S2、对历史数据集进行拓扑划分，融合初始道路速度数据，获取区域网格速度，并定义带有耦合信息的全局交通特征。确定全局交通模式的有效数目，通过聚类将历史数据集转换为交通模式的编号序列，记作样本数据集，具体聚类方法可采用通用的聚类技术。

步骤2、预测建模。该步骤的输入为数据预处理的输出，即样本数据集，输出为预测模型。子步骤包括：

S3、给样本数据集加入日期属性(工作日、双休日)标签，对各层路网不同日期属性的样本数据分开建立信息库。

S4、建立参数优化模型确定预测模型的最优参数。

步骤3、预测实施。该步骤的输入为预测步数，置信度，预测模型，以及数据采集系统获得的当前城市交通状态信息，输出为多步全局交通状态预测结果及结果匹配度。具体包括：

S5、采用优化的模型参数和预测算法计算未来可能的全局交通模式以及各模式对应的概率，并计算结果匹配度。

上述步骤中，数据预处理中子步骤S1包括以下操作

S1.1、根据历史采集数据中所涉及的道路类型，将历史采集数据划分成不同的子路网历史数据集。

S1.2、设定子路网历史数据集中各道路的平均速度值的有效范围，删除不在有效范围内的异常数据，并剔除数据库中重复的数据。

S1.3、按照子路网历史数据集中日期、时间和路段编号的连续性，采用数据缺失值的填补方法完善序列中缺失的速度值，从而得到完整的历史数据集。填补方法可采用如均值填补或回归替换等通用技术。

所述数据预处理中子步骤S2包括以下操作

S2.1、根据所预测路网拓扑的经纬度大小将各层的城市交通路网划分成若干个矩形子区域，获得每个子区编号，该区域中所有道路编号和这些道路落在该区域中的有效长度，将以上信息存入不同路网的【区域-路段】表中。

S2.2、网格数据融合：以各道路在该区域中的有效长度Length→{l₁,l₂,...l_j,...}为权值，根据各道路平均速度的时序数据v_i计算区域在不同时刻的平均速度。

其中表示区域瞬时速度，n_k表示经过该区域的道路条数，j代表在该区域内的第j条路段。统计可获得有效速度值的区域网格个数n，并将所有区域瞬时速度的张成向量定义为该路网在时刻t下的交通全局特征向量时间序列

路网全局交通特征包含本路网的全局状态和该路网与其它路网的耦合因子，把不同路网交接处的区域信息作为耦合因子，交通全局特征向量时间序列V_t。扩展为t时刻下的全局交通特征向量F_t＝[v₁，v₂，，…v_N，c₁，c₂，…]，其中c₁，c₂，...为耦合因子。

定义全局交通模式：

S2.3、对不同时刻的全局交通特征向量F_t使用无监督聚类方法进行聚类。初始化一个较大的聚类数P，考察聚类结果中各类所包含样本数占所有参加聚类样本数的百分比，若低于给定百分比阈值，则说明该类是稀少类。计算初始聚类结果中的稀少类数Q，确定该路网典型交通状态个数为P-Q。

S2.4、聚类数输入P-Q，将所有时刻的全局交通特征向量进行聚类，计算得到P-Q个聚类中心向量，定义为全局交通模式类属中心，并根据聚类划分的情况将原交通全局特征向量时间序列转换为全局交通模式的序列编号。

所述预测建模中S3包含以下操作

S3.1、给样本数据添加双休日或工作日的标签，遍历样本数据集，挑出所有类属发生的改变，并记录跳变信息C＝[O，L，I，Y]，其中O为跳变发生前的状态，L为跳变发生前该状态持续的总长度，I为跳变发生所处周期序号，Y为跳变后的状态。

所有信息及相应发生的次数[C，N]组成信息库。信息库内容包括{[C₁，N₁]，[C₂，N₂]…[C_i，N_i]}。

根据S2.4确定的全局交通模式类属中心，计算当前数据最接近的类属编号，获得当前数据的全局交通模式时间序列。

S3.2、遍历当前类属时间序列从而获得当前序列cc＝[o，l，i]，其中o为当前状态，l为o持续不变的总长度，i为o所处的周期序列位置，需要预测在当前序列cc基础下的未来全局交通状态类属编号y。

S3.3、对当前序列cc和信息库中所有历史跳变信息C进行信息匹配，即进行三次匹配，包括状态匹配、持续时长匹配、周期位置匹配，获得信息库中满足匹配的信息组和相应的相似度参数。

状态匹配：从S3.1中建立的信息库中挑选出所有和当前状态相同的信息元组，即将所有满足O＝o的跳变信息C构成D₀。

持续时长匹配：从D₀中挑选出所有L-l≥0的信息构成D₁，并计算相应的时长相似度

周期位置匹配：计算当前周期位置i和D₁中信息的跳变周期位置I的绝对差值，并根据不同位置差判定历史数据所属的子模型。

Q_i表示周期位置匹配后历史数据划分成的不同子数据组，如图3所示，由各子数据组构建独立的子模型。

划分的参数x可根据不同应用场景自定义预设。

按照如下公式计算不同子模型的转移概率，并通过投票方式求得最终的转移概率

Z＝r₁·P⁽¹⁾+r₂·P⁽²⁾+r₃·P⁽³⁾+r₄·P⁽⁴⁾+r₅·P⁽⁵⁾(5)

R＝[r₁,r₂,r₃,r₄,r₅](6)

其中Δ表示在预测向量与实际向量中相同位置的元素处于相同拥堵状态的区间个数，b为向量长度，即含有有效速度的网格个数。S₁代表预测速度向量，S₂代表实际速度向量。p(Y＝Y₁)表示转移到第1个可能状态的概率，p(Y＝O)表示状态不变的概率，[C_i＝(O_i,L_i,I_i,Y_i),N_i]为信息库中的信息元组，当前信息为cc＝[o,l,i]，κ_i为根据S3.1中持续时长匹配计算的相似度。Z为最后的转移概率由五项概率[P⁽¹⁾,P⁽²⁾,P⁽³⁾,P⁽⁴⁾,P⁽⁵⁾]加权投票获得，其中R＝[r₁,r₂,r₃,r₄,r₅]为相应的权值。

所述预测建模中S4包含以下操作

S4.1、以投票权值参数R为优化变量，根据样本数据集中的数据最大化优化目标，优化目标为采用S3.3中公式(2)-(7)计算得到的最大转移概率对应的模式和实际发生的交通模式在全局的匹配度。可使用现有通用技术求解模型获得最优解。

所述预测实施中S5包含以下操作

S5.1、根据输入的现时数据所属的日期、路网获取已优化的权值参数，利用现时数据获取当前交通信息并按照S3.3进行信息匹配，由(2)-(6)计算下一步的预测状态及概率值，作为单步预测结果。

S5.2、迭代预测：根据输入的预测步数，进行多步迭代预测，得到多步预测的结果和相应的概率。具体做法为：将按照步骤S5.1获得的单步预测结果当作已知信息进行再下一步的预测。

S5.3、多步剪枝：对多步迭代求得的预测状态及相应概率时在特定步数进行剪枝，保留概率和不超过置信度的前几个状态结果。

S5.4、按照S5.1至S5.3的方式计算未来交通模式及相应概率。将各预测类属中心以概率大小为相对权重求平均得到最终的多步全局状态向量预测结果，将预测向量与实际向量按照(7)计算结果匹配度。

与现有技术相比，本发明具有以下优势

1、能够处理大规模数据，并将原始数据通过无监督学习方法转化成随机序列预测问题。

2、通过路网划分和数据融合定义了全局城市路网交通状态，能够快速获得路网的全局信息的预测结果。

3、基于交通系统空间上的蔓延特性，预测时纳入空间关联信息和路网之间的耦合因素，提高了预测的准确度。

4、基于交通系统状态的周期特性和延迟特性，在表征转移状态时，将状态的持续时长和状态同时纳入状态定义，并将周期位置存入信息库，充分利用历史信息与当前信息之间的匹配度，提升了预测的准确度。

附图说明

图1是本发明大数据环境下对存在立体交通路网的全局状态预测方法的流程图。

图2是具体实验采用案例:上海市交通路网拓扑总图。

图3是概率计算框图表示。

图4是多步预测时剪枝示意图。

图5是地面路网多步预测的结果图。

具体实施方式

本发明结合上海市的路网数据实现了对全局交通路网状态的预测。本发明采用的方法不同于其它的单一变量预测方法，本发明从全局状态角度出发，针对上海市多个路网的耦合情况，定义了包括耦合项和各区域平均速度的全局特征，并将交通状态序列转换为交通模式编号序列，对模式编号序列进行预测。

路网数据采集的通用方式有道路定点检测器、浮动车、移动通信数据、车辆拍照检测等，本发明实例数据由线圈传感器采集，属于道路定点检测器的一种，采集间隔为两分钟，包含道路类型有主干道、次干道、一般道路、高架快速路、匝道路，采集时间为2015年4月1日至2015年5月31日。

根据图1至图5的说明，本发明步骤如下：

S2、对历史数据集进行拓扑划分，融合初始道路速度数据，获取区域网格速度，并定义带有耦合信息的全局交通特征。确定全局交通模式的有效数目，通过聚类将历史数据集转换为交通模式的编号序列，本实例中的聚类方法采用K-Means方法。

S3、按照双休日和工作日两个不同的日期属性划分样本数据集，建立信息库。

S4、建立参数优化模型，确定预测模型的最优参数。

S5、对现时数据采用优化的模型参数和全局状态预测算法计算未来全局状态和各自对应的概率，并计算结果匹配度。

所述的步骤S1中，对上海市交通路网和线圈传感器采集的数据的预处理过程包括以下步骤：

S1.1、根据采集数据中所涉及的道路类型，将采集数据划分成不同的子路网历史数据集。上海市的交通网络分为地面路网和高架路网，地面路网包括主干道、次干道、一般道路；高架路网包括高架快速路、匝道路。匝道路段是连接快速路和地面道路的进出口路段。

S1.2、设定子路网历史数据集中各道路的平均速度值的有效范围为[0,120]km/h，删除不在有效范围内的异常数据，并剔除数据库中重复的数据。

S1.3、按照子路网历史数据集中日期、时间和路段编号的连续性，采用均值滤波的方法完善序列中缺失的速度值，从而得到完整的历史数据集。历史数据集包含的数据表有路段属性表和速度序列表，其中路段属性表的字段为【路段编号，采样点经纬度，路段总长度】；速度序列表的有效数据字段为【时间，路段编号，平均速度】

所述步骤S2包含以下步骤

S2.1、根据经纬度地理位置对上海市地图进行划区，将上海市的整体路网按照经纬度划分成60×60共3600个子区域，对地面路网和高架路网分开单独处理，记录每个子区编号以及包含其中所有道路编号以及该道路落在区域中的有效长度，存入不同路网的【区域-路段】表中。

S2.2、网格数据融合：以各道路在该区域中的有效长度Length→{l₁,l₂,...l_j,...}为权值，根据不同道路平均速度的时序数据v_i计算区域网格在不同时刻的平均速度。

其中表示区域瞬时速度，n_k表示经过该区域的道路条数，j表示在该区域内的第i条路段。

统计可获得有效速度值的区域网格个数n，本实例中在最初划分的3600个网格总找出462个含有效速度的高架路网网格，1070个含有效速度的地面路网网格。并将所有区域瞬时速度的张成向量定义为该路网在时刻t下的交通全局特征向量时间序列

S2.3、对不同时刻的全局交通特征向量F_t使用无监督聚类方法进行聚类，初始化一个较大的聚类数P＝20，考察聚类结果中各类所包含样本数占所有参加聚类样本数的百分比0.05，若低于给定百分比阈值，则说明该类是稀少类。计算初始聚类结果中的稀少类数Q，确定该路网典型交通状态个数为P-Q。

将数据中双休日和工作日的数据分开聚类，最终确定的各路网有效交通状态个数如下表1所示

表1路网的典型全局交通状态个数

路网	工作日	双休日
			高架路网	9	7
地面路网	11	7
			带耦合项的高架路网	8	8

S2.4、聚类数输入P-Q，将所有时刻的全局交通特征向量进行聚类，计算得到P-Q个聚类中心，定义为全局交通模式类属中心，并根据聚类划分的情况将原交通全局特征向量时间序列转换为全局交通模式的序列编号。

所述步骤3包含以下步骤

S3.1、给样本数据添加双休日或工作日的标签，遍历全局交通时间序列，从中挑选出所有类属改变时刻，并记录跳变信息C＝[O，L，I，Y]，其中0为跳变发生前的状态，L为跳变发生前该状态持续的总长度，I为跳变发生所处周期序号，Y为跳变后的状态。

所有跳变信息及相同信息发生的次数[C，N]组成信息库。信息库中包含信息为{[C₁，N₁]，[C₂，N₂]…[C_i，N_i]}。

根据S2.4中确定的全局交通模式类属中心，计算当前数据最接近的类属编号，获得当前全局交通模式的时间序列。

S3.2、遍历现时数据信息，并获得当前序列cc＝[o,l,i]，其中o为当前状态，l为o持续不变的总长度，i为o所处的周期序列位置，需要预测在当前序列cc基础下的未来全局交通状态类属y。本实例中将数据按照24h为周期划分，由于采样间隔为2分钟，周期位置的取值范围是0至720。

S3.3、对当前序列cc和信息库中所有历史跳变信息C进行三次匹配。三次匹配包括状态匹配、持续时长匹配、周期位置匹配，获得信息库中满足的匹配信息和相应的相似度参数。

状态匹配：从数据库中挑选出所有和当前状态相同的信息元组，即将所有满足O＝o的信息C构成D₀。

持续时长匹配：从D₀中挑选出所有L-l≥0的信息勾成D₁，并计算相应的时长相似度

周期位置匹配：计算当前周期位置i和D₁中信息的跳变周期位置I的绝对差值。并根据不同位置差判定历史数据所属的子模型。

划分的参数可根据不同应用场景自定义预设，本实例中使用[15,45,60,90]为划分边界。

Z＝r₁·P⁽¹⁾+r₂·P⁽²⁾+r₃·P⁽³⁾+r₄·P⁽⁴⁾+r₅·P⁽⁵⁾ (5)

R＝[r₁,r₂,r₃,r₄,r₅] (6)

其中△表示在预测向量与实际向量中相同位置的元素处于相同拥堵状态的区间个数，b为向量长度。S₁代表预测速度向量，S₂代表实际速度向量。

其中p(Y＝Y₁)表示转移到第1个可能状态的概率，p(Y＝O)表示状态不变的概率，[C_i＝(O_i,L_i,I_i,Y_i),N_i]为信息库中的信息元组，当前信息为cc＝[o,l,i]，κ_i为根据S3.1中持续时长匹配计算的相似度。Z为最后的转移概率由五项概率[P⁽¹⁾,P⁽²⁾,P⁽³⁾,P⁽⁴⁾,P⁽⁵⁾]加权投票获得，其中R＝[r₁,r₂,r₃,r₄,r₅]为相应的权值。根据投票权值加和求得单步预测结果。

所述步骤4包含以下步骤

S4.1、以投票权值参数R为优化变量，根据样本数据集中的数据最大化优化目标，优化目标为采用S3.3中公式(2)-(7)计算得到的最大转移概率对应的模式和实际发生的交通模式在全局的匹配度。本发明采用遗传算法求解优化参数R。

所述步骤5包含以下步骤

S5.2、迭代预测：将按照步骤S5.1获得的单步预测结果当作已知信息，迭代进行下一步的预测。

S5.3、多步剪枝：对多步迭代求得的预测状态及相应概率时在特定步数进行剪枝，保留概率和不超过为置信度的前几个状态结果。

本实例中的多步预测方法采用每5步剪枝的方式，剪枝保留率为95％。按照预测概率值从大到小排列多步预测状态，将在置信度之外的状态剔除，并重新归一化剩余状态的概率。

S5.4、本实例算法的输入有当前状态序列，历史改变信息库，投票权值R，剪枝率D，预测步数K。输出为当前状态的未来第K步可能状态及状态各自对应的概率。预测时先判断当前数据所处日期并应用相应工作日或双休日的信息库及参数，按照S5.1至S5.3所述方法计算未来状态及其相应概率。将各预测类属中心以概率大小为相对权重求平均得到最终的多步全局状态向量预测结果，如图5。

本实例中，通过遗传算法求解得到的最优投票权值参数如下表2

表2最优投票权值

路网	工作日	双休日
			高架路网	[55,1,45,23,0]	[85,5,18,61,4]
地面路网	[66,66,30,3,0]	[85,85,24,85,0]
			带耦合项的高架路网	[77,42,42,42,1]	[100,45,35,45,3]

将多步预测状态类的类中心速度向量与实际速度向量进行按照公式(7)计算结果匹配度。

A的值在0至1范围内，用来表示两个全局速度向量的匹配程度。以历史数据中所有时刻为初始状态点，计算多步预测的结果匹配A的平均值如下

其中d代表不同周期，t代表一个周期内的不同位置序号。

城市道路的速度区间与拥堵等级如下表3

表3城市道路拥堵等级划分

为了覆盖最广泛的实验数据情况，本实施例将2015年五月份一个月的所有时刻数据依次作为当前时刻输入，以便获得不同日期及一天不同时刻的预测效果，最后求所有预测结果的平均值作为本方法的评价指标。

高架路网的多步预测与带耦合项的高架路网多步预测的对比结果如下表4

表4添加耦合项对结果的影响

上表4-5的结果可以说明以下几个结论：

1.针对存在耦合的全局路网预测，在特征向量中加入耦合项的预测效果要比不加耦合项单独预测全局路网的效果提升47％以上。

2.本发明能够克服多步预测中的步长增长对预测效果的影响。在长距离预测上有较优预测性能。

综上所述，本发明提出了一种在大数据环境下的立体城市交通路网全局状态预测方法。该预测方法包括三大主要步骤：数据预处理，预测模型建模，预测实施。首先通过数据预处理获得路网的区域融合速度，其次构建了包含各区域以及其它路网的拥堵因子在内的路网全局特征向量，采用无监督学习方法对全局特征向量进行聚类并将聚类中心提取为路网的主要特征。在此基础上，将路网的全局特征向量时间序列转化为类属序列，对类属序列建立动态预测模型，利用当前状态与历史数据的匹配程度，结合马尔科夫转移概率及概率后缀树理论计算各自模型的下一步预测状态及概率。通过算法的多步迭代及剪枝获取多步的预测结果，最终预测结果由投票获得。本发明从全局状态的预测角度出发，针对当前存在多层路网的立体城市交通现状，实现了较高效的城市路网预测。

尽管本发明的内容已经通过上述实例作了详细介绍，但上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应当优所附的权利要求来限制。

Claims

1.一种大数据环境下立体城市路网全局状态预测方法，其特征在于，该方法包括数据预处理、预测模型和预测实施三个阶段，具体步骤如下：

数据预处理阶段：

S1、根据采集的原始数据和地图拓扑中道路类型属性进行网络分层和数据清洗，获得历史数据集；

S2、对历史数据集进行拓扑划分后，融合初始道路速度数据，获得区域网格速度，并定义带有耦合信息的全局交通特征，确定全局交通模式的有效数目，通过聚类将历史数据集转换为交通模式的编号序列，记作样本数据集；

S2.1、根据待预测路网拓扑的经纬度大小将各层的城市交通路网划分成若干个矩形子区域，获得每个子区编号，该区域中所有道路编号和这些道路落在该区域中的有效长度，将以上信息存入不同路网的【区域-路段】表中；

S2.2、网格数据融合：以各道路在该区域中的有效长度Length→{l₁,l₂,...l_j,...}为权值，根据不同道路平均速度的时序数据v_j计算区域网格在不同时刻的平均速度，公式如下：

其中，表示区域瞬时速度，n_k表示经过该区域的道路条数，j表示在该区域内的第j条道路；

统计得到含有有效速度的不同区域网格个数n，并将所有区域瞬时速度的张成向量定义为该路网在时刻t下的交通全局特征向量时间序列

路网全局交通特征包含本路网的全局状态和该路网与其它路网的耦合因子，把不同路网交接处的区域信息作为耦合因子，交通全局特征向量时间序列V_t，扩展为t时刻下的全局交通特征向量F_t＝[v₁,v₂,...,v_n,c₁,c₂,...]，其中c₁，c₂，...为耦合因子；

定义全局交通模式：

S2.3、对不同时刻的全局交通特征向量使用无监督聚类方法进行聚类，确定该路网典型交通状态个数为P-Q，P为大聚类数，Q为稀少类聚类数；

S2.4、聚类数输入P-Q，将所有时刻的全局交通特征向量聚类，计算得到P-Q个聚类中心向量，定义为全局交通模式类属中心，并根据聚类划分的情况将原交通全局特征向量时间序列转换为聚类类属标签时间序列，即全局交通模式的序列编号；

预测模型阶段：

S3、给样本数据集加入日期属性标签，对各层路网不同日期属性的样本数据分开建立信息库；

S4、建立参数优化模型确定预测模型的最优参数；

预测实施阶段：

S5、采用优化的模型参数和预测算法计算未来可能的全局交通模式以及各模式对应的概率并计算结果匹配度。

2.根据权利要求1所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述步骤S1具体包括:

S1.1、根据采集的原始数据中道路类型属性，划分成不同的子路网历史数据集，

S1.2、设定子路网历史数据集中各道路的平均速度值的有效范围，删除不在有效范围内的异常数据，以及重复的数据；

S1.3、按照子路网历史数据集中日期、时间和路段编号的连续性，采用数据缺失值的填补方法完善序列中缺失的速度值，得到完整的历史数据集。

3.根据权利要求1所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述步骤S3具体包括：

S3.1、给样本数据集添加双休日或工作日的日期属性标签，遍历全局交通模式的时间序列，从中挑选出所有类属改变时刻，并记录跳变信息C＝[O,L,I,Y]，其中O为跳变发生前的状态，L为跳变发生前该状态持续的总长度，I为跳变发生所处周期序号，Y为跳变后的状态；

改变信息及相同信息发生的次数[C,N]组成信息库；

根据S2.4确定的全局交通模式类属中心，计算当前数据最接近的类属编号，获得当前全局交通模式时间序列；

S3.2、遍历现时数据，获得当前序列cc＝[o,l,i]，其中o为当前状态，l为o持续不变的总长度，i为o所处的周期序列位置，按照S4-S5预测在当前序列cc基础下的未来全局交通状态类属y；

S3.3、对当前序列cc和信息库中所有历史跳变信息C进行三次匹配，获得信息库中满足匹配的跳变信息C和相应的相似度参数。

4.根据权利要求3所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述的三次匹配包括状态匹配、持续时长匹配和周期位置匹配；

状态匹配：从S3.1中建立的信息库中挑选出所有和当前状态相同的信息元组，即将所有满足O＝o的跳变信息C构成D₀；

周期位置匹配：计算当前周期位置i和D₁中信息的跳变周期位置I的绝对差值，并根据不同位置差判定历史数据所属的子模型：

Q_i表示周期位置匹配后历史数据划分成的不同子数据组；

划分的参数[x₁,x₂,x₃,x₄]根据不同应用场景自定义预设，其中0≤x₁＜x₂＜x₃＜x₄；

按照如下公式计算不同子模型的转移概率，并通过投票方式求得最终的转移概率：

R＝[r₁,r₂,r₃,r₄,r₅] (6)

其中p(Y＝Y₁)表示转移到第1个可能状态的概率，p(Y＝O)表示状态不变的概率，[C_i＝(O_i,L_i,I_i,Y_i),N_i]为信息库中的信息元组，当前序列为cc＝[o,l,i]，κ_i为根据S3.1中持续时长匹配计算的相似度，Z为最后的转移概率由五项概率[P⁽¹⁾,P⁽²⁾,P⁽³⁾,P⁽⁴⁾,P⁽⁵⁾]加权投票获得，其中R＝[r₁,r₂,r₃,r₄,r₅]为相应的权值。

5.根据权利要求4所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述步骤S5具体包括：

S5.1、根据采集的输入数据所属的日期、路网获取已优化的权值参数，利用现时数据获取当前交通信息并按照S3.3进行信息匹配，由公式(2)-(6)计算下一步的预测状态及概率值，作为单步预测结果；

S5.2、迭代预测：根据预设的预测步数，进行多步迭代预测，得到多步预测结果和相应概率；

S5.3、多步剪枝：对多步迭代求得的预测状态及相应概率时在特定步数进行剪枝，保留概率和不超过为置信度的前几个状态结果；各预测类属中心以概率大小为相对权重求平均得到最终的多步全局状态向量预测结果；

S5.4、根据多步预测状态类的预测速度向量与实际速度向量计算结果匹配度A，公式如下：

其中，Δ表示在预测向量与实际向量中相同位置的元素处于相同拥堵状态的区间个数，b为向量长度，即含有有效速度的网格个数，S₁代表预测速度向量，S₂代表实际速度向量。

6.根据权利要求2所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述的历史数据集包含的数据表有路段属性表和速度序列表，其中路段属性表的字段为【路段编号，采样点经纬度，路段总长度】；速度序列表的有效数据字段为【时间，路段编号，平均速度】；两个子路网为地面路网和高架路网，地面路网包括主干道、次干道、一般道路；高架路网包括高架快速路、匝道路。

7.根据权利要求2所述的大数据环境下立体城市路网全局状态预测方法，其特征在于，所述填补方法是指均值填补或回归替换。