CN111179592A

CN111179592A - 基于时空数据流融合分析的城市交通预测方法和系统

Info

Publication number: CN111179592A
Application number: CN201911408706.0A
Authority: CN
Inventors: 任明仑; 黄晓地; 褚伟; 朱晓曦; 程八一
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19
Anticipated expiration: 2039-12-31
Also published as: CN111179592B

Abstract

本发明提供了一种基于时空数据流融合分析的城市交通预测方法和系统。所述方法包括：基于多项式函数拟合单类交通数据流，根据拟合结果对交通状态进行预测；基于数据包络分析模型对各类交通数据流进行融合，根据融合结果对交通状态进行预测；基于预设聚类算法对各交通枢纽点的连续时间间隔进行分析，根据聚类结果对交通状态进行预测；基于预设方法计算所有交通枢纽点的中心点，根据中心点变化幅度进行交通状态预测。本实施例可以识别单一监测点覆盖范围内由单一交通数据流和多数据流反应出的交通异常状态，以及由多个检测点共同反应出的城市区域性交通异常，基于不同层级的交通数据分析，可以提高预测的准确性。

Description

基于时空数据流融合分析的城市交通预测方法和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于时空数据流融合分析的城市交通预测方法和系统。

背景技术

城市交通是城市内部及城市与外部之间的人员物资实现空间位移的系统，城市规模、地理位置、自然环境、出行时间以及节假日等诸多因素以非线性方式相互关联影响，共同构成一个典型的复杂时空系统。随着城市规模化进程加快，路网结构优化的速度迟滞于各类交通媒介增加的速度，城市交通平稳性面临严峻的挑战，因此需要有效的分析手段对交通流进行实时准确的预测，可以提前部署应对方案，最大程度缓解道路压力。

目前，基于交通流研究主要分为两大类：微观交通流理论和宏观交通流理论。以宏观交通流理论为例：

宏观交通流理论旨在对反应整体交通运行特性的指标(如流量、密度和速度等)进行关联分析与建模，通过采集到的大量数据进行实证分析。从宏观分析角度，由数据拟合的城市交通状况具有一定规律的周期性变化，每天不同的时段，工作日与周末，各个月份以及各种类型的节假日都有其特定的规律，呈现出显著的时间相关性。同时，城市各区域的交通状况联通，当其它区域的交通流发生变化时，会对当前时刻或下一时毗邻区域的交通流形成影响，呈现出显著的空间相关性。

换言之，城市交通由出租车，公交车，私家车，自行车以及行人等多种交通媒介组成，城市交通状态由多种信息综合反应，多种交通数据流之间存在显著的相关关系，因此，对城市交通流进行预测的本质是对反应交通状况的多条时空数据流进行建模与融合分析的过程。现有，基于时空数据分析途径实现交通流预测的研究可大致分为三类：

第一，基于数理方法的研究旨在使用如混合分布模型，主成分分析法，梯度下降法等数值分析技术去拟合交通数据本身的数学特征。在历史数据充足(即数据标签明确)的情况下，可以较好的反映给的数据集的实际分布特征，但异常值非常敏感且对模型的依赖性太高，难以应对实时检测中突发或未知的状况。

第二，基于数据相似性度量的研究旨在通过距离、密度等邻域度量标准，基于聚类方式识别各类交通行为模式。这类方法不处理数据之间的相关性，只是根据既定的度量规则识别交通数据中相似数据稠密的区域。在城市交通的实时检测中，其预测的准确性高度依赖度量规则的合理性，难以快速识别源自于机理未知的数据模式。

第三，基于模式挖掘的研究旨在通过数据分析技术挖掘交通流中出现的频繁模式，通过模式对比诊断当前交通状态。这类方法以交通大数据为驱动，对模型和规则的依赖性较低，能够识别交通流中出现的各种模式，但这类方法需要对数据进行多次扫描，算法复杂度高、耗时长，难以满足城市交通状态的实时在线检测。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于时空数据流融合分析的城市交通预测方法和系统，用于解决相关技术中存在的技术问题。

第一方面，本发明实施例提供了一种基于时空数据流融合分析的城市交通预测方法，包括：

获取目标城市内各检测点采集的交通数据流；所述交通数据流包括预设分类的多种单类交通数据；

基于预设的多项式函数拟合所述各检测点的单类交通数据流，获得拟合结果；所述拟合结果用于表征相同时点下所述各检测点覆盖区域内各类交通数据流是否异常交通的拟合结果；

在所述拟合结果表征交通数据流未发现异常时，基于预设的数据包络分析模型对所述交通数据流进行融合，获得融合结果；所述融合结果用于表征相同时点下所述检测点覆盖范围内的交通数据流中是否存在由多种交通数据共同构成的集体离群点以及基于所述集体离群点判断出是否异常交通结果；

在所述融合结果表征各检测点采集的交通数据流未发现异常时，基于预设的聚类算法对各交通枢纽点的连续时间间隔进行分析，获取聚类结果；所述聚类结果用于表征所述各交通枢纽点覆盖范围内是否存在由多个检测点共同构成的集体离群点以及基于所述集体离群点判断是否出现异常交通状态；

在所述聚类结果表征单一交通枢纽点未发现异常时，计算各个时间间隔内所有交通枢纽点的中心点，获得计算结果；所述计算结果用于表征相同时点下存在由多个交通枢纽点共同构成的集体离群点，以及基于所述集体离群点判断是否出现异常交通状态。

可选地，所述预设的多项式函数通过以下方式获取，包括：

获取历史交通数据，所述历史交通数据包括多种单类交通数据；

利用预设的多项式函数拟合各单类交通数据流，得到多项式系数向量；以及拟合出的行为属性值；

基于每个时间间隔内所述交通数据流中的实际行为属性值和拟合出的行为属性值计算拟合误差；

在所述拟合误差大于预设误差阈值时，基于所述多项式系数向量调整多项式函数后，利用调整后的多项式函数继续拟合各单类交通数据流，直至所述拟合误差小于或等于所述预设误差阈值；

将拟合后的多项式系数转换成字符形式的多项式函数。

可选地，所述交通数据流包括4种单类交通数据，分别为私家车数据流、公共交通数据流、非机动车数据流和其它交通媒介数据流；

所述预设的数据包络分析模型通过以下方式获取，包括：

将4类交通数据流视为4个独立“部门”，以时间窗口T_window对应的每个时间间隔宽度为“部门投入”，以时间间隔内采集的交通流量Q为“部门产出”，根据“相对有效性DEA＝部门产出/部门投入＝交通流量Q/时间窗口T_window＝流量密度”原则构建数据包络分析模型：

输入：

输出：

其中，t_ji代表第j(＝1，2，3或4)类“部门”对的第i种类型部分输入的投入总量，即第j类交通数据流第i个时间间隔的宽度；b_ji代表第j类“部门”对的第i种类型输出的产出总量，即第j类交通数据流在第i个时间间隔内采集到的交通流量；向量v表示输入的权重，且v₁＝v₂＝v₃＝v₄；向量u表示输出的权重；所述向量v和所述向量u用于表征综合交通状态。

可选地，基于预设的聚类算法对各交通枢纽点的连续时间间隔进行分析，获取聚类结果，包括：

基于时间窗口T_window的宽度，将连续时间序列划分成连续的等时间间隔；

在每一个时间间隔内，将各检测点融合后的三元组信息视为一个数据点；

对城市范围内所有检测点的交通状态数据，基于“距离-密度-权重”的聚类算法进行聚类处理，得到城市交通路网中的交通枢纽点；所述交通枢纽点用于在连续的时间间隔内对比交通枢纽点的交通数据流变化趋势。

可选地，所述预设的聚类算法为自适应聚类算法DDWK-medoids，通过以下方式获取，包括：

自适应算法参数取值范围：将参数取值范围等分，且引入循环判断准则对参数区间划分的合理性进行判断；根据模糊理论以等分段的上边界值作为整个区间的代表值并据此设定算法参数；

预备簇中心挑选：数据集最佳聚类结果应满足簇内对象高度相似且簇间对象最大程度相异的标准；

初始簇中心筛选：引入惯性权重思想，对挑选出的预备簇中心点集进行排查，筛除劣质簇中心；

条件重定位迭代：在每一次簇中心重定位迭代后加入密度度量，标记不满足阈值要求的劣质簇中心；若被标记的劣质簇中心在后续迭代过程中，簇密度持续下降，则删除该劣质簇中心，仅对余下满足密度阈值的中心点进行聚类；

算法参数对比择优：基于标准互信息度量指标，设置控制阈值NMI_accept,对不同参数对应的聚类结果进行对比，确定最优聚类参数，得到自适应聚类算法DDWK-medoids。

可选地，将参数取值范围等分，且引入循环判断准则对参数区间划分的合理性进行判断包括：

利用规则1生成集合；其中

规则1：对于包含N个数据的数据集，所有表示期望聚类簇数的k值组成一个集合，该集合如下式计算得到，p为取值范围为p∈[1:10]的正整数；

基于k的取值，每个聚类簇内约包含

个数据对象；以距离为度量，计算数据集中心点o。选择中心点o至少包含

个数据对象的半径3为邻域半径，以

为密度阈值ρ；

若按照规则1确定的算法参数的聚类结果均不满足度量指标的阈值要求，则按照规则2进行参数二次选择；

规则2：选择聚类质量评价最接近度量指标阈值的两个聚类簇数k，形成新的参数选择范围区间：

在新区间内，根据下式计算所有期望聚类簇数k的新集合：

p＝N⁺,∈[1:10]；

基于新的集合，确定邻域半径3与密度阈值ρ，再次进行聚类计算；

在算法参数对比择优环节，若聚类质量满足度量指标的阈值要求，算法终止，否则继续按规则2迭代。

可选地，预备簇中心挑选包括：

在数据集中，挑选邻域密度最大的数据c₁，作为第一个预备簇中心，将其邻域半径内的S₁个数据聚集到一起，形成第一个簇C₁；

将第一个簇C₁从原数据集D中删除，形成新数据集D₁，剩余|D|-|S₁|个数据；

在数据集D₁中，以欧式距离为度量，搜寻距离c₁最远的数据；若该数据的邻域密度满足密度阈值要求，则将其作为第二个预备簇中心；否则，选择距离点c₁次远的点进行邻域密度度量；依此类推，选择满足密度阈值要求且距离c₁足够远的c₂作为第二个预备簇中心；将点c₂邻域半径内的S₂个点聚到一起，形成第二个簇C₂；

将第二个簇C₂从数据集D₁中删除，形成新的数据集D₂，剩余|D₁|-|S₂|个数据；

在数据集D₂中，根据下式计算其余点到c₁,c₂的相对距离Rd：

Rd_i＝min(dist(α_i,x₁),dist(α_i,x₂)；

搜寻Rd最大的数据对象，若该点的邻域密度满足密度阈值要求，则将其作为第三个预备簇中心；否则，选择相对距离次大的点进行邻域密度度量；依此类推，选择满足密度阈值要求且相对距离足够大的c₃作为第三个预备簇中心；将点c₃邻域半径内的S₃个点聚集，形成第三个簇C₃；

将第三个簇c₃从数据集D₂中删除，形成新的数据集D₃，剩余|D₂|-|S₃|个数据；

重复上述步骤，直到数据集D_i中任一点都不满足密度阈值要求，终止计算，输出所有的预备簇中心集合：c₁,c₂,…,c_k。

第二方面，本发明实施例提供了一种基于时空数据流融合分析的城市交通预测系统，包括：

数据流获取模块，用于获取目标城市内各检测点采集的交通数据流；所述交通数据流包括预设分类的多种单类交通数据；

拟合结果获取模块，用于基于预设的多项式函数拟合所述各检测点的单类交通数据流，获得拟合结果；所述拟合结果用于表征相同时点下所述各检测点覆盖区域内各类交通数据流是否异常交通的拟合结果；

融合结果获取模块，用于在所述拟合结果表征交通数据流未发现异常时，基于预设的数据包络分析模型对所述交通数据流进行融合，获得融合结果；所述融合结果用于表征相同时点下所述检测点覆盖范围内的交通数据流中是否存在由多种交通数据共同构成的集体离群点以及基于所述集体离群点判断出是否异常交通结果；

聚类结果获取模块，用于在所述融合结果表征各检测点采集的交通数据流未发现异常时，基于预设的聚类算法对各交通枢纽点的连续时间间隔进行分析，获取聚类结果；所述聚类结果用于表征所述各交通枢纽点覆盖范围内是否存在由多个检测点共同构成的集体离群点以及基于所述集体离群点判断是否出现异常交通状态；

计算结果获取模块，用于在所述聚类结果表征单一交通枢纽点未发现异常时，计算各个时间间隔内所有交通枢纽点的中心点，获得计算结果；所述计算结果用于表征相同时点下存在由多个交通枢纽点共同构成的集体离群点，以及基于所述集体离群点判断是否出现异常交通状态。

由上述技术方案可知，本实施例可以识别单一检测点的异常交通状态，还可以由单一检测点由多数据流共同反应出的集体异常，也可以识别交通枢纽点覆盖范围内由多个检测点共同反应出的集体异常，可以提高预测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明实施例提供的一种基于时空数据流融合分析的城市交通预测方法的流程图。

图2为本发明实施例提供的将连续时间序列划分成连接等时间间隔序列的示意图。

图3为本发明实施例提供的获取聚类算法的流程图。

图4为本发明实施例提供的某市交通边界的示意图。

图5为本发明实施例提供的单类交通流线曲线。

图6为本发明实施例提供的融合交通曲线。

图7(a)为工作日期间交通枢纽点分布；图7(b)为节假日期间交通枢纽点分布。

图8为本发明实施例提供的交通枢纽点交通流曲线。

图9为本发明实施例提供的交通枢纽点中心位置变化曲线。

图10为本发明实施例提供的一种基于时空数据流融合分析的城市交通预测装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对相关技术存在的问题，本发明实施例提供了一种基于时空数据流融合分析的城市交通预测方法，图1为本发明实施例提供的一种基于时空数据流融合分析的城市交通预测方法的流程图。参见图1，一种基于时空数据流融合分析的城市交通预测方法包括：

在步骤11中，获取目标城市内各检测点采集的交通数据流；所述交通数据流包括预设分类的多种单类交通数据。

本实施例中，检测点是指城市路网规划中，客观存在的交通信息采集点，如路口流量采集和速度采集的电子监控。实际应用中，可以以目标城市中设置检测点来实现。或者，与交通部门建立通信获取交通数据。在一示例中可以获取交通部门提供的数据，好处在于，第一，可以利用现有的交通数据，省去了大量的数据预处理工序；第二，城市中的检测点大多布置在交通量相对密集的关键路段，这些地点的信息能够更加真实交通状况。

本实施例中，通过与交通部门通信，或者从指定位置(例如云端)可以获取到目标城市内各检测点采集的交通数据流。在一示例中，将目标城市的交通数据流分为四类，分别是私家车数据流、公共交通数据流、非机动车数据流和其它交通媒介数据流。公共交通数据流r₁，由出租车、公交车和地铁的流量信息组成。私家车数据流r₂，由除公共交通以外的C1、C2类准驾型私家车的流量信息组成。非机动车数据流r₃，基于共享单车平台车辆停放点实时更新数据乘以相应实际地理位置对应的权重近似表示。其它交通媒介数据流r₄，包括行人、客货车等在内的流量信息，由于这类信息无法采集，根据采集到的其它三类数据流近似表示。交通数据流如表1所示：

表1

注：在获得的历史数据中，r₃与r₄类数据流大约只有20％占比，其精确程度对整体的交通数据流融合分析的精度影响较小。因此，可以基于专家知识分配计算权重，大体拟合这两类数据流的信息。根据目标城市的不同情况，可对该权重做适当调整。

需要说明的是，城市交通是由人、车、路和环境等多种因素共同形成的复杂系统，具有明显的时空特性，对于交通数据流其主要特征参数可分为时间属性，空间属性和行为属性三类，因此在一个时间窗口内，每个检测点的交通数据可以采用三元组c＝<B,T,l>表示。其中，

(1)时间属性包含两个时间属性参数，分析窗口宽度T_window和数据流中每个分析间隔的时间属性矩阵

j表示交通数据流类别，t_ji表示第j类交通数据流中第i个分析间隔的时间属性。

城市交通部门每5分钟对采集到的城市交通数据进行一次处理。实际应用中，一般将实时预测定义为时间跨度不超过15分钟的短时交通预测，在不影响实时预测精度的前提下，本实施例中可以分析窗口的宽度设置为T_window＝5分钟，不仅可以节省大量数据预处理工作，同时对交通的预测也更加具有现实指导意义。根据不同的城市交通情况，本实施例中提出分析窗口的宽度可灵活变化。

为避免大量冗余分析，本实施例中可以基于每天05：00～23：30之间采集的交通数据对城市交通流变化趋势进行拟合，并基于分析窗口的宽度将连续的时间序列划分成连续的时间间隔序列。例如，对于第j类数据流，起始时间间隔标定为t_j1＝5:00，则下一时点的时间属性参数为t_j2＝5:10，依次对时间属性矩阵T中的时间间隔进行标定。

(2)将整个城市的边界视为数据集边界，选择城市中心点为原点O，标定其空间属性参数l_O＝(0,0)。其余检测点根据其到城市中心点的实际物理距离设定空间坐标，如检测点1的空间属性参数为l₁＝(x₁,y₁)，X轴为经度坐标，Y轴为维度坐标。依次类推，对目标城市范围内所有检测点进行空间属性参数标定。检测点的空间属性即为该点采集到的交通数据流的空间属性。

(3)行为属性参数表示能够反应数据流中每个分析间隔的交通状态信息的矩阵

n表示交通数据流类别，b_ji表示第j类数据流中第i个分析间隔的交通状态信息。以各个时间间隔内交通媒介的流量表征交通状态信息，即b_ji＝Q_ji，Q_ji表示第j类交通数据流在时间间隔i内的车流量。

在步骤12中，基于预设的多项式函数拟合所述各检测点的单类交通数据流，获得拟合结果；所述拟合结果用于表征相同时点下所述各检测点覆盖区域内各类交通数据流是否异常交通的拟合结果。

本实施例中，可以获取预设的多项式函数，利用该预设的多项式函数实时拟合检测点采集到的单类交通数据，通过对比相同时点下的历史变化趋势，判断该检测点覆盖区域是否出现异常流量变化，得到拟合结果。

本实施例中，可以预设一多项式函数。该多多项式函数可以通过以下步骤获取：

对单一检测点采集到的交通数据进行拟合，不涉及空间属性参数的分析，此时交通数据可抽象表示为二元组a＝<B,T>，B是行为属性参数，T是时间属性参数。

对包含N个数据的交通数据流，以行为属性为因变量，时间属性为自变量，基于MATLAB函数进行多项式拟合：p＝polyfit(B,T,n)，B＝[b₁,…,b_i,…,b_N]，T＝[t₁,…,t_i,…,t_N]，n为多项式阶数，p为阶次从高到低的多项式系数向量。

(1)设定精度阈值e(如e＝0.0001，可根据实际需要调整)，基于函数p＝polyfit(B,T,n)，令初始n＝1，对交通数据进行拟合，得到多项式系数向量p。

(2)基于函数B′＝polyval(x,n)，计算误差

b′_i为经多项式拟合后每个时间间隔t_i对应的行为属性值，b_i为每个每个时间间隔t_i对应的实际行为属性值。如果E＞e，令n＝n+1，按步骤(1)再次拟合；否则，转入步骤(3)。这样，基于多项式拟合通过不同的拟合次数，可以达到数据拟合的精度要求。

(3)基于函数p＝poly2str(B,T,n)，将拟合后的多项式系数转换为字符形式的多项式函数。

在步骤13中，在所述拟合结果表征交通数据流未发现异常时，基于预设的数据包络分析模型对所述交通数据流进行融合，获得融合结果；所述融合结果用于表征相同时点下所述检测点覆盖范围内的交通数据流中是否存在由多种交通数据共同构成的集体离群点以及基于所述集体离群点判断出是否异常交通结果。

本实施例中，在拟合结果表征交通数据流未发现异常时，可以获取预设的数据包络分析模型，利用该数据包络分析模型对交通数据流进行融合。通过对比相同时点下融合后的交通数据流的历史变化趋势，检测该检测点覆盖范围内的交通数据中是否存在由多类交通数据共同构成的集体离群点，并据此判断是否出现异常交通状态，即得到融合结果。

在数据分析中，离群点是一种与其它观测值偏离太大的观测值，从而引起人们怀疑它是由不同机制产生的。根据离群点不同特征，可以分为点离群点常、情境离群点和集体离群点。

如果一个数据在其目标特性的度量上与其他数据有显著的差异，则该数据被称为点离群点。情境离群点是指在特定的情境中明显偏离正常模式的数据。如果整个数据集被视为情境或情境属性为空，则点离群点是一种特殊类型的情境离群点。基于它们的检测方法主要侧重于分析单个数据是否呈现出异常特性。集体异常是指一组相关的数据，当它们以某种模式一起出现时，它们的整体行为属性将与整个数据集显著偏差，但集合中的单个数据就其本身而言可能不是异常的。

在本实施例中提出的方法中，首先对于交通检测点采集到的4类交通数据流，其每一条数据流上的变化程度可能在正常范围内，但当多条数据流融合分析后，其累加后的变化程度可能呈现出异常特征，则这些数据流构成集体离群点。其次，单个交通检测点的流量变化可能在正常范围内，但若是由多个交通检测点聚类形成的交通枢纽点变化呈现出异常特征，则该交通枢纽点覆盖范围内的交通检测点共同构成集体离群点。

本实施例中，将4类交通数据流视为4个独立“部门”，以时间窗口T_window对应的每个时间间隔宽度为“部门投入”，以时间间隔内采集的交通流量Q为“部门产出”，根据“相对有效性DEA＝部门产出/部门投入＝交通流量Q/时间窗口T_window＝流量密度”原则构建数据包络分析模型：

输入：

输出：

依据上述数据包络分析模型对所有检测点采集到的4类交通数据流进行融合，即在投入(时间间隔)t_ji、产出(交通流量)b_ji已知情况下，求解表示输入权重的向量v和表示输出权重的向量u，使任意时间间隔内反应各类交通流量的数据点融合形成反应综合交通状况的有效前沿面。

在步骤14中，在所述融合结果表征各检测点采集的交通数据流未发现异常时，基于预设的聚类算法对各交通枢纽点的连续时间间隔进行分析，获取聚类结果；所述聚类结果用于表征所述各交通枢纽点覆盖范围内是否存在由多个检测点共同构成的集体离群点以及基于所述集体离群点判断是否出现异常交通状态。

本实施例中，可以获取预设的包络分析模型，利用该预设的包络分析模型对各类交通数据进行拟合：首先，基于时间窗口T_window的宽度，将连续时间序列划分成连续的等时间间隔；其次，在每一个时间间隔内，将各检测点融合后的三元组信息视为一个数据点，对目标城市范围内所有检测点的交通状态数据，基于“距离-密度-权重”的自适应聚类算法DDWK-medoids进行聚类处理，自适应识别城市交通路网中的交通枢纽点。最后，在连续的时间间隔内，通过对比交通枢纽点的变化，在更加宏观的层面拟合城市交通数据流变化趋势。

参见图2，将连续的时间序列划分成连续的等时间间隔序列，对每个时间间隔内的检测点交通状态数据进行聚类。本实施例中自适应聚类算法DDWK-medoids可以通过以下步骤获取，包括：自适应算法参数取值范围自适应确定、预备簇中心点挑选、初始簇中心点筛选、条件重定位迭代和算法参数对比择优五部分组成。详细过程见图3，包括：

传统K-medoids算法采用肘方法在

范围内依次选择整数点作为期望聚类簇数k，再根据聚类质量确定最佳参数取值。本实施例中提出的DDWK-medoids算法中，首先将参数取值范围等分，再根据模糊理论以等分段的上边界值作为整个区间的代表值并据此设定算法参数。通过大规模缩减取值范围，提高聚类效率。同时，引入循环判断准则对参数区间划分的合理性进行判断，提高算法准确率。具体过程详见规则1和规则2。

规则1：对于包含N个数据的数据集，所有表示期望聚类簇数的k值组成一个集合，该集合由Eq.1计算得到，p为取值范围为p∈[1:10]的正整数。

基于k的取值,每个聚类簇内约包含[n/k]个数据对象。以距离为度量，计算数据集中心点O。选择中心点O至少包含[n/k]个数据对象的半径3为邻域半径，以[n/k]为密度阈值ρ。

在本实施例中算法第(5)步即算法参数对比择优环节，若按照规则1确定的算法参数的聚类结果均不满足度量指标的阈值要求，则按照规则2进行参数二次选择。

在新区间内，根据Eq.2，计算所有期望聚类簇数k的新集合：

基于新的集合，确定邻域半径3与密度阈值ρ，再次进行聚类计算。在算法参数对比择优环节，若聚类质量满足度量指标的阈值要求，算法终止，否则继续按规则2迭代。

(2)预备簇中心挑选

数据集最佳聚类结果应满足簇内对象高度相似且簇间对象最大程度相异的标准，即簇中心点之间的距离应尽可能远，避免集中在较小范围，陷入局部最优。同时，为避免噪声、离群数据的影响，簇中心点应具备相对较高的邻域密度。由此得出推论1：

推论1：对常规数据集进行聚类，其最佳聚类结果应满足各个簇中心点的邻域密度相对较高且不同簇中心点之间距离相对较远。

根据推论1，以“距离-邻域密度”为度量标准选取预备簇中心，并通过删除已形成簇的方式，缩小数据集规模，减少数据间的重复计算，具体步骤如下：

在数据集D₁中，以欧式距离为度量，搜寻距离c₁最远的数据。若该数据的邻域密度满足密度阈值要求，则将其作为第二个预备簇中心；否则，选择距离点c₁次远的点进行邻域密度度量。依此类推，选择满足密度阈值要求且距离c₁足够远的c₂作为第二个预备簇中心。将点c₂邻域半径内的S₂个点聚到一起，形成第二个簇C₂；

将第二个簇C₂从数据集D₁中删除，形成新的数据集D₂，剩余|D₁|-|S₂|个数据。

在数据集D₂中，根据公式Eq.3计算其余点到c₁,c₂的相对距离(Rd)。搜寻Rd最大的数据对象，若该点的邻域密度满足密度阈值要求，则将其作为第三个预备簇中心；否则，选择相对距离次大的点进行邻域密度度量。依此类推，选择满足密度阈值要求且相对距离足够大的c₃作为第三个预备簇中心。将点c₃邻域半径内的S₃个点聚集，形成第三个簇C₃；

Rd_i＝min(dist(α_i,x₁),dist(α_i,x₂) Eq.3

(3)初始簇中心筛选

基于推论1挑选预备簇中心点集的过程，其本质是一种整群抽样方法，将整个数据集归并为若干个互不交叉、互不重复的集合，然后以集合为抽样单位抽取样本。在挑选预备簇中心的过程可能会存在类似抽样研究方法中的相对质量下降问题：随着特征样本的抽取，样本池规模不断缩小，虽然后续特征样本依然满足阈值要求，但由于对比空间缩小，后续选出的特征样本在相对质量上弱于先选出的特征样本。基于此，提出推论2：

推论2：基于“距离—密度”度量的预备簇中心挑选过程中，首个筛选出的中心点质量最好，随着数据集规模逐渐缩小，后续筛选出的中心点质量可能会呈现递减趋势。

为解决该问题，算法第三步初始簇中心筛选环节，引入惯性权重思想，对第二步挑选出的预备簇中心点集进行排查，进一步筛除劣质簇中心，提高算法稳定性。具体步骤如下：

按预备簇中心产生顺序赋予线性递减权重：对先选出的初始簇中心赋予更大的权重，加快局部收敛，控制求解精度与迭代次数；对排序靠后的预备簇中心赋予较小权重，增强全局搜索能力，避免收敛于劣质簇中心形成的局部最优解；

进行一次权重聚类，对迭代后新形成簇的中心点进行邻域密度判断，若存在劣质簇，即新中心点邻域密度不满足要求，转入第(4)步；若不存在劣质簇，转入第(3)步；各簇中心的权重赋予按Eq.4计算，其余数据对象距簇中心点的权重距离度量按Eq.5计算。n_max是预备簇中心点总数，n是当前预备簇中心点产生顺位，w_max＝0.9，w_min＝0.4。

w＝w_max-n·(w_max-w_min)/n_max Eq.4

计算一次权重聚类后新形成簇的中心点，将这些中心点作为初始簇中心，进入DDWK-medoids算法第四步，条件重定位迭代环节；

删除形成劣质簇的原始预备簇中心点，再次对剩余满足要求的原始预备簇中心进行权重迭代，判断是否存在劣质簇：若不存在，转入第(3)步；若出现劣质簇，按第(4)步方式处理，迭代计算，直至筛除全部劣质预备簇中心。

(4)条件重定位迭代

为防止筛选出的初始簇中心点集中仍存在劣质簇中心，在算法的重定位迭代环节设置了聚类质量控制条件。即在每一次簇中心重定位迭代后加入密度度量，标记不满足阈值要求的劣质簇中心。若被标准的劣质簇中心在后续迭代过程中，聚类质量呈下降趋势(簇密度持续下降)，则删除该劣质簇中心，仅对余下满足密度阈值的中心点进行聚类，旨在尽早筛除可能出现的劣质簇中心，避免冗余迭代，加快算法收敛速度与稳定性。具体步骤如下：

基于当前簇中心点集，进行重定位迭代，对新形成的簇进行密度度量；

若所有聚类簇的簇内密度均满足密度阈值要求，清空所有劣质簇标记，继续按第(1)步处理，直至算法收敛或达到最大迭代次数。若出现不满足密度阈值要求的聚类簇，标记其为劣质簇，转入第(3)步；

若该簇第一次被标记，记录当前簇内密度后，继续按第1步处理。若该簇已存在标记，记录当前簇内密度，转入第(4)步；

根据控制精度

若某簇连续低于密度阈值且聚类质量呈下降趋势，删除该簇，转入第(1)步。参数

表示某个簇被允许标记为劣质簇的最大次数。

(5)算法参数对比择优

在算法第五步，算法参数对比择优环节，基于度量指标标准互信息，设置控制阈值NMI_accept,对不同参数对应的聚类结果进行对比，确定最优聚类参数。

互信息度量指标(NMI)：通过比较实际标签的分布和聚类后的分布来评价聚类质量。可接受的聚类结果的NMI指标评价值应该在[0,1]的范围内，取值越大，聚类质量越好。

基于DDWK-medoids聚类算法最终确定的簇中心，即为城市路网中的交通枢纽点，聚类簇的大小，即为该交通枢纽点的覆盖范围。首先，通过对比连续时间间隔内交通枢纽点的变化，可以拟合出包含多个检测点交通信息的交通枢纽点的历史变化趋势。其次，计算所有交通枢纽点的中心点，通过对比连续时间间隔内中心点的变化，可以拟合出包含多个枢纽点交通信息的宏观城市交通数据流的历史变化趋势。

在步骤15中，在所述聚类结果表征单一交通枢纽点未发现异常时，计算各个时间间隔内所有交通枢纽点的中心点，获得计算结果；所述计算结果用于表征相同时点下存在由多个交通枢纽点共同构成的集体离群点，以及基于所述集体离群点判断是否出现异常交通状态。

需要说明的是，上述实施例中描述了步骤11～步骤15按照顺序执行判断异常交通状态的方案。实际应用中，步骤12～步骤15的执行顺序不作限定，如步骤12、步骤13、步骤14和步骤15同步进行，或者根据具体场景调整它们的顺序，所形成的新的方案同样落入本申请的保护范围。

至此，本实施例中可以具有以下优点：第一，通过多数据流融合分析，能够更加准确的反应交通状态。在实际分析中，单一数据流的变化程度可能不足以引起重视，但当多条数据流联合分析时，多种变化程度的叠加可以更早的预测到即将出现交通事故。基于集体离群点检测，不仅可以识别单一检测点上由多数据流共同反应出的集体异常，还可以识别交通枢纽点覆盖范围内由多个检测点共同反应出的集体异常。不仅可以提高预测的准确性，还能预测出处于初期阶段的交通故障，为决策控制争取更多的时间。第二，构建时空模型，对数据流的空间属性、时间属性和行为属性进行关联。首先以城市地理边界作为数据集的范围，根据城市内所有交通监测点的物理位置标定空间属性，基于本实施例附带的DDWK-means聚类算法，通过距离度量划分聚类簇(即识别交通枢纽点的过程)，将空间属性行为属性进行关联。其次，基于窗口技术，将连续的数据流划分为一个个连续的时间窗口，通过对每个时间窗口内的数据进行聚类，将时间属性与行为属性进行关联。基于此模型，数据流的时间属性与空间属性均未直接参与计算，有效的降低了运算复杂度，可明显提高检测效率。第三，本实施例提出方法的第一和第二步属于线下检测过程，既保留了大数据实证分析带来的高精度优势，同时也不影响第三步集体离群点在线检测和交通状况实时预测的效率。

下面结合具体场景描述本发明提供的基于多条时空数据流融合分析的城市交通预测方法的准确性和有效性。

(一)DDWK-medoids算法有效性测试

1.测试数据集

选择数据库UCI(University of California Irvine)中五个标准数据集：Iris，Seeds，Survival，Knowledge Modeling，Perfume进行测试。每个数据集分别用传统K-medoids算法与DDWK-medoids算法处理50次，以轮廓信息，标准互信息为度量指标，对所有聚类结果的质量进行评价，计算50次聚类结果评价的最大值，最小值和均值。两种算法都是在3.60GHz和8GB RAM的Intel i7系统上使用Python3.0实现，所有数据集都经过归一化预处理。数据库UCI链接：http://archive.ics.uci.edu/ml/datasets.php，五个数据集的具体信息如表2所示：

表2

数据集	规模	属性数	实际聚类簇数
				Iris	150	4	3
Seeds	210	7	3
				Survival	306	3	2
Knowledge Modeling	403	5	4
				Perfume	560	2	20

表3

2.测试结果

两种算法的最大迭代次数预先设置为100次。对于本实施例提出的DDWK-medoids算法，设置精度控制参数NMI_accept＝0.55，

表3记录了基于轮廓系数和标准互信息两种度量指标对每个数据集50次聚类结果的评价结果，所有数值保留小数点后三位。

3.结果分析

如表2所示，相较于传统K-medoids算法，本实施例提出的DDWK-medoids算法在轮廓系数和标准互信息两项聚类评价指标上均有明显优势。此外，基于DDWK-medoids算法中构建的参数自适应选择，消除了传统算法中参数选择的随机性，得出的聚类结果唯一，提高了聚类过程的稳定性。基于此，可以证明本实施例提出的DDWK-medoids算法的有效性。

(二)城市交通状况预测实例

本实施例中，以某市2016-2017年历史交通数据为样本，拟合城市交通数据流变化趋势，并基于此对2018年随机抽取的1个月的交通数据进行测试。(注：仅提供一个测试实例，具体应用可根据实际需要，调整城市边界范围)。

城市交通边界由某市区与肥西县、肥东县、长丰县的边界以及绕城高速公路圈定，概要边界如图4所示。在圈定的城市边界内，有6786个数据可用的交通检测点，基于这些检测点采集到的历史交通数据，分四个层级对未知的城市交通状态进行预测。

1.基于单类交通数据的预测

第一层级，基于多项式函数实时拟合检测点采集到的单类交通数据，通过对比相同时点下的历史变化趋势，判断该检测点覆盖区域是否出现异常流量变化。如图5所示，基于历史数据拟合出该检测点某类交通数据流变化的历史趋势，对比实时采集到的交通数据，时刻t₁和t₂对应的交通流量明显超长历史流量最高线，可判定该时刻的交通状态异常。

2.基于多类交通数据的预测

第二层级，若单条交通数据流的检测未发现异常，基于数据包络分析对检测点采集到的多类交通数据进行融合。通过对比相同时点下融合后的交通数据流的历史变化趋势，检测该检测点覆盖范围内的交通数据中是否存在由多类交通数据共同构成的集体离群点，并据此判断是否出现异常交通状态。如图6所示，基于历史数据拟合出该检测点多类交通数据融合后的历史变化趋势，对比实时采集到的交通数据，[t₁:t₂]时间段对应的各类交通流量，虽然各自没有显现出明显异常，但是融合后的变化量明显超过历史流量最高线，因此可判定在时刻的各类交通数据构成集体离群点，即该时刻的交通状态异常。

3.基于交通枢纽点的预测

第三层级，若单一检测点未发现异常，基于DDWK-medoids聚类算法对各个时间间隔内的交通枢纽点进行分析，实时拟合枢纽点的交通状态变化趋势。通过对比相同时点下交通枢纽点的历史变化趋势，检测该交通枢纽点覆盖范围内的交通数据中是否存在由多个检测点共同构成的集体离群点，并据此判断是否出现异常交通状态。

经实验发现，交通枢纽点会根据不同的时点发生变化，主要可分为工作日期间和节假日期间。工作日期间，交通枢纽点有13个，大致分布如图7(a)所示。节假日期间，交通枢纽点有9个，大致分布如图7(b)所示。

如图8所示，基于历史数据拟合出的某个交通枢纽点的变化趋势，在纵坐标上，交通枢纽点往城市中心方向的变化标记为“+”，背离城市中心方向的变化标记为“-”。对比实时采集到的交通数据，该交通枢纽点在[t₁:t₂]时间段和[t₃:t₄]时间段对应的交通流量变化明显超过长历史流量最高线。虽然在该枢纽点覆盖范围内的各个检测点均未显现出显著异常，但其共同构成集体离群点，即该交通枢纽点覆盖范围内的交通状态异常。

4.基于交通枢纽点中心点的预测

第四层，若单一交通枢纽点检测未发现异常，计算出所有交通枢纽点的中心点，实时拟合中心点的变化趋势。通过对比相同时点下中心点位置的历史变化趋势，检测是否存在由多个交通枢纽点共同构成的集体离群点，并据此判断是否出现异常交通状态。

如图9所示，基于历史数据拟合出的中心点位置的变化趋势，在纵坐标上，中心点往城市中心方向的变化标记为“+”，背离城市中心方向的变化标记为“-”。对比实时采集到的中心点位置变化数据，中心点在t1时刻的位置偏移量明显超过历史最高值，即表明存在由多个交通枢纽点共同构成的集体离群点。通过进一步判断中心点位置异常变化的方向，具体识别出现交通状态异常的枢纽点及其覆盖范围。

5.实例预测结果

以某市2016-2017年历史交通数据为样本，拟合交通数据流历史变化趋势，据此对2018年随机抽取的1个月的交通数据进行预测。预测结果如表4所示，对该月的交通数据预测的准确率在90％以上，误报率在5％以下，据此可以证明本发明的有效性，结果如表4所示。

表4

注：标注的实际交通故障指对城市交通流畅性产生显著影响的交通故障，即在城市路网中出现明显的交通能力下降、交通流失效、磁滞现象等状况，并非实际交通事故报警统计。预测准确率是指，对比实际故障标签，预测出的交通故障的正确率。误报率指将正常交通状态误识别为异常状态的概率，误报率＝误报次数/正确预测次数。

在上述基于多条时空数据流融合分析的城市交通预测方法的基础上，本发明实施例还提供了一种基于时空数据流融合分析的城市交通预测系统，参见图10，包括：

数据流获取模块101，用于获取目标城市内各检测点采集的交通数据流；所述交通数据流包括预设分类的多种单类交通数据；

拟合结果获取模块102，用于基于预设的多项式函数拟合所述各检测点的单类交通数据流，获得拟合结果；所述拟合结果用于表征相同时点下所述各检测点覆盖区域内各类交通数据流是否异常交通的拟合结果；

融合结果获取模块103，用于在所述拟合结果表征交通数据流未发现异常时，基于预设的数据包络分析模型对所述交通数据流进行融合，获得融合结果；所述融合结果用于表征相同时点下所述检测点覆盖范围内的交通数据流中是否存在由多种交通数据共同构成的集体离群点以及基于所述集体离群点判断出是否异常交通结果；

聚类结果获取模块104，用于在所述融合结果表征各检测点采集的交通数据流未发现异常时，基于预设的聚类算法对各交通枢纽点的连续时间间隔进行分析，获取聚类结果；所述聚类结果用于表征所述各交通枢纽点覆盖范围内是否存在由多个检测点共同构成的集体离群点以及基于所述集体离群点判断是否出现异常交通状态；

计算结果获取模块105，用于在所述聚类结果表征单一交通枢纽点未发现异常时，计算各个时间间隔内所有交通枢纽点的中心点，获得计算结果；所述计算结果用于表征相同时点下存在由多个交通枢纽点共同构成的集体离群点，以及基于所述集体离群点判断是否出现异常交通状态。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。