CN104951655B

CN104951655B - 一种基于频繁模式树的车辆运动模式挖掘方法

Info

Publication number: CN104951655B
Application number: CN201510310624.8A
Authority: CN
Inventors: 王总辉; 陈文智; 潘俊良; 李川
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-06-08
Filing date: 2015-06-08
Publication date: 2018-06-01
Anticipated expiration: 2035-06-08
Also published as: CN104951655A

Abstract

本发明公开了一种基于频繁模式树的车辆运动模式挖掘方法，包括如下步骤：(1)对待进行模式挖掘的车辆的载客运行轨迹进行轨迹分离得到若干个子运行轨迹；(2)基于欧式距离对所有子运行轨迹进行线段聚类得到若干个聚类；(3)计算任意两个聚类之间的欧式距离，并根据所述的欧式距离确定各个聚类之间的邻近关系；(4)根据各个聚类之间的邻近关系构建得到频繁模式树。本发明的运动模式识别方法无需对运行轨迹进行空间划分，也无需另外对轨迹线段进行编码，更加的简单，并且识别效果好。

Description

一种基于频繁模式树的车辆运动模式挖掘方法

技术领域

本发明涉及智能交通技术领域，具体涉及一种基于频繁模式树的车辆运动模式挖掘方法。

背景技术

时下，“大数据”这个词越来越热，数据挖掘也越来越热门。而在数据挖掘中，非常重要的一步就是模式挖掘。模式挖掘，简而言之，就是从一堆杂而无章的数据中提取出有规律的特征。

在智能交通领域，模式挖掘的一个典型例子就是对车辆的运动轨迹进行挖掘，提取出车辆的频繁运动轨迹。

Lee A J T,Chen Y A,Ip W C等人在“Mining frequent trajectory patternsin spatial–temporal databases”(Information Sciences 179.13(2009):2218-2231)中提出了一个将整个空间分成许多cell，然后将所有轨迹根据其所对应的空间cell转换成节点序列，然后基于这些节点序列进行频繁模式挖掘。

Morzy M也在“Mining frequent trajectories of moving objects forlocation prediction”(Machine Learning and Data Mining in PatternRecognition.Springer Berlin Heidelberg,2007:667-680)中提出了一种将空间分成许多celld的模式挖掘方法。

Leonardi L,Orlando S,Raffaetà A,et al等人在“Frequent spatio-temporalpatterns in trajectory data warehouses”(Proceedings of the 2009 ACM symposiumon Applied Computing.ACM,2009:1433-1440)中也提出了一种将空间分成许多basecell，然后将轨迹线段归并到base cell进行分类挖掘的方法。

以上方法都需要事先对空间进行划分，并且对划分后的子空间进行编码，然后将原来的轨迹数据转换成编码后的数据来进行聚类以及模式挖掘，过程复杂，速度较慢。

发明内容

针对现有技术的不足，本发明提出了一种基于频繁模式树的车辆运动模式挖掘方法，该运动模式挖掘方法不需要进行以上的划分步骤，而是直接通过对轨迹线段进行聚类并创建一颗频繁模式树来记录挖掘到的频繁模式，并且有不错的效果。

一种基于频繁模式树的车辆运动模式挖掘方法，包括如下步骤：

(1)对待进行模式挖掘的车辆的载客运行轨迹进行轨迹分离得到若干个子运行轨迹；

(2)基于距离对所有子运行轨迹进行线段聚类得到若干个聚类；

(3)计算任意两个聚类之间的距离，并根据所述的距离确定各个聚类之间的邻近关系；

(4)根据各个聚类之间的邻近关系构建得到频繁模式树，所述频繁模式树中的根节点用于保存与该根节点相连的子节点的列表，其子节点与线段聚类得到的聚类一一对应；所述频繁模式树中的每一个非根节点包含cluster和support两个属性，cluster属性表示该非根节点对应的类，Support值表示从该非根节点到深度为1的节点的车辆运行轨迹的数量。

根据所有聚类的邻近关系构建频繁模式树时首先根据各个聚类之间的相邻关系，构建用于表示相邻关系的有向连通关系，在连通图中的节点表示聚类，边表示相邻的两个类之间的连接关系，且边上的箭头表示两个类之间的位置关系。

然后根据该有向连通图，生成频繁模式树，来表示我们所得到的频繁运动轨迹。其中，频繁运动轨迹根据各个聚类的邻近关系，将相邻的聚类拼接生成一个运动模式，将该运动模式对应的聚类的代表线段按照相邻关系连接即得到频繁运动轨迹。

需要注意的是，模式树中的每一个深度大于1的节点到其深度为1的父节点的路径都是一条运动模式，而且所有的运动模式在该树中都以这种形式存在。

频繁模式树的根节点只用于保存与该根节点相连的子节点的列表，所有的子节点与线段聚类一一对应。以深度为1的节点为根的子树保存了以该节点对应的线段聚类结尾的所有频繁运动轨迹。

频繁运动轨迹是指车辆通过频率较高的路段轨迹，其反映的是车辆的运动规律和运动习惯，即模式挖掘的结果。它也可以看成是一组历史轨迹的共同子轨迹，但是直接比较历史轨迹去寻找共同子轨迹复杂度太高，因此我们采用从短的共同子轨迹延长到长的共同子轨迹的方法。最短的共同子轨迹即为线段的聚类，其长度为1。长度为2的共同子轨迹可以通过连接两个线段聚类来获得。两个线段聚类连接成长度为2的共同子轨迹的条件是：1)两个类的地理位置相连；2)存在一定数量的历史轨迹依次通过这两个类所在的区域。通过类似的过程可以将长度为N的共同子轨迹延伸成长度为N+1的共同子轨迹，从而挖掘出长的共同子轨迹，这些子轨迹就可以作为下一步预测的基础。所述步骤(2)中通过如下步骤对所有子运行轨迹进行线段聚类：

(2-1)将各个子运行轨迹划分为若干线段；

(2-2)针对当前子运行轨迹对应的任意一条线段l₁，在其他子运行轨迹对应的线段中确定与其距离最近的线段l₂：

若l₁和l₂之间的距离小于预设的线段距离阈值，则将l₁和l₂作为同一聚类；

否则，以l₁单独作为一个聚类；

(2-3)针对任意两个聚类，计算二者之间的距离，若距离小于预设的类距离阈值，则将二者合并为一个聚类；

否则，不处理；

(2-4)返回执行步骤(2-3)直至聚类的数量不变时停止；

(2-5)统计每个聚类中的线段数量，舍弃线段数量小于预设的线段数量阈值的聚类。该线段聚类方法仅利用欧式距离实现，简化了线段聚类过程，大大提高了聚类效率。

针对任意两条线段L_i与线段L_j，二者之间的距离d通过如下公式计算：

d＝d_⊥+d_||+d_θ

且：d_||＝Max(l_||1，l_||2)d_θ＝||L_j||I*sin(θ),

其中，||L_j||为线段L_j的长度，

l_⊥1，l_⊥2分别为过线段L_j的两个端点到线段L_i的长度，

l_||1，l_||2分别为线段L_i的两个端点到距离其最近的垂线的距离，所述的垂线包括过线段L_j的两个端点到线段L_i的两条垂线，

θ为线段L_i与线段L_j的夹角。

通过本发明的方法计算任意两条之间的距离，能够有效提供聚类的准确性，有利于提高了运动模式挖掘结果的准确性。

实际应用时，线段距离阈值、类距离阈值以及线段数量阈值均可根据实际应用需求设定。所述步骤(2-2)中的线段距离阈值为150m～300m。所述步骤(2-3)中的类距离阈值为150m～300m。

任意两个聚类之间的距离通过如下方法计算：

分别确定两个聚类的代表线段，以二者对应的代表线段之间的距离作为二者之间的距离。

针对任意一个聚类通过如下方法确定该聚类的代表线段：

分别计算该聚类中所有线段的起点的位置平均值和终点的位置平均值，分别以起点的位置平均值和终点的位置平均值作为该聚类代表线段的平均值。

本发明中起点和终点按照线段两个端点对应的卫星定位数据的采集时间确定，时序在前的为起点，时序在后的为终点。

所述步骤(3)判断当前两个聚类之间的邻近关系的方法具体如下：

若当前两个聚类之间的距离小于预设的拼接距离阈值，则根据各个线段在其所来源的子运动轨迹中的位置确定二者可拼接的线段的对数，若可拼接的对数大于预设的对数阈值，则认为该两个聚类相邻，否则，不相邻。

本发明中对于属于不同聚类的两个线段：

若该两个线段对应来源的子运行轨迹，且二者在对应的子运行轨迹中的位置连续(即两条线段中时序在前的线段的终点和时序在后的线段的起点相邻，即中间不存在其他点)，则认为该两个线段可拼接。

本发明中线段的时序由线段的起点或终点对应的卫星定位数据的采集时间确定。例如由起点采集时间确定时，起点对应的卫星定位数据的采集时间在前，则认为该线段为时序在前，相反，若起点对应的卫星定位数据的采集时间在后，则认为该线段为时序在后。

本发明中为保证确定各个线段的来源以及确定可拼接的线段，在聚类过程中将各轨迹分离结果划分为若干线段时，可对各个线段添加标记，该标记用于说明该线段的来源(即其所对应的轨迹分离结果)和该线段在对应的轨迹分离结果中的位置。

由于线段来源于连续的轨迹(轨迹分离结果)，线段的来源可先对预处理结果进行编号，以编号表示对应关系。

该线段在对应的预处理结果中的位置可以在划分线段时，将每次划分得到的线段的起始点在预处理结果中的排序编号赋给该线段作为线段编号以表示线段在对应的预处理结果中的位置。

相应的，对于属于不同类的两个线段：

若该两个线段对应相同的轨迹分离结果，且二者在对应的轨迹分离结果中的位置连续(即用于表示线段在对应的轨迹分离结果中的位置的编号连续)，则认为该两个线段可拼接。

拼接距离阈值和对数阈值直接关系到最终模式挖掘结果的准确性，所述的拼接距离阈值为500～1500，优选为1000。所述的对数阈值为3～7，优选为3。

与现有技术相比，本发明具有如下优点：

无需对运行轨迹进行空间划分(即将空间分成cell)，也无需另外对轨迹线段进行编码，更加的简单，并且识别效果好。

附图说明

图1为本实施例的基于频繁模式树的车辆运动模式挖掘方法的流程图；

图2为线性L_i和线段L_j之间的距离示意图；

图3为有向连通图的结构示意图；

图4为频繁模式树的结构示意图。

具体实施方式

下面将结合附图和具体实施例对本发明进行详细描述。

如图1所示，本实施例的基于频繁模式树的车辆运动模式挖掘方法包括如下步骤：

本实施例中车辆的载客运行轨通过如下方法获取：

首先获取车辆在设定时间段内运行的卫星定位数据，卫星定位数据包括该卫星定位数据对应的采集时间，车辆位置以及载客状态；然后根据各个卫星定位数据的载客状态对获取的卫星定位数据进行筛选，并根据筛选结果形成相应的载客运行轨迹。

本实施例的车辆运行轨迹的分离方法，包括如下步骤：

(1-1)确定载客运行轨迹的时间跳跃点和空间跳跃点的位置：

针对任意两个时序相邻的卫星定位数据，若二者对应的采集时间的间隔大于设定的时间阈值(本实施例中为15分钟)，则认为该相邻的两个卫星定位数据之间存在时间跳跃点；

针对任意两个时序相邻的卫星定位数据，若二者对应的租车位置的欧氏距离大于设定的空间阈值(本实施例中为2.5km)则认为该相邻的两个卫星定位数据之间存在空间跳跃点。

(1-2)根据时间跳跃点和空间跳跃点的位置将所述的载客轨迹划分为若干个子运行轨迹：进行划分时具体如下：

(1-21)根据时间跳跃点的位置将对所述的载客轨迹进行划分若干个单次运行轨迹；

(1-22)针对任意一个单次运行轨迹，根据空间跳跃点的位置将各个单次运行轨迹划分为若干个子运行轨迹。

(1-3)根据速度对各个子运行轨迹进行修正，具体如下：

计算子运行轨迹中任意两个时序相邻的卫星定位数据之间车辆的运行速度，若运行速度大于预设的速度阈值(本实施例中为60m/s)，则认为其中时序在后的卫星定位数据异常，并将该异常的卫星定位数据从子运行轨迹中删除；否则，不操作。

(1-4)采用基于高线的Douglas-Peucker算法对各个修正后的子运行轨迹进行简化，以得到所有简化运行轨迹作为轨迹分离结果，针对每个修正后的子运行轨迹简化时具体包括如下步骤：

(a)将修正后的子运行轨迹的两个端点连接成线段；

(b)确定修正后的子运行轨迹上离该线段距离最远的点(卫星定位数据对应的位置点)，计算该距离最远的点到线段的高线距离，并进行如下操作：

若该高线距离小于预设的高线距离阈值(本实施例中为80m)，则舍弃该点(即将该卫星定位数据从修正后的子运行轨迹上删除)，并以舍弃后的修正后的子运行轨迹上作为简化运行轨迹；

否则，保留距离最远的点，并将其与两个端点相连接，得到两条子线段；

(c)针对得到的两条子线段分别执行步骤(b)。

当某个对象长时间在某个位置停留时将连续报告一系列经纬度相同的位置信息，某个对象直线行驶时将报告多个在同一条直线上的点。这些冗余的记录可能是没有意义的或者可以由其它记录通过线性拟合的方式推断出来。轨迹简化的目的就是去掉单次运行轨迹中这些冗余记录，只保留轨迹中的关键点。

轨迹分离的目的是将这样的历史轨迹分割成多个单次运行轨迹。单次运行轨迹是指车辆有目的地从一个地点移动到另一个地点的过程中的运动轨迹。单次运行轨迹是后面挖掘运动模式的基础，因为运动模式反映的是车辆在完成一个单次运行轨迹时的运动习惯和路径选择偏好。轨迹分离通过识别分离点的方式实现，分离点包括时间跳跃点、空间跳跃点、速度异常点、长时间停留点(在预处理时已经处理好)等。轨迹分离的结果越精确，最终进行运动模式挖掘得到的结果也更精确。

本实施例的轨迹分离方法通过基于时间和空间依次对载客轨迹进行划分，且划分结束后进一步通过速度判决能够去除基于时间和空间依次对载客轨迹进行划分后的结果中包含的错误记录(即采集错误的卫星定位数据点)，通过轨迹简化能够有效去除了基于时间和空间依次对载客轨迹进行划分后的结果中包含的错误记录(即采集错误的卫星定位数据点)和冗余记录(即冗余的卫星定位数据点)，进而大大提高了最终轨迹分离结果的精度，为运动模式挖掘提高了良好的基础，有利于提高运动模式挖掘的准确性。

(2)基于欧式距离对所有轨迹分离结果(简化后的子运行轨迹)进行线段聚类得到若干个聚类；

本实施例中聚类对象为经轨迹分离结果(即简化后的子运行轨迹)，聚类方法如下：

(2-1)将各简化后的子运行轨迹拆分为若干线段(相邻两个点形成一个线段，例如：十个点可拆分为9个线段)，并对每一条线段进行标记，标记包括其所属的简化后的子运行轨迹的编号，以及该线段是其所属的简化后的子运行轨迹中的第几条线段。

本实施例中线段是所属的简化后的子运行轨迹中的第几条线段根据该拆分得到的线段的起点在简化运行轨迹中的时序编号确定，为便于实现，可直接以起点在简化运行轨迹中的编号表示该线段是其所属的简化运行轨迹中的第几条线段。

(2-2)针对每一条线段，找到离其最近的线段，并计算出这两条线段之间的距离。

以线段L_i和线段L_j之间的距离为例进行说明，针对任意两条线段Li与线段L_j之间的距离为例进行说明两条线段之间的距离定义：线段L_i与线段L_j之间的距离d通过如下公式计算：

d＝d_⊥+d_||+d_θ

且：d_||＝Max(l_||1，l_||2)，d_θ＝||L_j||*sin(θ)，其中，||L_j||为线段L_j的长度，

l_⊥1，l_⊥2分别为过线段L_j的两个端点到线段L_i的长度，

l_||1，l_||2分别为线段Li的两个端点到距离其最近的垂线的距离，所述的垂线包括过线段L_j的两个端点到线段L_i的两条垂线，

θ为线段L_i与线段L_j的夹角。

下面将结合图2进行说明：

如图2所示，线段L_i与线段L_j，它们的端点分别是s_i、s_i、s_j、e_j，p_s、p_e分别为过s_j、e_j向线段L_j做垂线得到的垂足，l_⊥1，l_⊥2分别是这两条垂线的长度，l_||1，l_||2分别是s_i到p_s和s_j到p_e的距离。θ为过s_j做与线段L_i平行的平行线与线段L_j的夹角，d_θ为过s_j做与线段L_i平行的平行线和l_⊥2线段的交点到e_j的距离。

线段L_i与线段L_j之间的距离d由三部分组成：d_⊥,d_||，d_θ。即d＝d_⊥+d_||+d_θ，其中：

d_||＝Max(l_||1，l_||2)，d_θ＝||L_j||*sin(θ)。

(2-3)若二者之间的距离小于预设的线段距离阈值(本实施例中取150m)则将两条轨迹聚为同一类，并计算出这个类的代表线段(定义如下)，否则，以当前线段单独作为一个小类；

(2-4)计算任意两个小类的距离(聚类之间距离定义如下)，同样，小于预设的类距离阈值(本实施例中取150m)的归为一类，大于则不处理；循环步骤(2-4)直至聚类结果不再改变时停止；

两个聚类间的距离：两个的代表线段之间的距离即为聚类之间的距离。其中，每个类(即聚类)的代表线段通过如下方法获取：

将这个类中的所有线段的起点的位置求平均作为起点，所有线段的终点的位置求平均作为终点的位置，将起点和终点相连所得到的线段即为该聚类代表线段。

对于任何线段，线段的起点和终点按照其两个端点对应的卫星定位数据的采集时间确定，时序在前的为起点，时序在后的为终点。

(2-5)统计每个聚类中的线段数量：当数量小于数量阈值(本实施例中取15)，则舍弃该类；否则，保留，进而得到最终聚类结果。

每一条简化后的子运行轨迹都可以表示成首尾相连的有向线段，线段聚类是指将这些线段进行分类，即将非常相似(线段首尾端点在地理位置上相近)的线段聚集在一起。

线段聚类的目的有两个：1)过滤对象通过频率较低的路段；2)找出经过各个路段的轨迹，为运行模式挖掘做准备。每个线段聚类包含了一组各个属性非常相似的线段(这些属性包括位置、方向和长度)，因此每个聚类内部的线段都可以用一条代表线段来表示。

(3)计算任意两个聚类之间的欧式距离(即距离)，并根据二者之间的欧式距离确定各个聚类之间的邻近关系；

若当前两个聚类之间的距离小于预设的拼接距离阈值(本实施例中取1000)，则根据各个线段在其所来源的简化后的子运动轨迹中的位置确定二者可拼接的线段的对数，若可拼接的对数大于预设的对数阈值(本实施例中为3)，则认为该两个类相邻，否则，不相邻。

本实施例中对于属于不同聚类的两个线段：

若该两个线段对应来源的简化后的子运行轨迹，且二者在对应的简化后的子运行轨迹中的位置连续(即两条线段中时序在前的线段的终点和时序在后的线段的起点相邻)，则认为该两个线段可拼接。

其中，线段的时序由线段的起点或终点对应的卫星定位数据的采集时间确定。例如由起点采集时间确定时，起点对应的卫星定位数据的采集时间在前，则认为该线段为时序在前，相反，若起点对应的卫星定位数据的采集时间在后，则认为该线段为时序在后。

本实施例中任意两个聚类之间的欧式距离为相应的代表线段之间的距离，根据两条线段之间的距离公式计算得到。

(4)根据各个聚类之间的邻近关系构建得到频繁模式树，频繁模式树中：根节点用于保存与该根节点相连的子节点的列表，其子节点与线段聚类得到的聚类一一对应；非根节点包含cluster和support两个属性，cluster属性表示该节点对应的类，Support值表示从该节点到深度为1的节点的车辆运行轨迹的数量。

构建频繁模式树之间，先根据各个聚之间的相邻关系，用连通图来表示聚类(即类)之间的连通关系，然后根据连通图生成频繁模式树。

本实施例的连通图是一个有向图。以图3所示为例，在连通图中的节点为线段聚类，边表示聚类之间的连接关系。存在Ci→Cj的边的条件是Ci代表轨迹的终点与Cj代表轨迹的起点非常接近，其中，i＝1,2,3,4；j＝1,2,3,4。

频繁运动轨迹：根据各个聚类的邻近关系，将相邻的聚类拼接生成一个运动模式，将该运动模式对应的聚类的代表线段按照相邻关系连接即得到频繁运动轨迹。

模式树(即频繁模式树)的根节点只用于保存子节点的列表，其子节点(即深度为1的节点)与线段聚类的聚类结果(即类)对应，以深度为1的节点为根的子树保存了以该节点对应的线段聚类的所有频繁运动轨迹。如图4所示的频繁模式树，该模式树具有9个节点，分别为N0、N1、N2、N3、N4、N5、N6、N7、N8，该9个节点分别对应四个聚类(分别为C1、C2、C3和C4)，可以看出，以N1为根的子树保存了以C1结尾的C4-C2-C1、C2-C1和C3-C1这三条频繁运动轨迹。

模式树的每一个非根节点包含cluster和support两个属性，cluster属性表示节点关联的线段聚类，support属性表示从该节点到深度为1的节点的路径代表的频繁运动轨迹的support值，实际为从该节点到深度为1的节点的车辆单次运行轨迹的数量。例如C4-C2-C1这个频繁运动轨迹的support值就保存在节点N8中，C2-C1的support值保存在N5中等等。

根据定义，support属性表示从该节点到深度为1的节点的路径代表的频繁运动轨迹的support值，所以同理，C1中的30表示C1节点到深度为1(就是它自己)的节点的频繁运动轨迹的support值。

需要注意的是，模式树中的每一个深度大于1的节点到其深度为1的父节点的路径都是一条运动模式，而且所有的运动模式在该树中都以这种形式存在。如图中的C4-C2模式，虽然在N1子树中C2和C4也以父子关系存在，但是它们并不构成一条运动模式。其support在N1子树中也无法计算出来，而是保存在N2子树中。

频繁运动轨迹是指车辆通过频率较高的路段轨迹，其反映的是车辆的运动规律和运动习惯。它也可以看成是一组历史轨迹的共同子轨迹，但是直接比较历史轨迹去寻找共同子轨迹复杂度太高，因此我们采用从短的共同子轨迹延长到长的共同子轨迹的方法。最短的共同子轨迹即为线段的聚类，其长度为1。长度为2的共同子轨迹可以通过连接两个线段聚类来获得。两个线段聚类连接成长度为2的共同子轨迹的条件是：1)两个聚类的地理位置相连；2)存在一定数量的历史轨迹依次通过这两个聚类所在的区域。通过类似的过程可以将长度为N的共同子轨迹延伸成长度为N+1的共同子轨迹，从而挖掘出长的共同子轨迹，这些子轨迹就可以作为下一步预测的基础。

基于本实施例的基于频繁模式树的运动模式挖掘方法可用于进行设定位置处车辆汇聚预测：

在预测之间根据以上基于频繁模式树的运动模式挖掘方法获取待待预测区域中所有车辆对应的频繁模式树，然后进行汇聚预测，且进行预测时已知当前时刻所有车辆的位置。

其中，待预测区域应理解为设定位置所在的地区，通常为一个城市或城市中某一设定区域根据应用需求设定，本实施例中为某市的一个区。

本实施例中设定预测目标为：预测在t时间内，运动到设定位置P点处的车辆的数量。以该预测目标为例进行汇聚预测的过程如下：

(S1)将P点和所给定的车辆的位置点(即当前时刻所有车辆的位置)归并到模式树上，归并方法如下：

找到离P点距离最近的一个聚类，计算P点到该聚类代表线段的距离，若该距离大于预测范围阈值(通常取30～100，本实施中取50)，则预测失败；否则，进行如下操作：

对给定的车辆位置分别找到离其最近的一个聚类，计算车辆位置与该聚类代表线段之间的距离，若大于预测范围阈值，则舍弃该车辆位置点(即通过现有的频繁运动轨迹预测不出该车辆将来的运行轨迹)，否则，通过该车辆位置点向最近的聚类的代表线段作垂线，并以垂足为该车辆的新位置点(即在频繁运动轨迹中的投影位置)。

(S2)根据车辆新位置点与所处聚类代表线段两个端点的位置关系，按照比例计算出该新位置点的时间戳(假设两个端点为A(经度，纬度，时间戳T1)、B(经度，纬度，时间戳T2)，车辆新位置点为N(经度，纬度，时间戳T3)，根据长度比例关系，T3＝T1+(AN/AB)*(T2-T1))。

(S3)根据新位置点的时间戳T3，和t(给定的预测时间)，基于模式树得到该车辆在(T3+t)时刻时，在频繁轨迹中的位置P’

(S4)计算P’到P点的欧几里得距离，若小于阈值(通常取30～80，本发明中取50)，并且(S2)中的车辆新位置点N所在聚类在模式树种的support值大于3，则预测车辆数量加1，否则不加。

通过如上步骤即可预测得到在经过时间t到达设定位置P点处的车辆数量。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于频繁模式树的车辆运动模式挖掘方法，其特征在于，包括如下步骤：

d＝d_⊥+d_||+d_θ

且：d_||＝Max(l_||1，l_||2)，d_θ＝‖L_j‖*sin(θ)，

其中，d_θ＝‖L_j‖*sin(θ)为线段L_j的长度，

l_⊥1，l_⊥2分别为过线段L_j的两个端点到线段L_i的长度，

θ为线段L_i与线段L_j的夹角；

(4)根据各个聚类之间的邻近关系构建得到频繁模式树，所述频繁模式树中的根节点用于保存与该根节点相连的子节点的列表，其子节点与线段聚类得到的聚类一一对应；所述频繁模式树中的每一个非根节点包含cluster和support两个属性，cluster属性表示该非根节点对应的类，Support值表示从该非根节点到深度为1的节点的车辆运行轨迹的数量；

2.如权利要求1所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，所述步骤(2)中通过如下步骤对所有子运行轨迹进行线段聚类：

(2-1)将各个子运行轨迹划分为若干线段；

否则，以l₁单独作为一个聚类；

否则，不处理；

(2-4)返回执行步骤(2-3)直至聚类的数量不变时停止；

(2-5)统计每个聚类中的线段数量，舍弃线段数量小于预设的线段数量阈值的聚类。

3.如权利要求2所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，所述步骤(2-3)中的类距离阈值为150～300m。

4.如权利要求1所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，任意两个聚类之间的距离通过如下方法计算：

5.如权利要求1所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，针对任意一个聚类通过如下方法确定该聚类的代表线段：

6.如权利要求1所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，所述的拼接距离阈值为500～1500。

7.如权利要求1所述的基于频繁模式树的车辆运动模式挖掘方法，其特征在于，所述的对数阈值为3～7。