CN104331466B

CN104331466B - 基于时空邻近搜索的移动轨迹序列模式快速挖掘方法

Info

Publication number: CN104331466B
Application number: CN201410605481.9A
Authority: CN
Inventors: 张海涛; 张波波; 黄慧慧; 霍晓宇; 葛国栋; 姜杰; 胡栋; 沙超
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2018-01-19
Anticipated expiration: 2034-10-31
Also published as: CN104331466A

Abstract

本发明提供一种基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，基于空间转换的数据预处理，首先对原始的移动轨迹数据进行时空划分，并基于移动轨迹数据与时空格的匹配得到对应的时空格序列，然后建立时空格空间中2维几何空间所对应的有向无权图，并基于无权图的顶点与时空格序列的匹配得到对应的时空格序列集合；基于图的深度优先遍历的移动轨迹序列模式挖掘，在深度优先遍历的过程中，采用基于时空邻近搜索的方式进行模式增长，并利用顶点的时空格序列集合的关系运算进行移动轨迹序列模式支持度的计算。与现有方法相比，本发明具有挖掘速度快、效率高的优势。

Description

基于时空邻近搜索的移动轨迹序列模式快速挖掘方法

技术领域

本发明涉及一种基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，属于时空数据挖掘的技术研究领域。

背景技术

随着定位技术与移动通信技术的快速发展，基于位置服务(Location BasedService：LBS)的应用产生了大量具有时空特性的移动轨迹数据。挖掘移动轨迹数据并从中发现隐含、有用的移动轨迹序列模式，对于分析、预测人类或动物的相关行为习惯具有重要的参考价值。例如，在生态学中，分析动物的运动路线，可以帮助更好的理解他们的行为习惯；当一些动物的运动模式突然改变时，有可能预示即将发生某些地质灾难，例如，地震、海啸等。在城市智能交通系统中，从大量车辆、行人的运动轨迹数据中发现频繁的移动轨迹序列模式，可以辅助进行交通规划、交通疏导等。在商业应用领域，从记录人们日常出行行为习惯的运动轨迹数据中，挖掘移动轨迹序列模式并与商业管理系统中客户信息关联，可以实现位置场景感知的商品推荐、目标客户定向广告投送等。

传统的序列模式数据挖掘方法，例如，Apriori All、FP-tree、PrefixSpan、SPADE、Go-SPADE，由于在项集和序列模式的挖掘中没有考虑到移动轨迹数据的时空特性，不能直接应用于移动轨迹序列模式的挖掘。

目前，出现了一些改进传统的序列模式挖掘方法，实现移动轨迹序列模式挖掘的方法，例如：国外学者Tsoukatos和Gunopulos提出的一种基于Aprioi的算法，挖掘周期性出现的空间区域序列的方法；国外学者Hwang等提出的可以挖掘一组运动物体运动模式的方法；国内学者Cao提出的一种通过查找不同对象之间相似移动轨迹，发现频繁的移动轨迹序列模式的方法。但是这些方法都存在的一个共性问题：移动轨迹序列模式挖掘算法的执行效率太低。

分析主要原因有两点：(1)没有考虑到在实际应用中产生的移动轨迹数据具有的时空邻近特性，直接使用所有的频繁项集，生成候选的移动轨迹序列模式，会造成候选的移动轨迹序列模式的数量急剧增加。(2)需要对原始移动轨迹数据的多次扫描，并使用计算复杂的移动轨迹序列模式匹配运算。这两点会大大增加算法执行的系统资源开销。

发明内容

通过在分析上述问题，本发明提出了一种基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，可以高效地从大数量的移动轨迹数据库中挖掘频繁移动轨迹序列模式。

本发明为解决其技术问题采用如下技术方案：

一种基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，包括：

基于空间转换的数据预处理，首先对原始的移动轨迹数据进行时空划分，并基于移动轨迹数据与时空格的匹配得到对应的时空格序列，然后建立时空格空间中2维几何空间所对应的有向无权图，并基于无权图的顶点与时空格序列的匹配得到对应的时空格序列集合；

基于图的深度优先遍历的移动轨迹序列模式挖掘，在深度优先遍历的过程中，采用基于时空邻近搜索的方式进行模式增长，并利用顶点的时空格序列集合的关系运算进行移动轨迹序列模式支持度的计算。

进一步地，基于空间转换预处理移动轨迹数据的具体步骤为：

步骤1)根据移动轨迹数据的时空分布范围，采用时空等间隔的划分的方法，构建时空格空间；

步骤2)根据移动轨迹数据与时空格空间的匹配，得到时空格序列的集合；

步骤3)剔除时空格序列中重复时空格，并根据空间格邻近以及用户指定的时段邻近阈值，对时空格序列集合进行分离；

步骤4)根据设定的转换规则，建立时空格空间中2维几何空间所对应的有向无权图；

步骤5)将有向无权图中所有顶点与时空格序列集合进行匹配，根据顶点与时空格序列的包含关系，得到所有顶点的时空格序列集。

进一步地，基于图的深度优先遍历挖掘频繁的移动轨迹序列模式

步骤6)由顶点的时空格序列集，并根据用户指定的支持度阈值，得到长度为1的频繁顶点序列模式；

步骤7)依次查找频繁顶点序列模式的最后一个顶点的邻近的、频繁的顶点，如果结果为空，循环执行本步骤，直至操作完成所有频繁的顶点序列模式、退出循环；否则，执行步骤8；

步骤8)依次将邻近的、频繁的顶点附加到当前频繁顶点序列模式的最后一个顶点，并根据设定时间跨度阈值得到候选的顶点序列模式集；

步骤9)依次取出候选的顶点序列模式，计算支持度，如果满足阈值，得到新的频繁顶点序列模式，并对该模式从步骤7进行递归操作，否则对下一个候选的顶点序列模式循环执行本步骤，直至操作完成所有候选的顶点序列模式，再返回步骤7，对其他频繁的顶点序列模式进行循环操作；

步骤10)基于步骤6～9的操作结果，得到所有频繁的顶点序列模式。

进一步地，时空格空间的定义为：对于一个包含移动轨迹数据集的离散时空域STD＝{<R²,T>|R²＝{p_i|1≤i≤m},T＝{t_j|1≤j≤n}}，其中，R²表示2维几何空间、p_i表示移动轨迹点的空间位置、T表示1维时间、t_j表示具体的时间点，其对应的时空格空间为：

其中，DR²是基于时空格的2维几何空间，DT是基于时空格的时间域，每个(Cell_<col,row>,period_k)称为一个时空格，Cell_<col,row>表示时空格的几何空间跨度也称空间格，col,row表示时空格在几何空间平面划分中所处的列号、行号，period_k<s,t>表示时空格的时间跨度也称时间段，k是编号，s,t表示时间域划分中起、止时间，period_count、col_count、row_count分别是根据用户指定的时空分辨率而设定的时间划分数、几何空间划分的列数、行数。

进一步地，移动轨迹T_ID＝((p₁,t₁),(p₂,t₂),...,(p_n,t_n)),t₁<t₂...<t_n直接匹配到基于时空格的三维空间STC时空格序列定义为：

其中，ID表示时空格序列的编号。

进一步地，时空格序列定义中，对于任一时空格都满足如下条件：

条件一：也即移动轨迹点的空间位置包含于空间格；

条件二：也即移动轨迹点时间包含于时间段。但是，依据移动轨迹数据的特性，以及后续数据分析的需要，对时空格序列进行如下条件限定：

时空格序列中不能包含相同的时空格，也即对于任意两个时空格

两者都不能相等，也即同时满足以下条件：

空间格相等，也即

时间段相等，也即

条件三：时空格序列中两个连续的时空格所包含的空间格，必须是空间上邻近，也即对于任意两个连续的时空格

必须满足条件：

(0≤|Cellⁱ·col-Cell^j·col|≤1)∧(0≤|Cellⁱ·row-Cell^j·row|≤1)，否则需要将时空格序列在该处进行分离生成两个子时空格序列，分别是：

条件四：时空格序列中两个连续的时空格所包含的时间段，必须是时间上邻近，也即对于任意两个连续的时空格

必须满足如下条件：0≤(period^j·k-periodⁱ·k)≤τ，τ为用户自定义的时间邻近参数，否则同样也需要将时空格序列在该处进行分离。

进一步地，顶点的时空格序列集定义为：对于一个三维空间的有向无权图G＝<V,E>和一个时空格序列集合SE＝(SeSTC₁,SeSTC₂,...,SeSTC_n)，顶点v∈V的时空格序列集定义为：

其中，(SeSTC_i·Cell^j·col＝v·x)∧(SeSTC_i·Cell^j·row＝v·y)表示时空格序列SeSTC_i在时段period_j所处的网格Cell^j的列、行与顶点v的横、纵坐标值相等，也即时空格序列SeSTC_i在时段period_j通过顶点v所对应的空间格；SE_v中记录所有通过顶点v的时空格序列SeSTC_i的编号i以及相应的时间

进一步地，时空格2维几何空间的有向无权图为：对于一个时空格的2维几何空间存储其结构关系的有向无权图为：

其中，V是顶点的集合，E是边的集合；

v是V中的一个顶点，顶点v的x,y对应DR²中空间格Cell_<i,j>的列号i、行号j；e_m,n是连接顶点v_m和顶点v_n的一条边，顶点v_m与顶点v_n不能相同，即m≠n，且他们所对应的空间格要空间相邻，即满足条件(0≤|v_m·x-v_n·x|≤1)∧(0≤|v_m·y-v_n·y|≤1)。

本发明的有益效果是：与现有方法相比，本发明具有挖掘速度快、效率高的优势，具体体现在以下两点技术特点：

(1)采用基于时空邻近搜索的方式进行模式扩展，可以大大减少候选移动轨迹序列模式的搜索范围。

(2)直接利用顶点的时空格序列集合的关系运算，对移动轨迹序列模式支持度的进行计算，可以避免对原始移动轨迹数据的多次扫描以及复杂的移动轨迹序列模式匹配。

附图说明

图1中，(a)是8条移动轨迹在2维地图空间的表达；(b)是8条移动轨迹采用时空立方体模型的表达。

图2是图1中8条移动轨迹所对应的时空格空间，其中，空间格的横坐标(X轴)范围为400～1100m，空间格的纵坐标(Y轴)范围为500～1000m，时间格(T轴)的范围为11～27min。

图3是图1中的移动轨迹T₁和图2中时空格空间进行匹配后，得到的时空格序列SeSTC₁，其中，T₁匹配到X轴的范围值1～7是空间格的列编号，T₁匹配到Y轴的范围值1～5是空间格的行编号，T₁匹配到T轴的范围值1～13是时间格的编号。

图4是根据用户指定的时段邻近阈值，对时空格序列SeSTC₇进行分离，得到的两个时空格序列SeSTC₇和SeSTC₉。

图5是根据空间格邻近性的要求，对时空格序列SeSTC₈进行分离，得到的两个时空格序列SeSTC₈和SeSTC₁₀。

图6是图2中时空格空间中2维几何空间所对应的向无权图。其中，A₁～G₅是顶点的编号。任意两个顶点之间的直接连线，反映顶点对应空间格之间的邻近关系。

图7是所有长度为1频繁顶点序列模式。其中，A₁～G₅是顶点的编号，B₁,B₂,C₂,D₃,E₂,E₃是长度为1频繁顶点序列模式中的顶点。

图8是频繁顶点序列模式B₁中顶点B₁邻近的、频繁的顶点。其中，A₁～G₅是顶点的编号，A₁,A₂,C₁是B₁邻近、不频繁的顶点，B₂,C₂是B₁邻近、频繁的顶点。

图9是长度为2的频繁顶点序列模式其中，A₁～G₅是顶点的编号。

图10是频繁顶点序列模式中顶点B₂邻近的、频繁的顶点。其中，A₁～G₅是顶点的编号，A₁,A₂,A₃,C₁,C₃,B₃是B₂邻近、不频繁的顶点，C₂是B₂邻近、频繁的顶点。

图11是长度为1～3的所有的频繁顶点序列模式。其中，A₁～G₅是顶点的编号。

图12中，(a)是长度为1的频繁的顶点序列模式在时空格空间的2维几何空间的图形表达；(b)是长度为2的频繁的顶点序列模式在时空格空间的2维几何空间的图形表达；(c)是长度为3的频繁的顶点序列模式在时空格空间的2维几何空间的图形表达。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

首先，给出几个基本定义：

定义1移动轨迹:记录用户的连续运动的位置的有序列表，定义为T_ID＝((p₁,t₁),(p₂,t₂),...,(p_n,t_n)),t₁<t₂...<t_n，其中ID表示移动轨迹的序列号，(p_i,t_i),1≤i≤n表示一个移动轨迹点，p_i＝(x,y)表示用户在t_i时刻所处的空间位置，x,y表示空间位置的横纵坐标值。

定义2时空格空间:对于一个包含移动轨迹数据集的离散时空域STD＝{<R²,T>|R²＝{p_i|1≤i≤m},T＝{t_j|1≤j≤n}}，其中，R²表示2维几何空间、p_i表示移动轨迹点的空间位置、T表示1维时间、t_j表示具体的时间点，其对应的时空格空间为：

通常在实际使用中采用等间隔的划分方法，也即满足以下条件：

(一)时间等间隔划分，也即：

period₁·s＝t₁，第一个时间段的起始时间为STD中最早移动轨迹点的产生时间。

表示一个时间段的时间跨度。

period_k·t＝period_k·s+Δt,1≤k≤period_count，是一个时间段的起、止时间的计算关系。

period_k·s＝period_k-1·t,1＜k≤period_count，是一个时间段与前一时间段的起、止时间的计算关系。

(二)空间范围等间隔划分，也即：

Cell_<1,1>·LB·x＝Min(p_i·x),Cell_<1,1>·LB·y＝Min(p_i·y)，Cell_<1,1>·LB·x表示起始空间格左下角的横坐标值，Cell_<1,1>·LB·y表示起始空间格左下角的纵坐标值。

分别表示时空格在空间范围上的横纵跨度。

Cell_<col,row>·RT·x＝Cell_<col,row>·LB·x+Δx，

Cell_<col,row>·RT·y＝Cell_<col,row>·LB·y+Δy,

1≤col≤col_count,1≤row≤row_count，是空间格的左下角坐标与右上角坐标关系。

Cell_<col+1,row>·LB·x＝Cell_<col,row>·RT·x，

Cell_<col+1,row>·LB·y＝Cell_<col,row>·LB·y,

1≤col＜col_count,1≤row＜row_count是空间格与其左方的空间格的坐标关系。

Cell_<col,row+1>·LB·x＝Cell_<col,row>·LB·x，

Cell_<col,row+1>·LB·y＝Cell_<col,row>·RT·y,

1≤col＜col_count,1≤row＜row_count是空间格与其下方的空间格的坐标关系。

Cell_{<col+1,row+1>}·LB·x＝Cell_<col,row>·RT·x，

Cell_<col,row+1>·LB·y＝Cell_<col,row>·RT·y,

1≤col＜col_count,1≤row＜row_count是空间格与其左下方的空间格的坐标关系。

定义3时空格序列：

对于一条移动轨迹T_ID＝((p₁,t₁),(p₂,t₂),...,(p_n,t_n)),t₁<t₂...<t_n和一个基于时空格的三维空间

T_ID直接匹配到STC时空格序列定义为：

其中，ID表示时空格序列的编号，对于任一时空格都满足如下条件：

(一)也即移动轨迹点的空间位置包含于空间格。

(二)也即移动轨迹点时间包含于时间段。但是，依据移动轨迹数据的特性，以及后续数据分析的需要，对时空格序列进行如下条件限定：

两者都不能相等，也即同时满足以下条件：

空间格相等，也即

时间段相等，也即

(三)时空格序列中两个连续的时空格所包含的空间格，必须是空间上邻近，也即对于任意两个连续的时空格

必须满足条件：

(四)时空格序列中两个连续的时空格所包含的时间段，必须是时间上邻近，也即对于任意两个连续的时空格

定义4时空格2维几何空间的有向无权图：对于一个时空格的2维几何空间

存储其结构关系的有向无权图为：

其中，V是顶点的集合，E是边的集合；

定义5顶点的时空格序列集：对于一个三维空间的有向无权图G＝<V,E>和一个时空格序列集合SE＝(SeSTC₁,SeSTC₂,...,SeSTC_n)，顶点v∈V的时空格序列集定义为：

其中，(SeSTC_i·Cell^j·col＝v·x)∧(SeSTC_i·Cell^j·row＝v·y)表示时空格序列SeSTC_i在时段period_j所处的网格Cell^j的列、行与顶点v的横、纵坐标值相等，也即时空格序列SeSTC_i在时段period_j通过顶点v所对应的空间格。SE_v中记录所有通过顶点v的时空格序列SeSTC_i的编号i以及相应的时间

同样，记有向无权图G＝<V,E>中所有顶点的时空格序列集的集合为SSE＝{SE_v|v∈V}。

定义6基于有向无权图的顶点序列模式：对于有向无权图G＝<V,E>，基于G描述的序列模式其中v_i∈V,1≤i≤m，m表示序列模式P的长度，且对于任意两个顶点v_j,v_j+₁,1≤j＜m，其对应的时空格是空间相邻的，也即(0≤|v_j+1·x-v_j·x|≤1)∧(0≤|v_j+1·y-v_j·y|≤1)，a_k,1≤k≤m-1，表示先后通过顶点v_k,v_k+1的时间段的差值。

定义7时空格序列包含顶点序列模式：对于一个有向无权图G＝<V,E>所有顶点的时空格序列集SSE＝{SE_v|v∈V}，一个序列模式如果在SSE的一个子集中，存在满足如下条件的一个时空格序列SeSTC：

也即具有相同的序列编号。

也即通过邻近顶点的时间差值与序列模式中定义的时间跨度相同。

则称SeSTC包含序列模式P，记为

定义8频繁的顶点序列模式：对于一个序列模式P，一个时空格序列集合SE＝(SeSTC₁,SeSTC₂,...,SeSTC_n)和一个有向无权图G＝<V,E>所有顶点的时空格序列集SSE＝{SE_v|v∈V}，SSE对P的支持度定义为：

其中，表示SSE中包含序列模式P的时空格序列的个数，|SE|表示所有时空格序列的个数。如果φ是用户指定的支持度阈值，则称P为在SSE中频繁的顶点序列模式，简称频繁顶点序列模式。

第一阶段：基于空间转换预处理移动轨迹数据

步骤1)根据移动轨迹数据的时空分布范围，采用时空等间隔的划分的方法，构建时空格空间。

本实例中，共包括8条移动轨迹，具体数据信息为：

8条移动轨迹在2维地图空间的表达如图1所示，其时空立方体模型的表达如图2所示。

8条移动轨迹数据中最早移动轨迹点的产生时间是11：05(精确到s)，最晚移动轨迹点的产生时间是26:25，时间范围的跨度是15:20，以1分钟作为1个时间格，根据时间分辨率把时间划分为16个时间格，即把11：00作为起点，11：00～12：00作为时间格1，12：00～13：00作为时间格2，…，26：00～27:00作为时间格16。

8条移动轨迹数据中横坐标的最小值是410(精确到m)，最大值是1020，横坐标范围的跨度是610，以100m作为1个划分，把横坐标范围分为7个划分，即400作为起点，400～500为划分1，500～600为划分2，…，1000～1100为划分7。8条移动轨迹数据中纵坐标的最小值是510，最大值是980，纵坐标范围的跨度是470，同样，以100m作为1个划分，把纵坐标范围分为5个划分，即500作为起点，500～600为划分1，600～700为划分2，…900～1000为划分5。

最终，构建的8条移动轨迹所对应的时空格空间如图2所示。

步骤2)根据移动轨迹数据与时空格空间的匹配，得到时空格序列的集合。

本实例中，按照定义3中的直接匹配策略，将图1中8条移动轨迹数据与图2中时空格空间进行匹配。

以T₁为例，给出一条移动轨迹通过匹配得到一条时空格序列的过程。T₁中第一个移动轨迹点＜(410,520),11:15＞的空间位置为(410,520)，空间格(1,1)的左下角坐标为(400,500)、右上角坐标为(500,600)。因此，空间位置(410,520)与空间格(1,1)存在包含关系，即满足关系(400≤410≤500)∧(500≤520≤600)。移动轨迹点＜(410,520),11:15＞的时间点11:15，时间格1的起点11:00、终点12:00，因此，时间点11:15，时间格1存在包含关系，也即满足关系(11:00≤11:15≤12:00)。因此，移动轨迹点＜(410,520),11:15＞匹配的时空格为((1,1),1)。以此类推，可以得到移动轨迹T₁的其他移动轨迹点相匹配的时空格，最终得到移动轨迹T₁匹配的时空格序列为：

具体的匹配过程如图3所示。

同理，可以匹配得到其他移动轨迹的时空格序列，具体信息如下：

SeSTC₄＝(((1,2),2),((2,2),5),((3,2),7),((4,3),8),((5,2),10),((5,2)，10))，

SeSTC₇＝(((2,1),3),((2,2),4),((3,2),8),((4,3),9),((5,3),11))

SeSTC₈＝(((2,1),2),((2,2),5),((3,2),8),((5,2),10),((5,1),11)，((6,2),13))

步骤3)剔除时空格序列中重复时空格，并根据空间格邻近以及用户指定的时段邻近阈值，对时空格序列集合进行分离。

本实例中，时空格序列SeSTC₂包含两个相同的时空格((4,3),5)，时空格序列SeSTC₄包含两个相同的时空格((5,2),10)，均需要剔除掉一个，也即：

SeSTC₂＝(((2,1),1),((2,2),2),((3,2),4),((4,3),5),((5,3),7),((6,4),9),((7,5),12))SeSTC₄＝(((1,2),2),((2,2),5),((3,2),7),((4,3),8),((5,2),10))。

设定的时间邻近度的阈值为3，而时空格序列SeSTC₇中两个连续时空格((2,2),4),((3,2),8)的时间跨度为4，因此需要将该序列进行分离，产生两个时空格序列分别为SeSTC₇＝(((2,1),3),((2,2),4))，SeSTC₉＝(((3,2),8),((4,3),9),((5,3),11))，具体的分离过程如图4所示。

定义3中对时空格序列中连续时空格，设定了空间邻近的限定。时空格序列SeSTC₈中两个连续时空格((3,2),8),((5,2),10)的空间格的行号跨度为2，也即不满足空间邻近的条件，也需要将该序列进行分离，产生两个时空格序列分别为SeSTC₈＝(((2,1),2),((2,2),5),((3,2),8))，SeSTC₁₀＝(((5,2),10),((5,1),11)，((6,2),13))，具体的分离过程如图5所示。

其他时空格序列保持不变，也即最终得到10条时空格序列，具体信息如下：

SeSTC₄＝(((1,2),2),((2,2),5),((3,2),7),((4,3),8),((5,2),10))，

SeSTC₇＝(((2,1),3),((2,2),4))，

SeSTC₈＝(((2,1),2),((2,2),5),((3,2),8))，

SeSTC₉＝(((3,2),8),((4,3),9),((5,3),11))，

SeSTC₁₀＝(((5,2),10),((5,1),11)，((6,2),13))。

最终，得到时空格序列集合SE＝(SeSTC₁,SeSTC₂,...,SeSTC₁₀)。

步骤4)根据设定的转换规则，建立时空格空间中2维几何空间所对应的有向无权图。

本实例中，按照定义4的转换规则，得到存储表达图2中时空格空间中2维几何空间的有向无权图G＝<V,E>，结果如图6所示。其中，A₁～F₇是V中顶点的编号，V中所有顶点的完整信息为：

对于其中任意一个顶点，在图2的时空格空间中都有一个空间格与之对应，例如，顶点D₄(4，4)与之对应的空间格为(4，4)。图6中任意一条边，也即G中两个顶点之间的直接连线，反映顶点对应空间格之间的邻近关系，例如，对于边(B₄,C₃)，反映顶点B₄(2，4)和顶点C₃(3，3)所对应的空间格(2，4)和空间格(3，3)邻近关系。

步骤5)将有向无权图中所有顶点与时空格序列集合进行匹配，根据顶点与时空格序列的包含关系，得到所有顶点的时空格序列集合。

本实例中，将图6中所有顶点与从步骤3中得到的时空格序列SeSTC₁～SeSTC₁₀进行匹配。根据定义的匹配规则可以得到V中所有顶点的时空格序列集。以顶点A₁(1，1)为例说明：逐一扫描时空格序列SeSTC₁～SeSTC₁₀，发现只有时空格序列SeSTC₁和时空格序列SeSTC₁中时空格包含的空间格具有(1,1)坐标，因此顶点A₁(1，1)的时空格序列集为其中，(1,1)表示时空格序列SeSTC₁在时间格为1时经过空间格(1,1)，(5,4)表示时空格序列SeSTC₅在时间格为4时经过空间格(1,1)。同理可以的其他顶点对应的时空格序列集合，其中不为空集的顶点的时空格序列集合信息如下：

最终，图6中所有顶点的时空格序列集合

第二阶段：基于图的深度优先遍历挖掘频繁的移动轨迹序列模式

步骤6)由顶点的时空格序列集，并根据用户指定的支持度阈值，得到长度为1的频繁顶点序列模式。

本实例中，按照定义6，步骤5得到的SSE中的每个顶点都可以看做一个长度1的顶点序列模式。按照定义7、8，其支持度为对应时空格序列集合的大小与所有时空格序列个数的比值，例如：对于顶点A₁(1，1)，其时空格序列集合为其对应序列模式的支持度为：其中，SE＝(SeSTC₁,SeSTC₂,...,SeSTC₁₀)，因此，同理，可以得到其他顶点对应序列模式支持度，分别为：

设定的支持度阈值为35％，长度为1的频繁顶点序列模式分别为B₁,B₂,C₂,D₃,E₂,E₃，如图7所示。

步骤7)依次查找频繁顶点序列模式的最后一个顶点的邻近的、频繁的顶点，如果结果为空，循环执行本步骤，直至操作完成所有频繁的顶点序列模式、退出循环；否则，执行步骤8。

本实例中，从步骤6中，得到长度为1的频繁顶点序列模式分别为B₁,B₂,C₂,D₃,E₂,E₃。先查找B₁邻近的、频繁的顶点：从图6中的有向无权图可以看出，A₁,A₂,B₂,C₁,C₂都是B₁的邻近顶点，但由于A₁,A₂,C₁都不是频繁的，因此，B₁邻近的、频繁的顶点只有顶点B₂,C₂，如图8所示。查找结果不为空集，执行步骤8。

步骤8)依次将邻近的、频繁的顶点附加到当前频繁顶点序列模式的最后一个顶点，并根据设定时间跨度阈值得到候选的顶点序列模式集。

本实例中，当前分析的频繁顶点序列模式为B₁，其最后一个顶点也是B₁，B₁邻近的、频繁的顶点包括顶点B₂,C₂。将B₂附加到频繁顶点序列模式为B₁后得到的候选顶点序列模式，并根据设定的时间跨度阈值3，得到3个候选顶点序列模式：同样，将C₂附加到频繁顶点序列模式为B₁后，也可以得到3个候选顶点序列模式：

步骤9)依次取出候选的顶点序列模式，计算支持度，如果满足阈值，得到新的频繁顶点序列模式，并对该模式从步骤7进行递归操作，否则对下一个候选的顶点序列模式循环执行本步骤，直至操作完成所有候选的顶点序列模式，再返回步骤7，对其他频繁的顶点序列模式进行循环操作。

本实例中，首先对候选顶点序列模式进行支持度计算。对顶点B₁和B₂的时空格序列集合和进行分析发现，先后通过顶点B₁和B₂的序列为：

且对应的时间差分别为1，1，3，1，1，3。

因此，对候选顶点序列模式支持的序列分别是SeSTC₁、SeSTC₂、SeSTC₅、SeSTC₇，也即因此，的支持度为：大于设定的支持度阈值35％，为频繁的顶点序列模式，结果如图9所示。

执行步骤7，对频繁的顶点序列模式进行操作，查找的最后一个顶点B₂的邻近的、频繁的顶点，结果只有C₂，如图10所示。

执行步骤8，将C₂附加到后，并根据设定的时间跨度阈值3，得到3个候选顶点序列模式：

执行步骤9，首先对候选顶点序列模式进行支持度计算，其支持度为0，小于支持度阈值，不为频繁的顶点序列模式。

再对候选顶点序列模式进行支持度计算，其支持度为30％，也小于设定的支持度阈值，也不为频繁的顶点序列模式。

最后对候选顶点序列模式进行支持度计算，其支持度为0％，也小于设定的支持度阈值，即也不为频繁的顶点序列模式。

回退1：

对候选顶点序列模式遍历完成后，执行过程回退，对候选顶点序列模式进行是否为频繁序列模式的判断：的支持度0，小于支持度阈值，即不为频繁的顶点序列模式。

再对候选顶点序列模式进行是否为频繁序列模式的判断：支持度20％，小于支持度阈值，即也不为频繁的顶点序列模式。

回退2：

对候选顶点序列模式遍历完成后，执行过程再次回退，对C₂附加到频繁顶点序列模式为B₁后，得到3个候选顶点序列模式：进行操作。

同样，先对候选顶点序列模式进行支持度计算，其支持度为0，不为频繁的顶点序列模式。

再对候选顶点序列模式进行支持度计算，其支持度也为0，也不为频繁的顶点序列模式。

最后对候选顶点序列模式进行支持度计算，其支持度30％，小于支持度阈值35％，即也不为频繁的顶点序列模式。

回退3：

对候选顶点序列模式遍历完成后，执行过程再次回退，返回步骤7再先后对长度为1的频繁顶点序列模式分别为B₂,C₂,D₃,E₂,E₃，执行与上述过程类似的深度遍历操作。

通过对B₂的深度遍历操作，先后可以得到长度为2的频繁的顶点序列模式长度为3的频繁的顶点序列模式通过对C₂的深度遍历操作，可以得到长度为2的频繁的顶点序列模式长度为3的频繁的顶点序列模式通过对D₃的深度遍历操作，可以得到长度为2的频繁的顶点序列模式通过对E₂的深度遍历操作，没有得到长度大于等于2的频繁的顶点序列模式。结果如图11所示。

本实例中，基于步骤6～9，得到所有的频繁的顶点序列模式：

长度为1的频繁的顶点序列模式为B₁,B₂,C₂,D₃,E₂,E₃，其支持度分别为其在时空格空间的2维几何空间的图形表达如图12(a)所示。

长度为2的频繁的顶点序列模式为其支持度分别为其在时空格空间的2维几何空间的图形表达如图12(b)所示。

长度为3的频繁的顶点序列模式为其支持度为其在时空格空间的2维几何空间的图形表达如图12(c)所示。

Claims

1.一种基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，包括：

基于空间转换的数据预处理，首先对原始的移动轨迹数据进行时空划分，并基于移动轨迹数据与时空格的匹配得到对应的时空格序列，然后建立时空格空间中2维几何空间所对应的有向无权图，并基于无权图的顶点与时空格序列的匹配得到对应的时空格序列集合；其中，时空格空间的定义为：对于一个包含移动轨迹数据集的离散时空域STD＝{<R²,T>|R²＝{p_i|1≤i≤m},T＝{t_j|1≤j≤n}}，其中，R²表示2维几何空间、p_i表示移动轨迹点的空间位置、T表示1维时间、t_j表示具体的时间点，其对应的时空格空间为：

<mrow> <mi>S</mi> <mi>T</mi> <mi>C</mi> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <mo><</mo> <msup> <mi>DR</mi> <mn>2</mn> </msup> <mo>,</mo> <mi>D</mi> <mi>T</mi> <mo>></mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mfenced open = "|" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>DR</mi> <mn>2</mn> </msup> <mo>=</mo> <mo>{</mo> <msub> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> </msub> <mo>|</mo> <mn>1</mn> <mo>&le;</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>&le;</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>&le;</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>}</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>D</mi> <mi>T</mi> <mo>=</mo> <mo>{</mo> <msub> <mi>period</mi> <mi>k</mi> </msub> <mo><</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>></mo> <mo>|</mo> <mn>1</mn> <mo>&le;</mo> <mi>k</mi> <mo>&le;</mo> <mi>p</mi> <mi>e</mi> <mi>r</mi> <mi>i</mi> <mi>o</mi> <mi>d</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>}</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中，DR²是基于时空格的2维几何空间，DT是基于时空格的时间域，每个(Cell_<col,row>,period_k)称为一个时空格，Cell_<col,row>表示时空格的几何空间跨度也称空间格，col,row表示时空格在几何空间平面划分中所处的列号、行号，period_k<s,t>表示时空格的时间跨度也称时间段，k是编号，s,t表示时间域划分中起、止时间，period_count、col_count、row_count分别是根据用户指定的时空分辨率而设定的时间划分数、几何空间划分的列数、行数；

2.如权利要求1所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，基于空间转换预处理移动轨迹数据的具体步骤为：

3.如权利要求2所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，基于图的深度优先遍历挖掘频繁的移动轨迹序列模式

4.如权利要求1所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，移动轨迹T_ID＝((p₁,t₁),(p₂,t₂),...,(p_n,t_n)),t₁<t₂...<t_n直接匹配到基于时空格的三维空间STC时空格序列定义为：

<mrow> <msub> <mi>SeSTC</mi> <mrow> <mi>I</mi> <mi>D</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mrow> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mn>1</mn> </msubsup> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mn>2</mn> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mn>2</mn> </msubsup> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mi>n</mi> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mi>n</mi> </msubsup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow>

其中，ID表示时空格序列的编号。

5.如权利要求4所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，时空格序列定义中，对于任一时空格都满足如下条件：

条件一：也即移动轨迹点的空间位置包含于空间格；

条件二：也即移动轨迹点时间包含于时间段，但是，依据移动轨迹数据的特性，以及后续数据分析的需要，对时空格序列进行如下条件限定：

两者都不能相等，也即同时满足以下条件：

空间格相等，也即

时间段相等，也即

必须满足条件：

(0≤|Cellⁱ·col-Cell^j·col|≤1)∧(0≤|Cellⁱ·row-Cell^j·row|≤1)，否则需要将时空格序列在两个连续的时空格之间进行分离生成两个子时空格序列，分别是：

<mrow> <msub> <mi>SeSTC</mi> <mrow> <mi>I</mi> <mi>D</mi> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mn>1</mn> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mn>1</mn> </msubsup> <mo>)</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mn>2</mn> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mo>)</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>...</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mi>i</mi> </msubsup> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <msub> <mi>SeSTC</mi> <mrow> <mi>I</mi> <mi>D</mi> <mn>2</mn> </mrow> </msub> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mi>j</mi> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mi>j</mi> </msubsup> <mo>)</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mrow> <mi>j</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mo>)</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>...</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msubsup> <mi>Cell</mi> <mrow> <mo><</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>,</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>></mo> </mrow> <mi>n</mi> </msubsup> <mo>,</mo> <msubsup> <mi>period</mi> <mi>k</mi> <mi>n</mi> </msubsup> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

必须满足如下条件：0≤(period^j·k-periodⁱ·k)≤τ，τ为用户自定义的时间邻近参数，否则同样也需要将时空格序列在两个连续的时空格之间进行分离。

6.如权利要求5所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，顶点的时空格序列集定义为：对于一个三维空间的有向无权图G＝<V,E>和一个时空格序列集合SE＝(SeSTC₁,SeSTC₂,...,SeSTC_n)，顶点v∈V的时空格序列集定义为：

7.如权利要求6所述的基于时空邻近搜索的移动轨迹序列模式快速挖掘方法，其特征在于，时空格2维几何空间的有向无权图为：对于一个时空格的2维几何空间

存储其结构关系的有向无权图为：

<mrow> <mi>G</mi> <mo>=</mo> <mrow> <mo>{</mo> <mrow> <mo><</mo> <mi>V</mi> <mo>,</mo> <mi>E</mi> <mo>></mo> <mfenced open = "|" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>V</mi> <mo>=</mo> <mo>{</mo> <mi>v</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>|</mo> <mrow> <mo>|</mo> <mn>1</mn> <mo>&le;</mo> <mi>x</mi> <mo>&le;</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <mi>y</mi> <mo>&le;</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> </mrow> <mo>}</mo> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>E</mi> <mo>=</mo> <mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>e</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>e</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>v</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>m</mi> <mo>&le;</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>&times;</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>&le;</mo> <mi>n</mi> <mo>&le;</mo> <mi>c</mi> <mi>o</mi> <mi>l</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>&times;</mo> <mi>r</mi> <mi>o</mi> <mi>w</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>m</mi> <mo>&NotEqual;</mo> <mi>n</mi> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mo>|</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>&CenterDot;</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>n</mi> </msub> <mo>&CenterDot;</mo> <mi>x</mi> <mo>|</mo> <mo>&le;</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mo>|</mo> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>&CenterDot;</mo> <mi>y</mi> <mo>-</mo> <msub> <mi>v</mi> <mi>n</mi> </msub> <mo>&CenterDot;</mo> <mi>y</mi> <mo>|</mo> <mo>&le;</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow> <mo>}</mo> </mrow> </mrow>

其中，V是顶点的集合，E是边的集合；v是V中的一个顶点，顶点v的x,y对应DR²中空间格Cell_<i,j>的列号i、行号j；e_m,n是连接顶点v_m和顶点v_n的一条边，顶点v_m与顶点v_n不能相同，即m≠n，且他们所对应的空间格要空间相邻，即满足条件(0≤|v_m·x-v_n·x|≤1)∧(0≤|v_m·y-v_n·y|≤1)。