CN105678246A

CN105678246A - 一种基于基站标号轨迹的运动模式挖掘方法

Info

Publication number: CN105678246A
Application number: CN201511027208.3A
Authority: CN
Inventors: 吕明琪
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Hangzhou smart strategy Technology Co., Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-06-15
Anticipated expiration: 2035-12-31
Also published as: CN105678246B

Abstract

一种基于基站标号轨迹的运动模式挖掘方法，包括如下步骤：(1)历史基站标号轨迹数据集构建：对用户智能手机当前所连接基站的标号进行连续采集，形成历史基站标号轨迹数据集；(2)基站间相似度计算：基于历史基站标号轨迹数据集分析基站间的切换模式，在此基础上估计基站间的相似度；(3)运动模式挖掘：将基站间相似度融入基于前缀扩展的序列模式挖掘算法，从历史基站标号轨迹数据集中挖掘出运动模式。本发明提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。

Description

一种基于基站标号轨迹的运动模式挖掘方法

技术领域

本发明涉及移动计算和数据挖掘技术，具体涉及一种基于基站标号轨迹的运动模式挖掘方法。

背景技术

运动模式挖掘即从运动物体(如车辆、行人)的历史运动轨迹数据中挖掘出运动规律。目前的运动模式挖掘方法大多要求历史运动轨迹数据包含明确的位置信息。例如文献1(H.Cao、N.Mamoulis、D.W.Cheung，Discoveryofperiodicpatternsinspatiotemporalsequences，IEEETransactionsonKnowledgeandDataEngineering，19(2007):453-467；即H.Cao、N.Mamoulis、D.W.Cheung，挖掘时空序列数据中的周期模式，IEEE知识与数据工程汇刊，19(2007):453-467)中将历史位置轨迹数据抽象为线段聚类序列，然后从线段聚类序列中挖掘运动模式，文献2(L.Chen、M.Lv、Q.Ye等人，Apersonalroutepredictionsystembasedontrajectorydatamining，InformationSciences，181(2011):1264-1284；即L.Chen、M.Lv、Q.Ye等人，一种基于轨迹数据挖掘的个人路径预测系统，信息科学，181(2011):1264-1284)中基于空间划分将历史位置轨迹数据抽象为网格序列，然后从网格序列中挖掘运动模式。然而，智能手机的定位方式具有很大的局限性，阻碍了这些方法在智能手机上的应用：

(1)智能手机可通过GPS设备进行定位，其局限性在于：GPS定位能耗过大，持续使用GPS设备将会快速消耗智能手机的电池容量。

(2)智能手机可通过无线信号源(如基站、WiFi)进行定位，其局限性在于：需要频繁的通过网络查询无线信号源的实际位置(由于只有特定的运营商才拥有这些信息)，持续使用无线信号源定位将会极大的增加网络流量。

针对这些问题，目前出现了少量基于基站标号轨迹数据进行运动模式挖掘的工作。例如，文献3(G.D.Katsaros、Ulusoy等人，Adataminingapproachforlocationpredictioninmobileenvironments，Data&KnowledgeEngineering54(2005):121-146；即G.D.Katsaros、Ulusoy等人，移动环境下一种面向位置预测的数据挖掘方法，数据与知识工程，54(2005):121-146)中提出了一种基于基站切换图的运动模式挖掘算法，文献4(M.Bayir、M.Demirbas、N.Eagle，Mobilityprofiler:Aframeworkfordiscoveringmobilityprofilesofcellphoneusers，PervasiveandMobileComputing，6(2010):435-454；即M.Bayir、M.Demirbas、N.Eagle，运动画像：一种面向移动用户的运动规律挖掘框架，普适与移动计算，6(2010):435-454)中提出了一种基于基站振荡图的运动模式挖掘算法。然而，这些工作没有考虑基站间相似度，而是将一条基站标号轨迹看成一个字符串，因此通过非常相似(即距离非常接近)但标号不同的基站的轨迹会被看作完全不同的字符串，导致大量运动模式丢失。随着城市中基站密度的增大，该问题会越来越严重。

此外，文献5(M.Lv、L.Chen、Y.Shen等人，Measuringcell-idtrajectorysimilarityformobilephonerouteclassification，Knowledge-BasedSystems，89(2015):181-191；即M.Lv、L.Chen、Y.Shen等人，面向移动用户路径分类的基站标号轨迹相似度计算方法，知识系统，89(2015):181-191)中尝试考虑基站间相似度对基站标号轨迹进行分析。然而，该工作对基站相似度的计算方法基于经验公式，准确度很低。因此，该工作提出的方法只能发现轨迹聚类，而无法发现运动模式。

发明内容

为了克服已有运动模式挖掘方法的准确度较低、适用性较差的不足，本发明提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。

本发明解决其技术问题所采用的技术方案是：

一种基于基站标号轨迹的运动模式挖掘方法，包括如下步骤：

(1)历史基站标号轨迹数据集构建：首先对用户智能手机当前所连接基站的标号进行连续采集，然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集；

(2)基站间相似度计算：基于历史基站标号轨迹数据集分析基站间的切换模式，在此基础上估计基站间的相似度；

(3)运动模式挖掘：将基站间相似度融入基于前缀扩展的序列模式挖掘算法，从历史基站标号轨迹数据集中挖掘运动模式，步骤如下：

(3-1)算法准备：算法准备包括如下步骤：

(3-1-1)建立基站切换有向图G：图的结点代表基站，结点c₁到c₂的边代表在历史基站标号轨迹中出现过c₁直接切换到c₂的情况，即发生切换时c₁和c₂在轨迹中是相邻的，则G(c)代表基站c可以直接切换到的基站的集合；

(3-1-2)建立基站相似度邻接链表T：表头向量中每个头结点代表一个基站，头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站，该单链表的表结点按照相似度从大到小排列，则T(c)[i]代表与基站c相似度第i大的基站，其中基站间相似度由步骤(2)计算得到；

(3-1-3)初始化算法：算法初始化工作包括：设置前缀集all_prefixes为空；设置当前前缀cur_prefix为空字符串；设置当前投影序列集PS为历史基站标号轨迹数据集，并设置每个投影序列P的置信度P.conf为1；

(3-2)生成频繁基站集：若cur_prefix为空字符串，则从所有基站中寻找频繁基站；反之，则从G(lc)中寻找频繁基站，其中lc为cur_prefix最后一个字符所代表的标号对应的基站；

从一个基站集CS中寻找频繁基站的方法为：对CS中每一个基站c，首先计算当前投影序列集中每一条投影序列对其的支持度，然后求和；最后，支持度总和大于指定阈值的基站即为频繁基站；

投影序列P对基站c的支持度support(c,P)的计算公式如下：

其中，P.conf代表P的置信度；

(3-3)生成投影序列集：对频繁基站集中的每个基站c，过程如下：

(3-3-1)更新当前前缀cur_prefix，并将更新的cur_prefix加入前缀集all_prefixes；

(3-3-2)设置新投影序列集NPS为空；

(3-3-3)对当前投影序列集中的每个投影序列P，基于c和P生成一个新的投影序列NP，若NP不为空则加入NPS；

(3-4)迭代算法：若新投影序列集NPS不为空，则将NPS作为当前投影序列集，转向步骤(3-2)；

(3-5)生成运动模式：对all_prefixes中的每一个前缀，将其代表的字符串转化为对应的基站序列，该基站序列即为一个运动模式。

进一步，所述步骤(2)中，采用回归算法估计基站间的相似度，步骤如下：

(2-1)构造训练数据集：给定一个历史基站标号轨迹数据集，首先通过特定的网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置；然后，基于基站实际位置计算每对基站间的实际物理距离；最后，基于基站间实际物理距离计算每对基站间的相似度真实值；基站c₁和c₂的相似度真实值ts(c₁,c₂)的计算公式如下：

t s (c_{1}, c_{2}) = \frac{1}{1 + d (c_{1}, c_{2})}

其中，d(c₁,c₂)为基站c₁和c₂的实际物理距离，单位：千米；

(2-2)抽取基站间切换模式特征：对于训练数据集中包含的任意一对基站，基于其在训练数据集中表现出的切换模式，抽取切换模式特征，切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类；

本地切换模式特征包括三类：同现率、振荡次数均值和最大值以及加权切换次数均值和最大值；

K近邻切换模式特征包括三类：K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值；

(2-3)训练回归器：基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值，采用回归算法训练一个回归器；

(2-4)计算位置信息未知的基站间的相似度：给定一对实际位置未知的基站c₁和c₂，首先抽取c₁和c₂在历史基站标号轨迹数据集中的切换模式特征，然后采用训练好的回归器得到c₁和c₂的相似度估计值s(c₁,c₂)。

再进一步，所述步骤(2-2)中，对于一对基站c₁和c₂，同现率指c₁和c₂同时出现的轨迹数量与c₁和c₂至少有一个出现的轨迹数量的比例；

c₁和c₂的一次振荡指在一条轨迹中由c₁切换到c₂再切换回c₁或由c₂切换到c₁再切换回c₂，振荡次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的平均值，振荡次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的最大值；

c₁和c₂在基站标号轨迹T中的加权切换次数wsc(c₁,c₂,T)的计算公式如下：

w s c (c_{1}, c_{2}, T) = Σ_{i = 1}^{n} \frac{1}{1 + {interval}_{i}}

其中，n为c₁和c₂在T中发生切换的次数，interval_i为c₁和c₂发生第i次切换时间隔的基站数量，加权切换次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的平均值，加权切换次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的最大值；

对于一对基站c₁和c₂，K近邻切换模式特征的计算方法为：给定本地切换模式特征F，首先找出除c₂外与c₁的F值最大的K个基站KNN₁，以及除c₁外与c₂的F值最大的K个基站KNN₂；然后，求c₂与KNN₁中每个基站的F值，以及c₁与KNN₂中每个基站的F值；最后，计算这些值的平均值。

更进一步，所述(3-3-1)中，基于基站c更新当前前缀cur_prefix的方法为：将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。

所述(3-3-3)中，基于基站c和投影序列P生成一个新的投影序列NP的方法为：若c在P中出现，则NP为c在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为P.conf；若T(c)[i]在P中出现，则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为s(c,T(c)[i])×P.conf，否则，NP为空。

本发明的有益效果主要表现在：1、仅基于基站标号轨迹数据，无需明确的位置信息，避免了智能手机定位方式的局限性问题；2、基于基站间切换规律抽取切换模式特征，在此基础上训练回归器估计基站间相似度，显著提高了基站间相似度计算的准确度；3、融入基站间相似度，提出了一种新型的序列模式挖掘算法，有效减轻了基站连接不确定性导致的运动模式丢失问题。

附图说明

图1为基于基站标号轨迹的运动模式挖掘方法的流程图；

图2为基站间相似度计算方法的流程图；

图3为基于前缀扩展的运动模式挖掘算法的流程图；

图4为基站间切换模式抽取的实施例示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于基站标号轨迹的运动模式挖掘方法，包括如下步骤：

(1)历史基站标号轨迹数据集构建：首先对用户智能手机当前所连接基站的标号进行连续采集，然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集。

(2)基站间相似度计算：基于历史基站标号轨迹数据集分析基站间的切换模式，在此基础上采用回归算法估计基站间的相似度。

(3)运动模式挖掘：将基站间相似度融入基于前缀扩展的序列模式挖掘算法，从历史基站标号轨迹数据集中挖掘运动模式。

参照图2，所述步骤(2)中，基站间相似度计算的详细步骤如下：

(2-1)构造训练数据集：给定一个历史基站标号轨迹数据集，首先通过特定的网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置。然后，基于基站实际位置计算每对基站间的实际物理距离。最后，基于基站间实际物理距离计算每对基站间的相似度真实值。基站c₁和c₂的相似度真实值ts(c₁,c₂)的计算公式如下：

t s (c_{1}, c_{2}) = \frac{1}{1 + d (c_{1}, c_{2})}

其中，d(c₁,c₂)为基站c₁和c₂的实际物理距离(单位：千米)。

(2-2)抽取基站间切换模式特征：对于训练数据集中包含的任意一对基站，基于其在训练数据集中表现出的切换模式，抽取切换模式特征。切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类。

其中，对于一对基站c₁和c₂，本地切换模式特征包括如下三类：

同现率：同现率指c₁和c₂同时出现的轨迹数量与c₁和c₂至少有一个出现的轨迹数量的比例。

振荡次数均值和最大值：c₁和c₂的一次振荡指在一条轨迹中由c₁切换到c₂再切换回c₁(发生切换时c₁和c₂在轨迹中可以是不相邻的)或由c₂切换到c₁再切换回c₂。振荡次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的平均值，振荡次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的最大值。

加权切换次数均值和最大值：c₁和c₂在基站标号轨迹T中的加权切换次数wsc(c₁,c₂,T)的计算公式如下：

w s c (c_{1}, c_{2}, T) = Σ_{i = 1}^{n} \frac{1}{1 + {interval}_{i}}

其中，n为c₁和c₂在T中发生切换的次数，interval_i为c₁和c₂发生第i次切换时间隔的基站数量。加权切换次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的平均值，加权切换次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的最大值。

对于一对基站c₁和c₂，K近邻切换模式特征的计算方法为：给定本地切换模式特征F，首先找出除c₂外与c₁的F值最大的K个基站KNN₁，以及除c₁外与c₂的F值最大的K个基站KNN₂。然后，求c₂与KNN₁中每个基站的F值，以及c₁与KNN₂中每个基站的F值。最后，计算这些值的平均值。

K近邻切换模式特征包括三类：K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值。

(2-3)训练回归器：基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值，采用回归算法(如梯度下降回归树)训练一个回归器。

参照图3，所述步骤(3)中，运动模式挖掘算法的详细步骤如下：

(3-1)算法准备：算法准备包括如下步骤：

(3-1-1)建立基站切换有向图G：图的结点代表基站，结点c₁到c₂的边代表在历史基站标号轨迹中出现过c₁直接切换到c₂的情况(即发生切换时c₁和c₂在轨迹中是相邻的)，则G(c)代表基站c可以直接切换到的基站的集合。

(3-1-2)建立基站相似度邻接链表T：表头向量中每个头结点代表一个基站，头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站(其中，基站间相似度由步骤(2)计算得到)，该单链表的表结点按照相似度从大到小排列，则T(c)[i]代表与基站c相似度第i大的基站。

(3-1-3)初始化算法：算法初始化工作包括：设置前缀集all_prefixes为空；设置当前前缀cur_prefix为空字符串；设置当前投影序列集PS为历史基站标号轨迹数据集，并设置每个投影序列P的置信度P.conf为1。

(3-2)生成频繁基站集：若cur_prefix为空字符串，则从所有基站中寻找频繁基站；反之，则从G(lc)中寻找频繁基站，其中lc为cur_prefix最后一个字符所代表的标号对应的基站。

从一个基站集CS中寻找频繁基站的方法为：对CS中每一个基站c，首先计算当前投影序列集中每一条投影序列对其的支持度，然后求和。最后，支持度总和大于指定阈值的基站即为频繁基站。

投影序列P对基站c的支持度support(c,P)的计算公式如下：

其中，P.conf代表P的置信度。

(3-3-1)更新当前前缀cur_prefix，并将更新的cur_prefix加入前缀集all_prefixes。

(3-3-2)设置新投影序列集NPS为空。

(3-3-3)对当前投影序列集中的每个投影序列P，基于c和P生成一个新的投影序列NP，若NP不为空则加入NPS。

所述(3-3-1)中，基于基站c更新当前前缀cur_prefix的方法为：将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。

所述(3-3-3)中，基于基站c和投影序列P生成一个新的投影序列NP的方法为：若c在P中出现，则NP为c在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为P.conf；若T(c)[i]在P中出现，则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为s(c,T(c)[i])×P.conf。否则，NP为空。

(3-4)迭代算法：若新投影序列集NPS不为空，则将NPS作为当前投影序列集，转向步骤(3-2)。

本实施例中，所述步骤(2-2)中，如图4所示，给定训练数据集{T₁,T₂,T₃}，抽取基站c₁和c₂的三类本地切换模式特征的方法如下：

同现率：同现率指c₁和c₂同时出现的轨迹数量与c₁和c₂至少有一个出现的轨迹数量的比例。因此，图3中c₁和c₂的同现率＝3/3＝1。

振荡次数均值和最大值：c₁和c₂的一次振荡指在一条轨迹中由c₁切换到c₂再切换回c₁(发生切换时c₁和c₂在轨迹中可以是不相邻的)或由c₂切换到c₁再切换回c₂。因此，图3中c₁和c₂在T₁中的振荡次数为2，在T₂中的振荡次数为1，在T₃中的振荡次数为0。振荡次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的平均值，振荡次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中振荡次数的最大值。因此，图3中c₁和c₂的振荡次数均值＝(2+1+0)/3＝1，振荡次数最大值为2。

加权切换次数均值和最大值：c₁和c₂在基站标号轨迹T中的加权切换次数wsc(c₁,c₂,T)的计算公式如下。其中，n为c₁和c₂在T中发生切换的次数，interval_i为c₁和c₂发生第i次切换时间隔的基站数量。因此，图3中c₁和c₂在T₁中的加权切换次数＝1+1+1/2＝2.5，在T₂中的加权切换次数＝1+1＝2，在T₃中的加权切换次数＝1/2＝0.5。加权切换次数均值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的平均值，加权切换次数最大值指c₁和c₂在所有c₁和c₂同时出现的轨迹中加权切换次数的最大值。因此，图3中c₁和c₂的加权切换次数均值＝(2.5+2+0.5)/3＝1.67，加权切换次数最大值为2.5。

w s c (c_{1}, c_{2}, T) = Σ_{i = 1}^{n} \frac{1}{1 + {interval}_{i}}

对于一对基站c₁和c₂，K近邻切换模式特征的计算方法为：给定本地切换模式特征F，首先找出除c₂外与c₁的F值最大的K个基站KNN₁，以及除c₁外与c₂的F值最大的K个基站KNN₂。然后，求c₂与KNN₁中每个基站的F值，以及c₁与KNN₂中每个基站的F值。最后，计算这些值的平均值。假定K＝1，抽取基站c₁和c₂的三类K近邻切换模式特征的方法如下：

K近邻同现率：图3中除c₂外与c₁的同现率最大的基站为c₄(同现率＝3/3＝1)，除c₁外与c₂的同现率最大的基站为c₄(同现率＝3/3＝1)。因此，c₁和c₂的K近邻同现率＝(1+1)/2＝1。

K近邻振荡次数均值：图3中除c₂外与c₁的振荡次数均值最大的基站为c₃(振荡次数均值＝(0+1)/2＝0.5)，除c₁外与c₂的振荡次数均值最大的基站为c₃(振荡次数均值＝(1+0)/2＝0.5)。因此，c₁和c₂的K近邻振荡次数均值＝(0.5+0.5)/2＝0.5。

K近邻加权切换次数均值：图3中除c₂外与c₁的加权切换次数均值最大的基站为c₃(加权切换次数均值＝(1+(1+1))/2＝1.5)，除c₁外与c₂的加权切换次数均值最大的基站为c₄(加权切换次数均值＝(1+(1+1)+1)/3＝1.33)。因此，c₁和c₂的K近邻加权切换次数均值＝(1.5+1.33)/2＝1.42。

本实施例的运动模式挖掘算法包括如下步骤：

(1)算法准备：算法准备包括如下过程：

建立基站切换有向图G：图的结点代表基站，结点c₁到c₂的边代表在历史基站标号轨迹中出现过c₁直接切换到c₂的情况(即发生切换时c₁和c₂在轨迹中是相邻的)，则G(c)代表基站c可以直接切换到的基站的集合。

建立基站相似度邻接链表T：表头向量中每个头结点代表一个基站，头结点c指向的单链表包含了所有与基站c相似度(其中，基站间相似度由步骤(2)计算得到)大于指定阈值min_sup的基站，该单链表的表结点按照相似度从大到小排列，则T(c)[i]代表与基站c相似度第i大的基站。

初始化算法：算法初始化工作包括：设置前缀集all_prefixes为空；设置当前前缀cur_prefix为空字符串；设置当前投影序列集PS为历史基站标号轨迹数据集，并设置每个投影序列P的置信度P.conf为1。

(2)生成频繁基站集：若cur_prefix为空字符串，则从所有基站中寻找频繁基站；反之，则从G(lc)中寻找频繁基站，其中lc为cur_prefix最后一个字符所代表的标号对应的基站。

从一个基站集CS中寻找频繁基站的方法为：对CS中每一个基站c，首先计算当前投影序列集中每一条投影序列对其的支持度，然后求和。最后，支持度总和大于指定阈值min_sup的基站即为频繁基站。

投影序列P对基站c的支持度support(c,P)的计算公式如下。其中，P.conf代表P的置信度。

(3)生成投影序列集：对频繁基站集中的每个基站c，第一步，更新当前前缀cur_prefix，并将更新的cur_prefix加入前缀集all_prefixes。第二步，设置新投影序列集NPS为空。第三步，对当前投影序列集中的每个投影序列P，基于c和P生成一个新的投影序列NP，若NP不为空则加入NPS。

第一步中，基于基站c更新当前前缀cur_prefix的方法为：将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。

第三步中，基于基站c和投影序列P生成一个新的投影序列NP的方法为：若c在P中出现，则NP为c在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为P.conf；若T(c)[i]在P中出现，则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为s(c,T(c)[i])×P.conf。否则，NP为空。

(4)迭代算法：若新投影序列集NPS不为空，则将NPS作为当前投影序列集，转向步骤(2)。

(5)生成运动模式：对all_prefixes中的每一个前缀，将其代表的字符串转化为对应的基站序列，该基站序列即为一个运动模式。

Claims

1.一种基于基站标号轨迹的运动模式挖掘方法，其特征在于：包括如下步骤：

(3-1)算法准备：算法准备包括如下步骤：

投影序列P对基站c的支持度support(c,P)的计算公式如下：

其中，P.conf代表P的置信度；

(3-3-2)设置新投影序列集NPS为空；

2.如权利要求1所述的一种基于基站标号轨迹的运动模式挖掘方法，其特征在于：所述步骤(2)中，采用回归算法估计基站间的相似度，步骤如下：

t s (c_{1}, c_{2}) = \frac{1}{1 + d (c_{1}, c_{2})}

3.如权利要求2所述的一种基于基站标号轨迹的运动模式挖掘方法，其特征在于：所述步骤(2-2)中，对于一对基站c₁和c₂，同现率指c₁和c₂同时出现的轨迹数量与c₁和c₂至少有一个出现的轨迹数量的比例；

w s c (c_{1}, c_{2}, T) = Σ_{i = 1}^{n} \frac{1}{1 + {interval}_{i}}

4.如权利要求1～3之一所述的一种基于基站标号轨迹的运动模式挖掘方法，其特征在于：所述(3-3-1)中，基于基站c更新当前前缀cur_prefix的方法为：将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。

5.如权利要求1～3之一所述的一种基于基站标号轨迹的运动模式挖掘方法，其特征在于：所述(3-3-3)中，基于基站c和投影序列P生成一个新的投影序列NP的方法为：若c在P中出现，则NP为c在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为P.conf；若T(c)[i]在P中出现，则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为s(c,T(c)[i])×P.conf，否则，NP为空。