CN105678246A - 一种基于基站标号轨迹的运动模式挖掘方法 - Google Patents

一种基于基站标号轨迹的运动模式挖掘方法 Download PDF

Info

Publication number
CN105678246A
CN105678246A CN201511027208.3A CN201511027208A CN105678246A CN 105678246 A CN105678246 A CN 105678246A CN 201511027208 A CN201511027208 A CN 201511027208A CN 105678246 A CN105678246 A CN 105678246A
Authority
CN
China
Prior art keywords
base station
similarity
prefix
track
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511027208.3A
Other languages
English (en)
Other versions
CN105678246B (zh
Inventor
吕明琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou smart strategy Technology Co., Ltd
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201511027208.3A priority Critical patent/CN105678246B/zh
Publication of CN105678246A publication Critical patent/CN105678246A/zh
Application granted granted Critical
Publication of CN105678246B publication Critical patent/CN105678246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:(1)历史基站标号轨迹数据集构建:对用户智能手机当前所连接基站的标号进行连续采集,形成历史基站标号轨迹数据集;(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘出运动模式。本发明提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。

Description

一种基于基站标号轨迹的运动模式挖掘方法
技术领域
本发明涉及移动计算和数据挖掘技术,具体涉及一种基于基站标号轨迹的运动模式挖掘方法。
背景技术
运动模式挖掘即从运动物体(如车辆、行人)的历史运动轨迹数据中挖掘出运动规律。目前的运动模式挖掘方法大多要求历史运动轨迹数据包含明确的位置信息。例如文献1(H.Cao、N.Mamoulis、D.W.Cheung,Discoveryofperiodicpatternsinspatiotemporalsequences,IEEETransactionsonKnowledgeandDataEngineering,19(2007):453-467;即H.Cao、N.Mamoulis、D.W.Cheung,挖掘时空序列数据中的周期模式,IEEE知识与数据工程汇刊,19(2007):453-467)中将历史位置轨迹数据抽象为线段聚类序列,然后从线段聚类序列中挖掘运动模式,文献2(L.Chen、M.Lv、Q.Ye等人,Apersonalroutepredictionsystembasedontrajectorydatamining,InformationSciences,181(2011):1264-1284;即L.Chen、M.Lv、Q.Ye等人,一种基于轨迹数据挖掘的个人路径预测系统,信息科学,181(2011):1264-1284)中基于空间划分将历史位置轨迹数据抽象为网格序列,然后从网格序列中挖掘运动模式。然而,智能手机的定位方式具有很大的局限性,阻碍了这些方法在智能手机上的应用:
(1)智能手机可通过GPS设备进行定位,其局限性在于:GPS定位能耗过大,持续使用GPS设备将会快速消耗智能手机的电池容量。
(2)智能手机可通过无线信号源(如基站、WiFi)进行定位,其局限性在于:需要频繁的通过网络查询无线信号源的实际位置(由于只有特定的运营商才拥有这些信息),持续使用无线信号源定位将会极大的增加网络流量。
针对这些问题,目前出现了少量基于基站标号轨迹数据进行运动模式挖掘的工作。例如,文献3(G.D.Katsaros、Ulusoy等人,Adataminingapproachforlocationpredictioninmobileenvironments,Data&KnowledgeEngineering54(2005):121-146;即G.D.Katsaros、Ulusoy等人,移动环境下一种面向位置预测的数据挖掘方法,数据与知识工程,54(2005):121-146)中提出了一种基于基站切换图的运动模式挖掘算法,文献4(M.Bayir、M.Demirbas、N.Eagle,Mobilityprofiler:Aframeworkfordiscoveringmobilityprofilesofcellphoneusers,PervasiveandMobileComputing,6(2010):435-454;即M.Bayir、M.Demirbas、N.Eagle,运动画像:一种面向移动用户的运动规律挖掘框架,普适与移动计算,6(2010):435-454)中提出了一种基于基站振荡图的运动模式挖掘算法。然而,这些工作没有考虑基站间相似度,而是将一条基站标号轨迹看成一个字符串,因此通过非常相似(即距离非常接近)但标号不同的基站的轨迹会被看作完全不同的字符串,导致大量运动模式丢失。随着城市中基站密度的增大,该问题会越来越严重。
此外,文献5(M.Lv、L.Chen、Y.Shen等人,Measuringcell-idtrajectorysimilarityformobilephonerouteclassification,Knowledge-BasedSystems,89(2015):181-191;即M.Lv、L.Chen、Y.Shen等人,面向移动用户路径分类的基站标号轨迹相似度计算方法,知识系统,89(2015):181-191)中尝试考虑基站间相似度对基站标号轨迹进行分析。然而,该工作对基站相似度的计算方法基于经验公式,准确度很低。因此,该工作提出的方法只能发现轨迹聚类,而无法发现运动模式。
发明内容
为了克服已有运动模式挖掘方法的准确度较低、适用性较差的不足,本发明提供了一种准确度较高、适用性良好的基于基站标号轨迹的运动模式挖掘方法。
本发明解决其技术问题所采用的技术方案是:
一种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:
(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集;
(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;
(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘运动模式,步骤如下:
(3-1)算法准备:算法准备包括如下步骤:
(3-1-1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况,即发生切换时c1和c2在轨迹中是相邻的,则G(c)代表基站c可以直接切换到的基站的集合;
(3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站,其中基站间相似度由步骤(2)计算得到;
(3-1-3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1;
(3-2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站;
从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总和大于指定阈值的基站即为频繁基站;
投影序列P对基站c的支持度support(c,P)的计算公式如下:
其中,P.conf代表P的置信度;
(3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:
(3-3-1)更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集all_prefixes;
(3-3-2)设置新投影序列集NPS为空;
(3-3-3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列NP,若NP不为空则加入NPS;
(3-4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向步骤(3-2);
(3-5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转化为对应的基站序列,该基站序列即为一个运动模式。
进一步,所述步骤(2)中,采用回归算法估计基站间的相似度,步骤如下:
(2-1)构造训练数据集:给定一个历史基站标号轨迹数据集,首先通过特定的网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置;然后,基于基站实际位置计算每对基站间的实际物理距离;最后,基于基站间实际物理距离计算每对基站间的相似度真实值;基站c1和c2的相似度真实值ts(c1,c2)的计算公式如下:
t s ( c 1 , c 2 ) = 1 1 + d ( c 1 , c 2 )
其中,d(c1,c2)为基站c1和c2的实际物理距离,单位:千米;
(2-2)抽取基站间切换模式特征:对于训练数据集中包含的任意一对基站,基于其在训练数据集中表现出的切换模式,抽取切换模式特征,切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类;
本地切换模式特征包括三类:同现率、振荡次数均值和最大值以及加权切换次数均值和最大值;
K近邻切换模式特征包括三类:K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值;
(2-3)训练回归器:基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值,采用回归算法训练一个回归器;
(2-4)计算位置信息未知的基站间的相似度:给定一对实际位置未知的基站c1和c2,首先抽取c1和c2在历史基站标号轨迹数据集中的切换模式特征,然后采用训练好的回归器得到c1和c2的相似度估计值s(c1,c2)。
再进一步,所述步骤(2-2)中,对于一对基站c1和c2,同现率指c1和c2同时出现的轨迹数量与c1和c2至少有一个出现的轨迹数量的比例;
c1和c2的一次振荡指在一条轨迹中由c1切换到c2再切换回c1或由c2切换到c1再切换回c2,振荡次数均值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的平均值,振荡次数最大值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的最大值;
c1和c2在基站标号轨迹T中的加权切换次数wsc(c1,c2,T)的计算公式如下:
w s c ( c 1 , c 2 , T ) = Σ i = 1 n 1 1 + interval i
其中,n为c1和c2在T中发生切换的次数,intervali为c1和c2发生第i次切换时间隔的基站数量,加权切换次数均值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的平均值,加权切换次数最大值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的最大值;
对于一对基站c1和c2,K近邻切换模式特征的计算方法为:给定本地切换模式特征F,首先找出除c2外与c1的F值最大的K个基站KNN1,以及除c1外与c2的F值最大的K个基站KNN2;然后,求c2与KNN1中每个基站的F值,以及c1与KNN2中每个基站的F值;最后,计算这些值的平均值。
更进一步,所述(3-3-1)中,基于基站c更新当前前缀cur_prefix的方法为:将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。
所述(3-3-3)中,基于基站c和投影序列P生成一个新的投影序列NP的方法为:若c在P中出现,则NP为c在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为P.conf;若T(c)[i]在P中出现,则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为s(c,T(c)[i])×P.conf,否则,NP为空。
本发明的有益效果主要表现在:1、仅基于基站标号轨迹数据,无需明确的位置信息,避免了智能手机定位方式的局限性问题;2、基于基站间切换规律抽取切换模式特征,在此基础上训练回归器估计基站间相似度,显著提高了基站间相似度计算的准确度;3、融入基站间相似度,提出了一种新型的序列模式挖掘算法,有效减轻了基站连接不确定性导致的运动模式丢失问题。
附图说明
图1为基于基站标号轨迹的运动模式挖掘方法的流程图;
图2为基站间相似度计算方法的流程图;
图3为基于前缀扩展的运动模式挖掘算法的流程图;
图4为基站间切换模式抽取的实施例示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于基站标号轨迹的运动模式挖掘方法,包括如下步骤:
(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集。
(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上采用回归算法估计基站间的相似度。
(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘运动模式。
参照图2,所述步骤(2)中,基站间相似度计算的详细步骤如下:
(2-1)构造训练数据集:给定一个历史基站标号轨迹数据集,首先通过特定的网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置。然后,基于基站实际位置计算每对基站间的实际物理距离。最后,基于基站间实际物理距离计算每对基站间的相似度真实值。基站c1和c2的相似度真实值ts(c1,c2)的计算公式如下:
t s ( c 1 , c 2 ) = 1 1 + d ( c 1 , c 2 )
其中,d(c1,c2)为基站c1和c2的实际物理距离(单位:千米)。
(2-2)抽取基站间切换模式特征:对于训练数据集中包含的任意一对基站,基于其在训练数据集中表现出的切换模式,抽取切换模式特征。切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类。
其中,对于一对基站c1和c2,本地切换模式特征包括如下三类:
同现率:同现率指c1和c2同时出现的轨迹数量与c1和c2至少有一个出现的轨迹数量的比例。
振荡次数均值和最大值:c1和c2的一次振荡指在一条轨迹中由c1切换到c2再切换回c1(发生切换时c1和c2在轨迹中可以是不相邻的)或由c2切换到c1再切换回c2。振荡次数均值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的平均值,振荡次数最大值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的最大值。
加权切换次数均值和最大值:c1和c2在基站标号轨迹T中的加权切换次数wsc(c1,c2,T)的计算公式如下:
w s c ( c 1 , c 2 , T ) = Σ i = 1 n 1 1 + interval i
其中,n为c1和c2在T中发生切换的次数,intervali为c1和c2发生第i次切换时间隔的基站数量。加权切换次数均值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的平均值,加权切换次数最大值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的最大值。
对于一对基站c1和c2,K近邻切换模式特征的计算方法为:给定本地切换模式特征F,首先找出除c2外与c1的F值最大的K个基站KNN1,以及除c1外与c2的F值最大的K个基站KNN2。然后,求c2与KNN1中每个基站的F值,以及c1与KNN2中每个基站的F值。最后,计算这些值的平均值。
K近邻切换模式特征包括三类:K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值。
(2-3)训练回归器:基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值,采用回归算法(如梯度下降回归树)训练一个回归器。
(2-4)计算位置信息未知的基站间的相似度:给定一对实际位置未知的基站c1和c2,首先抽取c1和c2在历史基站标号轨迹数据集中的切换模式特征,然后采用训练好的回归器得到c1和c2的相似度估计值s(c1,c2)。
参照图3,所述步骤(3)中,运动模式挖掘算法的详细步骤如下:
(3-1)算法准备:算法准备包括如下步骤:
(3-1-1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况(即发生切换时c1和c2在轨迹中是相邻的),则G(c)代表基站c可以直接切换到的基站的集合。
(3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站(其中,基站间相似度由步骤(2)计算得到),该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站。
(3-1-3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1。
(3-2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站。
从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和。最后,支持度总和大于指定阈值的基站即为频繁基站。
投影序列P对基站c的支持度support(c,P)的计算公式如下:
其中,P.conf代表P的置信度。
(3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:
(3-3-1)更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集all_prefixes。
(3-3-2)设置新投影序列集NPS为空。
(3-3-3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列NP,若NP不为空则加入NPS。
所述(3-3-1)中,基于基站c更新当前前缀cur_prefix的方法为:将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。
所述(3-3-3)中,基于基站c和投影序列P生成一个新的投影序列NP的方法为:若c在P中出现,则NP为c在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为P.conf;若T(c)[i]在P中出现,则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为s(c,T(c)[i])×P.conf。否则,NP为空。
(3-4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向步骤(3-2)。
(3-5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转化为对应的基站序列,该基站序列即为一个运动模式。
本实施例中,所述步骤(2-2)中,如图4所示,给定训练数据集{T1,T2,T3},抽取基站c1和c2的三类本地切换模式特征的方法如下:
同现率:同现率指c1和c2同时出现的轨迹数量与c1和c2至少有一个出现的轨迹数量的比例。因此,图3中c1和c2的同现率=3/3=1。
振荡次数均值和最大值:c1和c2的一次振荡指在一条轨迹中由c1切换到c2再切换回c1(发生切换时c1和c2在轨迹中可以是不相邻的)或由c2切换到c1再切换回c2。因此,图3中c1和c2在T1中的振荡次数为2,在T2中的振荡次数为1,在T3中的振荡次数为0。振荡次数均值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的平均值,振荡次数最大值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的最大值。因此,图3中c1和c2的振荡次数均值=(2+1+0)/3=1,振荡次数最大值为2。
加权切换次数均值和最大值:c1和c2在基站标号轨迹T中的加权切换次数wsc(c1,c2,T)的计算公式如下。其中,n为c1和c2在T中发生切换的次数,intervali为c1和c2发生第i次切换时间隔的基站数量。因此,图3中c1和c2在T1中的加权切换次数=1+1+1/2=2.5,在T2中的加权切换次数=1+1=2,在T3中的加权切换次数=1/2=0.5。加权切换次数均值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的平均值,加权切换次数最大值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的最大值。因此,图3中c1和c2的加权切换次数均值=(2.5+2+0.5)/3=1.67,加权切换次数最大值为2.5。
w s c ( c 1 , c 2 , T ) = Σ i = 1 n 1 1 + interval i
对于一对基站c1和c2,K近邻切换模式特征的计算方法为:给定本地切换模式特征F,首先找出除c2外与c1的F值最大的K个基站KNN1,以及除c1外与c2的F值最大的K个基站KNN2。然后,求c2与KNN1中每个基站的F值,以及c1与KNN2中每个基站的F值。最后,计算这些值的平均值。假定K=1,抽取基站c1和c2的三类K近邻切换模式特征的方法如下:
K近邻同现率:图3中除c2外与c1的同现率最大的基站为c4(同现率=3/3=1),除c1外与c2的同现率最大的基站为c4(同现率=3/3=1)。因此,c1和c2的K近邻同现率=(1+1)/2=1。
K近邻振荡次数均值:图3中除c2外与c1的振荡次数均值最大的基站为c3(振荡次数均值=(0+1)/2=0.5),除c1外与c2的振荡次数均值最大的基站为c3(振荡次数均值=(1+0)/2=0.5)。因此,c1和c2的K近邻振荡次数均值=(0.5+0.5)/2=0.5。
K近邻加权切换次数均值:图3中除c2外与c1的加权切换次数均值最大的基站为c3(加权切换次数均值=(1+(1+1))/2=1.5),除c1外与c2的加权切换次数均值最大的基站为c4(加权切换次数均值=(1+(1+1)+1)/3=1.33)。因此,c1和c2的K近邻加权切换次数均值=(1.5+1.33)/2=1.42。
本实施例的运动模式挖掘算法包括如下步骤:
(1)算法准备:算法准备包括如下过程:
建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况(即发生切换时c1和c2在轨迹中是相邻的),则G(c)代表基站c可以直接切换到的基站的集合。
建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度(其中,基站间相似度由步骤(2)计算得到)大于指定阈值min_sup的基站,该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站。
初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1。
(2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站。
从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和。最后,支持度总和大于指定阈值min_sup的基站即为频繁基站。
投影序列P对基站c的支持度support(c,P)的计算公式如下。其中,P.conf代表P的置信度。
(3)生成投影序列集:对频繁基站集中的每个基站c,第一步,更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集all_prefixes。第二步,设置新投影序列集NPS为空。第三步,对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列NP,若NP不为空则加入NPS。
第一步中,基于基站c更新当前前缀cur_prefix的方法为:将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。
第三步中,基于基站c和投影序列P生成一个新的投影序列NP的方法为:若c在P中出现,则NP为c在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为P.conf;若T(c)[i]在P中出现,则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为s(c,T(c)[i])×P.conf。否则,NP为空。
(4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向步骤(2)。
(5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转化为对应的基站序列,该基站序列即为一个运动模式。

Claims (5)

1.一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:包括如下步骤:
(1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集,然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集;
(2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式,在此基础上估计基站间的相似度;
(3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法,从历史基站标号轨迹数据集中挖掘运动模式,步骤如下:
(3-1)算法准备:算法准备包括如下步骤:
(3-1-1)建立基站切换有向图G:图的结点代表基站,结点c1到c2的边代表在历史基站标号轨迹中出现过c1直接切换到c2的情况,即发生切换时c1和c2在轨迹中是相邻的,则G(c)代表基站c可以直接切换到的基站的集合;
(3-1-2)建立基站相似度邻接链表T:表头向量中每个头结点代表一个基站,头结点c指向的单链表包含了所有与基站c相似度大于指定阈值的基站,该单链表的表结点按照相似度从大到小排列,则T(c)[i]代表与基站c相似度第i大的基站,其中基站间相似度由步骤(2)计算得到;
(3-1-3)初始化算法:算法初始化工作包括:设置前缀集all_prefixes为空;设置当前前缀cur_prefix为空字符串;设置当前投影序列集PS为历史基站标号轨迹数据集,并设置每个投影序列P的置信度P.conf为1;
(3-2)生成频繁基站集:若cur_prefix为空字符串,则从所有基站中寻找频繁基站;反之,则从G(lc)中寻找频繁基站,其中lc为cur_prefix最后一个字符所代表的标号对应的基站;
从一个基站集CS中寻找频繁基站的方法为:对CS中每一个基站c,首先计算当前投影序列集中每一条投影序列对其的支持度,然后求和;最后,支持度总和大于指定阈值的基站即为频繁基站;
投影序列P对基站c的支持度support(c,P)的计算公式如下:
其中,P.conf代表P的置信度;
(3-3)生成投影序列集:对频繁基站集中的每个基站c,过程如下:
(3-3-1)更新当前前缀cur_prefix,并将更新的cur_prefix加入前缀集all_prefixes;
(3-3-2)设置新投影序列集NPS为空;
(3-3-3)对当前投影序列集中的每个投影序列P,基于c和P生成一个新的投影序列NP,若NP不为空则加入NPS;
(3-4)迭代算法:若新投影序列集NPS不为空,则将NPS作为当前投影序列集,转向步骤(3-2);
(3-5)生成运动模式:对all_prefixes中的每一个前缀,将其代表的字符串转化为对应的基站序列,该基站序列即为一个运动模式。
2.如权利要求1所述的一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:所述步骤(2)中,采用回归算法估计基站间的相似度,步骤如下:
(2-1)构造训练数据集:给定一个历史基站标号轨迹数据集,首先通过特定的网络服务接口(如OpenCellID)查询其中包含的所有基站的实际位置;然后,基于基站实际位置计算每对基站间的实际物理距离;最后,基于基站间实际物理距离计算每对基站间的相似度真实值;基站c1和c2的相似度真实值ts(c1,c2)的计算公式如下:
t s ( c 1 , c 2 ) = 1 1 + d ( c 1 , c 2 )
其中,d(c1,c2)为基站c1和c2的实际物理距离,单位:千米;
(2-2)抽取基站间切换模式特征:对于训练数据集中包含的任意一对基站,基于其在训练数据集中表现出的切换模式,抽取切换模式特征,切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类;
本地切换模式特征包括三类:同现率、振荡次数均值和最大值以及加权切换次数均值和最大值;
K近邻切换模式特征包括三类:K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值;
(2-3)训练回归器:基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值,采用回归算法训练一个回归器;
(2-4)计算位置信息未知的基站间的相似度:给定一对实际位置未知的基站c1和c2,首先抽取c1和c2在历史基站标号轨迹数据集中的切换模式特征,然后采用训练好的回归器得到c1和c2的相似度估计值s(c1,c2)。
3.如权利要求2所述的一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:所述步骤(2-2)中,对于一对基站c1和c2,同现率指c1和c2同时出现的轨迹数量与c1和c2至少有一个出现的轨迹数量的比例;
c1和c2的一次振荡指在一条轨迹中由c1切换到c2再切换回c1或由c2切换到c1再切换回c2,振荡次数均值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的平均值,振荡次数最大值指c1和c2在所有c1和c2同时出现的轨迹中振荡次数的最大值;
c1和c2在基站标号轨迹T中的加权切换次数wsc(c1,c2,T)的计算公式如下:
w s c ( c 1 , c 2 , T ) = Σ i = 1 n 1 1 + interval i
其中,n为c1和c2在T中发生切换的次数,intervali为c1和c2发生第i次切换时间隔的基站数量,加权切换次数均值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的平均值,加权切换次数最大值指c1和c2在所有c1和c2同时出现的轨迹中加权切换次数的最大值;
对于一对基站c1和c2,K近邻切换模式特征的计算方法为:给定本地切换模式特征F,首先找出除c2外与c1的F值最大的K个基站KNN1,以及除c1外与c2的F值最大的K个基站KNN2;然后,求c2与KNN1中每个基站的F值,以及c1与KNN2中每个基站的F值;最后,计算这些值的平均值。
4.如权利要求1~3之一所述的一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:所述(3-3-1)中,基于基站c更新当前前缀cur_prefix的方法为:将c的标号作为一个字符附加到cur_prefix代表的字符串的末尾。
5.如权利要求1~3之一所述的一种基于基站标号轨迹的运动模式挖掘方法,其特征在于:所述(3-3-3)中,基于基站c和投影序列P生成一个新的投影序列NP的方法为:若c在P中出现,则NP为c在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为P.conf;若T(c)[i]在P中出现,则NP为T(c)[i]在P中第一次出现的位置到P的末尾构成的子序列,并设置NP.conf为s(c,T(c)[i])×P.conf,否则,NP为空。
CN201511027208.3A 2015-12-31 2015-12-31 一种基于基站标号轨迹的运动模式挖掘方法 Active CN105678246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511027208.3A CN105678246B (zh) 2015-12-31 2015-12-31 一种基于基站标号轨迹的运动模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511027208.3A CN105678246B (zh) 2015-12-31 2015-12-31 一种基于基站标号轨迹的运动模式挖掘方法

Publications (2)

Publication Number Publication Date
CN105678246A true CN105678246A (zh) 2016-06-15
CN105678246B CN105678246B (zh) 2018-09-18

Family

ID=56298270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511027208.3A Active CN105678246B (zh) 2015-12-31 2015-12-31 一种基于基站标号轨迹的运动模式挖掘方法

Country Status (1)

Country Link
CN (1) CN105678246B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384121A (zh) * 2016-08-30 2017-02-08 电子科技大学 基于标号空间匹配的标号随机集滤波器分布式融合方法
CN106792523A (zh) * 2016-12-10 2017-05-31 武汉白虹软件科技有限公司 一种基于大规模WiFi活动轨迹的异常行为检测方法
CN109661009A (zh) * 2019-02-03 2019-04-19 中国科学院计算技术研究所 基于移动性预测的用户面切换方法
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN110290582A (zh) * 2019-05-22 2019-09-27 浙江工业大学 一种基于seq2seq框架的基站标号轨迹预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509170A (zh) * 2011-10-10 2012-06-20 浙江鸿程计算机系统有限公司 一种基于历史轨迹数据挖掘的位置预测系统及方法
CN105117424A (zh) * 2015-07-31 2015-12-02 中国科学院软件研究所 一种基于停留时间的移动对象语义行为模式挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509170A (zh) * 2011-10-10 2012-06-20 浙江鸿程计算机系统有限公司 一种基于历史轨迹数据挖掘的位置预测系统及方法
CN105117424A (zh) * 2015-07-31 2015-12-02 中国科学院软件研究所 一种基于停留时间的移动对象语义行为模式挖掘方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIH-CHIEH HUNG ET AL: "A regression-based approach for mining user movement patterns from random sample data", 《DATA & KNOWLEDGE ENGINEERING》 *
MINGQI LV ET AL: "Measuring cell-id trajectory similarity for mobile phone route classification", 《KNOWLEDGE-BASED SYSTEMS》 *
吕明琪 等: "移动通信网络环境下的用户运动模式挖掘", 《东南大学学报(自然科学版)》 *
吕明琪: "基于轨迹数据挖掘的语义化位置感知计算研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384121A (zh) * 2016-08-30 2017-02-08 电子科技大学 基于标号空间匹配的标号随机集滤波器分布式融合方法
CN106792523A (zh) * 2016-12-10 2017-05-31 武汉白虹软件科技有限公司 一种基于大规模WiFi活动轨迹的异常行为检测方法
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN109661009A (zh) * 2019-02-03 2019-04-19 中国科学院计算技术研究所 基于移动性预测的用户面切换方法
CN110290582A (zh) * 2019-05-22 2019-09-27 浙江工业大学 一种基于seq2seq框架的基站标号轨迹预测方法
CN110290582B (zh) * 2019-05-22 2020-10-30 浙江工业大学 一种基于seq2seq框架的基站标号轨迹预测方法

Also Published As

Publication number Publication date
CN105678246B (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN105678246A (zh) 一种基于基站标号轨迹的运动模式挖掘方法
CN102810118B (zh) 一种变权网k近邻搜索方法
CN107679558B (zh) 一种基于度量学习的用户轨迹相似性度量方法
US9439044B2 (en) Mechanism for determining location history via multiple historical predictors
CN104462190A (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
CN102646070B (zh) 一种基于区域的时空轨迹数据存储方法
CN107018493B (zh) 一种基于连续时序马尔科夫模型的地理位置预测方法
CN106408124B (zh) 一种面向数据稀疏环境下的移动路径混合预测方法
CN111209261B (zh) 基于信令大数据的用户出行轨迹提取方法和系统
CN104965913A (zh) 一种基于gps地理位置数据挖掘的用户分类方法
CN110334171A (zh) 一种基于Geohash的时空伴随对象挖掘方法
CN103942310B (zh) 基于时空模式的用户行为相似性挖掘方法
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN105512727A (zh) 一种基于Markov的个人路径预测方法
CN104598621A (zh) 一种基于滑动窗口的轨迹压缩方法
CN104331466A (zh) 基于时空邻近搜索的移动轨迹序列模式快速挖掘方法
CN104217593B (zh) 一种面向手机移动速度的路况信息实时获取方法
Chen et al. T-DBSCAN: A Spatiotemporal Density Clustering for GPS Trajectory Segmentation.
CN109685109A (zh) 一种基于孪生神经网络的基站标号轨迹分类方法
CN105912683B (zh) 一种基于时间顺序的轨迹匹配方法
CN109271467A (zh) 一种方向感知的路网移动对象k近邻查询方法
CN109034187A (zh) 一种用户家庭工作地址挖掘流程
CN110275911A (zh) 基于频繁序列模式的私家车出行热点路径挖掘方法
Huang et al. Frequent pattern-based map-matching on low sampling rate trajectories
CN110290582A (zh) 一种基于seq2seq框架的基站标号轨迹预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191106

Address after: Room 506-2, Block E, building 1, 1378 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou smart strategy Technology Co., Ltd

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou city Zhejiang province Zhejiang University of Technology No. 18 310014

Patentee before: Zhejiang University of Technology