CN105117424B - 一种基于停留时间的移动对象语义行为模式挖掘方法 - Google Patents

一种基于停留时间的移动对象语义行为模式挖掘方法 Download PDF

Info

Publication number
CN105117424B
CN105117424B CN201510462970.8A CN201510462970A CN105117424B CN 105117424 B CN105117424 B CN 105117424B CN 201510462970 A CN201510462970 A CN 201510462970A CN 105117424 B CN105117424 B CN 105117424B
Authority
CN
China
Prior art keywords
semantic
point
mobile object
residence time
behavior pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510462970.8A
Other languages
English (en)
Other versions
CN105117424A (zh
Inventor
郭黎敏
郭皓明
徐怀野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN201510462970.8A priority Critical patent/CN105117424B/zh
Publication of CN105117424A publication Critical patent/CN105117424A/zh
Application granted granted Critical
Publication of CN105117424B publication Critical patent/CN105117424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于停留时间的移动对象语义行为模式挖掘方法,其步骤为:1)对移动对象语义轨迹数据进行采集,存储移动对象的语义信息;2)对每个移动对象,挖掘出其所有的频繁语义行为模式;3)设计基于时间权重的语义行为模式相似度度量方法,计算所述频繁语义行为模式之间的相似度;4)根据所述频繁语义行为模式之间的相似度,采用剪枝策略进行层次聚类,挖掘出所有具有相似语义行为模式的移动对象聚类。本发明可以保证移动对象语义行为模式挖掘的高准确性和高效性。本发明的最终结果可以提供给相关领域的用户使用,例如朋友推荐系统、轨迹破案领域、个性化服务领域等,可以支持对移动对象群体相似语义行为模式的准确查找,降低错误率。

Description

一种基于停留时间的移动对象语义行为模式挖掘方法
技术领域
本发明涉及移动对象数据挖掘研究与应用领域,具体涉及一种基于停留时间的移动对象语义行为模式挖掘方法。
背景技术
近年来,移动对象的轨迹模式挖掘技术备受关注,移动对象轨迹记录了人们在真实世界中的活动,而这些活动在一定程度上反应了人们的生活方式和行为习惯,因此通过对轨迹数据进行分析,挖掘出移动对象的行为模式,发现移动对象之间相关性具有重要的研究价值与广泛的应用领域。
目前的移动对象轨迹模式挖掘方法主要分为两大类:基于地理信息的轨迹模式挖掘和基于语义信息的轨迹模式挖掘。其中基于地理信息的轨迹模式挖掘关注的是轨迹的时空属性,早期研究主要是基于欧式距离的相似性度量方法,其中具有代表性的有EamonnKeogh等提出的DTW(E.J.Keogh.Exact indexing of dynamic time warping.In VLDB,406-417,2002.),Lei Chen等提出的EDR(L.Chen,M.Ozsu,and V.Oria.Robust and fastsimilarity search for moving object trajectories.In SIGMOD,491–502,2005.),Michail Vlachos等提出的LCSS(M.Vlachos,M.Hadjieleftheriou,D.Gunopulos,andE.J.Keogh.Indexing multidimensional time-series.VLDB Journal,15(1),1-20,2006.)等。此外,轨迹模式之间相似性的度量方法有Jae-Gil Lee等提出的Partition-and-Group(J.-G.Lee,J.Han and K.-Y.Whang.Trajectory Clustering:A Partition-and-Group Framework.In SIGMOD,593-604,2007.)、Chih-Chieh Hung等提出的CACT(C.-C.Hung,W.-C.Peng,and W.-C.Lee.Clustering and aggregating clues oftrajectories for mining trajectory patterns and routes.VLDB Journal,2011.)等。基于语义信息的轨迹模式挖掘关注的是轨迹的语义特征,其中具有代表性的有J.J.-C.Ying等提出的MSTP-Similarity(J.J.-C.Ying,E.H.-C.Lu,W.-C.Lee,et al.MiningUser Similarity from Semantic Trajectories.In LBSN,19-26,2010.),Yu Zheng等提出的TBHG(Y.Zheng,L.Zhang,X.Xie,et al.Mining Interesting Locations and TravelSequences from GPS Trajectories.In WWW,pp791-800,2009.)和HITS(Y.Zheng andX.Xie.Learning Travel Recommendations from User-generated GPS Traces.ACMTransactions on Intelligent Systems and Technology(TIST),2(1),2011.),Jia-Ching Ying等提出的TrajUtiRec(J.-C.Ying,H.-S.Chen,K.W.Lin,et al.Semantictrajectory-based high utility item recommendation system.Expert Systems withApplications.4762-4776,2014.)等。
然而,上述研究没有考虑移动对象在每个停留点的停留时间,无法准确地分辨出移动对象之间不同的语义行为模式。基于停留时间的移动对象语义行为模式的定义与描述、语义行为模式的提取与挖掘、原型系统的实现与性能分析等,没有得到有效的研究与解决,对这些关键技术问题有待进一步的研究。
发明内容
针对上述尚没有解决的关键问题,本发明提出了一种高效性、高准确性的基于停留时间的移动对象语义行为模式挖掘方法,目的是为分析移动对象的生活习惯和行为规律提供一种可行的解决方案。
本发明所采用的技术方案是通过采集和存储的移动对象的语义轨迹,挖掘出每个移动对象的基于停留时间的频繁语义行为模式,然后通过语义行为模式之间的相似度,采用层次聚类的方法,高效准确地挖掘出具有相似语义行为模式的移动对象集合。
本发明基于停留时间的移动对象语义行为模式挖掘方法,其步骤包括:
1)对移动对象的语义轨迹数据进行采集,存储移动对象的语义点(A,t),其中A表示移动对象的停留点,t表示停留时间;
2)对每个移动对象,挖掘出其所有的频繁语义行为模式;
3)设计基于时间权重的语义行为模式相似度度量方法,计算所述频繁语义行为模式之间的相似度;
4)根据所述频繁语义行为模式之间的相似度,采用剪枝策略进行层次聚类,挖掘出所有具有相似语义行为模式的移动对象聚类。
更进一步,所述语义轨迹S是由一系列有序的语义点{(A1,t1),(A2,t2),...,(An,tn)}组成;
更进一步,所述频繁语义行为模式P是由一系列有序的语义点{(A1,t1),(A2,t2),...,(Am,tm)}组成,并且P满足:移动对象语义轨迹集合D中与P匹配的语义轨迹数大于给定最小支持度fmin
更进一步,所述语义轨迹S与语义行为模式P匹配是指S存在子序列SP,并且SP与P满足:
(1)SP与P的长度相等;
(2)SP与P中对应的语义点等价;
更进一步,所述语义点point1=(A1,t1)和point2=(A2,t2)等价满足:
(1)point1和point2的停留点相同,即A1=A2
(2)point1和point2的停留时间的差值比小于给定时间阈值δt,即|t1-t2|/max(t1,t2)≤δt
更进一步,步骤2)中挖掘每个移动对象的频繁语义行为模式的方法如下:
2-1)找出频繁语义行为模式P的投影数据库LD(P)中长度为1的频繁语义符号集合S1
2-2)将S1中的每个语义符号β扩展至P后面,扩展为候选模式P'=P⊕β,并构造P’的投影数据库LD(P’);
2-3)对于LD(P’)中的每一个项集tp’,选取LD(P’)中与tp’等价的有效集合M;
2-4)若M中的项集个数大于给定最小支持度fmin,构造频繁语义行为模式Pnew,并递归调用本方法直至不再产生新的频繁语义行为模式;
更进一步,所述语义行为模式P的投影数据库LD(P)是有一系列四元组{tp1,tp2,…,tpn}组成,其中tpi=<sid,pos,t,proj>,其中sid是语义轨迹在D中的标识号;pos是P中最后一个停留点在语义轨迹中的位置;t是在P中最后一个停留点的停留时间;proj是pos位置上以P为前缀的子序列。
更进一步,所述步骤2-2)中⊕表示扩展操作;
更进一步,所述步骤2-3)中LD(P’)中与tp’等价的有效集合M是LD(P’)中停留时间在[tp'.t,tp'.t/1-δt]范围内的项集,其中tp’.t是tp’的停留时间;
更进一步,所述步骤2-4)中根据有效集合M={tp1,tp2,…,tpm}和候选模式P'=P⊕β构造频繁语义行为模式Pnew的方法如下:
(1)构造移动对象在停留点β的停留时间
(2)构造语义行为模式Pnew=P⊕(β,tβ);
更进一步,步骤3)所述语义行为模式P与Q之间的相似度度量方法是采用动态规划算法逐步计算P与Q之间的相似度;
更进一步,所述语义行为模式P与Q之间的相似度其中LCS是P与Q的最长公共子串,WP,Q (pointi)是LCS中语义点pointi=(Ai,ti)的时间权值;
更进一步,所述P与Q的最长公共子串LCS满足:
(1)P匹配LCS且Q匹配LCS;
(2)LCS中的任意语义点pointi=(Ai,ti)满足:其中Pf(i).A=Qg(i).A=Ai;f(i)表示pointi在P中位置的映射函数,g(i)表示pointi在Q中位置的映射函数,表示P中第f(i)个语义点的停留时间,表示Q中第g(i)个语义点的停留时间,Pf(i)表示P中第f(i)个语义点,Qg(i)表示Q中第g(i)个语义点,Pf(i).A表示P中第f(i)个语义点的停留点,Qg(i).A表示Q中第g(i)个语义点的停留点;
更进一步,所述语义行为模式P与Q的最长公共子串LCS中语义点pointi的时间权 重
更进一步,所述动态规划算法采用SM矩阵保存最长公共子串计算过程中语义行为模式之间的时间权值,SM[i,j]的计算公式定义如下:
其中wij=1-|Pi.t-Qj.t|/max(Pi.t,Qj.t);
更进一步,步骤4)所述移动对象层次聚类方法如下:
4-1)将每个C=(U,P)视为单独的聚类,其中P是语义行为模式、U是与P对应的移动对象;
4-2)计算所有聚类中语义行为模式对的相似度矩阵及最长公共子串矩阵;
4-3)由底至上对移动对象进行聚类,不断迭代,直至不再产生新的聚类为止;
更进一步,所述步骤4-3)中的迭代方法如下:
(1)找出不同聚类之间最相似的两个语义行为模式;
(2)将此两个聚类合并为新的聚类插入聚类集合中,并从聚类集合中删除此两个聚类;
(3)采用剪枝策略,调整相似度矩阵及最长公共子串矩阵;
(4)若不存在满足条件的最相似两个语义行为模式,则完成迭代;
更进一步,所述步骤(1)中两个语义行为模式需满足:此两个语义行为模式之间的最长公共子串长度大于给定长度阈值δlen,并且其对应的移动对象集合交集为空;
更进一步,所述步骤(3)中采用剪枝策略忽略不满足条件的语义行为模式对,不进行调整;
更进一步,所述剪枝策略是语义行为模式P与Q的最长公共子串的长度小于等于P、Q之间等价的语义点个数。
本发明提出了一种基于停留时间的移动对象语义行为模式挖掘方法,它不仅能有效地挖掘出具有相似行为习惯和生活方式的移动对象群体,而且能准确地分辨不同的语义行为模式。与现有的移动对象轨迹模式挖掘方法无法准确地分辨出移动对象之间不同的语义行为模式相比,本发明具有如下优势:
(1)本发明在停留时间的基础上,提出了移动对象语义行为模式挖掘方法、模式相似性度量方法和相似移动对象聚类方法,提高了语义行为模式挖掘的准确率。如图2(a)—2(b)所示,图2(a),2(b)分别是准确性与最小支持度和停留阈值的关系图,其中纵坐标为语义行为模式挖掘的准确率(ratio),横坐标为最小支持度(min_sup(percentage)),δt表示停留阈值。
(2)本发明采用剪枝策略降低了频繁调整相似度矩阵及最长公共子串矩阵的计算代价,提高了效率。如图3(a)—3(b)所示,图3(a),3(b)分别是算法执行时间与模式平均长度和停留阈值的关系图,其中纵坐标为执行时间(runtime),横坐标为模式平均长度(Lpattern),δt表示停留阈值,SU-Cluster表示未采用剪枝策略的层次聚类算法,Optimized-SUC表示采用剪枝策略的层次聚类算法。
综合以上分析,本发明可以保证移动对象语义行为模式挖掘的高准确性和高效性。该发明的最终结果可以提供给相关领域的用户使用,例如朋友推荐系统、轨迹破案领域、个性化服务领域等,可以支持对移动对象群体相似语义行为模式的准确查找,降低错误率。
附图说明
图1是本发明整体架构的示意图。
图2(a)是准确性与最小支持度的关系图,图2(b)是准确性与停留阈值的关系图。
图3(a)是算法执行时间与模式平均长度的关系图,图3(b)是算法执行时间与停留阈值的关系图。
具体实施方式
下面结合附图,通过实例进一步说明本发明,但不以任何方式限制本发明的范围。
本发明的整体架构如图1所示,其原理是:
首先在一系列移动对象的语义轨迹集合中,挖掘出每个移动对象的基于停留时间的频繁语义行为模式。在本发明中移动对象的语义轨迹是由一组语义点组成的有序序列S,其中语义点point=(A,t),A表示移动对象的停留点,t表示移动对象在A的停留时间。表1给出了一个语义轨迹集合D,共包括四条语义轨迹。语义行为模式是由一组语义点组成的有序序列P,并且P满足:移动对象语义轨迹集合D中与P匹配的语义轨迹数大于给定最小支持度fmin
表1.语义轨迹集合
标识号 语义轨迹
1 {(a,10),(b,4),(c,1),(b,4)}
2 {(b,1),(d,2),(e,0.5),(f,2)}
3 {(a,10),(b,1),(c,4)}
4 {(a,10),(b,0.5),(d,0.5),(c,4)}
语义轨迹S与语义行为模式P匹配是指S存在子序列SP,并且SP与P满足:
(1)SP与P的长度相等;
(2)SP与P中对应的语义点和等价。
语义点point1与point2等价满足:
(1)point1和point2中的停留点相同,即A1=A2
(2)point1和point2的停留时间满足限定关系,即满足差值比小于给定时间阈值δt,表示为|t1-t2|/max(t1,t2)≤δt
如表1所示,假设δt=0.5,fmin=0.5,{(a,10),(b,0.5),(c,4)}是一个语义行为模式。然而任意形如{(a,10),(b,t),(c,4)}(其中t∈[0.5,1])的语义行为模式都满足条件。因此,本发明采用平均停留时间来表示语义行为模式中的停留时间。
在挖掘频繁语义行为模式的过程中,深度优先递归地扩展语义行为模式,试探其是否满足频繁语义行为模式的条件,并通过不断构建投影数据库有效降低支持度及停留时间计算的时间复杂度。语义行为模式P的投影数据库是有一组四元组{tp1,tp2,…,tpn}组成,其中tpi=<sid,pos,t,proj>,其中sid是语义轨迹的标识号;pos是P中最后一个停留点在语义轨迹中的位置;t是在P中最后一个停留点的停留时间;proj是pos位置上以P为前缀的子序列。表2为表1中语义轨迹集合的b-投影数据库。
表2.b-投影数据库
然后在停留时间的基础上,给出了语义行为模式之间的相似度度量方法。语义行 为模式P和Q之间的相似度其中LCS是P与Q的 最长公共子串,WP,Q(pointi)是LCS中语义点pointi=(Ai,ti)的时间权值。
P与Q的最长公共子串LCS满足:
(1)P匹配LCS且Q匹配LCS;
(2)LCS中的任意语义点pointi=(Ai,ti)满足:其中Pf(i).A=Qg(i).A=Ai
语义行为模式P与Q的最长公共子串LCS中语义点pointi的时间权重
以表1中第3条和第4条轨迹为例,P={(a,10),(b,1),(c,4)}和Q={(a,10),(b,0.5),(d,0.5),(c,4)},假设δt=0.5,那么P与Q的最长公共子串为LCS(P,Q)=<(a,10),(b,0.75),(c,4)>。表3给出了LCS(P,Q)的时间权值,因此P、Q之间的相似度为Sim(P,Q)=(1/3+1/4)×(1+0.5+1)=1.46。
表3.时间权值计算列表
在计算语义行为模式之间相似度的过程中,采用动态规划算法逐步计算,并使用SM矩阵保存最长公共子串计算过程中语义行为模式之间的时间权值,SM[i,j]的计算公式定义如下:
其中wij=1-|Pi.t-Qj.t|/max(Pi.t,Qj.t)。以表1中第3条和第4条轨迹为例,P={(a,10),(b,1),(c,4)}和Q={(a,10),(b,0.5),(d,0.5),(c,4)},矩阵SM的计算过程如表4所示。
表4.语义行为模式轨迹相似度计算
最后在语义行为模式相似度的基础上,采用由底至上的层次聚类对移动对象聚类。先将每个C(语义行为模式及其对应的移动对象)视为单独的聚类,再依据语义行为模式之间的相似性进行聚类,直至聚类中的最长公共子串长度小于δlen为止。
基于停留时间的语义行为模式挖掘的具体过程包括:
第一步:对于每一个移动对象,深度优先递归地扩展语义行为模式,通过构建投影数据库,选取语义行为模式的有效集合,若满足频繁语义行为模式的条件,则构建语义行为模式,并继续递归扩展。否则,结束递归。具体方法如下:
1.找出P的投影数据库LD(P)中长度为1的频繁语义符号集合S1,其中语义符号即语义点中的停留点。
2.访问S1中每一个频繁停留点β,扩展新的语义行为模式并判断是否满足频繁语义行为模式的条件。若满足条件则构建新的语义行为模式,具体方法如下:
⑴将β扩展至P后面扩展为P'=P⊕β。
⑵访问LD(P)中每一个四元组tp,构建tp对应的新四元组tp’,添加至P’的投影数据库LD(P’),具体方法如下:
①找出语义轨迹集合D中tp对应的语义轨迹S=D(tp.sid)。
②访问S中tp.pos位置后面停留点为β的语义点pointi,构建新的四元组pointi.t,tp.proj⊕β>,并将tp’添加至LD(P’)中。
⑶访问LD(P’)中的每一个四元组tp’,构建频繁语义行为模式Pnew,具体方法如下:
①选取LD(P’)中tp’的有效集合M,具体方法如下:
●计算出tp’的等价停留时间范围R=[tp'.t,tp'.t/1-δt]。
●返回LD(P’)中停留时间在R范围内的四元组集合M。
②若M的元素个数大于等于最小支持度fmin,则构造频繁语义行为模式Pnew,具体方法如下:
●计算中所有四元组中β停留时间的平均值
●构建新的语义行为模式Pnew=P⊕(β,tβ),并继续递归扩展Pnew
例如,在表2中,假设δt=0.5,tp’=<3,2,1,{(c,4)}>,则等价停留时间R=[1,2],等价项集M={<2,1,1,{(d,2),(e,0.5),(f,2)}>,<3,2,1,{(c,4)}>},停留点b的平均停留时间tb=(1+1)/2=1。
第二步:采用动态规划算法逐步计算所有语义行为模式之间的相似度,每一对语义行为模式P和Q使用SM矩阵保存最长公共子串计算过程中语义行为模式之间的时间权值(SM.count)和平均停留时间(SM.t),具体方法如下:
1.初始化SM矩阵的第一行第一列,设置为0。
2.依据公式(1)逐步计算SM矩阵中的数值,具体方法如下:
⑴访问P、Q中的每一对语义点Pi和Qj,如果Pi与Qj等价,则SM[i,j].count设置为SM[i-1,j-1]+wij,其中wij=1-|Pi.t-Qj.t|/max(Pi.t,Qj.t);而SM[i,j].t设置为(Pi.t+Qj.t)/2。
⑵否则如果SM[i-1,j].count大于SM[i,j-1].count,则将SM[i,j]赋值为SM[i-1,j]。
⑶否则则将SM[i,j]赋值为SM[i,j-1]。
3.依据相似度计算公式计算P、Q之间的相似度。
如表4所示,算法首先计算SM[1,1],由于P1=(a,10)与Q1=(a,10)等价,根据公式(1)可以得到SM[1,1].count=0+1=1,停留时间取平均值SM[1,1].t=(10+10)/2=10,然后处理SM[1,2],由于P1=(a,10)与Q2=(b,0.5)不等价,因此SM[1,2]不增加,取值SM[1,1]与SM[0,2]中数值较大者,即SM[1,2]=SM[1,1]=(1,10)。通过这种方式,能逐步计算出SM中的数值,直至最后找出最长公共子串。
第三步:根据第一步中语义行为模式挖掘得到集合其中ci=(U,P),P是语义行为模式,U是与P对应的移动对象。将每个ci(语义行为模式及其对应的移动对象)视为单独的聚类,然后依据第二步中计算的语义行为模式之间的相似性由底至上进行层次聚类,直至聚类中的最长公共子串长度小于δlen为止。具体方法如下:
1.依据第二步初始化所有聚类中语义行为模式对的相似度矩阵SM及最长公共子串矩阵LCS。
2.由底至上对移动对象进行层次聚类,直至不再产生新的聚类为止,具体方法如下:
⑴从不同聚类之间找出一对最相似的语义行为模式cp和cq,且满足cq与cq的最长公共子串长度大于等于给定长度阈值δlen,以及cq和cq对应的移动对象集合交集为空。
⑵如果找到上述⑴中的一对cp和cq,则将cp和cq合并为新的聚类cnew,将cnew插入聚类集合C中,并从C中删除cp和cq
⑶扫描SM矩阵中与cnew相关的部分,采用剪枝策略调整SM矩阵及LCS矩阵,避免不必要的计算,具体方法如下:
①访问C中每个聚类ci,计算cnew与ci中语义行为模式之间等价语义点的个数LCS-Boundary(cnew.P,ci.P)。
②若LCS-Boundary(cnew.P,ci.P)大于等于给定长度阈值δlen,则计算cnew与ci中语义行为模式之间的相似度及最长公共子串,更新SM和LCS。
③否则,SM和LCS不进行调整。
⑷若没找到满足条件的cp和cq,则完成迭代。
⑸访问C中每个聚类ci,若ci中移动对象个数大于给定阈值μ,则ci为满足条件的具有相似语义行为模式的移动对象聚类。
以上通过实施例对本发明进行了详细的描述,本领域的技术人员应当理解,在不超出本发明的精神和实质的范围内,对本发明做出一定的修改和变动,比如移动对象语义行为模式挖掘过程中可以使用其他挖掘方法代替本发明中的方法,或语义行为模式相似性度量方法可以使用其他度量方法代替本发明中的方法,或移动对象聚类过程中可以使用其他聚类方法代替本发明中的层次聚类方法,仍然可以实现本发明的目的。

Claims (17)

1.一种基于停留时间的移动对象语义行为模式挖掘方法,其步骤包括:
1)对移动对象的语义轨迹数据进行采集,存储移动对象的语义点(A,t),其中A表示移动对象的停留点,t表示停留时间;
2)对每个移动对象,采用以下步骤挖掘出其所有的频繁语义行为模式:
2-1)找出频繁语义行为模式P的投影数据库LD(P)中长度为1的频繁语义符号集合S1;所述投影数据库LD(P)是由一系列四元组{tp1,tp2,…,tpn}组成,其中tpi=<sid,pos,t,proj>,其中sid是语义轨迹在移动对象语义轨迹集合D中的标识号;pos是P中最后一个停留点在语义轨迹中的位置;t是在P中最后一个停留点的停留时间;proj是pos位置上以P为前缀的子序列;
2-2)将S1中的每个语义符号β扩展至P后面,扩展为候选模式并构造P’的投影数据库LD(P’);其中表示扩展操作;
2-3)对于LD(P’)中的每一个项集tp’,选取LD(P’)中与tp’等价的有效集合M;
2-4)若M中的项集个数大于给定最小支持度fmin,构造频繁语义行为模式Pnew,并递归调用本方法直至不再产生新的频繁语义行为模式;
3)采用基于时间权重的语义行为模式相似度度量方法,计算所述频繁语义行为模式之间的相似度;
4)根据所述频繁语义行为模式之间的相似度,采用剪枝策略进行层次聚类,挖掘出所有具有相似语义行为模式的移动对象聚类。
2.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述移动对象语义轨迹用S表示,S由一系列有序的语义点{(A1,t1),(A2,t2),...,(An,tn)}组成。
3.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述频繁语义行为模式用P表示,P是由一系列有序的语义点{(A1,t1),(A2,t2),...,(Am,tm)}组成,并且P满足:移动对象语义轨迹集合D中与P匹配的语义轨迹数大于给定最小支持度fmin
4.如权利要求3所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述移动对象语义轨迹集合D中的语义轨迹S与语义行为模式P匹配是指S存在子序列SP,并且SP与P满足:
(1)SP与P的长度相等;
(2)SP与P中对应的语义点等价。
5.如权利要求4所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,设point1=(A1,t1)和point2=(A2,t2)为两个语义点,所述语义点等价满足:
(1)point1和point2的停留点相同,即A1=A2
(2)point1和point2的停留时间的差值比小于等于给定时间阈值δt,即|t1-t2|/max(t1,t2)≤δt
6.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述LD(P’)中与tp’等价的有效集合M是LD(P’)中停留时间在[tp'.t,tp'.t/(1-δt)]范围内的项集,其中tp’.t是tp’的停留时间。
7.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,步骤2-4)根据有效集合M={tp1,tp2,…,tpm}和候选模式构造频繁语义行为模式Pnew的方法如下:
(1)构造移动对象在停留点β的停留时间其中,m表示有效集合M的元素个数,n表示LD(P)的四元组个数,tpi.t表示tpi的停留时间;
(2)构造语义行为模式
8.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,步骤3)中语义行为模式P与Q之间的相似度度量方法是采用动态规划算法逐步计算P与Q之间的相似度。
9.如权利要求8所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述语义行为模式P与Q之间的相似度其中LCS是P与Q的最长公共子串,WP,Q(pointi)是LCS中语义点pointi=(Ai,ti)的时间权值。
10.如权利要求9所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述P与Q的最长公共子串LCS满足:
(1)P匹配LCS且Q匹配LCS;
(2)LCS中的任意语义点pointi=(Ai,ti)满足:其中Pf(i).A=Qg(i).A=Ai;其中,f(i)表示pointi在P中位置的映射函数,g(i)表示pointi在Q中位置的映射函数,表示P中第f(i)个语义点的停留时间,表示Q中第g(i)个语义点的停留时间,Pf(i)表示P中第f(i)个语义点,Qg(i)表示Q中第g(i)个语义点,Pf(i).A表示P中第f(i)个语义点的停留点,Qg(i).A表示Q中第g(i)个语义点的停留点。
11.如权利要求10所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述语义行为模式P与Q的最长公共子串LCS中语义点pointi的时间权重
12.如权利要求11所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述动态规划算法采用SM矩阵保存最长公共子串计算过程中语义行为模式之间的时间权值,SM[i,j]的计算公式定义如下:
其中wij=1-|Pi.t-Qj.t|/max(Pi.t,Qj.t),其中Pi.t表示P中语义点Pi的停留时间,Qj.t表示Q中语义点Qj的停留时间。
13.如权利要求1所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,步骤4)采用的移动对象层次聚类方法如下:
4-1)将每个C=(U,P)视为单独的聚类,其中P是语义行为模式、U是与P对应的移动对象;
4-2)计算所有聚类中语义行为模式对的相似度矩阵及最长公共子串矩阵;
4-3)由底至上对移动对象进行聚类,不断迭代,直至不再产生新的聚类为止。
14.如权利要求13所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,步骤4-3)所述迭代的方法如下:
(1)找出不同聚类之间最相似的两个语义行为模式;
(2)将此两个聚类合并为新的聚类插入聚类集合中,并从聚类集合中删除此两个聚类;
(3)采用剪枝策略,调整相似度矩阵及最长公共子串矩阵;
(4)若不存在满足条件的最相似两个语义行为模式,则完成迭代。
15.如权利要求14所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述找出不同聚类之间最相似的两个语义行为模式需满足:此两个语义行为模式之间的最长公共子串长度大于给定长度阈值δlen,并且其对应的移动对象集合交集为空。
16.如权利要求14所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述采用剪枝策略忽略不满足条件的语义行为模式对,不进行调整。
17.如权利要求16所述的基于停留时间的移动对象语义行为模式挖掘方法,其特征在于,所述剪枝策略是语义行为模式P与Q的最长公共子串的长度小于等于P、Q之间等价的语义点个数。
CN201510462970.8A 2015-07-31 2015-07-31 一种基于停留时间的移动对象语义行为模式挖掘方法 Active CN105117424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510462970.8A CN105117424B (zh) 2015-07-31 2015-07-31 一种基于停留时间的移动对象语义行为模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510462970.8A CN105117424B (zh) 2015-07-31 2015-07-31 一种基于停留时间的移动对象语义行为模式挖掘方法

Publications (2)

Publication Number Publication Date
CN105117424A CN105117424A (zh) 2015-12-02
CN105117424B true CN105117424B (zh) 2019-08-02

Family

ID=54665414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510462970.8A Active CN105117424B (zh) 2015-07-31 2015-07-31 一种基于停留时间的移动对象语义行为模式挖掘方法

Country Status (1)

Country Link
CN (1) CN105117424B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678246B (zh) * 2015-12-31 2018-09-18 浙江工业大学 一种基于基站标号轨迹的运动模式挖掘方法
CN105528659A (zh) * 2016-01-27 2016-04-27 浙江大学 一种基于序列模式结合时间上下文的移动终端app使用预测方法
CN106339417B (zh) * 2016-08-15 2019-10-01 浙江大学 基于移动轨迹中停留点的用户群体行为规律检测方法
CN107071719A (zh) * 2016-12-12 2017-08-18 浙江大学 一种基于室内移动对象轨迹分析的热点区域热度分析方法
CN108509434B (zh) * 2017-02-23 2020-12-25 中国移动通信有限公司研究院 一种群体用户的挖掘方法及装置
CN106951510A (zh) * 2017-03-17 2017-07-14 福州大学 基于bide算法与最长公共子序列的序列型数据同一鉴定系统及方法
CN107291816B (zh) * 2017-05-22 2020-07-28 西安交通大学 一种针对时空序列数据的群体热点区域分析方法
CN109947874B (zh) * 2017-11-16 2023-02-24 腾讯科技(深圳)有限公司 移动轨迹的聚合方法、装置及设备
CN108052924B (zh) * 2017-12-28 2020-10-27 武汉大学深圳研究院 空间运动行为语义模式的辨识方法
CN109243535A (zh) * 2018-09-13 2019-01-18 河南财经政法大学 同步编程模型Hama BSP下基于蝶形网络的双聚类挖掘方法
CN109299198A (zh) * 2018-10-12 2019-02-01 元力云网络有限公司 一种基于多维数据的社交关系分析方法
CN109885643B (zh) * 2019-03-04 2021-05-28 上海迹寻科技有限公司 一种基于语义轨迹的位置预测方法及存储介质
CN110110225B (zh) * 2019-04-17 2020-08-07 重庆第二师范学院 基于用户行为数据分析的在线教育推荐模型及构建方法
CN112104979B (zh) * 2020-08-24 2022-05-03 浙江云合数据科技有限责任公司 一种基于WiFi扫描记录的用户轨迹提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103116614A (zh) * 2013-01-25 2013-05-22 北京奇艺世纪科技有限公司 一种基于用户轨迹的协同过滤推荐方法、装置及系统
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN103914563A (zh) * 2014-04-18 2014-07-09 中国科学院上海微系统与信息技术研究所 一种时空轨迹的模式挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880719A (zh) * 2012-10-16 2013-01-16 四川大学 基于位置社交网络的用户轨迹相似性挖掘方法
CN103116614A (zh) * 2013-01-25 2013-05-22 北京奇艺世纪科技有限公司 一种基于用户轨迹的协同过滤推荐方法、装置及系统
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN103914563A (zh) * 2014-04-18 2014-07-09 中国科学院上海微系统与信息技术研究所 一种时空轨迹的模式挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Semantic trajectory mining for location prediction;Josh Jia-Ching Ying等;《ACM》;20111231;第34-43页 *
时空轨迹聚类方法研究进展;龚玺等;《地球科学进展》;20110531;第522-534页 *
移动对象轨迹时空相似性度量方法;赵洪斌等;《计算机工程与应用》;20101231;第9-12页 *

Also Published As

Publication number Publication date
CN105117424A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105117424B (zh) 一种基于停留时间的移动对象语义行为模式挖掘方法
Supriyadi et al. Classification of natural disaster prone areas in Indonesia using K-means
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Leung et al. Frequent pattern mining from time-fading streams of uncertain data
Tong et al. Mining frequent itemsets over uncertain databases
Zhao et al. Mining probabilistically frequent sequential patterns in large uncertain databases
Li et al. Stepping community detection algorithm based on label propagation and similarity
Zhang et al. A novel approach for efficient supergraph query processing on graph databases
CN109241126A (zh) 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN109359249B (zh) 基于学者科研成果挖掘的学者精准定位方法及装置
Zhang et al. Novel density-based and hierarchical density-based clustering algorithms for uncertain data
CN103617163B (zh) 基于聚类分析的目标快速关联方法
Manikandan et al. Sequential pattern mining on chemical bonding database in the bioinformatics field
CN113157800A (zh) 实时发现空中动态目标识别方法
CN104156635B (zh) 基于公共子序列的基因芯片表达数据的opsm挖掘方法
Zhang et al. Fuzzy analysis of community detection in complex networks
Prado et al. Mining spatiotemporal patterns in dynamic plane graphs
Pelekis et al. Mining trajectory databases via a suite of distance operators
Tong et al. Efficient probabilistic supergraph search over large uncertain graphs
Greenberg et al. Compact representation of uncertainty in clustering
CN105354243B (zh) 基于归并聚类的并行化频繁概率子图搜索方法
Li et al. Network Voronoi Diagram on uncertain objects for nearest neighbor queries
Niedermayer et al. Similarity search on uncertain spatio-temporal data
Nack et al. Serein: Smart home sensor relationship inference
Imani et al. Time2Cluster: Clustering time series using neighbor information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant