CN112269844B - 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 - Google Patents

基于大规模轨迹数据的通用伴随模式分布式挖掘方法 Download PDF

Info

Publication number
CN112269844B
CN112269844B CN202011019669.7A CN202011019669A CN112269844B CN 112269844 B CN112269844 B CN 112269844B CN 202011019669 A CN202011019669 A CN 202011019669A CN 112269844 B CN112269844 B CN 112269844B
Authority
CN
China
Prior art keywords
cluster
algorithm
boundary point
track
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011019669.7A
Other languages
English (en)
Other versions
CN112269844A (zh
Inventor
张敬伟
刘绍建
成静
张康威
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202011019669.7A priority Critical patent/CN112269844B/zh
Publication of CN112269844A publication Critical patent/CN112269844A/zh
Application granted granted Critical
Publication of CN112269844B publication Critical patent/CN112269844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及轨迹数据处理技术领域,具体地说,涉及一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其以下步骤:一、建立轨迹数据集;二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法进行密度聚类;三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘。本发明能够较佳地挖掘通用伴随模式。

Description

基于大规模轨迹数据的通用伴随模式分布式挖掘方法
技术领域
本发明涉及轨迹数据处理技术领域,具体地说,涉及一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法。
背景技术
具有定位功能的移动设备的普及使用,轨迹数据呈现爆炸式增长,轨迹数据多为时空序列,被携带有定位装置的移动对象不断以固定的频率产生,蕴含着丰富的价值。在大规模的轨迹中提取出通用伴随模式具有重要的意义,为上层的服务提供了诸多可能。通用伴随模式挖掘可用于改善城市交通状况,通过发现通用伴随模式可以预测某一时间段内某段道路是否会发生交通拥堵,从而提前疏导交通以避免交通拥堵;处于相同通用伴随模式的一组群体往往具有某些相似的特征,通过对这些相似的特征进行挖掘可以提高社会推荐服务;通用伴随模式挖掘在事件调查方面也具有广泛运用场景,通过挖掘的通用伴随模式为寻找事件发生的可能原因提供支持。
伴随模式是指在某一范围内一定数量的运动对象在某一时间段内伴随运动,它具有时间性和空间性。从轨迹数据中挖掘伴随模式的方法从实现方案上可分为单机与分布式两类。分布式方案分为数据处理、数据分区和轨迹挖掘三个阶段,单机方案可分为数据处理和轨迹挖掘两个阶段。
现有的研究大多关注于如何在轨迹数据中快速的挖掘出伴随模式,将整个挖掘任务的重点放在轨迹挖掘阶段,对数据处理阶段则采用基于欧氏距离的密度聚类或圆盘聚类。但在现实生活与实践运用中,挖掘出对象间运动方向相似的比运动方向差异大的轨迹更具有实际意义,对基于欧式距离的聚类方法形成了挑战。
如图1所示,采用欧式距离的聚类方法会将(O1,T3)、(O2,T3)聚为一类,但在现实生活中将(O2,T3)、(O3,T3)聚为一类更具有意义,因为很可能对象O1与对象O2在岔路口处选择了不同的路,而O3与O2选择了相同的路。亟需一种新的距离度量方式,能实现在扩大对象运动方向上的横向聚类半径的同时缩小纵向聚类半径。
伴随模式挖掘中的聚类具有时间相关性,对象在某一时刻的聚类情况与它的上一时刻和下一时刻的聚类情况会对挖掘结果产生影响。由于聚类起始点是随机选取的,每个轨迹点也只能被归为一个簇,所以在聚类过程中会产生一定数量可同时归为不同簇的边界点,现有的工作单纯的按照对象被访问的顺序进行划分,影响了伴随模式挖掘的质量。怎样合理的划分边界点对聚类算法形成了挑战。如图2所示,对象O2和对象O3为核心点,对象O1为边界点,对象O1可同时处于对象O2与O3所属的簇,怎样合理的划分O1对于伴随模式挖掘具有重要意义。
如图3所示,不同的颜色表示不同的伴随模式,在现实生活中会存在这样一种现象,大量的轨迹会集中式的经过某个公共场所,如超市、加油站等等,需要伴随模式挖掘算法去积极地识别它.GCMP中将这种现象定义为松散连接,通过设置参数G来避免它,处理效果不好。现实生活中它很可能是一种正常现象,因为伴随模式具有时间性,所以对象O2与对象O3很可能处于两种不同的伴随状态。现有的方法并不能去挖掘和区分它们,同时挖掘具有松散连接现象的伴随模式需要扫描整个轨迹,对伴随模式挖掘算法的性能提出了挑战。
发明内容
本发明的内容是提供一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其包括以下步骤:
一、建立轨迹数据集;
二、DBSCANCD算法先进行密度聚类,然后TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;
三、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘。
作为优选,步骤一后,先对数据预处理,然后进行步骤二。
作为优选,数据预处理包括:将运动对象的原始编号进行了重新编号,使编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
作为优选,DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(1)cluster←0,
Figure GDA0003100624060000031
CI←1;
(2)CrDis←ePs/angle;
(3)for all sj in Si
(4)if sj is not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤ePs);
(8)if|C′|≥minPts;
(9)C′←C′-sj
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)if e没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if clusterindex≠C,0and e≠sj
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′;第22~24行得到了边界点e,并添加到BPSet集中。
作为优选,TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)output CB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP-q;
9)M←SBSBPc(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm
13)S←change q;
14)if qt-1∈CP andqt-1∈N;
15)S←change qt-1
16)CP←CP-qt-1
17)end if;
18)if qt+1∈CPand qt+1∈N;
19)S←change qt+1
20)CP←CP-qt+1
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-S(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原始的聚类结果集CR,形成了最终聚类平衡集合CB。
作为优选,GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
Figure GDA00031006240600000512
Figure GDA0003100624060000052
end for;
Figure GDA0003100624060000053
for ni in N;
Figure GDA0003100624060000054
if
Figure GDA0003100624060000055
and ni没被访问;
Figure GDA00031006240600000513
W←ni;
Figure GDA0003100624060000056
for nj in N;
Figure GDA0003100624060000057
if nj没被访问andni.label≠nj.label;
Figure GDA0003100624060000058
if|ni.T∩nj.T|≥K;
Figure GDA0003100624060000059
W←nj;
Figure GDA00031006240600000510
nj←is Visited;
Figure GDA00031006240600000511
end if;
Figure GDA0003100624060000061
end if;
Figure GDA0003100624060000062
end for;
Figure GDA0003100624060000063
end if;
Figure GDA0003100624060000064
if|W|≥M-1;
Figure GDA0003100624060000065
STGS←W;
Figure GDA0003100624060000066
end if;
Figure GDA0003100624060000067
Figure GDA0003100624060000068
end for;
Figure GDA0003100624060000069
output STGS;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进行过滤,最终得到有效地子轨迹群并添加进STGS。
本发明具有如下技术效果:
1)在数据处理阶段提出了DBSCANCD(DBSCAN based on Cosine Distancebetween two points)算法和TCB(Time-dependent Clustering Balance)算法,DBSCANCD算法通过使用CDAP(Cosine Distance of the Angle between two Points)对轨迹点进行密度聚类,可以有效地扩大相似于对象运动方向上的轨迹点发现,同时减少与对象运动方向差异大的轨迹点发现。TCB算法以密度聚类结果作为输入,根据每一快照下的每个边界点形成一个边界点划分集合,通过计算集合成员间的相似度,对边界点进行合理划分。聚类平衡算法采用贪心策略的思想,每次计算尽最大可能划分更多边界点,以取得局部最优解;
2)在挖掘阶段提出了GSPR(G Segment Pruning and Repartitioning)算法和SAE(Segmented Apriori Enumerator)算法,通过对分区数据进行G分段剪枝和重划分来有效地挖掘具有松散连接现象的伴随模式,同时保证SAE算法的性能。
附图说明
图1为现有技术中不合理聚类的示意图;
图2为现有技术中聚类边界点的示意图;
图3为现有技术中松散连接的示意图;
图4为实施例1中一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法的流程图;
图5为实施例1中分布式聚类及聚类平衡框架;
图6为实施例1中CDAP与欧式距离的关系图;
图7为实施例1中欧式距离与CDAP单一聚类区域对比图;
图8为实施例1中分布式伴随模式挖掘框架;
图9为实施例1中DMFUCP框架对UCP发现能力评估图;
图10为实施例1中DMFUCP框架对Platoon和Swarm发现能力评估图;
图11为实施例1中DMFUCP框架TS性能评估图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图4所示,本实施例提供了一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其包括以下步骤:
一、建立轨迹数据集;
二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法先进行密度聚类;
三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;
四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘。
本实施例中,步骤一后,先对数据预处理,然后进行步骤二。
本实施例中,数据预处理包括:将运动对象的原始编号进行了重新编号,使编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
本实施例中,DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(1)cluster←0,
Figure GDA0003100624060000081
CI←1;
(2)CrDis←ePs/angle;
(3)for all sj in Si
(4)if sj is not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤ePs);
(8)if|C′|≥minPts;
(9)C′←C′-sj
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)if e没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if cluster(index)≠C,0and e≠sj
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′;第22~24行得到了边界点e,并添加到BPSet集中。
本实施例中,TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)outputCB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP-q;
9)M←SBS(BPC(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm
13)S←change q;
14)if qt-1∈CP andqt-1∈N;
15)S←change qt-1
16)CP←CP-qt-1
17)end if;
18)if qt+1∈CP and qt+1∈N;
19)S←change qt+1
20)CP←CP-qt+1
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-S(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原始的聚类结果集CR,形成了最终聚类平衡集合CB。
本实施例中,GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
Figure GDA0003100624060000101
Figure GDA0003100624060000102
end for;
Figure GDA0003100624060000103
for ni in N;
Figure GDA00031006240600001021
and ni没被访问;
Figure GDA0003100624060000105
W←ni;
Figure GDA0003100624060000106
for nj in N;
Figure GDA0003100624060000107
if nj没被访问and ni.label≠nj.label;
Figure GDA0003100624060000108
if |ni.T∩nj.T|≥K;
Figure GDA0003100624060000109
W←nj;
Figure GDA00031006240600001010
nj←is Visited;
Figure GDA00031006240600001011
end if;
Figure GDA00031006240600001012
end if;
Figure GDA00031006240600001013
end for;
Figure GDA00031006240600001014
end if;
Figure GDA00031006240600001015
if|W|≥M-1;
Figure GDA00031006240600001016
STGS←W;
Figure GDA00031006240600001017
end if;
Figure GDA00031006240600001018
Figure GDA00031006240600001019
end for;
Figure GDA00031006240600001020
output STGS;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进行过滤,最终得到有效地子轨迹群并添加进STGS。
如下表所示,为本实施例中使用到的一些符号和基本术语:
Figure GDA0003100624060000111
通用伴随模式(UCP,Universal Companion Pattern):给定对象集O=<o1,o2,…on>,聚类簇集C=<c1,c2,…cn>,其中ci=(Oi,ti,i),UCP={Os,TUs},其中
Figure GDA0003100624060000112
i<j<n,UCP满足:(1)
Figure GDA0003100624060000113
(2)|Os|≥M;(3)
Figure GDA0003100624060000114
(4)∑(|TUs[i:j]|)≥K;(5)
Figure GDA0003100624060000115
UCP具有五个约束,其中第一个为基本约束,第二到第五个约束通过参数的形式进行调节以适应不同条件下的伴随模式.例如G=1时UCP转变为Convoy和Flock,这使得UCP能更好的适应现实生活.与已有的研究不同,本实施例的参数G还将用于GSPR算法中的长轨迹分割。
下面给出一个实例来理解UCP:当G=2,K=3,M=3,L=2时,给定UCP={Os,TUs},TUs=(1,2,4,5,9,10,11,18),Os=(1,2,4,5),C={(Os,1,1),(Os,2,3),(Os,4,7),(Os,5,10),(Os,9,2),(Os,10,4),(Os,11,6)},根据定义1及参数G可以得到两个UCP,分别为UCP1={Os,(1,2,4,5)},UCP2={Os,(9,10,11)}。
定义2.相邻轨迹点线段(pSegment):给定轨迹P=<p1,p2,…,pn>,其中pn=(xn,yn,tn),xn为pn的经度,yn为pn的纬度,tn为pn的时间戳,相邻轨迹点线段pSegment表示为pS(i)=T[pi:pi+1],当且仅当pi+1-pi≤Δt。
定义3.pSegment方向向量(pVector):给定轨迹T=<p1,p2,…,pn>,则pVector表示在以0经度线和0纬度线构成的二维坐标中运动对象在相邻时刻的运动向量,轨迹T在i时刻的pVector表示为:
pV(Ti)=(xi+1-xi,yi+1-yi) (1);
定义4.轨迹间pVector夹角(TSAngle):给定轨迹
Figure GDA0003100624060000121
Figure GDA0003100624060000122
其中
Figure GDA0003100624060000123
则k时刻轨迹Ta与Tb间pVector夹角表示为:
Figure GDA0003100624060000124
聚类操作对于轨迹数据的模式挖掘具有十分重要的作用,但聚类操作也占据了模式挖掘整个过程的大量时间.随着轨迹数据规模的快速增长,基于单机模式的挖掘框架很难直接扩展.现有的解决方式通常采用分布式方案,分布式可以将互不影响的各个任务并行执行,从而达到成倍的速度提升.轨迹数据的UCP挖掘具有时间相关性,分布式挖掘UCP,首先需要对每个快照下的所有对象进行聚类操作,在现实生活中,整个轨迹数据集往往具有成千上万的快照数,甚至更多,并且快照数和数据量随时间在不断地增长,对这些数据进行聚类所需要的时间十分庞大。分析发现,每个快照下的轨迹聚类操作互不影响,采用分布式聚类可以为整个模式挖掘任务节省大量时间。图5显示了本实施例提出的轨迹数据分布式聚类及聚类平衡的基本框架,整个框架包含Map和Reduce两个阶段.图5(b)显示了DBSCANCD算法聚类后的结果,图5(c)显示了TCB重划分边界点后的结果。
DBSCANCD算法
在实际应用中,挖掘出对象间运动方向相似的比运动方向差异大的轨迹更具有实际意义.现有的大部分研究均采用基于欧式距离的DBSCAN算法,DBSCAN算法并不考虑对象的运动方向,只考虑距离这一单一维度,使大量无实际意义的轨迹点被聚类.DBSCANCD是一种基于密度聚类的算法,它同时考虑了对象运动方向和距离两个维度,并且引入了可调参数σ,σ参数主要受城市道路的弯曲角度和城市道路岔路口角度两个因素影响。
DBSCANCD使用了考虑运动方向和距离两个维度的CDAP度量方式,下面给出了CDAP距离的定义及计算方式:
定义5.CDAP.给定轨迹
Figure GDA0003100624060000131
k时刻Ta与Tb
Figure GDA0003100624060000132
可表示为:
Figure GDA0003100624060000133
Figure GDA0003100624060000134
其中
Figure GDA0003100624060000135
Figure GDA0003100624060000136
表示轨迹Ta与Tb在k时刻的欧式距离,其中0<σ<1,σ可根据城市道路的弯曲角度和城市道路岔路口角度两个因素确定.在CDAP中通过乘以
Figure GDA0003100624060000137
的值来增大与对象的运动方向差异大的轨迹点间的距离,同时缩小与对象的运动方向相似的轨迹点间的距离。CDAP通过
Figure GDA0003100624060000138
的符号处理因为方向相反而导致的错误聚类问题.图6显示了CDAP与欧式距离在[0,π]时的关系。
DBSCANCD可以发现任意形状的聚类区域,与DBSCANC算法不同,DBSCANCD算法的单一聚类区域不再是圆形,而是一个近似椭圆的扁平状区域.当σ=0.5时,图7显示了欧式距离与CDAP在单一聚类区域上的差异,从中可以发现,CDAP所形成的聚类区域表现的更为扁平,单一聚类区域更加偏向于对象的运动方向。
定义6.聚类边界点(BoundaryPoint):给定对象集O=<o1,o2,…on>,聚类簇集C=<c1,c2,…cn>,其中ci=(Oi,ti,i),
Figure GDA0003100624060000141
则ok为聚类边界点。
TCB算法
在对轨迹数据进行密度聚类时,聚类算法通常会从所有对象集中随意挑选一个对象作为聚类的起始点,不断地遍历对象集中没有被访问过的对象。现有的聚类算法遵照先后顺序对每一个符合要求的轨迹点进行聚类,并将其归入某一簇中,然后将被归入簇中的点从对象集中删除。但对象集中往往存在一些这样的对象,它们可以同时满足超过2个簇的聚类条件,即定义6中的聚类边界点。轨迹数据的UCP挖掘具有时间相关性,对象在相邻时刻的聚类情况与它当前的聚类情况存在联系。单纯的按照先后顺序对边界点进行划分存在合理性问题。
定义7.边界点生成集(Boundary point generating set):给定边界点i,边界点i同时满足聚类条件的聚类簇集C,|C|≥2,ck,cn∈C,i的边界点生成集BPC(i)可表示为:
Figure GDA0003100624060000142
定义8.集合间相似度集(SimilaritysetBetweenSets):给定边界点i的边界点生成集BPC(i),下面给出了BPC(i)的集合间相似度集SBS(BPC(i)的计算方法:
Figure GDA0003100624060000143
Figure GDA0003100624060000151
定义9.最大集合间相似度(MaximumSimilarityBetweenSets):给定边界点i的边界点生成集BPC(i),BPc(i)的集合间相似度集SBS(BPC(i)),下面给出了BPc(i)的最大集合间相似度MSBS(BPC(i)的计算方法:
MSBS(BPC(i))=max(SBS(BPC(i))) (8)
TCB算法很好的改善边了界点合理划分问题,与现有的单纯按照对象访问顺序划分聚类边界点相比,TCB算法通过计算边界点i的BPC(i)的MSBS(BPC(i)值来确定i被划分到哪个簇更为合理。为了防止当前时刻和相邻时刻边界点i所属的簇中包含其他边界点而导致BPC(i)被递归计算,同时考虑到边界点i在相邻时刻均为边界点的情况,TCB算法采用贪心策略的思想,在处理边界点i的划分问题时,如果边界点i在相邻时刻同为边界点,则将相邻时刻边界点i同时满足的簇的所有成员添加到BPC(i),如果边界点i的当前时刻和相邻时刻存在其他边界点,则将它们仅在当前计算中视为非边界点。采用贪心策略的TCB算法可以减少边界点处理的次数,同时获得一个边界点合理划分的局部最优解。
在大规模轨迹数据中挖掘满足要求的UCP是一项十分耗时的任务,轨迹数据中往往具有成千上万的运动对象,为了挖掘UCP就不得不遍历所有的对象。在成都Taxi数据集中,包含120000以上条长轨迹和19000多个快照,如果通过直接遍历它们挖掘UCP,即使采用各种剪枝技术,挖掘UCP所花费的时间也是十分庞大的。随着信息时代的不断发展,计算资源也取得了快速增长。分析发现,对每个运动对象进行UCP挖掘可以同时进行而不产生干扰,只需为挖掘任务分配更多的计算资源便可实现性能的成倍的增长。将UCP进行分布式挖掘可以实现挖掘任务的并行执行,如图8所示,本实施例设计了一种高效的分布式UCP挖掘框架,实现了挖掘性能的提升,框架包含Map和Reduce两个阶段。图8(b)显示了GSPR算法的切分、剪枝和重划分的过程,图8(c)显示SAE算法的挖掘过程。
GSPR算法
轨迹数据中存在大量的松散连接现象,表现为对象在两次形成聚类现象之间相隔了相当长的一段时间。为了高效的挖掘处于松散连接状态下不同的UCP,本实施例设计了GSPR算法,GSPR算法使用自定义参数G实现对存在松散连接现象的长轨迹的切分,并为属于同一条长轨迹的每个分段添加一个相同的标记以避免重划分过程的重复计算。GSPR算法使用自定义参数K对每一个分段进行初步剪枝,在完成初步剪枝后,使用自定义参数L和K同时对分段进行剪枝,在剪枝完成后将对每个分段进行重划分。最终,大量的长轨迹将被划分成一个包含相互独立的子轨迹群,下面给出子轨迹群的具体定义。
定义10.子轨迹群(Sub-Trajectory Group):给定对象i的星型分区Star(i)={oi,OTi},其中OTi=[(ok,Tk),(om,Tm)…(on,Tn)],i<k<m<n,子轨迹群STG(i)={oi,SOTi}需满足:(1)|SOTi|≥M-1,(2)
Figure GDA0003100624060000161
(3)
Figure GDA0003100624060000162
其中对于
Figure GDA0003100624060000163
Figure GDA0003100624060000164
实验及分析
环境设置
实验采用4台Dell服务器,每台服务器拥有128G RAM、56个CPU内核(Intel(R)Xeon(R)Gold 5117 CPU@2.00GHz)。四台服务器上一共部署了26个节点,其中包括25个子节点和1个主节点。主节点拥有32G RAM,16个CPU内核和1.5TB ROM,每个子节点拥18G RAM,8个CPU内核和0.5TB ROM。集群系统采用Centos7,Java虚拟机版本为JDK1.8,分布式平台采用Spark2.3.0,以yarn的方式搭建在Hadoop 3.1上,集群的统一部署和可视化采用Apacheambari 2.7。整个UCP挖掘方案使用Scala语言在IDEA 2019.1中实现,并通过Maven3.6.0进行打包上传到Spark集群。
建立数据集
本实施例使用了两个真实的轨迹数据集:
(1)Geolife:该数据集保存了182名用户在2008年4月至2012年8月的旅行记录。对于每个用户,定期收集GPS信息。
(2)Taxi:该数据集是成都市14795辆出租车超过3亿条GPS记录,时间从2014年08月03日到08月12日,其中忽略了00:00:00~05:59:59这一时间段的数据。
数据预处理
预处理中,本实施例将运动对象的原始编号进行了重新编号,使编号连续并由1开始.同时本实施例使用了固定频率(Geolife=5秒,Taxi=30秒)对两个真实数据集进行了处理,使用线性插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据.在使用DBSACNCD与DBSACN聚类算法时,本实施例根据数据集的不同设置了不同的ePs(聚类半径)和minPts(最小簇基数)值,Geolife采用ePs=30,minPts=8,angle=0.5,Taxi采用ePs=25,minPts=8,angle=0.5。
下表显示了本实施例对两个真实数据集预处理后的结果。
属性 Geolife Taxi
长轨迹数 18,670 121,468
轨迹点 44,189,853 248,284,500
快照数 17,281 19,440
参数设置
为了全面的评估DMFUCP挖掘框架对UCP的发现能力及挖掘框架的性能,本实施例对设置的各个参数进行了实验.下表列出了所有需要评估的参数,其中斜体加粗的为参数的默认值。
数据集 Taxi Geolife
参数 取值 取值
M 8,10,12,14,16,18,20 8,9,10,11,12,13,14
K 60,80,100,120,140,160,180 80,100,120,140,160,180,200
L 8,12,16,20,24,28,32 10,15,20,25,30,35,40
G 3,6,9,12,15,18,21 8,12,16,20,24,28,32
实验对比及分析
由于DMFUCP挖掘涉及多个算法,为了便于观察,本实施例在以下实验对比与分析中为挖掘所使用到的算法进行了简化表示,具体如下表所示。
方法 别名(挖掘框架)
DBSCAN+AprioriEnumerator DAE(基准框架)
DBSCANCD+TCB+AprioriEnumerator DCTAE(DMFUCP)
DBSCAN+GSPR+SAE DGS(DMFUCP)
DBSCANCD+TCB+GSPR+SAE DCTGS(DMFUCP)
为了更好比较表中挖掘框架在挖掘阶段的性能,本实验给出了挖掘性能的计算公式:
Figure GDA0003100624060000181
DMFUCP框架UCP发现能力评估
图9(a),(b)表示随着M的变化UCP发现能力的变化。Geolife中不同的M对方案的发现能力改变相较于Taxi并不是很明显,那是因为Geolife的数据比较稀疏,M的变化并不会对发现能力产生大的变化。
图9(c),(d)表示随着K的变化UCP发现能力的变化。Geolife中发现能力在不同的K值下表现稳定,而Taxi则对不同K值表现的十分敏感,因为Taxi中的长轨迹包含的快照数要普遍低于Geolife中长轨迹的快照数。
图9(e),(f)表示随着L的变化UCP发现能力的变化。在两个数据集中不同的L值并未对UCP发现能力产生太大变化,因为在两个数据集中长轨迹的完整度都很高,线性插值补全也起到了作用。
图9(g),(h)表示随着G的变化UCP发现能力的变化。在Geolife中采用GSPR算法比Taxi表现更加好,Geolife中会对UCP发现能力有2~3倍的提升,而Taxi中会有1~2倍的提升,因为Geolife中长轨迹更长且存在大量的松散连接现象。
DMFUCP框架Platoon与Swarm发现能力评估
图10(a)至(f)表示随着M、K、L的变化Platoon与Swarm发现能力的变化.采用DCTAE比DAE的Platoon与Swarm发现能力更好,因为DCTAE扩大了对象运动方向上的对象发现。不同的M、K、L的变化在Taxi上表现的更加明显,且DCTAE相对于DAE对Platoon与Swarm发现能力保持在1.7倍左右,因为Taxi中存在的边界点多于Geolife。
DMFUCP框架性能评估
图11(a),(b)显示了DAE、DCTAE、DGS和DCTGS在默认取值的状态下对Geolife与Taxi中的UCP发现性能.DCTGS和DCTAE的TS性能均高于基准框架DAE,因为它们发现UCP数量的提升要大于时间消耗的提升.在Taxi中DGS的TS性能略低于DAE,因为Taxi中存在的松散连接现象并不是很多,这导致DGS发现UCP数量的提升要小于时间消耗的提升。
总结
本实施例主要围绕在保证挖掘框架性能的同时提高对UCP的发现能力,因此,基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP挖掘框架来达到本实施例的目标,DBSCANCD与TCB分别通过扩大有意义点的发现和合理划分聚类边界点来提高通用伴随模式挖掘输入数据的质量,GSPR算法通过G对通用伴随模式挖掘的输入进行分割和重划分,在过滤无用信息的同时提高挖掘算法对UCP的发现能力,SAE算法则使用多线程和前向闭包使挖掘过程的时间消耗大大降低。实验结果证明DMFUCP挖掘框架在UCP的发现能力和TS性能上均得到了提升。下一步工作将应用DMFUCP挖掘框架处理轨迹数据流,提升从轨迹数据流中发现UCP的能力和性能。
本实施例基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP框架.在分布式计算平台Spark上使用两个真实的轨迹数据集对挖掘框架进行了大量实验,与现有的通用伴随模式挖掘框架相比,本实施例所提出的DMFUCP框架在保证性能的同时,具有更强的通用伴随模式发现能力。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (3)

1.基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:包括以下步骤:
一、建立轨迹数据集;
二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法先进行密度聚类;
三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;
四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘;SAE算法使用多线程和前向闭包进行挖掘;
其中,DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(1)cluster←0,
Figure FDA0003127521800000011
CI←1;
(2)CrDis←ePs/angle;
(3)for all sj in Si
(4)if sj is not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤ePs);
(8)if|C′|≥minPts;
(9)C′←C′-sj
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)ife没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if cluster(index)≠C,0and e≠sj
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′;第22~24行得到了边界点e,并添加到BPSet集中;
定义5为:给定轨迹
Figure FDA0003127521800000021
k时刻Ta与Tb
Figure FDA0003127521800000022
可表示为:
Figure FDA0003127521800000023
Figure FDA0003127521800000024
其中
Figure FDA0003127521800000025
Figure FDA0003127521800000026
分别表示轨迹Ta与Tb在k时刻x轴和y轴的欧式距离,其中σ为向量夹角阈值,0<σ<1,σ可根据城市道路的弯曲角度和城市道路岔路口角度两个因素确定;Tk(a,b)表示线段a与线段b在k时刻的夹角cos值;
Figure FDA0003127521800000027
表示k时刻的轨迹Ta与Tb;G表示两个连续段之间的最大时间间隔;
TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)output CB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP-q;
9)M←SBS(BPC(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm
13)S←change q;
14)if qt-1∈CP andqt-1∈N;
15)S←change qt-1
16)CP←CP-qt-1
17)end if;
18)if qt+1∈CP and qt+1∈N;
19)S←change qt+1
20)CP←CP-qt+1
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-s(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原始的聚类结果集CR,形成了最终聚类平衡集合CB;
边界点q的集合间相似度集的具体计算方法如下:
Figure FDA0003127521800000031
Figure FDA0003127521800000041
其中
Figure FDA0003127521800000042
Figure FDA0003127521800000043
其中
Figure FDA0003127521800000044
BPC(q)表示边界点q的边界点生成集;
Figure FDA0003127521800000045
表示边界点q在t时刻与簇号为ck的对象构成的集合;
Figure FDA0003127521800000046
表示边界点q在t时刻所形成的
Figure FDA0003127521800000047
集;
GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
Figure FDA0003127521800000048
Figure FDA0003127521800000049
end for;
Figure FDA00031275218000000410
for ni in N;
Figure FDA00031275218000000411
Figure FDA00031275218000000412
and ni没被访问;
Figure FDA00031275218000000413
W←ni;
Figure FDA00031275218000000414
for nj in N;
Figure FDA00031275218000000415
if nj没被访问and ni.label≠nj.label;
Figure FDA00031275218000000416
if|ni.T∩nj.T|≥K;
Figure FDA00031275218000000417
W←nj;
Figure FDA00031275218000000418
nj←is Visited;
Figure FDA00031275218000000419
end if;
Figure FDA00031275218000000420
end if;
Figure FDA00031275218000000421
end for;
Figure FDA00031275218000000422
end if;
Figure FDA00031275218000000423
if|W|≥M-1;
Figure FDA00031275218000000424
STGS←W;
Figure FDA00031275218000000425
end if;
Figure FDA00031275218000000426
Figure FDA00031275218000000427
Figure FDA00031275218000000428
end for;
Figure FDA00031275218000000429
output STGS;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进行过滤,最终得到有效地子轨迹群并添加进STGS。
2.根据权利要求1所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:步骤一后,先对数据预处理,然后进行步骤二。
3.根据权利要求2所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:数据预处理包括:将运动对象的原始编号进行了重新编号,使编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
CN202011019669.7A 2020-09-24 2020-09-24 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 Active CN112269844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011019669.7A CN112269844B (zh) 2020-09-24 2020-09-24 基于大规模轨迹数据的通用伴随模式分布式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011019669.7A CN112269844B (zh) 2020-09-24 2020-09-24 基于大规模轨迹数据的通用伴随模式分布式挖掘方法

Publications (2)

Publication Number Publication Date
CN112269844A CN112269844A (zh) 2021-01-26
CN112269844B true CN112269844B (zh) 2021-08-06

Family

ID=74349579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011019669.7A Active CN112269844B (zh) 2020-09-24 2020-09-24 基于大规模轨迹数据的通用伴随模式分布式挖掘方法

Country Status (1)

Country Link
CN (1) CN112269844B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779105B (zh) * 2021-08-11 2022-12-13 桂林电子科技大学 分布式轨迹流伴随模式挖掘方法
CN113934803B (zh) * 2021-08-30 2022-09-16 中国人民解放军91977部队 一种基于时空剖分的船只伴随模式挖掘方法
CN116842285B (zh) * 2023-07-27 2024-05-03 中国人民解放军陆军工程大学 基于时空轨迹数据的目标伴随模式挖掘方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN107016126A (zh) * 2017-05-12 2017-08-04 西南交通大学 一种基于序列模式挖掘的多用户模型移动轨迹预测方法
CN107766808A (zh) * 2017-09-30 2018-03-06 北京泓达九通科技发展有限公司 道路网络空间中车辆对象移动轨迹聚类的方法及系统
CN108959466A (zh) * 2018-06-20 2018-12-07 淮阴工学院 基于bcs-dbscan的出租车载客热点可视化方法及系统
CN109000645A (zh) * 2018-04-26 2018-12-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂环境目标经典航迹提取方法
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109241126A (zh) * 2018-06-29 2019-01-18 武汉理工大学 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN109388663A (zh) * 2018-08-24 2019-02-26 中国电子科技集团公司电子科学研究院 一种面向社会安全领域的大数据智能分析平台
CN109657547A (zh) * 2018-11-13 2019-04-19 成都四方伟业软件股份有限公司 一种基于伴随模型的异常轨迹分析方法
CN110580251A (zh) * 2019-07-19 2019-12-17 中国科学院信息工程研究所 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
CN111539454A (zh) * 2020-03-30 2020-08-14 武汉理工大学 一种基于元学习的车辆轨迹聚类方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740904B (zh) * 2016-01-29 2019-10-11 东南大学 一种基于dbscan聚类算法的出行与活动模式识别方法
US10444759B2 (en) * 2017-06-14 2019-10-15 Zoox, Inc. Voxel based ground plane estimation and object segmentation
CN107451233B (zh) * 2017-07-25 2020-02-18 南京师范大学 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法
CN111291098B (zh) * 2020-05-12 2020-08-28 北京航空航天大学 一种航迹模式挖掘方法与装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN107016126A (zh) * 2017-05-12 2017-08-04 西南交通大学 一种基于序列模式挖掘的多用户模型移动轨迹预测方法
CN107766808A (zh) * 2017-09-30 2018-03-06 北京泓达九通科技发展有限公司 道路网络空间中车辆对象移动轨迹聚类的方法及系统
CN109000645A (zh) * 2018-04-26 2018-12-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 复杂环境目标经典航迹提取方法
CN108959466A (zh) * 2018-06-20 2018-12-07 淮阴工学院 基于bcs-dbscan的出租车载客热点可视化方法及系统
CN109241126A (zh) * 2018-06-29 2019-01-18 武汉理工大学 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN109388663A (zh) * 2018-08-24 2019-02-26 中国电子科技集团公司电子科学研究院 一种面向社会安全领域的大数据智能分析平台
CN109214462A (zh) * 2018-09-25 2019-01-15 东北大学 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法
CN109657547A (zh) * 2018-11-13 2019-04-19 成都四方伟业软件股份有限公司 一种基于伴随模型的异常轨迹分析方法
CN110580251A (zh) * 2019-07-19 2019-12-17 中国科学院信息工程研究所 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
CN111539454A (zh) * 2020-03-30 2020-08-14 武汉理工大学 一种基于元学习的车辆轨迹聚类方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A general and parallel platform for mining co-movement patterns over large-scale trajectories;Qi Fan 等;《Proceedings of the VLDB Endowment》;20161130;第10卷(第4期);313-324 *
Modified DBSCAN using Particle Swarm Optimization for Spatial Hotspot Identification;Ankita 等;《Proceedings of 2018 Eleventh International Conference on Contemporary Computing (IC3)》;20180804;1-3 *
Search Model of the Region With the Maximum Coverage Value Based on Trajectory Data;ZHONGWEI YUE 等;《IEEE Access》;20190705;第7卷;102762-102771 *
城市交通中聚集模式的挖掘方法研究;刘畅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015(第10期);I138-440 *
基于分布式计算平台的轨迹数据查询优化与分析;岳中伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215(第12期);I138-287 *
移动对象轨迹数据挖掘方法研究;袁冠;《中国博士学位论文全文数据库 信息科技辑》;20121015(第10期);I138-25 *

Also Published As

Publication number Publication date
CN112269844A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN112269844B (zh) 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN107798079B (zh) 基于车辆轨迹数据的路段拼接方法及系统
CN108981739B (zh) 一种路径规划方法、装置、服务器及存储介质
CN110609824B (zh) 城市路网环境下基于动态空间网络模型的热点区域检测方法
Tang et al. Significant linear hotspot discovery
CN110909173A (zh) 一种基于标签传播的非重叠社区发现方法
Tatti Density-friendly graph decomposition
CN112579921B (zh) 基于倒排序索引及前缀树的轨迹索引和查询方法及系统
CN110275929B (zh) 一种基于网格分割的候选路段筛选方法及网格分割方法
CN111307164B (zh) 一种低采样率轨迹地图匹配方法
CN112417303A (zh) 一种从动态属性图中检测多异常子图演化算法
CN111639191A (zh) 一种新型冠状病毒知识图谱模拟疫情发展趋势的预测方法
CN112800115B (zh) 数据处理方法及数据处理装置
CN112906812A (zh) 基于带离群点去除的车辆轨迹聚类方法
Grzybek et al. Evaluation of dynamic communities in large-scale vehicular networks
CN108960335A (zh) 一种基于大规模网络进行高效聚类方法
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
CN108182230B (zh) 基于位向量四叉树的移动对象汇聚模式挖掘方法
CN113779105A (zh) 分布式轨迹流伴随模式挖掘方法
CN109800231B (zh) 一种基于Flink的实时轨迹co-movement运动模式检测方法
CN110046265B (zh) 一种基于双层索引的子图查询方法
CN112765226A (zh) 基于轨迹数据挖掘的城市语义图谱构建方法
CN110807061A (zh) 一种基于分层搜索不确定图的频繁子图的方法
CN108897820B (zh) 一种denclue算法的并行化方法
Mu et al. Recommend taxi pick-up hotspots based on density-based clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant