CN112269844A - 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 - Google Patents
基于大规模轨迹数据的通用伴随模式分布式挖掘方法 Download PDFInfo
- Publication number
- CN112269844A CN112269844A CN202011019669.7A CN202011019669A CN112269844A CN 112269844 A CN112269844 A CN 112269844A CN 202011019669 A CN202011019669 A CN 202011019669A CN 112269844 A CN112269844 A CN 112269844A
- Authority
- CN
- China
- Prior art keywords
- cluster
- algorithm
- clustering
- track
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及轨迹数据处理技术领域,具体地说,涉及一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其以下步骤:一、建立轨迹数据集;二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法进行密度聚类;三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘。本发明能够较佳地挖掘通用伴随模式。
Description
技术领域
本发明涉及轨迹数据处理技术领域,具体地说,涉及一种基于大规模轨迹 数据的通用伴随模式分布式挖掘方法。
背景技术
具有定位功能的移动设备的普及使用,轨迹数据呈现爆炸式增长,轨迹数 据多为时空序列,被携带有定位装置的移动对象不断以固定的频率产生,蕴含 着丰富的价值。在大规模的轨迹中提取出通用伴随模式具有重要的意义,为上 层的服务提供了诸多可能。通用伴随模式挖掘可用于改善城市交通状况,通过 发现通用伴随模式可以预测某一时间段内某段道路是否会发生交通拥堵,从而 提前疏导交通以避免交通拥堵;处于相同通用伴随模式的一组群体往往具有某 些相似的特征,通过对这些相似的特征进行挖掘可以提高社会推荐服务;通用 伴随模式挖掘在事件调查方面也具有广泛运用场景,通过挖掘的通用伴随模式 为寻找事件发生的可能原因提供支持。
伴随模式是指在某一范围内一定数量的运动对象在某一时间段内伴随运动, 它具有时间性和空间性。从轨迹数据中挖掘伴随模式的方法从实现方案上可分 为单机与分布式两类。分布式方案分为数据处理、数据分区和轨迹挖掘三个阶 段,单机方案可分为数据处理和轨迹挖掘两个阶段。
现有的研究大多关注于如何在轨迹数据中快速的挖掘出伴随模式,将整个 挖掘任务的重点放在轨迹挖掘阶段,对数据处理阶段则采用基于欧氏距离的密 度聚类或圆盘聚类。但在现实生活与实践运用中,挖掘出对象间运动方向相似 的比运动方向差异大的轨迹更具有实际意义,对基于欧式距离的聚类方法形成 了挑战。
如图1所示,采用欧式距离的聚类方法会将(O1,T3)、(O2,T3)聚为一类,但在 现实生活中将(O2,T3)、(O3,T3)聚为一类更具有意义,因为很可能对象O1与对象 O2在岔路口处选择了不同的路,而O3与O2选择了相同的路。亟需一种新的距 离度量方式,能实现在扩大对象运动方向上的横向聚类半径的同时缩小纵向聚 类半径。
伴随模式挖掘中的聚类具有时间相关性,对象在某一时刻的聚类情况与它 的上一时刻和下一时刻的聚类情况会对挖掘结果产生影响。由于聚类起始点是 随机选取的,每个轨迹点也只能被归为一个簇,所以在聚类过程中会产生一定 数量可同时归为不同簇的边界点,现有的工作单纯的按照对象被访问的顺序进 行划分,影响了伴随模式挖掘的质量。怎样合理的划分边界点对聚类算法形成 了挑战。如图2所示,对象O2和对象O3为核心点,对象O1为边界点,对象O1可同时处于对象O2与O3所属的簇,怎样合理的划分O1对于伴随模式挖掘具有 重要意义。
如图3所示,不同的颜色表示不同的伴随模式,在现实生活中会存在这样 一种现象,大量的轨迹会集中式的经过某个公共场所,如超市、加油站等等, 需要伴随模式挖掘算法去积极地识别它.GCMP中将这种现象定义为松散连接, 通过设置参数G来避免它,处理效果不好。现实生活中它很可能是一种正常现 象,因为伴随模式具有时间性,所以对象O2与对象O3很可能处于两种不同的伴 随状态。现有的方法并不能去挖掘和区分它们,同时挖掘具有松散连接现象的 伴随模式需要扫描整个轨迹,对伴随模式挖掘算法的性能提出了挑战。
发明内容
本发明的内容是提供一种基于大规模轨迹数据的通用伴随模式分布式挖掘 方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法, 其包括以下步骤:
一、建立轨迹数据集;
二、DBSCANCD算法先进行密度聚类,然后TCB算法以密度聚类结果作 为输入,通过计算集合成员间的相似度,对边界点进行合理划分;
三、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输 入进行分割和重划分,然后通过SAE算法进行挖掘。
作为优选,步骤一后,先对数据预处理,然后进行步骤二。
作为优选,数据预处理包括:将运动对象的原始编号进行了重新编号,使 编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性插 值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
作为优选,DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(2)CrDis←ePs/angle;
(3)for all sjin Si;
(4)if sj is not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤Ps);
(8)if|C′|≥minPts;
(9)C′←C′-sj;
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)if e没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if cluster(index)≠C,0 and e≠sj;
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了 初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数 对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一 簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′; 第22~24行得到了边界点e,并添加到BPSet集中。
作为优选,TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)output CB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP–q;
9)M←SBS(BPC(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm;
13)S←change q;
14)if qt-1∈CP and qt-1∈N;
15)S←changeq qt-1;
16)CP←CP-qt-1;
17)end if;
18)if qt+1∈CP and qt+1∈N;
19)S←change qt+1;
20)CP←CP-qt+1;
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-S(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行 重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的 集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度 MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行 对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原 始的聚类结果集CR,形成了最终聚类平衡集合CB。
作为优选,GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先 使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最 后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪 枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进 行过滤,最终得到有效地子轨迹群并添加进STGS。
本发明具有如下技术效果:
1)在数据处理阶段提出了DBSCANCD(DBSCAN based on Cosine Distancebetween two points)算法和TCB(Time-dependent Clustering Balance)算法, DBSCANCD算法通过使用CDAP(Cosine Distance of the Angle between two Points)对轨迹点进行密度聚类,可以有效地扩大相似于对象运动方向上的轨迹 点发现,同时减少与对象运动方向差异大的轨迹点发现。TCB算法以密度聚类 结果作为输入,根据每一快照下的每个边界点形成一个边界点划分集合,通过 计算集合成员间的相似度,对边界点进行合理划分。聚类平衡算法采用贪心策 略的思想,每次计算尽最大可能划分更多边界点,以取得局部最优解;
2)在挖掘阶段提出了GSPR(G Segment Pruning and Repartitioning)算法和SAE(Segmented Apriori Enumerator)算法,通过对分区数据进行G分段剪枝和 重划分来有效地挖掘具有松散连接现象的伴随模式,同时保证SAE算法的性能。
附图说明
图1为现有技术中不合理聚类的示意图;
图2为现有技术中聚类边界点的示意图;
图3为现有技术中松散连接的示意图;
图4为实施例1中一种基于大规模轨迹数据的通用伴随模式分布式挖掘方 法的流程图;
图5为实施例1中分布式聚类及聚类平衡框架;
图6为实施例1中CDAP与欧式距离的关系图;
图7为实施例1中欧式距离与CDAP单一聚类区域对比图;
图8为实施例1中分布式伴随模式挖掘框架;
图9为实施例1中DMFUCP框架对UCP发现能力评估图;
图10为实施例1中DMFUCP框架对Platoon和Swarm发现能力评估图;
图11为实施例1中DMFUCP框架TS性能评估图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应 当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图4所示,本实施例提供了一种基于大规模轨迹数据的通用伴随模式分 布式挖掘方法,其包括以下步骤:
一、建立轨迹数据集;
二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法先进行密度聚 类;
三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度, 对边界点进行合理划分;
四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输 入进行分割和重划分,然后通过SAE算法进行挖掘。
本实施例中,步骤一后,先对数据预处理,然后进行步骤二。
本实施例中,数据预处理包括:将运动对象的原始编号进行了重新编号, 使编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性 插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
本实施例中,DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(2)CrDis←ePs/angle;
(3)for all sj in Si;
(4)if sjis not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤ePs);
(8)if|C′|≥minPts;
(9)C′←C′-sj;
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)if e没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if cluster(index)≠C,0 and e≠sj;
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了 初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数 对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一 簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′; 第22~24行得到了边界点e,并添加到BPSet集中。
本实施例中,TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)output CB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP–q;
9)M←SBS(BPC(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm;
13)S←change q;
14)if qt-1∈CP and qt-1∈N;
15)S←change qt-1;
16)CP←CP-qt-1;
17)end if;
18)if qt+1∈CP and qt+1∈N;
19)S←change qt+1;
20)CP←CP-qt+1;
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-S(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行 重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的 集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行 对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原 始的聚类结果集CR,形成了最终聚类平衡集合CB。
本实施例中,GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先 使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最 后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪 枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进 行过滤,最终得到有效地子轨迹群并添加进STGS。
如下表所示,为本实施例中使用到的一些符号和基本术语:
通用伴随模式(UCP,Universal Companion Pattern):给定对象集 O=<o1,o2,…on>,聚类簇集C=<c1,c2,…cn>,其中ci=(Oi,ti,i),UCP={Os,TUs},其中 TUS=<ti,tj,...tn>,i<j<n,UCP满足:(1)(2)|Os|≥M;(3)(4)∑(|TUs[i:j]|)≥K;(5)
UCP具有五个约束,其中第一个为基本约束,第二到第五个约束通过参数 的形式进行调节以适应不同条件下的伴随模式.例如G=1时UCP转变为Convoy 和Flock,这使得UCP能更好的适应现实生活.与已有的研究不同,本实施例 的参数G还将用于GSPR算法中的长轨迹分割。
下面给出一个实例来理解UCP:当G=2,K=3,M=3,L=2时,给定UCP={Os,TUs},TUs=(1,2,4,5,9,10,11,18),Os=(1,2,4,5), C={(Os,1,1),(Os,2,3),(Os,4,7),(Os,5,10),(Os,9,2),(Os,10,4),(Os,11,6)},根据定义1及参数G可 以得到两个UCP,分别为UCP1={Os,(1,2,4,5)},UCP2={Os,(9,10,11)}。
定义2.相邻轨迹点线段(pSegment):给定轨迹P=<p1,p2,…,pn>,其中 pn=(xn,yn,tn),xn为pn的经度,yn为pn的纬度,tn为pn的时间戳,相邻轨迹点 线段pSegment表示为pS(i)=T[pi:pi+1],当且仅当pi+1-pi≤Δt。
定义3.pSegment方向向量(pVector):给定轨迹T=<p1,p2,…,pn>, 则pVector表示在以0经度线和0纬度线构成的二维坐标中运动对象在相邻时刻 的运动向量,轨迹T在i时刻的pVector表示为:
pV(Ti)=(xi+1-xi,yi+1-yi) (1);
聚类操作对于轨迹数据的模式挖掘具有十分重要的作用,但聚类操作也占 据了模式挖掘整个过程的大量时间.随着轨迹数据规模的快速增长,基于单机 模式的挖掘框架很难直接扩展.现有的解决方式通常采用分布式方案,分布式 可以将互不影响的各个任务并行执行,从而达到成倍的速度提升.轨迹数据的 UCP挖掘具有时间相关性,分布式挖掘UCP,首先需要对每个快照下的所有对 象进行聚类操作,在现实生活中,整个轨迹数据集往往具有成千上万的快照数, 甚至更多,并且快照数和数据量随时间在不断地增长,对这些数据进行聚类所 需要的时间十分庞大。分析发现,每个快照下的轨迹聚类操作互不影响,采用 分布式聚类可以为整个模式挖掘任务节省大量时间。图5显示了本实施例提出 的轨迹数据分布式聚类及聚类平衡的基本框架,整个框架包含Map和Reduce 两个阶段.图5(b)显示了DBSCANCD算法聚类后的结果,图5(c)显示了 TCB重划分边界点后的结果。
DBSCANCD算法
在实际应用中,挖掘出对象间运动方向相似的比运动方向差异大的轨迹更 具有实际意义.现有的大部分研究均采用基于欧式距离的DBSCAN算法, DBSCAN算法并不考虑对象的运动方向,只考虑距离这一单一维度,使大量无 实际意义的轨迹点被聚类.DBSCANCD是一种基于密度聚类的算法,它同时考 虑了对象运动方向和距离两个维度,并且引入了可调参数σ,σ参数主要受城市道 路的弯曲角度和城市道路岔路口角度两个因素影响。
DBSCANCD使用了考虑运动方向和距离两个维度的CDAP度量方式,下面 给出了CDAP距离的定义及计算方式:
表示轨迹Ta与Tb在k时刻的欧式距离,其中0<σ<1,σ可根据城市道 路的弯曲角度和城市道路岔路口角度两个因素确定.在CDAP中通过乘以 的值来增大与对象的运动方向差异大的轨迹点间的距离,同时缩小与 对象的运动方向相似的轨迹点间的距离。CDAP通过的符号处理因为 方向相反而导致的错误聚类问题.图6显示了CDAP与欧式距离在[0,π]时的关 系。
DBSCANCD可以发现任意形状的聚类区域,与DBSCANC算法不同, DBSCANCD算法的单一聚类区域不再是圆形,而是一个近似椭圆的扁平状区 域.当σ=0.5时,图7显示了欧式距离与CDAP在单一聚类区域上的差异,从中 可以发现,CDAP所形成的聚类区域表现的更为扁平,单一聚类区域更加偏向于 对象的运动方向。
TCB算法
在对轨迹数据进行密度聚类时,聚类算法通常会从所有对象集中随意挑选 一个对象作为聚类的起始点,不断地遍历对象集中没有被访问过的对象。现有 的聚类算法遵照先后顺序对每一个符合要求的轨迹点进行聚类,并将其归入某 一簇中,然后将被归入簇中的点从对象集中删除。但对象集中往往存在一些这 样的对象,它们可以同时满足超过2个簇的聚类条件,即定义6中的聚类边界 点。轨迹数据的UCP挖掘具有时间相关性,对象在相邻时刻的聚类情况与它当 前的聚类情况存在联系。单纯的按照先后顺序对边界点进行划分存在合理性问 题。
定义7.边界点生成集(Boundary point generating set):给定边界点i,边 界点i同时满足聚类条件的聚类簇集C,|C|≥2,ck,cn∈C,i的边界点生成集BPC(i)可 表示为:
定义8.集合间相似度集(Similarity set Between Sets):给定边界点i的边 界点生成集BPC(i),下面给出了BPC(i)的集合间相似度集SBS(BPC(i))的计算方法:
定义9.最大集合间相似度(Maximum Similarity Between Sets):给定边界 点i的边界点生成集BPC(i),BPC(i)的集合间相似度集SBS(BPC(i)),下面给出了BPC(i)的 最大集合间相似度MSBS(BPC(i))的计算方法:
MSBS(BPC(i))=max(SBS(BPC(i))) (8)
TCB算法很好的改善边了界点合理划分问题,与现有的单纯按照对象访问 顺序划分聚类边界点相比,TCB算法通过计算边界点i的BPC(i)的MSBS(BPC(i))值来 确定i被划分到哪个簇更为合理。为了防止当前时刻和相邻时刻边界点i所属的簇 中包含其他边界点而导致BPC(i)被递归计算,同时考虑到边界点i在相邻时刻均为 边界点的情况,TCB算法采用贪心策略的思想,在处理边界点i的划分问题时, 如果边界点i在相邻时刻同为边界点,则将相邻时刻边界点i同时满足的簇的所有 成员添加到BPC(i),如果边界点i的当前时刻和相邻时刻存在其他边界点,则将它 们仅在当前计算中视为非边界点。采用贪心策略的TCB算法可以减少边界点处 理的次数,同时获得一个边界点合理划分的局部最优解。
在大规模轨迹数据中挖掘满足要求的UCP是一项十分耗时的任务,轨迹数 据中往往具有成千上万的运动对象,为了挖掘UCP就不得不遍历所有的对象。 在成都Taxi数据集中,包含120000以上条长轨迹和19000多个快照,如果通过 直接遍历它们挖掘UCP,即使采用各种剪枝技术,挖掘UCP所花费的时间也是 十分庞大的。随着信息时代的不断发展,计算资源也取得了快速增长。分析发 现,对每个运动对象进行UCP挖掘可以同时进行而不产生干扰,只需为挖掘任 务分配更多的计算资源便可实现性能的成倍的增长。将UCP进行分布式挖掘可 以实现挖掘任务的并行执行,如图8所示,本实施例设计了一种高效的分布式UCP挖掘框架,实现了挖掘性能的提升,框架包含Map和Reduce两个阶段。 图8(b)显示了GSPR算法的切分、剪枝和重划分的过程,图8(c)显示SAE 算法的挖掘过程。
GSPR算法
轨迹数据中存在大量的松散连接现象,表现为对象在两次形成聚类现象之 间相隔了相当长的一段时间。为了高效的挖掘处于松散连接状态下不同的UCP, 本实施例设计了GSPR算法,GSPR算法使用自定义参数G实现对存在松散连 接现象的长轨迹的切分,并为属于同一条长轨迹的每个分段添加一个相同的标 记以避免重划分过程的重复计算。GSPR算法使用自定义参数K对每一个分段 进行初步剪枝,在完成初步剪枝后,使用自定义参数L和K同时对分段进行剪 枝,在剪枝完成后将对每个分段进行重划分。最终,大量的长轨迹将被划分成 一个包含相互独立的子轨迹群,下面给出子轨迹群的具体定义。
定义10.子轨迹群(Sub-Trajectory Group):给定对象i的星型分区 Star(i)={oi,OTi},其中OTi=[(ok,Tk),(om,Tm)…(on,Tn)],i<k<m<n,子轨迹群 STG(i)={oi,SOTi}需满足:(1)|SOTi|≥M-1,(2)(3)其中对 于
实验及分析
环境设置
实验采用4台Dell服务器,每台服务器拥有128G RAM、56个CPU内核 (Intel(R)Xeon(R)Gold 5117CPU@2.00GHz)。四台服务器上一共部署了26个节 点,其中包括25个子节点和1个主节点。主节点拥有32G RAM,16个CPU内 核和1.5TB ROM,每个子节点拥18G RAM,8个CPU内核和0.5TB ROM。集 群系统采用Centos7,Java虚拟机版本为JDK 1.8,分布式平台采用Spark2.3.0, 以yarn的方式搭建在Hadoop 3.1上,集群的统一部署和可视化采用Apache ambari 2.7。整个UCP挖掘方案使用Scala语言在IDEA 2019.1中实现,并通过Maven3.6.0进行打包上传到Spark集群。
建立数据集
本实施例使用了两个真实的轨迹数据集:
(1)Geolife:该数据集保存了182名用户在2008年4月至2012年8月的 旅行记录。对于每个用户,定期收集GPS信息。
(2)Taxi:该数据集是成都市14795辆出租车超过3亿条GPS记录,时间 从2014年08月03日到08月12日,其中忽略了00:00:00~05:59:59这一时间段 的数据。
数据预处理
预处理中,本实施例将运动对象的原始编号进行了重新编号,使编号连续 并由1开始.同时本实施例使用了固定频率(Geolife=5秒,Taxi=30秒)对两个 真实数据集进行了处理,使用线性插值对缺失数据进行填充,同时剔除了小于 固定频率的多余数据.在使用DBSACNCD与DBSACN聚类算法时,本实施例 根据数据集的不同设置了不同的ePs(聚类半径)和minPts(最小簇基数)值, Geolife采用ePs=30,minPts=8,angle=0.5,Taxi采用ePs=25,minPts=8,angle=0.5。 下表显示了本实施例对两个真实数据集预处理后的结果。
属性 | Geolife | Taxi |
长轨迹数 | 18,670 | 121,468 |
轨迹点 | 44,189,853 | 248,284,500 |
快照数 | 17,281 | 19,440 |
参数设置
为了全面的评估DMFUCP挖掘框架对UCP的发现能力及挖掘框架的性能, 本实施例对设置的各个参数进行了实验.下表列出了所有需要评估的参数,其 中斜体加粗的为参数的默认值。
数据集 | Taxi | Geolife |
参数 | 取值 | 取值 |
M | 8,10,12,14,16,18,20 | 8,9,10,11,12,13,14 |
K | 60,80,100,120,140,160,180 | 80,100,120,140,160,180,200 |
L | 8,12,16,20,24,28,32 | 10,15,20,25,30,35,40 |
G | 3,6,9,12,15,18,21 | 8,12,16,20,24,28,32 |
实验对比及分析
由于DMFUCP挖掘涉及多个算法,为了便于观察,本实施例在以下实验对 比与分析中为挖掘所使用到的算法进行了简化表示,具体如下表所示。
为了更好比较表中挖掘框架在挖掘阶段的性能,本实验给出了挖掘性能的 计算公式:
DMFUCP框架UCP发现能力评估
图9(a),(b)表示随着M的变化UCP发现能力的变化。Geolife中不同的M 对方案的发现能力改变相较于Taxi并不是很明显,那是因为Geolife的数据比较 稀疏,M的变化并不会对发现能力产生大的变化。
图9(c),(d)表示随着K的变化UCP发现能力的变化。Geolife中发现能力 在不同的K值下表现稳定,而Taxi则对不同K值表现的十分敏感,因为Taxi 中的长轨迹包含的快照数要普遍低于Geolife中长轨迹的快照数。
图9(e),(f)表示随着L的变化UCP发现能力的变化。在两个数据集中不同 的L值并未对UCP发现能力产生太大变化,因为在两个数据集中长轨迹的完整 度都很高,线性插值补全也起到了作用。
图9(g),(h)表示随着G的变化UCP发现能力的变化。在Geolife中采用GSPR 算法比Taxi表现更加好,Geolife中会对UCP发现能力有2~3倍的提升,而Taxi 中会有1~2倍的提升,因为Geolife中长轨迹更长且存在大量的松散连接现象。
DMFUCP框架Platoon与Swarm发现能力评估
图10(a)至(f)表示随着M、K、L的变化Platoon与Swarm发现能力的变化.采 用DCTAE比DAE的Platoon与Swarm发现能力更好,因为DCTAE扩大了对 象运动方向上的对象发现。不同的M、K、L的变化在Taxi上表现的更加明显, 且DCTAE相对于DAE对Platoon与Swarm发现能力保持在1.7倍左右,因为 Taxi中存在的边界点多于Geolife。
DMFUCP框架性能评估
图11(a),(b)显示了DAE、DCTAE、DGS和DCTGS在默认取值的状态下 对Geolife与Taxi中的UCP发现性能.DCTGS和DCTAE的TS性能均高于基 准框架DAE,因为它们发现UCP数量的提升要大于时间消耗的提升.在Taxi 中DGS的TS性能略低于DAE,因为Taxi中存在的松散连接现象并不是很多, 这导致DGS发现UCP数量的提升要小于时间消耗的提升。
总结
本实施例主要围绕在保证挖掘框架性能的同时提高对UCP的发现能力,因 此,基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP挖掘框 架来达到本实施例的目标,DBSCANCD与TCB分别通过扩大有意义点的发现 和合理划分聚类边界点来提高通用伴随模式挖掘输入数据的质量,GSPR算法通 过G对通用伴随模式挖掘的输入进行分割和重划分,在过滤无用信息的同时提 高挖掘算法对UCP的发现能力,SAE算法则使用多线程和前向闭包使挖掘过程 的时间消耗大大降低。实验结果证明DMFUCP挖掘框架在UCP的发现能力和TS性能上均得到了提升。下一步工作将应用DMFUCP挖掘框架处理轨迹数据 流,提升从轨迹数据流中发现UCP的能力和性能。
本实施例基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP 框架.在分布式计算平台Spark上使用两个真实的轨迹数据集对挖掘框架进行了 大量实验,与现有的通用伴随模式挖掘框架相比,本实施例所提出的DMFUCP 框架在保证性能的同时,具有更强的通用伴随模式发现能力。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附 图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以, 如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不 经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的 保护范围。
Claims (6)
1.基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:包括以下步骤:
一、建立轨迹数据集;
二、对轨迹数据集进行分布式聚类:通过DBSCANCD算法先进行密度聚类;
三、TCB算法以密度聚类结果作为输入,通过计算集合成员间的相似度,对边界点进行合理划分;
四、对轨迹数据集进行分布式挖掘:GSPR算法对通用伴随模式挖掘的输入进行分割和重划分,然后通过SAE算法进行挖掘。
2.根据权利要求1所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:步骤一后,先对数据预处理,然后进行步骤二。
3.根据权利要求2所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:数据预处理包括:将运动对象的原始编号进行了重新编号,使编号连续并由1开始,同时使用固定频率对真实数据集进行处理,使用线性插值对缺失数据进行填充,同时剔除了小于固定频率的多余数据。
4.根据权利要求1所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:DBSCANCD算法为:
输入:轨迹数据集合Si,聚类半径ePs,最小簇的基数minPts,向量夹角阈值angle;
输出:聚类结果集cluster,边界点集BPSet;
(2)CrDis←ePs/angle;
(3)for all sj in Si;
(4)if sj is not Visited;
(5)sj←Visited;
(6)C←CDAP(sj,Si);
(7)C′←C.filter(0≤distance≤ePs);
(8)if|C′|≥minPts;
(9)C′←C′-sj;
(10)cluster(j)←CI;
(11)while|C′|≠0;
(12)e←C′.head;
(13)index←e.index;
(14)if e没被访问或是噪声点;
(15)cluster(e.index)←CI;
(16)W←CDAP(e,Si);
(17)W′←W.filter(0≤distance≤ePs);
(18)if|W′|≥minPts;
(19)C′←C′+W′;
(20)end if;
(21)end if;
(22)else;
(23)if cluster(index)≠C,0and e≠sj;
(24)BPSet←BPSet+e;
(25)end if;
(26)end else;
(27)C′←C′-e;
(28)end while;
(29)CI←CI+1;
(30)end if;
(31)end if;
(32)end for;
(33)output(cluster,BPSet);
其中,第1~2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化;第6~7行根据定义5进行了两点间的CDAP距离计算,并根据ePs参数对计算结果进行筛选;第11~27行对C′进行了广度优先遍历,找出与sj属于同一簇的所有对象;第18~19行将满足|W′|≥minPts的所有W′成员添加到C′,以更新C′;第22~24行得到了边界点e,并添加到BPSet集中。
5.根据权利要求1所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:TCB算法为:
输入:所有快照下的聚类结果集CR,边界点集CP,最小簇的基数minPt;
输出:平衡聚类结果集CB;
1)S←0;
2)CB←CR;
3)if|CP|<1
4)output CB;
5)end if;
6)while CP!=0;
7)q←CP.head;
8)CP←CP-q;
9)M←SBS(BPC(q));
10)if M not all the same;
11)m←MSBS(M);
12)N←Setm;
13)S←change q;
14)if qt-1∈CP and qt-1∈N;
15)S←change qt-1;
16)CP←CP-qt-1;
17)end if;
18)if qt+1∈CP and qt+1∈N;
19)S←change qt+1;
20)CP←CP-qt+1;
21)end if;
22)end if;
23)end while;
24)CB←update(CR,S);
25)W←CR.delete(|cluster(i)|<minPts);
26)for i in S;
27)if W.contain(S(i));
28)S←S-S(i);
29)end for;
30)CB←update(CR,S);
31)output CB;
其中,第6~23行遍历了每一个边界点,根据计算结果对每一个边界点进行重新划分;第9行获得了边界点q的边界点生成集BPC(q),并且计算了边界点q的集合间相似度集SBS(BPC(q));第11~13行取得了边界点q的最大集合间相似度MSBS(M),并获得了使MSBS(M)=m时的集合,最后对q进行了重划分;第14~20行对边界点q的相邻时刻进行了重划分;第24~30行根据重划分后的集合S更新了原始的聚类结果集CR,形成了最终聚类平衡集合CB。
6.根据权利要求1所述的基于大规模轨迹数据的通用伴随模式分布式挖掘方法,其特征在于:GSPR算法为:
输入:星型分区数据Star,G,M,K,L;
输出:相互独立的STG集STGS;
①for all Sr in Star;
②if|Sr.T|≥K;
③S←use G split(Sr.T);
④for all si in S;
⑤if|si|≥K;
⑥N←(Sr.O,si,label);
⑦end if;
⑧end for;
⑨end if;
其中,第2行使用K对星型分区的每条长轨迹进行首次过滤;第3~9行首先使用参数G对长轨迹进行分割,并对分割后的各个分段使用K进行二次过滤,最后给每条长轨迹的每个分段添加相同的标记;第13~23行使用参数L和K进行剪枝,并得到了候选的子轨迹群W;第24~26行使用参数M对候选的子轨迹群W进行过滤,最终得到有效地子轨迹群并添加进STGS。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011019669.7A CN112269844B (zh) | 2020-09-24 | 2020-09-24 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011019669.7A CN112269844B (zh) | 2020-09-24 | 2020-09-24 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112269844A true CN112269844A (zh) | 2021-01-26 |
CN112269844B CN112269844B (zh) | 2021-08-06 |
Family
ID=74349579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011019669.7A Active CN112269844B (zh) | 2020-09-24 | 2020-09-24 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112269844B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779105A (zh) * | 2021-08-11 | 2021-12-10 | 桂林电子科技大学 | 分布式轨迹流伴随模式挖掘方法 |
CN113934803A (zh) * | 2021-08-30 | 2022-01-14 | 中国人民解放军91977部队 | 一种基于时空剖分的船只伴随模式挖掘方法 |
CN116842285A (zh) * | 2023-07-27 | 2023-10-03 | 中国人民解放军陆军工程大学 | 基于时空轨迹数据的目标伴随模式挖掘方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593430A (zh) * | 2013-11-11 | 2014-02-19 | 胡宝清 | 一种基于移动对象时空信息轨迹分段聚类的方法 |
CN105740904A (zh) * | 2016-01-29 | 2016-07-06 | 东南大学 | 一种基于dbscan聚类算法的出行与活动模式识别方法 |
CN107016126A (zh) * | 2017-05-12 | 2017-08-04 | 西南交通大学 | 一种基于序列模式挖掘的多用户模型移动轨迹预测方法 |
CN107451233A (zh) * | 2017-07-25 | 2017-12-08 | 南京师范大学 | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 |
CN107766808A (zh) * | 2017-09-30 | 2018-03-06 | 北京泓达九通科技发展有限公司 | 道路网络空间中车辆对象移动轨迹聚类的方法及系统 |
CN108959466A (zh) * | 2018-06-20 | 2018-12-07 | 淮阴工学院 | 基于bcs-dbscan的出租车载客热点可视化方法及系统 |
CN109000645A (zh) * | 2018-04-26 | 2018-12-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂环境目标经典航迹提取方法 |
US20180364717A1 (en) * | 2017-06-14 | 2018-12-20 | Zoox, Inc. | Voxel Based Ground Plane Estimation and Object Segmentation |
CN109214462A (zh) * | 2018-09-25 | 2019-01-15 | 东北大学 | 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法 |
CN109241126A (zh) * | 2018-06-29 | 2019-01-18 | 武汉理工大学 | 一种基于r*树索引的时空轨迹聚集模式挖掘算法 |
CN109388663A (zh) * | 2018-08-24 | 2019-02-26 | 中国电子科技集团公司电子科学研究院 | 一种面向社会安全领域的大数据智能分析平台 |
CN109657547A (zh) * | 2018-11-13 | 2019-04-19 | 成都四方伟业软件股份有限公司 | 一种基于伴随模型的异常轨迹分析方法 |
CN110580251A (zh) * | 2019-07-19 | 2019-12-17 | 中国科学院信息工程研究所 | 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统 |
CN111291098A (zh) * | 2020-05-12 | 2020-06-16 | 北京航空航天大学 | 一种航迹模式挖掘方法与装置 |
CN111539454A (zh) * | 2020-03-30 | 2020-08-14 | 武汉理工大学 | 一种基于元学习的车辆轨迹聚类方法及系统 |
-
2020
- 2020-09-24 CN CN202011019669.7A patent/CN112269844B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593430A (zh) * | 2013-11-11 | 2014-02-19 | 胡宝清 | 一种基于移动对象时空信息轨迹分段聚类的方法 |
CN105740904A (zh) * | 2016-01-29 | 2016-07-06 | 东南大学 | 一种基于dbscan聚类算法的出行与活动模式识别方法 |
CN107016126A (zh) * | 2017-05-12 | 2017-08-04 | 西南交通大学 | 一种基于序列模式挖掘的多用户模型移动轨迹预测方法 |
US20180364717A1 (en) * | 2017-06-14 | 2018-12-20 | Zoox, Inc. | Voxel Based Ground Plane Estimation and Object Segmentation |
CN107451233A (zh) * | 2017-07-25 | 2017-12-08 | 南京师范大学 | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 |
CN107766808A (zh) * | 2017-09-30 | 2018-03-06 | 北京泓达九通科技发展有限公司 | 道路网络空间中车辆对象移动轨迹聚类的方法及系统 |
CN109000645A (zh) * | 2018-04-26 | 2018-12-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 复杂环境目标经典航迹提取方法 |
CN108959466A (zh) * | 2018-06-20 | 2018-12-07 | 淮阴工学院 | 基于bcs-dbscan的出租车载客热点可视化方法及系统 |
CN109241126A (zh) * | 2018-06-29 | 2019-01-18 | 武汉理工大学 | 一种基于r*树索引的时空轨迹聚集模式挖掘算法 |
CN109388663A (zh) * | 2018-08-24 | 2019-02-26 | 中国电子科技集团公司电子科学研究院 | 一种面向社会安全领域的大数据智能分析平台 |
CN109214462A (zh) * | 2018-09-25 | 2019-01-15 | 东北大学 | 一种基于分布式增量型dbscan算法的空间数据流在线聚类方法 |
CN109657547A (zh) * | 2018-11-13 | 2019-04-19 | 成都四方伟业软件股份有限公司 | 一种基于伴随模型的异常轨迹分析方法 |
CN110580251A (zh) * | 2019-07-19 | 2019-12-17 | 中国科学院信息工程研究所 | 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统 |
CN111539454A (zh) * | 2020-03-30 | 2020-08-14 | 武汉理工大学 | 一种基于元学习的车辆轨迹聚类方法及系统 |
CN111291098A (zh) * | 2020-05-12 | 2020-06-16 | 北京航空航天大学 | 一种航迹模式挖掘方法与装置 |
Non-Patent Citations (6)
Title |
---|
ANKITA 等: "Modified DBSCAN using Particle Swarm Optimization for Spatial Hotspot Identification", 《PROCEEDINGS OF 2018 ELEVENTH INTERNATIONAL CONFERENCE ON CONTEMPORARY COMPUTING (IC3)》 * |
QI FAN 等: "A general and parallel platform for mining co-movement patterns over large-scale trajectories", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 * |
ZHONGWEI YUE 等: "Search Model of the Region With the Maximum Coverage Value Based on Trajectory Data", 《IEEE ACCESS》 * |
刘畅: "城市交通中聚集模式的挖掘方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
岳中伟: "基于分布式计算平台的轨迹数据查询优化与分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
袁冠: "移动对象轨迹数据挖掘方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779105A (zh) * | 2021-08-11 | 2021-12-10 | 桂林电子科技大学 | 分布式轨迹流伴随模式挖掘方法 |
CN113934803A (zh) * | 2021-08-30 | 2022-01-14 | 中国人民解放军91977部队 | 一种基于时空剖分的船只伴随模式挖掘方法 |
CN113934803B (zh) * | 2021-08-30 | 2022-09-16 | 中国人民解放军91977部队 | 一种基于时空剖分的船只伴随模式挖掘方法 |
CN116842285A (zh) * | 2023-07-27 | 2023-10-03 | 中国人民解放军陆军工程大学 | 基于时空轨迹数据的目标伴随模式挖掘方法 |
CN116842285B (zh) * | 2023-07-27 | 2024-05-03 | 中国人民解放军陆军工程大学 | 基于时空轨迹数据的目标伴随模式挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112269844B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112269844B (zh) | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 | |
CN108981739B (zh) | 一种路径规划方法、装置、服务器及存储介质 | |
CN104462190B (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
CN104657424A (zh) | 一种多时空特征融合下的兴趣点轨迹聚类方法 | |
CN105721279B (zh) | 一种电信网络用户的交往圈挖掘方法及系统 | |
CN109739585B (zh) | 基于spark集群并行化计算的交通拥堵点发现方法 | |
CN110909173A (zh) | 一种基于标签传播的非重叠社区发现方法 | |
CN112579921B (zh) | 基于倒排序索引及前缀树的轨迹索引和查询方法及系统 | |
CN112417303A (zh) | 一种从动态属性图中检测多异常子图演化算法 | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
CN110609824A (zh) | 城市路网环境下基于动态空间网络模型的热点区域检测方法 | |
Grzybek et al. | Evaluation of dynamic communities in large-scale vehicular networks | |
CN111639191A (zh) | 一种新型冠状病毒知识图谱模拟疫情发展趋势的预测方法 | |
CN111307164A (zh) | 一种低采样率轨迹地图匹配方法 | |
CN114676917B (zh) | 一种空驶出租汽车空间分布评估方法及系统 | |
CN104778355B (zh) | 基于广域分布交通系统的异常轨迹检测方法 | |
CN113779105A (zh) | 分布式轨迹流伴随模式挖掘方法 | |
CN109800231B (zh) | 一种基于Flink的实时轨迹co-movement运动模式检测方法 | |
CN110807061A (zh) | 一种基于分层搜索不确定图的频繁子图的方法 | |
CN110046265B (zh) | 一种基于双层索引的子图查询方法 | |
Mu et al. | Recommend taxi pick-up hotspots based on density-based clustering | |
CN114996380A (zh) | 路网交叉点提取方法、装置、设备及存储介质 | |
CN114020785A (zh) | 一种扩展核密度空间分析的地理流方法 | |
CN113935137A (zh) | 一种基于路网拓扑结构的路况信息补全方法 | |
CN111966770A (zh) | 一种基于地理语义词嵌入的城市街道功能识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |