CN112269844B

CN112269844B - 基于大规模轨迹数据的通用伴随模式分布式挖掘方法

Info

Publication number: CN112269844B
Application number: CN202011019669.7A
Authority: CN
Inventors: 张敬伟; 刘绍建; 成静; 张康威; 杨青
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-08-06
Anticipated expiration: 2040-09-24
Also published as: CN112269844A

Abstract

本发明涉及轨迹数据处理技术领域，具体地说，涉及一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法，其以下步骤：一、建立轨迹数据集；二、对轨迹数据集进行分布式聚类：通过DBSCANCD算法进行密度聚类；三、TCB算法以密度聚类结果作为输入，通过计算集合成员间的相似度，对边界点进行合理划分；四、对轨迹数据集进行分布式挖掘：GSPR算法对通用伴随模式挖掘的输入进行分割和重划分，然后通过SAE算法进行挖掘。本发明能够较佳地挖掘通用伴随模式。

Description

基于大规模轨迹数据的通用伴随模式分布式挖掘方法

技术领域

本发明涉及轨迹数据处理技术领域，具体地说，涉及一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法。

背景技术

具有定位功能的移动设备的普及使用，轨迹数据呈现爆炸式增长，轨迹数据多为时空序列，被携带有定位装置的移动对象不断以固定的频率产生，蕴含着丰富的价值。在大规模的轨迹中提取出通用伴随模式具有重要的意义，为上层的服务提供了诸多可能。通用伴随模式挖掘可用于改善城市交通状况，通过发现通用伴随模式可以预测某一时间段内某段道路是否会发生交通拥堵，从而提前疏导交通以避免交通拥堵；处于相同通用伴随模式的一组群体往往具有某些相似的特征，通过对这些相似的特征进行挖掘可以提高社会推荐服务；通用伴随模式挖掘在事件调查方面也具有广泛运用场景，通过挖掘的通用伴随模式为寻找事件发生的可能原因提供支持。

伴随模式是指在某一范围内一定数量的运动对象在某一时间段内伴随运动，它具有时间性和空间性。从轨迹数据中挖掘伴随模式的方法从实现方案上可分为单机与分布式两类。分布式方案分为数据处理、数据分区和轨迹挖掘三个阶段，单机方案可分为数据处理和轨迹挖掘两个阶段。

现有的研究大多关注于如何在轨迹数据中快速的挖掘出伴随模式，将整个挖掘任务的重点放在轨迹挖掘阶段，对数据处理阶段则采用基于欧氏距离的密度聚类或圆盘聚类。但在现实生活与实践运用中，挖掘出对象间运动方向相似的比运动方向差异大的轨迹更具有实际意义，对基于欧式距离的聚类方法形成了挑战。

如图1所示，采用欧式距离的聚类方法会将(O₁,T₃)、(O₂,T₃)聚为一类，但在现实生活中将(O₂,T₃)、(O₃,T₃)聚为一类更具有意义，因为很可能对象O₁与对象O₂在岔路口处选择了不同的路，而O₃与O₂选择了相同的路。亟需一种新的距离度量方式，能实现在扩大对象运动方向上的横向聚类半径的同时缩小纵向聚类半径。

伴随模式挖掘中的聚类具有时间相关性，对象在某一时刻的聚类情况与它的上一时刻和下一时刻的聚类情况会对挖掘结果产生影响。由于聚类起始点是随机选取的，每个轨迹点也只能被归为一个簇，所以在聚类过程中会产生一定数量可同时归为不同簇的边界点，现有的工作单纯的按照对象被访问的顺序进行划分，影响了伴随模式挖掘的质量。怎样合理的划分边界点对聚类算法形成了挑战。如图2所示，对象O₂和对象O₃为核心点，对象O₁为边界点，对象O₁可同时处于对象O₂与O₃所属的簇，怎样合理的划分O₁对于伴随模式挖掘具有重要意义。

如图3所示，不同的颜色表示不同的伴随模式，在现实生活中会存在这样一种现象，大量的轨迹会集中式的经过某个公共场所，如超市、加油站等等，需要伴随模式挖掘算法去积极地识别它.GCMP中将这种现象定义为松散连接，通过设置参数G来避免它，处理效果不好。现实生活中它很可能是一种正常现象，因为伴随模式具有时间性，所以对象O₂与对象O₃很可能处于两种不同的伴随状态。现有的方法并不能去挖掘和区分它们，同时挖掘具有松散连接现象的伴随模式需要扫描整个轨迹，对伴随模式挖掘算法的性能提出了挑战。

发明内容

本发明的内容是提供一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法，其包括以下步骤：

一、建立轨迹数据集；

二、DBSCANCD算法先进行密度聚类，然后TCB算法以密度聚类结果作为输入，通过计算集合成员间的相似度，对边界点进行合理划分；

三、对轨迹数据集进行分布式挖掘：GSPR算法对通用伴随模式挖掘的输入进行分割和重划分，然后通过SAE算法进行挖掘。

作为优选，步骤一后，先对数据预处理，然后进行步骤二。

作为优选，数据预处理包括：将运动对象的原始编号进行了重新编号，使编号连续并由1开始，同时使用固定频率对真实数据集进行处理，使用线性插值对缺失数据进行填充，同时剔除了小于固定频率的多余数据。

作为优选，DBSCANCD算法为：

输入：轨迹数据集合S_i，聚类半径ePs，最小簇的基数minPts，向量夹角阈值angle；

输出：聚类结果集cluster，边界点集BPSet；

(1)cluster←0，

CI←1；

(2)CrDis←ePs/angle；

(3)for all s_j in S_i；

(4)if s_j is not Visited；

(5)s_j←Visited；

(6)C←CDAP(s_j，S_i)；

(7)C′←C.filter(0≤distance≤ePs)；

(8)if|C′|≥minPts；

(9)C′←C′-s_j；

(10)cluster(j)←CI；

(11)while|C′|≠0；

(12)e←C′.head；

(13)index←e.index；

(14)if e没被访问或是噪声点；

(15)cluster(e.index)←CI；

(16)W←CDAP(e，S_i)；

(17)W′←W.filter(0≤distance≤ePs)；

(18)if|W′|≥minPts；

(19)C′←C′+W′；

(20)end if；

(21)end if；

(22)else；

(23)if clusterindex≠C，0and e≠s_j；

(24)BPSet←BPSet+e；

(25)end if；

(26)end else；

(27)C′←C′-e；

(28)end while；

(29)CI←CI+1；

(30)end if；

(31)end if；

(32)end for；

(33)output(cluster，BPSet)；

其中，第1～2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化；第6～7行根据定义5进行了两点间的CDAP距离计算，并根据ePs参数对计算结果进行筛选；第11～27行对C′进行了广度优先遍历，找出与s_j属于同一簇的所有对象；第18～19行将满足|W′|≥minPts的所有W′成员添加到C′，以更新C′；第22～24行得到了边界点e，并添加到BPSet集中。

作为优选，TCB算法为：

输入：所有快照下的聚类结果集CR，边界点集CP，最小簇的基数minPt；

输出：平衡聚类结果集CB；

1)S←0；

2)CB←CR；

3)if|CP|＜1

4)output CB；

5)end if；

6)while CP！＝0；

7)q←CP.head；

8)CP←CP-q；

9)M←SBSBP^c(q))；

10)if M not all the same；

11)m←MSBS(M)；

12)N←Set^m；

13)S←change q；

14)if q_t-1∈CP andq_t-1∈N；

15)S←change q_t-1；

16)CP←CP-q_t-1；

17)end if；

18)if q_t+1∈CPand q_t+1∈N；

19)S←change q_t+1；

20)CP←CP-q_t+1；

21)end if；

22)end if；

23)end while；

24)CB←update(CR，S)；

25)W←CR.delete(|cluster(i)|＜minPts)；

26)for i in S；

27)if W.contain(S(i))；

28)S←S-S(i)；

29)end for；

30)CB←update(CR，S)；

31)output CB；

其中，第6～23行遍历了每一个边界点，根据计算结果对每一个边界点进行重新划分；第9行获得了边界点q的边界点生成集BP^C(q)，并且计算了边界点q的集合间相似度集SBS(BP^C(q))；第11～13行取得了边界点q的最大集合间相似度MSBS(M)，并获得了使MSBS(M)＝m时的集合，最后对q进行了重划分；第14～20行对边界点q的相邻时刻进行了重划分；第24～30行根据重划分后的集合S更新了原始的聚类结果集CR，形成了最终聚类平衡集合CB。

作为优选，GSPR算法为：

输入：星型分区数据Star，G，M，K，L；

输出：相互独立的STG集STGS；

①for all Sr in Star；

②if|Sr.T|≥K；

③S←use G split(Sr.T)；

④for all si in S；

⑤if|si|≥K；

⑥N←(Sr.O，si，label)；

⑦end if；

⑧end for；

⑨end if；

⑩

end for；

for ni in N；

if

and ni没被访问；

W←ni；

for nj in N；

if nj没被访问andni.label≠nj.label；

if|ni.T∩nj.T|≥K；

W←nj；

nj←is Visited；

end if；

end if；

end for；

end if；

if|W|≥M-1；

STGS←W；

end if；

end for；

output STGS；

其中，第2行使用K对星型分区的每条长轨迹进行首次过滤；第3～9行首先使用参数G对长轨迹进行分割，并对分割后的各个分段使用K进行二次过滤，最后给每条长轨迹的每个分段添加相同的标记；第13～23行使用参数L和K进行剪枝，并得到了候选的子轨迹群W；第24～26行使用参数M对候选的子轨迹群W进行过滤，最终得到有效地子轨迹群并添加进STGS。

本发明具有如下技术效果：

1)在数据处理阶段提出了DBSCANCD(DBSCAN based on Cosine Distancebetween two points)算法和TCB(Time-dependent Clustering Balance)算法，DBSCANCD算法通过使用CDAP(Cosine Distance of the Angle between two Points)对轨迹点进行密度聚类，可以有效地扩大相似于对象运动方向上的轨迹点发现，同时减少与对象运动方向差异大的轨迹点发现。TCB算法以密度聚类结果作为输入，根据每一快照下的每个边界点形成一个边界点划分集合，通过计算集合成员间的相似度，对边界点进行合理划分。聚类平衡算法采用贪心策略的思想，每次计算尽最大可能划分更多边界点，以取得局部最优解；

2)在挖掘阶段提出了GSPR(G Segment Pruning and Repartitioning)算法和SAE(Segmented Apriori Enumerator)算法，通过对分区数据进行G分段剪枝和重划分来有效地挖掘具有松散连接现象的伴随模式，同时保证SAE算法的性能。

附图说明

图1为现有技术中不合理聚类的示意图；

图2为现有技术中聚类边界点的示意图；

图3为现有技术中松散连接的示意图；

图4为实施例1中一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法的流程图；

图5为实施例1中分布式聚类及聚类平衡框架；

图6为实施例1中CDAP与欧式距离的关系图；

图7为实施例1中欧式距离与CDAP单一聚类区域对比图；

图8为实施例1中分布式伴随模式挖掘框架；

图9为实施例1中DMFUCP框架对UCP发现能力评估图；

图10为实施例1中DMFUCP框架对Platoon和Swarm发现能力评估图；

图11为实施例1中DMFUCP框架TS性能评估图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图4所示，本实施例提供了一种基于大规模轨迹数据的通用伴随模式分布式挖掘方法，其包括以下步骤：

一、建立轨迹数据集；

二、对轨迹数据集进行分布式聚类：通过DBSCANCD算法先进行密度聚类；

三、TCB算法以密度聚类结果作为输入，通过计算集合成员间的相似度，对边界点进行合理划分；

四、对轨迹数据集进行分布式挖掘：GSPR算法对通用伴随模式挖掘的输入进行分割和重划分，然后通过SAE算法进行挖掘。

本实施例中，步骤一后，先对数据预处理，然后进行步骤二。

本实施例中，数据预处理包括：将运动对象的原始编号进行了重新编号，使编号连续并由1开始，同时使用固定频率对真实数据集进行处理，使用线性插值对缺失数据进行填充，同时剔除了小于固定频率的多余数据。

本实施例中，DBSCANCD算法为：

输出：聚类结果集cluster，边界点集BPSet；

(1)cluster←0，

CI←1；

(2)CrDis←ePs/angle；

(3)for all s_j in S_i；

(4)if s_j is not Visited；

(5)s_j←Visited；

(6)C←CDAP(s_j，S_i)；

(7)C′←C.filter(0≤distance≤ePs)；

(8)if|C′|≥minPts；

(9)C′←C′-s_j；

(10)cluster(j)←CI；

(11)while|C′|≠0；

(12)e←C′.head；

(13)index←e.index；

(14)if e没被访问或是噪声点；

(15)cluster(e.index)←CI；

(16)W←CDAP(e，S_i)；

(17)W′←W.filter(0≤distance≤ePs)；

(18)if|W′|≥minPts；

(19)C′←C′+W′；

(20)end if；

(21)end if；

(22)else；

(23)if cluster(index)≠C，0and e≠s_j；

(24)BPSet←BPSet+e；

(25)end if；

(26)end else；

(27)C′←C′-e；

(28)end while；

(29)CI←CI+1；

(30)end if；

(31)end if；

(32)end for；

(33)output(cluster，BPSet)；

本实施例中，TCB算法为：

输出：平衡聚类结果集CB；

1)S←0；

2)CB←CR；

3)if|CP|＜1

4)outputCB；

5)end if；

6)while CP！＝0；

7)q←CP.head；

8)CP←CP-q；

9)M←SBS(BP^C(q))；

10)if M not all the same；

11)m←MSBS(M)；

12)N←Set^m；

13)S←change q；

14)if q_t-1∈CP andq_t-1∈N；

15)S←change q_t-1；

16)CP←CP-q_t-1；

17)end if；

18)if q_t+1∈CP and q_t+1∈N；

19)S←change q_t+1；

20)CP←CP-q_t+1；

21)end if；

22)end if；

23)end while；

24)CB←update(CR，S)；

25)W←CR.delete(|cluster(i)|＜minPts)；

26)for i in S；

27)if W.contain(S(i))；

28)S←S-S(i)；

29)end for；

30)CB←update(CR，S)；

31)output CB；

本实施例中，GSPR算法为：

输入：星型分区数据Star，G，M，K，L；

输出：相互独立的STG集STGS；

①for all Sr in Star；

②if|Sr.T|≥K；

③S←use G split(Sr.T)；

④for all si in S；

⑤if|si|≥K；

⑥N←(Sr.O，si，label)；

⑦end if；

⑧end for；

⑨end if；

⑩

end for；

for ni in N；

and ni没被访问；

W←ni；

for nj in N；

if nj没被访问and ni.label≠nj.label；

if |ni.T∩nj.T|≥K；

W←nj；

nj←is Visited；

end if；

end if；

end for；

end if；

if|W|≥M-1；

STGS←W；

end if；

end for；

output STGS；

如下表所示，为本实施例中使用到的一些符号和基本术语：

通用伴随模式(UCP，Universal Companion Pattern)：给定对象集O＝＜o₁，o₂，…o_n>，聚类簇集C＝＜c₁，c₂，…c_n>，其中c_i＝(O_i，t_i，i)，UCP＝{O_s，TU_s}，其中

i＜j＜n，UCP满足：(1)

(2)|O_s|≥M；(3)

(4)∑(|TU_s[i：j]|)≥K；(5)

UCP具有五个约束，其中第一个为基本约束，第二到第五个约束通过参数的形式进行调节以适应不同条件下的伴随模式.例如G＝1时UCP转变为Convoy和Flock，这使得UCP能更好的适应现实生活.与已有的研究不同，本实施例的参数G还将用于GSPR算法中的长轨迹分割。

下面给出一个实例来理解UCP：当G＝2，K＝3，M＝3，L＝2时，给定UCP＝{O_s，TU_s}，TU_s＝(1，2，4，5，9，10，11，18)，O_s＝(1，2，4，5)，C＝{(O_s，1，1)，(O_s，2，3)，(O_s，4，7)，(O_s，5，10)，(O_s，9，2)，(O_s，10，4)，(O_s，11，6)}，根据定义1及参数G可以得到两个UCP，分别为UCP₁＝{O_s，(1，2，4，5)}，UCP₂＝{O_s，(9，10，11)}。

定义2.相邻轨迹点线段(pSegment)：给定轨迹P＝＜p₁，p₂，…，p_n>，其中p_n＝(x_n，y_n，t_n)，x_n为p_n的经度，y_n为p_n的纬度，t_n为p_n的时间戳，相邻轨迹点线段pSegment表示为pS(i)＝T[p_i：p_i+1]，当且仅当p_i+1-p_i≤Δt。

定义3.pSegment方向向量(pVector)：给定轨迹T＝<p₁，p₂，…，p_n>，则pVector表示在以0经度线和0纬度线构成的二维坐标中运动对象在相邻时刻的运动向量，轨迹T在i时刻的pVector表示为：

pV(T_i)＝(x_i+1-x_i，y_i+1-y_i) (1)；

定义4.轨迹间pVector夹角(TSAngle)：给定轨迹

其中

则k时刻轨迹T_a与T_b间pVector夹角表示为：

聚类操作对于轨迹数据的模式挖掘具有十分重要的作用，但聚类操作也占据了模式挖掘整个过程的大量时间.随着轨迹数据规模的快速增长，基于单机模式的挖掘框架很难直接扩展.现有的解决方式通常采用分布式方案，分布式可以将互不影响的各个任务并行执行，从而达到成倍的速度提升.轨迹数据的UCP挖掘具有时间相关性，分布式挖掘UCP，首先需要对每个快照下的所有对象进行聚类操作，在现实生活中，整个轨迹数据集往往具有成千上万的快照数，甚至更多，并且快照数和数据量随时间在不断地增长，对这些数据进行聚类所需要的时间十分庞大。分析发现，每个快照下的轨迹聚类操作互不影响，采用分布式聚类可以为整个模式挖掘任务节省大量时间。图5显示了本实施例提出的轨迹数据分布式聚类及聚类平衡的基本框架，整个框架包含Map和Reduce两个阶段.图5(b)显示了DBSCANCD算法聚类后的结果，图5(c)显示了TCB重划分边界点后的结果。

DBSCANCD算法

在实际应用中，挖掘出对象间运动方向相似的比运动方向差异大的轨迹更具有实际意义.现有的大部分研究均采用基于欧式距离的DBSCAN算法，DBSCAN算法并不考虑对象的运动方向，只考虑距离这一单一维度，使大量无实际意义的轨迹点被聚类.DBSCANCD是一种基于密度聚类的算法，它同时考虑了对象运动方向和距离两个维度，并且引入了可调参数σ，σ参数主要受城市道路的弯曲角度和城市道路岔路口角度两个因素影响。

DBSCANCD使用了考虑运动方向和距离两个维度的CDAP度量方式，下面给出了CDAP距离的定义及计算方式：

定义5.CDAP.给定轨迹

k时刻T_a与T_b的

可表示为：

其中

表示轨迹T_a与T_b在k时刻的欧式距离，其中0＜σ＜1，σ可根据城市道路的弯曲角度和城市道路岔路口角度两个因素确定.在CDAP中通过乘以

的值来增大与对象的运动方向差异大的轨迹点间的距离，同时缩小与对象的运动方向相似的轨迹点间的距离。CDAP通过

的符号处理因为方向相反而导致的错误聚类问题.图6显示了CDAP与欧式距离在[0,π]时的关系。

DBSCANCD可以发现任意形状的聚类区域，与DBSCANC算法不同，DBSCANCD算法的单一聚类区域不再是圆形，而是一个近似椭圆的扁平状区域.当σ＝0.5时，图7显示了欧式距离与CDAP在单一聚类区域上的差异，从中可以发现，CDAP所形成的聚类区域表现的更为扁平，单一聚类区域更加偏向于对象的运动方向。

定义6.聚类边界点(BoundaryPoint)：给定对象集O＝＜o₁，o₂，…o_n>，聚类簇集C＝＜c₁，c₂，…c_n>，其中c_i＝(O_i，t_i，i)，

则o_k为聚类边界点。

TCB算法

在对轨迹数据进行密度聚类时，聚类算法通常会从所有对象集中随意挑选一个对象作为聚类的起始点，不断地遍历对象集中没有被访问过的对象。现有的聚类算法遵照先后顺序对每一个符合要求的轨迹点进行聚类，并将其归入某一簇中，然后将被归入簇中的点从对象集中删除。但对象集中往往存在一些这样的对象，它们可以同时满足超过2个簇的聚类条件，即定义6中的聚类边界点。轨迹数据的UCP挖掘具有时间相关性，对象在相邻时刻的聚类情况与它当前的聚类情况存在联系。单纯的按照先后顺序对边界点进行划分存在合理性问题。

定义7.边界点生成集(Boundary point generating set)：给定边界点i，边界点i同时满足聚类条件的聚类簇集C，|C|≥2，c_k，c_n∈C，i的边界点生成集BP^C(i)可表示为：

定义8.集合间相似度集(SimilaritysetBetweenSets)：给定边界点i的边界点生成集BP^C(i)，下面给出了BP^C(i)的集合间相似度集SBS(BP^C(i)的计算方法：

定义9.最大集合间相似度(MaximumSimilarityBetweenSets)：给定边界点i的边界点生成集BP^C(i)，BP^c(i)的集合间相似度集SBS(BP^C(i))，下面给出了BP^c(i)的最大集合间相似度MSBS(BP^C(i)的计算方法：

MSBS(BP^C(i))＝max(SBS(BP^C(i))) (8)

TCB算法很好的改善边了界点合理划分问题，与现有的单纯按照对象访问顺序划分聚类边界点相比，TCB算法通过计算边界点i的BP^C(i)的MSBS(BP^C(i)值来确定i被划分到哪个簇更为合理。为了防止当前时刻和相邻时刻边界点i所属的簇中包含其他边界点而导致BP^C(i)被递归计算，同时考虑到边界点i在相邻时刻均为边界点的情况，TCB算法采用贪心策略的思想，在处理边界点i的划分问题时，如果边界点i在相邻时刻同为边界点，则将相邻时刻边界点i同时满足的簇的所有成员添加到BP^C(i)，如果边界点i的当前时刻和相邻时刻存在其他边界点，则将它们仅在当前计算中视为非边界点。采用贪心策略的TCB算法可以减少边界点处理的次数，同时获得一个边界点合理划分的局部最优解。

在大规模轨迹数据中挖掘满足要求的UCP是一项十分耗时的任务，轨迹数据中往往具有成千上万的运动对象，为了挖掘UCP就不得不遍历所有的对象。在成都Taxi数据集中，包含120000以上条长轨迹和19000多个快照，如果通过直接遍历它们挖掘UCP，即使采用各种剪枝技术，挖掘UCP所花费的时间也是十分庞大的。随着信息时代的不断发展，计算资源也取得了快速增长。分析发现，对每个运动对象进行UCP挖掘可以同时进行而不产生干扰，只需为挖掘任务分配更多的计算资源便可实现性能的成倍的增长。将UCP进行分布式挖掘可以实现挖掘任务的并行执行，如图8所示，本实施例设计了一种高效的分布式UCP挖掘框架，实现了挖掘性能的提升，框架包含Map和Reduce两个阶段。图8(b)显示了GSPR算法的切分、剪枝和重划分的过程，图8(c)显示SAE算法的挖掘过程。

GSPR算法

轨迹数据中存在大量的松散连接现象，表现为对象在两次形成聚类现象之间相隔了相当长的一段时间。为了高效的挖掘处于松散连接状态下不同的UCP，本实施例设计了GSPR算法，GSPR算法使用自定义参数G实现对存在松散连接现象的长轨迹的切分，并为属于同一条长轨迹的每个分段添加一个相同的标记以避免重划分过程的重复计算。GSPR算法使用自定义参数K对每一个分段进行初步剪枝，在完成初步剪枝后，使用自定义参数L和K同时对分段进行剪枝，在剪枝完成后将对每个分段进行重划分。最终，大量的长轨迹将被划分成一个包含相互独立的子轨迹群，下面给出子轨迹群的具体定义。

定义10.子轨迹群(Sub-Trajectory Group)：给定对象i的星型分区Star(i)＝{o_i，OT_i}，其中OT_i＝[(o_k，T_k)，(o_m，T_m)…(o_n，T_n)]，i＜k＜m＜n，子轨迹群STG(i)＝{o_i，SOT_i}需满足：(1)|SOT_i|≥M-1，(2)

(3)

其中对于

实验及分析

环境设置

实验采用4台Dell服务器，每台服务器拥有128G RAM、56个CPU内核(Intel(R)Xeon(R)Gold 5117 CPU@2.00GHz)。四台服务器上一共部署了26个节点，其中包括25个子节点和1个主节点。主节点拥有32G RAM，16个CPU内核和1.5TB ROM，每个子节点拥18G RAM，8个CPU内核和0.5TB ROM。集群系统采用Centos7，Java虚拟机版本为JDK1.8，分布式平台采用Spark2.3.0，以yarn的方式搭建在Hadoop 3.1上，集群的统一部署和可视化采用Apacheambari 2.7。整个UCP挖掘方案使用Scala语言在IDEA 2019.1中实现，并通过Maven3.6.0进行打包上传到Spark集群。

建立数据集

本实施例使用了两个真实的轨迹数据集：

(1)Geolife：该数据集保存了182名用户在2008年4月至2012年8月的旅行记录。对于每个用户，定期收集GPS信息。

(2)Taxi：该数据集是成都市14795辆出租车超过3亿条GPS记录，时间从2014年08月03日到08月12日，其中忽略了00:00:00～05:59:59这一时间段的数据。

数据预处理

预处理中，本实施例将运动对象的原始编号进行了重新编号，使编号连续并由1开始.同时本实施例使用了固定频率(Geolife＝5秒，Taxi＝30秒)对两个真实数据集进行了处理，使用线性插值对缺失数据进行填充，同时剔除了小于固定频率的多余数据.在使用DBSACNCD与DBSACN聚类算法时，本实施例根据数据集的不同设置了不同的ePs(聚类半径)和minPts(最小簇基数)值，Geolife采用ePs＝30，minPts＝8，angle＝0.5，Taxi采用ePs＝25，minPts＝8，angle＝0.5。

下表显示了本实施例对两个真实数据集预处理后的结果。

属性	Geolife	Taxi
			长轨迹数	18,670	121,468
轨迹点	44,189,853	248,284,500
			快照数	17,281	19,440

参数设置

为了全面的评估DMFUCP挖掘框架对UCP的发现能力及挖掘框架的性能，本实施例对设置的各个参数进行了实验.下表列出了所有需要评估的参数，其中斜体加粗的为参数的默认值。

数据集	Taxi	Geolife
			参数	取值	取值
M	8,10,12,14,16,18,20	8,9,10,11,12,13,14
			K	60,80,100,120,140,160,180	80,100,120,140,160,180,200
L	8,12,16,20,24,28,32	10,15,20,25,30,35,40
			G	3,6,9,12,15,18,21	8,12,16,20,24,28,32

实验对比及分析

由于DMFUCP挖掘涉及多个算法，为了便于观察，本实施例在以下实验对比与分析中为挖掘所使用到的算法进行了简化表示，具体如下表所示。

方法	别名(挖掘框架)
		DBSCAN+AprioriEnumerator	DAE(基准框架)
DBSCANCD+TCB+AprioriEnumerator	DCTAE(DMFUCP)
		DBSCAN+GSPR+SAE	DGS(DMFUCP)
DBSCANCD+TCB+GSPR+SAE	DCTGS(DMFUCP)

为了更好比较表中挖掘框架在挖掘阶段的性能，本实验给出了挖掘性能的计算公式：

DMFUCP框架UCP发现能力评估

图9(a)，(b)表示随着M的变化UCP发现能力的变化。Geolife中不同的M对方案的发现能力改变相较于Taxi并不是很明显，那是因为Geolife的数据比较稀疏，M的变化并不会对发现能力产生大的变化。

图9(c)，(d)表示随着K的变化UCP发现能力的变化。Geolife中发现能力在不同的K值下表现稳定，而Taxi则对不同K值表现的十分敏感，因为Taxi中的长轨迹包含的快照数要普遍低于Geolife中长轨迹的快照数。

图9(e)，(f)表示随着L的变化UCP发现能力的变化。在两个数据集中不同的L值并未对UCP发现能力产生太大变化，因为在两个数据集中长轨迹的完整度都很高，线性插值补全也起到了作用。

图9(g)，(h)表示随着G的变化UCP发现能力的变化。在Geolife中采用GSPR算法比Taxi表现更加好，Geolife中会对UCP发现能力有2～3倍的提升，而Taxi中会有1～2倍的提升，因为Geolife中长轨迹更长且存在大量的松散连接现象。

DMFUCP框架Platoon与Swarm发现能力评估

图10(a)至(f)表示随着M、K、L的变化Platoon与Swarm发现能力的变化.采用DCTAE比DAE的Platoon与Swarm发现能力更好，因为DCTAE扩大了对象运动方向上的对象发现。不同的M、K、L的变化在Taxi上表现的更加明显，且DCTAE相对于DAE对Platoon与Swarm发现能力保持在1.7倍左右，因为Taxi中存在的边界点多于Geolife。

DMFUCP框架性能评估

图11(a)，(b)显示了DAE、DCTAE、DGS和DCTGS在默认取值的状态下对Geolife与Taxi中的UCP发现性能.DCTGS和DCTAE的TS性能均高于基准框架DAE，因为它们发现UCP数量的提升要大于时间消耗的提升.在Taxi中DGS的TS性能略低于DAE，因为Taxi中存在的松散连接现象并不是很多，这导致DGS发现UCP数量的提升要小于时间消耗的提升。

总结

本实施例主要围绕在保证挖掘框架性能的同时提高对UCP的发现能力，因此，基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP挖掘框架来达到本实施例的目标，DBSCANCD与TCB分别通过扩大有意义点的发现和合理划分聚类边界点来提高通用伴随模式挖掘输入数据的质量，GSPR算法通过G对通用伴随模式挖掘的输入进行分割和重划分，在过滤无用信息的同时提高挖掘算法对UCP的发现能力，SAE算法则使用多线程和前向闭包使挖掘过程的时间消耗大大降低。实验结果证明DMFUCP挖掘框架在UCP的发现能力和TS性能上均得到了提升。下一步工作将应用DMFUCP挖掘框架处理轨迹数据流，提升从轨迹数据流中发现UCP的能力和性能。

本实施例基于DBSCANCD、TCB、GSPR和SAE四个算法提出了DMFUCP框架.在分布式计算平台Spark上使用两个真实的轨迹数据集对挖掘框架进行了大量实验，与现有的通用伴随模式挖掘框架相比，本实施例所提出的DMFUCP框架在保证性能的同时，具有更强的通用伴随模式发现能力。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于大规模轨迹数据的通用伴随模式分布式挖掘方法，其特征在于：包括以下步骤：

一、建立轨迹数据集；

四、对轨迹数据集进行分布式挖掘：GSPR算法对通用伴随模式挖掘的输入进行分割和重划分，然后通过SAE算法进行挖掘；SAE算法使用多线程和前向闭包进行挖掘；

其中，DBSCANCD算法为：

输出：聚类结果集cluster，边界点集BPSet；

(1)cluster←0，

CI←1；

(2)CrDis←ePs/angle；

(3)for all s_j in S_i；

(4)if s_j is not Visited；

(5)s_j←Visited；

(6)C←CDAP(s_j，S_i)；

(7)C′←C.filter(0≤distance≤ePs)；

(8)if|C′|≥minPts；

(9)C′←C′-s_j；

(10)cluster(j)←CI；

(11)while|C′|≠0；

(12)e←C′.head；

(13)index←e.index；

(14)ife没被访问或是噪声点；

(15)cluster(e.index)←CI；

(16)W←CDAP(e，S_i)；

(17)W′←W.filter(0≤distance≤ePs)；

(18)if|W′|≥minPts；

(19)C′←C′+W′；

(20)end if；

(21)end if；

(22)else；

(23)if cluster(index)≠C，0and e≠s_j；

(24)BPSet←BPSet+e；

(25)end if；

(26)end else；

(27)C′←C′-e；

(28)end while；

(29)CI←CI+1；

(30)end if；

(31)end if；

(32)end for；

(33)output(cluster，BPSet)；

其中，第1～2行对聚类结果集、边界点集、CDAP的临界值和簇号进行了初始化；第6～7行根据定义5进行了两点间的CDAP距离计算，并根据ePs参数对计算结果进行筛选；第11～27行对C′进行了广度优先遍历，找出与s_j属于同一簇的所有对象；第18～19行将满足|W′|≥minPts的所有W′成员添加到C′，以更新C′；第22～24行得到了边界点e，并添加到BPSet集中；

定义5为：给定轨迹

k时刻T_a与T_b的

可表示为：

其中

分别表示轨迹T_a与T_b在k时刻x轴和y轴的欧式距离，其中σ为向量夹角阈值，0＜σ＜1，σ可根据城市道路的弯曲角度和城市道路岔路口角度两个因素确定；T_k(a，b)表示线段a与线段b在k时刻的夹角cos值；

表示k时刻的轨迹T_a与T_b；G表示两个连续段之间的最大时间间隔；

TCB算法为：

输出：平衡聚类结果集CB；

1)S←0；

2)CB←CR；

3)if|CP|＜1

4)output CB；

5)end if；

6)while CP！＝0；

7)q←CP.head；

8)CP←CP-q；

9)M←SBS(BP^C(q))；

10)if M not all the same；

11)m←MSBS(M)；

12)N←Set^m；

13)S←change q；

14)if q_t-1∈CP andq_t-1∈N；

15)S←change q_t-1；

16)CP←CP-q_t-1；

17)end if；

18)if q_t+1∈CP and q_t+1∈N；

19)S←change q_t+1；

20)CP←CP-q_t+1；

21)end if；

22)end if；

23)end while；

24)CB←update(CR，S)；

25)W←CR.delete(|cluster(i)|＜minPts)；

26)for i in S；

27)if W.contain(S(i))；

28)S←S-s(i)；

29)end for；

30)CB←update(CR，S)；

31)output CB；

其中，第6～23行遍历了每一个边界点，根据计算结果对每一个边界点进行重新划分；第9行获得了边界点q的边界点生成集BP^C(q)，并且计算了边界点q的集合间相似度集SBS(BP^C(q))；第11～13行取得了边界点q的最大集合间相似度MSBS(M)，并获得了使MSBS(M)＝m时的集合，最后对q进行了重划分；第14～20行对边界点q的相邻时刻进行了重划分；第24～30行根据重划分后的集合S更新了原始的聚类结果集CR，形成了最终聚类平衡集合CB；

边界点q的集合间相似度集的具体计算方法如下：