CN104794494A

CN104794494A - 一种可扩展快速的轨迹聚类方法

Info

Publication number: CN104794494A
Application number: CN201510217525.5A
Authority: CN
Inventors: 邓泽; 陈小岛; 陈云亮; 胡阳阳; 朱茂; 杜波; 黄晓辉
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-22
Anticipated expiration: 2035-04-30
Also published as: CN104794494B

Abstract

本发明提供了一种可扩展快速的轨迹聚类方法，首先进行局部最小生成树(MST)计算，然后生成全局MST，再利用粗粒度并行方法或者细粒度并行方法从全局MST提取聚类。本发明在点数据聚类的基础之上提出了新的轨迹聚类算法，时间开销比传统的基于模型、基于距离或者基于密度的聚类算法小，能够提高轨迹聚类速度和计算性能，同时本发明所提出的算法实现了轨迹大数据聚类的可扩展性。

Description

一种可扩展快速的轨迹聚类方法

技术领域

本发明涉及一种可扩展快速的轨迹聚类方法，属于数据挖掘技术和高性能计算领域。

背景技术

目前，已有许多成功的轨迹聚类方法。轨迹聚类方法大致可分为三类，即基于模型、基于距离和基于密度。基于模型的方法是对部分或者全部轨迹数据集进行建模，并为该模型寻找代表不同聚类的一组拟合参数。整个轨迹聚类的模型有回归混合模型和Markov模型，EM算法被用来估计这些模型的参数。这些方法中，轨迹模型作为一个整体，因此不能检测轨迹中相似的部分。

基于距离的聚类算法采用不同的轨迹距离函数和通用聚类算法来进行轨迹聚类。Chen等人提出的轨迹聚类函数，叫做实序列编辑距离(EDR)，EDR用来健壮轨迹的不完美。该轨迹聚类是基于ERD的分层聚类算法。最近，Wu等人提出了一种新奇的基于距离的轨迹聚类算法——CluST，CluST的主要思想是将轨迹数据划分成线段，并基于空间和和时间特征使用一种新的时空线性距离函数。所使用的线段距离函数和轨迹线段是基于k-means聚类算法。

基于密度的聚类算法每条轨迹的密度阈值从噪声数据中辨别相关的数据项。在基于密度的轨迹聚类算法中占主导地位的是DBSCAN和点数据聚类(OPTICS)，因为DBSCAN和OPTICS能够发现任意形状的聚类。

发明内容

为了解决现有技术的不足，本发明首次提以分布式方式在GPU上并行处理轨迹大数据的聚类方法，提供了一种可扩展快速的轨迹聚类方法，采用分布式和并行方法实现了轨迹大数据聚类的可扩展性以及提高轨迹聚类速度和计算性能。

本发明为解决其技术问题所采用的技术方案是：提供了一种可扩展快速的轨迹聚类方法，包括以下步骤：

(1)局部MST计算：

(1-1)已知轨迹T_i由N_i个连续不断的点的位置和时间戳组成，其中z_j和t_j分别表示轨迹T_i中数据点的位置和时间戳，位置由其x坐标和y坐标组成，j∈[1,N_i]；ST_i为T_i的子集，ST_i中的点为轨迹T_i中的连续点的一部分，轨迹数据D为N个轨迹的集合{T₁,T₂,...,T_N}或者轨迹的子集的集合{ST₁,ST₂,...,ST_N}；

首先对轨迹数据D建立STR树索引，STR树索引的每个叶子节点存储近似相等的轨迹；然后根据索引的叶子节点将轨迹数据D划分为V个子集D₁、D₂、…、D_V，V为叶子节点数；

(1-2)寻找邻域内的轨迹：

(1-2-1)将V个子集分别分配给一个CPU线程；

(1-2-2)对于每个CPU线程，该CPU线程扫描该CPU线程中的子集的各个轨迹，在任意时间周期t_k到t_k+1内的两条轨迹T₁和T₂，T₁和T₂均为该CPU线程中的子集中的轨迹，T₁和T₂是和在时间标记t_k到t_k+1内的线性插值；所述时间周期t_k到t_k+1为设置的采样频率的倒数，和是时刻t_k的点到时刻t_k+1的点组成的两条已知的不同线段；

(1-2-3)利用以下时空距离公式近似计算任意两条轨迹的时空距离：

Dist (T_{1}, T_{2}) \approx Σ_{i = 1}^{N - 1} ((D_{T_{1}, T_{2}} (t_{k}) + (D_{T_{1}, T_{2}} (t_{k + 1}) \times (t_{k + 1} - t_{k})) . . . . . . (1)

其中，Dist(T₁,T₂)表示任意两条轨迹T₁和T₂的时空距离，是随时间变化的欧氏距离，通过以下公式计算：

D_{T_{1}, T_{2}} (t) = \sqrt{a \times t^{2} + b \times t + c} . . . . . . (2)

a = \frac{A}{{(t_{k - 1} - t_{k})}^{2}} . . . . . . (3)

b = \frac{B}{t_{k} + t_{k - 1}} - \frac{2 \times A \times t_{k + 1}}{{(t_{k + 1} - t_{k})}^{2}} . . . . . . (4)

c = \frac{A \times t_{k}^{2}}{t_{k + 1} - t_{k}} - \frac{B \times t_{k}}{t_{k + 1} - t_{k}} + C . . . . . . (5)

A = {(q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x)}^{2} + {(q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y)}^{2} . . . . . . (6)

\begin{matrix} B = 2 ((q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x) (q_{t_{k}} . x - p_{t_{k}} . x) \\ + (q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y) (q_{t_{k}} . y - p_{t_{k}} . y)) \end{matrix} . . . . . . (7)

C = {(q_{t_{k}} . x - p_{t_{k}} . x)}^{2} + {(q_{t_{k}} . y - p_{t_{k}} . y)}^{2} . . . . . . (8)

其中，和分别表示数据点的x坐标和y坐标，和分别表示数据点的x坐标和y坐标，和分别表示数据点的x坐标和y坐标，和分别表示数据点的x坐标和y坐标；

(1-2-4)判断两条轨迹之间的时空距离是否小于预设值ε，若是则两条轨迹为邻域ε内的轨迹，将两条轨迹进行聚类；

(1-2-5)重复步骤(1-2-2)至步骤(1-2-4)，直到每个CPU线程中子集的任意两条轨迹完成聚类；

(1-3)对于每个CPU线程，计算该CPU线程中的每条轨迹到该轨迹的MBB之间的距离，其中任意一条轨迹T_a到其MBB之间的距离利用以下公式计算：

dist (T_{a}, M) = Σ_{i = 1}^{g} \min Dist (T_{a} . linei, M) . . . . . . (9)

其中，M表示轨迹T_a的MBB，g表示轨迹T_a投影到其MBB的线段数目，i表示轨迹T_a投影到其MBB的线段序号，T_a.linei表示轨迹T_a投影到其MBB的第i条线段；

(1-4)生成局部MST：

(1-4-1)设置一个共享队列Q使其对所有CPU线程共享；

(1-4-2)对于每个轨迹，利用公式(1)分别计算该轨迹与其它各轨迹之间的核心距离ε′，若ε′<ε则其他轨迹为该轨迹邻域ε内的轨迹；

(1-4-3)对于每个轨迹，判断该轨迹T_i在邻域ε内的轨迹数目是否大于预设的一个聚类中最少的轨迹数目minNumofTrs，若是则轨迹T_i为核心轨迹，进入步骤(1-4-4)；

(1-4-4)在所有两个轨迹之间的核心距离值中，将最小的核心距离值插入队列Q；

(1-4-5)重复步骤(1-4-2)至步骤(1-4-4)直到对每个轨迹判断其是否为核心轨迹；

(2)生成全局MST：

(2-1)创建一个空的MST；

(2-2)归并步骤(1-4)生成的所有局部MST，得到全局MST；

(3)利用粗粒度并行方法或细粒度并行方法从全局MST提取聚类。

步骤(2)通过FindNeighbor函数寻找邻域内的轨迹。

步骤(3)所述的粗粒度并行方法包括以下步骤：利用Hyper-Q将2个以上CPU线程同时连接一个GPU启动GPU内核，从全局MST提取聚类。

步骤(3)所述的细粒度并行方法包括以下步骤：

(3-1)MST的并行计算：

(3-1-1)并行计算每条轨迹之间的时空距离，将结果以矩阵形式存储到GPU；

(3-1-2)利用GPU线程获取所有轨迹的核心距离，利用所有轨迹的核心距离构成列表L，列表L中的每条信息记录为边(tr_i,tr_j,w)，表示任意两条互相可达的轨迹tri和trj之间的可达距离w，轨迹tr_i和tr_j之间的可达距离w为邻域ε内最小的核心距离；

(3-1-3)扫描所有MST中的轨迹，如果一个轨迹的祖先节点是否属于它的孩子节点，则构成环；记录下每个环对应的轨迹，删除MST中的环；

(3-2)MSTs的并行归并：

(3-2-1)每个GPU线程合并一对最小生成树MST_s；

(3-2-2)当两个MST_s根节点之间的时空距离小于ε时，通过将一个的根节点指针指向另一个来合并两个MST_s；

(3-2-3)重复步骤(3-2-1)到(3-2-2)，直到生成全局MST；

(3-3)聚类的并行提取：

(3-3-1)各个GPU线程并行地初始化每个轨迹，使各个轨迹具有单独的轨迹ID集群标识；

(3-3-2)从所有GPU线程中选取一组GPU线程，该组GPU线程中的每一个GPU线程检查列表L中的一个边，对于边(t_i,t_j,w_ij)检查任意轨迹t_i与t_j是否属于邻域时空距离内的同一聚类，若是则将两条轨迹t_i与t_j置为相同的聚类ID。

本发明基于其技术方案所具有的有益效果在于：

本发明从全局MST提取聚类算法的复杂度为O((n/p)²+2n)，查询每条轨迹的邻域的时间开销为O(n′²)，STR树索引轨迹的时间开销为O(n′²×logn′)，其中n′为子集的轨迹数目。本发明在点数据聚类的基础之上提出了新的轨迹聚类算法，时间开销比传统的基于模型、基于距离或者基于密度的聚类算法小，能够提高轨迹聚类速度和计算性能，同时本发明所提出的算法实现了轨迹大数据聚类的可扩展性。

附图说明

图1为基于STR树索引示意图。

图2为一条轨迹的投影到其MBB之间的距离计算示意图。

图3为基于STR树和Hyper-Q并行计算示意图。

图4为可扩展快速的轨迹聚类方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明提供了一种可扩展快速的轨迹聚类方法，参照图4，包括以下步骤：

(1)局部MST计算：

近似相等的两条轨迹定义如下：若两个轨迹T_α＝{(z_α1,t_α1),(z_α2,t_α2)...(z_αN,t_αN)}和T_β＝{(z_β1,t_β1),(z_β2,t_β2)...(z_βN,t_βN)}，轨迹T_α和T_β的数据点的个数相同均为N，对于任意1≤j≤N有t_αj＝t_βj即时间戳相同，则轨迹T_α和T_β近似相等。

如图1所示为STR树索引示意图，轨迹tr被划分成三个线段，即线段1、线段2、线段3。所述线段表示轨迹的相邻两点的连线。这三条线段被相应的MMB(minimumbounding boxs)所封闭，并存储于STR树的叶节点A。叶节点A有三个索引条目(entry1，entry2，entry3)，每个条目的组成形式为(entry-ID，#trajectory，MBB)，没个条目对应一个线段，#trajectory是相应线段所属的轨迹数目。

(1-2)通过FindNeighbor函数寻找邻域内的轨迹：

(1-2-1)将V个子集分别分配给一个CPU线程；

(1-2-2)对于每个CPU线程，该CPU线程利用FindNeighbor函数扫描该CPU线程中的子集的各个轨迹，在任意时间周期t_k到t_k+1内的两条轨迹T₁和T₂，T₁和T₂均为该CPU线程中的子集中的轨迹，则T₁和T₂是和在时间标记t_k到t_k+1内的线性插值；所述时间周期t_k到t_k+1为设置的采样频率的倒数，和是时刻t_k的点到时刻t_k+1的点组成的两条已知的不同线段；

Dist (T_{1}, T_{2}) \approx Σ_{i = 1}^{N - 1} ((D_{T_{1}, T_{2}} (t_{k}) + (D_{T_{1}, T_{2}} (t_{k + 1}) \times (t_{k + 1} - t_{k})) . . . . . . (1)

D_{T_{1}, T_{2}} (t) = \sqrt{a \times t^{2} + b \times t + c} . . . . . . (2)

a = \frac{A}{{(t_{k - 1} - t_{k})}^{2}} . . . . . . (3)

b = \frac{B}{t_{k} + t_{k - 1}} - \frac{2 \times A \times t_{k + 1}}{{(t_{k + 1} - t_{k})}^{2}} . . . . . . (4)

c = \frac{A \times t_{k}^{2}}{t_{k + 1} - t_{k}} - \frac{B \times t_{k}}{t_{k + 1} - t_{k}} + C . . . . . . (5)

A = {(q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x)}^{2} + {(q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y)}^{2} . . . . . . (6)

\begin{matrix} B = 2 ((q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x) (q_{t_{k}} . x - p_{t_{k}} . x) \\ + (q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y) (q_{t_{k}} . y - p_{t_{k}} . y)) \end{matrix} . . . . . . (7)

C = {(q_{t_{k}} . x - p_{t_{k}} . x)}^{2} + {(q_{t_{k}} . y - p_{t_{k}} . y)}^{2} . . . . . . (8)

dist (T_{a}, M) = Σ_{i = 1}^{g} \min Dist (T_{a} . linei, M) . . . . . . (9)

图2所示为一条轨迹T_a的投影与其MMB之间的距离的一个示例，投影包含三条线段(T_a.line1，T_a.line2，T_a.line3)，则dist(T_a，M)＝minDist(T_a.line1，M)+minDist(T_a.line2，M)+minDist(T_a.line3，M)＝min{d1，d2，d3}+min{d3，d4，d5，d6}+min{d6，d7，d8}＝d2+d5+d6。

(1-4)生成局部MST：

(1-4-1)设置一个共享队列Q使其对所有CPU线程共享；

(2)生成全局MST：

(2-1)创建一个空的MST；

(2-2)归并步骤(1-4)生成的所有局部MST，得到全局MST；

步骤(3)所述的细粒度并行方法包括以下步骤：

(3-1)MST的并行计算：

(3-2)MSTs的并行归并：

(3-2-1)每个GPU线程合并一对最小生成树MST_s；

(3-2-3)重复步骤(3-2-1)到(3-2-2)，直到生成全局MST；

(3-3)聚类的并行提取：

图3所示为m个CPU线程被分配去连接同一个GPU。每个CPU线程P_i的响应用于处理一组局部轨迹数据。使用基于STR树的轨迹索引结构以实现CPU线程的数据分配。

当接受到单个局部数据后，每个CPU线程同时启动一个任务队列进入GPU的Hyper-Q。任务队列包含以下三个任务：

输入任务——从主机传送局部数据到GPU存储器

聚类任务——调用GPU内核来执行局部MST计算

输出任务——从GPU设备将结果返回给主机。

Claims

1.一种可扩展快速的轨迹聚类方法，其特征在于包括以下步骤：

(1)局部MST计算：

(1-1)已知轨迹T_i由N_i个连续不断的点的位置和时间戳组成，其中z_j和t_j分别表示轨迹T_i中数据点的位置和时间戳，位置由其x坐标和y坐标组成，t₁<t₂<...<t_Ni<当前时刻，j∈[1,N_i]；ST_i为T_i的子集，ST_i中的点为轨迹T_i中的连续点的一部分，轨迹数据D为N个轨迹的集合{T₁,T₂,...,T_N}或者轨迹的子集的集合{ST₁,ST₂,...,ST_N}；

(1-2)寻找邻域内的轨迹：

(1-2-1)将V个子集分别分配给一个CPU线程；

Dist (T_{1}, T_{2}) \approx Σ_{i = 1}^{N - 1} ((D_{T_{1}, T_{2}} (t_{k}) + (D_{T_{1}, T_{2}} (t_{k - 1}) \times (t_{k - 1} - t_{k})) . . . . . . (1)

D_{T_{1}, T_{2}} (t) = \sqrt{a \times t^{2} + b \times t + c} . . . . . . (2)

a = \frac{A}{{(t_{k - 1} - t_{k})}^{2}} . . . . . . (3)

b = \frac{B}{t_{k} - t_{k - 1}} - \frac{2 \times A \times t_{k - 1}}{{(t_{k + 1} - t_{k})}^{2}} . . . . . . (4)

c = \frac{A \times t_{k}^{2}}{t_{k + 1} - t_{k}} - \frac{B \times t_{k}}{t_{k + 1} - t_{k}} + C . . . . . . (5)

A = {(q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x)}^{2} + {(q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y)}^{2} . . . . . . (6)

\begin{matrix} B = 2 ((q_{t_{k + 1}} . x - q_{t_{k}} . x - p_{t_{k + 1}} . x + p_{t_{k}} . x) (q_{t_{k}} . x - p_{t_{k}} . x) \\ + (q_{t_{k + 1}} . y - q_{t_{k}} . y - p_{t_{k + 1}} . y + p_{t_{k}} . y) (q_{t_{k}} . y - p_{t_{k}} . y)) \end{matrix} . . . . . . (7)

C = {(q_{t_{k}} . x - p_{t_{k}} . x)}^{2} + {(q_{t_{k}} . y - p_{t_{k}} . y)}^{2} . . . . . . (8)

dist (T_{a}, M) = Σ_{i = 1}^{g} \min Dist (T_{a} . linei, M) . . . . . . (9)

(1-4)生成局部MST：

(1-4-1)设置一个共享队列Q使其对所有CPU线程共享；

(2)生成全局MST：

(2-1)创建一个空的MST；

(2-2)归并步骤(1-4)生成的所有局部MST，得到全局MST；

2.根据权利要求1所述的可扩展快速的轨迹聚类方法，其特征在于：步骤(2)通过FindNeighbor函数寻找邻域内的轨迹。

3.根据权利要求1所述的可扩展快速的轨迹聚类方法，其特征在于：步骤(3)所述的粗粒度并行方法包括以下步骤：利用Hyper-Q将2个以上CPU线程同时连接一个GPU启动GPU内核，从全局MST提取聚类。

4.根据权利要求1所述的可扩展快速的轨迹聚类方法，其特征在于：步骤(3)所述的细粒度并行方法包括以下步骤：

(3-1)MST的并行计算：

(3-2)MSTs的并行归并：

(3-2-1)每个GPU线程合并一对最小生成树MST_s；

(3-2-3)重复步骤(3-2-1)到(3-2-2)，直到生成全局MST；

(3-3)聚类的并行提取：