CN107622085A

CN107622085A - 一种基于网格和密度的自适应轨迹聚类方法

Info

Publication number: CN107622085A
Application number: CN201710683270.0A
Authority: CN
Inventors: 毛莺池; 钟海士; 戚荣志; 平萍; 李晓芳
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2018-01-23

Abstract

本发明公开了一种基于网格和密度的自适应轨迹聚类方法。该方法可以在不输入参数的前提下对轨迹数据进行有效地聚类，方法的详细步骤为：(1)数据采集，利用GPS设备采集移动对象的时空轨迹数据，作为方法的数据输入；(2)轨迹划分，将整条轨迹划分为多条子轨迹段；(3)轨迹段映射，将轨迹段集合映射到网格中，轨迹段与网格单元为多对多关系，即每个轨迹段所属的网格单元为一个或多个，每个网格单元包含的轨迹段数目大于等于0；(4)轨迹段聚类，计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数等数据，使用上述数据实现参数自动率定，然后基于DBSCAN算法思想对轨迹段集合进行聚类。

Description

一种基于网格和密度的自适应轨迹聚类方法

技术领域

本发明涉及一种基于网格和密度的自适应轨迹聚类方法，用于移动物体轨迹数据的聚类分析，属于智能交通技术领域。

背景技术

近年来，随着传感器技术的迅猛发展和个人智能设备的飞速普及，GPS设备被广泛用于追踪移动物体(人、车、动物等)，每天都有大量的轨迹数据在不断产生。轨迹数据是移动物体随着时间变化在空间中留下的时空数据序列，其包含着大量信息，使得我们能够更加直观的了解移动对象的行为。如动物学者们为研究动物的迁徙，通过在动物的身上安装定位设备，来获得动物的迁徙路径；环境学家为研究飓风的形成与移动规律，使用聚类、相关性分析等手段研究飓风运动轨迹，有助于做好飓风的预防工作；通过分析汽车的移动路径，市政交通部口能够对城市道路进行规划，缓解道路拥堵等问题。

数据挖掘技术可以用来分析处理轨迹信息，从而发现数据中隐藏的关系与规律，是轨迹分析中的非常重要的一环。聚类分析是数据挖掘中最重要的方法之一，可以将具有一定相似性的数据划分到同一簇，是一种无监督的学习过程。对移动对象的轨迹数据进行聚类分析具有重大意义。轨迹聚类的主要方法分为两类：一类是基于全区间相似的聚类方法，即以整条轨迹为单元进行聚类，这种方法对简单轨迹效果较好，但忽略局部细节，在复杂轨迹上效果较差；另一类是基于子区间相似的聚类方法，即将复杂的轨迹按照某种方式划分为多个轨迹段，然后以轨迹段为单元进行聚类，可以很好地识别轨迹的局部特征。现有轨迹聚类算法，都需要提供一个或多个参数，且参数取值对聚类效果的影响很大，实验者往往需要进行大量参数率定工作，尤其对不同数据集，较优参数也往往不同，对没有相关知识基础的使用者，参数率定工作更加困难。

本发明公开了一种基于网格和密度的自适应轨迹聚类方法，该方法首先将轨迹划分为多个轨迹段，然后将所有轨迹段映射到网格中，计算每个网格单元中各个轨迹段之间的平均距离，还需要计算所有网格单元平均含有的轨迹段数等数据，使用上述统计数据实现参数自动率定，同时以网格作为索引达到了对轨迹数据进行高效、精确地聚类。

经初步检索，暂未发现有与本发明内容相关的专利条目。

发明内容

发明目的：本发明提供一种基于网格和密度的自适应轨迹聚类方法，在轨迹划分过程，尽量减小划分后轨迹段数量的前提下，尽可能保证划分结果精确性；轨迹聚类过程中，在不降低轨迹聚类质量的前提下，实现参数自适应轨迹聚类。

技术方案：一种基于网格和密度的自适应轨迹聚类方法，它包括以下步骤：

S1：数据采集，利用GPS设备采集移动对象的时空轨迹数据，作为方法的数据输入。

S2：轨迹划分，将整条轨迹划分为多条子轨迹段。

S3：轨迹段映射，将轨迹段集合映射到网格中，轨迹段与网格单元为多对多关系，即每个轨迹段所属的网格单元为一个或多个，每个网格单元包含的轨迹段数目大于等于0。

S4：轨迹段聚类，计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数等数据，使用上述数据实现参数自动率定，然后基于DBSCAN算法思想对轨迹段集合进行聚类。

所述S2的轨迹划分包括以下子步骤：

S21：以平均角差值量化轨迹变化的平缓与急促，删除平均角差值高于阈值(即轨迹变化较急促)的部分。

S22：使用MDL方法使轨迹划分在简洁性和精确性达到平衡。计算时不使用连续替代轨迹段，而采用本发明提出的不连续替代轨迹，现有技术都在试图得到一个连续的轨迹段序列，即轨迹段首尾相连，但对轨迹段聚类，轨迹连续性是非必要的。本发明牺牲连续性，提高压缩后数据的精确性。

所述S3的轨迹段映射包括以下步骤：

S31：根据轨迹数据计算每个网格单元各个维度上的长度。

S32：遍历每个轨迹段，计算其所属的网格单元和每个网格单元包含的轨迹段。

所述S4的轨迹段聚类包括以下步骤：

S41：计算每个网格单元中各个轨迹段之间的平均距离，使用步骤S3得到的数据计算参数领域半径Eps。

S42：根据每个网格包含的轨迹数目和每个轨迹段所属网格单元的平均数据，计算参数N_avg。

S43：基于DBSCAN算法聚类轨迹段，其中参数MinPts为N_avg与轨迹段所属网格单元数目的乘积。计算Eps领域时以网格为索引以减少计算量。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的轨迹段间距离度量示意图；

图3为本发明实施例的不连续替代轨迹段示意图；

图4为本发明实施例的轨迹段的所属Cell和邻接Cell示意图；

图5为本发明实施例的方法原理图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明涉及到的相关定义如下：

定义1(轨迹).轨迹是由一系列的多维数据轨迹点组成的，一个轨迹TR可以表示为TR＝{P₁,P₂,…,P_n}，其中n表示轨迹中轨迹点的个数。

定义2(轨迹段).两个相邻离散轨迹点P_i与P_i+1相连形成轨迹段，记为TS_i。

定义3(替代轨迹段).将一个轨迹段集合{TS₁,TS₂,…,TS_n}使用一个轨迹段TS_rep表示，TS_rep为这个轨迹段集合的替代轨迹段。

定义4(所属Cell).如图4，标有点阴影的Cell为该轨迹段的所属Cell。TS.belong就表示为轨迹段TS的所属Cell集合。

定义5(邻接Cell).与轨迹段所属Cell相邻的Cell为该轨迹段的邻接Cell，TS.abjoin就表示为轨迹段TS的邻接Cell集合。如图4，所属Cell周围标有斜线阴影的该轨迹段的邻接Cell。

如图1所示，本发明包括数据采集、轨迹划分、轨迹段映射、轨迹段聚类四个阶段。下面分步骤详细说明本发明的具体实施方式。

S1：数据采集阶段，将GPS设备绑定到多个移动对象，以一定时间间隔记录移动对象在某一时刻的轨迹点数据，轨迹点数据包括经纬度、时间戳、速度等信息。每人每天的轨迹数据为一条轨迹TR＝{P₁,P₂,…,P_n}，其中n为轨迹中轨迹点总数，多人多天的轨迹数据为轨迹集合D_TR＝{TR₁,TR₂,…,TR_k}，其中k为轨迹总数。

S2：轨迹划分阶段，如图2所示为本发明使用的轨迹段间距离度量示意图，其计算公式为：

dist(TS₁,TS₂)＝dist(TS₂,TS₁)＝w_⊥×d_⊥+w_||×d_||

其中l_⊥表示较短轨迹段的端点与较长轨迹段的垂直距离，l_||表示较长轨迹的端点与l_⊥中垂点的距离，TS₁为较短轨迹段，TS₂为较长轨迹段，d_⊥为垂直距离，d_||为平行距离，θ为TS₁与TS₂的夹角。w_⊥为垂直距离权重，w_||为水平距离的权重，一般情况下这两个权重取值为1，在多个数据集中，这个默认值都十分有效。

如图3为本发明使用的不连续替代轨迹段示意图，设TS.θ为TS与水平线的顺时针夹角，表示{TS_start,TS₂,…,TS_end}的不连续替代轨迹段，那么经过的点P_mid(x_mid,y_mid)为所有轨迹点的在各维度上的均值，这样就可以求出以二维数据轨迹点为例，从P₁向做垂线，交于P_s，若P₁坐标为(x₁,y₁)，则P_s的坐标(x_s,y_s)计算公式为:

同样可以得到的终点P_e的坐标。显然易见，使用这种方法得到的替代轨迹段不能首尾相连，即它们是不连续的。

本发明提出的不连续轨迹划分方法分为两个过程，下面分过程说明。

S21：以平均角差值diff_avg来量化轨迹变化的平缓与急促，给定一个轨迹数据TR＝{P₁,P₂,…,P_n}，当diff_avg大于阈值Δθ_thr时，则将该子轨迹段的起点添加到候选轨迹点集合，经过筛选后候选轨迹点集合为{P_C1,P_C2,…,P_Cm}。diff_avg表示计算公式为：

S22：以S21输出作为输入，使用MDL方法划分轨迹，该方法使轨迹划分在简洁性和精确性达到平衡。MDL起源于信息论，表示传递一个消息所需的最短编码位数，其实质是对数据的一种压缩。MDL的开销一般由两部分组成：L(H)和L(D|H)，其中H为假设，D是要描述的数据，L(H)是描述假设的开销，L(D|H)是H下描述D的开销，MDL的目的是找到最优的H描述D，使L(H)与L(D|H)之和最小。

其中m表示S21中经过筛选后候选轨迹点集合的长度，C_i为经过筛选后候选轨迹点集合中第i个轨迹点在原轨迹点集合中的位置。

计算L(H)和L(D|H)之和最小值的全局最优解需要考虑划分的全部可能性，其开销是十分昂贵的，因此，本发明使用贪心法以局部最优解代替全局最优解。设P_i和P_j是轨迹中的两个点，那么MDL(i，j)(＝L(H)+L(D|H))表示为{P₁,P₂,…,P_n}的最小描述长度，L_D(i，j)为{P₁,P₂,…,P_n}的原始数据长度，即L_D(i，j)＝以P_i起点，若MDL(i，j)<L_D(i，j)说明P_i至P_j中间的轨迹点都为非特征点，当首次出现MDL(i，j)>L_D(i，j)，我们就可以说P_i和P_j-1为轨迹的特征点。

S3：轨迹段映射，以S2阶段的输出轨迹段集合D_ts＝{TS₁,TS₂,…,TS_n}作为输入，平均每个网格单元Cell拥有的轨迹段数目为Num_avg。基于密度的聚类应遵循类簇由小逐渐增大的原则，因此Num_avg的值应尽量取小，即每个Cell中的轨迹段数目应尽可能的小，但是由于需要统计每个Cell中各轨迹段间距离，Num_avg应大于或等于2，那么Num_avg取2最为合适，中所有维度的最大值组成轨迹点MaxPoint(d₁,d₂,…,d_m)，所有维度的最小值组成轨迹点MinPoint(d₁,d₂,…,d_m)，如果用Cell。表示Cell在d_i维度上的长度，那么网格中总共有n/Num_avg个Cell。一条轨迹段有可能跨越多个Cell，因此Cell与轨迹段为多对多的关系。

遍历每个轨迹段，计算出每个轨迹段的所属Cell和邻接Cell，以及每个Cell包含的轨迹段集合，作为下一步的输入。

S4：轨迹段聚类，基于DBSCAN聚类方法，本发明中Eps和MinPts参数为自适应生成。其具体包括以下步骤：

S41：从全部Cell中筛选出的轨迹段个数大于1的Cell，设符合条件的Cell个数为M，那么该Cell集合可表示为{Cell₁,Cell₂,…,Cell_M}，设Cell_i.N为Cell_i中的轨迹段数目，Cell_i.TS为Cell_i包含的轨迹段集合，那么邻域半径Eps的计算公式为：

其中，Dist_eps(i)表示Cell_i期望Eps值，由于Num_avg取值很低，因此被映射到同一Cell的轨迹段间的距离已足够小，因此Dist_eps(i)取轨迹段间距离的最大值，Dist_avg表示所有Cell期望Eps值的平均值，Eps为Dist_avg与所有Cell期望Eps值的标准差的和。

S42：本发明的MinPts的值不是固定，随着轨迹段所属Cell的数目变化，TS_x的MinPts＝Num_avg×|TS_x.belong|，即若与TS_x距离小于Eps的轨迹段的数目大于或等于统计的均值，就可以认为密度满足要求。轨迹段与Cell为多对多的关系，TS_x.belong数目不一定为1，那么每个TS_x.belong中包含的轨迹段很有可能相同，因此，此处使用修正后的Num_avg，记为N_avg。

S43：使用DBSCAN算法聚类轨迹段，计算TS_x的Eps邻域时，若计算TS_x与其余所有轨迹段的距离，则整体的计算复杂度为O(n²)，需要耗费大量的时间。显而易见，TS_x.belong∪TS_x.abjion以外的Cell中包含的轨迹段与TS_x距离小于Eps的可能性很小，因此TS_x只和TS_x.belong∪TS_x.abjion包含的轨迹段计算距离，大大减少计算时间。

S4的伪代码形式如下：

Claims

1.一种基于网格和密度的自适应轨迹聚类方法，其特征在于，它包括以下步骤：

S1：数据采集，利用GPS设备采集移动对象的时空轨迹数据；

S2：轨迹划分，将整条轨迹划分为多条子轨迹段；

S3：轨迹段映射，将轨迹段集合映射到网格中，轨迹段与网格单元为多对多关系；

S4：轨迹段聚类，计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数的数据，使用上述数据实现参数自动率定，然后基于DBSCAN算法对轨迹段集合进行聚类。

2.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，所述S2的轨迹划分包括以下子步骤：

S21：以平均角差值量化轨迹变化的平缓与急促，删除平均角差值高于阈值的部分；

S22：使用MDL方法使轨迹划分在简洁性和精确性达到平衡；计算时不连续替代轨迹，提高压缩后数据的精确性。

3.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，轨迹段距离度量计算综合了轨迹段间角度差异与位置差异，其计算公式为：

<mrow> <msub> <mi>d</mi> <mo>&perp;</mo> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>&perp;</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mo>&perp;</mo> <mn>2</mn> </mrow> </msub> <mo>/</mo> <mn>2</mn> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>sin</mi> <mi>&theta;</mi> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&theta;</mi> <mo><</mo> <mi>&pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>&perp;</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mo>&perp;</mo> <mn>2</mn> </mrow> </msub> <mo>/</mo> <mn>2</mn> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <mn>2</mn> <mo>+</mo> <mi>sin</mi> <mo>(</mo> <mrow> <mi>&theta;</mi> <mo>-</mo> <mi>&pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&theta;</mi> <mo>></mo> <mi>&pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <msub> <mi>d</mi> <mrow> <mo>|</mo> <mo>|</mo> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&theta;</mi> <mo><</mo> <mi>&pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&theta;</mi> <mo><</mo> <mi>&pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

dist(TS₁,TS₂)＝dist(TS₂,TS₁)＝w_⊥×d_⊥+w_||×d_||

其中TS₁为较短轨迹段，TS₂为较长轨迹段，d_⊥为垂直距离，d_||为平行距离，θ为TS₁与TS₂的夹角；w_⊥为垂直距离权重，w_||为水平距离的权重。

4.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，不连续替代轨迹段生成方法，设TS.θ为TS与水平线的顺时针夹角，表示{TS_start,TS₂,…,TS_end}的不连续替代轨迹段，那么经过的点P_mid为所有轨迹点的在各维度上的均值，这样就可以求出对于二维数据轨迹点，从P₁向做垂线，交于P_s，若P₁坐标为(x₁,y₁)，则P_s的坐标(x_s,y_s)计算公式为:

<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mi>s</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>/</mo> <mo>-</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> </mrow> <mrow> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&pi;</mi> <mo>/</mo> <mo>-</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mi>s</mi> </msub> <mo>=</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>s</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

同样可以得到的终点P_e的坐标。

5.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，所述S3的轨迹段映射包括以下步骤：

S31：根据轨迹数据计算每个网格单元各个维度上的长度；

6.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，所述S4的轨迹段聚类包括以下步骤：

S41：计算每个网格单元中各个轨迹段之间的平均距离，计算参数领域半径Eps；

7.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，使用非连续轨迹划分方法，该方法在现有的MDL方法前增加筛选过程，以平均角差值diff_avg来量化轨迹变化的平缓与急促，给定一个轨迹数据TR＝{P₁,P₂,…,P_n}，当diff_avg大于阈值Δθ_thr时，则将该子轨迹段的起点添加到候选轨迹点集合；diff_avg表示计算公式为：

<mrow> <msub> <mi>diff</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>TS</mi> <mn>1</mn> </msub> <mo>.</mo> <mi>&theta;</mi> <mo>-</mo> <msub> <mi>TS</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>&theta;</mi> </mrow> <mo>|</mo> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <mo>.</mo> </mrow>

8.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，轨迹段映射到网格中的方法，该方法分为两个过程：

(1)以上一阶段的输出(轨迹段集合D_ts＝{TS₁,TS₂,…,TS_n})作为输入，平均每个网格单元Cell拥有的轨迹段数目为Num_avg；基于密度的聚类应遵循类簇由小逐渐增大的原则，因此Num_avg的值应尽量取小，即每个Cell中的轨迹段数目应尽可能的小，由于需要统计每个Cell中各轨迹段间距离，且经过在大量数据实践验证，Num_avg＝2可以得到最优的轨迹聚类效果，轨迹段集合中每个维度上的最大值组成轨迹点MaxPoint(d₁,d₂,…,d_m)，每个维度的最小值组成轨迹点MinPoint(d₁,d₂,…,d_m)，如果用表示Cell在d_i维度上的长度，那么网格中总共有n/Num_avg个Cell；一条轨迹段有可能跨越多个Cell，因此Cell与轨迹段为多对多的关系。

(2)遍历每个轨迹段，计算出每个轨迹段的所属Cell和邻接Cell，以及每个Cell包含的轨迹段集合。

9.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法，其特征在于，轨迹段聚类过程，该过程首先自动率定参数，然后使用DBSCAN算法聚类轨迹段，其具体过程为：

(1)从全部Cell中筛选出的轨迹段个数大于1的Cell，设符合条件的Cell个数为M，那么该Cell集合可表示为{Cell₁,Cell₂,…,Cell_M}，设Cell_i；N为Cell_i中的轨迹段数目，Cell_i.TS为Cell_i包含的轨迹段集合，那么邻域半径Eps的计算公式为：

<mrow> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> </mrow> </msubsup> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> </mrow> </msubsup> <mo>(</mo> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>TS</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>TS</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mrow> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> </mrow>

<mrow> <mi>E</mi> <mi>p</mi> <mi>s</mi> <mo>=</mo> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msqrt> <mrow> <mo>(</mo> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> <mo>/</mo> <mi>M</mi> </mrow> </msqrt> </mrow>

其中，Dist_eps(i)表示Cell_i期望Eps值，由于Num_avg取值很低，因此被映射到同一Cell的轨迹段间的距离已足够小，因此Dist_eps(i)取轨迹段间距离的最大值，Dist_avg表示所有Cell期望Eps值的平均值，Eps为Dist_avg与所有Cell期望Eps值的标准差的和；

(2)随着轨迹段所属Cell的数目变化，TS_x的MinPts＝Num_avg×|TS_x.belong|，即若与TS_x距离小于Eps的轨迹段的数目大于或等于统计的均值，就可以认为密度满足要求；轨迹段与Cell为多对多的关系，TS_x.belong数目不一定为1，那么每个TS_x.belong中包含的轨迹段很有可能相同，因此，此处使用修正后的Num_avg，记为N_avg；

<mrow> <msub> <mi>N</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>C</mi> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </msubsup> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>C</mi> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>|</mo> <mrow> <msub> <mi>TS</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> <mo>|</mo> </mrow> <mo>/</mo> <mi>n</mi> </mrow> </mfrac> <mo>.</mo> </mrow>