CN107622085A - 一种基于网格和密度的自适应轨迹聚类方法 - Google Patents

一种基于网格和密度的自适应轨迹聚类方法 Download PDF

Info

Publication number
CN107622085A
CN107622085A CN201710683270.0A CN201710683270A CN107622085A CN 107622085 A CN107622085 A CN 107622085A CN 201710683270 A CN201710683270 A CN 201710683270A CN 107622085 A CN107622085 A CN 107622085A
Authority
CN
China
Prior art keywords
track
cell
trajectory
segment
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710683270.0A
Other languages
English (en)
Inventor
毛莺池
钟海士
戚荣志
平萍
李晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201710683270.0A priority Critical patent/CN107622085A/zh
Publication of CN107622085A publication Critical patent/CN107622085A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于网格和密度的自适应轨迹聚类方法。该方法可以在不输入参数的前提下对轨迹数据进行有效地聚类,方法的详细步骤为:(1)数据采集,利用GPS设备采集移动对象的时空轨迹数据,作为方法的数据输入;(2)轨迹划分,将整条轨迹划分为多条子轨迹段;(3)轨迹段映射,将轨迹段集合映射到网格中,轨迹段与网格单元为多对多关系,即每个轨迹段所属的网格单元为一个或多个,每个网格单元包含的轨迹段数目大于等于0;(4)轨迹段聚类,计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数等数据,使用上述数据实现参数自动率定,然后基于DBSCAN算法思想对轨迹段集合进行聚类。

Description

一种基于网格和密度的自适应轨迹聚类方法
技术领域
本发明涉及一种基于网格和密度的自适应轨迹聚类方法,用于移动物体轨迹数据的聚类分析,属于智能交通技术领域。
背景技术
近年来,随着传感器技术的迅猛发展和个人智能设备的飞速普及,GPS设备被广泛用于追踪移动物体(人、车、动物等),每天都有大量的轨迹数据在不断产生。轨迹数据是移动物体随着时间变化在空间中留下的时空数据序列,其包含着大量信息,使得我们能够更加直观的了解移动对象的行为。如动物学者们为研究动物的迁徙,通过在动物的身上安装定位设备,来获得动物的迁徙路径;环境学家为研究飓风的形成与移动规律,使用聚类、相关性分析等手段研究飓风运动轨迹,有助于做好飓风的预防工作;通过分析汽车的移动路径,市政交通部口能够对城市道路进行规划,缓解道路拥堵等问题。
数据挖掘技术可以用来分析处理轨迹信息,从而发现数据中隐藏的关系与规律,是轨迹分析中的非常重要的一环。聚类分析是数据挖掘中最重要的方法之一,可以将具有一定相似性的数据划分到同一簇,是一种无监督的学习过程。对移动对象的轨迹数据进行聚类分析具有重大意义。轨迹聚类的主要方法分为两类:一类是基于全区间相似的聚类方法,即以整条轨迹为单元进行聚类,这种方法对简单轨迹效果较好,但忽略局部细节,在复杂轨迹上效果较差;另一类是基于子区间相似的聚类方法,即将复杂的轨迹按照某种方式划分为多个轨迹段,然后以轨迹段为单元进行聚类,可以很好地识别轨迹的局部特征。现有轨迹聚类算法,都需要提供一个或多个参数,且参数取值对聚类效果的影响很大,实验者往往需要进行大量参数率定工作,尤其对不同数据集,较优参数也往往不同,对没有相关知识基础的使用者,参数率定工作更加困难。
本发明公开了一种基于网格和密度的自适应轨迹聚类方法,该方法首先将轨迹划分为多个轨迹段,然后将所有轨迹段映射到网格中,计算每个网格单元中各个轨迹段之间的平均距离,还需要计算所有网格单元平均含有的轨迹段数等数据,使用上述统计数据实现参数自动率定,同时以网格作为索引达到了对轨迹数据进行高效、精确地聚类。
经初步检索,暂未发现有与本发明内容相关的专利条目。
发明内容
发明目的:本发明提供一种基于网格和密度的自适应轨迹聚类方法,在轨迹划分过程,尽量减小划分后轨迹段数量的前提下,尽可能保证划分结果精确性;轨迹聚类过程中,在不降低轨迹聚类质量的前提下,实现参数自适应轨迹聚类。
技术方案:一种基于网格和密度的自适应轨迹聚类方法,它包括以下步骤:
S1:数据采集,利用GPS设备采集移动对象的时空轨迹数据,作为方法的数据输入。
S2:轨迹划分,将整条轨迹划分为多条子轨迹段。
S3:轨迹段映射,将轨迹段集合映射到网格中,轨迹段与网格单元为多对多关系,即每个轨迹段所属的网格单元为一个或多个,每个网格单元包含的轨迹段数目大于等于0。
S4:轨迹段聚类,计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数等数据,使用上述数据实现参数自动率定,然后基于DBSCAN算法思想对轨迹段集合进行聚类。
所述S2的轨迹划分包括以下子步骤:
S21:以平均角差值量化轨迹变化的平缓与急促,删除平均角差值高于阈值(即轨迹变化较急促)的部分。
S22:使用MDL方法使轨迹划分在简洁性和精确性达到平衡。计算时不使用连续替代轨迹段,而采用本发明提出的不连续替代轨迹,现有技术都在试图得到一个连续的轨迹段序列,即轨迹段首尾相连,但对轨迹段聚类,轨迹连续性是非必要的。本发明牺牲连续性,提高压缩后数据的精确性。
所述S3的轨迹段映射包括以下步骤:
S31:根据轨迹数据计算每个网格单元各个维度上的长度。
S32:遍历每个轨迹段,计算其所属的网格单元和每个网格单元包含的轨迹段。
所述S4的轨迹段聚类包括以下步骤:
S41:计算每个网格单元中各个轨迹段之间的平均距离,使用步骤S3得到的数据计算参数领域半径Eps。
S42:根据每个网格包含的轨迹数目和每个轨迹段所属网格单元的平均数据,计算参数Navg
S43:基于DBSCAN算法聚类轨迹段,其中参数MinPts为Navg与轨迹段所属网格单元数目的乘积。计算Eps领域时以网格为索引以减少计算量。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的轨迹段间距离度量示意图;
图3为本发明实施例的不连续替代轨迹段示意图;
图4为本发明实施例的轨迹段的所属Cell和邻接Cell示意图;
图5为本发明实施例的方法原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明涉及到的相关定义如下:
定义1(轨迹).轨迹是由一系列的多维数据轨迹点组成的,一个轨迹TR可以表示为TR={P1,P2,…,Pn},其中n表示轨迹中轨迹点的个数。
定义2(轨迹段).两个相邻离散轨迹点Pi与Pi+1相连形成轨迹段,记为TSi
定义3(替代轨迹段).将一个轨迹段集合{TS1,TS2,…,TSn}使用一个轨迹段TSrep表示,TSrep为这个轨迹段集合的替代轨迹段。
定义4(所属Cell).如图4,标有点阴影的Cell为该轨迹段的所属Cell。TS.belong就表示为轨迹段TS的所属Cell集合。
定义5(邻接Cell).与轨迹段所属Cell相邻的Cell为该轨迹段的邻接Cell,TS.abjoin就表示为轨迹段TS的邻接Cell集合。如图4,所属Cell周围标有斜线阴影的该轨迹段的邻接Cell。
如图1所示,本发明包括数据采集、轨迹划分、轨迹段映射、轨迹段聚类四个阶段。下面分步骤详细说明本发明的具体实施方式。
S1:数据采集阶段,将GPS设备绑定到多个移动对象,以一定时间间隔记录移动对象在某一时刻的轨迹点数据,轨迹点数据包括经纬度、时间戳、速度等信息。每人每天的轨迹数据为一条轨迹TR={P1,P2,…,Pn},其中n为轨迹中轨迹点总数,多人多天的轨迹数据为轨迹集合DTR={TR1,TR2,…,TRk},其中k为轨迹总数。
S2:轨迹划分阶段,如图2所示为本发明使用的轨迹段间距离度量示意图,其计算公式为:
dist(TS1,TS2)=dist(TS2,TS1)=w×d+w||×d||
其中l表示较短轨迹段的端点与较长轨迹段的垂直距离,l||表示较长轨迹的端点与l中垂点的距离,TS1为较短轨迹段,TS2为较长轨迹段,d为垂直距离,d||为平行距离,θ为TS1与TS2的夹角。w为垂直距离权重,w||为水平距离的权重,一般情况下这两个权重取值为1,在多个数据集中,这个默认值都十分有效。
如图3为本发明使用的不连续替代轨迹段示意图,设TS.θ为TS与水平线的顺时针夹角,表示{TSstart,TS2,…,TSend}的不连续替代轨迹段,那么 经过的点Pmid(xmid,ymid)为所有轨迹点的在各维度上的均值,这样就可以求出以二维数据轨迹点为例,从P1做垂线,交于Ps,若P1坐标为(x1,y1),则Ps的坐标(xs,ys)计算公式为:
同样可以得到的终点Pe的坐标。显然易见,使用这种方法得到的替代轨迹段不能首尾相连,即它们是不连续的。
本发明提出的不连续轨迹划分方法分为两个过程,下面分过程说明。
S21:以平均角差值diffavg来量化轨迹变化的平缓与急促,给定一个轨迹数据TR={P1,P2,…,Pn},当diffavg大于阈值Δθthr时,则将该子轨迹段的起点添加到候选轨迹点集合,经过筛选后候选轨迹点集合为{PC1,PC2,…,PCm}。diffavg表示计算公式为:
S22:以S21输出作为输入,使用MDL方法划分轨迹,该方法使轨迹划分在简洁性和精确性达到平衡。MDL起源于信息论,表示传递一个消息所需的最短编码位数,其实质是对数据的一种压缩。MDL的开销一般由两部分组成:L(H)和L(D|H),其中H为假设,D是要描述的数据,L(H)是描述假设的开销,L(D|H)是H下描述D的开销,MDL的目的是找到最优的H描述D,使L(H)与L(D|H)之和最小。
在本发明中,H为不连续替代轨迹段集和,D为原始轨迹数据,那么L(H)表示不连续替代轨迹段总长度,L(D|H)表示原轨迹段与其不连续替代轨迹段之间的差值。可以发现,选取的特征点越多精确性越强,L(H)越大而L(D|H)越小;反之简洁性越强,L(H)越小而L(D|H)越大,当L(H)和L(D|H)之和最小时轨迹划分就达到了简洁性和精确性的平衡。下面为:L(H)和L(D|H)的计算公式:
其中m表示S21中经过筛选后候选轨迹点集合的长度,Ci为经过筛选后候选轨迹点集合中第i个轨迹点在原轨迹点集合中的位置。
计算L(H)和L(D|H)之和最小值的全局最优解需要考虑划分的全部可能性,其开销是十分昂贵的,因此,本发明使用贪心法以局部最优解代替全局最优解。设Pi和Pj是轨迹中的两个点,那么MDL(i,j)(=L(H)+L(D|H))表示为{P1,P2,…,Pn}的最小描述长度,LD(i,j)为{P1,P2,…,Pn}的原始数据长度,即LD(i,j)=以Pi起点,若MDL(i,j)<LD(i,j)说明Pi至Pj中间的轨迹点都为非特征点,当首次出现MDL(i,j)>LD(i,j),我们就可以说Pi和Pj-1为轨迹的特征点。
S3:轨迹段映射,以S2阶段的输出轨迹段集合Dts={TS1,TS2,…,TSn}作为输入,平均每个网格单元Cell拥有的轨迹段数目为Numavg。基于密度的聚类应遵循类簇由小逐渐增大的原则,因此Numavg的值应尽量取小,即每个Cell中的轨迹段数目应尽可能的小,但是由于需要统计每个Cell中各轨迹段间距离,Numavg应大于或等于2,那么Numavg取2最为合适,中所有维度的最大值组成轨迹点MaxPoint(d1,d2,…,dm),所有维度的最小值组成轨迹点MinPoint(d1,d2,…,dm),如果用Cell。表示Cell在di维度上的长度,那么网格中总共有n/Numavg个Cell。一条轨迹段有可能跨越多个Cell,因此Cell与轨迹段为多对多的关系。
遍历每个轨迹段,计算出每个轨迹段的所属Cell和邻接Cell,以及每个Cell包含的轨迹段集合,作为下一步的输入。
S4:轨迹段聚类,基于DBSCAN聚类方法,本发明中Eps和MinPts参数为自适应生成。其具体包括以下步骤:
S41:从全部Cell中筛选出的轨迹段个数大于1的Cell,设符合条件的Cell个数为M,那么该Cell集合可表示为{Cell1,Cell2,…,CellM},设Celli.N为Celli中的轨迹段数目,Celli.TS为Celli包含的轨迹段集合,那么邻域半径Eps的计算公式为:
其中,Disteps(i)表示Celli期望Eps值,由于Numavg取值很低,因此被映射到同一Cell的轨迹段间的距离已足够小,因此Disteps(i)取轨迹段间距离的最大值,Distavg表示所有Cell期望Eps值的平均值,Eps为Distavg与所有Cell期望Eps值的标准差的和。
S42:本发明的MinPts的值不是固定,随着轨迹段所属Cell的数目变化,TSx的MinPts=Numavg×|TSx.belong|,即若与TSx距离小于Eps的轨迹段的数目大于或等于统计的均值,就可以认为密度满足要求。轨迹段与Cell为多对多的关系,TSx.belong数目不一定为1,那么每个TSx.belong中包含的轨迹段很有可能相同,因此,此处使用修正后的Numavg,记为Navg
S43:使用DBSCAN算法聚类轨迹段,计算TSx的Eps邻域时,若计算TSx与其余所有轨迹段的距离,则整体的计算复杂度为O(n2),需要耗费大量的时间。显而易见,TSx.belong∪TSx.abjion以外的Cell中包含的轨迹段与TSx距离小于Eps的可能性很小,因此TSx只和TSx.belong∪TSx.abjion包含的轨迹段计算距离,大大减少计算时间。
S4的伪代码形式如下:

Claims (9)

1.一种基于网格和密度的自适应轨迹聚类方法,其特征在于,它包括以下步骤:
S1:数据采集,利用GPS设备采集移动对象的时空轨迹数据;
S2:轨迹划分,将整条轨迹划分为多条子轨迹段;
S3:轨迹段映射,将轨迹段集合映射到网格中,轨迹段与网格单元为多对多关系;
S4:轨迹段聚类,计算每个网格单元中各个轨迹段之间的平均距离、所有网格单元平均含有的轨迹段数的数据,使用上述数据实现参数自动率定,然后基于DBSCAN算法对轨迹段集合进行聚类。
2.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,所述S2的轨迹划分包括以下子步骤:
S21:以平均角差值量化轨迹变化的平缓与急促,删除平均角差值高于阈值的部分;
S22:使用MDL方法使轨迹划分在简洁性和精确性达到平衡;计算时不连续替代轨迹,提高压缩后数据的精确性。
3.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,轨迹段距离度量计算综合了轨迹段间角度差异与位置差异,其计算公式为:
<mrow> <msub> <mi>d</mi> <mo>&amp;perp;</mo> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>&amp;perp;</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mo>&amp;perp;</mo> <mn>2</mn> </mrow> </msub> <mo>/</mo> <mn>2</mn> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>sin</mi> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&amp;theta;</mi> <mo>&lt;</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>&amp;perp;</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msub> <mi>l</mi> <mrow> <mo>&amp;perp;</mo> <mn>2</mn> </mrow> </msub> <mo>/</mo> <mn>2</mn> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <mn>2</mn> <mo>+</mo> <mi>sin</mi> <mo>(</mo> <mrow> <mi>&amp;theta;</mi> <mo>-</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&amp;theta;</mi> <mo>&gt;</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
<mrow> <msub> <mi>d</mi> <mrow> <mo>|</mo> <mo>|</mo> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&amp;theta;</mi> <mo>&lt;</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>l</mi> <mrow> <mo>|</mo> <mo>|</mo> <mn>2</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>+</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <mi>&amp;theta;</mi> <mo>&lt;</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mn>2</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
dist(TS1,TS2)=dist(TS2,TS1)=w×d+w||×d||
其中TS1为较短轨迹段,TS2为较长轨迹段,d为垂直距离,d||为平行距离,θ为TS1与TS2的夹角;w为垂直距离权重,w||为水平距离的权重。
4.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,不连续替代轨迹段生成方法,设TS.θ为TS与水平线的顺时针夹角,表示{TSstart,TS2,…,TSend}的不连续替代轨迹段,那么 经过的点Pmid为所有轨迹点的在各维度上的均值,这样就可以求出对于二维数据轨迹点,从P1做垂线,交于Ps,若P1坐标为(x1,y1),则Ps的坐标(xs,ys)计算公式为:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>x</mi> <mi>s</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mo>-</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> </mrow> <mrow> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>&amp;pi;</mi> <mo>/</mo> <mo>-</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>y</mi> <mi>s</mi> </msub> <mo>=</mo> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <msubsup> <mi>TS</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> <mrow> <mn>1</mn> <mo>~</mo> <mn>5</mn> </mrow> </msubsup> <mo>.</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>s</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>d</mi> </mrow> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>
同样可以得到的终点Pe的坐标。
5.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,所述S3的轨迹段映射包括以下步骤:
S31:根据轨迹数据计算每个网格单元各个维度上的长度;
S32:遍历每个轨迹段,计算其所属的网格单元和每个网格单元包含的轨迹段。
6.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,所述S4的轨迹段聚类包括以下步骤:
S41:计算每个网格单元中各个轨迹段之间的平均距离,计算参数领域半径Eps;
S42:根据每个网格包含的轨迹数目和每个轨迹段所属网格单元的平均数据,计算参数Navg
S43:基于DBSCAN算法聚类轨迹段,其中参数MinPts为Navg与轨迹段所属网格单元数目的乘积。计算Eps领域时以网格为索引以减少计算量。
7.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,使用非连续轨迹划分方法,该方法在现有的MDL方法前增加筛选过程,以平均角差值diffavg来量化轨迹变化的平缓与急促,给定一个轨迹数据TR={P1,P2,…,Pn},当diffavg大于阈值Δθthr时,则将该子轨迹段的起点添加到候选轨迹点集合;diffavg表示计算公式为:
<mrow> <msub> <mi>diff</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>2</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>TS</mi> <mn>1</mn> </msub> <mo>.</mo> <mi>&amp;theta;</mi> <mo>-</mo> <msub> <mi>TS</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>&amp;theta;</mi> </mrow> <mo>|</mo> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>2</mn> </mrow> </mfrac> <mo>.</mo> </mrow>
8.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,轨迹段映射到网格中的方法,该方法分为两个过程:
(1)以上一阶段的输出(轨迹段集合Dts={TS1,TS2,…,TSn})作为输入,平均每个网格单元Cell拥有的轨迹段数目为Numavg;基于密度的聚类应遵循类簇由小逐渐增大的原则,因此Numavg的值应尽量取小,即每个Cell中的轨迹段数目应尽可能的小,由于需要统计每个Cell中各轨迹段间距离,且经过在大量数据实践验证,Numavg=2可以得到最优的轨迹聚类效果,轨迹段集合中每个维度上的最大值组成轨迹点MaxPoint(d1,d2,…,dm),每个维度的最小值组成轨迹点MinPoint(d1,d2,…,dm),如果用表示Cell在di维度上的长度,那么网格中总共有n/Numavg个Cell;一条轨迹段有可能跨越多个Cell,因此Cell与轨迹段为多对多的关系。
(2)遍历每个轨迹段,计算出每个轨迹段的所属Cell和邻接Cell,以及每个Cell包含的轨迹段集合。
9.如权利要求1所述的基于网格和密度的自适应轨迹聚类方法,其特征在于,轨迹段聚类过程,该过程首先自动率定参数,然后使用DBSCAN算法聚类轨迹段,其具体过程为:
(1)从全部Cell中筛选出的轨迹段个数大于1的Cell,设符合条件的Cell个数为M,那么该Cell集合可表示为{Cell1,Cell2,…,CellM},设Celli;N为Celli中的轨迹段数目,Celli.TS为Celli包含的轨迹段集合,那么邻域半径Eps的计算公式为:
<mrow> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>p</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> </mrow> </msubsup> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> </mrow> </msubsup> <mo>(</mo> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>TS</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>TS</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <mfrac> <mrow> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mi>M</mi> </mfrac> </mrow>
<mrow> <mi>E</mi> <mi>p</mi> <mi>s</mi> <mo>=</mo> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msqrt> <mrow> <mo>(</mo> <msub> <mi>Dist</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>s</mi> </mrow> </msub> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>-</mo> <msub> <mi>Dist</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> <mo>/</mo> <mi>M</mi> </mrow> </msqrt> </mrow>
其中,Disteps(i)表示Celli期望Eps值,由于Numavg取值很低,因此被映射到同一Cell的轨迹段间的距离已足够小,因此Disteps(i)取轨迹段间距离的最大值,Distavg表示所有Cell期望Eps值的平均值,Eps为Distavg与所有Cell期望Eps值的标准差的和;
(2)随着轨迹段所属Cell的数目变化,TSx的MinPts=Numavg×|TSx.belong|,即若与TSx距离小于Eps的轨迹段的数目大于或等于统计的均值,就可以认为密度满足要求;轨迹段与Cell为多对多的关系,TSx.belong数目不一定为1,那么每个TSx.belong中包含的轨迹段很有可能相同,因此,此处使用修正后的Numavg,记为Navg
<mrow> <msub> <mi>N</mi> <mrow> <mi>a</mi> <mi>v</mi> <mi>g</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>C</mi> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </msubsup> <msub> <mi>Cell</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>C</mi> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> </mrow> </msub> </mrow> <mrow> <msubsup> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>|</mo> <mrow> <msub> <mi>TS</mi> <mi>i</mi> </msub> <mo>.</mo> <mi>b</mi> <mi>e</mi> <mi>l</mi> <mi>o</mi> <mi>n</mi> <mi>g</mi> </mrow> <mo>|</mo> </mrow> <mo>/</mo> <mi>n</mi> </mrow> </mfrac> <mo>.</mo> </mrow>
CN201710683270.0A 2017-08-11 2017-08-11 一种基于网格和密度的自适应轨迹聚类方法 Pending CN107622085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710683270.0A CN107622085A (zh) 2017-08-11 2017-08-11 一种基于网格和密度的自适应轨迹聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710683270.0A CN107622085A (zh) 2017-08-11 2017-08-11 一种基于网格和密度的自适应轨迹聚类方法

Publications (1)

Publication Number Publication Date
CN107622085A true CN107622085A (zh) 2018-01-23

Family

ID=61088091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710683270.0A Pending CN107622085A (zh) 2017-08-11 2017-08-11 一种基于网格和密度的自适应轨迹聚类方法

Country Status (1)

Country Link
CN (1) CN107622085A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108444487A (zh) * 2018-01-30 2018-08-24 北京小度信息科技有限公司 导航数据处理方法、导航方法及相关装置
CN109068268A (zh) * 2018-08-13 2018-12-21 四川科道芯国智能技术股份有限公司 学生轨迹分析方法及装置
CN109063771A (zh) * 2018-08-02 2018-12-21 美利车(北京)网络技术有限公司 一种发现车辆可疑行为的方法、装置及设备
CN109739585A (zh) * 2018-12-29 2019-05-10 广西交通科学研究院有限公司 基于spark集群并行化计算的交通拥堵点发现方法
CN110493333A (zh) * 2019-08-15 2019-11-22 腾讯科技(深圳)有限公司 一种目标位置点的确定方法、装置、设备及存储介质
CN110738228A (zh) * 2018-07-20 2020-01-31 菜鸟智能物流控股有限公司 轨迹处理方法、装置以及电子设备
CN111753906A (zh) * 2020-06-24 2020-10-09 中科三清科技有限公司 污染物传输轨迹的聚类方法、装置、电子设备及存储介质
CN111784728A (zh) * 2020-06-29 2020-10-16 杭州海康威视数字技术股份有限公司 轨迹处理方法、装置、设备及存储介质
CN111831767A (zh) * 2020-04-13 2020-10-27 苏州清研捷运信息科技有限公司 一种利用车辆轨迹数据生成导航经验路线的方法
CN112287778A (zh) * 2020-10-16 2021-01-29 苏州万店掌网络科技有限公司 基于方向聚合的人流量分析方法及介质
CN112905576A (zh) * 2021-03-02 2021-06-04 中国农业大学 一种基于农机作业轨迹确定农田和道路的方法及系统
CN113052265A (zh) * 2021-04-26 2021-06-29 上海海事大学 基于特征选择的移动对象轨迹简化算法
CN113868362A (zh) * 2021-11-30 2021-12-31 亿海蓝(北京)数据技术股份公司 航路轨迹构建方法、系统、船舶和船舶管理系统
CN114155391A (zh) * 2022-01-30 2022-03-08 浙江口碑网络技术有限公司 轨迹处理方法、装置及计算机设备
CN115409430A (zh) * 2022-10-31 2022-11-29 湖南省交通科学研究院有限公司 基于货车行驶轨迹的物流强度分析方法、系统及存储介质
CN117191004A (zh) * 2023-11-06 2023-12-08 中南大学 融合众源轨迹数据的户外三维步行导航路网地图生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246706A (zh) * 2013-04-09 2013-08-14 哈尔滨工程大学 一种道路网络空间中车辆对象移动轨迹聚类的方法
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN106383868A (zh) * 2016-09-05 2017-02-08 电子科技大学 一种基于道路网络的时空轨迹聚类方法
CN106970945A (zh) * 2017-02-24 2017-07-21 河海大学 一种出租车数据集的轨迹预处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246706A (zh) * 2013-04-09 2013-08-14 哈尔滨工程大学 一种道路网络空间中车辆对象移动轨迹聚类的方法
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN106383868A (zh) * 2016-09-05 2017-02-08 电子科技大学 一种基于道路网络的时空轨迹聚类方法
CN106970945A (zh) * 2017-02-24 2017-07-21 河海大学 一种出租车数据集的轨迹预处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JAE GIL LEE ET AL: "Trajectory Clustering: A Partition-and-Group Framework", 《ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 *
王敏: "云计算环境下时空轨迹聚集模式挖掘算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王杰锋: "物联网能耗数据智能分析及其应用平台设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108444487A (zh) * 2018-01-30 2018-08-24 北京小度信息科技有限公司 导航数据处理方法、导航方法及相关装置
CN110738228B (zh) * 2018-07-20 2023-05-02 菜鸟智能物流控股有限公司 轨迹处理方法、装置以及电子设备
CN110738228A (zh) * 2018-07-20 2020-01-31 菜鸟智能物流控股有限公司 轨迹处理方法、装置以及电子设备
CN109063771A (zh) * 2018-08-02 2018-12-21 美利车(北京)网络技术有限公司 一种发现车辆可疑行为的方法、装置及设备
CN109068268A (zh) * 2018-08-13 2018-12-21 四川科道芯国智能技术股份有限公司 学生轨迹分析方法及装置
CN109739585A (zh) * 2018-12-29 2019-05-10 广西交通科学研究院有限公司 基于spark集群并行化计算的交通拥堵点发现方法
CN109739585B (zh) * 2018-12-29 2022-02-18 广西交通科学研究院有限公司 基于spark集群并行化计算的交通拥堵点发现方法
CN110493333A (zh) * 2019-08-15 2019-11-22 腾讯科技(深圳)有限公司 一种目标位置点的确定方法、装置、设备及存储介质
CN110493333B (zh) * 2019-08-15 2021-08-17 腾讯科技(深圳)有限公司 一种目标位置点的确定方法、装置、设备及存储介质
CN111831767A (zh) * 2020-04-13 2020-10-27 苏州清研捷运信息科技有限公司 一种利用车辆轨迹数据生成导航经验路线的方法
CN111753906A (zh) * 2020-06-24 2020-10-09 中科三清科技有限公司 污染物传输轨迹的聚类方法、装置、电子设备及存储介质
CN111784728B (zh) * 2020-06-29 2023-08-22 杭州海康威视数字技术股份有限公司 轨迹处理方法、装置、设备及存储介质
CN111784728A (zh) * 2020-06-29 2020-10-16 杭州海康威视数字技术股份有限公司 轨迹处理方法、装置、设备及存储介质
CN112287778B (zh) * 2020-10-16 2021-07-27 苏州万店掌网络科技有限公司 基于方向聚合的人流量分析方法及介质
CN112287778A (zh) * 2020-10-16 2021-01-29 苏州万店掌网络科技有限公司 基于方向聚合的人流量分析方法及介质
CN112905576A (zh) * 2021-03-02 2021-06-04 中国农业大学 一种基于农机作业轨迹确定农田和道路的方法及系统
CN112905576B (zh) * 2021-03-02 2023-09-08 中国农业大学 一种基于农机作业轨迹确定农田和道路的方法及系统
CN113052265A (zh) * 2021-04-26 2021-06-29 上海海事大学 基于特征选择的移动对象轨迹简化算法
CN113052265B (zh) * 2021-04-26 2024-04-05 上海海事大学 基于特征选择的移动对象轨迹简化方法
CN113868362A (zh) * 2021-11-30 2021-12-31 亿海蓝(北京)数据技术股份公司 航路轨迹构建方法、系统、船舶和船舶管理系统
CN113868362B (zh) * 2021-11-30 2022-02-25 亿海蓝(北京)数据技术股份公司 航路轨迹构建方法、系统、船舶和船舶管理系统
CN114155391A (zh) * 2022-01-30 2022-03-08 浙江口碑网络技术有限公司 轨迹处理方法、装置及计算机设备
CN115409430A (zh) * 2022-10-31 2022-11-29 湖南省交通科学研究院有限公司 基于货车行驶轨迹的物流强度分析方法、系统及存储介质
CN115409430B (zh) * 2022-10-31 2023-03-31 湖南省交通科学研究院有限公司 基于货车行驶轨迹的物流强度分析方法、系统及存储介质
CN117191004A (zh) * 2023-11-06 2023-12-08 中南大学 融合众源轨迹数据的户外三维步行导航路网地图生成方法
CN117191004B (zh) * 2023-11-06 2024-03-19 中南大学 融合众源轨迹数据的户外三维步行导航路网地图生成方法

Similar Documents

Publication Publication Date Title
CN107622085A (zh) 一种基于网格和密度的自适应轨迹聚类方法
Wang et al. When will you arrive? estimating travel time based on deep neural networks
Soh et al. Adaptive deep learning-based air quality prediction model using the most relevant spatial-temporal relations
CN110516708B (zh) 一种基于轨迹与路网匹配的路径预测方法
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
CN110324787B (zh) 一种手机信令数据的职住地获取方法
Ye et al. A method for driving route predictions based on hidden Markov model
CN105307121B (zh) 一种信息处理方法及装置
JP2021174496A (ja) 軌跡予測方法及びシステム
US20230215272A1 (en) Information processing method and apparatus, computer device and storage medium
CN106899306A (zh) 一种保持移动特征的车辆轨迹线数据压缩方法
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质
CN110162997B (zh) 基于插值点的匿名隐私保护方法
CN110555544A (zh) 一种基于gps导航数据的交通需求估计方法
Rossi et al. Vehicle trajectory prediction and generation using LSTM models and GANs
Tran et al. Robust and hierarchical stop discovery in sparse and diverse trajectories
CN109041218A (zh) 一种预测用户位置的方法和智能硬件
CN107944628A (zh) 一种路网环境下的聚集模式发现方法及系统
CN112000755A (zh) 一种基于手机信令数据的区域出行廊道识别方法
CN116681176A (zh) 一种基于聚类和异构图神经网络的交通流预测方法
CN110059795A (zh) 一种融合地理位置与时间特征的移动用户节点组网方法
CN104850657B (zh) 一种全息位置地图的迭加方法
CN113903171B (zh) 一种基于高速路网时空特性的车辆群智感知节点优化方法
CN109286900B (zh) 一种Wi-Fi样本数据优化方法
CN111581318B (zh) 一种共享单车骑行目的推断方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180123