CN109948701B - 一种基于轨迹间时空关联性的数据聚类方法 - Google Patents

一种基于轨迹间时空关联性的数据聚类方法 Download PDF

Info

Publication number
CN109948701B
CN109948701B CN201910209981.3A CN201910209981A CN109948701B CN 109948701 B CN109948701 B CN 109948701B CN 201910209981 A CN201910209981 A CN 201910209981A CN 109948701 B CN109948701 B CN 109948701B
Authority
CN
China
Prior art keywords
point
track
points
clustering
central
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910209981.3A
Other languages
English (en)
Other versions
CN109948701A (zh
Inventor
杨雨晴
蔡江辉
杨海峰
张继福
赵旭俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN201910209981.3A priority Critical patent/CN109948701B/zh
Publication of CN109948701A publication Critical patent/CN109948701A/zh
Application granted granted Critical
Publication of CN109948701B publication Critical patent/CN109948701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Radar Systems Or Details Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于轨迹间时空关联性的数据聚类方法,首先统计各轨迹点邻域半径内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;计算各邻居与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径,根据最短移动时间约束合并初始中心代表点并调整半径,直到合并结束时得到中心代表点集。当新的轨迹聚类任务到来时,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在中心代表点R范围内的轨迹点,产生新的轨迹,对新的具有聚类价值的轨迹执行阶段一中的操作,根据聚类结果更新中心点集。

Description

一种基于轨迹间时空关联性的数据聚类方法
技术领域
本发明一种基于轨迹间时空关联性的数据聚类方法,属于轨迹数据挖掘技术领域。
背景技术
随着通信技术和移动终端的迅速发展、越来越多的移动对象的活动轨迹被记录下来,如何从海量的轨迹数据中提取出有价值的信息或者模式从而为决策和服务提供支持已经成为空间信息领域研究的热点。
轨迹中的停留点是轨迹中蕴含有丰富语义信息的部分,对轨迹中的停留点进行识别和提取是后续深入开展移动对象行为模式分析的基础。为了发现轨迹中的停留点,有的方法在传统的K-means聚类的基础上加入参数领域半径r来从轨迹数据中识别停留点;有的方法将轨迹进行划分,并用改进的TRACLUS算法进行轨迹聚类来分析轨迹的运动趋势;有的方法从时间和空间关系考虑,将传统的DBSCAN进行改进来识别停留点;有的方法从数据点的特征,比如所说速度,方向角,密度等多个方面对不同数据点进行聚类。
总结来说,现有算法存在两个问题。第一,只考虑到同一条轨迹中各轨迹点的时空关联性,但轨迹间的时空关联性考虑不足。第二,利用全局唯一的距离参数来寻找轨迹中的停留点,对聚类精度产生较大影响。根据特定个体的轨迹分析,某个移动对象可能会在相同或者不同时间段重复访问相同的位置点;根据多个个体的轨迹分析,不同移动对象也有可能所访问相同的位置点,这说明不仅轨迹点与轨迹点之间有相关性,轨迹与轨迹之间也有相关性。
个人GPS轨迹具有较高的时间和空间特征,可以通过轨迹间的时空关联性降低算法的复杂度。为了利用轨迹之间的这种时空关联性,本发明给出了一种基于轨迹间时空关联性的数据聚类方法,充分利用已有的聚类结果降低聚类的时空开销并提升聚类精度。
发明内容
本发明提供了一种基于轨迹间时空关联性的数据聚类方法,该方法从轨迹与轨迹之间的时空关联性出发,充分利用已有的聚类结果降低聚类的时空开销并提升聚类精度。
本发明通过以下技术方案实现:
一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
对于包含N条轨迹的轨迹数据库,求N的算数平方根的整数
Figure GDA0003716857440000021
并从轨迹数据库中挑选
Figure GDA0003716857440000022
条轨迹作为第一阶段中心代表点集生成的参考轨迹;然后对这
Figure GDA0003716857440000023
条轨迹中的每条轨迹重复执行步骤1和步骤2操作:
步骤1,统计某条轨迹中各轨迹点的半径r邻域内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;
步骤2,计算各邻居点与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径R,
最后对所有
Figure GDA0003716857440000024
条轨迹所获得的初始中心代表点,根据最短移动时间约束合并初始中心代表点并调整半径AR,直到合并结束时得到中心代表点集;第二阶段:基于中心代表点集的聚类阶段;
对轨迹数据库中的第
Figure GDA0003716857440000025
条到第N条轨迹聚类时,开始第二阶段的聚类操作:
首先,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在各中心代表点对应AR范围内的轨迹点,产生新的轨迹;
然后,对新的具有聚类价值的轨迹执行第一阶段中的操作,最后根据聚类结果更新中心点集。
优选地,一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
第一阶段:中心代表点集生成阶段:
S1.1,邻居寻找:给定半径r,统计各数据点P在半径r范围内的所有邻居的数量;
优选地,所述邻居寻找包括以下步骤:
S1.1.1,对于包含n个轨迹点的当前处理轨迹,计算轨迹点P与其余轨迹点Pi的距离,其中1≤i≤n-1:
轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti),其中Lat和Lati分别为轨迹点P和Pi的纬度坐标,Long和Longi分别为轨迹点P和Pi的经度坐标,T和Ti分别为轨迹点P和Pi到达(Lat,Long)和(Lati,Longi)所示位置的时间)的距离计算方法为:
Figure GDA0003716857440000031
其中6378137为地球半径,单位米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为轨迹点P和Pi的纬度对应的弧度值之差,b为轨迹点P和Pi的经度对应的弧度值之差;
S1.1.2:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。
S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;
优选地,所述停留时间统计包括以下步骤:
S1.2.1:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;
S1.2.2:计算各轨迹段的第一个点和最后一个点的时间差;
S1.2.3:将第二步得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST。
S1.3,初始中心代表点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于MinDuration(MinDuration为轨迹中的最短或最小规模停留的持续时间)的轨迹点P,将该数据点P及其所有邻居的坐标均值记为初始中心代表点的坐标,并将各邻居点与中心代表点的最大距离记为该中心代表点对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
优选地,所述初始中心代表点计算的方法包括以下步骤:
S1.3.1:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心代表点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:
Figure GDA0003716857440000032
其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;
S1.3.2:判断所述停留时间ST≤MinDuration时,对于未访问的数据点P重新执行S1.1步骤,进行邻居寻找;
S1.3.3:计算轨迹点P的所有邻居与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点距离的最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
所述AR的计算公式如下:
Figure GDA0003716857440000041
S1.4,初始中心代表点合并:计算所有的初始中心代表点与其它未访问的中心代表点的距离;如果距离小于MinMove(MinMove为最短移动的持续时间),合并中心代表点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;
优选地,所述初始中心代表点的合并包括以下步骤:
S1.4.1:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;
S1.4.2:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,计算距离小于MinMove的初始聚类中心代表点与代表点CP的坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个中心代表点的半径最大值作为合并后的新点对应的AR,将合并后的中心点及其半径放入中心点集CR并保存。
第二阶段:基于中心代表点集的聚类阶段:
中心代表点集产生后,对于轨迹数据库中的第
Figure GDA0003716857440000042
条到第N条轨迹聚类时,执行如下的操作步骤:
S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;
S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;
S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;
S2.4,新轨迹构造:S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;
S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR;
本发明所涉及到的定义及名词包括:
定义1:轨迹
一条轨迹为包含n个轨迹点的时空数据序列,Traj[Id]={P0,P1,…Pn},且Pi={(Latitude,Longitude),Ti},0≤i≤n,Ti<Ti+1。其中(Latitude,Longitude)为轨迹点Pi对应的经纬度坐标,Ti为移动对象到达位置(Latitude,Longitude)的时间,一条移动对象的轨迹如图1所示。
如图1所示移动对象从家出发,到达了办公室,一段时间后从办公室出发到达了超市,在超市停留一段时间后最后回到家中。从图1可以看到,轨迹点在办公室和超市所在区域的集中程度明显大于轨迹中其余部分点的集中程度,这种在特定时间内小范围集中的数据点被称为停留点。
定义2:停留点
停止点SP={Pm+1,…,Pm+i,…,Pm+p},Pm+i={(Latitude,Longitude),Ti},大小为p的停留点集合SP是轨迹中所有数据点的子集,它由满足以下条件的轨迹点构成:(1)数据点静止在原地或者在局部小范围内缓慢移动;(2)数据点在局部小范围内的停留时间持续足够长。
名词1:邻域半径r
邻域半径r用来设定寻找轨迹点的邻居时的扫描半径,半径越大,寻找邻居时需要访问的轨迹点数量越多,且数据点的邻居数量越多甚至可能多余数据点所示位置实际包含的邻居数量。半径越小,邻居数越小,可能漏掉部分邻居。综上所述,半径太大或太小均会降低停留检测的精度,设置合理的r有利于更加精确的发现轨迹中包含的停留。
名词2:最短停留时间MinDuration
MinDuration为轨迹中的最短或最小规模停留的持续时间,一般情况下,用户只对停留超过一定时间的停留感兴趣,因为,只有移动对象在某个位置的停留时间超过一定时间限制时,该停留才有可能代表了特定的地理位置,该位置才有可能进行过某种特定的活动.
名词3:最短持续时间MinMove
轨迹中的移动点的主要作用时连接两个相邻的停留,如果两个停留之间的移动点的持续时间太短,则认为这两个停留时由一个大的停留分割而来,是由于某些特殊的原因被错误的分割成了两个小停留,因此这两个停留应该被合并。综上所述,两个独立停留的持续时间必须满足最短持续时间MinMove的限制。
名词4:MinDuration/SamplingRates
MinDuration为最短停留持续时间,SamplingRates为当前处理轨迹点采样时间的众数,MinDuration/SamplingRates为最小规模的停留中应该包含的轨迹点数目。
本发明的目的时进行轨迹中的停留检测,因此,只有当轨迹中的数据量超过MinDuration/SamplingRates时,该条轨迹中才有可能包含了停留,该条轨迹才有聚类的价值。
与现有技术相比,本发明具有如下有益效果:
1.相比较与现有大部分仅仅考虑单条轨迹中的轨迹点与轨迹点之间的时空关联性,而忽视了不同轨迹之间的时空关联性的的聚类方法,本发明充分考虑了轨迹之间的时空关联性,并利用这种关联性进行分阶段的聚类,使得轨迹之大量有价值的信息能狗被充分利用;
2.本发明利用中心代表点集CR保存已有的轨迹聚类结果,使得已有的聚类结果能够为后续的聚类提供参考,有效地解决了轨迹聚类分析中重复聚类相同的地理位置并存储带来不必要的时空开销
3.本发明中的中心代表点集CR中的每一个中心代表点CP均对应一个特定的半径AR,能够根据不同的半径AR发现大小不同的簇,在一定程度上克服了全局唯一的半径阈值使得聚类精度不高的缺陷。
附图说明
图1为移动对象的轨迹示意图;
图2为点P的r邻域内的轨迹段;
图3为移动对象在不同时间段的轨迹;
图4(a),4(b)半径r对聚类结果的影响;
图4(c)本发明方法的聚类精度及其与不同方法的比较;
图5为本发明实例的方法流程图;
具体实施方式
下面结合具体实施例对本发明做进一步的详细说明,但是本发明的保护范围并不限于这些实施例,凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。
一种基于轨迹间时空关联性的数据聚类方法,包括以下步骤:
第一阶段:中心代表点集生成阶段:
对于包含N条轨迹的轨迹数据库,求N的算数平方根的整数
Figure GDA0003716857440000071
并从轨迹数据库中挑选
Figure GDA0003716857440000072
条轨迹作为第一阶段中心代表点集生成的参考轨迹;并对这
Figure GDA0003716857440000073
条轨迹中的每条轨迹重复执行S1.1-S1.3所述操作:
S1.1,邻居寻找:给定半径r,统计各轨迹点P在半径r范围内的所有邻居的数量;所述邻居寻找包括以下步骤:
S1.1.1,计算轨迹点P与其余轨迹点Pi的距离:
轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti)的距离计算方法为:
Figure GDA0003716857440000074
Figure GDA0003716857440000075
其中6378137为地球半径,单位米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为轨迹点P和Pi的纬度对应的弧度值之差,b为轨迹点P和Pi的经度对应的弧度值之差;
S1.1.2:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。
S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;
优选地,所述停留时间统计包括以下步骤:
S1.2.1:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;如图2所示,空心圆圈为轨迹点p,虚线圆圈内为P的邻域半径r范围内的所有邻居,轨迹段1的起点P1s与其下一个采样点(直接后继)依次相连知道达到轨迹段1的最后一各采样点P1e,由此可得P的r邻域范围内的3条分别用短虚线、长虚线和实线代表的轨迹段。
S1.2.2:计算各轨迹段的第一个点和最后一个点的时间差;如图2所示,轨迹段1的时间差为:ST1=P1e-P1s;轨迹段2的时间差为:ST2=P2e-P2s;轨迹段3的时间差为:ST3=P3e-P3s
S1.2.3:将S1.2.2得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST;以图2中的3条轨迹段为例,轨迹点P的r范围内的停留时间ST为:ST=ST1+ST2+ST3
S1.3,初始中心代表点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于MinDuration(MinDuration为轨迹中的最短或最小规模停留的持续时间)的轨迹点P,将该数据点P及其所有邻居的坐标均值(ALat,ALong)记为初始中心代表点的坐标,并将各邻居与中心代表点距离的最大值记为该中心代表点对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
优选地,所述初始中心代表点计算的方法包括以下步骤:
S1.3.1:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心代表点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:
Figure GDA0003716857440000081
其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;
S1.3.2:判断所述停留时间ST≤MinDuration时,对于未访问的轨迹点P重新执行S1.1步骤,进行邻居寻找;
S1.3.3:计算轨迹点P的所有m个邻居Pn1,Pn2,…,Pni,…,Pnm与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点距离的最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
所述AR的计算公式如下:
Figure GDA0003716857440000091
对所有
Figure GDA0003716857440000092
条轨迹生成的所有初始中心代表点执行S1.4所述操作。
S1.4,初始中心代表点合并:对所有初始中心代表点,计算各初始中心候选点与其它代表点的距离;如果距离小于最短移动持续时间MinMove,合并中心代表点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;
优选地,所述初始中心代表点的合并包括以下步骤:
S1.4.1:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;
S1.4.2:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,计算距离小于MinMove的初始聚类中心代表点与代表点CP的坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个中心代表点的半径最大值作为合并后的新点对应的AR,将合并后的中心点及其半径放入中心点集CR并保存。
第二阶段:基于中心代表点集的聚类阶段:
中心代表点集产生后,对于轨迹数据库中的第
Figure GDA0003716857440000093
条到第N条轨迹聚类时,执行如下的操作步骤:
S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;
S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;
S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;
S2.4,新轨迹构造:
S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;
S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR。
实施例1
实际应用中,第一阶段的伪代码如下:
表1
Figure GDA0003716857440000101
第二阶段的伪代码如下:
表2
Figure GDA0003716857440000102
Figure GDA0003716857440000111
合理性分析及有效性验证:
为了验证本发明方法的合理性和有效性,对本发明中的方法合理性进行了探究,与几种典型的停止点聚类方法进行了对比实验,并对本发明中涉及到的参数进行了实验讨论。
如图3展示了移动对象3条不同轨迹Tra1,Tra2和Tra3。如图3所示,从Tra1,Tra2到Tra3,移动对象的轨迹发生了一定程度的改变,但这些轨迹中仍然存在重叠的部分。这些重叠的轨迹段就是该移动对象在不同时间区间中重复访问的地理位置。这种变化与人类的日常生活习性也是相符合的。比如说,上班族每周一到周五都会去公司上班;学生每天按照重复的路线去学校上学;每天早上运动员按照固定的路线晨练;每周我们可能多次去同一个超市或者商场购物等,以上这些活动都是可能会重复访问的地理位置。
除了单条轨迹中数据点的时空关联性,不同时刻的不同移动轨迹之间也存在着某种时空关联性。本发明利用CR来记录已经访问的地理信息,并通过与CR的比较发现已经访问过的类簇,提高轨迹聚类的效率,因此,本文CR的设定和应用是合理且有价值的。
如图4所示,图4(a)为r分别等于30m,50m,70m,100m时本发明方法聚类的Precision,Recall和F-measure比较,其中圆圈标注的实线为本方法的召回率,菱形标注的虚线为本方法的精确率,星号标注的实线表示的F-measure值用来综合衡量Precision,Recall两个指标。从图中可以看出,当r取值区间为(30,50)时,综合考虑指标F-measure较高。而图4(b)则是r在区间(30,50)中的聚类结果,从图中可以看出,r在35位置处的F-measure取值较高。所以本文参数r最适合的取值为35m。
MinDuration都与具体的应用有关,不同的值反应不同的聚类活动,本发明实验数据为城市居民出行数据,MinMove设置为150m,MinDuration设置为180s,采样频率SamplingRates为5s,因此,MinDuration/SamplingRates=36。以上不同参数的值并不是确定不变的,也可以根据不同的实验数据做出调整,不同的参数值与本发明所提出方法的思想并不违背。
本发明使用Precision,Recall和F-measure三个度量指标对本发明方法,DBSCAN以及文献1(ASHBROOK D,STAMER T.Learning significant locations and predictinguser movement with GPS[J].In Proceedings of the Sixth internationalSymposium,Vienna,Austria,April,2002:21-23)中方法的性能进行比较,其中DBSCAN是一种典型的密度聚类方法,其将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。文献1中首先通过设置时间阈值t,将停留时间满足时间阈值t约束的轨迹点视为地理位置的代表点。然后从代表点中任意取点,并将该点r半径范围内的轨迹点划分到同一个簇,并用簇内成员的坐标均值作为簇中心,并不断重复上述过程,直到簇中心不再改变即可获得不同的停止点集合。
比较图在4(c)中给出。图4(c)中圆圈实线、菱形虚线、星号实线标记的三条曲线分别代表本发明方法、DBSCAN算法以及文献1中方法的Precision,Recall和F-measure值,从图中可以发现本发明方法和DBSCAN的Recall很接近,但本发明方法的Precision的明显高于DBSCAN的精确率。为了权衡Precision和Recall两个指标,计算了F-measure指标来综合考虑。三个算法的F-measure指标分别为:0.9423,0.8802,0.5991。这表明文献1算法与前两种算法相比聚类效果不理想,本发明方法较DBSCAN更具有优势。
本发明不会限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖性特点相一致的最宽范围。

Claims (8)

1.一种基于轨迹间时空关联性的数据聚类方法,其特征在于,包括以下步骤:
第一阶段:中心代表点集生成阶段:
对于包含N条轨迹的轨迹数据库,求N的算数平方根的整数
Figure FDA0003716857430000011
并从轨迹数据库中挑选
Figure FDA0003716857430000012
条轨迹作为第一阶段中心代表点集生成的参考轨迹;然后对这
Figure FDA0003716857430000013
条轨迹中的每条轨迹重复执行步骤1和步骤2操作:
步骤1,统计某条轨迹中各轨迹点的半径r邻域内邻居的数量,取邻居数量满足最短停留时间限制的轨迹点和其邻居坐标的均值作为初始中心代表点,从时间和距离约束两方面确定初始中心代表点;
步骤2,计算各邻居与初始中心代表点的距离,将距离的最大值作为该初始中心代表点对应的半径R,
最后,对所有
Figure FDA0003716857430000014
条轨迹所获得的初始中心代表点,根据最短移动时间约束合并初始中心代表点并调整半径AR,直到合并结束时得到中心代表点集;
第二阶段:基于中心代表点集的聚类阶段:
对轨迹数据库中的第
Figure FDA0003716857430000015
条到第N条轨迹聚类时,开始第二阶段的聚类操作:
首先,判断轨迹点与中心代表点集中各代表点的位置关系,删除包含在各中心代表点对应AR范围内的轨迹点,产生新的轨迹;
然后,对新的具有聚类价值的轨迹执行第一阶段中的操作,最后根据聚类结果更新中心点集。
2.根据权利要求1所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,包括以下步骤:
第一阶段:中心代表点集生成阶段:
从轨迹数据库中的随机挑选
Figure FDA0003716857430000016
条轨迹,对选中的每条轨迹重复执行S1.1-S1.3中所述的操作;
S1.1,邻居寻找:给定半径r,统计各轨迹点P在半径r范围内的所有邻居的数量;
S1.2,停留时间统计:对于轨迹点P的m个邻居Pn1,Pn2,…,Pni,…,Pnm,计算轨迹点P的所有邻居在其邻域半径r范围内从Pn1所示位置运动到Pnm所示位置经过的时间ST;
S1.3,初始中心候选点计算:选择所有邻居在轨迹点P的半径r范围内的停留时间ST大于最短停留持续时间MinDuration的轨迹点P,将该轨迹点P及其所有邻居的坐标均值记为初始中心候选点的坐标,并将各邻居与中心候选点的最大距离记为该中心候选点对应的半径AR,得到初始中心候选点CP(ALat,ALong,AR),其中ALat和Along分别为该初始中心代表点的纬度和经度坐标,AR为该初始中心代表点所带表的簇的半径;
对所有
Figure FDA0003716857430000021
条轨迹生成的所有初始中心代表点执行S1.4操作;
S1.4,初始中心候选点合并:对所有初始中心代表点,计算各初始中心候选点与其它代表点的距离;如果距离小于最短移动持续时间MinMove,合并中心候选点并调整合并后的中心点对应的半径,合并后的中心点及其半径放入中心点集CR;
第二阶段:基于中心代表点集的聚类阶段:
中心代表点集产生后,对于轨迹数据库中的第
Figure FDA0003716857430000022
条到第N条轨迹聚类时,执行如下的操作步骤:
S2.1,轨迹点与中心代表点集CR的距离计算:对于轨迹中的轨迹点,计算轨迹点与中心代表点集CR中各点的距离;
S2.2,现有聚类簇的发现:将与CR中的点CPi(ALati,ALongi,ARi)的距离小于ARi的轨迹点P,标记到CPi所对应的簇中;
S2.3,未聚类点统计:将轨迹中所有点与CR中的点作距离计算后,统计剩余的未被划分到簇的点的数量Num;
S2.4,新轨迹构造:
S2.3中得到的所述Num小于或等于最小规模的停留中应该包含的轨迹点数目时,第二阶段的聚类过程结束;
S2.3中得到的所述Num大于最小规模的停留中应该包含的轨迹点数目时,删除所有划分到簇的点,产生待聚类的新轨迹;对于新轨迹继续执行第一阶段所述的操作,得到新的中心点集CR。
3.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述邻居寻找包括以下步骤:
第一步,对于包含n个轨迹点的当前处理轨迹,计算轨迹点P与其余轨迹点Pi的距离,其中1≤i≤n-1:
轨迹点P(Lat,Long,T)和Pi(Lati,Longi,Ti)的距离计算方法为:
Figure FDA0003716857430000031
其中Lat和Lati分别为轨迹点P和Pi的纬度坐标,Long和Longi分别为轨迹点P和Pi的经度坐标,T和Ti分别为轨迹点P和Pi的到达(Lat,Long)和(Lati,Longi)所示位置的时间;
其中6378137为地球半径,单位为米;radLat和radLati分别为轨迹点P和Pi的纬度对应的弧度值,a为P和Pi的纬度对应的弧度值之差,b为P和Pi的经度对应的弧度值之差;
第二步:当距离Dis(P,Pi)<r,将Pi标记为P的邻居,否则继续判断第Pi+1个轨迹点与P的邻居关系。
4.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述停留时间统计包括以下步骤:
第一步:按采集时间的连续性,或者按照采样点的前驱和后继关系,将轨迹点P的所有邻居划分为不同的轨迹段;
第二步:计算各轨迹段的第一个点和最后一个点的时间差;
第三步:将第二步得到的各轨迹段的时间差相加,得到移动对象在所述轨迹点P的邻域半径r范围内的停留时间ST。
5.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述初始中心候选点计算的方法包括以下步骤:
第一步:判断所述停留时间ST>MinDuration时,计算轨迹点P及其所有邻居坐标的均值,并将该均值作为初始聚类中心候选点CP的经纬度坐标(ALat,ALong),标记轨迹点P为已访问,CP经纬度计算坐标如下:
Figure FDA0003716857430000032
其中,m为轨迹点P的r邻域内的邻居数量,Lati和Longi分别为P的第i个邻居的经纬度坐标;
第二步:判断所述停留时间ST≤MinDuration时,对于未访问的轨迹点P重新执行S1.1步骤,进行邻居寻找;
第三步:计算轨迹点P的所有邻居Pn1,Pn2,…,Pni,…,Pnm与所述中心代表点CP(ALat,ALong)的距离,将各邻居与中心代表点的距离最大值,作为该中心代表点CP对应的半径AR,得到初始中心代表点CP(ALat,ALong,AR);
所述AR的计算公式如下:
Figure FDA0003716857430000041
6.根据权利要求2所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述初始中心代表点的合并包括以下步骤:
第一步:计算初始聚类中心代表点CP(ALat,ALong,AR)与其他各初始聚类中心代表点的距离;
第二步:第一步所得的距离与MinMove进行比较,当距离小于MinMove时,取距离小于MinMove的初始聚类中心代表点CP点坐标均值,将该均值作为合并后的聚类中心点的坐标,并将合并前两个中心代表点对半径的最大值作为合并后的新点对应的AR。
7.根据权利要求2或5所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,所述MinDuration为轨迹中的最短或最小规模停留的持续时间。
8.根据权利要求2或6所述的一种基于轨迹间时空关联性的数据聚类方法,其特征在于,MinMove为最短移动的持续时间。
CN201910209981.3A 2019-03-19 2019-03-19 一种基于轨迹间时空关联性的数据聚类方法 Active CN109948701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910209981.3A CN109948701B (zh) 2019-03-19 2019-03-19 一种基于轨迹间时空关联性的数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910209981.3A CN109948701B (zh) 2019-03-19 2019-03-19 一种基于轨迹间时空关联性的数据聚类方法

Publications (2)

Publication Number Publication Date
CN109948701A CN109948701A (zh) 2019-06-28
CN109948701B true CN109948701B (zh) 2022-08-16

Family

ID=67010324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910209981.3A Active CN109948701B (zh) 2019-03-19 2019-03-19 一种基于轨迹间时空关联性的数据聚类方法

Country Status (1)

Country Link
CN (1) CN109948701B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111372186B (zh) * 2019-12-17 2021-08-24 广东小天才科技有限公司 一种非均匀定位场景下的位置计算方法及终端设备
CN112991804B (zh) * 2019-12-18 2022-06-07 浙江大华技术股份有限公司 停留区域确定方法以及相关装置
CN111461077B (zh) * 2020-05-12 2024-01-12 北京爱笔科技有限公司 一种移动轨迹事件识别方法及装置
CN113742607B (zh) * 2020-05-28 2023-12-08 浙江财经大学 一种基于当事人地理轨迹的停留位置推荐方法
CN113810926A (zh) * 2020-06-12 2021-12-17 北京市天元网络技术股份有限公司 定位外部干扰源的方法及装置
CN113157848A (zh) * 2021-05-06 2021-07-23 清华大学 航路确定方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119606A (zh) * 2011-07-07 2013-05-22 华为技术有限公司 一种大规模图像数据的聚类方法及装置
CN108256560A (zh) * 2017-12-27 2018-07-06 同济大学 一种基于时空聚类的停驻识别方法
CN108734217A (zh) * 2018-05-22 2018-11-02 齐鲁工业大学 一种基于聚类分析的客户细分方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239556B (zh) * 2014-09-25 2017-07-28 西安理工大学 基于密度聚类的自适应轨迹预测方法
US10502579B2 (en) * 2016-10-25 2019-12-10 Here Global B.V. Method and apparatus for determining modal routes between an origin area and a destination area
WO2018122585A1 (zh) * 2016-12-30 2018-07-05 同济大学 一种基于浮动车数据的城市道路交通异常检测方法
CN108959466B (zh) * 2018-06-20 2020-06-02 淮阴工学院 基于bcs-dbscan的出租车载客热点可视化方法及系统
CN109241126B (zh) * 2018-06-29 2021-09-14 武汉理工大学 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN109271427A (zh) * 2018-10-17 2019-01-25 辽宁大学 一种基于近邻密度和流形距离的聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119606A (zh) * 2011-07-07 2013-05-22 华为技术有限公司 一种大规模图像数据的聚类方法及装置
CN108256560A (zh) * 2017-12-27 2018-07-06 同济大学 一种基于时空聚类的停驻识别方法
CN108734217A (zh) * 2018-05-22 2018-11-02 齐鲁工业大学 一种基于聚类分析的客户细分方法及装置

Also Published As

Publication number Publication date
CN109948701A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948701B (zh) 一种基于轨迹间时空关联性的数据聚类方法
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
Rong et al. Du-parking: Spatio-temporal big data tells you realtime parking availability
CN112182410B (zh) 基于时空轨迹知识图谱的用户出行模式挖掘方法
CN106931974B (zh) 基于移动终端gps定位数据记录计算个人通勤距离的方法
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
Cao et al. Automatic user identification method across heterogeneous mobility data sources
CN109034187B (zh) 一种用户家庭工作地址挖掘流程
Yu et al. Trajectory similarity clustering based on multi-feature distance measurement
CN111737605A (zh) 一种基于手机信令数据的出行目的识别方法及装置
CN103310281A (zh) 旅游路线提取系统和方法
WO2017177965A1 (zh) 一种基于时间顺序的轨迹匹配方法
Cesario et al. An approach for the discovery and validation of urban mobility patterns
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质
CN112579922B (zh) 一种基于用户轨迹的兴趣点推荐方法
Xia et al. Decision tree-based contextual location prediction from mobile device logs
Zhang et al. Semantic periodic pattern mining from spatio-temporal trajectories
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
Alvarez-Lozano et al. Learning and user adaptation in location forecasting
Mazumdar et al. An approach to compute user similarity for GPS applications
Lee et al. Crowd-sourced carpool recommendation based on simple and efficient trajectory grouping
Qian et al. Detecting taxi trajectory anomaly based on spatio-temporal relations
CN113611115B (zh) 一种基于路网敏感特征的车辆轨迹聚类方法
Dai et al. Context-based moving object trajectory uncertainty reduction and ranking in road network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant