CN108182230B - 基于位向量四叉树的移动对象汇聚模式挖掘方法 - Google Patents

基于位向量四叉树的移动对象汇聚模式挖掘方法 Download PDF

Info

Publication number
CN108182230B
CN108182230B CN201711443531.8A CN201711443531A CN108182230B CN 108182230 B CN108182230 B CN 108182230B CN 201711443531 A CN201711443531 A CN 201711443531A CN 108182230 B CN108182230 B CN 108182230B
Authority
CN
China
Prior art keywords
cluster
bit vector
convergence
query
quadtree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711443531.8A
Other languages
English (en)
Other versions
CN108182230A (zh
Inventor
赵斌
杨宇
吉根林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201711443531.8A priority Critical patent/CN108182230B/zh
Publication of CN108182230A publication Critical patent/CN108182230A/zh
Application granted granted Critical
Publication of CN108182230B publication Critical patent/CN108182230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开一种基于位向量四叉树的移动对象汇聚模式挖掘方法,包括以下步骤:对每一个时间片上的移动对象集合进行基于密度的聚类操作,得到所有的簇集合CDB;基于位向量四叉树进行簇包含连接;利用簇包含匹配RDB构建汇聚树,作为汇聚模式的候选集,并对候选集进一步验证其是否满足汇聚模式的要求,最终得到所有汇聚模式;基于位向量四叉树进行簇包含连接时又包括SQTI构建阶段和SQTI探测与验证阶段。本发明不仅具有很高的时间性能,并且对主要的参数不敏感。这种特性有助于帮助用户减少调节参数的时间,提高汇聚模式挖掘的效率。

Description

基于位向量四叉树的移动对象汇聚模式挖掘方法
技术领域
本发明属于时空数据的挖掘领域,具体涉及一种基于位向量四叉树的移动对象汇聚模式挖掘方法。
背景技术
近随着全球定位技术和无线通讯技术的发展,产生了海量的移动对象时空轨迹数据。分析研究这些轨迹数据可以用于获取移动对象群体的运动规律和运动模式,可以为交通优化、公共安全、广告投放等应用提供有力的支撑。
现有移动对象群体运动模式(如flock,convoy,swarm,travelling companion以及gathering等),是为了发现在一段时间内共同移动的一群移动对象。根据移动对象的运动特征,一个群体事件通常可以分为三个阶段,分别是聚集阶段(converging stage,CS)、停留阶段(gathered stage,GS)和发散阶段(diverging stage,DS)。相应的,根据相同分类标准可以将移动对象群体运动模式分为三种类型,分别是聚集阶段的群体运动模式、停留阶段的群体运动模式和发散阶段的群体运动模式。现有群体运动模式大都属于聚集阶段和停留阶段,并且大部分都是停留阶段的群体运动模式。聚集阶段作为群体事件形成过程中的重要阶段,在移动对象群体运动模式挖掘的研究中经常被忽略。但是,在现实生活中人们通常更关心如何对群体事件形成之前移动对象群体的聚集行为建模,通过提前判断群体事件的发生可以为即将到来的公共事件提供有效的预防和充足的准备时间。
在挖掘方法层面,聚集阶段群体运动模式的挖掘与停留阶段群体运动模式的挖掘有着较大的区别。首先,除了在生命周期的最终时刻,聚集阶段群体运动模式中的移动对象在整个模式生命周期中的其他时刻无法始终保持空间上的临近性。而停留阶段群体运动模式中的移动对象在模式的整个生命周期中都保持空间临近。上述特性使得聚集阶段群体运动模式无法像停留阶段群体运动模式一样,利用移动对象的空间临近性进行挖掘。其次,群体运动模式由多个连续时刻的移动对象簇(即移动对象群体)组成,相邻时刻移动对象簇之间的关系类似于集合之间的关系,而聚集阶段群体运动模式与停留阶段群体运动模式有着不同的相邻时刻群体关系。
停留阶段群体运动模式挖掘的是共同运动一段时间的移动对象群体,相邻时刻群体关系是集合相似关系。例如一个convoy模式要求任意相邻时刻的移动对象群体完全相同,群体之间是集合相等关系;一个gathering模式要求参与运动的移动对象在该模式的生命周期大部分时间内都在参与运动的移动对象群体中,群体之间是集合相似关系。
聚集阶段群体运动模式挖掘的是不断聚集的移动对象群体,相邻时刻的群体之间是集合包含关系。
也就是说,现有群体运动模式无法有效地识别群体聚集事件,并且现有群体运动模式挖掘方法在大规模轨迹数据中存在挖掘效率低下的问题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于位向量四叉树的移动对象汇聚模式挖掘方法;本发明根据群体事件聚集阶段的移动对象特性,对聚集阶段的移动对象群体建模,利用基于密度的位向量四叉树结合移动对象空间属性,优化条件为簇包含的连接操作,实现汇聚模式的高效挖掘。
技术方案:本发明的一种基于位向量四叉树的移动对象汇聚模式挖掘方法,依次包括以下步骤:
(1)对每一个时间片上的移动对象集合进行基于密度的聚类操作,得到所有的簇集合CDB
(2)基于位向量四叉树进行簇包含连接;
(3)利用簇包含匹配RDB构建汇聚树,作为汇聚模式的候选集,并对候选集进一步验证其是否满足汇聚模式的要求,最终得到所有汇聚模式;
所述步骤(2)的具体方法为:
(2.1)SQTI构建阶段:即是指建立基于位向量四叉树的索引结构,然后来组织Ci中所有的候选簇集合;
(2.2)SQTI探测与验证阶段:用Ci中的每一个簇作为一个查询,在SQTI中找到所有的簇包含匹配关系;
其中Ci表示ti时刻的簇集合,CDB={C1,C2,…,Cm}表示t1时刻到tm时刻所有的簇集合,1<i<m;RDB={R2,R3,…,Rm}来表示所有时刻的簇包含匹配
进一步的,所述步骤(2.1)的详细过程如下:
首先将Ci中每一个簇按照它们的代表空间点的位置插入到一个空间区域中;接着,将整个空间区域递归地划分成四个单元格,分别是NE、NW、SE、和SW,直到单元格中空间位置点的数量小于给定的阈值ρ;整个SQTI的树形结构遵循上述分裂原则,为SQTI中每一个节点分配一个位向量sig,这些位向量表示当前节点中包含的所有簇中的移动对象成员。
进一步的,所述步骤(2.2)的详细过程中:
当一个查询q到来时,SQTI利用位向量和空间坐标从根节点开始探测索引结构:当查询遇到非叶结点p时,验证q.sig∨p.sig=p.sig是否成立;如果验证成功,该查询立即探测当前节点的四个孩子节点,选出几何中心离该查询最近的节点作为下一步探测对象;如果验证不成功,则探测当前节点的兄弟节点:如果当前节点是叶结点,需要验证该结点包含的所有移动对象簇是否是该查询对应簇的超集,如果是,则获得簇包含匹配关系,如果不是,则获得簇包含不匹配关系。
进一步的,在查询过程中,只选择与查询q空间上距离较近的单元格进行继续探测,避免出现回溯。
进一步的,在查询簇邻域内的所有候选簇,采用“一次搜索、多次查询”的方法,即首先为查询簇设置一个影响区域,接着搜索和验证与影响区域相交的单元格中所有的簇:用使用影响区域的最小外接矩形MBR来近似表示该影响区域,由此增加八个新的查询,这样所有与影响区域相交的候选簇都不会被忽略,尤其是与查询簇不在同一条路径上的簇。
有益效果:本发明具有以下优点:
1.提出一个新的群体运动模式,称为汇聚模式
现有运动模式大都属于群体事件的停留阶段,只能对群体事件发生后的群体运动状态建模,无法识别群体事件形成过程。本发明提出的汇聚模式,针对群体事件的聚集阶段建模,识别移动对象从各个方向聚集成移动对象群体的过程,可以对交通优化、公共事件预防等应用提供有力支撑。
2.使用簇集合的连接操作挖掘群体运动模式
本发明对现有群体运动模式进行分析后,发现这些群体运动模式是由移动对象的簇序列组成的。挖掘这些群体运动模式,就是要找出连续时刻中,相邻两个簇集合之间各个簇的关系。由此,将连接操作引入群体运动模式挖掘,可以形成群体运动模式挖掘的方法框架,有利于实现和分析这些群体运动模式的挖掘方法和结果。
3.使用压缩的位向量进行簇包含关系的判断
移动对象簇本质上是移动对象的集合,判断集合的包含关系的时间代价较大。使用位向量来表示集合中的元素是一种常用的提高集合包含关系判断操作效率的方法。在大规模时空数据的情况下,移动对象簇的规模非常大,使用普通的位向量需要大量的空间,并且效率低下。因此,本发明使用bloom filter方法压缩原始位向量,可以有效地提高簇包含关系判断操作的效率。
4.使用位向量四叉树优化簇包含连接操作
汇聚模式要求后一个时刻的簇完全包含前一个时刻的所有簇,在连续时刻使用条件为簇包含的连接操作可以挖掘出所有汇聚模式。在大规模时空轨迹数据下,基于嵌套循环的簇包含连接操作效率低下。为了提高挖掘效率,本发明综合考虑移动对象簇的集合属性和空间属性,使用位向量四叉树进行簇包含连接操作,最终挖掘出所有汇聚模式。
综上,本发明具有挖掘效率高、开销小、数据进准以及对参数不敏感等优点。
附图说明
图1为现有技术中簇包含关系层次结构示意图;
图1(a)为移动对象簇示意图;
图1(b)为汇聚树示意图;
图2为本发明中数据结构示意图;
图3为实施例中四叉树搜索时的极端情况示意图;
图4为本发明挖掘结果准确率示意图
图5为实施例中效率实验结果示意图
图5(a)为运行时间随参数msig和ρ变化示意图;
图5(b)为运行时间随参数kt变化示意图;
图5(c)为运行时间随参数km变化示意图;
图5(d)为运行时间随参数kp变化示意图;
图5(e)为运行时间随参数eps变化示意图;
图5(f)为运行时间随参数minpts变化示意图;
图6为实施例中执行时间对轨迹数据量的变化示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
为便于进一步了解本发明,作以下解释说明。
时空轨迹数据由移动对象在运动过程中的时间、空间位置等信息组成。设移动对象集合O={o1,…,on},轨迹数据库时域T={t1,…,tm},其中移动对象的轨迹由一个带时间标签的空间位置序列表示,定义为o.traj=<(x1,y1,t1),…,(xk,yk,tk)>,(xi,yi)∈R2,ti∈T。ci表示ti时刻的一个簇。Ci表示ti时刻的簇集合,CDB={C1,C2,…,Cm}表示t1时刻到tm时刻所有的簇集合。
定义1(簇包含匹配)给定两个簇q和s,如果
Figure BDA0001526966780000051
oi∈s,且q≠s,则
Figure BDA0001526966780000052
即簇q包含于簇s,称像(q,s)这样的簇对为一个簇包含匹配,称q为s的子簇,s为q的超簇。
Figure BDA0001526966780000053
来表示ti-1时刻到ti时刻所有的簇包含匹配,用RDB={R2,R3,…,Rm}来表示所有时刻的簇包含匹配。
定义2(簇包含不匹配)给定两个簇q和s,如果
Figure BDA0001526966780000054
Figure BDA0001526966780000055
即簇q不包含于簇s,称像(q,s)这样的簇对为一个簇包含不匹配。
定义3(簇包含连接)给定连个簇集合Q、S,簇包含连接
Figure BDA0001526966780000056
返回簇对(q,s)∈Q×S,且
Figure BDA0001526966780000057
q∈Q,s∈S。
定义4(汇聚树)一棵汇聚树tr是一棵满足以下性质的树:
(1)汇聚树tr的每一个结点表示一个簇,父结点与孩子结点具有簇包含关系,孩子结点包含于父结点。
(2)汇聚树tr中,一个移动对象oi的汇聚路径是从根结点到oi第一次出现的结点的路径,用pathi表示,|pathi|表示路径的长度。
(3)一个结点c的层级是根节点到它的路劲长度,表示为c.level。
(4)汇聚树τ的高度是根结点到所有叶结点的路径中最长的一条路径的长度,一棵只有单个结点的汇聚树的树高为0。
图1(a)表示了具有簇包含关系的移动对象簇C11、C12、C13、C21、C22、C31,它们之间包含关系的层次结构可以用树形结构表示,即一棵汇聚树,如图1(b)所示。
定义5(参与者)一个移动对象oi是一个参与者,当且仅当oi在汇聚树中出现至少kp个时刻,即|pathi|≥kp
定义6(汇聚模式)满足以下要求的汇聚树τ是一个汇聚模式:
(1)汇聚树τ的高度至少为kt,即在kt个连续时间内都存在簇包含关系。
(2)参与者的数量至少是km个。
设kt=3,km=3,kp=2,图1中的汇聚树是一个汇聚模式。
如果ti时刻的汇聚树tri根结点对应的簇与ti+1时刻任何簇都不具有簇包含关系,并且这棵汇聚树是一个汇聚模式,则这个汇聚模式是闭合的。
给定移动对象集合O中移动对象对应的轨迹集合、时域T、群体生命周期阈值kt、参与者数量阈值km和参与者生命周期阈值kp,时空轨迹汇聚模式挖掘的目标是在时域T内发现轨迹集合中的所有闭合汇聚模式。
本发明的一种基于位向量四叉树的移动对象汇聚模式挖掘方法,依次包括以下步骤:
(1)对没意见时间片上的移动对象集合进行基于密度的聚类操作,得到所有的簇集合CDB
(2)基于位向量四叉树进行簇包含连接;
(3)利用簇包含匹配RDB构建汇聚树,作为汇聚模式的候选集,并对候选集进一步验证其是否满足汇聚模式的要求,最终得到所有汇聚模式;
所述步骤(2)的具体方法为:
(2.1)SQTI构建阶段:即是指建立基于位向量四叉树的索引结构,然后来组织Ci中所有的候选簇集合;
(2.2)SQTI探测与验证阶段:用Ci中的每一个簇作为一个查询,在SQTI中找到所有的簇包含匹配关系;
其中Ci表示ti时刻的簇集合,CDB={C1,C2,…,Cm}表示t1时刻到tm时刻所有的簇集合;RDB={R2,R3,…,Rm}来表示所有时刻的簇包含匹配
上述步骤(2.1)的详细过程如下:
首先将Ci中每一个簇按照它们的代表空间点的位置插入到一个空间区域中;接着,将整个空间区域递归地划分成四个单元格,分别是NE、NW、SE、和SW,直到单元格中空间位置点的数量小于给定的阈值2;整个SQTI的树形结构遵循上述分裂原则,SQTI中的每一个节点都被分配一个位向量,这些位向量表示当前节点中包含的所有簇中的移动对象成员。
如图2所示,假设簇集合C2中有13个对象,它们分别属于5个不同的簇(也就是C1,C2,C3,C4,C5),则构建数据据如图2(a)所示,构建一棵如图2(b)所示的SQTI,图2(c)即为节点的组织方式。
上述步骤(2.2)的详细过程中:
当一个查询q到来时,SQTI利用位向量和空间坐标从根节点开始探测索引结构:当查询遇到非叶结点p时,验证q.sig∨p.sig=p.sig是否成立;如果验证成功,该查询立即探测当前节点的四个孩子节点,选出几何中心离该查询最近的节点作为下一步探测对象;如果验证不成功,则探测当前节点的兄弟节点:如果当前节点是叶结点,需要验证该结点包含的所有移动对象簇是否是该查询对应簇的超集,如果是,则获得簇包含匹配关系,如果不是,则获得簇包含不匹配关系。
在查询过程中,只选择与查询q空间上距离较近的单元格进行继续探测,避免出现回溯。在查询簇邻域内的所有候选簇,采用“一次搜索、多次查询”的方法,即首先为查询簇设置一个影响区域,接着搜索和验证与影响区域相交的单元格中所有的簇:如图3所示,查询q的影响区域为一个半径
Figure BDA0001526966780000071
Lmin表示最小单元格的长度,为简化计算,使用影响区域的最小外接矩形MBR来近似表示该影响区域,图3中,q的MBR为MBRA,由此增加八个新的查询(q1~q8),这样所有与影响区域相交的候选簇都不会被忽略,尤其是与查询簇不在同一条路径上的簇。每一次查询的平均开销为log(N),N为四叉树中对象的数量,实际上,在图3中,当查询来到结点v7时,查询q3、q4和q5并不需要被执行。通过搜索节点v7的兄弟节点可以实现相同的效果。更重要的是,这种极端的情况很少出现,因为“一次搜索,多次查询”的方法只有在查询点处于两个单元格边界附近的时候才有可能被实施,事实上,大多数查询都位于单元格的中间部位。
以上搜索查询的方式具有较高的准确率。
实施例:
为验证本发明的实际效果,作相应解释说明,并设计如下实验。
定义7(事件集)给定一个聚集阶段的群体运动模式P1,一个停留阶段的群体运动模式P2,一个时间差分阈值θt(默认值为5分钟)和一个相似度阈值θs(默认值为0.8),一个事件集E是P1和P2之间的一系列实例关系,例如E={(p11,p12),…,(pe1,pe2)},pi1∈Ins(P1),pi2∈Ins(P2),并且满足以下条件
(1)群体运动模式P1和P2共享移动对象簇的参数和移动对象群体的规模参数。
(2)每一个移动对象群体都经历了模式P1和P2在群体事件中对应的阶段,即
Figure BDA0001526966780000081
|pi1.close-pi2.open|≤θt
(3)群体运动模式P1和P2共享尽可能多的参与成员,即
Figure BDA0001526966780000082
Figure BDA0001526966780000083
定义8(准确率)给定一个聚集阶段的群体运动模式P1,一个停留阶段的群集模式P2以及它们的事件集E,P1对P2的准确率为:
Figure BDA0001526966780000084
定义9(召回率)给定一个聚集阶段的群体运动模式P1,一个停留阶段的群集模式P2以及它们的事件集E,P1对P2的召回率为:
Figure BDA0001526966780000085
定义10(F-得分)给定precision(P1,P2)和recall(P1,P2),F-得分定义为:
Figure BDA0001526966780000086
定义11(聚集阶段持续时间)给定一个聚集阶段的群体运动模式P1,一个停留阶段的群集模式P2,聚集阶段持续时间CSD(P1,P2)定义为聚集阶段发生时间早于停留阶段发生时间的值,计算方法如下:
Figure BDA0001526966780000087
本实施例中共使用三个数据集:
(1)游客数据集(Tour),是由香港海洋公园500位游客在2014年7月6号至2014年7月10号五天中产生的轨迹数据;
(2)出租车数据集(Taxi),是由上海市13000辆出租车在2015年4月1号至2015年4月7号产生的轨迹数据;
(3)出租车大数据集(BigTaxi),是由上海市13000辆出租车在2015年4月1号至2015年4月30号产生的轨迹数据。
具体统计数据如表1所示,所有实验程序采用Java高级程序设计语言开发。实验环境配置为Intel Core i5处理器、3.20GHz主频、4G内存。
表1实验数据集统计信息
Figure BDA0001526966780000091
在试验中,利用Tour数据集和Taxi数据集进行有效性实验,利用BigTaxi数据集进行效率实验。
实验结果与分析
以下将依次进行本发明提出的汇聚模式的有效性实验以及汇聚模式挖掘方法的效率实验。表2列出了实验方案的具体内容。有效性实验以现有群体运动模式挖掘结果同汇聚模式挖掘结果进行比较。效率实验主要比较使用基于位向量四叉树的簇连接算法(signature quad-tree based CCJ,SQTCCJ)的移动对象汇聚模式挖掘方法同分别使用嵌套循环簇连接算法(nested-loops based CCJ,NLCCJ)、基于空间搜索的簇包含连接算法(spatial search based CCJ,SSCCJ)和基于位向量树的簇包含连接算法(STI based CCJ,STCCJ)的移动对象汇聚模式挖掘方法在簇连接(cluster containment join)阶段的时间性能。并且,效率实验还比较了上述方法在汇聚模式挖掘(converging detection,CD)阶段的时间性能。
表2实验具体方法
Figure BDA0001526966780000092
Figure BDA0001526966780000101
有效性实验
有效性实验主要将本发明提出的汇聚模式与其他三个相关的群体运动模式进行对比,分别是gathering、convoy和snowball。Gathering和convoy是属于停留阶段的群体运动模式,汇聚模式和snowball是属于聚集阶段的群体运动模式。表3为有效性试验的实验参数
表3有效性实验参数设置
Figure BDA0001526966780000102
使用停留阶段的群体运动模式(如gathering和convoy)作为参照点,表4和表5显示了对聚集阶段群体运动模式(如聚集模式和snowball)挖掘结果的评价结果。从表中可以看出:
(1)聚集阶段群体运动模式的定义是可行的。具体来说,无论选取哪一个停留阶段的群体运动模式作为参照点,表中CSD的值都大于0。也就是说,聚集阶段的群体运动模式必然在停留阶段群体运动模式之间发生。所以,肯定了聚集阶段群体运动模式概念的有效性。
(2)聚集模式在两个数据上的实验,无论在哪一个维度(CSD、precision、recall、F-score)的效果都要优于snowball。聚集模式可以检测到比snowball更多的群体事件,并且其检测到的事件的开始时间都要早于snowball检测到的事件。产生这种效果的原因是snowball对群体事件有着更加严格的要求,并不符合实际情况。
(3)在大部分维度上,基于gathering作为参照点的实验结果要好于基于convoy作为参照点的实验结果。形成这种现象的原因是gathering放松了对参与群体事件成员的要求,所有gathering可以检测到更多有用的移动对象群体作为群体事件的参与成员。
表4海洋公园数据集实验结果
Figure BDA0001526966780000111
Figure BDA0001526966780000121
表5出租车数据集实验结果
Figure BDA0001526966780000122
图4显示了本发明挖掘结果的准确率随SQTI参数ρ的变化情况。从图中可以看出,当参数ρ大于20时,SQTCCJ方法几乎可以挖掘出所有的聚集模式。
效率实验
效率实验部分将比较上述各种挖掘方法在簇包含连接阶段和汇聚模式检测阶段的时间性能。
表6是效率实验的参数设置。效率实验使用BigTaxi数据集进行实验,图5展示所有效率实验的结果。
表6效率实验参数设置
Figure BDA0001526966780000131
通过比较执行连接操作的时间随位向量规模msig的变化,可以比较上述四种CCJ方法的时间性能。通过图5(a)可以看出,STCCJ方法比NLCCJ方法和SSCCJ方法要好五倍,而本发明进一步提高的连接操作的效率,它的时间性能要好于STCCJ方法。更重要的是,从图中可以看出本发明对参数msig不敏感,原因是得益于bloom filter的假阳性,大部分不符合要求的候选对象被bloom filter有效并快速地过滤掉了,即使bloom filter方法的假阳性随着msig的增大而减小本发明任然能够利用移动对象簇的空间属性高效的寻找到候选对象。所以,msig的变化几乎不会影响本发明的时间性能。另外,本发明同样对SQTI的参数ρ不敏感。主要原因是查询簇的邻域中,候选簇的数量不随ρ的变化而变化。
图5(b)、图5(c)和图5(d)反映了汇聚模式挖掘方法中,汇聚模式检测阶段的时间性能随汇聚模式各种参数的变化情况,这些参数分别是kt,km,kp。从图中可以看出,汇聚模式检测阶段的时间性能对上述三个参数都不敏感。原因是汇聚事件检测阶段需要产生并检测所有汇聚树,影响其时间性能的不是上述参数而是数据集的规模。
此外,图5(e)和图5(f)中的实验结果展示了四种CCJ方法随DBSCAN算法的两个参数eps、minpts的变化情况。容易看出,本发明的时间性能要好于其他三种CCJ方法。
最后,比较本发明提出的簇包含连接方法与当前最新的集合包含连接方法TT-join进行比较,实验结果如图6所示。从图中可以看出,在汇聚模式挖掘过程中,本发明的时间性要远好于TT-join的时间性能,这种优势在大规模数据集下体现得尤为明显。
总的来说,本发明不仅具有很高的时间性能,并且对主要的参数不敏感。这种特性有助于帮助用户减少调节参数的时间,提高汇聚模式挖掘的效率。

Claims (5)

1.一种基于位向量四叉树的移动对象汇聚模式挖掘方法,其特征在于:依次包括以下步骤:
(1)获取移动个体的位置数据,将每一个时刻的个体位置数据合并成个体位置集合;移动个体包括游客和出租车;
(2)对每一个时刻的移动个体位置集合进行基于密度的聚类操作,得到相应时刻上的移动个体簇集合,合并所有时刻的移动个体簇集合得到簇数据库CDB
(3)基于位向量四叉树进行簇包含连接,得到所有相邻时刻的移动个体之间的簇包含关系;
(4)利用簇包含关系构建候选的汇聚行为树,并对候选集进一步验证其是否满足群体汇聚模式的要求,最终得到城市环境下所有移动个体的群体汇聚行为实例;
所述步骤(3)的具体方法为:
(3.1)SQTI构建阶段:即是指建立基于位向量四叉树的各个移动个体的索引结构,然后来组织Ci中所有的候选簇集合;
(3.2)SQTI探测与验证阶段:用Ci中的每一个簇作为一个查询,在SQTI中找到所有的簇包含匹配关系;
其中Ci表示ti时刻移动个体的簇集合,CDB={C1,C2,...,Cm}表示t1时刻到tm时刻移动个体所有的簇集合,0≤i≤m;RDB={R2,R3,...,Rm}来表示移动个体所有时刻的簇包含匹配。
2.根据权利要求1所述的基于位向量四叉树的移动对象汇聚模式挖掘方法,其特征在于:所述步骤(3.1)的详细过程如下:
首先将Ci中每一个簇按照它们的代表空间点的位置插入到一个空间区域中;接着,将整个空间区域递归地划分成四个单元格,分别是NE、NW、SE、和SW,直到单元格中空间位置点的数量小于给定的阈值ρ;整个SQTI的树形结构遵循分裂原则,SQTI中的每一个节点都被分配一个位向量(signature,sig),这些位向量表示当前节点中包含的所有簇中的移动对象成员。
3.根据权利要求1所述的基于位向量四叉树的移动对象汇聚模式挖掘方法,其特征在于:所述步骤(3.2)的详细过程中:
当一个查询q到来时,SQTI利用位向量和空间坐标从根节点开始探测索引结构:当查询遇到非叶结点p时,验证q.sig V p.sig=p.sig是否成立;其中sig是位向量,如果验证成功,该查询立即探测当前节点的四个孩子节点,选出几何中心离该查询最近的节点作为下一步探测对象;如果验证不成功,则探测当前节点的兄弟节点:如果当前节点是叶结点,需要验证该结点包含的所有移动对象簇是否是该查询对应簇的超集,如果是,则获得簇包含匹配关系,如果不是,则获得簇包含不匹配关系。
4.根据权利要求3所述的基于位向量四叉树的移动对象汇聚模式挖掘方法,其特征在于:在查询过程中,只选择与查询q空间上距离较近的单元格进行继续探测,避免出现回溯。
5.根据权利要求3所述的基于位向量四叉树的移动对象汇聚模式挖掘方法,其特征在于:在查询簇邻域内的所有候选簇,采用“一次搜索、多次查询”的方法,即首先为查询簇设置一个影响区域,接着搜索和验证与影响区域相交的单元格中所有的簇:用使用影响区域的最小外接矩形MBR来近似表示该影响区域,由此增加八个新的查询,这样所有与影响区域相交的候选簇都不会被忽略。
CN201711443531.8A 2017-12-27 2017-12-27 基于位向量四叉树的移动对象汇聚模式挖掘方法 Active CN108182230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711443531.8A CN108182230B (zh) 2017-12-27 2017-12-27 基于位向量四叉树的移动对象汇聚模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711443531.8A CN108182230B (zh) 2017-12-27 2017-12-27 基于位向量四叉树的移动对象汇聚模式挖掘方法

Publications (2)

Publication Number Publication Date
CN108182230A CN108182230A (zh) 2018-06-19
CN108182230B true CN108182230B (zh) 2020-11-03

Family

ID=62547644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711443531.8A Active CN108182230B (zh) 2017-12-27 2017-12-27 基于位向量四叉树的移动对象汇聚模式挖掘方法

Country Status (1)

Country Link
CN (1) CN108182230B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800231B (zh) * 2019-01-17 2020-12-08 浙江大学 一种基于Flink的实时轨迹co-movement运动模式检测方法
CN112084279A (zh) * 2020-09-04 2020-12-15 上海经达信息科技股份有限公司 一种基于地图点聚合算法的出租车聚集事件的判定方法
CN112905591B (zh) * 2021-02-04 2022-08-26 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390129A (zh) * 2006-02-28 2009-03-18 仁爱米拉索莱有限公司 用于分析对象聚群的方法和设备
CN101847265A (zh) * 2010-04-20 2010-09-29 上海理工大学 一种在公交客流统计系统中使用的运动目标提取及多目标分割方法
CN103092853A (zh) * 2011-10-31 2013-05-08 中国移动通信集团公司 一种空间索引的建立方法、使用方法及装置
CN103218265A (zh) * 2013-05-06 2013-07-24 杭州电子科技大学 基于空间密度聚类的并行式虚拟角色划分方法
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
WO2015041751A1 (en) * 2013-09-20 2015-03-26 Cyan Inc. Network visualization system and method
CN104657424A (zh) * 2015-01-21 2015-05-27 段炼 一种多时空特征融合下的兴趣点轨迹聚类方法
CN106980644A (zh) * 2017-02-20 2017-07-25 浙江大学 一种异构城市数据的个体人际关系可视推理方法
CN107145796A (zh) * 2017-04-24 2017-09-08 公安海警学院 一种不确定环境下轨迹数据k‑匿名隐私保护方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047847B2 (en) * 2013-02-05 2015-06-02 Facebook, Inc. Displaying clusters of media items on a map using representative media items

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390129A (zh) * 2006-02-28 2009-03-18 仁爱米拉索莱有限公司 用于分析对象聚群的方法和设备
CN101847265A (zh) * 2010-04-20 2010-09-29 上海理工大学 一种在公交客流统计系统中使用的运动目标提取及多目标分割方法
CN103092853A (zh) * 2011-10-31 2013-05-08 中国移动通信集团公司 一种空间索引的建立方法、使用方法及装置
CN103218265A (zh) * 2013-05-06 2013-07-24 杭州电子科技大学 基于空间密度聚类的并行式虚拟角色划分方法
WO2015041751A1 (en) * 2013-09-20 2015-03-26 Cyan Inc. Network visualization system and method
CN103593430A (zh) * 2013-11-11 2014-02-19 胡宝清 一种基于移动对象时空信息轨迹分段聚类的方法
CN104657424A (zh) * 2015-01-21 2015-05-27 段炼 一种多时空特征融合下的兴趣点轨迹聚类方法
CN106980644A (zh) * 2017-02-20 2017-07-25 浙江大学 一种异构城市数据的个体人际关系可视推理方法
CN107145796A (zh) * 2017-04-24 2017-09-08 公安海警学院 一种不确定环境下轨迹数据k‑匿名隐私保护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Efficient dark channel based image dehazing using quadtrees;DING Meng等;《SCIENCE CHINA Information Sciences》;20130930(第9期);231-239 *
一种基于四叉树的快速聚类算法;栾丽华等;《计算机应用》;20050531;第25卷(第5期);1001-1003 *
一种面要素的层次四叉树聚类方法;李光强等;《地理空间信息》;20151031;第13卷(第5期);1-3 *
基于高程—四叉树模型和改进蚁群算法的路径规划;李建军等;《信息工程大学学报》;20141231;第15卷(第6期);723-742 *

Also Published As

Publication number Publication date
CN108182230A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
Zheng et al. Online discovery of gathering patterns over trajectories
Xie et al. From trajectories to activities: a spatio-temporal join approach
Jeung et al. Trajectory pattern mining
Xiao et al. Density based co-location pattern discovery
CN106649656B (zh) 一种面向数据库的时空轨迹大数据存储方法
CN108182230B (zh) 基于位向量四叉树的移动对象汇聚模式挖掘方法
Tampakis et al. Scalable distributed subtrajectory clustering
Liu et al. Efficient similar region search with deep metric learning
Sainju et al. Parallel grid-based colocation mining algorithms on GPUs for big spatial event data
Tran et al. Robust and hierarchical stop discovery in sparse and diverse trajectories
CN109739585A (zh) 基于spark集群并行化计算的交通拥堵点发现方法
Nikitopoulos et al. Hot spot analysis over big trajectory data
Belcastro et al. Parallel extraction of Regions‐of‐Interest from social media data
CN113779105A (zh) 分布式轨迹流伴随模式挖掘方法
CN112765226A (zh) 基于轨迹数据挖掘的城市语义图谱构建方法
Shang et al. VID join: Mapping trajectories to points of interest to support location-based services
CN109800231B (zh) 一种基于Flink的实时轨迹co-movement运动模式检测方法
Sideridis et al. On querying and mining semantic-aware mobility timelines
Li et al. Distributed spatio-temporal k nearest neighbors join
Zhao et al. Efficient semantic enrichment process for spatiotemporal trajectories
d'Acierno et al. Designing huge repositories of moving vehicles trajectories for efficient extraction of semantic data
Vieira et al. Spatio-temporal databases: Complex motion pattern queries
Zhao et al. A framework for group converging pattern mining using spatiotemporal trajectories
Chen et al. Research and application of cluster analysis algorithm
Fang et al. On aligning tuples for regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant