CN107526788A - 基于兴趣区域的轨迹查询的匀速搜索算法 - Google Patents
基于兴趣区域的轨迹查询的匀速搜索算法 Download PDFInfo
- Publication number
- CN107526788A CN107526788A CN201710659372.9A CN201710659372A CN107526788A CN 107526788 A CN107526788 A CN 107526788A CN 201710659372 A CN201710659372 A CN 201710659372A CN 107526788 A CN107526788 A CN 107526788A
- Authority
- CN
- China
- Prior art keywords
- query
- spatial
- track
- spatial density
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于兴趣区域的轨迹查询的匀速搜索算法,包括如下步骤:步骤1:初始设置全局空间密度相关性下限LB=0,全局空间密度相关性上限UB=+∞;步骤2:从查询区域的每个中心使用相同速率的Dijkstra扩展算法,每次扩展距离最小的点;步骤3:计算空间密度的上限和下限,更新LB和UB;步骤4:判断LB>UB或搜索半径超过ε是否成立,ε是事先设置的阈值,如成立则搜索结束,进入下一步骤5;如不成立,则回到步骤3;步骤5:根据空间密度上限的值对轨迹进行排序;步骤6:按照轨迹排序进一步细化,返回具有最大空间密度相关性的轨迹。与传统轨迹搜索(TSL)查询不同,本发明是基于兴趣区域的;本发明解决了现有的TSL解决方案对TSR查询无效的问题。
Description
技术领域
本发明属于计算机空间数据领域基于位置的服务,尤其涉及一种基于兴趣区域的轨迹查询的匀速搜索算法。
背景技术
一般将现有的轨迹搜索查询分为三类。在点对点轨迹查询类别中,查询参数是单个空间点,并且查询寻找空间上靠近查询点的轨迹。郑等人[K.Zheng,B.Zheng,J.Xu,G.Liu,A.Liu,and Z.Li.Popularityaware spatial keyword search on activitytrajectories.World Wide Web,19(6):1–25,online first,2016.]将此查询扩展到覆盖空间和文本域,并提出TkSK查询来检索在空间上靠近查询点的轨迹,以满足查询定义的语义要求。在点到轨迹查询类别中,查询需要一组地点(如观光场所)作为参数,返回一条连接或根据某种标准接近查询位置的轨迹。基于位置的轨迹搜索的概念(TSL)首先由Chen等提出[Z.Chen,H.T.Shen,X.Zhou,Y.Zheng,and X.Xie.Searching trajectories bylocations:an efficiency study.In SIGMOD,pages 255–266,2010.]。这个研究仅考虑空间域(欧几里德空间)。尚等[S.Shang,R.Ding,B.Yuan,K.Xie,K.Zheng,and P.Kalnis.Useroriented trajectory search for trip recommendation.In EDBT,pages156–167,2012.]观察到由于用户的特定偏好,空间相似性没有充分捕捉查询位置与轨迹之间的关系。然后他们提出以用户为导向的轨迹搜索并扩展查询覆盖空间和文本域。直观地,如果轨迹接近指定的查询位置(空间域),其文本属性值与用户的文字偏好(文字域)类似,将会被推荐给用户。在轨迹到轨迹类别中,查询检索与查询轨迹最相似的轨迹。例如,PTM查询[S.Shang,R.Ding,K.Zheng,C.S.Jensen,P.Kalnis,and X.Zhou.Personalizedtrajectory matching in spatial networks.VLDB J.,23(3):449–468,2014.]考虑时空相似性,ATSQ查询[K.Zheng,S.Shang,N.J.Yuan,and Y.Yang.Towards efficient searchfor activity trajectories.In ICDE,pages 230–241,2013.]考虑空间-文本相似性。
在大多数现有的研究轨迹搜索中,查询参数是一组或一系列的位置。然而,在某些情况下,一个地方可能不是一个点的位置,但可能是包含几个空间对象的感兴趣区域。此外,特别是当规划一个在陌生城市的旅行时,用户可能无法准确指定预期地点,而使用预期区域代替。这两个常见的案例正是现有轨迹搜索方法存在的问题或缺陷。
与现有研究不同,本发明研究按地区进行轨迹搜索的兴趣(TSR)查询,它旨在找到一个与查询区域的空间密度相关性最高的轨迹。现有的TSL解决方案对TSR查询无效,有两个原因。首先,TSL只考虑空间,而TSR考虑到空间距离和空间物体密度。二是TSL只在欧氏空间中进行,空间索引(例如,R-tree[A.Guttman.R-trees:a dynamic index structure forspatial searching.In SIGMOD,pages 47–57,1984.])用于提高查询效率。但在我们的工作中,运动被限制到空间网络。当网络中的边的权重是对旅行的许多方面(例如,燃料消耗和旅行时间)建模,网络的下限距离可能不是相应的欧几里德距离;因此,诸如R-tree等空间指标是无效的。这是我们使用网络扩展的主要原因(即,Dijkstra的扩展)。
最相关的工作可以说是集群附近的路径(PNC)查询[S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,and J.Wen.Discovery of path nearby clustersin spatial networks.IEEE Trans.Knowl.Data Eng.,27(6):1505–1518,2015.],因此我们在此详细介绍。TSR查询及其解决方案与PNC查询不同,其解决方案有以下六个方面:(i)查询类型:PNC查询是在空间和密度域上进行的空间密度查询,而TSR查询是空间查询(密度也被考虑,但查询处理仅发生在空间域)。(ii)查询参数和结果:PNC查询以路由为参数,并返回关于查询路由具有最高距离-密度的top-k簇,而TSR查询将一组感兴趣的地区作为参数并返回具有最高空间密度相关的轨迹。(iii)相似度函数:相似度函数用于PNC查询,会计算距离和密度在空间和密度领域的相关性,以及它们的线性组合。在空间域中,它测量集群中心与路由之间的网络距离;并且在密度域中,计算簇的密度。TSR查询的相似度函数评估轨迹与一组查询区域之间的空间密度相关性。轨迹和查询区域内所有空间对象之间的距离均被考虑在内。(iv)数据模型和算法结构:对于PNC查询,集群的密度映射到一维空间(密度域),PNC查询处理搜索此域以查找高空间物体密度的集群。TSR查询没有单独的密度域。空间物体的密度是轨迹与查询区域中空间物体之间的距离的总和。由于这些差异,PNC和TSR要求不同的算法。(v)优化技术:由于以上与PNC的差异,TSR需要具体优化技术。因TSR查询具有多个查询区域参数,需要一个策略来安排多个查询区域。TSR重用并扩展查询源选择PNC方法(方程式12-14)来从查询区域中选择查询源。(vi)实验空间数据集:使用不同的空间数据集。对于PNC查询,空间对象是地理标记的微博帖子,轨迹数据没有使用,而对于TSR查询,空间对象是使用兴趣点和真实或合成的轨迹数据。由于这六个差异,TSR查询及其解决方案是新的。PNC解决方案不适用于TSR问题。
发明内容
本发明要解决的技术问题在于提供一种基于兴趣区域的轨迹查询的匀速搜索算法,其给定一个轨迹参数集合,一个TSR查询需要一组感兴趣的区域作为一个参数,并返回在轨迹集中与查询区域的空间密度相关性最高的轨迹。这种类型的查询可用于许多流行的应用,如行程规划和建议,和基于位置的服务,扩展了应用范围。本发明解决了现有的TSL解决方案对TSR查询(基于兴趣区域的轨迹查询)无效,现有的PNC解决方案不适用于TSR问题。
本发明开发一个直接的方法来计算TSR查询(基于兴趣区域的轨迹查询),它称为匀速搜索(USS),这遵循过滤-完善模式。每次查询时,查询区域中心pi被用作一个所谓的查询源,而网络的扩展(即扩展Dijkstra[E.W.Dijkstra.A note on two problems inconnection with graphs.Numerische Math,1:269–271,1959.])是从这些查询源以相同的速度探索空间网络。匀速搜索要求轨迹在空间上接近查询区域的密集次区域。轨道与一组查询区域的空间密度相关性的上下限被用于剪枝搜索空间。
为解决上述技术问题,本发明提供一种基于兴趣区域的轨迹查询的匀速搜索算法,包括如下步骤:
步骤1:初始设置全局空间密度相关性下限LB=0,全局空间密度相关性上限UB=+∞;定义空间密度相关性计算公式:
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性;ci代表任意一个属于集合C的查询区域,Csd(ci,τ)代表ci与τ的空间密度相关性;
步骤2:从查询区域的每个中心使用相同速率的Dijkstra扩展算法,每次扩展距离最小的点;
步骤3:计算空间密度的上限和下限,更新LB和UB;
步骤4:判断LB>UB或搜索半径超过ε是否成立,ε是事先设置的阈值,如成立则搜索结束,进入下一步骤5;如不成立,则回到步骤3;
步骤5:根据空间密度上限的值对轨迹进行排序;
步骤6:按照轨迹排序进一步细化,返回具有最大空间密度相关性的轨迹。
作为本发明优选的技术方案,步骤2中所述每次扩展距离最小的点通过选择具有最小距离标签的顶点进行扩展。
作为本发明优选的技术方案,步骤3中所述计算空间密度的上限和下限具体为:对于每一个新扫描的轨迹,如果没有被从pi开始的扩展扫描,它被标记为已被pi扫描,计算其空间密度上限Csd(C,τ).ub和下限Csd(C,τ).lb;
空间密度下限估算公式为:
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性,Csd(C,τ).lb代表这个相关性的下限;ci代表任意一个属于集合C的查询区域,Csd(ci,τ).lb代表轨迹τ与查询区域ci的空间密度相关性的下限,计算Csd(ci,τ).lb的公式以c1与τ1为例如下:
其中pi是区域c1中的一个点,pi.g是附属于pi的空间对象的数量,dM(p1,τ1)代表点p1与轨迹τ1之间的网络距离,sd(pi,p1)代表点pi和点p1之间的网络距离;
对应的,空间密度上限估算公式为:
其中,Csd(C,τ).ub代表这个相关性的上限,Csd(ci,τ).ub代表轨迹τ与查询区域ci的空间密度相关性的上限,计算Csd(ci,τ).ub的公式如下:
其中,C1表示τ被从ci的中心开始的搜索范围覆盖,C2表示τ没有被从ci的中心开始的搜索范围覆盖;rei表示从ci的中心开始的搜索范围的半径。
作为本发明优选的技术方案,步骤3中所述更新LB和UB具体为:如果Csd(C,τ).lb>LB,LB更新为Csd(C,τ).lb;如果Csd(C,τ).ub<UB,UB更新为Csd(C,τ).ub。
作为本发明优选的技术方案,步骤4中所述搜索结束,空间密度上限小于LB的轨迹从Tf中删除,Tf是所有被完全覆盖的轨迹的集合。
作为本发明优选的技术方案,步骤5中Tf中的轨迹根据空间密度上限的值排序。
作为本发明优选的技术方案,步骤6中所述按照轨迹排序进一步细化,具体为:对于轨迹τ∈Tf,假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点,从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离,一旦所述细化终止,返回具有最大空间密度相关性的轨迹;其中Tr是已经被细化的轨迹集合,Tu是未被细化的轨迹集合,Tr∪Tu=Tf,τ’是Tu中的一条轨迹。
与现有技术相比,本发明具有以下有益效果:
1、与传统轨迹搜索(TSL)查询不同,本发明是基于兴趣区域的;另外,我们还研究了在指定访问预期区域的序列情况下的TSR查询;本发明解决了现有的TSL解决方案对TSR查询无效,现有的PNC解决方案不适用于TSR问题。
2、经实验验证,更长的轨迹导致更多的采样点(顶点)被处理。对于本发明算法,CPU时间和访问顶点数将会增加。
3、经实验验证,更多查询区域会导致更多查询源被处理并具有更大的搜索空间。对于本发明算法,CPU时间和访问顶点数将会随着区域数|C|增加。
4、经实验验证,改变了区域半径c.r,值越大意味着更多的空间物体必须被处理并且意味着更大搜索空间。对于本发明算法,CPU时间和访问顶点数将会增加。
5、经实验验证,改变阈值ε,相对大的ε会导致更大的搜索空间。
6、经实验验证,更高的对象密度导致更多的计算量和更多的待访问轨迹。对于本发明算法,CPU时间和访问顶点数将会增加。
7、经实验验证,重叠区域的比例越高,查询区域彼此更接近,也就会减少查询区域的数量。对于本发明算法,CPU时间和访问轨迹数会降低。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明基于兴趣区域的轨迹查询的匀速搜索算法的流程图。
图2是本发明TSR查询实例示意图。
图3是本发明空间密度相关性的实施例示意图。
图4为本发明基于兴趣区域的轨迹查询的匀速搜索算法(USS算法)的一个实例示意图。
图5为本发明的不同查询区域数量对实验结果的影响示意图;其中,图5(a)代表北京路网(BRN)中不同查询区域数量下的运行时间;图5(b)代表北京路网(BRN)中不同查询区域数量下的访问轨迹数。
图6是本发明的不同轨迹长度对实验结果的影响示意图;其中,图6(a)代表北京路网(BRN)中不同轨迹长度对于运行时间的影响;图6(b)代表北京路网(BRN)中不同轨迹长度下的访问轨迹数。
图7是本发明的不同区域半径对实验结果的影响示意图;其中,图7(a)代表北京路网(BRN)中不同区域半径对运行时间的影响;图7(b)代表北京路网(BRN)中不同区域半径对访问轨迹数的影响。
图8是本发明的不同ε对实验结果的影响示意图;其中,图8(a)代表北京路网(BRN)中不同ε对运行时间的影响;图8(b)代表北京路网(BRN)中不同ε对访问轨迹数的影响。
图9是本发明的不同对象密度对实验结果的影响示意图;其中,图9(a)代表北京路网(BRN)中不同对象密度对运行时间的影响;图9(b)代表北京路网(BRN)中不同密度对象对访问轨迹数的影响。
图10是本发明的重叠区域对实验结果的影响示意图;其中,图10(a)代表北京路网(BRN)中不同重叠区域对运行时间的影响;图10(b)代表北京路网(BRN)中不同重叠区域对访问轨迹数的影响。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明系统定义如下:
空间网络
我们将空间网络建模为一个无向连通图G(V,E,F,W),其中V是顶点集,是一个边集。顶点vi∈V表示道路交叉点或终点。定义边ek=(vi,vj)∈E通过两个顶点,并表示路段顶点vi和vj之间的行进功能。函数F:V∪E→Geometries记录空间网络的几何信息.特别地,它将顶点和边分别映射到相应道路交叉口的点和代表相应路段的折线。函数W:E→R给每个边分配权重。边e的权重W(e)代表相应的路段长度或一些其他相关性质如燃油消耗或旅行时间,可以通过挖掘历史交通数据获得。
轨迹
轨迹是一个有限的有序序列<v1,v2,...,vn>,其中vi=(pi,ti),其中pi是样点(在顶点处),ti是时间戳。在这项研究中,我们只考虑轨迹的空间属性。
兴趣区域
兴趣区域是一个子图包含顶点c.V和边c.E,通过中心vm和半径r定义,其中c.vm是G中的顶点:r是从c到区域边界的网络距离。
空间密度相关性
给定空间网络中的任何两个顶点pa和pb,它们之间的网络最短路径由SP(pa,pb)表示,其长度由sd(pa,pb)表示。给出一个轨迹τ和空间网络中的顶点o,最小距离顶点o和轨迹τ之间的dM(o,τ)定义为:
其中pi是τ中的点。
给定两个空间点p1和p2,空间影响因子I(p1,p2)定义如下:
ε是一个阈值。I(p1,p2)的值与sd(p1,p2)成反比。如果p1和p2之间的距离达到阈值,则设置它们之间的影响因子是0。阈值用于从查询区域进一步修剪轨迹。I(p1,p2)的值在范围内[0,e-ε],e-ε∈(0,1)。
一个区域c与轨迹τ之间的空间密度相关性Csd(c,τ)定义如下:
这里,pi是属于c的顶点,p∈τ是最接近区域中心c.m的顶点。pi.g是连接到pi的空间对象个数。空间距离和空间对象密度都被考虑在内。这些功能通过考虑空间物体的密度来扩展众所周知的最长公共子序列(LCSS)。
在TSR查询处理中,每个地区都扮演着同样重要的角色,所以我们使用Sigmoid函数归一化空间密度相关性Csd(c,τ)到范围[0,1]。
Sigmoid函数如下:
S(x)=1/(1+e-x)
代入x=Csd(c,τ),S(x)即为空间密度相关性归一化之后的值。
通过组合每个区域ci∈C的空间密度相关性,一组区域的集合C和轨迹τ之间的空间密度相关性由下面给出:
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性;ci代表任意一个属于集合C的查询区域,Csd(ci,τ)代表ci与τ的空间密度相关性。
以下是本发明基于兴趣区域的轨迹查询的匀速搜索算法(简称USS算法):
本发明USS算法是一种简单的方法,基于过滤和细化来计算TRS查询。给定轨迹数据集T和查询区域集合C,USS求查询区域内在空间上靠近空间对象密集区域的轨迹。每个地区中心ci.m(ci∈C)被选为所谓的查询源,网络扩展(即Dijkstra的扩展)从查询源以相同的速度进行网络搜索,并对空间密度相关性的上下限定义来修剪搜索空间。通过整合结果,发现与C的空间密度相关性最大的轨迹。如图1所示,本发明算法的具体步骤如下:
1.最初,全局空间密度相关性下限LB设置为0,全局空间密度相关性上限UB设置为+∞。
2.从查询区域的每个中心依次使用相同速率的Dijkstra扩展算法(即在各个中心以相同的速率进行Dijkstra算法,即同一迭代中访问相同个数的点),通过选择具有最小距离标签的顶点进行扩展。
3.计算空间密度的上下限,更新LB和UB:对于每一个新扫描的轨迹,如果没有被从pi开始的扩展扫描,它被标记为已被pi扫描,我们计算其空间密度上限Csd(C,τ).ub和下限Csd(C,τ).lb。如果Csd(C,τ).lb>LB,LB更新为Csd(C,τ).lb。此外,如果Csd(C,τ).ub<UB,UB更新为Csd(C,τ).ub。
空间密度下限估算公式为:
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性,Csd(C,τ).lb代表这个相关性的下限。ci代表任意一个属于集合C的查询区域,Csd(ci,τ).lb代表轨迹τ与查询区域ci的空间密度相关性的下限。而计算Csd(ci,τ).lb的公式如下(以c1与τ1为例):
其中pi是区域c1中的一个点,pi。g是附属于pi的空间对象的数量,dM(p,τ)代表点p与轨迹τ之间的网络距离,sd(pi,pj)代表点pi和点pj之间的网络距离。
对应的,空间密度相关性上限估算公式为:
其中,Csd(C,τ).ub代表这个相关性的上限,Csd(ci,τ).ub代表轨迹τ与查询区域ci的空间密度相关性的上限。计算Csd(ci,τ).ub的公式如下:
其中,C1表示τ被从ci的中心开始的搜索范围覆盖,C2表示τ没有被从ci的中心开始的搜索范围覆盖。rei表示从ci的中心开始的搜索范围的半径。
4.如果LB>UB或搜索半径超过ε,其中ε是事先设置的阈值,网络扩展终止,即搜索结束,Csd(C,τ).ub小于LB的轨迹从Tf中删除,Tf是所有被完全覆盖的轨迹的集合。Tf中的轨迹根据Csd(C,τ).ub的值排序。如果LB≤UB或搜索半径≤ε,则返回上一步骤;
5.按照轨迹排序进一步细化,一旦细化终止,返回具有最大空间密度相关性的轨迹。其中Tr是已经被细化的轨迹集合,Tu是未被细化的轨迹集合。
细化:对于轨迹τ∈Tf,假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点。我们从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离。一旦我们有了细化终止,返回Csd(C,τ)最大的轨迹。这里Tr是细化过的轨迹的集合,Tu是一组未细化的轨迹,Tr∪Tu=Tf,τ’是Tu中的一条轨迹。
图2显示了一个TSR查询实例。如图2所示,c1,c2,c3是TSR查询区域,p1,p2,p3是相应的区域中心,r1、r2和r3是半径。点p3,p4,…,p8是轨迹内的采样点。在轨迹τ1中,p6,p7,p8分别是离中心p1,p2和p3最近的采样点。在轨迹τ2中,p4,p5分别是离中心p1,p2最近的采样点。每个区域包含几个空间对象。只有在对该区域中心的空间接近性被考虑到时,轨迹τ2才被返回,因为轨迹τ2在空间上最接近该地区中心。如果我们考虑空间对象的分布,轨迹τ2则比轨迹τ1缺少吸引力,因为它更远离空间对象密度高的地区。当同时考虑以上两个方面时,轨迹τ1是最好的选择(尽管轨迹τ2是在空间距离上比τ1略好)。
图3显示了空间密度相关性的实施例。以图3为例,τ是一条轨迹,c1和c2是两个区域,p1和p2分别是它们的中心。顶点{p3,p4}∈τ分别是τ上离p1和p2最近的点,{p5,p6,p7,p8}∈c1,{p9,p10}∈c2。空间密度相关性Csd(c1,τ)and Csd(c2,τ)被计算为:Csd(c1,τ)=p1·g·I(p1,p3)+p5·g·I(p5,p3)+p6·g·I(p6,p3)+p7·g·I(p7,p3)+p8·g·I(p8,p3),Csd(c2,τ)=p2·g·I(p2,p4)+p9·g·I(p9,p4)+p10·g·I(p10,p3)。
图4为本发明USS算法的一个实例,c1和c2是两个区域,p1和p2分别为它们的中心,τ1,τ2,τ3为三条轨迹,p3和p4是轨迹τ1上最靠近p1和p2的点。在USS算法中,我们使用区域中心p1和p2作为查询源,利用Dijkstra扩展算法以相同速率进行计算。被搜索的区域的半径是从中心p1和p2到相应搜索边界的最短距离re1和re2,由于是匀速搜索,故re1=re2。P3是τ1上最靠近p1的点,故dM(p1,τ)=sd(p1,p3)。当一条轨迹被所有查询源的搜索区域覆盖到时(如τ1),则被称为完全覆盖;当一条轨迹只被一部分查询源的搜索区域覆盖到时(如τ2),被称为部分覆盖;当一条轨迹没有被任何查询源的搜索区域覆盖到时(如τ3),被称为未覆盖。
以下通过具体实验来验证本发明的效果:
我们使用从两个空间网络提取的图形,即北京路网(BRN)和北美道路网(NRN)。分别包含28,342个顶点和27,690条边,和17,813个顶点,179,179条边。图形由邻接列表索引。对于BRN,我们使用一个真实的北京出租车的轨迹数据集和实数数据集感兴趣的(空间物体),其中包含80万个轨迹和30万个POI(兴趣点)。原始POI具有经度和纬度坐标,它们被映射到空间网络,分配给它们最近的顶点。对于BRN中的每个顶点p,我们记录具有其最近顶点的对象的数量。因此,我们不需要在TSR查询处理期间访问个人空间对象。我们与以前的研究分享POI设定[S.Shang,K.Zheng,C.S.Jensen,B.Yang,P.Kalnis,G.Li,andJ.Wen.Discovery of path nearby clusters in spatial networks.IEEETrans.Knowl.Data Eng.,27(6):1505–1518,2015.]。对于NRN,较大的合成数据用于研究可扩展性。NRN包含4,000,000条轨迹。对于NRN中的每个顶点p’,我们得出该数的附加空间物体,我们将这个数字存储为一个属性。我们有180万个派生空间物体。在BRN,默认距离阈值设置在10公里,而在NRN中,默认设置为200公里。所有算法都是在Java中实现并在Windows8平台上运行,使用英特尔酷睿i7-3520M处理器(2.90GHz)和8GB内存。
默认情况下,BRN中的轨迹集大小设置为600,000,而在NRN设置为1000,000,轨迹长度在BRN中设置为20,在NRN中设置为100,在BRN和BRN中查询区域的数量设置为6。查询区域的平均半径从2公里变化到10公里,在BRN(默认6公里);在NRN(默认150公里)从50公里到250公里变化。
1.剪枝效果
首先,我们设置实验来查看算法在图上的剪枝效果,实验结果如下:
USS | |
剪枝率(BRN) | 0.32 |
保留率(BRN) | 0.68 |
剪枝率(NRN) | 0.37 |
保留率(NRN) | 0.63 |
表1 USS算法的剪枝效果
2.区域数的影响
如图5所示,更多查询区域会导致更多查询源被处理并具有更大的搜索空间。所以,对于本发明算法,CPU时间和访问顶点数将会随着区域数|C|增加。
3.轨迹长度的影响
如图6所示,我们改变轨迹长度τ.l。更长的轨迹导致更多的采样点(顶点)被处理。所以,对于本发明算法,CPU时间和访问顶点数将会增加。
4.区域半径的影响
如图7所示,我们改变了区域半径c.r,值越大意味着更多的空间物体必须被处理并且意味着更大搜索空间。所以,对于本发明算法,CPU时间和访问顶点数将会增加。
5.ε的影响
如图8所示,我们改变阈值ε,实验结果表明,相对大的ε会导致更大的搜索空间。
6.对象密度的影响
如图9所示,我们研究了对象密度对查询性能的影响。在BRN中,每个区域中的空间对象数量从5000到25,000变化,而在NRN中,每个区域的对象数量从10,000到50,000不等。直观地说,更高的对象密度导致更多的计算量和更多的待访问轨迹。因此,对于本发明算法,CPU时间和访问顶点数将会增加。
7.重叠区域
如图10所示,我们研究重叠区域对查询性能的影响。重叠区域的比例越高,查询区域彼此更接近,也就会减少查询区域的数量。因此,CPU时间和访问轨迹数会降低。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (7)
1.一种基于兴趣区域的轨迹查询的匀速搜索算法,其特征在于,包括如下步骤:
步骤1:初始设置全局空间密度相关性下限LB=0,全局空间密度相关性上限UB=+∞;定义空间密度相关性计算公式:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<mfrac>
<mn>2</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性;ci代表任意一个属于集合C的查询区域,Csd(ci,τ)代表ci与τ的空间密度相关性;
步骤2:从查询区域的每个中心使用相同速率的Dijkstra扩展算法,每次扩展距离最小的点;
步骤3:计算空间密度的上限和下限,更新LB和UB;
步骤4:判断LB>UB或搜索半径超过ε是否成立,ε是事先设置的阈值,如成立则搜索结束,进入下一步骤5;如不成立,则回到步骤3;
步骤5:根据空间密度上限的值对轨迹进行排序;
步骤6:按照轨迹排序进一步细化,返回具有最大空间密度相关性的轨迹。
2.如权利要求1所述的算法,其特征在于,步骤2中所述每次扩展距离最小的点通过选择具有最小距离标签的顶点进行扩展。
3.如权利要求1所述的算法,其特征在于,步骤3中所述计算空间密度的上限和下限具体为:对于每一个新扫描的轨迹,如果没有被从pi开始的扩展扫描,它被标记为已被pi扫描,计算其空间密度上限Csd(C,τ).ub和下限Csd(C,τ).lb;
空间密度下限估算公式为:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>l</mi>
<mi>b</mi>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<mfrac>
<mn>2</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>l</mi>
<mi>b</mi>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Csd(C,τ)是轨迹τ与查询区域集合C的空间密度相关性,Csd(C,τ).lb代表这个相关性的下限;ci代表任意一个属于集合C的查询区域,Csd(ci,τ).lb代表轨迹τ与查询区域ci的空间密度相关性的下限,计算Csd(ci,τ).lb的公式以c1与τ1为例如下:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&tau;</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>l</mi>
<mi>b</mi>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>c</mi>
<mn>1</mn>
</msub>
</mrow>
</munder>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>.</mo>
<mi>g</mi>
<mo>&CenterDot;</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>M</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>p</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&tau;</mi>
<mn>1</mn>
</msub>
</mrow>
<mo>)</mo>
<mo>+</mo>
<mi>s</mi>
<mi>d</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>p</mi>
<mn>1</mn>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
其中pi是区域c1中的一个点,pi.g是附属于pi的空间对象的数量,dM(p1,τ1)代表点p1与轨迹τ1之间的网络距离,sd(pi,p1)代表点pi和点p1之间的网络距离;
对应的,空间密度上限估算公式为:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>C</mi>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>u</mi>
<mi>b</mi>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<mi>C</mi>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<mfrac>
<mn>2</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,Csd(C,τ).ub代表这个相关性的上限,Csd(ci,τ).ub代表轨迹τ与查询区域ci的空间密度相关性的上限,计算Csd(ci,τ).ub的公式如下:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>s</mi>
<mi>d</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>&tau;</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
<mi>u</mi>
<mi>b</mi>
<mo>=</mo>
<mfenced open = "{" close = "}">
<mtable>
<mtr>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>.</mo>
<mi>g</mi>
<mo>&CenterDot;</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>M</mi>
</msub>
<mo>(</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>&tau;</mi>
</mrow>
<mo>)</mo>
<mo>-</mo>
<mi>s</mi>
<mi>d</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<msub>
<mi>C</mi>
<mn>1</mn>
</msub>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>.</mo>
<mi>g</mi>
<mo>&CenterDot;</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mrow>
<mo>(</mo>
<msub>
<mi>re</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mi>s</mi>
<mi>d</mi>
<mo>(</mo>
<mrow>
<msub>
<mi>p</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>p</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</mtd>
<mtd>
<msub>
<mi>C</mi>
<mn>2</mn>
</msub>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,C1表示τ被从ci的中心开始的搜索范围覆盖,C2表示τ没有被从ci的中心开始的搜索范围覆盖;rei表示从ci的中心开始的搜索范围的半径。
4.如权利要求3所述的算法,其特征在于,步骤3中所述更新LB和UB具体为:如果Csd(C,τ).lb>LB,LB更新为Csd(C,τ).lb;如果Csd(C,τ).ub<UB,UB更新为Csd(C,τ).ub。
5.如权利要求1所述的算法,其特征在于,步骤4中所述搜索结束,空间密度上限小于LB的轨迹从Tf中删除,Tf是所有被完全覆盖的轨迹的集合。
6.如权利要求5所述的算法,其特征在于,步骤5中Tf中的轨迹根据空间密度上限的值排序。
7.如权利要求1所述的算法,其特征在于,步骤6中所述按照轨迹排序进一步细化,具体为:对于轨迹τ∈Tf,假设{p1,p2,...,pi}是最靠近区域中心{c1.m,c2.m,...,ci.m}的顶点,从{p1,p2,...,pi}执行Dijkstra扩展算法来计算pi和区域ci内顶点之间的网络距离,一旦所述细化终止,返回具有最大空间密度相关性的轨迹;其中Tr是已经被细化的轨迹集合,Tu是未被细化的轨迹集合,Tr∪Tu=Tf,τ’是Tu中的一条轨迹。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710659372.9A CN107526788A (zh) | 2017-08-04 | 2017-08-04 | 基于兴趣区域的轨迹查询的匀速搜索算法 |
PCT/CN2017/113478 WO2019024348A1 (zh) | 2017-08-04 | 2017-11-29 | 基于兴趣区域的轨迹查询的匀速搜索算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710659372.9A CN107526788A (zh) | 2017-08-04 | 2017-08-04 | 基于兴趣区域的轨迹查询的匀速搜索算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107526788A true CN107526788A (zh) | 2017-12-29 |
Family
ID=60680650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710659372.9A Pending CN107526788A (zh) | 2017-08-04 | 2017-08-04 | 基于兴趣区域的轨迹查询的匀速搜索算法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107526788A (zh) |
WO (1) | WO2019024348A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487865B (zh) * | 2021-07-02 | 2022-07-22 | 江西锦路科技开发有限公司 | 一种高速公路行驶车辆信息采集系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447097A (zh) * | 2016-09-20 | 2017-02-22 | 北京工业大学 | 一种受限最长频繁路径的查询方法 |
CN106780262A (zh) * | 2017-01-13 | 2017-05-31 | 中国科学院遥感与数字地球研究所 | 一种考虑城市道路网络约束的同位模式发现方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650486A (zh) * | 2016-09-28 | 2017-05-10 | 河北经贸大学 | 路网环境中的轨迹隐私保护方法 |
-
2017
- 2017-08-04 CN CN201710659372.9A patent/CN107526788A/zh active Pending
- 2017-11-29 WO PCT/CN2017/113478 patent/WO2019024348A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447097A (zh) * | 2016-09-20 | 2017-02-22 | 北京工业大学 | 一种受限最长频繁路径的查询方法 |
CN106780262A (zh) * | 2017-01-13 | 2017-05-31 | 中国科学院遥感与数字地球研究所 | 一种考虑城市道路网络约束的同位模式发现方法及装置 |
Non-Patent Citations (1)
Title |
---|
SHUO SHANG ET AL: "Searching Trajectories by Regions of Interest", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
Also Published As
Publication number | Publication date |
---|---|
WO2019024348A1 (zh) | 2019-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shang et al. | Searching trajectories by regions of interest | |
Shang et al. | Parallel trajectory similarity joins in spatial networks | |
Shang et al. | Trajectory similarity join in spatial networks | |
Shang et al. | Discovery of path nearby clusters in spatial networks | |
Kisilevich et al. | P-DBSCAN: A density based clustering algorithm for exploration and analysis of attractive areas using collections of geo-tagged photos | |
Shang et al. | User oriented trajectory search for trip recommendation | |
Shang et al. | Personalized trajectory matching in spatial networks | |
Luo et al. | Finding time period-based most frequent path in big trajectory data | |
Deng et al. | Multi-source skyline query processing in road networks | |
Cho et al. | An efficient and scalable approach to CNN queries in a road network | |
CN107167136B (zh) | 一种面向电子地图的位置推荐方法及系统 | |
Huang et al. | Continuous distance-based skyline queries in road networks | |
Anwar et al. | Capturing the spatiotemporal evolution in road traffic networks | |
CN112579921B (zh) | 基于倒排序索引及前缀树的轨迹索引和查询方法及系统 | |
Zhao et al. | Path $ k\hbox {NN} $ Query Processing in Mobile Systems | |
Huang et al. | Frequent pattern-based map-matching on low sampling rate trajectories | |
Qi et al. | Efficient point-based trajectory search | |
Ghosh et al. | Traj-cloud: a trajectory cloud for enabling efficient mobility services | |
Huang et al. | Dynamic graph mining for multi-weight multi-destination route planning with deadlines constraints | |
Yang et al. | Recommending profitable taxi travel routes based on big taxi trajectories data | |
Dai et al. | Context-based moving object trajectory uncertainty reduction and ranking in road network | |
Dai et al. | PARP: A parallel traffic condition driven route planning model on dynamic road networks | |
CN107526788A (zh) | 基于兴趣区域的轨迹查询的匀速搜索算法 | |
Xu et al. | Continuous k nearest neighbor queries over large multi-attribute trajectories: a systematic approach | |
Sun et al. | Discovering expert drivers from trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171229 |