CN114064995B - 一种路网环境下基于位置的静态skyline查询方法 - Google Patents
一种路网环境下基于位置的静态skyline查询方法 Download PDFInfo
- Publication number
- CN114064995B CN114064995B CN202111370495.3A CN202111370495A CN114064995B CN 114064995 B CN114064995 B CN 114064995B CN 202111370495 A CN202111370495 A CN 202111370495A CN 114064995 B CN114064995 B CN 114064995B
- Authority
- CN
- China
- Prior art keywords
- target
- distance
- road network
- tuples
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003068 static effect Effects 0.000 title claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 244000068988 Glycine max Species 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种路网环境下基于位置的静态skyline查询方法,包括三个阶段:数据预处理阶段,用于分别建立管理数据元组的倒排索引以及管理道路网络的GD‑tree索引;距离计算阶段,用于根据GD‑tree索引计算出查询位置距离数据元组的最短路网距离;扫描阶段,用于计算最优扫描结束点,运用扫描策略过滤掉冗余元组得到最优扫描结束点,合并各个维度上的skyline结果集来找到最终的skyline点。本发明使用两种索引技术,用来管理路网数据,利用GD‑tree索引,对目标元组进行快速的定位查找,并计算出两个元组间的最短路径距离。其次,借助管理路网目标元组的倒排索引,通过找到最优扫描结束点的方式,可以快速的过滤掉冗余目标元组,减小距离计算的开销。
Description
技术领域
本发明涉及数据查询处理领域,尤其涉及一种路网环境下基于位置的静态skyline查询方法。
背景技术
随着地理信息定位技术的发展,用户的生活中开始广泛应用位置的服务(Location-based Services LBS),LBS系统的主要目标是获取用户的位置,并向使用者提供即时的信息以便用户做出决策。LBS在诸如车辆导航,医疗保障,用户购物方面都有着重要的应用价值。然而,传统的LBS只是专注于路网距离一个维度,例如,传统的LBS只能查找距离用户最近的酒店而无法查找到距离用户距离近且价格低的酒店。而随着数据采集技术以及数据库技术的不断发展,skyline查询作为一种数据查询的手段越来越受到了许多人的关注。其不仅可以从大量数据中发掘出真正有意义有价值的信息,还可以帮助人们在市场决策领域提供支持。
因此,路网环境下基于位置的skyline查询成为了LBS研究的热点。在道路网络上进行skyline查询可以根据用户的查询请求进行信息过滤,从而找出既能满足用户要求,又能保证在用户规定的时效内到达的查询结果。因此,研究如何在路网大数据下基于位置的skyline查询是LBS研究的热点之一。
目前在基于位置的道路网的skyline查询中,由于道路网的复杂性,现有的算法存在的主要问题是距离计算开销大,造成算法的查询效率较低,时间代价大。因此,一种能够有效减小距离计算开销的skyline查询处理的方法的提出有着重要意义。
发明内容
本发明提供一种路网环境下基于位置的静态skyline查询方法,以克服上述技术问题。
一种路网环境下基于位置的静态skyline查询方法,其特征在于,包括三个阶段:
(1)数据预处理阶段,用于根据给定的数据集P,建立管理数据集的倒排索引,基于数据集的非空间维度的属性建立倒排索引,根据给定的道路网络数据集G,建立管理道路网络数据集的Grid Distance Tree索引,简称GD-tree索引,所述GD-tree索引用于计算道路网络上任意位置之间的最短距离;
(2)距离计算阶段,用于根据GD-tree索引计算出查询位置q距离数据集P中数据元组p的最短路网距离;
(3)扫描阶段,用于根据倒排索引和GD-tree索引计算数据集P中目标元组的计算代价,将计算代价最低的目标元组作为最优扫描结束点,根据最优扫描结束点,对倒排索引的各个维度进行扫描,得到最优扫描结束点之前的目标元组集合a,对道路网络G从查询位置q开始由近到远进行广度遍历,得到最优扫描结束点之前的目标元组集合b,合并目标元组集合a和目标元组集合b得到skyline点集合,包括四个步骤,
1a 根据倒排索引建立所有非空间维度的频率统计直方图,分别统计数据集P中非空间维度上目标元组取值优于数据元组p的个数;
1b 根据GD-tree索引计算道路网络数据集G到查询位置q的最远距离和最近距离,计算数据集P中目标元组与查询位置q之间的距离,对于数据集P中的所有目标元组,分别统计目标元组与查询位置q的距离之内的目标元组的数量;
1c 根据步骤1a和步骤1b计算数据集P中所有目标元组在所有维度上的计算代价,将计算代价最低的目标元组作为当前扫描结束点;
1d 计算当前扫描结束点在不同维度上的计算代价,将计算代价最低的维度作为扫描维度,根据扫描维度对倒排索引开始扫描,计算扫描到的目标元组在所有维度上的计算代价,与当前扫描结束点的计算代价进行比较,若目标元组的计算代价小于当前扫描结束点的计算代价,则将目标元组作为当前扫描结束点,重复执行步骤1d,当扫描到的目标元组为当前扫描结束点时,将当前扫描结束点作为最优扫描结束点,进入1e;
1e 根据最优扫描结束点,对倒排索引的各个维度进行遍历,获取各个维度上优于最优扫描结束点的目标元组集合a,对道路网络G从查询位置q开始由近到远进行广度遍历,得到最优扫描结束点之前的目标元组集合b,合并目标元组集合a和目标元组集合b,得到skyline点集合。
优选地,所述建立管理道路网络数据集的Grid Distance Tree索引,包括以下步骤:
2a,将道路网络递归地划分为子网络,并在子网络的顶部构造树结构索引,其中每个GD-tree节点都对应一个子网络;
2b,每个非叶节点存储该子网络内的边界点集合,每个非叶节点都有f个子节点,其中f≥2;
2c,每个叶子节点最多包含τ个顶点,其中τ≥1,每个叶子节点存储一个距离排序表,距离排序表内包含该叶子节点内的所有目标元组,所述目标元组在距离排序表中的顺序是按其到每个边界点的距离的升序排列。
优选地,所述将道路网络递归地划分为子网络是指利用多级分区算法将道路网络G划分为f个子网络,在划分过程中,将每个非叶子网络划分为f个子网络,若划分后的子网络G’内包含的顶点数目n>τ,则继续进行划分,重复此过程,直到划分后的子网络内顶点数目小于τ,划分过程结束。
优选地,所述步骤1a包括以下过程,
步骤一、根据倒排索引建立频率统计直方图,将每个非空间维度根据取值范围划分间隔,计算间隔的密度,计算公式为(1),
其中,r表示间隔,r.max表示间隔的上界,r.min表示间隔的下界,r.num表示r中的目标元组个数,每一个间隔中的目标元组个数均匀分布,
步骤二、给定数据元组p,根据频率统计直方图,估计在非空间维度di上的值优于p的目标元组个数p.dif[di],具体的,当p属于间隔rn时,p.dif[di]由公式2得到,
其中,p.dif[di]表示在非空间维度di上的值优于p的目标元组个数,rj.tot alnum表示频率统计直方图上的间隔rj中的全部元组数目,ρ(rn)表示频率统计直方图上的间隔rn的密度,rn.min表示间隔rn中的最小值,unit指的是r中数值的差值间。
优选地,所述步骤1b包括以下过程,估计在距离维度上的值优于p的目标元组个数p.dif[dspatial],p.dif[dspatial]由公式(3)得到,
其中,|P|为数据集中元组的个数,P.max代表路网上与q的距离最远的目标元组的取值,P.min代表路网上与q的距离最近的目标元组的取值,P.max为近似值,其由公式(4)得到,
P.max=distance(b,b’)+distance(b’,p’) (4)
其中,b为与查询位置q在同一子图内的距离最近的边界点,b’为通过GD-tree索引的距离矩阵找到与b距离最远的边界点,p’为在b’的距离排序表内找到距离b’最远的目标元组。
优选地,所述根据步骤1a和步骤1b计算数据集P中所有目标元组在所有维度上的计算代价是根据公式(5)进行计算,其中,Penalty(p)表示目标元组的计算代价,α和β分别代表处理一个非空间维度上的目标元组和空间维度上的目标元组成本的权重,二者都是属于区间[0,1]中的非负实数,且满足α+β=1;pi.dif[dspatial]代表pi在距离维度上的取值,pi.dif[di]代表pi在维度di上的取值。
本发明提供一种路网环境下基于位置的静态skyline查询方法,使用两种索引技术,用来管理路网数据,利用GD-tree索引,对目标元组进行快速的定位查找,并计算出两个元组间的最短路径距离。其次,借助管理路网目标元组的倒排索引,通过找到最优扫描结束点的方式,可以快速的过滤掉冗余目标元组,减小距离计算的开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法流程图;
图2是本发明方法示例图;
图3是本发明倒排索引示例图;
图4是本发明GD-tree索引示例图;
图5是本发明最短距离计算示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明方法流程图,如图1所示,本实施例的方法可以包括:
考虑到现今城市交通网络日益复杂,路网数据体庞大的问题。本发明设计了一种路网环境下基于位置的静态skyline查询方法。方法首先提出了两种索引技术,用来管理路网数据。利用Grid Distance Tree索引,简称GD-tree索引,可以对目标元组进行快速的定位查找,迅速找到目标元组的存储位置,并计算出两个元组间的最短路径距离。其次,借助管理路网目标元组的倒排索引,通过找到最优扫描结束点的方式,可以快速的过滤掉冗余目标元组,减小距离计算的开销。
本发明所描述的路网环境下基于位置的skyline查询处理任务被描述为:
给定道路网络G,G为无向加权图,G=(V,E,W),其中V是道路顶点集合,E是道路边集合,W表示边长的集合。
给定位于G上的数据集P,对于每个数据点p∈P,每个数据点由多个非空间维度和一个空间维度组成,其中P的非空间属性集合为Dcont={d1,d2,....,dm},数据点可以表示为p=<p[d1],p[d2],...p[dm]>,其中p[di]表示p在维度di上的值。P的空间属性表示为dspatial,任意数据点p的空间属性值是p的地理位置坐标,用一个三元组<vi,vj,distance>表示,其中vi和vj表示p的路网中所在边的两端顶点,distance表示p到道路顶点vi的距离。dis(p,q)表示数据点p和q的路网上的最短距离。
给定数据集P以及查询位置q,快速的计算出P中所有不被支配的数据元组集合。本发明方法示例图如图2所示,整个过程大致分为以下三个阶段:
(1)数据预处理阶段,用于根据给定的数据集P,建立管理数据集的倒排索引,基于数据集的非空间维度的属性建立倒排索引,根据给定的道路网络数据集G,建立管理道路网络数据集的Grid Distance Tree索引,简称GD-tree索引,所述GD-tree索引用于计算道路网络上任意位置之间的最短距离;
(2)距离计算阶段,用于根据GD-tree索引计算出查询位置q距离数据集P中数据元组p的最短路网距离;
(3)扫描阶段,用于根据倒排索引和GD-tree索引计算数据集P中目标元组的计算代价,将计算代价最低的目标元组作为最优扫描结束点,根据最优扫描结束点,对倒排索引的各个维度进行扫描,得到最优扫描结束点之前的目标元组集合a,对道路网络G从查询位置q开始由近到远进行广度遍历,得到最优扫描结束点之前的目标元组集合b,合并目标元组集合a和目标元组集合b得到skyline点集合。
进一步,所述步骤(1)具体采用如下步骤:
(1-1)管理数据元组的倒排索引:对于路网上的数据点,采用倒排索引结构进行管理,在建立倒排索引时,只针对将非空间维度的属性映射到倒排索引中,对于距离维度,我们在使用到时才进行计算。具体的,针对非空间属性每一个维度,都对其中的数据进行排序,倒排索引示例图如图3所示,距离维度初始时为空。
(1-2)GD-tree索引:GD-tree可以快速的返回路网上任意目标元组到查询位置的最短距离。GD-tree是将道路网递归地划分为子网络,并在子网络的顶部构造树结构索引,其中每个GD-tree节点都对应一个子网络。每个非叶节点存储着该子图内的边界点集合,每个叶子节点存储一个距离排序表,距离排序表内包含着该叶子节点内的所有目标元组。这些目标元组在距离排序表中的顺序是按其到每个边界点的距离的升序排列的。GD-tree的每个节点代表一个子图。其中根节点对应于图G,其孩子节点对应于图G的子图。每个非叶节点都有f(≥2)个子节点。每个叶子节点最多包含τ(≥1)顶点。最初,以图G为根。然后,利用现有的一种启发式算法—多级图划分算法,该方法首先对原始图进行粗化,通过对边进行收缩,让“大图”变成“小图”,得到较为“粗糙”的图。然后,使用传统的图划分算法在粗化的图上进行划分,例如Kerni ghan-Lin算法。最后,逐层解除之前匹配的收缩,在不同级别的图上用启发式算法进行优化,实现精化,得到原始图的分区。多级图划分算法可以保证每个子图几乎具有相同的大小,因此GD-tree是一种平衡的搜索树结构。具体过程,其将G划分为f个子图,需要保证,在划分过程中,将每个非叶子图划分为f个子图,划分后的子图的顶点数目尽量均衡。若划分后的子图G’内包含的顶点数目n>τ,则继续进行划分。重复此过程,直到划分后的子图内顶点数目小于τ,划分过程结束。建立好的GD-tree索引示例图如图4所示。
进一步,所述步骤(2)具体采用如下步骤:
(2-1)借助GD-tree索引来计算最短距离:如何借助GD-tree索引计算q到p的最短路网距离,首先通过索引自带的哈希表找到leaf(q),leaf(p)。随后找到leaf(q)内的一个距离排序列表B(b’)。计算出Dijkstra(q,v’),并将其加入到B(b’)中。若leaf(q)==leaf(p),即二者在一个子图内,则利用B(b’)直接计算二者间最短距离。利用“装配”的思想,首先找到leaf(q),leaf(p)的最小公共祖先节点LCA(leaf(q),leaf(p))。随后,利用距离矩阵计算LCA(leaf(q),leaf(p))到leaf(q),leaf(p)的最短距离,最后借助距离排序列表存储的距离直接计算。最短距离计算示例图如图5所示。
进一步,所述步骤(3)具体采用如下步骤:
(3-1)频率统计直方图:对倒排索引建立频率统计直方图,这样做的目的是估计出在非空间维度上优于p的数据元组的数量有多少。对所有非空间维度都建立一个统计直方图,维度di∈Dcont的统计直方图可以用hi表示,借助统计直方图,我们可以将维度di上的数值分为多个间隔,记录每个间隔上的目标元组个数以及间隔的上下界,间隔用符号r表示,间隔的上界用r.max表示,间隔的下界用r.min表示。r中的目标元组个数用r.num表示,每一个间隔中的目标元组个数是均匀分布的,密度公式如公式1所示。
其中,unit指的是r中数值的差值。根据频率统计直方图,当给定目标元组p时,我们可以估计出在非空间维度di上的值优于p的目标元组个数p.dif[di]。具体的,当p属于间隔rn时,p.dif[di]可以由根据公式2得到。
(3-2)统计最近最远距离:利用GD-tree索引,提出来统计最近最远距离的概念,借助统计最近最远距离,可以知道在距离维度上优于p的数据元组的数量。给定目标元组p,对于空间维度上的值优于p的目标元组个数,我们用p.dif[dspatial]表示。由于实际计算p.dif[dspatial]的真实值代价过大,这里借助统计最远最近距离对p.dif[dspatial]求一个估计值。P.max代表路网上与q的距离最远的目标元组的取值,P.min代表路网上与q的距离最近的目标元组的取值。其中,P.min很容易求得,然而在计算P.max时,实际计算的代价较大,这里对P.max求一个近似值,具体做法是用与查询位置q在同一子图内的距离最近的边界点代替查询位置q,随后利用GD-tree中的距离矩阵找到与b距离最远的边界点b’,在b’的距离排序表内找到距离b’最远的目标元组p’。令P.max=distance(b,b’)+distance(b’,p’)。在得到统计最近最远距离后,目标元组pi在空间维度上到查询位置q距离之内的目标元组个数pi.dif[dspatial]由公式3可以得到。
(3-3)计算代价:借助评率统计直方图以及统计最近最远距离,可以知道,一个目标元组作为扫描结束点其过滤的性能。这样一来,可以选取一个过滤性能最佳的目标元组作为扫描结束点。这里用计算代价来衡量一个目标元组的过滤性能。用Penalty(p)表示,Penalty(p)可以由公式4得到。公式4中的参数α和β分别代表处理一个非空间维度上的目标元组和空间维度上的目标元组成本的权重,二者都是属于区间[0,1]中的非负实数,且满足α+β=1。
(3-4)扫描策略:描述算法如何进行扫描。首先确定扫描维度,在进行扫描维度的确定时,利用计算目标元组作为扫描结束点的计算代价来确定扫描维度。首先,pend为当前扫描结束点。计算pend在其余各个维度上还需几个点才能扫描到,扫描空间维度和非空间维度的权重不同,这里选择计算代价最少的维度进行处理。其次是扫描结束点的更新,在进行扫描结束点的更新时,若当前扫描结束点为pj,倒排索引中最新扫描到的空间skyline点为pi。计算pj,pi的计算代价,若Penalty(pj)>Penalty(pi),则将当前扫描结束点更新为pi。这样做的目的是选择已扫描过的空间skyline点中计算代价最小的skyline点作为扫描结束点。
具体过程,给定路网G上的目标元组集合P,以及查询位置q,最终返回路网上的空间skyline点集合R。我们为当前扫描结束点pend维护一个count值,表示pend在不同维度上被扫描过的次数,当pend.count=|Dcont|+1时,表明pend在各个维度上都被扫描过,此时可以结束。若当前扫描到的目标元组为扫描结束点,则pend.count值加1。若扫描到的目标元组不是扫描结束点,则计算当前扫描到的目标元组的计算代价。比较扫描结束点与当前扫描到的目标元组的计算代价,若小于扫描结束点的计算代价,则进行更新,否则,继续扫描。
值得注意的是,针对距离维度,目标元组的扫描顺序是在路网上从查询点q开始,进行广度遍历,按照距离q由近及远的顺序去进行处理。建立堆H用于存储距离维度已处理的信息。初始H={<q,0>},每次取堆首元素处理,若处理的元素是查询点或路网节点,找到与该节点相连的目标元组或路网节点重新加入堆中并按与q的路网距离进行排序。若堆首元素的是目标元组,直接进行skyline点结果判定,把该目标元组加入距离维度,同时距离维度的count值加1。
整体有的有益效果:本发明对路网数据建立有效的索引来管理道路网以及数据元组,借助索引,可以高效的进行道路网距离的计算,减小skyline查询的处理时间,提高用户体验感受。解决了传统基于位置道路网skyline查询中存在的道路网索引计算代价过大,距离计算开销高的问题。借助管理目标元组的倒排索引以及GD-tree索引,以及扫描策略,可以只计算出部分目标元组到查询点的最短距离即可求出最终skyline结果。过滤掉大量冗余目标元组,提升查询效率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种路网环境下基于位置的静态skyline查询方法,其特征在于,包括三个阶段:
(1)数据预处理阶段,用于根据给定的数据集P,建立管理数据集的倒排索引,基于数据集的非空间维度的属性建立倒排索引,根据给定的道路网络数据集G,建立管理道路网络数据集的Grid Distance Tree索引,简称GD-tree索引,所述GD-tree索引用于计算道路网络上任意位置之间的最短距离;
(2)距离计算阶段,用于根据GD-tree索引计算出查询位置q距离数据集P中数据元组p的最短路网距离;
(3)扫描阶段,用于根据倒排索引和GD-tree索引计算数据集P中目标元组的计算代价,将计算代价最低的目标元组作为最优扫描结束点,根据最优扫描结束点,对倒排索引的各个维度进行扫描,得到最优扫描结束点之前的目标元组集合a,对道路网络G从查询位置q开始由近到远进行广度遍历,得到最优扫描结束点之前的目标元组集合b,合并目标元组集合a和目标元组集合b得到skyline点集合,包括四个步骤,
1a根据倒排索引建立所有非空间维度的频率统计直方图,分别统计数据集P中非空间维度上目标元组取值优于数据元组p的个数;
1b根据GD-tree索引计算道路网络数据集G到查询位置q的最远距离和最近距离,计算数据集P中目标元组与查询位置q之间的距离,对于数据集P中的所有目标元组,分别统计目标元组与查询位置q的距离之内的目标元组的数量;
1c根据步骤1a和步骤1b计算数据集P中所有目标元组在所有维度上的计算代价,将计算代价最低的目标元组作为当前扫描结束点;
1d计算当前扫描结束点在不同维度上的计算代价,将计算代价最低的维度作为扫描维度,根据扫描维度对倒排索引开始扫描,计算扫描到的目标元组在所有维度上的计算代价,与当前扫描结束点的计算代价进行比较,若目标元组的计算代价小于当前扫描结束点的计算代价,则将目标元组作为当前扫描结束点,重复执行步骤1d,当扫描到的目标元组为当前扫描结束点时,将当前扫描结束点作为最优扫描结束点,进入1e;
1e根据最优扫描结束点,对倒排索引的各个维度进行遍历,获取各个维度上优于最优扫描结束点的目标元组集合a,对道路网络G从查询位置q开始由近到远进行广度遍历,得到最优扫描结束点之前的目标元组集合b,合并目标元组集合a和目标元组集合b,得到skyline点集合。
2.根据权利要求1所述的一种路网环境下基于位置的静态skyline查询方法,其特征在于,所述建立管理道路网络数据集的Grid Distance Tree索引,包括以下步骤:
2a,将道路网络递归地划分为子网络,并在子网络的顶部构造树结构索引,其中每个GD-tree节点都对应一个子网络;
2b,每个非叶节点存储该子网络内的边界点集合,每个非叶节点都有f个子节点,其中f≥2;
2c,每个叶子节点最多包含τ个顶点,其中τ≥1,每个叶子节点存储一个距离排序表,距离排序表内包含该叶子节点内的所有目标元组,所述目标元组在距离排序表中的顺序是按其到每个边界点的距离的升序排列。
3.根据权利要求2所述的一种路网环境下基于位置的静态skyline查询方法,其特征在于,所述将道路网络递归地划分为子网络是指利用多级分区算法将道路网络G划分为f个子网络,在划分过程中,将每个非叶子网络划分为f个子网络,若划分后的子网络G’内包含的顶点数目n>τ,则继续进行划分,重复此过程,直到划分后的子网络内顶点数目小于τ,划分过程结束。
4.根据权利要求1所述的一种路网环境下基于位置的静态skyline查询方法,其特征在于,所述步骤1a包括以下过程,
步骤一、根据倒排索引建立频率统计直方图,将每个非空间维度根据取值范围划分间隔,计算间隔的密度,计算公式为(1),
其中,r表示间隔,r.max表示间隔的上界,r.min表示间隔的下界,r.num表示r中的目标元组个数,每一个间隔中的目标元组个数均匀分布,
步骤二、给定数据元组p,根据频率统计直方图,估计在非空间维度di上的值优于p的目标元组个数p.dif[di],具体的,当p属于间隔rn时,p.dif[di]由公式2得到,
其中,p.dif[di]表示在非空间维度di上的值优于p的目标元组个数,rj.tot alnum表示频率统计直方图上的间隔rj中的全部元组数目,ρ(rn)表示频率统计直方图上的间隔rn的密度,rn.min表示间隔rn中的最小值,unit指的是r中数值的差值间。
5.根据权利要求1所述的一种路网环境下基于位置的静态skyline查询方法,其特征在于,所述步骤1b包括以下过程,估计在距离维度上的值优于p的目标元组个数p.dif[dspatial],p.dif[dspatial]由公式(3)得到,
其中,|P|为数据集中元组的个数,P.max代表路网上与q的距离最远的目标元组的取值,P.min代表路网上与q的距离最近的目标元组的取值,P.max为近似值,其由公式(4)得到,
P.max=distance(b,b’)+distance(b’,p’) (4)
其中,b为与查询位置q在同一子图内的距离最近的边界点,b’为通过GD-tree索引的距离矩阵找到与b距离最远的边界点,p’为在b’的距离排序表内找到距离b’最远的目标元组。
6.根据权利要求1所述的一种路网环境下基于位置的静态skyline查询方法,其特征在于,所述根据步骤1a和步骤1b计算数据集P中所有目标元组在所有维度上的计算代价是根据公式(5)进行计算,其中,Penalty(p)表示目标元组的计算代价,α和β分别代表处理一个非空间维度上的目标元组和空间维度上的目标元组成本的权重,二者都是属于区间[0,1]中的非负实数,且满足α+β=1;pi.dif[dspatial]代表pi在距离维度上的取值,pi.dif[di]代表pi在维度di上的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370495.3A CN114064995B (zh) | 2021-11-18 | 2021-11-18 | 一种路网环境下基于位置的静态skyline查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370495.3A CN114064995B (zh) | 2021-11-18 | 2021-11-18 | 一种路网环境下基于位置的静态skyline查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114064995A CN114064995A (zh) | 2022-02-18 |
CN114064995B true CN114064995B (zh) | 2024-05-28 |
Family
ID=80277899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111370495.3A Active CN114064995B (zh) | 2021-11-18 | 2021-11-18 | 一种路网环境下基于位置的静态skyline查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064995B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100863228B1 (ko) * | 2007-04-24 | 2008-10-15 | 제주대학교 산학협력단 | 도로 네트워크 데이터베이스를 위한 근사 인덱싱 방법 |
CN103106280A (zh) * | 2013-02-22 | 2013-05-15 | 浙江大学 | 一种道路网络环境下不确定时空轨迹数据的范围查询方法 |
CN104376112A (zh) * | 2014-11-27 | 2015-02-25 | 苏州大学 | 一种路网上空间关键字检索的方法 |
CN106446227A (zh) * | 2016-09-30 | 2017-02-22 | 南京航空航天大学 | 一种结合加权Voronoi图索引的多偏好有序路径Skyline查询处理机制 |
CN108733803A (zh) * | 2018-05-18 | 2018-11-02 | 电子科技大学 | 一种道路网络下多用户空间关键词查询方法 |
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
CN110334252A (zh) * | 2019-07-10 | 2019-10-15 | 大连海事大学 | 一种偏序域上的skyline查询方法 |
-
2021
- 2021-11-18 CN CN202111370495.3A patent/CN114064995B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100863228B1 (ko) * | 2007-04-24 | 2008-10-15 | 제주대학교 산학협력단 | 도로 네트워크 데이터베이스를 위한 근사 인덱싱 방법 |
CN103106280A (zh) * | 2013-02-22 | 2013-05-15 | 浙江大学 | 一种道路网络环境下不确定时空轨迹数据的范围查询方法 |
CN104376112A (zh) * | 2014-11-27 | 2015-02-25 | 苏州大学 | 一种路网上空间关键字检索的方法 |
CN106446227A (zh) * | 2016-09-30 | 2017-02-22 | 南京航空航天大学 | 一种结合加权Voronoi图索引的多偏好有序路径Skyline查询处理机制 |
CN108733803A (zh) * | 2018-05-18 | 2018-11-02 | 电子科技大学 | 一种道路网络下多用户空间关键词查询方法 |
CN109947904A (zh) * | 2019-03-22 | 2019-06-28 | 东北大学 | 一种基于Spark环境的偏好空间Skyline查询处理方法 |
CN110334252A (zh) * | 2019-07-10 | 2019-10-15 | 大连海事大学 | 一种偏序域上的skyline查询方法 |
Non-Patent Citations (1)
Title |
---|
PSP:一种高效的偏序域上skyline查询处理方法;白梅;王京徽;王习特;朱斌;李冠宇;;湖南大学学报(自然科学版);20200825(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114064995A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528773B (zh) | 一种基于Spark平台支持空间数据管理的图计算系统及方法 | |
CN103198151B (zh) | 区域性城市公交车辆运行信息的索引查询系统及方法 | |
US7010308B2 (en) | Managing and querying moving point data | |
US8744770B2 (en) | Path oracles for spatial networks | |
CN108932347B (zh) | 一种分布式环境下基于社会感知的空间关键字查询方法 | |
CN110347680B (zh) | 一种面向云际环境的时空数据索引方法 | |
CN109815232B (zh) | 一种利用二叉查找树的数据排名的检索、数据处理的方法和系统 | |
CN108446357A (zh) | 一种基于二维地理位置的海量数据空间范围查询方法 | |
CN111552694A (zh) | 一种自适应地理空间网格索引方法 | |
CN113468293A (zh) | 基于多关键字覆盖的路网Top-k路径查询方法 | |
CN111221937B (zh) | 一种动态k值聚类构建主题r树方法 | |
CN109241236A (zh) | 海洋地理空间多维时变场数据分布式组织与查询处理方法 | |
CN109885638B (zh) | 一种三维立体空间索引方法及系统 | |
CN114064995B (zh) | 一种路网环境下基于位置的静态skyline查询方法 | |
CN112507047A (zh) | 一种基于兴趣点偏好的最优有序路径查询方法 | |
CN108038118B (zh) | 一种位置优先并维护最小外接矩形的kd树构建方法 | |
Huang et al. | A spatial indexing approach for high performance location based services | |
CN115146020A (zh) | 一种基于最小聚合距离的多源skyline查询方法及系统 | |
CN113849495A (zh) | 一种点云动态哈希划分方法及设备 | |
CN107273464B (zh) | 一种基于发布/订阅模式的分布式度量相似查询处理方法 | |
CN117671392B (zh) | 国土空间数据的网格划分方法、装置、设备及介质 | |
CN114791942B (zh) | 一种空间文本密度聚类检索方法 | |
Feng et al. | Index and query methods in road networks | |
KR101104448B1 (ko) | 무선 방송 시스템에서 Transitive NN 질의 처리 방법 | |
Ren et al. | Adaptive road candidates search algorithm for map matching by clustering road segments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |