CN104376112B - 一种路网上空间关键字检索的方法 - Google Patents
一种路网上空间关键字检索的方法 Download PDFInfo
- Publication number
- CN104376112B CN104376112B CN201410708031.2A CN201410708031A CN104376112B CN 104376112 B CN104376112 B CN 104376112B CN 201410708031 A CN201410708031 A CN 201410708031A CN 104376112 B CN104376112 B CN 104376112B
- Authority
- CN
- China
- Prior art keywords
- text
- index
- node
- tree
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明设计了并实现了路网上的高效空间关键字检索的方法,共提出三个方法,SNE,FITG和SG‑TRee,其中SG‑Tree的方法性能最好,是本次发明的主要方法。具体如下,SNE方法通过对路网上的每条边建立对应的签名,利用Dijkstra算法,通过网络扩展的方式遍历网络,效率较低。FITG方法结合了新颖的空间索引和文本倒排索引,根据先文本后空间的剪枝原则串行执行查询过程,效率提升很大。但是依然有不足之处,因此,我们又利用了空间索引和文本索引签名技术,提出了一个混合的索引SG‑Tree,该索引通过对空间索引G‑Tree的每个结点都建立的相应的签名,这应可以高效的检查该结点是否包含符合查询的目标,可以同时从空间和文本两个维度进行剪枝,极大的提高了查询效率。
Description
技术领域
本发明属于空间文本索引领域,具体涉及一种利用空间索引树实现路网上的高效的空间关键字检索的方法。
背景技术
随着空间定位技术的飞速发展,移动设备(e.g,smartphones)在我们的日常生活中越来越普及,基于位置的服务也随之快速发展,其与人类的生活也越来越紧密。在日常生活中,每天通过移动设备会产生大量的带有地理位置标签的文本数据。例如,在基于位置搜索服务中(e.g,Google Maps,Yahoo!Maps etc)提供了一些目标位置信息并且带有简短的文本描述,人们可以通过这些应用程序发布带有地理位置的文本信息,其中涉及到空间关键字查询的技术。
当前的空间关键字查询大多是在欧氏距离空间的基础上,然而,对于这些巨大的空间文本数据库,一个关键的挑战在于如何建立有效的查询处理机制能实时响应用户的查询需求。以往的查询方法大都是在欧氏距离空间下。在现实生活中,人们的日常行为受到路网的约束,目标之间的欧氏距离不同于路网中的实际距离,在路网上的两个位置之间的网络距离可能比他们之间的欧氏距离大的多。比如,位于河流两岸的两个目标之间的欧氏距离远远小于它们之间的实际网络距离,这就导致在欧氏空间下得到的结果在实际中可能并不相近,因此,我们需要新的查询处理方法,能快速找到路网上距离最近且符合文本描述的目标,如图1所示。
以往的空间关键字的研究主要是集中在欧式空间下,并不能直接应用与路网上。而传统的路网上的空间关键字查询方法是通过网络扩展的方式,时间和空间复杂度较高。近年来,有部分工作研究路网上的空间关键字查询,虽然也取得了一些成果,但是这些技术并不能高效的实现路网上空间关键字查询技术,效率低下。例如,在论文Top k SpatialKeyword Queries On Road Networks中,作者第一次提出路网上的空间关键字查询,论文中提出一种层次结构的空间索引,并对路网建立一个空间层次树,利用层的优势实现高效剪枝。但是,该方法和其他方法都存在一个共同的缺点,即都不适合复杂或者路网数据非常的大的情况。它们的扩展性较差,时间空间复杂度较高。
鉴于上述原因,本发明利用一种新颖的空间索引结构GTree,结合相应的文本索引技术,提出一种高效的索引结构实现路网上的空间关键字检索。
发明内容
本发明提出路网上空间关键字检索的方法,其中SG-Tree和FITG方法是本次发明的主要方法,性能比较好,而SNE则效率较为低下,其中SNE方法,对路网上的每条边都建立对应的签名,并通过Dijkstra算法扩展遍历网络。
优选的,本方法利用CCAM结构存储路网以及顶点信息,并且为每条边按照空间文本信息建立对应的签名,方便查询的过程的检测该边上是否包含查询关键字。
本发明还提供一种路网上空间关键字检索的方法FITG,该方法将空间索引和文本倒排索引结合,并根据先文本剪枝,后空间剪枝的原则串行执行查询过程。
优选的,将在空间和文本索引分离开,以两个独立的索引相结合串联执行,在文本上展开剪枝能力。
本发明还提供一种路网上空间关键字检索的方法SG-Tree,该方法对空间索引中的每个节点建立各自的签名,在查询过程中,判断树上的节点签名是否匹配查询签名,若不匹配,则剪掉对应的根节点及其子节点。
优选的,对空间索引中的每个节点,都建立一个距离矩阵以存储边界点之间的最短距离,从而计算两端之间的最短路径,筛选出候选集后,对每个候选集建立当前列表。
优选的,本方法采用距离优先算法,将候选集的都按照距离查询位置的远近的顺序进行排序,优先计算距离查询位置较近的目标,其中,所述方法利用文本和空间两个维度同时进行剪枝。
本发明提出检索方法中,SG-Tree方法效率最高,是本发明的主要方法,该方法将空间索引和文本索引结合,提出了非常优秀的索引结构,能够同时实现空间和文本上的剪枝,极大的提升了查询效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中路网的空间文本对象示意图;
图2是本发明较佳实施例提供的SG-Tree的模型图。
具体实施方式
为更好的理解本发明,下面首先对相应术语进行说明。
一、路网
此处使用一个权重图G表示路网(即road network)。G=(V,E,W),其中V表示roadnetwork中的所有顶点的集合,E表示所有的边的集合,W是G中所有边的权重的集合,即顶点对之间的距离。如υ∈V则说明υ是G中的road network中边的交集或者终点。而(υ,ν)∈E则表示(υ,ν)是路网中的某一路段,而对应的wυ,v则表示边(υ,ν)对应的权重,即边上的距离。其中,||υ,ν||表示边(υ,ν)上的最短距离即||υ,ν||=wυ,v,而查询q到目标o之间的最短距离为||q,o||=min(||q,υ||+||o,υ||,||q,ν||+||o,ν||)。
二、图分割
给定一个图G=(V,E),其中V是顶点的集合,E是边的集合,如果现在存在一个集合G={g1,g2....gf},其中gf=(Vf,Ef),满足如下条件,则称gf为G的一个子图:
(1).U1≤i≤fυi=V
(2).fori≠j,
(3)if(υ,ν)∈E,then(υ,ν)∈Ei
三、边界点
对于原始图G的一个子图gi,如果存在一个顶点υ∈Vi,假如存在边(υ,ν)∈E并且则说明υ是一个边界点。通常用一个集合B(gi)来表示该子图gi的边界点集合。因为在原始图中,有些顶点之间原来是连通的,但是经过图分割之后,被分散在不同的子图当中,这样原来某些存在原图当中的边则不存在了,但是如果需要计算两个子图之间的距离,则两个子图的边界点之间的最短距离即为两个子图的最短距离。
四、空间文本对象
通常用2维平面中的一个带有坐标的点,并且含有一个用来描述它的关键字集合来表示一个空间文本对象。例如o={loc,term},其中loc表示位置,loc.lat和loc.long分别表示经纬度坐标,term表示一个描述该文本的关键字的集合term={t1,t2....tf},简单的来说,每个目标都落在图G相应的边上(路段)。
五、空间关键字查询
根据上述空间文本对象定义,使用D来表示数据库中的所有空间文本为:
空间关键字查询在二维空间上找到k个距离查询的查询位置最近的对象,根据它们与查询之间的相关性得分score(q,o)进行排名,利用公式score(q,o)=φspatial(q,o)+φtext(q,o)进行计算。其中φtext(q,o)是文本相关性得分,此处φtext(q,o)=1,由于object要求包含查询的所有关键字,φspatial(q,o)为文本的空间相关性得分。最后返回结果集,结果集满足条件:
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明较佳实施例提供一种路网上空间关键字检索的方法,包括:对路网上的每条边都建立对应的签名,并通过Dijkstra算法扩展遍历网络。
具体而言,在路网上做空间关键字查询的基本方法是利用网络扩展的方式。此处基于网络扩展的思想给出一个基本的方法Signature based Network Expansion,即SNE方法。其中对路网上的每条边都建立对应的签名(Signature),提高文本剪枝效率。于此,所述SNE方法是通过Dijkstra算法扩展遍历网络。
在SNE索引结构中,本发明采用了非常流行的connectivity-clustered accessmethod(即CCAM)数据结构来存储路网G以及顶点信息,并且为每条边按照空间文本信息建立对应的签名,方便查询的过程的检测该边上是否包含查询关键字。同时,为路网上的每个结点都建立领结链表,并对每个顶点进行编码后,将所有顶点按其编码大小进行排序。于此,使用Z-ordering对顶点进行编码。同时,使用了two-way-patition方法,这样做的优势是可以实现局部访问,降低了I/O消耗。
另外,本实施例还建立Network R-tree用于存储节点,以及相应的边上polyline。实际上,只有polyline的MBR被存储在NetworkR-tree上,其详细的信息被存储在ployline文件中。于此,为了避免大量无关的对象被加载进来,很多无用的边可能在遍历的过程中大量浪费时间,因此采用Signature的技术组织对象。使用I(e,term)来表示每条边的签名,假如I(e,term)=1则说明边e上至少存在一个对象包含关键字term,否则不存在。这样在进行网络扩展的时候,至少包含一个关键字的对象才会被加载进来,大大减少了计算时间,提高查询效率。
下面是SNE算法示例。
本发明较佳实施例还提供一种路网上空间关键字检索的方法,包括:将空间索引和文本倒排索引结合,并根据先文本剪枝,后空间剪枝的原则串行执行查询过程。
具体而言,本实施例是利用一种新颖的空间索引树GTree,结合传统的文本倒排索引,利用两个分割索引结合提出一个First Inverted file Then Gtree,简称为FIFG。
FITG由空间索引GTree和文本倒排索引结合而成。GTree索引是由zhong提出来针对路网上查询的一种高效新颖的空间索引结构。GTree集成了RTree中的两个突出的特征:GTree是一个颗高度平衡树,每节点的孩子节点数目都是相同的,通常使用递归的方式不停的分割网络,GTree的每一个节点则代表相应的子网络.这样做的好处是有利剪枝能力的提升;使用best-first search方法,这样做非常有效的进行最短距离的计算。
GTree应该满足以下条件:1、树中的每个顶点都应该代表着一个子网络,每个父亲节点的子网络应该是它孩子顶点对应的子网络的交集;2、每个非叶子节点至少有f(f>2)个孩子,且每个非叶子节点都拥有f个孩子;3、每个叶子顶点包含相应数量的顶点;4、每个顶点包含一个边界点集合和一个相应的距离矩阵,其中距离矩阵又分为非叶子节点和叶子节点。在非叶子节点的距离矩阵中,矩阵的行和列都是边界点的ID,而其中的值则是对应边界点之间的最短路径长度.在叶子节点距离矩阵中其中的行是所有边界点的ID,而列则是包含在该叶子节点内的所有顶点,对应值则是两点之间的最短距离。
其中,条件1、2和3是保证这棵树是一个高度平衡树。如图2所示,但在树中每个节点并不是简单的存储物理子图,而是子图的ID。条件4是为了有效的计算两点之间的最短路径。对空间索引中的每个节点,都建立一个距离矩阵以存储边界点之间的最短距离,从而可以高效地计算两端之间的最短路径。
除此之外,在筛选出来候选集之后,需对每个候选集建立当前列表,这样在查找目标的层次关系时候非常有效。
下面是GTree的算法示例。
本发明较佳实施例还提供一种路网上空间关键字检索的方法,包括:对空间索引中的每个节点建立各自的签名,在查询过程中,判断树上的节点签名是否匹配查询签名,若不匹配,则剪掉对应的根节点及其子节点。
如前所述,FITG方法比SNE方法在效率上有很大的提升,它不但在文本上提高了剪枝能力,而且网络距离计算上提高了速度,节省了大量的时间。但是,如果关键字数量过多,或者某个关键字列表过长,都会消耗大量的时间进行每个结果集的合并,找到包含所有关键字的空间对象,需要花费很长的合并时间,而且该算法是先文本在空间的串行执行查询过程,有大量候选集需要进行距离计算。因此,在GTree上,本发明结合了另外一种文本索引Signature,提出了一种文本和空间同时剪枝的混合索引方法Signature based GTreeIndex简称SG-Tree。
在SG-Tree中,本算法采用距离优先算法,将候选集的都按照距离查询位置的远近的顺序进行排序,优先计算距离查询位置较近的目标。
在遍历GTree上的所有节点的时候,采用Incremental Nearest Neigboralgorithm(INN),该算法的优点在于具有超强的剪枝能力。在优先队列Q中,将按与查询位置距离的远近进行排序,距离近的目标优先计算。另外,利用Signature技术,利用GTree的层次结构,在文本上可以很高的增强剪枝能力。假如某个根节点的Signature与查询的不匹配,则整个子树都会被剪枝,具有这样效果的原因是因为所有根节点的Signature都是由它的孩子节点的Signature组合而成。
下面是S-GTree算法示例。
因此,利用distance-first和Signature,可以利用文本和空间两个维度同时进行剪枝,大大的提升的剪枝能力。在GTree的每个叶子节点,我们使用B+树来维护文本信息,我们将同一个叶子节点的所有文本存储在同一个页面上,这样大大降低了I/O cost。
综上所述,通过本发明较佳实施例提供的路网上空间关键字检索的方法,将空间索引和文本倒排索引结合,利用两个分割索引结合,并按照先文本剪枝,后空间剪枝的原则串行执行查询过程,极大的提升了剪枝能力。同时,在此基础上,对空间索引中的每个节点建立各自的签名,并利用文本和空间两个维度进行剪枝。如此,大大减少了计算时间,极大地提高了查询效率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (2)
1.一种路网上空间关键字检索的方法,其特征在于,包括:对空间索引中的每个节点建立各自的签名,在查询过程中,判断树上的节点签名是否匹配查询签名,若不匹配,则剪掉对应的根节点及其子节点,所述方法采用距离优先算法,将候选集的都按照距离查询位置的远近的顺序进行排序,优先计算距离查询位置较近的目标,利用文本和空间两个维度同时进行剪枝。
2.根据权利要求1所述的方法,其特征在于,对空间索引中的每个节点,都建立一个距离矩阵以存储边界点之间的最短距离,从而计算两端之间的最短路径,筛选出候选集后,对每个候选集建立当前列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410708031.2A CN104376112B (zh) | 2014-11-27 | 2014-11-27 | 一种路网上空间关键字检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410708031.2A CN104376112B (zh) | 2014-11-27 | 2014-11-27 | 一种路网上空间关键字检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376112A CN104376112A (zh) | 2015-02-25 |
CN104376112B true CN104376112B (zh) | 2018-09-14 |
Family
ID=52555019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410708031.2A Active CN104376112B (zh) | 2014-11-27 | 2014-11-27 | 一种路网上空间关键字检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376112B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404675A (zh) * | 2015-11-20 | 2016-03-16 | 苏州大学 | Ranked反近邻空间关键字查询方法及装置 |
CN106570062B (zh) * | 2016-10-08 | 2021-01-05 | 中国人民解放军理工大学 | 一种路网轨迹不确定移动对象范围查询系统及方法 |
CN106874339B (zh) * | 2016-12-20 | 2020-12-08 | 北京华宇信息技术有限公司 | 一种有向循环图的展示方法及其应用 |
CN108628969B (zh) * | 2018-04-24 | 2022-05-06 | 咪咕文化科技有限公司 | 一种空间关键字索引方法及平台、存储介质 |
CN108776667B (zh) * | 2018-05-04 | 2022-10-21 | 昆明理工大学 | 一种基于geohash与B-Tree的空间关键词查询方法及装置 |
CN108733803B (zh) * | 2018-05-18 | 2022-04-29 | 电子科技大学 | 一种道路网络下多用户空间关键词查询方法 |
CN110046216A (zh) * | 2019-04-24 | 2019-07-23 | 上海交通大学 | 应用于电子地图的空间关键字查询的近似搜索方法 |
CN111353012B (zh) * | 2020-03-09 | 2023-10-17 | 咪咕文化科技有限公司 | 空间文本数据缓存处理方法、装置、电子设备及存储介质 |
CN112507689B (zh) * | 2021-01-20 | 2023-08-01 | 中国地质大学(武汉) | 分布式订阅发布模式下的空间范围-关键字查询方法 |
CN113158087B (zh) * | 2021-04-09 | 2024-07-09 | 深圳前海微众银行股份有限公司 | 一种空间文本的查询方法及装置 |
CN114064995B (zh) * | 2021-11-18 | 2024-05-28 | 大连海事大学 | 一种路网环境下基于位置的静态skyline查询方法 |
CN114896480B (zh) * | 2022-04-06 | 2024-09-24 | 华南理工大学 | 基于路网索引的Top-K空间关键字查询方法 |
CN114791942B (zh) * | 2022-06-21 | 2022-09-20 | 广东省智能机器人研究院 | 一种空间文本密度聚类检索方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867058A (zh) * | 2012-09-18 | 2013-01-09 | 复旦大学 | 一种无线数据广播环境下的空间关键字检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023989B (zh) * | 2009-09-23 | 2012-10-10 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及其系统 |
-
2014
- 2014-11-27 CN CN201410708031.2A patent/CN104376112B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867058A (zh) * | 2012-09-18 | 2013-01-09 | 复旦大学 | 一种无线数据广播环境下的空间关键字检索方法 |
Non-Patent Citations (1)
Title |
---|
Approximate String Search in Spatial Databases;Bin Yao等;《2010 IEEE 26th International Conference Data Engineering》;20101231;论文第1-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104376112A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104376112B (zh) | 一种路网上空间关键字检索的方法 | |
Rocha-Junior et al. | Top-k spatial keyword queries on road networks | |
Zhang et al. | Processing spatial keyword query as a top-k aggregation query | |
Ashokkumar et al. | Intelligent optimal route recommendation among heterogeneous objects with keywords | |
CN102609530A (zh) | 一种分区域双树结构的空间数据库索引方法 | |
CN104346444B (zh) | 一种基于路网反空间关键字查询的最佳选址方法 | |
Wu et al. | Social-aware top-k spatial keyword search | |
Luo et al. | Efficient reverse spatial and textual k nearest neighbor queries on road networks | |
CN111813778A (zh) | 一种面向大规模路网数据的近似关键字存储和查询方法 | |
Han et al. | Spatial keyword range search on trajectories | |
Cao et al. | Social space keyword query based on semantic trajectory | |
Chuang et al. | Effective web crawling for chinese addresses and associated information | |
CN106372127B (zh) | 基于Spark的大规模图数据的多样性图排序方法 | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
JP4440246B2 (ja) | 空間インデックス方法 | |
Lu et al. | On computing farthest dominated locations | |
Cai et al. | Continuous road network-based skyline query for moving objects | |
Zhang et al. | Density-based spatial keyword querying | |
Aung et al. | Hybrid geo-textual index structure for spatial range keyword search | |
CN114896480A (zh) | 基于路网索引的Top-K空间关键字查询方法 | |
Kong et al. | Trajectory query based on trajectory segments with activities | |
Aung et al. | Index structure for nearest neighbors search with required keywords on spatial database | |
Zhang et al. | Density based collective spatial keyword query | |
Han et al. | Efficiently retrieving top-k trajectories by locations via traveling time | |
CN108628950A (zh) | 一种基于文本-域倒排的空间文本查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201218 Address after: Room 509, 5 / F, golden house building, 280 Dongping street, Suzhou Industrial Park, Suzhou, Jiangsu Province Patentee after: Shenxing Taibao Intelligent Technology (Suzhou) Co.,Ltd. Address before: 215123 No. 199 benevolence Road, Suzhou Industrial Park, Jiangsu, China Patentee before: Suzhou University |
|
TR01 | Transfer of patent right |