CN106446242B - 一种高效的多关键词匹配最优路径查询方法 - Google Patents
一种高效的多关键词匹配最优路径查询方法 Download PDFInfo
- Publication number
- CN106446242B CN106446242B CN201610888748.9A CN201610888748A CN106446242B CN 106446242 B CN106446242 B CN 106446242B CN 201610888748 A CN201610888748 A CN 201610888748A CN 106446242 B CN106446242 B CN 106446242B
- Authority
- CN
- China
- Prior art keywords
- path
- keyword
- vertex
- inquiry
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Abstract
一种高效的多关键词匹配最优路径查询方法,属于移动互联网与地理信息系统应用领域,它是利用关键词序列路径构造方法和完全多项式时间近似策略方法,对搜索空间中可行解个数进行有效界定;将问题求解的规模由阶乘级别转化为多项式级别,减少搜索过程中间结果的枚举量。本发明在融合web文本资源与道路热度信息的路网中,针对用户提出的多个检索关键词,行程起点、终点,行程代价预算(时间、距离),为用户高效地搜索匹配关键词,行程起点、终点,行程代价预算查询约束的最优路径,进一步提升KSRG的查询效率。
Description
技术领域
本发明属于移动互联网与地理信息系统应用领域,特别是地理信息系统中的空间关键词查询与路径搜索相结合的综合查询领域。
背景技术
随着移动互联网技术与地理定位技术的发展,基于位置的服务在当下被广泛应用于交通、物流、旅游等多个领域。在众多基于位置的服务中,地图服务是一项极为常见的服务。根据位置信息,为用户在路网中查询一条合适的路径,是地图服务中一项重要功能。
传统地图服务所提供的路径查询功能,大多局限于在给定起点与终点后单纯返回两点间的最短路径。然而,在Web资源与地图服务结合的背景下,地图上的空间兴趣点不仅包含位置属性,还包含更为丰富的文本描述信息,这些文本信息能详细反映兴趣点所带有的属性与特点。考虑到在不同的出行场景中用户往往对路径的行程体验有不同的需求。显然最短路径查询方法将不再适用于特殊路径查询。为满足用户个性化的路径查询需求,提出针对特殊路径的高效查询方法显得尤为重要。
近年来大量有关空间关键词查询的研究提出了多种查询,如:最优k邻居查询(top-k NN)、范围查询(Range query)、逆向最邻近查询(Reverse k NN query),这些查询对空间对象的空间临近度与文本相似性进行考察,但查询粒度局限为单一个体,无法解决多个邻接的空间对象组合相连下最优路径问题。Cao Xin与Chen Lisi等人在欧式空间中提出了满足关键词全包含下的一组邻近空间实体集合的查询,此外Cao Xin又与Gao Cong等人在路网空间中实现了最优子区域的高效查询算法,上述查询虽然返回一组兴趣点集合,但依然无法适用于以路径形式组合下的兴趣点集合查询。
最优路径查询:最优路径查询是基于位置的服务中被广泛研究的一个问题。LiFeifei等人在空间数据库领域中最先提出一种新的查询TPQ(Trip Plan Query),TPQ查询在指定的空间两点间搜索一条经过所有指定类别对象的路径,同时该路径有最短长度。例如,在用户的住处与工作地点间查找一条经过便利店、加油站、银行的最短路径。TPQ查询问题可以视为广义旅行商问题(GTSP)的一个特例,为NP难题。与TPQ问题类似,MehdiSharifzadeh等人提出了OSR(Optimal Sequenced Route)查询问题,该查询搜索一条从空间中的一点出发,按规定类别访问序列,经过所有类别空间对象,且长度最短的路径,例如从用户当前所在的位置出发,找到一条依次经过银行、加油站、影院、便利店的最短路径。由于OSR查询固定了对象的访问顺序,因此该查询为TPQ问题下的一类特殊案例。区别于OSR查询中固定的路径节点访问顺序,Chen Haiquan等人提出了MRPSR(Multi-Rule PartialSequenced Rout)查询问题,此类查询额外增加了相关类别对象访问顺序的约束,例如用户必须在访问加油站前优先访问银行。Jing Li等人提出了BBS与SBS两类算法以解决任意访问规则下最优路径查询问题,相比MRPSR查询中有限的访问顺序约束,该类查询可满足更为多样的访问约束条件。宋晓宇及许鸿飞等人在旅游背景下提出了一种特殊路径查询—体验式路径查询,该类查询在考虑景点流行程度的基础上,搜索一条在短时间内能尽可能经过多种类别的景点,且类别不重复的旅游路径。基于贪婪策略,鲍金玲等人提出了3种高效的旅游行程规划算法,折中了游客的行程预算与景点的流行度,返回一条近似最优的行程路径。
在TPQ、OSR、MRPSR查询以及体验式路径查询中,对象的类别属性往往较为单一,且包含的信息量有限,无法准确地表现出空间对象的特点,因而使得路径将难以精确地匹配用户提出的个性化要求。此外由于上述路径查询中忽略了路径代价预算的上界限制,因此不能较好地满足实际生活场景中的行程问题。在鲍金玲等人提出的方法中虽然考虑了路径行程中各类预算条件的满足,但路径中兴趣点选择较为固定,无法适应不同用户提出的多种个性化要求。
基于关键词下的最优路径查询:为使规划的路线尽可能贴近用户个性化的行程需求,同时在代价预算上保持一定的合理性,基于关键词下的最优路径查询(Keyword-awareoptimal route search简称KORS)是一种合适的方法。KORS查询问题最早由Cao Xin等人在2012年PVLDB的一篇题目为Keyword-aware optimal route search的论文中提出。与欧式空间下的路径查询不同,KORS查询在路网空间下搜索返回一条覆盖所有用户指定关键词,同时满足行程预算(如费用、时间),且流行度最大的路径。该类路径问题为权值受限最短路径问题(weight constraint shortest path)的一个特例,为NP难题,实际路径求解的搜索空间复杂度为O(dn)(d为图中顶点最大出度)。基于邻边拓展的路径生成策略,Cao Xin等人在上文中提出的OSScalling和BucketBound算法实现了多项式复杂度下的问题求解。该类算法主要采用邻边拓展的路径构建方法,自起点出发通过不断拓展当前路径终点的所有邻边产生新的子路径,直到路径到达查询终点。该过程将枚举起点与终点间所有可行路径,并最终在可行路径集合中筛选出最优路径。基于邻边拓展的路径生成策略必然能够求得最优路径的精确解,但该类方法执行效率对图规模大小敏感,在路网对应的大图中以此策略执行搜索时,时间复杂度与空间复杂度过高,无法适合实时响应下的路径查询。此外在KORS查询的问题求解中,关键是通过路径拓展构建查询起点和终点间满足查询约束的可行路径,因此当考虑到查询关键词个数较多,起点与终点间最优路径的顶点个数较多,或者部分查询关键词分布密度较小时,邻边拓展下的路径生成策略将产生大量无关的中间路径,造成算法空间开销骤增,可伸缩性变差,所以并非是一种高效的解决方法。
发明内容
为解决关键词下的最优路径查询在大图查询以及多关键词查询中存在的复杂度过高、空间开销过大以及伸缩性较差的缺陷,本发明提出了基于关键词序列路径构造(Keyword Sequence Route Generation简称KSRG)的一种高效的多关键词匹配最优路径查询方法。
本发明解决其技术问题所采用的技术方案:一种高效的多关键词匹配最优路径查询方法,其特征在于:利用关键词序列路径构造和完全多项式时间近似策略,对地图软件搜索中可行解个数进行有效界定;将问题求解的规模由阶乘级别转化为多项式级别,减少搜索过程中中间结果的枚举量;
1.预判局部路径最优权值的边界,去除不可能满足约束条件的中间结果:即采用弗洛伊德算法获得路网图中任意两点之间的最小目标值OS(r)与最小代价值BS(r)的路径;
2.构建倒排索引:即抽取路网图中的所有兴趣点关键词构成一个非重的关键词集合,从关键词集合中优先筛选含有关键词的兴趣点;所述关键词集合中的每个关键词对应一个倒排表,记录所有包含关键词的兴趣点集合;
所述关键词序列路径构造包括下述内容:首先根据查询关键词获取所有与查询关键词相关的兴趣点;
所述关键词相关的兴趣点:即对于查询Q=(vs,vt,ψ,Δ),第一关键词ti∈ψ,给定顶点vm,若vm.ψ包含ti,且BS(σs,m)+BS(σm,t)<Δ,则vm为第二关键词ti对应的关键词顶点,ti对应的所有候选关键词顶点构成集合
顶点集V的每个顶点v代表了一个兴趣点。v拥有两类属性:(1)地理位置坐标<经度,纬度>,符号表示为v.loc;(2)描述关键词,<关键词1,关键词2,关键词3….>(个数不大于5),符号表示为v.ψ。
连接两处兴趣点间的直达路段e。路段e带有两类权值分别为:(1)代价权值,表示通过该路段所需的行程代价(根据不同场景可为路段的时耗或距离);(2)流行度权值=0~1,流行度权值代表了某条边对应的路段热度,流行度权值越大表示该路段被游客访问的概率越高。若从vi到vj若存在直达路段(vi,vj)∈E,则为将该路段的代价权值形式化表示为b(vi,vj),流行度权值形式化表示为p(vi,vj)。
r=(v0,v1,...,vn-1,vn)表示顺序经过若干连续相邻的兴趣点,由v0达到vn的路径。路径的代价BS(r)定义为路径包含的所有边的代价权值和,即为:
将路径的流行度PS(r)的计算定义为路径上所有边流行度权值的乘积,即为:
路径r的关键词为路径上所有兴趣点的关键词集合的并集,即为:
KORS查询定义
最优路径查询Q=(vs,vt,ψ,Δ)包含四部分查询参数,其中:vs代表用户指定的行程起点(为上述图中任意某个兴趣点);vt代表用户指定的行程终点;ψ表示一组用户关注的关键词集合;Δ表示路径代价的上限值。
将由起点vs至终点vt的路径集合表示为Rs,t,根据查询Q中查询参数,若某条路径r∈Rs,t且满足:(1)BS(r)<Δ;(2)则路径r为一条可行路径,KORS查询所求的最优路径为所有可行路径中拥有最大流行度的路径ropt。具体形式化描述如下。
在查询初始阶段,通过贪婪策略快速构建一条有较优近似度的可行解,利用可行解的对应权值作为目标上界值,对问题解的搜索空间进行初步剪枝;随后,算法进入迭代求解过程,迭代求解过程中的每一次迭代包含下述操作:
1.路径拓展:即针对搜索过程中的每一条局部路径,通过关键词路径不断拓展至所有尚未包含的查询关键词对应的每个关键词相关的兴趣点,直到当前路径覆盖所有查询关键词。
所述关键词路径:即第一关键词ti∈vm,第二关键词tj∈vn,路径r∈Rm,n,若OS(r)=OS(τi,j),则路径r为第一关键词ti与第二关键词tj之间构成一条关键词路径。
所述路径有效性检查:即将每次路径拓展产生的中间路径,与拓展至当前关键词相关的兴趣点的所有路径进行比较,若当前路径在关键词覆盖、路径流行度、路径代价三方面属性都劣于之前拓展的某条路径,则当前路径被认为是无效路径。
无效标签即vs为路径起点,vi为路径终点,第m条路径表示为ri m,第n条路径表示为ri n,ri m及ri n对应的路径标签为
与同时满足如下条件为无效标签:
(1)
(2)
(3)
在基于关键词序列路径构建方法中,路径拓展具体以标签操作形式体现,标签操作的本质即产生新的路径标签以记录当前拓展所得的路径。
标签操作:假设当前拓展到某一关键词顶点vi的路径对应的路径标签为针对中尚未包含的查询关键词对应的每个关键词顶点vj,路径由当前关键词顶点vi拓展至关键词顶点vj,则根据拓展路径标签可创建新路径标签两者具体关系为:
(1)
(2)
(3)
(4)
路径标签总枚举量的上界值为:
分析:上述不等式右侧部分具体分为两部分:
1.|Vkw|表示所有查询关键词相关的关键词顶点的总数,满足(Vmax为某个查询关键词对应的最大关键词顶点个数,k为查询关键词个数);
2.为单关键词顶点产生的有效标签个数上界Lmax:由于路径标签为四类属性对应的四元组给定查询代价约束Δ,则路径拓展过程中关键词路径拓展的次数不超过次,产生的关键词序列路径的目标权值上界为:
路径拓展中有效标签枚举量的上界为
局部优先级即综合路径标签中的λ,BS三部分定义路径标签的优先级:
(1)当两条路径对应的路径标签包含的查询关键词个数不同时,包含的关键词个数|λ|越大的路径其优先级越高;
(2)当两条路径对应的路径标签中包含的查询关键词个数相同时,路径目标值越小,路径优先级越高;
(3)当两条路径对应的路径标签包含的查询关键词个数相同,路径目标值也相同时,路径代价值越小,路径优先级越高。
全局优先度即给定查询Q=(vs,vt,ψ,Δ),vs与vt间最优目标值为OS(τs,t),设定参量β(1<β<2),路径标签l的全局优先度p(l)的计算如下:
在路径有效性检查过程中,通过哈希表的辅助提高该步骤的执行效率。将拓展至每个顶点的所有路径标签按其覆盖关键词进行分组,将覆盖关键词相同的路径单独存储于同一个列表中。不同的关键词覆盖集对应不同的路径列表,以覆盖的关键词集作为键,对应的列表作为值的哈希映射表组织所有的拓展至每一个兴趣点的中间路径。通过该方式,在路径有效性检查过程中,对每一条新产生的中间路径,只需将其与当前拓展点上所有关键词覆盖集为该路径关键词覆盖集的子集或超集的列表中的中间路径相比较即可。
本发明针对KORS查询,可以保证近似度的前提下,实现查询效率的提高,并在地图查询以及多关键词查询情况下对查询的空间复杂度与可扩展性有较好优化。
抽取地图中各兴趣点的所有关键词构成一个非重的关键词集合,该集合中的每个关键词对应一个倒排表,记录所有包含该关键词的兴趣点的集合。通过倒排索引的构建,含有相关关键词的兴趣点能够被优先筛选,加速路径搜索过程中的有效拓展。
基于关键词序路径构建策略方法:给定一个查询Q,查询关键词为Q.ψ,则该种方法的复杂度为O(nk×k!)(其中k=|Q.ψ|,)。为避免阶乘级的求解复杂度,通过相关变量缩放转化,可将问题求解的规模由阶乘级转变为多项式级,具体实现方法如下:
首先,定义比例因子其中,min{OS(τi,j)}为地图中任意两点间的最小目标值,min{BS(σi,j)}为地图中任意两点间的最小代价值,ε=0~1。利用比例因子θ,对地图中任意两点间的目标值最优路径τi,j,进行路径目标值OS(τi,j)的倍率放大,生成修正目标值两者间转化关系为:则对于某一关键词顶点序列对应的关键词序列路径r,则该路径的修正目标值为
在路径拓展过程中,将拓展至每一顶点的子路径用路径标签数据结构进行组织保存。根据无效标签的裁剪机制,以及路径拓展的具体规则,可得在路径拓展过程中路径标签总枚举数的上界值:
本发明在融合web文本资源与道路热度信息的路网中,针对用户提出的多个检索关键词,行程起点、终点,行程代价预算(时间、距离),为用户高效地搜索匹配关键词,行程起点、终点,行程代价预算查询约束的最优路径,进一步提升KSRG的查询效率。
具体实施方式
本发明所述路网图是地图软件,地图软件包括百度地图。
路径预处理即为对搜索过程中局部路径的最优权值做边界预判,提前去除不可能满足约束条件的中间结果,减小搜索空间,采用弗洛伊德算法对任意两个路径点求其间拥有最小代价值BS(r)与最小目标值OS(r)的路径,两类特殊路径符号表示为τi,j、σi,j。
构建倒排索引即抽取地图中各兴趣点的所有关键词构成一个非重的关键词集合,该集合中的每个关键词对应一个倒排表,记录所有包含该关键词的兴趣点的集合。通过倒排索引的构建,含有相关关键词的兴趣点能够被优先筛选,加速路径搜索过程中的有效拓展。
所述关键词序列路径构建方法即枚举各个关键词序列下所有关键词顶点序列,计算其对应的关键词路径的目标值OS(r)。在所有满足查询约束的可行关键词路径中,拥有最小路径目标值OS(r)的路径即为最优路径ropt。
所述完全多项式时间近似策略方法:给定一个查询Q,查询关键词为Q.ψ,复杂度为O(nk×k!)(其中k=|Q.ψ|,)。
为避免阶乘级的求解复杂度,通过相关变量缩放转化,可将问题求解的规模由阶乘级转变为多项式级,具体实现方法如下:
首先,定义比例因子其中,min{OS(τi,j)}为地图中任意两点间的最小目标值,min{BS(σi,j)}为地图中任意两点间的最小代价值,ε=0~1。利用比例因子θ,对地图中任意两点间的目标值最优路径τi,j,进行路径目标值OS(τi,j)的倍率放大,生成修正目标值两者间转化关系为:则对于某一关键词顶点序列对应的关键词序列路径r,则该路径的修正目标值为
在路径拓展过程中,将拓展至每一顶点的子路径用路径标签数据结构进行组织保存。根据路径标签的具体定义,无效标签的裁剪机制,以及路径拓展的具体规则,可得在路径拓展过程中路径标签总枚举数的上界值:k为查询关键词个数k=1、2、3、4、5、6、7、8、9或10。
所述分层化优先级策略方法即在路径标签生成过程中,始终选择具有最小全局优先度的路径标签进行优先拓展;对于具有相等的全局优先度的多个路径标签考察其路径标签的局部优先级,局部优先级高的标签有限拓展。
在程序中,将全局优先度p的每种可能取值i与一个单独的优先队列Qi对应,Qi中保存所有全局优先度为i的路径标签,Qi内的保存的标签元素按局部优先级顺序排列。
初始上界剪枝策略方法为首先获取每个查询关键词ti对应的所有关键词顶点中OS(τs,i)+OS(τi,d)最小的关键词顶点vi,构成顶点集合V={v1,...,vk},根据该集合中的顶点,路径由起点vs出发按最邻近优先遍历原则依次遍历集合V中所有顶点,最终到达终点vd,该贪婪算法求得的路径的结果近似度为k。
所述基于哈希表的标签检查,即对拓展至关键词顶点vi的所有路径标签按其覆盖关键词进行分组,将覆盖关键词相同的路径标签单独存储在一个列表中。不同的覆盖关键词集对应不同的标签列表,以覆盖的关键词集作为键,对应的标签列表作为值的哈希映射表组织所有的中间结果。基于哈希映射的辅助,对后续拓展张产生的新的路径标签,进行高效的标签检查。
基于关键词序列的路径生算法(KSRG)的基本思想为枚举各类关键词序列下的有效路径标签,算法首先筛选查询关键词对应的关键词顶点,然后由起点vs出发以关键词路径进行路径拓展,产生包含更多查询关键词的关键词序列路径,在此过程中每次选择优先级最高的中间路径进行拓展,并及时删除无效路径标签。重复此过程直到产生所有终点vt对应的包含全部查询关键词的路径标签,筛选其中满足查询约束且有最小修正目标值的路径标签,该路径标签即为所求结果。主要执行步骤为:
步骤1:获取查询关键词相关的所有关键词顶点,起点处初始化拓展路径;
步骤2:求得可行近似解,对解空间进行初步裁剪;
步骤3:算法始终优先选择当前最小全局优先度pmin对应队列中局部优先级最高的路径标签进行关键词路径拓展;
步骤4:进行高效的路径标签检查;
步骤5:重复步骤3、4,当拓展得到覆盖所有查询关键词,且标签全局优先级为当前最小全局优先级时,迭代结束,返回该路径标签,该路径标签即为最终结果。
顶点集V的每个顶点v代表了一个兴趣点。v拥有两类属性:(1)地理位置坐标<经度,纬度>,符号表示为v.loc;(2)描述关键词,<关键词1,关键词2,关键词3….>(个数不大于5),符号表示为v.ψ。
连接两处兴趣点间的直达路段e。
直达路段e包括下述两类权值:(1)代价权值,表示通过该路段所需的行程代价(根据不同场景可为路段的时耗或距离);
(2)流行度权值=0~1,若从vi到vj若存在直达路段(vi,vj)∈E,则为将该路段的代价权值形式化表示为b(vi,vj),流行度权值形式化表示为p(vi,vj)。
r=(v0,v1,...,vn-1,vn)表示顺序经过若干连续相邻的兴趣点,由v0达到vn的路径。路径的代价BS(r)定义为路径包含的所有边的代价权值和,即为:
将路径的流行度PS(r)的计算定义为路径上所有边流行度权值的乘积,即为:
路径r的关键词为路径上所有兴趣点的关键词集合的并集,即为:
最优路径查询Q=(vs,vt,ψ,Δ)包含四部分查询参数,其中:vs代表行程起始点;vt代表行程终点;ψ表示关键词集合;Δ表示路径代价的上限值。
将由起始点vs至终点vt的路径集合表示为Rs,t,根据查询Q中查询参数,若某条路径r∈Rs,t且满足:(1)BS(r)<Δ;(2)则路径r为一条可行路径,KORS查询所求的最优路径为所有可行路径中拥有最大流行度的路径ropt。
路径的流行度与路径上直达路段的流行度权值的计算关系为最优路径应有尽可能大的流行度PS(r)。
目标权值
路径的目标值OS(r),即为路径上所有直达路段的目标权值之和:
路径的目标值OS(r)的计算公式如下:
拥有最大流行度PS(r)的路径,即拥有最小目标值OS(r)。
基于关键词的最优查询即可转化为权值受限下的最短路径问题,最优路径ropt即为满足查询约束条件,以路段的目标权值为边长的最短路径,表述如下:
所述关键词顶点即对于查询Q=(vs,vt,ψ,Δ),关键词ti∈ψ,给定顶点vm,若vm.ψ包含ti,且BS(σs,m)+BS(σm,t)<Δ,则vm为关键词ti对应的关键词顶点,ti对应的所有候选关键词顶点构成集合
所述关键词路径即关键词ti∈vm,关键词tj∈vn,路径r∈Rm,n,若OS(r)=OS(τi,j),则路径r为ti与tj间一条关键词路径。
所述关键词序列,即查询Q=(vs,vt,ψ,Δ),其中对于某一条包含所有查询关键词且满足代价约束的可行路径r,根据每个查询关键词在路径r拓展过程中被先后覆盖到的顺序(仅考虑每个关键词在路径中第一次被覆盖的次序),则可得关键词序列
所述关键词顶点序列即该序列对应可得关键词顶点序列
关键词序列路径的目标值等于其中所有关键词路径的目标值之和,即为
所述关键词路径即路径r的关键词顶点序列中所有相邻关键词顶点间的路径皆为关键词路径。
所述路径标签即将每一条由起始点vs出发扩展至终结点vi的关键词序列路径记录为一个路径标签路径标签为一个四元组,具体格式为其中λ表示路径当前包含的查询关键词,为该路径的修正目标值,OS为路径的目标值,BS为路径的代价值。定义表示由该路径进行后续拓展至终点vt的路径最小目标值,定义为路径后续拓展至vt的路径最小代价值。每个关键词顶点维护一个路径标签列表vi.list,以保存拓展至当前点vi的所有中间路径。
从起始点vs出发拓展至终结点vi的所有路径的数量往往较多,但vi.list中仅存储该部分中的有效路径标签,无效的路径标签将被裁减不予保存。
无效标签即将由起始点vs至终结点vi的第m条路径表示为ri m,第n条路径表示为ri n,ri m及ri n对应的路径标签为我们认为相对为无效标签,当且仅当如下三种条件同时成立:
(1)
(2)
(3)
所述标签操作即拓展到某一关键词顶点vi的路径对应的路径标签为针对中尚未包含的查询关键词对应的每个关键词顶点vj,路径由关键词顶点vi拓展至关键词顶点vj,则根据拓展路径标签可创建新路径标签两者具体关系为:
(1)
(2)
(3)
(4)
KSRG路径拓展过程中,路径标签总枚举量的上界值为:
|Vkw|表示所有查询关键词相关的关键词顶点的总数,满足(Vmax为某个查询关键词对应的最大关键词顶点个数,k为查询关键词个数);
为单关键词顶点产生的有效标签个数上界Lmax:由于路径标签为四类属性对应的四元组其中OS间一一对应,因此不同标签个数的上界与λ、BS的组合数有关;给定k个查询关键词,则λ最多有2k种可能情况,给定查询代价约束Δ,则路径拓展过程中关键词路径拓展的次数不超过次,拓展过程中产生的关键词序列路径的目标权值上界为:
路径拓展中有效标签枚举量的上界为
所述局部优先级即综合路径标签中的λ,BS三部分定义路径标签的优先级:(1)当两条路径对应的路径标签包含的查询关键词个数不同时,包含的关键词个数|λ|越大的路径其优先级越高;(2)当两条路径对应的路径标签中包含的查询关键词个数相同时,路径目标值越小,路径优先级越高;(3)当两条路径对应的路径标签包含的查询关键词个数相同,路径目标值也相同时,路径代价值越小,路径优先级越高。
所述全局优先度,即给定查询Q=(vs,vt,ψ,Δ),vs与vt间最优目标值为OS(τs,t),设定参量β(1<β<2),路径标签l的全局优先度p(l)的计算如下:
Claims (1)
1.一种高效的多关键词匹配最优路径查询方法,其特征是利用关键词序列路径构造方法和完全多项式时间近似策略方法,对搜索空间中可行解个数进行有效界定;将问题求解的规模由阶乘级别转化为多项式级别,减少搜索过程中间结果的枚举量;所述关键词序列路径构造方法包括下述步骤:
(1)获取与查询关键词相关的所有关键词顶点,起点处初始化拓展关键词路径;
(2)求得可行近似解,对解空间进行初步裁剪;
(3)选择最小全局优先度pmin对应队列Qpmin中局部优先级最高的路径标签进行关键词路径拓展;
(4)进行关键词路径标签检查;
(5)重复步骤(3)、(4),当拓展得到覆盖所有查询关键词,且标签全局优先级为最小全局优先级时,该路径标签即为最终结果;
所述关键词顶点即对于查询Q=(vs,vt,ψ,Δ),vs表示路径查询中指定的起点,vt表示路径的终点,ψ表示路径需要覆盖的关键词集合,Δ表示路径的预算:路径距离或时间,关键词ti∈ψ,给定顶点vm,若vm.ψ包含ti,且BS(σs,m)+BS(σm,t)<Δ,则vm为关键词ti为对应的关键词顶点,ti对应的所有候选关键词顶点构成集合
所述关键词路径即关键词ti∈vm,关键词tj∈vn,路径r∈Rm,n,若OS(r)=O(Sτ)i,j,则路径r为ti与tj间一条关键词路径;所述完全多项式时间近似策略方法包括下述内容:
(Ⅰ)给定一个查询Q=(vs,vt,ψ,Δ),其中查询关键词为Q.ψ,其初始查询复杂度为O(nk×k!),其中k=|Q.ψ|,
(Ⅱ)为简化复杂度,完全多项式时间近似策略,具体为采用定义比例因子其中,min{OS(τi,j)}为地图中任意两点间的最小目标值,min{BS(σi,j)}为地图中任意两点间的最小代价值,ε为范围在0~1的比例参数,利用比例因子θ,对地图中任意两点间的目标值最优路径τi,j,进行关键词路径目标值OS(τi,j)的进行倍率放大取整,生成修正目标值两者间转化关系为:则关键词顶点序列对应的关键词序列路径r,则该路径的修正目标值为
(Ⅲ)保存每一顶点的子路径的路径标签,并裁剪无效标签;获得路径标签总枚举数的上界值:
所述关键词序列,即查询Q=(vs,vt,ψ,Δ),其中对于某一条包含所有查询关键词且满足代价约束的可行路径r,根据每个查询关键词在路径r拓展过程中被先后覆盖到的顺序,则得关键词序列;所述关键词序列路径的目标值等于所有关键词路径的目标值之和,即
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610888748.9A CN106446242B (zh) | 2016-10-12 | 2016-10-12 | 一种高效的多关键词匹配最优路径查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610888748.9A CN106446242B (zh) | 2016-10-12 | 2016-10-12 | 一种高效的多关键词匹配最优路径查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446242A CN106446242A (zh) | 2017-02-22 |
CN106446242B true CN106446242B (zh) | 2019-10-25 |
Family
ID=58174165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610888748.9A Active CN106446242B (zh) | 2016-10-12 | 2016-10-12 | 一种高效的多关键词匹配最优路径查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446242B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109974732B (zh) * | 2019-03-28 | 2022-11-15 | 东北大学 | 一种基于语义感知的Top-k多请求路径规划方法 |
CN112015730A (zh) * | 2019-05-31 | 2020-12-01 | 上海晶赞融宣科技有限公司 | 标签匹配方法及装置、存储介质、服务器 |
CN110619000A (zh) * | 2019-09-25 | 2019-12-27 | 网易(杭州)网络有限公司 | 时序数据的查询方法、装置、存储介质及电子设备 |
CN112097782B (zh) * | 2020-07-14 | 2022-04-08 | 中山大学 | 一种基于会面点的最优组次序路径圆滤查询方法 |
CN113468293B (zh) * | 2021-07-13 | 2023-06-13 | 沈阳航空航天大学 | 基于多关键字覆盖的路网Top-k路径查询方法 |
CN114780875B (zh) * | 2022-06-22 | 2022-09-06 | 广东省智能机器人研究院 | 一种动态组旅行规划查询方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916270A (zh) * | 2010-08-09 | 2010-12-15 | 北京邮电大学 | 旅游导航与救援系统服务器端的设计与实现 |
CN104484477A (zh) * | 2014-12-29 | 2015-04-01 | 广州视源电子科技股份有限公司 | 一种电子地图搜索方法、装置及系统 |
-
2016
- 2016-10-12 CN CN201610888748.9A patent/CN106446242B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916270A (zh) * | 2010-08-09 | 2010-12-15 | 北京邮电大学 | 旅游导航与救援系统服务器端的设计与实现 |
CN104484477A (zh) * | 2014-12-29 | 2015-04-01 | 广州视源电子科技股份有限公司 | 一种电子地图搜索方法、装置及系统 |
Non-Patent Citations (3)
Title |
---|
Keyword-aware optimal route search;Xin Cao,etc;《Proceedings of the VLDB Endowment》;20120801;第5卷(第11期);第1136页至1147页 * |
KORS:keyword-aware optimal route search system;Cong G,etc;《ICDE13:Proceedings of the 2013 IEEE International Conference on Data Engineering》;20131231;第1340页至1343页 * |
最优有序路径关键词查询;梁银等;《计算机工程与应用》;20150430;第51卷(第4期);第138页至141页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106446242A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446242B (zh) | 一种高效的多关键词匹配最优路径查询方法 | |
CN109151824B (zh) | 一种基于5g架构的图书馆数据服务扩展系统及方法 | |
CN102156726A (zh) | 基于语义相似度的地理要素查询扩展方法 | |
CN106570062A (zh) | 一种路网轨迹不确定移动对象范围查询系统及方法 | |
Liu et al. | Polestar: An intelligent, efficient and national-wide public transportation routing engine | |
CN110061881A (zh) | 一种基于物联网的能耗感知虚拟网络映射算法 | |
Sinaeepourfard et al. | F2c2C-DM: A Fog-to-cloudlet-to-Cloud Data Management architecture in smart city | |
CN106528756B (zh) | 一种基于时空关联性的网络地图数据组织方法 | |
CN102571752A (zh) | 基于服务关联索引图的QoS感知Top-k服务组合系统 | |
CN110502567B (zh) | 一种面向主题的城市轨道交通站点层次poi提取方法 | |
Chen et al. | Design and implementation of an intelligent system for tourist routes recommendation based on Hadoop | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
Sun et al. | Tourism demand forecasting of multi-attractions with spatiotemporal grid: a convolutional block attention module model | |
Li et al. | Optimization of planning layout of urban building based on improved logit and PSO algorithms | |
Xiaolu | Design of travel route recommendation system based on fast Spark artificial intelligence architecture | |
Huang et al. | Driving route recommendation with profit maximization in ride sharing | |
Tang et al. | Supporting continuous skyline queries in dynamically weighted road networks | |
Li et al. | A novel distributed air index for efficient spatial query processing in road sensor networks on the air | |
CN102929914A (zh) | 一种基于p2p节点调度的移动地图服务搜索方法 | |
CN109104466B (zh) | 一种基于P2P的WoT资源管理方法 | |
Li et al. | Research on Big Data System Based on Cultural Tourism in Dongguan | |
Nakanishi et al. | Approaching the interconnection of heterogeneous knowledge bases on a knowledge grid | |
Ye et al. | Research and implement of traffic accident analysis system based on accident black spot | |
Qiongying | Review of research on characteristic tourism resources exploitation in sichuan province | |
Li et al. | Clustering large-scale origin-destination pairs: a case study for public transit in Beijing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |