CN116821279B - 一种带排斥关键字的空间关键字查询方法和系统 - Google Patents

一种带排斥关键字的空间关键字查询方法和系统 Download PDF

Info

Publication number
CN116821279B
CN116821279B CN202310657880.9A CN202310657880A CN116821279B CN 116821279 B CN116821279 B CN 116821279B CN 202310657880 A CN202310657880 A CN 202310657880A CN 116821279 B CN116821279 B CN 116821279B
Authority
CN
China
Prior art keywords
node
key
keyword
keywords
exclusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310657880.9A
Other languages
English (en)
Other versions
CN116821279A (zh
Inventor
张丽平
李晶
王哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310657880.9A priority Critical patent/CN116821279B/zh
Publication of CN116821279A publication Critical patent/CN116821279A/zh
Application granted granted Critical
Publication of CN116821279B publication Critical patent/CN116821279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种带排斥关键字的空间关键字查询方法和系统,其目标是找到同时满足用户期望关键字和排斥关键字要求的最近的空间‑文本对象。由于传统的空间关键字查询模型没有考虑到用户的排斥意向导致查询结果不理想且现有相应技术维护代价高,本发明基于IR树提出一种新的索引结构BloomIR‑tree用于处理带排斥关键字的空间关键字查询问题,通过引入布隆过滤器,不仅可以高效地查询结果,也弥补了传统技术使用关键字二分树处理排斥关键字不持久维护代价大的缺点。

Description

一种带排斥关键字的空间关键字查询方法和系统
技术领域
本发明涉及空间关键字查询领域,具体是一种带排斥关键字的空间关键字查询方法和系统。
背景技术
空间关键字查询是空间数据库领域的重要研究问题。它综合利用空间邻近性和文本相关性对带有位置和关键字信息的空间对象进行查询处理。随着移动互联网的发展,查找附近美食、预定酒店等许多基于位置的应用服务不断涌现。在现实场景中,给用户提供兴趣匹配的商品排名、为用户提供其感兴趣的饭店或者旅馆等需求都能够通过使用空间关键字查询技术解决,空间关键字查询技术在基于搜索的服务中具有重要的研究价值。
目前已有的空间关键字查询方法基本没有考虑用户的排斥偏好,在为数不多的研究排斥关键字的工作中,采用的索引技术为关键字二分树和R树系列索引结合,但是此种方法建立的索引在每次用户查询需求变化时都需要重建,不持久,索引维护代价过大。
发明内容
针对现有技术的以上缺陷和改进需求,本发明提供了一种带排斥关键字的空间关键字查询方法和系统,其目的在于,通过建立一种新的索引BloomIR-tree来索引全局的空间-文本对象信息,可以高效率的实现空间关键字查询,返回满足查询需求的空间-文本对象。
为了实现上述目的,该系统在建立BloomIR-tree时,使用布隆过滤器和倒排文件来索引关键字信息,相比已有的处理技术,查询需求变化时不需要重建索引,减少了索引维护代价。其次布隆过滤器在判断关键字时效率高且空间消耗低。
为高效的返回空间关键字查询结果,按照本发明的一个方面,提供了一种带排斥关键字的空间关键字查询方法和系统,包括以下步骤:
1)获取对象集合O,并接收用户所处的查询点q={q.loc,q.K+,q.K-},其中对象集合O={o 1,o 2,…},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+,排斥关键字集合q.K-
2)根据对象集合内对象的分布和对象所携带的关键字信息建立BloomIR-tree索引;
3)初始化优先队列Q为空,初始化结果集Res为空,BloomIR-tree索引根节点Root入队,当Q非空,Q出队一个对象为节点e。若e是非叶节点,遍历q.K-内的每个排斥关键字key,若索引判断该节点的关键字信息中包括当前排斥关键字key,则直接剪枝,否则,若关键字信息中包含q.K+内的全部关键字,将该节点加入队列Q,队列Q内的对象根据到查询点的欧氏距离进行从小到大排队。若e是叶节点,则遍历e内每个对象o,判断当前对象o的关键字信息是否包含q.K+的每个关键字,是则将o放入结果集Res中;
4)当Q为空,则结束查询。将Res中的对象o根据与q.loc的欧氏距离大小进行从小到大排序,返回距离最近的对象o min
进一步,所述一种带排斥关键字的空间关键字查询方法和系统的步骤(3)中判断排斥关键字key是否存在时使用BloomIR-tree索引中当前节点e的info文件中BloomFielter-e判断关键字key存在且Ukey-e中包含关键字key,则关键字key在当前节点e及其子节点中存在,可以剪枝。
进一步,所述一种带排斥关键字的空间关键字查询方法和系统的步骤(3)中判断期望关键字是否存在时使用BloomIR-tree索引中当前节点e的info文件中的倒排文件进行判断。
进一步,所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于,步 骤(2)中Q内的非叶节点对象R与查询点q的距离计算采用以下公式: ,其中dist(o i ,o j )表示两点之间的 欧式距离。
进一步,所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于,其特征在于,索引中的Ukey为节点内所有空间-文本对象关键字的交集。
附图说明
图1是本发明一种带排斥关键字的空间关键字查询方法的流程图。
图2是本发明空间-文本数据库划分示意图。
图3是本发明BloomIR-tree索引示意图。
图4是本发明BloomIR-tree索引中各个节点info文件示意图
实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图2所示,空间-文本数据库中的空间-文本对象o 1-o 7包含的关键字信息和空间分布如图给出。此处假设给出查询点q=(q.loc,q.K+,q.K-),其中q.loc如图2中星型点位置,q.K+为{t 3},q.K-为{t 1,t 5}。
如图1所示,本发明提供了一种带排斥关键字的空间关键字查询方法和系统,包括以下步骤:
1)获取对象集合O,并接收用户所处的查询点q={q.loc,q.K+,q.K-},其中对象集合O={o 1,o 2,…,o 8},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+为{t 3},排斥关键字集合q.K-为{t 1,t 5};
2)初始化优先队列Q为空,初始化结果集Res为空,建立的BloomIR-tree索引如图3所示,其中BloomIR-tree索引中节点的info文件如图4所示。首先BloomIR-tree索引根节点Root入队,此时Q非空,出队得到对象Root,使用BloomFilter-Root判断含有排斥关键字t 1t 5,但是Ukey-Root判断不含排斥关键字,所以不能直接剪枝,根据倒排文件将含有关键字t 3的对象R5,R6入队Q。,Q当前内容为(R5,R6);
3)Q出队,得到对象R5,重复以上判断步骤,将R2入队,Q当前内容为(R2,R6);
4)Q出队,得到对象R2,遍历R 2内所有对象o 2o 7o 8,其中o 2o 7符合查询需求,加入Res,Q当前内容为(R6);
5)Q出队,得到对象R6,重复步骤(2)中的判断,R6含有排斥关键字t 1,全部剪枝,Q当前为空,遍历结束;
6)计算Res中对象o 2o 7q的欧式距离大小,得到最小距离的o 2为结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种带排斥关键字的空间关键字查询方法,其特征在于,包括以下步骤:
(1)获取对象集合O,并接收用户所处的查询点q={q.loc,q.K+,q.K-},其中对象集合O={o1,o2,…},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+,排斥关键字集合q.K-;
(2)根据对象集合内对象的分布和对象所携带的关键字信息建立BloomIR-tree索引,索引的非叶节点结构包含指向其子节点的指针及info结点信息文件,叶节点包含info结点信息文件,info结点信息文件包含该节点内所有POI关键字信息形成的倒排文件、BloomFielter以及Ukey,Ukey为节点内所有空间-文本对象关键字的交集;
(3)初始化优先队列Q为空,初始化结果集Res为空,
BloomIR-tree索引根节点Root入队,当Q非空,Q出队一个对象为节点e,若e是非叶节点,遍历q.K-内的每个排斥关键字key,使用BloomIR-tree索引中当前节点e的info文件中
BloomFielter-e进行判断,若排斥关键字key存在且Ukey-e中包含排斥关键字key,则该节点的关键字信息中包含当前排斥关键字key,直接剪枝,否则,若关键字信息中包含q.K+内的全部关键字,将该节点加入队列Q,队列Q内的对象根据到查询点的欧氏距离进行从小到大排队,若e是叶节点,
则遍历e内每个对象o,判断当前对象o的关键字信息是否包含q.K+的每个关键字,是则将o放入结果集Res中;
(4)当Q为空,则结束查询,将Res中的对象o根据与q.loc的欧氏距离大小进行从小到大排序,返回距离最近的对象omin
2.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法,其特征在于:步骤(3)中判断期望关键字是否存在时使用BloomIR-tree索引中当前节点e的info文件中的倒排文件进行判断。
3.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法,其特征在于:步骤(2)中Q内的非叶节点对象R与查询点q的距离计算采用以下公式:
Dist(R,q)=min{dist(o,q)|o∈R},其中dist(oi,oj)表示两点之间的欧式距离。
CN202310657880.9A 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统 Active CN116821279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310657880.9A CN116821279B (zh) 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310657880.9A CN116821279B (zh) 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统

Publications (2)

Publication Number Publication Date
CN116821279A CN116821279A (zh) 2023-09-29
CN116821279B true CN116821279B (zh) 2024-06-07

Family

ID=

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609126A (zh) * 2017-09-15 2018-01-19 北京邮电大学 一种基于众包的空间检索词查询的评价方法和装置
CN110059148A (zh) * 2019-04-24 2019-07-26 上海交通大学 应用于电子地图的空间关键字查询的准确搜索方法
CN110059149A (zh) * 2019-04-24 2019-07-26 上海交通大学 电子地图空间关键字查询分布式索引系统和方法
CN110147424A (zh) * 2019-05-21 2019-08-20 湖南大学 一种Top-k组合空间关键字查询方法和系统
WO2020215436A1 (zh) * 2019-04-24 2020-10-29 上海交通大学 应用于电子地图的空间关键字查询的搜索方法
CN112800445A (zh) * 2021-01-21 2021-05-14 西安电子科技大学 一种用于密文数据的前后向安全和可验证的布尔查询方法
CN114616578A (zh) * 2019-12-11 2022-06-10 谷歌有限责任公司 改进定向和其他设置的内容提供者建议
CN114896480A (zh) * 2022-04-06 2022-08-12 华南理工大学 基于路网索引的Top-K空间关键字查询方法
WO2023065477A1 (zh) * 2021-10-18 2023-04-27 深圳前海微众银行股份有限公司 一种空间文本的查询方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609126A (zh) * 2017-09-15 2018-01-19 北京邮电大学 一种基于众包的空间检索词查询的评价方法和装置
CN110059148A (zh) * 2019-04-24 2019-07-26 上海交通大学 应用于电子地图的空间关键字查询的准确搜索方法
CN110059149A (zh) * 2019-04-24 2019-07-26 上海交通大学 电子地图空间关键字查询分布式索引系统和方法
WO2020215436A1 (zh) * 2019-04-24 2020-10-29 上海交通大学 应用于电子地图的空间关键字查询的搜索方法
CN110147424A (zh) * 2019-05-21 2019-08-20 湖南大学 一种Top-k组合空间关键字查询方法和系统
CN114616578A (zh) * 2019-12-11 2022-06-10 谷歌有限责任公司 改进定向和其他设置的内容提供者建议
CN112800445A (zh) * 2021-01-21 2021-05-14 西安电子科技大学 一种用于密文数据的前后向安全和可验证的布尔查询方法
WO2023065477A1 (zh) * 2021-10-18 2023-04-27 深圳前海微众银行股份有限公司 一种空间文本的查询方法及装置
CN114896480A (zh) * 2022-04-06 2022-08-12 华南理工大学 基于路网索引的Top-K空间关键字查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Research on Time-Aware Group Query Method with Exclusion Keywords;Liping Zhang等;《International Journal of Geo-Information》;20231023;第12卷(第10期);第1-20页 *
屠川川.带排斥关键字的空间关键字查询.《微型电脑应用》.第31卷(第4期),第19-22页. *

Similar Documents

Publication Publication Date Title
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
Jiang et al. Finding top-k local users in geo-tagged social media data
Yang et al. Experimental study on the five sort algorithms
CN107145545A (zh) 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN107506490B (zh) 滑动窗口下基于位置top-k关键词查询的优先查询算法及系统
Wong et al. Efficient skyline querying with variable user preferences on nominal attributes
CN107633068B (zh) 滑动窗口下基于位置top-k关键词查询的快速索引方法及系统
CN102194006B (zh) 一种集合团队个性化特征的搜索系统和方法
CN108932347A (zh) 一种分布式环境下基于社会感知的空间关键字查询方法
CN107451302B (zh) 滑动窗口下基于位置top-k关键词查询的建模方法及系统
CN111026710A (zh) 一种数据集的检索方法及系统
CN101706790A (zh) 搜索引擎中包含web对象的聚类方法
CN102591984A (zh) 导航数据中兴趣点数据查询速度的优化方法
CN103605750B (zh) 一种快速的分布式数据分页方法
Adamu et al. A survey on big data indexing strategies
CN103020054A (zh) 模糊查询方法及系统
Guo et al. Cohesive group nearest neighbor queries over road-social networks
CN111026750B (zh) 用AIR树解决SKQwhy-not问题的方法及系统
CN116821279B (zh) 一种带排斥关键字的空间关键字查询方法和系统
CN111582967A (zh) 内容搜索方法、装置、设备及存储介质
CN102214216A (zh) 一种层次关系数据上关键字检索结果的聚合摘要方法
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN116821279A (zh) 一种带排斥关键字的空间关键字查询方法和系统
Yang et al. Finding superior skyline points for multidimensional recommendation applications

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant