CN116821279A - 一种带排斥关键字的空间关键字查询方法和系统 - Google Patents

一种带排斥关键字的空间关键字查询方法和系统 Download PDF

Info

Publication number
CN116821279A
CN116821279A CN202310657880.9A CN202310657880A CN116821279A CN 116821279 A CN116821279 A CN 116821279A CN 202310657880 A CN202310657880 A CN 202310657880A CN 116821279 A CN116821279 A CN 116821279A
Authority
CN
China
Prior art keywords
keywords
key
exclusion
keyword
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310657880.9A
Other languages
English (en)
Other versions
CN116821279B (zh
Inventor
张丽平
李晶
王哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310657880.9A priority Critical patent/CN116821279B/zh
Priority claimed from CN202310657880.9A external-priority patent/CN116821279B/zh
Publication of CN116821279A publication Critical patent/CN116821279A/zh
Application granted granted Critical
Publication of CN116821279B publication Critical patent/CN116821279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种带排斥关键字的空间关键字查询方法和系统,其目标是找到同时满足用户期望关键字和排斥关键字要求的最近的空间‑文本对象。由于传统的空间关键字查询模型没有考虑到用户的排斥意向导致查询结果不理想且现有相应技术维护代价高,本发明基于IR树提出一种新的索引结构BloomIR‑tree用于处理带排斥关键字的空间关键字查询问题,通过引入布隆过滤器,不仅可以高效地查询结果,也弥补了传统技术使用关键字二分树处理排斥关键字不持久维护代价大的缺点。

Description

一种带排斥关键字的空间关键字查询方法和系统
技术领域
本发明涉及空间关键字查询领域,具体是一种带排斥关键字的空间关键字查询方法和系统。
背景技术
空间关键字查询是空间数据库领域的重要研究问题。它综合利用空间邻近性和文本相关性对带有位置和关键字信息的空间对象进行查询处理。随着移动互联网的发展,查找附近美食、预定酒店等许多基于位置的应用服务不断涌现。在现实场景中,给用户提供兴趣匹配的商品排名、为用户提供其感兴趣的饭店或者旅馆等需求都能够通过使用空间关键字查询技术解决,空间关键字查询技术在基于搜索的服务中具有重要的研究价值。
目前已有的空间关键字查询方法基本没有考虑用户的排斥偏好,在为数不多的研究排斥关键字的工作中,采用的索引技术为关键字二分树和R树系列索引结合,但是此种方法建立的索引在每次用户查询需求变化时都需要重建,不持久,索引维护代价过大。
发明内容
针对现有技术的以上缺陷和改进需求,本发明提供了一种带排斥关键字的空间关键字查询方法和系统,其目的在于,通过建立一种新的索引BloomIR-tree来索引全局的空间-文本对象信息,可以高效率的实现空间关键字查询,返回满足查询需求的空间-文本对象。
为了实现上述目的,该系统在建立BloomIR-tree时,使用布隆过滤器和倒排文件来索引关键字信息,相比已有的处理技术,查询需求变化时不需要重建索引,减少了索引维护代价。其次布隆过滤器在判断关键字时效率高且空间消耗低。
为高效的返回空间关键字查询结果,按照本发明的一个方面,提供了一种带排斥关键字的空间关键字查询方法和系统,包括以下步骤:
1)获取对象集合O,并接收用户所处的查询点q={q.loc,q.K+,q.K-},其中对象集合O={o 1,o 2,…},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+,排斥关键字集合q.K-
2)根据对象集合内对象的分布和对象所携带的关键字信息建立BloomIR-tree索引;
3)初始化优先队列Q为空,初始化结果集Res为空,BloomIR-tree索引根节点Root入队,当Q非空,Q出队一个对象为节点e。若e是非叶节点,遍历q.K-内的每个排斥关键字key,若索引判断该节点的关键字信息中包括当前排斥关键字key,则直接剪枝,否则,若关键字信息中包含q.K+内的全部关键字,将该节点加入队列Q,队列Q内的对象根据到查询点的欧氏距离进行从小到大排队。若e是叶节点,则遍历e内每个对象o,判断当前对象o的关键字信息是否包含q.K+的每个关键字,是则将o放入结果集Res中;
4)当Q为空,则结束查询。将Res中的对象o根据与q.loc的欧氏距离大小进行从小到大排序,返回距离最近的对象o min
进一步,所述一种带排斥关键字的空间关键字查询方法和系统的步骤(3)中判断排斥关键字key是否存在时使用BloomIR-tree索引中当前节点e的info文件中BloomFielter-e判断关键字key存在且Ukey-e中包含关键字key,则关键字key在当前节点e及其子节点中存在,可以剪枝。
进一步,所述一种带排斥关键字的空间关键字查询方法和系统的步骤(3)中判断期望关键字是否存在时使用BloomIR-tree索引中当前节点e的info文件中的倒排文件进行判断。
进一步,所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于,步 骤(2)中Q内的非叶节点对象R与查询点q的距离计算采用以下公式: ,其中dist(o i ,o j )表示两点之间的欧式距离。
进一步,所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于,其特征在于,索引中的Ukey为节点内所有空间-文本对象关键字的交集。
附图说明
图1是本发明一种带排斥关键字的空间关键字查询方法的流程图。
图2是本发明空间-文本数据库划分示意图。
图3是本发明BloomIR-tree索引示意图。
图4是本发明BloomIR-tree索引中各个节点info文件示意图
实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图2所示,空间-文本数据库中的空间-文本对象o 1-o 7包含的关键字信息和空间分布如图给出。此处假设给出查询点q=(q.loc,q.K+,q.K-),其中q.loc如图2中星型点位置,q.K+为{t 3},q.K-为{t 1,t 5}。
如图1所示,本发明提供了一种带排斥关键字的空间关键字查询方法和系统,包括以下步骤:
1)获取对象集合O,并接收用户所处的查询点q={q.loc,q.K+,q.K-},其中对象集合O={o 1,o 2,…,o 8},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+为{t 3},排斥关键字集合q.K-为{t 1,t 5};
2)初始化优先队列Q为空,初始化结果集Res为空,建立的BloomIR-tree索引如图3所示,其中BloomIR-tree索引中节点的info文件如图4所示。首先BloomIR-tree索引根节点Root入队,此时Q非空,出队得到对象Root,使用BloomFilter-Root判断含有排斥关键字t 1t 5,但是Ukey-Root判断不含排斥关键字,所以不能直接剪枝,根据倒排文件将含有关键字t 3的对象R5,R6入队Q。,Q当前内容为(R5,R6);
3)Q出队,得到对象R5,重复以上判断步骤,将R2入队,Q当前内容为(R2,R6);
4)Q出队,得到对象R2,遍历R 2内所有对象o 2o 7o 8,其中o 2o 7符合查询需求,加入Res,Q当前内容为(R6);
5)Q出队,得到对象R6,重复步骤(2)中的判断,R6含有排斥关键字t 1,全部剪枝,Q当前为空,遍历结束;
6)计算Res中对象o 2o 7q的欧式距离大小,得到最小距离的o 2为结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种带排斥关键字的空间关键字查询方法和系统,其特征在于,包括以下步骤:
1)获取对象集合O,并接收用户所处的查询点q={q.loc, q.K+, q.K-},其中对象集合O={o 1,o 2,…},用户所提查询点q包括用户所在的位置q.loc,期望关键字集合q.K+,排斥关键字集合q.K-;
2)根据对象集合内对象的分布和对象所携带的关键字信息建立BloomIR-tree索引;
3)初始化优先队列Q为空,初始化结果集Res为空,BloomIR-tree索引根节点Root入队,当Q非空,Q出队一个对象为节点e。若e是非叶节点,遍历q.K-内的每个排斥关键字key,若索引判断该节点的关键字信息中包括当前排斥关键字key,则直接剪枝,否则,若关键字信息中包含q.K+内的全部关键字,将该节点加入队列Q,队列Q内的对象根据到查询点的欧氏距离进行从小到大排队。若e是叶节点,则遍历e内每个对象o,判断当前对象o的关键字信息是否包含q.K+的每个关键字,是则将o放入结果集Res中;
4)当Q为空,则结束查询。将Res中的对象o根据与q.loc的欧氏距离大小进行从小到大排序,返回距离最近的对象o min
2.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于:步骤(3)中判断排斥关键字key是否存在时使用BloomIR-tree索引中当前节点e的info文件中BloomFielter-e判断关键字key存在且Ukey-e中包含关键字key,则关键字key在当前节点e及其子节点中存在,可以剪枝。
3.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于:步骤(3)中判断期望关键字是否存在时使用BloomIR-tree索引中当前节点e的info文件中的倒排文件进行判断。
4.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于:步骤(2)建立的BloomIR-tree索引如图2所示。
5.根据权利要求1所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于:步骤(2)中Q内的非叶节点对象R与查询点q的距离计算采用以下公式:
,其中dist(o i ,o j )表示两点之间的欧式距离。
6.根据权利要求2所述的一种带排斥关键字的空间关键字查询方法和系统,其特征在于:索引中的Ukey为节点内所有空间-文本对象关键字的交集。
CN202310657880.9A 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统 Active CN116821279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310657880.9A CN116821279B (zh) 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310657880.9A CN116821279B (zh) 2023-06-06 一种带排斥关键字的空间关键字查询方法和系统

Publications (2)

Publication Number Publication Date
CN116821279A true CN116821279A (zh) 2023-09-29
CN116821279B CN116821279B (zh) 2024-06-07

Family

ID=

Similar Documents

Publication Publication Date Title
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
Jiang et al. Finding top-k local users in geo-tagged social media data
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN107145526B (zh) 一种路网下地理社交关键字反最近邻查询处理方法
CN104778284B (zh) 一种空间图像查询方法和系统
CN108932347A (zh) 一种分布式环境下基于社会感知的空间关键字查询方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN106156271A (zh) 基于分布式存储的关联信息索引系统及其建立与使用方法
CN109992590B (zh) 交通网络中带数字属性的近似空间关键字查询方法及系统
Zhang et al. Hierarchical information quadtree: efficient spatial temporal image search for multimedia stream
CN111026750B (zh) 用AIR树解决SKQwhy-not问题的方法及系统
CN110334290B (zh) 一种基于MF-Octree的时空数据快速检索方法
CN103605750A (zh) 一种快速的分布式数据分页方法
CN114881041A (zh) 微博大数据热点话题多维度智能提取系统
CN111582967A (zh) 内容搜索方法、装置、设备及存储介质
CN112800023B (zh) 基于语义分类的多模型数据分布式存储和分级查询方法
CN116821279A (zh) 一种带排斥关键字的空间关键字查询方法和系统
CN113488194A (zh) 一种基于分布式系统的药品识别方法与装置
CN116821279B (zh) 一种带排斥关键字的空间关键字查询方法和系统
CN105677840A (zh) 一种基于多维渐增数据模型的数据查询方法
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
CN100401304C (zh) 交互式书法字k近邻查询方法
CN115455249A (zh) 双引擎驱动的多模态数据检索方法、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant