CN110059149A - 电子地图空间关键字查询分布式索引系统和方法 - Google Patents
电子地图空间关键字查询分布式索引系统和方法 Download PDFInfo
- Publication number
- CN110059149A CN110059149A CN201910333878.XA CN201910333878A CN110059149A CN 110059149 A CN110059149 A CN 110059149A CN 201910333878 A CN201910333878 A CN 201910333878A CN 110059149 A CN110059149 A CN 110059149A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- subregion
- statistical information
- data subregion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电子地图空间关键字查询分布式索引系统和方法,该方法包括如下步骤:S1,分区:通过Spark平台的数据分区抽象接口将原始数据进行分割后映射到集群的各节点,在各节点形成数据分区;S2,局部索引构建:在各个数据分区分别构建一个索引文件,同时收集各个数据分区的统计信息;S3,全局索引构建:使用局部索引构建收集的统计信息,在主节点构建全局索引。本发明能够增加关键字查询的吞吐量,降低索引成本,减少系统的响应延迟。
Description
技术领域
本发明属于定位技术领域,具体来说涉及一种基于Spark平台的电子地图空间关键字查询分布式索引系统,以及基于该系统所实现的一种分布式索引方法。
背景技术
近年来随着通信技术的发展和移动终端的广泛使用,基于位置的社会服务层出不穷。空间关键字查询是以用户的地理位置信息和多个查询关键字作为参数,返回和这些参数有着空间和文本相关度的空间对象。在一个查询中,构建有效的索引结构,可以极大地提高查询效率。对于一个空间中的索引,是指将对象的位置信息,大小形状等按照一定 结构排列的一种数据结构。现有的空间关键字查询系统,其查询吞吐量较小,在数据大小增加时文本数据的索引成本会快速增长的问题。因此,如何开发出一种新型的空间关键字查询分布式索引系统,能够增加关键字查询的吞吐量,降低索引成本,减少系统的响应延迟。是本领域技术人员需要研究的方向。以下为本申请中所涉及的字母缩写的注释:R-tree:B-tree向多维空间发展的另一种形式,它将空间对象按范围划分,每个结点都对应一个区域和一个磁盘页,非叶结点的磁盘页中存储其所有子结点的区域范围,非叶结点的所有子结点的区域都落在它的区域范围之内。IR-tree:以倒排索引和R-tree索引为基础,通过倒排索引解决文本相似度的计算模型。BFIR-tree:基于海量数据处理实现的IR-tree;CBFIR-tree:动态的BFIR-tree;S2I-V结构:对不同频率的关键字应被区别处理的模型结构;eBRQ:基于关键字包含的范围查询;aBRQ:基于近似关键字包含的k最近邻查询;falsepositive:误检率;。KNN算法:即临近算法,是数据挖掘分类技术中最简单的方法之一。I-Node:一个叶子R树节点,它存储了将每个关键字映射到空间关键字对象的倒排列表。
发明内容
本发明要解决的技术问题是提供了一种基于Spark平台的电子地图空间关键字查询分布式索引系统,能够增加关键字查询的吞吐量,降低索引成本,减少系统的响应延迟。
其采用的技术方案如下:
一种电子地图空间关键字查询分布式索引方法,其包括如下步骤:S1,分区:通过Spark平台的数据分区抽象接口将原始数据进行分割后映射到集群的各节点,在各节点形成数据分区;S2,局部索引构建:在各个数据分区分别构建一个索引文件,同时收集各个数据分区的统计信息;S3,全局索引构建:使用局部索引构建收集的统计信息,在主节点构建全局索引。
优选的是,上述电子地图空间关键字查询分布式索引方法中:步骤S1包括如下步骤:S11:基于空间分区对原始数据进行数据分割、确定各数据分区的最小边界矩形;S12:基于S11所得各数据分区的最小边界矩形构建一个临时的R-tree,将各个数据对象映射到对应的集群节点上,在各节点处构成数据分区。
更优选的是,上述电子地图空间关键字查询分布式索引方法中:步骤S2中所述统计信息包括采用(id,MBR,β)形式的空间统计信息和文本统计信息,所述id为数据分区标识,所述MBR为数据分区的最小边界矩形。所述β为数据分区的文本摘要数据。
进一步优选的是,上述电子地图空间关键字查询分布式索引方法中:所述步骤S3采用布隆过滤器作为文本摘要。
通过采用上述方案:基于现有技术中广泛使用的Spark平台实现对内存计算的分布式环境的支持。构建了两级索引框架,在实际的关键字查询工作中,首先利用全局索引对不相关的分区进行剪枝处理、实现对关键字的初步过滤,随后在指定的数据分区中进行二次精确查询。从而为其他查询释放CPU资源,显著提高空间关键字查询的吞吐量,降低索引成本,减少系统的响应延迟。
为实现上述分布式索引系统,本发明还提供了一种应用于电子地图的分布式索引系统。
其采用的方案如下:
一种电子地图空间关键字查询分布式索引系统,其包括:一个主节点,多个从节点,原始数据源,分区模块,局部索引模块和全局索引模块;所述分区模块用于连接和读取原始数据源、将原始数据进行分割后映射到各个从节点,在各个从节点分别形成数据分区;所述局部索引模块分别连接各个从节点、用于对各个数据分区构建一个索引文件,并收集各个数据分区的统计信息;所述全局索引模块连接局部索引模块和主节点,用于读取局部索引模块收集的各个数据分区的统计信息并在主节点构成全局索引。
与现有技术相比,本发明能够增加关键字查询的吞吐量,降低索引成本,减少系统的响应延迟。
附图说明
下面结合附图与具体实施方式对本发明作进一步详细的说明:
图1为实施例1的结构示意图;
图2为实施例1的工作流程示意图。
各附图标记与部件名称对应关系如下:
1、主节点;2、从节点;3、原始数据源;4、分区模块;5、局部索引模块;6、全局索引模块。
具体实施方式
为了更清楚地说明本发明的技术方案,下面将结合各个实施例作进一步描述。
如图1-2所示为实施例1:
一种空间关键字查询分布式索引系统,其包括:一个主节点1,多个从节点2,原始数据源3,分区模块4,局部索引模块5和全局索引模块6;所述分区模块4用于连接和读取原始数据源3、将原始数据进行分割后映射到各个从节点2,在各个从节点2分别形成数据分区;所述局部索引模块5分别连接各个从节点2、用于对各个数据分区构建一个索引文件,并收集各个数据分区的统计信息;所述全局索引模块6连接局部索引模块5和主节点1、读取局部索引模块5收集的各个数据分区的统计信息并在主节点1构成全局索引。
实践中,其工作过程如图2所示:
S11:基于空间分区对原始数据进行数据分割、确定各数据分区的最小边界矩形;
S12:基于S11所得各数据分区的最小边界矩形构建一个临时的R-tree,将各个数据对象映射到对应的集群节点上,在各节点处构成数据分区;
S2,局部索引构建:在各个数据分区分别构建一个索引文件,同时收集各个数据分区的统计信息。其中,所述统计信息包括采用(id,MBR,β)形式的空间统计信息和文本统计信息,所述id用于表示标识数据分区,所述MBR为各数据分区的最小边界矩形。
S3,全局索引构建:使用局部索引构建收集的统计信息,在主节点构建全局索引,采用技术过滤器(布隆过滤器)作为文本摘要。
基于空间分布式系统Simba系统进行扩展支持了相应的空间关键字查询,并作为实验对比系统。在查询中,基于海量的TX-CA数据集(2600万条数据)进行了实验对比。通过开启多线程对500条测试查询进行了并发执行,实验对比主要关注平均处理延时和吞吐量两个指标。其中,平均处理延时为500条查询总计耗时除以500得到,吞吐量为每分钟执行的查询数目。实验对比数据如下:
基于TX-CA数据集的平均处理延时如下表1:
表1
基于TX-CA数据集的吞吐量(对查询范围百分比进行变化)如下表2:
表2
因此,本发明的技术方案适用于大众点评等基于地理位置的服务应用。
以上所述,仅为本发明的具体实施例,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围以权利要求书的保护范围为准。
Claims (5)
1.一种电子地图空间关键字查询分布式索引方法,其特征在于,包括如下步骤:
S1,分区:通过Spark平台的数据分区抽象接口将原始数据进行分割后映射到集群的各节点,在各节点形成数据分区;
S2,局部索引构建:在各个数据分区分别构建一个索引文件,同时收集各个数据分区的统计信息;
S3,全局索引构建:使用局部索引构建收集的统计信息,在主节点构建全局索引。
2.如权利要求1所述空间关键字查询分布式索引方法,其特征在于:步骤S1包括如下步骤:
S11:基于空间分区对原始数据进行数据分割、确定各数据分区的最小边界矩形;
S12:基于S11所得各数据分区的最小边界矩形构建一个临时的R-tree,将各个数据对象映射到对应的集群节点上,在各节点处构成数据分区。
3.如权利要求1所述电子地图空间关键字查询分布式索引方法,其特征在于:步骤S2中所述统计信息包括采用(id,MBR,β)形式的空间统计信息和文本统计信息,所述id为数据分区标识,所述MBR为数据分区的最小边界矩形,所述β为数据分区的文本摘要数据。
4.如权利要求3所述电子地图空间关键字查询分布式索引方法,其特征在于:所述步骤S3采用布隆过滤器作为文本摘要。
5.一种电子地图空间关键字查询分布式索引系统,其特征在于,包括:一个主节点(1),多个从节点(2),原始数据源(3),分区模块(4),局部索引模块(5)和全局索引模块(6);所述分区模块(4)用于连接和读取原始数据源(3)、将原始数据进行分割后映射到各个从节点(2),在各个从节点(2)分别形成数据分区;所述局部索引模块(5)分别连接各个从节点(2)、用于对各个数据分区构建一个索引文件,并收集各个数据分区的统计信息;所述全局索引模块(6)连接局部索引模块(5)和主节点(1),用于读取局部索引模块(5)收集的各个数据分区的统计信息并在主节点(1)构成全局索引。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333878.XA CN110059149A (zh) | 2019-04-24 | 2019-04-24 | 电子地图空间关键字查询分布式索引系统和方法 |
PCT/CN2019/088772 WO2020215438A1 (zh) | 2019-04-24 | 2019-05-28 | 电子地图空间关键字查询分布式索引系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333878.XA CN110059149A (zh) | 2019-04-24 | 2019-04-24 | 电子地图空间关键字查询分布式索引系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110059149A true CN110059149A (zh) | 2019-07-26 |
Family
ID=67320479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333878.XA Pending CN110059149A (zh) | 2019-04-24 | 2019-04-24 | 电子地图空间关键字查询分布式索引系统和方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110059149A (zh) |
WO (1) | WO2020215438A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597935A (zh) * | 2019-08-05 | 2019-12-20 | 北京云和时空科技有限公司 | 一种空间分析方法和装置 |
CN111026750A (zh) * | 2019-11-18 | 2020-04-17 | 中南民族大学 | 用AIR树解决SKQwhy-not问题的方法及系统 |
CN111708851A (zh) * | 2020-04-26 | 2020-09-25 | 上海容易网电子商务股份有限公司 | 一种2d地图数据动态解析缓存方法 |
CN116821279B (zh) * | 2023-06-06 | 2024-06-07 | 哈尔滨理工大学 | 一种带排斥关键字的空间关键字查询方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804556A (zh) * | 2018-05-22 | 2018-11-13 | 上海交通大学 | 基于时间旅行和时态聚合查询的分布式处理框架系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9081854B2 (en) * | 2012-07-06 | 2015-07-14 | Hewlett-Packard Development Company, L.P. | Multilabel classification by a hierarchy |
CN108932347B (zh) * | 2018-08-03 | 2021-11-16 | 东北大学 | 一种分布式环境下基于社会感知的空间关键字查询方法 |
-
2019
- 2019-04-24 CN CN201910333878.XA patent/CN110059149A/zh active Pending
- 2019-05-28 WO PCT/CN2019/088772 patent/WO2020215438A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804556A (zh) * | 2018-05-22 | 2018-11-13 | 上海交通大学 | 基于时间旅行和时态聚合查询的分布式处理框架系统 |
Non-Patent Citations (1)
Title |
---|
徐阳等: "基于分布式平台Spark的空间文本查询分析", 《华东师范大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597935A (zh) * | 2019-08-05 | 2019-12-20 | 北京云和时空科技有限公司 | 一种空间分析方法和装置 |
CN111026750A (zh) * | 2019-11-18 | 2020-04-17 | 中南民族大学 | 用AIR树解决SKQwhy-not问题的方法及系统 |
CN111026750B (zh) * | 2019-11-18 | 2023-06-30 | 中南民族大学 | 用AIR树解决SKQwhy-not问题的方法及系统 |
CN111708851A (zh) * | 2020-04-26 | 2020-09-25 | 上海容易网电子商务股份有限公司 | 一种2d地图数据动态解析缓存方法 |
CN116821279B (zh) * | 2023-06-06 | 2024-06-07 | 哈尔滨理工大学 | 一种带排斥关键字的空间关键字查询方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020215438A1 (zh) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103020204B (zh) | 一种对分布式顺序表进行多维区间查询的方法及其系统 | |
CN103631909B (zh) | 对大规模结构化和非结构化数据联合处理的系统及方法 | |
CN110059149A (zh) | 电子地图空间关键字查询分布式索引系统和方法 | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
Mahmood et al. | FAST: frequency-aware indexing for spatio-textual data streams | |
TW201905733A (zh) | 多源資料融合方法和裝置 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
WO2016127879A1 (zh) | 一种确定热点区域的方法和装置 | |
CN106682042B (zh) | 一种关系数据缓存及查询方法及装置 | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
JP2009134463A (ja) | 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体 | |
Zhang et al. | Augmented keyword search on spatial entity databases | |
Ding et al. | Massive heterogeneous sensor data management in the Internet of Things | |
Zhao et al. | Towards efficient framework for time-aware spatial keyword queries on road networks | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Azri et al. | Dendrogram clustering for 3D data analytics in smart city | |
CN104615734A (zh) | 一种社区管理服务大数据处理系统及其处理方法 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
WO2020215437A1 (zh) | 应用于电子地图的空间关键字查询的近似搜索方法 | |
CN101266607A (zh) | 基于最大间隙空间映射的高维数据索引方法 | |
US8533196B2 (en) | Information processing device, processing method, computer program, and integrated circuit | |
CN107256222B (zh) | 基于自由词检索的电子病历快速检索系统 | |
Shan et al. | Extract human mobility patterns powered by city semantic diagram | |
Mahmood et al. | FAST: frequency-aware spatio-textual indexing for in-memory continuous filter query processing | |
Pat et al. | Where's Waldo? Geosocial Search over Myriad Geotagged Posts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190726 |
|
WD01 | Invention patent application deemed withdrawn after publication |