CN112463904B - 一种分布式空间矢量数据与单点空间数据混合分析方法 - Google Patents

一种分布式空间矢量数据与单点空间数据混合分析方法 Download PDF

Info

Publication number
CN112463904B
CN112463904B CN202011366648.2A CN202011366648A CN112463904B CN 112463904 B CN112463904 B CN 112463904B CN 202011366648 A CN202011366648 A CN 202011366648A CN 112463904 B CN112463904 B CN 112463904B
Authority
CN
China
Prior art keywords
data
analysis
distributed
pulled
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011366648.2A
Other languages
English (en)
Other versions
CN112463904A (zh
Inventor
李三玉
郑波
郑良
李金振
胡剑锋
吴宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Kingtopware Information Technology Co ltd
Original Assignee
Hubei Kingtopware Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Kingtopware Information Technology Co ltd filed Critical Hubei Kingtopware Information Technology Co ltd
Priority to CN202011366648.2A priority Critical patent/CN112463904B/zh
Publication of CN112463904A publication Critical patent/CN112463904A/zh
Application granted granted Critical
Publication of CN112463904B publication Critical patent/CN112463904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及地理信息技术领域,特别涉及一种分布式空间矢量数据与单点空间数据混合分析方法。本发明的方法根据不同的空间分析算法特点,同时改进分析流程,第一步先将两者数据的索引进行预分析,以预分析的结果来筛选出需要拉取的数据量(尽可能的避免拉取所有数据),并自动选择数据拉拽始终为少向多的方向,尽可能的减少网络和IO消耗,从而提高分析性能,第二步才是相关数据的分析。本发明同时解决了分布式与单点混合存储架构下的数据统一调度问题。

Description

一种分布式空间矢量数据与单点空间数据混合分析方法
技术领域
本发明涉及地理信息(GIS)技术领域,特别涉及一种分布式空间矢量数据与单点空间数据混合分析方法。
背景技术
由于大规模矢量大数据以分布式的形式存储在HDFS和HBASE中,而小规模矢量数据简单存储在PostGIS或Oracle等关系型数据库中,当这两者存储在不同地方的数据需要进行空间分析(如叠加等)的时候,以往是需要快速将小规模数据拉向大规模空间数据存储的位置,然后再充分利用本地的计算能力,但是现实情况往往会遇到相对小的数据与大规模数据的大小相近,对网络的压力和内存、CPU等计算资源的消耗都是巨大的。
而在软硬件环境不变的情况下,影响分布式分析算法的性能因素主要包括:计算节点本地资源利用率、IO吞吐量、网络吞吐量等。
发明内容
针对现有技术的不同,本发明首创提出分布式空间矢量数据与单点空间数据混合分析发明,目的在于提高计算节点本地资源利用率、降低IO吞吐量和网络吞吐量,以提升分布式分析算法性能。
本发明的技术方案是:一种分布式空间矢量数据与单点空间数据混合分析方法,其特征在于:包括以下步骤:
步骤1先将分布式空间矢量数据与单点空间数据建立R-TEE索引并利用R-TEE索引的外包矩形进行预分析;
步骤2以预分析的结果来筛选出需要拉取的数据量;
步骤3自动选择数据拉拽始终为少向多的方向;
步骤4首次拉取时全局缓存起来,第二次拉取时,直接从缓存中读数据;
步骤5其他节点从缓存中读数据,从缓存中读数据时,传入图层缓存数据的键值将缓存对象读出来,键值=图层名+扇区名;
步骤6通过虚拟分布式图层将小规模矢量数据映射成矢量大数据所采用的分布式图层;
步骤7两个图层的数据拉取到一块后,进行叠加相交分析,分析时将两个图层的要素逐一进行相交分析,最后将分析结果返回;
步骤8淘汰前根据键值到缓存对象中找到对应的数据,然后将找到的数据逐个删除清空。
根据如上所述的一种分布式空间矢量数据与单点空间数据混合分析方法,其特征在于:步骤1中R-Tree具体过程为:对象数为n,扇区大小定为fan,
(1)估计叶结点数k=n/fan;
(2)将所有几何对象按照其矩形外框中心点的x值排序;
(3)将排序后的对象分组,每组大小为*fan,最后一组可能不满员;
(4)上述每一分组内按照几何对象矩形外框中心点的y值排序;
(5)排序后每一分组内再分组,每组大小为fan;
(6)每一小组成为叶结点,叶子结点数为nn;
(7)N=nn,返回1。
根据如上所述的一种分布式空间矢量数据与单点空间数据混合分析方法,其特征在于:步骤1中预分析时,先用两个图层的二级索引进行相交分析,如果外包矩形都不相交,则排除掉;二级索引相交的扇区里面的数据是要拉取的数据。
本发明的有益效果是:一是解决大部分分布式空间矢量数据与单点空间数据混合分析问题,一般分布式空间矢量数据为大规模,单点空间数据相对为小规模。二是大规模空间矢量数据和小规模空间矢量数据通过空间索引预分析筛选需要拉取的数据量。三是采用算法框架解决同类型的一系列算法的数据调度问题。
附图说明
图1为本发明的结构示意图。
图2为本发明的流程示意图。
具体实施方式
本发明首创提出分布式空间矢量数据与单点空间数据智适应混合分析算法框架,该框架根据不同的空间分析算法特点,同时改进分析流程。
如图1和图2所示,本发明的一种分布式空间矢量数据与单点空间数据混合分析方法包括以下步骤:
步骤1先将两者数据建立R-TEE索引并利用R-TEE索引的外包矩形进行预分析
R-Tree算法描述
对象数为n,扇区大小定为fan。
(1)估计叶结点数k=n/fan。
(2)将所有几何对象按照其矩形外框中心点的x值排序。
(3)将排序后的对象分组,每组大小为*fan,最后一组可能不满员。
(4)上述每一分组内按照几何对象矩形外框中心点的y值排序。
(5)排序后每一分组内再分组,每组大小为fan。
(6)每一小组成为叶结点,叶子结点数为nn。
(7)N=nn,返回1。
实际应用中可以直接调用JTS函数构建R-Tree索引,大规模空间矢量数据通常构建的是二级索引,构建R-Tree时,可以指定R-Tree的扇区大小,如10000条记录为一个扇区,构建完成后,每个扇区都有一个大的外包矩形,这些扇区的大外包矩形就构成了二级索引,如叠加相交分析,预分析时,可以先用两个图层的二级索引即扇区的大外包矩形进行相交分析,如果外包矩形都不相交,那里面的要素肯定不相交,马上就可以排除掉,如图1所示。
步骤2以预分析的结果来筛选出需要拉取的数据量(尽可能的避免拉取所有数据)
只有当扇区的外包矩形相交时,里面的要素才可能相交,预分析时,把二级索引相交的扇区对都找出来,里面的数据就是要拉取的数据,扇区不相交的数据就都排除掉,不用拉取。
步骤3自动选择数据拉拽始终为少向多的方向
二级索引相交的扇区对找出来后,对配对按图层名进行分组,比较图层1与图层2出现的扇区数,拉取时自动选择少的向多的方向拉取。
步骤4为避免并行分析的各个子节点都去集群外拉取同一份小数据,首次拉取时就全局缓存起来,第二次拉取时,直接从缓存中读数据。
步骤5其他节点从缓存中读数据,从缓存中读数据时,传入图层缓存数据的键值就可以将缓存对象读出来,键值=图层名+扇区名。
步骤6该算法框架还同时通过虚拟分布式图层,虚拟分布式图层VRT是将传统小规模数据源如PostGIS或Oracle等关系型数据库中的小规模矢量数据映射成矢量大数据所采用的分布式图层。
虚拟分布式图层VRT:可以被所有方法使用,用作中间图层时节省空间和时间。
目的:将分布在不同节点上的图层,合成一个图层使用。
原理:VRT使用一个XML文件,读取并将多个分布在不同节点上的图层动态合成。
虚拟分布式图层解决了分布式与单点混合存储架构下的数据统一调度问题。
步骤7相关数据的分析
两个图层的数据拉取到一块后,就可以进行叠加相交分析了,分析时将两个图层的要素逐一利用JTS库的intersection进行相交分析,最后将分析结果返回。
步骤8用完后淘汰,淘汰前根据键值到缓存对象中找到对应的数据,然后将找到的数据逐个删除清空,尽可能的减少网络和IO消耗,从而提高分析性能。
本发明的方法根据不同的空间分析算法特点,同时改进分析流程,第一步先将两者数据的索引(如:外包矩形或R-RTEE)进行预分析,以预分析的结果来筛选出需要拉取的数据量(尽可能的避免拉取所有数据),并自动选择数据拉拽始终为少向多的方向,尽可能的减少网络和IO消耗,从而提高分析性能,第二步才是相关数据的分析。本发明还同时解决了分布式与单点混合存储架构下的数据统一调度问题。

Claims (1)

1.一种分布式空间矢量数据与单点空间数据混合分析方法,其特征在于:包括以下步骤:
步骤1 先将分布式空间矢量数据与单点空间数据建立R-Tree索引并利用R-Tree索引的外包矩形进行预分析;每个扇区有一个大的外包矩形,大外包矩形构成二级索引;预分析时,先用两个图层的二级索引进行相交分析,如果外包矩形都不相交,则排除掉;二级索引相交的扇区里面的数据是要拉取的数据;
步骤2以预分析的结果来筛选出需要拉取的数据量;
步骤3自动选择数据拉拽始终为少向多的方向;
步骤4首次拉取时全局缓存起来,第二次拉取时,直接从缓存中读数据;
步骤5其他节点从缓存中读数据,从缓存中读数据时,传入图层缓存数据的键值将缓存对象读出来,键值=图层名+扇区名;
步骤6通过虚拟分布式图层将小规模矢量数据映射成矢量大数据所采用的分布式图层;
步骤7 两个图层的数据拉取到一块后,进行叠加相交分析,分析时将两个图层的要素逐一进行相交分析,最后将分析结果返回;
步骤8淘汰前根据键值到缓存对象中找到对应的数据,然后将找到的数据逐个删除清空;步骤1中R-Tree具体过程为:对象数为n,扇区大小定为fan,
(1)估计叶结点数k=n/fan;
(2)将所有几何对象按照其矩形外框中心点的x值排序;
(3)将排序后的对象分组,每组大小为 *fan,最后一组可能不满员;
(4)上述每一分组内按照几何对象矩形外框中心点的y值排序;
(5)排序后每一分组内再分组,每组大小为fan;
(6)每一小组成为叶结点,叶子结点数为nn;
(7)N=nn,返回1。
CN202011366648.2A 2020-11-30 2020-11-30 一种分布式空间矢量数据与单点空间数据混合分析方法 Active CN112463904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011366648.2A CN112463904B (zh) 2020-11-30 2020-11-30 一种分布式空间矢量数据与单点空间数据混合分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011366648.2A CN112463904B (zh) 2020-11-30 2020-11-30 一种分布式空间矢量数据与单点空间数据混合分析方法

Publications (2)

Publication Number Publication Date
CN112463904A CN112463904A (zh) 2021-03-09
CN112463904B true CN112463904B (zh) 2022-07-01

Family

ID=74809373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011366648.2A Active CN112463904B (zh) 2020-11-30 2020-11-30 一种分布式空间矢量数据与单点空间数据混合分析方法

Country Status (1)

Country Link
CN (1) CN112463904B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988904A (zh) * 2021-04-23 2021-06-18 广州汇智通信技术有限公司 一种分布式数据管理系统及数据存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101304856B1 (ko) * 2012-09-18 2013-09-05 (주)지오투정보기술 수치지도 서비스 속도 향상을 위한 공간데이터 관리 방법 및 시스템
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN110597935A (zh) * 2019-08-05 2019-12-20 北京云和时空科技有限公司 一种空间分析方法和装置
CN110888880A (zh) * 2019-11-19 2020-03-17 武汉光谷信息技术股份有限公司 基于空间索引的邻近分析方法、装置、设备及介质
CN111274335A (zh) * 2019-07-25 2020-06-12 北京计算机技术及应用研究所 一种面向空间叠加分析的快速实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101304856B1 (ko) * 2012-09-18 2013-09-05 (주)지오투정보기술 수치지도 서비스 속도 향상을 위한 공간데이터 관리 방법 및 시스템
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN111274335A (zh) * 2019-07-25 2020-06-12 北京计算机技术及应用研究所 一种面向空间叠加分析的快速实现方法
CN110597935A (zh) * 2019-08-05 2019-12-20 北京云和时空科技有限公司 一种空间分析方法和装置
CN110888880A (zh) * 2019-11-19 2020-03-17 武汉光谷信息技术股份有限公司 基于空间索引的邻近分析方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈永康.地理空间索引R树算法的一种改进.《生态经济学报》.2007,279-284. *

Also Published As

Publication number Publication date
CN112463904A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN109284338B (zh) 一种基于混合索引的卫星遥感大数据优化查询方法
CN111291016B (zh) 一种海量遥感影像数据分层混合存储与索引方法
CN108563923B (zh) 一种基因变异数据分布式存储方法及系统
Nishimura et al. -HBase: design and implementation of an elastic data infrastructure for cloud-scale location services
CN106528773B (zh) 一种基于Spark平台支持空间数据管理的图计算系统及方法
Nishimura et al. MD-HBase: A scalable multi-dimensional data infrastructure for location aware services
Wang et al. Supporting a light-weight data management layer over hdf5
Goil et al. A parallel scalable infrastructure for OLAP and data mining
US9141666B2 (en) Incremental maintenance of range-partitioned statistics for query optimization
CN105488231A (zh) 一种基于自适应表维度划分的大数据处理方法
Siqueira et al. The SB-index and the HSB-index: efficient indices for spatial data warehouses
US20230103328A1 (en) Data compression techniques
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
CN103324765A (zh) 一种基于列存储的多核并行数据查询优化方法
CN111078634A (zh) 一种基于r树的分布式时空数据索引方法
Han et al. Scatter-gather-merge: An efficient star-join query processing algorithm for data-parallel frameworks
US20230418824A1 (en) Workload-aware column inprints
CN112463904B (zh) 一种分布式空间矢量数据与单点空间数据混合分析方法
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、系统及装置
US8832157B1 (en) System, method, and computer-readable medium that facilitates efficient processing of distinct counts on several columns in a parallel processing system
CN116126901A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
Yang et al. A dynamic balanced quadtree for real-time streaming data
Li et al. SP-phoenix: a massive spatial point data management system based on phoenix
Zou et al. AMR-aware in situ indexing and scalable querying
Wang et al. Spatial queries based on learned index

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant