CN115495429A - 一种基于Hadoop集群的海量空间数据质检方法和系统 - Google Patents

一种基于Hadoop集群的海量空间数据质检方法和系统 Download PDF

Info

Publication number
CN115495429A
CN115495429A CN202211056625.0A CN202211056625A CN115495429A CN 115495429 A CN115495429 A CN 115495429A CN 202211056625 A CN202211056625 A CN 202211056625A CN 115495429 A CN115495429 A CN 115495429A
Authority
CN
China
Prior art keywords
data
quality inspection
spatial
spatial data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211056625.0A
Other languages
English (en)
Inventor
胡剑锋
罗顶林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feiwei Information Technology Co ltd
Original Assignee
Shanghai Feiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feiwei Information Technology Co ltd filed Critical Shanghai Feiwei Information Technology Co ltd
Priority to CN202211056625.0A priority Critical patent/CN115495429A/zh
Publication of CN115495429A publication Critical patent/CN115495429A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop集群的海量空间数据质检方法和系统,分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述。本发明主要解决海量空间数据质检工作效率低,耗时费力,影像数据入库效率的问题,使用该方法和系统可以将海量空间数据的图形和属性的多个质检规则在数分钟内完成质检,提高空间数据入库效率。

Description

一种基于Hadoop集群的海量空间数据质检方法和系统
技术领域
本发明涉及空间数据质检技术领域,具体为一种基于Hadoop集群的海量空间数据质检方法和系统。
背景技术
随着对地卫星观测系统的发展,人们对于遥感数据尤其是遥感影像数据的获取能力不断提升,因此人们获得的遥感影像数据逐步呈现多源、多尺度、多时相、全球覆盖和高分辨率特征,同时数据量呈爆炸性式长,现今已经达到了PB数据量级,对地观测手段的丰富,使得遥感影像数据的来源越来越多,越来越广,而不同的数据来源手段产生的数据的图幅大小、分辨率大小、图像的命名格式等不尽相同,而应对海量空间数据质检时工作效率低,耗时费力,影像数据入库效率,同时无法将海量空间数据的图形和属性的多个质检规则在数分钟内完成,在一定程度上降低了空间数据入库效率。
发明内容
本发明的目的在于提供一种基于Hadoop集群的海量空间数据质检方法和系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于Hadoop集群的海量空间数据质检方法,其生产方法包括以下步骤:
1、存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;
2、索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式;
3、并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则。
优选的,所述把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。
优选的,所述采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。
优选的,所述利用分布式存储的特点,同时在所有存储数据的节点上运行质检算法,主节点负责质检任务的分发和质检结果的汇总。
优选的,一种基于Hadoop集群的海量空间数据质检系统,主要包括数据集转换、数据发布、并行质检等功能:
1、数据集转换:针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算;
2、数据发布:提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引R-tree,并发布成数据服务,提供数据处理分析能力;
3、并行质检:对分布式存储系统的数据和已经发布的数据服务提供多种并行质检能力,包括属性检查、空间拓扑检查等。
与现有技术相比,本发明的有益效果如下:
1、本发明主要解决海量空间数据质检工作效率低,耗时费力,影像数据入库效率的问题,使用该方法和系统可以将海量空间数据的图形和属性的多个质检规则在数分钟内完成质检,输出质检结果,提高空间数据入库效率;
高效率:质检算法基于geotools实现,发挥内存计算的优势,提高了海量空间数据质检效率;
低成本:提供成熟的空间索引算法与数据转换,快速地与现在系统数据格式进行对接,降低使用成本;
易使用:基于该系统,提供标准的对接接口,方便服务调用与二次开发,发挥数据服务的能力。
2、本发明使用该系统对百万级地类图斑数据进行处理发布后,数据一般属性检查可以在秒级内返回检查结果,对于复杂的两个图层之间的相关检查在数分钟内得到检查结果;
基于分布式存储与内存计算,满足海量数据对于高效质检的要求;
开发多种数据质检算法,包括三十多种基础质检算法,可以自由组合,满足不同需求。
附图说明
图1为本发明质检流程图;
图2为本发明分布式存储图;
图3为本发明并行质检图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供如下技术方案:一种基于Hadoop集群的海量空间数据质检方法,其生产方法包括以下步骤:
1、存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;
2、索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式;
3、并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则。
一种基于Hadoop集群的海量空间数据质检系统,主要包括数据集转换、数据发布、并行质检等功能:
1、数据集转换:针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算;
2、数据发布:提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引R-tree,并发布成数据服务,提供数据处理分析能力;
3、并行质检:对分布式存储系统的数据和已经发布的数据服务提供多种并行质检能力,包括属性检查、空间拓扑检查等。
实施例一:
一种基于Hadoop集群的海量空间数据质检方法,其生产方法包括以下步骤:
1、存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式,把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中;
2、索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式,采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等;
3、并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则,利用分布式存储的特点,同时在所有存储数据的节点上运行质检算法,主节点负责质检任务的分发和质检结果的汇总。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于Hadoop集群的海量空间数据质检方法,其特征在于:其生产方法包括以下步骤:(1)存储:分布式文件系统是一个高度容错性的系统,适合部署在廉价的机器上,能提供高吞吐量的数据访问,适合超大数据集的应用,根据分布式存储的特点,将SHP或GDB格式的矢量数据转化为易于分块的CSV文件格式;
(2)索引创建:依赖于分布式文件系统,将传统的GIS数据文件分解到分布式文件系统中,并在此基础上,构建基于分布式的空间数据索引,对于所有录入到系统的空间数据都有数据元表进行描述,在数据元表中对数据都进行了标识,每个独立的空间数据都有空间索引数据加速空间数据的查询以及分析,空间数据的索引是多级索引的方式;
(3)并行质检:基于geotools开发针对空间数据的质检算法,包括数据字典、数据唯一性、相交、重叠等检查规则。
2.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述把空间信息存储到WKB字符串中,存储分块大小设置为64MB,通过hdfs提供的接口将CSV格式的矢量数据上传到分布式存储系统中。
3.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述采用分布式集群索引的方式,根据数据的类型、数据量以及操作模式构建不同的空间数据索引集群,空间数据索引集群是一个逻辑控制节点,其记录了此集群中数据存储的节点信息,数据的类型,数据的分布情况,数据的元数据信息等。
4.根据权利要求1所述的一种基于Hadoop集群的海量空间数据质检方法,其特征在于:所述利用分布式存储的特点,同时在所有存储数据的节点上运行质检算法,主节点负责质检任务的分发和质检结果的汇总。
5.一种基于Hadoop集群的海量空间数据质检系统,其特征在于:主要包括数据集转换、数据发布、并行质检等功能:
(1)数据集转换:针对SHP和GDB数据开发了数据格式转换工具,将数据库形式空间数据转换为CSV格式存储,便于大规模空间数据的分布与并行计算;
(2)数据发布:提供基于hdfs分布式存储的云盘系统,将CSV格式数据文件上传到分布式存储系统,并建立空间索引R-tree,并发布成数据服务,提供数据处理分析能力;
(3)并行质检:对分布式存储系统的数据和已经发布的数据服务提供多种并行质检能力,包括属性检查、空间拓扑检查等。
CN202211056625.0A 2022-08-31 2022-08-31 一种基于Hadoop集群的海量空间数据质检方法和系统 Pending CN115495429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211056625.0A CN115495429A (zh) 2022-08-31 2022-08-31 一种基于Hadoop集群的海量空间数据质检方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211056625.0A CN115495429A (zh) 2022-08-31 2022-08-31 一种基于Hadoop集群的海量空间数据质检方法和系统

Publications (1)

Publication Number Publication Date
CN115495429A true CN115495429A (zh) 2022-12-20

Family

ID=84468473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211056625.0A Pending CN115495429A (zh) 2022-08-31 2022-08-31 一种基于Hadoop集群的海量空间数据质检方法和系统

Country Status (1)

Country Link
CN (1) CN115495429A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756258A (zh) * 2023-06-06 2023-09-15 北京捷泰云际信息技术有限公司 一种面向数据湖中空间矢量数据的质量检查方法
CN117573327A (zh) * 2024-01-15 2024-02-20 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756258A (zh) * 2023-06-06 2023-09-15 北京捷泰云际信息技术有限公司 一种面向数据湖中空间矢量数据的质量检查方法
CN116756258B (zh) * 2023-06-06 2024-03-15 易智瑞信息技术有限公司 一种面向数据湖中空间矢量数据的质量检查方法
CN117573327A (zh) * 2024-01-15 2024-02-20 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质
CN117573327B (zh) * 2024-01-15 2024-04-16 吉奥时空信息技术股份有限公司 一种智能调度和趋势监控的方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110059067B (zh) 一种水利空间矢量大数据存储管理方法
CN115495429A (zh) 一种基于Hadoop集群的海量空间数据质检方法和系统
CN102521386B (zh) 基于集群存储的空间元数据分组方法
CN109582667A (zh) 一种基于电力调控大数据的多数据库混合存储方法及系统
CN111639082B (zh) 基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
CN111291016A (zh) 一种海量遥感影像数据分层混合存储与索引方法
Wang et al. Research and implementation on spatial data storage and operation based on Hadoop platform
US7640257B2 (en) Spatial join in a parallel database management system
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN114647716B (zh) 一种适用于泛化数据仓库的系统
CN103995861A (zh) 一种基于空间关联的分布式数据装置、方法及系统
CN104317966A (zh) 一种用于电力大数据快速组合查询的动态索引方法
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN108009265B (zh) 一种云计算环境下的空间数据索引方法
CN103177103A (zh) 一种三维地理信息系统管理平台
CN104123388A (zh) 一种面向海量传感网数据的高并发实时接入系统及方法
CN116860905A (zh) 一种城市信息模型的空间单元编码生成方法
CN113742505A (zh) 一种海量合成孔径雷达干涉测量(InSAR)数据在线可视化方法
CN113282568B (zh) 一种iot大数据实时时序流分析应用技术方法
Li et al. SP-phoenix: a massive spatial point data management system based on phoenix
KR102028487B1 (ko) 문서의 토픽 모델링 장치 및 방법, 이를 기록한 기록매체
Yang et al. Non-Uniform Spatial Partitions and Optimized Trajectory Segments for Storage and Indexing of Massive GPS Trajectory Data
Rui Design and Implementation of Geographic Information Service System Based on Big Data Platform
CN110738586A (zh) 一种基于cimiss和综合库数据的气象综合业务系统
Kai et al. Research on Spatial Database Technology Based on Arcsde

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination