CN106611046A - 基于大数据技术的空间数据存储处理中间件框架 - Google Patents

基于大数据技术的空间数据存储处理中间件框架 Download PDF

Info

Publication number
CN106611046A
CN106611046A CN201611169591.0A CN201611169591A CN106611046A CN 106611046 A CN106611046 A CN 106611046A CN 201611169591 A CN201611169591 A CN 201611169591A CN 106611046 A CN106611046 A CN 106611046A
Authority
CN
China
Prior art keywords
data
distributed
hbase
mapgis
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611169591.0A
Other languages
English (en)
Other versions
CN106611046B (zh
Inventor
吴信才
吴亮
万波
谢忠
左泽均
陈占龙
周林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZONDY CYBER TECHNOLOGY CO LTD
WUHAN ZONDY CYBER CO Ltd
Original Assignee
BEIJING ZONDY CYBER TECHNOLOGY CO LTD
WUHAN ZONDY CYBER CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZONDY CYBER TECHNOLOGY CO LTD, WUHAN ZONDY CYBER CO Ltd filed Critical BEIJING ZONDY CYBER TECHNOLOGY CO LTD
Priority to CN201611169591.0A priority Critical patent/CN106611046B/zh
Publication of CN106611046A publication Critical patent/CN106611046A/zh
Application granted granted Critical
Publication of CN106611046B publication Critical patent/CN106611046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据技术的空间数据存储处理中间件框架,该框架可提供给用户一种对现有多源异构的结构化数据与非结构化数据混合的数据内容进行快速获取的方法,并采用主流的大数据存取工具来提高分布式存储效率。本发明的基于大数据技术的空间数据存储处理中间件框架通过对多源异构空间数据进行提取、转换、加载,构建多样化碎片化非结构化数据分布式虚拟化存储框架,为后续的空间大数据分析、挖掘提供可直接读取的数据内容。

Description

基于大数据技术的空间数据存储处理中间件框架
技术领域
本发明涉及一种基于大数据技术的空间数据存储处理中间件框架,该框架可提供给用户一种对现有多源异构的结构化数据与非结构化数据混合的数据内容进行快速获取的方法,并采用主流的大数据存取工具来提高分布式存储效率。
背景技术
空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。
大数据(big data),指在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。分布式计算如今已经应用领域很宽泛并且变化,但与众不同之处在于Hadoop: (1)方便:在一般商用机器构成的大型集群上,或者像亚马逊弹性计算云(EC2)等云计算服务上,Hadoop都能支持运行。(2)健壮:在一般商用硬件上运行,硬件可能会出错,从而影响程序运行,但是Hadoop很好的避免的这类故障的发生。(3)可扩展:通过不断的增加计算节点可以很方便的扩展Hadoop集群,因此也能更好的处理大规模数据集。(4)编写有效率的并行代码,在Hadoop上变得方便快捷。由于Hadoop的这些天然的优势,让它在编写分布式大型程序方面优势明显。无论是公司还是个人,都能用很廉价的PC搭建出属于自己的Hadoop集群,用于研究分布式并行计算。也正是因为这些特性,在学术界和企业界大家都很青睐 Hadoop。
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS支持传统的层次型文件组织结构。用户或者应用程序可以根据需要创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和现有的大多数文件系统类似:用户可以对文件创建、删除、移动或重命名。目前,HDFS还不支持用户磁盘配额和访问权限的控制,也不支持文件硬链接和软链接,但是HDFS架构能很好的弥补这些特性。
HDFS具有能够在一个大集群中跨机器可靠地存储超大文件的特点。它将每个文件拆分成一系列的数据块,除了最后一个,其它的数据块都是同样大小。为了保证容错能力,文件的所有数据块都会有副本文件。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定任意某个文件的副本数目。副本系数既可以在文件创建的开始指定,也可以在之后改变。
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
发明内容
本发明要解决的技术问题是:在分布式计算机集群环境中,提供一种基于大数据技术的空间数据存储处理中间件框架,通过对多源异构空间数据进行提取、转换、加载,构建多样化碎片化非结构化数据分布式虚拟化存储框架,为后续的空间大数据分析、挖掘提供可直接读取的数据内容。
为了解决上述技术问题,本发明的一种基于大数据技术的空间数据存储处理中间件框架,其不同之处在于:其包括以下模块:
数据源模块101:空间大数据的数据源包括空间数据、互联网数据、日志流数据、本地数据文件、关系数据,上述数据源的数据格式包括GIS数据、文档数据、影像数据,上述数据以分散的方式存储在关系型数据库、空间数据库等不同种类的数据库节点中;
ETL工具模块102:ETL工具将分散存储的各种格式的数据源进行提取、转换、加载;
其中,ETL工具包括实时数据转换工具、自定义数据转换工具、空间数据转换工具三类;
这三类工具分别将数据源中对应的数据提取出来,转换为统一的可读取的格式;
关系型数据使用Sqoop工具来进行存取,空间数据使用空间数据转换工具进行存取;
HDFS分布式文件系统模块103:ETL工具提取并转换的部分数据如文件上载数据将分布式存储在HDFS分布式文件系统中;
HBase分布式数据库模块104:ETL工具提取并转换的部分数据如空间数据、实时数据等将分布式存储在HBase分布式数据库中;
数据关联RDF图数据库模块105:ETL工具提取转换数据源的数据并存储至分布式数据库的同时,将建立数据索引及语义目录,存储在数据关联图谱RDF里;
ZooKeeper协同服务模块106:协同管理分布式环境下的多个节点的HBaseregionserver的分布;
Ambari集群节点管理监控模块107:对分布式环境下集群中的节点进行可视化安装和监控。
按以上方案, ETL工具模块102中的数据提取转换步骤为: MapGIS数据存储在MapGIS数据库中,通过MapGIS转换工具将MapGIS数据库中的MapGIS数据导进到HBase分布式数据库中,同时,也可以将HBase的数据导进到MapGIS数据库中;
HDFS分布式文件系统模块103中的数据分布式存储步骤为:通过MapGIS Conversiontools for Hadoop工具将空间数据库中的MapGIS格式数据转换为Hadoop管理的文件格式MapGIS Conversion tools for Hadoop工具,将经过转换的MapGIS空间数据存储在分布式数据库HBase里,将上述工具提取MapGIS格式的地理范围、注记文本内容存储到内容库(HBase)中,注记文本内容的提取使得根据内容检索图件成为可能,区别于非矢量图件只能按文件名的检索方式,GIS图件信息成为内容库的组成部分,与成果资料内容一起,用于支撑着空间大数据数据挖掘。
按以上方案, 数据关联RDF图数据库模块105中的数据关联RDF步骤:建立空间数据的索引及语义目录,存储在数据关联图谱RDF里;其中,实体和数据之间的关联是基于图谱的概念,数据关联图谱可将空间地理实体和大量结构化或非结构化数据关联起来。
按以上方案,所述数据关联RDF的具体步骤包括:
语义关联树步骤301:在语义关联树中存储实体及其关系;在语义关联树中存储三元组数据,三元组记录了实体与实体之间的关系,以及实体资源所在的URL地址信息;
资源URI步骤302:步骤301的实体和步骤303的空间数据由资源URI相互连接,可互相访问;
HBase分布式存储步骤303:HBase是一个面向列、稀疏的、分布式的多维排序映射表,每个列族中的数据都存放在一起,在读写时有效降低I/O开销,并且类似的数据放在一起;
其中HBase分布式存储数据库是采用KeyValue的列存储,Rowkey是行的主键,表示唯一一行,表中记录按照Row Key排序;在此以数据档案URL为主键;所有数据都是通过Rowkey(主键)进行访问,一个宽行可以容下一个主键相关的所有数据;
KeyValue是列的列名和列值组成的键值对,多个KeyValue组成一个Column-family列族;
Column-family列族,包含多个逻辑属性组的任意属性值(列),一个table在水平方向有一个或者多个列族,列族可由任意多个Column组成,列族支持动态扩展,无须预定义数量及类型,二进制存储,用户需自行进行类型转换;Column-family列族能尽量不丢失原始资料信息量,从而可以真实的组织和描述数据;
以文件档案编号和名称为主键的表,其中包含档案报告的属性,从而形成分布式内容库。
与现有技术对比,本发明的有益效果是:
本发明的空间大数据提取转换及分布式存储方法提供给用户一种对现有多源异构的结构化数据与非结构化数据混合的数据内容进行快速获取的方法,并采用主流的大数据存取工具来提高分布式存储效率。
在HBase中的内容以列族的方式进行存储,每个列族中的数据都存放在一起,在读写时有效降低I/O开销,并且类似的数据放在一起,经过压缩后极大节省了存储空间。
采用Hadoop技术,对非结构化空间数据进行面向内容模式的存储、组织,解决非结构化空间数据的同质化和面向数据挖掘的组织的问题,使多样化、碎片化的数据同质化和整体化;非结构化数据釆用Key/Value、大字段等进行存储,方便后续对空间数据进行快速有效地获取、利用。
附图说明
图1是本发明的数据存储处理中间件框架示意图;
图2是本发明的空间数据提取转换及分布式存储的实现方法的一个具体实施例流程示意图;
图3是本发明的空间实体与数据间关联图谱;
图4 1:50万地层单元数据;
图5 1:50万地层单元数据大小及分块大小;
图6 1:50万地层单元数据分块存储详情。
具体实施方案
下面结合附图1-图6和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提供了一种基于大数据技术的空间数据存储、处理的方法,包括以下步骤:
步骤A)针对大数据量的多源异构空间数据及系统数据,采用ETL工具数据提取转换工具将这些数据提取出来,转换为通用格式的数据;
步骤B)将这些数据虚拟化存放在空间大数据分布式存储框架中,进行统一管理。
进一步地,多源异构数据源包括本地文件系统,关系数据库,空间数据管理平台到大数据系统之间互相导入导出数据,用户自定义关联数据,将空间结构化数据和大数据系统中的非结构化数据关联起来,为后续数据分析奠定基础。
进一步地,所述ETL工具是数据提取、转换、加载工具,从数据源中提取多结构化数据,快速、高效将原始数据加载到大数据容器,使空间大数据存储和传统的存储方式之间能互相转换数据,根据不同的数据类型,分为三个工具,分别为:
实时数据转换工具,通过网络爬虫和Flume进行实时数据导入;
自定义数据转换工具,采用Sqoop大数据存取工具来提高存储效率,同时可以根据特定的业务数据类型自定义转换工具,并提供文件上载功能;
空间数据转换工具,将空间数据格式的空间数据转换为通用格式。
进一步地,所述分布式存储框架包括五个工具,分别为:
数据关联RDF图数据库,支持地理空间数据与其他类型数据之间的关系的存储;
分布式文件系统(HDFS),存放原始空间数据及资料文档。基于HDFS框架系统提供分布式文件的存储,以应对大量非结构化数据,如多媒体文件等,通过自定义扩展其存储插件,使之支持GIS空间数据的存储;
HBase分布式数据库,通过整合HBase数据库以支持常规数据表的方式存储结构化或半结构化的数据类型,基于其开发接口规范,实现GIS空间数据的存储,同时在表中建立结构化数据和非结构化数据的关联关系,为后续数据查询提供丰富的查询结果,对文件数据进行快速获取,将原始文档重新组织后存放在分布式实时访问数据库HBase中。其中,附图、附表、附件等文件均单独存放,主文件则按章节分开存储。同时对存储在HBase中的内容建立索引,存放到分布式缓存Memcached或Redis中,这样只需从内存中获取索引进行查找;
ZooKeeper协同服务,一种集中服务,用于保持配置信息和命名,并提供分布式同步和组服务;
Ambari集群节点管理监控,作用是创建、管理、监视 Hadoop 的集群,是为了让 Hadoop以及相关的大数据软件更容易使用的一个工具,Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent。简单来说,用户通过 AmbariServer 通知 Ambari Agent 安装对应的软件;Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server,最终这些状态信息会呈现在 Ambari 的 GUI,方便用户了解到集群的各种状态,并进行相应的维护。
如图1所示,本发明的数据存储处理中间件模块框架示意图包括以下模块:
数据源模块101:空间大数据的数据源包括空间数据、互联网数据、日志流数据、本地数据文件、关系数据等,这些数据源的数据格式有GIS数据、文档数据、影像数据等,这些数据以分散的方式存储在关系型数据库、空间数据库等不同种类的数据库节点中。
ETL工具模块102:ETL工具将分散存储的各种格式的数据源进行提取、转换、加载;
其中,ETL工具包括实时数据转换工具、自定义数据转换工具、空间数据转换工具三类;
这三类工具分别将数据源中对应的数据提取出来,转换为统一的可读取的格式;
如关系型数据使用Sqoop工具来进行存取,空间数据使用空间数据转换工具进行存取。
HDFS分布式文件系统模块103:ETL工具提取并转换的部分数据如文件上载数据将分布式存储在HDFS分布式文件系统中。
HBase分布式数据库模块104:ETL工具提取并转换的部分数据如空间数据、实时数据等将分布式存储在HBase分布式数据库中。
数据关联RDF图数据库模块105:ETL工具提取转换数据源的数据并存储至分布式数据库的同时,将建立数据索引及语义目录,存储在数据关联图谱RDF里。
ZooKeeper协同服务模块106:协同管理分布式环境下的多个节点的HBaseregionserver的分布。
Ambari集群节点管理监控模块107:对分布式环境下集群中的节点进行可视化安装和监控。
如图2所示,本发明的空间数据提取转换及分布式存储的实现方法的一个具体实施例包括以下步骤:
数据提取转换步骤201:空间数据主要存储在空间数据库中,如MapGIS数据存储在MapGIS数据库中,通过MapGIS转换工具将MapGIS数据库中的MapGIS数据导进到HBase分布式数据库中,同时,也可以将HBase的数据导进到MapGIS数据库中。
数据分布式存储步骤202:通过MapGIS Conversion tools for Hadoop工具将空间数据库中的MapGIS格式数据转换为Hadoop管理的文件格式MapGIS Conversion toolsfor Hadoop工具,将经过转换的MapGIS空间数据存储在分布式数据库HBase里,这些工具提取MapGIS格式的地理范围、注记文本内容存储到内容库(HBase)中,注记文本内容的提取使得根据内容检索图件成为可能,区别于非矢量图件只能按文件名的检索方式,GIS图件信息成为内容库的组成部分,与成果资料内容一起,支撑着空间大数据以后的数据挖掘。
下面开始进行数据关联RDF步骤:建立空间数据的索引及语义目录,存储在数据关联图谱RDF里。
其中,实体和数据之间的关联是基于图谱的概念,数据关联图谱可将空间地理实体和大量结构化或非结构化数据关联起来,为后续统一分析及应用打下基础。
如图3所示,本发明的空间实体与数据间关联图谱的一个具体实施例包括以下步骤;
语义关联树步骤301:在语义关联树中存储实体及其关系;在语义关联树中存储三元组数据,三元组记录了实体与实体之间的关系,以及实体资源所在的URL地址等信息。
资源URI步骤302:步骤301的实体和步骤303的空间数据由资源URI(数据的唯一标示符)相互连接,可互相访问。
HBase分布式存储步骤303:HBase是一个面向列、稀疏的、分布式的多维排序映射表,每个列族中的数据都存放在一起,在读写时有效降低I/O开销,并且类似的数据放在一起,经过压缩后极大节省了存储空间;
其中HBase分布式存储数据库是采用KeyValue的列存储,Rowkey是行的主键,表示唯一一行,表中记录按照Row Key排序;在此以数据档案URL为主键;所有数据都是通过Rowkey(主键)进行访问,一个宽行可以容下一个主键相关的所有数据;
KeyValue是列的列名和列值组成的键值对,多个KeyValue组成一个Column-family列族;
Column-family列族,包含多个逻辑属性组的任意属性值(列),一个table在水平方向有一个或者多个列族,列族可由任意多个Column组成,列族支持动态扩展,无须预定义数量及类型,二进制存储,用户需自行进行类型转换。Column-family列族能尽量不丢失原始资料信息量,从而可以真实的组织和描述数据。
以文件档案编号和名称为主键的表,其中包含档案报告的属性(例如档案名称、地理空间范围、附件图表)形成分布式内容库。
以下进一步描述语义关联树的算法:
步骤1)、开始;
步骤2)、预定义根节点,设置关系为RowKey和GeomID的子节点为空;
步骤3)、读取内容库中主键Key,空间属性URI和指定的特征属性;
步骤4)、若空间属性URI为空,则执行步骤5,否则,执行步骤6;
步骤5)、在空间数据中匹配对应的特征属性,构建相应记录的URI,保存到内容库对应的属性列中;
步骤6)、对特征属性文本分词,取根节点为父节点;
步骤7)、按次序从分词结果集中取值,然后执行步骤8、步骤9、步骤10;
步骤8)、在语义关联树中查找关系为SubNode对应的节点,若不存在此节点,则执行步骤9、步骤10,否则回到步骤7;
步骤9)、若URI为空,则在空间数据中匹配对应的特征属性,构建相应记录的URI;
步骤10)、以此值创建节点Node,创建关系为RowKey的子节点Key,即三元组[Node,RowKey,Key],创建关系为GeomID的子节点URI,即三元组[Node,GeomID,URI],以Node节点为子节点,与父节点建立SubNode关系;
步骤11)、结束。
三元组是数据结构里的概念,主要是用来存储稀疏矩阵的一种压缩方式,是指形如((x,y),z)的集合,常简记为(x,y,z)。本技术方案中的三元组记录了实体与实体之间的关系,以及实体资源所在的URL地址等信息。

Claims (4)

1.一种基于大数据技术的空间数据存储处理中间件框架,其特征在于:其包括以下模块:
数据源模块101:空间大数据的数据源包括空间数据、互联网数据、日志流数据、本地数据文件、关系数据,上述数据源的数据格式包括GIS数据、文档数据、影像数据,上述数据以分散的方式存储在关系型数据库、空间数据库等不同种类的数据库节点中;
ETL工具模块102:ETL工具将分散存储的各种格式的数据源进行提取、转换、加载;
其中,ETL工具包括实时数据转换工具、自定义数据转换工具、空间数据转换工具三类;
这三类工具分别将数据源中对应的数据提取出来,转换为统一的可读取的格式;
关系型数据使用Sqoop工具来进行存取,空间数据使用空间数据转换工具进行存取;
HDFS分布式文件系统模块103:ETL工具提取并转换的部分数据如文件上载数据将分布式存储在HDFS分布式文件系统中;
HBase分布式数据库模块104:ETL工具提取并转换的部分数据如空间数据、实时数据等将分布式存储在HBase分布式数据库中;
数据关联RDF图数据库模块105:ETL工具提取转换数据源的数据并存储至分布式数据库的同时,将建立数据索引及语义目录,存储在数据关联图谱RDF里;
ZooKeeper协同服务模块106:协同管理分布式环境下的多个节点的HBaseregionserver的分布;
Ambari集群节点管理监控模块107:对分布式环境下集群中的节点进行可视化安装和监控。
2.如权利要求1所述的一种基于大数据技术的空间数据存储处理中间件框架,其特征在于: ETL工具模块102中的数据提取转换步骤为: MapGIS数据存储在MapGIS数据库中,通过MapGIS转换工具将MapGIS数据库中的MapGIS数据导进到HBase分布式数据库中,同时,也可以将HBase的数据导进到MapGIS数据库中;
HDFS分布式文件系统模块103中的数据分布式存储步骤为:通过MapGIS Conversiontools for Hadoop工具将空间数据库中的MapGIS格式数据转换为Hadoop管理的文件格式MapGIS Conversion tools for Hadoop工具,将经过转换的MapGIS空间数据存储在分布式数据库HBase里,将上述工具提取MapGIS格式的地理范围、注记文本内容存储到内容库(HBase)中,注记文本内容的提取使得根据内容检索图件成为可能,区别于非矢量图件只能按文件名的检索方式,GIS图件信息成为内容库的组成部分,与成果资料内容一起,用于支撑着空间大数据数据挖掘。
3.如权利要求2所述的一种基于大数据技术的空间数据存储处理中间件框架,其特征在于: 数据关联RDF图数据库模块105中的数据关联RDF步骤:建立空间数据的索引及语义目录,存储在数据关联图谱RDF里;其中,实体和数据之间的关联是基于图谱的概念,数据关联图谱可将空间地理实体和大量结构化或非结构化数据关联起来。
4.如权利要求3所述的一种基于大数据技术的空间数据存储处理中间件框架,其特征在于:所述数据关联RDF的具体步骤包括:
语义关联树步骤301:在语义关联树中存储实体及其关系;在语义关联树中存储三元组数据,三元组记录了实体与实体之间的关系,以及实体资源所在的URL地址信息;
资源URI步骤302:步骤301的实体和步骤303的空间数据由资源URI相互连接,可互相访问;
HBase分布式存储步骤303:HBase是一个面向列、稀疏的、分布式的多维排序映射表,每个列族中的数据都存放在一起,在读写时有效降低I/O开销,并且类似的数据放在一起;
其中HBase分布式存储数据库是采用KeyValue的列存储,Rowkey是行的主键,表示唯一一行,表中记录按照Row Key排序;在此以数据档案URL为主键;所有数据都是通过Rowkey(主键)进行访问,一个宽行可以容下一个主键相关的所有数据;
KeyValue是列的列名和列值组成的键值对,多个KeyValue组成一个Column-family列族;
Column-family列族,包含多个逻辑属性组的任意属性值(列),一个table在水平方向有一个或者多个列族,列族可由任意多个Column组成,列族支持动态扩展,无须预定义数量及类型,二进制存储,用户需自行进行类型转换;Column-family列族能尽量不丢失原始资料信息量,从而可以真实的组织和描述数据;
以文件档案编号和名称为主键的表,其中包含档案报告的属性,从而形成分布式内容库。
CN201611169591.0A 2016-12-16 2016-12-16 一种基于大数据技术的空间数据存储处理中间件系统 Active CN106611046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611169591.0A CN106611046B (zh) 2016-12-16 2016-12-16 一种基于大数据技术的空间数据存储处理中间件系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611169591.0A CN106611046B (zh) 2016-12-16 2016-12-16 一种基于大数据技术的空间数据存储处理中间件系统

Publications (2)

Publication Number Publication Date
CN106611046A true CN106611046A (zh) 2017-05-03
CN106611046B CN106611046B (zh) 2020-02-14

Family

ID=58636284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611169591.0A Active CN106611046B (zh) 2016-12-16 2016-12-16 一种基于大数据技术的空间数据存储处理中间件系统

Country Status (1)

Country Link
CN (1) CN106611046B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122486A (zh) * 2017-05-09 2017-09-01 中国科学院计算机网络信息中心 一种支持blob的多元大数据融合方法和系统
CN107895046A (zh) * 2017-11-30 2018-04-10 广东奥飞数据科技股份有限公司 一种异构数据集成平台
CN108037917A (zh) * 2018-01-29 2018-05-15 上海腾道信息技术有限公司 国际贸易数据管理系统
CN108038182A (zh) * 2017-12-08 2018-05-15 浪潮软件股份有限公司 一种基于Flume的关系数据库存储数据的方法和装置
CN108121828A (zh) * 2018-01-17 2018-06-05 清华大学 一种基于键值对数据库的多源异构数据管理方法及系统
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108595480A (zh) * 2018-03-13 2018-09-28 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108763950A (zh) * 2018-04-20 2018-11-06 句容市宝启电子科技有限公司 一种面向移动终端的安全中间件系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN108985531A (zh) * 2017-06-01 2018-12-11 中国科学院深圳先进技术研究院 一种多模异构电力大数据融合分析管理系统及方法
CN108984610A (zh) * 2018-06-11 2018-12-11 华南理工大学 一种基于大数据框架离线实时处理数据的方法及系统
CN109145643A (zh) * 2018-08-23 2019-01-04 安思瀚 一种基于私有云的个人多源数据管理方法与系统
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109241155A (zh) * 2018-07-27 2019-01-18 天津大学 一种rdf流数据和关系数据的联邦查询处理系统及方法
CN109871418A (zh) * 2019-01-04 2019-06-11 广州市城市规划勘测设计研究院 一种时空数据的空间索引方法和系统
CN109947354A (zh) * 2017-12-20 2019-06-28 北京航天泰坦科技股份有限公司 一种基于Agent的无中心异构时空数据存储系统与方法
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法
CN110222110A (zh) * 2019-06-13 2019-09-10 中国农业科学院农业信息研究所 一种基于etl工具的资源描述框架数据转换存储一体化方法
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、系统及相关装置
CN110825660A (zh) * 2019-09-27 2020-02-21 苏州浪潮智能科技有限公司 一种基于HBase的朱丽叶暂停优化方法、系统及设备
CN111310230A (zh) * 2020-02-10 2020-06-19 腾讯云计算(北京)有限责任公司 一种空间数据处理方法、装置、设备及介质
CN111708919A (zh) * 2020-05-28 2020-09-25 北京赛博云睿智能科技有限公司 一种大数据处理方法及系统
CN111858483A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 基于多种数据库与文件系统的软件样本混合存储系统
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN112912871A (zh) * 2018-10-30 2021-06-04 西门子股份公司 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统
CN113792045A (zh) * 2021-08-25 2021-12-14 生态环境部卫星环境应用中心 会商生态保护红线区生态破坏问题数据的混合存储方法
CN114238531A (zh) * 2021-12-03 2022-03-25 南威软件股份有限公司 一种机构资源上图的方法及装置
CN114546365A (zh) * 2022-04-27 2022-05-27 北京寄云鼎城科技有限公司 一种流程可视化的建模方法、服务器、计算机系统及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN105205169A (zh) * 2015-10-12 2015-12-30 中国电子科技集团公司第二十八研究所 一种分布式图像索引与检索方法
CN105205105A (zh) * 2015-08-27 2015-12-30 浪潮集团有限公司 一种基于storm的数据ETL系统及处理方法
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236867A (zh) * 2011-08-15 2011-11-09 悠易互通(北京)广告有限公司 基于云计算的受众行为分析广告定向系统
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN105205105A (zh) * 2015-08-27 2015-12-30 浪潮集团有限公司 一种基于storm的数据ETL系统及处理方法
CN105205169A (zh) * 2015-10-12 2015-12-30 中国电子科技集团公司第二十八研究所 一种分布式图像索引与检索方法
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122486A (zh) * 2017-05-09 2017-09-01 中国科学院计算机网络信息中心 一种支持blob的多元大数据融合方法和系统
CN107122486B (zh) * 2017-05-09 2020-08-14 中国科学院计算机网络信息中心 一种支持blob的多元大数据融合方法和系统
CN108985531A (zh) * 2017-06-01 2018-12-11 中国科学院深圳先进技术研究院 一种多模异构电力大数据融合分析管理系统及方法
CN107895046A (zh) * 2017-11-30 2018-04-10 广东奥飞数据科技股份有限公司 一种异构数据集成平台
CN107895046B (zh) * 2017-11-30 2021-02-23 广东奥飞数据科技股份有限公司 一种异构数据集成平台
CN108038182A (zh) * 2017-12-08 2018-05-15 浪潮软件股份有限公司 一种基于Flume的关系数据库存储数据的方法和装置
CN109947354A (zh) * 2017-12-20 2019-06-28 北京航天泰坦科技股份有限公司 一种基于Agent的无中心异构时空数据存储系统与方法
CN108133041A (zh) * 2018-01-11 2018-06-08 四川九洲电器集团有限责任公司 基于网络爬虫和数据转移技术的数据采集系统及方法
CN108121828A (zh) * 2018-01-17 2018-06-05 清华大学 一种基于键值对数据库的多源异构数据管理方法及系统
CN108037917A (zh) * 2018-01-29 2018-05-15 上海腾道信息技术有限公司 国际贸易数据管理系统
CN108595480B (zh) * 2018-03-13 2022-01-21 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108595480A (zh) * 2018-03-13 2018-09-28 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108763950A (zh) * 2018-04-20 2018-11-06 句容市宝启电子科技有限公司 一种面向移动终端的安全中间件系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN108984610A (zh) * 2018-06-11 2018-12-11 华南理工大学 一种基于大数据框架离线实时处理数据的方法及系统
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109241155A (zh) * 2018-07-27 2019-01-18 天津大学 一种rdf流数据和关系数据的联邦查询处理系统及方法
CN109145643A (zh) * 2018-08-23 2019-01-04 安思瀚 一种基于私有云的个人多源数据管理方法与系统
CN112912871B (zh) * 2018-10-30 2024-04-26 西门子股份公司 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统
CN112912871A (zh) * 2018-10-30 2021-06-04 西门子股份公司 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统
CN109871418A (zh) * 2019-01-04 2019-06-11 广州市城市规划勘测设计研究院 一种时空数据的空间索引方法和系统
CN110213352A (zh) * 2019-05-17 2019-09-06 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法
CN110213352B (zh) * 2019-05-17 2020-12-18 北京航空航天大学 名字空间统一的分散自治存储资源聚合方法
CN110222110A (zh) * 2019-06-13 2019-09-10 中国农业科学院农业信息研究所 一种基于etl工具的资源描述框架数据转换存储一体化方法
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、系统及相关装置
CN110489475B (zh) * 2019-08-14 2021-01-26 广东电网有限责任公司 一种多源异构数据处理方法、系统及相关装置
CN110825660A (zh) * 2019-09-27 2020-02-21 苏州浪潮智能科技有限公司 一种基于HBase的朱丽叶暂停优化方法、系统及设备
CN111310230A (zh) * 2020-02-10 2020-06-19 腾讯云计算(北京)有限责任公司 一种空间数据处理方法、装置、设备及介质
CN111708919A (zh) * 2020-05-28 2020-09-25 北京赛博云睿智能科技有限公司 一种大数据处理方法及系统
CN111858483A (zh) * 2020-07-29 2020-10-30 湖南泛联新安信息科技有限公司 基于多种数据库与文件系统的软件样本混合存储系统
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN112395292B (zh) * 2020-11-25 2024-03-29 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN113792045A (zh) * 2021-08-25 2021-12-14 生态环境部卫星环境应用中心 会商生态保护红线区生态破坏问题数据的混合存储方法
CN114238531A (zh) * 2021-12-03 2022-03-25 南威软件股份有限公司 一种机构资源上图的方法及装置
CN114546365A (zh) * 2022-04-27 2022-05-27 北京寄云鼎城科技有限公司 一种流程可视化的建模方法、服务器、计算机系统及介质

Also Published As

Publication number Publication date
CN106611046B (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN106611046A (zh) 基于大数据技术的空间数据存储处理中间件框架
CN106708993A (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
Padhy et al. RDBMS to NoSQL: reviewing some next-generation non-relational database’s
CN103425762A (zh) 基于Hadoop平台的电信运营商海量数据处理方法
CN104462185B (zh) 一种基于混合结构的数字图书馆云存储系统
CN103473260B (zh) 一种面向并发olap的测试数据分层聚簇查询处理系统及方法
CN107766402A (zh) 一种楼盘字典云房源大数据平台
CN106030573A (zh) 半结构化数据作为第一等级数据库元素的实现
Wang et al. Research and implementation on spatial data storage and operation based on Hadoop platform
CN104363222A (zh) 一种基于Hadoop的网络安全事件分析方法
Caldarola et al. Big data: A survey-the new paradigms, methodologies and tools
Naheman et al. Review of NoSQL databases and performance testing on HBase
Chen et al. Big data storage
Hashem et al. An Integrative Modeling of BigData Processing.
CN106780157B (zh) 基于Ceph的电网多时态模型存储与管理系统及方法
Gad et al. Hybrid data warehouse model for climate big data analysis
CN109947743A (zh) 一种优化的NoSQL大数据存储方法及系统
Yue et al. 1.06 GIS Databases and NoSQL Databases
Chen et al. Analysis of plant breeding on hadoop and spark
Kanojia et al. IT Infrastructure for Smart City: Issues and Challenges in Migration from Relational to NoSQL Databases
Ma et al. Live data migration approach from relational tables to schema-free collections with mapreduce
Nassif et al. Assessing NoSql Approaches for Spatial Big Data Management
Aljarallah Comparative study of database modeling approaches
Han et al. Design and Implementation of Big Data Management Platform for Android Applications
RU2683690C1 (ru) Способ и система автоматической генерации программного кода для корпоративного хранилища данных

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant