CN104239470A - 一种面向分布式环境的空间数据复合处理系统和方法 - Google Patents
一种面向分布式环境的空间数据复合处理系统和方法 Download PDFInfo
- Publication number
- CN104239470A CN104239470A CN201410444880.1A CN201410444880A CN104239470A CN 104239470 A CN104239470 A CN 104239470A CN 201410444880 A CN201410444880 A CN 201410444880A CN 104239470 A CN104239470 A CN 104239470A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- bdfs
- database
- spatial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本方法公开了基于MapReduce并行处理模型,有机结合现有空间数据库与Hadoop并行处理平台进行复合应用的基本方法。本发明明确了利用复合框架进行空间数据并行处理的基本流程,同时利用分布式块文件系统对空间数据数据进行矩阵化划分与集中式存取,在保证系统高度可扩展性的前提下,能够广泛地对多种空间数据进行支持与高效处理。
Description
技术领域
本发明涉及一种面向分布式环境的空间数据复合处理系统和方法,属于信息技术处理领域。
背景技术
空间数据通常用于描述多维空间内的对象物体。相较于一般关系数据库数据,空间数据具有数据量大、计算复杂度高的特点。空间数据的处理多在特定的空间数据库中完成,而不被一般关系数据库系统所支持。在基于MapReduce并行处理模式的并行处理平台Hadoop中,更是没有实现支持空间数据处理的数据类型和特定算法。而为了实现这种支持,则需要对Hadoop系统在代码级别上进行修改,复杂度高,支持的数据类型有限,且处理效率随模型设计与具体实现水平的不同而参差不齐。
这种实现周期长且处理效率的不一致构成了面向分布式环境的空间数据处理系统的一个技术难点。
目前面向分布式环境的空间数据处理系统的主要实现方法有:Ahmed Eldawy 和 Mohamed F. Mokbel提出了基于Hadoop平台的空间数据处理系统SpatialHadoop,阐述了利用已有的Hadoop系统,在代码级别上加入对于空间数据类型(点、折线、矩阵与多边形)的支持,以及多种空间数据算法(如窗口查询,k近邻查询等)。空间数据以文本形式通过HDFS进行远程存取与分配,并通过嵌入式空间分配模块的方式,实现空间数据的预分配,达到提高查询效率的目的(Eldawy, A. & Mokbel, M. F. A Demonstration of SpatialHadoop: An Efficient MapReduce Framework for Spatial Data Proc. VLDB Endowment, 2013, 6)。Ablimit Aji和Fusheng Wang等提出了利用Hadoop平台的streaming功能与本地空间数据处理引擎RESQUE进行结合。空间数据也采用文件形式通过HDFS进行远程存取与分配,具体处理则交由分布于各集群计算机中的RESQUE系统。RESQUE中加入了对于若干空间数据类型与处理算法的支持(Aji, A.; Wang, F.; Vo, H.; Lee, R.; Liu, Q.; Zhang, X. & Saltz, J. Hadoop GIS: A High Performance Spatial Data Warehousing System Over Mapreduce Proceedings of the VLDB Endowment, VLDB Endowment, 2013, 6, 1009-1020)。
目前,涉及到面向分布式环境的空间数据处理方法时,均需通过HDFS系统对数据进行文本形式的远程存取,数据种类单一,处理效率也没有严格的质量保证。
发明内容
本发明所要解决的技术问题是针对上述背景技术的不足,提供了一种面向分布式环境的空间数据复合处理系统和方法。通过分布式块文件系统BDFS对空间数据数据进行矩阵化划分与集中式存取,结合MapReduce模式的不同处理阶段,有效降低网络数据传输代价。在与现有的空间数据库系统进行有机结合后,不仅可以对任意子数据库所支持的数据类型进行处理,又可以直接利用子数据库中已存在的特定算法,保证了数据查询的效率与质量。
本发明为实现上述发明目的采用如下技术方案:
一种面向分布式环境的空间数据复合处理系统,包括主计算机及其主空间数据库MSDB(Master Spatial Database)模块、子计算机及其子空间数据库SSDB(Slave Spatial Database)模块、Hadoop并行处理平台模块、分布式块文件系统BDFS(Block-based Distribute File System),在基于Hadoop平行处理平台上进行部署而形成的计算机网络集群,其中,主空间数据库模块以及子空间数据库模块通过分布式块文件系统交互,同时在客户端提供交互式文字和图形界面,用于添加、删除、更新与查询各类空间数据;所述的子空间数据库模块处理本地接收到的各类局部空间查询任务,负责从BDFS中读取所需要的数据信息,并添加新的数据以返回结果;数据在系统中以类型和数据块文件的形式分布保存在BDFS中,类型文件以文本形式描述空间数据概要,数据块文件以二进制形式保存数据的具体信息。
一种面向分布式环境的空间数据复合处理的方法,包括:
步骤1,从主数据库中读取数据,并分布保存在BDFS中,方法如下:
步骤1-1,对于给定的各类数据按照不同的数据属性(如时间属性、空间属性等)进行矩阵化划分,具体方法如下:
步骤1-1-1,系统数据作为关系数据库表进行表示,依据用户自定义的最多两种不同的数据属性(如时间属性、空间属性等),按行划分;
步骤1-1-2,按照第一种数据属性,将数据划分为若干矩阵行,并可继续按照第二种数据属性,将数据再进一步划分为若干矩阵列;
步骤1-1-3,矩阵中的每一单元格部分保存为一个独立的数据块文件,每一行所有的数据块文件共享一个类型文件,并保存在相同子计算机的BDFS模块中;
步骤1-2,数据的元数据信息以文本形式写入一个类型文件,每一部分数据的具体信息以二进制形式写入一个数据块文件,文件均采用冗余保存的形式存储在若干部署有BDFS系统的子计算机中,以提高系统的容错能力,划分后的位置元数据信息则保存在主数据库中,以备后续查询任务调用;
步骤2,主数据库模块接收分布式并行查询,读取相关数据的分布位置信息后,通过系统命令的方式提交给Hadoop平台;
步骤3,系统利用Hadoop平台以及数据的概要位置进行并行任务的分配,各子计算机待接收到相应的Map或Reduce任务后,则将具体数据库查询提交本地的子数据库模块进行处理,具体方法如下:
步骤3-1,Hadoop平台将Map任务分配至按照矩阵化划分后的每一数据行,并将任务分配至保存有此行具体数据子计算机中,以便从本地读取所需数据;
步骤3-1-1,本地读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;
步骤3-1-2,从本地计算机的BDFS模块读取需要的数据块文件,并利用本地的子数据库模块进行相应处理,返回结果待再划分后写入本地的BDFS模块;
步骤3-2,Map阶段结束后,中间结果数据再按照矩阵化进行表示存储,数据保留初始第一种数据分布属性,但根据具体查询的不同,将返回依照其它划分属性分割为若干列;
步骤3-3,Hadoop平台将Reduce任务分配至中间结果矩阵的每一列,并任意分配至当前可用的子计算机中进行执行,具体方法如下:
步骤3-3-1,远程读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;
步骤3-3-2,从BDFS中读取所有需要的数据块文件(含本地与其它计算机),并利用本地的子数据库模块进行相应处理,返回结果写入本地的BDFS模块中;
步骤4,将查询结果的位置信息写入HDFS,并返回主数据库,以备下一阶段任务调用。
本发明采用上述技术方案,具有以下有益效果:
1、结合现存空间数据库与Hadoop平台,实现了对种类复杂空间数据类型和算法的直接且有效的支持;
2、利用矩阵化的通用数据划分方法,与MapReduce并行处理模式进行了有机结合,提高了空间数据查询的易读性;
3、利用BDFS对数据进行集中式存取,降低了Hadoop平台与本地空间数据库的数据交互代价,提高了查询的处理效率。
附图说明
图1面向分布式环境的空间数据复合处理系统的系统结构图。
具体实施方式
下面对发明的技术方案进行详细说明:
利用面向分布式环境的空间数据复合处理系统处理空间数据连接操作的最小对象为两个包含二维空间对象的关系数据库表R和S,系统被部署在由1台主计算机并N台子计算机构成的集群系统中,包含一个Hadoop平台,而每台计算机中则包含一个功能全面的空间数据库系统。
面向分布式环境的空间数据复合处理系统,包括主计算机及其主空间数据库MSDB(Master Spatial Database)模块、子计算机及其子空间数据库SSDB(Slave Spatial Database)模块、Hadoop并行处理平台模块、分布式块文件系统BDFS(Block-based Distribute File System),在基于Hadoop平行处理平台上进行部署而形成的计算机网络集群,其中,主空间数据库模块以及子空间数据库模块通过分布式块文件系统交互,同时在客户端提供交互式文字和图形界面,用于添加、删除、更新与查询各类空间数据;所述的子空间数据库模块处理本地接收到的各类局部空间查询任务,负责从BDFS中读取所需要的数据信息,并添加新的数据以返回结果;数据在系统中以类型和数据块文件的形式分布保存在BDFS中,类型文件以文本形式描述空间数据概要,数据块文件以二进制形式保存数据的具体信息。
按照图1所示,实现面向分布式环境的空间数据复合处理方法,包括以下步骤:
步骤1,读取保存在主数据库中的关系数据表R和S,对两者进行样本抽样,进而制定出二维空间内的细粒度网格结构,最后将两数据表分布保存在BDFS中,方法如下:
步骤1-1,对关系数据表中的空间数据按照1:1000的比例进行样本抽取,具体步骤为:
步骤1-1-1,计算空间数据的最小外包框,再进行空间合并(union)操作,获取本地数据的分布范围和样本尺寸均值(每个对象的最小外包框在X和Y轴上的大小);
步骤1-1-2,计算整体空间数据的可能分布范围以及样本尺寸均值,制定出全局网格,使任一网格单元可以覆盖若干个空间数据对象,网格大小为全体样本数据最小外包框的合并集,而网格单元格的大小则设定了样本均值的10倍,平均每个单元格可包含100个空间数据对象;
步骤1-1-3,对网格单元从左至右,从下而上进行编号,起始号码为1。网格外区域统一编号为0;
步骤1-2,对于关系统数据表中的空间对象,简单按照对象ID进行矩阵化划分,利用对象ID的哈希值与系统中包含的子计算机数量进行模计算,从而将双方关系数据表按行划分为Nx1的矩阵;
步骤1-3,矩阵中的每一行部分所包含的数据保存为一个独立的数据块文件和一个文本类型数据概要文件,每一台BBFS所包含的子计算机包含一个数据块文件与类型文件,文件均采用冗余保存的形式存储在若干部署有BDFS系统的子计算机中,以提高系统的容错能力;
步骤1-4,数据的分布位置信息保存在主数据库中,以备后续查询任务调用;
步骤2,主数据库模块接收分布式并行查询,读取相关数据的分布位置信息后,通过系统命令的方式提交给Hadoop平台,
命令包括涉及相关数据经由步骤1划分后被存储的具体位置信息,以及分别在Map和Reduce阶段所需要执行的空间数据相关查询;
步骤3,Hadoop平台的JobTracker模块将相关任务数据信息,包括不同任务阶段(Map或者Reduce)的数据库查询要求,以及每个任务所需数据的位置信息提交至Hadoop平台所包含的分布式文件系统HDFS中,待任务结束后,结果数据的分布位置信息亦经由HDFS返回主数据库模块,具体方法如下:
步骤3-1,Hadoop平台将Map任务分配至每一个按照步骤1划分后的矩阵行,并将任务分配至保存有此行具体数据子计算机中,以便从本地读取所需数据;
步骤3-2,Map阶段结束后,中间结果数据再按照矩阵化进行表示存储,数据保留第一种数据分布属性,但根据具体查询的不同,将数据依照其它数据分布属性划分为若干列;
步骤3-3,Hadoop平台将Reduce任务分配至中间结果矩阵的每一列,并任意分配至当前可用的子计算机中进行执行;
步骤4,各子计算机接收到经由Hadoop平台分配的Map或Reduce任务后,提交具体数据库查询予本地的子数据库模块进行处理,具体方法如下:
步骤4-1,在Map阶段,将双方关系数据表中所包含的空间数据对象划分入步骤1-1所产生的全局网格,包括以下步骤:
步骤4-1-1,计算两个关系数据表内每个空间数据对象的最小外包框,计算外包框与全局网格的相对位置,并与单元格尺寸相除,可以得到它所覆盖的网格单元的编号值
步骤4-1-2,若对象的最小外包框覆盖了多个单元格,则对空间对象进行复制,并赋予不同的单元格编号;
步骤4-2,根据空间对象所分配至的单元格编号以及所需Reduce任务数量K,利用模计算,对双方空间数据进行再次划分,生成NxK的中间结果矩阵;
步骤4-3,在Reduce阶段,对双方中间结果矩阵中的相同列,进行具体的基于索引的连接操作,包括以下步骤:
步骤4-3-1,每个Reduce任务经由本地的空间数据库读取具体的连接操作查询,再从包括本地在内的所有子计算机中读取所需要的数据,即被分配到的中间结果列中所包含的空间数据;
步骤4-3-2,按照连接操作的输入来源,区分属于关系表R和S的对应元组,基于所有属于关系表R中的对象最小外包框,建立R-Tree结构,进而再逐行扫描属于关系表S的元组;
步骤4-3-3,若两元组中的对象最小外包框相交,且对象的具体形状信息符合连接操作的具体条件,则将结果以步骤1-3的形式再次保存在本地计算机中;
步骤5,各子数据库读取所需数据的位置信息与相关查询后,针对不同的数据形式进行区别处理,方法如下:
步骤5-1,读取所需数据的元数据信息,若与查询要求不符,则返回主数据库模块;
步骤5-2,从BDFS中读取需要的具体数据,并利用本地的子数据库模块进行相应处理,结果的元数据信息写入文本类型文件,数据信息则写入二进制数据块文件,均进行冗余保存;
步骤5-3,将连接操作结果的位置信息写入HDFS,并返回主数据库,以备下一阶段任务调用。
可见,本发明能够有效利用现有的空间数据库系统与Hadoop平台进行有机结合,实现了对种类复杂空间数据类型和算法的直接且有效的支持。利用矩阵化的通用数据划分方法,系统与MapReduce并行处理接口进行无缝对接,提高了空间数据查询的易读性。利用BDFS对数据进行集中式存取,系统降低了Hadoop平台与本地空间数据库的数据交互代价,提高了查询的处理效率。
Claims (5)
1.一种面向分布式环境的空间数据复合处理系统,其特征在于,包括主计算机及其主空间数据库MSDB(Master Spatial Database)模块、子计算机及其子空间数据库SSDB(Slave Spatial Database)模块、Hadoop并行处理平台模块、分布式块文件系统BDFS(Block-based Distribute File System),在基于Hadoop平行处理平台上进行部署而形成的计算机网络集群,其中,主空间数据库模块以及子空间数据库模块通过分布式块文件系统交互,同时在客户端提供交互式文字和图形界面,用于添加、删除、更新与查询各类空间数据;所述的子空间数据库模块处理本地接收到的各类局部空间查询任务,负责从BDFS中读取所需要的数据信息,并添加新的数据以返回结果;数据在系统中以类型和数据块文件的形式分布保存在BDFS中,类型文件以文本形式描述空间数据概要,数据块文件以二进制形式保存数据的具体信息。
2.一种面向分布式环境的空间数据复合处理的方法,其特征在于包括如下步骤:
步骤1,主空间数据库读取数据,并分布保存在BDFS中,方法如下:
步骤1-1,对于给定的各类数据按照不同的数据属性(如时间属性、空间属性等)进行矩阵化划分;
步骤1-2,数据的元数据信息以文本形式写入一个类型文件,每一部分数据的具体信息以二进制形式写入一个数据块文件,文件均采用冗余保存的形式存储在若干部署有BDFS系统的子计算机中,以提高系统的容错能力,划分后的位置元数据信息则保存在主数据库中,以备后续查询任务调用;
步骤2,系统利用Hadoop平台以及数据的概要位置进行并行任务的分配,各子计算机待接收到相应的Map或Reduce任务后,则将具体数据库查询提交本地的子数据库模块进行处理,具体方法如下:
步骤2-1,Hadoop平台将Map任务分配矩阵化表示数据中的每一行,并将任务分配至保存有此行具体数据子计算机中,以便从本地读取所需数据;
步骤2-2,Map阶段结束后,中间结果数据再按照矩阵化进行表示存储,数据保留初始第一种数据分布属性,但根据具体查询的不同,将返回依照其它划分属性分割为若干列;
步骤2-3,Hadoop平台将Reduce任务分配至中间结果矩阵的每一列,并任意分配至当前可用的子计算机中进行执行。
3.根据权利要求2所述的面向分布式环境的空间数据复合处理的方法,其特征在于步骤1-1的数据矩阵化划分与分离式存储,具体步骤如下:
步骤1-1-1,数据作为关系数据库表进行表示,依据用户自定义的最多两种不同的数据属性(如时间属性、空间属性等),按行划分;
步骤1-1-2,按照第一种数据属性,将数据划分为若干矩阵行,并可继续按照第二种数据属性,将数据再进一步划分为若干矩阵列;
步骤1-1-3,矩阵中的每一单元格部分保存为一个独立的数据块文件,每一行所有的数据块文件共享一个类型文件,并保存在相同子计算机的BDFS模块中。
4.根据权利要求2所述的面向分布式环境的空间数据复合处理的方法,其特征在于步骤2-1的Map任务处理,具体步骤如下:
步骤2-1-1,本地读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;
步骤2-1-2,从本地计算机的BDFS模块读取需要的数据块文件,并利用本地的子数据库模块进行相应处理,返回结果待再划分后写入本地的BDFS模块。
5.根据权利要求2所述的面向分布式环境的空间数据复合处理的方法,其特征在于步骤2-3的Reduce任务处理,具体步骤如下:
步骤2-3-1,远程读取所需数据的类型文件信息,若与查询要求不符,则返回主数据库模块;
步骤2-3-2,从BDFS中读取所有需要的数据块文件(含本地与其它计算机),并利用本地的子数据库模块进行相应处理,返回结果写入本地的BDFS模块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410444880.1A CN104239470A (zh) | 2014-09-03 | 2014-09-03 | 一种面向分布式环境的空间数据复合处理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410444880.1A CN104239470A (zh) | 2014-09-03 | 2014-09-03 | 一种面向分布式环境的空间数据复合处理系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104239470A true CN104239470A (zh) | 2014-12-24 |
Family
ID=52227529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410444880.1A Pending CN104239470A (zh) | 2014-09-03 | 2014-09-03 | 一种面向分布式环境的空间数据复合处理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104239470A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404825A (zh) * | 2015-11-27 | 2016-03-16 | 陕西天润科技股份有限公司 | 一种移动端数据库的地理信息数据空间拓展及加密方法 |
CN106528793A (zh) * | 2016-12-14 | 2017-03-22 | 国家测绘地理信息局卫星测绘应用中心 | 一种分布式空间数据库的时空分片存储方法 |
CN106897279A (zh) * | 2015-12-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 用于分布式文件处理的方法和设备 |
CN108876244A (zh) * | 2018-06-22 | 2018-11-23 | 珠海格力电器股份有限公司 | 一种物料清单bom的存储查询系统及方法 |
CN111913965A (zh) * | 2020-08-03 | 2020-11-10 | 北京吉威空间信息股份有限公司 | 一种面向空间大数据缓冲区分析的方法 |
CN114844781A (zh) * | 2022-05-20 | 2022-08-02 | 南京大学 | Rack架构下面向编码MapReduce的Shuffle性能优化方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276410A1 (en) * | 2000-02-28 | 2009-11-05 | Hyperroll Israel, Ltd. | Relational database management system (RDBMS) employing multi-dimensional database (MDDB) for servicing query statements through one or more client machines |
CN103246749A (zh) * | 2013-05-24 | 2013-08-14 | 北京立新盈企信息技术有限公司 | 面向分布式计算的矩阵数据库系统及其查询方法 |
-
2014
- 2014-09-03 CN CN201410444880.1A patent/CN104239470A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090276410A1 (en) * | 2000-02-28 | 2009-11-05 | Hyperroll Israel, Ltd. | Relational database management system (RDBMS) employing multi-dimensional database (MDDB) for servicing query statements through one or more client machines |
CN103246749A (zh) * | 2013-05-24 | 2013-08-14 | 北京立新盈企信息技术有限公司 | 面向分布式计算的矩阵数据库系统及其查询方法 |
Non-Patent Citations (2)
Title |
---|
JIAMIN LU等: "Parallel Secondo: Boosting Database Engines with Hadoop", 《2012 IEEE 18TH INTERNATIONAL CONFERENCE ON PARALLEL AND DISTRIBUTED SYSTEMS》 * |
冯钧 等: "面向城市路网管理的空间索引结构研究", 《第二十三届中国数据库学术会议论文集》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404825A (zh) * | 2015-11-27 | 2016-03-16 | 陕西天润科技股份有限公司 | 一种移动端数据库的地理信息数据空间拓展及加密方法 |
CN105404825B (zh) * | 2015-11-27 | 2017-12-29 | 陕西天润科技股份有限公司 | 一种移动端数据库的地理信息数据空间拓展及加密方法 |
CN106897279A (zh) * | 2015-12-17 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 用于分布式文件处理的方法和设备 |
CN106528793A (zh) * | 2016-12-14 | 2017-03-22 | 国家测绘地理信息局卫星测绘应用中心 | 一种分布式空间数据库的时空分片存储方法 |
CN106528793B (zh) * | 2016-12-14 | 2019-12-24 | 自然资源部国土卫星遥感应用中心 | 一种分布式空间数据库的时空分片存储方法 |
CN108876244A (zh) * | 2018-06-22 | 2018-11-23 | 珠海格力电器股份有限公司 | 一种物料清单bom的存储查询系统及方法 |
CN111913965A (zh) * | 2020-08-03 | 2020-11-10 | 北京吉威空间信息股份有限公司 | 一种面向空间大数据缓冲区分析的方法 |
CN111913965B (zh) * | 2020-08-03 | 2024-02-27 | 北京吉威空间信息股份有限公司 | 一种面向空间大数据缓冲区分析的方法 |
CN114844781A (zh) * | 2022-05-20 | 2022-08-02 | 南京大学 | Rack架构下面向编码MapReduce的Shuffle性能优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789231B2 (en) | Spatial indexing for distributed storage using local indexes | |
CN108733681B (zh) | 信息处理方法及装置 | |
CN104239470A (zh) | 一种面向分布式环境的空间数据复合处理系统和方法 | |
CN110674154B (zh) | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 | |
CN104123374A (zh) | 分布式数据库中聚合查询的方法及装置 | |
CN104462351B (zh) | 一种面向MapReduce范型的数据查询模型与方法 | |
CN103268336A (zh) | 一种快数据和大数据结合的数据处理方法及其系统 | |
WO2017096892A1 (zh) | 索引构建方法、查询方法及对应装置、设备、计算机存储介质 | |
CN103440288A (zh) | 一种大数据存储方法及装置 | |
CN103399945A (zh) | 一种基于云计算数据库系统的数据结构 | |
CN105069151A (zh) | HBase二级索引构建装置和方法 | |
CN103823846A (zh) | 一种基于图论的大数据存储及查询方法 | |
CN104317899A (zh) | 一种大数据分析与处理系统及访问方法 | |
Das et al. | A study on big data integration with data warehouse | |
Hashem et al. | An Integrative Modeling of BigData Processing. | |
CN116992887A (zh) | 一种元数据的数据目录处理方法、装置以及处理设备 | |
Ji et al. | Scalable nearest neighbor query processing based on inverted grid index | |
CN108319604B (zh) | 一种hive中大小表关联的优化方法 | |
CN105930354A (zh) | 存储模型转换方法和装置 | |
CN104462095A (zh) | 一种查询语句公共部分的提取方法及装置 | |
CN109726219A (zh) | 数据查询的方法及终端设备 | |
CN106776810B (zh) | 一种大数据的数据处理系统及方法 | |
Wang et al. | Sparkarray: An array-based scientific data management system built on apache spark | |
Xie et al. | On massive spatial data retrieval based on spark | |
Li et al. | SP-phoenix: a massive spatial point data management system based on phoenix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141224 |
|
WD01 | Invention patent application deemed withdrawn after publication |