CN107784103A - 一种访问hdfs分布式存储系统的标准接口 - Google Patents

一种访问hdfs分布式存储系统的标准接口 Download PDF

Info

Publication number
CN107784103A
CN107784103A CN201711022032.1A CN201711022032A CN107784103A CN 107784103 A CN107784103 A CN 107784103A CN 201711022032 A CN201711022032 A CN 201711022032A CN 107784103 A CN107784103 A CN 107784103A
Authority
CN
China
Prior art keywords
data
hdfs
node
segment
panda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711022032.1A
Other languages
English (en)
Inventor
袁远松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingbase Information Technologies Co Ltd
Original Assignee
Beijing Kingbase Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingbase Information Technologies Co Ltd filed Critical Beijing Kingbase Information Technologies Co Ltd
Priority to CN201711022032.1A priority Critical patent/CN107784103A/zh
Publication of CN107784103A publication Critical patent/CN107784103A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种访问HDFS分布式存储系统的标准接口,本发明通过将数据库的系统表信息存储在分布式数据库的master节点的本地文件,而其他所有表中数据存储到HSFS中。最终用户通过master节点接收客户端连接,并处理客户端的命令,master节点解析查询,优化查询,并向segment分发查询,并协调查询执行,master节点存储所有系统的元数据,不存储任何用户数据。本发明的有益效果:通过将元数据存储到master主机上的本地文件系统中,将其它所有表数据存储到HDFS中,而segment不存储任何状态和数据信息,只负责计算,从而实现读写存储和计算的分离,可以动态启动任意多个虚拟segment来执行查询,提高了执行效率。在Segment不保存状态,使得集群更容易扩展。

Description

一种访问HDFS分布式存储系统的标准接口
技术领域
本发明涉及大数据技术领域,具体来说,涉及一种访问HDFS分布式存储系统的标准接口。
背景技术
大数据是目前非常热门的一个话题,而大数据的核心是如何存储、分析、挖掘海量的数据来解决实际的问题。如何存储、查询和分析TB/PB级别的数据是在大数据时代不可回避的问题。HDFS文件系统是一个运行在普通的硬件之上的分布式文件系统,提供了一个高度容错性和高吞吐量的海量数据存储解决方案,非常适合大规模数据集上的应用,广泛应用于大数据作为存储系统。因此,对于HDFS分布式存储系统的访问的研究也就是成为研究大数据的一个热点。
HDFS作为Hadoop的核心组件之一,Hadoop系统中的MapReduce组件虽然能够从中取出数据并进行分析计算,但是,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。显然,直接使用MapReduce无法满足企业快速基于HDFS文件系统进行分析和统计。
SQL作为数据的操作语言,易于使用,广泛应用于数据分析和挖掘领域,并且具有很长的历史。如果HDFS文件系统能够支持用SQL访问,就可以快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。并且还可以快速整合和利用基于SQL的数据分析和数据可视化工具的大型生态系统。因此,如何支持用SQL访问HDFS文件系统成为研究访问HDFS文件系统的一个重要方向。
为了支持用SQL访问HDFS文件系统,Hadoop上推出了一款可以支持类似SQL语言(HiveQL,而非标准的SQL语言)的组件Apache Hive,这是一种类似于SQL的查询引擎,它将有限的SQL语言翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。尽管Hive对于SQL的支持是好的开端,但是它依赖于低效地MapReduce会导致查询出现高延迟,并且对SQL的支持也非常有限。因此,精通SQL的用户在使用时将遇到严重的限制,并且基于标准SQL的庞大的工具生态系统仍然无法直接或少量修改利用Hive。
数据分析供应商和开源社区采取了各种方法实现SQL访问HDFS文件系统。有些供应商已投资优化Apache Hive来缩小Hive与传统SQL引擎之间的性能落差,并增强对SQL语言的支持。而有些供应商则从头构建分布式SQL引擎。比如由Cloudera构建的Impala,采用类似google开源的Dremel的方式,自己实现了一个执行引擎,而不像MapReduce一样是一个通用框架,并且也没有任何failover和high availability的设计。
目前无论采用的各种方案,要不存在对SQL的兼容性不够,要不就是执行的效率不高,要不就是高额的成本,无法很好地满足用户的需要。因此,本发明公开了一种基于传统分布式关系数据库的查询优化框架,底层存储支持HDFS文件系统的方案。它能完全兼容SQL的标准,符合TPC-DS规格,高效地处理各种查询和分析,很好地跟传统基于关系型数据库的数据分析和数据可视化工具整合。
以下为本方案中可能会涉及的部分专业术语:
Hadoop:是一个由Apache基金会所开发的能够对大量数据进行分布式处理的软件框架。用户可在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
HDFS:是Hadoop Distribute File System的简称,也就是Hadoop的一个分布式文件系统,是Hadoop系统中的核心组件之一。
MapReduce:是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠容错并行处理TB级别的数据集,也是Hadoop系统的核心组件之一。
Panda:本发明涉及的一个具体的大规模并行SQL分析引擎。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种访问HDFS分布式存储系统的标准接口,能够提高访问速度,高效处理各种查询和分析。
为实现上述技术目的,本发明的技术方案是这样实现的:
本发明通过将数据库的系统表信息存储在分布式数据库的master节点的本地文件,而其他所有表中数据存储到HSFS中。最终用户通过master节点接收客户端连接,并处理客户端的命令,master节点解析查询,优化查询,并向segment分发查询,并协调查询执行,master节点存储所有系统的元数据,不存储任何用户数据。
master节点向segment分发查询时,将连同相关的元数据信息分发给segment进行处理。元数据中包含所请求表的HDFS url地址,segment使用该URL访问相应的数据。Segment中不存储数据库表元数据和运行状态信息,也不在本地文件系统中存储数据信息,只负责计算。通过存储和计算的分离,可以动态启动任意多个虚拟segment来执行查询,提高了执行效率。在Segment不保存状态,使得集群更容易扩展。由于HDFS数据文件是可拆分的,因此,可以赋予多个虚拟segment并发处理同一个数据文件,这提高了查询执行的并行度。
为了决定哪个segment管理哪部分数据,master需要从HDFS的NameNode获取数据的位置信息。由于HDFS在做RPC处理时会比较慢,尤其是当并发请求数很高时。我们增加一个HDFS目录缓存,它用来缓存数据的位置信息,从而加快HDFS的RPC处理。HDFS目录缓存是master点用来确定HDFS上表数据分布信息的一种缓存服务。
本发明的有益效果:通过将元数据存储到master主机上的本地文件系统中,将其它所有表数据存储到HDFS中,而segment不存储任何状态和数据信息,只负责计算,从而实现读写存储和计算的分离,可以动态启动任意多个虚拟segment来执行查询,提高了执行效率。在Segment不保存状态,使得集群更容易扩展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一个典型的Panda集群的主要组件示意图;
图2是根据本发明实施例所述的Panda的内部架构示意图;
图3是根据本发明实施例所述的Panda的执行流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
首先,将整个并行分析引擎称之为Panda。
图1介绍了一个典型的Panda集群的主要组件。其中有几个Master节点:Pandamaster节点,Panda master节点NameNode,YARN master节点ResourceManager。Panda元数据服务在Panda master节点里面,其他节点为Slave节点。每个Slave节点上部署有HDFSDataNode,YARN NodeManager以及一Panda Segment。Panda Segment在执行查询的时候会启动多个QE(Query Executor,查询执行器)。查询执行器运行在资源容器里面。
图2是Panda的内部架构图,从架构图可以看出Panda的Panda master节点内部有如下几个重要组件:查询解析器(Parser/Analyzer),优化器,资源管理器,资源代理,HDFS元数据缓存,容错服务,查询分发器,元数据服务。在每个Slave节点上安装有一个物理Segment,在查询执行时,针对一个查询,弹性执行引擎会自动启动多个虚拟Segment同时执行查询,节点间数据交换通过Interconnect(高速互联网络)进行。如果一个查询启动了100个虚拟Segment,这个查询就被均匀的分成了100份任务,这些任务会并行执行,所以说虚拟Segment数其实表明了查询的并行度。查询的并行度是由弹性执行引擎根据查询大小以及当前资源使用情况动态确定的。这些组件的作用以及它们之间的关系:
1)查询解析器:负责解析查询,并检查语法及语义。最终生成查询树传递给优化器。
2)优化器:负责接受查询树,生成查询计划。针对一个查询,可能有多个等价的查询计划,但执行性能差别很大。优化器的作用是找出最优的查询计划。
3)资源管理器:资源管理器主要是进行资源管理,通过资源代理向全局资源管理器(比如YARN)动态申请资源,并缓存资源,在不需要的时候返回资源。通过资源缓存来减少Panda与全局资源管理器之间的交互,提高查询性能。如果每一个小的查询都去向资源管理器申请资源,这样的话,性能会受到影响。资源管理器同时需要保证查询不使用超过分配给该查询的资源,否则查询之间会相互影响,可能导致系统整体不可用。
4)HDFS元数据缓存:用于Panda确定哪些Segment扫描表的哪些部分。Panda是把计算派遣到数据所在的地方。所以我们需要匹配计算和数据的局部性。这些需要HDFS块的位置信息。位置信息存储在HDFS NameNode上。每个查询都访问HDFS NameNode会造成NameNode的瓶颈。所以我们在HAWQ Master节点上建立了HDFS元数据缓存。
5)容错服务:负责检测哪些节点可用,哪些节点不可用。不可用的机器会被排除出资源池。
6)查询分发器:优化器优化完查询以后,查询分发器派遣计划到各个节点上执行,并协调查询执行的整个过程。查询分发器是整个并行系统的粘合剂。
7)元数据服务:负责存储Panda的各种元数据,包括数据库和表信息,以及访问权限信息等。另外,元数据服务也是实现分布式事务的关键。
8)高速互联网络:负责在节点之间传输数据。软件实现,基于UDP。
Panda主(master)节点是系统的入口点,是一个接受客户端连接,并处理SQL命令的数据库进程。Panda master节点解析查询,优化查询,向Segment分发查询,并协调查询执行。最终用户通过master节点与Panda交互。可以使用如psql的客户端程序,或者类似JDBC、ODBC的应用程序接口(APIS)连接到数据库。
“全局系统目录”是一组系统表的集合,包含Panda系统自身的元数据,存储在master节点中。master节点本身不含任何用户数据,数据只存储在HDFS上。master节点对客户端连接请求进行鉴权,处理输入的SQL命令,在segment间分发任务,协调每个segment返回的结果,向客户端程序输出最终结果。
在Panda中,Panda分区节点(segment)是并行数据处理单元。每个主机上只有一个物理segment,每个segment可以为一个查询片段启动多个查询执行器(Query Executors,QEs)。这使得单一的物理Segment表现得像多个Virtual Segment,从而使Panda能够更好地利用所有可用资源。
一个Virtual Segment就像是QE的一个容器。每个Virtual Segment含有为查询片段启动的一个QE。Virtual Segment的数量被用于确定一个查询的并行度(degree ofparallelism,DOP)。
master节点SQL请求连同相关的元数据信息分发给segment进行处理。元数据中包含所请求表的HDFS url地址,segment使用该URL访问相应的数据。在segment中不存储数据库表元数据,不存储状态信息,也不存储用户数据信息,只负责计算。
通过存储和计算的分离,可以动态启动任意多个虚拟segment来执行查询,提高了执行效率。在Segment不保存状态,使得集群更容易扩展。
图3是Panda的查询主要流程。用户通过JDBC/ODBC提交查询之后,查询解析器得到查询树,然后优化器根据查询树生成查询计划,分发器和资源管理器打交道得到资源,分解查询计划,然后派遣计划到Segment的执行器上面执行。最终结果会传回给用户。
Panda内部表的存储类型包括以下三种。
●Heap表:存放在postgres中。Panda的元信息均以Heap表的方式存储,存储在Master节点的本地文件中。
●Row-Oriented行式存储:Panda自己提出的一种存储格式。元信息存放在Pandamaster上,实际数据存放在HDFS上。Row行存表将数据以block为单位逐次写出或者读入内存。
●Parquet列式存储:Parquet是Hadoop生态系统开源的数据文件格式,被多种数据引擎支持,包括Hive、Impala、Storm等。Parquet同Row一样,元信息存储在Panda master上,实际数据存放在HDFS上。Parquet表将数据以rowgroup为单位写出或者读入内存。如果只需要读取几列数据,仅会读出rowgroup中这几列对应的数据。
除系统表外,Panda将其它所有表数据存储到HDFS中。当用户创建了一个表,其元数据存储到master主机上的本地文件系统中,表的数据存储到HDFS中。为了简化表数据管理,一个表中的所有数据都保存在一个HDFS目录中。
当我们创建表并插入数据后,Panda在HDFS上的数据是以目录tablespace/ database/table/segfile的方式组织的。在系统表中gp_persistent_ralation_node,gp_ persistent_tablespace_node,gp_persistent_filespace_node中分别存有表的 relation_oid,tablespace_oid和database_oid,file_space_oid。而Hdfs的url路径是在 panda-site.xml里配置的,配置项为panda_dfs_url。
对于所有Panda表存储格式,AO(Append-Only)和Parquet,数据文件是可拆分的,因此Panda可以赋予多个虚拟segment并发处理同一个数据文件,这提高了查询执行的并行度。
所有的Panda表(除gpfdist外部表)是分布存储在HDFS上的。Panda支持两种数据分布策略,随机与哈希。Panda缺省的表分布策略是随机分布。相对于使用表的哈希分布策略,随机分布有一些好处。例如,当集群扩容后,Panda可以自动使用更多的资源,而不再需要重新分布数据。对于大表,重新分布数据的代价是很高的。当底层HDFS在执行rebalance操作,或者某些DataNode失效后,随机分布表的数据本地化会更好,而且集群规模越大,这种策略的优势越明显。另一方面,对于某些查询,哈希分布的表会比随机分布快。例如,在一些TPC-H查询中,哈希分布表的查询性能更好。
在Panda中,数据是跨越HDFS的DataNode分布存储的。由于远程读取会引入网络I/O。Panda给虚拟segment分配数据块时,综合考虑三个方面的因素:本地读取比例、数据文件连续读和保持虚拟segment间的数据平衡。Panda通过这种数据本地化算法提升本地数据读取比例。
除了自带数据存储格式,Panda还可以与外部数据系统交互的功能。通过创建外部表,Panda可以访问外部生态系统以及其它格式的数据,生态系统包括Hive、Hbase等,文件格式包括csv等。Panda在访问外部表时可依照多种协议,比如file,gpfdist,gphdfs,http以及pxf。与创建外部表相比,Panda Register还能把外部数据源的文件直接注册到Panda内部表,这样就能直接应用Panda内部表的统计信息,性能会有更大的提升。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种访问HDFS分布式存储系统的标准接口,其特征在于,包括:主节点和若干分区节点;
所述主节点包括查询解析器,用于解析查询,并检查语法及语义,最终生成查询树传递给优化器;优化器,用于接受查询树,生成查询计划;资源管理器,用于进行资源管理,通过资源代理向全局资源管理器动态申请资源,并缓存资源,在不需要的时候返回资源;HDFS元数据缓存模块,用于接口确定分区节点对应所需扫描的表的位置;容错服务模块,用于检测节点的可用性;查询分发器,用于在优化器优化查询以后,派遣计划到各个节点上执行,并协调查询执行的整个过程;元数据服务模块,负责存储接口的各种元数据;
所述分区节点包括物理分区节点,用于启动查询执行器;数据节点,用于存储相关查询信息,包括所请求表的HDFS url地址;节点管理器,用于管理节点;虚拟分区节点,用于执行查询。
2.根据权利要求1所述的访问HDFS分布式存储系统的标准接口,其特征在于,还包括高速互联网模块,用于在节点之间传输数据。
3.根据权利要求1所述的访问HDFS分布式存储系统的标准接口,其特征在于,所述元数据服务模块存储的数据包括但不限于数据库和表信息,以及访问权限信息。
4.根据权利要求1所述的访问HDFS分布式存储系统的标准接口,其特征在于,每个主机上只有一个物理分区节点,所述每个物理分区节点用于启动多个查询执行器。
CN201711022032.1A 2017-10-27 2017-10-27 一种访问hdfs分布式存储系统的标准接口 Pending CN107784103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711022032.1A CN107784103A (zh) 2017-10-27 2017-10-27 一种访问hdfs分布式存储系统的标准接口

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711022032.1A CN107784103A (zh) 2017-10-27 2017-10-27 一种访问hdfs分布式存储系统的标准接口

Publications (1)

Publication Number Publication Date
CN107784103A true CN107784103A (zh) 2018-03-09

Family

ID=61431806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711022032.1A Pending CN107784103A (zh) 2017-10-27 2017-10-27 一种访问hdfs分布式存储系统的标准接口

Country Status (1)

Country Link
CN (1) CN107784103A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902065A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 访问分布式集群外部数据方法及装置
CN110837509A (zh) * 2019-11-08 2020-02-25 深圳市彬讯科技有限公司 一种调度依赖的方法、装置、设备以及存储介质
CN111324670A (zh) * 2020-02-27 2020-06-23 中国邮政储蓄银行股份有限公司 基于HDFS与Vertica的计算存储分离部署的方法及系统
CN112084144A (zh) * 2020-08-14 2020-12-15 陕西千山航空电子有限责任公司 一种通用飞参数据分布式存储方法
CN112395308A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs数据库的数据查询方法
CN112905615A (zh) * 2021-03-02 2021-06-04 浪潮云信息技术股份公司 一种基于顺序校验的分布式一致性协议提交方法及系统
CN116126973A (zh) * 2022-12-29 2023-05-16 国家气象信息中心(中国气象局气象数据中心) 气象格点数据管理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150304A (zh) * 2011-12-06 2013-06-12 郑红云 云数据库系统
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法
CN107066546A (zh) * 2017-03-20 2017-08-18 国家计算机网络与信息安全管理中心 一种基于mpp引擎的跨数据中心快速查询方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150304A (zh) * 2011-12-06 2013-06-12 郑红云 云数据库系统
US20140195558A1 (en) * 2013-01-07 2014-07-10 Raghotham Murthy System and method for distributed database query engines
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法
CN107066546A (zh) * 2017-03-20 2017-08-18 国家计算机网络与信息安全管理中心 一种基于mpp引擎的跨数据中心快速查询方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛仔裤的夏天: "Pandas基础学习与Spark Python初探", 《HTTPS://WWW.CNBLOGS.COM/WONGLU/P/7465064.HTML》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902065A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 访问分布式集群外部数据方法及装置
CN110837509A (zh) * 2019-11-08 2020-02-25 深圳市彬讯科技有限公司 一种调度依赖的方法、装置、设备以及存储介质
CN111324670A (zh) * 2020-02-27 2020-06-23 中国邮政储蓄银行股份有限公司 基于HDFS与Vertica的计算存储分离部署的方法及系统
CN112084144A (zh) * 2020-08-14 2020-12-15 陕西千山航空电子有限责任公司 一种通用飞参数据分布式存储方法
CN112395308A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs数据库的数据查询方法
CN112905615A (zh) * 2021-03-02 2021-06-04 浪潮云信息技术股份公司 一种基于顺序校验的分布式一致性协议提交方法及系统
CN116126973A (zh) * 2022-12-29 2023-05-16 国家气象信息中心(中国气象局气象数据中心) 气象格点数据管理方法和装置

Similar Documents

Publication Publication Date Title
CN107784103A (zh) 一种访问hdfs分布式存储系统的标准接口
US11372888B2 (en) Adaptive distribution for hash operations
US11580070B2 (en) Utilizing metadata to prune a data set
US9081837B2 (en) Scoped database connections
US20120284228A1 (en) User-Defined Parallelization in Transactional Replication of In-Memory Database
US9424291B2 (en) Efficient multi-tenant spatial and relational indexing
CN107066546B (zh) 一种基于mpp引擎的跨数据中心快速查询方法和系统
US20090198703A1 (en) Intelligent data storage system
CN111581234B (zh) Rac多节点数据库查询方法、装置及系统
JP2007025785A (ja) データベース処理方法、システム及びプログラム
WO2015137919A1 (en) Parallelizing sql user defined transformation functions
US11818012B2 (en) Online restore to different topologies with custom data distribution
WO2015043391A1 (en) Data synchronization for remote and local databases
US10565187B2 (en) Management of transactions spanning different database types
US6470331B1 (en) Very large table reduction in parallel processing database systems
US11256695B1 (en) Hybrid query execution engine using transaction and analytical engines
CN111125248A (zh) 一种大数据存储解析查询系统
Li Modernization of databases in the cloud era: Building databases that run like Legos
CN110069565B (zh) 一种分布式数据库数据批量处理的方法及装置
US11940972B2 (en) Execution of operations on partitioned tables
US11789971B1 (en) Adding replicas to a multi-leader replica group for a data set
CN114328696A (zh) 高并发数据处理方法、装置及计算机可读存储介质
CN110569310A (zh) 一种云计算环境下的关系大数据的管理方法
Dai et al. Design patterns for cloud services
Pan et al. Implementing and Optimizing Multiple Group by Query in a MapReduce Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180309

RJ01 Rejection of invention patent application after publication