CN104239529A - 防止Hive数据倾斜的方法和装置 - Google Patents

防止Hive数据倾斜的方法和装置 Download PDF

Info

Publication number
CN104239529A
CN104239529A CN201410482327.7A CN201410482327A CN104239529A CN 104239529 A CN104239529 A CN 104239529A CN 201410482327 A CN201410482327 A CN 201410482327A CN 104239529 A CN104239529 A CN 104239529A
Authority
CN
China
Prior art keywords
key
join
load balancing
data
hive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410482327.7A
Other languages
English (en)
Inventor
刘璧怡
郭美思
吴楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410482327.7A priority Critical patent/CN104239529A/zh
Publication of CN104239529A publication Critical patent/CN104239529A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种防止Hive数据倾斜的方法和装置,包括:根据需要处理的表的规模及特性,设置Map数量和Reduce数量;在Map端设置聚合函数和负载均衡参数;根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。本发明通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上,从而防止数据倾斜。

Description

防止Hive数据倾斜的方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种优化Hive数据倾斜的方法和装置。
背景技术
在互联网高速发展的时代,每天都有数以百计请求查询及数据汇总,在这样大规模的数据处理中,数据的输入量是非常巨大的,目前单个PC机已经无法能满足现状的需求。采取分布式处理技术,将多台廉价计算机组成集群,将这些计算任务分布到这些廉价的计算机上处理。在分布式集群中Hadoop提供了分布式处理的平台,可以利用MapReduce框架在多台计算机组成的集群中并行的运行大规模的分布式计算操作,具有高效的计算能力。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据文件映射为一张数据库表,并提供完整的结构化查询语言(SQL,Structured QueryLanguage)查询功能,可以将SQL语句转换为MapReduce任务进行运行,防止了对于不熟悉MapReduce的编程人员编写MapReduce带来的不便。
在Hive进行SQL语句操作时是通过底层的MapReduce框架来完成处理操作的。但在MapReduce处理的过程中会在Map阶段后生成的中间文件分配阶段出现数据倾斜的问题,由于Map阶段处理数据量的差异过大,使得数据不能均匀的分配到各个Reduce中。
在Hive中执行操作导致数据倾斜的原因是表中的key值分布不均匀,建表时考虑不全面,应用场景的特点等都会有数据倾斜的可能。在数据倾斜现象中,会在Reduce阶段中有明显的几个Reduce的处理数据远远高于其他的Reduce,使得这几个Reduce处理时间很长,处理的很慢,在任务进度中长时间维持在接近完成的状态,查看任务监控时会发现一直有几个Reduce任务未完成。因此,导致整个任务的性能下降。
发明内容
为了解决上述技术问题,本发明提供了一种防止Hive数据倾斜的方法和装置,能够防止由于数据倾斜带来的性能下降。
为了达到本发明目的,本发明提供了一种防止Hive数据倾斜的方法,包括:根据需要处理的表的规模及特性,设置Map数量和Reduce数量;在Map端设置聚合函数和负载均衡参数;根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
进一步地,聚合函数是sum聚合函数;负载均衡参数是hive.groupby.skewindata=true,将Map的输出结果集合中相同Key的数据随机分发不到Reduce。
进一步地,应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜,其中,join包括大小表Join和两个大表Join。
进一步地,根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡,包括:如果是大小表Join时,将小表放进内存,将join转化为mapjoin进行查询,在MapJoin中,每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统,select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key=b.key;
如果是两个大表Join时,空的Key的比重高,使用空值不参与操作的方式,select*from a join b on a.key is not null and a.key=b.key,或者,利用随机函数,select*from a left outer join b on case when a.key is null thenconcat(a.key,rand())else a.key end=b.key,其中如果a表的key值是空值,对数据进行负载均衡;
如果是由于group by操作中的key分布不均匀导致的数据倾斜,使用负载均衡参数hive.groupby.skewindata=true,在查询的计划中生成两个MapReduce作业,其中,在第一个作业中,Map的输出结果随机分布到Reduce中,每个Reduce做部分聚合操作,输出结果;在第二个作业中,按照相同的key值分不到同一个Reduce中,完成最终的聚合操作。
一种防止Hive数据倾斜的装置,包括:第一设置模块,用于根据需要处理的表的规模及特性,设置Map数量和Reduce数量;第二设置模块,用于在Map端设置聚合函数和负载均衡参数;负载均衡单元,用于根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
与现有技术相比,本发明包括:根据需要处理的表的规模及特性,设置Map数量和Reduce数量;在Map端设置聚合函数和负载均衡参数;根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。本发明通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上,从而防止数据倾斜。
附图说明
图1是本发明Hive体系的结构示意图。
图2是本发明防止Hive数据倾斜的方法的流程示意图。
图3是本发明防止Hive数据倾斜的装置的结构示意图。
具体实施方式
下面结合附图对本发明进行进一步的详细说明。通过足够详细的描述这些实施示例,使得本领域技术人员能够实践本发明。在不脱离本发明的主旨和范围的情况下,可以对实施做出逻辑的、实现的和其他的改变。
Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。
图1是本发明Hive体系的结构示意图。如图1所示,包括:
用户接口,包括客户端、数据库接口和Web界面。
Hive将元数据存储在数据库中,如结构化查询语言(MySQL,MyStructured Query Language)或Derby中,其中元数据是指hive中存储数据库信息及表信息,Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性、表数据所在的目录等。
驱动器,包括解释器、编译器、优化器,完成面向对象的查询语句(HQL,Hibernate Query Language),查询语句从词法分析、语法分析、编译、优化到查询计划的生成,其中查询计划是将SQL语句按照Hive中自带的解释器等模块解析成mapreduce能执行的程序,生成的查询计划存储在Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)中,并在MapReduce调用执行。Hive的数据存储在HDFS中,大部分的查询是由MapReduce完成的。
图2是本发明防止Hive数据倾斜的方法的流程示意图,如图2所示,具体可以包括:
步骤21,根据需要处理的表的规模及特性,设置Map数量和Reduce数量。
在本步骤中,例如,可以在表的规模很大的时候,将Map数量设置成CPU核数的2倍,将Reduce数量为CPU核数的一半。
步骤22,在Map端设置聚合函数和负载均衡参数。
在本步骤中,聚合函数可以是求和时使用sum聚合函数,用以减少key值过多或过少的数据倾斜。
负载均衡参数可以是hive.groupby.skewindata=true,该负载均衡参数可以将Map的输出结果集合中相同Key的数据随机分发不到Reduce中,从而可以达到有数据倾斜发生时负载均衡的目的。
步骤23,根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
在本步骤中,应用场景可以包括由于join或者group by等操作中的key分布不均匀导致的数据倾斜。
如果是由于join操作中的key分布不均匀导致的数据倾斜,若是有大小表Join时,需要将小表放进内存,将join转化为mapjoin进行查询,在MapJoin中,每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统,例如,select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key=b.key,该查询操作这样只在Map端工作,不需要Reduce处理,防止了数据倾斜现象。若是两个大表Join时,空的Key的比重很高,可以使用空值不参与操作的方式,例如select*from a join b on a.key is not null and a.key=b.key;也可以利用随机函数解决数据倾斜的方式,例如select*from a left outer join b on case whena.key is null then concat(a.key,rand())else a.key end=b.key,其中如果a表的key值是空值,则利用随机函数叠加处理,因为异常值空值是关联不到的,所以加上随机函数对结果没有影响,根据随机函数,将数据倾斜的数据随机分布到不同的Reduce中继续处理,防止了数据倾斜带来的任务处理时间过长的现象。
如果是由于group by操作中的key分布不均匀导致的数据倾斜,可以使用两次MapReduce任务进行优化。例如,设定负载均衡参数hive.groupby.skewindata=true,在查询的计划中生成两个MapReduce作业,其中,在第一个作业中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,输出结果,这样能够达到负载均衡的效果;在第二个作业中,按照相同的key值分不到同一个Reduce中,完成最终的聚合操作。
本发明防止Hive数据倾斜的方法,通过调整底层MapReduce资源分配及调节SQL语句来防止数据倾斜,如调整底层MapReduce资源分配方式是从MapReduce底层计算角度优化性能,通过查看闲置CPU的资源情况,合理配置;在SQL语句调节中主要是根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上,从而解决了现有技术中因Map处理数量的差异过大,使得某些Reduce的数据处理量明显高于其他Reduce的数据处理数量而导致的性能下降。
图3是本发明防止Hive数据倾斜的装置的结构示意图,如图3所示,具体可以包括:
第一设置模块,用于根据需要处理的表的规模及特性,设置Map数量和Reduce数量;
第二设置模块,用于在Map端设置聚合函数和负载均衡参数;
负载均衡单元,根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
防止Hive数据倾斜的装置是和防止Hive数据倾斜的方法对应的,因此,具体的实现细节可参看防止Hive数据倾斜的方法,在此不赘述。
本发明防止Hive数据倾斜的装置,通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上,从而防止数据倾斜。
应当理解,虽然本说明书根据实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用于限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种防止Hive数据倾斜的方法,其特征在于,包括:
根据需要处理的表的规模及特性,设置Map数量和Reduce数量;
在Map端设置聚合函数和负载均衡参数;
根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
2.根据权利要求1所述的防止Hive数据倾斜的方法,其特征在于,所述聚合函数是sum聚合函数;
所述负载均衡参数是hive.groupby.skewindata=true,将Map的输出结果集合中相同Key的数据随机分发不到Reduce。
3.根据权利要求1或2所述的防止Hive数据倾斜的方法,其特征在于,所述应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜,其中,join包括大小表Join和两个大表Join。
4.根据权利要求3所述的防止Hive数据倾斜的方法,其特征在于,所述根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡,包括:
如果是大小表Join时,将小表放进内存,将join转化为mapjoin进行查询,在MapJoin中,每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统,select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key=b.key。
5.根据权利要求3所述的防止Hive数据倾斜的方法,其特征在于,所述根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡,包括:
如果是两个大表Join时,空的Key的比重高;
使用空值不参与操作的方式,select*from a join b on a.key is not nulland a.key=b.key,或者,利用随机函数,select*from a left outer join b on casewhen a.key is null then concat(a.key,rand())else a.key end=b.key,其中如果a表的key值是空值,对数据进行负载均衡。
6.根据权利要求3所述的防止Hive数据倾斜的方法,其特征在于,所述根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡,包括:
如果是由于group by操作中的key分布不均匀导致的数据倾斜,使用负载均衡参数hive.groupby.skewindata=true,在查询的计划中生成两个MapReduce作业,其中,在第一个作业中,Map的输出结果随机分布到Reduce中,每个Reduce做部分聚合操作,输出结果;在第二个作业中,按照相同的key值分不到同一个Reduce中,完成最终的聚合操作。
7.一种防止Hive数据倾斜的装置,其特征在于,包括:
第一设置模块,用于根据需要处理的表的规模及特性,设置Map数量和Reduce数量;
第二设置模块,用于在Map端设置聚合函数和负载均衡参数;
负载均衡单元,用于根据应用场景特点及表的特性,利用聚合函数和负载均衡参数,进行SQL编写,对数据进行负载均衡。
8.根据权利要求7所述的防止Hive数据倾斜的装置,其特征在于,所述聚合函数是sum聚合函数;所述负载均衡参数是hive.groupby.skewindata=true,将Map的输出结果集合中相同Key的数据随机分发不到Reduce。
9.根据权利要求1或8所述的防止Hive数据倾斜的装置,其特征在于,所述应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜,其中,join包括大小表Join和两个大表Join。
10.根据权利要求9所述的防止Hive数据倾斜的装置,其特征在于,所述负载均衡单元,具体用于:
如果是大小表Join时,将小表放进内存,将join转化为mapjoin进行查询,在MapJoin中,每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统,select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key=b.key;
如果是两个大表Join时,空的Key的比重高;使用空值不参与操作的方式,select*from a join b on a.key is not null and a.key=b.key,或者,利用随机函数,select*from a left outer join b on case when a.key is null thenconcat(a.key,rand())else a.key end=b.key,其中如果a表的key值是空值,对数据进行负载均衡;
如果是由于group by操作中的key分布不均匀导致的数据倾斜,使用负载均衡参数hive.groupby.skewindata=true,在查询的计划中生成两个MapReduce作业,其中,在第一个作业中,Map的输出结果随机分布到Reduce中,每个Reduce做部分聚合操作,输出结果;在第二个作业中,按照相同的key值分不到同一个Reduce中,完成最终的聚合操作。
CN201410482327.7A 2014-09-19 2014-09-19 防止Hive数据倾斜的方法和装置 Pending CN104239529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410482327.7A CN104239529A (zh) 2014-09-19 2014-09-19 防止Hive数据倾斜的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410482327.7A CN104239529A (zh) 2014-09-19 2014-09-19 防止Hive数据倾斜的方法和装置

Publications (1)

Publication Number Publication Date
CN104239529A true CN104239529A (zh) 2014-12-24

Family

ID=52227588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410482327.7A Pending CN104239529A (zh) 2014-09-19 2014-09-19 防止Hive数据倾斜的方法和装置

Country Status (1)

Country Link
CN (1) CN104239529A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095413A (zh) * 2015-07-09 2015-11-25 北京京东尚科信息技术有限公司 一种解决数据倾斜的方法及装置
CN105975463A (zh) * 2015-09-25 2016-09-28 武汉安天信息技术有限责任公司 一种基于MapReduce识别优化数据倾斜的方法及系统
CN106126343A (zh) * 2016-06-27 2016-11-16 西北工业大学 基于增量式分区策略的MapReduce数据均衡方法
CN106156159A (zh) * 2015-04-16 2016-11-23 阿里巴巴集团控股有限公司 一种表连接处理方法、装置和云计算系统
CN106874322A (zh) * 2016-06-27 2017-06-20 阿里巴巴集团控股有限公司 一种数据表关联方法和装置
CN107066612A (zh) * 2017-05-05 2017-08-18 郑州云海信息技术有限公司 一种基于SparkJoin操作的自适应数据倾斜调整方法
WO2017162027A1 (zh) * 2016-03-21 2017-09-28 阿里巴巴集团控股有限公司 MR计算平台中用户任务map端聚合的控制方法及装置
CN108334596A (zh) * 2018-01-31 2018-07-27 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN109684856A (zh) * 2018-12-18 2019-04-26 西安电子科技大学 一种针对MapReduce计算的数据保密方法及系统
CN110209645A (zh) * 2017-12-30 2019-09-06 中国移动通信集团四川有限公司 任务处理方法、装置、电子设备及存储介质
CN110362611A (zh) * 2019-07-12 2019-10-22 拉卡拉支付股份有限公司 一种数据库查询方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302151A1 (en) * 2010-06-04 2011-12-08 Yale University Query Execution Systems and Methods
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其系统
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302151A1 (en) * 2010-06-04 2011-12-08 Yale University Query Execution Systems and Methods
CN102799622A (zh) * 2012-06-19 2012-11-28 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其系统
CN103106253A (zh) * 2013-01-16 2013-05-15 西安交通大学 一种MapReduce计算模型中基于遗传算法的数据平衡方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
读书人网: "Hive数据倾斜小结", 《HTTP://WWW.READER8.CN/JIAOCHENG/20140103/2227179.HTML》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156159A (zh) * 2015-04-16 2016-11-23 阿里巴巴集团控股有限公司 一种表连接处理方法、装置和云计算系统
CN105095413A (zh) * 2015-07-09 2015-11-25 北京京东尚科信息技术有限公司 一种解决数据倾斜的方法及装置
CN105095413B (zh) * 2015-07-09 2018-11-23 北京京东尚科信息技术有限公司 一种解决数据倾斜的方法及装置
CN105975463A (zh) * 2015-09-25 2016-09-28 武汉安天信息技术有限责任公司 一种基于MapReduce识别优化数据倾斜的方法及系统
WO2017162027A1 (zh) * 2016-03-21 2017-09-28 阿里巴巴集团控股有限公司 MR计算平台中用户任务map端聚合的控制方法及装置
CN107220247A (zh) * 2016-03-21 2017-09-29 阿里巴巴集团控股有限公司 MR计算平台中用户任务map端聚合的控制方法及装置
CN106126343A (zh) * 2016-06-27 2016-11-16 西北工业大学 基于增量式分区策略的MapReduce数据均衡方法
CN106874322A (zh) * 2016-06-27 2017-06-20 阿里巴巴集团控股有限公司 一种数据表关联方法和装置
CN106126343B (zh) * 2016-06-27 2020-04-03 西北工业大学 基于增量式分区策略的MapReduce数据均衡方法
CN107066612A (zh) * 2017-05-05 2017-08-18 郑州云海信息技术有限公司 一种基于SparkJoin操作的自适应数据倾斜调整方法
CN110209645A (zh) * 2017-12-30 2019-09-06 中国移动通信集团四川有限公司 任务处理方法、装置、电子设备及存储介质
CN108334596A (zh) * 2018-01-31 2018-07-27 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN108334596B (zh) * 2018-01-31 2020-08-18 华南师范大学 一种面向大数据平台的海量关系数据高效并行迁移方法
CN109684856A (zh) * 2018-12-18 2019-04-26 西安电子科技大学 一种针对MapReduce计算的数据保密方法及系统
CN109684856B (zh) * 2018-12-18 2021-05-07 西安电子科技大学 一种针对MapReduce计算的数据保密方法及系统
CN110362611A (zh) * 2019-07-12 2019-10-22 拉卡拉支付股份有限公司 一种数据库查询方法、装置、电子设备及存储介质
CN110362611B (zh) * 2019-07-12 2021-07-09 拉卡拉支付股份有限公司 一种数据库查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN104239529A (zh) 防止Hive数据倾斜的方法和装置
US11630830B2 (en) Background format optimization for enhanced queries in a distributed computing cluster
CN110168516B (zh) 用于大规模并行处理的动态计算节点分组方法及系统
US10628419B2 (en) Many-core algorithms for in-memory column store databases
JP6050272B2 (ja) Apache hadoop用の低レイテンシクエリエンジン
US10146834B2 (en) Split processing paths for a database calculation engine
US9081837B2 (en) Scoped database connections
US9576000B2 (en) Adaptive fragment assignment for processing file data in a database
US11061895B2 (en) Adaptive granule generation for parallel queries with run-time data pruning
US20120254597A1 (en) Branch-and-bound on distributed data-parallel execution engines
JP2016509294A (ja) 分散型データベースクエリ・エンジン用のシステムおよび方法
JP2014194769A6 (ja) Apache hadoop用の低レイテンシクエリエンジン
CN105045607A (zh) 一种实现多种大数据计算框架统一接口的方法
Minhas et al. Elastic scale-out for partition-based database systems
Liu et al. ETLMR: a highly scalable dimensional ETL framework based on MapReduce
GB2519761A (en) A method and a system for distributed processing of data records
CN104111936A (zh) 数据查询方法和系统
Zhao et al. ESQP: an efficient SQL query processing for cloud data management
US10944814B1 (en) Independent resource scheduling for distributed data processing programs
WO2017070134A1 (en) Parallel transfer of sql data to software framework
CN104376047B (zh) 一种基于HBase的大表join方法
US11599540B2 (en) Query execution apparatus, method, and system for processing data, query containing a composite primitive
CN105718318A (zh) 一种基于辅助工程设计软件的集合式调度优化方法
KR20140049202A (ko) 분산형 데이터베이스 관리 시스템 및 방법
US10255316B2 (en) Processing of data chunks using a database calculation engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224

RJ01 Rejection of invention patent application after publication