CN104239529A

CN104239529A - 防止Hive数据倾斜的方法和装置

Info

Publication number: CN104239529A
Application number: CN201410482327.7A
Authority: CN
Inventors: 刘璧怡; 郭美思; 吴楠
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-09-19
Filing date: 2014-09-19
Publication date: 2014-12-24

Abstract

本发明提供了一种防止Hive数据倾斜的方法和装置，包括：根据需要处理的表的规模及特性，设置Map数量和Reduce数量；在Map端设置聚合函数和负载均衡参数；根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。本发明通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上，从而防止数据倾斜。

Description

防止Hive数据倾斜的方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种优化Hive数据倾斜的方法和装置。

背景技术

在互联网高速发展的时代，每天都有数以百计请求查询及数据汇总，在这样大规模的数据处理中，数据的输入量是非常巨大的，目前单个PC机已经无法能满足现状的需求。采取分布式处理技术，将多台廉价计算机组成集群，将这些计算任务分布到这些廉价的计算机上处理。在分布式集群中Hadoop提供了分布式处理的平台，可以利用MapReduce框架在多台计算机组成的集群中并行的运行大规模的分布式计算操作，具有高效的计算能力。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化数据文件映射为一张数据库表，并提供完整的结构化查询语言(SQL，Structured QueryLanguage)查询功能，可以将SQL语句转换为MapReduce任务进行运行，防止了对于不熟悉MapReduce的编程人员编写MapReduce带来的不便。

在Hive进行SQL语句操作时是通过底层的MapReduce框架来完成处理操作的。但在MapReduce处理的过程中会在Map阶段后生成的中间文件分配阶段出现数据倾斜的问题，由于Map阶段处理数据量的差异过大，使得数据不能均匀的分配到各个Reduce中。

在Hive中执行操作导致数据倾斜的原因是表中的key值分布不均匀，建表时考虑不全面，应用场景的特点等都会有数据倾斜的可能。在数据倾斜现象中，会在Reduce阶段中有明显的几个Reduce的处理数据远远高于其他的Reduce，使得这几个Reduce处理时间很长，处理的很慢，在任务进度中长时间维持在接近完成的状态，查看任务监控时会发现一直有几个Reduce任务未完成。因此，导致整个任务的性能下降。

发明内容

为了解决上述技术问题，本发明提供了一种防止Hive数据倾斜的方法和装置，能够防止由于数据倾斜带来的性能下降。

为了达到本发明目的，本发明提供了一种防止Hive数据倾斜的方法，包括：根据需要处理的表的规模及特性，设置Map数量和Reduce数量；在Map端设置聚合函数和负载均衡参数；根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

进一步地，聚合函数是sum聚合函数；负载均衡参数是hive.groupby.skewindata＝true，将Map的输出结果集合中相同Key的数据随机分发不到Reduce。

进一步地，应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜，其中，join包括大小表Join和两个大表Join。

进一步地，根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡，包括：如果是大小表Join时，将小表放进内存，将join转化为mapjoin进行查询，在MapJoin中，每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统，select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key＝b.key；

如果是两个大表Join时，空的Key的比重高，使用空值不参与操作的方式，select*from a join b on a.key is not null and a.key＝b.key，或者，利用随机函数，select*from a left outer join b on case when a.key is null thenconcat(a.key,rand())else a.key end＝b.key，其中如果a表的key值是空值，对数据进行负载均衡；

如果是由于group by操作中的key分布不均匀导致的数据倾斜，使用负载均衡参数hive.groupby.skewindata＝true，在查询的计划中生成两个MapReduce作业，其中，在第一个作业中，Map的输出结果随机分布到Reduce中，每个Reduce做部分聚合操作，输出结果；在第二个作业中，按照相同的key值分不到同一个Reduce中，完成最终的聚合操作。

一种防止Hive数据倾斜的装置，包括：第一设置模块，用于根据需要处理的表的规模及特性，设置Map数量和Reduce数量；第二设置模块，用于在Map端设置聚合函数和负载均衡参数；负载均衡单元，用于根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

与现有技术相比，本发明包括：根据需要处理的表的规模及特性，设置Map数量和Reduce数量；在Map端设置聚合函数和负载均衡参数；根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。本发明通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上，从而防止数据倾斜。

附图说明

图1是本发明Hive体系的结构示意图。

图2是本发明防止Hive数据倾斜的方法的流程示意图。

图3是本发明防止Hive数据倾斜的装置的结构示意图。

具体实施方式

下面结合附图对本发明进行进一步的详细说明。通过足够详细的描述这些实施示例，使得本领域技术人员能够实践本发明。在不脱离本发明的主旨和范围的情况下，可以对实施做出逻辑的、实现的和其他的改变。

Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具，用来进行数据提取、转化、加载，是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。

图1是本发明Hive体系的结构示意图。如图1所示，包括：

用户接口，包括客户端、数据库接口和Web界面。

Hive将元数据存储在数据库中，如结构化查询语言(MySQL，MyStructured Query Language)或Derby中，其中元数据是指hive中存储数据库信息及表信息，Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性、表数据所在的目录等。

驱动器，包括解释器、编译器、优化器，完成面向对象的查询语句(HQL，Hibernate Query Language)，查询语句从词法分析、语法分析、编译、优化到查询计划的生成，其中查询计划是将SQL语句按照Hive中自带的解释器等模块解析成mapreduce能执行的程序，生成的查询计划存储在Hadoop分布式文件系统(HDFS，Hadoop Distributed File System)中，并在MapReduce调用执行。Hive的数据存储在HDFS中，大部分的查询是由MapReduce完成的。

图2是本发明防止Hive数据倾斜的方法的流程示意图，如图2所示，具体可以包括：

步骤21，根据需要处理的表的规模及特性，设置Map数量和Reduce数量。

在本步骤中，例如，可以在表的规模很大的时候，将Map数量设置成CPU核数的2倍，将Reduce数量为CPU核数的一半。

步骤22，在Map端设置聚合函数和负载均衡参数。

在本步骤中，聚合函数可以是求和时使用sum聚合函数，用以减少key值过多或过少的数据倾斜。

负载均衡参数可以是hive.groupby.skewindata＝true，该负载均衡参数可以将Map的输出结果集合中相同Key的数据随机分发不到Reduce中，从而可以达到有数据倾斜发生时负载均衡的目的。

步骤23，根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

在本步骤中，应用场景可以包括由于join或者group by等操作中的key分布不均匀导致的数据倾斜。

如果是由于join操作中的key分布不均匀导致的数据倾斜，若是有大小表Join时，需要将小表放进内存，将join转化为mapjoin进行查询，在MapJoin中，每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统，例如，select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key＝b.key，该查询操作这样只在Map端工作，不需要Reduce处理，防止了数据倾斜现象。若是两个大表Join时，空的Key的比重很高，可以使用空值不参与操作的方式，例如select*from a join b on a.key is not null and a.key＝b.key；也可以利用随机函数解决数据倾斜的方式，例如select*from a left outer join b on case whena.key is null then concat(a.key,rand())else a.key end＝b.key，其中如果a表的key值是空值，则利用随机函数叠加处理，因为异常值空值是关联不到的，所以加上随机函数对结果没有影响，根据随机函数，将数据倾斜的数据随机分布到不同的Reduce中继续处理，防止了数据倾斜带来的任务处理时间过长的现象。

如果是由于group by操作中的key分布不均匀导致的数据倾斜，可以使用两次MapReduce任务进行优化。例如，设定负载均衡参数hive.groupby.skewindata＝true，在查询的计划中生成两个MapReduce作业，其中，在第一个作业中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，输出结果，这样能够达到负载均衡的效果；在第二个作业中，按照相同的key值分不到同一个Reduce中，完成最终的聚合操作。

本发明防止Hive数据倾斜的方法，通过调整底层MapReduce资源分配及调节SQL语句来防止数据倾斜，如调整底层MapReduce资源分配方式是从MapReduce底层计算角度优化性能，通过查看闲置CPU的资源情况，合理配置；在SQL语句调节中主要是根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上，从而解决了现有技术中因Map处理数量的差异过大，使得某些Reduce的数据处理量明显高于其他Reduce的数据处理数量而导致的性能下降。

图3是本发明防止Hive数据倾斜的装置的结构示意图，如图3所示，具体可以包括：

第一设置模块，用于根据需要处理的表的规模及特性，设置Map数量和Reduce数量；

第二设置模块，用于在Map端设置聚合函数和负载均衡参数；

负载均衡单元，根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

防止Hive数据倾斜的装置是和防止Hive数据倾斜的方法对应的，因此，具体的实现细节可参看防止Hive数据倾斜的方法，在此不赘述。

本发明防止Hive数据倾斜的装置，通过调整底层MapReduce资源分配方式和根据应用场景特性及表的特性合理编写SQL语句达到倾斜数据能被分配到不同的Reduce上，从而防止数据倾斜。

应当理解，虽然本说明书根据实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用于限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种防止Hive数据倾斜的方法，其特征在于，包括：

根据需要处理的表的规模及特性，设置Map数量和Reduce数量；

在Map端设置聚合函数和负载均衡参数；

根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

2.根据权利要求1所述的防止Hive数据倾斜的方法，其特征在于，所述聚合函数是sum聚合函数；

所述负载均衡参数是hive.groupby.skewindata＝true，将Map的输出结果集合中相同Key的数据随机分发不到Reduce。

3.根据权利要求1或2所述的防止Hive数据倾斜的方法，其特征在于，所述应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜，其中，join包括大小表Join和两个大表Join。

4.根据权利要求3所述的防止Hive数据倾斜的方法，其特征在于，所述根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡，包括：

如果是大小表Join时，将小表放进内存，将join转化为mapjoin进行查询，在MapJoin中，每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统，select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key＝b.key。

5.根据权利要求3所述的防止Hive数据倾斜的方法，其特征在于，所述根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡，包括：

如果是两个大表Join时，空的Key的比重高；

使用空值不参与操作的方式，select*from a join b on a.key is not nulland a.key＝b.key，或者，利用随机函数，select*from a left outer join b on casewhen a.key is null then concat(a.key,rand())else a.key end＝b.key，其中如果a表的key值是空值，对数据进行负载均衡。

6.根据权利要求3所述的防止Hive数据倾斜的方法，其特征在于，所述根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡，包括：

7.一种防止Hive数据倾斜的装置，其特征在于，包括：

第二设置模块，用于在Map端设置聚合函数和负载均衡参数；

负载均衡单元，用于根据应用场景特点及表的特性，利用聚合函数和负载均衡参数，进行SQL编写，对数据进行负载均衡。

8.根据权利要求7所述的防止Hive数据倾斜的装置，其特征在于，所述聚合函数是sum聚合函数；所述负载均衡参数是hive.groupby.skewindata＝true，将Map的输出结果集合中相同Key的数据随机分发不到Reduce。

9.根据权利要求1或8所述的防止Hive数据倾斜的装置，其特征在于，所述应用场景包括由于join或者group by操作中的key分布不均匀导致的数据倾斜，其中，join包括大小表Join和两个大表Join。

10.根据权利要求9所述的防止Hive数据倾斜的装置，其特征在于，所述负载均衡单元，具体用于：

如果是大小表Join时，将小表放进内存，将join转化为mapjoin进行查询，在MapJoin中，每次MapReduce任务的逻辑是内存中会缓存Join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统，select/*+MAPJOIN(b)*/a.key,a.value from a join b on a.key＝b.key；

如果是两个大表Join时，空的Key的比重高；使用空值不参与操作的方式，select*from a join b on a.key is not null and a.key＝b.key，或者，利用随机函数，select*from a left outer join b on case when a.key is null thenconcat(a.key,rand())else a.key end＝b.key，其中如果a表的key值是空值，对数据进行负载均衡；