CN108319604B

CN108319604B - 一种hive中大小表关联的优化方法

Info

Publication number: CN108319604B
Application number: CN201710032231.4A
Authority: CN
Inventors: 马东; 周帅锋; 郑伟; 鲁光明; 马全辉; 卞璐璐; 穆宁; 王栋平
Original assignee: Nanjing Fenghuo Tiandi Communication Technology Co ltd
Current assignee: NANJING FENGHUO TIANDI COMMUNICATION TECHNOLOGY Co.,Ltd.
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2021-10-19
Anticipated expiration: 2037-01-16
Also published as: CN108319604A

Abstract

本发明公开了一种hive中大小表关联的优化方法，属于大数据处理技术领域，解决了针对Hive大小表关联时大表存在索引的场景下效率低下的问题；本发明利用大表的索引特性，降低传输和分析的数据量，进而提升大小表关联分析的效率。

Description

一种hive中大小表关联的优化方法

技术领域

本发明属于大数据处理技术领域。

背景技术

随着数据量的增长和大数据技术的发展，如何快速有效地找出蕴藏在海量数据中的信息成为大数据时代面临的难题，基于分布式技术的多表关联分析(简称多表关联)是业界常用的一种从海量数据中发掘数据价值的手段。在实际应用中多表关联可分为大数据表与大数据表关联分析(简称大大表关联)和大数据表与小数据表关联分析(简称大小表关联)，多表关联的效率成为衡量分布式处理框架的一个重要指标。

Hadoop是当前大数据处理领域中常用的分布式技术；Hive是一款构建于Hadoop之上的数据仓库工具，对外提供HQL(类SQL)接口，底层借助MapReduce或者Spark分析存储在HDFS上的大规模数据集。此外，Hive也能分析其他存储系统中的数据，例如HBase、RDB、MongoDB等。

Hive中大大表关联和大小表关联的底层实现分别对应MapReduce计算框架中的Reduce-side join和Map-side join。

Reduce-side join存在以下缺点：需要两个阶段的Task；需要将Map Task的结果进行存储并传输到Reduce Task端，对网络或者磁盘I/O、内存等的开销很大；在关联字段分布严重不均匀的情况下容易导致部分Reduce Task出现数据倾斜，从而使得关联速度缓慢，效率极低。

Map-side join存在以下缺点：对大表做全表扫描，需要传输和分析的数据量仍然很大；耗费的集群资源(比如CPU/存储)仍然较多。

目前，对于Hive大小表关联分析时，虽然Map-side join相对于Reduce-side join而言在性能上有所提升，但仍然需要对大表进行全表扫描，没有结合大表自身的一些特点，如索引等，效率仍然较低。

发明内容

本发明的目的是提供一种hive中大小表关联的优化方法，解决了针对Hive大小表关联时大表存在索引的场景下效率低下的问题。

为实现上述目的，本发明采用以下技术方案：

一种hive中大小表关联的优化方法，包括如下步骤：

步骤1：建立由多个服务器组成的服务器集群，在服务器集群的基础上建立Hadoop框架结构；

步骤2：在Hadoop框架结构上搭建hive数据仓库工具，Hive数据仓库工具对外提供HQL接口，Hive数据仓库工具将存储在HDFS或其他存储介质上的大规模数据集映射为数据表，所述数据表根据数据量的大小分为大数据表和小数据表；

步骤3：Hive客户端通过Hive数据仓库工具底层借助Mapreduce完成对数据表的分析；

步骤4：以MapReduce计算框架作为hive的执行引擎，hive客户端执行多表关联任务触发MapReduce job任务执行实际的关联任务，所述MapReducejob任务包括数个MapTask，在Map Task中对大数据表和小数据表根据关联字段进行关联分析；

步骤5：在执行MapReduce job任务之前，首先判断大小数据表的数据量是否满足要求：是，则执行步骤6；否，则执行步骤10；

步骤6：判断大数据表是否含有索引字段：是，则执行步骤7；否，则执行步骤10；

步骤7：判断大数据表关联字段是否是索引字段，是，则执行步骤8；否，则执行步骤10；

步骤8：MapReduce根据小数据表的数据量和关联字段的特点对小数据表的数据进行分区，生成数个小数据表分区，每个小数据表分区均由一个Map Task处理；

步骤9：在每个Map Task阶段，MapReduce遍历小数据表分区的数据，构造索引条件查询大数据表的数据，然后生成大小表关联分析结果，执行步骤12；

步骤10：MapReduce根据大数据表的数据量将大数据表的数据进行切分，生成数个大数据表分区，每个大数据表分区由一个Map Task处理；

步骤11：在每个Map Task阶段中，MapReduce对相应的大数据表分区的数据进行扫描，并与小数据表的数据做等值关联，生成大小表关联分析结果；

步骤12：MapReduce将大小表关联分析结果最终输出至Hive客户端或HDFS中。

所述Hive数据仓库工具对外还提供SQL接口。

所述Hadoop框架结构包括HDFS和MapReduce两大组件。

所述数据源存储介质包括HDFS、HBase、RDB和MongoDB存储系统。

所述大小表关联分析的执行引擎包括MapReduce和Spark执行引擎。

本发明所述的一种hive中大小表关联的优化方法，解决了针对Hive大小表关联时大表存在索引的场景下效率底下的问题；本发明利用大表的索引特性，降低传输和分析的数据量，进而提升大小表关联分析的效率。

附图说明

图1是本发明的流程图；

图2是本发明的大小表关联分析结果的优化前后性能比对图。

具体实施方式

如图1和图2所示的一种hive中大小表关联的优化方法，包括如下步骤：

所述Hive数据仓库工具对外还提供SQL接口。

所述Hadoop框架结构包括HDFS和MapReduce两大组件。

所述数据源存储介质包括HDFS、HBase、RDB和MongoDB存储系统。

HDFS作为分布式文件系统，负责海量数据的存储；MapReduce作为分布式计算框架，负责分析任务的调度和容错。

本发明中的MapReduce也可以替换为Spark，Spark是一款新兴的基于内存计算和迭代计算的分布式计算平台。

本发明中所涉及的大小表数据源存储介质可以是HDFS、HBase、RDB、MongoDB等多种数据源存储系统。

本发明利用大表的索引特性，将全表扫描转化为索引查询，加快数据的查询速度；

本发明大大减小了传输的数据量，降低资源使用率，节省宝贵的集群资源(CPU、内存、磁盘空间等)，提升大小表关联分析的效率。

以数据总大小为160GB并且数据条数为230000000条的大数据表和数据总大小为小于10MB并且数据条数为530条的小数据表为例，如图2和表1所示，经本发明所述的一种hive中大小表关联的优化方法之后，CPU耗时较优化前提升了约70倍，mapreduce作业耗时较优化前提升了约5倍。

表1

如图2和表1中的Map为MapReducejob任务。

本发明所述的一种hive中大小表关联的优化方法，解决了针对Hive大小表关联时大表存在索引的场景下效率低下的问题；本发明利用大表的索引特性，降低传输和分析的数据量，进而提升大小表关联分析的效率。

Claims

1.一种Hive中大小表关联的优化方法，其特征在于：包括如下步骤：

步骤1：建立由多个服务器组成的服务器集群，在服务器集群的基础上建立Hadoop框架结构；所述Hadoop框架结构包括HDFS和MapReduce两大组件；

步骤4：以MapReduce计算框架作为Hive数据仓库工具的执行引擎，Hive客户端执行多表关联任务触发MapReduce job任务执行实际的关联任务，所述MapReducejob任务包括数个Map Task，在Map Task中对大数据表和小数据表根据关联字段进行关联分析；

2.如权利要求1所述的一种Hive中大小表关联的优化方法，其特征在于：所述Hive数据仓库工具对外还提供SQL接口。

3.如权利要求1所述的一种Hive中大小表关联的优化方法，其特征在于：所述大小表关联分析的执行引擎包括MapReduce和Spark执行引擎。