CN106919697A

CN106919697A - 一种将数据同时导入多个Hadoop组件的方法

Info

Publication number: CN106919697A
Application number: CN201710132272.0A
Authority: CN
Inventors: 尚平平; 臧勇真
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2017-07-04
Anticipated expiration: 2037-03-07
Also published as: CN106919697B

Abstract

本发明涉及一种将数据同时导入多个Hadoop组件的方法，其特征在于，包括以下步骤：步骤1：扩展Sqoop的import工具，增加到Kafka的导入服务；步骤2：根据数据库导入各个组件的配置参数，编写参数校验程序；步骤3：扩展Sqoop的import工具，增加同时导出 HDFS、Hive、Hbase、Kafka的服务；在Sqoop原有的连接数据库并读取数据的基础上，增加了同时导出到多个组件的功能，通过一次读取数据库数据，同时启动多个用户指定的导出模块，实现高效便捷的数据导入，一方面避免了为同一批数据写多次导出任务，另一方面避免重复读取相同的数据，提高了效率。

Description

一种将数据同时导入多个Hadoop组件的方法

技术领域

本发明属于大量数据的快速转移处理技术领域，具体涉及一种将数据同时导入多个Hadoop组件的方法。

背景技术

在社会快速发展的今天，各行各业每天都会产生大量的数据，数据来源囊括了我们周围可以捕获的任何类型数据，网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。随着云提供商利用这个框架，更多的用户将数据集在Hadoop和传统数据库之间转移，能够帮助数据传输的工具变得更加重要。在这种环境下，Apache框架Hadoop应运而生，它是一个越来越通用的分布式计算环境，主要用来处理大数据。Apache Sqoop是一种数据转移工具，主要用于在Hadoop与传统数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到HDFS、Hive、Hbase中，也可将HDFS的数据导进到关系型数据库中。

Kafka是一种高吞吐量的分布式发布订阅消息系统。有时需要将数据从关系型数据库导入到Kafka，然而Sqoop作为一个数据转移工具，没有提供这方面的支持，同一批数据可能会被多项工作使用，而原本的Sqoop每次只支持一项任务，若想导出到多个Hadoop组件，需要单独再写命令，更重要的是要多次读取同一批数据。此为现有技术的不足之处。

发明内容

本发明的目的在于，针对上述现有技术存在的缺陷，提供设计一种将数据同时导入多个Hadoop组件的方法，以解决上述技术问题。

为了达到上述目的，本发明提供的技术方案是：

一种将数据同时导入多个Hadoop组件的方法，其特征在于，包括以下步骤：

步骤1：扩展Sqoop的import工具，增加到Kafka的导入服务；

步骤2：根据数据库导入各个组件的配置参数，编写参数校验程序；

步骤3：扩展Sqoop的import工具，增加同时导出到 HDFS、Hive、Hbase、Kafka的服务。

进一步的，步骤1的实现过程包括：修改Sqoop的BaseSqoopTool类代码和ImportTool类代码，设计向Kafka导入数据的MapReduce任务,定义向Kakfa导入数据时需要的参数。

进一步的，步骤2的实现过程包括：定义向各个组件导入数据时需要的参数，并增加检测输入参数、记录输入参数、对参数进行校验的程序。

进一步的，步骤3的实现过程包括：用户同时指定同时导出到多个Hadoop组件时，增加一个可选的命令参数，使得用户可以一条指令同时指定导出到多个Hadoop组件所需的参数，根据用户参数决定调用哪几个组件的接口，用户执行该条命令时，同时处理导出到各个目标组件所需的参数，然后从数据库中读取数据，并同时发送到多个目标组件。

向各个组件导入数据时需要的参数包括关系型数据库JDBC连接字符串、JDBC驱动程序类、设置包含身份验证密码的文件路径、数据库访问用户、用于提供连接参数的可选属性文件、Map函数相关参数、reduce函数相关参数。

进一步的，Sqoop在import时，制定split-by参数，Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同Map中，每个Map中再处理数据库中获取的一行一行的值写入HDFS、Hive、Hbase或Kafka中，split-by根据不同的参数类型有不同的切分方法；Sqoop import过程是Sqoop客户端利用数据库的驱动程序读取数据库中表结构，并生成运行类，Map处理获取的数据写入到Hadoop组件；具体步骤包括：a要对数据进行切分；b切分好范围后，写入范围；c读取步骤b写入的范围；d然后创建数据记录的读取器RecordReader从数据库中读取数据；创建Map；e RecordReader逐行从关系型数据库中读取数据交给Map，设置好Map的Key和Value；f 运行Map，写入数据到不同组件。

本发明的有益效果在于，将数据从关系型数据库同时导出到多个Hadoop组件的方法，在Sqoop原有的连接数据库并读取数据的基础上，增加了同时导出到多个组件的功能，通过一次读取数据库数据，同时启动多个用户指定的导出模块，实现高效便捷的数据导入，一方面避免了为同一批数据写多次导出任务，另一方面避免重复读取相同的数据，提高了效率。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。

附图说明

图1为一种将数据同时导入多个Hadoop组件流程图。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述，以下实施例是对本发明的解释，而本发明并不局限于以下实施方式。

如图1所示，本实施例提供的一种将数据同时导入多个Hadoop组件的方法，包括以下步骤：

步骤1：扩展Sqoop的import工具，增加到Kafka的导入服务；

步骤3：扩展Sqoop的import工具，增加同时导出 HDFS、Hive、Hbase、Kafka的服务。

步骤1的实现过程包括：修改Sqoop的BaseSqoopTool类代码和ImportTool类代码，设计向Kafka导入数据的MapReduce任务，定义向Kakfa导入数据时的配置参数。

步骤2的实现过程包括：定义向各个组件导入数据时需要的参数，并增加检测输入参数、记录输入参数、对参数进行校验的程序。

步骤3的实现过程包括：用户同时指定同时导出到多个Hadoop组件时，增加一个可选的命令参数，使得用户可以一条指令同时指定导出到多个Hadoop组件所需的参数，根据用户参数决定调用哪几个组件的接口，用户执行该条命令时，同时处理导出到各个目标组件所需的参数，然后从数据库中读取数据，并同时发送到多个目标组件。

Sqoop在import时，需要制定split-by参数，Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同Map中，每个Map中再处理数据库中获取的逐行的值写入HDFS、Hive、Hbase或Kafka中，split-by根据不同的参数类型有不同的切分方法。

Sqoop import过程是Sqoop客户端利用数据库的驱动程序读取数据库中表结构，并生成运行类，Map处理获取的数据写入到Hadoop组件；具体步骤包括：a要对数据进行切分；b切分好范围后，写入范围；c读取步骤b写入的范围；d然后创建数据记录的读取器RecordReader从数据库中读取数据；创建Map；e RecordReader逐行从关系型数据库中读取数据交给Map，设置好Map的Key和Value；f 运行Map，写入数据到不同组件。

以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

Claims

1.一种将数据同时导入多个Hadoop组件的方法，其特征在于，包括以下步骤：

步骤1：扩展Sqoop的import工具，增加到Kafka的导入服务；

2.根据权利要求1所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，步骤1的实现过程包括：修改Sqoop的BaseSqoopTool类代码和ImportTool类代码，设计向Kafka导入数据的MapReduce任务，定义向Kakfa导入数据时的配置参数。

3.根据权利要求1所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，步骤2的实现过程包括：定义向各个组件导入数据时的配置参数，并增加检测输入参数、记录输入参数、对参数进行校验的程序。

4.根据权利要求1所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，步骤3的实现过程包括：用户同时指定同时导出到多个Hadoop组件时，增加一个可选的命令参数，使得用户可以一条指令同时指定导出到多个Hadoop组件的配置参数，根据用户参数决定调用组件的接口，用户执行该条命令时，同时处理导出到各个目标组件的参数，然后从数据库中读取数据，并同时发送到多个目标组件。

5.根据权利要求3所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，向各个组件导入数据时设定的参数包括关系型数据库JDBC连接字符串、JDBC驱动程序类、设置包含身份验证密码的文件路径、数据库访问用户、用于提供连接参数的可选属性文件、Map函数相关参数、reduce函数相关参数。

6.根据权利要求1所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，Sqoop在import时，制定split-by参数，Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同Map中，每个Map中再处理数据库中获取的值写入HDFS、Hive、Hbase或Kafka中。

7.根据权利要求6所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，split-by根据不同的参数类型有不同的切分方法。

8.根据权利要求6所述的一种将数据同时导入多个Hadoop组件的方法，其特征在于，Sqoop import过程是Sqoop客户端利用数据库的驱动程序读取数据库中表结构，并生成运行类，Map处理获取的数据写入到Hadoop组件；具体步骤包括：a要对数据进行切分；b切分好范围后，写入范围；c读取步骤b的写入范围；d然后创建数据记录的读取器RecordReader从数据库中读取数据；创建Map；e RecordReader逐行从关系型数据库中读取数据交给Map，设置好Map的Key和Value；f 运行Map，写入数据到不同组件。