CN107085622A

CN107085622A - 一种将数据从Hive导入传统数据仓库的方法及装置

Info

Publication number: CN107085622A
Application number: CN201710452217.XA
Authority: CN
Inventors: 王黎; 肖宇涵
Original assignee: Zhejiang Win Win Information Technology Co Ltd
Current assignee: Zhejiang Win Win Information Technology Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-08-22

Abstract

本发明公开了一种将数据从Hive导入传统数据仓库的方法，包括继承Hive中的基础类，并根据用户输入的参数编写新类；依据参数在新类中重构Evaluate函数，并组装Insert语句；当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。由此可见，将数据导入传统数据仓库传统数据仓库的过程中，本方法无需指明HDFS和行、列分隔符，且能够克服软件编写繁琐的问题。此外，本发明还公开一种将数据从Hive导入传统数据仓库的装置，效果如上所述。

Description

一种将数据从Hive导入传统数据仓库的方法及装置

技术领域

本发明涉及数据传输技术领域，特别是涉及一种将数据从Hive导入传统数据仓库的方法及装置。

背景技术

随着互联网技术的普及以及现代企业对于数据的重视，企业日常经营过程中记录的数据量呈指数级增长，因此，通常采用数据仓库来存储数据。传统的数据仓库(例如，MySQL、Oracle、Postgres等)在数据量过大时将会导致提取数据缓慢。在此基础上，采用Hadoop(一种分布式系统基础架构)+Hive的数据仓库模式，使得数据仓库在数据量上不再有限制，在一定程度上解决了上述问题，但也有灵活性不足的缺点。

因此，现有技术中，将该模式的数据仓库与传统数据仓库结合使用，只将存储、基本分析、提取放在Hadoop+Hive的数据仓库上，更为复杂的放在传统数据仓库中，二者可以互为补充。

为了实现上述两种数据仓库的数据传输，企业需要利用一种便捷的数据传输工具或方法将数据在企业内不同数据仓库之间进行传输。现有的传输工具Sqoop是实现不同数据仓库之间数据导入导出的一个工具。但是，这种方法在软件编写过程中较为繁琐，且需要明确指明HDFS和明确标明行、列分隔符。

由此可见，在将数据导入传统数据仓库的过程中，如何克服软件编写繁琐，以及克服需要明确指明HDFS和明确标明行、列分隔符的问题是本领域技术人员亟待解决地问题。

发明内容

本发明的目的是提供一种将数据从Hive导入传统数据仓库的方法及装置，用于在将数据导入传统数据仓库的过程中，克服软件编写繁琐，以及克服需要明确指明HDFS和明确标明行、列分隔符的问题。

为解决上述技术问题，本发明提供一种将数据从Hive导入传统数据仓库的方法，包括：

继承Hive中的基础类，并根据用户输入的参数编写新类；

依据所述参数在所述新类中重构Evaluate函数，并组装Insert语句；

当接收到用户的导入指令时，调用所述Insert语句以将数据从Hive导入传统数据仓库中。

优选地，还包括：

在所述数据从Hive导入所述传统数据仓库的过程中，调用Try Catch语句以捕捉错误信息。

优选地，还包括：

当捕捉到所述错误信息时，通过日志记录所述错误信息。

优选地，还包括：

在所述数据从Hive导入所述传统数据仓库的过程中，依据服务器的忙闲状态设置数据传输量的最大值。

优选地，所述参数具体包括：控制连接数据库的字符串、表名、需要入表的字段名。

为解决上述技术问题，本发明还提供一种将数据从Hive导入传统数据仓库的装置，包括：

编写单元，用于继承Hive中的基础类，并根据用户输入的参数编写新类；

组装单元，用于依据所述参数在所述新类中重构Evaluate函数，并组装Insert语句；

调用单元，用于当接收到用户的导入指令时，调用所述Insert语句以将数据从Hive导入传统数据仓库中。

优选地，还包括：

捕捉单元，用于在所述数据从Hive导入所述传统数据仓库的过程中，调用TryCatch语句以捕捉错误信息。

优选地，还包括：

记录单元，用于当捕捉到所述错误信息时，通过日志记录所述错误信息。

优选地，还包括：

设置单元，用于在所述数据从Hive导入所述传统数据仓库的过程中，依据服务器的忙闲状态设置数据传输量的最大值。

本发明所提供的将数据从Hive导入传统数据仓库的方法，包括继承Hive中的基础类，并根据用户输入的参数编写新类；依据参数在新类中重构Evaluate函数，并组装Insert语句；当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。由此可见，将数据导入传统数据仓库传统数据仓库的过程中，本方法无需指明HDFS和行、列分隔符，且能够克服软件编写繁琐的问题。此外，本发明还提供一种将数据从Hive导入传统数据仓库的装置，效果如上所述。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种将数据从Hive导入传统数据仓库的方法的流程图；

图2为本发明实施例提供的一种将数据从Hive导入传统数据仓库的装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种将数据从Hive导入传统数据仓库的方法及装置，用于在将数据导入传统数据仓库的过程中，克服软件编写繁琐，以及克服需要明确指明HDFS和明确标明行、列分隔符的问题。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种将数据从Hive导入传统数据仓库的方法的流程图。如图1所示，将数据从Hive导入传统数据仓库的方法包括：

S10：继承Hive中的基础类，并根据用户输入的参数编写新类。

可以理解的是，Hive中具有基础类，用于实现通用的功能，例如开机、关机等。而本实施例中需要实现的功能是将数据从Hive中导入至传统数据仓库，因此，需要根据用户输入的参数对基础类进行再次编写，得到新类。后文中的步骤，就是在这个新类中实现。

由于Hive中有表，是按照一列一列的方式记载的，因此，按照该表的方式就无需指明HDFS和行、列分隔符。

作为优选地实施方式，参数具体包括：控制连接数据库的字符串、表名、需要入表的字段名。

可以理解的是，上述几个参数只是一种具体的应用场景，并不代表只能是这几个参数。其他参数对应的实施例，本发明不再赘述。

S11：依据参数在新类中重构Evaluate函数，并组装Insert语句。

在步骤S10得到的新类中，对新类中的Evaluate函数进行重构，并组装Insert语句。此步骤完成了整个数据导入的前期工作，相当于对一个软件进行了打包操作。对于客户端来说，只需要将这一软件下载下来，进行相应的操作即可，具体使用方法如下(以传统数据仓库为MySQL为例说明)：

(1)在Hive客户端上配置环境，包括:

启动Hive客户端，用add jar/data/work/task/cmn/UDF.jar命令在Hive客户端中添加UDF.jar；

用CREATE TEMPORARY FUNCTION Hive2MysqlPooled as'com.cmn.transdataHive2MysqlPooled'命令创建临时函数；

(2)使用Select查询对应的Hive中需要导入的数据，使用临时函数调用查出来的数据以便执行将数据导入MySQL的操作。

S12：当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。

当需要进行数据导入时，用户会输入导入指令，可以理解的是，导入指令包含有需要导入的数据。在具体实施中，当接收到导入指令时，就调用Insert语句，从而将数据从Hive导入传统数据仓库中。

本实施例提供的将数据从Hive导入传统数据仓库的方法，包括继承Hive中的基础类，并根据用户输入的参数编写新类；依据参数在新类中重构Evaluate函数，并组装Insert语句；当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。由此可见，将数据导入传统数据仓库传统数据仓库的过程中，本方法无需指明HDFS和行、列分隔符，且能够克服软件编写繁琐的问题。

作为优选地实施方式，在上述实施例的基础上，还包括：

在数据从Hive导入传统数据仓库的过程中，调用Try Catch语句以捕捉错误信息。

数据在批量传输过程中，有可能会出现错误，对于传输过程存在的问题，通过调用Try Catch语句，能够方便对传输过程中的错误进行精确定位，从而能够及时修正。可以理解的是，错误信息可以为主键重复、主键为空或SQL语法错误等，本实施例不再赘述。

作为优选地实施方式，在上述实施例的基础上，还包括：

当捕捉到错误信息时，通过日志记录错误信息。

本实施例中，当捕捉到错误信息时，会通过日志记录的方式记录错误信息。用户可以通过查看日志就能够确定当前数据导入过程是否发生异常。

作为优选地实施方式，在上述实施例的基础上，还包括：

在数据从Hive导入传统数据仓库的过程中，依据服务器的忙闲状态设置数据传输量的最大值。

本实施例中，对数据传输量设置一个最大值，使得传输量不至于过大，防止由于传输量过大导致服务器的负载较高而中断或堵塞。当服务器空闲时，可以加大数据传输量的最大值，当服务器繁忙时，可以降低数据传输量的最大值。

在上文中对于将数据从Hive导入传统数据仓库的方法的实施例进行了详细的描述，本发明还提供一种将数据从Hive导入传统数据仓库的装置。装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图2为本发明实施例提供的一种将数据从Hive导入传统数据仓库的装置的结构图。如图2所示，将数据从Hive导入传统数据仓库的装置包括：

编写单元10，用于继承Hive中的基础类，并根据用户输入的参数编写新类；

组装单元11，用于依据参数在新类中重构Evaluate函数，并组装Insert语句；

调用单元12，用于当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。

本实施例提供的将数据从Hive导入传统数据仓库的装置，包括继承Hive中的基础类，并根据用户输入的参数编写新类；依据参数在新类中重构Evaluate函数，并组装Insert语句；当接收到用户的导入指令时，调用Insert语句以将数据从Hive导入传统数据仓库中。由此可见，将数据导入传统数据仓库传统数据仓库的过程中，本装置无需指明HDFS和行、列分隔符，且能够克服软件编写繁琐的问题。

作为一种优选地实施方式，还包括：

捕捉单元，用于在数据从Hive导入传统数据仓库的过程中，调用Try Catch语句以捕捉错误信息。

作为一种优选地实施方式，还包括：

记录单元，用于当捕捉到错误信息时，通过日志记录错误信息。

作为一种优选地实施方式，还包括：

设置单元，用于在数据从Hive导入传统数据仓库的过程中，依据服务器的忙闲状态设置数据传输量的最大值。

作为一种优选地实施方式，参数具体包括：控制连接数据库的字符串、表名、需要入表的字段名。

以上对本发明所提供的将数据从Hive导入传统数据仓库的方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种将数据从Hive导入传统数据仓库的方法，其特征在于，包括：

继承Hive中的基础类，并根据用户输入的参数编写新类；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

当捕捉到所述错误信息时，通过日志记录所述错误信息。

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述参数具体包括：控制连接数据库的字符串、表名、需要入表的字段名。

6.一种将数据从Hive导入传统数据仓库的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

捕捉单元，用于在所述数据从Hive导入所述传统数据仓库的过程中，调用Try Catch语句以捕捉错误信息。

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求6所述的装置，其特征在于，还包括：

10.根据权利要求6-9任意一项所述的装置，其特征在于，所述参数具体包括：控制连接数据库的字符串、表名、需要入表的字段名。