CN110019477A

CN110019477A - 一种使用hive备份表进行大数据处理的方法及系统

Info

Publication number: CN110019477A
Application number: CN201711449147.9A
Authority: CN
Inventors: 陈益梦; 范钢; 潘竞旭; 田宜喜; 谢宇; 张玉魁; 陈荣兴
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-16

Abstract

本发明公开了一种使用HIVE备份表进行大数据处理的方法及系统，所述方法包括抽取增量数据并都HIVE中；对增量数据进行ETL处理；将经过ETL处理得到的处理数据与增量数据通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行分区备份，并且利用分区字段信息来更新备份表；再下一个抽取周期进行下一轮的增量数据抽取；用户根据分区字段提取所需的数据；所述系统包括数据抽取模块、ETL处理模块、分区备份模块以及数据提取模块，所述数据抽取模块用于从原始数据库中抽取增量数据；所述ETL处理模块用于对增量数据进行ETL处理；所述分区备份模块用于对数据通过分区字段进行分区并存储到备份表中；所述数据提取模块用于根据分区字段提取相应的数据。

Description

一种使用HIVE备份表进行大数据处理的方法及系统

技术领域

本发明涉及数据处理领域，更具体地，涉及一种使用HIVE备份表进行大数据处理的方法及系统。

背景技术

随着计算机技术的快速发展，我们已经迈入了信息社会，各种各样的社会行为都被信息化，我们身边充斥着无处不在的各种信息，各类信息更是以爆炸的形式增长着，这便是大数据时代的到来；庞大数据信息中蕴含这巨大的战略意义，而获得这些意义的前提是要对如此庞大的数据进行有效的分析及处理；

HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表,HIVE具有诸多优点，十分适合大数据集的批处理作业，如今对HIVE的研究主要在于使用HIVE对数据进行分区存储的技术，但对HIVE存储后的使用存在还需要改善的空间；

在进行基于大数据的基础运算分析时，每次都根据需求在不同的库或日志提取大量数据，尤其是当需求是不断重复导入和计算增量数据的过程时，需要重复的进行复杂的数据提取，这无疑影响了数据计算的效率。

发明内容

为了解决背景技术存在的针对增量数据的大数据运算效率低的问题，本发明提供了一种使用HIVE备份表进行大数据处理的方法及系统，所述方法及系统每次只抽取增量数据，并将历史数据存储在HIVE表中，在信息重复导入及增量数据计算时，从HIVE表中直接提取数据，节省开发过程不断重复计算的时间；所述一种使用HIVE备份表进行大数据处理的方法包括：

步骤1，从基于原始数据库中存储的日志文件中抽取增量数据，并且将所述增量数据导入至HIVE中；

步骤2，对所述增量数据进行ETL处理；

步骤3，将经过ETL处理得到的处理数据与增量数据进行分区备份，所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份，并且利用分区字段信息来更新备份表；

步骤4，从原始数据库中抽取下一轮的增量数据至HIVE中，所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据，并重复步骤2及步骤3；

进一步的，所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据；

进一步的，所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期是固定或不固定的；

进一步的，所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期依据用户需求确定；

进一步的，所述备份表包括多次抽取分区备份的多个分区字段；所述分区字段包括日期；

进一步的，根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据；

所述一种使用HIVE备份表进行大数据处理的系统包括：

数据抽取模块，所述数据抽取模块用于从原始数据库中抽取增量数据，并将增量数据发送至ETL处理模块以及分区备份模块；

ETL处理模块，所述ETL处理模块用于对增量数据进行ETL处理，并将处理得到的处理数据发送至分区备份模块；

分区备份模块，所述分区备份模块用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中；

数据提取模块，所述数据提取模块根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据；

进一步的，所述ETL处理模块将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据；

进一步的，所述数据抽取模块按照时间周期抽取增量数据，所述抽取增量数据的周期是固定或不固定的；

进一步的，所述分区备份模块通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中；

进一步的，所述分区字段包括日期。

本发明的有益效果为：本发明的技术方案，给出了一种使用HIVE备份表进行大数据处理的方法及系统，所述方法及系统每次只抽取增量数据，并将历史数据存储在HIVE表中，在根据增量数据计算数据变化趋势等重复信息计算时，只需从HIVE表中直接提取数据，大量的节省了开发过程中不断重复计算的时间，提高了针对增量数据的大数据运算效率。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图；

图2为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图；所述方法将增量数据通过ETL处理后通过分区字段进行分区备份，再根据业务需求通过分区字段查找并提取相应数据；所述一种使用HIVE备份表进行大数据处理的方法包括：

步骤101，从基于原始数据库中存储的日志文件中抽取增量数据，并且将所述增量数据导入至HIVE中；所述增量数据是指所述原始数据库中上一次抽取数据后至本次抽取数据之间新增的数据；将所述增量数据导入 HIVE中的一个表里；所述每一个表在HIVE中都有一个相应的目录存储数据。

进一步的，所述增量数据按照时间周期进行抽取，所述增量数据抽取的时间周期可以是固定的；如一个月、一个星期、一天、一小时或者一分钟；所述增量数据抽取的时间周期也可以是依据用户的需求随时抽取；

进一步的，所述增量数据按照数据量进行抽取，当增量数据达到预设的数据量阈值时，进行增量数据的抽取；所述预设的数据量阈值根据用户需求确定；同时，所述增量数据也可根据用户的需求随时抽取；

步骤102，对所述增量数据进行ETL处理；所述ETL处理是指通过对数据的抽取、清洗、转化、集成以及装载的过程，所述数据清洗是指发现并纠正数据中可识别的错误，在本实施例中，所述清洗包括包括将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据；数据通过清洗后，进行转化和集成，通过预先定义好的适用于 HIVE的数据仓库模型，将处理后的数据加载到HIVE中去；

步骤103，将经过ETL处理得到的处理数据与增量数据进行分区备份，所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份，并且利用分区字段信息来更新备份表；

步骤104，从原始数据库中抽取下一轮的增量数据至HIVE中，所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据，并重复步骤2及步骤3；所述从原始数据库中抽取下一轮增量数据是指达到下一个抽取周期时进行抽取；

进一步的，根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据；以节省开发过程中不断重复计算的世界，提高了针对增量数据的大数据运算效率。

图2为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。所述系统按周期抽取增量数据，使用ETL处理模块进行 ETL处理后存入HIVE备份表中，用户根据分区字段查找所需数据；所述一种使用HIVE备份表进行大数据处理的系统包括：

数据抽取模块201，所述数据抽取模块201用于从原始数据库中抽取增量数据，并将增量数据发送至ETL处理模块以及分区备份模块；所述原始数据库包括需要进行处理及备份的数据所在的系统的数据库；

ETL处理模块202，所述ETL处理模块202用于对增量数据进行ETL 处理，并将处理得到的处理数据发送至分区备份模块；

分区备份模块203，所述分区备份模块203用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中；

数据提取模块204，所述数据提取模块204根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据；

进一步的，所述ETL处理模块202通过对数据的抽取、清洗、转化、集成以及装载的过程进行ETL处理，所述数据清洗是指发现并纠正数据中可识别的错误，在本实施例中，所述清洗包括包括将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据；数据通过清洗后，进行转化和集成，通过预先定义好的适用于HIVE的数据仓库模型，将处理后的数据加载到HIVE中去；

进一步的，所述数据抽取模块201按照时间周期进行抽取，所述数据抽取模块201抽取数据的时间周期可以是固定的；如一个月、一个星期、一天、一小时或者一分钟；所述数据抽取模块201抽取数据的时间周期也可以是依据用户的需求随时抽取；

进一步的，所述数据抽取模块201按照数据量进行抽取，当增量数据达到预设的数据量阈值时，进行增量数据的抽取；所述预设的数据量阈值根据用户需求确定；同时，所述数据抽取模块201也可根据用户的需求随时抽取；

进一步的，所述分区备份模块203通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中；用户通过搜索文件夹名称查找对应的所需数据；

进一步的，所述分区字段包括日期；

进一步的，所述数据提取模块204使用Spark在备份表中通过分区字段查找并提取相应文件夹中的数据；以节省开发过程中不断重复计算的世界，提高了针对增量数据的大数据运算效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种使用HIVE备份表进行大数据处理的方法，所述方法包括：

步骤2，对所述增量数据进行ETL处理；

步骤4，从原始数据库中抽取下一轮的增量数据至HIVE中，所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据，并重复步骤2及步骤3。

2.根据权利要求1所述的方法，其特征在于：所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据。

3.根据权利要求1所述的方法，其特征在于：所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期是固定或不固定的。

4.根据权利要求1所述的方法，其特征在于：所述增量数据按照时间周期进行抽取，所述抽取增量数据的周期依据用户需求确定。

5.根据权利要求1所述的方法，其特征在于：所述备份表包括多次抽取分区备份的多个分区字段；所述分区字段包括日期。

6.根据权利要求1所述的方法，其特征在于：根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据。

7.一种使用HIVE备份表进行大数据处理的系统，所述系统包括：

数据提取模块，所述数据提取模块根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据。

8.根据权利要求7所述的方法，其特征在于：所述ETL处理模块将增量数据中的无用数据去掉并填补缺失数据，所述无用数据包括不规则数据以及垃圾数据。

9.根据权利要求7所述的方法，其特征在于：所述数据抽取模块按照时间周期抽取增量数据，所述抽取增量数据的周期是固定或不固定的。

10.根据权利要求7所述的方法，其特征在于：所述分区备份模块通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中。

11.根据权利要求7所述的方法，其特征在于：所述分区字段包括日期。