CN110019477A - 一种使用hive备份表进行大数据处理的方法及系统 - Google Patents

一种使用hive备份表进行大数据处理的方法及系统 Download PDF

Info

Publication number
CN110019477A
CN110019477A CN201711449147.9A CN201711449147A CN110019477A CN 110019477 A CN110019477 A CN 110019477A CN 201711449147 A CN201711449147 A CN 201711449147A CN 110019477 A CN110019477 A CN 110019477A
Authority
CN
China
Prior art keywords
data
incremental
module
area
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711449147.9A
Other languages
English (en)
Inventor
陈益梦
范钢
潘竞旭
田宜喜
谢宇
张玉魁
陈荣兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201711449147.9A priority Critical patent/CN110019477A/zh
Publication of CN110019477A publication Critical patent/CN110019477A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法包括抽取增量数据并都HIVE中;对增量数据进行ETL处理;将经过ETL处理得到的处理数据与增量数据通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行分区备份,并且利用分区字段信息来更新备份表;再下一个抽取周期进行下一轮的增量数据抽取;用户根据分区字段提取所需的数据;所述系统包括数据抽取模块、ETL处理模块、分区备份模块以及数据提取模块,所述数据抽取模块用于从原始数据库中抽取增量数据;所述ETL处理模块用于对增量数据进行ETL处理;所述分区备份模块用于对数据通过分区字段进行分区并存储到备份表中;所述数据提取模块用于根据分区字段提取相应的数据。

Description

一种使用HIVE备份表进行大数据处理的方法及系统
技术领域
本发明涉及数据处理领域,更具体地,涉及一种使用HIVE备份表进行大数据处理的方法及系统。
背景技术
随着计算机技术的快速发展,我们已经迈入了信息社会,各种各样的社会行为都被信息化,我们身边充斥着无处不在的各种信息,各类信息更是以爆炸的形式增长着,这便是大数据时代的到来;庞大数据信息中蕴含这巨大的战略意义,而获得这些意义的前提是要对如此庞大的数据进行有效的分析及处理;
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE具有诸多优点,十分适合大数据集的批处理作业,如今对HIVE的研究主要在于使用HIVE对数据进行分区存储的技术,但对HIVE存储后的使用存在还需要改善的空间;
在进行基于大数据的基础运算分析时,每次都根据需求在不同的库或日志提取大量数据,尤其是当需求是不断重复导入和计算增量数据的过程时,需要重复的进行复杂的数据提取,这无疑影响了数据计算的效率。
发明内容
为了解决背景技术存在的针对增量数据的大数据运算效率低的问题,本发明提供了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法及系统每次只抽取增量数据,并将历史数据存储在HIVE表中,在信息重复导入及增量数据计算时,从HIVE表中直接提取数据,节省开发过程不断重复计算的时间;所述一种使用HIVE备份表进行大数据处理的方法包括:
步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;
步骤2,对所述增量数据进行ETL处理;
步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;
步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3;
进一步的,所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;
进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期是固定或不固定的;
进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期依据用户需求确定;
进一步的,所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期;
进一步的,根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据;
所述一种使用HIVE备份表进行大数据处理的系统包括:
数据抽取模块,所述数据抽取模块用于从原始数据库中抽取增量数据,并将增量数据发送至ETL处理模块以及分区备份模块;
ETL处理模块,所述ETL处理模块用于对增量数据进行ETL处理,并将处理得到的处理数据发送至分区备份模块;
分区备份模块,所述分区备份模块用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中;
数据提取模块,所述数据提取模块根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据;
进一步的,所述ETL处理模块将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;
进一步的,所述数据抽取模块按照时间周期抽取增量数据,所述抽取增量数据的周期是固定或不固定的;
进一步的,所述分区备份模块通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中;
进一步的,所述分区字段包括日期。
本发明的有益效果为:本发明的技术方案,给出了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法及系统每次只抽取增量数据,并将历史数据存储在HIVE表中,在根据增量数据计算数据变化趋势等重复信息计算时,只需从HIVE表中直接提取数据,大量的节省了开发过程中不断重复计算的时间,提高了针对增量数据的大数据运算效率。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图;
图2为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的方法的流程图;所述方法将增量数据通过ETL处理后通过分区字段进行分区备份,再根据业务需求通过分区字段查找并提取相应数据;所述一种使用HIVE备份表进行大数据处理的方法包括:
步骤101,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;所述增量数据是指所述原始数据库中上一次抽取数据后至本次抽取数据之间新增的数据;将所述增量数据导入 HIVE中的一个表里;所述每一个表在HIVE中都有一个相应的目录存储数据。
进一步的,所述增量数据按照时间周期进行抽取,所述增量数据抽取的时间周期可以是固定的;如一个月、一个星期、一天、一小时或者一分钟;所述增量数据抽取的时间周期也可以是依据用户的需求随时抽取;
进一步的,所述增量数据按照数据量进行抽取,当增量数据达到预设的数据量阈值时,进行增量数据的抽取;所述预设的数据量阈值根据用户需求确定;同时,所述增量数据也可根据用户的需求随时抽取;
步骤102,对所述增量数据进行ETL处理;所述ETL处理是指通过对数据的抽取、清洗、转化、集成以及装载的过程,所述数据清洗是指发现并纠正数据中可识别的错误,在本实施例中,所述清洗包括包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;数据通过清洗后,进行转化和集成,通过预先定义好的适用于 HIVE的数据仓库模型,将处理后的数据加载到HIVE中去;
步骤103,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;
进一步的,所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期;
步骤104,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3;所述从原始数据库中抽取下一轮增量数据是指达到下一个抽取周期时进行抽取;
进一步的,根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据;以节省开发过程中不断重复计算的世界,提高了针对增量数据的大数据运算效率。
图2为本发明具体实施方式的一种使用HIVE备份表进行大数据处理的系统的结构图。所述系统按周期抽取增量数据,使用ETL处理模块进行 ETL处理后存入HIVE备份表中,用户根据分区字段查找所需数据;所述一种使用HIVE备份表进行大数据处理的系统包括:
数据抽取模块201,所述数据抽取模块201用于从原始数据库中抽取增量数据,并将增量数据发送至ETL处理模块以及分区备份模块;所述原始数据库包括需要进行处理及备份的数据所在的系统的数据库;
ETL处理模块202,所述ETL处理模块202用于对增量数据进行ETL 处理,并将处理得到的处理数据发送至分区备份模块;
分区备份模块203,所述分区备份模块203用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中;
数据提取模块204,所述数据提取模块204根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据;
进一步的,所述ETL处理模块202通过对数据的抽取、清洗、转化、集成以及装载的过程进行ETL处理,所述数据清洗是指发现并纠正数据中可识别的错误,在本实施例中,所述清洗包括包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;数据通过清洗后,进行转化和集成,通过预先定义好的适用于HIVE的数据仓库模型,将处理后的数据加载到HIVE中去;
进一步的,所述数据抽取模块201按照时间周期进行抽取,所述数据抽取模块201抽取数据的时间周期可以是固定的;如一个月、一个星期、一天、一小时或者一分钟;所述数据抽取模块201抽取数据的时间周期也可以是依据用户的需求随时抽取;
进一步的,所述数据抽取模块201按照数据量进行抽取,当增量数据达到预设的数据量阈值时,进行增量数据的抽取;所述预设的数据量阈值根据用户需求确定;同时,所述数据抽取模块201也可根据用户的需求随时抽取;
进一步的,所述分区备份模块203通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中;用户通过搜索文件夹名称查找对应的所需数据;
进一步的,所述分区字段包括日期;
进一步的,所述数据提取模块204使用Spark在备份表中通过分区字段查找并提取相应文件夹中的数据;以节省开发过程中不断重复计算的世界,提高了针对增量数据的大数据运算效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种使用HIVE备份表进行大数据处理的方法,所述方法包括:
步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;
步骤2,对所述增量数据进行ETL处理;
步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;
步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3。
2.根据权利要求1所述的方法,其特征在于:所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据。
3.根据权利要求1所述的方法,其特征在于:所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期是固定或不固定的。
4.根据权利要求1所述的方法,其特征在于:所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期依据用户需求确定。
5.根据权利要求1所述的方法,其特征在于:所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期。
6.根据权利要求1所述的方法,其特征在于:根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据。
7.一种使用HIVE备份表进行大数据处理的系统,所述系统包括:
数据抽取模块,所述数据抽取模块用于从原始数据库中抽取增量数据,并将增量数据发送至ETL处理模块以及分区备份模块;
ETL处理模块,所述ETL处理模块用于对增量数据进行ETL处理,并将处理得到的处理数据发送至分区备份模块;
分区备份模块,所述分区备份模块用于对增量数据以及处理数据通过分区字段进行分区并备份存储到备份表中;
数据提取模块,所述数据提取模块根据业务需求指令对应的分区字段在分区备份模块中提取相应的数据。
8.根据权利要求7所述的方法,其特征在于:所述ETL处理模块将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据。
9.根据权利要求7所述的方法,其特征在于:所述数据抽取模块按照时间周期抽取增量数据,所述抽取增量数据的周期是固定或不固定的。
10.根据权利要求7所述的方法,其特征在于:所述分区备份模块通过分区字段进行分区是指将对应数据存储到文件夹名称包括分区字段的文件夹中。
11.根据权利要求7所述的方法,其特征在于:所述分区字段包括日期。
CN201711449147.9A 2017-12-27 2017-12-27 一种使用hive备份表进行大数据处理的方法及系统 Pending CN110019477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711449147.9A CN110019477A (zh) 2017-12-27 2017-12-27 一种使用hive备份表进行大数据处理的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711449147.9A CN110019477A (zh) 2017-12-27 2017-12-27 一种使用hive备份表进行大数据处理的方法及系统

Publications (1)

Publication Number Publication Date
CN110019477A true CN110019477A (zh) 2019-07-16

Family

ID=67186992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711449147.9A Pending CN110019477A (zh) 2017-12-27 2017-12-27 一种使用hive备份表进行大数据处理的方法及系统

Country Status (1)

Country Link
CN (1) CN110019477A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879812A (zh) * 2019-11-20 2020-03-13 浪潮软件股份有限公司 一种电商平台中基于spark的数据同步方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067818A (zh) * 2007-06-06 2007-11-07 中国工商银行股份有限公司 应用于数据仓库的数据增量备份与恢复的方法
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN102360379A (zh) * 2011-10-10 2012-02-22 浙江鸿程计算机系统有限公司 一种多维数据立方体增量聚合及查询优化方法
CN102495834A (zh) * 2011-10-18 2012-06-13 成都康赛电子科大信息技术有限责任公司 基于内存映像的增量数据清洗方法
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN103838762A (zh) * 2012-11-26 2014-06-04 中国银联股份有限公司 基于数据表轮换的不间断数据处理装置及方法
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN105975502A (zh) * 2016-04-25 2016-09-28 南京优测信息科技有限公司 一种基于cdc方式实现增量抽取数据的方法
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN106445738A (zh) * 2016-09-13 2017-02-22 郑州云海信息技术有限公司 一种数据库备份方法及装置
CN106709269A (zh) * 2017-03-13 2017-05-24 山东众阳软件有限公司 一种医疗大数据仓库的创建方法及系统
CN106776780A (zh) * 2016-11-23 2017-05-31 中国科学院软件研究所 一种云环境中数据交换与共享方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN101067818A (zh) * 2007-06-06 2007-11-07 中国工商银行股份有限公司 应用于数据仓库的数据增量备份与恢复的方法
CN102360379A (zh) * 2011-10-10 2012-02-22 浙江鸿程计算机系统有限公司 一种多维数据立方体增量聚合及查询优化方法
CN102495834A (zh) * 2011-10-18 2012-06-13 成都康赛电子科大信息技术有限责任公司 基于内存映像的增量数据清洗方法
CN102722582A (zh) * 2012-06-07 2012-10-10 陈浩 基于逆向清理的数据整合系统及方法
CN103838762A (zh) * 2012-11-26 2014-06-04 中国银联股份有限公司 基于数据表轮换的不间断数据处理装置及方法
CN105488187A (zh) * 2015-12-02 2016-04-13 北京四达时代软件技术股份有限公司 多源异构数据增量抽取的方法及装置
CN105975502A (zh) * 2016-04-25 2016-09-28 南京优测信息科技有限公司 一种基于cdc方式实现增量抽取数据的方法
CN106021422A (zh) * 2016-05-13 2016-10-12 北京思特奇信息技术股份有限公司 一种基于关系型数据库形成Hive数据仓库的方法及系统
CN106445738A (zh) * 2016-09-13 2017-02-22 郑州云海信息技术有限公司 一种数据库备份方法及装置
CN106776780A (zh) * 2016-11-23 2017-05-31 中国科学院软件研究所 一种云环境中数据交换与共享方法及系统
CN106709269A (zh) * 2017-03-13 2017-05-24 山东众阳软件有限公司 一种医疗大数据仓库的创建方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879812A (zh) * 2019-11-20 2020-03-13 浪潮软件股份有限公司 一种电商平台中基于spark的数据同步方法
CN110879812B (zh) * 2019-11-20 2023-06-20 浪潮软件股份有限公司 一种电商平台中基于spark的数据同步方法

Similar Documents

Publication Publication Date Title
CN104679778B (zh) 一种搜索结果的生成方法及装置
CN102799682B (zh) 一种海量数据预处理方法及其系统
CN105468744B (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN104778182A (zh) 基于HBase的数据导入方法和系统
CN104933143A (zh) 获取推荐对象的方法及装置
CN103235811A (zh) 一种数据存储方法及装置
CN105022763A (zh) 实现数据查询的方法和系统
CN104778164A (zh) 检测重复url的方法及装置
Chen et al. Mining contiguous sequential patterns from web logs
Huang et al. R-HBase: A multi-dimensional indexing framework for cloud computing environment
CN107959587A (zh) 基于海量文件的处理结果日志合并装置及方法
CN110019477A (zh) 一种使用hive备份表进行大数据处理的方法及系统
CN107239454B (zh) 基于文本数据库的检索方法及系统
CN105589683B (zh) 样本抽取方法和装置
CN105069084B (zh) 一种面向海量数据高效取差集的方法
CN104077379A (zh) 一种索引更新的方法
CN107085603A (zh) 一种数据处理方法及装置
CN104714983A (zh) 分布式索引的生成方法及装置
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
CN115658750A (zh) 业务数据处理方法、装置、电子设备及存储介质
CN112214494B (zh) 检索方法及装置
CN103164491A (zh) 一种数据处理和检索的方法及设备
CN102609510B (zh) 一种中文姓名数据处理方法和装置
Huang et al. An efficient hybrid index structure for temporal marine data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716