CN110674154B

CN110674154B - 一种基于Spark的对Hive中数据进行插入、更新和删除的方法

Info

Publication number: CN110674154B
Application number: CN201910917640.1A
Authority: CN
Inventors: 周永进; 刘传涛
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2023-04-07
Anticipated expiration: 2039-09-26
Also published as: CN110674154A

Abstract

本发明公开了一种基于Spark的对Hive中数据进行插入更新和删除的方法，属于大数据计算技术领域，该方法将Spark与Hbase、Hive相结合，实现对Hive的插入、更新和删除操作，实现方式如下：1)、Nifi抽取传统数据库增加操作时间和操作类型的标签；2)、Spark读取HBASE获取增量数据；3)、Spark读取Hive需要更新的分区的数据；4)、Spark将HBASE中增量数据与Hive中的存量数据合并；5)、批量删除HBASE增量数据。本发明传统数据库数据抽取至Hive时，数据无法更新的问题，实现了将数据从传统关系数据库同步至Hive大数据仓库中，数据的插入、更新和删除操作。

Description

一种基于Spark的对Hive中数据进行插入、更新和删除的方法

技术领域

本发明涉及大数据计算技术领域，具体地说是一种基于Spark的对Hive中数据进行插入、更新和删除的方法。

背景技术

目前我国提出实施国家大数据战略：“把大数据作为基础性战略资源，全面实施促进大数据发展行动，加快推动数据资源共享开放和开发应用，助力产业转型升级和社会治理创新”。那么未来最贵的资源必定是数据，如何采集、存储和计算数据成为了当前热点话题，Hive和Spark分别作为当前大数据领域内存储和计算使用最多的技术，引起了工业界的广泛关注。

Spark是基于内存的分布式计算框架，并且对Hadoop生态系统有高度的支持，比如支持从HDFS、Hbase、Hive等分布式文件系统读取数据。而且Spark目前发展非常迅速，支持的持久层框架越来越多，并且随着SparkSQL的出现，通过SparkSQL直接访问Hive更加方便，数据开发人员直接用SQL语句便可以做数据分析，降低了Spark和大数据开发难度。但是Spark+Hive的计算组合也要面临一个问题，Spark无法访问Hive的事务表，那么Hive将无法对历史数据进行行级别的更新和删除。

在大数据生态系统中，Hbase是大数据存储的一个重要组件，可以利用Rowkey的唯一性，快速的定位到数据，进行增加、删除和修改。但是，目前大数据量下，Spark访问Hbase的效率比不上Hive，无法满足对计算性能有一定要求的场景。

发明内容

本发明的技术任务是针对以上不足之处，提供一种基于Spark的对Hive中数据进行插入、更新和删除的方法，解决在将传统关系数据库中数据同步至Hive时，若数据涉及更新和删除，而Hive中对应的数据无法同步更新和删除的问题。

本发明解决其技术问题所采用的技术方案是：

一种基于Spark的对Hive中数据进行插入、更新和删除的方法，该方法将Spark与Hbase、Hive相结合，实现对Hive的插入、更新和删除操作，实现方式如下：

1)、Nifi抽取传统数据库，增加操作时间和操作类型的标签；

2)、Spark读取HBASE获取增量数据；

3)、Spark读取Hive需要更新的分区的数据；

4)、Spark将HBASE中增量数据与Hive中的存量数据合并；

5)、批量删除HBASE增量数据。

该方法利用Hbase快速更新的特点，利用关系数据库的主键列作为rowkey，对历史数据进行增删查改，再利用Spark对Hbase和Hive的支持，利用Hive分区特征对Hive历史数据做更新和删除。

首先使用Nifi把数据从传统数据库抽取至HBase，利用rowkey的唯一性来插入、更新和删除数据；然后用Spark读取HBase中的增量数据，并将这些数据与Hive中的存量数据根据主键列做关联操作，把需要删除和更新的数据从Hive删除，把HBase更新和插入的数据并入Hive中，最后，把合并后的数据写回至Hive。

该方法将数据从传统关系数据库同步至Hive大数据仓库中，并做到数据插入、更新和删除，从而解决了用户使用大数据计算框架(Spark、MapReduce)分析Hive数据时，数据被导入Hive时只能插入，而无法删除和更新的问题。

具体的，该方法的具体实现方式为：

Nifi读取传统数据库的操作日志，读取插入、更新和删除操作的数据，并为该数据加入操作时间和操作类型标签，写入Hbase；

Spark获取当前时间，并根据时间标签读取HBASE增量数据；

Spark重配置文件中读取的增量数据的分区字段和联合主键列；

Spark从增量数据中获取涉及增量修改的分区集合，Spark根据这个分区集合读取Hive中存量数据，将这些存量数据与增量数据根据联合主键关联；

删除存量数据中标签为“删除”和“更新”的数据，合并增量数据中标签为“插入”和“更新”的数据，并写入Hive中，完成插入、更新和删除的操作。

将Spark与Hbase、Hive相结合，实现对Hive的插入、更新和删除操作。

优选的，所述Nifi抽取传统数据库中的数据时，根据数据库的增删查改和抽取时间，为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。

进一步的，定义Nifi从传统关系数据库抽取log日志的流程，

若log为插入数据，则“OPT_TYPE”赋值为“OPT_INSERT”；若log为更新数据，则“OPT_TYPE”赋值为“OPT_UPDATA”；若log为删除数据，则“OPT_TYPE”赋值为“OPT_DELETE”；

读取联合主键，将它们拼接为HBASE的rowkey，将rowkey和数据一并插入HBASE表中。如后续日志有对于该rowkey的对应行的数据的其他操作，则除了更新对应数据外，同样需要更新“OPT_TIME”和“OPT_TYPE”字段。

优选的，所述Spark读取HBASE获取增量数据，根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。

优选的，把HBASE表的数据转化为临时表。

具体的，把HBASE表的数据转化为临时表的方法为：把列转为map，再转成json，最后转为DF。通过map转换为jsonRDD,最终注册为临时表insertDF。

优选的，Spark读取Hive需要更新的分区的数据，根据HBASE中增量数据获取到更新数据所在的分区集合，Spark根据这些集合读取HIVE中的数据。

进一步的，Spark将HBASE中增量数据与Hive中的存量数据合并的方法为：Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF，将这三种DF分别与Hive的存量数据做join，去除Hive中与HBASE中主键一样的数据，把updataDF和insertDF与Hive剩余的数据合并。

进一步的，批量删除HBASE增量数据，根据已经读取的HBASE的增量数据后这些数据的rowkey，将其封装为RDD<rowkey>,并划分分区，在多个分区中把rowkey封装成deletes，实现分布式批量删除，从而实现高效率删除增量数据。

本方法结合Spark对多种数据源的支持，提出了先在Hbase中做更新，在利用Spark做合并的方法，满足了既能对数据插入、更新和删除，又能快速计算的要求。

本发明的一种基于Spark的对Hive中数据进行插入、更新和删除的方法与现有技术相比，具有以下有益效果：

该方法解决了传统数据库数据抽取至Hive时，数据无法更新的问题。主要应用在系统从传统关系数据库向大数据平台切换，或者随着业务量的增大，传统数据库因为历史数据不断增加，无法满足对数据的处理性能，需要把数据转移至Hive，使用Spark作为计算引擎的场景。

该方法利用HBASE的单行更新能力，以及Hive分区存储的特点，把传统数据库的增删查改用Hbase解决，而同步至Hive的更新时，用读取整个分区、并根据标签对HBASE的逻辑标识合并分区数据的方法，从分区层面实现对数据的更新。本方法解决了Hive在不开启事务的情况下，保证了Hive数据的插入、更新和删除操作，并没有对Spark读取Hive的计算性能造成损失。

附图说明

图1是本发明基于Spark的对Hive中数据进行插入更新和删除的方法流程图。

具体实施方式

1、Nifi抽取传统数据库，增加操作时间和操作类型的标签；

Nifi抽取传统数据库中的数据时，根据数据库的增删查改和抽取时间，为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。

2、Spark读取HBASE获取增量数据；

根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据，进一步的包括把HBASE表的数据转化为临时表。把HBASE表的数据转化为临时表的方法实现把列转为map，再转成json，最后转为DF的过程。

3、Spark读取Hive需要更新的分区的数据；

根据HBASE中增量数据获取到更新数据所在的分区集合，Spark根据这些集合读取Hive中的数据。

4、Spark将HBASE中增量数据与Hive中的存量数据合并；

Spark将HBASE中增量数据与Hive中的存量数据合并的方法为：Spark将HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF，将这三种DF分别与Hive的存量数据做join，会去除Hive中与HBASE中主键一样的数据，把updataDF和insertDF与Hive剩余的数据合并。

5、批量删除HBASE增量数据；

根据已经读取的HBASE的增量数据后这些数据的rowkey，将其封装为RDD<rowkey>,并划分分区，在多个分区中把rowkey封装成deletes，实现分布式批量删除，从而实现高效率删除增量数据。

实施例

Spark获取当前时间，并根据时间标签读取HBASE增量数据；

具体实现方式如下：

(1)、定义Nifi从传统关系数据库抽取log日志的流程，并给读出的每条记录增加当前时间与操作类型两列，具体为“OPT_TIME”和“OPT_TYPE”；

若log为插入数据，则“OPT_TYPE”赋值为“OPT_INSERT”；若log为更新数据，则“OPT_TYPE”赋值为“OPT_UPDATA”；若log为删除数据，则“OPT_TYPE”赋值为“OPT_DELETE”。

(2)、定义Spark应用程序读取HBASE，并增加过滤条件OPT_TIME小于当前本地时间，结果定义为increRDD。通过map转换为JsonRDD，最总注册为一张临时表increDF。

(3)、从配置文件中读取该表对应的分区列，并从increDF获取所修改的行处在的Hive分区的集合SetA；然后定义Spark程序读取分区SetA中的所有数据，定位为HiveDF。

(4)、把increDF根据“OPT_TYPE”字段类型切分为3部分deleteDF,updataDF和insertDF。从配置文件中读取这个表对应的联合主键，根据联合主键将HiveDF分别与deleteDF、updataDF和insertDF做关联join。把HiveDF中与这三组数据在主键上有重复的数据删除，保留主键未重复的数据，记录为unchangeDF。将updataDF和insertDF与unchangeDF做union，生成结果resultDF。将其持久化至HIVE中间表中。

(5)、删除HIVE中第(3)步读取数据的分区，把第(4)步中间表的数据，插入到hive表中。

(6)、根据increDF，获取所有rowkey，根据这些rowkey，生成HBASE的delete集合。从HBASE表中删除这些已经同步至hive的数据。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于该方法将Spark与 Hbase、Hive相结合，实现对Hive的插入、更新和删除操作，实现方式如下：

1）、Nifi抽取传统数据库，增加操作时间和操作类型的标签；

2）、Spark读取 HBASE获取增量数据；

3）、Spark读取Hive需要更新的分区的数据；

4）、Spark将 HBASE中增量数据与Hive中的存量数据合并；

5）、批量删除 HBASE增量数据；

该方法的具体实现方式为：

Nifi读取传统数据库的操作日志，读取插入、更新和删除操作的数据，并为该数据加入操作时间和操作类型标签，写入 Hbase；

Spark获取当前时间，并根据时间标签读取 HBASE增量数据；

2.根据权利要求1所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于所述Nifi抽取传统数据库中的数据时，根据数据库的增删查改和抽取时间，为每一条记录增加“OPT_TIME”和“OPT_TYPE”字段。

3.根据权利要求2所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于定义Nifi从传统关系数据库抽取log日志的流程，

读取联合主键，将它们拼接为 HBASE的rowkey，将rowkey和数据一并插入 HBASE表中。

4.根据权利要求2所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于所述Spark读取 HBASE获取增量数据，根据“OPT_TIME”小于当前本地时间为过滤条件获取增量数据。

5.根据权利要求4所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于把 HBASE表的数据转化为临时表。

6.根据权利要求5所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于把 HBASE表的数据转化为临时表的方法为：把列转为map，再转成json，最后转为DF。

7.根据权利要求4所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于根据 HBASE中增量数据获取到更新数据所在的分区集合，Spark根据这些集合读取HIVE中的数据。

8.根据权利要求7所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于Spark将 HBASE中增量的数据根据“OPT_TYPE”字段分为deleteDF,updataDF和insertDF，将这三种DF分别与Hive的存量数据做join，去除Hive中与 HBASE中主键一样的数据，把updataDF和insertDF与Hive剩余的数据合并。

9.根据权利要求8所述的一种基于Spark的对Hive中数据进行插入、更新和删除的方法，其特征在于根据已经读取的 HBASE的增量数据后这些数据的rowkey，将其封装为RDD<rowkey>,并划分分区，在多个分区中把rowkey封装成deletes，实现分布式批量删除。