CN112783923A

CN112783923A - 一种基于Spark和Impala高效采集数据库的实现方法

Info

Publication number: CN112783923A
Application number: CN202110237793.9A
Authority: CN
Inventors: 李泛洪
Original assignee: Liaoning Zhenxing Bank Co ltd
Current assignee: Liaoning Zhenxing Bank Co ltd
Priority date: 2020-11-25
Filing date: 2021-03-04
Publication date: 2021-05-11

Abstract

本发明公开了一种基于Spark和Impala高效采集数据库的实现方法，涉及数据处理技术领域，其包括以下步骤：S1、根据模板封装采集任务报文；S2、解析采集任务报文；S3、根据报文、创建数据连接；S4、检查目标库是否存在对应的表，如果存在，执行S6后继续向下执行，如果不存在，执行S5后跳到S9继续向下一步执行；S5、根据报文，创建数据连接；S6、根据新增字段，修改目标表；S7、获取缺失字段；S8、通过源与目标表字段类型对比，生成类型转换语句。该基于Spark和Impala高效采集数据库的实现方法，通过采用Spark框架，可减少各类数据源对接的开发工作量，并可配置化数据来源，达到灵活数据源的效果。

Description

一种基于Spark和Impala高效采集数据库的实现方法

技术领域

本发明涉及数据处理技术领域，具体为一种基于Spark和Impala高效采集数据库的实现方法。

背景技术

Spark既Apache Spark，是专为大规模数据处理而设计的快速通用的计算引擎，近期较为流行的大数据框架，Impala既Impala，是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据，它们以最简化的配置，快速高效从各类JDBC数据源读取数据，以parquet格式写入到HDFS中，并在impala中执行刷新和查询优化命令，达到数仓贴远程的处理。

现有技术中存在以下缺点：部分工具如sqoop，每个数据同步任务需要启动进程，单独启动一个yarn程序，资源的消耗和时间占用较大，部分工具如datax，任务配置复杂，非分布式部署。

因此，需要一种基于Spark和Impala高效采集数据库的实现方法来解决上述问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于Spark和Impala高效采集数据库的实现方法，实现了统一配置模板，简化配置，根据数据源自动建表，根据数据源自动增加字段，数据根据分片字段做数据切分和数据写入后impala刷新分区和查询优化。

（二）技术方案

为达到以上目的，本发明采取的技术方案是：一种基于Spark和Impala高效采集数据库的实现方法，所述方法基于基于Spark和Impala，其特征在于，包括以下步骤：启动采集任务，

S1、根据模板封装采集任务报文；

S2、解析采集任务报文；

S3、根据报文、创建数据连接；

S4、检查目标库是否存在对应的表，如果存在，执行S6后继续向下执行，如果不存在，执行S5后跳到S9继续向下一步执行；

S5、根据报文，创建数据连接；

S6、根据新增字段，修改目标表；

S7、获取缺失字段；

S8、通过源与目标表字段类型对比，生成类型转换语句；

S9、生成数据加载语句，按照分区字段和分区大小分片执行；

S10、执行impala表刷新语句；

S11、执行impala表查询优化语句，结束。

（三）有益效果

本发明的有益效果在于：

1、该基于Spark和Impala高效采集数据库的实现方法，通过采用Spark框架，可减少各类数据源对接的开发工作量，并可配置化数据来源，达到灵活数据源的效果。

2、该基于Spark和Impala高效采集数据库的实现方法，通过采用Spark框架，可根据分区字段，实现分片执行采集，效果比整体串行更高。

3、该基于Spark和Impala高效采集数据库的实现方法，通过把Spark和Impala串联起来使用，可极大提高查询效率。

附图说明

图1为本发明方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：一种基于Spark和Impala高效采集数据库的实现方法，所述方法基于基于Spark和Impala，其特征在于，包括以下步骤：

S1、根据模板封装采集任务报文；

S2、解析采集任务报文；

S3、根据报文、创建数据连接；

S4、检查目标库是否存在对应的表，如果存在，执行S6后向下执行，如果不存在，执行S5后跳到S9继续向下一步执行；

S5、根据报文，创建数据连接；

S6、根据新增字段，修改目标表；

S7、获取缺失字段；

S8、通过源与目标表字段类型对比，生成类型转换语句；

S10、执行impala表刷新语句；

S11、执行impala表查询优化语句。

该基于Spark和Impala高效采集数据库的实现方法，通过采用Spark框架，可减少各类数据源对接的开发工作量，并可配置化数据来源，达到灵活数据源的效果；

该基于Spark和Impala高效采集数据库的实现方法，通过采用Spark框架，可根据分区字段，实现分片执行采集，效果比整体串行更高；

该基于Spark和Impala高效采集数据库的实现方法，通过把Spark和Impala串联起来使用，可极大提高查询效率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Spark和Impala高效采集数据库的实现方法，所述方法基于基于Spark和Impala，其特征在于，包括以下步骤：

S1、根据模板封装采集任务报文；

S2、解析采集任务报文；

S3、根据报文、创建数据连接；

S5、根据报文，创建数据连接；

S6、根据新增字段，修改目标表；

S7、获取缺失字段；

S8、通过源与目标表字段类型对比，生成类型转换语句；

S10、执行impala表刷新语句；

S11、执行impala表查询优化语句。