CN110851514B

CN110851514B - 基于flink的etl处理方法

Info

Publication number: CN110851514B
Application number: CN201910985841.5A
Authority: CN
Inventors: 冯明潇; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2022-10-21
Anticipated expiration: 2039-10-17
Also published as: CN110851514A

Abstract

本发明提供一种基于FLINK的ETL处理方法：包括以下步骤：1)、输入定义ETL任务的结构化查询语言SQL；执行步骤2；2)、控制程序解析SQL。本发明通过SQL定义ETL的方式ETL降低任务的开发成本，可以让业务人员能够直接定义ETL任务，而不用开发人员介入处理，从而降低执行ETL任务的成本，在数据处理过程中，会有大量不同的ETL任务需要执行，从而避免开发人员针对每一个ETL任务都需要开发一个新的应用程序。

Description

基于FLINK的ETL处理方法

技术领域

本发明涉及一种ETL系统，具体涉及一种基于FLINK的ETL处理方法。

背景技术

ETL是构建数据仓库中的必要环节，ETL是常用的数据过程。

现有的ETL方案如logstash，需要用户学习logstash特有的配置格式，需要学习ruby脚本语言；通过spark,flink等计算引擎直接构建ETL任务的方案中需要用户开发新的应用程序才能完成。现有的方案问题在与ETL任务的构建需要开发人员介入，而ETL任务的逻辑还需要业务人员定义，会带来较大的成本。

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。Flink支持有界或无界数据流的数据流API、用于有界数据集的数据集API、表API。

结构化查询语言(Structured Query Language)简称SQL，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名。

结构化查询语言是高级的非过程化编程语言，允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套，这使它具有极大的灵活性和强大的功能。

因此，需要对现有技术进行改进。

发明内容

本发明要解决的技术问题是提供一种高效的基于FLINK的ETL处理方法。

为解决上述技术问题，本发明提供一种基于FLINK的ETL处理方法：包括以下步骤：

1)、输入定义ETL任务的结构化查询语言SQL；执行步骤2；

2)、控制程序解析SQL。

作为对本发明基于FLINK的ETL处理方法的改进：

步骤2包括以下步骤：

2.1)、验证SQL是否语法正确；如正确，执行步骤2.2；如不正确，返回用户SQL不正确的提示信息；

2.2)、对SQL进行语法解析；执行步骤2.3；

2.3)、构建flink运行配置。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

步骤2.1包括：通过Antlr定义的SQL解析器解析SQL来验证SQL是否符合SQL语法定义；如符合，执行步骤2.2；如不符合，返回用户SQL不正确的提示信息。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

步骤2.2包括：从SQL中提取出数据源配置信息、数据目的配置信息和数据变换配置信息。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

步骤2.3包括：

2.31)、将数据源配置信息、数据目的配置信息和数据变换配置信息拼装成为flink的StreamGraph；执行步骤2.32；

2.32)、通过flink API将StreamGraph提交到flink集群上执行。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

步骤2.31中拼装过程是通过调用flink提供的flink API来拼接。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

在步骤2.32中，提交过程中会指定job运行错误重试的策略，也会指定运行使用的资源情况。

作为对本发明基于FLINK的ETL处理方法的进一步改进：

Antlr是开源语法分析器，SQL语法定义是在标准SQL的基础上，增加了createwith语法和时间窗口标记语法。

本发明基于FLINK的ETL处理方法的技术优势为：

本发明通过SQL定义ETL的方式ETL降低任务的开发成本，可以让业务人员能够直接定义ETL任务，而不用开发人员介入处理，从而降低执行ETL任务的成本，在数据处理过程中，会有大量不同的ETL任务需要执行，从而避免开发人员针对每一个ETL任务都需要开发一个新的应用程序。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明基于FLINK的ETL处理方法的流程示意图；

图2为本发明基于FLINK的ETL系统的模块结构示意图；

图3为构建的streamGraph运行图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此。

实施例1、基于FLINK的ETL处理方法，如图1-3所示，包括以下步骤：

1)、输入定义ETL任务的结构化查询语言SQL；执行步骤2；

2)、控制程序解析SQL：

2.1)、验证SQL是否语法正确，如正确，执行步骤2.2；如不正确，会返回用户SQL不正确的提示信息

通过Antlr定义的SQL解析器解析SQL来验证SQL是否符合SQL语法定义。

Antlr是开源语法分析器，SQL语法定义是在标准SQL的基础上，增加了createtable with语法。对现有的SQL语法做拓展过程中会形成新SQL语法定义文件，Antlr会根据输入的SQL和拓展后的SQL语法定义文件来检查输入的SQL是否正确，如果符合拓展后的SQL定义就继续下述流程。如果输入的SQL不符合拓展后的SQL语法定义会产生错误，发现错误之后就提示用户输入SQL是错误的。

SQL是现有的技术，create table with是对现有的SQL语法所做的拓展。现有的SQL语法如下：

create table表名称

(

列名1数据类型

列名2数据类型

……

)

拓展后的SQL语法的如下：

create table表名称

(

列名1数据类型

列名2数据类型

……

)with(

数据存储系统

针对当前数据存储类型的具体配置

)

数据存储系统现在可以支持的是kafka,elasticsearch，后续可以通过插件的形式的支持其它的数据存储系统。

Kafka是一种高吞吐量的分布式发布订阅消息系统，具有很高的吞吐量，能够在系统内部缓存大量数据。elasticsearch是一个全文搜索引擎，能够存储和检索数据。这两个组件都能够作为数据存储系统使用。

2.2)、对SQL进行语法解析；从SQL中提取出数据源配置信息、数据目的配置信息和数据变换配置信息；执行步骤2.3；

2.3)、构建flink运行配置：

2.31)、将解析过了的SQL拼装成为flink的StreamGraph：

SQL解析完毕之后，会得到数据源配置信息、数据目的配置信息和数据变换配置信息。这三种配置信息会用来拼装成为flink的StreamGraph，拼装过程是通过调用flink提供的flinkAPI来自动拼接。

2.32)、得到StreamGraph之后，控制模块会通过flink API将StreamGraph提交到flink集群上执行。在提交过程中会指定job运行错误重试的策略，也会指定运行使用的资源情况。

job运行错误重试的策略：现在可以指定的策略是发生了错误后job重试的次数和每次重试之间的时间间隔，重试的次数是指出现问题后job重启自己的最大次数，重启达到最大次数会将当前job判断为失败，并关闭掉当前job。每次重试之间的时间间隔指的是如果job刚刚重启立刻发生错误的话，下次重启之间等待的时间。例如指定重试策略为重试30次，每次重试的间隔是60秒。

通过控制程序和flink集群做交互，这样就是实现了通过SQL定义ETLJob的全过程。

处理流程图如图1所示；程序模块结构图如图2所示。

具体实例如下所示：

1)、输入结构化查询语言SQL如下：

create table source1(

id int,

destHostName string,

srcAddress string,

destAddress string

)

With(

type＝’kafka’,

topic＝’com.dbapp.rawevent’

)；

create table sink(

id int,

destHostName string,

destAddress string)

with(

type＝’kafka’,

topic＝’com.dbapp.rawevent’

)；

insert into sink

select id,destHostName,destAddress from source1 where srcAddress＝’1.1.1.1’；

2.1)、通过语法解析器验证SQL的正确性；

2.2)、解析上述输入的SQL脚本，提取出flink的Source和Sink配置信息和对数据流的变换操作信息

通过Source,sink的配置信息和数据流变换操作信息，得到如下配置信息，解析结果如下：

2.31)、根据解析结果构建StreamGraph，构建的streamGraph如下：

streamGraph运行图如图3所示；

2.32)、控制程序提交streamGraph到flink集群上运行。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.基于FLINK的ETL处理方法，其特征在于：包括以下步骤：

1）、输入定义ETL任务的结构化查询语言SQL；执行步骤2）；

2）、控制程序解析SQL；

包括以下步骤：

2.1）、验证SQL是否语法正确；如正确，执行步骤2.2；如不正确，返回用户SQL不正确的提示信息；

通过Antlr定义的SQL解析器解析SQL来验证SQL是否符合SQL语法定义；

Antlr是开源语法分析器，SQL语法定义是在标准SQL的基础上，增加了create tablewith 语法；对现有的SQL语法做拓展过程中会形成新 SQL语法定义文件，Antlr会根据输入的SQL和拓展后的SQL语法定义文件来检查输入的SQL是否正确，如果符合拓展后的SQL定义就继续下述流程；如果输入的SQL不符合拓展后的SQL语法定义会产生错误，发现错误之后就提示用户输入SQL是错误的；

2.2）、对SQL进行语法解析；从SQL中提取出数据源配置信息、数据目的配置信息和数据变换配置信息；执行步骤2.3）；

2.3）、构建flink 运行配置：

2.31）、将解析过了的SQL拼装成为flink的 StreamGraph：

SQL解析完毕之后，会得到数据源配置信息、数据目的配置信息和数据变换配置信息；这三种配置信息会用来拼装成为flink的StreamGraph，拼装过程是通过调用flink提供的flink API来自动拼接；

2.32）、得到StreamGraph 之后，控制模块会通过flink API 将StreamGraph 提交到flink集群上执行；在提交过程中会指定job运行错误重试的策略，也会指定运行使用的资源情况；

job运行错误重试的策略：现在指定的策略是发生了错误后 job 重试的次数和每次重试之间的时间间隔，重试的次数是指出现问题后job重启自己的最大次数，重启达到最大次数会将当前job 判断为失败，并关闭掉当前job；每次重试之间的时间间隔指的是如果job刚刚重启立刻发生错误的话，下次重启之间等待的时间；通过控制程序和flink 集群做交互，这样就是实现了通过SQL定义ETL Job的全过程。

2.根据权利要求1所述的基于FLINK的ETL处理方法，其特征在于：

Antlr是开源语法分析器，SQL语法定义是在标准SQL的基础上，增加了create with 语法和时间窗口标记语法。