CN109840267A

CN109840267A - 一种数据etl系统及方法

Info

Publication number: CN109840267A
Application number: CN201910158544.3A
Authority: CN
Inventors: 朱亮; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-06-04
Anticipated expiration: 2039-03-01
Also published as: CN109840267B

Abstract

本发明公开一种数据ETL系统，包括：Spark调度模块，数据ETL模块，Zeppelin Notebook模块，Airflow调度模块；所述Spark调度模块用于读取落地数据，将所述落地数据结构化，并将结构化的落地数据灌入所述数据ETL模块；所述数据ETL模块用于对接收的所述结构化的落地数据进行ETL操作，将ETL操作结果转换为Json数据，并将所述Json数据回写给所述Spark调度模块；所述Spark调度模块还用于将接收的所述Json数据结构化，获取结构化的Json数据；所述ZeppelinNotebook模块用于将所述结构化的Json数据进行加总处理，获取处理后数据，将所述处理后数据导入AWS Redshift中；所述Airflow调度模块用于对所述Spark调度模块、所述数据ETL模块、所述ZeppelinNotebook模块进行流程调度。本发明提供的技术方案，能够自动完成数据ETL过程，提高工作效率。

Description

一种数据ETL系统及方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据ETL系统及方法。

背景技术

ETL(Extract-Transform-Load，抽取-转换-加载)是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗和数据转换，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。

亚马逊网络服务器(Amazon Web Services，AWS)是亚马逊公司运营的云计算资源管理平台，以远端Web服务的方式向企业提供多种类型的AWS资源，基于这些服务资源及其开放的API(Application Programming Interface，应用程序编程接口)，用户可以很方便地搭建各种数据计算环境，用于数据的落地、抽取、清洗等基础设施建设以及后续的数据挖掘、机器学习等计算任务。现有的大数据基础设施建设可分为三部分：数据落地、数据ETL和数据入库。

现有的数据ETL系统使用了亚马逊的AWS EMR、AWS S3服务，以Spark和Scala语言为技术基础开发计算逻辑，通过Airflow调度来完业务流程。在开发计算逻辑之前，开发人员首先需要和数据需求方商讨数据的抽取方式，形成文档后通过配置或者编写代码的方式来完成计算逻辑的开发。在开发完成后以Airflow的DAG为调度主体，分以下几步完成整个业务流程：1、创建一组AWS EMR计算集群，在集群中预先装好Spark环境；2、编译并上传编译后的计算逻辑代码；3、调度计算逻辑代码，并将计算后的数据写入AWS S3；4、将AWS S3上的数据导入AWS Redshift表中。以上步骤均由操作者手动完成。显然，这种数据获取方式不仅繁琐，而且对于非软件开发人员(例如，项目经理或者数据挖掘人员)来说，这种需要较高软件操作技术的数据获取方式使其不能快速、顺利地获取数据结果，有时甚至只能求助于软件开发人员，使得软件开发人员需要放下手中的工作帮其处理技术问题，进而导致整个团队的工作效率低下。

发明内容

本发明旨在提供一种数据ETL系统及方法，能够自动完成数据ETL过程，提高工作效率。

为达到上述目的，本发明采用的技术方案如下：

一种数据ETL系统，包括：Spark调度模块，数据ETL模块，Zeppelin Notebook模块，Airflow调度模块；所述Spark调度模块用于读取落地数据，将所述落地数据结构化，并将结构化的落地数据灌入所述数据ETL模块；所述数据ETL模块用于对接收的所述结构化的落地数据进行ETL操作，将ETL操作结果转换为Json数据，并将所述Json数据回写给所述Spark调度模块；所述Spark调度模块还用于将接收的所述Json数据结构化，获取结构化的Json数据；所述Zeppelin Notebook模块用于将所述结构化的Json数据进行加总处理，获取处理后数据，将所述处理后数据导入AWS Redshift中；所述Airflow调度模块用于对所述Spark调度模块、所述数据ETL模块、所述Zeppelin Notebook模块进行流程调度。

进一步地，所述数据ETL模块包括：解包模块，ETL逻辑模块，封包模块；所述解包模块用于对接收的所述结构化的落地数据进行解包操作，获取解包数据；所述ETL逻辑模块用于对所述解包数据进行ETL操作，将ETL操作结果转换为Json数据；所述封包模块用于对所述Json数据进行封包操作，并将封包后的Json数据回写给所述Spark调度模块；所述Spark调度模块还用于将接收的所述封包后的Json数据解包，并将解包后的Json数据结构化，获取结构化的Json数据。

进一步地，所述ETL逻辑模块对用户可见；所述Airflow调度模块提供用户运行接口。

优选地，所述Airflow调度模块对所述Spark调度模块、所述数据ETL模块、所述Zeppelin Notebook模块进行流程调度包括：创建AWSEMR集群，构建Spark执行环境，同步ETL操作代码至Spark执行环境，调度Zepplin NoteBook脚本，关闭AWS EMR集群。

进一步地，所述Airflow调度模块在关闭AWS EMR集群之后，还包括：向用户发送操作完成的通知。

优选地，所述Airflow调度模块在关闭AWS EMR集群之后，通过邮件的方式向用户发送操作完成的通知。

进一步地，所述Zeppelin Notebook模块还用于将所述处理后数据保存至AWS S3中。

优选地，所述数据ETL模块采用Python语言进行编写。

一种根据数据ETL系统实现数据ETL的方法，包括：在所述ETL逻辑模块中创建py文件；在所述ETL逻辑模块中编写ETL代码并提交；在所述Airflow调度模块中填写所述py文件的名称，并设置落地数据读取时间段；通过所述Airflow调度模块提供的用户运行接口，触发所述Airflow调度模块；在所述AWS Redshift中查看数据结果。

本发明实施例提供的数据ETL系统及方法，通过Spark调度模块读取落地数据、通过数据ETL模块进行数据ETL操作、通过Zeppelin Notebook模块将处理后数据导入AWSRedshift中，并通过Airflow调度模块对上述各模块的运行流程进行整体调度，能够实现对落地数据的自动ETL过程。进一步地，本发明将数据ETL模块中的ETL逻辑模块设置为对用户可见，将其余功能模块进行封装，并提供Airflow调度模块的运行接口，使得用户在使用时，可根据实际需求编写自己的ETL逻辑代码，触发Airflow调度模块即可获取所需的数据结果。可见，本发明提供的技术方案，不仅方便快捷，而且大大降低了软件操作难度，进而能够提高整个团队的工作效率。

附图说明

图1为本发明实施例的系统结构图；

图2为本发明实施例的运行流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本发明提供了一套不同于现有方案(以Scala为开发语言的门槛较高的数据ETL模块)，转而以简单的Python语言抽象出一套数据ETL模块。

图1为本发明实施例的系统结构图，包括：Spark调度模块，数据ETL模块，ZeppelinNotebook模块，Airflow调度模块。

所述Spark调度模块用于读取落地数据，将所述落地数据结构化，并将结构化的落地数据灌入所述数据ETL模块；Spark调度模块还用于将数据ETL模块返回的Json数据结构化，获取结构化的Json数据，即Spark调度模块将数据ETL模块返回的Json数据构建为SparkDataFrame，方便后续对数据的加总等操作。本实施例中，Spark调度模块采用Scala语言开发。

所述数据ETL模块用于对接收的所述结构化的落地数据进行ETL操作，将ETL操作结果转换为Json数据，并将所述Json数据回写给所述Spark调度模块。所述结构化的落地数据为落地数据的文本形式。具体地，数据ETL模块按照其预先构建的ETL逻辑将结构化的落地数据转化为Python Dict数据结构(通过此数据结构，可以轻松地获取某个数据节点的值，使ETL逻辑的实现更加方便)，并最终转化为Json数据(Spark调度模块接受这种数据格式)回写给Spark调度模块。数据ETL模块采用Python语言进行编写。

所述Zeppelin Notebook模块用于将所述结构化的Json数据进行加总等后续处理，获取处理后数据，将所述处理后数据导入AWS Redshift中，用于数据的快速验证。Zeppelin Notebook模块还用于将所述处理后数据保存至AWS S3中。

所述Airflow调度模块用于对所述Spark调度模块、所述数据ETL模块、所述Zeppelin Notebook模块进行流程调度，整个Airflow流程通过Python预先定义。

本实施例中，为了方便数据传输，所述数据ETL模块包括：解包模块，ETL逻辑模块，封包模块；所述解包模块用于对接收的所述结构化的落地数据进行解包操作，获取解包数据；所述ETL逻辑模块用于对所述解包数据进行ETL操作，将ETL操作结果转换为Json数据；所述封包模块用于对所述Json数据进行封包操作，并将封包后的Json数据回写给所述Spark调度模块；所述Spark调度模块还用于将接收的所述封包后的Json数据解包，并将解包后的Json数据结构化，获取结构化的Json数据。

本实施例中，为了适用于不同的用户需求，所述ETL逻辑模块对用户可见；所述Spark调度模块、所述解包模块、所述封包模块、所述ZeppelinNotebook模块对用户均不可见；所述Airflow调度模块提供用户运行接口。使用户可根据实际需求编写自己的ETL逻辑代码，通过运行接口触发Airflow调度模块后即可获取所需的数据结果。

本实施例中，所述Airflow调度模块对所述Spark调度模块、所述数据ETL模块、所述Zeppelin Notebook模块进行流程调度包括：创建AWS EMR集群，构建Spark执行环境，同步ETL操作代码至Spark执行环境，调度Zepplin NoteBook脚本，关闭AWS EMR集群。所述Airflow调度模块在关闭AWS EMR集群之后，还包括：向用户发送操作完成的通知。优选地，所述Airflow调度模块在关闭AWS EMR集群之后，通过邮件的方式向用户发送操作完成的通知。

下面描述操作者通过本系统获取数据的过程：

本系统对于操作者来说只有ETL逻辑的编写和Airflow调度模块的触发是需要关注的，其余功能模块都是预封装好的。操作者需要在ETL逻辑模块中创建自己的py文件，然后用简单的代码构建自己的ETL逻辑(这里一个ETL逻辑代表一个python方法)。然后提交代码至数据仓库，将创建的py文件的名称以及落地数据读取时间段(可以设置一个默认值)传给Airflow调度模块，或者直接在Airflow调度模块中填写py文件名和落地数据读取时间段，然后触发Airflow调度模块就可以了。后续程序为自动执行，处理后的数据会自动入库至AWS Redshift(一个py文件对应一张表)，入库完成后会以邮件方式通知完成情况。

具体包括以下操作步骤：

S1、基于Python语言编写ETL逻辑代码并提交代码至数据仓库

在这一步中，操作者需要根据自己的ETL逻辑在[python_file].py中编写代码，例：

一个ETL逻辑只需几行简单的代码就可以实现，其中[feature_name]为最终入库后AWS Redshift表的列名，[etl_logic]为ETL任务规则的代码体现，[python_file]为AWSRedshift表的表名。其余的关于数据的封包、解包、转化等操作都不需要操作者关心。

S2、触发Airflow调度模块

在这一步中，操作者在提交代码至数据仓库后，打开Airflow调度模块的调度界面，填入自己的py文件名和落地数据读取时间段，然后运行就可以了，剩余操作为自动操作。在这一步中，Airflow调度模块会自动创建EMR集群、构建Spark执行环境、同步ETL操作代码至Spark执行环境、调度Zepplin NoteBook脚本、关闭EMR集群、发出操作完成通知。

S3、查看最终数据结果

收到操作完成通知后，操作者通过AWS Redshift终端查看数据结果。

本发明的理论原理及有益效果如下：

现有的ETL业务主要分为两类，一类是每天都需要运行的日常数据ETL任务，一般都会分配一定的开发时间，和客户端同步开发，共同上线。另一类是数据需求方的临时任务，一般都是现有的数据仓库不能支持，但是又必须为营销效果之类的分析任务做数据支撑的ETL任务。这类任务一般有一定的实时性，需要马上进行处理。以上两类任务，在现有的ETL技术体系中，均需要操作者具有较强的技术能力，导致非技术人员在获取数据时不得不求助于软件开发人员。

而本发明提供的数据ETL系统，通过将一些较为复杂的用于流程调度、数据封包、数据解包等功能的基础代码封装起来，只暴露简单的数据ETL逻辑，大大降低了操作技术门槛。让没有技术背景或技术能力较弱的操作者通过简单的培训也能轻松地完成数据ETL逻辑的实现，并且避免了代码的编译、打包等流程，提高了工作效率，让需要快速验证数据的任务可以轻松地做到实时化。

本发明与现有的数据获取方式相比，因为依托了Python编程语言并对技术能力要求较高的模块做了预封装，大大降低了技术门槛，非常轻松地就可以完成一个数据ETL逻辑；操作者可以自己实现数据需求任务，让技术能力不再是一个瓶颈，同时也避免了在求助于软件开发人员的沟通过程中产生的理解歧义；本发明提供了Spark调度逻辑以及Zeppelin Notebook调度程序，操作者只需要专注于ETL逻辑代码的编写；本发明提供Airflow调度模块，操作者只需要触发Airflow流程就可以运行ETL逻辑。本发明大大缩短了数据获取的流程，让操作者可以轻易地将自己的验证任务得以实施。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种数据ETL系统，其特征在于，包括：Spark调度模块，数据ETL模块，ZeppelinNotebook模块，Airflow调度模块；

所述Spark调度模块用于读取落地数据，将所述落地数据结构化，并将结构化的落地数据灌入所述数据ETL模块；

所述数据ETL模块用于对接收的所述结构化的落地数据进行ETL操作，将ETL操作结果转换为Json数据，并将所述Json数据回写给所述Spark调度模块；

所述Spark调度模块还用于将接收的所述Json数据结构化，获取结构化的Json数据；

所述Zeppelin Notebook模块用于将所述结构化的Json数据进行加总处理，获取处理后数据，将所述处理后数据导入AWS Redshift中；

所述Airflow调度模块用于对所述Spark调度模块、所述数据ETL模块、所述ZeppelinNotebook模块进行流程调度。

2.根据权利要求1所述的数据ETL系统，其特征在于，所述数据ETL模块包括：解包模块，ETL逻辑模块，封包模块；

所述解包模块用于对接收的所述结构化的落地数据进行解包操作，获取解包数据；所述ETL逻辑模块用于对所述解包数据进行ETL操作，将ETL操作结果转换为Json数据；所述封包模块用于对所述Json数据进行封包操作，并将封包后的Json数据回写给所述Spark调度模块；所述Spark调度模块还用于将接收的所述封包后的Json数据解包，并将解包后的Json数据结构化，获取结构化的Json数据。

3.根据权利要求2所述的数据ETL系统，其特征在于，所述ETL逻辑模块对用户可见；所述Airflow调度模块提供用户运行接口。

4.根据权利要求1所述的数据ETL系统，其特征在于，所述Airflow调度模块对所述Spark调度模块、所述数据ETL模块、所述Zeppelin Notebook模块进行流程调度包括：创建AWS EMR集群，构建Spark执行环境，同步ETL操作代码至Spark执行环境，调度ZepplinNoteBook脚本，关闭AWS EMR集群。

5.根据权利要求4所述的数据ETL系统，其特征在于，所述Airflow调度模块在关闭AWSEMR集群之后，还包括：向用户发送操作完成的通知。

6.根据权利要求5所述的数据ETL系统，其特征在于，所述Airflow调度模块在关闭AWSEMR集群之后，通过邮件的方式向用户发送操作完成的通知。

7.根据权利要求1所述的数据ETL系统，其特征在于，所述Zeppelin Notebook模块还用于将所述处理后数据保存至AWS S3中。

8.根据权利要求1所述的数据ETL系统，其特征在于，所述数据ETL模块采用Python语言进行编写。

9.一种根据权利要求3所述的数据ETL系统实现数据ETL的方法，其特征在于，包括：

在所述ETL逻辑模块中创建py文件；

在所述ETL逻辑模块中编写ETL代码并提交；

在所述Airflow调度模块中填写所述py文件的名称，并设置落地数据读取时间段；

通过所述Airflow调度模块提供的用户运行接口，触发所述Airflow调度模块；

在所述AWS Redshift中查看数据结果。