CN110232085B

CN110232085B - 一种大数据etl任务的编排方法与系统

Info

Publication number: CN110232085B
Application number: CN201910359658.4A
Authority: CN
Inventors: 朱小杰; 沈志宏; 杜一; 赵子豪; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-09-24
Anticipated expiration: 2039-04-30
Also published as: CN110232085A

Abstract

本发明涉及一种大数据ETL任务的编排方法与系统。该方法包括：1)对用户编排的ETL任务进行数据处理组件配置和数据流向配置；2)根据数据处理组件和数据流向，将用户编排的ETL任务生成模型描述语言；3)将模型描述语言解析成ETL任务的有向无环图，所述有向无环图中的节点为数据处理组件，边为数据流向；4)根据ETL任务的有向无环图，通过执行引擎对任务进行执行。在ETL任务执行过程中可对ETL任务执行状况进行监控并对日志进行解析。该系统包括可视化引擎、Rest API接口、执行引擎、监控模块、日志模块。本发明能够可视化配置大数据ETL流程，监控ETL运行状况，提供丰富的数据处理组件，组件可扩展。

Description

一种大数据ETL任务的编排方法与系统

技术领域

本发明涉及大数据、流水线、可视化、分布式系统技术领域，提出一种支持大数据ETL任务的编排方法与系统。

背景技术

传统的数据分析场景中，我们面对的应用大多以管理信息系统为主，数据存储在关系型数据库内。为了满足分析需求，同时不影响业务运行，需要将数据通过ETL(Extract-Transform-Load)过程，抽取、转换、加载到类似的关系型数据仓库中进行离线分析处理。而由于数据量和计算能力的限制，往往对数据的处理相对简单。

随着大数据时代的到来，数据分析处理的场景不再限于传统关系型数据库，如海量日志数据、流数据，设备实时数据等。大数据ETL迎来了巨大挑战。数据本身而言，数据规模(Volume)首当其冲，除此之外主要困难来自于数据的多样性(Variety)和实时性(Velocity)。数据处理过程中，处理模块的复用性低，由于工具选型太多导致的复杂性以及处理模块没有统一的模型管理导致数据处理框架/平台的可维护性低，数据处理工具的可用性及易用性低。

StreamSets是一种典型的大数据ETL工具，提供拖拽式的可视化数据流程配置界面。其将数据处理流程分为数据源(Origins)、执行器(Executors)、处理器(Processors)、数据存储(Destinations)四类。由于扩展性问题，很难满足实际项目中的特定需求。

Apache NiFi是一个成熟的开源大数据流水线项目,基于其工作流式的编程理念,提供了强大的、可靠的、高度可配置的流水线定义和执行功能。然而,由于Apache NiFi采用专有的分布式计算框架和应用容器机制,导致很难实现与Hadoop、Spark等大数据框架的无缝集成。另外,NiFi基于Flow File的溯源机制,在处理大数据时往往具有极差的性能。

因此，实现一个简单易用，扩展性强，性能优越的大数据ETL系统非常重要。

发明内容

本发明的目的在于提供一种大数据ETL任务的编排方法与系统，能够可视化配置大数据ETL流程，监控ETL运行状况，提供丰富的数据处理组件，组件可扩展。

为达到上述目的，本发明采用如下技术方案：

一种大数据ETL任务的编排方法，包括以下步骤：

1)对用户根据需求编排的ETL任务进行数据处理组件配置和数据流向配置；

2)根据数据处理组件和数据流向，将用户编排的ETL任务生成模型描述语言；

3)将模型描述语言解析成ETL任务的有向无环图，所述有向无环图中的节点为数据处理组件，边为数据流向；

4)根据ETL任务的有向无环图，通过执行引擎对任务进行执行。

进一步地，上述方法是一种通过有向无环图DAG(Directed Acyclic Graph)编排ETL任务的方法，具体见图1。DAG节点描述数据处理组件，定义为Stop。每个Stop有数据流入端口Inport、数据流出端口Outport。DAG边描述数据流向，定义为Path。Path采用四元组方式表示(FromStop,Outport,Inport,ToStop)，分别表示源数据处理组件，源数据处理组件数据出口，目标数据处理组件数据入口，目标数据处理组件。Path可以输运大小可动态调整的有结构化描述的数据DataFrame。

进一步地，上述方法采用基于DAG的可视化ETL设计工具，即可视化引擎，具体见图2。该工具采用轻量级框架Spring Boot以及开源的基于JavaScript的画图插件mxgraph实现。通过可视化拖拽的方式，将ETL流程配置成有向无环图。其中数据处理组件设计成DAG节点，数据处理组件的数据流向设计成DAG边。模型描述语言生成器将ETL过程的DAG图生成模型描述语言ETLDL。

进一步地，上述方法采用基于模型描述语言ETLDL的可视化表示方法。图3给出了ETL模型描述语言的可视化表示方法。图中每个矩形框表示一个节点，矩形框跟随的加号表示节点可展开，矩形框下方的数字表示节点允许出现的次数。ETLDLRoot是描述语言的根节点，主要由3个子模块组成，包含基本信息模块BasicInfo、数据处理组件模块Stop和数据流向模块Path。其中ETLDLRoot与BasicInfo为一对一关系，与Stop模块和Path模块为一对多的关系，即ETL任务包含一个基本信息模块，多个数据处理组件模块和多个数据流向模块。

进一步地，上述方法采用基于DAG的ETL执行策略。ETL任务执行采用DAG有向无环图的遍历方式。图4展示了DAG Graph的执行策略。首先找到所有出度为0的节点F、G逐个遍历。F入边节点为E，E入边节点为D，D入边节点为B、C，B入边节点为A，A不存在入边节点则执行，B执行，C执行，D执行，E执行，F执行。

进一步地，上述方法采用可扩展的数据处理组件实现方法。ETL数据处理组件的扩展，采用继承抽象类并实现接口的方式，具体继承的类及相应接口如表1所示。其中perform为实现组件功能的函数，通过将上下游数据进行抽象并封装成JobInputStream和JobOutputStream，以统一的input/output格式使得数据处理组件具有很强的扩展性。

表1数据处理组件扩展类

进一步地，上述方法采用的ETL任务的调度方法为：ETL任务生成之后进入调度阶段，采用公知的先进先出FIFO策略进行调度。

进一步地，上述方法对对ETL运行情况进行监控。基于ETL执行策略，ETL任务的监控如图5所示。通过监控器Listener对整个ETL任务进行监听，在任务的开始、结束和异常点，以及每个数据处理组件的开始、结束和异常点进行监控。将监控数据，如开始时间，结束时间，状态等写入内嵌式数据库H2DB。

进一步地，上述方法还包括一种保存ETL的方法。ETL模型描述语言描述了整个ETL的模块及拓扑关系，但组件相对位置信息、样式等没有进行描述。该系统通过XML的方式将ETL任务保存成模板，具体见图6。模板丰富了模型描述语言，添加了样式等模块，可下载，上传，加载。

与上面方法对应地，本发明还提供一种大数据ETL任务的编排系统。该系统采用模型驱动开发方法，具体流程如图7所示。首先ETL设计工具生成ETL模型描述语言，ETL模型描述语言通过执行引擎解析并执行。图8给出该系统的架构图。该系统包括：可视化引擎、Rest(Representational State Transfer)API接口、执行引擎，进一步还可包括监控模块、日志模块。其中：

所述可视化引擎通过可视化拖拽的方式将ETL流程配置成有向无环图；所述可视化引擎包括模型描述语言生成器(即ETLDL生成器)，用于将用户编排的ETL任务生成模型描述语言，并发送到所述Rest API接口；

所述Rest API接口从所述模型描述语言生成器接收模型描述语言，并转发给所述执行引擎；

所述执行引擎包括模型描述语言解析器(即ETLDL解析器)、执行模块和调度模块；所述模型描述语言解析器将模型描述语言解析成ETL任务的有向无环图；所述执行模块根据ETL任务的有向无环图对任务进行执行；所述调度模块采用FIFO调度策略对任务进行调度。

所述监控模块用于在ETL任务执行过程中，通过监控器对ETL任务执行状况进行监控，监控数据保存到数据库中，并向上提供API接口；

所述日志模块用于在ETL任务执行过程中采集日志，通过日志解析器对日志进行解析，并向上提供API接口。

本发明的有益效果如下：

本发明的大数据ETL任务的编排方法与系统，能够可视化配置大数据ETL流程，监控ETL运行状况，提供丰富的数据处理组件，组件可扩展。底层执行引擎基于分布式计算框架Spark，性能表现优越。

附图说明

图1.基于DAG编排ETL任务图。

图2.基于DAG的可视化ETL设计工具示意图。

图3.基于模型描述语言的可视化表示方法示意图。

图4.基于DAG的ETL执行策略示意图。

图5.监控ETL运行情况的方法示意图。

图6.保存ETL的方法示意图。

图7.模型驱动开发流程图。

图8.大数据ETL系统结构图。

图9.ETL任务样例示意图。

图10.模型描述语言ETLDL示意图。

图11.ETL任务样例的模型描述示意图。

图12.ETL任务样例执行策略示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明。

本实施例提供一种大数据ETL任务的编排方法，见图8。具体如下：

1)用户根据需求编排ETL任务。根据编排的ETL任务，在ETL设计工具即图8中的可视化引擎中进行设计，包括数据处理组件Stop配置、数据流向Path配置和属性Property配置。

2)本系统利用可视化引擎中的模型描述语言生成器将用户编排的ETL任务生成模型描述语言ETLDL，并发送到Rest API接口。

3)Rest API接口接收到模型描述语言ETLDL，转发给执行引擎的模型描述语言解析器。模型描述语言解析器将ETLDL解析成ETL任务的有向无环图DAG Graph。

4)执行引擎中的执行模块通过ETL的执行策略对任务进行执行。执行引擎中调度模块采用的调度策略为公知的FIFO调度策略进行调度。被调度成功的ETL任务在Yarn上执行。Yarn(Yet Another Resource Negotiator，另一种资源协调者)是现有的一种Hadoop资源管理器，是一个通用资源管理系统。

5)本系统在ETL任务执行过程中，提供监控器(或称为监听器)对ETL任务执行状况进行监控，监控数据保存到H2数据库中，并向上提供API接口。

6)本系统在ETL任务执行过程中，采集Yarn日志，日志解析器对Yarn日志进行解析，并向上提供API接口。

7)本系统可以将ETL任务保存为模板，模板可下载，上传和加载。

8)本系统支持用户自定义开发组件。

本系统的构建过程以某用户某一特定需求为例进行说明。某用户特定需求描述如下：用户有两个数据文件，格式分别为CSV和XML。需要将两个数据文件进行解析，提取所需字段，分别写入到Hive数据库、CSV文件和JSON文件中。具体实施如下：

首先对ETL任务进行编排，该任务应包含8个Stop和7条Path，具体见表2。其中Merge组件包含两个数据入口data1和data2，Fork组件包含3个出口out1、out2和out3，其他组件均为默认端口。

然后，基于设计好的任务在ETL设计工具中进行设计，包括拖拽8个数据处理组件以及相应数据流向的配置。设计效果具体见图9。

第三，模型描述语言生成器将上一步用户设计的ETL任务(如图9所示)生成模型描述语言ETLDL。ETLDL具体如图10所示。ETLDLRoot为根节点，包括BasicInfo(基本信息模块)、Stop(数据处理组件模块)和Path(数据流向模块)三个模块。BasicInfo模块包含Name(ETL任务名称)，UUID(ETL任务唯一标识)、Checkpoint(ETL检查点)和RunMode(ETL任务运行模式)，其中Checkpoint和RunMode可选。Stop模块包含Name(数据处理组件名称)、UUID(数据处理组件唯一标识)、Bundle(数据处理组件类名)、Properties(数据处理组件属性，Properties包含0到多个Property)、Inports(数据处理组件数据流入端口列表，包含多个Inport)、Outports(数据处理组件数据流出端口列表，包含多个Outport)。Path模块包含From(源数据处理组件)，Outport(源数据处理组件数据流出端口)，Inport(目标数据处理组件数据流入端口)，To(目标数据处理组件)。具体生成的ETLDL如图11所示。

模型描述语言生成器将生成的模型描述语言ETLDL发送到REST API接口，RESTAPI接口接收到模型描述语言ETLDL，转发给模型描述语言解析器。REST API接口的实现方法采用AKKA框架实现，AKKA是一个用Scala语言编写的库，用于简化编写容错的、高可伸缩性的Java和Scala的Actor模型应用。

表2 ETL任务样例编排

第四，模型描述语言解析器将ETLDL解析成ETL任务的有向无环图DAG Graph。执行逻辑如表3所示。具体执行策略如图12所示：

1)首先找到没有出边的节点JSONSave、CSVSave、PutHive，逐个进行遍历。

2)访问JSONSave节点，如图12中(a)图所示，当前节点有入边Fork，则递归调用执行Fork，如图12中(b)图所示；

3)Fork节点有入边Merge，递归执行Merge，如图12中(c)图所示；

4)Merge节点有两条入边，分别为CSVParser和SelectField，逐个递归执行，如图12中(d)图、(e)图所示：

a)CSVParser节点没有入边，执行该节点并返回；

b)执行SelectField节点，该节点有入边XMLParser；

c)XMLParser没有入边，执行该节点并返回，如图12中(f)图所示；

d)执行SelectField节点；

5)执行Merge节点；

6)执行Fork节点；

7)执行JSONSave节点；

8)访问CSVSave节点，该节点有入边但已经执行，则直接执行CSVSave节点，如图12中(g)图所示；

9)同样的，直接执行PutHive节点，如图12中(h)图所示。

表3一种基于DAG的ETL执行策略

第五，本系统在ETL任务执行过程中，提供监控器对ETL任务执行状况进行监控，监控数据保存到H2数据库中，并向上提供API接口。ETL任务的执行状态分为STARTED(开始)、COMPLETED(完成)、FAILED(失败)、KILLED(杀死)，数据处理组件的任务状态分为INIT(初始化)、STARTED(开始)、COMPLETED(完成)、FAILED(失败)。监控器提供如表4所示的监控接口，分别在ETL任务以及每个数据处理组件支持过程中进行监控，见图5。同时监控数据写入H2DB中，监控数据表结构如表5所示。

表4监控器接口

表5监控器表结构

第六，ETL任务保存模板的方式，类似ETL模型描述语言，增加了组件之间的相对位置，样式等信息。该模板采用XML方式进行表示，具体如图6所示。flow为根节点，图6中包括：

1.基本信息：name(ETL任务名称)、id(ETL任务唯一标识)、description(ETL任务描述)。

2.Stop数据处理组件模块，可出现多次

a)name(数据处理组件名称)

b)id(数据处理组件唯一标识)

c)description(数据处理组件描述)

d)pageId(数据处理组件在ETL可视化工具中的id)

e)owner(数据处理组件开发者邮箱)

f)outports(数据处理组件数据流出端口)

g)outPortType(数据处理组件流出端口类型)

h)isCheckpoint(该数据处理组件是否为检查点)

i)inports(数据处理组件数据流入端口)

j)inPortType(数据处理组件数据流入端口类型)

k)groups(数据处理组件所在组)

l)crtUser(数据处理组件创建者)

m)bundle(数据处理组件类名)

n)property(数据处理组件属性)，包括属性名称name、属性唯一标识id、属性描述信息description、数据处理组件创建者crtUser、属性是否加密sensitive、属性是否必填required、属性是否为下拉isSelect、属性展示名称displayName、属性值customValue、属性允许值allowableValues

3.paths模块，可出现多次

a)pageId(数据流向在ETL可视化工具中的id)

b)from(源数据处理组件pageId)

c)outport(源数据处理组件数据流出端口，若为默认值则不显示)

d)to(目标数据处理组件pageId)

e)inport(目标数据处理组件数据流入端口，若为默认值则不显示)

f)crtUser(path创建者)

4.mxGraphModel可拖拽画布模块

a)基本信息pageWidth(画布宽度)、pageHeight(画布高度)等

b)mxCell画布元素，包括id(画布元素id，如Stop，path)、parent(画布元素父节点)、vertex(画布排列方式)、value(画布元素值)、style(画布元素样式)、source(当画布元素为边时，表示边的源数据处理组件pageId)，target(当画布元素为边时，表示边的目标数据处理组件pageId)

最后，用户自定义开发组件方法如表6所示。

本发明针对Apache Nifi进行了对比测试，共设计4条流水线，测试流水线如表7所示。F1功能为DBLP数据采集入库，DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。按年代列出了作者的科研成果，包括国际期刊和会议等公开发表的论文。DBLP所收录的期刊和会议论文质量较高，文献更新速度很快，很好地反应了国外学术研究的前沿方向。F2～F4为读取oracle数据写入Hive。

表6用户自定义开发组件

表7流水线测试样例

测试环境在3个节点的虚拟机集群进行，8核cpu，32G内存，详见表8。

表8测试环境

配置	节点数	CPU	内存
				虚拟机	3	1核*8	32G

每条流水线分别进行了三次测试，结果取平均值。结果显示该系统在性能上较Apache Nifi有较大提升，具体测试结果见表9。

表9性能对比测试结果

本发明中的一种基于DAG的ETL执行策略，采用自底向上的图遍历方式完成ETL任务的执行，同时也可采用自顶向下的方式进行遍历及执行。同时，一种基于模型描述语言ETLDL的可视化表示方法采用XML进行描述，也可采用JSON等其他方式进行描述。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种大数据ETL任务的编排方法，其特征在于，包括以下步骤：

4)根据ETL任务的有向无环图，通过执行引擎对任务进行执行；

所述数据处理组件包括数据流入端口、数据流出端口，并能够采用继承抽象类并实现接口的方式进行扩展，支持用户自定义开发数据处理组件；所述数据流向采用四元组方式表示为(FromStop，Outport，Inport，ToStop)，分别表示源数据处理组件，源数据处理组件数据流出端口，目标数据处理组件数据流入端口，目标数据处理组件；

所述模型描述语言采用可视化表示方法，每个矩形框表示一个节点，矩形框跟随的加号表示节点可展开，矩形框下方的数字表示节点允许出现的次数；模型描述语言的根节点包含基本信息模块、数据处理组件模块和数据流向模块，ETL任务包含一个基本信息模块，多个数据处理组件模块和多个数据流向模块；

所述基本信息模块包含ETL任务名称、ETL任务唯一标识、ETL检查点和ETL任务运行模式；

所述数据处理组件模块包含数据处理组件名称、数据处理组件唯一标识、数据处理组件类名、数据处理组件属性、数据处理组件数据流入端口列表、数据处理组件数据流出端口列表；

所述数据流向模块包含源数据处理组件、源数据处理组件数据流出端口、目标数据处理组件数据流入端口和目标数据处理组件。

2.根据权利要求1所述的方法，其特征在于，采用可视化引擎，通过可视化拖拽的方式，将ETL流程配置成有向无环图；所述可视化引擎包含模型描述语言生成器，用于将用户编排的ETL任务生成模型描述语言，并发送到Rest API接口；所述Rest API接口接收到模型描述语言，转发给模型描述语言解析器，所述模型描述语言解析器将模型描述语言解析成ETL任务的有向无环图。

3.根据权利要求1所述的方法，其特征在于，步骤4)采用FIFO调度策略对任务进行调度，被调度成功的ETL任务在Yarn上执行。

4.根据权利要求3所述的方法，其特征在于，在ETL任务执行过程中，采集Yarn日志，通过日志解析器对Yarn日志进行解析，并向上提供API接口。

5.根据权利要求1所述的方法，其特征在于，在ETL任务执行过程中，通过监控器对ETL任务执行状况进行监控，监控数据保存到H2数据库中，并向上提供API接口。

6.根据权利要求1所述的方法，其特征在于，将ETL任务保存为模板，所述模板能够下载，上传和加载。

7.一种实现权利要求1所述方法的大数据ETL任务的编排系统，其特征在于，包括可视化引擎、Rest API接口和执行引擎：

所述可视化引擎通过可视化拖拽的方式将ETL流程配置成有向无环图；所述可视化引擎包括模型描述语言生成器，所述模型描述语言生成器根据数据处理组件和数据流向，将用户编排的ETL任务生成模型描述语言，并发送到所述Rest API接口；

所述执行引擎包括模型描述语言解析器、执行模块和调度模块；所述模型描述语言解析器将模型描述语言解析成ETL任务的有向无环图；所述执行模块根据ETL任务的有向无环图对任务进行执行；所述调度模块采用FIFO调度策略对任务进行调度；

8.根据权利要求7所述的系统，其特征在于，还包括：

监控模块，用于在ETL任务执行过程中，通过监控器对ETL任务执行状况进行监控，监控数据保存到数据库中，并向上提供API接口；

日志模块，用于在ETL任务执行过程中采集日志，通过日志解析器对日志进行解析，并向上提供API接口。