CN109388667A

CN109388667A - 组件化大数据处理方法、系统及计算机可读存储介质

Info

Publication number: CN109388667A
Application number: CN201710690750.XA
Authority: CN
Inventors: 胡德莲
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2019-02-26

Abstract

本发明公开了一种组件化大数据处理方法、系统及计算机可读存储介质。所述组件化大数据处理方法包括：接收用户的编排命令，根据所述编排命令生成ETL作业；将所述ETL作业提交至大数据集群；发送执行命令至大数据集群，以供在大数据集群的分布式引擎中运行所述ETL作业。通过本发明，用户通过简单操作即可完成ETL作业编排，大大降低了技术难度，解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题，以及计算逻辑无法复用的问题。

Description

组件化大数据处理方法、系统及计算机可读存储介质

技术领域

本发明涉及基于大数据的ETL技术领域，尤其涉及组件化大数据处理方法、系统及计算机可读存储介质。

背景技术

随着计算机技术和互联网的高速发展，计算机应用越来越普及，其规模，范围和深度也在不断的扩大，尤其是近些年来，随着大数据技术的不断成熟，大数据分析技术的发展和广泛应用，海量数据的采集，清洗，存储就成为其分析的基础。大数据ETL技术为满足当前的海量数据采集，清洗，存储要求提供了技术保障。当前已有的ETL技术方案主要存在如下几种缺点：

(1)、非组件化，所有的ETL计算逻辑都需要用户自定义，使用不方便。本发明中ETL计算逻辑封装于各个组件中

(2)、基于大数据引擎计算，但是需要使用专用的大数据开发语言进行作业开发，且针对不同的大数据计算引擎，需要使用不同的开发语言，技术难度较大。

(3)、开发的ETL计算逻辑不具有通用性，即无法在不同的应用场景下复用，也无法兼容不同的大数据计算引擎。

发明内容

本发明的主要目的在于提供一种组件化大数据处理方法、系统及计算机可读存储介质，旨在解决现有的ETL技术方案中存在的上述技术问题。

为实现上述目的，本发明提供一种组件化大数据处理方法，包括：

接收用户的编排命令，根据所述编排命令生成ETL作业；

将所述ETL作业提交至大数据集群；

发送执行命令至大数据集群，以供在大数据集群的分布式引擎中运行所述ETL作业。

可选的，所述接收用户的编排命令，根据所述编排命令生成ETL作业包括：

接收用户的编排命令，根据所述编排命令从用户操作界面确定对应的ETL作业组件；

根据所述编排命令确定所述ETL作业组件的执行顺序，生成ETL作业。

可选的，所述ETL作业组件中包含基于Apache Beam技术封装的满足ETL计算要求的计算逻辑。

可选的，所述将所述ETL作业提交至大数据集群包括：

根据所述ETL作业生成对应的配置文件，将所述配置文件及相关的处理依赖信息提交至大数据集群。

可选的，该方法还包括：

定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态，并输出所述运行状态对应的状态信息。

可选的，该方法还包括：

当所述ETL作业在所述大数据集群的分布式引擎中运行完成时，接收来自大数据集群反馈的完成信息，根据所述完成信息，输出提示信息。

此外，为实现上述目的，本发明还提供一种组件化大数据处理系统，所述组件化大数据处理系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的组件化大数据处理程序，所述组件化大数据处理程序被所述处理器执行时实现如上所述的组件化大数据处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有组件化大数据处理程序，所述组件化大数据处理程序被处理器执行时实现如上所述的组件化大数据处理方法的步骤。

本发明中，当接收到用户的编排命令时，根据该编排命令生成ETL作业，将ETL作业提交至大数据集群，当接收到执行命令时，在大数据集群的分布式引擎中运行ETL作业。通过本发明技术方案，支持ETL作业在大数据集群上执行，充分利用大数据集群的分布式计算能力进行数据处理，满足处理海量数据的要求，解决了现有的内存式ETL工具使用内存计算存在的效率瓶颈；用户通过简单操作即可完成ETL作业编排，大大降低了技术难度，解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题，以及计算逻辑无法复用的问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图；

图2为本发明组件化大数据处理方法第一实施例的流程示意图；

图3为编排ETL作业组件一实施例的场景示意图；

图4为本发明组件化大数据处理方法第二实施例的流程示意图；

图5为本发明组件化大数据处理方法一实施例的框架示意图；

图6为本发明终端一实施例的功能模块示意图；

图7为本发明大数据集群一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图。

本发明实施例系统包括终端和大数据集群，终端可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备；大数据集群可以是大数据spark集群、Hadoop集群。

如图1所示，该系统可以包括：处理器1001，例如CPU，终端1004，大数据集群1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的系统结构并不构成对系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及大数据处理程序。

在图1所示的系统中，处理器1001可以用于调用存储器1005中存储的组件化大数据处理程序，并执行以下操作：

接收用户的编排命令，根据所述编排命令生成ETL作业；

将所述ETL作业提交至大数据集群；

进一步地，处理器1001可以调用存储器1005中存储的组件化大数据处理程序，还执行以下操作：

所述ETL作业组件中包含基于Apache Beam技术封装的满足ETL计算要求的计算逻辑。

参照图2，图2为本发明组件化大数据处理方法第一实施例的流程示意图。

在一实施例中，组件化大数据处理方法应用于终端，组件化大数据处理方法包括：

步骤S10，接收用户的编排命令，根据所述编排命令生成ETL作业；

步骤S20，将所述ETL作业提交至大数据集群；

步骤S30，发送执行命令至大数据集群，以供在大数据集群的分布式引擎中运行所述ETL作业。

本实施例中，终端可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备。

在本实施例中，终端上的用户界面呈现有使用Apache Beam技术封装了一系列满足各种ETL计算要求对应的计算逻辑的各种ETL作业组件，包括但不限于输入组件(包括且不限于文本输入组件，表输入组件，excel输入组件等)，输出组件(包括且不限于文本输出组件，表输入组件等)，校验组件，转换组件(包括且不限于字符串替换组件，值映射组件，字段选择组件等)，连接组件(包括且不限于合并记录组件，记录集连接组件等)，这些组件已经可以满足大多数的ETL计算需求，并且能够支持不同的大数据计算引擎(包括但不限于Spark，Flink，Cloud DataFlow等)。

Apache Beam技术，用于定义和执行数据并行处理管道(pipeline)，这些管道随带一套针对特定语言的SDK用于构建管道(支持的语言包含也不限于java，python等)，以及针对特定运行时环境的Runner用于执行管道(支持的运行环境包括且不限于Spark，Flink，Cloud DataFlow等)。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限、乱序、web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。基于Apache Beam开发的计算逻辑可以执行在任意的分布式计算引擎上。系统中通过使用Apache Beam提供的模板Beam Model，在其每一步中根据业务需求按照数据计算方法，数据计算范围，结果输出时机，迟到数据处理几个维度调用对应的API即可生成分布式数据处理Pipeline，实现具体的组件计算逻辑。所述的Pipeline，即管道，包装数据处理流程任务。作为一个ETL作业，它包含一系列的Pcollection，Transform，还包含了I/O Source andSink，这些内容组成了一整套计算逻辑。所述的Pcollection，作为分布式数据集，Pcollection是管道中每个步骤的输入、输出。即ETL处理的步骤间数据集。所述的Transform，作为管道中的每个步骤，它接收一个或者若干个输入Pcollection，进行处理后，输出Pcollection，即封装处理逻辑的组件。综上，基于Apache Beam技术开发的一系列包含处理逻辑和关联关系的组件，封装的计算逻辑基本可以覆盖各种ETL需求，这些组件可以任意组合，生成满足各种需求的ETL作业，并且可以将ETL作业提交至多种大数据计算引擎中运行(包括但不限于Spark、Hive、Impala等)。

例如，在一实施例中，如图3所示，图3为编排ETL作业组件一实施例的场景示意图。基于用户的拖拽操作触发了编排命令，编排命令对应的ETL作业组件包括：文本输入组件、字段选择组件、文本输出组件；根据编排命令确定对ETL作业组件进行处理的处理流程为：首先是文本输入组件，然后是字段选择组件，最后是文本输出组件。

如图4所示，图4为本发明组件化大数据处理方法第二实施例的流程示意图。

在本发明一可选实施例中，用户可通过拖拽操作在终端的用户界面上对ETL作业组件进行编排，调整各ETL作业组件的连接顺序，还可添加一些配置信息至此次ETL作业中，例如将源数据的位置信息添加ETL作业中，当编排完成后，用户点击保存，则根据此次编排内容及用户添加的配置信息生成ETL作业。将ETL作业保存为符合作业运行处理规则的配置文件(例如XML格式的文件)，并且将此次ETL作业的基本信息(例如，创建时间、源数据位置等)存储在终端系统中，将配置文件以及相关的处理依赖打包提交至大数据集群。

当配置文件及相关的处理依赖信息提交至大数据集群后，大数据集群对需要执行的作业利用大数据集群自身的调度机制进行调度。在接收到执行指令时(该执行指令可由用户直接在终端上的用户界面上操作发出，也可以是由用户设置一个执行周期，例如以24h为一个周期，则每隔24h，终端发送一次执行命令至大数据集群)，通过处理依赖信息包含的解析逻辑将配置文件解析为数据流处理对象，获取处理依赖信息包含的计算逻辑(该计算逻辑为ETL作业组件中基于Apache Beam技术封装的满足ETL计算要求的计算逻辑)，通过该计算逻辑在大数据集群的分布式引擎上处理所述数据流处理对象，即在大数据集群的分布式引擎上运行该ETL作业。ETL作业的执行状态可定时或实时在用户界面显示。

在本实施例中，大数据集群可以是大数据spark集群、Hadoop集群。本实施例中，终端首先根据ETL作业生成对应的配置文件，将配置文件及相关的处理依赖信息提交大数据集群。该配置文件为符合ETL作业在大数据集群的分布式引擎中运行处理规则的配置文件，例如XML格式的文件，处理依赖信息为处理该配置文件所必需的信息，包含了解析配置文件所需的解析逻辑，以及在大数据集群上运行ETL作业所需的计算逻辑，该计算逻辑为基于Apache Beam技术生成的满足ETL计算要求的计算逻辑，其封装于ETL作业组件中。大数据集群接收到配置文件及相关的处理依赖信息后，通过处理依赖信息中包含的解析逻辑将配置文件解析为数据流处理对象，例如，配置文件包括：文本输入组件的配置文件，字段选择组件的配置文件，文本输出组件的配置文件，则根据配置文件中各自标识，解析得到文本输入组件的数据流处理对象、字段选择组件的数据流处理对象，文本输出组件的数据流处理对象，并确定这些数据流处理对象的处理顺序，例如本实施例中，数据流处理对象的处理顺序为：文本输入组件的数据流处理对象→字段选择组件的数据流处理对象→文本输出组件的数据流处理对象。在确定数据流处理对象的处理顺序后，获取处理依赖信息包含的计算逻辑(该计算逻辑为ETL作业组件中基于Apache Beam技术封装的满足ETL计算要求的计算逻辑)，根据计算逻辑在大数据集群的分布式引擎上按照确定的处理顺序处理数据流处理对象。

参照图5，图5为本发明组件化大数据处理方法一实施例的框架示意图。

本实施例中，最底层是作业组件模块01，其中包括ETL常用的功能组件。这些组件封装的计算逻辑基本可以覆盖各种ETL需求，通过配置，可以组合编排出适用于各种场景的ETL作业，且支持不同的大数据计算引擎(包括但不限于Spark，Flink，Cloud DataFlow等)。

作业组件模块01，包括且不限于输入组件(包括且不限于文本输入组件，表输入组件，excel输入组件等)，输出组件(包括且不限于文本输出组件，表输入组件等)，校验组件，转换组件(包括且不限于字符串替换组件，值映射组件，字段选择组件等)，连接组件(包括且不限于合并记录组件，记录集连接组件等)，这些组件已经可以满足大多数的ETL计算需求，并且能够支持不同的大数据计算引擎(包括但不限于Spark，Flink，Cloud DataFlow等)。

第二层是作业运行模块02，主要负责作业在大数据集群中的运行和调度。

作业运行模块02，包括作业解析021，作业执行022以及作业调度023。

作业解析021，主要负责解析作业中各个组件之间的连接关系和执行顺序；

作业执行022，主要负责按照组件设置好的计算规则，以及作业解析模块的解析的执行顺序和规则，在大数据集群中进行ETL作业的计算；

作业调度203，主要负责在大数据集群中的ETL作业调度，利用大数据组件自身的调度机制对于提交的ETL作业进行调度。

第三层是作业运维模块03，主要负责作业任务的保存，删除，作业执行周期设置，作业提交以及作业的状态监控。

作业运维模块03，包括作业操作031，作业提交032，以及作业监控033。

作业操作031，包括且不限于作业新增，作业保存，作业删除，作业执行周期设置等；

作业提交模块032，主要负责作业的提交，将用户保存好的ETL任务配置以及对应的依赖信息按照大数据组件的要求打包，进行作业提交。2任务提交后开始进行大数据集群内的计算；

作业监控033，主要负责监控作业在大数据集群中的执行状态和执行结果。

第四层是用户界面模块04，主要实现图形化可拖拽组件功能，用户通过简单拖拽配置即可编排ETL作业。

用户界面模块，主要负责提供图形化的作业编排工具，用户可以通过拖拽组件图标和连线的方式完成ETL作业的编排，不需要任何硬编码，通过界面配置可以完成ETL作业的设置。

本发明中，当接收到基于用户操作触发的编排命令时，根据该编排命令生成ETL作业，将ETL作业提交至大数据集群，当接收到执行命令时，在大数据集群的分布式引擎中运行ETL作业。通过本发明技术方案，支持ETL作业在大数据集群上执行，充分利用大数据集群的分布式计算能力进行数据处理，满足处理海量数据的要求，解决了现有的内存式ETL工具使用内存计算存在的效率瓶颈；将大部分ETL计算进行抽象、封装和组件化，同时提供可视化编辑界面，用户通过简单操作即可完成ETL作业编排，大大降低了技术难度，解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题，简化用户操作，提高用户使用体验；兼容常见的多种大数据计算引擎(包括但不限于Spark，Flink，Cloud DataFlow等)，解决了现有的非组件化大数据ETL技术需要针对不同的大数据计算引擎分别实现、通用性差的问题。

进一步的，在本发明组件化大数据处理方法一实施例中，步骤S10包括：

在本实施例中，可以是在终端上的用户界面呈现有使用Apache Beam技术封装了一系列满足各种ETL计算要求对应的计算逻辑的各种ETL作业组件，包括但不限于输入组件(包括且不限于文本输入组件，表输入组件，excel输入组件等)，输出组件(包括且不限于文本输出组件，表输入组件等)，校验组件，转换组件(包括且不限于字符串替换组件，值映射组件，字段选择组件等)，连接组件(包括且不限于合并记录组件，记录集连接组件等)，这些组件已经可以满足大多数的ETL计算需求，并且能够支持不同的大数据计算引擎(包括但不限于Spark，Flink，Cloud DataFlow等)。

用户通过使用鼠标将需要的ETL作业组件拖拽至一定位置，如图3所示，图3为编排ETL作业组件一实施例的场景示意图。基于用户的拖拽操作触发了编排命令，编排命令对应的ETL作业组件包括：文本输入组件、字段选择组件、文本输出组件；根据编排命令确定对ETL作业组件进行处理的处理流程(即执行顺序)为：首先是文本输入组件，然后是字段选择组件，最后是文本输出组件。本实施例中，用户可根据实际需要选择相应的ETL作业组件，并对选择的ETL作业组件进行编排，同时用户还可添加一些配置信息，例如源数据(即待提取的数据)的位置信息，根据用户对ETL作业组件的编排工作及添加的配置信息，生成对应的ETL作业。

在本实施例中，接收基于用户操作触发的编排指令，对ETL作业组件进行编排，从而生成对应的ETL作业。解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题，使得用户可以通过简单的操作完成ETL作业的生成工作，提高用户使用体验。

进一步，在本发明一实施例中，所述ETL作业组件中包含基于Apache Beam技术封装的满足ETL计算要求的计算逻辑。

在本实施例中，Apache Beam技术，用于定义和执行数据并行处理管道(pipeline)，这些管道随带一套针对特定语言的SDK用于构建管道(支持的语言包含也不限于java，python等)，以及针对特定运行时环境的Runner用于执行管道(支持的运行环境包括且不限于Spark，Flink，Cloud DataFlow等)。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限、乱序、web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。基于Apache Beam开发的计算逻辑可以执行在任意的分布式计算引擎上。系统中通过使用Apache Beam提供的模板Beam Model，在其每一步中根据业务需求按照数据计算方法，数据计算范围，结果输出时机，迟到数据处理几个维度调用对应的API即可生成分布式数据处理Pipeline，实现具体的组件计算逻辑。所述的Pipeline，即管道，包装数据处理流程任务。作为一个ETL作业，它包含一系列的Pcollection，Transform，还包含了I/O Source and Sink，这些内容组成了一整套计算逻辑。所述的Pcollection，作为分布式数据集，Pcollection是管道中每个步骤的输入、输出。即ETL处理的步骤间数据集。所述的Transform，作为管道中的每个步骤，它接收一个或者若干个输入Pcollection，进行处理后，输出Pcollection，即封装处理逻辑的组件。综上，基于Apache Beam技术开发的一系列包含处理逻辑和关联关系的组件，封装的计算逻辑基本可以覆盖各种ETL需求，这些组件可以任意组合，生成满足各种需求的ETL作业，并且可以将ETL作业提交至多种大数据计算引擎中运行(包括但不限于Spark、Hive、Impala等)。

本实施例中，将基于Apache Beam技术生成的满足ETL计算要求的计算逻辑封装于ETL作业组件中，一方面简化了用户操作，使得用户可以通过简单的操作完成ETL作业的生成工作，提高用户使用体验；另一方面使得ETL作业可提交至多种大数据计算引擎中运行。

进一步，在本发明组件化大数据处理方法一可选实施例中，步骤S20包括：

在本实施例中，根据ETL作业生成对应的配置文件，将配置文件及相关的处理依赖信息提交大数据集群。该配置文件为符合ETL作业在大数据集群的分布式引擎中运行处理规则的配置文件，例如XML格式的文件，处理依赖信息为处理该配置文件所必需的信息，包含了解析配置文件所需的解析逻辑，以及在大数据集群上运行ETL作业所需的计算逻辑，该计算逻辑为基于Apache Beam技术生成的满足ETL计算要求的计算逻辑，其封装于ETL作业组件中。

在本实施例中，将ETL作业以配置文件及相关处理依赖信息的形式提交至大数据集群，以供在大数据集群上对配置文件进行解析，获取ETL组件中封装的计算逻辑，从而在大数据集群的分布式引擎中根据计算逻辑运行ETL作业，充分利用大数据集群的分布式引擎的计算能力进行数据处理，满足处理海量数据的要求。

进一步，在本发明组件化大数据处理方法一实施例中，步骤S30之后包括：

在本实施例中，可以是每隔10分钟(该时间可根据实际需要进行设置，在此不作限制)获取一次ETL作业在大数据集群的分布式引擎中的运行状态(例如完成进度、运行过程正常或异常等状态)，并将运行状态对应的状态信息输出，例如显示在终端显示屏上，又或者是以声音的形式进行输出，起到告知客户的作用。

进一步，在本发明组件化大数据处理方法另一可选实施例中，步骤S30之后还包括：

在本实施例中，当ETL作业在大数据集群的分布式引擎中运行完成时，大数据集群向终端反馈一个完成信息，终端接收到该反馈，在屏幕上显示“ETL作业运行完成”字样，或通过声音输出该信息，以供提示用户。

此外，本发明还提供一种终端。

参照图6，图6为本发明终端一实施例的功能模块示意图。

在一实施例中，终端包括：

生成模块10，用于接收用户的编排命令，根据所述编排命令生成ETL作业；

提交模块20，用于将所述ETL作业提交至大数据集群；

发送模块30，发送执行命令至大数据集群，以供在大数据集群的分布式引擎中运行所述ETL作业。

参照图7，图7为本发明大数据集群一实施例的功能模块示意图。

在一实施例中，大数据集群包括：

接收模块40，用于接收终端提交的ETL作业；

运行模块50，用于当接受到终端发送的执行命令时，在大数据集群的分布式引擎上运行所述ETL作业。

进一步，在本发明终端一实施例中，生成模块10包括：

确定单元，用于接收用户的编排命令，根据所述编排命令从用户操作界面确定对应的ETL作业组件；

生成单元，用于根据所述编排命令确定所述ETL作业组件的执行顺序，生成ETL作业。

进一步，在本发明终端一实施例中，提交模块20包括：

配置文件生成单元，用于根据所述ETL作业生成对应的配置文件；

提交单元，用于将所述配置文件及相关的处理依赖信息提交至大数据集群。

进一步，在本发明终端一实施例中，终端还包括：

第一输出模块，用于定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态，并输出所述运行状态对应的状态信息。

进一步，在本发明终端一实施例中，终端还包括：

第二输出模块，用于当所述ETL作业在所述大数据集群的分布式引擎中运行完成时，接收来自大数据集群反馈的完成信息，根据所述完成信息，输出提示信息。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有组件化大数据处理程序，所述组件化大数据处理程序被处理器执行时实现如上所述的组件化大数据处理方法的步骤。

本发明计算机可读存储介质的具体实施例同上述组件化大数据处理方法的各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种组件化大数据处理方法，其特征在于，包括：

接收用户的编排命令，根据所述编排命令生成ETL作业；

将所述ETL作业提交至大数据集群；

2.如权利要求1所述的组件化大数据处理方法，其特征在于，所述接收用户的编排命令，根据所述编排命令生成ETL作业包括：

3.如权利要求2所述的组件化大数据处理方法，其特征在于，所述ETL作业组件中包含基于Apache Beam技术封装的满足ETL计算要求的计算逻辑。

4.如权利要求1所述的组件化大数据处理方法，其特征在于，所述将所述ETL作业提交至大数据集群包括：

5.如权利要求1所述的组件化大数据处理方法，其特征在于，该方法还包括：

6.如权利要求1所述的组件化大数据处理方法，其特征在于，该方法还包括：

7.一种组件化大数据处理系统，其特征在于，所述组件化大数据处理系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的组件化大数据处理程序，所述组件化大数据处理程序被所述处理器执行时实现如下步骤：

接收用户的编排命令，根据所述编排命令生成ETL作业；

将所述ETL作业提交至大数据集群；

8.如权利要求7所述的组件化大数据处理系统，其特征在于，所述组件化大数据处理程序被所述处理器执行时还实现如下步骤：

9.如权利要求7所述的组件化大数据处理系统，其特征在于，所述组件化大数据处理程序被所述处理器执行时还实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有组件化大数据处理程序，所述组件化大数据处理程序被处理器执行时实现如权利要求1至6中任一项所述的组件化大数据处理方法的步骤。