CN109918437A

CN109918437A - 分布式数据处理方法、装置及数据资产管理系统

Info

Publication number: CN109918437A
Application number: CN201910178282.7A
Authority: CN
Inventors: 顾世嘉; 祝军; 李新宅; 王涛; 宗远航; 许振东
Original assignee: CNPC Beijing Richfit Information Technology Co Ltd
Current assignee: CNPC Beijing Richfit Information Technology Co Ltd
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2019-06-21

Abstract

本发明提供一种分布式数据处理方法、装置及数据资产管理系统。方法包括：基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件、数据转换组件及数据加载组件，其中，数据抽取组件用于从源数据库中获取待处理数据，数据转换组件用于对待处理数据按照预设执行策略进行处理，数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中；根据第一操作指令中携带的配置参数、数据抽取组件、数据转换组件及数据加载组件构建配置文件；基于配置文件创建ETL任务，能够改善现有技术中因对不同功能需求需要用户单独开发程序代码而使得ETL任务创建的效率低的技术问题。

Description

分布式数据处理方法、装置及数据资产管理系统

技术领域

本发明涉及数据通信技术领域，具体而言，涉及一种分布式数据处理方法、装置及数据资产管理系统。

背景技术

大数据应用的发展为数据仓库技术(Extract-Transform-Load，简称ETL)软件的发展提供了机遇。大数据环境下的ETL系统，负责将分散的、异构数据源中的数据抽取到大数据处理平台系统后，通过相应的处理后，最后加载到数据仓库中，为联机分析处理、数据挖掘提供决策支持。在现有技术中，在创建ETL任务时，需要设计人员根据数据处理的应用场景或需要实现的功能编写程序，由于使用场景的不同或需求功能不同，导致代码的复用率较低，因此，对于不同功能需求需要设计人员单独开发程序代码，从而使得ETL任务创建的效率低。

发明内容

本发明实施例提供一种分布式数据处理方法、装置及数据资产管理系统。

为了实现上述目的，本发明实施例所提供的技术方案如下所示：

第一方面，本发明实施例提供一种分布式数据处理方法，所述方法包括：

基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与所述第一操作指令对应的数据抽取组件及数据加载组件，其中，所述数据抽取组件用于从源数据库中获取待处理数据，所述数据加载组件用于将所述待处理数据经处理后得到的数据加载到目标数据库中；

根据所述第一操作指令中携带的配置参数、所述数据抽取组件及所述数据加载组件构建配置文件；

基于所述配置文件创建ETL任务。在本实施例提供的方法中，在创建ETL任务时，可以根据功能需求而选择相应的组件，以创建出ETL任务，有助于提高组件的重复使用的频率，无需对不同的功能组合单独进行编程，从而改善现有技术中因对不同功能需求需要用户单独开发程序代码而使得ETL任务创建的效率低的技术问题。

结合第一方面，在一些可选的实施方式中，在从预先存储的组件集中确定出与所述第一操作指令对应的数据抽取组件及数据加载组件之前，所述方法包括：

接收用户终端发送的所述第一操作指令，其中，所述第一操作指令为基于用户在所述用户终端上的用户界面上进行创建操作生成的，所述用户界面包括与所述组件集对应的界面区域以及参数配置界面，所述界面区域用于供用户对所述组件集中的组件进行选择，所述参数配置界面用于供用户输入所述配置参数。在本实施例提供的方法中，用户可以根据用户终端的用户界面所呈现的组件，组合相应的组件以及设置相应的配置参数，无需用户开发源代码便能够实现ETL任务的创建，从而有助于提升创建ETL任务的效率。

结合第一方面，在一些可选的实施方式中，所述方法还包括：

在接收到执行所述ETL任务的指令时，获取所述配置文件；

根据所述配置参数运行所述配置文件中的所述数据抽取组件及所述数据加载组件；

基于运行所述数据抽取组件及所述数据加载组件后得到的输出结果确定出所述ETL任务的执行结果。本实施例提供的方法可以由BS架构中的服务器执行ETL任务，由服务器承担执行ETL的压力，有助于减少用户终端的处理压力，因为服务器的处理性能通常高于用户终端的处理性能，所以有助于增大执行ETL任务时所处理的数据的数据量，从而提高执行ETL任务的效率。

结合第一方面，在一些可选的实施方式中，所述组件集还包括数据转换组件，所述数据转换组件包括：用于执行过滤、集合、排序、字段映射、去重中的至少一种操作的数据转换组件。在本实施例提供的方法中，当需要对待处理数据进行过滤、集合、排序、字段映射、去重中的至少一种操作时，用户可以根据实际功能需求从上述的组件中选择出数据转换组件，方便用户创建ETL任务。

监听执行所述ETL任务对应的日志记录，所述日志记录包括执行所述ETL任务的开始时间、执行完所述ETL任务的结束时间、表征所述ETL任务执行成功或失败的所述执行结果、表征执行出错的错误日志中的至少一种。在本实施例提供的方法中，通过监听日志记录，便于用户通过日志记录查看ETL任务的执行情况，方便用户基于日志记录优化执行ETL任务的操作。

接收表征用于对数据资产进行管理查询的第二操作指令；

响应所述第二操作指令，以从所述源数据库或所述目标数据库中查询与所述第二操作指令对应的数据，并将查询得到的所述数据通过用户终端进行显示。在本实施例提供的方法中，用户能够通过第二操作指令查询数据，方便用户对数据资产进行管理查询，有助于用户根据查询后的数据优化执行ETL任务的操作。

基于所述待处理数据及所述待处理数据经处理后得到的数据，生成并存储数据血缘信息。在本实施例提供的方法中，用户可以通过数据血缘信息查找待处理数据及待处理数据经处理后得到的数据，方便用户对数据进行分析。

第二方面，本发明实施例还提供一种分布式数据处理装置，所述装置包括：

组件确定单元，用于基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与所述第一操作指令对应的数据抽取组件及数据加载组件，其中，所述数据抽取组件用于从源数据库中获取待处理数据，所述数据加载组件用于将所述待处理数据经处理后得到的数据加载到目标数据库中；

配置文件构建单元，用于根据所述第一操作指令中携带的配置参数、所述数据抽取组件及所述数据加载组件构建配置文件；

任务创建单元，用于基于所述配置文件创建ETL任务。

第三方面，本发明实施例还提供一种数据资产管理系统，包括服务器及安装有浏览器的用户终端，其中，所述用户终端用于向所述服务器发送第一操作指令，所述第一操作指令为基于用户在所述用户终端上的用户界面上进行创建操作生成的，所述用户界面包括与组件集对应的界面区域以及参数配置界面，所述界面区域用于供用户对所述组件集中的组件进行选择，所述参数配置界面用于供用户输入所述配置参数；

所述服务器包括相互耦合的存储模块、处理模块、通信模块，所述存储模块内存储计算机程序，当所述计算机程序被所述处理模块执行时，使得所述服务器执行上述的分布式数据处理方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述的分布式数据处理方法。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的数据资产管理系统的方框示意图。

图2为本发明实施例提供的服务器的方框示意图。

图3为本发明实施例提供的分布式数据处理方法的流程示意图。

图4为本发明实施例提供的用户终端的显示界面的方框示意图之一。

图5为本发明实施例提供的用户终端的显示界面的方框示意图之二。

图6为本发明实施例提供的分布式数据处理装置的方框示意图。

图标：10-数据资产管理系统；20-服务器；21-处理模块；22-通信模块；23-存储模块；30-用户终端；100-分布式数据处理装置；110-组件确定单元；120-配置文件构建单元；130-任务创建单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

鉴于上述问题，本申请发明人经过长期研究探索，提出以下实施例以解决上述问题。下面结合附图，对本发明实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，本发明实施例提供一种数据资产管理系统10，能够用于创建数据抽取转换加载(Extract-Transform-Load，简称ETL)任务，以及执行ETL任务。该数据资产管理系统10可以采用分布式部署的浏览器/服务器20(Browser/Server，简称B/S)架构构建而成，可以包括服务器20及安装有浏览器的用户终端30。其中，服务器20可以通过网络与用户终端30建立通信连接以进行数据交互。

可理解地，分布式部署的架构中包括多个服务节点。用于执行下述分布式数据处理方法的服务器20作为架构中的一个服务节点，当该服务器20出现宕机或其他故障时，可以由分布式部署架构中的其他服务节点来替代该服务器20，从而提高系统的稳健性。

其中，用户终端30可以是，但不限于，智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobileInternet device，MID)等。网络可以是，但不限于，有线网络或无线网络。

在本实施例中，用户(该用户可以为普通用户或者开发设计人员)可以利用用户终端30中的浏览器输入相应的网址进入数据管理界面，然后基于数据管理界面进行ETL任务创建操作或执行其他管理操作。

作为一种可选的实施方式，用户可以通过注册用户账户，然后登陆该用户账户的方式进入上述的数据管理界面。然后再基于数据管理界面执行相应的操作，比如创建ETL任务。

请参照图2，在本实施例中，服务器20可以包括处理模块21、通信模块22、存储模块23以及分布式数据处理装置100，处理模块21、通信模块22、存储模块23以及分布式数据处理装置100各个元件之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

处理模块21可以是一种集成电路芯片，具有信号的处理能力。该处理模块21可以是通用处理器。例如，该处理器可以是中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。

通信模块22用于通过网络建立服务器20与用户终端30的通信连接，并通过网络收发数据。

存储模块23可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块23可以用于存储配置文件、ETL任务等，其中，配置文件中包括数据抽取组件、数据转换组件及数据加载组件。当然，存储模块23还可以用于存储程序，处理模块21在接收到执行指令后，执行该程序。

进一步地，分布式数据处理装置100包括至少一个可以软件或固件(firmware)的形式存储于存储模块23中或固化在服务器20操作系统(operating system，OS)中的软件功能模块。处理模块21用于执行存储模块23中存储的可执行模块，例如分布式数据处理装置100所包括的软件功能模块及计算机程序等。

可以理解的是，图2所示的结构仅为服务器20的一种结构示意图，服务器20还可以包括比图2所示更多或更少的组件。图2中所示的各组件可以采用硬件、软件或其组合实现。

请参照图3，本发明实施例还提供一种分布式数据处理方法。分布式数据处理方法可以应用于上述的服务器20中，由服务器20执行或实现该分布式数据处理方法，有助于提高创建ETL任务的效率。

在本实施例中，分布式数据处理方法可以包括以下步骤：

步骤S210，基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件及数据加载组件，其中，数据抽取组件用于从源数据库中获取待处理数据，数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中；

步骤S220，根据第一操作指令中携带的配置参数、数据抽取组件及数据加载组件构建配置文件；

步骤S230，基于配置文件创建ETL任务。

下面将对图3所示的分布式数据处理方法的各步骤进行详细阐述：

步骤S210，基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件及数据加载组件，其中，数据抽取组件用于从源数据库中获取待处理数据，数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中。

在本实施例中，待创建的ETL任务为用户需要进行设计的ETL任务，可以由用户根据实际情况而确定。服务器20中预先存储有组件集，组件集通常可以包括多个数据抽取组件、多个数据转换组件及多个数据加载组件。服务器20在接收到第一操作指令时，便可以根据第一操作指令中携带的信息从组件集中确定出与当前需要创建的ETL任务对应的数据抽取组件及数据加载组件，或者确定出与当前需要创建的ETL任务对应的数据抽取组件、数据转换组件及数据加载组件。其中，数据转换组件用于对待处理数据执行过滤、选列、集合操作、排序、字段映射、去重、控制处理等操作。

在本实施例中，第一操作指令中携带的信息中包括ETL任务与数据抽取组件、数据转换组件及数据加载组件的关联关系。可理解地，在确定了ETL任务后，可以基于该关联关系确定出与该ETL任务对应的数据抽取组件、数据转换组件及数据加载组件。该关联关系可以为映射关系，比如，每个ETL任务设置有相应的第一标识码，每个组件集中的组件也设置有相应的第二标识码，第一标识码与第二标识码可以一一映射，从而建立映射关系。基于该映射关系，在确定了第一标识码后，便能确定出与第一标识码对应的第二标识码。即，在确定了ETL任务后，便可以确定出与该ETL任务对应的数据抽取组件、数据转换组件及数据加载组件。

其中，源数据库包括但不限于HDFS、JDBC、Hive、HBase、Elasticsearch等数据库。目标数据库包括但不限于HDFS、JDBC、Hive、HBase、Elasticsearch等数据库。数据抽取组件包括但不限于用于抽取HDFS、JDBC、Hive、HBase、Elasticsearch等源数据库的数据抽取组件。数据转换组件包括但不限于用于对待处理数据执行过滤、选列、集合操作、排序、字段映射、去重、控制处理等操作的组件。数据加载组件包括但不限于将处理后的数据加载到HDFS、JDBC、Hive、HBase、Elasticsearch等目标数据库的组件。可理解地，不同的源数据库所对应的数据抽取组件可以不相同，不同的目标数据库所对应的数据加载组件也可以不相同。

作为一种可选的实施方式，在步骤S210之前，方法还可以包括：接收用户终端30发送的第一操作指令，其中，第一操作指令为基于用户在用户终端30上的用户界面上进行创建操作生成的，用户界面包括与组件集对应的界面区域以及参数配置界面，界面区域用于供用户对组件集中的组件进行选择，参数配置界面用于供用户输入配置参数。

在本实施例中，若用户需要创建ETL任务，用户可以通过用户终端30的浏览器登录预先注册的用户账户，该用户账户可以为用于创建ETL任务所对应的应用程序的账户。用户在登录该账户后，可以通过拖动浏览器中的表征各类组件的图标在线创建ETL任务，基于此，用户可以无需针对各功能单独编写程序代码，从而提高创建任务的效率。另外，用户可以通过预先编程好的组件来创建ETL任务，而各组件可以重复使用，有助于提高代码的复用率。

请结合参照图4和图5，其中，图4所示的显示界面可以为用户登录账户后，用户终端30所呈现的功能界面，功能界面中可以包括“ETL任务设计”、“ETL任务调试”、“ETL任务调度”、“数据资产管理”、“日志管理”等窗口界面。图5所示的显示界面可以为用户点击图4中所示的“ETL任务设计”界面区域后，用户终端30所呈现的功能界面。其中，“ETL任务设计”界面区域用于用户在点击该界面区域后进入ETL任务设计的显示界面，在其他实施方式中，该界面区域可以为不同于图4所示的“ETL任务设计”，可以为其他字符或图标，这里不作具体限定。

其中，图5中所示的数据抽取组件A/B/C可以为用于抽取HDFS、JDBC、Hive、HBase、Elasticsearch等源数据库的组件簇中的任一组件，数据转换组件A/B/C可以为用于对待处理数据执行过滤、选列、集合操作、排序、字段映射、去重、控制处理等操作的组件簇中的任一组件。数据加载组件A/B/C可以为用于将处理后的数据加载到HDFS、JDBC、Hive、HBase、Elasticsearch等目标数据库的组件簇中的任一组件。

当用户需要创建ETL任务时，用户在登录账户后，可以点击如图4所示的“ETL任务设计”界面区域，然后显示界面切换为图5所示的显示界面。用户可以在图5所示的显示界面上，可以基于需要创建的ETL任务，拖拽相应的组件，以生成第一操作指令。例如，若需要构建的ETL任务需要拖拽数据抽取组件A、数据转换组件B以及数据加载组件C，那么用户在创建该ETL任务时，可以直接在浏览器对应的显示界面上拖拽数据抽取组件A、数据转换组件B以及数据加载组件C，然后设置配置参数(比如该配置参数可以为用于开始执行该ETL任务的一个预设时刻，当到了这预设时刻服务器20便开始执行该ETL任务，该预设时刻可以根据实际情况而设置)，用户终端30可以基于用户的操作生成第一操作指令，以使服务器20基于第一操作指令确定出用于构建ETL任务的组件，然后，服务器20基于确定出的组件创建ETL任务。

需要说明的是，上述创建ETL任务所需要的组件为数据抽取组件A、数据转换组件B以及数据加载组件C。在创建其他的ETL任务中，用户也可以通过拖拽其他组件来创建其ETL任务，这里对拖拽的具体组件不作限定。

步骤S220，根据第一操作指令中携带的配置参数、数据抽取组件及数据加载组件构建配置文件，基于配置文件创建ETL任务。

在本实施例中，配置参数可以包括但不限于用于控制任务的调度方式的参数。例如，服务器20基于该配置参数每隔预设时长从任务流中获取一个ETL任务并执行该任务。或者，服务器20基于该配置参数在预设时刻从任务流中获取一个ETL任务并执行该任务。其中，预设时长及预设时刻便为配置参数，可以根据实际情况而设置，当然，该配置参数也可以报文其他参数，这里不作具体限定。

服务器20在接收到第一操作指令后，可以基于第一操作指令携带的配置参数及基于第一操作指令确定出的各类组件，生成配置文件。用户利用图形界面进行ETL任务设计，将接口和操作封装，无需编程。即，无需用户再单独编写代码也可以生成用于创建ETL任务的程序代码，从而有助于提高创建ETL任务的效率。

步骤S230，基于配置文件创建ETL任务。

在本实施例中，服务器20可以基于配置文件所实现的功能而创建ETL任务。每个ETL任务与一个配置文件相对应，比如，每个ETL任务映射一个配置文件，该配置文件可以用于执行该ETL任务。可理解地，配置文件所能实现的功能即可组合成一个ETL任务，该ETL任务可以设置有相应的任务标识码，以便于查找和区分，配置文件也可以设置文件标识码，以便于与任务标识码进行关联。该任务标识码或文件标识码可以根据实际情况而设置，可以为数字或字符串，这里不作具体限定。

基于上述设计，用户在创建ETL任务时，可以根据功能需求而选择相应的组件，以创建出ETL任务，有助于提高组件的重复使用的频率，无需对不同的功能组合单独进行编程，从而改善现有技术中因对不同功能需求需要用户单独开发程序代码而使得ETL任务创建的效率低的技术问题。

作为一种可选的实施方式，方法还可以包括执行ETL任务的步骤。例如，方法还可以包括：在接收到执行ETL任务的指令时，获取配置文件；根据配置参数运行配置文件中的数据抽取组件及数据加载组件；基于运行数据抽取组件及数据加载组件后得到的输出结果确定出ETL任务的执行结果。

在本实施例中，创建完ETL任务后，可以将该ETL任务加入到任务流中，该任务流可以理解为用于存储ETL任务的数据结构，比如可以为队列或栈。在B/S架构中，当需要执行ETL任务时，服务器20可以从任务流中获取ETL任务，然后基于ETL任务对应的配置文件执行该任务。

例如，ETL任务的配置文件表征该ETL任务需要数据抽取组件A、数据转换组件B以及数据加载组件C来执行，那么服务器20在获取了该ETL任务后，便会根据该ETL任务确定出数据抽取组件A、数据转换组件B以及数据加载组件C，然后运行数据抽取组件A、数据转换组件B以及数据加载组件C。其中，数据抽取组件A可以用于从上述的源数据库中抽取出数据以作为待处理数据，该待处理数据包括但不限于表项信息、订单信息等。数据转换组件B可以对待处理数据进行过滤、集合、排序、字段映射、去重等至少一项操作，然后得到处理后的数据。数据加载组件C可以将处理后的数据加载到目标数据库中进行存储记录。

其中，过滤可理解为服务器20可以根据用户设置的过滤规则对待处理数据进行过滤，过滤规则可以由用户根据实际情况情况而设置。例如，若待处理数据包括多个数字，过滤规则可以为通过设置相应的阈值范围，保留数值在阈值范围中的数字，删除不在阈值范围中的数字，当然，过滤规则可以是其他规则，这里不作具体限定。

集合可以可理解为服务器20可以根据用户设置的集合规则对待处理数据进行集合分类，例如同一类型的数据或同一时段内的数据可以作为一个集合，这里对集合规则不作具体限定。

排序可以可理解为服务器20可以根据用户的设置的排序规则对待处理数据进行排序。例如，排序规则可以为根据数据生成的时间顺序排序、或者根据数字的大小顺序排序、或者根据数据的重要等级进行排序等，这里对排序规则不作具体限定。

字段映射可以可理解为服务器20可以根据用户的设置的映射规则对待处理数据进行映射。例如，用户可以设置数据A映射后为数据C，数据B映射后为数据E，这里对映射规则不作具体限定。

去重可以理解为服务器20可以根据用户设置去重规则对待处理数据进行去重。例如，若待处理数据中，包括相同的数据，则保留一个或两个这数据。可理解地，去重规则可以根据实际情况而设置，这里不作具体限定。

每个组件在运行后，可以输出相应的执行结果。例如，数据抽取组件A可以输出表征数据抽取正常的或异常的数据抽取结果，数据转换组件B可以输出表征数据转换正常或异常的转换结果，数据加载组件C可以输出表征数据加载正常或异常的加载结果。若任意一项结果存在异常，则该ETL任务的执行结果通常也就为异常的结果。

具体地，例如，在数据抽取时，没有从相应的源数据库抽取到数据，那么便确定数据抽取结果异常。在数据转换处理时，若没有将待处理数据成功转换为处理后的数据，则确定转换结果异常。例如，在去重时，去重规则设定：在有多个相同的元数据时，仅需要保留相同的多个元数据中的一个元数据，此时转换结果正常。若检测到处理后的数据中存在至少一组包括至少两个相同的元数据，那么便认为该转换结果异常。在数据加载时，若处理后的数据没有加载到指定的数据库中，那么便确定加载异常。

用户可以通过执行结果来分析ETL任务在执行过程中的执行情况，基于此，便于用户直观地了解该ETL任务是否成功完成执行。另外，确定出来的执行结果有助于用户对执行ETL任务的过程进行优化，以减少出现执行异常的情况出现。

在分布式B/S架构中，若由分布式B/S架构中的服务器20来执行上述的方法。此时，服务器20便承担数据处理的压力，从而可以减少用户终端30数据处理的压力。而服务器20数据处理的性能通常高于用户终端30的性能，因此，由服务器20承担执行ETL任务时，有助于提高执行ETL任务的效率。另外，若ETL任务所处理的数据量较大，可以通过增加服务器20的数量的方式，来对ETL任务进行处理。也就是可以由多个服务器20来执行ETL任务，从而提升数据处理的效率。

作为一种可选的实施方式，方法还可以包括：监听执行ETL任务对应的日志记录。日志记录包括但不限于执行ETL任务的开始时间、执行完ETL任务的结束时间、表征ETL任务执行成功或失败的执行结果、表征执行出错的错误日志中等。

用户可以通过用户终端30上的浏览器查看上述日志记录，以便于对ETL任务的执行情况或创建情况进行分析，进而对数据资产进行优化管理。例如，用户可以通过图表方式方管理ETL流程，实时查看ETL流程的状态并捕获错误信息。ETL流程可以包括创建ETL任务的过程及执行ETL任务的过程。若在创建过程中出现异常，用户可以对创建过程进行优化，以减少后期在创建ETL任务过程中出现继续相同异常的情况。

作为一种可选的实施方式，方法还可以包括：接收表征用于对数据资产进行管理查询的第二操作指令；响应第二操作指令，以从源数据库或目标数据库中查询与第二操作指令对应的数据，并将查询得到的数据通过用户终端30进行显示。

在本实施例中，服务器20在执行完ETL任务后，会将待处理数据经处理后得到的数据进行存储记录。处理后的数据可以录入到目标数据库中。其中，目标数据库可以存储到本地服务器20或存储到其他服务器20中。用户可以根据需求查看处理后的数据，以便于对数据资产进行管理控制。

在分布式B/S架构中，可以包括多个相互通信连接的服务器20。用于执行上述分布式数据处理方法的服务器20可以为分布式B/S架构中的一个或多个服务器20。例如，在执行ETL任务时，若ETL任务的所处理的数据量较大，那么可以通过多个服务器20来执行该ETL任务，以提高数据处理的效率，基于此，能够改善单机运行处理数据导致能够处理的数据的最大数据量受限的技术问题。

作为一种可选的实施方式，方法还可以包括：基于待处理数据及待处理数据经处理后得到的数据，生成并存储数据血缘信息。

在本实施例中，数据血缘信息可以以图像的形式进行呈现。用户可以通过数据血缘信息查找待处理数据及待处理数据经处理后得到的数据，方便用户对数据进行分析。比如，数据资产管理可以清晰展示数据结构，便于理解数据内容。血缘关系图(即数据血缘信息)能帮助理清数据的来龙去脉，便于查找错误数据的错误来源和影响范围，以便于用户根据血缘关系图对数据进行优化，以减少错误数据出现的情况。

下面将举例阐述分布式数据处理方法的实现原理：

例如，数据资产管理系统10可以采用B/S架构，并部署Spark集群，Spark集群可理解为基于内存计算和迭代计算的分布式大数据处理平台。用户提交的ETL任务，其中主要的数据处理工作在这个平台上完成。Server端使用jetty作为web服务器20，服务器20依托Spark集群进行分布式数据处理，Spark集群使用Standalone调度模式。另外，服务器20可以包括Mysql数据库和Neo4j图数据库。Mysql数据库可以用来存储用户信息、日志、本系统配置文件，Neo4j图数据库用来存储元数据和数据血缘关系。

执行一个ETL的流程可以如下：

第一步，首先用户在浏览器web页面上通过拖拽控件的方式设计完整的ETL任务(可以包含一个数据抽取组件、一个数据转换组件和一个数据加载组件)，系统自动根据用户需要设计的ETL任务生成json格式的配置文件。

第二部，用户定义调度，设计此ETL任务的调度方式和策略。在调度ETL任务的时候，可以定义在预设时刻把ETL任务提交到Spark集群。之后由Spark集群执行ETL任务。

第三步，ETL任务执行的时候，根据配置文件中的定义，控制整个ETL流程的数据流向并调用相应的组件处理数据。

第四步，ETL任务执行完毕(不论成功或失败)后会向监控模块主动发送消息，告知本次ETL任务的执行情况。

其中，第一步ETL任务流程设计是前端提供的一个可视化设计页面，可以拖动需要的组件，可以用线条连接两个组件，表示它们的数据流向。系统会自动根据用户的设计，生成配置文件，存到数据库；用户设计好ETL任务流程后进入ETL调试部分来验证自己设计的是否正确。开始调试后，本系统提交一个ETL任务到Spark集群，ETL任务读取数据库中的配置文件，根据配置文件执行。比如，此ETL任务的抽取组件只抽取不大于1000条数据。对于每一个成功运行的组件，都返回不大于10条数据展示给用户，对于运行失败的组件，会返回其失败信息展示给用户。

第二步中用户定义调度时，可以由服务器20中的调度模块来实现。调度模块用于设计工作流和其调度策略，工作流中可以包含一个或多个ETL任务设计、shell脚本，通过组件间的连线定义组件的依赖关系，例如a、b两个组件有指向c组件的线条，说明c的执行需要依赖于a、b，因此执行a、b全部执行成功时调度模块才会执行c。另外，服务器20还可以包括一个名为“任务失败策略”的特殊组件，它不会执行，只是代表它前一个组件执行失败时才要执行它后一个组件。例如这个组件为e，f依赖于e，e依赖于d，那么当组件d失败时，会执行组件f。调度策略包含手动、定时和周期三种，手动代表每一次执行都是由用户自己手动操作使工作流执行；定时表示会在设定的时间执行一次工作流，之后不会再执行；周期表示在设定的开始时间和结束时间之间的时间段，根据设定多次执行(比如，使用cron表达式设定周期)。

第三步ETL任务的执行：从数据库取得配置文件后，再从外部文件读取组件与类名的映射关系，之后根据配置文件中组件的类别和数据流向整理组件的执行顺序，按顺序执行每一个组件。每一个组件都根据配置文件中的组件名获取对应的类名，利用反射得到类的实例，调用此实例的方法，这个方法会根据此组件的参数对数据进行处理。当所有组件都执行完毕，发送此次ETL任务的执行信息到调度模块

第四步中，可以监控模块记录每一个工作流的执行成功、失败次数和当前执行状态，供用户查看，还包括每一次执行中工作流的每一个组件的执行情况(成功或失败)。其中ETL组件的执行情况可以是由提交到Spark集群的ETL任务主动发送执行情况到监控模块的。

另外，数据资产管理可以包括手动维护和自动维护两部分。其中手动维护是指由用户自己手动录入信息数据资产，包括数据源信息，字段信息等。自动维护是指提交到Spark集群的ETL任务中涉及的数据的元数据信息，这些元数据信息由ETL任务访问数据资产模块，将信息录入数据资产，除了数据源信息，字段信息外，还包括血缘信息。这些元数据信息以及元数据间的血缘关系存储在Neo4j数据库中。

基于上述设计，相比于传统ETL任务的单机运行，本发明实施例提供的方法能处理的数据量不受单机限制，可以横向扩展，通过简单、低成本的增加服务器20数量来增加数据处理的数据量。另外，通过图形界面进行设计任务，将接口和操作封装，无需编程，有助于提高创建ETL任务的效率。用户可以通过浏览器查询数据资产中的各类数据信息(比如数据血缘信息、日志记录等)，可以清晰展示数据结构，便于理解数据内容。

请参照图6，本法发明实施例还提供一种分布式数据处理装置100，可以应用于上述的服务器20。该分布式数据处理装置100包括可以软件或固件(firmware)的形式存储于存储模块23中或固化在服务器20操作系统(operating system，OS)中的软件功能模块，可以执行或实现如图3所示的分布式数据处理方法。其中，该分布式数据处理装置100可以包括组件确定单元110、配置文件构建单元120及任务创建单元130。

组件确定单元110，用于基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件及数据加载组件，其中，数据抽取组件用于从源数据库中获取待处理数据，数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中。

配置文件构建单元120，用于根据第一操作指令中携带的配置参数、数据抽取组件及数据加载组件构建配置文件。

任务创建单元130，用于基于配置文件创建ETL任务。

可选地，分布式数据处理装置100还可以包括指令接收单元，用于接收用户终端30发送的第一操作指令。其中，第一操作指令为基于用户在用户终端30上的用户界面上进行创建操作生成的，用户界面包括与组件集对应的界面区域以及参数配置界面，界面区域用于供用户对组件集中的组件进行选择，参数配置界面用于供用户输入配置参数。

可选地，分布式数据处理装置100还可以包括获取单元、任务执行单元及结果确定单元。获取单元在接收到执行ETL任务的指令时，用于获取配置文件；任务执行单元用于根据配置参数运行配置文件中的数据抽取组件及数据加载组件；结果确定单元用于基于运行数据抽取组件及数据加载组件后得到的输出结果确定出ETL任务的执行结果。

可选地，分布式数据处理装置100还可以包括监听单元，用于监听执行ETL任务对应的日志记录，日志记录包括执行ETL任务的开始时间、执行完ETL任务的结束时间、表征ETL任务执行成功或失败的执行结果、表征执行出错的错误日志中的至少一种。

可选地，指令接收单元还用于接收表征用于对数据资产进行管理查询的第二操作指令。任务执行单元还可以用于响应第二操作指令，以从源数据库或目标数据库中查询与第二操作指令对应的数据，并将查询得到的数据通过用户终端30进行显示。

可选地，分布式数据处理装置100还可以包括血缘信息生成单元，用于基于待处理数据及待处理数据经处理后得到的数据，生成并存储数据血缘信息。

需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的服务系统的具体工作过程，可以参考前述方法中的各步骤对应过程，在此不再过多赘述。

本发明实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如上述实施例中的分布式数据处理方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施场景所述的方法。

综上所述，本发明提供一种分布式数据处理方法、装置及数据资产管理系统。方法包括：基于用户触发的用于创建ETL任务的第一操作指令，从预先存储的组件集中确定出与第一操作指令对应的数据抽取组件、数据转换组件及数据加载组件，其中，数据抽取组件用于从源数据库中获取待处理数据，数据转换组件用于对待处理数据按照预设执行策略进行处理，数据加载组件用于将待处理数据经处理后得到的数据加载到目标数据库中；根据第一操作指令中携带的配置参数、数据抽取组件、数据转换组件及数据加载组件构建配置文件；基于配置文件创建ETL任务。基于此，用户在创建ETL任务时，可以根据功能需求而选择相应的组件，以创建出ETL任务，有助于提高组件的重复使用的频率，无需对不同的功能组合单独进行编程，从而改善现有技术中因对不同功能需求需要用户单独开发程序代码而使得ETL任务创建的效率低的技术问题。

在本发明所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

可以替换的，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式数据处理方法，其特征在于，所述方法包括：

基于所述配置文件创建ETL任务。

2.根据权利要求1所述的方法，其特征在于，在从预先存储的组件集中确定出与所述第一操作指令对应的数据抽取组件及数据加载组件之前，所述方法包括：

接收用户终端发送的所述第一操作指令，其中，所述第一操作指令为基于用户在所述用户终端上的用户界面上进行创建操作生成的，所述用户界面包括与所述组件集对应的界面区域以及参数配置界面，所述界面区域用于供用户对所述组件集中的组件进行选择，所述参数配置界面用于供用户输入所述配置参数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在接收到执行所述ETL任务的指令时，获取所述配置文件；

基于运行所述数据抽取组件及所述数据加载组件后得到的输出结果确定出所述ETL任务的执行结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

监听执行所述ETL任务对应的日志记录，所述日志记录包括执行所述ETL任务的开始时间、执行完所述ETL任务的结束时间、表征所述ETL任务执行成功或失败的所述执行结果、表征执行出错的错误日志中的至少一种。

5.根据权利要求1所述的方法，其特征在于，所述组件集还包括数据转换组件，所述数据转换组件包括：用于执行过滤、集合、排序、字段映射、去重中的至少一种操作的数据转换组件。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收表征用于对数据资产进行管理查询的第二操作指令；

响应所述第二操作指令，以从所述源数据库或所述目标数据库中查询与所述第二操作指令对应的数据，并将查询得到的所述数据通过用户终端进行显示。

7.根据权利要求1-6中任意一项所述的方法，其特征在于，所述方法还包括：

基于所述待处理数据及所述待处理数据经处理后得到的数据，生成并存储数据血缘信息。

8.一种分布式数据处理装置，其特征在于，所述装置包括：

任务创建单元，用于基于所述配置文件创建ETL任务。

9.一种数据资产管理系统，其特征在于，包括服务器及安装有浏览器的用户终端，其中，所述用户终端用于向所述服务器发送第一操作指令，所述第一操作指令为基于用户在所述用户终端上的用户界面上进行创建操作生成的，所述用户界面包括与组件集对应的界面区域以及参数配置界面，所述界面区域用于供用户对所述组件集中的组件进行选择，所述参数配置界面用于供用户输入所述配置参数；

所述服务器包括相互耦合的存储模块、处理模块、通信模块，所述存储模块内存储计算机程序，当所述计算机程序被所述处理模块执行时，使得所述服务器执行权利要求1-7中任一项所述的分布式数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-7中任意一项所述的分布式数据处理方法。