CN113821560A

CN113821560A - 一种基于dap平台的大数据处理方法及系统

Info

Publication number: CN113821560A
Application number: CN202010562473.6A
Authority: CN
Inventors: 朱添麟; 黄家时
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2021-12-21

Abstract

本发明公开一种基于DAP平台的大数据处理方法，包括以下步骤，对系统进行大数据处理配置；进行可视化作业建模，保存并输出大数据作业任务；对大数据作业任务进行作业调度管理并监控；将大数据作业任务发送到SPARK集群；进行作业解析与执行，并获取作业的状态和日志。本发明还提供一种基于DAP平台的大数据处理系统，不仅支持更多样的数据资源间的输入输出与转换，而且支持大批量并发大数据量的数据转换任务，有效地节省了中心服务器的资源，提高了大数据ETL作业的执行效率，减少了数据整合的时间，实现了各个异构的数据源之间及时有效的整合。

Description

一种基于DAP平台的大数据处理方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及基于DAP平台的大数据处理方法及系统。

背景技术

由于城市各部门系统具有不同的业务模式，并且早期的部门信息系统的建设并没有采用整体统一的设计，导致各部门存储的业务数据类型具有较大差异，各部门之间的信息交互存在困难，城市整体信息数据存在冗余并且数据利用率较低的问题。

为了有效地整合异构的各部门数据资源，打破部门壁垒，连接信息孤岛，实现城市各部门系统之间数据的共享交换，使用ETL(Extract-Transform-Load)工具编排数据处理任务。通常情况下ETL任务不依附于大数据处理平台，当整合数据量较大时，ETL任务运行时间长，并且存在大批量并发任务时，任务执行缓慢，数据无法得到及时有效的处理。

目前行业常用的数据转换大多是基于开源kettle来开发，基于Kettle的数据引擎可以提供可视化编排数据处理流程，能打通多样数据源，具有丰富的数据加工处理能力，但是kettle在大数据、分布式计算方面不够灵活，集群式作业编排技术门槛高，有些数据加工组件不支持集群式；大数据组件的使用前提是大数据平台上的计算代码需要人工预先编写编译，难度大，工作量大；同时，基于kettle的数据处理对运行任务的中心服务器资源要求很高，当并发任务比较多的时候容易遇到较大瓶颈，导致数据无法得到有效处理。

发明内容

为了解决上述技术问题，本发明提供一种基于DAP平台的大数据处理方法及系统，支持大批量并发大数据量的数据转换任务，能够以保证数据得到及时有效的处理。

为达到上述目的，本发明提供的基于DAP平台的大数据处理方法，包括以下步骤：

对系统进行大数据处理配置；

编排并输出大数据作业任务；

对大数据作业任务进行作业调度管理并监控；

将大数据作业任务发送到SPARK集群；

进行作业解析与执行，并获取作业的状态和日志。

进一步地，对系统进行大数据处理配置的步骤，包括，任务提交管理配置、大数据平台配置、大数据作业选择，以及大数据执行参数配置，其中，

任务提交管理配置，设置任务提交方式为通过Livy提交任务，配置DAP主机地址、主机端口、用户名及密码；

大数据平台配置，包括，Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。所述Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口；

大数据执行参数配置，包括，执行参数、资源接口、变量设置。

进一步地，进行编排并输出大数据作业任务的步骤，包括，基于Apache Beam SDK设计，进行可视化作业建模，利用拖拽的方式实现组件编排大数据作业任务。

进一步地，对大数据作业任务进行作业调度管理并监控的步骤，包括，

创建并提交Batch作业请求，对大数据ETL作业任务进行作业调度管理和监控作业的执行情况，更新作业状态。

更进一步地，进行作业解析与执行，并获取作业的状态和日志的步骤，包括，

通过作业维护模块监控大数据ETL作业任务的状态、查询大数据ETL作业任务的状态；作业调度与监控模块根据Livy服务模块返回的结果更新作业状态；

作业调度与监控模块发送大数据作业日志查询请求到Livy服务模块，并大数据作业提取日志；通过作业维护模块查看大数据作业日志；

将大数据作业日志放在大数据Hadoop节点服务器。

为达到上述目的，本发明还提供一种基于DAP平台的大数据处理系统，包括，大数据处理配置模块、作业编排模块、作业维护模块、作业调度与监控模块、Livy服务模块，以及SPARK集群，其中，

大数据处理配置模块，其对系统进行大数据处理配置；

作业编排模块，其创建大数据作业任务，编辑后保存并输出；

作业维护模块，其执行大数据作业任务，监控和查询大数据作业任务状态；提供大数据作业任务执行日志的查看；

作业调度与监控模块，其对大数据作业任务进行作业调度管理并监控作业的执行情况；

Livy服务模块，其将大数据作业任务发送到所述SPARK集群；

SPARK集群，其对大数据作业任务并进行解析，以yarn模式执行作业任务。

进一步地，大数据处理配置模块，其对任务提交管理配置、大数据平台配置、大数据作业选择，以及大数据执行参数配置，其中，

大数据平台配置，包括，Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口；

进一步地，作业编排模块，其基于Apache Beam SDK设计，进行可视化作业建模，利用拖拽的方式实现组件编排大数据作业任务。

进一步地，作业维护模块，其通过人工、时间驱动、数据驱动或消息驱动的方式执行大数据任务；向Livy服务模块发送作业执行rest请求，创建批量会话；监控和查询大数据作业任务状态；提供大数据作业任务执行日志的查看。

进一步地，作业调度与监控模块，其通过Livy服务模块提交创建Batch作业请求；定期发送批量会话作业状态查询请求到Livy服务模块，并根据Livy服务模块返回的结果更新作业状态；发送大数据作业日志查询请求到Livy服务模块，根据对应的申请号提取日志。

更进一步地，Livy服务模块，其接收作业调度与监控模块的请求，将大数据作业任务的状态返回给作业调度与监控模块；接收作业调度与监控模块发送的大数据作业日志查询请求并响应。

为达到上述目的，本发明还提供一种电子设备，包括，处理器；以及

被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行上述基于DAP平台的大数据处理方法的步骤。

为达到上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储一个或多个程序，一个或多个程序当被包括多个应用程序的电子设备执行时，使得电子设备执行上述基于基于DAP平台的大数据处理方法的步骤。

本发明的基于DAP平台的大数据处理方法及系统，利用大数据平台的分布式计算能力对数据进行处理加工，并将处理后的数据存入大数据平台或关系型数据库中，不仅支持更多样的数据资源间的输入输出与转换，而且支持大批量并发大数据量的数据转换任务，有效地节省了中心服务器的资源，提高了大数据ETL作业的执行效率，减少了数据整合的时间，实现了各个异构的数据源之间及时有效的整合，为后续数据治理打下坚实的基础。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

在附图中：

图1为根据本发明的基于DAP平台的大数据处理方法流程图；

图2为根据本发明的Livy方式的大数据作业处理流程图；

图3为根据本发明的基于DAP平台的大数据处理系统结构示意图；

图4为本发明的一个实施例电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明所说数据处理方法通过在保持数据处理平台原有的支持普通ETL任务的基础上增加处理大数据ETL任务的功能，通过调用大数据平台的数据处理能力来提升数据处理平台处理大数据整合业务的能力。

本发明实施例中，基于DAP平台以实现数据的抽取、加载、转换，具体方案如下：

在系统配置界面，增加“任务提交管理”配置项，设置任务提交方式为通过Livy提交任务。所述“任务提交管理”配置项，包括DAP主机地址、主机端口、用户名及密码。

Livy：一种基于SPARK的开源rest服务；

SPARK：一种专为大规模数据处理而设计的快速通用的计算引擎。

在系统配置界面，增加“大数据平台配置”配置项，包括Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。所述Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口。

zookeeper：一种用于分布式应用程序的分布式开源协调服务；

dapmanager：大数据管理平台；

ranger：大数据权限管理，提供具体资源权限管控、访问监控、数据加密的功能。

在Web管理端ETL任务管理页面，增加新建大数据作业选择列。

在大数据ETL任务编辑页面，增加大数据执行参数配置。所述大数据执行参数配置，包括执行参数、资源接口、变量设置。

作业调度与监控模块执行大数据ETL任务，向Livy服务模块发送作业执行rest请求，创建批量会话，批量会话为Batchsession。

rest：Representational State Transfer，一种软件架构风格

Livy服务模块接收到大数据执行作业请求后，将大数据作业分发到SPARK平台。

SPARK集群根据接收到的作业流程步骤和要求，以yarn模式执行作业。

作业调度与监控模块，向Livy服务模块发送查询状态或查询日志请求，并根据返回内容更新作业状态与日志。

实施例1

图1为根据本发明的基于DAP平台的大数据处理方法流程图，下面将参考图1，对本发明的基于DAP平台的大数据处理方法进行详细描述。

本发明实施例中，可提供可视化作业建模，利用基于Apache Beam SDK设计实现的各类组件编排多样化的大数据ETL任务；利用作业调度与监控功能，对各大数据ETL任务进行作业调度管理并监控作业的执行情况；通过DAP安装Livy服务，大数据作业管理通过Livy接口发送大数据作业执行指令到SPARK集群，进行作业解析与执行，并可通过Livy接口获取作业的状态和日志。

首先，步骤101，对系统进行大数据处理配置。

本实施例中，对系统进行大数据处理配置，包括，任务提交管理配置、大数据平台配置、大数据作业选择，以及大数据执行参数配置，其中，

任务提交管理配置，设置任务提交方式为通过Livy服务模块提交任务，配置DAP主机地址、主机端口、用户名及密码。

大数据平台配置，包括，Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置。所述Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口，Hadoop分布式文件系统为hdfs。

大数据执行参数配置，包括执行参数、资源接口、变量设置。

在步骤102，编排并输出大数据作业任务。

本发明实施例中，作业编排模块基于Apache Beam SDK设计，进行可视化作业建模，利用拖拽的方式实现各类组件编排多样化的大数据作业任务。

在步骤103，对大数据作业任务进行作业调度管理并监控。

本发明实施例中，通过作业调度与监控模块对各大数据作业任务进行作业调度管理并监控作业的执行情况。

在步骤104，将大数据作业任务发送到SPARK集群。

本发明实施例中，通过DAP安装Livy服务，通过Livy接口发送大数据作业任务执行指令到SPARK集群。

在步骤105，进行作业解析与执行，并可通过Livy接口获取作业的状态和日志。

本发明的基于DAP平台的大数据处理方法，系统需对接大数据DAP平台，系统配置界面增加“任务提交管理”的配置项，设置任务提交方式为通过Livy提交任务，并配置DAP主机地址、端口、用户名及密码，通过此配置项保证系统执行的大数据任务，将由Livy服务提交至大数据DAP平台。此外，系统配置界面还增加“大数据平台配置”配置项，配置的dapmanager地址为系统对接的大数据DAP平台的管理URL地址，配置Hadoop分布式文件系统节点，zookeeper的ip及端口。通过这些配置保证系统与大数据DAP平台对接成功，大数据任务能通过Livy调度，提交至对应的大数据DAP平台进行处理。

实施例2

图2为根据本发明的Livy方式的大数据作业处理流程图，下面将参考图2，对本发明的Livy方式的大数据作业处理流程进行详细描述。

首先，在步骤201，创建大数据ETL作业任务并进行编辑，保存任务后输出大数据ETL作业任务。

本发明实施例中，系统Web管理端的ETL任务管理页面接收创建大数据任务选择，通过拖拽组件的方式编辑大数据ETL作业任务，保存任务后系统输出XML格式的大数据ETL作业任务。

在步骤202，作业维护模块通过人工/时间驱动/数据驱动/消息驱动的方式执行大数据ETL作业任务。

在步骤203，创建并提交批量会话作业请求。

本发明实施例中，系统作业调度与监控模块通过Livy服务模块的Livy服务接口提交创建的批量会话作业请求，即通过http调用SessionServlet的createSession接口，创建批量会话并注册到sessionManager，批量会话会创建SparkYarnApp，批量会话为Batchsession。

在步骤204，Livy服务模块接收提交的批量会话作业请求，将大数据ETL作业任务提交到SPARK集群。

本发明实施例中，Livy服务模块接收到批量会话作业请求后，启动相应的session，然后提交作业到Yarn集群，当Yarn拉起ApplicationMaster进程后启动SparkContext，并连接到Livy服务模块进行通信。

在步骤205，Livy服务模块将后续执行的代码发送到Application进程执行。

在步骤206，监控和查询大数据作业任务状态，并进行更新。

本发明实施例中，用户可通过作业维护模块监控大数据ETL作业任务的状态、查询大数据ETL作业任务的状态；然后作业调度与监控模块定期发送批量会话作业状态查询请求到Livy服务模块，Livy服务模块返回该作业的状态，作业调度与监控模块根据Livy服务模块返回的结果更新作业状态。

本发明实施例中，当作业任务执行结束后，作业调度与监控模块更新作业状态为成功或失败，可通过作业维护模块查询大数据作业日志，作业调度与监控模块发送大数据作业日志查询请求到Livy服务模块，根据对应的申请号提取日志，用户可以在作业维护模块上查看作业日志，同时日志存放在大数据Hadoop节点服务器，作业日志中给出查看大数据ETL作业任务执行日志。

实施例3

图3为根据本发明的基于DAP平台的大数据处理系统结构示意图，如图3所示，本发明的基于DAP平台的大数据处理系统，包括，大数据处理配置模块301、作业编排模块302、作业维护模块303、作业调度与监控模块304、Livy服务模块305，以及SPARK集群306，其中，

大数据处理配置模块301，对系统进行大数据处理配置。

本发明实施例中，对系统进行大数据处理配置，包括，

任务提交管理配置：设置任务提交方式为通过Livy提交任务，配置DAP主机地址、主机端口、用户名及密码；

大数据平台配置：Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置；所述Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口；

大数据作业选择；

大数据执行参数配置：包括执行参数、资源接口、变量设置。

作业编排模块302，创建大数据作业任务并进行编辑。

本发明实施例中，作业编排模块302，创建大数据作业任务，基于Apache Beam SDK设计，利用拖拽组件的方式实现的各类组件编排多样化的大数据ETL作业任务，保存任务后输出XML格式的大数据作业任务。

作业维护模块303，通过人工/时间驱动/数据驱动/消息驱动的方式执行大数据ETL任务，向Livy服务模块305发送作业执行rest请求，创建批量会话；接收用户的指令，监控和查询大数据作业任务状态；提供大数据作业任务执行日志的查看。

作业调度与监控模块304，其对各大数据ETL任务进行作业调度管理并监控作业的执行情况。

本发明实施例中，作业调度与监控模块304通过Livy服务模块305的Livy服务接口提交创建Batch作业请求，即通过http调用SessionServlet的createSession接口，创建批量会话并注册到sessionManager，批量会话会创建SparkYarnApp。

本发明实施例中，作业调度与监控模块304定期发送Batch作业状态查询请求到Livy服务模块305，并根据Livy服务模块305返回的结果更新作业状态。

本发明实施例中，作业调度与监控模块304发送大数据作业日志查询请求到Livy服务模块305，根据对应的申请号提取日志，其中，ApplicationId：任务号。

Livy服务模块305，接收作业维护模块303发送的作业执行请求，将大数据作业任务发送到SPARK集群306，将执行代码发送到Application进程执行；接收作业调度与监控模块304定期发送的Batch作业状态查询请求，并将Batch作业状态返回给作业调度与监控模块304；接收作业调度与监控模块304发送的大数据作业日志查询请求并响应，作业调度与监控模块304根据对应的申请号提取日志，申请号为ApplicationId。

SPARK集群306，其接收Livy服务模块305发送的大数据作业任务并进行解析，以yarn模式执行作业任务。

实施例4

图4为本发明的一个实施例电子设备的结构示意图，如图4所示，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。

处理器从非易失性存储器中读取对应的计算机程序到存储器中然后运行，在逻辑层面上形成共享资源访问控制装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

对系统进行大数据处理配置；

编排并输出大数据作业任务；

对大数据作业任务进行作业调度管理并监控；

将大数据作业任务发送到SPARK集群；

进行作业解析与执行，并获取作业的状态和日志。

实施例5

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行附图中所示实施例的方法，并具体用于执行上述基于DAP平台的大数据处理方法。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于DAP平台的大数据处理方法，包括以下步骤，

对系统进行大数据处理配置；

编排并输出大数据作业任务；

对大数据作业任务进行作业调度管理并监控；

将大数据作业任务发送到SPARK集群；

进行作业解析与执行，并获取作业的状态和日志。

2.根据权利要求1所述的基于DAP平台的大数据处理方法，其特征在于，所述对系统进行大数据处理配置的步骤，包括，任务提交管理配置、大数据平台配置、大数据作业选择，以及大数据执行参数配置，其中，

所述任务提交管理配置，设置任务提交方式为通过Livy提交任务，配置DAP主机地址、主机端口、用户名及密码；

所述大数据平台配置，包括，Hadoop分布式文件系统属性配置、zookeeper属性配置、dapmanager地址配置、ranger地址配置，

所述Hadoop分布式文件系统属性配置，包括服务名称、节点列表、代理配置、主从节点端口与端口；

所述大数据执行参数配置，包括，执行参数、资源接口、变量。

3.根据权利要求1所述的基于DAP平台的大数据处理方法，其特征在于，所述编排并输出大数据作业任务为通过可视化作业建模，保存并输出大数据作业任务的步骤，包括，基于Apache Beam SDK设计，进行可视化作业建模，利用拖拽的方式实现组件编排大数据作业任务。

4.根据权利要求1所述的基于DAP平台的大数据处理方法，其特征在于，所述对大数据作业任务进行作业调度管理并监控的步骤，包括，

创建并提交批量会话作业请求，对大数据ETL作业任务进行作业调度管理和监控作业的执行情况，更新作业状态。

5.根据权利要求1所述的基于DAP平台的大数据处理方法，其特征在于，所述进行作业解析与执行，并获取作业的状态和日志的步骤，包括，

将所述大数据作业日志放在大数据Hadoop节点服务器。

6.一种基于DAP平台的大数据处理系统，其特征在于，包括，大数据处理配置模块、作业编排模块、作业维护模块、作业调度与监控模块、Livy服务模块，以及SPARK集群，其中，

所述大数据处理配置模块，其对系统进行大数据处理配置；

所述作业编排模块，其创建大数据作业任务，编辑后保存并输出；

所述作业维护模块，其执行大数据作业任务，监控和查询大数据作业任务状态；提供大数据作业任务执行日志的查看；

所述作业调度与监控模块，其对大数据作业任务进行作业调度管理并监控作业的执行情况；

所述Livy服务模块，其将大数据作业任务发送到所述SPARK集群；

所述SPARK集群，其对大数据作业任务并进行解析，以yarn模式执行作业任务。

7.根据权利要求6所述的基于DAP平台的大数据处理系统，其特征在于，所述大数据处理配置模块，其对任务提交管理配置、大数据平台配置、大数据作业选择，以及大数据执行参数配置，其中，

所述大数据执行参数配置，包括，执行参数、资源接口、变量设置。

8.根据权利要求6所述的基于DAP平台的大数据处理系统，其特征在于，所述作业编排模块，其基于Apache Beam SDK设计，进行可视化作业建模，利用拖拽的方式实现组件编排大数据作业任务。

9.根据权利要求6所述的基于DAP平台的大数据处理系统，其特征在于，所述作业维护模块，其通过人工、时间驱动、数据驱动或消息驱动的方式执行大数据任务；向所述Livy服务模块发送作业执行rest请求，创建批量会话；监控和查询大数据作业任务状态；提供大数据作业任务执行日志的查看。

10.根据权利要求6所述的基于DAP平台的大数据处理系统，其特征在于，所述作业调度与监控模块，其通过所述Livy服务模块提交创建批量会话作业请求；定期发送批量会话作业状态查询请求到所述Livy服务模块，并根据所述Livy服务模块返回的结果更新作业状态；发送大数据作业日志查询请求到所述Livy服务模块，根据对应的申请号提取日志。

11.根据权利要求6所述的基于DAP平台的大数据处理系统，其特征在于，所述Livy服务模块，其接收所述作业调度与监控模块的请求，将大数据作业任务的状态返回给所述作业调度与监控模块；接收所述作业调度与监控模块发送的大数据作业日志查询请求并响应。

12.一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-5任一项所述基于DAP平台的大数据处理方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求1-5任一项所述基于DAP平台的大数据处理方法的步骤。