CN109471709A - 基于Apache Oozie框架处理大数据的流程任务的调度方法 - Google Patents

基于Apache Oozie框架处理大数据的流程任务的调度方法 Download PDF

Info

Publication number
CN109471709A
CN109471709A CN201811205109.3A CN201811205109A CN109471709A CN 109471709 A CN109471709 A CN 109471709A CN 201811205109 A CN201811205109 A CN 201811205109A CN 109471709 A CN109471709 A CN 109471709A
Authority
CN
China
Prior art keywords
task
module
oozie
big data
frame processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811205109.3A
Other languages
English (en)
Other versions
CN109471709B (zh
Inventor
肖伟军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shun Yi Nationwide Financial Services Inc
Original Assignee
Shenzhen Shun Yi Nationwide Financial Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shun Yi Nationwide Financial Services Inc filed Critical Shenzhen Shun Yi Nationwide Financial Services Inc
Priority to CN201811205109.3A priority Critical patent/CN109471709B/zh
Publication of CN109471709A publication Critical patent/CN109471709A/zh
Application granted granted Critical
Publication of CN109471709B publication Critical patent/CN109471709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system

Abstract

一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块。

Description

基于Apache Oozie框架处理大数据的流程任务的调度方法
技术领域
本发明涉及数据处理技术领域,尤其是一种基于Apache Oozie框架的大数据处理过程的流程调度方法。
背景技术
Apache Oozie一个基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能够提供对Hadoop MapReduce和Pig Jobs的数据处理任务的调度与协调。Oozie需要部署到Java Servlet容器中运行。作为一个开源的工作流引擎,它提供了任务提交,任务启动,任务杀死,任务挂起,任务恢复,任务监控,任务重跑,任务调度等功能,Oozie官网提供了一个简单的查询界面。其架构设计如图1所示,Oozie提供了三种流程引擎
1,workflow:顺序执行流程节点,Oozie客户端提交流程描述文件到服务器端,Oozie服务器端解析流程文件,按照流程顺序执行节点。
2,Coordinator:协调器引擎,OOzie使用Coordinator来管理workflow,通过预定义的时间或基于数据条件来定时的启动workflow。
3,Bundle:oozie使用Bundle任务来将多个Coordinator组织成一个集合,使用buddle可以更方便的管理多个Coordinator协调器。
Oozie的最小执行单元是节点,包括Hadoop map-reduce,Hadoop file system,Pig,SSH,HTTP,eMail and Oozie sub-workflow等动作节点和start,end,kill,fork,join,decision等控制节点,同时Oozie还支持用户自定义节点,Oozie使用有向无环图(DAG)将各个流程节点组织成工作流,oozie对节点和工作流的描述都使用xml文档来描述,使用oozie开发,运维大数据的现状如图2所示。对于开发过程:
第一步:用户需要在本地使用xml编写流程任务,由于用户使用到不同的流程节点需要参考不同的schema约束,不同的流程节点的属性配置差异较大,一个工作流的文件结构会相对复杂。例举一个只有五个流程节点的workflow.xml文件:
<workflow-app xmlns="uri:oozie:workflow:0.5"name="${tableName}_wf">
<start to="etl-node"/>
<action name="etl-node">
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<master>${master}</master>
<mode>${mode}</mode>
<name>${tableName}</name>
<class>com.cdw.etl.bdl.${tableName}</class>
<jar>${nameNode}/user/oozie/${workspaceRoot}/cdw/${dataLevel}/${systemCode}/${tableName}/lib/${tableName}_2.11-0.1.jar</jar>
<spark-opts>${sparkopts}</spark-opts>
<arg>${etlDate}</arg>
</spark>
<ok to="shell-node"/>
<error to="fail"/>
</action>
<action name="shell-node">
<shell xmlns="uri:oozie:shell-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="${hiveBasePathHis}/p_date=${etlDate}"/>
<mkdir path="${hiveBasePathHis}/p_date=${etlDate}"/>
</prepare>
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>${queueName}</value>
</property>
</configuration>
<exec>hadoop</exec>
<argument>fs</argument>
<argument>-cp</argument>
<argument>${hiveBasePath}/*</argument>
<argument>${hiveBasePathHis}/p_date=${etlDate}/</argument></shell>
<ok to="partition-node"/>
<error to="fail"/>
</action>
<action name="partition-node">
<hive2 xmlns="uri:oozie:hive2-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>${queueName}</value>
</property>
</configuration>
<jdbc-url>${jdbcURL}</jdbc-url>
<script>${commonPath}/partition.q</script>
<param>hiveDb=${hiveDb}</param>
<param>tableName=${tableName}_his</param>
<param>partitionPath=${hiveBasePathHis}/p_date=${etlDate}</param><param>collectDate=${etlDate}</param>
</hive2>
<ok to="hdfs-touchz-success"/>
<error to="fail"/>
</action>
<action name="hdfs-touchz-success">
<fs>
<touchz path='${hiveBasePath}/_SUCCESS'/>
<touchz path='${hiveBasePathHis}/p_date=${etlDate}/_SUCCESS'/>
</fs>
<ok to="email-node"/>
<error to="fail"/>
</action>
<action name="email-node">
<email xmlns="uri:oozie:email-action:0.1">
<to>Dataplatform@zsyjr.com</to>
<subject>${wf:name()}</subject>
<body>The wf${wf:name()}collect${tableName}data successfullycompleted[${etlDate}]</body>
</email>
<ok to="end"/>
<error to="fail"/>
</action>
<kill name="fail">
<message>etl app:${wf:name()}failed--[${etlDate}]</message>
</kill>
<end name="end"/>
</workflow-app>
第二步:用户需要将写好的流程文件使用hdfs工具上传到hdfs上。
第三步:用户需要使用Oozie客户端,通常是执行shell命令提交任务。
第四步:使用官网提供的ext界面(需要自己下载ext依赖)或则命令行查看任务的运行状态和运行日志。
大数据的实际开发场景中,数据流通常需要根据业务来划分模块,通常数据流都会按照,数据采集,数据清洗,数据分析,数据汇总,数据展示等流程执行;这些数据流大多是按照指定的频率(按照分钟,小时,天,周,月等)定时执行,而且执行循序上会有数据的依赖关系,因此本质上处理数据开发流程就是非常复杂的。而oozie使用xml来定义流程和协作器,这样用户每开发一个定时任务需要按照oozie xml schema定义的文档至少提供
coordinator.xml,workflow.xml两个文件,在workflow.xml中用户使用到不同的流程节点需要参考不同的schema约束,不同的流程节点的属性配置差异较大,使得流程开发过程变得复杂而且容易出错,特别是当流程任务达到一定规模时,如果需要改变流程执行的节点,用户需要重新从hdfs上下载流程描述文件,然后修改流程文件,重新上传文件,如果是coordinator.xml文件修改,还需要重新启动协调器任务,整个过程非常复杂。
发明内容
本发明的目的在于提供一种基于Apache Oozie框架处理大数据的流程任务的调度方法,能够大大提高开发和处理大数据的流程任务的速度。
本发明的技术方案为,一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块;
其中,所述控制层用于调用所述Service层,根据用户提交的不同参数向所述Service层发送请求;
所述Service层包括任务生成、任务操作、任务监控三个模块,
其特征在于,包括如下步骤:
生成任务提交界面和表单填写界面,选择需要的流程节点并获取表单属性数据;
提交表单到控制层,然后调用到任务生成模块,任务生成模块根据不同的任务类型生成不同的Action定义文档;
将所有的节点处理完成合并文件生成oozie工作流需要的workflow.xml文件;
接着调用HDFS存储模块API将生成的文件上传到HDFS上;
如果用户在提交任务的时候选中立即运行,控制层会接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且将任务的元数据存储到Mysql数据库。
进一步地,如果是Coordinate任务,则将所有的节点处理完成合并文件生成oozie工作流需要的coordinate.xml文件,且,获取任务的关键属性数据,如任务的输入输出路径,和任务的运行频率。
进一步地,对于任务操作,包括如下步骤:在所述前端界面上生成任务列表和不同的操作按钮,选择任务和操作按钮,通过Ajax请求到控制台,控制台接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且修改Mysql中对应的任务数据的状态。
进一步地,对于任务监控,包括如下步骤:所述前端使用Ajax每五分中轮训任务监控模块,所述任务监控模块读取Mysql数据库中任务运行的数据,通过统计分组按不同的维度排序,将结果返回到前端动态的渲染报表,如果有任务执行失败则发送邮件通知任务提交人。
进一步地,所述控制层采用springMVC。
进一步地,所述任务生成模块使用Velocity作为模板。
进一步地,所述客户端使用ElementUI+VUE.js+ECHART.js实现。
进一步地,所述服务器端使用SpringBoot+SpringMVC+Spring+Mybatis对OOzie进行二次封装。
进一步地,所述客户端和服务器端使用MAVEN作为构建打包工具。
本发明的有益效果在于,对于开发过程:
本发明只需要用户在界面上填写表单,很多属性都是下拉选择,当用户提交表单会自动生成流程定义文件workflow.xml并且保存到hdfs上,当用户需要修改流程文件的时候,也可以直接在线编辑修改。任务开发,提交可以直接在界面完成,不需要再手动的调用hdfs api和oozie客户端命令。
对于运维过程:
Cdw-schedule提供了丰富的界面操作,而且将支持任务分组,任务依赖查询,对所有的操作都添加了批量处理,这样即使任务规模扩大时也能够快速的批量操作任务,使得大规模的任务运维变得简单高效。
附图说明
图1为本发明的背景技术Apache Oozie框架的架构示意图;
图2为本发明的背景技术Apache Oozie框架开发和运维时的流程任务调度示意图;
图3为本发明的调度方法的架构总体示意图;
图4为本发明的一个实施例的流程示意图;
图5为本发明的另一个实施例的流程示意图。
具体实施方式
下面结合附图和实施例进一步说明本发明,如图3和图4所示的实施例1,一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块;
其中,所述控制层用于调用所述Service层,根据用户提交的不同参数向所述Service层发送请求;
所述Service层包括任务生成、任务操作、任务监控三个模块,
其特征在于,包括如下步骤:
生成任务提交界面和表单填写界面,选择需要的流程节点并获取表单属性数据;
提交表单到控制层,然后调用到任务生成模块,任务生成模块根据不同的任务类型生成不同的Action定义文档;
将所有的节点处理完成合并文件生成oozie工作流需要的workflow.xml文件;
接着调用HDFS存储模块API将生成的文件上传到HDFS上;
如果用户在提交任务的时候选中立即运行,控制层会接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且将任务的元数据存储到Mysql数据库。
进一步地,对于任务操作,包括如下步骤:在所述前端界面上生成任务列表和不同的操作按钮,选择任务和操作按钮,通过Ajax请求到控制台,控制台接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且修改Mysql中对应的任务数据的状态。
进一步地,对于任务监控,包括如下步骤:所述前端使用Ajax每五分中轮训任务监控模块,所述任务监控模块读取Mysql数据库中任务运行的数据,通过统计分组按不同的维度排序,将结果返回到前端动态的渲染报表,如果有任务执行失败则发送邮件通知任务提交人。
如图3和图5所示的实施例2,一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块;
其中,所述控制层用于调用所述Service层,根据用户提交的不同参数向所述Service层发送请求;
所述Service层包括任务生成、任务操作、任务监控三个模块,
其特征在于,包括如下步骤:
生成任务提交界面和表单填写界面,选择需要的流程节点并获取表单属性数据;
提交表单到控制层,然后调用到任务生成模块,任务生成模块根据不同的任务类型生成不同的Action定义文档;
如果是Coordinate任务,则将所有的节点处理完成合并文件生成oozie工作流需要的coordinate.xml文件,且,获取任务的关键属性数据,如任务的输入输出路径,和任务的运行频率;
接着调用HDFS存储模块API将生成的文件上传到HDFS上;
如果用户在提交任务的时候选中立即运行,控制层会接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且将任务的元数据存储到Mysql数据库。
进一步地,对于任务操作,包括如下步骤:在所述前端界面上生成任务列表和不同的操作按钮,选择任务和操作按钮,通过Ajax请求到控制台,控制台接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且修改Mysql中对应的任务数据的状态。
进一步地,对于任务监控,包括如下步骤:所述前端使用Ajax每五分中轮训任务监控模块,所述任务监控模块读取Mysql数据库中任务运行的数据,通过统计分组按不同的维度排序,将结果返回到前端动态的渲染报表,如果有任务执行失败则发送邮件通知任务提交人。
以上的描述仅仅涉及本发明的一些具体实施方式,任何本领域的技术人员基于本发明的精神所做的替换或改进均应为本发明的保护范围所涵盖,本发明的保护范围应以权利要求书为准。

Claims (9)

1.一种基于Apache Oozie框架处理大数据的流程任务的调度方法,包括客户端(前端)和服务器端(后端),所述客户端包括界面操作模块,所述服务器端包括服务端操作模块;其中,所述界面操作模块包括任务提交、任务操作、和任务监控三个模块;所述前端界面操作模块用于与用户操作的入口对接;所述服务器端包括控制层(Controller),业务层(Service)和存储层;所述存储层包括HDFS存储模块和Mysql存储模块;
其中,所述控制层用于调用所述Service层,根据用户提交的不同参数向所述Service层发送请求;
所述Service层包括任务生成、任务操作、任务监控三个模块,
其特征在于,包括如下步骤:
生成任务提交界面和表单填写界面,选择需要的流程节点并获取表单属性数据;
提交表单到控制层,然后调用到任务生成模块,任务生成模块根据不同的任务类型生成不同的Action定义文档;
将所有的节点处理完成合并文件生成oozie工作流需要的workflow.xml文件;
接着调用HDFS存储模块API将生成的文件上传到HDFS上;
如果用户在提交任务的时候选中立即运行,控制层会接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且将任务的元数据存储到Mysql数据库。
2.根据权利要求1所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,如果是Coordinate任务,则将所有的节点处理完成合并文件生成oozie工作流需要的coordinate.xml文件,且,获取任务的关键属性数据,如任务的输入输出路径,和任务的运行频率。
3.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,对于任务操作,包括如下步骤:在所述前端界面上生成任务列表和不同的操作按钮,选择任务和操作按钮,通过Ajax请求到控制台,控制台接着调用任务操作模块,任务操作模块调用OOzieClient向OozieServer模块发送提交命令,由OOzieServer启动任务,同时修改任务的状态并且修改Mysql中对应的任务数据的状态。
4.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,对于任务监控,包括如下步骤:所述前端使用Ajax每五分中轮训任务监控模块,所述任务监控模块读取Mysql数据库中任务运行的数据,通过统计分组按不同的维度排序,将结果返回到前端动态的渲染报表,如果有任务执行失败则发送邮件通知任务提交人。
5.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,所述控制层采用springMVC。
6.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,所述任务生成模块使用Velocity作为模板。
7.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,所述客户端使用ElementUI+VUE.js+ECHART.js实现。
8.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,所述服务器端使用SpringBoot+SpringMVC+Spring+Mybatis对OOzie进行二次封装。
9.根据权利要求1或2所述的基于Apache Oozie框架处理大数据的流程任务的调度方法,其特征在于,所述客户端和服务器端使用MAVEN作为构建打包工具。
CN201811205109.3A 2018-10-16 2018-10-16 基于Apache Oozie框架处理大数据的流程任务的调度方法 Active CN109471709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811205109.3A CN109471709B (zh) 2018-10-16 2018-10-16 基于Apache Oozie框架处理大数据的流程任务的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811205109.3A CN109471709B (zh) 2018-10-16 2018-10-16 基于Apache Oozie框架处理大数据的流程任务的调度方法

Publications (2)

Publication Number Publication Date
CN109471709A true CN109471709A (zh) 2019-03-15
CN109471709B CN109471709B (zh) 2022-02-18

Family

ID=65665102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811205109.3A Active CN109471709B (zh) 2018-10-16 2018-10-16 基于Apache Oozie框架处理大数据的流程任务的调度方法

Country Status (1)

Country Link
CN (1) CN109471709B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688227A (zh) * 2019-09-30 2020-01-14 浪潮软件股份有限公司 一种Oozie工作流程中尾端任务节点的处理方法
CN115529306B (zh) * 2022-07-22 2024-05-17 四川启睿克科技有限公司 一种基于springboot的spark jar包远程提交方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222106A (zh) * 2011-06-28 2011-10-19 浪潮集团山东通用软件有限公司 一种在任务列表集成和展示业务信息的实现方法
US20120215578A1 (en) * 2009-08-31 2012-08-23 Swierz Iii N Frank Method and system for implementing workflows and managng staff and engagements
CN103559575A (zh) * 2002-08-15 2014-02-05 开放创新网络有限责任公司 企业间对话的系统和方法
CN104360903A (zh) * 2014-11-18 2015-02-18 北京美琦华悦通讯科技有限公司 Spark作业调度系统中实现任务数据解耦的方法
CN104536809A (zh) * 2014-11-26 2015-04-22 上海瀚之友信息技术服务有限公司 一种基于客户端、服务器系统的分布式定时任务调度系统
CN105373428A (zh) * 2015-12-09 2016-03-02 北京奇虎科技有限公司 一种任务调度方法和系统
CN105867907A (zh) * 2016-03-23 2016-08-17 沈阳师范大学 去除业务耦合性的JSS多层Web开发框架设计方法
WO2016154396A1 (en) * 2015-03-26 2016-09-29 Terbium Labs, Inc. Systems and methods for detecting copied computer code using fingerprints
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集系统
CN107204868A (zh) * 2016-03-18 2017-09-26 中国移动通信集团山西有限公司 一种任务运行监控信息获取方法和装置
CN108037919A (zh) * 2017-12-01 2018-05-15 北京博宇通达科技有限公司 一种基于web的可视化大数据工作流配置方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559575A (zh) * 2002-08-15 2014-02-05 开放创新网络有限责任公司 企业间对话的系统和方法
US20120215578A1 (en) * 2009-08-31 2012-08-23 Swierz Iii N Frank Method and system for implementing workflows and managng staff and engagements
CN102222106A (zh) * 2011-06-28 2011-10-19 浪潮集团山东通用软件有限公司 一种在任务列表集成和展示业务信息的实现方法
CN104360903A (zh) * 2014-11-18 2015-02-18 北京美琦华悦通讯科技有限公司 Spark作业调度系统中实现任务数据解耦的方法
CN104536809A (zh) * 2014-11-26 2015-04-22 上海瀚之友信息技术服务有限公司 一种基于客户端、服务器系统的分布式定时任务调度系统
WO2016154396A1 (en) * 2015-03-26 2016-09-29 Terbium Labs, Inc. Systems and methods for detecting copied computer code using fingerprints
CN105373428A (zh) * 2015-12-09 2016-03-02 北京奇虎科技有限公司 一种任务调度方法和系统
CN107204868A (zh) * 2016-03-18 2017-09-26 中国移动通信集团山西有限公司 一种任务运行监控信息获取方法和装置
CN105867907A (zh) * 2016-03-23 2016-08-17 沈阳师范大学 去除业务耦合性的JSS多层Web开发框架设计方法
CN107145556A (zh) * 2017-04-28 2017-09-08 安徽博约信息科技股份有限公司 通用的分布式采集系统
CN108037919A (zh) * 2017-12-01 2018-05-15 北京博宇通达科技有限公司 一种基于web的可视化大数据工作流配置方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688227A (zh) * 2019-09-30 2020-01-14 浪潮软件股份有限公司 一种Oozie工作流程中尾端任务节点的处理方法
CN115529306B (zh) * 2022-07-22 2024-05-17 四川启睿克科技有限公司 一种基于springboot的spark jar包远程提交方法

Also Published As

Publication number Publication date
CN109471709B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
US11086688B2 (en) Managing resource allocation in a stream processing framework
US10592282B2 (en) Providing strong ordering in multi-stage streaming processing
US20200366581A1 (en) Simplified entity lifecycle management
US10606711B2 (en) Recovery strategy for a stream processing system
US9842000B2 (en) Managing processing of long tail task sequences in a stream processing framework
US20180253335A1 (en) Maintaining throughput of a stream processing framework while increasing processing load
US10198298B2 (en) Handling multiple task sequences in a stream processing framework
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN109284324A (zh) 基于Apache Oozie框架处理大数据的流程任务的调度装置
CN110647387B (zh) 一种教育云大数据任务调度方法与系统
CN107590188A (zh) 一种自动化垂直细分领域的爬虫爬取方法及其管理系统
CN104063273B (zh) 一种中控式业务流程调度管理系统及实现方法
CN110781180B (zh) 一种数据筛选方法和数据筛选装置
CN111125518A (zh) 家电信息推荐的系统及方法
CN110222253A (zh) 一种数据采集方法、设备及计算机可读存储介质
CN115309767A (zh) 一种数据融合方法和装置
CN109471709A (zh) 基于Apache Oozie框架处理大数据的流程任务的调度方法
CN116841758A (zh) 工作流任务处理方法、装置、计算机设备和存储介质
US11188548B2 (en) Profile data store automation via bots
CN113254187A (zh) 测试数据的生成方法、装置、电子设备和存储介质
CN105955895B (zh) 分布式消息队列的逻辑控制方法和装置、数据处理设备
CN117724706B (zh) 批流一体流程化实时处理异构平台海量数据的方法及系统
Yahia A language-based approach for web service composition
CN117290016B (zh) 视图的页面配置方法及装置
Vasilev et al. Service for Aggregation of Educational Events and Making Recommendations for “VKontakte” Users

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant