CN111694650A - 一种多维数据作业调度系统 - Google Patents

一种多维数据作业调度系统 Download PDF

Info

Publication number
CN111694650A
CN111694650A CN202010556325.3A CN202010556325A CN111694650A CN 111694650 A CN111694650 A CN 111694650A CN 202010556325 A CN202010556325 A CN 202010556325A CN 111694650 A CN111694650 A CN 111694650A
Authority
CN
China
Prior art keywords
scheduling
module
job
node
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010556325.3A
Other languages
English (en)
Inventor
吴炎泉
陈思恩
杨紫胜
廖雅哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tech Valley Xiamen Information Technology Co ltd
Original Assignee
Tech Valley Xiamen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tech Valley Xiamen Information Technology Co ltd filed Critical Tech Valley Xiamen Information Technology Co ltd
Priority to CN202010556325.3A priority Critical patent/CN111694650A/zh
Publication of CN111694650A publication Critical patent/CN111694650A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本发明公开了一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括Java API接口、Rest API接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置。

Description

一种多维数据作业调度系统
技术领域
本发明涉及大数据分析技术领域,特别涉及一种多维数据作业调度系统。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征,如何通过大数据分析和处理挖掘出数据的商业价值,是人们关注的重点。
对现有的大数据平台来说,数据类型、维度越来越多,数据分析处理作业量也越来越庞大,但目前作业调度方式单一,灵活度不高,难于满足当下大数据平台作业的高效要求。
发明内容
为解决上述问题,本发明提供了一种多维数据作业调度系统。
本发明采用以下技术方案:
一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置,所述Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
优选地,所述所述调度组件还包括跟踪模块,所述跟踪模块用于对执行作业过程的日志进行记录和跟踪。
优选地,所述定时调度模块包括触发子模块,所述触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。
优选地,所述控制流节点包括启动节点及结束节点,所述开始节点用于控制工作流作业的开始,所述结束节点用于控制工作流作业的结束。
优选地,所述控制流节点还包括剔除节点,所述剔除节点用于控制工作流作业的终止。
优选地,所述控制流节点还包括分支节点和合并节点,所述分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达所述合并节点,进行汇聚收拢。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明能够实现数据作业的灵活调度,提升大数据平台作业的高效性。
附图说明
图1为本发明的系统框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本发明公开了一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,其中:
客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,客户端通过Web服务器与调度组件进行数据交互。
调度组件包括作业流模块、定时调度模块、调度配置模块及跟踪模块,其中:
作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流。
动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点。Pig动作节点通过Pig数据分析引擎执行Pig作业,工作流作业在开始下一个动作之前会等待直到pig作业完成。Java动作节点通过Java应用程序在Hadoop集群上作为单个Mapper任务的Map-reduce作业执行,工作流作业在继续下一个动作之前会一直等待直到Java应用程序完成了它的执行。Shell动作节点通过Shell脚本运行一个Shell命令,工作流作业在继续下一个动作之前会一直等待直到Shell命令执行完成。Hive动作节点通过Hive数据库执行Hive作业,工作流作业在继续下一个动作之前会一直等待直到Hive作业执行完成。Sqoop动作节点通过Sqoop数据迁移工具执行Sqoop作业,工作流作业在继续下一个动作之前会一直等待直到Sqoop作业执行完成。
控制节点用于控制工作流作业的开始和结束。控制流节点包括启动节点及结束节点,开始节点用于控制工作流作业的开始,结束节点用于控制工作流作业的结束。控制流节点还包括剔除节点,剔除节点用于控制工作流作业的终止。控制流节点还包括分支节点和合并节点,分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达合并节点,进行汇聚收拢。
定时调度模块用于定时调度作业流模块执行作业,定时调度模块包括触发子模块,触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。调度配置模块用于对定时调度模块进行批量配置。跟踪模块用于对执行作业过程的日志进行记录和跟踪。
Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种多维数据作业调度系统,其特征在于:包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置,所述Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
2.如权利要求1所述的一种多维数据作业调度系统,其特征在于,所述所述调度组件还包括跟踪模块,所述跟踪模块用于对执行作业过程的日志进行记录和跟踪。
3.如权利要求1或2所述的一种多维数据作业调度系统,其特征在于:所述定时调度模块包括触发子模块,所述触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。
4.如权利要求1所述的一种多维数据作业调度系统,其特征在于:所述控制流节点包括启动节点及结束节点,所述开始节点用于控制工作流作业的开始,所述结束节点用于控制工作流作业的结束。
5.如权利要求4所述的一种多维数据作业调度系统,其特征在于:所述控制流节点还包括剔除节点,所述剔除节点用于控制工作流作业的终止。
6.如权利要求4所述的一种多维数据作业调度系统,其特征在于:所述控制流节点还包括分支节点和合并节点,所述分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达所述合并节点,进行汇聚收拢。
CN202010556325.3A 2020-06-17 2020-06-17 一种多维数据作业调度系统 Pending CN111694650A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010556325.3A CN111694650A (zh) 2020-06-17 2020-06-17 一种多维数据作业调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010556325.3A CN111694650A (zh) 2020-06-17 2020-06-17 一种多维数据作业调度系统

Publications (1)

Publication Number Publication Date
CN111694650A true CN111694650A (zh) 2020-09-22

Family

ID=72481575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010556325.3A Pending CN111694650A (zh) 2020-06-17 2020-06-17 一种多维数据作业调度系统

Country Status (1)

Country Link
CN (1) CN111694650A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
CN104734892A (zh) * 2015-04-02 2015-06-24 江苏物联网研究发展中心 大数据处理系统Hadoop在云平台OpenStack上自动部署系统
CN108694082A (zh) * 2018-05-14 2018-10-23 有时数联科技(北京)有限公司 一种跨域作业流调度方法及系统
CN109284324A (zh) * 2018-10-16 2019-01-29 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
CN104734892A (zh) * 2015-04-02 2015-06-24 江苏物联网研究发展中心 大数据处理系统Hadoop在云平台OpenStack上自动部署系统
CN108694082A (zh) * 2018-05-14 2018-10-23 有时数联科技(北京)有限公司 一种跨域作业流调度方法及系统
CN109284324A (zh) * 2018-10-16 2019-01-29 深圳中顺易金融服务有限公司 基于Apache Oozie框架处理大数据的流程任务的调度装置

Similar Documents

Publication Publication Date Title
CN107105009B (zh) 基于Kubernetes系统对接工作流引擎的作业调度方法和装置
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN111241078A (zh) 数据分析系统、数据分析的方法及装置
CN107463595A (zh) 一种基于Spark的数据处理方法及系统
CN110908641B (zh) 基于可视化的流计算平台、方法、设备和存储介质
CN107807983B (zh) 一种支持大规模动态图数据查询的并行处理框架的设计方法
US20200174820A1 (en) Presenting hypervisor data for a virtual machine with associated operating system data
Yan et al. Performance optimization for short MapReduce job execution in Hadoop
Yang The application of mapreduce in the cloud computing
CN112882817B (zh) 一种基于超级计算机的工作流处理方法
CN110489317B (zh) 基于工作流的云系统任务运行故障诊断方法与系统
CN101887410A (zh) 文件转换装置、文件转换方法以及文件转换程序
CN106919697B (zh) 一种将数据同时导入多个Hadoop组件的方法
CN110851234A (zh) 基于docker容器的日志处理方法及装置
CN103109293A (zh) 一种用户行为处理系统及方法
CN112000350A (zh) 一种动态规则更新方法、装置及存储介质
Zvara et al. Optimizing distributed data stream processing by tracing
Demirbaga et al. SmartMonit: Real-time big data monitoring system
CN109635022B (zh) 一种可视化的ElasticSearch数据采集方法及装置
CN108629016B (zh) 支持实时流计算面向大数据数据库控制系统、计算机程序
Dai et al. Research and implementation of big data preprocessing system based on Hadoop
CN116974994A (zh) 一种基于集群的高效能文件协作系统
CN110502337B (zh) 针对Hadoop MapReduce中混洗阶段的优化系统
CN111694650A (zh) 一种多维数据作业调度系统
CN110750362A (zh) 生物信息的分析方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination