CN111694650A - 一种多维数据作业调度系统 - Google Patents
一种多维数据作业调度系统 Download PDFInfo
- Publication number
- CN111694650A CN111694650A CN202010556325.3A CN202010556325A CN111694650A CN 111694650 A CN111694650 A CN 111694650A CN 202010556325 A CN202010556325 A CN 202010556325A CN 111694650 A CN111694650 A CN 111694650A
- Authority
- CN
- China
- Prior art keywords
- scheduling
- module
- job
- node
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Abstract
本发明公开了一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括Java API接口、Rest API接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置。
Description
技术领域
本发明涉及大数据分析技术领域,特别涉及一种多维数据作业调度系统。
背景技术
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征,如何通过大数据分析和处理挖掘出数据的商业价值,是人们关注的重点。
对现有的大数据平台来说,数据类型、维度越来越多,数据分析处理作业量也越来越庞大,但目前作业调度方式单一,灵活度不高,难于满足当下大数据平台作业的高效要求。
发明内容
为解决上述问题,本发明提供了一种多维数据作业调度系统。
本发明采用以下技术方案:
一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置,所述Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
优选地,所述所述调度组件还包括跟踪模块,所述跟踪模块用于对执行作业过程的日志进行记录和跟踪。
优选地,所述定时调度模块包括触发子模块,所述触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。
优选地,所述控制流节点包括启动节点及结束节点,所述开始节点用于控制工作流作业的开始,所述结束节点用于控制工作流作业的结束。
优选地,所述控制流节点还包括剔除节点,所述剔除节点用于控制工作流作业的终止。
优选地,所述控制流节点还包括分支节点和合并节点,所述分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达所述合并节点,进行汇聚收拢。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明能够实现数据作业的灵活调度,提升大数据平台作业的高效性。
附图说明
图1为本发明的系统框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本发明公开了一种多维数据作业调度系统,包括客户端、Web服务器、调度组件、Hadoop集群及数据库,其中:
客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,客户端通过Web服务器与调度组件进行数据交互。
调度组件包括作业流模块、定时调度模块、调度配置模块及跟踪模块,其中:
作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流。
动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点。Pig动作节点通过Pig数据分析引擎执行Pig作业,工作流作业在开始下一个动作之前会等待直到pig作业完成。Java动作节点通过Java应用程序在Hadoop集群上作为单个Mapper任务的Map-reduce作业执行,工作流作业在继续下一个动作之前会一直等待直到Java应用程序完成了它的执行。Shell动作节点通过Shell脚本运行一个Shell命令,工作流作业在继续下一个动作之前会一直等待直到Shell命令执行完成。Hive动作节点通过Hive数据库执行Hive作业,工作流作业在继续下一个动作之前会一直等待直到Hive作业执行完成。Sqoop动作节点通过Sqoop数据迁移工具执行Sqoop作业,工作流作业在继续下一个动作之前会一直等待直到Sqoop作业执行完成。
控制节点用于控制工作流作业的开始和结束。控制流节点包括启动节点及结束节点,开始节点用于控制工作流作业的开始,结束节点用于控制工作流作业的结束。控制流节点还包括剔除节点,剔除节点用于控制工作流作业的终止。控制流节点还包括分支节点和合并节点,分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达合并节点,进行汇聚收拢。
定时调度模块用于定时调度作业流模块执行作业,定时调度模块包括触发子模块,触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。调度配置模块用于对定时调度模块进行批量配置。跟踪模块用于对执行作业过程的日志进行记录和跟踪。
Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种多维数据作业调度系统,其特征在于:包括客户端、Web服务器、调度组件、Hadoop集群及数据库,所述客户端包括JavaAPI接口、RestAPI接口及CLI命令行工具,所述客户端通过Web服务器与调度组件进行数据交互,所述调度组件包括作业流模块、定时调度模块及调度配置模块,所述作业流模块一组动作节点及控制节点,该组动作节点通过控制节点相连以形成一工作流,所述动作节点用于触发计算处理任务的执行,其包括Pig动作节点、Java动作节点、Shell动作节点、Hive动作节点及Sqoop动作节点,所述控制节点用于控制工作流作业的开始和结束,所述定时调度模块用于定时调度作业流模块执行作业,所述调度配置模块用于对定时调度模块进行批量配置,所述Hadoop集群包括HDFS文件系统、Hive数据库、Pig数据分析引擎、Java应用程序、Shell脚本及Sqoop数据迁移工具。
2.如权利要求1所述的一种多维数据作业调度系统,其特征在于,所述所述调度组件还包括跟踪模块,所述跟踪模块用于对执行作业过程的日志进行记录和跟踪。
3.如权利要求1或2所述的一种多维数据作业调度系统,其特征在于:所述定时调度模块包括触发子模块,所述触发子模块基于事件、资源存在或传递参数自动触发调度作业流模块执行作业。
4.如权利要求1所述的一种多维数据作业调度系统,其特征在于:所述控制流节点包括启动节点及结束节点,所述开始节点用于控制工作流作业的开始,所述结束节点用于控制工作流作业的结束。
5.如权利要求4所述的一种多维数据作业调度系统,其特征在于:所述控制流节点还包括剔除节点,所述剔除节点用于控制工作流作业的终止。
6.如权利要求4所述的一种多维数据作业调度系统,其特征在于:所述控制流节点还包括分支节点和合并节点,所述分支节点用于一条路径分离成多条同时进行的执行路径,经分支节点分流的所有执行路径完成后到达所述合并节点,进行汇聚收拢。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010556325.3A CN111694650A (zh) | 2020-06-17 | 2020-06-17 | 一种多维数据作业调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010556325.3A CN111694650A (zh) | 2020-06-17 | 2020-06-17 | 一种多维数据作业调度系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111694650A true CN111694650A (zh) | 2020-09-22 |
Family
ID=72481575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010556325.3A Pending CN111694650A (zh) | 2020-06-17 | 2020-06-17 | 一种多维数据作业调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694650A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324539A (zh) * | 2013-06-24 | 2013-09-25 | 浪潮电子信息产业股份有限公司 | 一种作业调度管理系统及方法 |
CN104734892A (zh) * | 2015-04-02 | 2015-06-24 | 江苏物联网研究发展中心 | 大数据处理系统Hadoop在云平台OpenStack上自动部署系统 |
CN108694082A (zh) * | 2018-05-14 | 2018-10-23 | 有时数联科技(北京)有限公司 | 一种跨域作业流调度方法及系统 |
CN109284324A (zh) * | 2018-10-16 | 2019-01-29 | 深圳中顺易金融服务有限公司 | 基于Apache Oozie框架处理大数据的流程任务的调度装置 |
-
2020
- 2020-06-17 CN CN202010556325.3A patent/CN111694650A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324539A (zh) * | 2013-06-24 | 2013-09-25 | 浪潮电子信息产业股份有限公司 | 一种作业调度管理系统及方法 |
CN104734892A (zh) * | 2015-04-02 | 2015-06-24 | 江苏物联网研究发展中心 | 大数据处理系统Hadoop在云平台OpenStack上自动部署系统 |
CN108694082A (zh) * | 2018-05-14 | 2018-10-23 | 有时数联科技(北京)有限公司 | 一种跨域作业流调度方法及系统 |
CN109284324A (zh) * | 2018-10-16 | 2019-01-29 | 深圳中顺易金融服务有限公司 | 基于Apache Oozie框架处理大数据的流程任务的调度装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107105009B (zh) | 基于Kubernetes系统对接工作流引擎的作业调度方法和装置 | |
CN111400326B (zh) | 一种智慧城市数据管理系统及其方法 | |
CN111241078A (zh) | 数据分析系统、数据分析的方法及装置 | |
CN107463595A (zh) | 一种基于Spark的数据处理方法及系统 | |
CN110908641B (zh) | 基于可视化的流计算平台、方法、设备和存储介质 | |
CN107807983B (zh) | 一种支持大规模动态图数据查询的并行处理框架的设计方法 | |
US20200174820A1 (en) | Presenting hypervisor data for a virtual machine with associated operating system data | |
Yan et al. | Performance optimization for short MapReduce job execution in Hadoop | |
Yang | The application of mapreduce in the cloud computing | |
CN112882817B (zh) | 一种基于超级计算机的工作流处理方法 | |
CN110489317B (zh) | 基于工作流的云系统任务运行故障诊断方法与系统 | |
CN101887410A (zh) | 文件转换装置、文件转换方法以及文件转换程序 | |
CN106919697B (zh) | 一种将数据同时导入多个Hadoop组件的方法 | |
CN110851234A (zh) | 基于docker容器的日志处理方法及装置 | |
CN103109293A (zh) | 一种用户行为处理系统及方法 | |
CN112000350A (zh) | 一种动态规则更新方法、装置及存储介质 | |
Zvara et al. | Optimizing distributed data stream processing by tracing | |
Demirbaga et al. | SmartMonit: Real-time big data monitoring system | |
CN109635022B (zh) | 一种可视化的ElasticSearch数据采集方法及装置 | |
CN108629016B (zh) | 支持实时流计算面向大数据数据库控制系统、计算机程序 | |
Dai et al. | Research and implementation of big data preprocessing system based on Hadoop | |
CN116974994A (zh) | 一种基于集群的高效能文件协作系统 | |
CN110502337B (zh) | 针对Hadoop MapReduce中混洗阶段的优化系统 | |
CN111694650A (zh) | 一种多维数据作业调度系统 | |
CN110750362A (zh) | 生物信息的分析方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |