CN103324539A - 一种作业调度管理系统及方法 - Google Patents

一种作业调度管理系统及方法 Download PDF

Info

Publication number
CN103324539A
CN103324539A CN2013102514236A CN201310251423A CN103324539A CN 103324539 A CN103324539 A CN 103324539A CN 2013102514236 A CN2013102514236 A CN 2013102514236A CN 201310251423 A CN201310251423 A CN 201310251423A CN 103324539 A CN103324539 A CN 103324539A
Authority
CN
China
Prior art keywords
node
job
control
control node
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102514236A
Other languages
English (en)
Other versions
CN103324539B (zh
Inventor
亓开元
张东
刘正伟
王理想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310251423.6A priority Critical patent/CN103324539B/zh
Publication of CN103324539A publication Critical patent/CN103324539A/zh
Application granted granted Critical
Publication of CN103324539B publication Critical patent/CN103324539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供一种作业调度管理系统及方法,其结构包括FTP服务器、客户端、一个控制节点和若干处理节点,其具体方法为:任务节点向控制节点发送任务运行状态信息,包括任务的中间进度状态、错误或异常,控制节点根据异常或错误情况进行异常处理或停止;控制节点在没有收到任务节点心跳信息的情况下,启动心跳测试,测试节点是否存活,在节点已崩溃情况下将所有未完成任务重新调度。该一种作业调度管理系统及方法和现有技术相比,完善了大数据处理软件层次栈,使Hadoop能够突破单个数据中心的资源伸缩瓶颈和业务扩展限制,促进多数据中心的融合,进一步扩展计算能力、提高资源利用率。

Description

一种作业调度管理系统及方法
技术领域
本发明涉及云计算技术领域,具体的说是一种多数据中心间、跨Hadoop集群的作业调度管理系统及方法。
背景技术
近年来,随着信息化建设的深入发展,大量前端设备,如传感器、视频及移动终端得到广泛应用,产生了海量的数据,如访问记录、业务视音频、图片等半结构化和非结构化数据暴涨,使得当前的存储和计算架构已经不能适应“大数据”的发展需求。数据作为战略资源,其重要性毋庸置疑,在实现数据整合、存储的基础上,如何从海量的数据当中快速分析和挖掘出有利用价值的信息,提升政府或行业部门的分析、决策和指挥水平,成为当前数据处理领域的热点问题。
基于MapReduce编程模型的Hadoop集群实现了在大量低端通用服务器组成的无共享集群架构上建立面向海量数据的并行计算模型和可伸缩、可靠的处理环境,被数据中心广泛采用。当前很多政府、行业建设的数据中心采用两级架构,即在总部和分支机构分别建设数据中心并部署Hadoop集群。例如,某省视频监控系统采用省、地市2级部署方式,在从全省范围内查找某线索信息时,如绘制某车辆轨迹时,需要轮询各地的视频索引数据库确定是否存在该车的相关信息,然后根据在各个地市数据查询的结果绘制出该车辆的运行轨迹,计算量较大,传统数据库及处理方式无法满足对处理响应速度的要求,除需要改进原有传统的数据存储方式外,还要实现全省作业集群的统一管理和调度,既实现全省各地市的分布式计算调度,又能实现地市内的计算的并行化。这类业务应用的特征在于需要检索、分析多个数据中心的监控数据,在多个Hadoop集群间统一调度、分配作业,为此需要建立跨集群的Hadoop作业调度管理系统。然而,当前的各种开源版本和各种发型版本Hadoop无法满足跨数据中心的hadoop集群间的作业调度,其中主要面临的问题是:
1)在两级、多数据中心环境下,作为管理者的数据中心需要对申请接入的数据中心进行审核和验证,参与业务处理的数据中心需要保持一定的自主性,掌握对接入和退出的控制。因此,如何实现跨数据中心的安全认证和自治,是跨Hadoop集群作业调度管理首先需要解决的问题。
2)在两级、多数据中心环境下,管理数据中心如何对参与数据中心的Hadoop集群进行有效的控制,如同步或异步方式的指令发送和结果返回,并对接入数据中心的状态和作业运行状态进行监控,是实现跨Hadoop集群作业管理的关键问题。
3)在多数据中心环境下,如何对参与作业运行的数据(如作业程序包、结果文件)进行高效、可靠传输,也是实现跨Hadoop集群作业管理的关键问题。
    利用消息中间件可以满足安全认证接入和异步、可靠传输需求,建立松耦合的两级Hadoop集群体系结构,但是现有消息中间件缺乏对接入节点状态和运行作业的监控方法,并且仅支持建立静态广播主题,缺乏动态的组播机制,无法实现路由分组的运行时定制需求。此外,现有的消息中间件需要在内存中维护消息状态,或采用数据库方式持久化消息,并且其传输协议需要大量的分片和组装、序列化和反序列化开销,在文件规模过大时,例如超过1 GB时,将造成严重的性能瓶颈,然而在基于Hadoop的大数据场景下,大文件相当普遍,因此,如何实现大文件的高速传输是跨数据中心Hadoop集群作业调度管理的关键。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种多数据中心间、跨Hadoop集群的作业调度管理系统及方法。
本发明的技术方案是按以下方式实现的,该一种作业调度管理系统,包括FTP服务器、客户端、一个控制节点和若干处理节点,其中
客户端:将作业包发送给FTP服务器、将控制命令发送给控制节点;
控制节点:接收来自客户端的控制命令,接收来自FTP服务器的数据信息、接收来自处理节点的状态信息、发送相关控制命令给处理节点;
处理节点:接收来自FTP服务器的数据信息、发送结果文件给FTP服务器、发送状态信息给控制节点、接收来自控制节点的控制命令;
FTP服务器:接收来自客户端的作业包和来自处理节点的结果文件,并发送数据信息给控制节点和处理节点。
所述控制节点的详细结构包括:
作业控制模块,负责作业控制命令的接收和作业调度,发送作业部署、启动、停止、暂停、重试和心跳测试等命令;
监控模块,负责追踪作业的生命周期,当出现异常时进行容错处理,同时监控处理节点的加入和退出、作业队列、作业运行情况和资源使用情况;
所述处理节点的结构包括:
数据接收模块,负责作业包的接收;
节点控制模块,负责接收任务启动、关闭、暂停、重试、心跳测试等命令,并负责监测作业任务的运行情况,同时还负责向控制节点发送节点心跳信息;
任务执行容器,负责任务的执行、关闭、暂停和状态返回等运行时支持;
结果返回模块,负责写回处理结果文件。
所述控制节点与处理节点之间设置有消息中间件,该消息中间件包括控制命令队列、结果返回队列和状态信息队列,其中控制命令队列用于发送部署、启动、停止、暂停、重试和心跳测试等命令;结果返回队列用于返回部署、启动、停止、暂停、重试等控制命令的反馈,以及作业执行的反馈结果;状态监控队列用于返回作业的中间进度状态、错误或异常。
所述FTP服务器接收来自控制节点的作业包给处理节点,然后接收来自处理节点的结果文件并发送给控制节点:控制节点将命令作业包上传到FTP服务器,在作业启动命令中附加作业包的FTP地址,发送控制命令;处理节点接收到作业启动命令后,从中解析出作业包的FTP地址,连接FTP服务器下载作业包进行处理;处理完成后,处理节点在结果返回消息中附加结果返回文件的FTP地址,发送结果返回消息,控制节点接收后结果返回消息后解析出返回文件的FTP地址,连接FTP服务器下载作业文件。
客户端定义分发目标,启动MapReduce作业,控制节点按照目标分发作业包,处理节点接收作业包后,以客户端形式提交给Hadoop集群进行处理,Hadoop将作业放入队列,按照策略将作业的各个任务调度到各个计算节点上执行;处理节点在作业执行过程中向控制节点报告作业执行情况,处理节点作业执行完毕后向控制节点返回处理完成消息,并向FTP服务器返回结果文件,控制节点异步接收作业执行结果。
一种作业状态监控方法,该作业的任务状态包括中间状态、异常和错误,其中,中间状态是指作业处于正常运行的某个进度状态,异常是指作业可通过重试或异常处理恢复正常处理的状态,错误是指任务不可通过异常处理恢复运行的状态。
其监控方法包括:任务节点向控制节点发送任务运行状态信息,包括任务的中间进度状态、错误或异常,控制节点根据异常或错误情况进行异常处理或停止;控制节点在没有收到任务节点心跳信息的情况下,启动心跳测试,测试节点是否存活,在节点已崩溃情况下将所有未完成任务重新调度。
本发明与现有技术相比所产生的有益效果是:
本发明的一种作业调度管理系统及方法解决现有技术无法满足的跨Hadoop集群作业控制、状态监控和文件传输等问题,完善了大数据处理软件层次栈,使Hadoop能够突破单个数据中心的资源伸缩瓶颈和业务扩展限制,促进多数据中心的融合,进一步扩展计算能力、提高资源利用率,易于推广。 
附图说明
图1是本发明的作业调度管理系统架构示意图。
图2是本发明的交互控制接口示意图。
图3是本发明的主题队列动态绑定示意图。
图4是本发明的作业状态转换图。
图5是本发明的文件传输过程示意图。
图6是本发明的作业调度流程图。
具体实施方式
下面结合附图对本发明的一种作业调度管理系统及方法作以下详细说明。
本专利提供一种多数据中心间跨Hadoop集群的作业调度管理系统,基于消息中间件实现控制节点与处理节点的交互控制,建立主题到队列的动态绑定实现作业包的运行时组播转发,设计作业的状态转换关系和监控机制,并且通过FTP服务器中转方式实现文件高效传输,解决现有技术无法满足的跨数据中心Hadoop集群交互控制、动态组播路由、作业状态监控和大文件传输等问题。
该管理系统架构基于单指令流多数据流SPMD(Single Program Multiple Data)模型设计,如图1所示,整个系统由一个控制数据中心节点和多个作业处理数据中心节点组成。在数据流上,作业包以广播或组播方式转发到各处理节点,处理节点以文件形式返回处理结构;在控制流上,由控制节点负责作业的调度、监控和容错处理。其中,控制节点包括以下模块:
作业控制模块负责作业命令的接收和作业调度,在处理节点上部属作业并发送启动、停止、暂停、重试和心跳测试等命令。
监控模块追踪作业的生命周期,在启动后收集作业的运行情况,当出现异常时进行容错处理(从初始或中间状态重试);监控作业节点的加入和退出、节点的作业队列、作业运行情况和资源使用情况。
处理节点包括以下模块:
数据接收模块负责作业包的接收。
作业节点控制模块负责接收任务启动、关闭、暂停、重试、心跳测试等命令,并负责发回作业的运行情况;控制模块还负责向控制节点发送节点心跳信息。
任务运行容器负责Hadoop作业的执行、关闭、暂停和状态返回等运行时支持。
结果返回模块以文件形式写回处理结果。
本发明的系统实现了监控和交互控制,交互控制基于消息中间件MOM(Message Oriented Middleware)设计。MOM模式下消息的发送和接收端是异步的,包括点到点和发布/订阅两种通信模型。点对点方式以队列作为数据交换接口,生产者将消息发送至队列,MOM将消息转发至在此队列注册的一个消费者。在没有消费者的情况下,MOM在队列中保留消息并转发给首个注册的消费者。发布/订阅模型以主题作为数据交换接口,生产者将消息发送至主题,MOM将消息转发至所有订阅主题的在线消费者。发布/订阅模型支持持久订阅,持久订阅消费者在消息传送时若处于离线状态,MOM为其保留所有消息,并在上线时转发所有消息。在上述模型基础上,MOM支持可靠性传送模式,保证消息被可靠的传送和成功使用一次。JMS(Java Message Service)是SUN公司提出的一种基于Java的MOM服务接口规范,能够保障数据在网络中高效、稳定、安全、可靠的传输,并确保传输数据的正确性和一致性。以JMS作为通信基础设施,控制节点同处理节点之间的控制接口设计如图2所示,其中
控制命令队列用于发送启动、停止、暂停、重试和心跳测试等命令。
结果返回队列用于返回启动、停止、暂停、重试等控制命令的反馈,以及作业的执行结果的反馈。
状态监控队列用于返回作业的中间进度状态、错误或异常。
基于上述控制接口可以实现控制节点和处理节点间的同步和异步通信,其中
同步通信方式为,控制节点执行线程将控制命令发送到控制命令队列后,等待从结果返回队列接收返回消息。
异步通信方式为,控制节点执行线程将控制命令发送到控制命令队列后,启动一个新线程等待从结果返回队列接收返回消息,之后继续执行。
通过上述两种通信方式,可以实现控制节点与处理节点间的控制命令同步交互,以及处理结果异步返回。
处理节点在接入系统前,需向控制节点管理员提出申请,控制节点管理员审核申请并分配接入用户名user、密码psw以及唯一的用户id。控制节点和处理节点的审核认证和接入过程为
1、处理节点在合适的时候向MOM(地址为url)发起接入请求,代码为
connection=ConnectionFactory.createConnection(user,psw,url,id);
session=connection.createSession(false,Session.AUTO_ACKNOWLEDGE);
2、控制节点验证接入节点的用户名、密码和id,如验证通过,建立连接;
3、连接成功后,处理节点建立控制命令队列(CONTROL_INSTRUCTION_QUEUE)和相应的消费者(control_queue_consumer),代码为:
control_queue=session.createQueue(id+"CONTROL_INSTRUCTION_QUEUE");
control_queue_consumer=session.createConsumer(control_queue);
4、处理节点建立结果返回队列(RESULT_ACKNOWLEDDGE_QUEUE)和状态监控队列(STATUS_MONITOR_QUEUE),以及生产者(result_queue_producer和status_queue_producer),代码为
result_queue=session.createQueue(id+"RESULT_ACKNOWLEDDGE_QUEUE"); result_queue_producer=session.createProducer(result_queue);
status_queue=session.createQueue(id+"STATUS_MONITOR_QUEUE"); status_queue_producer=session.createProducer(status_queue);
现有MOM中间件只能通过预先建立主题实现静态的广播和组播模式,基于JMS设计了一种动态的主题队列绑定和组播路由机制,如图3所示,过程代码为
1)  建立一个动态主题(DYNAMIC_TOPIC)
dynamic_topic= session.createDynamicTopic(DYNAMIC_TOPIC);
2)选定目标队列(control_queue1,control_queue2,control_queue3)加入队列组
queues.add([control_queue1,control_queue2, control_queue3]);
3)绑定主题和队列,创建该主题上的生产者
session.bind(dynamic_topic,queues);
    dynamic_topic_producer=session.createProducer(dynamic_topic);
现有MOM中间件缺乏对接入节点状态和运行作业的监控方法,基于交互控制接口设计了作业状态监控机制。作业监控主要是对各个作业的执行状态进行监测和控制,其中作业的任务状态包括中间状态、异常和错误,其具体关系如图4。中间状态是指作业处于正常运行的某个进度状态,异常是指作业可通过重试或异常处理恢复正常处理的状态,错误是指任务不可通过异常处理恢复运行的状态。基于上述状态转换关系,监控方法包括:
1、处理节点向控制节点发送作业运行状态信息,包括子作业的中间进度状态、错误或异常,控制节点根据异常或错误情况进行异常处理或停止。
2、控制节点在没有收到处理节点心跳信息的情况下,启动心跳测试,测试节点是否存活。
由于MOM需要在内存中维护消息状态,采用文件溢写或数据库方式持久化消息,并且其传输协议需要大量的分片、组装、序列化和反序列化开销,不支持大文件传输,因此,基于高效的文件传输协议FTP,采用FTP服务器中转方式实现大文件的快速传输,通信接口如图2所示,命令包下发和处理结果返回过程如图5所示,包括:
1)控制节点将命令包上传到FTP服务器,例如,上传example.jar到ftp://10.0.0.1服务器job目录的代码为
ftp_client.upload("ftp://10.0.0.1/job","example.jar")
2)控制节点在作业启动命令中附加作业包的FTP地址,发送控制命令,例如将作业example.jar地址附加到控制命令中的代码为
starup_msg.setProperty("JOB_JAR","ftp://10.0.0.1/job/example.jar");
3)处理节点接收到作业启动命令,从中解析出作业包的FTP地址,代码为:
ftp_url=starup_msg.getProperty("JOB_JAR");
4)处理节点连接FTP服务器下载作业包,代码为
ftp_client.download(ftp_url)
5)处理节点启动Hadoop作业进行处理,作业启动命令为
hadoop jar example.jar
6)处理完成后,处理节点将结果文件上传到ftp服务器,并在结果返回消息中附加结果返回文件的FTP地址,发送结果返回消息,例如将作业结果result.txt附加到返回消息中,代码为:
result_msg.setProperty("JOB_RESULT","ftp://10.0.0.1/result/reslut.txt");
7)处理节点接收后结果返回消息后解析出返回文件的FTP地址;
8)处理节点连接FTP服务器下载作业文件,并删除FTP上所有的作业包文件和结果返回文件。
基于上述架构、交互控制机制和文件传输方法,跨Hadoop集群作业执行的过程如图6所示,包括:
1、客户端定义分发目标,启动MapReduce作业,控制节点按照目标组播作业部署和启动等控制命令。
2、处理节点接收作业包后,以客户端形式提交给本数据中心的Hadoop集群进行处理。
3、Hadoop将作业放入调度队列,按照某种策略将作业的各个任务调度到各个计算节点上执行。
4、处理节点在作业执行过程中向控制节点报告作业执行情况。
5、处理节点作业执行完毕后向控制节点返回处理完成消息,并向FTP服务器返回结果文件。
6、控制节点异步接收作业执行结果,可以做进一步的处理(合并,展示,分析等)。

Claims (8)

1.一种作业调度管理系统,其特征在于:包括FTP服务器、客户端、一个控制节点和若干处理节点,其中
客户端:将作业包发送给FTP服务器、将控制命令发送给控制节点;
控制节点:接收来自客户端的控制命令,接收来自FTP服务器的数据信息、接收来自处理节点的状态信息、发送相关控制命令给处理节点;
处理节点:接收来自FTP服务器的数据信息、发送结果文件给FTP服务器、发送状态信息给控制节点、接收来自控制节点的控制命令;
FTP服务器:接收来自客户端的作业包和来自处理节点的结果文件,并发送数据信息给控制节点和处理节点。
2.根据权利要求1所述的一种作业调度管理系统,其特征在于:所述控制节点的详细结构包括:
作业控制模块,负责作业控制命令的接收和作业调度,发送作业部署、启动、停止、暂停、重试和心跳测试等命令;
监控模块,负责追踪作业的生命周期,当出现异常时进行容错处理,同时监控处理节点的加入和退出、作业队列、作业运行情况和资源使用情况。
3.根据权利要求1所述的一种作业调度管理系统,其特征在于:所述处理节点的结构包括:
数据接收模块,负责作业包的接收;
节点控制模块,负责接收任务启动、关闭、暂停、重试、心跳测试等命令,并负责监测作业任务的运行情况,同时还负责向控制节点发送节点心跳信息;
任务执行容器,负责任务的执行、关闭、暂停和状态返回等运行时支持;
结果返回模块,负责写回处理结果文件。
4.根据权利要求1所述的一种作业调度管理系统,其特征在于:所述控制节点与处理节点之间设置有消息中间件,该消息中间件包括控制命令队列、结果返回队列和状态信息队列,其中控制命令队列用于发送部署、启动、停止、暂停、重试和心跳测试等命令;结果返回队列用于返回部署、启动、停止、暂停、重试等控制命令的反馈,以及作业执行的反馈结果;状态监控队列用于返回作业的中间进度状态、错误或异常。
5.根据权利要求1所述的一种作业调度管理系统,其特征在于:所述FTP服务器接收来自控制节点的作业包给处理节点,然后接收来自处理节点的结果文件并发送给控制节点:控制节点将命令作业包上传到FTP服务器,在作业启动命令中附加作业包的FTP地址,发送控制命令;处理节点接收到作业启动命令后,从中解析出作业包的FTP地址,连接FTP服务器下载作业包进行处理;处理完成后,处理节点在结果返回消息中附加结果返回文件的FTP地址,发送结果返回消息,控制节点接收后结果返回消息后解析出返回文件的FTP地址,连接FTP服务器下载作业文件。
6.根据权利要求1所述的一种作业调度管理系统,其特征在于:客户端定义分发目标,启动MapReduce作业,控制节点按照目标分发作业包,处理节点接收作业包后,以客户端形式提交给Hadoop集群进行处理,Hadoop将作业放入队列,按照策略将作业的各个任务调度到各个计算节点上执行;处理节点在作业执行过程中向控制节点报告作业执行情况,处理节点作业执行完毕后向控制节点返回处理完成消息,并向FTP服务器返回结果文件,控制节点异步接收作业执行结果。
7.一种作业状态监控方法,其特征在于其监控方法包括:任务节点向控制节点发送任务运行状态信息,包括任务的中间进度状态、错误或异常,控制节点根据异常或错误情况进行异常处理或停止;控制节点在没有收到任务节点心跳信息的情况下,启动心跳测试,测试节点是否存活,在节点已崩溃情况下将所有未完成任务重新调度。
8.根据权利要求7所述的一种作业状态监控方法,其特征在于:该作业的任务状态包括中间状态、异常和错误,其中,中间状态是指作业处于正常运行的某个进度状态,异常是指作业可通过重试或异常处理恢复正常处理的状态,错误是指任务不可通过异常处理恢复运行的状态。
CN201310251423.6A 2013-06-24 2013-06-24 一种作业调度管理系统及方法 Active CN103324539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310251423.6A CN103324539B (zh) 2013-06-24 2013-06-24 一种作业调度管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310251423.6A CN103324539B (zh) 2013-06-24 2013-06-24 一种作业调度管理系统及方法

Publications (2)

Publication Number Publication Date
CN103324539A true CN103324539A (zh) 2013-09-25
CN103324539B CN103324539B (zh) 2017-05-24

Family

ID=49193301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310251423.6A Active CN103324539B (zh) 2013-06-24 2013-06-24 一种作业调度管理系统及方法

Country Status (1)

Country Link
CN (1) CN103324539B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103701667A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器的心跳的监控方法、装置及系统
CN103955402A (zh) * 2014-05-04 2014-07-30 广东怡创科技股份有限公司 调度终端的方法及装置
CN104104683A (zh) * 2014-07-22 2014-10-15 浪潮电子信息产业股份有限公司 一种面向多数据中心的安全体系实现方法
CN104268695A (zh) * 2014-09-26 2015-01-07 武汉大学 一种多中心流域水环境分布式集群管理系统及方法
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104486447A (zh) * 2014-12-30 2015-04-01 成都因纳伟盛科技股份有限公司 基于Big-Cluster的大平台集群系统
CN104572286A (zh) * 2015-01-30 2015-04-29 湖南蚁坊软件有限公司 一种基于分布式内存集群的任务调度方法
CN105094990A (zh) * 2015-08-18 2015-11-25 国云科技股份有限公司 一种高效的实现大规模数据交换的系统及其方法
CN105912677A (zh) * 2016-04-13 2016-08-31 北京思特奇信息技术股份有限公司 一种基于oozie实现ftp与hdfs互传文件的方法和系统
CN106020955A (zh) * 2016-05-12 2016-10-12 深圳市傲天科技股份有限公司 一种infinite大数据工作流调度平台
CN106209468A (zh) * 2016-07-21 2016-12-07 广东电网有限责任公司中山供电局 异构主备调度自动化系统之间操作信息同步的方法及系统
CN106485635A (zh) * 2016-10-08 2017-03-08 浪潮软件集团有限公司 一种反恐怖领域的动态积分预警方法
CN106844399A (zh) * 2015-12-07 2017-06-13 中兴通讯股份有限公司 分布式数据库系统及其自适应方法
WO2017114170A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 实时计算任务控制方法、装置及应用其的实时计算系统
CN107092531A (zh) * 2017-03-10 2017-08-25 联想(北京)有限公司 计算框架、电子设备及信息处理方法
WO2017177806A1 (zh) * 2016-04-15 2017-10-19 华为技术有限公司 一种管理资源的方法和装置
CN107291547A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种任务调度处理方法、装置及系统
CN107316124A (zh) * 2017-05-10 2017-11-03 中国航天系统科学与工程研究院 大数据环境下大规模事务型作业调度与处理通用平台
WO2017206960A1 (zh) * 2016-06-03 2017-12-07 中兴通讯股份有限公司 数据传输方法、数据传送客户端及数据传送执行器
CN108234606A (zh) * 2017-12-15 2018-06-29 浪潮软件股份有限公司 一种消息管理方法及管理装置
CN108469990A (zh) * 2018-03-14 2018-08-31 北京思特奇信息技术股份有限公司 一种并行计算方法及系统
CN109189641A (zh) * 2018-08-29 2019-01-11 郑州云海信息技术有限公司 一种分布式系统的后台任务监控方法及装置
CN109525375A (zh) * 2018-10-23 2019-03-26 南京轨道交通系统工程有限公司 一种地铁调度通信的信息传输分发方法
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN110414840A (zh) * 2019-07-29 2019-11-05 中国工商银行股份有限公司 跨调度区进行统一调度的方法、系统以及相关设备
CN110673935A (zh) * 2019-08-23 2020-01-10 苏州浪潮智能科技有限公司 一种基于Kubernetes系统的作业调度方法、设备以及存储介质
CN110990145A (zh) * 2019-10-31 2020-04-10 北京浪潮数据技术有限公司 一种分布式系统的后台任务处理机制及方法
CN111324426A (zh) * 2018-12-17 2020-06-23 中国移动通信集团山东有限公司 Oracle数据库任务作业管理调度系统及方法
CN111343222A (zh) * 2018-12-18 2020-06-26 珠海格力电器股份有限公司 监控子系统限制流量的方法、装置、存储介质及服务器
CN111400139A (zh) * 2020-03-18 2020-07-10 中国建设银行股份有限公司 多数据中心批量作业的管控和调度系统、方法及存储介质
CN111459639A (zh) * 2020-04-03 2020-07-28 杭州趣维科技有限公司 一种支持全球多机房部署的分布式任务管理平台及方法
CN111694650A (zh) * 2020-06-17 2020-09-22 科技谷(厦门)信息技术有限公司 一种多维数据作业调度系统
CN111694705A (zh) * 2019-03-15 2020-09-22 北京沃东天骏信息技术有限公司 监控方法、装置、设备及计算机可读存储介质
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112000486A (zh) * 2020-09-11 2020-11-27 中国人民解放军国防科技大学 一种面向高性能计算机的海量计算节点资源监控管理方法
CN112615912A (zh) * 2020-12-11 2021-04-06 中国建设银行股份有限公司 一种节点调度处理方法、装置及存储介质
CN112950169A (zh) * 2021-03-26 2021-06-11 深圳云之家网络有限公司 任务管理方法、装置及计算机存储介质
CN114422333A (zh) * 2021-12-27 2022-04-29 广西壮族自治区公众信息产业有限公司 基于消息中间件背压的消息消费的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728961B1 (en) * 1999-03-31 2004-04-27 International Business Machines Corporation Method and system for dynamically load balancing a process over a plurality of peer machines
CN1777143A (zh) * 2004-10-25 2006-05-24 阿尔卡特公司 使用分布式网络处理的数据交换机中的内部负载平衡
CN101094120A (zh) * 2007-07-04 2007-12-26 中兴通讯股份有限公司 一种基于网络堆叠系统的自动测试系统以及测试方法
CN101441557A (zh) * 2008-11-08 2009-05-27 腾讯科技(深圳)有限公司 基于动态数据拆分的分布式并行计算的系统及其方法
CN103139251A (zh) * 2011-11-29 2013-06-05 神州数码信息系统有限公司 一种城市级数据共享交换平台技术的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728961B1 (en) * 1999-03-31 2004-04-27 International Business Machines Corporation Method and system for dynamically load balancing a process over a plurality of peer machines
CN1777143A (zh) * 2004-10-25 2006-05-24 阿尔卡特公司 使用分布式网络处理的数据交换机中的内部负载平衡
CN101094120A (zh) * 2007-07-04 2007-12-26 中兴通讯股份有限公司 一种基于网络堆叠系统的自动测试系统以及测试方法
CN101441557A (zh) * 2008-11-08 2009-05-27 腾讯科技(深圳)有限公司 基于动态数据拆分的分布式并行计算的系统及其方法
CN103139251A (zh) * 2011-11-29 2013-06-05 神州数码信息系统有限公司 一种城市级数据共享交换平台技术的方法

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103701667A (zh) * 2013-12-27 2014-04-02 乐视网信息技术(北京)股份有限公司 服务器的心跳的监控方法、装置及系统
CN103955402A (zh) * 2014-05-04 2014-07-30 广东怡创科技股份有限公司 调度终端的方法及装置
CN103955402B (zh) * 2014-05-04 2018-08-07 广东海格怡创科技有限公司 调度终端的方法及装置
CN104104683A (zh) * 2014-07-22 2014-10-15 浪潮电子信息产业股份有限公司 一种面向多数据中心的安全体系实现方法
CN104268695A (zh) * 2014-09-26 2015-01-07 武汉大学 一种多中心流域水环境分布式集群管理系统及方法
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104486447A (zh) * 2014-12-30 2015-04-01 成都因纳伟盛科技股份有限公司 基于Big-Cluster的大平台集群系统
CN104572286A (zh) * 2015-01-30 2015-04-29 湖南蚁坊软件有限公司 一种基于分布式内存集群的任务调度方法
CN105094990A (zh) * 2015-08-18 2015-11-25 国云科技股份有限公司 一种高效的实现大规模数据交换的系统及其方法
CN106844399A (zh) * 2015-12-07 2017-06-13 中兴通讯股份有限公司 分布式数据库系统及其自适应方法
CN106844399B (zh) * 2015-12-07 2022-08-09 中兴通讯股份有限公司 分布式数据库系统及其自适应方法
WO2017114170A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 实时计算任务控制方法、装置及应用其的实时计算系统
CN107291547A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种任务调度处理方法、装置及系统
CN107291547B (zh) * 2016-03-31 2021-02-05 创新先进技术有限公司 一种任务调度处理方法、装置及系统
CN105912677A (zh) * 2016-04-13 2016-08-31 北京思特奇信息技术股份有限公司 一种基于oozie实现ftp与hdfs互传文件的方法和系统
WO2017177806A1 (zh) * 2016-04-15 2017-10-19 华为技术有限公司 一种管理资源的方法和装置
CN106020955A (zh) * 2016-05-12 2016-10-12 深圳市傲天科技股份有限公司 一种infinite大数据工作流调度平台
CN107465644B (zh) * 2016-06-03 2021-02-23 中兴通讯股份有限公司 数据传输方法、数据传送客户端及数据传送执行器
WO2017206960A1 (zh) * 2016-06-03 2017-12-07 中兴通讯股份有限公司 数据传输方法、数据传送客户端及数据传送执行器
CN107465644A (zh) * 2016-06-03 2017-12-12 中兴通讯股份有限公司 数据传输方法、数据传送客户端及数据传送执行器
CN106209468B (zh) * 2016-07-21 2019-10-29 广东电网有限责任公司中山供电局 异构主备调度自动化系统之间操作信息同步的方法及系统
CN106209468A (zh) * 2016-07-21 2016-12-07 广东电网有限责任公司中山供电局 异构主备调度自动化系统之间操作信息同步的方法及系统
CN106485635A (zh) * 2016-10-08 2017-03-08 浪潮软件集团有限公司 一种反恐怖领域的动态积分预警方法
US10877804B2 (en) 2017-03-10 2020-12-29 Lenovo (Beijing) Co., Ltd. Computing apparatus, electronic device, and information processing method
CN107092531A (zh) * 2017-03-10 2017-08-25 联想(北京)有限公司 计算框架、电子设备及信息处理方法
CN107316124A (zh) * 2017-05-10 2017-11-03 中国航天系统科学与工程研究院 大数据环境下大规模事务型作业调度与处理通用平台
CN107316124B (zh) * 2017-05-10 2018-08-31 中国航天系统科学与工程研究院 大数据环境下大规模事务型作业调度与处理通用系统
CN108234606A (zh) * 2017-12-15 2018-06-29 浪潮软件股份有限公司 一种消息管理方法及管理装置
CN108469990A (zh) * 2018-03-14 2018-08-31 北京思特奇信息技术股份有限公司 一种并行计算方法及系统
CN109189641A (zh) * 2018-08-29 2019-01-11 郑州云海信息技术有限公司 一种分布式系统的后台任务监控方法及装置
CN109525375A (zh) * 2018-10-23 2019-03-26 南京轨道交通系统工程有限公司 一种地铁调度通信的信息传输分发方法
CN111324426A (zh) * 2018-12-17 2020-06-23 中国移动通信集团山东有限公司 Oracle数据库任务作业管理调度系统及方法
CN111343222A (zh) * 2018-12-18 2020-06-26 珠海格力电器股份有限公司 监控子系统限制流量的方法、装置、存储介质及服务器
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN111694705A (zh) * 2019-03-15 2020-09-22 北京沃东天骏信息技术有限公司 监控方法、装置、设备及计算机可读存储介质
CN110414840A (zh) * 2019-07-29 2019-11-05 中国工商银行股份有限公司 跨调度区进行统一调度的方法、系统以及相关设备
CN110673935A (zh) * 2019-08-23 2020-01-10 苏州浪潮智能科技有限公司 一种基于Kubernetes系统的作业调度方法、设备以及存储介质
CN110990145A (zh) * 2019-10-31 2020-04-10 北京浪潮数据技术有限公司 一种分布式系统的后台任务处理机制及方法
CN111400139A (zh) * 2020-03-18 2020-07-10 中国建设银行股份有限公司 多数据中心批量作业的管控和调度系统、方法及存储介质
CN111400139B (zh) * 2020-03-18 2023-09-22 中国建设银行股份有限公司 多数据中心批量作业的管控和调度系统、方法及存储介质
CN111459639A (zh) * 2020-04-03 2020-07-28 杭州趣维科技有限公司 一种支持全球多机房部署的分布式任务管理平台及方法
CN111459639B (zh) * 2020-04-03 2023-10-20 杭州小影创新科技股份有限公司 一种支持全球多机房部署的分布式任务管理平台及方法
CN111694650A (zh) * 2020-06-17 2020-09-22 科技谷(厦门)信息技术有限公司 一种多维数据作业调度系统
CN111818159A (zh) * 2020-07-08 2020-10-23 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112000486A (zh) * 2020-09-11 2020-11-27 中国人民解放军国防科技大学 一种面向高性能计算机的海量计算节点资源监控管理方法
CN112000486B (zh) * 2020-09-11 2022-10-28 中国人民解放军国防科技大学 一种面向高性能计算机的海量计算节点资源监控管理方法
CN112615912B (zh) * 2020-12-11 2022-07-12 中国建设银行股份有限公司 一种节点调度处理方法、装置及存储介质
CN112615912A (zh) * 2020-12-11 2021-04-06 中国建设银行股份有限公司 一种节点调度处理方法、装置及存储介质
CN112950169A (zh) * 2021-03-26 2021-06-11 深圳云之家网络有限公司 任务管理方法、装置及计算机存储介质
CN114422333A (zh) * 2021-12-27 2022-04-29 广西壮族自治区公众信息产业有限公司 基于消息中间件背压的消息消费的方法和系统
CN114422333B (zh) * 2021-12-27 2023-11-10 广西壮族自治区公众信息产业有限公司 基于消息中间件背压的消息消费的方法和系统

Also Published As

Publication number Publication date
CN103324539B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN103324539A (zh) 一种作业调度管理系统及方法
CN103414761B (zh) 一种基于Hadoop架构的移动终端云资源调度方法
CN103516807B (zh) 一种云计算平台服务器负载均衡系统及方法
CN100547973C (zh) 一种基于对等网络的高性能计算系统
CN111600936B (zh) 一种适用于泛在电力物联网边缘终端的基于多容器的非对称处理系统
CN102521044A (zh) 一种基于消息中间件的分布式任务调度方法及系统
Lazidis et al. Publish–Subscribe approaches for the IoT and the cloud: Functional and performance evaluation of open-source systems
CN113079159A (zh) 一种基于区块链的边缘计算网络架构
US9104488B2 (en) Support server for redirecting task results to a wake-up server
CN102629939B (zh) 电力企业服务总线实现方法及装置
US10498817B1 (en) Performance tuning in distributed computing systems
WO2012113290A1 (zh) 基因计算系统和方法
CN101652750A (zh) 数据处理装置、分散处理系统、数据处理方法及数据处理程序
CN111885439B (zh) 一种光网络综合管理和值勤管理系统
Wang et al. An SDN-based publish/subscribe-enabled communication platform for IoT services
CN109558239A (zh) 一种任务调度方法、装置、系统、计算机设备和存储介质
CN113515361A (zh) 一种面向服务的轻量级异构计算集群系统
CN112099930A (zh) 一种量子计算机集群分布式队列调度方法
CN103312808B (zh) 一种云操作系统总线及通信方法
Heidt et al. Omnivore: Integration of grid meta-scheduling and peer-to-peer technologies
Taniar et al. Research on real-time data transmission between IoT gateway and cloud platform based on two-way communication technology
CN110955731A (zh) 一种基于Chord环的多源遥感大数据处理方法及装置
Chang et al. An M2M computing model for improving the performance among devices
Liu et al. Formalization and Verification of RocketMQ Using CSP
Costa et al. Using broadcast networks to create on-demand extremely large scale high-throughput computing infrastructures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant