CN103207814A - 一种去中心化的跨集群资源管理与任务调度系统与调度方法 - Google Patents

一种去中心化的跨集群资源管理与任务调度系统与调度方法 Download PDF

Info

Publication number
CN103207814A
CN103207814A CN201210580401XA CN201210580401A CN103207814A CN 103207814 A CN103207814 A CN 103207814A CN 201210580401X A CN201210580401X A CN 201210580401XA CN 201210580401 A CN201210580401 A CN 201210580401A CN 103207814 A CN103207814 A CN 103207814A
Authority
CN
China
Prior art keywords
resource
task
cluster
local
subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210580401XA
Other languages
English (en)
Other versions
CN103207814B (zh
Inventor
吴增巍
王琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Simulation Center
Original Assignee
Beijing Simulation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Simulation Center filed Critical Beijing Simulation Center
Priority to CN201210580401.XA priority Critical patent/CN103207814B/zh
Publication of CN103207814A publication Critical patent/CN103207814A/zh
Application granted granted Critical
Publication of CN103207814B publication Critical patent/CN103207814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种去中心化的跨集群资源管理与任务调度系统与调度方法,该调度系统包括:提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系统,同时收集本地和远程的资源,以此为依据进行作业调度;提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。本发明去中心化的跨集群资源管理与任务调度方法整合单集群资源,一方面提高了作业的执行效率,提高了用户体验,另一方面也有效利用了现有资源,使资源得到最大化利用,节省了购买硬件以扩充计算能力的成本。

Description

一种去中心化的跨集群资源管理与任务调度系统与调度方法
技术领域
本发明涉及一种跨集群的资源管理与任务调度系统与调度方法,特别是涉及一种去中心化的跨集群资源管理与任务调度系统与调度方法。
背景技术
单集群作业调度程序已经实现了单集群的作业调度及负载均衡,一旦作业过多,所需计算资源大于集群的现有资源,将造成低优先级作业的等待,势必影响用户的使用体验,因此,寻求一种跨集群资源管理与任务调度方法十分必要。跨集群资源管理和作业调度分为中心化管理调度和去中心化作业管理调度,中心化管理调度存在中心失效导致系统整体瘫痪的问题,而且中心集群的安全也直接影响系统中其他集群的安全,而去中心化管理调度是一种网状结构,单集群的问题不会影响整体系统,因此,需要寻找一种提高作业调度的效率,节省数据传输时间的去中心化的跨集群资源管理与任务调度方法。
发明内容
针对以上发明的目的在于提供一种去中心化的跨集群资源管理与任务调度系统与调度方法,以解决作业所需资源大于集群已有资源时,作业的执行效率问题。
每个集群系统都可成为一个自组织和自管理的子系统,同时多个集群又可联合起来构成一个网状的系统进行统一管理和使用。此过程对用户是透明的,用户无需关心其任务在哪台主机或哪个集群中运行,只需通过Web页面进行简单的作业提交即可使用多个集群中庞大的计算资源。系统分为三个模块,分别为:个性化门户、资源监控器和任务管理器。个性化门户是一个web门户页面,提供给用户一个提交任务的界面,负责与用户交互。资源监控器负责本地集群及远端集群的资源监控,资源监控为任务分发提供依据。任务管理器负责任务执行和任务分发,在本地资源满足任务要求的前提下,任务管理器优先将任务调度至本地集群执行,在本地资源不足而外集群资源充足的情况下,任务管理器将任务分发,调度至别的集群执行任务,并在任务完成后收回结果文件。系统运行过程分为以下三个部分:
一、本地集群资源的管理和任务执行
由于带宽等因素的制约,用户提交任务将优先使用本地资源。本地集群中的资源包括硬件资源、软件资源和服务资源三类,由资源管理中心进行统一管理和使用。集群中的资源可动态变化,即支持资源的随时移入和移出。用户提交的后,任务管理器向资源管理中心提出查询请求,资源管理中心收集集群内资源信息,并将结果返回给任务调度器。本地资源可以满足需求时,任务由任务管理器加入任务队列,等待分配资源执行,执行完毕后通知用户并将结果返回。
二、本地资源不足时,跨集群使用远程资源
当出现以下几种情况,将使用跨集群的资源:1.本地集群没有任务执行所需的资源。如任务需要使用ansys软件,本地资源没有,而其它集群有此类软件。2.本地负载过重。如任务排队现象过于严重。此时,资源管理中心则与其他集群的资源管理中心进行通讯,收集其它集群的状态信息,为任务的跨集群调度提供数据支持。
三、将任务调度至其他集群执行并进行管理
本地集群的资源无法满足任务的需求时,任务管理器将根据其它集群资源管理中心反馈回的结果择优挑选目的集群,进行跨集群的任务调度。任务将由其他集群的任务管理器加入其任务队列。本地的任务管理器也可对其调度出的任务进行kill、结果取回等操作。对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。
跨集群作业调度模块完成的任务是将本地集群排队的作业合理地分配到其他集群计算,待作业完成后,能够快速及时地获取作业结果。跨集群作业调度模块遵循集群间负载均衡的原理,实现跨集群作业调度策略。跨集群作业调度策略将综合考虑集群间的物理距离,网络传输速度,各集群计算能力等因素。跨集群作业调度模块的主要功能有:
(1)作业控制:支持用户对其提交作业的控制,包括对作业的提交、删除、修改和监视功能以及用户对作业结果的取回。此外还支持管理员对用户提交作业的全局管理功能。
(2)作业处理辅助:为作业处理提供前期准备和后续支持,包括建立批处理作业,将处理作业加入执行队列,定时记录作业处理情况、将作业结果存放至指定位置,便于用户取回等功能。
(3)作业处理控制:根据用户需求,对作业的处理进行控制,包括对作业计算时间、占用CPU数目、占用内存大小、存储数据大小等进行控制。
(4)高效的调度策略:由于计算能力、用户需求不同,提供对作业优先级、资源使用优先级、用户份额控制,保证用户满意度和资源的使用效率。
(5)负载均衡:分布式和并行计算时,应考虑负载均衡问题,跨集群作业调度模块可以根据各集群的负载情况,综合考虑数据传输效率,为等待作业分配计算资源,确保作业的运行效率。
本发明的目的通过以下技术方案来实现:
一种去中心化的跨集群资源管理与任务调度系统,该调度系统包括:
提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;
提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系统,同时收集本地和远程的资源,以此为依据进行作业调度;
提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。
进一步,所述提供管理与协调服务的子系统、提供计算服务的子系统和提供接入的子系统分别包括:
个性化门户,用于与客户交互请求资源信息;
资源监控器,用于对本地集群及远端集群的资源监控,为任务管理分发提供依据;
任务管理器,用于对本地集群资源和外集群资源进行分析,对请求任务进行分配。
3进一步,所述提供管理与协调服务的子系统,提供计算服务的子系统和提供接入的子系统之间的调用采用web service实现,保证接口的统一性和对防火墙的跨越性
一种去中心化的跨集群资源管理与任务调度方法,该方法包括:
1)个性化门户提供用户交互界面,提交任务至任务管理器;
2)资源监控器搜集本地集群或者跨集群搜集可用资源信息;
3)根据获取的可用资源信息,任务管理器选择任务分配的目的集群并由该集群执行分配任务。
进一步,所述步骤2中资源监控器搜集本地集群资源的具体方法为:资源监控器每隔一定的时间收集本集群及其他集群的资源信息,当有任务通过门户提交时,任务管理器查看资源管理中心收集集群内资源信息,如是否有所需软件、是否计算资源足够、任务队列是否过长等,并对采集到的信息进行判断,如果能够满足条件则将该任务加入到本地队列中,任务队列按照优先级与加入时间依次执行,任务执行完毕后将结果返回给个性化门户。
进一步,所述步骤2中资源监控器跨集群搜集资源时的具体方法为:每个集群通过本地的个性化门户接受到任务后,资源监控器查询本地资源能否满足计算需求,如能满足,则在集群内部完成任务,如果不能满足计算需求,则遍历配置文件中的集群,选取合适的集群并将任务分配至该集群上。
进一步,所述步骤3中集群执行分配任务的具体步骤包括:
(1)用户登录本地门户,验证通过后,提交任务;
(2)提交作业时,任务管理器根据本地资源管理中心提供的数据,判断本地资源是否满足需求;
(3)如果本地资源满足任务的需求则使用本地调度组件将任务提交至本地运行;
(4)如果本地资源无法满足任务的需求,则跨集群收集信息,使用远程调度组件将任务转发至适当的集群系统;
(5)远程的集群系统要根据所需进行许可证license申请;申请成功后执行计算资源预留操作;预留成功后再发出数据文件的传输请求,用户上传至本地的数据文件将传输至远程集群系统中,传输完毕后立即执行作业。当某个环节失败后将对前面的步骤进行回滚操作,如计算资源预留失败将释放license资源;
(6)作业完成后,将计算结果取回本地,提供用户下载、在线浏览方式的使用,对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。
进一步,所述的步骤2中的资源信息根据信息的变换,分为静态信息和动态信息,所述静态信息在首次资源收集时写入资源配置文件时,不再重复采集;所述动态信息为资源加入时随时发生变动的数据,由系统周期性或接受请求时采集。
本发明的优点在于:
去中心化的跨集群资源管理与任务调度方法整合单集群资源,一方面提高了作业的执行效率,提高了用户体验,另一方面也有效利用了现有资源,使资源得到最大化利用,节省了购买硬件以扩充计算能力的成本。
附图说明
图1:本发明集群资源管理与任务调度系统结构图;
图2:跨集群资源调度方法流程图。
具体实施方式
下面结合附图对本发明进行详细说明。
如图1所示为本发明集群资源管理与任务调度系统结构图,针对资源的分布与功能特性,本发明将系统分为三类,分别是:提供计算管理与协调服务的子系统,提供计算服务的子系统和提供接入的子系统。各子系统间的调用使用web service实现,保证了接口的统一性和对防火墙的跨越性。
(1)提供管理与协调服务的子系统
部分单位本身并不提供高性能计算服务,但提供管理与协调的功能。该子系统收集其它子系统的信息,提供监控、报表与计费、资源共享协调等工作。为高性能计算系统的管理、规划提供决策参考。
(2)提供计算服务的子系统
部署有高性能计算节点的数据中心,作为提供计算子系统,是任务运行与调度的实体。它们通过资源管理模块收集本地和远程的资源,再以此为依据进行作业调度。
(3)提供接入的子系统
提供接入的子系统将建设在没有配备高性能集群的单位,但可以为用户提供本地化的作业提交、管理等访问体验,并帮助单位快速地加入到跨集群高性能系统中。
该分类方式结合了传统集群管理系统中惯用的“主-从式”与当前云计算流行的“对等式”管理的优缺点,每个系统各司其职,但一个子系统的故障不会对其它子系统造成影响,从而达到了去中心化的目的,将星型的管理方式转变为网状的管理方式。
如图2所示为跨集群资源调度方法流程图,一种去中心化的跨集群资源管理与任务调度方法的具体步骤为:
第一步、个性化门户提交任务
此处个性化门户可以为Web门户网站,通过Web门户网站,用户将提交任务至高性能集群执行。门户网站提供给用户使用各种工具软件的接口,如fluent任务,用户根据网页的内容,填入运行软件所需的参数,如fluent任务需给出后缀名为.cas的文件,并设定迭代次数,用户提交任务后,自动生成软件调用命令,并传入相应的参数,同时给出相关运行文件的路径地址。
第二步、资源监控器收集资源信息
1、资源分类
针对任务调度的特点,将资源分为三类:计算资源、软件资源和服务资源。根据信息的变化性,又可细分为静态信息和动态信息。静态信息在资源加入时写入,不再重复采集。动态信息为资源的随时会发生变动的数据,由系统周期性或接受请求时进行采集。
Figure BDA00002663390500051
集群使用资源注册与心跳信号相结合的方式,实现了对资源动态变化的管理。当有新的资源加入时,将向资源管理中心进行注册,可用资源动态扩展。资源也可主动脱离资源管理中心,成为集群中的独立资源。同时,资源管理中心会对注册过的资源周期性地发送心跳信号,确认资源是否存活,没有响应的话则会删除该资源信息。从而保证了对资源随时移入移出等变化的支持。
2、本地集群资源的管理
用户提交任务后,任务管理器向资源管理中心提出查询请求,资源管理中心收集集群内资源信息,如是否有所需软件、是否计算资源足够、任务队列是否过长等,并对采集到的信息进行判断,如果能够满足条件则通知任务管理器,任务管理器将该任务加入到本地队列中。任务队列按照优先级与加入时间依次执行。任务执行完毕后将结果返回给用户。
3、跨集群远程资源的管理
本地资源不足或负载过重时将使用跨集群的资源。跨集群资源信息的收集,实际上是各集群的资源管理中间件信息共享的过程。各集群资源管理中间件进行通信,从而得到多集群中资源的状态等信息。其具体实现方式为:
对于集群内部,使用节点动态加入技术,支持集群内节点的动态调整和随时移入移出。具体实现原理为集群中采用“主-从”式结构,一台管理节点控制多台工作节点。管理节点内存中维护着NodeTable,key为NodeName,value为NodeIP。工作节点启动后,与配置文件中指定的管理节点通过TCP/IP协议建立连接,管理节点将工作节点的信息加入到NodeTable中。同时,管理节点会周期性轮询NodeTable,向每一个工作节点发送心跳信号,如无响应,再次发送心跳信号,到第十次发送失败时则认为该工作节点失去连接,从NodeTable中删除NodeName与NodeIP对。
对于集群间,采用了去中心化思想的集群通讯技术。每个集群通过本地的个性化门户接受到任务后,查询本地资源能否满足计算需求,如能满足,则在集群内部完成任务。如果不能满足计算需求,则遍历配置文件中的集群,选取合适的集群并将任务分配至该集群上。
Figure BDA00002663390500061
Figure BDA00002663390500062
通过getClusterInfo接口获取集群的静态信息,如集群的规模、描述;通过getClusterPerfmance接口获取集群的动态信息,如集群有多少核空闲、可以提供哪种计算服务等;通过putRemoteTask接口将新的任务投掷到远程集群上进行处理,并得到远程集群返回的任务号;queryRemoteTask接口可获取远程任务的状态信息,返回状态的枚举型,包括“运行、挂起、等待、错误”;如调用状态查询后发现任务仍在等待而本地资源出现空闲,可调用cancelRemoteTask接口取消掉远程任务,取而代之在本地运行;查询到任务结束后可使用getRemoteTaskResult取回本地结果。
第三步、任务管理器分派任务
获取资源信息后,任务管理器根据资源监控器获取的信息,选择任务分配的目的集群。任务管理器采用多种调度策略相结合的方式进行作业调度。具体调度策略有:
优先级调度:将排队任务按优先级从高到低排列,高优先级任务先进行跨集群调度。算法流程如下:
按照某种优先级进行排序的任务队列JobList={n1,n2,……,nv};
time=0;
While JobList!=NULL
选择JobList最前面满足资源需求的任务执行;
time=当下一个可用资源出现的时刻;
EndWhile
当排队等待的作业优先级都一样时,采用先来先服务算法(First come first served):先到的任务先分配到其他集群执行。算法流程如下:
按照先后到达的时间排序的任务队列JobList={n1,n2,……,nv};
While JobList!=NULL&&最前面的任务资源请求满足
选择JobList最前面的任务执行;
time=当下一个可用资源出现的时刻;
EndWhile
跨集群动态反馈负载均衡算法:跨集群动态反馈负载均衡算法考虑各集群的实时负载和响应情况,不断调整集群间处理请求的比例,避免某些集群超载时仍收到大量请求的问题,提高整个跨集群系统的吞吐量。
上述算法可解决大部分作业的跨集群调度,但若作业的优先级很低,对资源要求较大时,将出现长时间不能得到运行的现象,为此,可采用资源预留的策略,即当一个作业在队列中等待的时间超过一定值时,跨集群作业调度模块将依据本地集群的资源量及其他集群资源量,对作业所需资源进行预留,若本地集群资源量满足需求,则预留本地集群资源,若其他集群满足,则将作业调度至其他集群。算法流程如下:
按照某种规则进行排序的任务队列JobList={n1,n2,……,nv};
time=0;
maxtime=N;作业等待的最长时间
While JobList!=NULL
if Job等待时间大于maxtime
为Job所需资源进行预留;
time=预留资源再次可用时刻;
EndWhile
任务管理器遵循集群间负载均衡的原理,实现跨集群作业调度策略。跨集群作业调度策略将综合考虑集群间的物理距离,网络传输速度,各集群计算能力等因素。任务管理器完成的任务是将本地集群排队的作业合理地分配到其他集群计算,待作业完成后,能够快速及时地获取作业结果。对于远程作业等待时间过长或没有响应的情况,本地任务管理模块将发送kill信号,结束远程任务,重新选择合适的目的主机进行执行。任务管理器又包括本地作业调度模块、数据文件传输模块和远程调度模块组件。
任务执行的完整过程为:
(1)用户登录本地门户,验证通过后,提交任务;
(2)提交作业时,任务管理器中的作业调度模块根据本地资源管理中心提供的数据,判断本地资源是否满足需求
(3)如果本地资源满足任务的需求则使用本地调度组件将任务提交至本地运行
(4)如果本地资源无法满足任务的需求,则跨集群收集信息,使用远程调度组件将任务转发至适当的集群系统。
(5)远程的集群系统要根据所需进行license申请;申请成功后执行计算资源预留操作;预留成功后再发出数据文件的传输请求。用户上传至本地的数据文件将传输至远程集群系统中,传输完毕后立即执行作业。当某个环节失败后将对前面的步骤进行回滚操作,如计算资源预留失败将释放license资源。license申请、计算资源预留和数据文件的传输这三步业务流程采用“事务”机制,即要么全部成功要么全部失败,最终不能出现部分成功部分失败的中间状态,保证了资源的高效利用,减少了资源抢占、回收失败等异常发生的概率。数据文件传输作为最后一个环节,成功后立马执行任务,使得任务数据最多经过一次网络远程传输,将极大节约了带宽的使用。
(6)作业完成后,将计算结果取回本地,提供用户下载、在线浏览等方式的使用。对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。
目前,利用本发明跨集群调度方法,联合四家院所实施资源共享和跨集群任务调度,其中一个研究所拥有百万亿次集群,另外三个拥有十几亿次集群,每个院所将自身所拥有的计算资源共享出50%作为共享资源,则总共能提供75万亿次的共享计算能力,如果不使用共享的方式,每个院所想要达到前者的效果,还需投入建设225万亿次计算能力的高性能计算中心。所以采用跨集群资源管理与任务调度系统能够节约225万亿次计算能力的硬件购买费用和维护费用。
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种去中心化的跨集群资源管理与任务调度系统,其特征在于,该调度系统包括:
提供管理与协调服务的子系统,收集其它子系统的信息,提供监控、报表与计费、资源共享协调工作,同时对高性能计算系统的管理、规划提供决策参考;
提供计算服务的子系统,设置有高性能计算节点的数据中心,作为提供计算子系统,同时收集本地和远程的资源,以此为依据进行作业调度;
提供接入的子系统,为用户提供本地化的作业提交、管理访问服务。
2.根据权利要求1所述的一种去中心化的跨集群资源管理与任务调度系统,其特征在于,所述提供管理与协调服务的子系统、提供计算服务的子系统和提供接入的子系统分别包括:
个性化门户,用于与客户交互请求资源信息;
资源监控器,用于对本地集群及远端集群的资源监控,为任务管理分发提供依据;
任务管理器,用于对本地集群资源和外集群资源进行分析,对请求任务进行分配。
3.根据权利要求1所述的一种去中心化的跨集群资源管理与任务调度系统,其特征在于,所述提供管理与协调服务的子系统,提供计算服务的子系统和提供接入的子系统之间的调用采用web service实现,保证接口的统一性和对防火墙的跨越性。
4.一种去中心化的跨集群资源管理与任务调度方法,其特征在于,该方法包括:
1)个性化门户提供用户交互界面,提交任务至任务管理器;
2)资源监控器搜集本地集群或者跨集群搜集可用资源信息;
3)根据获取的可用资源信息,任务管理器选择任务分配的目的集群并由该集群执行分配任务。
5.根据权利要求4所述的一种去中心化的跨集群资源管理与任务调度方法,其特征在于,所述步骤2中资源监控器搜集本地集群资源的具体方法为:资源监控器每隔一定的时间收集本集群及其他集群的资源信息,当有任务通过门户提交时,任务管理器查看资源管理中心收集集群内资源信息,如是否有所需软件、是否计算资源足够、任务队列是否过长等,并对采集到的信息进行判断,如果能够满足条件则将该任务加入到本地队列中,任务队列按照优先级与加入时间依次执行,任务执行完毕后将结果返回给个性化门户。
6.根据权利要求4所述的一种去中心化的跨集群资源管理与任务调度方法,其特征在于,所述步骤2中资源监控器跨集群搜集资源时的具体方法为:每个集群通过本地的个性化门户接受到任务后,资源监控器查询本地资源能否满足计算需求,如能满足,则在集群内部完成任务,如果不能满足计算需求,则遍历配置文件中的集群,选取合适的集群并将任务分配至该集群上。
7.根据权利要求4所述的一种去中心化的跨集群资源管理与任务调度方法,其特征在于,所述步骤3中集群执行分配任务的具体步骤包括:
(1)用户登录本地门户,验证通过后,提交任务;
(2)提交作业时,任务管理器根据本地资源管理中心提供的数据,判断本地资源是否满足需求;
(3)如果本地资源满足任务的需求则使用本地调度组件将任务提交至本地运行;
(4)如果本地资源无法满足任务的需求,则跨集群收集信息,使用远程调度组件将任务转发至适当的集群系统;
(5)远程的集群系统要根据所需进行许可证license申请;申请成功后执行计算资源预留操作;预留成功后再发出数据文件的传输请求,用户上传至本地的数据文件将传输至远程集群系统中,传输完毕后立即执行作业。当某个环节失败后将对前面的步骤进行回滚操作,如计算资源预留失败将释放license资源;
(6)作业完成后,将计算结果取回本地,提供用户下载、在线浏览方式的使用,对于运行时间较长的任务,还可以随时取回中间结果以方便用户核对与使用。
8.根据权利要求4所述的一种去中心化的跨集群资源管理与任务调度方法,其特征在于,所述的步骤2中的资源信息根据信息的变换,分为静态信息和动态信息,所述静态信息在首次资源收集时写入资源配置文件时,不再重复采集;所述动态信息为资源加入时随时发生变动的数据,由系统周期性或接受请求时采集。
CN201210580401.XA 2012-12-27 2012-12-27 一种去中心化的跨集群资源管理与任务调度系统与调度方法 Active CN103207814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210580401.XA CN103207814B (zh) 2012-12-27 2012-12-27 一种去中心化的跨集群资源管理与任务调度系统与调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210580401.XA CN103207814B (zh) 2012-12-27 2012-12-27 一种去中心化的跨集群资源管理与任务调度系统与调度方法

Publications (2)

Publication Number Publication Date
CN103207814A true CN103207814A (zh) 2013-07-17
CN103207814B CN103207814B (zh) 2016-10-19

Family

ID=48755043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210580401.XA Active CN103207814B (zh) 2012-12-27 2012-12-27 一种去中心化的跨集群资源管理与任务调度系统与调度方法

Country Status (1)

Country Link
CN (1) CN103207814B (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577256A (zh) * 2013-11-21 2014-02-12 五八同城信息技术有限公司 分布式定时任务调度系统
CN103744734A (zh) * 2013-12-24 2014-04-23 中国科学院深圳先进技术研究院 一种任务作业处理方法、装置及系统
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和系统
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN104679877A (zh) * 2015-03-12 2015-06-03 浪潮集团有限公司 一种高可用集群资源管理方法
CN105227349A (zh) * 2015-08-27 2016-01-06 北京泰乐德信息技术有限公司 游牧式自组网调度系统及其调度方法
CN105446810A (zh) * 2015-12-24 2016-03-30 赞奇科技发展有限公司 基于成本代价的多农场云渲染任务分发系统与方法
CN105607951A (zh) * 2015-12-17 2016-05-25 北京奇虎科技有限公司 处理数据请求及获取服务器信息的方法及装置
CN106293911A (zh) * 2016-07-29 2017-01-04 乐视控股(北京)有限公司 分布式调度系统、方法
CN106453497A (zh) * 2016-09-08 2017-02-22 天津海量信息技术股份有限公司 一种分布式集群系统及其资源调配方法
CN106663033A (zh) * 2014-04-28 2017-05-10 甲骨文国际公司 在事务中间件机器环境支持绕域和代理模型并更新服务信息以跨域消息传送的系统和方法
CN106897133A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN107079045A (zh) * 2014-10-14 2017-08-18 微软技术许可有限责任公司 使用集群的节点识别
CN107291724A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 集群数据复制方法、优先级确定方法及装置
CN107450977A (zh) * 2015-12-30 2017-12-08 北京典赞科技有限公司 基于yarn的面向gpgpu集群的资源管理调度方法
CN107453929A (zh) * 2017-09-22 2017-12-08 中国联合网络通信集团有限公司 集群系统自构建方法、装置及集群系统
CN107621973A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种跨集群的任务调度方法及装置
CN107705025A (zh) * 2017-10-16 2018-02-16 曙光信息产业(北京)有限公司 超级计算机及其操作方法
CN108073453A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 分布式集群中cpu资源的调度方法以及装置
CN108076112A (zh) * 2016-11-15 2018-05-25 北京金山云网络技术有限公司 一种宿主机调度方法及装置
CN108255820A (zh) * 2016-12-28 2018-07-06 阿里巴巴集团控股有限公司 分布式系统中数据入库的方法、装置以及电子设备
CN108519910A (zh) * 2018-03-21 2018-09-11 四川斐讯信息技术有限公司 一种基于单双日期的数据处理方法及系统
CN109347982A (zh) * 2018-11-30 2019-02-15 网宿科技股份有限公司 一种数据中心的调度方法及装置
CN109791509A (zh) * 2016-10-05 2019-05-21 派泰克集群能力中心有限公司 高性能计算系统和方法
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110120979A (zh) * 2019-05-20 2019-08-13 华为技术有限公司 一种调度方法、装置及相关设备
CN110933107A (zh) * 2019-12-16 2020-03-27 许昌学院 分布式统计分析系统的配置方法及分布式统计分析系统
CN110971506A (zh) * 2019-11-06 2020-04-07 厦门亿联网络技术股份有限公司 一种去中心化实时集群通讯方法、装置、设备及系统
CN111045808A (zh) * 2019-12-17 2020-04-21 广东工业大学 一种分布式网络任务调度方法及装置
CN111061553A (zh) * 2019-12-17 2020-04-24 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN111158909A (zh) * 2019-12-27 2020-05-15 中国联合网络通信集团有限公司 集群资源分配处理方法、装置、设备及存储介质
CN111240823A (zh) * 2020-01-16 2020-06-05 青岛农业大学 一种异地协同计算应用管理调度算法
CN111666190A (zh) * 2020-06-16 2020-09-15 南京信易达计算技术有限公司 一种运维监控管理软件方法、系统、装置和存储介质
CN112445590A (zh) * 2020-10-15 2021-03-05 北京仿真中心 一种计算资源接入及调度系统和方法
CN112988364A (zh) * 2021-05-20 2021-06-18 西安芯瞳半导体技术有限公司 一种动态的任务调度方法、装置及存储介质
CN113364892A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 跨多集群服务的域名解析方法、相关方法、装置和系统
CN113515356A (zh) * 2021-04-13 2021-10-19 中国航天科工集团八五一一研究所 一种轻量级分布式资源管理与任务调度器及方法
CN113590294A (zh) * 2021-07-30 2021-11-02 北京睿芯高通量科技有限公司 一种自适应的和规则制导的分布式调度方法
CN113612732A (zh) * 2021-07-06 2021-11-05 华控清交信息科技(北京)有限公司 一种资源调用方法、装置和多方安全计算系统
CN113626280A (zh) * 2021-06-30 2021-11-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113806064A (zh) * 2020-06-17 2021-12-17 华为技术有限公司 作业调度方法、装置、系统及作业派发装置
CN113886029A (zh) * 2021-10-15 2022-01-04 中国科学院信息工程研究所 一种跨地域分布数据中心任务调度方法及系统
CN114785790A (zh) * 2022-04-29 2022-07-22 杭州海康威视系统技术有限公司 跨域分析系统、跨域资源调度方法、装置及存储介质
CN115098272A (zh) * 2022-08-29 2022-09-23 创新奇智(青岛)科技有限公司 Gpu资源调度方法、调度器、电子设备和存储介质
CN115237608A (zh) * 2022-09-21 2022-10-25 之江实验室 一种基于多集群统一算力的多模式调度系统和方法
CN115550070A (zh) * 2022-11-29 2022-12-30 粤港澳大湾区数字经济研究院(福田) 一种多方协作方法及相关装置
CN115604120A (zh) * 2022-11-30 2023-01-13 苏州浪潮智能科技有限公司(Cn) 一种多云集群资源共享方法、装置、设备及存储介质
CN115933494A (zh) * 2022-12-28 2023-04-07 睿尔曼智能科技(北京)有限公司 面向机器人的嵌入式同构多核控制系统
CN116708454A (zh) * 2023-08-02 2023-09-05 之江实验室 多集群云计算系统及多集群作业分发方法
CN117149445A (zh) * 2023-10-31 2023-12-01 北京比格大数据有限公司 一种跨集群负载均衡方法及装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599026A (zh) * 2009-07-09 2009-12-09 浪潮电子信息产业股份有限公司 一种具有弹性架构的集群作业调度系统
CN101958808A (zh) * 2010-10-18 2011-01-26 华东交通大学 一种服务于多网格接入的集群任务调度管理器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599026A (zh) * 2009-07-09 2009-12-09 浪潮电子信息产业股份有限公司 一种具有弹性架构的集群作业调度系统
CN101958808A (zh) * 2010-10-18 2011-01-26 华东交通大学 一种服务于多网格接入的集群任务调度管理器

Cited By (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577256B (zh) * 2013-11-21 2017-03-15 五八同城信息技术有限公司 分布式定时任务调度系统
CN103577256A (zh) * 2013-11-21 2014-02-12 五八同城信息技术有限公司 分布式定时任务调度系统
CN103744734A (zh) * 2013-12-24 2014-04-23 中国科学院深圳先进技术研究院 一种任务作业处理方法、装置及系统
CN103744734B (zh) * 2013-12-24 2017-09-26 中国科学院深圳先进技术研究院 一种任务作业处理方法、装置及系统
CN106663033B (zh) * 2014-04-28 2021-04-06 甲骨文国际公司 在事务中间件机器环境支持绕域和代理模型并更新服务信息以跨域消息传送的系统和方法
CN106663033A (zh) * 2014-04-28 2017-05-10 甲骨文国际公司 在事务中间件机器环境支持绕域和代理模型并更新服务信息以跨域消息传送的系统和方法
CN104239493A (zh) * 2014-09-09 2014-12-24 北京京东尚科信息技术有限公司 跨集群数据迁移方法和系统
CN104239493B (zh) * 2014-09-09 2017-05-10 北京京东尚科信息技术有限公司 跨集群数据迁移方法和系统
CN107079045A (zh) * 2014-10-14 2017-08-18 微软技术许可有限责任公司 使用集群的节点识别
CN104461740A (zh) * 2014-12-12 2015-03-25 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN104461740B (zh) * 2014-12-12 2018-03-20 国家电网公司 一种跨域集群计算资源聚合和分配的方法
CN104679877A (zh) * 2015-03-12 2015-06-03 浪潮集团有限公司 一种高可用集群资源管理方法
CN105227349B (zh) * 2015-08-27 2018-04-17 北京泰乐德信息技术有限公司 游牧式自组网调度系统及其调度方法
CN105227349A (zh) * 2015-08-27 2016-01-06 北京泰乐德信息技术有限公司 游牧式自组网调度系统及其调度方法
CN105607951A (zh) * 2015-12-17 2016-05-25 北京奇虎科技有限公司 处理数据请求及获取服务器信息的方法及装置
CN105446810A (zh) * 2015-12-24 2016-03-30 赞奇科技发展有限公司 基于成本代价的多农场云渲染任务分发系统与方法
CN105446810B (zh) * 2015-12-24 2018-09-28 江苏赞奇科技股份有限公司 基于成本代价的多农场云渲染任务分发系统与方法
CN107450977A (zh) * 2015-12-30 2017-12-08 北京典赞科技有限公司 基于yarn的面向gpgpu集群的资源管理调度方法
CN107291724A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 集群数据复制方法、优先级确定方法及装置
CN107621973A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 一种跨集群的任务调度方法及装置
CN107621973B (zh) * 2016-07-13 2021-10-26 阿里巴巴集团控股有限公司 一种跨集群的任务调度方法及装置
CN106293911A (zh) * 2016-07-29 2017-01-04 乐视控股(北京)有限公司 分布式调度系统、方法
CN106453497A (zh) * 2016-09-08 2017-02-22 天津海量信息技术股份有限公司 一种分布式集群系统及其资源调配方法
CN109791509B (zh) * 2016-10-05 2023-11-28 派泰克集群能力中心有限公司 高性能计算系统和方法
CN109791509A (zh) * 2016-10-05 2019-05-21 派泰克集群能力中心有限公司 高性能计算系统和方法
CN108073453B (zh) * 2016-11-11 2022-05-10 阿里巴巴集团控股有限公司 分布式集群中cpu资源的调度方法以及装置
CN108073453A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 分布式集群中cpu资源的调度方法以及装置
CN108076112A (zh) * 2016-11-15 2018-05-25 北京金山云网络技术有限公司 一种宿主机调度方法及装置
CN108255820A (zh) * 2016-12-28 2018-07-06 阿里巴巴集团控股有限公司 分布式系统中数据入库的方法、装置以及电子设备
CN106897133A (zh) * 2017-02-27 2017-06-27 郑州云海信息技术有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN106897133B (zh) * 2017-02-27 2020-09-29 苏州浪潮智能科技有限公司 一种基于pbs作业调度管理集群负载的实现方法
CN107453929A (zh) * 2017-09-22 2017-12-08 中国联合网络通信集团有限公司 集群系统自构建方法、装置及集群系统
CN107705025A (zh) * 2017-10-16 2018-02-16 曙光信息产业(北京)有限公司 超级计算机及其操作方法
CN108519910A (zh) * 2018-03-21 2018-09-11 四川斐讯信息技术有限公司 一种基于单双日期的数据处理方法及系统
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109347982A (zh) * 2018-11-30 2019-02-15 网宿科技股份有限公司 一种数据中心的调度方法及装置
CN110120979A (zh) * 2019-05-20 2019-08-13 华为技术有限公司 一种调度方法、装置及相关设备
CN110120979B (zh) * 2019-05-20 2023-03-10 华为云计算技术有限公司 一种调度方法、装置及相关设备
CN110971506B (zh) * 2019-11-06 2021-12-28 厦门亿联网络技术股份有限公司 一种去中心化实时集群通讯方法、装置、设备及系统
CN110971506A (zh) * 2019-11-06 2020-04-07 厦门亿联网络技术股份有限公司 一种去中心化实时集群通讯方法、装置、设备及系统
CN110933107A (zh) * 2019-12-16 2020-03-27 许昌学院 分布式统计分析系统的配置方法及分布式统计分析系统
CN111061553B (zh) * 2019-12-17 2023-10-10 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN111061553A (zh) * 2019-12-17 2020-04-24 湖南大学 一种用于超级计算中心的并行任务调度方法和系统
CN111045808B (zh) * 2019-12-17 2023-04-18 广东工业大学 一种分布式网络任务调度方法及装置
CN111045808A (zh) * 2019-12-17 2020-04-21 广东工业大学 一种分布式网络任务调度方法及装置
CN111158909A (zh) * 2019-12-27 2020-05-15 中国联合网络通信集团有限公司 集群资源分配处理方法、装置、设备及存储介质
CN111158909B (zh) * 2019-12-27 2023-07-25 中国联合网络通信集团有限公司 集群资源分配处理方法、装置、设备及存储介质
CN111240823A (zh) * 2020-01-16 2020-06-05 青岛农业大学 一种异地协同计算应用管理调度算法
CN113364892A (zh) * 2020-03-04 2021-09-07 阿里巴巴集团控股有限公司 跨多集群服务的域名解析方法、相关方法、装置和系统
CN111666190A (zh) * 2020-06-16 2020-09-15 南京信易达计算技术有限公司 一种运维监控管理软件方法、系统、装置和存储介质
CN113806064A (zh) * 2020-06-17 2021-12-17 华为技术有限公司 作业调度方法、装置、系统及作业派发装置
CN112445590A (zh) * 2020-10-15 2021-03-05 北京仿真中心 一种计算资源接入及调度系统和方法
CN113515356A (zh) * 2021-04-13 2021-10-19 中国航天科工集团八五一一研究所 一种轻量级分布式资源管理与任务调度器及方法
CN113515356B (zh) * 2021-04-13 2022-11-25 中国航天科工集团八五一一研究所 一种轻量级分布式资源管理与任务调度器及方法
CN112988364B (zh) * 2021-05-20 2021-09-24 西安芯瞳半导体技术有限公司 一种动态的任务调度方法、装置及存储介质
CN112988364A (zh) * 2021-05-20 2021-06-18 西安芯瞳半导体技术有限公司 一种动态的任务调度方法、装置及存储介质
CN113626280A (zh) * 2021-06-30 2021-11-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113626280B (zh) * 2021-06-30 2024-02-09 广东浪潮智慧计算技术有限公司 集群状态控制方法、装置、电子设备及可读存储介质
CN113612732A (zh) * 2021-07-06 2021-11-05 华控清交信息科技(北京)有限公司 一种资源调用方法、装置和多方安全计算系统
CN113612732B (zh) * 2021-07-06 2023-12-26 华控清交信息科技(北京)有限公司 一种资源调用方法、装置和多方安全计算系统
CN113590294A (zh) * 2021-07-30 2021-11-02 北京睿芯高通量科技有限公司 一种自适应的和规则制导的分布式调度方法
CN113590294B (zh) * 2021-07-30 2023-11-17 北京睿芯高通量科技有限公司 一种自适应的和规则制导的分布式调度方法
CN113886029A (zh) * 2021-10-15 2022-01-04 中国科学院信息工程研究所 一种跨地域分布数据中心任务调度方法及系统
CN114785790B (zh) * 2022-04-29 2024-03-08 杭州海康威视系统技术有限公司 跨域分析系统、跨域资源调度方法、装置及存储介质
CN114785790A (zh) * 2022-04-29 2022-07-22 杭州海康威视系统技术有限公司 跨域分析系统、跨域资源调度方法、装置及存储介质
CN115098272A (zh) * 2022-08-29 2022-09-23 创新奇智(青岛)科技有限公司 Gpu资源调度方法、调度器、电子设备和存储介质
CN115237608A (zh) * 2022-09-21 2022-10-25 之江实验室 一种基于多集群统一算力的多模式调度系统和方法
CN115550070A (zh) * 2022-11-29 2022-12-30 粤港澳大湾区数字经济研究院(福田) 一种多方协作方法及相关装置
CN115604120A (zh) * 2022-11-30 2023-01-13 苏州浪潮智能科技有限公司(Cn) 一种多云集群资源共享方法、装置、设备及存储介质
WO2024113582A1 (zh) * 2022-11-30 2024-06-06 苏州元脑智能科技有限公司 一种多云集群资源共享方法、装置、设备及存储介质
CN115933494B (zh) * 2022-12-28 2023-11-07 睿尔曼智能科技(北京)有限公司 面向机器人的嵌入式同构多核控制系统
CN115933494A (zh) * 2022-12-28 2023-04-07 睿尔曼智能科技(北京)有限公司 面向机器人的嵌入式同构多核控制系统
CN116708454A (zh) * 2023-08-02 2023-09-05 之江实验室 多集群云计算系统及多集群作业分发方法
CN116708454B (zh) * 2023-08-02 2023-12-05 之江实验室 多集群云计算系统及多集群作业分发方法
CN117149445A (zh) * 2023-10-31 2023-12-01 北京比格大数据有限公司 一种跨集群负载均衡方法及装置、设备及存储介质
CN117149445B (zh) * 2023-10-31 2024-01-12 北京比格大数据有限公司 一种跨集群负载均衡方法及装置、设备及存储介质

Also Published As

Publication number Publication date
CN103207814B (zh) 2016-10-19

Similar Documents

Publication Publication Date Title
CN103207814A (zh) 一种去中心化的跨集群资源管理与任务调度系统与调度方法
Kaur et al. Container-as-a-service at the edge: Trade-off between energy efficiency and service availability at fog nano data centers
Peng et al. A multi-objective trade-off framework for cloud resource scheduling based on the deep Q-network algorithm
CN102521021B (zh) 经由事件流管理的绿色计算
CN101441580B (zh) 分布式并行计算平台系统及其计算任务分配方法
Memari et al. A latency-aware task scheduling algorithm for allocating virtual machines in a cost-effective and time-sensitive fog-cloud architecture
CN112783649A (zh) 一种面向云计算的交互感知的容器化微服务资源调度方法
CN104657221A (zh) 一种云计算中基于任务分类的多队列错峰调度模型及方法
CN102130938A (zh) 一种面向Web应用宿主平台的资源供给方法
Jazayeri et al. A latency-aware and energy-efficient computation offloading in mobile fog computing: a hidden Markov model-based approach
Albert et al. An efficient kernel FCM and artificial fish swarm optimization-based optimal resource allocation in cloud
CN105446816A (zh) 一种面向异构平台的能耗优化调度方法
Al-Tarawneh Bi-objective optimization of application placement in fog computing environments
CN106101196A (zh) 一种基于概率模型的云渲染平台任务调度系统及方法
Björkqvist et al. Cost-driven service provisioning in hybrid clouds
Singh et al. Energy efficient load balancing hybrid priority assigned laxity algorithm in fog computing
Xiang et al. Computing power allocation and traffic scheduling for edge service provisioning
Li et al. Deep reinforcement learning for load balancing of edge servers in iov
Tiwary et al. CPS: a dynamic and distributed pricing policy in cyber foraging systems for fixed state cloudlets
Wo et al. Overbooking-based resource allocation in virtualized data center
Malathy et al. Entropy‐based complex proportional assessment for efficient task scheduling in fog computing
Li et al. Efficient service selection approach for mobile devices in mobile cloud
Gowri et al. An agent based resource provision for iot through machine learning in fog computing
Saadian et al. Deadline-aware multi-objective IoT services placement optimization in fog environment using parallel FFD-genetic algorithm
Majumder et al. EAAM: Energy-aware application management strategy for FPGA-based IoT-Cloud environments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant