CN107025139A - 一种基于云计算的高性能计算调度框架 - Google Patents

一种基于云计算的高性能计算调度框架 Download PDF

Info

Publication number
CN107025139A
CN107025139A CN201710172641.9A CN201710172641A CN107025139A CN 107025139 A CN107025139 A CN 107025139A CN 201710172641 A CN201710172641 A CN 201710172641A CN 107025139 A CN107025139 A CN 107025139A
Authority
CN
China
Prior art keywords
task
module
state
cloud computing
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710172641.9A
Other languages
English (en)
Inventor
牛继宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SKYCLOUD RONGCHUANG SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
BEIJING SKYCLOUD RONGCHUANG SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SKYCLOUD RONGCHUANG SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING SKYCLOUD RONGCHUANG SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201710172641.9A priority Critical patent/CN107025139A/zh
Publication of CN107025139A publication Critical patent/CN107025139A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于云计算的高性能计算调度框架,涉及云计算分析领域,包括任务提交节点、Master计算节点、任务队列模块、Slave节点和云计算平台;所述任务提交节点中包括任务提交模块、状态获取API模块、状态获取进程模块;所述Master计算节点中包括状态获取主进程模块和任务调度分配器模块;所述Slave节点中包括任务接受模块、任务启动模块、任务执行模块和状态监控模块;本发明通过云计算提供计算资源节点并基于云计算的高性能计算调度框架,可以高效的分配计算资源,高效的调度任务,可对所调度的计算节点进行监控,根据任务量大小新增或释放节点,稳定高效地完成任务且不浪费云平台中的资源。

Description

一种基于云计算的高性能计算调度框架
技术领域
本发明涉及云计算分析领域,尤其涉及一种基于云计算的高性能计算调度框架。
背景技术
随着互联网技术的流行,互联网用户的数量已经越来越庞,这就需要互联网中有效的调度作业。传统的作业调度计算框架,并不能灵活地分配计算资源,容易出现计算资源浪费或者不能满足计算任务要求的情况,或者在不满足计算任务需求的时候,新的节点资源调度较慢,不能满足高性能、实时的调度需求。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种基于云计算的高性能计算调度框架,可以完成分布式计算程序作业的实时高息能调度到整个集群中的各个节点运行,结合云计算技术,为主流云计算市场提供一种稳定高效、基于云平台、易拓展且高性能的高性能计算平台。
为实现上述目的,本发明提供了一种基于云计算的高性能计算调度框架,包括任务提交节点、Master计算节点、任务队列模块、Slave节点和云计算平台;
所述任务提交节点中包括任务提交模块、状态获取API模块、状态获取进程模块;所述Master计算节点中包括状态获取主进程模块和任务调度分配器模块;所述Slave节点中包括任务接受模块、任务启动模块、任务执行模块和状态监控模块;
基于云计算的高性能计算调度框架启动时,通过云计算平台提供计算节点资源;在运行过程中,云计算平台实时监控高性能计算调度框架的中任务队列模块的任务队列状态,依据等待在任务队列中的任务数量与最大的空闲节点数量进行调度,以此准备或者回收Slave节点;
高性能计算调度框架中,待运算的任务通过所述任务提交模块提交给任务调度分配器模块,所述任务调度分配器模块将任务放入相应的任务队列模块中,所述任务调度分配器模块实时的从状态获取主进程模块中获取整个集群的负载状况,并将任务通过任务队列模块传输给Slave节点去执行,所述Slave节点中的任务接受模块接收到任务后通过任务启动模块启动任务,再由任务执行模块执行操作,执行过程中通过状态监控模块进行状态监控,并将所得的信息传送给状态获取进程模块,所述任务提交模块将正在执行的任务进度与状态等信息通过状态获取API模块传送给状态获取进程模块,所述状态获取进程模块将所得的信息传送给状态获取主进程模块作为任务调度的依据,所述状态获取主进程模块中存放了整个集群节点的性能信息和所有任务执行状态的监控信息。
以上系统,首先通过API申请Master计算资源节点,在云计算平台接收到申请请求以后,在云资源池上动态划分云计算资源节点,并通过Master模版部署,形成Master计算节点,并运行,同时云计算平台完成master程序的服务端口配置,形成master服务,供Slave节点连接;Master云计算资源节点完成部署,形成master服务以后,启动Slave集群节点的申请,云计算平台动态申请相应数量的Slave节点,并且通过Slave模版完成Slave程序的部署与配置;Slave所有的节点在启动时,通过云计算平台提供的服务发现动态发现Master服务,并将自身注册到Master管理器,完成整个集群的配置。
所述Slave节点作为执行服务器来执行相应任务;待运算的任务放到jobfile中通过任务调度分配器模块将任务放入相应的任务队列,任务进入不同队列的依据可以是任务提交时设置,也可由任务调度分配器模块进行自动判断;任务提交是异步的,所以不影响后续的任务提交,也不影响任务调度;任务调度分配器模块一旦发现一个任务的资源需求可以得到满足,就可将任务传输给Slave节点去执行,当任务执行模块执行操作时,将jobfile中要执行的计算任务加载到fork出来的进程中,jobfile中除了要执行的计算任务描述,还包括环境变量等描述,在执行时也需要依据描述进行环境变量设置,Master的状态获取主进程模块会将任务的状态放在内存中,直到收到CLEAN_PERID信号(任务完成信号),收到该信号以后,Master将删除该任务信息,至此,也即完成了一个任务的调度。
较佳的,所述状态监控模块是一种分布式监控程序,分别监控Master计算节点上的状态获取主进程和Slave节点的状态信息。监控的信息包括Slave服务器本身的性能信息、Slave节点作为执行服务器正在执行的任务进度与状态,并将这些性能信息、进度与状态信息实时(也可以说是短周期,默认5s)传送给Master的状态获取主进程模块。状态获取主进程模块将Slave服务器的性能信息以链表的形式存放在内存中,同时将任务执行的进度与状态信息作为链表的形式存放在内存中,这样就形成了关于整个集群节点的实时监控,所有任务执行状态的监控。
本发明的有益效果是:本发明通过云计算提供计算资源节点并基于云计算的高性能计算调度框架,可以高效的分配计算资源,高效的调度任务,可对所调度的计算节点进行监控,根据任务量大小新增或释放节点,稳定高效地完成任务且不浪费云平台中的资源。
附图说明
图1是本发明实施例一的流程示意图;
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
如图1所示,本实施例包括任务提交节点、Master计算节点、任务队列模块、Slave节点和云计算平台;
所述任务提交节点中包括任务提交模块、状态获取API模块、状态获取进程模块;所述Master计算节点中包括状态获取主进程模块和任务调度分配器模块;所述Slave节点中包括任务接受模块、任务启动模块、任务执行模块和状态监控模块;
基于云计算的高性能计算调度框架启动时,通过云计算平台提供计算节点资源;在运行过程中,云计算平台实时监控高性能计算调度框架的中任务队列模块的任务队列状态,依据等待在任务队列中的任务数量与最大的空闲节点数量进行调度,以此准备或者回收Slave节点;
高性能计算调度框架中,待运算的任务通过所述任务提交模块提交给任务调度分配器模块,所述任务调度分配器模块将任务放入相应的任务队列模块中,所述任务调度分配器模块实时的从状态获取主进程模块中获取整个集群的负载状况,并将任务通过任务队列模块传输给Slave节点去执行,所述Slave节点中的任务接受模块接收到任务后通过任务启动模块启动任务,再由任务执行模块执行操作,执行过程中通过状态监控模块进行状态监控,并将所得的信息传送给状态获取进程模块,所述任务提交模块将正在执行的任务进度与状态等信息通过状态获取API模块传送给状态获取进程模块,所述状态获取进程模块将所得的信息传送给状态获取主进程模块作为任务调度的依据,所述状态获取主进程模块中存放了整个集群节点的性能信息和所有任务执行状态的监控信息。
如果任务在执行时,任务队列模块中等待的任务过多,整个集群不能较快的执行的新的任务时,云计算平台会依据自身的调度原则提供新的计算资源给高性能计算调度框架,Master计算节点收到新创建的计算资源节点以后,作为Slave节点添加到集群中,这时可以将等待队列中的任务向新添加的节点进行调度,从而减轻等待的任务。如果集群中某些slave节点没有任务执行达到一定的时间,Master计算节点则标记空闲的节点状态,云计算平台依据调度原则回收这些空闲节点,作为云计算平台的资源,从而时高性能计算调度框架实时保持在一个适度的利用率之中,提高生产效率,降低资源浪费。
基于云计算的高性能计算调度框架启动时,通过云计算平台提供计算节点资源;在运行过程中,云计算平台实时监控高性能计算调度框架的中任务队列模块的任务队列状态,依据等待在任务队列中的任务数量与最大的空闲节点数量进行调度,以此准备或者回收Slave节点。例如设定任务队列模块中任务队列中等待分配计算资源的任务数量最大阀值为50,同时设定高性能计算调度框架集群中空闲的Slave节点的数量最多为10,则云计算平台将进行如下调度:
通过云计算平台监控到任务队列模块中等待的队列数量达到50,则从Master计算节点的状态获取主进程模块中获取目前集群节点中每个Slave节点的平均处理任务数量,例如每个Slave节点的平均处理任务数量为10,则自动划分6个新的Slave节点,其中1用作冗余,并部署Slave应用程序,然后通知Master计算节点,6个新的Slave节点已经准备到位,Master计算节点这时可以添加6个Slave节点到自己的计算集群,并分配任务到新的计算节点。
云计算平台在完成新的资源节点的添加后,继续通过状态监控模块持续监控高性能计算集群的状态,如果发现高性能计算集群的空闲Slave节点数量到达10,则持续观察10分钟,如果到达10分钟以后,空闲Slave节点数量仍然大于10,则启动自动回收调度,云计算平台向Master计算节点获取空闲的节点的信息,将这些计算资源节点回收,减少高性能计算集群的空闲节点上数量。
一旦集群中的某个节点资源出现问题,高性能计算调度框架将该节点上运行的任务重新调度到其他节点运行,Master计算节点会默认按照每5s一次的频率获取Slave节点的状态,包括服务器本身的性能信息,也包括Slave节点作为执行服务器正在执行的任务进度与状态,一旦发现15s之内某一个Slave节点没有任何的响应,则认为该节点已经出现问题,则将该节点从调度器中删除,同时标记为空闲节点(让云计算平台进行回收),同时将运行在该Slave节点的任务调度到其他节点去运行,调度的依据为将其调度到资源利用率较低或者空闲的Slave节点中。
程序具备断点恢复的能力,计算状态可以快速的进行恢复,不需要全部重新计算。整个集群需要配置外置存储,所有的计算任务状态在master内存中保存的是执行的结果状态与存储位置,实时的进度状态由Slave节点实时的保存到外置存储中(以log日志的形式),状态恢复时,新的节点依据master的记录,找到外置存储中需要恢复的任务log在外置存储中的位置,读取log日志,恢复进程计算状态。
通过对高性能计算平台运算任务的分析,可以根据运算需求提供当前需要的计算节点数量,并且由高性能计算调度框架管理这些云计算节点形成集群,然后并发调度执行需要的计算任务到集群中的各个节点,量变化时,根据任务在执行过程中,由云计算平台对集群中台进行进行监控。当计算任务量大小新增或释放容器,稳定高效地完成任务且不浪费云平台中的资源。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (2)

1.一种基于云计算的高性能计算调度框架,其特征在于,包括任务提交节点、Master计算节点、任务队列模块、Slave节点和云计算平台;
所述任务提交节点中包括任务提交模块、状态获取API模块、状态获取进程模块;所述Master计算节点中包括状态获取主进程模块和任务调度分配器模块;所述Slave节点中包括任务接受模块、任务启动模块、任务执行模块和状态监控模块;
基于云计算的高性能计算调度框架启动时,通过云计算平台提供计算节点资源;在运行过程中,云计算平台实时监控高性能计算调度框架的中任务队列模块的任务队列状态,依据等待在任务队列中的任务数量与最大的空闲节点数量进行调度,以此准备或者回收Slave节点;
高性能计算调度框架中,待运算的任务通过所述任务提交模块提交给任务调度分配器模块,所述任务调度分配器模块将任务放入相应的任务队列模块中,所述任务调度分配器模块实时的从状态获取主进程模块中获取整个集群的负载状况,并将任务通过任务队列模块传输给Slave节点去执行,所述Slave节点中的任务接受模块接收到任务后通过任务启动模块启动任务,再由任务执行模块执行操作,执行过程中通过状态监控模块进行状态监控,并将所得的信息传送给状态获取进程模块,所述任务提交模块将正在执行的任务进度与状态等信息通过状态获取API模块传送给状态获取进程模块,所述状态获取进程模块将所得的信息传送给状态获取主进程模块作为任务调度的依据,所述状态获取主进程模块中存放了整个集群节点的性能信息和所有任务执行状态的监控信息。
2.如权利要求1所述的一种基于云计算的高性能计算调度框架,其特征在于,所述状态监控模块是一种分布式监控程序,分别监控Master计算节点上的状态获取主进程和Slave节点的状态信息。
CN201710172641.9A 2017-03-21 2017-03-21 一种基于云计算的高性能计算调度框架 Pending CN107025139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710172641.9A CN107025139A (zh) 2017-03-21 2017-03-21 一种基于云计算的高性能计算调度框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710172641.9A CN107025139A (zh) 2017-03-21 2017-03-21 一种基于云计算的高性能计算调度框架

Publications (1)

Publication Number Publication Date
CN107025139A true CN107025139A (zh) 2017-08-08

Family

ID=59525743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710172641.9A Pending CN107025139A (zh) 2017-03-21 2017-03-21 一种基于云计算的高性能计算调度框架

Country Status (1)

Country Link
CN (1) CN107025139A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844376A (zh) * 2017-11-21 2018-03-27 北京星河星云信息技术有限公司 计算系统的资源调配方法、计算系统、介质和服务器
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN108762725A (zh) * 2018-05-31 2018-11-06 飞天诚信科技股份有限公司 一种分布式随机数生成和检测的方法及系统
CN108958840A (zh) * 2018-07-09 2018-12-07 四川九洲电器集团有限责任公司 一种集群配置动态探测合并加载方法
CN108989442A (zh) * 2018-07-27 2018-12-11 中国联合网络通信集团有限公司 数据分发方法、系统及控制节点
CN109271243A (zh) * 2018-08-31 2019-01-25 郑州云海信息技术有限公司 一种集群任务管理系统
CN109298937A (zh) * 2018-09-19 2019-02-01 中国联合网络通信集团有限公司 文件解析方法及网络设备
CN109408220A (zh) * 2017-08-17 2019-03-01 北京国双科技有限公司 一种任务处理方法及装置
CN109766175A (zh) * 2018-12-28 2019-05-17 深圳晶泰科技有限公司 面向高性能计算在云上的资源弹性伸缩系统及其调度方法
CN109857526A (zh) * 2018-12-27 2019-06-07 曙光信息产业(北京)有限公司 一种面向混合应用计算框架的调度系统
CN110457139A (zh) * 2019-08-22 2019-11-15 西安未来国际信息股份有限公司 资源调配方法、装置、设备及存储介质
CN110764872A (zh) * 2019-10-21 2020-02-07 深圳金蝶账无忧网络科技有限公司 一种基于云服务架构的自动报税方法、系统及相关设备
CN110764890A (zh) * 2019-10-21 2020-02-07 深圳金蝶账无忧网络科技有限公司 一种计算资源调度方法、系统及相关设备
CN110795344A (zh) * 2019-10-14 2020-02-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN111052683A (zh) * 2018-03-15 2020-04-21 欧姆龙株式会社 网络系统
CN111090507A (zh) * 2019-11-25 2020-05-01 南京航空航天大学 基于云边融合服务器网络架构的任务调度方法及应用
CN111445101A (zh) * 2020-05-15 2020-07-24 广联达科技股份有限公司 一种云计算资源调度的方法、系统及介质
CN111562922A (zh) * 2020-04-29 2020-08-21 北京中大唯信科技有限公司 命令行程序模块化及云端化的方法、系统、电子设备
CN111984393A (zh) * 2020-10-12 2020-11-24 浙江大华技术股份有限公司 分布式大规模实时数据调度引擎系统及其数据调度方法
WO2021003870A1 (zh) * 2019-10-14 2021-01-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN112597502A (zh) * 2020-12-17 2021-04-02 山东乾云启创信息科技股份有限公司 一种基于可信云的大规模计算服务配置方法及系统
CN113238841A (zh) * 2021-05-11 2021-08-10 湖北碳聚生物科技有限责任公司 一种基于云计算技术的任务调度方法
CN113806177A (zh) * 2021-09-22 2021-12-17 网易(杭州)网络有限公司 集群监控的方法、装置、电子设备及存储介质
CN115412383A (zh) * 2022-08-25 2022-11-29 中国工商银行股份有限公司 容器化云计算资源的计费方法、装置、节点、系统及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408220A (zh) * 2017-08-17 2019-03-01 北京国双科技有限公司 一种任务处理方法及装置
CN107844376A (zh) * 2017-11-21 2018-03-27 北京星河星云信息技术有限公司 计算系统的资源调配方法、计算系统、介质和服务器
CN108170417A (zh) * 2017-12-29 2018-06-15 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
CN108170417B (zh) * 2017-12-29 2022-02-11 曙光信息产业(北京)有限公司 一种在mesos集群中集成高性能的作业调度框架的方法和装置
US11374788B2 (en) 2018-03-15 2022-06-28 Omron Corporation Network system having master device carrying out part of a process and slave device carrying out remainder of the process
CN111052683A (zh) * 2018-03-15 2020-04-21 欧姆龙株式会社 网络系统
CN108762725B (zh) * 2018-05-31 2021-01-01 飞天诚信科技股份有限公司 一种分布式随机数生成和检测的方法及系统
CN108762725A (zh) * 2018-05-31 2018-11-06 飞天诚信科技股份有限公司 一种分布式随机数生成和检测的方法及系统
CN108958840B (zh) * 2018-07-09 2021-01-22 四川九洲电器集团有限责任公司 一种集群配置动态探测合并加载方法
CN108958840A (zh) * 2018-07-09 2018-12-07 四川九洲电器集团有限责任公司 一种集群配置动态探测合并加载方法
CN108989442A (zh) * 2018-07-27 2018-12-11 中国联合网络通信集团有限公司 数据分发方法、系统及控制节点
CN109271243A (zh) * 2018-08-31 2019-01-25 郑州云海信息技术有限公司 一种集群任务管理系统
CN109271243B (zh) * 2018-08-31 2021-09-17 郑州云海信息技术有限公司 一种集群任务管理系统
CN109298937A (zh) * 2018-09-19 2019-02-01 中国联合网络通信集团有限公司 文件解析方法及网络设备
CN109857526A (zh) * 2018-12-27 2019-06-07 曙光信息产业(北京)有限公司 一种面向混合应用计算框架的调度系统
CN109766175A (zh) * 2018-12-28 2019-05-17 深圳晶泰科技有限公司 面向高性能计算在云上的资源弹性伸缩系统及其调度方法
CN110457139A (zh) * 2019-08-22 2019-11-15 西安未来国际信息股份有限公司 资源调配方法、装置、设备及存储介质
WO2021003870A1 (zh) * 2019-10-14 2021-01-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN110795344B (zh) * 2019-10-14 2024-01-05 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN110795344A (zh) * 2019-10-14 2020-02-14 深圳晶泰科技有限公司 面向分布式高性能计算集群调试系统
CN110764890A (zh) * 2019-10-21 2020-02-07 深圳金蝶账无忧网络科技有限公司 一种计算资源调度方法、系统及相关设备
CN110764872A (zh) * 2019-10-21 2020-02-07 深圳金蝶账无忧网络科技有限公司 一种基于云服务架构的自动报税方法、系统及相关设备
CN111090507A (zh) * 2019-11-25 2020-05-01 南京航空航天大学 基于云边融合服务器网络架构的任务调度方法及应用
CN111090507B (zh) * 2019-11-25 2023-06-09 南京航空航天大学 基于云边融合服务器网络架构的任务调度方法及应用
CN111562922A (zh) * 2020-04-29 2020-08-21 北京中大唯信科技有限公司 命令行程序模块化及云端化的方法、系统、电子设备
CN111445101A (zh) * 2020-05-15 2020-07-24 广联达科技股份有限公司 一种云计算资源调度的方法、系统及介质
CN111984393A (zh) * 2020-10-12 2020-11-24 浙江大华技术股份有限公司 分布式大规模实时数据调度引擎系统及其数据调度方法
CN112597502A (zh) * 2020-12-17 2021-04-02 山东乾云启创信息科技股份有限公司 一种基于可信云的大规模计算服务配置方法及系统
CN112597502B (zh) * 2020-12-17 2023-02-10 山东乾云启创信息科技股份有限公司 一种基于可信云的大规模计算服务配置方法及系统
CN113238841A (zh) * 2021-05-11 2021-08-10 湖北碳聚生物科技有限责任公司 一种基于云计算技术的任务调度方法
CN113238841B (zh) * 2021-05-11 2023-12-12 湖北碳聚生物科技有限责任公司 一种基于云计算技术的任务调度方法
CN113806177A (zh) * 2021-09-22 2021-12-17 网易(杭州)网络有限公司 集群监控的方法、装置、电子设备及存储介质
CN115412383A (zh) * 2022-08-25 2022-11-29 中国工商银行股份有限公司 容器化云计算资源的计费方法、装置、节点、系统及介质

Similar Documents

Publication Publication Date Title
CN107025139A (zh) 一种基于云计算的高性能计算调度框架
CN103092698B (zh) 云计算应用自动部署系统及方法
CN109034396B (zh) 用于处理分布式集群中的深度学习作业的方法和装置
CN105245373B (zh) 一种容器云平台系统的搭建及运行方法
CN109885389A (zh) 一种基于容器的并行深度学习调度训练方法及系统
CN102033777B (zh) 基于ice的分布式作业调度引擎
CN101951411A (zh) 云调度系统及方法以及多级云调度系统
CN104252390B (zh) 资源调度方法、装置和系统
CN106453564A (zh) 弹性云分布式海量请求处理的方法、装置及系统
CN106817408B (zh) 一种分布式服务器集群调度方法及装置
CN103761146B (zh) 一种MapReduce动态设定slots数量的方法
CN113434284B (zh) 一种隐私计算服务端设备、系统及任务调度方法
CN109697122A (zh) 任务处理方法、设备及计算机存储介质
CN102262564A (zh) 视频监控平台系统的线程池结构及实现方法
US9104488B2 (en) Support server for redirecting task results to a wake-up server
CN104021040A (zh) 基于时间约束条件下的云计算关联任务调度方法和装置
CN104123182A (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN105404549B (zh) 基于yarn架构的虚拟机调度系统
CN112579304A (zh) 基于分布式平台的资源调度方法、装置、设备及介质
CN112162852A (zh) 一种多架构cpu节点的管理方法、装置及相关组件
CN104112049A (zh) 基于P2P构架的MapReduce任务跨数据中心调度系统及方法
CN108121599A (zh) 一种资源管理方法、装置及系统
CN110300188A (zh) 数据传输系统、方法和设备
CN109558239A (zh) 一种任务调度方法、装置、系统、计算机设备和存储介质
CN104484228B (zh) 基于Intelli‑DSC的分布式并行任务处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170808