CN109766175A - 面向高性能计算在云上的资源弹性伸缩系统及其调度方法 - Google Patents

面向高性能计算在云上的资源弹性伸缩系统及其调度方法 Download PDF

Info

Publication number
CN109766175A
CN109766175A CN201811623408.9A CN201811623408A CN109766175A CN 109766175 A CN109766175 A CN 109766175A CN 201811623408 A CN201811623408 A CN 201811623408A CN 109766175 A CN109766175 A CN 109766175A
Authority
CN
China
Prior art keywords
resource
node
task
data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811623408.9A
Other languages
English (en)
Inventor
林帅康
刘阳
温书豪
马健
赖力鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingtai Technology Co Ltd
Original Assignee
Shenzhen Jingtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingtai Technology Co Ltd filed Critical Shenzhen Jingtai Technology Co Ltd
Priority to CN201811623408.9A priority Critical patent/CN109766175A/zh
Publication of CN109766175A publication Critical patent/CN109766175A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于高性能计算技术领域,具体为面向高性能计算在云上的资源弹性伸缩系统,包括资源扩容子系统负责向集群内添加节点,资源缩容子系统负责从计算集群中删除节点。调度系统接受外部用户或系统提交的任务,并分发到等待队列,资源弹性伸缩系统扫描任务等待队列,结合多方面的扩容决策算法,在合适的区域内申请竞价资源,任务最终在新添加的计算节点上运行起来;当任务被分发完毕,集群中有计算节点慢慢空闲下来时,触发资源弹性伸缩系统的缩容策略,对节点进行回收释放。本发明通过集成各大公有云厂商的弹性伸缩API实现全球资源的管控;通过对大量现有以及不断新增的不同类型任务运行时间的统计学习,预测出最佳的资源使用方式。

Description

面向高性能计算在云上的资源弹性伸缩系统及其调度方法
技术领域
本发明属于高性能计算技术领域,可以使用在云计算平台计算集群中,作为集群资源弹性伸缩管理系统。
背景技术
高性能计算资源弹性伸缩,是指资源调度器根据当前计算任务对资源的需求不同,动态地调整资源池的大小,以便任务获取运行所需的计算资源。
在公有云上,高性能计算以大规模的计算密集型任务为计算单位,通过高效的作业调度系统把任务分发到集群中。资源弹性伸缩系统通过周期性扫描任务队列,统计任务所需要的资源大小,触发资源伸容,从而使任务可以在相应的节点上进行计算。当任务计算结束后,节点连续空闲多个周期便会触发资源缩容,节点将会被回收释放以节约成本。同时当计算节点因为健康检测多次失败后,也会被强制回收替换成新的节点。资源弹性伸缩系统通过以上机制保证资源池动态的调整,使任务尽可能被调度运行起来。
目前资源弹性伸缩系统存在的问题主要有以下几方面:
1.资源弹性伸缩系统支持的计算节点配置单一,迫使任务调度系统处理复杂的资源装箱问题。在一个伸缩组内都是由同构的计算节点所组成,而不同的计算任务所需要的CPU核数并不相同。比如:队列中有8核,16核以及32核的任务,由于计算节点均为32核资源,每种任务的总数是不一样的,最终就会出现8核或者16核的任务独占一台32核的计算节点,从而造成大量的资源浪费。
2.资源弹性伸缩系统的健康检测机制并不适用于高CPU负载的高性能计算任务,健康检测机制通常是在计算节点上运行一个后台检测服务,周期性向节点总控发送健康心跳信息以表明当前节点健康良好。但由于高性能计算任务会执行大量浮点计算,CPU轻松到达100%,CPU过于繁忙无法及时发送心跳信息到节点总控系统,导致节点总控误以为计算节点无响应而触发节点回收机制,不可中断的任务被误杀重新回到调度队列,下次运行还是会出现健康检测失败的情况而任务再次被误杀,造成资源浪费。
3.资源弹性伸缩系统所纳管的计算节点通常是按需计费的,近几年出现的竞价计费模式相比按需计费模式可以让企业获取大量弹性计算资源的同时,还能大幅度降低计算成本,竞价资源是公有云厂商中的可用空闲计算容量,其价格最低可达按需资源的10%,而竞价资源与按需资源的唯一区别在于,竞价资源会因为某一时刻按需资源需求量大增时而被中断回收。因此竞价资源很适合可中断的高性能计算工作任务场景。因此竞价资源的价格波动以及中断率是跟当前区域供需关系相关的,而纳管竞价型资源的弹性伸缩系统无法根据这种供需关系进行动态选择合适的区域,也就无法找到更低价格以及更低中断率的竞价资源。
4.资源弹性伸缩系统决策单次扩容的计算结点数量通常是基于任务列队所需要的总核数计算出来的,如队列中有1000个32核任务,而当前资源池又没有空闲的资源,那么资源弹性伸缩系统就会直接添加1000台32核的计算结点。但由于32核的计算任务会由于不同的计算复杂度所需要的计算时间会差异很大,复杂度高的可能要运行几小时到几天才能完成,但复杂度低的计算任务可能只需要几十分钟。当任务计算完成后,资源弹性伸缩系统还需要连续扫描计算节点多个周期后才会去回收计算节点。如设置每个周期是5分钟,连续2个周期节点空闲的话便触发回收。那么最终会有1000个计算节点空跑10分钟,从而浪费大批资源,同时也有可能当前所选的区域内竞价资源的价格相对较高,使用了高价计算资源来运行这批任务。而这样的大批量32核计算任务的场景通常对结果的反馈时间并不敏感,也就意味着任务只要在约定的时间内计算完就不影响业务的推进。而实际上造成这种一次性过度扩容的原因在于:1:资源伸缩系统的决策条件太过单一,2:无感知任务类型差异性,无法预测任务运行时间。3:无感知当前任务优先级急迫度,4:无法感知当前不同资源区域不同时间段下的竞价价格趋势。
当调度系统不再向任务队列中分发新的任务时,此时集群中跑着不同CPU数的任务,如4核,8核,16核CPU任务,调度系统在一开始的时候通过算法优化集群装箱问题让不同的任务填满每个32核或者16核计算节点,但由于任务运行的时间并不一样,所以如果没有新的任务调度到节点的话,就会出现单个任务独占一台32核计算结点,由于缩容系统周期性扫描发现节点上仍有任务在运行,便不会触发节点回收机制,此时集群的利用率将会不断下降。
发明内容
针对上述技术问题,本发明提供一种面向高性能计算在云上的资源弹性伸缩系统及其调度方法,实现对跨多个公有云区域以及多种计算资源配置的支持、适应高性能计算中节点健康检测;适应竞价实例资源的使用模式;并且能预测任务运行时间从而避免过度添加计算节点造成资源浪费;动态调整缩容机制从而避免由于装箱问题造成资源浪费。
具体技术方案为:
面向高性能计算在云上的资源弹性伸缩系统,包括两个子系统:资源扩容子系统与资源缩容子系统;所述的资源扩容子系统负责向集群内添加节点,所述的资源缩容子系统负责从计算集群中删除节点。
所述的资源扩容子系统包括三个数据采集模块,分别是:
任务运行时间统计模块,从任务数据库中采集统计不同任务类型的数据;
竞价资源价格监控预测模块,从公有云厂商的竞价资源池中采集及监控价格趋势数据;
竞价实例中断处理模块,从计算集群中实时采集及监控竞价实例中断数据。
所述的资源缩容子系统包括两个数据采集群模块,分别是:
计算节点负载监控模块,实时采集节点的CPU使用率时序数据;
集群节点扫描模块,周期性扫描采集集群空闲及健康数据。
该面向高性能计算在云上的资源弹性伸缩系统的调度方法,包括以下步骤:调度系统接受外部用户或系统提交的任务,并分发到等待队列,资源弹性伸缩系统扫描任务等待队列,结合多方面的扩容决策算法,在合适的区域内申请竞价资源,任务最终在新添加的计算节点上运行起来;当任务被分发完毕,集群中有计算节点慢慢空闲下来时,触发资源弹性伸缩系统的缩容策略,对节点进行回收释放。
具体的,所述的资源扩容子系统对集群添加节点是基于三大数据采集群模块所决定的,包括以下步骤:
S11,任务运行时间统计模块从任务数据库中采集统计不同任务类型的数据;根据已有任务数据进行统计,预测出现有任务队列中任务所需要的运行时间,再结合任务对需要的CPU核数,即能计算出等待队列中所有任务所需要的资源总核数;
S12,竞价资源价格监控预测模块从公有云厂商的竞价资源池中采集及监控价格趋势数据;根据竞价资源价格的历史波动数据,可预测出资源在各个区域中不同时间点的价格波动范围;
S13,竞价实例中断处理模块从计算集群中实时采集及监控竞价实例中断数据;结合竞价实例中断处理模块计算节点中断率的实时反馈,即能筛选出最合适区域中的竞价资源;
最终,当弹性扩容子系统监控发现任务队列中有等待的任务,结合以上三个模块所得出的资源数据表,最终确定在合适的区域内申请到能满足任务计算需求的高性价比,低中断率的竞价计算节点资源,从而把节点添加到计算集群中。
所述的资源缩容子系统向集群添加节点是基于两大数据采集群模块所决定的,包括以下步骤:
S14,计算节点负载监控模块实时采集节点的CPU使用率时序数据;
计算节点负载监控模块通过公有云厂商接口可获取到计算节点实时的CPU使用率,并把该数据添加到时序数据库influxdb中,从而外部过通过直接的influxdb接口获取集群中所有计算节点的监控数据。
S15,集群节点扫描模块周期性扫描采集集群空闲及健康数据;
集群节点扫描模块期周性的对整个集群进行扫描,以及时发现当前计算集群中是否有无任务在运行的空闲节点,同是通过健康检测机制发现非健康节点,最终把相关数据存储在集群节点检测表中。
进一步的,还包括,对于高性能计算中的计算节点健康检测,采用了通过监控计算节点CPU负载指标进行辅助,当CPU负载进入80%的阀值时,检测程序会将该计算节加入到缩容保护队列;当任务计算负载降到80%以下时,健康检测恢复正常,计算节点从缩容保护队列中移除,以避免因健康检测失败而造成节点错误回收;
弹性缩容子系统结合自身两个数据采集群模块所采集的数据对节点进行回收决策,从而把空闲的计算节点从集群中删除。
本发明提供的面向高性能计算在云上的资源弹性伸缩系统及其调度方法,具有以下技术效果:
(1)通过集成各大公有云厂商的弹性伸缩API实现全球资源的管控;
(2)针对高性能计算任务实施更弹性的计算节点健康检测机制;
(3)动态感知各大公有云厂商中竞价资源的价格及中断率;
(4)通过对大量现有以及不断新增的不同类型任务运行时间的统计学习,资源伸缩系统可预测出最佳的资源使用方式。
附图说明
图1是本发明的资源弹性伸缩系统的系统结构图;
图2是本发明的资源弹性伸缩系统的资源扩容子系统数据采集图;
图3是本发明的资源弹性伸缩系统的资源缩容子系统数据采集图;
图4是本发明的资源弹性伸缩系统的调度方法流程图;
图5是本发明的实施示意图。
具体实施方式
结合实施例说明本发明的具体技术方案。
如图1所示,本发明实施例提供的资源弹性伸缩系统方法,包括两子系统:资源扩容子系统与资源缩容子系统;资源扩容子系统负责向集群内添加节点,资源缩容子系统负责从计算集群中删除节点。
资源扩容子系统对集群添加节点是基于三数据采集群模块所决定的,如图2所示,这三大数据采集模块分别是:
S11,任务运行时间统计模块从任务数据库中采集统计不同任务类型的数据;
S12,竞价资源价格监控预测模块从公有云厂商的竞价资源池中采集及监控价格趋势数据;
S13,竞价实例中断处理模块从计算集群中实时采集及监控竞价实例中断数据。
首先,在S11步骤的任务运行时间统计模块中,任务有以下属性:
任务名称 任务类别 CPU需求 预估持续时间 任务总数
根据已有任务数据进行统计,预测出现有任务队列中任务所需要的运行时间,再结合任务对需要的CPU核数,即能计算出等待队列中所有任务所需要的资源总核数。
任务名称 任务类别 CPU需求(核数) 预估持续时间(小时) 任务总数(个)
A X 8 0.5 1000
B Y 16 3.0 500
C Z 32 12.0 300
其次,在S12步骤的竞价资源价格监控预测模块中,竞价资源有以下属性:
竞价区域 竞价实例类别 竞价实例单价 竞价实例中断率
根据竞价资源价格的历史波动数据,可预测出资源在各个区域中不同时间点的价格波动范围,再结合S13步骤的竞价实例中断处理模块计算节点中断率的实时反馈,即能筛选出最合适区域中的竞价资源。
竞价区域 竞价实例类别 竞价实例单价(元) 竞价实例中断率
AWS-A区 A1 1.6 10%
腾讯云-B区 B1 2.4 15%
华为云-C区 C1 1.8 20%
最终,当弹性扩容子系统监控发现任务队列中有等待的任务,结合以上三个模块所得出的资源数据表,最终确定在合适的区域内申请到能满足任务计算需求的高性价比,低中断率的竞价计算节点资源,从而把节点添加到计算集群中。
而资源缩容子系统向集群添加节点是基于两大数据采集群模块所决定的,如图3所示,这两大数据采集模块分别是:
S14,计算节点负载监控模块实时采集节点的CPU使用率时序数据;
S15,集群节点扫描模块周期性扫描采集集群空闲及健康数据;
首先,在S14中计算节点负载监控模块通过公有云厂商接口可获取到计算节点实时的CPU使用率,并把该数据添加到时序数据库influxdb中,从而外部过通过直接的influxdb接口获取集群中所有计算节点的监控数据。
其次,在S15中集群节点扫描模块期周性的对整个集群进行扫描,以及时发现当前计算集群中是否有无任务在运行的空闲节点,同是通过健康检测机制发现非健康节点,最终把相关数据存储在集群节点检测表中。
竞价区域 竞价实例类别 是否空闲 是否健康
AWS-A区 A1 TRUE TRUE
腾讯云-B区 B1 FALSE FALSE
华为云-C区 C1 FALSE TRUE
同时,对于高性能计算中的计算节点健康检测,本方法采用了通过监控计算节点CPU负载指标进行辅助,当CPU负载进入80%的阀值时,检测程序会将该计算节加入到缩容保护队列,当CPU负载到达100%时,健康检测程序很有可能没办法继续保持心跳信息的发送从而触发缩容,但由于提前设置了缩容保护,所以这个时间该计算节点并不会被误杀。当任务计算负载降到80%以下时,健康检测恢复正常,计算节点从缩容保护队列中移除,以避免因健康检测失败而造成节点错误回收。
最终,弹性缩容子系统结合以上两大模块所采集的数据对节点进行回收决策,从而把空闲的计算节点从集群中删除。
弹性资源伸缩系统利用各个模块采集统计相关的数据,为资源的扩容以及资源的容容提供准备的决策。整个系统流程如图4所所示,调度系统接受外部用户或系统提交的任务,并分发到等待队列,资源弹性伸缩系统扫描任务等待队列,结合多方面的扩容决策算法,在合适的区域内申请竞价资源,任务最终在新添加的计算节点上运行起来。当任务被分发完毕,集群中有计算节点慢慢空闲下来时,触发资源弹性伸缩系统的缩容策略,对节点进行回收释放。
利用本方法可在各大公有云厂商,比如AWS,腾讯云,华为云,谷歌云等,搭建出一个高效的弹性伸缩系统。通过在云上申请一台主机并附加相应的资源操作权限,同时提供调度系统任务查询的相关接口,便可运行起来,如图5。当操作节点通过提交任务到调度系统后,弹性伸缩系统就会自动添加合适的竞价节点,在任务完成后再实施节点回收策略。

Claims (7)

1.面向高性能计算在云上的资源弹性伸缩系统,其特征在于,包括两个子系统:资源扩容子系统与资源缩容子系统;所述的资源扩容子系统负责向集群内添加节点,所述的资源缩容子系统负责从计算集群中删除节点。
2.根据权利要求1所述的面向高性能计算在云上的资源弹性伸缩系统,其特征在于,所述的资源扩容子系统包括三个数据采集模块,分别是:
任务运行时间统计模块,从任务数据库中采集统计不同任务类型的数据;
竞价资源价格监控预测模块,从公有云厂商的竞价资源池中采集及监控价格趋势数据;
竞价实例中断处理模块,从计算集群中实时采集及监控竞价实例中断数据。
3.根据权利要求1所述的面向高性能计算在云上的资源弹性伸缩系统,其特征在于,所述的资源缩容子系统包括两个数据采集群模块,分别是:
计算节点负载监控模块,实时采集节点的CPU使用率时序数据;
集群节点扫描模块,周期性扫描采集集群节点空闲及节点健康数据。
4.根据权利要求1到3任一项所述的面向高性能计算在云上的资源弹性伸缩系统的调度方法,其特征在于,包括以下步骤:调度系统接受外部用户或系统提交的任务,并分发到等待队列,资源弹性伸缩系统扫描任务等待队列,结合多方面的扩容决策算法,在合适的区域内申请竞价资源,任务最终在新添加的计算节点上运行起来;当任务被分发完毕,集群中有计算节点慢慢空闲下来时,触发资源弹性伸缩系统的缩容策略,对节点进行回收释放。
5.根据权利要求4所述的面向高性能计算在云上的资源弹性伸缩系统的调度方法,其特征在于,所述的资源扩容子系统对集群添加节点是基于三大数据采集群模块所决定的,包括以下步骤:
S11,任务运行时间统计模块从任务数据库中采集统计不同任务类型的数据;根据已有任务数据进行统计,预测出现有任务队列中任务所需要的运行时间,再结合任务所需要的CPU核数,即能计算出等待队列中所有任务所需要的资源总核数;
S12,竞价资源价格监控预测模块从公有云厂商的竞价资源池中采集及监控价格趋势数据;根据竞价资源价格的历史波动数据,可预测出资源在各个区域中不同时间点的价格波动范围;
S13,竞价实例中断处理模块从计算集群中实时采集及监控竞价实例中断数据;结合竞价实例中断处理模块计算节点中断率的实时反馈,即能筛选出最合适区域中的竞价资源;
最终,当弹性扩容子系统监控发现任务队列中有等待的任务,结合以上三个模块所得出的资源数据表,最终确定在合适的区域内申请到能满足任务计算所需求的高性价比,低中断率的竞价计算节点资源,从而把节点添加到计算集群中。
6.根据权利要求4所述的面向高性能计算在云上的资源弹性伸缩系统的调度方法,其特征在于,所述的资源缩容子系统向集群添加节点是基于两大数据采集群模块所决定的,包括以下步骤:
S14,计算节点负载监控模块实时采集节点的CPU使用率时序数据;
计算节点负载监控模块通过公有云厂商接口可获取到计算节点实时的CPU使用率,并把该数据添加到时序数据库influxdb中,从而外部过通过直接的influxdb接口获取集群中所有计算节点的监控数据;
S15,集群节点扫描模块周期性扫描采集集群节点空闲及节点健康数据;
集群节点扫描模块期周性的对整个集群进行扫描,以及时发现当前计算集群中是否有无任务在运行的空闲节点,同是通过健康检测机制发现非健康节点,最终把相关数据存储在集群节点检测表中。
7.根据权利要求4所述的面向高性能计算在云上的资源弹性伸缩系统的调度方法,其特征在于,还包括,对于高性能计算中的计算节点健康检测,采用了通过监控计算节点CPU负载指标进行缩容策略辅助,当CPU负载进入80%的阀值时,检测程序会将该计算节点加入到缩容保护队列;当任务计算负载降到80%以下时,健康检测恢复正常,计算节点从缩容保护队列中移除,以避免因健康检测失败而造成节点错误回收;
弹性缩容子系统结合自身两个数据采集群模块所采集的数据对节点进行回收决策,从而把空闲的计算节点从集群中删除。
CN201811623408.9A 2018-12-28 2018-12-28 面向高性能计算在云上的资源弹性伸缩系统及其调度方法 Pending CN109766175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811623408.9A CN109766175A (zh) 2018-12-28 2018-12-28 面向高性能计算在云上的资源弹性伸缩系统及其调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811623408.9A CN109766175A (zh) 2018-12-28 2018-12-28 面向高性能计算在云上的资源弹性伸缩系统及其调度方法

Publications (1)

Publication Number Publication Date
CN109766175A true CN109766175A (zh) 2019-05-17

Family

ID=66451735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811623408.9A Pending CN109766175A (zh) 2018-12-28 2018-12-28 面向高性能计算在云上的资源弹性伸缩系统及其调度方法

Country Status (1)

Country Link
CN (1) CN109766175A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110278257A (zh) * 2019-06-13 2019-09-24 中信银行股份有限公司 一种动态化配置分布式集群节点标签的方法
CN110912773A (zh) * 2019-11-25 2020-03-24 深圳晶泰科技有限公司 面向多公有云计算平台的集群监控系统及其监控方法
CN111309483A (zh) * 2020-02-24 2020-06-19 广州虎牙科技有限公司 一种服务器集群的管理方法、装置、设备及存储介质
CN111897658A (zh) * 2020-08-26 2020-11-06 中国工商银行股份有限公司 一种基于函数计算节点的云计算系统扩容方法及装置
CN112217858A (zh) * 2020-08-28 2021-01-12 北京思特奇信息技术股份有限公司 一种云计算资源弹性伸缩的方法和系统
CN112346845A (zh) * 2021-01-08 2021-02-09 腾讯科技(深圳)有限公司 编码任务的调度方法、装置、设备及存储介质
CN112948109A (zh) * 2021-02-20 2021-06-11 山东英信计算机技术有限公司 一种ai计算集群的配额弹性调度方法、装置及介质
CN113032134A (zh) * 2019-12-24 2021-06-25 阿里巴巴集团控股有限公司 一种实现云计算资源分配的方法及装置和云管理服务器
CN113806177A (zh) * 2021-09-22 2021-12-17 网易(杭州)网络有限公司 集群监控的方法、装置、电子设备及存储介质
CN114356558A (zh) * 2021-12-21 2022-04-15 北京穿杨科技有限公司 一种基于集群的缩容处理方法及装置
CN114356567A (zh) * 2021-12-30 2022-04-15 阿里巴巴(中国)有限公司 一种slurm集群的伸缩方法、系统及设备
WO2022084784A1 (en) * 2020-10-23 2022-04-28 International Business Machines Corporation Auto-scaling a query engine for enterprise-level big data workloads
CN114615340A (zh) * 2022-03-08 2022-06-10 北京字节跳动网络技术有限公司 一种请求处理方法、装置、计算机设备和存储装置
CN116643880A (zh) * 2023-05-06 2023-08-25 上海楷领科技有限公司 集群节点处理方法、系统、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120324073A1 (en) * 2011-06-17 2012-12-20 International Business Machines Corporation Virtual machine load balancing
US8719415B1 (en) * 2010-06-28 2014-05-06 Amazon Technologies, Inc. Use of temporarily available computing nodes for dynamic scaling of a cluster
US20160358249A1 (en) * 2015-06-08 2016-12-08 Hariharan Iyer Pure-Spot and Dynamically Rebalanced Auto-Scaling Clusters
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
CN107733676A (zh) * 2016-08-12 2018-02-23 中国移动通信集团浙江有限公司 一种弹性调度资源的方法及系统
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法
US20180321975A1 (en) * 2017-05-04 2018-11-08 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a stateless, deterministic scheduler and work discovery system with interruption recovery
CN109032805A (zh) * 2018-08-06 2018-12-18 深圳乐信软件技术有限公司 一种弹性扩缩容方法、装置、服务器及存储介质
CN109034879A (zh) * 2018-07-06 2018-12-18 东华大学 一种基于k近邻回归算法的云计算竞价实例价格预测方法
CN109067867A (zh) * 2018-07-30 2018-12-21 北京航空航天大学 面向数据中心负载监控的虚拟化容器服务弹性伸缩方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719415B1 (en) * 2010-06-28 2014-05-06 Amazon Technologies, Inc. Use of temporarily available computing nodes for dynamic scaling of a cluster
US20120324073A1 (en) * 2011-06-17 2012-12-20 International Business Machines Corporation Virtual machine load balancing
US20160358249A1 (en) * 2015-06-08 2016-12-08 Hariharan Iyer Pure-Spot and Dynamically Rebalanced Auto-Scaling Clusters
CN107733676A (zh) * 2016-08-12 2018-02-23 中国移动通信集团浙江有限公司 一种弹性调度资源的方法及系统
CN107025139A (zh) * 2017-03-21 2017-08-08 北京天云融创软件技术有限公司 一种基于云计算的高性能计算调度框架
US20180321975A1 (en) * 2017-05-04 2018-11-08 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a stateless, deterministic scheduler and work discovery system with interruption recovery
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法
CN109034879A (zh) * 2018-07-06 2018-12-18 东华大学 一种基于k近邻回归算法的云计算竞价实例价格预测方法
CN109067867A (zh) * 2018-07-30 2018-12-21 北京航空航天大学 面向数据中心负载监控的虚拟化容器服务弹性伸缩方法
CN109032805A (zh) * 2018-08-06 2018-12-18 深圳乐信软件技术有限公司 一种弹性扩缩容方法、装置、服务器及存储介质

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110278257A (zh) * 2019-06-13 2019-09-24 中信银行股份有限公司 一种动态化配置分布式集群节点标签的方法
CN110912773A (zh) * 2019-11-25 2020-03-24 深圳晶泰科技有限公司 面向多公有云计算平台的集群监控系统及其监控方法
CN113032134A (zh) * 2019-12-24 2021-06-25 阿里巴巴集团控股有限公司 一种实现云计算资源分配的方法及装置和云管理服务器
CN111309483A (zh) * 2020-02-24 2020-06-19 广州虎牙科技有限公司 一种服务器集群的管理方法、装置、设备及存储介质
CN111897658B (zh) * 2020-08-26 2024-03-22 中国工商银行股份有限公司 一种基于函数计算节点的云计算系统扩容方法及装置
CN111897658A (zh) * 2020-08-26 2020-11-06 中国工商银行股份有限公司 一种基于函数计算节点的云计算系统扩容方法及装置
CN112217858A (zh) * 2020-08-28 2021-01-12 北京思特奇信息技术股份有限公司 一种云计算资源弹性伸缩的方法和系统
US11809424B2 (en) 2020-10-23 2023-11-07 International Business Machines Corporation Auto-scaling a query engine for enterprise-level big data workloads
WO2022084784A1 (en) * 2020-10-23 2022-04-28 International Business Machines Corporation Auto-scaling a query engine for enterprise-level big data workloads
GB2615466A (en) * 2020-10-23 2023-08-09 Ibm Auto-scaling a query engine for enterprise-level big data workloads
CN112346845A (zh) * 2021-01-08 2021-02-09 腾讯科技(深圳)有限公司 编码任务的调度方法、装置、设备及存储介质
CN112948109A (zh) * 2021-02-20 2021-06-11 山东英信计算机技术有限公司 一种ai计算集群的配额弹性调度方法、装置及介质
CN112948109B (zh) * 2021-02-20 2023-03-21 山东英信计算机技术有限公司 一种ai计算集群的配额弹性调度方法、装置及介质
CN113806177A (zh) * 2021-09-22 2021-12-17 网易(杭州)网络有限公司 集群监控的方法、装置、电子设备及存储介质
CN114356558A (zh) * 2021-12-21 2022-04-15 北京穿杨科技有限公司 一种基于集群的缩容处理方法及装置
CN114356567A (zh) * 2021-12-30 2022-04-15 阿里巴巴(中国)有限公司 一种slurm集群的伸缩方法、系统及设备
CN114615340A (zh) * 2022-03-08 2022-06-10 北京字节跳动网络技术有限公司 一种请求处理方法、装置、计算机设备和存储装置
CN114615340B (zh) * 2022-03-08 2023-10-20 抖音视界有限公司 一种请求处理方法、装置、计算机设备和存储装置
CN116643880A (zh) * 2023-05-06 2023-08-25 上海楷领科技有限公司 集群节点处理方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109766175A (zh) 面向高性能计算在云上的资源弹性伸缩系统及其调度方法
CN107734035B (zh) 一种云计算环境下的虚拟集群自动伸缩方法
US20170255496A1 (en) Method for scheduling data flow task and apparatus
US7302450B2 (en) Workload scheduler with resource optimization factoring
US11032212B2 (en) Systems and methods for provision of a guaranteed batch
US8412899B2 (en) Real time backup storage node assignment
US8656404B2 (en) Statistical packing of resource requirements in data centers
JP5305649B2 (ja) 動的照会最適化のための方法、装置、およびコンピュータ・プログラム
CA2785398C (en) Managing queries
CN106156115B (zh) 一种资源调度方法及装置
CN105718479A (zh) 跨idc大数处理架构下执行策略生成方法、装置
CN107851039A (zh) 用于资源管理的系统和方法
CN110888714A (zh) 容器的调度方法、装置和计算机可读存储介质
CN103986766A (zh) 自适应负载均衡作业任务调度方法及装置
CN110599148B (zh) 集群数据处理方法、装置、计算机集群及可读存储介质
CN107430526B (zh) 用于调度数据处理的方法和节点
CN110609745A (zh) 一种作业任务的执行方法、装置、电子设备、存储介质
CN112486642B (zh) 资源调度方法、装置、电子设备及计算机可读存储介质
CN108509280A (zh) 一种基于推送模型的分布式计算集群本地性调度方法
KR101770191B1 (ko) 자원 할당 방법 및 그 장치
CN109614210A (zh) 基于能耗感知的Storm大数据节能调度方法
US20200034188A1 (en) Automated predictions for not-yet-completed jobs
CN115952054A (zh) 一种仿真任务资源管理方法、装置、设备及介质
CN109933433A (zh) 一种gpu资源调度系统及其调度方法
CN113742059B (zh) 任务分配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 3 / F, Shunfeng industrial building, No.2 Hongliu Road, Fubao community, Fubao street, Futian District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jingtai Technology Co.,Ltd.

Address before: 518000 4th floor, No.9 Hualian Industrial Zone, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Jingtai Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20190517