CN109614236B - 集群资源动态调整方法、装置、设备及可读存储介质 - Google Patents

集群资源动态调整方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109614236B
CN109614236B CN201811500498.2A CN201811500498A CN109614236B CN 109614236 B CN109614236 B CN 109614236B CN 201811500498 A CN201811500498 A CN 201811500498A CN 109614236 B CN109614236 B CN 109614236B
Authority
CN
China
Prior art keywords
cluster
adjustment
cluster resources
resources
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811500498.2A
Other languages
English (en)
Other versions
CN109614236A (zh
Inventor
刘有
邸帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201811500498.2A priority Critical patent/CN109614236B/zh
Publication of CN109614236A publication Critical patent/CN109614236A/zh
Application granted granted Critical
Publication of CN109614236B publication Critical patent/CN109614236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种集群资源动态调整方法,包括:获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。本发明还公开了一种集群资源动态调整装置、设备及可读存储介质。本发明能够实现各运行队列的集群资源的动态调整,可以有效的提高集群资源的利用率。

Description

集群资源动态调整方法、装置、设备及可读存储介质
技术领域
本发明涉及资源管理的技术领域,尤其涉及一种集群资源动态调整方法、装置、设备及可读存储介质。
背景技术
目前,Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)包括三种资源调度方式,包括FIFO Scheduler、Capacity Scheduler和FairScheduler,其中,FIFO Scheduler将应用按提交的顺序排成一个先进先出队列,在进行资源分配的时候,先给队列中首位应用分配集群资源,然后在满足首位的应用需求后给下一个应用分配集群资源;Capacity Scheduler是调度器以队列为单位划分集群资源,而FairScheduler是将集群资源均匀的分配给各应用。
然而,随着企业内批量作业数目和数据量的不断提升,目前的集群资源调度方式无法满足生产的跑批要求,经常需要运维人员手动干预队列所需集群资源的调度与分配,无法动态的自动调整队列所需的集群资源,同时人工手动干预无法合理的分配集群资源,集群资源的利用率不高,因此,如何实现集群资源的动态调整,提高集群资源的利用率是目前亟待解决的问题。
发明内容
本发明的主要目的在于提供一种集群资源动态调整方法、装置、设备及可读存储介质,旨在实现集群资源的动态调整,提高集群资源的利用率。
为实现上述目的,本发明提供一种集群资源动态调整方法,所述集群资源动态调整方法包括以下步骤:
获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
进一步地,依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略的步骤包括:
从预设的集群资源调整规则中获取跑批任务时段,并从所述当前运行数据中获取系统当前时间;
判断所述系统当前时间是否处于所述跑批任务时段;
若所述系统当前时间处于跑批任务时段,则从所述集群资源调整规则中获取集群资源增加表,并将所述集群资源增加表确定为各运行队列的集群资源的第一调整策略;
若所述系统当前时间不处于跑批任务时段,则从所述集群资源调整规则中获取集群资源释放表,并将所述集群资源释放表确定为各运行队列的集群资源的第一调整策略。
进一步地,依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略的步骤包括:
从所述当前运行数据中获取各运行队列的集群资源使用率,并从所述集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表;
查询所述映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例;
将各运行队列的的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
进一步地,依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略的步骤包括:
计算所述第一调整策略与所述第二调整策略的相似度,并判断所述相似度是否大于或等于预设相似度;
若所述相似度大于或等于预设相似度,则依据所述第二调整策略和所述当前剩余集群资源,确定目标调整策略;
若所述相似度小于预设相似度,则依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略。
进一步地,依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略的步骤包括:
依据所述第一调整策略,计算待释放集群资源和待增加集群资源;
计算所述当前剩余集群资源与所述待释放集群资源之和,得到总可用集群资源,并判断所述总可用集群资源是否大于或等于所述待增加集群资源;
若所述总可用集群资源大于或等于所述待增加集群资源,则将所述第一调整策略确定为各运行队列的集群资源的目标调整策略。
进一步地,所述第一调整策略为集群资源释放表、集群资源增加表或各队列的集群资源的调整比例;所述依据所述第一调整策略,计算待释放集群资源和待增加集群资源的步骤包括:
若第一调整策略仅为集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;
若第一调整策略仅为集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;
若第一调整策略为各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组;
计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
进一步地,获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略的步骤之后,还包括:
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定是否触发集群资源告警指令;
若触发集群资源告警指令,则执行预设告警操作;
若不触发集群资源告警指令,则执行步骤:依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
此外,为实现上述目的,本发明还提供一种集群资源动态调整装置,所述集群资源动态调整装置包括:
策略确定模块,用于获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
策略预测模块,用于将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
策略决策模块,用于获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
此外,为实现上述目的,本发明还提供一种集群资源动态调整设备,所述集群资源动态调整设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集群资源动态调整程序,所述集群资源动态调整程序被所述处理器执行时实现如上所述的集群资源动态调整方法的步骤。
本发明还提供一种可读存储介质,所述可读存储介质上存储有集群资源动态调整程序,所述集群资源动态调整程序被处理器执行时实现如上所述的集群资源动态调整方法的步骤。
本发明提供一种集群资源动态调整方法、装置、设备及可读存储介质,本发明基于运行队列的当前运行数据和集群资源调整规则,确定各运行队列的集群资源的第一调整策略,同时基于当前运行数据和策略预测模型,确定运行队列的集群资源的第二调整策略,然后获取当前剩余集群资源,并基于第一调整策略和第二调整策略,确定目标调整策略,且执行该目标调整策略,同时结合集群资源调整规则和策略预测模型,综合确定集群资源的调整策略,不需要人工干预集群资源的调整,实现各运行队列的集群资源的动态调整,可以有效的提高集群资源的利用率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明集群资源动态调整方法第一实施例的流程示意图;
图3为本发明集群资源动态调整装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例集群资源动态调整设备可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该集群资源动态调整设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的集群资源动态调整设备结构并不构成对集群资源动态调整设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的集群资源动态调整设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,并执行以下步骤:
获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
从预设的集群资源调整规则中获取跑批任务时段,并从所述当前运行数据中获取系统当前时间;
判断所述系统当前时间是否处于所述跑批任务时段;
若所述系统当前时间处于跑批任务时段,则从所述集群资源调整规则中获取集群资源增加表,并将所述集群资源增加表确定为各运行队列的集群资源的第一调整策略;
若所述系统当前时间不处于跑批任务时段,则从所述集群资源调整规则中获取集群资源释放表,并将所述集群资源释放表确定为各运行队列的集群资源的第一调整策略。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
从所述当前运行数据中获取各运行队列的集群资源使用率,并从所述集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表;
查询所述映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例;
将各运行队列的的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
计算所述第一调整策略与所述第二调整策略的相似度,并判断所述相似度是否大于或等于预设相似度;
若所述相似度大于或等于预设相似度,则依据所述第二调整策略和所述当前剩余集群资源,确定目标调整策略;
若所述相似度小于预设相似度,则依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
依据所述第一调整策略,计算待释放集群资源和待增加集群资源;
计算所述当前剩余集群资源与所述待释放集群资源之和,得到总可用集群资源,并判断所述总可用集群资源是否大于或等于所述待增加集群资源;
若所述总可用集群资源大于或等于所述待增加集群资源,则将所述第一调整策略确定为各运行队列的集群资源的目标调整策略。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
若第一调整策略仅为集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;
若第一调整策略仅为集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;
若第一调整策略为各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组;
计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源动态调整程序,还执行以下步骤:
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定是否触发集群资源告警指令;
若触发集群资源告警指令,则执行预设告警操作;
若不触发集群资源告警指令,则执行步骤:依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
其中,本发明集群资源动态调整设备的具体实施例与下述集群资源动态调整方法的各具体实施例基本相同,在此不作赘述。
本发明提供一种集群资源动态调整方法。
参照图2,图2为本发明集群资源动态调整方法第一实施例的流程示意图。
本实施例中,该集群资源动态调整方法包括:
步骤S101,获取各运行队列的当前运行数据,并依据当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
本实施例中,该集群资源动态调整方法应用于集群资源动态调整设备,该集群资源动态调整设备获取各运行队列的当前运行数据,并依据当前运行数据和预设的集群资源调整规则,确定该运行队列的集群资源的第一调整策略。其中,该当前运行数据包括但不限于系统当前时间活跃应用数、活跃用户数、已分配容器数、已分配内存、已分配核数、挂起应用数、运行应用数、可用内存、可用核数、最大共享内存、最大共享核数、最小共享内存、最小共享核数、挂起容器数、挂起内存、挂起核数、保留容器数、保留内存、保留核数、集群名称、队列名称、采集日期、采集时间、集群资源使用率(内存使用率和CPU使用率)。
其中,该集群资源动态调整设备中存储有开发人员定义的集群资源调整规则,包括但不限于基于时间的集群资源调整规则和基于集群资源使用率的集群资源调整规则,基于时间的集群资源调整规则中包含跑批任务时段、集群资源增加表和集群资源释放表,在系统当前时间处于该跑批任务时段中时,执行跑批任务,需要的集群资源较多,则按照该集群资源增加表给跑批任务队列分配具体数值的集群资源,反之系统当前时间不处于该跑批任务时段中时,不执行跑批任务,则按照集群资源释放表释放跑批任务队列的集群资源;基于集群资源使用率的集群资源调整规则为基于各队列的集群资源使用率,适应性的调整各队列的集群资源,且该规则中包含有集群资源使用率与集群资源调整比例的映射关系表,该映射关系表定义了集群资源使用率与集群资源调整比例之间的关系。其中,该集群资源增加表中存储有各队列对应的集群资源的具体增加数值,该集群资源释放表中存储有待释放队列的队列名称和每个队列可释放的集群资源。
具体地,在集群资源调整规则是基于时间的集群资源调整规则时,该集群资源动态调整设备从基于时间的集群资源调整规则中获取跑批任务时段,并从当前运行数据中获取系统当前时间,然后判断该系统当前时间是否处于跑批任务时段,如果系统当前时间处于跑批任务时段,则从该集群资源调整规则中获取集群资源增加表,并将该集群资源增加表确定为各运行队列的集群资源的第一调整策略;如果系统当前时间不处于跑批任务时段,则从该集群资源调整规则中获取集群资源释放表,并将该集群资源释放表确定为各运行队列的集群资源的第一调整策略。
具体地,在集群资源调整规则是基于集群资源使用率的集群资源调整规则时,该集群资源动态调整设备从当前运行数据中获取各运行队列的集群资源使用率,并从基于集群资源使用率的集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表,然后依据该映射关系表和各运行队列的集群资源使用率,确定各运行队列的集群资源的第一调整策略,即查询该映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例,并将各运行队列的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
需要说明的是,上述集群资源调整比例包括集群资源降低比例和集群资源增加比例,且上述映射关系表中的集群资源调整比例与集群资源使用率的对应关系可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。例如,集群资源使用率为90%,则集群资源调整比例为10%,且为集群资源增加比例,集群资源使用率为10%,则集群资源调整比例为20%,且为集群资源释放比例。
具体实施中,在确定各运行队列的集群资源的第一调整策略之后,可进一步地判断集群资源动态调整设备是否开启策略预测功能,如果集群资源动态调整设备未开启策略预测功能,则该集群资源动态调整设备,依据该第一调整策略,调整各运行队列的集群资源,即获取各运行队列的集群资源配置文件,并依据该第一调整策略、更新各运行队列的集群资源配置文件中的队列配置参数,然后将更新后的各运行队列的队列资源配置文件下发到集群中,以调整各运行队列的集群资源。其中,队列配置参数包括但不限于可运行应用数、最大共享内存、最大共享核数、最小共享内存和最小共享核数。可实现队列的集群资源的动态调整,提高集群资源利用率。
步骤S102,将当前运行数据输入至预设的策略预测模型,并获取策略预测模型输出的各运行队列的集群资源的第二调整策略;
本实施例中,在确定各运行队列的集群资源的第一调整策略之后,该集群资源动态调整设备将当前运行数据输入至预设的策略预测模型,并获取该策略预测模型输出的各运行队列的集群资源的第二调整策略,其中,所述第二调整策略是根据当前运行数据的规律模拟出下一个时间段队列资源的实际使用值,例如第一个时间段的内存是75mb、第二个时间段的内存是80mb,则可预测下一个时间段的内存是85mb。策略预测模型事先进行训练,具体地,开发人员部署监控系统采集所有运行队列的队列运行数据,包括但不限于队列中的应用运行信息、队列资源分配和使用情况、时间信息和集群信息等,并将采集到的数据存储到数据库中,在训练策略预测模型时,从监控系统的数据库中获取历史队列运行数据,并对历史队列运行数据进行清洗和特征提取,得到样本数据,然后使用逻辑回归或决策树模型等机器学习算法和样本数据,对待训练的策略预测模型进行训练,从而得到策略预测模型。该队列运行数据包括但不限于活跃应用数、活跃用户数、已分配容器数、已分配内存、已分配核数、挂起应用数、运行应用数、可用内存、可用核数、最大共享内存、最大共享核数、最小共享内存、最小共享核数、挂起容器数、挂起内存、挂起核数、保留容器数、保留内存、保留核数、集群名称、队列名称、采集日期、采集时间、内存使用率、CPU使用率等字段。
其中,为提高策略预测模型的预测效果,则将样本数据输入到两种待训练的策略预测模型中,可以得到两个策略预测模型,将一组样本数据同时输入到两个策略预测模型中,分别得到两个策略预测模型输出的预测结果,并将每个预测结果与对应的实际结果进行比较,由于预测结果与实际结果的差距越小,则说明损失函数越小,模型的效果越好,因此,将预测结果与实际结果之间的差距最小的对应策略预测模型,确定为最佳策略预测模型。需要说明的,上述策略预测模型可基于数据库中的最新数据自动更新,可以提升策略预测模型的准确性和有效性。
步骤S103,获取当前剩余集群资源,并依据第一调整策略、第二调整策略和当前剩余集群资源,确定目标调整策略,且执行目标调整策略。
本实施例中,在确定第一调整策略和第二调整策略之后,该集群资源动态调整设备获取当前剩余集群资源,并依据第一调整策略、第二调整策略和当前剩余集群资源,确定目标调整策略,且执行该目标调整策略,即基于该目标调整策略,调整各运行队列的集群资源,具体为获取各运行队列的当前队列资源配置文件,并基于该目标调整策略、更新各运行队列的当前队列资源配置文件中的资源配置参数,得到更新后的各运行队列的队列资源配置文件,并将更新后的各运行队列的队列资源配置文件下发到集群中,以调整各运行队列的集群资源。其中,资源配置参数包括但不限于CPU核数、内存大小和磁盘大小。
具体地,计算第一调度策略与第二调整策略的相似度,并判断该相似度是否大于或等于预设相似度,如果该相似度大于或等于预设相似度,则依据第一调整策略和当前剩余集群资源,确定目标调整策略,即依据第一调整策略的实际值,计算待释放集群资源和待增加集群资源,然后计算当前剩余集群资源与待释放集群资源之和,得到总可用集群资源,并判断总可用集群资源是否大于或等于待增加集群资源,如果总可用集群资源大于或等于待增加集群资源,则表示集群资源足够,则将第一调整策略确定为各运行队列的集群资源的目标调整策略;其中,该第一调整策略为集群资源释放表、集群资源增加表和各队列的集群资源的调整比例中的一种情况,所述依据第一调整策略的实际值,计算待释放集群资源和待增加集群资源的步骤包括:
如果该第一调整策略仅为集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;如果该第一调整策略仅为集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;如果第一调整策略为各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例,将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组,然后计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
如果该相似度小于预设相似度,则依据第二调整策略和当前剩余集群资源,确定目标调整策略,即依据预测的第二调整策略,计算待释放集群资源和待增加集群资源,然后计算当前剩余集群资源与待释放集群资源之和,得到总可用集群资源,并判断总可用集群资源是否大于或等于待增加集群资源,如果总可用集群资源大于或等于待增加集群资源,则表示集群资源足够,则将第二调整策略确定为各运行队列的集群资源的目标调整策略。需要说明的是,上述预设相似度可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。其中,基于预测的第二调整策略,计算待释放集群资源和待增加集群资源的具体实现方式与上述基于第一调整策略,计算待释放集群资源和待增加集群资源的具体实现方式相同,此处不做赘述。
本实施例中,本发明基于运行队列的当前运行数据和集群资源调整规则,确定各运行队列的集群资源的第一调整策略,同时基于当前运行数据和策略预测模型,确定运行队列的集群资源的第二调整策略,然后获取当前剩余集群资源,并基于第一调整策略和第二调整策略,确定目标调整策略,且执行该目标调整策略,同时结合集群资源调整规则和策略预测模型,综合确定集群资源的调整策略,不需要人工干预集群资源的调整,实现各运行队列的集群资源的动态调整,可以有效的提高集群资源的利用率。
进一步地,基于上述第一实施,提出了本发明集群资源动态调整方法的第二实施例,与前述实施例的区别在于,
在确定第一调整策略和第二调整策略之后,该集群资源动态调整设备获取当前剩余集群资源,并依据第一调整策略、第二调整策略和当前剩余集群资源,确定是否触发集群资源告警指令,即确定第一调整策略所需的第一集群资源,并确定第二调整策略所需的第二集群资源,然后判断第一集群资源是否小于或等于当前剩余集群资源,并判断第二集群资源是否小于或等于当前剩余集群资源,如果第一集群资源或/和第二集群资源大于当前剩余集群资源,则表示集群资源不够,需要触发集群资源告警指令,如果第一集群资源和第二集群资源均小于或等于当前剩余集群资源,则表示集群资源足够,不需要触发集群资源告警指令;如果触发集群资源告警指令,则该集群资源动态调整设备执行预设告警操作,包括但不限于短信提告警和邮件告警;如果不不触发集群资源告警指令,则依据第一调整策略、第二调整策略和当前剩余集群资源,确定目标调整策略,且执行目标调整策略。
本实施例中,本发明在预测到集群资源不足时,执行告警操作,便于运维人员及时的对集群进行扩容。
本发明还提供一种集群资源动态调整装置。
参照图3,图3为本发明集群资源动态调整装置第一实施例的功能模块示意图。
本实施例中,该集群资源动态调整装置包括:
策略确定模块101,用于获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
策略预测模块102,用于将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
策略决策模块103,用于获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
进一步地,所述策略确定模块101还用于:
从预设的集群资源调整规则中获取跑批任务时段,并从所述当前运行数据中获取系统当前时间;
判断所述系统当前时间是否处于所述跑批任务时段;
若所述系统当前时间处于跑批任务时段,则从所述集群资源调整规则中获取集群资源增加表,并将所述集群资源增加表确定为各运行队列的集群资源的第一调整策略;
若所述系统当前时间不处于跑批任务时段,则从所述集群资源调整规则中获取集群资源释放表,并将所述集群资源释放表确定为各运行队列的集群资源的第一调整策略。
进一步地,所述策略确定模块101还用于:
从所述当前运行数据中获取各运行队列的集群资源使用率,并从所述集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表;
查询所述映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例;
将各运行队列的的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
进一步地,所述策略决策模块103还用于:
计算所述第一调整策略与所述第二调整策略的相似度,并判断所述相似度是否大于或等于预设相似度;
若所述相似度大于或等于预设相似度,则依据所述第二调整策略和所述当前剩余集群资源,确定目标调整策略;
若所述相似度小于预设相似度,则依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略。
进一步地,所述策略决策模块103还用于:
依据所述第一调整策略,计算待释放集群资源和待增加集群资源;
计算所述当前剩余集群资源与所述待释放集群资源之和,得到总可用集群资源,并判断所述总可用集群资源是否大于或等于所述待增加集群资源;
若所述总可用集群资源大于或等于所述待增加集群资源,则将所述第一调整策略确定为各运行队列的集群资源的目标调整策略。
进一步地,所述策略决策模块103还用于:
若第一调整策略仅为集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;
若第一调整策略仅为集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;
若第一调整策略为各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组;
计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
进一步地,所述集群资源动态调整装置还包括:
指令触发模块,用于获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定是否触发集群资源告警指令;
告警模块,用于若触发集群资源告警指令,则执行预设告警操作;
所述策略决策模块103,还用于依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
其中,本发明集群资源动态调整装置的具体实施例与上述集群资源动态调整方法各实施例基本相同,在此不作赘述。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有集群资源动态调整程序,所述集群资源动态调整程序被处理器执行时,执行以下步骤:
获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略;
将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
从预设的集群资源调整规则中获取跑批任务时段,并从所述当前运行数据中获取系统当前时间;
判断所述系统当前时间是否处于所述跑批任务时段;
若所述系统当前时间处于跑批任务时段,则从所述集群资源调整规则中获取集群资源增加表,并将所述集群资源增加表确定为各运行队列的集群资源的第一调整策略;
若所述系统当前时间不处于跑批任务时段,则从所述集群资源调整规则中获取集群资源释放表,并将所述集群资源释放表确定为各运行队列的集群资源的第一调整策略。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
从所述当前运行数据中获取各运行队列的集群资源使用率,并从所述集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表;
查询所述映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例;
将各运行队列的的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
计算所述第一调整策略与所述第二调整策略的相似度,并判断所述相似度是否大于或等于预设相似度;
若所述相似度大于或等于预设相似度,则依据所述第二调整策略和所述当前剩余集群资源,确定目标调整策略;
若所述相似度小于预设相似度,则依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
依据所述第一调整策略,计算待释放集群资源和待增加集群资源;
计算所述当前剩余集群资源与所述待释放集群资源之和,得到总可用集群资源,并判断所述总可用集群资源是否大于或等于所述待增加集群资源;
若所述总可用集群资源大于或等于所述待增加集群资源,则将所述第一调整策略确定为各运行队列的集群资源的目标调整策略。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
若第一调整策略仅为集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;
若第一调整策略仅为集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;
若第一调整策略为各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组;
计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
进一步地,所述集群资源动态调整程序被处理器执行时,还执行以下步骤:
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定是否触发集群资源告警指令;
若触发集群资源告警指令,则执行预设告警操作;
若不触发集群资源告警指令,则执行步骤:依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
其中,本发明可读存储介质的具体实施例与上述集群资源动态调整方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种集群资源动态调整方法,其特征在于,所述集群资源动态调整方法包括以下步骤:
获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略,其中,所述第一调整策略为集群资源增加表、集群资源释放表和各队列的集群资源的调整比例中的一个;
将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
获取当前剩余集群资源;
计算所述第一调整策略与所述第二调整策略的相似度;
依据所述相似度和预设相似度之间的大小关系,以及所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
2.如权利要求1所述的集群资源动态调整方法,其特征在于,依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略的步骤包括:
从预设的集群资源调整规则中获取跑批任务时段,并从所述当前运行数据中获取系统当前时间;
判断所述系统当前时间是否处于所述跑批任务时段;
若所述系统当前时间处于跑批任务时段,则从所述集群资源调整规则中获取集群资源增加表,并将所述集群资源增加表确定为各运行队列的集群资源的第一调整策略;
若所述系统当前时间不处于跑批任务时段,则从所述集群资源调整规则中获取集群资源释放表,并将所述集群资源释放表确定为各运行队列的集群资源的第一调整策略。
3.如权利要求1所述的集群资源动态调整方法,其特征在于,依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略的步骤包括:
从所述当前运行数据中获取各运行队列的集群资源使用率,并从所述集群资源调整规则中获取集群资源使用率与集群资源调整比例的映射关系表;
查询所述映射关系表,获取各运行队列的集群资源使用率各自对应的集群资源调整比例;
将各运行队列的的集群资源调整比例确定为各运行队列的集群资源的第一调整策略。
4.如权利要求1所述的集群资源动态调整方法,其特征在于,依据所述相似度和预设相似度之间的大小关系,以及所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略的步骤包括:
若所述相似度大于或等于所述预设相似度,则依据所述第二调整策略和所述当前剩余集群资源,确定目标调整策略;
若所述相似度小于所述预设相似度,则依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略。
5.如权利要求4所述的集群资源动态调整方法,其特征在于,依据所述第一调整策略和所述当前剩余集群资源,确定目标调整策略的步骤包括:
依据所述第一调整策略,计算待释放集群资源和待增加集群资源;
计算所述当前剩余集群资源与所述待释放集群资源之和,得到总可用集群资源,并判断所述总可用集群资源是否大于或等于所述待增加集群资源;
若所述总可用集群资源大于或等于所述待增加集群资源,则将所述第一调整策略确定为各运行队列的集群资源的目标调整策略。
6.如权利要求5所述的集群资源动态调整方法,其特征在于,所述依据所述第一调整策略,计算待释放集群资源和待增加集群资源的步骤包括:
若第一调整策略仅为所述集群资源释放表,则待释放集群资源为该集群资源释放表中各队列的集群资源之和,待增加集群资源为0;
若第一调整策略仅为所述集群资源增加表,则待增加集群资源为该集群资源增加表中各队列的集群资源之和,待释放集群资源为0;
若第一调整策略为所述各队列的集群资源的调整比例,则按照各队列的集群资源的调整比例将各队列划分为两个队列组,分别是调整比例为集群资源降低比例的第一队列组和调整比例为集群资源增加比例的第二队列组;
计算第一队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待释放集群资源,同时计算第二队列组中各队列的集群资源与对应集群资源降低比例的乘积,并累加各乘积,得到待增加集群资源。
7.如权利要求1-6中任一项所述的集群资源动态调整方法,其特征在于,获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略的步骤之后,还包括:
获取当前剩余集群资源,并依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定是否触发集群资源告警指令;
若触发集群资源告警指令,则执行预设告警操作;
若不触发集群资源告警指令,则执行步骤:依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
8.一种集群资源动态调整装置,其特征在于,所述集群资源动态调整装置包括:
策略确定模块,用于获取各运行队列的当前运行数据,并依据所述当前运行数据和预设的集群资源调整规则,确定各运行队列的集群资源的第一调整策略,其中,所述第一调整策略为集群资源增加表、集群资源释放表和各队列的集群资源的调整比例中的一个;
策略预测模块,用于将所述当前运行数据输入至预设的策略预测模型,并获取所述策略预测模型输出的各运行队列的集群资源的第二调整策略;
策略决策模块,用于获取当前剩余集群资源;计算所述第一调整策略与所述第二调整策略的相似度;依据所述相似度和预设相似度之间的大小关系,以及依据所述第一调整策略、所述第二调整策略和所述当前剩余集群资源,确定目标调整策略,且执行所述目标调整策略。
9.一种集群资源动态调整设备,其特征在于,所述集群资源动态调整设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集群资源动态调整程序,所述集群资源动态调整程序被所述处理器执行时实现如权利要求1至7中任一项所述的集群资源动态调整方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有集群资源动态调整程序,所述集群资源动态调整程序被处理器执行时实现如权利要求1至7中任一项所述的集群资源动态调整方法的步骤。
CN201811500498.2A 2018-12-07 2018-12-07 集群资源动态调整方法、装置、设备及可读存储介质 Active CN109614236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500498.2A CN109614236B (zh) 2018-12-07 2018-12-07 集群资源动态调整方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500498.2A CN109614236B (zh) 2018-12-07 2018-12-07 集群资源动态调整方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109614236A CN109614236A (zh) 2019-04-12
CN109614236B true CN109614236B (zh) 2023-04-18

Family

ID=66007634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500498.2A Active CN109614236B (zh) 2018-12-07 2018-12-07 集群资源动态调整方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109614236B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766577B (zh) * 2019-10-16 2021-10-12 湖北美和易思教育科技有限公司 一种基于大数据平台的教师集群管理系统
CN113296840B (zh) * 2020-02-20 2023-04-14 银联数据服务有限公司 一种集群运维方法及装置
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9904579B2 (en) * 2013-03-15 2018-02-27 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN103605662B (zh) * 2013-10-21 2017-02-22 华为技术有限公司 一种分布式计算框架参数优化方法、装置及系统
CN106155810B (zh) * 2015-04-22 2018-12-25 先智云端数据股份有限公司 软件定义混合储存系统中工作负载感知的输入输出调度器
US9760494B2 (en) * 2015-06-24 2017-09-12 International Business Machines Corporation Hybrid tracking of transaction read and write sets
CN105912390A (zh) * 2016-04-07 2016-08-31 四川大学 云计算环境下基于模板的任务调度策略
US10102040B2 (en) * 2016-06-29 2018-10-16 Amazon Technologies, Inc Adjusting variable limit on concurrent code executions
CN107766156B (zh) * 2017-10-20 2020-07-10 北京星选科技有限公司 任务处理方法及装置
CN108427604B (zh) * 2018-02-06 2020-06-26 华为技术有限公司 集群的资源调整方法、装置及云平台

Also Published As

Publication number Publication date
CN109614236A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109032801B (zh) 一种请求调度方法、系统及电子设备和存储介质
US10558498B2 (en) Method for scheduling data flow task and apparatus
CN109614236B (zh) 集群资源动态调整方法、装置、设备及可读存储介质
US11582166B2 (en) Systems and methods for provision of a guaranteed batch
CN111400022A (zh) 一种资源调度方法、装置及电子设备
US10474957B2 (en) Method and apparatus for forecasting characteristic information change
CN112328399A (zh) 一种集群资源调度方法、装置、计算机设备及存储介质
US11496413B2 (en) Allocating cloud computing resources in a cloud computing environment based on user predictability
CN111338791A (zh) 集群队列资源的调度方法、装置、设备及存储介质
CN105786600A (zh) 任务调度方法和装置
CN111176840B (zh) 分布式任务的分配优化方法和装置、存储介质及电子装置
CN111506398A (zh) 任务调度方法和装置、存储介质、电子装置
CN112559147B (zh) 基于gpu占用资源特点的动态匹配方法、系统和设备
CN109783236B (zh) 用于输出信息的方法和装置
CN113886069A (zh) 一种资源分配方法、装置、电子设备及存储介质
CN112053092A (zh) 工单的处理方法、装置、可读介质以及设备
CN110750350A (zh) 一种大资源调度方法、系统、装置及可读存储介质
CN107071014B (zh) 一种资源调整方法及装置
CN108429704B (zh) 一种节点资源分配方法及装置
CN113129098B (zh) 一种订单分配方法及装置
CN111813546B (zh) 一种多网络连接应用的资源分配方法、系统及相关装置
CN112948092A (zh) 批量作业的调度方法、装置、电子设备及存储介质
JP2019128772A (ja) リソース割当最適化システム、リソース割当最適化方法およびリソース割当最適化プログラム
EP2698713A2 (en) Load balancing in data processing system
CN115686744A (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant