CN117421131A - 一种监控服务器功耗负载的智能调度方法及系统 - Google Patents

一种监控服务器功耗负载的智能调度方法及系统 Download PDF

Info

Publication number
CN117421131A
CN117421131A CN202311739181.5A CN202311739181A CN117421131A CN 117421131 A CN117421131 A CN 117421131A CN 202311739181 A CN202311739181 A CN 202311739181A CN 117421131 A CN117421131 A CN 117421131A
Authority
CN
China
Prior art keywords
power consumption
server
overload
preset
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311739181.5A
Other languages
English (en)
Other versions
CN117421131B (zh
Inventor
王卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zeta Cloud Technology Co ltd
Original Assignee
Wuhan Zeta Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Zeta Cloud Technology Co ltd filed Critical Wuhan Zeta Cloud Technology Co ltd
Priority to CN202311739181.5A priority Critical patent/CN117421131B/zh
Publication of CN117421131A publication Critical patent/CN117421131A/zh
Application granted granted Critical
Publication of CN117421131B publication Critical patent/CN117421131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Power Sources (AREA)

Abstract

本发明涉及一种监控服务器功耗负载的智能调度方法及系统,其方法包括获取被监控集群中所有服务器的使用参数信息并构建使用参数样本集;构建多层训练算法模型并进行训练,得到超负荷信息;根据超负荷信息对超负荷服务器的任务节点进行初次提前调度处理;在经过初次提前调度处理后超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理。本发明实现了对服务器功耗负载的动态实时监控和自动调度,结合调度模型和算法实现了云平台的绝对安全,避免因为功耗过高等导致的宕机风险,无需人工操作,并且调度不影响用户作业,同时提高了服务器的利用率。

Description

一种监控服务器功耗负载的智能调度方法及系统
技术领域
本发明涉及计算机功耗负载调度技术领域,尤其涉及一种监控服务器功耗负载的智能调度方法及系统。
背景技术
数据中心中供电网络异常复杂,每台机柜都有其标准的供电功率,随着各类硬件的不断迭代,包括但不限于CPU、GPU、硬盘、风扇等,尤其是随着算力需求的不断提升,GPU的应用也越来越广泛,随着服务器中GPU数量的增多,功耗也随之增加,而数据中心的功率以及机柜的功率无法满足有可能会导致服务器功耗过载而宕机进而造成用户业务停摆以及数据丢失的风险。目前数据中心只能通过监控机柜以及机柜中PDU改造,通过更换只能PDU来监控数据中心和机柜的电压、电流以及功耗负载,但是当负载过高或者超过负载时,只能发出告警,无法避免服务器因为负载过高而导致服务器宕机的问题。这种方式主要的缺点有:第一、只能做到监控和告警,无法调度资源和降低负载;第二、数据中心监控软件和改造机柜耗资巨大,成本过高,且造成过渡浪费。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种监控服务器功耗负载的智能调度方法及系统。
本发明解决上述技术问题的技术方案如下:一种监控服务器功耗负载的智能调度方法,获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤:
将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
上述进一步方案的有益效果是:通过构建预设激活函数z(x),并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值,这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值,再结合预设功耗阈值来得到精确的超负荷信息,作为后续调度的依据。
进一步:所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤:
根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
将所述超负荷服务器的所有任务节点的实时功耗进行排列;
在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点。
上述进一步方案的有益效果是:通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点,从而降低超负荷服务器的功耗,有利于超负荷服务器尽快恢复至正常功耗状态,避免宕机。
进一步:所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤:
将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
上述进一步方案的有益效果是:通过针对不同重要等级的任务节点进行不同优先级的处理,优先调度重要等级为一般重要的任务节点,可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗,并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后,如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内,那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围,保证超负荷服务器不宕机的前提下减少对任务节点的影响。
进一步:所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时,则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放,直至所述超负荷服务器中重要等级为非常重要的所有所述任务节点的GPU频率被释放, 并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时,则将所述轻负荷服务器中热迁移来的且重要等级为重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第三预设比例阈值时,将所述轻负荷服务器中热迁移来的且重要等级为一般重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
其中,所述第一预设比例阈值大于所述第二预设比例阈值,所述第二预设比例阈值大于第三预设比例阈值。
上述进一步方案的有益效果是:在超负荷服务器的功耗降低至预设功耗阈值范围内后,可以优先恢复重要等级为非常重要的所述任务节点,将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放,以减小对任务节点的影响,然后依次对重要等级为重要和一般重要的任务节点恢复热迁移至原超负荷服务器,在保证服务器安全运行的前提下尽可能减小对任务节点的影响。
本发明还提供了一种监控服务器功耗负载的智能调度系统, 包括构建模块、训练模块、初次调度模块和热迁移锁定模块;
所述构建模块,用于获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
所述训练模块,用于构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
所述初次调度模块,用于根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
所述热迁移锁定模块,用于在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述训练模块将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为:
将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
上述进一步方案的有益效果是:通过构建预设激活函数z(x),并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值,这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值,再结合预设功耗阈值来得到精确的超负荷信息,作为后续调度的依据。
进一步:所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为:
根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
将所述超负荷服务器的所有任务节点的实时功耗进行排列;
在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点;
上述进一步方案的有益效果是:通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点,从而降低超负荷服务器的功耗,有利于超负荷服务器尽快恢复至正常功耗状态,避免宕机。
进一步:所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为:
将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
上述进一步方案的有益效果是:通过针对不同重要等级的任务节点进行不同优先级的处理,优先调度重要等级为一般重要的任务节点,可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗,并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后,如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内,那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围,保证超负荷服务器不宕机的前提下减少对任务节点的影响。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现所述的监控服务器功耗负载的智能调度方法。
本发明还提供了一种监控服务器功耗负载的智能调度设备,其特征在于:包括通信接口、存储器、通信总线和处理器,其中,所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现所述的监控服务器功耗负载的智能调度方法的步骤。
本发明的有益效果是:本发明的监控服务器功耗负载的智能调度方法及系统,通过构建的使用参数样本集对多层训练算法模型进行训练,得到未来时间段的超负荷信息,然后根据超负荷信息进行初次提前调度处理,并在初次提前调度处理无法降低服务器功耗时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,实现了对服务器功耗负载的动态实时监控和自动调度,结合调度模型和算法实现了云平台的绝对安全,避免因为功耗过高等导致的宕机风险,无需人工操作,并且调度不影响用户作业,同时提高了服务器的利用率。
附图说明
图1为本发明一实施例的监控服务器功耗负载的智能调度方法的流程示意图;
图2为本发明一实施例的监控服务器功耗负载的智能调度系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种监控服务器功耗负载的智能调度方法,包括如下步骤:
S1:获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
S2:构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
S3:根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
S4:在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
实际中,通过与硬件之间的通信将每一个C14公头插座和C13防脱插座的电流、电压信息传输到平台,进而计算出功率和功耗并在平台中进行展示,方便运维人员进行查看和监控,通过平台可以设置对应的阈值,比如当设置服务器功耗达到某一个数值时,会发出告警,及时通知运维人员进行处理。通知的方式可以是邮件或者短信或者邮件+短信的方式。C14公头插座是一种电源插座,常用于计算机和其他电子设备上。它具有三个针脚,用于连接电源线,提供电力供应给设备,它是一种标准化的插座,可以与相应的插头(C13母头)相匹配使用。C14公头插座广泛应用于服务器、网络设备、电脑主机和其他需要稳定电源供应的设备上;C13防脱插座,是一种电源输入装置,用于连接市电或者机房中原有的PDU设备,且不会占用PDU原有位置,只需要占用机柜1U的空间位置。
在本发明的一个或多个实施例中,所述S1中,获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,如果若服务器的使用参数信息超过对应预设阈值,则还生成用于提醒运维人员检查基及处理的告警信息。
需要指出的是,本发明的实施例中,除了要实时监控服务器等使用设备以外,还需要实时监控为使用设备供电的供电设备,若监控到供电设备无法达到预期的功率,比如供电电压或者电流无法稳定达到正常值,给出告警并发出通知,提醒运维人员检查设备及时更换。
在本发明的一个或多个实施例中,所述将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤:
S21:将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
S22:将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
S23:将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
通过构建预设激活函数z(x),并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值,这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值,再结合预设功耗阈值来得到精确的超负荷信息,作为后续调度的依据。通过该模型的训练,可以得出集群中所有服务器在未来时间节点上因为某一因素或多个因素导致服务器的功耗超过预设功耗阈值,以便于作为后续提前调度的依据,比如,通过训练可得出服务器一在每天的上午9点会因为CPU使用率过高而导致功耗超过预设功耗阈值,服务器二在每天的上午9点CPU使用率较低,则会提前将服务器一中的任务节点提前调度到服务器二,等服务器一的功耗峰值恢复正常以后在调度回来服务器一。
这里,所述多层训练算法模型的学习是基于训练调度算法模型,本算法模型分为多层训练,上一层训练的结果作为下一层训练的输入,通过逐层的特征训练以后,将现有的样本映射到下一个特征训练,以此来更好的判断最终特征结果,进而实现提前调度的功能。该模型的训练具有以下特点:无需人为干预,自主训练;每一层训练的结果作为下一层的输入,结果更加精准。
在本发明的一个或多个实施例中,所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤:
S31:根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
S32:将所述超负荷服务器的所有任务节点的实时功耗进行排列;
S33:在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点。
通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点,从而降低超负荷服务器的功耗,有利于超负荷服务器尽快恢复至正常功耗状态,避免宕机。
实际中,针对超负荷服务器进行初次提前调度处理后,如果因为某一因素或多个因素导致服务器的功耗没有明显下降,甚至出现服务器的继续上升,那么此时,需要进行第二调度处理。与第一次预测性的提前调度处理不同的是,第二次调度处理是针对第一次提前调度处理后服务器的功耗没有明显下降,甚至继续上升,这种是针对已经出现的功耗超限的情况,进行即时性二次调度处理,即在已经发出告警且经过多层训练算法模型学习并初次提前调度以后,运维人员没来得及处理并且服务器功耗持续增加,当服务器功耗继续增加(比如超过阈值的5%),此时,会对服务器中的任务节点进行第二调度处理或锁定处理。另外,实际中,监测周期一般以一天为单位。
在本发明的一个或多个实施例中,所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤:
S41:将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
需要说明的是,本发明的实施例中,轻负荷服务器指的是整体功耗低于对应预设功耗阈值5%的服务器。如果实际中,集群中所有服务器的整体功耗均高于对应预设功耗阈值5%,那么就选择整体功耗与对应预设功耗阈值比例最小的服务器作为目标轻负荷服务器,来接收超负荷服务器的任务节点的调度迁移。
S42:若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
S43:若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
通过针对不同重要等级的任务节点进行不同优先级的处理,优先调度重要等级为一般重要的任务节点,可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗,并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后,如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内,那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围,保证超负荷服务器不宕机的前提下减少对任务节点的影响。
这里,对任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,指的是将任务节点的GPU频率锁定在基准频率,通过降低GPU频率来降低功耗,直到达到正常的功耗阈值范围,锁定的顺序按照对应的实时功耗从高至低逐个进行锁定,以便于快速降低功耗。
在本发明的一个或多个实施例中,所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:
S44:若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时,则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放,直至所述超负荷服务器中重要等级为非常重要的所有所述任务节点的GPU频率被释放, 并继续监测所述超负荷服务器的实时功耗;
比如,当超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时,说明此时超负荷服务器的功耗处于“轻负荷”状态,那么就可以将之前锁定的重要等级为非常重要的所述任务节点的GPU频率进行释放,让其恢复至正常的工作频率。
S45:若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时,则将所述轻负荷服务器中热迁移来的且重要等级为重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
同理,当超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时,说明此时超负荷服务器的功耗更加处于“轻负荷”状态,此时,超负荷服务器可以处理更多的任务节点,因此,可以将原来从超负荷服务器热迁移走的任务节点热迁移回来,从而保证服务器的正常运行。
S46:若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第三预设比例阈值时,将所述轻负荷服务器中热迁移来的且重要等级为一般重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
其中,所述第一预设比例阈值大于所述第二预设比例阈值,所述第二预设比例阈值大于第三预设比例阈值,本发明的实施例中,所述第一预设比例阈值、第二预设比例阈值和第三预设比例阈值可以分别取15%、10%和5%。
在超负荷服务器的功耗降低至预设功耗阈值范围内后,可以优先恢复重要等级为非常重要的所述任务节点,将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放,以减小对任务节点的影响,然后依次对重要等级为重要和一般重要的任务节点恢复热迁移至原超负荷服务器,在保证服务器安全运行的前提下尽可能减小对任务节点的影响。
如图2所示,本发明还提供了一种监控服务器功耗负载的智能调度系统, 包括构建模块、训练模块、初次调度模块和热迁移锁定模块;
所述构建模块,用于获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
所述训练模块,用于构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
所述初次调度模块,用于根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
所述热迁移锁定模块,用于在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
在本发明的一个或多个实施例中,所述训练模块将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为:
将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
通过构建预设激活函数z(x),并根据预设激活函数z(x)的收敛值来确定对应使用参数的峰值,这样根据对应使用参数的峰值来精确计算出服务器的功耗峰值,再结合预设功耗阈值来得到精确的超负荷信息,作为后续调度的依据。
在本发明的一个或多个实施例中,所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为:
根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
将所述超负荷服务器的所有任务节点的实时功耗进行排列;
在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点;
通过超负荷信息中超负荷服务器以及对应超过预设功耗阈值的未来时间段可以在下一监测周期对应的所述未来时间段到来之前将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点,从而降低超负荷服务器的功耗,有利于超负荷服务器尽快恢复至正常功耗状态,避免宕机。
在本发明的一个或多个实施例中,所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为:
将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
通过针对不同重要等级的任务节点进行不同优先级的处理,优先调度重要等级为一般重要的任务节点,可以在尽量不影响超负荷服务器的整体运行的情况下降低超负荷服务器的功耗,并且当重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点后,如果超负荷服务器的实时功耗降低还没有降低至预设功耗阈值范围内,那么就通过对超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,有利于将超负荷服务器的功耗快速降低至预设功耗阈值范围,保证超负荷服务器不宕机的前提下减少对任务节点的影响。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现所述的监控服务器功耗负载的智能调度方法。
本发明还提供了一种监控服务器功耗负载的智能调度设备,其特征在于:包括通信接口、存储器、通信总线和处理器,其中,所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现所述的监控服务器功耗负载的智能调度方法的步骤。
本发明的有益效果是:本发明的监控服务器功耗负载的智能调度方法及系统,通过构建的使用参数样本集对多层训练算法模型进行训练,得到未来时间段的超负荷信息,然后根据超负荷信息进行初次提前调度处理,并在初次提前调度处理无法降低服务器功耗时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,实现了对服务器功耗负载的动态实时监控和自动调度,结合调度模型和算法实现了云平台的绝对安全,避免因为功耗过高等导致的宕机风险,无需人工操作,并且调度不影响用户作业,同时提高了服务器的利用率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种监控服务器功耗负载的智能调度方法, 其特征在于,包括如下步骤:
获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
2.根据权利要求1所述的监控服务器功耗负载的智能调度方法, 其特征在于,所述将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息具体包括如下步骤:
将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
3.根据权利要求2所述的监控服务器功耗负载的智能调度方法, 其特征在于,所述根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体方法包括如下步骤:
根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
将所述超负荷服务器的所有任务节点的实时功耗进行排列;
在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点。
4.根据权利要求3所述的监控服务器功耗负载的智能调度方法, 其特征在于,所述按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理具体包括如下步骤:
将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
5.根据权利要求4所述的监控服务器功耗负载的智能调度方法, 其特征在于,所述在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定具体包括如下步骤:
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第一预设比例阈值时,则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从低至高逐个进行释放,直至所述超负荷服务器中重要等级为非常重要的所有所述任务节点的GPU频率被释放, 并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第二预设比例阈值时,则将所述轻负荷服务器中热迁移来的且重要等级为重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗与预设功耗的比值降低至对应的第三预设比例阈值时,将所述轻负荷服务器中热迁移来的且重要等级为一般重要的所述任务节点的恢复热迁移至原超负荷服务器,并继续监测所述超负荷服务器的实时功耗;
其中,所述第一预设比例阈值大于所述第二预设比例阈值,所述第二预设比例阈值大于第三预设比例阈值。
6.一种监控服务器功耗负载的智能调度系统, 其特征在于,包括构建模块、训练模块、初次调度模块和热迁移锁定模块;
所述构建模块,用于获取被监控集群中所有服务器的使用参数信息,并与对应预设使用参数阈值进行比较,构建包含比较结果的使用参数样本集;
所述训练模块,用于构建多层训练算法模型,并将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息;
所述初次调度模块,用于根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理;
所述热迁移锁定模块,用于在经过所述初次提前调度处理后存在所述超负荷服务器的功耗继续增加且增幅超过预设增幅阈值时,按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理,并在所述超负荷服务器的实时功耗回落至对应预设功耗阈值范围内时恢复热迁移或解除锁定。
7.根据权利要求6所述的监控服务器功耗负载的智能调度系统, 其特征在于,所述训练模块将所述使用参数样本集输入至所述多层训练算法模型进行训练,得到包含被监控集群中所有服务器在未来时间段超过对应预设功耗阈值的超负荷信息的具体实现为:
将所述使用参数样本集中的使用参数信息和对应的比较结果作为所述多层训练算法模型的第一层输入,根据预设激活函数z(x)的收敛值确定服务器的使用参数峰值,计算公式为:
其中,x 0 x 1x 2 x 3 分别对应时间段的CPU使用率峰值、内存使用率峰值、磁盘使用率峰值和服务进程等待数峰值,w 0 w 1w 2 w 3 分别为对应时间段的实时功耗;
将所述初步功耗值作为所述多层训练算法模型的第二层输入,根据所述预设激活函数z(x)进行计算,并根据所述预设激活函数的收敛值确定服务器的功耗峰值,计算公式为:
h θ = z(θ 0 ×a 0 +θ 1×a 1+θ 2×a 2+θ 3×a 3)
其中,a 0 a 1a 2a 3分别为服务器在时间段θ 0 θ 1θ 2θ 3对应的初步功耗峰值;
将所述功耗峰值与根据所述预设功耗阈值进行比较,并在所述功耗峰值大于所述预设功耗阈值时,根据所述功耗峰值以及超过对应预设功耗阈值的未来时间段生成所述超负荷信息。
8.根据权利要求7所述的监控服务器功耗负载的智能调度系统, 其特征在于,所述初次调度模块根据所述超负荷信息对超过对应预设功耗阈值的超负荷服务器的任务节点进行初次提前调度处理的具体实现为:
根据所述超负荷信息获取超负荷服务器以及对应超过预设功耗阈值的未来时间段;
将所述超负荷服务器的所有任务节点的实时功耗进行排列;
在下一监测周期对应的所述未来时间段到来之前,将所述超负荷服务器中的任务节点按照实时功耗从高到低调度逐个调度至未超过对应预设功耗阈值的轻负荷服务器中实时功耗最低的任务节点;
所述热迁移锁定模块按照任务节点的预设重要等级、采用预设调度机制对服务器的任务节点进行热迁移或锁定处理的具体实现为:
将所述超负荷服务器中重要等级为一般的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则,将所述超负荷服务器中重要等级为重要的所述任务节点热迁移至所述轻负荷服务器中当前功耗最低的任务节点,并继续监测所述超负荷服务器的实时功耗;
若所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围内,则停止热迁移,否则将所述超负荷服务器中重要等级为非常重要的所述任务节点的GPU频率按照对应的实时功耗从高至低逐个进行锁定,直至所述超负荷服务器的实时功耗降低至对应的预设功耗阈值范围;
所述预设重要等级至少包括非常重要、重要和一般重要。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1至5任一项所述的监控服务器功耗负载的智能调度方法。
10.一种监控服务器功耗负载的智能调度设备,其特征在于:包括通信接口、存储器、通信总线和处理器,其中,所述处理器、通信接口和存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1至5任一项所述的监控服务器功耗负载的智能调度方法的步骤。
CN202311739181.5A 2023-12-18 2023-12-18 一种监控服务器功耗负载的智能调度方法及系统 Active CN117421131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311739181.5A CN117421131B (zh) 2023-12-18 2023-12-18 一种监控服务器功耗负载的智能调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311739181.5A CN117421131B (zh) 2023-12-18 2023-12-18 一种监控服务器功耗负载的智能调度方法及系统

Publications (2)

Publication Number Publication Date
CN117421131A true CN117421131A (zh) 2024-01-19
CN117421131B CN117421131B (zh) 2024-03-26

Family

ID=89531155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311739181.5A Active CN117421131B (zh) 2023-12-18 2023-12-18 一种监控服务器功耗负载的智能调度方法及系统

Country Status (1)

Country Link
CN (1) CN117421131B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109205A1 (en) * 2015-10-20 2017-04-20 Nishi Ahuja Computing Resources Workload Scheduling
CN109800066A (zh) * 2018-12-13 2019-05-24 中国科学院信息工程研究所 一种数据中心节能调度方法及系统
CN110618861A (zh) * 2019-09-16 2019-12-27 山东科技大学 一种Hadoop集群节能系统
US20200257605A1 (en) * 2019-02-12 2020-08-13 Fujitsu Limited Job power predicting method and information processing apparatus
CN112527448A (zh) * 2020-08-31 2021-03-19 中国银联股份有限公司 基于openstack的动态负载调整方法及其系统
KR102245341B1 (ko) * 2020-09-11 2021-04-28 한국전자기술연구원 클라우드 엣지 내 워크로드 분산을 위한 예측 모델 적용 방법
CN112860403A (zh) * 2021-02-22 2021-05-28 中国联合网络通信集团有限公司 集群负载资源调度方法、装置、设备、介质及产品
US20220019461A1 (en) * 2021-09-24 2022-01-20 Intel Corporation Platform health engine in infrastructure processing unit
KR20230069490A (ko) * 2021-11-12 2023-05-19 한국전자기술연구원 마이크로 데이터센터 내 운용 서비스별 작업 부하 예측 모델 적용 방법
WO2023154100A1 (en) * 2022-02-14 2023-08-17 Microsoft Technology Licensing, Llc. Computing resource prediction for optimizing resource utilization and computing workload density

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109205A1 (en) * 2015-10-20 2017-04-20 Nishi Ahuja Computing Resources Workload Scheduling
CN109800066A (zh) * 2018-12-13 2019-05-24 中国科学院信息工程研究所 一种数据中心节能调度方法及系统
US20200257605A1 (en) * 2019-02-12 2020-08-13 Fujitsu Limited Job power predicting method and information processing apparatus
CN110618861A (zh) * 2019-09-16 2019-12-27 山东科技大学 一种Hadoop集群节能系统
CN112527448A (zh) * 2020-08-31 2021-03-19 中国银联股份有限公司 基于openstack的动态负载调整方法及其系统
KR102245341B1 (ko) * 2020-09-11 2021-04-28 한국전자기술연구원 클라우드 엣지 내 워크로드 분산을 위한 예측 모델 적용 방법
CN112860403A (zh) * 2021-02-22 2021-05-28 中国联合网络通信集团有限公司 集群负载资源调度方法、装置、设备、介质及产品
US20220019461A1 (en) * 2021-09-24 2022-01-20 Intel Corporation Platform health engine in infrastructure processing unit
KR20230069490A (ko) * 2021-11-12 2023-05-19 한국전자기술연구원 마이크로 데이터센터 내 운용 서비스별 작업 부하 예측 모델 적용 방법
WO2023154100A1 (en) * 2022-02-14 2023-08-17 Microsoft Technology Licensing, Llc. Computing resource prediction for optimizing resource utilization and computing workload density

Also Published As

Publication number Publication date
CN117421131B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
US8473768B2 (en) Power control apparatus and method for cluster system
CN112667403B (zh) 一种服务器的调度方法、装置及电子设备
CN110445683A (zh) 服务器、设备、监测服务器存活状态的方法及系统
CN115034927A (zh) 数据处理方法、装置、电子设备及存储介质
CN117421131B (zh) 一种监控服务器功耗负载的智能调度方法及系统
CN109639490B (zh) 一种宕机通知方法及装置
WO2024164682A1 (zh) 基于综合调度系统监控列车的方法、介质、装置及系统
CN114691662A (zh) 一种数据质量检查规则自适应方法、存储介质及系统
CN116502864B (zh) 配电网应急电源车调度方法、装置、电子设备和存储介质
CN116594563A (zh) 分布式存储扩容方法、装置、电子设备和存储介质
CN116306284A (zh) 电源使用寿命的预测方法、装置、电子设备和存储介质
CN115657835A (zh) 应用于芯片的功耗调节方法、装置、电子设备及存储介质
CN116260885A (zh) 一种云边协同推理方法及装置
CN114064282B (zh) 资源挖掘方法、装置及电子设备
CN115529261B (zh) 一种多bmc的通信方法、装置、设备和存储介质
CN115983393B (zh) 量子电路任务超时原因确定方法、装置、设备及存储介质
CN114339468B (zh) 机组设备的数据发送方法、装置、计算机设备和存储介质
CN113918337B (zh) 应用程序运行方法、装置、终端设备及存储介质
CN117407197A (zh) 电网的供电故障发布更新方法、装置、设备和介质
CN113268389A (zh) 异常节点监测的方法、装置、电子设备和可读存储介质
CN115344637A (zh) 数据管理系统、方法、装置、电子设备及存储介质
CN116960964A (zh) 一种集群源荷协同控制方法、装置及设备
CN115718608A (zh) 一种参数更新方法、装置、电子设备和存储介质
Li et al. Architecture for Real-time Intelligent Storage Expansion System in Distribution Substation
CN118249311A (zh) 供电方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant