CN116991194A - 基于rapl的功率控制方法、装置及存储介质 - Google Patents

基于rapl的功率控制方法、装置及存储介质 Download PDF

Info

Publication number
CN116991194A
CN116991194A CN202310953345.8A CN202310953345A CN116991194A CN 116991194 A CN116991194 A CN 116991194A CN 202310953345 A CN202310953345 A CN 202310953345A CN 116991194 A CN116991194 A CN 116991194A
Authority
CN
China
Prior art keywords
power
servers
server
aggregate
rapl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310953345.8A
Other languages
English (en)
Inventor
彭元龙
刘军
闫龙川
马睿
何永远
郭永和
牛佳宁
曹津平
张朝霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202310953345.8A priority Critical patent/CN116991194A/zh
Publication of CN116991194A publication Critical patent/CN116991194A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J9/00Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting
    • H02J9/04Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting in which the distribution system is disconnected from the normal source and connected to a standby source
    • H02J9/06Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting in which the distribution system is disconnected from the normal source and connected to a standby source with automatic change-over, e.g. UPS systems
    • H02J9/08Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting in which the distribution system is disconnected from the normal source and connected to a standby source with automatic change-over, e.g. UPS systems requiring starting of a prime-mover
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05FSYSTEMS FOR REGULATING ELECTRIC OR MAGNETIC VARIABLES
    • G05F1/00Automatic systems in which deviations of an electric quantity from one or more predetermined values are detected at the output of the system and fed back to a device within the system to restore the detected quantity to its predetermined value or values, i.e. retroactive systems
    • G05F1/66Regulating electric power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J9/00Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting
    • H02J9/04Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting in which the distribution system is disconnected from the normal source and connected to a standby source
    • H02J9/06Circuit arrangements for emergency or stand-by power supply, e.g. for emergency lighting in which the distribution system is disconnected from the normal source and connected to a standby source with automatic change-over, e.g. UPS systems
    • H02J9/068Electronic means for switching from one power supply to another power supply, e.g. to avoid parallel connection

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Emergency Management (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Power Sources (AREA)

Abstract

本申请公开了一种基于运行平均功率限制RAPL的功率控制方法、装置及存储介质,涉及数据中心能耗技术领域,用于控制数据中心的服务器的功率。该方法包括:获取通过第一供电线路供电的M个服务器的第一功率;对上述M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率;在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整上述M个服务器的第一功率。

Description

基于RAPL的功率控制方法、装置及存储介质
技术领域
本申请涉及电力运维领域,尤其涉及一种基于RAPL的功率控制方法、装置及存储介质。
背景技术
随着互联网、大数据等的不断发展以及计算机在众多领域中的应用,对计算机计算能力的需求不断增加,数据中心作为提供计算能力的基础设施,在不断的扩增。由于数据中心的供电线路和功率容量建造成本非常昂贵,因此,充分利用数据中心的功率容量、提高电能利用率非常重要。
目前,在正常情况下,服务器并不会一直以峰值功率运行,并且所有服务器同时达到峰值功率的可能性极低。假设在正常情况下,服务器的峰值功率为1000W,服务器以峰值功率的60%-70%运行,那么10台服务器的总功率大约在600-700W之间,至少有300W的功率容量没有得到充分利用。基于此,为了提高数据中心对电能的利用率,一种方式为采用功率超额供应(power over-provisioning)部署方案,即,在保持数据中心的功率容量不变的情况下,部署更多的服务器。例如,数据中心的机架有1000W的功率容量,但我们假设数据中心有更高的功率容量,并按照假设的功率容量进行部署。假设机柜有1300W的功率容量,同样服务器的峰值功率为100W,这样在同一机架中就可以部署13台服务器。
然而,在一些情况下,部署的多台服务器同时增加负载,产生的实际功率可能会超过数据中心实际的功率容量,此时可能有安全隐患的发生。
发明内容
本申请提供一种基于运行平均功率限制RAPL的功率控制方法、装置及存储介质,用于控制数据中心的服务器的功率。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供了一种基于运行平均功率限制RAPL的功率控制方法,该方法包括:获取通过第一供电线路供电的M个服务器的第一功率,所述第一功率为所述服务器工作时的实际功率;对上述M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率;在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整上述M个服务器的第一功率。
基于上述基于RAPL的功率控制方法,基于RAPL的功率控制装置可以获取通过第一供电线路供电的M个服务器工作时的实际功率,并对上述M个服务器的实际功率进行聚合,得到上述M个服务器对应的聚合功率,并在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的实际功率。通过该方法,通过对供电线路的服务器的功率进行监控,并在服务器的实时聚合功率超过功率上限时,确定需要对每个服务器进行功率调整的功率调整量,并基于每个服务器对应的功率调整量,采用RAPL接口对每个服务器的功率进行调整,以将供电线路的功率维持在目标功率,能够有效避免服务器产生的实际功率可能会超过数据中心实际的功率容量导致安全隐患的发生,从而提高了系统的安全性和稳定性。
一种可能的实现方式中,上述M个服务器的聚合功率满足功率调整条件包括以下至少之一:上述M个服务器对应的聚合功率大于第一功率阈值;上述M个服务器对应的聚合功率小于第二功率阈值。
一种可能的实现方式中,上述在M个服务器的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的第一功率,包括:根据预设目标功率,确定所述M个服务器中的每个服务器对应的目标功率;采用RAPL接口,根据每个服务器对应的目标功率,调整每个服务器的第一功率,直至M个服务器对应的聚合功率满足预设条件;
其中,预设条件包括:服务器对应的聚合功率与所述预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
一种可能的实现方式中,上述根据预设目标功率,确定M个服务器中的每个服务器对应的目标功率,包括:根据预设目标功率和M个服务器的数量,确定M个服务器中的每个服务器对应的目标功率。
一种可能的实现方式中,上述根据预设目标功率,确定M个服务器中的每个服务器对应的目标功率,包括:根据预设目标功率和上述M个服务器对应的聚合功率,确定上述M个服务器中的每个服务器需调整的功率调整量;根据上述每个服务器需调整的功率调整量,确定每个服务器对应的目标功率。
一种可能的实现方式中,上述根据预设目标功率和M个服务器对应的聚合功率,确定M个服务器中的每个服务器需调整的功率调整量,包括:根据预设目标功率和M个服务器对应的聚合功率,确定为M个服务器供电的第一供电线路需调整的功率调整量;根据第一供电线路需调整的功率调整量和每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
第二方面,提供了一种基于RAPL的功率控制装置,该基于RAPL的功率控制装置包括:获取单元、处理单元和执行单元,其中:上述获取单元,用于获取通过第一供电线路供电的M个服务器的第一功率;上述处理单元,用于对获取单元获取的M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率;上述执行单元,用于在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整上述M个服务器的第一功率。
其中,该基于RAPL的功率控制装置的具体实现方式可以参考第一方面或第一方面的任一可能的设计提供的基于RAPL的功率控制方法,在此不再重复赘述。因此,该提供的基于RAPL的功率控制装置可以达到与第一方面或者第一方面的任一可能的设计相同的有益效果。
一种可能的实现方式中,上述M个服务器的聚合功率满足功率调整条件包括以下至少之一:上述M个服务器对应的聚合功率大于第一功率阈值;上述M个服务器对应的聚合功率小于第二功率阈值。
一种可能的实现方式中,上述执行单元,具体用于根据预设目标功率,确定上述M个服务器中的每个服务器对应的目标功率;上述执行单元,具体用于采用RAPL接口,根据上述每个服务器对应的目标功率,调整每个服务器的第一功率,直至M个服务器对应的聚合功率满足预设条件;
其中,预设条件包括:M个服务器对应的聚合功率与预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
一种可能的实现方式中,上述执行单元,具体用于根据上述预设目标功率和M个服务器的数量,确定M个服务器中的每个服务器对应的目标功率。
一种可能的实现方式中,上述执行单元,具体用于根据上述预设目标功率和所述M个服务器对应的聚合功率,确定M个服务器中的每个服务器需调整的功率调整量;上述执行单元,具体用于根据上述每个服务器需调整的功率调整量,确定每个服务器对应的目标功率。
一种可能的实现方式中,上述执行单元,具体用于根据预设目标功率和M个服务器对应的聚合功率,确定为M个服务器供电的第一供电线路需调整的功率调整量;上述执行单元,具体用于根据上述第一供电线路需调整的功率调整量和每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
第三方面,提供了一种基于RAPL的功率控制装置,该基于RAPL的功率控制装置可以为数据中心的管理设备或者该管理设备中的芯片或者片上系统。该基于RAPL的功率控制装置可以实现上述各方面所执行的功能,所述功能可以通过硬件实现,如:一种可能的设计中,该基于RAPL的功率控制装置可以包括:处理器和通信接口,处理器可以用于支持基于PAPL的功率控制装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能,例如:处理器在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整M个服务器的第一功率。
在又一种可能的设计中,基于PAPL的功率控制装置还可以包括存储器,存储器用于保存PUE优化装置必要的计算机执行指令和数据。当该PUE优化装置运行时,该处理器执行该存储器存储的该计算机执行指令,以使该PUE优化装置执行上述第一方面或者第一方面的任一种可能的设计所述的基于PAPL的功率控制方法。
第四方面,提供了一种基于PAPL的功率控制装置,该基于PAPL的功率控制装置可以为基于PAPL的功率控制装置或者基于PAPL的功率控制装置中的芯片或者片上系统。该基于PAPL的功率控制装置可以实现上述各方面或者各可能的设计中基于PAPL的功率控制装置所执行的功能,所述功能可以通过硬件实现,如:一种可能的设计中,该基于PAPL的功率控制装置可以包括:处理器和通信接口,处理器可以用于支持基于PAPL的功率控制装置实现上述第一方面或者第一方面的任一种可能的设计中所涉及的功能,例如:处理器在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整M个服务器的第一功率。
在又一种可能的设计中,基于PAPL的功率控制装置还可以包括存储器,存储器用于保存基于PAPL的功率控制装置必要的计算机执行指令和数据。当该基于PAPL的功率控制装置运行时,该处理器执行该存储器存储的该计算机执行指令,以使该基于PAPL的功率控制装置执行上述第一方面或者第一方面的任一种可能的设计所述的基于PAPL的功率控制方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质可以为可读的非易失性存储介质,该计算机可读存储介质存储有计算机指令或者程序,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的实现方式的基于PAPL的功率控制方法。
第六方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面或者上述方面的任一种可能的实现方式的基于PAPL的功率控制方法。
第七方面,提供了一种基于PAPL的功率控制装置,该基于PAPL的功率控制装置可以为基于PAPL的功率控制装置或者基于PAPL的功率控制装置中的芯片或者片上系统,该基于PAPL的功率控制装置包括一个或者多个处理器以及和一个或多个存储器。所述一个或多个存储器与所述一个或多个处理器耦合,所述一个或多个存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得所述基于PAPL的功率控制装置执行如上述第一方面或者第一方面的任一可能的实现方式的基于PAPL的功率控制方法。
第八方面,提供了一种芯片系统,该芯片系统包括处理器以及通信接口,该芯片系统可以用于实现上述第一方面或第一方面的任一可能的实现方式的基于PAPL的功率控制装置所执行的功能,例如处理器在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整M个服务器的第一功率。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存程序指令和/或数据。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件,不予限制。
其中,第二方面至第八方面中任一种设计方式所带来的技术效果可参见上述第一方面所带来的技术效果,不再赘述。
附图说明
图1为本申请实施例提供的基于2N规范的数据中心的典型供电基础设施层次结构的示意图;
图2为本申请实施例提供的一种基于RAPL的功率控制方法的流程示意图;
图3为本申请实施例提供的功率控制过程中的功率变化情况的示意图;
图4为本申请实施例提供的另一种基于RAPL的功率控制方法的流程示意图;
图5为本申请实施例提供的一种基于RAPL的功率控制装置的结构示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
目前,随着互联网、大数据等的不断发展以及计算机在众多领域中的应用,对计算机计算能力的需求不断增加,数据中心作为提供计算能力的基础设施,在不断的扩增。有数据表明,我国2017-2021年数据中心总机架数量分别为166万、226万、315万、401万和520万架,年均复合增速达到30%以上,而且随着疫情的持续,活动从线下转为线上,视频会议、在线学习、社交网络等也会进一步促进数据中心建设。
但在数据中心里电能是一种稀缺资源,限制着数据中心的建设规模、机器数量,进一步限制着数据中心可提供的计算能力,并且数据中心的供电线路和功率容量建造成本非常昂贵,数据中心每瓦的功率容量需要花费10-25美元,一个10MW的数据中心在供配电基础设施和冷却设备上的花费约为1亿至2.5亿美元。建造一套新的数据中心供电基础设施需要很长时间,因此充分利用数据中心的功率容量、提高电能利用率非常重要。若想充分利用数据中心电能,首先我们需要对数据中心供电以及服务器部署方式有所了解。
在数据中心部署服务器时,需要考虑到数据中心供电层次结构中普遍存在的各种物理以及合约功率限制,这些约束均需得到满足。其中物理功率限制是由供电层次结构中的供电部件配备的断路器决定的,违反了物理功率限制,可能会造成断路器断路,从而导致服务中断造成不可挽回的损失;而合约功率限制是人为指定的,这些人为指定的限制,对保证供电安全以及降低运营成本等方面有很大利处,也应该得到满足,而且有的电力公司会对超出合同规定的功率峰值收取额外的费用。
保守的部署方式在部署服务器时一般会按照实测的峰值功率而非铭牌功率进行部署,假设一个机柜能提供的最大功率是1000W,而每台服务器的峰值功率是100W,考虑到供电安全问题,可以在该机柜中部署10台服务器,完全保证用电安全。
但是考虑到服务器并不会一直以峰值功率运行,并且所有服务器同时达到峰值功率的可能性极低。假设在正常情况下,服务器的峰值功率为1000W,服务器以峰值功率的60%-70%运行,那么10台服务器的总功率大约在600-700W之间,至少有300W的功率容量没有得到充分利用。
以上保守的部署方案造成了功率容量的浪费,根本原因是我们按照其峰值功率为服务器分配了100W的功率预算(power budget),但是在正常情况下,服务器只使用了功率预算的60%-70%,服务器未完全利用分配给它的功率预算,造成了30%-40%的功率余量(power margin)。这种现象在使用保守部署方案的数据中心中普遍存在,这是对稀缺的数据中心功率容量的极大浪费,尽量节约功率预算、消除功率余量可以提高数据中心电能的利用率。
而功率超额供应(power over-provisioning)部署方案可以提高数据中心功率容量的利用率,在保持原数据中心功率容量不变的情况下,部署更多的服务器,提高数据中心的空间利用率和计算能力。一些厂家通过功率超额供应技术,额外部署了12.6%的服务器,在其进行实验的数据中心共有25328台服务器,意味着可以额外部署3191台服务器。
采用功率超额供应部署方案,尽管机架有1000W的功率容量,但我们假设数据中心有更高的功率容量,并按照假设的功率容量进行部署。假设数据中心运行时的功率超过功率容量,同样服务器的峰值功率为100W,这样在同一机架中就可以部署13台服务器,虽然超额供应了300W,但是在正常情况下,服务器按照60%-70%功率预算使用率进行计算,13台服务器的总功率是780W-910W,对于1000W的实际功率容量来说仍然是安全的。面对一些服务器突然的负载增加导致实际功率上升,还有至少90W功率容量来应对。这允许三台服务器同时达到峰值功率,其他服务器正常按照峰值功率的70%运行,也不会出现安全问题。
但是在某些较为罕见的情况下,比如13台服务器同时增加负载,实际功率达到峰值功率的80%,那么13台服务器的总功率为1040W,超过了数据中心实际的功率容量,此时可能有安全隐患的发生。因此我们需要对功率超额供应部署方式下罕见的功率违反约束进行管理。
为了便于理解,以下结合附图对基于2N规范的数据中心供电基础设施层次结构进行介绍。
为了保证数据中心的电能高度可用,规定:A级数据中心应该满足容错的要求,应由双重电源供电,并设置备用电源。
对于满足2N规范的数据中心,其可靠的电源传输依赖于供电基础设施层次结构中每一层的冗余,从单个服务器的多个电源模块一直到多路市电,图1展示了基于2N规范的数据中心的典型供电基础设施层次结构,共由两个独立的供配电单元组成,每台服务器连接到两个独立的供配电单元中,每个供配电单元都可满足全部负载的用电需求,正常情况下两个供配电单元共同运行,分别向数据中心提供50%的电能,当一侧供配电单元发生故障时,由另一侧供配电单元承担全部的用电需求,保证服务器正常运行。
如图1所示,电力从电网一直到数据中心的服务器中需要经过以下过程。首先电量从电网输送到数据中心建筑的变压器(图中的①处),变压器将高压转换成低压输送到数据中心;然后通过ATS(Automatic Transfer Switch,自动转换开关,图中的②处),ATS可以自动完成市电与柴油发电机电源的转换,当市电失电时,迅速将柴油发电机组作为电源进行供电,防止数据中心断电;ATS输出的电依次通过UPS(Uninterruptible Power Supply,不间断电源,图中的③处)、PDU(Power Distribution Unit,电源分配单元,图中的④处)和Rack PDU(Rack Power Distribution Unit,机架级电源分配单元,图中的⑤处)最终到达服务器。一台服务器内部有多个PSU(Power Supply Unit,电源供应单元简称电源模块,图中的⑥处),这些PSU连接到不同的供配电单元,当一侧的供配电单元失电时,与该供配电单元相连的PSU无法为服务器供电,此时服务器需要的用电通过与另一侧供配电单元相连的PSU提供。
充分利用数据中心电能的前提条件是保证数据中心的供电安全,在以上供配电基础设施层次结构中的每一个供电部件(ATS、UPS、PDU、Rack PDU),都配备一个限制电流量的断路器,来保护电力基础设施,在通过该断路器的电流超过其额定电流一段时间后,就会发生断路,防止由于该断路器所在分支电流量过载导致更高层次结构的级联电路故障。
为了保证数据中心的供电安全,2016年提出了第一个在数据中心范围内进行功率控制的大规模解决方案,开发了针对数据中心的功率管理系统Dynamo,Dynamo针对真实数据中心中不同级别的功率和性能约束,在数据中心范围内进行监控,并在多个级别之间协调进行功率管理,实现了应用优先级感知的功率控制,再一次功率控制中,会按照服务器优先级从低到高的顺序来完成。缺点是该方法是局部优先级感知,而非全局优先级感知。
2019年针对高可用数据中心冗余供电基础设施提出了功率管理方案CapMaestro,该方案可以针对拥有多条供电线路(power feed),每台服务器中拥有多个电源模块(powersupply)的供电架构实现功率管理。并且CapMaestro通过为每个供电线路(三相电)的每一相构造功率控制树,服务器将所需功率以及该服务器所属优先级等信息按功率控制树逐层向上传递,直到根节点,根节点根据请求,再将功率分配情况逐层向下传递。因为每次功率封顶都是由根节点来进行决策再将结果逐层传递的,因此实现了全局优先级感知的功率控制。然而该方法基于复杂的控制理论,其中反馈回路在多个级别运行,因此可能会受到功率封顶延迟和不稳定性的影响。
为了解决数据中心功率不均衡导致的供电不平稳和供电安全问题,本申请实施例提供了一种基于RAPL的功率控制方法,用于控制数据中心的服务器的功率。该方法包括:获取通过第一供电线路供电的M个服务器的第一功率;对上述M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率;在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整上述M个服务器的第一功率。
基于上述方案,基于PAPL的功率控制装置可以在M个服务器的功率聚合值超过上限阈值时,及时采取功率封顶动作,降低服务器的功率,防止功率聚合值继续上升,超过供电线路的最大功率,当功率聚合值低于线路功率的下限阈值时,此时功率聚合值已经远远低于最大功率,短时间内,不会再次触发功率封顶动作,可及时提高服务器的功率,以解除服务器的功率封顶,防止服务器应用性能进一步受到限制,如此,能够在功率超出事先设置的阈值时,通过封顶动作,使得机房的功率比较均衡,从而保证了系统的稳定性。
下面结合说明书附图对本申请实施例提供的基于RAPL的功率控制方法进行详细说明。
本申请实施例提供了一种基于RAPL的功率控制方法。如图2所示,该方法可以包括S201至S203:
S201:基于RAPL的功率控制装置获取通过第一供电线路供电的M个服务器的第一功率。
其中,M为正整数。
在本申请实施例中,上述第一功率为所述服务器工作时的实际功率。
可选地,在本申请实施例中,上述M个服务器可以为在数据中心部署的服务器。
需要说明的是,对数据中心的解释说明可以参见上文,此处不再赘述。
可选地,在本申请实施例中,上述第一供电线路可以包括为数据中心的服务器供配电的一条或者多条供电线路,本申请实施例对此不作限定。
可选地,在本申请实施例中,上述供电线路为供电基础设施层次结构中的任一供电部件所在的供电线路。示例性地,上述第一供电线路可以为连接PDU的供电线路。
可选地,本申请实施例中,上述M个服务器可以包括至少一个服务器。
以下对本申请实施例提供的基于RAPL的功率控制方法所应用的系统进行解释说明。
该系统由代理(即,agent)和控制器(controller)两个组件构成。agent对应数据中心中的服务器,每台服务器部署一个agent;controller对应供电基础设施层次结构中的每一个供电部件,因为当任意一个供电部件违反功率限制时,采取的措施都是相同的,不同的是供电部件所处供电级别、配置参数以及连接的服务器不同,因此不同级别供电部件部署的controller的功能是相同的。
agent由决策模块、功率封顶模块、迁移模块、数据采集模块以及容器功率预测模块五个模块组成,部署到每一台服务器上。
1)决策模块接收来自上层控制器的请求,如果是迁移请求则调用迁移模块,完成容器迁移;如果是功率封顶请求的话,调用功率封顶模块完成功率封顶。
2)功率封顶模块负责调用开发的RAPL脚本对服务器完成功率封顶。
3)迁移模块负责完成容器迁移。
4)数据采集模块负责采集服务器实时功率、容器的资源利用率和内核频率等信息并进行存储。
5)容器功率预测模块负责进行容器功率的预测。
controller对应于数据中心中的每一个供电部件,controller由决策模块、配置管理模块以及实时监控模块三个模块组成。
1)决策模块根据实时监控模块的功率加权聚合结果进行判断,是否需要采用功率封顶或者容器迁移动作,并与agent的决策模块进行通信,传输控制信号。
2)配置管理模块负责对该controller的配置信息进行管理。
3)实时监控模块负责获取服务器实时功率及功率分配比例并进行聚合。
可选地,在本申请实施例中,基于RAPL的功率控制可以通过每个服务器的代理中的数据采集模块,采集服务器的实时功率。
S202:基于RAPL的功率控制装置对上述M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率。
可选地,在本申请实施例中,在采集到上述M个服务器的第一功率后,基于RAPL的功率控制装置可以将上述M个服务器的第一功率相加,得到上述M个服务器对应的聚合功率。
示例性地,以M个服务器包括5台服务器为例,假设服务器1工作时的功率为100w,服务器2工作时的功率为90w,服务器3工作时的功率为110w、服务器4和服务器5的功率为90w,则5台服务器对应的聚合功率为480w。
S203:基于RAPL的功率控制装置在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整M个服务器的第一功率。
可选地,在本申请实施例中,在得到上述M个服务器对应的聚合功率的情况下,基于RAPL的功率控制装置可以实时判断该聚合功率是满足功率调整条件,并在满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的第一功率。
可选地,在本申请实施例中,基于RAPL的功率控制装置可以采用RAPL接口,根据预设目标功率,调整上述M个服务器的第一功率。
需要说明的是,上述预设目标功率可以根据实际需求设置,本申请实施例对此不作限定。
示例性地,以预设目标功率为900w为例,采用RAPL接口基于该预设目标功率,将M个服务器对应的聚合功率调整到900w。
进一步可选地,在本申请实施例中,基于RAPL的功率控制装置可以根据预设目标功率和聚合功率,确定需要调整的功率调整量,并将需要调整的功率调整量分配到上述M个服务器,以确定M个服务器每个服务器对应的功率调整量,并根据每个服务器对应的功率调整量,通过RAPL接口,对每个服务器的功率进行调整。
示例性地,以预设目标功率为900w为例,假设10台服务器对应的聚合功率为1100w,则确定需要调整的功率调整量为200w,则可以采用RAPL接口,将每台服务器的功率降低20w,以将10台服务器对应的聚合功率调整到900w。
需要说明的是,RAPL接口是由英特尔Snady Bridge架构首次引入,并且随后在英特尔架构的后续迭代中不断发展。RAPL背后的动机是暴露不同CPU域的能耗,并根据系统的功率预算限制域(domain)的能耗。在这方面,RAPL提供了两个基本功能:首先,它以高粒度和高采样率提供能耗测量;其次,它允许限制不同CPU组件的平均功率,这实质上限制了CPU的热输出。
RAPL支持过个电源域,支持的RAPL域的确切数量取决于处理器架构。在RAPL的上下文中,功率域是用于功率管理的物理上有意义的域(例如,处理器包,DRAM等)。
根据处理器架构,RAPL提供一下电源域的全部或部分:
(1)Package:包域提供整个CPU插槽(socket)的能耗测量。它包括所有核心(core),集成显卡以及非核组件(最后以及缓存、内存控制器)的能耗;
(2)Power Plane 0:Power Plane 0(PP0)域提供了单个插槽上所有处理器核心的能耗;
(3)Power Plane 1:Power Plane 1(PP1)域提供了插槽上GPU的能耗测量;
(4)DRAM:DRAM域提供了连接到集成存储器控制器的RAM的能耗测量。
(5)PSys:PSys监视和控制整个SoC的热量和功率规格。PSys包括PKG域,系统代理,PCH,eDRAM以及单个插槽SoC上的更多域的功耗。
需要说明的是,通过RAPL接口调整服务器功率的具体实现方式可以参见相关技术,本申请实施例对此不再赘述。
可选地,在本申请实施例中,上述M个服务器的聚合功率满足功率调整条件可以包括以下至少之一:
M个服务器对应的聚合功率大于第一功率阈值;
M个服务器对应的聚合功率小于第二功率阈值。
可选地,上述第一功率阈值可以基于预设的线路最大功率与第一调整比例确定。示例性地,第一调整比例可以为0.8至1.1。
在一种示例中,上述第一功率阈值可以为预设的线路最大功率与第一调整比例的乘积。例如,预设的线路最大功率为1000w,调整比例为0.98,则第一功率阈值可以为980w。
可以理解的是,上述第一功率阈值,即功率上限。
可选地,上述第二功率阈值可以基于预设的线路最大功率与第二调整比例确定。可选地,第二调整比例小于第一调整比例。示例性地,第二调整比例可以为0.8至1.1。
在一种示例中,上述第一功率阈值可以为预设的线路最大功率与调整比例的乘积。例如,预设的线路最大功率为1000w,第二调整比例为0.8,则第二功率阈值可以为800w。
需要说明的是,设定第一调整比例和第二调整比例的目的是便于对第一功率阈值和第二功率阈值进行灵活可控地调整。
进一步可选地,在本申请实施例中,在M个服务器对应的聚合功率大于第一功率阈值的情况下,采用RAPL接口,根据M个服务器对应的聚合功率和上述预设目标功率,降低M个服务器的功率。
进一步可选地,在本申请实施例中,在M个服务器对应的聚合功率小于第二功率阈值的情况下,采用RAPL接口,根据M个服务器对应的聚合功率和上述预设目标功率,提高M个服务器的功率。
为了便于理解本申请实施例中的功率控制过程,以下结合附图对上述功率控制过程进行说明。
图3为本申请实施例提供的功率控制过程中的功率变化情况的示意图,如图3所示,纵轴为多台服务器的聚合功率,横轴为时间,在检测到服务器的聚合功率达到第一功率阈值的情况下,采用RAPL接口根据预设目标功率调整每台服务器的功率,以使得聚合功率维持在接近预设目标功率的功率值,此后的一段时间内,服务器的功率可以维持在第一功率阈值与预设目标功率之间,随着服务器工作时长的增加,服务器的聚合功率可能降低到第二功率阈值以下。
以下对本申请实施例提供的基于RAPL的功率控制方法的所涉及的算法进行说明。
算法中定义了功率控制过程的三个参数,分别是触发功率封顶动作的上限阈值(即第一功率阈值)、功率封顶的目标值(即预设目标功率)以及触发解除功率封顶动作的下限阈值(即第二功率阈值)。当某些服务器突然增大运行负载时,服务器的功率急速上升,当一条线路供电的所有服务器的第一功率聚合值超过线路功率的上限阈值时,将会触发功率封顶动作,尝试将聚合值降低到线路功率的目标值以下。当聚合值低于线路功率的下限阈值时,将会触发解除功率封顶动作,解除服务器的功率限制。
算法1:controller-agent的调度算法
该算法1如下所示:
输入:controller的id controller_id
输出:服务器采取的capping和uncapping动作
/>
算法2:基于RAPL功率封顶动作执行算法该算法2如下所示:
输入:服务器列表server_list,一共需要降低的总功率输出:服务器进行功率封顶
算法3:解除功率封顶动作执行算法
该算法3如下所示:
输入:服务器列表server_list
输出:解除服务器功率封顶
需要说明的是,在数据中心供电基础设施层次结构中的每一个供电部件(ATS、UPS、PDU、Rack PDU)都配备有断路器,当任何一个供电部件的实时功率超过其额定功率一段时间后,都会发生断路,除了断路器物理功率约束外还可能会有人为指定的合同功率约束,这些约束都需要被遵守,因此需要对所有的这些供电部件的功率进行监控,并在供电部件的实时功率达到较高水平时,采取行动进行功率控制。
为实现数据中心平稳、均衡供电,本申请实施例提供的基于RAPL的功率控制方法,可以对供电线路的每个服务器的实时功率进行监控,并在服务器的实时功率达到较高水平时,采取行动进行功率控制。
本申请实施例提供的基于RAPL的功率控制方法,基于RAPL的功率控制装置可以获取通过第一供电线路供电的M个服务器的实际功率,并对上述M个服务器的实际功率进行聚合,得到上述M个服务器对应的聚合功率,并在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的实际功率。通过该方法,通过对供电线路的服务器的功率进行监控,并在服务器的实时聚合功率超过功率上限时,确定需要对每个服务器进行功率调整的功率调整量,并基于每个服务器对应的功率调整量,采用RAPL接口对每个服务器的功率进行调整,以将供电线路的功率维持在预设目标功率,能够有效避免服务器产生的实际功率可能会超过数据中心实际的功率容量导致安全隐患的发生,从而提高了系统的安全性和稳定性。
可选地,在本申请实施例中,图4为本申请实施例提供的另一种基于RAPL的功率控制方法的示意图,如图4所示,上述步骤S203可以包括以下步骤S203a和步骤S203b:
步骤S203a:基于RAPL的功率调整装置根据预设目标功率,确定上述M个服务器中的每个服务器对应的目标功率。
步骤S203b:基于RAPL的功率调整装置采用RAPL接口,根据上述每个服务器对应的目标功率,调整每个服务器的第一功率,直至上述M个服务器对应的聚合功率满足预设条件。
其中,上述预设条件包括:服务器对应的聚合功率与所述预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
可选地,在本申请实施例中,基于RAPL的功率控制装置可以根据上述每个服务器对应的目标功率,调整每个服务器的实际功率,直至M个服务器对应的实时聚合功率达到预设目标功率。
可选地,在本申请实施例中,上述目标功率为服务器在工作时需要达到的功率,即,需要通过RAPL接口将服务器的功率调整至的功率。
可选地,在本申请实施例中,基于RAPL的功率控制方法可以将每个服务器对应的目标功率作为RAPL接口的参数,采用RAPL接口将每个服务器的实际功率调整为其对应的目标功率。
进一步可选地,在本申请实施例中,上述步骤S203a可以通过以下步骤S203a1实现。
步骤S203a1:基于RAPL的功率控制装置根据上述预设目标功率和上述M个服务器的数量,确定上述M个服务器中的每个服务器对应的目标功率。
可选地,在本申请实施例中,基于RAPL的功率控制装置可以将预设目标功率和上述M个服务器的数量做除法,得到每个服务器对应的目标功率。
示例性地,以预设目标功率为900w、M个服务器包括10台服务器为例,假设10台服务器的聚合功率为1050w超过功率上限,此时需要对10台服务器的功率进行控制,则基于RAPL的功率控制装置可以计算得到每台服务器对应的目标功率可以90w(即,900/10),并通过RAPL接口根据该每台服务器对应的目标功率,对每台服务器进行功率封顶,以将每台服务器的实际功率均控制在90w,从而使得10台服务器的聚合功率维持在预设目标功率,即900w。
进一步可选地,在本申请实施例中,上述步骤S203a可以通过以下步骤S203a2和步骤S203a3实现。
步骤S203a2:基于RAPL的功率控制装置根据上述预设目标功率和上述M个服务器对应的聚合功率,确定M个服务器中的每个服务器需调整的功率调整量。
步骤S203a3:基于RAPL的功率控制装置根据上述每个服务器需调整的功率调整量,确定每个服务器对应的目标功率。
可选地,在本申请实施例中,基于RAPL的功率控制装置可以根据上述预设目标功率和上述M个服务器对应的聚合功率的差值,确定贡阿顶线路需要调整的功率总量,然后根据需要调整的功率总量与M个服务器的数量,确定每个服务器需要调整的功率调整量。
示例性地,以预设目标功率为900w、10台服务器的聚合功率为1100w为例,需要调整的功率总量为200w,将需要调整的功率总量分配到10台服务器,则每台服务器需调整的功率调整量为20w。
如此,通过将供电线路需要降低的功率调整量,分配到该供电线路的至少一台服务器上,对至少一台服务器应用功率封顶降低服务器功率,从而达到降低该供电线路的实时功率的目的。
可选地,在本申请实施例中,上述步骤S203a2可以包括以下步骤A1和步骤A2:
步骤A1:基于RAPL的功率控制装置根据上述预设目标功率和上述M个服务器对应的聚合功率,确定为上述M个服务器供电的第一供电线路需调整的功率调整量。
步骤A2:基于RAPL的功率控制装置根据上述第一供电线路需调整的功率调整量和每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
可选地,在本申请实施例中,基于RAPL的功率控制装置可以根据预设目标功率和上述M个服务器对应的聚合功率的差值,确定第一供电线路需调整的功率调整量。
可选地,在本申请实施例中,上述功率分配系数可以为预设的系数,或者上述功率分配系数为计算得到的系数。
为了便于理解,上述功率分配系数可以成为功率分配比例。
可选地,在本申请实施例中,上述功率分配系数用于计算每台服务器需调整的功率调整量。
可选地,在本申请实施例中,每个服务器对应的功率分配系数可以相同或者不同。
可选地,上述功率分配系数的取值可以为0至1之间的任意数值。
在一种示例中,基于RAPL的功率控制装置可以预设每个服务器对应的功率分配系数。
示例性地,以M个服务器包括5台服务器为例,服务器1和服务器2的功率分配系数可以为0.2,服务器3和服务器4的功率分配系数可以为0.3;或者,服务器1和服务器2的功率分配系数可以为0.5,服务器3和服务器4的功率分配系数可以为0。
在另一种示例中,基于RAPL的功率控制装置可以将需降低的总功率分配给每个服务器内的电源模块,然后通过线性拟合算法获取每个服务器的电源模块对应的功率分配系数。
示例性地,基于RAPL的功率控制装置可以预设每个服务器的初始功率分配系数,根据该预设功率分配系数计算服务器需调整的功率调整量,并计算在对该服务器按照功率调整量调整后的聚合功率是否满足上述预设条件,若不满足,则在初始功率分配系数的基础上按照预设步长减小该初始功率分配系数,例如,以3%的步长递减,并在按照调整后的某一功率分配系数计算的聚合功率小于或者等于预设目标功率时,将该功率分配系数作为服务器最终的功率分配系数。
需要说明的是,通过每个服务器对应的功率分配系数,可以将整个供电线路需调整的功率调整量分配到服务器。并且可以根据实际需求,分配到M个服务器中的全部或者部分服务器,从而能够对服务器的功率进行灵活管控。
以下对上述基于每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量的方式的推导过程进行说明。
假设供电线路连接了num_server台服务器,第q台服务器降低的功率是Dq,第q台服务器在该供电部件上分配功率的比例为Bq,一次功率控制动作需要满足:该供电线路的多台服务器降低的功率与该多台服务器对应的功率分配系数的乘积之和等于该供电线路需要降低的总功率,如下式所示。通过该式可知:功率控制和服务器减少的功率以及功率分配系数有关。
以下通过示例对本申请实施例提供的基于RAPL的功率控制方法进行说明,该基于RAPL的功率控制方法可以包括以下步骤11至步骤17:
步骤11:对M个服务器执行功率监控,判断M个服务器对应的聚合功率是否超过第一功率阈值,若是,则执行步骤12,若否,则不作处理。
步骤12:计算M个服务器总需降低的功率总量。
步骤13:将需降低的总功率分配给每个服务器内的电源模块。
步骤14:通过线性拟合获取每个服务器的电源模块对应的功率分配系数。
步骤15:根据每个功率分配系数和需降低的功率总量,计算每个服务器需降低的功率。
步骤16:采用RAPL接口,根据每个服务器需降低的功率降低每个服务器的功率。
本申请实施例提供的基于RAPL的功率控制方法,定义了触发执行功率封顶动作的功率上限(即第一功率阈值),以及触发解除执行功率封顶动作的目标功率,为了减少功率波动以及功率封顶的频率,定义了解除功率限制的功率下限(即第二功率阈值)。当某些服务器突然运行大量负载时,服务器的功耗急速上升,当一条线路供电的所有服务器的第一功率聚合值超过线路功率上限时,进行功率封顶动作调整,尝试将聚合值降低到线路目标功率以下。当第一功率聚合值低于功率下限时,采取解除功率封顶动作,尝试解除服务器的功耗限制,随后在附近波动,最后负载运行完成时回归正常功耗。
需要说明的是,本申请上述实施例中的各个方案在不矛盾的前提下,均可以进行结合。
本申请实施例可以根据上述方法示例对基于RAPL的功率控制装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本申请实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图5示出了一种基于RAPL的功率控制装置500的结构示意图,该基于RAPL的功率控制装置500可以为管理设备,也可以为应用于该管理设备的芯片,该基于RAPL的功率控制装置500可以用于执行上述实施例中涉及的基于RAPL的功率控制方法。图5所示的基于RAPL的功率控制装置500可以包括:获取单元501、处理单元502和执行单元503,其中,上述获取单元501,用于获取通过第一供电线路供电的M个服务器的第一功率,上述第一功率为服务器工作时的实际功率;上述处理单元502,用于对获取单元获取501的M个服务器的第一功率进行聚合,得到M个服务器对应的聚合功率;上述执行单元502,用于在M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整上述M个服务器的第一功率。
可选地,在本申请实施例中,上述M个服务器的聚合功率满足功率调整条件包括以下至少之一:上述M个服务器对应的聚合功率大于第一功率阈值;上述M个服务器对应的聚合功率小于第二功率阈值。
可选地,在本申请实施例中,上述执行单元,具体用于根据预设目标功率,确定上述M个服务器中的每个服务器对应的目标功率;上述执行单元,具体用于采用RAPL接口,根据上述每个服务器对应的目标功率,调整每个服务器的第一功率,直至M个服务器对应的聚合功率满足预设条件;
其中,预设条件包括:服务器对应的聚合功率与预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
可选地,在本申请实施例中,上述执行单元,具体用于根据上述预设目标功率和M个服务器的数量,确定M个服务器中的每个服务器对应的目标功率。
可选地,在本申请实施例中,上述执行单元,具体用于根据上述预设目标功率和所述M个服务器对应的聚合功率,确定M个服务器中的每个服务器需调整的功率调整量;上述执行单元,具体用于根据上述每个服务器需调整的功率调整量,确定每个服务器对应的目标功率。
可选地,在本申请实施例中,上述执行单元,具体用于根据预设目标功率和M个服务器对应的聚合功率,确定为M个服务器供电的第一供电线路需调整的功率调整量;上述执行单元,具体用于根据上述第一供电线路需调整的功率调整量和每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
本申请实施例提供的基于RAPL的功率控制装置,基于RAPL的功率控制装置可以获取通过第一供电线路供电的M个服务器的第一功率,并对上述M个服务器的第一功率进行聚合,得到上述M个服务器对应的聚合功率,并在上述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的第一功率。通过该方法,通过对供电线路的服务器的功率进行监控,并在服务器的实时聚合功率超过功率上限时,确定需要对每个服务器进行功率调整的功率调整量,并基于每个服务器对应的功率调整量,采用RAPL接口对每个服务器的功率进行调整,以将供电线路的功率维持在目标功率,能够有效避免服务器产生的实际功率可能会超过数据中心实际的功率容量导致安全隐患的发生,从而提高了系统的安全性和稳定性。
本申请提供的基于RAPL的功率控制方法可以应用于数据中心的管理设备,数据中心的管理设备可以为计算设备、电子设备或者数据处理设备等。
本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机程序来指令相关的硬件完成,该程序可存储于上述计算机可读存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的数据中心的PUE优化装置的内部存储单元,例如PUE优化装置的硬盘或内存。上述计算机可读存储介质也可以是上述终端装置的外部存储设备,例如上述终端装置上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,上述计算机可读存储介质还可以既包括上述PUE优化装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述PUE优化装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种基于运行平均功率限制RAPL的功率控制方法,其特征在于,所述方法包括:
获取通过第一供电线路供电的M个服务器的第一功率,所述第一功率为所述服务器工作时的实际功率;M为正整数;
对所述M个服务器的第一功率进行聚合,得到所述M个服务器对应的聚合功率;
在所述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的第一功率。
2.根据权利要求1所述的方法,其特征在于,所述M个服务器的聚合功率满足功率调整条件包括以下至少之一:
所述M个服务器对应的聚合功率大于第一功率阈值;
所述M个服务器对应的聚合功率小于第二功率阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述采用RAPL接口调整所述M个服务器的第一功率,包括:
根据预设目标功率,确定所述M个服务器中每个服务器对应的目标功率;
采用RAPL接口,根据所述每个服务器对应的目标功率,调整所述每个服务器的第一功率,直至所述M个服务器对应的聚合功率满足预设条件;
其中,所述预设条件包括:服务器对应的聚合功率与所述预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据预设目标功率,确定所述M个服务器中的每个服务器对应的目标功率,包括:
根据所述预设目标功率和所述M个服务器的数量,确定所述M个服务器中的每个服务器对应的目标功率。
5.根据权利要求3所述的方法,其特征在于,所述根据预设目标功率,确定所述M个服务器中的每个服务器对应的目标功率,包括:
根据所述预设目标功率和所述M个服务器对应的聚合功率,确定所述M个服务器中的每个服务器需调整的功率调整量;
根据所述每个服务器需调整的功率调整量,确定所述每个服务器对应的目标功率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述预设目标功率和所述M个服务器对应的聚合功率,确定所述M个服务器中的每个服务器需调整的功率调整量,包括:
根据所述预设目标功率和所述M个服务器对应的聚合功率,确定为所述M个服务器供电的所述第一供电线路需调整的总功率调整量;
根据所述第一供电线路需调整的总功率调整量和所述每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
7.一种基于RAPL的功率控制装置,其特征在于,所述装置包括:获取单元、处理单元和执行单元,其中:
所述获取单元,用于获取通过第一供电线路供电的M个服务器的第一功率,所述第一功率为所述服务器工作时的实际功率;
所述处理单元,用于对所述获取单元获取的M个服务器的第一功率进行聚合,得到所述M个服务器对应的聚合功率;
所述执行单元,用于在所述M个服务器对应的聚合功率满足功率调整条件的情况下,采用RAPL接口调整所述M个服务器的第一功率。
8.根据权利要求7所述的装置,其特征在于,所述M个服务器的聚合功率满足功率调整条件包括以下至少之一:
所述M个服务器对应的聚合功率大于第一功率阈值;
所述M个服务器对应的聚合功率小于第二功率阈值。
9.根据权利要求7或8所述的装置,其特征在于,所述执行单元,具体用于根据预设目标功率,确定所述M个服务器中的每个服务器对应的目标功率;
所述执行单元,具体用于采用RAPL接口,根据所述每个服务器对应的目标功率,调整所述每个服务器的第一功率,直至所述M个服务器对应的聚合功率满足预设条件;
其中,所述预设条件包括:服务器对应的聚合功率与所述预设目标功率相等;或者,服务器对应的聚合功率与所述预设目标功率间的差值小于第三阈值。
10.根据权利要求9所述的装置,其特征在于,所述执行单元,具体用于根据所述预设目标功率和所述M个服务器的数量,确定所述M个服务器中的每个服务器对应的目标功率。
11.根据权利要求9所述的装置,其特征在于,所述执行单元,具体用于根据所述预设目标功率和所述M个服务器对应的聚合功率,确定所述M个服务器中的每个服务器需调整的功率调整量;
所述执行单元,具体用于根据所述每个服务器需调整的功率调整量,确定所述每个服务器对应的目标功率。
12.根据权利要求11所述的装置,其特征在于,所述执行单元,具体用于根据所述预设目标功率和所述M个服务器对应的聚合功率,确定为所述M个服务器供电的所述第一供电线路需调整的功率调整量;
所述执行单元,具体用于根据所述第一供电线路需调整的功率调整量和所述每个服务器对应的功率分配系数,确定每个服务器需调整的功率调整量。
13.一种基于RAPL的功率控制装置,其特征在于,包括:处理器、存储器和通信接口;其中,通信接口用于所述基于RAPL的功率控制通信;所述存储器用于存储一个或多个程序,所述一个或多个程序包括计算机执行指令,当所述基于RAPL的功率控制装置运行时,处理器执行所述存储器存储的所述计算机执行指令,以使所述基于RAPL的功率控制执行权利要求1-6中任一项所述的基于RAPL的功率控制方法。
14.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有指令,当所述指令被执行时,实现如权利要求1-6中任一项所述的基于RAPL的功率控制方法。
CN202310953345.8A 2023-07-31 2023-07-31 基于rapl的功率控制方法、装置及存储介质 Pending CN116991194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310953345.8A CN116991194A (zh) 2023-07-31 2023-07-31 基于rapl的功率控制方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310953345.8A CN116991194A (zh) 2023-07-31 2023-07-31 基于rapl的功率控制方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116991194A true CN116991194A (zh) 2023-11-03

Family

ID=88520933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310953345.8A Pending CN116991194A (zh) 2023-07-31 2023-07-31 基于rapl的功率控制方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116991194A (zh)

Similar Documents

Publication Publication Date Title
EP3850465B1 (en) Methods and systems for distributed power control
Liu et al. HEB: Deploying and managing hybrid energy buffers for improving datacenter efficiency and economy
US11029739B2 (en) Continuously available power control system
US8924750B2 (en) Dynamic CPU voltage regulator phase shedding
CN102708000B (zh) 通过虚拟机迁移实现能耗控制的系统和方法
Zheng et al. Data center sprinting: Enabling computational sprinting at the data center level
CA2847258A1 (en) System and method for forcing data center power consumption to specific levels by dynamically adjusting equipment utilization
CN101154096A (zh) 信息处理系统中电能管理的装置与方法
Zheng et al. Hybrid energy storage with supercapacitor for cost-efficient data center power shaving and capping
Li et al. A scalable priority-aware approach to managing data center server power
US20210294406A1 (en) Datacenter power management using current injection
Ahmed et al. Reliability analysis of internal power supply architecture of data centers in terms of power losses
EP3931933A1 (en) Grid-edge controllers for uninterruptible power supplies and methods of operating the same
Zhou et al. Underprovisioning the grid power infrastructure for green datacenters
Malla et al. Coordinated priority-aware charging of distributed batteries in oversubscribed data centers
Zheng et al. TE-Shave: Reducing data center capital and operating expenses with thermal energy storage
CN116991194A (zh) 基于rapl的功率控制方法、装置及存储介质
Diaconescu et al. Energy-aware Placement of VMs in a Datacenter
Zheng Power Capping with Optimized Computing Performance in Data Centers
Zhao Moving Beyond Worst-Case Power Design in Datacenters-Distributed UPS and Dynamic Voltage Scaling for FPGAs
CN114448073A (zh) 数据中心的供电控制方法及装置
Wang et al. Hierarchical deployment and control of energy storage devices in data centers
Lee et al. Power-saving dynamic allocati on strategy for clouding server
Govindan Optimizing power delivery cost in datacenters
Oró et al. Advanced Technical Concepts for Efficient Electrical Distribution and IT Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination