CN102624546A - 功耗封顶的控制方法、设备和系统 - Google Patents

功耗封顶的控制方法、设备和系统 Download PDF

Info

Publication number
CN102624546A
CN102624546A CN2012100480137A CN201210048013A CN102624546A CN 102624546 A CN102624546 A CN 102624546A CN 2012100480137 A CN2012100480137 A CN 2012100480137A CN 201210048013 A CN201210048013 A CN 201210048013A CN 102624546 A CN102624546 A CN 102624546A
Authority
CN
China
Prior art keywords
power consumption
server
whole frame
binds
cap value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100480137A
Other languages
English (en)
Other versions
CN102624546B (zh
Inventor
王江涛
李延松
梁伟宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XFusion Digital Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210048013.7A priority Critical patent/CN102624546B/zh
Priority to PCT/CN2012/079107 priority patent/WO2013127151A1/zh
Publication of CN102624546A publication Critical patent/CN102624546A/zh
Application granted granted Critical
Publication of CN102624546B publication Critical patent/CN102624546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality

Abstract

本发明实施例提供一种功耗封顶的控制方法、设备和系统,方法包括:对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源;当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。本发明实施例还提供一种功耗封顶的控制设备和系统。本发明实施例实现了更加灵活的封顶功能,最大化地合理使用资源,大大降低了资源的浪费。

Description

功耗封顶的控制方法、设备和系统
技术领域
本发明涉及通信技术,尤其涉及一种功耗封顶的控制方法、设备和系统。
背景技术
随着互联网数据的爆炸式增长和云计算时代的到来,IT领域对服务器设备的需求不断增长,数据中心机房的IT设备的快速扩容,给数据中心的供电、散热、空间容量等带来巨大挑战。一方面是数据中心供电与资源的紧缺,另一方面是机房设备的用电效率低、机柜密度低,因此在很大程度上存在资源浪费。目前互联网数据中心(Internet Data Center;以下简称:IDC)机房的机柜配电都有限额,机柜耗电超过额定值时会导致空开跳闸,在部署服务器时需要非常谨慎,服务器数量的配置要按照额定最大功耗来计算,而在实际使用中服务器运行时的功耗出现接近额定最大功耗的概率极小。图1为现有技术中资源使用情况的曲线示意图,如图1所示,通过对现网5000台服务器的资源使用情况进行分析,服务器资源的空闲率达到50%以上,若再考虑按照额定最大功耗配电所导致的50%资源空闲,则整个机柜配电的空闲率达到75%以上。而功耗封顶技术可以解决目前存在的上述问题。
现有技术中的功耗封顶方案包括三个主要部分:设置封顶值、监视运行功耗、执行封顶动作。即先根据机柜配电要求、服务器正常运行的实际功耗、业务压力需求等设置各台机架服务器的功耗封顶值,然后将该封顶值写入带外管理系统作为服务器运行的上限功耗,该功耗封顶值为一个固定值。在服务器运行过程中,带外管理系统监测整机功耗,如果发现功耗超过封顶值,则执行封顶动作。
然而,现有技术中服务器之间的资源分配和使用是相互独立的,封顶功能不灵活,不能最大化地合理使用资源。
发明内容
本发明实施例提供一种功耗封顶的控制方法、设备和系统,用于解决现有技术存在着的封顶功能不灵活,不能最大化地合理使用资源的问题。
本发明实施例的一个方面是提供一种功耗封顶的控制方法,包括:
对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源;
当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;
当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。
本发明实施例的又一个方面是提供一种功耗封顶的控制设备,包括:
监控模块,用于对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源;
第一封顶控制模块,用于当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。
本发明实施例的又一个方面是提供一种功耗封顶的控制系统,包括管理板、供电单元和多个刀片服务器,所述管理板包括上述功耗封顶的控制设备,所述刀片服务器包括单板管理控制单元、基本输入输出系统BIOS和中央处理器CPU。
本发明实施例的技术效果是:通过对整框功耗进行监控,当获取到的整框监控结果为资源池未溢出时,不对各服务器进行功耗封顶操作,当获取到的整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。本实施例实现了更加灵活的封顶功能,最大化地合理使用资源,大大降低了资源的浪费。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中资源使用情况的曲线示意图;
图2为本发明功耗封顶的控制方法实施例一的流程图;
图3为本发明功耗封顶的控制方法实施例二的流程图;
图4为本发明功耗封顶的控制方法实施例二中的系统架构示意图;
图5为本发明功耗封顶的控制方法实施例二中的服务器功耗变化示意图;
图6为本发明功耗封顶的控制方法实施例二中的整框功耗变化示意图;
图7为本发明功耗封顶的控制设备实施例一的结构示意图;
图8为本发明功耗封顶的控制设备实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2为本发明功耗封顶的控制方法实施例一的流程图,如图2所示,本实施例提供了一种功耗封顶的控制方法,本实施例从管理板一侧对本发明的技术方案进行说明,本实施例可以具体执行如下步骤:
步骤201,对整框功耗进行监控,获取整框监控结果。
本实施例提供的功耗封顶的控制方法主要针对刀片服务器或者具有管理板的多节点服务器的功耗封顶过程,即本实施例中的服务器可以具体为刀片服务器或具有管理板的多节点服务器,由管理板对各服务器和机框提供管理功能,担负机框的功耗封顶一级开关。当管理板开始执行功耗封顶控制,即启动功耗封顶一级开关时,管理板对整框功耗进行周期性的监控,并实时获取整框监控结果。此处管理板监控的整框功耗为整个机框上处于运行状态的所有服务器和部件的功耗,其随着服务器的运行情况以及外部环境的不断变化,整框功耗也是不断变化的,因此本实施例通过监控可以实时获取到当前的整框功耗的值。在本实施例中,整框监控结果可以为资源池的利用情况,如资源池是否溢出,即获取到的整框监控结果可以为资源池溢出或者资源池不溢出。此处的资源池为插在同一机框上的多个服务器所共享的供电资源,在本实施例中,插在同一机框上的多个服务器共享一个资源池,即多个服务器共享电源模块提供的供电资源。
步骤202,当整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶。
在本实施例中,通过上述步骤的监控过程,当获取到的整框监控结果为资源池不溢出时,管理板不会对各服务器进行功耗封顶操作,而是继续执行上述整框功耗的监控操作。在本实施例中,在各服务器共享的资源池不溢出的前提下,不执行服务器的功耗封顶操作,允许服务器无限制运行,即使部分服务器的功耗远超过设定的服务器功耗封顶值也不对该服务器进行控制,这样在不影响其他服务器的情况下,可以大大提高部分服务器的运行速度。
步骤203,当整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使各服务器收到该功耗封顶控制指令后进行功耗封顶控制。
当获取到的整框监控结果为资源池溢出时,管理板向各服务器发送功耗封顶控制指令,各服务器在收到功耗封顶控制指令后进行功耗封顶控制,相当于开启各服务器的二级封顶开关,使得功耗封顶后各服务器的服务器功耗不超过服务器功耗封顶值。由此可见,本实施例中的功耗封顶控制是结合实时监控得到的整个机框的整框功耗和各服务器的服务器功耗来进行的,各服务器共享资源池,它们之间的资源分配和使用不是相互独立的,因此,本实施例相对于现有技术的封顶功能更加灵活,能够对资源进行最大化的合理利用。
本实施例提供了一种功耗封顶的控制方法,通过对整框功耗进行监控,当获取到的整框监控结果为资源池未溢出时,不对各服务器进行功耗封顶操作,当获取到的整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。本实施例实现了更加灵活的封顶功能,最大化地合理使用资源,大大降低了资源的浪费。
在本实施例中,在每个服务器上分别设置一个封顶开关,当管理板通过监控整框功耗获取到资源池溢出时,开启各服务器的封顶开关,此处的封顶开关具体为功耗封顶二级开关。对于每一个服务器来说,当服务器的封顶开关被开启后,服务器中的单板管理控制(Board Management Controller;以下简称:BMC)单元对服务器的服务器功耗进行周期性的监控,以实时获取到服务器当前的服务器功耗。在本实施例中,服务器中的BMC单元为服务器的功耗封顶二级开关,开启功耗封顶二级开关即启动BMC单元进行功耗封顶控制。
在BMC单元对服务器的功耗进行监控的过程中,BMC单元根据监控得到的服务器功耗和服务器功耗封顶值进行功耗封顶控制。其中,本步骤中的服务器功耗封顶值为管理板根据监控得到的整框功耗实时更新得到的,具体为在管理板对整框功耗进行监控的过程中,管理板根据监控得到的整框功耗实时更新服务器功耗封顶值。在本步骤中,服务器中的BMC单元在进行功耗封顶控制时,结合实时监控得到的服务器功耗和实时更新得到的服务器功耗封顶值,因此,本实施例的功耗封顶控制过程是灵活的,能够对资源进行最大化的合理利用。
图3为本发明功耗封顶的控制方法实施例二的流程图,如图3所示,本实施例提供了一种功耗封顶的控制方法,可以具体包括如下步骤:
步骤301,管理板根据机柜配电和业务负载情况设置整框功耗封顶值。
图4为本发明功耗封顶的控制方法实施例二中的系统架构示意图,如图4所示,假设本实施例中的机框上插设有N个刀片服务器,即刀片服务器1、刀片服务器2、…刀片服务器N。图中的管理板为刀片服务器的机框管理板,用于提供刀片服务器和机框的管理功能,相当于包含所有刀片服务器在内的整个机框的功耗封顶一级开关,本实施例中开启功耗封顶一级开关相当于启动管理板,由管理板开始执行本实施例中的功耗封顶的控制过程。从图5中可以看出,管理板通过供电单元(Power Supply Unit;以下简称:PSU)实时获取机框的整框功耗,此处的整框功耗是指插设在机框上的所有刀片服务器和部件在运行过程中的功耗总和;管理板还通过“管理通信”通道与各个刀片服务器进行通信,从而实时下发各刀片服务器的服务器功耗封顶值。PSU用于为各刀片服务器供电,并通过“管理信号线”实时向管理板上报整框功耗。每个刀片服务器可以主要由BMC单元、BIOS、功耗检测单元和CPU构成,BMC单元为刀片服务器的带外管理单元,其与刀片服务器的BIOS配合实现功耗封顶,是本实施例中的功耗封顶二级开关。BIOS用于接收BMC单元的控制命令,从而对CPU的工作频率状态(Performance state;以下简称:P-state)和时钟占空比状态(Throttle state;以下简称:T-state)、内存的P-state和T-state以及其他部件的工作状态进行调整,实现刀片服务器的封顶动作的执行。功耗检测单元用于检测整个刀片服务器的服务器功耗,将检测数据实时上报给BMC单元。
本步骤为在启动管理板进行功耗封顶控制之前,管理板先根据机柜配电和业务负载情况设置整框功耗封顶值,管理板可以具体根据机柜配电要求、刀片服务器正常运行的实际功耗、业务压力需求等几个方面来配置整框功耗封顶值,即以机柜配电要求为条件,参考刀片服务器正常运行的实际功耗的最大值、平均值等,还可以结合业务负载情况等业务压力需求,来配置整框功耗封顶值,具体的配置方法可以采用现有技术中本领域技术人员熟知的方法,此处不再赘述。此处假设配置的整框功耗封顶值为P0,即P0为整框功耗封顶值的一个初始值。
步骤302,管理板根据整框功耗封顶值计算各刀片服务器的服务器功耗封顶值。
管理板在对整框功耗封顶值进行设置之后,可以根据该整框功耗封顶值来具体计算分发到各刀片服务器的服务器功耗封顶值,此处假设服务器功耗封顶值为Pm。本实施例中的服务器功耗封顶值的计算方法为用整框功耗封顶值P0减去机框上除刀片服务器之外的其他部件的功耗值p得到一个差值,再将该差值按照各刀片服务器的在位状态均分到各在位的刀片服务器上。其中,机框上除刀片服务器之外的其他部件例如可以包括机框风扇、电源、管理板、交换板等等。在管理板计算得到刀片服务器的服务器功耗封顶值Pm之后,管理板通过“管理通信”通道将Pm下发到各在位的刀片服务器。例如,假设N个刀片服务器均在位,其他部件的功耗为p,则可以采用下述公式(1)来计算得到的服务器功耗封顶值Pm
P m = P 0 - p N - - - ( 1 )
其中,Pm为服务器功耗封顶值,P0为整框功耗封顶值,p为其他部件的功耗值,N为服务器的个数。此处计算得到的服务器功耗封顶值Pm也是服务器功耗封顶值的初始值,后续根据服务器的运行状况来更行该服务器功耗封顶值。或者,在本实施例中,也可以根据业务负载情况,通过手动方式来设置部分或者全部刀片服务器的服务器功耗封顶值。
步骤303,管理板按照预设的整框监控周期对整框功耗进行监控,并根据监控得到的整框功耗更新各服务器的服务器功耗封顶值。
在完成整框功耗封顶值和服务器功耗封顶值的设置之后,可以启动管理板进行功耗封顶的控制过程。在启动管理板进行功耗封顶的控制过程后,管理板按照预设的整框监控周期对整框功耗进行监控,此处可以假设整框功耗为P1,该整框监控周期可以根据实际情况来具体设定,例如可以设定为每秒对整框功耗监控10次。同时,管理板根据监控得到的整框功耗更新各服务器的服务器功耗封顶值,具体地,管理板可以根据机框当前的整框功耗实时刷新各刀片服务器的服务器功耗封顶值。根据预设时间段内监控得到的多个整框功耗的值和服务器总功耗的值计算所述整框功耗的平均值和所述服务器总功耗的平均值,例如,管理板可以每秒刷新一次服务器功耗封顶值,即预设时间段为1秒,1秒内可以分别监控得到10个整框功耗的值和10个服务器总功耗的值;分别实时获取整框功耗和服务器总功耗在一秒内的平均值,将两个平均值相减得到除刀片服务器之外的所有部件的总功耗P_other;再用整框功耗封顶值P0减去P_other得到一个差值,再将该差值均分到各在位的刀片服务器上,即得到更新后的服务器功耗封顶值Pm。具体可以采用下述工公式(2)来更新服务器功耗封顶值Pm
P m = [ P 0 - ( P ‾ 1 - P ‾ N ) ] N - - - ( 2 )
其中,Pm为服务器功耗封顶值,P0为整框功耗封顶值,
Figure BDA0000139197450000072
为整框功耗的平均值,
Figure BDA0000139197450000073
为所述服务器总功耗的平均值,N为服务器的个数,本实施例以预设时间段为单位,采用上述公式对所述各服务器的服务器功耗封顶值进行更新。在本实施例中,在刀片服务器的运行过程中,不同时间段的整框功耗不同,本实施例通过监控到的整框功耗来实时刷新计算服务器功耗封顶值,以使得服务器功耗封顶值可以更加接近于当前的服务器运行情况,从而能够大幅降低因服务器功耗封顶值不准确带来的封顶误差,提高后续步骤中封顶动作的精确度。
步骤304,管理板判断监控得到的整框功耗是否小于预设的区间上限系数与整框功耗封顶值之积,如果是,则执行步骤305,否则执行步骤306。
在每监控得到一个整框功耗P1时,管理板判断该整框功耗P1是否小于预设的区间上限系数与整框功耗封顶值P0之积,其中,区间上限系数可以根据实际情况来设定或修改,例如设定为0.7,则本步骤具体为管理板判断监控得到的整框功耗P1是否小于P0×0.7,如果是,则执行步骤305,否则执行步骤306。本实施例中的区间上限系数与整框功耗封顶值之积为刀片服务器共享的资源池的上门限值,后续步骤中还会涉及到区间下限系数,区间下限系数与整框功耗封顶值之积为资源池的下门限值,上门限值和下门限值之间的范围则构成资源池的防震荡区间。
步骤305,管理板获取整框监控结果为资源池未溢出,并返回执行步骤303。
在本实施例中,当管理板监控得到的整框功耗P1小于预设的区间上限系数与整框功耗封顶值之积P0×0.7时,表明资源池当前没有溢出,则管理板获取到整框监控结果为资源池未溢出,管理板可以不执行进一步的操作,而返回执行上述步骤303,继续对整框功耗进行监控。
步骤306,管理板获取整框监控结果为资源池溢出。
当管理板监控得到的整框功耗P1大于或等于预设的区间上限系数与整框功耗封顶值之积P0×0.7时,表明资源池当前已溢出,则管理板获取到整框监控结果为资源池溢出,并执行后续步骤307。在本实施例中,当整框功耗P1低于区间上限系数与整框功耗封顶值之积P0×0.7时,不对服务器执行功耗封顶动作,允许所有刀片服务器无限制运行,其中部分刀片服务器还可以远超服务器封顶值运行;当整框功耗P1达到区间上限系数与整框功耗封顶值之积P0×0.7时,才会开启刀片服务器的功耗封顶控制。
步骤307,管理板关闭资源池,并向各服务器发送功耗封顶控制指令。
当管理板获知资源池溢出时,管理板关闭资源池,并向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制,即启动各刀片服务器中作为功耗封顶二级开关的BMC单元开始执行功耗封顶控制的操作。
步骤308,刀片服务器中的BMC单元对刀片服务器的服务器功耗进行监控,判断监控得到的服务器功耗是否小于服务器功耗封顶值,如果是,则继续执行本步骤308,否则执行步骤309。
在接收到管理板发送的功耗封顶控制指令后,各刀片服务器中的BMC单元分别对各自刀片服务器的服务器功耗进行监控,BMC单元判断监控得到的服务器功耗Pn是否小于上述步骤307更新后的服务器功耗封顶值Pm,如果是,则表明该刀片服务器的服务器功耗尚未超过服务器功耗封顶值,BMC单元不执行任何控制功耗的动作,而继续执行本步骤308,继续监控服务器功耗,否则执行步骤309。
步骤309,BMC单元根据服务器功耗与服务器功耗封顶值之差向刀片服务器的基本输入输出系统(Basic Input Output System;以下简称:BIOS)发送封顶执行通知。
当BMC单元监控得到的服务器功耗Pn大于或等于上述步骤307更新后的服务器功耗封顶值Pm时,表明该刀片服务器的服务器功耗已经达到服务器功耗封顶值,BMC单元开始执行功耗封顶动作。具体地,BMC根据服务器功耗与服务器功耗封顶值之差向刀片服务器的BIOS发送封顶执行通知。
步骤310,BIOS根据所述封顶执行通知调整刀片服务器的中央处理器(Central Processing Unit;以下简称:CPU)的工作频率状态和时钟占空比状态以及内存的工作频率状态和时钟占空比状态。
刀片服务器的BIOS在接收到封顶执行通知后,根据该封顶执行通知调整该刀片服务器的CPU的工作频率状态P-state和时钟占空比状态T-state、该刀片服务器的内存的P-state和T-state以及该刀片服务器的其他部件的工作状态。
步骤311,BMC单元判断当前监控得到的服务器功耗是否小于服务器功耗封顶值,如果是,则执行步骤312,否则返回执行步骤310。
在本实施例中,BMC单元对服务器功耗的监控操作不会由于功耗封顶执行动作而停止,即在执行上述步骤309-311的过程中,BMC单元仍然同时监控该刀片服务器的服务器功耗。BMC单元每执行一次功耗封顶动作,BMC单元便会对当前监控得到的服务器功耗Pn与服务器功耗封顶值Pm进行比较,判断当前监控得到的服务器功耗Pn是否小于服务器功耗封顶值Pm,如果是,则执行步骤312,否则返回执行步骤310,继续执行功耗封顶动作。
步骤312,BMC单元向刀片服务器的BIOS发送封顶执行停止通知。
在执行功耗封顶动作之后,当BMC单元获知服务器功耗Pn小于当前更新的服务器功耗封顶值Pm时,表明之前的功耗封顶动作已经将该刀片服务器的功耗控制在服务器功耗封顶值以下,BMC单元向该刀片服务器的BIOS发送封顶执行停止通知。
步骤313,BIOS根据封顶执行停止通知停止执行功耗封顶的相关操作。
刀片服务器的BIOS在接收到封顶停止执行通知后,根据该封顶停止执行通知停止执行功耗封顶的相关操作。
步骤314,管理板判断当前监控得到的整框功耗是否小于或等于预设的区间下限系数与所述整框功耗封顶值之积,如果是,则执行步骤315,否则返回执行步骤308。
在本实施例中,管理板对整框功耗的监控操作不会由于BMC单元的服务器功耗监控以及功耗封顶动作的执行而停止,即在执行上述步骤307-313的过程中,管理板仍然同时监控整框功耗。当一个或几个刀片服务器的服务器功耗下降后,整框功耗也会随之下降。本步骤为管理板判断当前监控得到的整框功耗P1是否小于或等于预设的区间下限系数与整框功耗封顶值P0之积,如果是,则执行步骤315,否则返回执行步骤308。本实施例中的区间下限系数与整框功耗封顶值之积为刀片服务器共享的资源池的下门限值,例如可以设定区间下限系数为0.6,区间上限系数与整框功耗封顶值之积为刀片服务器共享的资源池的上门限值,上门限值和下门限值之间的范围则构成资源池的防震荡区间。本实施例中的防震荡区间可以根据实际情况修改,如果资源池的打开和关闭的频率较高,则可以适当下调下门限值,以增大防震荡区间。
步骤315,管理板开启资源池,向各服务器发送功耗封顶停止指令,以使各服务器收到所述功耗封顶停止指令后停止进行功耗封顶控制。
如果当前监控得到的整框功耗P1大于预设的区间下限系数与整框功耗封顶值之积P0×0.6,则管理板重新开启资源池,并向各服务器发送功耗封顶停止指令,以使各服务器收到功耗封顶停止指令后停止进行功耗封顶控制,此时完成一轮封顶控制。
在本实施例中,假设上述步骤301配置的整框功耗封顶值P0为3500瓦,机框中共有10个在位的刀片服务器,机框中风扇、交换板、管理板、电源等部件的总功耗为500瓦不变,则计算的每个刀片服务器的服务器功耗封顶值Pm为300瓦。此时,采用本实施例的上述功耗封顶的控制方法进行功耗封顶控制,则随着负载不断增加,可以得到如图5所示的资源池中功耗变化结果。图5和图6分别为本发明功耗封顶的控制方法实施例二中的服务器功耗和整框功耗变化示意图,从图5和图6中可以看出,本实施例可以实现对资源的最大化地利用。
本实施例提供的功耗封顶的控制方法可以适用于刀片服务器或有管理板的节点服务器,通过管理板实时监控整框功耗的运行情况来决定刀片服务器的功耗封顶二级开关的状态,各个刀片服务器的BMC单元作为刀片服务器自身的二级开关,与BIOS配合执行刀片服务器本身的功耗封顶动作,实现功耗封顶灵活监控设计,且通过功耗封顶将刀片服务器的额定功耗限定为刀片服务器实际能达到的功耗,不仅可以避免刀片服务器实际运行时只能达到50%的额定功耗所引起的资源浪费,还可以大幅提高机房和机柜的设备密度,提高空间资源的使用率。本实施例通过两级功耗封顶开关构造出共享的资源池,在功耗封顶过程中结合整框功耗和服务器功耗来进行功耗封顶的控制,在资源池未溢出的情况下确保高负载刀片超额运行,同时业务性能也不会受影响;在资源池溢出的情况下确保整框功耗不超过预设的整框功耗封顶值,从而在保证供电安全的基础上最大化提高供电资源的利用率,即打开资源池时可以最大程度利用供电资源,关闭资源池时可以确保整框刀片系统的供电安全;且本实施例通过资源池的上下门限设定了资源池的防震荡区间,避免了业务负载波动引起的封顶开关频繁地打开或关闭,提高了功耗封顶的稳定性。另外,本实施例通过管理板实时监控机框风扇、电源、管理板、交换板等部件的功耗,采用实时刷新各刀片服务器的服务器功耗封顶值的方案,最大幅度地降低功耗封顶的误差。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图7为本发明功耗封顶的控制设备实施例一的结构示意图,如图7所示,本实施例提供了一种功耗封顶的控制设备,可以具体执行上述方法实施例一中的各个步骤,此处不再赘述。本实施例提供的功耗封顶的控制设备可以具体为管理板,其可以具体包括监控模块701和第一封顶控制模块702。其中,监控模块701用于对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源。第一封顶控制模块702用于当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。
图8为本发明功耗封顶的控制设备实施例二的结构示意图,如图8所示,本实施例提供了一种功耗封顶的控制设备,可以具体执行上述方法实施例二中的各个步骤,此处不再赘述。本实施例提供的功耗封顶的控制设备在上述图7所示的基础之上,监控模块701可以具体包括监控单元711、第一获取单元721和第二获取单元731。其中,监控单元711用于按照预设的整框监控周期对整框功耗进行监控。第一获取单元721用于当所述监控得到的整框功耗小于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池未溢出。第二获取单元731用于当所述监控得到的整框功耗大于或等于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池溢出。
进一步地,本实施例提供的功耗封顶的控制设备还可以包括第二封顶控制模块801。第二封顶控制模块801用于在向各服务器发送功耗封顶指令之后,当所述监控得到的整框功耗小于或等于预设的区间下限系数与所述整框功耗封顶值之积时,向所述各服务器发送功耗封顶停止指令,以使所述各服务器收到所述功耗封顶停止指令后停止进行功耗封顶控制,其中,所述区间上限指数大于所述区间下限指数。
更进一步地,本实施例提供的功耗封顶的控制设备还可以包括第一计算模块802和更新模块803。其中,第一计算模块802用于根据预设时间段内监控得到的多个整框功耗的值和服务器总功耗的值计算所述整框功耗的平均值和所述服务器总功耗的平均值。更新模块803用于根据所述整框功耗的平均值、所述服务器总功耗的平均值和所述整框功耗封顶值,采用上述公式(2)更新各服务器的服务器功耗封顶值;并以所述预设时间段为单位,采用上述公式对所述各服务器的服务器功耗封顶值进行更新。
更进一步地,本实施例提供的功耗封顶的控制设备还可以包括设置模块804和第二计算模块805。其中,设置模块804用于在所述对整框功耗进行监控之前,根据机柜配电和业务负载情况设置所述整框功耗封顶值。第二计算模块805用于根据所述整框功耗封顶值和机框上除所述各服务器之外的其他部件的功耗值,采用上述公式(1)计算所述各服务器的服务器功耗封顶值。
本实施例提供了一种功耗封顶的控制设备,通过对整框功耗进行监控,当获取到的整框监控结果为资源池未溢出时,不对各服务器进行功耗封顶操作,当获取到的整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。本实施例实现了更加灵活的封顶功能,最大化地合理使用资源,大大降低了资源的浪费。
本实施例还提供了一种功耗封顶的控制系统,可以具体如上述图4所示,该功耗封顶的控制系统可以具体包括管理板、供电单元PSU和多个刀片服务器。其中,管理板可以具体包括上述图7或图8所示的功耗封顶的控制设备,刀片服务器可以具体包括单板管理控制单元、基本输入输出系统BIOS和中央处理器CPU。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种功耗封顶的控制方法,其特征在于,包括:
对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源;
当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;
当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。
2.根据权利要求1所述的方法,其特征在于,所述对整框功耗进行监控,获取整框监控结果包括:
按照预设的整框监控周期对整框功耗进行监控;
当监控得到的整框功耗小于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池未溢出;
当监控得到的整框功耗大于或等于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池溢出。
3.根据权利要求2所述的方法,其特征在于,在所述向各服务器发送功耗封顶控制指令之后,还包括:
当所述监控得到的整框功耗小于或等于预设的区间下限系数与所述整框功耗封顶值之积时,向所述各服务器发送功耗封顶停止指令,以使所述各服务器收到所述功耗封顶停止指令后停止进行功耗封顶控制;
其中,所述区间上限系数大于所述区间下限系数。
4.根据权利要求1所述的方法,其特征在于,所述收到所述功耗封顶控制指令后进行功耗封顶控制包括:
收到所述功耗封顶控制指令后,当监控得到的服务器功耗大于或等于服务器功耗封顶值时,根据所述服务器功耗与所述服务器功耗封顶值之差向所述服务器的基本输入输出系统BIOS发送封顶执行通知,以使所述BIOS根据所述封顶执行通知调整所述服务器的中央处理器CPU的工作频率状态和时钟占空比状态以及内存的工作频率状态和时钟占空比状态。
5.根据权利要求4所述的方法,其特征在于,所述收到所述功耗封顶控制指令后进行功耗封顶控制还包括:
当监控得到的服务器功耗小于服务器功耗封顶值时,向所述服务器的BIOS发送封顶执行停止通知,以使所述BIOS根据所述封顶执行停止通知停止功耗封顶的执行操作。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据预设时间段内监控得到的多个整框功耗的值和服务器总功耗的值计算所述整框功耗的平均值和所述服务器总功耗的平均值;
根据所述整框功耗的平均值、所述服务器总功耗的平均值和整框功耗封顶值,采用下述公式更新各服务器的服务器功耗封顶值:
P m = [ P 0 - ( P ‾ 1 - P ‾ N ) ] N ;
其中,Pm为所述服务器功耗封顶值,P0为所述整框功耗封顶值,
Figure FDA0000139197440000022
为所述整框功耗的平均值,
Figure FDA0000139197440000023
为所述服务器总功耗的平均值,N为服务器的个数;
以所述预设时间段为单位,采用上述公式对所述各服务器的服务器功耗封顶值进行更新。
7.根据权利要求1所述的方法,其特征在于,在所述对整框功耗进行监控之前,还包括:
根据机柜配电和业务负载情况设置所述整框功耗封顶值;
根据所述整框功耗封顶值和机框上除所述各服务器之外的其他部件的功耗值,采用下述公式计算所述各服务器的服务器功耗封顶值:
P m = P 0 - p N ;
其中,Pm为所述服务器功耗封顶值,P0为所述整框功耗封顶值,p为所述其他部件的功耗值,N为服务器的个数。
8.一种功耗封顶的控制设备,其特征在于,包括:
监控模块,用于对整框功耗进行监控,获取整框监控结果,所述整框监控结果为资源池溢出或者资源池不溢出,所述资源池为插在同一机框上的多个服务器所共享的供电资源;
第一封顶控制模块,用于当所述整框监控结果为资源池不溢出时,不对各服务器进行功耗封顶;当所述整框监控结果为资源池溢出时,向各服务器发送功耗封顶控制指令,以使所述各服务器收到所述功耗封顶控制指令后进行功耗封顶控制。
9.根据权利要求8所述的设备,其特征在于,所述监控模块包括:
监控单元,用于按照预设的整框监控周期对整框功耗进行监控;
第一获取单元,用于当监控得到的整框功耗小于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池未溢出;
第二获取单元,用于当监控得到的整框功耗大于或等于预设的区间上限系数与所述整框功耗封顶值之积时,获取整框监控结果为资源池溢出。
10.根据权利要求9所述的设备,其特征在于,还包括:
第二封顶控制模块,用于在所述向各服务器发送功耗封顶控制指令之后,当所述监控得到的整框功耗小于或等于预设的区间下限系数与所述整框功耗封顶值之积时,向所述各服务器发送功耗封顶停止指令,以使所述各服务器收到所述功耗封顶停止指令后停止进行功耗封顶控制,其中,所述区间上限指数大于所述区间下限指数。
11.根据权利要求8所述的设备,其特征在于,还包括:
第一计算模块,用于根据预设时间段内监控得到的多个整框功耗的值和服务器总功耗的值计算所述整框功耗的平均值和所述服务器总功耗的平均值;
更新模块,用于根据所述整框功耗的平均值、所述服务器总功耗的平均值和整框功耗封顶值,采用下述公式更新各服务器的服务器功耗封顶值:
P m = [ P 0 - ( P ‾ 1 - P ‾ N ) ] N ;
其中,Pm为所述服务器功耗封顶值,P0为所述整框功耗封顶值,
Figure FDA0000139197440000032
为所述整框功耗的平均值,
Figure FDA0000139197440000033
为所述服务器总功耗的平均值,N为服务器的个数;以所述预设时间段为单位,采用上述公式对所述各服务器的服务器功耗封顶值进行更新。
12.根据权利要求8所述的设备,其特征在于,还包括:
设置模块,用于在所述对整框功耗进行监控之前,根据机柜配电和业务负载情况设置所述整框功耗封顶值;
第二计算模块,用于根据所述整框功耗封顶值和机框上除所述各服务器之外的其他部件的功耗值,采用下述公式计算所述各服务器的服务器功耗封顶值:
P m = P 0 - p N ;
其中,Pm为所述服务器功耗封顶值,P0为所述整框功耗封顶值,p为所述其他部件的功耗值,N为服务器的个数。
13.一种功耗封顶的控制系统,其特征在于,包括管理板、供电单元和多个刀片服务器,所述管理板包括权利要求8-13中任一项所述的功耗封顶的控制设备,所述刀片服务器包括单板管理控制单元、基本输入输出系统BIOS和中央处理器CPU。
CN201210048013.7A 2012-02-28 2012-02-28 功耗封顶的控制方法、设备和系统 Active CN102624546B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210048013.7A CN102624546B (zh) 2012-02-28 2012-02-28 功耗封顶的控制方法、设备和系统
PCT/CN2012/079107 WO2013127151A1 (zh) 2012-02-28 2012-07-24 功耗封顶的控制方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210048013.7A CN102624546B (zh) 2012-02-28 2012-02-28 功耗封顶的控制方法、设备和系统

Publications (2)

Publication Number Publication Date
CN102624546A true CN102624546A (zh) 2012-08-01
CN102624546B CN102624546B (zh) 2015-04-29

Family

ID=46564237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210048013.7A Active CN102624546B (zh) 2012-02-28 2012-02-28 功耗封顶的控制方法、设备和系统

Country Status (2)

Country Link
CN (1) CN102624546B (zh)
WO (1) WO2013127151A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN106371546A (zh) * 2016-08-30 2017-02-01 浪潮电子信息产业股份有限公司 一种整机柜功耗限制方法及装置
CN108983946A (zh) * 2018-06-13 2018-12-11 烽火通信科技股份有限公司 一种服务器功耗控制方法、系统及设备
CN109032324A (zh) * 2018-07-03 2018-12-18 北京百度网讯科技有限公司 数据中心功率管控方法、装置、设备及计算机可读介质
CN109032325A (zh) * 2018-07-17 2018-12-18 郑州云海信息技术有限公司 一种控制器功耗的获取方法、系统、装置及可读存储介质
CN109062618A (zh) * 2018-06-29 2018-12-21 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN111913802A (zh) * 2020-07-17 2020-11-10 烽火通信科技股份有限公司 一种多节点服务器功耗控制方法及系统
WO2021046774A1 (zh) * 2019-09-11 2021-03-18 阿里巴巴集团控股有限公司 资源调度与信息预测方法、设备、系统及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112558747B (zh) * 2020-11-20 2023-05-02 山东云海国创云计算装备产业创新中心有限公司 一种服务器的功率封顶方法、系统及相关组件
CN112817746B (zh) * 2021-01-15 2023-01-10 浪潮电子信息产业股份有限公司 一种cpu功率调整方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277200A (zh) * 2007-03-30 2008-10-01 联想(北京)有限公司 一种管理多服务器电源的方法和装置
CN101689070A (zh) * 2007-06-25 2010-03-31 惠普开发有限公司 为了高效率操作的动态转换器控制
CN102096460A (zh) * 2009-12-14 2011-06-15 英特尔公司 在数据中心动态分配功率的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101277200A (zh) * 2007-03-30 2008-10-01 联想(北京)有限公司 一种管理多服务器电源的方法和装置
CN101689070A (zh) * 2007-06-25 2010-03-31 惠普开发有限公司 为了高效率操作的动态转换器控制
CN102096460A (zh) * 2009-12-14 2011-06-15 英特尔公司 在数据中心动态分配功率的方法和设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103926994A (zh) * 2014-04-04 2014-07-16 浪潮电子信息产业股份有限公司 一种基于me的服务器动态能耗管理及修正方法
CN106371546A (zh) * 2016-08-30 2017-02-01 浪潮电子信息产业股份有限公司 一种整机柜功耗限制方法及装置
WO2018040360A1 (zh) * 2016-08-30 2018-03-08 浪潮电子信息产业股份有限公司 一种整机柜功耗限制方法及装置
US10890960B2 (en) 2016-08-30 2021-01-12 Inspur Electronic Information Industry Co., Ltd Method and apparatus for limiting rack power consumption
CN108983946A (zh) * 2018-06-13 2018-12-11 烽火通信科技股份有限公司 一种服务器功耗控制方法、系统及设备
CN109062618A (zh) * 2018-06-29 2018-12-21 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN109062618B (zh) * 2018-06-29 2022-01-11 深圳市同泰怡信息技术有限公司 一种服务器单节点功耗封顶固件的开发方法、系统及介质
CN109032324A (zh) * 2018-07-03 2018-12-18 北京百度网讯科技有限公司 数据中心功率管控方法、装置、设备及计算机可读介质
CN109032325A (zh) * 2018-07-17 2018-12-18 郑州云海信息技术有限公司 一种控制器功耗的获取方法、系统、装置及可读存储介质
WO2021046774A1 (zh) * 2019-09-11 2021-03-18 阿里巴巴集团控股有限公司 资源调度与信息预测方法、设备、系统及存储介质
CN111913802A (zh) * 2020-07-17 2020-11-10 烽火通信科技股份有限公司 一种多节点服务器功耗控制方法及系统
CN111913802B (zh) * 2020-07-17 2022-09-30 烽火通信科技股份有限公司 一种多节点服务器功耗控制方法及系统

Also Published As

Publication number Publication date
CN102624546B (zh) 2015-04-29
WO2013127151A1 (zh) 2013-09-06

Similar Documents

Publication Publication Date Title
CN102624546A (zh) 功耗封顶的控制方法、设备和系统
CN102111337B (zh) 任务调度方法和系统
US8005654B2 (en) Method, apparatus and computer program product for intelligent workload control of distributed storage
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及系统
WO2013026039A3 (en) Proactive power management using a power management unit
US8788864B2 (en) Coordinated approach between middleware application and sub-systems
CN109313473A (zh) 处理设备的基于电压的热控制
CN104077189A (zh) 一种用于资源分配的方法和装置
CN108983946A (zh) 一种服务器功耗控制方法、系统及设备
CN103701635A (zh) 一种在线配置Hadoop参数的方法和装置
Tilevich et al. Cloud-based execution to improve mobile application energy efficiency
RU2669004C2 (ru) Способ и устройство управления напряжением постоянного тока
CN110633152A (zh) 用于实现业务集群水平伸缩的方法和装置
US10054997B2 (en) Multivariable control for power-latency management to support optimization of data centers or other systems
US10114438B2 (en) Dynamic power budgeting in a chassis
CN107341091A (zh) 分布式存储系统功耗管理方法及装置
CN103927244A (zh) 一种基于动态代理实现的插件调度过程监控的方法
CN103957229A (zh) IaaS云系统中物理机的主动更新方法、装置及服务器
Arabas Modeling and simulation of hierarchical task allocation system for energy-aware HPC clouds
CN101502149B (zh) 一种可自动完成自定义操作的网络管理系统及其实现方法
Cai et al. SLO-aware colocation: Harvesting transient resources from latency-critical services
CN105187482A (zh) 一种PaaS平台故障自愈实现的方法及消息服务器
Zola et al. Optimising for energy or robustness? Trade-offs for VM consolidation in virtualized datacenters under uncertainty
CN111262654B (zh) 非周期csi请求的响应方法、系统、电子设备和介质
US9417928B2 (en) Energy efficient supercomputer job allocation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211221

Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province

Patentee after: Super fusion Digital Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right