CN114610562B - 服务器功耗管控方法、系统、终端及存储介质 - Google Patents

服务器功耗管控方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN114610562B
CN114610562B CN202210043463.0A CN202210043463A CN114610562B CN 114610562 B CN114610562 B CN 114610562B CN 202210043463 A CN202210043463 A CN 202210043463A CN 114610562 B CN114610562 B CN 114610562B
Authority
CN
China
Prior art keywords
power consumption
server
risk
monitoring
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210043463.0A
Other languages
English (en)
Other versions
CN114610562A (zh
Inventor
刘坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210043463.0A priority Critical patent/CN114610562B/zh
Publication of CN114610562A publication Critical patent/CN114610562A/zh
Application granted granted Critical
Publication of CN114610562B publication Critical patent/CN114610562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Power Sources (AREA)

Abstract

本发明涉及服务器技术领域,具体提供一种服务器功耗管控方法、系统、终端及存储介质,包括:确认服务器系统总功耗触发总功耗预警机制;启用服务器备用电源;将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。本发明有效避免服务器CPU、GPU等关键部件降频可能导致的服务器数据丢失、用户端界面卡顿等情况,有效调高服务器安全性及稳定性。

Description

服务器功耗管控方法、系统、终端及存储介质
技术领域
本发明涉及服务器技术领域,具体涉及一种服务器功耗管控方法、系统、终端及存储介质。
背景技术
随着互联网的迅速普及、发展壮大,数据中心服务器机房相继建立,为提高服务器性能、优化机房运营成本,服务器关键工作部件的性能及功耗急剧提升,目前服务器电源的功率密度已经达到极高的水平,但服务器关键工作部件中的CPU、GPU因其性能提升及应用场景的复杂化,导致其对PSU功率及机房服务器供电快速响应需求更加苛刻。
目前通用服务器在客户机房内一般为机柜上架方式,机房服务器的关键部件CPU、GPU等应用场景都比较多,这就要求机柜供电需支持服务器部件在所有应用场景及其他特殊复杂工况下存在的输入功耗超出部件额定功率场景,这种高负载工况要求服务器电源输出过流耐受能力需满足实际工况要求,但目前常用的CRPS PSU仅能支持150%负载以上持续5毫秒的大电流,实际瞬态负载如持续时间超出规格限值会造成CPU降频、GPU掉卡宕机、甚至PSU过流掉电引起系统宕机等情况。
目前常用的解决方法是针对短时瞬态负载增加通过选配高功率等级电源提升瞬态过流耐受值来规避PSU过流风险;针对较长时间高负载工况客户机房机柜每个服务器节点会设置过功率限值预警机制,如服务器整机实际功耗超出预警限值,则触发CPU、GPU等关键部件即时降频来达到瞬时降低整机功耗的目的,但CPU、GPU降频降耗会造成其处理性能降低,会引起其处理进程缓慢、中断,甚至造成关键数据丢失等,极大降低用户体验,运行数据存在安全隐患问题。
发明内容
针对现有技术存在的预警机制导致服务器处理性能降低,引起处理进程缓慢、中断,甚至造成关键数据丢失的技术问题,本发明提供一种服务器功耗管控方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种服务器功耗管控方法,包括:
确认服务器系统总功耗触发总功耗预警机制;
启用服务器备用电源;
将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。
进一步的,确认服务器系统总功耗触发总功耗预警机制,包括:
监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;
判断所述总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在所述线段则获取所述线段的数量和各线段对应的持续时间,所述监控段为设定的一个处理周期对应的拟合曲线段;
如果所述数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
进一步的,将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式,包括:
将风扇策略切换至功耗最优策略,所述功耗最优策略确保风扇功耗为满足最低散热需求的最小功耗;
将电源切换值最小处理器状态,在最小处理器状态下提升电源转换效率;
通过基本输入输出系统设置性能参数以提升关键部件性能,所述设置性能参数包括设置内核参数为0,开启全速运行模式,关闭CPU省电模式,并将MUMA参数设置为不可用。
进一步的,监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内,包括:
识别出功耗波动值与总功耗波动值相关性最大的风险关键部件;
判断所述风险关键部件在监控期限内是否存在超过关键部件功耗限值的功耗值;
如果风险关键部件不存在超过关键部件功耗限制的功耗值,则解除所述风险关键部件的过功耗风险状态;
如果关键部件功耗拟合曲线在部件监控段内不存在超过关键部件功耗限值的点,则判定所述关键部件不存在过功耗风险。
第二方面,本发明提供一种服务器功耗管控系统,包括:
预警触发单元,用于确认服务器系统总功耗触发总功耗预警机制;
电源管理单元,用于启用服务器备用电源;
系统管控单元,用于将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
部件管控单元,用于监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。
进一步的,所述预警触发单元包括:
母线监控模块,用于监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;
功耗解析模块,用于判断所述总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在所述线段则获取所述线段的数量和各线段对应的持续时间,所述监控段为设定的一个处理周期对应的拟合曲线段;
预警触发模块,用于如果所述数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
进一步的,所述系统管控单元包括:
风扇管控模块,用于将风扇策略切换至功耗最优策略,所述功耗最优策略确保风扇功耗为满足最低散热需求的最小功耗;
电源管控模块,用于将电源切换值最小处理器状态,在最小处理器状态下提升电源转换效率;
性能管控模块,用于通过基本输入输出系统设置性能参数以提升关键部件性能,所述设置性能参数包括设置内核参数为0,开启全速运行模式,关闭CPU省电模式,并将MUMA参数设置为不可用。
进一步的,所述部件管控单元包括:
部件监控模块,用于识别出功耗波动值与总功耗波动值相关性最大的风险关键部件;
限值判断模块,用于判断所述风险关键部件在监控期限内是否存在超过关键部件功耗限值的功耗值;
风险判定模块,用于如果风险关键部件不存在超过关键部件功耗限制的功耗值,则解除所述风险关键部件的过功耗风险状态;
风险拟合模块,用于如果关键部件功耗拟合曲线在部件监控段内不存在超过关键部件功耗限值的点,则判定所述关键部件不存在过功耗风险。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,本发明提供的服务器功耗管控方法、系统、终端及存储介质,能够避免服务器供电最大功率等级电源依旧无法屏蔽电源过流风险问题,使服务器可以选配正常规格电源,避免电源规格过大导致的转换效率较低,降低电力损耗,进而节省机房服务器运行的用电成本;同时有效避免服务器CPU、GPU等关键部件降频可能导致的服务器数据丢失、用户端界面卡顿等情况,有效调高服务器安全性及稳定性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种服务器功耗管控系统,该系统可运行在服务器上,也可运行在与服务器连接的辅助控制器上。
如图1所示,该方法包括:
步骤110,确认服务器系统总功耗触发总功耗预警机制;
步骤120,启用服务器备用电源;
步骤130,将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
步骤140,监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。
为了便于对本发明的理解,下面以本发明服务器功耗管控方法的原理,结合实施例中对服务器功耗进行管控的过程,对本发明提供的服务器功耗管控方法做进一步的描述。
具体的,所述服务器功耗管控方法包括:
S1、确认服务器系统总功耗触发总功耗预警机制。
监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;判断总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在线段则获取线段的数量和各线段对应的持续时间,监控段为设定的一个处理周期对应的拟合曲线段;如果数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
例如,在服务器A工作过程中,实时不间断监控其母线电流和电压指标并将监控数据传输CPLD,实时不间断监控其CPU、GPU等关键功耗部件输入端电流、电压指标并将监控数据传输给CPLD。CPLD会定期轮询并记录服务器母线电流状态监控数据、服务器关键部件电流状态监控数据,收集整机系统、CPU和GPU等关键部件的电流、电压数据。接收CPLD反馈的整机系统、CPU、GPU等关键部件的电流、电压数据并自动拟合生成功耗曲线,为后续故障诊断提供数据支持。
由整机系统功耗曲线计算出未判定的时间区间(当前待处理的一个处理周期)内服务器A系统功耗超出过功率限值预警机制中的功率限值1000W的次数,并计算出每次超出1000W的持续时间。假定未判定的时间区间内服务器A系统功耗超出过功率限值预警机制中的功率限值的次数为0,则服务器A正常运行;假定未判定的时间区间内服务器A系统功耗超出过功率限值预警机制中的功率限值的次数为1、超出1000W的持续时间小于100ms,则服务器A正常运行;假定未判定的时间区间内服务器A系统功耗超出过功率限值预警机制中的功率限值的次数为1、超出1000W的持续时间大于100ms,则服务器A触发过功率限值预警机制告警;假定未判定的时间区间内服务器A系统功耗超出过功率限值预警机制中的功率限值的次数为2次及以上,则服务器A触发过功率限值预警机制告警。
S2、启用服务器备用电源。
例如,辅助控制器通过IIC通讯总线对服务器A下达备用电源启用执行指令,服务器A接收下发的备用电源导入调节动作指令后参照指令执行开启服务器A的备用电源供电模块,由备用电源分担服务器母线部分电流,从而使整机系统功耗从根本上降低到服务器过功率限值预警机制功耗限值以下,通过备用电源临时供电导入暂时屏蔽过功率限值预警风险。
S3、将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式。
将风扇策略切换至功耗最优策略,所述功耗最优策略确保风扇功耗为满足最低散热需求的最小功耗;将电源切换值最小处理器状态,在最小处理器状态下提升电源转换效率;通过基本输入输出系统设置性能参数以提升关键部件性能,所述设置性能参数包括设置内核参数为0,开启全速运行模式,关闭CPU省电模式,并将MUMA参数设置为不可用。
例如,将系统风扇调整曲线从自动模式快速切换到功耗最优模式,在满足系统基本散热需求前提下,通过降低系统风扇转速来快速降低系统实时功耗。在服务器电源模块内部提前导入应急转换效率提升模块,在预警机制触发后,立即给服务器电源下发电源转换效率模块快速切换指令,将电源切换到最小处理器状态,快速提升电源模块转换效率,在服务器需求功耗不变的前提下,降低电网供电实际需求功耗,降低服务器过功率限值预警机制触发风险。系统BIOS参数实时调节是指通过服务器系统BIOS参数调整指令将系统BIOSintel_idle.max_cstate设置为0、turbo设置为enable、CState设置为disable、MUMA设置为disable,通过上述来设置CPU到高性能模式、降低内存延时同时保持内存高带宽,以此提升CPU和内存性能,实现CPU不降频前提下一定程度上降低系统功耗。上述服务器系统快速响应调节方案三个部分可通过指令同时执行,以达到系统快速降低功耗的效果。
S4、监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。
识别出功耗波动值与总功耗波动值相关性最大的风险关键部件;判断所述风险关键部件在监控期限内是否存在超过关键部件功耗限值的功耗值;如果风险关键部件不存在超过关键部件功耗限制的功耗值,则解除所述风险关键部件的过功耗风险状态;如果关键部件功耗拟合曲线在部件监控段内不存在超过关键部件功耗限值的点,则判定所述关键部件不存在过功耗风险。
具体的,读取步骤S1得到的关键部件功耗拟合曲线。通过功耗拟合曲线识别出具有过功耗风险的关键部件,关键部件包括CPU和GPU。通过关键部件功耗波动数值计算识别出引起整机系统功耗波动较大的风险部件,假定风险部件为GPU。
给服务器的风险部件GPU以外的关键部件下发功耗最优调节指令以此降低关键部件功耗,给风险部件GPU下发性能最优调节指令以此提高GPU处理能力进而降低其性能波动引起的系统功耗变化。
假定在10分钟监控区间内服务器A系统功耗没有超出过功率限值预警机制中的功率限值情况出现,则不再执行对GPU频率的限制;假定在10分钟监控区间内服务器A系统功耗还有超出过功率限值预警机制中的功率限值情况出现,则导入服务器风险部件频率优化调节环节,此环节下发指令调节风险部件的频率到功耗最优模式,避免风险部件降频造成的数据丢失风险,以此避免系统功耗超出服务器过功率限值预警机制功耗限值而导致服务器PSUAlert信号异常告警,避免长期或频繁触发CPU、GPU等关键部件降频问题。
如图2所示,该系统200包括:
预警触发单元210,用于确认服务器系统总功耗触发总功耗预警机制;
电源管理单元220,用于启用服务器备用电源;
系统管控单元230,用于将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
部件管控单元240,用于监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内。
可选地,作为本发明一个实施例,所述预警触发单元包括:
母线监控模块,用于监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;
功耗解析模块,用于判断所述总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在所述线段则获取所述线段的数量和各线段对应的持续时间,所述监控段为设定的一个处理周期对应的拟合曲线段;
预警触发模块,用于如果所述数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
可选地,作为本发明一个实施例,所述系统管控单元包括:
风扇管控模块,用于将风扇策略切换至功耗最优策略,所述功耗最优策略确保风扇功耗为满足最低散热需求的最小功耗;
电源管控模块,用于将电源切换值最小处理器状态,在最小处理器状态下提升电源转换效率;
性能管控模块,用于通过基本输入输出系统设置性能参数以提升关键部件性能,所述设置性能参数包括设置内核参数为0,开启全速运行模式,关闭CPU省电模式,并将MUMA参数设置为不可用。
可选地,作为本发明一个实施例,所述部件管控单元包括:
部件监控模块,用于识别出功耗波动值与总功耗波动值相关性最大的风险关键部件;
限值判断模块,用于判断所述风险关键部件在监控期限内是否存在超过关键部件功耗限值的功耗值;
风险判定模块,用于如果风险关键部件不存在超过关键部件功耗限制的功耗值,则解除所述风险关键部件的过功耗风险状态;
风险拟合模块,用于如果关键部件功耗拟合曲线在部件监控段内不存在超过关键部件功耗限值的点,则判定所述关键部件不存在过功耗风险。
图3为本发明实施例提供的一种终端300的结构示意图,该终端300可以用于执行本发明实施例提供的服务器功耗管控方法。
其中,该终端300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明能够避免服务器供电最大功率等级电源依旧无法屏蔽电源过流风险问题,使服务器可以选配正常规格电源,避免电源规格过大导致的转换效率较低,降低电力损耗,进而节省机房服务器运行的用电成本;同时有效避免服务器CPU、GPU等关键部件降频可能导致的服务器数据丢失、用户端界面卡顿等情况,有效调高服务器安全性及稳定性,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种服务器功耗管控方法,其特征在于,包括:
确认服务器系统总功耗触发总功耗预警机制;
启用服务器备用电源;
将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内;
将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式,包括:
将系统风扇调整曲线从自动模式快速切换到功耗最优模式,在满足系统基本散热需求前提下,通过降低系统风扇转速来快速降低系统实时功耗;在服务器电源模块内部提前导入应急转换效率提升模块,在预警机制触发后,立即给服务器电源下发电源转换效率模块快速切换指令,将电源切换到最小处理器状态,快速提升电源模块转换效率,在服务器需求功耗不变的前提下,降低电网供电实际需求功耗,降低服务器过功率限值预警机制触发风险;系统BIOS参数实时调节包括通过服务器系统BIOS参数调整指令将系统BIOS intel_idle.max_cstate设置为0、turbo设置为enable、CState设置为disable、MUMA设置为disable,进而设置CPU到高性能模式、降低内存延时同时保持内存高带宽,以此提升CPU和内存性能,实现CPU不降频前提下一定程度上降低系统功耗;
在服务器工作过程中,实时监控其母线电流和电压指标并将监控数据传输CPLD,实时监控其关键部件输入端电流、电压指标并将监控数据传输给CPLD; CPLD会定期轮询并记录服务器母线电流状态监控数据、服务器关键部件电流状态监控数据,收集整机系统、关键部件的电流、电压数据;接收CPLD反馈的整机系统、关键部件的电流、电压数据并自动拟合生成功耗曲线,为后续故障诊断提供数据支持;
读取关键部件功耗拟合曲线;通过功耗拟合曲线识别出具有过功耗风险的关键部件,关键部件包括CPU和GPU;通过关键部件功耗波动数值计算识别出引起整机系统功耗波动较大的风险部件;
给服务器的风险部件以外的关键部件下发功耗最优调节指令以此降低关键部件功耗,给风险部件下发性能最优调节指令以此提高风险部件的处理能力进而降低其性能波动引起的系统功耗变化;
若在10分钟监控区间内服务器系统功耗没有超出过功率限值预警机制中的功率限值情况出现,则不再执行对风险部件频率的限制;假定在10分钟监控区间内服务器系统功耗还有超出过功率限值预警机制中的功率限值情况出现,则导入服务器风险部件频率优化调节环节,此环节下发指令调节风险部件的频率到功耗最优模式,避免风险部件降频造成的数据丢失风险,以此避免系统功耗超出服务器过功率限值预警机制功耗限值而导致服务器PSU Alert信号异常告警,避免长期或频繁触发关键部件降频问题;
确认服务器系统总功耗触发总功耗预警机制,包括:
监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;
判断所述总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在所述线段则获取所述线段的数量和各线段对应的持续时间,所述监控段为设定的一个处理周期对应的拟合曲线段;
如果所述数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
2.一种服务器功耗管控系统,其特征在于,包括:
预警触发单元,用于确认服务器系统总功耗触发总功耗预警机制;
电源管理单元,用于启用服务器备用电源;
系统管控单元,用于将风扇策略切换至功耗最优策略,将电源切换至最小处理器状态,通过基本输入输出系统将服务器的关键部件的性能参数设置为高性能模式;
部件管控单元,用于监控所述关键部件的功耗,并在确认所述关键部件的功耗存在过功耗风险时将所述关键部件的频率限制在设定的安全范围内;
所述系统管控单元具体用于:
将系统风扇调整曲线从自动模式快速切换到功耗最优模式,在满足系统基本散热需求前提下,通过降低系统风扇转速来快速降低系统实时功耗;在服务器电源模块内部提前导入应急转换效率提升模块,在预警机制触发后,立即给服务器电源下发电源转换效率模块快速切换指令,将电源切换到最小处理器状态,快速提升电源模块转换效率,在服务器需求功耗不变的前提下,降低电网供电实际需求功耗,降低服务器过功率限值预警机制触发风险;系统BIOS参数实时调节包括通过服务器系统BIOS参数调整指令将系统BIOS intel_idle.max_cstate设置为0、turbo设置为enable、CState设置为disable、MUMA设置为disable,进而设置CPU到高性能模式、降低内存延时同时保持内存高带宽,以此提升CPU和内存性能,实现CPU不降频前提下一定程度上降低系统功耗;
在服务器工作过程中,实时监控其母线电流和电压指标并将监控数据传输CPLD,实时监控其关键部件输入端电流、电压指标并将监控数据传输给CPLD; CPLD会定期轮询并记录服务器母线电流状态监控数据、服务器关键部件电流状态监控数据,收集整机系统、关键部件的电流、电压数据;接收CPLD反馈的整机系统、关键部件的电流、电压数据并自动拟合生成功耗曲线,为后续故障诊断提供数据支持;
读取关键部件功耗拟合曲线;通过功耗拟合曲线识别出具有过功耗风险的关键部件,关键部件包括CPU和GPU;通过关键部件功耗波动数值计算识别出引起整机系统功耗波动较大的风险部件;
给服务器的风险部件以外的关键部件下发功耗最优调节指令以此降低关键部件功耗,给风险部件下发性能最优调节指令以此提高风险部件的处理能力进而降低其性能波动引起的系统功耗变化;
若在10分钟监控区间内服务器系统功耗没有超出过功率限值预警机制中的功率限值情况出现,则不再执行对风险部件频率的限制;假定在10分钟监控区间内服务器系统功耗还有超出过功率限值预警机制中的功率限值情况出现,则导入服务器风险部件频率优化调节环节,此环节下发指令调节风险部件的频率到功耗最优模式,避免风险部件降频造成的数据丢失风险,以此避免系统功耗超出服务器过功率限值预警机制功耗限值而导致服务器PSU Alert信号异常告警,避免长期或频繁触发关键部件降频问题;
所述预警触发单元包括:
母线监控模块,用于监控服务器母线电流和母线电压,并基于母线电流和母线电压生成总功耗拟合曲线;
功耗解析模块,用于判断所述总功耗拟合曲线的监控段内是否存在超过总功耗限值的线段,如果存在所述线段则获取所述线段的数量和各线段对应的持续时间,所述监控段为设定的一个处理周期对应的拟合曲线段;
预警触发模块,用于如果所述数量超过设定的数量阈值或存在持续时间超过时间阈值的线段,则判定系统总功耗触发总功耗预警机制。
3.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1所述的方法。
4.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1所述的方法。
CN202210043463.0A 2022-01-14 2022-01-14 服务器功耗管控方法、系统、终端及存储介质 Active CN114610562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043463.0A CN114610562B (zh) 2022-01-14 2022-01-14 服务器功耗管控方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043463.0A CN114610562B (zh) 2022-01-14 2022-01-14 服务器功耗管控方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN114610562A CN114610562A (zh) 2022-06-10
CN114610562B true CN114610562B (zh) 2024-03-22

Family

ID=81857253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043463.0A Active CN114610562B (zh) 2022-01-14 2022-01-14 服务器功耗管控方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114610562B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361586B (zh) * 2022-10-19 2022-12-20 深圳市欣喜连连科技有限公司 智能相框hdmi接口功耗自动管理方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096460A (zh) * 2009-12-14 2011-06-15 英特尔公司 在数据中心动态分配功率的方法和设备
CN111414069A (zh) * 2020-02-14 2020-07-14 苏州浪潮智能科技有限公司 一种gpu服务器的功耗控制方法、系统及相关组件
CN111475011A (zh) * 2020-03-08 2020-07-31 苏州浪潮智能科技有限公司 一种服务器n+1冗余电源功率控制系统及方法
CN112000211A (zh) * 2020-08-13 2020-11-27 苏州浪潮智能科技有限公司 一种冗余电源告警信号的处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228441B2 (en) * 2000-09-27 2007-06-05 Huron Ip Llc Multi-server and multi-CPU power management system and method
US9372521B2 (en) * 2013-03-14 2016-06-21 Dell Products Lp Systems and methods for providing auxiliary reserve current for powering information handling systems
US20210064109A1 (en) * 2019-08-29 2021-03-04 Microsoft Technology Licensing, Llc Using a supplemental power source to provide temporary performance boosts in computing devices
US20210191490A1 (en) * 2021-03-03 2021-06-24 Intel Corporation Balancing power between discrete components in a compute node

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096460A (zh) * 2009-12-14 2011-06-15 英特尔公司 在数据中心动态分配功率的方法和设备
CN111414069A (zh) * 2020-02-14 2020-07-14 苏州浪潮智能科技有限公司 一种gpu服务器的功耗控制方法、系统及相关组件
CN111475011A (zh) * 2020-03-08 2020-07-31 苏州浪潮智能科技有限公司 一种服务器n+1冗余电源功率控制系统及方法
CN112000211A (zh) * 2020-08-13 2020-11-27 苏州浪潮智能科技有限公司 一种冗余电源告警信号的处理方法及装置

Also Published As

Publication number Publication date
CN114610562A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN102395937B (zh) 功率封顶系统及方法
US11656674B2 (en) Power consumption reduction circuit for GPUs in server, and server
CN111475288A (zh) 一种服务器及其供电保护系统
CN114610562B (zh) 服务器功耗管控方法、系统、终端及存储介质
CN111414069A (zh) 一种gpu服务器的功耗控制方法、系统及相关组件
US20140107855A1 (en) Energy Saving Monitoring Method and Device
CN112947734B (zh) 一种服务器电源功耗控制方法、系统、终端及存储介质
CN116755542B (zh) 一种整机功耗降低方法、系统、基板管理控制器及服务器
CN113360344B (zh) 一种服务器监控方法、装置、设备及计算机可读存储介质
CN114095392B (zh) 一种基于物联网的通信电源监控方法和系统
CN113448421B (zh) 一种设备掉电管理方法和装置
CN111309132B (zh) 一种服务器多档位电源冗余的方法
CN113451990A (zh) 一种增强过流保护可靠性的系统、方法及服务器
CN116991221A (zh) 功耗调整方法及装置
CN116627688A (zh) 图像处理器的控制系统及方法
CN108184323B (zh) 整机柜服务器的散热调控方法、装置、设备及存储介质
CN113900855B (zh) 一种交换机异常状态的主动热启动方法、系统及装置
CN111475293B (zh) 一种服务器及其供电保护系统
CN112394803B (zh) 一种国产服务器功耗实时动态调节方法
CN114327883A (zh) 一种频率调控方法、装置、电子设备及介质
CN113885689A (zh) 整机柜服务器供电控制方法、系统、终端及存储介质
CN114115502B (zh) 一种提高电源可用性的方法、系统、设备和存储介质
CN113742167B (zh) 一种设备功率限制的控制方法、控制装置及控制设备
CN112306786B (zh) 安全温控方法与服务器
CN116610477A (zh) 图形处理器的功耗调整方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant