CN112114647A - 一种服务器的电源控制方法、系统及装置 - Google Patents

一种服务器的电源控制方法、系统及装置 Download PDF

Info

Publication number
CN112114647A
CN112114647A CN202011181718.7A CN202011181718A CN112114647A CN 112114647 A CN112114647 A CN 112114647A CN 202011181718 A CN202011181718 A CN 202011181718A CN 112114647 A CN112114647 A CN 112114647A
Authority
CN
China
Prior art keywords
gpu
power supply
utilization rate
target
gpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011181718.7A
Other languages
English (en)
Other versions
CN112114647B (zh
Inventor
吴俊勋
黄冠潣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011181718.7A priority Critical patent/CN112114647B/zh
Publication of CN112114647A publication Critical patent/CN112114647A/zh
Priority to PCT/CN2021/109190 priority patent/WO2022088800A1/zh
Application granted granted Critical
Publication of CN112114647B publication Critical patent/CN112114647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种服务器的电源控制方法、系统及装置,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;获取系统总电源的实际使用率,并根据系统总电源的使用率等级划分结果确定与实际使用率对应的目标使用率等级;按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。可见,本申请在系统总电源的使用率越高的情况下,系统GPU的功耗降低越多,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。

Description

一种服务器的电源控制方法、系统及装置
技术领域
本发明涉及服务器领域,特别是涉及一种服务器的电源控制方法、系统及装置。
背景技术
AI(Artificial Intelligence,人工智能)服务器需要具备大量平行运算的能力,而GPU(Graphics Processing Unit,图形处理器)较适用于平行运算,被广泛应用于AI服务器。GPU是AI服务器的效能高低的关键,AI服务器拥有的GPU数量越多,AI服务器的效能越高,但GPU数量越多,所有GPU所需的电流就越多,电流控制也就越来越不容易。而GPU在短时间内要执行高效能计算时,可允许短时间电流上升,此短时间电流称为EDPP(Electricaldesign point peak current,峰值电流),EDPP通常是平时电流的2到3倍,电流更不好控制,若电流控制不佳,会造成系统总电源直接关机或重开机。
现有技术中,GPU EDPP的控制方法为:在用于为GPU供电的PSU(Power supplyunit,电源供应器)内或系统总电源板上增设大电容来阻止GPU在短时间内的峰值电流,并如图1所示,在PSU(系统总电源)和各GPU之间增设管理单元,若系统总电源的使用率过高,则由管理单元同时触发各GPU的power brake讯号,各GPU将高效能计算改为低效能计算,以降低GPU功耗,阻止系统总电源关机或重开机,但这也会让整个AI服务器的计算性能有很大程度地下降。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种服务器的电源控制方法、系统及装置,采用系统总电源的使用率分等级的方式,在系统总电源的使用率越高的情况下对系统GPU的计算能力越抑制,即系统GPU的功耗降低越多,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。
为解决上述技术问题,本发明提供了一种服务器的电源控制方法,包括:
预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;
获取所述系统总电源的实际使用率,并根据所述系统总电源的使用率等级划分结果确定与所述实际使用率对应的目标使用率等级;
按照所述目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
优选地,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略的过程,包括:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为所述低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为所述中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的第二GPU电源控制策略;
为所述高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的第三GPU电源控制策略。
优选地,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
优选地,按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;其中,所述目标GPU为任一GPU;
依次触发处于高工作负载状态的GPU的power brake讯号,直至所述系统总电源的实际使用率的等级降至低等级。
优选地,按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
优先关闭处于低工作负载状态的GPU的电源,再关闭处于高工作负载状态的GPU的电源,直至所述系统总电源的实际使用率的等级降至中等级。
优选地,所述服务器的电源控制方法还包括:
将利用所述集成芯片获取的目标GPU的各电源参数分别与其对应的预设参数安全阈值作比较,当所述目标GPU的任一电源参数大于其对应的预设参数安全阈值时,借助所述集成芯片直接关闭所述目标GPU的电源。
为解决上述技术问题,本发明还提供了一种服务器的电源控制系统,包括:
预设模块,用于预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;
确定模块,用于获取所述系统总电源的实际使用率,并根据所述系统总电源的使用率等级划分结果确定与所述实际使用率对应的目标使用率等级;
控制模块,用于按照所述目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
优选地,所述预设模块具体用于:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为所述低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为所述中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的第二GPU电源控制策略;
为所述高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的第三GPU电源控制策略。
优选地,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
为解决上述技术问题,本发明还提供了一种服务器的电源控制装置,包括:
存储器,用于存储计算机程序;
设于系统总电源和系统中各GPU之间的处理器,用于在执行所述计算机程序时实现上述任一种服务器的电源控制方法的步骤。
本发明提供了一种服务器的电源控制方法,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;获取系统总电源的实际使用率,并根据系统总电源的使用率等级划分结果确定与实际使用率对应的目标使用率等级;按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。可见,本申请采用系统总电源的使用率分等级的方式,在系统总电源的使用率越高的情况下对系统GPU的计算能力越抑制,即系统GPU的功耗降低越多,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。
本发明还提供了一种服务器的电源控制系统及装置,与上述电源控制方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的一种服务器的电源控制原理图;
图2为本发明实施例提供的一种服务器的电源控制方法的流程图;
图3为本发明实施例提供的一种服务器内GPU的电源系统的结构示意图。
具体实施方式
本发明的核心是提供一种服务器的电源控制方法、系统及装置,采用系统总电源的使用率分等级的方式,在系统总电源的使用率越高的情况下对系统GPU的计算能力越抑制,即系统GPU的功耗降低越多,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图2,图2为本发明实施例提供的一种服务器的电源控制方法的流程图。
该服务器的电源控制方法包括:
步骤S1:预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略。
具体地,本申请提前将系统总电源的使用率进行等级划分,需要说明的是,越高等级的系统总电源的使用率越高,即越低等级的系统总电源的使用率越低,比如,系统总电源的使用率在80%以下时,系统总电源没有关机或重开机风险,没必要对80%以下的系统总电源的使用率进行等级划分,可将80%及其以上的系统总电源的使用率进行等级划分,如设置80%-90%为第一等级,90%-100%为第二等级,100%及其以上为第三等级,等级排序为:第一等级<第二等级<第三等级。
而且,本申请还提前在不同等级的系统总电源的使用率下一一设置GPU电源控制策略,即在每一等级的系统总电源的使用率下,均设置一个GPU电源控制策略,可以理解的是,系统总电源的使用率越高,系统总电源关机或重开机的风险越大,所以越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度应越强,即在系统总电源的使用率越高时,系统GPU计算能力越弱,系统GPU的功耗降低越多,以阻止系统总电源关机或重开机;在系统总电源的使用率越低时,系统GPU计算能力越强,系统GPU的功耗降低越少,以保证服务器的计算性能,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。
步骤S2:获取系统总电源的实际使用率,并根据系统总电源的使用率等级划分结果确定与实际使用率对应的目标使用率等级。
具体地,本申请获取系统总电源的实际使用率,然后根据系统总电源的使用率等级划分结果,确定与系统总电源的实际使用率对应的使用率等级(称为目标使用率等级),以为后续确定在系统总电源的实际使用率下所需的GPU电源控制策略。
步骤S3:按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
具体地,本申请在确定与系统总电源的实际使用率对应的目标使用率等级之后,根据使用率等级与GPU电源控制策略的对应关系,确定与目标使用率等级对应的GPU电源控制策略,然后按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
本发明提供了一种服务器的电源控制方法,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;获取系统总电源的实际使用率,并根据系统总电源的使用率等级划分结果确定与实际使用率对应的目标使用率等级;按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。可见,本申请采用系统总电源的使用率分等级的方式,在系统总电源的使用率越高的情况下对系统GPU的计算能力越抑制,即系统GPU的功耗降低越多,从而在阻止系统总电源关机或重开机的同时尽可能保证服务器的计算性能。
在上述实施例的基础上:
作为一种可选的实施例,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略的过程,包括:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发目标触发GPU的power brake讯号的第二GPU电源控制策略;
为高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭目标关闭GPU的电源的第三GPU电源控制策略。
需要说明的是,本申请的预设是提前设置好的,只需要设置一次,除非根据实际情况需要修改,否则不需要重新设置。
具体地,本申请提前将系统总电源的使用率进行低、中、高三等级划分,得到低等级使用率、中等级使用率及高等级使用率。考虑到越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度应越强,所以本申请为低等级使用率设置的第一GPU电源控制策略为:调节系统中各GPU的负载均衡分配,即将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态,处于高工作负载状态的GPU的电流通常是处于低工作负载状态的GPU的电流的2到3倍,从而降低了系统GPU的功耗,以阻止系统总电源关机或重开机,且并未影响到服务器的计算性能。为中等级使用率设置的第二GPU电源控制策略为:按照预设GPU触发选择策略从各GPU中选择出预将高效能计算改为低效能计算的GPU(称为目标触发GPU),然后触发目标触发GPU的power brake讯号,从而降低了系统GPU的功耗,以阻止系统总电源关机或重开机。为高等级使用率设置的第三GPU电源控制策略为:按照预设GPU关闭选择策略从各GPU中选择出预关闭电源的GPU(称为目标关闭GPU),然后关闭目标关闭GPU的电源,从而降低了系统GPU的功耗,以阻止系统总电源关机或重开机。
比如,设置80%-90%为低等级使用率(警告),90%-100%为中等级使用率(严重),100%及其以上为高等级使用率(致命),其各自对应的GPU电源控制策略如下表1所示:
表1
Figure BDA0002750368940000081
Figure BDA0002750368940000091
作为一种可选的实施例,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定目标GPU处于高工作负载状态;若否,则确定目标GPU处于低工作负载状态;其中,目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
具体地,本申请提前为各GPU一一配置用于获取GPU电源参数的集成芯片,以利用集成芯片获取各GPU的电流参数。考虑到处于高工作负载状态的GPU的电流>处于低工作负载状态的GPU的电流,所以本申请设置一个电流阈值,使其:处于高工作负载状态的GPU的电流>电流阈值>处于低工作负载状态的GPU的电流,则在获取目标GPU的电流参数后,判断目标GPU的电流参数是否大于预设电流阈值;若大于预设电流阈值,说明目标GPU处于高工作负载状态;若不大于预设电流阈值,说明目标GPU处于低工作负载状态,从而实现根据GPU的电流大小判断GPU的工作负载状态。
基于此,调节系统中各GPU的负载均衡分配的具体过程为:将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态,从而降低了系统GPU的功耗,以阻止系统总电源关机或重开机,且并未影响到服务器的计算性能。
作为一种可选的实施例,按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发目标触发GPU的power brake讯号的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定目标GPU处于高工作负载状态;其中,目标GPU为任一GPU;
依次触发处于高工作负载状态的GPU的power brake讯号,直至系统总电源的实际使用率的等级降至低等级。
具体地,GPU的工作负载状态的判定原理在上述实施例已经提及,本申请在此不再赘述。
基于此,从各GPU中选择目标触发GPU并触发目标触发GPU的power brake讯号的具体过程为:从各GPU中依次选择处于高工作负载状态的GPU作为目标触发GPU,并触发当前的目标触发GPU的power brake讯号,直至系统总电源的实际使用率的等级降至低等级。
需要说明的是,这种GPU依次触发方式能够在阻止系统总电源关机或重开机的同时,尽可能保证服务器的最大允许计算性能。
作为一种可选的实施例,按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭目标关闭GPU的电源的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定目标GPU处于高工作负载状态;若否,则确定目标GPU处于低工作负载状态;其中,目标GPU为任一GPU;
优先关闭处于低工作负载状态的GPU的电源,再关闭处于高工作负载状态的GPU的电源,直至系统总电源的实际使用率的等级降至中等级。
具体地,GPU的工作负载状态的判定原理在上述实施例已经提及,本申请在此不再赘述。
基于此,从各GPU中选择目标关闭GPU并关闭目标关闭GPU的电源的具体过程为:从各GPU中优先选择处于低工作负载状态的GPU依次作为目标关闭GPU,在处于低工作负载状态的GPU选择完毕后,再选择处于高工作负载状态的GPU依次作为目标关闭GPU,并关闭当前的目标关闭GPU的电源,直至系统总电源的实际使用率的等级降至中等级。
需要说明的是,这种处于低工作负载状态的GPU的电源优先关闭且电源依次关闭的方式能够在阻止系统总电源关机或重开机的同时,尽可能保证服务器的最大允许计算性能。
作为一种可选的实施例,服务器的电源控制方法还包括:
将利用集成芯片获取的目标GPU的各电源参数分别与其对应的预设参数安全阈值作比较,当目标GPU的任一电源参数大于其对应的预设参数安全阈值时,借助集成芯片直接关闭目标GPU的电源。
进一步地,本申请还可将利用集成芯片获取的目标GPU的各电源参数分别与其对应的预设参数安全阈值作比较,如目标GPU的电流参数与其对应的预设电流参数安全阈值作比较;目标GPU的电压参数与其对应的预设电压参数安全阈值作比较;若目标GPU的任一电源参数大于其对应的预设参数安全阈值,则借助集成芯片直接关闭目标GPU的电源,从而避免GPU芯片被烧毁。
综上,如图3所示,服务器内GPU的电源系统包括PSU和电源控制装置,电源控制装置包括处理器和用于获取GPU电源参数的集成芯片(Hotswap IC),处理器用于在执行存储器存储的计算机程序时实现上述任一种服务器的电源控制方法的步骤。
本申请还提供了一种服务器的电源控制系统,包括:
预设模块,用于预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;
确定模块,用于获取系统总电源的实际使用率,并根据系统总电源的使用率等级划分结果确定与实际使用率对应的目标使用率等级;
控制模块,用于按照目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
作为一种可选的实施例,预设模块具体用于:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发目标触发GPU的power brake讯号的第二GPU电源控制策略;
为高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭目标关闭GPU的电源的第三GPU电源控制策略。
作为一种可选的实施例,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定目标GPU处于高工作负载状态;若否,则确定目标GPU处于低工作负载状态;其中,目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
本申请提供的电源控制系统的介绍请参考上述电源控制方法的实施例,本申请在此不再赘述。
本申请还提供了一种服务器的电源控制装置,包括:
存储器,用于存储计算机程序;
设于系统总电源和系统中各GPU之间的处理器,用于在执行计算机程序时实现上述任一种服务器的电源控制方法的步骤。
本申请提供的电源控制装置的介绍请参考上述电源控制方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种服务器的电源控制方法,其特征在于,包括:
预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;
获取所述系统总电源的实际使用率,并根据所述系统总电源的使用率等级划分结果确定与所述实际使用率对应的目标使用率等级;
按照所述目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
2.如权利要求1所述的服务器的电源控制方法,其特征在于,预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略的过程,包括:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为所述低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为所述中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的第二GPU电源控制策略;
为所述高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的第三GPU电源控制策略。
3.如权利要求2所述的服务器的电源控制方法,其特征在于,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
4.如权利要求2所述的服务器的电源控制方法,其特征在于,按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;其中,所述目标GPU为任一GPU;
依次触发处于高工作负载状态的GPU的power brake讯号,直至所述系统总电源的实际使用率的等级降至低等级。
5.如权利要求2所述的服务器的电源控制方法,其特征在于,按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
优先关闭处于低工作负载状态的GPU的电源,再关闭处于高工作负载状态的GPU的电源,直至所述系统总电源的实际使用率的等级降至中等级。
6.如权利要求3-5任一项所述的服务器的电源控制方法,其特征在于,所述服务器的电源控制方法还包括:
将利用所述集成芯片获取的目标GPU的各电源参数分别与其对应的预设参数安全阈值作比较,当所述目标GPU的任一电源参数大于其对应的预设参数安全阈值时,借助所述集成芯片直接关闭所述目标GPU的电源。
7.一种服务器的电源控制系统,其特征在于,包括:
预设模块,用于预先将系统总电源的使用率进行等级划分,并在不同等级的系统总电源的使用率下一一设置GPU电源控制策略;其中,越高等级的系统总电源的使用率越高,越高等级的系统总电源的使用率下设置的GPU电源控制策略对系统GPU计算能力的抑制程度越强;
确定模块,用于获取所述系统总电源的实际使用率,并根据所述系统总电源的使用率等级划分结果确定与所述实际使用率对应的目标使用率等级;
控制模块,用于按照所述目标使用率等级对应的GPU电源控制策略,对系统中的GPU进行电源控制。
8.如权利要求7所述的服务器的电源控制系统,其特征在于,所述预设模块具体用于:
预先将系统总电源的使用率进行三等级划分,得到低等级使用率、中等级使用率及高等级使用率;
为所述低等级使用率设置用于调节系统中各GPU的负载均衡分配的第一GPU电源控制策略;
为所述中等级使用率设置用于按照预设GPU触发选择策略从各GPU中选择目标触发GPU并触发所述目标触发GPU的power brake讯号的第二GPU电源控制策略;
为所述高等级使用率设置用于按照预设GPU关闭选择策略从各GPU中选择目标关闭GPU并关闭所述目标关闭GPU的电源的第三GPU电源控制策略。
9.如权利要求8所述的服务器的电源控制系统,其特征在于,调节系统中各GPU的负载均衡分配的过程,包括:
预先为各GPU一一配置用于获取GPU电源参数的集成芯片,并利用所述集成芯片获取各GPU的电流参数;
判断目标GPU的电流参数是否大于预设电流阈值;若是,则确定所述目标GPU处于高工作负载状态;若否,则确定所述目标GPU处于低工作负载状态;其中,所述目标GPU为任一GPU;
将处于高工作负载状态的GPU的部分运算工作量均衡分配给处于低工作负载状态的各GPU,以使原处于高工作负载状态的GPU降至处于低工作负载状态。
10.一种服务器的电源控制装置,其特征在于,包括:
存储器,用于存储计算机程序;
设于系统总电源和系统中各GPU之间的处理器,用于在执行所述计算机程序时实现如权利要求1-6任一项所述的服务器的电源控制方法的步骤。
CN202011181718.7A 2020-10-29 2020-10-29 一种服务器的电源控制方法、系统及装置 Active CN112114647B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011181718.7A CN112114647B (zh) 2020-10-29 2020-10-29 一种服务器的电源控制方法、系统及装置
PCT/CN2021/109190 WO2022088800A1 (zh) 2020-10-29 2021-07-29 一种服务器的电源控制方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181718.7A CN112114647B (zh) 2020-10-29 2020-10-29 一种服务器的电源控制方法、系统及装置

Publications (2)

Publication Number Publication Date
CN112114647A true CN112114647A (zh) 2020-12-22
CN112114647B CN112114647B (zh) 2022-06-10

Family

ID=73794658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181718.7A Active CN112114647B (zh) 2020-10-29 2020-10-29 一种服务器的电源控制方法、系统及装置

Country Status (2)

Country Link
CN (1) CN112114647B (zh)
WO (1) WO2022088800A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721747A (zh) * 2021-07-29 2021-11-30 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
WO2022088800A1 (zh) * 2020-10-29 2022-05-05 苏州浪潮智能科技有限公司 一种服务器的电源控制方法、系统及装置
CN116667268A (zh) * 2022-12-15 2023-08-29 荣耀终端有限公司 防止触发过流保护的方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188277A (zh) * 2011-12-27 2013-07-03 中国电信股份有限公司 负载能耗管理系统、方法和服务器
CN105068915A (zh) * 2015-08-10 2015-11-18 合肥联宝信息技术有限公司 电源管理装置及方法
CN109446026A (zh) * 2018-10-22 2019-03-08 郑州云海信息技术有限公司 整机柜gpu服务器供电方法、服务器、电源装置及存储介质
CN111352815A (zh) * 2020-02-26 2020-06-30 苏州浪潮智能科技有限公司 一种服务器系统的性能均衡检测方法、系统及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260003A (zh) * 2015-11-30 2016-01-20 浪潮(北京)电子信息产业有限公司 一种服务器整机自动保护方法及系统
US10373283B2 (en) * 2016-03-14 2019-08-06 Dell Products, Lp System and method for normalization of GPU workloads based on real-time GPU data
CN208903299U (zh) * 2018-11-21 2019-05-24 厦门科一物联网科技有限公司 一种ai智能专用计算卡及其构成的边缘网络
CN111009883B (zh) * 2019-11-29 2022-04-22 苏州浪潮智能科技有限公司 一种防止pcie设备过电流误触发的方法
CN111290560B (zh) * 2020-01-19 2022-03-04 苏州浪潮智能科技有限公司 一种防止服务器过流掉电的方法及系统
CN111475293B (zh) * 2020-03-27 2023-01-10 苏州浪潮智能科技有限公司 一种服务器及其供电保护系统
CN112114647B (zh) * 2020-10-29 2022-06-10 苏州浪潮智能科技有限公司 一种服务器的电源控制方法、系统及装置
CN112670948B (zh) * 2020-11-20 2023-02-28 山东云海国创云计算装备产业创新中心有限公司 一种板卡保护方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103188277A (zh) * 2011-12-27 2013-07-03 中国电信股份有限公司 负载能耗管理系统、方法和服务器
CN105068915A (zh) * 2015-08-10 2015-11-18 合肥联宝信息技术有限公司 电源管理装置及方法
CN109446026A (zh) * 2018-10-22 2019-03-08 郑州云海信息技术有限公司 整机柜gpu服务器供电方法、服务器、电源装置及存储介质
CN111352815A (zh) * 2020-02-26 2020-06-30 苏州浪潮智能科技有限公司 一种服务器系统的性能均衡检测方法、系统及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088800A1 (zh) * 2020-10-29 2022-05-05 苏州浪潮智能科技有限公司 一种服务器的电源控制方法、系统及装置
CN113721747A (zh) * 2021-07-29 2021-11-30 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
CN113721747B (zh) * 2021-07-29 2023-08-29 苏州浪潮智能科技有限公司 一种服务器及其防烧板电路和方法
CN116667268A (zh) * 2022-12-15 2023-08-29 荣耀终端有限公司 防止触发过流保护的方法及电子设备

Also Published As

Publication number Publication date
WO2022088800A1 (zh) 2022-05-05
CN112114647B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112114647B (zh) 一种服务器的电源控制方法、系统及装置
CN1145870C (zh) 用于自动cpu速度控制的装置和方法
US7203852B2 (en) System and process for making power readily available to newly added computers
CN105929923B (zh) 一种电源功率的管理方法及装置
CN109918194A (zh) 智能化扩容缩容方法、装置、计算机设备及存储介质
CN112325458B (zh) 空调控制方法、计算机装置以及计算机可读存储介质
CN105630606A (zh) 用于调整线程池容量的方法及装置
US10423217B1 (en) Dynamic power capping of multi-server nodes in a chassis based on real-time resource utilization
CN109992392B (zh) 一种资源部署方法、装置及资源服务器
CN112910061B (zh) 一种充电系统负载均衡的控制方法、装置及介质
CN112670948B (zh) 一种板卡保护方法、系统及装置
CN111688701B (zh) 一种车辆的功率超限控制方法、装置及车辆
CN117311987A (zh) 服务器处理器频率的调整方法、设备及存储介质
CN111309480A (zh) 一种动态功耗封顶调控的方法和设备
CN111443792B (zh) 处理器的功耗控制方法、装置以及电子和存储设备
CN106464002B (zh) 不间断电源系统及其操作方法
CN114301051A (zh) 直流供电系统的控制方法、装置及控制设备
CN104678306A (zh) 电源管理方法、装置与芯片
CN110500232B (zh) 风力发电机组的控制方法及设备
CN114237380A (zh) 智能控制功耗方法、电子设备及存储介质
CN113300385A (zh) 一种混合储能系统的电网频率调节方法及系统、存储介质
CN107133106A (zh) 一种numa系统优化方法及装置
CN115514012B (zh) 孤岛微网系统的控制方法、装置及电子设备
CN117353190B (zh) 一种充气柜智能配电方法及系统
CN116048227A (zh) 一种基于fpga的多机复位方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant