CN111290560B - 一种防止服务器过流掉电的方法及系统 - Google Patents

一种防止服务器过流掉电的方法及系统 Download PDF

Info

Publication number
CN111290560B
CN111290560B CN202010058630.XA CN202010058630A CN111290560B CN 111290560 B CN111290560 B CN 111290560B CN 202010058630 A CN202010058630 A CN 202010058630A CN 111290560 B CN111290560 B CN 111290560B
Authority
CN
China
Prior art keywords
power
real
psu
time
power supply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010058630.XA
Other languages
English (en)
Other versions
CN111290560A (zh
Inventor
刘栋
董超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010058630.XA priority Critical patent/CN111290560B/zh
Publication of CN111290560A publication Critical patent/CN111290560A/zh
Application granted granted Critical
Publication of CN111290560B publication Critical patent/CN111290560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Power Sources (AREA)

Abstract

本申请公开了一种防止服务器过流掉电的方法及系统,该方法包括:获取服务器中所有GPU的实时功率,并按照功率从大到小的顺序排序,同时还获取服务器中PSU电源的实时功率,然后判断PSU电源的实时功率是否临近PSU电源的极限功耗,当PSU电源的实时功耗达到极限功耗范围时,根据PSU电源的实时功率和GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到PSU电源的实时功率处于安全基线以下。该系统包括:GPU实时功率获取模块、排序模块、PSU电源实时功率获取模块、判断模块和Power Brake控制模块。通过本申请能够有效节省资源,并有利于提高服务器运行的稳定性。

Description

一种防止服务器过流掉电的方法及系统
技术领域
本申请涉及(Artificial Intelligence,人工智能)服务器技术领域,特别是涉及一种防止服务器过流掉电的方法及系统。
背景技术
随着人工智能技术的发展,对服务器的性能提出了更高的要求。AI服务器高性能的体现之一即为超高算力。在服务器中最常见的算力提供方式是采用大规模的GPU集群,随时服务器整体算力的提升,导致GPU(Graphics Processing Unit,图形处理器)的功率在不断提升,进而导致整个AI服务器的功率不断提升,而AI服务器较高的功率又容易导致整机过流掉电问题。因此,如果防止AI服务器过流掉电,AI服务器技术领域一个重要的技术问题。
目前,防止AI服务器过流掉电的方法,通常有两种方法。第一种是:根据GPU的EDPP(electrical date peak processing,供电数据峰值处理)功率对PSU(Power SupplyUnit,电源供应器模块)进行选型,确保所有的GPU同时工作在EDPP状态时,整机功率依然低于PSU功率。第二种是对整机功率进行监控,当整机功率临近PSU的极限时,同时对所有GPU执行降频操作,从而快速大幅度降低整机总功率。
然而,目前第一种防止AI服务器过流掉电的方法中,由于不同GPU同时处于EDPP状态的概率很低,采用高功率PSU对服务器系统的整体配置要求较高,会导致资源浪费严重。第二种防止AI服务器过流掉电的方法中,由于同时对所有GPU执行降频操作,导致各GPU正在处理的内容立即被中断,从而导致整机性能瞬间降低,进而导致AI服务器的稳定性较差。
发明内容
本申请提供了一种防止服务器过流掉电的方法及系统,以解决现有技术中防止服务器过流掉电的方法导致资源浪费以及整机稳定性较差的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种防止服务器过流掉电的方法,所述服务器中GPU的数量为N,所述方法包括:
S1:获取所述服务器中所有GPU的实时功率;
S2:按照功率从大到小的顺序,对所有GPU的实时功率进行排序;
S3:获取服务器中PSU电源的实时功率;
S4:判断所述PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率,其中,A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率;
S5:如果是,根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<A*PSU电源的最大功率为止,其中,N为自然数且N≥2。
可选地,比例系数A根据PSU电源的电压和额定功率确定。
可选地,所述根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作的方法,包括:
S51:实时功率最大的GPU执行Power Brake操作;
S52:判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率;
S53:如果是,实时功率最大的GPU解除Power Brake操作;
S54:如果否,控制实时功率排序在前两位的GPU执行Power Brake操作;
S55:返回步骤S52,最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2。
可选地,所述设定的时间段为1秒。
可选地,所述N/2*(EDPP+TDP)≤PSU电源的实时功率<A*PSU电源的最大功率。
一种防止服务器过流掉电的系统,所述服务器中GPU的数量为N,所述系统包括:
GPU实时功率获取模块,用于获取所述服务器中所有GPU的实时功率;
排序模块,用于按照功率从大到小的顺序,对所有GPU的实时功率进行排序;
PSU电源实时功率获取模块,用于获取服务器中PSU电源的实时功率;
判断模块,用于判断所述PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率,其中,A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率;
Power Brake控制模块,用于当所述PSU电源的实时功率满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率时,根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<A*PSU电源的最大功率为止。
可选地,所述Power Brake控制模块包括:
Power Brake操作启动单元,用于控制实时功率最大的GPU执行Power Brake操作;
判断单元,用于判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率;
Power Brake操作解除单元,用于当服务器的功率在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率最大的GPU解除Power Brake操作;
所述Power Brake操作启动单元,还用于当服务器的功率在设定的时间段内不满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率排序在前两位的GPU执行Power Brake操作,且所述Power Brake操作启动单元最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2;
循环单元,用于根据PSU电源的实时功率,启动判断单元、Power Brake操作解除单元以及Power Brake操作启动单元。
可选地,所述排序模块、判断模块和Power Brake控制模块设置于一BMC中。
可选地,所述GPU实时功率获取模块为EFUSE芯片,所述EFUSE芯片通过I2C总线与所述BMC通信连接,所述PSU电源实时功率获取模块通过PMBUS总线与所述BMC通信连接。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种防止服务器过流掉电的方法,该方法首先获取服务器中所有GPU的实时功率,并按照功率从大到小的顺序排序,同时还获取服务器中PSU电源的实时功率,然后判断PSU电源的实时功率是否临近PSU电源的极限功耗,当PSU电源的实时功耗达到极限功耗范围时,根据PSU电源的实时功率和GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到PSU电源的实时功率处于安全基线以下。本实施例通过实时采集GPU的功率和PSU电源的功率,根据两者的实时功率关系控制GPU执行PowerBrake操作,而且逐步控制GPU执行Power Brake操作,而不是临近PSU电源极限功耗时全部执行Power Brake操作,有利于提高服务器运行的稳定性。而且,本实施例中对单个GPU进行功耗监测,而不是根据GPU的EDPP状态对PSU电源进行选型,只要确保PSU电源的实时功率≥N/2*(EDPP+TDP),(Thermal Design Power,热设计功耗)即可避免服务器整机功耗过高而导致掉电,有利于提高资源利用率。
本申请还提供一种服务器过流掉电的系统,该系统中主要包括:GPU实时功率获取模块、排序模块、PSU电源实时功率获取模块、判断模块和Power Brake控制模块。通过GPU实时功率获取模块和PSU电源实时功率获取模块的设置,能够实时获取到GPU功率和PSU功率,从而根据两者的实时功率关系控制GPU执行Power Brake操作,避免资源浪费。而且本实施例中Power Brake控制模块是逐步控制GPU执行Power Brake操作,有利于提高服务器运行的稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种防止服务器过流掉电的方法的流程示意图;
图2为本申请实施例所提供的一种防止服务器过流掉电的系统的结构示意图。
图3为本申请实施例中防止服务器过流掉电的系统的架构图;
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
参见图1,图1为本申请实施例所提供的一种防止服务器过流掉电的方法的流程示意图。由图1可知,本实施例中防止服务器过流掉电的方法主要包括如下过程:
S1:获取服务器中所有GPU的实时功率。
本实施例服务器中设置有N个GPU,N为自然数,且N至少为2。本实施例中可以利用一EFUSE芯片来采集每个GPU的实时功率,然后通过I2C总线将GPU的实时功率传输至BMC。例如:AI服务器中设置有多个GPU,获取AI服务器中所有GPU的实时功率。
获取到所有GPU的实时功率后,执行步骤S2:按照功率从大到小的顺序,对所有GPU的实时功率进行排序。
可以将GPU的实时功率按照从大到小的顺序,做成功率表格。
在采集GPU实时功率的同时,执行步骤S3:获取服务器中PSU电源的实时功率。
本实施例通过PMBUS总线将PSU电源的实时功率传输BMC。
BMC获取到每个GPU的实时功率和服务器中PSU电源的实时功率之后,执行步骤S4:判断PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率。
本实施例中A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率。在不同的服务器中,比例系数A根据PSU电源的电压和额定功率确定。通常A可以取值为95%,即:95%*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率。该取值既能够比较准确地判断服务器是否进入PSU的极限功耗区域,从而为后续逐步实现对GPU的Power Brake操作提供基础,提高该控制方法的准确性。
本实施例中PSU电源的最大功率即PSU电源的峰值功率,如果A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率,说明PSU电源的实时功率已经超过安全基线,接近PSU电源的极限功率。
如果PSU电源的实时功率接近其极限功率,则执行步骤S5:根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<95%*PSU电源的最大功率为止,其中,N为自然数且N≥2。
具体地,本实施例中步骤S5又包括如下过程:
S51:实时功率最大的GPU执行Power Brake操作。
当PSU电源的实时功率接近其极限功率时,根据步骤S2中对所有GPU的实时功率排序结果,确定实时功率最大的GPU,控制该GPU执行Power Brake操作,从而实现实时功率最大的GPU降频,进而降低服务器的整机功耗。
S52:判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率。
本实施例中服务器的功率也就是PSU电源的实时功率。通过步骤S51中GPU的PowerBrake操作后,执行步骤S52,通过步骤S52能够判断是否实现服务器整机功耗的下降,且该下降不是瞬间下降而是能够维持设定的时间。维持设定时间的功耗降低,有利于确保服务器系统的稳定性。
本实施例中设定的时间通常取值为1秒。该时间设置,既能够比较准确地验证是否实现服务器降低功耗,又能够节省时间,提高降频效率。
本实施例中,当PSU电源的实时功率<A*PSU电源的最大功率时,表明服务器整机功耗处于安全基线以下,利用该标准,能够比较准确地判断服务器整机功耗状态。
如果服务器的功率在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率,则执行步骤S53:实时功率最大的GPU解除Power Brake操作。
如果服务器的功率在设定的时间段内不满足:PSU电源的实时功率<A*PSU电源的最大功率,则执行步骤S54:控制实时功率排序在前两位的GPU执行Power Brake操作。
S55:返回步骤S52,最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2。
由以上步骤S53-S55可知,经过第一次Power Brake操作,如果PSU电源的实时功耗降低至安全基线以下,则解除Power Brake操作,否则,基线对排序第二的GPU执行PowerBrake操作,继续进行降频,第二次执行Power Brake操作之后,执行步骤S52判断服务器的整机功耗是否处于安全基线以下,然后再执行步骤S53或者S54,依次循环,从而实现逐步降频,这种降频方式能够提高服务器运行的稳定性。
本实施例中最多对一半左右的GPU进行Power Brake操作,即可实现服务器整机功耗的降低,从而避免服务器整机功耗过高所导致的掉电。
进一步地,本实施例中PSU电源的实时功率满足:N/2*(EDPP+TDP)≤PSU电源的实时功率<A*PSU电源的最大功率。优选功率范围为:N/2*(EDPP+TDP)≤PSU电源的实时功率<95%*PSU电源的最大功率。处于这种功利范围的PSU电源功率,既能够确保整机功耗处于安全基线以下,又能够为所有GPU提供足够的电源,有利于提高服务器系统的稳定性。
本实施例中,TDP指的是GPU能够长期稳定的最高功耗,EDPP是指单颗GPU瞬间可以达到的最高功耗。
根据发明人长期大量的实验发现,PSU电源的实时功率≥N/2*(EDPP+TDP),即可完全避免服务器整机功耗过高而导致掉电。以服务器中设置有8个GPU为例,PSU电源的功率≥4EDPP+4TDP时,即可完全避免服务器整机功耗过高所导致的掉电。而不必确保PSU电源的功率≥8EDPP,这种方法有利于大大节省资源。
本实施例中放置服务器过流掉电的方法,还可以应用于其他短时峰值功耗卡,例如:FPGA(Field-Programmable Gate Array,现场可编程门阵列)卡或者XPU卡等。
实施例二
在图1所示实施例的基础之上参见图2,图2为本申请实施例所提供的一种防止服务器过流掉电的系统的结构示意图。由图2可知,本实施例中防止服务器过流掉电的系统主要包括:GPU实时功率获取模块、排序模块、PSU电源实时功率获取模块、判断模块和PowerBrake控制模块。
其中,GPU实时功率获取模块,用于获取服务器中所有GPU的实时功率。排序模块,用于按照功率从大到小的顺序,对所有GPU的实时功率进行排序。PSU电源实时功率获取模块,用于获取服务器中PSU电源的实时功率。判断模块,用于判断PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率。Power Brake控制模块,用于当PSU电源的实时功率满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率时,根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<95%*PSU电源的最大功率为止。
其中,A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率。在不同的服务器中,比例系数A根据PSU电源的电压和额定功率确定。本实施例中A的取值可以选95%。
进一步地,Power Brake控制模块包括:Power Brake操作启动单元、判断单元、Power Brake操作解除单元和循环单元。其中,Power Brake操作启动单元,用于控制实时功率最大的GPU执行Power Brake操作。判断单元,用于判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<95%*PSU电源的最大功率。Power Brake操作解除单元,用于当服务器的功率在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率最大的GPU解除Power Brake操作。Power Brake操作启动单元,还用于当服务器的功率在设定的时间段内不满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率排序在前两位的GPU执行Power Brake操作,且Power Brake操作启动单元最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2。循环单元,用于根据PSU电源的实时功率,启动判断单元、Power Brake操作解除单元以及Power Brake操作启动单元。
本实施例中排序模块、判断模块和Power Brake控制模块可以设置于一BMC中。也就是该防止服务器过流掉电的系统包括:BMC、GPU实时功率获取模块和PSU电源实时功率获取模块。其中,BMC中包括:排序模块、判断模块和Power Brake控制模块。GPU实时功率获取模块可以采用一EFUSE芯片,EFUSE芯片通过I2C总线与BMC通信连接,使得BMC能够及时获取服务器中所有GPU的实时功率;PSU电源实时功率获取模块通过PMBUS总线与BMC通信连接,使得BMC能够及时获取PSU电源的实时功率。
图3为本实施例中防止服务器过流掉电的系统的架构图,图3中Power Broke Pin为BMC中控制GPU执行Power Brake操作的引脚。由图3可知,以8个GPU为例,本实施例在GPU的供电之前增加一EFUSE芯片,BMC通过EFUSE芯片的I2C总线获取每颗GPU的实时功耗,BMC还通过PSU电源实时功率获取模块对PSU的实时功耗进行监测。
该实施例中防止服务器过流掉电的系统的工作原理,在图1所示的实施例中已经详细阐述,两个实施例之间可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种防止服务器过流掉电的方法,其特征在于,所述服务器中GPU的数量为N,所述方法包括:
S1:获取所述服务器中所有GPU的实时功率;
S2:按照功率从大到小的顺序,对所有GPU的实时功率进行排序;
S3:获取服务器中PSU电源的实时功率;
S4:判断所述PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率,其中,A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率;
S5:如果是,根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<A*PSU电源的最大功率为止,其中,N为自然数且N≥2;
其中,所述根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作的方法,包括:
S51:实时功率最大的GPU执行Power Brake操作;
S52:判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率;
S53:如果是,实时功率最大的GPU解除Power Brake操作;
S54:如果否,控制实时功率排序在前两位的GPU执行Power Brake操作;
S55:返回步骤S52,最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2。
2.根据权利要求1所述的一种防止服务器过流掉电的方法,其特征在于,比例系数A根据PSU电源的电压和额定功率确定。
3.根据权利要求1所述的一种防止服务器过流掉电的方法,其特征在于,所述设定的时间段为1秒。
4.根据权利要求1-3中任一所述的一种防止服务器过流掉电的方法,其特征在于,N/2*(EDPP+TDP)≤所述PSU电源的实时功率<A*PSU电源的最大功率,其中,EDPP为供电数据峰值处理electrical date peak processing,TDP为热设计功耗Thermal Design Power。
5.一种防止服务器过流掉电的系统,其特征在于,所述服务器中GPU的数量为N,所述系统包括:
GPU实时功率获取模块,用于获取所述服务器中所有GPU的实时功率;
排序模块,用于按照功率从大到小的顺序,对所有GPU的实时功率进行排序;
PSU电源实时功率获取模块,用于获取服务器中PSU电源的实时功率;
判断模块,用于判断所述PSU电源的实时功率是否满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率,其中,A为比例系数,A*PSU电源的最大功率为PSU保持长时间正常运行所能承受的最大功率;
Power Brake控制模块,用于当所述PSU电源的实时功率满足:A*PSU电源的最大功率≤PSU电源的实时功率≤PSU电源的最大功率时,根据PSU电源的实时功率和所有GPU的实时功率排序结果,逐步控制GPU执行Power Brake操作,直到服务器的功率满足:PSU电源的实时功率<A*PSU电源的最大功率为止;
其中,所述Power Brake控制模块包括:
Power Brake操作启动单元,用于控制实时功率最大的GPU执行Power Brake操作;
判断单元,用于判断服务器的功率是否在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率;
Power Brake操作解除单元,用于当服务器的功率在设定的时间段内满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率最大的GPU解除Power Brake操作;
所述Power Brake操作启动单元,还用于当服务器的功率在设定的时间段内不满足:PSU电源的实时功率<A*PSU电源的最大功率时,控制实时功率排序在前两位的GPU执行Power Brake操作,且所述Power Brake操作启动单元最多对M个GPU执行Power Brake操作,其中M为自然数,且M≤(N+1)/2;
循环单元,用于根据PSU电源的实时功率,启动判断单元、Power Brake操作解除单元以及Power Brake操作启动单元。
6.根据权利要求5所述的一种防止服务器过流掉电的系统,其特征在于,所述排序模块、判断模块和Power Brake控制模块设置于一BMC中。
7.根据权利要求6所述的一种防止服务器过流掉电的系统,其特征在于,所述GPU实时功率获取模块为EFUSE芯片,所述EFUSE芯片通过I2C总线与所述BMC通信连接,所述PSU电源实时功率获取模块通过PMBUS总线与所述BMC通信连接。
CN202010058630.XA 2020-01-19 2020-01-19 一种防止服务器过流掉电的方法及系统 Active CN111290560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010058630.XA CN111290560B (zh) 2020-01-19 2020-01-19 一种防止服务器过流掉电的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010058630.XA CN111290560B (zh) 2020-01-19 2020-01-19 一种防止服务器过流掉电的方法及系统

Publications (2)

Publication Number Publication Date
CN111290560A CN111290560A (zh) 2020-06-16
CN111290560B true CN111290560B (zh) 2022-03-04

Family

ID=71029934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058630.XA Active CN111290560B (zh) 2020-01-19 2020-01-19 一种防止服务器过流掉电的方法及系统

Country Status (1)

Country Link
CN (1) CN111290560B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112114647B (zh) * 2020-10-29 2022-06-10 苏州浪潮智能科技有限公司 一种服务器的电源控制方法、系统及装置
CN112947720B (zh) * 2021-02-19 2022-12-09 浪潮电子信息产业股份有限公司 一种ai服务器的安全控制方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260003A (zh) * 2015-11-30 2016-01-20 浪潮(北京)电子信息产业有限公司 一种服务器整机自动保护方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418608B2 (en) * 2004-06-17 2008-08-26 Intel Corporation Method and an apparatus for managing power consumption of a server
US20060161794A1 (en) * 2005-01-18 2006-07-20 Dell Products L.P. Prioritizing power throttling in an information handling system
US7461274B2 (en) * 2005-08-23 2008-12-02 International Business Machines Corporation Method for maximizing server utilization in a resource constrained environment
US7702931B2 (en) * 2006-06-27 2010-04-20 Hewlett-Packard Development Company, L.P. Adjusting power budgets of multiple servers
JP5244862B2 (ja) * 2010-06-16 2013-07-24 株式会社日立製作所 電源モジュールの出力状態に応じた電力抑止機能を設けた情報処理装置システム
US9280191B2 (en) * 2013-01-21 2016-03-08 Dell Products Lp. Systems and methods for power supply configuration and control
CN107329811A (zh) * 2017-06-09 2017-11-07 北京云集智造科技有限公司 一种数据中心功耗调节方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260003A (zh) * 2015-11-30 2016-01-20 浪潮(北京)电子信息产业有限公司 一种服务器整机自动保护方法及系统

Also Published As

Publication number Publication date
CN111290560A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
US8473768B2 (en) Power control apparatus and method for cluster system
CN111290560B (zh) 一种防止服务器过流掉电的方法及系统
EP3800763B1 (en) Multi-mode uninterruptible power supply control method, control apparatus and control terminal
TW201211749A (en) System and method for providing energy efficient cloud computing
CN103037109B (zh) 多核设备能耗管理方法及装置
CN103020545B (zh) 一种基于龙芯处理器的过温保护方法
US11879660B2 (en) Photovoltaic air conditioner control method and apparatus and photovoltaic air conditioner
CN110399034A (zh) 一种SoC系统的功耗优化方法及终端
CN111475008A (zh) 一种供电模块工作模式的控制方法
CN104168122A (zh) 一种降低系统轻载功耗的服务器电源冗余方法
CN113075982A (zh) 一种服务器智能网卡散热方法、装置、系统及介质
CN101923385B (zh) 一种实现系统节能的方法
WO2022052479A1 (zh) 一种功耗调控方法、装置、设备及可读存储介质
CN104460942A (zh) 一种基于业务的服务器节能系统及方法
CN102467220A (zh) 电脑系统与其电源管理方法
CN101908977B (zh) 网络设备的电源管理方法、系统和网络设备
CN107239133A (zh) 一种智能设备的控制方法及装置
CN110794949A (zh) 一种基于部件温度自动分配计算资源的降功耗方法和系统
CN115616318A (zh) 一种快速检测ups负载冲击变化的电路结构
CN111103962A (zh) 电源的休眠,休眠确定方法及装置,休眠设备
CN115392684A (zh) 一种基于带外方式的数据机房碳排放监控系统及方法
CN114301051A (zh) 直流供电系统的控制方法、装置及控制设备
CN113760649A (zh) 一种提升服务器电源效率的方法、装置、终端及存储介质
CN109800944B (zh) 一种基于云计算的调度员潮流计算方法
CN113885689A (zh) 整机柜服务器供电控制方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant