CN113064479A - 一种gpu服务器的电源冗余控制系统、方法及介质 - Google Patents

一种gpu服务器的电源冗余控制系统、方法及介质 Download PDF

Info

Publication number
CN113064479A
CN113064479A CN202110236427.1A CN202110236427A CN113064479A CN 113064479 A CN113064479 A CN 113064479A CN 202110236427 A CN202110236427 A CN 202110236427A CN 113064479 A CN113064479 A CN 113064479A
Authority
CN
China
Prior art keywords
gpu
power consumption
bmc
throw switch
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110236427.1A
Other languages
English (en)
Other versions
CN113064479B (zh
Inventor
张悦
韩红瑞
王素华
刘毓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110236427.1A priority Critical patent/CN113064479B/zh
Publication of CN113064479A publication Critical patent/CN113064479A/zh
Priority to US18/277,373 priority patent/US20240126356A1/en
Priority to PCT/CN2022/074616 priority patent/WO2022183877A1/zh
Application granted granted Critical
Publication of CN113064479B publication Critical patent/CN113064479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3253Power saving in bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2015Redundant power supplies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0016Inter-integrated circuit (I2C)
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种GPU服务器的电源冗余控制系统,包括:电源冗余模块、BMC、CPLD和GPU模组;电源冗余模块包括第一PSU和第二PSU,GPU模组中包括若干GPU;第一PSU通过第一总线与CPLD连接;第二PSU通过第二总线与CPLD连接;BMC通过第一I2C总线和第二I2C总线与CPLD连接,并发送心跳信息至所述CPLD;CPLD通过第三总线和第四总线与BMC连接;CPLD通过第三I2C总线与若干所述GPU连接;本发明能够当BMC出现异常或重启时,CPLD能够对服务器的整机功耗控制,与此同时也可以保证服务器不会出现宕机现象,降低因BMC异常或重启给客户带来的损失。

Description

一种GPU服务器的电源冗余控制系统、方法及介质
技术领域
本发明涉及功耗控制领域,特别是涉及一种GPU服务器电源冗余控制系统、方法及介质。
背景技术
随着互联网行业的迅速发展,越来越多的互联网厂商大量使用GPU服务器,这种服务器的特点是可以提供超强的计算能力,可应用于海量数据的运算处理和深度学习训练等场景。随着服务器计算力的增强会带来整机功耗的提升,GPU服务器一般需要大功率PSU来满足其整机功耗。
一般情况下,GPU服务器在全负载时其整机功耗大于PSU所能提供的额定整机功耗。服务器一般会通过功率封顶技术对整机功耗进行限定,当客户正在使用GPU服务器满负荷运行处理业务时,若出现BMC异常或重启,此时BMC就不能进行GPU服务器功率的限定,导致服务器出现宕机现象,不能满足客户的需求,导致客户的业务中断,降低产品的竞争力。
发明内容
本发明主要解决是当BMC异常或重启时,BMC不能对整机功耗进行限定,若此时服务器正在进行业务处理并且全负载运行,那么BMC就不能及时对整机功耗进行限定继而会导致服务器出现宕机的问题。
为解决上述技术问题,本发明采用的一个技术方案是:一种GPU服务器的电源冗余控制系统,包括:电源冗余模块、BMC、CPLD和GPU模组;
所述电源冗余模块包括第一PSU和第二PSU,所述GPU模组中包括若干GPU;
所述第一PSU通过第一总线与所述CPLD连接;所述第二PSU通过第二总线与所述CPLD连接;所述BMC通过第一I2C总线和第二I2C总线与所述CPLD连接,并发送心跳信息至所述CPLD;
所述CPLD通过第三I2C总线与若干所述GPU连接,用于获取所述GPU的功耗信息以及控制所述GPU功耗;
所述CPLD通过第三总线和第四总线与所述BMC连接。
作为本发明一种GPU服务器的电源冗余控制系统的进一步改进,所述CPLD中设有通信模块、心跳侦测模块、处理单元、控制单元、获取单元、开关和寄存器;
所述处理单元分别与所述通信模块、所述心跳侦测模块、所述控制单元和所述获取单元连接;
所述处理单元用于执行功耗限定策略;
所述心跳侦测模块用于接收所述BMC发送的所述心跳信号,并根据所述心跳信号检测所述BMC是否正常运行;
所述通信模块通过所述第一I2C总线与所述BMC连接,并用于所述BMC与所述CPLD的通信;
所述控制单元与所述开关连接,并发送使能信号控制所述开关;
所述获取单元用于与所述第一PSU和所述第二PSU进行通信;
所述寄存器用于存储所述GPU模组空载下的功耗。
作为本发明一种GPU服务器的电源冗余控制系统的进一步改进,所述开关包括第一单刀四掷开关、第二单刀四掷开关、第一单刀双掷开关和第二单刀双掷开关;
所述控制单元发送第一使能信号至所述第一单刀四掷开关,发送第二使能信号至所述第二单刀四掷开关,发送第三使能信号至所述第一单刀双掷开关,发送第四使能信号至所述第二单刀双掷开关;
所述获取单元包括第一获取单元和第二获取单元;
所述BMC通过所述第二I2C总线与所述第一单刀四掷开关的输入端连接,所述第一单刀四掷开关的输出端通过所述第三I2C总线与若干所述GPU连接;
所述处理单元通过第四I2C总线与所述第二单刀四掷开关的输入端连接,所述第二单刀四掷开关的输出端通过第五I2C总线与若干所述GPU连接;
所述第一总线与所述第一单刀双掷开关的输入端连接,所述第一单刀双掷开关的输出端与所述第三总线和所述第一获取单元连接;
所述第二总线与所述第二单刀双掷开关的输入端连接,所述第二单刀双掷开关的输出端与所述第四总线和所述第二获取单元连接。
优选的,所述功耗限定策略包括:
当所述心跳侦测模块接收到所述BMC发送的心跳信号时,所述BMC获取所述第一PSU或第二PSU的功耗信息参数,并设定所述GPU模组的电源输出功耗阈值;
所述控制单元发送所述第一使能信号至所述第一单刀四掷开关,使所述BMC通过所述第一单刀四掷开关分别与若干所述GPU连接;
所述控制单元发送所述第二使能信号至所述第二单刀四掷开关,使所述第二单刀四掷开关不工作;
所述控制单元发送所述第三使能信号至所述第一单刀双掷开关,使所述第一总线与所述第三总线连接;
所述控制单元发送所述第四使能信号至所述第二单刀双掷开关,使所述第二总线与所述第四总线连接;
所述BMC与所述电源冗余模块和所述GPU进行通信,获取所述电源冗余模块中第一PSU以及第二PSU的额定功率信息,获取所述GPU的功耗信息并监控所述GPU模组的整机输入功耗;所述BMC通过整机输入功耗与所述电源输出功耗阈值进行比较对所述GPU进行功耗限制。
优选的,所述功耗限定策略还包括:
当所述心跳侦测模块未接收到所述BMC发送的心跳信号时,所述处理单元将所述BMC处于异常状态或重启状态的信息发送至所述控制单元;
所述控制单元发送所述第一使能信号至所述第一单刀四掷开关,使所述第一单刀四掷开关不工作;
所述控制单元发送所述第二使能信号至所述第二单刀四掷开关,使所述处理单元通过所述第二单刀四掷开关分别与若干所述GPU连接;
所述控制单元发送所述第三使能信号至所述第一单刀双掷开关,使所述第一总线与所述第一获取单元连接;
所述控制单元发送所述第四使能信号至所述第二单刀双掷开关,使所述第二总线与所述第二获取单元连接;
所述处理单元通过所述第一获取单元与所述第一PSU进行通信,通过所述第二获取单元与所述第二PSU进行通信,获取所述第一PSU和所述第二PSU的额定功率;
所述处理单元计算所述额定功率与所述GPU模组空载下的功耗的第一差值;
所述处理单元获取所述GPU的功耗,并计算与所述GPU模组空载下的功耗的第二差值;
所述处理单元通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗。
优选的,所述通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗进一步为:当所述第二差值大于所述第一差值时,所述处理单元对所述GPU下发功耗限制的命令,限制所述GPU的功耗;
当所述第二差值不大于所述第一差值时,若所述GPU接收到所述功耗限制的命令,则所述处理单元对限制功耗的所述GPU下发解除功耗限制的命令,取消对所述GPU功耗的限制;若所述GPU未接收到所述功耗限制的命令,则所述处理单元不进行任何操作。
本发明还提供一种GPU服务器的电源冗余控制方法,包括以下步骤:
测试GPU模组空载功耗,获取电源冗余模组的功耗信息参数并根据所述参数设定电源输出功耗阈值;
根据所述GPU模组中GPU的功耗执行功耗限定策略,所述功耗限定策略为:当BMC发送心跳信号至CPLD时,所述BMC通过所述CPLD获取所述GPU的功耗,并根据所述电源输出功耗阈值控制所述GPU的功耗;
当所述BMC未发送心跳信号至所述CPLD时,所述CPLD获取所述GPU的功耗,获取所述电源冗余模组的额定功率,计算所述GPU模组空载功耗与所述额定功率差值,并记为第一差值,计算所述GPU模组空载功耗与所述GPU的功耗的差值,并记为第二差值;
通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗。
优选的,所述通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗的步骤进一步包括:当所述第二差值大于所述第一差值时,对所述GPU下发功耗限制的命令,限制所述GPU的功耗;
当所述第二差值不大于所述第一差值时,对所述GPU不进行功耗限制。
优选的,还包括当所述BMC重新输出所述心跳信号时,所述BMC控制所述GPU的功耗。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的一种GPU服务器的电源冗余控制方法的步骤。
本发明的有益效果是:
1、本发明所述的一种GPU服务器的电源冗余控制系统,可以在当BMC出现异常或重启时,CPLD能够对服务器的整机功耗进行控制,实现服务器电源冗余功能,与此同时也可以保证服务器不会出现宕机现象,这样可以保证客户的业务正常运行,降低因BMC异常或重启给客户带来的损失。
2、本发明所述的一种GPU服务器的电源冗余控制方法,可以在BMC正常运行时通过BMC对GPU模组中的GPU进行功耗调控,并且调控时可以根据各个GPU的业务重要性进行调整,将最重要的GPU的业务先进行执行,能够有效率的提升业务的处理能力,并且当BMC异常或者重启时,通过CPLD进行进行控制GPU的功耗,并且当CPLD计算的差值不满足功耗限制条件时,对已经进行功耗限制的GPU解除功耗,能够实时响应GPU模组的负载效率,提升GPU模组处理业务的能力。
3、本发明所述的一种计算机可读存储介质,可以当BMC出现故障时,通过CPLD中的控制单元控制其中的开关使能,并通过CPLD中的处理单元进行功耗调控,保证系统不会出现宕机,保证了系统处理业务的能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述的一种GPU服务器的电源冗余控制系统架构示意图;
图2是本发明实施例1所述的一种GPU服务器的电源冗余控制系统中CPLD架构示意图;
图3是本发明实施例2所述的一种GPU服务器的电源冗余控制方法示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在本发明的描述中
PSU(power supply unit)是电源供电装置;
GPU(Graphics Processing Unit)是图形处理器;
BMC(Baseboard Management Controller)是基板管理控制器;
CPLD(Complex Programmable Logic Device)是复杂可编程逻辑器件;
PMBus(Power Management Bus,电源管理总线)是一种开放标准的数字电源管理协议。可通过定义传输和物理接口以及命令语言来促进与电源转换器或其他设备的通信。
I2C总线是由Philips公司开发的一种简单、双向二线制同步串行总线。
需要说明的是,在本发明的描述中,第一总线为第一PMBus,第二总线为第二PMBus;第三总线为第三PMBus;第四总线为第四PMBus。
实施例1
本发明实施例提供一种GPU服务器电源冗余控制系统,如图1所示,包括:电源冗余模块、BMC、CPLD和GPU模组;
所述电源冗余模块中设有若干PSU;
若干PSU包括第一PSU和第二PSU;
第一PSU和第二PSU为同规格并联,即当一个PSU发生故障时,另一PSU仍可支持服务器工作,避免出现服务器宕机现象;
若干所述PSU分别通过若干个不同的PMBus与所述CPLD连接;
具体为第一PSU通过第一PMBus与CPLD连接;第二PSU通过第二PMBus与CPLD连接;
所述BMC通过第一I2C总线和第二I2C总线与所述CPLD连接,将所述BMC的心跳信号发送至所述CPLD,以及获取所述CPLD中寄存器存储的提前测试好的GPU模组空载下的整机功耗;
所述CPLD通过两根PMBus与所述BMC连接,将两根PMBus分别记为第三PMBus和第四PMBus;
其中,心跳信号是BMC三段时间内向互联的CPLD发送三个脉冲信号,其中第一个时间段发送的脉冲信号与最后一个时间段发送的脉冲信号脉冲宽度相同,中间时间段发送的脉冲信号脉冲宽度不同,若CPLD接收到三个脉冲信号,则代表BMC发送心跳信号至CPLD;若CPLD未接收到三个脉冲信号,则代表BMC未发送心跳信号,则BMC不进行工作,表示BMC处于停止运行状态或者重启状态。
所述GPU模组中包含若干个GPU,由于互联网等厂商对GPU的性能要求越来越高,同时对GPU模组及2U通用服务器的使用场景越来越多,为了能够满足客户的需求,服务器中一般会搭配更多的GPU以及GPU model等高功耗部件。为了保证客户业务的稳定工作,就需要选择合适的PSU以及功率限定方法来满足客户对GPU模组不同使用场景下的电源冗余需求;
所述CPLD通过若干个不同的第三I2C总线分别与若干个GPU连接,并获取若干个GPU的功耗信息以及控制若干个GPU的功耗;
如图2所示,所述CPLD中设有通信模块、心跳侦测模块、处理单元、控制单元和获取单元;
处理单元分别与心跳侦测模块、通信模块、控制单元以及获取单元连接;
所述BMC发送心跳信号至所述心跳侦测模块,所述心跳侦测模块用于检测所述BMC的运行状态是否正常;所述BMC通过第一I2C总线与所述通信模块连接;所述通信模块用于BMC与CPLD之间的通信,具体为BMC通过通信模块将控制信息发送至控制单元;
处理单元用于执行功耗限定策略;
CPLD中还设有开关,具体包括第一单刀四掷开关、第二单刀四掷开关、第一单刀双掷开关和第二单刀双掷开关;
CPLD中还设有寄存器,CPLD中的寄存器用于存储提前测试好的GPU模组空载下的整机功耗;
所述BMC通过第二I2C总线与CPLD中第一单刀四掷开关输入端连接,所述第一单刀四掷开关输出端通过若干第三I2C总线与若干个GPU连接,所述BMC通过第一单刀四掷开关输入端连接与若干个GPU连接的I2C总线从而跟若干个GPU进行通信;
所述获取单元包括第一获取单元和第二获取单元;
所述第一PMBus与所述CPLD中第一单刀双掷开关的输入端连接;所述第一单刀双掷开关的输出端与所述第三PMBus和第一获取单元连接;
所述第二PMBus与所述CPLD中第二单刀双掷开关的输入端连接;所述第二单刀双掷开关的输出端与所述第四PMBus和第二获取单元连接;
所述处理单元通过第四I2C总线与CPLD中第二单刀四掷开关的输入端连接,所述第二单刀四掷开关的输出端通过若干第五I2C总线与若干个GPU连接,所述处理单元通过单刀四掷开关的输入端连接与若干个GPU连接的I2C总线从而跟若干个GPU进行通信;
需要说明的,在本发明的描述中,第一单刀四掷开关和第二单刀四掷开关输出端与若干GPU连接的第五总线和第三总线可以为相同的总线也可以为不同的总线。
控制单元与所述开关连接,发送使能信号控制所述开关;
所述控制单元与所述第一单刀四掷开关、第二单刀四掷开关、第一单刀双掷开关和第二单刀双掷开关连接,并发送第一使能信号EN3至第一单刀四掷开关,发送第二使能信号EN4至第二单刀四掷开关,发送第三使能信号EN0至第一单刀双掷开关和发送第四使能信号EN1至第二单刀双掷开关;
功耗限定策略为:
当CPLD的心跳侦测模块接收到所述BMC发送心跳信息时,
所述GPU模组正常启动,BMC通过PMbus总线获取第一PSU和第二PSU的功耗信息参数,BMC根据获取的参数来设定GPU模组整机电源输出功耗阈值。
整机电源输出功耗阈值为第一PSU或第二PSU功耗的输出的最大值。
BMC发送控制信息至所述通信模块,所述通信模块发送控制信息至所述控制单元,所述控制单元发送第一使能信号EN3至第一单刀四掷开关,使BMC通过I2C分别与若干GPU进行连接;
发送第二使能信号EN4至第二单刀四掷开关,使第二单刀四掷开关不工作;
发送第三使能信号EN0至第一单刀双掷开关,使第一PMBus与第三PMBus连接;
发送第四使能信号EN1至第二单刀双掷开关,使第二PMBus和第四PMBus连接;
所述BMC通过CPLD与所述电源冗余模块和若干个GPU进行通信,获取电源冗余模块中PSU的额定功率等信息,获取若干个GPU的功耗信息,BMC会实时监控和记录GPU模组的整机输入功耗;
当BMC监控到GPU模组的整机输入功耗达到整机电源输出功耗的阈值时,BMC根据GPU业务的重要性对单个或者多个GPU功耗进行限制;当BMC监控到GPU模组的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个或多个GPU功耗限制;
当CPLD的心跳侦测模块检测到BMC未发出心跳信号时,处理单元判断BMC处于异常状态或重启状态;所述处理单元通知控制单元;控制单元发送第一使能信号EN3至第一单刀四掷开关,使第一单刀四掷开关不工作;
发送第二使能信号EN4至第二单刀四掷开关,使处理单元通过第二单刀四掷开关分别与若干GPU进行连接;发送第三使能信号EN0至第一单刀双掷开关,使第一PMBus与第一获取单元连接;
发送第四使能信号EN1至第二单刀双掷开关,使第二PMBus和第二获取单元连接;
CPLD的处理单元通过第一获取单元与第一PSU进行通信;通过第二获取单元与第二PSU进行通信,获取第一PSU和第二PSU的额定功率信息;
处理单元计算PSU获取的额定功率与存储在CPLD的寄存器中的提前实测GPU空载下最大功耗的第一差值;
CPLD的处理单元通过I2C总线分别获取各个GPU功耗信息;
CPLD实时获取各个GPU的功耗信息,并与空载状况下存储在CPLD的寄存器中的提前实测GPU空载下最大功耗进行比较,计算出第二差值;
处理单元比较第一差值和第二差值的大小进一步控制各个GPU的功耗,当第二差值大于第一差值时,CPLD的处理单元通过I2C总线并根据GPU业务的重要性对各个GPU下发功耗限制命令,限制若干个GPU中一个或几个GPU的功耗来满足其电源冗余设计;
当第二差值不大于第一差值时,若在此之前处理单元对GPU下达功耗限制命令,则CPLD的处理单元通过I2C总线对限制功耗的GPU下达解除功耗限制的命令,取消对GPU的功耗的限定,若在此之前处理单元未对GPU下达功耗限制命令,则CPLD的处理单元不进行任何操作。
实施例2
本发明实施例还提供一种GPU服务器的电源冗余控制方法,如图3所示,包括以下步骤:
S100,系统启动后正常运行时,测试GPU模组空载下的功耗至并存储至CPLD的寄存器中,BMC通过PMbus总线获取第一PSU和第二PSU的功耗信息参数,BMC根据获取的参数来设定GPU模组整机电源输出功耗阈值;
S200,根据所述GPU模组中的GPU的功耗执行功耗限定策略;根据心跳信号判断BMC是否发生异常或重启;
S300,当BMC输出心跳信号至CPLD,BMC正常运行,BMC通过CPLD获取GPU模组中各个GPU的功耗信息,并根据所述GPU模组整机电源输出功耗阈值控制各个GPU的功耗;
S400,当BMC发生异常或重启时,BMC停止输出心跳信号,CPLD未接收到BMC的心跳信号,并且CPLD计算功耗差值。
CPLD计算功耗差值的步骤具体为:CPLD通过I2C总线获取各个GPU的功耗信息,获取PSU的额定的功率,计算GPU空载下的功耗与PSU的额定功率的差值,记为第一差值,将各个GPU的功耗信息与GPU空载下的功耗的第二差值。
S500,通过比较第一差值和第二差值的大小控制各个GPU的功耗;
具体步骤为:当第二差值大于第一差值时,根据GPU业务的重要性对各个GPU下发功耗限制命令,限制若干个GPU中一个或几个GPU的功耗来满足其电源冗余设计;
当第二差值不大于第一差值时,若在此之前对GPU下达功耗限制命令,则通过I2C总线对限制功耗的GPU下达解除功耗限制的命令,取消对GPU的功耗的限定,若在此之前未对GPU下达功耗限制命令,则不进行任何操作,也就是说对所述GPU不进行功耗限制。
当BMC恢复正常运行时,BMC重新输出心跳信号时,CPLD获取到BMC的心跳信号,代表BMC正常运行,所述CPLD不进行控制所述GPU的功耗,BMC重新通过CPLD获取GPU模组中各个GPU的功耗信息并根据所述GPU模组整机电源输出功耗阈值控制各个GPU的功耗。
基于与前述实施例中方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的一种GPU服务器的电源冗余控制方法的步骤。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种GPU服务器的电源冗余控制系统,其特征在于,包括:电源冗余模块、BMC、CPLD和GPU模组;
所述电源冗余模块包括第一PSU和第二PSU,所述GPU模组中包括若干GPU;
所述第一PSU通过第一总线与所述CPLD连接;所述第二PSU通过第二总线与所述CPLD连接;所述BMC通过第一I2C总线和第二I2C总线与所述CPLD连接,并发送心跳信息至所述CPLD;
所述CPLD通过第三I2C总线与若干所述GPU连接,用于获取所述GPU的功耗信息以及控制所述GPU功耗;
所述CPLD通过第三总线和第四总线与所述BMC连接。
2.根据权利要求1所述的一种GPU服务器的电源冗余控制系统,其特征在于:所述CPLD中设有通信模块、心跳侦测模块、处理单元、控制单元、获取单元、开关和寄存器;
所述处理单元分别与所述通信模块、所述心跳侦测模块、所述控制单元和所述获取单元连接;
所述处理单元用于执行功耗限定策略;
所述心跳侦测模块用于接收所述BMC发送的所述心跳信号,并根据所述心跳信号检测所述BMC是否正常运行;
所述通信模块通过所述第一I2C总线与所述BMC连接,并用于所述BMC与所述CPLD的通信;
所述控制单元与所述开关连接,并发送使能信号控制所述开关;
所述获取单元用于与所述第一PSU和所述第二PSU进行通信;
所述寄存器用于存储所述GPU模组空载下的功耗。
3.根据权利要求2所述的一种GPU服务器的电源冗余控制系统,其特征在于:所述开关包括第一单刀四掷开关、第二单刀四掷开关、第一单刀双掷开关和第二单刀双掷开关;
所述控制单元发送第一使能信号至所述第一单刀四掷开关,发送第二使能信号至所述第二单刀四掷开关,发送第三使能信号至所述第一单刀双掷开关,发送第四使能信号至所述第二单刀双掷开关;
所述获取单元包括第一获取单元和第二获取单元;
所述BMC通过所述第二I2C总线与所述第一单刀四掷开关的输入端连接,所述第一单刀四掷开关的输出端通过所述第三I2C总线与若干所述GPU连接;
所述处理单元通过第四I2C总线与所述第二单刀四掷开关的输入端连接,所述第二单刀四掷开关的输出端通过第五I2C总线与若干所述GPU连接;
所述第一总线与所述第一单刀双掷开关的输入端连接,所述第一单刀双掷开关的输出端与所述第三总线和所述第一获取单元连接;
所述第二总线与所述第二单刀双掷开关的输入端连接,所述第二单刀双掷开关的输出端与所述第四总线和所述第二获取单元连接。
4.根据权利要求2所述的一种GPU服务器的电源冗余控制系统,其特征在于:所述功耗限定策略包括:
当所述心跳侦测模块接收到所述BMC发送的心跳信号时,所述BMC获取所述第一PSU或第二PSU的功耗信息参数,并设定所述GPU模组的电源输出功耗阈值;
所述控制单元发送所述第一使能信号至所述第一单刀四掷开关,使所述BMC通过所述第一单刀四掷开关分别与若干所述GPU连接;
所述控制单元发送所述第二使能信号至所述第二单刀四掷开关,使所述第二单刀四掷开关不工作;
所述控制单元发送所述第三使能信号至所述第一单刀双掷开关,使所述第一总线与所述第三总线连接;
所述控制单元发送所述第四使能信号至所述第二单刀双掷开关,使所述第二总线与所述第四总线连接;
所述BMC与所述电源冗余模块和所述GPU进行通信,获取所述电源冗余模块中第一PSU以及第二PSU的额定功率信息,获取所述GPU的功耗信息并监控所述GPU模组的整机输入功耗;所述BMC通过整机输入功耗与所述电源输出功耗阈值进行比较对所述GPU进行功耗限制。
5.根据权利要求2所述的一种GPU服务器的电源冗余控制系统,其特征在于:所述功耗限定策略还包括:
当所述心跳侦测模块未接收到所述BMC发送的心跳信号时,所述处理单元将所述BMC处于异常状态或重启状态的信息发送至所述控制单元;
所述控制单元发送所述第一使能信号至所述第一单刀四掷开关,使所述第一单刀四掷开关不工作;
所述控制单元发送所述第二使能信号至所述第二单刀四掷开关,使所述处理单元通过所述第二单刀四掷开关分别与若干所述GPU连接;
所述控制单元发送所述第三使能信号至所述第一单刀双掷开关,使所述第一总线与所述第一获取单元连接;
所述控制单元发送所述第四使能信号至所述第二单刀双掷开关,使所述第二总线与所述第二获取单元连接;
所述处理单元通过所述第一获取单元与所述第一PSU进行通信,通过所述第二获取单元与所述第二PSU进行通信,获取所述第一PSU和所述第二PSU的额定功率;
所述处理单元计算所述额定功率与所述GPU模组空载下的功耗的第一差值;
所述处理单元获取所述GPU的功耗,并计算与所述GPU模组空载下的功耗的第二差值;
所述处理单元通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗。
6.根据权利要求5所述的一种GPU服务器的电源冗余控制系统,其特征在于:通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗进一步为:当所述第二差值大于所述第一差值时,所述处理单元对所述GPU下发功耗限制的命令,限制所述GPU的功耗;
当所述第二差值不大于所述第一差值时,若所述GPU接收到所述功耗限制的命令,则所述处理单元对限制功耗的所述GPU下发解除功耗限制的命令,取消对所述GPU功耗的限制;若所述GPU未接收到所述功耗限制的命令,则所述处理单元不进行任何操作。
7.一种GPU服务器的电源冗余控制方法,其特征在于,包括以下步骤:
测试GPU模组空载功耗,获取电源冗余模组的功耗信息参数并根据所述参数设定电源输出功耗阈值;
根据所述GPU模组中GPU的功耗执行功耗限定策略,所述功耗限定策略为:当BMC发送心跳信号至CPLD时,所述BMC通过所述CPLD获取所述GPU的功耗,并根据所述电源输出功耗阈值控制所述GPU的功耗;
当所述BMC未发送心跳信号至所述CPLD时,所述CPLD获取所述GPU的功耗,获取所述电源冗余模组的额定功率,计算所述GPU模组空载功耗与所述额定功率差值,并记为第一差值,计算所述GPU模组空载功耗与所述GPU的功耗的差值,并记为第二差值;
通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗。
8.根据权利要求7所述的一种GPU服务器的电源冗余控制方法,其特征在于:所述通过比较所述第一差值和所述第二差值的大小控制所述GPU的功耗的步骤进一步包括:当所述第二差值大于所述第一差值时,对所述GPU下发功耗限制的命令,限制所述GPU的功耗;
当所述第二差值不大于所述第一差值时,对所述GPU不进行功耗限制。
9.根据权利要求7所述的一种GPU服务器的电源冗余控制方法,其特征在于:还包括当所述BMC重新输出所述心跳信号时,所述BMC控制所述GPU的功耗。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求7-9任一项所述的一种GPU服务器的电源冗余控制方法的步骤。
CN202110236427.1A 2021-03-03 2021-03-03 一种gpu服务器的电源冗余控制系统、方法及介质 Active CN113064479B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110236427.1A CN113064479B (zh) 2021-03-03 2021-03-03 一种gpu服务器的电源冗余控制系统、方法及介质
US18/277,373 US20240126356A1 (en) 2021-03-03 2022-01-28 Power redundancy control system and method for gpu server, and medium
PCT/CN2022/074616 WO2022183877A1 (zh) 2021-03-03 2022-01-28 一种gpu服务器的电源冗余控制系统、方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110236427.1A CN113064479B (zh) 2021-03-03 2021-03-03 一种gpu服务器的电源冗余控制系统、方法及介质

Publications (2)

Publication Number Publication Date
CN113064479A true CN113064479A (zh) 2021-07-02
CN113064479B CN113064479B (zh) 2023-05-23

Family

ID=76559579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110236427.1A Active CN113064479B (zh) 2021-03-03 2021-03-03 一种gpu服务器的电源冗余控制系统、方法及介质

Country Status (3)

Country Link
US (1) US20240126356A1 (zh)
CN (1) CN113064479B (zh)
WO (1) WO2022183877A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114442787A (zh) * 2022-01-28 2022-05-06 苏州浪潮智能科技有限公司 服务器进入功耗封顶后实现整机功耗回调的方法、系统
CN114442781A (zh) * 2021-12-30 2022-05-06 苏州浪潮智能科技有限公司 一种服务器功率的跟踪控制方法、系统及装置
WO2022183877A1 (zh) * 2021-03-03 2022-09-09 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
WO2023029375A1 (zh) * 2021-09-03 2023-03-09 苏州浪潮智能科技有限公司 一种四路服务器电源功耗管理装置
CN115982086A (zh) * 2023-02-14 2023-04-18 井芯微电子技术(天津)有限公司 一种芯片原型验证板

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103835972A (zh) * 2012-11-20 2014-06-04 英业达科技有限公司 风扇转速控制系统及用以控制风扇转速的方法
CN107145428A (zh) * 2017-05-26 2017-09-08 郑州云海信息技术有限公司 一种服务器及服务器监控方法
CN109162953A (zh) * 2018-11-01 2019-01-08 郑州云海信息技术有限公司 一种风扇控制装置及服务器
CN109882440A (zh) * 2019-04-16 2019-06-14 苏州浪潮智能科技有限公司 一种风扇转速控制装置及控制方法
CN109960632A (zh) * 2019-03-20 2019-07-02 苏州浪潮智能科技有限公司 一种实现gpu服务器电源冗余的方法及系统
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN111309132A (zh) * 2020-02-21 2020-06-19 苏州浪潮智能科技有限公司 一种服务器多档位电源冗余的方法
CN111427744A (zh) * 2020-03-13 2020-07-17 苏州浪潮智能科技有限公司 一种服务器的功耗管理方法、设备以及介质
CN111475009A (zh) * 2020-04-16 2020-07-31 苏州浪潮智能科技有限公司 一种服务器内gpu的降功耗电路及服务器
CN111927809A (zh) * 2020-07-10 2020-11-13 苏州浪潮智能科技有限公司 一种基于控制芯片的服务器风扇控制装置及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9239601B2 (en) * 2013-04-10 2016-01-19 Dell Products, L.P. Power supply unit (PSU) right-sizing that supports power transients, with mechanism for dynamic curtailment of power transients during a PSU failure
CN104794033A (zh) * 2015-04-29 2015-07-22 浪潮电子信息产业股份有限公司 一种基于bmc的cpu低频故障的定位方法及装置
CN109857614A (zh) * 2018-12-28 2019-06-07 曙光信息产业(北京)有限公司 一种机架服务器的容灾装置和方法
CN111026252B (zh) * 2019-12-06 2021-08-24 苏州浪潮智能科技有限公司 一种服务器温度冗余控制的方法及装置
CN113064479B (zh) * 2021-03-03 2023-05-23 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103835972A (zh) * 2012-11-20 2014-06-04 英业达科技有限公司 风扇转速控制系统及用以控制风扇转速的方法
CN107145428A (zh) * 2017-05-26 2017-09-08 郑州云海信息技术有限公司 一种服务器及服务器监控方法
CN109162953A (zh) * 2018-11-01 2019-01-08 郑州云海信息技术有限公司 一种风扇控制装置及服务器
CN109960632A (zh) * 2019-03-20 2019-07-02 苏州浪潮智能科技有限公司 一种实现gpu服务器电源冗余的方法及系统
CN109882440A (zh) * 2019-04-16 2019-06-14 苏州浪潮智能科技有限公司 一种风扇转速控制装置及控制方法
CN110362175A (zh) * 2019-06-29 2019-10-22 苏州浪潮智能科技有限公司 一种风扇控制方法及装置
CN111309132A (zh) * 2020-02-21 2020-06-19 苏州浪潮智能科技有限公司 一种服务器多档位电源冗余的方法
CN111427744A (zh) * 2020-03-13 2020-07-17 苏州浪潮智能科技有限公司 一种服务器的功耗管理方法、设备以及介质
CN111475009A (zh) * 2020-04-16 2020-07-31 苏州浪潮智能科技有限公司 一种服务器内gpu的降功耗电路及服务器
CN111927809A (zh) * 2020-07-10 2020-11-13 苏州浪潮智能科技有限公司 一种基于控制芯片的服务器风扇控制装置及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022183877A1 (zh) * 2021-03-03 2022-09-09 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
WO2023029375A1 (zh) * 2021-09-03 2023-03-09 苏州浪潮智能科技有限公司 一种四路服务器电源功耗管理装置
CN114442781A (zh) * 2021-12-30 2022-05-06 苏州浪潮智能科技有限公司 一种服务器功率的跟踪控制方法、系统及装置
CN114442781B (zh) * 2021-12-30 2023-08-22 浪潮(山东)计算机科技有限公司 一种服务器功率的跟踪控制方法、系统及装置
CN114442787A (zh) * 2022-01-28 2022-05-06 苏州浪潮智能科技有限公司 服务器进入功耗封顶后实现整机功耗回调的方法、系统
CN114442787B (zh) * 2022-01-28 2023-07-18 苏州浪潮智能科技有限公司 服务器进入功耗封顶后实现整机功耗回调的方法、系统
CN115982086A (zh) * 2023-02-14 2023-04-18 井芯微电子技术(天津)有限公司 一种芯片原型验证板

Also Published As

Publication number Publication date
US20240126356A1 (en) 2024-04-18
CN113064479B (zh) 2023-05-23
WO2022183877A1 (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN113064479B (zh) 一种gpu服务器的电源冗余控制系统、方法及介质
EP1835379A2 (en) UPS methods, systems and computer program products providing adaptive availability
US7831860B2 (en) System and method for testing redundancy and hot-swapping capability of a redundant power supply
US10802564B2 (en) Method and system for chassis voltage drop compensation
US20050034003A1 (en) Information processing apparatus and method, and computer-readable medium
US7058480B1 (en) Power supply control device, apparatus equipped therewith and recording medium
CN103197748A (zh) 伺服器机柜系统与其电源管理方法
JPH0651802A (ja) バックアップ機能を有するプログラマブル・コントローラ
CN112698989B (zh) 数据采集系统的双机互备方法及系统
CN105739668A (zh) 一种笔记本电脑的电源管理方法及电源管理系统
CN110659130A (zh) Cpu使用率自适应调整方法、装置、终端及存储介质
WO2023029375A1 (zh) 一种四路服务器电源功耗管理装置
CN111506174A (zh) 一种风扇控制方法、装置、电子设备和可读存储介质
CN111309132B (zh) 一种服务器多档位电源冗余的方法
EP2693617B1 (en) Power supply apparatus, processing apparatus, information processing system, and method for controlling power supply
CN116991221A (zh) 功耗调整方法及装置
JP6800935B2 (ja) 電子システムでのファンの制御方法
US11733762B2 (en) Method to allow for higher usable power capacity in a redundant power configuration
CN115047954B (zh) 一种设备散热控制方法、系统、装置、设备及存储介质
CN116449800A (zh) 一种控制逻辑切换方法、装置、设备及介质
CN113741668B (zh) 用于以多个电压输送电力的电源组合件
US20160132356A1 (en) Management apparatus and method for system configuration
CN113885689A (zh) 整机柜服务器供电控制方法、系统、终端及存储介质
CN113010999B (zh) 一种电源模块高精度均流的方法、系统及介质
CN111381659A (zh) 计算机系统及电源管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant