CN111475009A - 一种服务器内gpu的降功耗电路及服务器 - Google Patents
一种服务器内gpu的降功耗电路及服务器 Download PDFInfo
- Publication number
- CN111475009A CN111475009A CN202010300844.3A CN202010300844A CN111475009A CN 111475009 A CN111475009 A CN 111475009A CN 202010300844 A CN202010300844 A CN 202010300844A CN 111475009 A CN111475009 A CN 111475009A
- Authority
- CN
- China
- Prior art keywords
- server
- gpu
- frequency reduction
- psu
- chip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 126
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 101150085905 DCP2 gene Proteins 0.000 claims description 5
- 101100031494 Schizosaccharomyces pombe (strain 972 / ATCC 24843) psu1 gene Proteins 0.000 claims description 5
- 101100422754 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sui1 gene Proteins 0.000 claims description 5
- 239000013256 coordination polymer Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 13
- 230000002159 abnormal effect Effects 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229920002492 poly(sulfone) Polymers 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
- G06F1/3278—Power saving in modem or I/O interface
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3243—Power saving in microcontroller unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Power Sources (AREA)
Abstract
本发明公开了一种服务器内GPU的降功耗电路,包括降频控制芯片。降频控制芯片在接收到PSU生成的过功率告警信号后,生成降频控制信号至各GPU的PWRBRK引脚,以开启各GPU的降频操作。可见,本申请直接采用底层硬件线路实现,无需操作系统介入,响应速度较快,使得GPU的整个降频操作可在5ms内完成,PSU在此较短时间内不会触发过功率保护,从而避免了服务器异常掉电造成用户的业务数据丢失的情况发生。本发明还公开了一种服务器,与上述降功耗电路具有相同的有益效果。
Description
技术领域
本发明涉及服务器领域,特别是涉及一种服务器内GPU的降功耗电路及服务器。
背景技术
随着大数据、物联网等技术的应用,数据在近几年呈指数型增长,导致仅由CPU作为数据处理核心的传统服务器无法满足数据处理需求,搭载GPU(Graphics ProcessingUnit,图形处理器)的服务器应运而生。目前,随着GPU的计算能力不断提升,其功耗也随之升高,再加上服务器内CPU、内存、硬盘等硬件的存在,服务器的整机功耗将会超过为服务器供电的PSU(Power Supply Unit,供电模块)所能支持的上限。
现有技术中,服务器通常采用Power capping(功率封顶)方法限制服务器的整机功耗,以使服务器的整机功耗小于PSU所能支持的上限。具体地,Power capping方法为:提前为服务器设置一个总功耗阈值,在服务器运行的过程中,监控服务器的整机功耗是否超过所设的总功耗阈值,若是,则启动降功耗策略,即通过PCIE(peripheral componentinterconnectexpress,外围元件快速互联)总线向服务器内GPU下发降频指令,以使GPU在接收到降频指令后对自身运行频率进行限制。但是,Power capping方法在操作系统层面完成,存在较长时间的延时(大约在50ms左右),在此段时间内,PSU很有可能已经因超功率输出触发过功率保护(PSU超功率输出一段时间后会触发过功率保护),这将会导致服务器异常掉电,从而造成用户的业务数据丢失。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种服务器内GPU的降功耗电路及服务器,直接采用底层硬件线路实现,无需操作系统介入,响应速度较快,使得GPU的整个降频操作可在5ms内完成,PSU在此较短时间内不会触发过功率保护,从而避免了服务器异常掉电造成用户的业务数据丢失的情况发生。
为解决上述技术问题,本发明提供了一种服务器内GPU的降功耗电路,包括:
分别与服务器内的PSU和所述服务器内各GPU的PWRBRK引脚连接的降频控制芯片,用于在接收到所述PSU生成的过功率告警信号后,生成降频控制信号至各所述GPU的PWRBRK引脚,以开启各所述GPU的降频操作。
优选地,所述降功耗电路还包括:
分别与所述降频控制芯片的输出端和各所述GPU的PWRBRK引脚连接的开关芯片;
与所述开关芯片的通道控制端子连接的控制电路,用于根据所述服务器的整机功耗与所述PSU的额定功率的对比关系,从各所述GPU中确定需降频处理的目标GPU,并控制所述开关芯片将所述降频控制芯片和所述目标GPU之间的传输通道打开,以使所述降频控制信号输出至所述目标GPU的PWRBRK引脚,开启所述目标GPU的降频操作。
优选地,所述控制电路包括:
与所述开关芯片的通道控制端子连接的I/O扩展芯片;
与所述I/O扩展芯片连接的控制器,用于根据所述服务器的整机功耗与所述PSU的额定功率的对比关系,从各所述GPU中确定需降频处理的目标GPU,并通过所述I/O扩展芯片控制所述开关芯片将所述降频控制芯片和所述目标GPU之间的传输通道打开,以使所述降频控制信号输出至所述目标GPU的PWRBRK引脚。
优选地,所述控制器具体用于:
当P2+m*P3>P1时,将所述服务器中需降频处理的目标GPU的数量n从n=1开始遍历,确定第一个满足关系式P2+P3/N*n+(m-n)*P3≤P1≤P2+P3/N*(n-1)+(m-n+1)*P3的整数k;其中,P1为所述PSU的额定功率,P2为所述服务器整机中除GPU外的其他部件总功耗,P3为单个GPU的功耗,m为所述服务器整机中GPU的总数量,N为预设参数;
当k≤m时,通过所述I/O扩展芯片控制所述开关芯片打开所述降频控制芯片和k个GPU之间的传输通道,以使所述降频控制信号输出至k个所述GPU的PWRBRK引脚;
当k>m时,通过所述I/O扩展芯片控制所述开关芯片打开所述降频控制芯片和m个GPU之间的传输通道,以使所述降频控制信号输出至m个所述GPU的PWRBRK引脚。
优选地,所述控制器通过PMBus总线与所述PSU连接;
且所述控制器还用于当k≤m时,降低所述PSU的过功率阈值。
优选地,所述控制器具体用于当k≤m时,根据过功率阈值P=P2+P3/N*k+(m-k)*P3修改所述PSU的过功率阈值,以降低所述PSU的过功率阈值。
优选地,所述控制器还用于当k>m时,进行表征所述服务器在降频后的整机功耗仍超过所述PSU的额定功率的告警。
优选地,所述降频控制芯片具体为所述服务器内的CPLD,所述控制器具体为所述服务器内的BMC。
为解决上述技术问题,本发明还提供了一种服务器,包括PSU和GPU,还包括上述任一种服务器内GPU的降功耗电路。
优选地,所述PSU具体为PSU1+1冗余架构。
本发明提供了一种服务器内GPU的降功耗电路,包括降频控制芯片。降频控制芯片在接收到PSU生成的过功率告警信号后,生成降频控制信号至各GPU的PWRBRK引脚,以开启各GPU的降频操作。可见,本申请直接采用底层硬件线路实现,无需操作系统介入,响应速度较快,使得GPU的整个降频操作可在5ms内完成,PSU在此较短时间内不会触发过功率保护,从而避免了服务器异常掉电造成用户的业务数据丢失的情况发生。
本发明还提供了一种服务器,与上述降功耗电路具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种服务器内GPU的降功耗电路的结构示意图;
图2为本发明实施例提供的一种服务器内GPU的降功耗电路的具体结构示意图;
图3为本发明实施例提供的一种服务器内GPU的降功耗电路的具体器件示意图。
具体实施方式
本发明的核心是提供一种服务器内GPU的降功耗电路及服务器,直接采用底层硬件线路实现,无需操作系统介入,响应速度较快,使得GPU的整个降频操作可在5ms内完成,PSU在此较短时间内不会触发过功率保护,从而避免了服务器异常掉电造成用户的业务数据丢失的情况发生。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种服务器内GPU的降功耗电路的结构示意图。
该服务器内GPU的降功耗电路包括:
分别与服务器内的PSU和服务器内各GPU的PWRBRK引脚连接的降频控制芯片1,用于在接收到PSU生成的过功率告警信号后,生成降频控制信号至各GPU的PWRBRK引脚,以开启各GPU的降频操作。
具体地,本申请的服务器内GPU的降功耗电路包括降频控制芯片1,其工作原理为:
服务器的PSU在检测到自身输出功率大于预设过功率阈值(本申请可选用PSU的额定功率)时,生成过功率告警信号至降频控制芯片1。降频控制芯片1在接收到过功率告警信号后,生成降频控制信号至服务器内各GPU的PWRBRK引脚(全称power break引脚,即功率控制引脚)。每个GPU的PWRBRK引脚在接收到降频控制信号后,会将功耗降至当前功耗的1/N(N为正参数,N的取值取决于GPU内部所设置的降功耗策略,如N=4)左右,从而使服务器的整机功耗以较快速度降至PSU可支持的范围内,以保证系统不掉电。
此外,本申请的PSU可选用PSU1+1冗余架构,则降频控制芯片1与两个PSU连接,用于在接收到任一PSU生成的过功率告警信号后,均生成降频控制信号。由于本申请的GPU可实现快速降频响应,所以本申请可满足具有PSU1+1冗余架构的服务器产品的设计要求。
本发明提供了一种服务器内GPU的降功耗电路,包括降频控制芯片。降频控制芯片在接收到PSU生成的过功率告警信号后,生成降频控制信号至各GPU的PWRBRK引脚,以开启各GPU的降频操作。可见,本申请直接采用底层硬件线路实现,无需操作系统介入,响应速度较快,使得GPU的整个降频操作可在5ms内完成,PSU在此较短时间内不会触发过功率保护,从而避免了服务器异常掉电造成用户的业务数据丢失的情况发生。
在上述实施例的基础上:
请参照图2,图2为本发明实施例提供的一种服务器内GPU的降功耗电路的具体结构示意图。
作为一种可选的实施例,降功耗电路还包括:
分别与降频控制芯片1的输出端和各GPU的PWRBRK引脚连接的开关芯片2;
与开关芯片2的通道控制端子连接的控制电路3,用于根据服务器的整机功耗与PSU的额定功率的对比关系,从各GPU中确定需降频处理的目标GPU,并控制开关芯片2将降频控制芯片1和目标GPU之间的传输通道打开,以使降频控制信号输出至目标GPU的PWRBRK引脚,开启目标GPU的降频操作。
具体地,本申请的降功耗电路还包括开关芯片2(可选用FETSwitch的芯片)和控制电路3,其工作原理为:
开关芯片2设于降频控制芯片1的输出端和各GPU的PWRBRK引脚之间的连接线路上,用于一一控制降频控制芯片1的输出端与各GPU的PWRBRK引脚之间的线路通断,可以理解的是,当降频控制芯片1的输出端与一GPU的PWRBRK引脚之间的线路连通时,降频控制芯片1生成的降频控制信号可输出至此GPU的PWRBRK引脚;当降频控制芯片1的输出端与一GPU的PWRBRK引脚之间的线路断开时,降频控制芯片1生成的降频控制信号无法输出至此GPU的PWRBRK引脚。
基于此,控制电路3分别获取服务器的整机功耗和PSU的额定功率,然后根据服务器的整机功耗与PSU的额定功率的对比关系,从服务器内所有GPU中确定需降频处理的目标GPU,目的是控制开关芯片2连通降频控制芯片1的输出端与目标GPU的PWRBRK引脚之间的线路,即将降频控制芯片1和目标GPU之间的传输通道打开,从而使降频控制芯片1生成的降频控制信号输出至目标GPU的PWRBRK引脚,开启目标GPU的降频操作。
作为一种可选的实施例,控制电路3包括:
与开关芯片2的通道控制端子连接的I/O扩展芯片;
与I/O扩展芯片连接的控制器,用于根据服务器的整机功耗与PSU的额定功率的对比关系,从各GPU中确定需降频处理的目标GPU,并通过I/O扩展芯片控制开关芯片2将降频控制芯片1和目标GPU之间的传输通道打开,以使降频控制信号输出至目标GPU的PWRBRK引脚。
具体地,本申请的控制电路3包括I/O(Input/Output,输入/输出)扩展芯片(可选用PCA9555型号的芯片)和控制器,其工作原理为:
开关芯片2的传输通道数量需大于等于服务器内GPU的总数量(如图3所示,服务器内设有4个GPU,本申请对此不做特别地限定),且开关芯片2上设有用于一一控制传输通道打开或关闭的通道控制端子(如图3所示OE1-OE4)。考虑到控制器的I/O口有限,所以本申请的控制器通过I/O扩展芯片与开关芯片2的通道控制端子一一连接,以使控制器通过控制I/O扩展芯片的输出信号来控制开关芯片2的传输通道打开或关闭。
作为一种可选的实施例,控制器具体用于:
当P2+m*P3>P1时,将服务器中需降频处理的目标GPU的数量n从n=1开始遍历,确定第一个满足关系式P2+P3/N*n+(m-n)*P3≤P1≤P2+P3/N*(n-1)+(m-n+1)*P3的整数k;其中,P1为PSU的额定功率,P2为服务器整机中除GPU外的其他部件总功耗,P3为单个GPU的功耗,m为服务器整机中GPU的总数量,N为预设参数;
当k≤m时,通过I/O扩展芯片控制开关芯片2打开降频控制芯片1和k个GPU之间的传输通道,以使降频控制信号输出至k个GPU的PWRBRK引脚;
当k>m时,通过I/O扩展芯片控制开关芯片2打开降频控制芯片1和m个GPU之间的传输通道,以使降频控制信号输出至m个GPU的PWRBRK引脚。
具体地,设PSU的额定功率为P1,服务器整机中除GPU外的其他部件总功耗为P2,单个GPU的功耗为P3,服务器整机中GPU的总数量为m,则:
1)若P2+m*P3≤P1,说明服务器的整机功耗未超出PSU所能支持的上限,则系统无需执行降频策略。
2)若P2+m*P3>P1,说明服务器的整机功耗超出PSU所能支持的上限,则系统需执行降频策略。设系统中需降频处理的目标GPU的数量为n,将n从n=1开始遍历,找到第一个满足如下关系式的整数k:
P2+P3/4*n+(m-n)*P3≤P1≤P2+P3/4*(n-1)+(m-n+1)*P3。
当k≤m时,说明需对系统中k个GPU进行降频处理,即可满足降频后服务器的整机功耗低于PSU的额定功率,则此时控制器通过I/O扩展芯片控制开关芯片2打开降频控制芯片1和k个GPU之间的传输通道,以使降频控制芯片1生成的降频控制信号输出至k个GPU的PWRBRK引脚。
当k>m时,此时控制器通过I/O扩展芯片控制开关芯片2打开降频控制芯片1和所有GPU之间的传输通道,以使降频控制芯片1生成的降频控制信号输出至所有GPU的PWRBRK引脚。
作为一种可选的实施例,控制器通过PMBus总线与PSU连接;
且控制器还用于当k≤m时,降低PSU的过功率阈值。
进一步地,控制器通过PMBus总线(电源管理总线)与PSU连接,目的是当k≤m时,通过PMBus总线降低PSU的过功率阈值,从而更有效避免GPU降频操作生效前PSU过载。
作为一种可选的实施例,控制器具体用于当k≤m时,根据过功率阈值P=P2+P3/N*k+(m-k)*P3修改PSU的过功率阈值,以降低PSU的过功率阈值。
具体地,当k≤m时,控制器可根据过功率阈值P=P2+P3/N*k+(m-k)*P3修改PSU的过功率阈值,从而较为合理地降低PSU的过功率阈值。
作为一种可选的实施例,控制器还用于当k>m时,进行表征服务器在降频后的整机功耗仍超过PSU的额定功率的告警。
进一步地,考虑到当k>m时,即使对系统中全部的m个GPU进行降频处理,降频后服务器的整机功耗也会超出PSU的额定功率,所以当k>m时,控制器还进行表征服务器在降频后的整机功耗仍超过PSU的额定功率的告警,如控制BMC(Baseboard Manager Controller,基板管理控制器)的web界面进行告警提示,供用户查看。
作为一种可选的实施例,降频控制芯片1具体为服务器内的CPLD,控制器具体为服务器内的BMC。
具体地,本申请的降频控制芯片1可采用服务器内的CPLD(Complex ProgrammableLogic Device,CPLD)实现,控制器可采用服务器内的BMC实现,如图3所示,无需另外增设器件,节约了成本,简化了结构。
更具体地,BMC可通过PMBus总线读取PSU的额定功率,并通过I2C总线读取GPU以及系统中其他部件的最大功耗,然后根据关系式P2+P3/4*n+(m-n)*P3≤P1≤P2+P3/4*(n-1)+(m-n+1)*P3,得到需要开启降频控制的GPU数量和PSU的过功率阈值的重新设定值。
本申请还提供了一种服务器,包括PSU和GPU,还包括上述任一种服务器内GPU的降功耗电路。
作为一种可选的实施例,PSU具体为PSU1+1冗余架构。
本申请提供的服务器的介绍请参考上述降功耗电路的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种服务器内GPU的降功耗电路,其特征在于,包括:
分别与服务器内的PSU和所述服务器内各GPU的PWRBRK引脚连接的降频控制芯片,用于在接收到所述PSU生成的过功率告警信号后,生成降频控制信号至各所述GPU的PWRBRK引脚,以开启各所述GPU的降频操作。
2.如权利要求1所述的服务器内GPU的降功耗电路,其特征在于,所述降功耗电路还包括:
分别与所述降频控制芯片的输出端和各所述GPU的PWRBRK引脚连接的开关芯片;
与所述开关芯片的通道控制端子连接的控制电路,用于根据所述服务器的整机功耗与所述PSU的额定功率的对比关系,从各所述GPU中确定需降频处理的目标GPU,并控制所述开关芯片将所述降频控制芯片和所述目标GPU之间的传输通道打开,以使所述降频控制信号输出至所述目标GPU的PWRBRK引脚,开启所述目标GPU的降频操作。
3.如权利要求2所述的服务器内GPU的降功耗电路,其特征在于,所述控制电路包括:
与所述开关芯片的通道控制端子连接的I/O扩展芯片;
与所述I/O扩展芯片连接的控制器,用于根据所述服务器的整机功耗与所述PSU的额定功率的对比关系,从各所述GPU中确定需降频处理的目标GPU,并通过所述I/O扩展芯片控制所述开关芯片将所述降频控制芯片和所述目标GPU之间的传输通道打开,以使所述降频控制信号输出至所述目标GPU的PWRBRK引脚。
4.如权利要求3所述的服务器内GPU的降功耗电路,其特征在于,所述控制器具体用于:
当P2+m*P3>P1时,将所述服务器中需降频处理的目标GPU的数量n从n=1开始遍历,确定第一个满足关系式P2+P3/N*n+(m-n)*P3≤P1≤P2+P3/N*(n-1)+(m-n+1)*P3的整数k;其中,P1为所述PSU的额定功率,P2为所述服务器整机中除GPU外的其他部件总功耗,P3为单个GPU的功耗,m为所述服务器整机中GPU的总数量,N为预设参数;
当k≤m时,通过所述I/O扩展芯片控制所述开关芯片打开所述降频控制芯片和k个GPU之间的传输通道,以使所述降频控制信号输出至k个所述GPU的PWRBRK引脚;
当k>m时,通过所述I/O扩展芯片控制所述开关芯片打开所述降频控制芯片和m个GPU之间的传输通道,以使所述降频控制信号输出至m个所述GPU的PWRBRK引脚。
5.如权利要求4所述的服务器内GPU的降功耗电路,其特征在于,所述控制器通过PMBus总线与所述PSU连接;
且所述控制器还用于当k≤m时,降低所述PSU的过功率阈值。
6.如权利要求5所述的服务器内GPU的降功耗电路,其特征在于,所述控制器具体用于当k≤m时,根据过功率阈值P=P2+P3/N*k+(m-k)*P3修改所述PSU的过功率阈值,以降低所述PSU的过功率阈值。
7.如权利要求4所述的服务器内GPU的降功耗电路,其特征在于,所述控制器还用于当k>m时,进行表征所述服务器在降频后的整机功耗仍超过所述PSU的额定功率的告警。
8.如权利要求3所述的服务器内GPU的降功耗电路,其特征在于,所述降频控制芯片具体为所述服务器内的CPLD,所述控制器具体为所述服务器内的BMC。
9.一种服务器,其特征在于,包括PSU和GPU,还包括如权利要求1-8任一项所述的服务器内GPU的降功耗电路。
10.如权利要求9所述的服务器,其特征在于,所述PSU具体为PSU 1+1冗余架构。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300844.3A CN111475009B (zh) | 2020-04-16 | 2020-04-16 | 一种服务器内gpu的降功耗电路及服务器 |
US17/791,310 US11656674B2 (en) | 2020-04-16 | 2020-09-24 | Power consumption reduction circuit for GPUs in server, and server |
PCT/CN2020/117277 WO2021208360A1 (zh) | 2020-04-16 | 2020-09-24 | 一种服务器内gpu的降功耗电路及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010300844.3A CN111475009B (zh) | 2020-04-16 | 2020-04-16 | 一种服务器内gpu的降功耗电路及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475009A true CN111475009A (zh) | 2020-07-31 |
CN111475009B CN111475009B (zh) | 2022-03-22 |
Family
ID=71753762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010300844.3A Active CN111475009B (zh) | 2020-04-16 | 2020-04-16 | 一种服务器内gpu的降功耗电路及服务器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11656674B2 (zh) |
CN (1) | CN111475009B (zh) |
WO (1) | WO2021208360A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112269466A (zh) * | 2020-10-16 | 2021-01-26 | 苏州浪潮智能科技有限公司 | 一种功率芯片的供电方法及服务器主板 |
CN112947720A (zh) * | 2021-02-19 | 2021-06-11 | 浪潮电子信息产业股份有限公司 | 一种ai服务器的安全控制方法及系统 |
CN113064479A (zh) * | 2021-03-03 | 2021-07-02 | 山东英信计算机技术有限公司 | 一种gpu服务器的电源冗余控制系统、方法及介质 |
CN113157076A (zh) * | 2021-04-22 | 2021-07-23 | 中科可控信息产业有限公司 | 一种电子设备及功耗控制方法 |
WO2021208360A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种服务器内gpu的降功耗电路及服务器 |
CN114759773A (zh) * | 2022-04-22 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种服务器多输入电源、控制方法及存储介质 |
WO2023045200A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州浪潮智能科技有限公司 | 一种cpu性能调节方法、装置及介质 |
WO2024109026A1 (zh) * | 2022-11-24 | 2024-05-30 | 苏州元脑智能科技有限公司 | 服务器中断操作执行方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117369612B (zh) * | 2023-12-08 | 2024-02-13 | 电子科技大学 | 一种服务器硬件管理系统及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104238719A (zh) * | 2013-06-20 | 2014-12-24 | 广达电脑股份有限公司 | 计算机系统及其电源管理方法 |
CN104798005A (zh) * | 2012-12-28 | 2015-07-22 | 英特尔公司 | 总平台功率控制 |
CN106598814A (zh) * | 2016-12-26 | 2017-04-26 | 郑州云海信息技术有限公司 | 一种实现服务器系统过热保护的设计方法 |
CN107450702A (zh) * | 2017-06-29 | 2017-12-08 | 郑州云海信息技术有限公司 | 一种减小Rack GPU电压波动的供电系统 |
CN107831883A (zh) * | 2017-11-24 | 2018-03-23 | 郑州云海信息技术有限公司 | 一种gpu服务器电源异常保护系统及方法 |
CN107844187A (zh) * | 2016-09-21 | 2018-03-27 | 龙芯中科技术有限公司 | 功耗管理方法、装置及电子设备 |
CN109960632A (zh) * | 2019-03-20 | 2019-07-02 | 苏州浪潮智能科技有限公司 | 一种实现gpu服务器电源冗余的方法及系统 |
CN110147155A (zh) * | 2019-05-21 | 2019-08-20 | 苏州浪潮智能科技有限公司 | 基于bmc的服务器电源冷冗余控制方法、装置及bmc |
CN110597684A (zh) * | 2019-08-02 | 2019-12-20 | 苏州浪潮智能科技有限公司 | 一种降低系统过载风险的psu及降低系统过载风险方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919240B (zh) * | 2015-12-28 | 2022-12-09 | 伊姆西Ip控股有限责任公司 | 用于向处理器供电的方法和设备 |
CN107908583B (zh) * | 2017-11-09 | 2021-05-25 | 郑州云海信息技术有限公司 | 一种服务器用功耗管理板 |
CN108304295A (zh) * | 2018-01-29 | 2018-07-20 | 郑州云海信息技术有限公司 | 一种控制gpu降频的方法、装置和计算机可读存储介质 |
US10761592B2 (en) * | 2018-02-23 | 2020-09-01 | Dell Products L.P. | Power subsystem-monitoring-based graphics processing system |
US10788876B2 (en) * | 2018-07-27 | 2020-09-29 | Dell Products L.P. | System and method to maintain power cap while baseboard management controller reboots |
CN210111685U (zh) * | 2019-06-14 | 2020-02-21 | 同方国际信息技术(苏州)有限公司 | 一种电源切换的快速反应电路 |
CN111475009B (zh) * | 2020-04-16 | 2022-03-22 | 苏州浪潮智能科技有限公司 | 一种服务器内gpu的降功耗电路及服务器 |
-
2020
- 2020-04-16 CN CN202010300844.3A patent/CN111475009B/zh active Active
- 2020-09-24 US US17/791,310 patent/US11656674B2/en active Active
- 2020-09-24 WO PCT/CN2020/117277 patent/WO2021208360A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104798005A (zh) * | 2012-12-28 | 2015-07-22 | 英特尔公司 | 总平台功率控制 |
CN104238719A (zh) * | 2013-06-20 | 2014-12-24 | 广达电脑股份有限公司 | 计算机系统及其电源管理方法 |
CN107844187A (zh) * | 2016-09-21 | 2018-03-27 | 龙芯中科技术有限公司 | 功耗管理方法、装置及电子设备 |
CN106598814A (zh) * | 2016-12-26 | 2017-04-26 | 郑州云海信息技术有限公司 | 一种实现服务器系统过热保护的设计方法 |
CN107450702A (zh) * | 2017-06-29 | 2017-12-08 | 郑州云海信息技术有限公司 | 一种减小Rack GPU电压波动的供电系统 |
CN107831883A (zh) * | 2017-11-24 | 2018-03-23 | 郑州云海信息技术有限公司 | 一种gpu服务器电源异常保护系统及方法 |
CN109960632A (zh) * | 2019-03-20 | 2019-07-02 | 苏州浪潮智能科技有限公司 | 一种实现gpu服务器电源冗余的方法及系统 |
CN110147155A (zh) * | 2019-05-21 | 2019-08-20 | 苏州浪潮智能科技有限公司 | 基于bmc的服务器电源冷冗余控制方法、装置及bmc |
CN110597684A (zh) * | 2019-08-02 | 2019-12-20 | 苏州浪潮智能科技有限公司 | 一种降低系统过载风险的psu及降低系统过载风险方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021208360A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种服务器内gpu的降功耗电路及服务器 |
US11656674B2 (en) | 2020-04-16 | 2023-05-23 | Inspur Suzhou Intelligent Technology Co., Ltd. | Power consumption reduction circuit for GPUs in server, and server |
CN112269466B (zh) * | 2020-10-16 | 2022-07-08 | 苏州浪潮智能科技有限公司 | 一种功率芯片的供电方法及服务器主板 |
CN112269466A (zh) * | 2020-10-16 | 2021-01-26 | 苏州浪潮智能科技有限公司 | 一种功率芯片的供电方法及服务器主板 |
US11775048B1 (en) | 2021-02-19 | 2023-10-03 | Inspur Electronic Information Industry Co., Ltd. | Safety control method and system for AI server |
CN112947720A (zh) * | 2021-02-19 | 2021-06-11 | 浪潮电子信息产业股份有限公司 | 一种ai服务器的安全控制方法及系统 |
CN112947720B (zh) * | 2021-02-19 | 2022-12-09 | 浪潮电子信息产业股份有限公司 | 一种ai服务器的安全控制方法及系统 |
CN113064479A (zh) * | 2021-03-03 | 2021-07-02 | 山东英信计算机技术有限公司 | 一种gpu服务器的电源冗余控制系统、方法及介质 |
WO2022183877A1 (zh) * | 2021-03-03 | 2022-09-09 | 山东英信计算机技术有限公司 | 一种gpu服务器的电源冗余控制系统、方法及介质 |
CN113157076A (zh) * | 2021-04-22 | 2021-07-23 | 中科可控信息产业有限公司 | 一种电子设备及功耗控制方法 |
CN113157076B (zh) * | 2021-04-22 | 2024-01-30 | 中科可控信息产业有限公司 | 一种电子设备及功耗控制方法 |
WO2023045200A1 (zh) * | 2021-09-27 | 2023-03-30 | 苏州浪潮智能科技有限公司 | 一种cpu性能调节方法、装置及介质 |
CN114759773B (zh) * | 2022-04-22 | 2023-11-03 | 苏州浪潮智能科技有限公司 | 一种服务器多输入电源、控制方法及存储介质 |
CN114759773A (zh) * | 2022-04-22 | 2022-07-15 | 苏州浪潮智能科技有限公司 | 一种服务器多输入电源、控制方法及存储介质 |
WO2024109026A1 (zh) * | 2022-11-24 | 2024-05-30 | 苏州元脑智能科技有限公司 | 服务器中断操作执行方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230035371A1 (en) | 2023-02-02 |
CN111475009B (zh) | 2022-03-22 |
US11656674B2 (en) | 2023-05-23 |
WO2021208360A1 (zh) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475009B (zh) | 一种服务器内gpu的降功耗电路及服务器 | |
TWI567540B (zh) | 動態管理電力供應的方法、系統 | |
US8782450B2 (en) | Power capping system and method | |
KR102284467B1 (ko) | 네트워크 디바이스에서의 수신된 패킷의 처리와 연관된 전력 관리 기법 | |
CN103092138B (zh) | 一种机柜系统的控制方法 | |
US6889332B2 (en) | Variable maximum die temperature based on performance state | |
US9811145B2 (en) | Reduction of idle power in a communication port | |
CN106371540B (zh) | 系统电源管理方法、芯片及电子设备 | |
CN111475288A (zh) | 一种服务器及其供电保护系统 | |
CN113835508A (zh) | 一种服务器的功耗管理方法、装置、bmc及存储介质 | |
KR101355326B1 (ko) | 포트를 활성 상태로부터 대기 상태로 전이하는 방법, 통신장치에서 이용하기 위한 장치 및 데이터 통신 시스템 | |
WO2023029375A1 (zh) | 一种四路服务器电源功耗管理装置 | |
US11243592B2 (en) | System and method for controlling a power-on sequence and power throttling using power brake | |
CN109062392A (zh) | 一种自动切换服务器板卡供电的设备、方法及系统 | |
CN113360344B (zh) | 一种服务器监控方法、装置、设备及计算机可读存储介质 | |
TW202125156A (zh) | 在待機階段提供電源的方法 | |
CN117148953A (zh) | 微控制器及电子设备 | |
CN111190468B (zh) | 一种ocp网卡散热装置及方法 | |
CN106301804A (zh) | 一种实现网络唤醒的服务器、系统及方法 | |
CN115189439A (zh) | 功率分配单元的预充时间调整方法、终端及存储介质 | |
CN114610562A (zh) | 服务器功耗管控方法、系统、终端及存储介质 | |
TWI719461B (zh) | 伺服器電源管理方法及系統 | |
CN109976490B (zh) | 电源控制方法及电子设备 | |
WO2023209903A1 (ja) | 判定装置、判定方法、及びプログラム | |
CN118572980A (zh) | 一种死锁解决电路、电源管理模块及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |