CN109002155A - 一种gpu服务器散热调控方法及系统 - Google Patents
一种gpu服务器散热调控方法及系统 Download PDFInfo
- Publication number
- CN109002155A CN109002155A CN201811178785.6A CN201811178785A CN109002155A CN 109002155 A CN109002155 A CN 109002155A CN 201811178785 A CN201811178785 A CN 201811178785A CN 109002155 A CN109002155 A CN 109002155A
- Authority
- CN
- China
- Prior art keywords
- gpu server
- power consumption
- video card
- gpu
- overall power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
- Power Sources (AREA)
Abstract
本发明提供一种GPU服务器散热调控方法及系统,属于GPU服务器散热设计领域。具体的,本发明通过加压显卡至不同功耗下,获得对应的GPU服务器整机功耗值,然后调整GPU服务器系统风扇转速,使显卡工作持续在满载且目标操作温度以下;本发明可通过整机功耗来调整风扇转速,进而实现GPU服务器散热调控的目的。
Description
技术领域
本发明属于GPU服务器散热设计领域,涉及一种GPU服务器散热调控方法及系统,用于GPU服务器显卡加压时调控GPU服务器散热。
背景技术
当前高端显卡已广泛用于图像视频计算与深度学习领域,高功耗显卡对整机散热提出较高要求;系统需要掌握显卡在不同负载下的温度来调节整机风扇转速,以满足显卡在高性能负载下能够持续运行;
不同于被动散热GPU卡的情况,GPU服务器可通过SMBUS信号直接读取GPU芯片温度进而调整GPU服务器风扇转速。主动散热的GTX显卡,芯片原厂未开放SMBUS寄存器地址给服务器厂商,所以GPU服务器无法通过SMBUS掌握显卡温度。该类显卡自带风扇,有独立的散热调控策略。对显卡加压显卡功耗超过200W的GTX显卡(GTX显卡较紧密的排列在机箱内)温度升高到某设定值时,显卡本身设计策略是保持在基准频率运行,此时无法达到满载运行;当显卡温度再升高,则会出现降频甚至是宕机问题。
发明内容
鉴于上述问题,本发明提供了一种GPU服务器散热调控方法及系统,该方法基于BMC(基板管理控制器),应用于GPU服务器显卡加压时,具体通过监控GPU服务器整机功耗调整GPU服务器风扇的转速以实现GPU服务器散热调控;本发明使得显卡工作持续在满载且目标操作温度以下。本发明的技术方案如下:
一种GPU服务器散热调控方法,通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
进一步的,GPU服务器显卡为主动散热显卡;优选为GTX主动散热显卡。
更进一步的,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
本发明还包括,一种GPU服务器散热调控系统,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于依据监控模块实时监控到的GPU服务器整机功耗,依据GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系调整GPU服务器风扇的转速。
进一步的,GPU服务器显卡为主动散热显卡;优选为GTX主动散热显卡。
基于GPU服务器散热调控系统的,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
从以上技术方案可以看出,本发明具有以下优点:
(1)本发明提供的是基于BMC,应用于GPU服务器显卡加压时通过监控整机功耗调整风扇转速的散热方法,具体的,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:实时监控GPU服务器整机功耗;实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速;本发明使得显卡工作持续在满载且目标操作温度以下。
(2)本发明还提供了一种GPU服务器散热调控系统,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:监控模块,用于实时监控GPU服务器整机功耗;散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速;同样的,本发明GPU服务器散热调控系统使得显卡工作持续在满载且目标操作温度以下。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述GPU服务器散热调控方法的方法流程示意图。
图2为本发明所述GPU服务器散热调控系统的功能结构框图示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
实施例1:
GPU服务器散热调控方法基于BMC,应用于GPU服务器显卡加压时,通过监控GPU服务器整机功耗调整GPU服务器风扇转速;
如图1所示,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
以显卡为GTX1080TI为例,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)通过nvidia-smi查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,显卡加压至功耗为50W、100W、150W、200W、250W;
(3)分别在BMC下读出系统总功耗,并调节风扇转速,使显卡温度工作在TargetTemprature以下;这里的Target Temprature是显卡工作在BOOST频率并满载运行的最大温度;分别将显卡加压至功耗为50W、100W、150W、200W、250W时的系统风扇转速定义为R1、R2、R3、R4、R5;显卡加压至功耗为50W、100W、150W、200W、250W时系统总功耗分别定义为P1、P2、P3、P4、P5;记录系统总功耗与系统风扇转速调节的关系,作为GTX显卡用作深度学习计算或者AI框架训练时的整机风扇散热策略;设定此时的BMC版本为GTX显卡满载运行应用下的版本;特别的,显卡不加压时,整机散热策略仍按照原本系统散热设计。需要说明的是,本实施例中的功耗值可根据实际需要进行调整。
所述的GPU服务器散热调控系统,如图2所示,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
使用时,BMC通过监控模块实时监控GPU服务器整机功耗,基于监控模块实时监控到的GPU服务器整机功耗,(BMC)散热调控模块依据GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系的调控策略调整GPU服务器风扇的转速。
具体地,所述GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种GPU服务器散热调控方法,其特征在于,该方法基于BMC,应用于GPU服务器显卡加压时,其通过监控GPU服务器整机功耗调整GPU服务器风扇的转速。
2.根据权利要求1所述的GPU服务器散热调控方法,其特征在于,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
3.根据权利要求2所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器显卡为主动散热显卡。
4.根据权利要求3所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器显卡为GTX主动散热显卡。
5.根据权利要求2所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
6.一种GPU服务器散热调控系统,其特征在于,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
7.根据权利要求6所述的GPU服务器散热调控系统,其特征在于,所述GPU服务器显卡为主动散热显卡。
8.根据权利要求7所述的GPU服务器散热调控系统,其特征在于,所述显卡为GTX主动散热显卡。
9.根据权利要求6所述的GPU服务器散热调控系统,其特征在于,GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811178785.6A CN109002155A (zh) | 2018-10-10 | 2018-10-10 | 一种gpu服务器散热调控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811178785.6A CN109002155A (zh) | 2018-10-10 | 2018-10-10 | 一种gpu服务器散热调控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109002155A true CN109002155A (zh) | 2018-12-14 |
Family
ID=64589287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811178785.6A Pending CN109002155A (zh) | 2018-10-10 | 2018-10-10 | 一种gpu服务器散热调控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109002155A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427300A (zh) * | 2019-07-19 | 2019-11-08 | 广东浪潮大数据研究有限公司 | 服务器gpu性能调控方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103516537A (zh) * | 2012-06-25 | 2014-01-15 | 百度在线网络技术(北京)有限公司 | 整机柜的功耗管理方法及系统和整机柜 |
CN106292963A (zh) * | 2016-08-24 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于cpu功耗的风扇调控方法 |
CN107423183A (zh) * | 2017-04-25 | 2017-12-01 | 郑州云海信息技术有限公司 | 一种gtx系列显卡计算性能的加压测试方法 |
-
2018
- 2018-10-10 CN CN201811178785.6A patent/CN109002155A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103516537A (zh) * | 2012-06-25 | 2014-01-15 | 百度在线网络技术(北京)有限公司 | 整机柜的功耗管理方法及系统和整机柜 |
CN106292963A (zh) * | 2016-08-24 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种基于cpu功耗的风扇调控方法 |
CN107423183A (zh) * | 2017-04-25 | 2017-12-01 | 郑州云海信息技术有限公司 | 一种gtx系列显卡计算性能的加压测试方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427300A (zh) * | 2019-07-19 | 2019-11-08 | 广东浪潮大数据研究有限公司 | 服务器gpu性能调控方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10716245B2 (en) | Provisioning cooling elements for chillerless data centers | |
JP5254734B2 (ja) | 電子システムの電力を管理する方法、コンピュータ・プログラム、及び電子システム | |
US9304520B2 (en) | Thermal management | |
US7502952B2 (en) | Method and apparatus for thermal control of electronic components | |
CN104460902B (zh) | 一种优化功率的风扇调控方法及装置 | |
US9968008B2 (en) | Method of improving efficiency of fan in information technology hardware | |
CN109298764B (zh) | 一种根据设备功耗智能调节风扇转速的散热方法 | |
US20080306635A1 (en) | Method of optimizing air mover performance characteristics to minimize temperature variations in a computing system enclosure | |
CN106292963A (zh) | 一种基于cpu功耗的风扇调控方法 | |
CN105952675A (zh) | 计算机风扇控制方法及风扇控制系统 | |
US8756444B1 (en) | System and method for determining power consumption | |
CN106445027A (zh) | 一种计算机风扇转速智能调节方法及控制系统 | |
WO2001003483A1 (de) | Kühleinrichtung für ein elektrisches gerät | |
CN109002155A (zh) | 一种gpu服务器散热调控方法及系统 | |
CN106681887A (zh) | 一种Rack服务器电源进风温度监测的保护方法 | |
CN113075982A (zh) | 一种服务器智能网卡散热方法、装置、系统及介质 | |
CN104571421A (zh) | 一种刀片服务器散热设计方法 | |
CN107514382A (zh) | 一种调节机框风道以减小系统功耗的装置和方法 | |
CN105929915A (zh) | 一种cpu温度监测及散热装置 | |
CN116301252A (zh) | 一种服务器散热方法、装置、设备及存储介质 | |
CN108304051A (zh) | 一种散热装置、包含该散热装置的服务器及散热方法 | |
CN101673090A (zh) | 控制设备的方法、设备控制装置以及系统 | |
CN111538392B (zh) | 一种风扇控制方法、装置、电子设备和可读存储介质 | |
CN104604087A (zh) | 用于发电机组的电压调节器系统 | |
CN206226919U (zh) | 风扇数量随功率变化模块化散热调节结构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181214 |
|
RJ01 | Rejection of invention patent application after publication |