CN109002155A - 一种gpu服务器散热调控方法及系统 - Google Patents

一种gpu服务器散热调控方法及系统 Download PDF

Info

Publication number
CN109002155A
CN109002155A CN201811178785.6A CN201811178785A CN109002155A CN 109002155 A CN109002155 A CN 109002155A CN 201811178785 A CN201811178785 A CN 201811178785A CN 109002155 A CN109002155 A CN 109002155A
Authority
CN
China
Prior art keywords
gpu server
power consumption
video card
gpu
overall power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811178785.6A
Other languages
English (en)
Inventor
段春焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811178785.6A priority Critical patent/CN109002155A/zh
Publication of CN109002155A publication Critical patent/CN109002155A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)
  • Power Sources (AREA)

Abstract

本发明提供一种GPU服务器散热调控方法及系统,属于GPU服务器散热设计领域。具体的,本发明通过加压显卡至不同功耗下,获得对应的GPU服务器整机功耗值,然后调整GPU服务器系统风扇转速,使显卡工作持续在满载且目标操作温度以下;本发明可通过整机功耗来调整风扇转速,进而实现GPU服务器散热调控的目的。

Description

一种GPU服务器散热调控方法及系统
技术领域
本发明属于GPU服务器散热设计领域,涉及一种GPU服务器散热调控方法及系统,用于GPU服务器显卡加压时调控GPU服务器散热。
背景技术
当前高端显卡已广泛用于图像视频计算与深度学习领域,高功耗显卡对整机散热提出较高要求;系统需要掌握显卡在不同负载下的温度来调节整机风扇转速,以满足显卡在高性能负载下能够持续运行;
不同于被动散热GPU卡的情况,GPU服务器可通过SMBUS信号直接读取GPU芯片温度进而调整GPU服务器风扇转速。主动散热的GTX显卡,芯片原厂未开放SMBUS寄存器地址给服务器厂商,所以GPU服务器无法通过SMBUS掌握显卡温度。该类显卡自带风扇,有独立的散热调控策略。对显卡加压显卡功耗超过200W的GTX显卡(GTX显卡较紧密的排列在机箱内)温度升高到某设定值时,显卡本身设计策略是保持在基准频率运行,此时无法达到满载运行;当显卡温度再升高,则会出现降频甚至是宕机问题。
发明内容
鉴于上述问题,本发明提供了一种GPU服务器散热调控方法及系统,该方法基于BMC(基板管理控制器),应用于GPU服务器显卡加压时,具体通过监控GPU服务器整机功耗调整GPU服务器风扇的转速以实现GPU服务器散热调控;本发明使得显卡工作持续在满载且目标操作温度以下。本发明的技术方案如下:
一种GPU服务器散热调控方法,通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
进一步的,GPU服务器显卡为主动散热显卡;优选为GTX主动散热显卡。
更进一步的,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
本发明还包括,一种GPU服务器散热调控系统,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于依据监控模块实时监控到的GPU服务器整机功耗,依据GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系调整GPU服务器风扇的转速。
进一步的,GPU服务器显卡为主动散热显卡;优选为GTX主动散热显卡。
基于GPU服务器散热调控系统的,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
从以上技术方案可以看出,本发明具有以下优点:
(1)本发明提供的是基于BMC,应用于GPU服务器显卡加压时通过监控整机功耗调整风扇转速的散热方法,具体的,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:实时监控GPU服务器整机功耗;实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速;本发明使得显卡工作持续在满载且目标操作温度以下。
(2)本发明还提供了一种GPU服务器散热调控系统,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:监控模块,用于实时监控GPU服务器整机功耗;散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速;同样的,本发明GPU服务器散热调控系统使得显卡工作持续在满载且目标操作温度以下。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述GPU服务器散热调控方法的方法流程示意图。
图2为本发明所述GPU服务器散热调控系统的功能结构框图示意图。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利保护的范围。
实施例1:
GPU服务器散热调控方法基于BMC,应用于GPU服务器显卡加压时,通过监控GPU服务器整机功耗调整GPU服务器风扇转速;
如图1所示,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
以显卡为GTX1080TI为例,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)通过nvidia-smi查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,显卡加压至功耗为50W、100W、150W、200W、250W;
(3)分别在BMC下读出系统总功耗,并调节风扇转速,使显卡温度工作在TargetTemprature以下;这里的Target Temprature是显卡工作在BOOST频率并满载运行的最大温度;分别将显卡加压至功耗为50W、100W、150W、200W、250W时的系统风扇转速定义为R1、R2、R3、R4、R5;显卡加压至功耗为50W、100W、150W、200W、250W时系统总功耗分别定义为P1、P2、P3、P4、P5;记录系统总功耗与系统风扇转速调节的关系,作为GTX显卡用作深度学习计算或者AI框架训练时的整机风扇散热策略;设定此时的BMC版本为GTX显卡满载运行应用下的版本;特别的,显卡不加压时,整机散热策略仍按照原本系统散热设计。需要说明的是,本实施例中的功耗值可根据实际需要进行调整。
所述的GPU服务器散热调控系统,如图2所示,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
使用时,BMC通过监控模块实时监控GPU服务器整机功耗,基于监控模块实时监控到的GPU服务器整机功耗,(BMC)散热调控模块依据GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系的调控策略调整GPU服务器风扇的转速。
具体地,所述GPU服务器整机功耗及其对应GPU服务器风扇转速的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种GPU服务器散热调控方法,其特征在于,该方法基于BMC,应用于GPU服务器显卡加压时,其通过监控GPU服务器整机功耗调整GPU服务器风扇的转速。
2.根据权利要求1所述的GPU服务器散热调控方法,其特征在于,所述的通过监控GPU服务器整机功耗调整GPU服务器风扇转速的方法为:
实时监控GPU服务器整机功耗;
基于实时监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
3.根据权利要求2所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器显卡为主动散热显卡。
4.根据权利要求3所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器显卡为GTX主动散热显卡。
5.根据权利要求2所述的GPU服务器散热调控方法,其特征在于,所述GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
6.一种GPU服务器散热调控系统,其特征在于,该系统基于BMC,应用于GPU服务器显卡加压时,系统包括:
监控模块,用于实时监控GPU服务器整机功耗;
散热调控模块,与所述的监控模块相连,用于基于依据监控模块监控到的GPU服务器整机功耗,依据预先设定的GPU服务器风扇转速与GPU服务器整机功耗的对应关系调整GPU服务器风扇的转速。
7.根据权利要求6所述的GPU服务器散热调控系统,其特征在于,所述GPU服务器显卡为主动散热显卡。
8.根据权利要求7所述的GPU服务器散热调控系统,其特征在于,所述显卡为GTX主动散热显卡。
9.根据权利要求6所述的GPU服务器散热调控系统,其特征在于,GPU服务器风扇转速与GPU服务器整机功耗的对应关系的获得方法为:
(1)查看显卡功耗和温度;
(2)在显卡正常运行温度范围内,使显卡加压至不同功耗;
(3)对应监控GPU服务器整机功耗,分别调整风扇转速使显卡均持续工作在满载且目标温度以下,记录上述对应监控到的GPU服务器整机功耗及其各自对应的上述调整后的相应GPU服务器风扇转速,即获取到所述的GPU服务器风扇转速与GPU服务器整机功耗的对应关系;所述目标温度的取值范围与所述显卡正常运行温度范围相同。
CN201811178785.6A 2018-10-10 2018-10-10 一种gpu服务器散热调控方法及系统 Pending CN109002155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811178785.6A CN109002155A (zh) 2018-10-10 2018-10-10 一种gpu服务器散热调控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811178785.6A CN109002155A (zh) 2018-10-10 2018-10-10 一种gpu服务器散热调控方法及系统

Publications (1)

Publication Number Publication Date
CN109002155A true CN109002155A (zh) 2018-12-14

Family

ID=64589287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811178785.6A Pending CN109002155A (zh) 2018-10-10 2018-10-10 一种gpu服务器散热调控方法及系统

Country Status (1)

Country Link
CN (1) CN109002155A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427300A (zh) * 2019-07-19 2019-11-08 广东浪潮大数据研究有限公司 服务器gpu性能调控方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103516537A (zh) * 2012-06-25 2014-01-15 百度在线网络技术(北京)有限公司 整机柜的功耗管理方法及系统和整机柜
CN106292963A (zh) * 2016-08-24 2017-01-04 浪潮电子信息产业股份有限公司 一种基于cpu功耗的风扇调控方法
CN107423183A (zh) * 2017-04-25 2017-12-01 郑州云海信息技术有限公司 一种gtx系列显卡计算性能的加压测试方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103516537A (zh) * 2012-06-25 2014-01-15 百度在线网络技术(北京)有限公司 整机柜的功耗管理方法及系统和整机柜
CN106292963A (zh) * 2016-08-24 2017-01-04 浪潮电子信息产业股份有限公司 一种基于cpu功耗的风扇调控方法
CN107423183A (zh) * 2017-04-25 2017-12-01 郑州云海信息技术有限公司 一种gtx系列显卡计算性能的加压测试方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427300A (zh) * 2019-07-19 2019-11-08 广东浪潮大数据研究有限公司 服务器gpu性能调控方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US10716245B2 (en) Provisioning cooling elements for chillerless data centers
JP5254734B2 (ja) 電子システムの電力を管理する方法、コンピュータ・プログラム、及び電子システム
US9304520B2 (en) Thermal management
US7502952B2 (en) Method and apparatus for thermal control of electronic components
CN104460902B (zh) 一种优化功率的风扇调控方法及装置
US9968008B2 (en) Method of improving efficiency of fan in information technology hardware
CN109298764B (zh) 一种根据设备功耗智能调节风扇转速的散热方法
US20080306635A1 (en) Method of optimizing air mover performance characteristics to minimize temperature variations in a computing system enclosure
CN106292963A (zh) 一种基于cpu功耗的风扇调控方法
CN105952675A (zh) 计算机风扇控制方法及风扇控制系统
US8756444B1 (en) System and method for determining power consumption
CN106445027A (zh) 一种计算机风扇转速智能调节方法及控制系统
WO2001003483A1 (de) Kühleinrichtung für ein elektrisches gerät
CN109002155A (zh) 一种gpu服务器散热调控方法及系统
CN106681887A (zh) 一种Rack服务器电源进风温度监测的保护方法
CN113075982A (zh) 一种服务器智能网卡散热方法、装置、系统及介质
CN104571421A (zh) 一种刀片服务器散热设计方法
CN107514382A (zh) 一种调节机框风道以减小系统功耗的装置和方法
CN105929915A (zh) 一种cpu温度监测及散热装置
CN116301252A (zh) 一种服务器散热方法、装置、设备及存储介质
CN108304051A (zh) 一种散热装置、包含该散热装置的服务器及散热方法
CN101673090A (zh) 控制设备的方法、设备控制装置以及系统
CN111538392B (zh) 一种风扇控制方法、装置、电子设备和可读存储介质
CN104604087A (zh) 用于发电机组的电压调节器系统
CN206226919U (zh) 风扇数量随功率变化模块化散热调节结构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181214

RJ01 Rejection of invention patent application after publication