CN114035662A - Ai服务器散热调控方法、系统、终端及存储介质 - Google Patents
Ai服务器散热调控方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN114035662A CN114035662A CN202111202397.9A CN202111202397A CN114035662A CN 114035662 A CN114035662 A CN 114035662A CN 202111202397 A CN202111202397 A CN 202111202397A CN 114035662 A CN114035662 A CN 114035662A
- Authority
- CN
- China
- Prior art keywords
- bmc
- rotating speed
- target rotating
- fan
- temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033228 biological regulation Effects 0.000 title claims abstract description 63
- 230000017525 heat dissipation Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012544 monitoring process Methods 0.000 claims abstract description 43
- 230000001105 regulatory effect Effects 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 32
- 238000011217 control strategy Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003750 conditioning effect Effects 0.000 claims 1
- 230000001276 controlling effect Effects 0.000 abstract description 9
- 230000008447 perception Effects 0.000 abstract description 6
- 230000002093 peripheral effect Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000004069 differentiation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000001816 cooling Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
本发明提供一种AI服务器散热调控方法、系统、终端及存储介质,包括:利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。本发明能够对具有多种硬件的AI服务器进行有效散热,通过无需客户感知的方式,解决了硬件设备增多带来的整机散热风险。
Description
技术领域
本发明涉及服务器技术领域,具体涉及一种AI服务器散热调控方法、系统、终端及存储介质。
背景技术
深度学习,机器学习和高性能计算(HPC)正在改变着我们的世界。从自动驾驶汽车,优化零售物流到全球气候模拟,新的挑战正在出现,其解决方案需要巨大的计算资源。NVIDIA于2020年推出了HGX-2Next产品,是能够处理计算量最大的工作负载并实现“世界上最大的GPU”。它由16个A100GPU和NVIDIA NV SwitchTM加速,具有前所未有的计算能力,带宽和内存拓扑,可以更快,更高效地训练海量模型,分析数据集和解决模拟问题。
依托于HGX2-Next硬件,服务器厂商可以研发出性能更为强劲的AI服务器,同时,它也对整机散热提出了更大的挑战。与传统服务器不同,除了CPU、内存、硬盘、Raid卡等关键部件,AI服务器上的GPU和周围硬件(如交换芯片)运转频率密集会产生更大的热量。部件增多让软件的访问速度变慢,可能会造成散热上的不及时,造成服务器超温。
现有的常规服务器通常采用单BMC控制服务器散热。对于硬件结构简单的服务器,单BMC控制服务器散热的方式已经足够满足需求。但是对于硬件和功能上更为复杂的高算力AI服务器,显得捉襟见肘。部件越多,获取温度的速度越慢,对于复杂设备(如Raid控制器)需要消耗更多的程序时间,调控的不及时可能会造成整机散热上的风险。
发明内容
针对现有技术的上述不足,本发明提供一种AI服务器散热调控方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种AI服务器散热调控方法,包括:
利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
进一步的,利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速,包括:
所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
进一步的,所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成,包括:
所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
所述第一BMC将最新接收的第二目标转速缓存至指定路径。
进一步的,所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器;
所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
第二方面,本发明提供一种AI服务器散热调控系统,包括:
第一监控单元,用于利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
第二监控单元,用于所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
风扇调控单元,用于所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
进一步的,所述第一监控单元包括:
第一监控模块,用于所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
第一计算模块,用于所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
进一步的,所述第二监控单元包括:
第二监控模块,用于所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
转速存储模块,用于所述第一BMC将最新接收的第二目标转速缓存至指定路径。
进一步的,所述风扇调控单元包括:
转速确定模块,用于所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
信号发送模块,用于从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,本发明提供的AI服务器散热调控方法、系统、终端及存储介质,通过在同步一台AI服务器上部署两颗BMC硬件(分别称之为主板BMC和交换板BMC),主板BMC用于监控传统服务器上的CPU、内存、硬盘、Raid卡等关键部件,交换板BMC用于监控GPU和周围硬件并且可以直接控制风扇,两颗BMC通过I2C线缆作为硬件通信介质,无需客户感知。主板BMC用于监控主板上的硬件温度器件,并根据PID调控算法计算出主板散热需要的风扇转速(记为pwm1),通过I2C协议发送给交换板BMC;交换板BMC用于监控GPU和周边硬件器件温度,根据PID调控算法计算出GPU和周边硬件散热需要的风扇转速(记为pwm2),取pwm1和pwm2的最大值控制风扇转动,满足整机散热。本发明能够对具有多种硬件的AI服务器进行有效散热,通过无需客户感知的方式,解决了硬件设备增多带来的整机散热风险。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
BMC,执行伺服器远端管理控制器,英文全称为Baseboard ManagementController.为基板管理控制器。它可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作。在BMC中完全实现IPMI功能需要一个功能强大的16位元或32位元微控制器以及用于数据储存的RAM、用于非挥发性数据储存的快闪记忆体和韧体,在安全远程重启、安全重新上电、LAN警告和系统健康监视方面能提供基本的远程可管理性。除了基本的IPMI功能和系统工作监视功能外,通过利用2个快闪记忆体之一储存以前的BIOS,mBMC还能实现BIOS快速元件的选择和保护。例如,在远程BIOS升级後系统不能启动时,远程管理人员可以切换回以前工作的BIOS映像来启动系统。一旦BIOS升级後,BIOS映像还能被锁住,可有效防止病毒对它的侵害。
I2C总线是由Philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线即可在连接于总线上的器件之间传送信息。主器件用于启动总线传送数据,并产生时钟以开放传送的器件,此时任何被寻址的器件均被认为是从器件.在总线上主和从、发和收的关系不是恒定的,而取决于此时数据传送方向。如果主机要发送数据给从器件,则主机首先寻址从器件,然后主动发送数据至从器件,最后由主机终止数据传送;如果主机要接收从器件的数据,首先由主器件寻址从器件.然后主机接收从器件发送的数据,最后由主机终止接收过程。在这种情况下.主机负责产生定时时钟和终止数据传送。
图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。
CPU中央处理器(central processing unit,简称CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元。
由于现有的单BMC调控散热的策略仅能满足硬件结构简单的服务器,但是对于硬件和功能上更为复杂的高算力AI服务器,显得捉襟见肘。部件越多,获取温度的速度越慢,对于复杂设备(如Raid控制器)需要消耗更多的程序时间,调控的不及时可能会造成整机散热上的风险。
为了解决硬件结构复杂的服务器整机散热风险问题,本发明提供一种AI服务器散热调控方法。在同步一台服务器上部署两颗BMC硬件(分别称之为主板BMC和交换板BMC),主板BMC用于监控传统服务器上的CPU、内存、硬盘、Raid卡等关键部件,交换板BMC用于监控GPU和周围硬件并且可以直接控制风扇,两颗BMC通过I2C线缆作为硬件通信介质,无需客户感知。主板BMC用于监控主板上的硬件温度器件,并根据PID调控算法计算出主板散热需要的风扇转速(记为pwm1),通过I2C协议发送给交换板BMC;交换板BMC用于监控GPU和周边硬件器件温度,根据PID调控算法计算出GPU和周边硬件散热需要的风扇转速(记为pwm2),取pwm1和pwm2的最大值控制风扇转动,满足整机散热。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种AI服务器散热调控系统。
如图1所示,该方法包括:
步骤110,利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
步骤120,所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
步骤130,所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
为了便于对本发明的理解,下面以本发明AI服务器散热调控方法的原理,结合实施例中对AI服务器进行散热调控的过程,对本发明提供的AI服务器散热调控方法做进一步的描述。
基板管理控制器(Baseboard Management Controller,BMC)是一种专门的服务处理器,其是智能平台管理接口(Intelligent Platform Management Interface,IPMI)的一部分,通常包含在待监控设备的主板或主电路板中。它常被应用于监控和管理服务器的运行状态,如通过带外方式进行开关机、监控服务器传感器状态、访问BIOS配置或操作系统控制台信息、升级设备的固件等等。BMC的出现使得服务器管理变得轻松便捷。
具体的,本实施例提供的基于双BMC的AI服务器散热调控方法包括:
S1、利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速。
第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
在交换板上设置第一BMC,交换板BMC用于监控GPU和周边硬件器件温度,根据PID调控算法计算出GPU和周边硬件散热需要的风扇转速(记为pwm1),取pwm1和pwm2的最大值控制风扇转动。第一BMC每隔15s采集一次GPU及关联硬件温度,并计算加权和作为第一温度,然后根据预先存储的第一调控策略和第一温度计算第一目标转速。例如第一调控策略设置系数k1,则第一目标转速为第一温度与k1的乘积。
S2、所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成。
第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;第一BMC将最新接收的第二目标转速缓存至指定路径。
主板BMC用于监控主板上的硬件温度器件,并根据PID调控算法计算出主板散热需要的风扇转速(记为pwm2),通过I2C协议发送给交换板BMC。具体的,在主板部署第二BMC,第二BMC用于监控传统服务器上的CPU、内存、硬盘、Raid卡等关键部件,然后根据监控到的温度值计算加权和得到第二温度。为了减轻第一BMC的计算量,由第二BMC根据本地的PID调控算法和第二温度计算出第二目标转速。第二BMC定期将最新的第二目标转速发送至第一BMC,第一BMC将接收的第二目标转速缓存至指定路径下,并清除历史接收的第二目标转速。
S3、所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。第一BMC从缓存地址中读取最新的第二目标转速,比对第二目标转速与当前生产的第一目标转速的大小,将较大的作为目标转速。然后根据目标转速与风扇实际转速的差值生成风扇调控信号,将风扇调控信号发送至风扇控制器,调控风扇转速。
具体地,使用两颗BMC为减少硬件设备增多带来的散热控制变慢带来了可能,同时也增加了软件的复杂性。在软件设计上两颗BMC各司其职,主板BMC监控主板的硬件设备,通过只发送主板所需转速信息的方式减少交换板BMC的处理信息量,交换板BMC在监控GPU和周围设备所需风扇转速信息的同时,和主板所需的风扇转速的大小做对比,并控制风扇转动散热。至此,设备增多带来的轮询变慢通过增加硬件和软件的功能设计得到解决。
如图2所示,该系统200包括:
第一监控单元210,用于利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
第二监控单元220,用于所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
风扇调控单元230,用于所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
可选地,作为本发明一个实施例,所述第一监控单元包括:
第一监控模块,用于所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
第一计算模块,用于所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
可选地,作为本发明一个实施例,所述第二监控单元包括:
第二监控模块,用于所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
转速存储模块,用于所述第一BMC将最新接收的第二目标转速缓存至指定路径。
可选地,作为本发明一个实施例,所述风扇调控单元包括:
转速确定模块,用于所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
信号发送模块,用于从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
图3为本发明实施例提供的一种终端300的结构示意图,该终端300可以用于执行本发明实施例提供的AI服务器散热调控方法。
其中,该终端300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过在同步一台AI服务器上部署两颗BMC硬件(分别称之为主板BMC和交换板BMC),主板BMC用于监控传统服务器上的CPU、内存、硬盘、Raid卡等关键部件,交换板BMC用于监控GPU和周围硬件并且可以直接控制风扇,两颗BMC通过I2C线缆作为硬件通信介质,无需客户感知。主板BMC用于监控主板上的硬件温度器件,并根据PID调控算法计算出主板散热需要的风扇转速(记为pwm1),通过I2C协议发送给交换板BMC;交换板BMC用于监控GPU和周边硬件器件温度,根据PID调控算法计算出GPU和周边硬件散热需要的风扇转速(记为pwm2),取pwm1和pwm2的最大值控制风扇转动,满足整机散热。本发明能够对具有多种硬件的AI服务器进行有效散热,通过无需客户感知的方式,解决了硬件设备增多带来的整机散热风险,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种AI服务器散热调控方法,其特征在于,包括:
利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
2.根据权利要求1所述的方法,其特征在于,利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速,包括:
所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
3.根据权利要求1所述的方法,其特征在于,所述第一BMC接收第二BMC通过I 2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成,包括:
所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
所述第一BMC将最新接收的第二目标转速缓存至指定路径。
4.根据权利要求1所述的方法,其特征在于,所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器;
所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
5.一种AI服务器散热调控系统,其特征在于,包括:
第一监控单元,用于利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
第二监控单元,用于所述第一BMC接收第二BMC通过I 2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
风扇调控单元,用于所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
6.根据权利要求5所述的系统,其特征在于,所述第一监控单元包括:
第一监控模块,用于所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
第一计算模块,用于所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
7.根据权利要求5所述的系统,其特征在于,所述第二监控单元包括:
第二监控模块,用于所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
转速存储模块,用于所述第一BMC将最新接收的第二目标转速缓存至指定路径。
8.根据权利要求5所述的系统,其特征在于,所述风扇调控单元包括:
转速确定模块,用于所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
信号发送模块,用于从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-4任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111202397.9A CN114035662B (zh) | 2021-10-15 | 2021-10-15 | Ai服务器散热调控方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111202397.9A CN114035662B (zh) | 2021-10-15 | 2021-10-15 | Ai服务器散热调控方法、系统、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114035662A true CN114035662A (zh) | 2022-02-11 |
CN114035662B CN114035662B (zh) | 2023-07-14 |
Family
ID=80134981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111202397.9A Active CN114035662B (zh) | 2021-10-15 | 2021-10-15 | Ai服务器散热调控方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114035662B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114968862A (zh) * | 2022-08-01 | 2022-08-30 | 摩尔线程智能科技(北京)有限责任公司 | 图形处理器管理方法、装置和存储介质 |
CN115168160A (zh) * | 2022-09-07 | 2022-10-11 | 中国电子科技集团公司第十五研究所 | 一种vpx服务器智能机箱监控系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108196999A (zh) * | 2018-01-02 | 2018-06-22 | 郑州云海信息技术有限公司 | 服务器bmc获取gpu温度的方法及装置 |
US20200097431A1 (en) * | 2018-09-21 | 2020-03-26 | Quanta Computer Inc. | Fan speed control via pcie topology |
CN111258398A (zh) * | 2020-01-10 | 2020-06-09 | 安擎(天津)计算机有限公司 | Ai服务器风扇速度调节方法、系统、终端设备及存储介质 |
CN111427744A (zh) * | 2020-03-13 | 2020-07-17 | 苏州浪潮智能科技有限公司 | 一种服务器的功耗管理方法、设备以及介质 |
CN111949101A (zh) * | 2020-09-11 | 2020-11-17 | 苏州浪潮智能科技有限公司 | 一种服务器风扇转速调控方法、系统、终端及存储介质 |
CN112732035A (zh) * | 2021-01-08 | 2021-04-30 | 苏州浪潮智能科技有限公司 | 一种温度实时监控和风扇管理装置和服务器 |
-
2021
- 2021-10-15 CN CN202111202397.9A patent/CN114035662B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108196999A (zh) * | 2018-01-02 | 2018-06-22 | 郑州云海信息技术有限公司 | 服务器bmc获取gpu温度的方法及装置 |
US20200097431A1 (en) * | 2018-09-21 | 2020-03-26 | Quanta Computer Inc. | Fan speed control via pcie topology |
CN111258398A (zh) * | 2020-01-10 | 2020-06-09 | 安擎(天津)计算机有限公司 | Ai服务器风扇速度调节方法、系统、终端设备及存储介质 |
CN111427744A (zh) * | 2020-03-13 | 2020-07-17 | 苏州浪潮智能科技有限公司 | 一种服务器的功耗管理方法、设备以及介质 |
CN111949101A (zh) * | 2020-09-11 | 2020-11-17 | 苏州浪潮智能科技有限公司 | 一种服务器风扇转速调控方法、系统、终端及存储介质 |
CN112732035A (zh) * | 2021-01-08 | 2021-04-30 | 苏州浪潮智能科技有限公司 | 一种温度实时监控和风扇管理装置和服务器 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114968862A (zh) * | 2022-08-01 | 2022-08-30 | 摩尔线程智能科技(北京)有限责任公司 | 图形处理器管理方法、装置和存储介质 |
CN115168160A (zh) * | 2022-09-07 | 2022-10-11 | 中国电子科技集团公司第十五研究所 | 一种vpx服务器智能机箱监控系统 |
CN115168160B (zh) * | 2022-09-07 | 2022-12-20 | 中国电子科技集团公司第十五研究所 | 一种vpx服务器智能机箱监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114035662B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10873633B2 (en) | Remote management for a computing device | |
US10776304B2 (en) | Fan speed control via PCIE topology | |
CN114035662B (zh) | Ai服务器散热调控方法、系统、终端及存储介质 | |
US10855739B2 (en) | Video redirection across multiple information handling systems (IHSs) using a graphics core and a bus bridge integrated into an enclosure controller (EC) | |
EP3663913A1 (en) | Techniques for processor boot-up | |
US9632557B2 (en) | Active state power management (ASPM) to reduce power consumption by PCI express components | |
US8355257B2 (en) | Computer system | |
US10699668B1 (en) | Configurable video redirection in a data center | |
CN109240966A (zh) | 一种基于cpld的加速卡、数据采集方法及装置 | |
CN116541227B (zh) | 故障诊断方法、装置、存储介质、电子装置及bmc芯片 | |
CN104881105A (zh) | 电子装置 | |
US9319313B2 (en) | System and method of forwarding IPMI message packets based on logical unit number (LUN) | |
CN114911332B (zh) | 服务器风扇调控方法、系统、电子设备及存储介质 | |
CN117032812A (zh) | 服务器的管理方法、设备、装置、存储介质和电子设备 | |
US11308002B2 (en) | Systems and methods for detecting expected user intervention across multiple blades during a keyboard, video, and mouse (KVM) session | |
WO2024139593A1 (zh) | 计算机设备及计算机系统 | |
CN113900718B (zh) | 一种bmc与bios资产信息的解耦方法、系统及装置 | |
CN116483753A (zh) | 一种服务器监控芯片及系统 | |
CN109976478B (zh) | 多cpu散热控制系统和散热控制方法 | |
CN213182724U (zh) | 一种提高运行安全性的服务器系统 | |
CN113867506A (zh) | 一种服务器散热控制方法、装置、电子设备及存储介质 | |
CN114416656A (zh) | 一种远程操作文件夹的方法、设备及存储介质 | |
CN114115955A (zh) | 服务器资源盒子fpga固件升级方法、系统、终端及存储介质 | |
CN112486868B (zh) | 基于cpld存储双控同步系统、方法、设备及存储介质 | |
CN116303213B (zh) | 一种提高bmc芯片计算效率的系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |