CN117148937A - 板卡的散热方法及系统、存储介质及电子设备 - Google Patents

板卡的散热方法及系统、存储介质及电子设备 Download PDF

Info

Publication number
CN117148937A
CN117148937A CN202311091234.7A CN202311091234A CN117148937A CN 117148937 A CN117148937 A CN 117148937A CN 202311091234 A CN202311091234 A CN 202311091234A CN 117148937 A CN117148937 A CN 117148937A
Authority
CN
China
Prior art keywords
fan
temperature
target
board
rotating speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311091234.7A
Other languages
English (en)
Inventor
刘俊都
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202311091234.7A priority Critical patent/CN117148937A/zh
Publication of CN117148937A publication Critical patent/CN117148937A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本申请实施例提供了一种板卡的散热方法及系统、存储介质及电子设备,该方法包括:获取目标板卡的温度传感器所检测到的目标板卡的实时温度,其中,目标板卡为图形处理器板卡;在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关;在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,其中,目标风扇转速高于一组温度范围对应的最高风扇转速。

Description

板卡的散热方法及系统、存储介质及电子设备
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种板卡的散热方法及系统、存储介质及电子设备。
背景技术
目前的OAM(Open Acceleration Module,开放加速模块)形式的GPU(GraphicsProcessing Unit,图像处理器)卡(以下简称板卡)采用的散热方式为被动散热,通过自身的温度传感器监控板卡的实时温度,并将温度信息传递给AI(Artificial Intelligence,人工智能)芯片,当温度到达AI芯片设定的阈值时,AI芯片就会发出高温告警信号,告知UBB(Universal Backplane Board,通用背板板)背板上的CPLD(Complex Programmable LogicDevice,复杂可编程逻辑器件)芯片出现过温现象,同时,AI芯片停止正常工作,等待温度回到正常范围,防止出现高温下AI芯片继续工作导致损坏的情况。
然而,由于没有主动散热的系统,一旦出现了过温现象,板卡只能停止工作,并被动的等待系统的降温,可能会导致一些正在进行的工作的数据的丢失,即使AI芯片采用降频或其他方法来减小工作量从而减小发热,也会影响正在进行的工作,AI芯片出现不正常工作情况,影响使用。
由此可知,相关技术中的板卡的散热方法,由于无法主动散热导致的系统性能降低的问题。
发明内容
本申请实施例提供了一种板卡的散热方法及系统、存储介质及电子设备,以至少解决相关技术中的板卡的散热方法由于无法主动散热导致的系统性能降低的问题。
根据本申请的一个实施例,提供了一种板卡的散热方法,包括:获取目标板卡的温度传感器所检测到的所述目标板卡的实时温度,其中,所述目标板卡为图形处理器板卡;在所述目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中所述目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,所述目标风扇是用于对所述目标板卡进行降温的风扇,所述一组温度范围中的每个温度范围对应的风扇转速与所述每个温度范围包含的温度正相关;在所述目标板卡的实时温度大于所述第一温度阈值的情况下,按照目标风扇转速控制所述目标风扇进行转动,其中,所述目标风扇转速高于所述一组温度范围对应的最高风扇转速。
根据本申请的又一个实施例,提供了一种板卡的散热系统,包括:图形处理器GPU板卡,包括温度传感器和板卡芯片,其中,所述温度传感器用于检测所述GPU板卡的实时温度,所述板卡芯片用于获取所述温度传感器所检测到的所述GPU板卡的实时温度,并将所述GPU板卡的实时温度通过连接器发送给风扇控制部件;所述风扇控制部件,通过所述连接器扣接在所述GPU板卡上,用于在所述GPU板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中所标GPU板卡的实时温度所属的温度范围匹配的风扇转速,控制风扇模组进行转动,所述一组温度范围中的每个温度范围对应的风扇转速与所述每个温度范围包含的温度正相关;所述风扇模组,通过风扇连接器连接到所述风扇控制部件上,用于基于所述风扇控制部件的控制进行转动,以对所述GPU板卡进行降温。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请实施例,采用针对板卡的不同温度范围设置散热风扇的不同转速进行主动散热的方式,通过获取目标板卡的温度传感器所检测到的目标板卡的实时温度,其中,目标板卡为图形处理器板卡;在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关;在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,其中,目标风扇转速高于一组温度范围对应的最高风扇转速,由于预先设置了一组温度范围与风扇转速的匹配关系,且一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关,即板卡温度越高的情况下,用于散热的风扇转速越快,因此,基于检测到的板卡的实时温度,可以主动控制风扇转速,调节散热,控制板卡温度,防止出现由于板卡温度过高致使芯片停止工作或者出现不正常工作情况,影响系统性能,进而解决了相关技术中的板卡的散热方法,由于无法主动散热导致的系统性能降低的问题。
附图说明
图1是根据本申请实施例的一种板卡的散热方法的硬件环境示意图;
图2是根据本申请实施例的一种板卡的散热方法的流程图;
图3是根据本申请实施例的一种板卡的散热方法的示意图;
图4是根据本申请实施例的另一种板卡的散热方法的示意图;
图5是根据本申请实施例的又一种板卡的散热方法的示意图;
图6是根据本申请实施例的另一种板卡的散热方法的流程图;
图7是根据本申请实施例的又一种板卡的散热方法的示意图;
图8是根据本申请实施例的一种电子装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在服务器、移动终端、计算机终端或者类似的运算装置中执行。以运行在服务器上为例,图1是根据本申请实施例的一种板卡的散热方法的硬件环境示意图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的板卡的散热方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
根据本申请实施例的一个方面,提供了一种板卡的散热方法,以由处理器来执行本实施例中的板卡的散热方法为例,图2是根据本申请实施例的一种板卡的散热方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取目标板卡的温度传感器所检测到的目标板卡的实时温度,其中,目标板卡为图形处理器板卡。
本实施例中的板卡的散热方法可以应用到对板卡的温度进行控制的场景,当板卡正常工作时,由于长时间使用,热量的累积可能会导致板卡温度过高,从而致使板卡上的AI芯片停止工作,因此,需要通过散热对板卡的温度进行控制,这里,AI芯片是一种专门设计用于加速人工智能计算任务的微处理器芯片。AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU、FPGA(FieldProgrammable Gate Array,现场可编程逻辑门阵列)、ASIC(Application SpecificIntegrated Circuit,专用集成电路),本实施例中以AI芯片为GPU为例。
目前的板卡采用的主流散热方式为被动散热,即本身无法进行主动散热或进行主动散热控制。当前板卡的被动散热系统是通过自身的温度传感器监控板卡的实时温度,并将温度信息传递给AI芯片,当温度到达AI芯片设定的阈值时,AI芯片就会发出高温告警信号,告知UBB背板上的CPLD芯片,同时,AI芯片停止正常工作。
然而,当前的这种被动散热系统的使用可能会导致灾难后果:在出现超过阈值的温度时,被动散热方式无法主动降低温度,AI芯片的突然停止工作可能会丢失数据,即使AI芯片采用降频或其他方法来减小工作量从而减小发热,但是也会影响正在进行的工作。
这里,降频是指降低芯片的工作频率,从而减少芯片的运行速度。降频可以减少芯片的功耗和散热量,从而延长芯片的使用寿命,减少故障率。此外,降频还可以减少芯片在高负载情况下的运算量,降低功耗,提高系统的稳定性和可靠性。但是,降频也会导致芯片的性能下降,处理速度变慢,可能会影响到某些应用的实时性能和响应速度。
例如,如图3所示,板卡上的温度传感器将实时温度传递给AI芯片,当AI芯片检测到板卡的实际温度超过了芯片预设的温度阈值,即,板卡出现了过温现象时,AI芯片输出高温告警信号给UBB背板上的CPLD,告知出现过温现象,同时自身停止正常工作。这种被动散热高温告警系统可以检测板卡上的实时温度信息,同时也可以在板卡出现过温现象时,告知外界信息,AI芯片停止工作,等待温度回到正常范围,防止出现高温下AI芯片继续工作导致损坏的情况。
这里,CPLD可以对系统中的各种状态进行监测和检测,例如电压、温度、电流等,以及检测系统中的故障和异常情况,并进行相应的处理和报警。
然而,上述方法虽然可以实时检测温度信息,同时过温时AI芯片也可以停止工作。但是,由于没有主动散热的系统,一旦出现了过温现象,板卡只能停止工作,并被动的等待系统的降温,影响板卡的使用。同时被动散热系统只能依赖于服务器整机的散热,不利于应对更严酷环境温度的要求。同时,由于出现过温时,AI芯片就会停止工作,可能会导致一些正在进行的工作的数据的丢失,或者AI芯片出现不正常工作情况,影响使用。
为了至少部分解决上述技术问题,在本实施例中,采用风扇对板卡进行主动降温,预设温度梯度,不同的温度范围对应不同的风扇转速,并随着温度的升高,转速逐渐升高。在本实施例中,实时监测板卡的温度,并基于预设的温度-转速的对应关系,控制风扇进行转动,在板卡温度超过定值的情况下,最大限度的拉高风扇的转速,以降低板卡温度,从而实现对板卡的主动散热。
在本实施例中,以目标板卡是图形处理器GPU板卡为例,板卡上的温度传感器检测实时温度信息,风扇控制部件可以基于IIC(I2C,Inter-Integrated Circuit,双向二线制同步串行总线)获取目标板卡的温度传感器所检测到的目标板卡的实时温度。
步骤S204,在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关。
为了降低功耗和噪声,在本实施例中,可以预设不同温度范围对应不同风扇转速,温度越高,转速越快。在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,这里,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关,可选地,在目标板卡的实时温度小于或者等于第一温度阈值的情况下,板卡芯片应当是处于正常工作状态的。
步骤S206,在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,其中,目标风扇转速高于一组温度范围对应的最高风扇转速。
由于出现过温时,板卡芯片会停止工作,可能会导致一些正在进行的工作的数据的丢失,或者板卡芯片出现不正常工作情况,影响使用,在本实施例中,在板卡芯片停止工作前,可以尽可能提高风扇转速,防止过温出现,在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,这里,目标风扇转速高于一组温度范围对应的最高风扇转速,可选地,目标风扇转速可以是目标风扇的最大转速。
可选地,第一温度阈值小于目标板卡停止工作的停止工作温度阈值,在第一温度阈值与停止工作温度阈值之间可以预设一组温度范围,不同温度范围对应不同的风扇转速,一组温度范围对应的最大温度范围对应目标风扇的最大转速。
通过上述步骤,通过获取目标板卡的温度传感器所检测到的目标板卡的实时温度,其中,目标板卡为图形处理器板卡;在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关;在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,其中,目标风扇转速高于一组温度范围对应的最高风扇转速,可以解决相关技术中的板卡的散热方法,由于无法主动散热导致的系统性能降低的问题,提高了系统性能。
在一个示范性实施例中,在按照目标风扇转速控制目标风扇进行转动之后,上述方法还包括:
S11,在目标板卡的实时温度小于或者等于第二温度阈值的情况下,按照与一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,第二温度阈值小于第一温度阈值。
为了降低功耗,当板卡温度降低到安全范围后,可以降低风扇转速,在本实施例中,通过温度传感器实时检测板卡温度信息,在目标板卡的实时温度小于或者等于第二温度阈值的情况下,可以按照与一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,这里,第二温度阈值小于第一温度阈值,一组温度范围中的每个温度范围包含的温度越低,每个温度范围对应的风扇转速越慢,可选地,在板卡实时温度回落到室温的情况下,可以控制风扇停止转动。
通过本实施例,在板卡温度降低到安全范围后,降低风扇转速,可以降低功耗,减小噪声。
在一个示范性实施例中,上述方法还包括:
S21,对目标风扇进行状态检测,得到目标风扇的状态检测结果,其中,状态检测结果用于指示目标风扇是否处于预设异常状态;
S22,在根据状态检测结果,确定目标风扇处于预设异常状态的情况下,发出异常状态提示信号,其中,异常状态提示信号用于提示目标风扇处于预设异常状态。
为了及时处理异常情况,在本实施例中,可以对目标风扇进行状态检测,得到目标风扇的状态检测结果,这里,状态检测结果用于指示目标风扇是否处于预设异常状态,预设异常状态可以但不限于包括:无法启动:风扇无法正常启动或转动;自动停止:风扇在运行一段时间后自动停止工作;转速异常:风扇转速过快或过慢,不符合正常或者预设运行状态;噪音过大:风扇运转时发出异常噪音,超出正常范围;振动异常:风扇运转时产生异常的振动;过热故障:风扇运行一段时间后出现过热情况,可能导致停止工作;电源问题:风扇无法正常接通电源或电源供应不稳定;其他异常:如异味、烧毁等其他不正常情况,本实施例中对此不作限定。
在根据状态检测结果,确定目标风扇处于预设异常状态的情况下,发出异常状态提示信号,这里,异常状态提示信号用于提示目标风扇处于预设异常状态,异常状态提示信号可以但不限于是声音信号、光信号、振动信号、文字信号等,本实施例中以指示灯为例,可以是不同指示灯对应不同异常状态,也可以是同一指示灯的不同特征(例如,颜色)对应不同异常状态,本实施例中对此不作限定,通过异常状态提示信号可以确定对应的异常状态,并进行相应的处理。
通过本实施例,通过异常状态提示信号提示目标风扇处于预设异常状态,可以有利于精准确认异常状态,提高针对异常状态的处理效率。
在一个示范性实施例中,对目标风扇进行状态检测,得到目标风扇的状态检测结果,包括以下至少之一:
S31,对目标风扇进行在位状态检测,得到目标风扇的在位状态检测结果,其中,在位状态检测结果用于指示目标风扇是否在预设位置上,预设异常状态为目标风扇不在预设位置上的状态;
S32,通过比较目标风扇的风扇转速和目标风扇的预期转速,对目标风扇进行转速异常状态检测,得到目标风扇的转速异常状态检测结果,其中,转速异常状态检测结果用于指示目标风扇是否处于转速异常的异常状态。
在本实施例中,以对风扇在位的实时检测为例,通过对目标风扇进行在位状态检测,可以得到目标风扇的在位状态检测结果,这里,在位状态检测结果用于指示目标风扇是否在预设位置上,预设异常状态为目标风扇不在预设位置上的状态;可选地,在获取目标风扇的在位状态检测结果之后,根据目标风扇的在位状态检测结果确定目标风扇处于不在预设位置上的情况下,发出异常状态提示信号。
例如,风扇控制部件检测风扇模组是否在位,若不在位,点亮红灯。
以对风扇转速的实时检测为例,通过比较目标风扇的风扇转速和目标风扇的预期转速,对目标风扇进行转速异常状态检测,得到目标风扇的转速异常状态检测结果,这里,转速异常状态检测结果用于指示目标风扇是否处于转速异常的异常状态。目标风扇的预期转速可以是基于目标板卡的温度传感器所检测到的目标板卡的实时温度确定的预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,即,当前板卡温度基于预设的温度-转速的对应关系确定的对应风扇转速,在当前风扇实际转速未达到预期转速的情况下,通过异常状态提示信号进行提示。
例如,风扇控制部件检测到风扇实际转速与预设转速不一致时,点亮黄灯。
通过本实施例,对风扇是否在位、转速异常进行实时检测,可以提高异常情况的处理效率。
在一个示范性实施例中,通过比较目标风扇的风扇转速和目标风扇的预期转速,对目标风扇进行转速异常状态检测,得到目标风扇的转速异常状态检测结果,包括:
S41,确定目标风扇的风扇转速和目标风扇的预期转速之间的差值,得到与目标转速差值;
S42,在目标转速差值大于或者等于预设转速差阈值的情况下,确定目标风扇处于转速异常的异常状态;
S43,在目标转速差值小于预设转速差阈值的情况下,确定目标风扇未处于转速异常的异常状态。
考虑到在控制目标风扇转速调整的过程中,在接近但未达到目标风扇的预期转速下对目标风扇进行降温与在目标风扇的预期转速下对目标风扇进行降温所产生的差别较小,为了避免干扰,在本实施例中,可以预设转速差阈值,使得在目标风扇的预期转速的预设转速差阈值范围内不提示转速异常。这里,目标风扇的预期转速与前述实施例类似,在此不做赘述。
在需要按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇预期转速控制目标风扇进行转动时,通过风扇控制部件获取目标风扇的实际转速,通过比较目标风扇的风扇转速和目标风扇的预期转速之间的差值,得到与目标转速差值,在目标转速差值大于或者等于预设转速差阈值的情况下,确定目标风扇处于转速异常的异常状态,在目标转速差值小于预设转速差阈值的情况下,确定目标风扇未处于转速异常的异常状态。
例如,若风扇预期转速为300r/s,预设转速差阈值为10,在目标风扇的实际转速处于290-310r/s之间的情况下,确定目标风扇未处于转速异常的异常状态,在目标风扇的实际转速小于或者等于290r/s,或者,大于或者等于310r/s的情况下,确定目标风扇处于转速异常的异常状态。
通过本实施例,通过预设转速差阈值,可以提高转速异常状态认定的合理性。
在一个示范性实施例中,获取目标板卡的温度传感器所检测到的目标板卡的实时温度,包括:
S51,接收目标风扇的板卡芯片通过连接器发送的温度指示信息,其中,温度指示信息用于指示温度传感器所检测到的目标板卡的实时温度。
在本实施例中,获取目标板卡的温度传感器所检测到的目标板卡的实时温度可以是通过接收目标风扇的板卡芯片通过连接器发送的温度指示信息实现的,这里,温度指示信息用于指示温度传感器所检测到的目标板卡的实时温度。
例如,在本实施例中,板卡上的温度传感器将实时温度的温度指示信息传递给板卡芯片,板卡芯片通过IIC SDL/SDA将实时温度的温度指示信息传递给连接器,板卡上的连接器提供给风扇控制部件的信号可以包括但不限于:供电、高温告警、IIC(I2C),其中,IIC传输板卡实时温度信息。
这里,SCL和SDA是两个常用的标准名称,用于描述I2C总线上的两个信号线。SCL代表串行时钟线(Serial Clock Line),它是I2C总线上的一个用于同步数据传输的信号线,SCL信号线由主设备控制,用于指示数据传输的时钟速率SDA代表申行数据线(Serial DataLine),它是I2C总线上的一个用于传输数据的信号线。SDA信号线由主设备和从设备共同使用,用于传输数据位。SCL和SDA信号线是I2C总线上的两个基本信号,它们通过主设备(如微控制器)和从设备(如传感器、存储器等)之间的通信来传输数据。
通过本实施例,板卡芯片通过连接器向风扇控制部件发送板卡实时温度的温度指示信息,可以实现数据的高速传输,减少数据传输的终端或丢失,使得数据传输更加方便和高效。
在一个示范性实施例中,在获取目标板卡的温度传感器所检测到的目标板卡的实时温度之后,上述方法还包括:
S61,在目标板卡的实时温度大于或者等于目标板卡上的板卡芯片的停止运行温度的情况下,控制板卡芯片停止运行,其中,停止运行温度大于第一温度阈值。
为了避免高温下板卡芯片继续工作导致损坏的情况,在本实施例中,在目标板卡的实时温度大于或者等于目标板卡上的板卡芯片的停止运行温度的情况下,控制板卡芯片停止运行,这里,如图4所示,第二温度阈值小于第一温度阈值,第一温度阈值小于停止运行温度,温度值大小随箭头方向增大,对应的风扇转速也随之加快,停止运行温度可以是基于板卡芯片的最高可运行温度确定的,在板卡实时温度达到或者几乎达到板卡芯片的停止运行温度的情况下,可以触发高温告警信号,可选地,触发高温告警信号对应的目标板卡的实时温度可以低于停止运行温度第一阈值,即,触发高温告警信号对应的目标板卡的实时温度可以处于第一温度阈值与板卡芯片的停止运行温度之间,例如,可以将高温告警信号对应的过温的温度阈值设置低于板卡芯片停止工作的温度阈值10℃。
通过本实施例,通过在板卡温度大于或者等于板卡芯片的停止运行温度时,控制板卡芯片停止运行,可以避免板卡芯片损坏。
作为一种可选示例,为了解决OAM GPU板卡无法主动散热的问题,在本实施例中,软件层面上开发基于VHDL(Very-High-Speed Integrated Circuit HardwareDescription Language,超高速集成电路硬件描述语言)或其他程序语言的FPGA(FieldProgrammable Gate Array,现场可编程门阵列)系统,FPGA系统主要包括温度读取单元、风扇控制单元。
硬件层面上,由于板卡的空间有限,可以使用扣卡的形式将风扇控制系统与板卡通过连接器进行连接,而风扇控制系统通过标准风扇连接器与风扇连接,此处风扇采用散热片模组与风扇一体式结构(常规主动散热塔式风扇结构),整体风扇的尺寸与现有的OAMGPU板卡尺寸匹配,散热铜片通过硅脂与AI主芯片、其他功耗芯片直接接触,如图5所示,板卡(图形处理器GPU板卡)、风扇控制系统(风扇控制部件)、风扇模组为类三明治结构。
板卡通过IIC将温度信息传输给风扇控制系统,风扇控制系统内置的脚本实现对板卡温度的解析,并输出对应风扇转速的信号,实现不同温度下风扇转速的控制;同时,脚本还可以对风扇是否在位、实际转速与预计转速是否匹配进行判断,如果不在位、不匹配,会点亮对应颜色的灯(风扇不在位红灯亮,转速不匹配黄灯亮)。当出现过温时,AI芯片输出高温告警信号给风扇控制系统,风扇控制系统收到此信号后,会最大限度的提高风扇转速,来降低温度。
具体地,执行上述板卡的散热方法的一个示例可以包括如下步骤:
步骤1:首先编写如上的FPGA的脚本,设定所需Pin脚的含义:温度读取、风扇在位、风扇转速检测、风扇转速控制、点灯信号;
步骤2:风扇控制系统扣接在板卡上,通过板卡供电,风扇模组通过风扇连接器与风扇控制系统连接,此处,风扇模组采用散热片模组与风扇一体式结构(常规主动散热塔式风扇结构),整体风扇的尺寸与现有的OAM GPU板卡尺寸匹配,散热铜片通过硅脂与AI主芯片、其他功耗芯片直接接触;
步骤3:板卡、风扇控制系统、风扇模组均正常工作后,风扇控制系统检测风扇模组是否在位,若不在位,点亮红灯;板卡上的实时温度信息通过IIC传递给风扇控制系统的FPGA,FPGA解析板卡实时温度,输出风扇控制信号,调节当前风扇转速;同时通过风扇实际转速信号监控风扇的实际转速,与预设转速进行比较,若转速不一致,点亮黄灯。
步骤4:当板卡的温度超过设定阈值时,触发高温告警信号,风扇控制系统接收到此信号有效后,将尽可能拉高风扇转速,降低温度。
这里,数据分析部分,板卡、风扇控制系统、风扇模组正常工作后,风扇控制系统监控来自板卡的温度信息、来自风扇的实际转速信息,输出合适的风扇转速信号,同时比较实际转速信息与预设转速的大小,出现异常时,点亮对应信号灯。当收到高温告警信号时,拉高转速,尽快降低温度。
可选地,如图6所示,为高温告警控制流程图,具体地:
步骤S602,OAM GPU板卡上温度传感器检测温度信息;
步骤S604,温度超过设定阈值时,AI芯片发出高温告警信号;
步骤S606,风扇控制系统的FPGA收到高温告警信号,提高风扇转速;
步骤S608,当温度降低到安全范围后,FPGA降低风扇转速。
步骤5:为了保证AI芯片在触发高温告警信号后还能继续正常工作,可以将过温的温度阈值设置低于AI芯片停止工作的温度阈值10℃,同时随着板卡工作温度的上升,可以不断拉高风扇转速,来避免出现高温导致AI芯片停止工作的情况;
步骤6:当出现高温告警情况,风扇控制系统增加风扇转速,降低温度,当温度降低到安全范围后,降低风扇转速。
这里,风扇连接器是一种用于连接电脑风扇和主板的接口。它通常有3或4个引脚,用于传输电源和控制信号。其中,2个引脚用于供电,1个引脚用于传输风扇的转速信号,而另外1个引脚(如果有的话)用于控制风扇的转速。这种连接器通常是四针的,但也有三针的版本。它们通常具有相同的尺寸和形状,因此可以相互兼容。散热铜片上的硅脂是用来提高散热效果的。硅脂具有优良的导热性能和绝缘性能,能够填充散热铜片和散热器之间的微小间隙,提高热量的传导效率。通过使用硅脂,可以减少散热铜片与其他部件之间的热阻,提高散热器的散热能力,防止设备因过热而损坏。
通过本实施例,在现有的OAM GPU板卡无主动散热控制的基础上,开发一种基于FPGA的应用于OAM GPU板卡的主动散热系统,解决当前无法主动对板卡进行散热的问题,基于此,在出现高温告警导致AI芯片停止工作前,可以尽可能提高风扇转速,防止过温出现。
需要说明的是,通过液体冷却的降低板卡温度的方式可以与本实施例中通过风扇降低板卡温度的方式具有类似的处理逻辑。
此外,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的又一方面,还提供了一种用于实施上述板卡的散热方法的板卡的散热系统,如图5所示,该板卡的散热系统可以包括:
图形处理器GPU板卡,包括温度传感器和板卡芯片,其中,温度传感器用于检测GPU板卡的实时温度,板卡芯片用于获取温度传感器所检测到的GPU板卡的实时温度,并将GPU板卡的实时温度通过连接器发送给风扇控制部件;
风扇控制部件,通过连接器扣接在GPU板卡上,用于在GPU板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中所标GPU板卡的实时温度所属的温度范围匹配的风扇转速,控制风扇模组进行转动,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关;
风扇模组,通过风扇连接器连接到风扇控制部件上,用于基于风扇控制部件的控制进行转动,以对GPU板卡进行降温。
可选地,在本实施例中,系统架构图主要特征如下:
FPGA,软件层面包括,温度读取单元、风扇控制单元。可由VHDL或其他程序实现。如图7所示,风扇控制系统,通过连接器与OAM GPU板卡进行连接,在空间上是扣接在板卡上的,连接器提供给风扇控制系统的信号包括:供电、高温告警、IIC,其中IIC传输实时温度信息。风扇控制系统,通过风扇连接器与风扇模组进行连接,风扇连接器提供的信号包括:供电、风扇在位信号、风扇转速控制信号、风扇实际转速信号。FPGA检测到风扇不在位时,点亮红灯;检测到实际转速与预设转速不一致时,点亮黄灯。风扇模组,采用散热片模组与风扇一体式结构(常规主动散热塔式风扇结构),整体风扇的尺寸与现有的OAM GPU板卡尺寸匹配,散热铜片通过硅脂与AI主芯片、其他功耗芯片直接接触。风扇控制系统,预设温度梯度,不同的温度范围对应不同的转速,并随着温度的升高,转速逐渐升高;当风扇控制系统收到高温告警信号,会最大限度的拉高风扇的转速,降低板卡温度。
通过上述板卡的散热系统,获取目标板卡的温度传感器所检测到的目标板卡的实时温度,其中,目标板卡为图形处理器板卡;在目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,目标风扇是用于对目标板卡进行降温的风扇,一组温度范围中的每个温度范围对应的风扇转速与每个温度范围包含的温度正相关;在目标板卡的实时温度大于第一温度阈值的情况下,按照目标风扇转速控制目标风扇进行转动,其中,目标风扇转速高于一组温度范围对应的最高风扇转速,可以解决相关技术中的板卡的散热方法,由于无法主动散热导致的系统性能降低的问题,提高了系统性能。
在一个示例性实施例中,风扇控制部件,还用于在按照目标风扇转速控制目标风扇进行转动之后,在目标板卡的实时温度小于或者等于第二温度阈值的情况下,按照与一组温度范围中目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,第二温度阈值小于第一温度阈值。
在一个示例性实施例中,风扇控制部件,还用于对目标风扇进行状态检测,得到目标风扇的状态检测结果,其中,状态检测结果用于指示目标风扇是否处于预设异常状态;在根据状态检测结果,确定目标风扇处于预设异常状态的情况下,发出异常状态提示信号,其中,异常状态提示信号用于提示目标风扇处于预设异常状态。
在一个示例性实施例中,风扇控制部件,还用于对目标风扇进行在位状态检测,得到目标风扇的在位状态检测结果,其中,在位状态检测结果用于指示目标风扇是否在预设位置上,预设异常状态为目标风扇不在预设位置上的状态;通过比较目标风扇的风扇转速和目标风扇的预期转速,对目标风扇进行转速异常状态检测,得到目标风扇的转速异常状态检测结果,其中,转速异常状态检测结果用于指示目标风扇是否处于转速异常的异常状态。
在一个示例性实施例中,风扇控制部件,还用于确定目标风扇的风扇转速和目标风扇的预期转速之间的差值,得到与目标转速差值;在目标转速差值大于或者等于预设转速差阈值的情况下,确定目标风扇处于转速异常的异常状态;在目标转速差值小于预设转速差阈值的情况下,确定目标风扇未处于转速异常的异常状态。
在一个示例性实施例中,风扇控制部件,还用于接收目标风扇的板卡芯片通过连接器发送的温度指示信息,其中,温度指示信息用于指示温度传感器所检测到的目标板卡的实时温度。
在一个示例性实施例中,风扇控制部件,还用于在获取目标板卡的温度传感器所检测到的目标板卡的实时温度之后,在目标板卡的实时温度大于或者等于目标板卡上的板卡芯片的停止运行温度的情况下,控制板卡芯片停止运行,其中,停止运行温度大于第一温度阈值。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本申请实施例的又一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
根据本申请实施例的又一方面,还提供了一种电子设备,图8是根据本申请实施例的一种电子装置的结构框图,如图8所示,包括处理器802、通信接口804、存储器806和通信总线808,其中,处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请实施例,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请实施例的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。

Claims (10)

1.一种板卡的散热方法,其特征在于,包括:
获取目标板卡的温度传感器所检测到的所述目标板卡的实时温度,其中,所述目标板卡为图形处理器板卡;
在所述目标板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中所述目标板卡的实时温度所属的温度范围匹配的风扇转速,控制目标风扇进行转动,其中,所述目标风扇是用于对所述目标板卡进行降温的风扇,所述一组温度范围中的每个温度范围对应的风扇转速与所述每个温度范围包含的温度正相关;
在所述目标板卡的实时温度大于所述第一温度阈值的情况下,按照目标风扇转速控制所述目标风扇进行转动,其中,所述目标风扇转速高于所述一组温度范围对应的最高风扇转速。
2.根据权利要求1所述的方法,其特征在于,在所述按照目标风扇转速控制所述目标风扇进行转动之后,所述方法还包括:
在所述目标板卡的实时温度小于或者等于第二温度阈值的情况下,按照与所述一组温度范围中所述目标板卡的实时温度所属的温度范围匹配的风扇转速,控制所述目标风扇进行转动,其中,所述第二温度阈值小于所述第一温度阈值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标风扇进行状态检测,得到所述目标风扇的状态检测结果,其中,所述状态检测结果用于指示所述目标风扇是否处于预设异常状态;
在根据所述状态检测结果,确定所述目标风扇处于所述预设异常状态的情况下,发出异常状态提示信号,其中,所述异常状态提示信号用于提示所述目标风扇处于所述预设异常状态。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标风扇进行状态检测,得到所述目标风扇的状态检测结果,包括以下至少之一:
对所述目标风扇进行在位状态检测,得到所述目标风扇的在位状态检测结果,其中,所述在位状态检测结果用于指示所述目标风扇是否在预设位置上,所述预设异常状态为所述目标风扇不在所述预设位置上的状态;
通过比较所述目标风扇的风扇转速和所述目标风扇的预期转速,对所述目标风扇进行转速异常状态检测,得到所述目标风扇的转速异常状态检测结果,其中,所述转速异常状态检测结果用于指示所述目标风扇是否处于转速异常的异常状态。
5.根据权利要求4所述的方法,其特征在于,所述通过比较所述目标风扇的风扇转速和所述目标风扇的预期转速,对所述目标风扇进行转速异常状态检测,得到所述目标风扇的转速异常状态检测结果,包括:
确定所述目标风扇的风扇转速和所述目标风扇的预期转速之间的差值,得到与目标转速差值;
在所述目标转速差值大于或者等于预设转速差阈值的情况下,确定所述目标风扇处于转速异常的异常状态;
在所述目标转速差值小于预设转速差阈值的情况下,确定所述目标风扇未处于转速异常的异常状态。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取目标板卡的温度传感器所检测到的所述目标板卡的实时温度,包括:
接收所述目标风扇的板卡芯片通过连接器发送的温度指示信息,其中,所述温度指示信息用于指示所述温度传感器所检测到的所述目标板卡的实时温度。
7.根据权利要求1至5中任一项所述的方法,其特征在于,在所述获取目标板卡的温度传感器所检测到的所述目标板卡的实时温度之后,所述方法还包括:
在所述目标板卡的实时温度大于或者等于所述目标板卡上的板卡芯片的停止运行温度的情况下,控制所述板卡芯片停止运行,其中,所述停止运行温度大于所述第一温度阈值。
8.一种板卡的散热系统,其特征在于,包括:
图形处理器GPU板卡,包括温度传感器和板卡芯片,其中,所述温度传感器用于检测所述GPU板卡的实时温度,所述板卡芯片用于获取所述温度传感器所检测到的所述GPU板卡的实时温度,并将所述GPU板卡的实时温度通过连接器发送给风扇控制部件;
所述风扇控制部件,通过所述连接器扣接在所述GPU板卡上,用于在所述GPU板卡的实时温度小于或者等于第一温度阈值的情况下,按照与预设的一组温度范围中所标GPU板卡的实时温度所属的温度范围匹配的风扇转速,控制风扇模组进行转动,所述一组温度范围中的每个温度范围对应的风扇转速与所述每个温度范围包含的温度正相关;
所述风扇模组,通过风扇连接器连接到所述风扇控制部件上,用于基于所述风扇控制部件的控制进行转动,以对所述GPU板卡进行降温。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
CN202311091234.7A 2023-08-28 2023-08-28 板卡的散热方法及系统、存储介质及电子设备 Pending CN117148937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311091234.7A CN117148937A (zh) 2023-08-28 2023-08-28 板卡的散热方法及系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311091234.7A CN117148937A (zh) 2023-08-28 2023-08-28 板卡的散热方法及系统、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117148937A true CN117148937A (zh) 2023-12-01

Family

ID=88909293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311091234.7A Pending CN117148937A (zh) 2023-08-28 2023-08-28 板卡的散热方法及系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117148937A (zh)

Similar Documents

Publication Publication Date Title
US8656003B2 (en) Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed
US20080281475A1 (en) Fan control scheme
CN109882439B (zh) 一种风扇控制系统、方法及服务器
US20120136502A1 (en) Fan speed control system and fan speed reading method thereof
CN113031672A (zh) 温度控制方法、系统及存储介质
US20180164795A1 (en) Fan monitoring system
CN109388526B (zh) 一种控制电路及复位操作的方法
CN105114346A (zh) 一种服务器上电自动控制风扇装置及方法
CN113204466B (zh) 一种过温保护方法和电子设备
CN104564764A (zh) 服务器系统
CN104571273A (zh) 风扇控制器以及具有该风扇控制器的服务器系统
US10362375B2 (en) Discovering connection of passive cables
CN111190468B (zh) 一种ocp网卡散热装置及方法
CN210038709U (zh) 一种电源监控管理扣板
CN108279761B (zh) 一种支持风扇热插拔的服务器电源电路及控制方法
CN117148937A (zh) 板卡的散热方法及系统、存储介质及电子设备
TW201823989A (zh) 風扇監控系統
CN108873794B (zh) 一种散热风扇的控制设备、系统及方法
CN114878113B (zh) 一种液冷服务器漏液检测装置及检测方法
CN104121212A (zh) 电子设备及其散热风扇的控制装置与方法
TWI518249B (zh) 風扇控制器以及具該風扇控制器之伺服器系統
EP3115901B1 (en) Method and associated apparatus for managing a storage system with aid of hybrid management paths
CN115355192A (zh) 一种检测服务器风扇状态的装置、方法
CN211426669U (zh) 一种监测电源线缆老化的装置
CN114268077B (zh) 一种olt设备温度过热保护电路及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination