CN114281173A - 一种服务器的可靠散热控制方法及装置 - Google Patents

一种服务器的可靠散热控制方法及装置 Download PDF

Info

Publication number
CN114281173A
CN114281173A CN202111454833.1A CN202111454833A CN114281173A CN 114281173 A CN114281173 A CN 114281173A CN 202111454833 A CN202111454833 A CN 202111454833A CN 114281173 A CN114281173 A CN 114281173A
Authority
CN
China
Prior art keywords
temperature
temperature point
point
fan
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111454833.1A
Other languages
English (en)
Inventor
岳永恒
吕书朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111454833.1A priority Critical patent/CN114281173A/zh
Publication of CN114281173A publication Critical patent/CN114281173A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明提供一种服务器的可靠散热控制方法及装置,属于服务器系统散热控制技术领域,所述方法步骤如下:BMC定时获取各温度点温度值及对应调速策略的风扇转速,对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测,按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常,对存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。本发明通过调整风扇转速识别异常的温度点,及时告警并调整调速模式为全速,减少因传感器或者读取链路异常导致的调速失败引起的宕机。

Description

一种服务器的可靠散热控制方法及装置
技术领域
本发明属于服务器系统散热控制技术领域,具体涉及一种服务器的可靠散热控制方法及装置。
背景技术
在服务器硬件中,各温度点的探测经常面临一些不稳定因素,尤其是因为一些异常导致温度值不刷新,且无告警信息,造成调速不及时的情况。例如,X86服务器的CPU温度一般是CPU内部的温度传感器由intel管理引擎ME读取后传递给BMC,从而由BMC根据CPU温度计算得到相应的风扇转速,而当对CPU进行一些特殊操作,比如测试或者调试时,CPU会被执行halt指令操作或其他异常操作,从而无法执行正常业务,同时其温度也无法传递给intel管理引擎ME,此时BMC得到的CPU温度无法刷新,无法正常调整风扇转速,如果此时CPU在执行一些高功耗的操作时,CPU会因为无法的得到降温而宕机,甚至在现场定位问题时,容易出现CPU温度过高导致现场被破坏。
内存的温度也是intel管理引擎ME通过I2C链路从内存获取后传给BMC的,当内存I2C链路异常导致内存的温度传感器访问不到时,intel管理引擎ME执行的策略也是保持温度值不变而不刷新,BMC可以正常访问ME的温度值,但一直是链路异常前的值;另外,主板上其他温度点虽然是BMC直接通过I2C获取,可以感受到链路异常情况,但是如果出现传感器损坏其内部温度值不刷新,也会导致温度值获取异常。
以上CPU执行halt指令或者内存I2C链路异常会导致intel管理引擎ME不刷新温度值,传感器故障也会造成其温度值不刷新,造成BMC从intel管理引擎ME或者传感器拿到的温度值是一直不刷新的值,造成散热调控风险,故障扩散。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种服务器的可靠散热控制方法及装置,是非常有必要的。
发明内容
针对现有技术的上述CPU执行halt指令或者内存I2C链路异常会导致intel管理引擎ME不刷新温度值,传感器故障也会造成其温度值不刷新,造成BMC从intel管理引擎ME或者传感器拿到的温度值是一直不刷新的值,造成散热调控风险,故障扩散的缺陷,本发明提供一种服务器的可靠散热控制方法及装置,以解决上述技术问题。
第一方面,本发明提供一种服务器的可靠散热控制方法及装置,包括如下步骤:
S1.BMC定时获取各温度点温度值及对应调速策略的风扇转速;
S2.BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
S3.对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
S4.当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
进一步地,步骤S1具体步骤如下:
S11.BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
S12.BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n。各温度点包括ME寄存器中存储的CPU的温度值或内存的温度值,以及服务器主板上的温度传感器采集的发热元器件的温度值。
进一步地,步骤S2具体步骤如下:
S21.获取设定次数m;
S22.BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
若是,进入步骤S24;
若否,进入步骤S23;
S23.判定每个温度点的m次取的温度值发生变化,各温度点正常,返回步骤S1;
S24.对m个温度值相同的温度点启动异常检测。对于每个温度点m次取值的m个温度值正常情况下是有细微变化的,而若m个值均一致,不发生变化,则有可能出现该温度点的传感器或者读取温度值的链路发生故障,需要进行异常检测。
进一步地,步骤S3具体步骤如下:
S31.获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
S32.对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
若是,进入步骤S33;
若否,进入步骤S34;
S33.判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除,返回步骤S1;
S34.判断异常检测次数是否已完成;
若是,进入步骤S35;
若否,进入步骤S36;
S35.判定该温度点的温度值与风扇转速变化不匹配,该温度点异常,进入步骤S4;
S36.定位到下一次异常检测,并获取该次异常检测的设定比例,返回步骤S32。异常检测次数是提前设定的,经过一次风扇转速调整后,若温度不能发生变化,则可能是风扇转速调整比例过低,需要进一步进行风扇转速调整,而进行异常检测次数越多,精度越高,具体根据测试需求设定;正常情况下,增加风扇转速,温度点的温度值会下降,若出现了下降,则说明该温度点的传感器正常,以及读取温度的链路正常,若没有下降,则说明风扇转速增加的比例不够,或者是该温度点的传感器故障或者读取温度值的链路异常。
进一步地,步骤S4具体步骤如下:
S41.判定当前服务器系统存在异常温度点;
S42.调整风扇全速转动;
S43.提示对服务器系统进行温度异常排查。对于确定异常的温度点,需要调整风扇全速转动,保证服务器的需求,同时发出警告提示进行温度异常排查。
第二方面,本发明提供一种服务器的可靠散热控制装置,包括:
温度点温度值采样模块,用于BMC定时获取各温度点温度值及对应调速策略的风扇转速;
温度点温度值分析模块,用于BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
温度点异常检测模块,用于对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
异常温度点排查模块,用于当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
进一步地,温度点温度值采样模块包括:
温度值获取单元,用于BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
风扇转速获取单元,用于BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n。各温度点包括ME寄存器中存储的CPU的温度值或内存的温度值,以及服务器主板上的温度传感器采集的发热元器件的温度值。
进一步地,温度点温度值分析模块包括:
轮询次数获取单元,用于获取设定次数m;
温度值分析单元,用于BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
温度点正常判定单元,用于m个温度值不相同,判定每个温度点的m次取的温度值发生变化,各温度点正常;
温度点异常检测启动单元,用于对m个温度值相同的温度点启动异常检测。对于每个温度点m次取值的m个温度值正常情况下是有细微变化的,而若m个值均一致,不发生变化,则有可能出现该温度点的传感器或者读取温度值的链路发生故障,需要进行异常检测。
进一步地,温度点异常检测模块包括:
异常检测参数获取单元,用于获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
异常检测温度判断单元,用于对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
温度正常或故障解除判定单元,用于该温度点的温度值下降时,判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除;
异常检测次数完成判断单元,用于该温度点的温度值未下降时,判断异常检测次数是否已完成;
温度点异常判定单元,用于异常检测次数完成时,判定该温度点的温度值与风扇转速变化不匹配,该温度点异常;
下一次异常检测定位单元,用于异常检测次数未完成时,定位到下一次异常检测,并获取该次异常检测的设定比例。异常检测次数是提前设定的,经过一次风扇转速调整后,若温度不能发生变化,则可能是风扇转速调整比例过低,需要进一步进行风扇转速调整,而进行异常检测次数越多,精度越高,具体根据测试需求设定;正常情况下,增加风扇转速,温度点的温度值会下降,若出现了下降,则说明该温度点的传感器正常,以及读取温度的链路正常,若没有下降,则说明风扇转速增加的比例不够,或者是该温度点的传感器故障或者读取温度值的链路异常。
进一步地,异常温度点排查模块包括:
异常温度点存在判定单元,用于判定当前服务器系统存在异常温度点;
风扇全速转动调整单元,用于调整风扇全速转动;
温度异常排查提示单元,用于提示对服务器系统进行温度异常排查。对于确定异常的温度点,需要调整风扇全速转动,保证服务器的需求,同时发出警告提示进行温度异常排查。
本发明的有益效果在于:
本发明提供的服务器的可靠散热控制方法及装置,通过调整风扇转速对温度值一直不发生变化的温度点进行检测,判断获取的温度值是否在风扇转速变化时正常刷新,从而判断该传感器以及温度值读取是否有异常,从而对发生异常的传感器或读取链路及时告警并调整调速模式为全速,减少因传感器或者读取链路异常导致的调速失败引起的宕机,增强服务器系统稳定性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的服务器的可靠散热控制方法实施例1流程示意图。
图2是本发明的服务器的可靠散热控制方法实施例2流程示意图。
图3是本发明的服务器的可靠散热控制装置示意图。
图中,1-温度点温度值采样模块;1.1-温度值获取单元;1.2-风扇转速获取单元;2-温度点温度值分析模块;2.1-轮询次数获取单元;2.2-温度值分析单元;2.3-温度点正常判定单元;2.4-温度点异常检测启动单元;3-温度点异常检测模块;3.1-异常检测参数获取单元;3.2-异常检测温度判断单元;3.3-温度正常或故障解除判定单元;3.4-异常检测次数完成判断单元;3.5-温度点异常判定单元;3.6-下一次异常检测定位单元;4-异常温度点排查模块;4.1-异常温度点存在判定单元;4.2-风扇全速转动调整单元;4.3-温度异常排查提示单元。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
ME,是Intel Management Engine的简称,Intel管理引擎,Intel ME是指Intel芯片中一个独立于CPU和操作系统的微处理器。
实施例1:
如图1所示,本发明提供一种服务器的可靠散热控制方法,包括如下步骤:
S1.BMC定时获取各温度点温度值及对应调速策略的风扇转速;
S2.BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
S3.对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
S4.当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
本发明提供的服务器的可靠散热控制方法,通过调整风扇转速对温度值一直不发生变化的温度点进行检测,判断获取的温度值是否在风扇转速变化时正常刷新,从而判断该传感器以及温度值读取是否有异常,从而对发生异常的传感器或读取链路及时告警并调整调速模式为全速,减少因传感器或者读取链路异常导致的调速失败引起的宕机,增强服务器系统稳定性。
实施例2:
如图2所示,本发明提供一种服务器的可靠散热控制方法,包括如下步骤:
S1.BMC定时获取各温度点温度值及对应调速策略的风扇转速;具体步骤如下:
S11.BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
S12.BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n;各温度点包括ME寄存器中存储的CPU的温度值或内存的温度值,以及服务器主板上的温度传感器采集的发热元器件的温度值;
S2.BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;具体步骤如下:
S21.获取设定次数m;
S22.BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
若是,进入步骤S24;
若否,进入步骤S23;
S23.判定每个温度点的m次取的温度值发生变化,各温度点正常,返回步骤S1;
S24.对m个温度值相同的温度点启动异常检测;对于每个温度点m次取值的m个温度值正常情况下是有细微变化的,而若m个值均一致,不发生变化,则有可能出现该温度点的传感器或者读取温度值的链路发生故障,需要进行异常检测;
S3.对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;具体步骤如下:
S31.获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
S32.对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
若是,进入步骤S33;
若否,进入步骤S34;
S33.判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除,返回步骤S1;
S34.判断异常检测次数是否已完成;
若是,进入步骤S35;
若否,进入步骤S36;
S35.判定该温度点的温度值与风扇转速变化不匹配,该温度点异常,进入步骤S4;
S36.定位到下一次异常检测,并获取该次异常检测的设定比例,返回步骤S32;异常检测次数是提前设定的,经过一次风扇转速调整后,若温度不能发生变化,则可能是风扇转速调整比例过低,需要进一步进行风扇转速调整,而进行异常检测次数越多,精度越高,具体根据测试需求设定;正常情况下,增加风扇转速,温度点的温度值会下降,若出现了下降,则说明该温度点的传感器正常,以及读取温度的链路正常,若没有下降,则说明风扇转速增加的比例不够,或者是该温度点的传感器故障或者读取温度值的链路异常;
S4.当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查;具体步骤如下:
S41.判定当前服务器系统存在异常温度点;
S42.调整风扇全速转动;
S43.提示对服务器系统进行温度异常排查;对于确定异常的温度点,需要调整风扇全速转动,保证服务器的需求,同时发出警告提示进行温度异常排查。
上述实施例2中,以设定次数m取10,异常测试次数取2,第一次异常测试增加风扇转速10%,第二次异常测试风扇增加转速20%为例,正常情况下,采集温度点的温度值,根据各温度点的温度值设置调速策略,设置风扇转速此时为n,BMC获取到的该温度点的温度值会有细微变化,而当轮询10次某个温度点温度值一直未发生变化时,则该温度点的传感器或者链路可能发生异常,对该温度点启动异常检测,此时将风扇转速在原来的基础上上调到n(1+10%),此时由于风扇转速调高,各传感器的温度值应该下降,对该温度点10次轮询,而若该温度点的温度值仍然不发生变化,则为防止误报,启动第二次异常检测,此时风扇转速进一步提高到n(1+20%),服务器机箱内温度应该进一步下降;而若在此时,该温度点的温度值经十次轮询仍不发生变化,则断定此温度点为异常温度点,该温度点可能发生传感器故障或者读取链路异常,此时为避免超温,风扇调整为全速模式,同时报出告警信息,提示温度有异常需要排查。若异常检测时或全速模式时,轮询到该温度点的温度值发生了变化,则认为温度点正常或者故障解除,重新按照原有的调速策略调整风扇转速,并解除相应告警。
实施例3:
如图3所示,本发明提供一种服务器的可靠散热控制装置,包括:
温度点温度值采样模块1,用于BMC定时获取各温度点温度值及对应调速策略的风扇转速;
温度点温度值分析模块2,用于BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
温度点异常检测模块3,用于对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
异常温度点排查模块4,用于当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
本发明提供的服务器的可靠散热控制装置,通过调整风扇转速对温度值一直不发生变化的温度点进行检测,判断获取的温度值是否在风扇转速变化时正常刷新,从而判断该传感器以及温度值读取是否有异常,从而对发生异常的传感器或读取链路及时告警并调整调速模式为全速,减少因传感器或者读取链路异常导致的调速失败引起的宕机,增强服务器系统稳定性。
实施例4:
如图3所示,本发明提供一种服务器的可靠散热控制装置,包括:
温度点温度值采样模块1,用于BMC定时获取各温度点温度值及对应调速策略的风扇转速;温度点温度值采样模块1包括:
温度值获取单元1.1,用于BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
风扇转速获取单元1.2,用于BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n;各温度点包括ME寄存器中存储的CPU的温度值或内存的温度值,以及服务器主板上的温度传感器采集的发热元器件的温度值;
温度点温度值分析模块2,用于BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;温度点温度值分析模块2包括:
轮询次数获取单元2.1,用于获取设定次数m;
温度值分析单元2.2,用于BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
温度点正常判定单元2.3,用于m个温度值不相同,判定每个温度点的m次取的温度值发生变化,各温度点正常;
温度点异常检测启动单元2.4,用于对m个温度值相同的温度点启动异常检测;对于每个温度点m次取值的m个温度值正常情况下是有细微变化的,而若m个值均一致,不发生变化,则有可能出现该温度点的传感器或者读取温度值的链路发生故障,需要进行异常检测;
温度点异常检测模块3,用于对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;温度点异常检测模块3包括:
异常检测参数获取单元3.1,用于获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
异常检测温度判断单元3.2,用于对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
温度正常或故障解除判定单元3.3,用于该温度点的温度值下降时,判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除;
异常检测次数完成判断单元3.4,用于该温度点的温度值未下降时,判断异常检测次数是否已完成;
温度点异常判定单元3.5,用于异常检测次数完成时,判定该温度点的温度值与风扇转速变化不匹配,该温度点异常;
下一次异常检测定位单元3.6,用于异常检测次数未完成时,定位到下一次异常检测,并获取该次异常检测的设定比例;异常检测次数是提前设定的,经过一次风扇转速调整后,若温度不能发生变化,则可能是风扇转速调整比例过低,需要进一步进行风扇转速调整,而进行异常检测次数越多,精度越高,具体根据测试需求设定;正常情况下,增加风扇转速,温度点的温度值会下降,若出现了下降,则说明该温度点的传感器正常,以及读取温度的链路正常,若没有下降,则说明风扇转速增加的比例不够,或者是该温度点的传感器故障或者读取温度值的链路异常;
异常温度点排查模块4,用于当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查;异常温度点排查模块4包括:
异常温度点存在判定单元4.1,用于判定当前服务器系统存在异常温度点;
风扇全速转动调整单元4.2,用于调整风扇全速转动;
温度异常排查提示单元4.3,用于提示对服务器系统进行温度异常排查;对于确定异常的温度点,需要调整风扇全速转动,保证服务器的需求,同时发出警告提示进行温度异常排查。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种服务器的可靠散热控制方法,其特征在于,包括如下步骤:
S1.BMC定时获取各温度点温度值及对应调速策略的风扇转速;
S2.BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
S3.对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
S4.当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
2.如权利要求1所述的服务器的可靠散热控制方法,其特征在于,步骤S1具体步骤如下:
S11.BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
S12.BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n。
3.如权利要求1所述的服务器的可靠散热控制方法,其特征在于,步骤S2具体步骤如下:
S21.获取设定次数m;
S22.BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
若是,进入步骤S24;
若否,进入步骤S23;
S23.判定每个温度点的m次取的温度值发生变化,各温度点正常,返回步骤S1;
S24.对m个温度值相同的温度点启动异常检测。
4.如权利要求1所述的服务器的可靠散热控制方法,其特征在于,步骤S3具体步骤如下:
S31.获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
S32.对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
若是,进入步骤S33;
若否,进入步骤S34;
S33.判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除,返回步骤S1;
S34.判断异常检测次数是否已完成;
若是,进入步骤S35;
若否,进入步骤S36;
S35.判定该温度点的温度值与风扇转速变化不匹配,该温度点异常,进入步骤S4;
S36.定位到下一次异常检测,并获取该次异常检测的设定比例,返回步骤S32。
5.如权利要求1所述的服务器的可靠散热控制方法,其特征在于,步骤S4具体步骤如下:
S41.判定当前服务器系统存在异常温度点;
S42.调整风扇全速转动;
S43.提示对服务器系统进行温度异常排查。
6.一种服务器的可靠散热控制装置,其特征在于,包括:
温度点温度值采样模块(1),用于BMC定时获取各温度点温度值及对应调速策略的风扇转速;
温度点温度值分析模块(2),用于BMC对各温度点温度值进行分析,判断是否存在某温度点的温度值设定次数内未发生变化,若存在则对该温度点启动异常检测;
温度点异常检测模块(3),用于对需要进行异常检测的温度点按照设定比例调整风扇转速,并判断该温度点的温度值是否发生相应变化,判定温度值匹配风扇转速变化的温度点正常,而对温度值不匹配风扇转速变化的温度点判定为异常;
异常温度点排查模块(4),用于当存在异常温度点时,调整风扇全速转动,并提示进行温度异常排查。
7.如权利要求6所述的服务器的可靠散热控制装置,其特征在于,温度点温度值采样模块(1)包括:
温度值获取单元(1.1),用于BMC每间隔设定时间段对温度传感器或ME寄存器获取各温度点温度值进行读取;
风扇转速获取单元(1.2),用于BMC获取温度点温度值的同时,获取该温度点的调速策略对应的风扇转速n。
8.如权利要求6所述的服务器的可靠散热控制装置,其特征在于,温度点温度值分析模块(2)包括:
轮询次数获取单元(2.1),用于获取设定次数m;
温度值分析单元(2.2),用于BMC按顺序取每个温度点距离当前时间点的m个温度值,并判断是否m个温度值相同;
温度点正常判定单元(2.3),用于m个温度值不相同,判定每个温度点的m次取的温度值发生变化,各温度点正常;
温度点异常检测启动单元(2.4),用于对m个温度值相同的温度点启动异常检测。
9.如权利要求6所述的服务器的可靠散热控制装置,其特征在于,温度点异常检测模块(3)包括:
异常检测参数获取单元(3.1),用于获取异常检测次数及各次异常检测需要进行风扇转速调整的设定比例;
异常检测温度判断单元(3.2),用于对需要进行异常检测的温度点按照对应设定比例增加风扇转速,并判断该温度点的温度值是否下降;
温度正常或故障解除判定单元(3.3),用于该温度点的温度值下降时,判定该温度点的温度值匹配风扇转速变化,该温度点正常或故障解除;
异常检测次数完成判断单元(3.4),用于该温度点的温度值未下降时,判断异常检测次数是否已完成;
温度点异常判定单元(3.5),用于异常检测次数完成时,判定该温度点的温度值与风扇转速变化不匹配,该温度点异常;
下一次异常检测定位单元(3.6),用于异常检测次数未完成时,定位到下一次异常检测,并获取该次异常检测的设定比例。
10.如权利要求6所述的服务器的可靠散热控制装置,其特征在于,异常温度点排查模块(4)包括:
异常温度点存在判定单元(4.1),用于判定当前服务器系统存在异常温度点;
风扇全速转动调整单元(4.2),用于调整风扇全速转动;
温度异常排查提示单元(4.3),用于提示对服务器系统进行温度异常排查。
CN202111454833.1A 2021-11-29 2021-11-29 一种服务器的可靠散热控制方法及装置 Pending CN114281173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111454833.1A CN114281173A (zh) 2021-11-29 2021-11-29 一种服务器的可靠散热控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111454833.1A CN114281173A (zh) 2021-11-29 2021-11-29 一种服务器的可靠散热控制方法及装置

Publications (1)

Publication Number Publication Date
CN114281173A true CN114281173A (zh) 2022-04-05

Family

ID=80870470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111454833.1A Pending CN114281173A (zh) 2021-11-29 2021-11-29 一种服务器的可靠散热控制方法及装置

Country Status (1)

Country Link
CN (1) CN114281173A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756108A (zh) * 2022-04-26 2022-07-15 深圳市研控科技有限公司 一种电脑机箱的温度控制方法及系统
CN117310241A (zh) * 2023-11-30 2023-12-29 天津瑞芯源智能科技有限责任公司 一种具有消防安全功能的电表

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统
CN110594180A (zh) * 2019-07-19 2019-12-20 苏州浪潮智能科技有限公司 一种服务器散热控制器的控制方法及系统
CN111734667A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种服务器风扇转速调控方法及装置
CN113049142A (zh) * 2019-12-27 2021-06-29 华能如东八仙角海上风力发电有限责任公司 温度传感器的告警方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统
CN110594180A (zh) * 2019-07-19 2019-12-20 苏州浪潮智能科技有限公司 一种服务器散热控制器的控制方法及系统
CN113049142A (zh) * 2019-12-27 2021-06-29 华能如东八仙角海上风力发电有限责任公司 温度传感器的告警方法、装置、设备及存储介质
CN111734667A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种服务器风扇转速调控方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756108A (zh) * 2022-04-26 2022-07-15 深圳市研控科技有限公司 一种电脑机箱的温度控制方法及系统
CN117310241A (zh) * 2023-11-30 2023-12-29 天津瑞芯源智能科技有限责任公司 一种具有消防安全功能的电表
CN117310241B (zh) * 2023-11-30 2024-02-02 天津瑞芯源智能科技有限责任公司 一种具有消防安全功能的电表

Similar Documents

Publication Publication Date Title
CN109637680B (zh) 核电站泄漏监测报警方法及报警系统
CN114281173A (zh) 一种服务器的可靠散热控制方法及装置
EP3905263A1 (en) Nuclear power plant leakage monitoring alarm method and alarm system
JP2001201433A (ja) 回転機器の機械保護システム及びその方法
EP3696405B1 (en) Operating state evaluation method and operating state evaluation device
CN111124827A (zh) 一种设备风扇的监控装置及监控方法
CN107193708A (zh) 一种状态检测方法及系统
US20200271544A1 (en) Monitoring device, monitoring method, method of creating shaft vibration determination model, and program
CN114019422A (zh) 基于ATT-BiLSTM的变压器故障监测系统
CN117215876A (zh) 一种温度检查方法、系统、装置及介质
JP7288794B2 (ja) 稼働状態評価方法、及び、稼働状態評価装置
CN111338891A (zh) 一种风扇稳定性测试方法及装置
KR102198190B1 (ko) 운전조건을 고려한 회전체 고장 진단 데이터 정규화 처리 방법 및 이를 이용한 회전체 고장 진단 방법
CN104714867A (zh) 风扇装反测试系统及方法
CN108958220B (zh) 一种流体机械测控系统的智能仪表组态软件及方法
CN115729756A (zh) 陪测硬盘、基于陪测硬盘陪测服务器的方法及系统
CN112797807B (zh) 温度异常监测系统及方法
CN114326999A (zh) 一种基于热成像散热调控的方法、系统、设备和存储介质
CN111290920B (zh) 基于peci总线测试cpu温度的系统、方法及存储介质
CN112542029A (zh) 风机噪声检测监控方法、系统、计算机设备及存储介质
CN113532699A (zh) 温度传感器的故障检测方法及装置
CN216052738U (zh) 一种汽轮机监测仪表自检测系统
CN114233470B (zh) 一种发动机曲轴箱压力修正方法及相关设备
CN111352789B (zh) 一种用于服务器的交流循环测试方法、装置及存储介质
CN117542178A (zh) 一种温室气体观测设备运行状态监测预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination