CN115098339A - 一种主板温度监控方法、系统、装置及可读存储介质 - Google Patents

一种主板温度监控方法、系统、装置及可读存储介质 Download PDF

Info

Publication number
CN115098339A
CN115098339A CN202210871086.XA CN202210871086A CN115098339A CN 115098339 A CN115098339 A CN 115098339A CN 202210871086 A CN202210871086 A CN 202210871086A CN 115098339 A CN115098339 A CN 115098339A
Authority
CN
China
Prior art keywords
temperature
regulation
mainboard
output
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210871086.XA
Other languages
English (en)
Inventor
周志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210871086.XA priority Critical patent/CN115098339A/zh
Publication of CN115098339A publication Critical patent/CN115098339A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/81Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer by operating on the power supply, e.g. enabling or disabling power-on, sleep or resume operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Control Of Temperature (AREA)

Abstract

本发明提出的一种主板温度监控方法、系统、装置及可读存储介质,所述方法包括:在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC;将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值;设置温度告警点;当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控;当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。本发明能够提前发现主板的温度异常,并通知运维进行更换,避免进一步故障产生。

Description

一种主板温度监控方法、系统、装置及可读存储介质
技术领域
本发明涉及计算机技术领域,更具体的说是涉及一种主板温度监控方法、系统、装置及可读存储介质。
背景技术
随着服务器的升级,CPU和PCH所带的功能越来越多,主板设计所用的空间原来越大,导致整机中其它模块空间被占用;如当前部分机型的设计,都从原来的电源和主板直接相连提供供电,变成目前电源板占用一层空间,主板或者GPU板占用一层空间,再通过螺丝或者螺柱的方式,将主板需要的12V或者54V进行供电。
利用螺丝或者螺柱的这种供电方式,虽然提高了主板可用的面积,但是,如果安装时存在受力面积不一致的缺陷,长期使用后,在长期大电流的情况下,供电位置会出现积热过温的情况,极易使得主板内部受损,12V电源层与地发生短路,进而导致烧毁。而螺柱一旦出现氧化,可能存在阻抗变大,使每个供电螺柱经过的电流不均衡,导致主板最终烧毁。
发明内容
针对以上问题,本发明的目的在于提供一种主板温度监控方法、系统、装置及可读存储介质,能够提前发现主板的温度异常,并通知运维进行更换,避免进一步故障产生。
本发明为实现上述目的,通过以下技术方案实现:一种主板温度监控方法,包括:
在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC;将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值;
设置温度告警点;
当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控;
当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。
进一步,所述设置温度告警点包括:
设置三个温度告警点,三个温度告警点具体为75℃、85℃和90℃。
进一步,所述模块化调控策略,包括:
当所有温度寄存器的输出正常,且输出值均小于75℃时,通过BMC按照PID调速类型进行调节风扇,将Set point设置为75℃,P值设置为1,I值设置为0.5,D值设置为1。
进一步,所述异常调控策略包括:
当任一温度寄存器的输出值大于75℃时,触发异常散热调控曲线,并按照PID值进行散热调控,增大风扇转速使得温度寄存器的输出值均小于或者等于75℃。
进一步,所述异常调控策略还包括:
当增大风扇转速后,任一温度寄存器的输出值大于85℃时,将风扇转速直接调到100%Duty最大转速,并且通过BMC记录log到SEL中,控制整机面板长亮红色指示灯进行告警;
当风扇已经达到100%Duty最大转速后,BMC监控到任一温度寄存器的输出值达到90℃时,BMC控制服务器强制关机。
进一步,所述模块化调控策略,包括:
当任一温度寄存器输出异常时,相应的温度寄存器向BMC输出异常代码,BMC判断其为异常状态;
若当前服务器处于开机状态,BMC控制服务器强制关机;
若当前服务器处于开机状态,BMC控制服务器进入保护状态,使其无法再开机。
进一步,所述方法还包括:
当所有温度寄存器的输出正常时,将任一温度寄存器的输出值与其余温度寄存器输出值的平均值进行对比;
若相差10%,则通过BMC控制整机面板长亮红色指示灯进行告警;
若相差20%,则通过BMC控制服务器强制关机。
相应的,本发明还公开了一种主板温度监控系统,包括:
采集模块,用于在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC;
输出模块,用于将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值;
设置模块,用于设置温度告警点;
第一调控模块,用于当所有温度寄存器的输出正常,且输出值均小于温度告警点,按照模块化调控策略对主板进行散热调控;
第二调控模块,用于当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点,按照异常调控策略对主板进行散热调控。
相应的,本发明公开了一种主板温度监控装置,包括:
存储器,用于存储主板温度监控程序;
处理器,用于执行所述主板温度监控程序时实现如上文任一项所述主板温度监控方法的步骤。
相应的,本发明公开了一种可读存储介质,所述可读存储介质上存储有主板温度监控程序,所述主板温度监控程序被处理器执行时实现如上文任一项所述主板温度监控方法的步骤。
对比现有技术,本发明有益效果在于:
本发明公开了一种主板温度监控方法、系统、装置及可读存储介质,能够实时监测供电螺柱的温度,当发现供电螺柱异常,可能导致主板温度突然升高,存在烧毁风险时,提前进行散热调控,并在调控效果不佳时进行报警和强制关机。极大的提高了整机的可靠性,更灵活高效可靠的保护了主板不被供电引起烧毁,保障了服务器的安全。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明具体实施方式的方法流程图。
图2是本发明具体实施方式的系统结构图。
图中,1、采集模块;2、输出模块;3、设置模块;4、第一调控模块;5、第二调控模块。
具体实施方式
本发明的核心是提供一种主板温度监控方法,现有技术中,主板采用螺丝或者螺柱的供电方式,虽然提高了主板可用的面积,虽然提高了主板可用的面积,但是,如果安装时存在受力面积不一致的缺陷,长期使用后,在长期大电流的情况下,供电位置会出现积热过温的情况,极易使得主板内部受损,12V电源层与地发生短路,进而导致烧毁。而螺柱一旦出现氧化,可能存在阻抗变大,使每个供电螺柱经过的电流不均衡,导致主板最终烧毁。
而本发明提供的主板温度监控方法,首先,在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC。然后,将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值。当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控;当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。由此可见,本发明能够提前发现主板的温度异常,并通知运维进行更换,避免进一步故障产生。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本实施例提供了一种主板温度监控方法,包括如下步骤:
S1:在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC。
S2:将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值。
S3:设置温度告警点。
具体的,设置三个温度告警点,分别为75℃、85℃和90℃。温度到达75℃说明主板温度已经进入非严重高域,温度达到85℃说明主板已经进入严重高域,温度达到90℃说明主板温度已经进入不可逆状态。
S4:当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控。
其中,模块化调控策略包括:当所有温度寄存器的输出正常,且输出值均小于75℃时,通过BMC按照PID调速类型进行调节风扇,将Set point设置为75℃,P值(proportionalconstant,Kp)设置为1,I值(integral constant,Ki)设置为0.5,D值(differentialconstant,Kd)设置为1。
S5:当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。
其中,异常调控策略具体包括一下几种情况:
1、当任一温度寄存器的输出值大于75℃时,触发异常散热调控曲线,并按照PID值进行散热调控,增大风扇转速使得温度寄存器的输出值均小于或者等于75℃。
2、当增大风扇转速后,任一温度寄存器的输出值持续升高并大于85℃时,将风扇转速直接调到100%Duty最大转速,并且通过BMC记录log到SEL中,控制整机面板长亮红色指示灯进行告警。
3、当风扇已经达到100%Duty最大转速后,BMC监控到任一温度寄存器的输出值达到90℃时,BMC控制服务器强制关机。
4、当任一温度寄存器输出异常时,相应的温度寄存器向BMC输出异常代码,BMC判断其为异常状态。此时,若当前服务器处于开机状态,BMC控制服务器强制关机;若当前服务器处于开机状态,BMC控制服务器进入保护状态,使其无法再开机。
S6:当所有温度寄存器的输出正常时,将任一温度寄存器的输出值与其余温度寄存器输出值的平均值进行对比;若相差10%,则通过BMC控制整机面板长亮红色指示灯进行告警;若相差20%,则通过BMC控制服务器强制关机。
本实施例提供了一种主板温度监控方法,能够实时监测供电螺柱的温度,当发现供电螺柱异常,可能导致主板温度突然升高,存在烧毁风险时,提前进行散热调控,并在调控效果不佳时进行报警和强制关机。极大的提高了整机的可靠性,更灵活高效可靠的保护了主板不被供电引起烧毁,保障了服务器的安全。
实施例二:
基于实施例一,本发明还公开了一种主板温度监控方法,包括:
1、在主板设计时,每个供电螺柱附近都设计安放一个温度传感器,通过I2C连接,受BMC读取及监控。
2、所有的螺柱温度传感器,都接入到一个螺柱温度寄存器中进行转换,并输出一个最大值作为MAX_luozhu温度;N个螺柱的温度值分别记为luozhu_1——luozhu_N。当所有螺柱在寄存器输出读值正常情况下,则散热按照模块化调控策略实现方案;如果luozhu_1---luozhu_N任一读值异常时,按照设定的异常方案进行散热调控,并进行BMC控制;如果无读值时,服务器关机进行保护。
3、当luozhu_1---luozhu_N所有螺柱读值正常,通过计算输出的MAX_luozhu温度,设置有3个温度告警点:非严重高域(75℃),严重高域(85℃),不可逆(90℃)。风扇设定按照PID调速类型进行调节,Set point设置75°,P值(proportional constant,Kp)设置1,I值(integral constant,Ki)设置0.5,D值(differential constant,Kd)设置1。
即当luozhu_1---luozhu_N均正常输出,且MAX_luozhu温度小于75℃时,按照机器散热策略中最低风扇转速进行散热;
4、当螺柱安装不平整,导致某个温度传感器温度累计升高,BMC监控到此MAX_luozhu温度达到非严重高域75℃,将触发异常散热调控曲线,并按照PID值进行散热调控,增大风扇转速使得MAX_luozhu温度小于或者等于75℃。
5、当散热调用策略不停增大风扇,而MAX_luozhu温度没有降低并持续升高到85℃,此时风扇转速直接调到100%Duty最大转速,并且BMC记录log到SEL中,整机面板长亮红色指示灯告警。
6、如果风扇已经达到100%Duty最大转速,BMC监控到MAX_luozhu温度仍然持续上升到90℃,BMC控制机器强制关机,保护避免进一步烧毁主板。
7、如果luozhu_1---luozhu_N其中有某个读值异常,无输出时,则输出异常代码,此时BMC也判断为异常状态,如果服务器处于开机状态,则控制服务器强制关机;如果此时服务器已经关机,则服务器处于被保护状态,无法再开机。
8、当供电螺柱(数量N),出现氧化或者其它方面异常,某个供电螺柱电流增大,它的温度传感器监测的温度较其它供电螺柱必定更高。BMC会读取每个供电螺柱温度传感器的温度,如luozhu_1---luozhu_N,通过BMC算法判断,如果其中某个温度,与其余sensor温度的平均值进行对比,如果相差10%就判断其异常。同上一样,将触发告警并推送运维,前面板机器状态灯将亮红灯告警。而相差20%,则判断异常严重,BMC控制服务器强制关机。
本实施例提供了一种主板温度监控方法,能够实时监测供电螺柱的温度,当发现供电螺柱异常,可能导致主板温度突然升高,存在烧毁风险时,提前进行散热调控,并在调控效果不佳时进行报警和强制关机。极大的提高了整机的可靠性,更灵活高效可靠的保护了主板不被供电引起烧毁,保障了服务器的安全。
实施例三:
基于实施例一,如图2所示,本发明还公开了一种主板温度监控系统,包括:采集模块1、输出模块2、设置模块3、第一调控模块4和第二调控模块5。
采集模块1,用于在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC。
输出模块2,用于将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值。
设置模块3,用于设置温度告警点。具体的,设置三个温度告警点,分别为75℃、85℃和90℃。温度到达75℃说明主板温度已经进入非严重高域,温度达到85℃说明主板已经进入严重高域,温度达到90℃说明主板温度已经进入不可逆状态。
第一调控模块4,用于当所有温度寄存器的输出正常,且输出值均小于温度告警点,按照模块化调控策略对主板进行散热调控。第一调控模块4具体用于:当所有温度寄存器的输出正常,且输出值均小于75℃时,通过BMC按照PID调速类型进行调节风扇,将Setpoint设置为75℃,P值(proportional constant,Kp)设置为1,I值(integral constant,Ki)设置为0.5,D值(differential constant,Kd)设置为1。
第二调控模块5,用于当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点,按照异常调控策略对主板进行散热调控。第二调控模块5具体用于:
当任一温度寄存器的输出值大于75℃时,触发异常散热调控曲线,并按照PID值进行散热调控,增大风扇转速使得温度寄存器的输出值均小于或者等于75℃。
当增大风扇转速后,任一温度寄存器的输出值持续升高并大于85℃时,将风扇转速直接调到100%Duty最大转速,并且通过BMC记录log到SEL中,控制整机面板长亮红色指示灯进行告警。
当风扇已经达到100%Duty最大转速后,BMC监控到任一温度寄存器的输出值达到90℃时,BMC控制服务器强制关机。
当任一温度寄存器输出异常时,相应的温度寄存器向BMC输出异常代码,BMC判断其为异常状态。此时,若当前服务器处于开机状态,BMC控制服务器强制关机;若当前服务器处于开机状态,BMC控制服务器进入保护状态,使其无法再开机。
本实施例提供了一种主板温度监控系统,能够实时监测供电螺柱的温度,当发现供电螺柱异常,可能导致主板温度突然升高,存在烧毁风险时,提前进行散热调控,并在调控效果不佳时进行报警和强制关机。极大的提高了整机的可靠性,更灵活高效可靠的保护了主板不被供电引起烧毁,保障了服务器的安全。
实施例四:
本实施例公开了一种主板温度监控装置,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的主板温度监控程序时实现以下步骤:
1、在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC。
2、将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值。
3、设置温度告警点。
4、当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控。
5、当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。
6、当所有温度寄存器的输出正常时,将任一温度寄存器的输出值与其余温度寄存器输出值的平均值进行对比;若相差10%,则通过BMC控制整机面板长亮红色指示灯进行告警;若相差20%,则通过BMC控制服务器强制关机。
进一步的,本实施例中的主板温度监控装置,还可以包括:
输入接口,用于获取外界导入的主板温度监控程序,并将获取到的主板温度监控程序保存至所述存储器中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器中,以便处理器利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口,用于将处理器产生的各种数据输出至与其相连的终端设备,以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中,所述输出接口具体可以包括但不限于USB接口、串行接口等。
通讯单元,用于在主板温度监控装置和外部服务器之间建立远程通讯连接,以便于主板温度监控装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器,用于运行服务器供电线路短路定位过程的相关信息进行实时显示。
鼠标,可以用于协助用户输入数据并简化用户的操作。
实施例五:
本实施例还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有主板温度监控程序,所述主板温度监控程序被处理器执行时实现以下步骤:
1、在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC。
2、将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值。
3、设置温度告警点。
4、当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控。
5、当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。
6、当所有温度寄存器的输出正常时,将任一温度寄存器的输出值与其余温度寄存器输出值的平均值进行对比;若相差10%,则通过BMC控制整机面板长亮红色指示灯进行告警;若相差20%,则通过BMC控制服务器强制关机。
综上所述,本发明能够提前发现主板的温度异常,并通知运维进行更换,避免进一步故障产生。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的主板温度监控方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种主板温度监控方法,其特征在于,包括:
在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC;将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值;
设置温度告警点;
当所有温度寄存器的输出正常,且输出值均小于温度告警点时,按照模块化调控策略对主板进行散热调控;
当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点时,按照异常调控策略对主板进行散热调控。
2.根据权利要求1所述的主板温度监控方法,其特征在于,所述设置温度告警点包括:
设置三个温度告警点,三个温度告警点具体为75℃、85℃和90℃。
3.根据权利要求2所述的主板温度监控方法,其特征在于,所述模块化调控策略,包括:
当所有温度寄存器的输出正常,且输出值均小于75℃时,通过BMC按照PID调速类型进行调节风扇,将Set point设置为75℃,P值设置为1,I值设置为0.5,D值设置为1。
4.根据权利要求2所述的主板温度监控方法,其特征在于,所述异常调控策略包括:
当任一温度寄存器的输出值大于75℃时,触发异常散热调控曲线,并按照PID值进行散热调控,增大风扇转速使得温度寄存器的输出值均小于或者等于75℃。
5.根据权利要求4所述的主板温度监控方法,其特征在于,所述异常调控策略还包括:
当增大风扇转速后,任一温度寄存器的输出值大于85℃时,将风扇转速直接调到100%Duty最大转速,并且通过BMC记录log到SEL中,控制整机面板长亮红色指示灯进行告警;
当风扇已经达到100%Duty最大转速后,BMC监控到任一温度寄存器的输出值达到90℃时,BMC控制服务器强制关机。
6.根据权利要求2所述的主板温度监控方法,其特征在于,所述模块化调控策略,包括:
当任一温度寄存器输出异常时,相应的温度寄存器向BMC输出异常代码,BMC判断其为异常状态;
若当前服务器处于开机状态,BMC控制服务器强制关机;
若当前服务器处于开机状态,BMC控制服务器进入保护状态,使其无法再开机。
7.根据权利要求2所述的主板温度监控方法,其特征在于,所述方法还包括:当所有温度寄存器的输出正常时,将任一温度寄存器的输出值与其余温度寄存器输出值的平均值进行对比;
若相差10%,则通过BMC控制整机面板长亮红色指示灯进行告警;
若相差20%,则通过BMC控制服务器强制关机。
8.一种主板温度监控系统,其特征在于,包括:
采集模块,用于在主板的每个供电螺柱上布设一个温度传感器,并采集温度信息发送至BMC;
输出模块,用于将每个温度传感器分别接入一个温度寄存器,以存储采集的温度信息,将温度信息转换为温度值,并输出其中的最大温度值;
设置模块,用于设置温度告警点;
第一调控模块,用于当所有温度寄存器的输出正常,且输出值均小于温度告警点,按照模块化调控策略对主板进行散热调控;
第二调控模块,用于当任一温度寄存器输出异常,或任一温度寄存器的输出值大于温度告警点,按照异常调控策略对主板进行散热调控。
9.一种主板温度监控装置,其特征在于,包括:
存储器,用于存储主板温度监控程序;
处理器,用于执行所述主板温度监控程序时实现如权利要求1至7任一项权利要求所述的主板温度监控方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有主板温度监控程序,所述主板温度监控程序被处理器执行时实现如权利要求1至7任一项权利要求所述的主板温度监控方法的步骤。
CN202210871086.XA 2022-07-22 2022-07-22 一种主板温度监控方法、系统、装置及可读存储介质 Pending CN115098339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210871086.XA CN115098339A (zh) 2022-07-22 2022-07-22 一种主板温度监控方法、系统、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210871086.XA CN115098339A (zh) 2022-07-22 2022-07-22 一种主板温度监控方法、系统、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN115098339A true CN115098339A (zh) 2022-09-23

Family

ID=83299415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210871086.XA Pending CN115098339A (zh) 2022-07-22 2022-07-22 一种主板温度监控方法、系统、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN115098339A (zh)

Similar Documents

Publication Publication Date Title
US6968470B2 (en) System and method for power management in a server system
US7908505B2 (en) Apparatus, system, and method for event, time, and failure state recording mechanism in a power supply
CN112069035B (zh) 用于机箱的ipmi板卡健康管理系统以及健康监控方法
CN103200050A (zh) 服务器的硬件状态监控方法和系统
CN105867572A (zh) 一种整机柜服务器电源管理方法及整机柜服务器
CN104699589A (zh) 风扇错误侦测系统及方法
CN110119128A (zh) 一种用于实验室用电设备的监控管理系统
US11640377B2 (en) Event-based generation of context-aware telemetry reports
CN111158982B (zh) 电子设备、第一运行系统、数据处理方法及存储介质
CN100472467C (zh) 一种监测计算机电源风扇状态的装置和方法
CN111488050A (zh) 一种电源监控方法、系统及服务器
CN113311754A (zh) 一种基于gd32单片机的电源模块的bmc管理系统
CN115098339A (zh) 一种主板温度监控方法、系统、装置及可读存储介质
CN112328033A (zh) 一种bmc中的风扇自动控制方法及相关设备
CN112131048A (zh) 一种服务器指示灯的控制方法和装置
CN105912442B (zh) 具有温度管理功能的电子装置
CN218824636U (zh) 一种用于服务器硬盘背板的电源检测装置
CN111984471A (zh) 一种机柜电源bmc冗余管理系统及方法
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN114328135A (zh) 一种设备故障指示方法、装置及相关设备
CN114562474B (zh) 一种风扇寿命的预测方法、系统、装置及可读存储介质
CN115277485B (zh) 一种网络数据的控制方法、装置及电子设备
CN115314417B (zh) 一种服务器系统状态灯的监控方法、系统、装置及介质
CN114116395B (zh) 一种老化室供电线路功率过载防护方法、系统及装置
CN112231184A (zh) 一种存储设备故障灯点亮方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination