CN113971101B - 一种服务器温度故障诊断方法、装置、存储介质及系统 - Google Patents

一种服务器温度故障诊断方法、装置、存储介质及系统 Download PDF

Info

Publication number
CN113971101B
CN113971101B CN202111208041.6A CN202111208041A CN113971101B CN 113971101 B CN113971101 B CN 113971101B CN 202111208041 A CN202111208041 A CN 202111208041A CN 113971101 B CN113971101 B CN 113971101B
Authority
CN
China
Prior art keywords
temperature
thermal resistance
chip
power consumption
shell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111208041.6A
Other languages
English (en)
Other versions
CN113971101A (zh
Inventor
叶琴
陈才
张坤
陈彪
毛长雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phytium Technology Co Ltd
Original Assignee
Phytium Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Phytium Technology Co Ltd filed Critical Phytium Technology Co Ltd
Priority to CN202111208041.6A priority Critical patent/CN113971101B/zh
Publication of CN113971101A publication Critical patent/CN113971101A/zh
Application granted granted Critical
Publication of CN113971101B publication Critical patent/CN113971101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Testing Of Individual Semiconductor Devices (AREA)

Abstract

本发明公开了一种服务器温度故障诊断方法、装置、存储介质及系统,包括:获取服务器内被监测芯片的结温;将所述结温与预设的温度阈值进行比较;当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;将所述功耗与预设的功耗阈值进行比较;当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因。采用本发明的技术方案能够实现服务器的温度故障检测以及对故障原因进行自动排查,并且操作简单,节省时间及人力成本。

Description

一种服务器温度故障诊断方法、装置、存储介质及系统
技术领域
本发明涉及服务器散热技术领域,尤其涉及一种服务器温度故障诊断方法、装置、计算机可读存储介质及系统。
背景技术
目前,市面上的大部分服务器能够通过温度传感器检测其芯片温度信息,以通过温度检测判断服务器是否出现温度故障问题,但是,采用温度检测的方法只能发现温度故障问题,并不能自动排查温度故障原因,当发现服务器温度异常时,需要专业工程师进行现场故障排查,并且还需要进行关闭服务器、拆卸散热器、在相应测点开槽安装热电偶等操作才能判断温度故障位置及原因,费时费力,操作麻烦。
发明内容
本发明实施例所要解决的技术问题在于,提供一种服务器温度故障诊断方法及系统,能够实现服务器的温度故障检测以及对故障原因进行自动排查,并且操作简单,节省时间及人力成本。
为了解决上述技术问题,本发明实施例提供了一种服务器温度故障诊断方法,包括:
获取服务器内被监测芯片的结温;
将所述结温与预设的温度阈值进行比较;
当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
将所述功耗与预设的功耗阈值进行比较;
当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因。
进一步地,所述获取服务器内被监测芯片的结温,具体包括:
根据预设的时间周期获取所述被监测芯片的当前结温;
根据所述当前结温和已经获取的N1个历史结温进行求平均值处理,相应获得所述结温;其中,N1>0;
所述获取所述被监测芯片的功耗,具体包括:
根据预设的时间周期获取所述被监测芯片的当前功耗;
根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理,相应获得所述功耗;其中,N2>0;
所述获取所述被监测芯片的壳温和所述服务器的进风温度,具体包括:
根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度;
根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理,相应获得所述壳温;其中,N3>0;
根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理,相应获得所述进风温度;其中,N4>0。
进一步地,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括:
根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻;
将所述壳环热阻与所述第一热阻阈值进行比较;
当所述壳环热阻大于所述第一热阻阈值时,判定温度故障原因为芯片外部散热异常;
当所述壳环热阻不大于所述第一热阻阈值时,根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。
进一步地,所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,具体包括:
根据公式
Figure BDA0003305424730000031
计算获得所述壳环热阻;其中,Rca表示所述壳环热阻,Tc表示所述壳温,Ta表示所述进风温度,P表示所述功耗。
进一步地,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括:
根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻;
将所述结壳热阻与所述第二热阻阈值进行比较;
当所述结壳热阻大于所述第二热阻阈值时,判定温度故障原因为芯片内部散热异常;
当所述结壳热阻不大于所述第二热阻阈值时,根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。
进一步地,所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,具体包括:
根据公式
Figure BDA0003305424730000032
计算获得所述结壳热阻;其中,Rjc表示所述结壳热阻,Tj表示所述结温,Tc表示所述壳温,P表示所述功耗。
进一步地,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,还包括:
当所述壳环热阻不大于所述第一热阻阈值,且所述结壳热阻不大于所述第二热阻阈值时,判定被监测点异常。
进一步地,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片外部散热异常时,对应的故障解决方案为更换所述服务器的导热界面材料或/和散热器。
进一步地,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片内部散热异常时,对应的故障解决方案为联系专业人员对所述被监测芯片的内部散热故障进行诊断。
进一步地,所述方法还包括:
对诊断的温度故障原因及其对应的故障解决方案进行显示。
为了解决上述技术问题,本发明实施例还提供了一种服务器温度故障诊断装置,所述装置用于实现上述任一项所述的服务器温度故障诊断方法,所述装置包括:
结温获取模块,用于获取服务器内被监测芯片的结温;
结温比较模块,用于将所述结温与预设的温度阈值进行比较;
功耗获取模块,用于当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
功耗比较模块,用于将所述功耗与预设的功耗阈值进行比较;
第一故障诊断模块,用于当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
第二故障诊断模块,用于当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因。
为了解决上述技术问题,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的服务器温度故障诊断方法。
为了解决上述技术问题,本发明实施例还提供了一种服务器温度故障诊断系统,包括数据采集器、存储器和处理器;其中,
所述数据采集器,用于采集服务器内被监测芯片的结温、功耗、壳温以及所述服务器的进风温度,并将所述结温、所述功耗、所述壳温以及所述进风温度发送至所述存储器;
所述存储器,用于存储接收到的所述结温、所述功耗、所述壳温以及所述进风温度,还用于存储预设的温度阈值、预设的功耗阈值和预设的热阻阈值;
所述处理器,用于根据所述存储器中存储的数据实现上述任一项所述的服务器温度故障诊断方法。
进一步地,所述系统还包括显示器;
所述处理器,还用于根据诊断的温度故障原因生成对应的故障解决方案,并将诊断的温度故障原因及其对应的故障解决方案发送至所述显示器;
所述显示器,用于对接收到的诊断的温度故障原因及其对应的故障解决方案进行显示。
与现有技术相比,本发明实施例提供了一种服务器温度故障诊断方法及系统,通过获取服务器内被监测芯片的结温,并将所述结温与预设的温度阈值进行比较;当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗,并将所述功耗与预设的功耗阈值进行比较;当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,并根据芯片热阻和预设的热阻阈值诊断温度故障原因;从而能够实现服务器的温度故障检测以及对故障原因进行自动排查,以判断故障位置,并且操作简单,节省了时间及人力成本。
附图说明
图1是本发明提供的一种服务器温度故障诊断方法的一个优选实施例的流程图;
图2是本发明提供的一种服务器温度故障诊断方法的步骤S16的一个优选实施例的流程图;
图3是本发明提供的一种服务器温度故障诊断方法的步骤S16的另一个优选实施例的流程图;
图4是本发明提供的一种服务器温度故障诊断装置的一个优选实施例的结构框图;
图5是本发明提供的一种服务器温度故障诊断系统的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种服务器温度故障诊断方法,参见图1所示,是本发明提供的一种服务器温度故障诊断方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S16:
步骤S11、获取服务器内被监测芯片的结温;
步骤S12、将所述结温与预设的温度阈值进行比较;
步骤S13、当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
步骤S14、将所述功耗与预设的功耗阈值进行比较;
步骤S15、当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
步骤S16、当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因。
具体的,实时检测获得并记录服务器内的被监测芯片的结温,并将获得的被监测芯片的结温与预先设置的温度阈值进行比较,以判断被监测芯片是否发生温度故障;当判定被监测芯片的结温大于预先设置的温度阈值时,表示被监测芯片发生温度故障,则需要诊断排查被监测芯片发生温度故障的原因,进一步的,实时检测获得并记录被监测芯片的功耗,并将获得的被监测芯片的功耗与预先设置的功耗阈值进行比较,以判断被监测芯片的功耗是否大于预先设置的功耗阈值;当被监测芯片的功耗大于预先设置的功耗阈值时,判定被监测芯片发生温度故障的原因为被监测芯片的芯片功耗过高,即,被监测芯片的功耗过高,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障;当被监测芯片的功耗不大于预先设置的功耗阈值时,表示被监测芯片的功耗正常,排除了芯片功耗过高这一温度故障原因,则需要诊断排查是否为其他温度故障原因,进一步的,实时检测获得并记录被监测芯片的壳温和服务器的进风温度,并至少根据获得的被监测芯片的壳温和服务器的进风温度,计算获得被监测芯片的芯片热阻,从而根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因。
其中,被监测芯片的相关温度参数和服务器的相关温度参数可以通过温度传感器检测获得,被监测芯片的功耗可以通过采集被监测芯片的电压和电流来计算获得。
可以理解的,当判定被监测芯片发生温度故障时,可以生成相应的高温故障报警信息以进行温度故障报警;当被监测芯片的结温不大于预先设置的温度阈值时,表示被监测芯片的温度正常,未发生温度故障,则无需进行后续处理,直接结束当前的诊断步骤流程,并在经过一定时间之后,重新开始执行步骤S11至步骤S16所对应的温度故障诊断流程。
需要说明的是,被监测芯片可以是服务器内的关键芯片,例如CPU芯片等,通过被监测芯片的温度变化情况可以代表服务器的散热情况,以进行服务器的温度故障诊断,并且在实际温度故障诊断过程中,所使用的参考阈值,例如温度阈值、功耗阈值和热阻阈值,可以根据服务器的性能要求以及散热需求进行相应设置,本发明实施例不作具体限定。
本发明实施例所提供的一种服务器温度故障诊断方法,通过获取被监测芯片的结温,并结合被监测芯片温度正常时的温度参考阈值,来判断被监测芯片是否发生温度故障,并在判定被监测芯片发生温度故障后进一步根据被监测芯片的功耗和芯片热阻诊断温度故障原因,从而能够实现服务器的温度故障检测以及对故障原因进行自动排查,以判断故障位置,避免高温下损坏被监测芯片,并且无需专业工程师进行现场故障排查,操作简单,节省了时间及人力成本。
在另一个优选实施例中,所述获取服务器内被监测芯片的结温,具体包括:
根据预设的时间周期获取所述被监测芯片的当前结温;
根据所述当前结温和已经获取的N1个历史结温进行求平均值处理,相应获得所述结温;其中,N1>0;
所述获取所述被监测芯片的功耗,具体包括:
根据预设的时间周期获取所述被监测芯片的当前功耗;
根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理,相应获得所述功耗;其中,N2>0;
所述获取所述被监测芯片的壳温和所述服务器的进风温度,具体包括:
根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度;
根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理,相应获得所述壳温;其中,N3>0;
根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理,相应获得所述进风温度;其中,N4>0。
具体的,结合上述实施例,在获取被监测芯片的结温、被监测芯片的功耗、被监测芯片的壳温以及服务器的进风温度时,可以通过求取平均值的方法减小检测误差。
对于被监测芯片的结温,可以根据预先设置的时间周期来进行检测,相应的,在当前时间周期内检测获得了被监测芯片的当前结温,在前N1个(N1>0)时间周期内已经检测获得了被监测芯片对应的N1个历史结温,则对被监测芯片的当前结温和N1个历史结温进行求平均值处理,相应获得被监测芯片的结温。
同理,对于被监测芯片的功耗,也可以根据预先设置的时间周期来进行检测,相应的,在当前时间周期内检测获得了被监测芯片的当前功耗,在前N2个(N2>0)时间周期内已经检测获得了被监测芯片对应的N2个历史功耗,则对被监测芯片的当前功耗和N2个历史功耗进行求平均值处理,相应获得被监测芯片的功耗。
同理,对于被监测芯片的壳温,也可以根据预先设置的时间周期来进行检测,相应的,在当前时间周期内检测获得了被监测芯片的当前壳温,在前N3个(N3>0)时间周期内已经检测获得了被监测芯片对应的N3个历史壳温,则对被监测芯片的当前壳温和N3个历史壳温进行求平均值处理,相应获得被监测芯片的壳温。
同理,对于服务器的进风温度,也可以根据预先设置的时间周期来进行检测,相应的,在当前时间周期内检测获得了服务器的当前进风温度,在前N4个(N4>0)时间周期内已经检测获得了服务器对应的N3个历史进风温度,则对服务器的当前进风温度和N4个历史进风温度进行求平均值处理,相应获得服务器的进风温度。
需要说明的是,检测被监测芯片的结温所对应的时间周期、检测被监测芯片的功耗所对应的时间周期、检测被监测芯片的壳温所对应的时间周期和检测服务器的进风温度所对应的时间周期,可以根据实际需要进行相应设置,可以设置为相同的时间周期,也可以设置为不相同的时间周期,并且上述N1、N2、N3和N4所对应的历史数据的个数选择,同样可以根据实际需要进行相应设置,可以设置为相同的个数,也可以设置为不相同的个数,本发明实施例不作具体限定。
参见图2所示,是本发明提供的一种服务器温度故障诊断方法的步骤S16的一个优选实施例的流程图,作为上述方案的改进,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括步骤S1611至步骤S1614:
步骤S1611、根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻;
步骤S1612、将所述壳环热阻与所述第一热阻阈值进行比较;
步骤S1613、当所述壳环热阻大于所述第一热阻阈值时,判定温度故障原因为芯片外部散热异常;
步骤S1614、当所述壳环热阻不大于所述第一热阻阈值时,根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。
具体的,结合上述实施例,被监测芯片的芯片热阻具体包括壳环热阻和结壳热阻,预先设置的热阻阈值具体包括第一热阻阈值和第二热阻阈值,则,在进一步根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因时,可以先根据获得的被监测芯片的功耗、被监测芯片的壳温和服务器的进风温度,计算获得被监测芯片的壳环热阻Rca,并将计算获得的被监测芯片的壳环热阻Rca与第一热阻阈值进行比较,以判断被监测芯片的壳环热阻Rca是否大于第一热阻阈值;当被监测芯片的壳环热阻Rca大于第一热阻阈值时,判定被监测芯片发生温度故障的原因为芯片外部散热异常,即,被监测芯片的外部散热异常,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障;当被监测芯片的壳环热阻Rca不大于第一热阻阈值时,表示被监测芯片的外部散热正常,排除了芯片外部散热异常这一温度故障原因,则需要诊断排查是否为其他温度故障原因,进一步的,可以根据获得的被监测芯片的结温、被监测芯片的功耗和被监测芯片的壳温,计算获得被监测芯片的结壳热阻Rjc,从而根据被监测芯片的结壳热阻Rjc和第二热阻阈值诊断排查被监测芯片发生温度故障的原因。
其中,在进一步根据被监测芯片的结壳热阻Rjc和第二热阻阈值诊断排查被监测芯片发生温度故障的原因时,可以将计算获得的被监测芯片的结壳热阻Rjc与第二热阻阈值进行比较,以判断被监测芯片的结壳热阻Rjc是否大于第二热阻阈值;当被监测芯片的结壳热阻Rjc大于第二热阻阈值时,判定被监测芯片发生温度故障的原因为芯片内部散热异常,即,被监测芯片的内部散热异常,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障;当被监测芯片的结壳热阻Rjc不大于第二热阻阈值时,表示被监测芯片的内部散热正常,排除了芯片内部散热异常这一温度故障原因,则需要诊断排查是否为其他温度故障原因。
结合上述实施例可知,本实施例按照功耗、壳环热阻和结壳热阻的顺序进行温度故障原因排查,先从与温度直接关联的芯片功耗的排查入手,再按照从简单到复杂的顺序依次进行排查,总的来说,由于更换导热界面材料以及更换散热器比更换芯片或者联系芯片厂家进行芯片内部散热故障检查容易,因此,排查芯片外部散热异常比排查芯片内部散热异常容易,故在根据芯片功耗诊断温度故障原因之后,先根据壳环热阻诊断温度故障原因,再根据结壳热阻诊断温度故障原因。
参见图3所示,是本发明提供的一种服务器温度故障诊断方法的步骤S16的另一个优选实施例的流程图,作为上述方案的改进,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括步骤S1621至步骤S1624:
步骤S1621、根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻;
步骤S1622、将所述结壳热阻与所述第二热阻阈值进行比较;
步骤S1623、当所述结壳热阻大于所述第二热阻阈值时,判定温度故障原因为芯片内部散热异常;
步骤S1624、当所述结壳热阻不大于所述第二热阻阈值时,根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。
具体的,结合上述实施例,被监测芯片的芯片热阻具体包括壳环热阻和结壳热阻,预先设置的热阻阈值具体包括第一热阻阈值和第二热阻阈值,则,在进一步根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因时,可以先根据获得的被监测芯片的结温、被监测芯片的功耗和被监测芯片的壳温,计算获得被监测芯片的结壳热阻Rjc,并将计算获得的被监测芯片的结壳热阻Rjc与第二热阻阈值进行比较,以判断被监测芯片的结壳热阻Rjc是否大于第二热阻阈值;当被监测芯片的结壳热阻Rjc大于第二热阻阈值时,判定被监测芯片发生温度故障的原因为芯片内部散热异常,即,被监测芯片的内部散热异常,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障;当被监测芯片的结壳热阻Rjc不大于第二热阻阈值时,表示被监测芯片的内部散热正常,排除了芯片内部散热异常这一温度故障原因,则需要诊断排查是否为其他温度故障原因,进一步的,可以根据获得的被监测芯片的功耗、被监测芯片的壳温和服务器的进风温度,计算获得被监测芯片的壳环热阻Rca,从而根据被监测芯片的壳环热阻Rca和第一热阻阈值诊断排查被监测芯片发生温度故障的原因。
其中,在进一步根据被监测芯片的壳环热阻Rca和第一热阻阈值诊断排查被监测芯片发生温度故障的原因时,可以将计算获得的被监测芯片的壳环热阻Rca与第一热阻阈值进行比较,以判断被监测芯片的壳环热阻Rca是否大于第一热阻阈值;当被监测芯片的壳环热阻Rca大于第一热阻阈值时,判定被监测芯片发生温度故障的原因为芯片外部散热异常,即,被监测芯片的外部散热异常,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障;当被监测芯片的壳环热阻Rca不大于第一热阻阈值时,表示被监测芯片的外部散热正常,排除了芯片外部散热异常这一温度故障原因,则需要诊断排查是否为其他温度故障原因。
需要说明的是,结合上述实施例可知,本实施例是按照功耗、结壳热阻和壳环热阻的顺序进行温度故障原因排查,本领域技术人员可以理解,在实际进行温度故障原因排查,对于功耗、结壳热阻和壳环热阻的诊断顺序并没有明确限定,可以根据实际需求进行设置。
优选地,所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,具体包括:
根据公式
Figure BDA0003305424730000131
计算获得所述壳环热阻;其中,Rca表示所述壳环热阻,Tc表示所述壳温,Ta表示所述进风温度,P表示所述功耗。
具体的,结合上述实施例,根据被监测芯片的功耗P、被监测芯片的壳温Tc和服务器的进风温度Ta,可以通过公式
Figure BDA0003305424730000132
计算获得被监测芯片的壳环热阻Rca的估算值。
优选地,所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,具体包括:
根据公式
Figure BDA0003305424730000133
计算获得所述结壳热阻;其中,Rjc表示所述结壳热阻,Tj表示所述结温,Tc表示所述壳温,P表示所述功耗。
具体的,结合上述实施例,根据被监测芯片的结温Tj、被监测芯片的功耗P和被监测芯片的壳温Tc,可以通过公式
Figure BDA0003305424730000134
计算获得被监测芯片的结壳热阻Rjc的估算值。
在又一个优选实施例中,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,还包括:
当所述壳环热阻不大于所述第一热阻阈值,且所述结壳热阻不大于所述第二热阻阈值时,判定被监测点异常。
具体的,结合上述实施例,在排除了芯片功耗过高这一温度故障原因(即被监测芯片的功耗不大于预先设置的功耗阈值)、排除了芯片外部散热异常这一温度故障原因(即被监测芯片的壳环热阻Rca不大于第一热阻阈值)且排除了芯片内部散热异常这一温度故障原因(即被监测芯片的结壳热阻Rjc不大于第二热阻阈值)之后,可以考虑其他原因,例如被监测点本身异常,从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障。
在又一个优选实施例中,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片外部散热异常时,对应的故障解决方案为更换所述服务器的导热界面材料或/和散热器。
具体的,结合上述实施例,在判定被监测芯片发生温度故障,并且已经诊断排查出被监测芯片发生温度故障的原因之后,还可以根据诊断出的不同的温度故障原因对应生成不同的故障解决方案。
当诊断获得的温度故障原因为芯片功耗过高时,可以判定为被监测芯片的负载过多导致功耗过高,对应的故障解决方案为减小被监测芯片的负载;例如,建议关闭一些应用程序或者适当降低频率来解决温度故障。
当诊断获得的温度故障原因为芯片外部散热异常时,可以判定为导热界面材料或/和散热器异常导致外部散热异常,对应的故障解决方案为更换服务器的导热界面材料或/和散热器;例如,对于液冷服务器,建议检查服务器的液冷组件是否正常工作,并检查导热界面材料是否涂抹正常,对于风冷散热器,建议检查服务器的风扇是否正常工作,并检查导热界面材料是否涂抹正常,若不正常,则通过更换导热界面材料或/和散热器来解决温度故障。
在又一个优选实施例中,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片内部散热异常时,对应的故障解决方案为联系专业人员对所述被监测芯片的内部散热故障进行诊断。
具体的,结合上述实施例,在判定被监测芯片发生温度故障,并且已经诊断排查出被监测芯片发生温度故障的原因之后,还可以根据诊断出的不同的温度故障原因对应生成不同的故障解决方案。
当诊断获得的温度故障原因为芯片功耗过高时,可以判定为被监测芯片的负载过多导致功耗过高,对应的故障解决方案为减小被监测芯片的负载;例如,建议关闭一些应用程序或者适当降低频率来解决温度故障。
当诊断获得的温度故障原因为芯片内部散热异常时,可以判定为被监测芯片本身异常导致内部散热异常,对应的故障解决方案为联系专业人员对被监测芯片的内部散热故障进行诊断;例如,考虑联系芯片厂家,对被监测芯片内部散热问题进行定位。
结合上述实施例可知,本发明实施例在判定被监测芯片发生温度故障之后,可以进行温度故障原因的诊断与定位,并结合诊断获得的温度故障原因给出相应的故障解决方案,有效节省了时间以及人力成本,不仅缩短了故障问题检测以及故障原因的排查时间,而且非专业人员也能够采用本发明实施例提供的技术方案来快速高效的解决故障问题。
在又一个优选实施例中,所述方法还包括:
对诊断的温度故障原因及其对应的故障解决方案进行显示。
具体的,结合上述实施例,在诊断排查出被监测芯片发生温度故障的原因,并根据不同的温度故障原因对应生成不同的故障解决方案之后,可以对诊断获得的温度故障原因及其对应的故障解决方案进行显示,从而通过显示更加直观的获取相关信息。
需要说明的是,在判定被监测芯片发生温度故障之后,如果生成了相应的高温故障报警信息,同样可以对生成的高温故障报警信息进行显示。
本发明实施例还提供了一种服务器温度故障诊断装置,参见图4所示,是本发明提供的一种服务器温度故障诊断装置的一个优选实施例的结构框图,所述装置用于实现上述任一实施例所述的服务器温度故障诊断方法,所述装置包括:
结温获取模块11,用于获取服务器内被监测芯片的结温;
结温比较模块12,用于将所述结温与预设的温度阈值进行比较;
功耗获取模块13,用于当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
功耗比较模块14,用于将所述功耗与预设的功耗阈值进行比较;
第一故障诊断模块15,用于当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
第二故障诊断模块16,用于当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因。
优选地,所述结温获取模块11具体包括:
结温检测单元,用于根据预设的时间周期获取所述被监测芯片的当前结温;
结温计算单元,用于根据所述当前结温和已经获取的N1个历史结温进行求平均值处理,相应获得所述结温;其中,N1>0;
所述功耗获取模块13具体包括:
功耗检测单元,用于根据预设的时间周期获取所述被监测芯片的当前功耗;
功耗计算单元,用于根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理,相应获得所述功耗;其中,N2>0;
所述第二故障诊断模块16具体包括:
壳温及进风温度检测单元,用于根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度;
壳温计算单元,用于根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理,相应获得所述壳温;其中,N3>0;
进风温度计算单元,用于根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理,相应获得所述进风温度;其中,N4>0。
优选地,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述第二故障诊断模块16具体包括:
壳环热阻计算单元,用于根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻;
壳环热阻比较单元,用于将所述壳环热阻与所述第一热阻阈值进行比较;
第一故障诊断单元,用于当所述壳环热阻大于所述第一热阻阈值时,判定温度故障原因为芯片外部散热异常;
第二故障诊断单元,用于当所述壳环热阻不大于所述第一热阻阈值时,根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。
优选地,所述壳环热阻计算单元具体用于:
根据公式
Figure BDA0003305424730000171
计算获得所述壳环热阻;其中,Rca表示所述壳环热阻,Tc表示所述壳温,Ta表示所述进风温度,P表示所述功耗。
优选地,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述第二故障诊断模块16具体包括:
结壳热阻计算单元,用于根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻;
结壳热阻比较单元,用于将所述结壳热阻与所述第二热阻阈值进行比较;
第三故障诊断单元,用于当所述结壳热阻大于所述第二热阻阈值时,判定温度故障原因为芯片内部散热异常;
第四故障诊断单元,用于当所述结壳热阻不大于所述第二热阻阈值时,根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。
优选地,所述结壳热阻计算单元具体用于:
根据公式
Figure BDA0003305424730000172
计算获得所述结壳热阻;其中,Rjc表示所述结壳热阻,Tj表示所述结温,Tc表示所述壳温,P表示所述功耗。
优选地,所述第二故障诊断模块16还包括:
第五故障诊断单元,用于当所述壳环热阻不大于所述第一热阻阈值,且所述结壳热阻不大于所述第二热阻阈值时,判定被监测点异常。
优选地,所述装置还包括:
第一解决方案生成模块,用于根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片外部散热异常时,对应的故障解决方案为更换所述服务器的导热界面材料或/和散热器。
优选地,所述方法还包括:
第二解决方案生成模块,用于根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片内部散热异常时,对应的故障解决方案为联系专业人员对所述被监测芯片的内部散热故障进行诊断。
优选地,所述装置还包括:
显示模块,用于对诊断的温度故障原因及其对应的故障解决方案进行显示。
需要说明的是,本发明实施例所提供的一种服务器温度故障诊断装置,能够实现上述任一实施例所述的服务器温度故障诊断方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的服务器温度故障诊断方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的服务器温度故障诊断方法。
本发明实施例还提供了一种服务器温度故障诊断系统,参见图5所示,是本发明提供的一种服务器温度故障诊断系统的一个优选实施例的结构框图,所述系统包括数据采集器、存储器和处理器;其中,
所述数据采集器,用于采集服务器内被监测芯片的结温、功耗、壳温以及所述服务器的进风温度,并将所述结温、所述功耗、所述壳温以及所述进风温度发送至所述存储器;
所述存储器,用于存储接收到的所述结温、所述功耗、所述壳温以及所述进风温度,还用于存储预设的温度阈值、预设的功耗阈值和预设的热阻阈值;
所述处理器,用于根据所述存储器中存储的数据实现上述任一实施例所述的服务器温度故障诊断方法。
结合图5所示,作为上述方案的改进,所述系统还包括显示器;
所述处理器,还用于根据诊断的温度故障原因生成对应的故障解决方案,并将诊断的温度故障原因及其对应的故障解决方案发送至所述显示器;
所述显示器,用于对接收到的诊断的温度故障原因及其对应的故障解决方案进行显示。
在具体实施时,该系统中的数据采集器与存储器连接,存储器与处理器连接;该系统可以通过数据采集器实时采集服务器内的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度,并将采集到的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度发送至存储器;并通过存储器对接收到的数据采集器发送的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度进行存储操作,同时,还通过存储器存储预先设置的温度阈值、预先设置的功耗阈值和预先设置的热阻阈值;以及,通过处理器根据存储器中存储的相关数据执行上述任一实施例所述的服务器温度故障诊断方法。
其中,数据采集器主要包括温度传感器、电压采集模块和电流采集模块,温度传感器可以通过I2C与存储器连接,负责采集被监测芯片的结温、壳温以及服务器的进风温度,电压采集模块和电流采集模块可以通过IC接口与存储器连接,分别负责采集被监测芯片的电压和电流,以根据电压和电流计算获得被监测芯片的功耗。
优选地,该系统还包括显示器,显示器与处理器连接;该系统在通过处理器执行上述任一实施例所述的服务器温度故障诊断方法,诊断排查出被监测芯片发生温度故障的原因之后,还可以通过处理器根据诊断获得的不同的温度故障原因对应生成不同的故障解决方案,并将诊断获得的温度故障原因及其对应的故障解决方案发送至显示器;通过显示器来显示接收到的处理器发送的温度故障原因以及对应的故障解决方案。
需要说明的是,本发明实施例所提供的一种服务器温度故障诊断系统,能够实现上述任一实施例所述的服务器温度故障诊断方法的所有流程,系统的工作过程以及实现的技术效果分别与上述实施例所述的服务器温度故障诊断方法的工作过程以及实现的技术效果对应相同,这里不再赘述。
综上,本发明实施例所提供的一种服务器温度故障诊断方法及系统,通过获取被监测芯片的结温,并结合被监测芯片温度正常时的温度参考阈值,来判断被监测芯片是否发生温度故障,并在判定被监测芯片发生温度故障后进一步根据被监测芯片的功耗和芯片热阻诊断温度故障原因,从而能够实现服务器的温度故障检测以及对故障原因进行自动排查,以判断故障位置,并给出相应的故障解决方案,避免了高温下损坏被监测芯片,同时,无需专业工程师进行现场故障排查,操作简单,有效节省了时间及人力成本。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (14)

1.一种服务器温度故障诊断方法,其特征在于,包括:
获取服务器内被监测芯片的结温;
将所述结温与预设的温度阈值进行比较;
当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
将所述功耗与预设的功耗阈值进行比较;
当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因;
所述获取服务器内被监测芯片的结温,具体包括:
根据预设的时间周期获取所述被监测芯片的当前结温;
根据所述当前结温和已经获取的N1个历史结温进行求平均值处理,相应获得所述结温;其中,N1>0。
2.如权利要求1所述的服务器温度故障诊断方法,其特征在于,所述获取所述被监测芯片的功耗,具体包括:
根据预设的时间周期获取所述被监测芯片的当前功耗;
根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理,相应获得所述功耗;其中,N2>0;
所述获取所述被监测芯片的壳温和所述服务器的进风温度,具体包括:
根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度;
根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理,相应获得所述壳温;其中,N3>0;
根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理,相应获得所述进风温度;其中,N4>0。
3.如权利要求1所述的服务器温度故障诊断方法,其特征在于,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括:
根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻;
将所述壳环热阻与所述第一热阻阈值进行比较;
当所述壳环热阻大于所述第一热阻阈值时,判定温度故障原因为芯片外部散热异常;
当所述壳环热阻不大于所述第一热阻阈值时,根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。
4.如权利要求3所述的服务器温度故障诊断方法,其特征在于,所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,具体包括:
根据公式
Figure FDA0004166800800000021
计算获得所述壳环热阻;其中,Rca表示所述壳环热阻,Tc表示所述壳温,Ta表示所述进风温度,P表示所述功耗。
5.如权利要求1所述的服务器温度故障诊断方法,其特征在于,所述芯片热阻包括壳环热阻和结壳热阻,所述热阻阈值包括第一热阻阈值和第二热阻阈值;
则,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,具体包括:
根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻;
将所述结壳热阻与所述第二热阻阈值进行比较;
当所述结壳热阻大于所述第二热阻阈值时,判定温度故障原因为芯片内部散热异常;
当所述结壳热阻不大于所述第二热阻阈值时,根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻,根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。
6.如权利要求5所述的服务器温度故障诊断方法,其特征在于,所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻,具体包括:
根据公式
Figure FDA0004166800800000031
计算获得所述结壳热阻;其中,Rjc表示所述结壳热阻,Tj表示所述结温,Tc表示所述壳温,P表示所述功耗。
7.如权利要求3或5所述的服务器温度故障诊断方法,其特征在于,所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因,还包括:
当所述壳环热阻不大于所述第一热阻阈值,且所述结壳热阻不大于所述第二热阻阈值时,判定被监测点异常。
8.如权利要求3所述的服务器温度故障诊断方法,其特征在于,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片外部散热异常时,对应的故障解决方案为更换所述服务器的导热界面材料或/和散热器。
9.如权利要求5所述的服务器温度故障诊断方法,其特征在于,所述方法还包括:
根据诊断的温度故障原因生成对应的故障解决方案;
其中,当温度故障原因为芯片功耗过高时,对应的故障解决方案为减小所述被监测芯片的负载;当温度故障原因为芯片内部散热异常时,对应的故障解决方案为联系专业人员对所述被监测芯片的内部散热故障进行诊断。
10.如权利要求8或9所述的服务器温度故障诊断方法,其特征在于,所述方法还包括:
对诊断的温度故障原因及其对应的故障解决方案进行显示。
11.一种服务器温度故障诊断装置,其特征在于,所述装置用于实现如权利要求1~10任一项所述的服务器温度故障诊断方法,所述装置包括:
结温获取模块,用于获取服务器内被监测芯片的结温;
结温比较模块,用于将所述结温与预设的温度阈值进行比较;
功耗获取模块,用于当所述结温大于所述温度阈值时,获取所述被监测芯片的功耗;
功耗比较模块,用于将所述功耗与预设的功耗阈值进行比较;
第一故障诊断模块,用于当所述功耗大于所述功耗阈值时,判定温度故障原因为芯片功耗过高;
第二故障诊断模块,用于当所述功耗不大于所述功耗阈值时,获取所述被监测芯片的壳温和所述服务器的进风温度,至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻,根据芯片热阻和预设的热阻阈值诊断温度故障原因;
所述结温获取模块具体包括:
结温检测单元,用于根据预设的时间周期获取所述被监测芯片的当前结温;
结温计算单元,用于根据所述当前结温和已经获取的N1个历史结温进行求平均值处理,相应获得所述结温;其中,N1>0。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~10任一项所述的服务器温度故障诊断方法。
13.一种服务器温度故障诊断系统,其特征在于,包括数据采集器、存储器和处理器;其中,
所述数据采集器,用于采集服务器内被监测芯片的结温、功耗、壳温以及所述服务器的进风温度,并将所述结温、所述功耗、所述壳温以及所述进风温度发送至所述存储器;
所述存储器,用于存储接收到的所述结温、所述功耗、所述壳温以及所述进风温度,还用于存储预设的温度阈值、预设的功耗阈值和预设的热阻阈值;
所述处理器,用于根据所述存储器中存储的数据实现如权利要求1~10任一项所述的服务器温度故障诊断方法。
14.如权利要求13所述的服务器温度故障诊断系统,其特征在于,所述系统还包括显示器;
所述处理器,还用于根据诊断的温度故障原因生成对应的故障解决方案,并将诊断的温度故障原因及其对应的故障解决方案发送至所述显示器;
所述显示器,用于对接收到的诊断的温度故障原因及其对应的故障解决方案进行显示。
CN202111208041.6A 2021-10-15 2021-10-15 一种服务器温度故障诊断方法、装置、存储介质及系统 Active CN113971101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111208041.6A CN113971101B (zh) 2021-10-15 2021-10-15 一种服务器温度故障诊断方法、装置、存储介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111208041.6A CN113971101B (zh) 2021-10-15 2021-10-15 一种服务器温度故障诊断方法、装置、存储介质及系统

Publications (2)

Publication Number Publication Date
CN113971101A CN113971101A (zh) 2022-01-25
CN113971101B true CN113971101B (zh) 2023-06-02

Family

ID=79587534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111208041.6A Active CN113971101B (zh) 2021-10-15 2021-10-15 一种服务器温度故障诊断方法、装置、存储介质及系统

Country Status (1)

Country Link
CN (1) CN113971101B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109140687A (zh) * 2018-06-15 2019-01-04 珠海格力电器股份有限公司 故障诊断方法、装置、系统、空调、服务器和存储介质
CN113203928A (zh) * 2021-03-31 2021-08-03 中国南方电网有限责任公司超高压输电公司 功率器件的结温监测方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393374B1 (en) * 1999-03-30 2002-05-21 Intel Corporation Programmable thermal management of an integrated circuit die
JP2007213167A (ja) * 2006-02-07 2007-08-23 Fujitsu Ltd 電力制御プログラム、サーバシステム、および電力制御方法
CN108072821B (zh) * 2017-12-06 2018-11-16 南京埃斯顿自动控制技术有限公司 半导体功率器件动态结温的实时在线预测方法
CN114756434A (zh) * 2022-04-30 2022-07-15 苏州浪潮智能科技有限公司 一种芯片功率监控方法、系统、设备以及介质
CN115575787A (zh) * 2022-10-12 2023-01-06 广东电网有限责任公司 一种igbt模块健康状态监测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109140687A (zh) * 2018-06-15 2019-01-04 珠海格力电器股份有限公司 故障诊断方法、装置、系统、空调、服务器和存储介质
CN113203928A (zh) * 2021-03-31 2021-08-03 中国南方电网有限责任公司超高压输电公司 功率器件的结温监测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113971101A (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
US7908505B2 (en) Apparatus, system, and method for event, time, and failure state recording mechanism in a power supply
US7346468B2 (en) Method and apparatus for detecting heat sink faults
CN109990922B (zh) 减少温度传感器冗余的温度传感器的故障诊断方法及系统
CN109323365B (zh) 诊断空调阻塞故障的方法和装置以及空调和存储介质
CN210433482U (zh) 具有冷却系统监视的磁共振装置
CN104320308B (zh) 一种服务器异常检测的方法及装置
JP7260292B2 (ja) 異常診断装置及び異常診断方法
JP2004240642A (ja) プラント機器の保守支援装置
CN109655678B (zh) 一种用于用电器件的散热性能评估方法及系统
CN113971101B (zh) 一种服务器温度故障诊断方法、装置、存储介质及系统
WO2018138583A1 (en) Liquid cooling systems for heat generating electronic devices that report coolant temperature via a tachometer signal
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
US9158646B2 (en) Abnormal information output system for a computer system
CN107735744B (zh) 阀故障预测的系统、方法和介质
CN108880916B (zh) 一种基于iic总线的故障定位方法及系统
JP5024966B2 (ja) 電子装置の障害監視装置、障害監視方法および障害監視プログラム
CN112987701B (zh) 一种基于vpx系统的ipmc远程控制调试方法及系统
CN111198802B (zh) 一种散热异常的检测方法、装置以及计算机可读存储介质
CN114490213A (zh) 电脑主板故障的监测诊断方法、系统、装置及存储介质
WO2021014282A1 (en) Overheating detection in an electric drive based on monitoring of thermal behaviour of semiconductor modules of the electric drive
US20160190983A1 (en) Notification Apparatus Usable With Cooling System or Other System
JP2005309724A (ja) 異常診断システム及び異常診断方法
US8892389B1 (en) Determining a condition of a system based on plural measurements
CN111026611A (zh) 一种服务器散热控制方法及系统
CN111290920B (zh) 基于peci总线测试cpu温度的系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant