CN113971101B

CN113971101B - 一种服务器温度故障诊断方法、装置、存储介质及系统

Info

Publication number: CN113971101B
Application number: CN202111208041.6A
Authority: CN
Inventors: 叶琴; 陈才; 张坤; 陈彪; 毛长雨
Original assignee: Phytium Technology Co Ltd
Current assignee: Phytium Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2023-06-02
Anticipated expiration: 2041-10-15
Also published as: CN113971101A

Abstract

本发明公开了一种服务器温度故障诊断方法、装置、存储介质及系统，包括：获取服务器内被监测芯片的结温；将所述结温与预设的温度阈值进行比较；当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗；将所述功耗与预设的功耗阈值进行比较；当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因。采用本发明的技术方案能够实现服务器的温度故障检测以及对故障原因进行自动排查，并且操作简单，节省时间及人力成本。

Description

一种服务器温度故障诊断方法、装置、存储介质及系统

技术领域

本发明涉及服务器散热技术领域，尤其涉及一种服务器温度故障诊断方法、装置、计算机可读存储介质及系统。

背景技术

目前，市面上的大部分服务器能够通过温度传感器检测其芯片温度信息，以通过温度检测判断服务器是否出现温度故障问题，但是，采用温度检测的方法只能发现温度故障问题，并不能自动排查温度故障原因，当发现服务器温度异常时，需要专业工程师进行现场故障排查，并且还需要进行关闭服务器、拆卸散热器、在相应测点开槽安装热电偶等操作才能判断温度故障位置及原因，费时费力，操作麻烦。

发明内容

本发明实施例所要解决的技术问题在于，提供一种服务器温度故障诊断方法及系统，能够实现服务器的温度故障检测以及对故障原因进行自动排查，并且操作简单，节省时间及人力成本。

为了解决上述技术问题，本发明实施例提供了一种服务器温度故障诊断方法，包括：

获取服务器内被监测芯片的结温；

将所述结温与预设的温度阈值进行比较；

当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗；

将所述功耗与预设的功耗阈值进行比较；

当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；

当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因。

进一步地，所述获取服务器内被监测芯片的结温，具体包括：

根据预设的时间周期获取所述被监测芯片的当前结温；

根据所述当前结温和已经获取的N1个历史结温进行求平均值处理，相应获得所述结温；其中，N1＞0；

所述获取所述被监测芯片的功耗，具体包括：

根据预设的时间周期获取所述被监测芯片的当前功耗；

根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理，相应获得所述功耗；其中，N2＞0；

所述获取所述被监测芯片的壳温和所述服务器的进风温度，具体包括：

根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度；

根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理，相应获得所述壳温；其中，N3＞0；

根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理，相应获得所述进风温度；其中，N4＞0。

进一步地，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

则，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，具体包括：

根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻；

将所述壳环热阻与所述第一热阻阈值进行比较；

当所述壳环热阻大于所述第一热阻阈值时，判定温度故障原因为芯片外部散热异常；

当所述壳环热阻不大于所述第一热阻阈值时，根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。

进一步地，所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，具体包括：

根据公式

计算获得所述壳环热阻；其中，Rca表示所述壳环热阻，Tc表示所述壳温，Ta表示所述进风温度，P表示所述功耗。

根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻；

将所述结壳热阻与所述第二热阻阈值进行比较；

当所述结壳热阻大于所述第二热阻阈值时，判定温度故障原因为芯片内部散热异常；

当所述结壳热阻不大于所述第二热阻阈值时，根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。

进一步地，所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，具体包括：

根据公式

计算获得所述结壳热阻；其中，Rjc表示所述结壳热阻，Tj表示所述结温，Tc表示所述壳温，P表示所述功耗。

进一步地，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，还包括：

当所述壳环热阻不大于所述第一热阻阈值，且所述结壳热阻不大于所述第二热阻阈值时，判定被监测点异常。

进一步地，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

其中，当温度故障原因为芯片功耗过高时，对应的故障解决方案为减小所述被监测芯片的负载；当温度故障原因为芯片外部散热异常时，对应的故障解决方案为更换所述服务器的导热界面材料或/和散热器。

进一步地，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

其中，当温度故障原因为芯片功耗过高时，对应的故障解决方案为减小所述被监测芯片的负载；当温度故障原因为芯片内部散热异常时，对应的故障解决方案为联系专业人员对所述被监测芯片的内部散热故障进行诊断。

进一步地，所述方法还包括：

对诊断的温度故障原因及其对应的故障解决方案进行显示。

为了解决上述技术问题，本发明实施例还提供了一种服务器温度故障诊断装置，所述装置用于实现上述任一项所述的服务器温度故障诊断方法，所述装置包括：

结温获取模块，用于获取服务器内被监测芯片的结温；

结温比较模块，用于将所述结温与预设的温度阈值进行比较；

功耗获取模块，用于当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗；

功耗比较模块，用于将所述功耗与预设的功耗阈值进行比较；

第一故障诊断模块，用于当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；

第二故障诊断模块，用于当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因。

为了解决上述技术问题，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的服务器温度故障诊断方法。

为了解决上述技术问题，本发明实施例还提供了一种服务器温度故障诊断系统，包括数据采集器、存储器和处理器；其中，

所述数据采集器，用于采集服务器内被监测芯片的结温、功耗、壳温以及所述服务器的进风温度，并将所述结温、所述功耗、所述壳温以及所述进风温度发送至所述存储器；

所述存储器，用于存储接收到的所述结温、所述功耗、所述壳温以及所述进风温度，还用于存储预设的温度阈值、预设的功耗阈值和预设的热阻阈值；

所述处理器，用于根据所述存储器中存储的数据实现上述任一项所述的服务器温度故障诊断方法。

进一步地，所述系统还包括显示器；

所述处理器，还用于根据诊断的温度故障原因生成对应的故障解决方案，并将诊断的温度故障原因及其对应的故障解决方案发送至所述显示器；

所述显示器，用于对接收到的诊断的温度故障原因及其对应的故障解决方案进行显示。

与现有技术相比，本发明实施例提供了一种服务器温度故障诊断方法及系统，通过获取服务器内被监测芯片的结温，并将所述结温与预设的温度阈值进行比较；当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗，并将所述功耗与预设的功耗阈值进行比较；当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，并根据芯片热阻和预设的热阻阈值诊断温度故障原因；从而能够实现服务器的温度故障检测以及对故障原因进行自动排查，以判断故障位置，并且操作简单，节省了时间及人力成本。

附图说明

图1是本发明提供的一种服务器温度故障诊断方法的一个优选实施例的流程图；

图2是本发明提供的一种服务器温度故障诊断方法的步骤S16的一个优选实施例的流程图；

图3是本发明提供的一种服务器温度故障诊断方法的步骤S16的另一个优选实施例的流程图；

图4是本发明提供的一种服务器温度故障诊断装置的一个优选实施例的结构框图；

图5是本发明提供的一种服务器温度故障诊断系统的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种服务器温度故障诊断方法，参见图1所示，是本发明提供的一种服务器温度故障诊断方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S16：

步骤S11、获取服务器内被监测芯片的结温；

步骤S12、将所述结温与预设的温度阈值进行比较；

步骤S13、当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗；

步骤S14、将所述功耗与预设的功耗阈值进行比较；

步骤S15、当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；

步骤S16、当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因。

具体的，实时检测获得并记录服务器内的被监测芯片的结温，并将获得的被监测芯片的结温与预先设置的温度阈值进行比较，以判断被监测芯片是否发生温度故障；当判定被监测芯片的结温大于预先设置的温度阈值时，表示被监测芯片发生温度故障，则需要诊断排查被监测芯片发生温度故障的原因，进一步的，实时检测获得并记录被监测芯片的功耗，并将获得的被监测芯片的功耗与预先设置的功耗阈值进行比较，以判断被监测芯片的功耗是否大于预先设置的功耗阈值；当被监测芯片的功耗大于预先设置的功耗阈值时，判定被监测芯片发生温度故障的原因为被监测芯片的芯片功耗过高，即，被监测芯片的功耗过高，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障；当被监测芯片的功耗不大于预先设置的功耗阈值时，表示被监测芯片的功耗正常，排除了芯片功耗过高这一温度故障原因，则需要诊断排查是否为其他温度故障原因，进一步的，实时检测获得并记录被监测芯片的壳温和服务器的进风温度，并至少根据获得的被监测芯片的壳温和服务器的进风温度，计算获得被监测芯片的芯片热阻，从而根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因。

其中，被监测芯片的相关温度参数和服务器的相关温度参数可以通过温度传感器检测获得，被监测芯片的功耗可以通过采集被监测芯片的电压和电流来计算获得。

可以理解的，当判定被监测芯片发生温度故障时，可以生成相应的高温故障报警信息以进行温度故障报警；当被监测芯片的结温不大于预先设置的温度阈值时，表示被监测芯片的温度正常，未发生温度故障，则无需进行后续处理，直接结束当前的诊断步骤流程，并在经过一定时间之后，重新开始执行步骤S11至步骤S16所对应的温度故障诊断流程。

需要说明的是，被监测芯片可以是服务器内的关键芯片，例如CPU芯片等，通过被监测芯片的温度变化情况可以代表服务器的散热情况，以进行服务器的温度故障诊断，并且在实际温度故障诊断过程中，所使用的参考阈值，例如温度阈值、功耗阈值和热阻阈值，可以根据服务器的性能要求以及散热需求进行相应设置，本发明实施例不作具体限定。

本发明实施例所提供的一种服务器温度故障诊断方法，通过获取被监测芯片的结温，并结合被监测芯片温度正常时的温度参考阈值，来判断被监测芯片是否发生温度故障，并在判定被监测芯片发生温度故障后进一步根据被监测芯片的功耗和芯片热阻诊断温度故障原因，从而能够实现服务器的温度故障检测以及对故障原因进行自动排查，以判断故障位置，避免高温下损坏被监测芯片，并且无需专业工程师进行现场故障排查，操作简单，节省了时间及人力成本。

在另一个优选实施例中，所述获取服务器内被监测芯片的结温，具体包括：

根据预设的时间周期获取所述被监测芯片的当前结温；

所述获取所述被监测芯片的功耗，具体包括：

根据预设的时间周期获取所述被监测芯片的当前功耗；

具体的，结合上述实施例，在获取被监测芯片的结温、被监测芯片的功耗、被监测芯片的壳温以及服务器的进风温度时，可以通过求取平均值的方法减小检测误差。

对于被监测芯片的结温，可以根据预先设置的时间周期来进行检测，相应的，在当前时间周期内检测获得了被监测芯片的当前结温，在前N1个(N1＞0)时间周期内已经检测获得了被监测芯片对应的N1个历史结温，则对被监测芯片的当前结温和N1个历史结温进行求平均值处理，相应获得被监测芯片的结温。

同理，对于被监测芯片的功耗，也可以根据预先设置的时间周期来进行检测，相应的，在当前时间周期内检测获得了被监测芯片的当前功耗，在前N2个(N2＞0)时间周期内已经检测获得了被监测芯片对应的N2个历史功耗，则对被监测芯片的当前功耗和N2个历史功耗进行求平均值处理，相应获得被监测芯片的功耗。

同理，对于被监测芯片的壳温，也可以根据预先设置的时间周期来进行检测，相应的，在当前时间周期内检测获得了被监测芯片的当前壳温，在前N3个(N3＞0)时间周期内已经检测获得了被监测芯片对应的N3个历史壳温，则对被监测芯片的当前壳温和N3个历史壳温进行求平均值处理，相应获得被监测芯片的壳温。

同理，对于服务器的进风温度，也可以根据预先设置的时间周期来进行检测，相应的，在当前时间周期内检测获得了服务器的当前进风温度，在前N4个(N4＞0)时间周期内已经检测获得了服务器对应的N3个历史进风温度，则对服务器的当前进风温度和N4个历史进风温度进行求平均值处理，相应获得服务器的进风温度。

需要说明的是，检测被监测芯片的结温所对应的时间周期、检测被监测芯片的功耗所对应的时间周期、检测被监测芯片的壳温所对应的时间周期和检测服务器的进风温度所对应的时间周期，可以根据实际需要进行相应设置，可以设置为相同的时间周期，也可以设置为不相同的时间周期，并且上述N1、N2、N3和N4所对应的历史数据的个数选择，同样可以根据实际需要进行相应设置，可以设置为相同的个数，也可以设置为不相同的个数，本发明实施例不作具体限定。

参见图2所示，是本发明提供的一种服务器温度故障诊断方法的步骤S16的一个优选实施例的流程图，作为上述方案的改进，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

则，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，具体包括步骤S1611至步骤S1614：

步骤S1611、根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻；

步骤S1612、将所述壳环热阻与所述第一热阻阈值进行比较；

步骤S1613、当所述壳环热阻大于所述第一热阻阈值时，判定温度故障原因为芯片外部散热异常；

步骤S1614、当所述壳环热阻不大于所述第一热阻阈值时，根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。

具体的，结合上述实施例，被监测芯片的芯片热阻具体包括壳环热阻和结壳热阻，预先设置的热阻阈值具体包括第一热阻阈值和第二热阻阈值，则，在进一步根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因时，可以先根据获得的被监测芯片的功耗、被监测芯片的壳温和服务器的进风温度，计算获得被监测芯片的壳环热阻Rca，并将计算获得的被监测芯片的壳环热阻Rca与第一热阻阈值进行比较，以判断被监测芯片的壳环热阻Rca是否大于第一热阻阈值；当被监测芯片的壳环热阻Rca大于第一热阻阈值时，判定被监测芯片发生温度故障的原因为芯片外部散热异常，即，被监测芯片的外部散热异常，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障；当被监测芯片的壳环热阻Rca不大于第一热阻阈值时，表示被监测芯片的外部散热正常，排除了芯片外部散热异常这一温度故障原因，则需要诊断排查是否为其他温度故障原因，进一步的，可以根据获得的被监测芯片的结温、被监测芯片的功耗和被监测芯片的壳温，计算获得被监测芯片的结壳热阻Rjc，从而根据被监测芯片的结壳热阻Rjc和第二热阻阈值诊断排查被监测芯片发生温度故障的原因。

其中，在进一步根据被监测芯片的结壳热阻Rjc和第二热阻阈值诊断排查被监测芯片发生温度故障的原因时，可以将计算获得的被监测芯片的结壳热阻Rjc与第二热阻阈值进行比较，以判断被监测芯片的结壳热阻Rjc是否大于第二热阻阈值；当被监测芯片的结壳热阻Rjc大于第二热阻阈值时，判定被监测芯片发生温度故障的原因为芯片内部散热异常，即，被监测芯片的内部散热异常，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障；当被监测芯片的结壳热阻Rjc不大于第二热阻阈值时，表示被监测芯片的内部散热正常，排除了芯片内部散热异常这一温度故障原因，则需要诊断排查是否为其他温度故障原因。

结合上述实施例可知，本实施例按照功耗、壳环热阻和结壳热阻的顺序进行温度故障原因排查，先从与温度直接关联的芯片功耗的排查入手，再按照从简单到复杂的顺序依次进行排查，总的来说，由于更换导热界面材料以及更换散热器比更换芯片或者联系芯片厂家进行芯片内部散热故障检查容易，因此，排查芯片外部散热异常比排查芯片内部散热异常容易，故在根据芯片功耗诊断温度故障原因之后，先根据壳环热阻诊断温度故障原因，再根据结壳热阻诊断温度故障原因。

参见图3所示，是本发明提供的一种服务器温度故障诊断方法的步骤S16的另一个优选实施例的流程图，作为上述方案的改进，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

则，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，具体包括步骤S1621至步骤S1624：

步骤S1621、根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻；

步骤S1622、将所述结壳热阻与所述第二热阻阈值进行比较；

步骤S1623、当所述结壳热阻大于所述第二热阻阈值时，判定温度故障原因为芯片内部散热异常；

步骤S1624、当所述结壳热阻不大于所述第二热阻阈值时，根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。

具体的，结合上述实施例，被监测芯片的芯片热阻具体包括壳环热阻和结壳热阻，预先设置的热阻阈值具体包括第一热阻阈值和第二热阻阈值，则，在进一步根据被监测芯片的芯片热阻和预先设置的热阻阈值诊断排查被监测芯片发生温度故障的原因时，可以先根据获得的被监测芯片的结温、被监测芯片的功耗和被监测芯片的壳温，计算获得被监测芯片的结壳热阻Rjc，并将计算获得的被监测芯片的结壳热阻Rjc与第二热阻阈值进行比较，以判断被监测芯片的结壳热阻Rjc是否大于第二热阻阈值；当被监测芯片的结壳热阻Rjc大于第二热阻阈值时，判定被监测芯片发生温度故障的原因为芯片内部散热异常，即，被监测芯片的内部散热异常，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障；当被监测芯片的结壳热阻Rjc不大于第二热阻阈值时，表示被监测芯片的内部散热正常，排除了芯片内部散热异常这一温度故障原因，则需要诊断排查是否为其他温度故障原因，进一步的，可以根据获得的被监测芯片的功耗、被监测芯片的壳温和服务器的进风温度，计算获得被监测芯片的壳环热阻Rca，从而根据被监测芯片的壳环热阻Rca和第一热阻阈值诊断排查被监测芯片发生温度故障的原因。

其中，在进一步根据被监测芯片的壳环热阻Rca和第一热阻阈值诊断排查被监测芯片发生温度故障的原因时，可以将计算获得的被监测芯片的壳环热阻Rca与第一热阻阈值进行比较，以判断被监测芯片的壳环热阻Rca是否大于第一热阻阈值；当被监测芯片的壳环热阻Rca大于第一热阻阈值时，判定被监测芯片发生温度故障的原因为芯片外部散热异常，即，被监测芯片的外部散热异常，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障；当被监测芯片的壳环热阻Rca不大于第一热阻阈值时，表示被监测芯片的外部散热正常，排除了芯片外部散热异常这一温度故障原因，则需要诊断排查是否为其他温度故障原因。

需要说明的是，结合上述实施例可知，本实施例是按照功耗、结壳热阻和壳环热阻的顺序进行温度故障原因排查，本领域技术人员可以理解，在实际进行温度故障原因排查，对于功耗、结壳热阻和壳环热阻的诊断顺序并没有明确限定，可以根据实际需求进行设置。

优选地，所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，具体包括：

根据公式

具体的，结合上述实施例，根据被监测芯片的功耗P、被监测芯片的壳温Tc和服务器的进风温度Ta，可以通过公式

计算获得被监测芯片的壳环热阻Rca的估算值。

优选地，所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，具体包括：

根据公式

具体的，结合上述实施例，根据被监测芯片的结温Tj、被监测芯片的功耗P和被监测芯片的壳温Tc，可以通过公式

计算获得被监测芯片的结壳热阻Rjc的估算值。

在又一个优选实施例中，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，还包括：

具体的，结合上述实施例，在排除了芯片功耗过高这一温度故障原因(即被监测芯片的功耗不大于预先设置的功耗阈值)、排除了芯片外部散热异常这一温度故障原因(即被监测芯片的壳环热阻Rca不大于第一热阻阈值)且排除了芯片内部散热异常这一温度故障原因(即被监测芯片的结壳热阻Rjc不大于第二热阻阈值)之后，可以考虑其他原因，例如被监测点本身异常，从而导致被监测芯片的结温大于预先设置的温度阈值而发生温度故障。

在又一个优选实施例中，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

具体的，结合上述实施例，在判定被监测芯片发生温度故障，并且已经诊断排查出被监测芯片发生温度故障的原因之后，还可以根据诊断出的不同的温度故障原因对应生成不同的故障解决方案。

当诊断获得的温度故障原因为芯片功耗过高时，可以判定为被监测芯片的负载过多导致功耗过高，对应的故障解决方案为减小被监测芯片的负载；例如，建议关闭一些应用程序或者适当降低频率来解决温度故障。

当诊断获得的温度故障原因为芯片外部散热异常时，可以判定为导热界面材料或/和散热器异常导致外部散热异常，对应的故障解决方案为更换服务器的导热界面材料或/和散热器；例如，对于液冷服务器，建议检查服务器的液冷组件是否正常工作，并检查导热界面材料是否涂抹正常，对于风冷散热器，建议检查服务器的风扇是否正常工作，并检查导热界面材料是否涂抹正常，若不正常，则通过更换导热界面材料或/和散热器来解决温度故障。

在又一个优选实施例中，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

当诊断获得的温度故障原因为芯片内部散热异常时，可以判定为被监测芯片本身异常导致内部散热异常，对应的故障解决方案为联系专业人员对被监测芯片的内部散热故障进行诊断；例如，考虑联系芯片厂家，对被监测芯片内部散热问题进行定位。

结合上述实施例可知，本发明实施例在判定被监测芯片发生温度故障之后，可以进行温度故障原因的诊断与定位，并结合诊断获得的温度故障原因给出相应的故障解决方案，有效节省了时间以及人力成本，不仅缩短了故障问题检测以及故障原因的排查时间，而且非专业人员也能够采用本发明实施例提供的技术方案来快速高效的解决故障问题。

在又一个优选实施例中，所述方法还包括：

对诊断的温度故障原因及其对应的故障解决方案进行显示。

具体的，结合上述实施例，在诊断排查出被监测芯片发生温度故障的原因，并根据不同的温度故障原因对应生成不同的故障解决方案之后，可以对诊断获得的温度故障原因及其对应的故障解决方案进行显示，从而通过显示更加直观的获取相关信息。

需要说明的是，在判定被监测芯片发生温度故障之后，如果生成了相应的高温故障报警信息，同样可以对生成的高温故障报警信息进行显示。

本发明实施例还提供了一种服务器温度故障诊断装置，参见图4所示，是本发明提供的一种服务器温度故障诊断装置的一个优选实施例的结构框图，所述装置用于实现上述任一实施例所述的服务器温度故障诊断方法，所述装置包括：

结温获取模块11，用于获取服务器内被监测芯片的结温；

结温比较模块12，用于将所述结温与预设的温度阈值进行比较；

功耗获取模块13，用于当所述结温大于所述温度阈值时，获取所述被监测芯片的功耗；

功耗比较模块14，用于将所述功耗与预设的功耗阈值进行比较；

第一故障诊断模块15，用于当所述功耗大于所述功耗阈值时，判定温度故障原因为芯片功耗过高；

第二故障诊断模块16，用于当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因。

优选地，所述结温获取模块11具体包括：

结温检测单元，用于根据预设的时间周期获取所述被监测芯片的当前结温；

结温计算单元，用于根据所述当前结温和已经获取的N1个历史结温进行求平均值处理，相应获得所述结温；其中，N1＞0；

所述功耗获取模块13具体包括：

功耗检测单元，用于根据预设的时间周期获取所述被监测芯片的当前功耗；

功耗计算单元，用于根据所述当前功耗和已经获取的N2个历史功耗进行求平均值处理，相应获得所述功耗；其中，N2＞0；

所述第二故障诊断模块16具体包括：

壳温及进风温度检测单元，用于根据预设的时间周期获取所述被监测芯片的当前壳温和所述服务器的当前进风温度；

壳温计算单元，用于根据所述当前壳温和已经获取的N3个历史壳温进行求平均值处理，相应获得所述壳温；其中，N3＞0；

进风温度计算单元，用于根据所述当前进风温度和已经获取的N4个历史进风温度进行求平均值处理，相应获得所述进风温度；其中，N4＞0。

优选地，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

则，所述第二故障诊断模块16具体包括：

壳环热阻计算单元，用于根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻；

壳环热阻比较单元，用于将所述壳环热阻与所述第一热阻阈值进行比较；

第一故障诊断单元，用于当所述壳环热阻大于所述第一热阻阈值时，判定温度故障原因为芯片外部散热异常；

第二故障诊断单元，用于当所述壳环热阻不大于所述第一热阻阈值时，根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，根据所述结壳热阻和所述第二热阻阈值诊断温度故障原因。

优选地，所述壳环热阻计算单元具体用于：

根据公式

则，所述第二故障诊断模块16具体包括：

结壳热阻计算单元，用于根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻；

结壳热阻比较单元，用于将所述结壳热阻与所述第二热阻阈值进行比较；

第三故障诊断单元，用于当所述结壳热阻大于所述第二热阻阈值时，判定温度故障原因为芯片内部散热异常；

第四故障诊断单元，用于当所述结壳热阻不大于所述第二热阻阈值时，根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，根据所述壳环热阻和所述第一热阻阈值诊断温度故障原因。

优选地，所述结壳热阻计算单元具体用于：

根据公式

优选地，所述第二故障诊断模块16还包括：

第五故障诊断单元，用于当所述壳环热阻不大于所述第一热阻阈值，且所述结壳热阻不大于所述第二热阻阈值时，判定被监测点异常。

优选地，所述装置还包括：

第一解决方案生成模块，用于根据诊断的温度故障原因生成对应的故障解决方案；

优选地，所述方法还包括：

第二解决方案生成模块，用于根据诊断的温度故障原因生成对应的故障解决方案；

优选地，所述装置还包括：

显示模块，用于对诊断的温度故障原因及其对应的故障解决方案进行显示。

需要说明的是，本发明实施例所提供的一种服务器温度故障诊断装置，能够实现上述任一实施例所述的服务器温度故障诊断方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的服务器温度故障诊断方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的服务器温度故障诊断方法。

本发明实施例还提供了一种服务器温度故障诊断系统，参见图5所示，是本发明提供的一种服务器温度故障诊断系统的一个优选实施例的结构框图，所述系统包括数据采集器、存储器和处理器；其中，

所述处理器，用于根据所述存储器中存储的数据实现上述任一实施例所述的服务器温度故障诊断方法。

结合图5所示，作为上述方案的改进，所述系统还包括显示器；

在具体实施时，该系统中的数据采集器与存储器连接，存储器与处理器连接；该系统可以通过数据采集器实时采集服务器内的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度，并将采集到的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度发送至存储器；并通过存储器对接收到的数据采集器发送的被监测芯片的结温、被监测芯片的壳温、被监测芯片的功耗以及服务器的进风温度进行存储操作，同时，还通过存储器存储预先设置的温度阈值、预先设置的功耗阈值和预先设置的热阻阈值；以及，通过处理器根据存储器中存储的相关数据执行上述任一实施例所述的服务器温度故障诊断方法。

其中，数据采集器主要包括温度传感器、电压采集模块和电流采集模块，温度传感器可以通过I2C与存储器连接，负责采集被监测芯片的结温、壳温以及服务器的进风温度，电压采集模块和电流采集模块可以通过IC接口与存储器连接，分别负责采集被监测芯片的电压和电流，以根据电压和电流计算获得被监测芯片的功耗。

优选地，该系统还包括显示器，显示器与处理器连接；该系统在通过处理器执行上述任一实施例所述的服务器温度故障诊断方法，诊断排查出被监测芯片发生温度故障的原因之后，还可以通过处理器根据诊断获得的不同的温度故障原因对应生成不同的故障解决方案，并将诊断获得的温度故障原因及其对应的故障解决方案发送至显示器；通过显示器来显示接收到的处理器发送的温度故障原因以及对应的故障解决方案。

需要说明的是，本发明实施例所提供的一种服务器温度故障诊断系统，能够实现上述任一实施例所述的服务器温度故障诊断方法的所有流程，系统的工作过程以及实现的技术效果分别与上述实施例所述的服务器温度故障诊断方法的工作过程以及实现的技术效果对应相同，这里不再赘述。

综上，本发明实施例所提供的一种服务器温度故障诊断方法及系统，通过获取被监测芯片的结温，并结合被监测芯片温度正常时的温度参考阈值，来判断被监测芯片是否发生温度故障，并在判定被监测芯片发生温度故障后进一步根据被监测芯片的功耗和芯片热阻诊断温度故障原因，从而能够实现服务器的温度故障检测以及对故障原因进行自动排查，以判断故障位置，并给出相应的故障解决方案，避免了高温下损坏被监测芯片，同时，无需专业工程师进行现场故障排查，操作简单，有效节省了时间及人力成本。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种服务器温度故障诊断方法，其特征在于，包括：

获取服务器内被监测芯片的结温；

将所述结温与预设的温度阈值进行比较；

将所述功耗与预设的功耗阈值进行比较；

当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因；

所述获取服务器内被监测芯片的结温，具体包括：

根据预设的时间周期获取所述被监测芯片的当前结温；

根据所述当前结温和已经获取的N1个历史结温进行求平均值处理，相应获得所述结温；其中，N1＞0。

2.如权利要求1所述的服务器温度故障诊断方法，其特征在于，所述获取所述被监测芯片的功耗，具体包括：

根据预设的时间周期获取所述被监测芯片的当前功耗；

3.如权利要求1所述的服务器温度故障诊断方法，其特征在于，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

将所述壳环热阻与所述第一热阻阈值进行比较；

4.如权利要求3所述的服务器温度故障诊断方法，其特征在于，所述根据所述功耗、所述壳温和所述进风温度计算获得所述壳环热阻，具体包括：

根据公式

5.如权利要求1所述的服务器温度故障诊断方法，其特征在于，所述芯片热阻包括壳环热阻和结壳热阻，所述热阻阈值包括第一热阻阈值和第二热阻阈值；

将所述结壳热阻与所述第二热阻阈值进行比较；

6.如权利要求5所述的服务器温度故障诊断方法，其特征在于，所述根据所述结温、所述功耗和所述壳温计算获得所述结壳热阻，具体包括：

根据公式

7.如权利要求3或5所述的服务器温度故障诊断方法，其特征在于，所述至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因，还包括：

8.如权利要求3所述的服务器温度故障诊断方法，其特征在于，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

9.如权利要求5所述的服务器温度故障诊断方法，其特征在于，所述方法还包括：

根据诊断的温度故障原因生成对应的故障解决方案；

10.如权利要求8或9所述的服务器温度故障诊断方法，其特征在于，所述方法还包括：

对诊断的温度故障原因及其对应的故障解决方案进行显示。

11.一种服务器温度故障诊断装置，其特征在于，所述装置用于实现如权利要求1～10任一项所述的服务器温度故障诊断方法，所述装置包括：

结温获取模块，用于获取服务器内被监测芯片的结温；

第二故障诊断模块，用于当所述功耗不大于所述功耗阈值时，获取所述被监测芯片的壳温和所述服务器的进风温度，至少根据所述壳温和所述进风温度计算获得所述被监测芯片的芯片热阻，根据芯片热阻和预设的热阻阈值诊断温度故障原因；

所述结温获取模块具体包括：

结温计算单元，用于根据所述当前结温和已经获取的N1个历史结温进行求平均值处理，相应获得所述结温；其中，N1＞0。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～10任一项所述的服务器温度故障诊断方法。

13.一种服务器温度故障诊断系统，其特征在于，包括数据采集器、存储器和处理器；其中，

所述处理器，用于根据所述存储器中存储的数据实现如权利要求1～10任一项所述的服务器温度故障诊断方法。

14.如权利要求13所述的服务器温度故障诊断系统，其特征在于，所述系统还包括显示器；