CN117215876A - 一种温度检查方法、系统、装置及介质 - Google Patents

一种温度检查方法、系统、装置及介质 Download PDF

Info

Publication number
CN117215876A
CN117215876A CN202311264586.8A CN202311264586A CN117215876A CN 117215876 A CN117215876 A CN 117215876A CN 202311264586 A CN202311264586 A CN 202311264586A CN 117215876 A CN117215876 A CN 117215876A
Authority
CN
China
Prior art keywords
temperature
chip
preset
chips
trend
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311264586.8A
Other languages
English (en)
Inventor
马光彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311264586.8A priority Critical patent/CN117215876A/zh
Publication of CN117215876A publication Critical patent/CN117215876A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Cooling Or The Like Of Semiconductors Or Solid State Devices (AREA)

Abstract

本申请公开了一种温度检查方法、系统、装置及介质,涉及安全检测领域,用于解决无法在无压力状态下检测服务器内所有芯片质量的问题。该方案中在各芯片未被施加电压时,获取各个温度传感器采集到的温度参数;根据各个温度参数确定对应的各个芯片的温度变化趋势;根据各个温度变化趋势确定各个芯片的故障情况。可见,本申请中通过获取各个芯片未被施加电压时的温度参数并根据这些参数确定每个芯片的故障情况,从而实现了对芯片自身的温度变化的评估。同时,通过检查存储服务器中所有温度传感器的变化曲线,可以全面评估存储服务器内所有芯片的稳定性,进而可以确定服务器的风道设计合理性和工作稳定性。

Description

一种温度检查方法、系统、装置及介质
技术领域
本申请涉及安全检测领域,特别涉及一种温度检查方法、系统、装置及介质。
背景技术
随着市场对存储服务器需求的增加,存储服务器应用场景也在不断变化和扩大。客户对存储服务器的散热要求也越来越严格,因为现在的芯片集成度越来越高,对温度变化也越来越敏感。过高或过低的温度,或者温度急剧变化,都会对芯片性能造成影响。
因此,对于整机散热风道设计的合理性和精准性要求也越来越高。同时,检测整机散热能力和芯片在不同风扇转速下的温度变化状态也变得越来越重要。然而,现有技术中用于描述散热能力检查的方法只能在加压状态下通过检查CPU(Central ProcessingUnit,中央处理器)温度变化来判断整机散热能力。这种方法存在着一定的局限性,无法通过检查常温无压力状态下存储服务器内所有温度传感器的变化曲线来评估芯片质量。因此,无法对芯片自身的温度变化进行评估,也不能全面评估存储服务器内所有芯片的稳定性,也无法完整评估存储服务器的风道设计合理性和工作稳定性。
发明内容
本申请的目的是提供一种温度检查方法、系统、装置及介质,通过获取各个芯片未被施加电压时的温度参数并根据这些参数确定每个芯片的故障情况,从而实现了对芯片自身的温度变化的评估。同时,通过检查存储服务器中所有温度传感器的变化曲线,可以全面评估存储服务器内所有芯片的稳定性,进而可以确定服务器的风道设计合理性和工作稳定性。
为解决上述技术问题,本申请提供了一种温度检查方法,应用于服务器,所述服务器中包括多个芯片和与多个所述芯片一一对应的多个温度传感器,各所述温度传感器用于采集和自身对应的芯片的温度,所述方法包括:
在各所述芯片未被施加电压时,获取各个所述温度传感器采集到的温度参数;
根据各个所述温度参数确定对应的各个所述芯片的温度变化趋势;
根据各个所述温度变化趋势确定各个所述芯片的故障情况。
在一种实施例中,获取各个所述温度传感器采集到的温度参数之后,还包括:
判断各个所述温度参数是否在正常温度范围内;
若不在所述正常温度范围内,则将所述温度参数不在所述正常温度范围内的芯片判定为故障芯片。
在一种实施例中,还包括:
将风扇设定为预设转速以使各个所述芯片的温度上升或下降;
根据各个所述温度变化趋势确定各个所述芯片的故障情况,包括:
通过各个所述芯片的温度上升趋势或温度下降趋势确定各个所述芯片的故障情况。
在一种实施例中,将风扇设定为预设转速以使各个所述芯片的温度上升或下降,包括:
将所述风扇设定为第一预设转速以使各个所述芯片的温度下降;
将所述风扇设定为第二预设转速以使各个所述芯片的温度上升;
所述第一预设转速大于所述第二预设转速。
在一种实施例中,通过各个所述芯片的温度上升趋势或温度下降趋势确定各个所述芯片的故障情况,包括:
判断各个所述芯片的温度变化趋势与预设转速对应的期望变化趋势是否相同;
若不相同,则判定所述温度变化趋势与所述期望变化趋势不相同对应的芯片故障。
在一种实施例中,获取各个所述温度传感器采集到的温度参数,包括:
每个预设时间获取各个所述温度传感器采集的温度参数;
判定所述温度变化趋势与所述期望变化趋势不相同对应的芯片故障之前,还包括:
根据每次采集到的温度参数确定所述温度变化趋势与所述期望变化趋势不相同的次数达到预设次数,则确定所述温度变化趋势与所述期望变化趋势不相同的次数达到预设次数对应的芯片故障。
在一种实施例中,在判定各个所述芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后,还包括:
判断是否存在温度变化速率大于第一预设速率的芯片;
若存在,则判定所述温度变化速度大于所述第一预设速率的芯片故障,检查结束。
在一种实施例中,判断是否存在温度变化速率大于预设速率的芯片,包括:
判断是否存在连续若干次温度变化值均达到变化阈值的芯片;
若存在,则判定连续若干次温度变化值均达到变化阈值的芯片的温度变化速率大于所述第一预设速率,检查结束。
在一种实施例中,还包括:
在执行判断是否存在温度变化速率大于第一预设速率的芯片的步骤的时间达到预设时间或次数达到预设循环次数时,检查结束。
在一种实施例中,将风扇设定为预设转速以使各个所述芯片的温度上升或下降之前,还包括:
预先设定触发芯片,并对所述触发芯片的温度进行实时监测;
在所述触发芯片的温度达到触发温度时,进入将风扇设定为预设转速以使各个所述芯片的温度上升或下降的步骤。
在一种实施例中,将所述风扇设定为第一预设转速以使各个所述芯片的温度下降,包括:
在所述触发芯片的温度大于第一温度阈值时,将所述风扇设定为第一预设转速以使各个所述芯片的温度下降;
将所述风扇设定为第二预设转速以使各个所述芯片的温度上升,包括:
在所述触发芯片的温度小于第二温度阈值时,将所述风扇设定为第二预设转速以使各个所述芯片的温度上升;
所述第一预设转速大于所述第二预设转速,所述第一温度阈值不小于所述第二温度阈值。
为解决上述技术问题,本申请还提供了一种温度检查系统,应用于服务器,所述服务器中包括多个芯片和与多个所述芯片一一对应的多个温度传感器,各所述温度传感器用于采集和自身对应的芯片的温度,所述系统包括:
获取单元,用于在各所述芯片未被施加电压时,获取各个所述温度传感器采集到的温度参数;
趋势确定单元,用于根据各个所述温度参数确定对应的各个所述芯片的温度变化趋势;
故障确定单元,用于根据各个所述温度变化趋势确定各个所述芯片的故障。
为解决上述技术问题,本申请还提供了一种温度检查装置,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现如上述所述的温度检查方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的温度检查方法的步骤。
本申请提供了一种温度检查方法、系统、装置及介质,涉及安全检测领域,用于解决目前技术方案无法在无压力状态下检测服务器内所有芯片质量的问题。该方案中在各芯片未被施加电压时,获取各个温度传感器采集到的温度参数;根据各个温度参数确定对应的各个芯片的温度变化趋势;根据各个温度变化趋势确定各个芯片的故障情况。可见,本申请中通过获取各个芯片未被施加电压时的温度参数并根据这些参数确定每个芯片的故障情况,从而实现了对芯片自身的温度变化的评估。同时,通过检查存储服务器中所有温度传感器的变化曲线,可以全面评估存储服务器内所有芯片的稳定性,进而可以确定服务器的风道设计合理性和工作稳定性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种温度检查方法的流程示意图;
图2为本申请提供的一种具体实施例的模块示意图;
图3为本申请提供的一种具体实施例的流程示意图;
图4为本申请提供的一种温度检查系统的结构框图;
图5为本申请提供的一种温度检查装置的结构框图;
图6为本申请提供的一种计算机可读存储介质的结构框图。
具体实施方式
本申请的核心是提供一种温度检查方法、系统、装置及介质,通过获取各个芯片未被施加电压时的温度参数并根据这些参数确定每个芯片的故障情况,从而实现了对芯片自身的温度变化的评估。同时,通过检查存储服务器中所有温度传感器的变化曲线,可以全面评估存储服务器内所有芯片的稳定性,进而可以确定服务器的风道设计合理性和工作稳定性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为解决上述技术问题,本申请提供了一种温度检查方法,如图1所示,应用于服务器,服务器中包括多个芯片和与多个芯片一一对应的多个温度传感器,各温度传感器用于采集和自身对应的芯片的温度,方法包括:
S1:在各芯片未被施加电压时,获取各个温度传感器采集到的温度参数;
在这一步骤中,温度检查方法在服务器中的多个芯片未施加压力的情况下,通过与每个芯片一一对应的多个温度传感器采集各自的温度参数。这意味着通过传感器,可以测量和记录每个芯片的温度。这些温度传感器可以分布在服务器的不同位置,与各个芯片一一对应,以确保全面地监测温度变化。获取到的温度参数可能是数字或者模拟信号,记录了每个芯片的温度情况。这个步骤的目的是收集服务器中每个芯片的温度数据,为后续步骤的分析提供基础。
S2:根据各个温度参数确定对应的各个芯片的温度变化趋势;
在这一步骤中,根据各个温度参数确定对应的各个芯片的温度变化趋势,这意味着通过分析各个温度传感器采集到的温度参数,可以了解到不同芯片的温度随时间变化的趋势。这可以提供对芯片的热稳定性和散热能力的评估。
通过观察和分析温度参数的变化趋势/曲线,可以判断芯片的故障情况。如果温度参数呈现异常的波动或急剧上升的趋势,可能意味着该芯片存在故障或缺乏足够的散热能力。相反,如果温度参数稳定在一个合理的范围内,即温度变化趋势平缓或者相对稳定,那么可以认为该芯片的散热能力良好且正常工作。
通过本步骤中的温度变化趋势的确定,可以有效地评估不同芯片的热稳定性和散热能力,进而判断出芯片的故障情况。
S3:根据各个温度变化趋势确定各个芯片的故障情况。
具体来说,本步骤会通过分析温度传感器所采集到的温度参数,比较各个芯片的温度变化趋势。通过观察温度变化趋势的特点,例如变化剧烈、过度波动、持续升高或持续降低等,可以确定是否存在芯片的故障情况。
例如,如果某个芯片的温度呈现持续升高的趋势,同时其他芯片的温度变化趋势正常,那么可以初步判断该芯片可能存在故障或者散热不良的情况。这样的检查方法能够帮助评估存储服务器内各个芯片的工作稳定性并及时发现可能存在的故障。
综上,本实施例通过获取各个芯片未被施加电压时的温度参数并根据这些参数确定每个芯片的故障情况,从而实现了对芯片自身的温度变化的评估。同时,通过检查存储服务器中所有温度传感器的变化曲线,可以全面评估存储服务器内所有芯片的稳定性,进而可以确定服务器的风道设计合理性和工作稳定性。这种方法能够提供更全面准确的评估,相较于传统只能在加压状态下检查CPU温度变化的方法,更能反映存储服务器内所有芯片的稳定性和工作状态,以及对存储服务器的风道设计合理性的评估。
在一种实施例中,获取各个温度传感器采集到的温度参数之后,还包括:
判断各个温度参数是否在正常温度范围内;
若不在正常温度范围内,则将温度参数不在正常温度范围内的芯片判定为故障芯片。
本实施例中,首先在S1步骤中获取各个温度传感器采集到的温度参数。然后,在这个步骤之后,还需要判断各个温度参数是否在正常温度范围内。这个正常温度范围可以根据实际情况设定,例如在3-85度之间。如果某个温度参数不在正常温度范围内,那么就将该温度参数对应的芯片判定为故障芯片。
通过这样的判断,可以在常温无压力状态下对服务器中的芯片进行评估。对于温度参数不在正常温度范围内的芯片,可以认为其散热能力存在问题或者芯片本身存在故障。这样的评估方法能够更全面地评估存储服务器内所有芯片的稳定性,并且可以辅助评估存储服务器的风道设计合理性和工作稳定性。
总之,本实施例提供了一种基于温度参数判断芯片故障的方法,能够更全面地评估存储服务器内所有芯片的稳定性,并且提供一种对芯片自身的温度变化进行评估的方法。这种方法可以用于优化服务器设计和提高散热能力,从而改善服务器的工作稳定性。
在一种实施例中,还包括:
将风扇设定为预设转速以使各个芯片的温度上升或下降;
根据各个温度变化趋势确定各个芯片的故障情况,包括:
通过各个芯片的温度上升趋势或温度下降趋势确定各个芯片的故障情况。
在该实施例中,通过将风扇设定为预设转速,可以实现对各个芯片的温度上升或下降。这意味着通过调节风扇的转速可以在服务器中产生相应的散热状况,从而模拟真实工作环境中的温度变化情况。然后,根据各个温度变化趋势可以确定各个芯片的故障情况。具体地说,通过观察各个芯片的温度上升趋势或温度下降趋势,可以判断芯片是否存在故障。例如,如果某个芯片的温度上升速度异常缓慢,或者温度下降速度异常迅速,可能意味着该芯片存在故障。相反,如果芯片的温度上升速度较快,或者温度下降速度较慢,可能表明该芯片正常工作。
通过这种方法,可以通过观察各个芯片的温度变化趋势来确定它们的故障情况,从而评估存储服务器中各个芯片的稳定性和可靠性。
总之,本实施例进一步明确了温度检查方法中的步骤和操作。它介绍了通过调节风扇转速以模拟温度变化,并通过观察温度变化趋势来判断芯片故障的过程。这项技术的应用可以提高对存储服务器中芯片质量和散热能力的评估准确性。
在一种实施例中,将风扇设定为预设转速以使各个芯片的温度上升或下降,包括:
将风扇设定为第一预设转速以使各个芯片的温度下降;
将风扇设定为第二预设转速以使各个芯片的温度上升;
第一预设转速大于第二预设转速。
本实施例中,在实施过程中包括设置风扇的预设转速以使各个芯片的温度上升或下降。具体而言,该方法将风扇设定为第一预设转速,以使各个芯片的温度下降,然后将风扇设定为第二预设转速,以使各个芯片的温度上升。第一预设转速大于第二预设转速,例如,第一预设转速为100%,第二预设转速为10%。
本实施例的目的是通过风扇的转速控制来模拟服务器中芯片的温度变化情况。通过将风扇设定为不同的转速,可以使芯片的温度上升或下降,并通过检测温度变化趋势来确定芯片的故障情况。具体而言,在设置第一预设转速时,风扇会以较高的速度运行,以降低芯片的温度。通过监测各个芯片的温度下降趋势,可以确定芯片的故障情况。如果某个芯片的温度下降趋势与其他芯片不一致或无法降低温度,则可以确定该芯片存在故障。在设置第二预设转速时,风扇会以较低的速度运行,以增加芯片的温度。通过监测各个芯片的温度上升趋势,可以确定芯片的故障情况。如果某个芯片的温度上升趋势与其他芯片不一致或无法升高温度,则可以确定该芯片存在故障。
通过这种方式,可以利用风扇的转速控制模拟服务器中芯片的温度变化,并通过检测温度变化趋势来确定芯片的故障情况。这一方法可以帮助评估服务器的热散热能力以及芯片的质量和稳定性,在服务器维护和故障诊断方面具有重要的应用价值。
在一种实施例中,通过各个芯片的温度上升趋势或温度下降趋势确定各个芯片的故障情况,包括:
判断各个芯片的温度变化趋势与预设转速对应的期望变化趋势是否相同;
若不相同,则判定温度变化趋势与期望变化趋势不相同对应的芯片故障。
本实施例进一步详细说明了如何通过各个芯片的温度变化趋势来确定芯片的故障情况。首先,该方法要求将风扇设定为预设转速,以使各个芯片的温度上升或下降。这可以通过控制风扇的转速来调节风道中的气流,从而改变芯片的散热效果。然后,根据各个芯片的温度变化趋势来确定芯片的故障情况。在这里,需要将各个芯片的实际温度变化趋势与预设转速对应的期望变化趋势进行比较。如果芯片的温度变化趋势与期望变化趋势相同,则说明该芯片的散热效果正常,没有故障。如果芯片的温度变化趋势与期望变化趋势不相同,则可以判定该芯片存在故障。由于风扇设定了预设转速,而温度变化趋势与预设转速对应的期望变化趋势不相同,说明芯片的散热效果受到影响,可能存在散热不良或其他故障。
因此,通过对比芯片的温度变化趋势和预设转速对应的期望变化趋势,该方法可以判定芯片是否存在故障。这样的判断可以帮助检测和诊断服务器中的散热问题,进一步评估存储服务器的风道设计合理性和工作稳定性。
在一种实施例中,获取各个温度传感器采集到的温度参数,包括:
每个预设时间获取各个温度传感器采集的温度参数;
判定温度变化趋势与期望变化趋势不相同对应的芯片故障之前,还包括:
根据每次采集到的温度参数确定温度变化趋势与期望变化趋势不相同的次数达到预设次数,则确定温度变化趋势与期望变化趋势不相同的次数达到预设次数对应的芯片故障。
本实施例描述了一种实施例中的温度检查方法中的额外步骤。在这个实施例中,获取各个温度传感器采集到的温度参数的过程中还包括以下步骤:首先,每个预设时间获取各个温度传感器采集的温度参数。这意味着在规定的时间间隔内,获取温度传感器所测量到的每个芯片的温度数据。其次,判定温度变化趋势与期望变化趋势不相同对应的芯片故障之前,还需要进一步判断温度变化趋势与期望变化趋势不相同的次数是否达到预设次数。具体而言,根据每次采集到的温度参数,确定温度变化趋势与期望变化趋势不相同的次数。如果判定不相同的次数达到预设的次数,则确定温度变化趋势与期望变化趋势不相同的次数达到预设次数对应的芯片故障。这一步骤的目的是通过连续多次的观测和比较温度变化趋势,以排除偶然的温度变化异常并确保检测结果的准确性。如果在连续多次观测中,温度变化的趋势与期望的变化趋势不相符的次数达到设定的次数,那么就可以判定对应的芯片存在故障。
因此,本实施例描述了一种基于连续观测和比较温度变化趋势的方法,以确定温度变化趋势与期望变化趋势不相同的次数达到预设次数对应的芯片故障。通过这种方法,可以更准确地检测和评估芯片的故障情况,提高存储服务器的稳定性。
在一种实施例中,在判定各个芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后,还包括:
判断是否存在温度变化速率大于第一预设速率的芯片;
若存在,则判定温度变化速度大于第一预设速率的芯片故障,检查结束。
本实施例描述了一种在判定各个芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后的进一步步骤。该步骤旨在检测是否存在温度变化速率大于第一预设速率的芯片,并将其判定为故障。
具体来说,该步骤包括以下操作:首先,判断是否存在温度变化速率大于第一预设速率的芯片。这一步骤通过比较芯片的温度变化趋势与第一预设速率进行判断。如果某芯片的温度变化速率大于第一预设速率,则说明该芯片可能存在故障。也即,如果在第一步骤中发现存在温度变化速率大于第一预设速率的芯片,则该芯片将被判定为故障。这意味着该芯片的散热能力可能存在问题,可能会导致其工作不稳定。
通过执行以上步骤,本实施例可以有效地检测出温度变化速率大于预设速率的故障芯片,并进一步评估存储服务器的散热能力和工作稳定性。这种检查方法可以提供更全面和准确的芯片质量评估,有助于提高存储服务器的性能和可靠性。
在一种实施例中,判断是否存在温度变化速率大于预设速率的芯片,包括:
判断是否存在连续若干次温度变化值均达到变化阈值的芯片;
若存在,则判定连续若干次温度变化值均达到变化阈值的芯片的温度变化速率大于第一预设速率,检查结束。
根本实施例描述了判断芯片故障的具体步骤。首先,需要判断是否存在连续若干次温度变化值均达到变化阈值的芯片。如果不存在这样的情况,则说明芯片的温度变化速率未达到预设速率,检查结束。如果存在连续若干次温度变化值均达到变化阈值的芯片,就可以判定这些芯片的温度变化速率大于第一预设速率,并且可以将这些芯片视为故障的。这种情况下,检查也将结束。
综上所述,该实施例中提供了一种判断芯片故障的方法,通过连续若干次温度变化值是否达到变化阈值来评估芯片的温度变化速率,从而确定是否存在故障的芯片。这种方法可以提高对存储服务器内所有芯片的故障情况的评估准确性和全面性。
在一种实施例中,在判定各个芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后,还包括:
在温度变化趋势为上升趋势时,判断温度上升速率大于第二预设速率的芯片的个数是否大于预设个数;
或,在温度变化趋势为下降趋势时,判断温度下降速率小于第二预设速率的芯片的个数是否大于预设个数,其中第二预设速率小于第一预设速率;
若温度上升速率大于第二预设速率的芯片的个数大于预设个数,或温度下降速率小于第二预设速率的芯片的个数大于预设个数,则判定服务器的散热能力不满足要求。
本实施例描述了在判定各个芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后,进一步判断服务器散热能力是否满足要求的步骤。
首先,在温度变化趋势为上升时,这个步骤判断了温度上升速率大于第二预设速率的芯片的个数是否大于预设个数。这里的第二预设速率是指比第一预设速率更小的一个预设速率。如果温度上升速率大于第二预设速率的芯片的个数大于预设个数,说明有过多的芯片在升温过程中速度较快,超过了预设的数量,这就提示着服务器的散热能力不足以有效地冷却这些芯片,可能会导致芯片过热和故障。
类似地,在温度变化趋势为下降时,步骤判断了温度下降速率小于第二预设速率的芯片的个数是否大于预设个数。这里的第二预设速率仍然是指比第一预设速率更小的一个预设速率。如果温度下降速率小于第二预设速率的芯片的个数大于预设个数,说明有过多的芯片在散热过程中速度较慢,没有达到预设的数量,这也提示着服务器的散热能力不足以有效地降低这些芯片的温度,可能会导致芯片过热和故障。
因此,在判断芯片的温度变化趋势与期望变化趋势相同之后,该步骤通过比较芯片的上升速率和下降速率与预设的速率,进一步评估服务器的散热能力是否满足要求。如果芯片的温度上升或下降速率超过了预设的限制,那么表明服务器的散热能力不足以满足要求,需要进行相应的改进措施来提高服务器的散热效果。
在一种实施例中,还包括:
在执行判断是否存在温度变化速率大于第一预设速率的芯片的步骤的时间达到预设时间或次数达到预设循环次数时,检查结束。
本实施例描述了一种检查方法的结束条件。该方法在判断是否存在温度变化速率大于第一预设速率的芯片之后进行检查。在执行判断的步骤的时间达到预设时间或者次数达到预设循环次数时,检查结束。这一要求说明了进行温度检查的持续时间或次数的限制。可以根据实施例中设定的预设时间或循环次数来控制检查的执行。当达到了设定的时间或次数时,检查将结束,不再继续进行。
通过设定检查的时间限制或循环次数限制,可以有效地控制检查的时间和资源消耗,同时确保检查能够合理地进行。这样可以增加检查的效率和可行性,同时还能为操作人员提供明确的结束标志,以便及时采取下一步的行动。
在一种实施例中,将风扇设定为预设转速以使各个芯片的温度上升或下降之前,还包括:
预先设定触发芯片,并对触发芯片的温度进行实时监测;
在触发芯片的温度达到触发温度时,进入将风扇设定为预设转速以使各个芯片的温度上升或下降的步骤。
本实施例是基于先决条件的进一步改进,它提供了一种在设置风扇以使各个芯片的温度上升或下降之前进行预先设定和监测的方法。
具体而言,该实施例中的步骤包括先预先设定触发芯片,并对该触发芯片的温度进行实时监测。触发芯片可以是存储服务器中的任何芯片,它被用来作为判断整个系统中芯片散热能力的代表。一旦预先设定的触发温度达到触发芯片,系统就会进入后续的步骤将风扇设定为预设转速以使各个芯片的温度上升或下降。
本实施例通过触发芯片的温度监测,系统可以及时察觉芯片的过热情况。一旦触发温度达到,风扇被设置为预设转速,这将增加整个系统的散热能力,以保持芯片在安全操作温度范围内工作。
通过这种预设的风扇转速和温度上升/下降措施,可以有效地评估存储服务器中各个芯片的散热能力和稳定性。这种方法还可以用来评估整个系统的风道设计合理性和工作稳定性。
在一种实施例中,将风扇设定为第一预设转速以使各个芯片的温度下降,包括:
在触发芯片的温度大于第一温度阈值时,将风扇设定为第一预设转速以使各个芯片的温度下降;
将风扇设定为第二预设转速以使各个芯片的温度上升,包括:
在触发芯片的温度小于第二温度阈值时,将风扇设定为第二预设转速以使各个芯片的温度上升;
第一预设转速大于第二预设转速,第一温度阈值不小于第二温度阈值。
本实施例中,首先,在触发芯片的温度大于第一温度阈值时,将风扇设定为第一预设转速以使各个芯片的温度下降。接着,在触发芯片的温度小于第二温度阈值时,将风扇设定为第二预设转速以使各个芯片的温度上升。在该实施例中,第一温度阈值和第二温度阈值可以根据具体需求进行设定,并且第一预设转速应大于第二预设转速,以确保风扇在不同温度条件下产生不同的散热效果。
通过以上步骤,可以根据触发芯片的温度对风扇的转速进行调整,以实现控制芯片温度的目的。当触发芯片的温度超过第一温度阈值时,风扇设定为第一预设转速,使各个芯片的温度下降。相反,当触发芯片的温度低于第二温度阈值时,风扇设定为第二预设转速,使各个芯片的温度上升。
通过对触发芯片的温度进行实时监测,并根据不同阈值设定相应的风扇转速,可以实现对服务器中多个芯片的温度控制。这样可以确保芯片在不同工作条件下的温度在一个合理的范围内,提高服务器的工作稳定性和散热能力。
需要注意的是,该实施例中的温度阈值和预设转速可以根据具体的芯片和服务器要求进行定制,以满足不同的应用场景和需求。
在此提供一个具体实施例,此具体实施例描述如下:
首先,在描述该具体实施例之前,对该实施例中涉及的一些参数做简单说明:通过实验验证分析得到100%转速和10%转速温度变化明显,且服务器不易被损坏,还得到100%转速下判断温度下降过程中芯片温度正常变化曲线,因此,以此转速检验散热能力,也得到10%转速下判断芯片温度上升过程中温度正常变化曲线,进而拦截不良芯片。进一步的,由于8717芯片位置位于主板中央并且紧挨着CPU,而且通过实验得知8717芯片温度变化敏感,因此选取8717芯片温度作为检查上升过程变化和下降过程变化的入口条件。本实施例中每隔5秒采集一次各个温度传感器的温度参数。
具体地,本实施例可以划分为五个模块组成,分别是传感器初始状态检查模块、设置风扇转速模块、传感器温度下降状态检查模块、检查传感器返回初始状态模块、传感器温度上升状态检查模块。各模块如图2所示,该实施例对应的流程图如图3所示,模块具体介绍如下:
(1)传感器初始状态检查模块:检查所有温度传感器采集到的温度参数值是否在3到85之间。如果有温度参数值超出此范围,则说明对应的温度传感器对应的芯片有故障,报告该温度传感器位置,检查结束。
(2)设置风扇转速模块:通过设置风扇转速来控制温度传感器对应的温度参数的上升或下降。如设置为全速转时,各个芯片的温度值下降;10%转速时,各个芯片的温度值上升。
(3)传感器温度下降状态检查模块:以服务器的8717芯片温度为锚点(也即8717芯片为触发芯片)。监测所有温度传感器对应的各个芯片温度值,当某个温度传感器采集到的温度参数连续3次下降超过10度,则说明对应芯片有故障,报告该传感器位置,检查结束。如果某个传感器温度不降反升,累计超过40次,则说明对应芯片有故障,报告该传感器位置,检查结束。执行时间为7分钟。
(4)检查传感器返回初始状态模块:确保服务器回到风扇全速转之前的状态。以8717芯片温度为锚点,等待其温度下降到50度以下。如果30分钟内未能达到该温度,则报告散热风道设计不合理,检查结束。如果达到该温度,则执行传感器初始状态检查模块。
(5)传感器温度上升状态检查模块:以8717芯片温度低于50度为条件,设定风扇转速为10%。在8717温度上升过程中,监测所有传感器温度值。当某个传感器连续3次上升幅度大于10度,则说明对应部件有故障,报告该传感器位置,检查结束。执行时间为7分钟。
为解决上述技术问题,本申请还提供了一种温度检查系统,如图4所示,应用于服务器,服务器中包括多个芯片和与多个芯片一一对应的多个温度传感器,各温度传感器用于采集和自身对应的芯片的温度,系统包括:
获取单元41,用于在各所述芯片未被施加电压时,获取各个所述温度传感器采集到的温度参数;
趋势确定单元42,用于根据各个所述温度参数确定对应的各个所述芯片的温度变化趋势;
故障确定单元43,用于根据各个所述温度变化趋势确定各个所述芯片的故障。
对于温度检查系统的介绍请参照上述实施例,本申请在此不再赘述。
为解决上述技术问题,本申请还提供了一种温度检查装置,如图5所示,包括:
存储器51,用于存储计算机程序61;
处理器52,用于在存储计算机程序61时,实现如上述的温度检查方法的步骤。
对于温度检查装置的介绍请参照上述实施例,本申请在此不再赘述。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质60,如图6所示,计算机可读存储介质60上存储有计算机程序61,计算机程序61被处理器执行时实现如上述的温度检查方法的步骤。
对于计算机可读存储介质的介绍请参照上述实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种温度检查方法,其特征在于,应用于服务器,所述服务器中包括多个芯片和与多个所述芯片一一对应的多个温度传感器,各所述温度传感器用于采集和自身对应的芯片的温度,所述方法包括:
在各所述芯片未被施加电压时,获取各个所述温度传感器采集到的温度参数;
根据各个所述温度参数确定对应的各个所述芯片的温度变化趋势;
根据各个所述温度变化趋势各个所述芯片的温度变化趋势。
2.如权利要求1所述的温度检查方法,其特征在于,获取各个所述温度传感器采集到的温度参数之后,还包括:
判断各个所述温度参数是否在正常温度范围内;
若不在所述正常温度范围内,则将所述温度参数不在所述正常温度范围内的芯片判定为故障芯片。
3.如权利要求1所述的温度检查方法,其特征在于,还包括:
将风扇设定为预设转速以使各个所述芯片的温度上升或下降;
根据各个所述温度变化趋势确定各个所述芯片的故障情况,包括:
通过各个所述芯片的温度上升趋势或温度下降趋势确定各个所述芯片的故障情况。
4.如权利要求3所述的温度检查方法,其特征在于,将风扇设定为预设转速以使各个所述芯片的温度上升或下降,包括:
将所述风扇设定为第一预设转速以使各个所述芯片的温度下降;
将所述风扇设定为第二预设转速以使各个所述芯片的温度上升;
所述第一预设转速大于所述第二预设转速。
5.如权利要求3所述的温度检查方法,其特征在于,通过各个所述芯片的温度上升趋势或温度下降趋势确定各个所述芯片的故障情况,包括:
判断各个所述芯片的温度变化趋势与预设转速对应的期望变化趋势是否相同;
若不相同,则判定所述温度变化趋势与所述期望变化趋势不相同对应的芯片故障。
6.如权利要求5所述的温度检查方法,其特征在于,获取各个所述温度传感器采集到的温度参数,包括:
每个预设时间获取各个所述温度传感器采集的温度参数;
判定所述温度变化趋势与所述期望变化趋势不相同对应的芯片故障之前,还包括:
根据每次采集到的温度参数确定所述温度变化趋势与所述期望变化趋势不相同的次数达到预设次数,则确定所述温度变化趋势与所述期望变化趋势不相同的次数达到预设次数对应的芯片故障。
7.如权利要求5所述的温度检查方法,其特征在于,在判定各个所述芯片的温度变化趋势与预设转速对应的期望变化趋势相同之后,还包括:
判断是否存在温度变化速率大于第一预设速率的芯片;
若存在,则判定所述温度变化速度大于所述第一预设速率的芯片故障,检查结束。
8.如权利要求7所述的温度检查方法,其特征在于,判断是否存在温度变化速率大于预设速率的芯片,包括:
判断是否存在连续若干次温度变化值均达到变化阈值的芯片;
若存在,则判定连续若干次温度变化值均达到变化阈值的芯片的温度变化速率大于所述第一预设速率,检查结束。
9.如权利要求7所述的温度检查方法,其特征在于,还包括:
在执行判断是否存在温度变化速率大于第一预设速率的芯片的步骤的时间达到预设时间或次数达到预设循环次数时,检查结束。
10.如权利要求4-9任一项所述的温度检查方法,其特征在于,将风扇设定为预设转速以使各个所述芯片的温度上升或下降之前,还包括:
预先设定触发芯片,并对所述触发芯片的温度进行实时监测;
在所述触发芯片的温度达到触发温度时,进入将风扇设定为预设转速以使各个所述芯片的温度上升或下降的步骤。
11.如权利要求10所述的温度检查方法,其特征在于,将所述风扇设定为第一预设转速以使各个所述芯片的温度下降,包括:
在所述触发芯片的温度大于第一温度阈值时,将所述风扇设定为第一预设转速以使各个所述芯片的温度下降;
将所述风扇设定为第二预设转速以使各个所述芯片的温度上升,包括:
在所述触发芯片的温度小于第二温度阈值时,将所述风扇设定为第二预设转速以使各个所述芯片的温度上升;
所述第一预设转速大于所述第二预设转速,所述第一温度阈值不小于所述第二温度阈值。
12.一种温度检查系统,其特征在于,应用于服务器,所述服务器中包括多个芯片和与多个所述芯片一一对应的多个温度传感器,各所述温度传感器用于采集和自身对应的芯片的温度,所述系统包括:
获取单元,用于在各所述芯片未被施加电压时,获取各个所述温度传感器采集到的温度参数;
趋势确定单元,用于根据各个所述温度参数确定对应的各个所述芯片的温度变化趋势;
故障确定单元,用于根据各个所述温度变化趋势确定各个所述芯片的故障情况。
13.一种温度检查装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现如权利要求1-11任一项所述的温度检查方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的温度检查方法的步骤。
CN202311264586.8A 2023-09-27 2023-09-27 一种温度检查方法、系统、装置及介质 Pending CN117215876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311264586.8A CN117215876A (zh) 2023-09-27 2023-09-27 一种温度检查方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311264586.8A CN117215876A (zh) 2023-09-27 2023-09-27 一种温度检查方法、系统、装置及介质

Publications (1)

Publication Number Publication Date
CN117215876A true CN117215876A (zh) 2023-12-12

Family

ID=89046071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311264586.8A Pending CN117215876A (zh) 2023-09-27 2023-09-27 一种温度检查方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN117215876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117405240A (zh) * 2023-12-14 2024-01-16 徐州海宣机械制造有限公司 一种电气设备金属表面温差检测方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117405240A (zh) * 2023-12-14 2024-01-16 徐州海宣机械制造有限公司 一种电气设备金属表面温差检测方法和系统
CN117405240B (zh) * 2023-12-14 2024-02-23 徐州海宣机械制造有限公司 一种电气设备金属表面温差检测方法和系统

Similar Documents

Publication Publication Date Title
US7346468B2 (en) Method and apparatus for detecting heat sink faults
EP3557819A1 (en) Server failure detection method and system
CN117215876A (zh) 一种温度检查方法、系统、装置及介质
CN111176406B (zh) 液冷服务器及其故障诊断的方法和装置、保护方法和装置
JP5595000B2 (ja) 風力タービンの状態を監視する方法およびシステム
US20150322924A1 (en) Method of monitoring the condition of a wind turbine
TWI619365B (zh) 調整資料收集頻率的系統及方法
CN109416023B (zh) 风力涡轮机监视装置、风力涡轮机监视方法、风力涡轮机监视程序以及存储介质
CN108268689B (zh) 加热元件的状态诊断与评估方法及其应用
CN104763665A (zh) 网络设备的风扇故障检测方法及装置
WO2008024699A2 (en) Method and apparatus for proactive fault monitoring in interconnects
CN109725220B (zh) 一种变压器油冷却回路的检测方法、系统及装置
CN112416670A (zh) 硬盘测试方法、装置、服务器和存储介质
CN112711850A (zh) 一种基于大数据的机组在线监测方法
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN114281173A (zh) 一种服务器的可靠散热控制方法及装置
JP7288794B2 (ja) 稼働状態評価方法、及び、稼働状態評価装置
CN116500441B (zh) 一种电机故障检测定位方法及系统
CN112485645A (zh) 芯片测试温度控制方法、控制系统、温控板卡及测试系统
CN109643113A (zh) 故障诊断装置及故障诊断方法
CN111290365A (zh) 伺服系统监测方法、装置、计算机设备和存储介质
CN113217277B (zh) 一种风力发电机组变桨执行跟踪监督控制系统及方法
US8152372B1 (en) Methods for monitoring chip temperature during test
US11537501B2 (en) Method and device for monitoring server based on recordings of data from sensors, and non-transitory storage medium
CN111198802B (zh) 一种散热异常的检测方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination