CN111176406A - 液冷服务器及其故障诊断的方法和装置、保护方法和装置 - Google Patents

液冷服务器及其故障诊断的方法和装置、保护方法和装置 Download PDF

Info

Publication number
CN111176406A
CN111176406A CN201911381983.7A CN201911381983A CN111176406A CN 111176406 A CN111176406 A CN 111176406A CN 201911381983 A CN201911381983 A CN 201911381983A CN 111176406 A CN111176406 A CN 111176406A
Authority
CN
China
Prior art keywords
liquid cooling
liquid
cooling server
server
temperature curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911381983.7A
Other languages
English (en)
Other versions
CN111176406B (zh
Inventor
胡航空
彭恭明
廖世震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bitmain Technologies Inc
Original Assignee
Bitmain Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bitmain Technologies Inc filed Critical Bitmain Technologies Inc
Priority to CN201911381983.7A priority Critical patent/CN111176406B/zh
Publication of CN111176406A publication Critical patent/CN111176406A/zh
Application granted granted Critical
Publication of CN111176406B publication Critical patent/CN111176406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明提出了一种液冷服务器故障诊断的方法和装置、液冷服务器故障诊断后的保护方法和装置、液冷服务器、计算机可读存储介质和计算机程序产品,该液冷服务器故障诊断的方法包括:获取液冷服务器实际温度值;根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障。本发明的液冷服务器故障诊断的方法,通过预存液冷服务器在故障的参考温度曲线,在实际温度曲线与参考温度曲线匹配时即诊断为液冷服务器故障,提高液冷服务器的故障诊断的可靠性,保证了液冷服务器的保护效果。

Description

液冷服务器及其故障诊断的方法和装置、保护方法和装置
技术领域
本发明涉及服务器技术领域,尤其是涉及一种液冷服务器故障诊断的方法和装置、液冷服务器故障诊断后的保护方法和保护装置、液冷服务器、计算机可读存储介质和计算机程序产品。
背景技术
目前,对于液冷服务器,通过设置一个固定最高保护温度值,保护产品的正常运行,在产品超过这个保护温度值就自动下电,未超过该保护温度值,产品正常运行。由于该保护温度值会比正常运行过程的最高值还要高一些,如果设置不当,产品保护效果以及可靠性都会受到影响。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种液冷服务器故障诊断的方法,该方法可以提高故障诊断的可靠性和对液冷服务器的保护效果。
本发明的第二个目的在于提出一种液冷服务器故障诊断后的保护方法。
本发明的第三个目的在于提出一种液冷服务器故障诊断的装置。
本发明的第四个目的在于提出一种液冷服务器故障诊断后的保护装置。
本发明的第五个目的在于提出一种液冷服务器。
本发明的第六个目的在于提出一种液冷服务器。
本发明的第七个目的在于提出一种液冷服务器。
本发明的第八个目的在于提出一种计算机可读存储介质。
本发明的第九个目的在于提出一种计算机程序产品。
为了达到上述目的,本发明第一方面实施例的液冷服务器故障诊断的方法包括:获取液冷服务器实际温度值;根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障。
根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服务器的保护效果。
在一些实施例中,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;若超过预设数量的所述实际温度值与所述参考温度值相等,或者,超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值,则所述实际温度曲线与所述参考温度曲线相匹配。
在一些实施例中,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:计算所述实际温度曲线的斜率变化;若所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致,则确定所述实际温度曲线与所述参考温度曲线相匹配。
在一些实施例中,所述方法还包括:根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
在一些实施例中,根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型,包括:所述实际温度曲线与停液参考温度曲线相匹配,则确定所述液冷服务器发生停液故障;或者,所述实际温度曲线与漏水参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。
为了达到上述目的,本发明的第二方面实施例提出的一种液冷服务器故障诊断后的保护方法,该方法包括:根据上面实施例提到的液冷服务器故障诊断的方法,诊断所述液冷服务器是否发生故障;在确定所述液冷服务器发生故障时,进行预警提示。
根据本发明实施例的液冷服务器故障诊断后的保护方法,根据液冷服务器的实际温度变化来确定液冷服务器是否发生故障,并在故障时,进行预警提示,无需等到温度达到极值时再采取保护措施,提高液冷服务器的可靠性和运行的安全性,避免故障进一步造成损害。
在一些实施例中,所述进行预警提示包括:根据所述液冷服务器发生故障的类型进行预警提示,使得用户可以及时了解故障情况以采取措施。
在一些实施例中,所述保护方法还包括:在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障扩散。
为了达到上述目的,本发明的第三方面实施例提出的一种液冷服务器故障诊断的装置,该装置包括:获取模块,配置为获取液冷服务器实际温度值;生成模块,配置为根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;比较模块,配置为比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;第一确定模块,配置为在所述实际温度曲线与所述参考温度曲线相匹配时,则确定所述液冷服务器故障。
根据本发明实施例的液冷服务器故障诊断的装置,通过预存液冷服务器在故障状态下的参考曲线,实时监控液冷服务器的实际温度变化,第一确定模块在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服务器的保护效果。
在一些实施例中,所述比较模块包括:比较单元,配置为将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;匹配单元,配置为在超过预设数量的所述实际温度值与所述参考温度值相等时,或者,在超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值时,确定所述实际温度曲线与所述参考温度曲线相匹配。
在一些实施例中,所述比较模块包括:计算单元,配置为计算所述实际温度曲线的斜率变化;匹配单元,配置为在所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致时,则确定所述实际温度曲线与所述参考温度曲线相匹配。
在一些实施例中,所述装置还包括:第二确定模块,配置为根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
在一些实施例中,所述第二确定模块包括:第一确定单元,配置为在所述实际温度曲线与停液参考温度曲线相匹配时,确定所述液冷服务器发生停液故障;第二确定单元,配置为所述实际温度曲线与漏液参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。
为了达到上述目的,本发明的第四方面实施例提出的一种液冷服务器故障诊断后的保护装置,该装置包括:上面实施例提到的液冷服务器故障诊断的装置,用于诊断液冷服务器是否发生故障;预警模块,配置为在确定所述液冷服务器发生故障时,进行预警提示。
根据本发明实施例的液冷服务器故障诊断后的保护装置,在确定液冷服务器发生故障时,通过预警模块进行预警,避免在温度达到极值后采取保护措施,提高了液冷服务器的可靠性,可以保证对液冷服务器的保护效果。
在一些实施例中,所述预警模块在进行预警时进一步配置为,根据所述液冷服务器发生故障的类型进行预警提示。
在一些实施例中,所述保护装置还包括:控制模块,配置为在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障造成进一步损害。
为了达到上述目的,本发明的第五方面实施例提出的一种液冷服务器,该服务器包括:多个算力板,每个所述算力板包括多个芯片;多个液冷板,所述液冷板用于给所述算力板散热;温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;上面实施例提到的任一项所述的液冷服务器故障诊断的装置,所述装置与所述温度传感器连接。
根据本发明实施例的液冷服务器,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,无需在温度达到极值后采取保护措施,提高了液冷服务器的可靠性和安全性。
为了达到上述目的,本发明的第六方面实施例提出的液冷服务器包括:多个算力板,每个所述算力板包括多个芯片;多个液冷板,所述液冷板用于给所述算力板散热;温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;上面实施例提到的任一项所述的液冷服务器故障诊断后的保护装置,所述保护装置与所述温度传感器连接。
根据本发明实施例的液冷服务器,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,无需在温度达到极值后采取保护措施,提高了液冷服务器的可靠性,保证了对液冷服务器的保护效果。
为了达到上述目的,本发明的第七方面实施例提出的液冷服务器包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行上面实施例提到的液冷服务器故障诊断的方法,或者,使所述至少一个处理器执行上面实施例提到的液冷服务器故障诊断后的保护方法。
根据本发明实施例的液冷服务器,通过存储器存储至少一个处理器执行的命令,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了液冷服务器的可靠性,保证了对液冷服务器的保护效果。
为了达到上述目的,本发明的第八方面实施例提出的一种计算机可读存储介质,所述计算机可执行指令设置为执行上面实施例提到的任一项液冷服务器故障诊断的方法,或者,所述计算机可执行指令设置为执行上面实施例提到的任一项液冷服务器故障诊断后的保护方法。
为了达到上述目的,本发明的第九方面实施例提出的一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机上面实施例提到的任一项所述的液冷服务器故障诊断的方法,或者,使所述计算机执行上面实施例提到的任一项所述的液冷服务器故障诊断后的保护方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的液冷服务器故障诊断的方法的流程图;
图2是根据本发明一个实施例的液冷服务器不同故障温度变化曲线示意图;
图3是根据本发明一个实施例的液冷服务器故障诊断后的保护方法的流程图;
图4是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
图5是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
图6是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
图7是根据本发明一个实施例的液冷服务器故障诊断后的保护装置的框图;
图8是根据本发明一个实施例的液冷服务器的框图;
图9是根据本发明另一个实施例的液冷服务器的框图。
具体实施方式
下面详细描述本发明的实施例,参考附图描述的实施例是示例性的,下面详细描述本发明的实施例。
在本发明实施例中,服务器包括多个算力版,每个算力板包括多个芯片,在运行时服务器会产生大量热,使得服务器的算力降低,因而为了保证服务器的正常运行,通常会设置冷却装置,液冷服务器可以是采用液体作为媒介进行冷却的服务器,例如水冷。
下面参考图1描述根据本发明第一方面实施例的液冷服务器故障诊断的方法,如图1所示,本发明实施例的液冷服务器故障诊断的方法至少包括步骤S1、步骤S2、步骤S3和步骤S4。
步骤S1,获取液冷服务器实际温度值。
具体地,可以在液冷服务器中设置温度传感器,通过检测芯片或者算力板例如PCB板的温度,以作为液冷服务器的实际温度值。对于温度数据的采集方式,可以是实时采集也可以是周期性采集,不作具体限制。
步骤S2,根据多个实际温度值生成液冷服务器的实际温度曲线。
步骤S3,比较实际温度曲线和预存的液冷服务器在故障状态下运行时的参考温度曲线。
在不同运行状态下,液冷服务器的芯片或者算力板上的温度变化和曲率不同,在产品测试期间,可以检测液冷服务器在不同运行状态包括各种故障状态例如停液状态、漏液状态和正常运行状态下运行时的温度数据,并生成对应各种运行状态下的参考温度曲线,预存在液冷服务器的控制器中,以在故障诊断时调用。
在获得液冷服务器的实际温度曲线后,将实际温度曲线与故障状态运行时的参考温度曲线进行对比,预测当前水冷服务器的温度变化趋势是否与参考温度曲线一致。
步骤S4,实际温度曲线与参考温度曲线相匹配,则确定液冷服务器故障。
具体地,当实际温度变化曲线和故障状态运行时的参考温度曲线相匹配时,例如曲率吻合时,认为液冷服务器正处于故障状态下运行,则确定液冷服务器发生故障。
根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服务器的保护效果。
在实施例中,可以通过时间温度曲线上的温度值与参考曲线上的温度值进行比较确定液冷服务器温度变化是否符合该故障下运行时的温度变化,也可以通过比较曲线的斜率来判断曲线是否匹配。
具体地,将运行时长内同时刻的实际温度曲线的实际温度值与参考温度曲线的参考温度值进行比较;若超过预设数量的实际温度值与参考温度值相等,或者,超过预设数量的实际温度值与参考温度值的温差小于温差阈值,则实际温度曲线与参考温度曲线相匹配。
例如,预设数量为10,在1个小时运行时长内检测60次,当超过10个实际温度值与参考温度值的温度相同,则认为实际温度曲线与参考温度曲线相匹配。或者超过10个实际温度值和参考温度值的温差阈值在可允许范围内时,确定实际温度值与参考温度值相匹配。
再例如,计算实际温度曲线的斜率变化;若实际温度曲线的斜率变化与参考温度曲线的斜率变化一致,则认为实际温度变化趋势符合该参考温度曲线。
在一些实施例中,液冷服务器故障诊断的方法还包括:根据与实际温度曲线相匹配的参考温度曲线,确定液冷服务器发生故障的类型。如图2所示为本发明实施例的不同故障温度变化曲线示意图。液冷服务器在不同状态下运行时,其温度变化会不同,例如正常运行时,由于液冷装置的作用,会使得液冷服务器的温度处于某个设定温度附近变化;而在漏液状态时,由于冷却作用不足使得液冷服务器的温度逐渐增大;在停液状态时,由于产生大量热量且得不到冷却,液冷服务器的温度迅速上升。因此,通过温度曲线可以区别液冷服务器处于何种状态,以及根据液冷服务器的温度变化来确定其是否发生故障以及发生的故障的类型。
具体地,当实际温度曲线与停液参考温度曲线相匹配,则确定液冷服务器发生停液故障;或者,实际温度曲线与漏水参考温度曲线相匹配,则确定液冷服务器发生漏液故障。
在实际温度值满足液冷服务器的一种故障时即启动保护,例如进行关水或者关电等操作,无需等到温度达到极值时再采取保护措施,在提升液冷服务器可靠性的同时,可以避免故障扩散。
概括来说,根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服务器的保护效果。
下面参考图3描述本发明第二方面实施例的液冷服务器故障诊断后的保护方法。
如图3所示,本发明实施例的液冷服务器故障诊断后的保护方法至少包括步骤S21和步骤S22。
步骤S21,根据上面实施例提到的液冷服务器故障诊断的方法,诊断液冷服务器是否发生故障。
具体地,在液冷服务器运行过程中,将定期或者定时采集的芯片或者PCB板的实际温度值拟合为实际温度曲线,并将预设的液冷服务器在故障状态下运行时的参考温度曲线与实际温度曲线进行比较,若两条温度曲线相匹配,确定液冷服务器发生故障。
步骤S22,确定液冷服务器发生故障时,进行预警提示。
具体地,液冷服务器在不同故障时实际温度曲线不同,通过预警提示可以及时通知用户,以采取保护措施,相较于在温度达到极值时再采取保护措施,提高了液冷服务器运行的安全性和可靠性。
在一些实施例中,保护方法还包括:在液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障发生扩散,对液冷服务器造成进一步的损害,提高液冷服务器的可靠性和安全性。
下面参考附图描述本发明第三方面实施例的液冷服务器故障诊断的装置。
图4是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图4所示,本发明实施例的液冷服务器故障诊断的装置20包括:获取模块210、生成模块220、比较模块230和第一确定模块240。
其中,获取模块210配置为获取液冷服务器实际温度值;生成模块220配置为根据多个实际温度值生成液冷服务器的实际温度曲线;比较模块230配置为比较实际温度曲线和预存的液冷服务器在故障状态下运行时的参考温度曲线;第一确定模块240配置为在实际温度曲线与参考温度曲线相匹配时,则确定液冷服务器故障。
根据本发明实施例的液冷服务器故障诊断的装置20,通过预存液冷服务器在故障状态下的参考曲线,实时监控液冷服务器的实际温度变化,第一确定模块240在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服务器的保护效果。
在一些实施例中,如图5所示,比较模块230包括比较单元250和匹配单元260,其中,比较单元250配置为将运行时长内同时刻的实际温度曲线的实际温度值与参考温度曲线的参考温度值进行比较;匹配单元260配置为在超过预设数量的实际温度值与参考温度值相等时,或者,在超过预设数量的实际温度值与参考温度值的温差小于温差阈值时,确定实际温度曲线与参考温度曲线相匹配,通过比较单元250比较实际温度值与参考温度值,再通过匹配单元260确定实际温度曲线与参考温度曲线是否匹配,若匹配说明存在故障,并在存在故障模式时启动保护,相较于在温度到达极值时在采取保护措施,可以提高液冷服务器的可靠性,也保证了对液冷服务器的保护效果。
在一些实施例中,如图6所示,比较模块230包括:计算单元270,配置为计算实际温度曲线的斜率变化;匹配单元260,配置为在实际温度曲线的斜率变化与参考温度曲线的斜率变化一致时,则确定实际温度曲线与参考温度曲线相匹配。通过将参考温度曲线的斜率作为参考,计算实际温度曲线的斜率并进行比较,当两条曲线的斜率变化一致时,确定液冷服务器存在故障,并在实际温度曲线变化满足某种故障类型时立即启动保护。
在一些实施例中,液冷服务器故障诊断的装置20还包括:第二确定模块280,配置为根据与实际温度曲线相匹配的参考温度曲线,确定液冷服务器发生故障的类型,确定液冷服务器的故障类型可以对其采取相应的保护措施,提高液冷服务器的可靠性,保证对液冷服务器的保护效果
在一些实施例中,第二确定模块包括280:第一确定单元290,配置为在实际温度曲线与停液参考温度曲线相匹配时,确定液冷服务器发生停液故障;第二确定单元300,配置为实际温度曲线与漏液参考温度曲线相匹配,则确定液冷服务器发生漏液故障。通过实时监控液冷服务器的实际温度变化,确定液冷服务器的故障类型,对不同故障采取相应的采取保护措施,提高了故障诊断的可靠性,保证对液冷服务器的保护效果。
下面参考附图描述本发明第四方面实施例的液冷服务器故障诊断后的保护装置。
图7是根据本发明一个实施例的液冷服务器故障诊断后的保护装置的框图,如图7所示,本发明实施例的液冷服务器故障诊断后的保护装置30包括:上面实施例提到的液冷服务器故障诊断的装置20和预警模块310,其中,上面实施例提到的液冷服务器故障诊断的装置20用于诊断液冷服务器是否发生故障;预警模块310配置为在确定液冷服务器发生故障时,进行预警提示,便于及时采取保护措施,保证液冷服务器的可靠性和安全性。
根据本发明实施例的液冷服务器故障诊断后的保护装置30,在确定液冷服务器发生故障后,通过预警模块310进行预警提示,避免故障扩散对液冷服务器造成进一步损害,避免在温度达到极值后采取保护措施,提高了液冷服务器的可靠性,可以保证对液冷服务器的保护效果。
在一些实施例中,预警模块310在进行预警时进一步配置为根据液冷服务器发生故障的类型进行预警提示,面对不同的故障类型采取相应的保护措施,避免故障扩散,提高了液冷服务器的可靠性。
在一些实施例中,液冷服务器故障诊断后的保护装置30还包括:控制模块320,控制模块320配置为在液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,防止故障扩散对液冷服务器造成进一步损害,提高了液冷服务器的可靠性。
下面参考附图描述本发明第五方面实施例的液冷服务器。
图8是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图8所示,本发明实施例的液冷服务器40包括:多个算力板410,每个算力板410包括多个芯片;多个液冷板430,液冷板430用于给算力板410散热;温度传感器420用于采集算力板410、芯片或液冷板430进出口冷却液的温度值;上面实施例提到的液冷服务器故障诊断后的保护装置30与温度传感器连接420。
根据本发明实施例的液冷服务器40,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器40故障,通过液冷服务器40的温度变化趋势来进行故障诊断,无需在温度达到极值后采取保护措施,提高了液冷服务器40的可靠性和安全性。
下面继续参考附图描述本发明第六方面实施例的液冷服务器。
图8是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图8所示,本发明实施例的液冷服务器40包括:多个算力板410,每个算力板410包括多个芯片;多个液冷板430,液冷板430用于给算力板410散热;温度传感器420用于采集算力板410、芯片或液冷板430进出口冷却液的温度值;上面实施例提到的液冷服务器故障诊断后的保护装置30与温度传感器420连接。
根据本发明实施例的液冷服务器40,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器40故障,通过液冷服务器40的温度变化趋势来进行故障诊断,无需在温度达到极值后采取保护措施,提高了液冷服务器40的可靠性,保证了对液冷服务器的保护效果。
下面参考附图描述本发明第七方面实施例的液冷服务器。
图9是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图9所示,本发明实施例的液冷服务器50包括至少一个处理器510;以及与至少一个处理器510通信连接的存储器520;其中,存储器520存储有可被至少一个处理器510执行的指令,指令被至少一个处理器510执行时,使至少一个处理器510执行上面实施例提到的液冷服务器故障诊断的方法,或者,使至少一个处理器510执行上面实施例提到的液冷服务器故障诊断后的保护方法。
根据本发明实施例的液冷服务器50,通过存储器存储至少一个处理器510执行的命令,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器50故障,通过液冷服务器50的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了液冷服务器50的可靠性,保证了对液冷服务器50的保护效果。
在本发明的实施例中,液冷服务器50可以进行数据处理,数据处理可以包括基于数据或对数据进行的设置、计算、判断、传输、存储、管理等至少之一,液冷服务器50可以设置在网络节点上,并可以与网络中其他节点的设备进行通信。作为一个实施例,液冷服务器50可以进行与数字凭证相关的数据处理,数字凭证可以通过数据处理得到,液冷服务器50可以是数字凭证处理设备。
本发明第八方面实施例的计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上面实施例提到的液冷服务器故障诊断的方法,或者,计算机可执行指令设置为上面实施例提到的液冷服务器故障诊断后的保护方法。
本发明第九方面实施例的计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上面实施例提到的液冷服务器故障诊断的方法,或者,使计算机执行上面实施例提到的液冷服务器故障诊断后的保护方法。
此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中的液冷服务器故障诊断后的保护方法,或者,可实现上面实施例提到的液冷服务器故障诊断后的保护方法。
存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器。
本公开实施例的计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上面实施例公开的液冷服务器故障诊断后的保护方法,或者,计算机可执行指令设置为上面实施例提到的液冷服务器故障诊断后的保护方法。
本公开实施例的技术方案可以以计算机程序产品的形式体现出来,该计算机程序产品存储在一个存储介质中,包括存储在计算机可读存储介质上的计算机程序,计算机程序包括一个或多个程序指令,当程序指令被计算机执行时,可使得计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (21)

1.一种液冷服务器故障诊断的方法,其特征在于,包括:
获取液冷服务器实际温度值;
根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;
比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;
所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障。
2.根据权利要求1所述的液冷服务器故障诊断的方法,其特征在于,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:
将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;
若超过预设数量的所述实际温度值与所述参考温度值相等,或者,超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值,则所述实际温度曲线与所述参考温度曲线相匹配。
3.根据权利要求1所述的液冷服务器故障诊断的方法,其特征在于,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:
计算所述实际温度曲线的斜率变化;
若所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致,则确定所述实际温度曲线与所述参考温度曲线相匹配。
4.根据权利要求1所述的液冷服务器故障诊断的方法,其特征在于,所述方法还包括:
根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
5.根据权利要求4所述的液冷服务器故障诊断的方法,其特征在于,根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型,包括:
所述实际温度曲线与停液参考温度曲线相匹配,则确定所述液冷服务器发生停液故障;
或者,所述实际温度曲线与漏水参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。
6.一种液冷服务器故障诊断后的保护方法,其特征在于,所述保护方法包括:
根据权利要求1-5任一项所述的液冷服务器故障诊断的方法,诊断所述液冷服务器是否发生故障;
在确定所述液冷服务器发生故障时,进行预警提示。
7.根据权利要求6所述的液冷服务器故障诊断后的保护方法,其特征在于,所述进行预警提示包括:根据所述液冷服务器发生故障的类型进行预警提示。
8.根据权利要求6所述的液冷服务器故障诊断后的保护方法,其特征在于,所述保护方法还包括:在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电。
9.一种液冷服务器故障诊断的装置,其特征在于,包括:
获取模块,配置为获取液冷服务器实际温度值;
生成模块,配置为根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;
比较模块,配置为比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;
第一确定模块,配置为在所述实际温度曲线与所述参考温度曲线相匹配时,则确定所述液冷服务器故障。
10.根据权利要求9所述的液冷服务器故障诊断的装置,其特征在于,所述比较模块包括:
比较单元,配置为将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;
匹配单元,配置为在超过预设数量的所述实际温度值与所述参考温度值相等时,或者,在超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值时,确定所述实际温度曲线与所述参考温度曲线相匹配。
11.根据权利要求9所述的液冷服务器故障诊断的装置,其特征在于,所述比较模块包括:
计算单元,配置为计算所述实际温度曲线的斜率变化;
匹配单元,配置为在所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致时,则确定所述实际温度曲线与所述参考温度曲线相匹配。
12.根据权利要求9所述的液冷服务器故障诊断的装置,其特征在于,所述装置还包括:
第二确定模块,配置为根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
13.根据权利要求12所述的液冷服务器故障诊断的装置,其特征在于,所述第二确定模块包括:
第一确定单元,配置为在所述实际温度曲线与停液参考温度曲线相匹配时,确定所述液冷服务器发生停液故障;
第二确定单元,配置为所述实际温度曲线与漏液参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。
14.一种液冷服务器故障诊断后的保护装置,其特征在于,所述保护装置包括:
权利要求9-13任一项所述的液冷服务器故障诊断的装置,用于诊断液冷服务器是否发生故障;
预警模块,配置为在确定所述液冷服务器发生故障时,进行预警提示。
15.根据权利要求14所述的液冷服务器故障诊断后的保护装置,其特征在于,所述预警模块在进行预警时进一步配置为,根据所述液冷服务器发生故障的类型进行预警提示。
16.根据权利要求14所述的液冷服务器故障诊断后的保护装置,其特征在于,所述保护装置还包括:
控制模块,配置为在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电。
17.一种液冷服务器,其特征在于,包括:
多个算力板,每个所述算力板包括多个芯片;
多个液冷板,所述液冷板用于给所述算力板散热;
温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;
权利要求9-13任一项所述的液冷服务器故障诊断的装置,所述装置与所述温度传感器连接。
18.一种液冷服务器,其特征在于,包括:
多个算力板,每个所述算力板包括多个芯片;
多个液冷板,所述液冷板用于给所述算力板散热;
温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;
权利要求14-16任一项所述的液冷服务器故障诊断后的保护装置,所述保护装置与所述温度传感器连接。
19.一种液冷服务器,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行权利要求1-5任一项所述的液冷服务器故障诊断的方法,或者,使所述至少一个处理器执行权利要求6-8任一项所述的液冷服务器故障诊断后的保护方法。
20.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令设置为执行权利要求1-5任一项所述液冷服务器故障诊断的方法,或者,所述计算机可执行指令设置为执行权利要求6-8任一项所述的液冷服务器故障诊断后的保护方法。
21.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-5任一项所述的液冷服务器故障诊断的方法,或者,使所述计算机执行权利要求6-8任一项所述的液冷服务器故障诊断后的保护方法。
CN201911381983.7A 2019-12-27 2019-12-27 液冷服务器及其故障诊断的方法和装置、保护方法和装置 Active CN111176406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381983.7A CN111176406B (zh) 2019-12-27 2019-12-27 液冷服务器及其故障诊断的方法和装置、保护方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381983.7A CN111176406B (zh) 2019-12-27 2019-12-27 液冷服务器及其故障诊断的方法和装置、保护方法和装置

Publications (2)

Publication Number Publication Date
CN111176406A true CN111176406A (zh) 2020-05-19
CN111176406B CN111176406B (zh) 2021-05-14

Family

ID=70623967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381983.7A Active CN111176406B (zh) 2019-12-27 2019-12-27 液冷服务器及其故障诊断的方法和装置、保护方法和装置

Country Status (1)

Country Link
CN (1) CN111176406B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932849A (zh) * 2021-09-30 2022-01-14 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 一种矿山设备的故障检测方法及终端设备
CN114279492A (zh) * 2021-11-25 2022-04-05 广州番禺电缆集团有限公司 基于不同故障参数记录确定电缆故障信息方法和装置
CN114577400A (zh) * 2022-01-28 2022-06-03 苏州浪潮智能科技有限公司 一种液冷服务器漏液检测方法、装置、设备、存储介质
CN114777958A (zh) * 2022-06-20 2022-07-22 深圳比特微电子科技有限公司 芯片散热状况检测方法、装置、电子设备及存储介质
CN115185313A (zh) * 2022-08-05 2022-10-14 五凌电力有限公司 水电机组轴承瓦温的趋势跟踪预警方法及装置
CN116609685A (zh) * 2023-03-02 2023-08-18 北京双登慧峰聚能科技有限公司 一种应用于液冷储能系统的监控方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087150A (zh) * 2010-11-25 2011-06-08 奇瑞汽车股份有限公司 一种电动汽车电机温度传感器系统及其检测方法
CN104937802A (zh) * 2012-11-28 2015-09-23 Abb技术有限公司 监测电气部件的操作条件
CN205667079U (zh) * 2016-06-17 2016-10-26 广东申菱环境系统股份有限公司 一种带检测功能的液冷系统用维护单元
CN107255989A (zh) * 2017-04-21 2017-10-17 杭州麦安集网络科技有限公司 一种监控低温液体运输的方法以及系统
CN107956573A (zh) * 2017-11-24 2018-04-24 广州汽车集团股份有限公司 节温器故障诊断方法、装置、计算机设备以及存储介质
CN108959027A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种非易失性内存的预警方法及相关装置
CN109271304A (zh) * 2018-09-12 2019-01-25 合肥联宝信息技术有限公司 散热系统的健康检测方法及系统、电子设备
CN110209255A (zh) * 2019-05-30 2019-09-06 北京比特大陆科技有限公司 散热装置和具有其的计算设备
CN110274707A (zh) * 2018-03-15 2019-09-24 英飞凌科技股份有限公司 对功率组件的运行状态的监控

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087150A (zh) * 2010-11-25 2011-06-08 奇瑞汽车股份有限公司 一种电动汽车电机温度传感器系统及其检测方法
CN104937802A (zh) * 2012-11-28 2015-09-23 Abb技术有限公司 监测电气部件的操作条件
CN205667079U (zh) * 2016-06-17 2016-10-26 广东申菱环境系统股份有限公司 一种带检测功能的液冷系统用维护单元
CN107255989A (zh) * 2017-04-21 2017-10-17 杭州麦安集网络科技有限公司 一种监控低温液体运输的方法以及系统
CN107956573A (zh) * 2017-11-24 2018-04-24 广州汽车集团股份有限公司 节温器故障诊断方法、装置、计算机设备以及存储介质
CN110274707A (zh) * 2018-03-15 2019-09-24 英飞凌科技股份有限公司 对功率组件的运行状态的监控
CN108959027A (zh) * 2018-06-28 2018-12-07 郑州云海信息技术有限公司 一种非易失性内存的预警方法及相关装置
CN109271304A (zh) * 2018-09-12 2019-01-25 合肥联宝信息技术有限公司 散热系统的健康检测方法及系统、电子设备
CN110209255A (zh) * 2019-05-30 2019-09-06 北京比特大陆科技有限公司 散热装置和具有其的计算设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113932849A (zh) * 2021-09-30 2022-01-14 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 一种矿山设备的故障检测方法及终端设备
CN114279492A (zh) * 2021-11-25 2022-04-05 广州番禺电缆集团有限公司 基于不同故障参数记录确定电缆故障信息方法和装置
CN114577400A (zh) * 2022-01-28 2022-06-03 苏州浪潮智能科技有限公司 一种液冷服务器漏液检测方法、装置、设备、存储介质
CN114577400B (zh) * 2022-01-28 2023-08-29 苏州浪潮智能科技有限公司 一种液冷服务器漏液检测方法、装置、设备、存储介质
CN114777958A (zh) * 2022-06-20 2022-07-22 深圳比特微电子科技有限公司 芯片散热状况检测方法、装置、电子设备及存储介质
CN114777958B (zh) * 2022-06-20 2022-10-28 深圳比特微电子科技有限公司 芯片散热状况检测方法、装置、电子设备及存储介质
CN115185313A (zh) * 2022-08-05 2022-10-14 五凌电力有限公司 水电机组轴承瓦温的趋势跟踪预警方法及装置
CN116609685A (zh) * 2023-03-02 2023-08-18 北京双登慧峰聚能科技有限公司 一种应用于液冷储能系统的监控方法及系统

Also Published As

Publication number Publication date
CN111176406B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN111176406B (zh) 液冷服务器及其故障诊断的方法和装置、保护方法和装置
US7370242B2 (en) Thermal monitoring and response apparatus and method for computer unit
US7346468B2 (en) Method and apparatus for detecting heat sink faults
EP2881582A1 (en) Pump condition monitoring and recording
KR101553892B1 (ko) 원자력 발전소 중대사고 대응 장치 및 방법
TWI566065B (zh) Communication anomaly detection device, communication anomaly detection method and program
KR102046536B1 (ko) 연료전지 열관리 시스템의 고장 진단 방법
CN108845242B (zh) 故障识别方法和装置、计算机可读存储介质
KR102031368B1 (ko) 건설기계용 수냉각 시스템의 이상 진단장치 및 방법
CN111963298B (zh) 电磁离合器水泵故障检测方法、装置、控制器及车辆
CN111441873A (zh) 发动机的控制方法和装置
CN117215876A (zh) 一种温度检查方法、系统、装置及介质
EP3271798B1 (en) Pump based issue identification
CN115360389A (zh) 传感器的故障检测方法、故障检测装置、处理器与车辆
CN107702395B (zh) 防冰堵的控制方法、控制系统及制冰机和存储介质
CN110023683B (zh) 电锅炉的循环异常控制装置及其控制方法
CN111608744B (zh) 汽轮机轴承温度保护方法、装置及电子设备
CN107735744B (zh) 阀故障预测的系统、方法和介质
CN111290886A (zh) 设备自动恢复运行的方法及热水机
CN115559886A (zh) 电动水泵的干转检测方法及装置
CN103902424A (zh) 服务器及其温度异常时的保护方法
WO2011044827A1 (zh) 无线数据业务设备自诊断方法及系统
CN113901530B (zh) 一种硬盘防御性预警保护的方法、装置、设备及可读介质
JP7398206B2 (ja) 少なくとも1つの電子構成部品を確実に機能するように作動させるための方法
CN103902398A (zh) 服务器及其风扇故障时的保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant