CN112506330B - 一种板级服务器防烧板方法、系统及板级服务器 - Google Patents

一种板级服务器防烧板方法、系统及板级服务器 Download PDF

Info

Publication number
CN112506330B
CN112506330B CN202011406051.6A CN202011406051A CN112506330B CN 112506330 B CN112506330 B CN 112506330B CN 202011406051 A CN202011406051 A CN 202011406051A CN 112506330 B CN112506330 B CN 112506330B
Authority
CN
China
Prior art keywords
change rate
temperature
target group
power supply
supply line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011406051.6A
Other languages
English (en)
Other versions
CN112506330A (zh
Inventor
吴福宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202011406051.6A priority Critical patent/CN112506330B/zh
Publication of CN112506330A publication Critical patent/CN112506330A/zh
Application granted granted Critical
Publication of CN112506330B publication Critical patent/CN112506330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种板级服务器防烧板方法、系统及板级服务器,预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照目标防烧板保护策略对服务器采取防烧板保护措施。可见,本申请摒弃纯侦测电流大小的方式,建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护,能有效避免发生各烧板状况,提高了板卡的可靠性。

Description

一种板级服务器防烧板方法、系统及板级服务器
技术领域
本发明涉及服务器安全领域,特别是涉及一种板级服务器防烧板方法、系统及板级服务器。
背景技术
随着云计算的发展,大规模的数据中心越来越多,作为数据中心基本单元的服务器的可靠性设计成为重中之重。而在服务器的可靠性设计中,服务器的防烧板设计是最重要的部分。现有技术中,板级服务器的防烧板架构如图1所示,在系统的PSU(Power supplyunit,电源供应单元)和各组PR(power rail,电源轨-为服务器部件供电)之间串接EFUSE(电子熔断器)来侦测各组PR的输入电流,并将各组PR的输入电流传送至BMC(BaseboardManagement Controller,基板管理控制器),BMC通过各组PR的输入电流的大小来判断系统板卡是否存在烧板风险,若存在烧板风险,则通知PSU断电,实现防烧板设计。
但是,现有的防烧板架构只对超大电流的烧板有预防作用,对一般电流的烧板或者服务器相对轻载下的烧板是不起作用的。比如,一个EFUSE对应一组CPU(中央处理器)和Memery(存储器)的PR,按照目前的功耗设计要求,在重载下功耗要到600W,此EFUSE要通过的正常电流为600/12=50A,在考虑设计余量和侦测精度的情况下,一般设计的防烧板电流要到80A以上,而实际烧板时电流并不会触发这么大,但如果防烧板电流设计过小,则不满足系统正常工作设计的电流要求,所以,现有的防烧板架构只能避免超大电流的烧板状况,导致板卡的可靠性降低。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种板级服务器防烧板方法、系统及板级服务器,摒弃纯侦测电流大小的方式,建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护,能有效避免发生各烧板状况,提高了板卡的可靠性。
为解决上述技术问题,本发明提供了一种板级服务器防烧板方法,应用于包含一一检测N组PR的输入电流的N组电流传感器及一一检测N组PR的供电线路温度的N组温度传感器的服务器;N为正整数;所述板级服务器防烧板方法包括:
预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;其中,所述目标组PR为任一组PR;
从所述目标组PR对应的电流传感器及温度传感器中相应获取所述目标组PR的实际输入电流及实际供电线路温度,并根据所述目标组PR的实际输入电流求取所述目标组PR的实际输入电流变化率,且根据所述目标组PR的实际供电线路温度求取所述目标组PR的实际供电线路温度变化率;
根据不同防烧板保护策略的设置情况,确定与所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照所述目标防烧板保护策略对所述服务器采取防烧板保护措施。
优选地,预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略的过程,包括:
预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为所述目标组PR的供电线路温度设置温度安全阈值,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值;
当所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值,且所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述服务器的PSU立即切断供电输出;
当所述目标组PR的实际供电线路温度超过所述温度安全阈值,且所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值或所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述PSU在预设安全时间后切断供电输出;
当所述目标组PR的实际输入电流变化率未超过所述电流变化率安全阈值,或所述目标组PR的实际供电线路温度未超过所述温度安全阈值且所述目标组PR的供电线路温度变化率未超过所述温度变化率安全阈值时,控制所述PSU保持供电输出。
优选地,为目标组PR的输入电流变化率设置电流变化率安全阈值的过程,包括:
根据不同器件的个体差异和信号干扰因素,确定目标组PR的输入电流变化率的误差系数;
获取所述目标组PR的OCP电流值除以所述目标组PR在正常工作时的最大电流值的电流倍数;
将所述电流倍数与所述误差系数相加,得到电流变化率系数;
获取所述服务器在正常工作状态下从轻载到最重载时,所述目标组PR的最大输入电流变化率;
将所述最大输入电流变化率乘以所述电流变化率系数,得到所述电流变化率安全阈值。
优选地,为所述目标组PR的供电线路温度设置温度安全阈值的过程,包括:
根据所述目标组PR的供电线路所连接的半导体器件在温度增加下的电流承载能力,确定温度安全设定值;
根据所述服务器的系统反应时间,确定温度预留值;
将所述温度安全设定值减去所述温度预留值,得到所述温度安全阈值。
优选地,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值的过程,包括:
获取所述服务器即将烧板时的第一温度变化率,并获取所述服务器的最高散热能力对应的第二温度变化率;
将所述第一温度变化率减去所述第二温度变化率,得到所述温度变化率安全阈值。
优选地,所述目标组PR对应的温度传感器放置于所述目标组PR的供电线路上流通最大电流的位置。
优选地,所述板级服务器防烧板方法还包括:
将所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率进行记录,以便于故障复盘分析。
为解决上述技术问题,本发明还提供了一种板级服务器防烧板系统,应用于包含一一检测N组PR的输入电流的N组电流传感器及一一检测N组PR的供电线路温度的N组温度传感器的服务器;N为正整数;所述板级服务器防烧板系统包括:
预设模块,用于预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;其中,所述目标组PR为任一组PR;
计算模块,用于从所述目标组PR对应的电流传感器及温度传感器中相应获取所述目标组PR的实际输入电流及实际供电线路温度,并根据所述目标组PR的实际输入电流求取所述目标组PR的实际输入电流变化率,且根据所述目标组PR的实际供电线路温度求取所述目标组PR的实际供电线路温度变化率;
保护模块,用于根据不同防烧板保护策略的设置情况,确定与所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照所述目标防烧板保护策略对所述服务器采取防烧板保护措施。
优选地,所述预设模块包括:
阈值设定子模块,用于预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为所述目标组PR的供电线路温度设置温度安全阈值,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值;
第一保护策略子模块,用于当所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值,且所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述服务器的PSU立即切断供电输出;
第二保护策略子模块,用于当所述目标组PR的实际供电线路温度超过所述温度安全阈值,且所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值或所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述PSU在预设安全时间后切断供电输出;
第三保护策略子模块,用于当所述目标组PR的实际输入电流变化率未超过所述电流变化率安全阈值,或所述目标组PR的实际供电线路温度未超过所述温度安全阈值且所述目标组PR的供电线路温度变化率未超过所述温度变化率安全阈值时,控制所述PSU保持供电输出。
为解决上述技术问题,本发明还提供了一种板级服务器,包括:
一一检测N组PR的输入电流的N组电流传感器;其中,N为正整数;
一一检测N组PR的供电线路温度的N组温度传感器;
分别与N组电流传感器和N组温度传感器连接的处理器,用于在执行自身所存储的计算机程序时实现上述任一种板级服务器防烧板方法的步骤。
本发明提供了一种板级服务器防烧板方法,预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;获取目标组PR的实际输入电流及实际供电线路温度,并根据目标组PR的实际输入电流求取目标组PR的实际输入电流变化率,且根据目标组PR的实际供电线路温度求取目标组PR的实际供电线路温度变化率;根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照目标防烧板保护策略对服务器采取防烧板保护措施。可见,本申请摒弃纯侦测电流大小的方式,建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护,能有效避免发生各烧板状况,提高了板卡的可靠性。
本发明还提供了一种板级服务器防烧板系统及板级服务器,与上述防烧板方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的一种板级服务器的防烧板架构图;
图2为本发明实施例提供的一种板级服务器防烧板方法的流程图;
图3为本发明实施例提供的一种板级服务器的防烧板架构图;
图4为本发明实施例提供的一种功率MOS在温度增加下的电流承载能力图。
具体实施方式
本发明的核心是提供一种板级服务器防烧板方法、系统及板级服务器,摒弃纯侦测电流大小的方式,建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护,能有效避免发生各烧板状况,提高了板卡的可靠性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图2,图2为本发明实施例提供的一种板级服务器防烧板方法的流程图。
该板级服务器防烧板方法应用于:包含一一检测N组PR的输入电流的N组电流传感器及一一检测N组PR的供电线路温度的N组温度传感器的服务器;N为正整数;板级服务器防烧板方法包括:
步骤S1:预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略。
需要说明的是,本申请的目标组PR为服务器内任一组PR。
具体地,本申请提前为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略,即建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护。
步骤S2:从目标组PR对应的电流传感器及温度传感器中相应获取目标组PR的实际输入电流及实际供电线路温度,并根据目标组PR的实际输入电流求取目标组PR的实际输入电流变化率,且根据目标组PR的实际供电线路温度求取目标组PR的实际供电线路温度变化率。
具体地,如图3所示,在系统的PSU和各组PR之间串接电流传感器(如EFUSE)来检测各组PR的输入电流,在系统的各组PR的供电线路旁设置温度传感器(Sensor)来检测各组PR的供电线路温度。基于此,本申请一方面从目标组PR对应的电流传感器中获取目标组PR的实际输入电流,并根据目标组PR的实际输入电流求取目标组PR的实际输入电流变化率;另一方面从目标组PR对应的温度传感器中获取目标组PR的实际供电线路温度,并根据目标组PR的实际供电线路温度求取目标组PR的实际供电线路温度变化率,以为后续确定防烧板保护策略提供依据。
步骤S3:根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照目标防烧板保护策略对服务器采取防烧板保护措施。
具体地,本申请在获取目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率之后,可根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的防烧板保护策略(称为目标防烧板保护策略),目的是按照目标防烧板保护策略对服务器采取防烧板保护措施,以有效避免发生各烧板状况。
本发明提供了一种板级服务器防烧板方法,预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;获取目标组PR的实际输入电流及实际供电线路温度,并根据目标组PR的实际输入电流求取目标组PR的实际输入电流变化率,且根据目标组PR的实际供电线路温度求取目标组PR的实际供电线路温度变化率;根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照目标防烧板保护策略对服务器采取防烧板保护措施。可见,本申请摒弃纯侦测电流大小的方式,建立电流变化率、温度、温度变化率三位一体的侦测体系,通过判断三者的相互变化来制定防烧板保护策略,做到防烧板的全防护,能有效避免发生各烧板状况,提高了板卡的可靠性。
在上述实施例的基础上:
作为一种可选的实施例,预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略的过程,包括:
预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为目标组PR的供电线路温度设置温度安全阈值,为目标组PR的供电线路温度变化率设置温度变化率安全阈值;
当目标组PR的实际输入电流变化率超过电流变化率安全阈值,且目标组PR的供电线路温度变化率超过温度变化率安全阈值时,控制服务器的PSU立即切断供电输出;
当目标组PR的实际供电线路温度超过温度安全阈值,且目标组PR的实际输入电流变化率超过电流变化率安全阈值或目标组PR的供电线路温度变化率超过温度变化率安全阈值时,控制PSU在预设安全时间后切断供电输出;
当目标组PR的实际输入电流变化率未超过电流变化率安全阈值,或目标组PR的实际供电线路温度未超过温度安全阈值且目标组PR的供电线路温度变化率未超过温度变化率安全阈值时,控制PSU保持供电输出。
具体地,本申请设置防烧板保护策略的原理为:为目标组PR的输入电流变化率设置电流变化率安全阈值,为目标组PR的供电线路温度设置温度安全阈值,为目标组PR的供电线路温度变化率设置温度变化率安全阈值。基于此,有8种情况:1)目标组PR的实际输入电流变化率超过电流变化率安全阈值,目标组PR的实际供电线路温度超过温度安全阈值,目标组PR的供电线路温度变化率超过温度变化率安全阈值:服务器的PSU立即切断供电输出;2)目标组PR的实际输入电流变化率超过电流变化率安全阈值,目标组PR的实际供电线路温度未超过温度安全阈值,目标组PR的供电线路温度变化率超过温度变化率安全阈值:服务器的PSU立即切断供电输出;3)目标组PR的实际输入电流变化率超过电流变化率安全阈值,目标组PR的实际供电线路温度超过温度安全阈值,目标组PR的供电线路温度变化率未超过温度变化率安全阈值:PSU在预设安全时间(如4s)后切断供电输出;4)目标组PR的实际输入电流变化率未超过电流变化率安全阈值,目标组PR的实际供电线路温度超过温度安全阈值,目标组PR的供电线路温度变化率超过温度变化率安全阈值:PSU在预设安全时间后切断供电输出;5)目标组PR的实际输入电流变化率超过电流变化率安全阈值,目标组PR的实际供电线路温度未超过温度安全阈值,目标组PR的供电线路温度变化率未超过温度变化率安全阈值:PSU保持供电输出;6)目标组PR的实际输入电流变化率未超过电流变化率安全阈值,目标组PR的实际供电线路温度超过温度安全阈值,目标组PR的供电线路温度变化率未超过温度变化率安全阈值:PSU保持供电输出;7)目标组PR的实际输入电流变化率未超过电流变化率安全阈值,目标组PR的实际供电线路温度未超过温度安全阈值,目标组PR的供电线路温度变化率超过温度变化率安全阈值:PSU保持供电输出;8)目标组PR的实际输入电流变化率未超过电流变化率安全阈值,目标组PR的实际供电线路温度未超过温度安全阈值,目标组PR的供电线路温度变化率未超过温度变化率安全阈值:PSU保持供电输出。
综上,归结为三种防烧板保护策略:1)当目标组PR的实际输入电流变化率超过电流变化率安全阈值,且目标组PR的供电线路温度变化率超过温度变化率安全阈值时,无论目标组PR的实际供电线路温度是否超过温度安全阈值,均控制服务器的PSU立即切断供电输出;2)在目标组PR的实际供电线路温度超过温度安全阈值的情况下,目标组PR的实际输入电流变化率超过电流变化率安全阈值(此情况无论目标组PR的供电线路温度变化率是否超过温度变化率安全阈值)或者目标组PR的供电线路温度变化率超过温度变化率安全阈值(此情况无论目标组PR的实际输入电流变化率是否超过电流变化率安全阈值),均控制PSU在预设安全时间后切断供电输出;3)在目标组PR的实际输入电流变化率未超过电流变化率安全阈值的情况下,或者在目标组PR的实际供电线路温度未超过温度安全阈值且目标组PR的供电线路温度变化率未超过温度变化率安全阈值的情况下,均控制PSU保持供电输出。
作为一种可选的实施例,为目标组PR的输入电流变化率设置电流变化率安全阈值的过程,包括:
根据不同器件的个体差异和信号干扰因素,确定目标组PR的输入电流变化率的误差系数;
获取目标组PR的OCP电流值除以目标组PR在正常工作时的最大电流值的电流倍数;
将电流倍数与误差系数相加,得到电流变化率系数;
获取服务器在正常工作状态下从轻载到最重载时,目标组PR的最大输入电流变化率;
将最大输入电流变化率乘以电流变化率系数,得到电流变化率安全阈值。
具体地,电流变化率安全阈值的设置原理为:电流变化率是单位时间内电流变化的数值。在服务器中,采用的是12V供电,所以这里的目标组PR的输入电流变化率是指目标组PR的输入电压12V的电流变化率。在设置电流变化率安全阈值时,根据不同器件的个体差异和信号干扰因素,确定目标组PR的输入电流变化率的误差系数;将误差系数+目标组PR的OCP(过流保护)电流值/目标组PR在正常工作时的最大电流值,得到电流变化率系数;将电流变化率系数×(服务器在正常工作状态下从轻载到最重载时,目标组PR的最大输入电流变化率),得到电流变化率安全阈值。
比如,虽然有器件个体的差异,但实际差别不会超过±20%(正态分布),再考虑到信号干扰等因素的10%,误差不会超过±30%,则误差系数设为0.3。设目标组PR的OCP电流值为目标组PR在正常工作时的最大电流值的1.2倍,误差系数累加上1.2,得到电流变化率系数为1.5,则将服务器在正常工作状态下从轻载到最重载时,目标组PR的最大输入电流变化率的1.5倍作为电流变化率安全阈值(10A)。
作为一种可选的实施例,为目标组PR的供电线路温度设置温度安全阈值的过程,包括:
根据目标组PR的供电线路所连接的半导体器件在温度增加下的电流承载能力,确定温度安全设定值;
根据服务器的系统反应时间,确定温度预留值;
将温度安全设定值减去温度预留值,得到温度安全阈值。
具体地,温度安全阈值的设置原理为:目标组PR的供电线路所连接的半导体器件的特性就是随着温度的升高其对应的阻抗就会快速增加,造成性能下降。在设置温度安全阈值时,根据目标组PR的供电线路所连接的半导体器件在温度增加下的电流承载能力,确定温度安全设定值;根据服务器的系统反应时间,确定温度预留值;将温度安全设定值-温度预留值,得到温度安全阈值。可以理解的是,若目标组PR的供电线路所连接的多个半导体器件在温度增加下的电流承载能力不同,则为了安全考虑,基于最小电流承载能力的半导体器件设置温度安全设定值。
比如,以目标组PR的供电线路上连接的功率MOS管为例,图4为功率MOS在温度增加下的电流承载能力,可以看出MOS管在80-90度时电流迅速下降,如果电流不变,就意味着MOS会很快发生烧毁。因此,可以认为在80度以下是安全的,即设置温度安全设定值为80度。考虑到系统的反应时间,预留20度的系统反应时间,则为目标组PR的供电线路温度设置温度安全阈值为60度。
作为一种可选的实施例,为目标组PR的供电线路温度变化率设置温度变化率安全阈值的过程,包括:
获取服务器即将烧板时的第一温度变化率,并获取服务器的最高散热能力对应的第二温度变化率;
将第一温度变化率减去第二温度变化率,得到温度变化率安全阈值。
具体地,温度变化率安全阈值的设置原理为:在设置温度变化率安全阈值时,获取服务器即将烧板时的第一温度变化率,并获取服务器的最高散热能力对应的第二温度变化率;将第一温度变化率-第二温度变化率,得到温度变化率安全阈值。
比如,通过实际测试发现,服务器系统在即将烧板时高达10度/秒,而服务器系统的最高散热能力不大于5度/秒(以80风扇评估为准),则设计温度变化率安全阈值为5度/秒。
综上,在实际验证的一组防烧板设计中关于EFUSE电流变化率、Sensor温度及温度变化率所采取保护措施的关系表如下:
表1
Figure BDA0002818554830000121
作为一种可选的实施例,目标组PR对应的温度传感器放置于目标组PR的供电线路上流通最大电流的位置。
具体地,目标组PR的供电线路上流通最大电流的位置是温度最高的区域(通过仿真或者实测可实现),此区域最易引发烧板现象,所以目标组PR对应的温度传感器放置于目标组PR的供电线路上流通最大电流的位置,用于检测目标组PR的供电线路上流通最大电流的位置的温度。
作为一种可选的实施例,板级服务器防烧板方法还包括:
将目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率进行记录,以便于故障复盘分析。
进一步地,本申请还可生成log日志,记录目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率,便于故障复盘分析,以便采取措施规避类似故障,提高服务器工作可靠性。
综上,本申请的板级服务器防烧板方法可均由服务器的BMC实现,在BMC中通过I2C地址实现电流传感器与温度传感器的对应,结合图3可知,BMC通过I2C1与I2C2相应读取每组的EFUSE与温度Sensor的信息,并根据EFUSE侦测的电流变化率及温度sensor侦测的的温度和温度变化率做出是否发生烧板的判断,然后通过I2C3信号线通知PSU做出相应的响应保护。
本申请还提供了一种板级服务器防烧板系统,应用于包含一一检测N组PR的输入电流的N组电流传感器及一一检测N组PR的供电线路温度的N组温度传感器的服务器;N为正整数;板级服务器防烧板系统包括:
预设模块,用于预先为服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;其中,目标组PR为任一组PR;
计算模块,用于从目标组PR对应的电流传感器及温度传感器中相应获取目标组PR的实际输入电流及实际供电线路温度,并根据目标组PR的实际输入电流求取目标组PR的实际输入电流变化率,且根据目标组PR的实际供电线路温度求取目标组PR的实际供电线路温度变化率;
保护模块,用于根据不同防烧板保护策略的设置情况,确定与目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照目标防烧板保护策略对服务器采取防烧板保护措施。
作为一种可选的实施例,预设模块包括:
阈值设定子模块,用于预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为目标组PR的供电线路温度设置温度安全阈值,为目标组PR的供电线路温度变化率设置温度变化率安全阈值;
第一保护策略子模块,用于当目标组PR的实际输入电流变化率超过电流变化率安全阈值,且目标组PR的供电线路温度变化率超过温度变化率安全阈值时,控制服务器的PSU立即切断供电输出;
第二保护策略子模块,用于当目标组PR的实际供电线路温度超过温度安全阈值,且目标组PR的实际输入电流变化率超过电流变化率安全阈值或目标组PR的供电线路温度变化率超过温度变化率安全阈值时,控制PSU在预设安全时间后切断供电输出;
第三保护策略子模块,用于当目标组PR的实际输入电流变化率未超过电流变化率安全阈值,或目标组PR的实际供电线路温度未超过温度安全阈值且目标组PR的供电线路温度变化率未超过温度变化率安全阈值时,控制PSU保持供电输出。
本申请提供的防烧板系统的介绍请参考上述防烧板方法的实施例,本申请在此不再赘述。
本申请还提供了一种板级服务器,包括:
一一检测N组PR的输入电流的N组电流传感器;其中,N为正整数;
一一检测N组PR的供电线路温度的N组温度传感器;
分别与N组电流传感器和N组温度传感器连接的处理器,用于在执行自身所存储的计算机程序时实现上述任一种板级服务器防烧板方法的步骤。
本申请提供的板级服务器的介绍请参考上述防烧板方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种板级服务器防烧板方法,其特征在于,应用于包含一一检测N组电源轨PR的输入电流的N组电流传感器及一一检测N组电源轨PR的供电线路温度的N组温度传感器的服务器;N为正整数;所述板级服务器防烧板方法包括:
预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;其中,所述目标组PR为任一组PR;
从所述目标组PR对应的电流传感器及温度传感器中相应获取所述目标组PR的实际输入电流及实际供电线路温度,并根据所述目标组PR的实际输入电流求取所述目标组PR的实际输入电流变化率,且根据所述目标组PR的实际供电线路温度求取所述目标组PR的实际供电线路温度变化率;
根据不同防烧板保护策略的设置情况,确定与所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照所述目标防烧板保护策略对所述服务器采取防烧板保护措施;
其中,预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略的过程,包括:预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为所述目标组PR的供电线路温度设置温度安全阈值,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值;当所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值,且所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述服务器的PSU立即切断供电输出;当所述目标组PR的实际供电线路温度超过所述温度安全阈值,且所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值或所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述PSU在预设安全时间后切断供电输出;当所述目标组PR的实际输入电流变化率未超过所述电流变化率安全阈值,或所述目标组PR的实际供电线路温度未超过所述温度安全阈值且所述目标组PR的供电线路温度变化率未超过所述温度变化率安全阈值时,控制所述PSU保持供电输出;
为目标组PR的输入电流变化率设置电流变化率安全阈值的过程,包括:根据不同器件的个体差异和信号干扰因素,确定目标组PR的输入电流变化率的误差系数;获取所述目标组PR的过流保护OCP电流值除以所述目标组PR在正常工作时的最大电流值的电流倍数;将所述电流倍数与所述误差系数相加,得到电流变化率系数;获取所述服务器在正常工作状态下从轻载到最重载时,所述目标组PR的最大输入电流变化率;将所述最大输入电流变化率乘以所述电流变化率系数,得到所述电流变化率安全阈值;
为所述目标组PR的供电线路温度设置温度安全阈值的过程,包括:根据所述目标组PR的供电线路所连接的半导体器件在温度增加下的电流承载能力,确定温度安全设定值;根据所述服务器的系统反应时间,确定温度预留值;将所述温度安全设定值减去所述温度预留值,得到所述温度安全阈值。
2.如权利要求1所述的板级服务器防烧板方法,其特征在于,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值的过程,包括:
获取所述服务器即将烧板时的第一温度变化率,并获取所述服务器的最高散热能力对应的第二温度变化率;
将所述第一温度变化率减去所述第二温度变化率,得到所述温度变化率安全阈值。
3.如权利要求1所述的板级服务器防烧板方法,其特征在于,所述目标组PR对应的温度传感器放置于所述目标组PR的供电线路上流通最大电流的位置。
4.如权利要求1至3任一项所述的板级服务器防烧板方法,其特征在于,所述板级服务器防烧板方法还包括:
将所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率进行记录,以便于故障复盘分析。
5.一种板级服务器防烧板系统,其特征在于,应用于包含一一检测N组电源轨PR的输入电流的N组电流传感器及一一检测N组电源轨PR的供电线路温度的N组温度传感器的服务器;N为正整数;所述板级服务器防烧板系统包括:
预设模块,用于预先为所述服务器内的目标组PR,在不同的输入电流变化率、供电线路温度及供电线路温度变化率下,相应设置不同的防烧板保护策略;其中,所述目标组PR为任一组PR;
计算模块,用于从所述目标组PR对应的电流传感器及温度传感器中相应获取所述目标组PR的实际输入电流及实际供电线路温度,并根据所述目标组PR的实际输入电流求取所述目标组PR的实际输入电流变化率,且根据所述目标组PR的实际供电线路温度求取所述目标组PR的实际供电线路温度变化率;
保护模块,用于根据不同防烧板保护策略的设置情况,确定与所述目标组PR的实际输入电流变化率、实际供电线路温度及实际供电线路温度变化率对应的目标防烧板保护策略,并按照所述目标防烧板保护策略对所述服务器采取防烧板保护措施;
其中,所述预设模块包括:阈值设定子模块,用于预先为目标组PR的输入电流变化率设置电流变化率安全阈值,为所述目标组PR的供电线路温度设置温度安全阈值,为所述目标组PR的供电线路温度变化率设置温度变化率安全阈值;
第一保护策略子模块,用于当所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值,且所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述服务器的PSU立即切断供电输出;
第二保护策略子模块,用于当所述目标组PR的实际供电线路温度超过所述温度安全阈值,且所述目标组PR的实际输入电流变化率超过所述电流变化率安全阈值或所述目标组PR的供电线路温度变化率超过所述温度变化率安全阈值时,控制所述PSU在预设安全时间后切断供电输出;
第三保护策略子模块,用于当所述目标组PR的实际输入电流变化率未超过所述电流变化率安全阈值,或所述目标组PR的实际供电线路温度未超过所述温度安全阈值且所述目标组PR的供电线路温度变化率未超过所述温度变化率安全阈值时,控制所述PSU保持供电输出;
为目标组PR的输入电流变化率设置电流变化率安全阈值的过程,包括:根据不同器件的个体差异和信号干扰因素,确定目标组PR的输入电流变化率的误差系数;获取所述目标组PR的过流保护OCP电流值除以所述目标组PR在正常工作时的最大电流值的电流倍数;将所述电流倍数与所述误差系数相加,得到电流变化率系数;获取所述服务器在正常工作状态下从轻载到最重载时,所述目标组PR的最大输入电流变化率;将所述最大输入电流变化率乘以所述电流变化率系数,得到所述电流变化率安全阈值;
为所述目标组PR的供电线路温度设置温度安全阈值的过程,包括:根据所述目标组PR的供电线路所连接的半导体器件在温度增加下的电流承载能力,确定温度安全设定值;根据所述服务器的系统反应时间,确定温度预留值;将所述温度安全设定值减去所述温度预留值,得到所述温度安全阈值。
6.一种板级服务器,其特征在于,包括:
一一检测N组PR的输入电流的N组电流传感器;其中,N为正整数;
一一检测N组PR的供电线路温度的N组温度传感器;
分别与N组电流传感器和N组温度传感器连接的处理器,用于在执行自身所存储的计算机程序时实现如权利要求1-4任一项所述的板级服务器防烧板方法的步骤。
CN202011406051.6A 2020-12-04 2020-12-04 一种板级服务器防烧板方法、系统及板级服务器 Active CN112506330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011406051.6A CN112506330B (zh) 2020-12-04 2020-12-04 一种板级服务器防烧板方法、系统及板级服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011406051.6A CN112506330B (zh) 2020-12-04 2020-12-04 一种板级服务器防烧板方法、系统及板级服务器

Publications (2)

Publication Number Publication Date
CN112506330A CN112506330A (zh) 2021-03-16
CN112506330B true CN112506330B (zh) 2023-04-14

Family

ID=74968523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011406051.6A Active CN112506330B (zh) 2020-12-04 2020-12-04 一种板级服务器防烧板方法、系统及板级服务器

Country Status (1)

Country Link
CN (1) CN112506330B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113075980B (zh) * 2021-03-26 2023-03-10 山东英信计算机技术有限公司 一种散热与供电模组和电源架
CN113465102B (zh) * 2021-06-11 2023-05-26 青岛海尔空调电子有限公司 空调器的控制方法、控制装置及空调器
CN114650693B (zh) * 2022-05-18 2022-08-16 深圳市泛联信息科技有限公司 一种具备智能识别功能的服务器机柜系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104269823A (zh) * 2014-10-16 2015-01-07 重庆长安汽车股份有限公司 一种过温保护方法和装置
CN107066067A (zh) * 2017-01-25 2017-08-18 郑州云海信息技术有限公司 一种板卡过流保护系统、方法、可读介质及存储控制器
CN111737077A (zh) * 2020-04-23 2020-10-02 苏州浪潮智能科技有限公司 一种服务器板卡防烧板监控系统
CN111966198A (zh) * 2020-07-17 2020-11-20 苏州浪潮智能科技有限公司 一种板级多层次过流保护装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104269823A (zh) * 2014-10-16 2015-01-07 重庆长安汽车股份有限公司 一种过温保护方法和装置
CN107066067A (zh) * 2017-01-25 2017-08-18 郑州云海信息技术有限公司 一种板卡过流保护系统、方法、可读介质及存储控制器
CN111737077A (zh) * 2020-04-23 2020-10-02 苏州浪潮智能科技有限公司 一种服务器板卡防烧板监控系统
CN111966198A (zh) * 2020-07-17 2020-11-20 苏州浪潮智能科技有限公司 一种板级多层次过流保护装置及方法

Also Published As

Publication number Publication date
CN112506330A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112506330B (zh) 一种板级服务器防烧板方法、系统及板级服务器
US7099784B2 (en) Method and apparatus for preventing overloads of power distribution networks
US10547169B2 (en) Method for improving safety of voltage regulator
US8054599B2 (en) Apparatus, system, and method for detecting a power system component failure
US9722414B2 (en) Power distribution and information handling
US10126715B2 (en) Controller having CPU abnormality detection function
US7209334B2 (en) Auto adjustment of over current protection in degraded mode
CN111968334B (zh) 火灾检测方法及不间断电源
CN114204788A (zh) 一种供电电路
CN113360345A (zh) 冗余电流值监控方法、装置、电子设备及可读存储介质
US10651642B2 (en) Techniques for monitoring passive elements in a system
TWI789113B (zh) 計算系統以及藉由計算系統中的控制器實施之方法
CN118069459A (zh) 一种服务器中防烧板的方法、装置、设备及存储介质
TWI777824B (zh) 電源監控方法及伺服器
JP6548698B2 (ja) 電力変換装置
CN117519345A (zh) 一种机组的控制方法及装置、机组
CN116027882A (zh) 调整处理器工作频率的方法、系统及处理器
CN112463539A (zh) 一种设备温度监控电路及服务器系统
CN114094550A (zh) 一种故障断路器分闸方法、装置、计算机设备和存储介质
JPS58172920A (ja) 過負荷検出装置
CN112018897A (zh) 基于重合闸的超导交流限流器状态的监控方法和装置
CN112991658A (zh) 火灾预警方法及不间断电源
SK782020U1 (sk) Zapojenie univerzálneho ochranného obvodu viacfázového meniča
JPS60109726A (ja) 連系装置
JPS61247223A (ja) 電子ヒユ−ズ回路

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant