CN112052106A - 超算设备及其控制方法、装置、存储介质与程序产品 - Google Patents

超算设备及其控制方法、装置、存储介质与程序产品 Download PDF

Info

Publication number
CN112052106A
CN112052106A CN201910489443.4A CN201910489443A CN112052106A CN 112052106 A CN112052106 A CN 112052106A CN 201910489443 A CN201910489443 A CN 201910489443A CN 112052106 A CN112052106 A CN 112052106A
Authority
CN
China
Prior art keywords
supercomputing
temperature
computing
voltage
chip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910489443.4A
Other languages
English (en)
Inventor
邹桐
张磊
李云岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bitmain Technologies Inc
Original Assignee
Bitmain Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bitmain Technologies Inc filed Critical Bitmain Technologies Inc
Priority to CN201910489443.4A priority Critical patent/CN112052106A/zh
Publication of CN112052106A publication Critical patent/CN112052106A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本公开实施例涉及一种超算设备及其控制方法、装置、存储介质与程序产品。其中,该方法包括:确定超算设备的环境温度,从而,若所述环境温度指示所述超算设备处于低温环境处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。本公开实施例提供的前述方案能够在一定程序上缓解芯片在低温环境下的运行异常问题,提高芯片的运算能力。

Description

超算设备及其控制方法、装置、存储介质与程序产品
技术领域
本公开涉及数据处理领域,尤其涉及一种超算设备及其控制方法、装置、存储介质与程序产品。
背景技术
低温环境容易导致芯片的运算能力急剧下降,甚至可能会导致芯片损坏,因此,如何在低温环境下提高芯片的运算能力就变得尤为重要。
现有技术中,若芯片在低温环境下运行异常,包括运算能力大幅下降,或者,芯片损坏等,则会对芯片执行重启,以期通过重启解决其异常问题。
但是,现有的芯片控制策略难以确实有效的缓解芯片在低温环境下的异常问题。
发明内容
本公开实施例提供了一种超算设备及其控制方法、装置、存储介质与程序产品,以期缓解芯片在低温环境下的运行异常问题,提高芯片的运算能力。
第一方面,本公开实施例提供了一种超算设备的控制方法,包括:
确定超算设备的环境温度;
若所述环境温度指示所述超算设备处于低温环境处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
第二方面,本公开实施例还提供了一种超算设备的控制装置,包括:
确定模块,用于确定超算设备的环境温度;
控制模块,用于若所述环境温度指示所述超算设备处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
第三方面,本公开实施例还提供了一种超算设备的控制装置,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行第一方面所述的超算设备的控制方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行如第一方面所述的方法。
第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如第一方面所述的方法。
第六方面,本公开实施例还提供了一种超算设备,包括:
运算芯片;
超算设备的控制装置,用于执行如第一方面所述的方法。
本公开实施例所提供的技术方案,当超算设备的环境温度指示超算设备处于低温异常状态时,即可重启超算设备,且超算设备中运算芯片的重启电压高于重启前电压,如此,能够通过重启及运算芯片的工作电压的调整,这能够使得芯片在低温环境中保持一个较高的运算能力,有效避免低温环境对芯片损坏及运算能力下降的影响。因此,本公开实施例所提供的技术方案能够在一定程度上缓解芯片在低温环境下的运行异常问题,提高了芯片的运算能力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本公开实施例提供的一种超算设备的控制方法的流程示意图;
图2为本公开实施例提供的另一种超算设备的控制方法的流程示意图;
图3为本公开实施例提供的另一种超算设备的控制方法的流程示意图;
图4为本公开实施例提供的另一种超算设备的控制方法的流程示意图;
图5为本公开实施例提供的另一种超算设备的控制方法的流程示意图;
图6为本公开实施例提供的一种超算设备的控制方装置的功能方块图;
图7为本公开实施例提供的一种超算设备的控制装置的实体结构示意图;
图8为本公开实施例提供的一种超算设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例的具体应用场景为:超算设备在低温环境下的维护场景。在超算设备的维护场景中,尤其是常温场景中,大部分的芯片运行异常情况都可以通过重启来解决,因此,现有技术中,在面对芯片运行异常的情况时,一般也采用重启芯片的处理手段,以期通过芯片重启来解决这些异常问题。
但是,在低温环境下,超算设备的芯片性能会在一定程度上下降,这可能具体表现为芯片损坏数目增加、芯片运算能力下降等异常情况,这种情况下,即便重启芯片,芯片的工作电压在低温环境下仍然较低,无法达到正常算力,也就是,在低温环境下重启异常芯片也无法有效缓解芯片的异常问题。
本公开提供的技术方案,旨在解决现有技术的如上技术问题,并提出如下解决思路:当确定超算设备处于低温异常状态时,以高于重启前电压的电压重启超算设备,通过较高的电压来提升运算芯片的运算能力。
此外,本公开实施例还对涉及到的技术名词进行解释。
超算设备,是指:超级计算机,即能够进行大量数据计算的计算设备,如数字凭证处理设备、交易凭证处理设备以及其它任意能够进行数据处理的设备等。当然,本公开中涉及的超算设备,也不仅仅是指超级计算机,也可指代普通的计算设备,如个人PC、智能终端等,对此不作赘述。
算力,是指:超算设备中运算芯片的运算能力。
在具体实现时,可以包括理论运算能力与实际运算能力,其中,理论运算能力为运算芯片在理想状态下的运算能力,实际运算能力是运算芯片在实际的环境状态下所能体现的实际运算能力。换言之,运算芯片的理论运算能力固定,而实际运算能力会随着不同场景的变化而变化,例如,运算芯片的实际运算能力会在低温下会降低。需要说明的是,本公开实施例所涉及到的算力降低等,均指其实际运算能力。
掉算力,是指:超算设备中运算芯片的实际运算能力降低。
低温异常状态,是指:超算设备处于低温环境中,且运算芯片发生了运行异常。
非低温异常状态,是指:超算设备处于非低温环境中,但运算芯片发生了运行异常。
下面以具体地实施例对本公开的技术方案以及本公开实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
实施例一
本公开实施例提供了一种超算设备的控制方法。请参考图1,该方法包括如下步骤:
S102,确定超算设备的环境温度。
在具体的是现场场景中,本公开实施例所涉及到的环境温度可以通过多种方式来采集得到。
一种可能的设计中,该步骤确定的环境温度为超算设备的入风口处的环境温度,超算设备入风口的温度即可为超算设备风扇进风口的温度。
另一种可能的设计中,该步骤确定的环境温度可以为超算设备中运算芯片的实际温度,当然,环境温度也可为超算设备中温度最高的运算芯片的实际温度。
另一种可能的设计中,该步骤确定的环境温度可以为超算设备所在环境的温度。
具体而言,基于各实现方式中所定义的环境温度的概念不同,可根据前述定义,设计在相应位置设置温度采集装置的方式实现温度采集。其中,本公开实施例所涉及到的温度采集装置可以包括但不限于:温度计、温度采集电路、温感元件(如热敏电阻等)等。例如,在前述第一种设计中,可以在超算设备的入风口处设置温度采集电路或热敏电阻的方式实现温度采集。
除直接设置温度采集装置的方法之外,还可以通过通信方式主动请求或接收已有的其他温度采集装置采集到的环境温度。例如,将超算设备所在环境的室温作为环境温度的场景中,可以通过向具备温度采集功能的设备或装置发送请求并接收反馈数据的方式获取到环境温度。
前述各设计中将采集到的温度直接作为环境温度,除此之外,还可以在采集到温度之后,进行预设处理,以作为环境温度。本公开实施例所涉及到的预设处理的方式可以包括但不限于取平均值或取最值,在具体实现场景中,该预设处理可以根据实际需要进行自定义设置。
一种设计中,可以将多个不同处采集得到的温度进行预设处理。例如,可以采集超算设备的入风口处的温度(作为第一温度)、超算设备中运算芯片的实际温度(作为第二温度)、超算设备所在环境的温度(作为第三温度),如放置超算设备的室内温度等。之后,获取第一温度、第二温度与第三温度的平均值,以作为环境温度即可;或者,获取第一温度、第二温度与第三温度中的最大值或最小值,以作为环境温度。
另一种设计中,可以针对某一处采集得到的温度进行预设处理。例如,可以在采集超算设备的入风口处的在预设时长内的温度变化情况,然后,将这些温度变化情况取平均值,以作为环境温度。其中,预设时长也可以根据实际场景自定义设置,例如,预设时长的终点为当前时刻,时长范围可自定义;又例如,预设时长可以为指定起点与终点具体时刻的一段时长,不再赘述。
S104,若所述环境温度指示所述超算设备处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
此外,需要说明的是,本公开实施例针对的实际场景为:超算设备在低温环境下运行异常的场景。其中,超算设备的运行异常场景可以包括但不限于:算力异常。
算力异常,是指超算设备中运算芯片的实际算力降低至预设算力及以下。预设算力作为确定超算设备是否运行异常的条件之一,可以根据实际场景进行预设。一种实现场景中,可以将理论算力值的百分之九十五作为预设算力,那么,若超算设备的实际算力值降低至理论算力值的百分之九十五或以下,则确定超算设备处于算力异常状态。
基于此,在执行S104之前,需要根据S102确定的环境温度来确定超算设备是否处于低温异常状态,本公开实施例提供如下实现方式:将环境温度与低温阈值进行比对,从而,根据比对结果确定超算设备是否处于低温异常状态。其中,低温阈值用于表征运算芯片开始出现运行异常情况时对应的温度,具体数值可根据实际情况灵活设定。
在一种可能的设计中,低温阈值可以为超算设备的实际算力低于理论算力值的百分之九十五时超算设备的环境温度。可知,在实际实现场景中,该低温阈值的具体数值范围可以根据实际场景自定义预设,例如,还可以预设为实际算力低于理论算力值的80%或90%时超算设备的环境温度。
一种具体的实现场景中,若环境温度低于前述低温阈值,则指示超算设备处于低温异常状态;或者,在其他的实现场景中,环境温度等于低温阈值还可以预设为指示超算设备处于低温异常状态,此时,若环境温度低于或等于前述低温阈值,则指示超算设备处于低温异常状态。
此外,若S102确定的环境温度高于(一些可能的实现场景中,可能还包含等于)前述低温阈值,则指示超算设备未处于低温异常状态,则不执行S104或采用其他方式进一步确定超算设备的当前状态。
若环境温度指示超算设备处于低温异常状态,则重启超算设备以重启运算芯片,并使得运算芯片以较高的工作电压上电,也就是,使得重启电压高于重启前电压。其中,重启电压也就是运算芯片在超算设备重启时的上电电压。
在具体实现该步骤时,可能存在如下情况:
第一种,根据重启前电压与运算芯片的理论工作电压之间的大小关系,确定重启电压,重启超算设备并以该重启电压使运算芯片上电。
此时,请参考图2所示流程,S104的实现包括如下步骤:
S1042,判断运算芯片的重启前电压是否低于理论工作电压。若是,执行S1044;若否,执行S1046。
S1044,将运算芯片的理论工作电压确定为重启电压。
若是,则运算芯片的重启前电压低于理论工作电压,此时,理论工作电压即可满足需求,因此,将理论工作电压确定为重启电压。
S1046,在高于重启前电压的电压范围内确定重启电压。
若否,则运算芯片的重启前电压等于或者高于理论工作电压,此时,将高于重启前电压的某一电压确定为重启电压。
S1048,重启超算设备并以前述S1044或S1046确定的重启电压使运算芯片上电。
第二种,根据重启前电压与预设电压差值,确定重启电压,重启超算设备并以该重启电压使运算芯片上电。
其中,预设电压差值,是指预先设置的重启前电压与重启电压之间的电压差值。从而,以该实现方式实现S104步骤时,可获取重启前电压与预设电压差值之和,以作为重启电压,再执行重启超算设备并以该重启电压使运算芯片上电步骤即可。
其中,预设电压差值可以根据实际场景自定义设置。在一种可能的设计中,所述重启电压与所述重启前电压的差值范围可以为0.5-1.5V之间。
通过前述方案,若基于环境温度能够确定超算设备处于低温异常状态,则重启超算设备且使运算芯片的重启电压高于重启前电压,如此,能够通过重启及运算芯片的工作电压的调整,这能够使得芯片在低温环境中保持一个较高的运算能力,有效避免低温环境对芯片损坏及运算能力下降的影响。因此,本公开实施例所提供的技术方案能够在一定程度上缓解芯片在低温环境下的运行异常问题,提高了芯片的运算能力。
除前述实现方式之外,还可以通过对运算芯片的异常检测配合S102确定的环境温度,来确定超算设备是否处于低温异常状态。
此时,请参考图3,S104之前,该方法还包括如下步骤:
S101,对超算设备的运算芯片进行异常检测,得到异常检测结果。
此时,S104可具体为:若所述环境温度与异常检测结果指示所述超算设备处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
需要说明的是,如图3所示的实现场景中,S101获取到的异常检测结果用于检测运算芯片是否发生异常,则此时S102可以有如下设计:
一种设计中,S102获取到的环境温度可仅用于指示超算设备是否处于低温环境。此时,S102用于实现低温判断的低温阈值,可以为预设的温度数值,例如,零摄氏度或零下N摄氏度,N为任意正数。
另一种设计中,如前述实现方式所述,S102获取到的环境温度除用于指示低温环境外,还用于指示运算芯片是否发生异常,也就是,低温阈值用于表征运算芯片开始出现运行异常情况时对应的温度,不再赘述。这种设计中,需要结合温度比较结果与异常检测结果,来确定超算设备的当前情况。
举例说明,一种实现方式中,若环境温度低于低温阈值且异常检测结果指示运行异常,则确定超算设备处于低温异常状态;若环境温度高于或等于低温阈值且异常检测结果指示运行异常,则确定处于非低温异常状态;若环境温度高于或等于低温阈值且异常检测结果指示运行正常,则确定处于正常状态。
基于前述任一设计,可得到如下几种情况:
若超算设备处于正常状态。此时,无需执行S104所述步骤,可结束,或持续监测运算设备是否发生异常情况。
若超算设备处于低温异常状态。此时,执行S104所述的步骤。其中,确定重启电压的方式可以参考前述任一实现方式,不再赘述。
若超算设备处于非低温异常状态。此时,运算芯片运行异常,但还未处于低温状态,此时,无需执行重启,可以将所述运算芯片的工作电压调整为理论工作电压。也就是,通过降低运算芯片的工作电压,来降低运算芯片的运算能力,以解决非低温环境下的算力异常情况。
在面对非低温异常问题时,可以按照设定的电压调整步进,将所述运算芯片的工作电压调整为所述理论工作电压。也就是,采用阶梯式调整的方式,将工作电压逐步调整至理论工作电压。
其中,电压调整步进为预设的电压调整策略,其可以为平均值,如,每次调整nV,n为大于0的正数;或者,也可以按照预设的规则进行自定义设置,例如,按照n1、n2、n3……(单位为V)的顺序逐步调整至理论工作电压;其中,电压调整步进的触发条件可以为达到一定的温度,也就是:若温度降低至t1,则将当前电压调整为n1,若温度降低至t2,则将当前电压调整为n2,……直至达到理论工作电压(或者,直至达到低温阈值,执行S104所述步骤)。
或者,对运算芯片的工作电压的调整也可以进行一次性调整,也就是,直接将运算芯片由当前工作电压调整至理论工作电压,这种实现方式更加便捷。
相较于现有技术中只要发生算力异常就直接重启设备的实现方式,本公开实施例能够根据超算设备的环境温度来采取不同的处理策略来解决运行异常问题。其中,针对低温环境下的异常情况,采取重启设备并提高运算芯片的工作电压的方式解决异常;而针对非低温环境下的异常情况,则仅通过降低运算芯片的工作电压的方式来解决异常。这种设计,使得针对异常情况的解决方案更加灵活,对超算设备的影响也较小。
此外,在另一种可能的实施例中,超算设备处于低温异常状态时,除直接执行S104所述的步骤之外,本公开实施例还给出了如图4所示的实现流程。如图4所示,在执行S104之前,该方法还包括:
S103,对所述运算芯片进行预热处理。
具体而言,也就是,对所述运算芯片进行预热处理,直至所述运算芯片的温度达到标定温度。其中,所述标定温度可以根据实际场景自定义设置,而该预热过程的目的在于提高运算芯片的启动概率,因此,在一种可能的实现场景中,所述标定温度可以为所述运算芯片的启动概率达到预设概率阈值时的温度。
在执行前述预热处理的过程中,运算芯片会由一个小的功耗负载慢慢加热,直至运算芯片的温度达到标定温度,之后,再执行重启运算设备的步骤,其具体操作流程与前述流程一致,不再赘述。此外,在该预热处理的执行过程中,风扇的转速会调低到最低转速运行。
通过前述处理,可以使运算芯片在低温的情况下先自加热一下,提高芯片的启动概率,这也在一定程度上提高了解决低温异常问题的成功率。
此外,在另一种可能的实施例中,在执行前述S104流程后,还可以进一步对重启后的超算设备的运行情况进行监测,以便于根据其运行情况采取相应的处理。
此时,请参考图5所示流程,如图5所示,该方法还包括如下步骤:
S1062,确定所述超算设备在重启后的温度变化情况。
S1064,判断所述温度变化情况指示的超算设备是否运行正常;若是,执行S1066;若否,执行S102。
S1066,降低所述运算芯片的工作电压。
此时,所述温度变化情况指示所述超算设备运行正常,则说明通过前述处理,已经解决了运算芯片的运行异常问题,运算芯片无需再采用较高的工作电压进行工作,此时,可适当降低运算芯片的工作电压,以节省资源,可使得整机的功耗回归到理论功耗的范围内。
反之,若所述温度变化情况指示所述超算设备运行异常,则可重复执行如图1-4任一实现方式所示出的前述步骤,不再赘述。
通过如图5所示的实现方案,能够在执行前述控制策略后,对重启后的运算芯片的运行情况进行监测,如此,避免了单次执行前述方案无法解决低温异常问题的情况,有利于提高该问题的解决几率。
此外,为了避免前述方案无法解决该低温异常问题,本公开实施例中,还可以进一步对判断出的重启后超算设备运行异常的次数进行记录,从而,若该次数达到预设次数阈值后,不再执行前述方案。此时,通过本公开实施例提供的前述方案已无法解决该低温异常问题。
在一种可能的设计中,该方法还可以包括如下步骤:输出提示信息,该提示信息用于提示经M次(M为预设的次数阈值)处理后仍存在运行异常问题。如此,维护人员可根据该输出的提示信息采取其他维护处理工作。
可以理解的是,上述实施例中的部分或全部步骤或操作仅是示例,本公开实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照上述实施例呈现的不同的顺序来执行,并且有可能并非要执行上述实施例中的全部操作。
实施例二
基于上述实施例一所提供的超算设备的控制方法,本公开实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
本公开实施例提供了一种超算设备的控制装置,请参考图6,该超算设备的控制装置600,包括:
确定模块61,用于确定超算设备的环境温度;
控制模块62,用于若所述环境温度指示所述超算设备处于低温环境处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
一种可能的设计中,若所述环境温度低于低温阈值,指示所述超算设备处于低温环境处于低温异常状态;
其中,所述低温阈值为所述超算设备的实际算力值低于理论算力值时所述超算设备的环境温度。
另一种可能的设计中,所述低温阈值为所述超算设备的实际算力值低于理论算力值的百分之九十五时所述超算设备的环境温度。
另一种可能的设计中,所述确定模块61,具体用于:
确定所述超算设备的入风口处的环境温度。
另一种可能的设计中,所述重启电压与所述重启前电压的差值范围为0.5-1.5V。
另一种可能的设计中,所述控制模块62,还用于:
若所述环境温度指示所述超算设备处于非低温环境处于非低温异常状态,将所述运算芯片的工作电压调整为理论工作电压。
另一种可能的设计中,所述控制模块62,具体用于:
按照设定电压调整步进,将所述运算芯片的工作电压调整为所述理论工作电压。
另一种可能的设计中,所述超算设备的控制装置600还包括:
预热模块(图6未示出),用于在重启所述超算设备之前,对所述运算芯片进行预热处理。
其中,另一种可能的设计中,所述预热模块(图6未示出),具体用于:
对所述运算芯片进行预热处理,直至所述运算芯片的温度达到标定温度;所述标定温度为所述运算芯片的启动概率达到预设概率阈值时的温度。
另一种可能的设计中,所述确定模块61,还用于确定所述超算设备在重启后的温度变化情况;
所述控制模块62,还用于若所述温度变化情况指示所述超算设备运行正常,降低所述运算芯片的工作电压。
图6所示实施例的超算设备的控制装置600可用于执行上述方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述,可选的,该超算设备的控制装置600可以设置于超算设备中。
应理解以上图6所示超算设备的控制装置600的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,控制模块62可以为单独设立的处理元件,也可以集成在超算设备的控制装置600中,例如超算设备的某一个芯片中实现,此外,也可以以程序的形式存储于超算设备的控制装置600的存储器中,由超算设备的控制装置600的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个微处理器(digital singnal processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central ProcessingUnit,CPU)或其它可以调用程序的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
并且,本公开实施例提供了一种超算设备的控制装置,请参考图7,该超算设备的控制装置600,包括:
至少一个处理器610;以及
与所述至少一个处理器通信连接的存储器620;其中,
所述存储器620存储有可被所述至少一个处理器610执行的指令,所述指令被所述至少一个处理器610执行时,使所述至少一个处理器610执行实施例一任一项所述的方法。
其中,超算设备的控制装置600中处理器610的数目可以为一个或多个,处理器610也可以称为处理单元,可以实现一定的控制功能。所述处理器610可以是通用处理器或者专用处理器等。在一种可选地设计中,处理器610也可以存有指令,所述指令可以被所述处理器610运行,使得所述超算设备的控制装置600执行上述方法实施例中描述的方法。
在又一种可能的设计中,超算设备的控制装置600可以包括电路,所述电路可以实现前述方法实施例中发送或接收或者通信的功能。
可选地,所述超算设备的控制装置600中存储器620的数目可以为一个或多个,存储器620上存有指令或者中间数据,所述指令可在所述处理器610上被运行,使得所述超算设备的控制装置600执行上述方法实施例中描述的方法。可选地,所述存储器620中还可以存储有其他相关数据。可选地处理器610中也可以存储指令和/或数据。所述处理器610和存储器620可以单独设置,也可以集成在一起。
此外,如图7所示,在该超算设备的控制装置600中还设置有收发器630,其中,所述收发器630可以称为收发单元、收发机、收发电路、或者收发器等,用于与测试设备或其他终端设备进行数据传输或通信,在此不再赘述。
如图7所示,存储器620、处理器610与收发器630通过总线连接并通信。
若该超算设备的控制装置600用于实现对应于图1-图5中的方法时,例如,可以由收发器630与温度采集装置通信以获取温度数据。而处理器610用于完成相应的确定或者控制操作,可选的,还可以在存储器620中存储相应的指令。各个部件的具体的处理方式可以参考前述实施例的相关描述。
此外,本公开实施例提供了一种可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行如实施例一任一实现方式所述的方法。
本公开实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如实施例一任一实现方式所述的方法。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以及,本公开实施例提供了一种超算设备,请参考图8,该超算设备800包括:
运算芯片810;
超算设备的控制装置600,用于执行如实施例一任一实现方式所述的方法。
通常情况下,超算设备还可包括机箱以及设置在机箱上的风扇等,且,机箱内(或外)可设置有运算板和控制板,运算板上可包括运算芯片,控制板上可包括前述超算设备的控制装置,即相应的控制器或者控制芯片,超算设备的控制装置可运算芯片可电连接在一起,以实现信息交互,超算设备的控制装置还可与风扇相连,以对风扇的转速进行相应的调整,对此不作赘述。
由于本实施例中的各模块能够执行实施例一所示的方法,本实施例未详细描述的部分,可参考对实施例一的相关说明。
此外,当用于本公开实施例中时,虽然术语“第一”、“第二”等可能会在本公开实施例中使用以描述各元件,但这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区别开。比如,在不改变描述的含义的情况下,第一元件可以叫做第二元件,并且同样第,第二元件可以叫做第一元件,只要所有出现的“第一元件”一致重命名并且所有出现的“第二元件”一致重命名即可。第一元件和第二元件都是元件,但可以不是相同的元件。
本公开实施例中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本公开实施例中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本公开实施例中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。
所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现,该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联,该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中,这样计算机可读代码就可以分布式存储并执行。
上述技术描述可参照附图,这些附图形成了本公开实施例的一部分,并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例,但这些实施例是非限制性的;这样就可以使用其它的实施例,并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如,流程图中所描述的操作顺序是非限制性的,因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子,在若干实施例中,在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的,或是可删除的。另外,某些步骤或功能可以添加到所公开的实施例中,或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。
另外,上述技术描述中使用术语以提供所描述的实施例的透彻理解。然而,并不需要过于详细的细节以实现所描述的实施例。因此,实施例的上述描述是为了阐释和描述而呈现的。上述描述中所呈现的实施例以及根据这些实施例所公开的例子是单独提供的,以添加上下文并有助于理解所描述的实施例。上述说明书不用于做到无遗漏或将所描述的实施例限制到本公开的精确形式。根据上述教导,若干修改、选择适用以及变化是可行的。在某些情况下,没有详细描述为人所熟知的处理步骤以避免不必要地影响所描述的实施例。

Claims (24)

1.一种超算设备的控制方法,其特征在于,包括:
确定超算设备的环境温度;
若所述环境温度指示所述超算设备处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
2.根据权利要求1所述的超算设备的控制方法,其特征在于,若所述环境温度低于低温阈值,指示所述超算设备处于低温异常状态;
其中,所述低温阈值为所述超算设备的实际算力值低于理论算力值时所述超算设备的环境温度。
3.根据权利要求2所述的超算设备的控制方法,其特征在于,所述低温阈值为所述超算设备的实际算力值低于理论算力值的百分之九十五时所述超算设备的环境温度。
4.根据权利要求1所述的超算设备的控制方法,其特征在于,所述确定超算设备的环境温度,包括:
确定所述超算设备的入风口处的环境温度。
5.根据权利要求1所述的超算设备的控制方法,其特征在于,所述重启电压与所述重启前电压的差值范围为0.5-1.5V。
6.根据权利要求1所述的超算设备的控制方法,其特征在于,所述超算设备的控制方法还包括:
若所述环境温度指示所述超算设备处于非低温异常状态,将所述运算芯片的工作电压调整为理论工作电压。
7.根据权利要求6所述的超算设备的控制方法,其特征在于,所述将所述运算芯片的工作电压调整为理论工作电压,包括:
按照设定电压调整步进,将所述运算芯片的工作电压调整为所述理论工作电压。
8.根据权利要求1所述的超算设备的控制方法,其特征在于,所述重启所述超算设备之前,所述超算设备的控制方法还包括:
对所述运算芯片进行预热处理。
9.根据权利要求8所述的超算设备的控制方法,其特征在于,所述对所述运算芯片进行预热处理,包括:
对所述运算芯片进行预热处理,直至所述运算芯片的温度达到标定温度;所述标定温度为所述运算芯片的启动概率达到预设概率阈值时的温度。
10.根据权利要求1所述的超算设备的控制方法,其特征在于,所述超算设备的控制方法还包括:
确定所述超算设备在重启后的温度变化情况;
若所述温度变化情况指示所述超算设备运行正常,降低所述运算芯片的工作电压。
11.一种超算设备的控制装置,其特征在于,包括:
确定模块,用于确定超算设备的环境温度;
控制模块,用于若所述环境温度指示所述超算设备处于低温异常状态,重启所述超算设备,其中,所述超算设备中运算芯片的重启电压高于重启前电压。
12.根据权利要求11所述的超算设备的控制装置,其特征在于,若所述环境温度低于低温阈值,指示所述超算设备处于低温异常状态;
其中,所述低温阈值为所述超算设备的实际算力值低于理论算力值时所述超算设备的环境温度。
13.根据权利要求12所述的超算设备的控制装置,其特征在于,所述低温阈值为所述超算设备的实际算力值低于理论算力值的百分之九十五时所述超算设备的环境温度。
14.根据权利要求11所述的超算设备的控制装置,其特征在于,所述确定模块,具体用于:
确定所述超算设备的入风口处的环境温度。
15.根据权利要求11所述的超算设备的控制装置,其特征在于,所述重启电压与所述重启前电压的差值范围为0.5-1.5V。
16.根据权利要求11所述的超算设备的控制装置,其特征在于,所述控制模块,还用于:
若所述环境温度指示所述超算设备处于非低温异常状态,将所述运算芯片的工作电压调整为理论工作电压。
17.根据权利要求16所述的超算设备的控制装置,其特征在于,所述控制模块,具体用于:
按照设定电压调整步进,将所述运算芯片的工作电压调整为所述理论工作电压。
18.根据权利要求11所述的超算设备的控制装置,其特征在于,所述超算设备的控制装置还包括:
预热模块,用于在重启所述超算设备之前,对所述运算芯片进行预热处理。
19.根据权利要求18所述的超算设备的控制装置,其特征在于,所述预热模块,具体用于:
对所述运算芯片进行预热处理,直至所述运算芯片的温度达到标定温度;所述标定温度为所述运算芯片的启动概率达到预设概率阈值时的温度。
20.根据权利要求11所述的超算设备的控制装置,其特征在于,
所述确定模块,还用于确定所述超算设备在重启后的温度变化情况;
所述控制模块,还用于若所述温度变化情况指示所述超算设备运行正常,降低所述运算芯片的工作电压。
21.一种超算设备的控制装置,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行权利要求1-10任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令设置为执行权利要求1-10任一项所述的方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-10任一项所述的方法。
24.一种超算设备,其特征在于,包括:
运算芯片;
超算设备的控制装置,用于执行权利要求1-10任一项所述的方法。
CN201910489443.4A 2019-06-06 2019-06-06 超算设备及其控制方法、装置、存储介质与程序产品 Pending CN112052106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910489443.4A CN112052106A (zh) 2019-06-06 2019-06-06 超算设备及其控制方法、装置、存储介质与程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910489443.4A CN112052106A (zh) 2019-06-06 2019-06-06 超算设备及其控制方法、装置、存储介质与程序产品

Publications (1)

Publication Number Publication Date
CN112052106A true CN112052106A (zh) 2020-12-08

Family

ID=73609325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910489443.4A Pending CN112052106A (zh) 2019-06-06 2019-06-06 超算设备及其控制方法、装置、存储介质与程序产品

Country Status (1)

Country Link
CN (1) CN112052106A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070745A1 (en) * 2008-09-18 2010-03-18 Mitac Technology Corp. Computer system and method for booting under low temperature state
CN102262430A (zh) * 2010-05-28 2011-11-30 微软公司 在低温下自动启动服务器
CN202601142U (zh) * 2012-02-22 2012-12-12 京东方科技集团股份有限公司 一种显示器驱动电路及显示装置
CN105589504A (zh) * 2014-10-22 2016-05-18 中兴通讯股份有限公司 一种芯片核电压调节方法及装置
CN107066017A (zh) * 2017-05-31 2017-08-18 深圳市华星光电技术有限公司 薄膜晶体管电源控制装置及其控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100070745A1 (en) * 2008-09-18 2010-03-18 Mitac Technology Corp. Computer system and method for booting under low temperature state
CN102262430A (zh) * 2010-05-28 2011-11-30 微软公司 在低温下自动启动服务器
CN202601142U (zh) * 2012-02-22 2012-12-12 京东方科技集团股份有限公司 一种显示器驱动电路及显示装置
CN105589504A (zh) * 2014-10-22 2016-05-18 中兴通讯股份有限公司 一种芯片核电压调节方法及装置
CN107066017A (zh) * 2017-05-31 2017-08-18 深圳市华星光电技术有限公司 薄膜晶体管电源控制装置及其控制方法

Similar Documents

Publication Publication Date Title
US8812831B2 (en) Fan control method and apparatus for adjusting initial fan speed based on a discreteness level of installed devices and calibrating fan speed according to threshold power and adjusted initial speed
US20150005946A1 (en) Multiple level computer system temperature management
US10216550B2 (en) Technologies for fast boot with adaptive memory pre-training
US9377844B2 (en) Memory refresh rate throttling for saving idle power
CN104899109A (zh) 一种操作系统下获取cpu温度的方法
CN106371540B (zh) 系统电源管理方法、芯片及电子设备
CN110941580B (zh) 读取信息的方法和串行小型计算机系统接口sas扩展器
CN106897177B (zh) 一种基于移动终端指纹系统短路检测和保护的方法及系统
CN113342148A (zh) 一种板卡过热保护方法、系统、业务卡、主控卡及介质
CN114064430A (zh) 一种计算机温度异常处理方法及系统
CN107390852B (zh) 一种控制方法、电子设备及计算机可读存储介质
US9116699B2 (en) Memory refresh rate throttling for saving idle power
US9722414B2 (en) Power distribution and information handling
CN109185208B (zh) 一种风扇调速方法及相关装置
JP2019012498A (ja) 電子制御装置
CN112052106A (zh) 超算设备及其控制方法、装置、存储介质与程序产品
CN117387224A (zh) 用于制备热水的热泵机组的控制方法及相关设备
US9584880B2 (en) Method for the efficient transmission of data
CN111045844A (zh) 一种故障降级方法与装置
US7949898B2 (en) Multi-microprocessor system and control method for the same
US9405629B2 (en) Information processing system, method for controlling information processing system, and storage medium
CN107179911A (zh) 一种重启管理引擎的方法和设备
CN107977294B (zh) 监控电子元件温度的方法及装置
CN114860512A (zh) 车辆的soc芯片工作状态检测方法、装置、设备和系统
US8543755B2 (en) Mitigation of embedded controller starvation in real-time shared SPI flash architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination