CN113377188B - 存储服务器温度控制方法、装置及设备 - Google Patents

存储服务器温度控制方法、装置及设备 Download PDF

Info

Publication number
CN113377188B
CN113377188B CN202110728115.2A CN202110728115A CN113377188B CN 113377188 B CN113377188 B CN 113377188B CN 202110728115 A CN202110728115 A CN 202110728115A CN 113377188 B CN113377188 B CN 113377188B
Authority
CN
China
Prior art keywords
hard disk
temperature
disk area
speed
storage server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110728115.2A
Other languages
English (en)
Other versions
CN113377188A (zh
Inventor
李世豪
魏振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Huaqin Electronic Technology Co ltd
Original Assignee
Nanchang Huaqin Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Huaqin Electronic Technology Co ltd filed Critical Nanchang Huaqin Electronic Technology Co ltd
Priority to CN202110728115.2A priority Critical patent/CN113377188B/zh
Publication of CN113377188A publication Critical patent/CN113377188A/zh
Application granted granted Critical
Publication of CN113377188B publication Critical patent/CN113377188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • G06F1/3268Power saving in hard disk drive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本申请提供一种存储服务器温度控制方法、装置及设备。该存储服务器温度控制方法包括:获取每个温度传感器采集的第一温度;若第一温度传感器采集的第一温度大于或等于第一预设温度阈值,则控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;所述第二速度大于所述第一速度;所述第一温度传感器为所述至少两个硬盘区域中的任一个温度传感器。本申请可以有针对性地对发热硬盘进行降温,进而降低存储服务器的整体功耗。

Description

存储服务器温度控制方法、装置及设备
技术领域
本申请涉及温度控制技术领域,尤其涉及一种存储服务器温度控制方法、装置及设备。
背景技术
存储服务器的机箱中配置有大量硬盘,这些硬盘在工作时会产生热量。而机箱环境又相对封闭,不利于热量散发,所以存储服务器的机箱中同时配置有大量风扇,用于给硬盘降温。
目前的存储服务器的超温工况保护方法是:当服务器中的至少一个硬盘的工作温度到达触发风扇全速转动的临界温度时,服务器中的所有风扇都开始全速运转,给整机降温。
然而,上述超温工况保护方法导致存储服务器进行超温工况保护时的功耗过高。
发明内容
本申请提供一种存储服务器温度控制方法、装置及设备,用以解决现有的超温工况保护方法下存储服务器的功耗过高的问题。
第一方面,本申请提供一种存储服务器温度控制方法,所述存储服务器包括多个硬盘和多个风扇,所述多个硬盘在物理空间上划分为至少两个硬盘区域,每个所述硬盘区域对应至少一个风扇,所述风扇采用第一速度为对应的硬盘区域的硬盘进行降温;每个所述硬盘区域设置有至少一个温度传感器,用于采集所述硬盘区域的温度;所述方法包括:
获取每个温度传感器采集的第一温度;
若第一温度传感器采集的第一温度大于或等于第一预设温度阈值,则控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;所述第二速度大于所述第一速度;所述第一温度传感器为所述至少两个硬盘区域中的任一个温度传感器。
可选地,所述控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转之后,所述方法还包括:
获取所述第一温度传感器采集的第二温度;
若所述第二温度大于或等于第二预设温度阈值,则输出所述第一硬盘区域的温度告警信息;所述第二预设温度阈值大于所述第一预设温度阈值。
可选地,所述输出所述第一硬盘的温度告警信息之后,所述方法还包括:
获取所述第一温度传感器采集的第三温度;
若所述第三温度大于或等于第三预设温度阈值,则获取采用轮询方式得到的所述第一硬盘区域中的硬盘的温度;所述第三预设温度阈值大于所述第二预设温度阈值;
若基于所述第一硬盘区域中的硬盘的温度,确定所述第一硬盘区域中存在超温的第一硬盘,则停止对所述第一硬盘的访问操作。
可选地,所述停止对所述第一硬盘进行访问操作之后,所述方法还包括:
在间隔预设时长后再次获取所述第一硬盘的温度;
若再次获取的所述第一硬盘的温度表征所述第一硬盘超温,则停止为所述第一硬盘供电。
可选地,所述停止为所述第一硬盘供电,包括:
停止为所述第一硬盘供电,并输出维护信息;所述维护信息用于指示对所述第一硬盘进行维护处理。
可选地,所述在间隔预设时长后再次获取所述第一硬盘的温度之后,所述方法还包括:
若再次获取的所述第一硬盘的温度表征所述第一硬盘未超温,则恢复对所述第一硬盘的访问操作。
可选地,所述获取所述第一温度传感器采集的第三温度之后,所述方法还包括:
若所述第三温度小于所述第一预设温度阈值,则控制所述第一硬盘区域对应的风扇按照所述第一速度运转。
可选地,所述获取所述第一温度传感器采集的第二温度之后,还包括:
若所述第二温度小于所述第一预设温度阈值,则控制所述第一硬盘区域对应的风扇按照所述第一速度运转。
第二方面,本申请提供一种存储服务器温度控制装置,所述存储服务器包括多个硬盘和多个风扇,所述多个硬盘在物理空间上划分为至少两个硬盘区域,每个所述硬盘区域对应至少一个风扇,所述风扇采用第一速度为对应的硬盘区域的硬盘进行降温;每个所述硬盘区域设置有至少一个温度传感器,用于采集所述硬盘区域的温度;所述装置包括:
第一获取模块,用于获取每个温度传感器采集的第一温度;
控制模块,用于在第一温度传感器采集的第一温度大于或等于第一预设温度阈值时,控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;所述第二速度大于所述第一速度;所述第一温度传感器为所述至少两个硬盘区域中的任一个温度传感器。
第三方面,本申请提供一种电子设备,所述电子设备包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行第一方面中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面中任一项所述的存储服务器温度控制方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
本申请提供的存储服务器温度控制方法、装置及设备,通过将存储服务器中的多个硬盘和多个风扇进行区域划分,使得某个硬盘区域温度升高至预设温度阈值时,与该硬盘区域所对应的风扇可以独立于其他风扇,单独提高风扇转速,从而实现有针对性地对温度超过预设温度阈值的硬盘进行降温,进而降低存储服务器的整体功耗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请实施例提供的一种存储服务器温度控制方法适用的连接结构示意图;
图2是本申请实施例提供的一种存储服务器温度控制方法的流程示意图;
图3是本申请实施例提供的一种用户终端界面的示例图;
图4是本申请实施例提供的另一种用户终端界面的示例图;
图5是本申请实施例提供的一种存储服务器温度控制装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
存储服务器:是指具有多个用于存放程序和数据的硬盘的服务器。存储服务器包括复杂可编程逻辑器件(Complex Programmable logic device,CPLD)、多个硬盘、多个风扇。其中,多个硬盘放置在存储服务器的机箱中,形成一个多行、多列的硬盘阵列。机箱侧壁、底部和/或顶部设置有多个风扇。
应理解,本申请对存储服务器所包括的硬盘数量不进行限定,例如可以是硬盘数量较多的高密度存储服务器。即,存储服务器机箱中的硬盘数量较其他存储服务器更多、硬盘间距较其他存储服务器更小的存储服务器。
存储服务器中的CPLD与硬盘和风扇电连接,用于控制存储服务器的风扇转速、硬盘访问、硬盘电力供应等。示例性地,存储服务器可以设置有一主板,CPLD可以设置在该主板上。
目前,对存储服务器中的硬盘进行访问操作,易使硬盘产生热量,如果硬盘温度持续升高至规格温度(即,导致硬盘超温的温度)后,会引起硬盘损坏、数据丢失等严重后果。而存储服务器的机箱环境相对封闭,不利于热量散发。目前主要通过超温工况保护,避免硬盘出现超温的情况。
具体地,利用基板管理控制器(Baseboard Manager Controller,BMC)监测存储服务器中的硬盘温度,当存储服务器中的至少一个硬盘的工作温度到达触发风扇全速转动的临界温度(该温度小于硬盘超温对应的温度)时,BMC就通过CPLD控制存储服务器中的所有风扇开始全速运转,给整机降温。其中,BMC是指,可以获取存储服务器的硬盘温度,并可以与存储服务器的CPLD交互,从而实现对存储服务器的风扇转速和硬盘上、下电等进行管理的设备。
然而,上述超温工况保护方法,会导致存储服务器在进行超温工况保护时的功耗过高。
通过监测存储服务器中的硬盘温度发现:存储服务器中的部分硬盘的工作温度到达触发风扇全速转动的临界温度时,其余部分的硬盘的工作温度并未到达该临界温度,并不需要风扇全速转动对此部分硬盘进行降温。
由此,本申请提供了一种存储服务器温度控制方法。该方法能够仅对温度异常的硬盘进行降温,而无需对该存储服务器的所有硬盘进行降温,从而可以有针对性地对发热硬盘进行降温,进而降低存储服务器的整体功耗。
本申请提供的存储服务器温度控制方法,可以适用于图1所示的连接结构示意图。如图1所示,该连接结构中包括:多个温度传感器、BMC、CPLD、多个风扇和多个硬盘。
如图1所示,多个硬盘在物理空间上可以划分为多个硬盘区域,每个硬盘区域包括至少一个硬盘,每个硬盘区域至少对应一个风扇。应理解,此处所说的物理空间指的是存储服务器的机箱内的物理空间,并非是硬盘自己的物理空间。
每个硬盘区域设置有至少一个温度传感器,用于采集该硬盘区域的温度。示例性地,多个温度传感器可以设置在存储服务器机箱外壳的内侧壁上,或者设置在对应的硬盘区域的某一硬盘的外壁上,或者,设置承载该硬盘区域的硬盘的支撑件的某一位置上。图1仅是示意性地给出了硬盘、硬盘区域、风扇一种可能的设置方式。
其中,温度传感器可以监测存储服务器机箱中各个硬盘区域的温度,并反馈给BMC。BMC可以基于温度传感器反馈的硬盘区域的温度,通过CPLD执行超温工况保护。
上述图1所示的连接结构,以及下述方法实施例都是以BMC作为执行主体进行示例说明。其中,温度传感器可以是隶属于BMC或者存储服务器的,或者是独立于BMC和存储服务器之外单独存在的。
应理解,本申请的方法也可以由存储服务器自己实现,在该实现方式下,执行主体可以是存储服务器的CPLD,也可以是在存储服务器上新增的一个处理组件,例如是与CPLD功能相同的处理组件。在该实现方式下,温度传感器可以是隶属于存储服务器的,也可以是独立于存储服务器之外单独存在的。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图3是本申请实施例提供的一种存储服务器温度控制方法的流程示意图。如图3所示,本申请该方法可以包括:
S100,获取每个温度传感器采集的第一温度。
示例性地,BMC可以请求获取每个温度传感器采集的第一温度。或者,温度传感器也可以周期性地将自己在该周期采集到的第一温度上报给BMC。
S101,判断第一温度传感器采集的第一温度是否大于或等于第一预设温度阈值。
第一温度传感器可以是多个温度传感器中的任一温度传感器,第一温度传感器所在的硬盘区域可以称为第一硬盘区域。若第一温度传感器采集的第一温度大于或等于第一预设温度阈值,说明该第一硬盘区域温度异常,需要风扇提高转速给其降温,则执行步骤S103。若第一温度传感器采集的第一温度小于第一预设温度阈值,说明该第一硬盘区域温度处于正常范围内,不需要提高风扇转速,则执行S102。
S102,控制风扇继续按照第一速度运转。
其中,第一速度是指存储服务器预设的风扇转速。风扇的第一速度小于其最大速度。例如,当风扇的最大速度是5000r/min时,风扇的第一速度可以是2000r/min。此处所说的第一速度也可以理解为是硬盘处于正常温度时,存储服务器的风扇所采用的速度。
S103,控制第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转。
其中,第一温度传感器为至少两个硬盘区域中的任一个温度传感器。
示例性地,BMC可以生成第一控制指令,用于指示CPLD将该第一硬盘区域对应的至少一个风扇的运转速度调整为第二速度。CPLD在接收到该第一控制指令后,可以按照指示控制第一硬盘区域对应的风扇按照第二速度运转。
其中,第二速度大于第一速度、小于或等于风扇的最大速度。例如,当风扇的最大速度是5000r/min、第一速度是2000r/min时,第二速度可以是(2000,5000]r/min范围内的任一值,例如可以是5000r/min。
本申请实施例提供的存储服务器温度控制方法,通过将存储服务器中的多个硬盘和多个风扇进行区域划分,使得某个硬盘区域温度升高至第一预设温度阈值时,与该硬盘区域所对应的风扇可以独立于其他风扇,单独提高风扇转速至第二速度,从而实现有针对性地对温度超过第一预设温度阈值的硬盘进行降温,进而降低存储服务器的整体功耗。
在上述实施例的基础上,作为一种可能的实现方式,在上述步骤S103之后,即在提高温度异常的第一硬盘区域的风扇的速度之后,还可以对温度异常的第一硬盘区域执行如下操作:
S104,获取第一温度传感器采集的第二温度。
即,在提高温度异常的第一硬盘区域的风扇的速度之后,可以再次获取该第一硬盘区域的温度。示例性的,可以实时获取该第一硬盘区域的温度,也可以在间隔预设时长后,再次获取该第一硬盘区域的温度。关于如何获取可以参见步骤S100的描述,在此不再赘述。
S105,判断第二温度是否大于或等于第二预设温度阈值。
若第二温度大于或等于第二预设温度阈值,说明风扇以第二速度运转仍不能有效控制第一硬盘区域的温度继续升高,该硬盘区域的硬盘可能存在异常情况,需要通知运维人员检查异常,则执行步骤S106;若第二温度小于第二预设温度阈值,说明利用风扇以第二速度运转后,该硬盘区域的温度得到有效控制,则返回执行步骤S101。
其中,第二预设温度阈值大于第一预设温度阈值。
S106,输出第一硬盘区域的温度告警信息。
示例性地,当BMC配置有显示屏和音响时,BMC可以通过报警音提示的方式提醒机房中的运维人员检查异常,并在显示屏上显示该第一硬盘区域的位置信息,例如显示该第一硬盘区域的区域编号。
或者,当BMC集成了远程通信功能时,BMC还可以将需要检查异常情况的第一硬盘区域的位置信息发送给运维人员的终端。示例性地,运维人员终端显示的异常情况界面如图3所示。
当然,也可以采用现有的其他能够输出第一硬盘区域的温度告警信息的方式输出该信息,本申请不再一一列举。
本申请实施例提供的存储服务器温度控制方法,在第一预设温度阈值的基础上,进一步设置了第二预设温度阈值,从而可以基于该第二预设温度阈值,对温度异常的硬盘区域进行二次判断,以核实是否有效控制温度异常的硬盘区域的温度,提高了温度控制的准确性。另外,该方法针对风扇以第二速度运转仍不能有效控制温度继续升高的第一硬盘区域,及时通知运维人员进行异常情况检查,有效避免了该硬盘区域的温度持续升高导致的硬盘损坏、数据丢失等严重后果。
在上述实施例的基础上,作为一种可能的实现方式,在上述步骤S106之后,即在输出第一硬盘区域的温度告警信息、指示风扇以第二速度运转仍不能有效控制该第一硬盘区域的温度上升之后,还可以对第一硬盘区域执行如下操作:
S107,获取第一温度传感器采集的第三温度。
即,在输出第一硬盘区域的温度告警信息、指示风扇以第二速度运转仍不能有效控制该第一硬盘区域的温度上升之后,可以再次获取该第一硬盘区域的温度。示例性的,可以实时获取该第一硬盘区域的温度,也可以在间隔预设时长后,再次获取该第一硬盘区域的温度。关于如何获取可以参见步骤S100的描述,在此不再赘述。
S108,判断第三温度是否大于或等于第三预设温度阈值。
若第三温度大于或等于第三预设温度阈值,说明该第一硬盘区域的温度持续升高,则执行步骤S109;若第三温度小于第三预设温度阈值,说明该第一硬盘区域的温度没有持续升高了,则返回执行步骤S105。
其中,第三预设温度阈值大于第二预设温度阈值。
S109,获取采用轮询方式得到的所述第一硬盘区域中的硬盘的温度。
其中,硬盘的温度是指硬盘中自带的温度传感器件测量得到的、CPLD可以直接获取到的温度。
示例性地,BMC可以生成一个轮询指令,指示CPLD对该第一硬盘区域中的硬盘的温度进行轮询。CPLD在接收到该指令后,可以轮询该第一硬盘区域中的硬盘的温度,并将轮询得到的该硬盘区域中所有硬盘的温度数据发送给BMC。BMC接收到该数据后执行步骤S110。
作为一种可能的实现方式,CPLD将轮询得到的该硬盘区域中所有硬盘的温度数据发送给BMC,可以是CPLD依次轮询该第一硬盘区域中的硬盘的温度后,一并将该硬盘区域中所有硬盘的温度数据打包发送给BMC。
作为另一种可能的实现方式,CPLD将轮询得到的该硬盘区域中所有硬盘的温度数据发送给BMC,也可以是CPLD每轮询一定数量的硬盘的温度,就给BMC打包发送此次轮询的一定数量的硬盘的温度数据。其中,一定数量为至少一个、至多等于该硬盘区域的硬盘总数。
示例性地,在该实现方式下,当BMC从已发送的硬盘的温度数据中确定出超温的第一硬盘后,BMC可以发送一个指令,指示CPLD停止轮询该第一硬盘区域中的硬盘的温度。
S110,判断该第一硬盘区域中是否存在超温的第一硬盘。
作为一种可能的实现方式,BMC接收到CPLD发送的第一硬盘区域中硬盘的温度后,可以判断该硬盘区域中的各个硬盘是否超温。如果存在超温硬盘,BMC可以在确定出超温的第一硬盘后,执行步骤S111。如果该第一硬盘区域中不存在超温硬盘,则返回执行步骤S108。
应理解,虽然此处是以BMC基于第一硬盘区域中的硬盘的温度,确定第一硬盘区域中存在超温的第一硬盘为例进行描述的,具体实现时,也可以由CPLD直接根据轮询得到的该硬盘区域中所有硬盘的温度数据,判断出该硬盘区域中的各个硬盘是否存在超温情况。如果存在超温硬盘,CPLD可以直接确定出超温的第一硬盘,并将该第一硬盘的身份识别信息(例如,硬盘编号)发送给BMC,BMC在接收到该信息后,可以执行步骤S111。如果轮询的结果是该硬盘区域中所有硬盘均未超温,CPLD可以将该结果发送给BMC。BMC在接收到该结果后,可以返回执行步骤S108。
S111,停止对第一硬盘的访问操作。
示例性地,BMC可以生成第二控制指令,用于指示CPLD停止对第一硬盘的访问操作。CPLD在接收到该第二控制指令后,可以按照指示停止对第一硬盘的访问操作,即,停止对第一硬盘执行读和/或写操作。
停止第一硬盘的访问操作后,该第一硬盘停止运行,自身发热减少,有助于该第一硬盘快速降温。
目前的存储服务器的超温工况保护方法,在服务器中存在超温硬盘时,就会直接停止存储服务器整机的供电,而超温硬盘失去了风扇降温,只能缓慢散热。因此,该方法不利于超温硬盘散热,也不利于保证存储服务器整机业务的连续性。
然而,本申请实施例提供的存储服务器温度控制方法,在第一预设温度阈值和第二预设温度阈值的基础上,进一步设置了第三预设温度阈值,从而针对运维人员检查异常情况后的温度仍然持续升高的情况,给出了确定出该硬盘区域中的超温硬盘并停止其访问操作的解决方案。该方法通过设置停止访问操作这一过渡性处理,使得超温硬盘在停止运行的同时还能够有风扇辅助降温,有利于超温硬盘的快速散热。该方法在停止超温硬盘的访问操作时,其余硬盘仍在正常工作,保证了存储服务器整机业务的连续性。
在上述实施例的基础上,作为一种可能的实现方式,在上述步骤S110之后,即在停止对超温的第一硬盘的访问操作之后,还可以对第一硬盘执行如下操作:
S112,在间隔预设时长后再次获取第一硬盘的温度。
示例性地,BMC可以在间隔预设时长后,向CPLD发送一个指示获取该第一硬盘温度的指令。
作为一种可能的实现方式,CPLD在接收到该指令后,可以将该第一硬盘的温度发送给BMC。BMC在接收到第一硬盘的温度后,可以执行步骤S112。
应理解,虽然此处是以BMC基于第一硬盘的温度,判断该第一硬盘是否仍然超温为例进行描述的,具体实现时,也可以是CPLD在接收到BMC的指令后,直接判断出该第一硬盘是否仍然超温。如果该第一硬盘仍然超温,CPLD可以将该第一硬盘仍然超温的信息发送给BMC。BMC在接收到该信息后,执行步骤S113。如果该第一硬盘的温度小于超温温度了,CPLD可以将该第一硬盘的温度小于超温温度的信息发送给BMC。BMC在接收到该信息后,执行步骤S114。
S113,判断再次获取的第一硬盘的温度是否表征第一硬盘超温。
若再次获取的第一硬盘的温度表征第一硬盘超温,说明该第一硬盘的在间隔预设时长后的温度仍然未降低至规格温度以下,停止访问该第一硬盘不足以降低其温度,则执行步骤S113。若再次获取的第一硬盘的温度未表征第一硬盘超温,说明在停止访问该第一硬盘并间隔预设时长后,该第一硬盘的温度已经恢复至规格温度以下,可以恢复访问该第一硬盘,则执行步骤S114。
S114,停止为第一硬盘供电,输出维护信息。
示例性地,BMC可以给CPLD发送一个停止供电指令,指示CPLD停止为该第一硬盘供电。CPLD在接收到该指令后,可以切断该第一硬盘的电力供应。
示例性地,当BMC配置有显示屏时,BMC可以在屏幕上显示第一硬盘的身份识别信息(例如,硬盘编号)和维护信息。该维护信息用于指示运维人员对第一硬盘进行维护处理,例如,对该第一硬盘进行更换。
或者,当BMC集成了远程通信功能时,BMC还可以将第一硬盘的身份识别信息和维护信息发送给运维人员的终端。示例性地,运维人员终端显示的维护信息界面如图4所示。
S115,恢复对第一硬盘的访问操作。
示例性地,BMC可以向CPLD发送一个恢复访问指令,指示CPLD恢复对该第一硬盘的访问操作。CPLD在接收到该指令后,可以恢复对第一硬盘的访问操作。
基于上述整个流程,本申请实施例提供的存储服务器温度控制方法设置了多级预设温度阈值,可以在各个硬盘区域达到不同预设温度阈值时,控制相应的风扇或者硬盘做出不同的响应,从而实现了存储服务器的分级式超温工况保护,进而提高了存储服务器超温工况保护时的准确性。
本申请实施例提供的存储服务器温度控制方法,通过将存储服务器中的多个硬盘和多个风扇进行区域划分,使得某个硬盘区域温度升高至预设温度阈值时,与该硬盘区域所对应的风扇可以独立于其他风扇,单独提高风扇转速,从而实现有针对性地对发热硬盘进行降温,进而降低了存储服务器的整体功耗。
此外,本申请实施例提供的存储服务器温度控制方法,在停止给超温硬盘供电前,先停止对其的访问操作并间隔一段时间后再次测量该硬盘温度,如果依然超温才对该硬盘进行下电操作,而不是对存储服务器整机下电。该方法保证了存储服务器整机业务的连续性。
图5是本申请实施例提供的一种存储服务器温度控制装置的结构示意图。如图5所示,该装置包括:第一获取模块21、控制模块22、输出模块23和第二获取模块24。其中:
第一获取模块21,用于获取每个温度传感器采集的第一温度;
控制模块22,用于在第一温度传感器采集的第一温度大于或等于第一预设温度阈值时,控制第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;第二速度大于第一速度;第一温度传感器为至少两个硬盘区域中的任一个温度传感器。
可选地,该装置还可以包括:输出模块23。其中:
第一获取模块21,还用于获取第一温度传感器采集的第二温度;
输出模块23,用于在第二温度大于或等于第二预设温度阈值时,输出第一硬盘区域的温度告警信息;第二预设温度阈值大于第一预设温度阈值。
可选地,该装置还可以包括:第二获取模块24。其中:
第一获取模块21,还用于获取第一温度传感器采集的第三温度;
第二获取模块24,用于在第三温度大于或等于第三预设温度阈值时,获取采用轮询方式得到的第一硬盘区域中的硬盘的温度;第三预设温度阈值大于第二预设温度阈值;
控制模块22,还用于基于第一硬盘区域中的硬盘的温度,确定第一硬盘区域中存在超温的第一硬盘,并在确定出超温的第一硬盘后停止对第一硬盘的访问操作。
可选地,第一获取模块21还用于在间隔预设时长后再次获取第一硬盘的温度;控制模块22还用于在再次获取的第一硬盘的温度表征第一硬盘超温时,停止为第一硬盘供电。
可选地,输出模块23,还用于在停止为第一硬盘供电后,输出维护信息;维护信息用于指示对第一硬盘进行维护处理。
可选地,控制模块22,还用于在再次获取的第一硬盘的温度表征第一硬盘未超温时,恢复对第一硬盘的访问操作。
可选地,控制模块22,还用于在第三温度小于第一预设温度阈值时,控制第一硬盘区域对应的风扇按照第一速度运转。
可选地,控制模块22,还用于在第二温度小于第一预设温度阈值时,控制第一硬盘区域对应的风扇按照第一速度运转。
本申请提供的存储服务器温度控制装置,用于执行前述存储服务器温度控制方法实施例,其实现原理与技术效果类似,对此不再赘述。
图6是本申请实施例提供的一种电子设备的结构示意图。如图6所示,该电子设备400可以包括:至少一个处理器401和存储器402。
存储器402,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器402可能包含高速随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器401用于执行存储器402存储的计算机执行指令,以实现前述方法实施例所描述的存储服务器温度控制方法。该电子设备例如可以是前述所说的BMC、CPLD或者是存储服务器上新增的处理组件。当存储服务器中设置有多个风扇时,该电子设备还可以包括前述所描述的其他部件,例如多个温度传感器。当存储服务器中未设置有多个风扇时,该电子设备还可以包括前述所描述的其他部件,例如多个温度传感器、多个风扇等。对此不再赘述。
其中,处理器401可能是一个中央处理器(Central Processing Unit,CPU),或者是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,该电子设备400还可以包括通信接口403。在具体实现上,如果通信接口403、存储器402和处理器401独立实现,则通信接口403、存储器402和处理器401可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果通信接口403、存储器402和处理器401集成在一块芯片上实现,则通信接口403、存储器402和处理器401可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、RAM存储器、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
本申请还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的存储服务器温度控制方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (8)

1.一种存储服务器温度控制方法,其特征在于,所述存储服务器包括多个硬盘和多个风扇,所述多个硬盘在物理空间上划分为至少两个硬盘区域,每个所述硬盘区域对应至少一个风扇,所述风扇采用第一速度为对应的硬盘区域的硬盘进行降温;每个所述硬盘区域设置有至少一个温度传感器,用于采集所述硬盘区域的温度;所述方法包括:
获取每个温度传感器采集的第一温度;
若第一温度传感器采集的第一温度大于或等于第一预设温度阈值,则控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;所述第二速度大于所述第一速度;所述第一温度传感器为所述至少两个硬盘区域中的任一个温度传感器;
获取所述第一温度传感器采集的第二温度;
若所述第二温度大于或等于第二预设温度阈值,则输出所述第一硬盘区域的温度告警信息,并在基板管理控制器BMC的显示屏上显示所述第一硬盘区域的位置信息,或者,所述BMC将所述第一硬盘区域的位置信息发送给运维人员的终端,以在所述终端上显示所述第一硬盘区域的位置信息;所述第二预设温度阈值大于所述第一预设温度阈值;
获取所述第一温度传感器采集的第三温度;
若所述第三温度大于或等于第三预设温度阈值,则获取采用轮询方式得到的所述第一硬盘区域中的硬盘的温度;所述第三预设温度阈值大于所述第二预设温度阈值;
若基于所述第一硬盘区域中的硬盘的温度,确定所述第一硬盘区域中存在超温的第一硬盘,则停止对所述第一硬盘的访问操作。
2.根据权利要求1所述的方法,其特征在于,所述停止对所述第一硬盘进行访问操作之后,所述方法还包括:
在间隔预设时长后再次获取所述第一硬盘的温度;
若再次获取的所述第一硬盘的温度表征所述第一硬盘超温,则停止为所述第一硬盘供电。
3.根据权利要求2所述的方法,其特征在于,所述停止为所述第一硬盘供电,包括:
停止为所述第一硬盘供电,并输出维护信息;所述维护信息用于指示对所述第一硬盘进行维护处理。
4.根据权利要求2所述的方法,其特征在于,所述在间隔预设时长后再次获取所述第一硬盘的温度之后,所述方法还包括:
若再次获取的所述第一硬盘的温度表征所述第一硬盘未超温,则恢复对所述第一硬盘的访问操作。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述第一温度传感器采集的第三温度之后,所述方法还包括:
若所述第三温度小于所述第一预设温度阈值,则控制所述第一硬盘区域对应的风扇按照所述第一速度运转。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述第一温度传感器采集的第二温度之后,还包括:
若所述第二温度小于所述第一预设温度阈值,则控制所述第一硬盘区域对应的风扇按照所述第一速度运转。
7.一种存储服务器温度控制装置,其特征在于,所述存储服务器包括多个硬盘和多个风扇,所述多个硬盘在物理空间上划分为至少两个硬盘区域,每个所述硬盘区域对应至少一个风扇,所述风扇采用第一速度为对应的硬盘区域的硬盘进行降温;每个所述硬盘区域设置有至少一个温度传感器,用于采集所述硬盘区域的温度;所述装置包括:
第一获取模块,用于获取每个温度传感器采集的第一温度;
第一控制模块,用于在第一温度传感器采集的第一温度大于或等于第一预设温度阈值时,控制所述第一温度传感器所在的第一硬盘区域对应的风扇按照第二速度运转;所述第二速度大于所述第一速度;所述第一温度传感器为所述至少两个硬盘区域中的任一个温度传感器;
所述装置,还包括:输出模块、第二获取模块;
所述第一获取模块,还用于获取所述第一温度传感器采集的第二温度;
所述输出模块,用于在所述第二温度大于或等于第二预设温度阈值,则输出所述第一硬盘区域的温度告警信息,并在基板管理控制器BMC的显示屏上显示所述第一硬盘区域的位置信息,或者,所述BMC将所述第一硬盘区域的位置信息发送给运维人员的终端,以在所述终端上显示所述第一硬盘区域的位置信息;所述第二预设温度阈值大于所述第一预设温度阈值;
所述第一获取模块,还用于获取所述第一温度传感器采集的第三温度;
所述第二获取模块,用于在所述第三温度大于或等于第三预设温度阈值,则获取采用轮询方式得到的所述第一硬盘区域中的硬盘的温度;所述第三预设温度阈值大于所述第二预设温度阈值;
所述控制模块,还用于基于所述第一硬盘区域中的硬盘的温度,确定所述第一硬盘区域中存在超温的第一硬盘,则停止对所述第一硬盘的访问操作。
8.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行权利要求1-6中任一项所述的方法。
CN202110728115.2A 2021-06-29 2021-06-29 存储服务器温度控制方法、装置及设备 Active CN113377188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110728115.2A CN113377188B (zh) 2021-06-29 2021-06-29 存储服务器温度控制方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110728115.2A CN113377188B (zh) 2021-06-29 2021-06-29 存储服务器温度控制方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113377188A CN113377188A (zh) 2021-09-10
CN113377188B true CN113377188B (zh) 2023-01-31

Family

ID=77579765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110728115.2A Active CN113377188B (zh) 2021-06-29 2021-06-29 存储服务器温度控制方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113377188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461039A (zh) * 2021-12-28 2022-05-10 浪潮(山东)计算机科技有限公司 一种散热调控方法、装置、系统、bmc和可读存储介质
CN115543050B (zh) * 2022-11-30 2023-03-21 苏州浪潮智能科技有限公司 服务器的散热方法及装置、系统和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109471510A (zh) * 2018-09-04 2019-03-15 深圳市宝德计算机系统有限公司 一种服务器散热方法、装置、设备及计算机存储介质
CN109727615A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于存储设备的散热的系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155003A1 (en) * 2010-06-11 2011-12-15 Hitachi, Ltd. Storage apparatus and method of controlling cooling fans for storage apparatus
CN103161747A (zh) * 2011-12-08 2013-06-19 鸿富锦精密工业(深圳)有限公司 风扇控制系统及方法
CN202549300U (zh) * 2012-03-02 2012-11-21 鸿富锦精密工业(深圳)有限公司 硬盘温度控制系统
CN102982836A (zh) * 2012-11-21 2013-03-20 记忆科技(深圳)有限公司 增强固态硬盘可靠性的方法及其固态硬盘
CN112431780A (zh) * 2020-11-12 2021-03-02 苏州浪潮智能科技有限公司 一种4u存储服务器下层风扇调控方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109727615A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于存储设备的散热的系统和方法
CN109471510A (zh) * 2018-09-04 2019-03-15 深圳市宝德计算机系统有限公司 一种服务器散热方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN113377188A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113377188B (zh) 存储服务器温度控制方法、装置及设备
US6968470B2 (en) System and method for power management in a server system
US10519960B2 (en) Fan failure detection and reporting
US7017059B2 (en) Methods and apparatus for replacing cooling systems in operating computers
US7562537B2 (en) Method of determining cooling system effectiveness
JP4606233B2 (ja) ストレージ装置、ストレージ装置のファン制御方法およびファン制御プログラム
JP2011059739A (ja) 温度予測装置、温度予測方法および温度予測プログラム
US20080313492A1 (en) Adjusting a Cooling Device and a Server in Response to a Thermal Event
CN108181977B (zh) 一种服务器
CN113687999B (zh) 风扇失效侦测系统和方法及计算机程序产品
US20160120070A1 (en) Data center pressure anomaly detection and remediation
WO2016202084A1 (zh) 单板过温处理方法及装置
JP2007148572A (ja) 電子機器、温度制御装置および温度制御方法
CN115314416A (zh) 网卡状态自动检测方法、装置、电子设备及存储介质
US11625082B2 (en) Computing system with a cooling function utilizing formula with algorithm
CN113468617A (zh) 一种设备掉电保护的方法、设备及存储介质
CN112328033A (zh) 一种bmc中的风扇自动控制方法及相关设备
JP6821989B2 (ja) 情報処理装置、情報処理システム、情報処理装置制御プログラム及び情報処理装置制御方法
US9384077B2 (en) Storage control apparatus and method for controlling storage apparatus
CN216315123U (zh) 烘焙装置及烘培系统
JP2005057119A (ja) 空冷方法および電子機器用冷却装置
US11755404B2 (en) Custom baseboard management controller (BMC) firmware stack monitoring system and method
JP2862207B2 (ja) 半導体集積回路基板の過熱保護装置
CN105468495A (zh) 复杂式可程序逻辑控制装置
EP3537859B1 (en) Device, apparatus and method for monitoring heat dissipation states of devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant