CN107852839A - 识别冷却回路特性 - Google Patents

识别冷却回路特性 Download PDF

Info

Publication number
CN107852839A
CN107852839A CN201580081980.5A CN201580081980A CN107852839A CN 107852839 A CN107852839 A CN 107852839A CN 201580081980 A CN201580081980 A CN 201580081980A CN 107852839 A CN107852839 A CN 107852839A
Authority
CN
China
Prior art keywords
equipment
engine
common return
cooling circuit
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580081980.5A
Other languages
English (en)
Other versions
CN107852839B (zh
Inventor
塔希尔·卡德尔
戴维·A·莫尔
格雷·斯考特·朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Enterprise Development LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Enterprise Development LP filed Critical Hewlett Packard Enterprise Development LP
Publication of CN107852839A publication Critical patent/CN107852839A/zh
Application granted granted Critical
Publication of CN107852839B publication Critical patent/CN107852839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D7/00Control of flow
    • G05D7/06Control of flow characterised by the use of electric means
    • G05D7/0617Control of flow characterised by the use of electric means specially adapted for fluid materials
    • G05D7/0629Control of flow characterised by the use of electric means specially adapted for fluid materials characterised by the type of regulator means
    • G05D7/0676Control of flow characterised by the use of electric means specially adapted for fluid materials characterised by the type of regulator means by action on flow sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20763Liquid cooling without phase change
    • H05K7/2079Liquid cooling without phase change within rooms for removing heat from cabinets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Abstract

根据本公开的方面的示例设备包括收集引擎和关联引擎以识别冷却回路特性。收集引擎从与冷却回路相关联的设备收集数据。关联引擎基于收集的数据来从冷却回路中识别公共回路,以及识别设备中的哪些与该公共回路相关联。

Description

识别冷却回路特性
背景技术
在诸如管理数据中心之类的环境中越来越多地使用包括基于液体的冷却系统。冷却系统的管理可以基于对被编码的设备和冷却系统之间的互连的理解。例如,液体冷却系统可以牵涉许多计算系统的机架之间的管件和互连槽。查明冷却系统的布局可能依赖于对于装备的劳动密集型的且沉闷的物理查看,其数个部分可能被另一个装备所遮蔽。此外,因为装备在数据中心中的布置可能随时间改变,所以装备的布局的静态图可能快速变得过时或者由于随时间而执行装备的移动/更新而造成误导。
附图说明
图1是根据示例的识别冷却回路特性的系统的框图,包括收集引擎和关联引擎。
图2是根据示例的识别冷却回路特性的系统的框图,包括收集指令、关联指令、工作负载指令、扰动指令,以及表示指令。
图3是根据示例的多个冷却回路的系统的框图,包括公共回路1、公共回路2以及公共回路3。
图4是根据示例的从工作负载的观点的连接图,包括公共回路1、公共回路2以及公共回路3。
图5是根据示例的示出来自多个设备的传感器读数的图表,包括关联、事件,以及趋势。
图6是根据示例的基于识别公共回路的流程图。
图7是根据示例的基于部署工作负载和生成预测和/或任务的流程图。
具体实施方式
诸如数据中心液体冷却系统之类的冷却系统能够牵涉复杂的硬件布置,并且包括诸如泵、阀门、传感器、电力、管理的连接等等的互联网络的相关性。给定冷却系统可以包括多个冷却回路和数据中心处的子域。操作员希望的是,查明给定子系统上的故障或维护事件可能如何影响其他子系统和/或数据中心的总体操作。尽管子系统的相互关联的图形表示能够向操作员提供一些好处,但冷却回路分析牵涉沉闷的人工处理。在一些情况下,该评定处理本身可能引起系统可用性的风险,这是因为系统的一些部分可能被装备阻挡,该装备需要被移除以评定整个系统。此外,子系统问题可能甚至不被辨识和受动,直到可用性受影响并且响应于系统受影响(例如,由于过热使计算系统服务器/机架停止运转)而使系统被分析。
为了解决此类问题,在本文描述的实施方式可以针对例如数据中心系统或使用冷却回路的其它应用(诸如共用公共循环回路的液体冷却管件连接和设备的系统管理)提供冷却互连的自动和/或实时发现。实施方式也能够向数据中心操作员提供管件组件的自动检测和与交互显示器的连接和从冷却回路中的设备(例如,计算系统、冷却剂分配单元、传感器,等等)自动地采集的信息的编程可用性。
对液体冷却回路域相关性的自动检测能够向数据中心操作员提供不同类型的有价值的信息。例如,冷却系统和装备的相互关联的自动发现能够提供图示出例如相关性的故障树图的实时集合,并且为操作员提供直观界面。被收集以提供这些图的数据也能够用于其他分析的目的,诸如可靠性建模、维护预测、调度、和其他管理和分析任务。此外,能够通过使用冷却系统信息来帮助在分立的冷却回路上将工作负载人工或自动安置到装备中来最小化工作负载故障风险,使得给定冷却回路的问题将不负面地影响工作负载。
图1是根据示例的识别冷却回路特性的系统100的框图,包括收集引擎110和关联引擎120。收集引擎110从与冷却回路150中的至少一个相关联的设备140收集数据112。关联引擎120从多个设备140和冷却回路150,以及与至少一个公共回路130相对应的相关联的设备132当中识别至少一个公共回路130。
设备140能够包括独立的传感器,以及具有多个传感器和其他特征(例如,能够从冷却回路150收集数据/特性的特征,以及能够影响/改变/扰动冷却回路150的特性的特征)的整体计算系统和/或装备。因此,能够从设备140获取数据112,和/或把数据112发送给设备140。设备140与至少一个冷却回路150进行通信,并且能够被定位在冷却回路150上的多个位置。设备140不需要与冷却回路150的冷却剂(流体、气体,或者在冷却回路中循环的其他介质)直接接触,并且可以用于在不直接地接触冷却剂的情况下采集数据112(例如,温度传感器设备140可以通过管的壁而不用传感器需要被浸入液体冷却剂中来间接地采集温度)。基于设备140的传感器能够包括温度传感器、压力传感器、流量传感器、化学传感器,等等。基于设备140的系统和/或装备能够包括计算系统/服务器、冷却剂分配单元(CDU)、阀门、泵,等等。收集引擎110与设备140进行通信以收集特性信息/数据112,以由关联引擎120使用以形成关于设备中的哪些设备是与给定公共回路130相对应的相关联的设备132的推断。关联引擎120还能够推断出相关联的设备132以何种顺序连接到公共回路130和/或连接到彼此。除收集数据112之外,收集引擎110能够用于指示设备140扰动其本身,因此影响冷却回路150的至少一个特性。例如,收集引擎110能够指示泵设备140提高其泵浦速率,由此增加冷却剂在其相关联的冷却回路150中的流量,使与公共回路130相对应的流量传感器设备140反映该增加的冷却剂流量。在其他实施方式中,工作负载指配能够用于基于向给定处理器指配更多或更少工作负载来扰动温度特性以提高或降低温度。因此,工作负载指配和处理器活动能够表示设备改变与该处理器设备相关联的冷却回路的温度特性。
在一些替换示例中,系统能够使用扰动引擎(没有在图1中示出;与运行图2中示出的扰动指令270的引擎相对应)来扰动特性。扰动引擎能够指示设备扰动其本身。附加的引擎可以用于执行各种功能,诸如工作负载引擎(与图2的工作负载指令260相对应)用于部署工作负载,表示引擎(与图2的表示指令280相对应)用于提供连接图,尽管此类引擎并未在图1中具体示出。
在牵涉布置在多个机架中的计算系统设备和CDU示例性实施方式中,数据中心可以包括经由至少一个冷却回路互联的五个机架的集合。五个机架中的一个能够包括CDU设备来向其他四个计算系统设备机架提供冷却。数据中心能够包括经由类似的网络设定连接的多个这种五机架布置。因此,此类数据中心将包括多个五设备冷却回路。那些多个冷却回路中的一些冷却回路能够被流体地互联,使得在多个五机架冷却回路之中存在至少一个公共回路。收集引擎能够从各种设备收集数据,以识别各种设备经由冷却回路被互联,并且设备可以共用或可以不共用公共回路。
充当传感器的设备140能够包括执行化学感测的传感器,诸如检测液体冷却剂的阻抗特性的复阻抗传感器。在以上描述的示例性五机架实施方式中,此类化学传感器设备140能够位于机架、CDU上和/或冷却回路路径中的任何地方以识别化学浓缩(chemicalconcentration)或者化学浓缩的改变,作为推断出公共回路130中的相关联的设备132的成员之间的相关性的方式。化学部署设备(例如,基于墨盒)能够用于有选择地调整和/或扰动诸如抗微生物剂、缓蚀剂,等等的化学制品的水平,以扰动给定冷却回路150的化学特性(或者修复化学特性的平衡)。
关联引擎120能够使用与硬件实施有关的一般规则(例如,设备可能如何地流体地耦合到另一个设备),以及对于产生于现存的配置的所收集的数据112的可视性,以构建冷却回路组件设备之间的供应和消耗关系,该冷却回路组件设备包括且不限于冷却分配单元(CDU)和连接的计算系统机架。关联引擎120能够例如基于周期性的或事件驱动的发现以及配置改变和操作状态的分析来发现和识别故障关系的任何改变的性质。
关联引擎120能够直接地读取和/或推断出关于组件/设备连接和相互关联的实质信息。关联引擎120能够从收集引擎110获取此类信息,该收集引擎110能够从系统管理硬件、操作系统(OSe)、工作调度器、和其他自动或人工数据112源收集此类数据112。收集和分析来自这些系统的此类信息/数据112使得关联引擎120能够构建连接、链接和相关性的数据库,以识别一个或多个公共回路130和对应的相关联的设备132。此类信息能够用于自动地(例如通过与表示指令280相对应的表示引擎)开发能够被人类操作员容易地且可视地理解的系统健康的直观显示,以及容易地被其他计算系统解释的公共回路的电子表示。此类信息也能够用于可编程地优化工作负载安置以及系统维护。
收集引擎110能够从位于一个或多个冷却回路装置的多个组件中的传感器/设备140获取数据112,以发现共用相同的公共回路130的相关联的设备132。例如,流量传感器设备的收集能够由收集引擎110使用以监视关于那些传感器的流速值,以产生展现类似的读数和趋势的传感器的组。关联引擎120能够使用数学方式来基于类似的读数来假定连接的系统的组。关联引擎120能够反复地假定此类组,并且针对来自其他类型的传感器/设备的读数(诸如入口和出口温度和压力传感器设备140)检查读数/组。如果假定的组与可用数据相符,则系统的故意的扰动可以用于检验分组。例如,关联引擎120(或扰动引擎)能够对CDU的循环泵进行调制,以提供流模式的改变。假定的组内的传感器能够拾取与流量改变匹配的此类变化。扰动能够是单个脉冲,或者一个或多个不同类型的脉冲的组合。扰动能够遵循这样的模式:诸如在一分钟周期内将泵流量增加若干百分比,然后返回到标称流量,以矩形波(或其他)模式交替流速。能够在假定的组的其它成员中检测该扰动模式,并且在一些设备中的检测的缺乏指示那些设备是非成员(不与检测到扰动模式的那些设备共用公共回路)。如果观察到不一致,则能够反复地调整/重复假定,并且作出进一步观察以检验分组。
另外可以可行的是,得出在公共回路内的机架的流次序。例如,关联引擎120能够观察通过公共回路传播的一系列效果,诸如从一个设备传递到下一个设备的流阻、温度下降、和/或其他特性(无论被动地识别,还是被主动地扰动)的改变的序列。在仅仅识别哪些设备是公共回路的构件之外,识别通过公共回路的传播允许关联引擎120推断出公共回路内的那些设备的顺序。
因此,与由静态处理(随着设备配置改变和/或设备故障出现,其可能快速变得过时)引起的人工冷却回路分析不同,在本文描述的示例性实施方式实现自动化系统(包括具有周期性再发现/分析的那些自动化系统),以使得能够动态更新对公共冷却回路装备设备的了解。因此,此类了解(例如,连接图的形式或了解的其他表示)能够用于保证关于在给定装置中设备如何被冷却而利用可靠的和最新的数据作出操作判定,把冗余包括在冷却回路中以保证对能够被部署以避免给定冷却回路中的单点故障的工作负载的健壮支持。
图2是根据示例的识别冷却回路特性的系统200的框图,包括收集指令210、关联指令220、工作负载指令260、扰动指令270以及表示指令280。各种指令能够作用于与同一个或多个冷却回路250相关联的设备240相关联的信息/数据。计算机可读介质与处理器202相关联,该处理器202可以执行存储在计算机可读介质204上的各种指令。
可以充当存储器的计算机可读介质204可由系统200访问,以充当计算机可读存储库,用于也存储诸如数据112、推断、连接图之类的信息或者通过执行对应的指令210、220可以通过引擎110、120(或其他引擎)创建或以另外方式引用的其他信息,等等。如在本文所描述的,术语“引擎”可以包括用于实施按照所公开的示例的功能的电子电路。例如,引擎110、120表示实施按照所公开的实施方式的功能的硬件设备(例如,处理器和/或存储器)和编程的组合。在示例中,用于引擎的编程可以是存储在非暂时性机器可读存储介质上的处理器可执行的指令,并且用于引擎的硬件可以包括执行那些指令的处理资源。诸如系统100之类的示例系统(例如,计算设备)可以包括和/或接收存储计算机可读指令的集合的有形非暂时性计算机可读介质。如在本文所使用的,处理器/处理资源可以把一个或多个处理器包括在诸如并行处理系统中,以执行处理器可执行的指令。存储器能够包括可由处理器寻址的以用于执行计算机可读指令的存储器。计算机可读介质能够包括诸如随机存取存储器(“RAM”)之类的易失性和/或非易失性存储器、诸如硬盘、软盘之类的磁存储器、和/或磁带存储器、固态驱动器(“SSD”)、闪速存储器、相变存储器,等等。
在一些示例中,引擎110、120等等的功能可以与响应于例如来自计算机可读介质204的信息和/或从设备接收到的或发送给设备的数据112所执行的操作相对应。计算机可读存储介质204可以可由系统100访问以存储可以可由引擎110、120,等等访问的格式的项。尽管未在图1中被具体地示出,工作负载指令280可以与可以被包括在图1的系统100中的工作负载引擎相对应。类似地,扰动指令270和表示指令280可以分别与图1的系统100中的扰动引擎和表示引擎相对应。因此,在一些示例中,当指令210-260被处理器202执行时所执行的操作可以与引擎110、120(以及未在图1中具体图示的以上阐述的其他对应的引擎)的功能相对应。
如以上关于图1阐述的,引擎110、120等等可以包括硬件和编程的组合。可以以许多方式实施此类组件。例如,编程可以是存储在有形非暂时性计算机可读介质204上的处理器可执行的指令并且硬件可以包括用于执行那些指令210、220等等的处理器202。处理器202例如可以包括一个或多个处理器。此类多个处理器可以被集成在单个设备中或者跨设备分布。介质204可以存储当由处理器202执行时实施图1的系统100(包括与指令210-280相对应的那些引擎)的程序指令。介质204可以与处理器202被集成在相同的设备中,或者其可以是单独的并且对于该设备以及处理器202是可访问的。
在一些示例中,程序指令能够是当被安装时能够被处理器202执行以实施系统100的安装数据包的一部分。在这种情况下,介质204可以是诸如CD、DVD、闪盘驱动之类的便携式介质,或者可以是能够从其下载和安装安装数据包的、由服务器维持的存储器。在另一个示例中,程序指令可以是已经安装的应用(一个或多个)的一部分。在这里,介质204能够包括集成存储器,诸如硬盘驱动器、固态驱动器,等等。在图2中介质204包括指令210至指令280时,一个或多个指令的位置可以相对于介质204是远程的。相反地,可以利用介质204包括信息/数据,诸如从设备收集的数据、通过关联引擎形成的推断、扰动模式,等等。
计算机可读介质204可以提供易失性存储器,例如,用于执行指令的随机存取存储器。计算机可读介质204也可以提供非易失性存储器,例如,用于存储的硬盘或固态盘。图2的组件可以被存储在任何类型的计算机可读介质(易失性的或非易失性的)中。存储在介质204上的内容可以包括图像、文本、可执行文件、脚本,或者在下面阐述的可以由示例使用的其他内容。例如,介质204可以包含所收集的数据、连接图,或者被引擎和/或指令210-280使用和/或产生的其他信息。
可以(例如通过工作负载引擎)执行工作负载指令280以考虑识别的公共回路向计算系统设备分配工作负载。例如,可以跨多个不同的公共回路散布的计算系统设备当中划分工作负载。这样,如果一个公共回路的问题或故障产生,工作负载能够继续在其他公共回路的那些计算系统设备上执行。换句话说,系统能够通过避免把工作负载放在全都共用一个公共回路的设备上来避免产生单点故障。
可以(例如,通过扰动引擎或关联引擎120)执行扰动指令270,以扰动冷却回路和/或冷却回路之中的设备的特性。可以在其他设备检测到此类扰动,以允许关联引擎120推断出哪些设备140是给定公共回路130的构件。扰动指令270能够保证给定工作负载或设备/装备将不会被负面地影响或损坏。如在本文所使用的,扰动是设备的特性的偏移/变化的类型,其影响设备的相关联的冷却回路。例如,扰动引擎能够使用流速作为非有害的扰动的类型、和/或被扰动到低供应温度的冷却剂、和/或对冷却剂化学特性的调整,此类扰动在不影响可能在与扰动冷却回路相关联的装备上运行的工作负载的情况下可被检测到。例如,扰动指令270能够指示注射设备(能够存在于冷却回路中的任何地方,诸如在CDU)以将化学缓冲溶液(不是温度控制的有效参与者以避免负面地影响温度的化学制剂)注入到其对应的冷却回路中(例如,用于调整冷却剂的pH)。关联指令220然后能够在与注射CDU共用公共回路的诸如其他CDU的其他设备的其他化学传感器、计算系统机架、和/或独立的传感器处识别化学特性改变的对应检测。然后能够通过注射合适类型的化学制剂以对冷却剂修复初始/期望pH值来校正化学特性的扰动。在另一个示例中,扰动指令270能够指示CDU对其冷却回路进行充气。其他CDU然后将通过使用真空泵去除扰动/添加的空气来进行响应,其活动可被收集指令210识别为数据,并且被关联指令220关联以识别公共回路。对冷却回路的此类良性的扰动能够保证依赖于此类冷却回路的设备/装备将不被扰乱或不以对任何运行的工作负载造成负面影响的另外方式受影响。在一些示例中,由于在扰动期间增加的冷却性能(增加的流量、降低的冷却剂温度),使得诸如扰动温度或冷却剂流量、对应的设备/装备操作能够被增强。
扰动指令270能够通过指示设备以可检测的方式生成调整/过渡来生成扰动模式。诸如温度、流量,等等的特性能够随着时间被调制/循环/形成脉冲,以引起可检测的模式。此类脉冲形成能够长时间扩展的动态调整。例如,能够在数小时或数日的时段内做出pH扰动,这是因为此类良性的调整自由地在系统上运行,而没有扰乱任何工作负载/设备的风险。在本文描述的示例使得扰动引擎/指令270能够人工地或自动地应用扰动,而不需要使系统离线。
扰动模式能够基于根据各种适当的形状的调制。调制也能够通过尝试第一模式并且进行检查用于检测、然后改变到第二模式,等等是适配性的。在一些示例中,扰动引擎/指令270能够使用矩形波脉冲形成扰动模式,然后尝试正弦波、三角波,或者随着时间推移的不同地形成的脉冲的串联/组合。因此,扰动引擎/指令270能够创建完全地可检测的扰动模式,以排除可能出现的任何随机变化(例如,温度可以作为随时间而改变的自然的工作负载的结果改变,但是具体检测到的温度改变的扰动模式可能与此类与工作有关的温度漂移不同)。
收集引擎/指令210和关联引擎/指令220能够从许多不同类型的传感器/设备采集和识别信息、信息是自然出现在正常操作/停工期期间,还是出现在扰动的时段期间。例如,在正常操作期间,关联引擎/指令220能够例如经由针对可用的传感器/设备的组之中的任何数量的对所重复的成对比较来检查给定采集的信号和其他信号之间的相关性。在传感器/设备的被动的测量/监视期间在形成用于关联的那些推断或检查之后,系统能够继续在传感器/设备中的给定一个或多个生成扰动信号。关联引擎/指令220然后能够检查已经生成的推断/关联是否与作为由在扰动期间出现的数据的结果形成的采集的信息/推断一致。例如,被动监视可以引起最初识别三个给定温度传感器之间的试验性关联,但是在扰动期间,或许仅仅三个温度传感器中的两个反映扰动,并且因此试验性关联被修订为包括那两个传感器。能够使用不同的扰动模式或类型的扰动(温度、流量、压力、充气、化学特性,等等)来重复这一点。各种引擎/指令使得此类示例性健壮方法能够被智能地使用以识别关联,且把它们从一致/漂移/正常操作隔离,引起各种传感器/设备之间的公共回路的积极地识别,被自动地进行而不需要操作员劳动/干预或有源设备的扰乱或者它们的工作负载。
可以(例如,通过表示引擎)执行表示指令280以构建表示共用公共回路的设备的连接图。例如,表示引擎能够构建如在图3(从公共回路的观点)和图4(从工作负载的观点)中所图示的连接图。能够从就对于给定情形将是有用的方面而言、通过收集引擎110和关联引擎120采集和形成的并且在不同视角以各种形式被表示的源数据和推断创建连接图。例如,能够准备连接图以供操作员利用可视地直观的布局使用。在替换示例中,能够准备连接图以供其他计算系统基于文本/数字数据使用,而不需要可视地直观的布局。
图3是根据示例的包括多个冷却回路(包括公共回路1 351、公共回路2 352、和公共回路3 353)的系统300的框图。公共回路1 351包括CDU1 342、机架1 341、和机架2 343,使冷却回路流向那些设备中的每一个。因此,如果CDU1 342中的泵出故障,冷却剂将不被泵浦通过公共回路1 351,影响机架2 343。公共回路2 352包括CDU2344、机架1 341、和机架3345。因为公共回路2 352也流过机架1 341,所以,即使公共回路1 351出故障,其也能够向机架1 341提供冷却剂。公共回路3 353包括CDU3346、机架4 347、和传感器348。系统300被示出为一个说明性示例,并且许多变化是可能的(例如,使传感器348散布在其他环路之中,具有安排为冗余地共用多个冷却回路的更多CDU/机架,等等)。图3中的系统300的布置可能典型的是一系统,该系统先前被构建为使rack2 343冗余地共用公共回路3 353,并且使rack3 345冗余地共用公共回路3 353。然而,随着对系统300执行各种修改、升级、和/或修复,系统300的此类初始布置可能已经随着时间的推移而演变为所图示的(或许非最优)布置。
在本文描述的示例性实施方式能够自动地识别各种设备之中的公共回路的布局,并且提供容易理解的视觉表示以使得系统能够被监视和/或优化。系统300能够牵涉关于各种服务器/设备和/或部署在系统300上的工作负载的复杂的互连和相关性。冷却回路可能是问题的源,如果回路遭受诸如泄漏、阻塞、泵衰竭之类的问题,或者其他问题,则影响其相关联的设备。能够通过示例性实施方式自动地生成诸如图3和图4中图示出的那些连接图之类的连接图,帮助操作员或其他系统根据公共回路配置/冗余确定系统的什么部分可能处于风险(例如,给定设备是否享有冷却回路冗余)以及是否优先针对一个系统或其他部署工作负载。例如,工作负载引擎/指令可以偏置工作负载分布以远离公共回路3 353中的设备(由于缺乏冷却回路冗余),并且向着机架1 341中的设备(其由于通过公共回路1 351和2352所服务而具有冗余)分布工作负载。关于最新指配的工作负载(例如,在完成现存的工作负载之后),工作负载引擎/指令能够管理它们这些工作负载,和/或在工作负载的执行期间工作负载引擎/指令能够动态地管理工作负载。连接图能够如图3和图4中所示是可见的(例如,用于容易的/直观的操作员投入),或者被逻辑/数值编码以用于(例如,基于表格、文本文件、原始数据,或者其他形式的信息通信)传送到其他系统。
在另一个示例中(未示出),四个机架能够以2N配置来布置,意指四个机架和两个CDU,以实现对于给定资源所需要的性能的两倍。如果CDU中的一个出故障,则系统操作为1N,以满足系统的性能。参考图3,通过CDU1 342和CDU2 344服务于机架1 341,结果得到用于机架1的性能的两倍或者2N。其他示例2N系统能够以各种方式操作冗余的CDU,例如,每个承载50%的负载。CDU彼此进行通信/协调,例如以主从配置的方式。关联引擎也能够与CDU进行通信并且协调它们的冗余运算。如果CDU中的一个出故障,则其他CDU能够拾取负载以提供100%的负载。替换地,一个CDU能够以100%的负载正常地操作,其他充当保留备份并且以0%的负载闲置,直到被需要(如果第一CDU出故障)。
因此,关联引擎能够在识别诸如机架和CDU之类的各种设备之间的相关性/关系时识别有价值的信息,以了解哪些设备受给定CDU/冷却回路的影响和/或与其隔离。能够经由被动观察和/或扰动如以上阐述的关于各种引擎/指令来推断出此类信息。
图4是根据示例的从工作负载306的观点的连接图400,包括公共回路1 351、公共回路2 352、和公共回路3 353。连接图400被示出为布尔图,其中“AND”和“OR”符号用于表示相关性。如所示,机架1 341冗余地依赖于公共回路1 351(其依赖于CDU1 342)或者公共回路2 352(其依赖于CDU2 344)。Rack4 347单独地依赖于单个公共回路3 353(其依赖于CDU3346)。该布尔图与图3的映射布局图相对应,其中公共回路1 351和2 352两者都冗余地服务于机架1 341。因而,将通过机架1 341和机架4 347执行工作负载308,并且工作负载308享有在CDU1 342、CDU2 344和CDU3346之中享有三倍冗余。
图3和图4中示出的连接图300、400仅仅是示例,并且其他布置是可能的。例如,并非从工作负载306的观点示出连接图400(其显示向工作负载306提供冷却服务所需要的相关性),能够从给定机架、公共回路、CDU,或者其他设备/回路的观点示出连接图400。此类连接图能够容易地示出例如如果机架出故障,或者如果回路出故障,等等哪些设备将会受到影响。能够通过表示引擎/指令以表示给定信息片所理想的无论什么格式来布置通过各种引擎收集和关联的数据。系统能够使用此类信息来识别是否在退化状态中操作系统(例如,凭此系统不再利用冗余操作)。
连接图300、400也能够表示对于操作计划、维护调度、正常运行时间计算、能量效率度量、优化,等等有用的系统信息。视觉显示格式可以包括图标、条形图、文氏图、表格、条状记录器,等等。以上阐述的各种指令/引擎能够在不需要人工努力的情况下自动地确定此类图/故障树。能够动态地更新连接图300、400。能够以图示形式使得在本文阐述的通过实施方式采集的装备信息对于表示引擎可用,允许操作员快速理解冷却回路配置。冷却回路信息能够与状态信息和关于其他子系统的信息集成,以向操作员提供有用的信息。
另外地,能够以非可视格式生成连接图,以供其他计算机/装备使用。示例包括诸如链表之类的数值表示或其他计算机可读或逻辑上可解释的格式。表示引擎也能够除连接图的交互式元件之外提供脚本处理接口/规定和/或将其作为连接图的交互式元件来提供。脚本处理规定使得连接图/故障树信息能够可编程地可用,例如,以供管理软件、工作负载安置指令/引擎、风险缓解例程,等等使用。
工作负载引擎/指令能够使用连接图/脚本处理规定来向设备/机器指配工作负载。例如,工作负载引擎能够以坚决的状态向具有最高数量的冗余系统的物理机器部署工作负载。因而,动态地随着工作负载被指配并且设备被占用,具有故障最小可能性的硬件能够被选择具有最高优先级。在一些替换示例中,工作负载引擎能够根据最可用的(或高效的)冷却回路、最加电的、最联网的域来部署工作负载,以便实现相对域负载均衡。
当在域/冷却回路中识别故障时,在本文描述的实施方式的指令/引擎还能够向任务调度器通知可用性的风险。公共回路和/或它们的相关联的设备能够被指配与该回路的故障的可能性相对应的健康度量。回路能够被主动地控制以在需要低于最大数量的节点/设备时将作业移动到数据中心的物理区域中以便最高效地和/或冗余地利用冷却资源。在一些实施方式中,工作负载引擎能够使数据中心的一部分停止运转以便将工作负载移动到数据中心的区域,其中功率和编码将在设备的系统的更小的区域中最有效地运行。
因而,在本文描述的示例系统的输出能够提供各种益处。输出能够被自动化,以利用较小的人工努力提供结果。系统正常运行时间、维护、和资源管理被优化,包括根据哪些设备共用给定公共回路来提供预测维护调度的能力(例如,向很少使用的冷却回路上的设备提供甚少的服务)。能够为数据中心工作负载安置选项评估风险,并且能够基于冷却回路硬件的当前操作状态来调度作业。方法能够被集成到其他数据中心管理产品中,以提供增强的客户值。通知引擎能够在故障有机会引起可用性的损失之前提供用于被考虑为处于风险的子系统(例如,缺少冗余或过分地操作)的主动维护通知。能够通过例如在晚上将工作负载(虚拟机(VM)或作业)移动到数据中心的更高效且更可靠的物理区域或者在电费最高时撤销低优先级处理来改善数据中心效率。
图5是根据示例的来自多个传感器/设备的读数501、502、503、504的图表500,包括关联507、事件508、以及趋势509。读数501-504可以表示关于一个或多个公共回路中的多个设备的来自一种类型的传感器的读数,并且还可以表示来自不同类型的传感器和/或设备(例如,两个压力传感器、两个流量传感器)的读数。
能够例如在给定系统中在设备的正常操作期间被动地得出所图示的传感器读数数据。例如,第三传感器读数503和第四传感器读数504与彼此关联良好,并且能够表示从时间76分钟到240分钟的公共回路的温度的增加。第一传感器读数501和第二传感器读数502也能够表示温度,但是不与第三传感器读数503和第四传感器读数504关联良好,并且可以与不与第三传感器读数503和第四传感器读数504所共用的回路一样的一个或多个不同的冷却回路相对应。
收集引擎能够收集关于传感器/设备读数501-504的数据,并且关联引擎能够(基于所收集的数据)推断出哪些设备共用公共回路。所图示的数据是通过被动地进行监视而获取的,并且方法也能够反复地使用扰动来活动地扰动系统并且寻找扰动模式(在图5中未示出)以在读数501-504之中显现。关联引擎能够使用常规的数学函数/分析来诸如通过确定用于数据的相关系数来关联所收集的数据。尽管关联507暗示读数502-504被关联(例如,同时相对地平坦——尽管在那时候期间读数501中有峰值),但事件508暗示关联507应当被修订为排除第二读数502。
关联引擎能够例如通过寻找包括冷却回路的温度的峰值、流量,或者其他可检测的特性的传感器读数中的类似的异常(诸如事件508和/或趋势509)来推断出哪些系统是公共回路的一部分。此类异常能够在系统使用期间独立地并且也在能够被设备/传感器读取的故意地引入的扰动期间显现。能够随着时间的推移从设备到设备跟踪扰动的传播,允许确定连接的管件以及甚至沿着给定冷却回路的管件的附接序列。数学相关分析可以被应用以基于收集的读数/度量的时间改变来构建设备当中的关联。类似的扰动或相关分析可以实现在系统内或者甚至在作为整体的数据中心设施中的空气冷却域的映射,使得结果不局限于液体冷却回路。
图5的传感器数据示出来自四个设备/传感器的读数。读数501和502示出若干强的可见的相似性,引起读数501和502与来自相同的冷却回路的不同的部分的类似的数据相对应的推断。能够通过反复地扰动系统直到扰动在第一读数501和第二读数502任一个中或两者中显现来进一步测试该推断。如果扰动在类似的期限在两者中显现,则关联引擎能够推断出第一读数501和第二读数502与公共回路相对应。如果扰动在两者中的一个中出现,则关联引擎能够得出第一读数501和第二读数502不与于公共回路相对应。
事件508使第三读数503和第四读数504中类似的数据趋势的区域突出。针对第一读数501和第二读数502的比较不揭示好的关联,支持关于第一读数501和第二读数502不形成与第三传感器读数503和第四传感器读数504相同的冷却回路的一部分的推断。
能够经由各种方式执行数学相关以确定多个读数之间的相关性。(例如,如对于相关系数使用电子表格功能人工地计算的)全部数据集上的读数501和502的相关系数是0.8,指示强匹配(其中1.0的相关系数指示数学上理想的匹配)。关联引擎能够执行成对比较以识别用于其他对的读数的相关系数。例如,将读数501与读数503和504相比较引起低得多的相关系数,指示较弱的关联。关联引擎可以使用阈值来针对其进行比较并且识别给定相关系数是否对应于匹配,或者是否在阈值的范围内以值得进一步迭代的勘测/扰动。在其他的示例中,关联引擎能够识别“n”个最近的读数的滚动关联,通过n(例如,15或20)个最近的数据点来填充凭此数据的滚动窗口(诸如数据的阵列),将关联限制为被施加到该窗口。考虑到预期数据如何快速地改变,尺寸n(即,窗口)能够被调整为与收集数据的速率相对应。例如,当扰动温度时,扰动可以在数分钟内相对快速地显现,并且窗口相应地能够被调整为捕捉扰动。然而,如果扰动冷却回路的化学特性(诸如pH值),扰动可以跨越数小时,并且能够相应地调整窗口(通过增加n以覆盖更宽跨度的时间,和/或通过减小数据收集速率以覆盖更宽跨度的时间)。在其他的示例中,关联引擎能够使用事件检测方法来识别对于给定读数的显著信号改变的区域,诸如在事件508的椭圆形内所图示的那些。类似地,关联引擎能够识别趋势的区域,诸如导致事件508中的顶点的上升趋势509。因此,可以使关联引擎不管单个读数是否与其他读数有关而独立地对该读数起作用、找出趋势和该读数内的事件。
能够通过多个读数当中的相对类似的时间改变来识别关联的事件508。能够存在给定事件中的读数之间的一些序列/延迟,其可以与沿着给定冷却回路的传感器/设备的不同的位置,以及该回路中的冷却剂循环的速度相对应。此类延迟也能够由关联引擎使用以推断出事件/改变/扰动发源于何处以及事件传播到何处。例如,当延迟是可再现的(例如,基于时间延迟,或者冷却回路容积流量,等等)时——即使在读数当中不是同时的,关联引擎能够识别仍然被认为是事件的读数之间的延迟。
关联引擎能够将读数与先前所收集的数据进行比较,或者将其与n个最近的数据收集的窗口进行比较,以比较和关联数据。关联引擎能够因此识别一个或多个读数中的趋势,并且进行关于下一个读数数据的预测。如果预测显著地是错误的(即,偏离从过去的数据确立的趋势),则在新的趋势的开始和/或定义新的事件时,关联引擎能够识别该与过去的趋势的偏离。在示例中,化学特性传感器能够识别pH的水平、缓蚀剂、和液体冷却回路中的两个不同的抗微生物剂。传感器能够测量冷却剂的阻抗(其根据化学特性改变),并且执行频谱扫描以使用不同的化学制品的对应的不同的频率来识别不同的化学制品。例如,当一个或多个特征以无法预测的方式改变时,那些多个不同类型的读数的组合能够用于确定与冷却回路的化学特性有关的事件。此外,诸如pH的化学特性能够依照要求被人工地上上下下扰动,使得pH能够在任一方向被调整,并且被允许保持在任意的时间量被扰动,直到被扰动回基线值。扰动化学特性的附加的好处是工作负载将不受影响,并且能够继续运行,而不管化学制剂扰动是否被应用。类似地,流速能够被增加、温度能够被将其,并且其他此类扰动能够被应用而不影响工作负载,并且在一些情况下,使性能获益(例如,以增加的功率消耗为代价来提供增强的冷却作为扰动)。
在示例中,关联引擎能够分析来自不同类型的传感器的读数,以便识别对共用的公共回路进行指示的关联。例如,关联引擎能够使来自流量传感器和压力传感器,或者温度传感器和压力传感器的输出关联。尽管不是完全地线性的,但关联引擎能够检测例如冷却回路的虚构的阻抗的显而易见的效果。此外,关联引擎能够使用通常不直接地用于感测的来自传感器的参数。例如,传感器可以测量两个特性,但是第二特性不是典型地用作读数,这是因为传感器本身将使用第二特性来校准/校正第一特性。在本文描述的示例性实施方式能够访问来自两个传感器特性的原始数据,并且使用那些原始传感器数字来识别关联,基本上获取来自给定传感器的附加的第二传感器读数。类似地,传感器读数能够用于对于可能以另外方式改变来自其他传感器的读数(使化学传感器与温度改变一起漂移)的自然的漂移或移位(例如,由于工作负载改变的温度改变)进行标准化或以另外方式调整,以隔离来自传感器读数的可用的数据,以便识别例如趋势/事件/关联。
为了引入扰动,给定系统可以使用各种技术。例如,CDU能够把化学制品注射到其冷却回路中,以扰动能够被化学传感器检测的化学成分。系统能够在机架的流量歧管使用加热器以产生能够被温度传感器检测的冷却剂回流温度。按照,可用于检测该扰动的设备/传感器的类型,引入可控制的扰动的其他技术是可能的。
在一些示例中,能够观察到温度扰动,并且甚至基于改变的工作负载引入温度扰动。能够在由造成的增加的CPU活动和提高的冷却剂温度的工作负载的改变引起的图5的数据的示例中的读数503和504中看出由自然地改变的温度引起的数据的示例。因此,如在本文所使用的,改变温度包括由于改变工作负载(诸如给定工作负载强度的改变,和/或工作负载的分布的改变)所引起的那些变化,是被动地被观察和/或活动地被扰动。此类温度变化不再受限于CPU活动,而是能够经由任何形式的信息技术工作负载而影响温度。在示例性实施方式中,当系统没有运行生产作业或其他关键/优先作业时,改变工作负载特性能够用作诊断工具,以可控地扰动冷却回路的温度。工作负载的度量因此通过关联引擎是可关联的,并且能够跨多个冷却剂回路散步,而不需要受限于给定冷却回路。在示例中,关联引擎能够获取用于给定设备、服务器、和/或机架的工作负载度量,包括从诸如集成熄灯号(HO)、带外管理工具之类的数据中心管理软件获取这样的数据。也能够基于在机架水平的电源子系统的功率监视推断出工作负载,以识别花费在机架中的总功率量以帮助在不同的机架当中隔离趋势/事件/关联以及它们是否共用回路。
因此,许多不同的特性可用于被动地监视和/或活动地扰动,以便收集用于推断出系统当中的公共回路的数据。多个特性的可用性也允许在实现给定实施方式以便实现扰动特性时的大的灵活性,而不影响工作负载。例如,灵敏的工作负载可以防止冷却回路被扰动到增加的温度。鉴于此类约束,诸如化学流速/压力之类的另一个特性能够被扰动,实现有价值的数据收集和公共回路的自动推断。
参考图6和图7,根据本公开的各种示例图示出流程图。流程图表示结合如参考之前的图所讨论的各种系统和设备可以被利用的处理。尽管被以特定顺序说明,但本公开并不意图被如此限制。而是,明确地预期到,各种处理可以以不同的顺序发生和/或与并非那些所说明的处理之外的其他处理同时进行。
图6是根据示例的基于识别公共回路的流程图600。在框610中扰动引擎扰动与多个设备相关联的多个冷却回路中的至少一个冷却回路的至少一个特性。例如,扰动引擎能够指示设备(CDU泵)提高在该设备的冷却剂流量,因此影响与该设备相关联的冷却回路的冷却剂流量。在框620中,收集引擎从与多个冷却回路相关联的多个设备中的至少一部分设备收集数据。例如,收集引擎能够收集通过其他CDU,和/或通过贯穿系统所分布的其他流量传感器所识别的流速信息。在框630中,关联引擎关联收集的数据以从多个冷却回路当中识别公共回路,以及多个设备中的哪些设备与公共回路相关联。例如,关联引擎能够识别趋势、事件,或者超过阈值的所收集的数据之间的相关系数,并且认为该两个或更多读数是关联的。关联引擎然后能够通过通过扰动各种特性并且相应地修订推断来反复地测试此类推断。
图7是根据示例的基于部署工作负载和生成预测和/或任务的流程图700。在框710中,从多个冷却回路当中识别公共回路,以及多个设备中的哪些设备与公共回路相关联。例如,关联引擎能够识别超过阈值的关联,并且反复地扰动系统的各种特性以改进关于关联的推断,以识别公共回路。在框720中,工作负载引擎在共用识别的多个公共循环回路的多个设备中的至少一部分设备之中部署工作负载,以减少由于给定冷却回路的问题所造成的故障的可能性。例如,工作负载能够被分布在第一公共回路中的第一机架和第二公共回路中的第二机架之中,以避免把全部工作负载部署到共用单个公共回路的设备上,使得所使用的任一公共回路的故障将允许工作负载在剩余的回路上继续。类似地,工作负载能够被部署到由多个公共回路冗余地服务的设备——诸如图3中示出的机架1 341上。在框730中,对于与至少一个公共回路相关联的至少一个设备生成i)维护预测,以及ii)调度的任务中的至少一个。例如,工作负载引擎能够识别出公共回路牵涉经历高冷却剂流量/温度变动的三个设备,并且因此提高服务请求的速率以对该回路中所涉及的那些设备执行维护。工作负载引擎也能够识别出任务已经被指配给一些公共回路而不是其它公共回路,并且把工作负载发送到共用空闲的冷却回路的设备。
可以在硬件、软件、或者两者的组合中实施在本文提供的示例。示例系统能够包括处理器和存储器资源以用于执行存储在有形非暂时性介质(例如,易失性存储器、非易失性存储器、和/或计算机可读介质)中的指令。非暂时性计算机可读介质能够是有形的并且具有可由处理器执行以实施根据本公开的示例的存储在其上的计算机可读的指令。
示例系统(例如,包括控制器和/或计算设备的处理器)能够包括和/或接收存储计算机可读指令的集合的有形非暂时性计算机可读介质(例如,软件、固件,等等)以执行在以上和在下面权利要求中描述的方法。例如,系统能够执行指令以引导关联引擎识别冷却回路数据中的关联,其中,引擎包括硬件和/或软件的任何组合以执行在本文描述的指令。如在本文所使用的,处理器能够包括诸如并行处理系统中的一个或多个处理器。存储器能够包括可由处理器寻址的以用于执行计算机可读指令的存储器。计算机可读介质能够包括诸如随机存取存储器(“RAM”)之类的易失性和/或非易失性存储器、诸如硬盘、软盘之类的磁存储器、和/或磁带存储器、固态驱动器“SSD”)、闪速存储器、相变存储器,等等。

Claims (15)

1.一种识别冷却回路特性的系统,包括:
收集引擎,从与多个冷却回路相关联的多个设备收集数据;以及
关联引擎,基于所收集的数据从所述多个冷却回路当中识别公共回路,并且识别所述多个设备中的哪些设备与所述公共回路相关联。
2.根据权利要求1所述的系统,进一步包括工作负载引擎,所述工作负载引擎用于在所述多个设备中的至少一部分设备当中部署工作负载来将至少一个设备包括在第一公共回路中并且将至少一个设备包括在第二公共回路中,以缓解由于给定公共回路的问题而造成的工作负载故障的风险。
3.根据权利要求1所述的系统,进一步包括扰动引擎,所述扰动引擎用于使所述多个设备中的至少一个设备扰动所述多个冷却回路中的至少一个冷却回路的至少一个特性,以使得所述多个设备中的至少一个设备的扰动通过所述关联引擎可识别。
4.根据权利要求3所述的系统,其中,所述扰动基于根据随着时间周期性地变化的扰动模式对所述至少一个特性进行调制,以使得所述扰动模式通过所述关联引擎可识别。
5.根据权利要求3所述的系统,其中,所述至少一个特性包括冷却剂的i)流量特性、ii)温度特性、iii)压力特性、和iv)化学特性中的至少一个。
6.根据权利要求3所述的系统,其中,所述扰动引擎使冷却剂分配单元(CDU)设备随着时间周期性地改变泵速率以扰动与所述CDU相关联的冷却回路的冷却剂的流量。
7.根据权利要求1所述的系统,进一步包括表示引擎,所述表示引擎用于构建表示共用所述公共回路的设备的连接图。
8.根据权利要求1所述的系统,其中,所述关联引擎识别所述公共回路与包括i)CDU设备、和ii)计算系统机架设备中的至少一个的设备流体地耦合。
9.根据权利要求1所述的系统,其中,所述多个设备包括从包括i)流量传感器、ii)温度传感器、iii)压力传感器、和iv)化学传感器的类型当中选择的至少一个类型的传感器。
10.根据权利要求9所述的系统,其中,所述关联引擎基于将来自第一类型的传感器的第一数据与来自第二类型的传感器的第二数据关联来识别所述公共回路,所述第二类型的传感器是与所述第一类型的传感器不同类型的传感器。
11.一种识别冷却回路特性的方法,包括:
由扰动引擎扰动与多个设备相关联的多个冷却回路中的至少一个冷却回路的至少一个特性;
由收集引擎从与所述多个冷却回路相关联的所述多个设备中的至少一部分设备收集数据;并且
由关联引擎关联所收集的数据,以从所述多个冷却回路当中识别公共回路,并且识别所述多个设备中的哪些设备与所述公共回路相关联。
12.根据权利要求11所述的方法,进一步包括:由工作负载引擎在所述多个设备中的至少一部分设备之中部署工作负载,以减少由于给定冷却回路的问题而造成的故障的可能性,所述多个设备共用识别到的多个公共循环回路。
13.根据权利要求11所述的方法,进一步包括:针对与所述至少一个公共回路相关联的至少一个设备生成i)维护预测和ii)调度的任务中的至少一个。
14.一种利用指令编码的非暂时性机器可读存储介质,所述指令用于识别冷却回路特性,所述指令由计算系统可执行,当所述指令被执行时,使所述计算系统用于:
从与多个冷却回路相关联的多个设备收集数据;
基于所收集的数据从所述多个冷却回路当中识别公共回路,并且识别所述多个设备中的哪些设备与所述公共回路相关联;并且
在所述多个设备中的至少一部分设备中部署工作负载来将至少一个设备包括在第一公共回路中并且将至少一个设备包括在第二公共回路中,以缓解由于所述第一公共回路和所述第二公共回路中的一个给定回路的问题而造成的工作负载故障的风险。
15.根据权利要求14所述的存储介质,进一步包括指令,所述指令使所述计算系统响应于对所述第一公共回路和所述第二公共回路中的所述一个给定回路的问题的识别来提供可用性的风险通知。
CN201580081980.5A 2015-12-18 2015-12-18 识别冷却回路特性的系统和方法、以及存储介质 Active CN107852839B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2015/066734 WO2017105499A1 (en) 2015-12-18 2015-12-18 Identifying cooling loop characteristics

Publications (2)

Publication Number Publication Date
CN107852839A true CN107852839A (zh) 2018-03-27
CN107852839B CN107852839B (zh) 2020-11-03

Family

ID=59057396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580081980.5A Active CN107852839B (zh) 2015-12-18 2015-12-18 识别冷却回路特性的系统和方法、以及存储介质

Country Status (4)

Country Link
US (1) US10874035B2 (zh)
EP (1) EP3286994B1 (zh)
CN (1) CN107852839B (zh)
WO (1) WO2017105499A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10905030B1 (en) * 2019-07-24 2021-01-26 Facebook, Inc. Liquid-cooling within an air-cooled facility
US20210267095A1 (en) * 2020-02-21 2021-08-26 Nvidia Corporation Intelligent and integrated liquid-cooled rack for datacenters
US20220142006A1 (en) * 2020-10-29 2022-05-05 Nvidia Corporation Intelligent radiator-assisted power and coolant distribution unit for datacenter cooling systems
US11812589B2 (en) * 2021-05-12 2023-11-07 Nvidia Corporation Intelligent refrigerant distribution unit for datacenter cooling systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090309570A1 (en) * 2008-06-16 2009-12-17 American Power Conversion Corporation Methods and systems for managing facility power and cooling
US7676280B1 (en) * 2007-01-29 2010-03-09 Hewlett-Packard Development Company, L.P. Dynamic environmental management
US8180494B2 (en) * 2008-08-27 2012-05-15 International Business Machines Corporation System and method for dynamically managing blowers and vents
CN104748324A (zh) * 2013-12-27 2015-07-01 国际商业机器公司 在数据中心内控制空调单元的方法和设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051946B2 (en) * 2003-05-29 2006-05-30 Hewlett-Packard Development Company, L.P. Air re-circulation index
US7086247B2 (en) 2004-08-31 2006-08-08 International Business Machines Corporation Cooling system and method employing auxiliary thermal capacitor unit for facilitating continuous operation of an electronics rack
ES2604783T3 (es) 2007-01-24 2017-03-09 Schneider Electric It Corporation Sistema y método para evaluar el rendimiento de enfriamiento de bastidores de equipos
US20080288193A1 (en) * 2007-05-17 2008-11-20 International Business Machines Corporation Techniques for Analyzing Data Center Energy Utilization Practices
US8411439B1 (en) * 2007-09-28 2013-04-02 Exaflop Llc Cooling diversity in data centers
JP5376538B2 (ja) 2007-12-21 2013-12-25 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 水分量制御システム
US8346398B2 (en) 2008-08-08 2013-01-01 Siemens Industry, Inc. Data center thermal performance optimization using distributed cooling systems
US10123463B2 (en) 2008-08-11 2018-11-06 Green Revolution Cooling, Inc. Liquid submerged, horizontal computer server rack and systems and method of cooling such a server rack
US8297069B2 (en) 2009-03-19 2012-10-30 Vette Corporation Modular scalable coolant distribution unit
US8984897B2 (en) 2009-09-16 2015-03-24 International Business Machines Corporation Endothermic reaction apparatus for removing excess heat in a datacenter
US8688288B2 (en) 2011-02-07 2014-04-01 Hewlett-Packard Development Company, L.P. Managing an infrastructure housing disaggregated heat sources
US20140029196A1 (en) * 2011-04-15 2014-01-30 Kevin Smith System for balanced power and thermal management of mission critical environments
US9476649B2 (en) * 2011-09-23 2016-10-25 R4 Ventures Llc Real-time individual electronic enclosure cooling system
US8817474B2 (en) * 2011-10-31 2014-08-26 International Business Machines Corporation Multi-rack assembly with shared cooling unit
US8713735B1 (en) 2011-12-06 2014-05-06 DPX Ventures Limited Compact survival tool
US8991198B2 (en) * 2012-04-10 2015-03-31 International Business Machines Corporation Cooling system control and servicing based on time-based variation of an operational variable
US9445529B2 (en) * 2012-05-23 2016-09-13 International Business Machines Corporation Liquid cooled data center design selection
US9218008B2 (en) 2012-12-06 2015-12-22 International Business Machines Corporation Effectiveness-weighted control of cooling system components
US9784460B2 (en) 2013-08-01 2017-10-10 Nautilus Data Technologies, Inc. Data center facility and process that utilizes a closed-looped heat management system
US9007221B2 (en) 2013-08-16 2015-04-14 Cisco Technology, Inc. Liquid cooling of rack-mounted electronic equipment
WO2016018423A1 (en) * 2014-07-31 2016-02-04 Hewlett-Packard Development Company, L.P. Air and fluid cooling of a data center
US9538688B2 (en) * 2015-03-13 2017-01-03 Advanced Micro Devices, Inc. Bimodal cooling in modular server system
US10571980B2 (en) * 2015-04-07 2020-02-25 Hewlett Packard Enterprise Development Lp Hybrid cooling control of a computing system
US20160338230A1 (en) * 2015-05-12 2016-11-17 Advanced Micro Devices, Inc. Control of thermal energy transfer for phase change material in data center
US11240937B2 (en) * 2018-05-10 2022-02-01 Uniflair S.P.A. Modular chiller for data centers
US11716834B2 (en) * 2019-01-31 2023-08-01 Baidu Usa Llc Systems and methods for thermal management of a data center

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676280B1 (en) * 2007-01-29 2010-03-09 Hewlett-Packard Development Company, L.P. Dynamic environmental management
US20090309570A1 (en) * 2008-06-16 2009-12-17 American Power Conversion Corporation Methods and systems for managing facility power and cooling
US8180494B2 (en) * 2008-08-27 2012-05-15 International Business Machines Corporation System and method for dynamically managing blowers and vents
CN104748324A (zh) * 2013-12-27 2015-07-01 国际商业机器公司 在数据中心内控制空调单元的方法和设备

Also Published As

Publication number Publication date
EP3286994B1 (en) 2020-07-22
US20180317347A1 (en) 2018-11-01
EP3286994A4 (en) 2018-04-25
WO2017105499A1 (en) 2017-06-22
CN107852839B (zh) 2020-11-03
US10874035B2 (en) 2020-12-22
EP3286994A1 (en) 2018-02-28

Similar Documents

Publication Publication Date Title
US20210329812A1 (en) Methods and systems for managing facility power and cooling
Yan et al. A sensor fault detection strategy for air handling units using cluster analysis
CA2882794C (en) Systems and methods for computer equipment management
EP2604101B1 (en) System and method for predicting transient cooling performance for data center
CN103810231B (zh) 用于机群的维护系统和用于规划维护的方法
CN107852839A (zh) 识别冷却回路特性
ES2420856T3 (es) Métodos y sistemas para administrar la energía y la refrigeración de una instalación.
CN105900540B (zh) 数据中心控制方法和系统
Borghesi et al. Online anomaly detection in hpc systems
US10691528B1 (en) Automatic repair of computing devices in a data center
JP7005614B2 (ja) データセンターオペレーティングシステムを実装するための方法およびシステム
Zapater et al. Leakage-aware cooling management for improving server energy efficiency
CN104615447A (zh) 一种整机柜服务器监控管理软件复用方法
KR102114895B1 (ko) 빌딩 내 설비의 에너지 효율을 기반으로 한 빌딩 내 설비의 노후화시기 예측을 위한 빌딩자동제어 시스템 및 방법
CN114830096A (zh) 用于管理计算设备的系统和方法
KR20150043170A (ko) 에너지 관리 시스템 및 에너지 관리 방법
CN106371958A (zh) 一种服务器故障诊断系统及方法
Shin et al. Revealing power, energy and thermal dynamics of a 200pf pre-exascale supercomputer
CN106407054A (zh) 一种bmc自动测试系统及方法
WO2018009932A1 (en) Electrical network inspection devices
CN109154801A (zh) 用于在家用器具上实施工艺技术过程的系统
Kudithipudi et al. Thermal management in many core systems
CN109901979A (zh) 模型优化智能评估方法、服务器及计算机可读存储介质
CN103854075A (zh) 一种针对电子单机热待机环境下的故障预测方法及预测设备
CN109218069A (zh) 一种单板过温处理装置及处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant