CN113170592A - 基于监测/控制机制的热控制优化 - Google Patents

基于监测/控制机制的热控制优化 Download PDF

Info

Publication number
CN113170592A
CN113170592A CN201880099629.2A CN201880099629A CN113170592A CN 113170592 A CN113170592 A CN 113170592A CN 201880099629 A CN201880099629 A CN 201880099629A CN 113170592 A CN113170592 A CN 113170592A
Authority
CN
China
Prior art keywords
training
monitoring
simulation
control system
simulation results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880099629.2A
Other languages
English (en)
Other versions
CN113170592B (zh
Inventor
卢毅军
宋军
奉有泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN113170592A publication Critical patent/CN113170592A/zh
Application granted granted Critical
Publication of CN113170592B publication Critical patent/CN113170592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20718Forced ventilation of a gaseous coolant
    • H05K7/20745Forced ventilation of a gaseous coolant within rooms for removing heat from cabinets, e.g. by air conditioning device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Thermal Sciences (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

提供了用于改进热控制的设备和方法,包括收集多个系统的数据,多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果;使用第一组仿真结果对控制系统进行第一训练以获得第一训练后控制系统;以及使用第一训练后控制系统来监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且控制至少一个第二制冷元件和至少一个第二生热元件。

Description

基于监测/控制机制的热控制优化
背景技术
关于互联网数据中心(IDC)的运营支出(OpEx),功率服务器和IDC设备的电力消耗、设备的制冷等可以占总OpEx的大约一半。近年来,制冷成本已经成为IDC的OpEx的主要因素。因此,热控制优化即制冷机制优化已经成为必须解决的任务。
附图说明
参照附图给出详细说明。在附图中,附图标记的最左边的数字表示附图标记首次出现的附图。在不同附图中使用相同的附图标记表示相似或相同的项目或特征。
图1例示了可以用于现场系统的热控制优化的监测/控制机制的示例框图。
图2A、图2B、图2C和图2D例示了建立可以用于现场系统的热控制优化的监测/控制机制的处理的示例流程图。
图3A和图3B例示了实现参照图1和图2A至图2D描述的系统和处理的设备的示例框图。
具体实施方式
本文讨论的系统和处理涉及改进热效率,更具体地涉及改进基于监测/控制机制的实时和多维热控制优化。
流体动力学,诸如计算流体动力学(CFD),是使用数值分析和数据结构来分析和解决涉及流体流动的问题的流体力学的分支。CFD分析可以用于进行热控制优化。例如,可以根据实际数据建立和校准系统的CFD模型。然后,可以在CFD模型上运行仿真以生成结果来指导硬件设计、组件布局等,从而提高系统的热效率。然而,CFD分析是劳动密集型和昂贵的。具有IDC设置的许多实体只能承受得起偶尔进行CFD分析,例如每年一次。一些小实体甚至根本不能进行CFD分析。
此外,进行CFD分析可能具有以下缺点。首先,服务器和IDC设施设备的条件会随时间改变。偶尔如每年一次地进行CFD会失去以持续方式改进热控制的机会。其次,当进行CFD时,IDC可能不是在经受异常/紧急状况。例如,不寻常的热情况可能在几年发生一次,或者空调可能不可预见地发生故障。通过单次CFD分析生成的数据或结果会错过许多异常/紧急场景,导致模型不完整。
鉴于以上讨论的问题,没有经济上可行的解决方案来以具有多维考虑的实时方式对IDC进行热控制优化,在仿真模型中也没有引入异常/紧急状况。多维考虑可以是指考虑异常/紧急状况,这将在下文中详细讨论。
本文讨论的系统和处理可以用于基于监测/控制机制的多维热控制优化。在实现方式中,可以实时地或定期地执行热控制优化。可以收集多个系统的数据。多个系统中的各个系统可以包括至少一个第一制冷元件和至少一个第一生热元件。可以基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果。可以提供控制系统。可以使用第一组仿真结果对控制系统进行第一训练以获得第一训练后控制系统。第一训练后控制系统可以用于监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且用于控制至少一个第二制冷元件和至少一个第二生热元件。附加地或另选地,第一训练后控制系统可以用于向现场系统提供建议以控制至少一个第二制冷元件和至少一个第二生热元件。
可以使用第一训练后控制系统生成一组条件。可以将所述一组条件发送到仿真模型。可以基于所述一组条件使用仿真模型进行第二仿真以获得第二组仿真结果。可以使用第二组仿真结果对第一训练后控制系统进行第二训练,以获得第二训练后控制系统。第二训练后控制系统可以用于监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并用于控制至少一个第二制冷元件和至少一个第二生热元件。附加地或另选地,第一训练后控制系统向现场系统提供建议以控制至少一个第二制冷元件和至少一个第二生热元件。
可以从包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统发送反馈数据。可以通过使用反馈数据对第二训练后控制系统进行第三训练来更新第二训练后控制系统。
仿真模型可以是计算流体动力学(CFD)模型。第一组仿真结果可以包括第一组热图和/或气流图,而第二组仿真结果包括第二组热图和/或气流图。
多个系统中的各个系统可以包括一个或更多个CPU、一个或更多个计算装置、一个或更多个服务器、一个或更多个服务器机架(rack of servers)和/或多个计算装置、以及一个或更多个互联网数据中心(IDC)。
控制系统可以包括卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)、强化学习(RL)网络、机器学习(ML)网络、深度学习(DL)网络、决策树及其任何组合。
上下文中的术语可以表示如下。IDC可以包括IT装置和IDC设施设备。IT资源可以是指各种计算装置,包括计算节点、存储装置、网络装置等。IDC设施设备可以是指IDC中的共享基础设施设备,包括空调设备、水泵、不间断电源(UPS)、风扇等。人工智能(AI)可以在一般意义上使用,包括广泛范围的AI模型,诸如卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)、强化学习(RL)网络、机器学习(ML)网络、深度学习(DL)网络和决策树。
图1例示了可以用于现场系统的热控制优化的监测/控制系统的示例框图100。
可以提供包括多个系统的一组系统102,其中,多个系统中的各个系统包括至少一个制冷元件和至少一个生热元件。可以收集一组系统102的数据104。例如,一组系统102可以是一组IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。一组IDC中的各个IDC的数据可以包括空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中的多个点处的温度等方面的通常设定。例如,大型IDC可以具有105000个服务器,其房间大小约为1000m2。可以有一层用于布置服务器,另一层用于布置IT装置。中型IDC可以具有10000个服务器,其房间大小约为500m2。小型IDC可以具有500个服务器,其房间大小约为200m2。此外,可以设置其它数量的服务器和其它房间大小。潮湿天气中的IDC可能在休斯顿。寒冷天气下的IDC可能在芝加哥。炎热天气下的IDC可能在墨西哥城。此外,IDC可以处于其它地方和在其它天气状况下。
可以基于数据104提供诸如CFD模型的仿真机制106。CFD模型在下文中为了描述而用作流体力学或流体动力学中的数值方法的示例,而不是将应用限制于CFD模型。仿真机制106可以运行第一仿真以生成第一组仿真结果108。例如,可以基于空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中多个点的温度等,通过诸如Solidworks、Ansys Fluent和Simscale之类的任何合适的软件来建立仿真机制106。然后,仿真机制106可以仿真气流如何与IDC设备相互作用并生成第一组仿真结果108。第一组仿真结果可以包括一种系统102的热图和/或气流图,其示出了热和/或气流分布的三维或二维图片。CFD模型可以当场部署在系统中或者可以位于远程。
可以提供能够学习和自适应的监测/控制机制110,例如AI模型或决策树。例如,可以提供监测/控制机制110以包括卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)、强化学习(RL)、机器学习(ML)网络、深度学习(DL)网络或其任何组合。为了描述的目的,在下文中将AI模型用作监测/控制机制的示例,而不是将应用限制于AI模型。而且,可以使用其它合适的监测/控制机制。
可以使用一组系统102的数据104和/或第一组仿真结果108来进行对监测/控制机制110的第一轮训练。例如,一组系统102中的一个系统的数据104可以用作监测/控制机制110的输入。然后,监测/控制机制110可以预测该系统的热图和/或气流图以及热点/区域和冷点/区域所在的位置。然后,可以将所预测的热图和/或气流图与由来自仿真机制106的第一组仿真结果108提供的系统的实际热图和/或气流图进行比较。如果所预测的热图和/或气流图不够准确,则可以将所预测的热图和/或气流图与实际热图和/或气流图之间的差反馈到监测/控制机制110的输入,从而以迭代方式训练监测/控制机制110,直到所预测的热图和/或气流图的准确度低于阈值。准确度阈值可以由用户或制造商根据需要调整。监测/控制机制110的第一轮训练可以遍历第一组仿真结果108中的所有热图和/或气流图。在使用第一组仿真结果108中的所有热图和/或气流图来训练了监测/控制机制110之后,可以结束第一轮训练。
在第一轮训练之后,监测/控制机制110可以用于生成一组异常/紧急状况112。例如,在西雅图的IDC通常会经历寒冷的天气。然而,在夏季的几天中,西雅图会变得非常热,例如超过40℃(这在几十年中没有发生)。监测/控制机制110能够仿真这种不寻常的天气状况。又例如,IDC中的AC可能突然且不可预测地关闭。监测/控制机制110能够仿真这种紧急情况。此外,监测/控制机制110可以仿真诸如停电、电力故障之类的紧急情况,以及由于关闭所有设备以运行CFD分析不实际而不可能从一组系统102中收集的其他情形。
仿真机制106可以使用一组异常/紧急状况112来运行第二仿真以生成第二组仿真结果114。第二组仿真结果114可以包括异常/紧急状况112下的热图和/或气流图。
在监测/控制机制110处,可以使用第二组仿真结果114进行对监测/控制机制110的第二轮训练。例如,一组系统102的数据104和第二组仿真结果108可以用于训练监测/控制机制110。一组系统102的一个IDC的数据104可以用作监测/控制机制110的输入。然后,监测/控制机制110可以预测异常/紧急状况112下的热图和/或气流图。然后,异常/紧急状态112下的所预测的热图和/或气流图可以与由来自仿真机制106的第二组仿真结果108提供的实际热图和/或气流图异常/紧急状态112进行比较。异常/紧急状态112下的所预测的热图和/或气流图与异常/紧急状态112下的实际热图和/或气流图之间的差可以反馈到监测/控制机制110的输入,从而以迭代方式训练监测/控制机制110,直到异常/紧急状态112下的所预测的热图和/或气流图的准确度低于阈值。准确度阈值可以由用户或制造商根据需要调整。监测/控制机制110的第二轮训练可以遍历第二组仿真结果108中的异常/紧急状况112下的所有热图和/或气流图。在使用第二组仿真结果114中的异常/紧急状况112下的所有热图和/或气流图训练了监测/控制机制110之后,可以结束第二轮训练。
在第二轮训练之后,监测/控制机制110可以用于监测包含具有至少一个制冷元件和至少一个生热元件的空间的现场系统118,并且控制至少一个制冷元件和至少一个生热元件。而且,监测/控制机制110可以用于提供预测和/或建议116以优化现场系统118的热控制。现场系统可以是现场IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。现场IDC可以是指实际IDC。现场IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。监测/控制机制110可以部署在现场系统118中或远程部署。
例如,可以收集现场系统118的数据,例如空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中多个点处的温度等,以用作监测/控制机制110的输入。监测/控制机制110可以预测现场系统118的热图和/或气流图。
例如,当在机架的底部有制冷装置时,在机架的顶部可能有热点/区域。当机架顶部有制冷装置时,机架底部可能有热点/区域。当服务器忙时,服务器上可能有热点/区域。由于热点/区域可能对设备造成损坏,因此可以开大或打开热点/区域附近的制冷装置以降低热点/区域的温度。此外,可以重新调度忙碌服务器的工作负载,或可以降低忙碌服务器的频率,使得可以降低服务器温度。当服务器不忙或空闲时,服务器上可能有冷点/区域。为了节省能量,可以关小或关闭冷点/区域附近的制冷装置。
可接受的温度范围,例如22℃至40℃,可以由用户或制造商预先确定和随时调整。对于在可接受温度范围内的点/区域,监测/控制机制可以保持监测这样的点/区域。当温度具有升高的趋势时,监测/控制机制110可以向现场系统118发送或呈现预防消息,使得可以采取初步措施以避免温度变得过高。温度为40℃或以上的点/区域可以被识别为热点/区域,温度为22℃或以下的点/区域可以被识别为冷点/区域。对于可接受温度范围之外的点/区域,例如热点/区域和冷点/区域,监测/控制机制110可以建议现场系统118采取措施以避免对设备的损坏或以节省能量。例如,如果在所预测的热图和/或气流图中存在热点/区域,则监测/控制机制110可以建议现场系统118开大或打开热点/区域附近的制冷装置。如果服务器非常忙并且生成太多的热量,则监测/控制机制110可以建议现场系统118重新调度工作负载或降低服务器的频率,使得可以降低服务器的温度。如果在所预测的热图和/或气流图中存在冷点/区域,则监测/控制机制110可以建议现场系统118关小或关闭冷点/区域附近的制冷装置。这样,可以优化现场系统118的热控制。
现场系统118可以向监测/控制机制110发送反馈120。反馈120可以包括从现场系统118收集的可以用于验证预测和/或建议116的实际数据。监测/控制机制110可以从来自现场系统118的反馈120学习新知识。例如,可能存在监测/控制机制110的所预测的热图和/或气流图与现场系统118的实际热分布不匹配的情形。监测/控制机制可以预测热点/区域可能在现场系统118中的机架的顶部。然而,机架顶部的热点/区域不可能存在于该现场系统118中。在这种情况下,现场系统118可以向监测/控制机制110发送错误。包含在反馈120中的数据可以用于对监测/控制机制进行第三轮训练,使得监测/控制机制110可被更新/调节。对监测/控制机制110的第三轮训练可以以与第一轮和第二轮训练类似的方式进行。监测/控制机制可以以持续的方式更新,因为新一轮的训练可以根据需要在任何时间进行。不断更新的监测/控制机制110可以向现场系统118提供较好的预测和/或建议116。
监测/控制机制110可以由向现场系统118提供咨询服务的供应商来更新/调节。更新/调节可以是指使用从现场系统118收集的实际数据以与第一轮训练和第二轮训练类似的方式训练监测/控制机制110。更新/调节可以用一次性约会/支付安排来进行,或者经由预订模式来进行,通过该预订模式可以提供持续的调节。这样,监测/控制机制110可以在现场系统118工作期间保持学习。第一轮训练和第二轮训练可以是用于监测/控制机制110学习关于一组给定系统102的热图和/或气流图的知识的处理。使用监测/控制机制110来预测现场系统118的热图和/或气流图可以是监测/控制机制110应用该知识的处理。监测/控制机制110的更新/调节可以是监测/控制机制110保持学习来自现场系统118的反馈120以使得监测/控制机制110可以以持续的方式提供较好的预测的处理。
监测/控制机制110可以将反馈120发送到其他方面(经由中心点或以对等方式),诸如平台、服务中心、技术支持部门、管理部门、外部顾问和其他AI模型。因此,其它方面可以更新它们的信息。
此外,监测/控制机制110可以以实时方式向现场系统118提供预测和/或建议116。例如,现场系统118可以如监测/控制机制110所建议的那样开大或打开热点/区域附近的制冷装置,并且温度可以稍后下降到22℃以下。然后,监测/控制机制110可以建议现场系统118关小或关闭制冷装置。现场系统118可以如监测/控制机制110所建议的那样重新调度服务器的工作负载或降低服务器的频率,并且温度可以稍后下降到22℃以下。然后,监测/控制机制110可以建议现场系统118关小或关闭制冷装置。这样,可以以实时方式优化IDC的热控制。监测/控制机制110可以定期地或根据需要向现场系统118提供预测和/或建议116。
此外,监测/控制机制110可以以多维方式向现场系统118提供预测和/或建议116。多维考虑可以是指考虑异常/紧急状况。例如,在西雅图的现场IDC通常会经历寒冷的天气。然而,在夏季的几天中,西雅图可能变得非常热,例如超过40℃(这在几十年中没有发生)。环境温度的数据可以被发送到监测/控制机制110,监测/控制机制可以预测40℃的环境温度下的现场系统118的热图和/或气流图。监测/控制机制110可以基于所预测的热图和/或气流图建议现场系统118打开或打开热点/区域附近的制冷装置并且关小或关闭冷点/区域附近的制冷装置。例如,现场系统118的AC可能突然且不可预测地关闭。AC的位置数据可以被发送到监测/控制机制110,监测/控制机制110可以预测AC关闭时现场系统118的热图和/或气流图。监测/控制机制可以建议现场系统118基于所预测的热图和/或气流图来打开或打开热点/区域附近的制冷装置并关小或关闭冷点/区域附近的制冷装置。例如,当意外停电或电力故障发生时,监测/控制机制110可以预测在这种状况下的现场系统118的热图和/或气流图,并且可以向现场系统118提供预测和/或建议116,以使用备用电力仅运行热点/区域处的制冷装置而不运行所有的制冷装置。当其他异常/紧急状况发生时,监测/控制机制110可以还能够向现场系统118提供预测和/或建议116。这样,可以以多维方式优化IDC的热控制。
此外,可以在现场系统118中进行修改,例如,添加或移除机架或服务器,或者添加或移除AC。这些修改的数据可以被发送到监测/控制机制110,该监测/控制机制可以预测这些修改如何影响场IDC 108的热图和/或气流图,以及冷点/区域和热点/区域的位置。监测/控制机制110可以基于所预测的热图和/或气流图向现场系统118提供预测和/或建议116,例如在添加的机架或服务器附近添加制冷装置。
此外,本文讨论的系统和机制可以包括涉及使用人工/仿真数据和/或真实世界数据来训练监测/控制机制的方面和/或应用。而且,训练后的监测/控制机制可以用于向系统提供关于如何布置各种生热元件和/或制冷元件等的建议。该系统可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。例如,当设计这种系统时,布局图可以用作监测/控制机制的输入。监测/控制机制可以预测的热图和/或气流图以及冷点/区域和热点/区域的位置。监测/控制机制可以基于所预测的热图和/或气流图向现场系统提供预测和/或建议,例如,在添加的机架或服务器附近添加制冷装置。
图2A至图2D例示了建立可以用于现场系统的热控制优化的监测/控制机制的处理200的示例流程图。
在框202处,可以提供包括多个系统的一组系统102,其中,多个系统中的各个系统包括至少一个制冷元件和至少一个生热元件。可以收集一组系统102的数据104。例如,一组系统102可以是一组IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。一组IDC中的各个IDC的数据可以包括空间或房间的大小、服务器的数量、空间或房间的布局环境温度、湿度、空间(其可以是三维的或二维的)中的多个点处的温度等方面的通常设定。例如,大型IDC可以具有105000个服务器,其房间大小约为1000m2。可以有一层用于布置服务器,另一层用于布置IT装置。中型IDC可以具有10000个服务器,其房间大小约为500m2。小型IDC可以具有500个服务器,其房间大小约为200m2。此外,可以设置其它数量的服务器和其它房间大小。潮湿天气下的IDC可能在休斯顿。寒冷天气下的IDC可能在芝加哥。炎热天气下的IDC可能在墨西哥城。此外,IDC可以处于其它地方和在其它天气状况下。
在框204处,可以基于一组系统的数据建立诸如CFD模型的仿真机制106。CFD模型在下文中为了描述而用作流体力学或流体动力学中的数值方法的示例,而不是将应用限制于CFD模型。例如,可以基于空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中的多个点处的温度,通过诸如Solidworks、Ansys Fluent和Simscale之类的任何合适的软件来建立仿真机制106。然后,仿真机制106可以运行第一仿真以生成第一组仿真结果108。CFD可以仿真气流如何与IDC设备相互作用。例如,第一组仿真结果可以包括一组系统102的热图和/或气流图和/或气流图,其示出了热和/或气流分布的三维或二维图片。仿真机制106可以当场部署在系统中或者可以位于远程。
在框206处,可以提供诸如AI模型或决策树的监测/控制机制110。例如,监测/控制机制110可以包括卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)、强化学习(RL)网络、机器学习(ML)网络、深度学习(DL)网络或其任何组合。为了描述的目的,在下文中将AI模型用作监测/控制机制的示例,而不是将应用限制于AI模型。而且,可以使用其它合适的监测/控制机制。
在框208处,可以使用一组系统102的数据104和/或第一组仿真结果108来进行对监测/控制机制110的第一轮训练。
在框210处,在第一轮训练之后,监测/控制机制110可以用于生成一组异常/紧急状况112。异常/紧急状况112可能无法从一组系统102收集,因为异常/紧急情形可能几年发生一次或是不可预测的。例如,在西雅图的IDC通常会经历寒冷的天气。然而,在夏季的几天中,西雅图可能变得非常热,例如超过40℃(这在几十年中没有发生)。监测/控制机制110能够仿真这种不寻常的天气状况。又例如,IDC中的AC可能突然且不可预测地关闭。监测/控制机制110能够仿真这种紧急情况。此外,监测/控制机制110可以仿真诸如停电之类的紧急情况以及由于关闭所有设备以运行CFD分析不实际而不可能从一组系统102收集的其他情形。
在框212处,仿真机制106可以使用一组异常/突发热状况112来运行第二仿真以生成第二组仿真结果114。第二组仿真结果114可以包括异常/紧急状况112下的热图和/或气流图。
在框214处,可以使用第二组仿真结果114来进行对监测/控制机制110的第二轮训练。
在框216处,在第二轮训练之后,监测/控制机制110可以用于监测包含具有至少一个制冷元件和至少一个生热元件的空间的现场系统118,并且控制至少一个制冷元件和至少一个生热元件。此外,监测/控制机制110可以用于提供预测和/或建议116以优化现场系统118的热控制。现场系统可以是现场IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。现场IDC可以是指实际IDC。现场IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。监测/控制机制110可以部署在现场系统118中或远程部署。
例如,可以收集现场系统118的数据,例如空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中多个点处的温度等,以用作监测/控制机制110的输入。监测/控制机制110可以预测现场系统118的热图和/或气流图。例如,当在机架的底部有制冷装置时,在机架的顶部可能有热点/区域。当机架顶部有制冷装置时,机架底部可能有热点/区域。当服务器忙时,服务器上可能有热点/区域。由于热点/区域可能对设备造成损坏,因此可以开大或打开以热点/区域附近的制冷装置降低热点/区域的温度。此外,可以重新调度忙碌服务器的工作负载,或可以降低忙碌服务器的频率,使得可以降低服务器温度。当服务器不忙或空闲时,服务器上可能有冷点/区域。为了节省能量,可以关小或关闭冷点/区域附近的制冷装置。
可接受的温度范围,例如22℃至40℃,可以由用户或制造商预先确定和随时调整。对于在可接受温度范围内的点/区域,监测/控制机制可以保持监测这样的点/区域。当温度具有升高的趋势时,监测/控制机制110可以向现场系统118发送或呈现预防消息,使得可以采取初步措施以避免温度变得过高。温度为40℃或以上的点/区域可以被识别为热点/区域,温度为22℃或以下的点/区域可以被识别为冷点/区域。对于可接受温度范围之外的点/区域,例如热点/区域和冷点/区域,监测/控制机制110可以建议现场系统118采取措施以避免对设备的损坏或以节省能量。例如,如果在所预测的热图和/或气流图中存在热点/区域,则监测/控制机制110可以建议现场系统118开大或打开热点/区域附近的制冷装置。如果服务器非常忙并且生成太多的热量,则监测/控制机制110可以建议现场系统118重新调度工作负载或降低服务器的频率,使得可以降低服务器的温度。如果在所预测的热图和/或气流图中存在冷点/区域,则监测/控制机制110可以建议现场系统118关小或关闭冷点/区域附近的制冷装置。这样,可以优化现场系统118的热控制。
在框218处,一个或更多个IDC 118可以向监测/控制机制110发送反馈120。反馈120可以包括可以用于验证预测和/或建议116的现场系统118的实际数据。监测/控制机制110可以从来自现场系统118的反馈120学习新知识。例如,可能存在监测/控制机制的所预测的热图和/或气流图与现场系统118的实际热分布不匹配的情形。监测/控制机制可以预测热点/区域可能在现场系统118中的机架的顶部。然而,机架顶部的热点/区域不可能存在于该现场系统118中。在这种情况下,现场系统118可以将错误作为反馈发送到监测/控制机制110。包含在反馈120中的数据可以用于对监测/控制机制进行第三轮训练,使得监测/控制机制110可被更新/调节。监测/控制机制110的第三轮训练可以以与第一轮训练和第二轮训练类似的方式进行。监测/控制机制110可以以持续的方式更新,因为新一轮的训练可以根据需要在任何时间进行。不断更新的监测/控制机制110可以向现场系统118提供较好的预测和/或建议116。
在框220处,可以基于反馈120来更新/调节监测/控制机制110。更新/调节可以是指使用从现场系统118收集的实际数据以与第一轮训练和第二轮训练类似的方式训练监测/控制机制110。更新/调节可以利用一次性约会/支付安排来进行,或者经由预订接口来进行,通过该预订接口可以提供持续的调节。这样,监测/控制机制110可以在现场系统118工作期间保持学习。第一轮训练和第二轮训练可以是用于监测/控制机制110学习关于一组给定系统102的热图和/或气流图的知识的处理。使用监测/控制机制110来预测现场系统118的热图和/或气流图可以是监测/控制机制110应用该知识的处理。监测/控制机制110的更新/调节可以是监测/控制机制110保持学习来自现场系统118的反馈以使得监测/控制机制110可以以持续的方式提供较好的预测的处理。
在框222处,监测/控制机制110可以向诸如平台、服务中心、技术支持部门,管理部门、外部顾问和其他AI模型等其他方面(经由中心点或以对等方式)发送反馈120。因此,其它方面可以更新它们的信息。
参照图2C,框208可以包括以下内容。
在框224处,一组系统102中的一个系统的数据104可以用作监测/控制机制110的输入。
在框226处,监测/控制机制110可以预测系统的热图和/或气流图以及热点/区域和冷点/区域所在的位置。
在框228处,可以将所预测的热图和/或气流图与由来自仿真机制106的第一组仿真结果108提供的系统的实际热图和/或气流图进行比较。
在框230可将,可以确定所预测的热图和/或气流图的准确度是否低于阈值。准确度阈值可以由用户或制造商根据需要调整。
在框232处,如果所预测的热图和/或气流图的准确度不在阈值以下,则所预测的热图和/或气流图与实际热图和/或气流图之间的差可被反馈到监测/控制机制110的输入,从而以迭代方式训练监测/控制机制110。
在框234处,如果所预测的热图和/或气流图的准确度低于阈值,则可以确定是否使用了第一组仿真结果108中的所有热图和/或气流图训练监测/控制机制110。如果是,则第一轮训练可以在框236结束。如果否,则处理可以返回到框224。
本文讨论的系统和处理可以用于自动地以持续的方式而无需人工干预地提高IDC的系统的热效率。在建立了IDC时,IDC的操作者不希望来回移动诸如服务器、机架和制冷装置的设备,因为它们太重。例如,支架可以具有大于一吨的重量。本文讨论的系统和处理可以通过调整IDC设备的功率水平来优化热控制。这样,IDC的操作者可能不需要来回移动重型设备。
此外,当设计包括各种生热元件和/或制冷元件的系统(例如新的IDC)的平面图或布局时,本文所讨论的系统和处理可以用于为在安装之前在IDC内定位设备,在建造和安装完成之后重新定位设备,部署制冷装置提供建议,从而可优化IDC的热效率。
参照图2D,框214可以包括以下内容。
在框238处,一组系统102中的一个系统的数据104可以用作监测/控制机制110的输入。
在框240处,监测/控制机制110可以预测系统在异常/紧急状况112下的热图和/或气流图。
在框242处,异常/紧急状况112下的所预测的热图和/或气流图可以与由来自仿真机制106的第二组仿真结果108提供的实际热图和/或气流图异常/紧急状况112进行比较。
在框244处,可以确定在异常/紧急状况112下预测的热图和/或气流图的准确度是否在阈值以下。准确度阈值可以由用户或制造商根据需要调整。
在框246处,如果所预测的热图和/或气流图的准确度不在阈值以下,则异常/紧急状况112下的所预测的热图和/或气流图与异常/紧急状况112下的实际热图和/或气流图之间的差可被反馈到监测/控制机制110的输入,从而以迭代方式训练监测/控制机制110。
在框248处,如果所预测的热图和/或气流图的准确度低于阈值,则可以确定是否使用了第二组仿真结果114中的所有热图和/或气流图训练监测/控制机制110。如果是,则第二轮训练可以在框250处结束。如果否,则处理可以返回到框238。
本文讨论的系统和处理可以不限于用于IDC,并且可以用于任何合适的场景,例如,在CPU级、服务器级或机架级,在汽车、车库、房屋或建筑物中。
虽然本文讨论了CFD模型,但是可以有其它热分析方法可用。本文讨论的设备和处理不限于CFD模型/分析。可以使用任何合适的热模型/分析。
图3A和图3B例示了实现参照图1和图2A至图2D描述的系统和处理的设备300的示例框图。
本文描述的技术和机制可以由设备300的多个实例以及由任何其他计算装置,设备和/或环境来实现。图3A所示的设备300仅是设备的一个示例,并不旨在对用于执行上述处理和/或处理的任何计算装置的使用范围或功能提出任何限制。可以适用于实施例的其它公知的计算装置、设备、环境和/或配置包括但不限于:驾驶员/乘客计算机,服务器计算机、手持式或膝上型设备、多处理器设备、基于微处理器的设备、机顶盒、游戏控制台、可编程消费电子产品、网络PC、小型计算机、大型计算机、包括任何上述设备或设备的分布式计算环境、使用现场可编程门阵列(“FPGA”)和专用集成电路(“ASIC”)的实现方式等。
参照图3A,设备300可以包括一个或更多个处理器302和通信地联接到处理器302的存储器304。处理器302可以执行一个或更多个模块和/或处理以使处理器302执行各种功能。在一些实施方式,处理器302可以包括中央处理单元(CPU)、图形处理单元(GPU)、CPU和GPU两者、或本领域中已知的其它处理单元或组件。另外,各个处理器302可以拥有其自己的本地存储器,本地存储器还可以存储程序模块、程序数据和/或一个或更多个操作设备。
依赖于设备300的确切配置和类型,存储器304可以是易失性的(诸如RAM)、非易失性的(诸如ROM)、闪存、微型硬盘驱动器、存储卡等、或其某种组合。存储器304可以包括可以由处理器302执行的计算机可执行模块,当由处理器302执行时,使处理器302实现参照图1和图2A至图2D描述的系统和处理。
设备300还可以包括用于接收和输出数据的输入/输出(I/O)接口306。设备300还可以包括允许设备300通过网络(未示出)与其他设备(未示出)通信的通信模块308。网络可以包括因特网、诸如有线网络或直接线连接的有线介质、以及诸如声学、射频(RF)、红外和其它无线介质的无线介质。
参照图3B,存储在存储器304上的模块可以包括以下模块。
数据收集模块310可以被配置成收集一组系统102的数据104,其中一组系统102中的各个系统可以包括至少一个制冷元件和至少一个生热元件,如以上参照图1和图2A所讨论的。例如,一组系统102可以是一组IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点、存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。一组IDC中的各个IDC的数据可以包括空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中的多个点处的温度等方面的通常设定。例如,大IDC可以具有105000个服务器,其房间大小约为1000m2。可以有一层用于布置服务器,另一层用于布置IT装置。中型IDC可以具有10000个服务器,其房间大小约为500m2。小型IDC可以具有500个服务器,其房间大小约为200m2。此外,可以设置其它数量的服务器和其它房间大小。潮湿天气下的IDC可能在休斯顿。寒冷天气下的IDC可能在芝加哥。炎热天气下的IDC可能在墨西哥城。此外,IDC可以在其它地方和在其它天气状况下。
仿真模块312可以被配置成基于如以上参照图1和图2A所讨论的一组系统102的数据104来提供仿真结果。仿真模块312可以运行第一仿真以生成第一组仿真结果108。例如,第一组仿真结果108可以包括一组系统102的热图和/或气流图和/或气流图,其示出了热和/或气流分布的三维或二维图片。
监测/控制模块314可以被配置成监测/控制现场系统118,如以上参照图1和图2A所讨论的。例如,监测/控制模块314可以包括卷积神经网络(CNN)、递归神经网络(RNN)、长短时记忆网络(LSTM)、强化学习(RL)网络、机器学习(ML)网络、深度学习(DL)网络或其任何组合。为了描述的目的,在下文中将AI模型用作监测/控制机制的示例,而不是将应用限制于AI模型。
训练模块316可以被配置成如以上参照图2所讨论的那样训练监测/控制模块314。1和2A。例如,训练模块316可以使用一组系统102的数据104和/或第一组仿真结果108来进行对监测/控制模块314的第一轮训练。例如,一组系统102中的一个系统的数据104可以用作监测/控制模块314的输入。然后,监测/控制模块314可以预测系统的热图和/或气流图以及热点/区域和冷点/区域所在的位置。然后,可以将预测的热图和/或气流图与由第一组仿真结果108提供的系统的实际热图和/或气流图进行比较。如果所预测的热图和/或气流图不够准确,则可以将所预测的热图和/或气流图与实际热图和/或气流图之间的差反馈到监测/控制模块314的输入,从而以迭代方式训练监测/控制模块314,直到所预测的热图和/或气流图的准确度低于阈值。准确度阈值可以由用户或制造商根据需要调整。监测/控制模块314的第一轮训练可以遍历第一组仿真结果108中的所有热图和/或气流图。在使用第一组仿真结果108中的所有热图和/或气流图训练了监测/控制模块314之后,可以结束第一轮训练。
在第一轮训练之后,监测/控制模块314还可以被配置成生成一组异常/紧急状况112。异常/紧急状况112不可能从一组系统102收集,因为异常/紧急情形可能发生几年一次或不可预测。例如,西雅图的IDC通常会经历寒冷的天气。然而,在夏季的几天中,西雅图变得非常热,例如超过40℃(这在几十年中没有发生)。监测/控制模块314能够仿真这种不寻常的天气状况。又例如,IDC中的AC可能突然且不可预测地关闭。监测/控制模块314能够仿真这种紧急情况。此外,监测/控制模块314可以仿真诸如停电之类的紧急情况以及由于关闭所有设备以运行CFD分析不实际而不可能从一组系统102中收集的其他情形。
仿真模块312还可以被配置成使用一组异常/突发热状况112来运行第二仿真以生成第二组仿真结果114。第二组仿真结果114可以包括异常/紧急状况112下的热图和/或气流图。
训练模块316还可以被配置成使用第二组仿真结果114来进行对监测/控制模块314的第二轮训练。例如,一组系统102的数据104和第二组仿真结果108可以用于训练监测/控制模块314。一组系统102的一个IDC的数据104可以用作监测/控制模块314的输入。然后,监测/控制模块314可以预测异常/紧急状况112下的热图和/或气流图。然后,异常/紧急状态112下的所预测的热图和/或气流图可以与由来自仿真机制106的第二组仿真结果108提供的实际热图和/或气流图异常/紧急状态112进行比较。异常/紧急状态112下的所预测的热图和/或气流图与异常/紧急状态112下的实际热图和/或气流图之间的差可以反馈到监测/控制模块314的输入,从而以迭代方式训练监测/控制模块314,直到异常/紧急状态112下的所预测的热图和/或气流图的准确度低于阈值。准确度阈值可以由用户或制造商根据需要调整。监测/控制模块314的第二轮训练可以遍历第二组仿真结果108中的异常/紧急状况112下的所有热图和/或气流图。在使用第二组仿真结果114中的异常/紧急状况112下的所有热图和/或气流图训练监测/控制模块314之后,可以结束第二轮训练。
在第二轮训练之后,监测/控制模块314可以进一步被配置成监测包含具有至少一个制冷元件和至少一个生热元件的空间的现场系统118,并且控制所述至少一个制冷元件和所述至少一个生热元件。此外,监测/控制模块314还可以被配置成提供预测和/或建议116以优化现场系统118的热控制。现场系统可以是现场IDC。为了描述的目的,IDC在下文中用作数值系统的示例,而不是将应用限制于IDC。现场IDC可以是指实际IDC。现场IDC可以具有包括各种生热元件和/或制冷元件的空间。生热元件可以包括服务器、机架、计算节点存储装置、网络装置等。制冷元件可以包括空调设备、水泵、风扇等。监测/控制模块314可以部署在现场系统118中或远程部署。
例如,可以收集现场系统118的数据,例如空间或房间的大小、服务器的数量、空间或房间的布局、环境温度、湿度、空间(其可以是三维的或二维的)中多个点处的温度等,以用作监测/控制模块314的输入。监测/控制模块314可以预测现场系统118的热图和/或气流图。
例如,当在机架的底部有制冷装置时,在机架的顶部可能有热点/区域。当机架顶部有制冷装置时,机架底部可能有热点/区域。当服务器忙时,服务器上可能有热点/区域。由于热点/区域可能对设备造成损坏,因此热点/区域附近的制冷装置可能被开大或打开以降低热点/区域的温度。此外,可以重新调度忙碌服务器的工作负载,或可以降低忙碌服务器的频率,使得可以降低服务器温度。当服务器不忙或空闲时,服务器上可能有冷点/区域。为了节省能量,可以关小或关闭冷点/区域附近的制冷装置。
可接受的温度范围,例如22℃至40℃,可以由用户或制造商预先确定和随时调整。对于在可接受温度范围内的点/区域,监测/控制机制可以保持监测这样的点/区域。当温度具有升高的趋势时,监测/控制模块314可以向现场系统118发送或呈现预防消息,使得可以采取初步措施以避免温度变得过高。温度为40℃或以上的点/区域可以被识别为热点/区域,温度为22℃或以下的点/区域可以被识别为冷点/区域。对于可接受温度范围之外的点/区域,例如热点/区域和冷点/区域,监测/控制模块314可以建议现场系统118采取措施以避免对设备的损坏或以节省能量。例如,如果在所预测的热图和/或气流图中存在热点/区域,则监测/控制模块314可以建议现场系统118开大或打开热点/区域附近的制冷装置。如果服务器非常忙并且生成太多的热量,则监测/控制模块314可以建议现场系统118重新调度工作负载或降低服务器的频率,使得可以降低服务器的温度。如果在所预测的热图和/或气流图中存在冷点/区域,则监测/控制模块314可以建议现场系统118关小或关闭冷点/区域附近的制冷装置。这样,可以优化现场系统118的热控制。
监测/控制模块314还可以被配置成从现场系统118接收反馈120。反馈120可以包括从现场系统118收集的可以用于验证预测和/或建议116的实际数据。监测/控制模块314可以进一步被配置成从来自现场系统118的反馈120中学习新知识。例如,可能存在监测/控制模块314的所预测的热图和/或气流图与现场系统118的实际热分布不匹配的情形。监测/控制模块314可以预测热点/区域可能在现场系统118中的机架的顶部。然而,机架顶部的热点/区域不可能存在于该现场系统118中。在这种情况下,现场系统118可以向监测/控制模块314发送错误。包含在反馈120中的数据可以用于在第三轮训练监测/控制模块314,使得监测/控制模块314可被更新/调节。监测/控制模块314的第三轮训练可以由训练模块315以类似于第一轮训练和第二轮训练的方式进行。监测/控制模块314可以被配置成以持续的方式更新,因为新一轮的训练可以根据需要在任何时间进行。不断更新的监测/控制模块314可以被配置成在更新之后向现场系统118提供较好的预测和/或建议116。
此外,本文讨论的系统和处理可以用在向IDC所有者和/或运营商提供服务的商业模型中。商业模型可以向IDC所有者和/或操作者提供监测/控制机制,例如训练的监测/控制机制或决策树,以提高热效率。该控制/监测模型还可以提供咨询服务,该咨询服务帮助给定IDC调整监测/控制机制,例如训练的监测/控制机制或决策树。可以用一次性约会/支付安排或基于预订模型来进行调节,通过预订模型可以提供持续的调节。
上述方法的一些或全部操作可以通过执行存储在如下文所定义的计算机可读存储介质上的计算机可读指令来执行。说明书和权利要求书中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。计算机可读指令可以在各种设备配置上实现,包括单处理器或多处理器设备、小型计算机、大型计算机、驾驶员/乘客计算机、手持式计算装置、基于微处理器的可编程消费电子产品、其组合等。
计算机可读存储介质可以包括易失性存储器(诸如随机存取存储器(RAM))和/或非易失性存储器(诸如只读存储器(ROM)、闪存等)。计算机可读存储介质还可以包括可提供计算机可读指令、数据结构、程序模块等的非易失性存储的附加可去除存储和/或不可去除存储,包括但不限于闪存、磁存储、光存储和/或磁带存储。
非暂时性计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质,即计算机可读存储介质和通信介质。计算机可读存储介质包括用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的通过任何处理或技术实现的易失性和非易失性、可去除和不可去除介质。计算机可读存储介质包括但不限于相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其它存储器技术,光盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储装置,或可以用于存储供计算装置访问的信息的任何其他非传输介质。相反,通信介质可以体现计算机可读指令、数据结构、程序模块或诸如载波的调制数据信号中的其它数据,或其它传输机制。如本文所定义的,计算机可读存储介质不包括通信介质。
存储在一个或更多个非暂时性计算机可读存储媒体上的计算机可读指令在由一个或更多个处理器执行时可执行上文参看图1到图3B描述的操作。总体上,计算机可读指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制,并且可以以任何顺序和/或并行地组合任何数目的所描述的操作来实现这些处理。
示例条款
条款1.一种方法,所述方法包括以下步骤:收集多个系统的数据,所述多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果;使用所述第一组仿真结果对控制系统进行第一训练以获得第一训练后控制系统;以及使用所述第一训练后控制系统来监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
条款2.根据条款1所述的方法,其中,所述方法还包括:在使用所述第一组仿真结果对所述控制系统进行所述第一训练以获得所述训练后控制系统之后,使用所述第一训练后控制系统生成一组条件;将所述一组条件发送到所述仿真模型;基于所述一组条件使用所述仿真模型进行第二仿真以获得第二组仿真结果;使用所述第二组仿真结果对所述第一训练后控制系统进行第二训练以获得第二训练后控制系统;以及使用所述第二训练后控制系统来监测包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统,并且控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
条款3.根据条款2所述的方法,所述方法还包括:从包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统接收反馈数据;以及通过使用所述反馈数据对所述第二训练后控制系统进行附加训练来更新所述第二训练后控制系统。
条款4.根据条款1所述的方法,其中,所述仿真模型包括计算流体动力学CFD模型。
条款5.根据条款1所述的方法,其中:所述第一组仿真结果包括第一组热图和/或气流图;以及所述第二组仿真结果包括第二组热图和/或气流图。
条款6.根据条款1所述的方法,其中,所述多个系统包括计算装置、服务器、服务器机架或互联网数据中心IDC中的一种或更多种。
条款7.根据条款1所述的方法,其中,所述控制系统包括卷积神经网络CNN、递归神经网络RNN、长短时记忆网络LSTM、强化学习RL网络、机器学习ML网络、深度学习DL网络或决策树中的一种或更多种。
条款8.一种计算机可读存储介质,所述计算机可读存储介质存储计算机可读指令,所述计算机可读指令在由一个或更多个处理器执行时使所述一个或更多个处理器执行包括以下步骤的动作:收集一个或更多个系统的数据,所述一个或更多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果;通过使用所述第一组仿真结果的训练获得训练后控制系统;以及使用所述第一训练后控制系统来向包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统提供第一建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
条款9.根据条款8所述的计算机可读存储介质,其中,所述动作还包括:使用所述第一训练后控制系统生成一组条件;将所述一组条件发送到所述仿真模型;基于所述一组条件使用所述仿真模型进行第二仿真以获得第二组仿真结果;通过使用所述第二组仿真结果对所述第一训练后控制系统进行第二训练来获得第二训练后控制系统;以及使用所述第二训练后控制系统来向所述现场系统提供第二建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
条款10.根据条款9所述的计算机可读存储介质,其特征在于,所述动作还包括:从包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统接收反馈数据;以及通过使用所述反馈数据对所述第二训练后控制系统进行附加训练来更新所述第二训练后控制系统。
条款11.根据条款8所述的计算机可读存储介质,其中,所述仿真模型包括计算流体动力学CFD模型。
条款12.根据条款8所述的计算机可读存储介质,其中:所述第一组仿真结果包括第一组热图和/或气流图;以及所述第二组仿真结果包括第二组热图和/或气流图。
条款13.根据条款8所述的计算机可读存储介质,其中,所述一个或更多个系统包括计算装置、服务器、服务器机架或互联网数据中心IDC中的一种或更多种。
条款14.根据条款8所述的计算机可读存储介质,其中,所述控制系统包括卷积神经网络CNN、递归神经网络RNN、长短时记忆网络LSTM、强化学习RL网络、机器学习ML网络、深度学习DL网络或决策树。
条款15.一种设备,所述设备包括:一个或更多个处理器;以及联接到所述一个或更多个处理器的存储器,所述存储器存储计算机可执行模块,当所述计算机可执行模块由所述一个或更多个处理器执行时使所述一个或更多个处理器执行动作,所述模块包括:数据收集模块,所述数据收集模块被配置成收集多个系统的数据,所述多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;使用仿真模块基于所收集的数据进行第一仿真以生成第一组仿真结果;训练模块,所述训练模块被配置成使用所述第一组仿真结果对控制模块进行第一训练;以及所述控制模块,所述控制模块被配置成用于监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且向所述现场系统提供建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
条款16.根据条款15所述的设备,其中,所述训练模块还被配置成对所述控制模块进行第二训练。
条款17.根据条款16所述的设备,其中,所述控制模块还被配置成从所述现场系统接收反馈数据。
条款18.根据条款15所述的设备,其中,所述仿真模块包括计算流体动力学CFD模型。
条款19.根据条款15所述的设备,其中,所述一组仿真结果包括一组热图和/或气流图。
条款20.根据条款15所述的设备,其中,所述多个系统中的各个系统包括一个或更多个计算装置、一个或更多个服务器、一个或更多个服务器机架、以及一个或更多个互联网数据中心IDC中的至少一方。
结论
虽然已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求中定义的主题不一定限于所描述的具体特征或动作。相反,特定特征和动作是作为实现权利要求的示例性形式来公开的。

Claims (20)

1.一种方法,所述方法包括以下步骤:
收集多个系统的数据,所述多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;
基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果;
使用所述第一组仿真结果对控制系统进行第一训练以获得第一训练后控制系统;以及
使用所述第一训练后控制系统来监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
2.根据权利要求1所述的方法,其中,所述方法还包括:在使用所述第一组仿真结果对所述控制系统进行所述第一训练以获得所述训练后控制系统之后,
使用所述第一训练后控制系统生成一组条件;
将所述一组条件发送到所述仿真模型;
基于所述一组条件使用所述仿真模型进行第二仿真以获得第二组仿真结果;
使用所述第二组仿真结果对所述第一训练后控制系统进行第二训练以获得第二训练后控制系统;以及
使用所述第二训练后控制系统来监测包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统,并且控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
3.根据权利要求2所述的方法,所述方法还包括:
从包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统接收反馈数据;以及
通过使用所述反馈数据对所述第二训练后控制系统进行附加训练来更新所述第二训练后控制系统。
4.根据权利要求1所述的方法,其中,所述仿真模型包括计算流体动力学CFD模型。
5.根据权利要求1所述的方法,其中:
所述第一组仿真结果包括第一组热图和/或气流图;以及
所述第二组仿真结果包括第二组热图和/或气流图。
6.根据权利要求1所述的方法,其中,所述多个系统包括计算装置、服务器、服务器机架或互联网数据中心IDC中的一种或更多种。
7.根据权利要求1所述的方法,其中,所述控制系统包括卷积神经网络CNN、递归神经网络RNN、长短时记忆网络LSTM、强化学习RL网络、机器学习ML网络、深度学习DL网络或决策树中的一种或更多种。
8.一种计算机可读存储介质,所述计算机可读存储介质存储计算机可读指令,所述计算机可读指令在由一个或更多个处理器执行时使所述一个或更多个处理器执行包括以下步骤的动作:
收集一个或更多个系统的数据,所述一个或更多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;
基于所收集的数据使用仿真模型进行第一仿真以生成第一组仿真结果;
通过使用所述第一组仿真结果的训练获得训练后控制系统;以及
使用所述第一训练后控制系统来向包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统提供第一建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
9.根据权利要求8所述的计算机可读存储介质,其中,所述动作还包括:
使用所述第一训练后控制系统生成一组条件;
将所述一组条件发送到所述仿真模型;
基于所述一组条件使用所述仿真模型进行第二仿真以获得第二组仿真结果;
通过使用所述第二组仿真结果对所述第一训练后控制系统进行第二训练来获得第二训练后控制系统;以及
使用所述第二训练后控制系统来向所述现场系统提供第二建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
10.根据权利要求9所述的计算机可读存储介质,其特征在于,所述动作还包括:
从包含具有所述至少一个第二制冷元件和所述至少一个第二生热元件的所述空间的所述现场系统接收反馈数据;以及
通过使用所述反馈数据对所述第二训练后控制系统进行附加训练来更新所述第二训练后控制系统。
11.根据权利要求8所述的计算机可读存储介质,其中,所述仿真模型包括计算流体动力学CFD模型。
12.根据权利要求8所述的计算机可读存储介质,其中:
所述第一组仿真结果包括第一组热图和/或气流图;以及
所述第二组仿真结果包括第二组热图和/或气流图。
13.根据权利要求8所述的计算机可读存储介质,其中,所述一个或更多个系统包括计算装置、服务器、服务器机架或互联网数据中心IDC中的一种或更多种。
14.根据权利要求8所述的计算机可读存储介质,其中,所述控制系统包括卷积神经网络CNN、递归神经网络RNN、长短时记忆网络LSTM、强化学习RL网络、机器学习ML网络、深度学习DL网络或决策树。
15.一种设备,所述设备包括:
一个或更多个处理器;以及
联接到所述一个或更多个处理器的存储器,所述存储器存储计算机可执行模块,当所述计算机可执行模块由所述一个或更多个处理器执行时进行相关联的操作,所述计算机可执行模块包括:
数据收集模块,所述数据收集模块被配置成收集多个系统的数据,所述多个系统中的各个系统包括至少一个第一制冷元件和至少一个第一生热元件;
仿真模块,所述仿真模块被配置成基于所收集的数据进行仿真以生成一组仿真结果;
训练模块,所述训练模块被配置成使用所述第一组仿真结果对控制模块进行第一训练;以及
所述控制模块,所述控制模块被配置成监测包含具有至少一个第二制冷元件和至少一个第二生热元件的空间的现场系统,并且向所述现场系统提供建议以控制所述至少一个第二制冷元件和所述至少一个第二生热元件。
16.根据权利要求15所述的设备,其中,所述训练模块还被配置成对所述控制模块进行第二训练。
17.根据权利要求16所述的设备,其中,所述控制模块还被配置成从所述现场系统接收反馈数据。
18.根据权利要求15所述的设备,其中,所述仿真模块包括计算流体动力学CFD模型。
19.根据权利要求15所述的设备,其中,所述一组仿真结果包括一组热图和/或气流图。
20.根据权利要求15所述的设备,其中,所述多个系统中的各个系统包括一个或更多个计算装置、一个或更多个服务器、一个或更多个服务器机架、以及一个或更多个互联网数据中心IDC中的至少一方。
CN201880099629.2A 2018-11-19 2018-11-19 基于监测/控制机制的热控制优化 Active CN113170592B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/116150 WO2020102931A1 (en) 2018-11-19 2018-11-19 Thermal control optimization based on monitoring/control mechanism

Publications (2)

Publication Number Publication Date
CN113170592A true CN113170592A (zh) 2021-07-23
CN113170592B CN113170592B (zh) 2023-11-10

Family

ID=70774134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880099629.2A Active CN113170592B (zh) 2018-11-19 2018-11-19 基于监测/控制机制的热控制优化

Country Status (3)

Country Link
US (1) US20220007549A1 (zh)
CN (1) CN113170592B (zh)
WO (1) WO2020102931A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220264764A1 (en) * 2021-02-18 2022-08-18 Nvidia Corporation Intelligent fan wall-cooled overhead liquid-to-air heat exchanger for datacenter cooling systems

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100033922A1 (en) * 2008-08-11 2010-02-11 Sun Microsystems, Inc. Controlling a cooling fan for a storage array
US20100076607A1 (en) * 2008-08-08 2010-03-25 Osman Ahmed Data center thermal performance optimization using distributed cooling systems
CN102621945A (zh) * 2012-03-05 2012-08-01 内蒙古自治区电力科学研究院 基于火力发电机组最优工况的效率动态寻优运行闭环优化控制方法
CN103309321A (zh) * 2013-06-03 2013-09-18 杭州电子科技大学 一种应用于煤化工的冷态仿真系统
CN103370712A (zh) * 2010-12-16 2013-10-23 施耐德电气It公司 用于机架冷却分析的系统和方法
US20150220669A1 (en) * 2014-02-04 2015-08-06 Ingersoll-Rand Company System and Method for Modeling, Simulation, Optimization, and/or Quote Creation
US20150370937A1 (en) * 2014-06-18 2015-12-24 Taiwan Semiconductor Manufacturing Company, Ltd. Integrated circuit temperature distribution determination
CN105849487A (zh) * 2013-08-29 2016-08-10 马士基航运公司 监视货物运输冷藏集装箱的操作的计算机实现方法
US20160371405A1 (en) * 2015-06-19 2016-12-22 General Electric Company Systems and Methods of Forecasting Power Plant Performance
US20160378891A1 (en) * 2013-11-25 2016-12-29 Tata Consultancy Services Limited A system and method for predicting thermal-insights of a data center
EP3121667A1 (en) * 2015-07-23 2017-01-25 Rockwell Automation Technologies, Inc. Snapshot management architecture for process control operator training system lifecycle
US20170187592A1 (en) * 2014-03-05 2017-06-29 Adeptdc Co. Systems and methods for intelligent controls for optimal resource allocation for data center operations
CN107016893A (zh) * 2013-03-11 2017-08-04 林肯环球股份有限公司 使用虚拟现实焊接系统导入和分析外部数据
CN107291973A (zh) * 2016-04-12 2017-10-24 达索系统西姆利亚公司 针对紧急行为的仿真增强现实系统
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
CN108364098A (zh) * 2018-02-08 2018-08-03 重庆邮电大学 一种天气特征对用户签到影响的度量方法
CN108573090A (zh) * 2017-03-10 2018-09-25 通用电气公司 用于将流体模型与计算机辅助设计(cad)图重叠和整合的系统和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102213475B (zh) * 2011-03-22 2013-11-06 曙光信息产业(北京)有限公司 一种数据中心功耗自适应管理方法
US9223905B2 (en) * 2011-03-25 2015-12-29 Schneider Electric It Corporation Systems and methods for predicting fluid dynamics in a data center
US8725307B2 (en) * 2011-06-28 2014-05-13 Schneider Electric It Corporation System and method for measurement aided prediction of temperature and airflow values in a data center

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076607A1 (en) * 2008-08-08 2010-03-25 Osman Ahmed Data center thermal performance optimization using distributed cooling systems
US20100033922A1 (en) * 2008-08-11 2010-02-11 Sun Microsystems, Inc. Controlling a cooling fan for a storage array
CN103370712A (zh) * 2010-12-16 2013-10-23 施耐德电气It公司 用于机架冷却分析的系统和方法
CN102621945A (zh) * 2012-03-05 2012-08-01 内蒙古自治区电力科学研究院 基于火力发电机组最优工况的效率动态寻优运行闭环优化控制方法
CN107016893A (zh) * 2013-03-11 2017-08-04 林肯环球股份有限公司 使用虚拟现实焊接系统导入和分析外部数据
CN103309321A (zh) * 2013-06-03 2013-09-18 杭州电子科技大学 一种应用于煤化工的冷态仿真系统
CN105849487A (zh) * 2013-08-29 2016-08-10 马士基航运公司 监视货物运输冷藏集装箱的操作的计算机实现方法
US20160378891A1 (en) * 2013-11-25 2016-12-29 Tata Consultancy Services Limited A system and method for predicting thermal-insights of a data center
US20150220669A1 (en) * 2014-02-04 2015-08-06 Ingersoll-Rand Company System and Method for Modeling, Simulation, Optimization, and/or Quote Creation
US20170187592A1 (en) * 2014-03-05 2017-06-29 Adeptdc Co. Systems and methods for intelligent controls for optimal resource allocation for data center operations
US20150370937A1 (en) * 2014-06-18 2015-12-24 Taiwan Semiconductor Manufacturing Company, Ltd. Integrated circuit temperature distribution determination
US20160371405A1 (en) * 2015-06-19 2016-12-22 General Electric Company Systems and Methods of Forecasting Power Plant Performance
EP3121667A1 (en) * 2015-07-23 2017-01-25 Rockwell Automation Technologies, Inc. Snapshot management architecture for process control operator training system lifecycle
CN107291973A (zh) * 2016-04-12 2017-10-24 达索系统西姆利亚公司 针对紧急行为的仿真增强现实系统
CN108573090A (zh) * 2017-03-10 2018-09-25 通用电气公司 用于将流体模型与计算机辅助设计(cad)图重叠和整合的系统和方法
CN107885762A (zh) * 2017-09-19 2018-04-06 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
CN108364098A (zh) * 2018-02-08 2018-08-03 重庆邮电大学 一种天气特征对用户签到影响的度量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢锡铭;吴亮;: "电子设备热仿真及优化技术研究", 工业控制计算机, no. 04, pages 129 - 131 *
高志宏,盛华,谭锋,徐明: "制冷仿真实训系统", 计算机仿真, no. 10, pages 201 - 204 *

Also Published As

Publication number Publication date
WO2020102931A1 (en) 2020-05-28
CN113170592B (zh) 2023-11-10
US20220007549A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
CN103155734B (zh) 用于预测数据中心瞬态冷却性能的系统和方法
JP5904488B2 (ja) データ・センタの効率分析及び最適化のための方法、システム、コンピュータ・プログラム
US9429921B2 (en) Method and system for energy control management
US9111054B2 (en) Data center design tool
US8762522B2 (en) Coordinating data center compute and thermal load based on environmental data forecasts
CN112888268B (zh) 数据中心机房节能控制方法、装置、设备及存储介质
Gharbi et al. Production rate control of an unreliable manufacturing cell with adjustable capacity
US20170115675A1 (en) Determining a time for corrective action in a data center
CN102414687A (zh) 用于布置数据中心内的装置的系统和方法
US11284544B1 (en) Systems and methods for sensing, recording, analyzing and reporting environmental conditions in data centers and similar facilities
CN105452984A (zh) 计算数据中心中的电源使用效率
US20140316720A1 (en) Data processing system with real-time data center air flow simulator
US8352085B2 (en) Distribution of cooling resources using hierarchically identified cooling microgrids
Akrivopoulos et al. A fog computing-oriented, highly scalable iot framework for monitoring public educational buildings
US10540457B2 (en) System and method for predicting thermal-insights of a data center
KR20200029553A (ko) 다중-에이전트 흐름 제어 시스템의 탈중앙집중적 계획, 스케줄링 및 제어
JP6959975B2 (ja) 計算機システム及びリソースの配置の決定方法
KR20230075862A (ko) 자동 머신러닝 기반 복합 환경 분석 인공지능 모델 자동 배포 관리 시스템 및 그 운영 방법
CN113170592B (zh) 基于监测/控制机制的热控制优化
US10760549B2 (en) Method and system for configuring wind turbines
CN105471986B (zh) 一种数据中心建设规模评估方法及装置
US20220300871A1 (en) Systems and methods for ranking recommendations
CN116954329A (zh) 制冷系统的状态调节方法、装置、设备、介质及程序产品
CN114818303A (zh) 低碳园区的仿真规划方法、系统、电子设备及存储介质
CN117413273A (zh) 用于监控封闭空间环境的方法、装置和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220118

Address after: No.12 Zhuantang science and technology economic block, Xihu District, Hangzhou City, Zhejiang Province

Applicant after: Aliyun Computing Co.,Ltd.

Address before: Cayman Islands, Grand Cayman

Applicant before: ALIBABA GROUP HOLDING Ltd.

GR01 Patent grant
GR01 Patent grant