CN113039506A - 基于因果学习的数据中心基础结构优化方法 - Google Patents

基于因果学习的数据中心基础结构优化方法 Download PDF

Info

Publication number
CN113039506A
CN113039506A CN201980072632.XA CN201980072632A CN113039506A CN 113039506 A CN113039506 A CN 113039506A CN 201980072632 A CN201980072632 A CN 201980072632A CN 113039506 A CN113039506 A CN 113039506A
Authority
CN
China
Prior art keywords
data center
signal
data
signal injection
operational control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980072632.XA
Other languages
English (en)
Other versions
CN113039506B (zh
Inventor
吉勒·J·伯努瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3M Innovative Properties Co
Original Assignee
3M Innovative Properties Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3M Innovative Properties Co filed Critical 3M Innovative Properties Co
Priority to CN202311129344.8A priority Critical patent/CN116991215A/zh
Publication of CN113039506A publication Critical patent/CN113039506A/zh
Application granted granted Critical
Publication of CN113039506B publication Critical patent/CN113039506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • G05D23/1917Control of temperature characterised by the use of electric means using digital means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

提供了用于通过以下方式进行主动式数据中心管理的方法:将随机化受控信号注入该数据中心的冷却基础结构的操作控制中并接收与所注入的信号相对应的响应信号。这些所注入的信号用于调整该冷却基础结构的操作控制,并且响应信号与该数据中心中的操作条件有关。基于这些响应信号以及自变量和外部变量,连续地将这些随机化信号注入该冷却基础结构中并基于这些响应信号进行微调。基于这些信号注入和对应响应来确定用于控制数据中心的冷却基础结构的最佳或改进参数。

Description

基于因果学习的数据中心基础结构优化方法
背景技术
数据中心消耗大量电力用于冷却其中的服务器和其它计算机设备。随着对数据需求的增长,数据中心以能量高效方式操作至关重要。一个度量是功率使用效率:用于运行数据中心基础结构的能量与用于为计算机设备(例如,服务器和交换机)供电的能量的比率。得到极好优化的数据中心可具有低至1的年度化功率利用效率;然而,1.3或更大的功率利用效率更为典型。其它度量包括收益、投资回报、时延和客户保留。
根据网络负载和外部环境条件(诸如温度、云覆盖范围和能量成本)来在上下文上优化数据中心基础结构冷却系统过程控制是复杂的问题。高级机器学习技术诸如卷积神经网络已应用于该问题,以开发可预计能量需求并更好地管理能量使用的预测模型。已经表明,这种类型的机器学习系统有可能实现用于冷却的能量的量的40%的减少,这相当于在考虑到电损和其它非冷却低效之后的总体功率利用效率开销的15%的减少。
然而,这些基于观察数据的机器学习技术都面临基本的权衡:它们的复杂性越大,训练模型所需的数据就越多,通常是数年的操作数据。考虑到典型的计算机设备刷新率为三年,这意味着在机器学习模型的准确度和精度开始降级并需要重新训练以反映更新的计算机设备和基础结构之前,机器学习模型将具有较短的优化操作周期。取决于变化的大小,这可触发机器学习领域中所谓的“灾难性遗忘”,从而需要模型以全新的数据重新启动。因此,需要用于标识最佳数据中心控制设置的更具数据和时间效率的算法,其中学习的速度和质量与数据中心基础结构的变化速度相称。
发明内容
第一种用于主动式数据中心管理的方法包括:将随机化受控信号注入数据中心的操作控制中,以及确保所述信号注入发生在正常操作范围和约束内。所述方法还包括:响应于这些信号注入来监测所述数据中心中的操作条件和操作结果,以及基于操作条件根据上下文计算关于所述信号注入和所述操作结果之间的因果关系的置信区间。基于所计算的置信区间和操作条件来选择用于所述数据中心的所述操作控制的最佳信号。
第二种用于主动式数据中心管理的方法包括:提供用于数据中心的操作控制的信号注入,以及接收与所述信号注入相对应的响应信号。所述方法还包括:测量所述响应信号的效用,以及访问与控制所述数据中心的操作条件相关的数据。基于所述响应信号的所述效用来修改所述操作控制的所述数据。
附图说明
附图被结合到本说明书中且构成本说明书的一部分,并且附图与描述一起解释本发明的优点和原理。在附图中,
图1A为示出数据中心的示例性冷却基础结构部件的图表;
图1B为示出用于实现数据中心基础结构优化方法的系统的图表;
图2为用于该系统的搜索空间方法的流程图;
图3为用于该系统的信号注入方法的流程图;
图4为用于该系统的连续学习方法的流程图;并且
图5为用于该系统的存储器管理方法的流程图。
具体实施方式
本发明的实施方案包括用于改善数据中心能量效率的方法,其方式为对冷却系统参数诸如冷通道温度设定点、冷却系统运行的次数和定时以及冷却器温度实施随机扰动实验,并推断它们对效用度量诸如功率利用效率、操作成本和影响半径的因果效应。这种主动式实验方法相比基于数据中心或一般建筑物能量管理的观察数据的被动机器学习技术可导致更快、更稳健的学习。
图1A为示出数据中心的示例性冷却基础结构部件的图表。数据中心包括服务器机房10,该服务器机房具有服务器机架、存储装置、电子切换设备和可能的其它计算机设备。典型的冷却基础结构包括向冷却器16提供冷水的冷却塔12,该冷却器通过泵18和20向计算机房空调器22和24提供冷水11。空调器22和24使新鲜冷空气13和15进入并通过服务器机房10,并且接收来自服务器机房10的排出热空气17和19。空调器22和24使热水21回到冷却器16,该冷却器使温水经由泵14循环回到冷却塔12。冷却基础结构还可包括位于热水管线21上的水侧节能装置和用于空调器22和24的空气侧节能装置。冷却基础结构通常还将包括风扇以使空气围绕并通过服务器机房10中的设备机架循环通过服务器机房10。冷却基础结构可被复制用于数据中心中的附加服务器机房,或者可被复制以适应具有附加服务器和计算机设备的数据中心的扩展。
图1B为示出用于实现数据中心基础结构优化方法的系统的图表。该系统包括电耦合到数据存储装置27的处理器23。处理器23接收来自数据中心的输入25。具体地,处理器23将与如关于图1所述的数据中心的冷却基础结构部件耦合以提供信号的传输,并且与传感器耦合以接收用于监测数据中心中的操作条件的信号。这些信号可作为电信号(有线或无线)或光信号传输。处理器23还可接收外部数据26,诸如在数据中心之外的环境温度和天气条件。输入25和26可包括例如量化或关于表3-5中所列变量的信息。
处理器23可根据本文所述的因果分析和方法处理输入,并向数据中心操作控制提供输出28以优化或改善数据中心效率或其它效用度量诸如时延、收益和客户保留。具体地,并且基于这些方法,处理器23可提供控制数据中心冷却基础结构例如泵、空调器、冷却器和风扇的信号。处理器23可能可以向其它控制提供输出29以用于数据中心能量效率。
数据中心可任选地被分成区以用于优化冷却基础结构。这些区的数量和属性也可以是优化实验的一部分,并且可随时间推移动态地改变。每个区可标识为数据中心的特定区域,例如服务器机房10的一部分,并且与用于该区的输入和控制相关联。输入可为例如监测对应区中的操作条件的传感器,并且控制可为对应区中的冷却基础结构部件。这些区可如服务器机房中的单个机架或机架的一部分那样小。表1提供用于存储区的标识以及对应的输入和控制的示例性数据结构。
Figure BDA0003049948080000031
Figure BDA0003049948080000041
图2至图5为用于数据中心基础结构优化的方法的流程图。这些方法可在例如由处理器23执行的软件模块中实现。
图2为搜索空间方法的流程图。搜索空间方法包括以下步骤:接收控制信息(包括成本)30;构造所有可能控制状态的多维空间32;约束电位控制信号的空间34;确定正常条件下的正常/基线采样分布36,换句话讲,历史采样分布;确定最高效用采样分布38;以及所约束的空间内的自动化控制选择40。在搜索空间方法开始时,操作决策将类似于历史模式(“正态分布”),直到获得足够的证据以利用最佳的决策为止。
图3为信号注入方法的流程图。信号注入方法包括以下步骤:接收电位信号注入的集合42;计算信号注入的空间范围和时间范围44;在空间和时间中协调信号注入46;实现信号注入48;采集响应数据50;以及将响应数据与信号注入相关联52。
信号注入是数据中心冷却基础结构的控制参数的变化。对信号注入的响应通常是由信号注入的控制参数的变化引起的或与信号注入的控制参数的变化相关的数据中心性能。例如,该算法可改变或修改控制和设定点以获得数据中心基础结构内的期望温度。信号注入的时间范围和空间范围分别涉及测量对用于计算因果关系的那些信号注入的响应信号的时间和位置。空间范围可解释为特定控制的影响半径,而时间范围可解释为特定控制的时间响应,包括可能的延迟、波动和衰减。信号注入的成本与实现特定信号的成本(包括固定成本(例如,操作员成本)、可变成本(例如,能量成本)和机会成本(例如,信号注入相对于其它信号影响数据中心基础结构性能的方式))相关,并且由指定的实验范围控制。用于信号注入的队列涉及信号注入的顺序和优先级,并且依赖于分块和随机化来始终确保高内部效度,即使在利用所推断的因果关系来优化效用时也是如此。对信号注入的响应的效用涉及通过效用的量度诸如功率利用效率(PUE)、投资回报率、收益、时延、客户保留和可能的其它因素量化的信号注入的有效性。这些度量可进一步组合成单个多目标优化函数。
图4为连续学习方法的流程图。连续学习方法包括以下步骤:接收电位信号注入的集合54;接收当前信度状态56;计算信号注入的学习值58;接收信号注入的成本60;选择和协调信号注入62;实现信号注入64;采集响应数据66;以及更新信度状态68。
电位信号注入的集合可基于外部因素和环境因素随时间推移改变,例如冷却器温度的安全搜索空间可取决于外部温度。信度状态是数据中心冷却基础结构性能响应于各种参数的不同因果模型的集合。这些信度状态可具有附带的不确定性值,所述不确定性值反映它们在给定的当前试验和知识集合下为准确的可能性,所述当前试验和知识集合可趋于确认或伪造这些不同的模型,并且可进一步确认或伪造模型的信息可包括在该数据中,或者从特定模型的基本特征和底层系统的物理特征导出。
学习值是因信号注入而生成的知识可提供给系统后续决策(诸如确定冷却基础结构的特定部件的特定控制参数更可能是最佳的)的值的量度。学习值可通过例如以下方式来计算:根据部分可观察马尔可夫决策过程(POMDP)或其它统计模型的预测来预测可被伪造的信度状态的原始数量,信号注入对此类模型中的信度状态中的不确定性水平的预测影响,或者基于增加到当前样本大小来计算不确定性减小和置信区间缩小的实验分析。初始,学习值较高,因为模型缺乏推荐最佳控制决策的精度。由于关于因果效应并且因此关于控制决策的效用的置信度随时间推移改善,因此边际学习值减小,而实现和利用该学习的机会成本增加。
图5为存储器管理方法的流程图。存储器管理方法包括以下步骤:接收历史集群的集合70;接收历史信号注入的集合72;以及计算当前集群的信号注入的效应的时间稳定性74。如果来自步骤74的信号注入的效应是稳定的76,则存储器管理方法执行以下步骤:接收历史外部因素状态的集合78;计算信号注入的效应相对于外部因素状态的稳定性80;如果跨外部因素状态的两个或更多个集群检测到效应差异并且每个集群内有足够的数据可用于计算关于这些效应的置信区间,则选择两个状态以将集群横裂82并更新历史集群的集合84。
集群是相对于所测量的效应为统计上等效的或可交换的一组实验单位。实验单位可为例如整个数据中心、数据中心的通道或其它部分或区、或它们的其它子集。在集群内,在没有来自效应修正因子(例如,环境因素和实验控制之外的外部变量)的偏差以及没有由于随机分配导致的混淆变量的情况下测量效应,从而确保所测量的效应代表因果关系而不仅仅是相关性或关联性。所测量的效应在每个集群内的分布为大致正态分布,从而允许计算关于所测量的效应的真均值的置信区间。对于每个控制设定点,置信区间界限的平均值提供其在给定集群内的因果效应的期望值的无偏估计。
表1提供了一个实施方案的算法,该算法用于自动地生成并应用用于数据中心基础结构优化的因果知识。该算法可以软件或固件实现以便由处理器23执行。
Figure BDA0003049948080000061
本发明的实施方案使用因果分析而非相关性。存在将因果关系(动作A和结果Y之间是什么关系)与相关性区分开的两个因素:混淆因子(L)和效应修正因子(M)。在因果分析语言中,A=IV(自变量),Y=DV(因变量),M=EV(外部变量),如下所示。
IV→DV
Figure BDA0003049948080000062
消除混淆因子(L)的单一机制是动作选择的随机化,这是主动式实验方法诸如本文所述的因果学习的核心。观察方法诸如深度学习不具有标识、量化和/或消除混淆因子的手段。效应修正因子也通过在最大数量的极限内的随机化来消除,但分块和分集群是消除效应修正因子对小样本中因果推断的影响(减少偏差)的更有效机制。深度学习试图通过允许算法找到可代表效应修正因子的“特征”(即,EV的组合)来实现相同的目的,但是在存在混淆因子的情况下找到这些特征非常困难,这就是为什么需要如此多数据的原因。此外,深度学习不适应非静止系统,在非静止系统中,因果效应和效应修正因子可随时间推移改变或者可漂移到历史操作窗口之外。相比之下,因果分析或学习本质上可适用于非静止或动态系统,因为其通过主动式原位实验连续地改善其学习的准确性和精度并且需要系统的当前状态中最具代表性的少量有限量的数据来驱动最佳控制决策。
与依赖于被动采集的历史数据来训练模型并构建在训练结束时递送所有值的物理过程的“数字孪生”的其它机器学习技术不同,因果分析只要有足够的证据便通过利用具有正预期效用的效应而更快地递送值。虽然两种技术的授权性能可为相同的,但因果分析随时间推移递送的累积值要大得多。这还意味着可在具有非常有限量的历史操作数据的新系统中部署因果分析。相反地,如果数字孪生已经存在,则可通过对数字孪生进行实验来初始化因果分析,并且然后可通过原位实验来完善学习的准确度和精度。此外,因果分析不太容易受到“灾难性遗忘”的影响,因为它从来不是100%的时间处于纯利用阶段,并且连续地监测因果效应是否是随时间推移稳定的。
与依赖于控制响应矩阵的对角元素(Mii)的典型闭环控制系统不同,因果分析技术允许对复杂控制系统中的所有矩阵元素(包括非对角相互作用元素)进行精确量化。在该形式体系中,因果响应元素M是通过对随机化信号注入到数据中心冷却基础结构中的响应来确定的,并且不是简单的数字系数而是时间、空间、自变量(不同级别或设定点的不同元素)和外部因素(不同集群的不同元素)的复杂的非线性函数。这些因果元素也随时间变化进行监测,然后用于改进或确定新的信号注入。对这些矩阵元素的预期值附近的置信区间进行的量化进一步允许操作风险估计,并且因此允许控制决策的风险调整后优化。
以下矩阵提供用于数据中心优化的矩阵元素的示例。可基于控制(Ctrl1、Ctrl2、Ctrl3)对矩阵元素(Mii)进行量化以获得区中目标温度(Tz1、Tz2、Tz3)。可基于控制(Ctrl1、Ctrl2、Ctrl3)对矩阵元素(Mii)进行量化以获得成本(Cost1、Cost2、Cost3)。还可基于策略(Policy1、Policy2、Policy3)对矩阵元素(Mii)进行量化以获得操作目标(OpGoal1、OpGoal2、OpGoal3)。可扩展(或减小)矩阵以获得更多或更少元素。
Figure BDA0003049948080000081
Figure BDA0003049948080000082
Figure BDA0003049948080000083
区中目标温度(Tzi)的控制示例(Ctrli)包括风扇速度、使水温冷却的温度和水流量。成本(Costi)的控制示例(Ctrli)包括能量源、能量储存和跨服务器的负载分布。操作目标(OpGoali)的策略示例(Policyi)包括设备的部署、维护和停用以及任务优先化。
以下是因果分析实验方法对数据中心控制和设计产生的有益效果。
健康监测和诊断:随时间变化监测因果元素M作为预防性维护的健康指示符(即,因果效应M的变化可指示设备的物理变化)。
控制决策优化:规定控制的最佳组合以便以最低成本保持安全局部温度;确定数据中心的每个区的最佳温度;监测用于不同控制的成本基础估计量和用于能量组合优化的能量源(例如,数天或数季或数年期间的变化能量成本);使用矩阵元素的时间延迟来优化动作的时间序列以获得更大的响应性和稳定性(例如,减小的温度波动);以及至少部分地基于服务器或其它设备之间的热负载来确定在服务器之间向何处引导网络流量。
定大小和放置优化:使用矩阵元素来估计每个控制或装置的影响半径并标识系统中的间隙和/或冗余;以及使用矩阵元素来估计附加控制装置或替代基础结构配置的边际投资回报率。
因果分析实验方法也可应用于如下数据中心管理。
有效性监测和诊断:使用矩阵元素来测量随时间推移的策略有效性并消除性能不良和/或节省较少的策略。
策略优化:例如,规定最佳局部温度控制策略(每个区中的目标温度Tzi)以使能量消耗(短期成本)最小化并使设备寿命(长期成本)最大化;优化维护任务的序列和/或优先级以使操作中断/风险最小化;以及优化每个区的投资策略和扩展数据中心的投资策略。
指导和测试新策略:使用矩阵稀疏性作为资源间隙和冗余的指示符来指导未来的投资策略;以及随着假设、资源、需求和设备改变而连续地设计和测试新的操作策略和投资策略。
虽然上面使用的矩阵表示是用于描述因果分析如何不同于其它技术和如何递送值的形式体系,但是因果分析不需要控制和性能度量(例如,温度传感器)之间的因果关系是线性的或遵循任何特定分布。实际上,因果分析计算控制变量的每个级别的不同系数M。
本发明的实施方案应用于如下数据中心功率利用效率优化。首先,标识独立控制变量(优选所有独立控制变量)以及外部变量。独立控制变量的典型操作范围例如使用历史传感器数据来标识。与其它技术不同,变量可在任何时间进行添加,例如添加新的控制变量以反映控制基础结构的变化,并且可进行移除,例如去除被示出为不具有效果的外部变量以简化模型。
表3至表5分别提供外部变量、自变量和因变量的示例。
Figure BDA0003049948080000091
Figure BDA0003049948080000101
表4–示例性自变量(IV)
运行中循环水离心泵(PWP)的总数
平均PWP变频调速(VFD)速度[%]
运行中冷凝器水泵(CWP)的总数
平均CWP变频调速(VFD)速度[%]
运行中冷却塔的总数
平均冷却塔出水温度(LWT)设定点[F]
运行中冷却器的总数
运行中干式冷藏器的总数
运行中冷却水注入泵的总数
平均冷却水注入泵设定点温度[F]
平均换热器接近温度[F]
冷通道温度最小设定点[F]
CPU或其它机载敏感部件的允许最高温度
与向分布在数据中心内的单独服务器调度负载相关的参数
表5–电位因变量(KPI)
总计算机能量使用
总基础结构能量使用
功率利用效率
电压相位不平衡
针对每个自变量定义了实验范围,在该范围内,操作员认为改变设定点对数据中心操作没有不利影响。这些范围不一定是时间上固定的,而是可基于外部/环境因素例如天气条件而变化。在这种情况下,通过比较与在每个不同搜索空间内实施的实验相关联的结果来计算因果效应以确保正性。执行一连串实验,从而改变每个自变量的设置同时监测对关键性能指示符(KPI)的影响。当确认IV和KPI之间的因果关系时,算法逐渐更频繁地利用优选设置。初始地,可修改IV和KPI之间的关系的外部变量的变化将导致系统更频繁地探索系统设置。然而,由于集群在一个外部条件具有与第二外部条件不同的一组优选IV设置的情况下被识别,因此系统将学习并根据上下文利用正在发生的特定外部条件的最优选设置。算法可与独立控制和闭环控制的组合一起工作。例如,单独服务器上的风扇速度可由该服务器的中央处理单元(CPU)温度直接控制。然而,将CPU温度降低到期望水平的有效性将取决于冷通道温度以及来自附近装置的热负载。
因果分析的应用不限于空气冷却式数据中心。对于浸没冷却罐和冷却器可存在类似的复杂控制回路以使流体损失最小化,同时使冷却效率最大化。

Claims (20)

1.一种用于主动式数据中心管理的方法,包括以下步骤:
将随机化受控信号注入到数据中心的操作控制中;
确保所述信号注入发生在正常操作范围和约束内;
响应于所述受控信号来监测所述数据中心中的操作条件的性能;
计算关于所述操作条件和所述受控信号之间的因果关系的置信区间;以及
基于所计算的置信区间来选择用于所述数据中心的所述操作控制的最佳信号。
2.根据权利要求1所述的方法,其中所述注入步骤包括注入所述受控信号以调整所述数据中心的冷却基础结构的参数。
3.根据权利要求1所述的方法,其中所述操作条件包括所述数据中心中的温度。
4.根据权利要求1所述的方法,其中所述注入步骤包括将所述受控信号注入到所述数据中心的特定区中。
5.根据权利要求1所述的方法,其中所述正常操作范围包括基于控制信息和操作约束而生成的可能控制状态的多维空间。
6.根据权利要求1所述的方法,其中所述选择步骤还包括基于外部数据来选择所述最佳信号。
7.根据权利要求1所述的方法,其中所述注入步骤还包括跨外部可变状态对所述随机化受控信号进行分块和平衡,并且基于所测量的效应的空间范围和时间范围来使延续效应最小化。
8.根据权利要求1所述的方法,还包括随空间和时间变化监测所述性能。
9.根据权利要求1所述的方法,其中所述计算步骤还包括在集群内计算所述置信区间以消除效应修正因子。
10.根据权利要求1所述的方法,其中所述选择步骤还包括通过概率匹配来选择所述最佳信号,在所述概率匹配中,通过所述置信区间的均值和所述置信区间与其它置信区间的重叠来确定所述信号的分配频率。
11.根据权利要求1所述的方法,其中所述信号注入具有空间范围。
12.根据权利要求1所述的方法,其中所述信号注入具有时间范围。
13.一种用于主动式数据中心管理的方法,包括以下步骤:
提供用于数据中心的冷却基础结构的操作控制的信号注入;
接收与所述信号注入相对应的响应信号和所述数据中心中的操作条件;
测量所述响应信号的效用;
访问与所述数据中心的所述冷却基础结构的所述操作控制的参数相关的数据;以及
基于所述响应信号的所述效用来修改所述操作控制的所述数据。
14.根据权利要求13所述的方法,其中所述提供步骤包括调整所述数据中心的所述冷却基础结构的参数。
15.根据权利要求13所述的方法,其中所述接收步骤包括接收所述数据中心中的温度。
16.根据权利要求13所述的方法,其中所述提供步骤包括将所述信号注入提供到所述数据中心的特定区中。
17.根据权利要求13所述的方法,其中所述信号注入具有空间范围。
18.根据权利要求13所述的方法,其中所述信号注入具有时间范围。
19.根据权利要求13所述的方法,其中所述修改步骤还包括基于外部数据修改所述操作控制的所述数据。
20.根据权利要求13所述的方法,其中所述信号注入是随机化的。
CN201980072632.XA 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法 Active CN113039506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311129344.8A CN116991215A (zh) 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862772131P 2018-11-28 2018-11-28
US62/772,131 2018-11-28
PCT/IB2019/059995 WO2020109937A1 (en) 2018-11-28 2019-11-20 Data center infrastructure optimization method based on causal learning

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311129344.8A Division CN116991215A (zh) 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法

Publications (2)

Publication Number Publication Date
CN113039506A true CN113039506A (zh) 2021-06-25
CN113039506B CN113039506B (zh) 2023-09-08

Family

ID=70851933

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980072632.XA Active CN113039506B (zh) 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法
CN202311129344.8A Pending CN116991215A (zh) 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311129344.8A Pending CN116991215A (zh) 2018-11-28 2019-11-20 基于因果学习的数据中心基础结构优化方法

Country Status (5)

Country Link
US (1) US20220004475A1 (zh)
EP (1) EP3887922A4 (zh)
CN (2) CN113039506B (zh)
TW (1) TW202030617A (zh)
WO (1) WO2020109937A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020188328A1 (en) 2019-03-15 2020-09-24 3M Innovative Properties Company Method of performing a process and optimizing control signals used in the process
US11751360B2 (en) * 2020-03-17 2023-09-05 International Business Machines Corporation Intelligently deployed cooling fins
US11895808B2 (en) * 2020-05-27 2024-02-06 Nvidia Corporation Intelligent refrigeration-assisted data center liquid cooling
US20220264764A1 (en) * 2021-02-18 2022-08-18 Nvidia Corporation Intelligent fan wall-cooled overhead liquid-to-air heat exchanger for datacenter cooling systems
US20230106101A1 (en) * 2021-10-02 2023-04-06 Innogrit Technologies Co., Ltd. Adaptive thermal calibration for throttling prevention
CN115696871B (zh) * 2022-11-04 2023-06-13 中国电子工程设计院有限公司 一种基于机器学习的数据中心水冷系统调控方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1236241A (zh) * 1998-03-30 1999-11-24 株式会社东芝 通信网络系统
US20100314458A1 (en) * 2005-09-14 2010-12-16 Arzel Zoning Technology, Inc. System and method for heat pump oriented zone control
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法
CN102236839A (zh) * 2010-04-26 2011-11-09 埃森哲环球服务有限公司 用于分析能源使用的方法和系统
US20110288722A1 (en) * 2009-07-24 2011-11-24 Harley-Davidson Motor Company Group, LLC Vehicle calibration using data collected during normal operating conditions
US20130173062A1 (en) * 2009-12-08 2013-07-04 Pamela Koenig-Richardson Smart building unified managed solutions
CN103346572A (zh) * 2013-07-29 2013-10-09 国家电网公司 基于灵敏度和多Agent的电网无功智能控制方法
US20160131382A1 (en) * 2014-11-12 2016-05-12 Howard Rosen Method and apparatus of networked thermostats providing for reduced peak power demand
CN106537715A (zh) * 2014-07-17 2017-03-22 3M创新有限公司 用于协调信号注入以理解和保持公用设施网格中信号注入模式之间正交性的系统和方法
CN107126193A (zh) * 2017-04-20 2017-09-05 杭州电子科技大学 基于滞后阶数自适应选择的多变量因果关系分析方法
US20170314800A1 (en) * 2014-11-12 2017-11-02 Carrier Corporation Automated functional tests for diagnostics and control

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090179080A1 (en) * 2008-01-10 2009-07-16 Glacier Bay, Inc. HVAC system
US8560291B2 (en) * 2010-06-22 2013-10-15 International Business Machines Corporation Data center physical infrastructure threshold analysis
US8949091B2 (en) * 2011-03-09 2015-02-03 Tata Consultancy Services Limited Method and system for thermal management by quantitative determination of cooling characteristics of data center
US10417575B2 (en) * 2012-12-14 2019-09-17 Microsoft Technology Licensing, Llc Resource allocation for machine learning
US10678279B2 (en) * 2012-08-01 2020-06-09 Tendril Oe, Llc Optimization of energy use through model-based simulations
US10101048B2 (en) * 2013-03-15 2018-10-16 Honeywell International Inc. Supervisory controller for HVAC systems
WO2015134655A2 (en) * 2014-03-05 2015-09-11 Adeptdc Co. Systems and methods for intelligent controls for optimal resource allocation for data center operations
US10101730B2 (en) * 2014-05-01 2018-10-16 Johnson Controls Technology Company Incorporating a load change penalty in central plant optimization
US10180261B1 (en) * 2015-12-28 2019-01-15 Amazon Technologies, Inc. Model based cooling control system
US10235443B2 (en) * 2016-03-01 2019-03-19 Accenture Global Solutions Limited Parameter set determination for clustering of datasets
US11216048B1 (en) * 2016-03-16 2022-01-04 ZT Group Int'l, Inc. System and method for controlling computer cooling using ideal cooling system settings, actual cooling system settings, and computer component data
US10038322B2 (en) * 2016-06-21 2018-07-31 General Electric Company Systems and methods for controlling performance parameters of an energy storage device
US10339471B2 (en) * 2017-01-17 2019-07-02 International Business Machines Corporation Ensemble based labeling
US10997052B2 (en) * 2017-05-01 2021-05-04 Dell Products L.P. Methods to associate workloads to optimal system settings based upon statistical models
DE102017116955B3 (de) * 2017-07-26 2018-11-15 Schlemmer Holding GmbH Verfahren und Vorrichtung zur Fertigungskontrolle eines extrudierten Kunststoffprodukts sowie Extrusionsanlage zum Extrudieren eines derartigen Kunststoffprodukts
FR3073602B1 (fr) * 2017-11-10 2019-11-22 Gaztransport Et Technigaz Methode de determination d'une valeur optimale d'au moins un parametre de mise en oeuvre d'un procede de mise en froid d'une cuve etanche et themiquement isolante
US10820452B2 (en) * 2018-07-05 2020-10-27 Baidu Usa Llc Control and optimization of indirect evaporative cooling units for data center cooling
US20200065712A1 (en) * 2018-08-23 2020-02-27 Microsoft Technology Licensing, Llc Efficient configuration selection for automated machine learning

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1236241A (zh) * 1998-03-30 1999-11-24 株式会社东芝 通信网络系统
US20100314458A1 (en) * 2005-09-14 2010-12-16 Arzel Zoning Technology, Inc. System and method for heat pump oriented zone control
US20110288722A1 (en) * 2009-07-24 2011-11-24 Harley-Davidson Motor Company Group, LLC Vehicle calibration using data collected during normal operating conditions
US20130173062A1 (en) * 2009-12-08 2013-07-04 Pamela Koenig-Richardson Smart building unified managed solutions
CN102236839A (zh) * 2010-04-26 2011-11-09 埃森哲环球服务有限公司 用于分析能源使用的方法和系统
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法
CN103346572A (zh) * 2013-07-29 2013-10-09 国家电网公司 基于灵敏度和多Agent的电网无功智能控制方法
CN106537715A (zh) * 2014-07-17 2017-03-22 3M创新有限公司 用于协调信号注入以理解和保持公用设施网格中信号注入模式之间正交性的系统和方法
US20160131382A1 (en) * 2014-11-12 2016-05-12 Howard Rosen Method and apparatus of networked thermostats providing for reduced peak power demand
US20170314800A1 (en) * 2014-11-12 2017-11-02 Carrier Corporation Automated functional tests for diagnostics and control
CN107126193A (zh) * 2017-04-20 2017-09-05 杭州电子科技大学 基于滞后阶数自适应选择的多变量因果关系分析方法

Also Published As

Publication number Publication date
EP3887922A4 (en) 2022-08-17
TW202030617A (zh) 2020-08-16
US20220004475A1 (en) 2022-01-06
WO2020109937A1 (en) 2020-06-04
CN116991215A (zh) 2023-11-03
EP3887922A1 (en) 2021-10-06
CN113039506B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN113039506B (zh) 基于因果学习的数据中心基础结构优化方法
US11409274B2 (en) Model predictive maintenance system for performing maintenance as soon as economically viable
CN108476473B (zh) 用于延长建筑物控制系统中的无线传感器的电池寿命的系统和方法
US20200356087A1 (en) Model predictive maintenance system with event or condition based performance
US10101048B2 (en) Supervisory controller for HVAC systems
US10700942B2 (en) Building management system with predictive diagnostics
US20230075122A1 (en) Thermal control of data center
Brown et al. Kernel regression for real-time building energy analysis
WO2021026370A1 (en) Model predictive maintenance system with degradation impact model
Shoukourian et al. Using machine learning for data center cooling infrastructure efficiency prediction
Vu et al. Data driven chiller plant energy optimization with domain knowledge
US20240093883A1 (en) Control system for building equipment with secondary strong prevention
Choi et al. Development of an adaptive artificial neural network model and optimal control algorithm for a data center cyber–physical system
CN114970358A (zh) 一种基于强化学习的数据中心能效优化方法和系统
MirhoseiniNejad et al. ALTM: Adaptive learning-based thermal model for temperature predictions in data centers
CN114326987A (zh) 制冷系统控制及模型训练方法、装置、设备及存储介质
CN116578134A (zh) 基于强化学习的通用基站温控方法和系统
CN113821903A (zh) 温度控制方法和设备、模块化数据中心及存储介质
Khargharia et al. Probabilistic analysis of context caching in Internet of Things applications
CN117234301A (zh) 一种基于人工智能的服务器热管理方法
CN116954329A (zh) 制冷系统的状态调节方法、装置、设备、介质及程序产品
JP2018519607A (ja) x管理システムのための最適スケジューリングおよびリアルタイム制御の方法
US11408626B2 (en) Central plant control system with dynamic computation reduction
CN114650190B (zh) 数据中心网络的节能方法、系统、终端设备及存储介质
CN117540938B (zh) 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant