CN115113705A - 用于神经网络集成的数据中心控制层次 - Google Patents

用于神经网络集成的数据中心控制层次 Download PDF

Info

Publication number
CN115113705A
CN115113705A CN202111353871.8A CN202111353871A CN115113705A CN 115113705 A CN115113705 A CN 115113705A CN 202111353871 A CN202111353871 A CN 202111353871A CN 115113705 A CN115113705 A CN 115113705A
Authority
CN
China
Prior art keywords
power
load
data center
resource
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111353871.8A
Other languages
English (en)
Inventor
高天翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN115113705A publication Critical patent/CN115113705A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01KMEASURING TEMPERATURE; MEASURING QUANTITY OF HEAT; THERMALLY-SENSITIVE ELEMENTS NOT OTHERWISE PROVIDED FOR
    • G01K1/00Details of thermometers not specially adapted for particular types of thermometer
    • G01K1/02Means for indicating or recording specially adapted for thermometers
    • G01K1/026Means for indicating or recording specially adapted for thermometers arrangements for monitoring a plurality of temperatures, e.g. by multiplexing
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/263Arrangements for using multiple switchable power supplies, e.g. battery and AC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/14Mounting supporting structure in casing or on frame or rack
    • H05K7/1485Servers; Data center rooms, e.g. 19-inch computer racks
    • H05K7/1498Resource management, Optimisation arrangements, e.g. configuration, identification, tracking, physical location
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Thermal Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Power Engineering (AREA)
  • Power Sources (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

数据中心系统包括具有电子机架阵列、热管理系统和功率流优化器的负载部分。功率流优化器配置为基于电子机架的工作负载数据和热管理系统的热数据来确定负载部分的负载功率需求。数据中心系统还包括资源部分,资源部分具有向负载部分提供功率的多个电源。资源部分包括资源控制器,资源控制器基于由功率流优化器提供的负载功率需求来配置和选择电源中的至少一些以向负载部分提供功率。功率流优化器包括功率流神经网络(NN)模型,用于基于热数据和负载数据预测IT集群和热管理系统所需的功率量。

Description

用于神经网络集成的数据中心控制层次
技术领域
本发明的实施方式总体地涉及数据中心系统。更具体地,本发明的实施方式涉及用于数据中心系统的控制架构。
背景技术
随着AI(人工智能)、大数据、边缘计算等的快速发展,对数据中心和IT(信息技术)集群的需求变得越来越具有挑战性。所面临的挑战不仅在于需要部署的数据中心和服务器的数量急剧增加,而且还在于不同类型的工作负载需求之间的差异。这些需求是数据中心快速发展的主要驱动因素。然而,这种挑战需要数据中心能够适应工作负载的变化。由于工作负载变化与IT服务器的多样性直接相关,因此更具挑战性的是,能量效率总是数据中心和IT集群的需求之一。能量效率不仅与功率消耗和Opex有关,而且更重要的是满足环境和功率使用规定。
另一个挑战是数据中心的控制设计很复杂。由于基于不同系统存在完全不同的控制技术领域,并且它们在正常操作期间也彼此紧密联接。将它们有机地结合在一起很重要。
AI和ML(机器学习)技术将早晚成为数据中心和IT集群的关键工具和技术。它将对数据中心产生全面的影响,包括设计、建筑、部署和操作。它可以给数据中心智能控制带来多方面的益处。当前的挑战是数据中心产生了大量数据。完成集群的模型训练和调整是昂贵且耗时的。鉴于数据中心系统的本质,基于一个集群的经过良好训练的模型可能很好地适用于该集群。然而,它可能在另一集群中表现不佳,或者可能需要大量的重新训练。它可能适用于相同但联接在不同系统 (例如,冷却和功率)中的另一集群。
用于设计数据中心控制的常规解决方案包括单独的模块,诸如用于冷却系统的控制模块、用于功率系统的控制模块、用于IT的控制模块、以及可能用于IT控制的各种模块。所有这些控制模块可能无法完全集成以实现联合设计。其缺点是,将它们有机地集成在一起并作为一个完整的系统来操作是极其复杂的。总的来说,常规解决方案缺乏可扩展性和技术可重用性。
发明内容
本公开的一方面涉及数据中心系统,包括:负载部分,具有多个电子机架、热管理系统和功率流优化器,其中,电子机架中的每个包括多个服务器,并且每个服务器包含一个或多个电子设备,其中,热管理系统配置为向电子设备提供冷却和/或加热,并且其中,功率流优化器配置为基于热管理系统的热数据和电子机架的负载数据来确定负载部分的负载功率需求;以及资源部分,具有向负载部分提供功率的多个电源,其中,资源部分包括资源控制器,资源控制器基于由功率流优化器提供的负载功率需求来配置和选择电源中的至少一些以向负载部分提供功率,其中,功率流优化器包括功率流神经网络模型,用于基于热数据和负载数据预测电子机架和热管理系统所需的功率量,以满足负载部分的热需求和数据处理负载需求。
本公开的另一方面涉及用于管理数据中心系统的方法,该方法包括:使用功率流优化器,基于热管理系统的热数据和电子机架的负载数据确定具有热管理系统和多个电子机架的负载部分的负载功率需求,其中,电子机架中的每个包括多个服务器,并且每个服务器包含一个或多个电子设备,其中,热管理系统配置为向电子设备提供冷却和/或加热;以及由具有多个电源的资源部分的资源控制器基于由功率流优化器提供的负载功率需求来配置和选择电源中的至少一些,以向负载部分提供功率,其中,功率流优化器包括功率流神经网络模型,用于基于热数据和负载数据预测电子机架和热管理系统所需的功率量,以满足负载部分的热需求和数据处理负载需求。
附图说明
本发明的实施方式在附图的图中以示例的方式而不是限制的方式示出,其中相同的附图标记表示类似的元件。
图1是示出根据一个实施方式的数据中心系统的总体架构的框图。
图2是示出根据一个实施方式的数据中心系统的负载部分的过程的流程图。
图3是示出根据一个实施方式的管理电源的过程的流程图。
图4是示出根据一个实施方式的操作中间级的过程的流程图。
图5示出了根据一个实施方式的总体三级控制层次设计和操作方法。
图6A和图6B示出了根据一个实施方式的具有彼此互连的多个子系统的较大规模的系统。
图7是示出根据一个实施方式的功率系统的多集群设计的框图。
图8是示出根据一个实施方式的管理数据中心的功率的过程的流程图。
具体实施方式
将参照下面讨论的细节描述本发明的各种实施方式和方面,并且附图将示出各种实施方式。以下描述和附图是对本发明的说明,并不解释为对本发明的限制。描述了许多具体细节以提供对本发明的各种实施方式的透彻理解。然而,在某些情况下,为了提供本发明的实施方式的简明讨论,没有描述公知的或常规的细节。
在说明书中提及“一个实施方式”或“实施方式”意指结合该实施方式描述的特定特征、结构或特性可以包括在本发明的至少一个实施方式中。在说明书的各个地方出现的短语“在一个实施方式中”不一定都指同一实施方式。
本公开的实施方式涉及用于数据中心的控制层次设计。首先介绍了系统设计和控制流程。该部分中提供了对系统中的主要部件的高层次描述,包括电气部件、机械部件和IT部件以及它们在整个系统中的互连。然后介绍控制流程来呈现整个系统管理。在系统中有三个级别,即负载级别、资源级别和中间级别。在第二部分中,介绍了每一级别的设计和控制流程,以提供各个级别的详细视图。给出输入/输出以示出每个级别中的控制逻辑。这旨在在控制上提供解耦设计,同时将整个系统仍然保持为一个有机系统接合在一起。优化器与每个控制器结合使用,用于辅助实现AI/ML模型。详细介绍了控制器位置和功能,以及不同级别的操作设计。
根据一些实施方式,数据中心系统包括具有电子机架阵列、热管理系统和功率流(power flow)优化器的负载部分。电子机架中的每个包括服务器的堆叠,并且每个服务器包含一个或多个电子设备。热管理系统配置为向电子设备提供冷却和/或加热。功率流优化器配置为基于热管理系统的热数据和电子机架的负载数据来确定负载部分的负载功率需求。数据中心系统还包括资源部分,资源部分具有向负载部分提供功率的多个电源。资源部分包括资源控制器,资源控制器基于由功率流优化器提供的负载功率需求来配置和选择电源中的至少一些以向负载部分提供功率。功率流优化器包括功率流神经网络(NN)模型,用于基于热数据和负载数据预测电子机架和热管理系统所需的功率量,以满足负载部分的热需求和数据处理负载需求。
在一个实施方式中,数据中心系统还包括中间部分,中间部分联接在资源部分与负载部分之间,其中,中间部分包括功率总线以将功率从资源部分分配到负载部分和其它子系统。中间部分还包括:子系统负载检测器,联接到其它子系统以确定子系统功率需求;以及中央控制器,联接到子系统负载检测器和负载部分的功率流优化器,以基于子系统功率需求和负载功率需求确定总功率需求。资源控制器利用总功率需求来配置和选择电源中的至少一些。
在一个实施方式中,负载部分还包括:一个或多个温度传感器,设置在每个服务器内以测量电子设备的温度;以及工作负载检测器,配置为确定服务器中的每个的工作负载。功率流NN模型基于服务器中的每个的温度和工作负载来推断负载功率需求。负载部分还包括功率调度控制器,功率调度控制器联接到功率流控制器,以基于从功率流控制器接收的负载功率需求,将从资源部分接收的所述功率按比例地分配到热管理系统和服务器。
在一个实施方式中,负载功率需求包括关于如何将功率调度到热管理系统和服务器的信息。功率调度控制器配置为将负载部分所需的总功率输出到中央控制器。资源部分包括资源优化器,用于从中央控制器接收总功率需求以生成电源配置信息。资源控制器配置为基于电源配置信息来配置电源。在一个实施方式中,可以开发包括NN模型的负载侧上的功率优化以实现优化的计算效率。
在一个实施方式中,资源优化器包括NN模型,以基于总功率需求来确定电源配置信息。电源配置信息包括指定将由多个电源中的每个提供的功率量的信息。电源包括公用设施电源、光伏(PV)电源和电池电源。中央控制器包括NN模型,用于基于负载功率需求和子系统功率需求来推断总功率需求。数据中心系统是多个数据中心子系统中的第一数据中心子系统。中间部分的功率总线联接到数据中心子系统的第二数据中心子系统的中间部分的功率总线。
在一个实施方式中,中央控制器由第一数据中心子系统和第二数据中心子系统共享。数据中心子系统是数据中心集群的第一数据中心集群的一部分。数据中心集群中的每个由相应的集群控制器控制,并且其中,中央控制器由多个数据中心集群共享。
图1是示出根据一个实施方式的数据中心系统的总体架构的框图。参照图1,数据中心配置或架构100可以表示任何数据中心,其中数据中心可以包括一个或多个电子机架阵列。每个电子机架包括一个或多个堆叠地布置的服务器机箱。每个服务器机箱包括在其中操作的一个或多个服务器。每个服务器可以包括一个或多个处理器、存储器、存储设备和网络接口等,统称为IT部件。此外,数据中心还可以包括热管理系统,以向在操作期间产生热量的IT部件提供冷却。数据中心冷却可以包括液体冷却和/或空气冷却。
在一个实施方式中,数据中心架构100包括资源部分或资源级别 101、中间部分或中间级别102以及负载部分或负载级别103。负载级别103包括IT负载112和热管理系统(也称为所有级别的热管理)113。 IT负载112可以表示一个或多个电子机架,每个电子机架中包含一个或多个服务器。热管理系统113可以向服务器的IT部件提供液体冷却和/或空气冷却。在一个实施方式中,IT部件中的一些(例如,处理器) 可附接到用于液体冷却的冷板和/或附接到用于空气冷却的散热器。此外,负载级别103还包括一个或多个温度传感器114,用于测量负载级别内不同位置处的温度(例如,IT部件的表面、冷却液体温度、环境温度等)。负载级别103还包括负载检测器115,用于确定或检测负载112的工作负载,其可以与负载112的功耗成比例。
负载级别103包括IT负载112以及从服务器内部(诸如冷板、TEC (热电冷却))到整个系统级别的所有级别的热管理113。在该级别,关键连接是温度,其由一个或多个温度传感器114测量。这意指温度用于在IT和冷却之间连接整个系统。然而,该级别中的另一个键输入是工作负载,其可以由负载检测器115确定或检测。因此,工作负载也被用于设计该级别的控制。温度被认为是负载的依赖因素,然而,它也与热系统密切相关。在一个实施方式中,负载检测器115连接到设置在服务器和/或电子机架(例如,母板)上的开关逻辑,以确定通过网络接口的工作负载和通信量。在一个实施方式中,负载检测器115 连接到服务器机箱的各个BMC(板管理控制器),以确定各种部件的工作负载,诸如处理器使用情况等。在一些架构中,存在负载平衡服务器或资源管理器,用于将工作负载分派到各个服务器,然后负载检测器115可从这些部件接收关于分布式工作负载的信息。
此外,负载级别103包括功率流优化器111,其可以实现为处理器、微控制器、FPGA(现场可编程门阵列)或ASIC(专用集成电路)。功率流优化器111配置为基于由温度传感器114提供的热数据(例如,温度)和由负载检测器115提供的负载数据来确定负载级别103的负载功率需求。在一个实施方式中,功率流优化器111包括诸如神经网络(NN)模型的机器学习模型,以基于温度数据和负载数据预测或确定负载功率需求。负载功率需求表示IT负载112和热管理系统113为了满足IT负载112的热需求(例如,在预定温度以下操作)和数据处理负载需求所需的功率量。可以使用各种负载在不同时间点处的大量的热数据和负载数据来训练NN模型。NN模型配置为基于服务器的温度数据和工作负载来推断负载功率需求。在一个实施方式中,由功率流优化器111产生的优化的功率需求包括每个单独的服务器(即,在服务器级别处)和/或相关联的热管理系统的优化的功率需求。
在一个实施方式中,负载级别103(也称为级别0)还包括调度控制器110,用于从功率流优化器111接收负载功率需求信息。功率需求信息可以包括关于如何向IT负载112和热管理系统113调度或分配功率的信息,其中,经由中间级别102从资源级别101接收功率,这将在下面进一步详细描述。调度控制器110可以控制或配置开关逻辑 (例如,S4、S5),如虚线所示,以基于由功率流优化器111提供的负载功率需求信息来控制和分配适当的功率到IT负载112和热管理系统 113。调度控制器110还向中间级别102的中央控制器109提供负载功率需求信息。
在负载级别103中,温度被用作负载和热系统的关键参数。由负载检测器115执行的负载检测起到了显著的作用。负载检测器115(或功率流优化器111)接收实际的工作负载,并将其转换为工作负载所需的实际功率。此外,在更先进的架构中,负载检测也提供了优化的工作负载分配策略。由于负载不直接反映热系统,因此,使用温度来连接负载和热系统。温度和负载检测被用作功率流优化器111的输入。功率流优化器111的NN模型仅输入这两个参数并产生表示负载功率需求的输出。
可以使用训练数据集来训练NN模型。一旦训练数据集(诸如温度范围和负载功率范围)很好地收敛,则功率流优化器111可以更精确地提供在该级别上的功率调度,诸如到热管理系统113的冷却功率和到IT负载112的负载功率。注意,到IT负载112的负载功率不同于计算功率,因为到IT负载112的负载功率可能由于功率损耗和功率泄漏而大于计算功率。热管理可能影响该差异,从而到热管理系统113 的相应所需功率发生变化。所有这些复杂的策略由功率流优化器111 中的NN模型实现。然而,调度控制器的唯一输出是所需的总负载功率。
图2是示出根据一个实施方式的数据中心系统的负载部分的过程的流程图。过程200可以由图1的负载级别103执行。参照图2,在框201处,负载检测器115确定IT负载112的工作负载,并且可以将负载数据转换为功率需求。此外,温度传感器114测量与IT负载112相关联的温度。在框202处,温度数据和负载数据馈送到功率流优化器111的NN模型的输入,这导致对热系统和负载的优化功率需求调度。在框203处,响应于负载功率需求,调度控制器110控制开关逻辑以向热系统和负载提供适当的功率。注意,术语“负载功率需求”是指负载部分或负载级别103的功率需求,包括IT负载112和热管理系统113的功率需求。在框204处,调度控制器110向中央控制器109 输出负载功率的请求。
回到图1,在一个实施方式中,资源部分或资源级别101包括各种电源或能源,例如公用设施电源104、光伏(PV)电源105、存储电源107(例如电池)和其它能源106。公用设施电源104从(例如,由公共公用设施公司提供的)公用电网提供交流(AC)功率,该交流 (AC)功率可以使用AC到DC(AC/DC)转换器转换为直流(DC) 功率。PV电源105可以是DC电源,其可以使用DC到DC(DC/DC) 转换器转换为不同的DC功率电压。存储电源107可以由电源104-106中的任何一个充电。当由电源104-106提供的功率不足时,存储电源 107可以放电以向负载部分103提供功率。
在一个实施方式中,资源级别101包括资源控制器116,用于配置和选择电源104-107中的至少一些,以至少基于较低的功率需求向负载级别103提供功率。资源控制器116控制开关逻辑,如虚线所示,以配置和选择电源。
在一个实施方式中,资源级别101还包括资源优化器108,用于优化和生成电源配置信息。电源配置信息包括用于选择电源104-107 中的至少一些的选择信息。资源控制器116利用电源配置信息来控制电源104-107。在一个实施方式中,资源优化器108包括NN模型,以基于所需的总功率来确定电源配置信息。电源配置信息可以包括指示将由电源104-107中的每个提供的功率量的信息。
在资源级别101中,示出了该级主要设计用于能源。可以看出,存在几种不同类型的电源,包括公用设施电源104、PV电源105以及其它能源106。此外,在该级别中使用备用能源或存储电源107。资源控制器116用于控制开关逻辑(S1、S2、S3),以将功率连接到主源总线。资源优化器108用于提供调度策略并与中央控制器109通信。在一个实施方式中,资源优化器108包括NN模型,用于基于所需的总功率以及来自每个电源的现有功率条件和可用性来优化电源分配。馈送到资源优化器108的唯一输入是所需的总功率。所有其它变化,即不同功率可用性和条件,也是输入,但可能不需要被认为是变量。
在该级别处,来自外部的唯一输入是所需的总功率。它可以是以 kW或kWh为单位的实际功率或者表示功率需求的无量纲值。资源优化器108与AI/ML模型集成在一起,以提供关于详细功率调度的最有效推断。调度策略传递到资源控制器116,并且资源控制器116管理来自公用设施、PV系统、其它可再生电源、电池等的功率输入。因此,可以看出,该级别与其它级别高度解耦。
由于总功率是唯一的输入。这对于NN模型是有益的,因为输入的变化仅仅是总功率,其可以容易地被训练数据集覆盖。在资源侧,由于功率架构在模块中固定。这意味着,即使可能需要功率升级,也可以通过分别添加一个或两个相同的模块来使全功率架构变为两倍或三倍,这不会影响模块的物理行为。因此,优化器模型在没有太多NN 训练的情况下保持有效。在硬件部分上,由资源优化器108提供的功率调度策略由资源控制器116控制,以将电源连接到主源总线。
图3是示出根据一个实施方式的管理电源的过程的流程图。过程 300可以由图1的资源级别101执行。参照图3,在框301处,资源优化器108从中央控制器109接收所需的总功率,其中所需的总功率表示将由IT负载112、热管理系统113和其它子系统118消耗的总功率。子系统118可以包括类似于负载级别103的另一组负载,例如,如图 6A和图6B中所示。中间级别102将管理到其它子系统的功率分配。在框302处,资源优化器108确定电源104-107的当前状态,包括电源中的哪些是可用的以及它们各自的容量等。注意,在框302处,这些也是优化器的输入,但是它们不被认为是外部变量输入。资源优化器108可以调用资源控制器116来检索或确定电源的状态。在框303 处,资源优化器108计算所需的来自不同电源104-107的优化功率。在一个实施方式中,资源优化器108包括NN模型,以基于所需的总功率和电源104-107的状态来确定所需的优化功率。在框304处,资源控制器116从资源优化器108接收所需的优化功率,并相应地配置和选择电源104-107中的至少一些,其在框305处向中间级别102提供适当的功率。资源级别101也被称为级别1。
回到图1,在一个实施方式中,中间级别102包括联接在资源级别101的输出和负载级别103的输入之间的功率总线或互连117,以将功率从资源级别101传递到负载级别103。此外,功率总线117还向IT负载112和热管理系统113以外的其它子系统118提供功率。中间级别102还包括子系统负载检测器119(也称为输出负载检测器) 和中央控制器109。子系统负载检测器119配置为基于子系统118的工作负载来确定子系统118的功耗。中央控制器109联接到子系统负载检测器和调度控制器110以接收子系统功率需求和负载级别103的负载功率需求。在一个实施方式中,中央控制器109包括NN模型,以基于子系统负载检测器119和调度控制器110所提供的功率需求来推断所需的总功率。
中间级别102主要包括将资源级别101的输出与负载级别103的输入相连接的功率总线。存在负载检测器或实现有系统间资源调度检测器。这主要用于系统间功率调度需求。输出负载检测器119用于向中央控制器109提供传递到负载的能量。中央控制器109是一个独立的控制器,它从来自调度控制器110的负载级别功率需求和来自输出负载检测器119的其它子系统/系统间功率需求两者中获取输入,并且将总功率需求发送到资源级别101并监视来自资源级别101的输出功率。中央控制器109配置为确定中间级别102和负载级别103所需的总功率。中间级别102也被称为级别2。
该级别高于级别0和级别1的资源级别和负载级别。中央控制器 109接收来自系统内控制器(例如,调度控制器和功率流优化器)或系统间功率控制器的两个功率输入。可以有多个图1的系统100,并且它们相互连接。例如,第一子系统是级别101和级别103,而第二子系统是另一组级别101和级别103。这两个子系统的组合被认为是系统间的,并且由中间级别102连接。系统间控制器从它自己的负载级别103和其它子系统的负载级别103接收功率需求。此外,系统间控制器接收由输出负载检测器提供的来自其资源级别101的功率输出。它将所需的总功率提供给级别1。这是在当前中央控制器109不对来自其它子系统118的功率需求作出反应的情况下。这里的一个关键设计是中央控制器109可以将来自其它子系统118的负载需求加在一起,然后将更新的所需的总功率传送到级别1。另一个NN模型与中央控制器109集成在一起,因为用于系统间功率调度,诸如在断电、停电或系统服务或维护的情况下。
图4是示出根据一个实施方式的操作中间级别的过程的流程图。过程400可以由中间级别102执行。参照图4,在框401处,中央控制器109从调度控制器110接收负载功率需求。在框402处,中央控制器109从输出负载检测器119接收其它子系统的功率需求。输出负载检测器119接收其它子系统的功率需求,并且输出负载检测器119 提供由资源级别103提供了多少功率。在框403处,中央控制器109 的NN模型确定所需的总功率和系统间级别调度策略。在框404处,中央控制器109向资源优化器108输出所需的总功率。对于中间级别 102,它与每个自己的资源和功率连接,而且它还从其它子系统接收所需的功率。
图5示出了根据一个实施方式的总体三级控制层次设计和操作方法。关键连接是功率或能量。控制器与优化器集成,并且优化器嵌入有NN模型。每个控制器的输入和输出是表示功率的数据。详细的功率调度逻辑和原理在不同级别间不影响。可以看出,每个层中的输入的变化在层间被隔离,并且在每个层内采用。这就是如何实现解耦,同时整个系统作为一个有机整体工作。注意,控制器和优化器108至 111以及116中的每个可以实现为处理器、微控制器、ASIC或FPGA,并且它们中的每个可以包括嵌入其中的NN模型。
在一个实施方式中,如图1中所示的数据中心系统是集群中的数据中心子系统中的一个。图6A和图6B示出了根据一个实施方式的具有多个模块(或者可以理解为彼此互连的多个子系统)的较大规模的系统。参照图6A和图6B,数据中心系统包括子系统100A和子系统 100B。尽管仅示出了两个子系统,但是可以实现更多的子系统。子系统100A-100B中的每个可以表示如图1所示的数据中心系统100。子系统100A-100B中的每个包括它们各自的控制器(108A-B、109A-B、 110A-B、111A-B和116A-B),如以上相对于图1所描述的。
子系统100A-100B中的每个与图1中所示的相同。然而,它们经由系统间总线150连接到中间级别102。这就是为什么附加的输出功率控制器和功率检测器被用于中央控制器109A-109B中的每个的原因。在该示例中,中央控制器109A-109B被称为级别3控制器。即使必须和需要系统间功率调度。它不影响级别0(例如,负载级别103)、并且尤其是级别1(例如,资源级别101)中的控制器或优化器。由于唯一的变量是优化器中的NN模型中已经考虑的总功率,因此这是解耦的益处,因为可能需要通过向系统间总线150添加越来越多的子系统来进行将来的升级。在某些情况下,子系统中的每个可能不相同。即使系统处于异构状态,各个优化器仍能正常工作。在一个实施方式中,中央控制器1和中央控制器2是在中间级别102处的级别2控制器。输出功率控制器1和输出功率控制器2是级别3控制器,用于通信和系统间功率调度。这意味着输出功率控制器1和2只与中央控制器通信。
注意,输出功率控制器1和2中的每个可以表示图1的输出负载检测器119。每个功率控制器配置为经由系统间总线150从另一子系统接收功率和/或负载需求。此外,每个功率控制器还可以经由系统间总线150向另一子系统提供其自己的子系统的功率和/或负载需求。因此,在该示例中,输出功率控制器1和2在中间级别102内相互通信。一个子系统可经由系统间总线150向另一子系统提供功率。
图7是示出根据一个实施方式的功率系统的多集群设计的框图。通常,数据中心可以托管在一个或多个数据中心园区中。每个园区可以包括一个或多个数据中心建筑物。每个建筑物可以托管一个或多个集群。每个集群可以包括一个或多个数据中心子系统,并且每个子系统可以包括各种模块或单元。在每个模型中,有一个或多个级别0和级别1。级别0和级别1通过级别2连接。级别2被设计用于连接级别1和级别2。集群控制被认为是级别3控制器,并且较高一层,即如所示的中央控制器是级别4控制器。
在该示例中,如图7中所示,存在两个集群,并且每个集群包括两个子系统。如模块中的每个所示,负载的数量或资源的数量可以不同,并且可以升级,这不会影响任何其它系统。即使在每个模块内,级别1和级别0中的升级或变化不会改变优化器中的每个中的NN模型,因为它是通过重复相同的基础设施来升级的。
作为示例,参照图7,子系统1_1可以是GPU集群,而子系统1_2 可以是通用计算集群。任何业务模型升级或业务模型变化都将仅由专用模块响应。作为另一示例,如果一个或多个子系统添加到集群1,即使具有新IT和功率/冷却系统的全新子系统1_3,它也将在其模块内具有其自己的级别0和级别1优化器和控制器,并且只有连接是通过输出控制器1_3。在集群级别处,即级别3以及级别2处,影响是最小的,因为它们仅与需要的功率量通信并且可以被调度。
因此,这些层中相应的NN模型可以保持有效并且不需要显著的重新训练。这种设计可以理解为基于容器的解决方案,即包含了相应的控制策略和优化NN,因此它们可以通过解耦设计重新用于系统扩展和升级。控制层次使得能够实现系统的多样化和多样性。此外,还有利于优化从模块到整个园区不同层上的功率效率、工作负载分配设计。
图8是示出根据一个实施方式的管理数据中心的功率的过程的流程图。过程800可以由可以包括硬件、软件或其组合的处理逻辑来执行。参照图8,在框801处,功率流优化器基于热管理系统的热数据和作为负载的电子机架的负载数据来确定负载部分的负载功率需求。在框802处,子系统负载检测器确定一个或多个子系统的子系统功率需求。在框803处,中间部分的中央控制器基于负载功率需求和子系统功率需求来确定所需的总功率。在框804处,资源控制器基于所需的总功率来配置和选择电源中的至少一些。
在前面的说明书中,已经参照本发明的特定示例性实施方式描述了本发明的实施方式。显然,可以对其进行各种修改,而不背离如所附权利要求书中所阐述的本发明的更宽的精神和范围。因此,说明书和附图被认为是说明性的,而不是限制性的。

Claims (20)

1.一种数据中心系统,包括:
负载部分,具有多个电子机架、热管理系统和功率流优化器,其中,所述电子机架中的每个包括多个服务器,并且每个服务器包含一个或多个电子设备,其中,所述热管理系统配置为向所述电子设备提供冷却和/或加热,并且其中,所述功率流优化器配置为基于所述热管理系统的热数据和所述电子机架的负载数据来确定所述负载部分的负载功率需求;以及
资源部分,具有向所述负载部分提供功率的多个电源,其中,所述资源部分包括资源控制器,所述资源控制器基于由所述功率流优化器提供的所述负载功率需求来配置和选择所述电源中的至少一些以向所述负载部分提供功率,
其中,所述功率流优化器包括功率流神经网络模型,用于基于所述热数据和所述负载数据预测所述电子机架和所述热管理系统所需的功率量,以满足所述负载部分的热需求和数据处理负载需求。
2.根据权利要求1所述的数据中心系统,其中,还包括中间部分,所述中间部分联接在所述资源部分与所述负载部分之间,其中,所述中间部分包括功率总线以将功率从所述资源部分分配到所述负载部分和其它子系统。
3.根据权利要求2所述的数据中心系统,其中,所述中间部分还包括:
子系统负载检测器,联接到所述其它子系统以确定子系统功率需求;以及
中央控制器,联接到所述负载部分的所述功率流优化器以及所述子系统负载检测器,以基于所述子系统功率需求和所述负载功率需求确定总功率需求,其中,所述资源控制器利用所述总功率需求来配置和选择所述电源中的至少一些。
4.根据权利要求3所述的数据中心系统,其中,所述负载部分还包括:
一个或多个温度传感器,设置在每个服务器内以测量所述电子设备的温度;以及
工作负载检测器,配置为确定所述服务器中的每个的工作负载,其中,所述功率流神经网络模型基于所述温度和所述服务器中的每个的所述工作负载来推断所述负载功率需求。
5.根据权利要求4所述的数据中心系统,其中,所述负载部分还包括功率调度控制器,所述功率调度控制器联接到所述功率流优化器,以基于从所述功率流优化器接收的所述负载功率需求,将从所述资源部分接收的所述功率按比例地分配到所述热管理系统和所述服务器。
6.根据权利要求5所述的数据中心系统,其中,所述负载功率需求包括关于如何将所述功率调度到所述热管理系统和所述服务器的信息,并且其中,所述功率调度控制器配置为将所述负载部分所需的总功率输出到所述中央控制器。
7.根据权利要求3所述的数据中心系统,其中,所述资源部分包括资源优化器,用于从所述中央控制器接收所述总功率需求以生成电源配置信息,其中,所述资源控制器配置为基于所述电源配置信息来配置所述电源。
8.根据权利要求7所述的数据中心系统,其中,所述资源优化器包括神经网络模型,用于基于所述总功率需求来确定所述电源配置信息。
9.根据权利要求7所述的数据中心系统,其中,所述电源配置信息包括指定将由所述多个电源中的每个提供的功率量的信息。
10.根据权利要求7所述的数据中心系统,其中,所述多个电源包括公用设施电源、光伏电源和电池电源。
11.根据权利要求3所述的数据中心系统,其中,所述中央控制器包括神经网络模型,用于基于所述负载功率需求和所述子系统功率需求来推断所述总功率需求。
12.根据权利要求3所述的数据中心系统,其中,所述数据中心系统是多个数据中心子系统中的第一数据中心子系统,并且其中,所述中间部分的所述功率总线联接到所述多个数据中心子系统中的第二数据中心子系统的中间部分的功率总线。
13.根据权利要求12所述的数据中心系统,其中,所述中央控制器由所述第一数据中心子系统和所述第二数据中心子系统共享。
14.根据权利要求12所述的数据中心系统,其中,所述多个数据中心子系统是多个数据中心集群中的第一数据中心集群。
15.根据权利要求14所述的数据中心系统,其中,所述数据中心集群中的每个由相应的集群控制器控制,并且其中,所述中央控制器由所述多个数据中心集群共享。
16.一种用于管理数据中心系统的方法,所述方法包括:
使用功率流优化器,基于热管理系统的热数据和电子机架的负载数据确定具有所述热管理系统和多个所述电子机架的负载部分的负载功率需求,其中,所述电子机架中的每个包括多个服务器,并且每个服务器包含一个或多个电子设备,其中,所述热管理系统配置为向所述电子设备提供冷却和/或加热;以及
由具有多个电源的资源部分的资源控制器基于由所述功率流优化器提供的所述负载功率需求来配置和选择所述电源中的至少一些,以向所述负载部分提供功率,
其中,所述功率流优化器包括功率流神经网络模型,用于基于所述热数据和所述负载数据预测所述电子机架和所述热管理系统所需的功率量,以满足所述负载部分的热需求和数据处理负载需求。
17.根据权利要求16所述的方法,其中,所述数据中心系统还包括中间部分,所述中间部分联接在所述资源部分与所述负载部分之间,其中,所述中间部分包括功率总线以将功率从所述资源部分分配到所述负载部分和其它子系统。
18.根据权利要求17所述的方法,还包括:
使用联接到所述其它子系统的子系统负载检测器来确定子系统功率需求;以及
使用联接到所述负载部分的所述功率流优化器以及所述子系统负载检测器的中央控制器,基于所述子系统功率需求和所述负载功率需求确定总功率需求,其中,所述资源控制器利用所述总功率需求来配置和选择所述电源中的至少一些。
19.根据权利要求18所述的方法,还包括:
使用设置在每个服务器内的一个或多个温度传感器测量所述电子设备的温度;以及
使用工作负载检测器确定所述服务器中的每个的工作负载,其中,所述功率流神经网络模型基于所述温度和所述服务器中的每个的所述工作负载来推断所述负载功率需求。
20.根据权利要求19所述的方法,还包括:使用联接到所述功率流优化器的功率调度控制器,基于从所述功率流优化器接收的所述负载功率需求,将从所述资源部分接收的所述功率按比例分配到所述热管理系统和所述服务器。
CN202111353871.8A 2021-03-18 2021-11-10 用于神经网络集成的数据中心控制层次 Pending CN115113705A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/205,360 US11442516B1 (en) 2021-03-18 2021-03-18 Data center control hierarchy for neural networks integration
US17/205,360 2021-03-18

Publications (1)

Publication Number Publication Date
CN115113705A true CN115113705A (zh) 2022-09-27

Family

ID=80785296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111353871.8A Pending CN115113705A (zh) 2021-03-18 2021-11-10 用于神经网络集成的数据中心控制层次

Country Status (4)

Country Link
US (1) US11442516B1 (zh)
EP (1) EP4033330B1 (zh)
JP (1) JP7348976B2 (zh)
CN (1) CN115113705A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377084A (zh) * 2012-04-11 2013-10-30 李涛 一种基于可再生能源的绿色数据中心的负载调度方法及装置
CN103645795A (zh) * 2013-12-13 2014-03-19 浪潮电子信息产业股份有限公司 一种基于人工神经网络的云计算数据中心节能方法
CN107423133A (zh) * 2017-06-29 2017-12-01 国网江苏省电力公司电力科学研究院 一种降低电网网损的数据中心间数据网络负载分配方法
CN109146268A (zh) * 2018-08-07 2019-01-04 东南大学 考虑联合优化数据调度和热储能的数据网络负荷建模方法
CN109800066A (zh) * 2018-12-13 2019-05-24 中国科学院信息工程研究所 一种数据中心节能调度方法及系统
CN110659180A (zh) * 2019-09-05 2020-01-07 国家计算机网络与信息安全管理中心 基于集群技术的数据中心基础设施管理系统
CN112425022A (zh) * 2018-03-30 2021-02-26 Aes有限公司 大型可再生峰化装置、紧密耦合的太阳能光伏和储能

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7894944B2 (en) * 2007-07-06 2011-02-22 Microsoft Corporation Environmental monitoring in data facilities
JP4724730B2 (ja) 2008-04-09 2011-07-13 株式会社日立製作所 情報処理システムの運用管理方法、運用管理プログラム、および運用管理装置、ならびに情報処理システム
JP4922255B2 (ja) 2008-06-30 2012-04-25 株式会社日立製作所 情報処理システムおよびそのシステムにおける省電力制御方法
US8346398B2 (en) * 2008-08-08 2013-01-01 Siemens Industry, Inc. Data center thermal performance optimization using distributed cooling systems
US8180494B2 (en) * 2008-08-27 2012-05-15 International Business Machines Corporation System and method for dynamically managing blowers and vents
CN102625926B (zh) * 2009-08-21 2015-01-07 维吉莱公司 用于高效地协调数据中心制冷单元的方法和设备
JP5511698B2 (ja) 2011-01-20 2014-06-04 日本電信電話株式会社 空調機連係制御システム、空調機連係制御方法および空調機連係制御プログラム
JP6029340B2 (ja) 2012-06-15 2016-11-24 三菱電機株式会社 直流配電盤システム
US9679087B2 (en) * 2012-09-12 2017-06-13 International Business Machines Corporation Techniques for evaluating optimum data center operation
JP6093315B2 (ja) 2014-02-17 2017-03-08 日本電信電話株式会社 コンピュータリソース管理装置、コンピュータリソース管理方法及びコンピュータリソース管理プログラム
US9454200B2 (en) * 2014-05-05 2016-09-27 International Business Machines Corporation Budgeting for power consumption in a chassis environment that includes a plurality of integrated technology elements
US10127087B2 (en) 2016-10-26 2018-11-13 The United States Of America As Represented By Secretary Of The Navy Capacity based distribution of processing jobs to computing components
US10776149B2 (en) 2018-07-25 2020-09-15 Vmware, Inc. Methods and apparatus to adjust energy requirements in a data center

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377084A (zh) * 2012-04-11 2013-10-30 李涛 一种基于可再生能源的绿色数据中心的负载调度方法及装置
CN103645795A (zh) * 2013-12-13 2014-03-19 浪潮电子信息产业股份有限公司 一种基于人工神经网络的云计算数据中心节能方法
CN107423133A (zh) * 2017-06-29 2017-12-01 国网江苏省电力公司电力科学研究院 一种降低电网网损的数据中心间数据网络负载分配方法
CN112425022A (zh) * 2018-03-30 2021-02-26 Aes有限公司 大型可再生峰化装置、紧密耦合的太阳能光伏和储能
CN109146268A (zh) * 2018-08-07 2019-01-04 东南大学 考虑联合优化数据调度和热储能的数据网络负荷建模方法
CN109800066A (zh) * 2018-12-13 2019-05-24 中国科学院信息工程研究所 一种数据中心节能调度方法及系统
CN110659180A (zh) * 2019-09-05 2020-01-07 国家计算机网络与信息安全管理中心 基于集群技术的数据中心基础设施管理系统

Also Published As

Publication number Publication date
US11442516B1 (en) 2022-09-13
EP4033330A3 (en) 2022-09-07
EP4033330B1 (en) 2023-11-08
EP4033330A2 (en) 2022-07-27
US20220300052A1 (en) 2022-09-22
JP2022078269A (ja) 2022-05-24
JP7348976B2 (ja) 2023-09-21

Similar Documents

Publication Publication Date Title
AU2011305487B2 (en) Data center control
US9778718B2 (en) Power supply and data center control
US11455021B2 (en) Datacenter power management using AC and DC power sources
AU2010214029B2 (en) Data center control
CN102227693A (zh) 实现认知的电能管理的方法
Parolini et al. Reducing data center energy consumption via coordinated cooling and load management
US11216059B2 (en) Dynamic tiering of datacenter power for workloads
Wu et al. Improving data center energy efficiency using a cyber-physical systems approach: integration of building information modeling and wireless sensor networks
US10381691B1 (en) Modular battery network systems and methods for managing modular battery network systems
Liu et al. Exploring customizable heterogeneous power distribution and management for datacenter
Liu et al. Towards an adaptive multi-power-source datacenter
JPWO2017149617A1 (ja) 制御装置、需給調整制御装置、蓄電装置、出力制御装置、需給調整システム、制御方法、需給調整方法及びプログラム
CN115113705A (zh) 用于神经网络集成的数据中心控制层次
JP7274006B2 (ja) 複数の太陽光発電システムを統合するためのシステムおよび方法
US11469612B2 (en) Modular control and dispatch for powering data centers
KR102197767B1 (ko) 스마트 시티에서 신재생 에너지와 전기자동차 충전의 결합
CN114172208B (zh) 一种基于多区域互联的新能源消纳优化系统
CN112104013A (zh) 用于电池能量存储的自检拓扑设计
KR102046822B1 (ko) 솔라셀을 이용한 발전 전력의 이용 관리 장치
EP4007103A2 (en) A current detection based renewable energy system for a data center
US20230387694A1 (en) Method for Operating an Energy System, and Energy System
Xiaoyu et al. Research on Resource Scheduling System of Virtual Machine Based on Cloud Platform
WO2023249767A1 (en) Allocating power between overhead, backup, and computing power services
CN117526315A (zh) 多能源微电网系统的优化配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination