CN113064480A - 一种基于多智能体强化学习的多数据中心协同节能方法 - Google Patents
一种基于多智能体强化学习的多数据中心协同节能方法 Download PDFInfo
- Publication number
- CN113064480A CN113064480A CN202110333237.1A CN202110333237A CN113064480A CN 113064480 A CN113064480 A CN 113064480A CN 202110333237 A CN202110333237 A CN 202110333237A CN 113064480 A CN113064480 A CN 113064480A
- Authority
- CN
- China
- Prior art keywords
- data center
- task
- network
- system unit
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
- G06F9/4893—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/48—Indexing scheme relating to G06F9/48
- G06F2209/484—Precedence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5021—Priority
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Air Conditioning Control Device (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的多数据中心协同节能方法,根据每个数据中心的机柜出风口温度和机柜的负载,对每个数据中心中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;根据多数据中心混合系统在云端执行任务时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;根据单数据中心IT‑冷却系统的状态空间和任务调度的行动空间,结合所述目标函数,构建参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;对每个数据中心,将采集到的实时数据中心状态信息输入到训练好的AI引擎中,输出单数据中心IT‑冷却系统的最优控制策略。
Description
技术领域
本发明涉及数据中心节能领域,具体涉及一种基于多智能体强化学习的多数据中心协同 节能方法。
背景技术
随着大数据和人工智能时代的到来,对数据中心的需求越来越高,数据中心的能耗和环 保问题日益凸显,并且数据中心存在高能耗、低能效的问题,严重制约了数据中心的长期应 用;由于边缘计算可以避免资源受限的终端设备频繁地将大量计算任务交付到中央云(Central Cloud),从而减少了传输时延和回程拥塞。然而,边缘服务器的计算资源非常稀缺,不能快 速响应突发性的大量计算需求。因此,在计算密集型环境(例如,由物联网应用程序组成的计 算环境)中,排队延迟是不可忽略的。此外,当工作负载较重时,边缘服务器的计算能耗可能 会高于云服务器。因此,需要可靠有效的算法来实现边缘云-中央云的多数据中心协作,达到 降低能耗且满足任务服务质量需求(比如:延迟)的目的。
数据中心的能耗主要分成两部分,一部分是信息技术(Information Technology,IT)系 统完成机算和处理等消耗的能量,另一部分是冷却系统单元为使IT系统单元温度控制在一定 范围所消耗的能量,如空调等消耗的能量。因此以往主要从这两个方面考虑节能:首先,从 IT系统单元能耗方面考虑,可以1)采用新型节能处理器,可以在保证同等处理能力的前提 下,降低IT系统单元能耗;2)关闭、休眠或降频空闲设备可以降低能耗;3)采用任务调度 或者资源配置算法,可以提升资源利用效率,用更少的设备(更少的能耗)完成更多的任务。 其次,从制冷系统能耗方面考虑,可以1)改进制冷系统硬件设施节能;2)优化冷却设备参 数(如风冷机组的风速、设定温度等)来控制制冷容量,可以在保证IT设备安全运行前提下实 现制冷设备节能。但是,一方面,依赖于高能效硬件设施改造的节能措施具有一定的局限性, 不适合所有已建或者在建的数据中心。另一方面,现有的通过调节IT或者制冷系统参数而实 现节能的算法,大多基于特定的数学模型,算法精度不高,也不能充分捕捉IT或者制冷系统 的负载及温度动态特性。因此,实用性和可部署性较差。
深度强化学习为高维高动态的数据中心节能提供了关键技术。深度强化学习的以下特性 使其适合数据中心节能优化:1)不依赖于精确的和数学上可解的系统模型(Model-free);2) 能够应对时变的系统状态、终端设备需求等高动态的时变环境;3)能够处理复杂的状态空间。 但是,原生的深度强化学习(如Deep Q-Network)仍然还不直接适用于数据中心的节能,这 是因为:1)联合优化TI系统和冷却系统需要面临混杂的联合行动空间。IT系统单元将任务 分配到特定服务器,其行动空间是离散的,而制冷系统是通过控制空冷机组(ACU)的出风 口温度或者风速实现冷却容量的调整,其行动空间是连续的;2)多数据中心协同节能时,需 要解决协作机制、分布式学习和决策等问题。
发明内容
本发明目的在于提供一种基于多智能体强化学习的多数据中心协同节能方法,引入参数 化多智能体强化学习方法,将每一个数据中心都看作一个智能体,有效协调多数据中心,解 决IT-制冷系统混杂的行动空间问题,能够高效地匹配IT和制冷系统的动态特性,为单个数 据中心IT系统和制冷系统提供最优控制策略,实现多数据中心协同节能。
本发明通过下述技术方案实现:
现有技术中对于数据中心的节能方法采用深度强化学习用于数据中心的节能优化,对于 实际的数据中心来说,需要考虑到IT系统和冷却系统单元一起运作时面临的混杂联合行动空 间,由于IT系统单元将任务分配到特定服务器时,其行动空间是离散的,而冷却系统单元是 通过控制冷却设施(如空冷机组ACU的出风口温度或者风速)实现冷却容量的调整,其行动 空间是连续的;并且在多数据中心协同节能时,需要考虑多个数据中心的协作机制、分布式 学习和决策等问题。本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、 机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质 量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬 函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方 法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心 之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数, 利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致, 有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提 供最优控制策略;实现多数据中心的协同节能。
一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统, 所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系 统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到 的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函 数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型 训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各 个数据中心IT-冷却系统的最优控制策略。
进一步地,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器 预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务 队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行; 对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为则执 行候选任务i请求的CPU内核数ci满足:
根据服务器的状态信息,得到IT系统单元的负载状态sit:
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,u表示所有 服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率, p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服 务器的总数量,N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个 服务器。
进一步地,热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度从机柜 前下部位获取入风口温度从机柜后中间部位获取一个出风口温度采样三个温度值; 对于所有机柜的不同部位的温度向量表示分别为 得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的П个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fП)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU 的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,П})。
进一步地,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等 待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延 为:
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延, 则M/M/1队列的平均等待时间Tw为:其中,λ表示任务到达的间隔时间满足 的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
进一步地,得到所述目标函数的具体过程为:
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延 约束ψt时,得到时延惩罚值Zt,d:
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定 常数。
进一步地,步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT 负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl), 根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和 1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单 数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数 据中心的决策包括是否接受新任务和设置ACU出风口风速增量对于中央云数据中心的决 策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量 则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中, k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出 风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
进一步地,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调 节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络来输出行动 向量a2=(k,xk)的行动值,最终得到最优混合行动
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络 Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络 的权值;前馈网络以每个单数据中心的行动值网络的输出值Qd为输入,将所 述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot: Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函 数Qtot指导多数据中心之间行动策略的协调更新。
进一步地,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数 r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
其中,w,mix为中央云数据中心中目标值网络的参数,s,是在s状态下采取动作(k,xk)后 的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据 自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新。
进一步地,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个 边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服 务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新 任务分发到合适的服务器执行。
进一步地,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理 单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量, 将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系 统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系 统单元提供任务调度策略和冷却设施配置策略。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于多智能体强化学习的多数据中心协同节能方法,考虑数据中心的运行状 态提出目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即 时延要求),引入参数化多智能体强化学习方法,用一个确定性决策网络和一个深度神经网络 输出混杂行动,并且为了实现多个数据中心之间深度神经网络之间的协调更新,引入混合网 络,产生一个完全集中的状态-行动值函数,利用状态-行动值函数实现混合动作空间中分散 策略的协调更新,保证每个数据中心之间的行动一致,有效协调多数据中心的IT-制冷系统 混杂的行动空间,为单个数据中心IT系统和制冷系统提供最优控制策略,实现多数据中心的 协同节能。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不 构成对本发明实施例的限定。在附图中:
图1为深度多智能体强化学习总体结构;
图2为本发明多数据中心混合系统结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明 作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本 发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域 普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避 免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着: 结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此, 在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不 一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结 构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提 供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或” 包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、 “下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示 所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发 明保护范围的限制。
实施例1
本实施例一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统, 所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系 统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到 的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函 数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型 训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各 个数据中心IT-冷却系统的最优控制策略。
上述步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器 预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务 队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行; 对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为则执 行候选任务i请求的CPU内核数ci满足:
根据服务器的状态信息,得到IT系统单元的负载状态sit:
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,u表示所有 服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率, p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服 务器的总数量,N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个 服务器。
上述热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度从机柜 前下部位获取入风口温度从机柜后中间部位获取一个出风口温度采样三个温度值; 对于所有机柜的不同部位的温度向量表示分别为 得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的Π个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fП)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU 的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,П})。
上述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边 缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延 为:
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延, 则M/M/1队列的平均等待时间Tw为:其中,λ表示任务到达的间隔时间满足 的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
步骤S4中得到所述目标函数的具体过程为:
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延 约束ψt时,得到时延惩罚值Zt,d:
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定 常数。
步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT 负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl), 根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和 1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单 数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数 据中心的决策包括是否接受新任务和设置ACU出风口风速增量对于中央云数据中心的决 策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量 则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中, k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出 风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
如图1所示,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调 节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络来输出行动 向量a2=(k,xk)的行动值,最终得到最优混合行动
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络 Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络 的权值;前馈网络以每个单数据中心的行动值网络的输出值Qd为输入,将所 述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot: Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函 数Qtot指导多数据中心之间行动策略的协调更新。
训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数 r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
其中,w,mix为中央云数据中心中目标值网络的参数,s,是在s状态下采取动作(k,xk)后 的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据 自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新,完成多智能 体深度强化学习模型的训练。
实施例2
如图2所示,本实施基于实施例1,边缘云-中央云的多数据中心混合系统包括终端设备、 边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服 务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新 任务分发到合适的服务器执行。
对于多数据中心混合系统中的每个数据中心包括单数据中心IT-冷却系统,单数据中心IT- 冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量, 将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系 统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系 统单元提供任务调度策略和冷却设施配置策略。
可以理解的是,本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、 机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质 量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬 函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方 法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心 之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数, 利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致, 有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提 供最优控制策略;实现多数据中心的协同节能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护 范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。
Claims (10)
1.一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统,所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各个数据中心IT-冷却系统的最优控制策略。
2.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行;对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为则执行候选任务i请求的CPU内核数ci满足:
根据服务器的状态信息,得到IT系统单元的负载状态sit:
sit=(ca,u,p)
4.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为:
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延,则M/M/1队列的平均等待时间Tw为:其中,λ表示任务到达的间隔时间满足的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
5.根据权利要求2-4任一所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,得到所述目标函数的具体过程为:
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延约束ψt时,得到时延惩罚值Zt,d:
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定常数。
6.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl),根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
7.根据权利要求6所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络来输出行动向量a2=(k,xk)的行动值,最终得到最优混合行动
8.根据权利要求7所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
其中,w’mix为中央云数据中心中目标值网络的参数,s’是在s状态下采取动作(k,xk)后的下一个状态,γ表示折扣因子;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
9.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新任务分发到合适的服务器执行。
10.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量,将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333237.1A CN113064480B (zh) | 2021-03-29 | 2021-03-29 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333237.1A CN113064480B (zh) | 2021-03-29 | 2021-03-29 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064480A true CN113064480A (zh) | 2021-07-02 |
CN113064480B CN113064480B (zh) | 2022-04-22 |
Family
ID=76564579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110333237.1A Active CN113064480B (zh) | 2021-03-29 | 2021-03-29 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064480B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572832A (zh) * | 2021-07-21 | 2021-10-29 | 广东工业大学 | 一种基于端边云及深度强化学习的无人机械协作方法 |
CN114003121A (zh) * | 2021-09-30 | 2022-02-01 | 中国科学院计算技术研究所 | 数据中心服务器能效优化方法与装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102213475A (zh) * | 2011-03-22 | 2011-10-12 | 曙光信息产业(北京)有限公司 | 一种数据中心功耗自适应管理方法 |
CN111526526A (zh) * | 2020-04-03 | 2020-08-11 | 东南大学 | 基于服务混搭的移动边缘计算中的任务卸载方法 |
TWI704859B (zh) * | 2019-08-21 | 2020-09-11 | 宏碁股份有限公司 | 智慧風扇轉速調整方法、電腦裝置及伺服器 |
CN112272932A (zh) * | 2018-03-26 | 2021-01-26 | 阿姆多克斯发展公司 | 用于自动生成训练数据以分析通信网络新配置的系统、方法和计算机程序 |
WO2021025694A1 (en) * | 2019-08-07 | 2021-02-11 | Hewlett-Packard Development Company, L.P. | Predicting processing workloads |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
-
2021
- 2021-03-29 CN CN202110333237.1A patent/CN113064480B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102213475A (zh) * | 2011-03-22 | 2011-10-12 | 曙光信息产业(北京)有限公司 | 一种数据中心功耗自适应管理方法 |
CN112272932A (zh) * | 2018-03-26 | 2021-01-26 | 阿姆多克斯发展公司 | 用于自动生成训练数据以分析通信网络新配置的系统、方法和计算机程序 |
WO2021025694A1 (en) * | 2019-08-07 | 2021-02-11 | Hewlett-Packard Development Company, L.P. | Predicting processing workloads |
TWI704859B (zh) * | 2019-08-21 | 2020-09-11 | 宏碁股份有限公司 | 智慧風扇轉速調整方法、電腦裝置及伺服器 |
CN111526526A (zh) * | 2020-04-03 | 2020-08-11 | 东南大学 | 基于服务混搭的移动边缘计算中的任务卸载方法 |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
Non-Patent Citations (2)
Title |
---|
SHEN GAO等: ""Reinforcement Learning Based Cooperative Coded Caching Under Dynamic Popularities in Ultra-Dense Networks"", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 * |
冉泳屹等: ""分布式多媒体服务组合中的异常预测算法"", 《计算机工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113572832A (zh) * | 2021-07-21 | 2021-10-29 | 广东工业大学 | 一种基于端边云及深度强化学习的无人机械协作方法 |
CN114003121A (zh) * | 2021-09-30 | 2022-02-01 | 中国科学院计算技术研究所 | 数据中心服务器能效优化方法与装置、电子设备及存储介质 |
CN114003121B (zh) * | 2021-09-30 | 2023-10-31 | 中国科学院计算技术研究所 | 数据中心服务器能效优化方法与装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113064480B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110234127B (zh) | 一种基于sdn的雾网络任务卸载方法 | |
CN113064480B (zh) | 一种基于多智能体强化学习的多数据中心协同节能方法 | |
Ding et al. | Study on energy consumption optimization scheduling for internet of things | |
CN113452956B (zh) | 一种输电线路巡检任务智能分配方法及系统 | |
Zhao et al. | Fairness-aware task scheduling and resource allocation in UAV-enabled mobile edge computing networks | |
CN109756578A (zh) | 一种面向动态雾计算网络的低时延任务调度方法 | |
WO2023040022A1 (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
CN112650581A (zh) | 一种面向智能楼宇的云边协同任务调度方法 | |
CN113011678A (zh) | 基于边缘计算的虚拟运营平台运行控制方法 | |
Sun et al. | Energy-efficient multimedia task assignment and computing offloading for mobile edge computing networks | |
WO2024036927A1 (zh) | 基于一致性算法的配电台区群云边协同调控方法和系统 | |
Liu et al. | Fine-grained offloading for multi-access edge computing with actor-critic federated learning | |
Wang et al. | Multi-layer computation offloading in distributed heterogeneous mobile edge computing networks | |
Wang | Edge artificial intelligence-based affinity task offloading under resource adjustment in a 5G network | |
Li et al. | Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning | |
CN106507640B (zh) | 一种绿色数据中心温度感知的服务器管理方法 | |
Huang et al. | MDP-based scheduling design for mobile-edge computing systems with random user arrival | |
Zhu et al. | Online Distributed Learning-Based Load-Aware Heterogeneous Vehicular Edge Computing | |
Zhu et al. | Deep reinforcement learning-based edge computing offloading algorithm for software-defined IoT | |
Yan et al. | Collaborative optimization design for centralized networked control system | |
Li et al. | Dynamic adaptive workload offloading strategy in mobile edge computing networks | |
Tang et al. | Nonconvex maximization for communication systems based on particle swarm optimization | |
CN112422651A (zh) | 一种基于强化学习的云资源调度性能瓶颈预测方法 | |
Moerdyk et al. | Hybrid optimal control for load balancing in a cluster of computer nodes | |
Shao et al. | Delay and energy consumption optimization oriented multi-service cloud edge collaborative computing mechanism in IoT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |