CN113064480B - 一种基于多智能体强化学习的多数据中心协同节能方法 - Google Patents

一种基于多智能体强化学习的多数据中心协同节能方法 Download PDF

Info

Publication number
CN113064480B
CN113064480B CN202110333237.1A CN202110333237A CN113064480B CN 113064480 B CN113064480 B CN 113064480B CN 202110333237 A CN202110333237 A CN 202110333237A CN 113064480 B CN113064480 B CN 113064480B
Authority
CN
China
Prior art keywords
data center
task
network
system unit
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110333237.1A
Other languages
English (en)
Other versions
CN113064480A (zh
Inventor
冉泳屹
汪昊
雒江涛
赵雷
胡一健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110333237.1A priority Critical patent/CN113064480B/zh
Publication of CN113064480A publication Critical patent/CN113064480A/zh
Application granted granted Critical
Publication of CN113064480B publication Critical patent/CN113064480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的多数据中心协同节能方法,根据每个数据中心的机柜出风口温度和机柜的负载,对每个数据中心中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;根据多数据中心混合系统在云端执行任务时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;根据单数据中心IT‑冷却系统的状态空间和任务调度的行动空间,结合所述目标函数,构建参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;对每个数据中心,将采集到的实时数据中心状态信息输入到训练好的AI引擎中,输出单数据中心IT‑冷却系统的最优控制策略。

Description

一种基于多智能体强化学习的多数据中心协同节能方法
技术领域
本发明涉及数据中心节能领域,具体涉及一种基于多智能体强化学习的多数据中心协同节能方法。
背景技术
随着大数据和人工智能时代的到来,对数据中心的需求越来越高,数据中心的能耗和环保问题日益凸显,并且数据中心存在高能耗、低能效的问题,严重制约了数据中心的长期应用;由于边缘计算可以避免资源受限的终端设备频繁地将大量计算任务交付到中央云(Central Cloud),从而减少了传输时延和回程拥塞。然而,边缘服务器的计算资源非常稀缺,不能快速响应突发性的大量计算需求。因此,在计算密集型环境(例如,由物联网应用程序组成的计算环境)中,排队延迟是不可忽略的。此外,当工作负载较重时,边缘服务器的计算能耗可能会高于云服务器。因此,需要可靠有效的算法来实现边缘云-中央云的多数据中心协作,达到降低能耗且满足任务服务质量需求(比如:延迟)的目的。
数据中心的能耗主要分成两部分,一部分是信息技术(Information Technology,IT)系统完成机算和处理等消耗的能量,另一部分是冷却系统单元为使IT系统单元温度控制在一定范围所消耗的能量,如空调等消耗的能量。因此以往主要从这两个方面考虑节能:首先,从IT系统单元能耗方面考虑,可以1)采用新型节能处理器,可以在保证同等处理能力的前提下,降低IT系统单元能耗;2)关闭、休眠或降频空闲设备可以降低能耗;3)采用任务调度或者资源配置算法,可以提升资源利用效率,用更少的设备(更少的能耗)完成更多的任务。其次,从制冷系统能耗方面考虑,可以1)改进制冷系统硬件设施节能;2)优化冷却设备参数(如风冷机组的风速、设定温度等)来控制制冷容量,可以在保证IT设备安全运行前提下实现制冷设备节能。但是,一方面,依赖于高能效硬件设施改造的节能措施具有一定的局限性,不适合所有已建或者在建的数据中心。另一方面,现有的通过调节IT或者制冷系统参数而实现节能的算法,大多基于特定的数学模型,算法精度不高,也不能充分捕捉IT或者制冷系统的负载及温度动态特性。因此,实用性和可部署性较差。
深度强化学习为高维高动态的数据中心节能提供了关键技术。深度强化学习的以下特性使其适合数据中心节能优化:1)不依赖于精确的和数学上可解的系统模型(Model-free);2)能够应对时变的系统状态、终端设备需求等高动态的时变环境;3)能够处理复杂的状态空间。但是,原生的深度强化学习(如Deep Q-Network)仍然还不直接适用于数据中心的节能,这是因为:1)联合优化TI系统和冷却系统需要面临混杂的联合行动空间。IT系统单元将任务分配到特定服务器,其行动空间是离散的,而制冷系统是通过控制空冷机组(ACU)的出风口温度或者风速实现冷却容量的调整,其行动空间是连续的;2)多数据中心协同节能时,需要解决协作机制、分布式学习和决策等问题。
发明内容
本发明目的在于提供一种基于多智能体强化学习的多数据中心协同节能方法,引入参数化多智能体强化学习方法,将每一个数据中心都看作一个智能体,有效协调多数据中心,解决IT-制冷系统混杂的行动空间问题,能够高效地匹配IT和制冷系统的动态特性,为单个数据中心IT系统和制冷系统提供最优控制策略,实现多数据中心协同节能。
本发明通过下述技术方案实现:
现有技术中对于数据中心的节能方法采用深度强化学习用于数据中心的节能优化,对于实际的数据中心来说,需要考虑到IT系统和冷却系统单元一起运作时面临的混杂联合行动空间,由于IT系统单元将任务分配到特定服务器时,其行动空间是离散的,而冷却系统单元是通过控制冷却设施(如空冷机组ACU的出风口温度或者风速)实现冷却容量的调整,其行动空间是连续的;并且在多数据中心协同节能时,需要考虑多个数据中心的协作机制、分布式学习和决策等问题。本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数,利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致,有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提供最优控制策略;实现多数据中心的协同节能。
一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统,所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各个数据中心IT-冷却系统的最优控制策略。
进一步地,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行;对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure GDA0003052140860000031
则执行候选任务i请求的CPU内核数ci满足:
Figure GDA0003052140860000032
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p
其中,ca表示所有服务器的可用CPU内核数向量,
Figure GDA0003052140860000033
u表示所有服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率,p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服务器的总数量,
Figure GDA0003052140860000034
N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个服务器。
进一步地,热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure GDA0003052140860000035
从机柜前下部位获取入风口温度
Figure GDA0003052140860000036
从机柜后中间部位获取一个出风口温度
Figure GDA0003052140860000037
采样三个温度值;对于所有机柜的不同部位的温度向量表示分别为
Figure GDA0003052140860000038
Figure GDA0003052140860000039
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的П个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fΠ)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,Π})。
进一步地,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure GDA0003052140860000041
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为:
Figure GDA0003052140860000042
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延,则M/M/1队列的平均等待时间Tw为:
Figure GDA0003052140860000043
其中,λ表示任务到达的间隔时间满足的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
进一步地,得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过设定阈值ψu时,得到机柜负载惩罚值
Figure GDA0003052140860000044
Figure GDA0003052140860000045
根据得到的热模型,当机柜n的出风口温度
Figure GDA0003052140860000046
超过设定阈值ψT时,得到惩罚值
Figure GDA0003052140860000047
Figure GDA0003052140860000048
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延约束ψt时,得到时延惩罚值Zt,d
Figure GDA0003052140860000051
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure GDA0003052140860000052
Zt,d和PUE值,当满足条件
Figure GDA0003052140860000053
和0≤fj≤fmax(j∈1,2,…,Π时,得到目标函数为:
Figure GDA0003052140860000054
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定常数。
进一步地,步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl),根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure GDA0003052140860000055
对于中央云数据中心的决策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure GDA0003052140860000056
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中,k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
进一步地,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络
Figure GDA0003052140860000057
来输出行动向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure GDA0003052140860000061
Figure GDA0003052140860000062
其中,θ表示深度确定性策略网络的参数,
Figure GDA0003052140860000063
表示行动值网络的参数;
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络的权值;前馈网络以每个单数据中心的行动值网络
Figure GDA0003052140860000064
的输出值Qd为输入,将所述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot:Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函数Qtot指导多数据中心之间行动策略的协调更新。
进一步地,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参数
Figure GDA0003052140860000065
更新函数L1为:
Figure GDA0003052140860000066
Figure GDA0003052140860000067
其中,w’mix为中央云数据中心中目标值网络的参数,s’是在s状态下采取动作(k,xk)后的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure GDA0003052140860000068
Figure GDA0003052140860000069
把得到的输出值
Figure GDA00030521408600000610
输入到混合网络Qmix中,得到输出值
Figure GDA00030521408600000611
Figure GDA00030521408600000612
在固定每个边缘云数据中心的行动值网络参数
Figure GDA00030521408600000613
和中央云数据中心混合网络参数wmix后,通过计算
Figure GDA00030521408600000614
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure GDA00030521408600000615
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新。
进一步地,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新任务分发到合适的服务器执行。
进一步地,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量,将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于多智能体强化学习的多数据中心协同节能方法,考虑数据中心的运行状态提出目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求),引入参数化多智能体强化学习方法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数,利用状态-行动值函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致,有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提供最优控制策略,实现多数据中心的协同节能。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为深度多智能体强化学习总体结构;
图2为本发明多数据中心混合系统结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
实施例1
本实施例一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统,所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各个数据中心IT-冷却系统的最优控制策略。
上述步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行;对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure GDA0003052140860000091
则执行候选任务i请求的CPU内核数ci满足:
Figure GDA0003052140860000092
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,
Figure GDA0003052140860000093
u表示所有服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率,p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服务器的总数量,
Figure GDA0003052140860000094
N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个服务器。
上述热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure GDA0003052140860000095
从机柜前下部位获取入风口温度
Figure GDA0003052140860000096
从机柜后中间部位获取一个出风口温度
Figure GDA0003052140860000097
采样三个温度值;对于所有机柜的不同部位的温度向量表示分别为
Figure GDA0003052140860000098
Figure GDA0003052140860000099
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的∏个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,f)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,Π})。
上述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure GDA0003052140860000101
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为:
Figure GDA0003052140860000102
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延,则M/M/1队列的平均等待时间Tw为:
Figure GDA0003052140860000103
其中,λ表示任务到达的间隔时间满足的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
步骤S4中得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过设定阈值ψu时,得到机柜负载惩罚值
Figure GDA0003052140860000104
Figure GDA0003052140860000105
根据得到的热模型,当机柜n的出风口温度
Figure GDA0003052140860000106
超过设定阈值ψT时,得到惩罚值
Figure GDA0003052140860000107
Figure GDA0003052140860000108
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延约束ψt时,得到时延惩罚值Zt,d
Figure GDA0003052140860000109
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure GDA0003052140860000111
Zt,d和PUE值,当满足条件
Figure GDA0003052140860000112
和0≤fj≤fmax(j∈1,2,…,∏时,得到目标函数为:
Figure GDA0003052140860000113
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定常数。
步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl),根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure GDA0003052140860000114
对于中央云数据中心的决策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure GDA0003052140860000115
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中,k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
如图1所示,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络
Figure GDA0003052140860000116
来输出行动向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure GDA0003052140860000117
Figure GDA0003052140860000121
其中,θ表示深度确定性策略网络的参数,
Figure GDA0003052140860000122
表示行动值网络的参数;
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络的权值;前馈网络以每个单数据中心的行动值网络
Figure GDA0003052140860000123
的输出值Qd为输入,将所述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot:Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函数Qtot指导多数据中心之间行动策略的协调更新。
训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参数
Figure GDA0003052140860000124
更新函数L1为:
Figure GDA0003052140860000125
Figure GDA0003052140860000126
其中,w’mix为中央云数据中心中目标值网络的参数,s’是在s状态下采取动作(k,xk)后的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure GDA0003052140860000127
Figure GDA0003052140860000128
把得到的输出值
Figure GDA0003052140860000129
输入到混合网络Qmix中,得到输出值
Figure GDA00030521408600001210
Figure GDA00030521408600001211
在固定每个边缘云数据中心的行动值网络参数
Figure GDA00030521408600001212
和中央云数据中心混合网络参数wmix后,通过计算
Figure GDA00030521408600001213
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure GDA00030521408600001214
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新,完成多智能体深度强化学习模型的训练。
实施例2
如图2所示,本实施基于实施例1,边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新任务分发到合适的服务器执行。
对于多数据中心混合系统中的每个数据中心包括单数据中心IT-冷却系统,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量,将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。
可以理解的是,本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数,利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致,有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提供最优控制策略;实现多数据中心的协同节能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统,所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;
步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl),根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure FDA0003499610970000011
对于中央云数据中心的决策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure FDA0003499610970000012
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中,k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ);
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各个数据中心IT-冷却系统的最优控制策略。
2.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行;对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure FDA0003499610970000029
则执行候选任务i请求的CPU内核数ci满足:
Figure FDA0003499610970000021
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,
Figure FDA0003499610970000022
u表示所有服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率,表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服务器的总数量,
Figure FDA0003499610970000023
表示每个数据中心包括N个机柜,第n个机柜中装有Mn个服务器。
3.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure FDA0003499610970000024
从机柜前下部位获取入风口温度
Figure FDA0003499610970000025
从机柜后中间部位获取一个出风口温度
Figure FDA0003499610970000026
采样三个温度值;对于所有机柜的不同部位的温度向量表示分别为
Figure FDA0003499610970000027
Figure FDA0003499610970000028
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的Π个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fΠ)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,Π})。
4.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure FDA0003499610970000031
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,是终端设备的发射功率矢量,是基站接收波束形成矢量;
将比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为:
Figure FDA0003499610970000032
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延,则M/M/1队列的平均等待时间Tw为:
Figure FDA0003499610970000033
其中,λ表示任务到达的间隔时间满足的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
5.根据权利要求2-4任一所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过设定阈值ψu时,得到机柜负载惩罚值
Figure FDA0003499610970000034
Figure FDA0003499610970000035
根据得到的热模型,当机柜n的出风口温度
Figure FDA0003499610970000036
超过设定阈值ψT时,得到惩罚值
Figure FDA0003499610970000037
Figure FDA0003499610970000038
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延约束ψt时,得到时延惩罚值Zt,d
Figure FDA0003499610970000039
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure FDA0003499610970000041
和PUE值,当满足条件
Figure FDA0003499610970000042
和0≤fj≤fmax(j∈1,2,…,Π时,得到目标函数为:
min
Figure FDA0003499610970000043
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定常数。
6.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络Q(o,(k,xk);
Figure FDA0003499610970000044
来输出行动向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure FDA0003499610970000045
Figure FDA0003499610970000046
其中,θ表示深度确定性策略网络的参数,
Figure FDA0003499610970000047
表示行动值网络的参数;
在中央云数据中心中引入混合网络Qmix,所述混合网络Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络的权值;前馈网络以每个单数据中心的行动值网络Q(o,(k,xk);
Figure FDA0003499610970000048
的输出值Qd为输入,将所述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot:Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函数Qtot指导多数据中心之间行动策略的协调更新。
7.根据权利要求6所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参数
Figure FDA0003499610970000051
更新函数L1为:
Figure FDA00034996109700000511
Figure FDA0003499610970000052
其中,w’mix为中央云数据中心中目标值网络的参数,s’是在s状态下采取动作(k,xk)后的下一个状态,γ表示折扣因子;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure FDA0003499610970000053
Figure FDA0003499610970000054
把得到的输出值
Figure FDA0003499610970000055
输入到混合网络Qmix中,得到输出值
Figure FDA0003499610970000056
Figure FDA0003499610970000057
在固定每个边缘云数据中心的行动值网络参数
Figure FDA0003499610970000058
和中央云数据中心混合网络参数wmix后,通过计算
Figure FDA0003499610970000059
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure FDA00034996109700000510
8.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新任务分发到合适的服务器执行。
9.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量,将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。
CN202110333237.1A 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法 Active CN113064480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110333237.1A CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110333237.1A CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Publications (2)

Publication Number Publication Date
CN113064480A CN113064480A (zh) 2021-07-02
CN113064480B true CN113064480B (zh) 2022-04-22

Family

ID=76564579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110333237.1A Active CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Country Status (1)

Country Link
CN (1) CN113064480B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572832B (zh) * 2021-07-21 2022-06-10 广东工业大学 一种基于端边云及深度强化学习的无人机械协作方法
CN114003121B (zh) * 2021-09-30 2023-10-31 中国科学院计算技术研究所 数据中心服务器能效优化方法与装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102213475B (zh) * 2011-03-22 2013-11-06 曙光信息产业(北京)有限公司 一种数据中心功耗自适应管理方法
IL276119B2 (en) * 2018-03-26 2024-10-01 Amdocs Dev Ltd System, method and computer software for automatically generating training data for analyzing a new configuration of a communication network
US20220156639A1 (en) * 2019-08-07 2022-05-19 Hewlett-Packard Development Company, L.P. Predicting processing workloads
TWI704859B (zh) * 2019-08-21 2020-09-11 宏碁股份有限公司 智慧風扇轉速調整方法、電腦裝置及伺服器
CN111526526B (zh) * 2020-04-03 2022-12-06 东南大学 基于服务混搭的移动边缘计算中的任务卸载方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Also Published As

Publication number Publication date
CN113064480A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
Dai et al. A probabilistic approach for cooperative computation offloading in MEC-assisted vehicular networks
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN113064480B (zh) 一种基于多智能体强化学习的多数据中心协同节能方法
CN109756578B (zh) 一种面向动态雾计算网络的低时延任务调度方法
CN113452956B (zh) 一种输电线路巡检任务智能分配方法及系统
CN112650581A (zh) 一种面向智能楼宇的云边协同任务调度方法
CN110012039A (zh) 一种车联网中基于admm的任务分配与功率控制方案
Sun et al. Energy-efficient multimedia task assignment and computing offloading for mobile edge computing networks
Liu et al. Fine-grained offloading for multi-access edge computing with actor-critic federated learning
Li et al. Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning
Yan et al. A task offloading algorithm with cloud edge jointly load balance optimization based on deep reinforcement learning for unmanned surface vehicles
Wang et al. Multi-layer computation offloading in distributed heterogeneous mobile edge computing networks
Zhong et al. POTAM: A parallel optimal task allocation mechanism for large-scale delay sensitive mobile edge computing
Li et al. Task offloading strategy to maximize task completion rate in heterogeneous edge computing environment
Wang Edge artificial intelligence-based affinity task offloading under resource adjustment in a 5G network
Li et al. Dynamic adaptive workload offloading strategy in mobile edge computing networks
Mi et al. A Multi-Agent RL Algorithm for Dynamic Task Offloading in D2D-MEC Network with Energy Harvesting
Zhao et al. MEDIA: An incremental DNN based computation offloading for collaborative cloud-edge computing
CN106507640B (zh) 一种绿色数据中心温度感知的服务器管理方法
Zhu et al. Online distributed learning-based load-aware heterogeneous vehicular edge computing
Lu et al. Distributed task offloading for large-scale vec systems: A multi-agent deep reinforcement learning method
CN116488344A (zh) 一种用于多类型电网设备量测数据的动态资源调度方法
Yan et al. Collaborative optimization design for centralized networked control system
Li et al. Edge–Cloud Collaborative Computation Offloading for Mixed Traffic
Wang et al. Fine-grained Cloud Edge Collaborative Dynamic Task Scheduling Based on DNN Layer-Partitioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant