CN113064480A - 一种基于多智能体强化学习的多数据中心协同节能方法 - Google Patents

一种基于多智能体强化学习的多数据中心协同节能方法 Download PDF

Info

Publication number
CN113064480A
CN113064480A CN202110333237.1A CN202110333237A CN113064480A CN 113064480 A CN113064480 A CN 113064480A CN 202110333237 A CN202110333237 A CN 202110333237A CN 113064480 A CN113064480 A CN 113064480A
Authority
CN
China
Prior art keywords
data center
task
network
system unit
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110333237.1A
Other languages
English (en)
Other versions
CN113064480B (zh
Inventor
冉泳屹
汪昊
雒江涛
赵雷
胡一健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110333237.1A priority Critical patent/CN113064480B/zh
Publication of CN113064480A publication Critical patent/CN113064480A/zh
Application granted granted Critical
Publication of CN113064480B publication Critical patent/CN113064480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的多数据中心协同节能方法,根据每个数据中心的机柜出风口温度和机柜的负载,对每个数据中心中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;根据多数据中心混合系统在云端执行任务时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;根据单数据中心IT‑冷却系统的状态空间和任务调度的行动空间,结合所述目标函数,构建参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;对每个数据中心,将采集到的实时数据中心状态信息输入到训练好的AI引擎中,输出单数据中心IT‑冷却系统的最优控制策略。

Description

一种基于多智能体强化学习的多数据中心协同节能方法
技术领域
本发明涉及数据中心节能领域,具体涉及一种基于多智能体强化学习的多数据中心协同 节能方法。
背景技术
随着大数据和人工智能时代的到来,对数据中心的需求越来越高,数据中心的能耗和环 保问题日益凸显,并且数据中心存在高能耗、低能效的问题,严重制约了数据中心的长期应 用;由于边缘计算可以避免资源受限的终端设备频繁地将大量计算任务交付到中央云(Central Cloud),从而减少了传输时延和回程拥塞。然而,边缘服务器的计算资源非常稀缺,不能快 速响应突发性的大量计算需求。因此,在计算密集型环境(例如,由物联网应用程序组成的计 算环境)中,排队延迟是不可忽略的。此外,当工作负载较重时,边缘服务器的计算能耗可能 会高于云服务器。因此,需要可靠有效的算法来实现边缘云-中央云的多数据中心协作,达到 降低能耗且满足任务服务质量需求(比如:延迟)的目的。
数据中心的能耗主要分成两部分,一部分是信息技术(Information Technology,IT)系 统完成机算和处理等消耗的能量,另一部分是冷却系统单元为使IT系统单元温度控制在一定 范围所消耗的能量,如空调等消耗的能量。因此以往主要从这两个方面考虑节能:首先,从 IT系统单元能耗方面考虑,可以1)采用新型节能处理器,可以在保证同等处理能力的前提 下,降低IT系统单元能耗;2)关闭、休眠或降频空闲设备可以降低能耗;3)采用任务调度 或者资源配置算法,可以提升资源利用效率,用更少的设备(更少的能耗)完成更多的任务。 其次,从制冷系统能耗方面考虑,可以1)改进制冷系统硬件设施节能;2)优化冷却设备参 数(如风冷机组的风速、设定温度等)来控制制冷容量,可以在保证IT设备安全运行前提下实 现制冷设备节能。但是,一方面,依赖于高能效硬件设施改造的节能措施具有一定的局限性, 不适合所有已建或者在建的数据中心。另一方面,现有的通过调节IT或者制冷系统参数而实 现节能的算法,大多基于特定的数学模型,算法精度不高,也不能充分捕捉IT或者制冷系统 的负载及温度动态特性。因此,实用性和可部署性较差。
深度强化学习为高维高动态的数据中心节能提供了关键技术。深度强化学习的以下特性 使其适合数据中心节能优化:1)不依赖于精确的和数学上可解的系统模型(Model-free);2) 能够应对时变的系统状态、终端设备需求等高动态的时变环境;3)能够处理复杂的状态空间。 但是,原生的深度强化学习(如Deep Q-Network)仍然还不直接适用于数据中心的节能,这 是因为:1)联合优化TI系统和冷却系统需要面临混杂的联合行动空间。IT系统单元将任务 分配到特定服务器,其行动空间是离散的,而制冷系统是通过控制空冷机组(ACU)的出风 口温度或者风速实现冷却容量的调整,其行动空间是连续的;2)多数据中心协同节能时,需 要解决协作机制、分布式学习和决策等问题。
发明内容
本发明目的在于提供一种基于多智能体强化学习的多数据中心协同节能方法,引入参数 化多智能体强化学习方法,将每一个数据中心都看作一个智能体,有效协调多数据中心,解 决IT-制冷系统混杂的行动空间问题,能够高效地匹配IT和制冷系统的动态特性,为单个数 据中心IT系统和制冷系统提供最优控制策略,实现多数据中心协同节能。
本发明通过下述技术方案实现:
现有技术中对于数据中心的节能方法采用深度强化学习用于数据中心的节能优化,对于 实际的数据中心来说,需要考虑到IT系统和冷却系统单元一起运作时面临的混杂联合行动空 间,由于IT系统单元将任务分配到特定服务器时,其行动空间是离散的,而冷却系统单元是 通过控制冷却设施(如空冷机组ACU的出风口温度或者风速)实现冷却容量的调整,其行动 空间是连续的;并且在多数据中心协同节能时,需要考虑多个数据中心的协作机制、分布式 学习和决策等问题。本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、 机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质 量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬 函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方 法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心 之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数, 利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致, 有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提 供最优控制策略;实现多数据中心的协同节能。
一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统, 所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系 统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到 的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函 数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型 训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各 个数据中心IT-冷却系统的最优控制策略。
进一步地,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器 预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务 队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行; 对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure BDA0002997125640000039
则执 行候选任务i请求的CPU内核数ci满足:
Figure BDA0002997125640000031
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,
Figure BDA0002997125640000032
u表示所有 服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率, p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服 务器的总数量,
Figure BDA0002997125640000033
N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个 服务器。
进一步地,热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure BDA0002997125640000034
从机柜 前下部位获取入风口温度
Figure BDA0002997125640000035
从机柜后中间部位获取一个出风口温度
Figure BDA0002997125640000036
采样三个温度值; 对于所有机柜的不同部位的温度向量表示分别为
Figure BDA0002997125640000037
Figure BDA0002997125640000038
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的П个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fП)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU 的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,П})。
进一步地,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等 待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure BDA0002997125640000041
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延 为:
Figure BDA0002997125640000042
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延, 则M/M/1队列的平均等待时间Tw为:
Figure BDA0002997125640000043
其中,λ表示任务到达的间隔时间满足 的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
进一步地,得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过 设定阈值ψu时,得到机柜负载惩罚值
Figure BDA0002997125640000044
Figure BDA0002997125640000045
根据得到的热模型,当机柜n的出风口温度
Figure BDA0002997125640000048
超过设定阈值ψT时,得到惩罚值
Figure BDA0002997125640000046
Figure BDA0002997125640000047
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延 约束ψt时,得到时延惩罚值Zt,d
Figure BDA0002997125640000051
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure BDA0002997125640000052
Zt,d和PUE值,当满足条件
Figure BDA0002997125640000053
和0≤fj≤fmax(j∈1,2,…,∏时,得到目标函数为:
Figure BDA0002997125640000054
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定 常数。
进一步地,步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT 负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl), 根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和 1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单 数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数 据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure BDA0002997125640000055
对于中央云数据中心的决 策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure BDA0002997125640000056
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中, k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出 风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
进一步地,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调 节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络
Figure BDA0002997125640000061
来输出行动 向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure BDA0002997125640000062
Figure BDA0002997125640000063
其中,θ表示深度确定性策略网络的参数,
Figure BDA0002997125640000064
表示行动值网络的参数;
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络 Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络 的权值;前馈网络以每个单数据中心的行动值网络
Figure BDA0002997125640000065
的输出值Qd为输入,将所 述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot: Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函 数Qtot指导多数据中心之间行动策略的协调更新。
进一步地,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数 r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的 差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参 数
Figure BDA0002997125640000066
更新函数L1为:
Figure BDA0002997125640000067
Figure BDA0002997125640000068
其中,w,mix为中央云数据中心中目标值网络的参数,s,是在s状态下采取动作(k,xk)后 的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据 自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure BDA0002997125640000069
Figure BDA00029971256400000610
把得到的输出值
Figure BDA00029971256400000611
输入到混合网络Qmix中,得到输出值
Figure BDA00029971256400000612
Figure BDA00029971256400000613
在固定每个边缘云数据中心的行动值网络参数
Figure BDA00029971256400000614
和中央云数据中心混合网络参数wmix后,通 过计算
Figure BDA0002997125640000071
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure BDA0002997125640000072
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新。
进一步地,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个 边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服 务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新 任务分发到合适的服务器执行。
进一步地,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理 单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量, 将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系 统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系 统单元提供任务调度策略和冷却设施配置策略。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于多智能体强化学习的多数据中心协同节能方法,考虑数据中心的运行状 态提出目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即 时延要求),引入参数化多智能体强化学习方法,用一个确定性决策网络和一个深度神经网络 输出混杂行动,并且为了实现多个数据中心之间深度神经网络之间的协调更新,引入混合网 络,产生一个完全集中的状态-行动值函数,利用状态-行动值函数实现混合动作空间中分散 策略的协调更新,保证每个数据中心之间的行动一致,有效协调多数据中心的IT-制冷系统 混杂的行动空间,为单个数据中心IT系统和制冷系统提供最优控制策略,实现多数据中心的 协同节能。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不 构成对本发明实施例的限定。在附图中:
图1为深度多智能体强化学习总体结构;
图2为本发明多数据中心混合系统结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明 作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本 发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域 普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避 免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着: 结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此, 在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不 一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结 构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提 供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或” 包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、 “下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为 基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示 所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发 明保护范围的限制。
实施例1
本实施例一种基于多智能体强化学习的多数据中心协同节能方法,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统, 所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系 统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到 的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函 数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型 训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各 个数据中心IT-冷却系统的最优控制策略。
上述步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器 预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务 队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行; 对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure BDA0002997125640000091
则执 行候选任务i请求的CPU内核数ci满足:
Figure BDA0002997125640000092
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,
Figure BDA0002997125640000093
u表示所有 服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率, p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服 务器的总数量,
Figure BDA0002997125640000094
N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个 服务器。
上述热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure BDA0002997125640000095
从机柜 前下部位获取入风口温度
Figure BDA0002997125640000096
从机柜后中间部位获取一个出风口温度
Figure BDA0002997125640000097
采样三个温度值; 对于所有机柜的不同部位的温度向量表示分别为
Figure BDA0002997125640000098
Figure BDA0002997125640000099
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的Π个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fП)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU 的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,П})。
上述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边 缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure BDA0002997125640000101
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延 为:
Figure BDA0002997125640000102
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延, 则M/M/1队列的平均等待时间Tw为:
Figure BDA0002997125640000103
其中,λ表示任务到达的间隔时间满足 的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
步骤S4中得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过 设定阈值ψu时,得到机柜负载惩罚值
Figure BDA0002997125640000104
Figure BDA0002997125640000105
根据得到的热模型,当机柜n的出风口温度
Figure BDA0002997125640000106
超过设定阈值ψT时,得到惩罚值
Figure BDA0002997125640000107
Figure BDA0002997125640000108
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延 约束ψt时,得到时延惩罚值Zt,d
Figure BDA0002997125640000111
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure BDA0002997125640000112
Zt,d和PUE值,当满足条件
Figure BDA0002997125640000113
和0≤fj≤fmax(j∈1,2,…,∏时,得到目标函数为:
Figure BDA0002997125640000114
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定 常数。
步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT 负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl), 根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和 1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单 数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数 据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure BDA0002997125640000115
对于中央云数据中心的决 策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure BDA0002997125640000116
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中, k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出 风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
如图1所示,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调 节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络
Figure BDA0002997125640000121
来输出行动 向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure BDA0002997125640000122
Figure BDA0002997125640000123
其中,θ表示深度确定性策略网络的参数,
Figure BDA0002997125640000124
表示行动值网络的参数;
为解决多数据中心的协调问题,在中央云数据中心中引入混合网络Qmix,所述混合网络 Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络 的权值;前馈网络以每个单数据中心的行动值网络
Figure BDA0002997125640000125
的输出值Qd为输入,将所 述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot: Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函 数Qtot指导多数据中心之间行动策略的协调更新。
训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数 r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的 差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参 数
Figure BDA0002997125640000126
更新函数L1为:
Figure BDA0002997125640000127
Figure BDA0002997125640000128
其中,w,mix为中央云数据中心中目标值网络的参数,s,是在s状态下采取动作(k,xk)后 的下一个状态,γ表示折扣因子;状态-行动值函数Qtot使得每个数据中心d在分布式地根据 自身行动值网络输出值Qd选择参数化行动的同时,能够实现多数据中心的协调;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure BDA0002997125640000129
Figure BDA00029971256400001210
把得到的输出值
Figure BDA00029971256400001211
输入到混合网络Qmix中,得到输出值
Figure BDA00029971256400001212
Figure BDA00029971256400001213
在固定每个边缘云数据中心的行动值网络参数
Figure BDA00029971256400001214
和中央云数据中心混合网络参数wmix后,通 过计算
Figure BDA0002997125640000131
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure BDA0002997125640000132
通过上述过程,边缘云数据中心和中央云数据中心的参数都可以进行更新,完成多智能 体深度强化学习模型的训练。
实施例2
如图2所示,本实施基于实施例1,边缘云-中央云的多数据中心混合系统包括终端设备、 边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服 务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新 任务分发到合适的服务器执行。
对于多数据中心混合系统中的每个数据中心包括单数据中心IT-冷却系统,单数据中心IT- 冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量, 将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系 统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系 统单元提供任务调度策略和冷却设施配置策略。
可以理解的是,本发明通过考虑数据中心的运行状态,如可用CPU数量、服务器功耗、 机房温度等构建目标函数,利用目标函数提升所有数据中心的能效并保障终端设备的服务质 量需求(即时延要求),考虑到数据中心的行动空间状态,提出报酬函数,AI引擎通过报酬 函数的反馈信息能够高效地匹配IT和冷却系统的动态特性,引入参数化多智能体强化学习方 法,用一个确定性决策网络和一个深度神经网络输出混杂行动,并且为了实现多个数据中心 之间深度神经网络之间的协调更新,引入混合网络,产生一个完全集中的状态-行动值函数, 利用该函数实现混合动作空间中分散策略的协调更新,保证每个数据中心之间的行动一致, 有效协调多数据中心的IT-制冷系统混杂的行动空间,为单个数据中心IT系统和制冷系统提 供最优控制策略;实现多数据中心的协同节能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护 范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。

Claims (10)

1.一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,包括以下步骤:
步骤S1、建立边缘云-中央云的多数据中心混合系统;
步骤S2、对于多数据中心混合系统中的每个数据中心,建立单数据中心IT-冷却系统,所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎;
步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载,对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型;
步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型,结合得到的IT负载模型和热模型,得到目标函数;
步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间,结合所述目标函数,构建和训练参数化多智能体深度强化学习模型;利用参数化多智能体深度强化学习模型训练AI引擎;
步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中,得到各个数据中心IT-冷却系统的最优控制策略。
2.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,步骤S3中对每个数据中心,所述IT负载模型的建模过程为:
设置任务请求条件,包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级;
根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序,位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行;对于任务队列中排序为i的候选任务,分配到的服务器k的可用CPU内核数表示为
Figure FDA0002997125630000011
则执行候选任务i请求的CPU内核数ci满足:
Figure FDA0002997125630000012
根据服务器的状态信息,得到IT系统单元的负载状态sit
sit=(ca,u,p)
其中,ca表示所有服务器的可用CPU内核数向量,
Figure FDA0002997125630000013
u表示所有服务器的CPU使用率向量,u=(u1,u2,…,uK),uk表示第k个服务器的CPU使用率,p表示所有服务器功耗向量,p=(p1,p2,…,pK),pk表示第k个服务器功耗,其中K为服务器的总数量,
Figure FDA0002997125630000014
N表示每个数据中心包括N个机柜,第n个机柜中装有Mn个服务器。
3.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,热模型建模过程为:
通过温度传感器对每个数据中心的每个机柜,从机柜前上获取入风口温度
Figure FDA0002997125630000021
从机柜前下部位获取入风口温度
Figure FDA0002997125630000022
从机柜后中间部位获取一个出风口温度
Figure FDA0002997125630000023
采样三个温度值;对于所有机柜的不同部位的温度向量表示分别为
Figure FDA0002997125630000024
Figure FDA0002997125630000025
得到数据中心的热状态为:
sthl=(Tin,e,Tin,l,To)
将冷却系统单元的Π个ACU温度均设置为固定值,通过调节ACU出风口风速f=(f1,f2,…,fΠ)对冷却系统单元的制冷容量进行调整,且任意ACU出风口风速在0和ACU的最大风速fmax之间,0≤fj≤fmax(j∈{1,2,…,Π})。
4.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延,具体过程为:
根据终端设备传输I比特的计算任务到边缘云,则上行传输时延为:
Figure FDA0002997125630000026
Ru(q,w)=Bulog2(1+γu(q,w))
其中,Ru(q,w)为上行传输速率,Bu为上行带宽,γu(q,w)为信噪比,q是终端设备的发射功率矢量,w是基站接收波束形成矢量;
将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为:
Figure FDA0002997125630000027
其中,αd为通信时延因子,bw(d)为边缘云到中央云的传输路径带宽;
根据任务在边缘节点的任务队列中的逗留时间,通过队列模型估算边缘节点等待时延,则M/M/1队列的平均等待时间Tw为:
Figure FDA0002997125630000028
其中,λ表示任务到达的间隔时间满足的负指数分布的参数;μ表示边缘节点的服务时间满足的负指数的参数,且λ<μ;
对于I比特的计算任务,边缘云/中央云计算时延tc为:
tc=Icu/fu
其中,cu表示单位比特耗费的计算资源,fu表示CPU时钟频率。
5.根据权利要求2-4任一所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,得到所述目标函数的具体过程为:
对于数据中心d,根据得到的IT负载模型,当机柜n的第k个服务器CPU使用率uk超过设定阈值ψu时,得到机柜负载惩罚值
Figure FDA0002997125630000031
Figure FDA0002997125630000032
根据得到的热模型,当机柜n的出风口温度
Figure FDA0002997125630000033
超过设定阈值ψT时,得到惩罚值
Figure FDA0002997125630000034
Figure FDA0002997125630000035
根据得到的传输时延模型,当任务在边缘云或中央云上执行的总时延td超过任务的时延约束ψt时,得到时延惩罚值Zt,d
Figure FDA0002997125630000036
根据各个数据中心的总电能与其IT负载消耗的电能的比值,得到电能利用效率PUE值;
根据所述惩罚值
Figure FDA0002997125630000037
Zt,d和PUE值,当满足条件
Figure FDA0002997125630000038
和0≤fj≤fmax(j∈{1,2,…,Π})时,得到目标函数为:
Figure FDA0002997125630000039
其中,Nd为数据中心d总共的机柜数量,D表示一共有D个数据中心,β1、β2和βt为设定常数。
6.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,步骤S5中状态空间和任务调度的行动空间的构建过程为:
步骤S51、对于每个数据中心,根据候选任务i请求的CPU内核数ci、ACU出风口风速f、IT负载状态sit和热状态sthl得到单数据中心IT-冷却系统的状态向量o,o=(ci,f,sit,sthl),根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O;
步骤S52、所述多数据中心混合系统包括D个数据中心,分为D-1个边缘云数据中心和1个中央云数据中心;根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量,则D个数据中心状态空间的全局向量表示为:s=(o1,o2,…,oD),全局向量的所有取值构成多数据中心混合系统的状态空间S;
步骤S53、计算D个数据中心的任务调度行动空间,对于任意边缘云数据中心,边缘云数据中心的决策包括是否接受新任务和设置ACU出风口风速增量
Figure FDA0002997125630000041
对于中央云数据中心的决策包括是否将新任务分配到边缘云数据中心d中的服务器kd执行和设置ACU出风口风速增量
Figure FDA0002997125630000042
则对于每个数据中心,单数据中心IT-冷却系统的联合行动向量为a1=(k,x),其中,k表示IT系统单元的任务调度行动为服务器k,k∈{1,2,…,K};x为冷却系统单元ACU出风口风速f=(f1,f2,…,fΠ)的调节行动增量值,x=(x1,x2,…,xΠ)。
7.根据权利要求6所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,构建参数化多智能体深度强化学习模型的过程为:
在每个数据中心中引入参数化行动空间,得到单数据中心的行动向量为:
a2=(k,xk);xk表示选择任务执行的服务器k所关联的风速调节增量;
根据参数化深度强化学习原理,针对单数据中心,对于给定的服务器k,其关联的风速调节量利用深度确定性策略网络μk(o,θ)输出,同时利用行动值网络
Figure FDA0002997125630000043
来输出行动向量a2=(k,xk)的行动值,最终得到最优混合行动
Figure FDA0002997125630000044
Figure FDA0002997125630000045
其中,θ表示深度确定性策略网络的参数,
Figure FDA0002997125630000046
表示行动值网络的参数;
在中央云数据中心中引入混合网络Qmix,所述混合网络Qmix包括前馈神经网络和独立的超网络;超网络以全局向量s为输入,输出所述前馈神经网络的权值;前馈网络以每个单数据中心的行动值网络
Figure FDA0002997125630000047
的输出值Qd为输入,将所述前馈神经网络的权值和所述输出值Qd单调混合,得到完全集中的状态-行动值函数Qtot:Qtot=g(s,Q1,Q2,…,QD;wmix),其中wmix为混合网络Qmix的参数,利用所述状态-行动值函数Qtot指导多数据中心之间行动策略的协调更新。
8.根据权利要求7所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,训练所提出的多智能体深度强化学习模型的过程为:
根据单个数据中心执行任务后给AI引擎的即时反馈,结合所述目标函数Γ构建报酬函数r,r=r0-Γ-β3,其中,r0为设定常量,Γ为所述目标函数,β3为无效行动惩罚值;
通过最小化中央云数据中心中的目标值网络输出值ytot和状态-行动值函数Qtot输出值的差值更新中央云数据中心混合网络Qmix的参数wmix和每个边缘云数据中心的行动值网络的参数
Figure FDA0002997125630000051
更新函数L1为:
Figure FDA0002997125630000052
Figure FDA0002997125630000053
其中,w’mix为中央云数据中心中目标值网络的参数,s’是在s状态下采取动作(k,xk)后的下一个状态,γ表示折扣因子;
对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为:
对于每个数据中心d计算所有离散行动的输出值
Figure FDA0002997125630000054
Figure FDA0002997125630000055
把得到的输出值
Figure FDA0002997125630000056
输入到混合网络Qmix中,得到输出值
Figure FDA0002997125630000057
Figure FDA0002997125630000058
在固定每个边缘云数据中心的行动值网络参数
Figure FDA0002997125630000059
和中央云数据中心混合网络参数wmix后,通过计算
Figure FDA00029971256300000510
的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ,梯度计算如下:
Figure FDA00029971256300000511
9.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心;其中,
终端设备通过边缘网关将计算任务提交给边缘云数据中心;
边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行;
若决定在本地服务器执行,则将新任务先放入任务队列,等候分发;若决定不在本地服务器执行,则将新任务转发到中央云数据中心;
中央云数据中心用于将接收到的新任务放入任务队列,根据任务列表执行顺序将所述新任务分发到合适的服务器执行。
10.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法,其特征在于,单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎,其中,
所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务;
冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量,将IT设备的温度控制在允许的阈值范围;
数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互,IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎;
AI引擎利用参数化多智能体深度强化学习模型进行训练,分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。
CN202110333237.1A 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法 Active CN113064480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110333237.1A CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110333237.1A CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Publications (2)

Publication Number Publication Date
CN113064480A true CN113064480A (zh) 2021-07-02
CN113064480B CN113064480B (zh) 2022-04-22

Family

ID=76564579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110333237.1A Active CN113064480B (zh) 2021-03-29 2021-03-29 一种基于多智能体强化学习的多数据中心协同节能方法

Country Status (1)

Country Link
CN (1) CN113064480B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572832A (zh) * 2021-07-21 2021-10-29 广东工业大学 一种基于端边云及深度强化学习的无人机械协作方法
CN114003121A (zh) * 2021-09-30 2022-02-01 中国科学院计算技术研究所 数据中心服务器能效优化方法与装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102213475A (zh) * 2011-03-22 2011-10-12 曙光信息产业(北京)有限公司 一种数据中心功耗自适应管理方法
CN111526526A (zh) * 2020-04-03 2020-08-11 东南大学 基于服务混搭的移动边缘计算中的任务卸载方法
TWI704859B (zh) * 2019-08-21 2020-09-11 宏碁股份有限公司 智慧風扇轉速調整方法、電腦裝置及伺服器
CN112272932A (zh) * 2018-03-26 2021-01-26 阿姆多克斯发展公司 用于自动生成训练数据以分析通信网络新配置的系统、方法和计算机程序
WO2021025694A1 (en) * 2019-08-07 2021-02-11 Hewlett-Packard Development Company, L.P. Predicting processing workloads
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102213475A (zh) * 2011-03-22 2011-10-12 曙光信息产业(北京)有限公司 一种数据中心功耗自适应管理方法
CN112272932A (zh) * 2018-03-26 2021-01-26 阿姆多克斯发展公司 用于自动生成训练数据以分析通信网络新配置的系统、方法和计算机程序
WO2021025694A1 (en) * 2019-08-07 2021-02-11 Hewlett-Packard Development Company, L.P. Predicting processing workloads
TWI704859B (zh) * 2019-08-21 2020-09-11 宏碁股份有限公司 智慧風扇轉速調整方法、電腦裝置及伺服器
CN111526526A (zh) * 2020-04-03 2020-08-11 东南大学 基于服务混搭的移动边缘计算中的任务卸载方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHEN GAO等: ""Reinforcement Learning Based Cooperative Coded Caching Under Dynamic Popularities in Ultra-Dense Networks"", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
冉泳屹等: ""分布式多媒体服务组合中的异常预测算法"", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572832A (zh) * 2021-07-21 2021-10-29 广东工业大学 一种基于端边云及深度强化学习的无人机械协作方法
CN114003121A (zh) * 2021-09-30 2022-02-01 中国科学院计算技术研究所 数据中心服务器能效优化方法与装置、电子设备及存储介质
CN114003121B (zh) * 2021-09-30 2023-10-31 中国科学院计算技术研究所 数据中心服务器能效优化方法与装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113064480B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110234127B (zh) 一种基于sdn的雾网络任务卸载方法
CN113064480B (zh) 一种基于多智能体强化学习的多数据中心协同节能方法
Ding et al. Study on energy consumption optimization scheduling for internet of things
CN113452956B (zh) 一种输电线路巡检任务智能分配方法及系统
Zhao et al. Fairness-aware task scheduling and resource allocation in UAV-enabled mobile edge computing networks
CN109756578A (zh) 一种面向动态雾计算网络的低时延任务调度方法
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN112650581A (zh) 一种面向智能楼宇的云边协同任务调度方法
CN113011678A (zh) 基于边缘计算的虚拟运营平台运行控制方法
Sun et al. Energy-efficient multimedia task assignment and computing offloading for mobile edge computing networks
WO2024036927A1 (zh) 基于一致性算法的配电台区群云边协同调控方法和系统
Liu et al. Fine-grained offloading for multi-access edge computing with actor-critic federated learning
Wang et al. Multi-layer computation offloading in distributed heterogeneous mobile edge computing networks
Li et al. Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning
CN106507640B (zh) 一种绿色数据中心温度感知的服务器管理方法
Lu et al. Distributed task offloading for large-scale vec systems: A multi-agent deep reinforcement learning method
Huang et al. MDP-based scheduling design for mobile-edge computing systems with random user arrival
Zhu et al. Online Distributed Learning-Based Load-Aware Heterogeneous Vehicular Edge Computing
Zhu et al. Deep reinforcement learning-based edge computing offloading algorithm for software-defined IoT
Yan et al. Collaborative optimization design for centralized networked control system
Tang et al. Nonconvex maximization for communication systems based on particle swarm optimization
CN112422651A (zh) 一种基于强化学习的云资源调度性能瓶颈预测方法
Moerdyk et al. Hybrid optimal control for load balancing in a cluster of computer nodes
Shao et al. Delay and energy consumption optimization oriented multi-service cloud edge collaborative computing mechanism in IoT
Guo et al. MADRLOM: A Computation offloading mechanism for software-defined cloud-edge computing power network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant