CN113064480A

CN113064480A - 一种基于多智能体强化学习的多数据中心协同节能方法

Info

Publication number: CN113064480A
Application number: CN202110333237.1A
Authority: CN
Inventors: 冉泳屹; 汪昊; 雒江涛; 赵雷; 胡一健
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-02
Anticipated expiration: 2041-03-29
Also published as: CN113064480B

Abstract

本发明公开了一种基于多智能体强化学习的多数据中心协同节能方法，根据每个数据中心的机柜出风口温度和机柜的负载，对每个数据中心中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型；根据多数据中心混合系统在云端执行任务时的时延建立传输时延模型，结合得到的IT负载模型和热模型，得到目标函数；根据单数据中心IT‑冷却系统的状态空间和任务调度的行动空间，结合所述目标函数，构建参数化多智能体深度强化学习模型；利用参数化多智能体深度强化学习模型训练AI引擎；对每个数据中心，将采集到的实时数据中心状态信息输入到训练好的AI引擎中，输出单数据中心IT‑冷却系统的最优控制策略。

Description

一种基于多智能体强化学习的多数据中心协同节能方法

技术领域

本发明涉及数据中心节能领域，具体涉及一种基于多智能体强化学习的多数据中心协同节能方法。

背景技术

随着大数据和人工智能时代的到来，对数据中心的需求越来越高，数据中心的能耗和环保问题日益凸显，并且数据中心存在高能耗、低能效的问题，严重制约了数据中心的长期应用；由于边缘计算可以避免资源受限的终端设备频繁地将大量计算任务交付到中央云(Central Cloud)，从而减少了传输时延和回程拥塞。然而，边缘服务器的计算资源非常稀缺，不能快速响应突发性的大量计算需求。因此，在计算密集型环境(例如，由物联网应用程序组成的计算环境)中，排队延迟是不可忽略的。此外，当工作负载较重时，边缘服务器的计算能耗可能会高于云服务器。因此，需要可靠有效的算法来实现边缘云-中央云的多数据中心协作，达到降低能耗且满足任务服务质量需求(比如：延迟)的目的。

数据中心的能耗主要分成两部分，一部分是信息技术(Information Technology，IT)系统完成机算和处理等消耗的能量，另一部分是冷却系统单元为使IT系统单元温度控制在一定范围所消耗的能量，如空调等消耗的能量。因此以往主要从这两个方面考虑节能：首先，从 IT系统单元能耗方面考虑，可以1)采用新型节能处理器，可以在保证同等处理能力的前提下，降低IT系统单元能耗；2)关闭、休眠或降频空闲设备可以降低能耗；3)采用任务调度或者资源配置算法，可以提升资源利用效率，用更少的设备(更少的能耗)完成更多的任务。其次，从制冷系统能耗方面考虑，可以1)改进制冷系统硬件设施节能；2)优化冷却设备参数(如风冷机组的风速、设定温度等)来控制制冷容量，可以在保证IT设备安全运行前提下实现制冷设备节能。但是，一方面，依赖于高能效硬件设施改造的节能措施具有一定的局限性，不适合所有已建或者在建的数据中心。另一方面，现有的通过调节IT或者制冷系统参数而实现节能的算法，大多基于特定的数学模型，算法精度不高，也不能充分捕捉IT或者制冷系统的负载及温度动态特性。因此，实用性和可部署性较差。

深度强化学习为高维高动态的数据中心节能提供了关键技术。深度强化学习的以下特性使其适合数据中心节能优化：1)不依赖于精确的和数学上可解的系统模型(Model-free)；2) 能够应对时变的系统状态、终端设备需求等高动态的时变环境；3)能够处理复杂的状态空间。但是，原生的深度强化学习(如Deep Q-Network)仍然还不直接适用于数据中心的节能，这是因为：1)联合优化TI系统和冷却系统需要面临混杂的联合行动空间。IT系统单元将任务分配到特定服务器，其行动空间是离散的，而制冷系统是通过控制空冷机组(ACU)的出风口温度或者风速实现冷却容量的调整，其行动空间是连续的；2)多数据中心协同节能时，需要解决协作机制、分布式学习和决策等问题。

发明内容

本发明目的在于提供一种基于多智能体强化学习的多数据中心协同节能方法，引入参数化多智能体强化学习方法，将每一个数据中心都看作一个智能体，有效协调多数据中心，解决IT-制冷系统混杂的行动空间问题，能够高效地匹配IT和制冷系统的动态特性，为单个数据中心IT系统和制冷系统提供最优控制策略，实现多数据中心协同节能。

本发明通过下述技术方案实现：

现有技术中对于数据中心的节能方法采用深度强化学习用于数据中心的节能优化，对于实际的数据中心来说，需要考虑到IT系统和冷却系统单元一起运作时面临的混杂联合行动空间，由于IT系统单元将任务分配到特定服务器时，其行动空间是离散的，而冷却系统单元是通过控制冷却设施(如空冷机组ACU的出风口温度或者风速)实现冷却容量的调整，其行动空间是连续的；并且在多数据中心协同节能时，需要考虑多个数据中心的协作机制、分布式学习和决策等问题。本发明通过考虑数据中心的运行状态，如可用CPU数量、服务器功耗、机房温度等构建目标函数，利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求)，考虑到数据中心的行动空间状态，提出报酬函数，AI引擎通过报酬函数的反馈信息能够高效地匹配IT和冷却系统的动态特性，引入参数化多智能体强化学习方法，用一个确定性决策网络和一个深度神经网络输出混杂行动，并且为了实现多个数据中心之间深度神经网络之间的协调更新，引入混合网络，产生一个完全集中的状态-行动值函数，利用该函数实现混合动作空间中分散策略的协调更新，保证每个数据中心之间的行动一致，有效协调多数据中心的IT-制冷系统混杂的行动空间，为单个数据中心IT系统和制冷系统提供最优控制策略；实现多数据中心的协同节能。

一种基于多智能体强化学习的多数据中心协同节能方法，包括以下步骤：

步骤S1、建立边缘云-中央云的多数据中心混合系统；

步骤S2、对于多数据中心混合系统中的每个数据中心，建立单数据中心IT-冷却系统，所述单数据中心IT-冷却系统包括IT系统单元、冷却系统单元和AI引擎；

步骤S3、根据每个数据中心的机柜出风口温度和机柜的负载，对单数据中心IT-冷却系统中的IT系统单元、冷却系统单元分别建模得到IT负载模型和热模型；

步骤S4、根据任务在多数据中心混合系统中执行时的时延建立传输时延模型，结合得到的IT负载模型和热模型，得到目标函数；

步骤S5、根据多数据中心混合系统的状态空间和任务调度的行动空间，结合所述目标函数，构建和训练参数化多智能体深度强化学习模型；利用参数化多智能体深度强化学习模型训练AI引擎；

步骤S6、将采集到的每个数据中心的实时状态信息输入到训练好的AI引擎中，得到各个数据中心IT-冷却系统的最优控制策略。

进一步地，步骤S3中对每个数据中心，所述IT负载模型的建模过程为：

设置任务请求条件，包括可执行文件、输入数据、执行任务所需的CPU内核数、服务器预估运行时间和任务优先级；

根据设置的任务请求条件将任务按照先进先出原则放置到任务队列中并排序，位于任务队列最前面的任务将作为候选任务在下一个调度时刻被任务分发器分配到指定服务器执行；对于任务队列中排序为i的候选任务，分配到的服务器k的可用CPU内核数表示为

则执行候选任务i请求的CPU内核数c_i满足：

根据服务器的状态信息，得到IT系统单元的负载状态s_it：

s_it＝(c^a，u，p)

其中，c^a表示所有服务器的可用CPU内核数向量，

u表示所有服务器的CPU使用率向量，u＝(u₁，u₂，…，u_K)，u_k表示第k个服务器的CPU使用率， p表示所有服务器功耗向量，p＝(p₁，p₂，…，p_K)，p_k表示第k个服务器功耗，其中K为服务器的总数量，

N表示每个数据中心包括N个机柜，第n个机柜中装有M_n个服务器。

进一步地，热模型建模过程为：

通过温度传感器对每个数据中心的每个机柜，从机柜前上获取入风口温度

从机柜前下部位获取入风口温度

从机柜后中间部位获取一个出风口温度

采样三个温度值；对于所有机柜的不同部位的温度向量表示分别为

得到数据中心的热状态为：

s_thl＝(T_in,e，T_in,l，T_o)

将冷却系统单元的П个ACU温度均设置为固定值，通过调节ACU出风口风速f＝(f₁，f₂，…，f_П)对冷却系统单元的制冷容量进行调整，且任意ACU出风口风速在0和ACU 的最大风速f_max之间，0≤f_j≤f_max(j∈{1，2，…，П})。

进一步地，所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延，具体过程为：

根据终端设备传输I比特的计算任务到边缘云，则上行传输时延为：

R_u(q，w)＝B_ulog₂(1+γ_u(q，w))

其中，R_u(q，w)为上行传输速率，B_u为上行带宽，γ_u(q，w)为信噪比，q是终端设备的发射功率矢量，w是基站接收波束形成矢量；

将I比特计算任务从边缘云数据中心d传输到中央云数据中心的边缘云-中央云传输时延为：

其中，α_d为通信时延因子，bw(d)为边缘云到中央云的传输路径带宽；

根据任务在边缘节点的任务队列中的逗留时间，通过队列模型估算边缘节点等待时延，则M/M/1队列的平均等待时间T_w为：

其中，λ表示任务到达的间隔时间满足的负指数分布的参数；μ表示边缘节点的服务时间满足的负指数的参数，且λ<μ；

对于I比特的计算任务，边缘云/中央云计算时延t_c为：

t_c＝Ic_u/f_u

其中，c_u表示单位比特耗费的计算资源，f_u表示CPU时钟频率。

进一步地，得到所述目标函数的具体过程为：

对于数据中心d，根据得到的IT负载模型，当机柜n的第k个服务器CPU使用率u_k超过设定阈值ψ_u时，得到机柜负载惩罚值

根据得到的热模型，当机柜n的出风口温度

超过设定阈值ψ_T时，得到惩罚值

根据得到的传输时延模型，当任务在边缘云或中央云上执行的总时延t_d超过任务的时延约束ψ_t时，得到时延惩罚值Z_t,d：

根据各个数据中心的总电能与其IT负载消耗的电能的比值，得到电能利用效率PUE值；

根据所述惩罚值

Z_t,d和PUE值，当满足条件

和0≤f_j≤f_max(j∈1，2，…，∏时，得到目标函数为：

其中，N_d为数据中心d总共的机柜数量，D表示一共有D个数据中心，β₁、β₂和β_t为设定常数。

进一步地，步骤S5中状态空间和任务调度的行动空间的构建过程为：

步骤S51、对于每个数据中心，根据候选任务i请求的CPU内核数c_i、ACU出风口风速f、IT 负载状态s_it和热状态s_thl得到单数据中心IT-冷却系统的状态向量o，o＝(c_i，f，s_it，s_thl)，根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O；

步骤S52、所述多数据中心混合系统包括D个数据中心，分为D-1个边缘云数据中心和 1个中央云数据中心；根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量，则D个数据中心状态空间的全局向量表示为：s＝(o₁，o₂，…，o_D)，全局向量的所有取值构成多数据中心混合系统的状态空间S；

步骤S53、计算D个数据中心的任务调度行动空间，对于任意边缘云数据中心，边缘云数据中心的决策包括是否接受新任务和设置ACU出风口风速增量

对于中央云数据中心的决策包括是否将新任务分配到边缘云数据中心d中的服务器k_d执行和设置ACU出风口风速增量

则对于每个数据中心，单数据中心IT-冷却系统的联合行动向量为a1＝(k，x)，其中， k表示IT系统单元的任务调度行动为服务器k,k∈{1，2，…，K}；x为冷却系统单元ACU出风口风速f＝(f₁，f₂，…，f_Π)的调节行动增量值，x＝(x₁，x₂，…，x_Π)。

进一步地，构建参数化多智能体深度强化学习模型的过程为：

在每个数据中心中引入参数化行动空间，得到单数据中心的行动向量为：

a2＝(k，x_k)；x_k表示选择任务执行的服务器k所关联的风速调节增量；

根据参数化深度强化学习原理，针对单数据中心，对于给定的服务器k，其关联的风速调节量利用深度确定性策略网络μ_k(o,θ)输出，同时利用行动值网络

来输出行动向量a2＝(k，x_k)的行动值，最终得到最优混合行动

其中，θ表示深度确定性策略网络的参数，

表示行动值网络的参数；

为解决多数据中心的协调问题，在中央云数据中心中引入混合网络Q_mix，所述混合网络 Q_mix包括前馈神经网络和独立的超网络；超网络以全局向量s为输入，输出所述前馈神经网络的权值；前馈网络以每个单数据中心的行动值网络

的输出值Q_d为输入，将所述前馈神经网络的权值和所述输出值Q_d单调混合，得到完全集中的状态-行动值函数Q_tot： Q_tot＝g(s,Q₁,Q₂,…,Q_D；w_mix)，其中w_mix为混合网络Q_mix的参数，利用所述状态-行动值函数Q_tot指导多数据中心之间行动策略的协调更新。

进一步地，训练所提出的多智能体深度强化学习模型的过程为：

根据单个数据中心执行任务后给AI引擎的即时反馈，结合所述目标函数Γ构建报酬函数 r，r＝r₀-Γ-β₃，其中，r₀为设定常量，Γ为所述目标函数，β₃为无效行动惩罚值；

通过最小化中央云数据中心中的目标值网络输出值y^tot和状态-行动值函数Q_tot输出值的差值更新中央云数据中心混合网络Q_mix的参数w_mix和每个边缘云数据中心的行动值网络的参数

更新函数L₁为：

其中，w,_mix为中央云数据中心中目标值网络的参数，s,是在s状态下采取动作(k，x_k)后的下一个状态，γ表示折扣因子；状态-行动值函数Q_tot使得每个数据中心d在分布式地根据自身行动值网络输出值Q_d选择参数化行动的同时，能够实现多数据中心的协调；

对于每个边缘云数据中心的深度确定性策略网络的参数θ的更新过程为：

对于每个数据中心d计算所有离散行动的输出值

把得到的输出值

输入到混合网络Q_mix中，得到输出值

在固定每个边缘云数据中心的行动值网络参数

和中央云数据中心混合网络参数w_mix后，通过计算

的梯度来更新每个边缘云智能体d的深度确定性策略网络的参数θ，梯度计算如下：

通过上述过程，边缘云数据中心和中央云数据中心的参数都可以进行更新。

进一步地，所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心；其中，

终端设备通过边缘网关将计算任务提交给边缘云数据中心；

边缘云数据中心根据数据中心的状态信息决定是否将新任务部署到本地服务器执行；

若决定在本地服务器执行，则将新任务先放入任务队列，等候分发；若决定不在本地服务器执行，则将新任务转发到中央云数据中心；

中央云数据中心用于将接收到的新任务放入任务队列，根据任务列表执行顺序将所述新任务分发到合适的服务器执行。

进一步地，单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎，其中，

所述IT系统单元用于通过IT设备和IT系统单元管理软件为终端设备提供服务；

冷却系统单元通过冷却设施驱散IT系统单元中的IT设备因计算或者存储而产生的热量，将IT设备的温度控制在允许的阈值范围；

数据传输与处理单元用于IT系统单元、冷却系统单元和AI引擎之间的数据交互，IT系统单元和冷却系统单元通过数据传输与处理单元将各自的状态信息发送给AI引擎；

AI引擎利用参数化多智能体深度强化学习模型进行训练，分别为IT系统单元和冷却系统单元提供任务调度策略和冷却设施配置策略。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明一种基于多智能体强化学习的多数据中心协同节能方法，考虑数据中心的运行状态提出目标函数，利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求)，引入参数化多智能体强化学习方法，用一个确定性决策网络和一个深度神经网络输出混杂行动，并且为了实现多个数据中心之间深度神经网络之间的协调更新，引入混合网络，产生一个完全集中的状态-行动值函数，利用状态-行动值函数实现混合动作空间中分散策略的协调更新，保证每个数据中心之间的行动一致，有效协调多数据中心的IT-制冷系统混杂的行动空间，为单个数据中心IT系统和制冷系统提供最优控制策略，实现多数据中心的协同节能。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为深度多智能体强化学习总体结构；

图2为本发明多数据中心混合系统结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或” 包括一个或多个相关列出的项目的任何和所有组合。

在本发明的描述中，需要理解的是，术语“前”、“后”、“左”、“右”、“上”、 “下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制。

实施例1

本实施例一种基于多智能体强化学习的多数据中心协同节能方法，包括以下步骤：

步骤S1、建立边缘云-中央云的多数据中心混合系统；

上述步骤S3中对每个数据中心，所述IT负载模型的建模过程为：

则执行候选任务i请求的CPU内核数c_i满足：

根据服务器的状态信息，得到IT系统单元的负载状态s_it：

s_it＝(c^a，u，p)

其中，c^a表示所有服务器的可用CPU内核数向量，

上述热模型建模过程为：

从机柜前下部位获取入风口温度

从机柜后中间部位获取一个出风口温度

得到数据中心的热状态为：

s_thl＝(T_in,e，T_in,l，T_o)

将冷却系统单元的Π个ACU温度均设置为固定值，通过调节ACU出风口风速f＝(f₁，f₂，…，f_П)对冷却系统单元的制冷容量进行调整，且任意ACU出风口风速在0和ACU 的最大风速f_max之间，0≤f_j≤f_max(j∈{1，2，…，П})。

上述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延，具体过程为：

R_u(q，w)＝B_ulog₂(1+γ_u(q，w))

对于I比特的计算任务，边缘云/中央云计算时延t_c为：

t_c＝Ic_u/f_u

步骤S4中得到所述目标函数的具体过程为：

根据得到的热模型，当机柜n的出风口温度

超过设定阈值ψ_T时，得到惩罚值

根据所述惩罚值

Z_t,d和PUE值，当满足条件

和0≤f_j≤f_max(j∈1，2，…，∏时，得到目标函数为：

步骤S5中状态空间和任务调度的行动空间的构建过程为：

如图1所示，构建参数化多智能体深度强化学习模型的过程为：

其中，θ表示深度确定性策略网络的参数，

表示行动值网络的参数；

训练所提出的多智能体深度强化学习模型的过程为：

更新函数L₁为：

对于每个数据中心d计算所有离散行动的输出值

把得到的输出值

输入到混合网络Q_mix中，得到输出值

在固定每个边缘云数据中心的行动值网络参数

和中央云数据中心混合网络参数w_mix后，通过计算

通过上述过程，边缘云数据中心和中央云数据中心的参数都可以进行更新，完成多智能体深度强化学习模型的训练。

实施例2

如图2所示，本实施基于实施例1，边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心；其中，

终端设备通过边缘网关将计算任务提交给边缘云数据中心；

对于多数据中心混合系统中的每个数据中心包括单数据中心IT-冷却系统，单数据中心IT- 冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎，其中，

可以理解的是，本发明通过考虑数据中心的运行状态，如可用CPU数量、服务器功耗、机房温度等构建目标函数，利用目标函数提升所有数据中心的能效并保障终端设备的服务质量需求(即时延要求)，考虑到数据中心的行动空间状态，提出报酬函数，AI引擎通过报酬函数的反馈信息能够高效地匹配IT和冷却系统的动态特性，引入参数化多智能体强化学习方法，用一个确定性决策网络和一个深度神经网络输出混杂行动，并且为了实现多个数据中心之间深度神经网络之间的协调更新，引入混合网络，产生一个完全集中的状态-行动值函数，利用该函数实现混合动作空间中分散策略的协调更新，保证每个数据中心之间的行动一致，有效协调多数据中心的IT-制冷系统混杂的行动空间，为单个数据中心IT系统和制冷系统提供最优控制策略；实现多数据中心的协同节能。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，包括以下步骤：

步骤S1、建立边缘云-中央云的多数据中心混合系统；

2.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，步骤S3中对每个数据中心，所述IT负载模型的建模过程为：

则执行候选任务i请求的CPU内核数c_i满足：

根据服务器的状态信息，得到IT系统单元的负载状态s_it：

s_it＝(c^a，u，p)

其中，c^a表示所有服务器的可用CPU内核数向量，

u表示所有服务器的CPU使用率向量，u＝(u₁，u₂，…，u_K)，u_k表示第k个服务器的CPU使用率，p表示所有服务器功耗向量，p＝(p₁，p₂，…，p_K)，p_k表示第k个服务器功耗，其中K为服务器的总数量，

3.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，热模型建模过程为：

从机柜前下部位获取入风口温度

从机柜后中间部位获取一个出风口温度

得到数据中心的热状态为：

s_thl＝(T_in,e，T_in,l，T_o)

将冷却系统单元的Π个ACU温度均设置为固定值，通过调节ACU出风口风速f＝(f₁，f₂，…，f_Π)对冷却系统单元的制冷容量进行调整，且任意ACU出风口风速在0和ACU的最大风速f_max之间，0≤f_j≤f_max(j∈{1，2，…，Π})。

4.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，所述传输时延模型包括上行传输时延、边缘云-中央云传输时延、边缘节点等待时延和边缘云/中央云计算时延，具体过程为：

R_u(q，w)＝B_ulog₂(1+γ_u(q，w))

对于I比特的计算任务，边缘云/中央云计算时延t_c为：

t_c＝Ic_u/f_u

5.根据权利要求2-4任一所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，得到所述目标函数的具体过程为：

根据得到的热模型，当机柜n的出风口温度

超过设定阈值ψ_T时，得到惩罚值

根据所述惩罚值

Z_t,d和PUE值，当满足条件

和0≤f_j≤f_max(j∈{1，2，…，Π})时，得到目标函数为：

6.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，步骤S5中状态空间和任务调度的行动空间的构建过程为：

步骤S51、对于每个数据中心，根据候选任务i请求的CPU内核数c_i、ACU出风口风速f、IT负载状态s_it和热状态s_thl得到单数据中心IT-冷却系统的状态向量o，o＝(c_i，f，s_it，s_thl)，根据单数据中心IT-冷却系统的状态向量的所有取值构成单数据中心状态空间O；

步骤S52、所述多数据中心混合系统包括D个数据中心，分为D-1个边缘云数据中心和1个中央云数据中心；根据步骤S51得到D-1个边缘云数据中心和1个中央云数据中心的单数据中心状态向量，则D个数据中心状态空间的全局向量表示为：s＝(o₁，o₂，…，o_D)，全局向量的所有取值构成多数据中心混合系统的状态空间S；

则对于每个数据中心，单数据中心IT-冷却系统的联合行动向量为a1＝(k，x)，其中，k表示IT系统单元的任务调度行动为服务器k,k∈{1，2，…，K}；x为冷却系统单元ACU出风口风速f＝(f₁，f₂，…，f_Π)的调节行动增量值，x＝(x₁，x₂，…，x_Π)。

7.根据权利要求6所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，构建参数化多智能体深度强化学习模型的过程为：

其中，θ表示深度确定性策略网络的参数，

表示行动值网络的参数；

在中央云数据中心中引入混合网络Q_mix，所述混合网络Q_mix包括前馈神经网络和独立的超网络；超网络以全局向量s为输入，输出所述前馈神经网络的权值；前馈网络以每个单数据中心的行动值网络

的输出值Q_d为输入，将所述前馈神经网络的权值和所述输出值Q_d单调混合，得到完全集中的状态-行动值函数Q_tot：Q_tot＝g(s,Q₁,Q₂,…,Q_D；w_mix)，其中w_mix为混合网络Q_mix的参数，利用所述状态-行动值函数Q_tot指导多数据中心之间行动策略的协调更新。

8.根据权利要求7所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，训练所提出的多智能体深度强化学习模型的过程为：

根据单个数据中心执行任务后给AI引擎的即时反馈，结合所述目标函数Γ构建报酬函数r，r＝r₀-Γ-β₃，其中，r₀为设定常量，Γ为所述目标函数，β₃为无效行动惩罚值；

更新函数L₁为：

其中，w’_mix为中央云数据中心中目标值网络的参数，s’是在s状态下采取动作(k，x_k)后的下一个状态，γ表示折扣因子；

对于每个数据中心d计算所有离散行动的输出值

把得到的输出值

输入到混合网络Q_mix中，得到输出值

在固定每个边缘云数据中心的行动值网络参数

和中央云数据中心混合网络参数w_mix后，通过计算

9.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，所述边缘云-中央云的多数据中心混合系统包括终端设备、边缘网关、若干个边缘云数据中心和中央云数据中心；其中，

终端设备通过边缘网关将计算任务提交给边缘云数据中心；

10.根据权利要求1所述的一种基于多智能体强化学习的多数据中心协同节能方法，其特征在于，单数据中心IT-冷却系统包括IT系统单元、冷却系统单元、数据传输与处理单元和AI引擎，其中，