CN112966431A

CN112966431A - 一种数据中心能耗联合优化方法、系统、介质及设备

Info

Publication number: CN112966431A
Application number: CN202110156330.XA
Authority: CN
Inventors: 苏远歧; 秦露露; 伍卫国
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-15
Anticipated expiration: 2041-02-04
Also published as: CN112966431B

Abstract

本发明公开了一种数据中心能耗联合优化方法、系统、介质及设备，构建数据中心多智能体环境；根据scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型；根据cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型；基于任务调度强化学习模型和温度调控强化学习模型构建异构多智能体强化学习的联合控制模型，向联合控制模型中导入构建的数据中心多智能体环境；使用联合控制模型，以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent，使用联合控制模型训练得到的scheduling_agent与cooling_agent，根据各自的观测信息执行以降低自身能耗为目标的动作策略，同时保证动态数据中心环境的平衡，实现整体能耗最小化。本发明在降低计算能耗与制冷能耗之间取得平衡，同时降低数据中心的整体能耗。

Description

一种数据中心能耗联合优化方法、系统、介质及设备

技术领域

本发明属于数据中心能耗管理技术领域，具体涉及一种数据中心能耗联合优化方法、系统、介质及设备。

背景技术

随着机器学习、云计算等技术的不断发展，数据中心的规模不断扩大以顺应“数字新基建”的时代要求，随之数据中心的能耗成本也不断增加。截止2019年，数据中心用电量连续8年以超过12％的速度增长，预计到2025年，中国数据中心总耗电量占比将达到4.05％。其中，IT设备和制冷设备是数据中心的主要能耗来源，两者的能耗通常占用数据中心总额能耗的85％。要降低数据中心能耗，重点在于提升数据中心的技术，关键要从IT设备计算效率以及冷却系统制冷效率两方面入手。

IT设备的计算能耗约占数据中心总能耗的45％，对物理资源进行集中管理、合理分配和有效调度，可以使数据中心保持理想的资源有效利用状态，使节约能源的途径之一。资源管理是典型的决策问题，因此可以使用强化学习算法代替传统的启发式算法，通过资源管理器与环境的自主交互，主动学习资源调度的策略，并根据环境反馈优化资源分布，提高资源利用率，从而降低计算能耗。

对于制冷设备，目前数据中心普遍使用的是精密空调CRAC，空调的制冷能耗约占数据中心总能耗的40％。由于数据中心运行条件缺乏透明性，空调系统不得不设置过低的温度来降低热点的风险，从而导致过度的能量消耗。对空调温度的自动调控和优化同样可以使用强化学习的方法，空调自主地与环境互动，观测温度等信息选择调控策略，根据奖励反馈机制不断优化策略，最终达到降低制冷能耗的目的。

但是，单独控制IT设备或制冷设备并不能达到降低数据中心整体能耗的目的。如果一味降低计算能耗，资源倾向于集中到某些服务器，则有造成局部热点的风险，需要制冷设备设置足够低的温度，造成制冷能耗的浪费。而一味降低制冷能耗，温度设定在适宜范围内越高越好，则无法保证IT设备的安全。

在数据中心中，空调与IT设备等存在相互影响，具有很强的不稳定性，因此可以看作一个非常复杂的多智能体系统。在多智能体环境中，每个智能体都和环境进行交互，但对于每个智能体而言，外界环境是不断变化且没有规律的，每个智能体只能得到的环境的一部分观察信息。为了解决多智能体强化学习问题，目前有基于Actor-Critic框架的多智能体确定性策略梯度算法MADDPG、基于DQN的QMIX等多智能体强化学习算法，此类算法采用集中式训练、分布式执行的思想，能够解决多智能体环境不稳定、智能体间相互影响导致学习复杂化等问题，但是并未应用于数据中心领域，且多应用于同构多智能体系统。

在数据中心这样的复杂环境中，空调、IT设备等作为智能体具有不同的结构，从环境中得到的观察信息类型也不尽相同，因此已有的多智能体强化学习方法不能简单的应用于数据中心环境。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种数据中心能耗联合优化方法、系统、介质及设备，解决当前数据中心存在的热量分布不平衡导致的制冷能耗浪费的问题，在降低计算能耗与制冷能耗之间取得平衡，同时降低数据中心的整体能耗。

本发明采用以下技术方案：

一种数据中心能耗联合优化方法，包括以下步骤：

S1、构建数据中心多智能体环境；

S2、根据任务调度智能体scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型；

S3、根据温度调控智能体cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型；

S4、基于步骤S2和步骤S3构建异构多智能体强化学习的联合控制模型，向联合控制模型中导入步骤S1构建的数据中心多智能体环境；

S5、使用步骤S4的联合控制模型，以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent，实现整体能耗最小化。

具体的，步骤S1中，数据中心多智能体环境具体为：

设定数据中心环境中存在精密空调、若干个服务器和若干个任务等待被执行，所有服务器属于同一个集群，每个服务器有若干种资源，还有一个固定长度的等待任务队列，每个任务在固定的时间段内请求固定数量的不同资源；在每个离散的时间步，传入的作业到达并进入等候队列，当队列已满时，后续作业的数量将保存在backlog中；任务调度智能体scheduling_agent选择作业并分配给机器的分配，机器的温度随机器上任务的运行情况变化，精密空调中的温度调控智能体cooling_agent负责调整温度冷却发热的服务器。

具体的，步骤S2具体为：

S201、建立scheduling_agent的状态空间，scheduling_agent的状态空间包括内部的资源状态和外部的环境状态，用二进制矩阵表示scheduling_agent的内部资源状态，包括机器资源的当前状态和队列中作业请求的资源配置情况，用s*t的二维矩阵表示某一类资源的状态，s表示资源最大容量，t表示最长执行时间，外部的环境状态包括服务器入口温度和服务器温度；

S202、建立scheduling_agent的动作空间，将动作action定义为i*q+j,表示将队列中的作业j分配给机器i，动作空间大小为m*q+1,m表示机器数，q表示等待任务队列的长度，动作空间包含一种无效操作，表示scheduling_agent在当前时间没有进行调度；

S203、根据二维矩阵的占用比例可以计算出各类资源的占用率，根据服务器的功耗模型P_machine，结合温度限制条件设计scheduling_agent的奖励函数如下：

其中，第一部分为平均功率，目标是最小化，第二部分表示过热的惩罚函数，λ表示惩罚因子，当服务器功率超过温度阈值时会加大惩罚，从而反馈一个更小的奖励值；

S204、构建scheduling_agent的网络结构，scheduling_agent的控制网络包括两个网络：Actor网络和Critic网络，Actor网络包括动作估计网络和动作现实网络，两者具有相同的网络结构，动作现实网络每隔一段时间更新网络参数；Actor网络输入状态state为二维矩阵，输出为离散的动作action，网络结构包括两个二维卷积层和两个全连接层；

Critic网络具备双网络结构：状态估计网络和状态现实网络，Critic网络的输入是状态state和由Actor网络产生的动作action以及其他agent的信息，输出是动作对应的状态动作值函数，网络结构中第一层除卷积层外，再加一层全连接层用于输入动作action。

具体的，步骤S3具体为：

S301、建立cooling_agent的状态空间，cooling_agent根据回风温度调整送风温度，将cooling_agent的状态表示为Tenv；

S302、建立cooling_agent的动作空间，将cooling_agent的动作空间设定为[-2，-1.5，-1，-0.5，0，0.5，1，1.5，2]，action表示为ΔT，代表温度调整的幅度；

S303、根据热力学定律，CRAC的制冷功率表示为单位时间内冷却的压缩机内空气的热量，表现为CRAC出入风口温度差值的线性关系，根据结合经验公式建立的CRAC功耗模型设计奖励函数如下：

其中，t_out为CRAC出风口温度，P_{crac_max}为CRAC最大功率，T_env表示室内环境温度,代替空调的入风口温度，T_min表示机房设备均关闭时CRAC以最大功率运行时的室温，P_{crac_max}与T_min为定值。

S304、构建cooling_agent的网络结构，包括Actor网络和Critic网络且都为双网络结构。cooling_agent的状态是一维连续空间，Actor网络和Critic网络的双网络结构全部由多个全连接层构成。

具体的，步骤S4具体为：

S401、导入步骤S1创建的数据中心多智能体环境；

S402、通过scheduling_agent的Actor网络产生调度动作，通过cooling_agent的Actor网络产生调温动作，将两组动作输入到环境中，服务器的资源占用状态、服务器温度和空调出风口温度发生变化，数据中心环境发生改变；

S403、根据每个agent的奖励函数计算执行随机动作后的奖励值，得到每个agent的状态转移数据，包括agent当前时刻状态、动作策略、奖励值和下一时刻的状态，表示为<s_i,a_i,r_i,s_i’>，i＝1时表示scheduling_agent的状态转移数据，i＝2时表示cooling_agent的状态转移数据；

S404、scheduling_agent和cooling_agent在每个时刻不断产生状态转移数据，并将状态转移数据存储到各自的经验池，经验池中的每个状态转移数据称为一个经验；

S405、采用基于确定性策略梯度DDPG框架的多智能体强化学习算法MADDPG对每个agent进行网络更新；

S406、重复步骤S402至S405，满足终止条件或达到设定的训练次数时停止训练。

进一步的，步骤S405网络更新具体为：

S4051、从scheduling_agent的经验池中随机选择一组不同时刻的经验，形成经验包<G1,A1,R1,G1’>；从cooling_agent的经验池中随机选择一组不同时刻的经验，形成经验包<G2,A2,R2,G2’>；

S4052、将G1’输入到scheduling_agent的actor网络，得到下一时刻scheduling_agent的调度策略集合A1’，将G2’输入到cooling_agent的Actor网络，得到下一时刻cooling_agent的调度策略集合A2’；

S4053、定义critic网络的损失函数，以最小化损失函数为目标更新Critic网络的状态估计网络；

S4054、将状态估计网络返回的估计Q值取负号作为损失函数来更新Actor网络中的动作估计网络；

S4055、每隔固定时间，使用soft-update模式更新Actor网络的动作现实网络和Critic网络的状态现实网络的权重。

更进一步的，critic网络的损失函数为：

其中，θ_i表示每个agent的Critic网络中估计网络的权重，N表示从经验池中选取的经验数，Q_i(s_i ^j,a₁ ^j,a₂ ^j)表示将当前时刻自身的状态动作信息以及协作智能体的动作信息作为输入时，critic网络的状态估计网络的输出Q值如下：

其中，γ是折扣因子，

是Critic网络中状态现实网络的输出，a₁'^j,a₂'^j分别是scheduling_agent和cooling_agent中Actor网络的动作现实网络的输出。

本发明的另一个技术方案是，一种数据中心能耗联合优化系统，包括：

环境模块，构建数据中心多智能体环境；

任务调度模块，根据scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型；

温度调控模块，根据cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型；

训练模块，基于任务调度模块与温度调控模块构建异构多智能体强化学习的联合控制模型，向联合控制模型中导入构建的数据中心多智能体环境，以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent；

优化模块，使用联合控制模型训练得到的scheduling_agent与cooling_agent，根据各自的观测信息执行以降低自身能耗为目标的动作策略，同时保证动态数据中心环境的平衡，实现整体能耗最小化。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种数据中心能耗联合优化方法，相比于之前的数据中心能耗控制方法中单一控制IT设备计算能耗的制冷浪费问题和单一控制制冷能耗的IT设备热点安全问题，本方法能够从全局的角度降低数据中心的整体能耗，平衡制冷能耗与计算能耗，提高数据中心的能量使用效率。

进一步的，本发明建立的异构多智能体环境具有很好的扩展性，能够解决数据中心环境中不同智能体相互影响的不确定性和复杂性，具有良好的扩展性，可以应用到更多智能体的复杂环境中数据中心环境。

进一步的，本发明构建的任务调度模块和温度调空模块具有很好的扩展性和可修改性。用二维矩阵表示的状态空间可以根据集群的规模的扩大而动态变化，各模块中智能体的数量也可以根据数据中心规模的不断扩大而增加。

进一步的，采用的多智能体强化学习算法基于DDPG框架，具有双网络结构和经验回放机制，能够解决收敛难，效率低的问题。对不同智能体间采用集中训练、分散执行的思想，能够保证训练好的模型运用到数据中心环境中时，不同的智能体能根据自身状态分别快速地制定响应的控制策略。

综上所述，针对数据中心存在的热量分布不平衡导致的制冷能耗浪费问题和IT设备安全问题，本发明提出基于多智能体强化学习的能耗联合优化方法，能够平衡计算能耗与制冷能耗，从全局角度降低整体能耗；针对数据中心不稳定的动态环境，本发明提出构建异构多智能体数据中心环境，充分考虑了数据中心的不稳定性和扩展需求；针对数据中心不同设备交互难的问题，本发明提出基于MADDPG的训练算法，使用经验回放机制简化交互过程，训练后的智能体具有根据自身观测值独立决策的能力，提高了优化效率。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为资源配置状态图；

图2为scheduling_agent的actor、critic网络结构图，其中，(a)为actor，(b)为critic；

图3为cooling_agent的actor、critic网络结构图，其中，(a)为actor，(b)为critic；

图4为基于异构多智能体强化学习的联合控制模型训练和执行过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明一种数据中心能耗联合优化方法，包括以下步骤：

S1、构建数据中心多智能体环境

设定数据中心环境中存在精密空调、若干个服务器、若干个任务等待被执行，假定所有服务器属于同一个集群，一个任务调度智能体scheduling_agent负责集群内任务到机器的分配，精密空调中的温度调控智能体cooling_agent负责调整温度冷却发热的服务器。

S2、建立任务调度强化学习模型

设定数据中心的集群有3台机器，每台机器有3种资源，还有一个长度为10的任务队列，每个任务在固定的时间段内请求固定数量的不同资源。在每个离散的时间步，传入的作业到达并在长度为10的等候队列中等待，当队列已满时，后续作业的数量将保存在backlog中，同时scheduling_agent选择作业并分配给机器，机器的温度随机器上任务的运行情况而变化。

S201、建立scheduling_agent的状态空间

scheduling_agent的状态包括了内部的资源状态和外部的环境状态。外部的环境状态包括服务器入口温度和服务器温度。

scheduling_agent的内部资源状态用二进制矩阵表示，包括机器资源的当前状态和队列中作业请求的资源配置情况。用10*10的二维矩阵表示某一类资源的状态，表示某类资源最大容量为10个单元，最长执行时间为10个长度单位。具体的资源状态配置情况见图1。

左边是机器i(i＝0,1,...,m)的资源占用状态示意图，表示当前节点正在处理3个任务，其中分配给黄色任务6个单元的CPU资源，3个单元的内存资源，8个单元的磁盘资源，需执行4个时间单位；

中间是任务j(j＝0,1,...，q)的资源请求状态示意图，表示该任务请求4个CPU资源，2个单元的内存资源，8个单元的磁盘资源，需执行6个时间单位。

右边是积压队列的示意图，表示等待队列已满时后续到达作业的数量。

S202、建立scheduling_agent的动作空间

将动作action定义为i*q+j,表示将队列中的作业j分配给机器i，动作空间大小为m*q+1,包含一种无效操作，表示scheduling_agent在当前时间没有进行调度。

S203、设计scheduling_agent的奖励函数

根据二维矩阵的占用比例可以计算出各类资源的占用率，根据服务器的功耗模型：

P_machine＝C_cpuu_cpu+C_memu_mem+C_disku_disk

其中，u_cpu是CPU利用率，u_mem是内存访问率，u_disk是硬盘I/O请求率,而C_cpu、C_mem、C_disk分别是CPU、内存和磁盘功率参数，该功率模型更具描述性，应用的也最广。

结合温度限制条件，为了避免出现局部过热问题，调度过程中需满足以下限制条件：

T_machinei＜＝T_th，i＝0,1,2

其中，T_th表示设定的温度阈值，为了让该模型学会最小化服务器能耗且保证不出现局部过热，本发明将奖励函数设定如下：

优化目标是在最小化平均功率与防止服务器过热之间取得平衡。第一部分为平均功率，目标是最小化，第二部分表示过热的惩罚函数，λ表示惩罚因子，当服务器功率超过温度阈值时会加大惩罚，从而反馈一个更小的奖励值。

S204、构建scheduling_agent的网络结构

scheduling_agent的控制网络包括两个网络：Actor网络和Critic网络，Actor网络包括动作估计网络和动作现实网络，两者具有相同的网络结构，其中动作现实网络每隔一段时间更新网络参数。由于Actor网络输入状态state为二维矩阵，输出为离散的动作action，因此网络结构由两个二维卷积层和两个全连接层构成。

Critic网络也具备双网络结构：状态估计网络和状态现实网络。Critic网络的输入是状态state和由Actor网络产生的动作action以及其他agent的信息，输出是动作对应的状态动作值函数，因此网络结构中第一层除卷积层外，再加一层全连接层用于输入动作action。具体的scheduling_agent的网络结构如图2所示。

S3、构建温度调控强化学习模型

S301、建立cooling_agent的状态空间

cooling_agent根回风温度调整送风温度，因此将cooling_agent的状态表示为Tenv，等同于环境温度。

S302、建立cooling_agent的动作空间

由于空调温度调整的精度限制，将cooling_agent的动作空间设定为[-2，-1.5，-1，-0.5，0，0.5，1，1.5，2]，action表示为ΔT，代表温度调整的幅度。

S303、设计cooling_agent的奖励函数

根据热力学定律，CRAC的制冷功率应该表示为单位时间内冷却的压缩机内空气的热量，表现为CRAC出入风口温度差值的线性关系，根据结合经验公式建立的CRAC功耗模型设计奖励函数如下：

S304、构建cooling_agent的网络结构

cooling_agent的控制网络与scheduling_agent的网络结构类似，也包括Actor网络和Critic网络且都为双网络结构。但是cooling_agent的状态是一维连续空间，因此Actor网络和Critic网络的双网络结构全部由多个全连接层构成，具体的网络结构如图3所示。

S4、训练基于异构多智能体强化学习的联合控制模型，如图4的training部分所示；

S401、导入步骤S1创建的数据中心多智能体环境；

S402、通过scheduling_agent的Actor网络产生调度动作，通过cooling_agent的Actor网络产生调温动作，将两组动作输入到环境中，服务器的资源占用状态、服务器温度和空调出风口温度发生变化，从而数据中心环境发生改变。

S403、根据每个agent的奖励函数计算执行随机动作后的奖励值，得到每个agent的状态转移数据，包括agent当前时刻状态、动作策略、奖励值和下一时刻的状态，表示为<s_i,a_i,r_i,s_i’>，其中i＝1时表示scheduling_agent的状态转移数据，i＝2时表示cooling_agent的状态转移数据，

S404、scheduling_agent和cooling_agent在每个时刻不断产生状态转移数据，并将状态转移数据存储到各自的经验池，经验池中的每个状态转移数据称为一个经验。

S405、采用基于确定性策略梯度DDPG框架的多智能体强化学习算法MADDPG对每个agent进行网络更新：

S4052、将G1’输入到scheduling_agent的actor网络，得到下一时刻scheduling_agent的调度策略集合A1’，将G2’输入到cooling_agent的Actor网络，得到下一时刻cooling_agent的调度策略集合A2’。

S4053、定义critic网络的损失函数为：

其中，θ_i表示每个agent的Critic网络中估计网络的权重，N表示从经验池中选取的经验数，Q_i(s_i ^j,a₁ ^j,a₂ ^j)表示将当前时刻自身的状态动作信息以及协作智能体的动作信息作为输入时，critic网络的状态估计网络的输出Q值。

其中，γ是折扣因子，

以最小化损失函数为目标更新Critic网络的状态估计网络。

S4054、Actor想要尽可能得到更大的Q值，因此将状态估计网络返回的估计Q值取负号作为损失函数来更新Actor网络中的动作估计网络。

S4055、每隔固定一段时间，使用soft-update模式更新Actor网络的动作现实网络和Critic网络的状态现实网络的权重。

S5、使用训练完的能耗联合优化模型实现scheduling_agent与cooling_agent在动态数据中心环境下以整体能耗最小化为目标的联合优化。

各agent执行策略的过程如图4的execution部分所示，只需观察部分状态信息即可执行相应的动作策略。

本发明再一个实施例中，提供一种数据中心能耗联合优化系统，该系统能够用于实现上述数据中心能耗联合优化，具体的，该数据中心能耗联合优化系统包括环境模块、任务调度模块、温度调控模块、训练模块以及优化模块。

其中，环境模块，构建数据中心多智能体环境；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于数据中心能耗联合优化的操作，包括：

构建数据中心多智能体环境；根据scheduling_agent的状态空间、动作空间和奖励函数构建任务调度强化学习模型；根据cooling_agent的状态空间、动作空间和奖励函数构建温度调控强化学习模型；基于任务调度强化学习模型和温度调控强化学习模型构建异构多智能体强化学习的联合控制模型，向联合控制模型中导入构建的数据中心多智能体环境；使用联合控制模型，以数据中心整体能耗最小化为目标集中训练scheduling_agent与cooling_agent，使用联合控制模型训练得到的scheduling_agent与cooling_agent，根据各自的观测信息执行以降低自身能耗为目标的动作策略，同时保证动态数据中心环境的平衡，实现整体能耗最小化。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关数据中心能耗联合优化的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

综上所述，本发明一种数据中心能耗联合优化方法、系统、介质及设备，针对数据中心环境中的不同智能体存在的不稳定性和通信障碍，提出构建异构多智能体环境，为不同智能体分别建立强化学习模型，在环境中集中训练，能够简化不同智能体的交互过程，避免整体环境不稳定性的影响。同时以最小化整体能耗为目标训练联合控制模型，能够平衡制冷能耗与计算能耗，降低数据中心整体能耗，解决单智能体强化学习算法无法解决制冷能耗的浪费问题以及IT设备的安全问题。训练后的不同智能体能够根据各自的观测信息执行以降低自身能耗为目标的动作策略，减少了执行过程中的智能体间的交互过程，解决了学习复杂化的问题。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种数据中心能耗联合优化方法，其特征在于，包括以下步骤：

S1、构建数据中心多智能体环境；

2.根据权利要求1所述的方法，其特征在于，步骤S1中，数据中心多智能体环境具体为：

设定数据中心环境中存在精密空调、若干个服务器和若干个任务等待被执行，所有服务器属于同一个集群，每个服务器有若干种资源，还有一个固定长度的等待任务队列，每个任务在固定的时间段内请求固定数量的不同资源；在每个离散的时间步，传入的作业到达并进入等候队列，当队列已满时，后续作业的数量将保存在backlog中；集群的任务调度智能体scheduling_agent选择作业并分配给机器的分配，机器的温度随机器上任务的运行情况变化，精密空调中的温度调控智能体cooling_agent负责调整温度冷却发热的服务器。

3.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

4.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

其中，t_out为CRAC出风口温度，P_{crac_max}为CRAC最大功率，T_env表示室内环境温度，代替空调的入风口温度，T_min表示机房设备均关闭时CRAC以最大功率运行时的室温，P_{crac_max}与T_min为定值；

S304、构建cooling_agent的网络结构，包括Actor网络和Critic网络且都为双网络结构，cooling_agent的状态是一维连续空间，Actor网络和Critic网络的双网络结构全部由多个全连接层构成。

5.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

S401、导入步骤S1创建的数据中心多智能体环境；

6.根据权利要求5所述的方法，其特征在于，步骤S405网络更新具体为：

7.根据权利要求6所述的方法，其特征在于，critic网络的损失函数为：

其中，γ是折扣因子，

8.一种数据中心能耗联合优化系统，其特征在于，包括：

环境模块，构建数据中心多智能体环境；

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。

10.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。