CN114003121B

CN114003121B - 数据中心服务器能效优化方法与装置、电子设备及存储介质

Info

Publication number: CN114003121B
Application number: CN202111161798.4A
Authority: CN
Inventors: 张法; 姬凯旋; 池策; 刘志勇
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-10-31
Anticipated expiration: 2041-09-30
Also published as: CN114003121A

Abstract

本发明提出一种数据中心服务器能效优化方法，包括以下步骤：状态采集器周期性采集系统状态信息；将提交的任务保存在任务等待队列中；对于每个该任务，任务调度器和频率控制器读取该状态采集器采集的系统状态；智能体根据读取的该系统状态制定任务调度与频率调整策略；该任务调度器根据该任务调度与频率调整策略将当前该任务分配到服务器并运行；该频率控制器根据该任务调度与频率调整策略对该服务器的频率进行调整。

Description

数据中心服务器能效优化方法与装置、电子设备及存储介质

技术领域

本发明涉及云计算与分布式系统领域，特别涉及一种数据中心服务器能效优化方法与装置、电子设备及存储介质。

背景技术

随着云计算技术的快速发展，数据中心已成为支持各种互联网应用技术的重要基础设施。然而，数据中心的爆发式增长也带来了巨大的能耗问题，使得数据中心成为增长最快的电力消费者之一。在数据中心产生的总能耗中，IT系统的能耗占比最大。根据统计，IT系统带来的能耗约占数据中心总能耗的56％。另一方面，仍然存在很多降低数据中心能耗的机会。根据调研，数据中心高达30％的服务器未得到充分利用，这是一种巨大的资源和能源浪费。同时，数据中心的大量服务器总是保持不必要的高CPU频率，而较低的CPU频率可以为数据中心节省大量能源。因此，要降低数据中心的能耗，设计一种能够提高数据中心资源利用率和合理调整服务器CPU频率的控制机制将是一种有效的方法。

现有的工作有很多是关于数据中心能耗方面的研究，例如动态电压和频率缩放技术(DVFS)、能量感知任务调度、虚拟机(VM)整合和迁移等。虽然这些工作在数据中心的能耗优化方面已经取得一定的成效，但是数据中心的能效仍有一定提升的可能。

首先，最近的研究工作大多都是单独考虑任务调度和服务器频率调节策略的设计，联合考虑任务调度和频率调整来优化数据中心能效的必要性来源于两个方面。一方面，使用较少的服务器可以关闭空闲服务器来节省更多的静态能耗，而剩余的活跃服务器可能需要提高频率以满足服务质量要求，其中频率增加带来的额外能耗甚至可能高于通过关闭空闲服务器而节省的静态能耗，如果未能联合考虑任务调度和频率调整技术，最终有可能还是导致能耗的浪费。另一方面，为了通过降低频率来节省能耗并满足服务质量的要求，可能需要打开更多的服务器来处理到达的任务，这又会增加服务器的静态功耗。因此，数据中心的节能有必要考虑任务调度和频率调整之间的权衡和联合优化。

第二，大多数现有技术都是基于抽象模型来优化数据中心能耗。然而，在真实的数据中心中，构建的模型与实际环境之间可能存在一定的差距，从而导致这些优化方法的性能下降。相比之下，在线学习方法具有动态适应环境的能力，可以缓解这个问题并具有更好的优化性能。

第三，由于该发明的目标是在一段时间内将数据中心的总能耗最小化，因此某个时刻的最优决策可能并不是降低最终数据中心的总能耗的最佳决策。因此，在调度任务和调整数据中心服务器频率时，需要首先考虑长期的节能结果。

为了解决因为基于抽象模型导致的优化算法性能不佳的问题并兼顾长期的能耗节省收益，已经有一些工作专注于设计基于深度强化学习的数据中心任务调度方案。此外，还有一些研究通过利用深度强化学习技术来优化数据中心的CPU频率。然而，很少有人利用深度强化学习技术同时考虑任务调度和频率调整来最小化数据中心能耗，为此设计一种可在真实数据中心中部署的基于深度强化学习方法的服务器能效优化方案是非常有必要的。

发明内容

针对现有技术的不足，本发明的主要目的在于提出一种数据中心服务器优化方法与装置、电子设备及存储介质，能够使用在数据中心中并基于深度强化学习的任务调度和频率调整策略，实现数据中心能耗最小化的目标的同时也不违背服务质量。

为了实现上述目的，本发明提出一种数据中心服务器优化方法，包括以下步骤：

状态采集器周期性采集系统状态信息；

将提交的任务保存在任务等待队列中；

对于每个该任务，任务调度器和频率控制器读取该状态采集器采集的系统状态；

智能体根据读取的该系统状态制定任务调度与频率调整策略；

该任务调度器根据该任务调度与频率调整策略将当前该任务分配到服务器并运行；

该频率控制器根据该任务调度与频率调整策略对该服务器的频率进行调整。

上述的数据中心服务器优化方法，其中，该系统状态包括：服务器可用资源、服务器利用率、服务器频率、服务器功耗、服务器温度、等待队列中的任务数以及到达任务请求的资源量中的至少一种。

上述的数据中心服务器优化方法，其中，该智能体根据读取的该系统状态制定任务调度与频率调整策略包括：

根据读取的当前该系统状态预测出下一个该系统状态；

通过当前该系统状态、下一个该系统状态、任务调度动作以及频率调制动作获得下一动作的奖励值；

智能体根据获得的该奖励值制定任务调度与频率调整策略。

上述的数据中心优化方法，其中，该智能体包括调度智能体和频率智能体，其中该智能体根据读取的该系统状态制定任务调度与频率调整策略包括：

根据读取的当前该系统状态预测出下一个该系统状态；

通过当前该系统状态、下一个该系统状态以及频率调整动作获得下一动作的调频奖励值，该频率智能体根据该调频奖励值做出频率调整策略，并该频率控制器根据该频率调整策略调整该服务器频率；

通过临时该系统状态、下一个该系统状态以及任务调度动作获得下一动作的调度奖励值，该调度智能体根据该调度奖励值做出任务调度策略。

上述的数据中心优化方法，其中，该根据读取的当前该系统状态预测出下一个该系统状态包括：

下一个该系统状态中的该服务器可用资源通过以下公式进行预测：

或者下一个该系统状态中的该服务器利用率通过以下公式进行预测：

或者下一个该系统状态中的该服务器频率f'由调频动作a^f替代；

或者下一个该系统状态中的该服务器功耗p'通过以下公式进行预测：

p′_i＝P_i(f′_i,u′_i),i＝1,2,…,N

或者下一个该系统状态中的该服务器温度通过以下公式进行预测：

H′_i＝H_i(p′)，i＝1，2,…,N

或者下一个该系统状态中的该等待队列中的任务数L'或到达任务请求的资源量r^req'从该任务等待队列中读取；

其中，当前该系统状态定义为s＝(r^avail,u,f,p,H,L,r^req)，下一个该系统状态定义为s'＝(r^avail',u',a^f,p',H',L',r^req')，服务器可用资源为服务器利用率为u＝(u₁,…,u_N),服务器频率为f＝(f₁,…,f_N),服务器功耗为p＝(p₁,…,p_N),服务器温度为H＝(H₁,…,H_N),等待队列中的任务数为L，到达任务请求的资源量为r^req，服务器S_i运行时的可用资源为/> 代表可用的CPU核数，调度任务考虑D种资源，则/> CPU核数资源指定为/>

为了实现上述目的，本发明还提出一种数据中心服务器调度装置，包括：

状态采集器，用于周期性采集系统状态信息；

任务等待队列单元，用于保存提交的任务；

智能体单元，用于根据读取的该系统状态制定任务调度与频率调整策略；

任务调度器，用于对于每个该任务读取该状态采集器采集的系统状态，以及根据该任务调度与频率调整策略将当前该任务分配到服务器并运行；

频率控制器，用于对于每个该任务读取该状态采集器采集的系统状态，以及根据该任务调度与频率调整策略对该服务器的频率进行调整。

上述的数据中心服务器优化装置，其中，该系统状态包括：服务器可用资源、服务器利用率、服务器频率、服务器功耗、服务器温度、等待队列中的任务数以及到达任务请求的资源量中的至少一种。

上述的数据中心服务器优化装置，其中，该智能体单元具体用于：

根据读取的当前该系统状态预测出下一个该系统状态；

根据获得的该奖励值制定任务调度与频率调整策略。

上述的数据中心优化装置，其中，该智能体单元包括调度智能体子单元和频率智能体子单元，具体用于：

根据读取的当前该系统状态预测出下一个该系统状态；

通过当前该系统状态、下一个该系统状态以及频率调整动作获得下一动作的调频奖励值，该频率智能体子单元根据该调频奖励值做出频率调整策略，并该频率控制器根据该频率调整策略调整该服务器频率；

通过临时该系统状态、下一个该系统状态以及任务调度动作获得下一动作的调度奖励值，该调度智能体子单元根据该调度奖励值做出任务调度策略。

为了实现上述目的，本发明还提出一种电子设备，包括：处理器和存储器，该存储器内存储有可在该处理器运行的计算机程序，当该计算机程序被该处理器执行时，实现上述的数据中心服务器优化方法。

为了实现上述目的，本发明还提出一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时，实现上述的数据中心服务器优化方法。

由以上方案可知，本发明的优点在于：

(1)本发明引入了深度强化学习策略通过与真实环境不断进行交互的方式优化任务调度和频率策略，解决了基于抽象模型的数据中心能效优化方法部署到实际数据中心中存在的问题即构建的模型与实际环境之间可能存在一定的差距，从而导致优化方法性能下降的问题，并且兼顾长期能耗节省收益，；(2)本发明解决了基于深度强化学习框架的方案部署在实际数据中心中存在的状态延迟及奖励和状态共享的问题，避免了因为延迟和共享问题导致的能效优化方案不适用于数据中心的问题，从而可以保证数据中心的能效优化效果。(3)本发明将设计的数据中心任务调度和频率调整策略的服务器优化方法与现有方法相比，在满足服务质量要求的同时可以更进一步降低数据中心的能耗。

附图说明

图1为本发明一实施例的数据中心服务器能效优化方法的流程图。

图2为本发明一实施例的数据中心服务器能效优化方法的示意图。

图3显示模拟训练过程中的奖励值的收敛结果。

图4显示ModaDRL在模拟训练过程中的功耗变化及每一轮的能耗和。

图5显示在真实测试平台中训练期间的功耗变化。

图6显示测试过程中的奖励的比较结果。

图7显示实际实验中测试时的能耗对比结果。

图8为本发明一实施例的数据中心服务器能效优化装置的模块图。

图9为本发明一实施例的电子设备的示意图。

具体实施方式

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明专注于设计一种可在真实环境中使用的基于深度强化学习的服务器能效优化方法。经过前期的实践和调研，发现在实际数据中心部署基于深度强化学习的服务器能效优化方法存在两个方面的技术难点。

第一、由于大规模集群监控数据采集的并发性要求，若采集频率设置得较高可能会导致很多问题：集群内所有服务器无法保证数据采集和处理的一致性，即有些服务器已经返回数据了，另外一些还没有返回的问题；对于单台服务器，由于传感器采集和传输的时延，也无法在一次调度或调频的周期内完成服务器状态的更新。为此目前集群服务器状态采集一般在数十秒(例如30秒左右)，无法达到在每次动作执行后立即更新状态的速度。因此，在调度或者调频动作执行后无法立即获取下个动作对应的状态，并且其他任务可能会在下一个状态采集时间到达前就达到，这就导致了实际数据中心中部署基于深度强化学习的调度和调频策略时存在严重的状态延迟的问题。该问题也会导致两个子问题：

(1)它增加了深度强化学习模型训练的难度，因为经验回放中的每一个记录在收集时都会有延迟；

(2)在执行调度和频率调整动作后，如果另一个任务在下一个状态采集时间之前到达，将导致深度强化学习智能体没有状态作为输入来为任务做出调度决策。

第二、由于在状态采集周期内可能存在多个任务到达，在分别针对每个任务执行完调度动作后，由于无法立即获得下一个状态，所以也无法立即计算每个动作对应的奖励值，从而导致了第二个问题，奖励和下一个状态共享的问题。

综上所述，状态信息的延迟使得该优化问题不遵循常见的马尔可夫决策过程的标准形式，因此该问题不适用于一般的深度强化学习算法。尽管已经有一些工作专注于解决状态延迟的问题。但是他们假设的依赖于每个动作的下一个状态和奖励必须在未来的几个时间步之后可以获得。在本发明中，提出了一种基于模型辅助的用于真实数据中心中服务器能效优化方法，用来解决状态延迟以及状态和奖励共享问题。最后，基于模型辅助的深度强化学习技术，开发了联合能效优化框架以及多智能体决策过程，通过任务调度和频率调整共同降低真实数据中心的服务器能耗。

为了解决真实数据中心中部署基于深度强化学习的任务调度和频率调整策略存在的状态延迟和奖励以及状态共享的问题，本发明提出了一种基于多智能体的深度强化学习框架的服务器能效优化方案。通过设计任务调度和服务器频率调整策略，实现在保证服务质量的同时降低数据中心能耗的目标。任务调度器中维护一组系统状态数据包括：服务器利用率，服务器频率，服务器功耗，服务器温度；系统采集器例如每隔30秒采集一次系统状态数据并保存到数据库中。任务调度器例如每隔30秒读取数据库对该组数据进行更新，任务调度器每调度一个任务会通过伪更新的方式更新这组数据，所以当任务到达后，基于深度强化学习的框架只需要读取该组状态数据就可以得到最新的系统状态信息。

因此，参见图1所示，本发明的实施例提出一种数据中心服务器能效优化方法，其包括：

步骤S110，状态采集器周期性采集系统状态信息；例如状态采集器每隔30秒采集一次系统状态信息。步骤S120，将提交的任务保存在任务等待队列中；例如用户向数据中心提交任务，任务保存在任务等待队列中作为工作负载缓冲区。步骤S130，对于每个该任务，任务调度器和频率控制器读取该状态采集器采集的系统状态；例如对于每个任务，任务调度器和频率控制器读取状态采集器采集并存储到数据库中的系统状态。步骤S140，智能体根据读取的该系统状态制定任务调度与频率调整策略。步骤S150，该任务调度器根据该任务调度与频率调整策略将当前该任务分配到服务器并运行；例如当数据中心有足够资源时，按照先来先服务(FCFS)策略调度任务，任务离开等待队列后，任务调度器负责为当前任务选择合适的服务器运行，以及任务调度器依据基于深度强化学习设计的任务调度与频率调整策略为任务分配一个合适的服务器，服务器选择完成后，任务被转移到目标服务器上，开始运行，使用服务器提供的硬件资源。步骤S160，该频率控制器根据该任务调度与频率调整策略对该服务器的频率进行调整，即该频率控制器根据该任务调度与频率调整策略对该服务器的频率进行重新设置。

为了更好地阐释本发明的相关内容，作如下说明：

第一，设计数据中心结构。数据中心的系统架构分为环境和智能体两个部分，该环境由数据中心的基本组件组成，包括任务等待队列、IT系统、任务调度器、频率控制器以及状态采集器，智能体用于为任务调度器和频率控制器做出任务调度和频率调整策略，状态采集器周期性地采集系统状态，例如每隔30秒采集一次系统状态。其中：

(1)设计任务调度器。任务离开任务等待队列后，任务调度器负责为任务选择合适的服务器运行，一个基本要求是所选服务器上可用的资源不应少于任务请求的资源。

(2)设计频率控制器。频率控制器将每台服务器的频率调整调用汇总到主服务器，可以远程将任何服务器的CPU频率调整到所需的值。可选地，在频率控制器的基础上，设计了一个频率控制接口，可以通过该发明中设计的任务调度与频率调整策略来实现。

(3)设计智能体。为了优化任务调度和频率调整策略，在系统架构中设计了基于深度强化学习的智能体。通过与环境的交互，智能体可以逐步学习和优化其控制策略(任务调度和频率调整策略)，从而降低总能耗。在一般的深度强化学习框架中，在每个时间步，智能体观察环境状态s并产生一个动作a。然后执行动作，状态更新到下一个状态s'。同时，智能体根据状态s、动作a和下一个状态s'获得奖励r。根据奖励r，智能体被训练更准确地评估Q值Q(s,a)，这表示长期累积的奖励值。如果智能体的训练完成，它就会对每个状态s下的Q值进行准确的评估，从而可以选择具有高Q值的动作来获得更大的长期收益。在本发明的架构中，优选地，可以设计两个智能体，即调度智能体和频率智能体，分别处理任务调度和服务器频率调整。调度智能体负责在任务到达时做出任务调度决策。频率智能体为数据中心的每台服务器做出频率调整决策。在本实施例中，服务器频率调整动作和任务调度动作同时进行，因此，任务调度决策和频率调整决策是同时进行的。

第二，设计数据中心模型。设计服务器模型。假设数据中心有一组服务器S＝{S₁,S₂,…,S_N}每个服务器S_i、i∈[1,N]可以用来表征，其中f_i代表S_i服务器的CPU频率，/>代表服务器S_i的总资源。假设调度任务时考虑了D种资源，则特别地，将CPU核数资源指定为/>包含在资源向量/>中。同理，让/>表示服务器S_i运行时的可用资源，/>其中代表可用的CPU核数。因此，服务器S_i的利用率可以近似的表示为在实际环境中，利用率例如是通过Linux命令获得的。本发明还在能效优化方案设计中考虑了CPU温度以防止服务器过热。每个服务器的温度H_i例如可以通过智能平台管理接口(IPMI)从基板管理控制器(BMC)获得。

第三，构建数据中心能耗最小化问题。在本发明中，主要目标是最小化数据中心能耗，可以表述为此外，为了保证服务质量，本发明同时也会考虑尽量减少任务等待时间，以便尽快为到达的任务分配资源。任务等待队列的长度被用作优化问题中的限制条件，等待任务数量越少意味着到达的任务可以更快地获得资源。假设L(t)表示在时间t时的任务等待队列的长度。为了最小化能耗以及任务等待队列长度，本发明主要通过优化任务调度策略和服务器频率。例如，具体来说，当任务T_k从任务等待队列中离开时，调度智能体会决定该任务应该分配给哪个服务器，即a^s∈{0,1,2,...,N}。其中a^s∈{1,2,...,N}表示任务将转移到的服务器的ID，a^s＝0表示任务将被保留在任务等待队列中，将重新安排下一个时间步对任务进行调度。不同的调度策略会导致不同的能耗和等待任务数量，因为较低的服务器利用率可以节省服务器功耗，合理的资源分配可以让更多的任务运行；较低的服务器频率也使得在其上运行的任务需要更长的时间才能完成，因此可能会有更多的任务保留在等待队列中。所以设计一个合理的任务调度和频率调整策略是本发明的核心。数据中心能耗最小化问题可以规约为：

s.t.

a^s∈{0,1,2,...,N}

其中ω是权重因子，用于权衡目标优化中的功耗和等待队列长度。

第四，设计具有状态延迟和奖励共享的马尔可夫决策问题。

在数据中心服务器能效优化问题中，受限于状态采集周期和服务器资源情况，因此在某个任务调度或者服务器调频动作执行后无法立即获取下一次的状态，并且其他任务可能会在下一次观测时间到达前就达到，这就导致了实际数据中心中部署基于深度强化学习的任务调度和频率调整策略时存在严重的状态延迟的问题。除此之外，由于在状态观测周期T内可能存在多个任务到达，在分别针对每个任务执行完调度动作后，由于无法立即获得下一时刻的状态，所以也无法立即计算每个动作对应的奖励值，从而导致了第二个问题，奖励和下一个时刻的状态共享的问题。为了解决以上两个重要的问题，我们设计了一种考虑到状态延迟和奖励共享的马尔可夫决策过程。

其中，传统的马尔可夫决策过程由五个基本的部分组成<S,A,P,R,γ>。其中，S代表状态集合；A代表动作集合；P是一个转移概率矩阵，代表从状态s采取动作到达状态s'的可能性；R是奖励值，可以被表示为状态、动作和下一个状态的函数；γ是一个折扣因子，可以保证马尔可夫决策过程可以收敛。给定策略π，奖励值可以被定义为一个贝尔曼方程如下：

Q值也可以通过以下公式进行计算：

为了解决状态延迟的问题，一种广泛使用的方法是用之前的动作扩展状态，即I∈S×A^k，它表示执行k个动作的最后一个状态。因此，可以根据新的状态定义I推导出下一步动作，其中包括对当前状态的描述。因此，策略被重新定义为π:然而，随着扩展方法中状态空间呈指数增长，传统的马尔可夫决策算法只能处理一个较小的k值。对于深度强化学习方法，它增加了深度强化学习中智能体理解新定义状态的难度，与直接获取的状态相比，这会降低深度强化学习算法的性能。更重要的是，扩展方法仍然无法解决状态和奖励共享问题，因为在数据中心环境中，下一个状态是为多个动作获得的，而不是为每个动作获得。已有的一项工作中提出了一种基于模型的解决方案来处理延迟状态的马尔可夫决策过程问题中的指数增长空间问题，其核心思想是根据历史样本构造状态转移概率P，然后利用之前获得的状态s，执行的动作序列a₁,a₂,...,a_k和状态转移函数P估计下一个状态s'，可以基于估计的状态s'获得最优动作，与扩展状态相比，它包含更多关于环境的信息。

在本发明中，提出了一种基于模型的深度强化学习方法来解决数据中心能源优化问题中的状态延迟问题和状态与奖励共享问题，容后详述。

第五，结合数据中心能耗模型以及基于模型的马尔可夫决策问题设计基于深度强化学习的任务调度和调频调整算法。

(1)设计数据中心能效优化问题的状态空间

数据中心IT系统的状态空间包括以下几个方面：

每个服务器可用资源

每个服务器利用率u＝(u₁,…,u_N),

服务器频率f＝(f₁,…,f_N),

服务器功耗p＝(p₁,…,p_N),

服务器温度H＝(H₁,…,H_N),

等待队列中的任务数L，以及到达任务请求的资源量r^req。

综上，系统状态定义如下：

s＝(r^avail,u,f,p,H,L,r^req)

(2)设计动作空间

调度智能体负责为当前任务选择合适的服务器或决定将任务保留在任务等待队列中。因此，任务调度动作定义为离散动作决策表示为a^s∈{0,1,2,…,N}。其中，a^s∈{1,2,…,N}表示将为任务分配的相应服务器；a_s＝0表示当前任务将保留在等待队列中，并在下一个时间步重新调度。频率智能体负责调整所有服务器的频率。因此，对于频率定义了一个连续动作，并有上界和下界的界限：在本发明的方法中，频率智能体可以同时决定所有服务器的频率，所以频率调整动作可以表示为

(3)设计奖励值

为了引导智能体实现既能降低能耗又能保持服务质量的策略，奖励函数应包括能耗和任务完成时间。由于在实际系统中很难获得任务完成时间,所以在本发明中使用任务等待队列中任务的数量来表示服务质量，将任务等待队列中的任务数量用来评估服务质量的合理性在于等待任务数较少，到达的任务可以尽快调度，从而提供对任务的快速响应。此外，在奖励设计中还考虑了资源限制和服务器温度。综上所述，奖励函数可以定义如下：

其中w₁,w₂,w₃,w₄是权重因子，β用于均衡奖励的正负分布。H^target是基准温度。服务器实际温度与基准温度相比越高，惩罚值越大。同时，温度惩罚受到α的限制。是可能影响QoS的资源限制，η_d是归一化因子。

尽管奖励定义包括能耗优化的必要部分，但这种形式的奖励在训练调度和频率智能体时会导致性能不稳定。因此，本发明还设计了改进的奖励函数，容后详述。

(4)设计模型辅助的马尔可夫决策过程

为了克服状态延迟问题以及状态和奖励共享问题，本发明为没有获取到下一个状态的每个动作预测出下一个状态。最初，决策过程是通过构建虚拟状态，决策过程变成了一个常规的马尔可夫决策过程，如其中s^t是从环境中实际观察到的状态，/>是基于先前真实状态的预测状态s^t以及执行动作的序列/>为了预测下一个系统状态，从历史数据中重建状态转移概率，并根据最新系统状态获得下一个系统状态，然后根据转移概率进行后续动作。在数据中心能效优化问题中，下一个系统状态预测可以依赖现有模型。

具体来说，假设最新观察到的系统状态s＝(r^avail,u,f,p,H,L,r^req)，以及执行的任务调度动作a^s以及频率调整动作给出。首先，r^avail'在下一个状态s'可以从r^avail,r^req导出和a^s，因为可以直接从动作对应的服务器可用资源中减去任务请求的资源，而保持其他服务器可用资源不变。

其次，u也是根据资源使用情况估算的，如下所示：

尽管由于I/O过程等原因，它不是一种非常准确的方法，但它包含了足够的信息，以便智能体做出正确的决策。

第三，下一个系统状态的服务器频率f'也可以直接被频率调整动作a^f代替。虽然将频率调整到期望值可能需要一些时间，但它仍然是动作的下一个系统状态，它代表了动作的效果，从而可以实现训练智能体的目的。

第四，服务器功耗p'由服务器现有的功耗模型预测。详细地说，广泛使用的服务器功率模型是服务器频率和利用率的函数P(f,u)。在测试平台中的服务器上执行随机任务，并收集服务器的频率、利用率和功耗数据。然后将数据拟合到幂函数，得到以下等式

P(f,u)＝-1196u²+795.6u+0.04096f+142.1

其中u的范围是[0,1]，f的单位是MHz，P的单位是W。因此，可以通过下一个系统状态下服务器频率和利用率来预测下一个系统状态的功耗，即

p′_i＝P_i(f′_i,u′_i),i＝1,2,…,N

第五，基于机房空调(CRAC)的模型建立服务器温度模型，其中矩阵D用于描述服务器之间热量的交叉干扰

由于交叉干扰矩阵D通常与服务器位置相联系，下一个系统状态的服务器温度可以通过温度模型H'_i＝H_i(p')，i＝1，2,…,N来预测。

最后，下一个系统状态的任务等待队列长度L'可以直接从任务队列中读取，不会浪费太多资源，因为它是任务队列一直在维护的值。而且，下一个任务请求核数r^req'也可以从任务等待队列中获取，无需预测。综上，通过预测的下一个系统状态可以由如下这个公式表示

s'＝(r^avail',u',a^f,p',H',L',r^req')

同样，动作的奖励R可以通过状态s、预测的下一个状态s'以及动作a^s和a^f获得。现在，便可以将具有状态延迟和奖励共享的马尔可夫决策过程转变为普通的马尔可夫决策过程。当然模型不可避免地存在一些预测误差，并且预测误差会影响智能体的决策。然而，与没有预测下一个系统状态的方法相比，模型辅助方法可以很好地处理数据中心能效优化问题，该结果表明预测模型对智能体的训练和决策有积极的影响。

(5)序列决策和分割奖励

最初，在真实环境中深度强化学习训练比较不稳定，导致能耗降低效果不佳。通过分析，不稳定性主要是来自三个方面。首先，调度智能体和频率智能体分别做出决策，彼此之间缺乏联系。从调度智能体的角度来看，由于频率智能体的动作引起环境不断变化，这是调度智能体不可预测的。同样，因为调度智能体也会影响环境，导致频率智能体也无法跟踪环境变化，如果无法获取各自对环境造成的影响，两个智能体就无法收敛。其次，奖励函数中的功耗可能会误导智能体。第三，即使奖励设置合理，奖励仍然没有包含足够的信息来训练调度智能体和频率智能体。例如，如果执行了有利于节能和服务质量的“良好”的调度动作，则可能同时执行不适当的频率调整动作。假设总的来说，这两个动作都使得功耗增加，获得的奖励很低。如果我们直接用获得的奖励训练调度智能体，由于获得的奖励很低，智能体会被误导，从而使调度智能体向相反的方向优化，因此智能体训练会变得非常不稳定。

为了克服智能体训练不稳定的问题，从三个方面优化了深度强化学习结构。首先，智能体被设置为按序列做出决策。基于当前状态s，频率智能体首先做出决策a^f。然后，随着最新频率被确定，调度智能体的状态信息可以根据频率智能体的动作a^f更新，可以表示如下：

s^temp＝(r^avail,u,a^f,p,H,L,r^req)

最后，调度智能体根据临时状态s^temp做出决策a^s。之所以可以按这样的序列进行频率和调度决策，是因为频率调整对服务器的影响很大。相比之下，调度只能影响一台服务器，其中一个任务引起的服务器利用率变化相对较小。因此，频率智能体可以先忽略调度智能体的动作来进行决策，调度智能体可以根据频率智能体的动作进行决策，并且随着频率动作固定后就稳定了。

其次，该发明的奖励设计中使用了差分功率方案。如果动作执行前状态的功耗为p，动作执行后的功耗为p'，则差分功耗为这样一来，动作的效果就可以直接通过功耗的变化来体现，从长远来看，总的能耗仍然可以得到优化。

第三，基于差分功耗方案，进一步将奖励分为频率智能体的调频奖励和调度智能体的调度奖励这两部分。由于功耗变化是由频率变化和负载(利用率)变化这两部分引起的，因此差分功耗的单个信号仍然不能很好地训练两个智能体。由于频率智能体和调度智能体会相互影响，对于两个智能体来说，他们的行为是好是坏仍然是一个模糊的信号。因此，本发明分别为频率智能体和调度智能体设计两个奖励函数。由于频率智能体首先决定其动作，因此主要通过服务器频率影响服务器功耗，而此时服务器利用率保持不变。假设服务器功耗是服务器频率和利用率P(f,u)的函数。那么调频前的功耗为P_i(f_i,u_i)，而频率调整后，功耗为频率智能体对功率变化的贡献将为/> 和调度智能体的奖励可以分别被设计为R^f和R^s。/>

第六，设计证明本发明设计的数据中心服务器能效优化方法的优势。

(1)本发明设计了多组对比实验，以验证本发明的实际效果。使用ModaDRL表示本发明提出的基于多智能体的深度强化学习框架的数据中心服务器能效优化方法。同时也选取了两个服务器控制方法作为对照组，方法RR-Fix，当任务到达时，算法会以循环的方式将任务分配到不同的服务器，并且不同服务器的频率是固定的；方法RR-WL，任务会以循环方式调度到不同的服务器，服务器的频率根据等待队列长度进行缩放，当等待队列长度高时，服务器的频率会增加，如果等待队列长度较短，则服务器的频率会降低。

图3显示了模拟训练过程中的奖励值的收敛结果。分别收集和分析了本发明提出的方案ModaDRL在不同训练步骤中的奖励和每一轮的总奖励。ModaDRL的奖励首先是波动并且是很低的，从第11轮开始，奖励变得稳定，并且更高，该结果表明所提出的方案可以达到稳定性。

图4显示了ModaDRL在模拟训练过程中的功耗变化，还显示了每一轮的能耗和。IT系统在不同训练步骤的功耗是不断变化的，并且最初每一轮的总功耗都很高。但是，随着训练过程的不断进行，每轮的功耗总和最终保持稳定，此结果可以证明该发明中提出的ModaDRL已经收敛。

图5显示了在真实测试平台中训练期间的功耗变化。尽管在不同的训练步骤中功耗一直在变化，但随着训练的继续，每一轮的总能耗不断降低。在最后三轮，每一轮的功耗逐渐稳定并保持在一个最小值，这表明该发明所提出的方法ModaDRL在实际实验中可以达到稳定。

图6显示了几种方法在测试过程中的奖励的比较结果。RR-Fix的奖励是这些算法中最小的，这是因为RR-Fix平均调度任务并设置固定的CPU频率。与RRFix和RR-WL相比，提出的方法ModaDRL的奖励最高。这个结果也验证了ModaDRL在优化IT系统的能效方面是有效的。

图7显示了实际实验中测试时的能耗对比结果。与RR-Fix和RR-WL相比，该发明提出的方法ModaDRL的能耗最小，这表明ModaDRL在降低IT系统能耗方面是有效的。

此外，参见图8所示，基于同样的发明构思，本发明的实施例还提出一种数据中心服务器能效优化装置200，包括：

状态采集器210，用于周期性采集系统状态信息；

任务等待队列单元220，用于保存提交的任务；

智能体单元230，用于根据读取的该系统状态制定任务调度与频率调整策略；

任务调度器240，用于对于每个该任务读取该状态采集器210采集的系统状态，以及根据该任务调度与频率调整策略将当前该任务分配到服务器并运行；

频率控制器250，用于对于每个该任务读取该状态采集器210采集的系统状态，以及根据该任务调度与频率调整策略对该服务器的频率进行调整。

需要说明的是，所属领域的技术人员可以清楚地了解，为描述的方便和简洁，上述描述的方法、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

参见图9所示，基于相同的发明构思，本发明的实施例还提出一种电子设备300，包括：处理器310和存储器320，该存储器320内存储有可在该处理器310运行的计算机程序，当该计算机程序被该处理器310执行时，实现上述实施例的数据中心服务器能效优化方法100。

基于同样的发明构思，本发明的实施例还提出一种计算机可读存储介质，存储有计算机程序，其中，该计算机程序被处理器执行时，实现上述实施例的数据中心服务器能效优化方法100。

综上所述，本发明设计了一种基于多智能体的深度强化学习的任务调度和频率调整的联合框架，为了解决数据中心任务调度和频率调整的联合能效优化问题。由于任务调度和频率调整在能耗方面会相互影响，因此设计服务器层面的任务调度和频率调整策略联合优化方案可以使得能效优化方案更有效。针对实际数据中心中系统状态收集频率的限制，揭示了在数据中心部署深度强化学习技术存在的两个关键问题，即状态延迟问题和状态和奖励共享问题，并且推导出模型辅助的马尔可夫决策过程来解决状态延迟问题和状态和奖励共享问题，在同一状态信息周期内的两个动作之间，插入一个基于模型的预测状态，从而获得下一个状态和奖励。为了提高基于深度强化学习优化框架的稳定性，为频率智能体和调度智能体设计了一个序列决策过程，使用差分功率值而不是实际功率值作为奖励信号的一部分。本发明将设计的数据中心任务调度和频率调整策略的服务器优化方法与现有方法相比，在满足服务质量要求的同时可以更进一步降低数据中心的能耗。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种数据中心服务器能效优化方法，其特征在于，包括：

状态采集器周期性采集系统状态信息；

将提交的任务保存在任务等待队列中；

该频率控制器根据该任务调度与频率调整策略对该服务器的频率进行调整；

该系统状态包括：服务器可用资源、服务器利用率、服务器频率、服务器功耗、服务器温度、等待队列中的任务数以及到达任务请求的资源量中的至少一种；

其中该智能体根据读取的该系统状态制定任务调度与频率调整策略包括：

根据读取的当前该系统状态预测出下一个该系统状态；

智能体根据获得的该奖励值制定任务调度与频率调整策略；

其中该根据读取的当前该系统状态预测出下一个该系统状态包括：

或者下一个该系统状态中的该服务器频率f′由调频动作a^f替代；

或者下一个该系统状态中的该服务器功耗p′通过以下公式进行预测：

p′_i＝P_i(f′_i，u′_i)，i＝1，2，...，N

H′_i＝H_i(p′)，i＝1，2，...，N

或者下一个该系统状态中的该等待队列中的任务数L′或到达任务请求的资源量r^req′从该任务等待队列中读取；

其中，当前该系统状态定义为s＝(r^avail，u，f，p，H，L，r^req)，下一个该系统状态定义为s′＝(r^avail′，u′，a^f，p′，H′，L′，r^req′)，服务器可用资源为服务器利用率为u＝(u₁，...，u_N)，服务器频率为f＝(f₁，...，f_N)，服务器功耗为p＝(p₁，...，p_N)，服务器温度为H＝(H₁，...，H_N)，等待队列中的任务数为L，到达任务请求的资源量为r^req，服务器S_i运行时的可用资源为/> 代表可用的CPU核数，调度任务考虑D种资源，则/> CPU核数资源指定为/>

2.如权利要求1所述的数据中心服务器能效优化方法，其特征在于，该智能体包括调度智能体和频率智能体，其中该智能体根据读取的该系统状态制定任务调度与频率调整策略包括：

根据读取的当前该系统状态预测出下一个该系统状态；

3.一种数据中心服务器能效优化装置，其特征在于，包括：

状态采集器，用于周期性采集系统状态信息；

任务等待队列单元，用于保存提交的任务；

频率控制器，用于对于每个该任务读取该状态采集器采集的系统状态，以及根据该任务调度与频率调整策略对该服务器的频率进行调整；

其中该智能体单元具体用于：

根据读取的当前该系统状态预测出下一个该系统状态；

通过当前该系统状态、下一个该系统状态、任务调度动作以及频率调整动作获得下一动作的奖励值；

根据获得的该奖励值制定任务调度与频率调整策略；

p′_i＝P_i(f′_i，u′_i)，i＝1，2，...，N

H′_i＝H_i(p′)，i＝1，2，...，N

4.如权利要求3所述的数据中心服务器能效优化装置，其特征在于，该智能体单元包括调度智能体子单元和频率智能体子单元，具体用于：

根据读取的当前该系统状态预测出下一个该系统状态；

5.一种电子设备，其特征在于，包括：处理器和存储器，该存储器内存储有可在该处理器运行的计算机程序，当该计算机程序被该处理器执行时，实现如权利要求1-2任一所述的方法。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-2任一所述的方法。