CN112764932B

CN112764932B - 基于深度强化学习的计算密集型工作负载高能效分配方法

Info

Publication number: CN112764932B
Application number: CN202110107119.9A
Authority: CN
Inventors: 刘伟; 高振峰; 李建东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-12-02
Anticipated expiration: 2041-01-27
Also published as: CN112764932A

Abstract

本发明公开的一种基于深度强化学习的计算密集型工作负载高能效分配方法，旨在解决数据中心同时运行两种类型工作负载的场景下，采用自适应调整并优化参数的机制，高能效分配计算密集型工作负载的问题。本发明实现的步骤为：生成训练集，构建具有动态性服务器的能耗函数，构建状态动作集合，搭建计算密集型工作负载高能效分配智能体，采用深度强化学习训练智能体，分配数据中心的计算密集型工作负载。本发明的方法在服务器数量相同的条件下进一步降低了服务器能耗，提高了服务器能效，应用场景更广。

Description

基于深度强化学习的计算密集型工作负载高能效分配方法

技术领域

本发明属于计算机技术领域，更进一步涉及资源分配技术领域中的一种基于深度强化学习的工作负载分配方法。本发明可用于计算服务器组成的数据中心中，实现对计算密集型工作负载的分配，以满足工作负载对计算资源的动态需求，实现数据中心中服务器的以高能效为目标的工作负载有效分配。

背景技术

数据中心服务器的能耗由计算资源的利用率决定，利用率越高能耗的增长越快，利用率过低又会导致服务器静态能耗的占比过高。工作负载分配可以改变服务器的计算资源利用率，从而调整数据中心中的服务器的能耗。计算密集型工作负载对计算资源的需求量大，运行时间长，对能耗的影响更大。对计算密集型工作负载的有效分配可以使得服务器的计算资源利用率更加均衡，避免出现部分服务器利用率过高和过低的情况，从而降低服务器能耗。目前，常用的基于启发式算法的工作负载分配，由于缺乏与服务器环境状态信息以及工作负载信息的交互，忽视了分配后服务器状态的变化所带来的能耗方面的影响，缺乏自适应调整并优化模型参数的机制，仅能为特定数据中心环境的工作负载进行分配，无法适应计算密集型工作负载和常规类型工作负载对计算资源的动态性需求变化，在进一步降低服务器能耗方面受到一定程度的限制。

国网江苏省电力有限公司南京供电分公司在其申请的专利文献“一种面向时延和能耗的电力物联网工作负载分配方法”(申请号：202010079874.6申请日：2020.02.04申请公布号：CN 11131412 A)中公开了一种面向时延和能耗的工作负载分配方法。该方法的步骤是，第一步：将计算任务分发到边缘服务器节点，构建工作负载分配模型；第二步：以终端的时延和能耗作为优化目标，建立工作负载分配的多目标优化函数；第三步：通过启发式的基于分解的多目标进化算法求解优化函数，得到工负载分配方案，应用到终端上执行。该方法存在的不足之处是，采用启发式算法求解工作负载分配问题，没有考虑分配后服务器状态(如计算资源利用率)的变化，启发式算法的原有固定策略将不再适合变化后的服务器状态，无法在工作负载对计算资源动态性需求的情况下自适应的调整优化策略，在进一步降低服务器能耗提高能效方面受到一定程度的限制。

Yonggang Wen等人在其发表论文“Efficient Compute-Intensive JobAllocation in Data Centers via Deep Reinforcement Learning”(IEEE Transactionson Parallel and Distributed Systems,2020,31(6):1474-1485)中提出一种基于深度Q网络DQN(Deep Q Network)算法的计算密集型工作负载分配方法。该方法步骤是，第一步：收集到达数据中心计算密集型工作负载集合的计算资源需求；第二步：采集数据中心服务器的状态信息，包括计算资源利用率，空闲计算资源量和温度；第三步：将状态信息和资源需求送入决策中心；第四步:决策中心内采用DQN算法的智能体依据当前策略对计算密集型工作负载进行分配决策；第五步：采用长短记忆网络对下一时刻的服务器状态进行预测；第六步:依据预测结果的可行性将计算密集型工作负载分配到服务器上运行。该方法存在的不足之处是，分配时仅考虑计算密集这一种类型的工作负载对服务器计算资源利用率的影响，采用的DQN算法在自适应调整优化策略时，未考虑服务器上常规类型工作负载对计算资源的动态性需求，因此优化得到策略存在不足，在进一步降低服务器能耗提高能效方面受到一定程度的限制。

发明内容：

本发明的目的在于针对上述已有技术的不足，提出一种基于深度强化学习的计算密集型工作负载高能效分配方法，用于解决现有的计算密集型工作负载分配方法中缺乏自适应调整并优化模型参数的机制，仅能为特定数据中心环境的工作负载进行分配，无法适应计算密集型工作负载和常规类型工作负载对计算资源的动态性需求变化的问题。

实现本发明目的的技术思路是：根据数据中心中每个服务器的计算资源利用率，建立具有动态性的服务器能耗函数，适用于计算密集型工作负载和常规类型工作负载对计算资源的动态性需求的场景；使用深度强化学习，自适应调整并优化计算密集型工作负载高能效分配智能体的权重参数，实现计算密集型工作负载高能效分配。

为实现上述目的，发明采用的技术方案包括如下步骤：

(1)生成训练集：

将数据中心内计算密集型工作负载的物理核需求数量组成训练集；

(2)构建动态性服务器的能耗函数：

(2a)按照下式，计算数据中心中每个服务器在每个时隙的每种计算资源的利用率：

其中，

表示数据中心中第m个服务器在第t个时隙的第c种计算资源的利用率，m∈{1,...,M}，M表示数据中心中服务器的总数，t表示数据中心运行的时隙序号，t∈{1,...,T}，T表示时隙的总数，T≥100，N表示数据中心内计算密集型工作负载的总数，∑表示求和操作，n表示计算密集型工作负载的序号，a_n,m(t)表示在第t个时隙第n个计算密集型工作负载在第m个服务器上的分配决策值，a_n,m(t)∈{0,1}，Dⁿ表示第n个计算密集型工作负载所请求的物理核得总数，N^m表示数据中心中第m个服务器在第t个时隙所能提供的最大物理核的总数，v^m(t)表示数据中心中第m个服务器在第t个时隙所有常规类型的工作负载对该服务器计算资源的利用率；

(2b)按照下式，构建每个服务器的能耗函数：

其中，P^m(t)表示第m个服务器在第t个时隙的能耗，0≤P^m(t)≤1，E^m表示第m个服务器的静态能耗，0＜E^m≤0.5，α表示取值小于0.5的能耗系数，β表示取值小于1的能耗系数；

(3)构建状态动作集合：

(3a)将数据中心在每个时隙的所有服务器计算资源利用率数值组成的利用率子集合，将每个服务器的能耗数值组成能耗子集合，将每个服务器的空闲物理核数量组成物理核子集合，将每个计算密集型工作负载所请求的物理核数量组成请求子集合，将每个物理服务器的序号组成子集合；

(3b)将五个子集合组成状态动作集合；

(4)构建计算密集型工作负载高能效分配智能体：

(4a)搭建第一全连接网络和第二全连接网络，两个网络的结构相同，均由输入层、第一全连接层和第二全连接层组成，设置输入层的神经元的个数等于状态动作集合中元素的个数，第一全连接层的神经元数量设置为300，采用激活函数tanh实现，第二全连接层的神经元数量设置为1，采用激活函数ReLU实现；

(4b)搭建第三全连接网络和第四全连接网络，两个网络的结构相同，均由输入层、第一全连接层和第二全连接层组成，设置输入层的神经元的个数等于状态动作集合中元素的个数，第一全连接层的神经元数量设置为300，采用激活函数ReLU实现，第二全连接层的神经元数量设置为1，采用激活函数ReLU实现；

(4c)将第一全连接网络网络、第三全连接网络网络、第二全连接网络网络和第四全连接网络网络互相连接成计算密集型工作负载高能效分配智能体；

(5)采用深度强化学习训练计算密集型工作负载高能效分配智能体：

(5a)设定第一和第二全连接网络网络的神经网络权重参数均设置为一个相同的随机数，第三和第四全连接网络网络的神经网络权重参数均设置为一个相同的随机数，将第一全连接网络网络学习率设置为0.001，第二全连接网络网络的学习率设置为0.01，第三全连接网络网络的学习率设置为0.002，第四全连接网络网络的学习率设置为0.01；

(5b)将当前的状态动作集合输入到计算密集型工作负载分配智能体中，第一全连接网络网络输出一个满足服务器低能耗目标计算密集型工作负载的服务器序号，将该序号分配给该计算密集型工作负载，输出该服务器根据奖励函数计算的分配操作的奖励值；将状态动作集合，工作负载的服务器序号，服务器的奖励值组成一个经验数据子集合，将该子集合存入到个数为的10³经验回放缓存中；

(5c)判断经验回放缓存是否已储存满，若是，则执行步骤(5d)，否则，将执行完分配操作的状态动作集合作为当前状态动作集合后执行步骤(5b)；

(5d)从经验回放缓存区随机提取64个经验数据子集合，将所选数据子集合中的分配操作前的状态动作集合输入到计算密集型工作负载分配智能体中，第三全连接网络输出第一个状态价值，第四全连接网络输出第二个状态价值，第二神经网络输出动作价值；

(5e)将所选经验数据子集合中服务器的奖励值、第一个状态价值、第二个状态价值和动作价值代入到均方误差函数中，计算密集型工作负载分配智能体的损失值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第三全连接网络网络的权重参数，直到智能体的损失值最小为止，得到更新后第三全连接网络的权重参数；

(5f)将第一个动作价值代入到性能评估函数，计算性能评估值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第一全连接网络的权重参数，直到智能体的性能评估值最大为止，得到更新后第一全连接网络网络的权重参数；

(5g)将更新后的第一全连接网络的权重参数代入到软更新函数，计算第二全连接网络的权重参数，更新当前第二全连接网络的权重参数；将更新后的智能体中第三全连接网络的权重参数代入到软更新函数，计算第四全连接网络的权重参数，更新当前第四全连接网络的权重参数；

(5h)判断奖励函数是否收敛，若是，得到训练好的基于深度强化学习的计算密集型工作负载分配智能体；否则，将步骤(5e)、(5f)得到的第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数作为当前智能体中第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数后执行步骤(5b)；

(6)分配数据中心的计算密集型工作负载：

(6a)将一个时隙内计算密集型工作负载在数据中心的到达时间的先后顺序进行排序，从序列中依次选取一个未选过的工作负载；

(6b)对所选工作负载采用与步骤(3)相同的处理方法，得到所选工作负载的状态动作集合，并输入到训练好的计算密集型工作负载分配模型中，输出所选工作负载对应的服务器序号；

(6c)判断是否选完序列中的工作负载，若是，执行步骤(7)，否则，执行步骤(6a)；

(7)结束分配操作。

本发明与现有技术相比有以下优点：

第1，由于本发明构建了一个计算密集型工作负载高能效智能体，通过将计算密集型工作负载和常规类型工作负载对计算资源的动态性需求转换为每个时隙的服务器计算资源利用率变化，克服了现有技术中只能考虑一种类型的工作负载对服务器计算资源利用率的影响的问题，使得本发明的应用场景更广。

第2，由于本发明使用深度强化学习训练计算密集型工作负载高能效智能体的权重参数，克服了现有技术中缺乏自适应调整并优化模型参数的机制的问题，使得本发明可以进一步降低数据中心服务器能耗，提高能效。

附图说明

图1是本发明的流程图；

图2是本发明的仿真结果图。

具体实施方式

以下结合附图对本发明做进一步的详细描述。

参照图1，本发明的实现步骤做进一步的详细描述。

步骤1，生成训练集，将数据中心内计算密集型工作负载的物理核需求数量组成训练集。

步骤2，构建动态性服务器的能耗函数。

第1步，按照下式，计算数据中心中每个服务器在每个时隙的每种计算资源的利用率：

其中，

表示数据中心中第m个服务器在第t个时隙的第c种计算资源的利用率，m∈{1,...,M}，M表示数据中心中服务器的总数，t表示数据中心运行的时隙序号，t∈{1,...,T}，T表示时隙的总数，T≥100，N表示数据中心内计算密集型工作负载的总数，∑表示求和操作，n表示计算密集型工作负载的序号，a_n,m(t)表示在第t个时隙第n个计算密集型工作负载在第m个服务器上的分配决策值，a_n,m(t)∈{0,1}，Dⁿ表示第n个计算密集型工作负载所请求的物理核得总数，N^m表示数据中心中第m个服务器在第t个时隙所能提供的最大物理核的总数，v^m(t)表示数据中心中第m个服务器在第t个时隙所有常规类型的工作负载对该服务器计算资源的利用率。

第2步，按照下式，构建每个服务器的能耗函数：

其中，P^m(t)表示第m个服务器在第t个时隙的能耗，0≤P^m(t)≤1，E^m表示第m个服务器的静态能耗，0＜E^m≤0.5，α表示取值小于0.5的能耗系数，β表示取值小于1的能耗系数。

步骤3，构建状态空间集合。

第1步，将数据中心在每个时隙的所有服务器计算资源利用率数值组成的利用率子集合，将每个服务器的能耗数值组成能耗子集合，将每个服务器的空闲物理核数量组成物理核子集合，将每个计算密集型工作负载所请求的物理核数量组成请求子集合，将每个物理服务器的序号组成子集合。

第2步，将五个子集合组成状态动作集合s_t。

步骤4，构建计算密集型工作负载高能效分配智能体。

第1步，搭建第一全连接网络和第二全连接网络，两个网络的结构相同，均由输入层、第一全连接层和第二全连接层组成，设置输入层的神经元的个数等于状态动作集合中元素的个数，第一全连接层的神经元数量设置为300，采用激活函数tanh实现，第二全连接层的神经元数量设置为1，采用激活函数ReLU实现。

第2步，搭建第三全连接网络和第四全连接网络，两个网络的结构相同，均由输入层、第一全连接层和第二全连接层组成，设置输入层的神经元的个数等于状态动作集合中元素的个数，第一全连接层的神经元数量设置为300，采用激活函数ReLU实现，第二全连接层的神经元数量设置为1，采用激活函数ReLU实现。

第3步，将第一全连接网络网络、第三全连接网络网络、第二全连接网络网络和第四全连接网络网络互相连接成计算密集型工作负载分配智能体。

步骤5，采用深度强化学习训练计算密集型工作负载高能效分配智能体。

第1步，设定第一和第二全连接网络网络的神经网络权重参数均设置为一个相同的随机数，第三和第四全连接网络网络的神经网络权重参数均设置为一个相同的随机数，将第一全连接网络网络学习率设置为0.001，第二全连接网络网络的学习率设置为0.01，第三全连接网络网络的学习率设置为0.002，第四全连接网络网络的学习率设置为0.01。

第2步，将当前的状态动作集合输入到计算密集型工作负载分配智能体中，第一全连接网络网络输出一个满足服务器低能耗目标计算密集型工作负载的服务器序号，将该序号分配给该计算密集型工作负载，输出该服务器根据奖励函数计算的分配操作的奖励值，按照下式，构建奖励函数：

其中，r_t表示在第t个时隙对计算密集性工作负载分配的奖励函数，R^m(t)表示采用轮询调度算法对计算密集型工作负载分配得到的第m个服务器在第t个时隙的能耗，将状态动作集合，工作负载的服务器序号，服务器的奖励值组成一个经验数据子集合，将该子集合存入到个数为的10³经验回放缓存中。

第3步，判断经验回放缓存是否已储存满，若是，则执行第4步，否则，将执行完分配操作的状态动作集合作为当前状态动作集合后执行第2步。

第4步，从经验回放缓存区随机提取64个经验数据子集合，将所选数据子集合中的分配操作前的状态动作集合输入到计算密集型工作负载分配智能体中，第三全连接网络输出第一个状态价值，第四全连接网络输出第二个状态价值，第二神经网络输出动作价值。

第5步，将所选经验数据子集合中服务器的奖励值、第一个状态价值、第二个状态价值和动作价值代入到均方误差函数中，计算密集型工作负载分配智能体的损失值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第三全连接网络网络的权重参数，直到智能体的损失值最小为止，得到更新后第三全连接网络的权重参数。

第6步，将第一个动作价值代入到性能评估函数，计算性能评估值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第一全连接网络的权重参数，直到智能体的性能评估值最大为止，得到更新后第一全连接网络网络的权重参数。

第7步，将更新后的第一全连接网络的权重参数代入到软更新函数，计算第二全连接网络的权重参数，更新当前第二全连接网络的权重参数；将更新后的智能体中第三全连接网络的权重参数代入到软更新函数，计算第四全连接网络的权重参数，更新当前第四全连接网络的权重参数。

第8步，判断奖励函数是否收敛，若是，得到训练好的基于深度强化学习的计算密集型工作负载高能效分配智能体；否则，将第5步、第6步得到的第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数作为当前智能体中第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数后执行步骤第2步。

步骤6，分配数据中心的计算密集型工作负载。

第1步，按照计算密集型工作负载在数据中心的到达时间的先后顺序进行排序，从序列中依次选取一个未选过的工作负载。

第2步，对所选工作负载采用与步骤(3)相同的处理方法，得到所选工作负载的状态动作集合，并输入到训练好的计算密集型工作负载分配模型中，输出所选工作负载对应的服务器序号。

第3步，判断是否选完序列中的工作负载，若是，执行步骤(7)，否则，执行第1步。

步骤7，结束分配操作。

下面结合仿真实验对本发明的效果做进一步的说明：

1.实验条件：

本发明的仿真实验的实验的硬件平台为：处理器为Intel Xeon Silver 4208,主频为2.1GHz,内存128GB。

本发明的仿真实验平台的软件平台为：Windows10操作系统和Python3.7

本发明仿真实验所使用的的训练数据集为阿里巴巴集群追踪Cluster Trace2018作为数据集，包含了4000台服务器在8天内，资源变化和工作负载执行的数据，提取了1000个样本，每个样本包括3000个服务器计算资源利用率数据，3000个服务器物理核空闲数量数据，3000个常规类型工作负载数据和1个计算密集型工作负载数据，样本格式为csv。

2.仿真内容及其结果分析：

本发明仿真实验是采用本发明和一个现有技术(基于深度Q网络的计算密集型工作负载分配方法)，分别在服务器数量为100，500，1000进行10次实验，得到了10次实验中平均每台服务器在每个时隙内的归一化能耗值，其结果如图2所示。

在仿真实验中，采用的一个现有技术是指：

Yonggang Wen等人在其发表论文“Efficient Compute-Intensive JobAllocation in Data Centers via Deep Reinforcement Learning”(IEEE Transactionson Parallel and Distributed Systems,2020,31(6):1474-1485)中提出的基于深度Q网络的计算密集型工作负载分配方法。

下面结合图2的仿真图对本发明的效果做进一步的描述。

图2为相同服务器硬件参数，能耗函数的，奖励函数的条件下，采用本发明的方法和现有的方法分别获得的每台服务器在每个时隙内的归一化能耗值比较图。图2中的横坐标表示数据中心的服务器数量，单位为个。纵坐标表示台服务器在每个时隙内的归一化能耗值。图2以左斜线表示的柱形表示采用现有技术的仿真结果，以右斜线表示的柱形表示采用本发明方法的仿真结果。

由图2中的3个柱状对比可以看出，在100台服务器的条件下，本发明得到的每个服务器在每个特时隙内的归一化能耗值相比现有方法降低了8％，在500台服务器的条件下，本发明得到的每个服务器在每个特时隙内的归一化能耗值相比现有方法降低了11％，在1000台服务器的条件下，本发明得到的每个服务器在每个特时隙内的归一化能耗值相比现有方法降低了13％。

以上仿真实验结果表明，在数据中心服务器数量相同的情况下，本发明得到的每个服务器在每个特时隙内的归一化能耗值低于现有技术得到的每个服务器在每个特时隙内的归一化能耗值；本发明进一步降低了服务器的能耗，是一种能效更高的计算密集型工作负载分配方法。

Claims

1.一种基于深度强化学习的计算密集型工作负载高能效分配方法，其特征在于，构建计算密集型工作负载高能效分配智能体，采用深度强化学习训练计算密集型工作负载高能效分配智能体；该方法的步骤包括如下；

(1)生成训练集：

(2)构建动态性服务器的能耗函数：

其中，

(2b)按照下式，构建每个服务器的能耗函数：

(3)构建状态空间集合：

(3b)将五个子集合组成状态动作集合；

(4)构建计算密集型工作负载高能效分配智能体：

(4c)将第一全连接网络、第三全连接网络、第二全连接网络和第四全连接网络互相连接成计算密集型工作负载高效能分配智能体；

(5a)设定第一和第二全连接网络的神经网络权重参数均设置为一个相同的随机数，第三和第四全连接网络的神经网络权重参数均设置为一个相同的随机数，将第一全连接网络学习率设置为0.001，第二全连接网络的学习率设置为0.01，第三全连接网络的学习率设置为0.002，第四全连接网络的学习率设置为0.01；

(5b)将当前的状态动作集合输入到计算密集型工作负载分配智能体中，第一全连接网络输出一个满足服务器低能耗目标计算密集型工作负载的服务器序号，将该序号分配给该计算密集型工作负载，输出该服务器根据奖励函数计算的分配操作的奖励值；将状态动作集合，工作负载的服务器序号，服务器的奖励值组成一个经验数据子集合，将该子集合存入到个数为10³的经验回放缓存中；

(5e)将所选经验数据子集合中服务器的奖励值、第一个状态价值、第二个状态价值和动作价值代入到均方误差函数中，计算密集型工作负载分配智能体的损失值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第三全连接网络的权重参数，直到智能体的损失值最小为止，得到更新后第三全连接网络的权重参数；

(5f)将第一个动作价值代入到性能评估函数，计算性能评估值，利用梯度反向传播方法迭代更新计算密集型工作负载分配智能体中第一全连接网络的权重参数，直到智能体的性能评估值最大为止，得到更新后第一全连接网络的权重参数；

(5h)判断奖励函数是否收敛，若是，得到训练好的基于深度强化学习的计算密集型工作负载高能效分配智能体；否则，将步骤(5e)、(5f)得到的第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数作为当前智能体中第一全连接网络权重参数、第二全连接网络权重参数、第三全连接网络权重参数和第四全连接权重网络参数后执行步骤(5b)；

(6)分配数据中心的计算密集型工作负载：

(7)结束分配操作。