CN115686788A

CN115686788A - 基于深度q网络的云数据中心启发式任务调度和能耗优化方法

Info

Publication number: CN115686788A
Application number: CN202211344068.2A
Authority: CN
Inventors: 郁洲; 毕敬
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-02-03

Abstract

本发明涉及面向绿色云数据中心的任务调度和能耗优化方法，特别是涉及一种基于模拟退火和DQN(DeepQ‑Learning)的面向绿色云数据中心能源优化方法。首先基于谷歌集群负载数据构建用户工作负载模型，用户工作负载模型将用户需求分类并管理到任务队列中。然后，任务处理器模拟服务器的资源信息，基于用户工作负载模型构建深度强化学习决策模型，该模型中智能体将基于模拟退火和DQN的方法生成决策。最后构建混合能源模型，将风能、太阳能代替部分传统电力。该方法最终目标是通过训练将能源成本降至最低，同时降低任务拒绝率。

Description

基于深度Q网络的云数据中心启发式任务调度和能耗优化方法

技术领域

本发明涉及一种面向绿色云数据中心的任务调度和能耗优化方法，特别是涉及一种基于深度Q网络的云数据中心启发式任务调度和能耗优化方法。

背景技术

近年来，云计算成为互联网领域最引人瞩目的热点之一，也是当前企业信息化建设正在投入或者将要投入的重要领域之一。云计算的概念最早起源于Google的搜索引擎大会，即“云”以基础架构即服务,平台即服务和软件即服务的形式为全球用户提供灵活的新型计算资源。这种类型的资源在互联网的环境中以按需付费/订阅的方式进行提供，云计算是由网格计算、分布式计算、并行计算、效用计算发展起来的产物，它具有其他计算的一些特征，如集群计算和网格计算等。除此之外，它的不同之处在于云计算使用虚拟化技术进行资源管理，允许资源有计划的被分配给用户。因此，云计算使计算、存储等IT资源成为一项社会化的服务，它可以像水厂、电厂一样，把一些分散的资源转化为规模化、专业化的运营和服务，大大提高了资源的使用效率，降低企业信息化维护成本与用户使用门槛，具有很重要的商业价值。云计算在国内外经过多年的发展，其分布式计算、虚拟化、编程模型、云平台等核心技术己日渐成熟，相对于传统部署模式而言，它具有灵活配置、资源利用率高和节省时间成本等显著优势。

然后云数据中心耗电方面的巨大能源成本是一个严峻的挑战。据估计数据中心的年耗电量约为1400亿千瓦时，每年的电费成本为130亿美元。因此，为了提高利润率，同时减少碳足迹，实现可持续发展和节约型社会，将大规模的数据中心用电量降至最低势在必行。近年来强化学习正在成为机器学习领域新兴的方法。越来越多的云数据中心采用强化学习方法来作为任务调度的算法。然而在云数据中心中，一个完整的资源分配和任务调度框架通常具有非常高的状态空间和行为空间维度，状态空间可以表示为每个服务器的状态和当前资源利用率水平的笛卡尔积。状态和动作空间的高维问题限制了传统RL在云计算系统中的有效性，传统RL算法的收敛速度通常与空间维度成正比，在云计算系统中应用RL可能会带来维度灾难等问题。新兴的深度强化学习(Deep Reinforce Learning)很好的解决了这个问题。DRL将深度神经网络与RL算法结合，有效的解决了高维状态空间的控制问题。在强化学习领域，启发式搜索算法经常被用作一种优化方案。其中的模拟退火法计算简单，具有较强的鲁棒性。由于可以在短时间内得到近似最优解，它在许多领域都得到了应用。模拟退火法的基本思想来源于冶金领域中的退火法。在冶金过程中加热和重新冷却材料允许原子保持在能量具有局部最小值的位置。当模拟退火法找到最优解时，它首先以解空间中的一个点为起点，由初始解生成一个新的解。然后计算当前解与原解对应的目标函数的差值，以此作为判断是否用新解替换原解的依据。最后，迭代迭代，然后降低温度，直到满足完成条件，以获得最优解。

发明内容

针对以上现有技术的不足，本发明提供一种基于模拟退火和DQN算法的强化学习优化算法。包括：基于真实云数据中心构建深度强化学习环境模型；基于模拟退火和DQN算法构建深度强化学习环境的优化模型。本发明的目的通过以下技术方案来实现。

一种基于模拟退火和DQN的深度强化学习优化方法，该方法包括如下的步骤：

1)根据Google集群数据集构建用户工作负载模型，用户请求通过用户工作负载模型转换成就绪任务队列到达预设的深度强化学习环境中。

2)通过构建的深度强化学习决策模型处理就绪任务队列里的用户请求。

3)基于2)生成的决策，构建绿色云数据中心混合能源消耗模型.

4)将3)建立的模型使用模拟退火和DQN结合的优化算法进行模型结果优化，降低能耗。

附图说明

图1一种基于模拟退火和DQN面向绿色云数据中心能耗优化方法组成示意图；

图2DQN算法的更新过程。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

下面将参照附图1来描述根据本发明实施例的基于模拟退火和DQN面向绿色云数据中心能耗优化方法的具体步骤如下：

第一步，根据Google集群跟踪负载数据构建用户工作负载模型。

在用户工作负载模型中，我们考虑两种类型的资源(CPU和内存)，并且用户任务被排入先到先服务(FCFS)队列。强化学习环境将实时状态和单个任务输入给智能体，任务调度器根据长期最优目标分配任务。用户工作负载模型用于处理大量的用户任务，并根据任务之间的依赖关系和接纳控制机制生成任务队列。在该系统中，每个作业由一个或多个任务组成，这些任务可以是独立的，也可以是相互依赖的。因此，可以将用户工作负载视为多个有向无环图。一个任务在执行的过程中应当满足下列要求：

其中

表示一个任务开始执行的时间，

表示该任务执行的时间，

表示该任务执行截止时间；在第m个服务器上执行的任务所需的资源

就应该小于等于该服务器又拥有的资源总量

和

第二步，构建深度强化学习决策模型。

DQN是深度强化学习的一种方法，其基本原理是可以结合深度学习和强化学习算法。DQN算法构造了一个可用于深度学习的目标函数。神经网络生成目标Q值，在一个状态下基于该目标Q值评估下一状态的Q值，并加入经验回放机制，目标网络打破了数据中的相关性。如图2所示。智能体的决策部分分为两个阶段，每个阶段的智能体从环境中获取当前服务器的状态和任务的状态，并将它们作为参数输入到网络中。智能体的状态空间为State＝{State_server∪State_task}，State_server包含了绿色云数据中心中一个服务器所拥有的CPU和内存资源总量，State_task表示一个任务在执行时所需要的CPU和内存资源。

动作是基于环境构建的，智能体通过一定的策略选择下一个动作。奖励值通过不同的行为获得。在下一次训练中，智能体以较高的概率选择奖励值较高的动作。当云数据中心开始处理任务时，首先在第一阶段会选择一个相对空闲的数据中心分配给任务，此时的状态空间为：

Action₁＝{GDC₁,GDC₂,…,GDC_c}

智能体将服务器分配给在第一阶段中选择的数据中心执行的任务。因此，第二阶段中的动作空间表示为：

Action₂＝{Sever₁,Sever₂,…,Sever_c}

在强化学习中，奖励函数是影响智能体的一个重要因素。合理的奖励函数可以有效地提高模型的正确性和有效性。在处理用户任务时，智能体采用两阶段动作选择策略。因此，我们设计了两阶段奖励函数，给出了如下形式：

其中Φ_GDC，Φ_Sever分别表示一个数据中心和其中一个服务器的能耗。

在训练上述深度强化学习模型时，利用模拟退火和DQN结合的算法进行动作选择，期许获取最大奖励值。首先以随机选取的动作a_i为起点，初始化退火温度T和结束温度T_end。然后计算当前动作对应的奖励值与原动作对应的奖励值的差值，以此作为判断是否用新动作替换原动作的依据。然后根据模拟退火算法优化后选择的最优动作

计算:

y_i＝r_i+γQ_i(θ)

其中r_i表示当前动作对应的奖励值，γ表示衰减系数，Q表示该动作对应的Q值。然后通过下面的损失函数来更新网络参数：

第三步，构建混合绿色能源模型。

在第二步的基础上所构建的模型包含基于模拟退火和DQN的强化学习决策模型和基于混合能源的能耗优化模型。为了最大限度地减少云计算服务器的消耗，提出了一种绿色能源成本模型，通过模拟退火和DQN算法综合利用传统电网、风能和太阳能，从而降低能源成本。混合后的绿色能源优化模型表示为：

其中F表示执行所有任务的能源成本，p^c表示绿色云数据中心能源价格，

表示总能耗，

表示绿色云数据中心中太阳辐射电池板产生的太阳能量，

表示风力涡轮机产生的风能。

第四步，训练模型，降低能耗。

在第三步的基础上，将绿色能源优化模型和基于模拟退火和DQN的深度强化学习算法结合，利用能源模型构建深度强化学习模型中的奖励函数即：

绿色能源模型通过上述奖励函数与基于模拟退火和DQN的深度强化学习算法进行交互，利用该算法强大的自主学习能力，训练出使整个绿色能源中心能耗最低的任务分配策略，最终达到降低绿色云数据中心能耗的目的。

本发明对上面提出的基于模拟退火和DQN的面向绿色云数据中心能耗优化方法。应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，然而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，该方法包括如下步骤：

1)获根据Google集群数据集构建用户工作负载模型，用户请求通过用户工作负载模型转换成就绪任务队列到达预设的深度强化学习环境中；

2)通过构建的深度强化学习决策模型处理就绪任务队列里的用户请求；

3)基于2)生成的决策，构建绿色云数据中心混合能源消耗模型；

4)将3)建立的模型使用模拟退火和DQN结合的优化算法进行模型结果优化，以此来降低能耗。

2.根据权利要求1所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于基于获取到的数据集构建用户工作负载模型，用户工作负载模型用于处理大量用户请求，并基于依赖和准入控制生成就绪任务队列。考虑了两种类型的资源(CPU和内存)，并且用户任务被排入先到先服务(FCFS)队列，一个绿色云数据中心由M个服务器组成，表示为：

其中

是一个二元组{ω₁,ω₂}，表示这个服务器所拥有的CPU和内存资源的数量。

3.根据权利要求1所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，所构建的模型包含基于模拟退火和DQN的强化学习决策模型和基于混合能源的能耗优化模型。混合能源优化模型表示为：

表示总能耗，

表示绿色云数据中心中太阳辐射电池板产生的太阳能量，

表示风力涡轮机产生的风能。

4.根据权利要求3所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，所述的强化学习决策模型结合了模拟退火和DQN算法，在强化学习智能体做出决策动作时采用模拟退火和DQN结合。智能体的状态空间为State＝{State_server∪State_task}，State_server包含了绿色云数据中心中一个服务器所拥有的CPU和内存资源总量，State_task表示一个任务在执行时所需要的CPU和内存资源。

5.根据权利要求3所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，所述的强化学习决策模型结合了模拟退火和DQN算法，该算法接收环境状态State，将其输入到神经网络中并计算所有可行动作的Q值，然后计算下一动作对应的最大Q值，进而更新网络参数。

6.根据权利要求3所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，所述的强化学习决策模型结合了模拟退火和DQN算法，在智能体进行动作选择时，设置初始温度T，计算该动作a对应的奖励r，在对初始温度T降温的过程中寻找带来最大奖励的动作。

7.根据权利要求3所述的一种面向绿色云数据中心的任务调度和能耗优化方法，其特征在于，采用混合能源模型包括风能和太阳能来代替部分传统电能，将绿色能源模型与强化学习决策模型结合，不断优化模型，以此达到降低云数据中心能耗。