CN105959353A

CN105959353A - 基于平均强化学习和高斯过程回归的云作业接入控制方法

Info

Publication number: CN105959353A
Application number: CN201610261723.6A
Authority: CN
Inventors: 崔得龙; 彭志平; 李启锐; 许波; 柯文德
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2016-09-21

Abstract

本发明公开一种基于平均强化学习和高斯过程回归的云作业接入控制方法，并针对调度过程中存在的连续状态‑动作空间而导致的最优策略生成过慢问题，采用高斯过程回归进行平均回报值和最优策略的逼近，大幅度减少了得到最优策略的学习迭代时间，提高了云资源的利用率。

Description

基于平均强化学习和高斯过程回归的云作业接入控制方法

技术领域

本发明涉及云作业调度领域，具体涉及一种基于平均强化学习和高斯过程回归的云作业接入控制方法。

背景技术

作业调度是工作流研究中的重要问题之一，也一直得到了学术界的深入研究和工业界的广泛实践。面向云计算环境的工作流的调度方法与传统工作流和网格工作流的调度方法存在着很大的区别。

由于云环境的复杂性和动态性，客观上要求能够进行自适应作业调度。而强化学习作为一种重要的机器学习方法，其在云计算环境中的应用得到了广泛关注，取得了一些重要成果。但在实际应用过程中，不可避免的会遇到连续状态-动作空间而产生的维数灾难问题，最终导致收敛速度慢，自适应性差，这些问题极大限制了强化学习在云计算领域中的应用。

发明内容

本发明的目的是解决现有技术的缺陷，提供一种能够大幅度减少得到最优策略的学习迭代时间，提高云资源的利用率的云作业接入控制方法，采用的技术方案如下：

一种基于平均强化学习和高斯过程回归的云作业接入控制方法，包括：

准备阶段：

定义状态空间：将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间；

定义动作空间：动作空间中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业；

定义回报函数：将用户愿意支付的费用定义为回报函数；

执行阶段：

第一步：初始化ρ和Q(s,a)，其中ρ表示平均回报，Q(s,a)为二维表格，行s为系统状态，列a为动作空间；

第二步：设置更新步长，执行迭代；

第三步：将变量i设置为0，将s设置为当前状态；

第四步：从动作空间a中选择动作；

第五步：执行选择的动作，得到当前状态的立即回报值r和下一个系统状态s’；

第六步：按式Q(s,a)←Q(s,a)+α*[r-ρ+max_a'Q(s',a')-Q(s,a)]更新Q(s,a),其中，a’代表系统状态s’下的动作空间，α∈(0,1)代表学习速率；

第七步：判断是否满足Q(s,a)＝max_aQ(s,a)，若是则更新平均回报ρ然后转第八步，若否则直接转第八步；

第八步：令i＝i+1；

第九步：若i小于更新步长，令s＝s’，转至第二步，若i不小于更新步长，则转至第十步；

第十步：将Q(s,a)表格中的数据作为输入，使用高斯过程进行回归操作，得到回归结果；

第十一步：使用第十步得到的回归结果修改Q(s,a)表格；

第十二步：将第七步得到的平均回报ρ作为输入，使用高斯过程进行回归操作，得到回归结果；

第十三步：使用第十二步得到的回归结果修改平均回报ρ；

第十四步：转至第二步。

将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间，则本发明中每个决策时刻(云作业调度时刻)，下一个状态仅仅取决于当前状态，满足马尔科夫性。

本发明中动作空间中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业，可用向量(0,1)进行表示，其中0表示拒绝，1表示接受。

云计算是一种按需付费的使用模式，云服务提供商获得的收益来自于用户支付的费用，愿意支付的费用决定了接受的服务的质量是不同的，因此本发明将用户作业的优先级(取决于用户愿意支付的费用)定义为回报函数，因此，本发明的优化目标为根据资源池中可用的虚拟机数量，接受或拒绝用户作业，以使得累计回报最大。

第一步至第九步的平均强化学习在实际的运行过程中，会由于云环境中数据中心的规模增大，导致状态空间产生维数灾难问题，本发明使用高斯过程回归加速最优策略的生成，当第九步的条件不满足，执行第十步及后面的步骤，使用高斯过程回归加速最优策略的生成。

作为优选，所述第四步中使用贪心策略从动作集合a中选择动作。

作为优选，所述第七步中，按照公式ρ←ρ+β*[r-ρ+max_a'Q(s',a')-max_aQ(s,a)]更新平均回报ρ，其中β∈[0,1]为累积回报折扣因子。

作为优选，所述第十一步中，使用第十步得到的回归结果替换之前的值。

作为优选，所述第十三步中，使用第十二步得到的回归结果替换之前的平均回报ρ。

与现有技术相比，本发明的有益效果：

本发明设计了一种基于平均强化学习的云作业调度方法，并针对调度过程中存在的连续状态-动作空间而导致的最优策略生成过慢问题，采用高斯过程回归进行平均回报值和最优策略的逼近，大幅度减少了得到最优策略的学习迭代时间，提高了云资源的利用率。

附图说明

图1是本发明的流程图；

图2是经过2000000步后，带高斯过程回归的平均强化学习得到的最优策略示意图；

图3是经过2000000步后，不带高斯过程回归的平均强化学习得到的最优策略示意图。

具体实施方式

如图1所示，一种基于平均强化学习和高斯过程回归的云作业接入控制方法，包括：

准备阶段：

定义回报函数：将用户愿意支付的费用定义为回报函数；

执行阶段：

第二步：设置更新步长，执行迭代；

第三步：将变量i设置为0，将s设置为当前状态；

第四步：从动作空间a中选择动作；

第八步：令i＝i+1；

第十一步：使用第十步得到的回归结果修改Q(s,a)表格；

第十三步：使用第十二步得到的回归结果修改平均回报ρ；

第十四步：转至第二步。

所述第四步中使用贪心策略从动作集合a中选择动作。

所述第七步中，按照公式ρ←ρ+β*[r-ρ+max_a'Q(s',a')-max_aQ(s,a)]更新平均回报ρ，其中β∈[0,1]为累积回报折扣因子。

所述第十一步中，使用第十步得到的回归结果替换之前的值。

所述第十三步中，使用第十二步得到的回归结果替换之前的平均回报ρ。

如图2所示是经过2000000步后，带高斯过程回归的平均强化学习得到的最优策略示意图，图3所示是经过2000000步后，不带高斯过程回归的平均强化学习得到的最优策略示意图，通过对比可知，本实施例大幅度减少了得到最优策略的学习迭代时间，提高了云资源的利用率。

Claims

1.一种基于平均强化学习和高斯过程回归的云作业接入控制方法，其特征在于，包括：

准备阶段：

定义回报函数：将用户愿意支付的费用定义为回报函数；

执行阶段：

第二步：设置更新步长，执行迭代；

第三步：将变量i设置为0，将s设置为当前状态；

第四步：从动作空间a中选择动作；

第八步：令i＝i+1；

第十一步：使用第十步得到的回归结果修改Q(s,a)表格；

第十三步：使用第十二步得到的回归结果修改平均回报ρ；

第十四步：转至第二步。

2.根据权利要求1所述的一种基于平均强化学习和高斯过程回归的云作业接入控制方法，其特征在于，所述第四步中使用贪心策略从动作集合a中选择动作。

3.根据权利要求1所述的一种基于平均强化学习和高斯过程回归的云作业接入控制方法，其特征在于，所述第七步中，按照公式ρ←ρ+β*[r-ρ+max_a'Q(s',a')-max_aQ(s,a)]更新平均回报ρ，其中β∈[0,1]为累积回报折扣因子。