CN105930214B

CN105930214B - 一种基于q学习的混合云作业调度方法

Info

Publication number: CN105930214B
Application number: CN201610261706.2A
Authority: CN
Inventors: 彭志平; 崔得龙; 李启锐; 许波; 柯文德
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2019-04-26
Anticipated expiration: 2036-04-22
Also published as: CN105930214A

Abstract

本发明公开一种基于Q学习的混合云作业调度方法，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error＜θ条件的策略时，就进行agent间的知识迁移。本发明通过分析用户作业在云环境中的执行流程，以最小化用户作业完成时间和等待时间为优化目标，设计了一种基于强化学习的混合云作业调度方法，并采用并行多agent技术加速最优策略的收敛，提高了云资源的利用率，降低了用户等级协议的违约率。

Description

一种基于Q学习的混合云作业调度方法

技术领域

本发明涉及云作业调度领域，具体涉及一种基于强化学习的混合云作业调度方法。

背景技术

作业调度是云计算的关键技术之一，对于满足用户需求和提高云服务提供商服务质量和经济效益具有重要意义。作业调度是云计算的关键技术之一，对于满足用户需求和提高云服务提供商服务质量和经济效益具有重要意义。现有的云作业调度算法，或针对于计算密集型云作业，或集中于数据密集型云作业，鲜见针对混合型作业的调度算法。而真实的云计算环境中，不同用户提交的作业类型往往不同，而不同类型云作业的要求也往往不同，针对单一作业类型设计的调度方法往往不能满足不同类型作业调度的要求，导致违反用户等级协议的约定。

发明内容

本发明的目的是解决现有技术的缺陷，提供一种能够提高云资源的利用率，降低用户等级协议的违约率的云作业调度方法，采用的技术方案如下：

一种基于Q学习的混合云作业调度方法，其特征在于，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error<θ条件的策略时，就进行agent间的知识迁移，具体包括：

定义Q学习中的状态空间：将云环境资源池中活跃的虚拟机数量为状态空间；

定义Q学习中的动作集合A：动作集合中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业；

定义系统的立即回报函数：其中，job_i.ini表示作业执行的指令数，job_i.fsize表示作业大小，VM_j.proc表示虚拟机处理速度，VM_j.bw表示虚拟机带宽；

初始化Q(s,a)，其中Q(s,a)为二维表格，行s为系统状态，列a为动作集合；

初始化系统状态S；

S3：迭代执行S31至S36：

S31：将s设置为当前状态；

S32：使用贪心策略从动作集合A中选择动作；

S33：执行所选择的动作，计算记录当前的回报函数，得到立即回报值r和下一个系统状态S’；

S34：按式Q_t＝Q_t+α*(r+γ*Q_t+1-Q_t)，更新Q(s,a)，其中α∈(0,1)是学习速率，γ∈(0,1)是时间折扣因子，Qt指的是t时刻的Q值，即t时刻的Q(s,a)，Qt+1表示t+1时刻的Q值；

S35：计算error＝MAX(error|Q_t-Q_previous-t)，Q_previous-t指时刻t前一时刻的Q值；

S36：判断error<θ是否成立，若否则返回S31，若是进行agent间的知识迁移，其中θ为固定比较值，根据需要设定。

本发明结合云计算环境中的作业调度以及强化学习的特点，将云环境资源池中活跃着的虚拟机数量定义为强化学习的状态空间。假设云平台中当前活跃着的虚拟机数量为m，则状态空间可表示为s_i＝(s₁,s₂,...,s_m)∈S，其中，s_j表示第j台虚拟机，则本发明中每个决策时刻(云作业调度时刻)，下一个状态仅仅取决于当前状态，从而使得本发明满足马尔科夫性。

本发明中，活跃是指虚拟机能够接受用户作业并立即执行，区别于处于关机状态和睡眠状态的虚拟机。

本发明所述的动作集合中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业，可用向量(0,1)表示，其中0表示拒绝，1表示接受。假设当前用户作业i被调度到虚拟机j，则动作空间可表示为a_i＝(0,0,1,0...,0)∈A，表示当前用户作业i被调度到第3台虚拟机。

对于不同类型的用户作业，作业调度策略应能够根据作业类型不同进行区分，即根据不同用户作业对虚拟资源的不同需求进行合理调度，本发明定义作业期望执行时间进行作业调度有效性衡量，公式如下：

式(1)中，job_i.ini表示作业执行的指令数，job_i.fsize表示作业大小，VM_j.proc表示虚拟机处理速度，VM_j.bw表示虚拟机带宽，同时以上式作为回报函数。

根据以上定义，本发明的优化目标可定义为：

式(2)表明本发明的优化目标为当前用户作业在满足截止时间(deadline)要求下，调度到最小完成时间(mks)和最小平均等待时间(awt)的虚拟机上。

进一步地，本发明中，所述的知识迁移是指若某一agent最快学习到最优策略，则用该agent的Q值表替换其他agent的Q值表。

与现有技术相比，本发明的有益效果：

本发明通过分析用户作业在云环境中的执行流程，以最小化用户作业完成时间和等待时间为优化目标，设计了一种基于强化学习的混合云作业调度方法，并采用并行多agent技术加速最优策略的收敛，提高了云资源的利用率，降低了用户等级协议的违约率。

附图说明

图1是本发明的流程图；

图2是本发明实施例中不同作业调度方法各虚拟机完成用户作业时间比较示意图；

图3是本发明实施例中不同作业调度方法的用户作业的完成时间比较示意图；

图4是本发明实施例中不同作业调度方法平均等待时间比较示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述。

实施例：

如图1所示，一种基于Q学习的混合云作业调度方法，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error<θ条件的策略时，就进行agent间的知识迁移，具体包括：

初始化系统状态S；

S3：迭代执行S31至S36：

S31：将s设置为当前状态；

S32：使用贪心策略从动作集合A中选择动作；

本实施例结合云计算环境中的作业调度以及强化学习的特点，将云环境资源池中活跃着的虚拟机数量定义为强化学习的状态空间。假设云平台中当前活跃着的虚拟机数量为m，则状态空间可表示为s_i＝(s₁,s₂,...,s_m)∈S，其中，s_j表示第j台虚拟机，则本实施例中每个决策时刻(云作业调度时刻)，下一个状态仅仅取决于当前状态，从而使得本实施例满足马尔科夫性。

本实施例所述的动作集合中包括2个动作，分别为接受当前被调度作业和拒绝当前被调度作业，可用向量(0,1)表示，其中0表示拒绝，1表示接受。假设当前用户作业i被调度到虚拟机j，则动作空间可表示为a_i＝(0,0,1,0...,0)∈A，表示当前用户作业i被调度到第3台虚拟机。

对于不同类型的用户作业，作业调度策略应能够根据作业类型不同进行区分，即根据不同用户作业对虚拟资源的不同需求进行合理调度，本实施例定义作业期望执行时间进行作业调度有效性衡量，公式如下：

根据以上定义，本实施例的优化目标可定义为：

式(2)表明本实施例的优化目标为当前用户作业在满足截止时间(deadline)要求下，调度到最小完成时间(mks)和最小平均等待时间(awt)的虚拟机上。

进一步地，本实施例中，所述的知识迁移是指若某一agent最快学习到最优策略，则用该agent的Q值表替换其他agent的Q值表。

Claims

1.一种基于Q学习的混合云作业调度方法，其特征在于，使用多agent并行学习，即每个agent独立进行最优策略学习，当某个agent最先得到满足error＜θ条件的策略时，就进行agent间的知识迁移，具体包括：

定义Q学习的状态空间：将云环境资源池中活跃的虚拟机数量定义为状态空间；

定义系统的立即回报函数：

其中，job_i.ini表示作业执行的指令数，job_i.fsize表示作业大小，VM_j.proc表示虚拟机处理速度，VM_j.bw表示虚拟机带宽；

初始化Q(s,a)，其中Q(s,a)为二维表格，行s为状态空间，列a为动作集合；

初始化状态空间S；

S3：迭代执行S31至S36：

S31：将s设置为当前状态；

S32：使用贪心策略从动作集合A中选择动作；

S33：执行所选择的动作，计算记录当前的立即回报函数，得到立即回报值r和下一个状态空间S’；

S34：按式Q_t＝Q_t+α(r+γ*Q_t+1-Q_t)，更新Q(s,a)，其中α∈(0,1)是学习速率，γ∈(0,1)是时间折扣因子，Q_t指的是t时刻的Q值，即t时刻的Q(s,a)，Q_t+1表示t+1时刻的Q值；

S36：判断error＜θ是否成立，若不成立则返回S31，若成立进行agent间的知识迁移，知识迁移是指若某一agent最快学习到最优策略，则用该agent的Q值表替换其他agent的Q值表；其中θ为固定比较值，根据需要设定。