CN105959353A - 基于平均强化学习和高斯过程回归的云作业接入控制方法 - Google Patents
基于平均强化学习和高斯过程回归的云作业接入控制方法 Download PDFInfo
- Publication number
- CN105959353A CN105959353A CN201610261723.6A CN201610261723A CN105959353A CN 105959353 A CN105959353 A CN 105959353A CN 201610261723 A CN201610261723 A CN 201610261723A CN 105959353 A CN105959353 A CN 105959353A
- Authority
- CN
- China
- Prior art keywords
- average
- gaussian process
- return
- control method
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于平均强化学习和高斯过程回归的云作业接入控制方法,并针对调度过程中存在的连续状态‑动作空间而导致的最优策略生成过慢问题,采用高斯过程回归进行平均回报值和最优策略的逼近,大幅度减少了得到最优策略的学习迭代时间,提高了云资源的利用率。
Description
技术领域
本发明涉及云作业调度领域,具体涉及一种基于平均强化学习和高斯过程回归的云作业接入控制方法。
背景技术
作业调度是工作流研究中的重要问题之一,也一直得到了学术界的深入研究和工业界的广泛实践。面向云计算环境的工作流的调度方法与传统工作流和网格工作流的调度方法存在着很大的区别。
由于云环境的复杂性和动态性,客观上要求能够进行自适应作业调度。而强化学习作为一种重要的机器学习方法,其在云计算环境中的应用得到了广泛关注,取得了一些重要成果。但在实际应用过程中,不可避免的会遇到连续状态-动作空间而产生的维数灾难问题,最终导致收敛速度慢,自适应性差,这些问题极大限制了强化学习在云计算领域中的应用。
发明内容
本发明的目的是解决现有技术的缺陷,提供一种能够大幅度减少得到最优策略的学习迭代时间,提高云资源的利用率的云作业接入控制方法,采用的技术方案如下:
一种基于平均强化学习和高斯过程回归的云作业接入控制方法,包括:
准备阶段:
定义状态空间:将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间;
定义动作空间:动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业;
定义回报函数:将用户愿意支付的费用定义为回报函数;
执行阶段:
第一步:初始化ρ和Q(s,a),其中ρ表示平均回报,Q(s,a)为二维表格,行s为系统状态,列a为动作空间;
第二步:设置更新步长,执行迭代;
第三步:将变量i设置为0,将s设置为当前状态;
第四步:从动作空间a中选择动作;
第五步:执行选择的动作,得到当前状态的立即回报值r和下一个系统状态s’;
第六步:按式Q(s,a)←Q(s,a)+α*[r-ρ+maxa'Q(s',a')-Q(s,a)]更新Q(s,a),其中,a’代表系统状态s’下的动作空间,α∈(0,1)代表学习速率;
第七步:判断是否满足Q(s,a)=maxaQ(s,a),若是则更新平均回报ρ然后转第八步,若否则直接转第八步;
第八步:令i=i+1;
第九步:若i小于更新步长,令s=s’,转至第二步,若i不小于更新步长,则转至第十步;
第十步:将Q(s,a)表格中的数据作为输入,使用高斯过程进行回归操作,得到回归结果;
第十一步:使用第十步得到的回归结果修改Q(s,a)表格;
第十二步:将第七步得到的平均回报ρ作为输入,使用高斯过程进行回归操作,得到回归结果;
第十三步:使用第十二步得到的回归结果修改平均回报ρ;
第十四步:转至第二步。
将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间,则本发明中每个决策时刻(云作业调度时刻),下一个状态仅仅取决于当前状态,满足马尔科夫性。
本发明中动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业,可用向量(0,1)进行表示,其中0表示拒绝,1表示接受。
云计算是一种按需付费的使用模式,云服务提供商获得的收益来自于用户支付的费用,愿意支付的费用决定了接受的服务的质量是不同的,因此本发明将用户作业的优先级(取决于用户愿意支付的费用)定义为回报函数,因此,本发明的优化目标为根据资源池中可用的虚拟机数量,接受或拒绝用户作业,以使得累计回报最大。
第一步至第九步的平均强化学习在实际的运行过程中,会由于云环境中数据中心的规模增大,导致状态空间产生维数灾难问题,本发明使用高斯过程回归加速最优策略的生成,当第九步的条件不满足,执行第十步及后面的步骤,使用高斯过程回归加速最优策略的生成。
作为优选,所述第四步中使用贪心策略从动作集合a中选择动作。
作为优选,所述第七步中,按照公式ρ←ρ+β*[r-ρ+maxa'Q(s',a')-maxaQ(s,a)]更新平均回报ρ,其中β∈[0,1]为累积回报折扣因子。
作为优选,所述第十一步中,使用第十步得到的回归结果替换之前的值。
作为优选,所述第十三步中,使用第十二步得到的回归结果替换之前的平均回报ρ。
与现有技术相比,本发明的有益效果:
本发明设计了一种基于平均强化学习的云作业调度方法,并针对调度过程中存在的连续状态-动作空间而导致的最优策略生成过慢问题,采用高斯过程回归进行平均回报值和最优策略的逼近,大幅度减少了得到最优策略的学习迭代时间,提高了云资源的利用率。
附图说明
图1是本发明的流程图;
图2是经过2000000步后,带高斯过程回归的平均强化学习得到的最优策略示意图;
图3是经过2000000步后,不带高斯过程回归的平均强化学习得到的最优策略示意图。
具体实施方式
如图1所示,一种基于平均强化学习和高斯过程回归的云作业接入控制方法,包括:
本发明的目的是解决现有技术的缺陷,提供一种能够大幅度减少得到最优策略的学习迭代时间,提高云资源的利用率的云作业接入控制方法,采用的技术方案如下:
一种基于平均强化学习和高斯过程回归的云作业接入控制方法,包括:
准备阶段:
定义状态空间:将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间;
定义动作空间:动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业;
定义回报函数:将用户愿意支付的费用定义为回报函数;
执行阶段:
第一步:初始化ρ和Q(s,a),其中ρ表示平均回报,Q(s,a)为二维表格,行s为系统状态,列a为动作空间;
第二步:设置更新步长,执行迭代;
第三步:将变量i设置为0,将s设置为当前状态;
第四步:从动作空间a中选择动作;
第五步:执行选择的动作,得到当前状态的立即回报值r和下一个系统状态s’;
第六步:按式Q(s,a)←Q(s,a)+α*[r-ρ+maxa'Q(s',a')-Q(s,a)]更新Q(s,a),其中,a’代表系统状态s’下的动作空间,α∈(0,1)代表学习速率;
第七步:判断是否满足Q(s,a)=maxaQ(s,a),若是则更新平均回报ρ然后转第八步,若否则直接转第八步;
第八步:令i=i+1;
第九步:若i小于更新步长,令s=s’,转至第二步,若i不小于更新步长,则转至第十步;
第十步:将Q(s,a)表格中的数据作为输入,使用高斯过程进行回归操作,得到回归结果;
第十一步:使用第十步得到的回归结果修改Q(s,a)表格;
第十二步:将第七步得到的平均回报ρ作为输入,使用高斯过程进行回归操作,得到回归结果;
第十三步:使用第十二步得到的回归结果修改平均回报ρ;
第十四步:转至第二步。
将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间,则本发明中每个决策时刻(云作业调度时刻),下一个状态仅仅取决于当前状态,满足马尔科夫性。
本发明中动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业,可用向量(0,1)进行表示,其中0表示拒绝,1表示接受。
云计算是一种按需付费的使用模式,云服务提供商获得的收益来自于用户支付的费用,愿意支付的费用决定了接受的服务的质量是不同的,因此本发明将用户作业的优先级(取决于用户愿意支付的费用)定义为回报函数,因此,本发明的优化目标为根据资源池中可用的虚拟机数量,接受或拒绝用户作业,以使得累计回报最大。
第一步至第九步的平均强化学习在实际的运行过程中,会由于云环境中数据中心的规模增大,导致状态空间产生维数灾难问题,本发明使用高斯过程回归加速最优策略的生成,当第九步的条件不满足,执行第十步及后面的步骤,使用高斯过程回归加速最优策略的生成。
所述第四步中使用贪心策略从动作集合a中选择动作。
所述第七步中,按照公式ρ←ρ+β*[r-ρ+maxa'Q(s',a')-maxaQ(s,a)]更新平均回报ρ,其中β∈[0,1]为累积回报折扣因子。
所述第十一步中,使用第十步得到的回归结果替换之前的值。
所述第十三步中,使用第十二步得到的回归结果替换之前的平均回报ρ。
如图2所示是经过2000000步后,带高斯过程回归的平均强化学习得到的最优策略示意图,图3所示是经过2000000步后,不带高斯过程回归的平均强化学习得到的最优策略示意图,通过对比可知,本实施例大幅度减少了得到最优策略的学习迭代时间,提高了云资源的利用率。
Claims (3)
1.一种基于平均强化学习和高斯过程回归的云作业接入控制方法,其特征在于,包括:
准备阶段:
定义状态空间:将云环境资源池中的虚拟机数量定义为平均强化学习的状态空间;
定义动作空间:动作空间中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业;
定义回报函数:将用户愿意支付的费用定义为回报函数;
执行阶段:
第一步:初始化ρ和Q(s,a),其中ρ表示平均回报,Q(s,a)为二维表格,行s为系统状态,列a为动作空间;
第二步:设置更新步长,执行迭代;
第三步:将变量i设置为0,将s设置为当前状态;
第四步:从动作空间a中选择动作;
第五步:执行选择的动作,得到当前状态的立即回报值r和下一个系统状态s’;
第六步:按式Q(s,a)←Q(s,a)+α*[r-ρ+maxa'Q(s',a')-Q(s,a)]更新Q(s,a),其中,a’代表系统状态s’下的动作空间,α∈(0,1)代表学习速率;
第七步:判断是否满足Q(s,a)=maxaQ(s,a),若是则更新平均回报ρ然后转第八步,若否则直接转第八步;
第八步:令i=i+1;
第九步:若i小于更新步长,令s=s’,转至第二步,若i不小于更新步长,则转至第十步;
第十步:将Q(s,a)表格中的数据作为输入,使用高斯过程进行回归操作,得到回归结果;
第十一步:使用第十步得到的回归结果修改Q(s,a)表格;
第十二步:将第七步得到的平均回报ρ作为输入,使用高斯过程进行回归操作,得到回归结果;
第十三步:使用第十二步得到的回归结果修改平均回报ρ;
第十四步:转至第二步。
2.根据权利要求1所述的一种基于平均强化学习和高斯过程回归的云作业接入控制方法,其特征在于,所述第四步中使用贪心策略从动作集合a中选择动作。
3.根据权利要求1所述的一种基于平均强化学习和高斯过程回归的云作业接入控制方法,其特征在于,所述第七步中,按照公式ρ←ρ+β*[r-ρ+maxa'Q(s',a')-maxaQ(s,a)]更新平均回报ρ,其中β∈[0,1]为累积回报折扣因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610261723.6A CN105959353A (zh) | 2016-04-22 | 2016-04-22 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610261723.6A CN105959353A (zh) | 2016-04-22 | 2016-04-22 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105959353A true CN105959353A (zh) | 2016-09-21 |
Family
ID=56915271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610261723.6A Pending CN105959353A (zh) | 2016-04-22 | 2016-04-22 | 基于平均强化学习和高斯过程回归的云作业接入控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105959353A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886451A (zh) * | 2017-01-10 | 2017-06-23 | 广东石油化工学院 | 一种基于虚拟化容器技术的多工作流任务分配方法 |
CN107153409A (zh) * | 2017-06-02 | 2017-09-12 | 宁波大学 | 一种基于缺失变量建模思路的非高斯过程监测方法 |
CN107315572A (zh) * | 2017-07-19 | 2017-11-03 | 北京上格云技术有限公司 | 建筑机电系统的控制方法、存储介质和终端设备 |
CN109324875A (zh) * | 2018-09-27 | 2019-02-12 | 杭州电子科技大学 | 一种基于强化学习的数据中心服务器功耗管理与优化方法 |
CN109511277A (zh) * | 2018-08-01 | 2019-03-22 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104635772A (zh) * | 2014-12-08 | 2015-05-20 | 南京信息工程大学 | 一种制造系统自适应动态调度方法 |
CN105072671A (zh) * | 2015-06-30 | 2015-11-18 | 国网山东省电力公司潍坊供电公司 | 一种高级量测体系网络中传感器节点的自适应调度方法 |
CN105354085A (zh) * | 2015-10-30 | 2016-02-24 | 广东石油化工学院 | 一种云工作流作业调度方法 |
-
2016
- 2016-04-22 CN CN201610261723.6A patent/CN105959353A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104635772A (zh) * | 2014-12-08 | 2015-05-20 | 南京信息工程大学 | 一种制造系统自适应动态调度方法 |
CN105072671A (zh) * | 2015-06-30 | 2015-11-18 | 国网山东省电力公司潍坊供电公司 | 一种高级量测体系网络中传感器节点的自适应调度方法 |
CN105354085A (zh) * | 2015-10-30 | 2016-02-24 | 广东石油化工学院 | 一种云工作流作业调度方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886451A (zh) * | 2017-01-10 | 2017-06-23 | 广东石油化工学院 | 一种基于虚拟化容器技术的多工作流任务分配方法 |
CN106886451B (zh) * | 2017-01-10 | 2020-10-27 | 广东石油化工学院 | 一种基于虚拟化容器技术的多工作流任务分配方法 |
CN107153409A (zh) * | 2017-06-02 | 2017-09-12 | 宁波大学 | 一种基于缺失变量建模思路的非高斯过程监测方法 |
CN107153409B (zh) * | 2017-06-02 | 2019-08-16 | 宁波大学 | 一种基于缺失变量建模思路的非高斯过程监测方法 |
CN107315572A (zh) * | 2017-07-19 | 2017-11-03 | 北京上格云技术有限公司 | 建筑机电系统的控制方法、存储介质和终端设备 |
CN107315572B (zh) * | 2017-07-19 | 2020-08-11 | 北京上格云技术有限公司 | 建筑机电系统的控制方法、存储介质和终端设备 |
CN109511277A (zh) * | 2018-08-01 | 2019-03-22 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
WO2020024172A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
CN109511277B (zh) * | 2018-08-01 | 2023-06-13 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
CN109324875A (zh) * | 2018-09-27 | 2019-02-12 | 杭州电子科技大学 | 一种基于强化学习的数据中心服务器功耗管理与优化方法 |
CN111241952A (zh) * | 2020-01-03 | 2020-06-05 | 广东工业大学 | 一种离散制造场景中的强化学习奖励自学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105959353A (zh) | 基于平均强化学习和高斯过程回归的云作业接入控制方法 | |
CN101237469B (zh) | 运用蚁群算法优化多QoS网格工作流的方法 | |
CN106773711B (zh) | 一种铁路机车运行操纵系统的混合任务调度方法及模型 | |
CN105930214B (zh) | 一种基于q学习的混合云作业调度方法 | |
CN109615188A (zh) | 一种预分配结合匈牙利算法的多机器人任务分配方法 | |
CN107230023B (zh) | 基于改进和声搜索的生产和运输协同调度方法和系统 | |
CN107817771B (zh) | 考虑关机重启策略的混合流水车间节能调度的建模方法 | |
CN105956689A (zh) | 一种基于改进粒子群优化的运输和生产协同调度方法 | |
CN109359811A (zh) | 面向复杂产品装配过程的进度三维可视化方法及装置 | |
CN105260230A (zh) | 基于分段服务等级协议的数据中心虚拟机资源调度方法 | |
CN114169748A (zh) | 多机器人任务分配方法、系统、设备及可读存储介质 | |
CN109976911B (zh) | 一种自适应资源调度方法 | |
CN103399626A (zh) | 面向混合计算环境的功耗感知的并行应用调度系统及方法 | |
CN103455375B (zh) | Hadoop云平台下基于负载监控的混合调度方法 | |
CN112347636A (zh) | 一种基于Multi-Agent技术的装备保障仿真建模方法 | |
CN110456633A (zh) | 机载多平台分布式任务分配方法 | |
CN109121105A (zh) | 基于马尔可夫博弈的运营商竞争切片强化学习方法 | |
CN114489610A (zh) | 一种页面可视化动态组件配置方法及系统 | |
CN111915185B (zh) | 一种基于路径规划策略的时空众包任务分配方法和装置 | |
CN106598716B (zh) | 一种基于多处理器的任务调度方法 | |
CN110245809B (zh) | 一种用于多机器人多任务协作工作的智能优化方法和系统 | |
CN115545329A (zh) | 一种适用于服装制造产线的一体化动态排程方法 | |
Hooshyar et al. | A Genetic Algorithm to Time-Cost Trade off in project scheduling | |
CN106875101B (zh) | 一种能源管理系统控制方法及控制装置 | |
Feng et al. | A hybrid simulation approach to dynamic multi-skilled workforce planning of production line |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160921 |
|
WD01 | Invention patent application deemed withdrawn after publication |