CN108874545A - 基于强化学习的集群调度系统 - Google Patents

基于强化学习的集群调度系统 Download PDF

Info

Publication number
CN108874545A
CN108874545A CN201810658015.5A CN201810658015A CN108874545A CN 108874545 A CN108874545 A CN 108874545A CN 201810658015 A CN201810658015 A CN 201810658015A CN 108874545 A CN108874545 A CN 108874545A
Authority
CN
China
Prior art keywords
cluster
intensified learning
calculate node
node
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810658015.5A
Other languages
English (en)
Inventor
王新雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201810658015.5A priority Critical patent/CN108874545A/zh
Publication of CN108874545A publication Critical patent/CN108874545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;其中,集群作业管理器,接收到所述中断请求后发送当前集群的运算状态至基于强化学习的负载均衡器;基于强化学习的负载均衡器,根据采集到的当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建Q函数模型,以获得当前中断时刻t应对集群采用的优化操作。本发明能够提高集群整体利用率,缩短用户平均等待时间偏长。

Description

基于强化学习的集群调度系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于强化学习的集群调度系统。
背景技术
HPC(High Performance Computing,高性能计算)集群通常采用大规模计算节点进行计算,伴随着大型集群的普及应用,高性能计算集群的用户数量也越来越多。目前,HPC集群通常采用单个调度节点,或者独立的多个调度节点进行程序编译、计算作业的提交和资源分配。然而在HPC领域服务器同时接入用户数量不像互联网集群那样众多,相应的单个作业资源消耗却更加巨大。因此,HPC集群通常都会根据自身接入用户的应用特性做自定义的负载均衡策略,并借助选用的调度器,例如PBS或Slurm,进行负载均衡优化。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
现有的自定义负载均衡手段往往是以应用的具体需求做划分的,如:单个作业需求的CPU/GPU数量,对异构计算的需求,运算量需求等。然而这种调度策略是从满足具体作业需求的角度出发,虽然能保证应用需求,却无法保证集群性能被最大化利用。换言之集群整体利用率不高,且可能造成用户平均等待时间偏长。
发明内容
本发明提供的一种基于强化学习的集群调度系统,能够提高集群整体利用率,缩短用户平均等待时间偏长。
本发明提供一种基于强化学习的集群调度系统,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;
其中,所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;
所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。
本发明实施例提供的基于强化学习的集群调度装置,通过根据采集的集群实时信息判断计算节点未来宕机或者报错概率,从而对集群进行调优。与现有技术相比,本发明利用基于强化学习的负载均衡策略来优化集群调度,不仅能够满足作业本身对硬件资源的需求,而且能够提高集群整体利用率,降低节点宕机和故障概率,从而降低用户整体等待时间,达到对整个集群资源的更优化利用的目的。
附图说明
图1为本发明一实施例基于强化学习的集群调度系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例还提供一种基于强化学习的集群调度系统,如图1所示,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器。
这里集群作业管理为Slum Job Manager。
其中,所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;
所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。
本发明实施例提供的基于强化学习的集群调度系统,通过根据采集的集群实时信息判断新作业队计算节点造成未来宕机或者报错概率,从而对集群进行调优。与现有技术相比,本发明利用基于强化学习的负载均衡策略来优化集群调度,不仅能够满足作业本身对硬件资源的需求,而且能够提高集群整体利用率,降低节点宕机和故障概率,从而降低用户整体等待时间,达到对整个集群资源的更优化利用的目的。
其中,所述当前集群的运算状态包括所述至少一个计算节点的实时信息,其中,所述实时信息包括计算节点编号、计算节点健康度和作业应用类型。
其中,所述计算节点状态向量包括计算节点编号、计算节点健康度和作业应用类型。具体地,计算节点健康度可以采用基于nodemanager的计算方式,也可以根据具体需求自行编写脚本获取。
可选地,所述当前中断时刻t对应的动作回报使用集群健康度增加的幅度来表示,具体表示如下:
rt=t+1时刻的集群健康度-t时刻的集群健康度。
其中,所述预期未来收益值Q用于表示所有作业完成时集群健康度的累积增加量。
其中,所述当前中断时刻t应对集群采用的优化操作为在有限的动作a中选取使得Q+r值最大的动作。
其中,所述调优动作包括重启应用、关闭进程和重启节点。
以下为基于Q-Learning的强化学习中的参数定义以及获取方式:
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;
所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;
所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。
2.根据权利要求1所述的系统,其特征在于,所述当前集群的运算状态包括所述至少一个计算节点的实时信息,其中,所述实时信息包括计算节点编号、计算节点健康度和作业应用类型。
3.根据权利要求2所述的系统,其特征在于,所述计算节点状态向量包括计算节点编号、计算节点健康度和作业应用类型。
4.根据权利要求1所述的系统,其特征在于,所述当前中断时刻t对应的动作回报使用集群健康度增加的幅度来表示,具体表示如下:
rt=t+1时刻的集群健康度-t时刻的集群健康度。
5.根据权利要求1所述的系统,其特征在于,所述预期未来收益值Q用于表示所有作业完成时集群健康度的累积增加量。
6.根据权利要求1所述的系统,其特征在于,所述当前中断时刻t应对集群采用的优化操作为在有限的动作a中选取使得Q+r值最大的动作。
7.根据权利要求1所述的系统,其特征在于,所述调优动作包括重启应用、关闭进程和重启节点。
CN201810658015.5A 2018-06-25 2018-06-25 基于强化学习的集群调度系统 Pending CN108874545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810658015.5A CN108874545A (zh) 2018-06-25 2018-06-25 基于强化学习的集群调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810658015.5A CN108874545A (zh) 2018-06-25 2018-06-25 基于强化学习的集群调度系统

Publications (1)

Publication Number Publication Date
CN108874545A true CN108874545A (zh) 2018-11-23

Family

ID=64294426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810658015.5A Pending CN108874545A (zh) 2018-06-25 2018-06-25 基于强化学习的集群调度系统

Country Status (1)

Country Link
CN (1) CN108874545A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820384A (zh) * 2010-02-05 2010-09-01 浪潮(北京)电子信息产业有限公司 一种集群服务动态分配方法及装置
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN103763747A (zh) * 2014-02-21 2014-04-30 重庆邮电大学 一种实现异构网络中动态负载均衡的方法
CN107509220A (zh) * 2017-07-04 2017-12-22 东华大学 一种基于历史强化学习的车联网负载均衡接入方法
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820384A (zh) * 2010-02-05 2010-09-01 浪潮(北京)电子信息产业有限公司 一种集群服务动态分配方法及装置
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN103763747A (zh) * 2014-02-21 2014-04-30 重庆邮电大学 一种实现异构网络中动态负载均衡的方法
CN107509220A (zh) * 2017-07-04 2017-12-22 东华大学 一种基于历史强化学习的车联网负载均衡接入方法
CN107734035A (zh) * 2017-10-17 2018-02-23 华南理工大学 一种云计算环境下的虚拟集群自动伸缩方法

Similar Documents

Publication Publication Date Title
CN105808334B (zh) 一种基于资源重用的MapReduce短作业优化系统及方法
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109120715A (zh) 一种云环境下动态负载均衡方法
CN107168770B (zh) 一种低能耗的云数据中心工作流调度与资源供给方法
CN105975340A (zh) 一种虚拟机应用分配部署算法
Wu et al. Online user allocation in mobile edge computing environments: A decentralized reactive approach
US11698886B2 (en) Cluster instance balancing of a database system across zones
CN101013386A (zh) 基于反馈机制的网格任务调度方法
Misra et al. Multiarmed-bandit-based decentralized computation offloading in fog-enabled IoT
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
US20210004267A1 (en) Cooperative scheduling method and system for computing resource and network resource of container cloud platform
CN109005223A (zh) 物联网资源调度方法及系统、计算机可读存储介质和终端
KR101770736B1 (ko) 응용프로그램의 질의 스케쥴링을 이용한 시스템의 소모전력 절감 방법 및 그 방법을 이용하여 소모전력을 절감하는 휴대단말기
CN110099083A (zh) 一种用于服务器集群的负载均衡调度方法及装置
CN114327811A (zh) 一种任务调度方法、装置、设备及可读存储介质
Xie et al. Multi-objective optimization of data deployment and scheduling based on the minimum cost in geo-distributed cloud
Lyu et al. Dynamic pricing scheme for edge computing services: A two-layer reinforcement learning approach
Shi et al. Cost minimization algorithms for data center management
Miao et al. Efficient flow-based scheduling for geo-distributed simulation tasks in collaborative edge and cloud environments
US20230418663A1 (en) System and methods for dynamic workload migration and service utilization based on multiple constraints
CN111782627B (zh) 面向广域高性能计算环境的任务与数据协同调度方法
Garg et al. Optimal virtual machine scheduling in virtualized cloud environment using VIKOR method
CN108874545A (zh) 基于强化学习的集群调度系统
Malti et al. Multi‐objective task scheduling in cloud computing
KR102590112B1 (ko) 사물인터넷 환경에서 분산 머신 러닝 학습을 위한 코딩 및 인센티브 기반 메커니즘

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123

RJ01 Rejection of invention patent application after publication