CN102521050A - 一种面向cpu和gpu的混合调度方法 - Google Patents

一种面向cpu和gpu的混合调度方法 Download PDF

Info

Publication number
CN102521050A
CN102521050A CN2011103973589A CN201110397358A CN102521050A CN 102521050 A CN102521050 A CN 102521050A CN 2011103973589 A CN2011103973589 A CN 2011103973589A CN 201110397358 A CN201110397358 A CN 201110397358A CN 102521050 A CN102521050 A CN 102521050A
Authority
CN
China
Prior art keywords
scheduling
gpu
job
information
scheduler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103973589A
Other languages
English (en)
Inventor
张涛
李媛
梁晓湛
温鑫
赵欢
孙国忠
邵宗有
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN2011103973589A priority Critical patent/CN102521050A/zh
Publication of CN102521050A publication Critical patent/CN102521050A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供了一种面向CPU和GPU的混合调度方法,S1,调度器初始化时读取调度策略配置、优先级配置参数;S2,调度器在每个调度循环中读取作业调度系统中的信息;S3,调度器根据作业资源请求信息和调度策略进行优先级计算,确定每个作业的优先级并降序排列;S4,根据S3中得到的排列顺序,按照调度策略进行作业调度。S5,根据S4的调度结果向调度系统发送作业启动请求;S6,休眠一段时间,然后返回S2进行下一个循环。本发明通过可定制的权重来设置GPU和非GPU作业的相对关系;在调度时判定GPU资源情况,达到GPU作业的准确调度。

Description

一种面向CPU和GPU的混合调度方法
技术领域
本发明涉及高性能计算中的作业调度,特别涉及一种面向CPU和GPU的混合调度方法。
背景技术
近年来,随着GPU设备的普及和应用向GPU的迁移,越来越多的高性能计算集群开始使用GPU设备来支持GPU大型应用。这对于传统的作业调度系统提出了新的需求。传统的作业调度系统管理的资源多是操作系统资源(如节点、内存、CPU等),并没有将GPU作为一种可用资源在调度系统中描述出来并参与调度决策,所以往往存在两个方面的问题:一是GPU资源和GPU资源请求如何描述;二是GPU应用如何与传统的并行应用(MPI、OpenMP、PThread)并存,保证系统资源的合理利用。
发明内容
针对上问题,本专利提出了一种基于通用资源描述和调度的面向GPU和CPU的混合调度方法。该方法,首先是通过通用资源描述的方式将资源作为节点属性添加进去,然后通过作业调度的扩展提交参数指定GPU的资源请求,最后在调度策略中将GPU资源作为调度依据之一,完成GPU作业和CPU作业的准确和优化调度。
一种面向CPU和GPU的混合调度方法,
S1,调度器初始化时读取调度策略配置、优先级配置参数;
S2,调度器在每个调度循环中读取作业调度系统中的信息;
S3,调度器根据作业资源请求信息和调度策略进行优先级计算,确定每个作业的优先级并降序排列;
S4,根据S3中得到的排列顺序,按照调度策略进行作业调度。
S5,根据S4的调度结果向调度系统发送作业启动请求;
S6,休眠一段时间,然后返回S2进行下一个循环。
优选的,所述调度器读取的信息包括作业状态信息、资源请求信息、节点状态信息、节点配置信息、队列配置信息、队列状态信息。
优选的,所述优先级的计算时,添加GPU权重参数参数,该参数取值可以是正数也可以是负数,将GPU权重*GPU请求数作为优先级的组成部分。
优选的,所述优先级计算时,通过调高或者调低GPU权重的方式来提前或者延后GPU作业的调度和运行。
优选的,所述作业调度策略如下:
a)检查用户和队列的资源限额设置,确认当前作业能否参与调度,如果运行后会导致资源使用量超过限额,则执行b);否则,执行c);
b)为当前作业创建一个作业预约,跳到g);
c)过滤出可以运行当前作业的节点列表,需要满足的条件包括CPU数、内存数、GPU数;
d)根据c)的结果判定当前剩余资源能否满足当前作业运行条件,如果资源不足,则为该作业创建预约,跳到g);
e)根据节点分配策略,从c)的复合条件的节点列表中获取运行本作业的节点列表;
f)调度器向调度系统发送作业启动的请求,本作业调度结束;
g)继续处理下一个作业。
本发明通过可定制的权重来设置GPU和非GPU作业的相对关系;在调度时判定GPU资源情况,达到GPU作业的准确调度。
附图说明
具体实施方式
本发明的目的是解决在GPU/CPU异构集群环境下的GPU/CPU作业的优化调度问题。
(1)首先,调度器初始化时读取调度策略配置、优先级配置等参数;
(2)其次,调度器在每个调度循环中作业调度系统中的各类信息,包括作业信息(如作业状态信息、资源请求信息)、节点信息(如节点状态信息、节点配置信息)、队列信息(如队列配置信息、队列状态信息)等。
(3)再次,调度器根据作业资源请求信息和调度策略进行优先级计算,确定每个作业的优先级并降序排列;
在优先级配置参数中,添加GPU权重参数(GPUWEIGHT)参数,该参数取值可以是正数也可以是负数。这样的话,作业优先级计算时,会将(GPU权重*GPU请求数)作为优先级的组成部分。这样,优先级计算时可以通过调高或者调低GPU权重的方式来提前或者延后GPU作业的调度和运行。
(4)然后,根据步骤(3)中得到的排列顺序,按照调度策略进行作业调度。
作业调度判定的基本步骤如下:
h)检查用户和队列的资源限额设置,确认当前作业能否参与调度。如果运行后会导致资源使用量超过限额,则执行b);否则,执行c);
i)为当前作业创建一个作业预约,跳到g);
j)过滤出可以运行当前作业的节点列表,需要满足的条件包括CPU数、内存数、GPU数。
k)根据c)的结果判定当前剩余资源能否满足当前作业运行条件。如果资源不足,则为该作业创建预约,跳到g);
l)根据节点分配策略,从c)的复合条件的节点列表中获取运行本作业的节点列表;
m)调度器向调度系统发送作业启动的请求,本作业调度结束;
n)继续处理下一个作业。
(5)最后,根据步骤4)的调度结果向调度系统发送作业启动请求;
(6)休眠一段时间,然后返回(2)进行下一个循环。

Claims (5)

1.一种面向CPU和GPU的混合调度方法,其特征在于:
S1,调度器初始化时读取调度策略配置、优先级配置参数;
S2,调度器在每个调度循环中读取作业调度系统中的信息;
S3,调度器根据作业资源请求信息和调度策略进行优先级计算,确定每个作业的优先级并降序排列;
S4,根据S3中得到的排列顺序,按照调度策略进行作业调度。
S5,根据S4的调度结果向调度系统发送作业启动请求;
S6,休眠一段时间,然后返回S2进行下一个循环。
2.如权利要求1所述的方法,其特征在于:所述调度器读取的信息包括作业状态信息、资源请求信息、节点状态信息、节点配置信息、队列配置信息、队列状态信息。
3.如权利要求1所述的方法,其特征在于:所述优先级的计算时,添加GPU权重参数参数,该参数取值可以是正数也可以是负数,将GPU权重*GPU请求数作为优先级的组成部分。
4.如权利要求1或3所述的方法,其特征在于:所述优先级计算时,通过调高或者调低GPU权重的方式来提前或者延后GPU作业的调度和运行。
5.如权利要求1所述的方法,其特征在于:所述作业调度策略如下:
a)检查用户和队列的资源限额设置,确认当前作业能否参与调度,如果运行后会导致资源使用量超过限额,则执行b);否则,执行c);
b)为当前作业创建一个作业预约,跳到g);
c)过滤出可以运行当前作业的节点列表,需要满足的条件包括CPU数、内存数、GPU数;
d)根据c)的结果判定当前剩余资源能否满足当前作业运行条件,如果资源不足,则为该作业创建预约,跳到g);
e)根据节点分配策略,从c)的复合条件的节点列表中获取运行本作业的节点列表;
f)调度器向调度系统发送作业启动的请求,本作业调度结束;
g)继续处理下一个作业。
CN2011103973589A 2011-12-02 2011-12-02 一种面向cpu和gpu的混合调度方法 Pending CN102521050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103973589A CN102521050A (zh) 2011-12-02 2011-12-02 一种面向cpu和gpu的混合调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103973589A CN102521050A (zh) 2011-12-02 2011-12-02 一种面向cpu和gpu的混合调度方法

Publications (1)

Publication Number Publication Date
CN102521050A true CN102521050A (zh) 2012-06-27

Family

ID=46291985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103973589A Pending CN102521050A (zh) 2011-12-02 2011-12-02 一种面向cpu和gpu的混合调度方法

Country Status (1)

Country Link
CN (1) CN102521050A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014134912A1 (zh) * 2013-03-07 2014-09-12 华为技术有限公司 一种绘图方法、装置及终端
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN102929720B (zh) * 2012-09-24 2017-06-23 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN108292238A (zh) * 2015-12-18 2018-07-17 想象技术有限公司 控制gpu的调度
CN108874518A (zh) * 2018-05-21 2018-11-23 福建省数字福建云计算运营有限公司 一种任务调度方法及终端
CN109729113A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 管理专用处理资源的方法、服务器系统和计算机程序产品
CN110389763A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于调度专用处理资源的方法、设备和计算机可读介质
CN110532071A (zh) * 2019-07-12 2019-12-03 上海大学 一种基于gpu的多应用调度系统和方法
CN114640681A (zh) * 2022-03-10 2022-06-17 京东科技信息技术有限公司 一种数据处理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743534A (zh) * 2007-07-16 2010-06-16 微软公司 通过增长和收缩资源分配来进行调度
CN101802789A (zh) * 2007-04-11 2010-08-11 苹果公司 多处理器上的并行运行时执行
CN102222174A (zh) * 2011-02-22 2011-10-19 深圳华大基因科技有限公司 一种基因计算系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802789A (zh) * 2007-04-11 2010-08-11 苹果公司 多处理器上的并行运行时执行
CN101743534A (zh) * 2007-07-16 2010-06-16 微软公司 通过增长和收缩资源分配来进行调度
CN102222174A (zh) * 2011-02-22 2011-10-19 深圳华大基因科技有限公司 一种基因计算系统和方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929720B (zh) * 2012-09-24 2017-06-23 曙光信息产业(北京)有限公司 一种节能作业调度系统
WO2014134912A1 (zh) * 2013-03-07 2014-09-12 华为技术有限公司 一种绘图方法、装置及终端
US9430810B2 (en) 2013-03-07 2016-08-30 Huawei Technologies Co., Ltd. Drawing method, apparatus, and terminal
CN104778080A (zh) * 2014-01-14 2015-07-15 中兴通讯股份有限公司 基于协处理器的作业调度处理方法及装置
CN108292238A (zh) * 2015-12-18 2018-07-17 想象技术有限公司 控制gpu的调度
CN109729113A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 管理专用处理资源的方法、服务器系统和计算机程序产品
CN109729113B (zh) * 2017-10-27 2021-03-23 伊姆西Ip控股有限责任公司 管理专用处理资源的方法、服务器系统和计算机程序产品
CN110389763A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于调度专用处理资源的方法、设备和计算机可读介质
CN108874518A (zh) * 2018-05-21 2018-11-23 福建省数字福建云计算运营有限公司 一种任务调度方法及终端
CN110532071A (zh) * 2019-07-12 2019-12-03 上海大学 一种基于gpu的多应用调度系统和方法
CN110532071B (zh) * 2019-07-12 2023-06-09 上海大学 一种基于gpu的多应用调度系统和方法
CN114640681A (zh) * 2022-03-10 2022-06-17 京东科技信息技术有限公司 一种数据处理方法和系统

Similar Documents

Publication Publication Date Title
CN102521050A (zh) 一种面向cpu和gpu的混合调度方法
CN103220337B (zh) 基于自适应弹性控制的云计算资源优化配置方法
Awad et al. Enhanced particle swarm optimization for task scheduling in cloud computing environments
CN103605567B (zh) 面向实时性需求变化的云计算任务调度方法
CN104102544A (zh) 混合云环境下多QoS约束的并行任务调度成本优化方法
Verma et al. Deadline and budget distribution based cost-time optimization workflow scheduling algorithm for cloud
CN104156264B (zh) 一种基于多gpu的基带信号处理任务并行实时调度方法
CN110308967B (zh) 一种基于混合云的工作流成本-延迟最优化任务分配方法
CN105740051A (zh) 基于改进的遗传算法的云计算资源调度实现方法
CN103838621B (zh) 用于调度例行作业的方法和系统、调度节点
CN104765640B (zh) 一种智能服务调度方法
CN105320570B (zh) 资源管理方法和系统
CN105740059B (zh) 一种面向可分割任务的粒子群调度方法
CN101715003A (zh) 互操作平台的负载控制优化方法
Arabnejad et al. Multi-QoS constrained and profit-aware scheduling approach for concurrent workflows on heterogeneous systems
Xiao et al. A priority based scheduling strategy for virtual machine allocations in cloud computing environment
CN102402461A (zh) 一种基于作业规模的均衡调度方法
CN103942109A (zh) 基于多核dsp的自适应任务调度方法
CN104965762B (zh) 一种面向混合任务的调度系统
Cho et al. Scheduling parallel real-time tasks on the minimum number of processors
Du et al. Energy-efficient scheduling for best-effort interactive services to achieve high response quality
CN109871270A (zh) 调度方案生成方法及装置
Dubey et al. QoS driven task scheduling in cloud computing
Ghouma et al. Context aware resource allocation and scheduling for mobile cloud
Teng et al. Scheduling real-time workflow on MapReduce-based cloud

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120627