CN102541640A - 一种集群gpu资源调度系统和方法 - Google Patents

一种集群gpu资源调度系统和方法 Download PDF

Info

Publication number
CN102541640A
CN102541640A CN201110446323XA CN201110446323A CN102541640A CN 102541640 A CN102541640 A CN 102541640A CN 201110446323X A CN201110446323X A CN 201110446323XA CN 201110446323 A CN201110446323 A CN 201110446323A CN 102541640 A CN102541640 A CN 102541640A
Authority
CN
China
Prior art keywords
gpu
task
child node
module
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110446323XA
Other languages
English (en)
Other versions
CN102541640B (zh
Inventor
汤伟宾
吴鸿伟
罗佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201110446323.XA priority Critical patent/CN102541640B/zh
Publication of CN102541640A publication Critical patent/CN102541640A/zh
Application granted granted Critical
Publication of CN102541640B publication Critical patent/CN102541640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种集群图形处理器GPU资源调度系统,该系统包括集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。本发明提供的集群GPU资源调度系统和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。

Description

一种集群GPU资源调度系统和方法
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种集群GPU资源调度系统和方法。
背景技术
近年来,图形处理器(Graphic Processing Unit,GPU)在硬件架构上已取得持续的高速发展,已经演变为拥有强大的计算能力的高度并行、多线程及多处理核心的处理器,它采用不同于中央处理器(Central Processing Unit,CPU)的单指令多线程(Single Instruction Multiple Thread,SIMT)体系结构,增加了编程的灵活性。GPU专用于解决可表示为数据并行计算的问题,即绝大部分数据元素具有相同的数据路径,而具有极高的计算密度(数学运算与存储器运算的比率),这样可隐藏存储器访问延迟。凭借其强大的计算能力,GPU并行技术对传统的CPU应用发起了强有力的冲击,其已被广泛运用于视频转码、物理模拟、地球表层测绘以及网络安全等热门研究领域。
如何充分利用GPU的并行计算能力来解决复杂运算的问题,已经成为当今GPU技术的研究热点之一。然而在实际应用中,单个GPU往往无法承载复杂的计算任务,因此需要将多个GPU组成一个GPU集群,以完成复杂的计算任务,现有技术中通常采用基于单主机多GPU卡的调度方式对资源进行调度以完成复杂的计算任务,但是该方式存在计算能力有限且扩展性差等缺点。
此外,GPU在执行任务时,其使用权是不可剥夺不可抢占的,因此如何高效地调度GPU资源,以充分发挥其并行计算能力,是目前各种高性能计算应用中迫切需要解决的问题。
发明内容
有鉴于此,本发明提供一种集群GPU资源调度系统和方法,用以解决现有的单个GPU无法承载复杂计算任务,且现有的集群GPU资源调度方式效率不高、且集群中的GPU卡无法即插即用的问题。本发明提供的集群GPU资源调度系统和方法能够实现GPU资源的充分利用,使多个计算任务并行执行,此外,还能够实现集群中各子节点GPU的即插即用。
本发明提供的一种集群图形处理器GPU资源调度系统,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。
所述GPU主节点包括:任务接收模块,用于负责接收用户输入的任务;任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;资源回收模块,用于根据结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给GPU资源调度模块。
所述GPU子节点包括:子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节;心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号。
本发明提供的一种集群图形处理器GPU资源调度方法,包括以下步骤:
步骤1:GPU主节点接收用户输入的任务;
步骤2:所述GPU主节点将接受的用户输入的任务划分为若干个子任务;
步骤3:GPU主节点将所述若干个子任务分配到若干个GPU子节点上;
步骤4:各GPU子节点执行各自的子任务;
步骤5:各GPU子节点向所述GPU主节点返回子任务的计算结果;
步骤6:所述GPU主节点处理子任务计算结果,向用户返回完整任务计算结果;
步骤7:所述GPU主节点收回已完成任务的GPU子节点资源;
步骤8:GPU主节点执行或等待下一任务。
上述集群GPU资源调度方法还包括步骤:所述GPU子节点定时向所述GPU主节点发送包含GPU子节点的ID号、计算能力及及执行的任务信息的心跳信号。
上述方法中,所述步骤1执行之前,还包括所述GPU主节点的初始化步骤,包括:步骤A:初始化所述GPU主节点的任务接收模块;步骤B:初始化所述GPU主节点的任务划分模块;步骤C:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务;步骤D:初始化所述GPU主节点的GPU资源调度模块;步骤E:初始化所述GPU主节点的结果处理模块、资源回收模块和心跳处理模块。
上述方法中,所述步骤1执行之前,还包括所述GPU子节点的初始化步骤,包括:初始化子任务接收模块、心跳发送模块和结果返回模块;所述GPU子节点采集自身的ID号、计算能力及及执行的任务信息,作为心跳信号发送给所述GPU主节点;所述GPU子节点等待所述GPU主节点的调度。
上述方法中,所述步骤3包括:
步骤3.1:所述GPU主节点根据所述GPU子节点的计算能力对GPU子节点资源进行归类;
步骤3.2:所述GPU主节点记录每个GPU子节点的ID号、计算能力、任务的名称和状态;
步骤3.3:所述GPU主节点为不同优先级的任务指定对应计算能力的GPU子节点;
步骤3.4:所述GPU主节点以公平调度的方式调度上一步骤中所选取的GPU子节点。
上述方法中,所述步骤4包括:
步骤4.1:GPU子节点接收子任务;
步骤4.2:GPU子节点根据收到的子任务为本地GPU的每个流处理器分配子任务细块;
步骤4.3:设置所述各流处理器的执行参数;
步骤4.4:所述各流处理器并行执行各自被分配到的子任务细块。
本发明提供的集群GPU资源调度方法将所有GPU资源组成一个集群,由主节点统一调度多个子节点的GPU,各级子节点对任务进行层层划分,充分利用了GPU资源的并行计算能力,能够完成大型的复杂任务的快速并行处理,本发明提供的集群GPU资源调度系统不仅能够高性能地实现多个计算任务的并行执行,而且系统中的GPU子节点可以随意拔插。本发明提供的方案特别适合处理高复杂度的计算任务,尤其是集群GPU资源调度的应用场合。
附图说明
图1是本发明实施例提供的一种集群GPU资源调度系统结构示意图;
图2是本发明实施例提供的GPU主节点初始化流程图;
图3是本发明实施例提供的GPU子节点初始化流程图;
图4是本发明实施例提供的一种集群GPU资源调度方法流程图;
图5是为任务划分示意图;
图6是图4所示步骤S43的详细流程图;
图7是图4所示步骤S44的详细流程图。
具体实施方式
为解决现有技术中的问题,本发明实施例提供一种集群GPU资源调度系统和方法,本发明提供的方案将所有GPU资源组成一个集群,由主节点统一调度集群中的各个子节点,各子节点只需设置唯一的ID编号及计算能力,并将自身信息发送给主节点,主节点根据收到的各字节点的信息对其进行GPU资源归类;对于输入的任务,主节点将该任务进行基本划分后分配到各个子节点上,各被调度的子节点将子任务进一步划分成细块以匹配GPU的并行计算模式。
以下结合附图,具体说明本发明实施例。
图1为本发明实施例提供的一种集群GPU资源调度系统结构示意图,该系统包括:集群初始化模块1、集群主控模块2以及若干个GPU子节点3。其中,集群初始化模块1用于对集群中的集群主控模块2以及若干个GPU子节点3进行初始化,负责集群主控模块2和子节点3的任务准备。集群主控模块2为集群中预先指定的GPU主节点,用于接收用户输入的任务,并将该任务划分为若干个子任务,并通过调度各GPU子节点3,将若干个子任务分配到多个GPU子节点3上。每个GPU子节点3用于执行子任务并向集群主控模块2返回任务执行结果。
以下为方便说明,将集群主控模块2统称为GPU主节点。
如图1中所示,GPU主节点(集群主控模块2)包括:任务接收模块4、任务划分模块5、GPU资源调度模块6、结果处理模块7、资源回收模块8和心跳处理模块9。其中,任务接收模块4用于负责接收用户输入的任务。任务划分模块5用于将任务接收模块4提供的用户输入的任务划分为一系列的子任务,确保各个子节点接收的子任务负载均衡,并将划分好的子任务提供给GPU资源调度模块6。GPU资源调度模块6用于根据心跳处理模块9提供的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,根据GPU子节点资源归类结果和任务划分模块5提供的子任务的优先级,为各子任务指定对应计算能力的GPU子节点,并以公平调度的方式调度为各子任务所选取的GPU子节点,完成子任务在GPU子节点上的分发。结果处理模块7用于接收处理各子节点返回的任务计算结果。资源回收模块8用于根据结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源,通知GPU资源调度模块6已回收的GPU子节点资源,使已回收的GPU子节点资源加入GPU资源调度模块6可调度的资源池中等待调度。心跳处理模块9用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给GPU资源调度模块6。
如图1中所示,每个子节点3包括:子任务接收模块10、子任务执行模块11、结果返回模块12和心跳发送模块13。其中,子任务接收模块10用于接收GPU主节点的GPU资源调度模块6分配给本GPU子节点的子任务。子任务执行模块11用于对子任务接收模块10接收的子任务进一步细分,为本GPU的每个流处理器分配子任务细块,并行执行各子任务细块。结果返回模块12用于将本GPU子节点的子任务计算结果返回给GPU主节点中的结果处理模块7。心跳发送模块13用于向GPU主节点的心跳处理模块9定时发送心跳信号,以证明自己仍活跃于集群中,其中,所述心跳信号包括子节点的ID号、计算能力及执行的任务信息。
本发明实施例提供的集群GPU资源调度系统中包括多个GPU资源,由一个指定的GPU主节点统一调度若干个GPU子节点,对于输入的任务,GPU主节点先对其进行基本划分,以分配到各个GPU子节点上,而GPU子节点上执行的子任务会被进一步划分成细块,以匹配GPU的并行计算模式,这种GPU资源调度系统能够进行高复杂度的高性能计算。
本发明实施例还提供一种采用上述集群GPU调度系统的集群GPU资源调度方法,需要预先初始化主节点和子节点,具体如图2和图3所示,以下分别进行说明。
图2是本发明实施例提供的GPU主节点初始化流程图,包括以下步骤:
S21:初始化任务接收模块。其中包括任务接收模块中的任务队列清理、内存分配、服务侦听等工作。
S22:初始化任务划分模块。其中包括任务划分模块的内存分配及数据清零等工作。
S23:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务。其中,所述优先级任务队列存储的是未处理的任务,并按优先级排序,则一旦集群中有空闲GPU资源,就可优先执行队列中优先级最高的任务。当GPU主节点初始化结束后,一旦有新的任务来临,新的任务也按照任务的优先级加载到所述任务优先级队列中。
S24:初始化GPU资源调度模块。其中,资源调度模块根据收到的子节点心跳信息更新自身所存储的集群各个GPU子节点的状态信息,所述GPU子节点的状态信息包括子GPU子节点的ID号和计算能力等信息。此外,资源调度模块根据GPU子节点的计算能力对当前集群中的GPU子节点进行资源归类。
S25:初始化辅助模块。所述辅助模块包括GPU主节点中的结果处理模块、资源回收模块和心跳处理模块,此步骤包括:初始化结果处理模块、资源回收模块和心跳处理模块,完成各模块的内存分配及数据清零等工作;
图2所示的GPU主节点初始化完成后,GPU主节点开始执行任务优先级队列中的任务,并等待新任务。具体的任务执行过程在下文中进行描述。
图3是本发明实施例提供的GPU子节点初始化流程图,包括以下步骤:
S31:初始化子任务接收模块、心跳发送模块和结果返回模块。此步骤中主要完成各相应模块的内存分配及数据清零等工作;
S32:采集GPU子节点自身的ID号及计算能力信息,作为心跳信号发送给GPU主节点,通知主节点做子节点资源的状态信息更新;
S33:GPU子节点等待GPU主节点的调度。
本发明实施例提供的一种集群GPU资源调度方法流程图如图4所示,当集群中的GPU主节点和GPU子节点都已初始化完成后,集群GPU资源调度步骤包括:
S41:GPU主节点接收用户输入的任务。
S42:GPU主节点将接收的用户输入的任务划分为一序列子任务。此步骤是通过GPU主节点的任务划分模块将用户输入的任务划分为一序列子任务,以便这一序列子任务能够在多个GPU子节点上并行执行,确保GPU资源的公平调度及充分利用。图5所示为任务划分示意图,图5中,GPU主节点将当前任务划分成3个子任务,并将3个子任务分配给子节点1、子节点3和子节点8进行处理。
S43:GPU主节点调度GPU子节点资源,将若干个子任务分配到若干个GPU子节点上。本步骤用于对GPU子节点资源进行归类,维护和管理各个GPU子节点的状态,并完成子任务在GPU子节点上的分发,主要包括:(1)资源归类:根据GPU子节点的计算能力对GPU子节点资源进行归类,即:将不同计算能力的GPU子节点资源会被归为不同类别,并将不同类别的子节点资源信息存储于资源调度模块的可调度的资源池中,从而GPU主节点在调度子节点时可实现对不同优先级任务的区分调度;(2)资源维护,记录每个子节点的ID号、计算能力、任务的名称和状态;(3)优先级调度:为不同优先级的任务指定对应计算能力的GPU子节点资源;(4)按公平调度方式调度上一步骤(3)中所选取的GPU子节点资源,即:将与当前任务的子任务分发到上一步骤(3)中所选取的与当前任务的优先级相对应的若干个GPU子节点上,确保各个资源能被充分利用,实现负载均衡。
S44:各GPU子节点配置各自的并行运行参数,并执行各自的子任务。
S45:任务执行完毕,GPU子节点向GPU主节点返回子任务的计算结果;
S46:GPU主节点处理计算结果。此步骤中主节点收集各个子节点的子任务计算结果,并将所有子任务组合成一个完整的任务计算结果返回给用户。
S47:GPU主节点收回已完成任务的GPU子节点资源,并将其加入可调度的资源池中等待调度。此步骤中,对已收回的GPU子节点资源再次进行资源归类,将收回的GPU子节点资源加入可调度的资源池中等待调度。
S48:GPU主节点执行或等待下一任务。此处所述的下一任务是指优先级高于任务优先级队列中所有任务的新任务,或者是任务优先级队列中优先级最高的任务。
图4所示集群GPU资源调度方法还包括心跳触发步骤,即:GPU子节点定时向GPU主节点发送心跳信号,以证明自己仍活跃于集群中。所述心跳信号包含子节点的ID号、计算能力以及执行的任务信息。该心跳信号能使GPU主节点实时掌控子节点的状态。
上述步骤S43的GPU资源调度流程如图6所示,包括:
S601:当前任务的子任务序列输入;此处所述的子任务序列为当前任务被GPU主节点划分所得到的一序列子任务;
S602:确定当前任务的优先级;
S603:判断当前任务的优先级是否高于任务优先级队列中其他等待的任务,若否,则跳到S604;是则跳到S605;
S604:将当前任务加入到任务优先级队列,并执行S605;
S605:判断是否有可用GPU子节点资源,如果有,则执行S608,否则执行S606;
S606:等待GPU子节点资源的释放;
S607:查询GPU子节点资源,并跳转到步骤S605;
S608:选取优先级最高的任务,为该任务的指定相应的GPU子节点资源,并维护选取的GPU子节点资源的状态;此步骤中,如果S601中到来的当前任务优先级高于任务优先级队列中其他等待的任务,则S601中到来的当前任务即为此步骤所选取的任务,如果S601中到来的当前任务优先级低于任务优先级队列中其他等待的任务,则此步骤中选取的是任务优先级队列中优先级最高的任务。
S609:按公平调度方式将当前优先级最高的任务的子任务分发给所选取的GPU子节点。
图7所示为图4的步骤S44中各GPU子节点执行各自的子任务流程图,包括以下步骤:
S71:GPU子节点接收子任务;
S72:GPU子节点再次对子任务进行细分:为GPU的每个流处理器分配子任务细块,以实现子任务细块并行计算;
S73:设置各流处理器的执行参数。主要包括:设置各流处理器分为几个块,每个块包含几个线程等执行参数。
S74:各流处理器并行执行各自被分配到的子任务细块。
综上所述,本发明提供的集群GPU资源调度方案将所有GPU资源组成一个集群,由主节点统一调度,充分利用GPU资源的并行计算能力,子节点可以随意拔插,只需设置唯一的ID编号及计算能力,再发送给主节点,主节点会把它加入对应的GPU资源归类中,各级节点对任务进行层层划分,以完成大任务的快速并行处理;本发明特别适合高复杂度的高性能计算,特别是集群GPU调度的应用场合。
上述实施例仅用来进一步说明本发明提供的一种集群GPU资源调度系统和调度方法,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种集群图形处理器GPU资源调度系统,其特征在于,包括:集群初始化模块、GPU主节点以及若干个GPU子节点;
所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化;
所述GPU主节点用于接收用户输入的任务,并将该任务划分为若干个子任务,通过调度若干个所述GPU子节点,将所述若干个子任务分配到若干个所述GPU子节点上;
所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。
2.如权利要求1所述的一种集群GPU资源调度系统,其特征在于,所述GPU主节点包括:
任务接收模块,用于负责接收用户输入的任务;
任务划分模块,用于将任务接收模块提供的用户输入的任务划分为若干个子任务,并提供给GPU资源调度模块;
GPU资源调度模块,用于根据收到的各GPU子节点的心跳信号,按计算能力对本集群中的GPU子节点资源进行归类和维护,并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点,以公平调度的方式调度为各任务所选取的GPU子节点;
结果处理模块,用于接收处理各GPU子节点返回的子任务计算结果;
资源回收模块,用于根据所述结果处理模块返回的任务执行结果,回收已完成子任务的GPU子节点资源;
心跳处理模块,用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给所述GPU资源调度模块。
3.如权利要求1所述的一种集群GPU资源调度系统,其特征在于,所述GPU子节点包括:
子任务接收模块,用于接收所述GPU主节点分配给本GPU子节点的子任务;
子任务执行模块,用于对所述子任务接收模块接收的子任务进一步细分,为本GPU子节点的每个流处理器分配子任务细块,并行执行各子任务细块;
结果返回模块,用于将本GPU子节点的子任务计算结果返回给所述GPU主节;
心跳发送模块,用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号。
4.一种集群图形处理器GPU资源调度方法,其特征在于,包括以下步骤:
步骤1:GPU主节点接收用户输入的任务;
步骤2:所述GPU主节点将用户输入的任务划分为若干个子任务;
步骤3:GPU主节点将所述若干个子任务分配到若干个GPU子节点上;
步骤4:各GPU子节点执行各自的子任务;
步骤5:各GPU子节点向所述GPU主节点返回子任务的计算结果;
步骤6:所述GPU主节点处理子任务计算结果,向用户返回完整任务计算结果;
步骤7:所述GPU主节点收回已完成任务的GPU子节点资源;
步骤8:GPU主节点执行或等待下一任务。
5.如权利要求4所述的一种集群GPU资源调度方法,其特征在于,该方法还包括:所述GPU子节点定时向所述GPU主节点发送包含GPU子节点的ID号、计算能力及执行的任务信息的心跳信号。
6.如权利要求5所述的一种集群GPU资源调度方法,其特征在于,所述步骤1执行之前,还包括所述GPU主节点的初始化步骤,包括:
步骤A:初始化所述GPU主节点的任务接收模块;
步骤B:初始化所述GPU主节点的任务划分模块;
步骤C:往任务优先级队列里面加载上次关闭前未完成或执行失败的任务;
步骤D:初始化所述GPU主节点的GPU资源调度模块;
步骤E:初始化所述GPU主节点的结果处理模块、资源回收模块和心跳处理模块。
7.如权利要求5所述的一种集群GPU资源调度方法,其特征在于,所述步骤1执行之前,还包括所述GPU子节点的初始化步骤,包括:
初始化子任务接收模块、心跳发送模块和结果返回模块;
所述GPU子节点采集自身的ID号、计算能力及及执行的任务信息,作为心跳信号发送给所述GPU主节点;
所述GPU子节点等待所述GPU主节点的调度。
8.如权利要求5至7任一项所述的一种集群GPU资源调度方法,其特征在于,所述步骤3包括:
步骤3.1:所述GPU主节点根据所述GPU子节点的计算能力对GPU子节点资源进行归类;
步骤3.2:所述GPU主节点记录每个GPU子节点的ID号、计算能力、任务的名称和状态;
步骤3.3:所述GPU主节点为不同优先级的任务指定对应计算能力的GPU子节点;
步骤3.4:所述GPU主节点以公平调度的方式调度上一步骤中所选取的GPU子节点。
9.如权利要求8所述的一种集群GPU资源调度方法,其特征在于,所述步骤4包括:
步骤4.1:GPU子节点接收子任务;
步骤4.2:GPU子节点根据收到的子任务为本地GPU的每个流处理器分配子任务细块;
步骤4.3:设置所述各流处理器的执行参数;
步骤4.4:所述各流处理器并行执行各自被分配到的子任务细块。
CN201110446323.XA 2011-12-28 2011-12-28 一种集群gpu资源调度系统和方法 Active CN102541640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110446323.XA CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110446323.XA CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度系统和方法

Publications (2)

Publication Number Publication Date
CN102541640A true CN102541640A (zh) 2012-07-04
CN102541640B CN102541640B (zh) 2014-10-29

Family

ID=46348596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110446323.XA Active CN102541640B (zh) 2011-12-28 2011-12-28 一种集群gpu资源调度系统和方法

Country Status (1)

Country Link
CN (1) CN102541640B (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866918A (zh) * 2012-07-26 2013-01-09 中国科学院信息工程研究所 面向分布式编程框架的资源管理系统
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN103268263A (zh) * 2013-05-14 2013-08-28 重庆讯美电子有限公司 一种动态调整多图形处理器负载的方法及系统
WO2014005523A1 (en) * 2012-07-05 2014-01-09 Tencent Technology (Shenzhen) Company Limited Methods for software systems and software systems using the same
CN103970611A (zh) * 2014-05-05 2014-08-06 神华集团有限责任公司 基于计算机集群的任务处理方法
CN103970854A (zh) * 2014-05-05 2014-08-06 神华集团有限责任公司 Sap ecc端与sap bw端之间增量凭证信息同步方法
CN104035818A (zh) * 2013-03-04 2014-09-10 腾讯科技(深圳)有限公司 多任务调度的方法及装置
CN104123185A (zh) * 2013-04-28 2014-10-29 中国移动通信集团公司 一种资源调度方法、装置及系统
CN104253850A (zh) * 2014-01-07 2014-12-31 深圳市华傲数据技术有限公司 一种任务分布式调度方法和系统
CN104268007A (zh) * 2014-01-07 2015-01-07 深圳市华傲数据技术有限公司 一种事件请求分布式调度方法和系统
CN104407923A (zh) * 2014-10-31 2015-03-11 百度在线网络技术(北京)有限公司 基于单节点触发的集群任务均衡方法和装置
CN104580338A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 一种业务处理方法、系统及设备
WO2015074239A1 (en) * 2013-11-22 2015-05-28 Intel Corporation Method and apparatus to improve performance of chained tasks on a graphics processing unit
CN104793996A (zh) * 2015-04-29 2015-07-22 中芯睿智(北京)微电子科技有限公司 一种并行计算设备的任务调度方法及任务调度装置
US9195521B2 (en) 2012-07-05 2015-11-24 Tencent Technology (Shenzhen) Co., Ltd. Methods for software systems and software systems using the same
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法
CN105677486A (zh) * 2016-01-08 2016-06-15 上海交通大学 数据并行处理方法及系统
CN105786523A (zh) * 2016-03-21 2016-07-20 北京信安世纪科技有限公司 数据同步系统及方法
CN105900064A (zh) * 2014-11-19 2016-08-24 华为技术有限公司 调度数据流任务的方法和装置
CN105975334A (zh) * 2016-04-25 2016-09-28 深圳市永兴元科技有限公司 任务分布式调度方法及系统
CN106095586A (zh) * 2016-06-23 2016-11-09 东软集团股份有限公司 一种任务分配方法、装置及系统
CN106155811A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 图形处理装置、资源服务装置、资源调度方法和装置
WO2016202154A1 (zh) * 2015-06-19 2016-12-22 华为技术有限公司 一种gpu资源的分配方法及系统
WO2016206564A1 (zh) * 2015-06-26 2016-12-29 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式系统
US9632761B2 (en) 2014-01-13 2017-04-25 Red Hat, Inc. Distribute workload of an application to a graphics processing unit
CN106687927A (zh) * 2014-09-12 2017-05-17 英特尔公司 促进在计算装置上的图形处理单元的命令分组的动态并行调度
CN106888400A (zh) * 2015-12-15 2017-06-23 中国电信股份有限公司 一种用于实现转码任务调度的方法和系统
CN106980533A (zh) * 2016-01-18 2017-07-25 杭州海康威视数字技术股份有限公司 基于异构处理器的任务调度方法、装置及电子设备
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理系统及方法
CN107577534A (zh) * 2017-08-31 2018-01-12 郑州云海信息技术有限公司 一种资源调度方法及装置
CN107590589A (zh) * 2017-08-25 2018-01-16 北京科技大学 基于gpu集群的城市一般建筑群震害分析的计算加速方法
CN107608786A (zh) * 2017-08-25 2018-01-19 北京科技大学 一种基于gpu和分布式计算的高层建筑群震害分析方法
CN108132840A (zh) * 2017-11-16 2018-06-08 浙江工商大学 一种分布式系统中的资源调度方法及装置
CN108196951A (zh) * 2018-01-30 2018-06-22 成都信息工程大学 Gpu流域径流模拟分布式调度系统及方法
CN108235114A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频流的内容解析方法和系统、电子设备、存储介质
CN108241532A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 Gpu资源的管理分配方法和管理分配装置
CN108874518A (zh) * 2018-05-21 2018-11-23 福建省数字福建云计算运营有限公司 一种任务调度方法及终端
CN109213593A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 用于全景视频转码的资源分配方法、装置和设备
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110347504A (zh) * 2019-06-28 2019-10-18 中国科学院空间应用工程与技术中心 众核计算资源调度方法及装置
CN110377425A (zh) * 2019-07-16 2019-10-25 浙江大华技术股份有限公司 设备中的任务执行方法、装置、存储介质及电子装置
CN110399221A (zh) * 2019-07-23 2019-11-01 江苏鼎速网络科技有限公司 数据处理方法、系统及终端设备
CN110475128A (zh) * 2019-08-02 2019-11-19 视联动力信息技术股份有限公司 一种视频转码方法、装置、电子设备和存储介质
CN110602505A (zh) * 2018-06-13 2019-12-20 贵州白山云科技股份有限公司 一种基于多gpu的视频转码方法及装置
CN110673944A (zh) * 2018-07-03 2020-01-10 杭州海康威视数字技术股份有限公司 执行任务的方法和装置
CN110716800A (zh) * 2019-10-09 2020-01-21 广州华多网络科技有限公司 任务调度方法及装置、存储介质及电子设备
CN110717853A (zh) * 2019-12-12 2020-01-21 武汉精立电子技术有限公司 一种基于嵌入式gpu的光学图像处理系统
CN110874271A (zh) * 2019-11-20 2020-03-10 山东省国土测绘院 一种海量建筑图斑特征快速计算方法及系统
CN110879707A (zh) * 2018-09-06 2020-03-13 迈普通信技术股份有限公司 编译任务执行方法及装置
GB2577029A (en) * 2017-11-06 2020-03-18 Basemark Oy Graphics engine resource management and allocation system
CN111831330A (zh) * 2020-07-10 2020-10-27 深圳致星科技有限公司 用于联邦学习的异构计算系统设备交互方案
CN112667901A (zh) * 2020-12-31 2021-04-16 中国电子信息产业集团有限公司第六研究所 一种社交媒体数据的获取方法及系统
CN113296921A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN113360186A (zh) * 2020-03-04 2021-09-07 北京希姆计算科技有限公司 任务调度方法、装置、电子设备及计算机可读存储介质
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100905A1 (en) * 1998-08-21 2010-04-22 Sequeira William J System and method for a master scheduler
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法
CN102096602A (zh) * 2009-12-15 2011-06-15 中国移动通信集团公司 一种任务调度方法及其系统和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100905A1 (en) * 1998-08-21 2010-04-22 Sequeira William J System and method for a master scheduler
CN102096602A (zh) * 2009-12-15 2011-06-15 中国移动通信集团公司 一种任务调度方法及其系统和设备
CN102073546A (zh) * 2010-12-13 2011-05-25 北京航空航天大学 一种云计算环境中分布式计算模式下的任务动态调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李海燕 等: "图形处理器的流执行模型", 《计算机工程》 *

Cited By (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014005523A1 (en) * 2012-07-05 2014-01-09 Tencent Technology (Shenzhen) Company Limited Methods for software systems and software systems using the same
US9195521B2 (en) 2012-07-05 2015-11-24 Tencent Technology (Shenzhen) Co., Ltd. Methods for software systems and software systems using the same
CN102866918B (zh) * 2012-07-26 2016-02-24 中国科学院信息工程研究所 面向分布式编程框架的资源管理系统
CN102866918A (zh) * 2012-07-26 2013-01-09 中国科学院信息工程研究所 面向分布式编程框架的资源管理系统
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN104035818A (zh) * 2013-03-04 2014-09-10 腾讯科技(深圳)有限公司 多任务调度的方法及装置
CN104123185A (zh) * 2013-04-28 2014-10-29 中国移动通信集团公司 一种资源调度方法、装置及系统
CN103268263B (zh) * 2013-05-14 2016-08-10 讯美电子科技有限公司 一种动态调整多图形处理器负载的方法及系统
CN103268263A (zh) * 2013-05-14 2013-08-28 重庆讯美电子有限公司 一种动态调整多图形处理器负载的方法及系统
US11362961B2 (en) * 2013-10-29 2022-06-14 Huawei Technologies Co., Ltd. Service processing method and system and device
US20160241486A1 (en) * 2013-10-29 2016-08-18 Huawei Technologies Co., Ltd. Service Processing Method and System and Device
CN104580338A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 一种业务处理方法、系统及设备
WO2015062492A1 (zh) * 2013-10-29 2015-05-07 华为技术有限公司 一种业务处理方法、系统及设备
CN104580338B (zh) * 2013-10-29 2018-09-07 华为技术有限公司 一种业务处理方法、系统及设备
US10805231B2 (en) * 2013-10-29 2020-10-13 Huawei Technologies Co., Ltd. Service processing method and system and device
WO2015074239A1 (en) * 2013-11-22 2015-05-28 Intel Corporation Method and apparatus to improve performance of chained tasks on a graphics processing unit
CN105683914B (zh) * 2013-11-22 2019-09-24 英特尔公司 改进图形处理单元上的链式任务的性能的方法和装置
CN105683914A (zh) * 2013-11-22 2016-06-15 英特尔公司 改进图形处理单元上的链式任务的性能的方法和装置
CN104253850A (zh) * 2014-01-07 2014-12-31 深圳市华傲数据技术有限公司 一种任务分布式调度方法和系统
CN104268007A (zh) * 2014-01-07 2015-01-07 深圳市华傲数据技术有限公司 一种事件请求分布式调度方法和系统
US9632761B2 (en) 2014-01-13 2017-04-25 Red Hat, Inc. Distribute workload of an application to a graphics processing unit
CN103970854B (zh) * 2014-05-05 2017-05-17 神华集团有限责任公司 Sap ecc端与sap bw端之间增量凭证信息同步方法
CN103970611A (zh) * 2014-05-05 2014-08-06 神华集团有限责任公司 基于计算机集群的任务处理方法
CN103970854A (zh) * 2014-05-05 2014-08-06 神华集团有限责任公司 Sap ecc端与sap bw端之间增量凭证信息同步方法
CN106687927B (zh) * 2014-09-12 2021-11-05 英特尔公司 促进在计算装置上的图形处理单元的命令分组的动态并行调度
CN106687927A (zh) * 2014-09-12 2017-05-17 英特尔公司 促进在计算装置上的图形处理单元的命令分组的动态并行调度
CN104407923A (zh) * 2014-10-31 2015-03-11 百度在线网络技术(北京)有限公司 基于单节点触发的集群任务均衡方法和装置
CN105900064B (zh) * 2014-11-19 2019-05-03 华为技术有限公司 调度数据流任务的方法和装置
CN105900064A (zh) * 2014-11-19 2016-08-24 华为技术有限公司 调度数据流任务的方法和装置
US10558498B2 (en) 2014-11-19 2020-02-11 Huawei Technologies Co., Ltd. Method for scheduling data flow task and apparatus
CN106155811A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 图形处理装置、资源服务装置、资源调度方法和装置
CN106155811B (zh) * 2015-04-28 2020-01-07 阿里巴巴集团控股有限公司 资源服务装置、资源调度方法和装置
CN104793996A (zh) * 2015-04-29 2015-07-22 中芯睿智(北京)微电子科技有限公司 一种并行计算设备的任务调度方法及任务调度装置
CN106325996A (zh) * 2015-06-19 2017-01-11 华为技术有限公司 一种gpu资源的分配方法及系统
CN106325996B (zh) * 2015-06-19 2019-11-19 华为技术有限公司 一种gpu资源的分配方法及系统
US10613902B2 (en) 2015-06-19 2020-04-07 Huawei Technologies Co., Ltd. GPU resource allocation method and system
WO2016202154A1 (zh) * 2015-06-19 2016-12-22 华为技术有限公司 一种gpu资源的分配方法及系统
US10521268B2 (en) 2015-06-26 2019-12-31 Alibaba Group Holding Limited Job scheduling method, device, and distributed system
WO2016206564A1 (zh) * 2015-06-26 2016-12-29 阿里巴巴集团控股有限公司 作业调度方法、装置及分布式系统
CN105245617A (zh) * 2015-10-27 2016-01-13 江苏电力信息技术有限公司 一种基于容器的服务器资源供给方法
CN106888400A (zh) * 2015-12-15 2017-06-23 中国电信股份有限公司 一种用于实现转码任务调度的方法和系统
CN106888400B (zh) * 2015-12-15 2019-05-10 中国电信股份有限公司 一种用于实现转码任务调度的方法和系统
CN105677486B (zh) * 2016-01-08 2019-03-22 上海交通大学 数据并行处理方法及系统
CN105677486A (zh) * 2016-01-08 2016-06-15 上海交通大学 数据并行处理方法及系统
CN106980533A (zh) * 2016-01-18 2017-07-25 杭州海康威视数字技术股份有限公司 基于异构处理器的任务调度方法、装置及电子设备
CN105786523A (zh) * 2016-03-21 2016-07-20 北京信安世纪科技有限公司 数据同步系统及方法
CN105786523B (zh) * 2016-03-21 2019-01-11 北京信安世纪科技股份有限公司 数据同步系统及方法
CN105975334A (zh) * 2016-04-25 2016-09-28 深圳市永兴元科技有限公司 任务分布式调度方法及系统
CN106095586A (zh) * 2016-06-23 2016-11-09 东软集团股份有限公司 一种任务分配方法、装置及系统
CN108241532A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 Gpu资源的管理分配方法和管理分配装置
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理系统及方法
CN109213593A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 用于全景视频转码的资源分配方法、装置和设备
CN107608786A (zh) * 2017-08-25 2018-01-19 北京科技大学 一种基于gpu和分布式计算的高层建筑群震害分析方法
CN107590589A (zh) * 2017-08-25 2018-01-16 北京科技大学 基于gpu集群的城市一般建筑群震害分析的计算加速方法
CN107577534A (zh) * 2017-08-31 2018-01-12 郑州云海信息技术有限公司 一种资源调度方法及装置
CN108235114A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频流的内容解析方法和系统、电子设备、存储介质
GB2577029B (en) * 2017-11-06 2020-12-30 Basemark Oy Graphics engine resource management and allocation system
GB2577029A (en) * 2017-11-06 2020-03-18 Basemark Oy Graphics engine resource management and allocation system
CN108132840A (zh) * 2017-11-16 2018-06-08 浙江工商大学 一种分布式系统中的资源调度方法及装置
CN108196951A (zh) * 2018-01-30 2018-06-22 成都信息工程大学 Gpu流域径流模拟分布式调度系统及方法
CN108874518A (zh) * 2018-05-21 2018-11-23 福建省数字福建云计算运营有限公司 一种任务调度方法及终端
CN110602505A (zh) * 2018-06-13 2019-12-20 贵州白山云科技股份有限公司 一种基于多gpu的视频转码方法及装置
CN110673944A (zh) * 2018-07-03 2020-01-10 杭州海康威视数字技术股份有限公司 执行任务的方法和装置
CN110879707A (zh) * 2018-09-06 2020-03-13 迈普通信技术股份有限公司 编译任务执行方法及装置
CN110879707B (zh) * 2018-09-06 2022-10-14 迈普通信技术股份有限公司 编译任务执行方法及装置
CN109828833A (zh) * 2018-11-02 2019-05-31 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN109828833B (zh) * 2018-11-02 2020-09-29 上海帆一尚行科技有限公司 一种神经网络训练任务的排队系统及其方法
CN110347504A (zh) * 2019-06-28 2019-10-18 中国科学院空间应用工程与技术中心 众核计算资源调度方法及装置
CN110377425A (zh) * 2019-07-16 2019-10-25 浙江大华技术股份有限公司 设备中的任务执行方法、装置、存储介质及电子装置
CN110399221A (zh) * 2019-07-23 2019-11-01 江苏鼎速网络科技有限公司 数据处理方法、系统及终端设备
CN110475128B (zh) * 2019-08-02 2021-09-28 视联动力信息技术股份有限公司 一种视频转码方法、装置、电子设备和存储介质
CN110475128A (zh) * 2019-08-02 2019-11-19 视联动力信息技术股份有限公司 一种视频转码方法、装置、电子设备和存储介质
CN110716800A (zh) * 2019-10-09 2020-01-21 广州华多网络科技有限公司 任务调度方法及装置、存储介质及电子设备
CN110716800B (zh) * 2019-10-09 2021-07-09 广州华多网络科技有限公司 任务调度方法及装置、存储介质及电子设备
CN110874271A (zh) * 2019-11-20 2020-03-10 山东省国土测绘院 一种海量建筑图斑特征快速计算方法及系统
CN110717853A (zh) * 2019-12-12 2020-01-21 武汉精立电子技术有限公司 一种基于嵌入式gpu的光学图像处理系统
CN113360186A (zh) * 2020-03-04 2021-09-07 北京希姆计算科技有限公司 任务调度方法、装置、电子设备及计算机可读存储介质
CN113296921A (zh) * 2020-04-07 2021-08-24 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN113296921B (zh) * 2020-04-07 2022-05-27 阿里巴巴集团控股有限公司 云资源调度方法、节点、系统及存储介质
CN111831330A (zh) * 2020-07-10 2020-10-27 深圳致星科技有限公司 用于联邦学习的异构计算系统设备交互方案
CN112667901A (zh) * 2020-12-31 2021-04-16 中国电子信息产业集团有限公司第六研究所 一种社交媒体数据的获取方法及系统
CN112667901B (zh) * 2020-12-31 2024-04-26 中国电子信息产业集团有限公司第六研究所 一种社交媒体数据的获取方法及系统
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102541640B (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN102541640B (zh) 一种集群gpu资源调度系统和方法
Kaur et al. Container-as-a-service at the edge: Trade-off between energy efficiency and service availability at fog nano data centers
CN112465129B (zh) 片内异构人工智能处理器
US11782870B2 (en) Configurable heterogeneous AI processor with distributed task queues allowing parallel task execution
CN103309738B (zh) 用户作业调度方法及装置
Tao et al. Dynamic resource allocation algorithm for container-based service computing
CN104331321B (zh) 基于禁忌搜索和负载均衡的云计算任务调度方法
CN107404523A (zh) 云平台自适应资源调度系统和方法
Bansal et al. Dynamic task-scheduling in grid computing using prioritized round robin algorithm
CN103279390A (zh) 一种面向小作业优化的并行处理系统
CN104123182A (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
Tantalaki et al. Pipeline-based linear scheduling of big data streams in the cloud
CN114996018A (zh) 面向异构计算的资源调度方法、节点、系统、设备及介质
CN111694675B (zh) 任务调度方法及装置、存储介质
Fan et al. Agent-based service migration framework in hybrid cloud
CN107329822B (zh) 面向多源多核系统的基于超任务网的多核调度方法
CN110231986A (zh) 基于多fpga的动态可重配置的多任务调度和放置方法
CN104239555A (zh) 基于mpp的并行数据挖掘架构及其方法
CN111858027A (zh) 一种软件机器人协同处理方法及系统
Qureshi Cpu scheduling algorithms: A survey
CN105677467A (zh) 基于量化标签的Yarn资源调度器
Henzinger et al. Scheduling large jobs by abstraction refinement
Wang et al. Communication contention aware scheduling of multiple deep learning training jobs
Liu et al. KubFBS: A fine‐grained and balance‐aware scheduling system for deep learning tasks based on kubernetes
CN102193831A (zh) 一种建立层次化的映射/归约并行编程模型的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120704

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000042

Denomination of invention: A Cluster GPU Resource Scheduling System and Method

Granted publication date: 20141029

License type: Common License

Record date: 20230301

EE01 Entry into force of recordation of patent licensing contract