CN116450334A - Gpu资源调度方法 - Google Patents

Gpu资源调度方法 Download PDF

Info

Publication number
CN116450334A
CN116450334A CN202210022448.8A CN202210022448A CN116450334A CN 116450334 A CN116450334 A CN 116450334A CN 202210022448 A CN202210022448 A CN 202210022448A CN 116450334 A CN116450334 A CN 116450334A
Authority
CN
China
Prior art keywords
task
resource
task group
distributed
execution module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210022448.8A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Muxi Integrated Circuit Shanghai Co ltd
Original Assignee
Muxi Integrated Circuit Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Muxi Integrated Circuit Shanghai Co ltd filed Critical Muxi Integrated Circuit Shanghai Co ltd
Priority to CN202210022448.8A priority Critical patent/CN116450334A/zh
Publication of CN116450334A publication Critical patent/CN116450334A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3243Power saving in microcontroller unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种GPU资源调度方法,包括步骤A1、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息;步骤A2、获取当前GPU中每一执行模块的当前剩余资源信息;步骤A3、将每一待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,若存在至少一个执行模块的当前剩余资源信息与待分发任务组的资源需求信息匹配,则将该待分发任务组加入候选任务组集合;步骤A4、从所述候选任务组集合中选取优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中。本发明提高了GPU的资源利用率和计算性能。

Description

GPU资源调度方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种GPU资源调度方法。
背景技术
图形处理器(Graphics Processing Unit,简称GPU),又称显示核心、视觉处理器、显示芯片,专为计算密集型、高度并行化的计算而设计。GPU中存在多种资源,在GPU执行任务过程中,如果对任何一种资源的分配不平衡,均可能造成GPU资源的浪费,从而降低GPU资源利用率和GPU的计算性能。因此,在GPU运行过程中,需要尽可能平衡调度每种GPU资源,使得每种GPU资源尽可能处于资源平衡状态,从而使得整个GPU的运行处于资源平衡状态,进而提高GPU的资源利用率和计算性能。
但是,GPU的资源种类多,数量大,现有技术中,GPU在执行任务时,尤其是在执行复杂的计算任务时,仍然很难实现GPU资源平衡调度,通常需要花费大量的时间来分配资源,且分配结果也无法保证资源平衡,可靠性差。由此可知,如何提供一种高效可靠的GPU资源平衡调度技术,合理为多路任务组分配对应的GPU资源,提高任务处理效率,提高GPU的资源利用率和计算性能,成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种GPU资源调度方法,提高了GPU的资源利用率和计算性能。
根据本发明,提供了一种GPU资源调度方法,包括
步骤A1、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息;
步骤A2、获取当前GPU中每一执行模块的当前剩余资源信息;
步骤A3、将每一待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,若存在至少一个执行模块的当前剩余资源信息与待分发任务组的资源需求信息匹配,则将该待分发任务组加入候选任务组集合;
步骤A4、从所述候选任务组集合中选取优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种GPU资源调度方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本实施例中,通过对多路任务组并行同步匹配,能够直接将所有符合需求的任务组筛选出来,再从候选的任务分组中选择最高优先级进行分配。即便当前高优先级的任务组中所需资源数较多,当前没有满足高优先级资源的执行模块,此时,也能迅速将满足资源需求的较低优先级的任务组进行分配,避免现有技术中,高优先级无法匹配时,造成任务堵塞的情况,提高了任务分配的效率,节省了GPU的计算,节约了GPU的功耗。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为现有的多任务通道向GPU下发任务组示意图;
图2为实施例一提供的GPU资源调度方法流程图;
图3为实施例二提供的GPU资源调度方法流程图;
图4为实施例三提供的GPU资源调度方法流程图;
图5为实施例四提供的GPU最大连续资源块的获取方法流程图;
图6为实施例五提供的GPU最大连续资源块的获取方法流程图;
图7为实施例六提供的GPU最大连续资源块的获取方法流程图;
图8为实施例七提供的基于时分复用的GPU最大连续资源块的获取方法流程图;
图9为实施例八提供的GPU资源调度方法流程图;
图10为实施例九提供的GPU资源调度方法流程图;
图11为实施例十提供的GPU资源调度方法流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种GPU资源调度方法的具体实施方式及其功效,详细说明如后。
如图1所述,现有的连接GPU的上层软件向GPU分发任务的场景中,通常通过多个任务通道W1-WR向GPU分发任务,每个任务通道相互独立,可以向GPU下发不同的任务包,每个任务包中包括不同的任务组(work group,简称WG),同一个任务包对应一个相同的进程,同一任务通道可以接收不同的进程下发的任务包。每一任务组中包括m个线程束(wave),m的取值范围为1到M,M为任务组中的最大wave数,每一wave中所包含的线程数相同。
现有的GPU结构中,通常包括P个执行模块(图1中用AP表示),每个执行模块中包括Q个执行单元(图1中用PEU表示),当多路任务组下发时,需要多路任务组尽可能平衡地分发至执行模块中,具体需要为每一任务组选择一个对应的执行模块,并尽可能将一个任务组中的wave平衡地分配到所选择的执行模块的Q个执行单元中,以保证GPU资源的平衡。
现有的GPU资源调度技术中,通常会为任务组标识优先级,当GPU接收到R路任务组时,优先为第一优先级的任务组寻找能够分配的执行模块,然后将第一优先级的任务组分配至该执行模块,然后再为第二优先级的任务组寻找能够分配其的执行模块,以此类推,第一优先级的级别高于第二优先级。
但是,现有的GPU资源调度技术至少存在以下问题:首先,针对每一任务通道的每一任务组均需要进行一次资源查找匹配,且对于每一需要连续的资源来说,现有技术中采用硬件基于多个时钟周期(clock)查找,或者通过软件方式查找,查找效率很低,需要耗费大量的GPU资源。其次,当高先级无法匹配到合适的执行模块时,会造成所有任务组通道的任务组堵塞,直至执行模块释放资源满足高优先级的任务组时,才能得到缓解,这样严重影响任务分发和处理效率。针对上述技术问题,本发明提出了下述多个实施例分别予以解决。
实施例一、
一种GPU资源调度方法,如图2所示,包括
步骤A1、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息;
需要说明的是,每一任务组中携带有对各类GPU资源的需求信息,包括资源标识和对应的资源数量。直接采用现有技术通过硬件读取即可,在此不再赘述。
步骤A2、获取当前GPU中每一执行模块的当前剩余资源信息;
可以理解是,执行模块的当前剩余资源信息包括执行模块中每一资源当前对应的剩余资源数量。
步骤A3、将每一待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,若存在至少一个执行模块的当前剩余资源信息与待分发任务组的资源需求信息匹配,则将该待分发任务组加入候选任务组集合;
需要说明的是,当执行模块的每一资源的当前剩余量均大于或等于待分发任务组的对应的资源需求时,则表示匹配。
步骤A4、从所述候选任务组集合中选取优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中。
其中,每一任务组中均携带有优先级标识信息,通过读取任务组对应的优先级标识信息,就可获取对应的优先级。
本实施例中,通过对多路任务组并行同步匹配,能够直接将所有符合需求的任务组筛选出来,再从候选的任务分组中选择最高优先级进行分配。可以理解的是,即便当前高优先级的任务组中所需资源数较多,当前没有满足高优先级资源的执行模块,此时,也能迅速将满足资源需求的较低优先级的任务组进行分配,避免现有技术中,高优先级无法匹配时,造成任务堵塞的情况,提高了任务分配的效率,节省了GPU的计算,节约了GPU的功耗。
作为一种实施例,所述步骤A2中,所述剩余资源信息包括每一种第一类资源对应的最大连续剩余资源数,以及每一种第二类资源对应的最大剩余资源数,其中,所述第一类资源为执行模块中具有连续分配需求的资源,所述第二类资源为执行模块中不具有连续分配需求的资源,可以理解的是,GPU资源中包括多种类型的第一类资源,也包括多种类型的第二类资源。
例如,GPU中的资源包括分布在执行单元中的标量通用目的寄存器(ScalarGeneral Purpose Register,简称S-GPR)、向量通用目的寄存器(Vector General PurposeRegister,简称V-GPR),执行单元中可分配wave数资源,以及执行模块中,所有执行单元均能访问的存储模块(memory)等等。中S-GPR、V-GPR为具有连续分配需求的第一类资源。可分配wave数资源数量较少,且仅涉及wave标识映射,因此属于不具有连续分配需求的第二类资源。具体可以通过GPU的硬件实现的方式分别计算出每一第一类资源的连续最大资源数,或者采用软件查询读取的方式计算获取每一第一类资源的连续最大资源数。
本实施例中,不是针对每一路任务组分别寻找剩余资源进行匹配,而是将执行模块中的资源分为第一类资源和第二类资源,并且分别获取每一种第一类资源对应的最大连续剩余资源数,以及每一种第二类资源对应的最大剩余资源数,这样通过对所有执行模块中的剩余资源信息进行一次计算,即可与每一路任务组同步进行匹配。
作为一种实施例,每一任务通道设置一个对应的先入先出队列(First InputFirst Output,简称FIFO),所述任务通道按照接收到的先后顺序将接收到的任务组逐个存入所述先入先出队列,所述待分发任务组为所述任务组通道的先入先出队列中的队首任务组。
需要说明的是,通过在每一任务通道设置一个先入先出队列,能够保证每一路任务通道的任务组始终按照上层软件下发的顺序来执行,不会出现乱序。
作为一种实施例,GPU芯片通常是连续不断地对多通道任务组进行任务分发和处理的,具体的,所述步骤A4之后还包括:
步骤A5、判断当前每一任务通道对应的待分发任务组是否为空,若为空,则结束流程,否则,返回执行步骤A1。
作为一种实施例,每个执行模块中包括Q个执行单元,所述步骤A3包括:
步骤A31、将待分发任务组划分Q个wave组,获取每一wave组对应的资源需求信息,以及待分发任务组对于整个执行模块的共享资源需求信息;
步骤A32、将Q个wave组对应的资源需求信息与Q个执行单元的剩余资源信息进行匹配,将共享资源需求信息与执行模块的共享剩余资源信息进行匹配,若均匹配成功,则将该待分发任务组加入候选任务组集合。
可以理解的是,当每个wave组对应的资源需求信息小于等于对应执行单元的剩余资源信息时,当Q个wave组的共享资源需求信息小于等于执行模块的共享剩余资源信息时,匹配成功。
候选任务组集合中的最高优先级可能有一个,也可能同时出现多个,因此需要进一步设置一套处理机制,来保证多个任务通道的任务分配平衡。
作为一种实施例,所述步骤A4中,从与所述目标任务组匹配的执行模块中选取一个目标执行模块,包括:
步骤A41、若所述候选任务组集合仅包括一个优先级最高待分发任务组,则将该待分发任务组确定为所述目标任务组。
作为一种实施例,所述步骤A4中,所述从与所述目标任务组匹配的执行模块中选取一个目标执行模块,包括:
步骤A42、若所述候选任务组集合包括多个优先级最高待分发任务组,则判断多个优先级最高待分发任务组对应的任务通道中,是否存在未对该优先级标注已选标识的任务通道:
若存在,则从未标注的通道对应的待分发任务组中随机选择一个作为目标任务组,并将该任务组对应的任务组通道中,为该优先级标注已选标识;
若不存在,则从多个优先级最高待分发任务组中随机选择一个作为目标任务组,保留该任务组对应的任务组通道中对该优先级标注已选标识,并将其他任务组对应的任务组通道中对该优先级对应的已选标识清除。
通过步骤A42,可以尽可能在多次出现同一优先级的任务组同时满足资源分配需求的情况下,保证多路任务通道任务分配的平衡。
作为一种实施例,所述步骤A4中,将所述目标任务组分配至所述目标执行模块中,包括:
步骤A43、获取所述目标执行模块中每一第一类资源的起始分配地址;
步骤A44、根据起始分配地址和分配数量,将对应的第一类资源分配给所述目标任务组中对应的任务;
步骤A45、将所述对应的第二类资源分配给所述目标任务组中对应的任务。
需要说明的是,具有连续分配需求的资源也可以不连续分配,现有技术中多采用此类分配方式,但这样需要多次寻找目标放置地址,分配效率低。且在执行单元执行任务的过程中,需要多次寻址访问,信息交互负担大,执行效率低。实施例一通过获取第一类资源的最大连续剩余资源数,将目标任务分配至连续的地址空间中,无需对每一存储位置分别进行寻址,只需通过起始地址和目标数量即可实现快速分配,提高了任务分配效率,此外,在任务执行过程中,能够基于连续的地址实现快速访问执行,提高了信息交互效率,从而提高了任务执行效率。需要说明的是,后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例二、
实施例一虽然能够避免执行模块剩余资源不满足高优先级任务组的堵塞问题,但是,还有一类情况是,如果高优先级任务组的在较长一段时间内一直能够匹配到满足条件的执行模块,那么又会造成低优先级的任务组无法分配,低优先级所处的任务通道长时间处于堵塞状态,为了解决此类问题,本发明进一步提出了实施例二。
一种GPU资源调度方法,如图3所示,包括:
步骤B1、获取GPU接收的任务组包括的优先级{P1,P2,…PS},Ps为第s优先级,s的取值范围为1到S,S为任务组优先级总数;
需要说明的是,每一个任务组下发时,均携带优先级标识,基于优先级标识可以获取任务组对应的优先级信息。其中,可设置为P1,P2,…PS的优先级依次降低,S的取值范围根据具体应用需求确定,例如S的取值范围可以设置为2到8,具体的,S可以取值为4。
步骤B2、将预设的时钟周期数划分为Y个时间窗口{T1,T2,…TY},Ty为第y个时间窗口;
其中,可设置为T1,T2,…TY对应的周期数依次减少。Y的取值范围根据具体应用需求确定,例如Y的取值范围可以设置为2到8,具体的,Y可以取值为4。优选的,S的取值与Y的取值相等,Ps与Ts一一对应。
步骤B3、在GPU上设置时钟周期循环计数器,在预设的时钟周期数范围内循环计数,当所述时钟周期循环计数器的值位于Ty时间窗口内,将Ps调整为最高优先级;
优选的,当将Ps调整为最高优先级时,其余优先级按照原来的优先级顺序依次排列。
步骤B4、基于当前优先级排序,为每一任务组分配GPU资源。
通过上述方法,即可动态调整任务组的优先级排序,且为不同的优先级分配了不同的时间窗口,高优先级的时间窗口大于低优先级的时间窗口,基于此优先级调整方案得到的当前优先级排序,为每一任务组分配GPU资源。
作为一种实施例,所述步骤B4包括:
步骤B41、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息;
步骤B42、获取当前GPU中每一执行模块的当前剩余资源信息;
步骤B43、基于每一待分发任务组的资源需求信息和当前剩余资源信息构建候选任务组集合;
步骤B44、读取当前优先级排序,根据所述当前优先级排序从所述候选任务组集合中选取当前优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例二通过动态调整任务组的优先级排序,且为不同的优先级分配了不同长度的时间窗口,避免了静态优先级的情况下高优先级任务组的在较长一段时间内一直能够匹配到满足条件的执行模块,那么又会造成低优先级的任务组无法分配,低优先级所处的任务通道长时间处于堵塞状态的情况,提高了GPU的任务分发效率和资源调度效率。
实施例三、
通常情况下,一个任务组中的wave相互之间具有关联性,因此需要分配到同一个执行模块中处理,但有些情况下,一个任务组中的wave相互独立,是可以划分到不同的执行模块中的。如果遇到wave相互独立的任务组,且所需要的资源量大,多个执行模块长时间无法满足该任务组的资源需求时,会导致该任务组长时间无法分发,均处于堵塞状态,基于此类场景,本发明进一步提出了实施例三。
一种GPU资源调度方法,如图4所示,包括
步骤C1、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息,获取当前GPU中每一执行模块的当前剩余资源信息;
步骤C2、将每一待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,若当前所有待分发任务组都匹配失败,则设置匹配失败轮次计数器的值G=G+1,判断G是否超过预设的次数阈值,若超过,执行步骤C3,否则,返回执行步骤C1;
其中,预设的次数阈值根据具体应用需求来设定,例如次数阈值可以设置为256。
步骤C3、读取每一待分发任务组的独立标识信息,若存在标注独立标识的待分发任务组,则将至少一个标注独立标识的待分发任务组切分为多个子任务组。
其中,待分发任务组若标注独立标识,则表示任务组中的wave相互独立,未标注独立标识的待分发任务组,表示任务组中的wave相互关联。具体的,也可设置独立标识位,所述独立标识为“1”,表示任务组中的wave相互独立,所述独立标识为“0”,表示任务组中的wave相互关联。
独立标识可以直接由上层软件在下发任务组时,对任务组进行打标。需要说明的是,本实施例中,G超过预设的次数阈值至少可能存在两种情况,情况一、所有的任务通道对应的待分发任务组,连续G次未能找到符合资源需求的执行模块。情况二、其他任务通道的任务已经分发完毕,剩下至少一个任务通道的待分发任务组连续G次未能找到符合资源需求的执行模块。在上述情况下,如果执行单元资源释放缓慢,或者待分发任务组的资源需求过大,可能会造成多个任务通道长时间的堵塞,严重影响任务分发效率以及GPU的资源调度效率,实施例三中,对于当前堵塞的待处理任务组中存在wave相互独立的情形,通过对此类待分发任务组进行切分,能够快速缓解任务堵塞,提高任务分发效率和GPU的资源调度效率。
作为一种实施例,所述步骤C3中,若存在至少一个执行模块的当前剩余资源信息与待分发任务组的资源需求信息匹配,则将该待分发任务组加入候选任务组集合,执行步骤C4,
步骤C4、从所述候选任务组集合中选取优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中,返回执行步骤C1。
作为一种实施例,所述步骤C1之前还包括步骤C0、设置G的初始值。优选的,所述G的初始值设置为0,方便计数。
作为一种实施例,所述步骤C3中,将至少一个标注独立标识的待分发任务组切分为多个子任务组,包括:将至少一个标注独立标识的待分发任务组中的每一wave作为一个子任务组进行切分。
需要说明的是,将标注独立标识的待分发任务组中的每一wave作为一个子任务组进行切分,便于操作,执行逻辑简单,无需额外进行分组,简化处理流程,提高处理效率,且由于切分完成后,当前待分发任务组中至少一个是只包含一个wave的,大大提升资源匹配成功的概率,有效缓解任务通道堵塞。
作为一种实施例,所述步骤C3还包括:将每一子任务组的优先级设置为最低优先级。
需要说明的是,通过将每一子任务组的优先级设置为最低优先级,能够在缓解任务通道堵塞的前提下,依然保证满足资源需求的待分发任务组中,能够在未切分状态下整体满足资源需求的待分发任务组有优先分配,提高了GPU资源利用率。
作为一种实施例,所述步骤C3执行完毕后还包括:将每一子任务组依次作为对应任务通道的待处理任务组,将G设置为初始值,返回执行步骤C1。需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例三中,对于当前堵塞的待处理任务组中存在wave相互独立的情形,通过对此类待分发任务组进行切分,快速缓解了任务堵塞,提高了任务分发效率和GPU的资源调度效率。
实施例四、
现有技术中,通常通过GPU硬件实现的方式分别读取每一第一类资源的连续最大资源数,或者采用软件读取的方式获取每一第一类资源的连续最大资源数。其中,如果用软件方式查找,由于软件要考虑时间复杂度,通常需要逐位查找,且每找到一位可用资源,则需要进行记录和匹配,所需时钟周期的数量不可控,查找效率极低,而采用硬件实现方式亦只是基于多个时钟周期(clock)查找对软件方式进行实现,同样存在软件方式时钟周期数量不可控及时钟周期数量可能较大的缺陷。基于此,实施例四提出了一种GPU最大连续资源块的获取方法,包括以下步骤:
步骤D1、读取待查资源的当前资源状态序列S0={d1,d2,…dN},dn为待查资源的第n个资源块的状态标识n的取值范围为1到N,N为待查资源的资源块总数;
步骤D2、并行获取S0向预设方向移动i位的状态序列S1、S2、…SN-1,其中,Si为S0向预设方向移动i位,并将移动后的S0沿预设方向的尾部连续i位设置为已占用标识所得的序列,i的取值范围为0到N-1;其中,所述向预设方向移动i位包括左移i位或右移i位。
步骤D3、并行获取S0至Si进行按位与运算或者按位或运算的结果SAi
步骤D4、将每一SAi进行自或运算或者自与后求反运算,确定所述待查资源的当前最大连续资源块数。
其中,当前资源状态序列可以通过现有技术直接从硬件中读取。所述状态标识包括已占用标识和未占用标识,所述已占用标识为0,未占用标识为1,所述步骤D3中执行按位与运算,所述步骤D4中执行自或运算。或者,所述已占用标识为1,所述未占用标识为0,所述步骤D3中执行按位或运算,所述步骤D4中执行自与后求反运算。
需要说明的是,S0至Si进行按位与运算或者按位或运算,即先将S0与S1进行按位与运算或者按位或运算得到S0-1,然后S0-1在与S2进行按位与运算或者按位或运算,得到S0-2,S0-2再与S3进行按位与运算或者按位或运算,得到S0-3,依次执行下去,直至将S0-(i-1)与Si进行按位与运算或者按位或运算,得到S0-i,即为所述SAi。例如,两个序列进行按位与运算,是将两个序列相同位置上的数值进行与运算,将运算结果作为该位置上的数值,最后得到一个新的序列。例如,序列0 0 1 0 0 1和序列1 0 1 1 0 1进行按位与运算,得到的结果为00 1 0 0 1,本领域技术人员知晓,其他按位或运算以及自与后求反运算与此逻辑类似,在此不再一一列举。作为一种实施例,所述步骤D4包括:
步骤D41、将每一SAi进行自或运算或者自与后求反运算,得到SARi
步骤D42、基于所有的SARi生成第一待测序列{SAR0,SAR1,…SARN-1};
步骤D43、基于{SAR0,SAR1,…SARN-1}确定所述待查资源的当前最大连续资源块数。
可以理解的是,将每一SAi进行自或运算或者自与后求反运算,得到的SARi值为0或1。
作为一种实施例,所述步骤D2、步骤D3、步骤D4在同一个时钟周期内执行,分别设置一套对应的硬件单元执行所述步骤D2、步骤D3、步骤D4,在一个周期内能提高任务分发和资源调度效率,在GPU芯片运行频率要求不高时,有利于减小GPU芯片面积,减小功耗。本实施例中,所述步骤D2、步骤D3、步骤D4在同一个时钟周期内执行,即所述步骤D2、步骤D3、步骤D4在同一个时钟周期内传递信息,所以硬件单元可以采用组合逻辑实现,组合逻辑技术的具体实现方式为现有实现方式,在此不再展开描述。
作为一种实施例,所述步骤D2、步骤D3、步骤D4还可分别占用一个预设的时钟周期串行执行,所述步骤D2、步骤D3、步骤D4分别设置一套硬件单元,有利于提升GPU芯片运行频率和执行性能。本实施例中,步骤D2、步骤D3、步骤D4具体可以在连续三个时钟周期传递信息,传递信息的方式可以采用寄存器的方式实现,采用寄存器实现的技术细节为现有技术,在此不再展开描述。
作为一种实施例,所述已占用标识为0,未占用标识为1,所述步骤D3中执行按位与运算,所述步骤D4中执行自或运算。或者,所述已占用标识为1,所述未占用标识为0,所述步骤D3中执行按位或运算,所述步骤D4中执行自与后求反运算。可以理解的是,预设方向、占用标识为、未占用标识确定后,后续配置的第一映射表也是基于该配置而设置的。
作为一种实施例,所述步骤D43包括:
步骤D431、将{SAR0,SAR1,…SARN-1}与预先配置的第一映射表进行对比,输出所述待查资源的当前最大连续资源块数,所述第一映射表用于存储第一待测序列和最大连续资源块数的映射关系。
作为一种实施例,所述步骤D43包括:
步骤D432、在{SAR0,SAR1,…SARN-1}中从SARN-1开始往前读取,确定出现第一个等于1的SARi的i值,记作i’;
步骤D433、将i’+1确定为所述待查资源的当前最大连续资源块数。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例四基于待查资源的当前资源状态序列,仅通过简单的硬件操作,再结合预先配置的第一映射表,在时钟可控的一个或少量几个时钟周期内,快速准确地获取待查资源的当前最大连续资源块数,提高了资源调度的效率。
实施例五、
实施例四中,优选适用于待查资源总数较小的情况,例如,待查资源数仅为8位、16位。但是,当待查资源总数数量较多时,例如待查资源数为128,则需要布置大量的硬件,例如需要大量的寄存器或电路线,需要使用大量的与门、或门,会增大GPU芯片的面积和功耗。基于此,在实施例四的基础上,进一步提出了实施例五。
一种GPU最大连续资源块的获取方法,包括以下步骤:
步骤E1、读取待查资源的当前资源状态序列S0={d1,d2,…dN},dn为待查资源的第n个资源块的状态标识,n的取值范围为1到N,N为待查资源的资源块总数;
步骤E2、将S0均等切分为Z组资源状态序列{U1,U2,…UZ},其中,Uz为第z组资源状态序列,Uz={dN*(z-1)/Z+1,dN*(z-1)/Z+2,…dN*z/Z},z的取值范围为1到Z,Z小于N,且Z能被N整除,将{U1,U2,…UZ}中每一Uz进行按位与运算或者按位或运算,生成待处理状态序列F0={UA1,UA2,…UAZ},UAz为Uz对应的按位与运算或按位或运算的结果;
需要说明的是,通过将S0均等切分为Z组,可以缩短序列,大大减小后续移位、与运算以及自或运算或者自与后求反运算的计算量,减少对应的硬件布局数量,从而减小GPU的面积和功耗。
优选的,N的取值为4的整数倍,Z的取值的N/4。
步骤E3、基于F0确定所述待查资源的当前最大连续资源块数。
作为一种实施例,所述步骤E3包括:
步骤E31并行获取F0向预设方向移动j位的状态序列F1、F2、…SZ-1,其中,Fj为F0向预设方向移动j位,并将以预设方向的尾部j位设置为已占用标识所得的序列,j的取值范围为0到Z-1;
其中,所述向预设方向移动j位包括左移j位或右移j位。
步骤E32、并行获取F0至Fj进行按位与运算或者按位或运算的结果FAj
步骤E33、将每一FAj进行自或运算或者自与后求反运算,确定所述待查资源的当前最大连续资源块数。
作为一种实施例,所述步骤E31、步骤E32、步骤E33在同一个时钟周期内执行,分别设置一套对应的硬件单元执行所述步骤E31、步骤E32、步骤E33,在一个周期内能提高任务分发和资源调度效率。,在GPU芯片运行频率要求不高时,有利于减小GPU芯片面积,减小功耗。本实施例中,所述步骤E31、步骤E32、步骤E33在同一个时钟周期内执行,即所述步骤E31、步骤E32、步骤E33在同一个时钟周期内传递信息,所以硬件单元可以采用组合逻辑实现,组合逻辑技术的具体实现方式为现有实现方式,在此不再展开描述。
作为示例,所述已占用标识为0,未占用标识为1,所述步骤E2中,将{U1,U2,…UZ}中每一Uz进行按位与运算,所述步骤E32中执行按位与运算,所述步骤E33中执行自或运算;或者,所述已占用标识为1,所述未占用标识为0,所述步骤E2中,将{U1,U2,…UZ}中每一Uz进行按位或运算,所述步骤E32中执行按位或运算,所述步骤E33中执行自与后求反运算。
作为一种实施例,所述步骤E31、步骤E32、步骤E33分别占用一个预设的时钟周期串行执行,所述步骤E31、步骤E32、步骤E33复用一套硬件单元,有利于减小GPU芯片面积,减小功耗。
作为一种实施例,所述步骤E31、步骤E32、步骤E33还可分别占用一个预设的时钟周期串行执行,所述步骤E31、步骤E32、步骤E33分别设置一套硬件单元,有利于提升GPU芯片运行频率和执行性能。本实施例中,步骤E31、步骤E32、步骤E33具体可以在连续三个时钟周期传递信息,传递信息的方式可以采用寄存器的方式实现,采用寄存器实现的技术细节为现有技术,在此不再展开描述。作为一种实施例,步骤E33包括:
步骤E331、将每一FAj进行自或运算或者自与后求反运算得到FARj
步骤E332、基于所有的FARj生成第一待测序列{FAR0,FAR1,…FARZ-1};
步骤E333、基于{FAR0,FAR1,…FARZ-1}确定所述待查资源的当前最大连续资源块数。
作为一种实施例,所述步骤E333包括:
步骤E3333、将{FAR0,FAR1,…FARZ-1}与预先配置的第二映射表进行对比,输出所述待查资源的当前最大连续资源块数,所述第二映射表用于存储自或序列和最大连续资源块数的映射关系。
可以理解的是,预设方向、占用标识为、未占用标识确定后,第二映射表也是基于该配置而设置的。
作为一种实施例,所述步骤E333包括:
步骤E3331、在{FAR0,FAR1,…FARZ-1}中从FARZ-1位开始往前读取,确定出现第一个等于1的FARj的j值,设置j’=j+1;
步骤E3332、基于j’确定所述待查资源的当前最大连续资源块数X:
X=j’*(N/Z)。
实施例五将待查资源的当前资源状态序列切分为Z组,使得状态序列从N位缩短为Z位,极大减小了后续计算量,减小了GPU芯片的面积和功耗。Z的具体取值根据具体应用场景来确定。虽然实施例五并不能涵盖所有可能的连续最大资源块数值,但是可以理解的是,当资源需求位于(j-1)*(N/Z)至j*(N/Z)之间,以最大资源块满足大于等于j*(N/Z)为匹配成功的条件即可,虽然可能会漏选,但是,几率较低,尤其是GPU通常包含多个执行模块,每个执行模块配备着同样的硬件资源,因此,在与多个相同资源匹配时,分组对于匹配结果的影响,几乎可以忽略不计,下面通过一个具体示例的数据来说明:
以资源块数量为128为例,按每4块分成一组,总共32组。每个资源块已占用标识为0,未占用标识为1,分成32组后把每组4个状态标识位做逻辑与运算变成1个bit,如果为1则表示当前组可用,0表示当前组不可用。假设资源可用情况为完全随机分布,1和0的概率均为1/2。
当待分发任务组对资源需求较大时,无论对于分组或不分组的情况,都需要连续多个资源块或组块全部为1,分组的做法缺点不明显;而当待分发任务组对资源需求较小时,如需求为4个资源块,不分组时只要找到连续1的数量大于等于4即可满足需求,不必要满足4个1的起始位置能整除4;而分组时则要求至少有4个1并且起始位置能整除4,直观上资源满足情况的效果会变差,但是由于GPU同一资源通常为多个,因此最终的匹配效果基本不变,下边以资源需求为4做具体分析,本示例中,假设包括16个执行模块,每个执行模块中,包括4个执行单元,待分发任务组要将wave分配至其中一个执行模块的四个执行单元上。
对于1个执行模块中的1个执行单元,每个分组不满足的概率为1-1/16=15/16,则32个分组都不满足的概率为(15/16)32=0.127。最差情况假设当前待分发任务组超过4个waves,则1个执行模块的4个执行单元中只要有1个执行单元资源不满足即无法适配待分发任务组,其概率为1-(1-0.127)4=0.418。
至此可见只有1个执行模块时,实施例五的分组的做法对为待分发任务组找寻资源影响比较明显,但随着执行模块数量的增加,此影响会明显减弱,例如常用的配备16个执行模块的情况,所有执行模块都无法适配该待分发任务组的概率为0.41816=9e-7=0,即所有16个执行模块都找不到资源的概率接近0,也即该分组做法对资源需求为4的影响可以不计。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例六、
实施例四在待查资源总数较大时,会增大GPU芯片的面积和功耗,实施例五能够在实施例的基础上,减少需要布置大量的硬件,减小GPU芯片的面积和功耗,但是最终确定出的最大资源数只能是N/Z的倍数,具有一定的限制性。基于此,提出了实施例六。
一种GPU最大连续资源块的获取方法,包括以下步骤:
步骤F1、读取待查资源的当前资源状态序列S0={d1,d2,…dN},dn为待查资源的第n个资源块的状态标识,n的取值范围为1到N,N为待查资源的资源块总数;
步骤F2、并行获取S0向预设方向移动i位的状态序列S1、S2、…SN-1,其中,Si为S0向预设方向移动i位,并将移动后的S0沿预设方向的尾部连续i位设置为已占用标识所得的序列,i的取值范围为0到N-1;
其中,所述向预设方向移动i位包括左移i位或右移i位。
步骤F3、从0到N-1之间进行抽样,得到W个k值{k0,k1,…k(W-1)},并行获取S0至Sk进行按位与运算或者按位或运算的结果SAk
步骤F4、基于SAk确定所述待查资源的当前最大连续资源块数。
作为一种实施例,所述步骤F4包括:
步骤F41、将每一SAk进行自或运算或者自与后求反运算,得到SARk
步骤F42、基于所有的SARk生成待测抽样序列{SARk0,SARk1,…SARk(w-1)};
步骤F43、基于{SARk0,SARk1,…SARk(w-1)}确定所述待查资源的当前最大连续资源块数。
作为示例,所述状态标识包括已占用标识和未占用标识。所述已占用标识为0,未占用标识为1,所述步骤F3中执行按位与运算,所述步骤F41中执行自或运算;或者,所述已占用标识为1,所述未占用标识为0,所述步骤F3中执行按位或运算,所述步骤F41中执行自与后求反运算。
作为一种实施例,k(w+1)-kw≥kw-k(w-1),kw为{k0,k1,…k(W-1)}中第w+1个k值,w的取值范围为0到W-1。优选的,k(w+1)-kw为2的整数次方。
需要说明的是,k(w+1)-kw≥kw-k(w-1)使得抽样步长可以逐步增加,可以使得k值较小的数值较为稠密,可以命中较多可能性的取值较小的最大连续资源块数;k值较大的数值较为稀疏,可以更大程度地减少与运算的计算量,减少与门等硬件的布置数量,且仍能保证计算结果的准确性。
作为一种实施例,所述步骤F2、步骤F3、步骤F4在同一个时钟周期内执行,分别设置一套对应的硬件单元执行所述步骤F2、步骤F3、步骤F4,在一个周期内能提高任务分发和资源调度效率,在GPU芯片运行频率要求不高时,有利于减小GPU芯片面积,减小功耗。本实施例中,所述步骤F2、步骤F3、步骤F4在同一个时钟周期内执行,即所述步骤F2、步骤F3、步骤F4在同一个时钟周期内传递信息,所以硬件单元可以采用组合逻辑实现,组合逻辑技术的具体实现方式为现有实现方式,在此不再展开描述。
作为一种实施例,所述步骤F2、步骤F3、步骤F4还可分别占用一个预设的时钟周期串行执行,所述步骤F2、步骤F3、步骤F4分别设置一套硬件单元,有利于提升GPU芯片运行频率和执行性能。本实施例中,步骤F2、步骤F3、步骤F4具体可以在连续三个时钟周期传递信息,传递信息的方式可以采用寄存器的方式实现,采用寄存器实现的技术细节为现有技术,在此不再展开描述。
作为一种实施例,步骤F3中,所述从0到N-1之间进行抽样,包括:
步骤F31、先将0到N-1中预设的排除数值排除,再抽样获取W个k值,所述预设的排除数值包括所述任务组所需的连续资源数命中概率小于等于预设概率阈值的数值。
其中,所述预设的排除数值具体可包括0到N-1中的质数。
作为一种实施例,所述步骤F43包括:
步骤F431、将{SARk0,SARk1,…SARk(w-1)}与预先配置的第三映射表进行对比,输出所述待查资源的当前最大连续资源块数,所述第三映射表用于存储抽样序列和最大连续资源块数的映射关系。
可以理解的是,预设方向、占用标识为、未占用标识确定后,第三映射表也是基于该配置而设置的。
作为一种实施例,所述步骤F43包括:
步骤F432、在{SARk0,SARk1,…SARk(w-1)}中从SARk(w-1)开始往前读取,确定出现第一个等于1的SARk的k值,记作k’;
步骤F433、将k’+1确定为所述待查资源的当前最大连续资源块数。
实施例六相比实施例四既能通过k值抽样,减少与运算的数量,进一步减少后续自或等运算的数量,从而减少了需要布置硬件的数量,减小GPU芯片的面积和功耗。与实施例五相比,但是最终确定出的最大资源数不止限于N/Z的倍数,可以根据具体的应用需求进行抽样,具有灵活性。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例七、
GPU的一个执行模块中通常包括多种具有连续分配需求的资源的第一类资源,且资源块的数量可能各不相同,一方面,如果为每一种第一类资源分别设置一套获取最大连续资源块的硬件单元,那么会导致GPU硬件单元复杂,占据面积大。另一方面,GPU在分发完成一个待分发任务组后,需要一定的时间执行已分发的任务组,因此,提出了实施例七,可在每一执行单元中设置一套可共享的获取最大连续资源块的硬件单元,进行分时复用,这样既能满足最大连续资源块的计算需求,又能减少GPU上所需设置的硬件数量,从而减小GPU面积和功耗。
一种基于时分复用的GPU最大连续资源块的获取方法,包括以下步骤:
步骤G1、设置每一轮最大连续资源块的获取中所需要的时间周期数C,为每一时间周期配置至少一个资源类型标识,初始化c=1;
其中,每一周期对应的所有资源类型的资源块总数小于等于A,A大于等于所有资源类型中的最大资源块数量。
步骤G2、获取第c时间周期对应的每一类资源类型标识对应的当前资源状态序列,将共享硬件单元划分为Rc组,Rc为第c时间周期对应的资源类型标识数量,将每一当前资源状态序列存入对应的共享硬件单元分组中;
步骤G3、在第c时间周期内基于共享硬件单元并行对Rc个当前资源状态序列执行最大连续资源块的获取操作,获取第c时间周期对应的每一类资源类型标识对应的最大资源块数量;
步骤G4、判断c是否等于C,若等于,则结束本轮最大连续资源块的获取操作,否则,设置c=c+1,返回执行步骤G2。
作为一种实施例,若Rc等于1,所述步骤G3中,所述共享硬件单元中仅存在一个对应的当前资源状态序列,将所述共享硬件单元中的当前资源状态序列,作为实施例四、实施例五或实施例六任意一个中的S0执行相应的最大连续资源块的获取操作。即共享硬件单元中仅存在一个对应的当前资源状态序列时,在一个时间周期中仅为一个资源类型获取最大连续资源块数量。当共享硬件单元中存在多个对应的当前资源状态序列时,在再同一个时间周期内,基于同一个共享硬件单元同时为多个类型的资源获取最大连续资源块数量。时间周期可以包括一个或多个时钟周期。
作为一种实施例,若Rc大于等于2,所述步骤G3包括:
步骤G31、将共享硬件单元划分为Rc组,将每一当前资源状态序列依次存入对应的共享硬件单元分组中得到序列D0={Q1,Q2,…QRc},其中,Qr为第r个分组中对应的当前资源状态序列,r的取值范围为1到Rc;
步骤G32、并行获取D1,D2,…DE,其中,De为将D0向预设的预设方向移动e位,同时将每一Qr沿预设方向的尾部连续e位设置为已占用标识所生成的状态序列,e的取值范围为0到E-1,E为共享硬件单元的最大位数;
其中,所述向预设方向移动e位包括向预设方向左移e位或右移e位。
步骤G33、并行获取D0至De进行按位与运算或者按位或运算的结果DAe,DAe={DQe1,DQe2,…DQeRc},其中,DQer为第r个分组对应的按位与运算或者按位或运算的结果;
步骤G34、将每一DQer进行自或运算或者自与后求反运算,确定第r个分组对应的资源类型的当前最大连续资源块数。
作为一种实施例,所述步骤G34包括:
步骤G341、将每一DQer进行自或运算或者自与后求反运算得到DQRer
步骤G342、基于所有的DQRer生成第r个分组对应的第一待测序列{DQR0r,DQR1r,…DQR(E-1)r};
步骤G343、基于{DQR0r,DQR1r,…DQR(E-1)r}确定第r个分组对应的资源类型的当前最大连续资源块数。
所述步骤G343、包括:
所述步骤G3431、在{DQR0r,DQR1r,…DQR(E-1)r}中从DQR(E-1)r开始往前读取,确定出现第一个等于1的DQRer的e值,记作e’;
所述步骤G3432、将e’+1确定为第r个分组对应的资源类型的当前最大连续资源块数。
作为示例,所述状态标识包括已占用标识和未占用标识。所述已占用标识为0,未占用标识为1,所述步骤G33中执行按位与运算,所述步骤G34、步骤G341中执行自或运算;或者,所述已占用标识为1,所述未占用标识为0,所述步骤G33中执行按位或运算,所述步骤G34、步骤G341中执行自与后求反运算。
作为一种实施例,所述步骤G343包括:
步骤G3433、判断{DQR0r,DQR1r,…DQR(E-1)r}为位数是否小于E,若小于,则在DQR(E-1)r补入已占用标识,使得补位后的{DQR0r,DQR1r,…DQR(E-1)r}的总位数为E,作为第二待测序列;
步骤G3434、将所述第二待测序列与预先配置的第四映射表对比,输出第r个分组对应的资源类型的当前最大连续资源块数,所述第四映射表用于存储第二待测序列和最大连续资源块数的映射关系,第二待测序列的位数为E。
通过实施例七能够实现执行模块中获取最大连续资源块的硬件单元的时分复用,以及在同一时间周期内,同时对多组资源获取对应的最大连续资源。能够减小执行模块中最大连续资源块的硬件单元的布置数量,减小GPU的面积和功耗。
以下通过一个具体示例来进一步说明:
为了便于说明,以三种类型的资源实现最大连续资源块的硬件单元的复用为例进行说明,本实施例中,第一资源的资源块总数为128块,第二资源的资源块总数为64块,第三资源的资源块总数为48块,为了满足共享需求,共享硬件单元的最大位数为128位,1表示未占用标识,0表示已占用标识),用I0表示当前时间周期所对应的当前资源状态序列存入对应的共享硬件单元分组中,分成高低两部分IH和IL,每部分占一半即64bit。
本实施例中,共享硬件单元第一时间周期为第一资源查找最大连续资源块数量,搜索步骤如下框图所示;框图1为当前序列右移0位至右移127位的情况,共128种。框图2为当前序列,当前序列与其右移1位序列做逻辑与运算,当前序列与其右移2位序列做逻辑与运算,直至当前序列与其右移127位序列做逻辑与运算的结果。直接每一一逻辑与运算的结果进行自或,然后从最后一个自或序列网上查找第一个结果为1的序列对应的序列号,然后加1即可获取到第一资源最大资源块数。为了便于对第二资源和第三资源在同一时间周期内复用共享硬件单元进行说明,对于第一资源的查找还可采用以下方法,框图3和框图4分别在统计框图2逻辑结果自或逻辑情况,分成高64位和低64位两部分统计,结果以S表示;最终结果假设SLi|SHi=1(也即SLi和SHi之中只要有一个为1),则最大连续空闲空间大小不小于(i+1),由SL127|SH127开始运算找到第一个结果为1的(i+1)即对应最大连续空闲空间大小。
共享硬件单元第二时间周期同时为第二类和第三类资源搜索最大连续空闲空间大小,搜索步骤如下框图所示;框图5为当前序列右移0位至右移127位的情况,共128种;其中M可根据前边的定义事先准备好;其中M(i)表示128bit的序列,此序列除第i个bit为0,其他bit均为1,例如M(0)表示除最低bit为0外其他bit均为1,即M(0)=128’hffff_ffff_ffff_ffff_ffff_ffff_ffff_fffe;再如M(0,1)=128’hffff_ffff_ffff_ffff_ffff_ffff_ffff_fffc。然后再采用框图2,框图3,框图4与第一周期时完全相同的做法进行响应的运算;最终结果分别查看SLi和SHi,SLi为1,则第二类最大连续空闲空间大小不小于(i+1),由SL63开始运算找到第一个结果为1的(i+1)即对应第二类最大连续空闲空间大小;SHi为1,则第三类最大连续空闲空间大小不小于(i+1),由SH63开始运算找到第一个结果为1的(i+1)即对应第三类最大连续空闲空间大小。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例八
GPU的基本原则和特性在于GPU资源平衡、资源分配同步,完成的时候基本同步,对于执行模块,会连续不断处理多个任务组,如何保证每个任务组尽可能平衡地分配到多个执行单元,如何保证多个执行模块连续处理多个任务组整体地资源平衡,是保证GPU资源分配平衡,提高GPU资源利用率,减小功耗的关键所在。实施例八提出了一种GPU资源调度方法,用于解决此问题。
一种GPU资源调度方法,包括:
步骤H1、获取待分发任务组,读取待分配任务数量,所述待分配任务为需要平衡分配至执行模块的执行单元中的任务,所述执行模块包括Q个执行单元;
步骤H2、基于任务数切分表确定所述待分配任务数量对应的初始分配组合序列,所述任务数切分表用于存储分配任务数量与初始分配组合序列的映射关系;
其中,所述初始分配组合为执行模块未分配任何任务的情况下的平衡分配组合。
步骤H3、获取所述执行模块中的预设指针信息,基于所述指针信息确定循环移位数Su,将所述初始分配组合序列向预设的预设方向循环移动Su位,得到目标分配组合信息;
步骤H4、基于所述待分发任务组对应的目标分配组合信息匹配所述执行模块的GPU资源。
需要说明的是,如果始终按照初始分配组合向每一执行模块分配任务,那么必然会导致某些部分执行模块的分配的任务量始终大于其他部分执行模块的分配的任务量,使得任务分配和资源调度均衡。本申请通过设置指针信息,记录每一执行模块上一轮的任务分配信息,基于此,调整本轮目标分配组合信息,从而保证每一执行模块在多轮任务分配执行中,尽可能实现任务分配和资源调度平衡。
作为一种实施例,所述方法还包括步骤H10、构建任务数切分表,包括:
步骤H101、沿所述预设方向从0至Q-1设置Q个执行单元对应的序号标识,初始化任务数WX=1,初始化初始分配组合为{qx0,qx1,…qxQ-1}中的每一位均为0,qxt为第t个执行单元的分配任务数,t的取值范围为0到Q-1;
步骤H102、获取WX比Q的商Wy以及余数Wz,若t<Wz,则设置qxt=Wy+1,若t≥Wz,则设置qxt=Wy,基于所有的qxt生成对应的初始分配组合{qx0,qx1,…qxQ-1};
步骤H103、判断WX是否等于Q*L,L为每一执行单元所能执行的最大任务数,若是,则基于所有WX与对应初始分配组合的映射关系生成所述任务数切分表,否则,设置WX=WX+1,返回执行所述步骤H102。
通过步骤H101-步骤H103即可构建任务数切分表,获取每一执行模块对应的初始分配组合,后续再结合指针信息进行调整,从而得到目标分配组合。需要说明的是,每一执行模块的硬件资源布局是相同的,因此,多个执行模块可以共用同一个任务数切分表,为了保证多个任务通道并行执行,每个任务通道可以设置一个任务数切分表,每一执行模块的指针信息存贮在执行模块中。
作为一种实施例,
所述循环移位数Su基于上一轮指针所指的执行单元标识t1’和本轮任务数WX2’确定。
所述预设指针为尾指针,本轮预设指针目标指向第t个执行单元,t为t1’+WX2’除以Q的余数,当余数为0时,t=t1’,所述尾指针初始指向第0个执行单元,则所述步骤H3中,Su=t+1。
作为一种实施例,所述预设指针为头指针,本轮预设指针目标指向第t个执行单元,t为t1’+1+WX2’除以Q的余数,当余数为0时,t=t1’,所述头指针初始指向第0个执行单元,则所述步骤H3中,Su=t。
作为一种实施例,所述方法还包括H5、若所述执行模块中的剩余资源与所述待分发任务组的目标分配组合信息相匹配,且所述执行模块被选中为目标执行模块,执行所述待分发任务组,则将预设指针更新为指向第t个执行单元。也即,得到目标分配组合信息后,还需进行资源匹配判断以及执行模块的选择操作,只有最终被选择为目标执行模块执行本轮任务分发和任务执行的执行模块才需更新对应的指针信息。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例八能够保证每个任务组尽可能平衡地分配到多个执行单元,保证多个执行模块连续处理多个任务组整体地资源平衡,从而实现GPU资源分配平衡,提高了GPU资源利用率,减小了功耗。
实施例九、
GPU结构中,通常包括P个执行模块,那么对于同一待分发任务组中,可能存在多个剩余资源与其资源需求匹配的目标执行模块,现有技术中通常采用轮转调度(Round RobinScheduling)的算法来从多个选择符合条件的执行单元中选择目标执行模块,但此种方式并没有考虑每一执行单元中剩余资源的状况,因此,无法保证GPU的资源分配平衡。基于此,本发明提出了实施例九。
一种GPU资源调度方法,包括:
步骤I1、获取候选执行模块列表{AP1,AP2,…APF},APf为第f个候选执行模块,f的取值范围为1到F,F为候选执行模块总数,候选执行模块是当前剩余资源信息与目标任务组的资源需求信息相匹配的执行模块;
其中,候选执行模块是当前剩余资源信息与目标任务组的资源需求信息相匹配的执行模块。所述GPU资源包括连续分配需求的资源的第一类资源和不具有连续分配需求的资源的第二类资源。所述当前剩余资源信息为包括每一种第一类资源对应的最大连续剩余资源数,以及每一种第二类资源对应的最大剩余资源数。
步骤I2、获取APf的中第h资源的当前剩余资源数量Rh和预先存储的第h资源的权重ah,h的取值范围为1到H,H为执行模块中资源类型的总数量;
步骤I3、基于Rh和ah获取APf的当前剩余资源总权重Taf:
步骤I4、获取数值最大的Taf对应的f值作为fx,将第fx个候选执行模块确定为目标执行模块,将所述目标任务组分发至所述目标执行模块。
需要说明的是,当前剩余资源总权重越大,说明该执行模块为当前剩余资源数量最多的执行模块,因此,将该模块确定为目标执行模块,可以平衡GPU各个执行单元的资源利用率,减小功耗。
作为一种实施例,所述方法还包括:步骤I10、获取执行模块中每一类型资源对应的权重ah,具体包括:
步骤I101、向所述待测执行模块发送MA条仅需要第h资源执行的待测任务,执行所述待测任务,获取第h资源对应的功耗值axh
需要说明的是,可以通过设置对应的上层测试程序,来向GPU下发MA条仅需要第h资源执行的待测任务,直接通过现有技术实现即可,在此不再赘述。
步骤I102、基于每一资源的功耗值设置每一资源的权重值,所有资源的axh的比例关系与ah的比例关系相同,将所有的ah存储至每一执行模块中。
作为一种实施例,所述GPU包括P个执行模块,所述步骤I10还包括:
步骤I100、从P个执行模块中随机选择一个作为待测执行模块,关闭其他执行模块。
需要说明的是,由于每一执行模块的硬件资源配置均相同,因此可以仅通过一个执行模块来测试确定权重ah
作为一种实施例,步骤I2、获取APf的中第h资源的当前剩余资源数量Rh包括:
步骤I21、从每一第h资源对应的预设的计数单元中读取当前剩余资源数量Rh
作为一种实施例,每一第h资源预设的计数单元设置在执行模块中,预设的计数单元用于存储当前剩余资源数量Rh,Rh初始化为第h资源总数量,每分配一个第h资源,则将Rh减去1,每释放一个第h资源,则将Rh加上1。
作为一种实施例,步骤I2、获取APf的中第h资源的当前剩余资源数量Rh,若其中的第h资源为需要获取最大连续资源块的第一类资源,还可通过实施例四、实施例五、实施例六中的任意一个方法来获取最大连续资源块的数量,作为对应的Rh值,在此不再赘述。
实施例九能够基于每一候选执行模块的当前资源剩余情况来选择目标执行模块,具有实时性,从而使得所有执行模块处于平稳状态,产生的功耗比较均匀,使得GPU所有资源尽可能平衡,避免资源浪费。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
实施例十、
当目标任务在目标执行模块中分配给对应的执行单元以后,执行单元会调取相应的执行指令进行执行,实施例十提出了一种基于执行指令的执行状况来选取目标执行模块的方法,相较于实施例九能够更细粒度获取每一执行模块当前的资源利用状态,从而进一步提升GPU资源调度得到平衡性。
一种GPU资源调度方法,包括:
步骤J1、获取候选执行模块列表{AP1,AP2,…APF},APf为第f个候选执行模块,f的取值范围为1到F,F为候选执行模块总数;
其中,候选执行模块是当前剩余资源信息与目标任务组的资源需求信息相匹配的执行模块
步骤J2、获取距离当前预设的NX个历史时钟周期内,APf执行第s指令的数量Cs,获取预先存储的第s指令的权重Bs
步骤J3、基于Cs和Bs获取APf距离当前预设的NX个历史时钟周期内的功耗总量Tbf:
步骤J4、获取数值最小的Tbf对应的f值作为fx,将第fx个候选执行模块确定为目标执行模块,将所述目标任务组分发至所述目标执行模块。
需要说明的是,执行模块距离当前NX个历史时钟周期内的功耗总量Tbf越小,说明该执行模块为当前剩余资源数量越多,因此,将Tbf最小执行模块确定为目标执行模块,从而提高GPU资源利用率,减小功耗。
作为实施例,所述指令包括数据传送指令、读存储指令、写存储指令、矩阵运算指令、比较指令和跳转指令等指令类别,其中矩阵运算指令还可根据矩阵大小再进一步分类,每一指令类别中又可包括多个不同的执行指令,步骤J2中要对每一指令统计在NX个历史时钟周期内的执行数量,提高了资源预测的精确度,从而提高了GPU资源分配的平衡性。
作为一种实施例,所述步骤J1中,所述获取候选执行模块列表,包括:
步骤J11、获取待分发任务组的资源需求信息;
步骤J12、获取当前GPU中每一执行模块的当前剩余资源信息;
步骤J13、将待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,将匹配成功的执行模块加入所述执行模块列表。
作为一种实施例,所述方法还包括:步骤J10、获取执行模块中每一类指令对应的权重Bs,具体包括:
步骤J101、向所述待测执行模块发送仅需调用NA条第s指令的待测任务,执行所述待测任务,获取执行NA条第s指令功耗值BXs
需要说明的是,可以通过设置对应的上层测试程序,来向GPU下发NA条第s指令的待测任务,直接通过现有技术实现即可,在此不再赘述。
步骤J102、基于每一类指令的功耗值设置每一类指令的权重值,所有指令的BXs的比例关系与Bs的比例关系相同,将所有的Bs存储至每一执行模块中。
作为一种实施例,NX为2的整数次方,NX与统计平衡性成正比,与预测准确性成反比。即NX值越大,统计结果的平衡性越好,NX值越大,则统计最久时间点距离当前时间点的时间越长,预测准确性越低,因此NX值根据具体应用需求设置即可,作为一种示例,NX的值可设置为1024。
作为一种实施例,步骤J10还包括:
步骤J100、从P个执行模块中随机选择一个作为待测执行模块,关闭其他执行模块;
需要说明的是,由于每一执行模块的硬件资源配置均相同,因此可以仅通过一个执行模块来测试确定权重Bs
实施例十能够基于每一候选执行模块的历史资源使用情况来选择目标执行模块,相较于实施例九的统计力度更细,从而使得所有执行模块处于平稳状态,发热均匀,使得GPU所有资源尽可能平衡,避免资源浪费。但可以理解的是,还可将实施例十和实施例九结合起来,并赋予对应的权重,综合选择目标执行模块,在此不再赘述。
需要说明的是,前序实施例以及后续其他实施例中的相关技术细节也可适用于本实施例中的相关步骤,在此不再重复赘述。
需要说明的是,本发明实施例中,一些示例性实施例被描述成作为流程图描绘的处理或方法。步骤的编号并不意味着对步骤执行顺序的限制,除非有特别指定,本领域技术人员知晓,虽然本发明实施将各步骤描述成顺序的处理,但是其中的部分步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种GPU资源调度方法,其特征在于,包括
步骤A1、获取当前每一任务通道对应的待分发任务组,读取每一待分发任务组的资源需求信息;
步骤A2、获取当前GPU中每一执行模块的当前剩余资源信息;
步骤A3、将每一待分发任务组的资源需求信息分别与所有执行模块的当前剩余资源信息进行匹配,若存在至少一个执行模块的当前剩余资源信息与待分发任务组的资源需求信息匹配,则将该待分发任务组加入候选任务组集合;
步骤A4、从所述候选任务组集合中选取优先级最高的一个待分发任务组作为目标任务组,并从与所述目标任务组匹配的执行模块中选取一个目标执行模块,将所述目标任务组分配至所述目标执行模块中。
2.根据权利要求1所述的方法,其特征在于,
所述剩余资源信息包括每一种第一类资源对应的最大连续剩余资源数,以及每一种第二类资源对应的最大剩余资源数;
其中,所述第一类资源为执行模块中具有连续分配需求的资源,所述第二类资源为执行模块中不具有连续分配需求的资源。
3.根据权利要求1所述的方法,其特征在于,
每一任务通道设置一个对应的先入先出队列,所述任务通道按照接收到的先后顺序将接收到的任务组逐个存入所述先入先出队列,所述待分发任务组为所述任务组通道的先入先出队列中的队首任务组。
4.根据权利要求1所述的方法,其特征在于,
所述步骤A4之后还包括:
步骤A5、判断当前每一任务通道对应的待分发任务组是否为空,若为空,则结束流程,否则,返回执行步骤A1。
5.根据权利要求1所述的方法,其特征在于,
每个执行模块中包括Q个执行单元,所述步骤A3包括:
步骤A31、将待分发任务组划分Q个wave组,获取每一wave组对应的资源需求信息,以及待分发任务组对于整个执行模块的共享资源需求信息;
步骤A32、将Q个wave组对应的资源需求信息与Q个执行单元的剩余资源信息进行匹配,将共享资源需求信息与执行模块的共享剩余资源信息进行匹配,若均匹配成功,则将该待分发任务组加入候选任务组集合。
6.根据权利要求1所述的方法,其特征在于,
所述步骤A4中,从与所述目标任务组匹配的执行模块中选取一个目标执行模块,包括:
步骤A41、若所述候选任务组集合仅包括一个优先级最高待分发任务组,则将该待分发任务组确定为所述目标任务组。
7.根据权利要求1所述的方法,其特征在于,
所述步骤A4中,所述从与所述目标任务组匹配的执行模块中选取一个目标执行模块,包括:
步骤A42、若所述候选任务组集合包括多个优先级最高待分发任务组,则判断多个优先级最高待分发任务组对应的任务通道中,是否存在未对该优先级标注已选标识的任务通道:
若存在,则从未标注的通道对应的待分发任务组中随机选择一个作为目标任务组,并将该任务组对应的任务组通道中,为该优先级标注已选标识;
若不存在,则从多个优先级最高待分发任务组中随机选择一个作为目标任务组,保留该任务组对应的任务组通道中对该优先级标注已选标识,并将其他任务组对应的任务组通道中对该优先级对应的已选标识清除。
8.根据权利要求1所述的方法,其特征在于,
所述步骤A4中,将所述目标任务组分配至所述目标执行模块中,包括:
步骤A43、获取所述目标执行模块中每一第一类资源的起始分配地址;
步骤A44、根据起始分配地址和分配数量,将对应的第一类资源分配给所述目标任务组中对应的任务;
步骤A45、将所述对应的第二类资源分配给所述目标任务组中对应的任务。
CN202210022448.8A 2022-01-10 2022-01-10 Gpu资源调度方法 Pending CN116450334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210022448.8A CN116450334A (zh) 2022-01-10 2022-01-10 Gpu资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210022448.8A CN116450334A (zh) 2022-01-10 2022-01-10 Gpu资源调度方法

Publications (1)

Publication Number Publication Date
CN116450334A true CN116450334A (zh) 2023-07-18

Family

ID=87128962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210022448.8A Pending CN116450334A (zh) 2022-01-10 2022-01-10 Gpu资源调度方法

Country Status (1)

Country Link
CN (1) CN116450334A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555663A (zh) * 2023-11-22 2024-02-13 沐曦集成电路(上海)有限公司 基于License管理的任务调度系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117555663A (zh) * 2023-11-22 2024-02-13 沐曦集成电路(上海)有限公司 基于License管理的任务调度系统

Similar Documents

Publication Publication Date Title
US8656401B2 (en) Method and apparatus for prioritizing processor scheduler queue operations
US9495206B2 (en) Scheduling and execution of tasks based on resource availability
US20130117543A1 (en) Low overhead operation latency aware scheduler
CN103019810A (zh) 具有不同执行优先级的计算任务的调度和管理
US20060195845A1 (en) System and method for scheduling executables
CN104679663B (zh) 寄存器文件高速缓存的软分区
KR20080014726A (ko) 멀티 프로세서 시스템 및 그 정보처리방법
US20070091797A1 (en) Method and apparatus for fast 2-key scheduler implementation
CN109656710A (zh) 资源分配
WO2009088396A2 (en) Age matrix for queue dispatch order
TWI696961B (zh) 深度神經網路硬體加速器與其操作方法
CN103207810A (zh) 计算任务状态封装
US20240078194A1 (en) Sorting memory address requests for parallel memory access using input address match masks
KR20200052558A (ko) 컴퓨팅 시스템 및 컴퓨팅 시스템의 동작 방법
CN116450334A (zh) Gpu资源调度方法
CN114270319A (zh) 在机器学习计算单元之间重新分配张量元素
US8589942B2 (en) Non-real time thread scheduling
US7315935B1 (en) Apparatus and method for port arbitration in a register file on the basis of functional unit issue slots
CN110597627A (zh) 基于虚拟fpga的数据库运算加速装置及加速方法
CN116450331A (zh) Gpu资源调度方法
CN116450330A (zh) Gpu资源调度方法
CN116450336A (zh) Gpu资源调度方法
CN116450337A (zh) 基于时分复用的gpu最大连续资源块的获取方法
CN116450335A (zh) Gpu资源调度方法
CN116450338A (zh) Gpu最大连续资源块的获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination