CN117667328A - 用于调度任务的方法及其相关产品 - Google Patents

用于调度任务的方法及其相关产品 Download PDF

Info

Publication number
CN117667328A
CN117667328A CN202211044067.6A CN202211044067A CN117667328A CN 117667328 A CN117667328 A CN 117667328A CN 202211044067 A CN202211044067 A CN 202211044067A CN 117667328 A CN117667328 A CN 117667328A
Authority
CN
China
Prior art keywords
chip
task
tasks
lookup table
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211044067.6A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cambricon Technologies Corp Ltd
Original Assignee
Cambricon Technologies Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cambricon Technologies Corp Ltd filed Critical Cambricon Technologies Corp Ltd
Priority to CN202211044067.6A priority Critical patent/CN117667328A/zh
Priority to PCT/CN2023/083494 priority patent/WO2024045580A1/zh
Publication of CN117667328A publication Critical patent/CN117667328A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Abstract

本公开涉及一种用于任务调度的方法及其相关产品,其中该相关产品包括设备和计算机可读存储介质。该设备可以包括在组合处理装置的计算处理装置中,该计算处理装置可以包括一个或多个数据处理装置。前述的组合处理装置还可以包括接口装置和其他处理装置。所述计算处理装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与设备和其他处理装置连接,用于存储该设备和其他处理装置的数据。通过本公开的方案,可以提升调度的效率并且降低片上的存储开销。

Description

用于调度任务的方法及其相关产品
技术领域
本申请一般地涉及计算机领域。更具体地,本申请涉及用于调度任务的调度器、人工智能处理器芯片、板卡、方法和计算机可读存储介质。
背景技术
为了解决访问片外存储器(例如动态随机存储器DRAM)开销过大的问题,传统的中央处理器单元(“CPU”)一般会使用高速缓存(“cache”)对数据的时间局部性和空间局部性进行利用,将有可能会重复使用的数据缓存在cache中,从而缩短下次例如执行任务来访问该数据所消耗的时间。然而,其他的一些专用系统通常会使用缓冲区(“buffer”)或者队列(“queue”)的方式对数据进行缓存。
就任务调度而言,一种比较通用的方式是采用queue的结构对任务进行排列调度,该结构的优点是任务的顺序会通过queue的结构天然保证,对软件编程接口十分友好,方便在软件层面进行编程。然而,通过队列进行调度的缺点是调度灵活性差,无法实现后续的任务“超车”前序任务的执行。另外,片上缓存资源是有限的,如何利用有限的资源实现低延迟高吞吐的调度成为亟需解决的技术问题。
发明内容
鉴于上文背景技术中所提及的技术问题,本申请提供了一种基于查找表的任务缓存与唤醒方案。基于本申请的方案,,可以大幅降低大规模任务调度的延迟,同时简化硬件设计并且降低片上存储开销。为此,本申请在如下的多个方面提供方案。
在第一方面中,本公开提供了一种用于任务调度的调度器,其布置于人工智能处理器芯片上,并且连接片外存储装置和片上任务执行单元,所述调度器包括:调度电路,其配置成从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;第一查找表电路,其配置成:响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
在第二方面中,本公开提供了一种人工智能处理器芯片,包括:根据第一方面中所述的调度器;以及片上任务执行单元,其配置成与所述调度器交互,以便执行由所述调度器下发的任务。
在第三方面中,本公开提供了一种板卡,包括根据第二方面中所述的人工智能处理器芯片。
在第四方面中,本公开提供了一种使用根据第一方面中所述的调度器来调度任务的方法,所述方法包括:使用所述调度电路来执行从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;使用所述第一查找表电路来执行:响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
在第五方面中,本公开提供了一种计算机可读存储介质,其上存储有用于调度任务的计算机程序指令,当所述计算机程序指令由处理器执行时,使得实现根据第四方面中所述的方法。
利用本公开上述基于查找表的方案,特别是基于存储于片上的第一查找表的使用,可以加速任务调度的处理速度,从而大幅度降低大规模任务调度的延迟。另外,通过利用第一查找表,也简化了硬件设计的复杂性并且降低片上存储的开销。在一些实施例中,当用于片间任务(例如人工智能处理器芯片间的通信任务)时,由于本公开使用专用于片间任务的查找表,从而避免了突发传输多笔任务唤配消息时的总线拥塞和反压,由此实现有效的片间任务调度。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示意性示出根据本公开实施例的调度器的简化框图;
图2是示意性示出根据本公开实施例的调度器的详细结构框图;
图3是示意性示出使用根据本公开实施例的调度器来调度任务的方法的简化流程图;
图4是示意性示出根据本公开实施例的板卡的结构示意图;
图5是示意性示出根据本公开实施例的芯片中的组合处理装置的结构示意图;
图6是示意性示出根据本公开实施例的计算装置的内部结构示意图;
图7是示意性示出根据本公开实施例的处理器核的内部结构示意图;以及
图8是示意性示出根据本公开实施例的计算簇(或称“计算集群”)之间数据写入操作的示意图。
具体实施方式
下面将结合本公开实施方式中的附图,对本公开实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。
应当理解,本公开的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本公开的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本公开说明书中所使用的术语仅仅是出于描述特定实施方式的目的,而并不意在限定本公开。如在本公开说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本公开说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
如前文提到的,为了实现高效的任务调度和执行,本公开的方案提出一种基于查找表的任务缓存与唤醒机制。特别地,本公开的方案通过将表征任务有效与否的标志位存储于片上以形成查找表(即下文所称的第一查找表),并且根据标识位是否有效来确定将下一对应任务从片外存储装置读取到片上。由于查找表本身并没有顺序的概念并且可以认为其是一个乱序的结构,因此能够及时的反映当前任务的有效与否,从而可以实现对相应任务的更快调度。在一些实施例中,本公开的方案引入更多的查找表,以实现在不同场景下(例如人工智能处理器芯片之间的通信任务场景下)的任务调度,由此进一步提升调度的效率并且降低了片上的存储开销并简化硬件设计,从而也大规模降低任务调度的延迟。
下面结合附图来详细描述本公开的具体实施方式。
图1是示意性示出根据本公开实施例的任务调度器(简称为“调度器”)100的简化框图。如前所述,本公开的任务调度器100可以布置于人工智能处理器芯片上,并且连接在片外存储装置和片上任务执行单元之间,以用于将位于外部存储装置上的任务调度至片上并且下发至任务执行单元,以便由任务执行单元来执行。
如图1所示,本公开的任务调度器可以包括调度电路100和第一查找表电路104。如上所述,调度电路100可以配置成从片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上。在一个实施场景中,此处的片外存储装置可以包括片外的动态随机存储器(DDR)或高速缓冲存储器(如L3高速缓冲存储器)。在另一个实施场景中,此处的任务执行单元可以是多个智能处理单元,或者其简化版本。根据应用的不同,智能处理单元可以执行常规计算和/或分布式集群通信的经典算法。
在本公开的上下文中,前述智能处理单元的简化版本可以称之为微处理核,并且每个微处理核可以具有多个(例如8个)任务调度队列。进一步,每个任务的slot id是唯一的,并且可以表述如下:
slotid[15:0]={js_que_id[5:0],real_slot_id[9:0]},其中js_que_id[5:0]表示队列的标识(此例中共有26=64个队列),而real_slot_id[9:0]表示任务在该队列中的标识(简称“任务标识符”),即用16位二进制数来表示任务的完整标识。在一些应用场景中,每个队列的队列标识符和每个任务的任务标识符组合用于指示所述任务在查找表中的地址,例如在第一查找表、以及下文将讨论的第二查找表、第三查找表和/或第四查找表中的地址。
在一个实施场景中,与上述每个微处理核中的任务调度队列相对应地,在片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表。
与上述调度电路相配合的第一查找表电路104可以配置成响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中,以及响应于将无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。可以看出,通过利用第一查找表中任务的状态变化(即从有效到无效),可以使得调度电路高效地从片外存储装置读取下一任务到片上。特别地,对于在片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表的场景中,调度电路可以配置成响应于第一查找表电路的触发,从片外存储装置读取第二查找表中记录的多个任务之一到片上,以及触发所述第一查找表电路将读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
以上结合图1对本公开的调度器100进行了描述。可以理解的是,通过利用第一查找表来记录片上任务的状态变化,并且基于该状态变化来触发从片外存储装置发送后续的任务到片上,本公开的方案有利地保证了任务调度的及时性和有效性。另外,由于第一查找表具有乱序的结构属性并且更好的反映当前任务的有效与否,因此也使得调度器能够以更高的效率来执行任务的调度。由此,片上的任务执行单元可以更为高效地执行下发的任务,以完成例如片间的通信任务。
图2是示意性示出根据本公开实施例的任务调度器100的详细结构框图。为了便于进一步阐述任务调度器100的操作原理,图中还示出包括任务调度器的片上系统200(其在本公开的上下文中简称为“片上”),以及设置于片上系统200内的片上任务执行单元204。
如图2中所示,片外存储装置202上可以存储有待下发的各类任务,并且这些任务可以由用户(例如程序员)通过软件指令来申请和创建。作为一种实施方式,可以以队列的形式来存储软件申请创建的多个任务,并且由软件来向队列下发任务,其中每个队列中可以包括同一类型的任务,例如由单独的片上任务执行单元执行的任务、由多个片上任务执行单元执行的任务。例如,当每个片上执行单元包括8个微处理核时,则可以针对于每个微处理核来设置8个队列,由此片外存储装置202上可以布置有64个任务队列(例如第0-7队列对应于第0微处理核,第8-15队列对应于第2微处理核,以此类推,直至第56-63队列对应于第7微处理器),并且针对于每个微处理核设置一个用于存储和维护其8个队列的第二查找表。作为示例,前述的8个查找表可以通过第二查找表电路206来实现对查找表中任务的维护和管理。作为队列中的任务,其在第二查找表中的状态初始可以由软件设置为有效,例如其有效状态位为“1”,以表示该任务在片外。
与第二查找表电路206的功能相对应,由第一查找表电路104来维护和管理的第一查找表中的每一项可以具有对应于第二查找表中任务的状态项。例如,可以用一个比特位的有效标识(如“1”)来代表对应的任务已经由软件指令配置并等待下发。当该对应的任务由调度电路成功调度到片上时,则第一查找表电路可以将有效信号的比特位修改为无效标识(如“0”)。接着,基于该任务状态从有效到无效的转变,第一查找表电路可以触发调度电路从第二查找表电路中读取新的任务到片上。
在一个实施场景中,为了实现人工智能处理器芯片与另一人工智能处理器芯片的片间任务的执行,本公开还提出在调度器中设置第三查找表电路108,其可以配置用于利用第三查找表来记录和管理存储于片上的片间任务。作为示例,该第三查找表的项数可以与前文所述的slot id数目相同。例如,该第三查找表可以实现为64(地址)×5120(数据),这里的64可以对应于前文所述的64个队列,并且每个队列具有5120个比特。
当上述第三查找表中的每项任务占用5比特时,则每个队列中可以记录1024个任务,并且每项任务(即表项记录)可以包括如下语义{valid,needinitial,wakeup,havedata,have space},其中“valid”代表指示任务是否有效的标识位、“need initial”代表任务初始化标识位、“wakeup”代表任务是否被唤醒的唤醒标识位、“have data”代表片间缓冲区是否存在数据的数据标识位,并且“have space”代表所述片间缓冲区是否存在存储空间的空间标识位。可以理解的是,这里的第三查找表中的表项内容以及语义仅仅是示例性的而非限制性的,并且本领域技术人员根据本公开的教导,可以理解本公开的多个查找表(例如第一和第二查找表,以及下文将要提及的第四查找表)都可以具有与第三查找表相同或类似的表项内容(也即任务的“描述符”)和语义。作为应用的示例,在软件将下发的任务的对应“need initial”标志位置为1时,则表示该任务有效。此后,当本公开的调度器第一次将该任务发送至微处理核上之后,可以将该标志位置为“0”,从而表示该任务已经被调度过一次。
在一个实施场景中,为了减少查询任务地址带来的延迟开销,可以将slot id[15:0]作为描述符在L3高速缓冲存储器或者DDR中的偏移地址,同时也是查询查找表(例如第三查找表)的地址。当接收到片间(“chip to chip”,简称为“c2c”)传输过来的任务唤醒消息时(包含要唤醒的“slot id”),可以利用“slot id”对第三查找表进行寻址并对相应的标识位进行置位,从而完成第三查找表的更新。作为示例,这里的任务唤醒消息例如可以是第一人工智能处理器芯片向第二人工智能处理器芯片发送的唤醒消息,以便指示第二人工智能处理器芯片基于任务唤醒消息来执行存储于其片上的任务。在该场景中,此处的任务例如可以是存储于第二人工智能处理器芯片的调度器中的重排序缓冲(“Reorder of Buffer”,简称为“ROB”)电路110中被反复调度执行的任务。
为了实现任务的有效调度,本公开的方案提出在调度器100中设置如上面所提到的重排序缓冲电路110,其可以配置成记录被片上任务执行单元反复执行的任务。在一个示例性应用场景中,调度器可以将每个任务队列按第一查找表所记录的顺序顺次发送到微处理核来执行,同时注册到重排序缓冲电路中的存储空间中,期间每个任务的“slot id”也会注册到重排序缓冲电路中。当重排序缓冲电路内的存储资源全部被占用时,则调度器从片外存储装置新获取到的任务仍可以由调度器调度到空闲的微处理核上来执行。
作为片间任务调度的另一个实施场景,本公开提出在调度器100中设置轮询电路112,其可以接收如上所述用于调度片间任务的任务唤醒消息。接着,轮询电路可以根据任务唤醒消息来轮询第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务。响应于轮询到该特定任务,此时调度电路可以配置成对轮询到的所述特定任务进行调度,以便由片上任务执行单元204来执行。
举例而言,在轮询过程中,轮询电路可以同时分队列对第三查找表进行轮询,每个队列例如可以是3×1024(项数)=3072比特。基于此,轮询电路每次可以轮询32项,32个调度器的工作时钟周期(32纳秒)就可以完成一个队列共1024项的轮询。在片间任务调度时,如果需要唤醒的任务已经存储于在片上,则调度器可以直接唤醒该任务并发送给片上任务执行单元进行执行。相反,如果轮询电路没有轮询到需唤醒的任务,换句话说,该需要唤醒的任务并不在片上,则此时调度器可以去片外存储装置(如L3缓冲器或DDR)上将该任务取回(即调度到片上)并发送给片上任务执行单元,例如微处理核来执行。作为优选方式,本公开假定片间的任务调度优先于片内的任务调度。
为了有效记录发送到片上任务执行单元的任务,本公开还提出在调度器内设置第四查找表电路114,并且其配置成利用第四查找表来记录调度至片上任务执行单元的任务。在一个实施场景中,调度电路可以配置成在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。进一步,调度电路还可以配置成响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。借助于对第四查找表的查询,可以保证待发送到片上任务执行单元的任务与正在并行执行的多个任务不同(例如任务的“slot id”不同)。
以上结合图2对本公开的调度方案做了进一步的阐述。基于上述描述,本领域技术人员可以理解本公开的调度方案借助于一个或多个查找表的设置,特别是片上查找表的布置,可以显著降低任务调度的延迟,并同时简化硬件设计。进一步,通过利用查找表,可以有效利用片上资源来进行任务调度,避免任务的重复冗余调度,从而提高调度的效率。通过本公开的方案,也促进了片间任务的顺利和高效执行,从而节省任务执行的开销。
图3是示意性示出使用根据本公开实施例的调度器来调度任务的方法300的简化流程图。可以理解的是,方法300可以由上述结合图1和图2所详细的调度器来执行。
如图3中所示,在步骤S302处,使用调度电路来执行从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上。接着,在步骤S304处,响应于任务从片外存储装置读取到片上,使用第一查找表电路将任务从有效状态更新至无效状态并记录于第一查找表中。此后,在步骤S306处,响应于将无效状态记录于第一查找表中,第一查找表电路可以从片外存储装置读取下一任务到片上。
在一个实施例中,上述片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表(例如借助于图2中所示出的第二查找表电路206来实现)。在该实施例中,方法300还可以包括响应于所述第一查找表电路的触发,使用调度电路从所述片外存储装置读取所述第二查找表中记录的多个任务之一到片上,以及使用调度电路来触发所述第一查找表电路将从所述片外存储装置读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
在一个实施例中,所述方法还包括使用第三查找表电路(例如图3中所示出的第三查找表电路108)来执行人工智能处理器芯片与另一人工智能处理器芯片之间的片间任务,即利用第三查找表来记录和管理存储于片上的片间任务。在另一个实施例中,所述方法还包括利用轮询电路112来接收用于调度片间任务的任务唤醒消息,根据该任务唤醒消息来轮询第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务。基于此,所述方法还使用调度电路对轮询到的特定任务进行调度。
在一些场景中,响应于上述轮询电路未成功轮询到所述特定任务,所述方法还包括使用调度器从所述片外存储装置读取与任务唤醒消息关联的特定任务到片上。进一步,为了保存和维护由片上任务执行单元重复执行的任务,所述方法还包括使用重排序缓冲电路(如图2中所示出的重排序缓冲电路110)来记录重复执行的任务。
在另一些场景中,所述方法还包括使用第四查找表电路(如图2中所示出的第四查找表电路114)来执行利用第四查找表来记录调度至片上任务执行单元的任务。进一步,所述方法还包括使用所述调度电路来执行:在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。另外,所述方法还包括使用所述调度电路来执行:响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。
以上结合图3对本公开的使用调度器执行调度任务的方法进行了描述。可以理解的是,上述的描述仅仅是示例性的而非限制性的。本领域技术人员根据本公开的披露,也可以想到将其中的步骤进行结合或替换,以便实现对任务的有效调度并且节省调度资源。
图4示出本披露实施例的一种板卡400的结构示意图。如图4所示,板卡400包括芯片401,其是一种系统级芯片(System on Chip,SoC),或称片上系统,集成有一个或多个组合处理装置,组合处理装置是一种人工智能运算单元,用以支持各类深度学习和机器学习算法,满足计算机视觉、语音、自然语言处理、数据挖掘等领域复杂场景下的智能处理需求。特别是深度学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡400适用在云端智能应用,具有庞大的片外存储、片上存储和大量的计算能力。在一些场景中,当板卡上仅布置一个芯片401时,板卡与板卡之间的任务调度也即是本公开上下文中的片间通信(或称“片间通讯”)。
芯片401通过对外接口装置402与外部设备403相连接。外部设备403例如是服务器、计算机、摄像头、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备403通过对外接口装置402传递至芯片401。芯片401的计算结果可以经由对外接口装置402传送回外部设备403。根据不同的应用场景,对外接口装置402可以具有不同的接口形式,例如PCIe接口等。
板卡400还包括用于存储数据的存储器件4404,其包括一个或多个存储单元4405。存储器件404通过总线与控制器件406和芯片401进行连接和数据传输。板卡400中的控制器件406配置用于对芯片401的状态进行调控。为此,在一个应用场景中,控制器件406可以包括单片机(Micro Controller Unit,MCU)。
图5是示出此实施例的芯片401中的组合处理装置的结构图。如图5中所示,组合处理装置500包括计算装置501、接口装置502、处理装置503和DRAM504。
计算装置501配置成执行用户指定的操作,主要实现为单核智能处理器或者多核智能处理器,用以执行深度学习或机器学习的计算,其可以通过接口装置502与处理装置503进行交互,以共同完成用户指定的操作。
接口装置502用于在计算装置501与处理装置503间传输数据和控制指令。例如,计算装置5501可以经由接口装置502从处理装置503中获取输入数据,写入计算装置501片上的存储装置。进一步,计算装置501可以经由接口装置502从处理装置503中获取控制指令,写入计算装置501片上的控制缓存中。替代地或可选地,接口装置502也可以读取计算装置501的存储装置中的数据并传输给处理装置503。
处理装置503作为通用的处理装置,执行包括但不限于数据搬运、对计算装置501的开启和/或停止等基本控制。根据实现方式的不同,处理装置503可以是中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)或其他通用和/或专用处理器中的一种或多种类型的处理器,这些处理器包括但不限于数字信号处理器(digital signal processor,DSP)、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,并且其数目可以根据实际需要来确定。如前所述,仅就本披露的计算装置501而言,其可以视为具有单核结构或者同构多核结构。然而,当将计算装置501和处理装置503整合共同考虑时,二者视为形成异构多核结构。
存储装置504用以存储待处理的数据,其可以是DRAM,为DDR内存,大小通常为16G或更大,用于保存计算装置201和/或处理装置203的数据。在本公开的上下文,这里的存储装置可以视为前述调度方案的片外存储装置。
图6示出了计算装置501的内部结构示意图。计算装置501用以处理计算机视觉、语音、自然语言、数据挖掘等输入数据,图中的计算装置501采用多核分层结构设计,计算装置501作为一个片上系统,其包括多个计算簇(cluster),每个计算簇又包括多个处理器核,换言之,计算装置501是以片上系统-计算簇-处理器核的层次所构成的。
以片上系统的层级来看,如图6所示,计算装置501包括外部存储控制器601、外设通信模块602、片上互联模块603、同步模块604以及多个计算簇605。尽管未示出,计算装置501中也可以包括本公开上下文的调度电路,以实现将外部存储装置的任务调度到片上,以便由计算簇605来执行。
外部存储控制器601可以有多个,在图中示例性地展示2个,其用以响应处理器核发出的访问请求,访问外部存储设备,例如图5中的DRAM 504,从而自片外读取数据或是将数据写入。外设通信模块602用以通过接口装置502接收来自处理装置503的控制信号,启动计算装置501执行任务。片上互联模块603将外部存储控制器601、外设通信模块602及多个计算簇605连接起来,用以在各个模块间传输数据和控制信号。同步模块604是一种全局同步屏障控制器(global barrier controller,GBC),用以协调各计算簇的工作进度,确保信息的同步。多个计算簇605是计算装置501的计算核心,在图中示例性地展示4个,随着硬件的发展,本披露的计算装置501还可以包括8个、16个、64个、甚至更多的计算簇605。计算簇605用以高效地执行深度学习算法。
以计算簇的层级来看,如图6所示,每个计算簇605包括多个处理器核(IPU core)606及一个存储核(MEM core)607。
处理器核606在图中示例性地展示4个,本披露不限制处理器核606的数量。其内部架构如图4所示。每个处理器核606包括三大模块:控制模块71、运算模块72及存储模块73。
控制模块71用以协调并控制运算模块72和存储模块73的工作,以完成深度学习的任务,其包括取指单元(instruction fetch unit,IFU)711及指令译码单元(instructiondecode unit,IDU)712。取指单元711用以获取来自处理装置503的指令,指令译码单元712则将获取的指令进行译码,并将译码结果作为控制信息发送给运算模块72和存储模块73。
运算模块72包括向量运算单元721及矩阵运算单元422。向量运算单元721用以执行向量运算,可支持向量乘、加、非线性变换等复杂运算;矩阵运算单元722负责深度学习算法的核心计算,即矩阵乘及卷积。
存储模块73用来存储或搬运相关数据,包括神经元存储单元(neuron RAM,NRAM)731、权值存储单元(weight RAM,WRAM)732、输入/输出直接内存访问模块(input/outputdirect memory access,IODMA)733、搬运直接内存访问模块(move direct memoryaccess,MVDMA)734。NRAM 731用以存储供处理器核606计算的输入、输出数据及中间结果;WRAM 732则用以存储深度学习网络的权值;IODMA 733通过广播总线609控制NRAM 731/WRAM 732与DRAM 504的访存;MVDMA 734则用以控制NRAM 731/WRAM 732与SRAM708的访存。应当注意,此处的NRAM和WRAM可以是同一存储器在逻辑存储空间上划分形成的两个存储区域,也可以是两个独立的存储器,此处不做具体限定。
回到图6,存储核307主要用以存储和通信,即存储处理器核606间的共享数据或中间结果、以及执行计算簇605与DRAM 504之间的通信、计算簇605间彼此的通信、处理器核606间彼此的通信等。在其他实施例中,存储核607具有标量运算的能力,用以执行标量运算。
存储核607包括共享存储单元(SRAM)608、广播总线609、计算簇直接内存访问模块(cluster direct memory access,CDMA)610及全局直接内存访问模块(global directmemory access,GDMA)611。SRAM 608承担高性能数据中转站的角色,在同一个计算簇605内不同处理器核606之间所复用的数据不需要通过处理器核606各自向DRAM 504获得,而是经SRAM 608在处理器核606间中转,存储核607只需要将复用的数据从SRAM 608迅速分发给多个处理器核6606即可,以提高核间通讯效率,亦大大减少片上片外的输入/输出访问。
广播总线609、CDMA 610及GDMA 611则分别用来执行处理器核606间的通信、计算簇605间的通信和计算簇605与DRAM 504的数据传输。以下将分别说明。
广播总线609用以完成计算簇605内各处理器核606间的高速通信,此实施例的广播总线609支持核间通信方式包括单播、多播与广播。单播是指点对点(即单一处理器核至单一处理器核)的数据传输,多播是将一份数据从SRAM608传输到特定几个处理器核606的通信方式,而广播则是将一份数据从SRAM608传输到所有处理器核606的通信方式,属于多播的一种特例。
CDMA 610用以控制在同一个计算装置501内不同计算簇605间的SRAM608的访存。图8示出当一个处理器核欲将数据写入至另一个计算簇的处理器核时的示意图,以说明CDMA 610的工作原理。在此应用场景中,同一个计算装置包括多个计算簇,为方便说明,图中仅展示计算簇0与计算簇1,计算簇0与计算簇1分别包括多个处理器核,同样为了说明方便,图中的计算簇0仅展示处理器核0,计算簇1仅展示处理器核1。处理器核0欲将数据写入至处理器核1。
首先,处理器核0发送单播写请求将数据写入本地的SRAM 0中,CDMA 0作为主(master)端,CDMA 1作为从(slave)端,主端向从端推送写请求,即主端发送写地址AW和写数据W,将数据传送到计算簇1的SRAM 1中,接着从端发送写响应B作为回应,最后计算簇1的处理器核1发送单播读请求将数据从SRAM 1中读取出来。
回到图6,GDMA 611与外部存储控制器601协同,用以控制计算簇605的SRAM 608到DRAM 504的访存,或是将数据自DRAM 504读取至SRAM 608中。从前述可知,DRAM 504与NRAM731或WRAM 732间的通信可以经由2个渠道来实现。第一个渠道是通过IODAM 733直接联系DRAM 504与NRAM731或WRAM 732;第二个渠道是先经由GDMA 611使得数据在DRAM 504与SRAM 6608间传输,再经过MVDMA 734使得数据在SRAM 608与NRAM 731或WRAM 732间传输。虽然表面上看来第二个渠道需要更多的元件参与,数据流较长,但实际上在部分实施例中,第二个渠道的带宽远大于第一个渠道,因此DRAM 504与NRAM 731或WRAM 732间的通信通过第二个渠道可能更有效率。本披露的实施例可根据本身硬件条件选择数据传输渠道。
在其他实施例中,GDMA 611的功能和IODMA 733的功能可以整合在同一部件中。本披露为了方便描述,将GDMA 611和IODMA 733视为不同部件,对于本领域技术人员来说,只要其实现的功能以及达到的技术效果与本披露类似,即属于本披露的保护范围。进一步地,GDMA 611的功能、IODMA 733的功能、CDMA 610的功能、MVDMA 734的功能亦可以由同一部件来实现,同样地,只要其实现的功能以及达到的技术效果与本披露类似,均属于本披露的保护范围。
以上结合图4-图8对本公开的软硬件架构及其内部结构进行了详细的描述。可以理解的是上述描述仅仅是示例性的而非限制性的。根据不同的应用场景和硬件规格,本领域技术人员也可以对本公开的板卡(或者说人工智能设备)及其内部结构进行改变,而这些改变依然落入本公开的保护范围内。
基于上文的描述,本领域技术人员可以理解本申请实际上也公开了一种设备,其包括处理器和存储器。具体地,存储器可以存储用于对任务进行调度的程序指令,当所述程序指令由处理器执行时,实现本申请结合图1-图3所描述的调度操作步骤。另外,由于本申请的方案可以通过计算程序指令来实现,因此本申请也公开了一种计算机可读存储介质或计算机程序产品,其上存储有用于任务调度的计算机程序/指令,从而实现结合图1-图3所描述的调度操作步骤。
以上结合附图对本公开的方案进行了详细的描述。根据不同的应用场景,本披露的设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本披露的设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。
进一步,本披露的设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中,根据本披露方案的功耗高的设备或装置可以应用于云端设备(例如云端服务器),而功耗小的设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中,云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容,从而可以根据终端设备和/或边缘端设备的硬件信息,从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源,以便完成端云一体或云边端一体的统一管理、调度和协同工作。
需要说明的是,为了简明的目的,本披露将一些方法及其实施例表述为一系列的动作及其组合,但是本领域技术人员可以理解本披露的方案并不受所描述的动作的顺序限制。因此,依据本披露的公开或教导,本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步,本领域技术人员可以理解本披露所描述的实施例可以视为可选实施例,即其中所涉及的动作或模块对于本披露某个或某些方案的实现并不一定是必需的。另外,根据方案的不同,本披露对一些实施例的描述也各有侧重。鉴于此,本领域技术人员可以理解本披露某个实施例中没有详述的部分,也可以参见其他实施例的相关描述。
在具体实现方面,基于本披露的公开和教导,本领域技术人员可以理解本披露所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如,就前文所述的设备或装置实施例中的各个单元来说,本文在考虑了逻辑功能的基础上对其进行划分,而实际实现时也可以有另外的划分方式。又例如,可以将多个单元或组件结合或者集成到另一个系统,或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言,前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中,前述的直接或间接耦合涉及利用接口的通信连接,其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。
在本披露中,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外,根据实际的需要,可以选择其中的部分或者全部单元来实现本披露实施例所述方案的目的。另外,在一些场景中,本披露实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。
在一些实现场景中,上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时,所述集成的单元可以存储在计算机可读取存储器中。基于此,当本披露的方案以软件产品(例如计算机可读存储介质)的形式体现时,该软件产品可以存储在存储器中,其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本披露实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器(“Read Only Memory”,简写为ROM)、随机存取存储器(“Random Access Memory”,简写为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在另外一些实现场景中,上述集成的单元也可以采用硬件的形式实现,即为具体的硬件电路,其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件,而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此,本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现,例如CPU、GPU、FPGA、DSP和ASIC等。进一步,前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等),其例如可以是可变电阻式存储器(“Resistive Random Access Memory”,简写为RRAM)、动态随机存取存储器(“DynamicRandom Access Memory”,简写为DRAM)、静态随机存取存储器(“Static Random AccessMemory”,简写为SRAM)、增强动态随机存取存储器(“Enhanced Dynamic Random AccessMemory”,简写为“EDRAM”)、高带宽存储器(“High Bandwidth Memory”,简写为“HBM”)、混合存储器立方体(“Hybrid Memory Cube”,简写为“HMC”)、ROM和RAM等。
依据以下条款可更好地理解前述内容:
条款A1.一种用于调度任务的调度器,其布置于人工智能处理器芯片上,并且连接片外存储装置和片上任务执行单元,所述调度器包括:
调度电路,其配置成从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;
第一查找表电路,其配置成:
响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及
响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
条款A2.根据条款A1所述的调度器,其中所述片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表,并且所述调度电路配置成:
响应于所述第一查找表电路的触发,从所述片外存储装置读取第二查找表中记录的多个任务之一到片上;以及
触发所述第一查找表电路将从片外存储装置读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
条款A3.根据条款A1所述的调度器,还包括第三查找表电路,其配置成:
在执行所述人工智能处理器芯片与另一人工智能处理器芯片的片间任务时,利用第三查找表来记录和管理存储于片上的所述片间任务。
条款A4.根据条款A3所述的调度器,还包括轮询电路,其配置成:
接收用于调度片间任务的任务唤醒消息;
根据所述任务唤醒消息来轮询所述第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务,
其中所述调度电路配置成对轮询到的所述特定任务进行调度。
条款A5.根据条款A4所述的调度器,其中所述调度电路还配置成:
响应于所述轮询电路未成功轮询到所述特定任务,从所述片外存储装置读取与任务唤醒消息关联的特定任务到片上。
条款A6.根据条款A4所述的调度器,其中所述任务唤醒消息来自于所述另一人工智能处理器芯片,并且所述调度电路配置成调度所述特定任务,以便由所述人工智能处理器芯片的所述片上任务执行单元执行。
条款A7、根据条款A1所述的调度器,还包括重排序缓冲电路,其配置成记录被所述片上任务执行单元重复执行的任务。
条款A8、根据条款A1所述的调度器,还包括第四查找表电路,其配置成利用第四查找表来记录调度至片上任务执行单元的任务。
条款A9、根据条款A8所述的调度器,其中所述调度电路还配置成:
在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。
条款A10、根据条款A8所述的调度器,其中所述调度电路还配置成:
响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。
条款A11、根据条款A8-条款A10的任意一项所述的调度器,其中所述多个任务以一个或多个队列的形式存储于所述第一查找表、第二查找表、第三查找表和/或第四查找表中,并且每个队列的队列标识符和每个任务的任务标识符组合用于指示所述任务在第一查找表、第二查找表、第三查找表和/或第四查找表中的地址。
条款A12、根据条款A11所述的调度器,其中所述第一查找表、第二查找表、第三查找表和/或第四查找表中的表项记录包括以下中的一个或多项:
指示任务是否有效的标识位;
任务初始化标识位;
任务是否被唤醒的唤醒标识位;
片间缓冲区是否存在数据的数据标识位;以及
所述片间缓冲区是否存在存储空间的空间标识位。
条款A13、根据条款A12所述的调度器,其中所述任务是所述人工智能处理器芯片与另一人工智能处理器芯片之间通信的片间通信任务。
条款A14、一种人工智能处理器芯片,包括:
根据条款A1-A13的任意一项所述的调度器;以及
片上任务执行单元,其配置成与所述调度器交互,以便执行由所述调度器下发的任务。
条款A15、一种板卡,包括根据条款A14所述的人工智能处理器芯片。
条款A16.一种使用根据条款A1-A13的任意一项所述的调度器来调度任务的方法,所述方法包括:
使用所述调度电路来执行从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;
使用所述第一查找表电路来执行:
响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及
响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
条款A17.根据条款A16所述的方法,其中所述片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表,并且所述方法:
响应于所述第一查找表电路的触发,从所述片外存储装置读取所述第二查找表中记录的多个任务之一到片上;以及
触发所述第一查找表电路将从所述片外存储装置读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
条款A18.根据条款A16所述的方法,还包括使用所述第三查找表电路来执行:
在执行所述人工智能处理器芯片与另一人工智能处理器芯片的片间任务时,利用第三查找表来记录和管理存储于片上的所述片间任务。
条款A19.根据条款A18所述的方法,还包括使用所述轮询电路来执行:
接收用于调度片间任务的任务唤醒消息;
根据所述任务唤醒消息来轮询所述第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务,
其中所述调度电路配置成对轮询到的所述特定任务进行调度。
条款A20.根据条款A19所述的方法,其中使用所述调度电路来执行以下步骤:
响应于所述轮询电路未成功轮询到所述特定任务,从所述片外存储装置读取与任务唤醒消息关联的特定任务到片上。
条款A21.根据条款A19所述的方法,其中所述任务唤醒消息来自于所述另一人工智能处理器芯片,并且所述方法还包括使用所述调度电路来执行调度所述特定任务,以便由所述人工智能处理器芯片的所述片上任务执行单元执行。
条款A22.根据条款A16所述的方法,还包括使用所述重排序缓冲电路来记录被所述片上任务执行单元重复执行的任务。
条款A23.根据条款A16所述的方法,还包括使用所述第四查找表电路来执行利用第四查找表来记录调度至片上任务执行单元的任务。
条款A24.根据条款A23所述的方法,其中所述方法还包括使用所述调度电路来执行:
在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。
条款A25.根据条款A23所述的方法,其中所述方法还包括使用所述调度电路来执行:
响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。
条款A26.根据条款A23-A25的任意一项所述的方法,其中所述多个任务以一个或多个队列的形式存储于所述第一查找表、第二查找表、第三查找表和/或第四查找表中,并且每个队列的队列标识符和每个任务的任务标识符组合用于指示所述任务在第一查找表、第二查找表、第三查找表和/或第四查找表中的地址。
条款A27.根据条款A26所述的方法,其中所述第一查找表、第二查找表、第三查找表和/或第四查找表中的表项记录包括以下中的一个或多项:
指示任务是否有效的标识位;
任务初始化标识位;
任务是否被唤醒的唤醒标识位;
片间缓冲区是否存在数据的数据标识位;以及
所述片间缓冲区是否存在存储空间的空间标识位。
条款A28.根据条款A27所述的方法,其中所述任务是所述人工智能处理器芯片与另一人工智能处理器芯片之间通信的片间通信任务。
条款A29.一种计算机可读存储介质,其上存储有用于调度任务的计算机程序指令,当所述计算机程序指令由处理器执行时,使得实现根据条款A16-A28的任意一项所述的方法。
虽然本公开的实施方式如上,但所述内容只是为便于理解本公开而采用的实施例,并非用以限定本公开的范围和应用场景。任何本公开所述技术领域内的技术人员,在不脱离本公开所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本公开的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (29)

1.一种用于调度任务的调度器,其布置于人工智能处理器芯片上,并且连接片外存储装置和片上任务执行单元,所述调度器包括:
调度电路,其配置成从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;
第一查找表电路,其配置成:
响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及
响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
2.根据权利要求1所述的调度器,其中所述片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表,并且所述调度电路配置成:
响应于所述第一查找表电路的触发,从所述片外存储装置读取第二查找表中记录的多个任务之一到片上;以及
触发所述第一查找表电路将从片外存储装置读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
3.根据权利要求1所述的调度器,还包括第三查找表电路,其配置成:
在执行所述人工智能处理器芯片与另一人工智能处理器芯片的片间任务时,利用第三查找表来记录和管理存储于片上的所述片间任务。
4.根据权利要求3所述的调度器,还包括轮询电路,其配置成:
接收用于调度片间任务的任务唤醒消息;
根据所述任务唤醒消息来轮询所述第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务,
其中所述调度电路配置成对轮询到的所述特定任务进行调度。
5.根据权利要求4所述的调度器,其中所述调度电路还配置成:
响应于所述轮询电路未成功轮询到所述特定任务,从所述片外存储装置读取与任务唤醒消息关联的特定任务到片上。
6.根据权利要求4所述的调度器,其中所述任务唤醒消息来自于所述另一人工智能处理器芯片,并且所述调度电路配置成调度所述特定任务,以便由所述人工智能处理器芯片的所述片上任务执行单元执行。
7.根据权利要求1所述的调度器,还包括重排序缓冲电路,其配置成记录被所述片上任务执行单元重复执行的任务。
8.根据权利要求1所述的调度器,还包括第四查找表电路,其配置成利用第四查找表来记录调度至片上任务执行单元的任务。
9.根据权利要求8所述的调度器,其中所述调度电路还配置成:
在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。
10.根据权利要求8所述的调度器,其中所述调度电路还配置成:
响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。
11.根据权利要求8-10的任意一项所述的调度器,其中所述多个任务以一个或多个队列的形式存储于所述第一查找表、第二查找表、第三查找表和/或第四查找表中,并且每个队列的队列标识符和每个任务的任务标识符组合用于指示所述任务在第一查找表、第二查找表、第三查找表和/或第四查找表中的地址。
12.根据权利要求11所述的调度器,其中所述第一查找表、第二查找表、第三查找表和/或第四查找表中的表项记录包括以下中的一个或多项:
指示任务是否有效的标识位;
任务初始化标识位;
任务是否被唤醒的唤醒标识位;
片间缓冲区是否存在数据的数据标识位;以及
所述片间缓冲区是否存在存储空间的空间标识位。
13.根据权利要求12所述的调度器,其中所述任务是所述人工智能处理器芯片与另一人工智能处理器芯片之间通信的片间通信任务。
14.一种人工智能处理器芯片,包括:
根据权利要求1-13的任意一项所述的调度器;以及
片上任务执行单元,其配置成与所述调度器交互,以便执行由所述调度器下发的任务。
15.一种板卡,包括根据权利要求14所述的人工智能处理器芯片。
16.一种使用根据权利要求1-13的任意一项所述的调度器来调度任务的方法,所述方法包括:
使用所述调度电路来执行从所述片外存储装置读取任务到片上,以便调度所述任务来由所述片上任务执行单元执行,其中所述任务以有效状态记录于所述片外存储装置上;
使用所述第一查找表电路来执行:
响应于所述任务从所述片外存储装置读取到所述片上,将所述任务从所述有效状态更新至无效状态并记录于第一查找表中;以及
响应于将所述无效状态记录于所述第一查找表中,触发所述调度电路从所述片外存储装置读取下一任务到片上。
17.根据权利要求16所述的方法,其中所述片外存储装置上存储有待所述调度电路读取到片上的多个任务和至少记录多个任务的有效状态的第二查找表,并且所述方法包括使用调度电路执行以下操作:
响应于所述第一查找表电路的触发,从所述片外存储装置读取所述第二查找表中记录的多个任务之一到片上;以及
触发所述第一查找表电路将从所述片外存储装置读取到片上的任务的有效状态更新至无效状态并记录于所述第一查找表中。
18.根据权利要求16所述的方法,还包括使用所述第三查找表电路来执行:
在执行所述人工智能处理器芯片与另一人工智能处理器芯片的片间任务时,利用第三查找表来记录和管理存储于片上的所述片间任务。
19.根据权利要求18所述的方法,还包括使用所述轮询电路来执行:
接收用于调度片间任务的任务唤醒消息;
根据所述任务唤醒消息来轮询所述第三查找表电路中记录的片间任务,以便轮询到与所述任务唤醒消息关联的特定任务,
其中所述方法还使用所述调度电路对轮询到的所述特定任务进行调度。
20.根据权利要求19所述的方法,其中使用所述调度电路来执行:
响应于所述轮询电路未成功轮询到所述特定任务,从所述片外存储装置读取与任务唤醒消息关联的特定任务到片上。
21.根据权利要求19所述的方法,其中所述任务唤醒消息来自于所述另一人工智能处理器芯片,并且所述方法还包括使用所述调度电路来执行调度所述特定任务,以便由所述人工智能处理器芯片的所述片上任务执行单元执行。
22.根据权利要求16所述的方法,还包括使用所述重排序缓冲电路来记录被所述片上任务执行单元重复执行的任务。
23.根据权利要求16所述的方法,还包括使用所述第四查找表电路来执行利用第四查找表来记录调度至片上任务执行单元的任务。
24.根据权利要求23所述的方法,其中所述方法还包括使用所述调度电路来执行:
在向所述片上任务执行单元调度待执行的任务前,与所述第四查找表电路交互,以查询并确定第四查找表中记录的任务与当前待调度至所述片上任务执行单元的任务不同。
25.根据权利要求23所述的方法,其中所述方法还包括使用所述调度电路来执行:
响应于从所述片上任务执行单元接收到完成或暂停任务的执行,触发所述第四查找表电路从所述第四查找表中移除完成执行或暂停执行的任务。
26.根据权利要求23-25的任意一项所述的方法,其中所述多个任务以一个或多个队列的形式存储于所述第一查找表、第二查找表、第三查找表和/或第四查找表中,并且每个队列的队列标识符和每个任务的任务标识符组合用于指示所述任务在第一查找表、第二查找表、第三查找表和/或第四查找表中的地址。
27.根据权利要求26所述的方法,其中所述第一查找表、第二查找表、第三查找表和/或第四查找表中的表项记录包括以下中的一个或多项:
指示任务是否有效的标识位;
任务初始化标识位;
任务是否被唤醒的唤醒标识位;
片间缓冲区是否存在数据的数据标识位;以及
所述片间缓冲区是否存在存储空间的空间标识位。
28.根据权利要求27所述的方法,其中所述任务是所述人工智能处理器芯片与另一人工智能处理器芯片之间通信的片间通信任务。
29.一种计算机可读存储介质,其上存储有用于调度任务的计算机程序指令,当所述计算机程序指令由处理器执行时,使得实现根据权利要求16-28的任意一项所述的方法。
CN202211044067.6A 2022-08-30 2022-08-30 用于调度任务的方法及其相关产品 Pending CN117667328A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211044067.6A CN117667328A (zh) 2022-08-30 2022-08-30 用于调度任务的方法及其相关产品
PCT/CN2023/083494 WO2024045580A1 (zh) 2022-08-30 2023-03-23 用于调度任务的方法及其相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211044067.6A CN117667328A (zh) 2022-08-30 2022-08-30 用于调度任务的方法及其相关产品

Publications (1)

Publication Number Publication Date
CN117667328A true CN117667328A (zh) 2024-03-08

Family

ID=90084987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211044067.6A Pending CN117667328A (zh) 2022-08-30 2022-08-30 用于调度任务的方法及其相关产品

Country Status (2)

Country Link
CN (1) CN117667328A (zh)
WO (1) WO2024045580A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028299B1 (en) * 2000-06-30 2006-04-11 Intel Corporation Task-based multiprocessing system
EP3516515B1 (en) * 2016-09-20 2024-02-14 Ramon Space Ltd Scheduling of tasks in a multiprocessor device
CN112465129B (zh) * 2019-09-09 2024-01-09 上海登临科技有限公司 片内异构人工智能处理器
CN114237717A (zh) * 2021-12-31 2022-03-25 合肥工业大学 一种多核异构处理器片上暂存动态调度管理器

Also Published As

Publication number Publication date
WO2024045580A1 (zh) 2024-03-07

Similar Documents

Publication Publication Date Title
US11880329B2 (en) Arbitration based machine learning data processor
CN110347635B (zh) 一种基于多层总线的异构多核微处理器
WO2013012668A1 (en) Virtual gpu
CN103218329A (zh) 数字信号处理数据传输
CN103336672B (zh) 数据读取方法、装置及计算设备
CN111512266A (zh) 用于低功率状态转换的握手协议的系统、装置和方法
CN111258935A (zh) 数据传输装置和方法
JP2017519294A (ja) フラッシュメモリベースストレージデバイスのマルチホスト電力コントローラ(mhpc)
CN114827048B (zh) 一种动态可配高性能队列调度方法、系统、处理器及协议
US11422849B2 (en) Technology for dynamically grouping threads for energy efficiency
CN112306652A (zh) 带有上下文提示的功能的唤醒和调度
CN111258769B (zh) 数据传输装置和方法
US10884477B2 (en) Coordinating accesses of shared resources by clients in a computing device
CN117667328A (zh) 用于调度任务的方法及其相关产品
CN112948001A (zh) 设定张量硬件配置的方法、可读存储介质及装置
CN114281558A (zh) 多核处理器、用于多核处理器的方法及相应产品
CN113033791B (zh) 用于保序的计算装置、集成电路装置、板卡及保序方法
WO2024046018A1 (zh) 指令控制方法、数据缓存方法及相关产品
WO2023016382A1 (zh) 用于片上系统的方法及其相关产品
CN117908959A (zh) 用于执行原子操作的方法及其相关产品
CN117311813A (zh) 用于重排序缓冲的方法及其相关产品
CN117311812A (zh) 用于重排序缓冲的方法及其相关产品
CN113032298B (zh) 用于保序的计算装置、集成电路装置、板卡及保序方法
CN113032299B (zh) 用于处理请求的总线系统、集成电路装置、板卡及保序方法
CN117234674A (zh) 用于执行任务调度的方法及其相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination