CN113204412A - 用于任务调度的方法、电子设备和计算机存储介质 - Google Patents

用于任务调度的方法、电子设备和计算机存储介质 Download PDF

Info

Publication number
CN113204412A
CN113204412A CN202010077759.5A CN202010077759A CN113204412A CN 113204412 A CN113204412 A CN 113204412A CN 202010077759 A CN202010077759 A CN 202010077759A CN 113204412 A CN113204412 A CN 113204412A
Authority
CN
China
Prior art keywords
tasks
task
scheduled
current
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010077759.5A
Other languages
English (en)
Inventor
刘金鹏
李锦�
吴鹏飞
贾真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202010077759.5A priority Critical patent/CN113204412A/zh
Priority to US16/823,445 priority patent/US11416289B2/en
Publication of CN113204412A publication Critical patent/CN113204412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

根据本公开的示例实施例,提供了一种用于任务调度的方法、电子设备和计算机可读存储介质。该方法包括如果确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,则调度当前任务集合中的、当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立,基于当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合,在多个任务集合中的、当前任务集合之后的下一任务集合中确定与待调度任务集合中的任务相独立的任务的子集,下一任务集合至少部分依赖于当前任务集合,以及将子集从下一任务集合移入待调度任务集合中。由此,本方案能够调度并行任务,同时最大化利用当前可用资源。

Description

用于任务调度的方法、电子设备和计算机存储介质
技术领域
本公开的实施例总体涉及信息处理领域,具体涉及用于任务调度的方法、电子设备和计算机存储介质。
背景技术
目前有很多流行的深度学习框架,但是无论是数据并行化还是模型并行化,这些框架均未能基于资源来调度深度学习任务,例如时期(epoch)和模型分区。如果在云中使用这类框架,用户必须先创建虚拟机,并且指定需要多少计算资源,而不知道这些资源的计算能力对于这类深度学习任务是过多的还是不足的。
发明内容
本公开的实施例提供了用于任务调度的方法、电子设备和计算机存储介质,能够以正确维持任务之间的依赖关系的方式调度并行任务,同时最大化利用当前可用资源,避免了资源浪费。
在本公开的第一方面,提供了一种用于任务调度的方法。该方法包括:如果确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,则调度当前任务集合中的、当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立,基于当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合,在多个任务集合中的、当前任务集合之后的下一任务集合中确定与待调度任务集合中的任务相独立的任务的子集,下一任务集合至少部分依赖于当前任务集合,以及将子集从下一任务集合移入待调度任务集合中。
在本公开的第二方面,提供了一种电子设备。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作,该动作包括:如果确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,则调度当前任务集合中的、当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立,基于当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合,在多个任务集合中的、当前任务集合之后的下一任务集合中确定与待调度任务集合中的任务相独立的任务的子集,下一任务集合至少部分依赖于当前任务集合,以及将子集从下一任务集合移入待调度任务集合中。
在本公开的第三方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序被机器执行时使机器实现根据本公开的第一方面所描述的方法的任意步骤。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的信息处理环境100的示例的示意图;
图2示出了根据本公开的实施例的用于任务调度的方法200的示意流程图;
图3示出了根据本公开的实施例的计算图300的示意图;
图4示出了根据本公开的实施例的多个任务集合400的示意流程图;
图5示出了根据本公开的实施例的调度结果500的示例的示意图;以及
图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
经研究发现,现有技术不能提供以下方案:基于神经网络模型的并行任务的资源需求和一个或多个专用处理资源中的可用资源来调度神经网络模型的并行任务,使得神经网络模型的并行任务能够被调度到一个或多个专用处理资源以用于执行。为了实现该方案,需要解决以下问题:
问题1:将神经网络模型划分成能够并行执行的多个任务。
问题2:对于每个任务,需要多少计算资源。
对于问题1,可以通过编译神经网络模型,生成计算图,以及将计算图划分成多个任务集合,例如包括多个任务集合的列表,相同任务集合中的所有任务彼此独立,因而能够并行调度和执行,多个任务集合中的后一任务集合至少部分依赖于前一任务集合,因此多个任务集合中的任务集合逐个调度,也就是说任务集合S中的任务在多个任务集合中的任务集合S之前的所有任务集合中的所有任务之后调度。
对于问题2,可以通过虚拟编译计算图获取神经网络模型的并行任务的资源需求。
但是,独立任务集合中的所有任务是否能够真正被调度用于执行仍然取决于可用资源。例如,当前集合中的任务A、B、C和D能够并行执行,但是如果由于计算资源限制,仅仅任务A、B和D能够调度用于执行,则剩下任务C需要在下一轮调度中被重新调度。但是在下一轮调度中,不能只是简单的将任务C放入下一集合{E、F}以便一起调度任务C、E和F,这是因为任务F依赖于任务C。但是如果只是在下一阶段调度任务C,则将浪费计算资源,因为任务C能够被调度以与任务E并行执行。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于任务调度的方案。在该方案中,如果确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,则调度当前任务集合中的、当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立,基于当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合,在多个任务集合中的、当前任务集合之后的下一任务集合中确定与待调度任务集合中的任务相独立的任务的子集,下一任务集合至少部分依赖于当前任务集合,以及将子集从下一任务集合移入待调度任务集合中。
由此,用于下一轮调度的待调度任务集合中包括本轮未被调度的任务和下一集合中与未被调度的任务独立的任务,而不只是本轮未被调度的任务,从而能够以正确维持任务之间的依赖关系的方式调度并行任务,同时最大化利用当前可用资源,避免了资源浪费。
在下文中,将结合附图更详细地描述本方案的具体示例。
图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100包括控制设备110以及一个或多个专用处理资源120。一个或多个专用处理资源120可以组成任务处理系统。
控制设备110例如但不限于是中央处理器(CPU)。专用处理资源120例如但不限于是图形处理器(GPU)。控制设备110与一个或多个专用处理资源120可以位于相同节点,例如服务器。控制设备110可以耦合到一个或多个专用处理资源120,例如通过总线。
控制设备110用于获取任务集合的列表中要执行的当前任务集合及其资源需求,以及用于获取当前可用资源,例如一个或多个专用处理资源120上的当前可用资源,例如GPU上的存储器资源和/或线程资源。
控制设备110还用于如果确定当前可用资源不能满足任务集合的列表中要执行的当前任务集合的资源需求,则调度当前任务集合中的、当前可用资源能够支持的任务以用于执行,以及基于当前任务集合中的未被调度的任务,创建用于下一轮调度的待调度任务集合,并将列表中的当前任务集合之后的下一任务集合中与待调度任务集合中的任务相独立的任务的子集移入待调度任务集合中。
一个或多个专用处理资源120用于执行被调度的任务。
以下将结合图1和图2描述本公开用于任务调度的方法。
图2示出了根据本公开的实施例的用于任务调度的方法200的示意流程图。例如,方法200可由图1中的控制设备110执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框202处,在控制设备110处,确定任务处理系统的当前可用资源能否满足多个任务集合中要执行的当前任务集合的资源需求,每个任务集合中的任务彼此独立。
在一些实施例中,每个任务集合可以包括神经网络模型的并行任务,例如神经网络模型的并行分区或核函数。神经网络模型可以包括例如深度神经网络模型。
在一些实施例中,多个任务集合可以是基于计算图而生成的,计算图是通过编译神经网络模型而生成的。在一些实施例中,多个任务集合可以组成列表。在下文将结合图3和图4详细说明。
在一些实施例中,并行任务的执行所需的资源可以是通过虚拟编译计算图而获取的。下面将结合图5详细说明。
在一些实施例中,方法200还可以包括基于任务处理系统当前可用的计算资源和存储资源中的至少一项,确定当前可用资源。
在一些实施例中,任务处理系统可以包括一个或多个专用处理资源120,例如一个或多个GPU。计算资源可以包括线程资源,例如一个或多个GPU上的线程资源。存储资源可以包括存储器资源,例如一个或多个GPU上的存储器资源。
在一些实施例中,方法200还可以包括基于当前任务集合中的任务执行所需的资源,确定当前可用资源能否满足当前任务集合的资源需求。例如,可以通过确定当前可用资源是否大于当前任务结合中的所有任务执行所需的资源,来确定当前可用资源能否满足当前任务集合的资源需求。
如果在框202处确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,则在框204处,调度当前任务集合中的、当前可用资源能够支持的任务以用于执行。
调度当前任务集合中的、当前可用资源能够支持的任务以用于执行例如可以包括调度当前任务集合中的、当前可用资源能够支持的最大数目的任务以用于执行。
在一些实施例中,多个任务可以被调度在单个专用处理资源120上执行,例如多个任务被调度在单个GPU上执行。备选地或者附加地,在一些实施例中,多个任务可以被调度在多个专用处理资源120上执行,例如多个任务被调度在多个GPU上执行。
在框206处,基于当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合。创建的待调度任务集合例如可以包括当前任务集合中未被调度的任务。
在框208处,在多个任务集合中的、当前任务集合之后的下一任务集合中确定与待调度任务集合中的任务相独立的任务的子集,下一任务集合至少部分依赖于当前任务集合。
下一任务集合至少部分依赖于当前任务集合例如可以包括下一任务集合中的至少部分任务依赖于当前任务集合中的至少部分任务。例如,下一任务集合中的任务A(例如核函数A)的输入依赖于当前任务集合中的任务B(例如核函数B)的输出。
在框210处,将子集从下一任务集合移入待调度任务集合中。
在一些实施例中,将子集从下一任务集合移入待调度任务集合中可以包括将子集添加到待调度任务集合中,以及从下一任务集合中删除所述子集。
由此,用于下一轮调度的待调度任务集合中包括本轮未被调度的任务和下一集合中与未被调度的任务独立的任务,而不只是本轮未被调度的任务,从而能够以正确维持任务之间的依赖关系的方式调度并行任务,并且最大化利用当前可用资源,避免了资源浪费。此外,还提供了基于包括神经网络模型的并行任务的当前任务集合的资源需求和当前可用资源来调度神经网络模型的并行任务的方案,同时实现上述技术效果。
下面将结合图3和图4描述基于计算图生成多个任务集合的示例。
图3示出了根据本公开的实施例的计算图300的示例的示意图。例如,可以通过将神经网络模型的代码编译成中间表示,以及解析中间表示,得到计算图。
如图3所示,计算图300例如可以是有向无环图DAG,其包括多个节点,以及多条边。节点表示神经网络模型执行的任务,例如核函数,节点之间的边表示任务之间的依赖关系。如图3所示,节点301、302、303和304彼此独立,节点305依赖于节点301和302,节点306依赖于节点303,节点307依赖于节点304和306,以及节点308依赖于节点305和307。
可以通过以下步骤,从计算图生成多个任务集合,例如包括多个任务集合的列表:
步骤1:遍历整个计算图,以找到彼此独立的所有节点,并且将它们放入任务集合。显然相同任务集合中的所有节点彼此独立,因此称为独立集合。
步骤2:在计算图中删除找到的所有节点及其边,使得原计算图退化成新计算图,新计算图为原计算图的子图。
步骤3:将得到的任务集合附加到上一任务集合之后,例如列表中的上一任务之后。
步骤4:以新计算图为目标计算图回到步骤1。
在第一轮遍历中,计算图300中彼此独立的节点301、302、303和304组成任务集合410,因此第一轮遍历后的任务集合包括任务集合410。此时,计算图300退化为包括节点305、306、307和308。
在第二轮遍历中,彼此独立的节点305和306组成任务集合420,因此第二轮遍历后的任务集合包括任务集合410以及任务集合420。此时,计算图300退化为包括节点307和308。
在第三轮遍历中,节点307组成任务集合430,因此第三轮遍历后的任务集合包括任务集合410、任务集合420以及任务集合430。此时,计算图300退化为包括节点308。
在第四轮遍历中,节点308组成任务集合440,因此第四轮遍历后的任务集合包括任务集合410、任务集合420、任务集合430以及任务集合440。任务集合410、任务集合420、任务集合430以及任务集合440例如可组成列表。
最终得到的多个任务集合如图4所示,相同任务集合中的任务彼此独立,而多个任务集合中的下一任务集合至少部分依赖于上一任务集合。例如任务集合420中的节点或任务305和306能够彼此独立执行,但是它们必须等到任务集合410中的任务301、302、303以及304执行完成之后,因为任务305依赖于任务301和302,而任务306依赖于任务303和304。再如,任务集合430中的任务307依赖于任务集合420中的任务306,但是不依赖于任务305。
下面描述通过虚拟编译计算图获取神经网络模型的并行任务的执行所需的资源的示例。
用于神经网络模型的编译器可以根据计算图生成两部分代码:主机代码和设备代码。
主机代码用于控制设备110,其可被编译成控制设备目标代码,例如但不限于是CPU可执行代码。主机代码用于调度运行在专用处理资源上的任务,例如用于调度运行在GPU上的核函数。
设备代码用于专用处理资源120,其被编译成专用处理资源的目标代码,例如GPU的库,等待来自主机代码的调用。
在主机代码的生成过程中,编译器生成在诸如GPU的专用处理资源中分配或释放存储器的主机代码。在设备代码的生成过程中,编译器调用链接到供应商特定编译库的API,或者链接到供应商特定核函数实现库,在任一情况下,可以在编译库内或者核函数实现库内添加对资源计算API的函数调用,以获取被调用核函数的执行所需的存储器。
基于上述原理,可以创建虚拟编译器,修改该虚拟编译器在代码生成期间的编译行为。
在一些实施例中,虚拟编译方法可包括如果确定待生成的代码涉及调用核函数,则添加用于资源计算的API到该代码中。
在一些实施例中,添加用于资源计算的API到该代码中可以包括确定调用的核函数是否在库中实现,以及如果确定核函数在库中实现,则将调用的核函数替换为来自相同库的用于资源计算的API,以获取调用的核函数的执行所需的资源。
备选地或者附加地,在一些实施例中,添加用于资源计算的API到该代码中可以包括确定调用的核函数是否为先前生成的用于在专用处理资源上运行的核源代码编译实现的,以及如果确定调用的核函数是先前生成的用于在专用处理资源上运行的核源代码编译实现的,则添加额外的编译API,以获取调用的核函数的执行所需的资源。
除了涉及调用核函数之外或者作为涉及调用核函数的补充,在一些实施例中,虚拟编译方法还可以包括如果确定待生成的代码涉及分配专用处理资源中的存储器,则在该代码对应的核函数的执行所需的存储器资源上增加所分配的存储器的大小。
对于线程资源需求,虚拟编译方法可以包括通过截取核函数启动API的调用来获取核函数的执行所需的线程资源。例如,通过截取Nvidia驱动器API cuLaunchKernel函数的调用,可以收集启动的核函数所涉及的网格中的块的数量以及每个块中的线程的数量,从而基于这些信息,获取核函数的执行所需的线程资源,例如将网络中的块的数量和每个块中的线程的数量相乘,得到核函数的执行所需的线程资源的数量。
在一些实施例中,虚拟编译方法还可以包括如果确定待生成的代码涉及初始化或释放专用处理资源,或者涉及在控制设备与专用处理资源之间复制数据,则删除待生成的代码。
由此,能够收集神经网络模型的核函数的执行所需的动态资源,即使框架使用了第三方核函数实现。此外,由于从虚拟编译器中移除了专用处理资源相关操作,编译过程仅依赖于CUDA软件,因此可以在客户端编译神经网络模型,而无需配备任何专用处理资源,例如GPU。另外,由于从虚拟编译器移除了实际核操作和数据移动,计算图的编译过程能快速结束。
下面结合图5描述用于任务调度的方法的一个示例。
图5示出了根据本公开的实施例的调度结果500的示例的示意图。图5中示出了控制设备510和4个专用处理资源520-1至520-4。此外,图5还示出了两个任务集合,当前集合530具有{501、502、503、504、505、506、507}这7个任务,下一集合540具有{508、509、511、512}这4个任务。
在控制设备510执行调度期间,{501、502、503、504、505、506}被调度用于执行,例如在专用处理资源520-1至520-4上执行。一个专用处理资源上可以执行多个任务,例如专用处理资源520-1上执行任务501和505,以及专用处理资源520-2上执行任务502和506。随后剩余任务{507}将被剩下作为用于下一轮调度的待调度任务集合。
随后发现下一集合中的任务{508、509}与{507}中的每个任务相独立,则将集合{507}和{508、509}合并成用于下一轮调度的待调度任务集合{507、508、509}。第二轮调度将针对待调度任务集合{507、508、509}进行调度。在第二轮中,虽然专用处理资源520-4上的资源可用,但是由于任务511和512依赖于507,因此不能调度任务511和512。
之后的第三轮调度将调度下一集合中剩余的任务{511、512}。
图6示出了可以用来实施本公开内容的实施例的示例设备600的示意性框图。例如,如图1所示的控制设备110可以由设备600来实施。如图所示,设备600包括中央处理单元(CPU)610,其可以根据存储在只读存储器(ROM)620中的计算机程序指令或者从存储单元680加载到随机访问存储器(RAM)630中的计算机程序指令,来执行各种适当的动作和处理。在RAM 630中,还可存储设备600操作所需的各种程序和数据。CPU 610、ROM 620以及RAM630通过总线640彼此相连。输入/输出(I/O)接口650也连接至总线640。
设备600中的多个部件连接至I/O接口650,包括:输入单元660,例如键盘、鼠标等;输出单元670,例如各种类型的显示器、扬声器等;存储单元680,例如磁盘、光盘等;以及通信单元690,例如网卡、调制解调器、无线通信收发机等。通信单元690允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200,可由处理单元610执行。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元680。在一些实施例中,计算机程序的部分或者全部可以经由ROM 620和/或通信单元690而被载入和/或安装到设备600上。当计算机程序被加载到RAM 630并由CPU 610执行时,可以执行上文描述的方法200的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (15)

1.一种用于任务调度的方法,包括:
响应于确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,调度所述当前任务集合中的、所述当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立;
基于所述当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合;
在所述多个任务集合中的、所述当前任务集合之后的下一任务集合中确定与所述待调度任务集合中的任务相独立的任务的子集,所述下一任务集合至少部分依赖于所述当前任务集合;以及
将所述子集从所述下一任务集合移入所述待调度任务集合中。
2.根据权利要求1所述的方法,其中每个任务集合包括神经网络模型的并行任务。
3.根据权利要求2所述的方法,其中所述多个任务集合是基于计算图而生成的,所述计算图是通过编译所述神经网络模型而生成的。
4.根据权利要求3所述的方法,其中所述并行任务的执行所需的资源是通过虚拟编译所述计算图而获取的。
5.根据权利要求1所述的方法,还包括:
基于所述当前任务集合中的任务执行所需的资源,确定所述当前可用资源能否满足所述当前任务集合的所述资源需求。
6.根据权利要求1所述的方法,还包括:
基于所述任务处理系统当前可用的计算资源和存储资源中的至少一项,确定所述当前可用资源。
7.根据权利要求1所述的方法,其中将所述子集从所述下一任务集合移入所述待调度任务集合中包括:
将所述子集添加到所述待调度任务集合中;以及
从所述下一任务集合中删除所述子集。
8.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行以下步骤:
响应于确定任务处理系统的当前可用资源不能满足多个任务集合中要执行的当前任务集合的资源需求,调度所述当前任务集合中的、所述当前可用资源能够支持的任务以用于执行,每个任务集合中的任务彼此独立;
基于所述当前任务集合中未被调度的任务,创建用于下一轮调度的待调度任务集合;
在所述多个任务集合中的、所述当前任务集合之后的下一任务集合中确定与所述待调度任务集合中的任务相独立的任务的子集,所述下一任务集合至少部分依赖于所述当前任务集合;以及
将所述子集从所述下一任务集合移入所述待调度任务集合中。
9.根据权利要求8所述的电子设备,其中每个任务集合包括神经网络模型的并行任务。
10.根据权利要求9所述的电子设备,其中所述多个任务集合是基于计算图而生成的,所述计算图是通过编译所述神经网络模型而生成的。
11.根据权利要求10所述的电子设备,其中所述并行任务的执行所需的资源是通过虚拟编译所述计算图而获取的。
12.根据权利要求8所述的电子设备,还使得所述设备执行以下步骤:
基于所述当前任务集合中的任务执行所需的资源,确定所述当前可用资源能否满足所述当前任务集合的所述资源需求。
13.根据权利要求8所述的电子设备,还使得所述设备执行以下步骤:
基于所述任务处理系统当前可用的计算资源和存储资源中的至少一项,确定所述当前可用资源。
14.根据权利要求8所述的电子设备,其中将所述子集从所述下一任务集合移入所述待调度任务集合中包括:
将所述子集添加到所述待调度任务集合中;以及
从所述下一任务集合中删除所述子集。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至7中任一项所述的方法。
CN202010077759.5A 2020-01-31 2020-01-31 用于任务调度的方法、电子设备和计算机存储介质 Pending CN113204412A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010077759.5A CN113204412A (zh) 2020-01-31 2020-01-31 用于任务调度的方法、电子设备和计算机存储介质
US16/823,445 US11416289B2 (en) 2020-01-31 2020-03-19 Task scheduling method, electronic device, and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077759.5A CN113204412A (zh) 2020-01-31 2020-01-31 用于任务调度的方法、电子设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN113204412A true CN113204412A (zh) 2021-08-03

Family

ID=77024796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077759.5A Pending CN113204412A (zh) 2020-01-31 2020-01-31 用于任务调度的方法、电子设备和计算机存储介质

Country Status (2)

Country Link
US (1) US11416289B2 (zh)
CN (1) CN113204412A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220091898A1 (en) * 2020-09-20 2022-03-24 International Business Machines Corporation Dynamic volume pooling in data storage management
US11900174B2 (en) 2022-06-22 2024-02-13 Dell Products L.P. Processing unit virtualization with scalable over-provisioning in an information processing system
CN115220921B (zh) * 2022-09-19 2023-01-03 浙江大华技术股份有限公司 资源调度方法及相关装置、图形处理器、摄像器件和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6467002B1 (en) * 1999-10-19 2002-10-15 3Com Corporation Single cycle modified round-robin arbitration with embedded priority
CN107766148A (zh) * 2017-08-31 2018-03-06 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
US20190088989A1 (en) * 2016-06-03 2019-03-21 Unist(Ulsan National Institute Of Science And Technology) Rechargeable battery module and method for manufacturing the same
CN109729110A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 管理专用处理资源的方法、设备以及计算机可读介质
CN110674936A (zh) * 2019-09-24 2020-01-10 上海寒武纪信息科技有限公司 一种神经网络处理方法、装置、计算机设备及存储介质
EP3594811A1 (en) * 2018-07-12 2020-01-15 Toyota Jidosha Kabushiki Kaisha Managing computational tasks in vehicle context

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8689231B2 (en) * 2009-06-30 2014-04-01 Sap Ag System and method for ordering tasks with complex interrelationships
US9063730B2 (en) * 2010-12-20 2015-06-23 Intel Corporation Performing variation-aware profiling and dynamic core allocation for a many-core processor
US9916178B2 (en) * 2015-09-25 2018-03-13 Intel Corporation Technologies for integrated thread scheduling
US10318348B2 (en) * 2016-09-23 2019-06-11 Imagination Technologies Limited Task scheduling in a GPU
US20180300653A1 (en) * 2017-04-18 2018-10-18 Distributed Systems, Inc. Distributed Machine Learning System
US10656964B2 (en) * 2017-05-16 2020-05-19 Oracle International Corporation Dynamic parallelization of a calculation process
CN110389763B (zh) 2018-04-20 2023-06-16 伊姆西Ip控股有限责任公司 用于调度专用处理资源的方法、设备和计算机可读介质
US11340936B2 (en) * 2018-05-04 2022-05-24 Apple Inc. Compiling and scheduling transactions in neural network processor
US20200319867A1 (en) * 2019-04-05 2020-10-08 Apple Inc. Systems and methods for eager software build

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6467002B1 (en) * 1999-10-19 2002-10-15 3Com Corporation Single cycle modified round-robin arbitration with embedded priority
US20190088989A1 (en) * 2016-06-03 2019-03-21 Unist(Ulsan National Institute Of Science And Technology) Rechargeable battery module and method for manufacturing the same
CN107766148A (zh) * 2017-08-31 2018-03-06 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
CN109729110A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 管理专用处理资源的方法、设备以及计算机可读介质
EP3594811A1 (en) * 2018-07-12 2020-01-15 Toyota Jidosha Kabushiki Kaisha Managing computational tasks in vehicle context
CN110674936A (zh) * 2019-09-24 2020-01-10 上海寒武纪信息科技有限公司 一种神经网络处理方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘君楠: "支持复杂神经网络模型并行训练的资源分配算法优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 140 - 52 *

Also Published As

Publication number Publication date
US20210240525A1 (en) 2021-08-05
US11416289B2 (en) 2022-08-16

Similar Documents

Publication Publication Date Title
US11163610B2 (en) Method, device, and computer program product for assigning tasks to dedicated processing resources
CN111832736B (zh) 用于处理机器学习模型的方法、设备和计算机可读存储介质
US11354159B2 (en) Method, a device, and a computer program product for determining a resource required for executing a code segment
WO2018228211A1 (zh) 应用转换方法、装置及设备
US20190087164A1 (en) Technique for inter-procedural memory address space optimization in gpu computing compiler
CN109033001B (zh) 用于分配gpu的方法和装置
US11416289B2 (en) Task scheduling method, electronic device, and computer storage medium
CN111507476A (zh) 部署机器学习模型的方法、设备和计算机程序产品
RU2658190C2 (ru) Управление доступом во время выполнения к интерфейсам прикладного программирования
US9645802B2 (en) Technique for grouping instructions into independent strands
US11704161B2 (en) Method, device and computer program product for processing computing job
CN110471754B (zh) 作业调度中的数据展示方法、装置、设备及存储介质
US20130167126A1 (en) In-order execution in an asynchronous programming environment
US11461291B2 (en) Method, electronic device and computer program product for processing machine learning model
CN110990014A (zh) 骨架屏页面代码的生成方法、装置、服务器及存储介质
CN112925587A (zh) 用于初始化应用的方法和装置
CN111782385A (zh) 用于处理任务的方法、电子设备和计算机程序产品
US20220101194A1 (en) Method, electronic device, and computer program product for processing machine learning model
Desnos et al. Memory Analysis and Optimized Allocation of Dataflow Applications on Shared-Memory MPSoCs: In-Depth Study of a Computer Vision Application
JP5655448B2 (ja) Plcシステム、その開発支援装置
US20220172044A1 (en) Method, electronic device, and computer program product for deploying machine learning model
CN116662009A (zh) Gpu资源分配方法、装置、电子设备和存储介质
US10375206B1 (en) Entity-component architecture with components having multiple configurations
US9921814B2 (en) Control flow graph analysis
CN114168151A (zh) 基于容器的程序编译方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination