CN110389763B

CN110389763B - 用于调度专用处理资源的方法、设备和计算机可读介质

Info

Publication number: CN110389763B
Application number: CN201810360413.9A
Authority: CN
Inventors: 赵军平; 王鲲; 彭麟; 陈飞
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2023-06-16
Anticipated expiration: 2038-04-20
Also published as: CN110389763A; US20190324810A1; US11061731B2

Abstract

本公开的实施例涉及用于调度专用处理资源的方法、设备和计算机可读介质。根据一些实施例，获取待编译的应用的源代码以便编译；在所述源代码被编译期间，提取与所述应用关联的元数据，述元数据指示所述应用所需要的专用处理资源量；以及基于所述元数据，获取被分配给所述应用的专用处理资源。通过这种方式，可以提高专用处理资源调度系统的性能和资源利用率。

Description

用于调度专用处理资源的方法、设备和计算机可读介质

技术领域

本公开的实施例总体涉及专用处理资源的调度，并且更具体地，涉及用于调度专用处理资源的方法、设备以及计算机可读介质。

背景技术

客户端上的应用可以被设计成利用诸如处理和存储资源的各种资源来完成各种处理或分析任务。随着诸如机器学习、深度学习、数据挖掘等任务的复杂度不断增加，需要大量和/或可变的专用处理资源来满足相应应用的运行。例如，已经开发了基于云的计算系统，该计算系统包括具有一个或多个专用处理资源的机器。不同客户端可以根据需要来租赁该计算系统的专用资源用以运行各自的应用。为了更好地服务于这些处理和分析任务，需要估计执行处理和分析任务时所需的专用处理资源的资源量，从而改进对于专用处理资源的调度过程。

发明内容

本公开的实施例提供了用于调度专用处理资源的方法、设备以及计算机可读介质。

根据本公开的第一方面，提供了一种用于调度专用处理资源的方法。该方法包括：获取待编译的应用的源代码以便编译；在源代码被编译期间，提取与应用关联的元数据，元数据指示应用所需要的专用处理资源量；以及基于元数据，获取被分配给应用的专用处理资源。

根据本公开的第二方面，提供了一种用于调度专用处理资源的设备。该设备包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得第一设备执行动作，动作包括：获取待编译的应用的源代码以便编译；在源代码被编译期间，提取与应用关联的元数据，元数据指示应用所需要的专用处理资源量；以及基于元数据，获取被分配给应用的专用处理资源。

根据本公开的第三方面，提供了一种计算机可读介质。该计算机可读介质上存储有机器可执行指令，当机器可执行指令在被至少一个处理器执行时，使得至少一个处理器实现根据第一方面的方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了可以在其中实现本公开的某些实施例的系统的示意框图；

图2示出了根据本公开的某些实施例的用于调度专用处理资源的方法的流程图；

图3示出了根据本公开的某些实施例的元数据提取系统的示例性框架；

图4示出了根据本公开的某些实施例的其中由客户端分析元数据的方法的流程图；

图5示出了根据本公开的某些实施例的其中由远程服务器分析元数据的方法的流程图；以及

图6示出了一个可以用来实施本公开的实施例的设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

使用深度学习、高性能计算、机器学习、和人工智能等新兴技术的处理在较长时间段上需要大量专用处理资源。例如使用这些新兴技术的处理在数小时、数天、甚至数周的时间段上对于专用处理资源的计算能力(通常以每秒浮点运算FLOPS表示)和存储能力(专用处理资源上的存储器)具有极大需求。因此在执行使用这些新兴技术的处理之前，正确地估计这些处理所需的专用处理资源的资源量，对于提高专用处理资源的利用率和降低成本非常重要。

诸如GPU的专用处理资源通常是昂贵的，因而针对每个应用配置专有的GPU资源将显著提高成本，因此将应用运行在共享GPU上将很有价值。在满足服务质量QoS的情况下，在合适的GPU上进行的合理调度可以实现许多目标，诸如提高的GPU利用率以及降低的GPU资源竞争。因此在执行使用这些新兴技术的处理之前，正确地估计这些处理所需的专用处理资源的资源量，对于提高专用处理资源的利用率和降低成本非常重要。

通常，为了估计在针对这些新兴技术的应用/框架中执行这些处理所需的专用处理资源的资源量，要么需要大量先验知识，要么依赖于针对这些新兴技术的应用/框架本身。因此，要求用户具有大量先验知识来手动估计执行使用这些新兴技术的处理所需的专用处理资源的资源量通常不可行。例如，首先，手动调整可能需要调整的人员具有很高的专业技能，其需要对于模型、系统、GPU硬件等具有深入的了解；其次，当源代码被修改时，需要重新调整GPU资源量，这将是耗时的；再者，如果分配给应用过多的资源，则可能会造成不必要的资源浪费。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种用于调度专用处理资源的方案。该方案通过在应用的编译过程中提取与该应用相关的元数据，能够估计出该应用在被实际运行时所需要的专用处理资源。在该应用被实际运行时，可以由远程控制器将专用处理资源池中的专用处理器资源分配给该应用。以此方式，可以自动化地预测应用在实际运行时所需要的专用处理资源的数量。由于该过程是自动进行的，因而允许用户频繁地修改或调整应用的模型，同时能够高效地预测出应用所需要的专用处理资源。由此，可以根据准确估计出的所需资源量来调度专用处理资源，从而提高专用处理资源调度系统的性能和资源利用率。

注意，虽然在本文中仅以深度学习应用作为新兴技术应用的示例进行了讨论，然而应当理解，本发明的实施例可以同样适用于其它新兴技术应用，诸如高性能计算应用、机器学习应用和人工智能应用。

图1示出了本公开的实施例可以在其中被实现的示例计算系统100的示意图。在该计算系统100中部署了多个服务器包括服务器110-1、服务器110-2、...、服务器110-N(以下统称称为服务器110，其中N为大于1的自然数)。计算系统100还包括专用处理资源160-1、专用处理资源160-2、...、专用处理资源160-M(以下统称为专用处理资源160，其中M为大于1的自然数)。每个服务器110上具有一个或多个专用处理资源160。包括多个专用处理资源服务器160的这样的专用处理资源集群或池是动态和共享的。

在图1的示例中，服务器110-1具有专用处理资源160-1，服务器110-2具有专用处理资源160-2，并且服务器110-N具有专用处理资源160-N。专用处理资源160的示例可以包括但不限于图形专用处理资源(GPU)、现场可编程门阵列(FPGA)等。为便于讨论，某些实施例将以GPU作为专用处理资源160的示例进行描述。除了专用处理资源160之外，服务器110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理单元(未示出)。

图1还示出了多个客户端120-1、120-2...120-N等(以下统称或单独称为客户端120，其中N为大于1的自然数)，分别具有要运行的应用150-1、150-2、...、150-N(以下统称为应用150，其中N为大于1的自然数)。应用150可以是机器上可运行的任何应用，该应用可以被设计为执行相应数据处理或分析等任务。作为示例，应用150可以执行与深度学习(DL)、机器学习(ML)或高性能计算(HPC)以及人工智能(AI)等相关的数据处理或分析任务。

为了能够快速高效运行应用150，客户端120可以请求服务器110的专用处理资源160来运行这些应用150。在这样的实现中，客户端120可以通过互连网络130连接到一个或多个服务器110，并且将应用150交由服务器110的一个或多个专用处理资源160运行。取决于客户端120、服务器110和/或专用处理资源160所支持的接口，互连网络130可以支持基于诸如远程直接内存访问(RDMA)和传输控制协议(TCP)等各种网络传输技术的不同类型的有线或者无线连接。

应当理解，图1示出的设备和/或布置仅是一个示例。在其他示例中，该计算系统100可以包括任意适当数目的服务器110和客户端120。每个服务器110可以安装有任意适当数目的专用处理资源160，并且每个客户端120可以具有待运行的多个应用150。此外，专用处理资源调度系统100还包括远程控制器140和远程数据库170。

远程控制器140可以基于客户端120所请求的专用处理资源的资源量和系统100中的可用专用处理资源来为客户端120分配专用处理资源160。然后，客户端130可以向专用处理资源服务器110请求所分配的专用处理资源160。远程数据库170能够通过互联网络130与客户端130以及远程控制器140进行通信。远程数据库170能够存储客户端130编译应用150时所提取的元数据，并且该元数据能够由远程控制器140获取。应当理解，尽管在图1中所示出的控制器140和远程数据库170是分离的，但是二者也可以被实现在同一个设备上。

为了描述清楚和简洁，将主要以GPU作为专用处理资源160的示例来详细描述本公开的示例实施例。如已知的，GPU作为一种专用处理器，其强大的计算能力源自其大量的内核和高带宽的内存。在GPU硬件架构中，一个GPU通常具有大量的GPU内核(kernel)，例如几千个或者接近一万个内核。GPU内核作为一种专用处理资源，是最基本的处理单元，也被称为流处理器(SP)。指令和任务最终都在GPU内核上被处理。多个GPU内核同时执行指令，从而实现了GPU的并行计算。多个SP加上一些其他资源，例如寄存器、共享内存，可以组成一个流多处理器(SM)。

但是，应当理解，GPU仅仅是一种示例性的专用处理资源160，并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他专用处理资源，例如诸如现场可编程门阵列(FPGA)之类的加速器中的处理资源，不论是目前已知的还是将来开发的，而并不仅仅限于GPU内核。

图2示出了根据本公开的一些实施例的用于调度专用处理资源160的方法200的流程图。方法200例如可以在如图1所示的客户端120处执行。

在210，客户端120获取待编译的应用150的源代码以便编译。作为一种非限制性的实施例，该源代码可以是Python源代码。在本公开的实施例中，以深度学习DL应用为例来说明应用150。深度学习应用可以包括用于图片分类、自动驾驶的应用。当前，较为流行的深度学习框架包括Tensorflow、MXNet等。在一种非限制性实施例中，由客户端120中的编译器加载源代码以进行编译。编译器能够将源代码便以为可执行的二进制代码。当前针对深度学习的编译技术包括Tensorflow的XLA、MXNet的TVM stack、Intel的Ngraph等。本公开的方案在编译器中增加了元数据提取功能，从而使得应用150所需要的GPU资源能够被估计，关于提取元数据的具体内容在下文叙述。

在220，在源代码被编译期间，由编译器提取与应用150关联的元数据，该元数据指示应用150所需要的专用处理资源量。编译器被安装在客户端120上。所提取的元数据可以包括与深度学习应用的模型相关的信息以及与应用所需要的专用处理资源相关的信息。

编译器进行编译的方式可以包括静态编译和动态编译。应当理解，静态编译或动态编译对于深度学习模型是透明的，并且可以由深度学习架构进行配置。静态编译即提前编译，在编译和和链接所有相关的代码和库后生成可执行的GPU二进制代码，其具有具体的GPU硬件信息并且依赖该硬件信息。尽管静态编译应用很广泛，其通常编译起来较慢，但是它在接口连接方面表现较好。静态编译可能缺乏特定于硬件的深度优化。动态编译即实时编译，其在运行时(在实际运行之前)被编译，利用了可用的具体GPU硬件信息，其针对特定的GPU硬件来动态地编译代码。动态编译在初始化内核加载时可能较慢，但是由于进行了硬件特定优化，可以在执行时更快或具有更密集的存储器足印。动态编译的方式对于一些移动设备或嵌入式是被特别适用。

一种非限制性的动态编译方式为MXNet的TVM stack编译框架，其先进行独立于硬件的高层模型分析，然后进行面向硬件的编译和优化。另一种动态编译方式为Tensorflow的XLA，其先进行高层的、独立于硬件的优化，包括通用命令、融合、缓存分析等；然后，进行底层的、特定于硬件的优化，包括进一步的融合、分割等；随后生成可以执行的二进制代码。利用这些编译技术，可以优化深度学习以实现更快的性能、更少的足印或提高接口性能，从而促进提高特定硬件的性能。应当理解，现有技术中的编译方式对于本公开的方案都是适用的。

提取元数据的方式包括动态提取方式和静态提取方式。在动态提取方式中，通过提取函数来提取所述元数据，该提取函数被嵌入在对源代码进行编译的编译器中。作为一种非限制性的实施例，在编译期间，利用钩子(hook)函数或命令，可以提取出模型信息，包括批处理大小、层信息等。进一步，通过特定程序接口或语句，可以估计出内核计算资源。在静态提取方式中，由编译器获取源代码被编译期间所产生的日志。然后，由编译器根据该日志来提取与应用150关联的元数据。作为一种非限制性的示例，可以适用特定程序语句提取出静态GPU存储使用情况。

图3示出了元数据提取系统300的一种示例性框架。作为一种非限制性的实施例，元数据提取系统300结合静态提取方法和动态提取方法，从而在现有的编译器中设置多个提取函数以提取同步的元数据。在图3中，元数据提取系统300包括输入310、编译器320和输出330。输入310的一种示例是应用150所对应的源代码。编译器320包括静态编译提取函数320-1、第一提取函数320-2、第二提取函数320-3、...、第N取函数320-N(以下统称为提取函数320)；对应的，输出330包括第一输出330-1、第二输出330-2、第三输出330-3...、第N输出330-N(以下统称为输出330)，其中N为大于1的自然数。在一个示例中，静态编译选项320-1分析输入310以获得第一输出330-1，第一提取函数320-2提取模型的层分布信息以获得第二输出330-2，第二提取函数320-3提取GPU内核信息以获得第三输出330-3，第N提取函数320-N估计GPU资源信息以获得第N输出330-N。应当理解，更多数目的提取函数可以被提供以提取另外的元数据。

作为一种非限制性的实施例，深度学习应用的模型为深度神经网络DNN。元数据可以包括以下中的至少一项：模型中层的数目、层的类型以及输入到深度学习应用的数据的格式信息。具体地，模型中的层的类型可以包括卷积层、池化层、完全连接等。作为一种非限制性的实施例，输入到深度学习应用的数据的格式可以是图片格式，相应的格式信息可以包括图片的分辨率等。作为另一种非限制性的实施例，应用150所需要的专用处理资源为图形处理单元GPU。相应地，元数据包括以下中的至少一项：应用150所需要的GPU的内核的数目、应用150所需要的GPU的计算资源量、应用150所需要的GPU的存储器资源量。其中，计算资源量可以包括线程数、内核数、块数等。在下文中参考表1进一步描述了元数据项。

回到图2，在230，基于元数据，由客户端120获取被分配给应用150的专用处理资源。该元数据既可以由客户端120进行分析，也可以由远程控制器140分析。下文分别结合图4和图5介绍其中由客户端120分析元数据的方法400和其中由远程控制器140分析数据的方法500。

图4示出了其中由客户端120分析元数据的方法400的流程图。在410，由客户端120分析元数据以预测应用150所需要的所述专用处理资源160。在420，客户端120向远程控制器140请求专用处理资源160。在430，客户端120接收来自远程控制器140的专用处理资源通知，该专用处理资源通知指示由远程控制器140为应用150分配的专用处理资源。在该方法400中，客户端120独立分析元数据，从而可以减少与远程控制器140或远程数据库170的交互，从而降低数据交互的数量，降低网络130的负荷。

图5示出了其中由远程控制器140分析数据的方法500的流程图。在510，由客户端120将所述元数据发送给远程数据库170。在520，客户端120向远程控制器140请求专用处理资源160，以使得远程控制器140访问远程数据库170并且分析元数据。在530，客户端120接收来自远程控制器140的专用处理资源通知，该专用处理资源通知指示由远程控制器140为应用150分配的专用处理资源160。在该实施方式中，元数据被存储在专门的数据库170中，并且该远程数据库170可以由远程控制器140访问。

作为一种非限制性的实施例，所提取的元数据被存储在远程数据库170之前可以被预处理。具体地，每个应用150可以被指派唯一的标识UUID。然后，元数据中的每个数据项可以作为该应用150的UUID的一个参数。表1列出了远程数据库170中对于元数据的一种存储格式：

表1

表1中所列出的所有参数可以被发送给远程数据库170。远程控制器140可以访问被存储在远程数据库170中的信息并且调度专用处理资源160。在应用150被分配了专用处理资源160并且被实际运行时，该应用150的性能信息和/或GPU性能信息可以被收集起来并且被反馈到远程数据库170中。相应地，在表1中可以增加被反馈的性能信息条目。

通过将元数据统一存储到远程数据库170，不同的应用150相关的元数据可以被统一地存储起来，以便于远程控制器140作总体调度，从而使得针对专用处理资源160的调度效率得到提高，进而提高系统100整体的性能。

作为一种非限制性的实施例，客户端120与远程控制器140交互以获取专用处理资源160的过程在下文中被详细描述。客户端120中可以具有向远程控制器140请求资源的请求模块或接口。请求模块将专用处理资源请求通过互连网络130发送给远程控制器140，该请求中携带应用150的UUID。作为一种非限制的实施例，客户端120的专用处理资源请求中还可以携带预算信息以及应用150的期望运行时间。远程控制器140根据该专用处理资源请求中诸如UUID的信息来查询远程数据库170。远程控制器140从远程数据库170中获取元数据信息，然后可以进行专用处理资源的高级调度。调度的具体动作包括针对请求资源的应用150来进行全面的资源评估、过滤并且匹配合适的专用处理资源。在调度过程中，远程控制器140还可以参考实际的历史运行性能，以用于标准化的或加权的调度过程。然后，远程控制器140将所指派的专用处理资源160的列表或编号返回给应用150。

图6示出了可以用来实施本公开的实施例的设备600的示意性框图。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200或300，可由处理单元601执行。例如，在一些实施例中，方法200或300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到RAM 603并由CPU 601执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，CPU 601也可以以其他任何适当的方式被配置以实现上述过程/方法。

本公开的方案可以适用于各种应用场景。例如，通过本公开的方案，基于所提取的元数据，能够滤出或寻找到应用所匹配的GPU资源。具体地，所提取的元数据可以包括深度学习模型的层数以及历史层性能统计信息、估计的GPU存储使用情况、估计的GPU计算块等。寻找匹配的GPU资源的过程通过对输入信息进行处理以得到输出信息。输入信息可以包括应用的元数据、成本信息(可选)、性能期望(可选)、历史运行性能(可选)；输入信息还可以包括可用的GPU以及GPU共享状态。而输出信息包括能够最好地实现目标的合适的GPU。所要实现的目标包括以下中的至少一项：最高的GPU利用率、对于已经存在的正运行的应用的最低资源竞争、最快的运行性能。

另外，本公开的方案还可以用于针对服务质量QoS的调度。例如，对于具有类似资源需求的应用，如果可能的话，不应该使它们使用相同的GPU。如果一个应用需要的内核数目多，而另一个应用需要的内存多，则可以使这两个应用使用相同的GPU。换言之，分别为计算密集型和内存密集型的应用可以共享相同的GPU资源。

本公开的方案通过在应用的编译期间提取与该应用相关的元数据，然后将元数据存储在一个中心数据库中，随后可以利用被存储的元数据来进行高级GPU资源管理。也可以由客户端分析元数据并且得出自身所需要的GPU资源量。相对于客户端处于远端的控制器能够对GPU资源池中的GPU资源进行分配以满足应用的需要。调度可以包括初始GPU调度，也可以包括针对QoS的动态资源重新调度。

通过本公开的方案，可以实现很多有益的技术效果。例如，在任何新的源代码被开发出来后，即使该源代码未被实际地运行，也能够自动地提取出感兴趣的元数据。该自动提取过程可以有效避免对于经验的高要求，而且比人工调试更为高效。此外，本公开的方案可以实现高级GPU资源调度，能够最优地匹配应用的需求，同时能够实现提高的资源利用率以及降低的资源竞争。通过本公开的方案，可以针对包括深度学习应用的各种新型应用更为高效地分配GPU资源。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是-―但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实施例。

Claims

1.一种用于调度专用处理资源的方法，包括：

获取待编译的应用的源代码以便编译；

在所述源代码被编译期间，提取与所述应用关联的元数据，所述元数据指示所述应用所需要的专用处理资源量，其中所述应用包括深度学习应用，并且其中所述元数据包括以下至少一项：

所述深度学习应用的模型中的层的类型；

所述深度学习应用的模型中的所述层的数目；以及

被输入到所述深度学习应用的数据的格式；以及

基于所述元数据，获取被分配给所述应用的专用处理资源。

2.根据权利要求1所述的方法，其中提取与所述应用关联的所述元数据包括：

通过提取函数来提取所述元数据，所述提取函数被嵌入在对所述源代码进行编译的编译器中。

3.根据权利要求1所述的方法，其中获取被分配给所述应用的所述专用处理资源包括：

分析所述元数据以预测所述应用所需要的所述专用处理资源；

向远程控制器请求专用处理资源；以及

接收来自所述远程控制器的专用处理资源通知，所述专用处理资源通知指示由所述远程控制器为所述应用分配的专用处理资源。

4.根据权利要求1所述的方法，其中获取被分配给所述应用的所述专用处理资源包括：

将所述元数据发送给远程数据库；

向远程控制器请求专用处理资源，以使得所述控制器访问所述远程数据库并且分析所述元数据；以及

5.根据权利要求1所述的方法，其中所述应用所需要的所述专用处理资源为图形处理单元GPU，并且其中所述元数据包括以下至少一项：

所述应用所需要的GPU的核的数目；

所述应用所需要的GPU的计算资源量；以及

所述应用所需要的GPU的存储器资源量。

6.根据权利要求5所述的方法，其中所述应用通过网络连接来从GPU资源池获取所需要的GPU。

7.根据权利要求1所述的方法，其中提取与所述应用关联的所述元数据包括：

获取所述源代码被编译期间所产生的日志；以及

根据所述日志，提取与所述应用关联的所述元数据。

8.一种用于调度专用处理资源的设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：

获取待编译的应用的源代码以便编译；

所述深度学习应用的模型中的层的类型；

所述深度学习应用的模型中的所述层的数目；以及被输入到所述深度学习应用的数据的格式；以及

基于所述元数据，获取被分配给所述应用的专用处理资源。

9.根据权利要求8所述的设备，其中提取与所述应用关联的所述元数据包括：

10.根据权利要求8所述的设备，其中获取被分配给所述应用的所述专用处理资源包括：

向远程控制器请求专用处理资源；以及

11.根据权利要求8所述的设备，其中获取被分配给所述应用的所述专用处理资源包括：

将所述元数据发送给远程数据库；

12.根据权利要求8所述的设备，其中所述应用所需要的所述专用处理资源为图形处理单元GPU，并且其中所述元数据包括以下至少一项：

所述应用所需要的GPU的核的数目；

所述应用所需要的GPU的计算资源量；以及

所述应用所需要的GPU的存储器资源量。

13.根据权利要求12所述的设备，其中所述应用通过网络连接来从GPU资源池获取所需要的GPU。

14.根据权利要求8所述的设备，其中提取与所述应用关联的所述元数据包括：

获取所述源代码被编译期间所产生的日志；以及

根据所述日志，提取与所述应用关联的所述元数据。

15.一种计算机可读介质，所述计算机可读介质上存储有机器可执行指令，当所述机器可执行指令在被至少一个处理器执行时，使得所述至少一个处理器实现根据权利要求1-7中任一项所述的方法。