CN110389824A

CN110389824A - 处理计算任务的方法、设备和计算机程序产品

Info

Publication number: CN110389824A
Application number: CN201810359117.7A
Authority: CN
Inventors: 赵军平; 彭麟; 应治; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2019-10-29
Also published as: US20190324809A1; US11249811B2

Abstract

本公开的实现涉及处理计算任务的方法、设备和计算机程序产品。根据本公开的一个示例性实现，提供了一种用于处理计算任务的方法。该方法包括：获取多个计算资源的状态信息；响应于接收到基于神经网络模型的计算任务，确定与神经网络模型相关联的多个层的配置信息；基于配置信息获取与多个层中的至少一部分层相关联的参数数据；以及基于状态信息和参数数据，从多个计算资源中选择一组计算资源以用于处理计算任务。根据本公开的其他示例性实现，提供了处理计算任务设备和计算机程序产品。根据本公开的示例性实现，可以充分利用多个计算资源，并且确保多个计算资源之间的负载平衡。

Description

处理计算任务的方法、设备和计算机程序产品

技术领域

本公开的实现概括地涉及包括专用计算资源的计算系统，并且更具体地，涉及用于处理计算任务的方法、设备以及计算机程序产品。

背景技术

客户端上的应用可以被设计用于利用处理和存储资源等计算资源来完成各种处理或分析任务。随着诸如机器学习、深度学习、数据挖掘等任务的需求和复杂度不断增加，需要大量和/或可变的计算资源来满足相应应用的运行。这可以通过具有多个专用计算资源的机器或系统来实现，其中应用可以被调度到该机器或系统的一个或多个专用计算资源上运行。例如，已经开发了基于云的计算系统，该计算系统包括具有一个或多个专用计算资源的机器。不同客户端可以根据需要来租赁该系统的计算资源(例如，专用计算资源)用以运行各自的应用。

随着计算机技术的发展，计算资源的种类越来越丰富，并且已经不再局限于传统的诸如中央处理单元的计算资源。例如，目前图形处理单元(Graphic Processing Unit，GPU)的计算能力越来越强。由于GPU特有性质，GPU特别适合于执行有关深度学习(DeepLearning)、高性能计算(High Performance Computing)、以及机器学习(MachineLearning)等方面的计算任务。然而，对于普通的客户端设备以及常规的云计算设备而言，这些设备的图形处理单元的性能通常较为有限，并不具有高性能的处理能力。因而，此时如何利用(例如以远程方式)利用其他设备所具有的图形处理单元的计算能力来处理计算任务成为一个研究焦点。

然而，目前的一些技术方案并不能充分且有效地利用远程的计算资源(例如，计算资源池中的计算资源)的处理能力，而是在资源池中可能会出现计算资源的闲置和/或工作负载不平衡的状况。因此，期望能够提供一种以简单并且有效的方式来利用资源池中的多个计算资源处理计算任务的技术方案。

发明内容

本公开的实现提供了用于处理计算任务的方法、设备和相应的计算机程序产品。

根据本公开的第一方面，提供了一种用于处理计算任务的方法。该方法包括：获取多个计算资源的状态信息；响应于接收到基于神经网络模型的计算任务，确定与神经网络模型相关联的多个层的配置信息；基于配置信息获取与多个层中的至少一部分层相关联的参数数据；以及基于状态信息和参数数据，从多个计算资源中选择一组计算资源以用于处理计算任务。

根据本公开的第二方面，提供了一种用于处理计算任务的设备。该设备包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：获取多个计算资源的状态信息；响应于接收到基于神经网络模型的计算任务，确定与神经网络模型相关联的多个层的配置信息；基于配置信息获取与多个层中的至少一部分层相关联的参数数据；以及基于状态信息和参数数据，从多个计算资源中选择一组计算资源以用于处理计算任务。

根据本公开内容的第三方面，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据第一方面的方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实现进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实现中，相同的参考标号通常代表相同部件。

图1示意性示出了适于实现本公开内容实现方式的示例性计算系统的框图；

图2示意性示出了根据一个技术方案的用于处理基于神经网络模型的计算任务的过程的框图；

图3示意性示出了根据本公开的一个示例性实现的处理计算任务的框图；

图4示意性示出了根据本公开的一个示例性实现的用于处理计算任务的方法的流程图；

图5示意性示出了根据本公开的一个示例性实现的用于获取与神经网络相关联的参数数据的框图；

图6示意性示出了根据本公开的一个示例性实现的针对排序后的一个层的参数选择计算资源的框图；

图7示意性示出了根据本公开的一个示例性实现的针对排序后的一个层的参数选择计算资源的框图；

图8示意性示出了根据本公开的一个示例性实现的用于处理计算任务的设备的框图；以及

图9示意性示出了根据本公开的一个示例性实现的用于处理计算任务的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

如上，专用计算资源可以在客户端本地或者可以由远程机器或系统提供。在一些示例中，可以部署基于云的计算系统，其中包括具有一个或多个专用计算资源的多个机器。该计算系统的专用计算资源可以由不同客户端根据需要来使用，以将相应的应用调度到可用的专用计算资源上运行。

图1示出了本公开的实现可以在其中被实现的示例计算系统100的示意图。在该计算系统100中部署了用于应用运行的多个服务器，包括服务器110-1、服务器110-2、服务器110-3、...、服务器110-U(以下统称为或单独称为服务器110，其中U为大于1的自然数)。计算系统100还包括专用计算资源160-1、专用计算资源160-2、专用计算资源160-3、...、专用计算资源160-V(以下统称为或单独称为专用计算资源160，其中V为大于1的自然数)。每个服务器110上可以具有一个或多个专用计算资源160。

在图1的示例中，服务器110-1具有专用计算资源160-1，服务器110-2具有专用计算资源160-2，并且服务器110-U具有专用计算资源160-V。将会理解，在此并不限制每个服务器仅具有一个计算资源，而是一个服务器可以具有一个或多个计算资源。因而，在此U和V的数值可以是不相等的。

在本公开的上下文中，专用计算资源160的示例可以包括但不限于图形专用计算资源(GPU)、现场可编程门阵列(FPGA)等。为便于讨论，某些实现将以GPU作为专用计算资源的示例进行描述。除了专用计算资源160之外，服务器110还可以包括诸如中央处理单元(CPU)的一个或多个通用处理单元(未示出)。

图1还示出了多个客户端120-1、120-2……、120-P等(以下统称或单独称为客户端120，其中P为大于1的自然数)，分别具有要运行的应用150-1、150-2、……、150-Q(以下统称为或单独称为应用150，其中Q为大于1的自然数)。应用150可以是机器上可运行的任何应用，该应用可以被设计为执行相应数据处理或分析等任务。作为示例，应用150可以执行与神经网络相关的数据处理或分析任务。将会理解，在此并不限制每个客户端仅具有一个应用，而是一个客户端可以具有一个或多个应用。因而，在此P和Q的数值可以是不相等的。

为了能够快速高效运行这些应用和/或为了保留本地计算资源，客户端120可以请求服务器110上的专用计算资源160来运行这些应用150。在这样的实现中，客户端120可以通过互连网络130连接到一个或多个服务器110，并且将应用150交由服务器110的一个或多个专用计算资源160运行。取决于客户端120、服务器110和/或专用计算资源160所支持的接口，互连网络130可以支持基于诸如远程直接内存访问(RDMA)和传输控制协议(TCP)等各种网络传输技术的不同类型的有线或者无线连接。

应当理解，图1示出的设备和/或布置仅是一个示例。在其他示例中，该计算系统100可以包括任意适当数目的服务器110和客户端120。每个服务器110可以安装有任意适当数目的专用计算资源160，并且每个客户端120可以具有待运行的多个应用150。此外，尽管被单独示出，调度器140在实际应用中可以由独立于服务器110的其他设备实现，或者可以被部分或全部实现在一个或多个服务器110上。

为了描述清楚和简洁，将主要以GPU内核为例来详细描述本公开的示例实现。如已知的，GPU作为一种专用处理器，其强大的计算能力源自其大量的内核和高带宽的内存。在GPU硬件架构中，一个GPU通常具有大量的GPU内核，例如5120或者接近10000个内核。GPU内核作为一种专用计算资源，是最基本的处理单元，也被称为流处理器(SP)。指令和任务最终都在GPU内核上被处理。多个GPU内核同时执行指令，从而实现了GPU的并行计算。多个SP加上一些其他资源，例如寄存器、共享内存，可以组成一个流多处理器(SM)。

但是，应当理解，GPU仅仅是一种示例性的专用计算资源，并非用于限制本公开的范围。在此描述的精神和原理可以应用于其他专用计算资源，例如诸如现场可编程门阵列(FPGA)之类的加速器中的计算资源，不论是目前已知的还是将来开发的，而并不仅仅限于GPU内核。

随着云计算的发展，目前已经提出了基于云架构的用于处理计算任务的技术方案。例如，客户端150中的应用120可以请求服务器110中的计算资源160。应当注意，由于计算任务的复杂性，计算任务通常需要调用多个计算资源160。在下文中，将以基于神经网络模型的计算任务为具体示例，详细描述本公开的实现的更多细节。图2示意性示出了根据一个技术方案的用于处理基于神经网络模型的计算任务210的过程的框图200。如图2所示，计算任务210可以是基于神经网络模型的计算任务，在此该神经网络可以涉及多个层，例如以附图标记212、214、……、216所示的层1、层2、……、层N。将会理解，层1至层N中的每个层将会涉及定义神经网络模型的大量参数，例如，梯度、权重、偏置等等参数。对于不同的层而言，所涉及的参数的数据量将会存在较大的差异，例如参数的数量可以在数十至数百万或者更大范围内变化。因而，如何以尽量均衡的方式来由多个计算资源(例如，计算资源160-1至160-V)处理计算任务210成为一个难题。

将会理解，目前已经提供了例如参数服务器(Parameter Server)技术的用于处理基于神经网络模型的计算任务的技术方案。然而，现有的技术方案并不能有效地利用资源池中的多个计算资源的计算性能。基于现有技术中的不足，本公开提出了一种用于处理计算任务的方法。

图3示意性示出了根据本公开的一个示例性实现的处理计算任务的框图300。如图3所示，可以获取资源池320中的多个计算资源160-1至160-V的状态信息330。在接收到基于神经网络模型210的计算任务的情况下，可以确定与神经网络模型210相关联的多个层(例如，层(例如，图2中以附图标记212、214、……、216所示的层1、层2、……、层N)的配置信息。基于配置信息，可以获取与多个层中的至少一部分层相关联的参数数据310。继而，基于状态信息330和参数数据310，可以从多个计算资源160中选择一组计算资源以用于处理基于神经网络模型320的计算任务。

图4示意性示出了根据本公开的一个示例性实现的用于处理计算任务的方法400的流程图。在方框410处，获取多个计算资源160的状态信息330。在此的状态信息330可以涉及计算资源的多个方面的指标。根据本公开的一个示例性实现，多个计算资源的资源信息包括以下多个指标中的至少任一指标：多个计算资源的处理能力信息、存储器资源信息以及带宽资源信息。

根据本公开的一个示例性实现，存储器资源信息例如可以包括GPU可用的存储空间的大小。该指标例如可以以绝对数值来衡量：例如，一个GPU的存储器可以包括8GB的存储空间，而另一GPU的存储器可以包括5GB的存储空间。当以绝对数值来衡量时，为了更便于比较各个计算资源的存储器资源信息，可以设置归一化规则来将多个计算资源的存储器资源信息统一至相同的标准。例如，假设多个计算资源中容量最大的存储器包括10GB，则可以将该计算资源的存储器资源信息设置为1，并且基于存储器容量的比例来计算其他计算资源的存储器资源信息。例如，包括5GB存储空间的计算资源的存储器资源信息可以表示为5GB/10GB＝0.5。备选地或者附加地，该指标还可以以相对数值来衡量。例如，假设GPU包括8GB的存储空间，并且其中的7GB已经被使用，则此时该GPU的存储器资源信息可以表示为(8GB-7GB)/8GB＝0.125。

根据本公开的一个示例性实现，处理能力信息例如可以包括GPU的处理能力指标，该指标例如可以以绝对数值例如处理处理频率、处理器核的数量等来衡量。当以绝对数值来衡量时，为了更便于比较各个计算资源的处理能力信息，可以设置归一化规则来将多个计算资源的处理能力信息统一至相同的标准。例如，可基于各个计算资源的处理频率与最高处理频率的比例，来确定各个计算资源的处理能力信息。备选地或者附加地，该指标还可以以相对数值来衡量。例如，假设GPU的理论处理能力为1，并且目前已经被其他计算任务占用了50％的处理能力，则此时可用处理能力可用表示为0.5。

根据本公开的一个示例性实现，带宽资源信息例如可以表示GPU的通信带宽，该指标例如可以以绝对数值来衡量。当以绝对数值来衡量时，为了更便于比较各个计算资源的带宽资源信息，可以设置归一化规则来将多个计算资源的带宽资源信息统一至相同的标准。例如，可基于各个计算资源的通信带宽与最高通信带宽的比例，来确定各个计算资源的通信带宽信息。备选地或者附加地，该指标还可以以相对数值来衡量。例如，假设GPU的理论带宽为4GB/s，并且目前已经被其他计算任务占用了2GB/s的通信带宽，则此时带宽资源信息可用表示为2/4＝0.5。

根据本公开的一个示例性实现，针对多个计算资源中的给定计算资源，可以基于计算任务确定针对给定计算资源的多个指标中的相应指标的重要性。例如，如果发现计算任务涉及较高的计算量，则可以为处理能力信息设置较高的重要性。如果发现计算任务涉及大量数据，则可以为存储器资源信息设置较高的重要性。如果发现计算任务涉及大量通信，则可以为带宽资源设置较高的重要性。继而，可以基于相应指标的重要性以及相应指标，确定针对给定计算资源的状态信息。例如，可以基于如下公式1来确定状态信息：

Status(i)

＝Weight_{processing capacity}*ProcessingCapacity

+Weight_{memory capacity}*MemoryCapacity

+Weight_{band width}*BandWidth (公式1)

在公式1中，Status(i)表示资源池320中的第i个计算资源的状态信息，ProcessingCapacity表示处理能力信息，Weight_{processing capacity}表示处理能力信息的重要性，MemoryCapacity表示存储器资源信息，Weight_{memory capacity}表示存储器资源信息的重要性，BandWidth表示带宽资源信息，Weight_{band width}表示带宽资源信息的重要性，

根据本公开的一个示例性实现，状态信息330可以以矢量方式表示，其中矢量中的每个维度表示相对应的计算资源的状态信息。

在方框420处，确定是否接收到基于神经网络模型210的计算任务。如果判断结果为“是”，则在方框430处可以确定与神经网络模型210相关联的多个层的配置信息。根据本公开的一个示例性实现，可以基于神经网络模型210的定义来确定多个层以及相关联的配置信息。在方框440处，可以基于配置信息获取与多个层中的至少一部分层相关联的参数数据310。在下文中将参见图5描述更多细节。

继续参见图4，在方框450处，基于状态信息330和参数数据310，从多个计算资源160中选择一组计算资源以用于处理计算任务。简单而言，如果参数数据310指示计算任务涉及较高的工作负载，则可以基于状态信息330来从多个计算资源160中选择状态较好的计算资源。如果参数数据310指示计算任务仅涉及较低的工作负载，则可以基于状态信息330来从多个计算资源160中选择状态一般甚至状态较差的计算资源。以此方式，可以更加有效地利用资源池320中的多个计算资源160。

图5示意性示出了根据本公开的一个示例性实现的用于获取与神经网络相关联的参数数据的框图500。如图5所示，附图标记510示意性示出了根据一个示例性实现的神经网络模型210的配置信息。在此配置信息510中定义了神经网络模型210中所包括的多个层以及每个层所涉及的参数。通过解析该配置信息510，可以获得有关神经网络模型210的参数数据310。

如图5所示，参数数据310是根据本公开的一个示例性实现的参数数据的具体示例。如参数数据310所示，神经网络模型210可以包括多个层，并且其中各行中的字段“Param-size”定义了各个层相关联的参数的数量。如参数数据310中第一行所示，一个层可以包括23232个参数；如参数数据310中第二行所示，一个层可以包括64个参数；等等。将会理解，在本公开的上下文中并不限定以何种方式来获得参数数据310。而是，本领域技术人员可以根据现有技术已经开发的或者将在未来开发的多种技术方案来获得参数数据310。

根据本公开的一个示例性实现，可以分别针对各个层来选择用于处理与该层相关联的参数的计算资源。将会理解，在此并不限定采用本公开的实现来处理多个层中的层，而是可以仅采用本公开的实现来处理多个层中的至少一部分层。对于多个层中的其他层，可以采用其他方式来选择用于处理与其他层相关联的参数的计算资源。在此实现中，通过逐一地针对各个层来进行处理，可以逐步为神经网络模型210所涉及的各个层分配适合于该层的参数的数量的计算资源。

在下文中，将详细描述针对一个层的操作过程。根据本公开的一个示例性实现，针对至少一部分层中的第一层，可以基于参数数据来确定与第一层相关联的参数的第一数量。例如，以图5所示的参数数据310中的行520所指示的层为例，与该层相关联的参数的数量为23232。又例如，以图5所示的参数数据310中的行522所指示的层为例，与该层相关联的参数的数量为37748736。

继而，可以基于多个计算资源160的状态信息330，从多个计算资源160中选择与第一数量相匹配的第一计算资源以用于处理与第一层相关联的参数。通过分析参数数据310中的行520所示的层可知，该层520所涉及的参数的数量为23232，并且该数量在参数数据310中属于较小的数据量。因而，可以基于多个计算资源160的状态信息330中选择状态中等甚至状态较差的计算资源。又例如，对于参数数据310中的行522所表示的层而言，该层涉及的参数的数量为37748736，并且属于较大的数量。因而，可以基于多个计算资源160的状态信息330中选择状态较好的计算资源。

根据本公开的一个示例性实现，可以首先统计各个层所涉及的参数的数量，以便优先地为参数数量较大的层分配计算资源。例如，基于如图5中所示的参数数据310，可以确定与至少一部分层相关联的参数的相应数量。在此示例中，通过提取参数数据310中的字段Param-size部分的数值，与各个层相关联的参数的数量可以表示为：[23232，64，307200，192，663552，384，1327104，384，884736，256，37748736，4096，16777216，4096，4100096，1001]。继而，基于相应数量将至少一部分层进行排序，并且基于排序选择第一层。在此实现中，可以按照从高到底的顺序进行排序，在下文中将参见附图6描述更多细节。

图6示意性示出了根据本公开的一个示例性实现的针对排序后的一个层的参数选择计算资源的框图600。根据本公开的一个示例性实现，可以分别监视多个计算资源中的每个计算资源的资源信息，进而基于每个计算资源的资源信息确定每个资源的状态信息，进而形成如图6所示的多个计算资源的状态信息620。如图6所示，状态信息620以矢量方式存储，其中第i个维度存储基于上文描述的方法确定的第i个计算资源的状态信息。在此示例中，仅示出了采用上文描述的方法示出的针对多个计算资源1、2、3等的状态信息。将会理解，尽管在图6的示例中将状态信息归一化到[0,100]的数值范围，在其他示例中，还可以将状态信息归一化到其他数值范围。

如图6所示，其中方框610示出了排序后的与各个层的相关联的参数数量。如图6所示，对于涉及参数数量为37748736的层612而言，由于该数量较大，因而可以优先地从资源池210中的多个计算资源160中选择状态最佳的计算资源1。

根据本公开的一个示例性实现，可以确定用于处理与第一层相关联的参数所需的第一资源分配，并且基于第一资源分配，更新状态信息330。以此方式，可以确保状态信息330被及时更新，进而确保该状态信息330能够准确地反映资源池210中的多个计算资源160的最新状态。在下文中将参见图7描述有关更新的更多细节。

图7示意性示出了根据本公开的一个示例性实现的针对排序后的一个层的参数选择计算资源的框图700。如图7所示，层612涉及的参数的数量为37748736，假设处理该层612需要占用计算资源1中的50％的资源分配，此时可以基于该资源分配来更新状态信息720中的计算资源1相关状态信息。例如，计算资源1的相关状态信息可以被更新为：100-100*50％＝50。更新后的状态信息如图7中的圆圈722所示。

根据本公开的一个示例性实现，可以以类似的方式来处理其他的层。例如，针对至少一部分层中的第二层，可以基于参数数据，确定与第二层相关联的参数的第二数量。继而，基于更新的状态信息，从多个计算资源中选择与第二数量相匹配的第二计算资源以用于处理与第二层相关联的参数。继续参见图7，可以针对排名为第二的层710的参数选择计算资源。如图7所示，可以选择计算资源2来处理层710所涉及的参数。层710涉及的参数的数量为16777216，假设处理该层710需要占用计算资源1中的60％的资源分配，此时可以基于该资源分配来更新状态信息720中的计算资源2相关状态信息。例如，计算资源2的相关状态信息可以被更新为：90-100*60％＝30。继而，圆圈724所表示的计算资源2的相关状态信息可以被更新至30(图7中仅示出了更新前的状态信息“90”，而并未示出更新后的状态信息“30”)。

根据本公开的一个示例性实现，可以确定用于处理至少一部分层所需的计算资源的数量，并且可以按照上文描述的方法来从资源池320中选择相应的计算资源。当被选择的计算资源的数量达到数量时，则可以不再从资源池320中选择其他的计算资源，而是在为后续的其他层选择计算资源时，从已被选择的计算资源中选择用于处理与至少一部分层中的其他层相关联的参数的计算资源。以此方式，可以确保所选择的计算资源的总数与计算任务相匹配。

例如，假设确定计算任务需要调用4个计算资源来执行。对于如图7中的方框610示出排序后的各个层，可以首先从资源池320中选择状态最佳的4个计算资源来处理排名位于1至4位的层相关联的参数。继而，对于排名位于第5位以后的层而言，仍然从已经选择的4个计算资源中选择相应的计算资源。

在上文中已经参见图2至图7详细描述了根据本公开的方法的示例，在下文中将参见图8详细描述相应的设备的实现。图8示意性示出了根据本公开的一个示例性实现的用于处理计算任务的设备800的框图。该设备800包括：状态获取模块810，配置用于获取多个计算资源的状态信息；配置确定模块820，配置用于响应于接收到基于神经网络模型的计算任务，确定与神经网络模型相关联的多个层的配置信息；参数获取模块830，配置用于基于配置信息获取与多个层中的至少一部分层相关联的参数数据；以及选择模块840，配置用于基于状态信息和参数数据，从多个计算资源中选择一组计算资源以用于处理计算任务。在此的设备800可以配置用于执行上文描述的方法中的各个步骤，在此不再赘述。

图9示意性示出了根据本公开的一个示例性实现的用于处理计算任务的设备的框图。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法400，可由处理单元901执行。例如，在一些实现中，方法400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实现中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU 901执行时，可以执行上文描述的方法400的一个或多个步骤。备选地，在其他实现中，CPU 901也可以以其他任何适当的方式被配置以实现上述过程/方法。

根据本公开的一个示例性实现，提供了一种用于处理计算任务的设备，包括：至少一个处理器；易失性存储器；以及与至少一个处理器耦合的存储器，存储器具有存储于其中的指令，指令在被至少一个处理器执行时使得设备执行动作。该动作包括：获取多个计算资源的状态信息；响应于接收到基于神经网络模型的计算任务，确定与神经网络模型相关联的多个层的配置信息；基于配置信息获取与多个层中的至少一部分层相关联的参数数据；以及基于状态信息和参数数据，从多个计算资源中选择一组计算资源以用于处理计算任务。

根据本公开的一个示例性实现，针对至少一部分层中的第一层，基于参数数据，确定与第一层相关联的参数的第一数量；以及基于状态信息，从多个计算资源中选择与第一数量相匹配的第一计算资源以用于处理与第一层相关联的参数。

根据本公开的一个示例性实现，基于参数数据，确定与至少一部分层相关联的参数的相应数量；基于相应数量将至少一部分层进行排序；以及基于排序选择第一层。

根据本公开的一个示例性实现，确定用于处理与第一层相关联的参数所需的第一资源分配；以及基于第一资源分配，更新状态信息。

根据本公开的一个示例性实现，针对至少一部分层中的第二层，基于参数数据，确定与第二层相关联的参数的第二数量；以及基于更新的状态信息，从多个计算资源中选择与第二数量相匹配的第二计算资源以用于处理与第二层相关联的参数。

根据本公开的一个示例性实现，确定用于处理至少一部分层所需的计算资源的数量；以及响应于确定被选择的计算资源的数量达到数量，从已被选择的计算资源中选择用于处理与至少一部分层中的第三层相关联的参数的计算资源。

根据本公开的一个示例性实现，监视多个计算资源的资源信息；以及基于资源信息确定多个计算资源的状态信息。

根据本公开的一个示例性实现，多个计算资源的资源信息包括以下多个指标中的至少任一指标：多个计算资源的处理能力信息、存储器资源信息以及带宽资源信息。

根据本公开的一个示例性实现，针对多个计算资源中的给定计算资源，基于计算任务确定针对给定计算资源的多个指标中的相应指标的重要性；以及基于相应指标的重要性以及相应指标，确定针对给定计算资源的状态信息。

根据本公开的一个示例性实现，多个计算资源是多个图形处理单元。

根据本公开的一个示例性实现，提供了一种计算机程序产品。该计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据本公开所述方法。

根据本公开的一个示例性实现，提供了一种计算机可读介质。计算机可读介质上存储有机器可执行指令，当机器可执行指令在被至少一个处理器执行时，使得至少一个处理器实现根据本公开所述方法。

本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实现中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于处理计算任务的方法，包括：

获取多个计算资源的状态信息；

响应于接收到基于神经网络模型的计算任务，确定与所述神经网络模型相关联的多个层的配置信息；

基于所述配置信息获取与所述多个层中的至少一部分层相关联的参数数据；以及

基于所述状态信息和所述参数数据，从所述多个计算资源中选择一组计算资源以用于处理所述计算任务。

2.根据权利要求1所述的方法，其中基于所述状态信息选择一组计算资源包括：针对所述至少一部分层中的第一层，

基于所述参数数据，确定与所述第一层相关联的参数的第一数量；以及

基于所述状态信息，从所述多个计算资源中选择与所述第一数量相匹配的第一计算资源以用于处理与所述第一层相关联的所述参数。

3.根据权利要求2所述的方法，其中基于所述状态信息选择一组计算资源包括：

基于所述参数数据，确定与所述至少一部分层相关联的参数的相应数量；

基于所述相应数量将所述至少一部分层进行排序；以及

基于所述排序选择所述第一层。

4.根据权利要求2所述的方法，进一步包括：

确定用于处理与所述第一层相关联的参数所需的第一资源分配；以及

基于所述第一资源分配，更新所述状态信息。

5.根据权利要求3所述的方法，进一步包括：针对所述至少一部分层中的第二层，

基于所述参数数据，确定与所述第二层相关联的参数的第二数量；以及

基于更新的所述状态信息，从所述多个计算资源中选择与所述第二数量相匹配的第二计算资源以用于处理与所述第二层相关联的所述参数。

6.根据权利要求5所述的方法，进一步包括：

确定用于处理所述至少一部分层所需的计算资源的数量；以及

响应于确定被选择的计算资源的数量达到所述数量，从已被选择的计算资源中选择用于处理与所述至少一部分层中的第三层相关联的参数的计算资源。

7.根据权利要求1所述的方法，其中确定所述多个计算资源的状态信息包括：

监视所述多个计算资源的资源信息；以及

基于所述资源信息确定所述多个计算资源的状态信息。

8.根据权利要求7所述的方法，其中所述多个计算资源的资源信息包括以下多个指标中的至少任一指标：

所述多个计算资源的处理能力信息、存储器资源信息以及带宽资源信息。

9.根据权利要求8所述的方法，其中基于所述资源信息确定所述多个计算资源的状态信息进一步包括：针对所述多个计算资源中的给定计算资源，

基于所述计算任务确定针对所述给定计算资源的所述多个指标中的相应指标的重要性；以及

基于所述相应指标的重要性以及所述相应指标，确定针对所述给定计算资源的状态信息。

10.根据权利要求1所述的方法，其中所述多个计算资源是多个图形处理单元。

11.一种用于处理计算任务的设备，包括：

至少一个处理器；

易失性存储器；以及

与所述至少一个处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被所述至少一个处理器执行时使得所述设备执行动作，所述动作包括：

获取多个计算资源的状态信息；

12.根据权利要求11所述的设备，其中基于所述状态信息选择一组计算资源包括：针对所述至少一部分层中的第一层，

13.根据权利要求12所述的设备，其中基于所述状态信息选择一组计算资源包括：

基于所述相应数量将所述至少一部分层进行排序；以及

基于所述排序选择所述第一层。

14.根据权利要求12所述的设备，其中所述动作进一步包括：

基于所述第一资源分配，更新所述状态信息。

15.根据权利要求13所述的设备，其中所述动作进一步包括：针对所述至少一部分层中的第二层，

16.根据权利要求15所述的设备，其中所述动作进一步包括：

17.根据权利要求11所述的设备，其中确定所述多个计算资源的状态信息包括：

监视所述多个计算资源的资源信息；以及

基于所述资源信息确定所述多个计算资源的状态信息。

18.根据权利要求17所述的设备，其中所述多个计算资源的资源信息包括以下多个指标中的至少任一指标：

19.根据权利要求18所述的设备，其中基于所述资源信息确定所述多个计算资源的状态信息进一步包括：针对所述多个计算资源中的给定计算资源，

20.根据权利要求11所述的设备，其中所述多个计算资源是多个图形处理单元。

21.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至10中任一项所述的方法。