CN110390387B

CN110390387B - 对深度学习应用所用资源进行评估

Info

Publication number: CN110390387B
Application number: CN201810360502.3A
Authority: CN
Inventors: 李三平; 王鲲
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2023-07-18
Anticipated expiration: 2038-04-20
Also published as: CN110390387A; US20190325307A1

Abstract

根据本公开的实现，提出了一种对深度学习应用所用资源进行评估的方法、装置和计算机程序产品。根据一个实施方式，获得性能基准数据库，其中性能基准数据库至少包括一种或多种深度神经网络模型的结构数据、基于一个或多个深度神经网络模型的多个深度学习应用的时间性能数据和计算资源消耗数据；基于性能基准数据库，提取训练数据集，其中训练数据集具有多个参数维度，多个参数维度包括：多个深度学习应用的深度神经网络模型的结构、多个深度学习应用的资源配置、多个深度学习应用的训练时间；以及建立训练数据集的参数维度之间的对应关系，从而构建用于对于深度学习应用所用资源进行评估的评估模型。通过该方案，能够有效地对用户定义的深度学习应用所用资源进行评估，基于此有利于向用户给出优化的资源利用方案。

Description

对深度学习应用所用资源进行评估

技术领域

本公开的实施例涉及深度学习，并且更具体地，涉及用于控制存储系统中的写请求的方法、装置以及计算机程序产品。

背景技术

深度学习应用在诸如图像分类、机器翻译、语音识别等诸多领域具有广泛的应用。例如，在大数据和强大的计算资源的基础上，能够训练具有多个层级、多个参数的深度神经网络(Deep Neural Networks，DNN)，也被称为深度学习网络。对基于深度神经网络的深度学习应用进行训练通常是一项非常艰难的任务，需要耗费大量计算资源和时间资源来处理大规模训练数据集以及迭代深度神经网络的各种参数。通常用户在开发深度学习应用时无法准确评估所定义深度学习应用对于计算和时间资源的消耗，因此对于处理器资源的调度具有随意性或者尝试以最大化的方式来使用计算资源，都会导致系统能力、能耗、时间上的浪费。

发明内容

本公开的实施例提供了一种用于对深度学习应用所用资源进行评估的方案。

在本公开的第一方面中，提出了一种用于建立评估深度学习应用的评估模型的方法。该方法包括，获得性能基准数据库，其中性能基准数据库至少包括一种或多种深度神经网络模型的结构数据、基于一个或多个深度神经网络模型的多个深度学习应用的时间性能数据和计算资源消耗数据；基于性能基准数据库，提取训练数据集，其中训练数据集具有多个参数维度，多个参数维度包括：多个深度学习应用的深度神经网络模型的结构、多个深度学习应用的资源配置、多个深度学习应用的训练时间；以及建立训练数据集的参数维度之间的对应关系，从而构建用于对于深度学习应用所用资源进行评估的评估模型。通过该方案，能够有效地对用户定义的深度学习应用所用资源进行评估，基于此有利于向用户给出优化的资源利用方案。

在本公开的第二方面中，提供了一种用于建立评估深度学习应用的评估模型的设备。该设备包括：处理单元；以及存储器，耦合至该处理单元并且包含存储于其上的指令，该指令在由该处理单元执行时使该设备执行以下动作：获得性能基准数据库，其中性能基准数据库至少包括一个或多个深度神经网络模型的结构数据、基于一个或多个深度神经网络模型的多个深度学习应用的时间性能数据和计算资源消耗数据；基于性能基准数据库，提取训练数据集，其中训练数据集具有多个参数维度，多个参数维度包括：多个应用的深度神经网络模型的结构、多个深度学习应用的资源配置、多个深度学习应用的训练时间；以及建立训练数据集的参数维度之间的对应关系，从而构建用于对于深度学习应用所用资源进行评估的评估模型。

在本公开的第三方面中，提供了一种用于评估深度学习应用的方法。该方法包括：获得用户定义的基于深度神经网络模型的深度学习应用的深度神经网络模型的结构；至少根据深度神经网络模型的结构，基于用于对于深度学习应用所用资源进行评估的评估模型，来对深度学习应用进行评估，其中评估模型表明多个参数维度之间的对应关系，多个参数维度包括：深度学习应用的深度神经网络模型的结构、深度学习应用的资源配置、深度学习应用的训练时间。

在本公开的第四方面中，提供了一种用于评估深度学习应用的设备。该设备包括：处理单元；以及存储器，耦合至该处理单元并且包含存储于其上的指令，该指令在由该处理单元执行时使该设备执行以下动作：获得用户定义的基于深度神经网络模型的深度学习应用的深度神经网络模型的结构；以及至少根据深度神经网络模型的结构，基于用于对于深度学习应用所用资源进行评估的评估模型，来对深度学习应用进行评估，其中评估模型表明多个参数维度之间的对应关系，多个参数维度包括：深度学习应用的深度神经网络模型的结构、深度学习应用的资源配置、深度学习应用的训练时间。

在本公开的第五方面中，提供了一种计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据第一方面的方法。

在本公开的第六方面中，提供了一种计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据第三方面的方法。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了本公开的实施例可以在其中被实现的环境的示意图；

图2示出了根据本公开的一个实施例的用于建立评估深度学习应用的评估模型的方法的流程图；

图3示出了根据本公开的一个实施例的定制用于建立评估模型的样本负载程序的示意图；

图4示出了根据本公开的一个实施例的用于评估深度学习应用的过程的流程图；

图5示出了根据本公开的一个实施例的在评估模型的参数维度空间中参数维度变量集群的示意图；以及

图6示出了一种网络环境的示意图，在该网络环境中能够实施根据本公开的一实施例。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括程序模块，这些程序模块被配置为执行本文所描述的各种实现的功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的技术方案。学习网络的优化也被称为学习网络的训练，通过对学习网络的参数不断地更新，从而获得优化后的参数值。在本公开的实现，学习网络也可以被称为“神经网络”或“学习模型”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。深度学习网络可以被设计用于不同应用，包括物体分类(例如图像分类、动作识别等)、机器翻译、语音识别等领域。为了更清楚地描述本公开，在所描述的具体实现中以基于卷积神经网络的应用作为深度神经网络学习应用的一种示例来进行阐述。然而，应当理解，本公开的概念可以适用于基于各种适当的其他类型的深度神经网络的深度学习应用中。

基于深度神经网络的深度学习应用在诸如图像分类、机器翻译、语音识别等诸多领域具有非常广泛的应用。但是，由于用户在定义某种应用的深度神经网络模型时并不能准确的预测该应用对计算资源和时间资源的占用，因此只有在应用实际在硬件上运行时才能对资源消耗的效率进行优化。通常而言，大多数深度学习应用均呈现大量消耗计算和时间资源的特点，如果不能加以妥善管理和约束，则将会任一占用诸如图形处理单元(Graphic Processing Unit,GPU)的处理器，甚至最大化占用可用的资源，造成能耗、计算能力以及运行时间的浪费。这一问题在深度学习应用与其他应用一起共享计算资源的系统中显得更为突出。

本发明的发明人注意到上述问题，并且提出为基于深度神经网络的深度学习应用建立评估模型，利用该评估模型为用户定义的深度学习应用进行评估。由此无需在硬件上实际运行用户定义的深度学习应用，就可以评估其资源消耗，由此为合理分配系统可用资源提供了依据。

图2示出了根据本公开的一个实施例的用于建立评估深度学习应用的评估模型的方法的流程图。

如图2所示，在步骤S210中，针对使用深度神经网络的深度学习应用，获得性能基准数据库。该性能基准数据库至少包括一种或多种深度神经网络模型的结构数据、基于所述一个或多个深度神经网络模型的多个深度学习应用的时间性能数据和计算资源消耗数据。

在步骤S220中，基于获得的性能基准数据库，提取用于建立训练模型的训练数据集。该训练数据集具有多个参数维度，对应于所构建的评估模型的各个维度。这些参数维度包括：多个深度学习应用的深度神经网络模型的结构、多个深度学习应用的资源配置、多个深度学习应用的训练时间(例如，一小步运行时间(Mini-Batch Running Time))。在一些实现中，还可以包括更多的参数维度。例如训练数据集的其他可能的参数维度可以包括以下各项中的一项或多项：输入数据集大小；资源利用率；深度学习应用的超参数。本领域的技术人员可以理解，训练数据集还可以具有这里为列举的任何适合的参数维度。当参数维度越丰富，所构建的评估模型的维度越高，也即评估模型越复杂；相应地，资源评估的灵活性和准确性相对越高。当然，当训练数据集的参数维度丰富时，意味着更多的参数需要在评估过程中考量。由此，在步骤S210中获得基准数据库需要更加精细的设计，以便能够覆盖训练中需要考虑的各种因素(element)。这一点结合下文将要描述的示例，将会更加清楚。

在步骤S230中，建立所训练数据集的所述参数维度之间的对应关系，从而构建用于对于深度学习应用所用资源进行评估的评估模型。例如，所构建的评估模型可以是机器学习模型。在一些实现中，可以按照一定准则来建立训练数据集的参数维度之间的对应关系。也即给出建立评估模型所要考虑的因素，或者被称为“约束”。例如，建立各个维度之间的关系时可以尽量满足最小化资源消耗的“约束”。可选地或者附加地，建立各个维度之间的关系时可以在多个深度学习应用的深度神经网络模型的结构的参数维度与其他参数维度之间保持线性关系。

为了获得性能基准数据库，可以根据需求定制一个或多个样本负载程序。通过在不同运行条件，来运行定制的各种样本负载程序来获取性能基准数据库中的各种所需数据。定制的样本负载程序可以模拟各种基于深度神经网络模型的应用，例如依赖于某种深度神经网络模型，并且被设定的复杂度、资源配置，以及输入数据的大小等。

在一个实现中，可以在不同的运行条件下，运行具有定制的复杂度的深度神经网络模型的至少一个样本负载程序。而运行条件至少通过以下项的不同取值组合来定义：计算资源配置，以及输入数据大小。由此，在不同运行条件下获取具有定制的深度神经网络模型的至少一个样本负载程序的训练时间。同样地，深度神经网络模型的复杂度也可以定制，以便在相同运行条件下(例如相同的资源配置、相同的输入数据大小)，可以获得各种复杂度的深度神经网络模型的至少一个样本负载程序的训练时间。通过以如上方式运行定制的样本负载程序，可以将所获得的训练时间数据作为性能基准数据库中的时间性能数据。进一步地，可以将样本负载程序的定制深度神经网络模型的结构数据来作为性能基准数据库中深度神经网络模型的结构数据。

在一个实现中，为了优化所获得的训练时间数据的准确性，将在同一运行条件下，多次执行某个具有深度定制神经网络模型的样本负载程序，并且对样本负载程序的训练时间取平均值。由于完整运行深度定制神经网络模型的样本负载程序也将是相当耗时的，因此可以仅获取样本负载程序的前N+1步训练时间，并且计算第2步至第N+1步的平均训练时间，以对该样本负载程序的训练时间(即，一小步运行时间)进行估计。这里需要解释的是，发明人发现由于通常第一步的训练时间中还包括有初始化模型、参数等附加的时间消耗，因此为了更为精确地获得训练时间，可以计算第2步至第N+1步的平均训练时间，由此尽可能消除估计噪声。

附加地或者可选地，在一个实现中，可以依赖于具体的深度神经网络模型的复杂度，而获取定制深度神经网络模型的结构数据。也即，深度神经网络模型的结构数据可以包括该具体深度神经网络模型的计算强度相关的结构参数。例如，在基于卷积神经网络模型的应用中，结构数据可以包括：与卷积神经网络模型的卷积层的计算强度相关的结构参数，以及与卷积神经网络模型的全连接层的计算强度相关的结构参数。这是因为对于卷积神经网络模型而言，其训练的计算量和完成时间与卷积层和全连接层的结构密切相关。单个卷积层的过滤器数目以及在前一层的输出深度确定了该卷积层的参数的数目，而每个参数都需要耗费大量的浮点计算(Floating-point Operations，FLOPs)。在全连接层中，大量的可训练参数要求占用大量的存储空间来存储权重和梯度值。每个可训练参数对应于一个FLOP。此外，在一个实现中，可以定制卷积神经网络的结构以满足一些所需的准则，从而简化定制过程。例如这些准则可以包括：尽可能最小化基本模型所消耗的资源；和/或尽可能在可训练的参数数目和每种定制(例如，在特定卷积层的卷积过滤器的数目上的变化)之间保持线性关系。本领域的技术人员还可以采用任何可行的或者适当的准则来进行定制。

图3示出了根据本公开的一个实施例的定制用于建立评估模型的样本负载程序的示意图。在该示例中，以卷积神经网络作为示例，但是本领域的技术人员可以理解，类似的定制样本负载程序的方式也可以被应用与其他类型的深度神经网络模型。

如图3所示，在该示例性卷积神经网络的样本负载程序的定制中，3个基于卷积神经网络的样本负载在3种类型的GPU资源上运行，并且具有以下4种类型的卷积神经网络的结构定制：

·一个特定卷积层中过滤器的数目K＝[8,16,32,64,128,256,512]；

·卷积层数目M_conv＝[0,1,2,3,4,5]；

·一个特定全连接层中的节点数目N＝[8,16,32,64,128,256,512]；

·全连接层数目M_dense＝[0,1,2,3,4,5]。

每个基于卷积神经网络的样本负载均在三种类型的GPU资源上运行，并且利用批量数据大小以及不同的输入图像尺寸：

·批量数据大小B＝[1,2,4,8,16,32,64,128,256,512]；

·输入图像尺寸S＝[16×16×3,32×32×3,48×48×3,…,224×224×3,256×256×3]。

在参照图3描述的样本负载程序定制的示例中，样本负载程序的运行条件是由输入数据集和计算资源配置来定义的。

作为一个示例，输入数据集可以按照下表1进行配置。

表1示例性输入数据集

图像数据集	形状(高H×宽W×通道C)	尺寸(像素)
			MNIST	28×28×1	784
CIFAR10	32×32×3	3,072
			DogsCats	128×128×3	49,152

作为一个示例，计算资源配置可以按照下表2进行配置。

表2示例性计算资源配置

在如表1和表2所示的各种运行条件下，可以通过运行如参照图3所描述的各种样本负载程序来获取相应的训练时间，作为输出。在一个实现中，可以收集步进(一小步，Mini-Batch)训练时间。例如，批量数据大小B从1增加到512，针对每个批量数据值，收集前N+1步的步进训练时间，其中N可以为正整数，例如可以取20。由于第一步不仅仅包括了训练时间，还包括了模型编译、模型加载和数据加载等初始化所耗费的时间，因此为了更加精确地评估步进训练时间，计算平均时间时可以排除第一步的时间。在本例中，通过多次运行，计算第2步到N+1步的平均时间，例如可以为第2步到第20步的平均时间，来作为训练时间的估计。

本领域技术人员可以理解，通过如上所述运行定制的样本负载程序，可以获得性能基准数据库所需的各种数据，例如深度神经网络模型的数据结构数据、时间性能数据和计算资源消耗数据等。基于性能基准数据库可以提取各种参数维度，以用于构建评估模型。

图4示出了根据本公开的一个实施例的用于评估深度学习应用的过程400的流程图。

如图4所示，在步骤410中，获得用户定义的基于深度神经网络模型的深度学习应用的所述深度神经网络模型的结构。

在步骤420中，至少根据所述深度神经网络模型的结构，基于用于对于深度学习应用所用资源进行评估的评估模型，来对所述深度学习应用进行评估。评估模型是根据例如参照图2所描述的实现所建立的。评估模型表明多个参数维度之间的对应关系。这些参数维度包括：深度学习应用的深度神经网络模型的结构、深度学习应用的资源配置、深度学习应用的训练时间。根据所建立的评估模型，参数维度还可以包括输入数据集大小、资源利用率、深度学些应用的超参数等等。

在一个实现中，可以利用两阶段方法来进行评估。用户可以同时输入对一个或多个参数维度的要求，例如制定的数据集、确定的计算资源等。根据用户的要求来确定在评估模型中的对应的参数维度变量集群。具体而言，该参数维度变量集群是由用户输入的参数要求所限定的一个或多个参数维度的约束来指定。利用线性回归算法，在参数变量集群范围内，基于评估模型来对用户定义的深度学习应用进行评估。

图5示出了根据本公开的一个实施例的在评估模型的参数维度空间中参数维度变量集群的示意图。

如图5所示的示例性参数空间为“步进训练时间”、“卷积过滤器数目”、“输入数据尺寸”这三个参数维度构成的空间。为了方便说明之目的，在图5所示的示例中将计算及资源配置设定为使用一种类型的GPU，即Tesla P100型GPU，而如图所示GPU的数目可以被配置为1个、2个和3个。通过学习过程，评估模型在步进训练时间空间中例如可以呈现为如图5所示的多为多维形状。依赖于用户定义的深度学习应用所导出的深度神经网络模型结构数据，以及用户对于性能或者资源的具体要求可以确定各种不同参数维度变量的不同组合(即参数维度变量集群)，并由此对应确定出评估模型中特定的部分。例如，可以构成参数维度变量的集群的变量组合可以是GPU型号、GPU个数、与所述深度神经网络模型的计算强度相关的结构参数，等等。

根据用户定义的深度学习应用以及用户对于训练时间、资源配置等方面的要求，可以确定出参数维度变量集群。由此，利用线性回归算法，在评估模型中由参数变量集群所确定的范围内，来对用户定义的深度学习应用进行评估。

根据图6所示的实施例，可以以网络服务的形式对用户定义的深度学习应用进行评估。如图6所示，网络服务系统600可以包括资源评估模块610、资源模型网络服务器620、资源调度器630以及将供用户定义的深度学习应用进行运行的资源池640。

资源调度器630可以接收用户的输入。用户的输入至少需要包括有关用户定义的深度学习应用的信息，例如应用代码、深度学习应用所基于的深度神经网络模型的结构等。在一些实现中，用户的输入还可以包括更多的方面。例如，可以要求用户限定所需的输入数据集，例如输入数据集的类型、大小等。附加地或者可选地，用户还可以指定对运行其定义的深度学习应用所需的资源配置的要求，例如最多使用2个GPU，或者占用最少的GPU数目，等等。附加地或者可选地，根据需求，用户还可以指定对深度学习应用训练时间的要求，例如可以指定完成一轮训练时间的最大值，等等。本领域技术人员可以理解，根据所构建的评估模型的参数维度，可以设计出更加丰富的用户输入选项。用户对参数维度给出的限制有利于资源评估模块利用例如参照图5所描述的方式来构建参数维度变量集群，并由此促进对深度学习应用所需的资源进行评估。

资源调度器630向资源模型网络服务器620发送资源评估请求。该资源评估请求中携带有用户输入的有关用户定义的深度学习应用的信息以及用户输入的其他附加信息。该资源评估请求中还可携带有当前资源池640可用资源的信息。

收到评估请求后，资源模型网络服务器620将请求中包含的相关数据馈送到资源评估模块610。

资源评估模块610具有用于对深度学习应用进行评估的评估模型。评估模型例如可以是参照图2、图3描述的方法预先构建的。资源评估模块610例如按照参照图4、图5所描述的方法，基于评估模型对用户定义的深度学习应用所需的资源进行评估。资源评估模块610将评估结果，例如包括用户定义的深度学习应用的训练时间、所需计算资源配置等信息，返回给资源模型网络服务器620。

资源模型网络服务器620向资源调度器630发出资源评估响应，以通知针对用户输入的评估结果。

在一个实现中，资源调度器630可以根据评估结果为用户定义的深度学习应用分配所需的计算资源。可选地，资源调度器630可以将用户定义的深度学习应用部署到所分配的硬件资源。

虽然在图6中资源评估模块610、资源模型网络服务器620、资源调度器630被示出为彼此分立的方框，但是本领域技术人员应该理解，这些模块的一些或全部功能可以组合或者进一步拆分。特别是，在以云平台运行的网络服务架构中，参照图6所描述的步骤和功能可能被分散到网络中一个或多个实体中。但是，各种实施变形都没有超出本公开的范围。

根据公开的方案，能够训练并构建对深度学习应用的评估模型，从而无需在硬件上实际运行深度学习应用就能够有效地对用户定义的深度学习应用所用资源进行评估。基于评估结果，有利于向用户给出优化的资源利用方案，并且为深度学习应用的部署提供了指导。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于资源分配的方法，包括：

获得性能基准数据库，其中所述性能基准数据库至少包括一个或多个深度神经网络模型的结构数据、基于所述一个或多个深度神经网络模型的多个深度学习应用的时间性能数据和计算资源消耗数据；

基于所述性能基准数据库，提取训练数据集，其中所述训练数据集具有多个参数维度，所述多个参数维度包括：所述多个深度学习应用的深度神经网络模型的结构、所述多个深度学习应用的资源配置、所述多个深度学习应用的训练时间；

建立所述训练数据集的所述参数维度之间的对应关系，从而构建用于对于深度学习应用所用资源进行评估的评估模型；以及

基于所述评估模型的评估结果，对于所述深度学习应用分配硬件资源。

2.根据权利要求1所述的方法，其中获得性能基准数据库包括：

在不同的运行条件下，运行具有定制的深度神经网络模型的至少一个样本负载程序，其中所述运行条件至少通过以下项的不同取值组合来定义：计算资源配置，以及输入数据大小；以及

获取在所述不同运行条件下所述具有定制的深度神经网络模型的至少一个样本负载程序的训练时间，

其中：

所述性能基准数据库中的所述一个或多个深度神经网络模型的结构数据包括所述定制的深度神经网络模型的结构数据；

所述性能基准数据库中的所述时间性能数据包括所获取的所述训练时间。

3.根据权利要求2所述的方法，其中获取在所述不同运行条件下所述具有定制深度神经网络模型的至少一个样本负载程序的训练时间包括：

在同一运行条件下，至少一次运行所述具有定制深度神经网络模型的至少一个样本负载程序；

获取样本负载程序的前N+1步训练时间；

计算第2步至第N+1步的平均训练时间。

4.根据权利要求1所述的方法，其中所述训练数据集的所述多个参数维度还包括以下各项中的一项或多项：

输入数据集大小；

资源利用率；

深度学习应用的超参数。

5.根据权利要求1所述的方法，其中所述多个深度学习应用的深度神经网络模型的结构包括与所述深度神经网络模型的计算强度相关的结构参数。

6.根据权利要求5所述的方法，其中所述多个深度学习应用的深度神经网络模型包括卷积神经网络模型，并且所述多个深度学习应用的深度神经网络模型的结构包括：

与卷积神经网络模型的卷积层的计算强度相关的结构参数，以及

与卷积神经网络模型的全连接层的计算强度相关的结构参数。

7.根据权利要求1所述的方法，其中建立所述训练数据集的所述参数维度之间的对应关系包括：

遵循以下至少一个准则，来建立所述训练数据集的所述参数维度之间的对应关系：

最小化资源消耗；和/或

在所述多个深度学习应用的深度神经网络模型的结构的参数维度与其他参数维度之间保持线性关系。

8.一种用于资源分配的设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行以下动作：

基于所述性能基准数据库，提取训练数据集，其中所述训练数据集具有多个参数维度，所述多个参数维度包括：所述多个应用的深度神经网络模型的结构、所述多个深度学习应用的资源配置、所述多个深度学习应用的训练时间；

9.根据权利要求8所述的设备，其中获得性能基准数据库包括：

其中：

10.根据权利要求9所述的设备，其中获取在所述不同运行条件下所述具有定制深度神经网络模型的至少一个样本负载程序的训练时间包括：

获取样本负载程序的前N+1步训练时间；

计算第2步至第N+1步的平均训练时间。

11.根据权利要求8所述的设备，其中所述训练数据集的所述多个参数维度还包括以下各项中的一项或多项：

输入数据大小；

资源利用率；

深度学习应用的超参数。

12.根据权利要求8所述的设备，其中所述多个深度学习应用的深度神经网络模型的结构包括与所述深度神经网络模型的计算强度相关的结构参数。

13.根据权利要求12所述的设备，其中所述多个深度学习应用的深度神经网络模型包括卷积神经网络模型，并且所述多个深度学习应用的深度神经网络模型的结构包括：

14.根据权利要求8所述的设备，其中建立所述训练数据集的所述参数维度之间的对应关系包括：

最小化资源消耗；和/或

15.一种用于资源分配的方法，包括：

获得用户定义的基于深度神经网络模型的深度学习应用的所述深度神经网络模型的结构；

至少根据所述深度神经网络模型的结构，基于用于对于深度学习应用所用资源进行评估的评估模型，来对所述深度学习应用进行评估；以及

基于所述评估模型的评估结果，对于所述深度学习应用分配硬件资源，

其中所述评估模型表明多个参数维度之间的对应关系，所述多个参数维度包括：深度学习应用的深度神经网络模型的结构、深度学习应用的资源配置、深度学习应用的训练时间。

16.根据权利要求15所述的方法，其中所述多个参数维度还包括以下各项中的一项或多项：

输入数据集大小；

资源利用率；

深度学习应用的超参数。

17.根据权利要求15或16所述的方法，其中对所述深度学习应用进行评估包括：

根据用户输入的对一个或多个参数维度的要求，确定用于所述评估模型的参数维度变量集群，所述参数维度变量集群由所述用户输入的参数要求所限制的一个或多个参数维度的范围来指定；以及

利用线性回归算法，在所述参数维度变量集群范围内、基于所述评估模型来对所述深度学习应用进行评估。

18.一种用于资源分配的设备，包括：

处理单元；以及

19.根据权利要求18所述的设备，其中所述多个参数维度还包括以下各项中的一项或多项：

输入数据集大小；

资源利用率；

深度学习应用的超参数。

20.根据权利要求18或19所述的设备，其中对所述深度学习应用进行评估包括：

根据用户输入的参数要求，确定用于所述评估模型的参数维度变量集群，所述参数维度变量集群由所述用户输入的参数要求所限制的一个或多个参数维度的范围来指定；以及

21.一种计算机可读介质，其上存储有计算机可读指令，所述指令在被执行时使计算机执行根据权利要求1至7中任一项所述的方法。

22.一种计算机可读介质，其上存储有计算机可读指令，所述指令在被执行时使计算机执行根据权利要求15至17中任一项所述的方法。