CN114816954A

CN114816954A - 面向深度学习模型训练的性能预测方法及相关设备

Info

Publication number: CN114816954A
Application number: CN202210395968.3A
Authority: CN
Inventors: 吕欣; 王彤; 王建; 蔡梦思
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-29

Abstract

本申请提供一种面向深度学习模型训练的性能预测方法及相关设备，所述方法包括：获取所述深度学习模型的目标算子；获取所述目标算子的特征参数；根据所述特征参数的参数范围，确定所述目标算子的运行时间；基于所述目标算子的运行时间，采用梯度提升树算法训练得到算子性能预测模型；根据所述算子性能预测模型对待预测算子的运行时间进行预测，以得到所述待预测算子的运行时间预测值。本申请的方法能够快速准确地预测深度学习模型的性能，进而提升研究人员的工作效率。

Description

面向深度学习模型训练的性能预测方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种面向深度学习模型训练的性能预测方法及相关设备。

背景技术

大数据和人工智能的迅猛发展使得人类取得了前所未有的成就，但是深度学习模型的训练过程需要花费大量的时间，快速准确地预测深度学习模型训练的性能能够提高深度学习的研究人员的工作效率。然而，现有的研究主要关注深度学习模型的训练准确率及训练速度，较少关注深度学习的性能预测分析。因此，亟需一种面向深度学习模型训练的性能预测方案。

发明内容

有鉴于此，本申请的目的在于提出一种解决上述问题的面向深度学习模型训练的性能预测方法及相关设备。

基于上述目的，本申请第一方面提供一种面向深度学习模型训练的性能预测方法，包括：

获取所述深度学习模型的目标算子；

获取所述目标算子的特征参数；

根据所述特征参数的参数范围，确定所述目标算子的运行时间；

基于所述目标算子的运行时间，采用梯度提升树算法训练得到算子性能预测模型；

根据所述算子性能预测模型对待预测算子的运行时间进行预测，以得到所述待预测算子的运行时间预测值。

进一步地，所述方法还包括：获取多个所述待预测算子的所述运行时间预测值，其中，所述多个待预测算子与同一待预测深度学习模型相对应；

对每个所述待预测算子的所述运行时间预测值进行累加，得到所述待预测深度学习模型的运行时间预测值。

进一步地，所述目标算子的运行时间包括：前向传播的运行时间和反向传播的运行时间。

进一步地，所述方法还包括：

基于同一发明构思，本申请第二方面提供一种面向深度学习模型训练的性能预测装置，包括：根据贝叶斯优化算法对所述算子性能预测模型的超参数进行优化，以获得所述运行时间预测值与对应运行时间真实值的最小均方误差。

进一步地，所述均方误差由下式计算得到：

其中，RMSE表示运行时间预测值与预测时间真实值之间的均方误差，n表示目标算子数量，Predicted_i表示第i个算子的运行时间预测值，Target_i表示第i个算子的运行时间真实值。

进一步地，所述目标算子包括：卷积层算子、池化层算子和全连接层算子。

进一步地，所述特征参数包括：批量大小、输入通道数、输出通道数、卷积核大小、池化核大小、填充大小、步长、图像大小、权重、偏置、输入特征尺寸和/或输出特征尺寸。

基于同一发明构思，本申请第二方面提供一种面向深度学习模型训练的性能预测装置，包括：

第一获取模块，被配置为获取所述深度学习模型的目标算子；

第二获取模块，被配置为获取所述目标算子的特征参数；

确定模块，被配置为根据所述特征参数的参数范围，确定所述目标算子的运行时间；

构建模块，被配置为基于所述目标算子的运行时间，采用梯度提升树算法训练得到算子性能预测模型；

第一预测模块，被配置为根据所述算子性能预测模型对待预测算子的运行时间进行预测，以得到所述待预测算子的运行时间预测值。

基于同一发明构思，本申请第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

基于同一发明构思，本申请第四方面提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述的方法。

从上面所述可以看出，本申请提供的面向深度学习模型训练的性能预测方法及相关设备，基于深度提升树算法，构建深度学习模型算子的性能预测模型，并利用性能预测模型对算子和深度学习模型的运行时间进行预测，能够快速准确地预测深度学习训练的性能，节省研究人员的时间成本，有利于提升研究人员的工作效率。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的面向深度学习模型训练的性能预测方法流程图；

图2为本申请实施例的待预测深度学习模型的运行时间预测值确定方法流程图；

图3为本申请实施例的超参数优化方法流程图；

图4为本申请实施例的两种GPU上对VGG-16网络和ResNet-18网络每一层的性能预测结果和真实运行结果对比图；

图5为本申请实施例的两种GPU上5种卷积神经网络整体的性能预测结果和真实运行结果对比图；

图6为本申请实施例的深度学习模型训练的性能预测装置结构示意图；

图7为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，相关技术中对于深度学习模型训练过程的性能预测分析还难以满足需要，现有的研究主要关注对象为深度学习模型的训练准确率和训练速度，关于深度学习模型的性能预测分析的研究较少。申请人在实现本申请的过程中发现：即便是有对深度学习模型的性能预测分析的需求，也只是通过人工的方式监控整个训练过程，进而获取深度学习中某一网络层的运行时间以及整个深度学习模型训练过程的运行时间，浪费了研究人员的大量时间，降低了研究人员的工作效率。

有鉴于此，本申请实施例提供一种面向深度学习模型训练的性能预测方法，通过梯度提升算法训练得到性能预测模型，进而能够利用训练好的性能预测模型预测深度学习模型的性能开销。

以下，通过具体实施例来详细说明本申请的技术方案。

参考图1，本申请一个实施例提供的一种面向深度学习模型训练的性能预测方法，包括以下步骤：

步骤S101，获取所述深度学习模型的目标算子。

本步骤中，算子是指一个函数空间到函数空间的映射O:X→X。广义上的算子可以推广到任何空间，在本申请的方法中，深度学习模型的算子指的是深度学习模型中每一层的运算，也就是将深度学习模型中每一层的运算封装成一个算子。

具体的，目标算子可包括：卷积层算子、池化层算子和全连接层算子，也可根据实际情况增加其他算子，例如：激活层算子、归一化层算子，在此不做具体限定。

步骤S102，获取所述目标算子的特征参数。

本步骤中，对于卷积层算子，其包括的特征参数及对应的参数范围如下：批量大小(1-64)，输入通道数(3-2048)，输出通道数(16-2048),卷积核大小(1-11),填充大小(0-3)，步长(1-4)，图像大小(1-256)，以及是否有偏置、权重。此外，图像大小和卷积核大小分别为a*a(例如：24*24)和b*b(例如：3*3)，卷积核大小小于图像。

对于池化层算子，其包括的特征参数及对应的参数范围如下：批量大小(1-64)，输入通道数(3-2048)，输出通道数(16-2048),池化核大小(1-11),填充大小(0-3)，步长(1-4)，图像大小(1-256)。相应的，池化核大小为c*c，池化核大小小于图像。

对于全连接层算子，其包括的特征参数及对应的参数范围如下：变批量大小(1-3500)，输入特征(1-32768)，输出特征，以及是否有偏置，权重。

步骤S103，根据所述特征参数的参数范围，确定所述目标算子的运行时间。

本步骤中，通过确定特征参数的参数范围，通过测试能够准确得到算子的运行时间，进而在利用算子的运行时间训练性能预测模型时，避免无效特征参数对该训练性能预测模型的准确度产生影响。

步骤S104，基于所述目标算子的运行时间，采用梯度提升树算法训练得到算子性能预测模型。

本步骤中，将目标算子的运行时间划分为训练集和测试集，其中，训练集为80％，验证集为20％，利用训练集训练梯度提升树，得到性能预测模型，通过验证集能够验证性能预测模型的精度是否满足需求。

步骤S105，根据所述算子性能预测模型对待预测算子的运行时间进行预测，以得到所述待预测算子的运行时间预测值。

本步骤中，训练好的性能预测模型能够对不同深度学习模型中算子的运行时间进行预测，例如：卷积层的前向传播时间、池化层的前向传播时间等。

可见，本实施例提供的面向深度学习模型训练的性能预测方法，基于深度提升树算法，构建深度学习模型算子的性能预测模型，并利用性能预测模型对算子的运行时间进行预测，能够快速准确地预测深度学习训练的性能，节省研究人员的时间成本，有利于提升研究人员的工作效率。

在一些实施例中，结合图2，所述方法还可以包括以下步骤：

步骤S201，获取多个所述待预测算子的所述运行时间预测值，其中，所述多个待预测算子与同一待预测深度学习模型相对应。

本步骤中，一个深度学习模型可包括多个算子，例如包括卷积层算子、池化层算子和全连接层算子，通过性能预测模型可获取到每个算子的运行时间预测值。

步骤S202，对每个所述待预测算子的所述运行时间预测值进行累加，得到所述待预测深度学习模型的运行时间预测值。

具体的，例如：对于包含卷积层算子、池化层算子和全连接层算子的深度学习模型来说，将卷积层算子的运行时间预测值、池化层算子的运行时间预测值以及全连接层算子的运行时间预测值相加，便得到整个深度学习模型的运行时间预测值。

在一些实施例中，所述目标算子的运行时间包括：前向传播的运行时间和反向传播的运行时间。

具体的，可通过深度学习框架MXNet中的Profiler工具收集各个目标算子的前向传播的运行时间和反向传播的运行时间。基于前述实施例中每个特征参数的范围，运行1000次以收集前向传播和反向传播的平均运行时间，分别作为前向传播的运行时间和反向传播的运行时间。此外，通过设置相同的随机种子以确保测量结果更趋近于实际深度学习模型的训练过程。

在一些实施例中，结合图3，所述方法还可以包括以下步骤：

步骤S301，根据贝叶斯优化算法对所述算子性能预测模型的超参数进行优化，以获得所述运行时间预测值与对应运行时间真实值的最小均方误差。

在机器学习中，超参数是在开始学习过程之前设置的参数，一般为人为设定，通过不断试错调整，以提高学习的性能和效果，但手动查找超参数不仅困难，计算成本又高，因此可通过贝叶斯优化来自动调整超参数。

容易理解的是，梯度提升树训练旨在最小化运行时间预测值与对应运行时间真实值的均方根误差，均方根误差越小，则模型的预测精度越高。具体的，首先确定性能预测模型的超参数以及对应的超参数范围；然后，根据运行时间预测值与对应运行时间真实值的均方误差，确定超参数得分；最后，将预测结果以及选取的N组超参数输入至预先建立的贝叶斯优化模型中，得到优化后的超参数集合。最终得到的超参数集合能够使大幅度提升性能预测模型的预测准确率。

在一些实施例中，所述均方误差由下式计算得到：

下面，结合以上实施例，通过实验对比验证本申请方法的准确率。利用NVIDIATesla K80与NVIDIA Tesla V100 SXM2两种不同类型的GPU进行实验测试，并选择GoogLeNet、MobileNetV2、ResNet-18、ResNet-50和VGG-16五种常用的卷积神经网络进行性能测试。

首先，分别在两种类型GPU对VGG-16网络和ResNet-18网络的实际运行时间和利用本申请方法的时间预测值进行对比。每一层网络的性能预测结果和真实运行结果的对比如图4所示，在两种GPU上，VGG-16的预测性能平均误差为3.86％，ReNset-18的预测性能平均误差为3.69％，在两种神经网络和GPU上的预测性能平均误差为3.78％。

需要说明的是，实验结果还显示了深度神经网络每一层运行时间之间的差别，可以帮助深度学习研究者分析网络的性能瓶颈，进而优化深度学习训练速度。由实验可以看出，本申请的方法不仅可以预测前向传播的运行时间，还可以预测反向传播的运行时间。因此本申请的方法不仅可以预测深度学习模型训练的性能，还可以预测深度学习模型推理的性能。

其次，在验证了每一网络层的性能预测的准确性后，对整个网络的性能预测结果和真实运行结果进行对比，实验结果如图5所示，在两种GPU上，GoogLeNet网络的预测性能平均误差为6.8％，MobileNetV2网络的预测性能平均误差为4.6％，ResNet18网络的预测性能平均误差为6.8％，ResNet50网络的预测性能平均误差为6.5％，VGG16网络的预测性能平均误差为6.8％，5种卷积神经网络的平均预测误差为5.6％。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种面向深度学习模型训练的性能预测装置。

参考图6，所述面向深度学习模型训练的性能预测装置，包括：

第一获取模块601，被配置为获取所述深度学习模型的目标算子；

第二获取模块602，被配置为获取所述目标算子的特征参数；

确定模块603，被配置为根据所述特征参数的参数范围，确定所述目标算子的运行时间；

构建模块604，被配置为基于所述目标算子的运行时间，采用梯度提升树算法训练得到算子性能预测模型；

第一预测模块605，被配置为根据所述算子性能预测模型对待预测算子的运行时间进行预测，以得到所述待预测算子的运行时间预测值。

作为一个可选的实施例，所述装置还包括第二预测模块606，所述第二预测模块被配置为获取多个所述待预测算子的所述运行时间预测值，其中，所述多个待预测算子与同一待预测深度学习模型相对应；对每个所述待预测算子的所述运行时间预测值进行累加，得到所述待预测深度学习模型的运行时间预测值。

作为一个可选的实施例，所述目标算子的运行时间包括：前向传播的运行时间和反向传播的运行时间。

作为一个可选的实施例，所述装置还包括优化模块607，所述优化模块被配置为根据贝叶斯优化算法对所述算子性能预测模型的超参数进行优化，以获得所述运行时间预测值与对应运行时间真实值的最小均方误差。

作为一个可选的实施例，所述均方误差由下式计算得到：

作为一个可选的实施例，所述目标算子包括：卷积层算子、池化层算子和全连接层算子。

作为一个可选的实施例，所述特征参数包括：批量大小、输入通道数、输出通道数、卷积核大小、池化核大小、填充大小、步长、图像大小、权重、偏置、输入特征尺寸和/或输出特征尺寸。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的面向深度学习模型训练的性能预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的面向深度学习模型训练的性能预测方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的面向深度学习模型训练的性能预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的面向深度学习模型训练的性能预测方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面向深度学习模型训练的性能预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面向深度学习模型训练的性能预测方法，其特征在于，包括：

获取所述深度学习模型的目标算子；

获取所述目标算子的特征参数；

2.根据权利要求1所述的性能预测方法，其特征在于，还包括：

获取多个所述待预测算子的所述运行时间预测值，其中，所述多个待预测算子与同一待预测深度学习模型相对应；

3.根据权利要求1所述的性能预测方法，其特征在于，所述目标算子的运行时间包括：前向传播的运行时间和反向传播的运行时间。

4.根据权利要求1所述的性能预测方法，其特征在于，还包括：

根据贝叶斯优化算法对所述算子性能预测模型的超参数进行优化，以获得所述运行时间预测值与对应运行时间真实值的最小均方误差。

5.根据权利要求4所述的性能预测方法，其特征在于，所述均方误差由下式计算得到：

6.根据权利要求1-5任意一项所述的性能预测方法，其特征在于，所述目标算子包括：卷积层算子、池化层算子和全连接层算子。

7.根据权利要求1-5任意一项所述的性能预测方法，其特征在于，所述特征参数包括：批量大小、输入通道数、输出通道数、卷积核大小、池化核大小、填充大小、步长、图像大小、权重、偏置、输入特征尺寸和/或输出特征尺寸。

8.一种面向深度学习模型训练的性能预测装置，其特征在于，包括：

第二获取模块，被配置为获取所述目标算子的特征参数；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。