CN113887717A

CN113887717A - 一种基于深度学习预测神经网络训练时长的方法

Info

Publication number: CN113887717A
Application number: CN202111020175.5A
Authority: CN
Inventors: 王鑫; 曾艳; 袁俊峰; 张纪林; 万健
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-01-04

Abstract

本发明公开了一种基于深度学习预测神经网络训练时长的方法，为大规模集群中的深度学习任务训练时长提供预测以优化集群调度策略。本发明首先分析神经网络的结构特性和训练过程的计算组成，构建以单层网络训练时长为基本单位的完整神经网络训练时长的计算模型，为利用单层模型特征预测具备不同结构的神经网络训练时长提供支持；其次，分析模型特征和训练时长的关系，设计多层感知机模型用以提取模型特征对训练时长的影响；最后，根据模型特征对训练时长的影响，制定降维规则用以提取对训练时长影响较大的关键特征，降低模型特征的维度，并利用降维后的模型特征训练深度学习模型用以预测分布式环境下的神经网络训练时长。

Description

一种基于深度学习预测神经网络训练时长的方法

技术领域

本发明涉及一种基于深度学习预测神经网络训练时长的方法，用于预测大规模分布式环境下的神经网络训练时长。

背景技术

近年来，随着5G技术的快速发展，互联网中的信息流通达到了前所未有的速度，快速的信息流通带来了数据量的剧烈增加，促进了大数据和人工智能技术的发展。2016年，ResNet技术被提出用于深层次网络的训练，推进了深度学习模型复杂化的发展趋势。由于数据量的剧增和模型复杂化的趋势，单机已经难以承受模型训练带来的庞大开销。针对该问题，业界开始探索分布式环境下的深度学习技术。

分布式深度学习使用大规模分散的计算节点构成一个具有强大算力和存储能力的集群，用集群的算力和存储能力来支持大数据量和复杂模型的训练。目前，许多深度学习框架都已经支持分布式训练，如TensorFlow、MXNet和PaddlePaddle等。但是大多数分布式深度学习平台仍然采用基于静态调度策略的云/集群调度器，如Google的Borg集群调度器、微软、腾讯和百度使用的类Yarn调度器等。此类调度器无法根据集群内神经网络的训练时间来实现资源动态调整，将浪费大量集群计算资源。预测分布式环境下的神经网络训练时间能够帮助集群设计动态调度策略，是一种较好的解决方案。

起初，对时间序列的预测通常采用机器学习回归算法，如线性回归、随机森林和GBDT。Edelman等人将线性回归模型应用于手术时间的预测；wang等人使用基于近邻的随机森林方法训练了多个回归决策树用来预测公交车的到站时间；J.Cheng等人针对不同的时间范围采用GBDT方法预测交通时间。这些回归方法不受限于特定领域和使用场景，具有较好的通用性，但是在时间序列的预测上误差范围较大，通常只能应用在对时间波动敏感度不高的场景。

为了缩小时间序列预测的误差范围，有学者提出结合特定领域知识的预测方法。通过研究特定应用领域的计算特性，建立数学模型实现时间序列预测，比如PALEO和Optimus。PALEO是一种通过统计浮点运算的次数来实现运算时长预测的方法，它统计一个模型训练时期中所需要进行浮点运算的次数，并将其乘以一个比例因子实现模型训练时长预测。该方法假设整个模型的训练过程都与浮点运算次数相关，忽略了一些不与浮点运算次数线性相关的操作(如参数传递)。与PALEO不同，Optimus对影响模型训练的因素做了数学归纳，建立一个绩效模型来评估训练的速度，并且可以通过在线资源数来预测训练过程中的模型收敛性。相较于回归方法，以上方法缩小了模型训练时长的预测误差范围，但是针对深度学习任务训练过程建立的数学分析模型较为模糊，忽略了一些对结果贡献较大的因素，从而导致预测结果不稳定。

由于深度学习模型在各个领域的出色表现，研究人员开始使用基于深度学习的时间序列预测方法，试图进一步降低时间序列预测的误差。Wenquan Xu等人创造性地将线性回归和深度信念网络相结合来预测时间序列；PreVIous则根据物联网视觉设备的吞吐量和能耗，训练多层感知机模型预测卷积神经网络推理时间；NC Petersen等人设计一个混合了卷积层和LSTM层的神经网络实现了公交车到站时间的准确预测。这些方法都达到了较高的预测准确率，但应用在深度学习模型训练时长的预测上则受限于特定的模型结构，当遇到新的网络模型时需要重新训练他们的预测模型。

为了实现对不同结构的网络都能准确预测其训练时长，Daniel Justus等人将神经网络按层次划分，并根据计算特性进行了分类(如卷积层和全连接层)，然后收集单层网络的模型特征训练一个多层感知机模型预测单层模型训练时长，达到了较高的准确率。该方法具备很好的通用性，当遇到新的网络模型时，只需要根据模型的层级特征预测单层训练时长，通过累加每层训练时长即可预测出整体模型的训练时长。但Daniel Justus等人的方法应用在分布式环境下会存在如下问题：1)缺乏对模型特征和训练时长关系的分析，所收集的大量单层网络模型特征中包含了对训练时长没有影响或影响较小的特征。2)需要收集大量模型特征，在分布式环境下通常难以获得神经网络的全部细节。

发明内容

本发明针对现有技术的不足，设计并实现一种基于深度学习预测神经网络训练时长的方法。

本发明通过构建以单层网络训练时长为基本单位的完整神经网络训练时长的计算模型，为利用单层模型特征预测神经网络训练时长提供理论支持，从而实现对不同结构神经网络训练时长的通用预测；设计多层感知机提取模型特征对训练时长的影响，实现对模型特征和训练时长关系的有效分析；提出降维规则用以处理模型特征数据，提取对训练时长影响较大的关键特征，降低模型特征的数据量。利用降维处理后的特征数据训练深度学习模型用以预测神经网络训练时长，提高在分布式环境下预测神经网络训练时长的可行性。

一种基于深度学习预测神经网络训练时长的方法，包括如下步骤：

步骤1：构建以单层网络训练时长为基本单位的完整神经网络训练时长的计算模型，分析影响训练时长的单层网络模型特征。

首先，结合Batch Normalization技术分析神经网络训练过程的计算组成，构建粗粒度训练时长计算模型。完整神经网络的一次训练由一个batch的正向传播计算和1次反向传播计算组成。在神经网络训练过程中，需要多次迭代正向传播和反向传播计算。根据神经网络训练过程的计算组成，构建以完整网络一次训练的耗时为基本单位的训练时长计算模型。

然后，根据神经网络的层次性结构特征，进一步细化神经网络训练时长的计算模型。一个完整的神经网络通常由多层神经元构成，当前层的输出作为下一层的输入，正向传播和反向传播的计算可以由多个层级计算组成。结合上述以完整网络训练时长为基本单位的粗粒度计算模型和神经网络的层次性特征，可细化得到以单层网络训练时长为基本单位的完整神经网络训练时长计算模型。

最后，分析影响训练时长的单层网络模型特征，根据神经网络训练时长计算模型，实现神经网络训练时长预测和模型结构的相互独立。根据神经网络的训练集数据量和模型超参数设置，分析得到单层网络的模型特征。面对具备不同结构的神经网络，根据计算模型，可收集该网络每一层的模型特征预测该层训练时长，组合单层预测结果即可预测完整网络的训练时长。

步骤2：设计多层感知机提取模型特征对神经网络训练时长的影响，为了方便称呼，所述多层感知机简称为权重模型。

首先，将模型特征和训练时长的关系抽象为计算表示。对于模型特征x，训练时长f(x)可表示为：f(x)＝wx，其中w代表特征对训练时长的影响，即特征权重。

其次，对特征数据进行标准化处理以提取真实的特征权重。在模型特征数据中，每个特征对应的取值范围不同，从而造成特征值大小的差异。为了提取模型特征对训练时长的真实影响力，本发明使用标准化算法处理模型特征数据。

最后，根据模型特征和训练时长关系的计算表示，设计权重模型提取特征权重。权重模型的输入为标准化处理后的模型特征数据，输出为预测的单层模型训练时长。权重模型共含7层隐含层，其中，隐含层的最后一层与权重模型的输入数据维度相同，并且其输出与输入数据做点乘后传递到输出层，构成f(x)＝wx形式。因此，隐含层最后一层的输出即表示特征对应的权重。

步骤3：提出降维规则，利用降维规则处理后的模型特征数据训练深度学习模型预测神经网络训练时长，为了方便称呼，所述深度学习模型简称为时间预测模型。

首先，利用权重模型提取多个特征数据集上的特征权重构成权重数据集。神经网络的层次可以按照计算特性进行分类，如卷积层和全连接层。对不同类别的层次，其对应的单层模型特征不同。根据不同类别的单层模型特征数据，利用权重模型提取出每条特征数据对应的特征权重构成权重数据集。

其次，根据特征权重数据集，分析特征对训练时长的总体影响力。对不同的特征数据，每个特征对应的取值不同，对训练时长的影响力也存在差异，从而造成特征权重的波动。根据特征数据集，建立衡量特征总体影响力的指标MeanRank和MeanRankStd。

再次，根据特征总体影响力，设计降维规则，降低模型特征维度和数据量。计算每个特征数据集的MeanRank和MeanRankStd，设计降维规则提取出对训练时长总体影响较大的关键特征，降维规则的数学表示如下：

Θ＝{j|MeanRankStd(j)＞s∪MeanRank(j)＜r,j∈F}

利用降维规则处理模型特征数据集，降低模型特征数据的维度。

最后，利用降维处理后的特征数据，训练时间预测模型。对卷积层和全连接层特征数据做降维处理后，分别训练卷积层时间预测模型和全连接层时间预测模型。降维规则能够在保证时间预测模型低误差的前提下，减少时间预测模型所需的特征数据量，提高在分布式环境下使用深度学习方法预测神经网络训练时长的可行性。

本发明的有益效果：本发明能够在保证神经网络训练时间预测高准确率的前提下，针对卷积层减少30％的模型特征和25％的训练数据；针对全连接层减少20％的模型特征和20％的训练数据；从而降低分布式环境下预测神经网络训练时间所需收集的信息量。

附图说明

图1是基于深度学习预测神经网络训练时长的架构图；

图2是权重模型结构图。

具体实施方式

下面将结合附图和具体实施步骤对本发明做出进一步说明。

一种基于深度学习预测神经网络训练时长的方法，包括以下步骤：

步骤1：构建以单层网络训练时长为单位的完整神经网络训练时长的计算模型。

首先，结合Batch Normalization技术分析神经网络训练过程的计算组成，构建粗粒度训练时长计算模型。完整神经网络的一次训练由一个batch的正向传播计算和1次反向传播计算组成。在神经网络训练过程中，需要多次迭代正向传播和反向传播计算。根据神经网络训练过程的计算组成，构建以完整网络一次训练的耗时为基本单位的训练时长计算模型，其定义如下式：

其中，记T表示神经网络训练时长，E为训练的epoch个数，n为训练集的数据量，B为batch的大小，x_i为当前batch中第i条训练数据，t_forward表示一次正向传播的耗时，t_backward表示一次反向传播的耗时。

其次，根据经网络的层次性结构特征，可进一步细化神经网络训练时长的计算模型。一个完整的神经网络通常由多层神经元构成，当前层的输出作为下一层的输入，正向传播和反向传播的计算可以由多个层级计算组成。正向传播和反向传播的层级计算表示如下：

正向传播，数据输入到神经网络中，经过各层计算后输出，记m为神经网络层数，x_i为训练数据，

表示第l层正向传播计算耗时，正向传播计算的层级表示可定义为下式：

反向传播，根据正向传播的输出与期望输出的损失，计算网络参数梯度，从输出层到输入层，逐层根据梯度调节网络参数，记m为神经网络层数，

表示第l层反向传播计算耗时，反向传播计算的层级表示可定义为下式：

结合上述以完整网络训练时长为基本单位的粗粒度计算模型，如公式(1)所示，和神经网络正向及反向传播的层级计算表示，如公式(2)(3)所示，神经网络训练时长计算模型可进一步细化为以单层训练时长为基本单位。以单层网络训练时长为基本单位的完整网络训练时长计算模型可定义为下式：

通过上述定义，本发明以单层网络计算耗时为单位对神经网络训练时长进行建模，从理论上证明可以通过单层网络特征预测网络训练时长。

最后，对影响训练时长的单层网络模型特征进行分析，并根据神经网络训练时长计算模型，实现神经网络训练时长预测和模型结构的相互独立。在神经网络训练过程中，训练集大小、模型超参数设置和硬件环境都会对训练时长产生影响。可以按照公共特征、卷积层特征、全连接层特征、循环层特征和硬件特征对影响神经网络训练时长的因素分类。卷积层和全连接层的训练耗时占整个网络训练耗时的绝大部分，因此，只需收集卷积层和全连接层的模型特征，所收集的特征按照上述分类标准如下表所示：

对于具备不同结构的神经网络，根据计算模型，可收集其每一层网络的模型特征预测该层训练时长，组合单层预测结果即可预测完整网络的训练时长，实现对不同结构神经网络的通用预测。

步骤2：设计权重模型提取模型特征对神经网络训练时长的影响。

其次，对特征数据进行标准化处理以提取真实的特征权重。在模型特征数据中，每个特征对应的取值范围不同，从而造成特征值大小的差异。在上述模型特征和训练时长关系的计算表示中，简单地将原始特征数据作为x时，w会由于特征之间的取值差异而产生偏差，无法代表特征对训练时长的真实影响力。为了提取模型特征对训练时长的真实影响力，本发明使用标准化算法处理模型特征数据，将特征的取值映射到标准正态分布。

最后，根据模型特征和训练时长关系的计算表示，设计权重模型提取特征权重。如图2所示，权重模型的输入为经过标准化处理后的模型特征数据，输出为预测的单层模型训练时长，每层神经元通过ReLu激活后输出。权重模型共含7层隐含层，Layer1到Layer6的神经元个数依次为32、64、128、128、128和128，Weights层神经元的个数与输入层相同，Weights层的输出与输入层数据对应位相乘并加和，经过ReLu激活后输出。标准化后的模型特征数据x经过Layer 1到Weights层的计算后输出特征权重w，再与模型特征数据点乘构成f(x)＝wx形式。

步骤3：提出降维规则，利用降维规则处理后的模型特征数据训练时间预测模型。

其次，根据特征权重数据集，分析特征对训练时长的总体影响力。在权重模型中，对于每个输入特征数据x_i，权重模型的输出为：f(x_i)＝g(x_i)x_i,其中权重g(x_i)是一个函数，会随着输入数据而变化。对不同的特征数据，每个特征对应的取值不同，对训练时长的影响力也存在差异，从而造成特征影响力大小顺序(即特征权重排名)的波动。因此，简单根据单条特征数据对应的特征权重提取权重较大的特征会产生较大误差，无法代表该特征对神经网络训练时长的总体影响力。针对该问题，本发明采用特征权重的平均排名MeanRank和排名的平均标准差MeanRankStd来对特征进行总体分析。为了获取特征的MeanRank和MeanRankStd，首先需要计算每条特征权重数据中的特征权重排名，本发明使用下式计算权重排名：

记Rank(i，j)为第i条特征权重数据中第j个特征的权重排名，n为特征总数，w_i，k表示第i条特征权重数据中第k个特征的权重大小。

结合特征权重排名Rank，特征权重的平均排名MeanRank和排名的平均标准差MeanRankStd可以定义如下：

特征权重的平均排名MeanRank，根据不同硬件设备上的模型特征数据集和训练时长数据，利用权重模型提取出特征权重并用公式(5)计算权重排名构成对应的权重排名数据集。记MeanRank(j)为第j个特征的权重平均排名，N表示数据集的个数，M_d表示第d个权重排名数据集的数据量，特征权重的平均排名MeanRank可由下式计算得到：

特征权重排名的平均标准差MeanRankStd，记MeanRankStd(j)为第j个特征的权重排名的平均标准差，N表示数据集的个数，M_d表示第d个权重排名数据集的数据量，RankStd(d，j)表示第d个测试数据集上第j个特征权重排名的标准差，特征权重的平均排名MeanRankStd可由下式计算得到：

MeanRank表示在不同硬件设备上特征影响力大小顺序的总体分布，MeanRankStd表示特征影响力大小顺序的总体波动程度。为了实现特征降维，本发明根据MeanRank和MeanRankStd，制定了一个统一的降维规则提取对神经网络训练时长总体影响较大的关键特征，降维规则可表示成下式：

Θ＝{j|MeanRankStd(j)＞s∪MeanRank(j)＜r，j∈F} (8)

记Θ表示选取的对神经网络训练时长影响较大的关键特征的集合，F为特征集合，s和r表示常数，需要根据MeanRankStd和MeanRank的值设定。

降维规则提取关键特征的过程可以分为以下两步：

1)选取MeanRankStd大于s的特征。

从特征权重排名的平均标准差MeanRankStd中可以直观的判断出特征总体权重排名的稳定程度。MeanRankStd较小的特征对训练时长的总影响力比较稳定，MeanRankStd较大的特征其影响力波动较大，排除排名波动性强的特征会造成部分训练时间预测的严重偏差，因此，降维规则第一步选择提取MeanRankStd大于s的特征。

2)选取MeanRank小于r的特征。

在1)筛选完毕后，特征集合中还剩下排名相对稳定(MeanRankStd较小)的特征，这些特征中包含了对训练时长总体影响力较大(MeanRank较小)的特征，因此，降维规则第二步选择在排名稳定(MeanRankStd较小)的特征中，选取MeanRank小于r的特征。

利用降维规则筛选对神经网络训练时长影响较大的模型特征的过程可以用以下算法进行描述：

最后，利用降维处理后的特征数据，训练时间预测模型。为了保证时间预测模型具备较好的收敛性和较短的推理时间，时间预测模型的结构相对于权重模型只去除了Weights层和输入层点乘的部分，其余层次设置与权重模型一致。对卷积层和全连接层特征数据做降维处理后，分别训练卷积层时间预测模型和全连接层时间预测模型。降维规则能够在保证时间预测模型低误差的前提下，减少时间预测模型所需的特征数据量，从而实现在分布式环境下使用深度学习方法预测神经网络训练时长。

Claims

1.一种基于深度学习预测神经网络训练时长的方法，其特征在于，所述方法包括以下步骤：

(1)结合神经网络训练过程的计算组成和神经网络的层次性结构特征，构建以单层网络训练时长为基本单位的完整网络训练时长的计算模型；分析影响单层网络训练时长的模型特征；

所述训练过程的计算组成指神经网络正向传播和反向传播计算过程，层次性结构特征是指神经网络结构上以层次为基本单位，整体网络的运算通过层次运算传递得到；所述模型特征指单层网络的超参数设置；

(2)分析模型特征和训练时长的关系，设计多层感知机模型用以提取模型特征对神经网络训练时长的影响；

其中，所述多层感知机模型以下简称为权重模型，所述模型特征对神经网络训练时长的影响简称为特征权重；

(3)利用权重模型提取特征权重，根据特征权重的大小排名构建能够衡量模型特征对训练时长总体影响力的评价指标，基于评价指标设计降维规则实现模型特征降维，使用降维处理后的模型特征训练深度学习模型用以预测单层神经网络训练时长；

所述评价指标包括对特征权重总体排名的评价和对特征权重排名总体波动程度的评价；为方便称呼，所述用以预测单层神经网络训练时长的深度学习模型以下简称为时间预测模型。

2.根据权利要求1所述的一种基于深度学习预测神经网络训练时长的方法，其特征在于：步骤(1)中所述以单层网络训练时长为基本单位的完整网络训练时长的计算模型通过以下两个步骤建立：

(1)结合Batch Normalization技术，完整神经网络的一次训练由一个batch的正向传播计算和1次反向传播计算组成，并多次迭代该过程；完整网络一次训练的耗时为基本单位的训练时长计算模型可构建为：

其中，T表示神经网络训练时长，E为训练的epoch个数，n为训练集的数据量，B为batch的大小，x_i为当前batch中第i条训练数据，t_forward表示一次前向传播的耗时，t_backward表示一次反向传播的耗时；

(2)结合神经网络层次性结构特征，前向传播和后向传播的计算可由多个层级计算组成，进一步细化计算模型得到以单层网络训练时长为基本单位的计算模型：

m为神经网络层数，x_i为训练数据，

表示第l层前向传播计算耗时，

表示第l层反向传播计算耗时。

3.根据权利要求1所述的一种基于深度学习预测神经网络训练时长的方法，其特征在于：步骤(2)中所述模型特征和训练时长的关系可抽象为f(x)＝wx，其中，f(x)表示训练时长，x为模型特征，w代表特征对训练时长的影响，即特征权重；

步骤(2)中所述权重模型的输入为经过标准化处理后的模型特征数据，输出为预测的单层模型训练时长，每层神经元通过ReLu激活后输出；权重模型中隐含层的最后一层神经元的个数与输入层相同，且其输出与输入层数据对应位相乘并加和，经过ReLu激活后输出，构成f(x)＝wx形式。

4.根据权利要求1所述的一种基于深度学习预测神经网络训练时长的方法，其特征在于：步骤(3)中所述衡量模型特征对训练时长总体影响力的评价指标为特征权重的平均排名MeanRank和排名的平均标准差MeanRankStd；根据MeanRank和MeanRankStd所设计的降维规则可表示为：

Θ＝{j|MeanRankStd(j)＞s∪MeanRank(j)＜r，j∈F}

Θ表示选取的对神经网络训练时长影响较大的关键特征的集合，F为特征集合，j表示特征集合的第j个特征，s和r表示常数，需要根据MeanRankStd和MeanRank的值设定。

5.根据权利要求1所述的一种基于深度学习预测神经网络训练时长的方法，其特征在于：步骤(3)中所述时间预测模型的结构相对于权重模型只去除了隐含层最后一层和输入层点乘的部分，其余层次设置与权重模型一致。