CN113205128A

CN113205128A - 基于无服务器计算的分布式深度学习性能保证方法

Info

Publication number: CN113205128A
Application number: CN202110463966.9A
Authority: CN
Inventors: 徐飞; 秦伊玲
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-03

Abstract

本发明公开了一种基于无服务器计算的分布式深度学习性能保证方法，包括一个分布式深度神经网络（Distributed Deep Neural Network,DDNN）训练性能预测模型以及一个无服务器计算函数资源配置方法。具体包括提交DDNN作业预运行；获取DDNN作业相关参数；收集无服务器计算函数相关特征参数；设计了一种基于所述获取DDNN作业相关参数和无服务器计算系统相关特征参数的训练性能预测模型；本发明设计并实现一种简单且有效的基于无服务器计算函数资源配置策略λDNN，解决基于无服务器计算的DDNN训练中的性能预测问题，在保证DDNN训练性能的前提下最小化DDNN训练成本花销。

Description

基于无服务器计算的分布式深度学习性能保证方法

技术领域

本发明属于分布式深度学习作业性能保证技术领域，具体涉及一种基于无服务器计算的分布式深度学习性能保证方法，在提供可预测训练性能的同时最小化在无服务器计算函数上的训练成本花销。

背景技术

无服务器计算是一种无需用户管理基础设施的新型云计算模型，用户不需要过多考虑服务器配置问题，计算资源仅作为一种服务而不再以物理硬件的形式出现。利用无服务器计算平台训练分布式深度神经网络(Distributed Deep Neural Network，DDNN)模型正成为一种有潜力的范例，因为它允许用户将复杂的模型训练分解为多个无服务器计算函数并行完成，而无需管理虚拟机(Virtual Machine，VM)或服务器。

然而，云服务商为了有效地管理资源，对每种无服务器计算函数资源的使用进行了限制，这对无服务器计算函数资源的合理的配置带来了挑战。无服务器计算函数资源的不合理配置(资源配置不足或资源配置过多)，会导致无服务器计算平台上的DDNN训练工作负载性能不可预测、高昂的训练成本花销。

发明内容

为了解决上述问题，本发明的目的是提供一种基于无服务器计算的分布式深度学习性能保证方法即基于无服务器计算的DDNN训练性能预测以及最小化训练成本花销的无服务器计算函数资源配置方法，该方法包括：

步骤1：提交DDNN训练负载到无服务器计算平台预运行20～50次迭代，针对预运行结果，得到DDNN目标训练性能T_o、训练周期数量e、DDNN模型的模型大小d_m、训练数据集大小d_t、训练数据集数量n_t、局部批次大小b_l、全局批次大小b_g、训练速率参数α₁和β₁的9个模型参数及无服务器计算函数的单价p、内存配置粒度m_step、最小可配置内存m_min、最大可配置内存m_max、参数服务器带宽B_p、无服务器计算函数与存储桶之间可用网络带宽

无服务器计算函数与参数服务器之间的固定网络带宽

无服务器计算函数与参数服务器之间的可用的网络带宽

的数个系统相应参数；

步骤2：根据步骤1所获取的9个模型参数及无服务器计算函数与存储桶之间可用网络带宽

及无服务器计算函数与参数服务器之间的可用的网络带宽

参数，建立关于DDNN训练负载的性能即训练时间预测模型T，用于预测DDNN模型的训练性能；其中，预测模型T如下所示：

其中，T表示预测的DDNN训练负载的训练性能，m、n是要求解的变量，分别表示无服务器计算函数的内存配置值、数量配置值。

步骤3：根据步骤1所获取的无服务器计算函数的单价p、内存配置粒度m_step、最小可配置内存m_min、最大可配置内存m_max参数，建立DDNN训练成本花销最小化的数学优化问题；具体如下所示：

s.t.T≤T_o，

其中，C表示DDNN训练成本花销，m表示无服务器计算函数内存大小，n表示配置的无服务器计算函数数量，p表示无服务器计算函数单价，单位为GB·秒，T表示DDNN性能预测模型在配置n个分配m内存的无服务器计算函数下的性能预测值；模型中的变量是m和n，为该最小化数学问题需要求解的变量；第一个约束条件中，T_o表示DDNN目标训练性能，单位为秒；第二个约束条件表示，m的上限为m_max，以m_step的大小作为内存配置粒度，

表示正整数，j为正整数来确保内存分配m在规定范围内即m_step～m_max；第三个约束条件中，n表示配置的函数数量，

表示正整数。

步骤4：利用目标训练性能和参数服务器带宽的约束条件，计算无服务器计算函数数量配置的上下界，以及步骤1中所获取的最大、最小可配置内存，遍历区间内所有函数资源配置方案，输出既能保证DDNN训练性能目标，又能最小化训练成本花销的无服务器计算函数资源配置方案；具体为：依据目标训练时间约束即T≤T_o，解该不等式得出无服务器计算函数数量的上界n_upper，依据无服务器计算函数的数据传输带宽约束即

其中B_p表示无服务器计算函数和参数服务器之间可用的网络带宽，解该不等式求出配置无服务器计算函数数量的下界n_lower，在无服务器计算函数数量可配置范围[n_lower，n_upper]、无服务器计算函数内存可配置范围[m_min，m_max]，遍历所有候选无服务器计算函数资源配置方案，输出既能保证DDNN训练性能目标，又能减少训练成本花销的无服务器计算函数资源配置方案即函数内存m，函数数量n。

本发明解决了基于无服务器计算平台的DDNN训练性能不可预测问题、无服务器计算函数的资源配置问题、以及DDNN训练成本最小化问题。本发明以数学建模的方式，为基于无服务计算的DDNN训练负载提供可预测的性能，利用无服务器计算函数资源，提供更科学合理的无服务器计算函数资源配置，能在保证DDNN目标性能的前提下，降低用户的DDNN训练成本花销。

附图说明

图1为基于无服务器计算的DDNN训练参数服务器框架(基于AWS Lambda)图；

图2为根据本发明实施方式的保证DDNN训练性能的无服务器计算函数资源配置系统的架构图；

图3为本发明流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。本发明设计并实现了一个高效率的无服务器计算函数资源配置框架λDNN，来保证无服务器计算平台的DDNN训练负载的性能并最小化训练成本花销。

如图1所示，本发明使用具有足够资源的VM实例作为参数服务器。具体而言，训练数据集最初存储在分布式存储中(例如，Amazon S3存储桶)。当开始训练DDNN模型时，数据被均匀地划分并分配给所提供的无服务器计算函数。对于每次迭代，无服务器计算函数首先计算模型梯度并将其推送给参数服务器进行聚合，当参数服务器收到所有工作节点上传的模型梯度，就更新模型参数。最后，无服务器计算函数从参数服务器中拉取更新的模型参数，以进行下一个训练迭代。

如图1所示，基于无服务器计算的DDNN训练可分为训练数据加载过程和模型训练过程。每个无服务器计算函数(即工作节点)首先从分布式存储中获取训练数据样本。然后，这些无服务器计算函数基于一个局部批次大小的数据样本计算模型梯度，并将计算出的模型梯度推送到参数服务器，参数服务器汇总所有无服务器计算函数的梯度。最后，无服务器计算函数从参数服务器拉取更新过的模型参数以完成一个训练迭代。通常，DDNN模型训练需要进行多次迭代(用k表示)才能使损失函数收敛到目标值，因此，对于无服务器计算函数来讲，计算梯度、推送梯度、拉取参数需要重复k次，而推送梯度、拉取参数可以统一理解为工作节点与参数服务器进行通信的过程。通过以上分析，可以通过把从S3存储桶下载训练数据的数据加载时间t_load、k次迭代的模型梯度的计算时间t_comp、模型参数和梯度的通信时间t_comm相加，得出DDNN训练性能(即训练时间)T可以表示为：

T＝t_load+k·(t_comp+t_comm) (1)

训练迭代次数k可表示为：

其中，n_t表示训练数据样本数量，e表示训练周期数量(其中一个训练周期表示整个数据集的一次完整遍历)，b_g表示全局批次大小。

为了实现快速收敛，无服务器计算函数(工作节点)与参数服务器之间的数据通信遵循在工业界机器学习集群中得到广泛的应用整体同步并行(Bulk SynchronousParallel，BSP)协议。本发明假设训练数据被均匀地划分到所配置的无服务器计算函数，即对于使用n个无服务器计算函数来训练d_t大小的训练数据集，每个无服务器计算函数需要处理的训练数据集大小为d_t/n。因此对一个无服务器计算函数来说，训练数据的加载时间t_load可以表示为：

其中，

表示无服务器计算函数与存储桶之间的可用网络带宽。d_t为训练数据集的大小，n为配置的无服务器计算函数数量。

理想情况下使用BSP协议的无服务器计算函数具有相同的训练速率(即训练数据样本的处理速率，用R表示，单位为样本数量/秒)。因此，计算时间t_comp可以表示为：

其中，b_l表示无服务器计算函数训练时的局部批次大小。

每次迭代的数据通信时间t_comm包含了无服务器计算函数上传(推送)模型梯度到参数服务器和从参数服务器下载(拉取)模型参数的网络传输时间，模型参数的大小为d_m，模型梯度的大小与之相同，由此模型参数和梯度的通信时间t_comm可以表示为：

这里

表示一个无服务器计算函数和参数服务器之间可用的网络带宽。

无服务器计算函数的CPU资源与分配给无服务器计算函数的内存大小成比例，因此，计算时间t_comp与无服务器计算函数内存大小m高度相关(即成比例)。单个无服务器计算函数的训练速率可以表示为：

R＝α₁·m+β₁ (6)

这里的α₁和β₁是作业相关参数，在预运行阶段获取。

一个无服务器计算函数和参数服务器之间可用的网络带宽

与无服务器计算函数的内存分配大小无关，对每一个无服务器计算函数来说，

受参数服务器带宽B_p/n限制，在参数服务器的网络带宽成为瓶颈之前，无服务器计算函数与参数服务器之间的可用网络带宽不受无服务器计算函数内存分配和无服务器计算函数数量影响，由此无服务器计算函数与参数服务器之间可用带宽

可以表示为：

将公式(2)至公式(7)代入公式(1)可得DDNN训练性能关于函数内存m和函数数量n的分析模型。即

在上述建立的DDNN训练性能模型的基础上，进一步提出无服务器计算资源配置优化问题定义最小化无服务器计算函数资源配置的成本花销，如下所示：

其中，p表示无服务器计算函数单价(GB·秒)，T_o表示DDNN目标训练时间(秒)。公式(9)定义了目标是使DDNN训练的成本花销最小化，受制于三个约束条件。第一个约束条件中，T_o表示DDNN目标训练性能(单位为秒)；第二个约束条件表示，m的上限为m_max，以m_step的大小作为内存配置粒度，

表示正整数。

依据目标训练时间约束即T≤T_o，依据无服务器计算函数的数据传输带宽约束即

求出无服务器计算函数数量可配置范围[n_lower，n_upper]，依据无服务器计算函数内存可配置范围[m_min，m_max]，遍历所有候选无服务器计算函数资源配置方案，输出既能保证DDNN训练性能目标，又能减少训练成本花销的无服务器计算函数资源配置方案，即函数内存配置m，函数数量配置n。

由此，图2详细展示了保证DDNN训练性能的无服务器计算函数资源配置系统λDNN，首先提交DDNN训练负载(即DDNN模型和训练数据集)和目标训练时间到λDNN预运行模块，运行该DDNN模型，利用特定参数获取模块获得作业相关参数和系统相关参数，性能预测器使用性能模型来预测DDNN训练时间，函数资源配置器在资源上下界内遍历所有可配置资源项，资源来确定低成本花销的无服务器计算函数资源配置计划。在确定了高效率的资源配置计划后，函数控制器最终使用无服务器计算平台的命令行工具创建相应数量的函数并配置相应内存。该处理流程如图3所示。

实施例

为了验证本发明的可行性和准确性，本发明在AWS Lambda平台的Amazon us-east-1区域根据图1建立了一个基于无服务器计算的训练集群。具体而言，使用一个m5.1arge EC2实例(配备2个vCPU，8GB内存)作为参数服务器，并使用AWS Lambda函数作为工作节点。通过在us-east-1区域创建一个用于存储训练数据集的S3存储桶。使用NetPerf工具和Boto3 SDK来测量B_p、

参数服务器节点的网络带宽B_p为1.2GBps，无服务器计算函数与EC2实例之间的不受内存分配影响的固定网络带宽

为84MBps。

DDNN训练负载和数据集：选择四种典型DDNN模型作为训练负载，其中包括(1)基于BSDS500数据集训练的用于超分辨率图像重建的ESPCN模型，(2)基于IMDB数据集训练的用于文本分类的1DCNN模型，(3)基于cifar10数据集训练的用于图像分类的MobileNet模型，以及(4)基于cifar10数据集训练的用于图像分类的ResNet50模型。

通过使用单个无服务器计算函数进行训练负载预运行20～50次迭代，能够获得关键的模型依赖的参数，如表1所示：

表1四种典型DDNN训练负载的说明

DDNN模型名称	ESPCN	1DCNN	MobileNet	ResNet50
					训练数据集名称	BSDS500	IMDB	cifar10	cifar10
训练样本大小(MB)	128.7	41.1	148	148
					训练样本数量	500	15,000	50,000	50,000
DDNN模型人小(MB)	0.34	2	18	98

评估基准与评估指标：λDNN将与以下两种资源配置策略进行比较：(1)Naive配置策略，它为DDNN训练工作负载随机选择无服务器计算函数数量，并总是为无服务器计算函数配置最大的内存；(2)经过修改的Siren(Modified Siren)，它利用DRL方法选择无服务器计算函数的数量和内存大小以实现可预测的性能，同时最大程度地降低DDNN训练的成本花销，使用Modified Siren是因为原始的Siren旨在给定的训练预算下，减少DDNN训练时间。实验关注两个关键指标：DDNN训练时间和每个资源配置计划下的训练成本花销。所有实验重复训练DDNN模型三次，并用标准差误差棒来进一步表明实验结果。

如表2所示，随着无服务器计算函数内存增加到3,008MB，λDNN的性能模型可以较准确地预测DDNN训练时间，预测误差为0.98％～6.0％。

表2λDNN对1DCNN模型、ResNet50模型的训练时间预测

进一步实验固定函数内存分配为3,008MB，更改配置的函数数量(4～12)并检查λDNN预测的ESPCN和MobileNet的训练性能。如表3所示，随着所配置的函数数量的增加，λDNN可以较准确地预测DDNN训练性能，其预测误差为0.20％～10.27％。

表3 λDNN对ESPCN模型、MobileNet模型的训练时间预测

在λDNN、Naive、Modified Siren三种不同资源配置策略下，使用1DCNN模型及ResNet50模型来评估DDNN训练性能的可预测性具体而言，在表4中的1DCNN的目标时间为90秒的情况下，Naive策略总是分配最大的内存大小(即3,008MB)并随机地配置10个无服务器计算函数，对应的这种资源配置计划下的训练时间为53.6秒；这与Modified Siren策略获得的资源配置计划(2,624，8)(即2,624MB内存和8个无服务器计算函数)几乎相同。尽管λDNN资源配置计划下的模型训练最大时间(即86.2秒)，但它能提供最少的无服务器计算函数资源(1,088，10)同时在目标训练时间之前完成训练。

表4 λDNN对ESPCN模型、MobileNet模型的训练时间预测

λDNN总是能在DDNN训练中实现无服务器计算函数资源配置和使用的最低训练成本花销。具体而言，与Naive和Modified Siren资源配置策略相比，λDNN可以分别节约高达19.7％和57.9％的训练成本花销。表4显示，Naive策略的训练成本花销最高，由于随机配置无服务器计算函数数量，它在目标训练时间为90秒的情况下过度配置无服务器计算函数资源(3,008，10)但却在目标训练时间为210秒的情况下资源配置不足(3,008，1)。例如，尽管Naive的策略在目标训练时间为90秒的情况下可以节约38.7％的训练时间，但其训练成本花销却比λDNN高出57.9％。由此验证了本发明所提出的基于无服务器计算的DDNN训练预测性能模型的可靠性、λDNN资源配置策略的有效性及高性价比。

本发明的实施方式还能够提供一种保证DDNN训练性能的无服务器计算函数资源配置系统，所述系统包括：

DDNN训练负载预运行模块，提交DDNN模型到无服务器计算平台中预运行20～50次迭代；

DDNN训练负载特定参数获取模块，获取构建DDNN训练性能预测模型和DDNN训练成本花销模型相关参数；

DDNN训练性能预测模块，建立DDNN训练性能预测模型用以预测DDNN训练性能；

函数资源资源配置模块λDNN，基于DDNN训练成本花销模型，为基于无服务器计算的DDNN训练负载提供既能满足用户的DDNN训练性能目标又能最小化DDNN训练成本花销的无服务器计算函数资源配置方案。

用户只需将深度学习负载以及目标训练性能提交到该资源配置系统，便可以自动完成无服务器计算函数资源配置，并且该资源配置方案既能够保证深度学习负载的目标训练性能，又能最小化用户的DDNN训练成本花销。

Claims

1.一种基于无服务器计算的分布式深度学习性能保证方法，其特征在于，该方法包括以下具体步骤：

步骤1：提交DDNN训练负载到无服务器计算系统预运行20～50次迭代，针对预运行结果，得到DDNN目标训练性能T_o、训练周期数量e、DDNN模型的模型大小d_m、训练数据集大小d_t、训练数据集数量n_t、局部批次大小b_l、全局批次大小b_g、训练速率参数α₁和β₁的9个模型参数及无服务器计算函数的单价p、内存配置粒度m_step、最小可配置内存m_min、最大可配置内存m_max、参数服务器带宽B_p、无服务器计算函数与存储桶之间可用网络带宽