CN113205128A - 基于无服务器计算的分布式深度学习性能保证方法 - Google Patents

基于无服务器计算的分布式深度学习性能保证方法 Download PDF

Info

Publication number
CN113205128A
CN113205128A CN202110463966.9A CN202110463966A CN113205128A CN 113205128 A CN113205128 A CN 113205128A CN 202110463966 A CN202110463966 A CN 202110463966A CN 113205128 A CN113205128 A CN 113205128A
Authority
CN
China
Prior art keywords
training
ddnn
serverless
server
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110463966.9A
Other languages
English (en)
Inventor
徐飞
秦伊玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110463966.9A priority Critical patent/CN113205128A/zh
Publication of CN113205128A publication Critical patent/CN113205128A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于无服务器计算的分布式深度学习性能保证方法,包括一个分布式深度神经网络(Distributed Deep Neural Network,DDNN)训练性能预测模型以及一个无服务器计算函数资源配置方法。具体包括提交DDNN作业预运行;获取DDNN作业相关参数;收集无服务器计算函数相关特征参数;设计了一种基于所述获取DDNN作业相关参数和无服务器计算系统相关特征参数的训练性能预测模型;本发明设计并实现一种简单且有效的基于无服务器计算函数资源配置策略λDNN,解决基于无服务器计算的DDNN训练中的性能预测问题,在保证DDNN训练性能的前提下最小化DDNN训练成本花销。

Description

基于无服务器计算的分布式深度学习性能保证方法
技术领域
本发明属于分布式深度学习作业性能保证技术领域,具体涉及一种基于无服务器计算的分布式深度学习性能保证方法,在提供可预测训练性能的同时最小化在无服务器计算函数上的训练成本花销。
背景技术
无服务器计算是一种无需用户管理基础设施的新型云计算模型,用户不需要过多考虑服务器配置问题,计算资源仅作为一种服务而不再以物理硬件的形式出现。利用无服务器计算平台训练分布式深度神经网络(Distributed Deep Neural Network,DDNN)模型正成为一种有潜力的范例,因为它允许用户将复杂的模型训练分解为多个无服务器计算函数并行完成,而无需管理虚拟机(Virtual Machine,VM)或服务器。
然而,云服务商为了有效地管理资源,对每种无服务器计算函数资源的使用进行了限制,这对无服务器计算函数资源的合理的配置带来了挑战。无服务器计算函数资源的不合理配置(资源配置不足或资源配置过多),会导致无服务器计算平台上的DDNN训练工作负载性能不可预测、高昂的训练成本花销。
发明内容
为了解决上述问题,本发明的目的是提供一种基于无服务器计算的分布式深度学习性能保证方法即基于无服务器计算的DDNN训练性能预测以及最小化训练成本花销的无服务器计算函数资源配置方法,该方法包括:
步骤1:提交DDNN训练负载到无服务器计算平台预运行20~50次迭代,针对预运行结果,得到DDNN目标训练性能To、训练周期数量e、DDNN模型的模型大小dm、训练数据集大小dt、训练数据集数量nt、局部批次大小bl、全局批次大小bg、训练速率参数α1和β1的9个模型参数及无服务器计算函数的单价p、内存配置粒度mstep、最小可配置内存mmin、最大可配置内存mmax、参数服务器带宽Bp、无服务器计算函数与存储桶之间可用网络带宽
Figure BDA0003043071160000011
无服务器计算函数与参数服务器之间的固定网络带宽
Figure BDA0003043071160000012
无服务器计算函数与参数服务器之间的可用的网络带宽
Figure BDA0003043071160000013
的数个系统相应参数;
步骤2:根据步骤1所获取的9个模型参数及无服务器计算函数与存储桶之间可用网络带宽
Figure BDA0003043071160000014
及无服务器计算函数与参数服务器之间的可用的网络带宽
Figure BDA0003043071160000015
参数,建立关于DDNN训练负载的性能即训练时间预测模型T,用于预测DDNN模型的训练性能;其中,预测模型T如下所示:
Figure BDA0003043071160000016
其中,T表示预测的DDNN训练负载的训练性能,m、n是要求解的变量,分别表示无服务器计算函数的内存配置值、数量配置值。
步骤3:根据步骤1所获取的无服务器计算函数的单价p、内存配置粒度mstep、最小可配置内存mmin、最大可配置内存mmax参数,建立DDNN训练成本花销最小化的数学优化问题;具体如下所示:
Figure BDA0003043071160000021
s.t.T≤To
Figure BDA0003043071160000022
Figure BDA0003043071160000023
其中,C表示DDNN训练成本花销,m表示无服务器计算函数内存大小,n表示配置的无服务器计算函数数量,p表示无服务器计算函数单价,单位为GB·秒,T表示DDNN性能预测模型在配置n个分配m内存的无服务器计算函数下的性能预测值;模型中的变量是m和n,为该最小化数学问题需要求解的变量;第一个约束条件中,To表示DDNN目标训练性能,单位为秒;第二个约束条件表示,m的上限为mmax,以mstep的大小作为内存配置粒度,
Figure BDA0003043071160000026
表示正整数,j为正整数来确保内存分配m在规定范围内即mstep~mmax;第三个约束条件中,n表示配置的函数数量,
Figure BDA0003043071160000025
表示正整数。
步骤4:利用目标训练性能和参数服务器带宽的约束条件,计算无服务器计算函数数量配置的上下界,以及步骤1中所获取的最大、最小可配置内存,遍历区间内所有函数资源配置方案,输出既能保证DDNN训练性能目标,又能最小化训练成本花销的无服务器计算函数资源配置方案;具体为:依据目标训练时间约束即T≤To,解该不等式得出无服务器计算函数数量的上界nupper,依据无服务器计算函数的数据传输带宽约束即
Figure BDA0003043071160000024
其中Bp表示无服务器计算函数和参数服务器之间可用的网络带宽,解该不等式求出配置无服务器计算函数数量的下界nlower,在无服务器计算函数数量可配置范围[nlower,nupper]、无服务器计算函数内存可配置范围[mmin,mmax],遍历所有候选无服务器计算函数资源配置方案,输出既能保证DDNN训练性能目标,又能减少训练成本花销的无服务器计算函数资源配置方案即函数内存m,函数数量n。
本发明解决了基于无服务器计算平台的DDNN训练性能不可预测问题、无服务器计算函数的资源配置问题、以及DDNN训练成本最小化问题。本发明以数学建模的方式,为基于无服务计算的DDNN训练负载提供可预测的性能,利用无服务器计算函数资源,提供更科学合理的无服务器计算函数资源配置,能在保证DDNN目标性能的前提下,降低用户的DDNN训练成本花销。
附图说明
图1为基于无服务器计算的DDNN训练参数服务器框架(基于AWS Lambda)图;
图2为根据本发明实施方式的保证DDNN训练性能的无服务器计算函数资源配置系统的架构图;
图3为本发明流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。本发明设计并实现了一个高效率的无服务器计算函数资源配置框架λDNN,来保证无服务器计算平台的DDNN训练负载的性能并最小化训练成本花销。
如图1所示,本发明使用具有足够资源的VM实例作为参数服务器。具体而言,训练数据集最初存储在分布式存储中(例如,Amazon S3存储桶)。当开始训练DDNN模型时,数据被均匀地划分并分配给所提供的无服务器计算函数。对于每次迭代,无服务器计算函数首先计算模型梯度并将其推送给参数服务器进行聚合,当参数服务器收到所有工作节点上传的模型梯度,就更新模型参数。最后,无服务器计算函数从参数服务器中拉取更新的模型参数,以进行下一个训练迭代。
如图1所示,基于无服务器计算的DDNN训练可分为训练数据加载过程和模型训练过程。每个无服务器计算函数(即工作节点)首先从分布式存储中获取训练数据样本。然后,这些无服务器计算函数基于一个局部批次大小的数据样本计算模型梯度,并将计算出的模型梯度推送到参数服务器,参数服务器汇总所有无服务器计算函数的梯度。最后,无服务器计算函数从参数服务器拉取更新过的模型参数以完成一个训练迭代。通常,DDNN模型训练需要进行多次迭代(用k表示)才能使损失函数收敛到目标值,因此,对于无服务器计算函数来讲,计算梯度、推送梯度、拉取参数需要重复k次,而推送梯度、拉取参数可以统一理解为工作节点与参数服务器进行通信的过程。通过以上分析,可以通过把从S3存储桶下载训练数据的数据加载时间tload、k次迭代的模型梯度的计算时间tcomp、模型参数和梯度的通信时间tcomm相加,得出DDNN训练性能(即训练时间)T可以表示为:
T=tload+k·(tcomp+tcomm) (1)
训练迭代次数k可表示为:
Figure BDA0003043071160000031
其中,nt表示训练数据样本数量,e表示训练周期数量(其中一个训练周期表示整个数据集的一次完整遍历),bg表示全局批次大小。
为了实现快速收敛,无服务器计算函数(工作节点)与参数服务器之间的数据通信遵循在工业界机器学习集群中得到广泛的应用整体同步并行(Bulk SynchronousParallel,BSP)协议。本发明假设训练数据被均匀地划分到所配置的无服务器计算函数,即对于使用n个无服务器计算函数来训练dt大小的训练数据集,每个无服务器计算函数需要处理的训练数据集大小为dt/n。因此对一个无服务器计算函数来说,训练数据的加载时间tload可以表示为:
Figure BDA0003043071160000032
其中,
Figure BDA0003043071160000033
表示无服务器计算函数与存储桶之间的可用网络带宽。dt为训练数据集的大小,n为配置的无服务器计算函数数量。
理想情况下使用BSP协议的无服务器计算函数具有相同的训练速率(即训练数据样本的处理速率,用R表示,单位为样本数量/秒)。因此,计算时间tcomp可以表示为:
Figure BDA0003043071160000041
其中,bl表示无服务器计算函数训练时的局部批次大小。
每次迭代的数据通信时间tcomm包含了无服务器计算函数上传(推送)模型梯度到参数服务器和从参数服务器下载(拉取)模型参数的网络传输时间,模型参数的大小为dm,模型梯度的大小与之相同,由此模型参数和梯度的通信时间tcomm可以表示为:
Figure BDA0003043071160000042
这里
Figure BDA0003043071160000043
表示一个无服务器计算函数和参数服务器之间可用的网络带宽。
无服务器计算函数的CPU资源与分配给无服务器计算函数的内存大小成比例,因此,计算时间tcomp与无服务器计算函数内存大小m高度相关(即成比例)。单个无服务器计算函数的训练速率可以表示为:
R=α1·m+β1 (6)
这里的α1和β1是作业相关参数,在预运行阶段获取。
一个无服务器计算函数和参数服务器之间可用的网络带宽
Figure BDA0003043071160000044
与无服务器计算函数的内存分配大小无关,对每一个无服务器计算函数来说,
Figure BDA0003043071160000045
受参数服务器带宽Bp/n限制,在参数服务器的网络带宽成为瓶颈之前,无服务器计算函数与参数服务器之间的可用网络带宽不受无服务器计算函数内存分配和无服务器计算函数数量影响,由此无服务器计算函数与参数服务器之间可用带宽
Figure BDA0003043071160000046
可以表示为:
Figure BDA0003043071160000047
将公式(2)至公式(7)代入公式(1)可得DDNN训练性能关于函数内存m和函数数量n的分析模型。即
Figure BDA0003043071160000048
在上述建立的DDNN训练性能模型的基础上,进一步提出无服务器计算资源配置优化问题定义最小化无服务器计算函数资源配置的成本花销,如下所示:
Figure BDA0003043071160000049
其中,p表示无服务器计算函数单价(GB·秒),To表示DDNN目标训练时间(秒)。公式(9)定义了目标是使DDNN训练的成本花销最小化,受制于三个约束条件。第一个约束条件中,To表示DDNN目标训练性能(单位为秒);第二个约束条件表示,m的上限为mmax,以mstep的大小作为内存配置粒度,
Figure BDA0003043071160000051
表示正整数,j为正整数来确保内存分配m在规定范围内即mstep~mmax;第三个约束条件中,n表示配置的函数数量,
Figure BDA0003043071160000052
表示正整数。
依据目标训练时间约束即T≤To,依据无服务器计算函数的数据传输带宽约束即
Figure BDA0003043071160000053
求出无服务器计算函数数量可配置范围[nlower,nupper],依据无服务器计算函数内存可配置范围[mmin,mmax],遍历所有候选无服务器计算函数资源配置方案,输出既能保证DDNN训练性能目标,又能减少训练成本花销的无服务器计算函数资源配置方案,即函数内存配置m,函数数量配置n。
由此,图2详细展示了保证DDNN训练性能的无服务器计算函数资源配置系统λDNN,首先提交DDNN训练负载(即DDNN模型和训练数据集)和目标训练时间到λDNN预运行模块,运行该DDNN模型,利用特定参数获取模块获得作业相关参数和系统相关参数,性能预测器使用性能模型来预测DDNN训练时间,函数资源配置器在资源上下界内遍历所有可配置资源项,资源来确定低成本花销的无服务器计算函数资源配置计划。在确定了高效率的资源配置计划后,函数控制器最终使用无服务器计算平台的命令行工具创建相应数量的函数并配置相应内存。该处理流程如图3所示。
实施例
为了验证本发明的可行性和准确性,本发明在AWS Lambda平台的Amazon us-east-1区域根据图1建立了一个基于无服务器计算的训练集群。具体而言,使用一个m5.1arge EC2实例(配备2个vCPU,8GB内存)作为参数服务器,并使用AWS Lambda函数作为工作节点。通过在us-east-1区域创建一个用于存储训练数据集的S3存储桶。使用NetPerf工具和Boto3 SDK来测量Bp
Figure BDA0003043071160000054
参数服务器节点的网络带宽Bp为1.2GBps,无服务器计算函数与EC2实例之间的不受内存分配影响的固定网络带宽
Figure BDA0003043071160000055
为84MBps。
DDNN训练负载和数据集:选择四种典型DDNN模型作为训练负载,其中包括(1)基于BSDS500数据集训练的用于超分辨率图像重建的ESPCN模型,(2)基于IMDB数据集训练的用于文本分类的1DCNN模型,(3)基于cifar10数据集训练的用于图像分类的MobileNet模型,以及(4)基于cifar10数据集训练的用于图像分类的ResNet50模型。
通过使用单个无服务器计算函数进行训练负载预运行20~50次迭代,能够获得关键的模型依赖的参数,如表1所示:
表1四种典型DDNN训练负载的说明
DDNN模型名称 ESPCN 1DCNN MobileNet ResNet50
训练数据集名称 BSDS500 IMDB cifar10 cifar10
训练样本大小(MB) 128.7 41.1 148 148
训练样本数量 500 15,000 50,000 50,000
DDNN模型人小(MB) 0.34 2 18 98
评估基准与评估指标:λDNN将与以下两种资源配置策略进行比较:(1)Naive配置策略,它为DDNN训练工作负载随机选择无服务器计算函数数量,并总是为无服务器计算函数配置最大的内存;(2)经过修改的Siren(Modified Siren),它利用DRL方法选择无服务器计算函数的数量和内存大小以实现可预测的性能,同时最大程度地降低DDNN训练的成本花销,使用Modified Siren是因为原始的Siren旨在给定的训练预算下,减少DDNN训练时间。实验关注两个关键指标:DDNN训练时间和每个资源配置计划下的训练成本花销。所有实验重复训练DDNN模型三次,并用标准差误差棒来进一步表明实验结果。
如表2所示,随着无服务器计算函数内存增加到3,008MB,λDNN的性能模型可以较准确地预测DDNN训练时间,预测误差为0.98%~6.0%。
表2λDNN对1DCNN模型、ResNet50模型的训练时间预测
Figure BDA0003043071160000061
进一步实验固定函数内存分配为3,008MB,更改配置的函数数量(4~12)并检查λDNN预测的ESPCN和MobileNet的训练性能。如表3所示,随着所配置的函数数量的增加,λDNN可以较准确地预测DDNN训练性能,其预测误差为0.20%~10.27%。
表3 λDNN对ESPCN模型、MobileNet模型的训练时间预测
Figure BDA0003043071160000062
Figure BDA0003043071160000071
在λDNN、Naive、Modified Siren三种不同资源配置策略下,使用1DCNN模型及ResNet50模型来评估DDNN训练性能的可预测性具体而言,在表4中的1DCNN的目标时间为90秒的情况下,Naive策略总是分配最大的内存大小(即3,008MB)并随机地配置10个无服务器计算函数,对应的这种资源配置计划下的训练时间为53.6秒;这与Modified Siren策略获得的资源配置计划(2,624,8)(即2,624MB内存和8个无服务器计算函数)几乎相同。尽管λDNN资源配置计划下的模型训练最大时间(即86.2秒),但它能提供最少的无服务器计算函数资源(1,088,10)同时在目标训练时间之前完成训练。
表4 λDNN对ESPCN模型、MobileNet模型的训练时间预测
Figure BDA0003043071160000072
λDNN总是能在DDNN训练中实现无服务器计算函数资源配置和使用的最低训练成本花销。具体而言,与Naive和Modified Siren资源配置策略相比,λDNN可以分别节约高达19.7%和57.9%的训练成本花销。表4显示,Naive策略的训练成本花销最高,由于随机配置无服务器计算函数数量,它在目标训练时间为90秒的情况下过度配置无服务器计算函数资源(3,008,10)但却在目标训练时间为210秒的情况下资源配置不足(3,008,1)。例如,尽管Naive的策略在目标训练时间为90秒的情况下可以节约38.7%的训练时间,但其训练成本花销却比λDNN高出57.9%。由此验证了本发明所提出的基于无服务器计算的DDNN训练预测性能模型的可靠性、λDNN资源配置策略的有效性及高性价比。
本发明的实施方式还能够提供一种保证DDNN训练性能的无服务器计算函数资源配置系统,所述系统包括:
DDNN训练负载预运行模块,提交DDNN模型到无服务器计算平台中预运行20~50次迭代;
DDNN训练负载特定参数获取模块,获取构建DDNN训练性能预测模型和DDNN训练成本花销模型相关参数;
DDNN训练性能预测模块,建立DDNN训练性能预测模型用以预测DDNN训练性能;
函数资源资源配置模块λDNN,基于DDNN训练成本花销模型,为基于无服务器计算的DDNN训练负载提供既能满足用户的DDNN训练性能目标又能最小化DDNN训练成本花销的无服务器计算函数资源配置方案。
用户只需将深度学习负载以及目标训练性能提交到该资源配置系统,便可以自动完成无服务器计算函数资源配置,并且该资源配置方案既能够保证深度学习负载的目标训练性能,又能最小化用户的DDNN训练成本花销。

Claims (4)

1.一种基于无服务器计算的分布式深度学习性能保证方法,其特征在于,该方法包括以下具体步骤:
步骤1:提交DDNN训练负载到无服务器计算系统预运行20~50次迭代,针对预运行结果,得到DDNN目标训练性能To、训练周期数量e、DDNN模型的模型大小dm、训练数据集大小dt、训练数据集数量nt、局部批次大小bl、全局批次大小bg、训练速率参数α1和β1的9个模型参数及无服务器计算函数的单价p、内存配置粒度mstep、最小可配置内存mmin、最大可配置内存mmax、参数服务器带宽Bp、无服务器计算函数与存储桶之间可用网络带宽
Figure FDA0003043071150000014
无服务器计算函数与参数服务器之间的固定网络带宽
Figure FDA0003043071150000015
无服务器计算函数与参数服务器之间的可用的网络带宽
Figure FDA0003043071150000016
的8个系统参数;
步骤2:根据步骤1所获取的9个模型参数及无服务器计算函数与存储桶之间可用网络带宽
Figure FDA0003043071150000017
及无服务器计算函数与参数服务器之间的可用的网络带宽
Figure FDA0003043071150000018
参数,建立关于DDNN训练负载的性能即训练时间预测模型T,用于预测DDNN模型的训练性能;
步骤3:根据步骤1所获取的无服务器计算函数的单价p、内存配置粒度mstep、最小可配置内存mmin、最大可配置内存mmax参数,建立DDNN训练成本花销最小化的数学优化问题;
步骤4:利用目标训练性能和参数服务器带宽的约束条件,计算无服务器计算函数数量配置的上下界,以及步骤1中所获取的最大、最小可配置内存,遍历区间内所有函数资源配置方案,输出既能保证DDNN训练性能目标,又能最小化训练成本花销的无服务器计算函数资源配置方案。
2.根据权利要求1所述的分布式深度学习性能保证方法,其特征在于,所述时间预测模型T具体如下所示:
Figure FDA0003043071150000011
其中,T表示预测的DDNN训练负载的训练性能,m、n是要求解的变量,分别表示无服务器计算函数的内存配置值、数量配置值。
3.根据权利要求1所述的分布式深度学习性能保证方法,其特征在于,所述步骤3具体如下所示:
Figure FDA0003043071150000019
s.t.T≤To
Figure FDA0003043071150000012
Figure FDA0003043071150000013
其中,C表示DDNN训练成本花销,m表示无服务器计算函数内存大小,n表示配置的无服务器计算函数数量,p表示无服务器计算函数单价,单位为GB·秒,T表示DDNN性能预测模型在配置n个分配m内存的无服务器计算函数下的性能预测值;模型中的变量是m和n,为该最小化数学问题需要求解的变量;第一个约束条件中,To表示DDNN目标训练性能,单位为秒;第二个约束条件表示,m的上限为mmax,以mstep的大小作为内存配置粒度,
Figure FDA0003043071150000021
表示正整数,j为正整数来确保内存分配m在规定范围内即mstep~mmax;第三个约束条件中,n表示配置的函数数量,
Figure FDA0003043071150000022
表示正整数。
4.根据权利要求1所述的分布式深度学习性能保证方法,其特征在于,所述步骤4具体为:依据目标训练时间约束即T≤To,解该不等式得出无服务器计算函数数量的上界nupper,依据无服务器计算函数的数据传输带宽约束即
Figure FDA0003043071150000023
其中Bp表示无服务器计算函数和参数服务器之间可用的网络带宽,解该不等式求出配置无服务器计算函数数量的下界nlower,在无服务器计算函数数量可配置范围[nlower,nupper]、无服务器计算函数内存可配置范围[mmin,mmax],遍历所有候选无服务器计算函数资源配置方案,输出既能保证DDNN训练性能目标,又能减少训练成本花销的无服务器计算函数资源配置方案即函数内存m,函数数量n。
CN202110463966.9A 2021-04-28 2021-04-28 基于无服务器计算的分布式深度学习性能保证方法 Pending CN113205128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110463966.9A CN113205128A (zh) 2021-04-28 2021-04-28 基于无服务器计算的分布式深度学习性能保证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110463966.9A CN113205128A (zh) 2021-04-28 2021-04-28 基于无服务器计算的分布式深度学习性能保证方法

Publications (1)

Publication Number Publication Date
CN113205128A true CN113205128A (zh) 2021-08-03

Family

ID=77029172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110463966.9A Pending CN113205128A (zh) 2021-04-28 2021-04-28 基于无服务器计算的分布式深度学习性能保证方法

Country Status (1)

Country Link
CN (1) CN113205128A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114489940A (zh) * 2022-01-18 2022-05-13 武汉理工大学 无服务器计算环境中基于时域卷积网络的冷启动优化方法
WO2023015788A1 (zh) * 2021-08-10 2023-02-16 天津大学 一种面向能耗优化的无服务器计算资源分配系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566287A (zh) * 2018-01-08 2018-09-21 福建星瑞格软件有限公司 一种基于深度学习的集群服务器运维优化方法
CN111444026A (zh) * 2020-04-20 2020-07-24 北京工业大学 一种云环境下的深度学习训练资源配置预测方法
CN112134812A (zh) * 2020-09-08 2020-12-25 华东师范大学 一种基于网络带宽分配的分布式深度学习性能优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566287A (zh) * 2018-01-08 2018-09-21 福建星瑞格软件有限公司 一种基于深度学习的集群服务器运维优化方法
CN111444026A (zh) * 2020-04-20 2020-07-24 北京工业大学 一种云环境下的深度学习训练资源配置预测方法
CN112134812A (zh) * 2020-09-08 2020-12-25 华东师范大学 一种基于网络带宽分配的分布式深度学习性能优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FEI XU ET AL.: "λDNN: Achieving Predictable Distributed DNN Training With Serverless Architectures", 《IEEE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023015788A1 (zh) * 2021-08-10 2023-02-16 天津大学 一种面向能耗优化的无服务器计算资源分配系统
CN114489940A (zh) * 2022-01-18 2022-05-13 武汉理工大学 无服务器计算环境中基于时域卷积网络的冷启动优化方法

Similar Documents

Publication Publication Date Title
CN109491790B (zh) 基于容器的工业物联网边缘计算资源分配方法及系统
Kang et al. Task assignment in heterogeneous computing systems using an effective iterated greedy algorithm
CN108540406A (zh) 一种基于混合云计算的网络卸载方法
CN104636187B (zh) 基于负载预测的numa架构中虚拟机调度方法
CN108270805B (zh) 用于数据处理的资源分配方法及装置
CN113037800B (zh) 作业调度方法以及作业调度装置
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
CN106209967A (zh) 一种视频监控云资源预测方法及系统
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
Nagarajan et al. Flowflex: Malleable scheduling for flows of mapreduce jobs
CN113568759B (zh) 一种基于云计算的大数据处理方法及其系统
CN113205128A (zh) 基于无服务器计算的分布式深度学习性能保证方法
Kang et al. Scheduling multiple divisible loads in a multi-cloud system
CN115129481B (zh) 一种计算资源分配方法、装置及电子设备
CN104933110B (zh) 一种基于MapReduce的数据预取方法
CN115934349A (zh) 一种资源调度方法、装置、设备及计算机可读存储介质
CN114741160A (zh) 一种基于平衡能耗与服务质量的动态虚拟机整合方法和系统
Li et al. Toward optimal operator parallelism for stream processing topology with limited buffers
CN108471362B (zh) 资源分配预测方法和装置
CN117667602B (zh) 一种基于云计算在线服务算力优化方法和装置
CN112532464B (zh) 一种跨多数据中心的数据分布式处理加速方法及其系统
Rehak et al. Evaluation of finite element system architectures
Sartzetakis et al. Edge/Cloud Infinite-time Horizon Resource Allocation for Distributed Machine Learning and General Tasks
TWI805257B (zh) 根據強化學習的預測來優化資源配置的方法
Zeng et al. An iso-time scaling method for big data tasks executing on parallel computing systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210803