CN111507474A - 一种动态调整Batch-size的神经网络分布式训练方法 - Google Patents

一种动态调整Batch-size的神经网络分布式训练方法 Download PDF

Info

Publication number
CN111507474A
CN111507474A CN202010561810.XA CN202010561810A CN111507474A CN 111507474 A CN111507474 A CN 111507474A CN 202010561810 A CN202010561810 A CN 202010561810A CN 111507474 A CN111507474 A CN 111507474A
Authority
CN
China
Prior art keywords
batch
size
training
node
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010561810.XA
Other languages
English (en)
Other versions
CN111507474B (zh
Inventor
吕建成
叶庆
周宇浩
刘权辉
孙亚楠
彭德中
桑永胜
彭玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010561810.XA priority Critical patent/CN111507474B/zh
Publication of CN111507474A publication Critical patent/CN111507474A/zh
Application granted granted Critical
Publication of CN111507474B publication Critical patent/CN111507474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Neurology (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种动态调整Batch‑size的神经网络分布式训练方法,涉及计算机神经网络分布式训练技术领域,该方法从处理训练数据集的角度出发,对于分布式集群中的每一计算节点,根据其计算力,动态调整Batch‑size和子数据集的划分。从而实现分布式训练集群的负载均衡处理。动态调整Batch‑size的分布式神经网络训练方法不仅可以充分利用各个计算节点的计算能力,还能保证各个计算节点完成本地数据集训练的时间大致相同,从而减少集群的同步开销,提高神经网络分布式训练效率,减少神经网络训练时间。

Description

一种动态调整Batch-size的神经网络分布式训练方法
技术领域
本发明涉及计算机神经网络分布式训练技术领域,具体而言,涉及一种动态调整Batch-size的神经网络分布式训练方法。
背景技术
在神经网络分布式训练中,各个计算节点如何共享和传递本地参数是整个分布式训练的关键环节。目前,同步机制因为实现简单且保证收敛,广泛用于神经网络的分布式训练的参数同步,具体的实现包括:梯度同步、权重同步、稀疏化梯度同步、量化梯度同步等一系列方法。以经典同步梯度(Synchronous Stochastic Gradient Descent,SSGD) 算法为例,对同步类方法进行简要介绍,不同计算节点拥有完整的模型副本和目标数据集的部分子集,在大部分算法中数据集划分采用均匀划分的方式,为了保证模型的一致性,每个节点上神经网络的训练超参数相同,例如:学习率(learning rate),数据集训练周期(Epoch-size),一个批次的训练数据样本数(Batch-size)等。
同步方法的基本框架如图1所示,t表示参数版本,i代表节点序号。每个计算节点基于分配的子数据集对神经网络进行训练,各个节点计算得到的梯度表示为
Figure BDA0002546504460000011
每个节点计算完成后,
Figure BDA0002546504460000012
会被参数服务器(Parameter Server)同步收集,并被用于计算新的参数wt+1。最后新参数wt+1会分发给每个计算节点。以最为简单的梯度平均方法为例,具体实现流程如图2所示:每次迭代后,在第4步进行参数同步,第5步完成新参数的计算和分发。每次训练都同步的分布式训练方法和在单个节点进行梯度下降训练方法相当,可以保证神经网络训练的收敛性,但会带来巨大的同步,整个集群的效率受到最慢节点的限制,如图3所示。图中展示了固定Batch-size的分布式训练中,一个训练周期 (epoch)中两次同步操作示意图。集群中有三个节点,节点1计算速度最快,节点3计算速度最慢,在每次需要进行参数同步时,节点1需要等待最慢节点3训练结束后才能进行,所以集群的计算能力不均会带来每次同步的等待开销,导致大量计算力被浪费。如图3所示,每次迭代,节点1和节点2都有一段时间空闲等待。一个复杂的神经网络一般需要进行重复多次epoch训练,才能达到效果,训练周期越长,计算力耗费就越严重。
发明内容
本发明在于提供一种动态调整Batch-size的神经网络分布式训练方法,其能够缓解上述问题。
为了缓解上述的问题,本发明采取的技术方案如下:
一种动态调整Batch-size的神经网络分布式训练方法,包括以下步骤:
S1、各计算节点获取参数初始化后的神经网络;
S2、对于每一计算节点,根据其计算力,动态调整Batch-size,根据集群训练集样本和调整后的Batch-size,划分得到子数据样本集;
S3、对于每一计算节点,将其本地的子数据样本集划分为若干个训练批次样本集;
S4、对于每一计算节点,获取其一未使用过的训练批次样本集对本地神经网络进行训练,得到本地神经网络训练好的梯度;
S5、收集所有计算节点本地神经网络训练好的梯度;
S6、根据所有训练好的梯度和当前的神经网络参数,计算出新神经网络参数;
S7、将新神经网络参数分发至各计算节点,若所有计算节点的训练批次样本集均使用过,则当前epoch的神经网络分布式训练结束,跳转至步骤S8,否则跳转至步骤S4;
S8、若当前的epoch次数等于epoch size,则神经网络分布式训练结束,否则跳转至骤S2。
进一步地,所述步骤S2中,所述计算力指的是单位时间内完成训练任务的速度,计算力越强的计算节点,其得到的子数据样本集越大,计算力越弱的计算节点,其得到的子数据样本集越小。
更进一步地,所述步骤S2中,若当前epoch是第一个训练周期,则设定各计算节点的计算力相同,各计算节点的Batch-size和子数据样本集均采用均分的方式得到,若当前epoch不是第一个训练周期,则按照如下方法划分得到子数据样本集,具体为:
S21、评估计算节点的计算力;
S22、根据计算力的强弱,动态调整计算节点的Batch-size;
S23、对调整后的Batch-size取整;
S24、根据集群训练集样本以及取整后的Batch-size,动态划分得到子数据样本集。
更进一步地,所述步骤S21具体包括:
设计算节点i上一个epoch的训练时间为
Figure BDA0002546504460000031
子数据样本集的样本数量为
Figure BDA0002546504460000032
根据公式
Figure BDA0002546504460000033
得到计算节点i当前的计算力;
其中,i表示计算节点的编号,j表示epoch次数,1<j≤epoch size,
Figure BDA0002546504460000034
表示计算节点i当前的计算力。
更进一步地,所述步骤S22具体包括:
设整个分布式训练中集群保持不变的Batch-size为B;
对于计算节点i,设其Batch-size为
Figure BDA0002546504460000035
占B的比例为
Figure BDA0002546504460000036
其下一次迭代的训练时间为T,则有
Figure BDA0002546504460000037
将公式2代入公式1中,得到
Figure BDA0002546504460000038
将T代入公式2中,则有:
Figure BDA0002546504460000039
根据公式
Figure BDA00025465044600000310
计算得到计算节点i的Batch-size。
更进一步地,所述步骤S23具体包括:
设取整后的Batch size为
Figure BDA00025465044600000311
则有
Figure BDA00025465044600000312
为满足公式4,对
Figure BDA00025465044600000313
向下取整,则有
Figure BDA00025465044600000314
实际计算出来的Batch-size和B差距表达为:
Figure BDA00025465044600000315
为了满足公式5,对Batch-size的集合Bj+1取小数位数值进行降序排序:
Figure BDA00025465044600000316
表示Bj+1的小数部分;从中选出前m个数的序号:(id1,id2…idm),m≤k,将小数位的值大于0.5的
Figure BDA0002546504460000041
向上取整,得到取整后的 Batch-size集合:
Figure BDA0002546504460000042
更进一步地,所述步骤S24具体包括:
对所有计算节点的Batch-size进行归一化后,根据公式
Figure BDA0002546504460000043
计算各计算节点的数据样本划分比例
Figure BDA0002546504460000044
设集群训练集样本数量为D,则各计算节点的子数据样本数量为:
Figure BDA0002546504460000045
根据该数量从集群训练集样本中划分得到各计算节点的子数据样本集。
进一步地,各计算节点从集群中的调度节点获取神经网络,且通过调度节点为各计算节点划分子数据样本集,以及通过调度节点向各计算节点分发新神经网络参数。
与现有技术相比,本发明的有益效果是:从处理训练数据集的角度出发,基于计算节点的计算力,动态调节Batch-size,在在此基础上为各计算节点动态划分子数据样本集,实现集群训练集样本的负载均衡处理,不仅可以充分利用各个计算节点的计算能力,还能保证各个计算节点完成本地数据集训练的时间大致相同,从而减少同步开销,提高神经网络分布式训练效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是现有技术中的同步方法框架图;
图2是现有技术中平均梯度算法的基本流程图;
图3是现有技术中固定Batch-size的同步方法效果图;
图4是本发明实施例动态调整Batch-size的神经网络分布式训练方法流程图;
图5是本发明实施例动态调整Batch-size并划分子数据样本集的方法流程图;
图6是本发明实施例动态调整Batch-size的同步方法效果图;
图7是本发明实施例不同神经网络分布式训练方法随着训练周期的增加准确率的变化图;
图8是本发明实施例不同神经网络分布式训练方法每个epoch时间消耗对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图4,本实施例动态调整Batch-size的神经网络分布式训练方法,包括以下步骤:
S1、各计算节点获取参数初始化后的神经网络;
S2、对于每一计算节点,根据其计算力,动态调整Batch-size,根据集群训练集样本和调整后的Batch-size,划分得到子数据样本集;
S3、对于每一计算节点,将其本地的子数据样本集划分为若干个训练批次样本集;
S4、对于每一计算节点,获取其一未使用过的训练批次样本集对本地神经网络进行训练,得到本地神经网络训练好的梯度;
S5、收集所有计算节点本地神经网络训练好的梯度;
S6、根据所有训练好的梯度和当前的神经网络参数,计算出新神经网络参数;
S7、将新神经网络参数分发至各计算节点,若所有计算节点的训练批次样本集均使用过,则当前epoch的神经网络分布式训练结束,跳转至步骤S8,否则跳转至步骤S4;
S8、若当前的epoch次数等于epoch size,则神经网络分布式训练结束,否则跳转至骤S2。
在本实施例的步骤S2中,所述计算力指的是单位时间内完成训练任务的速度,计算力越强的计算节点,其得到的子数据样本集越大,计算力越弱的计算节点,其得到的子数据样本集越小。
上述步骤S2中,若当前epoch是第一个训练周期,则设定各计算节点的计算力相同,各计算节点的Batch-size和子数据样本集均采用均分的方式得到,若当前epoch不是第一个训练周期,则按照如下方法划分得到子数据样本集,请参照图5,具体为:
S21、评估计算节点的计算力。
在本实施例中,采用计算节点上一个epoch的训练时间和子数据样本集的样本数量,对该计算节点当前的计算能力进行评估。
设计算节点i上一个epoch的训练时间为
Figure BDA0002546504460000061
子数据样本集的样本数量为
Figure BDA0002546504460000062
根据公式
Figure BDA0002546504460000063
得到计算节点i当前的计算力;
其中,i表示计算节点的编号,j表示epoch次数,1<j≤epoch size,
Figure BDA0002546504460000064
表示计算节点i当前的计算力。
S22、根据计算力的强弱,动态调整计算节点的Batch-size。
在进入下一个epoch训练前,为了保证不同计算能力的计算节点尽可能同时完成训练任务,根据节点计算能力动态调整Batch-size,即求出下一个epoch,每个计算节点的Batch-size占集群总和的比例,可以表示为:
Figure BDA0002546504460000065
设整个分布式训练中集群保持不变的Batch-size为B;
对于计算节点i,设其Batch-size为
Figure BDA0002546504460000066
占B的比例为
Figure BDA0002546504460000067
其下一次迭代的训练时间为T,
Figure BDA0002546504460000068
应满足如下条件:
Figure BDA0002546504460000069
将公式2代入公式1中,得到
Figure BDA00025465044600000610
将T代入公式2中,可以求出新的各个节点Batch-size的划分比例:
Figure BDA00025465044600000611
根据公式
Figure BDA0002546504460000071
计算得到计算节点i的Batch-size。
S23、对调整后的Batch-size取整。
Figure BDA0002546504460000072
很大概率为浮点数,而Batch-size表示样本数量应该为整数,所以需要对
Figure BDA0002546504460000073
重新进行取整,取整后的Batchsize定义
Figure BDA0002546504460000074
且每个计算节点的
Figure BDA0002546504460000075
需要满足如下条件:
Figure BDA0002546504460000076
为满足公式4,对
Figure BDA0002546504460000077
向下取整,则有
Figure BDA0002546504460000078
实际计算出来的Batch-size和B差距表达为:
Figure BDA0002546504460000079
为了满足公式5,对Batch-size的集合Bj+1取小数位数值进行降序排序:
Figure BDA00025465044600000710
表示Bj+1的小数部分;从中选出前m个数的序号: (id1,id2…idm),m≤k,将小数位的值大于0.5的
Figure BDA00025465044600000711
向上取整,得到取整后的 Batch-size集合:
Figure BDA00025465044600000712
S24、根据集群训练集样本以及取整后的Batch-size,动态划分得到子数据样本集。
对Batch-size动态调整后,每个Batch的训练时间基本相同,为了保证每个epoch的训练时间也尽量相同,需要对整个数据集进行动态划分。对所有节点的Batch-size进行归一化,即可求得每个节点数据划分比例:
Figure 1
设集群训练集样本数量为 D,则各计算节点的子数据样本数量为:
Figure BDA00025465044600000714
根据该子数据样本数量从集群训练集样本中划分得到各计算节点的子数据样本集。
在本实施例中,各计算节点从集群中的调度节点获取神经网络,且通过调度节点为各计算节点划分子数据样本集,以及通过调度节点向各计算节点分发新神经网络参数。
本发明实施例在动态调整Batch-size后,神经网络分布训练的效果如图6所示,各个子节点训练时间大致相当,减少了了等待开销,提高了集群的利用率。
为了进一步验证本发明的技术效果,我们进行了对比实验。选择网络ResNet101和CIFAR10作为验证网络和数据集,本发明是一种分布式训练方法,可以用于训练任何复杂神经网络和数据集分布式训练,选择ResNet101和CIFAR10是因为他们具有代表性。在实验室环境中,我们用多线程来模拟多个计算节点。选择标准的同步算法作为基准方法作为参考,比较本专利在神经网络训练分布式训练中的准确率和时间耗费情况。整个网络的训练周期为50个epoch,即epoch-size=50,所有节点的Batch-size总和为512。实验分别模拟了集群规模为4和8,节点计算力不等,准确率和耗时比变化和训练耗时情况分别在图7和图8进行展示。
从图7可以看出,动态的Batch-size方法不会影响神经网络训练的准确率。图8展示了两种算法在不同训练周期下的时间对比,可以看出,动态Batch-size的训练方法在完成1epoch可以节约18%的时间。根据动态Batch-size GPU训练耗时可以看出,分布式训练开始的几个epoch,不同节点因为计算能力差距较大,耗时差距较大,随着 Batch-size的动态调整,每个epoch的GPU训练耗时基本相当,意味着各个节点同时完成训练任务,不需要等待就完成了参数的同步,进一步说明本专利提出的动态Batch-size 的方法是有效的。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种动态调整Batch-size的神经网络分布式训练方法,其特征在于,包括以下步骤:
S1、各计算节点获取参数初始化后的神经网络;
S2、对于每一计算节点,根据其计算力,动态调整Batch-size,根据集群训练集样本和调整后的Batch-size,划分得到子数据样本集;
S3、对于每一计算节点,将其本地的子数据样本集划分为若干个训练批次样本集;
S4、对于每一计算节点,获取其一未使用过的训练批次样本集对本地神经网络进行训练,得到本地神经网络训练好的梯度;
S5、收集所有计算节点本地神经网络训练好的梯度;
S6、根据所有训练好的梯度和当前的神经网络参数,计算出新神经网络参数;
S7、将新神经网络参数分发至各计算节点,若所有计算节点的训练批次样本集均使用过,则当前epoch的神经网络分布式训练结束,跳转至步骤S8,否则跳转至步骤S4;
S8、若当前的epoch次数等于epoch size,则神经网络分布式训练结束,否则跳转至骤S2。
2.根据权利要求1所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S2中,所述计算力指的是单位时间内完成训练任务的速度,计算力越强的计算节点,其得到的子数据样本集越大,计算力越弱的计算节点,其得到的子数据样本集越小。
3.根据权利要求2所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S2中,若当前epoch是第一个训练周期,则设定各计算节点的计算力相同,各计算节点的Batch-size和子数据样本集均采用均分的方式得到,若当前epoch不是第一个训练周期,则按照如下方法划分得到子数据样本集,具体为:
S21、评估计算节点的计算力;
S22、根据计算力的强弱,动态调整计算节点的Batch-size;
S23、对调整后的Batch-size取整;
S24、根据集群训练集样本以及取整后的Batch-size,动态划分得到子数据样本集。
4.根据权利要求3所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S21具体包括:
设计算节点i上一个epoch的训练时间为
Figure FDA0002546504450000021
子数据样本集的样本数量为
Figure FDA0002546504450000022
根据公式
Figure FDA0002546504450000023
得到计算节点i当前的计算力;
其中,i表示计算节点的编号,j表示epoch次数,1<j≤epoch size,
Figure FDA0002546504450000024
表示计算节点i当前的计算力。
5.根据权利要求4所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S22具体包括:
设整个分布式训练中集群保持不变的Batch-size为B;
对于计算节点i,设其Batch-size为
Figure FDA0002546504450000025
占B的比例为
Figure FDA0002546504450000026
其下一次迭代的训练时间为T,则有
Figure FDA0002546504450000027
将公式2代入公式1中,得到
Figure FDA0002546504450000028
将T代入公式2中,则有:
Figure FDA0002546504450000029
根据公式
Figure FDA00025465044500000210
计算得到计算节点i的Batch-size。
6.根据权利要求5所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S23具体包括:
设取整后的Batch size为
Figure FDA00025465044500000211
则有
Figure FDA00025465044500000212
为满足公式4,对
Figure FDA00025465044500000213
向下取整,则有
Figure FDA00025465044500000214
实际计算出来的Batch-size和B差距表达为:
Figure FDA00025465044500000215
为了满足公式5,对Batch-size的集合Bj+1取小数位数值进行降序排序:
Figure FDA0002546504450000031
Figure FDA0002546504450000032
表示Bj+1的小数部分;从中选出前m个数的序号:(id1,id2…idm),m≤k,将小数位的值大于0.5的
Figure FDA0002546504450000033
向上取整,得到取整后的Batch-size集合:
Figure FDA0002546504450000034
7.根据权利要求6所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,所述步骤S24具体包括:
对所有计算节点的Batch-size进行归一化后,根据公式
Figure FDA0002546504450000035
计算各计算节点的数据样本划分比例
Figure FDA0002546504450000036
设集群训练集样本数量为D,则各计算节点的子数据样本数量为:
Figure FDA0002546504450000037
根据该数量从集群训练集样本中划分得到各计算节点的子数据样本集。
8.根据权利要求1所述动态调整Batch-size的神经网络分布式训练方法,其特征在于,各计算节点从集群中的调度节点获取神经网络,且通过调度节点为各计算节点划分子数据样本集,以及通过调度节点向各计算节点分发新神经网络参数。
CN202010561810.XA 2020-06-18 2020-06-18 一种动态调整Batch-size的神经网络分布式训练方法 Active CN111507474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010561810.XA CN111507474B (zh) 2020-06-18 2020-06-18 一种动态调整Batch-size的神经网络分布式训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010561810.XA CN111507474B (zh) 2020-06-18 2020-06-18 一种动态调整Batch-size的神经网络分布式训练方法

Publications (2)

Publication Number Publication Date
CN111507474A true CN111507474A (zh) 2020-08-07
CN111507474B CN111507474B (zh) 2022-07-01

Family

ID=71870610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010561810.XA Active CN111507474B (zh) 2020-06-18 2020-06-18 一种动态调整Batch-size的神经网络分布式训练方法

Country Status (1)

Country Link
CN (1) CN111507474B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580820A (zh) * 2020-12-01 2021-03-30 遵义师范学院 一种间歇式机器学习训练方法
CN114780225A (zh) * 2022-06-14 2022-07-22 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置
CN116680060A (zh) * 2023-08-02 2023-09-01 浪潮电子信息产业股份有限公司 面向异构计算系统的任务分配方法、装置、设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080232274A1 (en) * 2007-03-22 2008-09-25 Telecommunications Research Laboratories Distributed synchronous batch reconfiguration of a network
US20170039485A1 (en) * 2015-08-07 2017-02-09 Nec Laboratories America, Inc. System and Method for Balancing Computation with Communication in Parallel Learning
CN106886023A (zh) * 2017-02-27 2017-06-23 中国人民解放军理工大学 一种基于动态卷积神经网络的雷达回波外推方法
CN108631297A (zh) * 2018-03-29 2018-10-09 国网河南省电力公司经济技术研究院 大型受端电网轨迹灵敏度批处理计算方法
CN109902818A (zh) * 2019-01-15 2019-06-18 中国科学院信息工程研究所 一种面向深度学习训练任务的分布式加速方法及系统
CN110210495A (zh) * 2019-05-21 2019-09-06 浙江大学 基于并行LSTM自编码器动态特征提取的XGBoost软测量建模方法
US20190332933A1 (en) * 2018-04-30 2019-10-31 International Business Machines Corporation Optimization of model generation in deep learning neural networks using smarter gradient descent calibration
CN110414578A (zh) * 2019-07-16 2019-11-05 上海电机学院 一种基于动态多批次训练和色域转化的迁移学习方法
CN111104215A (zh) * 2019-11-15 2020-05-05 河海大学 一种基于分布式编码的随机梯度下降优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080232274A1 (en) * 2007-03-22 2008-09-25 Telecommunications Research Laboratories Distributed synchronous batch reconfiguration of a network
US20170039485A1 (en) * 2015-08-07 2017-02-09 Nec Laboratories America, Inc. System and Method for Balancing Computation with Communication in Parallel Learning
CN106886023A (zh) * 2017-02-27 2017-06-23 中国人民解放军理工大学 一种基于动态卷积神经网络的雷达回波外推方法
CN108631297A (zh) * 2018-03-29 2018-10-09 国网河南省电力公司经济技术研究院 大型受端电网轨迹灵敏度批处理计算方法
US20190332933A1 (en) * 2018-04-30 2019-10-31 International Business Machines Corporation Optimization of model generation in deep learning neural networks using smarter gradient descent calibration
CN109902818A (zh) * 2019-01-15 2019-06-18 中国科学院信息工程研究所 一种面向深度学习训练任务的分布式加速方法及系统
CN110210495A (zh) * 2019-05-21 2019-09-06 浙江大学 基于并行LSTM自编码器动态特征提取的XGBoost软测量建模方法
CN110414578A (zh) * 2019-07-16 2019-11-05 上海电机学院 一种基于动态多批次训练和色域转化的迁移学习方法
CN111104215A (zh) * 2019-11-15 2020-05-05 河海大学 一种基于分布式编码的随机梯度下降优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
H. ZHAO等: "Kylix: A sparse allreduce for commodity clusters", 《IN 2014 43RD INTERNATIONAL CONFERENCE ON PARALLEL PROCESSING》 *
纪泽宇等: "分布式深度学习框架下基于性能感知的DBS-SGD算法", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580820A (zh) * 2020-12-01 2021-03-30 遵义师范学院 一种间歇式机器学习训练方法
CN114780225A (zh) * 2022-06-14 2022-07-22 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置
CN114780225B (zh) * 2022-06-14 2022-09-23 支付宝(杭州)信息技术有限公司 一种分布式模型训练系统、方法及装置
CN116680060A (zh) * 2023-08-02 2023-09-01 浪潮电子信息产业股份有限公司 面向异构计算系统的任务分配方法、装置、设备和介质
CN116680060B (zh) * 2023-08-02 2023-11-03 浪潮电子信息产业股份有限公司 面向异构计算系统的任务分配方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111507474B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN111507474B (zh) 一种动态调整Batch-size的神经网络分布式训练方法
CN106297774B (zh) 一种神经网络声学模型的分布式并行训练方法及系统
CN103401939B (zh) 一种采用混合调度策略的负载均衡方法
CN109840154B (zh) 一种移动云环境下基于任务依赖的计算迁移方法
JP2022501677A (ja) データ処理方法、装置、コンピュータデバイス、及び記憶媒体
CN104636187B (zh) 基于负载预测的numa架构中虚拟机调度方法
CN107609650B (zh) 基于时间负载均衡的粒子遗传算法优化方法、装置及系统
Jiang et al. Fedmp: Federated learning through adaptive model pruning in heterogeneous edge computing
CN102063339A (zh) 基于云计算系统的资源负载均衡的方法和设备
CN108418858B (zh) 一种面向Geo-distributed云存储的数据副本放置方法
Li et al. Intermediate data placement and cache replacement strategy under Spark platform
CN108564213A (zh) 一种基于gpu加速的并联水库群防洪优化调度方法
CN109193807B (zh) 一种电力系统经济调度方法及系统
CN111831415B (zh) 一种多队列多集群的任务调度方法及系统
Li et al. Deep reinforcement learning: Algorithm, applications, and ultra-low-power implementation
CN114647515A (zh) 一种面向gpu集群的动态资源调度方法
CN109828836A (zh) 一种批量流式计算系统参数动态配置方法
CN104899101B (zh) 基于多目标差异演化算法的软件测试资源动态分配方法
CN113778691A (zh) 一种任务迁移决策的方法、装置及系统
CN113382066B (zh) 基于联邦边缘平台的车辆用户选择方法及系统
CN102141935B (zh) 一种基于双目标优化遗传算法的作业调度方法
CN116303219A (zh) 一种网格文件的获取方法、装置及电子设备
Shrivastava et al. A data and model-parallel, distributed and scalable framework for training of deep networks in apache spark
CN114723071B (zh) 一种基于客户端分类和信息熵的联邦学习方法及装置
CN114358490A (zh) 面向电力需求响应的多可调资源调节能力聚合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant