CN116050499B - 一种模型并行训练中的自适应模型划分方法、系统及设备 - Google Patents
一种模型并行训练中的自适应模型划分方法、系统及设备 Download PDFInfo
- Publication number
- CN116050499B CN116050499B CN202310343821.4A CN202310343821A CN116050499B CN 116050499 B CN116050499 B CN 116050499B CN 202310343821 A CN202310343821 A CN 202310343821A CN 116050499 B CN116050499 B CN 116050499B
- Authority
- CN
- China
- Prior art keywords
- layer
- model
- neural network
- gpum
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种模型并行训练中的自适应模型划分方法、系统及设备,包括如下步骤:S1:将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构;S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到神经网络模型所有阶段的分割层;S3:基于所有阶段的分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练;S4:实时检测GPUm‑1与GPUm之间的带宽和GPUm的计算能力,设定周期固定的批处理,循环步骤S2至S3,以周期性更新神经网络模型划分;该模型划分方法能够实现针对不同GPU时神经网络模型实时最优划分。
Description
技术领域
本发明涉及网络信息技术领域,尤其涉及一种模型并行训练中的自适应模型划分方法、系统及设备。
背景技术
随着深度学习的发展,神经网络的规模日趋庞大,而在面对越来越多的超大规模神经网络的训练时,往往需要多台机器以进行分布式训练。目前常见的分布式训练方式包括数据并行与模型并行。模型并行就是将模型拆分为若干个串行的阶段,每个分布式机器分别训练所分配的阶段,通过流水线方式将这些阶段进行串行并通过协调达到能够训练完整模型的目的。模型并行包括异步模型并行与同步模型并行。
Pipedream是微软研究院开发的一种异步模型并行的框架,可以支持任意台机器进行异步模型并行。而想让模型并行训练时训练总时间最短的第一步就是通过合理划分模型使各机器分配模型中不同的层。如果模型的划分不合理会致使某个节点的训练时间远远长于其他节点,导致其他节点存在等待时间,使总训练时间变长。
目前Pipedream给定的动态规划法的模型划分方法是把节点GPU看作性能相同的GPU带入进行模型划分,且是在训练之前就已经完成了的,训练开始后不再进行进一步相关模型划分。缺点一是没有考虑到训练时不同环境时GPU存在性能差异,此外本身GPU的自身性能就存在差异,在计算能力,带宽等方面可能存在显著差异,不同GPU的在训练相同的模型时的训练时间也会出现较大区别。二是认定GPU的性能是静态的,一成不变的。没有考虑到GPU的计算能力、网络带宽等性能会因资源异质性、网络波动、多任务抢占等因素而实时变化。即使是同一个GPU在这些因素的变化下也存在计算能力的变化。三是不能在训练中根据得到的模型划分算法实时进行模型划分的调整。
发明内容
基于背景技术存在的技术问题,本发明提出了一种模型并行训练中的自适应模型划分方法、系统及设备,实现针对不同GPU时神经网络模型实时最优划分。
本发明提出的自适应模型划分方法,包括如下步骤:
S1:将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构,所述块由连续一至多个所述层构成;
S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到神经网络模型所有阶段的分割层;
S3:基于所有阶段的分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练;
S4:实时检测GPUm-1与GPUm之间的带宽和GPUm的计算能力/>,设定周期固定的批处理,循环步骤S2至S3,以周期性更新神经网络模型划分;
所述所有阶段的分割层的计算过程如下:
其中,表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间,/>是第1层和第/>层之间最优子阶段中最慢阶段所用的时间;表示层/>与层/>之间传递激活和梯度所用的时间,/>表示GPUm对层/>到层所需的计算时间,/>表示GPUm对层/>的计算时间,/>表示网络层/>的计算量,/>表示层/>的输出激活值,/>表示GPUm的计算能力,/>表示GPUm-1与GPUm间的带宽,GPUm表示第m个GPU编号,GPUm-1表示第m-1个GPU编号。
进一步地,在所述步骤S1:将神经网络模型的原始层划分为块之前,对神经网络模型所需参数进行定义,GPU顺序按实际拓扑顺序固定,所述参数包括;GPUm、、/>、、/>、/>、/>、/>。
进一步地,在步骤S1:将神经网络模型的原始层划分为块中,具体包括:
将神经网络模型的几个连续的层视为一个整体进行分配得到块,以更新神经网络模型;
对更新后的神经网络模型进行切分合并得到更新后的和/>;
将更新后的和/>带入分割层计算过程。
进一步地,在步骤S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到神经网络模型所有阶段的分割层,具体包括:
当最优分配包含多个阶段时,将所述最优分配分解为最优子阶段和最后单个阶段,所述最优子阶段由个GPU计算层1到层/>,所述最后单个阶段由第m个GPU单独计算层/>到层/>;
以所述最后单个阶段的计算和通信时间最大值最小为目标,计算得到所述最后单个阶段的;
使用二维数组来存储/>的相应值与最后单个阶段的/>;
基于最后单个阶段的向前追溯递推得到所述最优子阶段中所有阶段的分割层;
进一步地,在所述基于最后单个阶段的向前追溯递推得到所述最优子阶段中所有阶段的分割层中,具体为:
由二维数组得到分割层/>,由二维数组/>得到,以此类推得到/>、···/>;
m台GPU的模型划分结果为第一台GPU分得层,第二台GPU分得层,第三台GPU分得层/>,···第m台GPU分得/>。
进一步地,网络层的计算量/>是通过对神经网络模型进行预训练得到,并实时检测GPUm的计算能力/>和GPUm-1与GPUm间的带宽/>。
一种模型并行训练中的自适应模型划分系统,包括块构建模块、分割层计算模块、模型划分模块和循环划分模块;
块构建模块用于将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构,所述块由连续一至多个所述层构成;
分割层计算模块用于以划分后各阶段的计算和通信时间最大值最小为目标,计算得到神经网络模型所有阶段的分割层;
模型划分模块用于基于所有阶段的分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练;
循环划分模块用于实时检测GPUm-1与GPUm之间的带宽和GPUm的计算能力,设定周期固定的批处理,循环分割层计算模块和模型划分模块,以周期性更新神经网络模型划分;
所述的计算过程如下:
其中,表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间,/>是第1层和第/>层之间最优子阶段中最慢阶段所用的时间;表示层/>与层/>之间传递激活和梯度所用的时间,/>表示GPUm对层/>到层所需的计算时间,/>表示GPUm对层/>的计算时间,/>表示网络层/>的计算量,/>表示层i的输出激活值,/>表示GPUm的计算能力,/>表示GPUm-1与GPUm间的带宽,GPUm表示第m个GPU编号,GPUm-1表示第m-1个GPU编号。
一种模型并行训练中的自适应模型划分设备,所述模型划分设备包括存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的模型划分程序,所述模型划分程序配置用于实现如上所述的模型划分方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提供的一种模型并行训练中的自适应模型划分方法、系统及设备的优点在于:本发明结构中提供的一种模型并行训练中的自适应模型划分方法、系统及设备,能够根据不同GPU实时的计算能力及带宽进行模型划分的变化的目的,并且根据得到的模型划分可以结合提出的动态层迁移技术进行实时的模型划分调整而做到不中断当前训练过程,实现针对不同GPU时神经网络模型实时最优划分,使各节点间负载均衡,每个节点的模型训练时间相近,总时间更低。
附图说明
图1为本发明的流程图;
图2为整体流程图;
图3为设定新的网络层的示意图;
图4为层到块的划分结果示意图(网络层-GPU分配图)。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
对于神经网络模型划分问题,本质上是集合划分问题,集合划分问题是把m个正整数组成的集合A划分为n个互不相交的子集合A1、A2、…、An,以使子集各元素的和的最大值最小。集合划分问题是一个典型的NP完全问题(多项式复杂程度的非确定性问题),可以使用动态规划算法进行解决。动态规划方法常用于解决多阶段决策过程的最优化问题,将求解分成多阶段进行,求出的解既是全过程的解,又包括后面子过程的解。动态规划的中心思想是对每阶段都进行最优规划和资源分配,使得每一阶段任务的目标函数最小,从而使总体目标函数最小,即总体模型训练时间最短。动态规划方法解题的基本思路是将一个多阶段决策问题转化为依次求解多个单阶段的决策问题,从而简化计算过程。
如图1至4所示,本发明提出的自适应模型划分方法,包括如下步骤:
S1:将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构,所述块由连续一至多个所述层构成;
该步骤中,首先对神经网络模型的所有需要的参数进行定义,GPU顺序按实际拓扑顺序固定,所述参数如下:
其中是对神经网络模型进行预处理后得到的,/>、/>可以通过现有的检测工具实时检测得到,上表其余参数可以在如下实施例中计算得到。
由于一个深度神经网络可能存在上千层,如果深度网络模型划分的颗粒度为单个层的话可能会使模型划分算法的花费时间太长,且由于神经网络的复杂性,某些神经网络层需要由同一个机器进行训练;由此我们考虑通过预训练得到神经网络结构,同时兼顾模型划分算法的花费时间与模型划分的准确性,将精细度由层变为块(block);将神经网络切分为若干个块,块代替层的结构进行模型划分;具体切分方法为将几个连续的层视为一个整体的块,在进行模型划分时将几个连续的层视为一个整体进行分配。
需要说明的是,步骤S2至S4中所涉及到的层概念均对应为神经网络模型划分成块后所形成新的层,只是本实施例为方便描述在以下简称为层。
S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到神经网络模型所有阶段的分割层。
该步骤中,在获取到神经网络模型划分方法所需参数后执行模型划分方法。
模型划分的总目标是合理利用每个GPU,确定每个GPU训练的网络层使训练的总时间最短;神经网络训练需要多次迭代,为了使训练总时间最小,只需要考虑一次迭代的训练总时间最小;在多机器训练的模型并行下,训练总时间即为划分后各阶段的计算和通信时间的最大值,即划分目标为使划分后各阶段的计算和通信时间的最大值最小。
假设表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间;/>表示计算层/>到层/>的单个阶段l所用的时间;当最优分配包含多个阶段时,它可以被分解成一个最优的子问题(由从1到/>的层由m−1个机器组成)和后续的最后单个阶段(单个GPU单独计算层/>到/>);因为传输和计算是可以重叠的,所以不需要相加,直接取最大数值;
因此,利用动态规划的基本方程及最优子问题的性质,可以得到:
其中,表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间,/>是第1层和第/>层之间最优子阶段中最慢阶段所用的时间,/>是小于/>的,1至/>层分成了1至/>层以及/>至/>层;/>表示层/>与层/>之间传递激活和梯度所用的时间,与层/>的输出激活及GPU带宽有关,/>表示GPUm对层/>到层/>所需的计算时间,即对各层的计算时间累加/>,与GPU的算力及网络层的计算量有关,/>表示GPUm对层/>的计算时间,即GPUm在计算层l的计算时间为层l的计算量/>与GPUm的计算能力/>的比,/>表示网络层/>的计算量,/>表示层i的输出激活值,/>表示GPUm的计算能力,表示GPUm-1与GPUm间的带宽,GPUm表示第m个GPU编号,GPUm-1表示第m-1个GPU编号。
为了避免重复计算,将通信时间改为该阶段与上下两阶段的通信时间的最大值;
最后用二维数组来存储/>相应的值及最优子阶段与最后单个阶段的切割点/>,从而可设计解决此问题的动态规划算法,得出相应的最优解。
S3:基于所述最后单个阶段的向前回溯递推得到所述最优子阶段中所有阶段的分割层。
在已知的基础上运用回溯法进行递推即可得到所有的切割点;
即由二维数组得到分割层/>,由二维数组/>得到,以此类推得到/>、/>、···/>;
m台GPU的模型划分结果为第一台GPU分得层,第二台GPU分得层,第三台GPU分得层/>,···第m台GPU分得/>。
S4:基于所有分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练。
对划分后的神经网络模型进行模型的训练过程可以采用样本集进行训练,具体训练过程可以使用现有的训练方案进行训练。
S5:实时检测GPUm-1与GPUm之间的带宽和GPUm的计算能力/>,设定周期固定的批处理,循环步骤S2至S4,以周期性更新神经网络模型划分。
在运用动态层迁移技术进行模型划分后立即执行神经网络模型训练;同时实时监测GPU的性能、/>并周期进行模型划分,设定周期固定的batch进行一次新的模型划分,在每训练周期固定的batch后根据得到新的模型划分方式结合动态层迁移技术进行实时更新模型划分。
将动态规划方法代入模型划分中,可以实现针对不同GPU时神经网络模型实时最优划分。
例如本实施例中,参与神经网络模型并行训练的GPU数为4个,按顺序型号分别为A100、T40、P4、P4,训练的神经网络模型为Bert,将Bert模型进行切分合并得到新的和/>,将/>,/>以及更新后的/>和/>带入分割层的计算过程,可得/>、/>、/>分别为2、5、7;即第一台GPU分得1、2层;第二台GPU分得3、4、5层;第三台GPU分得6、7层;第四台GPU分得8,9,10层,然后对划分后的神经网络模型进行模型训练,设定周期为每训练100个batch进行一次新的模型划分,在每训练100个batch后根据得到新的模型划分方式结合动态层迁移技术进行实时更新模型划分。
因而本实施例考虑到GPU间计算能力差异与训练环境的变化性,模型训练时将各GPU算力与GPU间带宽进行实时监测,使得到的划分结果更结合实时环境。结合提出的动态层迁移技术,实现边训练边根据环境进行训练网络层迁移。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种模型并行训练中的自适应模型划分方法,其特征在于,包括如下步骤:
S1:将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构,所述块由连续一至多个所述原始层构成;
S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到所述神经网络模型所有阶段的分割层;
S3:基于所有阶段的分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练;
S4:实时检测GPUm-1与GPUm之间的带宽和GPUm的计算能力/>,设定周期固定的批处理,循环步骤S2至S3,以周期性更新神经网络模型划分;
在步骤S1:具体包括:
将神经网络模型的几个连续的层视为一个整体进行分配得到块,以更新神经网络模型;对更新后的神经网络模型进行切分合并得到更新后的和/>;将更新后的/>和/>带入分割层计算过程;
所述所有阶段的分割层的计算过程如下:
其中,表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间,/>是第1层和第/>层之间最优子阶段中最慢阶段所用的时间;/>表示层/>与层/>之间传递激活和梯度所用的时间,/>表示GPUm对层/>到层/>所需的计算时间,/>表示GPUm对层/>的计算时间,/>表示网络层/>的计算量,/>表示层/>的输出激活值,/>表示GPUm的计算能力,/>表示GPUm-1与GPUm间的带宽,GPUm表示第m个GPU编号,GPUm-1表示第m-1个GPU编号。
2.根据权利要求1所述的模型并行训练中的自适应模型划分方法,其特征在于,在所述步骤S1:将神经网络模型的原始层划分为块之前,对神经网络模型所需参数进行定义,GPU顺序按实际拓扑顺序固定,所述参数包括;GPUm、、/>、/>、/>、/>、/>、/>。
3.根据权利要求1所述的模型并行训练中的自适应模型划分方法,其特征在于,在步骤S2:以划分后各阶段的计算和通信时间最大值最小为目标,计算得到所述神经网络模型所有阶段的分割层,具体包括:
当最优分配包含多个阶段时,将所述最优分配分解为最优子阶段和最后单个阶段,所述最优子阶段由个GPU计算层1到层/>,所述最后单个阶段由第m个GPU单独计算层到层/>;
以所述最后单个阶段的计算和通信时间最大值最小为目标,计算得到所述最后单个阶段的;
使用二维数组来存储/>的相应值与最后单个阶段的/>;
基于最后单个阶段的向前追溯递推得到所述最优子阶段中所有阶段的分割层。
4.根据权利要求3所述的模型并行训练中的自适应模型划分方法,其特征在于,在所述基于最后单个阶段的向前追溯递推得到所述最优子阶段中所有阶段的分割层中,具体为:
由二维数组得到分割层/>,由二维数组/>得到/>,以此类推得到/>、···/>;
m台GPU的模型划分结果为第一台GPU分得层,第二台GPU分得层/>,第三台GPU分得层/>,···第m台GPU分得/>。
5.根据权利要求1所述的模型并行训练中的自适应模型划分方法,其特征在于,网络层的计算量/>是通过对神经网络模型进行预训练得到,并实时检测GPUm的计算能力/>和GPUm-1与GPUm间的带宽/>。
6.一种模型并行训练中的自适应模型划分系统,其特征在于,包括块构建模块、分割层计算模块、模型划分模块和循环划分模块;
块构建模块用于将神经网络模型的原始层划分为块,将所述块作为神经网络模型新的层结构,所述块由连续一至多个所述层构成;
分割层计算模块用于以划分后各阶段的计算和通信时间最大值最小为目标,计算得到所述神经网络模型所有阶段的分割层;
模型划分模块用于基于所有阶段的分割层并结合动态层迁移技术对神经网络模型进行划分,并对划分后的神经网络模型进行模型训练;
循环划分模块用于实时检测GPUm-1与GPUm之间的带宽和GPUm的计算能力/>,设定周期固定的批处理,循环分割层计算模块和模型划分模块,以周期性更新神经网络模型划分;
块构建模块具体用于将神经网络模型的几个连续的层视为一个整体进行分配得到块,以更新神经网络模型;对更新后的神经网络模型进行切分合并得到更新后的和/>;将更新后的/>和/>带入分割层计算过程;
所述的计算过程如下:
其中,表示使用m台机器在第1层和第/>层之间的最优分配的情况下,最慢阶段所用的时间,/>是第1层和第/>层之间最优子阶段中最慢阶段所用的时间;/>表示层/>与层/>之间传递激活和梯度所用的时间,/>表示GPUm对层/>到层/>所需的计算时间,/>表示GPUm对层/>的计算时间,/>表示网络层/>的计算量,/>表示层i的输出激活值,/>表示GPUm的计算能力,/>表示GPUm-1与GPUm间的带宽,GPUm表示第m个GPU编号,GPUm-1表示第m-1个GPU编号。
7.一种模型并行训练中的自适应模型划分设备,其特征在于,所述模型划分设备包括存储器、处理器、以及存储在所述存储器上并可在所述处理器上运行的模型划分程序,所述模型划分程序配置用于实现如权利要求1至5任一所述的模型划分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310343821.4A CN116050499B (zh) | 2023-04-03 | 2023-04-03 | 一种模型并行训练中的自适应模型划分方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310343821.4A CN116050499B (zh) | 2023-04-03 | 2023-04-03 | 一种模型并行训练中的自适应模型划分方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116050499A CN116050499A (zh) | 2023-05-02 |
CN116050499B true CN116050499B (zh) | 2023-07-18 |
Family
ID=86120430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310343821.4A Active CN116050499B (zh) | 2023-04-03 | 2023-04-03 | 一种模型并行训练中的自适应模型划分方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050499B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054449A (ko) * | 2017-11-13 | 2019-05-22 | 한국과학기술원 | 이종 클러스터 환경에서 신경망 트레이닝 가속화를 위한 연산 노드 배치 기법 |
US10379868B1 (en) * | 2019-02-04 | 2019-08-13 | Bell Integrator Inc. | Optimization method with parallel computations |
CN112784968A (zh) * | 2021-01-29 | 2021-05-11 | 东南大学 | 一种加速分布式深度神经网络训练的混合流水线并行方法 |
WO2022001134A1 (zh) * | 2020-06-28 | 2022-01-06 | 浪潮电子信息产业股份有限公司 | 模型并行训练任务负载均衡方法、装置、设备及存储介质 |
CN114841309A (zh) * | 2022-03-28 | 2022-08-02 | 阿里云计算有限公司 | 数据处理方法、装置以及电子设备 |
CN115237580A (zh) * | 2022-09-21 | 2022-10-25 | 之江实验室 | 面向智能计算的流水并行训练自适应调整系统、方法 |
CN115454655A (zh) * | 2022-11-11 | 2022-12-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种异步流水线并行训练过程中的动态层迁移方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11694066B2 (en) * | 2017-10-17 | 2023-07-04 | Xilinx, Inc. | Machine learning runtime library for neural network acceleration |
US11232356B2 (en) * | 2019-08-09 | 2022-01-25 | Google Llc | Training giant neural networks using pipeline parallelism |
CN110533183B (zh) * | 2019-08-30 | 2021-08-20 | 东南大学 | 流水线分布式深度学习中异构网络感知的任务放置方法 |
US20210133591A1 (en) * | 2019-11-04 | 2021-05-06 | Baidu Usa Llc | Reducing training times of deep neural networks through efficient hybrid parallelism |
GB202004594D0 (en) * | 2020-03-30 | 2020-05-13 | Microsoft Technology Licensing Llc | Partitioning for an execution pipeline |
CN113312178A (zh) * | 2021-05-24 | 2021-08-27 | 河海大学 | 一种基于深度强化学习的流水线并行训练任务分配方法 |
CN113220457B (zh) * | 2021-05-24 | 2024-03-22 | 深圳市智芯华玺信息技术有限公司 | 模型部署方法、模型部署装置、终端设备及可读存储介质 |
-
2023
- 2023-04-03 CN CN202310343821.4A patent/CN116050499B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054449A (ko) * | 2017-11-13 | 2019-05-22 | 한국과학기술원 | 이종 클러스터 환경에서 신경망 트레이닝 가속화를 위한 연산 노드 배치 기법 |
US10379868B1 (en) * | 2019-02-04 | 2019-08-13 | Bell Integrator Inc. | Optimization method with parallel computations |
WO2022001134A1 (zh) * | 2020-06-28 | 2022-01-06 | 浪潮电子信息产业股份有限公司 | 模型并行训练任务负载均衡方法、装置、设备及存储介质 |
CN112784968A (zh) * | 2021-01-29 | 2021-05-11 | 东南大学 | 一种加速分布式深度神经网络训练的混合流水线并行方法 |
CN114841309A (zh) * | 2022-03-28 | 2022-08-02 | 阿里云计算有限公司 | 数据处理方法、装置以及电子设备 |
CN115237580A (zh) * | 2022-09-21 | 2022-10-25 | 之江实验室 | 面向智能计算的流水并行训练自适应调整系统、方法 |
CN115454655A (zh) * | 2022-11-11 | 2022-12-09 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种异步流水线并行训练过程中的动态层迁移方法 |
Non-Patent Citations (5)
Title |
---|
Deepak Narayanan等.PipeDream: Generalized Pipeline Parallelism for DNN Training.SOSP':Proceedings of the 27th ACM Symposium on Operating Systems Principles.2019,第1-15页. * |
Pipeline Parallelism for Inference on Heterogeneous Edge Computing;Yang Hu等;arXiv.org;第1-12页 * |
基于CUDA的H.264并行解码器设计与实现;陈勇;吴晓民;杨坚;奚宏生;;计算机工程;42(05);第249-257页 * |
深度神经网络模型任务切分及并行优化方法;巨涛等;北京航空航天大学学报;第1-19页 * |
面向模型并行训练的模型拆分策略自动生成方法;王丽;郭振华;曹芳;高开;赵雅倩;赵坤;;计算机工程与科学;42(09);第1529-1537页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116050499A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7308003B2 (ja) | 非集中的な分散型深層学習 | |
CN110533183B (zh) | 流水线分布式深度学习中异构网络感知的任务放置方法 | |
CN112132287B (zh) | 一种分布式的量子计算仿真方法和装置 | |
US10783437B2 (en) | Hybrid aggregation for deep learning neural networks | |
Peake et al. | PACO-VMP: parallel ant colony optimization for virtual machine placement | |
Moon et al. | Scalable community detection from networks by computing edge betweenness on mapreduce | |
Yperman et al. | Bayesian optimization of hyper-parameters in reservoir computing | |
Glantz et al. | Algorithms for mapping parallel processes onto grid and torus architectures | |
CN111400555A (zh) | 图数据查询任务处理方法、装置、计算机设备和存储介质 | |
Ulanov et al. | Modeling scalability of distributed machine learning | |
CN112819258A (zh) | 银行网点到店客户数量预测方法及装置 | |
CN109409746A (zh) | 一种生产调度方法及装置 | |
CN116050499B (zh) | 一种模型并行训练中的自适应模型划分方法、系统及设备 | |
CN109460301A (zh) | 一种流数据负载的弹性资源配置方法及系统 | |
CN113448821B (zh) | 一种识别工程缺陷的方法和装置 | |
CN115794405A (zh) | 一种基于SSA-XGboost算法的大数据处理框架的动态资源分配方法 | |
CN110325984B (zh) | 在图形中进行层次社区检测的系统和方法 | |
Lančinskas et al. | Parallel optimization algorithm for competitive facility location | |
Anwar et al. | Recommender system for optimal distributed deep learning in cloud datacenters | |
Tsianos et al. | Consensus-based distributed online prediction and optimization | |
Xu et al. | Reducing synchronization overhead with computation replication in parallel agent-based road traffic simulation | |
CN114945917A (zh) | 用于深度学习的稀疏矩阵运算 | |
Kumar et al. | Mapreduce algorithm for single source shortest path problem | |
Wagner et al. | Developing multithreaded techniques and improved constraint handling for the tool CAgen | |
Faysal et al. | Fast stochastic block partitioning using a single commodity machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |