CN110942138A - 一种混合内存环境下深度神经网络的训练方法和系统 - Google Patents
一种混合内存环境下深度神经网络的训练方法和系统 Download PDFInfo
- Publication number
- CN110942138A CN110942138A CN201911111873.9A CN201911111873A CN110942138A CN 110942138 A CN110942138 A CN 110942138A CN 201911111873 A CN201911111873 A CN 201911111873A CN 110942138 A CN110942138 A CN 110942138A
- Authority
- CN
- China
- Prior art keywords
- neural network
- training
- network
- batch
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明公开了一种混合内存环境下深度神经网络的训练方法和系统,属于深度学习技术领域。本发明基于NVRAM的读特性,将大量的训练数据缓存在NVRAM中,提高神经网络获取数据的速度。本发明通过将原本由GPU计算的训练数据分成两部分,分别由CPU和GPU并行计算,利用GPU和CPU的计算能力,采用两个神经网络进行训练,在利用CPU的算力的同时减少了拷贝到GPU内存的数据量,通过提高计算的并行度来提高神经网络的训练速度。本发明加权平均后的网络参数快照保存在NVRAM中,采用异步备份的方式,在数据写入NVRAM的过程中,不影响神经网络训练数据的速度,减少了NVRAM写速度对训练的影响。
Description
技术领域
本发明属于深度学习技术领域,更具体地,涉及一种混合内存环境下深度神经网络的训练方法和系统。
背景技术
当前,人工智能(Artificial Intelligence,AI)已经在图像、语音以及自然语言处理等多个领域的技术上,取得了全面的突破。近年来的AI技术突破,主要源于深度学习技术(Deep Learning)。深度学习技术通过构建结构复杂的深度神经网络(Deep NeuralNetwork,DNN)和海量的训练数据样本,在各类人工智能应用上取得了长足的进步,特别是在图像和声音领域相比传统的算法大大提升了识别率。在大数据分析挖掘领域,深度神经网络已经被广泛地应用。
经典的神经网络模型主要在“宽度”与“深度”方面进行不同程度的扩增。借助于大规模数据的训练,AlexNet、VGG-16、VGG-19等经典网络通过宽度或深度增加的参数可以有效地提升其模型的表达能力。但当网络变得越来越深,其训练难度也随之相应增加,处理的数据量以及计算量越来越大。深度学习中大量使用GPU来加速神经网络的训练速度,GPU必须靠CPU提供数据,而CPU的数据又从外部存储,例如磁盘等介质中提取,磁盘的带宽相对于GPU和CPU的处理速度太过缓慢。而且,GPU和CPU的内存相对海量的训练数据样本显得太小,训练数据不能完全保存在内存中,在训练过程中就得反复从磁盘中读取,因此磁盘的带宽成为限制神经网络训练速度的主要瓶颈。
针对以上的问题,现有的深度学习框架普遍采用了缓存队列的异步读取方案,但是在处理ImageNet等大规模数据集时仍然有巨大的时间开销。也有框架采用了数据并行读取的方式,但这仅仅是对磁盘仅有带宽的压榨,无法真正解决问题。此外,数据并行也能提高训练数据的读取速度,它将神经网络模型部署到多个机器上,由多个机器并行读取训练数据。该方法将训练时的数据读取开销分散到多个节点上,可以提高训练的速度,但是也因此引入了复杂的通信机制,带来了不可忽视的通信开销。训练过程中的每次迭代都需要多个GPU相互通信,造成整体训练性能的下降。因此优化训练数据的读取,是提高深度神经网络模型训练速度的关键之一。
发明内容
针对现有技术深度学习系统在读取数据速度上存在瓶颈的技术问题,本发明提供了一种混合内存环境下深度神经网络的训练方法和系统,其目的在于基于数据的划分实现CPU和GPU的并行计算,在保证正确率的前提下加速模型的收敛。
为实现上述目的,按照本发明的第一方面,提供了一种混合内存环境下深度神经网络的训练方法,所述混合内存由CPU管理,包含DRAM和NVRAM,该方法包括以下步骤:
S1.训练开始前,将训练数据集存入NVRAM;
S2.在DRAM中构建与目标深度神经网络模型结构相同的神经网络NC,在GPU内存中构建与目标深度神经网络模型结构相同的神经网络NG,神经网络NC和NG的输入数据为一个batch,数据量大小为BS;
S3.根据神经网络NC和NG处理一个batch的时间,计算训练过程中每个batch划分给CPU计算的比例R;
S4.根据划分比例R,修正神经网络NC和NG的输入数据大小BSC和BSG;
S5.训练过程中,神经网络NC从NVRAM中读取一个batch,将该batch划分为大小为BSC和BSG的数据块,将BSC大小的数据块拷贝到DRAM,将BSG大小的数据块传送到GPU内存;
S6.神经网络NC对BSC大小的数据块进行训练并更新自身网络参数,神经网络NG对BSG大小的数据块进行训练并更新自身网络参数,这两个训练需同步进行,当两个训练均结束则认为一次迭代结束;
S7.两个神经网络经过k次迭代后,按照划分比例R对NC和NG的网络参数进行加权平均,将加权平均后的网络参数替换掉NC和NG的原网络参数,本次网络参数同步结束,进入步骤S5直至训练完成。
具体地,步骤S3包括以下步骤:
S31.神经网络NC从NVRAM中读取M个batch,对每个batch分别训练,并记录该神经网络训练每个batch所用时间;神经网络NC将读取到的所有batch发送给神经网络NG,NG对每个batch分别训练,并记录该神经网络训练每个batch所用时间;
S32.以神经网络NC执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间,以神经网络NG执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间。
具体地,所述比例R的计算公式如下:
其中,TC为网络NC处理一个batch的时间,TG为网络NG处理一个batch的时间。
具体地,修正后神经网络NC和NG的输入数据大小BSC和BSG计算公式如下:
BSc=BS*R
BSG=BS*(1-R)。
具体地,网络参数同步间隔k设置为每个epoch中迭代次数的1/20~1/10。
具体地,当参数合并时,根据CPU和GPU各自内存的剩余情况,选择其中一个进行参数合并的计算,具体如下:
(1)记录k次迭代后DRAM剩余内存MC、GPU的剩余内存MG及网络的参数所占的内存MN;
(2)若MG>MN,则在GPU中执行参数合并,将加权平均后的参数从GPU中拷贝到内存DRAM,直接覆盖NC中的网络参数;否则,在CPU中执行参数合并,将从DRAM中拷贝到GPU内存,覆盖NG的网络参数。
具体地,将加权平均后的网络参数快照保存在NVRAM中。
为实现上述目的,按照本发明的第二方面,提供了一种混合内存环境下深度神经网络的训练系统,所述混合内存由CPU管理,包含DRAM和NVRAM,该系统包括:
预评估模块,用于训练数据集缓存在NVRAM中,在DRAM中构建与目标深度神经网络模型结构相同的神经网络NC,在GPU内存中构建与目标深度神经网络模型结构相同的神经网络NG,神经网络NC和NG的输入数据为一个batch,数据量大小为BS,根据神经网络NC和NG处理一个batch的时间,计算训练过程中每个batch划分给CPU计算的比例R,根据划分比例R,修正神经网络NC和NG的输入数据大小BSC和BSG;
训练模块,用于在训练过程的每次迭代中,神经网络NC从NVRAM中读取一个batch,将该batch划分为大小为BSC和BSG的数据块,将BSC大小的数据块拷贝到DRAM,将BSG大小的数据块传送到GPU内存,神经网络NC对BSC大小的数据块进行训练并更新网络参数,神经网络NG对BSG大小的数据块进行训练并更新网络参数,这两个训练需同步进行,当两个训练均结束则认为一次迭代结束;
参数同步模块,用于在两个神经网络经过k次迭代后,按照划分比例R对NC和NG的网络参数进行加权平均,将加权平均后的网络参数替换掉NC和NG的原网络参数。
为实现上述目的,按照本发明的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的混合内存环境下深度神经网络的训练方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明基于NVRAM的读特性和容量特性,将大量的训练数据缓存在NVRAM中,提高神经网络获取数据的速度。
(2)本发明通过将原本由GPU计算的训练数据分成两部分,分别由CPU和GPU并行计算,利用GPU和CPU的计算能力,采用两个神经网络进行训练,在利用CPU的算力的同时减少了拷贝到GPU内存的数据量,通过提高计算的并行度来提高神经网络的训练速度。
(3)本发明有间隔地同步两个神经网络的参数,并将加权平均后的网络参数快照保存在NVRAM中,采用异步备份的方式,在数据写入NVRAM的过程中,不影响神经网络训练数据的速度,减少了NVRAM写速度对训练的影响。
附图说明
图1为本发明实施例提供的种混合内存环境下深度神经网络的训练方法流程图;
图2为本发明实施例提供的深度神经网络中训练阶段结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先,对本发明涉及的各变量指代含义进行解释如下:
NVRAM(Non-Volatile Random Acces sMemory)是一种新型的非易失性随机访问存储器,断电后仍能保持数据,读取速度与易失性内存DRAM相差不大,但是写入速度较低,使用寿命较短。NVRAM可以和DRAM在同一存储层次工作。NVRAM可用于数据缓存,改进数据读取的效率。基于NVRAM的高速读写和数据存储能力,使CPU和GPU同时执行神经网络的训练过程,既可以利用CPU端的计算能力,又能减少拷贝到GPU的数据量,最终加速神经网络模型的收敛。
如图1所示,本发明提出一种混合内存环境下深度神经网络的训练方法,所述混合内存由CPU管理,包含DRAM和NVRAM,该方法包括以下步骤:
步骤S1.训练开始前,将训练数据集存入NVRAM。
基于NVRAM的读特性,将大量的训练数据缓存在NVRAM中,可以提高神经网络获取数据的速度。
步骤S2.在DRAM中构建与目标深度神经网络模型结构相同的神经网络NC,在GPU内存中构建与目标深度神经网络模型结构相同的神经网络NG,神经网络NC和NG的输入数据为一个bach。
因为CPU和GPU要同时进行神经网络的训练,又由于GPU拥有自己的内存,因此需要各自构建一个神经网络。这两个神经网络结构相同。
步骤S3.根据神经网络NC和NG处理一个bach的时间,计算训练过程中每个bach划分给CPU计算的比例R。
步骤S3包括以下步骤:
S31.神经网络NC从NVRAM中读取M个bach,对每个bach分别训练,并记录该神经网络训练每个bach所用时间;神经网络NC将读取到的所有bach发送给神经网络NG,NG对每个bach分别训练,并记录该神经网络训练每个bach所用时间。
S32.以神经网络NCM次训练bach所用时间的平均时间作为该网络的处理一个bach的时间,以神经网络NGM次训练bach所用时间的平均时间作为该网络的处理一个bach的时间。
S33.根据神经网络NC和NG处理一个batch的时间,计算训练过程中每个batch划分给CPU计算的比例R。
步骤S4.根据划分比例R,修正神经网络NC和NG的输入数据大小BSC和BSG。
BSC=BS*R
BSG=BS*(1-R)
其中,BS为一个batch的数据量。
如图2所示,根据划分比例R修正NC和NG的输入数据大小,由于处理数据量的大小按比例划分,CPU和GPU中两个网络的前向和后向处理时间FBC和FBG应该接近。
步骤S5.训练过程中,神经网络NC从NVRAM中读取一个batch,将该batch划分为大小为BSC和BSG的数据块,将BSC大小的数据块拷贝到DRAM,将BSG大小的数据块传送到GPU内存。
每一次前向和后向传播过程中,采用预评估中的划分比例R,将训练数据块划分成两部分,一部分交给CPU计算,另一部分交给GPU计算。训练数据块的划分能够减少数据传输到GPU的时间。
数据保存在非易失性内存NVRAM中,其起始位置为B,长度等同于数据量BS。记输入到神经网络NC和NG的数据起始位置分别为BC和BG,那么该位置的计算方式为:BC=B和BG=B+BS*R。在NVRAM中确定数据的位置后,将BC指向的数据拷贝到DRAM中,BG指向的数据拷贝到GPU内存。
步骤S6.神经网络NC对BSC大小的数据块进行训练并更新网络参数,神经网络NG对BSG大小的数据块进行训练并更新网络参数,这两个训练需同步进行,当两个训练均结束则认为本次迭代结束。
参数更新过程中,各网络对各自的参数进行更新。经过前向和后向传播过程,两个网络分别得到各自的梯度,并用此梯度更新各自的网络参数。神经网络NC和NG第1+1层输出的残差为和对于神经网络NC和NG中l层的参数和当学习率为α,其参数更新公式为:和记其更新时间为NC和UG。当其中一个网络计算较慢时,为保持同步,另一个网络需要等待,因此,一次迭代的时间为max{FBC+UC,FBG+UG}。
由于CPU和GPU的运算能力不同,为了保证CPU和GPU神经网络训练的同步性,即每一次训练迭代尽可能保证CPU和GPU同时计算完成,需要按照其吞吐率划分数据。这样保证了参数更新的一致和同步。数据读取和计算同时进行,为异步读取。
步骤S7.两个神经网络经过k次迭代后,按照划分比例对NC和NG的网络参数进行加权平均,将加权平均后的网络参数替换掉NC和NG的原网络参数,本次网络参数同步结束,进入步骤S5直至训练完成。
网络参数同步间隔k设置为每个epoch中迭代次数的1/20~1/10。
优选地,当参数合并时,根据CPU和GPU各自内存的剩余情况,选择其中一个进行参数合并的计算。具体如下:
(1)记录k次迭代后DRAM剩余内存MC、GPU的剩余内存MG及网络的参数所占的内存MN。
为了保证参数一致,会执行两个神经网络的参数平均操作。CPU和GPU都需要承担神经网络训练的任务。当参数合并时,根据CPU和GPU各自内存的剩余情况,会选择其中一个进行参数合并的计算。由于GPU并行计算比CPU计算快,所以在GPU剩余内存多的时候,在GPU上进行加权平均更快。
优选地,为了防止训练中断而无法完成整个训练过程,本发明将加权平均后的网络参数快照保存在NVRAM中。参数同步后,此时参数为最新,此时基于NVRAM的非易失性质,对参数执行快照。将快照保存在NVRAM中,故将参数从DRAM拷贝到NVRAM中。
本发明公开了一种混合内存环境下深度神经网络的训练系统,该系统包括:
预评估模块,用于分别生成适用于CPU和GPU的神经网络,读取多个数据块,分别用上述两个网络处理,记录每次处理的时间取均值,最终得到网络的吞吐率,确定数据划分的比例R。
训练模块,用于每次迭代前对训练数据块按比例R进行划分,并将划分给GPU的数据拷贝到GPU内存。每次前向和后向过程结束之后,需要执行参数更新。每次迭代中两个网络相互等待较慢的那一个,保证训练进度相同。
参数同步模块,用于每经过一定迭代次数之后参数的同步。按照预评估模块的比例R,对CPU神经网络和GPU神经网络中的参数进行加权平均,并发送回两个网络中替换原参数,同时将参数执行快照,保存在非易失性内存NVRAM中。
其中,各模块的具体实施方式可以参照方法实施例的描述,本发明实施例将不做复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种混合内存环境下深度神经网络的训练方法,其特征在于,所述混合内存由CPU管理,包含DRAM和NVRAM,该方法包括以下步骤:
S1.训练开始前,将训练数据集存入NVRAM;
S2.在DRAM中构建与目标深度神经网络模型结构相同的神经网络NC,在GPU内存中构建与目标深度神经网络模型结构相同的神经网络NG,神经网络NC和NG的输入数据为一个batch,数据量大小为BS;
S3.根据神经网络NC和NG处理一个batch的时间,计算训练过程中每个batch划分给CPU计算的比例R;
S4.根据划分比例R,修正神经网络NC和NG的输入数据大小BSC和BSG;
S5.训练过程中,神经网络NC从NVRAM中读取一个batch,将该batch划分为大小为BSC和BSG的数据块,将BSC大小的数据块拷贝到DRAM,将BSG大小的数据块传送到GPU内存;
S6.神经网络NC对BSC大小的数据块进行训练并更新自身网络参数,神经网络NG对BSG大小的数据块进行训练并更新自身网络参数,这两个训练需同步进行,当两个训练均结束则认为一次迭代结束;
S7.两个神经网络经过k次迭代后,按照划分比例R对NC和NG的网络参数进行加权平均,将加权平均后的网络参数替换掉NC和NG的原网络参数,本次网络参数同步结束,进入步骤S5直至训练完成。
2.如权利要求1所述的方法,其特征在于,步骤S3包括以下步骤:
S31.神经网络NC从NVRAM中读取M个batch,对每个batch分别训练,并记录该神经网络训练每个batch所用时间;神经网络NC将读取到的所有batch发送给神经网络NG,NG对每个batch分别训练,并记录该神经网络训练每个batch所用时间;
S32.以神经网络NC执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间,以神经网络NG执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间。
4.如权利要求1所述的方法,其特征在于,修正后神经网络NC和NG的输入数据大小BSC和BSG计算公式如下:
BSC=BS*R
BSG=BS*(1-R)。
5.如权利要求1所述的方法,其特征在于,网络参数同步间隔k设置为每个epoch中迭代次数的1/20~1/10。
8.如权利要求1所述的方法,其特征在于,将加权平均后的网络参数快照保存在NVRAM中。
9.一种混合内存环境下深度神经网络的训练系统,其特征在于,所述混合内存由CPU管理,包含DRAM和NVRAM,该系统包括:
预评估模块,用于训练数据集缓存在NVRAM中,在DRAM中构建与目标深度神经网络模型结构相同的神经网络NC,在GPU内存中构建与目标深度神经网络模型结构相同的神经网络NG,神经网络NC和NG的输入数据为一个batch,数据量大小为BS,根据神经网络NC和NG处理一个batch的时间,计算训练过程中每个batch划分给CPU计算的比例R,根据划分比例R,修正神经网络NC和NG的输入数据大小BSC和BSG;
训练模块,用于在训练过程的每次迭代中,神经网络NC从NVRAM中读取一个batch,将该batch划分为大小为BSC和BSG的数据块,将BSC大小的数据块拷贝到DRAM,将BSG大小的数据块传送到GPU内存,神经网络NC对BSC大小的数据块进行训练并更新自身网络参数,神经网络NG对BSG大小的数据块进行训练并更新自身网络参数,这两个训练需同步进行,当两个训练均结束则认为一次迭代结束;
参数同步模块,用于在两个神经网络经过k次迭代后,按照划分比例R对NC和NG的网络参数进行加权平均,将加权平均后的网络参数替换掉NC和NG的原网络参数。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~8任一项所述的混合内存环境下深度神经网络的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111873.9A CN110942138B (zh) | 2019-11-13 | 2019-11-13 | 一种混合内存环境下深度神经网络的训练方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111873.9A CN110942138B (zh) | 2019-11-13 | 2019-11-13 | 一种混合内存环境下深度神经网络的训练方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942138A true CN110942138A (zh) | 2020-03-31 |
CN110942138B CN110942138B (zh) | 2022-02-15 |
Family
ID=69906749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911111873.9A Active CN110942138B (zh) | 2019-11-13 | 2019-11-13 | 一种混合内存环境下深度神经网络的训练方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942138B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582459A (zh) * | 2020-05-18 | 2020-08-25 | Oppo广东移动通信有限公司 | 执行操作的方法、电子设备、装置及存储介质 |
CN112748998A (zh) * | 2021-01-21 | 2021-05-04 | 中南大学 | 一种移动端的卷积神经网络任务调度方法及系统 |
WO2021208558A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN113609310A (zh) * | 2021-08-25 | 2021-11-05 | 上海交通大学 | 单机大规模知识图谱嵌入系统及方法 |
CN117687802A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的深度学习并行调度方法、装置和云平台 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297774A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型的分布式并行训练方法及系统 |
US20180210830A1 (en) * | 2017-01-25 | 2018-07-26 | Samsung Electronics Co., Ltd. | Flash-Integrated High Bandwidth Memory Appliance |
CN109165729A (zh) * | 2018-08-22 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 神经网络的调度方法及系统 |
CN109902818A (zh) * | 2019-01-15 | 2019-06-18 | 中国科学院信息工程研究所 | 一种面向深度学习训练任务的分布式加速方法及系统 |
CN109919310A (zh) * | 2019-01-15 | 2019-06-21 | 中国科学院信息工程研究所 | 一种面向深度学习训练任务的gpu内存优化方法及系统 |
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
-
2019
- 2019-11-13 CN CN201911111873.9A patent/CN110942138B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297774A (zh) * | 2015-05-29 | 2017-01-04 | 中国科学院声学研究所 | 一种神经网络声学模型的分布式并行训练方法及系统 |
US20180210830A1 (en) * | 2017-01-25 | 2018-07-26 | Samsung Electronics Co., Ltd. | Flash-Integrated High Bandwidth Memory Appliance |
CN108459974A (zh) * | 2017-01-25 | 2018-08-28 | 三星电子株式会社 | 集成闪存的高带宽存储器设备 |
CN109165729A (zh) * | 2018-08-22 | 2019-01-08 | 中科物栖(北京)科技有限责任公司 | 神经网络的调度方法及系统 |
CN109902818A (zh) * | 2019-01-15 | 2019-06-18 | 中国科学院信息工程研究所 | 一种面向深度学习训练任务的分布式加速方法及系统 |
CN109919310A (zh) * | 2019-01-15 | 2019-06-21 | 中国科学院信息工程研究所 | 一种面向深度学习训练任务的gpu内存优化方法及系统 |
CN110378472A (zh) * | 2019-07-24 | 2019-10-25 | 苏州浪潮智能科技有限公司 | 一种深度神经网络模型的数据并行训练方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
WENBIN JIANG等: "Layup: Layer-adaptive and Multi-type Intermediate-oriented Memory Optimization for GPU-based CNNs", 《ACM TRANSACTIONS ON ARCHITECTURE AND CODE OPTIMIZATION》 * |
蒋文斌等: "深度学习自适应学习率算法研究", 《华中科技大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021208558A1 (zh) * | 2020-04-16 | 2021-10-21 | 苏州浪潮智能科技有限公司 | 一种深度学习大模型训练的方法、系统、设备及介质 |
CN111582459A (zh) * | 2020-05-18 | 2020-08-25 | Oppo广东移动通信有限公司 | 执行操作的方法、电子设备、装置及存储介质 |
CN111582459B (zh) * | 2020-05-18 | 2023-10-20 | Oppo广东移动通信有限公司 | 执行操作的方法、电子设备、装置及存储介质 |
CN112748998A (zh) * | 2021-01-21 | 2021-05-04 | 中南大学 | 一种移动端的卷积神经网络任务调度方法及系统 |
CN112748998B (zh) * | 2021-01-21 | 2023-10-03 | 中南大学 | 一种移动端的卷积神经网络任务调度方法及系统 |
CN113609310A (zh) * | 2021-08-25 | 2021-11-05 | 上海交通大学 | 单机大规模知识图谱嵌入系统及方法 |
CN113609310B (zh) * | 2021-08-25 | 2023-08-08 | 上海交通大学 | 单机大规模知识图谱嵌入系统及方法 |
CN117687802A (zh) * | 2024-02-02 | 2024-03-12 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的深度学习并行调度方法、装置和云平台 |
CN117687802B (zh) * | 2024-02-02 | 2024-04-30 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的深度学习并行调度方法、装置和云平台 |
Also Published As
Publication number | Publication date |
---|---|
CN110942138B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942138B (zh) | 一种混合内存环境下深度神经网络的训练方法和系统 | |
CN110134636B (zh) | 模型训练方法、服务器和计算机可读存储介质 | |
CN107330516B (zh) | 模型参数训练方法、装置及系统 | |
Cui et al. | Geeps: Scalable deep learning on distributed gpus with a gpu-specialized parameter server | |
CN106297774B (zh) | 一种神经网络声学模型的分布式并行训练方法及系统 | |
Smyth et al. | Asynchronous distributed learning of topic models | |
US7716328B2 (en) | Calculation of the degree of participation of a server in a cluster using half-life decay | |
CN110990155B (zh) | 一种面向大规模安全监控的参数通信方法 | |
CN108228970B (zh) | 结构动力学分析显式异步长并行计算方法 | |
Sun et al. | Gradientflow: Optimizing network performance for large-scale distributed dnn training | |
CN113298222A (zh) | 一种基于神经网络的参数更新方法、分布式训练平台系统 | |
Cao et al. | HADFL: Heterogeneity-aware decentralized federated learning framework | |
CN103020258A (zh) | 一种采用多核集群的lda模型的训练方法及系统 | |
CN113159287A (zh) | 一种基于梯度稀疏的分布式深度学习方法 | |
Wang et al. | LOSP: Overlap synchronization parallel with local compensation for fast distributed training | |
Wei et al. | Leader population learning rate schedule | |
CN106846236A (zh) | 一种可扩展的分布式gpu加速方法及装置 | |
Cao et al. | Sap-sgd: Accelerating distributed parallel training with high communication efficiency on heterogeneous clusters | |
Zhou et al. | AdaptCL: Efficient collaborative learning with dynamic and adaptive pruning | |
Akter et al. | WeightGrad: Geo-distributed data analysis using quantization for faster convergence and better accuracy | |
CN115129471A (zh) | 面向大规模gpu集群的分布式局部随机梯度下降方法 | |
Lu et al. | Adaptive asynchronous federated learning | |
JP2020003860A (ja) | 学習システム、処理装置、処理方法、およびプログラム | |
CN110780947A (zh) | 用于社交图数据的PageRank并行计算加速方法 | |
CN116128038A (zh) | 基于逻辑激活函数和层级梯度嫁接法的神经网络训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |