CN110942138A

CN110942138A - 一种混合内存环境下深度神经网络的训练方法和系统

Info

Publication number: CN110942138A
Application number: CN201911111873.9A
Authority: CN
Inventors: 蒋文斌; 金海�; 刘湃; 彭晶; 马阳; 刘博�
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2020-03-31
Anticipated expiration: 2039-11-13
Also published as: CN110942138B

Abstract

本发明公开了一种混合内存环境下深度神经网络的训练方法和系统，属于深度学习技术领域。本发明基于NVRAM的读特性，将大量的训练数据缓存在NVRAM中，提高神经网络获取数据的速度。本发明通过将原本由GPU计算的训练数据分成两部分，分别由CPU和GPU并行计算，利用GPU和CPU的计算能力，采用两个神经网络进行训练，在利用CPU的算力的同时减少了拷贝到GPU内存的数据量，通过提高计算的并行度来提高神经网络的训练速度。本发明加权平均后的网络参数快照保存在NVRAM中，采用异步备份的方式，在数据写入NVRAM的过程中，不影响神经网络训练数据的速度，减少了NVRAM写速度对训练的影响。

Description

一种混合内存环境下深度神经网络的训练方法和系统

技术领域

本发明属于深度学习技术领域，更具体地，涉及一种混合内存环境下深度神经网络的训练方法和系统。

背景技术

当前，人工智能(Artificial Intelligence，AI)已经在图像、语音以及自然语言处理等多个领域的技术上，取得了全面的突破。近年来的AI技术突破，主要源于深度学习技术(Deep Learning)。深度学习技术通过构建结构复杂的深度神经网络(Deep NeuralNetwork，DNN)和海量的训练数据样本，在各类人工智能应用上取得了长足的进步，特别是在图像和声音领域相比传统的算法大大提升了识别率。在大数据分析挖掘领域，深度神经网络已经被广泛地应用。

经典的神经网络模型主要在“宽度”与“深度”方面进行不同程度的扩增。借助于大规模数据的训练，AlexNet、VGG-16、VGG-19等经典网络通过宽度或深度增加的参数可以有效地提升其模型的表达能力。但当网络变得越来越深，其训练难度也随之相应增加，处理的数据量以及计算量越来越大。深度学习中大量使用GPU来加速神经网络的训练速度，GPU必须靠CPU提供数据，而CPU的数据又从外部存储，例如磁盘等介质中提取，磁盘的带宽相对于GPU和CPU的处理速度太过缓慢。而且，GPU和CPU的内存相对海量的训练数据样本显得太小，训练数据不能完全保存在内存中，在训练过程中就得反复从磁盘中读取，因此磁盘的带宽成为限制神经网络训练速度的主要瓶颈。

针对以上的问题，现有的深度学习框架普遍采用了缓存队列的异步读取方案，但是在处理ImageNet等大规模数据集时仍然有巨大的时间开销。也有框架采用了数据并行读取的方式，但这仅仅是对磁盘仅有带宽的压榨，无法真正解决问题。此外，数据并行也能提高训练数据的读取速度，它将神经网络模型部署到多个机器上，由多个机器并行读取训练数据。该方法将训练时的数据读取开销分散到多个节点上，可以提高训练的速度，但是也因此引入了复杂的通信机制，带来了不可忽视的通信开销。训练过程中的每次迭代都需要多个GPU相互通信，造成整体训练性能的下降。因此优化训练数据的读取，是提高深度神经网络模型训练速度的关键之一。

发明内容

针对现有技术深度学习系统在读取数据速度上存在瓶颈的技术问题，本发明提供了一种混合内存环境下深度神经网络的训练方法和系统，其目的在于基于数据的划分实现CPU和GPU的并行计算，在保证正确率的前提下加速模型的收敛。

为实现上述目的，按照本发明的第一方面，提供了一种混合内存环境下深度神经网络的训练方法，所述混合内存由CPU管理，包含DRAM和NVRAM，该方法包括以下步骤：

S1.训练开始前，将训练数据集存入NVRAM；

S2.在DRAM中构建与目标深度神经网络模型结构相同的神经网络N_C，在GPU内存中构建与目标深度神经网络模型结构相同的神经网络N_G，神经网络N_C和N_G的输入数据为一个batch，数据量大小为BS；

S3.根据神经网络N_C和N_G处理一个batch的时间，计算训练过程中每个batch划分给CPU计算的比例R；

S4.根据划分比例R，修正神经网络N_C和N_G的输入数据大小BS_C和BS_G；

S5.训练过程中，神经网络N_C从NVRAM中读取一个batch，将该batch划分为大小为BS_C和BS_G的数据块，将BS_C大小的数据块拷贝到DRAM，将BS_G大小的数据块传送到GPU内存；

S6.神经网络N_C对BS_C大小的数据块进行训练并更新自身网络参数，神经网络N_G对BS_G大小的数据块进行训练并更新自身网络参数，这两个训练需同步进行，当两个训练均结束则认为一次迭代结束；

S7.两个神经网络经过k次迭代后，按照划分比例R对N_C和N_G的网络参数进行加权平均，将加权平均后的网络参数替换掉N_C和N_G的原网络参数，本次网络参数同步结束，进入步骤S5直至训练完成。

具体地，步骤S3包括以下步骤：

S31.神经网络N_C从NVRAM中读取M个batch，对每个batch分别训练，并记录该神经网络训练每个batch所用时间；神经网络N_C将读取到的所有batch发送给神经网络N_G，N_G对每个batch分别训练，并记录该神经网络训练每个batch所用时间；

S32.以神经网络N_C执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间，以神经网络N_G执行M次训练batch所用时间的平均时间作为该网络处理一个batch的时间。

具体地，所述比例R的计算公式如下：

其中，T_C为网络N_C处理一个batch的时间，T_G为网络N_G处理一个batch的时间。

具体地，修正后神经网络N_C和N_G的输入数据大小BS_C和BS_G计算公式如下：

BS_c＝BS*R

BS_G＝BS*(1-R)。

具体地，网络参数同步间隔k设置为每个epoch中迭代次数的1/20～1/10。

具体地，第l层加权平均后的参数

的计算公式如下：

其中，

和

分别为神经网络N_C和N_G第l层的权重参数。

具体地，当参数合并时，根据CPU和GPU各自内存的剩余情况，选择其中一个进行参数合并的计算，具体如下：

(1)记录k次迭代后DRAM剩余内存M_C、GPU的剩余内存M_G及网络的参数所占的内存M_N；

(2)若M_G＞M_N，则在GPU中执行参数合并，将加权平均后的参数

从GPU中拷贝到内存DRAM，直接覆盖N_C中的网络参数；否则，在CPU中执行参数合并，将

从DRAM中拷贝到GPU内存，覆盖N_G的网络参数。

具体地，将加权平均后的网络参数快照保存在NVRAM中。

为实现上述目的，按照本发明的第二方面，提供了一种混合内存环境下深度神经网络的训练系统，所述混合内存由CPU管理，包含DRAM和NVRAM，该系统包括：

预评估模块，用于训练数据集缓存在NVRAM中，在DRAM中构建与目标深度神经网络模型结构相同的神经网络N_C，在GPU内存中构建与目标深度神经网络模型结构相同的神经网络N_G，神经网络N_C和N_G的输入数据为一个batch，数据量大小为BS，根据神经网络N_C和N_G处理一个batch的时间，计算训练过程中每个batch划分给CPU计算的比例R，根据划分比例R，修正神经网络N_C和N_G的输入数据大小BS_C和BS_G；

训练模块，用于在训练过程的每次迭代中，神经网络N_C从NVRAM中读取一个batch，将该batch划分为大小为BS_C和BS_G的数据块，将BS_C大小的数据块拷贝到DRAM，将BS_G大小的数据块传送到GPU内存，神经网络N_C对BS_C大小的数据块进行训练并更新网络参数，神经网络N_G对BS_G大小的数据块进行训练并更新网络参数，这两个训练需同步进行，当两个训练均结束则认为一次迭代结束；

参数同步模块，用于在两个神经网络经过k次迭代后，按照划分比例R对N_C和N_G的网络参数进行加权平均，将加权平均后的网络参数替换掉N_C和N_G的原网络参数。

为实现上述目的，按照本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的混合内存环境下深度神经网络的训练方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明基于NVRAM的读特性和容量特性，将大量的训练数据缓存在NVRAM中，提高神经网络获取数据的速度。

(2)本发明通过将原本由GPU计算的训练数据分成两部分，分别由CPU和GPU并行计算，利用GPU和CPU的计算能力，采用两个神经网络进行训练，在利用CPU的算力的同时减少了拷贝到GPU内存的数据量，通过提高计算的并行度来提高神经网络的训练速度。

(3)本发明有间隔地同步两个神经网络的参数，并将加权平均后的网络参数快照保存在NVRAM中，采用异步备份的方式，在数据写入NVRAM的过程中，不影响神经网络训练数据的速度，减少了NVRAM写速度对训练的影响。

附图说明

图1为本发明实施例提供的种混合内存环境下深度神经网络的训练方法流程图；

图2为本发明实施例提供的深度神经网络中训练阶段结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，对本发明涉及的各变量指代含义进行解释如下：

NVRAM(Non-Volatile Random Acces sMemory)是一种新型的非易失性随机访问存储器，断电后仍能保持数据，读取速度与易失性内存DRAM相差不大，但是写入速度较低，使用寿命较短。NVRAM可以和DRAM在同一存储层次工作。NVRAM可用于数据缓存，改进数据读取的效率。基于NVRAM的高速读写和数据存储能力，使CPU和GPU同时执行神经网络的训练过程，既可以利用CPU端的计算能力，又能减少拷贝到GPU的数据量，最终加速神经网络模型的收敛。

如图1所示，本发明提出一种混合内存环境下深度神经网络的训练方法，所述混合内存由CPU管理，包含DRAM和NVRAM，该方法包括以下步骤：

步骤S1.训练开始前，将训练数据集存入NVRAM。

基于NVRAM的读特性，将大量的训练数据缓存在NVRAM中，可以提高神经网络获取数据的速度。

步骤S2.在DRAM中构建与目标深度神经网络模型结构相同的神经网络N_C，在GPU内存中构建与目标深度神经网络模型结构相同的神经网络N_G，神经网络N_C和N_G的输入数据为一个bach。

因为CPU和GPU要同时进行神经网络的训练，又由于GPU拥有自己的内存，因此需要各自构建一个神经网络。这两个神经网络结构相同。

步骤S3.根据神经网络N_C和N_G处理一个bach的时间，计算训练过程中每个bach划分给CPU计算的比例R。

步骤S3包括以下步骤：

S31.神经网络N_C从NVRAM中读取M个bach，对每个bach分别训练，并记录该神经网络训练每个bach所用时间；神经网络N_C将读取到的所有bach发送给神经网络N_G，N_G对每个bach分别训练，并记录该神经网络训练每个bach所用时间。

S32.以神经网络N_CM次训练bach所用时间的平均时间作为该网络的处理一个bach的时间，以神经网络N_GM次训练bach所用时间的平均时间作为该网络的处理一个bach的时间。

记录的时间分别为

和

i∈[1，M]，取平均值作为两个网络的处理时间，计算公式为

S33.根据神经网络N_C和N_G处理一个batch的时间，计算训练过程中每个batch划分给CPU计算的比例R。

步骤S4.根据划分比例R，修正神经网络N_C和N_G的输入数据大小BS_C和BS_G。

BS_C＝BS*R

BS_G＝BS*(1-R)

其中，BS为一个batch的数据量。

如图2所示，根据划分比例R修正N_C和N_G的输入数据大小，由于处理数据量的大小按比例划分，CPU和GPU中两个网络的前向和后向处理时间FB_C和FB_G应该接近。

步骤S5.训练过程中，神经网络N_C从NVRAM中读取一个batch，将该batch划分为大小为BS_C和BS_G的数据块，将BS_C大小的数据块拷贝到DRAM，将BS_G大小的数据块传送到GPU内存。

每一次前向和后向传播过程中，采用预评估中的划分比例R，将训练数据块划分成两部分，一部分交给CPU计算，另一部分交给GPU计算。训练数据块的划分能够减少数据传输到GPU的时间。

数据保存在非易失性内存NVRAM中，其起始位置为B，长度等同于数据量BS。记输入到神经网络N_C和N_G的数据起始位置分别为B_C和B_G，那么该位置的计算方式为：B_C＝B和B_G＝B+BS*R。在NVRAM中确定数据的位置后，将B_C指向的数据拷贝到DRAM中，B_G指向的数据拷贝到GPU内存。

步骤S6.神经网络N_C对BS_C大小的数据块进行训练并更新网络参数，神经网络N_G对BS_G大小的数据块进行训练并更新网络参数，这两个训练需同步进行，当两个训练均结束则认为本次迭代结束。

参数更新过程中，各网络对各自的参数进行更新。经过前向和后向传播过程，两个网络分别得到各自的梯度，并用此梯度更新各自的网络参数。神经网络N_C和N_G第1+1层输出的残差为

和

对于神经网络N_C和N_G中l层的参数

和

当学习率为α，其参数更新公式为：

和

记其更新时间为N_C和U_G。当其中一个网络计算较慢时，为保持同步，另一个网络需要等待，因此，一次迭代的时间为max{FB_C+U_C，FB_G+U_G}。

由于CPU和GPU的运算能力不同，为了保证CPU和GPU神经网络训练的同步性，即每一次训练迭代尽可能保证CPU和GPU同时计算完成，需要按照其吞吐率划分数据。这样保证了参数更新的一致和同步。数据读取和计算同时进行，为异步读取。

步骤S7.两个神经网络经过k次迭代后，按照划分比例对N_C和N_G的网络参数进行加权平均，将加权平均后的网络参数替换掉N_C和N_G的原网络参数，本次网络参数同步结束，进入步骤S5直至训练完成。

网络参数同步间隔k设置为每个epoch中迭代次数的1/20～1/10。

对于神经网络N_C和N_G第l层的参数

和

进行参数加权平均后的参数为

则计算公式为

优选地，当参数合并时，根据CPU和GPU各自内存的剩余情况，选择其中一个进行参数合并的计算。具体如下：

(1)记录k次迭代后DRAM剩余内存M_C、GPU的剩余内存M_G及网络的参数所占的内存M_N。

(2)若M_G＞M_N，则在GPU中执行参数合并，将

从GPU中拷贝到DRAM，直接覆盖N_C中的网络参数；否则，在CPU中执行参数合并，将

从DRAM中拷贝到GPU内存，覆盖N_G的网络参数。

为了保证参数一致，会执行两个神经网络的参数平均操作。CPU和GPU都需要承担神经网络训练的任务。当参数合并时，根据CPU和GPU各自内存的剩余情况，会选择其中一个进行参数合并的计算。由于GPU并行计算比CPU计算快，所以在GPU剩余内存多的时候，在GPU上进行加权平均更快。

优选地，为了防止训练中断而无法完成整个训练过程，本发明将加权平均后的网络参数快照保存在NVRAM中。参数同步后，此时参数为最新，此时基于NVRAM的非易失性质，对参数执行快照。将快照保存在NVRAM中，故将参数从DRAM拷贝到NVRAM中。

本发明公开了一种混合内存环境下深度神经网络的训练系统，该系统包括：

预评估模块，用于分别生成适用于CPU和GPU的神经网络，读取多个数据块，分别用上述两个网络处理，记录每次处理的时间取均值，最终得到网络的吞吐率，确定数据划分的比例R。

训练模块，用于每次迭代前对训练数据块按比例R进行划分，并将划分给GPU的数据拷贝到GPU内存。每次前向和后向过程结束之后，需要执行参数更新。每次迭代中两个网络相互等待较慢的那一个，保证训练进度相同。

参数同步模块，用于每经过一定迭代次数之后参数的同步。按照预评估模块的比例R，对CPU神经网络和GPU神经网络中的参数进行加权平均，并发送回两个网络中替换原参数，同时将参数执行快照，保存在非易失性内存NVRAM中。

其中，各模块的具体实施方式可以参照方法实施例的描述，本发明实施例将不做复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合内存环境下深度神经网络的训练方法，其特征在于，所述混合内存由CPU管理，包含DRAM和NVRAM，该方法包括以下步骤：

S1.训练开始前，将训练数据集存入NVRAM；

2.如权利要求1所述的方法，其特征在于，步骤S3包括以下步骤：

3.如权利要求1所述的方法，其特征在于，所述比例R的计算公式如下：

4.如权利要求1所述的方法，其特征在于，修正后神经网络N_C和N_G的输入数据大小BS_C和BS_G计算公式如下：

BS_C＝BS*R

BS_G＝BS*(1-R)。

5.如权利要求1所述的方法，其特征在于，网络参数同步间隔k设置为每个epoch中迭代次数的1/20～1/10。

6.如权利要求1所述的方法，其特征在于，第l层加权平均后的参数

的计算公式如下：

其中，

和

分别为神经网络N_C和N_G第l层的权重参数。

7.如权利要求1所述的方法，其特征在于，当参数合并时，根据CPU和GPU各自内存的剩余情况，选择其中一个进行参数合并的计算，具体如下：

(2)若M_G>M_N，则在GPU中执行参数合并，将加权平均后的参数

从DRAM中拷贝到GPU内存，覆盖N_G的网络参数。

8.如权利要求1所述的方法，其特征在于，将加权平均后的网络参数快照保存在NVRAM中。

9.一种混合内存环境下深度神经网络的训练系统，其特征在于，所述混合内存由CPU管理，包含DRAM和NVRAM，该系统包括：

训练模块，用于在训练过程的每次迭代中，神经网络N_C从NVRAM中读取一个batch，将该batch划分为大小为BS_C和BS_G的数据块，将BS_C大小的数据块拷贝到DRAM，将BS_G大小的数据块传送到GPU内存，神经网络N_C对BS_C大小的数据块进行训练并更新自身网络参数，神经网络N_G对BS_G大小的数据块进行训练并更新自身网络参数，这两个训练需同步进行，当两个训练均结束则认为一次迭代结束；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～8任一项所述的混合内存环境下深度神经网络的训练方法。