CN114692829B

CN114692829B - 基于dnn模型的检查点选择方法、设备和存储介质

Info

Publication number: CN114692829B
Application number: CN202210296062.6A
Authority: CN
Inventors: 朱正东; 李珍; 刘亚冬; 刘鹏杰; 蒋家强; 张皓天
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2024-04-02
Anticipated expiration: 2042-03-24
Also published as: CN114692829A

Abstract

本发明公开了一种基于DNN模型的检查点选择方法、设备和存储介质，在DNN模型训练的前向传播时就动态的选定一部分中间计算结果tensor为检查点保留在显存中；并将其余tensor插入到单链表缓存队列中，当显存使用达到阈值时，再动态地释放单链表缓存队列中的一些tensor来换取显存，直到显存低于阈值；当反向传播需要用到已释放的tensor时再利用检查点进行前向传播来重新计算；通过在DNN模型训练时就动态的对中间计算结果进行分类，设置为检查点的中间计算结果可保留在显存中，其他的中间计算结果在显存溢出时进行释放，避免了因为网络复杂或batch size较大，而在显存中存储过多的中间变量导致的显存溢出或训练速度缓慢。

Description

基于DNN模型的检查点选择方法、设备和存储介质

技术领域

本发明属于机器学习技术领域，具体涉及一种基于DNN模型的检查点选择方法。

背景技术

近年来人工智能技术已应用到了我们生活的方方面面，越来越多的使用场景也正在挖掘，机器学习和神经网络的研究也如火如荼，为了实现人们对人工智能更多场景及更准确的应用，机器学习领域研究人员的训练数据集越来越大、模型的设计越来越复杂、神经网络层数越来越多，机器学习模型的网络深度和数据量呈指数型增长。

虽然目前使用GPU可以减轻一部分内存压力，但是在实际训练中仍然会有很多显存溢出的情况。这是因为在DNN模型中，显存的占用除了神经网络模型参数、训练数据之外，消耗更多的其实是神经网络训练时产生的中间计算结果(tensor)。在模型训练时，前向传播中每个网络层的中间计算结果都需要保存在显存中，以便反向传播时使用这些tensor计算梯度，随着DNN模型变的更深更大，存储tensor所占用的内存量会非常庞大。

针对这一问题，之前的解决方案多是从硬件入手，直接扩大显存，但这种直接的方法并不能提高现有GPU的利用率，也会造成GPU资源的浪费。为了在现有资源基础上保证神经网络的准确率和训练速度，文献《Tianqi Chen,Bing Xu,Chiyuan Zhang,and CarlosGuestrin.Training deep nets with sublinear memory cost.CoRR,abs/1604.06174,2016》提出一种设置检查点checkpoint的方法，只保留前向传播中一部分的中间计算结果，作为检查点，对于其他中间计算结果进行释放，等到反向传播时再重新运行一次检查点部分的前向传播来恢复被释放的中间计算结果，利用计算时间来换取显存空间。但这种方法需要许多DNN模型的先验条件来在DNN模型静态计算图上选择检查点后再进行训练。在此之后，又有文献《MarisaKirisame,StevenS.Lyubomirsky and AltanHaan.DYNAMIC TENSORREMATERIALIZATION.ICLR,2021》提出一种DTR算法，在检查点方法的基础上实现了用启发式的算法在DNN模型动态计算图上去选择要释放的tensor；但DTR算法需要不断计算选择应该被释放的最优张量，优化效果并不突出且带来了许多额外的开销。总的来说，检查点虽付出了重新计算的时间代价，但是却也在一定程度上缓解了存储大量中间计算结果带来的显存占用，而且计算时间是远远小于一切内存交换时间的。

但是目前检查点改进的方法多是通过算法将网络进行分段，将每段看作一个整体，只保留第一个中间计算结果tensor为检查点，在反向传播计算梯度时，每段内部会再利用检查点前向传播以便恢复其他中间结果，这种方法并没有考虑到DNN模型的结构特点和深度；基于动态计算图的DTR算法会导致过多的重计算开销。在当今蓬勃发展的机器学习领域，研究人员搭建的DNN模型越来越丰富，网络也不再只是线形，而是有更多样的形状，而检查点技术并不能完全适应于任意图的DNN模型，DNN模型训练时显存溢出的问题依然没有得到很好的解决。

发明内容

本发明提供了一种基于DNN模型的检查点选择方法、设备和存储介质，解决DNN模型训练时显存溢出的问题。

用Python代码实现的n层DNN模型调用本发明用C++编写的train_with_checkpoint()方法进行神经网络训练，DNN模型调用train_with_checkpoint()方法时传入DNN模型的网络层数n和设置的显存阈值B参数，train_with_checkpoint()通过C++中的智能指针shared_ptr<tensor>来管理神经网络训练过程中显存内的中间计算结果tensor，实现本发明。

为达到上述目的，本发明所述一种基于DNN模型的检查点选择方法，包括以下步骤：

S1、若训练n层的DNN模型，首先根据当前网络层T_i的输入t_i-1进行前向传播计算F_i(t_i-1)，输出中间计算结果t_i，并向GPU申请分配显存保存中间计算结果t_i；i＝1，2，......，n；

S2、根据中间计算结果t_i所在网络层及网络层深度、计算开销、占用显存大小等特性来判断中间计算结果t_i是否可作为检查点：

若是，则将t_i保留在显存中；

否则，将t_i依次插入到缓存队列L的队尾L_k；

S3、当前向传播时因GPU显存使用达到阈值，而不能为保存t_i分配足够的显存时，将缓存队列L的队头L₁出队，释放该非检查点的中间结果tensor换取显存，直到有足够的显存可以被申请来保存t_i。

S4、将T_i层输出的中间计算结果t_i作为T_i+1层的输入，重复步骤S1-S3步骤，直到进行T₁…T_n的共n次前向传播F_i(t_i-1)计算；

S5、前向传播计算完成后，开始反向传播，获取反向传播计算所需的前向传播的中间计算结果t_i-1、反向传播的中间计算结果/>为反向传播父操作的计算结果直接进行获取；检测t_i-1是否保存在显存中，若t_i-1在显存中直接获取，并进行步骤S7，否则进行步骤S6；

S6、检测t_i-1前向传播的父操作F_i-1(t_i-2)重计算时所需的输入t_i-2是否在显存中：

若在，则重计算父操作输出结果t_i-1，并进行步骤S7；

否则，向前继续检测t_i-2的父操作，以此类推，直到检测到父操作所需的输入在显存中，检测的最远距离为t_i-1到保留在显存中的检查点：t_c之间的距离；t_c作为父操作，对t_c和t_i-1之间的一系列中间计算结果通过前向传播来重计算恢复输出结果t_i-1，并向GPU申请分配显存保存t_i-1；

S7、根据获取的前向传播的中间计算结果t_i-1、反向传播中父操作的中间计算结果进行反向传播/>计算，输出中间计算结果/>向GPU申请分配显存保存/>并释放反向传播中父操作的中间计算结果/>

S8、当反向传播时因GPU显存使用达到阈值，而不能为保存分配足够的显存时，将缓存队列L的队头L₁出队，释放该tensor换取显存，直到有足够的显存可以被申请来保存

S9、作为反向传播/>的输入继续重复S5-S8步骤进行反向传播，直到n次的/>反向传播/>计算完成；

S10、保存训练模型和训练日志：导入keras神经网络库中的model_from_json库，通过model.to_json()方法将训练模型保存为json格式，并保存到指定路径；设置训练日志中每条记录的格式，train_log_txt_formatter＝″{time_str}[Epoch]{epoch：03d}[Loss]{loss_str}\n″，“{}”括起来的表示训练时要填入具体的内容，其他则是固定不变的字符串，记录时间、epoch和损失函数值，保存为.txt的训练日志，DNN模型训练结束。

进一步的，所述步骤S1具体为：

前向传播时，第一层神经网络T₁对输入的训练数据t₀进行前向传播F₁(t₀)计算，得到第一个中间计算结果t₁，并向GPU申请分配显存进行保存，n层的DNN模型前向传播的简化过程表示为：

进一步的，所述步骤S2具体为：

S21、用train_with_checkpoint()方法中的结构体Track来追踪中间计算结果tensor的计算路径来获取当前网络层和tensor信息，获取的信息具体为：Curretnt_net_type表示网络层类型；Curretnt_net_depth表示网络层深度；Inputs和Outputs分别表示网络层计算需要的输入与输出的中间计算结果张量；Compute_overhead表示该中间结果实际的计算开销；Memory_usage表示该中间计算结果的显存占用大小；Checkpoint表示该中间计算结果是否为检查点的状态参数。

根据通过显存指针和结构体Track跟踪获取到前向传播中网络层T_i的类型C(t_i)、网络层深度D(t_i)；通过前向传播得到t_i的计算开销O(t_i)、t_i所占用显存大小M(t_i)和t_i的前一个中间计算结果t_i-1是否为检查点的状态P(t_i-1)，计算出当前t_i的权重W(t_i)；最后结合当前设置的显存阈值B及t_i的权重W(t_i)动态的设置检查点，平衡显存占用和重计算开销，相关计算公式如下：

C(t_i)∈{0，1，2}

P(t_i)∈{0，1}

其中，为最优化目标为最少的显存占用，最少的重计算开销，约束的含义依次为：

(1)C(t_i)代表不同的网络层类型对应的默认参数值，如dropout层、解码器网络层等不能设置检查点，则对应的默认C(t_i)值为0，权重W(t_i)也等于0，不为该层设置检查点；普通网络层如池化层、全连接层的默认C(t_i)值为1，根据权重W(t_i)确定是否设置检查点；卷积层数据量较大，显存占用较多，则默认的C(t_i)值为2，减少设置为检查点概率；

(2)P(t_i)代表中间计算结果t_i是否为检查点，若当前网络层中间计算结果t_i为检查点，则P(t_i)为0，否则为1，；每层的检查点权重W(t_i)与前一个中间计算结果t_i-1的P(t_i-1)状态值有关，若t_i-1为检查点则P(t_i-1)为0，则当前t_i的权重W(t_i)为0，相应的P(t_i)为1，t_i不设置为检查点；否则默认P(t_i+1)为1，根据最终W(t)结果判断当前t_i是否设置为checkpoint。

S22、若t_i为检查点，则将t_i保留在显存中，神经网络继续进行前向传播计算；否则将t_i插入到缓存队列L的队尾中，最终得到的队列L₁，L₂…L_k即非检查点的中间结果tensor输出的先后顺序。用单链表实现的队列来暂存非检查点的中间结果tensor，可利用队列先进先出的特点，入队直接插入，出队直接删除，且没有长度的限制不需担心溢出。

进一步的，所述步骤S3具体为：

S3、当DNN模型训练过程中显存使用达到阈值时，申请分配显存保存非检查点的中间结果tensor会失败，导致不能继续进行计算，依次将缓存队列L的队头L₁出队，将L₁所存放的非检查点的中间结果tensor释放换取显存，直到有足够的显存可以被分配给保存t_i，既可以避免多次计算选择tensor再进行释放，又可以避免释放的tensor很快又要被用来反向传播计算，因前向传播计算后期，若释放的为邻近的tensor，反向传播时很快又需要重新计算。

进一步的，所述步骤S4具体为：

S4、t₁作为第二层神经网络T₂的输入；再进行F₂(t₁)计算，得到第二个中间计算结果t₂；即第i次计算F_i(t_i-1)得到的输出结果为F_i+1(t_i)计算操作的输入，以此类推，重复S1-S3步骤，直到完成n次前向传播计算，神经网络前向传播计算时会同时进行n次检查点计算，总开销O_F为二者之和：其中O_i(t)为第i次前向传播计算的开销，O_w(t)为第i次检查点计算的开销；

进一步的，所述步骤S5具体为：

S5、前向传播计算完成后，开始反向传播来计算梯度，获取反向传播计算所需的前向传播的中间计算结果t_i-1、反向传播的中间计算结果/>为反向传播父操作/>的计算结果直接进行获取；检测t_i-1是否保存在显存中，若t_i-1在显存中直接获取，并进行下一步骤S7，否则进行步骤S6；

n层的DNN模型反向传播的简化过程表示为：

进一步的，所述步骤S6具体为：

S61、检测t_i-1前向传播的父操作F_i-1(t_i-2)重计算时所需的输入t_i-2是否在显存中；若在则重计算父操作输出结果t_i-1，并进行步骤S7；否则向前继续检测t_i-2的父操作，执行步骤S62；

S62、若t_i-1已被释放，继续向前检查父操作F_i-1(t_i-2)所需的输入t_i-2是否在显存中，若在则可完成重计算恢复t_i-1；若t_i-2也被释放，则需要t_i-2的父操作F_i-2(t_i-3)来重计算恢复结果t_i-2，依次类推，直到父操作的输入保留在显存中可重新计算得到输出结果；因为作为检查点的t_c是一定保留在显存中的，所以这里向前查找父操作的最长距离为t_i-1到最近的检查点的t_c距离，此时可用t_c作为父操作来再次前向传播，重计算恢复之前的一系列子操作，逐步计算输出中间结果t_c-1…t_i-3，t_i-2，t_i-1，直到得到中间结果t_i-1。

一种计算机设备，包括电连接的存储器和处理器，所述存储器上存储有可在处理器上运行的计算程序，所述处理器执行所述计算程序时，实现上述的基于DNN模型的检查点选择方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的基于DNN模型的检查点选择方法的步骤。

与现有技术相比，本发明至少具有以下有益的技术效果：

本方法通过在DNN模型训练时的前向传播过程中就动态的对中间计算结果进行分类，任意计算图的DNN模型可直接调用本方法进行训练，DNN模型前向传播时设置为检查点的中间计算结果可保留在显存中，其他的中间计算结果在显存溢出时进行释放，当显存使用达到阈值时，释放非检查点的中间结果换取显存，当反向传播需要使用非检查点结果时再通过重计算进行恢复。避免了因为网络复杂或batch size较大，而在显存中存储过多的中间变量导致的显存溢出或训练速度缓慢；通过检查点方法释放部分中间计算结果来换取显存，增大了训练时的batchsize，可在有限的显存阈值下使用更大的batch size来进行前向传播，从而提升模型训练速度和精度，提高了显存的利用率；且不需要一直记录所有中间计算结果的参数和特性，用来在显存溢出时再计算选择最优张量进行释放，节省了计算开销。

进一步的，DNN模型训练过程中显存使用达到阈值时，申请分配显存保存非检查点的中间结果tensor会失败，导致不能继续进行计算，依次将缓存队列L的队头出队，将队头所存放的非检查点的中间结果tensor释放换取显存，直到有足够的显存可以被分配给保存t_i，既可以避免多次计算选择tensor再进行释放，又可以避免释放的tensor很快又要被用来反向传播计算，因前向传播计算后期，若释放的为邻近的tensor，反向传播时很快又需要重新计算。

附图说明

图1是本发明中DNN模型结构的简化示意图；

图2是本发明应用架构图；

图3a是本发明前向传播具体实施流程图；

图3b是本发明反向传播具体实施流程图；

图4是本实施例中使用检查点恢复中间结果应用示意图；

图5是本实施例中缓存队列L_k应用示意图；

图6是实施本方法的ResNet模型训练的Batchsize对比图；

图7是实施本方法进行DNN模型训练的开销图；

图8本发明提供的计算机设备的结构示意图。

具体实施方式

下面将结合附图和实施例对本发明的技术方案进行清楚、完整地描述，以便本领域的技术人员更好的理解本发明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在附图中展示了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

实施例1

本发明针对现有技术中的上述缺陷或不足，提出一个基于DNN模型的检查点选择算法：首先简化DNN模型的训练由输入数据t₀、n层神经网络T₁…T_n，前向传播操作F₁…F_n、中间计算结果t₁…t_n、反向传播操作B_n…B₁组成，各神经网络层作为一个整体进行计算。在DNN模型训练的前向传播时就动态的选定一部分中间计算结果tensor为检查点保留在显存中；并将其余tensor插入到单链表缓存队列中，当显存使用达到阈值时，再动态地释放单链表缓存队列中的一些tensor来换取显存，直到显存低于阈值；当反向传播需要用到已释放的tensor时再利用检查点进行前向传播来重新计算；请参阅图2，本方法由C++代码实现，用PyTorch实现的DNN模型在GPU训练时的最小操作单元为缓冲区的视图tenosr，通过C++的智能指针shared_ptr<tensor>来管理和运算显存中的tensor，检查点的选择、显存的分配和释放、缓存队列的入队、出队等操作细节都封装在train_with_checkpoint()方法中，DNN模型训练时可直接调用，再通过train_after_checkpoint()方法返回训练结果。

参照图1，用Python代码实现的DNN模型通过调用本发明的train_with_checkpoint()方法进行训练，一种基于DNN模型的检查点选择方法，包括以下步骤：

S1、请参阅图2，在实验中，选择目前使用较多的几种主流DNN模型，如三种静态计算图DNN模型：ResNet、DenseNet、UNet，两种动态计算图DNN模型：LSTM、TreeLSTM，通过train_with_checkpoint()方法方法在NVIDIA Titan V GPU(CUDA 10.1，CuDNN 7.6.4，12GB)上进行训练，各模型M_i具体参数如表1所示，：

表1

S2、请参阅图3a，表1中的模型M_i进行前向传播时的具体步骤如下：

S21、首先初始化DNN模型M_i的网络参数和导入训练数据；

S22、根据当前网络层T_i的输入t_i-1进行前向传播计算F_i(t_i-1)，输出中间计算结果t_i，并向GPU申请分配显存保存t_i；

S23、用track(t_i)方法通过显存指针跟踪获取前向传播中T_i网络层的类型C(t_i)、网络层深度D(t_i)；以及前向传播得到t_i的计算开销O(t_i)、t_i所占用显存M(t_i)和前一个中间计算结果t_i-1是否为检查点的状态P(t_i-1)，计算出当前t_i的权重W(t_i)；最后结合当前设置的显存阈值B及t_i的权重W(t_i)动态的设置t_i是否为检查点；

S24、参阅图5的单链表队列示意图，若t_i为检查点，则将t_i保留在显存中，神经网络继续进行前向传播计算；否则将t_i插入到缓存队列L的队尾中，最终得到的队列L₁，L₂…L_k即非检查点的中间结果tensor输出的先后顺序；

S25、当DNN模型训练过程中显存使用达到阈值时，申请分配显存保存计算结果tensor会失败，导致不能继续进行计算，依次将缓存队列L的队头L₁出队，将L₁所存放的中间结果tensor释放换取显存，直到有足够的显存可以被用来分配给保存t_i，；

S26、t₁作为第二层神经网络T₂的输入；再进行F₂(t₁)计算，得到第二个中间计算结果t₂；即第i次计算F_i(t_i-1)得到的输出结果为F_i+1(t_i)计算操作的输入，以此类推，重复S1-S3步骤，直到完成n次前向传播计算；

S3、请参阅图3b，表1中的模型M_i通过本方法进行反向传播时的具体步骤如下：

S31、获取反向传播计算所需的前向传播的中间计算结果t_i-1、反向传播的中间计算结果/>为反向传播父操作/>的计算结果直接进行获取；检测t_i-1是否保存在显存中，若t_i-1在显存中直接获取，并进行步骤S33，否则进行步骤S32；

S32、检测t_i-1前向传播的父操作F_i-1(t_i-2)重计算时所需的输入t_i-2是否在显存中：

若在，则重计算父操作输出结果t_i-1，并进行步骤S33；

否则，向前继续检测t_i-2的父操作，参阅图4，实线的节点为保留在显存中的中间计算结果tensor，虚线的节点为已释放的中间计算结果tensor，点状线的为当前正在计算结果tensor；若t_i-1已被释放，继续向前检查父操作F_i-1(t_i-2)所需的输入t_i-2是否在显存中，若在则可完成重计算恢复t_i-1；若t_i-2也被释放，则需要t_i-2的父操作F_i-2(t_i-3)来重计算恢复结果t_i-2，依次类推，直到父操作的输入保留在显存中可重新计算得到输出结果；因为作为检查点的t_c是一定保留在显存中的，所以这里向前查找父操作的最长距离为t_i-1到最近的检查点的t_c距离，此时可用t_c作为父操作来再次前向传播，重计算恢复之前的一系列子操作，逐步计算输出中间结果t_c-1…t_i-3，t_i-2，t_i-1，直到得到中间结果t_i-1；

S33、根据获取的前向传播的中间计算结果t_i-1、反向传播中父操作的中间计算结果进行反向传播/>计算，输出中间计算结果/>向GPU申请分配显存保存/>并直接释放反向传播中父操作的中间计算结果/>

S34、当反向传播时因GPU显存使用达到阈值，而不能为保存分配足够的显存时，将缓存队列L的队头L₁出队，释放该tensor换取显存，直到有足够的显存可以被申请来保存中间计算结果/>

S35、作为反向传播/>的输入继续重复步骤S5-S8进行反向传播，直到n次的/>反向传播/>计算完成；

S4、将训练日志用json格式保存，并用编写的train_after_checkpoint()方法返回，DNN模型训练结束。

参阅图6，用ResNet模型来不断增加batch size大小进行验证，在12GB的显存阈值下，不断增加batch size大小，对比观察训练结果可以看到：普通的PyTorch实现的DNN模型，训练最大可处理的batch size为64个样本，超过就会导致显存溢出OOM，训练过程被中断；而通过本方法训练的DNN模型，一次最多可处理的batch size为180个样本。

参阅图7，对比观察表1中五种DNN模型：ResNet、DenseNet、UNet、LSTM、TreeLSTM使用本发明的训练开销，即图7中的实线部分，可以看到使用本方法进行DNN模型训练的开销，相比于未使用算法的DNN模型训练的Base开销，即图7中的虚线部分；将额外的计算开销控制在原开销的30％左右，较之前的DTR算法带来的平均50％左右的额外开销，减少了20％左右；因此，使用本方法进行训练，模型M_i在一定的显存阈值下平均可实现batch size 3倍大小的提升，换算成模型大小，在相同的显存阈值及Batch size大小情况下，可训练增大近5倍的模型，避免了显存溢出的情况，对比其他算法减少了额外计算开销，提高了显存利用率。

实施例2

本发明提供的一种计算机设备，如图8所示，包括电连接的存储器和处理器，其中，存储器上存储有可在处理器上运行的计算程序，所述处理器执行所述计算程序时，实现上述的基于DNN模型的检查点选择方法的步骤。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificlntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述上述的基于DNN模型的检查点选择方法。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

实施例3

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

尽管上面对本发明的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，以上内容仅为说明本发明的技术思想，并不构成对本发明保护范围的限定。凡是根据本发明的技术构思所做出的各种改变与变形，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于DNN模型的检查点选择方法，其特征在于，包括以下步骤：

S1、根据当前网络层T_i的输入t_i-1进行前向传播计算F_i(t_i-1)，输出中间计算结果t_i，并向GPU申请分配显存保存中间计算结果t_i；i＝1，2，......，n；n为DNN模型的层数；

若是，则将t_i保留在显存中；

否则，将t_i依次插入到缓存队列L的队尾；

S3、当前向传播时，不能为保存t_i分配足够的显存时，将缓存队列L的队头出队，释放该非检查点的中间结果tensor换取显存，直到有足够的显存可以被申请来保存t_i；

S4、将T_i层输出的中间计算结果t_i作为T_i+1层的输入，重复步骤S1-S3，直到进行T₁…T_n的前向传播计算F_i(t_i-1)；

S5、获取反向传播计算所需的前向传播的中间计算结果t_i-1和反向传播的中间计算结果/>检测t_i-1是否保存在显存中：若t_i-1在显存中，则直接获取，并进行步骤S7；否则进行步骤S6；

若在，则计算父操作输出结果t_i-1，并进行步骤S7；

否则，向前继续检测t_i-2的父操作，以此类推，直到检测到父操作所需的输入在显存中，通过前向传播来重计算恢复输出结果t_i-1，并向GPU申请分配显存保存t_i-1；

S8、当GPU显存不能为保存分配足够的显存时，将缓存队列L的队头出队，释放该tensor换取显存，直到有足够的显存可以被申请来保存/>

S9、作为反向传播/>的输入继续重复S5-S8步骤进行反向传播，直到n次的反向传播/>计算完成；

S10、保存训练模型和训练日志，DNN模型训练结束。

2.根据权利要求1所述的一种基于DNN模型的检查点选择方法，其特征在于，所述S2包括以下步骤：

S21、获取前向传播中网络层T_i的类型、网络层深度；计算t_i的计算开销、t_i所占用显存大小和t_i的前一个中间计算结果t_i-1是否为检查点的状态，计算当前t_i的权重；最后结合当前设置的显存阈值及t_i的权重动态的设置检查点，平衡显存占用和重计算开销；

S22、若t_i为检查点，则将t_i保留在显存中，神经网络继续进行前向传播计算；否则，将t_i插入到缓存队列的队尾中，最终得到的队列即非检查点的中间结果tensor输出的先后顺序。

3.根据权利要求2所述的一种基于DNN模型的检查点选择方法，其特征在于，所述步骤S21中，通过显存指针跟踪获取前向传播中网络层T_i的类型和网络层深度。

4.根据权利要求2所述的一种基于DNN模型的检查点选择方法，其特征在于，所述步骤S21中，由下式判断中间计算结果t_i是否为检查点：

其中，C(t_i)代表不同的网络层类型对应的默认参数值；D(t_i)为网络层深度，P(t_i)代表中间计算结果t_i是否为检查点，W(t_i)为当前t_i的权重，B为设置的显存阈值。

5.根据权利要求4所述的一种基于DNN模型的检查点选择方法，其特征在于，所述步骤S21中，P(t_i-1)代表中间计算结果t_i-1是否为检查点的状态，C(t_i)为网络层类型对应的默认参数值，O(t_i)为通过前向传播得到t_i的计算开销，W(t_i)为当前t_i的权重，M(t_i)为t_i所占用显存大小。

6.根据权利要求1所述的一种基于DNN模型的检查点选择方法，其特征在于，进一步的，所述步骤S4具体为：t₁作为第二层神经网络T₂的输入；再进行F₂(t₁)计算，得到第二个中间计算结果t₂；即第i次计算F_i(t_i-1)得到的输出结果为F_i+1(t_i)计算操作的输入，以此类推，重复S1-S3步骤，直到完成n次前向传播计算，神经网络前向传播计算时同时进行n次检查点计算。

7.根据权利要求1所述的一种基于DNN模型的检查点选择方法，其特征在于，所述步骤S6包括以下步骤：

S61、检测t_i-1前向传播的父操作F_i-1(t_i-2)重计算时所需的输入t_i-2是否在显存中：

若在，则重计算父操作输出结果t_i-1，并进行步骤S7；

否则，向前继续检测t_i-2的父操作，执行步骤S62；

S62、判断t_i-1是否在显存中：

若t_i-1不在显存中，继续向前检查父操作F_i-1(t_i-2)所需的输入t_i-2是否在显存中；

若在显存中，则完成重计算恢复t_i-1；否则，判断t_i-2是否在显存中，若t_i-2也被释放不在显存中，则用t_i-2的父操作F_i-2(t_i-3)来重计算恢复结果t_i-2，依次类推，直到父操作的输入保留在显存中重新计算得到输出结果；因为作为检查点的t_c是一定保留在显存中的，所以这里向前查找父操作的最长距离为t_i-1到最近的检查点的t_c距离，此时可用t_c作为父操作来再次前向传播，重计算恢复之前的一系列子操作，逐步计算输出中间结果t_c-1…t_i-3，t_i-2，t_i-1。

8.根据权利要求1所述的一种基于DNN模型的检查点选择方法，其特征在于，所述步骤S10完成后，保存训练日志。

9.一种计算机设备，其特征在于，包括电连接的存储器和处理器，所述存储器上存储有可在处理器上运行的计算程序，所述处理器执行所述计算程序时，实现权利要求1-8中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法的步骤。