CN110688327B

CN110688327B - 显存管理方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN110688327B
Application number: CN201910952043.2A
Authority: CN
Inventors: 郭越; 王桂彬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-12-01
Anticipated expiration: 2039-09-30
Also published as: CN110688327A

Abstract

本申请公开了装置、电子设备和计算机可读存储介质，涉及模型训练领域。具体实现方案为：在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块；在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块；其中，第一显存空间与第二显存空间在显存池中不具有重叠区域；第一类信息占用的显存块能够被回收，第二类信息占用的显存块不能被回收。通过将可回收显存块和不可回收显存块存放在不同的显存空间，可以避免产生分散的显存碎片，进而达到可以充分利用显存资源的效果。

Description

显存管理方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及一种数据处理领域，尤其涉及一种模型训练领域。

背景技术

随着人工智能技术的不断成熟和推广，人工智能的应用逐渐渗入当今社会的各个领域场景。语音识别领域的语音助手，计算机视觉应用中的人脸识别，自然语言处理的机器翻译等多方面给我们带来便利，这依靠的是深度学习技术。深度学习的过程将大规模的数据在多层神经网络上不断的训练，从多层的训练中不断得到抽象程度更高的数据特征，便于复杂问题的解决。专用图形处理器(Graphics Processing Unit,GPU)是当前深度学习平台主要依托的计算单元。在GPU上训练深度学习模型是深度学习技术的支撑。为了达到更高的模型精度，深度学习的数据规模不断扩大、模型的复杂性和模型深度也在持续增加，但现有GPU显存资源限制成为进一步训练大规模任务的瓶颈。因此，有限的GPU显存空间与不断增长的模型复杂度之间的差距使显存优化成为必然。目前，显存优化的一种做法是在模型训练过程中，回收不需要使用的显存块。显存块的回收会产生显存碎片，导致显存资源得不到充分的利用。

发明内容

本申请实施例提供一种显存管理方法、装置、电子设备和计算机可读存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种显存管理方法，包括：

在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块；

在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块；

其中，第一显存空间与第二显存空间在显存池中不具有重叠区域；第一类信息占用的显存块能够被回收，第二类信息占用的显存块不能被回收。

上述技术方案，显存池包括第一显存空间和第二显存空间，第一显存空间和第二显存空间互相独立，在显存池中不具有重叠区域。第一显存空间的显存块分配给神经网络模型中的第一类信息，可以被回收。第二显存空间的显存块分配给神经网络模型中的第二类信息，不会被回收。通过将可回收显存块和不可回收显存块存放在不同的显存空间，可以避免产生分散的显存碎片，进而达到可以充分利用显存资源的效果。

在一种实施方式中，该方法还包括：

在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间。

上述技术方案，可回收显存块的分配和回收发生在独立出来的第一显存空间中，使得对于神经网络模型的多次显存分配需求，显存池都可以提供连续的较大的显存块，避免产生显存碎片，达到充分利用显存资源的效果。

在一种实施方式中，第一显存空间包括第一队列和第二队列，第二显存空间包括第三队列和第四队列；

第一类信息包括在神经网络模型训练前能够计算出显存占用量的第一显存占用信息和在神经网络模型训练前不能计算出显存占用量的第二显存占用信息；第二类信息包括在神经网络模型训练前能够计算出显存占用量的第三显存占用信息和在神经网络模型训练前不能计算出显存占用量的第四显存占用信息；

在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块，包括：

在神经网络模型训练前，在第一队列中，为第一显存占用信息分配显存块；

在神经网络模型训练时，在第二队列中，为第二显存占用信息分配显存块；

在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块，包括：

在神经网络模型训练前，在第三队列中，为第三显存占用信息分配显存块；

在神经网络模型训练时，在第四队列中，为第四显存占用信息分配显存块。

上述技术方案，根据在模型训练前是否能够计算出显存占用量，以及，占用显存块后该显存块能否被回收，来对神经网络模型中的各种信息进行显存分配。通过上述技术方案，可以提前为可预知显存占用量的第一显存占用信息和第三显存占用信息分配显存块，在模型训练时动态为不可预知显存占用量的第二显存占用信息和第四显存占用信息分配显存块。且可回收显存块和不可回收显存块也分开分配。各种显存占用信息的显存块分配是在专用的队列中进行的，提高显存分配效率且避免了产生显存碎片。

在一种实施方式中，在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间，包括：

在神经网络模型的反向计算结束时，将分配给第一显存占用信息的显存块回收到第一队列，将分配给第二显存占用信息的显存块回收到第二队列。

上述技术方案，在神经网络模型的反向计算结束时，所有网络节点的可回收显存块均可被回收，采用一次性回收整队列的方式回收显存块。减少了多次回收显存块造成的额外开销，且对于后续的显存块分配，第一队列和第二队列也可以提供连续的较大的显存块，避免显存碎片。

在一种实施方式中，第一显存占用信息包括神经网络模型反向计算时神经网络层的权重梯度信息；

第二显存占用信息包括神经网络模型前向计算时神经网络层的输入信息和输出信息；

第三显存占用信息包括神经网络模型的权重信息，和/或，神经网络模型优化器计算时的中间变量；

第四显存占用信息包括长短期记忆网络的历史信息，和/或，循环神经网络的历史信息。

上述技术方案，根据各种显存占用信息在神经网络模型训练时的显存占用属性，合理地划分显存占用信息的类型，有利于在对显存块分队列分配和回收时，提高效率和显存资源利用率。

在一种实施方式中，该方法包括：

调用显存分配函数，向驱动程序请求获取显存池；

将显存池划分为第一显存空间和第二显存空间。

上述技术方案，调用显存分配函数，向驱动程序获取显存池，将显存池划分为第一显存空间和第二显存空间。然后每次分配显存块都可以按照显存块是否可回收，分别在第一显存空间和第二显存空间中进行，而不用频繁调用显存分配函数。从而在模型训练全过程中，仅需调用一次显存分配函数，大大提升模型训练速度。

在一种实施方式中，第一显存空间的显存块的地址信息是连续的，第二显存空间的显存块的地址信息是连续的。

上述技术方案，第一显存空间和第二显存空间各自的显存块都是地址连续的，可回收显存块和不可回收显存块分别存放于整齐划一的分区，可以有效避免显存碎片。

第二方面，本申请实施例提供了一种显存管理装置，包括：

第一分配模块，用于在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块；

第二分配模块，用于在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块；

在一种实施方式中，该装置包括：

回收模块，用于在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间。

第一分配模块，包括：

第一显存块分配单元，用于在神经网络模型训练前，在第一队列中，为第一显存占用信息分配显存块；

第二显存块分配单元，用于在神经网络模型训练时，在第二队列中，为第二显存占用信息分配显存块；

第二分配模块，包括：

第三显存块分配单元，用于在神经网络模型训练前，在第三队列中，为第三显存占用信息分配显存块；

第四显存块分配单元，用于在神经网络模型训练时，在第四队列中，为第四显存占用信息分配显存块。

在一种实施方式中，回收模块包括：

显存块回收单元，用于在神经网络模型的反向计算结束时，将分配给第一显存占用信息的显存块回收到第一队列，将分配给第二显存占用信息的显存块回收到第二队列。

第三方面，本申请实施例还提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够本申请任意实施例提供的方法。

第四方面，本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意实施例提供的方法。

上述申请中的一个实施例具有如下优点或有益效果：显存池包括第一显存空间和第二显存空间，第一显存空间和第二显存空间互相独立，在显存池中不具有重叠区域。第一显存空间的显存块分配给神经网络模型中的第一类信息，可以被回收。第二显存空间的显存块分配给神经网络模型中的第二类信息，不会被回收。通过将可回收显存块和不可回收显存块存放在不同的显存空间，可以避免产生分散的显存碎片，进而达到可以充分利用显存资源的效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是显存占用信息的示意图；

图2是显存碎片的示意图；

图3是根据本申请第一实施例的示意图；

图4是根据本申请第二实施例的示意图；

图5是根据本申请第三实施例的示意图；

图6是根据本申请实施例的显存回收示意图；

图7是根据本申请第四实施例的示意图；

图8是根据本申请第五实施例的示意图；

图9是根据本申请第六实施例的示意图；

图10是用来实现本申请实施例的显存管理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

神经网络模型训练过程中，有多种信息会占用显存。本申请实施例中，显存占用信息可以包括神经网络模型中的任意占用显存的信息。图1示出了多种显存占用信息的示例。这些显存占用信息包括：

(1)神经网络模型的权重信息(Weight，简称w)。

(2)神经网络模型中各个有参数的神经网络层中的参数，如卷积层参数。

(3)神经网络模型在前向(Forward)计算时产生的中间参数，包括计算时在每一神经网络层的输入信息和输出信息。

(4)在反向(Backward)计算时每一神经网络层的中间误差信息(简称diff)，和每一神经网络层的权重梯度信息(Delta Weight，简称dw)。

此外，神经网络模型优化器也占用一部分显存，复杂的优化器如果在计算时需要的中间变量(Medium Delta Weight，简称mdw)多的时候，就会占用更多的显存资源。因此，有限的GPU显存并不满足较为复杂的较深的模型训练需求。

若将一次前向计算和反向计算迭代看做一个周期，那么在整个周期中不是所有的信息都需要保存的。如反向计算中得到每一层的权重梯度信息后，神经网络层前向的输入信息占用的显存块和输出信息占用的显存块就可以被释放。更新权重信息之后，权重梯度信息占用的显存块就可以被释放。因此，神经网络模型中有些信息只有在计算时才必须占用显存块，不再使用时便可以释放。

显存优化的思想，是共享显存资源。对于神经网络模型中一次迭代之后，不需要保留的信息占用的显存块就可以被回收，预留显存空间为第二次迭代分配显存。由于需要频繁的分配和回收显存，因此需要提高分配和回收效率。对于GPU来说，如果开辟显存直接调用运算平台的显存分配函数(例如cudaMalloc函数)，释放时调用显存回收函数(例如cudaFree函数)，则训练速度将会因为频繁调用的开销而大大降低。为了避免每次训练重新开辟显存带来计算之外的开销，一般训练框架(如Caffe等平台)在真正的训练任务开始前，根据模型每个节点的输入、输出和模型参数的shape(维度信息)计算显存大小，调用显存分配函数向GPU driver(驱动程序)请求获取显存，以实现全局开辟一次显存。随着深度学习模型的发展和迭代，不仅模型训练的数据维度信息可能发生变化，模型本身在训练过程中也可能发生变化，按照固定的维度信息一次开辟显存的做法不能满足需求。

为解决以上问题，当前主流的开源深度学习平台，如TensorFlow和Pytorch等，设计了较为灵活的显存管理机制。一次性调用显存分配函数开辟显存，配置成显存池。每次分配显存块从显存池中获取，而不再采用调用cudaMalloc向GPU driver请求分配的方式，训练时减少了调用cudaMalloc接口的开销。回收时将显存块重新挂到显存池中，此时并没有把显存块归还给GPU dirver。通过显存托管动态调用的方式，可以避免频繁的cudaMalloc/cudaFree函数调用造成的额外开销。不足之处在于，对于可回收的显存块会多次分配和回收，并造成部分显存碎片。如图2所示，显存分配时将显存池中的显存块分配给各类显存占用信息，例如输入输出信息IO、权重信息w、优化器在计算时的中间变量mdw、反向计算时每一层的权重梯度信息dw。其中，权重信息w和优化器在计算时的中间变量mdw需要一直占用显存，因此，分配给w和mdw的显存块不会被回收。由于分配给w和mdw的显存块占用了固定的显存空间，当把其他显存占用信息占用的显存块回收回来的时候，显存池中的可分配显存会被w和mdw占用的显存块切割为不同大小的碎片。在下一次分配显存块时，由于碎片大小有限，不能保证碎片能够被利用起来，显存利用率低下。

本申请实施例提出的显存管理方法，可以对具有不同属性的几种显存占用信息，在显存池中分配不同的队列。在一些实施例中，对于可回收的显存块合并一次回收，对于层数较多、较复杂的网络可以避免多次回收导致的开销。此外，按显存占用信息的属性，分类进行分配和回收，也有效的避免了显存碎片，节约显存。将具有同种属性的显存占用信息的显存块连续存放在一起，有助于改进清零等操作的执行效率。本申请实施例可以应用在语音识别等其他领域的深度学习平台。

作为示例性的实施方式，参见图3，本申请实施例提供一种显存管理方法，包括：

步骤S301、在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块；

步骤S302、在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块。

其中，第一显存空间与第二显存空间在显存池中不具有重叠区域，第一类信息占用的显存块能够被回收，第二类信息占用的显存块不能被回收。

在神经网络模型训练的整个过程中，会产生一些信息是不需要保存的，其占用显存块后该显存块可以被回收。例如，反向计算中得到神经网络层的权重梯度信息后，该神经网络层前向的输入信息和输出信息的显存块就可以被释放。第一类信息可以包括前向计算时神经网络层的输入信息和输出信息。此外，有些信息可以模型训练过程中一直需要占用显存块，例如神经网络模型的权重信息和神经网络模型优化器计算时的中间变量。第二类信息可以包括神经网络模型的权重信息和神经网络模型优化器计算时的中间变量。

由于第一显存空间与第二显存空间不具有重叠区域，因此，第一显存空间和第二显存空间是相互独立的，各自包括不同的显存块。第一类信息占用的显存块能够被回收，第二类信息占用的显存块不能被回收，而这两类信息的显存块是在不同的显存空间中分配的。因此，第二类信息在占用第二显存空间的显存块后，不会对第一显存空间进行切割。可以在第一显存空间中灵活地多次分配和回收显存块。通过可回收显存块和不可回收显存块的分开存放，避免产生显存碎片，充分利用显存资源。

在一些实施方式中，参见图4，显存管理方法可以包括：

步骤S401、在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间。

示例性地，第一类信息的显存分配需求更新，可以包括第一类信息不需要占用显存了。例如，反向计算中得到神经网络层的权重梯度信息后，不需要再保存该神经网络层前向的输入信息和输出信息的显存块，神经网络层前向的输入信息和输出信息不需要占用显存。第一类信息的显存分配需求更新，也可以包括第一类信息需要的显存大小发生变化。例如，每一次反向计算过程中，需要重新计算神经网络层的权重梯度信息，其占用的显存块大小会变化，可以先回收至第一显存空间，在下次反向计算时再分配。

在第一类信息的显存分配需求更新的情况下，可以在显存分配需求更新即回收分配给第一类信息的显存块，也可以在预设的时间节点回收分配给第一类信息的显存块。

作为一种示例，第一显存空间的显存块的地址信息可以是连续的，第二显存空间的显存块的地址信息也可以是连续的。显存空间内的显存块的地址信息连续，可以在有限的显存空间内最大程度地提供连续显存块。这样，可回收显存块和不可回收显存块分别存放于整齐划一的分区，可以更有效地避免显存碎片。

作为一种示例性实施例，参见图5，本申请实施例提供的显存管理方法可以包括：

步骤S501、调用显存分配函数，向驱动程序请求获取显存池；

步骤S502、将显存池划分为第一显存空间和第二显存空间。

上述技术方案，调用显存分配函数，向驱动程序获取显存池，将显存池划分为第一显存空间和第二显存空间。之后每次分配显存块都可以按照显存块是否可回收，分别在第一显存空间和第二显存空间中进行，而不用频繁调用显存分配函数。由于在模型训练过程中，仅在请求获取显存池时调用显存分配函数，大大提升模型训练速度。示例性地，显存分配函数可以包括cudaMalloc函数，驱动程序是专用图形处理器GPU的驱动程序。

作为示例性实施方式中，第一显存空间包括第一队列和第二队列，第二显存空间包括第三队列和第四队列。第一类信息包括在神经网络模型训练前能够计算出显存占用量的第一显存占用信息和在神经网络模型训练前不能计算出显存占用量的第二显存占用信息；第二类信息包括在神经网络模型训练前能够计算出显存占用量的第三显存占用信息和在神经网络模型训练前不能计算出显存占用量的第四显存占用信息。示例性地，显存占用量可以根据各种信息的维度信息(shape)计算。

在示例性实施方式中，根据在模型训练前是否能够计算出显存占用量，以及，占用显存块后该显存块能否被回收，神经网络模型中的各种信息可以包括第一显存占用信息、第二显存占用信息、第三显存占用信息和第四显存占用信息。

步骤S301、在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块，可以包括：

在神经网络模型训练前，在第一队列中，为第一显存占用信息分配显存块；示例性地，根据在训练前计算出来的第一显存占用信息的显存占用量，为第一显存占用信息分配对应大小的显存块；

在神经网络模型训练时，在第二队列中，为第二显存占用信息分配显存块；示例性地，依次为计算出显存占用量的第二显存占用信息分配对应大小的显存块。

步骤S302、在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块，可以包括：

在神经网络模型训练前，在第三队列中，为第三显存占用信息分配显存块；示例性地，根据在训练前计算出来的第三显存占用信息的显存占用量，为第三显存占用信息分配对应大小的显存块；

在神经网络模型训练时，在第四队列中，为第四显存占用信息分配显存块；示例性地，依次为计算出显存占用量的第四显存占用信息分配对应大小的显存块。

作为一种示例，在上述为显存占用信息分配对应队列的显存块的过程中，可以依次为同种显存占用信息在同一队列中分配地址连续的显存块。以减少显存碎片，提高显存利用率。

示例性地，在前向计算之前，就可以确定模型中每一个节点的权重w、网络中每个节点的反向计算时神经网络层的权重梯度信息dw，以及神经网络模型优化器计算时的中间变量mdw所需的显存占用量。因此，w、dw、mdw的属性之一是在模型训练前能够计算出显存占用量。但对于每一次反向计算过程中，dw都需要重新计算，因此dw占用的显存块需要被回收，而w和mdw都不需要被回收。因此，第一显存占用信息可以包括神经网络模型反向计算时神经网络层的权重梯度信息dw，第三显存信息可以包括神经网络模型的权重信息w，和/或，神经网络模型优化器计算时的中间变量mdw。

对于神经网络层的输入信息和输出信息IO，在每次前向反向计算前，其显存占用量是未知的，是在模型训练运行时才可以确定的，并且每次前向反向计算之后都被回收。因此，第二显存占用信息可以包括神经网络模型前向计算时神经网络层的输入信息和输出信息IO。

此外，在神经网络模型中仍然不能在训练前计算出显存占用量且占用显存块后不可回收的信息，如长短期记忆网络(Long Short-Term Memory，简称LSTM)或者循环神经网络(Recurrent Neural Network，简称RNN)所记忆的历史信息。因此，第四显存占用信息可以包括LSTM或RNN的历史信息。

作为示例性的实施方式，步骤S401、在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间，可以包括：

在深度学习的训练中，可以认为每次前向计算和反向计算为一个重新分配和回收显存的周期。每一次前向计算都需要权重信息w和输入输出信息IO的参与，接着每一次反向计算结束之后都需要通过反向计算得到的神经网络层的权重梯度信息dw信息来更新权重信息w和优化器计算时的中间变量，从而开始下一次的前向的训练。每个网络节点的部分显存块都可以在该节点反向计算结束之后被回收，如权重梯度信息dw，在更新完权重信息w之后就会被回收。但是深度学习网络非常庞大，多个网络节点会造成多次频繁的回收。在上述示例性实施方式中，是在神经网络模型中一次反向计算结束之后，所有网络节点反向计算都结束，一次性回收整队列。该方式只需要一次回收，避免了多次回收造成的额外开销，对于较深的网络(较多的网络节点)模型具有明显的优势。

参见图6，本申请实施例按照队列分配和回收的方式，在完成多次分配和回收后，对于后续分配，仍可以提供连续的较大的显存块，避免显存碎片，也减少多次回收的开销。

综上，本申请实施例提供的显存管理方法，显存池包括第一显存空间和第二显存空间，第一显存空间和第二显存空间互相独立，在显存池中不具有重叠区域。第一显存空间的显存块分配给神经网络模型中的第一类信息，可以被回收。第二显存空间的显存块分配给神经网络模型中的第二类信息，不会被回收。通过将可回收显存块和不可回收显存块存放在不同的显存空间，可以避免产生显存碎片，进而达到可以充分利用显存资源的效果。

参见图7，本申请实施例提供了一种显存管理装置700，包括：

第一分配模块701，用于在显存池的第一显存空间中，为神经网络模型的第一类信息分配显存块；

第二分配模块702，用于在显存池的第二显存空间中，为神经网络模型的第二类信息分配显存块；

在一种实施方式中，如图8所示，显存管理装置700还包括：

回收模块703，用于在第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至第一显存空间。

第一分配模块701，包括：

第二分配模块702，包括：

在一种实施方式中，回收模块703包括：

在一种实施方式中，如图9所示，显存管理装置700包括：

请求模块901，用于调用显存分配函数，向驱动程序请求获取显存池；

划分模块902，用于将显存池划分为第一显存空间和第二显存空间。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的显存管理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的显存管理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的显存管理方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的显存管理方法对应的程序指令/模块(例如，附图7所示的第一分配模块701和第二分配模块702)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的显存管理方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据显存管理电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至显存管理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显存管理方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与显存管理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Cr10stal Displa10，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，显存池包括第一显存空间和第二显存空间，第一显存空间和第二显存空间互相独立，在显存池中不具有重叠区域。第一显存空间的显存块分配给神经网络模型中的第一类信息，可以被回收。第二显存空间的显存块分配给神经网络模型中的第二类信息，不会被回收。通过将可回收显存块和不可回收显存块存放在不同的显存空间，可以避免产生显存碎片，进而达到可以充分利用显存资源的效果。

在一种实施方式中，可回收显存块的分配和回收发生在独立出来的第一显存空间中，使得对于神经网络模型的多次显存分配需求，显存池都可以提供连续的较大的显存块，避免产生显存碎片，达到充分利用显存资源的效果。

在一种实施方式中，根据在模型训练前是否能够计算出显存占用量，以及，占用显存块后该显存块能否被回收，来对神经网络模型中的各种信息进行显存分配。通过上述技术方案，可以提前为可预知显存占用量的第一显存占用信息和第三显存占用信息分配显存块，在模型训练时动态为不可预知显存占用量的第二显存占用信息和第四显存占用信息分配显存块。且可回收显存块和不可回收显存块也分开分配。各种显存占用信息的显存块分配是在专用的队列中进行的，提高显存分配效率且避免了产生显存碎片。

在一种实施方式中，在神经网络模型的反向计算结束时，所有网络节点的可回收显存块均可被回收，采用一次性回收整队列的方式回收显存块。减少了多次回收显存块造成的额外开销，且对于后续的显存块分配，第一队列和第二队列也可以提供连续的较大的显存块，避免显存碎片。

在一种实施方式中，根据各种显存占用信息在神经网络模型训练时的显存占用属性，合理地划分显存占用信息的类型，有利于在对显存块分队列分配和回收时，提高效率和显存资源利用率。

在一种实施方式中，调用显存分配函数，向驱动程序获取显存池，将显存池划分为第一显存空间和第二显存空间。然后每次分配显存块都可以按照显存块是否可回收，分别在第一显存空间和第二显存空间中进行，而不用频繁调用显存分配函数。从而在模型训练全过程中，仅需调用一次显存分配函数，大大提升模型训练速度。

在一种实施方式中，第一显存空间和第二显存空间各自的显存块都是地址连续的，可回收显存块和不可回收显存块分别存放于整齐划一的分区，可以有效避免显存碎片。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种显存管理方法，其特征在于，包括：

在所述显存池的第二显存空间中，为所述神经网络模型的第二类信息分配显存块；

其中，所述第一显存空间与所述第二显存空间在所述显存池中不具有重叠区域；所述第一类信息占用的显存块能够被回收，所述第二类信息占用的显存块不能被回收；每次分配显存块都按照显存块是否可回收，分别在所述第一显存空间和所述第二显存空间中进行。

2.根据权利要求1所述的方法，其特征在于，还包括：

在所述第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至所述第一显存空间。

3.根据权利要求2所述的方法，其特征在于，所述第一显存空间包括第一队列和第二队列，所述第二显存空间包括第三队列和第四队列；

所述第一类信息包括在神经网络模型训练前能够计算出显存占用量的第一显存占用信息和在神经网络模型训练前不能计算出显存占用量的第二显存占用信息；所述第二类信息包括在神经网络模型训练前能够计算出显存占用量的第三显存占用信息和在神经网络模型训练前不能计算出显存占用量的第四显存占用信息；

在神经网络模型训练前，在所述第一队列中，为所述第一显存占用信息分配显存块；

在神经网络模型训练时，在所述第二队列中，为所述第二显存占用信息分配显存块；

在所述显存池的第二显存空间中，为所述神经网络模型的第二类信息分配显存块，包括：

在神经网络模型训练前，在所述第三队列中，为所述第三显存占用信息分配显存块；

在神经网络模型训练时，在所述第四队列中，为所述第四显存占用信息分配显存块。

4.根据权利要求3所述的方法，其特征在于，在所述第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至所述第一显存空间，包括：

5.根据权利要求3所述的方法，其特征在于，所述第一显存占用信息包括神经网络模型反向计算时神经网络层的权重梯度信息；

所述第二显存占用信息包括神经网络模型前向计算时神经网络层的输入信息和输出信息；

所述第三显存占用信息包括神经网络模型的权重信息，和/或，神经网络模型优化器计算时的中间变量；

所述第四显存占用信息包括长短期记忆网络的历史信息，和/或，循环神经网络的历史信息。

6.根据权利要求1所述的方法，其特征在于，包括：

调用显存分配函数，向驱动程序请求获取显存池；

将所述显存池划分为第一显存空间和第二显存空间。

7.根据权利要求1所述的方法，其特征在于，所述第一显存空间的显存块的地址信息是连续的，所述第二显存空间的显存块的地址信息是连续的。

8.一种显存管理装置，其特征在于，包括：

第二分配模块，用于在所述显存池的第二显存空间中，为所述神经网络模型的第二类信息分配显存块；

9.根据权利要求8所述的装置，其特征在于，包括：

回收模块，用于在所述第一类信息的显存分配需求更新的情况下，将分配给第一类信息的显存块回收至所述第一显存空间。

10.根据权利要求9所述的装置，其特征在于，所述第一显存空间包括第一队列和第二队列，所述第二显存空间包括第三队列和第四队列；

所述第一分配模块，包括：

第一显存块分配单元，用于在神经网络模型训练前，在所述第一队列中，为所述第一显存占用信息分配显存块；

第二显存块分配单元，用于在神经网络模型训练时，在所述第二队列中，为所述第二显存占用信息分配显存块；

所述第二分配模块，包括：

第三显存块分配单元，用于在神经网络模型训练前，在所述第三队列中，为所述第三显存占用信息分配显存块；

第四显存块分配单元，用于在神经网络模型训练时，在所述第四队列中，为所述第四显存占用信息分配显存块。

11.根据权利要求10所述的装置，其特征在于，所述回收模块包括：

12.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。