CN115965070A

CN115965070A - 计算图处理方法、装置、设备、存储介质以及程序产品

Info

Publication number: CN115965070A
Application number: CN202211416815.9A
Authority: CN
Inventors: 梁建中; 赵英利; 曹州; 敖玉龙; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-04-14
Anticipated expiration: 2042-11-11
Also published as: CN115965070B

Abstract

本公开提供了一种计算图处理方法、装置、设备、存储介质以及程序产品，涉及计算机技术、数据处理技术领域，尤其涉及人工智能、深度学习、芯片技术领域。具体实现方案为：将深度学习模型的计算图划分为多个计算图分段；确定每一个计算图分段在硬件单元上运行的资源占用‑运算比，其中，资源占用‑运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值；根据硬件单元的可用资源量和计算图分段的资源占用‑运算比，确定目标计算图分段；以及根据目标计算图分段，修改计算图，得到更新计算图。

Description

计算图处理方法、装置、设备、存储介质以及程序产品

技术领域

本公开涉及计算机技术、数据处理技术领域，尤其涉及人工智能、深度学习、芯片技术领域，具体涉及一种计算图处理方法、装置、设备、存储介质以及程序产品。

背景技术

随着深度学习技术的发展，训练更大的深度学习模型成为一种提高模型精度和性能的主流趋势。更大的深度学习模型需要更多数据进行训练，这对例如图形处理器等硬件单元的资源提出了更大的需求。

发明内容

本公开提供了一种计算图处理方法、装置、设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种计算图处理方法，包括：将深度学习模型的计算图划分为多个计算图分段；确定每一个计算图分段在硬件单元上运行的资源占用-运算比，其中，资源占用-运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值；根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定目标计算图分段；以及根据目标计算图分段，修改计算图，得到更新计算图。

根据本公开的另一方面，提供了一种计算图处理装置，包括：计算图分段确定模块、资源占用-运算比确定模块、目标计算图分段确定模块以及更新计算图确定模块。计算图分段确定模块，用于将深度学习模型的计算图划分为多个计算图分段。资源占用-运算比确定模块，用于确定每一个计算图分段在硬件单元上运行的资源占用-运算比，其中，资源占用-运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值。目标计算图分段确定模块，用于根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定目标计算图分段。更新计算图确定模块，用于根据目标计算图分段，修改计算图，得到更新计算图。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序存储于可读存储介质和电子设备其中至少之一上，计算机程序在被处理器执行时实现本公开实施例的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的计算图处理方法和装置的系统架构图；

图2A示意性示出了根据本公开实施例的计算图处理方法的流程图；

图2B示意性示出了根据本公开实施例的计算图处理方法的示意图；

图3A示意性示出了任意一个迭代过程中前向传播的示意图；

图3B示意性示出了任意一个迭代过程中后向传播的示意图；

图3C示意性示出了任意一个迭代过程中模型参数p1更新的示意图；

图4A示意性示出了无重计算的情况下，一次迭代过程中执行运算操作的示意图；

图4B示意性示出了对所有计算图片段执行重计算的情况下，一次迭代过程中执行运算操作的示意图；

图4C示意性示出了基于资源占用-运算比对计算图分段进行评估，并根据得到的目标计算图分段执行重计算的情况下，一次迭代过程中执行运算操作的示意图；

图5示意性示出了根据本公开实施例的计算图处理装置的框图；以及

图6示意性示出了可以实现本公开实施例的计算图处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

随着深度学习技术的发展，训练更大的模型成为一种提高模型精度和性能的主流趋势。更大的模型需要更多数据的训练，这对例如图形处理器的等硬件单元的资源提出了更大的需求。以硬件单元为图形处理器(Graphics Processing Unit，GPU)，GPU的资源为显存为例进行说明，GPU的显存量增长速度大于深度学习模型大小增长速度。这就使得针对深度学习模型训练，如何优化硬件单元的资源占用成为一个亟需解决的问题。

图1示意性示出了根据本公开一实施例的计算图处理方法和装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端101、102和硬件单元103。

终端101例如可以用于存储深度学习模型、计算图等。终端102例如可以获取终端101的计算图，并执行本公开实施例的计算图处理方法，得到更新计算图。

硬件单元103例如可以是图像处理器、中央处理器以及神经网络处理器中的至少一个。根据终端102得到的更新计算图例如可以发送至硬件单元103，使得硬件单元103可以根据更新计算图对深度学习模型执行模型训练。

终端101、终端102可以是服务器，还可以是服务器集群。服务器也可以具有云计算功能。

需要说明的是，本公开实施例所提供的计算图处理方法可以由终端102执行。相应地，本公开实施例所提供的计算图处理装置可以设置于终端102中。本公开实施例所提供的计算图处理方法也可以由不同于终端102且能够与终端101和/或硬件单元103通信的服务器或服务器集群执行。相应地，本公开实施例所提供的计算图处理装置也可以设置于不同于终端102且能够与终端101和/或硬件单元103通信的服务器或服务器集群中。

应该理解，图1中的终端101、终端102和硬件单元103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端101、终端102和硬件单元103。

应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

本公开实施例提供了一种计算图处理方法，下面结合图1的系统架构，参考图2A～图4C来描述根据本公开示例性实施方式的计算图处理方法。本公开实施例的计算图处理方法例如可以由图1所示的终端102来执行。

图2A示意性示出了根据本公开一实施例的计算图处理方法的流程图。

如图2A所示，本公开实施例的计算图处理方法200例如可以包括操作S210～操作S240。

在操作S210A，将深度学习模型的计算图划分为多个计算图分段。

计算图可以理解为一种图结构数据，表征深度学习模型训练过程涉及的运算操作和数据的拓扑结构。

示例性地，计算图可以包括节点和连接边，节点可以包括运算操作和张量，连接边可以表征节点之间的相关性和方向。

在操作S220A，确定每一个计算图分段在硬件单元上运行的资源占用-运算比。

资源占用-运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值。每一个计算图分段在硬件单元上运行的资源占用-运算比可以表征该计算图分段针对硬件单元的资源利用效率。

例如针对任意一个计算图分段，在资源占用-运算比较高的情况下，表征在执行该计算图分段对应的深度学习模型训练的运算操作时，相关数据的资源占用量相对更大，运算量相对较小。对于深度学习模型，运算操作的资源占用量几乎可以忽略不计，因此，例如可以通过重计算的方式先释放相关数据的资源占用，在需要相关数据时重新通过运算操作获得该相关数据，提高硬件单元的资源利用率。

在操作S230A，根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定目标计算图分段。

示例性地，例如可以将资源占用-运算较高的计算图分段确定为目标计算图分段。

在操作S240A，根据目标计算图分段，修改计算图，得到更新计算图。

根据本公开实施例的计算图处理方法，通过将深度学习模型的计算图划分为多个计算图分段，使得后续可以相比于计算图更细粒度地对每一个计算图分段进行评估。具体地，可以通过每一个计算图分段相对于硬件单元的运行的资源占用-运算比评估计算图分段对应的硬件单元资源利用效率。例如可以根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定硬件单元的资源利用率较低的目标计算图分段，后续可以根据目标计算图分段，通过修改计算图，对计算图表征的深度学习模型训练过程进行优化，得到更新计算图。

示例性地，例如可以利用更新计算图，在硬件单元上训练深度学习模型。利用更新计算图在硬件单元上训练深度学习模型可以提高硬件单元的资源利用率和深度学习模型的训练速度。

根据本公开实施例的计算图处理方法，尤其适用于大型的深度学习模型的模型训练，可以有效提高硬件单元的资源利用率和深度学习模型的训练速度。

示例性地，硬件单元可以包括以下中的至少一个：图像处理器、中央处理器以及神经网络处理器。

中间处理器即Central Processing Unit，简称为CPU。神经网络处理器即NeuralNetwork Processing unit，简称为NNP。

图2B示意性示出了根据本公开实施例的计算图处理方法的示意图。如图2B所示，例如可以在操作S210B，将深度学习模型M的计算图201划分为多个计算图分段202，在图2B的示例中，示意性示出了可以将计算图201划分为计算图分段202-1至计算图分段202-X的共计X个计算图分段的具体示例。在操作S220B，可以确定每一个计算图分段202在硬件单元上运行的资源占用-运算比203。在图2B的示例中，示意性示出了与X个计算图分段对应的X个资源占用运算比的具体示例。在操作S230B，可以根据硬件单元204的可用资源量205和计算图分段202的资源占用-运算比203，确定目标计算图分段206。在图2B的示例中，示意性示出了根据可用资源量205和X个计算图分段对应的X个资源占用-运算比确定Y个目标计算图分段的具体示例，X和Y均为大于1的整数且X大于或者等于Y。在操作S240B，可以根据目标计算图分段206，修改计算图201，得到更新计算图207。

示例性地，根据本公开另一实施例的计算图处理方法，还可以包括：根据硬件单元的总资源量与不可用资源量，确定可用资源量。

不可用资源量表征深度学习模型的模型状态变量的资源占用量，可用资源量表征深度学习模型的中间变量的资源占用量。

模型状态变量表征与深度学习模型的模型参数相关的变量，中间变量表征与深度学习模型训练的样本批处理相关的变量。

示例性地，模型状态变量例如可以包括：模型参数、模型参数梯度以及优化器状态参数。例如，模型参数可以包括深度学习模型的每一个网络层的权重和偏置量。优化器状态参数可以包括参数更新统计量。

示例性地，中间变量例如可以包括：每一个运算操作的输出量。

需要说明的是，在深度学习模型训练过程中，可以将相关的训练数据进行分类，一些与模型参数相关的变量涉及模型训练的整个过程，因此这些训练数据的资源占用量无法优化和释放。另外，还有一些与样本批处理相关的变量是训练过程中的中间变量，例如模型参数等模型训练结果并不直接体现该中间变量，因此，这些训练数据的资源占用量在深度学习模型训练过程中可以优化和释放。

针对运行深度学习模型训练的任意一个硬件单元，例如可以根据硬件单元的出厂参数确定总资源量。硬件单元在运行深度学习模型训练的情况下涉及与模型状态变量相关的资源占用量和与中间变量相关的资源占用，涉及模型状态变量的资源占用不可优化和释放，涉及中间变量的资源占用可以优化和释放，例如可以将总资源量的数值与不可用资源量的数值作差，得到的数值结果可以作为可用资源量。

根据本公开实施例的计算图处理方法，通过根据硬件单元的总资源量与不可用资源量可以准确确定可用资源量，后续针对硬件资源利用率的优化均基于准确的可用资源量。

需要说明的是，深度学习模型的训练过程是迭代式的，深度学习模型的完整的训练过程包括多个迭代过程的顺序重复执行，任意一个迭代过程包括前向传播、后向传播和优化器更新。

示例性地，例如可以根据深度学习模型训练过程中前向传播的运算操作和张量确定深度学习模型的计算图。涉及重计算的后向传播、与后向传播对应的运算操作和张量均与前向传播对应。

图3A示意性示出了任意一个迭代过程中前向传播的示意图，图3B示意性示出了任意一个迭代过程中后向传播的示意图，图3C示意性示出了任意一个迭代过程中模型参数p1更新的示意图。

前向传播可以理解为深度学习模型使用当前迭代过程的输入数据，使用当前迭代过程的模型参数计算出输入数据的损失函数的数值。

在图3A的示例中，示意性示出了一次迭代过程中的前向传播的示意图，前向传播包括8次运算操作。在图3A的示例中，对初始的模型参数p_1和输入数据inp执行第一次运算操作f_op_1，可以得到第一次运算操作f_op_1的中间变量interm_1，该中间变量interm_1对应硬件单元的资源占用量si_i。

反向传播可以理解为根据前向传播中得到的损失函数的数值和中间计算结果，通过链式法则，计算出所有模型参数的梯度。

在图3B的示例中，示意性示出了一次迭代过程中的后向传播的示意图，后向传播包括与前向传播对应的8次运算操作，在此不再赘述。

优化器更新可以理解为根据反向传播中生成的模型参数的梯度，结合优化器状态更新模型参数。优化器状态例如可以利用参数更新统计量表征。

在图3C的示例中，示意性示出了一次迭代过程中的针对模型参数p1更新的示意图。在图3的示例中，示意性示出了根据模型参数p1、模型参数梯度p1_grad以及优化器状态参数p1_mo执行运算操作opt_1，得到更新后的模型参数p1’的具体示例。

由此每一个迭代过程中的每一个模型参数均实现迭代更新。

示例性地，根据本公开又一实施例的计算图处理方法，例如可以利用以下实施例实现将深度学习模型的计算图划分为多个计算图分段的具体示例：根据计算图的节点和连接边，确定计算图对应的计算序列。将计算序列划分为多个计算图分段。

计算图还包括连接边，连接边表征节点之间的相关性和方向。

计算序列对应的运算操作和张量的执行顺序为串行。

计算图是以图结构表征深度学习模型训练过程的拓扑结构，由于拓扑结构不规则，因此，直接计算图进行划分，得到多个计算图分段是比较困难的。根据本公开实施例的计算图处理方法，可以利用计算图的连接边表征节点之间的相关性和方向这一特点，根据计算图的节点和连接边，确定计算图对应的具有串行执行顺序的计算序列，后续便于将计算序列划分为多个计算图分段。

由于计算图的拓扑结构不规则，一些情况下，一个计算图会对应多个计算序列。示例性地，例如可以根据深度学习模型的组网顺序唯一确定与计算图对应的计算序列。

示例性地，例如可以利用以下实施例实现将计算序列划分为多个计算图分段的具体示例：根据深度学习模型的模型结构，将计算序列划分为多个计算图分段。

模型结构包括至少一个重复结构，重复结构包括结构相同的至少一个网络层，计算图分段对应重复结构。

示例性地，例如可以利用以下实施例实现将计算序列划分为多个计算图分段的具体示例：根据计算序列对应的运算操作的数量，将计算序列划分为多个计算图分段。

示例性地，可以对计算序列对应的运算操作的数量按照均匀划分的原则进行划分，得到多个计算图分段。均匀划分原则例如可以是在运算操作的数量可以平均的情况下，根据运算操作的数量进行平均，得到多个计算图分段。在运算操作的数量无法平均的情况下，使得多个计算图分段中每一个计算图分段对应的运算操作的数量趋于一致。

根据本公开实施例的计算图处理方法，通过具体的根据深度学习模型的模型结构或者根据计算序列对应的运算操作的数量，可以将计算序列高效划分为多个计算图分段。

示例性地，根据本公开又一实施例的计算图处理方法，例如可以利用以下实施例实现根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定目标计算图分段的具体示例：根据计算图分段的资源占用-运算比，对至少一个计算图分段进行排序，得到计算图分段序列。针对计算图分段序列中第i个计算图分段，根据资源占用-运算比、可用资源量和计算图分段的在硬件单元上运行的资源占用量，确定第i个计算图分段是否为目标计算图分段。

示例性地，根据本公开又一实施例的计算图处理方法，例如可以利用以下实施例实现根据目标计算图分段，修改计算图，得到更新计算图的具体示例：根据目标计算图分段中与深度学习模型的前向传播相关的节点，确定第一修改节点。根据目标计算图分段中与深度学习模型的后向传播相关的节点，确定第二修改节点。在第一修改节点增加释放资源节点，在第二修改节点增加重计算节点，得到更新计算图。

计算图包括节点，节点表征张量或者运算操作。

释放资源节点用于释放第一修改节点的中间变量的资源占用量，重计算节点用于对第二修改节点对应的中间变量进行重计算。

需要说明的是，前向传播的中间变量需要保存至对应的反向传播结束后才能被释放，在前向传播后至后向传播结束前，中间变量均通过硬件单元的资源进行保存，这就造成深度学习模型在模型训练过程中因为反向传播依赖前向传播的中间变量产生的资源占用。通过重计算可以减少这一部分的资源占用。

具体地，前向传播中，中间变量需要保存是因为在之后的反向传播中需要使用该中间变量。通过重计算可以使得前向传播的中间变量在产生后立即被释放，当反向传播需要使用到该中间变量时再通过重新执行相应的计算将该中间变量的数值计算出来。

图4A示意性示出了无重计算的情况下，如图3A、图3B所示的一次迭代过程中，执行运算操作的示意图。图4B示意性示出了对所有计算图片段执行重计算的情况下，如图3A、图3B所示的一次迭代过程中，执行运算操作的示意图。图4C示意性示出了根据本公开实施例的计算图处理方法中，基于资源占用-运算比对计算图分段进行评估，并根据得到的目标计算图分段执行重计算的情况下，如图3A、图3B所示的一次迭代过程中，执行运算操作的示意图。

如图4A所示，在无重计算的情况下，如图3A、图3B所示的一次迭代过程中，依次执行前向传播的8次运算操作，每一个运算操作可以得到相应的中间变量，中间变量存储于硬件单元，占用硬件单元的资源。在后向传播的过程中，依次执行后向传播的8次运算操作，每一个运算操作用到的中间变量可以从硬件单元直接获取。

示例性地，以图4A示出的前向传播的8次运算操作为例，例如可以根据图4A示出的前向传播的8次运算操作对应的计算图，确定f_op_1→f_op_2……f_op_8的计算序列cseq。

示例性地，以图4A示出的前向传播的8次运算操作确定的f_op_1→f_op_2……f_op_8的计算序列cseq为例。例如可以根据深度学习模型的模型结构，将计算序列cseq划分为计算图分段seg1至计算图分担seg4的共计4个计算图分段。计算图分段seg1包括运算操作f_op_1和运算操作f_op_2，计算图分段seg2包括运算操作f_op_3和运算操作f_op_4，计算图分段seg3包括运算操作f_op_5、运算操作f_op_6和运算操作f_op_7，计算图分段seg3包括运算操作f_op_8。

如图4B所示，在重计算的情况下，如图3A、图3B所示的一次迭代过程中，依次执行前向传播的8次运算操作，每一个运算操作可以得到相应的中间变量，中间变量在相应的运算操作使用过后立刻释放占用的硬件单元资源。在后向传播的过程中，每一个运算操作用到的中间变量可以重计算。在图4B的示例中，重计算是根据后向传播的运算操作的依赖关系确定的，例如，后向传播的运算操作b_op_7依赖于中间变量interm_5、中间变量interm_6和中间变量interm_7，因此，在执行后向传播的运算操作b_op_7时，需要先重计算中间变量interm_5(重计算rc_i5)、中间变量interm_6(重计算rc_i6)和中间变量interm_7(重计算rc_i7)。

图4C示意性示出了根据本公开实施例的计算图处理方法中，基于资源占用-运算比对计算图分段进行评估，并根据得到的目标计算图分段进行重计算的情况下，如图3A、图3B所示的一次迭代过程中，执行运算操作的示意图。

示例性地，以硬件单元的总资源量为10GB、深度学习模型M的模型状态变量的资源占用量(不可用资源量)为5GB，中间变量的资源占用量(可用资源量)为15GB为例，15+5＞10，不使用重计算无法训练深度学习模型M。并且在对所有计算图分段进行重计算的情况下，需要至少节省10GB的硬件单元资源量才能训练，由于硬件单元的可用资源量仅为5GB，因此，无法在硬件单元上执行所有计算图分段的重计算(10＞5)。

表1示意性示出了图4A所示的计算图分段，对应的运算量与中间变量的资源占用量的具体示例。

表1

计算图分段	运算量(重计算代价)	中间变量的资源占用量
			seg1	200FLOPs	4GB
seg2	800FLOPs	4GB
			seg3	500FLOPs	5GB
seg4	200FLOPs	2GB

根据本公开实施例的计算图处理方法，例如可以对每一个计算图分段，确定相应的资源占用-运算比，例如可以确定计算图分段seg1的资源占用-运算比R1为0.02(4/200)，计算图分段seg2的资源占用-运算比R2为0.005(4/800)，计算图分段seg3的资源占用-运算比R3为0.01(5/500)，计算图分段seg4的资源占用-运算比R4为0.01(2/200)。对计算图分段的资源占用-运算比排序后得到的计算图分段序列为：R3＝R4＞R1＞R2。

示例性地，例如可以根据计算图分段序列，利用贪心算法确定目标计算图分段。

例如，在对所有计算图分段进行重计算的情况下，共计需要20GB(5+15)的硬件单元资源量，硬件单元的总资源量10GB并不满足20GB的需求。利用贪心算法，可以根据计算图分段序列从大到小的顺序，先确定资源占用-运算比最大的计算图分段seg3或seg4为一个目标计算图分段，可以节省5GB或者2GB，在将计算图分段seg3作为一个目标计算图分段的情况下，可以节省5GB，此时共计需要15GB(20-5)的硬件单元资源量，硬件单元的总资源量10GB仍然并不满足15GB的需求。可以继续将计算图分段seg4作为一个目标计算图分段，可以节省2GB，此时共计需要13GB(15-2)的硬件单元资源量，硬件单元的总资源量10GB仍然并不满足15GB的需求。可以继续将计算图分段seg1作为一个目标计算图分段，可以节省4GB，此时共计需要9GB(13-4)的硬件单元资源量，硬件单元的总资源量10GB可以满足9GB的需求。由此，可以将计算图分段seg3、计算图分段seg4以及计算图分段seg1确定为目标计算图分段。如图4C所示，例如可以对目标计算图分段对应的中间变量进行重计算。

在本公开实施例的计算图处理方法中，通过根据计算图分段的资源占用-运算比，对至少一个计算图分段进行排序，得到计算图分段序列以及针对计算图分段序列中第i个计算图分段，根据资源占用-运算比、可用资源量和计算图分段的在硬件单元上运行的资源占用量，确定第i个计算图分段是否为目标计算图分段，可以通过利用资源占用-运算比选择硬件单元资源利用率较低，可优化空间较大的目标计算图分段，通过对全量的计算图分段中的部分目标计算图分段进行重计算，使得节省硬件单元的相同大小的资源量时，引入的运算量最小，在不超出硬件单元的总资源量的情况下，可以最大程度优化硬件单元的资源占用，提高硬件单元资源利用率。

示例性地，根据本公开实施例的计算图处理方法，例如可以根据总资源量与不可用资源量，确定重计算可行结果，重计算可行结果表征当前硬件单元的总资源量与不可用资源量是否可以进行重计算。例如，在总资源量小于或者等于不可用资源量的情况下，表征当前硬件单元的总资源量仅可满足不可用资源量占用，没有资源执行重计算。

图5示意性示出了根据本公开一实施例的计算图处理装置的框图。

如图5所示，本公开实施例的计算图处理装置500例如包括计算图分段确定模块510、资源占用-运算比确定模块520、目标计算图分段确定模块530以及更新计算图确定模块540。

计算图分段确定模块510，用于将深度学习模型的计算图划分为多个计算图分段。

资源占用-运算比确定模块520，用于确定每一个计算图分段在硬件单元上运行的资源占用-运算比。

资源占用-运算比表征计算图分段相对于硬件单元的资源占用量和运算量之间的比值。

目标计算图分段确定模块530，用于根据硬件单元的可用资源量和计算图分段的资源占用-运算比，确定目标计算图分段。

更新计算图确定模块540，用于根据目标计算图分段，修改计算图，得到更新计算图。

根据本公开实施例的计算图处理装置，还包括：可用资源量确定模块，用于根据硬件单元的总资源量与不可用资源量，确定可用资源量，其中，不可用资源量表征深度学习模型的模型状态变量的资源占用量，可用资源量表征深度学习模型的中间变量的资源占用量，模型状态变量表征与深度学习模型的模型参数相关的变量，中间变量表征与深度学习模型训练的样本批处理相关的变量。

根据本公开实施例的计算图处理装置，计算图包括节点，节点表征张量或者运算操作。更新计算图确定模块包括：第一修改节点确定子模块、第二修改节点确定子模块以及更新计算图确定子模块。

第一修改节点确定子模块，用于根据目标计算图分段中与深度学习模型的前向传播相关的节点，确定第一修改节点。

第二修改节点确定子模块，用于根据目标计算图分段中与深度学习模型的反向传播相关的节点，确定第二修改节点。

更新计算图确定子模块，用于在第一修改节点增加释放资源节点，在第二修改节点增加重计算节点，得到更新计算图。

根据本公开实施例的计算图处理装置，计算图还包括连接边，连接边表征节点之间的相关性和方向。计算图分段确定模块包括：计算序列确定子模块以及计算图分段确定子模块。

计算序列确定子模块，用于根据计算图的节点和连接边，确定计算图对应的计算序列。

计算序列对应的运算操作和张量的执行顺序为串行。

计算图分段确定子模块，用于将计算序列划分为多个计算图分段。

根据本公开实施例的计算图处理装置，计算图分段确定子模块包括：计算图第一划分单元，用于根据深度学习模型的模型结构，将计算序列划分为多个计算图分段。

根据本公开实施例的计算图处理装置，计算图分段确定子模块包括：计算图第二划分单元，用于根据计算序列对应的运算操作的数量，将计算序列划分为多个计算图分段。

根据本公开实施例的计算图处理装置，目标计算图分段确定模块包括：计算图分段序列确定子模块以及目标计算图分段确定子模块。

计算图分段序列确定子模块，用于根据计算图分段的资源占用-运算比，对至少一个计算图分段进行排序，得到计算图分段序列。

目标计算图分段确定子模块，用于针对计算图分段序列中第i个计算图分段，根据资源占用-运算比、可用资源量和计算图分段的在硬件单元上运行的资源占用量，确定第i个计算图分段是否为目标计算图分段。

根据本公开实施例的计算图处理装置，还包括：模型训练模块，用于利用更新计算图，在硬件单元上训练深度学习模型。

根据本公开实施例的计算图处理装置，硬件单元包括以下中的至少一个：图像处理器、中央处理器以及神经网络处理器。

应该理解，本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似，所解决的技术问题和所达到的技术效果也对应相同或类似，本公开在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如计算图处理方法。例如，在一些实施例中，计算图处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的计算图处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行计算图处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种计算图处理方法，包括：

将深度学习模型的计算图划分为多个计算图分段；

确定每一个所述计算图分段在硬件单元上运行的资源占用-运算比，其中，所述资源占用-运算比表征所述计算图分段相对于所述硬件单元的资源占用量和运算量之间的比值；

根据所述硬件单元的可用资源量和所述计算图分段的所述资源占用-运算比，确定目标计算图分段；以及

根据所述目标计算图分段，修改所述计算图，得到更新计算图。

2.根据权利要求1所述的方法，还包括：

根据所述硬件单元的总资源量与不可用资源量，确定所述可用资源量，其中，所述不可用资源量表征所述深度学习模型的模型状态变量的资源占用量，所述可用资源量表征所述深度学习模型的中间变量的资源占用量，所述模型状态变量表征与所述深度学习模型的模型参数相关的变量，所述中间变量表征与所述深度学习模型训练的样本批处理相关的变量。

3.根据权利要求2所述的方法，其中，所述计算图包括节点，所述节点表征张量或者运算操作；所述根据所述目标计算图分段，修改所述计算图，得到更新计算图包括：

根据所述目标计算图分段中与所述深度学习模型的前向传播相关的节点，确定第一修改节点；

根据所述目标计算图分段中与所述深度学习模型的反向传播相关的节点，确定第二修改节点；

在所述第一修改节点增加释放资源节点，在所述第二修改节点增加重计算节点，得到所述更新计算图，其中，所述释放资源节点用于释放所述第一修改节点的所述中间变量的资源占用量，所述重计算节点用于对所述第二修改节点对应的所述中间变量进行重计算。

4.根据权利要求3所述的方法，其中，所述计算图还包括连接边，所述连接边表征所述节点之间的相关性和方向；所述将深度学习模型的计算图划分为多个计算图分段包括：

根据所述计算图的所述节点和所述连接边，确定所述计算图对应的计算序列，其中，所述计算序列对应的所述运算操作和所述张量的执行顺序为串行；以及

将所述计算序列划分为多个所述计算图分段。

5.根据权利要求4所述的方法，其中，所述将所述计算序列划分为多个所述计算图分段包括：

根据所述深度学习模型的模型结构，将所述计算序列划分为多个所述计算图分段，其中，所述模型结构包括至少一个重复结构，所述重复结构包括结构相同的至少一个网络层，所述计算图分段对应所述重复结构。

6.根据权利要求4所述的方法，其中，所述将所述计算序列划分为多个所述计算图分段包括：

根据所述计算序列对应的所述运算操作的数量，将所述计算序列划分为多个所述计算图分段。

7.根据权利要求2所述的方法，其中，所述根据所述硬件单元的可用资源量和所述计算图分段的所述资源占用-运算比，确定目标计算图分段包括：

根据所述计算图分段的所述资源占用-运算比，对至少一个所述计算图分段进行排序，得到计算图分段序列；以及

针对所述计算图分段序列中第i个计算图分段，根据资源占用-运算比、所述可用资源量和所述计算图分段的在所述硬件单元上运行的资源占用量，确定所述第i个计算图分段是否为所述目标计算图分段。

8.根据权利要求1-7中任一项所述的方法，还包括：

利用所述更新计算图，在所述硬件单元上训练所述深度学习模型。

9.根据权利要求1-7中任一项所述的方法，其中，所述硬件单元包括以下中的至少一个：图像处理器、中央处理器以及神经网络处理器。

10.一种计算图处理装置，包括：

计算图分段确定模块，用于将深度学习模型的计算图划分为多个计算图分段；

资源占用-运算比确定模块，用于确定每一个所述计算图分段在硬件单元上运行的资源占用-运算比，其中，所述资源占用-运算比表征所述计算图分段相对于所述硬件单元的资源占用量和运算量之间的比值；

目标计算图分段确定模块，用于根据所述硬件单元的可用资源量和所述计算图分段的所述资源占用-运算比，确定目标计算图分段；以及

更新计算图确定模块，用于根据所述目标计算图分段，修改所述计算图，得到更新计算图。

11.根据权利要求10所述的装置，还包括：

可用资源量确定模块，用于根据所述硬件单元的总资源量与不可用资源量，确定所述可用资源量，其中，所述不可用资源量表征所述深度学习模型的模型状态变量的资源占用量，所述可用资源量表征所述深度学习模型的中间变量的资源占用量，所述模型状态变量表征与所述深度学习模型的模型参数相关的变量，所述中间变量表征与所述深度学习模型训练的样本批处理相关的变量。

12.根据权利要求11所述的装置，其中，所述计算图包括节点，所述节点表征张量或者运算操作；所述更新计算图确定模块包括：

第一修改节点确定子模块，用于根据所述目标计算图分段中与所述深度学习模型的前向传播相关的节点，确定第一修改节点；

第二修改节点确定子模块，用于根据所述目标计算图分段中与所述深度学习模型的反向传播相关的节点，确定第二修改节点；

更新计算图确定子模块，用于在所述第一修改节点增加释放资源节点，在所述第二修改节点增加重计算节点，得到所述更新计算图，其中，所述释放资源节点用于释放所述第一修改节点的所述中间变量的资源占用量，所述重计算节点用于对所述第二修改节点对应的所述中间变量进行重计算。

13.根据权利要求12所述的装置，其中，所述计算图还包括连接边，所述连接边表征所述节点之间的相关性和方向；所述计算图分段确定模块包括：

计算序列确定子模块，用于根据所述计算图的所述节点和所述连接边，确定所述计算图对应的计算序列，其中，所述计算序列对应的所述运算操作和所述张量的执行顺序为串行；以及

计算图分段确定子模块，用于将所述计算序列划分为多个所述计算图分段。

14.根据权利要求13所述的装置，其中，所述计算图分段确定子模块包括：

计算图第一划分单元，用于根据所述深度学习模型的模型结构，将所述计算序列划分为多个所述计算图分段，其中，所述模型结构包括至少一个重复结构，所述重复结构包括结构相同的至少一个网络层，所述计算图分段对应所述重复结构。

15.根据权利要求13所述的装置，其中，所述计算图分段确定子模块包括：

计算图第二划分单元，用于根据所述计算序列对应的所述运算操作的数量，将所述计算序列划分为多个所述计算图分段。

16.根据权利要求11所述的装置，其中，所述目标计算图分段确定模块包括：

计算图分段序列确定子模块，用于根据所述计算图分段的所述资源占用-运算比，对至少一个所述计算图分段进行排序，得到计算图分段序列；以及

目标计算图分段确定子模块，用于针对所述计算图分段序列中第i个计算图分段，根据资源占用-运算比、所述可用资源量和所述计算图分段的在所述硬件单元上运行的资源占用量，确定所述第i个计算图分段是否为所述目标计算图分段。

17.根据权利要求10-16中任一项所述的装置，还包括：

模型训练模块，用于利用所述更新计算图，在所述硬件单元上训练所述深度学习模型。

18.根据权利要求10-16中任一项所述的装置，其中，所述硬件单元包括以下中的至少一个：图像处理器、中央处理器以及神经网络处理器。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。