CN115033391B

CN115033391B - 一种用于神经网络计算的数据流动方法和装置

Info

Publication number: CN115033391B
Application number: CN202210952808.4A
Authority: CN
Inventors: 王宏升; 陈�光
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-11
Anticipated expiration: 2042-08-10
Also published as: CN115033391A; US20240054319A1; WO2023093185A1; US11941507B2

Abstract

本发明公开了一种用于神经网络计算的数据流动方法和装置，包括以下步骤：步骤1、初始化计算图中变量的生命周期，初始化从变量的定义开始到使用结束之间的时间段为所述变量在计算图中的生命周期；步骤2、定义使用中变量流过节点的传播规则，定义计算图某节点处的变量被使用，在该节点的前驱节点产生该变量的定义，使得流过该节点的有效变量的输入集合包含该变量；本发明公开了深度学习训练系统中一种用于神经网络计算的数据流动的建模方法和装置，可以从全局作用域的视角分析出局部循环里的每个计算子图的节点所需分配的内存单元块。所述的用于神经网络计算的数据流动方法提高整个计算图的计算效率，节约时间成本。

Description

一种用于神经网络计算的数据流动方法和装置

技术领域

本发明涉及特定计算模型的计算机系统领域，特别涉及一种用于神经网络计算的数据流动方法和装置。

背景技术

随着人工智能产业化应用的快速发展，大规模深度神经网络模型的训练系统越来越成为学术界和工业界的研究热点。在局部作用域下，已有的用于神经网络计算的子图之间的数据传递方式是通过计算节点与内存进行频繁交换，并且需要为每个子图设计数据流动算法。在全局作用域内，这种方式不能满足带循环结构计算子图的数据流动效率。

发明内容

本发明的目的在于提供一种用于神经网络计算的数据流动方法和装置，以克服现有技术中的不足。

为实现上述目的，本发明提供如下技术方案：

本发明公开了一种用于神经网络计算的数据流动方法，包括以下步骤：

步骤1、初始化计算图中变量的生命周期，初始化从变量的定义开始到使用结束之间的时间段为所述变量在计算图中的生命周期；

步骤2、定义使用中变量流过节点的传播规则，定义计算图某节点处的变量被使用，在该节点的前驱节点产生该变量的定义，使得流过该节点的有效变量的输入集合包含该变量；

步骤3、设计重定义变量流过节点的传播规则，当变量在计算图某节点处被重新定义，则使该节点的前驱节点中的该变量的生命周期在流过该节点时被终结；

步骤4、定义计算图中关联变量流过节点的传播规则；

步骤5、基于数据流分析每个节点的输入和输出的有效变量；

步骤6、收集流过节点前后的有效变量的集合，收集基于计算图的变量的生命周期分析所得的流经每个节点的有效变量的集合；

步骤7、为计算图边上的有效变量分配内存单元块；

步骤8、定义计算图中可用表达式的传播规则；

步骤9、基于数据流分析每个节点的输入和输出的可用表达式；

步骤10、优化计算图中的可用表达式：将计算图节点处的可用表达式的计算结果保存到中间变量中，再次出现在后继节点中的所述可用表达式将替换为所述中间变量。

作为优选的，所述步骤3中重定义变量流过节点的传播规则具体为：若该变量在所述计算图某节点处没有被重新定义，则流过所述节点的有效变量的输出集合中的变量可以穿过该节点传播至其输出集合的变量；若该变量在所述计算图某节点处被重新定义，则所述变量不可以穿过该节点。

作为优选的，所述步骤4的具体子步骤如下：

步骤4.1、定义流过计算图某节点的变量等于使用变量；

步骤4.2、定义该节点的输出变量的集合为该节点的所有后继节点的输入集合的并集；

步骤4.3、定义该节点的输入变量的集合为输出变量的集合去除该节点处定义的该变量集合，再与该节点处使用变量集合取并集。

作为优选的，所述步骤5的具体子步骤如下：

步骤5.1、初始化输出节点的输入有效变量集合，对于整张计算图的输出节点，其输出有效变量集合为空集，其输入有效变量集合推导方法为：其输出有效变量集合移除所述节点处被重新定义的变量，再与所述节点处被使用的变量取并集；

步骤5.2、初始化输入节点的输出有效变量集合，对于整张计算图的输入节点，初始化其输出的有效变量集合元素为所述节点处定义的变量；

步骤5.3、推导中间节点的输出有效变量集合，所述节点的输出有效变量集合为取其后继节点的输入有效变量的并集；

步骤5.4、推导中间节点的输入有效变量集合，所述节点的输入有效变量集合为其输出有效变量结合移除所述节点处被重新定义的变量集合，再取与所述节点处被使用的变量集合的并集；

作为优选的，所述步骤7中，定义为计算图某节点的变量分配单元内存块的条件为：所述节点处的该变量在生命周期内，即计算图边上的有效变量才分配单元内存块，在计算图编译期间，根据上述收集的有效变量的集合中变量的个数，提前为每个变量预分配内存单元块。

作为优选的，所述步骤8的具体子步骤如下：

步骤8.1、定义流过计算图某节点的变量等于使用变量；

步骤8.2、定义该节点的输入变量的集合为该节点的所有前驱节点的输出变量集合的交集；

步骤8.3、定义该节点的输出变量的集合为该节点的所有输入变量的集合与使用变量的并集，再去除包含重定义变量的表达式。

作为优选的，所述步骤9的具体子步骤如下：

步骤9.1、可用表达式集合的初始化，将流入整个计算图入口节点的可用表达式的集合初始化为空集；

步骤9.2、可用表达式集合添加后继节点中新出现的表达式，对于存在多条输入边的节点，所述节点的可用表达式是取多条输入边上的可用表达式集合的交集作为所述节点的可用表达式集合新添加的元素；

步骤9.3、对于存在可用节点中的变量被重新定义的后继节点，需要将包含所述重定义变量的表达式从所述可用表达式集合中移除。

作为优选的，所述步骤10的具体子步骤如下：

步骤10.1、单独计算可用表达式；

步骤10.2、将计算图节点处的可用表达式的计算结果保存到中间变量中；

步骤10.3、对于没有可用表达式中的变量被重定义的后继节点，将后继节点中的可用表达式替换为中间变量的值；

步骤10.4、对于存在可用表达式中的变量被重定义的后继节点，插入可用表达式的更新节点。

本发明还公开了一种用于神经网络计算的数据流动装置，所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述用于神经网络计算的数据流动方法。

本发明的有益效果：本发明公开了深度学习训练系统中一种用于神经网络计算的数据流动方法和装置，可以从全局作用域的视角分析出局部循环里的每个计算子图的节点所需分配的内存单元块。所述的用于神经网络计算的数据流动方法提高整个计算图的计算效率，节约时间成本。研究人员和工程应用者开发分布式模型的过程中，利用所述的一种用于神经网络计算的数据流动方法搭建模型，神经网络的计算效率高，节约内存资源，推动了深度神经网络大模型落地应用的发展。

附图说明

图1是本发明实施例使用中变量的传播规则示意图；

图2是本发明实施例重定义变量的传播规则示意图；

图3是本发明实施例数据流图的定义示意图；

图4是本发明实施例基于数据流图进行的计算图的变量的生命周期的分析示意图；

图5是本发明实施例定义计算图中可用表达式的数据流图；

图6是本发明实施例基于数据流分析每个节点的输入和输出的可用表达式示意图；

图7是本发明实施例优化计算图中的可用表达式示意图；

图8是本发明实施例用于神经网络计算的数据流动装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图及实施例，对本发明进行进一步详细说明。但是应该理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明实施例提供一种用于神经网络计算的数据流动方法，包括以下步骤：

步骤一、初始化计算图中变量的生命周期；

步骤二、定义使用中变量流过节点的传播规则；

步骤三、设计重定义变量流过节点的传播规则；

步骤四、定义计算图中关联变量流过节点的传播规则；

步骤五、基于数据流分析每个节点的输入和输出的有效变量；

步骤六、收集流过节点前后的有效变量的集合；

步骤七、为计算图边上的有效变量分配内存单元块；

步骤八、定义计算图中可用表达式的传播规则；

步骤九、基于数据流分析每个节点的输入和输出的可用表达式；

步骤十、优化计算图中的可用表达式；

步骤一中初始化计算图中变量的生命周期：初始化从变量的定义开始到使用结束之间的时间段为所述变量在计算图中的生命周期，计算图中只有在生命周期内的变量才是有效的。

步骤二中定义使用中变量流过节点的传播规则。已知给定计算图G(E,V)，其中 E是计算图G的边，V是计算图G的节点。在节点V处，如果变量1被使用，那么在节点V的前驱节点一定产生变量1的定义，因此流过节点V的有效变量的输入集合一定包含变量1。使用中变量的传播规则如图1所示。本实施例中出现的标识“■”，表示所述位置的表达式可以为任意表达式。

步骤三中设计重定义变量流过节点的传播规则。在节点V处，如果变量1被重新定义，那么节点V 的前驱节点中的变量1的生命周期在流过节点V时被终结。也就是说，输出节点V的变量1是无效的，流过节点V的有效变量的输入集合中不包含变量1。而且由于变量1在节点V被重新定义，所以流过节点V的有效变量的输出集合包含了变量1。输出集合中的变量1无法穿过节点V传播至输入集合中。重定义变量的传播规则如图2所示。从节点V的视角可以总结为：如果变量在节点V处没有被重新定义，那么流过节点V的有效变量的输出集合中的变量可以穿过节点V传播至其输入集合的变量，如图2中的变量2；反之，所述变量就不可以穿过节点V，如图2中的变量1。

步骤四中定义计算图中关联变量流过节点的传播规则。如图3所示。所述定义计算图中关联变量流过节点的传播规则包含如下过程：

(1) 对于计算图的节点V：定义变量v=使用变量E；

(2) 定义节点输出变量的集合。节点V的输出变量的集合定义为节点V的所有后继节点的输入集合的并集。节点V的输出变量的集合表示为：输出（节点V）=U输入（后继节点Vs）,Vs∈后继节点（V）；

(3) 定义节点的输入变量的集合。节点V的输入变量的集合定义为输出变量的集合去除节点V处定义的变量v集合，再与节点V处使用变量E集合的并集。节点V的输入变量的集合表示为：输入（节点V）=（输出（节点V）\{定义变量v}）∪{使用变量E}。

步骤五中基于数据流分析每个节点的输入和输出的有效变量，如图4所示：

基于数据流图逐步骤分析计算图中全局变量的生命周期，其中Si:{……}表示第i步分析所得的流经对应节点的有效变量的集合。如图4所示了流经整个计算图中每个节点的输入和输出的全局有效变量集合。本实施例中出现的“{ }”表示空集；x=input表示将输入的张量变量赋予张量变量x。

所述基于数据流分析每个节点的输入和输出的有效变量包含如下过程：

(1) 初始化输出节点的输入有效变量集合。对于整张计算图的输出节点，其输出有效变量集合为空集，其输入有效变量集合推导方法是：其输出有效变量集合移除所述节点处被重新定义的变量，再与所述节点处被使用的变量取并集。所以其输入有效变量集合为：空集与输出变量取并集，输入有效变量集合包含输出变量元素。如图4中的S1:{x}。

(2) 初始化输入节点的输出有效变量集合。对于整张计算图的输入节点，初始化其输出的有效变量集合元素为所述节点处定义的变量。如图4中的S3:{x}。

(3) 推导中间节点的输出有效变量集合。所述节点的输出有效变量集合为取其后继节点的输入有效变量的并集。如图4中，对于x.shape[0]>520节点，其输出有效变量集合为：其后继节点y=x/8的输入有效变量集合S2:{x} 的并集，因此其输出有效变量集合为S2:{x}。同理，对于z=tf.nn.relu(z) 节点，其输出有效变量集合为S5:{x}。

推导中间节点的输入有效变量集合。所述节点的输入有效变量集合为其输出有效变量结合移除所述节点处被重新定义的变量集合，再取与所述节点处被使用的变量集合的并集。如图4中，对于x.shape[0]>520节点，其输入有效变量集合为：其输入有效变量集合S2:{x}移除所述节点处被重新定义的变量，再取与所述节点处被使用的变量集合的{x}的并集，最终其输入有效变量集合为S3:{x}。同理，对于z=tf.nn.relu(z) 节点，其输入有效变量集合为入边上的S7:{x,z}集合和入边上的S6:{x,z}集合。对于x=x/3 节点，其输入有效变量集合为其输入有效变量集合S6:{x,z} 移除被重定义变量{x}，再取与被使用变量{x}的并集，所述输入有效变量集合最终为S8:{x,z}。对于|z|>0节点，其输入有效变量集合为其后继节点的输入有效变量集合的并集，所以为S9:{x,z}。

步骤六中收集流过节点前后的有效变量的集合。收集基于上述数据流图进行的计算图的变量的生命周期分析所得的流经每个节点的有效变量的集合。

步骤七中为计算图边上的有效变量分配内存单元块。定义为节点V处的变量1分配单元内存块的条件为：所述节点V处的变量1在生命周期内，也就是说，有效变量才分配单元内存块。在计算图编译期间，根据上述收集的有效变量的集合中的变量的个数，提前为每个变量预分配内存单元块。

步骤八中定义计算图中可用表达式的传播规则。如图5所示。

所述定义计算图中可用表达式的传播规则包含如下过程：

(1) 对于计算图的节点V：定义变量v=使用变量E；

(2) 定义节点的输入变量的集合。节点V的输入变量的集合定义为：节点V的所有前驱节点的输出变量集合的交集。节点V的输入变量的集合表示为：输入（节点V）=∩输出（前驱节点Vs），Vs∈前驱节点（V）；

(3) 定义节点输出变量的集合。节点V的输出变量的集合定义为节点V的所有输入变量的集合与使用变量E的并集，再去除包含重定义变量的表达式。节点V的输出变量的集合表示为：输出（节点V）=（输出（节点V）∪{使用变量E}）\{表达式（重定义变量v）}。

步骤九中基于数据流分析每个节点的输入和输出的可用表达式，如图6所示：

基于数据流图逐步骤分析计算图中全局表达式的可用表达式，其中Si:{……}表示第i步分析所得的流经对应节点的可用表达式的集合。如图6所示了流经整个计算图中每个节点的输入和输出的全局可用表达式的集合。

tf.add(x,y)：表示张量x与张量y进行相加操作；

tf.abs(y)：表示取张量y的绝对值；

tf.matmul(x,y)：表示张量x与张量y进行矩阵乘法操作；

tf.ones(a.shape)：表示创建一个与张量a形状相同且所有元素都为1的张量。

所述基于数据流分析每个节点的输入和输出的可用表达式包含如下步骤：

步骤1、可用表达式集合的初始化。将流入整个计算图入口节点的可用表达式的集合初始化为空集。如图6中的步骤s1。

步骤2、可用表达式集合添加后继节点中新出现的表达式。对于存在多条输入边的节点，所述节点的可用表达式是取多条输入边上的可用表达式集合的交集作为所述节点的可用表达式集合新添加的元素。如图6中的步骤s2、s3和s4，其中，对于s4集合对应的tf.abs(y)>tf.abs(tf.add(a,b))节点，所述节点的可用表达式集合的推导过程如下：由于所述节点存在两条输入边，所以所述节点的可用表达式的集合是取两条输入边上的可用表达式集合的交集，也就是取s3和s6的交集。

步骤3、对于存在可用节点中的变量被重新定义的后继节点，需要将包含所述重定义变量的表达式从所述可用表达式集合中移除。如图6中的步骤s5。对于s5集合对应的节点x=tf.add(a,b)，所述节点的可用表达式的推导过程如下：由于其前驱节点a=tf.add(a,tf.ones(a.shape)) 重新定义了变量a，导致前驱节点的可用表达式集合s4:{tf.add(a,b)} 包含的可用表达式tf.add(a,b)的计算结果发生变化。所以所述节点需要将包含所述重定义变量a的表达式tf.add(a,b)从所述可用表达式集合s4:{tf.add(a,b)}中移除，所述节点对应的可用表达式集合最终为空集。

步骤十中优化计算图中的可用表达式。将计算图节点处的可用表达式的计算结果保存到中间变量中，再次出现在后继节点中的所述可用表达式将替换为所述中间变量。优化可用表达式的目的是减少后继节点相同可用表达式的重计算，提高整个计算图的计算效率，节约时间成本。所述优化计算图中的可用表达式包含如下过程：

(1) 计算可用表达式。单独计算可用表达式。

(2) 将可用表达式计算结果保存到中间变量中。

(3) 对于没有可用表达式中的变量被重定义的后继节点，将后继节点中的可用表达式替换为中间变量的值。

(4) 对于存在可用表达式中的变量被重定义的后继节点，插入可用表达式的更新节点。由于可用表达式中的变量在后继节点中被重新定义，导致前驱节点包含的可用表达式的计算结果发生变化，那么就需要插入可用表达式计算结果的更新节点。

所述优化计算图中的可用表达式的过程如图7所示。在s2步骤，将可用表达式tf.add(a,b)的计算结果保存在变量w中，将后继节点tf.abs(y)>tf.abs(tf.add(a,b)) 中的可用表达式tf.add(a,b)替换为变量w的值。由于步骤s5没有可用表达式，导致前驱节点包含的可用表达式tf.add(a,b)的计算结果发生变化，所以需要插入一个更新变量w的节点，如w=x。

参见图8，本发明实施例还提供了一种用于神经网络计算的数据流动装置，还包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的用于神经网络计算的数据流动方法。

本发明一种用于神经网络计算的数据流动装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图8所示，为本发明一种用于神经网络计算的数据流动装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图8所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的用于神经网络计算的数据流动方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于神经网络计算的数据流动方法，其特征在于：包括以下步骤：

步骤4、定义计算图中关联变量流过节点的传播规则；

步骤5、基于数据流分析每个节点的输入和输出的有效变量，包括如下子步骤：

步骤7、为计算图边上的有效变量分配内存单元块，定义为计算图某节点的变量分配单元内存块的条件为：所述节点处的该变量在生命周期内，即计算图边上的有效变量才分配单元内存块，在计算图编译期间，根据上述收集的有效变量的集合中变量的个数，提前为每个变量预分配内存单元块；

步骤8、定义计算图中可用表达式的传播规则；

2.如权利要求1所述的一种用于神经网络计算的数据流动方法，其特征在于：所述步骤3中重定义变量流过节点的传播规则具体为：若该变量在所述计算图某节点处没有被重新定义，则流过所述节点的有效变量的输出集合中的变量可以穿过该节点传播至其输出集合的变量；若该变量在所述计算图某节点处被重新定义，则所述变量不可以穿过该节点。

3.如权利要求1所述的一种用于神经网络计算的数据流动方法，其特征在于：所述步骤4的具体子步骤如下：

步骤4.1、定义流过计算图某节点的变量等于使用变量；

步骤4.3、定义该节点的输入变量的集合为输出变量的集合去除该节点处的定义的变量集合，再与该节点处使用变量集合取并集。

4.如权利要求1所述的一种用于神经网络计算的数据流动方法，其特征在于：所述步骤8的具体子步骤如下：

步骤8.1、定义流过计算图某节点的变量等于使用变量；

5.如权利要求1所述的一种用于神经网络计算的数据流动方法，其特征在于：所述步骤9的具体子步骤如下：

6.如权利要求1所述的一种用于神经网络计算的数据流动方法，其特征在于：所述步骤10的具体子步骤如下：

步骤10.1、单独计算可用表达式；

7.一种用于神经网络计算的数据流动装置，其特征在于：所述装置包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-6任一项所述用于神经网络计算的数据流动方法。