CN111694643A

CN111694643A - 一种面向图神经网络应用的任务调度执行系统及方法

Info

Publication number: CN111694643A
Application number: CN202010395810.7A
Authority: CN
Inventors: 严明玉; 李涵; 叶笑春; 曹华伟; 范东睿
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-09-22
Anticipated expiration: 2040-05-12
Also published as: CN111694643B

Abstract

本发明提出一种面向图神经网络应用的任务调度执行系统及方法，包括：待发射图运算符缓存模块读取待处理图运算符处理请求，根据待处理图运算符处理请求的图运算符标签，从缓存中获取所需输入数据；发射单元将待处理图运算符处理请求和输入数据发送给基于静态数据流的统一结构处理单元；统一结构处理单元根据图运算符标签的图运算符码将输入数据映射到相应的二叉运算树的输入上和图运算符执行帧，并完成本轮运算，得到中间结果；标签生成器依据前一轮运算标签信息，生成新的图运算符标签；统一结构处理单元将中间结果以及新的图运算符标签返回给待发射图运算符缓存模块；循环执行直至图运算符标签中剩余重复次数数值为1，将当前中间结果写回缓存。

Description

一种面向图神经网络应用的任务调度执行系统及方法

技术领域

本发明涉及图神经网络应用领域，特别涉及一种面向图神经网络应用的任务调度执行系统及方法。

背景技术

卷积神经网络常被用于解决计算机视觉、自然语言处理、语音分析等问题，然而它通常只适用于欧几里得结构或网格型结构的数据空间，其应用范围受到了一定限制。近年来，对非欧几里得图结构数据的研究不断兴起，图结构中的数据能够针对更大规模的元素表达其间更为复杂的关系。图卷积神经网络(Graph convolutional neural networks,GCNs)在图结构数据上进行图卷积，具有更为强大的信息表达能力，因此在学术界和工业界得到了极大关注。图卷积神经网络目前被广泛应用于节点分类、链路预测、图聚类实际场景，并被谷歌、Facebook、阿里巴巴等企业的数据中心技术所采用。

图神经网络的执行过程分为聚合(Aggregation)与组合(Combination)两个执行阶段。Aggregation阶段遍历图中的所有节点，并将邻居节点的特征向量信息聚合入所遍历的当前节点；Combination阶段利用基于多层感知机(Multi-layered perceptron,MLP)的神经网络进一步将每个节点的特征向量转换为新的特征向量。在图神经网络的执行过程中，Aggregation阶段的行为与图计算相似，而Combination阶段的行为与神经网络相似，且两个阶段根据层数迭代进行。

Aggregation阶段由于每个节点的邻居节点规模是不同的，因此其计算图(computation graph)是动态且不规则的；而Combination阶段则相反，其计算图是静态且规则的。Aggregation与Combination阶段所体现出的混合计算模式使得目前常规的通用处理器、图计算或神经网络专用加速器无法高效运行图神经网络。另外，若简单地分别为两个阶段构建专门的加速结构，则会产生计算资源利用率低下等问题。

发明内容

为解决上述问题，本发明提出一种面向图神经网络应用的任务调度和执行装置。该装置针对图神经网络中的不同规模和类型的计算图可以用统一的数据流形式表达设计了统一结构处理单元和动态数据流调度机制，使图神经网络能够在同一架构和同一计算资源之上，灵活地调度并执行Aggregation和Combination阶段的动态与静态计算图，从而更高效地运行图神经网络应用。

针对现有技术的不足，本发明提出一种面向图神经网络应用的任务调度执行方法，其中包括：

步骤1、待发射图运算符缓存模块读取待处理图运算符处理请求，根据该待处理图运算符处理请求的图运算符标签，从缓存中获取所需输入数据；

步骤2、发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元；

步骤3、该统一结构处理单元根据该图运算符标签的图运算符码将该输入数据映射到相应的二叉运算树的输入上和图运算符执行帧，并完成本轮运算，得到中间结果；

步骤4、标签生成器依据前一轮运算的标签信息，生成新的图运算符标签；

步骤5、该统一结构处理单元将该中间结果以及该新的图运算符标签返回给该待发射图运算符缓存模块；

步骤6、循环执行该步骤2到步骤5直至图运算符标签中剩余重复次数数值为1，将当前该统一结构处理单元生成的中间结果作为最终特征数据写回缓存。

所述的面向图神经网络应用的任务调度执行方法，其中该统一结构处理单元由一个图运算符解码器和多个图运算符执行帧组成；

该图运算符解码器用于对输入的图运算符码进行解码，并对图运算符执行帧的输入和执行进行设置；

每个该执行帧是处理输入数据的运算部件，为一个包含7个独立运算节点的二叉运算树，其中4个为输入运算节点，接收8个输入操作数，输入运算节点包含1个乘法器和1个加法器，其余运算节点仅包含1个加法器，解码器根据运算码进行解析，决定PE中各执行帧的运算类型。

所述的面向图神经网络应用的任务调度执行方法，其中该图运算符标签包括节点标号、轮次标号、当前轮次中的图运算标号、当前轮次的输出个数以及剩余重复次数；

该输出个数的数值与下一轮次的输入个数相等；图运算符标号的编号范围为1到该输出个数，当该输出个数为1时，RID停止增加；剩余重复次数为相同图运算符的重复执行次数。

所述的面向图神经网络应用的任务调度执行方法，其中该步骤2包括：在统一结构处理单元有空闲的执行帧且图运算符的输入数据已经准备齐全时，将发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元。

所述的面向图神经网络应用的任务调度执行方法，其中该输入数据为特征向量或者神经网络参数。

本发明还提出了一种面向图神经网络应用的任务调度执行系统，其中包括：

模块1、待发射图运算符缓存模块读取待处理图运算符处理请求，根据该待处理图运算符处理请求的图运算符标签，从缓存中获取所需输入数据；

模块2、发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元；

模块3、该统一结构处理单元根据该图运算符标签的图运算符码将该输入数据映射到相应的二叉运算树的输入上和图运算符执行帧，并完成本轮运算，得到中间结果；

模块4、标签生成器依据前一轮运算的标签信息，生成新的图运算符标签；

模块5、该统一结构处理单元将该中间结果以及该新的图运算符标签返回给该待发射图运算符缓存模块；

模块6、循环执行该模块2到模块5直至图运算符标签中剩余重复次数数值为1，将当前该统一结构处理单元生成的中间结果作为最终特征数据写回缓存。

所述的面向图神经网络应用的任务调度执行系统，其中该统一结构处理单元由一个图运算符解码器和多个图运算符执行帧组成；

所述的面向图神经网络应用的任务调度执行系统，其中该图运算符标签包括节点标号、轮次标号、当前轮次中的图运算标号、当前轮次的输出个数以及剩余重复次数；

所述的面向图神经网络应用的任务调度执行系统，其中该模块2包括：在统一结构处理单元有空闲的执行帧且图运算符的输入数据已经准备齐全时，将发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元。

所述的面向图神经网络应用的任务调度执行系统，其中该输入数据为特征向量或者神经网络参数。

由以上方案可知，本发明的优点在于：

(1)本发明结合基于静态数据流的统一结构处理单元，与动态数据流调度机制，能够在运行时有效适应图神经网络中变化的计算图，高效且快速执行图运算符；

(2)本发明的统一结构处理单元中的执行帧结构，能够激发不同图运算之内、之间以及流式的并行性，有效提升处理单元利用效率与性能；

(3)本发明的执行和调度机制能够充分利用所有运算资源并行执行不同的图神经网络执行阶段，有效提升计算资源利用率。

附图说明

图1为基于静态数据流的图运算抽象概念图；

图2为处理单元PE执行流程图；

图3为二叉运算树示意图；

图4为一个32输入的累加操作映射示意图；

图5为任务调度与执行过程示意图。

具体实施方式

本发明设计一种面向图神经网络应用的任务调度和执行装置。该机制通过基于静态数据流的统一结构处理单元(Processing Element,PE)与动态数据流调度机制，支持图神经网络中Aggregation和Combination阶段的混合计算模式。

1.基于静态数据流的统一结构处理单元

如附图1(a)与(b)所示，在图神经网络中，Aggregation阶段完成邻居节点特征向量的信息聚合工作，这部分计算图由累加或最大值或最小值操作组成；Combination阶段的核心为矩阵的向量乘(Matrix-vector multiplication,MVM)，这部分计算图可由乘加(multiply-and-accumulate,MAC)操作完成。因此，Aggregation和Combination阶段中特征向量中每个元素的输出结果均可通过由统一结构的二叉运算树组成的计算图产生，该统一结构的二叉运算树如附图1(c)所示。图神经网络中不同的处理任务仅由二叉运算树中运算节点的具体运算符、二叉运算树的输入操作数个数与二叉运算树的个数决定。8输入的二叉运算树在本发明中被称为图运算符。

在此基础上，本发明设计统一结构的处理单元PE。每个PE由一个图运算符解码器和若干图运算符执行帧组成。其中解码器用于对输入的图运算符码进行解码，并对执行帧的输入和执行进行设置；每个执行帧是处理输入数据的运算部件，为一个包含7个独立运算节点的二叉运算树，其中4个为输入运算节点，接收8个输入操作数。输入运算节点包含1个乘法器和1个加法器，其余运算节点仅包含1个加法器。解码器根据图运算符码进行解析，决定PE中各执行帧的实际运算类型。PE的执行流程如附图2所示。对执行帧的输入和执行进行设置包括设置执行帧的输入，也就是被运算单元处理的输入数据，设置的内容包含了被PE处理的操作数。

2.动态数据流调度机制

为使统一结构的处理单元能够执行图神经网络不同阶段的各种计算图，本发明设计了动态数据流调度机制，将各种计算图分割为若干个统一结构处理单元能够直接处理的图运算符，并在执行过程中根据图运算符之间的标签对数据的流动进行重新导向，动态邻接同一计算图的不同图运算符，以完成整个计算图的计算。

调度分为初始化和处理两个过程，均由调度器控制。初始化过程将原始的计算图进行分割，分割原则是根据原始计算图的输入操作数个数，使得每个子图的有效输入节点数量最大化，即使每个子图尽量达到8输入。调度器在任务板的空闲记录项中记录该计算图，并生成一个任务来完成该计算图的执行。标签生成器(Tag Generator,TgGen)为每个图运算符生成标签，并映射到PE的不同图运算符执行帧中。标签由五个字段组成：节点标号(VID)、轮次标号(RID)、当前轮次中的图运算符标号(GID)、当前轮次的输出个数(ONum)以及剩余重复次数(RRT)。轮次的总个数与由图运算符组成的二叉树层数相关；ONum数值与下一轮次的输入个数相等；GID的编号范围为1到ONum，当ONum为1时，RID停止增加；RRT代表相同运算图的重复执行次数，节点标号是图数据中节点的编号，轮次标号是指图4中的第几个Round。给定各图运算符的标签及相应输入操作数后，处理阶段将在PE中完成各个图运算符的执行，以及根据各个图运算符的标签连接各个图运算符的数据流，完成整个计算图的执行。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明针对图神经网络中Aggregation与Combination执行阶段呈现出的不同计算图，设计基于静态数据流的统一结构处理单元与动态数据流调度机制，从而在提升资源利用率的同时，高效地执行图神经网络应用。

下面将从3个具体示例对本发明的具体实施方式进行进一步说明。

示例1.PE中不同类型的图运算符对应的编码方式及对应的二叉运算树

PE中的解码器根据图运算符的不同编码对图运算符执行帧进行输入配置和执行配置，将执行帧具体设置为8输入的累加、最大值、最小值或乘加二叉运算树。图运算符编码为2位，00、01、10和11分别解析为累加、最大值、最小值以及乘加运算。

编码00和11分别对应的8输入累加二叉运算树和乘加二叉运算树如附图3所示。

示例2.32输入的累加操作映射过程

附图4为一个32输入的累加计算图的映射示意图。调度器在初始化阶段，根据原始计算图的输入操作数个数32，对该累加计算图进行分割，映射为4个8有效输入的图运算符及额外的1个4有效输入的图运算符中。每个图运算符对应一个由标签生成器TgGen生成的专属标签，标记其节点标号(VID)、轮次标号(RID)、当前轮次中的图运算标号(GID)当前轮次的输出个数(ONum)以及剩余重复次数(RRT)的信息。

示例3.任务调度与执行过程

本装置中，调度器通过调度图运算符的执行完成任务调度工作，处理单元PE完成图运算符的执行工作，待发射图运算符缓存模块存储待处理的图运算符处理请求、图运算符的标签及操作数，发射单元为图运算符填补输入操作，即如果图运算符的输入个数不足8个，则补齐8个，在最小比较操作中被为无穷大补齐，在最大比较操作中被无穷小补齐，在乘加操作中被0补齐。接着发射单元发射图运算符处理请求给PE。附图5展示了本发明中任务调度与执行的过程，具体步骤描述如下：

步骤501：待发射图运算符缓存模块首先读取待处理的图运算符标签，如果缺失特征向量数据或者神经网络参数数据，则通过调度器向Cache发送数据读取请求；

步骤502：Cache将所需特征向量数据或者神经网络参数数据返回给待发射图运算符缓存模块，调度器根据节点的编号以及特征向量的类型，利用存储该特征向量数组的基址加上通过节点编号获得的偏移从cache中进行寻址然后获得数据；

步骤503：当发射条件满足，即PE有空闲的执行帧且图运算符的输入数据已经准备齐全，发射单元将可发射的图运算符处理请求发送给PE；

步骤504：PE根据图运算符中的图运算符码将图运算符映射为指定的二叉运算树，并利用图运算符执行帧完成图运算符的处理；

步骤505：标签生成器依据每个被处理完的图运算符的旧标签信息，生成新的标签；

步骤506：PE根据新标签的内容将本轮计算得到的中间结果送到待发射图运算符缓存模块中，作为下一轮图运算符的输入，直到所有轮的图运算符都被执行完；

步骤507：上述过程循环执行直至RRT数值为1，PE生成的最终特征数据写回Cache。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

Claims

1.一种面向图神经网络应用的任务调度执行方法，其特征在于，包括：

2.如权利要求1所述的面向图神经网络应用的任务调度执行方法，其特征在于，该统一结构处理单元由一个图运算符解码器和多个图运算符执行帧组成；

3.如权利要求1所述的面向图神经网络应用的任务调度执行方法，其特征在于，该图运算符标签包括节点标号、轮次标号、当前轮次中的图运算标号、当前轮次的输出个数以及剩余重复次数；

4.如权利要求1所述的面向图神经网络应用的任务调度执行方法，其特征在于，该步骤2包括：在统一结构处理单元有空闲的执行帧且图运算符的输入数据已经准备齐全时，将发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元。

5.如权利要求1所述的面向图神经网络应用的任务调度执行方法，其特征在于，该输入数据为特征向量或者神经网络参数。

6.一种面向图神经网络应用的任务调度执行系统，其特征在于，包括：

7.如权利要求6所述的面向图神经网络应用的任务调度执行系统，其特征在于，该统一结构处理单元由一个图运算符解码器和多个图运算符执行帧组成；

8.如权利要求6所述的面向图神经网络应用的任务调度执行系统，其特征在于，该图运算符标签包括节点标号、轮次标号、当前轮次中的图运算标号、当前轮次的输出个数以及剩余重复次数；

9.如权利要求6所述的面向图神经网络应用的任务调度执行系统，其特征在于，该模块2包括：在统一结构处理单元有空闲的执行帧且图运算符的输入数据已经准备齐全时，将发射单元将该待处理图运算符处理请求和该输入数据发送给基于静态数据流的统一结构处理单元。

10.如权利要求1所述的面向图神经网络应用的任务调度执行系统，其特征在于，该输入数据为特征向量或者神经网络参数。