CN111695685A

CN111695685A - 一种面向图神经网络应用的片上存储系统及方法

Info

Publication number: CN111695685A
Application number: CN202010395809.4A
Authority: CN
Inventors: 严明玉; 李涵; 叶笑春; 曹华伟; 范东睿
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-09-22
Anticipated expiration: 2040-05-12
Also published as: CN111695685B

Abstract

本发明提出一种面向图神经网络应用的片上存储系统及方法，包括：步骤1，根据处理单元对图神经网络模型中向量数据的访存请求，判断在片上存储系统的第一级CAM结构中是否有于该访存请求对应的查询结果，若有则执行步骤2，否则判断在片上存储系统的第二级CAM结构中是否有于该访存请求对应的查询结果，若有则执行步骤2，否则根据所需的向量数据批量对片外存储器发起片外访存请求，并替换片上存储内的指定向量数据；步骤2，根据该查询结果，得到对应的SPM索引标记，利用该SPM索引标记中的Sector Index字段以向量方式访问SPM中的相应向量数据，并将该相应数据返回给处理单元。本发明能有效提升面向图神经网络应用的片上存储系统的利用率和访存通量。

Description

一种面向图神经网络应用的片上存储系统及方法

技术领域

本发明涉及图神经网络应用领域，特别涉及一种面向图神经网络应用的片上存储系统。

背景技术

受神经网络强大学习能力的启发，为更有效地表示和处理图结构数据，图卷积神经网络(Graph convolutional neural networks,GCNs)应用而生。图神经网络模型将图数据转换入低维空间，同时最大程度地保留图的结构和属性信息，并通过构造神经网络的方式，进行后续的训练和推理。图神经网络凭借其极强的图数据信息表达能力，在工业界和学术界都得到了广泛关注，常用于解决包括图聚类、节点分类、推荐在内的诸多实际应用问题。因此图神经网络模型逐渐在各大网络公司(如Facebook、谷歌等)的数据中心技术中占据一席之地。

图神经网络模型包含两个不同的执行阶段：聚合(Aggregation)阶段通过遍历图对图中每个节点进行邻居节点特征向量信息的聚合；组合(Combination)阶段对图中每个节点的特征向量进行转换。这两个阶段不同的执行特征形成一种典型的混合执行模式，需要各自不同甚至对立的优化策略。Aggregation阶段需要更着重于访存的优化，而Combination阶段更需要提升运算的并行性和同步性。访存需求和模式的不同使得合理且高利用率地进行访存对图神经网络应用的性能提升产生重要意义。

由于Aggregation阶段访存的不规则性，传统CPU平台的存储系统无法高效支持图神经网络模型的运行，且难于实现不同运算单元之间的数据复用。GPU平台尽管为神经网络等计算密集型负载进行了优化，但仍然无法高效完成不规则访存，且Combination阶段需要完成高开销的数据拷贝工作。Aggregation和Combination两个阶段的混合执行模式，使得常见面向图计算和面向神经网络的专用加速器无法同时满足两个阶段的访存需求。而同时包含分别针对两个阶段加速引擎的系统也会导致存储资源利用率低下等问题。

发明内容

为解决上述问题，本发明提出一种面向图神经网络应用的片上存储系统。该系统针对图神经网络模型不同阶段的混合执行模式特点，配备动态可重配的片上存储，使Aggregation和Combination阶段能够统一高效地利用片上存储和以向量方式访问图神经网络中的向量数据，从而进一步减少图神经网络模型中的冗余访存，提高存储资源利用率和访存通量。

针对现有技术的不足，本发明提出一种面向图神经网络应用的片上存储方法，其中包括：

步骤1、根据处理单元对图神经网络模型中向量数据的访存请求，判断在片上存储系统的第一级CAM结构中是否有于该访存请求对应的查询结果，若有则执行步骤2，否则判断在片上存储系统的第二级CAM结构中是否有于该访存请求对应的查询结果，若有则执行步骤2，否则根据所需的向量数据批量对片外存储器发起片外访存请求，并替换片上存储内的指定向量数据；

步骤2、根据该查询结果，得到对应的SPM索引标记，利用该SPM索引标记中的SectorIndex字段以向量方式访问SPM中的相应向量数据，并将该相应数据返回给处理单元。

所述的面向图神经网络应用的片上存储方法，其中该第一级CAM结构和该第二级CAM结构中的每个条目均包含：查询标签和SPM索引标记；

该查询标签用于查询SPM索引标记，包含：用于区分图神经网络不同阶段的场景编号MID；聚合/输出特征向量的节点编号VID或输入特征向量的邻居节点编号NeiID或权重矩阵的行编号RowID。

该SPM索引标记包含：SPM数据替换提示标记与记录SPM数据首地址的区块编号。

所述的面向图神经网络应用的片上存储方法，其中以向量方式访问SPM中的相应向量数据包括：连续访问以Sector Index作为起始访存地址且以被访问向量数据的长度作为访存长度的片上存储空间。

所述的面向图神经网络应用的片上存储方法，其中

在SPM中分配预设值以下的第一存储空间用于存储多层感知器的参数；

在SPM中根据聚合运算后得到的特征向量长度以及当前在线处理的节点数量分配第二存储空间，用于存储聚合后的特征向量、多层感知器输出的特征向量；

在SPM中除去该第一存储空间和该第二存储空间以外的存储空间，用于缓存在图遍历期间产生数据替换的输入特征向量。

所述的面向图神经网络应用的片上存储方法，其中SPM以区块的形式组织数据，每个区块存储64Byte的数据，并以起始地址和向量数据长度完成存储向量数据的多个区块的连续访问。

本发明还提出了一种面向图神经网络应用的片上存储系统，其中包括：

模块1、根据处理单元对图神经网络模型中向量数据的访存请求，判断在片上存储系统的第一级CAM结构中是否有于该访存请求对应的查询结果，若有则执行模块2，否则判断在片上存储系统的第二级CAM结构中是否有于该访存请求对应的查询结果，若有则执行模块2，否则根据所需的向量数据批量对片外存储器发起片外访存请求，并替换片上存储内的指定向量数据；

模块2、根据该查询结果，得到对应的SPM索引标记，利用该SPM索引标记中的SectorIndex字段以向量方式访问SPM中的相应向量数据，并将该相应数据返回给处理单元。

所述的面向图神经网络应用的片上存储系统，其中该第一级CAM结构和该第二级CAM结构中的每个条目均包含：查询标签和SPM索引标记；

所述的面向图神经网络应用的片上存储系统，其中以向量方式访问SPM中的相应向量数据包括：连续访问以SectorIndex作为起始访存地址且以被访问向量数据的长度作为访存长度的片上存储空间。

所述的面向图神经网络应用的片上存储系统，其中

所述的面向图神经网络应用的片上存储系统，其中SPM以区块的形式组织数据，每个区块存储64Byte的数据，并以起始地址和向量数据长度完成存储向量数据的多个区块的连续访问。

由以上方案可知，本发明的优点在于：

(1)本发明采用两级CAM(内容可寻址存储器Content Addressed Memory)，结构与SPM(便笺式存储器Scratch Pad Memory)存储单元结合的方式，支持图神经网络不同阶段统一使用相同的片上存储资源，能够动态进行存储划分，有效提升片上存储资源的利用率和访存通量；

(2)本发明中片上存储系统的SPM采用区块sector的形式组织数据并以向量方式访问数据，增强数据存储灵活性，便于进行动态存储划分，以及提高访存通量；

(3)本发明中片上存储系统的两级CAM结构，高效索引SPM中内容，且支持以较小开销动态根据存储划分进行信息重配。

附图说明

图1为单级CAM结构示意图；

图2为SPM存储单元结构示意图；

图3为片上存储系统访存示意图。

具体实施方式

本发明设计一种面向图神经网络应用的片上存储系统。该系统包含一块用于存储片上图数据的SPM(Scratch Pad Memory)，以及用于检索SPM中数据的两级CAM结构。本发明利用动态可重配等策略支持图神经网络系统的不同阶段统一使用片上存储，提升存储资源利用率与访存通量。

1.两级CAM结构

本发明的片上存储系统中包含用于检索SPM中数据的两级CAM结构，结构示意图参见附图1。该两级CAM结构通过动态可重配性实现片上存储动态分割，从而有效地利用片上存储，满足图神经网络不同阶段执行过程中变化的存储需求。动态可重配性具体过程是将被各个存储空间存储的向量数据的条目写入到CAM结构中，向量数据存储到SPM存储单元中。比如分配第二存储空间的过程中，每个节点的向量数据的节点编号、MID和sectorindex作为一个条目，写入CAM结构中，向量数据根据sectorindex写入到SPM中。

第一级CAM用于检索SPM中最经常访问的数据，当有数据访存请求输入时，第一级CAM首先进行查询，如果发生缺失，则立即进行第二级CAM的查询。两级结构能够有效降低较大的单级(二级)CAM的查询开销。如附图1所示，CAM中的每个条目都包含两块内容：查询标签和SPM索引标记。查询标签用于查询SPM索引标记，包含两部分内容：用于区分图神经网络不同阶段的场景编号MID；聚合/输出特征向量的节点编号VID或输入特征向量的邻居节点编号NeiID或权重矩阵的行编号RowID。SPM索引标记包含两部分内容：SPM数据替换提示标记与记录SPM数据首地址的区块编号(Sector Index)。

存储单元需对四种不同类型的数据进行存储空间划分。在Aggregation阶段，SPM存储单元中仅缓存输入的节点特征向量以及聚合运算后得到的特征向量；在Combination阶段，SPM存储单元缓存聚合后的特征向量、多层感知器(Multi-layered perceptron,MLP)的参数以及输出的特征向量。如附图1所示，对应于上述四种不同类型数据，每个SPM索引标记可用于索引不同类型的数据，具体内容为：InFVAddr包含输入特征向量的地址和记录输入特征向量中剩余未处理出度的ReOutDeg，即数据替换指示标记；OutFVAddr包含输出特征向量的地址；AggFVAddr包含聚合后特征向量的地址；WRowAddr包含权重矩阵的行地址。

2.SPM存储单元

如附图2所示，为方便数据重置，本发明片上存储系统中的SPM以一系列区块(sector)的形式组织数据，每个区块可以存储64Byte的数据。由于在图神经网络模型的单个层/迭代中，特征向量的长度和权重矩阵行的尺寸是确定的，因此特征数据和权重参数可存储于连续的若干区块中，且仅需用一个地址来索引起始区块即可。

SPM中存储空间分配规则如下：1)对于多层感知器的参数，仅需分配较小的固定存储空间；2)对于聚合后的以及输出的特征向量，存储空间分配取决于这些特征向量的长度以及当前在线处理的节点数量；3)剩余的存储空间可用于缓存在图遍历期间产生数据替换的输入特征向量。在运行时，本系统能够动态地将大型SPM存储进行分割，分配给不同类型的数据，并且只需很小的开销即可根据存储需求调整CAM结构中的相应条目。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明针对图神经网络应用中不同阶段变化的访存需求特性，设计统一的片上存储系统，利用两级CAM结构与SPM的构架方式灵活地组织和检索片上图数据，同时通过动态可重配性有效提升存储资源利用率和访存通量。

下面从具体示例对本发明的具体实施方式进行进一步说明。

附图3为该片上存储系统的访存过程示意图。在图神经网络模型访存过程中，片上存储系统根据输入的节点编号或邻居节点编号，以及用于区分图神经网络不同阶段的场景编号MID在两级CAM结构中对被访问的向量数据的存储起始地址进行查询，得到SPM中对应向量数据的起始sector地址和数据替换指示标记，并将连续多个sector内的数据返回给处理单元，具体步骤如下：

步骤301：片上存储系统接收输入的访存请求，请求内容包含了节点编号或邻居节点编号，以及用于区分图神经网络不同阶段的场景编号MID；

步骤302：根据请求信息，首先在第一级CAM结构(L1CAM)中进行查询；

步骤303：若L1CAM无法索引得到向量数据的访存起始sector地址，则在第二级CAM结构(L2CAM)中进行查询；

步骤304：根据L1/L2CAM的查询结果，得到对应的SPM索引标记，利用其中的SectorIndex字段连续访问SPM中相应多个sector的数据，以完成向量数据的访问；

步骤305：SPM返回所需向量数据给处理单元；

步骤306：若两级CAM的查询均失败，则SPM需要片外访存进行数据替换。SPM存储单元根据SPM中所有输入特征向量的数据替换指示标记，选择剩余未处理出度最小的输入特征向量，批量对片外存储器发起片外访存请求，并替换该向量数据。

上述访存方式不是用地址访存，而是通过CAM中节点编号等信息首先索引获取SPM索引项，然后通过SPM索引项访问SPM存储器中数据。由此可以体现出本申请面向的是图数据的访存过程。

Claims

1.一种面向图神经网络应用的片上存储方法，其特征在于，包括：

2.如权利要求1所述的面向图神经网络应用的片上存储方法，其特征在于，该第一级CAM结构和该第二级CAM结构中的每个条目均包含：查询标签和SPM索引标记；

3.如权利要求1所述的面向图神经网络应用的片上存储方法，其特征在于，以向量方式访问SPM中的相应向量数据包括：连续访问以Sector Index作为起始访存地址且以被访问向量数据的长度作为访存长度的片上存储空间。

4.如权利要求2所述的面向图神经网络应用的片上存储方法，其特征在于，

5.如权利要求4所述的面向图神经网络应用的片上存储方法，其特征在于，SPM以区块的形式组织数据，每个区块存储64Byte的数据，并以起始地址和向量数据长度完成存储向量数据的多个区块的连续访问。

6.一种面向图神经网络应用的片上存储系统，其特征在于，包括：

7.如权利要求6所述的面向图神经网络应用的片上存储系统，其特征在于，该第一级CAM结构和该第二级CAM结构中的每个条目均包含：查询标签和SPM索引标记；

8.如权利要求7所述的面向图神经网络应用的片上存储系统，其特征在于，以向量方式访问SPM中的相应向量数据包括：连续访问以Sector Index作为起始访存地址且以被访问向量数据的长度作为访存长度的片上存储空间。

9.如权利要求8所述的面向图神经网络应用的片上存储系统，其特征在于，

10.如权利要求4所述的面向图神经网络应用的片上存储系统，其特征在于，SPM以区块的形式组织数据，每个区块存储64Byte的数据，并以起始地址和向量数据长度完成存储向量数据的多个区块的连续访问。