CN115796249A

CN115796249A - 面向chiplet互连的神经网络芯片层切换映射方法

Info

Publication number: CN115796249A
Application number: CN202211474491.4A
Authority: CN
Inventors: 张�浩; 任一帆; 鞠春晖; 林啸; 李阳
Original assignee: Huixi Intelligent Technology Shanghai Co ltd
Current assignee: Huixi Intelligent Technology Shanghai Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-14
Anticipated expiration: 2042-11-22
Also published as: CN115796249B

Abstract

本发明提供了一种面向chiplet互连的神经网络芯片层切换映射方法及系统，基于神经网络模型与互连拓扑图，提取所述神经网络模型层切换通信数据流；计算每层神经网络层在不同片间并行度方案(P、PK、K)下的层切换片间通信量，提取片间通信量最小时层切换通信数据流所对应的层切换映射方案。本发明提供的面向chiplet互连的神经网络芯片层切换映射方法及系统，基于chiplet互连架构，对神经网络芯片的层切换数据流进行分析，进而得到最优的神经网络芯片层切换映射方案；算法复杂度为O(n)级别，在ResNet‑50模型上，相比于仅考虑层内通信的方案，降低了约10.29％能量延时积(EDP)。

Description

面向chiplet互连的神经网络芯片层切换映射方法

技术领域

本发明涉及神经网络芯片技术领域的一种映射技术，具体地，涉及一种面向chiplet互连的神经网络芯片层切换映射方法及系统。同时提供了一种相应的终端及计算机可读存储介质。

背景技术

近年来，深度神经网络(Deep Neural Network，DNN)，尤其是卷积神经网络(Convolutional Neural Network，CNN)在包括人脸识别、语言识别和自动驾驶等多个领域中取得了出色的表现，并成功应用在各种人工智能设备上。神经网络芯片主要通过挖掘算法中的并行性提升性能。

然而，随着深度学习的飞速发展，神经网络模型层数不断增加，计算量和参数量也有了大幅增长。不断增长的计算资源和存储资源也导致芯片面积增大，制造成本大幅提升。目前，图形处理器(Graphic Processing Unit，GPU)和其他商用深度学习芯片面积已接近工艺极限。Chiplet技术将系统级芯片(System on Chip，SoC)划分为多个“芯粒”，并通过2.5D或3D封装等高级封装方式封装为一个大芯片。由于每个Chiplet在面积上相比传统SoC更小，因此在成本和良率上有明显的优势，成为延续摩尔定律的重要解决方案之一。

然而，现有算法大多忽略了两层神经网络层切换过程中的通信需求，因此难以得到系统性能最优映射方案。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种面向chiplet互连的神经网络芯片层切换映射方法及系统。同时提供了一种相应的终端及计算机可读存储介质。

根据本发明的一个方面，提供了一种面向chiplet互连的神经网络芯片层切换映射方法，包括：

遍历神经网络芯片中的每一个层切换阶段，对于每一次层切换，基于所需映射的神经网络芯片的互连拓扑结构，提取所述神经网络芯片第l-1层到第l层的层切换通信数据流；

遍历所有可能的层切换通信数据流，计算层切换时片间通信量；

遍历所述神经网络芯片中的每一个层切换阶段，提取片间通信量最小时的层切换通信数据流所对应的层切换映射方案，完成神经网络芯片层切换映射。

可选地，所述提取所述神经网络芯片第l-1层到第l层的层切换通信数据流，包括：

所述神经网络芯片层映射片间并行度来源于P、PK和K三个维度，其中，P表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

基于所述神经网络芯片的互连拓扑结构和所述神经网络芯片层映射片间并行度约束，使得所述神经网络芯片层切换通信发生在片间；

基于所述神经网络芯片层映射片间并行度的3种配置，依据所述神经网络芯片第l-1层和第l层的并行度来源设置，得到9种所述神经网络芯片层切换通信数据流模式；

针对得到的9种所述层切换通信数据流模型，进行通信流量抽象，引入集合通信，将层切换通信数据流划分为unicast、all-gather、scatter、unicast+all-gather和scatter+all-gather五种类型，并针对划分的五种类型的所述通信数据流进行通信实现；其中，unicast表示单播，all-gather表示全搜集，scatter表示分散，unicast+all-gather表示单播加上全搜集，scatter+all-gather表示分散加上全搜集，得到五种类型的神经网络芯片第l-1层到第l层的层切换通信数据流。

可选地，所述计算层切换时片间通信量的方法，包括：

提取第l-1层的输出特征图尺寸和第l层的输入特征图尺寸信息；

基于第l-1层到第l层的层切换通信数据流，并结合所述通信数据流的实现方法，得到所述通信数据流在神经网络芯片的片间拓扑结构上的实现路径与访存情况，从而计算出层切换时片间通信量。

根据本发明的另一个方面，提供了一种面向chiplet互连的神经网络芯片层切换映射系统，包括：

通信数据流提取模块，该模块基于遍历神经网络芯片中的每一个层切换阶段，对于每一次层切换，基于所需映射的神经网络芯片的互连拓扑结构，提取所述神经网络芯片第l-1层到第l层的层切换通信数据流；

片间通信量获取模块，该模块用于遍历所有可能的层切换通信数据流，计算层切换时片间通信量；

映射方案获取模块，该模块用于遍历所述神经网络芯片中的每一个层切换阶段，提取片间通信量最小时的层切换通信数据流所对应的层切换映射方案。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的面向chiplet互连的神经网络芯片层切换映射方法及系统，基于chiplet互连架构，对神经网络芯片的层切换数据流进行分析，进而得到低延时、低功耗、高性能的神经网络芯片层切换映射方案。

本发明提供的面向chiplet互连的神经网络芯片层切换映射方法及系统，算法复杂度为O(n)级别，在ResNet-50模型上，相比于仅考虑层内通信的方案，降低了约10.29％能量延时积(EDP)，降低神经网络芯片的处理延时与运行功耗。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中面向chiplet互连的神经网络层切换映射方法的工作流程图。

图2为本发明一优选实施例中基于chiplet互连的神经网络芯片互联拓扑结构(硬件架构)整体结构示意图。

图3为本发明一优选实施例中神经网络层切换过程中的数据通信情况示意图。

图4为本发明一优选实施例中集合通信示意图。

图5为本发明一优选实施例中神经网络层切换通信模式实现图；其中，(a)为单播，(b)为全搜集，(c)单播加上全搜集、(d)分散。

图6为本发明一实施例中面向chiplet互连的神经网络层切换映射系统的组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种面向chiplet互连的神经网络层切换映射方法。

如图1所示，该实施例提供的面向chiplet互连的神经网络层切换映射方法，可以包括如下步骤：

步骤1：遍历神经网络芯片中的每一个层切换阶段，对于每一次层切换，基于所需映射的神经网络芯片的互连拓扑结构，提取神经网络芯片第l-1层到第l层的层切换通信数据流；在一优选实施例中，步骤1具体可以包括如下步骤：

步骤1-1：遍历神经网络芯片中的每一个层切换阶段，每个层切换都执行步骤1-2到步骤1-4；其中：

神经网络芯片层映射片间并行度来源于P、PK和K三个维度，其中，P表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

步骤1-2：基于神经网络芯片的互联拓扑结构(硬件架构)和神经网络芯片层映射片间并行度约束，使得神经网络层芯片切换通信主要是不同chiplet在神经网络第l-1层处理得到的输出特征图数据和第l层所需要的输入特征图数据存在差异，从而引发的需要从其他chiplet中获取所需数据，故神经网络芯片层切换通信主要发生在片间；

步骤1-3：基于神经网络芯片层映射片间并行度的3种配置，依据第l-1层和第l层的并行度来源设置，神经网络芯片层切换通信数据流模式共有3×3＝9种；

步骤1-4：针对步骤1-4的9种层切换通信数据流模式，进行通信流量抽象，引入集合通信，将层切换通信数据流划分为unicast、all-gather、scatter、unicast+all-gather和scatter+all-gather五种类型，通过划分为这五种类型，针对这五种类型数据通信模式进行通信实现；其中，unicast表示单播，all-gather表示全搜集，scatter表示分散，unicast+all-gather表示单播加上全搜集，scatter+all-gather表示分散加上全搜集，得到五种类型的神经网络芯片层切换通信数据流。

步骤2：遍历所有可能的层切换通信数据流，计算层切换时片间通信量；在一优选实施例中，步骤2具体可以包括如下步骤：

步骤2-1：遍历神经网络模型中的每一个层切换阶段，每个层切换都执行步骤2-2到步骤2-3；

步骤2-2：提取第l-1层的输出特征图尺寸和第l层的输入特征图尺寸信息；

步骤2-3：基于步骤1提取的9种通信模式的层切换通信流信息，结合具体的通信流实现方法(即步骤1-4中的“单播”、“全搜索”、“单播加全搜索”、“分散”、“分散加全搜集”五种实现方法)，可得到通信数据流在片间拓扑上的实现路径与访存情况，从而可以计算出片间通信量。

如图5中(a)～(d)所示，具体的通信实现方法，参考了主流的集合通信(Collective Communications)实现的方式：

单播：如图5中(a)所示，由于片间通信下的单播是指每个芯片仅与相邻编号的芯片进行数据通信，故通信实现上仅需找到一条路径链接按顺序链接所有相邻编号的芯片，所有的单播通信均在此链路上，即可实现单播数据流的无拥塞通信实现；

全搜索(全搜集)：如图5中(b)所示，片间通信下的全搜索是每个芯片都要向所有其他芯片广播自己的数据，参考ring all reduce的实现，为了实现无拥塞通信实现，其关键在于寻找一条环路连接所有的节点，在每一次的数据传输中，每个节点都向环路中注入固定数目的数据(数据量等于链路一次可传输的数据数目)，这部分数据沿着环路途径环路上的所有节点，所有节点每个时钟周期的操作都是接收环路来的数据包，并把它传输给环路的下一个节点，这样就完成一批次数据的传输，重复多批次就实现了全搜索，实现了全搜索数据流的无拥塞通信实现；

单播加全搜索：片间通信下的单播加全搜索的数据传输，通过分组来描述，如图5中(c)所示，四个角的四个芯片节点为一组，组内的芯片所需的数据是一样的，是一种全搜索，四个组之间存在着单播的数据流，故总体上是一种单播加全搜索。这种通信实现，分为3个步骤，首先组内全搜索，使得组内芯片获得组内其他芯片的所有数据，其次组间单播(发生在3、6、9、12四个节点上)，使得组间单播的芯片(3、6、9、12号芯片节点)能获得相邻组的数据，最后在组内广播，使得组内其他芯片获得组件单播的数据。

分散：如图5中(d)所示，片间通信下的分散是每个芯片都要向其他所有芯片传输数据，并且给不同的芯片不同的数据，是一种单播的行为，其通信实现可以通过多次的单播实现，通过寻找一个环路连接所有的节点，第一批次数据传输，传输给编号相邻(加1)的节点，第二批次数据传输，传输给自身编号加2的节点，以此类推，每批次都是一个环路上的单播数据通信，实现了分散数据流的无拥塞通信实现。

步骤3：遍历神经网络芯片中的每一个层切换阶段，提取片间通信量最小时的层切换通信数据流所对应的层切换映射方案，完成神经网络芯片层切换映射。

下面结合一具体应用实例，对本发明上述实施例提供的技术方案进一步说明。

为了使本发明实现的措施、创作特征、达成目的与功效易于明白了解，以下结合附图对本发明的实施例作详细说明，但不应以此限制本发明的保护范围。

以ResNet-18为实施例，具体ResNet-18网络结构如表1所示，基于如图2所示的硬件架构，进行神经网络模型映射说明：

表1ResNet-18网络结构

该具体应用实例包括以下步骤：

步骤1：基于ResNet-18神经网络模型与如图2所示的片间互连拓扑图，遍历神经网络模型中的每一个层切换阶段，对于每一次层切换，基于所需映射的神经网络模型与互连拓扑结构，提取神经网络模型第l-1层到第l层的层切换通信数据流；

步骤1-1：遍历神经网络中所有的卷积层与全连接层，执行以下步骤1-2到步骤1-4；

步骤1-2：基于芯片硬件架构和神经网络层映射片间并行度约束，神经网络层切换通信主要是不同Chiplet在神经网络第l-1层处理得到的输出特征图数据和第l层所需要的输入特征图数据存在差异，从而引发的需要从其他Chiplet中获取所需数据，故神经网络层切换通信主要发生在片间；

步骤1-3：基于神经网络层映射片间并行度的3种配置(P、PK、K)，依据第l-1层和第l层的并行度来源设置，神经网络层间切换的通信数据流模式共有3×3＝9种；如图3所示，中间部分为层切换数据流，左列为Chiplet0在第l-1层中计算得到的输出特征图元素，在计算结束后放置于本地的DRAM0中，上边一行为Chiplet0在第l层中所需要的输入特征图元素，上边灰色块比左边灰色块所多出来的部分就是中间的灰色块，也是需要通信的Chiplet0在层切换阶段需要通信得到的数据信息；

步骤1-4：针对步骤1-3的9种层切换通信数据流，进行通信流量抽象，引入集合通信，将层切换通信数据流划分为unicast，all-gather，scatter，unicast+all-gather，scatter+all-gather五大类型，具体的all-gather与scatter的通信数据流如图4所示；

根据图2可以看到具有相同P序号而K序号不同的chiplet在卷积层运算中，需要的输入特征图数目是相同的，称之为一个组(Set)，组内的所有chiplet可以采用all-gather类型的通信模式进行数据广播，而在前一层的P并行度小于当前层P并行度时，每个chiplet的数据需要分发给其他chiplet，因为新的chiplet仅负责输出特征图宽度方向的一部分，且负责的数据各不相同，因此需要的输入数据各不相同，这种数据传输模式与scatter相同。

步骤2：遍历所有可能的层切换通信数据流，计算层切换时片间通信量；

步骤2-3：基于步骤1的9种通信模式的通信流信息，结合具体的通信流实现方法，可得到通信流在片间拓扑上的实现路径与访存情况，从而可以计算出片间通信量；

步骤2-3-1：针对于步骤1-4提出的unicast、all-gather、scatter，本发明基于Mesh拓扑结构进行了通信流量实现，如图5中(a)～(d)所示，图中，

(a)unicast模式只有相邻节点有通信需求，因此仅需要在mesh里找到一条路径，使得所有相邻节点间有链路，这样可以达到最优的unicast实现方案；

(b)all-gather常常依赖ring拓扑实现，因为在ring拓扑下，在每个时钟周期，每个节点都可以接收一个它需要的数据包并发送一个数据包，这样可以完全利用链路的带宽，在mesh拓扑中，当16个节点都需要得到其他节点数据时可以寻找一个环路，完成相同的功能；

(c)unicast+all-gather：与all-gather类似的，在unicast+all-gather数据流实现中，也利用ring进行组内的数据广播，利用ring进行组内all-gather，且组间通过链路选取能够灵活进行unicast的实现方案；

(d)scatter分散数据流，它可以通过多次的unicast实现；

步骤3：遍历神经网络模型中的每一个层切换阶段，提取片间通信量最小的层切换通信数据流所对应的层切换映射方案。

本发明一实施例提供了一种面向chiplet互连的神经网络层切换映射系统。

如图6所示，该实施例提供的面向chiplet互连的神经网络层切换映射系统，可以包括如下模块：

通信数据流提取模块，该模块基于遍历神经网络芯片中的每一个层切换阶段，对于每一次层切换，基于所需映射的神经网络芯片的互连拓扑结构，提取神经网络芯片第l-1层到第l层的层切换通信数据流；

映射方案获取模块，该模块用于遍历神经网络芯片中的每一个层切换阶段，提取片间通信量最小时的层切换通信数据流所对应的层切换映射方案。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项方法。

本发明一实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明上述实施例提供的面向chiplet互连的神经网络层切换映射方法及系统，基于chiplet互连架构，对神经网络模型的层切换数据流进行分析，能够得到最优的神经网络层切换映射方案；算法复杂度为O(n)级别，在ResNet-50模型上，相比于仅考虑层内通信的方案，降低了约10.29％能量延时积(EDP)。

本发明上述实施例中未尽事宜均为本领域公知技术。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种面向chiplet互连的神经网络芯片层切换映射方法，其特征在于，包括：

2.根据权利要求1所述的面向chiplet互连的神经网络芯片层切换映射方法，其特征在于，所述提取所述神经网络芯片第l-1层到第l层的层切换通信数据流，包括：

针对得到的9种所述层切换通信数据流模式，进行通信流量抽象，引入集合通信，将层切换通信数据流划分为unicast、all-gather、scatter、unicast+all-gather和scatter+all-gather五种类型，并针对划分的五种类型的所述通信数据流进行通信实现；其中，unicast表示单播，all-gather表示全搜集，scatter表示分散，unicast+all-gather表示单播加上全搜集，scatter+all-gather表示分散加上全搜集，得到五种类型的神经网络芯片第l-1层到第l层的层切换通信数据流。

3.根据权利要求1所述的面向chiplet互连的神经网络芯片层切换映射方法，其特征在于，所述计算层切换时片间通信量的方法，包括：

4.一种面向chiplet互连的神经网络芯片层切换映射系统，其特征在于，包括：

5.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-4中任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-4中任一项所述的方法。