CN115713103B

CN115713103B - 片上-片间互连的神经网络芯片联合性能预测方法及系统

Info

Publication number: CN115713103B
Application number: CN202211483755.2A
Authority: CN
Inventors: 张�浩; 罗飞; 鞠春晖; 董中飞; 岳大胜
Original assignee: Huixi Intelligent Technology Shanghai Co ltd
Current assignee: Huixi Intelligent Technology Shanghai Co ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-08-18
Anticipated expiration: 2042-11-24
Also published as: CN115713103A

Abstract

本发明提供了一种片上‑片间互连的神经网络芯片联合性能预测方法及系统，基于神经网络芯片的互连拓扑结构，提取神经网络芯片通信数据流；基于所述通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案下的各自的最优性能；基于所述通信数据流，进行神经网络层切换性能预测，得到相应的片间并行度组合方案下的层切换性能；通过上述步骤，即完成神经网络芯片层内和层间的联合性能预测。本发明基于片上‑片间互连架构，对神经网络模型的数据流进行分析，建立了片上与片间通信模型，成为性能预测的基础，能逼近真实情况下的性能，提高性能预测的有效性。

Description

片上-片间互连的神经网络芯片联合性能预测方法及系统

技术领域

本发明涉及神经网络芯片技术领域的一种性能预测技术，具体地，涉及一种基于Chiplet片上-片间互连的神经网络芯片架构层内-层间联合性能预测方法及系统。同时提供了一种相应的终端及计算机可读存储介质。

背景技术

近年来，深度神经网络(Deep Neural Network，DNN)，尤其是卷积神经网络(Convolutional Neural Network，CNN)在包括人脸识别、语言识别和自动驾驶等多个领域中取得了出色的表现，并成功应用在各种人工智能设备上。神经网络芯片主要通过挖掘算法中的并行性提升性能。

然而，随着深度学习的飞速发展，神经网络模型层数不断增加，计算量和参数量也有了大幅增长。如何给计算资源及时供给所需的大量数据成为设计难点，计算资源和存储单元、计算资源和计算资源之间的数据通信也逐渐成为系统的瓶颈。针对这一问题，研究者提出采用片上网络(Network on Chip，NoC)连接片上的存储和计算资源，它能够缓解通信压力，同时提供数据传输的灵活性，逐渐成为一种新的神经网络芯片设计范式。

另一方面，不断增长的计算资源和存储资源也导致芯片面积增大，制造成本大幅提升。目前，图形处理器(Graphic Processing Unit，GPU)和其他商用深度学习芯片面积已接近工艺极限。Chiplet技术将系统级芯片(System on Chip，SoC) 划分为多个“芯粒”，并通过2.5D或3D封装等高级封装方式封装为一个大芯片。由于每个Chiplet在面积上相比传统SoC更小，因此在成本和良率上有明显的优势，成为延续摩尔定律的重要解决方案之一。

然而，Chiplet技术下片上和片间的两层互连网络不仅为硬件设计带来了更大的探索空间，也加剧了神经网络模型的性能预测困难程度。在芯片设计阶段，性能预测方便设计者快速评估芯片性能指标，在芯片设计早期以较低的成本及时调整硬件参数与设计方案；在算法映射阶段，性能预测方便设计者调整映射方案，提升系统整体性能。针对基于chiplet的AI芯片，传统的周期精确的仿真器如Gem5可以实现性能预测，但由于深度神经网络层数多、计算量大，周期精确的性能预测较为耗时；同时由于算法映射与硬件参数选择具有较大的设计空间，待探索方案较多，现有仿真模型的速度无法快速迭代的需求，难以得到系统性能最优映射方案。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于Chiplet片上-片间互连的神经网络芯片架构的片上-片间互连的神经网络芯片联合性能预测方法及系统，同时提供了一种相应的终端及计算机可读存储介质。其中，片上-片间表示片上互连与片上互连联合，即为一种片上互连与片间互连联合的神经网络芯片的性能预测技术。

根据本发明的一个方面，提供了一种片上-片间互连的神经网络芯片联合性能预测方法，包括：

基于神经网络芯片的互连拓扑结构，提取神经网络芯片通信数据流；

基于所述通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案P、PK和K下的各自的最优性能，其中，P表示输出特征图的宽维度， K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

基于所述通信数据流，进行神经网络层切换性能预测，得到相应的片间并行度组合方案下的层切换性能；

通过上述步骤，即完成神经网络芯片层内和层间的联合性能预测。

可选地，所述提取神经网络芯片通信数据流，包括：

设神经网络芯片通信仅发生在片上L2缓存与PE阵列和L2缓存与DRAM间的数据交互；其中，片间并行度来源于P、PK和K三个维度，不同芯片处理不同部分的输出特征图，在进行通信数据流计算时无芯片间通信；

获取神经网络模型第l层的各级存储单元在本层计算中包含的通信需求，包括：WL1_comm_l、AL1_comm_l、OL1_comm_l、WL2_comm_l、AL2_comm_l和OL2_comm_l；其中，WL1_comm_l表示WL1需要从WL2中读取的数据量，WL2_comm_l表示WL2 需要从本地DRAM中读取的数据量；WL1为权重一级缓存，WL2为权重二级缓存，AL1_comm_l为输入特征图一级缓存与二级缓存交互数据量，OL1_comm_l为输出特征图一级缓存与二级缓存通信数据量，AL2_comm_l为输入特征图二级缓存与DRAM通信数据量，OL2_comm_l为输出特征图二级缓存与DRAM通信数据量，AL1为输入特征图一级缓存，AL2为输入特征图二级缓存，OL1为输出特征图一级缓存，OL2为输出特征图二级缓存；

基于所述通信需求，对神经网络芯片层内通信进行抽象，将L2缓存与PE阵列间的数据通信划分为单播、多播和广播三种类型，得到三种类型的神经网络模型通信数据流。

可选地，所述进行神经网络层内性能预测，包括：

遍历神经网络芯片中所有的卷积层与全连接层，执行以下步骤：

从片间并行度方案{P、PK、K}中选择一个片间并行度方案；

基于选择的所述片间并行度方案，得到每个芯片的该神经网络层的计算任务基于互连网络拥塞度进行所述神经网络芯片层内性能预测，得到EDP能量延时积，对能量与延时两大性能指标进行综合评价；

基于所述层内性能预测的结果，与选择的所述片间并行度方案下的历史最优性能进行比较，保留更优者为最优性能；

遍历片间并行度方案，输出每一种片间并行度方案各自对应的最优性能；

遍历所述神经网络芯片所有的卷积层与全连接层，得到各层对应的每一种片间并行度方案下的最优性能，完成层内性能预测，得到每层神经网络层片间并行度方案的最优性能。

可选地，所述基于互连网络拥塞度进行所述神经网络芯片层内性能预测，包括：

获得延时性能，包括：

计算所述神经网络层内的理想计算延时；

基于互连网络拥塞度，计算所述神经网络层内的互连通信延时；

通过比较所述理想计算延时与所述互连通信延时，取较大者作为所述神经网络层内的延时性能；

得到能量指标，包括：

计算所述神经网络层内的计算能量；

计算所述神经网络层内的互连通信能量；

计算所述神经网络层内的访存能量；

通过将所述计算能量、所述互连通信能量和所述访存能量相加，得到所述神经网络层内的能量指标；

将得到的所述延时性能乘以所述能量指标，得到所述神经网络层内的能量延时积，完成神经网络层内的性能预测。

可选地，所述计算所述神经网络层内的理想计算延时，包括：获取所述神经网络层内的计算任务数目和层内的计算资源数目，并将所述计算任务数目除以所述计算资源数目，得到理想计算延时。

可选地，所述计算所述神经网络层内的互连通信延时，包括：根据所述神经网络层内的层内通信数据流，进行层内通信数据流的通信实现，对每一个数据流通信实现所途径的路径进行该路径的负载通信量的累加，遍历所有的数据流，即得到互连网络各路径在该层内通信数据流下的负载通信量；针对各路径计算对应的负载通信量作为负载拥塞度，将所述负载拥塞度除以链路带宽，得到的所有路径负载拥塞度中的最大值为互连网络的拥塞度，即为互连通信延时。

可选地，所述计算所述神经网络层内的计算能量，包括：获取层内的计算资源的基本能耗和所述神经网络层内的计算任务总量，将所述基本能耗和所述计算任务总量相乘，得到计算能量。

可选地，所述计算所述神经网络层的互连通信能量，包括：根据所述神经网络层内的层内通信数据流，进行层内通信数据流的通信实现，获得互连硬件的基本能耗，并将所述层内通信数据流乘以所述互连硬件的基本能耗，得到互连通信能量。

可选地，所述计算所述神经网络层内的访存能量，包括：获取所述神经网络层内的访存次数和存储设备的基本能耗，并将所述访存次数乘以所述存储设备的基本能耗，得到访存能量。

可选地，所述进行神经网络层切换性能预测，包括：

遍历所述神经网络芯片中的每一个层切换阶段，执行以下步骤：

提取所述神经网络芯片第l-1层的输出特征图尺寸信息和第l层的输入特征图尺寸信息；

基于提取的输出特征图尺寸信息和输入特征图尺寸信息，遍历所述神经网络芯片通信数据流，计算得到所述通信数据流下的通信量与通信流信息；

基于得到的所述通信数据流下的通信量与通信流信息，进行片间互连性能预测，得到EDP能量延时积，即得到所述通信数据流下的性能；

遍历所述神经网络芯片所有的层切换阶段，得到所有层切换阶段对应的通信数据流的性能指标，即得到相应的片间并行度组合下的层切换性能。

可选地，所述片间互连性能预测，包括：

针对通信流信息与通信量，结合通信流实现方法，得到通信流在片间拓扑上的实现路径与访存情况，得到链路拥塞度；

根据所述链路拥塞度计算通信延时；

获取访问DRAM次数，并计算DRAM访存能量；获取链路通信量，并计算片间互连通信能量，通过所述DRAM访存能量和所述片间互连通信能量，得到总能量；

根据计算得到的所述通信延时与所述总能量，取两者乘积得到能量延时积EDP，即为所述通信数据流下的性能。

根据本发明的另一个方面，提供了一种片上-片间互连的神经网络芯片联合性能预测系统，包括：

通信数据流提取模块，该模块用于基于神经网络芯片的互连拓扑结构，提取神经网络芯片通信数据流；

层内性能预测模块，该模块基于所述通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案P、PK和K下的各自的最优性能，其中，P 表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

层切换性能预测模块，该模块基于所述通信数据流，进行神经网络层切换性能预测，得到相应的片间并行度组合方案下的层切换性能。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的片上-片间互连的神经网络芯片联合性能预测方法及系统，基于神经网络芯片的片上-片间互连拓扑架构，对神经网络芯片的数据流进行分析，获取了片上与片间通信数据流，成为性能预测的基础。在芯片设计阶段，方便设计者快速评估芯片性能指标，在芯片设计早期以较低的成本及时调整硬件参数与设计方案；在算法映射阶段，性能预测方便设计者调整映射方案，提升系统整体性能。

本发明提供的片上-片间互连的神经网络芯片联合性能预测方法及系统，提出了一种基于roofl ine的神经网络层内性能预测技术和层切换过程性能预测技术，能逼近真实情况下的性能，提高对神经网络芯片的计算延时和功耗等性能进行预测的有效性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中片上-片间互连的神经网络芯片联合性能预测方法的工作流程图

图2为本发明一优选实施例中片上-片间互连的神经网络芯片硬件架构整体结构示意图。

图3为本发明一优选实施例中神经网络层内性能预测算法流程图。

图4为本发明一优选实施例中神经网络层切换过程中的数据通信情况示意图。

图5为本发明一实施例中片上-片间互连的神经网络芯片联合性能预测系统的组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种片上-片间互连的神经网络芯片联合性能预测方法。

如图1所示，该实施例提供的片上-片间互连的神经网络芯片联合性能预测方法，可以包括如下步骤：

步骤1：基于神经网络芯片的互连拓扑结构，提取神经网络芯片通信数据流；

步骤2：基于步骤1的通信数据流，以神经网络层为单位(粒度)，进行神经网络层内性能预测，得到每神经网络层三种片间并行度方案(P、PK、K)的最优性能，其中P表示输出特征图的宽维度，K表示输出通道维度；

步骤3：基于步骤1的通信数据流，进行神经网络层切换性能预测，输出相应的九种片间并行度组合下的层切换性能；

基于上述步骤，即完成神经网络芯片层内和层间的联合性能预测。

具体的步骤1中，神经网络数据流提取的步骤为：

步骤1-1：基于神经网络芯片的互联拓扑结构(芯片硬件架构)，由于片间并行度来源约束为输出特征图的宽和通道方向，因此神经网络芯片通信仅发生在片内 L2缓存与PE阵列和L2缓存与DRAM间的数据交互；其中，片间并行度来源于P、 PK、K三个维度(P：输出特征图宽度，K：输出特征图通道，PK：输出特征图宽度+输出特征图通道)，意味着不同芯片处理不同部分的输出特征图，在进行通信数据流计算时无芯片间通信。

步骤1-2：基于片上缓存层次架构，可以得到神经网络第l层的各级存储单元在本层计算中包含的通信需求有WL1_comm_l，AL1_comm_l，OL1_comm_l，WL2_comm_l， AL2_comm_l，OL2_comm_l共六种。WL1_comm_l代表了WL1需要从WL2中读取的数据量，WL2_comm_l代表了WL2需要从本地DRAM中读取的数据量；WL1为权重一级缓存，WL2为权重二级缓存，AL1_comm_l为输入特征图一级缓存与二级缓存交互数据量，OL1_comm_l为输出特征图一级缓存与二级缓存通信数据量，AL2_comm_l为输入特征图二级缓存与DRAM通信数据量，OL2_comm_l为输出特征图二级缓存与 DRAM通信数据量，AL1为输入特征图一级缓存，AL2为输入特征图二级缓存，OL1为输出特征图一级缓存，OL2为输出特征图二级缓存。其中，片上系统主要由多个PE 和共享的片上二级缓存组成，二级缓存包括权重二级缓存、输入特征图二级缓存、输出特征图二级缓存，3个二级缓存通过片上存储总线和DRAM进行数据交互，通过片上网络拓扑和PE内部的三个一级缓存(权重一级缓存、输入特征图一级缓存、输出特征图一级缓存)进行数据交互；根据片内并行度配置，哪些PE之间共享了权重，哪些PE之间共享了输入特征图，最终得到神经网络模型第l层的各级存储单元在本层计算中包含的通信需求。

步骤1-3：基于步骤1-2的6种通信需求，获取神经网络芯片通信数据流。在一具体应用实例种，基于6种通信需求，对神经网络芯片通信进行抽象，将L2缓存与PE阵列间的数据通信划分为单播、多播、广播3大类型，进而得到三种类型的神经网络芯片通信数据流。

具体的步骤2中，进行神经网络层内性能预测的步骤为：

步骤2-1：遍历神经网络芯片中所有的卷积层与全连接层，执行以下步骤2-1 到步骤2-6；

步骤2-2：从{P、PK、K}中选择一个片间并行度方案；

步骤2-3：基于片间并行度，在明确片间并行度后，得到每个芯片的该神经网络层的计算任务。在一具体应用实例中，以卷积层为代表的卷积操作为例，计算任务就是对P(输出特征图宽)、Q(输出特征图高)、C(输入特征图通道)、K(输出特征图通道)、R(卷积核宽)、S(卷积核高)这六个维度进行拆分，包含了循环展开、循环分块以及循环顺序。基于互连网络拥塞度进行神经网络层内性能预测，此处的预测的性能为EDP能量延时积，综合评价了能量与延时两大性能指标，基于互连网络拥塞度进行神经网络芯片层内性能预测，为重要核心部分，包括：

基于计算任务量，计算神经网络芯片层内的理想计算延时；

基于互连网络拥塞度，计算神经网络芯片层内通信数据流的互连通信延时；

通过比较理想计算延时与互连通信延时，取较大者为神经网络层内的延时性能；

基于计算任务量，计算神经网络芯片层内的计算能量；

基于通信数据流，计算神经网络的通信能量；

基于访存次数，计算神经网络的访存能量；

将计算能量、通信能量、访存能量进行相加，得到该神经网络层内的能量指标；

延时性能乘以能量指标得到神经网络层内的能量延时积EDP，实现神经网络芯片层内性能预测；

在一具体应用实例中，基于互连网络拥塞度进行神经网络芯片层内性能预测，包括：

首先获得延时性能：

计算神经网络芯片层内的理想计算延时，通过比较层内的计算任务(乘法操作数目)和层内的计算资源(乘法器)数目，前者除以后者得到理想计算延时；

基于互连网络拥塞度，计算神经网络芯片层内的互连通信延时，根据通信数据流，基于XY路由(或其他公知的路由方式)，进行通信数据流的通信实现，对每一个数据流通信实现所途径的路径进行该路径的负载通信量的累加，遍历所有的数据流，即得到互连网络各路径在该层通信数据流下的负载通信量，再针对各路径计算其负载拥塞度，负载拥塞度为负载通信量除以链路带宽，其中所有路径负载拥塞度中的最大值，就是互连网络的拥塞度，即互连通信延时；

通过比较理想计算延时与互连通信延时，取较大者为神经网络层内的延时性能。

其次得到能量指标：

计算神经网络芯片层内的计算能量，基于层内计算资源(乘法器)的基本能耗参数(例如进行一次乘法操作的能量)，根据层内的计算任务总量(乘法操作数目)，两者相乘得到神经网络芯片层内的计算能量；

计算神经网络芯片层内的互连通信能量，根据的层内通信数据流，基于XY路由(或其他公知的路由方式)，进行层内通信数据流的通信实现，乘以互连硬件的基本能耗参数(链路、路由器单位比特传输的能耗)，得到互连通信能量；

计算神经网络芯片层内的访存能量，根据的访存次数，乘以存储设备的基本能耗参数，得到访存能量；

通过计算能量、互连通信能量、访存能量的相加，得到神经网络层内的能量指标。

最后，延时性能乘以能量指标得到神经网络层内的能量延时积；

步骤2-4：基于性能预测，比较该片间并行度下的历史最优性能，保留更优者为最优性能；

步骤2-5：判断是否遍历完3种片间并行度方案，若未遍历完，则返回步骤2-1 继续迭代，若遍历完，则输出3种片间并行度方案各自对应的最优性能；

步骤2-6：遍历完神经网络所有的卷积层与全连接层，得到各层对应的3种片间并行度方案下的最优性能；

具体的步骤3中，神经网络层切换性能预测算法的步骤为：

步骤3-1：遍历神经网络芯片中的每一个层切换阶段，每个层切换都执行步骤 3-2到步骤3-4；

步骤3-2：提取第l-1层的输出特征图尺寸和第l层的输入特征图尺寸信息；

步骤3-3：基于提取的特征图尺寸信息，遍历神经网络芯片通信数据流，计算得到该通信数据流下的通信量与通信流信息；

步骤3-4：基于步骤3-3的通信数据流下的通信量与通信流信息，进行片间互连性能预测，此处片间预测的性能为EDP能量延时积，针对于通信流信息与通信量，结合具体的通信流实现方法，可得到通信流在片间拓扑上的实现路径与访存情况，其中延时性能预测根据链路拥塞度计算通信延时，能量性能预测来源于1)访问DRAM次数计算得到的DRAM访存能量、2)链路通信量计算得到的片间互连通信能量，根据计算得到的延时与能量，取两者乘积得到能量延时积，即得到该通信数据流下的性能；

步骤3-5：通过遍历神经网络芯片所有的层切换阶段，可以得到所有层切换对应的通信数据流的性能指标，即得到相应的片间并行度组合下的层切换性能。

下面结合一具体应用实例，对本发明上述实施例提供的技术方案进一步说明。

为了使本发明实现的措施、创作特征、达成目的与功效易于明白了解，以下结合附图对本发明的实施例作详细说明，但不应以此限制本发明的保护范围。

以ResNet-18为实施例，具体ResNet-18网络结构如表1所示，基于如图2所示的硬件架构，进行神经网络模型性能预测说明：

表1 ResNet-18网络结构

层名	输入图像	输入通道	卷积核	步长	输出图像	输出通道
							conv1	224×224	3	7	2	112×112	64
pool1	112×112	64	2	2	56×56	64
							conv2	56×56	64	3	1	56×56	64
conv3	56×56	64	3	1	56×56	64
							conv4	56×56	64	3	1	56×56	64
conv5	56×56	64	3	1	56×56	64
							conv6	56×56	64	3	2	28×28	128
conv7	28×28	128	3	1	28×28	128
							conv8	28×28	128	3	1	28×28	128
conv9	28×28	128	3	1	28×28	128
							conv10	28×28	128	3	2	14×14	256
conv11	14×14	256	3	1	14×14	256
							conv12	14×14	256	3	1	14×14	256
conv13	14×14	256	3	1	14×14	256
							conv14	14×14	256	3	2	7×7	512
conv15	7×7	512	3	1	7×7	512
							conv16	7×7	512	3	1	7×7	512
conv17	7×7	512	3	1	7×7	512
							pool2	7×7	512	7	7	1×1	512
fc1	1×1	512	1	1	1×1	1000

具体流程请参阅图1，图1为本发明一优选实施例中片上-片间互连的神经网络芯片联合性能预测方法的流程图，基于该流程图，该具体应用实例包括以下步骤：

步骤1：基于ResNet-18神经网络模型与如图2所示的片间-片上互连拓扑图，提取神经网络层内通信数据流与神经网络层切换通信数据流；

步骤1-1：基于片间-片上芯片硬件架构，这里片间并行度来源约束为输出特征图的宽(P)和通道方向(K)，因此不同Chiplet维护输出特征图的不同部分，神经网络层内通信仅发生在片内L2缓存与PE阵列和L2缓存与DRAM间的数据交互；

步骤1-2：基于片上缓存层次架构，可以得到神经网络第l层的各级存储单元在本层计算中包含的通信需求有WL1_comm_l，AL1_comm_l，OL1_comm_l，WL2_comm_l， AL2_comm_l，OL2_comm_l共六种。WL1为权重一级缓存，WL2为权重二级缓存， AL1_comm_l为输入特征图一级缓存与二级缓存交互数据量，OL1_comm_l为输出特征图一级缓存与二级缓存通信数据量，AL2_comm_l为输入特征图二级缓存与DRAM通信数据量，OL2_comm_l为输出特征图二级缓存与DRAM通信数据量，AL1为输入特征图一级缓存，AL2为输入特征图二级缓存，OL1为输出特征图一级缓存，OL2为输出特征图二级缓存。

步骤1-2-1：明确神经网络每个PE要执行的任务，即对原始的For循环表达形式进行循环展开、循环分块和循环顺序确定，得到每个PE所需要处理的输入特征图、输出特征图、权重的图块信息与执行顺序信息；

举例硬件架构片上包含4个PE，4个Chiplet为例，神经网络层选择conv4，其中P、Q、K、C分别表示输出特征图的宽、高、通道以及输入通道维度，Chiplet 间选择P、K维度进行循环展开，PE间选择Q、C维度进行循环展开，则每个Chiplet 需要负责的输出特征图为28×56×32，每个PE需要负责的输出特征图为28×28× 32、权重为32个3×3×32、输入特征图为(28+2)×(28+2)×32，针对每个PE负责的图块信息，同时每个PE内部包含多个乘法器，以4个为例，假设在C、K维度进行循环展开，对应于下中的parallel_for部分(parallel_for表示空间并行，即在不同的乘法器上并行进行不同数据的运算)，之后再进行循环分块(例如P维度拆分为P1＝2和P2＝14)和执行顺序(例如按照p1、c1、k1、q1的顺序)的确认，具体的程序示例如下所示，展示了循环展开、循环分块、循环顺序调整后的For循环表达式的变化；

程序示例：

步骤1-2-2：根据步骤1-2-1的得到的图块信息与执行顺序信息，结合硬件架构的片上缓存大小，以一个for循环为单位，分别分析输入特征图元素、权重、输出特征图元素的缓存情况，例如通过图2中PE内的WL1缓存的大小，自底向上判断执行到哪个for循环时PE需要向WL2读取新的权重数据，如此可以得到PE与L2 缓存以及L2缓存与DRAM间的数据通信信息；

以PE内WL1、AL1、OL1大小分别为1KB，片上WL2、AL2、OL2大小分别为4KB为例，假设输入特征图数据和权重数据大小为8bit，输出特征图部分和数据大小为24bit，那么WL1、AL1内各自可以存放1KB/8bit＝1024个数据，OL1中可以存放1KB/24bit＝341个数据，同理WL2、AL2内各自可以存放4096个数据，AL2 中可以存放1364个数据。在步骤1-2-1的数据流下，如表2所示，表2中上部分展示了，各个参数是否是权重W、输入特征图A和输出特征图O的相关参数，T代表相关，F代表不相关，从下到上，代表for循环从内侧到外侧变化。依据各参数的相关关系，从最内层循环开始向外侧推，可以依据表中公式计算得到WL1、AL1和 OL1的存储需求，对应的二级缓存的需求，就是考虑片上所有PE所需数据总和，其计算方法就是根据PE间的循环展开方式，以Q、C维度展开，展开度分别为PQ2＝2， PC2＝2(前面的P表示parallel并行，第二个字母表示维度)，由于Q、C均与A(输入特征图)相关，所以AL2的需求就是在AL1需求基础上乘上PQ2×PC2＝4，由于仅C与W(权重)相关，所以WL2的需求就是在WL1需求基础上乘上PC2＝2，由于仅Q与O(输出特征图)相关，所以OL2的需求就是在OL1需求基础上乘上PQ2＝2。由此可以得到表2下部分所示的各级缓存在该数据流的各个For循环的存储需求，红色加粗显示的就是实际缓存大小约束下能放下的数据量，以WL1为例，WL1可以放下1024个数据，1152>1024，所以只能放下C1对应的For循环下所需的数据 (144个)，其含义表示一旦执行到K1对应的For循环后，这个for循环的每一迭代，WL1都要向WL2读取新的数据。AL1、OL1、WL2、AL2、OL2的分析同理可得，不同的是，二级缓存需要到DRAM去读取新数据或者写入新数据。

表2

步骤1-2-3：基于步骤1-2-2的数据通信信息，可以提取出6种通信需求 WL1_comm_l，AL1_comm_l，OL1_comm_l，WL2_comm_l，AL2_comm_l，OL2_comm_l。基于1-2-2中的举例，可得WL1_comm_l＝144×(8×7×4×2×4×2)＝516,096， 144为上表中红色加粗数据，表示每次能放下的数据量，括号内的表示为该C1 对应For循环要迭代的次数，同理可得，AL1_comm_l＝172,032，OL1_comm_l＝ 100,352，WL2_comm_l＝147,456，AL2_comm_l＝688,128，OL2_comm_l＝200,704。

步骤1-3：基于步骤1-2的6种通信需求，对神经网络芯片通信进行抽象，将 L2缓存与PE阵列间的数据通信划分为单播、多播、广播3大类型；以步骤1-2-1 的例子为例，片上的4个PE按照Q和C维度进行并行，并行度均为2，分别用Q₁、 Q₂、C₁、C₂，PE₁分配到(Q₁,C₁)，PE₂(Q₁,C₂)，PE₃(Q₂,C₁)，PE₄(Q₂,C₂)，这意味着PE₁与PE₂共享相同的输入特征图数据，PE₁与PE₃共享相同的权重数据，以此类推，可以得到WL2需要多播权重1给PE₁和PE₃，多播权重2给PE₂和PE₄，AL2 需要多播输入1给PE₁和PE₂，多播输入2给PE₃和PE₄。基于步骤1-2的举例，即WL2要向PE₁和PE₃多播权重1，向PE₂和PE₄多播权重2，其中权重1和权重2 的数据量分别为WL1_comm_l＝516096。进而获取相应的神经网络芯片通信数据流。

步骤2：基于步骤1的通信数据流，以神经网络层为单位，执行逐层映射算法，得到每神经网络层三种片间并行度(P、PK、K)的最优性能，其中P表示输出特征图的宽维度，K表示输出通道维度，具体流程图如图3所示；

步骤2-1：遍历神经网络中所有的卷积层与全连接层，执行以下步骤2-1到步骤 2-6；

步骤2-2：从{P、PK、K}中选择一个片间并行度方案；

步骤2-3：基于片间并行度，基于互连网络拥塞度进行神经网络层内性能预测；

步骤2-3-1：提取计算延时cal_num，以上述的程序示例为例，该程序示例给出了神经网络卷积层数据流映射for循环表达形式，该程序示例中可以获得每个PE所需进行的乘法操作数目为2×4×4×8×7×8×4×14×3×3＝7225344个，假设 PE内包含256个乘累加器，则计算延时为7225344÷256＝28224个周期；

步骤2-3-2：计算层内延时性能，基于步骤1-1到步骤1-2的分析，可以获得二级缓存与PE之间的数据通信(包含了通信流与通信量)，即获得通信数据流，遍历所有通信数据流找到在拓扑中需要途径的物理链路，计算每一物理链路的负载通信量comm_i,j，计算链路对应的负载拥塞度其中bw_i,j为链路的实际带宽，根据拥塞度寻找到其中最大的拥塞度作为互连网络的拥塞度degrate＝ max(degrate_i,j)，与计算延时相比较，可得延时性能 lat_intra＝max(degrate,cal_num)；

步骤2-3-3：计算能量开销，基于步骤1-2-2获得的PE与L2缓存以及L2缓存与DRAM间的数据通信信息，PE与L2缓存之间的数据通信信息反映了L2缓存被访问的次数，L2缓存与DRAM间的数据通信信息反映了DRAM被访问的次数，由此提取数据访存次数，分为L2缓存访存次数和DRAM访存次数，依据步骤2-3-1，提取乘法操作数目，依据步骤2-3-2，提取链路通信量信息，根据乘法器、L2缓存访存、DRAM访存、链路、路由器的基本能量开销指标，计算层内的能量开销 energy_intra；

步骤2-3-4：计算能量延时积EDP作为性能指标，EDP_intra＝lat_intra×energy_intra；

步骤3：基于步骤1的神经网络芯片通信数据流，进行神经网络层切换性能预测，输出9种片间并行度组合下的层切换性能；

步骤3-1：遍历神经网络模型中的每一个层切换阶段，每个层切换都执行步骤 3-2到步骤3-4；

步骤3-3：基于提取的特征图尺寸信息，遍历神经网络芯片通信数据流，如图4 所示，计算得到该通信数据流下的通信量与通信流信息；

步骤3-4：基于步骤3-3的该通信数据流下的通信量与通信流信息，记录通信延时lat_inter与通信带来的访存能量开销和通信能量开销之和的层间能量 energy_inter，根据公式计算层间能量延时积EDP_inter＝lat_inter×energy_inter；

步骤3-5：通过遍历神经网络所有的层切换极端，可以得到所有层切换阶段对应的通信数据流的性能指标。

本发明一实施例提供了一种片上-片间互连的神经网络芯片联合性能预测系统。

如图5所示，该实施例提供的片上-片间互连的神经网络芯片联合性能预测系统，可以包括如下模块：

层内性能预测模块，该模块基于通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案P、PK和K下的各自的最优性能，其中，P表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

层切换性能预测模块，该模块基于通信数据流，进行神经网络层切换性能预测，得到相应的片间并行度组合方案下的层切换性能。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本发明一实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项方法。

本发明一实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文： volatilememory)，例如随机存取存储器(英文：random-access memory，缩写： RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明上述实施例提供的片上-片间互连的神经网络芯片联合性能预测方法及系统，基于片上-片间互连架构，对神经网络模型的数据流分析，建立了片上与片间通信模型，成为性能预测的基础；通过基于互连网络拥塞度的层内性能预测算法和层切换过程性能预测算法，实现了数据流性能预测方案，能逼近真实情况下的性能。

本发明上述实施例中未尽事宜均为本领域公知技术。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种片上-片间互连的神经网络芯片联合性能预测方法，其特征在于，包括：

基于所述通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案P、PK和K下的各自的最优性能，其中，P表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

通过上述步骤，即完成神经网络芯片层内和层间的联合性能预测；

所述进行神经网络层内性能预测，包括：

从片间并行度方案{P、PK、K}中选择一个片间并行度方案；

遍历所述神经网络芯片所有的卷积层与全连接层，得到各层对应的每一种片间并行度方案下的最优性能，完成层内性能预测，得到每层神经网络层片间并行度方案的最优性能；

所述进行神经网络层切换性能预测，包括：

2.根据权利要求1所述的片上-片间互连的神经网络芯片联合性能预测方法，其特征在于，所述提取神经网络芯片通信数据流，包括：

获取神经网络模型第l层的各级存储单元在本层计算中包含的通信需求，包括：WL1_m_l、AL1_m_l、OL1_m_l、WL2_m_l、AL2_m_l和OL2_comm_l；其中，WL1_m_l表示WL1需要从WL2中读取的数据量，WL2_m_l表示WL2需要从本地DRAM中读取的数据量；WL1为权重一级缓存，WL2为权重二级缓存，AL1_m_l为输入特征图一级缓存与二级缓存交互数据量，OL1_comm_l为输出特征图一级缓存与二级缓存通信数据量，AL2_m_l为输入特征图二级缓存与DRAM通信数据量，OL2_m_l为输出特征图二级缓存与DRAM通信数据量，AL1为输入特征图一级缓存，AL2为输入特征图二级缓存，OL1为输出特征图一级缓存，OL2为输出特征图二级缓存；

基于所述通信需求，对神经网络芯片通信进行抽象，将L2缓存与PE阵列间的数据通信划分为单播、多播和广播三种类型，得到三种类型的神经网络模型通信数据流。

3.根据权利要求1所述的片上-片间互连的神经网络芯片联合性能预测方法，其特征在于，所述基于互连网络拥塞度进行所述神经网络芯片层内性能预测，包括：

获得延时性能，包括：

计算所述神经网络层内的理想计算延时；

得到能量指标，包括：

计算所述神经网络层内的计算能量；

计算所述神经网络层内的互连通信能量；

计算所述神经网络层内的访存能量；

4.根据权利要求3所述的片上-片间互连的神经网络芯片联合性能预测方法，其特征在于，还包括如下任意一项或任意多项：

所述计算所述神经网络层内的理想计算延时，包括：获取所述神经网络层内的计算任务数目和层内的计算资源数目，并将所述计算任务数目除以所述计算资源数目，得到理想计算延时；

所述计算所述神经网络层内的互连通信延时，包括：根据所述神经网络的通信数据流，进行通信数据流的通信实现，对每一个数据流通信实现所途径的路径进行该路径的负载通信量的累加，遍历所有的数据流，即得到互连网络各路径在该通信数据流下的负载通信量；针对各路径计算对应的负载通信量作为负载拥塞度，将所述负载拥塞度除以链路带宽，得到的所有路径负载拥塞度中的最大值为互连网络的拥塞度，即为互连通信延时；

所述计算所述神经网络层内的计算能量，包括：获取层内的计算资源的基本能耗和所述神经网络层内的计算任务总量，将所述基本能耗和所述计算任务总量相乘，得到计算能量；

所述计算所述神经网络层的互连通信能量，包括：根据所述神经网络的通信数据流，进行通信数据流的通信实现，获得互连硬件的基本能耗，并将所述通信数据流乘以所述互连硬件的基本能耗，得到互连通信能量；

所述计算所述神经网络层内的访存能量，包括：获取所述神经网络层内的访存次数和存储设备的基本能耗，并将所述访存次数乘以所述存储设备的基本能耗，得到访存能量。

5.根据权利要求1所述的片上-片间互连的神经网络芯片联合性能预测方法，其特征在于，所述片间互连性能预测，包括：

根据所述链路拥塞度计算通信延时；

6.一种片上-片间互连的神经网络芯片联合性能预测系统，其特征在于，包括：

层内性能预测模块，该模块基于所述通信数据流，进行神经网络层内性能预测，得到每层神经网络层在片间并行度方案P、PK和K下的各自的最优性能，其中，P表示输出特征图的宽维度，K表示输出特征图通道维度，PK表示输出特征图的宽维度结合输出特征图通道维度；

层切换性能预测模块，该模块基于所述通信数据流，进行神经网络层切换性能预测，得到相应的片间并行度组合方案下的层切换性能；

所述进行神经网络层内性能预测，包括：

从片间并行度方案{P、PK、K}中选择一个片间并行度方案；

所述进行神经网络层切换性能预测，包括：

7.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-5中任一项所述的方法。