CN112580774A

CN112580774A - 一种面向可重构神经网络处理器的神经网络布局方法

Info

Publication number: CN112580774A
Application number: CN202010903773.6A
Authority: CN
Inventors: 黄科杰; 刘佳沂; 沈海斌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-03-30
Anticipated expiration: 2040-09-01
Also published as: CN112580774B

Abstract

本发明公开了一种面向可重构神经网络处理器的布局方法。对神经网络进行训练，得到网络参数；神经网络中各卷积层的权重设置复制份数，根据各卷积层的输入数据的数据量之间的比例关系建立各卷积层权重的复制份数之间的比例关系，获得每一卷积层在可重构神经网络处理器上需要的存内计算核的个数：将单个卷积层的数据计算分配到各自的多个存内计算核，当前卷积层将输入数据分布至多个存内计算核并行计算，然后发送到下一个卷积层；通过最小化通讯功耗和最大带宽获得最终的优化布局结果。本发明方法解决了层内以及各层之间的数据同步问题，减小了缓存需求，也解决了数据传输功耗的问题，减小了层内的带宽需求，具有较好的鲁棒性。

Description

一种面向可重构神经网络处理器的神经网络布局方法

技术领域

本发明属于存内计算和片上网络领域的一种神经网络处理器布局方法，具体是一种面向可重构神经网络处理器的神经网络布局方法。

背景技术

人工神经网络以数学模型模拟神经元活动，有多层或者单层，每一层包含若干神经元，各个神经元之间用带可变权重的有向弧连接，通过训练权重可以得到处理信息的目的，能够得到输入和输出之间的关系。

处理器进行神经网络的计算时对计算能力有着巨大需求，而内存与计算相分离造成的数据传输功耗成为了限制性能的瓶颈。存内计算通过提供内存计算的能力解决了处理器和内存之间的数据传输功耗的问题，使用非易失性存储器存储权重，将输入数据与存内计算核中的权重进行相乘，在路由内完成求和，最终输出，完成了神经网络的计算。通过改变存内计算核中的权重，可以完成不同神经网络的运算。基于非易失性存储器的存内计算核可以在多个二进制输入和二进制权重的情况下执行乘法和累加操作，通过二维网格NOC将存内计算核连接起来可以组成可重构神经网络处理器。

由于该处理器的功耗和性能由权重的映射方式以及数据流确定。现有技术缺少了一种布局方式能够减少可重构神经网络处理器的功耗，提高其性能，本实例就是从此需求出发。

发明内容

针对解决可重构神经网络处理器进行神经网络计算时存在的高延时以及高功耗问题，本发明提出了一种面向可重构神经网络处理器的神经网络布局方法，通过对于数据流以及权重映射位置的优化解决可重构神经网络处理器的布局布线问题，可以减少延迟、缓存、功耗和带宽，并最大化计算并行性，能够减少可重构神经网络处理器的功耗，提高其性能。

本发明的目的是通过以下技术方案来实现的：

步骤1，对神经网络进行训练，得到神经网络的网络参数；所述的神经网络主要仅由卷积层构成。

步骤2，针对神经网络中各卷积层的权重设置复制份数，根据神经网络中各卷积层的输入数据的数据量之间的比例关系建立相同的各卷积层权重的复制份数之间的比例关系，权重是指卷积层的所有卷积核中的参数构成的集合；根据比例关系处理获得每一卷积层在可重构神经网络处理器上需要的存内计算核的个数：

步骤3，将单个卷积层的数据计算分配到各自的多个存内计算核，当前卷积层将输入数据分布至多个存内计算核并行计算，形成层内的数据流，然后获得输出数据发送到下一个卷积层，输入数据的方向为依次流经一个卷积层对应的所有存内计算核，求和得到最终结果的数据流向为所有的部分和在过程中相加，得到最终结果输出给下一层；

利用存内计算核个数，确定每一卷积层内的数据流，数据输入从单方向流过k×k个存内计算核，进行乘法运算，不同份复制的权重对输入数据的不同列进行计算；通过不同存内计算核计算结果得到的结果进行相加，得到最终的输出结果。

步骤4，通过最小化通讯功耗和最大带宽的目标函数获得最终的优化布局结果。

所述步骤2中，针对每一个卷积层，输入数据、输出数据和通道数都是已知的，根据神经网络所需要进行数据处理情况获得，根据各自输入数据的通道数、输出数据的通道数以及权重的复制份数关系确定存内计算核的个数：

采用以下公式计算各个卷积层各自的存内计算核数量P为P＝M×N×a，其中，N＝k×k×n，k×k为卷积层的卷积核的大小，n为卷积层输入数据的通道数与存内计算核大小的商向上取整；M为卷积层输出数据的通道数与存内计算核大小的商向上取整，a为卷积层权重的复制份数；各个卷积层各自的权重的复制份数a之间满足神经网络中各卷积层的输入数据的数据量之间的比例关系。

然后在各个卷积层各自的权重的复制份数a满足比例关系情况下，且在所有卷积层各自的存内计算核数量P的总数不超过可重构神经网络处理器的总存内计算核总数情况下，使得各个卷积层各自的存内计算核数量P最大化设置，进而获得各个卷积层在可重构神经网络处理器上需要的存内计算核的个数P。针对每一个卷积层对应具有多少个存内计算核，即将输入数据分成多少份分别输入到各自的存内计算核中，层内的各个存内计算核之间不通信。

所述步骤4中，具体为：

首先建立以下第i个存内计算核与第j个存内计算核之间的通讯次数 G(i_n,j_m)，表示为：

其中，i_n表示第n层卷积层内的第i个计算核；j_m表示第m层卷积层内的第 j个计算核；k_n表示第n层卷积层的单个卷积核的尺寸大小，c_n表示第n层卷积层的输入数据的通道数，a表示第n层卷积层权重的复制份数；

然后建议以下目标函数，整个可重构神经网络处理器的功耗目标函数P_LINK：

其中，ε_i,j等于坐标为(x_i,y_i)的计算核与坐标为(x_i,y_i)的计算核之间的通讯次数；(x_ni,y_ni)表示第n层层内的第i个存内计算核i_n在可重构神经网络处理器中阵列的行列坐标，N表示可重构神经网络处理器中单行或单列上的存内计算核的数量；

最大带宽W：计算各个路由的带宽，单个路由的带宽是由其他每两个路由之间通信时所经过自身的次数累加获得，最大带宽为各个路由的带宽中的最大值；

利用非支配排序遗传算法NSGAII对上述两个目标函数进行求解获得最优的各个存内计算核在可重构神经网络处理器中的坐标。具体实施用数组来描述已经完成权重映射的存内计算核在可重构神经网络处理器NOC上的布局情况，对映射方案进行编码；根据上述两个优化目标利用NSGAII对整体层与层之间的布局进行优化，得到最终的布局情况。

所述的可重构神经网络处理器包括了非易失性存储器和缓存路由，各个缓存路由通过阵列布置并行列连接形成二维网格NOC结构，每个缓存路均连接有一个存内计算核，存内计算核内存储权重，存内计算核接收输入数据并于内部的权重进行相乘，再在缓存路由内求和，最终输出完成了神经网络的计算。

通过改变存内计算核中的权重，完成不同神经网络的运算。路由采用了 XY-YX路由方式。

所述的存内计算核采用非易失性存储器。

所述的存内计算核在多个二进制输入和二进制权重的情况下执行乘法和累加操作，通过二维网格NOC将存内计算核连接组成可重构神经网络处理器。

本发明与现有技术相比具有以下优点：

本发明方法通过权重复制解决了层内以及各层之间的数据同步问题，减小了缓存需求，也解决了处理器和内存之间的数据传输功耗的问题。

本发明所提出的方法在硬件资源以及计算的网络一定的情况下，通过对于权重的复制，达到了神经网络每个卷积层之间的同步；通过层内数据先相乘再相加的方式，简化了数据流；同时，对于布局布线进行了优化。从而减小了整体的功耗需求与带宽需求，具有较好的鲁棒性。

附图说明

图1是本发明的方法总体流程框图；

图2是本发明使用架构示意图；

图3是本发明过程中需要用到的计算核个数示意图；

图4是本发明的布局过程中编码方式示意图；

图5是本发明的仿真结果图，在不同NOC大小时三种不同布局方法下的的通讯功耗情况。

图6是本发明的仿真结果图，在不同NOC大小时三种不同布局方法下的的通讯功耗情况。

具体实施方式

以下参照附图，对本发明的技术方案和效果作进一步的详细说明。

参照图1，本发明的实施例及其实施过程步骤如下：

步骤一，确定每一层权重的复制情况，确定方法如下：每一层的输入数据量和权重的复制份数成正比关系，即

其中t_i是第i层的计算时间，m_i是第i层的权重复制份数，整体的权重份数由可以利用的片上网络的大小确定，在片上网络较小的情况下，赋值情况可以不完全符合该式，这会带来额外的延时，从而导致缓存的增加。

步骤二，确定层内的数据流。确定方法如下：参照图2，对于输入通道数和输出通道数均小于等于计算核大小的情况，一层内以k×k个计算核心构成的计算矩阵为基础单元，若输入通道数大于一个计算核的大小，则在此基础单元内进行纵向扩张，根据该层权重的复制份数m，将该基础单元横向扩张m份，得到该层需要的所有计算核；通过数据的纵向传输完成输入数据与权重相乘以及部分和相加的运算；在权重复制，基本单元进行扩展的情况下，通过部分和的相加，最终完成输出数据的计算。

步骤三，确定层与层之间的数据流。确定方法如下：用G(i,j)表示第i个计算核心与第j个计算核心之间的通讯次数，G(i,j)可以表示为：

其中，(i₁,j₁)_n表示第n层的计算核，其坐标为(i₁,j₁)。

步骤四，确定整体的布局布线情况。确定方法如下：用数组来描述已经完成权重映射的计算核在NOC上的布局情况，即需要将已经映射好权重的PE放置到图3所示NOC架构上；X(i)＝j表示计算核i被放置节点j，如图3所示，具有数据流(a)的计算核被放置在一个3×3大小的NOC上，(c)表示了一种布局方式，则这种方式可以用X＝(1,6,3,7,8,4,2)表示；布局情况例如图4所示。

需要优化的目标为通讯功耗以及最大带宽，其中通讯功耗可以表示为：

其中ε_i,j等于坐标为(x_i,y_i)的计算核与坐标为(x_i,y_i)的计算核之间的通讯次数；

每个节点的带宽W(k,l)表示为：

其中θ_i,j代表第i个计算核和第j个计算核之间是否存在通过节点(k,l)的通讯， N为NOC的边长；采用NSGAII启发式算法对这两个优化目标进行优化，最终得到需要的布局布线结果。

下面结合仿真实例对本发明的效果做进一步的描述。

利用上面所描述的方法基于AlexNet进行仿真，比较了在不同NOC大小时三种不同布局方法下的的通讯功耗和最大带宽情况。这三种方式分别为随机映射，直接映射，和利用本方法进行映射，其中随机映射为，将存内计算核在可重构神经网络处理器中的坐标进行随机分配；直接映射为将存内计算核在可重构神经网络处理器中的坐标按照数据流的顺序进行分配。得到的结果如图5和图6。结果表明，该方案减少了33.57％的通讯功耗需求和46.13％的带宽要求。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种面向可重构神经网络处理器的神经网络布局方法，其特征在于：

方法包括以下步骤：

步骤1，对神经网络进行训练，得到神经网络的网络参数；

步骤2，针对神经网络中各卷积层的权重设置复制份数，根据神经网络中各卷积层的输入数据的数据量之间的比例关系建立相同的各卷积层权重的复制份数之间的比例关系，根据比例关系处理获得每一卷积层在可重构神经网络处理器上需要的存内计算核的个数：

步骤3，将单个卷积层的数据计算分配到各自的多个存内计算核，当前卷积层将输入数据分布至多个存内计算核并行计算，然后获得输出数据发送到下一个卷积层；

2.根据权利要求1所述的面向可重构神经网络处理器的神经网络布局方法，其特征在于：

所述步骤2中，针对每一个卷积层，根据各自输入数据的通道数、输出数据的通道数以及权重的复制份数关系确定存内计算核的个数：

采用以下公式计算各个卷积层各自的存内计算核数量P为P＝M×N×a，其中，N＝k×k×n，k×k为卷积层的卷积核的大小，n为卷积层输入数据的通道数与存内计算核大小的商向上取整；M为卷积层输出数据的通道数与存内计算核大小的商向上取整，a为卷积层权重的复制份数；

然后在各个卷积层各自的权重的复制份数a满足比例关系情况下，且在所有卷积层各自的存内计算核数量P的总数不超过可重构神经网络处理器的总存内计算核总数情况下，使得各个卷积层各自的存内计算核数量P最大化设置，进而获得各个卷积层在可重构神经网络处理器上需要的存内计算核的个数P。

3.根据权利要求1所述的面向可重构神经网络处理器的神经网络布局方法，其特征在于：所述步骤4中，具体为：

首先建立以下第i个存内计算核与第j个存内计算核之间的通讯次数G(i_n，j_m)，表示为：

m＝n+1

其中，i_n表示第n层卷积层内的第i个计算核；j_m表示第m层卷积层内的第j个计算核；k_n表示第n层卷积层的单个卷积核的尺寸大小，c_n表示第n层卷积层的输入数据的通道数，a表示第n层卷积层权重的复制份数；

其中，ε_i，j等于坐标为(x_i，y_i)的计算核与坐标为(x_i，y_i)的计算核之间的通讯次数；(x_ni，y_ni)表示第n层层内的第i个存内计算核i_n在可重构神经网络处理器中阵列的行列坐标，N表示可重构神经网络处理器中单行或单列上的存内计算核的数量；

利用非支配排序遗传算法NSGAII对上述两个目标函数进行求解获得最优的各个存内计算核在可重构神经网络处理器中的坐标。

4.根据权利要求1所述的面向可重构神经网络处理器的神经网络布局方法，其特征在于：所述的可重构神经网络处理器包括了非易失性存储器和缓存路由，各个缓存路由通过阵列布置并行列连接形成二维网格NOC结构，每个缓存路均连接有一个存内计算核，存内计算核内存储权重，存内计算核接收输入数据并于内部的权重进行相乘，再在缓存路由内求和，最终输出完成了神经网络的计算。

5.根据权利要求1所述的面向可重构神经网络处理器的神经网络布局方法，其特征在于：所述的存内计算核采用非易失性存储器。