CN108763612A

CN108763612A - 一种神经网络的池化层加速运算的方法与电路

Info

Publication number: CN108763612A
Application number: CN201810284999.5A
Authority: CN
Inventors: 韩军; 蔡宇杰; 曾晓洋
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-11-06
Anticipated expiration: 2038-04-02
Also published as: CN108763612B

Abstract

本发明属于集成电路设计技术领域，具体为一种神经网络的池化层加速运算的方法与电路。本发明是将二维的池化运算分解为两次一维池化运算：宽度方向一维池化运算与高度方向一维池化运算；电路结构包括五部分：用于图层分割与数据读取的图层分割模块、用于进行宽度方向的池化运算的横向池化运算模块、用于进行高度方向的池化运算的纵向池化运算模块以及负责数据回写的输出控制模块。本发明相比传统方法减少了运算量；该电路中所有的模块均是对数据流进行处理，因此不需要过多的片上缓存来存储临时结果，节省了芯片面积。同时，电路使用脉动阵列结构，使每个时钟周期所有的硬件单元都处于工作状态，提高了硬件单元使用率，从而提高了电路的工作效率。

Description

一种神经网络的池化层加速运算的方法与电路

技术领域

本发明属于集成电路设计技术领域，具体涉及神经网络的池化层加速运算的方法与电路。

背景技术

上世纪60年代，Hubel等人通过对猫视觉皮层细胞的研究，提出了感受野这个概念，到80年代，Fukushima在感受野概念的基础之上提出了神经认知机的概念，可以看作是卷积神经网络的第一个实现网络，神经认知机将一个视觉模式分解成许多子模式（特征），然后进入分层递阶式相连的特征平面进行处理，它试图将视觉系统模型化，使其能够在即使物体有位移或轻微变形的时候，也能完成识别。

卷积神经网络是多层感知机的变种。由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。视觉皮层的细胞存在一个复杂的构造。这些细胞对视觉输入空间的子区域非常敏感，我们称之为感受野，以这种方式平铺覆盖到整个视野区域。这些细胞可以分为两种基本类型，简单细胞和复杂细胞。简单细胞最大程度响应来自感受野范围内的边缘刺激模式。复杂细胞有更大的接受域，它对来自确切位置的刺激具有局部不变性。卷积神经网络结构包括：卷积层，池化层，全连接层。每一层有多个特征图，每个特征图通过一种卷积滤波器提取输入的一种特征，每个特征图有多个神经元。

卷积神经网络由于其巨大的计算量，因此如何在移动终端上进行本地运算也成了一项挑战，神经网络加速芯片的设计成了热点。

本发明提出了一种高效率的加速池化运算的电路结构。本发明通过将二维的池化运算分解为两次一维池化运算（宽度方向与高度方向），规避了传统算法需要片上缓存、控制电路复杂以及存在冗余运算的问题。从而提高了硬件的复用效率，减少芯片面积，这也意味着电路在单位面积下可以获得更高的运算吞吐率。

发明内容

本发明的目的在于针对神经网络计算量大的问题，提供提出一种高效率的加速池化层运算的方法与电路，以提高硬件复用效率，减少芯片面积。

本发明提供的针对神经网络的池化层加速运算的方法，是将二维的池化运算分解为两次一维池化运算，即宽度方向一维池化运算与高度方向一维池化运算。这样可规避传统算法需要片上缓存、控制电路复杂以及存在冗余运算的问题。

设输入特征图层的高为H，宽度为W；池化算子的高为K_H，宽K_W；池化运算高度方向的步幅为S_H, 宽度方向的步幅为S_W。因此，输出特征图层的高为floor((H-K_H)/S_H)+1，宽为floor((W-K_W)/S_W)+1，分别记作H_out与W_out。其中floor()表示向下的取整运算。

通常的池化运算流程的伪代码如下所示：

for i = 0 : H_out-1

for j = 0 : W_out-1

Feature_Out(i,j) = OP( Feature_In(S_H*i : S_H*i+ K_H-1, S_W *j :S_W*j+ K_W-1) )

其中，OP表示对一个高为K_H，宽K_W的矩阵（图2中的橙框）进行的池化运算，可选的池化运算有“取最大值”，“取最小值”以及“取均值”。OP运算的输出为一个标量，这个标量为输出特征图层第i行第j列的数值。

常用的池化运算的运算流程在硬件化时存在三个劣势：

劣势1：在计算输出图层的过程中，需要对输入图层中的每一个数据进行K_H* K_W次的重复读取。通常的做法是做一块片上缓存来缓存输入图层，从而减少对外部存储器（DRAM）的数据访问量，但这么做也意味着更大的芯片面积；

劣势2：二维运算（池化）比起一维运算而言需要更复杂的控制逻辑；

劣势3：在S_H<K_H或S_W<K_W的情况下，多次OP运算的矩阵框会出现重叠现象。因此会对重叠部分的数据进行多次“求最大值”、“求最小值”或“求均值”的冗余运算，从而降低了运算的效率。

将二维的池化运算分解为两次一维池化运算（宽度方向与高度方向），可以避免冗余运算。因此相比于传统方法，本发明方法可以减少运算量，并且更利于电路实现。

本发明将二维的池化运算分解为两次一维池化运算（宽度方向与高度方向），具体流程为：

设输入特征图层的高为H，宽度为W；池化算子的高为K_H，宽K_W；池化运算高度方向的步幅为S_H, 宽度方向的步幅为S_W。因此，输出特征图层的高为floor((H-K_H)/S_H)+1，宽为floor((W-K_W)/S_W)+1，分别记作H_out与W_out。

首先，进行宽度方向上的池化运算，输出结果为一个高为H，宽为W_out的临时矩阵，记作F_tp。其中F_tp的第i行第j列的数据是输入特征图层第i行，第S_W *j列至第S_W*j+ K_W-1列的数据（长度为K_W的行向量）在进行“求最大值”、“求最小值”或“求均值”运算后的结果，如图3(a)所示。

接着，进行高度方向的池化运算，这一步运算的输入为上一步的运算结果——临时矩阵F_tp。在对F_tp进行高度方向的池化运算之后，可得到一个高为H_out，宽为W_out的矩阵，这个矩阵就是输出特征图层F_out。其中，F_out的第i行第j列的数据是临时矩阵F_tp第j列，第S_H *i行至第S_H*i+ K_H-1行的数据（长度为K_H的列向量）在进行“求最大值”、“求最小值”或“求均值”运算后的结果，如图3(b)所示。

将二维的池化运算分解为两次一维池化运算能够成立的原因在于OP运算的“可传递性”。即K_H*K_W个数的最大值/最小值/均值，等于将这K_H*K_W个数分成K_H个集合（每个集合含K_W个数），并将每个集合分别求最大值/最小值/均值，得道K_H个数，并将这K_H个数求最大值/最小值/均值的结果。

相应于上述方法，本发明还提供神经网络的池化层加速运算的电路，其包括图层分割模块、横向池化运算模块、纵向池化运算模块以及输出控制模块；其中：

所述图层分割模块，根据输入图层的宽度信息，将图层按宽度方向进行分割，使得分割后的图层能够放进纵向池化运算模块中进行运算（纵向池化运算模块对输入图层的最大宽度有一个限制，因此需要将宽度方向上特别大的输入图层进行分割）。这里的分割仅仅是逻辑上的分割，并不需要对输入图层进行额外的运算，只影响对DRAM中的数据读取的顺序。图层分割模块将分割后的输入特征的数据流送往横向池化运算模块；

所述横向池化运算模块，用于宽度方向上的池化运算，来自图层分割模块的数据流在完成横向的池化运算后，被送往纵向池化运算模块；

所述纵向池化运算模块，用于对数据流进行高度方向上的池化运算。在该模块中，设有一个寄存器阵列，用来缓存来自横向池化运算模块的数据，这个寄存器阵列的大小决定了能处理的最大输入图层的宽度；

所述输出控制模块，用于将池化运算的结果写回外部存储器。

本发明中，图层分割模块、横向池化运算模块、纵向池化运算模块和输出控制模块均使用脉动阵列结构，使每个时钟周期所有的硬件单元都处于工作状态，可提高硬件单元使用率，减少芯片面积，从而提高电路的工作效率。

本发明的有益效果在于：通过将二维的池化运算分解为两次一维池化运算（宽度方向与高度方向），规避了传统算法需要片上缓存、控制电路复杂以及存在冗余运算的问题。从而提高了硬件的复用效率，减少芯片面积，这也意味着电路在单位面积下可以获得更高的运算吞吐率。

附图说明

图1电路基本框图。

图2为传统池化运算的示意图。

图3为将二维的池化运算分解为两次一维池化运算（宽度方向与高度方向）的示意图。

图4为横向池化运算模块的电路图。

图5为纵向池化运算模块。

具体实施方式

本发明中，高效率的加速池化运算的电路的基本框图如图1所示。该设计的工作过程如下：

池化运算的输入特征图层存储在外部存储器（DRAM）中。首先，图层分割模块会根据输入图层的宽度信息，将图层按宽度方向进行分割，从而使得分割后的图层能够放进纵向池化运算模块中进行运算（纵向池化运算模块对输入图层的最大宽度有一个限制，因此需要将宽度方向上特别大的输入图层进行分割）。这里的分割仅仅是逻辑上的分割，并不需要对输入图层进行额外的运算，只影响了对DRAM中的数据读取的顺序。图层分割模块会将切割后的输入特征的数据流送往横向池化运算模块。横向池化运算模块负责宽度方向上的池化运算，来自图层分割模块的数据流在完成横向的池化运算后会被送往纵向池化运算模块。纵向池化运算模块对数据流进行高度方向上的池化运算，并将池化运算的结果（输出特征图层）送给输出控制模块。输出控制模块负责将池化运算的结果写回外部存储器。

其中，横向池化运算模块的电路图如图4所示，包括4组寄存器与4个OP（取最大值/最小值或均值）运算。来自图层分割模块的输入特征流进入横向池化运算模块后，会产生4个的输出，分别对应于K_W=2，3，4，5这四种情况。K_W>5的池化运算在卷积神经网络中暂不常见，因此本实施例仅采用4组寄存器，用于存储K_W=2，3，4，5这四种情况的运算数据。这4个输出经多路选择器选择后送给纵向运算模块，横向池化运算模块的输出对应于临时矩阵F_tp。由电路图可知横向池化运算模块所需的逻辑资源是相当少的，仅为4组寄存器与4个OP（取最大值/最小值或均值）运算。

其中，纵向池化运算模块的电路图如图5所示，其主要包括一寄存器阵列，该寄存器阵列由4行寄存器组构成，每个寄存器组有W_max个寄存器，W_max代表此池化电路最大所支持的输入特征的宽度。图层分割模块将实际的输入图层按宽度方向进行分割，使得每一片的宽度均不大于W_max。4*W_max+1个寄存器构成了一条“移位寄存器链”的结构，并且每个寄存器的输入端均有一个多路选择器，通过控制多路选择器的选择信号便可实现对每一行寄存器组中位于 “移位寄存器链”中的寄存器数目进行控制。每一行寄存器组中位于 “移位寄存器链”中的寄存器数目应和当前进行池化运算的特征宽度相等。来自横向池化模块的数据流经纵向池化运算模块后，会产生四个输出，分别对应于K_H=2，3，4，5这四种情况。K_H>5的池化运算在卷积神经网络中暂不常见，因此本实施例仅采用了4行寄存器组。这4个输出经多路选择器选择后送给输出控制模块，纵向池化运算模块的输出对应于输出特征图层F_out。

Claims

1.一种神经网络池化层加速运算的方法，其特征在于，是将二维的池化运算分解为两次一维池化运算：宽度方向一维池化运算与高度方向一维池化运算。

2.根据权利要求1所述的方法，其特征在于，所述将二维的池化运算分解为两次一维池化运算，具体流程为：

设输入特征图层的高为H，宽度为W；池化算子的高为K_H，宽K_W；池化运算高度方向的步幅为S_H, 宽度方向的步幅为S_W；输出特征图层的高为floor((H-K_H)/S_H)+1，宽为floor((W-K_W)/S_W)+1，分别记作H_out与W_out；

首先，进行宽度方向上的池化运算，输出结果为一个高为H、宽为W_out的临时矩阵，记作F_tp；其中F_tp的第i行第j列的数据是输入特征图层第i行、第S_W *j列至第S_W*j+ K_W-1列的数据即长度为K_W的行向量在进行“求最大值”、“求最小值”或“求均值”运算后的结果；

接着，进行高度方向的池化运算，这一步运算的输入为上一步的运算结果——临时矩阵F_tp；在对F_tp进行高度方向的池化运算之后，得到一个高为H_out、宽为W_out的矩阵，这个矩阵就是输出特征图层F_out；其中，F_out的第i行第j列的数据是临时矩阵F_tp第j列、第S_H *i行至第S_H*i+ K_H-1行的数据即长度为K_H的列向量在进行“求最大值”、“求最小值”或“求均值”运算后的结果。

3.一种基于权利要求1或2所述方法的神经网络池化层加速运算的电路，其特征在于，包括图层分割模块、横向池化运算模块、纵向池化运算模块以及输出控制模块；其中：

所述图层分割模块，根据输入图层的宽度信息，将图层按宽度方向进行分割，使得分割后的图层能够放进纵向池化运算模块中进行运算，图层分割模块将分割后的输入特征的数据流送往横向池化运算模块；

所述纵向池化运算模块，用于对数据流进行高度方向上的池化运算；在该模块中，设有一个寄存器阵列，用来缓存来自横向池化运算模块的数据，这个寄存器阵列的大小决定能处理的最大输入图层的宽度；

4.根据权利要求3所述方法的电路，其特征在于，所述横向池化运算模块，包括4组寄存器与4个OP运算，OP为取最大值、最小值或均值；来自图层分割模块的输入特征流进入横向池化运算模块后，产生4个的输出，分别对应于K_W=2，3，4，5这四种情况；4组寄存器用于存储K_W为2、3、4、5这四种情况的运算数据；这4个输出经多路选择器选择后送给纵向运算模块，横向池化运算模块的输出对应于临时矩阵F_tp。

5. 根据权利要求4所述方法的电路，其特征在于，所述纵向池化运算模块，主要包括一寄存器阵列，该寄存器阵列由4行寄存器组构成，每个寄存器组有W_max个寄存器，W_max代表此池化电路最大所支持的输入特征的宽度；图层分割模块将实际的输入图层按宽度方向进行分割，使得每一片的宽度均不大于W_max；4*W_max+1个寄存器构成了一条“移位寄存器链”的结构，并且每个寄存器的输入端均有一个多路选择器，通过控制多路选择器的选择信号实现对每一行寄存器组中位于 “移位寄存器链”中的寄存器数目的控制；每一行寄存器组中位于 “移位寄存器链”中的寄存器数目应和当前进行池化运算的特征宽度相等；来自横向池化模块的数据流经纵向池化运算模块后，产生四个输出，分别对应于K_H=2、3、4、5这四种情况；这4个输出经多路选择器选择后送给输出控制模块，纵向池化运算模块的输出对应于输出特征图层F_out。