CN110674934B

CN110674934B - 一种神经网络池化层及其运算方法

Info

Publication number: CN110674934B
Application number: CN201910792663.4A
Authority: CN
Inventors: 陈小柏; 赖青松
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2023-05-09
Anticipated expiration: 2039-08-26
Also published as: CN110674934A

Abstract

本发明公开了一种神经网络池化层及其运算方法，其中所述神经网络池化层包括直接内存访问模块DMA，用于读取存储器的特征数据；本实施例所述的存储器为DDR3；池化运算模块，用于对读取存储器的特征数据进行池化运算，并将运算结果返回DMA中；控制器controller模块，用于控制DMA从存储器中搬运特征数据传输给池化运算模块进行运算处理和监控池化运算模块的状态。本发明能减少运算量，提高运算速度，同时读取控制简单。

Description

一种神经网络池化层及其运算方法

技术领域

本发明涉及集成电路技术领域，更具体的，涉及一种神经网络池化层及其运算方法。

背景技术

卷积神经网络(CNN)是深度学习的重要算法，在计算机视觉特别是图像识别领域有着非常广泛的应用。目前几乎所有的识别和检测问题都把卷积神经网络作为首选方法，世界上各个IT巨头也都争相展开了相关研究。

从计算机的角度来看，图像实际上是一个二维矩阵，卷积神经网络所做的工作就是采用卷积、池化等操作从二维数组中提取特征，并对图像进行识别。理论上来说，只要是能转换成二维矩阵的特征，都可以利用卷积神经网络来识别和检测。比如声音文件，可以分割成很短的分段，每段音阶的高低可以转换成数字，这样整段的声音文件就可以转换为二维矩阵，类似的还有自然语言中的文本特征，医药实验中的化学特征等等，都可以利用卷积神经网络来实现识别和检测。

卷积是用来提取图像的局部特征，而池化则是对提取出来的局部特征进行压缩。池化的英文是pooling，还有一种叫法是down sampling(下采样)，池化就是将特征矩阵划分为若干小块，从每个子矩阵中选取一个值替代该子矩阵，这样做的目的是压缩特征矩阵，简化接下来的计算。池化有两种方式：Max Pooling (最大值池化)和Average Pooling(平均值池化)，前者是从子矩阵中取最大值，后者是取平均值，子矩阵的大小为size。如图1所示，size＝2，子矩阵的大小是 2x2，展示了Max Pooling和Average Pooling原理图。

特征Feature通常是存储在外部DDR3存储器里面，传统做法是一个通道一个通道从DDR3读出进行池化运算，比如当size＝3时，每次需要从DDR3读取9 个特征进行Max最大值或Average平均值运算，该方法运算速度慢、从DDR3 读取控制复杂，并且运算量大。

中国专利号：201810284999.5，公开了《一种神经网络的池化层加速运算的方法与电路》，该专利可以降低运算量，但是该专利没有提出多通道的处理办法，也没有提出padding的处理办法，与实际应用不符，没有实用性，并且需要对宽度 W方向分割，这对DDR3的控制及其复杂。

发明内容

本发明为了解决现有技术运算速度慢，且读取控制复杂的问题，提供了一种神经网络池化层及其运算方法，其能减少运算量，提高运算速度，同时读取控制简单。

为实现上述本发明目的，采用的技术方案如下：一种神经网络池化层，包括直接内存访问模块DMA，用于读取存储器的特征数据；

池化运算模块，用于对读取存储器的特征数据进行池化运算，并将运算结果返回DMA中；

控制器controller模块，用于控制DMA从存储器中搬运特征数据传输给池化运算模块进行运算处理和监控池化运算模块的状态。

本发明直接通过池化层中的DMA读取存储器的特征数据，该方法控制神经网络池化层读取存储器中的特征数据操作更简单。

优选地，所述DMA与存储器之间采用AXI接口通信。

本发明基于以上所述的一种神经网络池化层，还提供了一种神经网络池化层的运算方法，所述DMA每个时钟周期会读取N个特征数据传输到池化运算模块，所述池化运算模块首先对特征数据进行宽度方向运算，有N个宽度方向运算单元并行运算N个通道；

然后再对特征数据进行高度方向池化运算，同样有N个高度方向运算单元并行运算N个通道；

完成池化运算，最后将运算结果通过DMA写入存储器。

本发明通过先进行宽度方向运算，再进行高度方向运算，减小运算量，同时采用多通道并行运算的方式进行算法加速，从而提高了运算速度。

进一步地，所述控制器模块将特征数据在存储器的起始地址和字节数量传输给DMA，所述DMA根据起始地址，从存储器读取相应字节数量的特征数据，传输到池化运算模块。

再进一步地，所述特征数据在存储器内部按照N通道排列方式进行存储，所述的特征数据为三维矩阵，其宽度为Wi，高度为Hi，通道数量为C，排列顺序按N通道排列，且每N个通道的特征数据在存储器里面按连续地址存储；所有N的累加和等于C。

再进一步地，所述的N为2的次幂。

再进一步地，所述宽度方向的特征数据是以一个点为单位进行运算。

再进一步地，在对特征数据进行宽度方向池化运算之前，通过公式 Wi＝Wo*size，判断当Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中Wi表示输入特征数据的宽度，Wo表示输出特征数据的宽度，size表示子矩阵的大小，为正整数；

所述补零操作是在特征feature四周填充零数据，填充个数为padding，其中padding大于正整数，使Wi+2*padding＝Wo*size，当需要补零时，池化运算需要在宽度方向上每一行计算第1个输出或最后1个输出时，与(size-padding)个输入数据进行运算。

再进一步地，所述高度方向的特征数据是以一行为单位进行运算，并采用一个FIFO缓存一行特征数据用于与下一行特征数据进行运算操作。

再进一步地，在对特征数据进行高度方向池化运算之前，通过公式 Hi＝Ho*size，判断当Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中，Hi表示输入特征数据的高度，Ho表示输出特征数据的高度，size表示子矩阵的大小，为正整数；

所述补零操作是在特征feature四周填充零数据，填充个数为padding，其中padding大于正整数，使Hi+2*padding＝Ho*size，当需要补零时，池化运算需要在高度方向上每一列计算第1个输出或最后1个输出时，与(size-padding)个输入数据进行运算。

本发明的有益效果如下：

1.本发明通过直接采用DMA读取存储器，从而获取特征数据，相比传统中央处理器(CPU)控制DMA的方式，本发明控制读取方式更加简单，快速高效。

2.本发明通过采用多通道并行运算的方式进行算法加速，对特征数据先进行宽度方向池化运算，再进行高度方向池化运算，减小运算量。同时本发明存储在存储器的特征数据无需分割，只需要一次性从头到尾读出来即可，从而有效地加快了运算速度。

附图说明

图1是展示最大值池化和平均值池化的原理图。

图2是本实施例所述神经网络层的结构示意图。

图3是本实施例所述特征数据按N通道排列存储的示意图。

图4是本实施例所述宽度方向不补零的示意图。

图5是本实施例所述宽度方向补1个零的示意图。

图6是本实施例所述宽度方向补2个零的示意图。

图7是本实施例所述宽度方向运算结果的示意图。

图8是本实施例所述高度方向不补零的示意图。

图9是本实施例所述高度方向补1个零的示意图。

图10是本实施例所述高度方向补2个零的示意图。

图11是本实施例所述高度方向运算结果的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图2所示，一种神经网络池化层，包括直接内存访问模块DMA，用于读取存储器的特征数据；本实施例所述的存储器为DDR3；

本实施例直接通过池化层中的DMA读取存储器的特征数据，该方法控制神经网络池化层读取存储器中的特征数据操作更简单。

本实施例所述DMA与存储器之间采用AXI接口通信。控制器模块控制DMA 从DDR3搬运特征数据给到池化运算模块，控制很简单，只需要将特征数据在 DDR3的起始地址和字节数量传输给DMA，然后DMA根据该起始地址从DDR3 读取相应字节数量的特征数据，无需分割操作。

本实施例基于以上所述的一种神经网络池化层，还提供了一种神经网络池化层的运算方法，所述DMA每个时钟周期会读取N个特征数据传输到池化运算模块，所述池化运算模块首先对特征数据进行宽度方向运算，有N个宽度方向运算单元并行运算N个通道；

完成池化运算，最后将运算结果通过DMA写入存储器。

本实施例通过先进行宽度方向运算，再进行高度方向运算，减小运算量，同时采用多通道并行运算的方式进行算法加速，从而提高了运算速度。

本实施例所述控制器模块将特征数据在存储器的起始地址和字节数量传输给DMA，所述DMA根据起始地址，从存储器读取相应字节数量的特征数据，传输到池化运算模块。

所述的特征Feature数据在DDR3内部的存储结构按照N通道排列方式存储在DDR3，存储方式由整个神经网络确定，在最初的卷积运算已经排列好，无需池化层额外花时间排列。如图3所示，特征Feature总通道数量为C，按N通道排列，每N个通道的特征Feature在DDR3里面按连续地址存储。所有N的累加和等于C。N通常为2的次幂，例如2、4、8、16、32等，按N通道排列的好处有两点，第一是DDR3读写操作是突发传输的，必须要字节对齐，通常是8字节、 16字节、32字节对齐，单个特征Feature数据的数量有时不是字节对齐，但是N 通道的特征Feature数据总和一定是字节对齐的；第二是池化层运算可以并行运算N个特征数据，非常利于算法的加速。

本实施例所述DDR3存储器存储的特征Feature数据，所述的特征数据为三维矩阵，其宽度为Wi，高度为Hi，通道数量为C，排列顺序按N通道排列，第 1个N通道的特征Feature存储在第一部分连续地址，第2个N通道Feature存储在第二部分连续地址，依次类推。

本本实施例所述的池化运算就是将特征数据矩阵划分为若干小块，每个小块为一个子矩阵，从每个子矩阵中选取一个值替代该子矩阵，从而达到压缩特征矩阵的目的，通过简化矩阵再进行计算。所述的池化运算有两种方式：Max Pooling (最大值池化)和Average Pooling(平均值池化)，前者是从子矩阵中取最大值，后者是取平均值，子矩阵的大小为size。

本实施例所述宽度方向的特征数据是以一个点为单位进行运算。

本实施例在对特征数据进行宽度方向池化运算之前，通过公式 Wi＝Wo*size，判断当Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中Wi表示输入特征数据的宽度，Wo表示输出特征数据的宽度，size表示子矩阵的大小，为正整数；

本实施例以size＝3为例进行说明，所述的池化运算为最大值池化，分三种情况，不补零、补1个零、补2个零，如图4、图5、图6所示。图中所述的comp_start 表示一个数据的池化运算开始，comp_end表示一个数据的池化运算结束， comp_end的下一个时钟周期得出一个运算结果。不补零时，最右侧会多出数据，直接丢弃；补1个零时，只需要在最右侧补零，实际上不是真正的补零，只是在最右侧对剩余2个数据也做一次池化运算；补2个零时，同样的道理，在最左侧对开始2个数据做一次池化运算，在最右侧对剩余2个数据做一次池化运算，达到了补零的效果。经过本实施例所述的运算方法，得到如图7所示效果，Wo表示输出Feature的宽度。

本实施例所述高度方向的特征数据是以一行为单位进行运算，并采用一个 FIFO缓存一行特征数据用于与下一行特征数据进行运算操作。

在对特征数据进行高度方向池化运算之前，通过公式Hi＝Ho*size，判断当 Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中，Hi表示输入特征数据的高度，Ho表示输出特征数据的高度，size表示子矩阵的大小，为正整数；

本实施例以size＝3为例说明，所述的池化运算为最大值池化，分三种情况，不补零、补1个零、补2个零，如图4、图5、图6所示。图中comp_start表示一行数据的池化运算开始，comp_end表示一行数据的池化运算结束，fifo_wr表示需要存入FIFO的信号，comp_end的下一个时钟周期得出一行运算结果。不补零时，最下侧会多出数据，直接丢弃；补1个零时，只需要在最下侧补零，实际上不是真正的补零，只是在最下侧对剩余2行数据做一次池化运算；补2个零时，同样的道理，在最上侧对开始2行数据做一次池化运算，在最下侧对剩余2行数据做一次池化运算，达到了补零的效果。本实施例经过运算，得到如图7所示效果，Ho表示输出特征Feature的高度

经过高度方向运算后也就完成了整个池化运算，最后通过DMA写入DDR3，写完之后通过中断将完成运算信息发送给中央处理器(CPU)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种神经网络池化层运算系统，其特征在于：包括直接内存访问模块DMA，用于读取存储器的特征数据；

控制器模块，用于控制DMA从存储器中搬运特征数据传输给池化运算模块进行运算处理和监控池化运算模块的状态；

所述的神经网络池化层的运算方法，如下：所述DMA每个时钟周期会读取N个特征数据传输到池化运算模块，所述池化运算模块首先对特征数据进行宽度方向运算，有N个宽度方向运算单元并行运算N个通道；

完成池化运算，最后将运算结果通过DMA写入存储器；

在对特征数据进行宽度方向池化运算之前，通过公式 Wi=Wo*size，判断当Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中Wi表示输入特征数据的宽度，Wo表示输出特征数据的宽度，size表示子矩阵的大小，为正整数；

所述补零操作是在特征四周填充零数据，填充个数为padding，其中padding大于正整数，使 Wi+2*padding=Wo*size，当需要补零时，池化运算需要在宽度方向上每一行计算第1个输出或最后1个输出时，与（size-padding）个输入数据进行运算。

2.根据权利要求1所述的神经网络池化层运算系统，其特征在于：所述DMA与存储器之间采用AXI接口通信。

3.根据权利要求1所述的神经网络池化层运算系统，其特征在于：所述控制器模块将特征数据在存储器的起始地址和字节数量传输给DMA，所述DMA根据起始地址，从存储器读取相应字节数量的特征数据，传输到池化运算模块。

4.根据权利要求3所述的神经网络池化层运算系统，其特征在于：所述特征数据在存储器内部按照N通道排列方式进行存储，所述的特征数据为三维矩阵，其宽度为Wi，高度为Hi，通道数量为C，排列顺序按N通道排列，且每N个通道的特征数据在存储器里面按连续地址存储；所有N的累加和等于C。

5.根据权利要求3所述的神经网络池化层运算系统，其特征在于：所述的N为2的次幂。

6.根据权利要求3所述的神经网络池化层运算系统，其特征在于：所述宽度方向的特征数据是以一个点为单位进行运算。

7.根据权利要求3所述的神经网络池化层运算系统，其特征在于：所述高度方向的特征数据是以一行为单位进行运算，并采用一个FIFO缓存一行特征数据用于与下一行特征数据进行运算操作。

8. 根据权利要求6所述的神经网络池化层运算系统，其特征在于：在对特征数据进行高度方向池化运算之前，通过公式 Hi=Ho*size，判断当Wi和size不是整数倍关系时，需要对特征数据进行填充，也就是补零操作；其中，Hi表示输入特征数据的高度，Ho表示输出特征数据的高度，size表示子矩阵的大小，为正整数；

所述补零操作是在特征feature四周填充零数据，填充个数为padding，其中padding大于正整数，使 Hi+2*padding=Ho*size，当需要补零时，池化运算需要在高度方向上每一列计算第1个输出或最后1个输出时，与（size-padding）个输入数据进行运算。