CN112668695A

CN112668695A - 一种用于CNN硬件加速的改进型LeNet-5模型

Info

Publication number: CN112668695A
Application number: CN202011549668.3A
Authority: CN
Inventors: 程知; 李增辉; 张新; 何立新; 项响琴; 蔡佳楠; 唐超; 檀明
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16

Abstract

本发明公开一种用于CNN硬件加速的改进型LeNet‑5模型，所述改进LeNet‑5网络结构为多层的网络结构，包括输入层、卷积层、池化层、激活层、全连接层、输出层，每一层都含有大量可学习的参数，其中第一层、第三层分别为卷积层一、三，第二层和第四层分别为池化层二、四，第六层为全连接层，Output为输出层。本发明能够在保证模型识别准确率的前提下，通过降低模型复杂度减少模型计算量，提高模型识别速度。

Description

一种用于CNN硬件加速的改进型LeNet-5模型

技术领域

本发明涉及人工智能领域，具体涉及一种用于CNN硬件加速的改进型LeNet-5模型。

背景技术

随着嵌入式机器学习的发展，将轻量级的神经网络模型部署在硬件设备上，已成为设备智能化的一种重要方式之一。对于常用的CNN模型，国内外学者提出了很多该模型在不同平台上的加速方案，比如FPGA(现场可编程阵列)，ASIC(专用集成电路)、Soc(片上系统)和GPU(图形处理器)等平台。与具体平台上的加速方式不同，本发明通过改进CNN模型结构，强化模型的特征提取功能并减少参数个数，在保证准确率的前提下，有效的降低CNN模型结构的参数规模和复杂度。

发明内容

本发明目的在于解决现有的卷积神经网络结构的数据计算量较为庞大，不适于在嵌入式场景下的使用的情况，提出一种能够在保证模型识别准确率的前提下，通过降低模型复杂度减少模型计算量，提高模型识别速度的一种用于CNN硬件加速的改进型LeNet-5模型。

本发明解决技术问题采用如下技术方案：

一种用于CNN硬件加速的改进型LeNet-5模型，其特征在于：包括改进LeNet-5网络结构，所述改进LeNet-5网络结构由如下部分组成：

所述改进LeNet-5网络结构为多层的网络结构，包括输入层、卷积层、池化层、激活层、全连接层、输出层，每一层都含有大量可学习的参数，其中第一层、第三层分别为卷积层一、三，第二层和第四层分别为池化层二、四，第六层为全连接层，Output为输出层，其中池化层采用的为最大值池化的方式，激活函数使用的是ReLu函数，数据在经过池化层四后直接与全连接层相连，全连接层层采用147个神经元，计算结果使用ReLu函数激活，输出层Output采用10个神经元进行分类，整个网络结构一共2383个参数；

所述卷积层一是由6个尺寸大小为5*5的卷积核组成的，卷积核权重初始化使用正则化，卷积核在每一次卷积运算中的滑动步长为1，若输入特征图像的特征映射的尺寸大小为28*28，图像尺寸大小为28*28像素，图像深度为6，即输出为28*28*6；

池化层二是采用2*2的过滤器，依次从图像左上角按照步长为2滑动到图像右下角，输出为6通道尺寸大小为14*14的特征图像，由于感受域尺寸为2*2，相互之间不重叠，因此池化层二中的输出的图像尺寸只有卷积层一中输出图像尺寸的1/4；

卷积层三的卷积核尺寸为5*5像素，深度为6，C3中使用3个卷积核，分别对应3个相应的偏置项，一共是18个卷积核参与卷积过程。由于激活函数不改变输出图像尺寸和深度，因此，卷积层三的输出特征图像尺寸为14*14像素，深度为3，即14*14*3。

池化层四与池化层二一致，尺寸是2*2。窗口滑动步长为2，特征图像采用边缘全零填充，取窗口内每四个相邻区域的值中最大的值，即最大池化方式。池化层得到结果尺寸为7*7像素，深度为3。

本发明的优点在于：去除原有LeNet-5结构中的卷积层五，数据在经过池化层四后直接与全连接层相连，全连接层采用147个神经元，计算结果使用ReLu函数激活，输出层Output采用10个神经元进行分类，整个网络结构一共2383个参数，改进后的网络结构大大减少了计算量，改进网络模型与LeNet-5的区别如表1所示。

表1本文网络结构与LeNet-5结构对比

附图说明

图1为本发明CNN模型整体数据处理流程示意图；

图2为本发明卷积计算模块数据处理流程示意图；

图3为本发明激活层数据处理流程示意图；

图4为本发明最大池化模块数据处理流程示意图；

图5为本发明全连接层需要用到的乘法器数据处理流程示意图。

具体实施方式

如图所示，本发明的具体实施方式如下：一种用于CNN硬件加速的改进型LeNet-5模型，其特征在于：所述改进LeNet-5网络结构为多层的网络结构，包括输入层、卷积层、池化层、激活层、全连接层、输出层，每一层都含有大量可学习的参数，其中第一层、第三层分别为卷积层一、三，第二层和第四层分别为池化层二、四，第六层为全连接层，Output为输出层，其中池化层采用的为最大值池化的方式，激活函数使用的是ReLu函数，数据在经过池化层四后直接与全连接层相连，全连接层层采用147个神经元，计算结果使用ReLu函数激活，输出层Output采用10个神经元进行分类，整个网络结构一共2383个参数，通过降低模型复杂度减少模型计算量，提高模型识别速度。

所述一种用于CNN硬件加速的改进型LeNet-5模型，其特征在于：所述改进LeNet-5网络结构由如下部分组成：

所述卷积层一是由6个尺寸大小为5*5的卷积核组成的，卷积核权重初始化使用正则化，卷积核在每一次卷积运算中的滑动步长为1，当输入特征图像的特征映射的尺寸大小为28*28，图像尺寸大小为28*28像素，图像深度为6，即输出为28*28*6；

池化层二是采用2*2的过滤器，依次从图像左上角按照步长为2滑动到图像右下角，输出为6通道、尺寸大小为14*14的特征图像，由于感受域尺寸为2*2，相互之间不重叠，因此池化层二中的输出图像尺寸只有卷积层一中输出图像尺寸的1/4；

卷积层三的尺寸为5*5像素，深度为6，卷积层三中使用3个卷积核，分别对应3个相应的偏置项，一共是18个卷积核参与卷积过程，激活函数不改变输出图像尺寸和深度，卷积层三的输出特征图像尺寸为14*14像素，深度为3，即14*14*3；

池化层四与池化层二一致，尺寸是2*2。窗口滑动步长为2，特征图像采用边缘全零填充，取窗口内每四个相邻区域的值中最大的值，即最大池化方式，池化层得到结果尺寸为7*7像素，深度为3。

如图1所示，改进Le-Net模型包含输入层、卷积层、池化层、激活层、全连接层、输出层，每一层都含有大量可学习的参数。所述改进LeNet-5网络结构应用在CNN硬件模型中的整体数据具体处理流程见下文所述：

1、如图2所示，当图像数据Data进入卷积层一时，卷积层三与卷积层一共用相同的卷积模块，将一维向量按照通道数i、行j、列k的顺序进行转换成三维数组，记为DataArray[i][j][k]，假设原始图像通道数为c,图像尺寸为h*w，则在边缘无填充的情况下，转换公式可表示为：

DataArray[i][j][k]＝Data[(i*h*w+j*h+k)*8+8-1:(i*h*w+j*h+k)*8]

在需要边缘填充0的情况下，需将DataArray数组的边缘添加数据0，假设卷积核尺寸为a*b,则转换伪代码如下：

2、当改进LeNet-5网络结构进行数据处理时，在边缘填充0，将数据转换之后保存于DataArrayP[i][j][k]中，在经过填充之后，下面需要将数据做卷积预处理，将每次卷积核与数据重叠的部分，按照顺序展开，卷积核步长为1，该操作从数据左上角进行展开，首先，5*5卷积核与填充后的图像数据在左上角位置重合，然后将5*5大小的图像数据，按照从左上角位置一直到右下角位置排列展开作为后续参与卷积运算的参数保存至参数ParamArray数组，每个参数占8位，5*5数据遍历保存至参数ParamArray数组之后，卷积核按照从左上角向右移动至右边缘后向下移动一个步长，然后重复向右移动至右边缘，直至遍历到该通道右下角的最后一个位置，若输入图像为多通道，则该过程为卷积核分别按照从第一通道到最后一个通道提取5*5的数据，放入ParamArray数组，然后卷积核再依次从左上角至右下角遍历，每次移动均按照从第一通道5*5的数据左上角至最后一通道5*5的数据的右下角进行遍历保存参数数据；卷积核权重的参数也采取从第一个卷积核左上角位置至最后一个卷积核右下角的顺序展开读入，数据均为8位定点数，卷积数据读入之后需按通道顺序转换放入一维向量WeightArray中；

3、如图2所示，为改进LeNet-5网络结构的卷积计算模块，在上述步骤1、2进行数据转换后，将数据送入卷积计算模块进行计算，在卷积核权重Weight与对应像素数据X相乘后，再利用加法电路相加并加上偏置项参数后，送入下一层进行运算，本结构中，数据被在同一时刻送入卷积计算模块，并在同一时刻计算完成并输出到下一层，输出数据均为16位，但会在输入下一层的过程中截断为8位；

4、如图3所示，为改进LeNet-5网络结构的激活层，对于卷积层输出的数据激活层无需进行格式转换，仅需要根据激活函数，对数据进行处理，当输入为负值时，该激活层输出为0，否则，输出与输入的x保持一致；

5、如图4所示，为改进LeNet-5网络结构的池化层，当数据到达池化层时，首先将输入的一维数据向量进行转换，将数据按照通道i，行j,列k的格式，转换成三维数组DataArray[i][j][k]，转换过程见下式，式中h和w分别为图像尺寸的高和宽；

DataArray[i][j][k]＝Data[(i*h*w+j*h+k)*8+8-1:(i*h*w+j*h+k)*8]

在完成上述转换后，对DataArray数组进行数据展开，展开过程如下：首先取2*2的滑动窗口，输入数据的左上角向右下角按照步长为2进行滑动，当滑动至右边缘时，向下移动两个步长，继续从左边缘滑动至右边缘，重复此过程，直至窗口滑动至图像右下角位置，其中，每次滑动都将该滑动窗口下所有通道的数据按照从第一通道左上角到最后一个通道右下角的顺序保存至ParamArray数组中，然后依次按序滑动，直至最后一通道的右下角；在参数预处理完成后，对数据进行最大池化操作，每次取2*2区域中的4个值中最大的一个进行输出；

6、如图5所示，为所述全连接层需要用到乘法器，即在全连接层中需要将输入的一维向量与全连接层的权重进行乘积运算，对应乘积运算完成后，加上各个神经元的偏置项参数即可；

7、所述输出层之后需要接softmax分类器进行分类。为了避免模型出现过拟合现象，在反向传播过程中，所述网络在损失函数loss中引入模型复杂度指标，通过给权值参数加权，弱化训练数据中噪声对模型训练的影响，数据处理过程中使用Dropout技术，每轮训练随机抛弃50％神经元。

Claims

1.一种用于CNN硬件加速的改进型LeNet-5模型，其特征在于：所述改进LeNet-5网络结构为多层的网络结构，包括输入层、卷积层、池化层、激活层、全连接层、输出层，每一层都含有大量可学习的参数，其中第一层、第三层分别为卷积层一、三，第二层和第四层分别为池化层二、四，第六层为全连接层，Output为输出层，其中池化层采用的为最大值池化的方式，激活函数使用的是ReLu函数，数据在经过池化层四后直接与全连接层相连，全连接层层采用147个神经元，计算结果使用ReLu函数激活，输出层Output采用10个神经元进行分类，整个网络结构一共2383个参数，通过降低模型复杂度减少模型计算量，提高模型识别速度。

2.根据权利要求1的所述一种用于CNN硬件加速的改进型LeNet-5模型，其特征在于：所述改进LeNet-5网络结构还包含如下特征：