CN110782022A

CN110782022A - 一种面向可编程逻辑器件移动终端的小型神经网络的实现方法

Info

Publication number: CN110782022A
Application number: CN201911050280.6A
Authority: CN
Inventors: 钱慧; 林秀男; 郑镇洪; 刘狄
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-11

Abstract

本发明涉及一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，包括以下步骤：步骤S1：输入图像经过2层的卷积层后得到特征图；步骤S2：每次卷积后的特征图再经过激活函数进行非线性映射；不同卷积层之间采用步长为2的

滤波器进行最大池化操作，选择特征图中的主要特征，降低所述特征图的维度，得到池化层输出图像；步骤S3：将步骤S2中所得到的池化层输出图像平铺为一维，经过全连接层后，得到输出结果。本发明中将模型参数降低了约4倍，减少了参数对存储空间的需求，而1‑bit的输入数据和8‑bit权重参数也降低了计算需求。在终端部署该神经网络时，可以采用查找表和流水线并行计算的方法来提高计算速度。

Description

一种面向可编程逻辑器件移动终端的小型神经网络的实现方法

技术领域

本发明涉及移动终端运行领域，特别是一种面向可编程逻辑器件移动终端的小型神经网络的实现方法。

背景技术

近年来，深度神经网络已经广泛运用在图像处理、语音识别以及自然语言处理等领域，并取得了很大的成功。越来越多的移动应用采用深度神经网络来提供准确、智能有效的服务。但是在移动终端上部署神经网络是一个很大的挑战。因为尽管这些神经网络具有很强的表示能力，但是它们大量的权重参数需要耗费相当大的存储空间、内存宽带以及计算资源，而容量小的资源有限的移动终端很难满足其需求；另外运行大的神经网络需要大量的存储器带宽来获取权重以及大量的计算来完成点积，这会消耗相当大的能量，对于移动终端来说，其电池电量的约束使得消耗大功率的神经网络难以部署，所以神经网络在实际应用中仍存在着很大的局限性。

发明内容

有鉴于此，本发明的目的是提供一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，在终端部署神经网络时，采用查找表存储模型的权重参数，并利用流水线并行计算完成网络中卷积运算，从提高计算速度。

本发明采用以下方案实现：一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，包括以下步骤：

步骤S1：提供输入图像，所述输入图像经过2层的卷积层后得到特征图；其中所述卷积层的每一层均由步长为1的3×3卷积核进行卷积得到，采用边缘零填充方法保证卷积的输出维度不变；

步骤S2：将步骤S1得到的特征图再经过激活函数进行非线性映射；不同卷积层之间采用步长为2的2×2滤波器进行最大池化操作，提取特征，降低所述特征图的维度，得到池化层输出图像；

步骤S3：将步骤S2中所得到的池化层输出图像平铺为一维经过全连接层后，得到输出结果即得到小型神经网络模型；

步骤S4：经过步骤S1-步骤S3即得到小型神经网络模型；将得到的小型神经网络模型部署在包含可编程逻辑器件的移动终端上。

进一步地，步骤S1中所述的输入图像具体为：在自然场景下通过成像系统采集图像，将采集到的图像先经过二值化处理，然后设置阈值归一化为32×32大小的图像，即所述输入图像为由0或1组成的1-bit表示的图像数据。

进一步地，所述步骤S1具体包括以下内容：

所述卷积层包含多个卷积核集{K_i}，卷积核集的个数取决于卷积层的输出通道，每一个K_i中的卷积核数目和输入特征图数目相等，将此卷积层的输入特征图与K_i中对应的卷积核进行卷积操作，得到卷积层的第i个输出通道C_i；卷积公式为：

I_j表示输入的第j个特征图，*代表卷积操作，b_i为偏置权重，N为K_i中卷积核的个数，也与此卷积层的输入特征图的数目相等。

进一步地，所述步骤S2的具体内容为：步骤S2中所述的激活函数采用的是线性整流函数ReLU；

所使用的激活函数ReLU函数表达式如下，m为卷积后特征图的宽度,n为卷积后特征图的高度；

最大池化操作为在2×2不重叠的子区域上取最大值，最大池化操作表示为：

其中r,t分别为池化后特征图的宽度和高度，s为池化层的步长。

进一步地，所述步骤S3的具体内容为：

全连接层的输入为平铺为一维后的特征图，所述输入图像经过卷积层和池化层后输出的特征图为r×t，其中r,t分别为池化后特征图的宽度和高度，将其平铺为1×rt后输入到全连接层中，全连接层的第l个神经元的输出表示为：

其中W_l为全连接第l个神经元的权重参数，b_l是第l个神经元的偏置权重。

进一步地，所述步骤S4的具体包括以下步骤：

步骤S41：对卷积层进行部署：

步骤S411:使用查表法对第一层卷积层进行部署；

步骤S412:对除第一卷积层之外的其他的卷积层进行部署：利用流水线和并行计算构造一个卷积计算单元；所述卷积计算单元包括由移位寄存器构成的数据缓冲器、权重缓冲器、乘法器组、加法树、激活函数模块和池化模块；在每次卷积时，首先将输入图像的特征数据和已训练的模型中权重数据分别加载到数据缓冲器和权重缓冲器中；然后通过移位寄存器逐行进入乘法器组中进行乘法运算后，通过加法树对乘积结果求和；激活函数模块和池化模块都是可选模块；

步骤S42：对神经网络的全连接层进行部署：利用流水线和并行计算构造一个全部连接层计算单元；所述全连接层计算单元包括数据缓冲器、权重缓冲器、乘法器组和加法树；将卷积层的计算结果和已训练模型中的全连接层权重按照相同的大小进行分块处理，然后按块存储到数据缓冲器和权重缓冲器中；以块为计算单位将对应的数据送入乘法器组进行相乘，并通过加法树对相乘结果求和；当所有的块都计算完毕后，再通过一个加法树对所有块的结果进行累加得到最终的全连接层结果。

进一步地，步骤S412中所述将特征数据加载到数据缓冲器中的具体处理过程为：在数据缓冲器中，采用输入数据流动的方式，读取固定地址的数据；新数据从缓冲区的低位进入，旧数据从高位输出。

进一步地，步骤S412中所述并行计算的具体内容为：令卷积核和特征图的通道数都为C，被划分为N组，每组有C′个通道；首先选择第1组C'个卷积核通道，与特征图对应的C'个通道进行卷积运算，然后将C'个通道的卷积结果累加作为第1组的结果，输出到输出缓冲区中；接着切换到第2组数据的计算，并将计算结果放在第二个输出缓冲区中，重复此过程；最后将N个输出缓冲区对应位置数据通过加法树相加，得到这个输出通道的最终卷积结果。

进一步地，所述步骤S42的具体内容为：

采用分块计算将权重矩阵拆分成为固定大小的子矩阵，各个子矩阵能够并行计算；将n×M²的权重矩阵W按列分为K组，则子矩阵的数量为

并进行编号为W_ij，其中i∈(1,...,K)表示权重矩阵按列被分成K组，j∈(1,...,n)表示权重矩阵行维度为n，即输出节点为n；将M²×1的输入特征图划分为K组，标记为X_i，其中i∈(1,...,K)；在进行拆分之后，神经网络全连接层第j个输出节点的结果由K组的计算结果相加得出；其计算公式如下：

与现有技术相比，本发明具有以下有益效果：

本发明通过输入图像归一化处理，参数量化处理首先降低了神经网络在终端部署时对存储空间的需求，以及计算资源的需求，具备了在资源有限的移动终端实现神经网络部署的优势。

附图说明

图1为本发明实施例的神经网络模型图。

图2为本发明实施例的已部署神经网络的终端使用过程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，包括以下步骤：

在本实施例中，步骤S1中所述的输入图像具体为：在自然场景下通过成像系统采集图像，将采集到的图像先经过二值化处理，然后设置阈值归一化为32×32大小的图像，即所述输入图像为由0或1组成的1-bit表示的图像数据。

在本实施例中，所述步骤S1具体包括以下内容：

I_j表示输入的第j个特征图，*代表卷积操作，b_i为偏置权重，N为K_i中卷积核的个数，也与此卷积层的特征图的数目相等。

在本实施例中，所述步骤S2的具体内容为：步骤S2中所述的激活函数采用的是线性整流函数ReLU；

在本实施例中，所述步骤S3的具体内容为：

在本实施例中，所述步骤S4的具体包括以下步骤：

步骤S41：对卷积层进行部署：在部署方面，对于卷积层的操作，分别采用的是查找表和并行流水线策略实现。对于卷积层，本实施例采用两种方式进行部署。首先是第一层卷积层，其输入数据为1-bit，经卷积计算和激活函数计算之后，其结果的种类是有限的，因此使用查找表更加高效快速。

步骤S411:使用查表法对第一层卷积层进行部署；

在本实施例中，步骤S412中所述将特征数据加载到数据缓冲器中的具体处理过程为：在数据缓冲器中，采用输入数据流动的方式，读取固定地址的数据；新数据从缓冲区的低位进入，旧数据从高位输出。在池化模块中，对于输入数据的存储和读取与卷积计算过程中的数据缓冲器相同。不同之处在于池化的操作过程由比较器组完成，而不是乘法器组和加法树。

在本实施例中，步骤S412中所述并行计算的具体内容为：在卷积计算中通常存在多通道输入的卷积核。本实施例针对这种情况采用分组并行计算。令卷积核和特征图的通道数都为C，被划分为N组，每组有C′个通道；首先选择第1组C'个卷积核通道，与特征图对应的C'个通道进行卷积运算，然后将C'个通道的卷积结果累加作为第1组的结果，输出到输出缓冲区中；接着切换到第2组数据的计算，并将计算结果放在第二个输出缓冲区中，重复此过程；最后将N个输出缓冲区对应位置数据通过加法树相加，得到这个输出通道的最终卷积结果。

在本实施例中，所述步骤S42的具体内容为：

由于神经网络的全连接层存在参数量大，且相互之间没有依赖关系的特点，因此采用分块计算将权重矩阵拆分成为固定大小的子矩阵，各个子矩阵能够并行计算；将n×M²的权重矩阵W按列分为K组，则子矩阵的数量为

在本实例中，第二层卷积层是为8个输入通道的卷积操作。本实例采用8个输入通道并行计算，得出8个通道的各自的卷积结果，然后经过加法树累加得到其输出通道的卷积结果。

本实施例，在步骤S4终端部署神经网络时，采用查找表存储模型的权重参数，并利用流水线并行计算完成网络中卷积运算，从提高计算速度。

较佳的，本实施例采用二值化的图像经过归一化处理后作为网络的输入，那么神经网络的输入就是1-bit的数据，并且将权重由32-bit浮点数量化为8-bit定点数，将模型参数降低了约4倍，减少了参数对存储空间的需求，1-bit的输入和8-bit权重参数也降低了计算需求。在终端部署神经网络时，采用查找表和流水线并行计算的方法来降低计算量以及提高计算速度。

较佳的，本实施例的具体示例如下：

在第一个卷积层和池化操作的实现中，i＝8,j＝1，离线训练完的卷积参数都是固定的，对于输入情况只有0或1，卷积核大小为3×3的情况下，即由0、1组成的9-bit的输入数据完成一次卷积操作，输入有2^3×3＝512种，经卷积和激活函数计算后，其结果种类不超过157种。本实施例采用的查找表的方式进行第一层卷积层的卷积和激活函数操作。池化层的实现方式包括输入和输出缓冲区、数据缓冲区和比较器构成。第一层池化层输入数据是32×32，其数据缓冲区可存放34个8-bit数，当第一个输入数据到达数据缓冲区末端时，比较器开始工作。由于池化层步长为2，因此每隔一个时刻会有计算结果。

对于第二层卷积层的实现，本实施例所采用的方式主要由输入和输出缓冲区、数据缓冲区、权重缓冲区、乘法器和加法器构成。输入数据和权重数据通过移位寄存器逐行进入卷积计算单元中。当第一个输入数据到达数据缓冲区末端时乘法器开始工作，之后每个时刻都会有计算结果输出。由于第二层卷积层由8个输入特征图，并且不同卷积核之间没有依赖关系，因此对这8个特征图同时进行卷积操作，并将卷积计算结果相加得到一个输出通道的结果。

对于ReLU激活函数，根据函数的表达式(2)可以得知，只需对最高位符号位进行判断，为0激活输出保持不变，为1激活输出变为0。

第二层池化层的输入数据是16×16，其数据缓冲区可以存放18个16-bit数，剩余的操作与第一层池化层操作一样。

全连接层的操作，本实施例的实现方式是将权重参数矩阵分块处理，由输入、输出缓冲区，数据寄存器，LUTBRAM，乘法器和加法器组成。LUTBRAM用来存储8-bit的全连接层权重参数。在本实施例中，第二层池化层的输出为8×8×8，将其平铺成一维数据1×512后，作为全连接层的输入；全连接层的权重参数矩阵为512×10，将其划分为8个块，每个块大小为64×10，相对应的输入数据1×512也划分为8个块，每个块1×64。1×64的块输入同时与64×10的权重矩阵块的10列并行计算，列内部是以流水线方式进行计算。最后通过流水线加法树将8个块的计算结果累加，得到全连接层的1×10计算结果。

如表1所示为小容量深度神经网络在移动终端实现后的资源使用情况，明显可知在移动终端部署神经网络后，存储资源和计算资源都有着可观的剩余。图2为已部署神经网络的移动终端的使用过程，首先在自然场景下通过成像系统采集图像，将采集到的图像数据输入移动终端得到处理结果，该移动终端已经部署了对输入图像的二值化处理和神经网络。

表1神经网络网络部署到终端的资源使用情况

较佳的，本实施例已部署神经网络的终端可以用于图像处理，模式识别，文本识别和自然语言处理等应用场景。而且本实施例中所提出的小型神经网络在移动终端的实现方案也适用于其他类似的神经网络在终端上的部署。因此本实施例具有广泛的适用范围。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：包括以下步骤：

步骤S3：将步骤S2中所得到的池化层输出图像平铺为一维经过全连接层后，得到输出结果；

2.根据权利要求1所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：步骤S1中所述的输入图像具体为：在自然场景下通过成像系统采集图像，将采集到的图像先经过二值化处理，然后设置阈值归一化为32×32大小的图像，即所述输入图像为由0或1组成的1-bit表示的图像数据。

3.根据权利要求1所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：所述步骤S1具体包括以下内容：

4.根据权利要求1所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：所述步骤S2的具体内容为：步骤S2中所述的激活函数采用的是线性整流函数ReLU；

5.根据权利要求1所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：所述步骤S3的具体内容为：

6.根据权利要求1所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：所述步骤S4的具体包括以下步骤：

步骤S41：对卷积层进行部署：

步骤S411:使用查表法对第一层卷积层进行部署；

7.根据权利要求6所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：步骤S412中所述将特征数据加载到数据缓冲器中的具体处理过程为：在数据缓冲器中，采用输入数据流动的方式，读取固定地址的数据；新数据从缓冲区的低位进入，旧数据从高位输出。

8.根据权利要求6所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：步骤S412中所述并行计算的具体内容为：令卷积核和特征图的通道数都为C，被划分为N组，每组有C′个通道；首先选择第1组C'个卷积核通道，与特征图对应的C'个通道进行卷积运算，然后将C'个通道的卷积结果累加作为第1组的结果，输出到输出缓冲区中；接着切换到第2组数据的计算，并将计算结果放在第二个输出缓冲区中，重复此过程；最后将N个输出缓冲区对应位置数据通过加法树相加，得到这个输出通道的最终卷积结果。

9.根据权利要求6所述的一种面向可编程逻辑器件移动终端的小型神经网络的实现方法，其特征在于：所述步骤S42的具体内容为：

采用分块计算将权重矩阵拆分成为固定大小的子矩阵，各个子矩阵能够并行计算；将n×M²的权重矩阵W按列分为K组，则子矩阵的数量为并进行编号为W_ij，其中i∈(1,...,K)表示权重矩阵按列被分成K组，j∈(1,...,n)表示权重矩阵行维度为n，即输出节点为n；将M²×1的输入特征图划分为K组，标记为X_i，其中i∈(1,...,K)；在进行拆分之后，神经网络全连接层第j个输出节点的结果由K组的计算结果相加得出；其计算公式如下：