CN111768458A

CN111768458A - 一种基于卷积神经网络的稀疏图像处理方法

Info

Publication number: CN111768458A
Application number: CN202010593923.8A
Authority: CN
Inventors: 蔡觉平; 王松; 温凯林; 张芳芳
Original assignee: Suzhou Honghu Qiji Electronic Technology Co ltd
Current assignee: Suzhou Honghu Qiji Electronic Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-13

Abstract

本发明涉及图像卷积神经网络处理领域，一种基于卷积神经网络的稀疏图像处理方法。包括步骤：步骤一：将特征图以直接索引方法进行压缩；步骤二：将卷积神经网络的权值参数以数据索引方法进行压缩；步骤三：将特征图进行任务划分；步骤四：利用直接内存读取系统将步骤一中特征图有效值搬移到解码模块中的压缩特征图缓存中，并将步骤二中的权值参数搬移到计算单元的权值缓存中。步骤五：设计稀疏特征图数据读取单元；步骤六：系统根据卷积层的规格使能对应位置的数据读取单元，并配置可重构互联模块；步骤七：使能计算。本发明减少卷积神经网络的稀疏图像计算数据存储量，同时降低了计算量。

Description

一种基于卷积神经网络的稀疏图像处理方法

技术领域

本发明涉及图像卷积神经网络处理领域，具体涉及一种基于卷积神经网络的稀疏图像处理方法。

背景技术

近年来，卷积神经网络(Convolution Neural Networks，CNN)由于数据存储量和计算量大，在嵌入式终端中使用受限，在使用卷积神经网络对稀疏图像计算时，有效降低数据存储量和计算量是关键性技术。由于卷积神经网络的权值参数和输入特征图都具有一定的稀疏性，而稀疏的参数进行乘法计算是无效的。所以通过利用卷积神经网络的稀疏性，可以降低稀疏图像的存储量和计算量。

因此，有必要挖掘卷积神经网络的稀疏性对嵌入式系统进行优化，使得对于稀疏图像的卷积神经网络计算能够更容易的部署到嵌入式设备中。

发明内容

本发明的目的在于降低稀疏图像进行卷积神经网络计算的存储和计算量，提供了一种基于卷积神经网络的稀疏图像处理方法，降低了卷积神经网络的存储量，提高了计算速度。

一种基于卷积神经网络的稀疏图像处理方法，可以减少卷积神经网络的稀疏图像计算数据存储量，同时降低了计算量，包括如下步骤：

步骤一：将要进行卷积计算的输入特征图数据利用直接索引方法进行压缩，首先判断所有输入特征图像素点数据是否为零，用1比特数据表示判断结果，如不为零则1比特数据为1，反之则为1比特数据0，该1比特数据为输入特征图掩码，将为零的输入特征图像素点数据丢弃，将非零的输入特征图像素点数据即输入特征图有效值存入内存中；

步骤二：将达到要求的卷积神经网络模型中的权值参数利用数据索引方法进行压缩，判断权值参数是否为零，如为零则丢弃，反之则将该权值参数存入内存中，并将对应权值参数在卷积核中的位置也存入内存中；

步骤三：对将要进行卷积计算的输入特征图进行任务划分，划分依据为卷积核在输入特征图中从左边界移动到右边界输出一行输出特征图，称计算该行输出特征图为一个任务，输入特征图为N * N大小，输出特征图为H * H的卷积计算，则其划分为H个任务，每个任务利用一个任务码表示，任务码为该任务卷积核滑动计算过程中，所有参与计算的输入特征图的掩码；

步骤四：利用直接内存访问系统将步骤一中压缩后的输入特征图有效值数据搬移到压缩特征图缓存中，将输入特征图掩码搬移到特征值掩码缓存中，设计解码模块，利用特征图掩码将有效的输入特征图写入输入特征图缓存中，将步骤三中的任务码写入任务缓存中；

步骤五：设计特征图数据读取单元电路，根据任务码获得有效输入特征图地址并对有效输入特征图进行读取，存入循环队列寄存器中，这种电路结构使得在一个卷积计算任务中，卷积核移动时，只需读取新的一列有效值数据即可将本次卷积计算所需输入特征图数据输出至计算单元，计算单元由乘累加单元组成，用于完成本次卷积的乘累加计算，计算单元得到数据读取单元的输出的特征图有效值数据和对应的卷积核权值索引，读出对应权值，当权值为零时，则屏蔽乘法器，减少计算量和计算功耗。这种数据读取单元和计算单元结构可以将稀疏特征图有效值筛选出来输出给计算单元进行计算，提高了计算速度，并可以减少乘法次数，降低功耗；

步骤六：使能对应卷积层规格数量的数据读取单元，并配置可重构互联模块对计算单元进行分组，每使能一个数据读取单元为一个计算组，在可重构互联模块中，利用数据选择节点选择数据通路，将该数据读取单元的输出数据分配给固定数量的计算单元，计算单元数量根据卷积层规格决定，完成计算单元的分组，计算单元内的卷积核权值缓存为不同卷积核，利用步骤五中数据读取单元的输出数据进行卷积乘累加计算；

步骤七：使能卷积计算，所有被步骤六中使能的数据读取单元根据任务码对有效的输入特征图进行读取并输出给计算单元进行乘累加计算，每个计算单元组计算完一个任务后就会被分配新的任务，通过现有技术Round-Robin仲裁判断数据读取单元输出的计算完成信号，当检测到对应计算组的数据读取单元计算完成信号，则更新任务码地址来分配新的任务，并输出开始计算脉冲信号使该计算组进行卷积计算，当步骤三中划分的所有任务被计算完成后，系统得到该输入特征图进行卷积计算的结果，并将其存入输出特征图缓存中。本发明方法，加快了稀疏输入特征图的卷积计算过程，并降低了数据存储量和计算量。

利用数据读取单元对任务掩码进行解码方式，只读取出有效特征值输出至计算单元进行乘累加计算，从而减少了由于零值特征值带来的无效乘法计算。

在计算单元中，通过对读出的权值判断，权值为零则屏蔽该次乘法器的乘法计算，减少计算量。

本发明方法基于一台带有存储单元、直接内存读取单元、解码单元、可重构互联模块、运算单元的卷积神经网络专用设备。

存储单元，用于存储压缩的特征图和权值；

直接内存读取单元，用于搬运数据；

解码单元，用于将被压缩的特征值数据还原到片上缓存中，并将任务码写入到任务缓存中；

数据读取单元，读取任务码进行处理，得出稀疏特征图中的有效数据地址，并读出有效数据和对应的权值索引并输出；

可重构互联模块，根据卷积层对特征图的复用情况分配数据读取单元输出的计算数据给不同数量的计算单元；

运算单元，用于完成卷积的乘累加运算，第一步，根据数据读取单元输出权值索引读出权值，如果权值不为零，与有效特征图数据相乘，如果权值为零，则屏蔽本次乘法运算，以减少不必要的功耗损失；第二步，经过累加并与偏置相加得到输出特征图输出。

本发明将稀疏图像的特征图进行任务划分，每个输出行为一个任务。采用特征图直接压缩和权值数据压缩减少数据存储量，采用专用解码模块实现计算量降低。

附图说明

图1为本发明的整体结构框图；

图2为本发明的计算单元示意图；

图3为本发明的可重构互联单元示意图；

图4稀疏特征图任务划分示意图；

图5卷积核移位图；

图6特征图直接压缩示意图；

图7权值数据压缩示意图；

图8解码模块示意图；

图9任务码生成示意图。

具体实施方式

下面通过具体实施例对本发明作进一步的说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均包括在本发明的保护范围之内。

图1为本发明用于卷积神经网络稀疏计算的整体结构框图。包括存储单元、直接内存读取系统、解码模块、输入特征图缓存、任务缓存、数据读取单元、可重构互联模块、运算单元、输出特征图缓存等几个部分，其中运算单元如图2所示，可重构互联模块如图3所示系统工作分为以下几个步骤：

步骤一：将特征图以直接索引方法进行压缩，数据包括特征图有效值和对应位置数据的一位掩码，该掩码表示对应位置的特征值是否有效，1代表有效，0代表无效，压缩方法示意图如图6所示，压缩步骤包括以下a和b，具体的：

a.生成特征图掩码，判断每个特征值是否为零，为零则该位置的掩码为0，不为零则该位置的掩码为1，以32个掩码为一组，存入一个32位的寄存器中，将所有特征图掩码生成，存入指定位置中。

b.判断特征值是否为零，为零则丢弃该特征值，不为零则将其存储至内存中指定位置。

步骤二：将训练好的卷积神经网络权值参数以数据索引方法进行压缩，数据包括权值有效值和对应位置的权值索引，压缩方法示意图如图7所示，压缩步骤包括以下a和b，具体的：

a.确定不同卷积核在加速器中的计算位置，对卷积核进行排列。

b.判断卷积核内权值是否为零，为零则丢弃，不为零则将该权值数据与其对应的排列地址作为权值索引(权值与其索引均为16位)，组成一个32位的数据存入内存中指定位置。

步骤三：对将要进行卷积计算的输入特征图进行任务划分，划分依据为卷积核在输入特征图中从左边界移动到右边界输出一行输出特征图，称计算该行输出特征图为一个任务，如图4中输入特征图中黑框所示。假设输入特征图为N*N大小，输出特征图为H*H的卷积计算，则其任务划分为H个。每个任务利用任务码表示，任务码为该任务卷积核滑动计算过程中，如图4中特征图掩码中黑框所示，所有参与计算的输入特征图的掩码，任务码生成示意图如图9所示，当卷积核大小为5x5时，每输出一行结果参与计算的特征图行数为5，将这5行特征图对应的掩码按列存储，每6列存在一个32位寄存器中作为一个任务掩码。

步骤四：利用直接内存访问系统将压缩后的输入特征图有效值数据搬移到压缩特征图缓存中，将输入特征图掩码搬移到特征值掩码缓存中。设计解码模块，利用特征图掩码将有效的输入特征图写入输入特征图缓存中，将任务码按照步骤三中的方法写入任务缓存中。

步骤五：设计特征图数据读取单元，根据任务码获得有效输入特征图地址并对有效输入特征图进行读取，存入循环队列中，这种结构使得在一个卷积计算任务中，卷积核移动时如图5所示，第一次卷积计算需要读取特征图上黑框中的特征值，第二次卷积核向右移动1，其中左边黑框是可以复用的数据，故只需读取右边黑框中有效值数据即可将本次卷积计算所需输入特征图数据输出至计算单元进行乘累加计算，完成本次卷积计算。数据读取单元的输出为特征图有效值数据和对应的卷积核权值索引。

步骤六：使能对应卷积层规格数量的数据读取单元，并配置可重构互联模块对计算单元进行分组，每使能一个数据读取单元为一个计算组，在可重构互联模块中，利用数据选择节点选择数据通路，将该数据读取单元的输出数据分配给固定数量的计算单元，计算单元数量根据卷积层规格决定，完成计算单元的分组。计算单元内的卷积核权值缓存为不同卷积核，可以共享步骤六中数据读取单元的输出数据进行卷积乘累加计算。这种数据共享方法可以降低数据读取量，从而加速计算过程。

步骤七：使能卷积计算，所有被步骤六中使能的数据读取单元根据任务码对有效的输入特征图进行读取并输出给计算单元进行乘累加计算，每个计算单元组计算完一个任务后就会被分配新的任务，通过现有技术Round-Robin仲裁判断数据读取单元输出的计算完成信号，当检测到对应计算组的数据读取单元计算完成信号，则更新任务码地址来分配新的任务，并输出开始计算脉冲信号使该计算组开始卷积计算。当步骤三中划分的所有任务被计算完成后，系统得到该输入特征图进行卷积计算的结果，并将其存入输出特征图缓存中。利用本文所设计的装置和方法，加快了稀疏输入特征图的卷积计算过程，并降低了数据存储量和计算量。

Claims

1.一种基于卷积神经网络的稀疏图像处理方法，其特征在于，包括如下步骤：

步骤五：设计特征图数据读取单元电路，根据任务码获得有效输入特征图地址并对有效输入特征图进行读取，存入循环队列寄存器中，这种电路结构使得在一个卷积计算任务中，卷积核移动时，只需读取新的一列有效值数据即可将本次卷积计算所需输入特征图数据输出至计算单元，计算单元由乘累加单元组成，用于完成本次卷积的乘累加计算；计算单元得到数据读取单元的输出的特征图有效值数据和对应的卷积核权值索引，读出对应权值，当权值为零时，则屏蔽乘法器，减少计算量和计算功耗，这种数据读取单元和计算单元结构可以将稀疏特征图有效值筛选出来输出给计算单元进行计算，提高了计算速度，并可以减少乘法次数，降低功耗；

步骤七：使能卷积计算，所有被步骤六中使能的数据读取单元根据任务码对有效的输入特征图进行读取并输出给计算单元进行乘累加计算，每个计算单元组计算完一个任务后就会被分配新的任务，通过现有技术Round-Robin仲裁判断数据读取单元输出的计算完成信号，当检测到对应计算组的数据读取单元计算完成信号，则更新任务码地址来分配新的任务，并输出开始计算脉冲信号使该计算组进行卷积计算，当步骤三中划分的所有任务被计算完成后，系统得到该输入特征图进行卷积计算的结果，并将其存入输出特征图缓存中。

2.根据权利要求1所述的一种基于卷积神经网络的稀疏图像处理方法，其特征在于：利用数据读取单元对任务掩码进行解码方式，只读取出有效特征值输出至计算单元进行乘累加计算，从而减少了由于零值特征值带来的无效乘法计算。

3.根据权利要求1所述的一种基于卷积神经网络的稀疏图像处理方法，其特征在于：在计算单元中，通过对读出的权值判断，权值为零则屏蔽该次乘法器的乘法计算，减少计算量。