CN112784952B

CN112784952B - 一种卷积神经网络运算系统、方法及设备

Info

Publication number: CN112784952B
Application number: CN201911067990.XA
Authority: CN
Inventors: 邹承辉; 卢知伯; 聂玉庆
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Zero Boundary Integrated Circuit Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Zero Boundary Integrated Circuit Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2024-03-19
Anticipated expiration: 2039-11-04
Also published as: CN112784952A

Abstract

本发明公开了一种卷积神经网络运算系统、方法及设备，用以节省卷积神经网络运算的硬件成本，提高运算能力，所述系统包括：模型解码模块，用于将外部传输的卷积神经网络模型资源解码，得到卷积层模型，并将卷积层模型存储于模型存储模块；模型存储模块，用于存储卷积层模型；数据存储模块，用于存储图像数据和运算结果数据，用于基于卷积层模型，将数据存储模块中存储的图像数据进行卷积神经网络运算，并将运算后的运算结果数据存储于数据存储模块。

Description

一种卷积神经网络运算系统、方法及设备

技术领域

本发明涉及深度学习技术领域，尤其涉及一种卷积神经网络运算系统、方法及设备。

背景技术

卷积神经网络(Convolutional Neural Network,CNN)作为人工神经网络的一种，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，已成为当前语音分析和图像识别领域的研究热点。

如图1所示，现有技术中，卷积神经网络运算系统10在进行卷积运算前，通常需要把训练好的模型存储到硬件中，在卷积运算时，通过外部设备调取全部模型参数并存储至模型存储模块101，模型运算模块102获取模型存储模块101中的全部模型参数并进行运算，将运算结果存储至数据存储模块103，并将运算结果输入至外部设备。然而常用的卷积模型权重数据如图2所示，通常有几百兆，如图2所示的AleNet、VGG16和Inception-v3网络模型存储资源均超过100兆，因此很难将整个模型存放到小型设备中，必须选用大型的内部存储单元才能完整存储模型，导致卷积运算的硬件成本较高，且由于模型权重数据大，读取全部模型耗时久，影响了运算单元的运算能力。

通过压缩卷积模型是节省硬件资源的新方向，但现有技术中普遍采用整体压缩和整体解压的方式，硬件资源降低并不明显，因此，亟需一种压缩方式，显著降低硬件资源，节省硬件成本。

发明内容

本发明实施例提供了一种卷积神经网络运算系统、方法及设备，用以节省卷积神经网络运算的硬件成本，提高运算能力。

第一方面，本发明实施例提供了一种卷积神经网络运算系统，该系统包括:模型存储模块，数据存储模块，模型运算模块，模型解码模块，其中：

模型解码模块，用于将外部传输的卷积神经网络模型资源解码，得到卷积层模型，并将卷积层模型存储于模型存储模块；

模型存储模块，用于存储卷积层模型；

数据存储模块，用于存储图像数据和运算结果数据，图像数据是输入卷积神经网络运算系统，用于进行卷积神经网络运算的，运算结果数据是模型运算模块运算生成的，且上一次卷积神经网络运算的运算结果作为下一次卷积神经网络运算的图像数据；

模型运算模块，用于基于卷积层模型，将数据存储模块中存储的图像数据进行卷积神经网络运算，并将运算后的运算结果数据存储于数据存储模块。

在一种可能的实施方式中，本发明实施例提供的系统中，模型运算模块包括两个运算单元，每个运算单元中包括卷积运算单元、池化运算单元和标准归一化运算单元。

在一种可能的实施方式中，本发明实施例提供的系统中，数据存储模块包括第一存储器和第二存储器，第一存储器和第二存储器通过轮询的方式依次存储图像数据和运算结果数据。

第二方面，本发明实施例提供一种卷积神经网络运算方法，该方法包括：

获取用于卷积神经网络运算的图像数据和卷积神经网络模型资源；

基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型；

基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果。

在一种可能的实施方式中，本发明实施例提供的方法中，卷积神经网络模型资源是基于预先训练好的卷积神经网络模型通过分层压缩方法生成的，分层压缩方法包括：LZ77编码算法和哈夫曼压缩算法。

第三方面，本发明实施例提供一种卷积神经网络运算装置，装置包括：

获取单元，用于获取用于卷积神经网络运算的图像数据和卷积神经网络模型资源；

确定单元，用于基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型；

处理单元，用于基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果。

在一种可能的实施方式中，本发明实施例提供的装置中，装置还包括压缩单元，用于利用基于预先训练好的卷积神经网络模型通过分层压缩生成卷积神经网络模型资源，分层压缩方法包括：LZ77编码算法和哈夫曼压缩算法。

第四方面，本申请实施例提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现本申请实施例第二方面提供的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现本申请实施例第二方面提供的方法。

第六方面，本发明实施例提供一种卷积神经网络运算设备，包括：如第一方面公开的卷积神经网络运算系统和如第三方面中任一项的卷积神经网络运算装置，该卷积神经网络运算装置与卷积神经网络运算系统连接，用于控制卷积神经网络运算系统进行卷积神经网络运算。

本发明实施例提供的技术方案至少带来以下有益效果：

通过在卷积神经网络运算系统中新增模型解码模块，使得在进行卷积神经网络运算时，先获取用于卷积神经网络运算的图像数据和模型资源；基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型；基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果。与现有技术相比，逐层解压当前卷积神经网络运算的卷积层模型并实施运算，节省了卷积神经网络运算的硬件成本，并提高了运算能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中卷积神经网络运算系统的结构示意图；

图2为现有技术中常见网络模型的资源表格示意图；

图3为本发明实施例提供的卷积神经网络运算系统的结构示意图；

图4为本发明实施例提供的卷积神经网络运算方法的流程示意图；

图5为本发明实施例提供的哈夫曼压缩算法的流程示意图；

图6为本发明实施例提供的卷积神经网络的基本的软硬件操作流程图；

图7为本发明实施例提供的卷积神经网络运算装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本发明的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面对文中出现的一些词语进行解释：

1、本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

2、卷积神经网络(Convolutional Neural Network,CNN)，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

3、卷积层模型(Convolutional layer)，是卷积神经网络的组成部分，由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。

4、哈夫曼压缩算法(Hufman)，由David A.Huffman提出的熵编码技术，编码方式为，将信号源中的每个符号设定二进制码，出现频率更大的符号将获得更短的比特，出现频率小的符号将被分配更长的比特，以此来提高压缩率，减少硬件存储资源。

5、LZ77算法，一种基于字典的、“滑动窗”的无损压缩算法，广泛应用于通信、计算机文件存档等方面。

卷积神经网络作为人工神经网络的一种，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，已成为当前语音分析和图像识别领域的研究热点。

在进行卷积运算前，通常需要把训练好的模型存储到硬件中，在卷积运算时随时调取全部模型参数，然而常用的卷积模型权重数据通常有几百兆，因此很难将整个模型存放到小型设备中，必须选用大型的内部存储单元才能完整存储模型，导致卷积运算的硬件成本较高，且由于模型权重数据大，读取全部模型耗时久，影响了运算单元的运算能力。

由于卷积神经网络是一个多层的神经网络，每层由多个二维平面构成，而每个平面均是由不同的卷积核卷积而成，在卷积神经网络执行计算时，卷积权重按层次调用，并无需一次性使用全部权重值。也就是说，只要硬件解码的速率大于卷积运算的速率，模型分层压缩和解压可以满足神经网络电路运算的要求，且现阶段支持多算法解压的硬件技术已然成熟。

如图3所示，本发明实施例提供的卷积神经网络运算系统30包括:模型解码模块301，模型存储模块302，模型运算模块303，数据存储模块304，其中：模型解码模块301，用于将外部传输的卷积神经网络模型资源解码，得到卷积层模型，并将卷积层模型存储于模型存储模块；

模型存储模块302，用于存储卷积层模型；

模型运算模块303，用于基于卷积层模型，将数据存储模块中存储的图像数据进行卷积神经网络运算，并将运算后的运算结果数据存储于数据存储模块。

模型运算模块303中包括两个运算单元，每个运算单元中包括卷积运算单元、池化运算单元和标准归一化运算单元。

数据存储模块304，用于存储图像数据和运算结果数据，图像数据是输入卷积神经网络运算系统，用于进行卷积神经网络运算的，运算结果数据是模型运算模块运算生成的，且上一次卷积神经网络运算的运算结果作为下一次卷积神经网络运算的图像数据。

数据存储模块304包括第一存储器和第二存储器，第一存储器和第二存储器通过轮询的方式依次存储图像数据和运算结果数据。

如图4所示，本发明实施例提供的卷积神经网络运算方法包括：

S401，获取用于卷积神经网络运算的图像数据和卷积神经网络模型资源。

具体实施时，从连接的外部设备中获取用于卷积神经运算的图像数据和卷积神经网络模型资源，卷积神经网络模型资源是基于预先训练好的卷积神经网络模型，采用自适应选择编码算法进行分层压缩生成的。

需要说明的是，自适应选择的编码算法可以是哈夫曼压缩算法，也可以是LZ77压缩算法，也可以是其他压缩算法，本发明实施例对此不做限定。

实施例一

如图5所示，为使用哈夫曼压缩算法的流程示意图，哈夫曼编码是由DavidA.Huffman提出的熵编码技术，其编码方式如下：

为信号源中的每个符号设定二进制码，出现频率更大的符号将获得更短的比特，出现频率小的符号将被分配更长的比特，以此来提高压缩率，减少硬件存储资源。

具体编码方法如下：

S501，模型矩阵初始化。

S502，获得当前的地址，并判断是否进入当前阵列，若确定进入则进行S503，否则进行S504，进入下一个地址。

S503，进入当前阵列,并执行步骤S505。

S504，进入下一个地址，并执行步骤S502。

S505，判断进入地址是否结束，若结束则进行步骤S506，否则执行S502。

S506，进入停止输出(END_OUTPUT)单元，若停止输出，则进行步骤S507，否则结束步骤。

S507，进入阵列空判断状态，若成立则结束步骤，否则执行步骤S502。

实施例二

LZ77压缩算法的具体编码方法如下：

首先初始化编码位置，判断当前编码位置是否为最后的模型地址，若当前编码位置为最后的模型地址，则完成，否则进行LZ77编码；开始LZ77编码后，首先进行字符判断，若字符相同则模型地址递增1个，否则进入上次的字符判断，若与上次字符一致为真，则模型地址增加特定数目的长度，若第n次和第n+1次的位置相等(C[N]＝C[N+1])，则合并当前编码，并且下一步进行地址累加LEN。

S402，基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型。

具体实施时，基于预先设置的运算顺序，确定出卷积神经网络运算的每一步所需要的卷积层模型。并且依据预先设置的运算顺序，模型解压模块依次从卷积神经网络运算模型资源中解压出当前用于卷积神经网络运算的卷积层模型，并储存于模型存储模块中。

S403，基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果。

具体实施时，模型运算模块基于当前存储于模型存储模块的卷积层模型，对图像数据进行卷积神经网络运算，并在当前运算步骤结束后，将当前运算结果存储至数据存储模块中，然后基于模型存储模块更新后的卷积层模型，对上一运算步骤的运算结果进行卷积神经网络运算，并将此次运算结果存储至数据存储模块中，直至利用卷积神经网络模型资源的每一卷积层模型都对图像数据进行卷积神经网络运算，输出运算结果。

如图6所示，为本发明实施例提供的卷积神经网络的基本的软硬件操作流程图，其中S61部分为软件部分，S62部分为硬件部分。

S61包括如下步骤：

S611，模型训练。

S612，基于模型的权重和参数选择模型编码算法。

需要说明的是，选择的编码算法可以是哈夫曼压缩算法，也可以是LZ77压缩算法，也可以是其他压缩算法，本发明实施例对此不做限定。

S613，进行模型编码。

S62包括如下步骤：

S621，模型硬件解码。

S622，输入数据的搬运。

S623，卷积神经网络计算单元初始化。

S624，进行卷积神经网络运算，输出运算结果。

具体实施时，卷积神经网络运算包括：卷积运算，池化运算和标准归一化运算。

相应的，如图7所示，为本发明实施例提供的卷积神经网络运算装置包括：

获取单元701，用于获取用于卷积神经网络运算的图像数据和卷积神经网络模型资源；

确定单元702，用于基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型；

处理单元703，用于基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果。

另外，结合图3-图7描述的本申请实施例的卷积神经网络运算方法和装置可以由电子设备来实现。图8示出了本申请实施例提供的电子设备的硬件结构示意图。

电子设备可以包括处理器801以及存储有计算机程序指令的存储器802。

具体地，上述处理器801可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器802可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器802可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器802可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器802可在数据处理装置的内部或外部。在特定实施例中，存储器802是非易失性固态存储器。在特定实施例中，存储器802包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器801通过读取并执行存储器802中存储的计算机程序指令，以实现上述实施例中的任意一种步进电机反电动势电压补偿方法。

在一个示例中，电子设备还可包括通信接口803和总线810。其中，如图8所示，处理器801、存储器802、通信接口803通过总线810连接并完成相互间的通信。

通信接口803，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线810包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线810可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该电子设备可以执行本发明实施例中的卷积神经网络运算方法，从而实现结合图1描述的卷积神经网络运算方法。

另外，结合上述实施例中的卷积神经网络运算方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种卷积神经网络运算方法。

另外，本发明实施例提供一种卷积神经网络运算设备，包括：如图3所示的卷积神经网络运算系统和如图7所示的卷积神经网络运算装置，该卷积神经网络运算装置与卷积神经网络运算系统连接，用于控制卷积神经网络运算系统进行卷积神经网络运算。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种卷积神经网络运算系统，所述系统包括:模型存储模块，数据存储模块，模型运算模块，其特征在于，所述系统还包括模型解码模块，其中：

所述模型解码模块，用于将外部传输的卷积神经网络模型资源解码，使得在进行卷积神经网络运算时，先获取用于卷积神经网络运算的图像数据和模型资源；基于预先设置的运算顺序和卷积神经网络模型资源，依次确定每层用于卷积神经网络运算的卷积层模型，并将所述卷积层模型存储于所述模型存储模块，基于每层卷积层模型对图像数据依次进行卷积神经网络运算，并输出运算结果；

所述模型存储模块，用于存储所述卷积层模型；

所述数据存储模块，用于存储图像数据和运算结果数据，所述图像数据是输入所述卷积神经网络运算系统，用于进行卷积神经网络运算的，所述运算结果数据是所述模型运算模块运算生成的，且上一次卷积神经网络运算的运算结果作为下一次卷积神经网络运算的图像数据；

所述模型运算模块，用于基于所述卷积层模型，将所述数据存储模块中存储的所述图像数据进行卷积神经网络运算，并将运算后的运算结果数据存储于所述数据存储模块。

2.根据权利要求1所述的系统，其特征在于，所述模型运算模块包括两个运算单元，每个所述运算单元中包括卷积运算单元、池化运算单元和标准归一化运算单元。

3.根据权利要求1所述的系统，其特征在于，所述数据存储模块包括第一存储器和第二存储器，所述第一存储器和第二存储器通过轮询的方式依次存储所述图像数据和所述运算结果数据。

4.根据权利要求1所述的系统，其特征在于，所述卷积神经网络模型资源是基于预先训练好的卷积神经网络模型通过分层压缩方法生成的，所述分层压缩方法包括：LZ77编码算法和哈夫曼压缩算法。