CN112396165A

CN112396165A - 用于卷积神经网络的运算装置和方法

Info

Publication number: CN112396165A
Application number: CN202011381344.3A
Authority: CN
Inventors: 陈恒; 易冬柏; 马颖江
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Zero Boundary Integrated Circuit Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Zero Boundary Integrated Circuit Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-23
Anticipated expiration: 2040-11-30
Also published as: CN112396165B

Abstract

本申请提供了一种用于卷积神经网络的运算装置和方法，其中运算装置包括：特征读取单元，用于依次读取输入特征组，并存入内存，在将所述输入特征组存入所述内存时，覆盖上一次读取的输入特征组，所述输入特征组为对卷积神经网络中的任意一层全部输入特征进行分解得到；卷积单元，用于依次对存入到内存中的输入特征组进行卷积计算得到与所述输入特征组对应的临时输出特征；累加单元，用于依次对所述临时输出特征进行累加得到输出特征。因此，无需在对网络中不同层的输入特征先进行缓存，再进行卷积计算，在卷积计算时所需内存容量会大大减少。降低电路成本。

Description

用于卷积神经网络的运算装置和方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于卷积神经网络的运算装置和方法。

背景技术

卷积神经网络(convolution neural network)特有的非线性适应性信息处理能力，克服了传统人工智能方法对于图像识别、语音识别、非结构化信息处理等方面的缺陷，使之在模式识别、智能控制、优化组合、预测等领域得到成功应用。

卷积神经网络包含多层隐含层(hidden layer)，每个隐含层会产生多个特征图(feature map)输出到下一级隐含层；卷积神经网络在计算过程中需要对卷积神经网络中不同网络层的特征先进行缓存然后再计算，每层都会产生大量的特征图，对内存容量的要求越来越大。

因此，如何卷积神经网络运算时如何减小内存容量为亟待解决的技术问题。

发明内容

为了解决上述如何卷积神经网络运算时如何减小内存容量的技术问题，本申请提供了一种用于卷积神经网络的运算装置和方法。

根据第一方面，本发明实施例提供了一种用于卷积神经网络的运算装置，包括：特征读取单元，用于依次读取输入特征组，并存入内存，在将所述输入特征组存入所述内存时，覆盖上一次读取的输入特征组，所述输入特征组为对卷积神经网络中的任意一层全部输入特征进行分解得到；卷积单元，用于依次对存入到内存中的输入特征组进行卷积计算得到与所述输入特征组对应的临时输出特征；累加单元，用于依次对所述临时输出特征进行累加得到输出特征。

可选地，所述卷积单元得到第N个临时输出特征时，所述累加单元将所述第N个临时输出特征与第N-1个临时输出特征进行累加，得到累加结果，直至对所有输入特征组完成卷积计算，其中，N为大于或等于1的正整数。

可选地，在得到所述输出特征后，所述累加单元将所述累加结果写入所述内存得到所述输出特征。

可选地，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，所述运算装置还包括：特征写出单元，用于将第M网络层的输出特征写出至外存；在得到第M+X-1网络层的输出特征之后，所述特征读取单元在所述外存中读取所述第M网络层的输出特征至所述内存，与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。

可选地，所述特征读取单元将所述第M网络层的输出特征按照第M+X-1网络层的输出特征在所述内存中的存储方式进行邻接存储。

可选地，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；所述特征写出单元将第K网络层的输出特征写出至所述外存；在得到第K+Y-1网络层的输出特征之后，所述特征读取单元从所述外存中读取所述第K网络层的输出特征，并发送至累加单元，所述累加单元将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存，其中，K和Y为大于或等于1的正整数。

根据第二方面，本发明实施例提供了一种用于卷积神经网络的运算方法，包括：获取卷积神经网络中的任意一层全部输入特征；对所述卷积神经网络中的任意一层全部输入特征进行分解，得到输入特征组；依次将所述输入特征组存入内存，并覆盖上一次存入的输入特征组；在每存入一个输入特征组时，对当前存入的输入特征组进行卷积计算得到临时输出特征；依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征。

可选地，所述依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征包括：在进行卷积计算得到第N个临时输出特征时，将第N个临时输出特征与第N-1个临时特征进行累加，直至对所有输入特征组完成卷积计算，得到所述卷积神经网络中的任意一层的输出特征，其中，N为大于或等于1的正整数。

可选地，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，所述方法还包括：将第M网络层的输出特征写出至外存；在得到第M+X-1网络层的输出特征之后，在所述外存中读取所述第M网络层的输出特征至所述内存，并将第M网络层的输出特征与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。

可选地，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；所述方法还包括：将第K网络层的输出特征写出至所述外存；在得到第K+Y-1网络层的输出特征之后，从所述外存中读取所述第K网络层的输出特征；将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存，其中，K和Y为大于或等于1的正整数。

本申请中，用于卷积神经网络的运算装置可以包括特征读取单元，卷积单元和累加单元，其中，特征读取单元在读取某一网络层的特征之前，先对该层的输入特征进行分组，特征读取单元依次读取输入特征组到内存，并且，在读取至内存时，覆盖上一次读取的输入特征组，卷积单元依次将每次读入内存的输入特征组进行卷积计算，累加单元依次将每次卷积计算得到的临时输出特征进行累加最终得到该层的输出特征。将输出特征分组，并依次覆盖，分多次进行卷积计算和累积，因此，无需在对网络中不同层的输入特征先进行缓存，再进行卷积计算，在卷积计算时所需内存容量会大大减少。降低电路成本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的用于卷积神经网络的运算装置的工作方式的示意图；

图2是根据本申请实施例的另一种可选的用于卷积神经网络的运算装置的工作方式的示意图；

图3是根据本申请实施例的另一种可选的用于卷积神经网络的运算装置的工作方式的示意图；

图4是根据本申请实施例的一种可选的用于卷积神经网络的运算方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如背景技术所述，在卷积神经网络中，每层的全部输入特征图需要跟对应的卷积核进行卷积后再累加起来得到一张输出特征图，多张特征图需要所有的输入特征图对应不同的卷积核卷积并累加得到，在硬件电路实现上，为了提高计算效率，需要把所有的输入特征图全部存储到内存中，再进行卷积计算得到本层输出特征图，由于输入特征图数量较多，并且每个特征图的尺寸较大，对内容的容量要求较大，以每层网络层有16个输入特征图(分辨率100×100)为例，要存储全部的输入特征图需要内存容量16×100×100＝160000字节。

基于此，本发明实施例提供了一种用于卷积神经网络的运算装置，如图1所示，该装置可以包括：特征读取单元10，卷积单元20和累加单元30，其中，选取卷积神经网络中的任意一层全部输入特征，对当前层输入特征进行分解再进行卷积累加计算得到输出特征图，具体的，对卷积神经网络中的任意一层全部输入特征进行分解得到多个输入特征组。特征读取单元10，用于依次读取输入特征组，并存入内存40，在将所述输入特征组存入所述内存40时，覆盖上一次读取的输入特征组，卷积单元20，用于依次对存入到内存40中的输入特征组进行卷积计算得到与所述输入特征组对应的临时输出特征；累加单元30，用于依次对所述临时输出特征进行累加得到输出特征。示例性的，内存40是内部存储器，可以采用SRAM(静态存储器)，用于在卷积网络计算时用来缓存部分特征；外存50是外部存储器，可以采用DDR(动态存储器)，在卷积网络计算时用于存储所有特征图。

在本实施例中，特征读取单元10在读取某一网络层的特征之前，先对该层的输入特征进行分组，特征读取单元10依次读取输入特征组到内存40，并且，在读取至内存40时，覆盖上一次读取的输入特征组，卷积单元20依次将每次读入内存40的输入特征组进行卷积计算，累加单元30依次将每次卷积计算得到的临时输出特征进行累加最终得到该层的输出特征。将输出特征分组，并依次覆盖，分多次进行卷积计算和累积，因此，无需在对网络中不同层的输入特征先进行缓存，再进行卷积计算，在卷积计算时所需内存40容量会大大减少。降低电路成本。

作为示例性的实施例，所述卷积单元20得到第N个临时输出特征时，所述累加单元30将所述第N个临时输出特征与第N-1个临时输出特征进行累加，得到累加结果，直至对所有输入特征组完成卷积计算。N为大于或等于1的正整数。累加单元30将所述累加结果写入所述内存40得到所述输出特征。

下面将以具体的实例对特征分解计算进行说明，在本实施例中，输入特征可以以输入特征图为例进行说明，输出特征可以以输出特征图为例进行说明：

首先将输入特征图分成A组，以当前网络层有16个输入特征图(分辨率100x100)为例，以A＝4为例，将输入特征图分成4组，每组4个输入特征图，第一次计算时特征读取单元10首先读取4个输入特征图并写入内存40中，此时卷积单元20读取4个输入特征图，对其进行卷积计算后得到B个临时输出特征图并将其存回内存40中，第二次计算时特征读取单元10读取第二组的四个特征图存储到内存40中并覆盖上次的输入特征图数据，卷积单元20读取新的特征图进行卷积计算，同时累加单元30读取上一次的临时输出特征图数据与卷积单元20数据进行累加后得到新的临时输出特征图，将其存储至原临时输出特征图的内存40中，第三、四次分解卷积计算与第二次相同，特征图读取单元读取新的一组输入特征图，进行卷积计算后与上一次临时输出特征图累加得到新的输出特征图，一直到所有分组特征图全部计算后得到本层网络计算的输出特征图。此种特征分解卷积计算所需内存40容量会大大减少，以A＝4为例，内存40需求16×100×100/A共40000字节，减低了电路成本。

作为示例性的实施例，在卷积网络计算中，经常会用到网络分支再融合的计算，以第M层网络计算进行了分支，在第M+X层网络时进行特征融合为例，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，如图2所示，所述运算装置还包括：

特征写出单元60，用于将第M网络层的输出特征写出至外存50；在得到第M+X-1网络层的输出特征之后，所述特征读取单元10在所述外存50中读取所述第M网络层的输出特征至所述内存40，与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。其中，所述特征读取单元10将所述第M网络层的输出特征按照第M+X-1网络层的输出特征在所述内存40中的存储方式进行邻接存储。

示例性的，输入特征可以以输入特征图为例进行说明，输出特征可以以输出特征图为例对分支再融合计算进行说明：在第M网络层计算后，得到分支多个输出特征图后(此时输出特征图存储在内存40中)，启动特征写出单元60将其从内存40中读取出来并写出到外存50中，此后网络继续进行计算，当进行到第M+X网络层时，启动特征读取单元10将在第M网络层写出的多个特征图从外存50中读取出来并写入到对应内存40地址中，与M+X-1网络层输出特征图紧邻排放实现多张输出特征图融合，得到第M+X网络层的输入特征图，以此种方式可以实现任意网络的分支及特征融合计算。

作为示例性的实施例，在卷积网络计算中，还会用到残差计算，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；如图3所示，特征写出单元60将第K网络层的输出特征写出至所述外存50；在得到第K+Y-1网络层的输出特征之后，所述特征读取单元10从所述外存50中读取所述第K网络层的输出特征，并发送至累加单元30，所述累加单元30将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存40，其中，K和Y为大于或等于1的正整数。

示例性的，输入特征可以以输入特征图为例进行说明，输出特征可以以输出特征图为例对残差计算进行说明：以第K网络层网络与第K+Y网络层进行残差计算为例，当计算到第K网络层得到多个输出特征图(此时输出特征图存储在内存40中)，启动特征写出单元60将其从内存40中读出并写出到外存50中，此后网络继续计算，当进行到第K+Y网络层时，启动特征读取单元10，将第K网络层写出的多个特征图从外存50中读取回来发送给累加单元30，累加单元30同时读取第K+Y-1网络层的输出特征图并与其累加后将结果写回到内存40中，由此完成残差计算。

本发明实施例提供了一种用于卷积神经网络的运算方法，如图4所示，该方法可以包括如下步骤：

S10，获取卷积神经网络中的任意一层全部输入特征；

S20，对所述卷积神经网络中的任意一层全部输入特征进行分解，得到输入特征组；

S30，依次将所述输入特征组存入内存，并覆盖上一次存入的输入特征组；

S40，在每存入一个输入特征组时，对当前存入的输入特征组进行卷积计算得到临时输出特征；

S50，依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征。

在本实施例中，先对某一网络层的输入特征进行分组，依次读取输入特征组到内存，并且，在读取至内存时，覆盖上一次读取的输入特征组，依次将每次读入内存的输入特征组进行卷积计算，累加单元依次将每次卷积计算得到的临时输出特征进行累加最终得到该层的输出特征。将输出特征分组，并依次覆盖，分多次进行卷积计算和累积，因此，无需在对网络中不同层的输入特征先进行缓存，再进行卷积计算，在卷积计算时所需内存容量会大大减少。降低电路成本。

作为示例性的实施例，所述依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征包括：在进行卷积计算得到第N个临时输出特征时，将第N个临时输出特征与第N-1个临时特征进行累加，直至对所有输入特征组完成卷积计算，得到所述卷积神经网络中的任意一层的输出特征，其中，N为大于或等于1的正整数。

作为示例性的实施例，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，所述方法还包括：将第M网络层的输出特征写出至外存；在得到第M+X-1网络层的输出特征之后，在所述外存中读取所述第M网络层的输出特征至所述内存，并将第M网络层的输出特征与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。

作为示例性的实施例，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；所述方法还包括：将第K网络层的输出特征写出至所述外存；在得到第K+Y-1网络层的输出特征之后，从所述外存中读取所述第K网络层的输出特征；将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存，其中，K和Y为大于或等于1的正整数。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种用于卷积神经网络的运算装置，其特征在于，包括：

特征读取单元，用于依次读取输入特征组，并存入内存，在将所述输入特征组存入所述内存时，覆盖上一次读取的输入特征组，所述输入特征组为对卷积神经网络中的任意一层全部输入特征进行分解得到；

卷积单元，用于依次对存入到内存中的输入特征组进行卷积计算得到与所述输入特征组对应的临时输出特征；

累加单元，用于依次对所述临时输出特征进行累加得到输出特征。

2.如权利要求1所述的运算装置，其特征在于，

所述卷积单元得到第N个临时输出特征时，所述累加单元将所述第N个临时输出特征与第N-1个临时输出特征进行累加，得到累加结果，直至对所有输入特征组完成卷积计算，其中，N为大于或等于1的正整数。

3.如权利要求1所述的运算装置，其特征在于，在得到所述输出特征后，所述累加单元将所述累加结果写入所述内存得到所述输出特征。

4.如权利要求1-3任意一项所述的运算装置，其特征在于，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，所述运算装置还包括：

特征写出单元，用于将第M网络层的输出特征写出至外存；

在得到第M+X-1网络层的输出特征之后，所述特征读取单元在所述外存中读取所述第M网络层的输出特征至所述内存，与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。

5.如权利要求4所述的运算装置，其特征在于，所述特征读取单元将所述第M网络层的输出特征按照第M+X-1网络层的输出特征在所述内存中的存储方式进行邻接存储。

6.如权利要求1所述的运算装置，其特征在于，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；

所述特征写出单元将第K网络层的输出特征写出至所述外存；

在得到第K+Y-1网络层的输出特征之后，所述特征读取单元从所述外存中读取所述第K网络层的输出特征，并发送至累加单元，所述累加单元将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存，其中，K和Y为大于或等于1的正整数。

7.一种用于卷积神经网络的运算方法，其特征在于，包括：

获取卷积神经网络中的任意一层全部输入特征；

对所述卷积神经网络中的任意一层全部输入特征进行分解，得到输入特征组；

依次将所述输入特征组存入内存，并覆盖上一次存入的输入特征组；

在每存入一个输入特征组时，对当前存入的输入特征组进行卷积计算得到临时输出特征；

依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征。

8.如权利要求7所述的运算方法，其特征在于，所述依次对所述临时输出特征进行累加得到所述卷积神经网络中的任意一层的输出特征包括：

在进行卷积计算得到第N个临时输出特征时，将第N个临时输出特征与第N-1个临时特征进行累加，直至对所有输入特征组完成卷积计算，得到所述卷积神经网络中的任意一层的输出特征，其中，N为大于或等于1的正整数。

9.如权利要求7所述的运算方法，其特征在于，所述卷积神经网络中包括第M网络层和第M+X网络层，其中，第M网络层为分支网络层，第M+X网络层为再融合网络层，所述方法还包括：

将第M网络层的输出特征写出至外存；

在得到第M+X-1网络层的输出特征之后，在所述外存中读取所述第M网络层的输出特征至所述内存，并将第M网络层的输出特征与第M+X-1网络层的输出特征进行融合得到第M+X网络层的输入特征，其中，M和X为大于或等于1的正整数。

10.如权利要求7所述的运算方法，其特征在于，所述卷积神经网络包括第K网络层和第K+Y网络层，所述第K网络层和第K+Y网络层进行残差运算；所述方法还包括：

将第K网络层的输出特征写出至所述外存；

在得到第K+Y-1网络层的输出特征之后，从所述外存中读取所述第K网络层的输出特征；

将所述第K+Y-1网络层的输出特征与所述第K网络层的输出特征进行累加，并将累加结果写入所述内存，其中，K和Y为大于或等于1的正整数。