CN109508782B

CN109508782B - 基于神经网络深度学习的加速电路和方法

Info

Publication number: CN109508782B
Application number: CN201811170939.7A
Authority: CN
Inventors: 廖裕民; 强书连
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2022-05-24
Anticipated expiration: 2038-10-09
Also published as: CN109508782A

Abstract

本发明公开基于神经网络深度学习的加速电路和方法，加速电路包括CNN单元、DMA单元、卷积核缓存单元、特征数据缓存单元，所述CNN单元分别与DMA单元、卷积核缓存单元、特征数据缓存单元连接，所述DMA单元与卷积核缓存单元连接，所述CNN单元、DMA单元还用于分别与外部存储单元连接。区别于现有技术，上述技术方案通过在CNN单元运算的时候由DMA单元获取下一层的卷积核数据，避免集中在一时间读取造成带宽拥堵，同时采用特征数据缓存单元也避免过多占用读取外部存储单元的时间，节省了带宽占用，这样大幅降低了神经网络带宽,使得深度学习运算速度更快,性能更高。

Description

基于神经网络深度学习的加速电路和方法

技术领域

本发明涉及神经网络加速技术领域，尤其涉及基于神经网络深度学习的加速电路和方法。

背景技术

随着人工智能深度学习的快速发展,深度学习芯片的运算能力也越来越强。但是当前技术中,由于神经网络结构决定了每一层神经网络都需要读入和回写大量的特征数据和卷积核数据,这对当前的芯片系统的带宽造成了极大的挑战,常常成为深度学习芯片的设计性能瓶颈。特别是每一层结束后大量的运算结果数据回写和下一层新的卷积核数据和特征数据读入集中在同一时间造成带宽拥堵和带宽峰值过高,造成芯片整体性能的下降。

发明内容

为此，需要提供基于神经网络深度学习的加速电路和方法，解决带宽拥堵和带宽峰值过高以及芯片整体性能的下降的问题。

为实现上述目的，发明人提供了基于神经网络深度学习的加速电路，包括CNN单元、DMA单元、卷积核缓存单元、特征数据缓存单元，所述CNN单元分别与DMA单元、卷积核缓存单元、特征数据缓存单元连接，所述DMA单元与卷积核缓存单元连接，所述CNN单元、DMA单元还用于分别与外部存储单元连接；

CNN单元用于从卷积核缓存单元读取一层网络的卷积核数据以及从特征数据缓存单元读取特征数据；

CNN单元用于发送读取完毕信号到DMA单元；

CNN单元用于根据读取到的卷积核数据和特征数据进行神经网络运算；

DMA单元用于收到读取完毕信号后从外部存储单元读取下一层网络的卷积核数据；

DMA单元用于存储下一层网络的卷积核数据到卷积核缓存单元；

CNN单元用于将神经网络运算的结果存储到特征数据缓存单元。

进一步地，CNN单元还用于从外部存储单元读取第一层网络的卷积核数据和特征数据。

进一步地，还包括地址记录单元，所述地址记录单元与CNN单元连接；

CNN单元用于获取到特征数据缓存单元的存储满信号后,将剩余的特征数据存储到外部存储单元，并将外部存储单元上的特征数据的地址存储在地址记录单元；

则CNN单元还用于根据地址记录单元的地址获取外部存储单元的特征数据。

进一步地，所述CNN单元包括：通路选择单元、特征数据读取单元、卷积核数据读取单元、内部特征数据缓存单元、内部卷积核数据缓存单元、乘加阵列卷积运算单元、激活函数运算单元、池化运算单元、数据回写单元；

所述通路选择单元用于与卷积核缓存单元、特征数据缓存单元和外部存储单元分别连接；所述通路选择单元与特征数据读取单元、卷积核数据读取单元连接，所述特征数据读取单元与内部特征数据缓存单元连接，所述卷积核数据读取单元与内部卷积核数据缓存单元连接，所述内部特征数据缓存单元、内部卷积核数据缓存单元分别与乘加阵列卷积运算单元连接，所述乘加阵列卷积运算单元与激活函数运算单元连接，所述激活函数运算单元与池化运算单元连接，池化运算单元与数据回写单元连接，数据回写单元与通路选择单元连接。

发明人还提供基于神经网络深度学习的加速方法，包括如下步骤：。

CNN单元从卷积核缓存单元读取一层网络的卷积核数据以及从特征数据缓存单元读取特征数据；

CNN单元发送读取完毕信号到DMA单元；

CNN单元根据读取到的卷积核数据和特征数据进行神经网络运算；

DMA单元收到读取完毕信号后从外部存储单元读取下一层网络的卷积核数据；

DMA单元存储下一层网络的卷积核数据到卷积核缓存单元；

CNN单元将神经网络运算的结果存储到特征数据缓存单元；

重复上述步骤直到完成剩下的CNN单元神经网络层的运算。

进一步地，在进行第一层网络的神经网络运算时，CNN单元从外部存储单元读取第一层网络的卷积核数据和特征数据。

进一步地，还包括步骤：

CNN单元获取到特征数据缓存单元的存储满信号后,将剩余的特征数据存储到外部存储单元，并将外部存储单元上的特征数据的地址存储在地址记录单元；

则在下一次CNN单元从特征数据缓存单元读取特征数据时，还包括步骤：CNN单元根据地址记录单元的地址获取外部存储单元的特征数据。

区别于现有技术，上述技术方案通过在CNN单元运算的时候由DMA单元获取下一层的卷积核数据，避免集中在一时间读取造成带宽拥堵，同时采用特征数据缓存单元也避免过多占用读取外部存储单元的时间，节省了带宽占用，这样大幅降低了神经网络带宽,使得深度学习运算速度更快,性能更高。

附图说明

图1为具体实施方式所述的加速电路的结构示意图；

图2为具体实施方式所述的CNN单元的结构示意图；

图3为具体实施方式所述的加速电路的另一结构示意图；

图4为具体实施方式所述一实施例的方法流程图；

图5为具体实施方式所述另一实施例的方法流程图。

附图标记说明：

100、加速电路，

101、CNN单元，

102、DMA单元，

103、卷积核缓存单元，

104、特征数据缓存单元，

105、外部存储单元，

201、通路选择单元，

202、特征数据读取单元，

203、卷积核数据读取单元，

204、内部特征数据缓存单元，

205、内部卷积核数据缓存单元，

206、乘加阵列卷积运算单元，

207、激活函数运算单元，

208、池化运算单元，

209、数据回写单元，

300、特征数据解压单元，

301、非零数据统计单元，

302、数据压缩单元，

303、非零比例阈值存储单元。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

在此对实施例中可能出现的英文缩写进行解释：

CNN：Convolutional Neural Network,卷积神经网络。

DMA：Direct Memory Access，直接内存存取。

请参阅图1到图5，本实施例提供基于神经网络深度学习的加速电路100，包括CNN单元101、DMA单元102、卷积核缓存单元103、特征数据缓存单元104，所述CNN单元分别与DMA单元、卷积核缓存单元、特征数据缓存单元连接，所述DMA单元与卷积核缓存单元连接，所述CNN单元、DMA单元还用于分别与外部存储单元105连接。

其中，外部存储单元可以是内存单元，如DDR(Double Data Rate SDRAM，双倍速率同步动态随机存储器)单元，卷积核缓存单元用于存储卷积核，特征数据缓存单元用于存储特征数据。CNN单元用于从卷积核缓存单元读取一层网络的卷积核数据以及从特征数据缓存单元读取特征数据；CNN单元用于发送读取完毕信号到DMA单元；CNN单元用于根据读取到的卷积核数据和特征数据进行神经网络运算；DMA单元用于收到读取完毕信号后从外部存储单元读取下一层网络的卷积核数据；DMA单元用于存储下一层网络的卷积核数据到卷积核缓存单元；CNN单元用于将神经网络运算的结果存储到特征数据缓存单元。这样通过在CNN单元运算的时候由DMA单元获取下一层的卷积核数据，避免集中在一时间读取造成带宽拥堵，同时采用特征数据缓存单元也避免过多占用读取外部存储单元的时间，节省了带宽占用，这样大幅降低了神经网络带宽,使得深度学习运算速度更快,性能更高。

卷积神经网络在运算的时候，会预设好多层的卷积核和第一层的特征数据，CNN单元可以用于根据每一层的卷积核数据和特征数据算出下一层的特征数据，如根据第一层的卷积核数据和特征数据算出第二层的特征数据，而后根据预设的第二层的卷积核数据和算出的第二层的特征数据算出第三层的特征数据，直到所有层运算完毕。由于第一层特征数据是预存在外部存储单元中，则要获取第一层网络的特征数据，需要从外部存储单元取得。优选地，在电路刚上电第一次运行时，CNN单元还用于从外部存储单元读取第一层网络的卷积核数据和特征数据。这样速度最快，或者也可以在第一次上电的时候由DMA单元从外部存储单元取得第一层网络的卷积核数据和特征数据，而后存到卷积核缓存单元和特征数据缓存单元，再由CNN单元从卷积核缓存单元和特征数据缓存单元，这样从软件运行逻辑上，CNN单元都是由卷积核缓存单元和特征数据缓存单元取数据，逻辑更简洁，避免了开机时候CNN单元对外部存储单元的读取。

由于特征数据缓存单元容量有限，为了避免特征数据缓存单元超载溢出的问题，加速电路还包括地址记录单元106，所述地址记录单元与CNN单元连接；CNN单元用于获取到特征数据缓存单元的存储满信号后,将剩余的特征数据存储到外部存储单元，并将外部存储单元上的特征数据的地址存储在地址记录单元；则CNN单元还用于根据地址记录单元的地址获取外部存储单元的特征数据。当特征数据缓存单元存满之后，CNN单元可以获取到存储满信号，而后将剩余的特征数据存储到外部存储单元，并在地址记录单元记录剩余的特征数据在外部存储单元的地址，这样在运算下一层网络的时候可以根据存储的地址取得外部存储单元的特征数据。在某些实施例中，CNN单元在将特征数据存储到特征数据缓存单元时，可以采用覆盖存储的方式，即每存一层网络的特征数据都覆盖上一层的网络的特征数据，这样可以最大化利用特征数据缓存单元容量。DMA单元在存储到卷积核缓存单元时，也可以采用覆盖存储的方式，即每存一层网络的卷积核都覆盖上一层的网络的卷积核，这样可以最大化利用卷积核缓存单元容量。

进一步地，所述CNN单元包括：通路选择单元201、特征数据读取单元202、卷积核数据读取单元203、内部特征数据缓存单元204、内部卷积核数据缓存单元205、乘加阵列卷积运算单元206、激活函数运算单元207、池化运算单元208、数据回写单元209。

所述通路选择单元用于与卷积核缓存单元、特征数据缓存单元和外部存储单元分别连接；所述通路选择单元与特征数据读取单元、卷积核数据读取单元连接，所述特征数据读取单元与内部特征数据缓存单元连接，所述卷积核数据读取单元与内部卷积核数据缓存单元连接，所述内部特征数据缓存单元、内部卷积核数据缓存单元分别与乘加阵列卷积运算单元连接，所述乘加阵列卷积运算单元与激活函数运算单元连接，所述激活函数运算单元与池化运算单元连接，池化运算单元与数据回写单元连接，数据回写单元与通路选择单元连接。其中，通路选择单元用于选通数据通路,在特征数据读取单元进行特征读取时选通CNN单元和特征数据缓存单元；在卷积核数据读取单元进行卷积核读取时选通CNN单元和卷积核缓存单元；在数据回写单元进行数据回写时选通CNN单元和外部存储单元。特征数据读取单元用于读取特征数据，如可以从外部存储单元或者内部的特征数据缓存单元读取特征数据。卷积核数据读取单元用于读取卷积核数据，如可以从内部的卷积核缓存单元读取卷积核数据。内部特征数据缓存单元用于缓存读取到的特征数据。内部卷积核数据缓存单元用于缓存读取到的卷积核数据。乘加阵列卷积运算单元用于通过并行的乘加阵列运算来完成整个的卷积运算，激活函数运算单元用于在卷积运算完成之后,将卷积结果进行激活运算，池化运算单元用于在激活运算之后对数据进行池化运算处理，数据回写单元用于将运算结果回写到特征数据缓存单元或者外部存储单元。

如图3所示，在某些实施例中，为了解决运算数据对存储空间的占用问题，CNN单元还可以包含特征数据解压单元300、非零数据统计单元301、数据压缩单元302。其中特征数据解压单元用于对所述压缩数据进行解压后存储至内部特征数据缓存单元中，所述激活函数运算单元用于对卷积特征数据进行激活函数运算，得到第二特征矩阵数据。激活运算，也是神经网络运算领域一个常见的运算，简单的说，其是通过一个激活阈值对卷积运算后的卷积特征数据进行激活，从而得到一个大多数位置数值为0的矩阵来尝试表达特征数据。所述非零数据统计单元用于统计第二特征矩阵数据中非零数据，所述特征数据压缩单元用于根据所有非零数据在整个第二特征矩阵数据占比情况，对第二特征数据进行压缩处理，得到压缩数据。本实施例在激活函数运算单元对卷积特征数据进行激活函数运算，得到第二特征矩阵数据之后，通过非零数据统计单元统计第二特征矩阵数据中非零数据，以及通过特征数据压缩单元根据所有非零数据在整个第二特征矩阵数据占比情况，对第二特征数据进行压缩处理，得到压缩数据，并将压缩数据回写至特征数据缓存单元中。相较于现有技术中将激活函数运算得到的全部数据回写至外部存储单元的方式，本发明可以有效降低存储带宽和运算数据对存储空间的占用。

进一步地，在某些实施例中，还可以包含非零比例阈值存储单元303，用于存储非零比例阈值；所述特征数据压缩单元用于判断非零数据统计单元提取出的非零数据在整个第二特征矩阵数据占比是否大于非零比例阈值，若是则提取出非零数据并进行压缩处理，得到压缩数据；否则不提取非零数据，直接对第二特征矩阵数据进行压缩处理，得到压缩数据。例如，非零比例阈值为80％，某一个第二特征矩阵数据中有1000个数值，其中有900个为0，说明该第二特征矩阵数据的非零数据占比超过了非零比例阈值，因而会提取出100个非零数据并进行压缩存储；反之，如果第二特征矩阵数据1000个数值中只有200个非零数据，此时如果提取出800个非零数据进行压缩效果将不那么明显，反而还需要记录每一个非零数据在第二特征矩阵数据中的位置信息，因而本发明所采用的方案是不对非零数据进行提取，直接按照顺序提取出第二特征矩阵数据中的各个数据(包括零和非零)，按照预定格式直接进行存储，以便后续解压。

发明人还提供基于神经网络深度学习的加速方法，如图4所示，包括如下步骤：步骤S301、CNN单元从卷积核缓存单元读取一层网络的卷积核数据以及从特征数据缓存单元读取特征数据；步骤S302、CNN单元发送读取完毕信号到DMA单元；步骤S303、CNN单元根据读取到的卷积核数据和特征数据进行神经网络运算；步骤S304、DMA单元收到读取完毕信号后从外部存储单元读取下一层网络的卷积核数据；步骤S305、DMA单元存储下一层网络的卷积核数据到卷积核缓存单元；步骤S306、CNN单元将神经网络运算的结果存储到特征数据缓存单元；重复上述步骤直到完成剩下的CNN单元神经网络层的运算，即由步骤S306回到步骤S301进行下一层网络的运算。本发明的CNN单元在读取完特征数据和卷积核数据后，DMA单元就会将下一层的卷积核存储到内部的卷积核缓存单元，且每一层的特征数据算出后也是存储在内部的特征数据缓存单元，这样本发明的CNN单元在每一次的运算完成后，需要取数据的时候，不需要从外部存储单元(如内存)上进行读取，而是直接从内部的缓存单元进行读取，避免对外部存储单元过多的带宽占用。

如图5所示，进一步地，在进行第一层网络的神经网络运算时，还包括步骤S401、CNN单元从外部存储单元读取第一层网络的卷积核数据和特征数据，而后第一层网络算出的第二层特征数据就存储在特征数据缓存单元，之后的每一层网络的特征数据都是存储在内部的特征数据缓存单元，这样第一层特征数据由CNN单元直接从外部存储单元去读取，更加高效。正如加速电路实施例所述，某些实施例中，也可以由DMA读取后并存储到缓存单元后再由CNN单元读取。

当CNN运算出来的特征数据量过大的时候，为了避免特征数据缓存单元无法存储全部的特征数据，进一步地，还包括步骤S407：CNN单元获取到特征数据缓存单元的存储满信号后,将剩余的特征数据存储到外部存储单元，并将外部存储单元上的特征数据的地址存储在地址记录单元；则步骤S301中，在下一次CNN单元从特征数据缓存单元读取特征数据时，还包括步骤：CNN单元根据地址记录单元的地址获取外部存储单元的特征数据。具体地，如CNN单元在读取特征数据缓存单元时，一直读到特征数据缓存单元的空信号发出,而后再去从地址记录单元中查询剩余部分的特征数据在外部存储单元中的存储地址,然后CNN单元继续到外部存储单元中读取剩余的特征数据,直到读取完成，这样就可以获取到全部的特征数据。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.基于神经网络深度学习的加速电路，其特征在于：包括CNN单元、DMA单元、卷积核缓存单元、特征数据缓存单元，所述CNN单元分别与DMA单元、卷积核缓存单元、特征数据缓存单元连接，所述DMA单元与卷积核缓存单元连接，所述CNN单元、DMA单元还用于分别与外部存储单元连接；

CNN单元用于发送读取完毕信号到DMA单元；

2.根据权利要求1所述的基于神经网络深度学习的加速电路，其特征在于：CNN单元还用于从外部存储单元读取第一层网络的卷积核数据和特征数据。

3.根据权利要求1所述的基于神经网络深度学习的加速电路，其特征在于，还包括地址记录单元，所述地址记录单元与CNN单元连接；

4.根据权利要求1所述的基于神经网络深度学习的加速电路，其特征在于，所述CNN单元包括：通路选择单元、特征数据读取单元、卷积核数据读取单元、内部特征数据缓存单元、内部卷积核数据缓存单元、乘加阵列卷积运算单元、激活函数运算单元、池化运算单元、数据回写单元；

5.基于神经网络深度学习的加速方法，其特征在于：包括如下步骤：

CNN单元发送读取完毕信号到DMA单元；

DMA单元存储下一层网络的卷积核数据到卷积核缓存单元；

CNN单元将神经网络运算的结果存储到特征数据缓存单元；

重复上述步骤直到完成剩下的CNN单元神经网络层的运算。

6.根据权利要求5所述的基于神经网络深度学习的加速方法，其特征在于：在进行第一层网络的神经网络运算时，CNN单元从外部存储单元读取第一层网络的卷积核数据和特征数据。

7.根据权利要求5所述的基于神经网络深度学习的加速方法，其特征在于，还包括步骤：

则在下一次CNN单元从特征数据缓存单元读取特征数据时，还包括步骤：

CNN单元根据地址记录单元的地址获取外部存储单元的特征数据。