CN109858622B

CN109858622B - 深度学习神经网络的数据搬运电路和方法

Info

Publication number: CN109858622B
Application number: CN201910095273.1A
Authority: CN
Inventors: 廖裕民; 强书连
Original assignee: Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-03-02
Anticipated expiration: 2039-01-31
Also published as: CN109858622A

Abstract

本发明公开深度学习神经网络的数据搬运电路和方法，其中数据搬运电路包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述读取控制单元与卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元连接，所述积核缓存单元与并行乘加阵列单元连接，所述第一特征数据缓存单元、第二特征数据缓存单元与数据重组织单元连接，所述数据重组织单元与并行乘加阵列单元连接；区别于现有技术，上述技术方案针对神经网络的运算规律实现有针对性的数据搬运电路,根据神经网络的运算进行针对性的数据存储，从而达到在有限带宽条件下能提高数据传输效率和神经网络运算效率。

Description

深度学习神经网络的数据搬运电路和方法

技术领域

本发明涉及数据搬运领域，尤其涉及深度学习神经网络的数据搬运电路和方法。

背景技术

随着人工智能技术的快速发展,深度学习神经网络的加速芯片的应用也在快速普及。但是由于深度学习的结构决定了其需要极大的数据吞吐量,对芯片的带宽和数据传输效率提出了极大的要求,以至于目前深度学习芯片的带宽限制常常成为其性能的瓶颈。而现有的数据一般都是存储在DDR内存中，DDR内存在进行换行数据读取的时候，需要关闭和激活的时间，这样会造成DDR访问效率严重下降。以及，当前技术中还是传统的整块数据搬运,而并没有针对神经网络的运算规律实现有针对性的数据搬运策略,造成现有数据搬运效率低下的问题。

发明内容

为此，需要提供深度学习神经网络的数据搬运电路和方法，解决现有基于神经网络的数据传输效率和神经网络运算效率的低下的问题。

为实现上述目的，发明人提供了深度学习神经网络的数据搬运电路，包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述读取控制单元与卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元连接，所述积核缓存单元与并行乘加阵列单元连接，所述第一特征数据缓存单元、第二特征数据缓存单元与数据重组织单元连接，所述数据重组织单元与并行乘加阵列单元连接；

读取控制单元用于从内存中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；

卷积核缓存单元用于存储卷积核数据；

数据重组织单元用于从第一特征数据缓存单元和第二特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元；

并行乘加阵列单元用于对从数据重组织单元输入的并行特征数据和卷积核缓存单元发送的卷积核数据进行卷积乘加运算并输出运算结果。

进一步地，还包括第三特征数据缓存单元、第四特征数据缓存单元，所述读取控制单元与第三特征数据缓存单元、第四特征数据缓存单元连接，所述第三特征数据缓存单元、第四特征数据缓存单元与数据重组织单元连接；

读取控制单元用于在第一特征数据缓存单元和第二特征数据缓存单元存满后将特征数据按照每一行存储一个特征点的连续通道数据到第三特征数据缓存单元和第四特征数据缓存单元；

数据重组织单元用于从第三特征数据缓存单元和第四特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元。

进一步地，读取控制单元用于在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元用于在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。

进一步地，还包括激活运算单元，激活运算单元与并行乘加阵列单元连接，激活运算单元用于获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果。

进一步地，还包括池化运算单元，池化运算单元与激活运算单连接，池化运算单元用于获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中。

本发明提供深度学习神经网络的数据搬运方法，应用于数据搬运电路，数据搬运电路包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述方法包括如下步骤：

读取控制单元从内存中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；

数据重组织单元从第一特征数据缓存单元和第二特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元；

进一步地，数据搬运电路还包括第三特征数据缓存单元、第四特征数据缓存单元；所述方法还包括步骤：

读取控制单元在第一特征数据缓存单元和第二特征数据缓存单元存满后将特征数据按照每一行存储一个特征点的连续通道数据到第三特征数据缓存单元和第四特征数据缓存单元；

数据重组织单元从第三特征数据缓存单元和第四特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元。

进一步地，还包括步骤：读取控制单元在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。

进一步地，还包括步骤：获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果。

进一步地，还包括步骤：获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中。

区别于现有技术，上述技术方案针对神经网络的运算规律实现有针对性的数据搬运电路,根据神经网络的运算进行针对性的数据存储，从而达到在有限带宽条件下能提高数据传输效率和神经网络运算效率。

附图说明

图1为具体实施方式所述的数据搬运电路结构示意图；

图2为读取控制单元在特征数据缓存单元的数据存储结构示意图；

图3为数据重组织单元从特征数据缓存单元读取数据的结构示意图；

图4为具体实施方式所述数据搬运方法流程图。

附图标记说明：

101、读取控制单元； 102、卷积核缓存单元；

103、第一特征数据缓存单元； 104、第二特征数据缓存单元；

105、数据重组织单元； 106、并行乘加阵列单元；

107、内存； 108、第三特征数据缓存单元；

109、第四特征数据缓存单元； 110、激活运算单元；

111、池化运算单元。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1到图4，本实施例提供深度学习神经网络的数据搬运电路，包括读取控制单元101、卷积核缓存单元102、第一第一特征数据缓存单元03、第二第一特征数据缓存单元04、数据重组织单元105、并行乘加阵列单元106。所述读取控制单元与卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元连接，所述积核缓存单元与并行乘加阵列单元连接，所述第一特征数据缓存单元、第二特征数据缓存单元与数据重组织单元连接，所述数据重组织单元与并行乘加阵列单元连接；读取控制单元用于从内存107中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；卷积核缓存单元用于存储卷积核数据；数据重组织单元用于从第一特征数据缓存单元和第二特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元；并行乘加阵列单元用于对从数据重组织单元输入的并行特征数据和卷积核缓存单元发送的卷积核数据进行卷积乘加运算并输出运算结果。

其中，上述每一行指的是特征数据缓存单元中的一行，连续通道数据即每个特征数据缓存单元中的通道数据的顺序是连续的，如第一特征数据缓存单元中的可以存储前面连续的一半通道的特征数据，第二特征数据缓存单元中的可以存储后面连续的一半通道的特征数据，这一行在第一特征数据缓存单元和第二特征数据缓存单元的行数可以是相同的。这样第一特征数据缓存单元和第二特征数据缓存单元的一行就可以实现一个特征点的所有通道的数据的读取。特征点可以由多个点，则特征数据缓存单元的每一行可以单独存储一个特征点的数据，有多少个特征点，就会占有多少行。以一个具体的实施例为例，如图2和3所示，以特征数据的尺寸为宽8,高4,通道(channel)数32为例来说明。

从内存中读取的时候，采用burst每次从内存读取连续特征点一个通道的特征数据的方式。假设总线位宽64bit,为了提高DDR的取数效率,必须使用burst(突发传输)进行数据读取,以burst4为例,每次burst4都可以从内存读8个通道1的点(对应图2最外侧列的最上面一行数据块),然后下一个burst4读取通道1接下来的8点(对应图2最外侧列的从上往下第二行数据块),直到第4个burst4将整个通道1的整个8x4个数据全部存入第一特征数据缓存单元中(对应图2最外侧列的8x4数据块，即通道1列的8x4数据块)。然后再按照相同的方式再将通道2(对应图2通道2列的8x4数据块)的全部特征数据点全部读取进入第一特征数据缓存单元。以此方式将通道1到通道16的特征数据点全部读入第一特征数据缓存单元中。然后以相同的方法将通道17到32的特征数据点全部读入第二特征数据缓存单元中，这样特征数据缓存单元每一行就存储有一个特征点的连续通道的特征数据。

而后在读取的时候，数据重组织单元会同时读出第一特征数据缓存单元中特征点1(对应图2左上角的数字1)的通道1～16的特征数据,同时也读出第二特征数据缓存单元中特征点1的通道17～32的特征数据，然后将第一特征数据缓存单元和第二特征数据缓存单元的读出数据拼凑成构成特征点1的全部32通道数据并行送入并行乘加阵列单元。然后下一个时钟节拍,数据重组织单元会同时读出第一特征数据缓存单元中特征点2的通道1～16的特征数据,同时也读出第二特征数据缓存单元中特征点2的通道17～32的特征数据，然后将第一特征数据缓存单元和第二特征数据缓存单元的读出数据拼凑成构成特征点2的全部32通道数据并行送入并行乘加阵列单元。这样每一个时钟节拍，数据重组织单元会从第一特征数据缓存单元和第二特征数据缓存单元的每一行中读出一个特征点的所有通道数据，直到完成全部8个特征点的数据输送到并行乘加阵列进行卷积运算。

这样在读取的时候，一次可以读取处一个特征点的所有通道数据，大大提高数据读取效率，降低带宽需求。其中，如果特征数据的通道数量小于32通道大于16通道，比如为30，那么还是相同的处理，只是第二特征数据缓存单元不需要全部使用,只需要用到14个通道的存储空间。如果小于16通道，则是需要使用第一特征数据缓存单元。

为了进一步提高存储效率，还包括第三第一特征数据缓存单元08与第四第一特征数据缓存单元09，所述读取控制单元与第三特征数据缓存单元、第四特征数据缓存单元连接，所述第三特征数据缓存单元、第四特征数据缓存单元与数据重组织单元连接；读取控制单元用于在第一特征数据缓存单元和第二特征数据缓存单元存满后将特征数据按照每一行存储一个特征点的连续通道数据到第三特征数据缓存单元和第四特征数据缓存单元；数据重组织单元用于从第三特征数据缓存单元和第四特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元。通过另外一组特征数据缓存单元,可以用于乒乓操作,即第一、第二特征数据缓存单元存满之后,可以马上开始对下一个第三和第四特征数据缓存单元的特征数据填充,不需要等待第一和第二特征数据缓存单元完成后再从DDR内存读取特征数据,以此提高数据读取效率。

在存储完成后，为了让数据重组织单元能够立刻开始进行数据读取操作，读取控制单元用于在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元用于在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。写入完成即一层特征点的所有通道数据全部写入完成后，如上述实施例中，即当通道1到通道16的特征点数据全部读入第一特征数据缓存单元,通道17到32的特征点数据全部读入第二特征数据缓存单元之后,由于每一次读取通道数据都是读取8x4的特征点，则32通道数据完成后即完成了32通道的8x4的特征点的特征数据读取。而后第一特征数据缓存单元和第二特征数据缓存单元输出数据有效信号给数据重组织单元,数据重组织单元收到第一特征数据缓存单元和2都输出数据有效信号后,即可以立刻开始数据读取操作，从而提高读取效率。

本发明卷积乘加运算的结果可以输出给外部电路使用或者在本发明电路内进行继续运算，在本发明电路内继续运算时，卷积乘加运算的结果还包括激活运算单元110，激活运算单元与并行乘加阵列单元连接，激活运算单元用于获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果，这样可以在本发明的电路内完成激活运算。

本发明激活运算结果可以输出给外部电路使用或者在本发明电路内进行继续运算，从而完成神经网络运算，在本发明电路内完成神经网络运算时，还包括池化运算单元111，池化运算单元与激活运算单连接，池化运算单元用于获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中，这样可以在本发明的电路内完成神经网络运算，并将数据存储到内存中。

如图4所示，本发明提供深度学习神经网络的数据搬运方法，应用于数据搬运电路，如图1的电路中，数据搬运电路包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述方法包括如下步骤：步骤S401读取控制单元从内存中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；步骤S402数据重组织单元从第一特征数据缓存单元和第二特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元；步骤S403并行乘加阵列单元用于对从数据重组织单元输入的并行特征数据和卷积核缓存单元发送的卷积核数据进行卷积乘加运算并输出运算结果。通过在每个特征数据缓存单元的每一行存储一个特征点的连续通道数据，这样两个特征数据缓存单元就存储有一个特征点的所有通道数据，而后在取数据的时候，需要每个特征点的所有通道数据，只需要读取第一特征数据缓存单元和第二特征数据缓存单元的对应行的通道数据，并连接起来，就形成了一个特征点的所有通道数据，从而可以用于并行乘加阵列单元的运算。由于现有的存储方式中，特征点的通道数据存储在内存的不同地方，这样在读取同一特征点的通道数据就需要地址的不断切换，需要大量的时间和带宽。本发明将特征点的通道数据都存储在同一行，不需要切换地址，提高读取效率。本发明的读取过程可以用在电路的空闲时刻，提高电路利用率。

为了进一步提高存储读取效率，数据搬运电路还包括第三特征数据缓存单元、第四特征数据缓存单元；所述方法还包括步骤：读取控制单元在第一特征数据缓存单元和第二特征数据缓存单元存满后将特征数据按照每一行存储一个特征点的连续通道数据到第三特征数据缓存单元和第四特征数据缓存单元；数据重组织单元从第三特征数据缓存单元和第四特征数据缓存单元读取数据并重组织为并行数据送往并行乘加阵列单元。这样通过第三特征数据缓存单元和第四特征数据缓存单元，避免第一特征数据缓存单元和第二特征数据缓存单元存满后需要等待的问题，可以实现持续的存储。

在某些实施例中，为了方便数据重组织单元的读取，提高存储效率，本发明方法还包括步骤：读取控制单元在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。

为了实现激活运算，本发明方法还包括步骤：获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果。

为了实现神经网络运算并输出结果到内存中，本发明方法还包括步骤：获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.深度学习神经网络的数据搬运电路，其特征在于，包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述读取控制单元与卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元连接，所述卷积核缓存单元与并行乘加阵列单元连接，所述第一特征数据缓存单元、第二特征数据缓存单元与数据重组织单元连接，所述数据重组织单元与并行乘加阵列单元连接；

读取控制单元用于从内存中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；每一行指的是特征数据缓存单元中的一行，连续通道数据即每个特征数据缓存单元中的通道数据的顺序是连续的，第一特征数据缓存单元中存储前面连续的一半通道的特征数据，第二特征数据缓存单元中存储后面连续的一半通道的特征数据；

卷积核缓存单元用于存储卷积核数据；

2.根据权利要求1所述的深度学习神经网络的数据搬运电路，其特征在于：还包括第三特征数据缓存单元、第四特征数据缓存单元，所述读取控制单元与第三特征数据缓存单元、第四特征数据缓存单元连接，所述第三特征数据缓存单元、第四特征数据缓存单元与数据重组织单元连接；

3.根据权利要求1所述的深度学习神经网络的数据搬运电路，其特征在于：读取控制单元用于在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元用于在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。

4.根据权利要求1所述的深度学习神经网络的数据搬运电路，其特征在于：还包括激活运算单元，激活运算单元与并行乘加阵列单元连接，激活运算单元用于获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果。

5.根据权利要求4所述的深度学习神经网络的数据搬运电路，其特征在于：还包括池化运算单元，池化运算单元与激活运算单连接，池化运算单元用于获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中。

6.深度学习神经网络的数据搬运方法，应用于数据搬运电路，其特征在于，数据搬运电路包括读取控制单元、卷积核缓存单元、第一特征数据缓存单元、第二特征数据缓存单元、数据重组织单元、并行乘加阵列单元，所述方法包括如下步骤：

读取控制单元从内存中读取神经网络的特征数据和卷积核数据,并将卷积核数据存储到卷积核缓存单元,以及将特征数据按照每一行存储一个特征点的连续通道数据到第一特征数据缓存单元和第二特征数据缓存单元；每一行指的是特征数据缓存单元中的一行，连续通道数据即每个特征数据缓存单元中的通道数据的顺序是连续的，第一特征数据缓存单元中存储前面连续的一半通道的特征数据，第二特征数据缓存单元中存储后面连续的一半通道的特征数据；

7.根据权利要求6所述的深度学习神经网络的数据搬运方法，其特征在于：数据搬运电路还包括第三特征数据缓存单元、第四特征数据缓存单元；所述方法还包括步骤：

8.根据权利要求6所述的深度学习神经网络的数据搬运方法，其特征在于，还包括步骤：读取控制单元在第一特征数据缓存单元和第二特征数据缓存单元写入完成后输出数据有效信号给数据重组织单元，数据重组织单元在接收到数据有效信号后从第一特征数据缓存单元和第二特征数据缓存单元读取数据。

9.根据权利要求6所述的深度学习神经网络的数据搬运方法，其特征在于，还包括步骤：获取卷积乘加运算的结果并进行激活运算,以及输出激活运算结果。

10.根据权利要求9所述的深度学习神经网络的数据搬运方法，其特征在于，还包括步骤：获取激活运算结果并进行池化运算,以及输出池化运算结果到内存中。