CN111913744A

CN111913744A - Ai深度学习数据处理方法及系统

Info

Publication number: CN111913744A
Application number: CN202010678596.6A
Authority: CN
Inventors: 萧文远; 萧名群; 连育广
Original assignee: Bouffalo Lab Nanjing Co ltd
Current assignee: Bouffalo Lab Nanjing Co ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-10

Abstract

本发明揭示了一种AI深度学习数据处理方法及系统，所述数据处理方法包括：DRAM中的AI处理器可用空间分成n个区块，AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数；分析数据模型参数需求，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算拆分为m个AI子运算；为各AI子运算的输出结果分配对应的DRAM区块；分别执行各AI子运算；执行各AI子运算中，AI处理器将各区块数据搬运至SRAM中，AI处理器对AI子运算对应的数据进行处理；处理结束后，AI处理器把结果输出到各自被分配的DRAM区块；把拆分的各AI子运算的输出结果串接到DRAM的第j区块。本发明提出的AI深度学习数据处理方法及系统，可在有限的芯片内存下有效率的处理高参数量的AI模型。

Description

AI深度学习数据处理方法及系统

技术领域

本发明属于人工智能技术领域，涉及一种数据处理系统，尤其涉及一种AI深度学习数据处理方法及系统。

背景技术

AI(人工智能，Artificial Intelligence)处理器需要SRAM来暂存模型参数、输入数据以及运算中间值来确保数据存取的速度。随着AI的精准度越高、应用越广，模型参数随着增加，芯片所需的内存的大小也随之增加。

图3为一般AI运算数据存取，将DRAM中AI处理器可用的区域分割为16区(N)，输入数据与模型参数存放于DRAM第0～1区(I)，当SRAM空间大小足够时，AI处理器把数据从DRAM第0～1区搬到SRAM中，AI运算结果存到DRAM第12区(J)。

在芯片内存不足的情况下，需要将运算中间值先存到外部内存，等需要该运算中间值时再读回内存继续运算，此做法需要耗费更多的时间在数据的存取上，让计算效率大幅下降。

有鉴于此，如今迫切需要设计一种新的AI深度学习的数据处理方式，以便克服现有数据处理方式存在的上述至少部分缺陷。

发明内容

本发明提供一种AI深度学习数据处理方法及系统，可在有限的芯片内存下有效率的处理高参数量的AI模型。

为解决上述技术问题，根据本发明的一个方面，采用如下技术方案：

一种AI深度学习数据处理方法，所述数据处理方法包括：

步骤S1、DRAM中的AI处理器可用空间分成n个区块，AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数；

步骤S2、分析数据模型参数需求，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算拆分为m个AI子运算；

步骤S3、为各AI子运算的输出结果分配对应的DRAM区块；

步骤S4、分别执行各AI子运算；执行各AI子运算中，AI处理器将各区块数据搬运至SRAM中，AI处理器对AI子运算对应的数据进行处理；处理结束后，AI处理器把结果输出到各自被分配的DRAM区块；

步骤S5、把拆分的各AI子运算的输出结果串接到DRAM的第j区块。

作为本发明的一种实施方式，所述步骤S2中，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道为基准拆分为m个AI子运算。

作为本发明的一种实施方式，所述步骤S4中，处理结束后，AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。

作为本发明的一种实施方式，所述步骤S5中，把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

作为本发明的一种实施方式，所述步骤S2中，当数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块，不再执行步骤S3至步骤S5。

根据本发明的另一个方面，采用如下技术方案：

一种AI深度学习数据处理系统，所述数据处理系统包括：

DRAM，其中AI处理器可用的空间被分成n个区块；

SRAM，用以存储数据；以及

AI处理器，用以进行AI运算；

所述AI处理器包括：

数据读取模块，用以从DRAM中的第i区块读取AI运算输入数据及数据模型参数；

参数需求分析模块，用以分析数据模型参数需求，判断数据模型参数需求的暂存空间是否大于SRAM空间；

AI运算拆分模块，用以在数据模型参数需求的暂存空间大于SRAM空间时，将AI运算拆分为m个AI子运算；

DRAM区块分配模块，用以为各AI子运算的输出结果分配对应的DRAM区块；

AI子运算执行模块，用以分别执行各AI子运算；执行各AI子运算中，AI子运算执行模块将各区块数据搬运至SRAM中，并对AI子运算对应的数据进行处理；处理结束后，把结果输出到各自被分配的DRAM区块；以及

输出结果串接模块，用以把拆分的各AI子运算的输出结果串接到DRAM的第j区块。

作为本发明的一种实施方式，所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道为基准拆分为m个AI子运算。

作为本发明的一种实施方式，所述AI子运算执行模块在处理结束后，把结果按运算顺序输出到各自被分配的DRAM区块。

作为本发明的一种实施方式，所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

作为本发明的一种实施方式，所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块。

AI神经网络利用大量的参数与输入数据间的运算来达到高精准度的机率预测结果，因此AI处理器为了加快数据访问速度需要静态随机存取内存(SRAM，芯片内存)来暂存模型参数与输入数据，然而一般的AI模型参数量落在数MB～数百MB，若想使用数十～数百KB的芯片内存来实现AI硬件处理器则会牺牲许多计算效率。本发明透过分析模型参数与有效分配外部内存并实时切割每层AI运算，在数十KB的芯片内存下依然可以有效率的处理参数量数MB～数百MB的AI模型。

在有限的SRAM下，当模型参数大于SRAM可容纳的空间时，把AI运算以输出通道来拆分成数个AI子运算来减少暂存空间，各个运算结果存到分配的DRAM位置，最后再利用连接层串接各DRAM位置的运算结果到原指定的运算输出位置，串接后的数据结果会与一般AI运算的结果和排列都一致。此方法确保输入与输出数据的外部内存地址都连续，可让AI处理器在数据存取上有效率。动态切割AI运算可让AI处理器在运算复杂度相近的情况下，有效减少所需SRAM空间。

将DRAM中AI处理器可以使用的空间分成N区，AI运算的输入数据与模型参数从DRAM中的第I区读取，AI运算后的结果输出到DRAM中的第J区。分析模型参数，当模型参数需求的暂存空间大于SRAM空间(S)时，将AI运算以输出通道为基准拆分为n个AI运算各别执行运算，把结果按运算顺序输出到各自被分配的DRAM区块，最后把拆分的AI运算结果利用连接层串接到第J区。

本发明的有益效果在于：本发明提出的AI深度学习数据处理方法及系统，可在有限的芯片内存下有效率的处理高参数量的AI模型。

附图说明

图1为本发明一实施例中AI深度学习数据处理方法的流程图。

图2为本发明一实施例中AI深度学习数据处理系统的组成示意图。

图3为一般AI运算的DRAM数据存取示意图。

图4为本发明一实施例中动态切割AI运算第一部分AI运算的DRAM数据存取示意图。

图5为本发明一实施例中动态切割AI运算第二部分AI运算的DRAM数据存取示意图。

图6为本发明一实施例中动态切割AI运算连接层的DRAM数据存取示意图。

图7为本发明一实施例中AI运算拆分多个AI子运算与连接层示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

该部分的描述只针对几个典型的实施例，本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。

说明书中的“连接”既包含直接连接，也包含间接连接。

本发明揭示了一种AI深度学习数据处理方法，图1为本发明一实施例中AI深度学习数据处理方法的流程图；请参阅图1，所述数据处理方法包括：

【步骤S1】DRAM中的AI处理器可用空间分成n个区块，AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数。

【步骤S2】分析数据模型参数需求，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算拆分为m个AI子运算。

在一实施例中，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道(output channel)为基准拆分为m个AI子运算。

一般三维影像的由宽度、高度、深度(或通道数)所组成，在AI深度学习领域，把输入数据的三个维度也称之为输入宽度、输入高度、输入深度(通道数)，经过AI运算(如:卷积运算等)后，会根据运算的卷积核数量的不同，让输出数据的输出深度(通道数)有所不同。也就是说输出数据的三个维度分别为:输出宽度、输出高度、输出深度(通道数)。以输出通道为基准指的是若输出通道为OC，判断暂存空间不足之后，会将该运算拆分为m个子运算，每个子运算的输出数据为输出宽度*输出高度*(OC/m)。

【步骤S3】为各AI子运算的输出结果分配对应的DRAM区块。

【步骤S4】分别执行各AI子运算；执行各AI子运算中，AI处理器将各区块数据搬运至SRAM中，AI处理器对AI子运算对应的数据进行处理；处理结束后，AI处理器把结果输出到各自被分配的DRAM区块。

在一实施例中，处理结束后，AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。

【步骤S5】把拆分的各AI子运算的输出结果串接到DRAM的第j区块。

在一实施例中，把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

在本发明的一实施例中，所述步骤S2中，当数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块，不再执行步骤S3至步骤S5。

本发明还揭示一种AI深度学习数据处理系统，图2为本发明一实施例中AI深度学习数据处理系统的组成示意图；请参阅图2，所述数据处理系统包括：DRAM、SRAM以及AI处理器1。

DRAM中AI处理器可用的空间被分成n个区块；SRAM用以存储数据；AI处理器1用以进行AI运算。

所述AI处理器1包括：数据读取模块11、参数需求分析模块12、AI运算拆分模块13、DRAM区块分配模块14、AI子运算执行模块15以及输出结果串接模块16。在一实施例中，AI处理器内部会分析模型参数需求，进而拆分AI运算，分配所需DRAM空间，输出子运算结果，串接各个子运算。

数据读取模块11用以从DRAM中的第i区块读取AI运算输入数据及数据模型参数。

参数需求分析模块12用以分析数据模型参数需求，判断数据模型参数需求的暂存空间是否大于SRAM空间。

AI运算拆分模块13用以在数据模型参数需求的暂存空间大于SRAM空间时，将AI运算拆分为m个AI子运算。在一实施例中，所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道为基准拆分为m个AI子运算。

DRAM区块分配模块14用以为各AI子运算的输出结果分配对应的DRAM区块。

AI子运算执行模块15用以分别执行各AI子运算；执行各AI子运算中，AI子运算执行模块将各区块数据搬运至SRAM中，并对AI子运算对应的数据进行处理；处理结束后，把结果输出到各自被分配的DRAM区块。在一实施例中，所述AI子运算执行模块在处理结束后，把结果按运算顺序输出到各自被分配的DRAM区块。

输出结果串接模块16用以把拆分的各AI子运算的输出结果串接到DRAM的第j区块。在一实施例中，所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

在本发明的一实施例中，所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块。

图4为本发明一实施例中动态切割AI运算第一部分数据存取的示意图。如图4所示，将DRAM中AI处理器可用的区域分割为16区(n)，输入数据与模型参数存放于DRAM第0～1区(i)，当SRAM空间大小不足时，AI处理器把AI运算以输出通道为基准拆分为2个AI子运算，并把数据从DRAM第0区搬到SRAM中，运算结果存到DRAM第13区(j+1)。

图5为本发明一实施例中动态切割AI运算第二部分数据存取的示意图。如图5所示，在第二图的第一部分切割AI运算完成后，把数据从DRAM第1区搬到SRAM中，运算结果存到DRAM第14区(j+2)。

图6为本发明一实施例中动态切割AI运算的连接层的DRAM数据存取的示意图。如图6所示，切割AI运算都完成后，把数据从DRAM第13、14区串接到DRAM第12区(j)。

图7为本发明一实施例中AI运算拆分多个AI子运算与连接层示意图；请参阅图7，将AI运算拆分多个AI子运算。

在本发明的一实施例中，本发明方法主要针对AI深度学习的运算拆分成各个子运算，在下列条件的情况下此方法会有较大益处：(1)输入数据为三维分别是宽度(width)、高(height)、深(depth or channel)，且深度的量值较大(如:256/512/1024…)；2.运算参数量较大。在其他领域的数据深度(depth or channel)量值通常为1或3(影像深度)，而AI深度学习领域的数据深度通常较大，所以此方法在AI深度学习领域的效益为最大。在本发明的一实施例中，本发明方法及系统也可以用于其他领域的数据处理。

综上所述，本发明提出的AI深度学习数据处理方法及系统，可在有限的芯片内存下有效率的处理高参数量的AI模型。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现，对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种AI深度学习数据处理方法，其特征在于，所述数据处理方法包括：

步骤S3、为各AI子运算的输出结果分配对应的DRAM区块；

2.根据权利要求1所述的AI深度学习数据处理方法，其特征在于：

所述步骤S2中，当数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道为基准拆分为m个AI子运算。

3.根据权利要求1所述的AI深度学习数据处理方法，其特征在于：

所述步骤S4中，处理结束后，AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。

4.根据权利要求1所述的AI深度学习数据处理方法，其特征在于：

所述步骤S5中，把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

5.根据权利要求1所述的AI深度学习数据处理方法，其特征在于：

所述步骤S2中，当数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块，不再执行步骤S3至步骤S5。

6.一种AI深度学习数据处理系统，其特征在于，所述数据处理系统包括：

DRAM，其中AI处理器可用的空间被分成n个区块；

SRAM，用以存储数据；以及

AI处理器，用以进行AI运算；

所述AI处理器包括：

7.根据权利要求6所述的AI深度学习数据处理系统，其特征在于：

所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时，将AI运算以输出通道为基准拆分为m个AI子运算。

8.根据权利要求6所述的AI深度学习数据处理系统，其特征在于：

所述AI子运算执行模块在处理结束后，把结果按运算顺序输出到各自被分配的DRAM区块。

9.根据权利要求6所述的AI深度学习数据处理系统，其特征在于：

所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。

10.根据权利要求6所述的AI深度学习数据处理系统，其特征在于：

所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时，将AI运算后的结果输出到DRAM中的第j区块。