CN111913744A - Ai深度学习数据处理方法及系统 - Google Patents
Ai深度学习数据处理方法及系统 Download PDFInfo
- Publication number
- CN111913744A CN111913744A CN202010678596.6A CN202010678596A CN111913744A CN 111913744 A CN111913744 A CN 111913744A CN 202010678596 A CN202010678596 A CN 202010678596A CN 111913744 A CN111913744 A CN 111913744A
- Authority
- CN
- China
- Prior art keywords
- sub
- dram
- data
- operations
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000013499 data model Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 150
- 238000010586 diagram Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/3012—Organisation of register space, e.g. banked or distributed register file
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Memory System (AREA)
Abstract
本发明揭示了一种AI深度学习数据处理方法及系统,所述数据处理方法包括:DRAM中的AI处理器可用空间分成n个区块,AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数;分析数据模型参数需求,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;为各AI子运算的输出结果分配对应的DRAM区块;分别执行各AI子运算;执行各AI子运算中,AI处理器将各区块数据搬运至SRAM中,AI处理器对AI子运算对应的数据进行处理;处理结束后,AI处理器把结果输出到各自被分配的DRAM区块;把拆分的各AI子运算的输出结果串接到DRAM的第j区块。本发明提出的AI深度学习数据处理方法及系统,可在有限的芯片内存下有效率的处理高参数量的AI模型。
Description
技术领域
本发明属于人工智能技术领域,涉及一种数据处理系统,尤其涉及一种AI深度学习数据处理方法及系统。
背景技术
AI(人工智能,Artificial Intelligence)处理器需要SRAM来暂存模型参数、输入数据以及运算中间值来确保数据存取的速度。随着AI的精准度越高、应用越广,模型参数随着增加,芯片所需的内存的大小也随之增加。
图3为一般AI运算数据存取,将DRAM中AI处理器可用的区域分割为16区(N),输入数据与模型参数存放于DRAM第0~1区(I),当SRAM空间大小足够时,AI处理器把数据从DRAM第0~1区搬到SRAM中,AI运算结果存到DRAM第12区(J)。
在芯片内存不足的情况下,需要将运算中间值先存到外部内存,等需要该运算中间值时再读回内存继续运算,此做法需要耗费更多的时间在数据的存取上,让计算效率大幅下降。
有鉴于此,如今迫切需要设计一种新的AI深度学习的数据处理方式,以便克服现有数据处理方式存在的上述至少部分缺陷。
发明内容
本发明提供一种AI深度学习数据处理方法及系统,可在有限的芯片内存下有效率的处理高参数量的AI模型。
为解决上述技术问题,根据本发明的一个方面,采用如下技术方案:
一种AI深度学习数据处理方法,所述数据处理方法包括:
步骤S1、DRAM中的AI处理器可用空间分成n个区块,AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数;
步骤S2、分析数据模型参数需求,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;
步骤S3、为各AI子运算的输出结果分配对应的DRAM区块;
步骤S4、分别执行各AI子运算;执行各AI子运算中,AI处理器将各区块数据搬运至SRAM中,AI处理器对AI子运算对应的数据进行处理;处理结束后,AI处理器把结果输出到各自被分配的DRAM区块;
步骤S5、把拆分的各AI子运算的输出结果串接到DRAM的第j区块。
作为本发明的一种实施方式,所述步骤S2中,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道为基准拆分为m个AI子运算。
作为本发明的一种实施方式,所述步骤S4中,处理结束后,AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。
作为本发明的一种实施方式,所述步骤S5中,把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
作为本发明的一种实施方式,所述步骤S2中,当数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块,不再执行步骤S3至步骤S5。
根据本发明的另一个方面,采用如下技术方案:
一种AI深度学习数据处理系统,所述数据处理系统包括:
DRAM,其中AI处理器可用的空间被分成n个区块;
SRAM,用以存储数据;以及
AI处理器,用以进行AI运算;
所述AI处理器包括:
数据读取模块,用以从DRAM中的第i区块读取AI运算输入数据及数据模型参数;
参数需求分析模块,用以分析数据模型参数需求,判断数据模型参数需求的暂存空间是否大于SRAM空间;
AI运算拆分模块,用以在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;
DRAM区块分配模块,用以为各AI子运算的输出结果分配对应的DRAM区块;
AI子运算执行模块,用以分别执行各AI子运算;执行各AI子运算中,AI子运算执行模块将各区块数据搬运至SRAM中,并对AI子运算对应的数据进行处理;处理结束后,把结果输出到各自被分配的DRAM区块;以及
输出结果串接模块,用以把拆分的各AI子运算的输出结果串接到DRAM的第j区块。
作为本发明的一种实施方式,所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道为基准拆分为m个AI子运算。
作为本发明的一种实施方式,所述AI子运算执行模块在处理结束后,把结果按运算顺序输出到各自被分配的DRAM区块。
作为本发明的一种实施方式,所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
作为本发明的一种实施方式,所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块。
AI神经网络利用大量的参数与输入数据间的运算来达到高精准度的机率预测结果,因此AI处理器为了加快数据访问速度需要静态随机存取内存(SRAM,芯片内存)来暂存模型参数与输入数据,然而一般的AI模型参数量落在数MB~数百MB,若想使用数十~数百KB的芯片内存来实现AI硬件处理器则会牺牲许多计算效率。本发明透过分析模型参数与有效分配外部内存并实时切割每层AI运算,在数十KB的芯片内存下依然可以有效率的处理参数量数MB~数百MB的AI模型。
在有限的SRAM下,当模型参数大于SRAM可容纳的空间时,把AI运算以输出通道来拆分成数个AI子运算来减少暂存空间,各个运算结果存到分配的DRAM位置,最后再利用连接层串接各DRAM位置的运算结果到原指定的运算输出位置,串接后的数据结果会与一般AI运算的结果和排列都一致。此方法确保输入与输出数据的外部内存地址都连续,可让AI处理器在数据存取上有效率。动态切割AI运算可让AI处理器在运算复杂度相近的情况下,有效减少所需SRAM空间。
将DRAM中AI处理器可以使用的空间分成N区,AI运算的输入数据与模型参数从DRAM中的第I区读取,AI运算后的结果输出到DRAM中的第J区。分析模型参数,当模型参数需求的暂存空间大于SRAM空间(S)时,将AI运算以输出通道为基准拆分为n个AI运算各别执行运算,把结果按运算顺序输出到各自被分配的DRAM区块,最后把拆分的AI运算结果利用连接层串接到第J区。
本发明的有益效果在于:本发明提出的AI深度学习数据处理方法及系统,可在有限的芯片内存下有效率的处理高参数量的AI模型。
附图说明
图1为本发明一实施例中AI深度学习数据处理方法的流程图。
图2为本发明一实施例中AI深度学习数据处理系统的组成示意图。
图3为一般AI运算的DRAM数据存取示意图。
图4为本发明一实施例中动态切割AI运算第一部分AI运算的DRAM数据存取示意图。
图5为本发明一实施例中动态切割AI运算第二部分AI运算的DRAM数据存取示意图。
图6为本发明一实施例中动态切割AI运算连接层的DRAM数据存取示意图。
图7为本发明一实施例中AI运算拆分多个AI子运算与连接层示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
该部分的描述只针对几个典型的实施例,本发明并不仅局限于实施例描述的范围。相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
说明书中的“连接”既包含直接连接,也包含间接连接。
本发明揭示了一种AI深度学习数据处理方法,图1为本发明一实施例中AI深度学习数据处理方法的流程图;请参阅图1,所述数据处理方法包括:
【步骤S1】DRAM中的AI处理器可用空间分成n个区块,AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数。
【步骤S2】分析数据模型参数需求,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算。
在一实施例中,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道(output channel)为基准拆分为m个AI子运算。
一般三维影像的由宽度、高度、深度(或通道数)所组成,在AI深度学习领域,把输入数据的三个维度也称之为输入宽度、输入高度、输入深度(通道数),经过AI运算(如:卷积运算等)后,会根据运算的卷积核数量的不同,让输出数据的输出深度(通道数)有所不同。也就是说输出数据的三个维度分别为:输出宽度、输出高度、输出深度(通道数)。以输出通道为基准指的是若输出通道为OC,判断暂存空间不足之后,会将该运算拆分为m个子运算,每个子运算的输出数据为输出宽度*输出高度*(OC/m)。
【步骤S3】为各AI子运算的输出结果分配对应的DRAM区块。
【步骤S4】分别执行各AI子运算;执行各AI子运算中,AI处理器将各区块数据搬运至SRAM中,AI处理器对AI子运算对应的数据进行处理;处理结束后,AI处理器把结果输出到各自被分配的DRAM区块。
在一实施例中,处理结束后,AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。
【步骤S5】把拆分的各AI子运算的输出结果串接到DRAM的第j区块。
在一实施例中,把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
在本发明的一实施例中,所述步骤S2中,当数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块,不再执行步骤S3至步骤S5。
本发明还揭示一种AI深度学习数据处理系统,图2为本发明一实施例中AI深度学习数据处理系统的组成示意图;请参阅图2,所述数据处理系统包括:DRAM、SRAM以及AI处理器1。
DRAM中AI处理器可用的空间被分成n个区块;SRAM用以存储数据;AI处理器1用以进行AI运算。
所述AI处理器1包括:数据读取模块11、参数需求分析模块12、AI运算拆分模块13、DRAM区块分配模块14、AI子运算执行模块15以及输出结果串接模块16。在一实施例中,AI处理器内部会分析模型参数需求,进而拆分AI运算,分配所需DRAM空间,输出子运算结果,串接各个子运算。
数据读取模块11用以从DRAM中的第i区块读取AI运算输入数据及数据模型参数。
参数需求分析模块12用以分析数据模型参数需求,判断数据模型参数需求的暂存空间是否大于SRAM空间。
AI运算拆分模块13用以在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算。在一实施例中,所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道为基准拆分为m个AI子运算。
DRAM区块分配模块14用以为各AI子运算的输出结果分配对应的DRAM区块。
AI子运算执行模块15用以分别执行各AI子运算;执行各AI子运算中,AI子运算执行模块将各区块数据搬运至SRAM中,并对AI子运算对应的数据进行处理;处理结束后,把结果输出到各自被分配的DRAM区块。在一实施例中,所述AI子运算执行模块在处理结束后,把结果按运算顺序输出到各自被分配的DRAM区块。
输出结果串接模块16用以把拆分的各AI子运算的输出结果串接到DRAM的第j区块。在一实施例中,所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
在本发明的一实施例中,所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块。
图4为本发明一实施例中动态切割AI运算第一部分数据存取的示意图。如图4所示,将DRAM中AI处理器可用的区域分割为16区(n),输入数据与模型参数存放于DRAM第0~1区(i),当SRAM空间大小不足时,AI处理器把AI运算以输出通道为基准拆分为2个AI子运算,并把数据从DRAM第0区搬到SRAM中,运算结果存到DRAM第13区(j+1)。
图5为本发明一实施例中动态切割AI运算第二部分数据存取的示意图。如图5所示,在第二图的第一部分切割AI运算完成后,把数据从DRAM第1区搬到SRAM中,运算结果存到DRAM第14区(j+2)。
图6为本发明一实施例中动态切割AI运算的连接层的DRAM数据存取的示意图。如图6所示,切割AI运算都完成后,把数据从DRAM第13、14区串接到DRAM第12区(j)。
图7为本发明一实施例中AI运算拆分多个AI子运算与连接层示意图;请参阅图7,将AI运算拆分多个AI子运算。
在本发明的一实施例中,本发明方法主要针对AI深度学习的运算拆分成各个子运算,在下列条件的情况下此方法会有较大益处:(1)输入数据为三维分别是宽度(width)、高(height)、深(depth or channel),且深度的量值较大(如:256/512/1024…);2.运算参数量较大。在其他领域的数据深度(depth or channel)量值通常为1或3(影像深度),而AI深度学习领域的数据深度通常较大,所以此方法在AI深度学习领域的效益为最大。在本发明的一实施例中,本发明方法及系统也可以用于其他领域的数据处理。
综上所述,本发明提出的AI深度学习数据处理方法及系统,可在有限的芯片内存下有效率的处理高参数量的AI模型。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。实施例中所涉及的效果或优点可因多种因素干扰而可能不能在实施例中体现,对于效果或优点的描述不用于对实施例进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
Claims (10)
1.一种AI深度学习数据处理方法,其特征在于,所述数据处理方法包括:
步骤S1、DRAM中的AI处理器可用空间分成n个区块,AI处理器从DRAM中的第i区块读取AI运算输入数据及数据模型参数;
步骤S2、分析数据模型参数需求,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;
步骤S3、为各AI子运算的输出结果分配对应的DRAM区块;
步骤S4、分别执行各AI子运算;执行各AI子运算中,AI处理器将各区块数据搬运至SRAM中,AI处理器对AI子运算对应的数据进行处理;处理结束后,AI处理器把结果输出到各自被分配的DRAM区块;
步骤S5、把拆分的各AI子运算的输出结果串接到DRAM的第j区块。
2.根据权利要求1所述的AI深度学习数据处理方法,其特征在于:
所述步骤S2中,当数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道为基准拆分为m个AI子运算。
3.根据权利要求1所述的AI深度学习数据处理方法,其特征在于:
所述步骤S4中,处理结束后,AI处理器把结果按运算顺序输出到各自被分配的DRAM区块。
4.根据权利要求1所述的AI深度学习数据处理方法,其特征在于:
所述步骤S5中,把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
5.根据权利要求1所述的AI深度学习数据处理方法,其特征在于:
所述步骤S2中,当数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块,不再执行步骤S3至步骤S5。
6.一种AI深度学习数据处理系统,其特征在于,所述数据处理系统包括:
DRAM,其中AI处理器可用的空间被分成n个区块;
SRAM,用以存储数据;以及
AI处理器,用以进行AI运算;
所述AI处理器包括:
数据读取模块,用以从DRAM中的第i区块读取AI运算输入数据及数据模型参数;
参数需求分析模块,用以分析数据模型参数需求,判断数据模型参数需求的暂存空间是否大于SRAM空间;
AI运算拆分模块,用以在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算拆分为m个AI子运算;
DRAM区块分配模块,用以为各AI子运算的输出结果分配对应的DRAM区块;
AI子运算执行模块,用以分别执行各AI子运算;执行各AI子运算中,AI子运算执行模块将各区块数据搬运至SRAM中,并对AI子运算对应的数据进行处理;处理结束后,把结果输出到各自被分配的DRAM区块;以及
输出结果串接模块,用以把拆分的各AI子运算的输出结果串接到DRAM的第j区块。
7.根据权利要求6所述的AI深度学习数据处理系统,其特征在于:
所述AI运算拆分模块在数据模型参数需求的暂存空间大于SRAM空间时,将AI运算以输出通道为基准拆分为m个AI子运算。
8.根据权利要求6所述的AI深度学习数据处理系统,其特征在于:
所述AI子运算执行模块在处理结束后,把结果按运算顺序输出到各自被分配的DRAM区块。
9.根据权利要求6所述的AI深度学习数据处理系统,其特征在于:
所述输出结果串接模块把拆分的各AI子运算的输出结果利用连接层串接到DRAM的第j区块。
10.根据权利要求6所述的AI深度学习数据处理系统,其特征在于:
所述AI处理器在数据模型参数需求的暂存空间小于等于SRAM空间时,将AI运算后的结果输出到DRAM中的第j区块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678596.6A CN111913744A (zh) | 2020-07-15 | 2020-07-15 | Ai深度学习数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010678596.6A CN111913744A (zh) | 2020-07-15 | 2020-07-15 | Ai深度学习数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111913744A true CN111913744A (zh) | 2020-11-10 |
Family
ID=73281574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010678596.6A Pending CN111913744A (zh) | 2020-07-15 | 2020-07-15 | Ai深度学习数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111913744A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5678017A (en) * | 1995-03-24 | 1997-10-14 | Micron Technology, Inc. | Automatic reloading of serial read operation pipeline on last bit transfers to serial access memory in split read transfer operations |
CN109670598A (zh) * | 2018-11-07 | 2019-04-23 | 建湖云飞数据科技有限公司 | 一种基于深度学习的数据处理方法 |
CN109726806A (zh) * | 2017-10-30 | 2019-05-07 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN110197253A (zh) * | 2018-02-27 | 2019-09-03 | 意法半导体国际有限公司 | 用于深度学习加速的算术单元 |
KR20200023660A (ko) * | 2018-08-13 | 2020-03-06 | 인천대학교 산학협력단 | 딥러닝 모델을 통한 추론 서비스를 제공할 때, 적어도 하나의 프로세서의 성능을 제어하는 전자 장치 및 그의 동작 방법 |
-
2020
- 2020-07-15 CN CN202010678596.6A patent/CN111913744A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5678017A (en) * | 1995-03-24 | 1997-10-14 | Micron Technology, Inc. | Automatic reloading of serial read operation pipeline on last bit transfers to serial access memory in split read transfer operations |
CN109726806A (zh) * | 2017-10-30 | 2019-05-07 | 上海寒武纪信息科技有限公司 | 信息处理方法及终端设备 |
CN110197253A (zh) * | 2018-02-27 | 2019-09-03 | 意法半导体国际有限公司 | 用于深度学习加速的算术单元 |
KR20200023660A (ko) * | 2018-08-13 | 2020-03-06 | 인천대학교 산학협력단 | 딥러닝 모델을 통한 추론 서비스를 제공할 때, 적어도 하나의 프로세서의 성능을 제어하는 전자 장치 및 그의 동작 방법 |
CN109670598A (zh) * | 2018-11-07 | 2019-04-23 | 建湖云飞数据科技有限公司 | 一种基于深度学习的数据处理方法 |
Non-Patent Citations (1)
Title |
---|
杨一晨;梁峰;张国和;何平;吴斌;高震霆;: "一种基于可编程逻辑器件的卷积神经网络协处理器设计", 西安交通大学学报, no. 07, 10 July 2018 (2018-07-10), pages 158 - 164 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11500958B2 (en) | Method and apparatus for performing convolution operation on folded feature data | |
CN107203807A (zh) | 神经网络的计算方法、系统及其装置 | |
CA2436517A1 (en) | Method and apparatus for data processing | |
CN109213761A (zh) | 一种自由扩展免迁移的分库分表方法 | |
WO2020253117A1 (zh) | 一种数据处理方法及装置 | |
CN112668708A (zh) | 一种提高数据利用率的卷积运算装置 | |
CN116302461A (zh) | 深度学习内存分配优化方法和系统 | |
US11797487B2 (en) | Maintaining stable record identifiers in the presence of updated data records | |
US10776227B2 (en) | Memory management system and method thereof | |
CN111415003A (zh) | 面向神经网络加速芯片的三维堆叠存储优化方法及装置 | |
CN111310115A (zh) | 数据处理方法、装置及芯片、电子设备、存储介质 | |
CN114328315A (zh) | 基于dma的数据预处理方法、dma部件及芯片结构 | |
CN111913744A (zh) | Ai深度学习数据处理方法及系统 | |
DE102007036273A1 (de) | Integrierte Speichervorrichtung und Verfahren zum Betreiben einer Speichervorrichtung | |
CN102880620A (zh) | 电子表格的建立方法 | |
KR102006283B1 (ko) | 패스트맵을 이용한 데이터셋의 m-트리 적재방법 | |
CN106648891A (zh) | 基于MapReduce模型的任务执行方法和装置 | |
Slimani et al. | K-MLIO: enabling k-means for large data-sets and memory constrained embedded systems | |
CN115480919A (zh) | 卷积优化运算方法、装置、计算机设备及存储介质 | |
KR101858593B1 (ko) | 단일 머신 기반의 대용량 희소행렬 곱셈을 위한 메모리 할당 장치 및 방법 | |
CN110377601B (zh) | 一种基于B树数据结构的MapReduce计算过程优化方法 | |
US6938064B1 (en) | Method for computing fast Fourier transform and inverse fast Fourier transform | |
CN113052292A (zh) | 卷积神经网络技术方法、装置及计算机可读存储介质 | |
CN110390392B (zh) | 基于fpga的卷积参数加速装置、数据读写方法 | |
CN105912404A (zh) | 一种基于磁盘的大规模图数据中寻找强连通分量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |