CN117271145B - 一种基于混合计算架构的多任务智能处理器 - Google Patents
一种基于混合计算架构的多任务智能处理器 Download PDFInfo
- Publication number
- CN117271145B CN117271145B CN202311561946.0A CN202311561946A CN117271145B CN 117271145 B CN117271145 B CN 117271145B CN 202311561946 A CN202311561946 A CN 202311561946A CN 117271145 B CN117271145 B CN 117271145B
- Authority
- CN
- China
- Prior art keywords
- task
- computing
- tasks
- data
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000013506 data mapping Methods 0.000 claims abstract description 21
- 230000002093 peripheral effect Effects 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 65
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 241001442055 Vipera berus Species 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
Abstract
本发明公开了一种基于混合计算架构的多任务智能处理器,属于存内计算技术领域。该处理器包括任务分配和控制电路、计算电路、存储电路、通信和外设电路;当处理器级联为阵列时,还基于任务分解器和任务分配器提出了使多种AI算法同时运行的数据映射方法。本发明处理器通过结合存内计算和传统CMOS计算的混合计算架构,增强了计算架构的通用性,能够同时支持多种AI算法并提高计算效率;此外,还在多任务智能处理器的基础上,进一步提出了使多种AI算法同时运行的数据映射方法,实现多类不同规模算法的高效率部署。
Description
技术领域
本发明属于存内计算技术领域,具体涉及一种基于混合计算架构的多任务智能处理器。
背景技术
近年来,基于深度学习的智能AI应用对算力的需求不断攀升,传统的基于冯诺依曼架构的处理器中频繁的数据访存导致系统性能的急剧下降。为解决上述问题,将计算和存储相结合的存内计算技术逐步兴起并得到广泛研究,通过在存储单元中完成计算,可以避免处理器中计算单元和存储单元间频繁的数据搬移,极大地缓解了数据访存带来的存储墙和功耗墙问题。然而,受限于存储介质和技术问题,存内计算单元的存储容量是十分有限的。所以,当前的存内计算虽然避免了部分数据搬移问题,但仍需要频繁的片外数据访存,以完成存内计算单元的数据更新,保证系统的运行。另一方面,受限于存内计算的计算方式,对于部分算法,其加速效果较于传统的神经网络加速器并不理想。
另一方面,实际应用场景下,往往需要多种AI算法的协同来完成指定的任务,即智能处理器需要同时支持多种AI算法。因此,支持多种AI算法的多任务处理器成为一个重要的研究方向。
基于现有存内计算技术的处理器仍存在的存储墙和功耗墙的问题,实现基于混合计算架构的处理器可以进一步缓解上述问题。此外,支持多任务算法可以进一步提高智能处理器的性能和通用性。
发明内容
针对现有技术存在的不足,本发明提供了一种基于混合计算架构的多任务智能处理器。通过结合存内计算(CIM)和传统CMOS计算(NPU)的混合计算架构,增强了计算架构的通用性,能够同时支持多种AI算法并提高计算效率。此外,还在多任务智能处理器的基础上,进一步提出了使多种AI算法同时运行的数据映射方法,实现多类不同规模算法的高效率部署。
本发明采用的技术方案如下:
一种基于混合计算架构的多任务智能处理器,其特征在于,包含任务分配和控制电路、计算电路、存储电路、通信和外设电路。
所述任务分配和控制电路,包括配置存储模块、任务分配模块、全局控制模块,用于实现多种AI算法任务的任务分配和不同计算任务之间的调度。
所述配置存储模块,用于存储多种AI算法任务的配置信息,所述配置信息包括算子种类、所属AI算法、所属计算模块。
所述任务分配模块,用于根据配置存储模块中的配置信息,调取存储电路中的图像数据和权重参数并传送给计算电路;同时,还用于感知计算模块的运行状态,完成不同计算任务之间的调度。
所述计算电路,包括NPU计算核、CIM计算核、共享加法树单元、CPU处理核单元,用于接收所述任务分配模块传送的图像数据和权重参数并完成指定的计算任务。
所述存储电路,采用片上非易失存储器,用于实现数据的存储和更新,包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据。
所述通信和外设电路,包括总线电路和外设电路,实现内部通信及内外数据交互。
优选地,所述总线电路,用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信。
所述外设电路,采用UART接口实现将计算电路的计算结果数据输出;采用IIC接口和SPI接口实现将外部输入的图像数据、权重参数传输至存储电路进行存储。
优选地,所述NPU计算核,由多个NPU单元构成,用于完成基于乘加运算的计算任务。
所述CIM计算核,由多个CIM单元构成,用于通过矩阵乘法的方式完成计算任务。
所述共享加法树单元,用于完成通道间加法和累加计算任务。
所述CPU处理核单元,用于完成特殊逻辑处理任务,所述特殊逻辑处理任务包括激活、池化。
优选地,所述NPU计算核、CIM计算核、共享加法树均配置了动态开关,在计算过程中,令未被分配计算任务的单元处于关闭状态,以节省功耗。
优选地,所述NPU单元为CMOS计算电路;所述CIM单元为存内计算电路;所述共享加法树单元为多级可配置加法树。
优选地,为了尽可能地提高计算过程中硬件利用率,所述多任务智能处理器支持混合数据流,包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流,其中W表示宽度方向、H表示高度方向、C表示通道方向。
本发明还提出了一种适用于多个级联多任务智能处理器的数据映射方法,使待处理的多种AI算法任务能够同时运行,实现多类不同规模算法的高效率部署;所述数据映射方法基于任务分解器和任务分配器实现;具体地:
所述任务分解器,包括任务分析模块、算子分析模块、任务分解模块,用于将多种AI算法任务分解成若干个计算任务;避免相同任务的重复计算和资源的消耗,以减少处理时间。
所述任务分析模块,对多种AI算法任务包含的计算任务进行判断分类,提取重复且不包含复杂算子的计算任务信息,得到任务分析结果。
所述算子分析模块,将多种AI算法任务中包含的算子分类为线性算子和非线性算子,提取重复的线性算子信息,以及复杂非线性算子信息,得到算子分析结果。
所述任务分解模块,根据任务分析结果和算子分析结果,将多种AI算法任务分解成若干个计算任务,以实现后续的任务分配。
所述任务分配器,包括数据/功能分析模块、任务状态分析模块,用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行,还用于感知各多任务智能处理器的运行状态,动态调整任务分配。
所述数据/功能分析模块,用于避免数据重复搬移和计算任务的重复计算;采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器;采用一对多数据映射模式,将处理数据相同但实现功能不同的计算任务分配至同一处理器;实现高并行计算和避免冗余数据映射。
所述任务状态分析模块,用于实时感知各多任务智能处理器的运行状态,调整任务分配,提高计算利用率。
本发明提供了一种结合传统CMOS计算电路和存内计算电路的混合计算架构的多任务智能处理器,缓解计算中存在的功耗墙问题,提高计算的效率。其中,NPU单元具有更高的计算灵活性和可重配性;CIM单元具有更高的计算能效和吞吐量。本发明还提供了一种适用于多个级联多任务智能处理器的数据映射方法,利用任务分解器和任务分配器将细粒度计算任务分配至NPU计算核,而将粗粒度计算任务分配至CIM计算核,从而实现计算灵活性和计算高效率并行的兼顾,最大化计算效率。
本发明具有以下有益效果:
(1)低功耗:对于NPU计算核、CIM计算核、共享加法树均配置了动态开关。在计算过程中,对于未被分配计算任务的计算单元会处于关闭状态,以节省功耗。
(2)高硬件利用率:为了尽可能地提高计算过程中硬件利用率,硬件支持混合数据流。包括WHC数据流、WCH数据流、CHW数据流;其中,当特征图较小时,适合采用WHC数据流方向;当特征图较大时,适合采用WCH数据流方向;当特征图较小但通道数较大时,适合采用CHW数据流方向,典型的如全连接层。此外,还支持权重静止数据流和输入静止数据流两种数据流;其中,对于2D标准卷积、深度可分离卷积、逐元素乘/加法操作,适合采用权重静止数据流;对于全连接层,适合采用输入静止数据流。
(3)高计算效率:对于多种AI算法任务,涵盖多种计算各异的算子;在硬件实现中,为了尽可能发挥硬件效率,通过级联多个多任务智能处理器,并提供了数据映射方法,将不同种类的算子分配至不同的多任务智能处理器,实现计算灵活性和计算高效率并行的兼顾,最大化计算效率。
附图说明
图1为实施例中多任务智能处理器的结构框图。
图2为实施例中任务分解器的分解示意图。
图3为实施例中任务分配器的分配示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施例和附图,对本发明技术方案作进一步地详细描述。
如图1所示,本实施例的基于混合计算架构的多任务智能处理器,包含任务分配和控制电路、计算电路、存储电路、通信和外设电路。
所述任务分配和控制电路,包括配置存储模块、任务分配模块、全局控制模块,用于实现多种AI算法任务的任务分配和不同计算任务之间的调度。
所述配置存储模块,用于存储多种AI算法任务的配置信息,所述配置信息包括算子种类、所属AI算法、所属计算模块。
所述任务分配模块,用于根据配置存储模块中的配置信息,调取存储电路中的图像数据和权重参数并传送给计算电路;同时,还用于感知计算模块的运行状态,完成不同计算任务之间的调度。
所述计算电路,包括NPU计算核、CIM计算核、共享加法树单元、CPU处理核单元,用于接收所述任务分配模块传送的图像数据和权重参数并完成指定的计算任务。
其中,所述NPU计算核,由多个NPU单元构成,用于完成基于乘加运算的计算任务,包括2D标准卷积、深度可分离卷积、逐元素乘法、逐元素加法等。
所述CIM计算核,由多个CIM单元构成,用于通过矩阵乘法的方式完成计算任务。
所述共享加法树单元,采用多级可配置加法树完成通道间加法和累加计算任务。
所述CPU处理核单元,用于完成特殊逻辑处理任务,所述特殊逻辑处理任务包括激活、池化,包括ReLU、PReLU、Sigmoid、Max pooling等。
所述NPU单元为CMOS计算电路;所述CIM单元为存内计算电路;所述NPU计算核、CIM计算核、共享加法树均配置了动态开关,在计算过程中,令未被分配计算任务的单元处于关闭状态,以节省功耗。
所述存储电路,采用片上非易失存储器实现数据的存储和更新,包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据。
所述通信和外设电路,包括总线电路和外设电路,实现内部通信及内外数据交互。
所述总线电路,用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信。
所述外设电路,采用UART接口实现将计算电路的计算结果数据输出;采用IIC接口和SPI接口实现将外部输入的图像数据、权重参数传输至存储电路进行存储。
为了尽可能地提高计算过程中硬件利用率,所述多任务智能处理器支持混合数据流,包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流,其中W表示宽度方向、H表示高度方向、C表示通道方向。
当多个多任务智能处理器级联构成阵列使用时,本实施例还提出了一种数据映射方法,使待处理的多种AI算法任务能够同时运行,实现多类不同规模算法的高效率部署;所述数据映射方法基于任务分解器和任务分配器实现;具体地:
所述任务分解器,如图2所示,包括任务分析模块、算子分析模块、任务分解模块,用于将多种AI算法任务分解成若干个计算任务;避免相同任务的重复计算和资源的消耗,以减少处理时间。
所述任务分析模块,对多种AI算法任务包含的计算任务进行判断分类,提取重复且不包含复杂算子的计算任务信息,得到任务分析结果。
所述算子分析模块,将多种AI算法任务中包含的算子分类为线性算子(如MAC、ReLU等)和非线性算子(如Softmax、Sigmoid等),提取所有重复的线性算子信息,以及复杂非线性算子信息,得到算子分析结果。所述复杂算子、复杂非线性算子的分类为本领域人员共识,也可以由技术人员根据应用需求人为设定。
所述任务分解模块,根据任务分析结果和算子分析结果,将多种AI算法任务分解成若干个计算任务,以实现后续的任务分配。例如,去噪和超分辨率智能算法,它们均可分解为采样任务、预处理任务、特征提取任务和后处理任务,通过任务分解器实现这样的分解就能避免不必要的硬件资源开销。
所述任务分配器,如图3所示,包括数据/功能分析模块、任务状态分析模块,用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行,还用于感知各多任务智能处理器的运行状态,动态调整任务分配。
所述数据/功能分析模块,用于避免数据重复搬移和计算任务的重复计算;采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器;采用一对多数据映射模式,将处理数据相同但实现功能不同的计算任务分配至同一处理器;例如,将参数不同的卷积操作放入至第一多任务智能处理器,将相同数据的不同操作放入至第二多任务智能处理器。由于第一多任务智能处理器中的计算任务相同,可以大幅度提升第一多任务智能处理器的并行能力;由于第二多任务智能处理器中计算的数据相同,只需进行一次存储空间寻址、数据搬移和数据映射;实现高并行计算和避免冗余数据映射。
所述任务状态分析模块,用于实时感知各多任务智能处理器的运行状态,调整任务分配,提高计算利用率。
Claims (6)
1.一种基于混合计算架构的多任务智能处理器,其特征在于,包含任务分配和控制电路、计算电路、存储电路、通信和外设电路;
所述任务分配和控制电路,包括配置存储模块、任务分配模块、全局控制模块,用于实现多种AI算法任务的任务分配和不同计算任务之间的调度;
所述配置存储模块,用于存储多种AI算法任务的配置信息,所述配置信息包括算子种类、所属AI算法、所属计算模块;
所述任务分配模块,用于根据配置存储模块中的配置信息,调取存储电路中的图像数据和权重参数并传送给计算电路;同时,还用于感知计算模块的运行状态,完成不同计算任务之间的调度;
所述计算电路,包括NPU计算核、CIM计算核、共享加法树单元、CPU处理核单元,用于接收所述任务分配模块传送的图像数据和权重参数并完成指定的计算任务;
所述存储电路,采用片上非易失存储器,用于实现数据的存储和更新,包括存储外部输入的图像数据和权重参数、计算过程中产生的中间数据以及计算结果数据;
所述通信和外设电路,包括总线电路和外设电路,实现内部通信及内外数据交互;
当多个多任务智能处理器级联为阵列时,采用数据映射方法使待处理的多种AI算法任务能够同时运行,实现多类不同规模算法的高效率部署;所述数据映射方法基于任务分解器和任务分配器实现;具体地:
所述任务分解器,包括任务分析模块、算子分析模块、任务分解模块,用于将多种AI算法任务分解成若干个计算任务;
所述任务分析模块,对多种AI算法任务包含的计算任务进行判断分类,提取重复且不包含复杂算子的计算任务信息,得到任务分析结果;
所述算子分析模块,将多种AI算法任务中包含的算子分类为线性算子和非线性算子,提取重复的线性算子信息,以及复杂非线性算子信息,得到算子分析结果;
所述任务分解模块,根据任务分析结果和算子分析结果,将多种AI算法任务分解成若干个计算任务,以实现后续的任务分配;
所述任务分配器,包括数据/功能分析模块、任务状态分析模块,用于将所述任务分解器得到的若干个计算任务分配至各多任务智能处理器中实现多种AI算法的同时运行,还用于感知各多任务智能处理器的运行状态,动态调整任务分配;
所述数据/功能分析模块,采用多对一数据映射模式将处理数据不同但实现功能相同的计算任务分配至同一处理器;采用一对多数据映射模式,将处理数据相同但实现功能不同的计算任务分配至同一处理器;实现高并行计算和避免冗余数据映射;
所述任务状态分析模块,用于实时感知各多任务智能处理器的运行状态,调整任务分配,提高计算利用率。
2.如权利要求1所述的一种基于混合计算架构的多任务智能处理器,其特征在于,所述总线电路,用于实现任务分配和控制电路、计算电路、存储电路和外设电路之间的通信;
所述外设电路,采用UART接口实现将计算电路的计算结果数据输出;采用IIC接口和SPI接口实现将外部输入的图像数据、权重参数传输至存储电路进行存储。
3.如权利要求1所述的一种基于混合计算架构的多任务智能处理器,其特征在于,所述NPU计算核,由多个NPU单元构成,用于完成基于乘加运算的计算任务;
所述CIM计算核,由多个CIM单元构成,用于通过矩阵乘法的方式完成计算任务;
所述共享加法树单元,用于完成通道间加法和累加计算任务;
所述CPU处理核单元,用于完成特殊逻辑处理任务,所述特殊逻辑处理任务包括激活、池化。
4.如权利要求3所述的一种基于混合计算架构的多任务智能处理器,其特征在于,所述NPU计算核、CIM计算核、共享加法树均配置了动态开关,在计算过程中,令未被分配计算任务的单元处于关闭状态。
5.如权利要求4所述的一种基于混合计算架构的多任务智能处理器,其特征在于,所述NPU单元为CMOS计算电路;所述CIM单元为存内计算电路;所述共享加法树单元为多级可配置加法树。
6.如权利要求5所述的一种基于混合计算架构的多任务智能处理器,其特征在于,所述多任务智能处理器支持混合数据流,包括WHC数据流、WCH数据流、CHW数据流、权重静止数据流、输入静止数据流,其中W表示宽度方向、H表示高度方向、C表示通道方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561946.0A CN117271145B (zh) | 2023-11-22 | 2023-11-22 | 一种基于混合计算架构的多任务智能处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311561946.0A CN117271145B (zh) | 2023-11-22 | 2023-11-22 | 一种基于混合计算架构的多任务智能处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271145A CN117271145A (zh) | 2023-12-22 |
CN117271145B true CN117271145B (zh) | 2024-02-27 |
Family
ID=89208410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311561946.0A Active CN117271145B (zh) | 2023-11-22 | 2023-11-22 | 一种基于混合计算架构的多任务智能处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271145B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814973A (zh) * | 2020-07-18 | 2020-10-23 | 福州大学 | 一种适用于神经常微分方程网络计算的存内计算系统 |
CN115456155A (zh) * | 2022-09-15 | 2022-12-09 | 浙江大学 | 一种多核存算处理器架构 |
WO2023087227A1 (zh) * | 2021-11-18 | 2023-05-25 | 华为技术有限公司 | 数据处理装置及方法 |
CN116167424A (zh) * | 2023-04-23 | 2023-05-26 | 深圳市九天睿芯科技有限公司 | 基于cim的神经网络加速器、方法、存算处理系统与设备 |
CN116756079A (zh) * | 2023-08-21 | 2023-09-15 | 电子科技大学 | 一种基于大容量非易失存储的多任务智能处理器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562212B2 (en) * | 2019-09-09 | 2023-01-24 | Qualcomm Incorporated | Performing XNOR equivalent operations by adjusting column thresholds of a compute-in-memory array |
CN114450699A (zh) * | 2019-09-24 | 2022-05-06 | 阿里巴巴集团控股有限公司 | 由处理单元实现的方法、可读存储介质和处理单元 |
-
2023
- 2023-11-22 CN CN202311561946.0A patent/CN117271145B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814973A (zh) * | 2020-07-18 | 2020-10-23 | 福州大学 | 一种适用于神经常微分方程网络计算的存内计算系统 |
WO2023087227A1 (zh) * | 2021-11-18 | 2023-05-25 | 华为技术有限公司 | 数据处理装置及方法 |
CN115456155A (zh) * | 2022-09-15 | 2022-12-09 | 浙江大学 | 一种多核存算处理器架构 |
CN116167424A (zh) * | 2023-04-23 | 2023-05-26 | 深圳市九天睿芯科技有限公司 | 基于cim的神经网络加速器、方法、存算处理系统与设备 |
CN116756079A (zh) * | 2023-08-21 | 2023-09-15 | 电子科技大学 | 一种基于大容量非易失存储的多任务智能处理器 |
Non-Patent Citations (3)
Title |
---|
FinFET/GAAFET纳电子学与人工智能芯片的新进展(续);赵正平;《微纳电子技术》;第59卷(第4期);209-305 * |
Layerweaver: Maximizing Resource Utilization of Neural Processing Units via Layer-Wise Scheduling;Young H. Oh 等;《2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA)》;584-597 * |
面向存算一体阵列加速器的性能评估平台;何增;《中国优秀硕士学位论文全文数据库 信息科技辑》;I137-17 * |
Also Published As
Publication number | Publication date |
---|---|
CN117271145A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341127B (zh) | 基于OpenCL标准的卷积神经网络加速方法 | |
CN110458279B (zh) | 一种基于fpga的二值神经网络加速方法及系统 | |
US20230153621A1 (en) | Arithmetic unit for deep learning acceleration | |
CN110197111B (zh) | 用于深度学习引擎的加速单元 | |
CN110516801B (zh) | 一种高吞吐率的动态可重构卷积神经网络加速器 | |
US11442786B2 (en) | Computation method and product thereof | |
CN107679621B (zh) | 人工神经网络处理装置 | |
CN107704922A (zh) | 人工神经网络处理装置 | |
CN107679620A (zh) | 人工神经网络处理装置 | |
Park et al. | 9.5 A 6K-MAC feature-map-sparsity-aware neural processing unit in 5nm flagship mobile SoC | |
KR20190091858A (ko) | Cnn과 rnn이 하나의 고성능 저전력 칩으로 집적된 이기종 프로세서 구조 | |
CN106951926A (zh) | 一种混合架构的深度学习系统方法及装置 | |
EP3869412A1 (en) | Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks | |
Wang et al. | A low-latency sparse-winograd accelerator for convolutional neural networks | |
CN101833439B (zh) | 基于分合思想的并行计算硬件结构 | |
Li et al. | Dynamic dataflow scheduling and computation mapping techniques for efficient depthwise separable convolution acceleration | |
CN110705716A (zh) | 一种多模型并行训练方法 | |
US20200242455A1 (en) | Neural network computation device and method | |
CN111783966A (zh) | 一种深度卷积神经网络硬件并行加速器的硬件装置及方法 | |
CN109992742A (zh) | 一种信号处理方法及装置 | |
CN108647780B (zh) | 面向神经网络的可重构池化操作模块结构及其实现方法 | |
CN117271145B (zh) | 一种基于混合计算架构的多任务智能处理器 | |
Liu et al. | CASSANN-v2: A high-performance CNN accelerator architecture with on-chip memory self-adaptive tuning | |
CN110796244B (zh) | 用于人工智能设备的核心计算单元处理器及加速处理方法 | |
CN111199276A (zh) | 数据处理方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |