CN115169541A - 一种张量、向量、标量计算加速和数据调度系统 - Google Patents
一种张量、向量、标量计算加速和数据调度系统 Download PDFInfo
- Publication number
- CN115169541A CN115169541A CN202210986917.8A CN202210986917A CN115169541A CN 115169541 A CN115169541 A CN 115169541A CN 202210986917 A CN202210986917 A CN 202210986917A CN 115169541 A CN115169541 A CN 115169541A
- Authority
- CN
- China
- Prior art keywords
- data
- tensor
- vector
- scalar
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17306—Intercommunication techniques
- G06F15/17331—Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
Abstract
一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;多端口本地数据存储单元:用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信;在线远程存储访问单元:用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
Description
技术领域
本发明涉及高性能计算技术领域,尤其涉及一种张量、向量、标量计算加速和数据调度系统。
背景技术
当前,神经网络模型规模、训练/推理数据集越来越大,所需算力急剧增加,计算复杂度也不断提升。神经网络处理器既需不断提升训练和推理的算力,又要提供更加灵活的可控性。另一方面,科学计算领域也具有各种类型计算,例如爱因斯坦标记法。爱因斯坦标记法包含丰富的标量、向量、张量操作类型,支持广泛的科学计算表示。
现有技术中,英伟达的GPU(包括V100、A100等)存在以下缺陷:同类型的算力无法并行运行(例如必须做完BF16类型的运算,才能进行FP32类型的运算),限制了性能的进一步开发;由于商业考量,只提供CUDA编程接口,没有为程序员提供更底层和更详细的控制接口,限制了程序员算法设计。
谷歌的TPU(包括TPUv1、TPUv2、TPUv3等)存在以下缺陷:张量、向量、标量计算单元实现为大规模粗粒度的部件,对某些类型计算效率低;TPU处理器,尤其是训练类TPU未上市,同时,没有为程序员提供更底层和更详细的控制接口,限制了程序员算法设计。
综上所述,现有技术对于复杂算法中张量计算、向量计算、标量计算的算力和数据调度灵活性较差,无法发挥神经网络处理器的最佳性能。
发明内容
本发明的目的是为了解决上述现有技术存在的问题,提供一种张量、向量、标量计算加速和数据调度系统,其能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
本发明的目的是通过以下技术方案实现的:
一种张量、向量、标量计算加速和数据调度系统,包括:
标量处理单元:用于取指和译码,以及把不同类型的控制指令发送给相应功能单元;同时完成标量类型数据的调度和计算;
向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;
张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;
多端口本地数据存储单元:包含多个读写端口和多个子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;
多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信,还用于支持在线的数据转置;
在线远程存储访问单元:用于实现片上或片间的不同张量/向量/标量处理单元间数据的直接交互。
本发明通过统一取指、译码,并把不同类型的控制指令发送给相应的功能单元,各个单元完全异步,从而大大提高算力。并且,系统中设置有多端口本地数据存储单元和多个访问单元,使得片上或片间的处理单元之间能够实现灵活的数据调度。
作为本发明优选,所述标量处理单元包括:
标量计算单元,通过指令缓存获取指令,通过读写指令直接访问内存,并完成标量类型数据的计算;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过标量数据本地存储访问单元访问本地的多端口本地存储单元;
标量数据本地存储访问单元,实现所述标量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述向量处理单元包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过向量数据本地存储访问单元访问本地的多端口本地存储单元;
向量数据本地存储访问单元,实现所述向量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述张量处理单元包括:
张量计算单元,用于接收来自标量处理单元的张量指令,完成标量类型数据的计算;
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他张量/向量/标量处理单元的张量缓存及多端口本地数据存储单元;通过张量数据本地存储访问单元访问本地的多端口本地存储单元;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述张量计算单元包括多个微核,所述微核是张量计算单元的最基本计算单元,完成与应用算法相关不可再分的计算。
作为本发明优选,每个所述子存储单元具有独立的读写端口,以及独立的全局编址。
作为本发明优选,各个所述子存储单元之间的地址连续。
本发明的优点是:可以有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
附图说明
图1为本发明一种张量、向量、标量计算加速和数据调度系统的示意图;
图2为本发明中标量处理单元的示意图;
图3为本发明中向量处理单元的示意图;
图4为本发明中标量/向量处理单元的示意图;
图5为本发明中张量处理单元的示意图;
图6为本发明中张量计算单元的示意图;
图7为本发明中多端口本地数据存储单元的示意图。
具体实施方式
下面将结合附图和具体实施方式对本发明做进一步的详细说明。
为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的说明:
TVSU:Tensor,Vector, Scalar processing Unit,张量/向量/标量处理单元。
SU:Scalar processing Unit,标量处理单元。
VU:Vector processing Unit,向量处理单元。
TU:Tensor processing Unit,张量处理单元。
mDMA:multi-function Direct Memory Access,多功能直接内存访问。
mmpLDM:marionette multi-port Local Data Memory,提线木偶式多端口本地数据存储。
onRMA:on-line Remote Memory Access,在线远程存储访问。
sLMA:scalar Local Memory Access,标量数据本地存储访问。
vLMA:vector Local Memory Access,向量数据本地存储访问。
tLMA:tensor Local Memory Access,张量数据本地存储访问。
ICache:Instruction Cache,指令缓存。
本发明提供一种张量、向量、标量计算加速和数据调度系统,整个系统由分布在片上或片间的多个TVSU构成,每个TVSU的结构如图1所示,包括:
标量处理单元:具有简单的多取指、多译码、多发射指令流水线;支持RISC类型指令集,用于实现张量/向量/标量处理单元的取指、译码,以及把不同类型的控制指令发送给其他功能单元(例如向量处理单元、张量处理单元、mmpLDM、mDMA、onRMA等),还用于与内存、本地数据存储单元以及其他TVSU的标量寄存器和本地数据存储单元进行数据交互;
向量处理单元:用于接收来自标量处理单元的向量指令,完全非阻塞式运行,向量指令包含在指令集中;还用于与本地数据存储单元以及其他TVSU的向量寄存器和本地数据存储单元进行数据交互;
张量处理单元:用于接收来自标量处理单元的张量指令,完全非阻塞式运行,张量指令包含在指令集中;还用于与本地数据存储单元以及其他张量/向量/标量处理单元的张量缓存和本地数据存储单元进行数据交互;同时,某些应用算法还可以利用张量处理单元计算模式,完成更加复杂的计算,例如HASH算法、蒙哥马利模乘算法等;
多端口本地数据存储单元mmpLDM:如图7所示,包含多个读写端口和多个内部子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,每个端口在同一时刻只能对应该存储单元内部单个子存储单元;其他单元可通过某一端口操作某一子存储单元;该存储单元的各子存储单元统一管理,既可独立调度又可统一调度。
整个单元用于实现神经网络模型训练和推理、爱因斯坦标记法等计算的各种优化算法,例如不同子存储单元之间可实现双缓冲/多缓冲功能,支持软件/算法流水;不同子存储单元存储不同类型的数据,例如LDM1存储模型参数、LDM2存储训练/推理数据、LDM3存储训练/推理结果。并可支持不同处理单元对自身处理数据的同时读写;每个读写mmpLDM的功能单元(如标量处理单元、向量处理单元、张量处理单元、多功能直接内存访问单元、在线远程存储访问单元)都具有一个mmpLDM端口,mmpLDM也可通过onRMA被其他TVSU访问。
同时,每个子存储单元都具有独立的读/写端口,每个子存储单元具有独立的全局编址,通过数据地址来区分对不同子存储单元的访问。并且,各个子存储单元之间的地址连续,例如mmpLDM具有两个子存储单元LDM1、LDM2,LDM1容量128KB、LDM2容量128KB,LDM1的起始地址为0xB00000000000,LDM1的起始地址为0xB00000020000,因此,可把所有子存储单元作为连续的控制使用。当然,各个子存储单元的容量可不同。
在线远程存储访问单元onRMA:可直接读写其他标量处理单元、向量处理单元或张量处理单元中的各类寄存器、缓存、mmpLDM,以及直接读写本地的各类寄存器、缓存、mmpLDM,实现不同标量处理单元、向量处理单元、张量处理单元内数据的直接交互。
多功能直接内存访问单元mDMA:用于数据转置、广播、多播等功能,支持粗粒度的数据重用;支持内存到TVSU之间的数据通信,包括广播、多播、单播、数据转置等数据;数据访问模式与TVSU之间的算法相互配合,利用不同层次的数据重用性,例如,广播使得数据在所有TVSU之间重用,多播使得数据在某些TVSU之间重用。支持在线的数据转置功能,降低了片上的数据转置开销、提升数据访问性能。
具体的,如图2所示,所述标量处理单元SU包括:
标量计算单元,通过ICache获取指令,指令集包含对所有部件的控制指令;使用Load/Store指令通过gLS单元直接访问内存,并完成标量类型数据的计算,其计算性能与向量处理单元和张量处理单元相匹配;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他TVSU的向量寄存器及mmpLDM;通过标量数据本地存储访问单元访问本地的mmpLDM;
标量数据本地存储访问单元sLMA,实现所述标量寄存器与mmpLDM之间的数据交互,并完成各种数据类型的转换,例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等。
整个标量处理单元SU的启动、暂停、停止等控制由神经网络处理器的控制核心完成,其访问数据有以下三种方式:第一种是使用Load/Store指令通过gLS单元直接访问内存;第二种是通过sLMA访问mmpLDM;第三种是通过onRMA访问其他TVSU的标量寄存器和mmpLDM,以配合整个系统实现数据的灵活调度。
如图3所示,所述向量处理单元VU具体包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算,计算性能与张量处理单元相匹配,例如向量处理单元的计算性能是张量处理单元的1/32或者1/16等,支持神经网络模型训练和推理、爱因斯坦标记法运算等;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他TVSU的向量寄存器及mmpLDM;通过标量数据本地存储访问单元访问本地的mmpLDM;通过向量数据本地存储访问单元访问本地的mmpLDM;
向量数据本地存储访问单元vLMA,用于实现向量寄存器到mmpLDM的交互,同时完成各种数据类型的转换,例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等;还用于完成数据的重新布局,例如把mmpLDM中连续的16个半字重新放置到向量寄存器的16个分量中。
整个向量处理单元VU的启动、暂停、停止等控制由神经网络处理器的控制核心完成,其访问数据有以下两种方式:第一种是通过vLMA访问mmpLDM;第二种是通过onRMA访问其他TVSU的向量寄存器和mmpLDM,以配合整个系统实现数据的灵活调度。并且,在实际运用中,可以将向量处理单元VU耦合到标量处理单元SU中,形成SVU,具体结构如图4所示。
如图5所示,所述向量处理单元TU具体包括:
张量计算单元,用于接收来自标量处理单元的张量指令,用于完成张量计算,或者张量形式的计算(例如HASH算法、蒙哥马利模乘算法等),充分利用数据和计算的空间局部性和时间局部性;支持神经网络模型训练和推理、爱因斯坦标记法运算等,计算性能与向量处理单元相匹配,例如张量处理单元的计算性能是向量处理单元的32倍或者16倍等;张量计算单元中的最基本计算单元是微核,如图6所示,用于完成与应用算法相关不可再分的计算,例如张量处理单元中的乘加部件、或者HASH算法的轮函数、模乘等。
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他TVSU的张量缓存和mmpLDM;通过张量数据本地存储访问单元访问本地的mmpLDM;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
整个张量处理单元TU的启动、暂停、停止等控制由神经网络处理器的控制核心完成;其访问数据有以下两种方式:第一种是通过tLMA访问mmpLDM;第二种是通过onRMA访问其他TVSU的张量缓冲和mmpLDM,以配合整个系统实现数据的灵活调度。
最后,本发明可作为更大计算部件的基本单元,构建性能更高的计算部件和神经网络处理器。
以上所述,仅为本发明较佳的具体实施方式,该具体实施方式是基于本发明整体构思下的一种实现方式,而且本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种张量、向量、标量计算加速和数据调度系统,其特征在于,包括:
标量处理单元:用于取指和译码,以及把不同类型的控制指令发送给相应功能单元;同时完成标量类型数据的调度和计算;
向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;
张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;
多端口本地数据存储单元:包含多个读写端口和多个子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;
多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信,还用于支持在线的数据转置;
在线远程存储访问单元:用于实现片上或片间的不同张量/向量/标量处理单元间数据的直接交互。
2.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述标量处理单元包括:
标量计算单元,通过指令缓存获取指令,通过读写指令直接访问内存,并完成标量类型数据的计算;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过标量数据本地存储访问单元访问本地的多端口本地存储单元;
标量数据本地存储访问单元,实现所述标量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
3.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述向量处理单元包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过向量数据本地存储访问单元访问本地的多端口本地存储单元;
向量数据本地存储访问单元,实现所述向量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
4.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述张量处理单元包括:
张量计算单元,用于接收来自标量处理单元的张量指令,完成张量类型数据的计算;
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他张量/向量/标量处理单元的张量缓存及多端口本地数据存储单元;通过张量数据本地存储访问单元访问本地的多端口本地存储单元;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
5.根据权利要求4所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述张量计算单元包括多个微核,所述微核是张量计算单元的最基本计算单元,完成与应用算法相关不可再分的计算。
6.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,每个所述子存储单元具有独立的读写端口,以及独立的全局编址。
7.根据权利要求6所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,各个所述子存储单元之间的地址连续。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986917.8A CN115169541A (zh) | 2022-08-17 | 2022-08-17 | 一种张量、向量、标量计算加速和数据调度系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986917.8A CN115169541A (zh) | 2022-08-17 | 2022-08-17 | 一种张量、向量、标量计算加速和数据调度系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115169541A true CN115169541A (zh) | 2022-10-11 |
Family
ID=83479684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210986917.8A Pending CN115169541A (zh) | 2022-08-17 | 2022-08-17 | 一种张量、向量、标量计算加速和数据调度系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115169541A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759294A (zh) * | 2022-11-25 | 2023-03-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-17 CN CN202210986917.8A patent/CN115169541A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115759294A (zh) * | 2022-11-25 | 2023-03-07 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115759294B (zh) * | 2022-11-25 | 2023-10-24 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230020571A1 (en) | Method and apparatus for distributed and cooperative computation in artificial neural networks | |
CN102750133B (zh) | 支持simd的32位三发射的数字信号处理器 | |
Jones et al. | GRIP—a high-performance architecture for parallel graph reduction | |
US7694084B2 (en) | Ultra low power ASIP architecture | |
CN109857460A (zh) | 基于risc-v架构的矩阵卷积计算方法、接口、协处理器及系统 | |
CN104699631A (zh) | Gpdsp中多层次协同与共享的存储装置和访存方法 | |
WO2022161318A1 (zh) | 数据处理装置、方法及相关产品 | |
CN102402415B (zh) | 一种动态可重构阵列内数据缓存的装置及方法 | |
CN112580792B (zh) | 一种神经网络多核张量处理器 | |
CN102073543A (zh) | 通用处理器与图形处理器融合系统及其融合方法 | |
CN113869504B (zh) | 一种基于忆阻器可编程神经网络加速器 | |
WO2022142479A1 (zh) | 一种硬件加速器、数据处理方法、系统级芯片及介质 | |
CN111860773B (zh) | 处理装置和用于信息处理的方法 | |
CN111105023A (zh) | 数据流重构方法及可重构数据流处理器 | |
CN107562549B (zh) | 基于片上总线和共享内存的异构众核asip架构 | |
WO2023092620A1 (zh) | 基于risc-v的三维互联众核处理器架构及其工作方法 | |
CN112232517B (zh) | 一种人工智能加速引擎和人工智能处理器 | |
CN114356840A (zh) | 具有存内/近存计算模块的SoC系统 | |
CN115169541A (zh) | 一种张量、向量、标量计算加速和数据调度系统 | |
CN114035916A (zh) | 计算图的编译、调度方法及相关产品 | |
CN112486903A (zh) | 可重构处理单元、可重构处理单元阵列及其运行方法 | |
CN101021831A (zh) | 面向科学计算的64位流处理器芯片体系结构 | |
Stepchenkov et al. | Recurrent data-flow architecture: features and realization problems | |
CN113157638A (zh) | 一种低功耗存储器内计算处理器和处理运算方法 | |
CN117234720A (zh) | 动态可配置的存算融合数据缓存结构、处理器及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |