CN115169541A - 一种张量、向量、标量计算加速和数据调度系统 - Google Patents

一种张量、向量、标量计算加速和数据调度系统 Download PDF

Info

Publication number
CN115169541A
CN115169541A CN202210986917.8A CN202210986917A CN115169541A CN 115169541 A CN115169541 A CN 115169541A CN 202210986917 A CN202210986917 A CN 202210986917A CN 115169541 A CN115169541 A CN 115169541A
Authority
CN
China
Prior art keywords
data
tensor
vector
scalar
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210986917.8A
Other languages
English (en)
Inventor
郝子宇
李宏亮
陈左宁
王迪
王吉军
谭弘兵
吴智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN202210986917.8A priority Critical patent/CN115169541A/zh
Publication of CN115169541A publication Critical patent/CN115169541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17331Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

一种张量、向量、标量计算加速和数据调度系统,属于高性能计算技术领域。本发明包括:标量处理单元:用于取指和译码,以及发送指令;向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;多端口本地数据存储单元:用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信;在线远程存储访问单元:用于实现不同处理单元间数据的直接交互。本发明能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。

Description

一种张量、向量、标量计算加速和数据调度系统
技术领域
本发明涉及高性能计算技术领域,尤其涉及一种张量、向量、标量计算加速和数据调度系统。
背景技术
当前,神经网络模型规模、训练/推理数据集越来越大,所需算力急剧增加,计算复杂度也不断提升。神经网络处理器既需不断提升训练和推理的算力,又要提供更加灵活的可控性。另一方面,科学计算领域也具有各种类型计算,例如爱因斯坦标记法。爱因斯坦标记法包含丰富的标量、向量、张量操作类型,支持广泛的科学计算表示。
现有技术中,英伟达的GPU(包括V100、A100等)存在以下缺陷:同类型的算力无法并行运行(例如必须做完BF16类型的运算,才能进行FP32类型的运算),限制了性能的进一步开发;由于商业考量,只提供CUDA编程接口,没有为程序员提供更底层和更详细的控制接口,限制了程序员算法设计。
谷歌的TPU(包括TPUv1、TPUv2、TPUv3等)存在以下缺陷:张量、向量、标量计算单元实现为大规模粗粒度的部件,对某些类型计算效率低;TPU处理器,尤其是训练类TPU未上市,同时,没有为程序员提供更底层和更详细的控制接口,限制了程序员算法设计。
综上所述,现有技术对于复杂算法中张量计算、向量计算、标量计算的算力和数据调度灵活性较差,无法发挥神经网络处理器的最佳性能。
发明内容
本发明的目的是为了解决上述现有技术存在的问题,提供一种张量、向量、标量计算加速和数据调度系统,其能够有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
本发明的目的是通过以下技术方案实现的:
一种张量、向量、标量计算加速和数据调度系统,包括:
标量处理单元:用于取指和译码,以及把不同类型的控制指令发送给相应功能单元;同时完成标量类型数据的调度和计算;
向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;
张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;
多端口本地数据存储单元:包含多个读写端口和多个子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;
多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信,还用于支持在线的数据转置;
在线远程存储访问单元:用于实现片上或片间的不同张量/向量/标量处理单元间数据的直接交互。
本发明通过统一取指、译码,并把不同类型的控制指令发送给相应的功能单元,各个单元完全异步,从而大大提高算力。并且,系统中设置有多端口本地数据存储单元和多个访问单元,使得片上或片间的处理单元之间能够实现灵活的数据调度。
作为本发明优选,所述标量处理单元包括:
标量计算单元,通过指令缓存获取指令,通过读写指令直接访问内存,并完成标量类型数据的计算;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过标量数据本地存储访问单元访问本地的多端口本地存储单元;
标量数据本地存储访问单元,实现所述标量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述向量处理单元包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过向量数据本地存储访问单元访问本地的多端口本地存储单元;
向量数据本地存储访问单元,实现所述向量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述张量处理单元包括:
张量计算单元,用于接收来自标量处理单元的张量指令,完成标量类型数据的计算;
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他张量/向量/标量处理单元的张量缓存及多端口本地数据存储单元;通过张量数据本地存储访问单元访问本地的多端口本地存储单元;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
作为本发明优选,所述张量计算单元包括多个微核,所述微核是张量计算单元的最基本计算单元,完成与应用算法相关不可再分的计算。
作为本发明优选,每个所述子存储单元具有独立的读写端口,以及独立的全局编址。
作为本发明优选,各个所述子存储单元之间的地址连续。
本发明的优点是:可以有效提升复杂算法中张量计算、向量计算、标量计算的算力和数据调度的灵活性。
附图说明
图1为本发明一种张量、向量、标量计算加速和数据调度系统的示意图;
图2为本发明中标量处理单元的示意图;
图3为本发明中向量处理单元的示意图;
图4为本发明中标量/向量处理单元的示意图;
图5为本发明中张量处理单元的示意图;
图6为本发明中张量计算单元的示意图;
图7为本发明中多端口本地数据存储单元的示意图。
具体实施方式
下面将结合附图和具体实施方式对本发明做进一步的详细说明。
为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的说明:
TVSU:Tensor,Vector, Scalar processing Unit,张量/向量/标量处理单元。
SU:Scalar processing Unit,标量处理单元。
VU:Vector processing Unit,向量处理单元。
TU:Tensor processing Unit,张量处理单元。
mDMA:multi-function Direct Memory Access,多功能直接内存访问。
mmpLDM:marionette multi-port Local Data Memory,提线木偶式多端口本地数据存储。
onRMA:on-line Remote Memory Access,在线远程存储访问。
sLMA:scalar Local Memory Access,标量数据本地存储访问。
vLMA:vector Local Memory Access,向量数据本地存储访问。
tLMA:tensor Local Memory Access,张量数据本地存储访问。
ICache:Instruction Cache,指令缓存。
本发明提供一种张量、向量、标量计算加速和数据调度系统,整个系统由分布在片上或片间的多个TVSU构成,每个TVSU的结构如图1所示,包括:
标量处理单元:具有简单的多取指、多译码、多发射指令流水线;支持RISC类型指令集,用于实现张量/向量/标量处理单元的取指、译码,以及把不同类型的控制指令发送给其他功能单元(例如向量处理单元、张量处理单元、mmpLDM、mDMA、onRMA等),还用于与内存、本地数据存储单元以及其他TVSU的标量寄存器和本地数据存储单元进行数据交互;
向量处理单元:用于接收来自标量处理单元的向量指令,完全非阻塞式运行,向量指令包含在指令集中;还用于与本地数据存储单元以及其他TVSU的向量寄存器和本地数据存储单元进行数据交互;
张量处理单元:用于接收来自标量处理单元的张量指令,完全非阻塞式运行,张量指令包含在指令集中;还用于与本地数据存储单元以及其他张量/向量/标量处理单元的张量缓存和本地数据存储单元进行数据交互;同时,某些应用算法还可以利用张量处理单元计算模式,完成更加复杂的计算,例如HASH算法、蒙哥马利模乘算法等;
多端口本地数据存储单元mmpLDM:如图7所示,包含多个读写端口和多个内部子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,每个端口在同一时刻只能对应该存储单元内部单个子存储单元;其他单元可通过某一端口操作某一子存储单元;该存储单元的各子存储单元统一管理,既可独立调度又可统一调度。
整个单元用于实现神经网络模型训练和推理、爱因斯坦标记法等计算的各种优化算法,例如不同子存储单元之间可实现双缓冲/多缓冲功能,支持软件/算法流水;不同子存储单元存储不同类型的数据,例如LDM1存储模型参数、LDM2存储训练/推理数据、LDM3存储训练/推理结果。并可支持不同处理单元对自身处理数据的同时读写;每个读写mmpLDM的功能单元(如标量处理单元、向量处理单元、张量处理单元、多功能直接内存访问单元、在线远程存储访问单元)都具有一个mmpLDM端口,mmpLDM也可通过onRMA被其他TVSU访问。
同时,每个子存储单元都具有独立的读/写端口,每个子存储单元具有独立的全局编址,通过数据地址来区分对不同子存储单元的访问。并且,各个子存储单元之间的地址连续,例如mmpLDM具有两个子存储单元LDM1、LDM2,LDM1容量128KB、LDM2容量128KB,LDM1的起始地址为0xB00000000000,LDM1的起始地址为0xB00000020000,因此,可把所有子存储单元作为连续的控制使用。当然,各个子存储单元的容量可不同。
在线远程存储访问单元onRMA:可直接读写其他标量处理单元、向量处理单元或张量处理单元中的各类寄存器、缓存、mmpLDM,以及直接读写本地的各类寄存器、缓存、mmpLDM,实现不同标量处理单元、向量处理单元、张量处理单元内数据的直接交互。
多功能直接内存访问单元mDMA:用于数据转置、广播、多播等功能,支持粗粒度的数据重用;支持内存到TVSU之间的数据通信,包括广播、多播、单播、数据转置等数据;数据访问模式与TVSU之间的算法相互配合,利用不同层次的数据重用性,例如,广播使得数据在所有TVSU之间重用,多播使得数据在某些TVSU之间重用。支持在线的数据转置功能,降低了片上的数据转置开销、提升数据访问性能。
具体的,如图2所示,所述标量处理单元SU包括:
标量计算单元,通过ICache获取指令,指令集包含对所有部件的控制指令;使用Load/Store指令通过gLS单元直接访问内存,并完成标量类型数据的计算,其计算性能与向量处理单元和张量处理单元相匹配;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他TVSU的向量寄存器及mmpLDM;通过标量数据本地存储访问单元访问本地的mmpLDM;
标量数据本地存储访问单元sLMA,实现所述标量寄存器与mmpLDM之间的数据交互,并完成各种数据类型的转换,例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等。
整个标量处理单元SU的启动、暂停、停止等控制由神经网络处理器的控制核心完成,其访问数据有以下三种方式:第一种是使用Load/Store指令通过gLS单元直接访问内存;第二种是通过sLMA访问mmpLDM;第三种是通过onRMA访问其他TVSU的标量寄存器和mmpLDM,以配合整个系统实现数据的灵活调度。
如图3所示,所述向量处理单元VU具体包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算,计算性能与张量处理单元相匹配,例如向量处理单元的计算性能是张量处理单元的1/32或者1/16等,支持神经网络模型训练和推理、爱因斯坦标记法运算等;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他TVSU的向量寄存器及mmpLDM;通过标量数据本地存储访问单元访问本地的mmpLDM;通过向量数据本地存储访问单元访问本地的mmpLDM;
向量数据本地存储访问单元vLMA,用于实现向量寄存器到mmpLDM的交互,同时完成各种数据类型的转换,例如单精度浮点与半精度浮点的转换、单精度浮点与半字整形的转换等;还用于完成数据的重新布局,例如把mmpLDM中连续的16个半字重新放置到向量寄存器的16个分量中。
整个向量处理单元VU的启动、暂停、停止等控制由神经网络处理器的控制核心完成,其访问数据有以下两种方式:第一种是通过vLMA访问mmpLDM;第二种是通过onRMA访问其他TVSU的向量寄存器和mmpLDM,以配合整个系统实现数据的灵活调度。并且,在实际运用中,可以将向量处理单元VU耦合到标量处理单元SU中,形成SVU,具体结构如图4所示。
如图5所示,所述向量处理单元TU具体包括:
张量计算单元,用于接收来自标量处理单元的张量指令,用于完成张量计算,或者张量形式的计算(例如HASH算法、蒙哥马利模乘算法等),充分利用数据和计算的空间局部性和时间局部性;支持神经网络模型训练和推理、爱因斯坦标记法运算等,计算性能与向量处理单元相匹配,例如张量处理单元的计算性能是向量处理单元的32倍或者16倍等;张量计算单元中的最基本计算单元是微核,如图6所示,用于完成与应用算法相关不可再分的计算,例如张量处理单元中的乘加部件、或者HASH算法的轮函数、模乘等。
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他TVSU的张量缓存和mmpLDM;通过张量数据本地存储访问单元访问本地的mmpLDM;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
整个张量处理单元TU的启动、暂停、停止等控制由神经网络处理器的控制核心完成;其访问数据有以下两种方式:第一种是通过tLMA访问mmpLDM;第二种是通过onRMA访问其他TVSU的张量缓冲和mmpLDM,以配合整个系统实现数据的灵活调度。
最后,本发明可作为更大计算部件的基本单元,构建性能更高的计算部件和神经网络处理器。
以上所述,仅为本发明较佳的具体实施方式,该具体实施方式是基于本发明整体构思下的一种实现方式,而且本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种张量、向量、标量计算加速和数据调度系统,其特征在于,包括:
标量处理单元:用于取指和译码,以及把不同类型的控制指令发送给相应功能单元;同时完成标量类型数据的调度和计算;
向量处理单元:用于接收来自标量处理单元的向量指令,完成向量类型数据的调度和计算;
张量处理单元:用于接收来自标量处理单元的张量指令,完成张量类型数据的调度和计算;
多端口本地数据存储单元:包含多个读写端口和多个子存储单元,读写端口之间、子存储单元之间、以及读写端口与子存储单元之间相互独立,用于存储不同处理单元处理的数据,并支持不同处理单元对自身处理数据的同时读写;
多功能直接内存访问单元:用于实现内存到各个功能单元之间的数据通信,还用于支持在线的数据转置;
在线远程存储访问单元:用于实现片上或片间的不同张量/向量/标量处理单元间数据的直接交互。
2.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述标量处理单元包括:
标量计算单元,通过指令缓存获取指令,通过读写指令直接访问内存,并完成标量类型数据的计算;
标量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过标量数据本地存储访问单元访问本地的多端口本地存储单元;
标量数据本地存储访问单元,实现所述标量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
3.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述向量处理单元包括:
向量计算单元,用于接收来自标量处理单元的向量指令,完成向量类型数据的计算;
向量寄存器,通过所述在线远程存储访问单元,访问片上或片间的其他张量/向量/标量处理单元的向量寄存器及多端口本地数据存储单元;通过向量数据本地存储访问单元访问本地的多端口本地存储单元;
向量数据本地存储访问单元,实现所述向量寄存器与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
4.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述张量处理单元包括:
张量计算单元,用于接收来自标量处理单元的张量指令,完成张量类型数据的计算;
张量缓存,通过所述在线远程存储访问单元访问片上或片间的其他张量/向量/标量处理单元的张量缓存及多端口本地数据存储单元;通过张量数据本地存储访问单元访问本地的多端口本地存储单元;
张量数据本地存储访问单元,实现所述张量缓存与多端口本地存储单元之间的数据交互,并完成各种数据类型的转换。
5.根据权利要求4所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,所述张量计算单元包括多个微核,所述微核是张量计算单元的最基本计算单元,完成与应用算法相关不可再分的计算。
6.根据权利要求1所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,每个所述子存储单元具有独立的读写端口,以及独立的全局编址。
7.根据权利要求6所述的一种张量、向量、标量计算加速和数据调度系统,其特征在于,各个所述子存储单元之间的地址连续。
CN202210986917.8A 2022-08-17 2022-08-17 一种张量、向量、标量计算加速和数据调度系统 Pending CN115169541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210986917.8A CN115169541A (zh) 2022-08-17 2022-08-17 一种张量、向量、标量计算加速和数据调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210986917.8A CN115169541A (zh) 2022-08-17 2022-08-17 一种张量、向量、标量计算加速和数据调度系统

Publications (1)

Publication Number Publication Date
CN115169541A true CN115169541A (zh) 2022-10-11

Family

ID=83479684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210986917.8A Pending CN115169541A (zh) 2022-08-17 2022-08-17 一种张量、向量、标量计算加速和数据调度系统

Country Status (1)

Country Link
CN (1) CN115169541A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759294A (zh) * 2022-11-25 2023-03-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759294A (zh) * 2022-11-25 2023-03-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN115759294B (zh) * 2022-11-25 2023-10-24 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20230020571A1 (en) Method and apparatus for distributed and cooperative computation in artificial neural networks
CN102750133B (zh) 支持simd的32位三发射的数字信号处理器
Jones et al. GRIP—a high-performance architecture for parallel graph reduction
US7694084B2 (en) Ultra low power ASIP architecture
CN109857460A (zh) 基于risc-v架构的矩阵卷积计算方法、接口、协处理器及系统
CN104699631A (zh) Gpdsp中多层次协同与共享的存储装置和访存方法
WO2022161318A1 (zh) 数据处理装置、方法及相关产品
CN102402415B (zh) 一种动态可重构阵列内数据缓存的装置及方法
CN112580792B (zh) 一种神经网络多核张量处理器
CN102073543A (zh) 通用处理器与图形处理器融合系统及其融合方法
CN113869504B (zh) 一种基于忆阻器可编程神经网络加速器
WO2022142479A1 (zh) 一种硬件加速器、数据处理方法、系统级芯片及介质
CN111860773B (zh) 处理装置和用于信息处理的方法
CN111105023A (zh) 数据流重构方法及可重构数据流处理器
CN107562549B (zh) 基于片上总线和共享内存的异构众核asip架构
WO2023092620A1 (zh) 基于risc-v的三维互联众核处理器架构及其工作方法
CN112232517B (zh) 一种人工智能加速引擎和人工智能处理器
CN114356840A (zh) 具有存内/近存计算模块的SoC系统
CN115169541A (zh) 一种张量、向量、标量计算加速和数据调度系统
CN114035916A (zh) 计算图的编译、调度方法及相关产品
CN112486903A (zh) 可重构处理单元、可重构处理单元阵列及其运行方法
CN101021831A (zh) 面向科学计算的64位流处理器芯片体系结构
Stepchenkov et al. Recurrent data-flow architecture: features and realization problems
CN113157638A (zh) 一种低功耗存储器内计算处理器和处理运算方法
CN117234720A (zh) 动态可配置的存算融合数据缓存结构、处理器及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination