CN101833441B - 并行向量处理引擎结构 - Google Patents

并行向量处理引擎结构 Download PDF

Info

Publication number
CN101833441B
CN101833441B CN 201010162350 CN201010162350A CN101833441B CN 101833441 B CN101833441 B CN 101833441B CN 201010162350 CN201010162350 CN 201010162350 CN 201010162350 A CN201010162350 A CN 201010162350A CN 101833441 B CN101833441 B CN 101833441B
Authority
CN
China
Prior art keywords
unit
vector processing
instruction
level
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010162350
Other languages
English (en)
Other versions
CN101833441A (zh
Inventor
王东琳
谢少林
尹志刚
林啸
张志伟
闫寒
薛晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Silang Technology Co ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN 201010162350 priority Critical patent/CN101833441B/zh
Publication of CN101833441A publication Critical patent/CN101833441A/zh
Application granted granted Critical
Publication of CN101833441B publication Critical patent/CN101833441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种并行向量处理引擎结构,该结构包括局部存储器、总线控制器、向量处理单元和通信同步单元,其中,该局部存储器由多个存储块组成,每个存储块独立运行,且每个存储块作为一从设备通过总线与该总线控制器连接,该向量处理单元与该通信同步单元均作为一主设备通过该总线控制器连接。本发明提供的并行向量处理引擎结构,能够优化向量计算,提高了芯片的数字信号处理能力。

Description

并行向量处理引擎结构
技术领域
本发明涉及数字信号处理芯片架构技术领域,特别是一种并行向量处理引擎(Vector Processing Engine,VPE)结构,应用于高性能计算系统中芯片的向量寄存器资源、向量运算部件、并行流水线、并行总线和并行存储体系。
背景技术
在过去的四十年期间,DSP处理器得到了突飞猛进的发展。但DSP计算能力必须进一步提升才能满足当前应用需求。半导体工艺是DSP发展的基础,一直是DSP发展的最主要动力,过去DSP性能提升绝大部分来源于芯片工作频率的提高。但由于集成电路工艺和功耗的限制,主频提升的时代已经结束,必须依靠架构创新才能进一步提高处理器性能;但架构的优化只能针对特定应用领域,所以针对特定应用领域的领域处理器成为了今后DSP芯片的发展趋势。
在数字信号处理领域,存在大量向量计算,且数字信号中各个向量之间具有高度并行性。比如矩阵/向量之间的四则运算即为行向量或列向量之间的运算,而各行或列之间不存在相关性,可以同时计算;对于长序列的FIR算法,利用重叠保留法对输入数据进行分段,各段之间互不相关,可并行计算;而FFT变换也可通过调整,将长序列的一维FFT算法,分解成多个短序列的二维FFT变换,各个短序列之间不存在相关,可并行计算。
已有一些专利和文章讨论了向量处理器的指令集架构,但这些指令集都只讨论了向量的四则运算,没有针对数字信号处理算法进行分析和提取;同时,这些专利是在标量的基础上来讨论向量计算,利用标量的计算资源来实现向量计算,没有实现向量元素的并行计算,无法进一步利用向量数据内在并行性进行优化设计。
因此,并行向量计算是数字信号处理的内在特性,如能针对这一特性,设计一种并行向量处理引擎结构,将芯片元操作从标量计算提升为向量计算,必将极大地提高数字处理芯片整体计算性能。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种并行向量处理引擎结构,以提高数字处理芯片整体计算性能。
(二)技术方案
为达到上述目的,本发明采用的技术方案如下:
一种并行向量处理引擎结构,该结构包括局部存储器、总线控制器、向量处理单元和通信同步单元,其中,该局部存储器由多个存储块组成,每个存储块独立运行,且每个存储块作为一从设备通过总线与该总线控制器连接,该向量处理单元与该通信同步单元均作为一主设备通过该总线控制器连接。
上述方案中,所述局部存储器用于存放指令和数据,所述向量处理单元通过在该局部存储器中加载或存储指令实现数据的存取。
上述方案中,所述总线控制器用于将接收自某一主设备的请求根据特定规则路由至某一从设备,并且当多个主设备向同一从设备发出请求时,该总线控制根据特定规则对这些请求进行排序,同一时间内只向同一从设备转发一个请求。
上述方案中,所述向量处理单元包括四个并行执行的功能单元:标量计算单元、地址计算单元、程序控制单元和向量计算单元,其中标量计算单元用于执行所有标量计算指令,地址计算单元用于执行所有地址计算指令、加载或存储指令,程序控制单元用于执行所有跳转指令,向量计算单元用于执行所有向量计算指令。
上述方案中,所述向量处理单元采用变长流水级结构,其流水级分别是F1、F2、D、E0、E1、…、EK级,其中K为大于等于1的自然数;F1级为指令预取级,F2级为指令返回级,D级为解码级,E0至EK级为指令执行级,所述标量计算单元、地址计算单元、程序控制单元和向量计算单元这四个功能单元并行运行,共用F1级和F2级,但该四个功能单元在D、E0、E1、…、EK级分离,各个功能单元包括独立的运算部件和流水寄存器。
上述方案中,所述向量处理单元还包括一取指单元;
在F1级,该取指单元向指令总线发出取指请求和取指地址,指令总线返回状态信息,表明该次请求是否被接受,如果该次请求未被接受,该取指单元须在下一时钟周期重新发起请求;
在F2级,该取指单元从指令总线获取指令并将指令分发给标量计算单元、地址计算单元、程序控制单元和向量计算单元,如果当前周期指令总线没有返回指令,该取指单元须在接下来的时钟周期内等待指令返回;
在D级,标量计算单元、地址计算单元、程序控制单元和向量计算单元分别进行指令译码,地址计算单元、标量计算单元和向量计算单元读取源操作数,同时,地址计算单元完成地址计算;
在E0、E1、…、EK级,标量计算单元和向量计算单元进行计算,并将计算结果写回局部存储器。
上述方案中,所述地址计算单元在E0级向数据总线发出加载或存储请求及地址,数据总线返回状态信息,表明该次请求是否被接受,如果该次请求未被接受,流水级停顿,同时地址计算单元须在下一时钟周期重新发起请求;
地址计算单元在E1级读取数据总线操作结果,如果为加载指令,将返回数据写回寄存器,如果当前周期数据总线没有返回操作结果,流水级停顿,同时地址计算单元在接下来的周期内重新读取数据总线操作结果。
上述方案中,所述通信同步单元包括直接内存访问控制器和消息寄存器,用于实现该向量处理引擎结构与外界进行的数据交换,是该向量处理引擎结构与外部功能单元进行数据交换的唯一途径。
上述方案中,所述消息寄存器对向量处理单元和外部功能单元表现出不同的特性,对向量处理单元表现出通道的特性,对该并行向量处理引擎结构的外部功能单元表现为内存地址映射的寄存器。
上述方案中,所述向量处理单元通过通道指令读写以及查询消息寄存器,获得通信同步单元的状态,或者控制通信同步单元的行为;所述向量处理单元通过通道指令读取、写入和查询通道;该通道指令通过专用总线来传输数据和控制信号;
所述通信同步单元中的通道能够实现状态寄存器和控制寄存器的功能,且每个通道是可读通道或可写通道,不是可读写通道;
所述通信同步单元中每个通道均为32位宽,每个通道都有对应的通道号。
上述方案中,所述内存地址映射的寄存器仅针对该并行向量处理引擎结构的外部功能单元,一个通道有一个对应的内存地址映射的寄存器地址,内存地址映射的寄存器读写不会阻塞,且可读可写。
上述方案中,该通信同步单元还通过片上总线接口连接于片上网络。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1)、本发明提供的并行向量处理引擎结构,能够优化向量计算,提高了芯片的数字信号处理能力。
2)、本发明提供的并行向量处理引擎结构,其中的通信同步单元提供了统一的、灵活的数据通信和同步接口,利用该通信同步单元,可灵活连接多个向量处理引擎,在线程级实现多个向量并行计算。向量处理引擎也可作为独立的IP核集成到SoC设计中,加速芯片的向量处理能力。
3)、本发明提供的并行向量处理引擎结构,其中的向量计算单元(VCU)、标量计算单元(SCU)、地址产生单元(AGU)和程序控制单元(SEQ)并行执行,在进行向量计算的同时可进行标量计算。
4)、本发明提供的并行向量处理引擎结构,具有并行存储、并行传送、并行计算的特性,数据计算能力与数据搬运能力相匹配,在单位面积内具有最高的向量计算性能。
附图说明
图1是本发明提供的并行向量处理引擎结构的示意图;
图2是VPE之间互连的示意图;
图3是通道和MMR之间的关系示意图;
图4是程序员可见的寄存资源示意图;
图5是芯片硬件功能单元的示意图;
图6是指令执行流水线的示意图;
图7是向量指令并行实现的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提供的这种并行向量处理引擎结构,利用向量元素之间的并行性进行优化设计;同时,还针对数字信号处理领域中向量之间的并行性进行优化设计。
本发明提供的这种并行向量处理引擎结构,由上到下,在以下三个层次优化向量并行计算:
首先,在线程级优化并行计算。针对向量之间的并行性,将向量处理引擎设计成多核架构中的一个处理核,向量处理引擎中包含专用于多核通信和同步的功能单元,多个向量处理引擎互连构成多核向量处理芯片。
其次是指令级并行。针对向量处理专用指令集,在处理引擎内部定义标量计算单元、向量计算单元、加载/存储单元和程序控制单元,实现标量计算指令、向量计算指令、数据加载指令、程序控制指令的并行执行。
最后是指令内并行。在架构中定义向量运算单元,向量单元中运算部件个数与向量指令中的向量元素个数相同,运算部件并行计算各向量元素;对于向量元素之间存在相关性的横向求和指令,定义专用的横向求和网络,提高该类指令的执行速度。
如图1所示,图1是本发明提供的并行向量处理引擎结构的示意图,该结构优化第一层次并行计算,包括:局部存储器(Local Memory,LM)、总线控制器、向量处理单元(Vector Processing Uint,VPU)和通信同步单元(Communication & Synchronization Unit,CSU)。其中,该局部存储器由多个存储块组成,每个存储块独立运行,且每个存储块作为一从设备通过总线与该总线控制器连接,该向量处理单元与该通信同步单元均作为一主设备通过该总线控制器连接,该通信同步单元还通过片上总线接口连接于片上网络。
在该结构中,局部存储器(Local Memory,LM)用于存放指令和数据,向量处理单元通过在该局部存储器中加载或存储指令实现数据的存取。局部存储器(LM)由多个存储块组成,每个存储块独立运行,因此,局部存储器(LM)可并行处理多存储请求。每个存储块作为一从设备通过总线与总线控制器相连;同时,向量处理单元和通信同步单元各作为一主设备通过总线控制器相连。
总线控制器具有“路由”和“仲裁”功能。路由功能指总线控制器可将任一主设备所发出的请求根据特定规则转发给某一从设备。仲裁功能指当多个主设备向同一从设备发出请求时,总线控制根据特定规则对这些请求进行排序,同一时间内只向同一从设备转发一个请求。
通信同步单元(Communication & Synchronization Unit,CSU),用于向量处理引擎与外界进行数据交换,也是向量处理引擎与外部功能单元进行数据交换的唯一途径。
通信同步单元中包括直接内存访问控制器(DMAC)和消息寄存器,用于实现该向量处理引擎结构与外界进行的数据交换,是该向量处理引擎结构与该并行向量处理引擎结构的外部功能单元进行数据交换的唯一途径。消息寄存器对向量处理单元和外部功能单元表现出不同的特性。消息寄存器对向量处理单元表现出“通道”的特性,对外部功能单元表现为内存地址映射的寄存器(MMR);但两者在物理上为同一实体。向量处理单元通过通道指令读写以及查询消息寄存器,以获得通信同步单元状态或控制通信同步单元行为。因此,向量处理单元必须实现通道相关的三个指令,即:通道读取指令(RDCH)、通道写入指令(WRCH)和通道查询指令(RDCNT)。
通信同步单元中“通道”具有状态寄存器和控制寄存器的功能,但又不仅仅是状态寄存器或控制寄存器。每个通道只能是可读通道或可写通道,不存在读/写通道。通信同步单元中每个通道均为32位宽,并具有如下特性:
1)通道的读/写特性:每个通道只能是可读通道或可写通道,不存在读/写通道。向量处理单元通过专用的读通道指令(RDCH)读取消息,通过写通道指令(WRCH)向通道写入消息。
2)通道容量:每个通道都有预先设定的容量,表明该通道最多可以存放多少个消息。
3)消息个数:该特性表明通道中当前的消息个数,当通道可读时,通道消息个数表明通道中的已经有的消息个数;当通道可写时,通道内容个数表示消息的空位数。向量处理单元通过专用的通道记录个数读取指令(RDCNT)查询消息个数。
4)通道阻塞特性:读取或写入消息个数为0的通道会使指令阻塞。“指令阻塞”即该指令一直处于流水线的执行级,此时流水线停顿,处理器等待该指令完成。当读取通道阻塞时,读取指令一直等待该通道中消息个数大于0,然后读取通道中的消息后返回;当向通道写入记录阻塞时,写入指令一直等待通道有消息空位出现,然后向通道写入消息后返回。
每个通道都有对应的通道号。向量处理单元通过通道指令读取、写入和查询通道,通道指令(RDCH、WRCH、RDCNT)不同于Load/Store指令,并且通过专用的总线传输数据和控制信号。
在通信同步单元中,内存地址映射的寄存器(Memory MappedRegister,MMR)针对外部功能单元而主,其内容与通道基本相同,一个通道一般有一个对应的MMR地址,但通道和MMR有较大的区别。
首先,通道是对向量处理单元而言,而MMR是对向量处理引擎外部分的功能单元而言。其次通道需要专用的通道指令读写,而外部功能单元用Load/Store指令即可对MMR读写。另外,通道读写有可能会阻塞,而MMR读写永远不会阻塞,并且可读可写。最后,通道有内容个数的特性,可通过RDCNT指令查询该通道的消息个数,而MMR虽然也有消息个数属性,但不能直接通过读取该MMR获得MMR的消息个数,需要读取与该MMR对应消息个数寄存器来获得。因此,从外部功能单元看来,向量处理引擎实现上是一个地址映射的协处理器。图3表示了通道和MMR之间的关系。
向量处理引擎结构在第一层次优化了并行计算。芯片中可包括多个向量处理引擎,一个向量处理引擎负责一个或多个互不相关的向量计算,各个向量处理引擎并行运行;同时,利用通信同步单元单元中的DMA控制器和通道寄存器,芯片内多个向量处理引擎之间可以高效进行数据通信和同步,如图2所示,图2是VPE之间互连的示意图。
向量处理单元(Vector Processing Uint,VPU)为该并行向量处理引擎结构的核心功能单元。向量处理单元实现第二层次并行计算,即指令级并行。首先向量处理单元中对寄存器进行分组,程序员可见的寄存资源如图4所示。其中地址寄存器组用J表示,包含7个寄存器;程序控制寄存器组包含4个寄存器;标量寄存器组用R表示,包括15个寄存器;向量寄存器组用VR表示,包括15个寄存器,每个寄存器位宽为16×32比特,其中VR15为特殊寄存器,只能读取,不能写入,读取时其值固定为(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15)。二维矢量寄存器组一共包括16×16个元素,每个元素位宽为32比特。二维矢量寄存器组可以按行或按列读写,但一次只能读写一行或一列。Mask寄存器为特殊的寄存器,在执行向量指令时,表示哪些向量元素参与本次操作。
为实现指令级并行,向量处理单元中设置四个可以并行执行的功能单元:标量计算单元,地址计算单元,程序控制单元,向量计算单元,如图5所示。SCU为标量计算单元,执行所有标量计算指令;AGU为地址计算单元,执行所有地址计算指令和加载/存储指令;SEQ为程序控制单元,执行所有跳转指令;VCU为向量计算单元,执行所有向量计算指令。
向量处理单元采用变长流水级结构,其流水级分别是F1、F2、D、E0、E1、…、EK级,其中K为大于等于1的自然数。F1级为指令预取级,F2级为指令返回级,D级为解码级,E0至EK级为指令执行级。SCU、AGU、SEQ、VCU四个功能部件并行运行,共用F1、F2流水级,但四个功能单元在D、E0、E1、…、EK级分离,各个功能单元包括独立的运算部件和流水寄存器,流水线数也不尽相同,如图6所示。
在F1级,取指单元向指令总线发出取指请求和取指地址,同时,总线返回状态信息,表明该次请求是否被接受。如果该次请求末被接受,取指单元必须在下一时钟周期重新发起请求。
在F2级,取指单元从指令总线获取指令并将指令分发给四个功能单元(SCU、AGU、SEQ、VCU)。如果当前周期指令总线没有返回指令,取指单元必须在接下来的时钟周期内等待指令返回。
在D级,四个功能单元分别进行指令译码,地址产生单元(AGU)、标量计算单元(SCU)、向量计算单元(VCU)读取源操作数。同时,AGU单元完成地址计算。
在E0、E1、…、EK级,标量计算单元(SCU)和向量计算单元(VCU)进行计算,并将计算结果写回寄存器。
地址产生单元(AGU)在E0级向数据总线发出加载/存储请求和地址,同时,总线返回状态信息,表明该次请求是否被接受。如果该次请求末被接受,流水线停顿,同时AGU必须在下一时钟周期重新发起请求。
AGU在E1级读取数据总线操作结果,如果为加载指令,把返回数据写回寄存器。如果当前周期数据总线没有返回操作结果,流水线必须停顿,同时AGU在接下来的周期内重新读取总线操作结果。
向量计算单元VCU和地址产生单元AGU在第三层次优化并行计算,即在指令内优化向量并行计算。向量计算单元包括多个并行的高性能运算部件,可对多个向量元素进行并行计算;同时,VCU中设计专用的横向求和网络,优化横向求和以及点积相关指令。地址产生单元与并行总线相连,配合并行存储结构,可实现连续向量或离散向量的并行存储。因此,向量处理引擎具有并行存储、并行传送、并行计算的特性,优化了向量计算,如图7所示。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种并行向量处理引擎结构,其特征在于,该结构包括局部存储器、总线控制器、向量处理单元和通信同步单元,其中,该局部存储器由多个存储块组成,每个存储块独立运行,且每个存储块作为一从设备通过总线与该总线控制器连接,该向量处理单元与该通信同步单元均作为一主设备通过该总线控制器连接;
其中,所述向量处理单元包括四个并行执行的功能单元:标量计算单元、地址计算单元、程序控制单元和向量计算单元,其中标量计算单元用于执行所有标量计算指令,地址计算单元用于执行所有地址计算指令、加载或存储指令,程序控制单元用于执行所有跳转指令,向量计算单元用于执行所有向量计算指令。
2.根据权利要求1所述的并行向量处理引擎结构,其特征在于,所述局部存储器用于存放指令和数据,所述向量处理单元通过在该局部存储器中加载或存储指令实现数据的存取。
3.根据权利要求1所述的并行向量处理引擎结构,其特征在于,所述总线控制器用于将接收自某一主设备的请求根据特定规则路由至某一从设备,并且当多个主设备向同一从设备发出请求时,该总线控制根据特定规则对这些请求进行排序,同一时间内只向同一从设备转发一个请求。
4.根据权利要求1所述的并行向量处理引擎结构,其特征在于,所述向量处理单元采用变长流水级结构,其流水级分别是F1、F2、D、E0、E1、...、EK级,其中K为大于等于1的自然数;F1级为指令预取级,F2级为指令返回级,D级为解码级,E0至EK级为指令执行级,所述标量计算单元、地址计算单元、程序控制单元和向量计算单元这四个功能单元并行运行,共用F1级和F2级,但该四个功能单元在D、E0、E1、...、EK级分离,各个功能单元包括独立的运算部件和流水寄存器。
5.根据权利要求4所述的并行向量处理引擎结构,其特征在于,所述向量处理单元还包括一取指单元;
在F1级,该取指单元向指令总线发出取指请求和取指地址,指令总线返回状态信息,表明该次请求是否被接受,如果该次请求未被接受,该取指单元须在下一时钟周期重新发起请求;
在F2级,该取指单元从指令总线获取指令并将指令分发给标量计算单元、地址计算单元、程序控制单元和向量计算单元,如果当前周期指令总线没有返回指令,该取指单元须在接下来的时钟周期内等待指令返回;
在D级,标量计算单元、地址计算单元、程序控制单元和向量计算单元分别进行指令译码,地址计算单元、标量计算单元和向量计算单元读取源操作数,同时,地址计算单元完成地址计算;
在E0、E1、...、EK级,标量计算单元和向量计算单元进行计算,并将计算结果写回局部存储器。
6.根据权利要求5所述的并行向量处理引擎结构,其特征在于,所述地址计算单元在E0级向数据总线发出加载或存储请求及地址,数据总线返回状态信息,表明该次请求是否被接受,如果该次请求未被接受,流水级停顿,同时地址计算单元须在下一时钟周期重新发起请求;
地址计算单元在E1级读取数据总线操作结果,如果为加载指令,将返回数据写回寄存器,如果当前周期数据总线没有返回操作结果,流水级停顿,同时地址计算单元在接下来的周期内重新读取数据总线操作结果。
7.根据权利要求1所述的并行向量处理引擎结构,其特征在于,所述通信同步单元包括直接内存访问控制器和消息寄存器,用于实现该向量处理引擎结构与外界进行的数据交换,是该向量处理引擎结构与外部功能单元进行数据交换的唯一途径。
8.根据权利要求7所述的并行向量处理引擎结构,其特征在于,所述消息寄存器对向量处理单元和外部功能单元表现出不同的特性,对向量处理单元表现出通道的特性,对该并行向量处理引擎结构的外部功能单元表现为内存地址映射的寄存器。
9.根据权利要求8所述的并行向量处理引擎结构,其特征在于,
所述向量处理单元通过通道指令读写以及查询消息寄存器,获得通信同步单元的状态,或者控制通信同步单元的行为;所述向量处理单元通过通道指令读取、写入和查询通道;该通道指令通过专用总线来传输数据和控制信号;
所述通信同步单元中的通道能够实现状态寄存器和控制寄存器的功能,且每个通道是可读通道或可写通道,不是可读写通道;
所述通信同步单元中每个通道均为32位宽,每个通道都有对应的通道号。
10.根据权利要求8所述的并行向量处理引擎结构,其特征在于,所述内存地址映射的寄存器仅针对该并行向量处理引擎结构的外部功能单元,一个通道有一个对应的内存地址映射的寄存器地址,内存地址映射的寄存器读写不会阻塞,且可读可写。
11.根据权利要求1所述的并行向量处理引擎结构,其特征在于,该通信同步单元还通过片上总线接口连接于片上网络。
CN 201010162350 2010-04-28 2010-04-28 并行向量处理引擎结构 Active CN101833441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010162350 CN101833441B (zh) 2010-04-28 2010-04-28 并行向量处理引擎结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010162350 CN101833441B (zh) 2010-04-28 2010-04-28 并行向量处理引擎结构

Publications (2)

Publication Number Publication Date
CN101833441A CN101833441A (zh) 2010-09-15
CN101833441B true CN101833441B (zh) 2013-02-13

Family

ID=42717521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010162350 Active CN101833441B (zh) 2010-04-28 2010-04-28 并行向量处理引擎结构

Country Status (1)

Country Link
CN (1) CN101833441B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004672B (zh) * 2010-11-25 2012-12-05 中国人民解放军国防科学技术大学 一种可配置归约目标自增间隔的归约装置
CN102200964B (zh) * 2011-06-17 2013-05-15 孙瑞琛 基于并行处理的fft装置及其方法
CN102279818B (zh) * 2011-07-28 2013-09-25 中国人民解放军国防科学技术大学 支持有限共享的向量数据访存控制方法及向量存储器
CN102629238B (zh) * 2012-03-01 2014-10-29 中国人民解放军国防科学技术大学 支持向量条件访存的方法和装置
CN103218204B (zh) * 2013-04-19 2015-06-24 中国科学院自动化研究所 多模式地址产生装置
CN104504126B (zh) * 2014-12-31 2017-12-29 北京思朗科技有限责任公司 一种并行向量查表方法及装置
US10338920B2 (en) * 2015-12-18 2019-07-02 Intel Corporation Instructions and logic for get-multiple-vector-elements operations
CN111580865B (zh) * 2016-01-20 2024-02-27 中科寒武纪科技股份有限公司 一种向量运算装置及运算方法
CN111651205B (zh) * 2016-04-26 2023-11-17 中科寒武纪科技股份有限公司 一种用于执行向量内积运算的装置和方法
CN106709889A (zh) * 2017-01-09 2017-05-24 中国科学院自动化研究所 并行视频图像对比度增强方法和装置
CN107729990B (zh) * 2017-07-20 2021-06-08 上海寒武纪信息科技有限公司 支持离散数据表示的用于执行正向运算的装置及方法
CN107748674B (zh) * 2017-09-07 2021-08-31 中国科学院微电子研究所 面向比特粒度的信息处理系统
CN108874445A (zh) * 2017-10-30 2018-11-23 上海寒武纪信息科技有限公司 神经网络处理器及使用处理器执行向量点积指令的方法
CN108256589B (zh) * 2018-02-14 2022-01-28 北京火花日志科技有限公司 一种工业设备数据应用读写方法及装置
US12057109B2 (en) 2018-09-13 2024-08-06 Shanghai Cambricon Information Technology Co., Ltd. Information processing method and terminal device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1296844C (zh) * 2003-06-20 2007-01-24 上海奇码数字信息有限公司 数据传送方法和数据传送系统
KR100618817B1 (ko) * 2003-12-17 2006-08-31 삼성전자주식회사 소비 전력을 절감시키는 amba 버스 구조 시스템 및 그방법
CN101114269A (zh) * 2006-07-28 2008-01-30 深圳迈瑞生物医疗电子股份有限公司 多外设自主数据传输与存储方法
US7627744B2 (en) * 2007-05-10 2009-12-01 Nvidia Corporation External memory accessing DMA request scheduling in IC of parallel processing engines according to completion notification queue occupancy level

Also Published As

Publication number Publication date
CN101833441A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
CN101833441B (zh) 并行向量处理引擎结构
CN102446158B (zh) 多核处理器及多核处理器组
CN104699631B (zh) Gpdsp中多层次协同与共享的存储装置和访存方法
CN102073481B (zh) 多核dsp可重构专用集成电路系统
CN107590085B (zh) 一种具有多级缓存的动态可重构阵列数据通路及其控制方法
WO2000022508A2 (en) Forwarding paths and operand sharing in a digital signal processor
CN105183662A (zh) 一种无cache一致性协议的分布式共享片上存储架构
CN103744644A (zh) 采用四核结构搭建的四核处理器系统及数据交换方法
CN112799726A (zh) 数据处理装置、方法及相关产品
CN114297097B (zh) 一种众核可定义分布式共享存储结构
CN112527729A (zh) 一种紧耦合异构多核处理器架构及其处理方法
CN105393210A (zh) 用于模拟共享存储器结构的存储器单元
CN115907005A (zh) 一种基于片上网络的大规模全连接伊辛模型退火处理电路
CN103761072A (zh) 一种粗粒度可重构层次化的阵列寄存器文件结构
CN111079908A (zh) 片上网络数据处理方法、存储介质、计算机设备和装置
CN103235717B (zh) 具有多态指令集体系结构的处理器
CN117435251A (zh) 一种后量子密码算法处理器及其片上系统
Abdelhamid et al. Condensing an overload of parallel computing ingredients into a single architecture recipe
CN104750659A (zh) 一种基于自动布线互连网络的粗粒度可重构阵列电路
CN111653317A (zh) 基因比对加速装置、方法及系统
CN114116167B (zh) 一种面向高性能计算的区域自治异构众核处理器
Gottlieb et al. Clustered programmable-reconfigurable processors
US20240281395A1 (en) Embedded-Oriented Configurable Many-Core Processor
CN112486905B (zh) 可重构异构化pea互连方法
CN111078625B (zh) 片上网络处理系统和片上网络数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171207

Address after: 102412 Beijing City, Fangshan District Yan Village Yan Fu Road No. 1 No. 11 building 4 layer 402

Patentee after: Beijing Si Lang science and Technology Co.,Ltd.

Address before: 100080 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Shanghai Silang Technology Co.,Ltd.

Address before: 102412 room 402, 4th floor, building 11, No. 1, Yanfu Road, Yancun Town, Fangshan District, Beijing

Patentee before: Beijing Si Lang science and Technology Co.,Ltd.