CN112328536B - 一种多核处理器阵列的核间结构和多核处理器 - Google Patents
一种多核处理器阵列的核间结构和多核处理器 Download PDFInfo
- Publication number
- CN112328536B CN112328536B CN202011063336.4A CN202011063336A CN112328536B CN 112328536 B CN112328536 B CN 112328536B CN 202011063336 A CN202011063336 A CN 202011063336A CN 112328536 B CN112328536 B CN 112328536B
- Authority
- CN
- China
- Prior art keywords
- units
- computing
- edge
- core processor
- edge row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 claims description 11
- 101100136063 Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) PE11 gene Proteins 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 101100059990 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CHO2 gene Proteins 0.000 description 3
- 101000612837 Mus musculus Tetraspanin-7 Proteins 0.000 description 2
- 101100297830 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) OPI3 gene Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241001261630 Abies cephalonica Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
- G06F15/8038—Associative processors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multi Processors (AREA)
Abstract
本发明为一种多核处理器阵列的核间结构和多核处理器,多核处理器阵列为多个以二维行列排布的计算单元,多个第一加载单元在背离多核处理器阵列的方向上与第一边缘行的计算单元依次对应设置且连接,多个第二加载单元在背离多核处理器阵列的方向上与第二边缘列的计算单元依次对应设置且连接,多个第一存储单元在背离多核处理器阵列的方向上与第二边缘行的计算单元依次对应设置且连接,所述多个第二存储单元在背离所述多核处理器阵列的方向上与所述第二边缘列的计算单元依次对应设置且连接。减少多核处理器互联的面积和功耗开销。
Description
技术领域
本发明涉及多核处理器互联领域,具体为一种多核处理器阵列的核间结构和多核处理器。
背景技术
为了满足更高计算能效的需求,可重构计算越来越受到业界的关注。可重构计算不同于传统的通用处理器,其内部具有众多不同粒度的可重构PE单元,通过片上互联网络形成庞大计算阵列,可以并行的进行各种类型的逻辑、算术运算。由于各种应用需求复杂,现有多核处理器实现PE互联方案的互联面积和功耗开销大。
发明内容
本发明的目的是提供一种多核处理器阵列的核间结构和多核处理器,能够满足不同应用需求的多核处理器阵列的核间结构,同时可减少其互联的面积和功耗开销。
为了实现上述目的,采用的技术方案为:一种多核处理器阵列的核间结构,多核处理器阵列为多个以二维行列排布的计算单元;多核处理器阵列具有两个平行且位于多核处理器边缘的一个第一边缘行和一个第二边缘行。多核处理器阵列具有两个平行且位于多核处理器边缘的一个第一边缘列和一个第二边缘列。
第二边缘行两端分别与第一边缘列和第二边缘列的一个端部具有两个同用计算单元。
第二边缘行两端分别与第一边缘列和第二边缘列的另一个端部具有两个同用计算单元。
多核处理器阵列的核间结构包括:
多个第一加载单元,第一加载单元的数量与第一边缘行的计算单元数量相应。多个第一加载单元在背离多核处理器阵列的方向上与第一边缘行的计算单元依次对应设置且连接。
多个第二加载单元,第二加载单元的数量与第一边缘列的计算单元数量相应。多个第二加载单元在背离多核处理器阵列的方向上与第二边缘列的计算单元依次对应设置且连接。
多个第一存储单元,第一存储单元的数量与第二边缘行的计算单元数量相应。多个第一存储单元在背离多核处理器阵列的方向上与第二边缘行的计算单元依次对应设置且连接。
多个第二存储单元,第二存储单元的数量与第二边缘列的计算单元数量相应。多个第二存储单元在背离多核处理器阵列的方向上与第二边缘列的计算单元依次对应设置且连接。
本发明还提供一种多核处理器,其包括上述多核处理器阵列的核间结构。
与现有技术相比,本发明的技术效果为:由于第一加载单元、第二加载单元、第一存储单元和第二存储单元布设于多核处理器阵列外周,在图像或语音等应用场景中的常用算法中,根据特定场景的算法集合如fir、iir、fft、beamforming等常用算法中,能够选择第一加载单元、第二加载单元、第一存储单元和第二存储单元相对于多核处理器阵列的方位,并且实现第一加载单元和第二加载单元到计算单元、计算单元之间以及计算单元到一存储单元和第二存储单元的局部互联,相较于全互联来说减少互联的面积,节省一大部分的互联开销。
附图说明
图1为本发明Load阵列、sotre阵列和PEA阵列的第一种排布结构。
图2为本发明Load阵列、sotre阵列和PEA阵列的第二种排布结构。
图3为本发明Load阵列、sotre阵列和PEA阵列的第三种排布结构。
图4为本发明Load阵列、sotre阵列和PEA阵列的第四种排布结构。
图5为本发明第一加载单元与PEA的第一种互联结构。
图6为本发明第一加载单元与PEA的第二种互联结构。
图7为本发明第一加载单元与PEA第三种互联结构。
图8为本发明第一加载单元与PEA第四种互联结构。
图9为本发明PEA阵列内部PE间的互联结构。
图10为本发明PEA阵列与store阵列的互联结构。
图11为fir算法映射于多核处理器形成的互联结构。
具体实施结构
下面结合附图对本发明的具体实施结构进行描述。
本发明一实施例为一种多核处理器阵列的核间结构,多核处理器阵列为多个以二维行列排布的计算单元PE。多核处理器阵列具有两个平行且位于多核处理器边缘的一个第一边缘行和一个第二边缘行。多核处理器阵列具有两个平行且位于多核处理器边缘的一个第一边缘列和一个第二边缘列。
第一边缘行两端分别与第一边缘列和第二边缘列的一个端部具有两个同用计算单元PE。第二边缘行两端分别与第一边缘列和第二边缘列的另一个端部具有两个同用计算单元PE。
多核处理器阵列的核间结构包括:
多个第一加载单元,第一加载单元的数量与第一边缘行的计算单元数量相应。多个第一加载单元在背离多核处理器阵列的方向上与第一边缘行的计算单元PE依次对应设置且连接。
多个第二加载单元,第二加载单元的数量与第一边缘列的计算单元数量相应。多个第二加载单元在背离多核处理器阵列的方向上与第二边缘列的计算单元依次对应设置且连接。
多个第一存储单元,第一存储单元的数量与第二边缘行的计算单元数量相应。多个第一存储单元在背离多核处理器阵列的方向上与第二边缘行的计算单元依次对应设置且连接。
多个第二存储单元,第二存储单元的数量与第二边缘列的计算单元数量相应。多个第二存储单元在背离多核处理器阵列的方向上与第二边缘列的计算单元依次对应设置且连接。
本发明提出一种基于多核处理器阵列(PE Array,简称PEA)的核间结构,用于PE之间的数据流传输,实现数据流图(Data Flow Graph,DFG)在PEA上的并行计算。
本发明的互联结构主要包括三方面的互联。第一是存储单元load与PEA中计算单元PE互联,加载单元load是指从存储器memory加载数据到PEA,即通过load给PEA提供运算所需的数据。第二是PEA内部PE的互联。第三是PEA与store的互联,store是指将PEA运算完成的数据存储到memory,即通过store单元写回结果数据。
多核处理器阵列由load阵列、store阵列和PEA阵列组成,简而言之,就是指多个load、多个store、多个PE组合在一起。其中PEA阵列由M*N个PE单元组成,M、N分别为矩阵的行数和列数(N>=3, M>=4)。
Load阵列由M+N维的加载单元组成,可围绕PEA纵向或横向排布,一般位于数据驱动流的上游。
Store阵列由M+N维的存储单元组成,可围绕PEA纵向或横向排布,一般位于数据驱动流的下游,可放置在PEA阵列的上下左右四个方位。
由于第一加载单元、第二加载单元、第一存储单元和第二存储单元布设于多核处理器阵列外周,在图像或语音等应用场景中的常用算法中,根据特定场景的算法集合如fir、iir、fft、beamforming等常用算法中,能够选择第一加载单元、第二加载单元、第一存储单元和第二存储单元相对于多核处理器阵列的方位,并且实现load到PE、PE之间以及PE到store的互联均局部互联,相较于全互联来说减少互联的面积,节省一大部分的互联开销。
具体地,如图1至图4所示,Load阵列、sotre阵列和PEA阵列的排布结构。
图1中Load阵列位于PEA阵列的左上方、store阵列位于PEA阵列的右下方。
.图2中Load阵列位于PEA阵列的左下方、store阵列位于PEA阵列的右上方。
图3中Load阵列位于PEA阵列的右下方、store阵列位于PEA阵列的左上方
图4中Load阵列位于PEA阵列的右上方、store阵列位于PEA阵列的左下方。
本发明中,多个第一加载单元中的每一个分别与第一边缘列中的各计算单元连接,以使多个第一加载单元能够将其计算数据向第一边缘列中的计算单元传输。或者,多个第一加载单元中的每一个分别与第二边缘列中的各计算单元连接。以使多个第一加载单元能够将其计算数据向第二边缘列中的计算单元传输。
其中,多个第二加载单元中的每一个分别与第一边缘行中的各计算单元连接,以使多个第二加载单元能够将其计算数据向第一边缘行中的计算单元传输。或者,多个第二加载单元中的每一个分别与第二边缘行中的各计算单元连接。以使多个第二加载单元能够将其计算数据向第二边缘行中的计算单元传输。
其中,多个第一存储单元中的每一个分别与第一边缘行中的各计算单元连接,以使第一边缘行中每个计算单元能够将其计算结果数据分别发送到第一存储单元的计算单元中。或者,多个第一存储单元中的每一个分别与第二边缘行中的各计算单元连接。以使第二边缘行中每个计算单元能够将其计算结果数据分别发送到第一存储单元的计算单元中。
其中,多个第二存储单元中的每一个分别与第一边缘列中的各计算单元连接,以使第一边缘列中每个计算单元能够将其计算结果数据分别发送到第二存储单元的计算单元中。或者,多个第二存储单元中的每一个分别与第二边缘列中的各计算单元连接。以使第二边缘列中每个计算单元能够将其计算结果数据分别发送到第二存储单元的计算单元中。
其中,多个第一加载单元中的每一个分别与第一边缘行中各计算单元连接,以使多个第一加载单元能够将其计算数据向第一边缘行中的计算单元传输。
多个第二加载单元中的每一个分别与第一边缘列中各计算单元分别连接。以使多个第二加载单元能够将其计算数据向第一边缘列中的计算单元传输。
其中,多个第一存储单元中的每一个分别与第二边缘行中各计算单元连接,以使第二边缘行中的计算单元分别能够将其计算结果数据发送到多个第一存储单元。
多个第二存储单元中的每一个分别与第二边缘列中各计算单元分别连接,以使第二边缘列中的计算单元分别能够将其计算结果数据发送到多个第二存储单元。
如图5所示,下面说明第一加载单元Load11至load1n与PEA的互联结构。同理可知第二加载单元Load21至load2m与PEA的互联结构。
第一加载单元Load11至load1n与PEA第一边缘行的PE能够互联。第一加载单元load1至load1n中的每一个分别与第一边缘行中的各计算单元连接。以使多个第一加载单元能够将其计算数据向第一边缘行中的计算单元PE1至PE1n传输。
图6示出了第一加载单元Load11至load1n与PEA边界PE全互联,以及第一加载单元Load11至load1n与第一边缘列的PE对角互联,具体如下。
第一加载单元Load11至load1n的每一个分别与第一边缘行中的各计算单元PE连接,即图6中Load11分别与PE11至PE1n连接,Load12至Load1n与PE11至PE1n连接不再赘述。
第一加载单元Load11至load1n的每一个分别与第一边缘列中的一个计算单元PE对应连接。即图6中Load11与PE11连接,Load12与PE21连接,Load13与PE31连接,依次类推。
图7示出了第一加载单元Load11至load1n与PEA第一边缘行的PE一对一互联,即Load11与PE11连接,Load12与PE12连接,Load13与PE12连接,依次类推。
图8示出了第一加载单元Load与PEA第一边缘列PE一对一互联+对角互联,即Load11与PE11连接,Load12与PE12连接,Load13与PE12连接,依次类推。并且,Load12与PE21连接,Load12与PE21连接,Load13与PE31连接,依次类推。实现第一加载单元Load与PEA第一边缘列PE一对一互联+对角互联,这样数据流图映射至本发明中的多核处理器更加灵活,进而节省一部分的互联开销。
图9示出了PEA阵列内部互联,多核处理器阵列中除去第二边缘行和一个第二边缘行。一个第一边缘列和一个第二边缘列对应的计算单元PE为多个内部计算单元PE。在多个内部计算单元PE中,以一个计算单元PE22为中心分别与围绕其排布的计算单元PE连接。
核间结构还包括:在多个内部计算单元PE中,以一个计算单元PE22为中心分别与围绕其排布的计算单元PE以外的其他计算单元PEM2连接。
图10示出了PEA阵列与store阵列的互联结构。第一存储单元store与PEA第二边缘列PE一对一互联+对角互联,第二存储单元store2与PEA第二边缘行PE一对一互联。
即store11与PE1n连接,store12与PE2n连接,store13与PE32连接,依次类推。并且,store21与PEM1连接,store22与PEM1连接,store23与PEM1连接,依次类推。
本发明还提供一种多核处理器,其中,其如上的一种多核处理器阵列的核间结构。
图11示出了实际的算法映射至本发明提供的多核处理器中的互联方案。
在图像或语音等应用场景中的常用算法,如fir、iir、fft、beamforming等常用算法。比如为了满足fir算法的需求,Load、store的具体方位可根据fir算法的需求,确定的映射方案可以为图11所示,图11中load到PE、PE之间以及PE到store的互联均采用局部互联,load21与PE11连接,store22与PEM2连接,相较于全互联来说节省一大部分的互联开销。
Claims (10)
1.一种多核处理器阵列的核间结构,其特征在于,所述多核处理器阵列为多个以二维行列排布的计算单元;所述多核处理器阵列具有两个平行且位于所述多核处理器边缘的一个第一边缘行和一个第二边缘行;所述多核处理器阵列具有两个平行且位于所述多核处理器边缘的一个第一边缘列和一个第二边缘列;
所述第二边缘行两端分别与所述第一边缘列和所述第二边缘列的一个端部具有两个同用计算单元;
所述第二边缘行两端分别与所述第一边缘列和所述第二边缘列的另一个端部具有两个同用计算单元;
所述多核处理器阵列的核间结构包括:
多个第一加载单元,所述第一加载单元的数量与所述第一边缘行的计算单元数量相应;所述多个第一加载单元在背离所述多核处理器阵列的方向上与所述第一边缘行的计算单元依次对应设置且连接;
多个第二加载单元,所述第二加载单元的数量与所述第一边缘列的计算单元数量相应;所述多个第二加载单元在背离所述多核处理器阵列的方向上与所述第二边缘列的计算单元依次对应设置且连接;
多个第一存储单元,所述第一存储单元的数量与所述第二边缘行的计算单元数量相应;所述多个第一存储单元在背离所述多核处理器阵列的方向上与所述第二边缘行的计算单元依次对应设置且连接;
多个第二存储单元,所述第二存储单元的数量与所述第二边缘列的计算单元数量相应;所述多个第二存储单元在背离所述多核处理器阵列的方向上与所述第二边缘列的计算单元依次对应设置且连接。
2.如权利要求1所述的核间结构,其中,所述多个第一加载单元中的每一个分别与所述第一边缘列中的各计算单元连接;以使所述多个第一加载单元能够将其计算数据向所述第一边缘列中的计算单元传输;或
所述多个第一加载单元中的每一个分别与所述第二边缘列中的各计算单元连接;以使所述多个第一加载单元能够将其计算数据向所述第二边缘列中的计算单元传输。
3.如权利要求2所述的核间结构,其中,所述多个第二加载单元中的每一个分别与所述第一边缘行中的各计算单元连接;以使所述多个第二加载单元能够将其计算数据向所述第一边缘行中的计算单元传输;或
所述多个第二加载单元中的每一个分别与所述第二边缘行中的各计算单元连接;以使所述多个第二加载单元能够将其计算数据向所述第二边缘行中的计算单元传输。
4.如权利要求3所述的核间结构,其中,所述多个第一存储单元中的每一个分别与所述第一边缘行中的各计算单元连接;以使所述第一边缘行中每个计算单元能够将其计算结果数据分别发送到所述第一存储单元的计算单元中;或
所述多个第一存储单元中的每一个分别与所述第二边缘行中的各计算单元连接;以使所述第二边缘行中每个计算单元能够将其计算结果数据分别发送到所述第一存储单元的计算单元中。
5.如权利要求4所述的核间结构,其中,所述多个第二存储单元中的每一个分别与所述第一边缘列中的各计算单元连接;以使所述第一边缘列中每个计算单元能够将其计算结果数据分别发送到所述第二存储单元的计算单元中;或
所述多个第二存储单元中的每一个分别与所述第二边缘列中的各计算单元连接;以使所述第二边缘列中每个计算单元能够将其计算结果数据分别发送到所述第二存储单元的计算单元中。
6.如权利要求5所述的核间结构,其中,所述多个第一加载单元中的每一个分别与所述第一边缘行中各计算单元连接;以使所述多个第一加载单元能够将其计算数据向所述第一边缘行中的计算单元传输;
所述多个第二加载单元中的每一个分别与所述第一边缘列中各计算单元分别连接;以使所述多个第二加载单元能够将其计算数据向所述第一边缘列中的计算单元传输。
7.如权利要求6所述的核间结构,其中,所述多个第一存储单元中的每一个分别与所述第二边缘行中各计算单元连接;以使所述第二边缘行中的计算单元分别能够将其计算结果数据发送到多个第一存储单元;
所述多个第二存储单元中的每一个分别与所述第二边缘列中各计算单元分别连接;以使所述第二边缘列中的计算单元分别能够将其计算结果数据发送到多个第二存储单元。
8.如权利要求1所述的核间结构,其中,所述多核处理器阵列中除去第二边缘行和一个第二边缘行;一个第一边缘列和一个第二边缘列对应的计算单元为多个内部计算单元;
在多个内部计算单元中,以一个计算单元为中心分别与围绕其排布的计算单元连接。
9.如权利要求8所述的核间结构,其中,还包括:在多个内部计算单元中,以一个计算单元为中心分别与围绕其排布的计算单元以外的其他计算单元连接。
10.一种多核处理器,其中,其包括如所述权利要求1~9任一项的一种多核处理器阵列的核间结构。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063336.4A CN112328536B (zh) | 2020-09-30 | 2020-09-30 | 一种多核处理器阵列的核间结构和多核处理器 |
PCT/CN2021/079110 WO2022068148A1 (zh) | 2020-09-30 | 2021-03-04 | 一种处理器阵列和多核处理器 |
US17/376,273 US11921668B2 (en) | 2020-09-30 | 2021-07-15 | Processor array and multiple-core processor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063336.4A CN112328536B (zh) | 2020-09-30 | 2020-09-30 | 一种多核处理器阵列的核间结构和多核处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328536A CN112328536A (zh) | 2021-02-05 |
CN112328536B true CN112328536B (zh) | 2024-04-19 |
Family
ID=74313316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063336.4A Active CN112328536B (zh) | 2020-09-30 | 2020-09-30 | 一种多核处理器阵列的核间结构和多核处理器 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112328536B (zh) |
WO (1) | WO2022068148A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112328536B (zh) * | 2020-09-30 | 2024-04-19 | 北京清微智能科技有限公司 | 一种多核处理器阵列的核间结构和多核处理器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546302A (zh) * | 2009-05-07 | 2009-09-30 | 复旦大学 | 一种多核处理器的互连结构及基于该结构的层次化互连设计方法 |
CN102446158A (zh) * | 2010-10-12 | 2012-05-09 | 无锡江南计算技术研究所 | 多核处理器及多核处理器组 |
CN102799563A (zh) * | 2011-05-26 | 2012-11-28 | 上海红神信息技术有限公司 | 一种可重构计算阵列及构建方法 |
CN104375805A (zh) * | 2014-11-17 | 2015-02-25 | 天津大学 | 采用多核处理器仿真可重构处理器并行计算过程的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013081744A1 (en) * | 2011-11-30 | 2013-06-06 | Axis Semiconductor, Inc. | Herarchical multi-core processor and method of programming for efficient data processing |
CN103914429B (zh) * | 2014-04-18 | 2016-11-23 | 东南大学 | 用于粗粒度动态可重构阵列的多模式数据传输互连器 |
CN106897248A (zh) * | 2017-01-08 | 2017-06-27 | 广东工业大学 | 基于异构多处理器阵列的低功耗重构技术 |
US11328037B2 (en) * | 2017-07-07 | 2022-05-10 | Intel Corporation | Memory-size- and bandwidth-efficient method for feeding systolic array matrix multipliers |
CN108053361B (zh) * | 2017-12-29 | 2021-08-03 | 中国科学院半导体研究所 | 多互连视觉处理器及采用其的图像处理方法 |
CN112328536B (zh) * | 2020-09-30 | 2024-04-19 | 北京清微智能科技有限公司 | 一种多核处理器阵列的核间结构和多核处理器 |
-
2020
- 2020-09-30 CN CN202011063336.4A patent/CN112328536B/zh active Active
-
2021
- 2021-03-04 WO PCT/CN2021/079110 patent/WO2022068148A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101546302A (zh) * | 2009-05-07 | 2009-09-30 | 复旦大学 | 一种多核处理器的互连结构及基于该结构的层次化互连设计方法 |
CN102446158A (zh) * | 2010-10-12 | 2012-05-09 | 无锡江南计算技术研究所 | 多核处理器及多核处理器组 |
CN102799563A (zh) * | 2011-05-26 | 2012-11-28 | 上海红神信息技术有限公司 | 一种可重构计算阵列及构建方法 |
CN104375805A (zh) * | 2014-11-17 | 2015-02-25 | 天津大学 | 采用多核处理器仿真可重构处理器并行计算过程的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112328536A (zh) | 2021-02-05 |
WO2022068148A1 (zh) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751280A (zh) | 一种应用于卷积神经网络的可配置卷积加速器 | |
US10242728B2 (en) | DPU architecture | |
CN110222818B (zh) | 一种用于卷积神经网络数据存储的多bank行列交织读写方法 | |
CN110705703B (zh) | 基于脉动阵列的稀疏神经网络处理器 | |
US20110161625A1 (en) | Interconnection network connecting operation-configurable nodes according to one or more levels of adjacency in multiple dimensions of communication in a multi-processor and a neural processor | |
US10180808B2 (en) | Software stack and programming for DPU operations | |
US9922696B1 (en) | Circuits and micro-architecture for a DRAM-based processing unit | |
US7069416B2 (en) | Method for forming a single instruction multiple data massively parallel processor system on a chip | |
US20220179823A1 (en) | Reconfigurable reduced instruction set computer processor architecture with fractured cores | |
CN116167424B (zh) | 基于cim的神经网络加速器、方法、存算处理系统与设备 | |
CN102214158B (zh) | 一种全互联路由结构动态可重构处理器 | |
US7409529B2 (en) | Method and apparatus for a shift register based interconnection for a massively parallel processor array | |
CN110705702A (zh) | 一种动态可扩展的卷积神经网络加速器 | |
CN112328536B (zh) | 一种多核处理器阵列的核间结构和多核处理器 | |
CN111079908A (zh) | 片上网络数据处理方法、存储介质、计算机设备和装置 | |
CN112989268B (zh) | 一种面向存内运算的全展开非正交布线的存算阵列设计方法 | |
CN111610963B (zh) | 芯片结构及其乘加计算引擎 | |
CN115965067B (zh) | 一种针对ReRAM的神经网络加速器 | |
CN1564125A (zh) | 一种基于cordic单元的阵列式可重构dsp引擎芯片结构 | |
CN112862079B (zh) | 一种流水式卷积计算架构设计方法及残差网络加速系统 | |
CN113434813B (zh) | 一种基于神经网络的矩阵乘运算方法及相关装置 | |
US20220100698A1 (en) | Processor array and multiple-core processor | |
CN110222819B (zh) | 一种用于卷积神经网络加速的多层数据分区域联合计算方法 | |
CN112486905A (zh) | 可重构异构化pea互连方法 | |
Chen et al. | An arbitrary kernel-size applicable NoC-based DNN processor design with hybrid data reuse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |