CN114003547A

CN114003547A - 可重构并行处理

Info

Publication number: CN114003547A
Application number: CN202111195957.2A
Authority: CN
Inventors: 李原; 朱建斌
Original assignee: Zhuhai Core Power Technology Co ltd
Current assignee: Zhuhai Core Power Technology Co ltd
Priority date: 2017-03-14
Filing date: 2018-03-13
Publication date: 2022-02-01
Anticipated expiration: 2038-03-13
Also published as: US11182334B2; US10956360B2; US20180267931A1; CN114168525A; US11226927B2; CN114168526A; US10776310B2; US20180267809A1; US11176085B2; JP2020522825A; US20220100701A1; US10776311B2; US20180267930A1; US20180267932A1; US20210019281A1; US20210382722A9; US20200356524A1; EP3596609A1; WO2018169911A1; US10776312B2

Abstract

提供了用于线程级并行处理的处理器、系统和方法。处理器可以包括：多个处理单元(PE)，其各自可以包括配置缓冲器；序列发生器，其耦合到该多个PE中的每一个的配置缓冲器并配置成将一个或多个PE配置分配给该多个PE；以及垫片内存，其耦合到多个PE并配置成存储至少一个PE执行结果以在下一PE配置期间由多个PE中的至少一个使用。

Description

可重构并行处理

分案申请

本申请为申请号2018800171891、申请日2018年3月13日、题为“可重构并行处理”的分案申请。

相关申请

本申请要求于2017年3月14日提交的题为“Reconfigurable ParallelProcessing”的美国临时申请62/471,340、2017年3月15日提交的题为“CircularReconfiguration for Reconfigurable Parallel Processor”的美国临时申请62/471,367、2017年3月15日提交的题为“Private Memory Structure for ReconfigurableParallel Processor”的美国临时申请62/471,368、2017年3月15日提交的题为“SharedMemory Structure for Reconfigurable Parallel Processor”的美国临时申请 62/471,372、2017年3月17日提交的题为“Static Shared Memory Access for ReconfigurableParallel Processor”的美国临时申请62/472,579的优先权，这些申请的内容通过引用整体并入本文。

技术领域

本文的公开内容涉及计算机架构，特别地涉及可重构处理器。

背景技术

具有大量处理阵列的可重构计算架构可以满足计算能力的需求，同时保持功率和硅面积高效。与现场可编程门阵列(field-programmable gate array，FPGA)不同，粗粒度可重构架构(Coarse-Grained Reconfigurable Architecture，CGRA)利用如算术逻辑单元(arithmetic logic unit，ALU)等更大的处理单元作为其构建模块。其提供了使用高级语言来快速编程处理单元 (PE)阵列的可重构性特征。CGRA的一个典型设计在图1中示出。其由PE阵列、配置内存、作为帧缓冲器的内存单元、PE之间的以及PE到帧缓冲器的互连件组成。

一般而言，CGRA是用于探索回路级并行性的方法。其不是专门针对处理线程级并行性的。由于从一次迭代到下一次迭代的任何数据依赖性，并行性在很大程度上是有限的。因此，在大多数设计中，2D阵列的大小旨在限制于8×8PE阵列。

图形处理单元(Graphics processing unit，GPU)架构已提供了以相同指令多线程(Same Instruction Multiple Thread，SIMT)方式执行并行线程的方法。其特别适合大规模并行计算应用。在这些应用中，通常假定线程之间没有依赖性。这种类型的并行性超出了软件任务内的回路级并行性(CGRA是针对回路级并行性而设计的)。线程级并行性可以容易地扩展超过单核执行到多核执行。线程并行性提供了优化机会，并且使PE阵列更高效和更有能力，并且其易于制造得大于8×8。然而，GPU是不可重构的。因此，本领域需要开发能够利用CGRA 和GPU两者的处理能力的下一代处理器。

发明内容

本公开内容描述了用于大规模并行数据处理的装置、方法和系统。根据本公开内容的各种实施方案的处理器可以设计为使用类似于CGRA的可编程处理器阵列来利用类似于GPU 的大规模线程级并行性。在一个实施方案中，处理器可以有效地处理彼此相同但具有不同数据的线程，类似于SIMT架构。软件程序的数据依赖图可以映射到具有无限长度的虚拟数据路径。然后虚拟数据路径可以分割为可以适合多个物理数据路径的段，每个物理数据路径可以具有其配置环境。序列发生器可以将每个PE的配置分配到其配置FIFO中，并类似的将每个数据交换盒配置分配到数据交换盒。垫片内存(gasket memory)可以用于临时存储一个物理数据路径配置的输出，并将其返回给处于下一配置的处理单元。内存端口可以用于计算读取和写入的地址。FIFO可以用于允许每个PE独立操作。存储在内存单元中的数据可以通过私有或共享内存访问方法来访问。相同的数据在软件程序的不同部分中可以通过不同访问方法来访问，以减少内存之间的数据移动。

在示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自包括配置缓冲器；序列发生器，该序列发生器耦合到该多个PE中的每一个的配置缓冲器并配置成将一个或多个PE配置分配给该多个PE；以及垫片内存，该垫片内存耦合到该多个PE并配置成存储至少一个PE执行结果以在下一PE配置期间供多个PE中的至少一个使用。

根据实施方案，处理器可以进一步包括耦合到序列发生器以从序列发生器接收数据交换盒配置的多个数据交换盒，该多个数据交换盒中的每一个可以与多个PE中的相应PE相关联，并且配置成根据数据交换盒配置为相应PE提供输入数据切换。

根据实施方案，多个数据交换盒及其相关联的PE可以布置在多个列中，该多个列的第一列中的第一数据交换盒可以耦合在垫片内存和多个列的第一列中的第一个PE之间，并且多个列的最后一列中的第二个PE可以耦合到垫片内存。

根据实施方案，处理器可以进一步包括：内存单元，该内存单元用于为多个PE提供数据存储；以及多个内存端口，该多个内存端口各自布置在多个列的不同列中，用于多个PE访问内存单元。

根据实施方案，处理器可以进一步包括多个列间数据交换盒(inter-columnswitch box， ICSB)，其耦合到序列发生器以从序列发生器接收ICSB配置，该多个ICSB可以配置成根据 ICSB配置在多个列中的相邻列之间提供数据切换。

根据实施方案，多个内存端口(MP)可以耦合到序列发生器以从序列发生器接收MP配置，并且配置成在一个MP配置期间以私有访问模式或共享访问模式操作。

根据实施方案，存储在内存单元中的一段数据可以在程序的不同部分中通过私有访问模式和共享访问模式来访问，而无需在内存单元中移动。

根据实施方案，多个列中的每一列包括一个PE，多个PE可以是相同的，并且形成一行重复的相同PE。

根据实施方案，多个列中的每一列可以包括两个或更多个PE，并且多个PE形成两行或更多行。

根据实施方案，第一行PE可以配置成实施第一组指令，并且第二行PE可以配置成实施第二组指令，该第二组指令中的至少一个指令不在该第一组指令中，并且多个列可以相同并形成重复的列。

根据实施方案，多个PE中的每一个可以包括多个算术逻辑单元(ALU)，这些算术逻辑单元可以配置成在并行线程中执行相同的指令。

根据实施方案，多个PE中的每一个可以包括用于多个ALU的多个数据缓冲器，并且可以配置成独立操作。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址访问内存单元，并且在私有访问模式下，向量地址中的一个地址可以根据线程索引路由到内存单元的一个内存组，并且一个线程的所有私有数据可以位于同一内存组中。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址来访问内存单元，并且在共享访问模式下，向量地址中的一个地址无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据可以分布在所有内存组中。

在另一示例性实施方案中，提供了一种方法，该方法包括：在处理器处将执行内核映射到虚拟数据路径，其中该执行内核包括要由处理器执行的指令序列，并且处理器包括各种可重构单元，这些可重构单元包括垫片内存；将虚拟数据路径分割为一个或多个物理数据路径；将配置递送给处理器的各种可重构单元，以供各种可重构单元形成用于执行该指令序列的一个或多个物理数据路径；以及执行处理器以通过根据配置来操作各种可重构单元来完成一个或多个物理数据路径，包括将数据从一个物理数据路径路由到垫片内存以在未来的物理数据路径中作为输入使用。

根据实施方案，各种可重构单元可以进一步包括多个处理单元、各自与不同处理单元相关联的多个数据交换盒、为该多个处理单元提供对内存单元的访问的多个内存端口、以及多个列间数据交换盒，其中各种可重构单元中的每一个通过下一配置来重构并独立于其他可重构单元应用。

根据实施方案，多个内存端口中的每一个可以配置成在一个配置期间以私有访问模式或共享访问模式操作。

根据实施方案，该方法还可以进一步包括在不同的物理数据路径中通过私有访问模式和共享访问模式访问存储在内存单元中的一段数据，而无需在内存单元中移动。

根据实施方案，内存端口中的每一个可以配置成使用向量地址访问内存单元，并且在私有访问模式下，向量地址中的一个地址可以根据线程索引路由到内存单元的一个内存组，并且一个线程的所有私有数据可以位于同一内存组中，并且在共享访问模式下，向量地址中的一个地址可以在无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据可以分布在所有内存组中。

根据实施方案，多个PE中的每一个可以包括用于多个ALU的多个数据缓冲器，并且可以配置成在一个物理数据路径期间独立操作。

根据实施方案，多个PE可以形成PE阵列，并且执行内核可以基于PE阵列的大小、多个PE之间的连接以及内存访问能力映射到处理器上的一个或多个物理数据路径中。

根据实施方案，各种可重构单元可以形成多个重复列，并且一个或多个物理数据路径中的每一个可以适配到多个重复列中，并且重复列之间的数据流可以在一个方向上。

在又一示例性实施方案中，提供了一种系统，该系统包括：处理器，该处理器包括：序列发生器，该序列发生器配置成将要由处理器执行的执行内核映射到虚拟数据路径中，并将虚拟数据路径分割成一个或多个物理数据路径；耦合到该序列发生器的多个处理单元(PE)，该多个PE中的每一个包括配置缓冲器，该配置缓冲器配置成从该序列发生器接收用于一个或多个物理数据路径的PE配置；以及垫片内存，该垫片内存耦合到多个PE，并且配置成存储来自一个或多个物理数据路径中的一个的数据，以由该一个或多个物理数据路径中的另一物理数据路径作为输入使用。

根据实施方案，处理器可以进一步包括耦合到序列发生器的多个数据交换盒(SB)，以从该序列发生器接收用于一个或多个物理数据路径的SB配置，该多个SB中的每一个与多个 PE中的相应PE相关联，并且配置成根据SB配置为相应PE提供输入数据切换。

根据实施方案，处理器可以进一步包括用于为多个PE提供数据存储的内存单元；以及多个内存端口，多个内存端口各自布置在多个列的不同列中，用于多个PE访问内存单元。

根据实施方案，处理器可以进一步包括多个列间数据交换盒(ICSB)，其耦合到序列发生器以从序列发生器接收用于一个或多个物理数据路径的ICSB配置，该多个ICSB配置成根据ICSB配置在多个列中的相邻列之间提供数据切换。

根据实施方案，多个内存端口(MP)可以耦合到序列发生器以从序列发生器接收用于一个或多个物理数据路径的MP配置，并且配置成在一个MP配置期间以私有访问模式或共享访问模式操作。

根据实施方案，存储在内存单元中的一段数据可以在一个或多个物理数据路径的不同物理数据路径中通过私有访问模式和共享访问模式来访问，而无需在内存单元中移动。

根据实施方案，多个列中的每一列可以包括一个PE，并且多个PE可以是相同的，并且可以形成一行重复的相同PE。

根据实施方案，第一行PE可以配置成实施第一组指令，并且第二行PE可以配置成实施第二组指令，该第二组指令中的至少一个指令可以不在该第一组指令中，并且多个列可以相同并可以形成重复的列。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址来访问内存单元，并且在共享访问模式下，向量地址中的一个地址可以在无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据可以分布在所有内存组中。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)；多个数据交换盒，该多个数据交换盒布置在多个列中，多个数据交换盒中的每一个与相应的 PE相关联，并且配置成为相应的PE提供输入数据切换；多个内存端口，该多个内存端口布置在多个列中，并且耦合到内存单元和多个列的每一列中的顶部数据交换盒，多个内存端口中的每一个配置成为相应列中的一个或多个数据交换盒提供对内存单元的数据访问；多个列间数据交换盒(ICSB)，该多个列间数据交换盒各自耦合到多个列的每一列中的底部数据交换盒；以及垫片内存，其中其输入耦合到多个列的最后一列中的内存端口、PE、一个或多个数据交换盒和ICSB，并且其输出耦合到多个列的第一列中的内存端口、一个或多个数据交换盒和ICSB。

根据实施方案，处理器可以进一步包括耦合到多个PE、多个数据交换盒、多个ICSB、多个内存端口和垫片内存以将配置递送到这些组件的序列发生器。

根据实施方案，处理器可以进一步包括耦合到序列发生器以存储用于序列发生器解码和递送的编译配置的配置内存。

根据实施方案，处理器可以进一步包括用于为处理器提供数据存储的内存单元。

在另一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自包括配置缓冲器和多个算术逻辑单元(ALU)，并且各自配置成根据存储在配置缓冲器中的相应PE配置独立操作；以及垫片内存，该垫片内存耦合到该多个PE并配置成存储至少一个PE执行结果以在下一PE配置期间由多个PE中的至少一个使用。

根据实施方案，处理器可以进一步包括多个数据交换盒，该多个数据交换盒各自包括配置成存储数据交换盒配置的配置缓冲器，多个数据交换盒中的每一个与多个PE中的相应PE 相关联，并且配置成根据数据交换盒配置为相应PE提供输入数据切换。

根据实施方案，处理器可以进一步包括多个列间数据交换盒(ICSB)，该多个列间数据交换盒各自包括配置成存储ICSB配置的配置缓冲器，多个ICSB可以配置为根据ICSB配置在多个列中的相邻列之间提供数据切换。

根据实施方案，多个内存端口(MP)中的每一个可以包括配置缓冲器以存储MP配置，并且可以配置成在一个MP配置期间以私有访问模式或共享访问模式操作。

根据实施方案，多个列中的每一列可以包括一个PE，多个PE是相同的，并且形成一行重复的相同PE。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址来访问内存单元，并且在共享访问模式下，向量地址中的一个地址可以无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据可以分布在所有内存组中。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)；该多个处理单元布置在多个列中；多个数据交换盒(SB)，该多个数据交换盒各自与多个PE 中的不同PE相关联，以提供数据切换；以及垫片内存，该垫片内存耦合到多个PE，并且配置成存储至少一个PE执行结果，该至少一个PE执行结果将经由数据交换盒递送到多个PE中的至少一个以便于该PE执行结果在下一个PE配置期间用作输入数据。

在另一示例性实施方案中，提供了一种方法，该方法包括将执行内核映射到虚拟数据路径中。执行内核可以包括要由处理器执行的指令序列，并且处理器可以包括形成重复列的各种可重构单元。该方法可以进一步包括：将虚拟数据路径分割成一个或多个物理数据路径，以将每个物理数据路径分别适配到重复列中；以及将配置递送给处理器的各种可重构单元，以供各种可重构单元形成用于执行该指令序列的一个或多个物理数据路径。

在又一示例性实施方案中，提供了一种方法，该方法包括：将执行内核映射到虚拟数据路径中以便处理器执行，该处理器包括形成重复列的各种可重构单元；将虚拟数据路径分割成多个物理数据路径，该多个物理数据路径包括适配到重复列中的第一物理数据路径和适配到重复列中的第二物理数据路径；以及将配置递送给重复列的各种可重构单元，以形成用于执行该执行内核的第一部分的第一物理数据路径，以及形成用于执行该执行内核的第二部分的第二物理数据路径。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：多个可重构单元，该多个可重构单元包括多个处理单元(PE)和用于多个PE访问内存单元的多个内存端口(MP)，多个可重构单元中的每一个包括配置缓冲器和重构计数器；以及序列发生器，该序列发生器耦合到多个可重构单元中的每一个的配置缓冲器，并且配置成将多个配置分配给用于多个PE 和多个内存端口的多个可重构单元以执行指令序列。

根据实施方案，多个配置中的每一个可以包括指定的次数，并且多个PE和多个内存端口中的每一个的重构计数器可以配置成对相应的PE或MP进行计数，以将指令序列中的指令重复指定的次数。

根据实施方案，多个可重构单元可以进一步包括多个数据切换单元，多个数据切换单元中的每一个可以配置成根据当前数据切换配置进行指定次数的数据切换设置。

根据实施方案，多个可重构单元可以进一步包括垫片内存，垫片内存可以包括多个数据缓冲器、输入配置缓冲器、输出配置缓冲器、多个输入重构计数器和多个输出重构计数器，并且垫片内存可以配置成独立地执行用于输入和输出的重构。

根据实施方案，多个配置可以包括用于多个可重构单元形成第一物理数据路径的第一组配置，以及用于多个可重构单元形成第二物理数据路径的第二组配置，垫片内存可以配置成存储来自第一物理数据路径的数据以用作对第二物理数据路径的输入。

根据实施方案，多个可重构单元中的每一个可以配置成在其重构计数器达到指定次数之后独立地切换到下一配置。

根据实施方案，多个内存端口中的每一个可以配置成在一个配置期间以私有内存访问模式或共享内存访问模式操作。

根据实施方案，存储在内存单元中的一段数据可以在不同物理数据路径的配置中通过私有内存访问模式和共享内存访问模式来访问，而无需在内存单元中移动。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址访问内存单元，并且在私有内存访问模式下，向量地址中的一个地址可以根据线程索引路由到内存单元的一个内存组，并且一个线程的所有私有数据可以位于同一内存组中。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址来访问内存单元，并且在共享内存访问模式下，向量地址中的一个地址可以无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据可以分布在所有内存组中。

根据实施方案，多个PE中的每一个可以包括多个数据缓冲器，并且可以配置成独立操作。

根据实施方案，多个PE可以形成两行或更多行。根据实施方案，第一行PE可以配置成实施第一组指令，并且第二行PE可以配置成实施第二组指令，该第二组指令中的至少一个指令不在该第一组指令中。

根据实施方案，多个PE和多个内存端口(MP)可以布置在重复的列中。

根据实施方案，指令序列中的每一个可以根据相应的配置由多个PE中的一个PE或多个内存端口中的一个内存端口作为流水线级来执行。

在又一示例性实施方案中，提供了一种方法，该方法包括：将多个配置递送到处理器的多个可重构单元，以便于多个可重构单元形成用于执行指令序列的多个物理数据路径，多个配置中的每一个包括指定的次数；在多个可重构单元的每一个处重复相应的操作指定次数，包括在第一物理数据路径中根据第一配置在第一可重构处理单元(PE)处执行指令序列中的第一指令指定次数；以及在重复相应操作指定次数之后将多个重构单元中的每一个重构为新配置，包括在第二物理数据路径中根据第二配置，在第一可重构PE处执行指令序列中的第二指令指定次数。

根据实施方案，多个重构单元可以包括多个PE和多个内存端口，并且指令序列中的至少一个指令可以是内存访问指令，并且在通过应用下一内存端口配置来重构内存端口之前由内存端口执行指定次数。

根据实施方案，多个可重构单元可以进一步包括多个数据切换单元，并且多个数据切换单元中的每一个可以配置成通过将根据当前数据切换配置的数据切换设置应用指定次数来重复相应的操作。

根据实施方案，该方法可以进一步包括垫片内存。垫片内存可以包括多个数据缓冲器、输入配置缓冲器、输出配置缓冲器、多个输入重构计数器和多个输出重构计数器。以及垫片内存可以配置成独立地执行用于输入和输出的重构。

根据实施方案，该方法可以进一步包括将来自第一物理数据路径的数据存储在垫片内存中，以用作对第二物理数据路径的输入。

根据实施方案，该方法还可以进一步包括在不同的物理数据路径中通过私有内存访问模式和共享内存访问模式访问存储在内存单元中的一段数据，而无需在内存单元中移动。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址访问内存单元，并且在私有内存访问模式下，向量地址中的一个地址根据线程索引路由到内存单元的一个内存组，并且一个线程的所有私有数据位于同一内存组中。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址来访问内存单元，并且在共享内存访问模式下，向量地址中的一个地址可以无论线程索引如何而在一个指定区域中跨内存组路由，并且共享给所有线程的数据分布在所有内存组中。

根据实施方案，多个PE中的每一个可以包括多个数据缓冲器，并且可以配置成在一个物理数据路径配置期间独立操作。

根据实施方案，多个PE可以形成PE阵列，并且指令序列可以基于PE阵列的大小、多个PE之间的连接以及内存访问能力映射到处理器上的一个或多个物理数据路径中。

在又一示例性实施方案中，提供了一种方法，该方法包括：将第一组配置递送到处理器的多个可重构单元，以便于多个可重构单元形成用于执行指令序列的第一部分的第一物理数据路径，第一组配置中的每一个包括指定的次数；将第二组配置递送到多个可重构单元，以便于多个可重构单元形成用于执行指令序列的第二部分的第二物理数据路径，第二组配置中的每一个包括指定的次数；在多个可重构单元处应用第一组配置，以便于多个可重构单元中的每一个将相应的操作重复指定次数，从而执行第一物理数据路径；将来自第一物理数据路径的数据存储到垫片内存；以及在多个可重构单元处应用第二组配置，以便于多个可重构单元中的每一个将相应的操作重复指定次数，从而执行第二物理数据路径，同时存储在垫片内存中的数据作为对第二物理数据路径的输入。

根据实施方案，垫片内存可以包括多个数据缓冲器、输入配置缓冲器、输出配置缓冲器、多个输入重构计数器和多个输出重构计数器，并且其中垫片内存可以配置成独立地执行用于输入和输出的重构。

根据实施方案，多个重构单元可以包括多个PE和多个内存端口，并且指令序列中的至少一个指令可以是内存访问指令，并且在可以通过应用下一内存端口配置来重构内存端口之前由内存端口执行指定次数。

根据实施方案，多个内存端口中的每一个可以配置成使用向量地址访问内存单元，其中在私有内存访问模式下，向量地址中的一个地址可以根据线程索引路由到内存单元的一个内存组，并且一个线程的所有私有数据位于同一内存组中。

在另一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及多个内存端口(MP)，该多个内存端口用于多个PE访问内存单元，多个MP中的每一个包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的不同内存组。

根据实施方案，地址计算单元可以具有：耦合到基地址输入的第一输入，基地址输入提供所有线程公用的基地址；耦合到向量地址的第二输入，向量地址为每个线程单独提供地址偏移；以及耦合到计数器的第三输入，计数器配置用于提供线程索引。

根据实施方案，向量地址中的一个地址可以根据线程索引路由到一个内存组。

根据实施方案，内存单元可以包括多个内存高速缓存，该多个内存高速缓存各自与一个不同的内存组相关联。

根据实施方案，多个内存端口中的每一个可以耦合到多个内存高速缓存。

根据实施方案，每个内存组可以包括多个内存字，并且内存高速缓存中的高速缓存未命中导致从与内存高速缓存相关联的内存组中提取字。

根据实施方案，多个PE中的每一个可以包括用于分开地存储每个线程的数据的多个数据缓冲器。

根据实施方案，处理器可以进一步包括耦合到多个内存端口的序列发生器，并且多个内存端口中的每一个可以包括配置缓冲器以从序列发生器接收一个或多个配置，并且每个内存端口可以配置成在一个配置期间提供相同的内存访问模式。

根据实施方案，一个线程的连续数据段可以位于内存组的一个字中，并在内存组的下一个字中继续。

根据实施方案，一个线程的连续数据段可以位于内存组的连续字的相同位置。

根据实施方案，多个MP可以配置成一列模式，其中一个MP可以配置成针对一个PE中的所有并发线程访问内存单元，并且地址偏移对于每个线程来说可以是独立的。

根据实施方案，多个MP可以配置成线性模式，其中多个MP可以配置成访问内存单元，其中第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP 可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP中的地址偏移可以与第一个MP中的地址偏移成线性。

根据实施方案，多个MP可以配置成反线性模式，其中多个MP可以配置成访问内存单元，其中第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个 MP可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP中的地址偏移可以与第一个MP中的地址偏移成反线性。

根据实施方案，多个MP可以配置成重叠模式，其中多个MP配置成访问内存单元，其中第一个MP配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP中的地址偏移与第一个MP中的地址偏移有重叠。

根据实施方案，多个MP可以配置成非单位步幅模式，其中多个MP配置成访问内存单元，其中第一个MP配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP中的地址偏移和第一个MP中的地址偏移可以以步幅间隔开。

根据实施方案，多个MP可以配置成随机模式，其中多个MP可以配置成访问内存单元，并且不同MP中的地址偏移可以是随机数。

根据实施方案，内存单元可以包括多个内存高速缓存，该多个内存高速缓存各自与一个不同的内存组相关联，并且随机数可以在取决于内存高速缓存大小的范围内。

根据实施方案，内存单元可以配置成用作寄存器，以存储用于寄存器溢出的溢出变量。

在另一示例性实施方案中，提供了一种方法，该方法包括：由多个内存端口中的一内存端口中的地址计算单元生成多个内存地址，其中多个内存端口为多个处理单元(PE)提供对内存单元的访问，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及使用多个内存地址访问内存单元中的多个内存组，其中每个线程访问内存单元中的不同内存组。

根据实施方案，地址计算单元可以具有：耦合到基地址输入的第一输入，基地址输入提供所有线程公用的基地址；耦合到向量地址的第二输入，向量地址为每个线程单独提供地址偏移；以及耦合到计数器的第三输入，计数器配置用于提供线程索引，并且地址计算单元可以配置成使用第一输入、第二输入和第三输入来生成多个内存地址。

根据实施方案，内存单元可以包括多个内存高速缓存，该多个内存高速缓存各自与一个不同的内存组相关联，并且访问内存单元中的多个内存组可以包括访问多个内存高速缓存。

根据实施方案，该方法可以进一步包括当与内存组相关联的内存高速缓存中存在高速缓存未命中时，从内存组的多个字中提取字。

根据实施方案，该方法可以进一步包括将每个线程的数据存储在多个PE的每个PE中的不同数据缓冲器中。

根据实施方案，该方法可以进一步包括由内存端口从序列发生器接收一个或多个配置，并且内存端口可以配置成在一个配置期间提供相同的内存访问模式。

根据实施方案，访问内存单元中的多个内存组可以使用一列模式，其中一个MP可以配置成针对一个PE中的所有并发线程访问内存单元，并且地址偏移对于每个线程来说是独立的。

根据实施方案，访问内存单元中的多个内存组可以使用线性模式，其中多个MP可以配置成访问内存单元，并且第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP 中的地址偏移可以与第一个MP中的地址偏移成线性。

根据实施方案，访问内存单元中的多个内存组可以使用反线性模式，其中多个MP可以配置成访问内存单元，并且第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个 MP中的地址偏移可以与第一个MP中的地址偏移成反线性。

根据实施方案，访问内存单元中的多个内存组可以使用重叠模式，其中多个MP可以配置成访问内存单元，并且第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP 中的地址偏移可以与第一个MP中的地址偏移有重叠。

根据实施方案，访问内存单元中的多个内存组可以使用非单位步幅模式，其中多个MP 可以配置成访问内存单元，并且第一个MP可以配置成针对第一个PE中的所有并发线程访问内存单元，并且第二个MP可以配置成针对第二个PE中的所有并发线程访问内存单元，第二个MP中的地址偏移和第一个MP中的地址偏移可以以步幅间隔开。

根据实施方案，访问内存单元中的多个内存组可以使用随机模式，其中多个MP可以配置成访问内存单元，并且不同MP中的地址偏移可以是随机数。

根据实施方案，该方法可以进一步包括存储用于寄存器溢出的变量。

在示例性实施方案中，提供了一种处理器，该处理器包括：内存单元，该内存单元包括多个内存组；多个处理单元(PE)，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及多个内存端口(MP)，该多个内存端口用于多个PE访问内存单元，多个MP中的每一个包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的不同内存组。

在例性实施方案中，提供了一种处理器，该处理器包括：处理单元(PE)，该处理单元具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及内存端口(MP)，该内存端口用于PE访问内存单元，该MP包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的不同内存组。

根据实施方案，PE可以是多个PE中的一个，该多个PE各自具有配置成在并行线程中执行相同指令的多个ALU。

根据实施方案，该MP可以是多个MP中的一个，该多个MP各自具有地址计算单元，该地址计算单元配置成为多个PE的一个PE中的每个线程生成各自的内存地址，以访问内存单元中的不同内存组。

在另一示例性实施方案中，提供了一种方法，该方法包括：由内存端口中的地址计算单元生成多个内存地址，其中内存端口为处理单元(PE)提供对内存单元的访问，该处理单元具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及使用多个内存地址访问内存单元中的多个内存组，其中每个线程访问内存单元中的不同内存组。

根据实施方案，PE可以是多个PE中的一个，该多个PE各自可以具有配置成在并行线程中执行相同指令的多个ALU。

根据实施方案，该MP可以是多个MP中的一个，该多个MP各自可以具有地址计算单元，该地址计算单元配置成为多个PE的一个PE中的每个线程生成各自的内存地址，以访问内存单元中的不同内存组。

在示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及多个内存端口(MP)，该多个内存端口用于多个PE访问内存单元，多个MP中的每一个包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域。

根据实施方案，地址计算单元可以具有：耦合到基地址输入的第一输入，基地址输入提供所有线程公用的基地址；以及耦合到向量地址的第二输入，向量地址为每个线程单独提供地址偏移。

根据实施方案，地址计算单元可以配置成生成与PE中的多个线程匹配的多个内存地址。

根据实施方案，多个MP中的每一个可以进一步包括耦合到多个内存地址的多个选择单元，多个选择单元中的每一个可以配置成选择零个或更多个内存地址以将其路由到内存单元的一个内存组。

根据实施方案，每个选择单元可以配置成用一个掩码来选择内存单元的不同内存组。

根据实施方案，一个MP可以配置成针对一个PE中的所有线程访问内存单元，并且地址偏移对于所有线程而言可以是相同的。

根据实施方案，多个MP可以配置成针对不同PE中的线程访问内存单元，地址偏移在一个MP中可以相同，但是对于不同MP则不同。

根据实施方案，一个MP可以配置成针对一个PE中的所有线程访问内存单元，并且地址偏移在MP中可以是顺序的。

根据实施方案，多个MP可以配置成针对不同PE中的线程访问内存单元，地址偏移可以在每个MP内分别是顺序的。

根据实施方案，一个MP可以配置成针对一个PE中的所有线程访问内存单元，地址偏移可以是顺序的，具有不连续性。

根据实施方案，多个MP可以配置成针对不同PE中的不同线程访问内存单元，地址偏移分别在MP中的每一个中可以是顺序的，具有不连续性。

根据实施方案，一个MP可以配置成针对一个PE中的所有线程访问内存单元，地址偏移可以是线性的，具有非单位步幅。

根据实施方案，多个MP可以配置成针对一个PE中的所有线程访问内存单元，地址偏移可以是随机的，但是在一个小范围C到C+R内，小范围C到C+R取决于内存高速缓存的大小。

根据实施方案，多个MP可以配置成针对不同PE中的线程访问内存单元，地址偏移可以是随机的，但是具有一个小范围C到C+R内，小范围C到C+R取决于内存高速缓存的大小。

根据实施方案，公用区域可以包括内存单元的所有内存组。

根据实施方案，每个内存组可以包括多个内存字，并且内存高速缓存中的高速缓存未命中导致从与内存高速缓存相关联的内存组中提取内存字。

根据实施方案，处理器可以包括耦合到多个内存端口的序列发生器，并且多个内存端口中的每一个可以包括配置缓冲器以从序列发生器接收一个或多个配置，并且每个内存端口可以配置成在一个配置期间提供相同的内存访问模式。

在又一示例性实施方案中，提供了一种方法，该方法包括：由多个内存端口中的一内存端口中的地址计算单元生成多个内存地址，其中多个内存端口为多个处理单元(PE)提供对内存单元的访问，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及使用多个内存地址访问内存单元中的多个内存组，其中所有线程访问内存单元中的公用区域。

根据实施方案，地址计算单元可以将所有线程公用的基地址取为第一输入，并且将为每个线程单独提供地址偏移的向量地址取为第二输入，以生成多个内存地址。

根据实施方案，访问多个内存组可以包括分别使用多个选择单元选择零个或更多个内存地址以将其路由到内存单元的一个内存组。

根据实施方案，公用区域可以包括内存单元的所有内存组。

根据实施方案，该方法可以进一步包括从序列发生器接收用于多个内存端口中的每一个的一个或多个配置，其中每个内存端口配置成在一个配置期间提供相同的内存访问模式。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：内存单元，该内存单元包括多个内存组；多个处理单元(PE)，该多个处理单元各自具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及多个内存端口(MP)，该多个内存端口用于多个 PE访问内存单元，多个MP中的每一个包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的多个内存组上的公用区域。

在例性实施方案中，提供了一种处理器，该处理器包括：处理单元(PE)，该处理单元具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及内存端口(MP)，该内存端口用于PE访问内存单元，该MP包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域。

根据实施方案，该MP可以是多个MP中的一个，该多个MP各自可以具有地址计算单元，该地址计算单元配置成为多个PE的一个PE中的每个线程生成各自的内存地址，以访问内存单元中的公用区域。

在另一示例性实施方案中，提供了一种方法，该方法包括：由内存端口中的地址计算单元生成多个内存地址，其中内存端口为处理单元(PE)提供对内存单元的访问，该处理单元具有配置成在并行线程中执行相同指令的多个算术逻辑单元(ALU)；以及使用多个内存地址访问内存单元中的多个内存组，其中每个线程访问内存单元中的公用区域。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自包括：算术逻辑单元(ALU)；与ALU相关联的数据缓冲器；以及与数据缓冲器相关联的指示器，用于指示数据缓冲器内的一段数据是否将被流水线的一级重复执行的一个指令重复使用。

根据实施方案，处理器进一步包括多个内存端口(MP)，该多个内存端口用于多个PE 访问内存单元，多个MP中的每一个可以包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域，并且多个MP中负责从内存单元加载一段数据以便于该段数据在PE处被重复使用的一个MP可以配置成仅加载该段数据一次。

根据实施方案，负责加载将被重复使用的该段数据的MP可以配置成通过确定要在PE 处执行的多个线程正在使用相同的内存地址加载该段数据来确定将重复使用该段数据。

根据实施方案，被重复使用的至少一段数据可以是由多个PE中的一个PE生成的执行结果。

根据实施方案，多个PE中的每一个PE可以进一步包括用于存储用于每个PE的配置的配置缓冲器和用于对重复执行的次数进行计数的重构计数器，每个配置可以指定要由相应PE 执行的指令和在相应配置期间要重复指令的次数。

根据实施方案，ALU可以是向量ALU，并且数据缓冲器可以是向量数据缓冲器，向量数据缓冲器的每个数据缓冲器可以与向量ALU的一个ALU相关联。

根据实施方案，处理器可以进一步包括多个内存端口(MP)，该多个内存端口用于多个 PE访问内存单元，多个MP中的每一个可以包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域，并且多个MP中的每一个MP 可以包括至少一个数据缓冲器，用于临时存储从内存单元加载的数据，并且至少一个数据缓冲器中的每一个可以具有与之相关联的指示器，用于指示存储在其中的一段数据是否将重复用于其他加载操作。

根据实施方案，每个PE可以包括与ALU相关联的多个数据缓冲器，多个数据缓冲器中的每一个可以配置成存储用于ALU的分开的输入，并且可以具有相关联的指示器，用于指示相应的输入是否将在重复的执行中被重复使用。

在又一示例性实施方案中，提供了一种方法，该方法包括：确定在处理器的处理单元(PE) 处施加的一个配置期间，一段数据将在处理器的处理单元(PE)处由所有线程共享和重复使用；将该段数据加载一次到PE的数据缓冲器中；设置与数据缓冲器相关联的指示器，用于指示该段数据将被重复使用；以及利用该段数据作为PE处的输入作为流水线的一级重复地执行相同的指令多次，相同的指令和次数由配置指定。

根据实施方案，该方法可以进一步包括从内存单元加载该段数据以便于该段数据被加载到PE的数据缓冲器中，其中处理器包括多个PE和用于多个PE访问内存单元的多个内存端口(MP)，其中多个MP中负责从内存单元加载该段数据的一个MP配置成仅加载该段数据一次。

根据实施方案，该方法可以进一步包括由处理器的多个PE中的一个生成该段数据作为执行结果。

根据实施方案，该方法可以进一步包括接收配置并将该配置存储在PE的配置缓冲器中，其中该配置可以指定要由PE执行的指令和指令要重复的次数。

根据实施方案，确定该段数据可以将在PE处由所有线程共享和重复使用包括确定所有线程可以正在使用相同的内存地址来访问该段数据。

根据一个实施方案，该方法可以进一步包括将该段数据加载一次到内存端口的数据缓冲器中，该内存端口为PE提供对内存单元的访问；设置与内存端口的数据缓冲器相关联的指示器，用于指示该段数据将重复用于访问相同内存地址的其他加载操作。

在又一示例性实施方案中，提供了一种处理器，该处理器包括：多个处理单元(PE)，该多个处理单元各自包括：向量算术逻辑单元(ALU)，该向量算术逻辑单元包括多个ALU；与多个ALU中的每一个相关联的多个数据缓冲器；以及各自与不同的数据缓冲器相关联的多个指示器，用于指示相应的数据缓冲器内的一段数据是否将被流水线的一级重复执行的一个指令重复使用。

根据实施方案，处理器可以进一步包括多个内存端口(MP)，该多个内存端口用于多个 PE访问内存单元，多个MP中的每一个可以包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域，其中，多个MP中负责从内存单元加载一段数据以便于该段数据在PE处被重复使用的一个MP可以配置成仅加载一次该段数据。

根据实施方案，负责加载将被重复使用的该段数据的MP可以配置成通过确定要在PE 处执行的多个线程可以正在使用相同的内存地址加载该段数据来确定将可以重复使用该段数据。

根据实施方案，处理器可以进一步包括多个内存端口(MP)，该多个内存端口用于多个 PE访问内存单元，多个MP中的每一个可以包括地址计算单元，该地址计算单元配置成为每个线程生成相应的内存地址，以访问内存单元中的公用区域，并且多个MP中的每一个MP 可以包括至少一个数据缓冲器，用于临时存储从内存单元加载的数据，并且至少一个数据缓冲器中的每一个可以具有与之相关联的指示器，用于指示存储在其中的一段数据是否将可以重复用于其他加载操作。

根据实施方案，多个数据缓冲器中的每一个可以是具有多个数据缓冲器单元的向量数据缓冲器，并且将重复执行所重复使用的一段数据可以复制在一个向量数据缓冲器的所有数据缓冲器单元中。

根据实施方案，多个数据缓冲器中的每一个可以是具有多个数据缓冲器单元的向量数据缓冲器，并且将重复执行所重复使用的一段数据可以仅存储在一个向量数据缓冲器的一个数据缓冲器单元中。

在又一示例性实施方案中，提供了一种方法，该方法包括：在处理器的可重构单元处接收第一配置和第二配置，该可重构单元具有用于存储第一配置和第二配置的配置缓冲器；根据第一配置执行第一操作第一次数，第一配置是用于执行指令序列的第一部分的第一物理数据路径的部分；以及重构可重构单元以根据第二配置执行第二操作第二次数，第二配置是用于执行指令序列的第二部分的第二物理数据路径的部分。

在另一示例性实施方案中，提供了一种方法，该方法包括：根据第一配置，在可重构处理单元处执行第一指令多次，该可重构处理单元配置成在第一配置期间是第一物理数据路径的部分；在第一指令的每次执行之后，将来自可重构处理单元的执行结果递送到垫片内存，以临时存储该执行结果；以及将存储在垫片内存中的执行结果馈送到第二物理数据路径。

附图说明

图1示意性地示出了具有PE阵列的现有技术CGRA。

图2示意性示出了根据本公开的一个实施方案的一个处理器。

图3A示意性示出了根据本公开的一个实施方案的用于处理器的一个内存系统。

图3B示意性示出了根据本公开的一个实施方案的用于私有内存访问模式的一个第一内存映射。

图3C示意性示出了根据本公开的一个实施方案的用于私有内存访问模式的一个第二内存映射。

图3D示意性示出了根据本公开的一个实施方案的用于共享内存访问的一个内存映射。

图4A示意性示出了根据本公开的一个实施方案的用于一个内存端口的一个第一内存访问配置。

图4B示意性示出了根据本公开的一个实施方案的用于一个内存端口的一个第二内存访问配置。

图5示意性示出了根据本公开的一个实施方案的用于一个处理器的一个数据交换盒。

图6A示意性示出了根据本公开的一个实施方案的用于一个处理器的一个处理单元。

图6B示意性示出了根据本公开的一个实施方案的用于一个处理器的另一个处理单元。

图7示意性示出了根据本公开的一个实施方案的用于一个处理器的一个列间数据交换盒。

图8示意性示出了根据本公开的一个实施方案的用于一个处理器的一个垫片内存。

图9A示意性示出了根据本公开的一个实施方案的一个执行内核的一个依赖图。

图9B示意性示出了根据本公开的一个实施方案将图9A的执行内核映射到一个处理器的一个虚拟数据路径的依赖图。

图9C示意性地示出了根据本公开的一个实施方案将图9B的虚拟数据路径划分为一个处理器的物理数据路径。

图10示意性示出了根据本公开的一个实施方案的一个处理器的一个流水线操作。

图11A至图11I示意性示出了根据本公开的一个实施方案的一个处理器的一个配置过程。

图12A示意性示出了根据本公开的一个实施方案的一个处理器执行一个指令流的一个流水线操作。

图12B示意性示出了根据本公开的一个实施方案的一个处理器执行一个指令流的精简流水线操作。

图13是根据本公开的一个实施方案的执行一个执行内核的方法的一个流程图。

图14是根据本公开的一个实施方案的一个重构方法的一个流程图。

图15是根据本公开的一个实施方案的另一个重构方法的一个流程图。

图16是根据本公开的一个实施方案的另一个重构方法的一个流程图。

图17是根据本公开的一个实施方案的一个访问内存的方法的一个流程图。

图18是根据本公开的一个实施方案的另一个访问内存的方法的一个流程图。

图19是根据本公开的一个实施方案的一个重复使用一段数据的方法的一个流程图。

具体实施方式

现在将详细参考本教导的实施方案，其示例在附图中示出。为了一致性，不同附图中的相同元件通过相同的附图标记表示。虽然将结合实施方案描述本教导，但是应当理解的是，其并不旨在将本教导限制于这些实施方案。相反，本教导旨在覆盖替换方案、修改和等同物，这些替换方案、修改和等同物可以包括在由所附权利要求限定的本教导的精神和范围内。

此外，在本教导的实施方案的以下详细描述中，阐述了许多具体细节，以便提供对本教导的透彻理解。然而，本领域普通技术人员将认识到，在没有这些具体细节的情况下也可以实践本教导。在其他情况下，没有详细描述众所周知的方法、过程、组件和电路，以免不必要地模糊本教导的实施方案的各个方面。

图2示意性示出了根据处理器的一个实施方案的处理器200。处理器200可以包括直接内存访问(DMA)模块202、配置内存204、序列发生器206、控制处理器208、程序高速缓存210、内存单元212、PE阵列214和垫片内存216。DMA模块202可以耦合到外部总线230，并且可以由控制处理器208控制。DMA模块202可以负责将可执行指令和不可执行数据从外部总线230移入和移出。程序高速缓存210可以存储由控制处理器208用于控制DMA模块 202的操作的指令和数据。在一个实施方案中，存储在程序高速缓存210中的指令和数据可以由控制处理器208用于处理序列发生器程序。

应当注意的是，如本文所使用的，两个组件之间的“耦合”(诸如一个组件“耦合”到另一组件)可以指两个组件之间的电子连接，其可以包括但不限于通过电子布线、通过电子元件(例如电阻器、晶体管)等。而且，在一些实施方案中，处理器200可以配置成用于大规模线程级并行处理。例如，PE阵列214中的一个处理单元(PE)可以包括多个算术逻辑单元(ALU)，这些算术逻辑单元可以配置成(例如，每个在单独的线程中)对不同的数据执行相同的操作。也就是说，在具有多个ALU的这些实施方案中，每个PE可以配置成以单指令多线程(Single Instruction Multiple Threads,SIMT)方式操作。在一个实施方案中，具有向量地址和向量数据输入的PE可以生成向量数据输出。在一些实施方案中，线程也可被称为流。

为了为将被同时执行的多线程提供数据，在一些实施方案中，处理器200的组件之间的一些相关电子连接可以呈向量形式。例如，HxG的向量地址可以具有H个G比特地址，KxW的向量数据连接可以具有K个W比特数据。还应当注意的是，尽管未在任何附图中示出，但是不同组件之间的数据或地址连接可以伴随有一个或多个信号线。例如，忙信号线可以存在于第一组件和第二组件之间，并且可以由第一组件用于向第二组件传送指示第一组件没有准备好接受有效数据或地址信号的忙信号。而且，有效信号线也可以存在于第一和第二组件之间，并且可以由第二组件用于向第一组件传送指示有效数据或地址信号已经被放在连接线上的有效信号。

配置内存204可以存储由用于一个或多个数据路径的可执行指令和/或数据加载指令组成的数据路径程序。在一个实施方案中，存储在配置内存204中的数据路径程序可以是编译指令的(多个)序列。例如，数据路径程序可以包括要由PE阵列214执行的指令，该指令表示当条件满足时要由哪个PE执行的配置信息，以及每个数据路径组件可以如何保存或发送数据。

序列发生器206可以解码存储在配置内存204中的指令，并将解码的指令移动到内存单元212和物理数据路径中。物理数据路径可以包括PE阵列214的各种组件(例如，PE阵列214中将参与数据的执行、暂存和/或移动的组件)和垫片内存216。解码的指令可用包递送到各个组件，该包可被称为配置包或简单地称为配置。除了解码的指令之外，一个组件的配置包可以包括一些其他参数(例如，在一个配置设置中指定指令被重复执行多少次或者数据通过一个数据切换单元多少次)。在一个实施方案中，物理数据路径配置可被称为物理数据路径程序，该物理数据路径程序可以包括物理数据路径中包括的各种组件的各个配置。尽管未示出，但是可以有一个将序列发生器206连接到数据路径的各个组件的配置总线，用于各个配置分别经由总线递送到这些组件。

内存单元212可以是数据暂存区，用于存储从外部总线230接收的数据，并存储由PE 阵列214生成的执行结果数据(在这些结果可以经由外部总线230发送出去之前)。在一些实施方案中，内存单元212可以是处理器200外部的大型内存系统的一个处理器内高速缓存。 PE阵列214可以包括多个内存端口(MP)220.1-220.N、多个数据交换盒(SB)222.1-222.N、多个处理单元(PE)218.1-218.N和多个列间数据交换盒(ICSB)224.1-224.N。在图2中示出的示例中，PE阵列214可以包括一行处理单元218.1-218.N(例如，一维阵列)，其可以包括N个PE，其中N是整数。在本文描述的实施方案中，数量N可以是32。但这是示例，并且在其他实施方案中，其可以是另一整数，诸如但不限于16、32、64等。虽然给出的这些示例数可以是2的幂，但是在一个实施方案中，一行中PE的数量不需要是2的幂。在一些实施方案中，PE阵列214可以是二维阵列，其可以包括多行处理单元(例如，一行或多行PE 可以定位在PE218.1-218.N下方)。应当注意的是，为了说明的目的，PE阵列214可以是MP、 SB、ICSB和PE的混合，并且被用于统称这些组件。在一些实施方案中，内存单元212和 MP 220.1-220.N可以统称为多端口内存单元。

多个MP 220.1-220.N可以是PE阵列214和内存单元212之间数据流的网关。每个MP220.1-220.N可以分别耦合到内存单元212以从内存单元212读取和向其写入。除了MP220.1 和MP 220.N，所有MP均可以耦合到两个相邻的MP，使得每个MP可以配置成从第一个MP 接收数据和/或向第二个MP发送数据。MP之间的电子耦合可以提供单向数据流(例如，如果一个计算配置指定数据可以从一个MP流到下一MP)。例如，如图2所示，MP 220.1可以耦合到MP 220.2构成单向数据流，MP 220.2可以耦合到MP 220.3构成单向数据流。最后一个MP220.N可以是例外，并且耦合到垫片内存216，该垫片内存可以为数据提供临时存储。第一个MP 220.1可以是另一例外，因为其可以从垫片内存216接收单向数据流。在一些实施方案中，MP 220.1-220.N可以沿着PE行方向形成数据路由总线。也就是说，数据在MP之间路由的方向可以平行于数据在PE之间路由的方向。在具有二维PE阵列214的实施方案中，每个MP220.1-220.N可以被一列PE共享。在一个实施方案中，垫片内存216可以用作数据缓冲器(例如先进先出(First-In-First-Out，FIFO)型)，以从PE阵列收集数据以及在PE阵列应用新的配置时将其反馈回PE阵列。

在一些实施方案中，PE和MP可以为一个配置的指令被静态编程。例如，指令可以作为流水线级被编程到PE和MP，并且在一个配置期间没有指令被改变。地址计算指令和内存访问指令(如读取或存储)可以映射到内存端口(MP)，并且其他指令可以映射到PE。

如图2中所示，ICSB 224.1-224.N中的每一个可以耦合到相应的SB 222.1-222.N和两个相邻的ICSB，ICSB 224.1和ICSB 224.N除外。ICSB 224.1可以耦合到MP 222.1、垫片内存 216和ICSB 224.2。并且ICSB 224.N可以耦合到MP 222.N、垫片内存216和ICSB224.N-1。在一些实施方案中，ICSB 220.1-220.N可以沿着PE行方向形成另一数据路由总线。也就是说，数据在ICSB之间路由的方向可以平行于数据在PE之间路由的方向。ICSB也可被称为数据切换单元。在一个实施方案中，一个或多个ICSB可以被用于路由数据以绕过一个或多个PE。

SB 222.1-222.N可以配置成为相邻的PE、PE到数据路由总线以及由MP 220.1-220.N形成的数据路由总线和由ICSB 224.1-224.N形成的数据路由总线提供数据切换。例如，数据交换盒222.1可以配置成提供数据切换，用于将数据从垫片内存216、MP 220.1和ICSB 224.1 递送到处理单元218.1。而且，数据交换盒222.1可以配置成在垫片内存216、MP220.1和ICSB 224.1之间路由数据。作为另一示例，数据交换盒222.2可以配置成提供数据切换，用于将数据从处理单元218.1、MP 220.2和ICSB 224.2递送到处理单元218.2。而且，数据交换盒222.2 可以配置成在处理单元218.2、MP 220.2和ICSB 224.2之间路由数据。作为又一示例，数据交换盒222.N可以配置成提供数据切换，用于将数据从PE 218.N-1、MP220.N和ICSB 224.N 递送到处理单元218.N。而且，数据交换盒222.N可以配置成在PE218.N-1、MP 220.N和ICSB 224.N之间路由数据。SB也可被称为数据切换单元。

示例性数据路径可以通过MP 222.1至222.N的示例性内部连接来说明。例如，如图2所示，MP 222.1示出PE 218.1的两个输入可以耦合到来自MP 2201的两个输出，SB222.2示出 PE 218.2的两个输入可以耦合到来自MP 220.2的两个输出，以及PE 218.2的两个输入可以耦合到来自PE 218.1的两个输出，SB 222.3示出PE 218.3的两个输入可以耦合到来自MP 220.3 的两个输出，以及PE 218.3的两个输入可以耦合到来自PE 218.2的两个输出，依此类推，直到SB222.N示出PE 218.N的两个输入可以耦合到来自MP 220.N的两个输出以及PE 218.N的两个输入可以耦合到来自PE 218.N-1的两个输出。

为简化措辞，MP 220可指MP 220.1至220.N中的一个，SB 222可以指SB 222.1至222.N 中的一个，PE 218可以指PE218.1至218.N中的一个，以及ICSB 224可以指ICSB224.1至 224.N中的一个。

图3A示意性示出了根据本公开的一个实施方案的用于处理器的一个内存系统。内存系统可以包括内存单元300和多个内存端口220.1至220.N。内存单元300可以是图2中内存单元212的实施方案，并且可以包括多个内存组(例如，表示为302.1的内存组0、表示为302.N 的内存组1、表示为302.N的内存组N-1等)和多个内存高速缓存304.1至304.N。内存组302 中的每一个可以耦合一个相应的高速缓存304。例如，内存组302.1可以耦合到高速缓存304.1，内存组302.2可以耦合到高速缓存304.2，内存组302.N可以耦合到高速缓存304.N，依此类推。每个高速缓存304可以单独耦合到所有的多个内存端口220.1-220.N。例如，高速缓存304.1 可以耦合到MP 220.1至220.N，高速缓存304.2可以耦合到MP 220.1至220.N，高速缓存304.N 可以耦合到MP 220.1至220.N，依此类推。

除了单独耦合到内存单元300的所有高速缓存304.1至304.N之外，MP 220.1至220.4 可以链接形成行方向数据路由总线，同时MP 220.1和MP 220.N分别在一端处耦合到垫片内存216(如图2所示)。MP 220.1至220.N中的每一个可以进一步包括写数入据(WData)输入306和读取数据(RData)输出308。例如，MP 220.1可以包括写入数据输入306.1和读取数据输出308.1，MP 220.2可以包括写入数据输入306.2和读取数据输出308.2，MP 220.N可以包括写入数据输入306.N和读取取数据输出308.N，依此类推。写入数据输入306和读取数据输出308可以耦合到SB 222.1至222.N的相应输出和输入。在一个实施方案中，写入数据输入306中的每一个和读取数据输出308中的每一个可以配置用于向量数据连接。例如，写入数据输入306.1可以是一个32x32输入或两个32x16输入，并且读取数据输出308.1可以是一个32x32输出或两个32x32输出。如本文所使用的，数据输入或数据输出也可被称为数据端口。

内存单元300和MP 220.1至220.N可以支持两种访问模式：私有内存访问模式和共享内存访问模式，其也可以称为私有内存访问方法和共享内存访问方法。在一个MP中，可以使用向量地址读取或写入多个数据单元。一个向量中的这些地址可能彼此不同。在私有内存访问模式中，向量地址中的一个地址可以根据线程索引路由到一个内存组。一个线程的所有私有数据可以位于同一内存组中。在共享内存访问模式中，每个MP都可以访问一个指定区域中的任何位置，无论线程索引如何。共享给所有线程的数据可以分布在所有内存组中。

作为一个示例，对于PE阵列的每一列，其可能具有多个总线通过的一个MP。内存端口可以配置成共享的(例如，共享内存访问模式)或私有的(例如，私有内存访问模式)。每个内存端口可以进一步耦合到数据高速缓存网络。

图3B示意性示出了根据本公开的一个实施方案的用于私有内存访问模式的第一内存映射。每个内存组302.1到302.N可以包括多个“字(word)”。在图3B中所示的实施方案中，内存组的每个字可以是512位宽，并且可以包含32个数据单元，这些数据单元各自可以是 16位。线程“i”的连续数据单元可被称为Si(0)、Si(1)、……，并且存储在内存组i中。例如，用于线程零(“0”)的数据单元S0(0)、S0(1)到S0(31)可以存储在内存组302.1 中的第一个字中，并且用于线程0的数据单元S0(32)、S0(33)到S0(63)可以存储在内存组302.1中的第二个字中，依此类推。类似地，用于线程一(“1”)的数据单元S1(0)、S1 (1)到S1(31)可以存储在内存组302.2中的第一个字中，并且用于线程1的数据单元S1 (32)、S1(33)到S1(63)可以存储在内存组302.2中的第二个字中，依此类推。并且用于线程31的数据单元S31(0)、S31(1)到S31(31)可以存储在内存组302.N中的第一个字中，并且用于线程31的数据单元S31(32)、S31(33)到S31(63)可以存储在内存组N-1 中的第二个字中，依此类推。

在这个第一内存映射的一个实施方案中，用于不同线程的数据单元可以旨在存储在不同的内存组中并且绕回到用于线程N的第一组。例如，对于N等于32，用于第32个线程的数据单元可以存储到内存组0(例如，内存组0中的数据单元S32(0)到S32(31))，用于第 33个线程的数据单元可以存储到内存组1(例如，内存组1中的数据单元S33(0)到S33(31))，用于第63个线程的数据单元可以存储到内存组N-1(例如，内存组0中的数据单元S63(0) 到S63(31))，依此类推。

对于图3B的相同内存结构，可以以不同的方式映射数据。图3C示意性示出了根据本公开的实施方案的用于私有内存访问模式的第二内存映射。图3C中示出的内存单元300可以包括与图3A中相同的多个内存组，以及图3C的内存组302.1至302.N中的每个字也可以是 512位宽，并且每个数据单元是16位宽。线程i的连续数据单元仍然可以存储在内存组i中，但存储在不同的字中。例如，用于线程0的数据单元S0(0)、S0(1)等可以在内存组302.1中在列方向上存储在不同的字中；用于线程1的数据单元S1(0)、S0(1)等可以在内存组302.2中在列方向上存储在不同的字中；用于线程32的数据单元S31(0)、S31(1)等可以在内存组302.N中在列方向上存储在不同的字中；依此类推。

在这个第二内存映射的一个实施方案中，用于不同线程的数据单元可以旨在存储在不同的内存组中并且对于线程N和N的整数倍(例如，2N、3N等)的绕回第一组。而且，具有相同索引的一组不同线程的数据单元可以映射到内存组的相同字。例如，对于N等于32，用于第32线程的数据单元可以存储到内存组302.1的不同字中(例如，内存组302.1第二列中的数据单元S32(0)到S32(99)，其中数据单元S0(m)和S32(m)在相同的字中，m是线程中的数据单元的索引)，用于第33线程的数据单元可以存储到内存组302.2的不同字中 (例如，内存组302.2中的第二列数据单元S33(0)至S33(99)，其中数据单元S1(m)和 S33(m)在同一字中，m是线程中的数据单元的索引)，用于第63线程的数据单元可以存储到内存组302.N(例如，内存组0中的数据单元S63(0)至S63(99)，其中数据单元S3l(m) 和S63(m)在同一字中，m是线程中的数据单元的索引)，依此类推。因为每个字具有32 个数据单元，所以内存组302.1的第一行中的最后的数据单元可以是线程992的第一数据单元S992(0)，内存组302.2的第一行中的最后数据单元可以是线程993的第一数据单元S993 (0)，依此类推，直到内存组302.N的第一行中的最后的数据单元可以是线程1023的第一数据单元S1023(0)。应当注意的是，线程可以具有99个以上的数据单元并且Si(99)(例如 S0(99)等)可能不是线程的最后的数据单元，并且点划线可能表示更多的数据单元可能存在并存储在内存组中。

用于线程1024和更多线程的数据单元可以循环回内存组0的第一列来存储，依此类推。例如，在m为索引的情况下，用于线程1024、1056依此类推直到2016的数据单元(例如，S1024(m)、S1056(m)等直到S2016(m))可以在内存组0的一个字中；用于线程1025、 1057依此类推直到1057的数据单元(例如，S1025(m)、S1057(m)依此类推直到S2017 (m))可以在内存组1的一个字中；以及用于线程105、1087依此类推直到2047的数据单元(例如，S1055(m)、S1087(m)依此类推直到S2047(m))可以在内存组N-1的一个字中。

图3D示意性示出了根据本公开的实施方案的用于共享内存访问的内存映射的一个示例。图3D中示出的内存单元300可以包括与图3A中相同的多个内存组，图3D的内存组302.1 至302.N中的每个字也可以是512位宽，并且每个数据单元是16位宽。在这个示例中，用于共享内存访问的内存映射(连续数据单元A(0)、A(1))可以以交错的方式存储在不同的内存组中。例如，对于N等于32，A(0)、A(1)、A(2)等可以分布在N个内存组中，其中A(1)在内存组0中、A(2)在内存组1中，依此类推，直到A(31)在内存组N-1中；并且绕回，其中A(N)在内存组0中、在与A(0)相同的字中，A(N+1)在内存组1中、在与A(1)相同的字中，依此类推，直到A(N+31)在内存组N-1中、在与A(31)相同的字中；并且以此类推绕回，直到A(992)(例如，A(31N))在内存组0中、在与A(0) 相同的字中，A(993)(例如，A(31N+1))在内存组1中、在与A(1)相同的字中，依此类推直到A(1023)(例如，A(31N+31))在内存组N-1中、在与A(31)相同的字中。在可以填充内存组的一个字之后，更多连续的数据单元可以分布在内存组的另一字中。例如， A(1024)、A(1056)到A(2016)可以在内存组0中的另一字中；A(1025)、A(1057)到A(2017)可以在内存组1中的另一字中；依此类推，直到A(1055)、A(1087)到A(2047) 可以在内存组N-1中的另一字中。

不管私有或共享内存访问模式，存储单元300的高速缓存304.1-304.N中的每一个可以包括多个高速缓存线，该多个高速缓存线各自可以临时存储来自相应内存组的内存字。例如，高速缓存304.1可以包括多个高速缓存线，该多个高速缓存线各自可以配置成临时存储从内存组302.1(例如，内存组0)取回的一个字，高速缓存304.2可以包括多个高速缓存线，该多个高速缓存线各自配置成临时存储从内存组302.2(例如，内存组1)取回的一个字，高速缓存304.N可以包括多个高速缓存线，该多个高速缓存线各自配置成临时存储从内存组302.N (例如，内存组N-1)取回的一个字，依此类推。当所请求的一个或多个数据段(例如，一个或多个数据单元)不在高速缓存中时，可能会产生高速缓存未命中。在一个实施方案中，当存在高速缓存未命中时，可以将存储单元300的内存组(例如，在图3B、图3C或图3D中)的一个内存字作为一个高速缓存线提取到高速缓存中。一般而言，高速缓存大小越大，则越多的高速缓存线可以用来存储内存字，并且可以预期越低的高速缓存未命中率。在一些实施方案中，高速缓存中的存储单元可以实施为寄存器。

内存单元212中的数据存储可以由MP 220.1至220.N通过高速缓存304.1至304.N访问。每一列处的内存端口(MP)可以配置有相同的组件来执行内存操作，例如，计算地址和发布读取和/或存储操作。在一些实施方案中，一个高速缓存304可以同时被多个MP访问。MP中的每一个可以配置成提供两种访问模式：私有内存访问模式和共享内存访问模式。由于SIMT的特性，映射到一个MP的内存不同线程的读取或写入指令属于同一类型，即共享的或私有的。而且，MP可以配置成私有或共享内存访问模式持续一个配置的持续时间。

图4A示意性示出了根据本公开的实施方案的用于内存端口(MP)400的第一内存访问配置。MP 400可以是内存端口220的一个实施方案。图4A中示出的第一内存访问配置可以是用于私有内存访问模式的一个示例配置。在操作期间，MP 400可以从序列发生器接收用于物理数据路径的内存端口(MP)配置，并且MP配置可以指定对于该物理数据路径，MP 400可以配置成用于私有内存访问模式。MP 400可以包括地址计算单元402和计数器404。地址计算单元402可以将基地址取为第一输入，将偏移取为第二输入，并且从计数器404取第三输入。基地址可以是对于所有线程的公用地址。偏移可以耦合到MP 400的地址输入端口，该端口可以配置成接受向量地址。向量地址可以包括用于每一个并发线程的各个地址，并且这些地址可被称为地址偏移。在一个实施方案中，第一内存访问配置中的基地址可以包含线程0的数据单元0(例如S0(0))的起始地址。并发线程的数量可能受到PE中ALU的数量以及向量地址和向量数据总线的宽度的限制。例如，如果PE的ALU向量中的ALU的数量是N，并且向量地址可以包括N个地址，并且向量数据总线可以包括N个数据总线，则可以有N个并发线程。偏移输入可以是用于N个线程的向量地址。每一个地址偏移(例如，向量地址中的每一个地址)可以独立编程/计算。

来自计数器404的第三输入可以为地址计算单元402提供线程号(例如，索引)，并且因此，计数器404可被称为线程计数器。在一个实施方案中，地址向量、读取数据向量和写入数据向量可以利用一对一映射简单地分进每个内存组，使得不同线程的数据可以映射到不同的内存组。例如，向量地址中的第i个地址可以用于线程i(小写字母“i”表示线程号，对于第一个线程可以从零开始)，并且计数器404可以向地址计算单元402提供线程号向量，使得地址计算单元402可以将N个地址生成为A_0、A_1、……、A_N-1，在这个示例中，其对应于ALU的向量大小。向量地址中的每个地址可以映射到地址A_i和相应内存组的相应地址输出(例如，A_0耦合到用于内存组0高速缓存304.1的地址端口410.1，A_N-1耦合到用于内存组N-1高速缓存304的地址端口410.N等)。向量写入数据端口WData 406中的第i个数据线可以映射到WD_i(例如，WD_0耦合到用于内存组0高速缓存304.1的写入数据端口 412.1，WD_N-1耦合用于内存组N-1高速缓存304.N的写入数据端口412.N，等等)。向量读取数据端口RData408中的第i个数据线可以映射到RD_i(例如，RD_0耦合到用于内存组0 高速缓存304.1的读取数据端口414.1，RD_N-1耦合用于内存组N-1高速缓存304.N的读取数据端口414.N，等等)。对这个配置来说可能不需要总线开关，并且在这个级上可能没有内存争用。

应该注意的是，内存组的数量不需要与向量大小相同。例如，向量(例如，向量ALU、向量地址、向量数据端口)可以具有向量大小＝V，PE阵列可以具有列数＝N，并且内存单元可以具有内存组数＝M，并且V、N和M可以全部不同。为了方便起见，大写字母N在本文可以用于表示向量大小、PE的列数和内存组的数量，但是在不同的组件中由N表示的数量可以相等或不同。

对于大于数字N的线程数，地址计算单元402和计数器404可以生成到N个内存组的循环内存映射。例如，线程32可以映射到内存组0高速缓存304.1(例如，在图3B和图3C中S32(0)映射到内存组302.1)，线程63可以映射到内存组N-1高速缓存304.N(例如，在图 3B和图3C中S63(0)映射到内存组302.N)。

图4B示意性示出了根据本公开的实施方案的用于MP 400的第二内存访问配置。图4B 中示出的第二内存访问配置可以是用于共享内存访问模式的一个示例配置。在操作期间，MP 400可以从序列发生器接收用于物理数据路径的内存端口(MP)配置，并且MP配置可以指定对于该物理数据路径，MP 400可以配置成用于共享内存访问模式。地址计算单元402可以将基地址取为第一输入，并且将偏移量取为第二输入，与图4A中的第一内存访问配置相同。但是计数器404不用于共享内存访问模式，并且可以忽略来自计数器404的输入。共享内存的基地址对所有线程都是公用的，但是偏移在每个线程中可能不同。地址计算单元402可以将N个地址生成为A_0、A_1、……、A_N-1，在这个示例中，其对应于ALU的向量大小。与图4A中的第一内存访问配置(其中每个地址A_i可以映射到一个内存组)相反，在第二内存访问配置中，来自地址计算单元402的N个地址可以递送到多个地址选择单元(例如，“选择2”单元416.1至416.N)。每个地址选择单元416.1至416.N也可以采用掩码作为输入 (例如“组0”、……、和“组N-1”)，并且针对特定内存组的地址可以由相应的选择单元仲裁，使得可以选择几个地址。可以选择的地址的上限数量可以取决于设计考虑，例如2、3或更多。并且因为向量地址可以具有固定数量的地址，如果不止一个地址指向一个内存组，则可能有一个或多个内存组没有被地址指向。所选择的地址可以映射到用于内存组高速缓存的内存端口(例如，用于内存组0高速缓存304.1的地址端口426.1，用于内存组N-1高速缓存 304.N的地址端口426.N等)。例如，在一个实施方案中，可以从N个地址中选择多达两个地址并且每个地址端口426.1至426.N可以配置成为相应的内存组递送多达两个内存地址。

因为可以为一个内存组选择多个地址，所以可以提供写入数据选择单元(例如，“选择2”单元418.1至418.N)和读取数据选择单元(例如，“选择”单元420.1至420.N)来将多个数据端口从向量数据端口WData 406和RData 408映射到一个内存组。写入数据选择单元418.1 至418.N中的每一个可以从相应的数据选择单元416.1至416.N获取输入，并且将来自写入数据线WD_0到WD_N-1中的多个写入数据线映射到用于所选内存组的相应写入数据端口 (例如，用于内存组0高速缓存304.1的写入数据端口422.1，用于内存组N-1高速缓存304.N 的写入数据端口422.N)。读取数据选择单元420.1至420.N中的每一个可以从由相应选择单元418.1至418.N传递的相应数据选择单元416.1至416.N获取输入，并且将来自读取数据线 RD_0到RD_N-1中的多个读取数据线映射到用于所选内存组的相应读取数据端口(例如，用于内存组0高速缓存304.1的读取数据端口424.1，用于内存组N-1高速缓存304.N的读取数据端口422.N)。在可以从N个地址中选择多达两个地址的实施方案中，地址端口426.1至 426.N、写入数据端口422.1至422.N和读取数据端口424.1至424.N的宽度可以是地址端口 410.1到410.N、写入数据端口412.1至412.N和读取数据端口414.N的宽度的两倍。

处理器的实施方案可以包括大量的ALU并支持大规模并行线程。内存访问可能非常繁忙。使用多端口内存来满足要求可能极其昂贵。如果使用大量的内存组，则复杂性也可能变得非常高。示例私有内存访问可以降低内存结构的复杂性，并支持用于并行处理的许多典型内存模式。下列给出了一些典型的私有内存访问模式。

表1私有内存访问模式

在一些实施方案中，私有内存访问可以同时允许来自从所有线程的随机访问数据，但是对于每个线程访问不同的内存区域。这使得程序员能够以传统的风格编写软件，而无需复杂的数据向量化和底层处理器硬件架构的详细知识。这可以使相同指令多线程(SIMT)编程能够可应用于PE阵列的实施方案。也就是说，一个指令可以由一个PE中的多个线程同时执行。

由于不重叠的性质，总吞吐量可能是所有线程的吞吐量之和。私有内存访问模式的实施方案可以支持来自每个线程的同时访问的大吞吐量。第一和第二内存数据映射可以在典型的私有数据访问模式中允许最小的内存争用。私有内存访问的实施方案也可以降低内存系统的复杂性。可以显著减少内存组的数量。并行高速缓存结构还可以减小总的高速缓存大小，因为高速缓存中的每个内容可以是唯一的。而且，私有内存访问的实施方案可以通过允许来自多个内存端口的同时的高速缓存访问来显著减少对内存组的访问。

在一个实施方案中，对于具有32x32 ALU的PE阵列大小，使用私有内存访问配置可能只需要32个内存组(例如，如图4A所示)。这可以从传统设计用于支持由每个线程使用的不同地址所需的1024个内存组中大大减少内存组数量。

不同的内存访问模式可以使用不同的映射方法，图3B和图3C中的映射可以由图4A中示出的内存访问配置的实施方案使用地址生成指令来支持。

图3B中的第一内存映射可以很好地处理表1中的案例1、案例2、案例3和案例4。在表1中的案例6中，如果范围在缓存大小内，则也可以很好地处理。图3C中的第二内存映射可以很好地处理表1中的例1、案例2、案例3和案例5。

在一些实施方案中，可能发生寄存器溢出。寄存器溢出可能是指这样的场景，即当编译器正生成机器代码时，存在多于机器可能拥有的寄存器数量的活动变量，并且因此一些变量可能会转移或溢出到内存中。用于寄存器溢出的内存可能对每个线程都是私有的，这些溢出的变量可能需要存储在私有内存中。由于用于寄存器溢出的所有地址偏移对于每个线程可能相同，因此其类似于表1的案例5中的非单位步幅模式，溢出的变量可以使用第二内存映射来存储，如图3C所示，并且可能没有内存争用。

示例共享内存访问模式也可以降低内存结构的复杂性，并支持用于并行处理的许多典型内存模式。下列给出了一些典型的共享内存访问模式。

表2共享内存访问模式

在一些实施方案中，共享内存访问可以同时允许来自每个并行线程的随机数据访问。所有线程都可以访问内存单元中公用区域中的任何地方。在一个实施方案中，公用区域可以是包括所有内存组的共享内存空间。在另一实施方案中，公用区域可以是跨多个内存组的共享内存空间。这可能使程序员能够以传统风格编写软件，而无需复杂的数据向量化和底层处理器硬件架构的详细知识。这也可以使得SIMT编程能够可应用于PE阵列的实施方案。

共享内存访问的实施方案可以降低内存系统的复杂性。可以显著减少内存组的数量。并行高速缓存结构还可以减小总的高速缓存大小，因为高速缓存中的每个内容可以是唯一的。而且，共享内存访问的实施方案可以通过允许来自多个内存端口的同时的高速缓存访问来显著减少对内存组的访问。

应该注意，如图2所示，每个MP可以提供两个读取数据端口(从内存单元212到MP的两个箭头和到相应的SB的两个箭头，例如对于MP 220.1，在顶部从内存单元212开始的两个箭头和在底部到SB 222.1的两个箭头)和两个写入数据端口(到内存单元212的两个箭头和从相应的SB开始的两个箭头，例如，对于MP220.1，在顶部从内存单元212开始的两个箭头和在底部到SB 222.1的两个箭头)，除了来自下一MP或垫片内存216和到下一MP 或垫片内存216的两个输入和输出(例如，在MP之间从左到右的、和从MP 220.N到垫片内存216的以及从垫片内存216到MP 220.1的两个水平箭头)。也就是说，在一些实施方案中， MP 400可以具有两套重复的图4A和图4B中示出的组件，以提供用于两个并发数据访问操作的两个并发内存访问，例如两个读取、两个写入或一个读取和一个写入。在一些实施方案中，两个并发数据访问操作可以是向量数据操作。也就是说，两个读取操作可以是两个向量数据读取(例如，读取2N段数据，其中N是并发线程的数量)，两个写入操作可以是两个向量数据写入(例如，写入2N段数据，其中N是并发线程的数量)，以及一个读取和一个写入操作可以是一个向量数据读取和一个向量数据写入(例如，读取N段数据和写入N段数据，其中N是并发线程的数量)。例如，在一个实施方案中，为了执行并发的一个读取和一个写入操作，MP可以为同一列中的PE读取N段数据，并且同时将从前一列中的PE生成的N段数据写入。

在一个实施方案中，对于具有32x32 ALU的PE阵列大小，使用共享内存访问配置可能只需要32个内存组(例如，如图4B所示)。这可以从传统设计用于支持由每个线程使用的不同地址所需的1024个内存组中大大减少内存组数量。

图5示意性示出了根据本公开的实施方案的数据交换盒(SB)500。SB 500可以是SB222 的一个实施方案，并且可以包括多个数据输入和数据输出，以及将数据输出耦合到数据输入以进行数据切换的互连件。SB 500的数据输入可以包括数据输入502.1、502.2、512.1、512.2、 514.1和514.2。SB 500的数据输出可以包括数据输出504.1、504.2、506.1、506.2、508.1、 508.2、510.1和510.2。SB 500可以进一步包括配置缓冲器518和相应的配置输入516。配置缓冲器518可以实施为先进先出缓冲器，并被称为C-FIFO 518。配置输入516可以从外部耦合到配置总线，该配置总线耦合到序列发生器206，用于SB 500从序列发生器206接收配置。用于SB 500的配置可被称为SB配置。另外，SB 500可以进一步包括多个计数器520.1至520.8，该多个计数器各自对应于一个数据输出，例如，计数器520.1用于数据输出504.1、计数器520.2用于数据输出504.2、计数器520.3用于数据输出506.1、计数器520.4用于数据输出506.2、计数器520.5用于数据输出508.1、计数器520.6用于数据输出508.2、计数器520.7 用于数据输出510.1、以及计数器520.8用于数据输出510.2。

SB 500的每个数据输入可以耦合到一些数据输出。例如，数据输入502.1可以耦合到数据输出506.1、506.2、508.2、510.1和510.2；数据输入502.2可以耦合到数据输出506.1、506.2、 508.1、510.1和510.2；数据输入512.1可以耦合到数据输出504.1、504.2、506.1、506.2和 508.1；数据输入512.2可以耦合到数据输出504.1、504.2、506.1、506.2和508.2；数据输入 514.1可以耦合到数据输出504.1、506.1、506.2、508.1和510.2；以及数据输入514.1可以耦合到数据输出504.2、506.1、506.2、508.2和510.1。

在外部，根据SB 500在PE阵列214中的位置，数据输入502.1和502.2以及数据输出504.1和504.2可以耦合到一个MP 220或另一SB 222(例如，在多行PE阵列中)。数据输入514.1和514.2可以耦合到一个PE 218或垫片内存216。数据输入512.1和512.2以及数据输出510.1和510.2可以耦合到另一SB 222(例如，在多行PE阵列中)或一个ICSB 224。数据输出506.1、506.2、508.1和508.2可以耦合到一个PE 218。从数据输出506.1、506.2、508.1 和508.2输出的数据信号可以表示为A、B、C、D，并且从数据输入514.1和514.2输入的数据信号可以表示为X、Y。这些数据信号A、B、C、D和X、Y可以是到一个PE 218的输入数据信号，和来自一个PE 218的输出数据信号，如本文所述。

数据输出处的计数器520.1-520.8中的每一个可以独立地负责计数通过的数据。当一个或多个配置可以加载到C-FIFO 518中时，每个配置可以指定计数的数量。在一个配置的执行期间，所有计数器可以独立地计数数据已经通过多少次。当所有计数器达到配置中指定的计数数量时，可以应用下一个配置。类似的方法可以应用在ICSB 224、PE 218、垫片内存216和内存端口220内部。因为这些计数器可以帮助具有此类计数器的每个组件的配置和重构，所以这些计数器可被称为重构计数器，并且具有这样的计数器的组件可被称为可重构单元。处理器200的实施方案可以使用各种可重构单元提供大规模并行数据处理，并且可被称为可重构并行处理器(reconfigurable parallel processor，RPP)。

图6示意性示出了根据本公开的实施方案的处理单元(PE)600。PE 600可以是PE218 的一个实施方案。PE 600可以包括算术逻辑单元(ALU)602、多个数据缓冲器(例如，D-FIFO 604.1、604.2、604.3和604.4)、计数器606、多个数据输出(例如，608.1和608.2)、多个数据输入(例如，610.1、610.2、610.3和610.4)、配置输入612和配置缓冲器(例如C-FIFO)614)。在一个实施方案中，ALU 602可以是一个ALU(例如，一个ALU配置成一次处理一段数据，并且可被称为标量ALU)。在一些其他实施方案中，ALU 602可以是ALU的向量(或称为向量ALU)，例如，N个ALU(其中N可以称为ALU的向量大小)，并且相同指令多数据(SIMD)操作可以应用于向量的所有ALU。请注意，标量ALU可能是向量大小为1的向量ALU的特例。

从数据输入610.1、610.2、610.3和610.4接收的数据信号可以表示为A、B、C、D，并且从数据输出608.1和608.2输出的数据信号可以表示为X、Y。在ALU 602可以是一个ALU 的实施方案中，每个数据输入610.1、610.2、610.3或610.4以及每个数据输出608.1或608.2可以具有M比特宽度(其可以与ALU的宽度匹配)。例如，对于8比特的ALU，每个输入和输出可以是8比特的；对于16比特的ALU，每个输入和输出可以是16比特的；对于32 比特的ALU，每个输入和输出可以是32比特的；以此类推。并且每个输入数据信号A、B、 C、D和每个输出信号X、Y可以是M比特。在ALU 602可以是ALU向量的实施方案中，每个数据输入610.1、610.2、610.3或610.4可以是N个M比特输入的向量，并且每个数据输出608.1或608.2可以是N个M比特输出的向量。并且每个输入数据信号A、B、C、D和每个输出数据信号X、Y可以是NxM比特。

数据缓冲器604.1至604.4可以耦合到输入610.1、610.2、610.3和610.4，以临时存储数据段。然而，在一些实施方案中，数据缓冲器可以定位为输出。D-FIFO 604.1至604.4可以用于去耦PE的时序，以允许PE独立地工作。在一个实施方案中，缓冲器可以实施为FIFO(例如，用于数据缓冲器的D-FIFO，用于配置缓冲器的C-FIFO)。

配置缓冲器C-FIFO 614可以从配置输入612接收配置，该配置输入可以经由配置总线从外部耦合到序列发生器206，并且在数据路径的任何执行开始之前存储接收到的配置。用于 PE 600的配置可被称为PE配置。PE 600可以为一个配置的指令被静态编程，例如，指令可以作为流水线一级编程到PE 600。在一个配置期间，无指令可以改变。一旦进行了配置，如果D-FIFO 610.1、610.2、610.3和610.4具有数据并且输出端口608.1和608.2不忙，则可以触发ALU 602(例如，取决于特定实施方案的一个ALU或ALU的向量)的操作。配置参数中的一个可以指令的指定执行次数。计数器606可以利用指定的次数来编程，并计数已经通过执行指令来处理数据的次数。当执行的数量达到指定数量时，可以应用新的配置。因此，可以在每个PE中提供重构能力。在一个实施方案中，这个指定执行次数可被称为 NUM_EXEC，并且这个NUM_EXEC可以在用于一个配置的数据路径上使用。

在具有多行PE阵列214的一个实施方案中，每列中的PE可以在功能上彼此不同，但是沿着每行的PE遵循重复的模式(例如，功能上是重复的)。例如，第一行PE中的ALU可以实施第一组指令，以及第二行PE中的ALU可以实施不同于第一组指令的第二组指令。也就是说，在PE 600的不同实施方案中，ALU 602可以包括不同的结构或不同的功能性组件。在一些实施方案中，处理器的一行或多行PE可以包括相对简单并且使用较少空间的ALU，并且同一处理器的另一行PE可以包括可能相对更复杂并且使用更多空间的ALU。相对简单的 ALU实施的一组指令可以不同于由相对复杂的ALU实施的一组指令。例如，PE 600的一个实施方案可以具有实施一组指令的ALU 602(例如，一个ALU或ALU的向量)，这些指令需要相对简单的结构，诸如但不限于加法(例如，A+B)、减法(例如，A-B)等；而PE 600 的另一实施方案可以具有ALU 602实施一些指令需要相对更加复杂的结构，诸如但不限于乘法(例如，A乘以B(A*B))、MAD(用于乘法-累加(MAC)操作)(例如，A*B+C)。

图6B示意性示出了根据本公开的另一实施方案的另一处理单元(PE)620。处理单元620 可以是PE 218的一个替代性实施方案。如图6B所示，PE 620可以具有类似于处理单元600 的结构，不同之处在于具有多个指示器“S”622.1至622.4，这些指示器中的每一个可以与一个相应的D-FIFO相关联。例如，指示器622.1可以与D-FIFO 604.1相关联，指示器622.2可以与D-FIFO 604.2相关联，指示器622.3可以与D-FIFO 604.3相关联，并且指示器622.4可以与D-FIFO 604.4相关联。这些指示器可以用于静态读取配置(也称为静态加载配置)。例如，在一个配置期间，可以根据该配置将指令设置为由PE执行指定次数(例如， NUM_EXEC＝3)。执行一个指令可以使用来自所有四个D-FIFO 604.1到604.4的数据。可以设定指示器622.2，而不设定其他指示器622.1、622.3和622.4。在重复指令的同时，可以重新使用D-FIFO 604.2中的数据，但是D-FIFO 604.1、604.3和604中的新数据可以用于指令的每一个重复。

图7示意性示出了根据本公开的实施方案的列间数据交换盒(ICSB)700。ICSB 700可以是ICSB 224的一个实施方案，并且可以包括多个数据输入和数据输出，以及将数据输出耦合到数据输入以进行数据切换的互连件。ICSB 700的数据输入可以包括数据输入704.1、704.2 和710.1至710.4。ICSB 700的数据输出可以包括数据输出506.1、506.2、506.1和708.1至 708.4。ICSB 700可以进一步包括配置缓冲器702和相应的配置输入712。配置缓冲器702可以实施为先进先出缓冲器，并被称为C-FIFO 702。配置输入712可以从外部耦合到配置总线，该配置总线耦合到序列发生器206。另外，ICSB 700可以进一步包括多个计数器714.1至714.6，该多个计数器各自对应于数据输出，例如，计数器714.1用于数据输出708.1、计数器714.2 用于数据输出708.2、计数器714.3用于数据输出708.3、计数器714.4用于数据输出708.4、计数器714.5用于数据输出706.1、以及计数器714.6用于数据输出706.2。

ICSB 700的每个数据输入可以耦合到一些所选择的数据输出。例如，数据输入704.1可以耦合到数据输出708.1至708.4；数据输入704.2可以耦合到数据输出708.1至708.4；数据输入710.1可以耦合到数据输出706.1至706.2、以及708.1；数据输入710.2.2可以耦合到数据输出706.1至706.2、以及708.2；数据输入710.3可以耦合到数据输出706.1至706.2、以及708.3；以及数据输入710.4可以耦合到数据输出706.1至706.2、以及708.4。

在外部，数据输入704.1和704.2以及数据输出706.1和706.2可以耦合到SB 222。数据输入710.1至710.4可以耦合到相邻的ICSB 224或垫片内存216。数据输出708.1至708.4可以耦合到另一相邻的ICSB 224或垫片内存216。

数据输出处的计数器714.1-714.6中的每一个可以独立地负责计数通过的数据。当一个或多个配置可以加载到C-FIFO 702中时，每个配置可以指定计数的数量。用于ICSB700的配置可以称为ICSB配置。在PE阵列214的一个配置的执行期间，所有计数器可以独立地计数数据已经通过多少次。当所有计数器达到配置中指定的计数数量时，可以应用下一个配置。这种实施方式可以类似于可以应用在SB 222、PE 218、垫片内存216和内存端口220内部的实施方式。

图8示意性示出了根据本公开的实施方案的垫片内存800。垫片内存800可以是图2中示出的垫片内存216的一个实施方案。垫片内存800可以包括用于临时存储数据的多个数据缓冲器。数据缓冲器可以实施为先进先出(FIFO)缓冲器，并且被称为D-FIFO(例如，D-FIFO 802.1至802.F，F是等于或大于8的整数)。此外，垫片内存800可以包括多个数据输入(例如，814.1至814.2、816.1至816.2和818.1至818.4)、多个数据输出(例如，808.1至808.2、 810.1至810.2和812.1至812.4)、输入配置缓冲器(例如，输入C-FIFO 804)、输出配置缓冲器(例如，输出C-FIFO 806)、配置输入816、多个输入计数器820.1至820.L(L是等于或大于4的整数)、以及多个输出计数器822.1至822.4。

来自MP 220.N、PE 218.N和ICSB 224.N的外部连接可以分别作为数据输入814.1至 814.2、816.1至816.2和818.1至818.4处的输入。并且到MP 220.1、SB 222.1和ICSB224.1 的外部连接可以分别在数据输出808.1至808.2、810.1至810.2和812.1至814.4处产生输出。配置输入816可以经由用于垫片内存800的配置总线从外部耦合到序列发生器206，以从序列发生器206接收配置。用于垫片内存800的配置可被称为垫片内存配置。可以从序列发生器206接收两种类型的配置：输入配置和输出配置。输入C-FIFO 804可以存储输入配置用于将输入ICSB端口818.1至818.4耦合到从L个D-FIFO 802.5至802.F中选择的一些数据FIFO 的，作为这些选择的D-FIFO的输入。输出C-FIFO 806可以存储配置用于从L个D-FIFO 802.5 至802.F中选择一些数据FIFO耦合到ICSB端口812.1至812.4的。

存储ICSB输入的垫片式D-FIFO 802.5到802.F的数量可能大于或等于输入或输出ICSB 端口的数量。在一些实施方案中，如本文所述，可以存在一个数据连接可以绕过物理数据路径的至少一部分。例如，在相同的物理数据路径配置中，由一个PE 218生成的执行结果对于另一PE 218而言可能是不需要的，但是可以在未来的配置中使用。执行结果的这些数据信号可以经由SB 222和ICSB 224路由到垫片内存216，并存储在垫片内存216的D-FIFO中，用于未来的配置。因此，在一些实施方案中，垫片内存800可以具有比输入或输出端口的数量更多的D-FIFO。

数据输入处的输入计数器820.1至820.L中的每一个和数据输出处的输出计数器822.1至 822.4中的每一个可以独立地负责对通过的数据进行计数。当一个或多个输入配置和输出配置可以加载到输入C-FIFO 804和输出C-FIFO 806中时，每个配置可以指定计数的数量。在一个配置的执行期间，所有计数器可以独立地计数数据已经通过多少次。当所有计数器达到配置中指定的计数数量时，可以应用下一个配置。

图9A示意性示出了根据本公开的实施方案的执行内核900的示例依赖图。在一个实施方案中，可以在一个回路(例如，一个例程或一个子例程)中运行的指令序列可被称为一个执行内核或简单地称为内核。群组中的指令可能有一些依赖性。例如，内核900可以具有在依赖图中表示为A到K的指令。指令A可以是内核900的依赖图中的第一条指令。指令B和指令C可能需要指令A的输出。指令D和指令K两者可能需要指令B的输出。指令D也可能需要指令C的输出。指令E和指令F两者可能都需要指令D的输出。指令G、指令H 和指令I可能需要指令F的输出。除了指令F的输出之外，指令G还可能需要指令E的输出。指令J可能分别需要指令G、指令H和指令I的输出。并且最后，指令K可能需要指令B和指令I的输出。根据本公开的实施方案，内核900的依赖图可以映射到要由一个处理器执行的数据路径。

图9B示意性示出了根据本公开的实施方案的映射到处理器的虚拟数据路径(virtual data path，VDP)中的图9A的执行内核900的依赖图。在一些实施方案中，内核的依赖图到处理器的映射可能受到多个因素的限制，例如，PE阵列的大小、PE之间的连接、内存访问能力等。应当注意的是，图2中的处理器200示意性地示出了具有一行PE的处理器的一个实施方案，但是在图9B所示的实施方案中，内核900的虚拟数据路径可以映射到具有两(“2”) 行PE的处理器。一般而言，根据本公开内容的实施方案的处理器可以利用1-D或2-D数据路径(包括处理单元(PE)阵列和互连件)来处理大规模并行数据。每个数据路径可以分割成多个区段。在1-D数据路径中，区段可以在一列中包括内存端口、数据交换盒、PE和ICSB；在2-D数据路径中，区段可以在一列中包括内存端口、两个或更多个数据交换盒、两个或更多个PE以及ICSB。可以使数据路径在每个区段中相同。这允许内核的依赖图映射到虚拟数据路径中，该虚拟数据路径在一维上可以包括数据路径区段的任意需要数量的重复(例如，不受限的或者甚至理论上无限的)。例如，内核的指令可以映射到PE的列，并在行方向上重复地扩展(例如，如果需要的话，从行的开头循环回来)。

图9C示意性地示出了根据本公开的实施方案的划分为处理器的物理数据路径的图9B的虚拟数据路径。在一个实施方案中，为了简化编译器工作，可以使物理数据路径(PDP)具有重复的结构。例如，每个列可以是相同的，并且每个PDP可以包括相同量的重复列。如图 9C所示，对于2x2 PE阵列，图9B的VDP可以分成三个PDP(例如，PDPl、PDP2和PDP3)，并且因此这三个PDP可以具有相同的结构。2x2 PE阵列可以是RPP的实施方案的整个PE阵列，或者可以是RPP的另一实施方案的NxN(例如，作为示例N为32)PE阵列的一部分。一个PDP中的PE之间(例如，从A到B和C、从B到D、从C到D等)、两个连续的PDP 之间(例如，从D到E和F、从G到J、从H到J、从F到I等)和不连续的PDP之间(例如，从B到K)可能存在许多连接。在一个PDP中，PE阵列中的所有PE可以应用用于当前 PDP的配置，并且来自一个指令的数据可以根据依赖性直接流到另一指令。例如，PE可以配置成在PDPl中执行指令A，并且来自这个PE的数据可以直接从这个PE流到配置成执行指令B和C的PE。在PDP之间，来自一个PDP的数据可以流入垫片内存以便于临时存储。数据也可以从垫片内存流出，作为对新配置中的下一物理数据路径的输入。例如，在一个配置中，PE可以配置成在PDPl中执行指令B，并且来自这个PE的数据可以存储到垫片内存，并用作配置成在未来配置中在PDP3中执行指令K的PE的输入。

图10示意性示出了根据本公开的实施方案的用于处理器的一个流水线操作。图10中示出的流水线操作的示例可以是图9C的映射到四个PE(PE0、PE1、PE2和PE3)的2x2 PE 阵列的物理数据路径。虚拟数据路径的A、B、C、……、K的指令可以被分割成多个PDP： PDP1、PDP2和PDP3，如图9C所示。PE0可以配置成在PDPl中执行指令A、在PDP2中执行指令E和在PDP3中执行指令I。PE1可以配置成在PDPl中执行指令B、在PDP2中执行指令F和在PDP3中执行指令J。PE2可以配置成在PDPl中执行指令C、在PDP2中执行指令G和在PDP3中执行指令K。PE3可以配置成在PDP1中执行指令D、在PDP2中执行指令 H以及在PDP3中不执行指令。

在操作期间，一个PE中的所有并发线程可以执行相同的指令，并且每个指令可以在一个PE中作为一个流水线级执行多次。也就是说，每个PE可以配置成作为一个流水线级执行指令NUM_EXEC次。例如，在每个PE包括向量大小为1的ALU向量的一个实施方案中，每个指令可以配置成在每个PE处由ALU向量执行4次。4次执行可以由4个线程表示，该四个线程以每个线程处于不同的阴影进行处理。例如，在PDPl中，PE0可以配置成执行指令 A四次，PE1可以配置成执行指令B四次，PE2可以配置成执行指令C四次，并且PE3可以配置成执行指令D四次。在PDP2中，PE0可以配置成执行指令E四次，PE1可以配置成执行指令F四次，PE2可以配置成执行指令G四次，并且PE3可以配置成执行指令H四次。在 PDP3中，PE0可以配置成执行指令I四次，PE1可以配置成执行指令J四次，PE2可以配置成执行指令K四次，并且PE3可以没有配置指令。在这个实施方案中，因为不同指令之间可能存在数据依赖性，所以执行取决于另一指令的指令的线程可以在时间上稍后执行。例如，指令B可以取决于来自指令A的执行结果的数据，并且因此，执行指令B的第一线程可以在执行指令A的第一线程之后的一个周期中跟随执行，执行指令B的第二线程可以在执行指令 A的第二线程之后的一个周期中跟随执行，执行指令B的第三线程可以在执行指令A的第三线程之后的一个周期中跟随执行，并且执行指令B的第四线程可以在执行指令A的第四线程之后的一个周期中跟随执行。由于静态重构方案和指令的依赖性，在DPD重构期间可能会有一些时间损失，例如，在PDPl到PDP2转换期间，PE2可能有一个空闲周期。在每个PE具有向量大小N大于1的向量ALU的实施方案中，每个PE可以一次执行N个并发线程，并且图10中的每个阴影线程可以表示N个并发线程。

在各种实施方案中，垫片内存可以提供在重构期间降低效率损失的方法。例如，即使在重构(例如，在PDP1的指令C和PDP2的指令G之间的PE2的重构)期间可能有一些空闲时隙，如果使用更大数量的线程，则与总的繁忙周期相比，空闲时隙可能是不重要的。

图11A至图11I示意性示出了根据本公开的实施方案的处理器的一个配置过程。配置过程可示出数据路径(DP)配置和重构。序列发生器单元(SEQ)1102可以是序列发生器206的一个实施方案，并且可以负责为每个PE(例如，PE_0 1104、PE_1 1106和PE_2 1108)和数据交换盒(SB)(例如，SB_1 1110、SB_2 1112、ICSB_1 1114和ICSB_2 1116)调度指令/ 配置。PE 1104、1106和1108中的每一个都可以是PE 218的实施方案。SB 1110和1112中的每一个都可以是SB 222的实施方案。ICSB 1114和1116中的每一个都可以是ICSB 224的实施方案。图11A的PE和SB(包括SB和ICSB)中的每一个都可以经由配置总线(示出为从 SEQ 1102开始的点划线)耦合到SEQ 1102。在这个示例中，执行内核的虚拟数据路径(VDP) 可以映射为两个物理数据路径(PDP)。应当注意的是，这个示例内核可以不同于图9A至图 9C和图10所示的数据路径示例。PE可以表示为数字前面具有下划线(诸如图11A至图11I 中的PE_0、PE_1和PE_2)，以区别图10中的示例PE0、PE1、PE2和PE3。

在图11A至图11I中的示例配置过程中，第一PDP(例如，其可被称为在数字前面具有下划线的PDP_1，以区别于图9C的数据路径示例)可以使用数据路由PE_0→PE_1、 PE_1→PE_2，并且第二PDP(例如，其可被称为PDP_2以区别于图9C的数据路径示例) 可以使用不同的路由PE_0→PE_1、(PE_0，PE_1)→PE_2。也就是说，在第一个PDP中， PE_1可以依赖PE_0的输出用于其操作，PE_2可以依赖PE_l的输出用于其操作；在第二个 PDP中，PE_1可以依赖PE_0的输出用于其操作，PE_2可以依赖PE_1的输出和PE_1的输出两者用于其操作。

图11A示出了最初整个DP还没有经过配置。所有PE可能处于默认状态。在一个实施方案中，这个默认状态可以由称为STALL的默认操作指令来实施。虽然PE可以被编程为STALL，但是其各自的输入数据FIFO可以是空的并且准备好接收数据。然而，忙信号可以被设置为0。因此，所有SB都可能停止(stalled)，并且可以没有信号路由。例如，组件之间的所有数据连接可以点划线示出，以指示没有数据可以通过(例如，PE_0 1104和SB_1110 之间、SB_1 1110和ICSB_1 1114之间、SB_1 1110和PE_1 1106之间、PE_1 1106和SB_2 1112 之间、SB_2 1112和ICSB_2 1116之间以及SB_2 1112和PE_2 1108之间的数据连接)。

图11B示出了SEQ 1102可以开始将第一指令INS1加载到PE_0 1104中，但是SB_11110 和ICSB_1 1114仍然可能停止。例如，从SEQ 1102到PE_0 1104的配置连接可以是断开的，并示出为虚线，相反，其他配置连接可以是闭合的，并以点划线示出。因为INST1可以是该执行内核中的第一条指令，并且不依赖于任何其他条件，所以PE_0 1104可以准备好生成输出，但是被来自SB_1 1110的输出忙信号阻塞。在这一步，没有数据可以通过组件之间的任何数据连接，并且数据连接可以以点划线示出。

如图11C所示，在这一步，SEQ 1102可能已经对SB_1 1110和ICSB_1 1114两者进行了编程，并且可以断开来自PE_0→PE_1的数据路由。例如，从SEQ 1102到SB_1 1110和ICSB_1 1114的配置连接可以是断开的，并示出为虚线，相反，其他配置连接可以是闭合的，并以点划线示出。PE_0 1104可以生成输出，并且这些输出可以经由SB_1 1110(例如，SB_1 1110内部的点划线以示出内部连接断开)路由到PE_1 1106。PE_1 1106可以接收来自PE_0 1104的输出，并且即使当PE_1 1106还没有经过配置时，也可以将这些数据信号存储在其数据缓冲器(例如，D-FIFO)中。PE_0 1104和SB_1 1110之间以及SB_1 1110和PE_1 1106之间的数据连接可以以实线示出，以指示数据可以通过。双线箭头1118可以示出这个数据流。

因为在第一个PDP中，来自PE_0 1104的输出可能仅PE_1 1106需要，因此此时没有数据需要通过ICSB_1 1114。因此，尽管ICSB_1 1114的配置可能已经被编程(例如，其内部连接以虚线示出)，但是没有数据到达ICSB_1 1114(例如，其以虚线连接到SB_1 1110)并且ICSB_1 1114可能保持静止。

在图11D所示的一步中，从SEQ 1102到PE_1 1106的配置连接可以是断开的，并示出为虚线。相反，其他配置连接可以是闭合的，并以点划线示出。SEQ 1102现在可以将第二指令INS2配置到PE_1 1106，并且PE_1 1106可以准备好执行和生成输出，但是被来自SB_21112 的输出忙信号阻塞。同时，从PE_0 1104产生的数据可以连续地发送到PE_1 1106的D-FIFO。在这一步，组件之间的所有数据连接可以与图11C中相同。

在图11E中，在这一步，从SEQ 1102到SB_2 1112和ICSB 1116的配置连接可以是断开的，并示出为虚线。相反，其他配置连接可以是闭合的，并以点划线示出。当SB_2 1112可以被配置和断开时，PE_1 1106可以开始执行INS2并生成输出。这些输出可以经由SB_21112 (例如，SB_2 1112内部的点划线以示出内部连接断开)路由到PE_2 1108。PE_2 1108可以接收来自PE_1 1106的输出，并且即使当PE_2 1108还没有经过配置时，也可以将这些数据信号存储在其数据缓冲器(例如，D-FIFO)中。PE_1 1106和SB_2 1112之间以及SB_21112 和PE_2 1108之间的数据连接可以以实线示出，以指示数据可以通过。双线箭头1120可以示出这个数据流。

因为在第一个PDP中，对PE_2 1108的输入可能仅来自PE_1 1106，因此此时没有数据需要通过ICSB_2 1116。因此，尽管ICSB_1 1116的配置可能已经被编程(例如，其内部连接以虚线示出)，但是没有数据通过ICSB_2 1116(例如，其以虚线连接到SB_2 1112)并且ICSB_2 1116可能保持静止。

在图11F所示的一步中，从SEQ 1102到PE_2 1108的配置连接可以是断开的，并示出为虚线。相反，其他配置连接可以是闭合的，并以点划线示出。并且第一PDP的最后指令INS3 可以被编程到PE_2 1108。虽然未示出，但是在这一步，到垫片内存(例如，垫片内存216 的实施方案)的配置连接也可以断开，并且垫片内存的数据连接也可以被编程。现在PE_2 1108 可以执行INS3，并且结果可以存储到垫片内存中。在一个实施方案中，到目前为止，整个 PDP_1配置可以完成，并且每个PE(例如，PE_0 1104、PE_1 1106和PE_2 1108)可以独立地执行相应指令指定次数(例如，NUM_EXEC)。每个SB(例如，SB_1 1110和SB_2 1112)和每个ICSB(例如，ICSB_1 1114和ICSB_2 1116)也可以为PDP_1执行其各自的配置指定次数(例如，NUM_EXEC)。

在一些实施方案中，用于VDP的PDP的配置(例如，执行内核的依赖图的)可以被独立地发送到组件，同时每个组件可以根据当前配置操作。例如，在PE(例如，PE_0 1104、 PE_1 1106和PE_2 1108)、SB(例如，SB_1 1110和SB_2 1112)和ICSB(例如，ICSB_1 1114 和ICSB_2 1116)可以在其用于PDP_1的相应第一配置下操作的同时，可以从SEQ 1102接收相同VDP的其他PDP用于这些组件中的每一个的后续配置。在一个实施方案中，可以经由配置总线从序列发生器206批量发送用于一个组件的多个配置，只要发送用于一个组件的多个配置不会减慢或阻碍任何其他组件的操作。

因此，虽然在执行PDP_1，但组件可能已经接收到用于PDP_2的所有配置。如图11G所示，在这个一步，直到PE_0 1104上的所有线程(例如，ALU向量602中的所有ALU)已经完成PDP_1时，PE_0 1104可以重构到第四指令INS4。例如，PE_0 1104可以通过应用已经在其配置缓冲器C-FIFO 614中的PDP 2配置来自行重构。类似地，一旦来自INS1的最后数据已经通过SB_1 1114，SB_1 1114也可以重构。由于SB_1 1110上的新PDP_2配置，来自INS4 的第一输出数据可以递送到ICSB_1 1114(例如，连接到ICSB_1 1114的新虚线)。然而，到 ICSB_11114的数据信号可能被来自ICSB_2 1116的忙信号阻塞，因为ICSB_2 1116可能还没有重构。

在图11H所示的一步，PE_1 1106、SB_2 1112、ICSB_2 1116在PDP 1中可能已经达到指定的执行次数，并且可以重构。例如，PE_1 1106可以重构到第五指令INS5，并且SB_21112 和ICSB_2 1116也可以重构为使得来自PE_0 1104的数据也可以经由ICSB_1 1114到达PE_2 1108的D-FIFO。SB_2 1112内部的新虚线可以示出为经由SB_2 1112将ICSB_2 1116连接到 PE_2 1108。从PE_0 1104到PE_2 1108的数据流可以由双线箭头1122(例如，从PE_01104 到ICSB_1 1114)和1124(例如，从ICSB_1 1114到PE_2 1108)示出。

在图11I所示的级，最终，PE_2 1108可以达到用于PDP_1的指定的执行次数，并且可以重构到用于PDP_2的最后指令INS6。整个PDP_2配置可以应用于数据路径组件。用于PDP_2配置的组件可以各自针对PDP_2配置运行指定次数，以完成整个执行内核。

图12A示意性示出了根据本公开的实施方案的用于使用处理器执行指令流的流水线操作。在共享内存访问模式中，可以由执行相同指令的所有线程访问同一个内存地址。为了从相同的地址为所有线程加载数据，流水线可以继续为所有这些线程提取相同的数据，并在内存单元中产生不必要的流量。这个示例中的指令可以表示为数字前面具有下划线，以区别图 11A至图11I中示出的示例指令。在图12A中示出的示例流水线式指令执行中，指令Ins_0 可以是数据加载指令“加载x[j]”，并且内存端口可以配置成作为流水线级1202执行Ins_0三次(例如，对于配置成执行加载指令的内存端口，NUM_EXEC为3)。数据段x[j]可以是所有线程公用的，并且从相同的地址加载。例如，数据段x[j]可以是向量x中的第j个数据段，并且这个第j个数据段可以由所有线程使用。在一个PE中具有N个ALU的实施方案中，可以存在由一个块(例如，一个线程块)表示的N个并发线程，并且流水线级1202可以配置成执行Ins_0 3xN次。

指令Ins_1可以是数据加载指令“加载a[k][j]”，并且内存端口可以配置成作为流水线级 1204执行Ins_1三次。要由Ins_1加载的数据段对于不同的线程可能是不同的，并且对于不同的线程，可以从不同的地址加载。例如，a[k][j]可以是第k个线程的第j个数据段，其中对于第一个线程块中的每个线程，k可以是0到N-1(包括端点)之间的整数，对于第二个线程块中的每个线程，k可以是N到2N-1(包括端点)之间的整数，对于第三个线程块中的每个线程，k可以是2N到3N-1(包括端点)之间的整数。

在一个实施方案中，如果内存端口配置成并行执行两个数据加载指令，则流水线级1202 和1204可以在同一内存端口处执行。例如，在图2中示出了MP 220中的每一个和内存单元 212之间的两个并行读取数据线和两个并行写入数据线。而且，数据交换盒500示出了并行输入数据线如何切换到PE(例如，502.1和502.2切换到506.1、506.2、508.1或508.2)。在另一实施方案中，流水线级1202和1204可以在两个不同的内存端口处执行。

指令Ins_2可以是乘法指令“y＝a[k][j]*x[j]”，其中数据段x[j]由Ins_0加载，并且a[k][j] 由Ins_1加载，并且PE可以配置成作为流水线级1206执行Ins_2三次(例如，NUM_EXEC 为3，其中对于所有线程来说为总共3xN次)。因此，每个PE或MP可以配置成作为流水线级执行NUM_EXEC个指令量。

指令Ins_4可以是数据加载指令“加载x[j+l]”，并且内存端口可以配置成作为流水线级 1208执行Ins_4三次。数据段x[j+l]可以是所有线程公用的，并且从相同的地址加载。例如，数据段x[j+l]可以是向量x中的第j+l个数据段，并且这个第j+l个数据段可以由所有线程使用。指令Ins_5可以是数据加载指令“加载a[k][j+l]”，并且内存端口可以配置成作为流水线级1210执行Ins_5三次。要由Ins_5加载的数据段对于不同的线程可能是不同的，并且对于不同的线程，可以从不同的地址加载。例如，a[k][j+l]可以是第k个线程的第j+l个数据段，其中对于第一个线程块中的每个线程，k可以是0到N-1(包括端点)之间的整数，对于第二个线程块中的每个线程，k可以是N到2N-1(包括端点)之间的整数，对于第三个线程块中的每个线程，k可以是2N到3N-1(包括端点)之间的整数。在一个实施方案中，如果内存端口配置成并行执行两个数据加载指令，则流水线级1208和1210可以在同一内存端口处执行。在另一实施方案中，流水线级1208和1210可以在两个不同的内存端口处执行。

指令Ins_6可以是乘法指令“y＝a[k][j+l]*x[j+l]”，其中数据段x[j+l]由Ins_4加载，并且 a[k][j+l]由Ins_5加载，并且PE可以配置成作为流水线级1212执行Ins_6三次。

在图12A的示例流水线式指令执行中，Ins_0和Ins_4可以重复，尽管许多重复的内存读取可能不是必需的。图12B示意性示出了根据本公开的实施方案的用于使用处理器执行指令流的精简流水线操作。在一个实施方案中，编译器或其他方法(例如，序列发生器)可以识别图12A中的指令序列中的静态读取，并且重复操作可以减少到一次。例如，静态加载指令 (例如Ins_0和Ins_4)可以利用NUM_EXEC＝1编程(例如，这可以应用于将执行数据提取的MP)。如图12B所示，流水线级1202A和1208A可以分别是一个块。在一个实施方案中，指示器S可以在与PE的或MP的D-FIFO相邻的PE和MP中实施(例如，PE 620中的指示器622)，并且对于从静态负载接收数据的任何PE和MP，可以设置与从静态负载接收数据的、 PE的或MP的D-FIFO相邻的指示器S。例如，配置成在流水线级1206处执行Ins_2的PE 可以包括分别从配置成用于流水线级1202A的(多个)MP和MP 1204接收数据的D-FIFO，并且可以将指示器S设置与从流水线级1202A接收数据的D-FIFO相邻。类似地，配置成在流水线级1212处执行Ins_6的PE可以包括从分别配置成用于流水线级1208A和1210的(多个)MP接收数据的D-FIFO，并且可以将指示器S设置与从流水线级1208A接收数据的D-FIFO 相邻。在NUM_EXEC＝1的情况下，流水线级1202A和1208A中的数据加载操作对于该配置可以仅执行一次。给定静态指示S的情况下，配置成执行流水线级1206和1212的PE可以执行其操作三次(例如，其NUM_EXEC仍然等于3)，但是来自具有指示S的D-FIFO的数据可以被重新使用NUM_EXEC次。

在一些实施方案中，精简流水线级的这种操作模式可以推广到其他指令。在一个实施方案中，对于可以为不同线程生成相同结果的指令，可以使用相同的方法来降低功耗。例如，来自一个PE的结果可以用作同一物理数据路径中的另一PE中的不同线程的输入，或者来自一个物理数据路径的PE的结果可以用作另一物理数据路径中的一个PE中的不同线程的输入，该结果可以仅加载一次，其中指示S设置为相应的D-FIFO并被重新使用。

参照图13，根据本公开的实施方案示意了用于执行执行内核的方法1300的一个流程图。在框1302处，一个执行内核可以在一个处理器处被映射到虚拟数据路径中。例如，如图9B 所示，可以由示例处理器200将执行内核映射到虚拟数据路径中。执行内核可以包括要由处理器执行的指令序列。在一个实施方案中，处理器可以包括各种可重构单元，该各种可重构单元包括垫片内存。而且，在一个实施方案中，该过程可以包括形成重复列的各种可重构单元。在框1304处，虚拟数据路径可以分割为一个或多个物理数据路径。例如，如图9C所示，虚拟数据路径可以分割为三个物理数据路径。在一个实施方案中，各种可重构单元可以形成用于执行指令序列的一个或多个物理数据路径。而且，在一个实施方案中，一个或多个物理数据路径中的每一个可以分别适配到重复列中。例如，第一物理数据路径和第二物理数据路径可以分别适配到重复列中。在框1306处，配置可以递送到处理器的各种可重构单元。各种可重构单元可以根据配置形成用于执行指令序列的一个或多个物理数据路径。在框1308处，执行处理器以通过根据配置操作各种可重构单元来完成一个或多个物理数据路径。在一个实施方案中，来自一个物理数据路径的数据可以路由到垫片内存，以在一个未来的物理数据路径中用作输入。

参考图14，根据本公开的实施方案示意了用于重构一个处理器的方法1400的流程图。在框1402处，可以将多个配置递送到处理器的多个可重构单元。多个配置可以用于多个可重构单元以形成用于执行指令序列的多个物理数据路径。在一个实施方案中，多个配置中的每一个可以包括一个指定次数(例如，本文描述的NUM_EXEC数量)。在框1404处，可以在多个可重构单元中的每一个处重复相应的操作指定次数。例如，多个可重构单元可以包括第一可重构处理单元(PE)，并且第一可重构PE可以在多个物理数据路径的第一物理数据路径中执行指令序列中的第一指令指定次数。在框1406处，每个可重构单元可以重构成新的配置。在一个实施方案中，在每个可重构单元已经重复其相应的操作指定次数之后，每个可重构单元可以重构。例如，第一可重构PE可以重构为在多个物理数据路径中的第二物理数据路径中根据第二配置，执行指令序列中的第二指令指定次数。

参考图15，根据本公开的实施方案示意了用于重构一个处理器的方法1500的流程图。在框1502处，可以在处理器的可重构单元处接收第一配置和第二配置。例如，图11A至图11I中的PE_0 1104可以接收第一配置和第二配置，第一配置可以包括第一指令INS1，第二配置可以包括第四指令INS4。PE_0 1104可以将这些配置存储在其配置缓冲器(例如，C-FIFO 614)中。在框1504处，第一操作可以根据第一配置被执行第一次数。例如，PE_0 1104可以根据第一配置中的NUM_EXEC执行指令INS1多次。第一配置可以是用于执行指令序列的第一部分的第一物理数据路径(例如，PDP_1)的部分。在框1506处，可重构单元可以重构为根据第二配置执行第二操作第二次数。例如，可以通过应用第二配置来重构PE_0 1104使其根据第二配置中的NUM_EXEC执行指令INS4多次。第二配置可以是用于执行指令序列的第二部分的第二物理数据路径(例如，PDP_2)的部分。

参考图16，根据本公开的实施方案示意了用于重构处理器的方法1600的流程图。在框 1602处，第一指令可以在一个可重构的处理单元处被执行多次。该执行可以根据作为第一物理数据路径的部分的第一配置来执行。例如，PE_2可以配置成根据作为PDP_1的部分的配置来执行NUM_EXEC次INS3。在框1604处，来自可重构单元的执行结果可以递送到垫片内存。例如，来自PE_2的执行INS3的执行结果可以递送到垫片内存。在一个实施方案中，如果第一指令要在可重构单元处执行多次，则执行结果可以在第一指令的每次执行之后递送到垫片内存。例如，垫片内存可能已经将连续执行结果存储在其数据缓冲器中的一个(例如， D-FIFO 802.3至802.F中的一个)中。在框1606处，存储在垫片内存中的执行结果可以从垫片内存馈送到第二物理数据路径。例如，来自执行指令INS3的PE_2的执行结果可以用作要在第二物理数据路径中由一个PE执行的一个指令的输入。存储在垫片内存中的执行结果可以从垫片内存递送到这个PE，用于执行第二物理数据路径。

参考图17，根据本公开的实施方案示意了用于访问内存的方法1700的流程图。在框1702 处，用于内存单元的多个内存地址可以由内存端口中的地址计算单元为多个并行线程生成。例如，内存端口可以为处理单元(PE)提供对内存单元的内存访问，该处理单元可以具有多个算术逻辑单元(ALU)，这些算术逻辑单元配置成以并行线程执行相同的指令。在一个实施方案中，内存端口可以是为多个处理单元(PE)提供对内存单元的访问的多个内存端口中的一个。多个PE中的每一个可以具有多个算术逻辑单元(ALU)，这些算术逻辑单元配置成在并行线程中执行相同的指令。在框1704处，可以访问内存单元中的多个内存组，其中每个线程访问不同的内存组。在一个实施方案中，在私有内存访问模式下，每个线程可以访问不同的内存组以获得其数据。

参考图18，根据本公开的实施方案示意了用于访问内存的方法1800的流程图。在框1802 处，用于内存单元的多个内存地址可以由内存端口中的地址计算单元为多个并行线程生成。内存端口可以为具有多个算术逻辑单元(ALU)的处理单元提供内存访问，这些算术逻辑单元配置成在并行线程中执行相同的指令。在一个实施方案中，内存端口可以是多个内存端口中的一个，这些内存端口为多个处理单元(PE)提供对内存单元的访问，该多个处理单元各自具有多个算术逻辑单元(ALU)，这些算术逻辑单元配置成在并行线程中执行相同的指令。在框1804处，可以访问内存单元中的多个内存组，其中所有线程访问内存单元中的一个公用区域。在一个实施方案中，在共享内存访问模式下，由PE并行执行的每一个线程可以访问公用区域中的任何地方。也就是说，公用区域可以是所有线程的共享内存空间。

参考图19，根据本公开的实施方案示意了用于重新使用一段数据的方法1900的流程图。在框1902处，可以确定在PE的一个配置期间，一段数据将在处理器的处理单元(PE)处由所有线程共享和重复使用。例如，在一个实施方案中，共享内存访问模式可以在PE的一个配置期间被应用。一段数据(例如常数)可以是所有线程公用的，并且可以由所有线程共享和重复使用。在框1904处，可以将该段数据加载一次到PE的数据缓冲器中。在一个实施方案中，因为该段数据可以被共享和重复使用。数据加载操作可能只需要执行一次。在框1906处，可以设置与数据缓冲器相关联的指示器，以指示该段数据将被重复使用。在一个实施方案中，PE内部的数据缓冲器可以具有指示器比特“S”，并且如果数据缓冲器中的一段数据应该被重复使用，则可以设置这个指示器“S”。在框1908处，可以通过重复使用该数据段作为输入，来执行相同的指令多次。在一个实施方案中，PE可以根据由配置指定的数量(例如，NUM_EXEC)作为流水线级重复地执行相同的指令。

本公开内容提供了可重构并行处理的装置、系统和方法。例如，RPP的实施方案可以利用由处理单元(PE)阵列和互连件组成的1-D或2-D数据路径来处理大规模并行数据。可以使数据路径在每个区段(例如，(多个)PE的一个列、MP和数据路由单元)中相同，这可以允许内核的依赖图映射到虚拟数据路径，该虚拟数据路径在一维上可以是数据路径区段的无限重复。

RPP的实施方案还可以在虚拟数据路径被分割成物理数据路径的分割点利用垫片内存来临时存储数据路径的数据输出，。垫片内存可以像数据缓冲器(例如FIFO)一样起作用，以将数据反馈到下一配置的物理数据路径中。

RPP的实施方案还可以具有一维内存单元，其中内存端口(MP)连接到每一列数据路径。在整个虚拟数据路径上访问的所有数据可以存储在内存单元中。每次，对于新的配置，MP 可以重构为以不同的方式访问内存单元，而数据可以保持不变。RPP的实施方案可以将对私有内存访问和共享内存访问的内存访问类型分开。私有内存访问可以专用于特定线程，同时不同线程之间不允许重叠访问。共享内存访问可以允许所有线程访问公用区域。而不是为共享和私有类型定义不同的内存。RPP的实施方案可以将数据存储到相同的内存空间中，但是提供不同的访问方法。这消除了从私有内存到共享内存的不必要的数据移动，反之亦然。

可以优化RPP的实施方案以允许用于多线程处理的大规模并行性。在一个示例中，在具有一行32个PE且每个PE具有32个算术和逻辑单元(ALU)的情况下，1024个ALU可以包括在一个RPP内核中。在一些实施方案中，多核处理器可以包括多个RPP。

RPP的实施方案可以根据重构机制来重构。包括一个或多个重构计数器的RPP的各种组件可被称为可重构单元。例如，PE(例如PE 218)、数据切换单元(例如SB 222和ICSB224) 和内存单元(例如MP 220、垫片内存216)中的每一个可以包括一个或多个重构计数器，诸如PE中的计数器606、SB中的计数器520、ICSB中的计数器714、垫片内存中的计数器820 和822以及MP中的类似计数器(图4A或图4B中未示出)。当线程之间可能没有依赖性时，数据处理可以是流水线式的。相同的指令可以被执行多次，直到所有线程(例如，用于一个物理数据路径的四个线程块)均得到处理。当可重构单元中的计数器达到编程的数量并且可重构单元可以将其配置替换为新的环境时。这种重构可以在每个PE、数据切换单元和内存访问单元中以相同的方式完成。可以用最小的切换空闲时间来实现自重新配置。

示例性重构机制可以减少在配置上花费的功率，因为配置仅在所有线程都已经被处理之后被切换一次。这也可以通过在最早时间独立地切换每个PE来减少配置之间的空闲时间。通过这样做，也可以减少存储中间数据所需的内存。

在一些实施方案中，在共享内存访问模式下，所有线程可以使用相同的地址加载数据。由于操作的流水线式性质，可能只需要执行所有线程的第一个数据加载指令。所加载的数据可以与所有线程共享，以减少内存访问流量和功耗。

本文描述的技术可以在数字逻辑门中的一个或多个专用集成电路(ASIC)中实施，或者由执行存储在有形处理器可读内存存储介质中的指令的处理器实施。

在一个实施方案中，任何公开的方法和操作可以以软件实现，该软件包括存储在一个或多个计算机可读存储介质上的计算机可执行指令。一个或多个计算机可读存储介质可以包括非暂时性计算机可读介质(诸如可移动或不可移动磁盘、磁带或盒式磁带、固态驱动器(SSD)、混合硬盘驱动器、CD-ROM、CD-RW、DVD或任何其他有形存储介质)、易失性内存组件(诸如DRAM或SRAM)或非易失性内存组件(诸如硬盘驱动器)。计算机可执行指令可以在处理器(例如，微控制器、微处理器、数字信号处理器等)上执行。而且，本公开内容的实施方案可以用作通用处理器、图形处理器、微控制器、微处理器或数字信号处理器。

虽然本文已经公开了各种方面和实施方案，但是其他方面和实施方案对于本领域技术人员来说将是显而易见的。本文公开的各种方面和实施方案是为了说明的目的，而不是旨在是限制性的，同时真正的范围和精神由所附权利要求指示。

Claims

1.一种处理器，所述处理器包括：

多个处理单元(PE)；

多个数据交换盒，布置在多个列中，所述多个数据交换盒中的每一个数据交换盒与一个相应的PE相关联，并且配置成为所述相应的PE提供输入数据切换；

多个内存端口，布置在所述多个列中，并且耦合到一个内存单元和所述多个列的每一列中的顶部数据交换盒，所述多个内存端口中的每一个配置成为相应列中的一个或多个数据交换盒提供对所述内存单元的数据访问；

多个列间数据交换盒(ICSB)，各自耦合到所述多个列的每一列中的底部数据交换盒；以及

一个垫片内存，其中其输入耦合到所述多个列的最后一列中的内存端口、PE、一个或多个数据交换盒和ICSB，并且其输出耦合到所述多个列的第一列中的内存端口、一个或多个数据交换盒和ICSB。

2.根据权利要求1所述的处理器，进一步包括一个序列发生器，其耦合到所述多个PE、所述多个数据交换盒、所述多个ICSB、所述多个内存端口和所述垫片内存以将配置递送到这些组件。

3.根据权利要求2所述的处理器，进一步包括配置内存，其耦合到所述序列发生器以存储用于所述序列发生器解码和递送的编译配置。

4.根据权利要求1所述的处理器，进一步包括一个用于为所述处理器提供数据存储的内存单元。