CN1732457A

CN1732457A - 处理系统

Info

Publication number: CN1732457A
Application number: CNA2003801079364A
Authority: CN
Inventors: O·M·皮雷斯多斯雷斯莫雷拉; A·奥古斯泰恩; B·德奥里维拉卡斯特鲁普佩; W·F·D·耶德马; P·F·霍根迪克; W·C·马尔伦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-30
Filing date: 2003-12-04
Publication date: 2006-02-08
Also published as: US20060184766A1; WO2004059464A2; EP1581884A2; JP2006512661A; JP4570962B2; WO2004059464A3; AU2003283777A8; US7788465B2; AU2003283777A1

Abstract

根据本发明的处理系统包括多个处理元件(PE1，…，PE7)。这些处理元件包括控制器和计算装置。多个处理元件可动态地被重新配置为相互独立进行操作的任务单元(TU1，TU2，TU3)，该任务单元包括一个处理元件(PE7)或两个或多个处理元件(PE3，PE4，PE5，PE6)的集群。集群内的处理元件被安排为在公共的程序线程控制下执行指令。通过这种方式，处理系统能够根据应用使用相同的数据路径元件的子集来利用指令级并行技术或任务级并行技术或其组合。

Description

处理系统

超长指令字处理器(VLIW处理器)能够在一个时钟周期内执行许多操作。通常，编译器降低程序指令为处理器能同时执行的基本操作。要同时执行的操作被合并成超长指令字(VLIW)。VLIW处理器的指令解码器将包括在VLIW内的基本操作的每一个解码并发布到相应处理器的数据路径元件。可替换地，VLIW处理器不具有指令解码器，并且包括在VLIW中的每个操作被直接发布到相应的处理器数据路径元件。接着，这些处理器数据路径元件并行地执行VLIW中的操作。这种被称为指令级并行技术(ILP)的并行技术特别适合于涉及大量相同计算的应用，这类应用可以在例如媒体处理中找到。包括较多面向控制的操作、例如伺服控制目的的其他应用不适合于作为VLIW程序来编程。但是，这类程序通常可以被降低成多个相互独立执行的程序线程。并行执行这些线程还被能被表示为线程级并行技术(TLP)。但是，VLIW处理器不适合于执行使用线程级并行处理的程序。应用后一类型的并行技术要求不同的处理器数据路径元件子集具有独立的控制流，即它们以相互独立的顺序访问它们自己的程序，例如能够独立地执行条件转移。但是，VLIW处理器中的数据路径元件以锁步模式进行操作，即它们都以相同的顺序执行指令序列。VLIW处理器因此只能执行一个线程。

本发明的一个目的是提供能够根据应用使用相同的数据路径的子集来利用指令级并行技术或任务级并行技术或其组合的处理器。

为此目的，根据本发明的处理器包括多个处理元件，这些处理元件包括控制器和计算装置，多个处理元件可动态地被重新配置为相互独立进行操作的任务单元，这些任务单元包括一个处理元件或两个或多个处理元件的集群(cluster)，集群内的处理元件能够被安排为在程序的公共线程的控制下执行指令。集群中的处理元件被认为以锁步模式运行。计算装置可包括加法器、乘法器、用于执行诸如AND、OR、XOR等逻辑操作、查找表操作、存储器访问等的装置等等。

注意到，由Colwell等在Proc.Of Supercomputing’90的第910-919页中的“Architecture and Implementation of a VLIWSupercomputer”描述了一种VLIW处理器，其能够被配置为两个14操作宽(14-operations-wide)的处理器，其每一个独立地受相应的控制器控制，或一个28操作宽的由一个控制器控制的处理器。但是，所述文献没有公开能够被重新配置成任意数目的包括任意数目的处理元件的独立操作集群的处理器阵列的原理，也没有公开如何实现这样的处理器阵列。

在根据本发明的处理器阵列中，处理元件可都独立地操作或都以锁步模式操作。与现有技术相反，本发明还允许处理元件的集群相互独立地操作，同时每个集群内的处理元件能使用指令级并行技术执行任务。通过这种方式，处理器能动态地根据任务使它的配置适应于最合适的形式。在具有在指令级利用并行技术的低可能性的任务中，处理器可被配置为相对大数目的小集群(例如包括仅一个、或一些处理元件)。这使得在线程级利用并行技术成为可能。如果任务非常适合于利用指令级并行技术，就如通常在媒体处理的情况下那样，处理器能被重新配置为较小数目的大集群。每个集群的大小可适应于处理速度的要求。这使得控制流的多个线程并行成为可能，每个线程具有多个匹配可在线程中利用的ILP的功能单元。将处理器配置成集群可是静态或动态的。在静态的情况下，配置在应用的执行期间保持相同。在动态的情况下，可以在应用执行期间运行时改变。静态情况可以被当作动态情的特殊情况。

US6,266,760描述一种包括多个基本功能单元的可重新配置的处理器，它能够被配置为执行特定的功能，例如被配置为ALU、指令存储器、功能存储器、程序计数器。这样，可以若干方式使用处理器，例如微控制器、VLIW处理器、或MIMD处理器。然而，该文献没有公开包括不同的处理元件的处理器，不同的处理元件的每一个包括控制器，其中处理元件可被配置到一个或多个集群中，并且在同一集群内的处理元件即使具有它们自己的控制器也在公共线程的控制下进行操作，并且其中彼此不同的集群中的处理器相互独立地操作，即根据不同控制线程而进行操作。

US6,298,430描述一种用户可配置的超等级(ultra-scalar)多处理器，该多处理器包括预定的多个分布式可配置的信号处理器(DCSP)，该分布式可配置的信号处理器是每一个具有作为一个单元群的至少两个子微处理器(SM)和一个数据包总线控制器(PBC)的计算集群。DCSP、SM和PBC通过本地网络总线被连接。PBC具有连接PBC与每一个SM的通信总线。连接PBC与每一个SM的PBC的通信总线具有一个硬布线连接和一个可编程可切换连接器的串行链。在SM之间的每条通信总线具有至少一个硬布线连接和两个可编程可切换连接器。多个SM可通过编程被合并成单独的SM组。当根据集群中的一个用作主机的SM的时钟频率进行计时时，所有集群的SM都以异步模式或同步模式工作。该已知的多处理器不允许在任意大小的集群中配置。

优选地，处理元件的每一个具有它们自己的指令存储器，例如高速缓存形式的指令存储器。这有利于处理元件的独立操作。可替换地或除了自身的局部指令存储器，处理元件可共享全局存储器。

参考附图更详细地描述这些或其他方面。

其中：

图1示意地显示了根据本发明的处理器系统，

图2更详细地显示了处理元件的例子，

图3显示了耦合到通道CH的4个处理的集群的例子，

图4显示了在处理系统的第一实施例中的可重新配置的通道基本结构，

图5显示了在处理系统的第二实施例中的可重新配置的通道基本结构，

图6显示了图5的处理系统的更具体的实现，

图7显示了在处理系统的第三实施例中的可重新配置的通道基本结构，

图8显示了根据本发明的处理系统的多种配置。

图1示意地显示了根据本发明的处理器系统。处理器系统包括多个处理元件PE_1，1、...、PE_1，n；PE_2，1、...、PE_2，n；PE_m，1、...、PE_m，n。处理元件能经由数据路径连接DPC交换数据。在图1所示的优选实施例中，处理元件被排列在矩形网格上，并且数据路径连接提供相邻处理元件之间的数据交换。非相邻处理元件可通过经由相互相邻的处理元件的链来传递数据从而交换数据。可替换地或附加地，处理器系统可包括一个或多个横跨处理元件的子集的全局总线，或任意处理元件对之间的点到点连接。

图2更详细地显示了处理元件的例子。每个处理元件包括一个或多个操作发布槽(IS)，每个发布槽包括一个或多个功能单元(FU)。图2中的处理元件包括五个发布槽IS1-IS5，以及六个FU：两个算术和逻辑单元(ALU)、两个累积乘法单元(MAC)、特定应用单元(ASU)、和与数据存储器(RAM)关联的加载/存储单元(LD/ST)。发布槽IS1包括两个FU：ALU和MAC。在公共的发布槽中的FU共享来自寄存器文件的读端口和到互连网络IN的写端口。在可替换的实施例中，可在寄存器文件和操作发布槽之间使用第二互连网络。在发布槽中的功能单元访问至少一个与所述发布槽关联的寄存器文件。在图2中，存在一个与每个发布槽关联的寄存器文件。可替换地，多于一个的发布槽可与单个寄存器文件连接。但多个独立的寄存器文件连接到单个发布槽(例如，在发布槽中的FU的每个单独的读端口的一个不同RF)也是可能的。不同PE之间的数据路径连接DPC还连接到相应PE的互连网络IN。FU受控制器CT的控制，控制器CT可访问指令存储器IM。程序计数器PC确定指令存储器IM中的当前指令地址。由所述当前地址指向的指令首先被加载到控制器中的内部指令寄存器IR。控制器接着控制数据路径元件(功能单元、寄存器文件、互连网络)，以执行由存储在指令寄存器IR中的指令指定的操作。为了做到此，控制器经由操作码总线OB与功能单元通信(例如提供操作码给功能单元)、经由地址总线AB与寄存器文件通信(例如提供寄存器文件中的读和写寄存器的地址)，以及通过路由总线RB与互连网络IN通信(例如，提供路由信息给互连的多路复用器)。控制器具有用于接收集群操作控制信号C的输入。该控制信号C引起例如条件转移的防护指令被执行。控制器还具有用于提供操作控制信号F给其他处理元件的输出。这将在后面更详细地描述。

图3显示了耦合到通道CH的4个处理元件PE₁、...、PE₄的集群，该4个处理元件PE₁、...、PE₄的集群形成图1中所示的处理器的部分并具有如图2所示的更详细的体系结构。处理元件的每一个可提供操作控制信号F₁、...、F₄给通道CH。通道返回等于(F₁或F₂或F₃或F₄)F₁ OR F₂ OR F₃ OR F₄的集群操作控制信号C。因此，如果在集群中的任何处理元件PE_j激活其操作控制信号F_j，那么处理元件的每一个接收一个激活的集群操作控制信号。这引起每个处理元件PE₁、...、PE₄以与处理器PE_j同样的方式执行它们的防护操作。防护操作的特别的例子是条件转移。同样是在条件转移的情况下，集群操作控制信号使处理元件PE₁、...、PE₄能以锁步模式实现程序执行。通过这种方式，可应用指令级并行技术，因为所有处理元件的程序计数器都以耦合的模式操作。这使得处理元件从对应的地址，即指令存储器中可能不同的物理地址获取指令，然而该指令存储器包括在一致的VLIW指令中合成整体的PE指令。在这种情况下，可以认为不同的物理地址对应相同的逻辑地址。以同样的方式，集群操作控制信号可用于控制其他条件或防护操作。在所示的优选实施例中，处理元件具有单独的输出，用于广播它们自己的操作控制信号F并用于监控集群操作控制信号C。可替换地，可能应用下拉(pull-down)机制，其中每个处理元件能下拉集群操作控制信号C。在该情况下，只需要一个终端。

集群操作控制信号C是指定集群的。在处理器中不同的集群具有不同的和独立的控制信号C。为了为给定的集群评估集群操作控制信号，通道应当执行属于所述集群的PE的操作控制信号F的逻辑OR操作，但应当忽略来自不属于所述集群的PE的所有操作控制信号。这样，处理器必须包括可重新配置的通道基础结构，使得允许多个并且不同的集群在处理器中形成，每个集群与不同的集群通道关联。

图4通过举例的方式显示如何使用具有诸如PLA的可编程求和项的可重新配置的通道基础结构来配置包括7个处理元件PE₁、...、PE₇的处理器。在所示的例子中，由处理元件PE₁和PE₂的集群来形成第一任务单元。第二任务单元包括处理元素PE₃、PE₄、PE₅和PE₆的集群，并且第三任务单元包括单个处理元件PE₇。任何其他的配置可容易地通过设置(在图4中表示为“x”)可编程求和项来编程。

虽然图4中所示的处理器的实施例可通过编程被重新配置成独立的操作任务单元，它具有每个求和项被散布在整个控制器阵列当中的缺点，控制器阵列与每个单个的控制器连接。当控制器的数目大时，这可转化为非常大和慢的求和项。并且，集群通道的延迟(即它在接收到所有“F”之后产生“C”所用的时间)将依赖于整个控制器阵列的大小，而不依赖于集群本身的大小。最后，图4中给出的解决方案还具有许多冗余。注意到，例如要求四个求和项来实现图3中的通道。四个求和项的每一个的输出等同于其他三个求和项的输出。因此在原理上，仅一个求和项就应当足够实现所述集群通道了，然而给出的解决方案将要求四倍大的硬件。

图5显示了改进的实施例。通过举例的方式，显示了第一和第二处理元件PE_j和PE_j+1，形成部分的多个处理元件。处理元件PE_j和PE_j+1耦合到可重新配置的通道基础结构，该可重新配置的通道基础结构包括控制链CHN、以及用于每个处理元件的合并元件CE_j、CE_j+1。控制链CHN控制两个方向的中间控制信号的传输，即从处理元件PE_j到它的后续处理元件PE_j+1，...以及从处理元件PE_j+1到它之前的处理元件PE_j，...。为此，控制链CHN包括用于每个处理元件PE_j的合并元件C_j，1和C_j，2，以及每对相邻元件PE_j、PE_j+1之间的开关SW_j，j+1。合并元件C_j，1将分别由之前的处理元件PE_j-1、PE_j-2、...的操作控制信号F_j-1、F_j-2、...合并而生成的中间控制信号L1与处理元件Pj的操作控制信号F_j合并，并将合并的信号提供给开关SW_j，j+1。根据配置信号E_j，j+1的值，所述合并的信号进一步被传输到后续的处理元件P_j+1。以类似的方式，合并元件C_j，2将分别由之前的处理元件PE_j+1、PE_j+2、...的操作控制信号F_j+1、F_j+2、...合并而生成的并受开关SW_j，j+1控制传递的中间控制信号L2与处理元件P_j的操作控制信号F_j合并，并将合并的信号提供给之前的开关SW_j-1，j。如果激活(由它自己的输出产生的)信号F_j或中间控制信号L1、L2的其中之一，合并元件CE_j为处理元件Pe_j提供激活集群操作控制信号。

在图6所示的优选实施例中，合并元件C_j，1和C_j，2以及CE_j、CE_j+1被实现为OR门，并且开关SW_j，j+1包括AND门。但是，可根据分配给不同信号状态的值来使用其他类型的逻辑门。例如，如果操作控制信号F和集群操作控制信号C的激活状态分配的值是0而不是1，那么用AND门来替换OR门，反之亦然。可替换地，三元或n元信号可用于指明这些要求其他逻辑门的控制信号的状态。在又另一个实施例中，通道使用下拉或上拉机制。优选地由配置存储器元件提供配置信号E_j，j+1。可由外部配置总线提供存储在其中的配置，或由独立的配置处理器或甚至由处理元件本身来提供。可替换地，配置值可以直接地被提供给开关，而不需经由配置存储器。优选地，用于编程开关的存储器单元集合被组织成存储器中的数据字。在实施例中，存储器可包含多个数据字，其每一个包含不同的配置。其中，可通过选择这些数据字的其中之一来编程可编程开关。例如，一个或多个处理元件可通过动态选择存储器中的数据字来编程可编程开关。

根据图5的体系结构可容易地扩展成多维，如图7所示的用于具有排列为2维网格的处理元件的处理器。合并元件和开关的实现类似于图6的实现方式。为了清楚起见，仅示出了一个处理元件PE_i，j，该处理元件PE_i，j包括用于生成集群操作控制信号C的关联电路，但是对于本领域的技术人员清楚的是，可连接任意数量的处理元件。在图7的实施例中，通道基础结构包括相互横穿的链(CHN_i，j，H，CHN_i，j，V)。更特别地，关联电路包括“水平”链CHN_i，j，H，用以控制处理元件PE_i，j与其他在它后续的或之前的处理元件沿水平方向的集群。它进一步包括“垂直”链CHN_i，j，V，用以控制处理元件PE_i，j与其他在它后续的或之前的处理元件沿垂直方向的集群。应当注意，词语“水平”和“垂直”应当被解释为任意一对正交方向。

水平链CHN_i，j，H的开关元件SW_{i，j-1；i，j}受控地将由耦合到该链的之前的处理元件的其中之一生成的输入信号作为中间控制信号传递给合并元件C_i，j，1，该合并元件C_i，j，1将中间控制信号传输给链CHN_i，j，H的后续部分。类似地，链CHN_i，j，H的开关元件SW_{i，j；i，j+1}受控地将由耦合到该链的后续的处理元件的其中之一生成的输入信号作为中间控制信号传递给合并元件C_i，j，2，该合并元件C_i，j，2将中间控制信号传输给链CHN_i，j，H的之前部分。类似地，中间控制信号受控地由垂直链CHN_i，j，V以横穿水平链CHN_i，j，H的方向传输。另外，通过水平链CHN_i，j，H传输的中间控制信号L1、L2被转发到垂直链CHN_i，j，V中的合并元件C_i，j，3、C_i，j，4。类似地，通过垂直链CHN_i，j，V传输的中间控制信号L3、L4被转发到水平链CHN_i，j，H中的合并元件C_i，j，1、C_i，j，2。这允许形成“L”形的并且任意的矩形集群。合并元件CE_i，j将中间控制信号L1、L2、L3和L4与由处理元件PE_i，j本身提供的操作控制信号合并，并将集群操作控制信号C提供给该处理元件PE_i，j。

应当注意，合并元件Cei，j和合并元件Ci，j，1以及Ci，j，2的逻辑功能可是交叉优化的。更具体地：

Ci，j，1计算：F OR L3 OR L4 OR L1

Ci，j，2计算：F OR L3 OR L4 OR L2

CEi，j计算：F OR L1 OR L2 OR L3 OR L4

因此，在硬件实现中，所有三个合并器(CE和两个C)的逻辑都是交叉最小化的，即门可被重用于不同的合并器之间。实际上，在合并元件CE中完成的所有基本操作已经在C中完成，因此CE只是概念上的模块(然而是基本的)。相同的基本原理应用于垂直通道。因此，图7中的所有5个合并器(一个CE和4个C)的逻辑可通过合并器当中的门重用而被最小化。然而为了清楚的目的，在图7中将合并元件CEi，j显示为单独的功能。技术人员将可看到可在可重新配置的通道基础结构的不同点中插入管道寄存器来降低信号传播延迟，以消除逻辑环路，或任何其他目的，只要在编程处理元件时考虑了对应增加的循环。

对于本领域的技术人员清楚的还有，通过编程所给出的可重新配置的通道基础结构的开关而形成集群的可能性是很大的，并且随可用的处理元件的数量而成指数增长。

通过举例的方式，在图8a到8d中示出了一种处理系统，该处理系统包括4个排列成矩形的处理元件。在图8a中，处理元件相互独立地操作。假设了用于选择性地传输控制信号的开关被排列在最近的邻居之间。因此，例如从PE1到PE3的对角传输控制信号是不允许的，即使控制信号可经由PE2或PE4传输。但是，这不是严格的要求。基本上，通道基础结构可在任何处理元件对之间扩展，但是出于布局的目的，通道基础结构优选地由成对的相邻处理元件之间的可控连接组成。

图8b显示了在将处理元件配置为3个任务单元的情况下的4种可能的方式。两个处理元件之间的栏指明这些处理元件被组合成集群。

图8c显示了将处理系统配置为6个任务单元的6种可能的方式。

图8d显示了处理系统的配置，其中所有处理元件都集群到单个任务单元。

注意到，本发明的保护范围不局限于这里所描述的实施例。对于技术人员清楚的是，可用多种方式实现逻辑功能。例如代替对有效高信号执行逻辑OR功能，可将逻辑AND功能应用于有效低信号。可替换地，可通过下拉机制或查找表来实现这些功能。本发明的保护范围也不受权利要求中的参考标记的限制。词语“包括”不排除除了在权利要求中提到的其他部分。在元素之前的词语“一个”不排除多个这类元素。形成本发明部分的装置可以专用于硬件的形式或编程的通用处理器的形式实现。本发明在于每个新的特征或这些特征的组合。

Claims

1.一种处理系统，其包括多个处理元件，这些处理元件包括控制器和计算装置，多个处理元件可动态地被重新配置为相互独立进行操作的任务单元，这些任务单元包括一个处理元件或者两个或多个处理元件的集群，集群内的处理元件能够被安排来在程序的公共线程的控制下执行指令。

2.根据权利要求1的处理系统，其中被组织在任务单元中的处理元件共享至少一个用于控制指令执行的公共控制信号。

3.根据权利要求2的处理系统，其中公共控制信号是控制防护操作的标记。

4.根据权利要求3的处理系统，其中防护操作是条件转移。

5.根据前述任一权利要求的处理系统，其中处理元件是经由数据路径连接(DPC)相互连接的。

6.根据权利要求5的处理系统，其中数据路径连接(DPC)局限于邻居到邻居的连接。

7.根据前述任一权利要求的处理系统，其中公共控制信号是从通过连接到处理元件的可重新配置的通道基本结构传输的中间控制信号导出的。

8.根据权利要求7的处理系统，其中公共控制信号是通过与每个处理元件关联的合并元件合并中间控制信号而导出的。

9.根据权利要求8的处理系统，其中合并元件包括或门。

10.根据权利要求7的处理系统，其中通道基本结构包括可编程求和项。

11.根据权利要求7的处理系统，其中通道基本结构包括可编程求积项。

12.根据权利要求7的处理系统，其中通道基本结构包括相互横穿的链。

13.根据权利要求12的处理系统，其中通过具有第一方向的链传输的中间控制信号被转发到具有第二方向的链中的合并元件。

14.根据权利要求13的处理系统，其中通过具有第二方向的链而传输的中间控制信号被转发到具有第一方向的链中的合并元件。

15.根据权利要求7或12的处理系统，其中通道基本结构包括合并元件和处理元件对之间的可编程开关，该合并元件用于将通过通道基本结构传输的中间控制信号与关联的处理元件的操作控制信号合并，该可编程开关用于本地可控制地抑制中间控制信号的传输。

16.根据权利要求15的处理系统，其中合并元件由或门组成。

17.根据权利要求15的处理系统，其中可编程开关包括与门。

18.根据权利要求15、16或17的处理系统，其中可编程开关可由存储在存储器单元中的信号编程。

19.根据权利要求18的处理系统，其中至少一个处理元件可向至少一个存储器单元写入。

20.根据权利要求18的处理系统，其中用于对开关编程的一组存储器单元被组成为存储器中的数据字。

21.根据权利要求20的处理系统，其中存储器包括多个数据字，并且其中可编程开关可通过选择这些数据字中的一个而被编程。

22.根据权利要求21的处理系统，其中一个或多个处理元件可通过动态地选择存储器中的数据字来编程可编程开关。

23.根据权利要求18、19、20、21或22的处理系统，存储器包括易失性随机存取存储器(RAM)。

24.根据前述任一权利要求的处理系统，其中处理元件包括VLIW处理器。

25.根据权利要求24的处理系统，其中VLIW处理器包括内部互连网络(IN)。

26.根据权利要求25的处理系统，其中互连网络(IN)包括点对点连接。

27.根据权利要求25或26的处理系统，其中互连网络(IN)包括穿过处理元件的数据路径连接(DPC)。

28.根据前述任一权利要求的处理系统，其中处理元件被排列为二维网格。

29.用于操作处理系统的方法，该处理系统包括多个处理元件，这些处理元件包括控制器和计算装置，根据该方法，多个处理元件可动态地被重新配置为相互独立进行操作的任务单元，这些任务单元包括一个处理元件或者两个或多个处理元件的集群，其中一个集群内的处理元件在程序的公共线程的控制下执行指令。