CN1732436A

CN1732436A - 在集群式指令级并行性处理器中访问总线的方法

Info

Publication number: CN1732436A
Application number: CNA2003801079415A
Authority: CN
Inventors: O·M·皮雷斯多斯雷斯莫雷拉; A·特雷奇科; V·M·G·范阿赫特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-30
Filing date: 2003-11-28
Publication date: 2006-02-08
Also published as: WO2004059467A2; WO2004059467A3; US20060095710A1; JP2006512655A; TW200506722A; AU2003283672A8; EP1581862A2; KR20050089084A; AU2003283672A1

Abstract

本发明的基本思想是沿着总线添加开关，以便通过断开/闭合所述开关来整齐地把所述总线划分为较小的独立段。集群式指令级并行性处理器包括多个集群(C1－C6)、总线装置(100)和开关装置(200)，其中每个集群包括至少一个寄存器堆(RF)和至少一个功能单元(FU)，所述总线装置(100)用于连接所述集群(C1－C6)，其中所述总线(100)包括多个总线段(100a，100b，100c)，所述开关装置(200)安排在相邻的总线段(100a，100b，100c)之间。所述开关装置(200)用于连接或拆接相邻的总线段(100a，100b，100c)。此外，示出了一种用于在集群式指令级并行性处理器中访问总线(100)的方法。所述总线(100)沿着所述总线(100)包括至少一个开关装置(200)。集群能够基于源寄存器和转送字来执行发送操作，或者基于目的源寄存器和转送字来执行接收操作。然后，依照所述转送字断开/闭合所述开关装置。

Description

在集群式指令级并行性处理器中访问总线的方法

本发明涉及一种集群(clustered)式指令级并行性处理器，以及一种用于在集群式指令级并行性处理器中访问总线的方法。

在指令级并行性(Instruction Level Parallelism ILP)处理器领域中一个主要问题是寄存器堆资源的可扩展性。过去，围绕集中式资源已经设计了ILP体系结构以便涵盖对大量用于保持当前正在执行的所有并行操作的结果的寄存器的需求。使用集中式寄存器堆易于在功能单元之间共享数据并且简化了寄存器的分配和调度。然而，这种单一集中式寄存器的可扩展性是受限制的，这是因为具有大量端口的、巨大单片寄存器堆难于构建并限制处理器的周期时间。

近来在VLSI技术和计算机体系结构领域内的发展建议在某些领域，分散结构可能更好。据预测，未来处理器的性能将受到通信约束而不是计算约束的限制。该问题的一个解决办法是划分资源并且在物理上把这些资源分布在处理器上，以便避免长线路，这样对通信速度以及等待时间都具有消极影响。这可以通过集群来实现。在集群式处理器中，像功能单元和寄存器堆之类的几种资源被分布在独立的集群上。特别是对于集群式ILP体系结构，每个集群包括一组功能单元和局部寄存器。在集群式处理器后的主要思想是在相同的集群上分配那些频繁交互的计算部分，而在不同的集群上分配那些很少通信或通信并不重要的部分。然而，所述问题是怎样在硬件级(线路与逻辑)上以及在软件级(把变量分配到寄存器并且调度)上处理集群间通信ICC(Inter-Cluster-Communication)。

最广泛使用的ICC模式是完全点对点连接拓扑，即每两个集群具有允许交换数据的专用配线。一方面，具有完全连接的点对点ICC简化了指令调度，但是另一方面由于需要配线的数量：N(N-1)的原因，其中N是集群的数目，使得可扩展性受到了限制。据此，配线的平方增长把可扩展性限制为2-10个集群。

此外，对于点对点ICC，还可以使用部分连接网络。这里，不把集群连接到所有其它集群(完全连接)，而例如只是连接到相邻的集群。尽管配线的复杂性得以减小，但是用于编程处理器的问题将增加，这些问题用现有的自动调度以及分配工具并没有令人满意地得以解决。

又一ICC模式是全局总线连接。经由总线把集群彼此完全地连接，同时与上述完全点对点连接拓扑ICC模式相比较只要求更少的硬件资源。另外，该模式允许值的多点传送，即可以把相同的值同时发送到几个集群，或者换句话说几个集群通过同时读取总线可以获取相同的值。此外所述模式是基于静态调度的，从而仲裁器或任何控制信号都是不必要的。由于所述总线构成共享资源，所以每个周期只可以执行一次转送，这把通信带宽限制得非常低。此外，由于总线的传播延迟的原因，ICC的等待时间将增加。随着集群数目的增加，所述等待时间将进一步增加，这限制了具有这种ICC模式的处理器的可扩展性。

通过使用多总线，其中把两条总线而不是一条用于ICC，可以部分克服受限通信带宽的问题。尽管这将增加通信带宽，但是在不减少所述总线等待时间的情况下还将增加硬件开销。

在另一ICC通信模式中使用局部总线。这种ICC模式是一种部分地连接的通信模式。因此，所述局部总线一次仅仅连接一定量而不是所有的集群。该模式的缺点是更难编程，这是因为例如如果在连接到不同局部总线的集群之间发送值，那么该值就不能在一个周期内直接发送而是至少需要两个周期。

综上所述，可以把已知ICC模式的优点和缺点概括如下。点对点拓扑具有高带宽，但是配线的复杂性随集群数目的平方而增加。不可以多点传送，即把一个值发送到几个其它集群。另一方面，总线拓扑具有较低的复杂性，这是因为所述复杂性随集群的数目而线性增加，并且允许多点传送，但是其具有较低的带宽。ICC模式可以是完全连接或部分连接的。完全连接模式具有较高带宽以及较低的软件复杂性，但是存在较高的配线复杂性并且难以扩展。部分连接模式把良好的可扩展性和较低的硬件复杂性联合起来，但是具有较低的带宽以及较高的软件复杂性。

因此本发明的目的是在用于集群式处理器的ICC模式内改进总线的带宽，同时在不过于增加基本编程系统复杂性的情况下，减少所述总线的等待时间。

由依照权利要求1的ILP处理器以及依照权利要求5的、用于在集群式指令级并行性处理器中访问总线的方法来解决该问题。

本发明的基本思想是沿着总线添加开关，以便通过断开/闭合所述开关来整齐地把所述总线划分为较小的独立段。

依照本发明，集群式指令级并行性处理器包括：多个集群C1-C4；具有多个总线段100a、100b、100c的总线装置100；和安排在相邻总线段100a、100b、100c之间的开关装置200a、200b。所述总线装置100用于连接所述集群C1-C4，所述集群均包括至少一个寄存器堆RF(register file)和至少一个功能单元FU(functional unit)。所述开关装置200用于连接或拆接相邻的总线段100a、100b、100c。

通过把所述总线拆分为不同的段，改进了在一个总线段内所述总线的等待时间。尽管整个总线的总体等待时间—即所有开关闭合时—仍然随集群的数目而线性增加，但是在局部或相邻集群之间的数据移动可以比在不同总线段上-即在不同的开关上的移动具有较低的等待时间。通过断开开关可以避免由于总线ICC的全局互连要求所导致局部通信即在邻接集群之间的通信的减慢，以便可以实现具有较低等待时间的短总线，即总线段。此外，并入所述开关是低廉且易于实现，同时在不放弃完全连接ICC的情况下，增加了总线的可用带宽并且改善了由长总线所引起的等待时间问题。

依照本发明的一个方面，所述总线装置100是包括至少两条总线的多总线，这将提高所述通信带宽。

本发明还涉及一种用于在集群式指令级并行性处理器中访问总线100的方法。所述总线100沿着所述总线100包括至少一个开关装置200。集群C1-C4能够基于源寄存器和转送字执行发送操作，或者基于目的源寄存器和转送字执行接收操作。然后依照所述转送字来断开/闭合所述开关装置200。

从软件观点来看，调度拆分或分段的总线并不比全局总线ICC更加复杂，而只是需要几个逻辑门来控制开关即可。

依照本发明更进一步的方面，所述转送字表示所述发送操作的发送方向和所述接收操作的接收方向，其允许依照数据移动的方向来控制开关。

现在参考附图将更详细地描述本发明，其中：

图1示出了点对点集群间通信ICC模式；

图2示出了经由总线的ICC模式；

图3示出了经由多总线的ICC模式；

图4示出了经由局部总线的ICC模式；

图5依照第一实施例示出了经由分段总线的ICC模式；

图6依照第二实施例示出了经由分段总线的ICC模式；和

图7依照第三实施例示出了经由分段总线的ICC模式。

最广泛使用的ICC模式是完全点对点连接拓扑，即每两个集群具有允许交换数据的专用配线。在图1中示出了具有四个集群的典型ILP处理器。

图2示出了具有全局总线连接的另一ICC模式。经由总线把所述集群彼此完全连接，同时与图1所示的ICC模式相比较只要求更少的硬件资源。另外，该模式允许值的多点传送，即可以把相同的值同时发送到几个集群，或者换句话说几个集群通过同时读取总线可以获取相同的值。

如图3所示通过使用多总线，其中把两条总线而不是一条总线用于ICC，可以部分克服有限通信带宽的问题。尽管这将增加通信带宽，但是在不减少总线等待时间的情况下还将增加硬件开销。

图4示出了使用局部总线的另一ICC通信模式。该ICC模式是一种部分地连接的通信模式。因此，所述局部总线一次仅仅连接一定量的集群而并非所有集群，例如把集群1到3连接到一个局部总线而把集群2到4连接到第二局部总线。该模式的缺点是更难编程，这是因为例如如果一个值将被从集群1发送到集群4，那么不能在一个周期内直接发送该值而是至少需要两个周期。

图5依照第一实施例示出了经由分段总线的集群间通信ICC模式。可以把所述ICC模式并入VLIW处理器。所述模式包括彼此经由总线100和把所述总线分段的一个开关200连接的4个集群C1-C4。当开关200断开时，可以在一个周期内在集群1C1和集群2C2之间执行一次数据移动，和/或在集群3C3和集群4C4之间执行另一次数据移动。另一方面，当开关200闭合时，可以在一个周期内把数据从集群1C1或集群2C2移动到集群3C3或集群4C4。

利用该模式，像集群和开关的数目之类的硬件资源的可扩展性就如图2所示的已知ICC那样，是线性的。

尽管依照第一实施例的ICC模式只示出了单总线100，但是可以很容易地把本发明的原理应用于如图3所示的多总线ICC模式以及如图4所示的使用局部总线的ICC模式。为了实现拆分或分段总线，只需要把某些开关200并入所述多总线或局部总线即可。

图6依照第二实施例示出了经由分段总线的集群间通信ICC模式。这里更详细地示出了集群C1-C4以及开关控制。每个集群C1-C4包括寄存器堆RF和功能单元FU，每个集群经由接口连接到一位总线100，所述接口每位只由3个或(OR)门G构成。作为选择，与(AND)、与非(NAND)或者或非(NOR)门G也可用作接口。然而，显然每个集群C1-C4可以包括不止一个寄存器堆RF和一个功能单元FU。功能单元FU可以是专用于任何总线操作的专门的功能单元FU。此外，可以有几个功能单元写入所述总线。

省略所述寄存器堆的旁路逻辑的表示，这是因为该表示对于理解依照本发明的拆分或分段总线来说是不必要的。尽管只示出了一位总线字，然而显然所述总线可以具有任何想要的字大小。此外，用每位两条线路来实现依照第二实施例的总线。一个线路携带左到右值，而另一条线路携带所述总线的从右到左值。然而，所述总线的其它实施方式也是可以的。

对于每个总线线路可以只用几个MOS晶体管M1、M2来实现总线拆分开关。

可以由集群C1-C4通过发布local_mov或global_mov操作来执行总线的访问控制。这些操作的自变量是源寄存器和目标寄存器。local_mov操作仅仅通过断开总线拆分开关来使用所述总线的一段，而global_mov通过闭合所述总线拆分开关200来使用整个总线100。

作为选择，为了允许多点传送，用于移动数据的操作可以接受不止一个目标寄存器，即一列目标寄存器，其属于不同的集群C1-C4。这还可以由在一位向量中的寄存器/集群掩码来实现。

图7依照本发明第三实施例示出了经由分段总线的集群间通信ICC模式。图7描述了六个集群C1-C6，具有三个段100a、100b、100c和两个开关200a、200b的总线100，即把两个集群与每个总线段相关联。显然，集群、开关和总线段的数目可以不同于该例子。集群C1-C6，如参考图6在第二实施例中所描述，可以使所述集群和总线100以及开关200的接口具体化。在第三实施例中，缺省状态下，这些开关被视为是闭合的。

可以由集群C1-C6通过发送操作或接收操作来执行总线访问。在那些集群需要经由总线把数据发送到另一集群—即执行数据移动的情况中，所述集群执行发送操作，其中所述发送操作具有两个自变量，即源寄存器和发送方向，即发送所述数据的方向。发送方向可以是‘左’或‘右’，并且规定多点传送，其还可以是‘全向’，即‘左’和‘右’。

例如，如果集群3C3需要把数据移动到集群1C1，那么它将发布把源寄存器和发送方向作为自变量的发送操作，所述源寄存器即其中存储将要移动数据的寄存器之一，所述发送方向表明移动所述数据的方向。这里，发送方向是左。因此，将要断开在集群4C4和集群5C5之间的开关200b，这是因为对于该数据移动不要求具有集群5和6C5、C6的总线段200b。或者在其它更多通用字中，当所述集群发布一发送操作时，断开安排在最接近所述发送方向相反侧的开关，借此只把使用所述总线限制到那些执行数据移动实际上所要求的分段，即那些在发送和接收集群之间的分段。

如果所述集群3C3需要把相同的数据发送到集群1和6C1、C6，即多点传送，那么发送方向将是‘全向’。因此，在集群3和集群1之间的所有开关200a以及在集群3和6之间的所有开关200b仍保持闭合态。

依照进一步的例子，如果集群3C3需要从集群1C1接收数据，那么它将发布把目的寄存器和接收方向作为参数的接收操作，所述目的寄存器即其中将要存储所接收数据的寄存器之一，所述接收方向表明接收所述数据的方向。这里，所述接收方向是左。因此，将要断开在集群4和集群5C4、C5之间的开关200b，这是因为对于该数据移动不要求具有集群5和6C5、C6的总线段100c。或者在其它更多通用字中，当所述集群发布一接收操作时，断开被安排在接近所述接收方向相反侧的开关，借此只把使用所述总线限制到那些实际上要求执行数据移动的段，即那些在接收和接收集群之间的段。

对于规定的多点传送，也可以不指定接收方向。因此，所有开关仍将保持闭合状态。

依照第四实施例，其是基于第三实施例的，所述开关不具有任何缺省状态。此外，提供开关配置字来编程所述开关200。所述开关配置字确定哪些开关200是断开的以及哪些开关是闭合的。可以像正常操作一样在每个周期发布，所述正常操作像发送/接收操作。因此，由发送/接收操作和开关配置字来执行总线访问，与如依照第三实施例所描述的、由把发送/接收方向作为自变量的发送/接收操作来执行总线访问形成对比。

Claims

1.一种集群式指令级并行性处理器，包括：

多个集群，每个集群都包括至少一个寄存器堆和至少一个功能单元；

总线装置，用于连接所述集群，所述总线包括多个总线段，和

开关装置，安排在相邻的总线段之间，用于连接或拆接相邻的总线段。

2.如权利要求1所述的处理器，其中每个集群与至少一个总线段耦合。

3.如权利要求1或2所述的处理器，其中两个或更多集群与相同的总线段耦合。

4.如权利要求1、2或3所述的处理器，其中所述总线装置是包括至少两条总线的多总线。

5.一种用于在集群式指令级并行性处理器中访问总线的方法，其中所述总线沿着所述总线包括至少一个开关装置，所述方法包括如下步骤：

基于源寄存器和转送字来执行发送操作，

和/或基于目的源寄存器和转送字来执行接收操作；

依照所述转送字来断开/闭合所述开关装置。

6.如权利要求5所述的方法，其中所述转送字表示所述发送操作的发送方向和所述接收操作的接收方向。

7.如权利要求6所述的方法，其中所述开关装置的缺省状态是闭合的。

8.如权利要求7所述的方法，其中所述开关装置中的一个是断开的，所述开关装置中的这一个最靠近于在与所述发送或接收方向相反的方向上执行所述发送操作或所述接收操作的集群。

9.如权利要求6所述的方法，其中所述发送方向或所述接收方向是左、右或全向。

10.如权利要求9所述的方法，其中如果所述发送方向或接收方向是全向的话，那么任何开关装置都不被断开。

11.如权利要求5所述的方法，其中所述转送字表示开关配置字，其中依照所述配置字来断开/闭合所述开关装置。