CN1295597C

CN1295597C - 多发布处理器

Info

Publication number: CN1295597C
Application number: CNB038086794A
Authority: CN
Inventors: J·A·J·雷坦
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nytell Software LLC
Priority date: 2002-04-18
Filing date: 2003-04-01
Publication date: 2007-01-17
Anticipated expiration: 2023-04-01
Also published as: CN1647032A; US20050132170A1; DE60333089D1; KR20040111532A; US8095780B2; WO2003088038A3; ATE472134T1; JP2005523499A; EP1499960A2; AU2003214556A8; AU2003214556A1; EP1499960B1; WO2003088038A2; JP4194953B2

Abstract

一种多发布处理器，包括多个发布槽(UC0、UC1、UC2和UC3)(多个发布槽中的每个都具有多个功能单元(FU0、FU1和FU2))和多个可保持寄存器(1-33和101-117)。所述的多个发布槽包括第一组发布槽(UC1、UC2和UC3)和第二组发布槽(UC0)，并且寄存器堆(RF0和RF1)可以由多个发布槽(UC0、UC1、UC2和UC3)访问。在第一组发布槽(UC1、UC2和UC3)中的多个可保持寄存器(1-33)中的至少一部分的位置与在第二组发布槽(UC0)中的多个可保持寄存器(101-117)中的至少一个对应部分的位置不同。所述的可保持寄存器可以防止未使用的功能单元的输入变化，该变化将导致不必要的功率耗损。然而，这样会增加在中断处理期间必须保存的状态的数量。通过改变用于不同发布槽的可保持寄存器的位置，在中断处理期间可能只需要保存较少的状态，同时保持显著的功耗降低和改善的性能。

Description

多发布处理器

技术领域

本发明涉及一种多发布(multi-issue)处理器，包括：多个发布槽(issue slots)，多个发布槽中的每个包括多个功能单元和多个可保持寄存器，所述的多个发布槽包括第一组发布槽和第二组发布槽；以及可以由多个发布槽访问的一个寄存器堆。

背景技术

多发布处理器呈现出了大量并行硬件，以便在一个处理器周期中允许多个操作的并行执行，从而利用程序中的指令级并行度。多发布处理器的例子是VLIW(超长指令字)处理器和超标量(superscalar)处理器。在VLIW处理器的情形下，软件程序包含与将被并行执行的操作有关的全部信息，并且这些操作被组装成为一个很长的指令。编译器确保考虑到操作之间的全部相关性，并确保不会发生资源冲突。除了这一程序信息，硬件不需要任何附加信息就可以正确地执行程序，这导致硬件相对简单。在超标量处理器的情形下，将被执行的软件作为一个由连续的一系列操作组成的程序而被提供。在运行时间，处理器硬件自身确定存在哪些操作相关性，并且根据这些相关性决定并行执行哪些操作，同时确保不会发生资源冲突。一个相对简单的编译器足以将高级编程语言翻译为顺序代码，但是处理器硬件是很复杂的。

在多发布处理器中，在发布槽中组织负责执行这些操作的并行硬件。每个发布槽都包含一个或多个执行实际操作的功能单元。通常，在每个处理器周期中，在每个发布槽中的一个功能单元上开始一个操作。在一些处理器中，在一个发布槽中设置多个功能单元，以作为最大可用并行度和指令宽度成本(在VLIW处理器情形下)或硬件复杂度(在超标量处理器情形下)之间的折衷。

因为在每个时钟周期中，最多可以在每个发布槽的一个功能单元上开始一个操作，所以在该发布槽中在给定的处理器周期内没有被使用的功能单元可能会浪费功率。即使在这些功能单元的输出无关紧要的情况下，如果这些功能单元的输入在它们未被使用的时间内改变，则比起被使用时，它们仍将消耗可观的功率。

可以通过在发布槽内的所用功能单元的输入端处设置可保持寄存器(即在不同输入的情况下其状态保持不变的寄存器)来消除功率浪费。在不使用这些功能单元的时候，这些可保持寄存器将使功能单元的输入不变。因为这些功能单元的输入保持不变，没有任何组合门被进行切换并且不会发生动态功率损耗。这些可保持寄存器例如可以通过时钟选通来实现。这些寄存器另一个优点是，它们形成的附加的流水线级(pipeline stage)允许以较高的时钟频率运行处理器。将寄存器添加到功能单元输入的全部的输入端处的一个缺点是增加了在中断期间必须保存的状态的数量。一个中断允许处理器很快地响应外部事件，并且它使处理器暂时推迟当前程序跟踪的进一步执行，并且替代地执行另一个跟踪。被推迟的跟踪的状态必须被保存，这样，当已经服务了中断后，处理器可以恢复它的原始状态并且可以正确地继续进行原始跟踪。为了获得可预测的并且短的中断延迟，必须总是能够在需要时中断处理器。这在实时应用程序中是尤其重要的。在该程序中的任意点中断处理器可能意味着必须保存大量的状态。

于2000年10月18日提交的非预先公开的欧洲专利申请00203591.3[代理人文档PHNL000576]提供了用于减少在中断期间必须保存的状态的数量的解决方案。应用了第二压缩指令组，其被使用于中断服务例程，并且仅使用处理器资源的有限集合。在中断的情形下，仅仅保存由第二压缩指令组使用的处理器资源的有限集合的状态就足够了，同时简单地冻结全部其它资源的状态。然而，当寄存器被设置在该有限资源集合中的每个功能单元的全部输入端处的时候，由第二压缩指令组使用的资源仍然具有大量在中断期间必须保存和恢复的状态。

发明内容

本发明的一个目的是提供一个解决方案，以便更进一步降低在多发布处理器中断处理期间必须保存的状态的数量，同时保持功耗的显著降低和改善的性能。

这个目的利用所述的这种多发布处理器实现，所述多发布处理器包括：多个发布槽，所述多个发布槽中的每一个发布槽都包括多个功能单元和多个可保持寄存器，所述多个可保持寄存器被安置在所述功能单元的输入端处，所述多个发布槽包括第一组发布槽和第二组发布槽；和可由多个发布槽访问的寄存器堆，其中在第一组发布槽中的多个可保持寄存器的至少一部分的位置与在第二组发布槽中的多个可保持寄存器的至少一个对应部分的位置不同。

理想地，所述的可保持寄存器被设置在发布槽的内的每个功能单元的全部的输入端处。这样保证没有使用的功能单元的每个输入将保持不变，并且不会发生不必要的功率耗损。然而，这会增加在中断处理期间必须保存的状态的数量。通过改变用于不同发布槽的可保持寄存器的位置，并且不在每个功能单元的全部输入端的前面设置可保持寄存器，只需要在中断处理期间保存较少状态。这可能导致功率消耗的较少的降低或减少在性能方面的提高。根据应用程序的类型可以在这些需求之间做出一个最佳的选择。

本发明的一个实施例的特征在于，多发布处理器还包括一个第一指令组装置，该装置可以访问第一组发布槽，和第二指令组装置，该装置可以访问第二组发布槽。这个实施例的一个优点是可以使发布槽中的可保持寄存器的位置依赖于控制这个发布槽的指令组装置。如果第二指令组装置被用于一个中断服务例程，在第二组发布槽中的可保持寄存器可以被定位成最佳地降低在中断处理期间必须被保存的状态的数量。然而，这个解决方案不是降低功率消耗的最佳的解决方案。可保持寄存器的定位仍然产生能够提高处理器的时钟频率一个附加的流水线级。许多中断需要非常简单的中断服务例程，因此使用一组有限的发布槽的压缩的第二指令组就足够了。所以非最佳的功率消耗降低仅仅适用于多发布处理器内部的一小组发布槽。在中断处理期间不使用第一组发布槽，并且作为结果，不必保存它们的状态。可保持寄存器可以被设置成最佳地降低功率消耗，并且通过产生一个附加的流水线级提高时钟频率。对于整个处理器，这将导致在提高性能、降低功率消耗和减少状态保存开销之间的平衡考虑。

本发明的一个实施例的特征在于，在第一组发布槽中，多个可保持数据寄存器的位置是在所述功能单元的单个数据输入端处，而在第二组发布槽中，多个可保持数据寄存器的位置是在所述功能单元的公共数据输入端处。这个实施例的一个优点是大大降低了在中断处理期间必须被保存的状态的数量，因为可保持寄存器不是位于第二组发布槽的诸功能单元的所有单独输入端处，而是仅仅在它们的公共输入端处。然而，使用第二组发布槽的一个发布槽的一个功能单元会导致该发布槽的其它功能单元的输入的改变，因此导致不必要的功率耗损。如果整个发布槽都没有被使用，诸功能单元将不消耗功率。在第一组发布槽中，可保持寄存器被定位在诸功能单元的全部输入端处，以便最佳地降低功率消耗，这导致功率消耗的整体的显著降低。此外，在第一和第二组发布槽中的可保持寄存器在体系结构中形成一个附加的流水线级，这允许处理器运行于一个较高的时钟频率。结果，在降低功率消耗、提高性能和减少中断处理期间所必须保存的状态的数量之间获得一个很好的折衷。

附图说明

所说明的实施例的特征将进一步被阐述，并且参考附图而被说明：

图1是一个VLIW处理器的示意图。

图2是一个仅由第一指令组使用的发布槽UC₁、UC₂和UC₃的示意图。

图3是在中断处理期间由第二指令组使用的发布槽UC₀的示意图。

具体实施方式

参考图1，示意方框图说明了一个VLIW处理器，该处理器包括多个发布槽(包括发布槽UC₀、UC₁、UC₂和UC₃)和一个包括寄存器堆部分RF₀和RF₁的分布式寄存器堆。所述的处理器具有一个控制器SQ和一个用于耦合寄存器堆部分RF₀和RF₁以及发布槽UC₀、UC₁、UC₂和UC₃的连接网络CN。所述的发布槽UC₀、UC₁、UC₂和UC₃由第一指令组使用，并且该第一指令组包括通常的VLIW指令。发布槽UC₀是唯一的由第二指令组使用的发布槽。该第二指令组被用于中断服务例程。

参考图2，示意方框图说明了发布槽UC₁、UC₂和UC₃。参考图3，示意方框图说明了发布槽UC₀。现在参考图2和图3，每个发布槽包括一个解码器DEC、一个时间形态(time shape)控制器TSC、一个输入路由网络IRN、一个输出路由网络ORN和多个功能单元，所述的多个功能单元包括功能单元FU₀、FU₁和FU₂。解码器DEC被耦合到时间形态控制器TSC和功能单元FU₀、FU₁和FU₂。输入路由网络IRN被耦合到功能单元FU₀、FU₁和FU₂。输出网络网络ORN也被耦合到功能单元FU₀、FU₁和FU₂。解码器DEC对在每个时钟周期中被加到发布槽的操作O进行解码。解码步骤的结果是操作数寄存器索引ORI，并且解码器DEC将这些索引传递到连接网络CN，如图1所示。解码步骤的更进一步结果是结果文件索引RFI和寄存器索引RI。解码器DEC将这些索引传递到时间形态控制器TSC。按照必须在其上执行所述操作的功能单元的输入/输出行为，时间形态控制器TSC将结果文件索引RFI和寄存器索引RI延迟适当的数量。随后，时间形态控制器TSC将结果文件索引RFI和寄存器索引RI传递到连接网络CN，如图1所示。解码器DEC也利用耦合SEL选择功能单元FU₀、FU₁和FU₂中的一个。此外，解码器DEC利用耦合OPT将有关必须被执行的操作的信息传递到功能单元FU₀、FU₁和FU₂。输入路由网络IRN将用于发布槽UC₁、UC₂和UC₃的操作数数据OD传递到功能单元FU₀，FU₁和FU₂的输入端。功能单元FU₀、FU₁和FU₂将它们的输出数据传送到输出路由网络ORN，并且随后输出路由网络ORN将结果数据RD传送到通信网络CN，参见图1。

参考图2，在功能单元FU₀、FU₁和FU₂的数据和控制输入端处直接提供了可保持寄存器1-27。可保持寄存器1-5、11-15、21和23被称为可保持数据寄存器，因为它们被定位于功能单元FU₀、FU₁和FU₂的数据输入端处。当功能单元没有被使用的时候，可保持寄存器1-27将使功能单元FU₀，FU₁和FU₂的输入不变。结果，没有组合门被切换并且不会发生功率耗损。此外，为了防止结果文件索引RFI和寄存器索引RI发生不必要的改变并从而导致不必要的功率耗损，可保持寄存器29、31和33被直接放置在时间形态控制器TSC之后。这个实施例的一个优点是它降低了功率消耗。在每个时钟周期中，最多可以在功能单元FU₀、FU₁和FU₂其中之一上开始一个操作，并且大多数的功能单元在一个单一处理器周期中结束它们的操作。如果由于通过输入路由网络IRN或解码器DEC被传送的数据而使未被使用的功能单元的输入发生改变，则当它们没有被使用的时候这些功能单元仍将消耗可观的功率，尽管它们的输出是无关紧要的。添加可保持寄存器1-33会产生附加状态，但是这对于发布槽UC₁、UC₂和UC₃来讲是无关紧要的。在中断期间，只要冻结它们的状态即可。所述的可保持寄存器1-33仅承担附加的区域。在相应的功能单元没有被使用的情形下，由于使用时钟选通来将寄存器保持在它们的不活动状态，这些寄存器不浪费附加功率。

参考图3，发布槽UC₀是唯一由第二指令组使用的发布槽，其被用于中断服务例程。为了保证快速的中断响应，最小化在中断处理期间必须被保存的状态的数量是重要的。这可以通过将可保持寄存器放置在功能单元FU₀、FU₁和FU₂的公共输入端处来实现。因此，可保持寄存器101、103和105被直接地放置在发布槽UC₀的输入端处，而不是在发布槽UC₀中的每个功能单元FU₀、FU₁和FU₂的数据输入端处。此外，可保持寄存器117被放置在解码器DEC的输出端处(而不是在发布槽UC₀中的每个功能单元FU₀、FU₁和FU₂的输入端处)，以用于传送必须被执行的操作OPT的类型的信息。在时间形态控制器TSC的结果文件索引输入和寄存器索引输入终端处同样定位了可保持寄存器113和115，而不是在它们的输出端处，这节省了一个可保持寄存器。在每个功能单元FU₀、FU₁和FU₂的输入端处的可保持寄存器107，109和111的定位保持不变，因为这些功能单元输入没有被耦合到解码器DEC的公共的输出端。

在发布槽UC₀中的可保持寄存器的定位的一个优点是，与由于发布槽UC₁、UC₂和UC₃中的可保持寄存器而呈现的状态的数量相比，在中断期间必须被保存的状态的数量被大大减少。使用发布槽UC₀中的功能单元FU₀、FU₁和FU₂其中之一，导致发布槽UC₀的其它功能单元的输入改变，并因此在这个发布槽中产生不必要的功率耗损。如果整个发布槽都没有被使用，可保持寄存器101-111和117将防止发布槽UC₀的功能单元FU₀、FU₁和FU₂的功率消耗。

对于发布槽UC₀、UC₁、UC₂和UC₃，可保持寄存器的位置导致在提高性能、降低功率消耗和减少状态开销之间的平衡考虑。许多中断需要非常简单的中断服务例程，因此只需要使用有限的第二组发布槽的的压缩第二指令组就足够了。在发布槽的较大的子集中，所述的可保持寄存器可以如图2所示地被定位，以便最佳地降低功率消耗，这导致功率消耗的整体的显著降低。通过如图3所示地在发布槽中定位由第二指令组使用的可保持寄存器，在中断处理期间必须被保存的状态的数量被大大降低。此外，被添加到发布槽UC₀、UC₁、UC₂和UC₃的可保持寄存器在体系结构中形成一个附加的流水线级，这允许处理器以较高的时钟频率运行。再参考图1，在发布槽UC₀、UC₁，UC₂和UC₃中被定位的可保持寄存器将现有的数据通路分成两部分，这减少了执行一个部分的数据通路所需的时间，并且允许提高处理器的时钟频率。

一个超标量处理器还包括可以并行执行多个操作的多个发布槽，和VL IW处理器的情况一样。因此，在这个部分中描述的VLIW处理器的实施例的原则也可以应用于超标量处理器。通常，当与超标量处理器相比的时候，VLIW处理器可能具有更多发布槽。VLIW处理器的硬件与超标量处理器相比简单一些，这导致较好的可扩展的体系结构。由于本发明，尤其是发布槽的数量和每个发布槽中的功能单元的数量将决定功率消耗的相对的降低。

应当注意到上述实施例是说明性的，而不是对本发明的限定，并且对本领域的普通技术人员来讲，在没有脱离所附权利要求书的范围的情况下，将能设计出许多替换实施例。在权利要求书中，括号中的任何附图标记都不是对权利要求的限定。术语″包括″不排除存在除了在权利要求中列出的以外的元件或步骤。元件前面的术语″一个″不排除存在多个这样的元件。在列举了若干设备的装置权利要求中，若干这些设备可以被包含在同一个硬件项中。在互相不同的从属权利要求中引用某些手段这一事实并不表示这些手段不能被组合使用以获益。

Claims

1.一种多发布处理器，包括：

多个发布槽，所述多个发布槽中的每一个发布槽都包括多个功能单元和多个可保持寄存器，所述多个可保持寄存器被安置在所述功能单元的输入端处，

所述多个发布槽包括第一组发布槽和第二组发布槽；和

可由多个发布槽访问的寄存器堆；

其中，在第一组发布槽中的多个可保持寄存器的至少一部分的位置与在第二组发布槽中的多个可保持寄存器的至少一个对应部分的位置不同。

2.根据权利要求1的多发布处理器，包括：

可以访问至少该第一组发布槽的第一指令组装置；

可以访问该第二组发布槽的第二指令组装置。

3.根据权利要求1或2的多发布处理器，其中：

在第一组发布槽中，多个可保持数据寄存器的位置是在所述功能单元的单个数据输入端处，而在第二组发布槽中，多个可保持数据寄存器的位置是在所述功能单元的公共数据输入端处。