CN1433538A

CN1433538A - 用于构造一个预调度的指令高速缓存的方法和装置

Info

Publication number: CN1433538A
Application number: CN00818763A
Authority: CN
Inventors: G·S·谢菲尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1999-12-03
Filing date: 2000-10-09
Publication date: 2003-07-30
Anticipated expiration: 2020-10-09
Also published as: HK1047485A1; GB2374698B; KR100483463B1; AU7875700A; GB0214664D0; US6351802B1; WO2001040935A1; CN1227584C; GB2374698A; DE10085273B4; DE10085273T1; KR20020087392A; HK1047485B

Abstract

一种在一个计算机处理器中调度指令的方法。该方法包含取出指令以创建一个有序的指令缓存，以及把来自于该指令缓存的指令调度到在一个指令向量表中的指令向量内的指令槽里。然后把指令向量从该指令向量表发送到一个预调度的指令高速缓存，然后并行地发送到一个指令发布单元。

Description

用于构造一个预调度的指令高速缓存的方法和装置

发明技术领域

本发明涉及计算机处理器体系结构领域。尤其是本发明公开了一种用于调度计算机指令的方法和装置。

发明的背景技术

早期的计算机处理器以原始程序次序一次一个地执行计算机指令。具体地说，每条计算机指令被载入到处理器中然后被执行。在执行之后，计算机指令的结果然后被写入到一个寄存器或者主存储器里。在执行一条计算机指令之后，下一条连续的计算机指令然后被载入到处理器中并且被执行。

为了提高性能，引入了流水线计算机处理器。流水线计算机处理器同时处理多条计算机指令。然而，早期的流水线计算机处理器以原始程序次序执行指令。流水线处理器通过把指令的处理分成一系列诸如指令取出、指令解码、执行、和结果写回的流水线阶段来进行操作。该处理器然后被分成一组连接的流水线阶段，其中每个流水线阶段执行一个指令处理流水线阶段。在先前描述的示例中，该处理器将被分成一个指令取出阶段、一个指令解码阶段、一个执行阶段、和写回阶段。在每个时钟周期内，每个处理阶段处理一条指令然后把它传给下一个连续处理阶段。因此，该处理器以原始程序次序同时处理几条指令。在一个理想的单流水线处理器中，该处理器将在每个时钟周期内完成一条指令的执行。

为了进一步提高处理器性能，已经引入了超标量处理器。超标量处理器使用并行流水线阶段一次处理一条以上的指令。通过并行执行指令，超标量处理器利用了在指令中存在的并行性优点。当对于源操作数来说，连续的计算机指令不取决于彼此时，就存在并行性。这些不相关的连续指令能够被并行执行而没有任何数据冲突。

设计超标量处理器的一个困难方面是并行地查找和调度指令，以便没有数据相关性冲突并且有足够的处理器资源可用。

发明概述

依据一个实施例，提供了一种在一个计算机处理器中调度指令的方法。该方法包含：取出指令以创建一个有序的指令缓存，以及把来自于该有序指令缓存的指令调度到一个指令向量表中的指令向量内的指令槽里。然后把指令向量从指令向量表发送到一个预调度的指令高速缓存，然后并行地发送到一个指令发布单元。

附图简要说明

图1说明了一个现有技术的无序计算机处理器。

图2说明了依据一个实施例、带有一个预调度的指令高速缓存的处理器体系结构的一个框图。

图3说明了一个流程图，它描述了依据一个实施例、由一个具有一个预调度指令高速缓存的处理器执行的处理过程。

图4A说明了一个调度的指令向量表的一个实施例。

图4B说明了在来自于图4A的指令向量表中的每个指令槽的内容的一个实施例。

图5说明了一个预调度指令向量表的一个替换实施例。

图6说明了一个存储指令以及一个伴随的相对调度时戳的高速缓冲存储器。

最佳实施例的详细说明

这里公开了一种用于在一个计算机处理器中提供一个预调度的指令高速缓存的方法和装置。在下面的描述中，为了说明起见，阐述了具体的术语以提供对本发明的一个彻底了解。然而，对于本领域技术人员来说，显然这些细节不是实践本发明所要求的。

图1说明了一个现有技术的无序超标量计算机处理器。在图1的计算机处理器中，一个指令取出单元110从一个第一级本地指令高速缓存105或者一个主存储器单元103中取出指令。如果想要的指令是在第一级本地指令高速缓存105中，则指令取出单元110从第一级本地指令高速缓存105中取出指令。否则，指令取出单元110从主存储器单元103中取出想要的指令。在某些实施例中，可以给出一个第二级高速缓存作为该主存储器的替代物。

取出的指令被传递到一个解码该取出指令的解码器120。该解码的指令然后被传递到一个分配器/重命名器，该分配器/重命名器在一个预留位置分配用于指令的入口，并且使用一个寄存器堆和寄存器映射来执行寄存器重命名。

一个调度单元140然后调度这些指令用于执行。该调度单元140选择将在处理器的任意给定周期执行的指令。从该预留位置中把调度的指令与来自于寄存器堆的操作数一起发送到执行单元用于执行。

在每个时钟周期内，调度单元140选择一组指令以发送到该执行单元。用于所选指令的源操作数在发送时期是可用的(在该寄存器堆中)或者将是可用的(来自于一个执行单元的结果)。此外，执行资源对于所选指令应当是可用的。在大多数的处理器中，该独立的执行单元不相同，因此每个执行单元只能处理一定类型的指令。因此，该调度单元140确定需要的执行单元类型是否将是可用的。最后，在一个实施例中，调度单元140选择将导致程序执行更快的指令。因而，在一个实施例中，这通过首先选择最早可用的指令来完成。因此，该调度单元140试图以一种先进先出(FIFO)的方式服务指令。

由于这些困难的限制以及通常一个调度单元140必须作出决定的短时间周期，所以大多数的调度器不能以最优方式调度指令。因此，虽然在计算机目标代码中有更精细的并行性可用，但是调度单元一般仅仅利用有限数量的并行性。

一个预调度的指令高速缓存处理器体系结构

在一个实施例中，在指令处理流水线中，一个指令高速缓存已经被放置在一个指令调度器之后。通过把该指令高速缓存放置在指令调度器之后，该指令调度器能够创建“预调度的”指令向量并且在该指令高速缓存中存储该预调度的指令向量。一个指令发布单元然后能够把来自于指令调度器或者来自于该预调度的指令高速缓存的预调度指令向量供给该执行单元。

图2说明了依据一个实施例的处理器体系结构的一个框图。在图2的顶端是最初从中取出指令的存储器203。存储器203可以包含标准的主存储器，或者存储器203可以包含主存储器和一个集成的指令高速缓存。一个指令取出单元210从该存储器203中取出要被执行的指令。为了在一个实施例中确定该指令执行路径，指令取出单元210包括一个分支预测单元207。分支预测单元207预测该程序的一个执行路径并且沿着预测的执行路径取出指令。因此，该指令取出单元210依据预测的执行路径，取出一段连续的有序指令流。

指令取出单元210把取出的指令传递到一个指令解码器220。指令解码器220在该处理器指令中进行分离并且确定必要的资源。在一个实施例中，该指令解码器220把该处理器指令翻译成小的微操作代码(微操作码)。然后该微操作码由该处理器流水线的剩余部分处理。

指令解码器220把该解码的指令传递到指令调度器240。指令调度器240以原始程序次序把该解码的指令放置到一个缓存241里。然后指令调度器从有序缓存241中选择指令，以放置在一个调度指令向量表247中的多个指令向量中的一个内。因此，该有序缓存241为调度提供一组候选的指令。该调度的指令向量表247包含多个指令槽，其中每个指令槽都与一个匹配的执行单元相关联。由于这些执行单元不是全部相同的，所以该调度器为对应于相应指令一个操作的相应执行槽调度指令。

当调度器240不能再在该调度的指令向量表247中找到一个空的指令槽时，则该调度器240发送最老的执行向量(例如，最近最少接收一条指令的指令向量)。在一个实施例中，调度器240并行地发送该最老的执行向量到预调度的指令高速缓存250和一个指令发布单元260。

在一个实施例中，该指令发布单元260发布指令到一组执行单元。由于这些指令已经被预调度了，所以该指令发布单元260能够简单地发送一个预调度的指令向量到该执行单元。为了增加执行速度，指令发布单元260能够发布从调度器240线性接收的预调度指令向量，或是指令发布单元260能够发布从预调度的指令高速缓存250中获得的预调度指令向量。

在一个实施例中，执行单元执行指令并且在一个推测性状态缓存中存储该状态。当分支预测被验证时，该推测性的状态被传送到一个真实的处理器状态缓存里。当一个分支被错误预测时，在该错误预测之后产生的推测性状态被丢弃了。在一个替换实施例中，该推测性状态和真实处理器状态可以占用同一个缓存，而且一个真实状态指针映射能用于指示当前的真实状态。

图3说明了由一个依据一个实施例构造的处理器执行的指令处理过程的流程图。最初，一个指令取出单元在步骤310取出一个指令流。为了取出一个连续的指令流，指令取出单元执行分支预测。该指令取出单元的输出被放置到在指令调度器中的一个有序指令缓存里。这个缓存还可以被称为指令缓存，或者有序的指令缓存。

接下来，在步骤320，一个指令调度器把来自于该指令缓存的有序指令调度到指令向量表中的指令槽里。指令调度器通过考虑数据相关性、可用的执行资源、和/或执行延迟时间来调度指令组。

由于指令调度器能够从一个指令缓存中选择，所以该指令调度器能够从指令代码中提取并行性。此外，由于一个指令高速缓存驻留在指令调度器之后，所以该指令高速缓存能够提供指令到执行单元，因此为复杂的指令调度任务提供了附加的带宽。

当如在步骤340中所述、调度器试图调度一条指令而且确定它不能把指令放置到该指令向量表中一个可用的指令槽里时，则该调度器把最老的指令向量传递到一个指令发布单元和一个预调度的指令高速缓存中。结果，一个新的空指令向量可以用来使用。在一个实施例中，该指令调度器试图把指令放置到最老的指令向量里，因此最小化延迟。

参见步骤350，该指令发布单元选择指令向量以发布到执行单元。在没有分支的代码部分内，指令发布单元可以发布从指令调度器接收的连续指令向量。然而，举例来说，当在该程序代码中出现一个循环时，指令发布单元能够选择来自于预调度指令高速缓存中的预调度的指令向量。由于指令发布单元将经常发布来自于该预调度指令高速缓存的指令，所以指令调度器不需要以执行单元的完全执行速度产生指令向量。

图2的调度指令向量表247可以以许多不同的方式实现。在这里描述了两种不同的可能实施例。

图4A说明了实现一个调度的指令向量表的第一种方法。在图4A的实施例中，调度指令向量表中的每个指令向量(行)包含用于每个执行单元的固定指令槽。在图4A的实施例中，有五个执行单元，因此有五个指令槽：EU1、EU2、EU3、EU4、和EU5。在替换实施例中，在一个指令向量中的指令槽数目能够变化而没有背离本发明的范围。

指令调度器试图调度一条指令到所有的指令槽里，但是数据相关性和执行延迟可以阻止这样的优化调度。当调度器找不到一条指令以放置到一个指令向量的一个指令槽里时，在发送该指令向量之前那个指令槽充满了一个“空操作”代码。做为选择，当一行被空出时，在该行中的所有槽用NOP进行初始化。

图4B说明了在图4A的指令向量表中的每个指令槽的内容的一个可能实施例。参见图4B，每个指令槽包含一个指令代码、一个第一源操作数、一个第二源操作数、一个结果目的地、以及一个相对的程序计数器(PC)值。指令代码定义了要被执行的操作，而源操作数是在其上执行操作的数据。结果目的地指定受该操作影响的寄存器或者标记。在一个实施例中，相对程序计数器(PC)指定该指令相对于用于该指令向量的一个程序计数器值的位置。该相对程序计数器(PC)可以用于确定何时能够确认推测性的结果。

再次参考图4A，在一个替换实施例中，除了指令槽之外，每个指令向量还可以包含两个字段：一个等待值和/或一个程序计数器(PC)递增值。该等待值用来确定在发布下一个指令向量之前该指令发布单元应当延迟多长时间。考虑执行延迟和数据相关性，该指令发布单元在发布下一个指令向量之前有时将需要等待一个或多个周期。作为在一个实施例中使用该等待值的结果，存储一个具有空槽的指令向量以提供一个延迟的需要被减少了。

在一个实施例中，程序计数器(PC)递增值可以用来确定在该指令向量已经被执行之后要把一个程序计数器值递增多少。由于在一个实施例中，处理器体系结构不以原始程序次序执行指令而且在每个周期内可以执行多个指令，因此没有一个严格的线性程序计数器值。然而，一个程序计数器值能用于确定当前程序执行的一个近似位置。

考虑包含指令5、6、7、19、和23(来自于原始程序次序)的一个指令向量示例。进一步考虑，直到7的所有指令已经被调度了。在该向量已经被成功执行之后，相应的指令指针能够前进到7。结果，如果在执行该指令向量中的指令期间发生一个异常，则该程序计数器值可用于确定继一个异常处理器完成之后从哪里再继续执行指令。

图5说明了一个预调度指令向量表的一个辅助替换实施例。在图5的预调度指令向量表中，没有固定的指令槽。相反，图5的实施例使用一个标记来确定是否有一条指令包含在用于每个执行单元的相应指令向量中。如果用于一个执行单元的标记被设置为零，则没有指令用于那个特定执行单元。如果用于一个执行单元的标记被设置为1，则接下来的位指定一条用于那个特定执行单元的指令。

例如，参考图5的第二行，用于执行单元1的执行单元标记被设置为1，从而使得用于执行单元1的一条指令紧接着该第一个执行单元标记。在用于执行单元1的指令之后，有一个用于执行单元2的标记。在这个实例中，用于执行单元2的标记被设置为零，因此没有用于执行单元2的指令。下一位是一个用于执行单元3的执行标记。由于用于执行单元3的执行标记被设置为1，所以用于执行单元3的一条指令紧接着用于执行单元3的执行标记。通过使用标记来确定是否存在一条用于一个特定执行单元的指令，可以减少该指令向量表/高速缓存的大小。在替换实施例中，一个标记可以是零来指示存在一个用于一个相应执行单元的操作，而没有背离本发明的范围。

此外，一个替换实施例可以部分预调度指令，而不是全部预调度指令。具体地说，一个指令调度单元被放置在一个指令高速缓存之前，而且该指令调度单元做出调度建议。然后指令与该调度建议一起被保存在指令高速缓存中。该调度建议能够以与每条指令相对关联的形式创建。

图6说明了一个依据该替换实施例的示教构造的高速缓冲存储器。在图6的高速缓冲存储器中，每条指令与一个伴随的相对调度时戳一起被存储，该时戳能由靠近该执行单元的第二调度器使用用于最后的调度。在一个实施例中，能够基于诸如正确的分支预测可能性或者高速缓存命中/失败可能性这样的因素来计算该相对的调度时戳。做为选择，第二个调度器可以以一种取决于分支错误预测和意外延迟的不同方式来调度指令。

上文已经描述了一种用于提供预调度的指令高速缓存的方法和装置。应当考虑到可以由一个本领域普通技术人员对本发明单元的材料和布置进行改变和修改而没有背离本发明的范围。

例如，如上所述的方法，包括该替换实施例，能够被实现为在一个机器可读的介质上表示的、由一个处理器执行的指令。该机器可读的介质能够包括一个用于以一种可由一个机器(例如，计算机)读取的形式存储或者传输信息的机制。例如，机器可读介质包括：只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪速存储器设备；电的、光的、声的或者其它形式的传播信号(例如，载波、红外信号、数字信号、等)。

Claims

1.一种在一个计算机处理器中调度指令的方法，所述方法包含：

取出指令到一个有序的指令缓存里；

从所述有序指令缓存中调度指令到一个指令向量表的指令向量内的指令槽里；以及

从所述指令向量表发送指令向量到一个预调度的指令高速缓存，然后并行地发送到一个指令发布单元。

2.如权利要求1所述的方法，进一步包含：

并行执行被放置到单个指令向量中的指令。

3.如权利要求2所述的方法，进一步包含：

从所述指令发布单元发布一个指令向量到一组执行单元里。

4.如权利要求1所述的方法，其特征在于：所述的从所述指令向量表中发送指令向量包含：当在所述有序指令缓存中的一条指令不能被调度到在所述指令向量表内的一个可用指令槽里时，发送来自于所述指令向量表的一条最老的指令向量。

5.如权利要求1所述的方法，其特征在于：所述指令向量表包含具有固定指令槽的指令向量。

6.如权利要求1所述的方法，其特征在于：所述指令向量表的所述指令向量包含一个等待值，该值表示在发布一个后继指令向量之前出现的一个延迟。

7.如权利要求1所述的方法，其特征在于：所述指令向量表的所述指令向量包含一个程序计数器递增值。

8.如权利要求1所述的方法，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个标记，它表示用于一个相应执行单元的一个操作是否包含在该相应的指令向量中。

9.如权利要求1所述的方法，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个用于后续调度的调度建议。

10.一个表示指令的机器可读介质，当该指令由一个处理器执行时导致所述处理器执行下列过程：

取出指令到一个有序的指令缓存里；

从所述指令缓存中调度指令到在一个指令向量表的指令向量内的指令槽里；以及

11.如权利要求10所述表示附加指令的机器可读介质，当其由一个处理器执行时，导致所述处理器执行下列过程：

并行执行被放置到单个指令向量中的指令。

12.如权利要求2所述表示附加指令的机器可读介质，当其由一个处理器执行时，导致所述处理器执行下列过程：

从所述指令发布单元发布一个指令向量到一组执行单元里。

13.如权利要求10所述的机器可读介质，其特征在于：所述的从所述指令向量表中发送指令向量包含：当在所述有序指令缓存中的一条指令不能被调度到在所述指令向量表内的一个可用指令槽里时，发送来自于所述指令向量表的一个最老的指令向量。

14.如权利要求10所述的机器可读介质，其特征在于：所述指令向量表包含具有固定指令槽的指令向量。

15.如权利要求10所述的机器可读介质，其特征在于：所述指令向量表的所述指令向量包含一个等待值，该值表示在发布一个后继指令向量之前出现的一个延迟。

16.如权利要求10所述的机器可读介质，其特征在于：所述指令向量表的所述指令向量包含一个程序计数器递增值。

17.如权利要求10所述的机器可读介质，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个标记，其表示用于一个相应执行单元的一个操作是否被包含在该相应的指令向量中。

18.如权利要求10所述的机器可读介质，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个用于后续调度的调度建议。

19.一个处理计算机指令的装置，所述装置包含：

一个指令取出单元，取出指令并且把所述指令放置到一个有序的指令缓存里；

一个包含多个指令向量的指令向量表，其中所述指令向量具有两个或多个用于要被并行执行的指令的槽；以及

一个调度器，把指令从所述有序指令缓存调度到所述指令向量表里，所述调度器把来自于所述指令向量表的指令向量发送到一个预调度的指令高速缓存，然后并行地发送到一个指令发布单元。

20.如权利要求19所述的装置，进一步包含：

一个执行单元，并行地执行放置到单个指令向量中的所有指令。

21.如权利要求19所述的装置，其特征在于：当在所述有序指令缓存中的一条指令不能被调度到在所述指令向量表内的一个可用指令槽里时，所述调度器发送来自于所述指令向量表的一个最老的指令向量。

22.如权利要求19所述的装置，其特征在于：所述指令向量表包含具有固定指令槽的指令向量。

23.如权利要求19所述的装置，其特征在于：所述指令向量表的所述指令向量包含一个等待值，该值表示在发布一个后继指令向量之前出现的一个延迟。

24.如权利要求19所述的装置，其特征在于：所述指令向量表的所述指令向量包含一个程序计数器递增值。

25.如权利要求19所述的装置，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个标记，其表示用于相应执行单元的一个操作是否被包含在该相应的指令向量中。

26.如权利要求19所述的装置，其特征在于：在所述指令向量表中的一个指令向量的每个槽都包含一个用于后续调度的调度建议。