CN100403257C

CN100403257C - 能够隐式地多线程执行单线程程序的装置、方法和系统

Info

Publication number: CN100403257C
Application number: CNB028128540A
Authority: CN
Inventors: 海赛姆·阿卡瑞; 塞巴斯蒂安·希利
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-06-28
Filing date: 2002-06-14
Publication date: 2008-07-16
Anticipated expiration: 2022-06-14
Also published as: KR20040022436A; JP2005521924A; GB2393297B; DE10296989B4; GB0507006D0; GB2412204B; US7752423B2; WO2003003196A2; GB0329899D0; DE10296989T5; US20030005266A1; GB2393297A; GB2412204A; KR100783828B1; WO2003003196A3; HK1062056A1; CN1732433A

Abstract

本发明公开了一种包括第一处理器和第二处理器的设备。许多存储器设备被连接到第一处理器和第二处理器。寄存器缓冲器被连接到第一处理器和第二处理器。跟踪缓冲器被连接到第一处理器和第二处理器。许多存储器指令缓冲器被连接到第一处理器和第二处理器。第一处理器和第二处理器使用多线程资源来执行单线程应用程序。本发明还公开了一种方法，其中从第二处理器执行第一线程。还在第一处理器指引下从第二处理器执行第一线程。第二处理器在第一处理器之前执行指令。

Description

能够隐式地多线程执行单线程程序的装置、方法和系统

技术领域

本发明涉及多处理器(multiprocessor)，更具体地说，涉及用于多线程执行单线程程序的方法和装置。

背景技术

在现今的许多处理系统，比如个人计算机(PC)中，单片多处理器(CMP)在执行多线程程序中扮演着重要角色。这些处理器可以处理和执行的线程是彼此独立的。例如，线程可以来自于独立的多个程序或来自于同一程序。一些线程被编译，产生其间不具有依赖性的多个线程。但是在多线程环境中，一些单线程应用程序可能太难以显式地转换为多线程。而且，在多线程处理器上运行现有的单线程二进制码未充分利用芯片的多线程能力。

发明内容

本发明的一个技术方案提供了一种装置，该装置包括：第一处理器和第二处理器，第一处理器和第二处理器每个都具有记分板和解码器；多个存储器设备，其被耦合到第一处理器和第二处理器；第一缓冲器，其被耦合到第一处理器和第二处理器，所述第一缓冲器是寄存器文件缓冲器；第二缓冲器，其被耦合到第一处理器和第二处理器，所述第二缓冲器是跟踪缓冲器；和多个存储器指令缓冲器，其被耦合到第一处理器和第二处理器，其中，第一处理器和第二处理器使用多线程资源来执行单线程应用程序，第二处理器对单线程应用程序的执行领先于第一处理器对该单线程应用程序的执行以避免误预测，单线程应用程序不被转换成显式的多线程应用程序，单线程应用程序当在第一处理器和第二处理器上执行时具有相同数量的指令，并且在第一处理器上执行的单线程应用程序利用从第二处理器接收到的信息来避免分支误预测。

本发明的另一技术方案提供了一种方法，该方法包括：由第一处理器执行单线程中的多条指令；按照第一处理器的指引，由第二处理器执行所述单线程中的所述多条指令，所述第二处理器在第一处理器之前执行所述多条指令以避免误预测；对至少一个寄存器进行跟踪，所述被跟踪的寄存器是从寄存器文件缓冲器加载，或被第二处理器写入的，所述跟踪由所述第二处理器执行，从第二处理器发送控制流程信息到第一处理器，第一处理器通过接收所述控制流程信息来避免分支预测；和从第二处理器发送结果到第一处理器，所述第一处理器通过将一部分指令的结果从第一缓冲器提交到寄存器文件中，来避免执行该部分指令，所述第一缓冲器是跟踪缓冲器，以及如果被重放的存储指令在第二缓冲器中具有匹配的存储标识部分，则在所述第一缓冲器中的加载条目中清除存储有效位，并对误预测位进行置位，所述第二缓冲器是加载缓冲器，其中，第一处理器和第二处理器使用多线程资源来执行单线程应用程序，单线程应用程序不被转换成显式的多线程应用程序，单线程应用程序当在第一处理器和第二处理器上执行时具有相同数量的指令，在第一处理器上执行的单线程应用程序利用从第二处理器接收到的信息来避免分支误预测。

本发明的另一技术方案提供了一种系统，该系统包括第一处理器和第二处理器，所述第一处理器和第二处理器每个都具有记分板和解码器；总线，其被耦合到第一处理器和第二处理器；主存储器，其被耦合到所述总线；多个本地存储器设备，其被耦合到第一处理器和第二处理器；第一缓冲器，其被耦合到第一处理器和第二处理器，所述第一缓冲器是寄存器文件缓冲器；第二缓冲器，其被耦合到第一处理器和第二处理器，所述第二处理器是跟踪缓冲器；和多个存储器指令缓冲器，其被耦合到第一处理器和第二处理器，其中，第一处理器和第二处理器使用多线程资源来执行单线程应用程序，第二处理器对单线程应用程序的执行领先于第一处理器对该单线程应用程序的执行以避免误预测，单线程应用程序不被转换成显式的多线程应用程序，单线程应用程序当在第一处理器和第二处理器上执行时具有相同数量的指令，并且在第一处理器上执行的单线程应用程序利用从第二处理器接收到的信息来避免分支误预测。

附图说明

在附图中示例性地而非限制性地图示了本发明，在附图中相同的标号指代相似的元件。应该注意的是，在本公开中引用的“实施例”或“一个实施例”并不一定指同一实施例，这样的引用意味着至少一个。

图1图示说明了本发明的实施例；

图2图示说明了本发明的实施例的提交处理器；

图3图示说明了本发明的实施例的推测处理器；

图4图示说明了本发明的实施例的存储转发缓冲器；

图5图示说明了本发明的实施例的加载排序缓冲器；

图6图示说明了本发明的具有一个系统的实施例；

图7图示说明了本发明的实施例的方框图。

具体实施方式

本发明一般地涉及用于多线程地执行单线程程序的方法和装置。现在参考附图，对本发明示例性实施例进行说明。示例性实施例被提供来说明本发明，而不应该解释为对本发明范围的限制。

图1图示说明了本发明的包括多处理器100的一个实施例。在本发明的一个实施例中，多处理器100是双核心单片多处理器(CMP)。多处理器100还包括提交(commit)中央处理单元(CPU)110、推测(speculative)CPU 120、寄存器文件缓冲器130、跟踪缓冲器140、加载缓冲器150(也称为加载排序缓冲器)、存储缓冲器160(也称为存储转发缓冲器)、L1(第一级)高速缓存175、L2(第二级)高速缓存170、L0(零级)指令高速缓存(I高速缓存)180和L0数据高速缓存(D高速缓存)190。在本发明的一个实施例中，L0 I高速缓存180包括两个L0 I高速缓存部件。一个L0 I高速缓存部件180被耦合到提交处理器110，另一个L0 I高速缓存部件180被耦合到推测处理器120。在本发明的这个实施例中，两个I高速缓存部件保持双重信息。在本发明的一个实施例中，取请求被从任意一个L0 I高速缓存部件180发出到L1高速缓存175。从L1高速缓存175取出的行(line)被填充到耦合到推测处理器120和提交处理器110的L0 I高速缓存180中。

在本发明的一个实施例中，L0 D高速缓存190包括两个L0 D高速缓存部件。一个L0 D高速缓存部件190被耦合到提交处理器110，另一个L0D高速缓存部件190被耦合到推测处理器120。在本发明的这个实施例中，两个L0 D高速缓存部件保持双重信息。在本发明的这个实施例中，与推测处理器120相关联的存储指令/命令(存储)没有被写入L0 D高速缓存190中。在本发明的这个实施例中，行读取和写入请求被从任一L0 D高速缓存部件发出到L1高速缓存175。从L1高速缓存175取出的行被填充到耦合到提交处理器110和推测处理器120的L0D高速缓存190中。从提交处理器110发出的存储被写入耦合到推测处理器120的L0 D高速缓存部件中。通过在每个L0 D高速缓存部件中都具有数据的精确的拷贝，内部的侦听(snooping)就不再是必须的了。

在本发明的一个实施例中，寄存器文件缓冲器130包括整数寄存器缓冲器和判定(predicate)寄存器文件缓冲器。在本发明的一个实施例中，整数寄存器文件缓冲器包括多个写端口、多个校验点和至少一个读端口。整数寄存器文件缓冲器被用来将寄存器值从提交处理器110传送到推测处理器120。在本发明的一个实施例中，整数寄存器文件缓冲器包括八个(8)写端口、四个(4)校验点以及访问任意校验点上下文的一个(1)读端口。在本发明的一个实施例中，整数寄存器文件缓冲器具有八个(8)寄存器宽的阵列和十六(16)行。在本发明的一个实施例中，判定寄存器文件缓冲器包括多个写端口、多个校验点以及至少一个读端口。判定寄存器文件缓冲器被用来将寄存器值从提交处理器110传送到推测处理器120和被耦合到推测处理器120的第二级寄存器文件。在本发明的一个实施例中，预测寄存器文件缓冲器包括八个(8)写端口、四个(4)校验点以及一个(1)读端口以访问任意校验点的上下文。在本发明的一个实施例中，预测寄存器文件缓冲器具有八个(8)寄存器宽的阵列和八(8)行。

图2图示说明了提交CPU 110。在本发明的一个实施例中，提交CPU.110包括解码器211、记分板(scoreboard)214、寄存器文件212以及执行单元213。同样地，图3图示说明了推测CPU 120。在本发明的一个实施例中，推测CPU 120包括解码器321、记分板324、寄存器文件322以及执行单元323。L2高速缓存170和L1高速缓存175由提交CPU 110和推测CPU 120共享。在本发明的一个实施例中，多处理器100能够显式地执行多线程程序。在另一个实施例中，多处理器100能够在使用多线程环境时执行单线程应用程序，而无需将单线程应用程序转换为显式的多线程。

在本发明的一个实施例中，程序执行以提交CPU 110和推测CPU 120中一个上的单线程开始。在本发明的一个实施例中，提交CPU 110对寄存器文件212进行取出、解码、执行和更新，以及在程序指令下向存储器发出加载指令/命令(加载)和存储。在指令被解码时，提交CPU 110可以引导推测CPU 120在某个程序计数值处开始执行推测线程。该程序计数值可以是存储器中下一条指令的地址，或者其可以由编译器作为提示(hint)提供。例如，在下一条指令地址处的分叉可能是在调用(call)指令处分叉的线程。推测CPU 120继续执行其线程，直到提交CPU 110中的程序计数到达程序执行中与推测线程程序计数值所指向的点相同的点。因此，提交CPU 110对程序中每一指令进行取出、发出和提交，即使指令属于推测线程。

在本发明的一个实施例中，多处理器100的双重执行体系结构具有这样的好处，其中在程序中执行得更远的推测CPU 120提供了高效率的对指令和数据的预取。而且，推测CPU 120在提交CPU 110的控制流程到达许多分支之前，确定这些分支的方向。在本发明的一个实施例中，提交CPU110从推测CPU 120接收关于控制流程方向的信息，因此，提交CPU 110能够避免对许多分支的分支预测以及相关联的误预测代价。在本发明的一个实施例中，提交CPU 110能够在一个提交循环中同时提交由推测线程正确执行的依赖性及相邻的指令的结果，这节省了通常在相依赖的指令间串行地执行和传播结果所需的时间。

在本发明的一个实施例中，输入到推测线程的寄存器值被传送通过寄存器缓冲器130。所有写入到提交CPU 110的寄存器文件212中的值也被写入到寄存器文件缓冲器130中。在本发明的一个实施例中，当产生推测线程时，可以在位于提交CPU 110和推测CPU 120之间的寄存器文件缓冲器130中得到寄存器文件212的快照(snapshot)。最初，当开始推测线程时，推测CPU 120的所有寄存器中都未存储输入值。所需要的输入寄存器可以根据要求从寄存器文件缓冲器130读取。在本发明的一个实施例中，记分板324被用来在推测CPU 120的解码阶段中跟踪哪些寄存器被从寄存器文件缓冲器130加载，或被推测线程写入。这些寄存器在寄存器文件322中是有效的。根据要求从寄存器文件缓冲器130读取所有其它的寄存器。

在本发明的一个实施例中，输入到推测线程的存储器值从相关高速缓存分级结构读取，这允许推测线程访问被提交线程修改的存储器。在本发明的一个实施例中，高速缓存相关方案被使用，其中D高速缓存190是直写式(write through)高速缓存，并且L2高速缓存170是使用MESI(M：已修改；E：专有；S：共享；I：无效)高速缓存相关协议的回写式(writeback)高速缓存。但是应该注意的是，在本发明的其它实施例中，也可以使用其它高速缓存相关协议。

取决于具体程序中的数据流，提交CPU 110可能在一些寄存器或存储器输入值被推测线程读取之后才产生这些输入。在本发明的一个实施例中，为了缓解寄存器和存储器数据流所施加的限制，值预测被用来为推测线程提供初始输入值。在本发明的一个实施例中，使用了具有被动预测的一种简单的值预测方法。在这个实施例中，假设提交CPU 110在产生推测线程时已经产生了寄存器和存储器输入值。

在本发明的一个实施例中，推测的结果被写入到CPU 120的寄存器文件322以及跟踪缓冲器140中。在本发明的一个实施例中，跟踪缓冲器140是被实现为具有头指针和尾指针的阵列的循环缓冲器。在本发明的一个实施例中，所述的头和尾指针具有返转位(wrap-around bit)。在本发明的一个实施例中，跟踪缓冲器140具有带一个读端口和一个写端口的阵列。在本发明的这个实施例中，每个条目有足够的字节来存储大量指令的结果，所述指令在数量上至少等于提交CPU 110的发出宽度。在本发明的这个实施例中，每个条目对每条指令有1位，并用第二写端口来标出被误预测的加载。

在本发明的一个实施例中，跟踪缓冲器140具有一百二十八个(128)条目，每个条目能存储六条(6)指令的结果。在本发明的一个实施例中，跟踪缓冲器140具有四个(4)分区来支持四个(4)线程。在本发明的一个实施例中，跟踪缓冲器140容纳有十六个(16)字节来存储每条指令的两路输出，四个(4)字节来存储被重命名的寄存器，以及一个(1)位来标出指令是不是被误预测的加载。在本发明的一个实施例中，被误预测的加载位能够被加载寄存器150的六个(6)写端口置位。在本发明的一个实施例中，当一个线程分区已满时，推测执行被继续到向L0 I高速缓存器180以及L0 D高速缓存器190中预取，但是结果不被写入到跟踪缓冲器中。

在本发明的一个实施例中，提交CPU 110具有对每个寄存器包括1个位的记分板214。在本发明的这个实施例中，提交CPU 110在推测线程的分叉点和汇合点之间对一个寄存器所作的任何修改都将导致该寄存器记分板位被置位。当提交CPU 110撤除(retire)推测线程的结果时，它继续在记分板214中跟踪所有被误预测的寄存器。在本发明的这个实施例中，其源寄存器记分板位被清除的指令被安全地提交到寄存器文件212中。这样的指令即使是依赖性的也不必执行。但是，这里有一些例外，例如加载和存储。加载和存储的例外必须被发出到存储器执行单元213，以服务于高速缓存未命中(cache miss)及检查存储器排序违反。分支执行的结果也被从推测CPU 120发送到提交CPU 110。在提交CPU 110中，可以绕过对由推测CPU 120执行的一些或所有分支的分支预测。

在本发明的一个实施例中，与提交处理器110相关联的加载和存储对加载缓冲器150进行侦听。在本发明的一个实施例中，当指令被重放(replay)或者指令是被误预测的加载时，在记分板214中将与该指令相关联的目标寄存器位置位。当指令是干净的(clean)时，在记分板214中清除其目标寄存器位。注意，如果指令的源是干净的，则指令是干净的。当提交了所有推测线程指令时，清除记分板214。

在本发明的一个实施例中，推测CPU 120不对存储器发出存储指令。在本发明的这个实施例中，存储指令被录入(post)到存储缓冲器160中，并且加载指令被录入到加载寄存器150中。在本发明的一个实施例中，存储缓冲器160是全关联存储转发缓冲器。图4图示说明了本发明的一个实施例中的存储缓冲器160的结构。在存储缓冲器160中(如图4所示)，每个条目410包括标签部分420、有效部分430、数据部分440、存储标识(ID)450以及线程ID部分460。在本发明的一个实施例中，数据部分440容纳有八个(8)字节的数据。在本发明的一个实施例中，有效部分430容纳有八个(8)位。存储ID 450是最近写入到条目410中的存储指令的唯一的存储指令ID。在本发明的一个实施例中，推测的加载在L0 D高速缓存190访问的同时访问存储缓冲器160。如果该加载命中存储缓冲器160中的存储指令，则L0 D高速缓存190被绕过，并从存储缓冲器160读取加载。在这种情形下，存储ID 450也随着数据被读出。

在本发明的一个实施例中，加载数据能够由推测处理器120从存储缓冲器160或与推测处理器120相关联的L0 D高速缓存190获得。在本发明的一个实施例中，加载被录入到加载缓冲器150中。在本发明的这个实施例中，当加载被录入时，倘若加载缓冲器150溢出，则被误预测的加裁位在跟踪缓冲器140中被置位。

在本发明的一个实施例中，存储缓冲器160具有一百二十八个(128)条目，其中的条目是四(4)路组关联的。在本发明的一个实施例中，存储缓冲器160具有两个(2)存储端口和两个(2)加载端口。在本发明的一个实施例中，存储缓冲器160允许使用虚拟地址的部分标签匹配用于转发，并允许完全物理标签匹配以使转发存储ID有效。在本发明的一个实施例中，存储缓冲器160从第一个字节开始存储写在数据部分440中的数据，以避免对准延迟。在本发明的一个实施例中，存储缓冲器160具有替换策略，其在存储未命中时替换最旧的存储，否则其替换命中的条目。在本发明的一个实施例中，线程ID 460是对跟踪缓冲器140中的分区的索引，并且具有返转位。在本发明的一个实施例中，通过使用线程ID内容可寻址存储器(CAM)端口(未示出)来进行线程条目的全局重置，

在本发明的一个实施例中，推测的加载被录入到加载缓冲器150中。在本发明的一个实施例中，加载缓冲器150是耦合到提交CPU 110的组关联加载缓冲器。图5图示说明了加载缓冲器150的结构。在加载缓冲器150中(如图5所示)，每个条目510包括标签部分520、条目有效位部分530、加载ID 540以及加载线程ID 550。在本发明的一个实施例中，标签部分520包括部分地址标签。在另一个实施例中，每个条目510还具有存储线程ID、存储ID和存储有效位(未示出)。如果加载指令命中了存储缓冲器160，那么存储ID是转发的存储指令的ID。

在本发明的一个实施例中，存储ID和/或加载ID 550是对跟踪缓冲器140中的条目的索引，其对于每条指令是唯一的。在本发明的一个实施例中，如果加载命中存储缓冲器160，那么存储有效位被设定为零(“0”)。在本发明的这个实施例中，如果加载未命中存储缓冲器160，那么存储有效位被设定为一(“1”)。在本发明的一个实施例中，具有匹配的存储ID的被重放的存储清除(设定为“0”)存储有效位，并且对跟踪缓冲器140中的加载条目中的误预测位进行置位。在本发明的一个实施例中，程序中标签部分520匹配的后来的存储清除(设定为“0”)存储有效位，并且对跟踪缓冲器140中的加载条目中的误预测位进行置位。在本发明的一个实施例中，存储ID匹配的干净(未被重放)的存储将存储有效位设定为“1”(一)。在本发明的一个实施例中，对于未匹配任何标签520的干净(未被重放)的加载，或者标签520匹配且存储有效位被清除(设定为“0”)的加载，流水线被刷新(flush)，跟踪缓冲器140中的加载条目中的误预测位被设定为一(“1”)，并且加载指令被重启动。在本发明的一个实施例中，当加载条目被撤除时，条目有效位都分530被清除。

在本发明的一个实施例中，加载缓冲器150具有四(4)路组关联的六十四个(64)条目。在本发明的一个实施例中，加载缓冲器150具有替换最旧的加载的策略。在本发明的一个实施例中，通过使用线程ID CAM端口(未示出)进行线程条目的全局重置。

在本发明的一个实施例中，提交CPU 110向存储器执行单元213(地址产生单元、加载缓冲器、数据高速缓存)发出所有的加载和存储，这包括被推测处理器120正确执行的加载。即使提交处理器110所发出的加载指令未命中L0 D高速缓存190，也可能提交具有潜在的依赖性指令的有效加载数据。在本发明的一个实施例中，加载未命中请求被发送到L2高速缓存170以填充行，但是阻止返回数据向寄存器文件212写入。在本发明的一个实施例中，每个加载指令都访问加载缓冲器150。加载缓冲器150的加载未命中导致流水线刷新以及加载指令和其后所有指令的重启动。

在本发明的一个实施例中，存储还访问加载缓冲器150。在本发明的一个实施例中，当地址匹配的存储也匹配存储ID 540时，在条目510中将有效位530置位。在本发明的这个实施例中，后来的命中条目510的存储使条目510无效。在本发明的这个实施例中，当存储使条目510无效时，加载ID 550被用来对跟踪缓冲器140进行索引，以将误预测加载位置位。在本发明的这个实施例中，当取出了加载并且发现跟踪缓冲器140中的误预测加载位被设定时，在记分板中将寄存器位置位。该寄存器记分板位也可以被称为加载目标记分板位。在本发明的这个实施例中，这一优化减少了作为加载缓冲器150中的加载未命中的结果而出现的刷新的次数，应该注意的是，提交CPU 110同时读取跟踪缓冲器140和L0 I高速缓存180。在本发明的这个实施例中，同时读取跟踪缓冲器140和L0 I高速缓存180使得能够及时对被误预测的加载指令将记分板214中的记分板寄存器位置位，而不必停止执行流水线。

在本发明的一个实施例中，“重放模式”执行在推测线程的第一条指令处开始。当跟踪缓冲器140中的分区即将变空时，终止重放模式以及推测线程的执行。在本发明的一个实施例中，指令发出和寄存器重命名阶段被如下修改：没有在跟踪缓冲器140提供名字之后重命名的寄存器；到下一个被重放指令之前的所有指令，包括依赖性的指令都被发出；干净(未被重放)的指令被作为无操作(NOP)指令发出；所有加载和存储被发出到存储器，并且干净的指令结果被从跟踪缓冲器140提交到寄存器文件130。

图6图示说明了具有本发明的实施例的系统。系统600包括多处理器100、主存储器610、北桥(north bridge)620、中枢链接(hublink)630和南桥(south bridge)640。一般地，北桥620的主要职责是多处理器接口。此外，北桥620也可以具有用于加速图形端口(AGP)、存储器610、中枢链接630等的控制器。南桥640一般负责硬盘驱动控制器、通用串行总线(USB)主控制器、输入/输出(I/O)控制器以及任何集成的声音设备等。

图7图示说明了本发明的实施例的处理。处理700从方框710开始，其中由诸如提交处理器110的第一处理器开始执行程序线程。在方框720，由第一处理器取出命令。在方框730，由第一处理器进行命令解码。在方框740，指示诸如推测处理器120的第二处理器开始执行与第一处理器相同的线程的程序，但是是在程序流中更远的位置执行。在方框750，由第二处理器开始执行程序线程。在方框751上，第二处理器取出命令，在方框752中，第二处理器进行解码。在方框753中，第二处理器更新寄存器文件。在方框754中，第二处理器发送控制流程信息到第一处理器。在方框760中，第一处理器更新寄存器文件。方框770判断第一处理器是否已经到达与第二处理器的相同的执行点。如果方框770判定第一处理器还没有到达程序中相同的点，那么过程700通过方框780继续，以继续执行。如果方框770判定第一处理器已经到达执行中与第二处理器相同的点，那么方框790判断程序是否完成。如果方框790判定程序完成，那么过程700停止，否则过程700在A处继续。

通过使用上面讨论的本发明的实施例，作为推测的长程多线程预取和预执行的结果，可以提高执行单线程应用程序时的性能。本发明的实施例可以用顺序(in-order)和乱序(out-of-order)多线程处理器来实现。

上述实施例也能够被存储在设备或机器可读介质上，并由机器读取来执行指令。所述的机器可读介质包括任何以机器(例如，计算机)可读的形式提供(即，存储和/或发送)信息的装置。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备，电、光、声或其它形式的被传播的信号(例如，载波、红外信号、数字信号等)。所述的设备或机器可读介质可以包括固态存储设备和/或旋转的磁盘或光盘。当指令的分区例如通过计算的互连装置而被分开到不同的机器中时，所述的设备或机器可读介质可以被分配。

虽然已经说明了某些示例性的实施例，并且示出在附图当中，但是应该理解的是，由于对于本领域的普通技术人员可以想到许多其它的修改，所以这些实施例仅仅是说明性的，而不是对较宽的发明的限制，并且本发明不限于所说明和示出的具体构造和设置。

Claims

1.一种装置，包括：

第一处理器和第二处理器，所述第一处理器和第二处理器中的每一个都具有记分板和解码器；

多个存储器设备，其被耦合到所述第一处理器和所述第二处理器；

第一缓冲器，其被耦合到所述第一处理器和所述第二处理器，所述第一缓冲器是寄存器文件缓冲器；

第二缓冲器，其被耦合到所述第一处理器和所述第二处理器，所述第二缓冲器是跟踪缓冲器；和

多个存储器指令缓冲器，其被耦合到所述第一处理器和所述第二处理器，

其中，所述第一处理器和所述第二处理器使用多线程资源来执行单线程应用程序，并且所述第二处理器对单线程应用程序的执行领先于所述第一处理器对该单线程应用程序的执行以避免误预测，所述单线程应用程序不被转换成显式的多线程应用程序，所述单线程应用程序当在所述第一处理器和所述第二处理器上执行时具有相同数量的指令，并且在所述第一处理器上执行的所述单线程应用程序利用从所述第二处理器接收到的信息来避免分支误预测。

2.权利要求1的装置，其中，所述存储器设备包括多个高速缓存设备。

3.权利要求1的装置，其中，所述第一处理器被耦合到多个零级数据高速缓存设备中的至少一个和多个零级指令高速缓存设备中的至少一个，并且所述第二处理器被耦合到所述多个零级数据高速缓存设备中的至少一个和所述多个零级指令高速缓存设备中的至少一个。

4.权利要求3的装置，其中，所述多个零级数据高速缓存设备中的每一个都存储着存储指令数据的精确的拷贝。

5.权利要求1的装置，其中，所述多个存储器指令缓冲器包括至少一个存储转发缓冲器和至少一个加载排序缓冲器。

6.权利要求5的装置，所述至少一个存储转发缓冲器包括具有多个条目的结构，所述多个条目中的每一个都具有标签部分、有效性部分、数据部分、存储指令标识部分和线程标识部分。

7.权利要求6的装置，所述至少一个加载排序缓冲器包括具有多个条目的结构，所述多个条目中的每一个都具有标签部分、条目有效性部分、加载标识部分和加载线程标识部分。

8.权利要求1的装置，所述跟踪缓冲器是循环缓冲器。

9.权利要求1的装置，所述寄存器文件缓冲器包括整数寄存器文件缓冲器和判定寄存器文件缓冲器。

10.一种方法，包括：

由第一处理器执行单线程中的多条指令；

按照第一处理器的指引，由第二处理器执行所述单线程中的所述多条指令，所述第二处理器在所述第一处理器之前执行所述多条指令以避免误预测；

对被从寄存器文件缓冲器加载，或被所述第二处理器写入的至少一个寄存器进行跟踪，所述跟踪由所述第二处理器执行，

从所述第二处理器发送控制流程信息到所述第一处理器，所述第一处理器通过接收所述控制流程信息来避免分支预测；和

从所述第二处理器发送结果到所述第一处理器，所述第一处理器通过将一部分指令的结果从第一缓冲器提交到寄存器文件中，来避免执行该部分指令，所述第一缓冲器是跟踪缓冲器，以及

如果被重放的存储指令在第二缓冲器中具有匹配的存储标识部分，则在所述第一缓冲器中的加载条目中清除存储有效位，并对误预测位进行置位，所述第二缓冲器是加载缓冲器，

其中，所述第一处理器和所述第二处理器使用多线程资源来执行单线程应用程序，并且所述单线程应用程序不被转换成显式的多线程应用程序，所述单线程应用程序当在所述第一处理器和所述第二处理器上执行时具有相同数量的指令，并且在所述第一处理器上执行的所述单线程应用程序利用从所述第二处理器接收到的信息来避免分支误预测。

11.权利要求10的方法，还包括：

由所述第一处理器和所述第二处理器在分开的存储器设备中复制存储器信息，用于独立的访问。

12.权利要求10的方法，还包括：

如果未被重放的存储指令与加载缓冲器中的存储标识部分匹配，则对存储有效性位进行置位。

13.权利要求10的方法，还包括：

如果一个加载未被重放并且不匹配加载缓冲器中的标签部分，或者加载指令匹配所述加载缓冲器中的所述标签部分但存储有效位未被置位，则刷新流水线，在所述跟踪缓冲器中的加载条目中对误预测位进行置位，并且重启动所述加载指令。

14.权利要求10的方法，还包括：

在推测线程的第一指令处执行重放模式。

15.权利要求10的方法，还包括：

从所述跟踪缓冲器供应名字，以阻止寄存器重命名；

发出直到下一个被重放指令之前的包括依赖性指令在内的所有指令；

将未被重放的指令作为无操作指令发出；

发出所有加载指令和存储指令到存储器；

从所述跟踪缓冲器将非重放指令提交给所述寄存器文件。

16.权利要求10的方法，还包括：

如果加载条目被撤除，则清除加载缓冲器中的条目中的有效位。

17.一种系统，包括：

总线，其被耦合到所述第一处理器和所述第二处理器；

主存储器，其被耦合到所述总线；

多个本地存储器设备，其被耦合到所述第一处理器和所述第二处理器；

第二缓冲器，其被耦合到所述第一处理器和所述第二处理器，所述第二处理器是跟踪缓冲器；和

其中，所述第一处理器和所述第二处理器使用多线程资源来执行单线程应用程序，所述第二处理器对单线程应用程序的执行领先于所述第一处理器对该单线程应用程序的执行以避免误预测，并且所述单线程应用程序不被转换成显式的多线程应用程序，所述单线程应用程序当在所述第一处理器和所述第二处理器上执行时具有相同数量的指令，并且在所述第一处理器上执行的所述单线程应用程序利用从所述第二处理器接收到的信息来避免分支误预测。

18.权利要求17的系统，所述本地存储器设备包括多个高速缓存设备。

19.权利要求18的系统，所述第一处理器被耦合到多个零级数据高速缓存设备中的至少一个和多个零级指令高速缓存设备中的至少一个，并且所述第二处理器被耦合到所述多个零级数据高速缓存设备中的至少一个和所述多个零级指令高速缓存设备中的至少一个。

20.权利要求19的系统，其中，所述多个零级数据高速缓存设备中的每一个都存储着存储指令数据的精确的拷贝。

21.权利要求19的系统，所述第一处理器和所述第二处理器每个共享第一级高速缓存设备和第二级高速缓存设备。

22.权利要求17的系统，其中，所述多个存储器指令缓冲器包括至少一个存储转发缓冲器和至少一个加载排序缓冲器。

23.权利要求22的系统，所述至少一个存储转发缓冲器包括具有多个条目的结构，所述多个条目中的每一个都具有标签部分、有效性部分、数据部分、存储指令标识部分和线程标识部分。