CN107368450A

CN107368450A - 实现维护被拒指令的加载/存储单元的多片处理器的操作

Info

Publication number: CN107368450A
Application number: CN201710320187.7A
Authority: CN
Inventors: S·查德哈; R·A·科尔德斯; D·A·赫鲁塞基; H·Q·勒; E·A·麦克格隆
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2016-05-11
Filing date: 2017-05-09
Publication date: 2017-11-21
Anticipated expiration: 2037-05-09
Also published as: US20180285161A1; US10042770B2; US10268518B2; US20170329713A1; US20180276132A1; US10037229B2; CN107368450B; US20170329641A1; US10255107B2

Abstract

本发明涉及实现维护被拒指令的加载/存储单元的多片处理器的操作。一种多片处理器的操作，所述多片处理器包括多个执行片、多个加载/存储片、以及一个或多个指令排序单元，其中操作包括：在加载/存储片处从指令排序单元接收要发出的指令；在所述加载/存储片处确定所述指令的拒绝条件；以及响应于确定所述指令的所述拒绝条件，在所述加载/存储片中维护所述指令的状态信息，而不是向所述指令排序单元通知所述指令的拒绝。

Description

实现维护被拒指令的加载/存储单元的多片处理器的操作

技术领域

本发明的领域涉及数据处理，或者更具体地说，涉及用于多片处理器(multi-slice processor)的操作的方法和装置。

背景技术

1948年EDVAC计算机系统的开发通常被认为是计算机时代的开始。从此之后，计算机系统逐渐演变为非常复杂的设备。今天的计算机比诸如EDVAC之类的早期系统要复杂的多。计算机系统一般由硬件组件及软件组件、应用程序、操作系统、处理器、总线、存储器、输入/输出设备等组合而成。由于半导体工艺和计算机体系结构的发展促使计算机的性能不断提高，因此开发了更复杂的计算机软件以充分利用更高的硬件性能，从而使得今天的计算机系统比仅仅几年前的系统功能强大得多。

发展的计算机系统技术的一个领域是计算机处理器。随着数据中心中的计算机系统数量和移动计算设备数量的增加，对更高效的计算机处理器的需求也在增加。操作速度和功率消耗只是影响计算机处理器效率的计算机处理器技术的两个方面。

发明内容

在本说明书中公开用于多片处理器的操作的方法和装置。此类多片处理器包括多个执行片和多个加载/存储片，其中所述加载/存储片经由结果总线(results bus)耦合到所述执行片。此类多片处理器可以进一步包括一个或多个指令排序单元。此类多片处理器的操作包括：在加载/存储片处从指令排序单元接收要发出的指令；在所述加载/存储片处确定所述指令的拒绝条件；以及响应于确定所述指令的所述拒绝条件，在所述加载/存储片中维护所述指令的状态信息，而不是向所述指令排序单元通知所述指令的拒绝。

从如附图中示出的以下对本发明的示例性实施例的更具体的描述，本发明的上述和其它目标、特性和优点将变得显而易见，其中相同的标号通常表示本发明的示例性实施例的相同部件。

附图说明

图1示出根据本发明实施例的被配置用于多片处理器的操作的实例系统的框图；

图2示出根据本发明实施例的多片处理器的一部分的框图；

图3示出根据不同实施例的多片处理器的加载/存储片的一部分的框图，其中加载/存储片实现维护被拒绝的指令；

图4是示出根据不同实施例的多片处理器的操作的示例性方法的流程图，其中加载/存储片实现维护被拒绝的指令；

图5是示出根据不同实施例的多片处理器的操作的示例性方法的流程图，其中加载/存储片被配置为实现维护被拒绝的指令；

图6是示出根据不同实施例的多片处理器的操作的示例性方法的流程图，其中加载/存储片被配置为实现维护被拒绝的指令。

具体实施方式

参考附图描述根据本发明的用于多片处理器的操作的示例性方法和装置，从图1开始。图1示出根据本发明实施例的被配置用于多片处理器的操作的实例系统的框图。图1的系统包括计算机(152)形式的自动化计算机器的一个实例。

图1的计算机(152)包括至少一个计算机处理器(156)或“CPU”以及随机存取存储器(168)(“RAM”)，RAM 168通过高速存储总线(166)和总线适配器(158)连接到处理器(156)和计算机(152)的其它组件。

图1的实例计算机处理器(156)可以被实现为多片处理器。如在本说明书中使用的，术语“多片”指具有多组类似或相同组件的处理器，其中每个组可以独立于所有其它组操作或者与一个或多个其它组协调操作。图1的多片处理器(156)例如包括数个执行片(“ES”)和数个加载/存储片(“LSS”)—其中加载/存储片通常可以被称为加载/存储单元。每个执行片可以被配置为提供支持指令执行的组件：发出队列、通用寄存器、历史缓冲区、算术逻辑单元(包括矢量标量单元、浮点单元和其它单元)等。每个加载/存储片可以被配置有支持数据移动操作的组件，这些数据移动操作例如包括从高速缓存或存储器加载数据或者将数据存储在高速缓存或存储器中。在某些实施例中，每个加载/存储片包括数据高速缓存。加载/存储片通过结果总线耦合到执行片。在某些实施例中，每个执行片可以与单个加载/存储片关联以便形成单个处理器片。在某些实施例中，多个处理器片可以被配置为一起操作。

除了执行片和加载/存储片之外，图1的实例多片处理器(156)还可以包括其它处理器组件。在图1的系统中，多片处理器(156)包括取回逻辑、分派逻辑、以及分支预测逻辑。此外，尽管在某些实施例中每个加载/存储片包括高速缓冲存储器，但多片处理器(156)还可以包括可由任何或所有处理器片访问的高速缓存。

尽管图1的实例中的多片处理器(156)被示为通过前端总线(162)、总线适配器(158)以及高速存储总线(166)耦合到RAM(168)，但本领域的技术人员将认识到此类配置仅是一个实例实施方式。实际上，多片处理器(156)可以以各种配置耦合到计算机系统的其它组件。例如，在某些实施例中，多片处理器(156)可以包括被配置为直接耦合到存储总线(166)的存储控制器。在某些实施例中，多片处理器(156)可以支持诸如PCIe连接之类的直接外围连接。

在实例计算机(152)中的RAM(168)中存储数据处理应用(102)，这是计算机程序指令模块，当由多片处理器(156)执行时，其可以提供任何数量的数据处理任务。此类数据处理应用的实例可以包括本领域的技术人员将想到的字处理应用、电子表格应用、数据库管理应用、媒体库应用、Web服务器应用等。在RAM(168)中还存储操作系统(154)。在被配置用于根据本发明实施例的多片处理器的操作的计算机中，可用的操作系统包括本领域的技术人员将想到的UNIX^TM、Linux^TM、Microsoft Windows^TM、AIX^TM、IBM的z/OS^TM和其它操作系统。图1的实例中的操作系统(154)和数据处理应用(102)被示出在RAM(168)中，但此类软件的许多组件通常还存储在非易失性存储器中，例如存储在磁盘驱动器(170)上。

图1的计算机(152)包括磁盘驱动器适配器(172)，其通过扩展总线(160)和总线适配器(158)耦合到处理器(156)和计算机(152)的其它组件。磁盘驱动器适配器(172)将磁盘驱动器(170)形式的非易失性数据存储装置连接到计算机(152)。在被配置用于根据本发明实施例的多片处理器的操作的计算机中，可用的磁盘驱动器适配器包括本领域的技术人员将想到的集成驱动电子设备(“IDE”)适配器、小型计算机系统接口(“SCSI”)适配器和其它适配器。非易失性计算机存储器还可以被实现为本领域的技术人员将想到的光盘驱动器、电可擦式可编程只读存储器(所谓的“EEPROM”或“闪存”)、RAM驱动器等。

图1的实例计算机(152)包括一个或多个输入/输出(“I/O”)适配器(178)。I/O适配器例如通过软件驱动器和计算机硬件实现面向用户的输入/输出，以便控制向诸如计算机显示屏之类的显示设备的输出、以及来自诸如键盘和鼠标之类的用户输入设备(181)的用户输入。图1的实例计算机(152)包括视频适配器(209)，其是专门设计用于到诸如显示屏或计算机显示器之类的显示设备(180)的图形输出的I/O适配器的一个实例。视频适配器(209)通过高速视频总线(164)、总线适配器(158)、以及前端总线(162)(其也是高速总线)连接到处理器(156)。

图1的示例性计算机(152)包括通信适配器(167)，其用于与其它计算机(182)的数据通信和与数据通信网络(100)的数据通信。此类数据通信可以通过RS-232连接，通过诸如通用串行总线(“USB”)之类的外部总线，通过诸如IP数据通信网络之类的数据通信网络，以及以本领域的技术人员将想到的其它方式顺序执行。通信适配器实现硬件级别的数据通信，通过这些数据通信，一个计算机直接或通过数据通信网络向另一个计算机发送数据通信。在被配置用于根据本发明实施例的多片处理器的操作的计算机中，可用的通信适配器的实例包括用于有线拨号通信的调制解调器、用于有线数据通信的以太网(IEEE 802.3)适配器、以及用于无线数据通信的802.11适配器。

构成图1中所示的示例性系统的计算机和其它设备的布置用于解释而不是用于限制。根据本发明的各种实施例的可用数据处理系统可以包括本领域的技术人员将想到的额外服务器、路由器、其它设备和对等架构(图1中未示出)。此类数据处理系统中的网络可以支持许多数据通信协议，例如包括本领域的技术人员将想到的TCP(传输控制协议)、IP(网际协议)、HTTP(超文本传输协议)、WAP(无线接入协议)、HDTP(手持设备传输协议)和其它协议。除了图1中所示的那些平台之外，本发明的各种实施例可以在各种硬件平台上实现。

为了进一步解释，图2示出根据本发明实施例的多片处理器的一部分的框图。图2的实例中的多片处理器包括分派网络(202)。分派网络(202)包括被配置为分派指令以便在执行片之间执行的逻辑。

图2的实例中的多片处理器还包括多个执行片(204a、204b-204n)。每个执行片包括通用寄存器(206)和历史缓冲区(208)。通用寄存器和历史缓冲区有时可以被称为映射工具，因为寄存器用于寄存器重命名和支持逻辑寄存器。

通用寄存器(206)被配置为存储目标为特定逻辑寄存器的最新指令和该指令的执行结果。逻辑寄存器是物理寄存器的抽象，其使能目标为同一物理寄存器的指令的无序执行。

当接收目标为同一特定逻辑寄存器的较新指令时，将通用寄存器中的条目移动到历史缓冲区，并且通用寄存器中的条目被该较新指令替换。历史缓冲区(208)可以被配置为存储目标为同一逻辑寄存器的许多指令。即，通用寄存器通常被配置为存储用于每个逻辑寄存器的单个最新指令，而历史缓冲区可以存储用于每个逻辑寄存器的许多非最新指令。

图2的多片处理器的每个执行片(204)还包括执行保留站(210)。执行保留站(210)可以被配置为发出指令以便执行。执行保留站(210)可以包括发出队列。发出队列可以包括用于指令的每个操作数的条目。执行保留站可以发出操作数以便由算术逻辑单元执行，或者经由结果总线(220)向加载/存储片(222a、222b、222c)发出操作数。

图2的实例中所示的算术逻辑单元(212)可以包括许多组件，这些组件例如包括加法逻辑、乘法逻辑、浮点单元、矢量/标量单元等。一旦算术逻辑单元执行了操作数，执行结果就可以被存储在结果缓冲区(214)中或者通过多路复用器(216)在结果总线(220)上提供执行结果。

结果总线(220)可以以各种方式被配置并且可以包括各种大小。在某些情况下，每个执行片可以被配置为在结果总线(220)的单条总线上提供结果。以类似的方式，每个加载/存储片可以被配置为在结果总线(220)的单条总线上提供结果。在此类配置中，包含四个处理器片的多片处理器可以具有包含八条总线的结果总线—分配给四个加载/存储片中的每一个的四条总线和分配给四个执行片中的每一个的四条总线。每个执行片可以被配置为窥探结果总线的任一总线上的结果。在某些实施例中，任一指令可以被分派到特定执行单元，并且然后被发出到任何其它片以便执行。因此，任何执行片均可以耦合到所有总线以便从任何其它片接收结果。此外，每个加载/存储片可以耦合到每条总线以便从任何执行片接收发出加载/存储指令。本领域的技术人员将认识到可以实施结果总线的许多不同配置。

图2的实例中的多片处理器还包括多个加载/存储片(222a、222b-222n)。除其他组件外，每个加载/存储片还包括下面针对图3描述的队列(224)、多路复用器(228)、数据高速缓存(232)、以及格式化逻辑(226)。队列接收要由加载/存储片(222)执行的加载和存储操作。格式化逻辑(226)将数据格式化成可以作为加载或存储指令的结果而在结果总线(220)上被返回给执行片的形式。

图2的实例多片处理器可以被配置为用于清仓(flush)和恢复(recovery)操作。清仓和恢复操作是其中将多片处理器的寄存器(通用寄存器和历史缓冲区)有效地“回滚”到先前状态的操作。依据本说明书中的上下文要求，可以使用术语“复原(restore)”和“恢复(recover)”作为同义词。可以出于许多原因而执行清仓和恢复操作，这些原因包括未命中的分支预测、异常等。作为典型的清仓和恢复操作的一个实例，考虑多片处理器的分派器随着时间并按照以下顺序分派：目标为逻辑寄存器5的指令A、目标为逻辑寄存器5的指令B、以及目标为逻辑寄存器5的指令C。在分派指令A时，将指令参数存储在用于逻辑寄存器5的通用寄存器条目中。然后，当分派指令B时，将指令A驱逐到历史缓冲区(将所有指令参数复制到历史缓冲区，包括逻辑寄存器和作为指令A的驱逐者的指令B的标识)，并且将指令B的参数存储在用于逻辑寄存器5的通用寄存器条目中。当分派指令C时，将指令B驱逐到历史缓冲区，并且将指令C的参数存储在用于逻辑寄存器5的通用寄存器条目中。现在，考虑发出寄存器的清仓和恢复操作，其中分派发出与指令C的标识符相匹配的清仓标识符。在此类实例中，清仓和恢复包括丢弃用于逻辑寄存器5的通用寄存器条目中的指令C的参数，并且将指令B的参数从指令B的历史缓冲区移回到用于逻辑寄存器5的通用寄存器条目中。

在清仓和恢复操作期间，在现有技术处理器中，分派器被配置为停止向执行片分派新指令。此类指令可以被认为是目标指令或源指令。目标指令是目标为逻辑寄存器以便存储结果数据的指令。相比之下，源指令具有逻辑寄存器作为其源。目标指令在执行时将导致存储在寄存器文件的条目中的数据，而源指令利用此类数据作为用于执行指令的源。源指令在利用一个逻辑寄存器作为其源的同时，还可以将另一个逻辑寄存器作为目标以便存储指令结果。即，针对一个逻辑寄存器，指令可以被认为是源指令，并且针对另一个逻辑寄存器，同一指令可以被认为是目标指令。

图2的实例中的多片处理器还包括指令排序单元(240)。尽管被示为单个单元，但多个执行片中的每一个可以包括类似于指令排序单元(240)的相应指令排序单元。指令排序单元(240)可以获得分派的指令并且检查指令的依赖性，以便判定是否已传送相对于当前指令的所有较旧指令，或者可以可预测地很快传送当前指令所依赖的这些较旧指令的结果，以使得当前指令可以正确地执行。如果满足对当前指令的所有依赖性，则可以确定当前指令准备好发出，并且因此可以被发出—而不考虑由ITAG确定的指令的程序顺序。此类指令发出可以被称为“无序”执行，并且多片处理器可以被认为是无序机器。

在某些情况下，接收所发出的指令的加载/存储单元(例如加载/存储片)可能还不能处理该指令，并且指令排序单元(240)可以保持指令排队，直到加载/存储片可以处理该指令时为止。在发出指令之后，指令排序单元(240)可以至少部分地基于从加载/存储片接收的信号来跟踪指令的进度。

为了进一步解释，图3是示出实现架构组件的加载/存储片(222a)的扩展视图的框图，这些架构组件包括加载/存储访问队列(LSAQ)(224)、加载重新排序队列(LRQ)(304)、加载未命中队列(LMQ)(308)、存储重新排序队列(SRQ)(306)、数据高速缓存(232)以及其它组件。

在先前系统中，如果加载/存储单元从指令排序单元接收到指令，并且加载/存储单元由于某种原因不能处理该指令，则加载/存储单元将向指令排序单元通知指令被拒绝，并且加载/存储单元将丢弃与被拒绝指令相关的信息。在此类情况下，指令排序单元将继续维护信息以便跟踪并维护被拒绝的指令，直到将该指令重新发送到加载/存储单元。可能由于各种原因而拒绝指令，这些原因包括地址转换高速缓存中的地址未命中、设定的预测未命中、数据高速缓存存储冲突、加载未命中队列(308)的过载以及其它可能的拒绝条件。

与上述先前系统相反，加载/存储片(222a)被配置为确定从指令排序单元接收的指令的拒绝条件，但是，加载/存储片(222a)不是向指令排序单元发送拒绝信号，而是维护指令的跟踪和处理—包括可用于重新发布或重新发出指令的信息—直到拒绝条件被解决。此外，加载重新排序队列(304)或存储重新排序队列(306)中的条目可以被配置为维护用于跟踪否则将被拒绝并被从加载重新排序队列(304)移除的指令的信息。例如，如果加载/存储片(222a)确定针对给定加载或存储指令存在拒绝条件，则除了其它通知以外，加载/存储片内的逻辑可以通知加载重新排序队列(304)或存储重新排序队列(306)将该指令置于休眠状态达给定数量的周期，或者将该指令置于休眠状态直到被通知唤醒，或者立即重新发出该指令，以便执行其它操作。

以这种方式，加载/存储片(222a)能够节省周期(否则如果指令被拒绝到指令排序单元，则这些周期将丢失)，因为加载/存储片(222a)除了比指令排序单元更快速地检测到拒绝条件的解决之外，还可以在拒绝条件被解决时更有效和快速地重新发出指令。例如，如果响应于确定已解决阻止指令完成的一个或多个拒绝条件，加载/存储片(222a)确定可以重新发出处于休眠状态的指令，则加载/存储片可以通知加载重新排序队列(304)或存储重新排序队列(306)立即或者在某一数量的周期之后重新发布或重新发出该指令。周期数量可以取决于拒绝条件的类型或者影响指令的重新发出或重新发布的其它因素。在本实例中，加载重新排序队列(304)或存储重新排序队列(306)可以通过向加载/存储访问队列(224)提供用于重新发出指令的信息来重新发出或重新发布指令，其中加载重新排序队列(304)或存储重新排序队列(306)可以沿着线路(314)与加载/存储访问队列(224)通信，并且可以沿着线路(313)提供用于重新发出或重新发布该指令的数据。

如果确定了拒绝条件，则由维护指令的加载/存储片(222a)带来的另一个改进是与指令排序单元相比，加载/存储片(222a)使用更少的资源(例如用于锁存器和其它组件的逻辑和电路)来维护指令。换言之，假设指令排序单元可能在处理指令完成时依赖于加载/存储片(222a)，则在向加载/存储片(222a)提供指令之后，指令排序单元可以释放资源。

此外，指令排序单元(240)可以至少部分地基于与加载/存储片(222a)的通信，判定何时以及是否唤醒可能依赖于正在由加载/存储片(222a)处理的当前指令的指令。因此，如果加载/存储片(222a)确定存在拒绝条件，则加载/存储片(222a)延迟到指令排序单元(240)的唤醒相关指令的通知，以便防止指令排序单元(240)发出相关指令，由于缺少来自当前指令的结果，这些相关指令随后不能完成。以这种方式，指令排序单元(240)可以避免浪费重新发出不能完成的相关指令的执行周期。

例如，加载/存储片(222a)可以通过在处理加载指令时的不同点处生成信号，与指令排序单元(240)通信，这些信号指示要重新发出加载指令或者用于加载指令的数据有效。在某些情况下，响应于指令排序单元(240)从加载/存储片(222a)接收要重新发出给定指令的信号，指令排序单元(240)可以根据给定指令唤醒指令，并且预计给定指令在被重新发出之后将完成并提供有效数据。

加载/存储片(222a)还可以从存储层次结构的任何层检索数据，从本地数据高速缓冲(232)开始，并且根据需要在层次结构中向下延伸以便找到所请求的数据。所请求的数据可以在接收时被提供给通用寄存器、虚拟寄存器或某个其它目的地。所接收的数据还可以被存储在数据高速缓存(232)中以便后续访问。加载/存储片(222a)还可以管理有效地址到实地址的转换以便与存储层次结构的不同级别通信。

存储重新排序队列(306)可以包括用于跟踪高速缓存操作的顺序一致性的条目，并且可以将操作重新发出到加载/存储流水线中以便独立于执行片而执行。

加载未命中队列(308)可以向多层存储层次结构的一个或多个数据存储设备发出数据请求，其中数据请求可以对应于针对该数据的加载指令。

响应于数据沿着线路(302)返回到加载/存储片(222a)，可以将数据传送到诸如结果总线(图2的220)之类的目的地，以便例如加载到通用寄存器中—其中数据的传送可以来自数据高速缓存(232)或者通过线路(310)。线路(310)绕过数据高速缓存(232)并且允许实现关键数据转发路径。加载重新排序队列(304)还可以使用线路(312)向指令排序单元或某个其它逻辑组件通知数据可用。

加载重新排序队列(304)可以跟踪向加载/存储片(222a)发出的高速缓存操作的执行，并且包括用于跟踪高速缓存操作的顺序一致性的条目以及其它属性。加载重新排序队列(304)还可以将操作重新发出到加载/存储流水线中以便执行，这提供独立于执行片的操作。

为了进一步解释，图4是示出实现被配置为维护被拒绝指令的加载/存储单元的多片处理器的操作的示例性方法的流程图。图4的方法可以由与图1-3的实例中的多片处理器类似的多片处理器执行。此类多片处理器可以包括指令排序单元(240)和多个加载/存储片(220a-220n)，其中每个加载/存储片可以实现加载/存储访问队列(224)、加载重新排序队列(304)和存储重新排序队列(306)，如上面针对图3所述。

图4的方法还包括在加载/存储片(222a)处接收(402)要发出的指令(452)。接收(402)指令可以由加载/存储片(222a)通过以下操作执行：在加载/存储访问队列(224)处接收数据请求，并且使操作移动通过加载/存储片(222a)流水线。可以从指令排序单元(240)接收指令(452)，并且指令(452)可以是加载指令或存储指令。

在正常操作期间，加载操作可以访问已经存储在数据高速缓存中的数据，并且加载操作完成而不被重新发出。但是，在某些条件下，加载/存储片(222a)可以确定要重新发出或拒绝指令—其中可以立即或者在某一数量的周期(取决于指令的拒绝条件被解决)之后重新发出指令。尽管通常情况下重新发出的指令可以完成，但如果重新发出的指令未完成，则向指令排序单元(240)发送信号可能导致依赖该重新发出的指令的指令被过早地唤醒。同样，在某些条件下，存储指令可能无法执行。

图4的方法还包括在加载/存储片(224a)处确定(404)指令(452)的拒绝条件。确定(404)指令(452)的拒绝条件可以由加载/存储片(222a)通过以下操作执行：确定将导致加载/存储片(222a)拒绝指令的一个或多个条件，包括数据高速缓存当前不能读取所请求的数据地址、转换机制不能转换所请求的数据地址、加载/未命中队列太忙而无法处理指令请求、检测到的其它加载或存储指令危险、等待存储转发完成、以及用于拒绝指令的其它可能条件。

图4的方法还包括响应于在加载/存储片(222a)处确定指令的拒绝条件，在加载/存储片(222a)中维护(406)指令的状态信息，而不是向指令排序单元通知指令的拒绝。在加载/存储片(222a)中维护(406)指令的状态信息可以通过以下方式执行：在加载指令的情况下，由加载/存储片(222a)内的逻辑通知加载重新排序队列(304)修改存储状态信息的条目的状态，以便指示休眠状态或者否则将使指令空闲的状态。同样，在指令是存储指令的情况下，加载/存储片(222a)内的逻辑可以通知存储重新排序队列(306)修改存储状态信息的条目的状态，以便指示休眠状态或者否则将使指令空闲的状态。

此外，维护状态信息可以包括例如在加载重新排序队列(304)或存储重新排序队列(306)的条目内存储由于拒绝条件被解决或者由于预计在某一数量的周期内解决拒绝条件，在接收通知以便唤醒之后可用于重新发出或重新发布指令的信息。

例如，条目可以存储或维护先前保存的用于处理指令的信息，以使得重新发出的指令看起来与最初从指令排序单元接收的指令相同或类似。例如，条目可以存储或维护指令操作代码或操作码、用于确定高速缓存行中的哪些字节包含在指令中的有效地址信息、可以用于对指令排序的ITAG、可以描述由存储器的较低层使用的高速缓存行地址的实地址、各种控制位以及其它信息。此外，条目可以存储或维护对应于不同拒绝条件的一组等待状态，其中该信息可以是响应于对应拒绝条件被解决而唤醒指令的基础。

加载重新排序队列(304)和存储重新排序队列(306)被进一步配置为响应于被通知将指令置于休眠状态，不向提供指令的指令排序单元发送任何信号或通知以便防止指令排序单元过早地唤醒依赖于被置于休眠状态的指令的任何指令。

例如，响应于指令排序单元(240)在结果总线(220)上接收指示指令正在被重新发出的信号，指令排序单元(240)可以唤醒依赖于被重新发出的指令的指令，以预计随后是数据有效信号，所述数据有效信号将允许相关指令正确地执行。但是，如果加载/存储片(222a)延迟发送指令正在被重新发出的信号，则指令排序单元(240)不唤醒依赖于被重新发出的指令的指令，从而避免取消针对重新发出的指令(其在重新发出时未完成)唤醒的相关指令，这防止浪费从取消相关指令恢复的执行周期。

以这种方式，在指令排序单元向加载/存储片(222a)提供指令之后，加载/存储片(222a)使指令排序单元免于消耗任何跟踪该指令的资源，因为指令排序单元依赖于加载/存储片(222a)来处理指令完成，无论加载/存储片(222a)是否确定或标识任何拒绝条件，这些拒绝条件否则将需要指令排序单元维护该指令的状态信息。

为了进一步解释，图5是示出实现被配置为维护被拒绝指令的加载/存储单元的多片处理器的操作的示例性方法的流程图。图5的方法可以由与图1-3的实例中的多片处理器类似的多片处理器执行。此类多片处理器可以包括指令排序单元(240)和多个加载/存储片(220a-220n)，其中每个加载/存储片可以实现加载/存储访问队列(224)、加载重新排序队列(304)和存储重新排序队列(306)，如上面针对图3所述。

图5的方法类似于图4的方法，因为图5的方法也包括在加载/存储片(222a)处接收(402)要发出的指令(452)；在加载/存储片(224a)处确定(404)指令(452)的拒绝条件；以及响应于在加载/存储片(222a)处确定指令的拒绝条件，在加载/存储片(222a)中维护(406)指令的状态信息，而不是向指令排序单元通知指令的拒绝。

但是，图5的方法不同于图4的方法，因为图5的方法进一步包括：确定(502)指令的拒绝条件已解决或正在等待解决；响应于确定指令的拒绝条件已解决或正在等待解决，从加载/存储片(222a)中重新发出(504)指令，并且向指令排序单元通知(506)指令正在被重新发出；确定(508)指令的数据从存储器的低层到达加载/存储片(222a)上的数据高速缓存(232)中；以及调度(510)要发出的指令以使得指令能够向目的地提供指令的数据而不访问数据高速缓存(232)。

确定(502)指令的拒绝条件已解决或正在等待解决可以由加载/存储片(222a)通过以下操作执行：确定指令的拒绝可以基于的一个或多个条件(如在(404)处确定)已被解决或者预计在某一数量的周期内被解决。例如，加载/存储片(222a)可以确定拒绝条件的解决，这些拒绝条件包括：数据高速缓存当前不能读取所请求的数据地址、转换机制不能转换所请求的数据地址、加载/未命中队列太忙而无法处理指令请求、检测到的其它加载或存储指令危险、等待存储转发完成、以及用于拒绝指令的其它可能条件。

加载/存储片(222a)可以进一步基于拒绝的类型，确定其中预计解决拒绝条件的周期数量，并且通知加载重新排序队列(304)或存储重新排序队列(306)。

从加载/存储片(222a)中重新发出(504)指令(452)可以由加载/存储片(222a)通过以下操作执行：通知加载重新排序队列(304)或存储重新排序队列(306)唤醒先前置于休眠状态的指令，或者在经过某一数量的周期之后唤醒。响应于接收要唤醒的信号，加载重新排序队列(304)或存储重新排序队列(306)可以沿着线路(314)用信号通知(552)加载/存储访问队列(224)重新发出或重新发布指令。

此外，加载/存储片(222a)可以确定唤醒处于休眠状态以等待解决拒绝条件的多个指令的顺序。换言之，当指令按照由指令排序单元确定的顺序到达加载/存储片(222a)时，加载/存储片(222a)可以对指令重新排序，以使得已完成的重新排序的指令的任何效果与从指令排序单元接收指令的顺序一致。例如，加载/存储片(222a)可以至少部分地基于指令的存在时间、指令接近完成的度量、或者根据可以利用承载数据转发的指令来确定唤醒优先级。

向指令排序单元(240)通知(506)指令正在被重新发出可以由加载重新排序队列(304)或存储重新排序队列(306)通过以下操作执行：向结果总线(220)生成沿着线路(312)通知指令排序单元(240)的信号(554)(其中信号(554)可以向指令排序单元(240)指示重新发出信号的标识)、以及标识被重新发出的指令的ITAG。

此外，加载/存储片(222a)可以将信号传播到指令排序单元(240)，该信号指示由加载指令所请求、可由ITAG标识的数据在结果总线上并且有效，其中指令排序单元(240)接收该信号并且将该信号与数据有效并在结果总线(220)上的指示相对应。

确定(508)指令的数据从存储器的低层到达加载/存储片(222a)上的数据高速缓存(232)中可以由加载/存储片(222a)通过以下操作执行：从存储器的低层接收所请求的数据正在朝向数据高速缓存(232)移动并可以预计在给定数量的周期内可用的指示。此类信息可以允许加载/存储片(222a)及时地唤醒加载指令以便使用承载数据转发路径。

调度(510)要发出的指令以使得指令可以向目的地提供指令的数据而不访问数据高速缓存(232)可以由加载/存储片(222a)通过以下操作执行：通知加载重新排序队列(304)及时地唤醒休眠指令，以使得指令可以沿着承载数据转发路径(310)向目的地提供正在被接收的数据，而不等待所请求的数据首先被锁存或存储在数据高速缓存(232)中。换言之，指令利用上面针对图3描述的承载数据转发技术。例如，加载/存储片(222a)可以确定在将唤醒信号发送到加载重新排序队列(304)之前从当前点起等待多少个周期，以使得当被唤醒的指令已经历重新发出以便利用所请求的数据时，该数据是可用的。

以这种方式，加载/存储片(222a)可以在距当前点多个周期的时间点处唤醒指令，以使得被唤醒的和被重新发出的指令在完成时不被延迟。

为了进一步解释，图6是示出实现被配置为维护被拒绝指令的加载/存储单元的多片处理器的操作的示例性方法的流程图。图6的方法可以由与图1-3的实例中的多片处理器类似的多片处理器执行。此类多片处理器可以包括指令排序单元(240)和多个加载/存储片(220a-220n)，其中每个加载/存储片可以实现加载/存储访问队列(224)、加载重新排序队列(304)和存储重新排序队列(306)，如上面针对图3所述。

图6的方法类似于图4的方法，因为图6的方法也包括在加载/存储片(222a)处接收(402)要发出的指令(452)；在加载/存储片(224a)处确定(404)指令(452)的拒绝条件；以及响应于在加载/存储片(222a)处确定指令的拒绝条件，在加载/存储片(222a)中维护(406)指令的状态信息，而不是向指令排序单元通知指令的拒绝。

但是，图6的方法不同于图4的方法，因为图6的方法进一步包括判定(602)指令(452)是加载还是存储，其中如果指令(452)是加载，则从加载/存储访问队列(224)向加载重新排序队列(304)提供(604)指令，并且如果指令(452)是存储，则从加载/存储访问队列(224)向存储重新排序队列(306)提供(606)指令。

判定(602)指令(452)是加载还是存储可以由加载/存储片(222a)通过以下操作执行：判定从指令排序单元接收的指令(452)的操作码是与加载操作还是存储操作相匹配。

从加载/存储访问队列(224)向加载重新排序队列(304)提供(604)指令(452)可以由加载/存储访问队列(224)通过以下操作执行：沿着线路(316)通过多路复用器(228)将指令(452)传播到加载重新排序队列(304)。

从加载/存储访问队列(224)向存储重新排序队列(306)提供(606)指令(452)可以由加载/存储访问队列(224)通过以下操作执行：沿着线路(316)通过多路复用器(228)将指令(452)传播到存储重新排序队列(306)。

以这种方式，加载/存储访问队列(224)可以将加载和存储指令路由到对应队列以便处理指令，其中加载重新排序队列(304)和存储重新排序队列(306)均包括这样的条目：这些条目被配置为维护用于维护被确定为经历拒绝条件的指令的信息，以使得所维护的信息可以用于重新唤醒并重新发出等待解决一个或多个拒绝条件的指令。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是—但不限于—电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读存储介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

将从以上描述中理解，可以在本发明的各种实施例中做出修改和更改而不偏离本发明的真实精神。本说明书中的描述仅为示例目的并且不应以限制的意义来理解所述描述。本发明的范围仅由以下权利要求的语言来限定。

Claims

1.一种多片处理器的操作方法，所述多片处理器包括指令排序单元、多个执行片、以及多个加载/存储片，所述方法包括：

在加载/存储片处从所述指令排序单元接收要发出的指令；

在所述加载/存储片处确定所述指令的拒绝条件；以及

响应于确定所述指令的所述拒绝条件，在所述加载/存储片中维护所述指令的状态信息，而不是向所述指令排序单元通知所述指令的拒绝。

2.根据权利要求1所述的方法，进一步包括：

确定所述指令的所述拒绝条件已解决或正在等待解决；以及

响应于确定所述指令的所述拒绝条件已解决或正在等待解决，从所述加载/存储片中重新发出所述指令。

3.根据权利要求2所述的方法，进一步包括：

响应于确定所述指令的所述拒绝条件已解决或正在等待解决，向所述指令排序单元通知所述指令正在被重新发出。

4.根据权利要求2所述的方法，其中所述指令是加载指令，并且其中所述方法进一步包括：

确定所述指令的数据从存储器的低层到达所述加载/存储片上的数据高速缓存中；以及

调度所述要发出的指令，以使得所述指令能够向目的地提供所述指令的数据而不访问所述数据高速缓存。

5.根据权利要求1所述的方法，进一步包括：

确定所述拒绝条件被预计在某一数量的周期内解决；以及

响应于确定所述拒绝条件被预计在所述数量的周期内解决，在经过所述数量的周期的同时调度所述要发出的指令。

6.根据权利要求1所述的方法，其中所述加载/存储片包括加载/存储访问队列和加载重新排序队列，并且其中接收所述要发出的指令包括：

确定所述指令是加载指令；以及

从所述加载/存储访问队列向所述加载重新排序队列提供所述指令。

7.根据权利要求1所述的方法，其中所述加载/存储片包括加载/存储访问队列和存储重新排序队列，并且其中接收所述要发出的指令包括：

确定所述指令是存储指令；以及

从所述加载/存储访问队列向所述存储重新排序队列提供所述指令。

8.一种多片处理器，包括：

指令排序单元、多个执行片、以及多个加载/存储片，其中所述多片处理器被配置为执行：

在加载/存储片处从所述指令排序单元接收要发出的指令；

在所述加载/存储片处确定所述指令的拒绝条件；以及

9.根据权利要求8所述的多片处理器，其中所述多片处理器被进一步配置为执行：

确定所述指令的所述拒绝条件已解决或正在等待解决；以及

10.根据权利要求9所述的多片处理器，其中所述多片处理器被进一步配置为执行：

11.根据权利要求9所述的多片处理器，其中所述指令是加载指令，并且其中所述多片处理器被进一步配置为执行：

12.根据权利要求8所述的多片处理器，其中所述多片处理器被进一步配置为执行：

确定所述拒绝条件被预计在某一数量的周期内解决；以及

13.根据权利要求8所述的多片处理器，其中所述加载/存储片包括加载/存储访问队列和加载重新排序队列，并且其中接收所述要发出的指令包括：

确定所述指令是加载指令；以及

14.根据权利要求8所述的多片处理器，其中所述加载/存储片包括加载/存储访问队列和存储重新排序队列，并且其中接收所述要发出的指令包括：

确定所述指令是存储指令；以及

15.一种装置，包括：

在加载/存储片处从所述指令排序单元接收要发出的指令；

在所述加载/存储片处确定所述指令的拒绝条件；以及

16.根据权利要求15所述的装置，其中所述多片处理器被进一步配置为执行：

确定所述指令的所述拒绝条件已解决或正在等待解决；以及

17.根据权利要求16所述的装置，其中所述多片处理器被进一步配置为执行：

18.根据权利要求17所述的装置，其中所述指令是加载指令，并且其中所述多片处理器被进一步配置为执行：

19.根据权利要求15所述的装置，其中所述多片处理器被进一步配置为执行：

确定所述拒绝条件被预计在某一数量的周期内解决；以及

20.根据权利要求15所述的装置，其中所述加载/存储片包括加载/存储访问队列和加载重新排序队列，并且其中接收所述要发出的指令包括：

确定所述指令是加载指令；以及