CN114253606A

CN114253606A - 用于早期流水线重定向的指令集架构和微架构

Info

Publication number: CN114253606A
Application number: CN202110947656.4A
Authority: CN
Inventors: S·古普塔; N·K·苏达拉詹; S·萨布拉蒙尼; R·纳塔拉詹
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-09-22
Filing date: 2021-08-18
Publication date: 2022-03-29
Also published as: NL2028988A; US20220091852A1; DE102021121223A1; GB202111963D0; NL2028988B1; GB2599006B; GB2599006A

Abstract

本申请公开了用于早期流水线重定向的指令集架构和微架构。描述了关于用于使用加载地址预测的早期流水线重定向以缓解分支误预测损害的指令集架构(ISA)和/或微架构的方法和装置。在实施例中，解码电路对加载指令解码，并且加载地址预测器(LAP)电路发布对存储器的、对用于加载指令的加载操作的数据的加载预取请求。计算电路基于来自加载预取请求的数据来执行加载指令的分支操作的结果。并且，重定向电路响应于分支操作的结果与针对分支的所存储的预测值之间的不匹配而传送信号以引起对与加载指令相关联的数据的转储清除。还公开并要求保护其他实施例。

Description

用于早期流水线重定向的指令集架构和微架构

技术领域

本公开总体上涉及电子学领域。更具体地，一些实施例涉及使用用于使用加载地址预测的早期流水线重定向(re-steer)以缓解分支误预测损害的指令集架构(ISA)和/或微架构的技术。

背景技术

为了提高性能，一些处理器利用推测性处理(有时也称为乱序(OOO)处理器)，其试图预测正在执行的程序的未来路线以例如通过采用并行性来加速其执行。预测可能会或可能不会正确地结束。当预测正确时，程序可以在比当采用非推测性处理时更少的时间内执行。然而，当预测不正确时，处理器必须将其状态恢复到在误预测之前的点，这可能产生低效。

此外，在现代超标量OOO处理器中，性能可能被分支误预测显著地影响，这导致大量工作从处理器的流水线转储清除，并且导致来自正确路径的指令延迟进入处理器流水线。随着处理器的指令窗口扩展，来自控制流误推测的损害持续增加。因此，存在限制丢失的工作并且避免被分支误预测事件浪费的时间的需要。

附图说明

因此，为了可详细地理解本文中陈述的当前实施例的特征的方式，可参照实施例进行对实施例的更特定的描述，在所附附图中图示实施例中的一些。然而，应注意的是，所附附图仅图示典型实施例，并且因此不应被视为限制实施例的范围。

图1图示可能在一些实施例中存在的处理器流水线中的加载操作的分支误预测的比例的样本值。

图2图示根据一个实施例的用于检测加载完成跟踪以用于早期流水线重定向的样本伪代码。

图3A图示根据一些实施例的样本指令集架构扩展。

图3B图示根据实施例的用于启用用于分支超控的基于加载地址预测器的技术的指令集架构扩展的流程图。

图4图示根据一些实施例的与处理器的流水线中的加载地址预测器(LAP)和预取加载跟踪器集成的各种处理器组件的框图。

图5图示根据一些实施例的与加载取出、依赖加载的分支取出、预取加载完成、和到指令解码队列中的分支进入相关联的操作的四个流程图。

图6图示一个或多个实施例对特定处理器的样本影响。

图7A是图示根据实施例的示例性指令格式的框图。

图7B是图示根据一个实施例的指令格式中构成完整操作码字段的字段的框图。

图7C是图示根据一个实施例的指令格式中构成寄存器索引字段的字段的框图。

图7D是图示根据一个实施例的指令格式中构成扩充操作字段的字段的框图。

图8是根据一个实施例的寄存器架构的框图。

图9A是图示根据实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图。

图9B是图示根据实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。

图10图示根据实施例的SOC(芯片上系统)封装的框图。

图11是根据实施例的处理系统的框图。

图12是根据一些实施例的具有一个或多个处理器核的处理器的实施例的框图。

图13是根据实施例的图形处理器的框图。

具体实施方式

在下列描述中，阐述了众多特定细节以便提供对各实施例的全面理解。然而，在没有这些特定细节的情况下，也可实施各实施例。在其他实例中，未详细描述公知的方法、过程、组件和电路，以免使特定实施例变得模糊。此外，各实施例的各方面可使用各种装置来执行，诸如集成半导体电路(“硬件”)、组织成一个或多个程序的计算机可读指令(“软件”)、或硬件与软件的某种组合。出于本公开的目的，对“逻辑”的引用应当意指硬件、软件、固件或它们的某种组合。

随着处理器的指令窗口扩展以允许处理器处置更多工作，来自控制流误推测的损害持续增加。因此，存在限制丢失的工作并且避免被分支误预测事件浪费的时间的需要，例如，通过提高分支预测器准确度或通过足够早地超控默认预测以限制误预测的等待时间影响。本文呈现的一些技术以后一选项为目标。

更具体地，一些实施例提供用于使用加载地址预测的早期流水线重定向以缓解分支误预测损害的指令集架构(ISA)和/或微架构的技术。一个或多个实施例提供(例如，轻量型)加载地址预测器逻辑以从存储器(例如，高速缓存层级结构或存储器子系统)预取数据并且计算分支方向。断开对加载指令完成执行的依赖可以通过比实际分支的执行早得多地将流水线取出操作重定向到正确路径来极大地减少分支误预测损害。在至少一个实施例中，所利用的(多条)指令遵循EVEX格式(诸如，参考图7A-图7C所讨论)。然而，实施例不限于EVEX格式，并且任何指令格式可用于实现各种实施例。

相比之下，最先进的分支预测器通常依赖于‘相关’分支的过去行为来以高准确度预测传入的分支方向。然而，导致其余误预测的分支由于数据值中的高熵而导致误预测。因此，基于历史的分支预测器要么不能高效地学习，要么无法学习。因此，提高此类‘依赖数据的分支’的准确度对于提高分支预测器的操作的总体准确度是根本性的。为了减少来自由‘依赖数据’的分支导致的误预测的‘被浪费的工作’，先前提出的技术可以针对在其中仅一个先前加载指令的数据支配该分支的结果的分支。它们要么通过ISA和编译器提示检测此类加载，要么使用仅硬件的基于微架构的方法。对于此类简单的‘依赖数据’的分支，在先的方法可以着眼于跟踪流水线中的飞行中加载，以便基于加载值超控分支预测。然而，大多数加载不会及时地完成以执行来自处理器的前端的有效分支超控。

实施例通过引入轻量型加载地址预测器以从高速缓存层级结构和/或存储器预取数据并且计算分支方向来解决前述问题。断开对加载指令完成执行的此种依赖通过比实际分支的执行早得多地将流水线取出操作重定向到正确路径来极大地减少分支误预测损害。

此外，一些当前技术可能依赖于存储-加载产生方-消耗方关系。标识加载IP(指令指针，本文中有时也称为PC或程序计数器)的正确动态实例以转发存储值的不准确性经常导致底层分支预测器的较差的预测准确度和错误超控。其他技术可以使用实际值，但加载执行到分支预测中的富余部分(slack)(周期)对于技术要在实践中有效是必须的。由于为了能有资格作为此类分支，应当仅对数据值执行最少计算以获得分支预测，因此在馈送加载指令与简单的依赖数据的分支之间经常不存在时间富余部分。结果，在大多数情形下，馈送加载非常接近于目标分支而结束执行，导致对于及时的分支超控非常小的或不存在的富余部分。

进一步地，一些实施例可应用于包括诸如参考图1及以下各图讨论的那些处理器之类的一个或多个处理器(例如，其中，该一个或多个处理器可包括一个或多个处理器核)的计算系统中，该计算系统包括例如台式计算机、工作站、计算机服务器、服务器刀片、或移动计算设备。移动计算设备可包括智能电话、平板、UMPC(超移动个人计算机)、膝上型计算机、超级本TM计算设备、可穿戴设备(诸如，智能手表、智能指环、智能手环、或智能眼镜)等。

图1图示可能在一些实施例中存在的处理器流水线中的加载操作的分支误预测的比例的样本值。从图1可以看出，当对紧密地接下来的目标分支的预测发生时，大多数加载(约87％)仍然在处理器的深度流水线的前端。在图1中，ROB指代重排序缓冲器，诸如参考图4和/或图9B讨论的。

为了扩展富余部分，实施例提供加载地址预测器逻辑(或对加载地址预测器逻辑改换用途)以断开处理器流水线中对加载地址生成的依赖，并且替代地从存储器子系统推测性地读取数据，以计算‘依赖数据’的加载的分支方向。该技术极大地增加了早期超控分支预测器的覆盖范围(当分支预测器错误地预测时)并且显著地降低了许多应用中的分支误预测的影响。进一步地，一些现有技术可能要求编译器支持和ISA变化作为解决方案的必要部分。相比之下，一些实施例也可以使用具有编译器支持或不具有编译器支持(例如，在微架构中)的ISA变化来实现。

在实施例中，利用加载跟踪基础设施(例如，包括加载地址预测器逻辑)来扩充处理器流水线以允许加载值在处理器流水线中(例如，比实际的加载指令完成其执行)早得多地可用。这是对加载地址预测器逻辑的非常新颖的使用，以标识错误的分支预测并且在早期对流水线重定向以限制分支误预测的损害。为了启用该技术，在实施例中，对加载指令进行ISA扩展以在下游分支上传达信息，下游分支在解码时依赖于这些加载指令。如果对加载IP的可信地址预测是可用的，则将读取访问发送至存储器集群，并且被预取的数据值用于计算分支结果。如果由分支预测器逻辑给出的原始预测不能匹配所计算的结果，则从分支预测器单元(BPU)或指令解码队列(“IDQ”，其有时被称为“分配队列”)触发早期前端重定向，以避免沿着错误路径的进一步的取出和执行。一些实施例还描述了如何可以在没有ISA支持的情况下但通过可检测的处理器微架构变化实现此类优化。如本文所讨论，IDQ/分配队列通常指代存储准备好在解码之后分配到流水线的乱序部分中的一条或多条指令(或相关联的(多个)微操作)的队列。

如图1所示，由于所完成的加载的较低分数(约10.7％，经执行的或经引退的)，使用仅加载完成跟踪(本文中也称为LDD或依赖加载数据的跟踪)来跟踪所完成的加载将提供有限的覆盖范围。为此，至少一个实施例推测性地获得用于预测依赖数据的分支的加载值，以及用于启用分支预测超控的微架构。

用于评估处理器的性能的对超过100个工作负荷进行的实验显示，本文中讨论的这些方法可以将处理器的OOO部分中的分支误预测平均减少约12.7％，从而导致一些处理器配置上的IPC(每周期指令)增益为4.3％IPC(几何平均)。与用于减少对依赖加载数据的分支的误预测的其他方法相比，这提供了较高的覆盖范围和准确度，以及提高处理器的性能和效率的效力。相比之下，使用仅加载完成跟踪实现了显著较低的覆盖范围，并且仅显示5.4％的MPKI(每千指令误预测)降低。使用加载地址预测器和早期存储器读取访问的早期拉出/预取加载值提供了来自一个或多个实施例的附加的覆盖范围。

在一个实施例中，编译器优化和概况分析技术可用于标识其地址是高度可预测的特定加载操作。进而，ISA可以被扩展为标记这些加载。此外，当硬件-软件协同设计用于实现一些实施例时(例如，使用具有所提出的ISA扩展的加载完成跟踪，并且还进一步伺机地使用预取技术)，然后接下来的基于微基准的测试可用于检测。

更具体地，图2图示根据一个实施例的用于提供用于检测加载完成跟踪以用于早期流水线重定向的微基准的样本伪代码。对于基于硬件的实现方式，图2中的微基准可以用于检测。类似的微基准对于检测LDD方案的存在(DETECT_LDD＝1)是有用的。

伪代码如下工作：利用在0和20之间的范围内的随机值填充数组[]，使得难以预测分支B1的结果，并且任何基于历史的预测器将不能获得对分支B1的高准确度。在do_long_work()中完成的大量独立工作确保依赖存储的分支或其他基于存储的方法不能在用于记录存储值的有限存储内成功地捕获它。对加载完成跟踪的检测要求在L1与B1之间的一些“do_work()”以允许L1在B1被取出之前完成。该限制在其中针对“do_work()”存在较少量的工作或者甚至将“do_work()”从微基准移除的实施例中被解除。注意，在一些实施例中不要求由do_work()产生的富余部分，因为加载地址预测器逻辑用于从存储器集群预取数据值。

此外，性能监视计数器揭示了当执行该程序时看到的分支误预测。如果产物在其生成之间显示误预测数量的显著变化(利用或不利用对二进制文件的重新编译)，则该微基准指示至少一个实施例被利用。此外，诸如用于加载的值预测器之类的原生的解决方案可能不能起作用，因为值是不可预测的，而加载地址(array[i])在此类情形下是可预测的。

进一步地，在微基准中添加do_work()以生成加载操作与分支操作之间的富余部分。由于根据一些实施例使用加载地址预测器逻辑，因此该富余部分不必是大的。甚至移除该富余部分将仍然允许该技术通过在分支进入IDQ时对流水线重定向而起作用。此外，由于在微基准中使用array[i]，因此这些数据值的地址是高度可预测的。因此，如果do_work()函数内部的工作被移除或减少，则该微基准适用于检测早期流水线重定向是否被使用(因为富余部分被相应地挤压)。

在至少一个实施例中，提供三种增强：(a)特定ISA扩展，用于标记加载以用于地址预测和数据预取，(b)加载地址预测器(LAP)逻辑，以及(c)预取加载跟踪器(PLT)逻辑。

一个实施例旨在覆盖简单的依赖加载数据的分支，并且作为结果，其可以适用于在加载操作和分支操作之间允许的计算的性质方面是选择性的。还可以使用将分支相关的信息存储在表中并且使用它来根据数据值计算分支预测。例如，一个或多个预测表可用于根据数据值获得预测。另一实施例使用ALU(算术逻辑单元)(例如，图4的ALU 408)。

此外，可以在编译器中利用例如ISA扩展来检测依赖加载的分支，以将依赖数据的分支信息传达到硬件。对于仅硬件版本，基于架构寄存器堆(ARF)的方案可用于检测依赖数据的分支。可以在流水线中使用依赖加载的分支表(LBT)和加载值表(LVT)来跟踪加载指令，并且在加载完成后，在依赖数据的分支之前被超控的分支预测进入OOO流水线。

图3A图示根据一些实施例的样本指令集架构扩展。图3B图示根据实施例的用于启用用于分支超控的基于加载地址预测器(LAP)的技术的ISA扩展的流程图300。图3B的流程图示出在对ISA经扩展的指令(在图3A中示出，其中“LD”指代加载，“OP”指代操作码，“Br”指代分支)解码后的操作。方法300的一个或多个操作可由本文中(例如，参考图7A-7D及以下各图)所讨论的组件来执行，这些组件包括处理器、处理器核、逻辑等。在实施例中，操作302至310中的一个或多个由硬件(例如，处理器中的解码逻辑，诸如图4的解码逻辑404和/或图9A的906)和/或图4的加载地址预测器逻辑402执行。图3A和图3B主要用于基于ISA扩展的实现方式。基于硬件的对分支的检测将使用硬件检测逻辑插入LBT条目。

参考图3A和图3B，操作302对加载操作解码。操作304确定经解码的操作是否包括用于LBT的ISA扩展。操作306将所加载的PC、分支PC、和/或Op/CMP信息添加到LBT(其中“CMP”指代典型地在分支指令之前使用的用于对两个操作数(Op)进行比较的比较指令)。操作308确定LAP位是否被设置(即，用于指示用于超控分支的加载地址预测器技术根据一些实施例被启用)。操作310标记LBT以使基于LAP预测的方案被启用。

例如，当编译器标识出基于加载值的预测可用于分支时(例如，在加载和分支之间仅存在简单的基于单个操作数的计算)，ISA扩展可以引起对分支IP的标记，并且在从加载到分支的依赖链上的操作被添加到指令的经扩展的位。附加地，如果编译器中的概况分析信息表明加载操作极少在分支预测被需要(或分支进入OOO流水线)之前完成，则可以在ISA扩展中设置LAP位。编译器还可以使用加载地址预测逻辑402(例如，在软件中运行的算法)来检查针对方案考虑的加载地址预测器是否将在学习加载地址中的模式时有效。这可帮助选择将标记有LAP位的更多特定加载IP，并且减少加载地址预测器上的压力。参考图3A和图7A，在一些实施例中，预留的操作码在ISA中可用(705/715/730)，并且新的操作码LD OPExt 1和LD OP Ext 2可以采用那些预留的操作码。在替代实施例中，常规的加载操作码可以被扩展为使用来自指令的其他字段的预留的代码(740/750)。

图4图示根据一些实施例的与处理器的流水线中的LAP和预取加载跟踪器(PLT)集成的各种处理器组件的框图。图5图示根据一些实施例的与加载取出、依赖加载的分支取出、预取加载完成、和到IDQ中的分支进入相关联的操作的四个流程图。在两种选项的实现(基于ISA相对于硬件检测)中，可以在硬件中执行图5中的所有动作。

在图中，“RAT”指代寄存器别名表，“PRF”指代物理寄存器堆，“RS”指代预留站，“EXEC”指代执行单元(或EU)，“ROB”指代重排序缓冲器，“LB”指代加载缓冲器，“SB”指代存储缓冲器，并且“ARF”指代架构寄存器堆。

参考图4和图5，当加载指令进入流水线的前端时，在操作502处，其IP与馈送器加载跟踪器(FLT)存储设备/缓冲器406中的加载IP匹配。在一些实现方式中，LBT结构还可以是可按照加载IP搜索的。然而，这是可能限制对LBT的缩放的高成本的操作。因此，提供馈送器加载跟踪器(FLT)结构406以存储加载IP到分支IP的映射(LBT存储分支IP到加载IP的映射)。

如图4所示，LBT条目可以包括：分支PC(BR PC)，#MSP(误预测计数器)，置信度位(“CONF”指示地址预测是否是可信的)，加载PC(LD PC)，一个或多个操作码(Op 0,Op1,...,Op n)，LAP位，LVT索引和预测(Pred)，以及PLT索引和预测。

如果在502处在FLT中存在匹配，则在504处利用LVT索引来标记加载指令。可以按轮循方式或基于可用性来选择该LVT索引。还可以将被指派的LVT索引存储在LBT表中的对应条目中，如图4底部所示。与LVT操作类似，当在506处存在具有来自LAP的可信的地址预测的加载IP时，在508处，获得预取加载跟踪器(PLT)索引并且将其存储在LBT条目中。关于对实际加载和所预取的加载的写回的步骤可以是类似的(在图5中仅示出所预取的加载访问动作)，仅有的区别在于它们首先分别通过访问LVT或PLT来获得FLT索引。

在分支取出时，BPU计算对正在进入流水线的分支的默认预测。与该步骤一起，还在LBT中搜索分支IP，并且如果在510处存在命中，则在512处，从LBT条目读出预测以与BPU预测进行比较。如果两种预测是不同的(并且在一些情形下还可以对来自LBT的预测是否可信进行检查)，则在514处，将重定向信号发送至取出单元并且对前端进行转储清除。图4中的围绕BPU单元的回环箭头指示在514处的该动作。进一步地，由于LAP准确度对于该方案中的性能可能是关键的，因此可以使用高度准确的加载值预测器并且将其变形为加载地址预测器402。但是，对加载地址预测器的选择可能与该技术无关，因为基于工作负荷，应当部署适当调节的加载地址预测器。

在分支PC进入IDQ结构时，操作520确定在IDQ重定向表中是否存在命中。如果存在命中，则在522处，将LBT预测与BPU预测进行比较，并且如果存在不匹配，则操作524将重定向信号发送至取出单元并且对前端进行转储清除。该动作可以与操作514类似，但是其对流水线的更大部分进行转储清除(未示出)。

在预取加载访问完成时，操作550将数据与LVT索引一起发送至PLT。操作552读取LVT索引处的PLT条目以获得FLT索引。操作554读取FLT索引处的FLT条目以获得LBT索引。操作556使用ALU 408来基于所预取的数据值执行针对LBT的操作。新的优化不需要将数据值存储在LVT中。相反，一旦数据可用就执行计算，并且将结果与LVT索引一起存储在LBT条目中。操作558将LBT中的LVT索引与加载操作的LVT索引进行比较，并且如果存在匹配，则操作560将所预测的分支方向存储在对应的LBT条目中；否则，操作562将LVT索引和预测发送至IDQ重定向表以用于在分支进入OOO流水线之前启用伺机性超控。

此外，与其中如果加载操作和分支操作在程序顺序上接近则对使用加载值的分支的超控是禁止的其他解决方案不同，一些实施例通过当加载进入处理流水线时发布加载数据到达请求(预取)来解决该问题。此外，存在可能用于该方案的具有较大PLT尺寸和/或较大存储器系统带宽可用性的进一步的扩展。另一实施例可以通过在加载IP进入流水线之前早得多地启动加载数据预取而更激进。例如，可以通过学习在引退中处于在加载IP之前20个周期出现的指令的IP而在加载之前的20条指令处启动预取。当看到该较早的IP时，可以启动预取并且分配PLT上的条目。然后，稍后当加载IP进入流水线时，将预分配的PLT索引指派给加载IP。

图6图示一个或多个实施例对两个不同处理器(在图中标记为处理器1和处理器2)的样本IPC影响。基于踪迹列表上对处理器1处理器配置的周期准确模拟器建模而评估了一些实施例。基于每周期指令(IPC)增加和每千指令误预测(MPKI)的减少而评估了技术的有效性。出于评估的目的，假设利用对依赖加载数据的分支的检测的硬件实现方式。如果应用新的加载ISA扩展来覆盖所有目标加载-分支情形，那么基于编译器和ISA扩展的方法应该显示类似的性能影响。

在客户端和服务器踪迹列表中的工作负荷之间，基于源自依赖数据的分支的大部分分支误预测而选择了用于评估的104个踪迹。对于这些工作负荷，在图6中以图表示出IPC增益和MPKI减少。可以看出，通过早期重定向，约12.7％的分支误预测被移除，并且误预测损害被减少。一些实现方式可以实现0.98％的IPC增益和5.4％的MPKI减少。附加的LAP和PLT集成可以将IPC增益提高到3.1％并且将MPKI减少提高到12.7％。

随着流水线配置被缩放到更大尺寸(从处理器1到处理器2)，当应用一个或多个实施例时，由于更深/更宽机器上的误预测的更高损害，IPC影响增大，并且因此节约更多。类似处理器2的配置可以获得IPC的差不多4.3％的增益。

指令集

指令集可包括一种或多种指令格式。给定的指令格式可定义各种字段(例如，位的数量、位的位置)以指定要执行的操作(例如，操作码)以及将对其执行该操作的(多个)操作数和/或(多个)其他数据字段(例如，掩码)，等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如，可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序，但是至少一些字段因为较少的字段被包括而具有不同的位位置)的不同子集，和/或定义为具有以不同方式进行解释的给定字段。由此，ISA的每一条指令使用给定的指令格式(并且如果被定义，则按照该指令格式的指令模板中的给定的一个指令模板)来表达，并包括用于指定操作和操作数的字段。例如，示例性ADD(加法)指令具有特定的操作码和指令格式，该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段；并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)并且使用向量扩展(VEX)编码方案的SIMD扩展集(例如，参见2014年9月的

64和IA-32架构软件开发者手册；并且参见2014年10月的

高级向量扩展编程参考)。

示例性指令格式

本文中所描述的(多条)指令的实施例能以不同格式来具体化。此外，在下文中详述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行，但是不限于详述的那些系统、架构和流水线。

尽管将描述其中向量友好指令格式支持以下情况的实施例：64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此，64字节向量由16个双字尺寸的元素组成，或者替代地由8个四字尺寸的元素组成)；64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸)；32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸)；以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)；但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如，256字节向量操作数)与更大、更小或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)。

图7A是图示根据实施例的示例性指令格式的框图。图7A示出指令格式700，其指定各字段的位置、尺寸、解释和次序、以及那些字段中的一些字段的值，在这个意义上，该指令格式700是专用的。指令格式700可用于扩展x86指令集，并且由此字段中的一些字段与在现有的x86指令集及其扩展(例如，AVX)中所使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。

EVEX前缀(字节0-3)702——以四字节形式进行编码。

格式字段782(EVEX字节0，位[7:0])——第一字节(EVEX字节0)是格式字段782，并且它包含0x62(在一个实施例中，为用于区分向量友好指令格式的唯一值)。

第二－第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。

REX字段705(EVEX字节1，位[7-5])－由EVEX.R位字段(EVEX字节1，位[7]–R)、EVEX.X位字段(EVEX字节1，位[6]–X)以及(757BEX字节1，位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能，并且使用1补码的形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低的三个位(rrr、xxx和bbb)进行编码，使得可通过对EVEX.R、EVEX.X和EVEX.B相加来形成Rrrr、Xxxx和Bbbb。

REX’字段710——这是EVEX.R’位字段(EVEX字节1，位[4]-R’)，其用于对扩展的32个寄存器的集合的较高的16个或较低的16个进行编码。在一个实施例中，该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分，但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11；替代实施例不以反转的格式存储该位以及下文中其他指示的位。值1用于对较低的16个寄存器进行编码。换句话说，通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。

操作码映射字段715(EVEX字节1，位[3:0]–mmmm)–其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。

数据元素宽度字段764(EVEX字节2，位[7]–W)－由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持多个数据元素宽度，则该字段是不需要的，在这个意义上，该字段是任选的。

EVEX.vvvv 720(EVEX字节2，位[6:3]-vvvv)——EVEX.vvvv的作用可包括如下：1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数进行编码，并且对具有两个或更多个源操作数的指令有效；2)EVEX.vvvv对针对特定向量位移以1补码的形式指定的目的地寄存器操作数进行编码；或者3)EVEX.vvvv不对任何操作数进行编码，该字段被预留，并且应当包含1111b。由此，EVEX.vvvv字段720对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令，额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。

EVEX.U 768类字段(EVEX字节2，位[2]-U)——如果EVEX.U＝0，则它指示A类(支持合并－写掩码)或EVEX.U0；如果EVEX.U＝1，则它指示B类(支持归零和合并－写掩码)或EVEX.U1。

前缀编码字段725(EVEX字节2，位[1:0]-pp)－提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外，这也具有压缩SIMD前缀的益处(EVEX前缀仅需要2位，而不是需要字节来表达SIMD前缀)。在一个实施例中，为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令，将这些传统SIMD前缀编码成SIMD前缀编码字段；并且在运行时在被提供给解码器的PLA之前被扩展成传统SIMD前缀(因此，在无需修改的情况下，PLA既可执行传统格式的这些传统指令又可执行EVEX格式的这些传统指令)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展，但是为了一致性，某些实施例以类似的方式扩展，但允许由这些传统SIMD前缀指定的不同含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码，并且由此不需要扩展。

α字段753(EVEX字节3，位[7]–EH；也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N；也以α图示)——其内容区分要执行不同的扩充操作类型中的哪一扩充操作类型。

β字段755(EVEX字节3，位[6:4]-SSS，也称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也以βββ图示)——区分要执行操作中的具有指定类型的哪些操作。

REX’字段710－这是REX’字段的其余部分，并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3，位[3]–V’)。该位以位反转的格式存储。值1用于对较低的16个寄存器进行编码。换言之，通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。

写掩码字段771(EVEX字节3，位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器索引。在一个实施例中，特定值EVEX.kkk＝000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现，包括使用硬连线为全部为一的写掩码或者绕过掩码硬件的硬件来实现)。当合并时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新；在另一实施例中，保持其中对应掩码位具有0的目的地的每一元素的旧值。相反，当归零时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零；在一个实施例中，目的地的元素在对应掩码位具有0值时被设置为0。该功能的子集是控制正在被执行的操作的向量长度的能力(即，从第一个到最后一个正在被修改的元素的跨度)；然而，被修改的元素不一定要是连续的。由此，写掩码字段771允许部分向量操作，包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段771的内容选择多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此写掩码字段771的内容间接地标识要执行的掩码)的实施例，但是替代实施例相反或另外允许掩码写字段771的内容直接地指定要执行的掩码。

实操作码字段730(字节4)还被称为操作码字节。操作码的部分在该字段中被指定。

MOD R/M字段740(字节5)包括MOD字段742、寄存器索引字段744、以及R/M字段746。MOD字段742的内容将存储器访问操作和非存储器访问操作区分开。寄存器索引字段744的作用可以被归结为两种情形：对目的地寄存器操作数或源寄存器操作数进行编码；或者被视为操作码扩展，并且不用于对任何指令操作数进行编码。寄存器索引字段744的内容直接地或通过地址生成来指定源操作数和目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如，32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器，但是替代实施例可支持更多或更少的源寄存器和目的地寄存器(例如，可支持多达两个源，其中这些源中的一个还用作目的地；可支持多达三个源，其中这些源中的一个还用作目的地；可支持多达两个源和一个目的地)。

R/M字段746的作用可包括下列各项：对引用存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)字节(字节6)——比例字段750的内容允许用于存储器地址生成(例如，用于使用2^比例*索引+基址的地址生成)的索引字段的内容的按比例缩放。SIB.xxx 754和SIB.bbb 756——先前已经就寄存器索引Xxxx和Bbbb引用了这些字段的内容。

位移字段763A(字节7-10)——当MOD字段742包含10时，字节7-10是位移字段763A，并且它与传统32位位移(disp32)一样地工作，并且以字节粒度工作。这可被用作存储器地址生成的部分(例如，用于使用2^比例*索引+基址+位移的地址生成)。

位移因数字段763B(字节7)－当MOD字段742包含01时，字节7是位移因数字段763B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的，因此它仅能在-128和127字节偏移之间寻址；在64字节高速缓存行的方面，disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位；由于常常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32对比，位移因数字段763B是disp8的重新解释；当使用位移因数字段763B时，通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移，但具有大得多的范围)。此类经压缩的位移基于有效位移是存储器访问的粒度的倍数的假设，并且由此地址偏移的冗余低阶位不需要被编码。换句话说，位移因数字段763B替代传统x86指令集8位位移。由此，位移因数字段763B以与x86指令集8位位移相同的方式被编码(因此，在ModRM/SIB编码规则中没有变化)，唯一的不同在于，将disp8超载至disp8*N。换句话说，在编码规则或编码长度方面没有变化，而仅在由硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的尺寸以获得字节式地址偏移)。

立即数字段772允许对立即数的指定。该字段在不支持立即数的通用向量友好格式的实现方式中不存在且在不使用立即数的指令中不存在，在这个意义上，该字段是任选的。

完整操作码字段

图7B是图示根据一个实施例的指令格式700中构成完整操作码字段774的字段的框图。具体地，完整操作码字段774包括格式字段782、基础操作字段743和数据元素宽度(W)字段763。基础操作字段743包括前缀编码字段725、操作码映射字段715和实操作码字段730。

寄存器索引字段

图7C是图示根据一个实施例的格式700中构成寄存器索引字段745的字段的框图。具体地，寄存器索引字段745包括REX字段705、REX’字段710、MODR/M.reg字段744、MODR/M.r/m字段746、VVVV字段720、xxx字段754和bbb字段756。

扩充操作字段

图7D是图示根据一个实施例的指令格式700中构成扩充操作字段的字段的框图。当类(U)字段768包含0时，它表明EVEX.U0(A类768A)；当它包含1时，它表明EVEX.U1(B类768B)。当U＝0且MOD字段742包含11(表明无存储器访问操作)时，α字段753(EVEX字节3，位[7]–EH)被解释为rs字段753A。当rs字段753A包含1(舍入753A.1)时，β字段755(EVEX字节3，位[6:4]–SSS)被解释为舍入控制字段755A。舍入控制字段755A包括一位SAE字段796和两位舍入操作字段798。当rs字段753A包含0(数据变换753A.2)时，β字段755(EVEX字节3，位[6:4]–SSS)被解释为三位数据变换字段755B。当U＝0且MOD字段742包含00、01或10(表明存储器访问操作)时，α字段753(EVEX字节3，位[7]–EH)被解释为驱逐提示(EH)字段753B且β字段755(EVEX字节3，位[6:4]–SSS)被解释为三位数据操纵字段755C。

当U＝1时，α字段753(EVEX字节3，位[7]–EH)被解释为写掩码控制(Z)字段753C。当U＝1且MOD字段742包含11(表明无存储器访问操作)时，β字段755的部分(EVEX字节3，位[4]–S₀)被解释为RL字段757A；当它包含1(舍入757A.1)时，β字段755的其余部分(EVEX字节3，位[6-5]–S_2-1)被解释为舍入操作字段759A，而当RL字段757A包含0(VSIZE757.A2)时，β字段755的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段759B(EVEX字节3，位[6-5]–L_1-0)。当U＝1且MOD字段742包含00、01或10(表明存储器访问操作)时，β字段755(EVEX字节3，位[6:4]–SSS)被解释为向量长度字段759B(EVEX字节3，位[6-5]–L_1-0)和广播字段757B(EVEX字节3，位[4]–B)。

示例性寄存器架构

图8是根据一个实施例的寄存器架构800的框图。在所图示的实施例中，存在32个512位宽的向量寄存器810；这些寄存器被引用为ZMM0到ZMM31。较低的16个ZMM寄存器的较低阶的256个位覆盖在寄存器YMM0-16上。较低的16个ZMM寄存器的较低阶的128个位(YMM寄存器的较低阶的128个位)覆盖在寄存器XMM0-15上。换句话说，向量长度字段759B在最大长度与一个或多个其他较短长度之间进行选择，其中每一个此类较短长度是前一长度的一半；并且不具有向量长度字段759B的指令模板在最大向量长度上操作。此外，在一个实施例中，指令格式700的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据进行操作。标量操作是对ZMM/YMM/XMM寄存器中的最低阶数据元素位置执行的操作；取决于实施例，较高阶数据元素位置要么保持与在指令之前相同，要么归零。

写掩码寄存器815——在所图示的实施例中，存在8个写掩码寄存器(k0到k7)，每个写掩码寄存器的尺寸是64位。在替代实施例中，写掩码寄存器815的尺寸是16位。在一些实施例中，向量掩码寄存器k0无法用作写掩码；当将正常指示k0的编码用于写掩码时，它选择硬连线的写掩码0xFFFF，从而有效地对那条指令禁用写掩码。

通用寄存器825——在所图示的实施例中，存在十六个64位通用寄存器，这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

标量浮点栈寄存器堆(x87栈)845，在其上面重叠了MMX紧缩整数平坦寄存器堆850——在所图示的实施例中，x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈；而MMX寄存器用于对64位紧缩整数数据执行操作，以及为在MMX和XMM寄存器之间执行的一些操作保存操作数。

替代实施例可以使用更宽的或更窄的寄存器。另外，替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性核架构、处理器和计算机架构

处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如，此类核的实现方式可包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用乱序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现方式可包括：1)CPU(中央处理单元)，其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核；以及2)协处理器，其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构，这些计算机系统架构可包括：1)在与CPU分开的芯片上的协处理器；2)在与CPU相同的封装中但在分开的管芯上的协处理器；3)与CPU在相同管芯上的协处理器(在该情况下，此类协处理器有时被称为专用逻辑或被称为专用核，该专用逻辑诸如，集成图形和/或科学(吞吐量)逻辑)；以及4)芯片上系统，其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构，随后描述示例性处理器和计算机架构。

示例性核架构

图9A是图示根据实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图。图9B是图示根据实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。图9A-图9B中的实线框图示有序流水线和有序核，而虚线框的任选的增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集，将描述乱序方面。

在图9A中，处理器流水线900包括取出级902、长度解码级904、解码级906、分配级908、重命名级910、调度(也被称为分派或发布)级912、寄存器读取/存储器读取级914、执行级916、写回/存储器写入级918、异常处置级922和提交级924。

图9B示出处理器核990，该处理器核990包括前端单元930，该前端单元930耦合至执行引擎单元950，并且前端单元930和执行引擎单元950两者都耦合至存储器单元970。核990可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或者混合或替代的核类型。作为又一选项，核990可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核，等等。

前端单元930包括分支预测单元932，该分支预测单元932耦合至指令高速缓存单元934，该指令高速缓存单元934耦合至指令转换后备缓冲器(TLB)936，该指令转换后备缓冲器936耦合至指令取出单元938，该指令取出单元938耦合至解码单元940。解码单元940(或解码器)可对指令进行解码，并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现。合适机制的示例包括但不限于，查找表、硬件实现方式、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核990包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如，在解码单元940中，或以其他方式在前端单元930内)。解码单元940耦合到执行引擎单元950中的重命名/分配器单元952。

执行引擎单元950包括重命名/分配器单元952，该重命名/分配器单元952耦合至引退单元954和一个或多个调度器单元的集合956。(多个)调度器单元956表示任何数量的不同调度器，包括预留站、中央指令窗等。(多个)调度器单元956耦合至(多个)物理寄存器堆单元958。(多个)物理寄存器堆单元958中的每个物理寄存器堆单元表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一种或多种不同的数据类型，诸如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如，作为要执行的下一条指令的地址的指令指针)等。在一个实施例中，(多个)物理寄存器堆单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元958由引退单元954重叠，以图示可实现寄存器重命名和乱序执行的各种方式(例如，使用(多个)重排序缓冲器和(多个)引退寄存器堆；使用(多个)未来文件、(多个)历史缓冲器、和(多个)引退寄存器堆；使用寄存器映射和寄存器池，等等)。引退单元954和(多个)物理寄存器堆单元958耦合至(多个)执行集群960。(多个)执行集群960包括一个或多个执行单元的集合962以及一个或多个存储器访问单元的集合964。执行单元962可执行各种操作(例如，移位、加法、减法、乘法)并可对各种数据类型(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可包括专用于特定功能或功能集合的数个执行单元，但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元956、(多个)物理寄存器堆单元958和(多个)执行集群960示出为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线，和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行集群具有(多个)存储器访问单元964的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以是乱序发布/执行，并且其余流水线可以是有序发布/执行。

存储器访问单元的集合964耦合至存储器单元970，该存储器单元970包括数据TLB单元972，该数据TLB单元972耦合至数据高速缓存单元974，该数据高速缓存单元974耦合至第2级(L2)高速缓存单元976。在一个示例性实施例中，存储器访问单元964可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合至存储器单元970中的数据TLB单元972。指令高速缓存单元934进一步耦合到存储器单元970中的第2级(L2)高速缓存单元976。L2高速缓存单元976耦合至一个或多个其他级别的高速缓存，并最终耦合至主存储器。

作为示例，示例性寄存器重命名的、乱序发布/执行核架构可如下所述地实现流水线900：1)指令取出938执行取出级902和长度解码级904；2)解码单元940执行解码级906；3)重命名/分配器单元952执行分配级908和重命名级910；4)(多个)调度器单元956执行调度级912；5)(多个)物理寄存器堆单元958和存储器单元970执行寄存器读取/存储器读取级914；执行群集960执行执行级916；6)存储器单元970和(多个)物理寄存器堆单元958执行写回/存储器写入级918；7)各单元可涉及异常处置级922；以及8)引退单元954和(多个)物理寄存器堆单元958执行提交级924。

核990可支持一个或多个指令集(例如，x86指令集(具有已与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展))，其中包括本文中描述的(多条)指令。在一个实施例中，核990包括用于支持紧缩数据指令集扩展(例如，AVX1、AVX2)的逻辑，由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。

图10图示出根据实施例的SOC封装的框图。如图10中所图示，SOC 1002包括一个或多个中央处理单元(CPU)核1020、一个或多个图形处理器单元(GPU)核1030、输入/输出(I/O)接口1040以及存储器控制器1042。可将SOC封装1002的各组件耦合至诸如本文中参考其他附图所讨论的互连或总线。另外，SOC封装1002可包括更多或更少的组件，诸如本文中参考其他附图所讨论的那些组件。进一步地，SOC封装1002的每个组件可包括一个或多个其他组件，例如，如本文中参考其他附图所讨论的组件。在一个实施例中，在一个或多个集成电路(IC)管芯上提供SOC封装1002(及其组件)，例如，该一个或多个集成电路管芯被封装到单个半导体设备中。

如图10中所图示，SOC封装1002经由存储器控制器1042耦合至存储器1060。在实施例中，存储器1060(或其部分)可以被集成在SOC封装1002上。

I/O接口1040可例如经由诸如本文中参考其他附图所讨论的互连和/或总线而耦合至一个或多个I/O设备1070。(多个)I/O设备1070可包括以下各项中的一项或多项：键盘、鼠标、触摸板、显示器、图像/视频捕捉设备(诸如，相机或摄像机/视频录像机)、触摸屏、扬声器等等。

图11是根据实施例的处理系统1100的框图。在各实施例中，系统1100包括一个或多个处理器1102以及一个或多个图形处理器1108，并且可以是单处理器台式机系统、多处理器工作站系统、或具有大量处理器1102或处理器核1107的服务器系统。在一个实施例中，系统1100是被并入到用于在移动设备、手持式设备或嵌入式设备中使用的芯片上系统(SoC或SOC)集成电路内的处理平台。

系统1100的实施例可以包括以下各项或可被并入在以下各项内：基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台)、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中，系统1100是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统1100还可以包括以下各项、与以下各项耦合、或被集成在以下各项内：可穿戴设备(诸如智能手表可穿戴设备、智能眼镜设备)、增强现实设备或虚拟现实设备。在一些实施例中，数据处理系统1100是电视机或机顶盒设备，该电视机或机顶盒设备具有一个或多个处理器1102以及由一个或多个图形处理器1108生成的图形界面。

在一些实施例中，一个或多个处理器1102各自都包括一个或多个处理器核1107，该一个或多个处理器核1107用于处理指令，这些指令在被执行时执行用于系统和用户软件的操作。在一些实施例中，一个或多个处理器核1107中的每个处理器核被配置成处理特定的指令集1109。在一些实施例中，指令集1109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核1107可各自处理不同的指令集1109，不同的指令集1109可包括用于促进对其他指令集的仿真的指令。处理器核1107还可包括其他处理设备，诸如数字信号处理器(DSP)。

在一些实施例中，处理器1102包括高速缓存存储器1104。取决于架构，处理器1102可以具有单个内部高速缓存或多级的内部高速缓存。在一些实施例中，高速缓存存储器在处理器1102的各种组件之间被共享。在一些实施例中，处理器1102也使用外部高速缓存(例如，第3级(L3)高速缓存或末级高速缓存(LLC))(未示出)，可使用已知的高速缓存一致性技术在处理器核1107之间共享该外部高速缓存。寄存器堆1106附加地被包括在处理器1102中，寄存器堆1106可包括用于存储不同类型数据的不同类型的寄存器(例如，整数寄存器、浮点寄存器、状态寄存器以及指令指针寄存器)。一些寄存器可以是通用寄存器，而其他寄存器可以专用于处理器1102的设计。

在一些实施例中，处理器1102耦合至处理器总线1110以在处理器1102与系统1100中的其他组件之间传输诸如地址、数据、或控制信号之类的通信信号。在一个实施例中，系统1100使用示例性“中枢”系统架构，该示例性“中枢”系统架构包括存储器控制器中枢1116和输入输出(I/O)控制器中枢1130。存储器控制器中枢1116促进存储器设备与系统1100的其他组件之间的通信，而I/O控制器中枢(ICH)1130提供经由本地I/O总线至I/O设备的连接。在一个实施例中，存储器控制器中枢1116的逻辑被集成在处理器内。

存储器设备1120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备、或具有合适的性能以充当进程存储器的某个其他存储器设备。在一个实施例中，存储器设备1120可以作为用于系统1100的系统存储器来操作，以存储数据1122和指令1121以供在一个或多个处理器1102执行应用或进程时使用。存储器控制器中枢1116也与任选的外部图形处理器1112耦合，该任选的外部图形处理器1112可与处理器1102中的一个或多个图形处理器1108通信以执行图形和媒体操作。

在一些实施例中，ICH 1130使外围设备能够经由高速I/O总线而连接至存储器设备1120和处理器1102。I/O外围设备包括但不限于音频控制器1146、固件接口1128、无线收发器1126(例如，Wi-Fi、蓝牙)、数据存储设备1124(例如，硬盘驱动器、闪存等)、以及用于将传统(legacy)(例如，个人系统2(PS/2))设备耦合至系统的传统I/O控制器1140。一个或多个通用串行总线(USB)控制器1142连接输入设备(诸如，键盘和鼠标1144的组合)。网络控制器1134也可耦合至ICH 1130。在一些实施例中，高性能网络控制器(未示出)耦合至处理器总线1110。将会理解，所示的系统1100是示例性的而非限制性的，因为也可以使用以不同方式配置的其他类型的数据处理系统。例如，I/O控制器中枢1130可被集成在一个或多个处理器1102内，或者存储器控制器中枢1116和I/O控制器中枢1130可被集成到分立的外部图形处理器中，该分立的外部图形处理器诸如外部图形处理器1112。

图12是处理器1200的实施例的框图，该处理器1200具有一个或多个处理器核1202A至1202N、集成存储器控制器1214以及集成图形处理器1208。图12的具有与本文中的任何其他附图的元件相同的附图标记(或名称)的那些元件可以类似于本文中其他地方描述的任何方式操作或运行，但不限于此。处理器1200可以包括附加的核，这些附加的核多至由虚线框表示的附加核1202N并包括由虚线框表示的附加核1202N。处理器核1202A至1202N中的每个处理器核包括一个或多个内部高速缓存单元1204A至1204N。在一些实施例中，每个处理器核也具有对一个或多个共享高速缓存单元1206的访问权。

内部高速缓存单元1204A至1204N和共享高速缓存单元1206表示处理器1200内的高速缓存存储器层级结构。高速缓存存储器层级结构可包括每个处理器核内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享的中级高速缓存，诸如，第2级(L2)、第3级(L3)、第4级(L4)、或其他级别的高速缓存，其中，在外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元1206和1204A至1204N之间的一致性。

在一些实施例中，处理器1200还可包括一个或多个总线控制器单元的集合1216和系统代理核1210。一个或多个总线控制器单元1216管理一组外围总线，诸如一个或多个外围组件互连总线(例如，PCI、PCI Express(PCI快速))。系统代理核1210提供用于各种处理器组件的管理功能。在一些实施例中，系统代理核1210包括用于管理对各种外部存储器设备(未示出)的访问的一个或多个集成存储器控制器1214。

在一些实施例中，处理器核1202A至1202N中的一个或多个处理器核包括针对同时多线程操作的支持。在此类实施例中，系统代理核1210包括用于在多线程处理期间对核1202A至1202N进行协调和操作的组件。系统代理核1210可附加地包括功率控制单元(PCU)，该PCU包括用于调节处理器核1202A至1202N和图形处理器1208的功率状态的逻辑和组件。

在一些实施例中，处理器1200附加地包括用于执行图形处理操作的图形处理器1208。在一些实施例中，图形处理器1208与共享高速缓存单元的集合1206以及系统代理核1210耦合，该系统代理核1210包括一个或多个集成存储器控制器1214。在一些实施例中，显示控制器1211与图形处理器1208耦合，以将图形处理器输出驱动至一个或多个所耦合的显示器。在一些实施例中，显示控制器1211可以是经由至少一个互连而与图形处理器耦合的分开的模块，或者可以集成在图形处理器1208或系统代理核1210内。

在一些实施例中，基于环的互连单元1212用于耦合处理器1200的内部组件。然而，可以使用替代的互连单元，诸如，点对点互连、交换式互连、或其他技术，包括本领域中公知的技术。在一些实施例中，图形处理器1208经由I/O链路1213而与环形互连1212耦合。

示例性I/O链路1213表示各种各样的I/O互连中的至少一者，该I/O互连包括促进各种处理器组件与高性能嵌入式存储器模块1218(诸如，eDRAM(或嵌入式DRAM)模块)之间的通信的封装上I/O互连。在一些实施例中，处理器核1202A至1202N和图形处理器1208中的每一者都将嵌入式存储器模块1218用作共享的末级高速缓存。

在一些实施例中，处理器核1202A至1202N是执行相同的指令集架构的同构核。在另一实施例中，处理器核1202A至1202N就指令集架构(ISA)方面而言是异构的，其中处理器核1202A至1202N中的一个或多个执行第一指令集，而其他核中的至少一个核执行第一指令集的子集或不同的指令集。在一个实施例中，处理器核1202A至1202N就微架构方面而言是异构的，其中具有相对较高的功耗的一个或多个核与具有较低的功耗的一个或多个功率核耦合。另外，处理器1200可实现在一个或多个芯片上，或者被实现为具有除其他组件之外的所图示的组件的SoC集成电路。

图13是图形处理器1300的框图，该图形处理器1300可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器。在一些实施例中，图形处理器经由到图形处理器上的寄存器的存储器映射的I/O接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中，图形处理器1300包括用于访问存储器的存储器接口1314。存储器接口1314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享的外部高速缓存、和/或到系统存储器的接口。

在一些实施例中，图形处理器1300还包括显示控制器1302，该显示控制器1302用于将显示输出数据驱动到显示设备1320。显示控制器1302包括用于显示器的一个或多个叠加平面以及多层的视频或用户界面元素的合成的硬件。在一些实施例中，图形处理器1300包括用于将媒体编码到一种或多种媒体编码格式、从一种或多种媒体编码格式解码为媒体、或在一种或多种媒体编码格式之间对媒体转码的视频编解码器引擎1306，这一种或多种媒体编码格式包括但不限于：移动图像专家组(MPEG)格式(诸如，MPEG-2)、高级视频译码(AVC)格式(诸如，H.264/MPEG-4AVC)、以及电影和电视工程师协会(SMPTE)321M/VC-1、和联合图像专家组(JPEG)格式(诸如，JPEG、以及运动JPEG(MJPEG)格式)。

在一些实施例中，图形处理器1300包括块图像传送(BLIT)引擎1304，用于执行二维(2D)栅格化器操作，包括例如，位边界块传送。然而，在一个实施例中，使用图形处理引擎(GPE)1310的一个或多个组件执行3D图形操作。在一些实施例中，图形处理引擎1310是用于执行图形操作(包括三维(3D)图形操作和媒体操作)的计算引擎。

在一些实施例中，GPE 1310包括用于执行3D操作的3D流水线1312，3D操作诸如，使用作用于3D基元形状(例如，矩形、三角形等)的处理函数来渲染三维图像和场景。3D流水线1312包括可编程和固定功能元件，该可编程和固定功能元件执行元件内的各种任务和/或生成到3D/媒体子系统1315的执行线程。虽然3D流水线1312可用于执行媒体操作，但是GPE1310的实施例还包括媒体流水线1316，该媒体流水线1316专门用于执行媒体操作，诸如，视频后处理和图像增强。

在一些实施例中，媒体流水线1316包括固定功能或可编程逻辑单元，用于代替、或代表视频编解码器引擎1306来执行一个或多个专业的媒体操作，诸如，视频解码加速、视频去隔行、以及视频编码加速。在一些实施例中，媒体流水线1316附加地包括线程生成单元以生成用于在3D/媒体子系统1315上执行的线程。所生成的线程在3D/媒体子系统1315中所包括的一个或多个图形执行单元上执行用于媒体操作的计算。

在一些实施例中，3D/媒体子系统1315包括用于执行由3D流水线1312和媒体流水线1316生成的线程的逻辑。在一个实施例中，流水线向3D/媒体子系统1315发送线程执行请求，该3D/媒体子系统1315包括用于对于对可用的线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中，3D/媒体子系统1315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，该子系统还包括用于在线程之间共享数据并用于存储输出数据的共享存储器，其包括寄存器和可寻址存储器。

在以下描述中，陈述了众多特定细节以提供更透彻理解。然而，对于本领域的技术人员将显而易见的是，可以在没有这些特定细节中的一个或多个细节的情况下实践本文中描述的实施例。在其他实例中，未描述公知的特征以免混淆当前实施例的细节。

以下示例涉及进一步的实施例。示例1包括一种装置，该装置包括：解码电路，用于对加载指令解码，其中，加载指令包括取决于加载指令的加载操作而指示分支操作是否是针对预测的候选项的第一指示；加载地址预测器(LAP)电路，用于基于指示分支操作是针对预测的候选项的第一指示，发布对存储器的、对用于加载操作的数据的加载预取请求；计算电路，用于基于来自加载预取请求的数据来执行分支操作的结果；以及重定向电路，用于响应于分支操作的结果与针对分支的所存储的预测值之间的不匹配而传送信号以引起对与加载指令相关联的数据的转储清除。示例2包括示例1的装置，其中，依赖加载的分支表(LBT)用于存储与加载指令对应的条目，其中，LBT条目包括针对分支操作的所存储的预测值。示例3包括示例1的装置，其中，LAP电路用于响应于确定在加载地址预测中存在高置信度而预分配预取加载跟踪器(PLT)表中的PLT索引。示例4包括示例1的装置，其中，馈送器加载跟踪器(FLT)表用于存储用于加载操作的指令指针到用于分支操作的指令指针的映射。示例5包括示例4的装置，其中，在加载指令进入处理器流水线后，用于加载操作的指令指针用于与存储在FLT表中的指令指针进行比较。示例6包括示例5的装置，其中，加载指令用于响应于与存储在FLT表中的指令指针中的至少一个指令指针的匹配而利用加载值表(LVT)索引来标记。示例7包括示例1的装置，其中，加载指令与多个分支操作相关联。示例8包括示例1的装置，其中，加载指令用于响应于确定在加载操作与分支操作之间仅存在要执行的一个或多个基于单个操作数的计算而标识加载分支操作。示例9包括示例8的装置，其中，确定用于由编译器执行。示例10包括示例1的装置，其中，第一指示用于响应于确定加载操作很少在用于分支操作的分支预测被需要之前完成而指示分支操作是针对预测的候选项。示例11包括示例10的装置，其中，确定用于由编译器执行。示例12包括示例1的装置，其中，具有一个或多个处理器核的处理器包括解码电路、LAP电路、计算电路、重定向电路、以及存储器中的一个或多个。示例13包括示例12的装置，其中，处理器和存储器在单个集成电路管芯上。示例14包括示例12的装置，其中，处理器包括具有一个或多个图形处理核的图形处理单元(GPU)。示例15包括示例1的装置，其中，解码电路用于对加载指令解码以生成多个微操作、微代码进入点、或微指令。

示例16包括一种或多种非瞬态计算机可读介质，包括一条或多条指令，该一条或多条指令当在至少一个处理器上被执行时，将该至少一个处理器配置成用于执行一个或多个操作，以：在解码电路处，对加载指令解码，其中，加载指令包括取决于加载指令的加载操作而指示分支操作是否是针对预测的候选项的第一指示；在加载地址预测器(LAP)电路处，基于指示分支操作是针对预测的候选项的第一指示，发布对存储器的、对用于加载操作的数据的加载预取请求；在计算电路处，基于来自加载预取请求的数据来执行分支操作的结果；以及在重定向电路处，响应于分支操作的结果与针对分支的所存储的预测值之间的不匹配而传送信号以引起对与加载指令相关联的数据的转储清除。示例17包括示例16的一种或多种非瞬态计算机可读介质，进一步包括一条或多条指令，该一条或多条指令当在至少一个处理器上被执行时将该至少一个处理器配置成用于执行一个或多个操作以：使依赖加载的分支表(LBT)存储与加载指令对应的条目，其中，LBT条目包括针对分支操作的所存储的预测值。示例18包括示例16的一种或多种非瞬态计算机可读介质，进一步包括一条或多条指令，该一条或多条指令当在至少一个处理器上被执行时将该至少一个处理器配置成用于执行一个或多个操作以：使LAP电路响应于确定在加载地址预测中存在高置信度而预分配预取加载跟踪器(PLT)表中的PLT索引。示例19包括示例16的一种或多种非瞬态计算机可读介质，进一步包括一条或多条指令，该一条或多条指令当在至少一个处理器上被执行时将该至少一个处理器配置成用于执行一个或多个操作以：使馈送器加载跟踪器(FLT)表存储用于加载操作的指令指针到用于分支操作的指令指针的映射。示例20包括示例16的一种或多种非瞬态计算机可读介质，其中，第一指示用于响应于确定加载操作很少在用于分支操作的分支预测被需要之前完成而指示分支操作是针对预测的候选项。

示例21包括一种方法，该方法包括：在解码电路处，对加载指令解码，其中，加载指令包括取决于加载指令的加载操作而指示分支操作是否是针对预测的候选项的第一指示；在加载地址预测器(LAP)电路处，基于指示分支操作是针对预测的候选项的第一指示，发布对存储器的、对用于加载操作的数据的加载预取请求；在计算电路处，基于来自加载预取请求的数据来执行分支操作的结果；以及在重定向电路处，响应于分支操作的结果与针对分支的所存储的预测值之间的不匹配而传送信号以引起对与加载指令相关联的数据的转储清除。示例22包括示例21的方法，进一步包括：使依赖加载的分支表(LBT)存储与加载指令对应的条目，其中，LBT条目包括针对分支操作的所存储的预测值。示例23包括示例21的方法，进一步包括：使LAP电路响应于确定在加载地址预测中存在高置信度而预分配预取加载跟踪器(PLT)表中的PLT索引。示例24包括示例21的方法，进一步包括：使馈送器加载跟踪器(FLT)表存储用于加载操作的指令指针到用于分支操作的指令指针的映射。示例25包括示例21的方法，其中，第一指示用于响应于确定加载操作很少在用于分支操作的分支预测被需要之前完成而指示分支操作是针对预测的候选项。

示例26包括一种设备，该设备包括用于执行如任何在前示例中阐述的方法的装置。示例27包括一种机器可读存储，包括机器可读指令，该机器可读指令当被执行时，用于实现任何在前示例中所阐述的方法或实现任何在前示例中所阐述的装置。

在各实施例中，参考图1及以下各图所讨论的一个或多个操作可由参考附图中的任何附图所讨论的一个或多个组件(在本文中可互换地被称为“逻辑”)执行。

在各实施例中，本文中(例如，参考图1及以下各图)所讨论的操作可实现为硬件(例如，逻辑电路)、软件、固件、或其组合，其可被作为计算机程序产品提供，例如，包括一种或多种有形的(例如，非瞬态的)机器可读或计算机可读介质，其上存储有指令(或软件程序)，这些指令(或软件程序)用于对计算机编程以执行本文中所讨论的过程。机器可读介质可包括诸如参考附图所讨论的那些存储设备之类的存储设备。

另外，此类计算机可读介质可作为计算机程序产品来下载，其中该程序可作为在载波或其他传播介质中提供的数据信号经由通信链路(例如，总线、调制解调器或网络连接)从远程计算机(例如，服务器)传输到作出请求的计算机(例如，客户端)。

在本说明书中对“一个实施例”或“实施例”的引用意指结合该实施例描述的特定特征、结构和/或特性可被包括在至少一个实现方式中。在本说明书各处出现的短语“在一个实施例中”可以或可以不全指代同一实施例。

并且，在说明书和权利要求书中，可使用术语“耦合的”和“连接的”以及它们的派生词。在一些实施例中，可以使用“连接的”来表示两个或更多个元件彼此直接物理或电气接触。“耦合的”可意指两个或更多个元件直接物理或电气接触。然而，“耦合的”还可意指两个或更多个元件彼此可不直接接触，但仍可彼此相互配合或相互作用。

因此，尽管已经用对结构特征和/或方法动作专用的语言描述了各实施例，但可以理解，所要求保护的主题可以不限于所描述的特定特征或动作。相反，特定特征和动作作为实现要求保护的主题的样本形式被公开。

Claims

1.一种用于提供早期流水线重定向的装置，所述装置包括：

解码电路，用于对加载指令解码，其中，所述加载指令包括取决于所述加载指令的加载操作而指示分支操作是否是针对预测的候选项的第一指示；

加载地址预测器LAP电路，用于基于指示所述分支操作是针对预测的候选项的所述第一指示，发布对存储器的、对用于所述加载操作的数据的加载预取请求；

计算电路，用于基于来自所述加载预取请求的数据来执行所述分支操作的结果；以及

重定向电路，用于响应于所述分支操作的所述结果与针对所述分支的所存储的预测值之间的不匹配而传送信号以引起对与所述加载指令相关联的数据的转储清除。

2.如权利要求1所述的装置，其中，依赖加载的分支表LBT用于存储与所述加载指令对应的条目，其中，所述LBT条目包括针对所述分支操作的所述所存储的预测值。

3.如权利要求1或2所述的装置，其中，所述LAP电路用于响应于确定在加载地址预测中存在高置信度而预分配预取加载跟踪器PLT表中的PLT索引。

4.如权利要求1-3中任一项所述的装置，其中，馈送器加载跟踪器FLT表用于存储用于所述加载操作的指令指针到用于所述分支操作的指令指针的映射。

5.如权利要求1-4中任一项所述的装置，其中，在所述加载指令进入处理器流水线后，用于所述加载操作的指令指针用于与存储在所述FLT表中的指令指针进行比较。

6.如权利要求1-5中任一项所述的装置，其中，所述加载指令用于响应于与存储在所述FLT表中的指令指针中的至少一个指令指针的匹配而利用加载值表LVT索引来标记。

7.如权利要求1-6中任一项所述的装置，其中，所述加载指令与多个分支操作相关联。

8.如权利要求1-7中任一项所述的装置，其中，所述加载指令用于响应于确定在所述加载操作与所述分支操作之间仅存在要执行的一个或多个基于单个操作数的计算而标识所述加载分支操作。

9.如权利要求1-8中任一项所述的装置，其中，确定用于由编译器执行。

10.如权利要求1-9中任一项所述的装置，其中，所述第一指示用于响应于确定所述加载操作很少在用于所述分支操作的分支预测被需要之前完成而指示所述分支操作是针对预测的候选项。

11.如权利要求1-10中任一项所述的装置，其中，确定用于由编译器执行。

12.如权利要求1-11中任一项所述的装置，其中，具有一个或多个处理器核的处理器包括所述解码电路、所述LAP电路、所述计算电路、所述重定向电路、以及所述存储器中的一个或多个。

13.如权利要求1-12中任一项所述的装置，其中，所述处理器和所述存储器在单个集成电路管芯上。

14.如权利要求1-13中任一项所述的装置，其中，所述处理器包括具有一个或多个图形处理核的图形处理单元GPU。

15.如权利要求1-14中任一项所述的装置，其中，所述解码电路用于对所述加载指令解码以生成多个微操作、微代码进入点、或微指令。

16.一种用于提供早期流水线重定向的方法，所述方法包括：

在解码电路处，对加载指令解码，其中，所述加载指令包括取决于所述加载指令的加载操作而指示分支操作是否是针对预测的候选项的第一指示；

在加载地址预测器LAP电路处，基于指示所述分支操作是针对预测的候选项的所述第一指示，发布对存储器的、对用于所述加载操作的数据的加载预取请求；

在计算电路处，基于来自所述加载预取请求的数据来执行所述分支操作的结果；以及

在重定向电路处，响应于所述分支操作的所述结果与针对所述分支的所存储的预测值之间的不匹配而传送信号以引起对与所述加载指令相关联的数据的转储清除。

17.如权利要求16所述的方法，进一步包括：使依赖加载的分支表LBT存储与所述加载指令对应的条目，其中，所述LBT条目包括针对所述分支操作的所述所存储的预测值。

18.如权利要求16或17所述的方法，进一步包括：使所述LAP电路响应于确定在加载地址预测中存在高置信度而预分配预取加载跟踪器PLT表中的PLT索引。

19.如权利要求16-18中任一项所述的方法，进一步包括：使馈送器加载跟踪器FLT表存储用于所述加载操作的指令指针到用于所述分支操作的指令指针的映射。

20.如权利要求16-19中任一项所述的方法，其中，所述第一指示用于响应于确定所述加载操作很少在用于所述分支操作的分支预测被需要之前完成而指示所述分支操作是针对预测的候选项。

21.一种机器可读介质，包括代码，所述代码在被执行时使机器执行如权利要求16至20中任一项所述的方法。

22.一种设备，包括用于执行如权利要求16至20中任一项所述的方法的装置。