CN112130970A

CN112130970A - 用于双存储器原子操作的硬件支持

Info

Publication number: CN112130970A
Application number: CN202010223756.8A
Authority: CN
Inventors: R.鲍洛夫斯基; J.B.弗里曼; V.卡夫; E.M.施瓦茨; I.B.加内夫; J.M.郝华德; A.摩尔; S.史密斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-06-24
Filing date: 2020-03-26
Publication date: 2020-12-25
Also published as: EP3757774A1; US20200401412A1

Abstract

公开的实施例涉及对于双存储器原子操作的硬件支持。在一个示例中，处理器包括多个核，每个核包括：多个多线程流水线(MTP)，每个MTP与存储器相关联；原子单元(ATMU)，用于执行原子操作；以及写组合缓冲器(WCB)，用于管理对关联的存储器中的高速缓存行的访问和锁定，每个MTP包括提取和解码级以提取和解码指令，所述指令具有用来指定第一和第二存储器位置以及操作码(其调用第一MTP来向所述多个MTP中的第二MTP发送请求)的字段，所述第二MTP与所述第一存储器位置所映射到的存储器相关联且用来使用其关联的ATMU和WCB在所述第一和第二存储器位置上执行原子双存储器操作以执行所述请求。

Description

用于双存储器原子操作的硬件支持

技术领域

该发明领域一般涉及计算机处理器架构，并且更具体地，涉及对双存储器原子操作（dual-memory atomic operations）的新颖硬件支持。

背景技术

在当今的应用前景中，越来越普遍的是需要同时原子地对两个存储器位置进行操作的软件用例。

例如，一些应用需要存储数据(值或指针)以及用于存储相关联的时间戳、状态、标识符或计数的相应元数据。

作为另一个示例，许多图工作负荷包含这样的用例，其中数据元素和作为第二元素被保持在存储器中的附加"描述符"需要被原子地联合修改。例如，在单最短源路径(SSSP)算法中，顶点具有距离和前趋。线程一次一个地处理顶点，并根据以下规则来尝试更新顶点的邻居的距离和前趋：如果当前顶点v1的距离加上连接到另一顶点v2的边的权重小于顶点v2的当前距离，则需要更新距离和前趋值二者。重要的是注意到，一次只有单个线程可以写距离和前趋值，否则可能记录错误的路径。

为了原子地读或写两个存储器位置，传统方法使用第三存储器位置来实现锁定方案。这种细粒度锁定通常是昂贵的。首先，在无竞争的情况下，取和释放锁的开销对于要在临界区中执行的操作可能是禁止的。其次，软件必须实现用于当已经采取锁定时的策略，这通过忙等待或使用回调机制来进行，在性能与存储器或能量消耗之间进行折中。

附图说明

本发明通过示例的方式进行说明，并且不限于附图中的图，附图中相同的附图标记表示相似的元件，并且附图中：

图1是示出根据一些实施例的用于执行指令的处理组件的框图；

图2是示出根据一些实施例的用于执行双存储器原子指令的多核多线程(MCMT)处理器的框图；

图3是示出根据一些实施例的多核多线程(MCMT)处理器的核的框图；

图4是示出根据一些实施例的由多核多线程(MCMT)处理器执行以执行双存储器操作的过程的方框流程图；

图5是示出根据一实施例多核多线程(MCMT)处理器如何执行dual.XCXA指令的方框流程图；

图6是示出根据一实施例多核多线程(MCMT)处理器如何执行dual.CXXI指令的方框流程图；

图7是根据一些实施例的远程双存储器指令的格式；

图8A-8B是示出根据本发明的一些实施例的通用向量友好指令格式及其指令模板的框图；

图8A是示出根据本发明的一些实施例的通用向量友好指令格式及其A类指令模板的框图；

图8B是示出根据本发明的一些实施例的通用向量友好指令格式及其B类指令模板的框图；

图9A是示出根据本发明的一些实施例的示例性特定向量友好指令格式的框图；

图9B是示出根据一个实施例的构成完整操作码字段的特定向量友好指令格式的字段的框图；

图9C是示出根据一个实施例的构成寄存器索引字段的特定向量友好指令格式的字段的框图；

图9D是示出根据一个实施例的构成扩增操作字段的特定向量友好指令格式的字段的框图；

图10是根据一个实施例的寄存器架构的框图；

图11A是示出根据一些实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线两者的框图；

图11B是示出根据一些实施例的要被包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、乱序发布/执行架构核两者的框图；

图12A-B示出了更具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)之一；

图12A是根据一些实施例的单个处理器核及其到管芯上互连网络的连接以及其2级(L2)高速缓存的本地子集的框图；

图12B是根据一些实施例的图12A中的处理器核的一部分的展开图；

图13是根据一些实施例的可以具有多于一个核、可以具有集成存储器控制器并且可以具有集成图形的处理器的框图；

图14-17是示例性计算机架构的框图；

图14示出了根据一些实施例的系统的框图；

图15是根据一些实施例的第一更具体的示例性系统的框图；

图16是根据一些实施例的第二更具体的示例性系统的框图；

图17是根据一些实施例的片上系统(SoC)的框图；以及

图18是根据一些实施例对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

在以下描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践一些实施例。在其它实例中，没有详细示出公知的电路、结构和技术，以免混淆对本描述的理解。

说明书中对"一个实施例"、"一实施例""一示例性实施例"等的引用表示所描述的实施例可以包括特征、结构或特性，但是每个实施例可以不一定包括该特征、结构或特性。此外，这些短语不一定是指相同的实施例。此外，当关于一实施例来描述特征、结构或特性时，认为关于其它实施例（如果明确描述的话）来实现此类特征、结构或特性在本领域技术人员的知识范围内。

本文公开了为双存储器原子操作提供硬件支持的多核多线程(MCMT)处理器的实施例。这些操作通过ISA是可见的，并且包括范围从简单地原子地修改两个位置到仅在第一位置上的给定条件(比较、反向比较、最小、最大)上执行第二位置产生真实结果的变化。

如上所述，替代的、较低级的方法通过使用第三存储器位置来实现锁定方案，从而支持对两个存储器位置的原子操作。但是这种细颗粒锁定通常是昂贵和复杂的。首先，在无竞争的情况下，取和释放锁定的开销对于要执行的操作可能是禁止的。其次，软件必须实现用于当已经采取锁定时的策略，这通过忙等待或使用回调机制来进行，在性能与存储器或能量消耗之间进行折中。

相反，所公开的多核多线程(MCMT)处理器提供硬件支持的双存储器原子操作。所公开的MCMT处理器的双存储器操作取代用于需要立即原子地更新两个存储器位置的算法的常规细粒度锁定是理想的。公开的MCMT处理器所提供的双存储器操作在空间和时间方面均有益：不需要为锁定数据结构分配额外的空间，因为调用单个指令而不是传统的"锁定、进行原子工作、解锁"，并且硬件自然地将冲突的访问串行化。

如下文将描述的，所公开的多核多线程(MCMT)处理器在每一存储器接口处使用原子单元(ATMU)和写组合缓冲器(WCB)来支持远程原子操作。ATMU包含执行操作的执行电路，并且WCB管理锁定请求以允许操作被原子地执行。

如下文将进一步描述的，所公开的MCMT处理器包含多个指令管线以获取、解码和执行指令，从而将任何所得原子请求发送到与第一存储器操作数所映射到的存储器相关联且安置在所述存储器附近的ATMU。流水线可以访问存储器中的逻辑或物理地址范围的存储器映射，以确定哪个套接字中的哪个存储器被映射到数据。

下面还列出了由所公开的MCMT处理器支持的几个双存储器远程原子操作。指令被分组成若干功能组。第一组双存储器原子操作涉及在所述两个存储器位置上执行读和/或写的组合。第二指令集实现在第一地址上的原子交换(XC)，而在第二地址上执行五个不同操作之一。第三组指令在第一地址上实现原子比较交换(CXC)，而在第二地址上执行五个不同操作之一。第四组指令在第一地址上实施最小或最大操作，且仅在最小/最大比较产生真实结果的情况下才履行全操作。

图1是示出根据一些实施例的用于执行双存储器远程原子指令的处理组件的框图。如图所示，存储装置101存储要执行的(一个或多个)指令103。

在操作中，提取电路105从存储装置101提取(一个或多个)指令。所提取的指令107由解码电路109解码。关于图7、8A-B和9A-D进一步示出和描述的指令格式具有指定第一、第二和目的地向量的位置的字段(这里未示出)。解码电路109将所提取的指令107解码成一个或多个操作。在一些实施例中，该解码包括生成要由执行电路(诸如执行电路117)执行的多个微操作。解码电路109还解码指令后缀和前缀(如果使用的话)。

在一些实施例中，寄存器重命名、寄存器分配和/或调度电路113提供用于以下各项中的一项或多项的功能性：1)将逻辑操作数值重命名为物理操作数值(例如，在一些实施例中的寄存器别名表)，2)将状态位和标志分配给解码的指令，以及3)调度解码的指令111以在执行电路117上执行。

寄存器(寄存器堆)和/或存储器115存储数据作为将由执行电路117操作的解码指令111的操作数。下面至少参照图2-6、11A-B和12A-B进一步描述和说明执行电路117。

示例性寄存器类型包括写屏蔽寄存器、打包数据寄存器、通用寄存器和浮点寄存器（正如关于图10进一步描述和示出的）。

在一些实施例中，写回电路119提交解码指令111的执行的结果。执行电路117和系统100进一步参照图2-6、11A-B和12A-B被示出和描述。

图2是示出根据一些实施例的用于执行指令的多核多线程(MCMT)处理器的框图。如图所示，MCMT处理器200包括八个核(204、206、208、210、212、214、216和218，其中一个核被扩展并被示为扩展核222，其包括多线程流水线(MTP)224、226和228.在一个实施例中，每个核包括同时执行十六个线程的四个多线程流水线，以及两个单线程流水线。在一些实施例中，如这里所述，每个流水线耦合到存储器(例如便笺式存储器)和高速缓存标签并与它们相关联，如果存储器包括高速缓存，则要使用这些高速缓存标签。核222还包括核影子标签230，其与管芯影子标签220一起支持分层高速缓存一致性协议。

在操作中，MCMT处理器200通过以下操作来操作：由所述多个MTP中的第一MTP提取远程双存储器原子指令，由所述第一MTP解码所述指令，所述指令具有指定操作码以及第一和第二存储器位置的字段，所述操作码要求所述第一MTP向所述多个MTP中的第二MTP发送请求，所述第二MTP在所述第一和第二存储器位置上执行原子双存储器操作，所述第二MTP与所述第一存储器位置所映射到的存储器相关联，由所述第一MTP执行所述指令以向所述第二MTP发送所述请求，以及由所述第二MTP使用其相关联的ATMU和WCB来执行所述请求。

在所公开的MCMT处理器中的远程原子

图3是示出根据一些实施例的多核多线程(MCMT)处理器的核的框图。如图所示，系统300包括三个核302、304和306。核302包括OPENG306、原子单元(ATMU) 314、QENG310、写组合缓冲器(WCB) 312和网络接口304。类似地，核322包括OPENG326、原子单元(ATMU) 330、QENG332、写组合缓冲器(WCB) 334和网络接口324。类似地，核342包括OPENG346、原子单元(ATMU) 350、QENG 352、写组合缓冲器(WCB) 354和网络接口344。

所公开的多核多线程(MCMT)处理器通过在平台中的每个存储器块的每个端口附近包括原子单元(ATMU)来支持远程原子操作。单个MCMT处理器核具有两个1MB的便签式存储器块，以及具有2GB的DDR存储器的本地封装内存储器(IPM)通道。图3示出了每个便笺式存储器和IPM端口处的接口。所有的存储器接口包括：

• ATMU，其包含ALU/FPU，并且支持包括最小/最大、加、位操作、递增/递减、交换和比较-交换的功能。

• 写组合缓冲器(WCB)，其以8B粒度管理来自ATMU的线锁定请求，并且允许多个并发锁定的存储器线。所有存储器请求都经过支持8B和64B请求的WCB。

图3中所示的其它单元在该IDF的范围之外。这些包括MCMT处理器双操作引擎(OPENG)、集体引擎(CENG)和队列管理引擎(QENG)。

原子指令由MCMT处理器流水线执行，其处理任何寄存器依赖性并在本地跟踪指令的状态(完成/未完成/发生错误)。指令作为一个或两个微片分组(取决于指令类型)跨MCMT处理器网络被发送到位于目的地存储器的接口处的ATMU。在那里它们被ATMU解码，ATMU向WCB作出读+锁定请求、使用其ALU/FPU执行操作、并在结束时向WCB发送写+解锁请求。

双存储器原子操作

所公开的MCMT处理器通过引入对双存储器原子操作的ISA支持，而在其对单存储器位置原子操作(即，读一个位置、执行op、写回到该位置)的支持上进行扩展。这些操作采用两个数据元素(每个高达8B)并对这两个数据元素执行读、写或算术操作的某种组合。以下部分将描述这些指令，将类似类型和方法的操作组合在一起。由于跨存储器通道的地址条带化，所述MCMT处理器要求将所述第二存储器位置保持在所述第一地址的相同64B高速缓存行内。发出必须同时锁定系统的分立端上的两个存储器位置的原子操作将不可避免地产生死锁问题。通过将两个地址限制在相同的64B行内，确保了它们都在相同的IPM信道中，从而容易由单组ATMU和WCB硬件单元管理。为了实现这一点，每个指令包括6位立即数(imm6)字段，当与第一地址位置的高58位(在所有指令中为r3)级联时，该字段产生第二位置的完整地址。便利地，不必提供完整的64位地址减轻了更复杂的双存储器原子的寄存器压力。

双存储器原子操作：读/写组合

第一组双存储器原子操作涉及在所述两个存储器位置上执行读和/或写的组合。指令中列出的操作的顺序对应于所述操作将在其上被执行的存储器位置。对于所有指令，r3是第一位置的64位目标存储器地址。另外，为每个地址提供单独的数据大小字段(1、2、4或8个字节)。

为了确保所述两个位置被原子地读和写(即，不被视为单独的请求)，ATMU发送所述两个地址，对每个地址执行哪个op (读或写)、期望的每个数据元素的大小、以及数据(如果需要的话)。这个操作不会导致这些存储器行被锁定，因为它们仅仅是读/写。可能出现所述两个地址中的一个(或两个)已经被先前的请求锁定的情况，在这种情况下，WCB将拒绝该请求，并强制ATMU重试，直到两个地址都没有被锁定为止。

双存储器原子操作：交换 + 操作码

第二指令集在第一地址上实现原子交换(XC)，而在第二地址上执行五个不同操作中的一个操作。这些是：读(R)、写(W)、原子加(XA)、原子递增/递减(XI)和原子交换(XC)。这些指令、它们的汇编语言形式和描述如表2中所示。

第一地址上的无条件交换对于所有指令具有相同的要求。即，mem[r3]的值总是与r2中提供的值交换。为了支持在第二地址上的原子相加和递增/递减操作，在指令中包括附加输入。对于相加，附加寄存器(r4)包括用于原子地加到保持在存储器中的值的值。递增/递减包括在递增或递减保持在第二存储器位置的值之间进行选择的选项(INCDEC)。"SIZE"和"SIZE2"选项是小的立即数，用于指定针对在例如4字节“int”相比8字节“unsignedlong”等上操作的所述两个存储器位置的存储器访问宽度。"T2"选项选择第二地址的数据的类型(浮点的int)，并且"RVAL"选项设置是否应该将保持在第二位置中的先前值返回到寄存器r1。

在所述两个地址上执行的不同原子操作的性质要求硬件ATMU的执行流，该执行流对于仅涉及读和/或写的双存储器操作是不同的。

图4是示出根据一些实施例的由多核多线程(MCMT)处理器执行以执行双存储器原子操作的过程的方框流程图。例如，MCMT处理器,诸如图1-3中所示的MCMT处理器,将执行双存储器原子指令401，其具有指定操作码402、第一存储器位置404和第二存储器位置406的字段。

在操作410处，MCMT处理器将初始化包括多个核的处理器，多个核中的每个核包括多个多线程流水线(MTP)，每个MTP与存储器相关联，每个存储器与原子单元(ATMU)相关联以执行原子操作，并且写组合缓冲器(WCB)管理对相关联的存储器中的高速缓存行的写和对高速缓存行的锁定。

在操作415，MCMT处理器将使用多个MTP中的第一MTP(多线程流水线)的提取级来提取指令。

在操作420，MCMT处理器将通过第一MTP解码指令，该指令具有指定操作码以及第一和第二存储器位置的字段，操作码调用第一MTP来向第二MTP发送请求以在第一和第二存储器位置上执行原子双存储器操作，第二MTP与第一存储器位置所映射到的存储器相关联。

在一些实施例中，在操作425，MCMT处理器将调度经解码的指令的执行。操作425是可选的（正如其虚线框所示的），就此而言，因为该操作可以在不同的时间发生，或者根本不发生。

在操作430处，MCMT处理器将通过第一MTP执行该指令以向第二MTP发送请求。

在操作435，MCMT处理器将通过第二MTP使用其关联的ATMU和WCB来执行该请求。

在一些实施例中，在操作440处，MCMT处理器写回并提交所执行的指令。操作440是可选的（正如其虚线框所示的），就此而言，因为它可以在不同的时间发生，或者根本不发生。在一些实施例中，在提交指令之前，MCMT处理器等待来自第二MTP的确认。换句话说，第一流水线在其清除本地队列槽并隐退指令之前等待来自与第二MTP相关联的ATMU的确认。

图5是示出根据一实施例多核多线程(MCMT)处理器如何执行dual.XCXA指令的方框流程图。如图所示，流程500开始于操作502，此时ATMU接收到远程双存储器原子指令(dual.XCXA)。流程500示出了以与表2中描述其操作的伪代码一致的方式对dual.XCXA指令的执行。dual.XCXA指令具有指定r1、r2、r3、r4、imm6、SIZE、SIZE2、T2和RVAL的字段。在504，ATMU向WCB发送针对两个地址的读+锁定请求。

注意，在该实施例中，第一和第二被寻址位置落入同一高速缓存行，因此它们都在同一存储器中，并且由同一WCB服务。在一些实施例中，例如，如表2的伪代码中所示，第一和第二存储器位置的位[63:6]相同，并且6位立即数用于指定第二存储器位置。

在506，如果任一地址被锁定，则拒绝该请求，并且ATMU将重试该请求，直到两个地址都空闲为止。一旦成功地授予了锁定，则ATMU在508接收两个数据元素(来自mem[b]的B，来自mem[a]的A)。在510处，将A保持在ATMU中，同时在操作512处对来自第二存储器位置(B)的数据和寄存器输入r4执行相加。一旦完成这个，在514，将相加的结果写回到mem[b]，并且将寄存器r2写回到mem[a](以完成交换)。这些请求作为写+解锁被发送，指示操作的结束并释放地址。在操作516，检查返回值，并且如果其等于一，则在520将B发送到r1。否则，按照操作518，B不被返回。在操作522，A被发送到r2。

双存储器原子操作：比较交换+操作码

第三指令集在第一地址上实现原子比较交换(XC)，同时这里支持与为先前指令集提供的五个操作相同的五个操作。第一地址上的比较交换要求额外操作数(r4)被包括在所有指令中，其用作来与第一地址中的当前内容进行比较的值。否则，汇编形式参数保持与来自表2的指令一致。dual.XCXC，也称为"双重比较和交换(CAS)"，是更进一步的扩展，因为它要求对于数据要被交换的两个存储器地址(r4== mem[a] && r5== mem[b])的成功比较。

基于比较-交换的指令、它们的汇编语言形式和描述在表3中示出。MCMT处理器还使用第一地址上的反向比较-交换来实现表3中的指令集。那些指令已经从表中省略以保持简明。

在操作时实现原子比较交换为指令集的整体功能增加了新的方向。比较操作的结果将不仅确定是否将存在第一地址的内容与r2中的值的交换，而且它还将确定是否将执行第二地址上的操作。

图6是示出根据一实施例多核多线程(MCMT)处理器如何执行dual.CXXI指令的方框流程图。流程图600示出了dual.CXXI指令将如何由ATMU执行，并且与表3中dual.CXXI指令的伪代码描述一致。如表3中所示，dual.CXXI指令具有指定以下操作数的字段：r1、r2、r3、r4、imm6、SIZE、SIZE2、T2、RVAL和INCDEC。在操作604，处理器发送请求以读由指令指定的第一和第二存储器位置。在操作606，处理器检查锁定是否成功，且如果不成功，则返回到操作604以再次尝试，直到锁定成功为止。注意，如上文关于图5所提及的，此实施例中的第一和第二被寻址位置落入同一高速缓存行中，因此它们均在同一存储器中且由同一WCB服务。当在操作608处从mem[a] (A)和mem[b] (B)接收到所述两个数据值之后，将在操作610对数据A和r4执行比较操作。如果比较失败，则在操作614，将会把先前保持在mem[a]中的值返回到流水线，并且操作将结束于操作618。然而，如果比较成功，则如在操作620处所期望的那样执行全操作，其中针对第一地址发生交换并且在第二地址上执行原子添加(该添加已在操作616处发生)。在操作622，检查返回值，并且如果它等于一，则在626将B发送到r1。否则，按照操作624，B不被返回。在操作628，A被发送到r2。

双存储器原子操作：最小/最大 + 操作数

第四组指令在第一地址上实现最小或最大操作，并且仅在最小/最大比较产生真结果时才履行全操作。在表4中列出了dual.min*指令。对于dual.max*定向存在相同的操作集。那些指令已经从表中省略以保持简明。

图6是示出根据一实施例多核多线程(MCMT)处理器如何执行dual.CXXI指令的方框流程图。如图所示，流程图600示出了dual.CXXI指令将如何由ATMU执行。在从mem[a] (A)和mem[b] (B)接收到所述两个数据值之后，将对数据A和r4执行比较操作。如果比较失败，则将把先前保持在mem[a]中的值返回到流水线，并且操作将结束。然而，如果比较成功，则如所期望的那样执行全操作，其中针对第一地址发生交换，并且在第二地址上执行原子添加。

图7是根据一些实施例的双存储器操作指令的格式。如图所示，远程双存储器原子指令700具有指定操作码702、第一存储器位置704和第二存储器位置706的字段。在一些实施例中，指令700包括附加字段，用于指定要作为远程原子操作的一部分执行的操作(OP)708。在一些实施例中，操作被指定为操作码602的前缀或后缀。在一些实施例中，指令700还包括第三操作数710，其可以指定另一存储器位置或寄存器位置。

指令集

指令集可以包括一个或多个指令格式。给定的指令格式可以定义各种字段（例如，位的数量、位的位置），尤其是以指定要执行的操作（例如，操作码）和要对其执行该操作的（一个或多个）操作数和/或（一个或多个）其他数据字段（例如，掩码）。一些指令格式通过指令模板（或子格式）的定义被进一步分解。例如，给定指令格式的指令模板可以被定义为具有指令格式的字段的不同子集（所包括的字段通常采用相同的顺序，但是至少一些字段具有不同的位位置，因为包括较少的字段）和/或被定义为具有不同地解释的给定字段。因此，ISA的每个指令使用给定的指令格式（并且如果定义的话，在该指令格式的指令模板中的给定的一个中）来表达，并且包括用于指定操作和操作数的字段。例如，示例性ADD指令具有特定的操作码和指令格式，该指令格式包括指定该操作码的操作码字段和选择操作数的操作数字段（源1/目的地和源2）；并且在指令流中出现这个ADD指令将在选择特定操作数的操作数字段中具有特定内容。被称为高级向量扩展（AVX）（AVX1和AVX2）并使用向量扩展（VEX）编码方案的SIMD扩展集已经被发布和/或公布（例如，参见2014年9月的Intel®64和IA-32架构软件开发者手册；并参见2014年十月的Intel®先进向量扩展编程参考）。

示例性指令格式

本文描述的（一个或多个）指令的实施例可按照不同的格式体现。此外，在下面详细描述了示例性系统、架构和流水线。（一个或多个）指令的实施例可在此类系统、架构和流水线上执行，但不限于详细描述的那些。

通用向量友好指令格式

向量友好指令格式是适合于向量指令的指令格式（例如，存在向量操作特定的某些字段）。虽然描述向量和标量操作均通过向量友好指令格式来支持的实施例，但是备选实施例仅使用向量友好指令格式的向量操作。

图8A-8B是示出根据本发明的一些实施例的通用向量友好指令格式及其指令模板的框图。图8A是示出根据本发明的一些实施例的通用向量友好指令格式及其A类指令模板的框图；而图8B是示出根据本发明的一些实施例的通用向量友好指令格式及其B类指令模板的框图。具体来说，为通用向量友好指令格式800而定义了A类和B类指令模板，其均包括无存储器存取805指令模板和存储器存取820指令模板。向量友好指令格式的上下文中的术语“通用”表示指令格式没有被绑定到任何特定指令集。

虽然将描述本发明的其中向量友好指令格式支持如下方面的实施例：具有32位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）（并且因此64字节向量由16个双字大小元素或者备选地8个四字大小元素组成）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节向量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节向量操作数长度（或大小）；但是备选实施例可支持更多、更少和/或具有更多、更少或不同数据元素宽度（例如128位（16字节）数据元素宽度）的不同向量操作数大小（例如256字节向量操作数）。

图8A中的A类指令模板包括：1）在无存储器存取805指令模板内，示出无存储器存取、全舍入（full round）控制类型操作810指令模板和无存储器存取、数据变换类型操作815指令模板；以及2）在存储器存取820指令模板内，示出存储器存取、时间825指令模板和存储器存取、非时间830指令模板。图8B中的B类指令模板包括：1）在无存储器存取805指令模板内，示出无存储器存取、写掩码控制、部分舍入控制类型操作812指令模板和无存储器存取、写掩码控制、vsize类型操作817指令模板；以及2）在存储器存取820指令模板内，示出存储器存取、写掩码控制827指令模板。

通用向量友好指令格式800包括以下按照图8A-8B所示顺序列出的下列字段。

格式字段840——这个字段中的特定值（指令格式标识符值）唯一地标识向量友好指令格式，并且因而标识指令流中按照向量友好指令格式的指令的出现。因此，在不是仅具有通用向量友好指令格式的指令集所需的意义上，这个字段是可选的。

基本操作字段842——其内容区分不同的基本操作。

寄存器索引字段844——其内容直接地或者通过地址生成来指定源和目的地操作数的位置（如果它们在寄存器中或者在存储器中的话）。这些包括充分位数，以便从P×Q（例如32×512、16×128、32×1024、64×1024）寄存器堆中选择N个寄存器。虽然在一个实施例中，N可多达三个源和一个目的地寄存器，但是备选实施例可支持更多或更少的源和目的地寄存器（例如，可支持多达两个源（其中这些源之一还充当目的地），可支持多达三个源（其中这些源之一还充当目的地），可支持多达两个源和一个目的地）。

修改符（modifier）字段846——其内容区分按照通用向量指令格式的指令的出现，其指定来自不是存储器存取的指令模板的存储器存取；即，在无存储器存取805指令模板与存储器存取820指令模板之间。存储器存取操作对存储器分级结构进行读和/或写（在一些情况下，使用寄存器中的值来指定源和/或目的地地址），而非存储器存取操作则不是这样（例如源和目的地是寄存器）。虽然在一个实施例中，这个字段也在执行存储器地址计算的三种不同方式之间进行选择，但是备选实施例可支持执行存储器地址计算的更多、更少或不同的方式。

扩增操作字段850——其内容区分除了基本操作之外各种不同操作中的哪一个还要被执行。这个字段是上下文特定的。在一些实施例中，这个字段分为类字段868、α字段852和β字段854。扩增操作字段850允许操作的共同群组在单个指令中而不是2、3或4个指令中执行。

定标（scale）字段860——其内容虑及用于存储器地址生成（例如，用于使用2^定标 *索引 + 基的地址生成）的索引字段的内容的定标。

位移字段862A——其内容用作存储器地址生成的一部分（例如用于使用2^定标 * 索引 + 基 + 位移的地址生成）。

位移因数字段862B（注意，直接在位移因数字段862B之上的位移字段862A的并置指示使用一个或另一个）——其内容用作地址生成的一部分；它指定通过存储器存取的大小（N）来定标的位移因数—其中N是存储器存取中的字节数（例如，用于使用2^定标 * 索引 +基 + 定标的位移的地址生成）。忽略冗余低阶位，并且因此位移因数字段的内容与存储器操作数总大小（N）相乘，以便生成计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于全操作码字段874（本文稍后所述）和数据操纵字段854C来确定。在位移字段862A和位移因数字段862B没有用于无存储器存取805指令模板和/或不同实施例可以仅实现这两个字段中的一个或没有实现这两个字段的意义上，位移字段862A和位移因数字段862B是可选的。

数据元素宽度字段864——其内容区分要使用多个数据元素宽度中的哪一个（在一些实施例中针对全部指令；在其他实施例中仅针对指令中的一些）。在仅支持一个数据元素宽度和/或数据元素宽度使用操作码的某个方面来支持的情况下不需要这个字段的意义上，这个字段是可选的。

写掩码字段870——其内容在每数据元素位置基础上控制目的地向量操作数中的那个数据元素位置是否反映基本操作和扩增操作的结果。A类指令模板支持合并-写掩码，而B类指令模板支持合并-和归零-写掩码。当合并时，向量掩码允许目的地中的元素的任何集合在任何操作的执行期间被保护以免更新（这通过基本操作和扩增操作来指定）；在另一个实施例中，保存目的地的每个元素的旧值，其中对应掩码位具有0。相比之下，当归零时，向量掩码允许目的地中的元素的任何集合在任何操作的执行期间被归零（这通过基本操作和扩增操作来指定）；在一个实施例中，当对应掩码位具有0值时，目的地的元素设置为0。这个功能性的子集是控制被执行的操作的向量长度的能力（也就是说，元素的跨度（span）从第一个修改成最后一个）；但是，被修改的元素是连续的不是必需的。因此，写掩码字段870虑及部分向量操作，包括加载、存储、算术、逻辑等。虽然描述了本发明的其中写掩码字段870的内容选择多个写掩码寄存器其中之一（其包含待使用的写掩码）（并且因而写掩码字段870的内容间接地标识待执行的掩码）的实施例，但是作为替代或补充，备选实施例允许掩码写字段870的内容直接指定待执行掩码。

立即数字段872——其内容虑及立即数的指定。这个字段在如下所述的意义上是可选的：它不存在于不支持立即数的通用向量友好格式的实现中并且它不存在于没有使用立即数的指令中。

类字段868——其内容区分不同类的指令。参照图8A-B，这个字段的内容在A类与B类指令之间进行选择。图8A-B中，圆角正方形用来指示特定值存在于字段中（例如，分别在图8A-B中针对类字段868的A类868A和B类868B）。

A类的指令模板

在A类的非存储器存取805指令模板的情况下，α字段852被解释为RS字段852A，其内容区分不同扩增操作类型中的哪一个要被执行（例如，对无存储器存取、舍入类型操作810和无存储器存取、数据变换类型操作815指令模板分别指定舍入852A.1和数据变换852A.2），而β字段854区分要执行所指定类型的操作中的哪一个。在无存储器存取805指令模板中，定标字段860、位移字段862A和位移因数字段862B不存在。

无存储器存取指令模板—全舍入控制类型操作

在无存储器存取全舍入控制类型操作810指令模板中，β字段854被解释为舍入控制字段854A，其（一个或多个）内容提供静态舍入。虽然在本发明的所述实施例中，舍入控制字段854A包括抑制所有浮点异常（SAE）字段856和舍入操作控制字段858，但是备选实施例可支持将这些概念均编码到同一字段中，或者仅具有这些概念/字段中的一个或另一个（例如可以仅具有舍入操作控制字段858）。

SAE字段856——其内容区分是否禁用异常事件报告；当SAE字段856的内容指示启用抑制时，给定指令不报告任何种类的浮点异常标志，并且不引起任何浮点异常处理程序。

舍入操作控制字段858——其内容区分要执行一组舍入操作中的哪一个（例如上舍入、下舍入、向零舍入和舍入到最近（Round-to-nearest））。因此，舍入操作控制字段858虑及在每指令基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的一些实施例中，舍入操作控制字段850的内容覆写（override）那个寄存器值。

无存储器存取指令模板——数据变换类型操作

在无存储器存取数据变换类型操作815指令模板中，β字段854被解释为数据变换字段854B，其内容区分要执行多个数据变换中的哪一个（例如无数据变换、打乱、广播）。

在A类的存储器存取820指令模板的情况下，α字段852被解释为驱逐（eviction）提示字段852B，其内容区分要使用驱逐提示中的哪一个（图8A中，对存储器存取、时间825指令模板和存储器存取、非时间830指令模板分别指定时间852B.1和非时间852B.2），而β字段854被解释为数据操纵字段854C，其内容区分要执行多个数据操纵操作（又称作原语）中的哪一个（例如，无操纵、广播、源的上变换和目的地的下变换）。存储器存取820指令模板包括定标字段860以及可选的位移字段862A或位移因数字段862B。

向量存储器指令通过转换支持来执行自存储器的向量加载以及往存储器的向量存储。如同常规（regular）向量指令那样，向量存储器指令逐个数据元素地从/向存储器传递数据，其中实际传递的元素通过选择作为写掩码的向量掩码的内容来规定。

存储器存取指令模板—时间

时间数据是可能被足够快地再使用以获益于高速缓存的数据。但是，这是提示，并且不同处理器可按照不同方式（包括完全忽略提示）来实现它。

存储器存取指令模板—非时间

非时间数据是不可能被足够快再使用以获益于1级高速缓存中的高速缓存的数据，并且应当被给予针对驱逐的优先级。但是，这是提示，并且不同处理器可按照不同方式（包括完全忽略提示）来实现它。

B类的指令模板

在B类的指令模板的情况下，α字段852被解释为写掩码控制（Z）字段852C，其内容区分写掩码字段870所控制的写掩码应当是合并或归零。

在B类的非存储器存取805指令模板的情况下，β字段854的一部分被解释为RL字段857A，其内容区分不同扩增操作类型中的哪一个要被执行（例如，对无存储器存取、写掩码控制、部分舍入控制操作812指令模板和无存储器存取、写掩码控制、VSIZE类型操作817指令模板分别指定舍入857A.1和向量长度（VSIZE）857A.2），而β字段854的其余部分区分要执行所指定类型的操作中的哪一个。在无存储器存取805指令模板中，定标字段860、位移字段862A和位移因数字段862B不存在。

在无存储器存取、写掩码控制、部分舍入控制类型操作810指令模板中，β字段854的其余部分被解释为舍入操作字段859A，并且禁用异常事件报告（给定指令不报告任何种类的浮点异常标志，并且不提出任何浮点异常处理程序）。

舍入操作控制字段859A——正如舍入操作控制字段858，其内容区分要执行一组舍入操作中的哪一个（例如上舍入、下舍入、向零舍入和舍入到最近）。因此，舍入操作控制字段859A虑及在每指令基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的一些实施例中，舍入操作控制字段850的内容覆写那个寄存器值。

在无存储器存取、写掩码控制、VSIZE类型操作817指令模板中，β字段854的其余部分被解释为向量长度字段859B，其内容区分多个数据向量长度中的哪一个要被执行（例如128、256或512字节）。

在B类的存储器存取820指令模板的情况下，β字段854的一部分被解释为广播字段857B，其内容区分广播类型数据操纵操作是否要被执行，而β字段854的其余部分被解释为向量长度字段859B。存储器存取820指令模板包括定标字段860以及可选的位移字段862A或位移因数字段862B。

关于通用向量友好指令格式800，示出全操作码字段874，其包括格式字段840、基本操作字段842、和数据元素宽度字段864。虽然示出全操作码字段874包括这些字段中的全部字段的一个实施例，但是在不支持这些字段中的全部字段的实施例中，全操作码字段874包括少于全部这些字段。全操作码字段874提供操作代码（操作码）。

扩增操作字段850、数据元素宽度字段864和写掩码字段870允许这些特征在通用向量友好指令格式中在每指令的基础上指定。

写掩码字段和数据元素宽度字段的组合创建有类型的（typed）指令，因为它们允许掩码基于不同数据元素宽度来应用。

存在于A类和B类内的各种指令模板在不同状况中是有益的。在本发明的一些实施例中，不同处理器或者处理器内的不同核可支持A类、仅B类或者两类。例如，预计用于通用计算的高性能通用乱序（out of order）核可以仅支持B类，预计主要用于图形和/或科学（吞吐量）计算的核可以仅支持A类，以及预计用于两者的核可支持两者（当然，具有来自两类的模板和指令的某种混合但是没有来自两类的所有模板和指令的核在本发明的范围内）。另外，单个处理器可包括多个核，其全部支持相同类，或者其中不同核支持不同类。例如，在具有独立图形和通用核的处理器中，预计主要用于图形和/或科学计算的图形核之一可以仅支持A类，而通用核中的一个或多个可以是预计用于通用计算的具有乱序执行和寄存器重命名的高性能通用核，其仅支持B类。没有独立图形核的另一个处理器可包括更多一个通用有序或乱序核，其支持A类以及B类两者。当然，在本发明的不同实施例中，来自一类的特征也可在另一类中实现。采用高级语言编写的程序将被转化（例如准时编译或静态编译）成各种不同的可执行形式，包括：1）仅具有目标处理器所支持的（一个或多个）类的指令以便执行的形式；或者2）具有使用所有类的指令的不同组合所编写的备选例程并且具有控制流程代码的形式，其中所述控制流程代码基于当前正在执行代码的处理器所支持的指令来选择要执行的例程。

示例性特定向量友好指令格式

图9A是示出根据本发明的一些实施例的示例性特定向量友好指令格式的框图。图9A示出特定向量友好指令格式900，其在指定字段的位置、大小、解释和顺序以及那些字段中的一些字段的值的意义上是特定的。特定向量友好指令格式900可用于扩展x86指令集，并且因而字段中的一些与现有x86指令集及其扩展（例如AVX）中使用的字段相似或相同。这个格式保持为与具有扩展的现有x86指令集的前缀编码字段、真（real）操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。示出来自图9A的字段所映射成的来自图8A-B的字段。

应当理解，虽然为了便于说明而在通用向量友好指令格式800的上下文中参照特定向量友好指令格式900来描述本发明的实施例，但是本发明并不局限于特定向量友好指令格式900，除了要求保护的情况之外。例如，通用向量友好指令格式800考虑各种字段的各种可能大小，而特定向量友好指令格式900示为具有特定大小的字段。通过特定示例，虽然数据元素宽度字段864示为特定向量友好指令格式900中的一位字段，但是本发明并不局限于此（也就是说，通用向量友好指令格式800考虑数据元素宽度字段864的其他大小）。

通用向量友好指令格式800包括以下按照图9A所示顺序所列出的下列字段。

EVEX前缀（字节0-3）902——按照四字节形式来编码。

格式字段840（EVEX字节0、位[7:0]）-第一字节（EVEX字节0）是格式字段840，并且它包含0x62（在一些实施例中用于区分向量友好指令格式的唯一值）。

第二-第四字节（EVEX字节1-3）包括提供特定能力的多个位字段。

REX字段905（EVEX字节1，位[7-5]）——由EVEX.R位字段（EVEX字节1，位[7]–R）、EVEX.X位字段（EVEX字节1，位[6]–X）和857BEX字节1、位[5]–B）组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能性，并且使用1补码形式来编码，即，ZMM0编码为1111B，ZMM15编码为0000B。指令的其他字段如本领域已知对寄存器索引的较低的三位进行编码（rrr、xxx和2），使得Rrrr、Xxxx和Bbbb可通过将EVEX.R、EVEX.X和EVEX.B相加来形成。

REX’910A——这是REX’字段910的第一部分，并且是EVEX.R’位字段（EVEX字节1，位[4]–R’），其用于对扩展32寄存器集的较高16个或较低16个进行编码。在一些实施例中，这个位连同如以下所指示的其他位按照位反转格式来存储，以（在众所周知的x86 32位模式中）与BOUND指令进行区分，BOUND指令的真操作码字节为62，但是在MOD R/M字段（以下所述）中不接受MOD字段中的值11；本发明的备选实施例不按照反转格式来存储这个和下面的其他指示的位。值1用于对较低的16个寄存器进行编码。换言之，R’Rrrr通过组合EVEX.R’、EVEX.R和来自其他字段的其他RRR来形成。

操作码映射字段915（EVEX字节1，位[3:0]–mmmm）——其内容对暗示主导（impliedleading）操作码字节（0F、0F 38或0F 3）进行编码。

数据元素宽度字段864（EVEX字节2，位[7]–W）——通过记号EVEX.W来表示。EVEX.W用于定义数据类型的粒度（大小）（32位数据元素或者64位数据元素）。

EVEX.vvvv 920（EVEX字节2，位[6:3]-vvvv）——EVEX.vvvv的作用可包括以下项：1）EVEX.vvv对于采取反转（1补码）形式所指定的第一源寄存器操作数进行编码，并且对具有2个或更多源操作数的指令是有效的；2）EVEX.vvvv对于某些向量移位对于采取1补码形式所指定的目的地寄存器操作数进行编码；或者3）EVEX.vvvv没有对任何操作数进行编码，该字段被保留并且应当包含1111b。因此，EVEX.vvvv字段920对于采取反转（1补码）形式所存储的第一源寄存器指定符的4个低阶位进行编码。取决于指令，额外的不同EVEX位字段用于将特定大小扩展到32个寄存器。

EVEX.U 868类字段（EVEX字节2，位[2]-U）——如果EVEX.U = 0，则它指示A类或EVEX.U0；如果EVEX.U = 1，则它指示B类或EVEX.U1。

前缀编码字段925（EVEX字节2，位[1:0]-pp）——提供针对基本操作字段的附加位。除了提供对EVEX前缀格式中的传统SSE指令的支持之外，这还具有压缩SIMD前缀（而不是要求来表达SIMD前缀的字节，EVEX前缀仅要求2位）的益处。在一个实施例中，为了支持使用按照传统格式和按照EVEX前缀格式的SIMD前缀（66H、F2H、F3H）的传统SSE指令，这些传统SIMD前缀编码成SIMD前缀编码字段；以及在被提供给解码器的PLA之前在运行时扩大为传统SIMD前缀（因此PLA能够在不修改的情况下执行这些传统指令的传统和EVEX格式两者）。虽然较新指令可将EVEX前缀编码字段的内容直接用作操作码扩展，但是某些实施例按照类似方式扩大以获得一致性，但是虑及不同含意由这些传统SIMD前缀来指定。备选实施例可重新设计PLA以支持2位SIMD前缀编码，并且因而不要求扩大。

α字段852（EVEX字节3，位[7]–EH；又称作EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制和EVEX.N；也采用α示出）——如先前所述，这个字段是上下文特定的。

β字段854（EVEX字节3，位[6:4]-SSS，又称作EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也用βββ示出）——如先前所述，这个字段是上下文特定的。

REX’910B——这是REX’字段910的其余部分，并且是EVEX.V’位字段（EVEX字节3，位[3]–V’），其可用于对扩展32寄存器集的较高16个或较低16个进行编码。这个位按照位反转格式来存储。值1用于对较低16个寄存器进行编码。换言之，V’VVVV通过组合EVEX.V’、EVEX.vvvv来形成。

写掩码字段870（EVEX字节3，位[2:0]-kkk）——其内容指定写掩码寄存器中的寄存器的索引，如先前所述。在一些实施例中，特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为（这可按照多种方式来实现，包括使用硬连线到全部一的写掩码或者绕过掩码硬件的硬件）。

真操作码字段930（字节4）又称作操作码字节。操作码的一部分在这个字段中指定。

MOD R/M字段940（字节5）包括MOD字段942、Reg字段944和/或R/M字段946。如先前所述，MOD字段942的内容区分存储器存取和非存储器存取操作。Reg字段944的作用能够概括成两种状况：对目的地寄存器操作数或者源寄存器操作数进行编码，或者被看作是操作码扩展而不用于对任何指令操作数进行编码。R/M字段946的作用可包括以下：对于引用存储器地址的指令操作数进行编码，或者对目的地寄存器操作数或源寄存器操作数进行编码。

定标、索引、基本（SIB）字节（字节6）——如先前所述，定标字段850的内容用于存储器地址生成。SIB.xxx 954和SIB.2 956——先前针对寄存器索引Xxxx和Bbbb已经提到这些字段的内容。

位移字段862A（字节7-10）——当MOD字段942包含10时，字节7-10是位移字段862A，并且它与传统32位位移（disp32）相同地进行工作，并且以字节粒度进行工作。

位移因数字段862B（字节7）——当MOD字段942包含01时，字节7是位移因数字段862B。这个字段的位置与传统x86指令集8位位移（disp8）的位置相同，这个字段以字节粒度进行工作。由于disp8是符号扩展，所以它能够仅在-128与127字节偏移之间进行寻址；根据64字节高速缓存线，disp8使用8位，其能够设置成仅四个实际有用值-128、-64、0和64；由于常常需要较大范围，所以使用disp32；但是disp32要求4个字节。与disp8和disp32形成对照，位移因数字段862B是disp8的重新解释；当使用位移因数字段862B时，实际位移通过位移因数字段的内容乘以存储器操作数存取的大小（N）来确定。这种类型的位移称作disp8*N。这减少平均指令长度（用于位移但是具有大得多的范围的单个字节）。这种压缩位移基于如下假设：有效位移是存储器存取的粒度的倍数，并且因此地址偏移的冗余低阶位无需被编码。换言之，位移因数字段862B代替传统x86指令集8位位移。因此，位移因数字段862B采用与x86指令集8位位移相同的方式来编码（因此没有ModRM/SIB编码规则的变化），其中唯一的例外是disp8过度加载到disp8*N。换言之，不存在编码规则或编码长度的变化，而是仅存在硬件（其需要将位移缩放存储器操作数的大小，以得到逐字节的地址偏移）对位移值的解释的变化。立即数字段872如先前所述那样进行操作。

全操作码字段

图9B是示出根据一些实施例、组成全操作码字段874的特定向量友好指令格式900的字段的框图。具体来说，全操作码字段874包括格式字段840、基本操作字段842和数据元素宽度（W）字段864。基本操作字段842包括前缀编码字段925、操作码映射字段915和真操作码字段930。

寄存器索引字段

图9C是示出根据一些实施例、组成寄存器索引字段844的特定向量友好指令格式900的字段的框图。具体来说，寄存器索引字段844包括REX字段905、REX’字段910、MODR/M.reg字段944、MODR/M.r/m字段946、VVVV字段920、xxx字段954和2字段956。

扩增操作字段

图9D是示出根据一些实施例、组成扩增操作字段850的特定向量友好指令格式900的字段的框图。当类（U）字段868包含0时，它表示EVEX.U0（A类868A）；当它包含1时，它表示EVEX.U1（B类868B）。当U=0并且MOD字段942包含11（表示无存储器存取操作）时，α字段852（EVEX字节3，位[7]–EH）被解释为rs字段852A。当rs字段852A包含1（舍入852A.1）时，β字段854（EVEX字节3，位[6:4]–SSS）被解释为舍入控制字段854A。舍入控制字段854A包括一位SAE字段856和二位舍入操作字段858。当rs字段852A包含0（数据变换852A.2）时，β字段854（EVEX字节3，位[6:4]–SSS）被解释为三位数据变换字段854B。当U=0并且MOD字段942包含00、01或10（表示存储器存取操作）时，α字段852（EVEX字节3，位[7]–EH）被解释为驱逐提示（EH）字段852B，以及β字段854（EVEX字节3，位[6:4]–SSS）被解释为三位数据操纵字段854C。

当U=1时，α字段852（EVEX字节3，位[7]–EH）被解释为写掩码控制（Z）字段852C。当U=1并且MOD字段942包含11（表示无存储器存取操作）时，部分β字段854（EVEX字节3，位[4]–S₀）被解释为RL字段857A；当它包含1（舍入857A.1）时，其余部分的β字段854（EVEX字节3，位[6-5]–S_2-1）被解释为舍入操作字段859A，而当RL字段857A包含0（VSIZE 857.A2）时，其余部分的β字段854（EVEX字节3，位[6-5]–S_2-1）被解释为向量长度字段859B（EVEX字节3，位[6-5]L_1-0）。当U=1并且MOD字段942包含00、01或10（表示存储器存取操作）时，β字段854（EVEX字节3，位[6:4]–SSS）被解释为向量长度字段859B（EVEX字节3，位[6-5]–L_1-0）和广播字段857B（EVEX字节3，位[4]–B）。

示例性寄存器架构

图10是根据一些实施例的寄存器架构1000的框图。在所示实施例中，存在512位宽的32个向量寄存器1010；这些寄存器称作zmm0至zmm31。较低16个zmm寄存器的低阶256位覆盖在寄存器ymm0-16上。较低16个zmm寄存器的低阶128位（ymm寄存器的低阶128位）覆盖在寄存器xmm0-15上。特定向量友好指令格式900对这些覆盖寄存器堆进行操作，如下表所示。

换言之，向量长度字段859B在最大长度与一个或多个其他较短长度之间进行选择，其中每个这种较短长度是前面的长度的一半；以及没有向量长度字段859B的指令模板对最大向量长度进行操作。此外，在实施例中，特定向量友好指令格式900的B类指令模板对打包或标量单/双精度浮点数据和打包或标量整数数据进行操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置所执行的操作；较高阶数据元素位置保持为与它们在指令之前的情况相同或者根据本实施例归零。

写掩码寄存器1015——在所示实施例中，存在8个写掩码寄存器（k0至k7），每个的大小为64位。在备选实施例中，写掩码寄存器1015的大小为16位。如先前所述，在一些实施例中，向量掩码寄存器k0不能用作写掩码；当将正常指示k0的编码用于写掩码时，它选择Ox6f的硬连线写掩码，从而有效地禁用那个指令的写掩码。

通用寄存器1025——在所示实施例中，存在十六个64位通用寄存器，其连同现有x86寻址模式一起用于对存储器操作数进行寻址。这些寄存器由名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8至R15来表示。

标量浮点栈寄存器堆（x87栈）1045（其上混叠了（aliased）MMX打包整数平寄存器堆1050）——在所示实施例中，x87栈是八元素栈，其用于使用x87指令集扩展对32/64/80位浮点数据执行标量浮点运算；而MMX寄存器用于对64位打包整数数据执行操作，以及保持在MMX与XMM寄存器之间执行的一些操作的操作数。

备选实施例可使用更宽或更窄的寄存器。另外，备选实施例可使用更多、更少或不同的寄存器堆和寄存器。

示例性核架构、处理器和计算机架构

处理器核可按照不同方式出于不同目的以及在不同的处理器中实现。例如，这类核的实现可包括：1）预计用于通用计算的通用有序核；2）预计用于通用计算的高性能通用乱序核；3）预计主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可包括：1）CPU，包括预计用于通用计算的一个或多个通用有序核和/或预计用于通用计算的一个或多个通用乱序核；以及2）协处理器，包括预计主要用于图形和/或科学（吞吐量）的一个或多个专用核。这类不同的处理器得出不同的计算机系统架构，其可包括：1）与CPU分开的芯片上的协处理器；2）与CPU相同的封装中的独立管芯上的协处理器；3）与CPU相同的管芯上的协处理器（在这种情况下，这种协处理器有时称作专用逻辑，诸如集成图形和/或科学（吞吐量）逻辑，或者称作专用核）；以及4）可在相同管芯上包括所述CPU（有时称作（一个或多个）应用核或（一个或多个）应用处理器）、上述协处理器和附加功能性的芯片上的系统。接下来描述示例性核架构，随后是示例性处理器和计算机架构的描述。

示例性核架构

有序和乱序核框图

图11A是示出根据本发明的一些实施例、示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线两者的框图。图11B是示出根据本发明的一些实施例、包含在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、乱序发布/执行架构核两者的框图。图11A-B中的实线框示出有序流水线和有序核，而虚线框的可选添加示出寄存器重命名、乱序发布/执行流水线和核。鉴于有序方面是乱序方面的子集，将描述乱序方面。

图11A中，处理器流水线1100包括取级1102、长度解码级1104、解码级1106、分配级1108、重命名级1110、调度（又称作分发或发布）级1112、寄存器读/存储器读级1114、执行级1116、回写/存储器写级1118、异常处置级1122和提交级1124。

图11B示出包括耦合到执行引擎单元1150的前端单元1130（并且它们两者均耦合到存储器单元1170）的处理器核1190。核1190可以是简化指令集计算（RISC）核、复杂指令集计算（CISC）核、超长指令字（VLIW）核或者混合或备选核类型。作为又一个选项，核1190可以是专用核（诸如例如网络或通信核）、压缩引擎、协处理器核、通用计算图形处理单元（GPGPU）核、图形核等。

前端单元1130包括耦合到指令高速缓存单元1134的分支预测单元1132，指令高速缓存单元1134耦合到指令转换后备缓冲器（TLB）1136，指令转换后备缓冲器（TLB）1136耦合到指令提取单元1138，指令提取单元1138耦合到解码单元1140。解码单元1140（或者解码器）可对指令进行解码，并且作为输出生成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号，其从原始指令被解码或得出或者以其他方式反映原始指令。解码单元1140可使用各种不同的机制来实现。适当机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微码只读存储器（ROM）等。在一个实施例中，核1190包括微代码ROM或另一介质，其存储针对某些宏指令的微代码（例如存储在解码单元1140中或者以其他方式存储在前端单元1130内）。解码单元1140耦合到执行引擎单元1150中的重命名/分配器单元1152。

执行引擎单元1150包括重命名/分配器单元1152，其耦合到引退单元1154和一个或多个调度器单元1156的集合。（一个或多个）调度器单元1156表示任何数量的不同调度器，包括保留站、中心指令窗口等。（一个或多个）调度器单元1156耦合到（一个或多个）物理寄存器堆单元1158。（一个或多个）物理寄存器堆单元1158中的每个表示一个或多个物理寄存器堆，其中不同的寄存器堆存储一个或多个不同的数据类型，例如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如，作为要执行的下一个指令的地址的指令指针）等。在一个实施例中，（一个或多个）物理寄存器堆单元1158包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可提供架构向量寄存器、向量掩码寄存器和通用寄存器。（一个或多个）物理寄存器堆单元1158与引退单元1154重叠，以示出可实现寄存器重命名和乱序执行的各种方式（例如使用（一个或多个）重排序缓冲器和（一个或多个）引退寄存器堆；使用（一个或多个）将来的堆、（一个或多个）历史缓冲器和（一个或多个）引退寄存器堆；使用寄存器映射和寄存器池等）。引退单元1154和（一个或多个）物理寄存器堆单元1158耦合到（一个或多个）执行集群1160。（一个或多个）执行集群1160包括一个或多个执行单元1162的集合和一个或多个存储器存取单元1164的集合。执行单元1162可执行各种操作（例如移位、加法、减法、乘法）并且对各种类型的数据（例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点）来执行。虽然一些实施例可包括专用于特定功能或功能集合的多个执行单元，但是其他实施例可以仅包括一个执行单元或多个执行单元，其全部执行所有功能。（一个或多个）调度器单元1156、（一个或多个）物理寄存器堆单元1158和（一个或多个）执行集群1160示为可能是复数个的，因为某些实施例创建针对某些类型的数据/操作的独立流水线（例如标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线和/或存储器存取流水线，它们各具有其自己的调度器单元、（一个或多个）物理寄存器堆单元和/或执行集群——以及在独立存储器存取流水线的情况下，实现其中只有这个流水线的执行集群具有（一个或多个）存储器存取单元1164的某些实施例。还应当理解，在使用独立流水线的情况下，这些流水线中的一个或多个可以是乱序发布/执行，而其余的的流水线是有序的。

存储器存取单元1164的集合耦合到存储器单元1170，其包括耦合到数据高速缓存单元1174的数据TLB单元1172，数据高速缓存单元1174耦合到2级（L2）高速缓存单元1176。在一个示范性实施例中，存储器存取单元1164可包括加载单元、存储地址单元和存储数据单元，它们中的每个耦合到存储器单元1170中的数据TLB单元1172。指令高速缓存单元1134还耦合到存储器单元1170中的2级（L2）高速缓存单元1176。L2高速缓存单元1176耦合到一个或多个其他级的高速缓存，并且最终耦合到主存储器。

通过举例，示例性寄存器重命名、乱序发布/执行核架构可如下所述实现流水线1100：1）指令提取1138执行提取和长度解码级1102和1104；2）解码单元1140执行解码级1106；3）重命名/分配器单元1152执行分配级1108和重命名级1110；4）（一个或多个）调度器单元1156执行调度级1112；5）（一个或多个）物理寄存器堆单元1158和存储器单元1170执行寄存器读/存储器读级1114；执行集群1160执行执行级1116；6）存储器单元1170和（一个或多个）物理寄存器堆单元1158执行回写/存储器写级1118；7）各种单元可涉及异常处置级1122；以及8）引退单元1154和（一个或多个）物理寄存器堆单元1158执行提交级1124。

核1190可支持一个或多个指令集（例如x86指令集（其中具有随较新版本已经添加的一些扩展）；加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集；加利福尼亚州Sunnyvale的ARM Holdings的ARM指令集（其具有可选附加扩展，例如NEON）），包括本文所述的（一个或多个）指令。在一个实施例中，核1190包括支持打包数据指令集扩展的逻辑（例如AVX1、AVX2），从而允许许多多媒体应用所使用的操作使用打包数据来执行。

应当理解，核可支持多线程处理（multithreading）（其执行操作或线程的两个或更多并行集合），并且可按照各种方式这样做，包括时间切片多线程处理、同时多线程处理（其中单个物理核为物理核正在同时多线程处理的线程中的每个提供逻辑核）或者其组合（例如，诸如在Intel®超线程处理技术中的时间切片提取和解码以及此后的同时多线程处理）。

虽然在乱序执行的上下文中描述寄存器重命名，但是应当理解，寄存器重命名可用在有序架构中。虽然处理器的所示实施例还包括独立指令和数据高速缓存单元1134/1174和共享L2高速缓存单元1176，但是备选实施例可具有用于指令和数据两者的单个内部高速缓存，诸如，例如1级（L1）内部高速缓存或者多级内部高速缓存。在一些实施例中，系统可包括内部高速缓存以及核和/或处理器外部的外部高速缓存的组合。备选地，高速缓存中的全部可以在核和/或处理器外部。

特定示例性有序核架构

图12A-B示出更特定的示例性有序核架构的框图，该核将是芯片中的若干逻辑块其中之一（包括相同类型和/或不同类型的其他核）。取决于应用，逻辑块利用某固定功能逻辑、存储器I/O接口和其他必要I/O逻辑通过高带宽互连网络（例如环形网络）进行通信。

图12A是根据本发明的一些实施例、单个处理器核连同其与管芯上互连网络1202的连接并且与其2级（L2）高速缓存1204的本地子集的连接的框图。在一个实施例中，指令解码器1200支持具有打包数据指令集扩展的x86指令集。L1高速缓存1206允许对标量和向量单元中的高速缓冲存储器的低时延存取。虽然在一个实施例中（为了简化设计），标量单元1208和向量单元1210使用独立寄存器集（分别为标量寄存器1212和向量寄存器1214），以及在它们之间所传递的数据被写到存储器并且然后从1级（L1）高速缓存1206读回，但是本发明的备选实施例可使用不同方式（例如使用单个寄存器集，或者包括允许数据在两个寄存器堆之间传递的通信路径，而无需被写入和读回）。

L2高速缓存1204的本地子集是全局L2高速缓存（其分为独立本地子集，每处理器核一个）的一部分。每个处理器核具有到L2高速缓存1204的其自己的本地子集的直接访问路径。由处理器核所读取的数据存储在其L2高速缓存子集1204中，并且能够与访问它们自己的本地L2高速缓存子集的其他处理器核并行地快速访问。由处理器核所写入的数据存储在其自己的L2高速缓存子集1204中，并且在必要时从其他子集来刷新。环形网络确保共享数据的连贯性（coherency）。环形网络是双向的，以便允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内相互通信。每个环形数据路径每方向是1012位宽。

图12B是根据本发明的一些实施例、图12A中的处理器核的部分的展开图。图12B包括L1高速缓存1204的L1数据高速缓存1206A部分以及与向量单元1210和向量寄存器1214有关的更多细节。具体来说，向量单元1210是16宽向量处理单元（VPU）（参见16宽ALU 1228），其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持利用打乱单元1220将寄存器输入打乱、利用数字转换单元1222A-B的数字转换以及利用复制单元1224对存储器输入的复制。写掩码寄存器1226允许预测所得的向量写。

图13是根据本发明的一些实施例、可具有不止一个核、可具有集成存储器控制器并且可具有集成图形的处理器1300的框图。图13中的实线框示出具有单个核1302A、系统代理1310、一个或多个总线控制器单元1316集合的处理器1300，而虚线框的可选添加示出具有多个核1302A-N、系统代理单元1310中的一个或多个集成存储器控制器单元1314的集合和专用逻辑1308的备选处理器1300。

因此，处理器1300的不同实现可包括：1）具有作为集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核）的专用逻辑1308和作为一个或多个通用核（例如通用有序核、通用乱序核、两者的组合）的核1302A-N的CPU；2）具有作为预计主要用于图形和/或科学（吞吐量）的大量专用核的核1302A-N的协处理器；以及3）具有作为大量通用有序核的核1302A-N的协处理器。因此，处理器1300可以是通用处理器、协处理器或专用处理器，诸如，例如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量多集成核（MIC）协处理器（包括30个或更多核）、嵌入式处理器等。处理器可在一个或多个芯片上实现。处理器1300可以是一个或多个衬底的一部分和/或可使用多种工艺技术中的任一种（诸如，例如BiCMOS、CMOS或NMOS）在一个或多个衬底上实现。

存储器分级结构包括核内的一级或多级高速缓存、一组或一个或多个共享高速缓存单元1306以及耦合到集成存储器控制器单元1314的集合的外部存储器（未示出）。共享高速缓存单元1306的集合可包括一个或多个中间级高速缓存，诸如2级（L2）、3级（L3）、4级（L4）或者其他高速缓存级、最后一级高速缓存（LLC）和/或它们的组合。虽然在一个实施例中，基于环形的互连单元1312互连集成图形逻辑1308（集成图形逻辑1308是专用逻辑的示例，且在本文中也被称为专用逻辑）、共享高速缓存单元1306的集合和系统代理单元1310/（一个或多个）集成存储器控制器单元1314，但是备选实施例可将任何数量的众所周知技术用于互连这类单元。在一个实施例中，在一个或多个高速缓存单元1306与核1302-A-N之间保持连贯性。

在一些实施例中，核1302A-N中的一个或多个能够进行多线程处理。系统代理1310包括协调和操作核1302A-N的那些组件。系统代理单元1310可包括例如功率控制单元（PCU）和显示单元。PCU可以是或者用于调节核1302A-N和集成图形逻辑1308的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核1302A-N在架构指令集方面可以是同构或异构的；也就是说，核1302A-N中的两个或更多可以能够执行相同指令集，而其他核可以能够仅执行那个指令集的子集或者不同的指令集。

示例性计算机架构

图14-17是示例性计算机架构的框图。用于膝上型计算机、台式计算机、手持式PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器（DSP）、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携媒体播放器、手持式装置和各种其他电子装置的在本领域中已知的其他系统设计和配置也是适合的。一般来说，能够结合本文所公开的处理器和/或其他执行逻辑的大量各种系统或电子装置一般是适合的。

现在参照图14，示出的是根据本发明的一个实施例的系统1400的框图。系统1400可包括一个或多个处理器1410、1415，其耦合到控制器中枢1420。在一个实施例中，控制器中枢1420包括图形存储器控制器中枢（GMCH）1490和输入/输出中枢（IOH）1450（其可在独立芯片上）；GMCH 1490包括存储器和图形控制器，存储器1440和协处理器1445与其耦合；IOH1450将输入/输出（I/O）装置1460耦合到GMCH 1490。备选地，存储器和图形控制器中的一个或两者集成在处理器内（如本文所述），存储器1440和协处理器1445直接耦合到处理器1410以及具有IOH 1450的单个芯片中的控制器中枢1420。

附加处理器1415的可选性质在图14中采用虚线表示。每个处理器1410、1415可包括本文所述处理核中的一个或多个，并且可以是处理器1300的某个版本。

存储器1440可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）或者两者的组合。对于至少一个实施例，控制器中枢1420经由多点总线（例如前侧总线（FSB））、点对点接口（例如Quickpath互连（QPI））或者类似连接1495与（一个或多个）处理器1410、1415进行通信。

在一个实施例中，协处理器1445是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中枢1420可包括集成图形加速器。

在包括架构、微架构、热、功耗特性等的品质量度的范围方面，在物理资源1410、1415之间存在各种差异。

在一个实施例中，处理器1410执行控制通用类型的数据处理操作的指令。嵌入在指令中的可以是协处理器指令。处理器1410将这些协处理器指令识别为具有应当由所附连的协处理器1445来执行的类型。相应地，处理器1410在协处理器总线或其他互连上向协处理器1445发布这些协处理器指令（或者表示协处理器指令的控制信号）。（一个或多个）协处理器1445接受和执行所接收的协处理器指令。

现在参照图15，所示的是根据本发明的实施例的第一更特定示例性系统1500的框图。如图15所示，多处理器系统1500是点对点互连系统，并且包括经由点对点互连1550耦合的第一处理器1570和第二处理器1580。处理器1570和1580中的每个可以是处理器1300的某个版本。在一些实施例中，处理器1570和1580分别是处理器1410和1415，而协处理器1538是协处理器1445。在另一个实施例中，处理器1570和1580分别是处理器1410、协处理器1445。

示出处理器1570和1580，其分别包括集成存储器控制器（IMC）单元1572和1582。处理器1570还包括作为其总线控制器单元的一部分的点对点（P-P）接口1576和1578；类似地，第二处理器1580包括P-P接口1586和1588。处理器1570、1580可使用点对点（P-P）接口电路1578、1588经由P-P接口1550来交换信息。如图15所示，IMC 1572和1582将处理器耦合到相应存储器，即，存储器1532和存储器1534，其可以是本地附连到相应处理器的主存储器的部分。

处理器1570、1580各自可使用点对点接口电路1576、1594、1586、1598经由单独P-P接口1552、1554与芯片集1590交换信息。芯片集1590可选地可经由高性能接口1592与协处理器1538交换信息。在一个实施例中，协处理器1538是专用处理器，诸如，例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享高速缓存（未示出）可包含在处理器中或者两个处理器外部，但是仍然经由P-P互连与处理器连接，使得如果使处理器进入低功耗模式，则任一个或两个处理器的本地高速缓存信息可存储在共享高速缓存中。

芯片集1590可经由接口1596耦合到第一总线1516。在一个实施例中，第一总线1516可以是外设部件互连（PCI）总线或者例如PCI Express总线之类的总线或另一种第三代I/O互连总线，但是本发明的范围并不局限于此。

如图15所示，各种I/O装置1514可连同总线桥1518（其将第一总线1516耦合到第二总线1520）一起耦合到第一总线1516。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器（例如，图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或者任何其他处理器之类的一个或多个附加处理器1515耦合到第一总线1516。在一个实施例中，第二总线1520可以是低引脚数（LPC）总线。在一个实施例中，各种装置可耦合到第二总线1520，包括例如键盘和/或鼠标1522、通信装置1527以及可包括指令/代码和数据1530的诸如磁盘驱动器或其他海量存储装置之类的存储单元1528。此外，音频I/O 1524可耦合到第二总线1520。注意，其他架构是可能的。例如，代替图15的点对点架构，系统可实现多点总线或其他这种架构。

现在参照图16，示出的是根据本发明的实施例的第二更特定示例性系统1600的框图。图15和图16中的相似元件具有相似参考标号，并且从图16中省略图15的某些方面，以免影响对图16的其他方面的理解。

图16示出处理器1570、1580可分别包括集成存储器和I/O控制逻辑（“CL”）1672和1682。因此，CL 1672、1682包括集成存储器控制器单元，并且包括I/O控制逻辑。图16不仅示出存储器1532、1534耦合到CL 1672、1682，而且还示出I/O装置1614也耦合到控制逻辑1672、1682。传统I/O装置1615耦合到芯片集1590。

现在参照图17，示出的是根据本发明的实施例的SoC 1700的框图。图13中的相似元件具有相似参考标号。另外，虚线框是更高级SoC上的可选特征。图17中，（一个或多个）互连单元1702耦合到：应用处理器1710，其包括一个或多个核1302A-N（其包括高速缓存单元1304A-N）的集合和（一个或多个）共享高速缓存单元1306；系统代理单元1310；（一个或多个）总线控制器单元1316；（一个或多个）集成存储器控制器单元1314；一组一个或多个协处理器1720，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM）单元1730；直接存储器存取（DMA）单元1732；以及显示单元1740，其用于耦合到一个或多个外部显示器。在实施例中，（一个或多个）协处理器1720包括专用处理器，诸如，例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文所公开的机制的实施例可采用硬件、软件、固件或者这类实现方式的组合来实现。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，其中可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入装置和至少一个输出装置。

诸如图15所示的代码1530之类的程序代码可应用于输入指令，以执行本文所述的功能并且生成输出信息。输出信息可按照已知方式应用于一个或多个输出装置。出于本申请的目的，处理系统包括具有诸如例如数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或者微处理器之类的处理器的任何系统。

程序代码可采用高级过程或面向对象的编程语言来实现以与处理系统进行通信。根据需要，程序代码也可采用汇编或机器语言来实现。实际上，本文所述的机制在范围上并不局限于任何特定编程语言。在任何情况下，语言可以是经编译或经解释的语言。

至少一个实施例的一个或多个方面可通过机器可读介质上存储的、表示处理器内的各种逻辑的表示（representative）指令来实现，所述表示指令在由机器读取时使机器制作执行本文所述技术的逻辑。称作“IP核”的这类表示可存储在有形机器可读介质上，并且供应给各种客户或制造设施，以加载到实际制作逻辑或处理器的制造机器中。

这种机器可读存储介质可以非限制性地包括通过机器或装置所制造或形成的产品的非暂时有形布置，包括：诸如硬盘等存储介质；任何其他类型的磁盘，包括软盘、光盘、致密盘只读存储器（CD-ROM）、可重写致密盘（CD-RW）和磁光盘；半导体装置，诸如只读存储器（ROM）、诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SARAM）之类的随机存取存储器（RAM）、可擦可编程只读存储器（EPROM）、闪速存储器、电可擦可编程只读存储器（EEPROM）、相变存储器（PCM）；磁卡或光卡；或者适合于存储电子指令的任何其他类型的介质。

相应地，本发明的实施例还包括非暂时有形机器可读介质，其包含指令或者包含诸如硬件描述语言（HDL）之类的设计数据，其定义本文所述结构、电路、设备、处理器和/或系统特征。这类实施例又可称作程序产品。

模拟（包括二进制转化、代码变体（morphing）等）

在一些情况下，指令转换器可用于将指令从源指令集转换成目标指令集。例如，指令转换器可将指令转化（例如使用静态二进制转化、包括动态编译的动态二进制转化）、变形、模拟或者以其他方式转换成将要由核来处理的一个或多个其他指令。指令转换器可采用软件、硬件、固件或其组合来实现。指令转换器可以在处理器上、处理器外或者部分处理器上和部分处理器外。

图18是根据本发明的一些实施例对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示实施例中，指令转换器是软件指令转换器，但是备选地，指令转换器可采用软件、固件、硬件或者它们的各种组合来实现。图18示出高级语言1802中的程序可使用x86编译器1804来编译，以生成x86二进制代码1806，其可由具有至少一个x86指令集核的处理器1816原生执行。具有至少一个x86指令集核的处理器1816表示如下所述的任何处理器：该处理器能够通过兼容地运行或者以其他方式处理下列方面来执行与具有至少一个x86指令集核的Intel处理器基本上相同的功能：（1）Intelx86指令集核的指令集的大部分；或者（2）针对在具有至少一个x86指令集核的Intel处理器上运行的应用或其他软件的对象代码版本，以便取得与具有至少一个x86指令集核的Intel处理器基本上相同的结果。x86编译器1804表示可操作以生成x86二进制代码1806（例如对象代码）的编译器，x86二进制代码1806能够在具有或没有附加链接处理的情况下在具有至少一个x86指令集核的处理器1816上执行。类似地，图18示出高级语言1802中的程序可使用备选指令集编译器1808来编译，以生成备选指令集二进制代码1810，其可由没有至少一个x86指令集核的处理器1814（例如具有下述核的处理器：所述核执行加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集和/或执行加利福尼亚州Sunnyvale的ARMHoldings的ARM指令集）原生执行。指令转换器1812用于将x86二进制代码1806转换成可由没有x86指令集核的处理器1814原生执行的代码。这个转换代码不可能与备选指令集二进制代码1810是相同的，因为能够进行这个操作的指令转换器难以制作；但是，转换代码将实现一般操作，并且由来自备选指令集的指令组成。因此，指令转换器1812表示软件、固件、硬件或者其组合，其通过模拟、仿真或者任何其他过程允许处理器或者没有x86指令集处理器或核的其他电子装置执行x86二进制代码1806。

另外的示例

示例1提供一种包括多个核的示例处理器，每个核包括：多个多线程流水线(MTP)，每个MTP与存储器相关联；原子单元(ATMU)，用于执行原子操作；以及写组合缓冲器(WCB)，用于管理对所关联的存储器中的高速缓存行的访问和锁定，所述MTP中的每个MTP包括：提取级，用于提取指令；解码级，用于解码具有用来指定操作码以及第一和第二存储器位置的字段的所述指令，所述操作码调用多个MTP中的第一MTP来向所述多个MTP中的另一MTP发送请求，所述另一MTP用来在所述第一和第二存储器位置上执行原子双存储器操作，所述另一MTP与所述第一存储器位置所映射到的存储器相关联；以及执行级，用于根据所述操作码执行所述指令,其中所述另一MTP将使用其关联的ATMU和WCB来执行所述请求。

示例2包括示例1所述的示例处理器的实质，其中所述双存储器操作包括读-读，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算从中将值读到第二寄存器中的第二存储器地址。

示例3包括示例1所述的示例处理器的实质，其中所述双存储器操作包括读-写，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

示例4包括示例1所述的示例处理器的实质，其中所述双存储器操作包括写-写，其中第三寄存器用于计算将存储于第一寄存器中的值写到的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

示例5包括示例1所述的示例处理器的实质，其中所述第一和第二存储器位置通过第一和第二存储器地址寻址，且其中所述指令进一步指定在计算所述第二存储器地址中使用的立即数。

示例6包括示例1所述的示例处理器的实质，其中所述双存储器操作包括在所述第一和第二存储器位置中的所述第一存储器位置上的原子交换(XC)，而在所述第一和第二存储器位置中的所述第二存储器位置上执行五个不同操作中的一个操作，所述五个不同操作包括读(R)、写(W)、原子加(XA)、原子递增(XI)和原子交换(XC)。

示例7包括示例1所述的示例处理器的实质，其中所述第一和第二存储器位置在单个高速缓存行内。

示例8包括示例1-6中任一示例所述的示例处理器的实质，其中所述第一MTP将把所述指令路由到耦合到所述双存储器位置位于其中的存储器的ATMU。

示例9包括示例1所述的示例处理器的实质，其中所述指令进一步指定所述第一和第二存储器位置每个的大小。

示例10包括示例1所述的示例处理器的实质，其中所述核中的每个包括各自并行处理十六个线程的四个MTP、两个单线程流水线STP、两个一兆字节便笺式存储器SPM及一个2 GB封装内存储器IPM。

示例11提供一种由处理器执行的示例方法，所述处理器包括：多个核，每个核包括多个多线程流水线(MTP)，每个MTP与存储器相关联；原子单元(ATMU)，用于执行原子操作；以及写组合缓冲器(WCB)用于管理对其关联的存储器中的高速缓存行的访问和锁定，所述方法包括：初始化所述处理器；由所述多个MTP中的第一MTP提取指令；由所述第一MTP解码所述指令，所述指令具有用来指定操作码以及第一和第二存储器位置的字段，所述操作码调用所述第一MTP来向所述多个MTP中的第二MTP发送请求，所述第二MTP用来在所述第一和第二存储器位置上执行原子双存储器操作，所述第二MTP与所述第一存储器位置所映射到的存储器相关联;由所述第一MTP执行所述指令以向所述第二MTP发送所述请求；以及由所述第二MTP使用其关联的ATMU和WCB来执行所述请求。

示例12包括示例11所述的示例方法的实质，其中所述双存储器操作包括读-读，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算从中将值读到第二寄存器中的第二存储器地址。

示例13包括示例11所述的示例方法的实质，其中所述双存储器操作包括读-写，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

示例14包括示例11所述的示例方法的实质，其中所述双存储器操作包括写-写，其中第三寄存器用于计算将存储于第一寄存器中的值写到的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

示例15包括示例11所述的示例方法的实质，其中所述第一和第二存储器位置通过第一和第二存储器地址寻址，且其中所述指令进一步指定在计算所述第二存储器地址中使用的立即数。

示例16包括示例11所述的示例方法的实质，其中所述双存储器操作包括在所述第一和第二存储器位置中的所述第一存储器位置上的原子交换(XC)，而在所述第一和第二存储器位置中的所述第二存储器位置上执行五个不同操作中的一个操作，所述五个不同操作包括读(R)、写(W)、原子加(XA)、原子递增(XI)和原子交换(XC)。

示例17包括示例11所述的示例方法的实质，其中所述第一和第二存储器位置在单个高速缓存行内。

示例18包括示例11所述的示例方法的实质，其中所述第一MTP将把所述指令路由到耦合到所述双存储器位置位于其中的存储器的ATMU。

示例19包括示例11所述的示例方法的实质，其中所述指令进一步指定所述第一和第二存储器位置每个的大小。

示例20包括示例11所述的示例方法的实质，其中所述核中的每个包括各自并行处理十六个线程的四个MTP、两个单线程流水线STP、两个一兆字节便笺式存储器SPM及一个2GB封装内存储器IPM。

Claims

1.一种包括多个核的处理器，每个核包括：

多个多线程流水线(MTP)，每个MTP与存储器相关联；原子单元(ATMU)，用于执行原子操作；以及写组合缓冲器(WCB)，用于管理对所关联的存储器中的高速缓存行的访问和锁定，所述MTP中的每个MTP包括：

提取级，用于提取指令；

解码级，用于解码具有用来指定操作码以及第一和第二存储器位置的字段的所述指令，所述操作码调用多个MTP中的第一MTP来向所述多个MTP中的第二MTP发送请求，所述第二MTP用来在所述第一和第二存储器位置上执行原子双存储器操作，所述第二MTP与所述第一存储器位置所映射到的存储器相关联；以及

执行级，用于根据所述操作码执行所述指令；

其中所述第二MTP将使用其关联的ATMU和WCB来执行所述请求。

2.根据权利要求1所述的处理器，其中所述双存储器操作包括读-读，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算从中将值读到第二寄存器中的第二存储器地址。

3.根据权利要求1所述的处理器，其中所述双存储器操作包括读-写，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

4.根据权利要求1所述的处理器，其中所述双存储器操作包括写-写，其中第三寄存器用于计算将存储于第一寄存器中的值写到的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

5.根据权利要求1-4中任一项所述的处理器，其中所述第一和第二存储器位置通过第一和第二存储器地址寻址，且其中所述指令进一步指定在计算所述第二存储器地址中使用的立即数。

6.根据权利要求1所述的处理器，其中所述双存储器操作包括在所述第一和第二存储器位置中的所述第一存储器位置上的原子交换(XC)，而在所述第一和第二存储器位置中的所述第二存储器位置上执行五个不同操作中的一个操作，所述五个不同操作包括读(R)、写(W)、原子加(XA)、原子递增(XI)和原子交换(XC)。

7.根据权利要求1-6中任一项所述的处理器，其中所述第一和第二存储器位置在单个高速缓存行内。

8.根据权利要求1-7中任一项所述的处理器，其中所述第一MTP将把所述指令路由到耦合到所述双存储器位置位于其中的存储器的ATMU。

9.根据权利要求1-8中任一项所述的处理器，其中所述指令进一步指定所述第一和第二存储器位置每个的大小。

10. 根据权利要求1-9中任一项所述的处理器，其中所述核中的每个包括各自并行处理十六个线程的四个MTP、两个单线程流水线STP、两个一兆字节便笺式存储器SPM及一个2GB封装内存储器IPM。

11.一种由处理器执行的方法，所述处理器包括：多个核，每个核包括多个多线程流水线(MTP)，每个MTP与存储器相关联；原子单元(ATMU)，用于执行原子操作；以及写组合缓冲器(WCB)用于管理对其关联的存储器中的高速缓存行的访问和锁定，所述方法包括：

初始化所述处理器；

由所述多个MTP中的第一MTP提取指令；

由所述第一MTP解码所述指令，所述指令具有用来指定操作码以及第一和第二存储器位置的字段，所述操作码调用所述第一MTP来向所述多个MTP中的第二MTP发送请求，所述第二MTP用来在所述第一和第二存储器位置上执行原子双存储器操作，所述第二MTP与所述第一存储器位置所映射到的存储器相关联;

由所述第一MTP执行所述指令以向所述第二MTP发送所述请求；以及

由所述第二MTP使用其关联的ATMU和WCB来执行所述请求。

12.根据权利要求11所述的方法，其中所述双存储器操作包括读-读，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算从中将值读到第二寄存器中的第二存储器地址。

13.根据权利要求11所述的方法，其中所述双存储器操作包括读-写，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

14.根据权利要求11所述的方法，其中所述双存储器操作包括写-写，其中第三寄存器用于计算将存储于第一寄存器中的值写到的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

15.根据权利要求11-14中任一项所述的方法，其中所述第一和第二存储器位置通过第一和第二存储器地址寻址，且其中所述指令进一步指定在计算所述第二存储器地址中使用的立即数。

16.根据权利要求11所述的方法，其中所述双存储器操作包括在所述第一和第二存储器位置中的所述第一存储器位置上的原子交换(XC)，而在所述第一和第二存储器位置中的所述第二存储器位置上执行五个不同操作中的一个操作，所述五个不同操作包括读(R)、写(W)、原子加(XA)、原子递增(XI)和原子交换(XC)。

17.根据权利要求11-16中任一项所述的方法，其中所述第一和第二存储器位置在单个高速缓存行内。

18.根据权利要求11-17中任一项所述的方法，其中所述第一MTP将把所述指令路由到耦合到所述双存储器位置位于其中的存储器的ATMU。

19.根据权利要求11-18中任一项所述的方法，其中所述指令进一步指定所述第一和第二存储器位置每个的大小。

20. 根据权利要求11-19中任一项所述的方法，其中所述核中的每个包括各自并行处理十六个线程的四个MTP、两个单线程流水线STP、两个一兆字节便笺式存储器SPM及一个2GB封装内存储器IPM。

21. 一种系统，包括：

存储器；以及

耦合到所述存储器的多个核，每个核包括：

提取级，用于提取指令；

执行级，用于根据所述操作码执行所述指令；

其中所述第二MTP将使用其关联的ATMU和WCB来执行所述请求。

22.根据权利要求21所述的系统，其中所述双存储器操作包括读-读，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算从中将值读到第二寄存器中的第二存储器地址。

23.根据权利要求21所述的系统，其中所述双存储器操作包括读-写，其中第三寄存器用于计算从中将值读到第一寄存器中的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

24.根据权利要求21所述的系统，其中所述双存储器操作包括写-写，其中第三寄存器用于计算将存储于第一寄存器中的值写到的第一存储器地址，且计算将存储于第二寄存器中的值写到的第二存储器地址。

25.根据权利要求21-24中任一项所述的系统，其中所述第一和第二存储器位置通过第一和第二存储器地址寻址，且其中所述指令进一步指定在计算所述第二存储器地址中使用的立即数。