CN104049943A

CN104049943A - 有限范围向量存储器访问指令、处理器、方法和系统

Info

Publication number: CN104049943A
Application number: CN201410097314.8A
Authority: CN
Inventors: R·凡伦天; E·乌尔德-阿迈德-瓦尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-03-15
Filing date: 2014-03-17
Publication date: 2014-09-17
Anticipated expiration: 2034-03-17
Also published as: KR20140113556A; DE102014003706A1; US9448795B2; GB2513970A; US9244684B2; US20160371084A1; CN104049943B; KR20150091448A; US20140281425A1; GB2513970B; JP5926754B2; JP2014182807A; KR101599604B1; GB201403976D0; US20160170749A1

Abstract

描述了有限范围向量存储器访问指令、处理器、方法和系统。一方面的处理器包括多个打包数据寄存器。该处理还包括与打包数据寄存器耦合的单元。该单元响应于有限范围向量存储器访问指令。该指令指示源打包存储器索引，该源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引。该单元还响应于有限范围向量存储器访问指令访问仅在存储器的有限范围中的存储器位置。还公开了其它处理器、方法、系统和指令。

Description

有限范围向量存储器访问指令、处理器、方法和系统

背景技术

技术领域

实施例涉及处理器。具体地，实施例涉及执行存储器访问指令的处理器。

背景信息

处理器通常用于执行访问存储器的指令。例如，处理器可执行用于加载或读取来自存储器的数据的加载指令和/或用于向存储器存储或写入数据的存储指令。

某些处理器用于执行向量加载指令。这些向量加载指令在本领域也被称为向量收集(gather)指令，或简单地称为收集指令在2011年6月公开的高级向量扩展编程参考中，参考文献号319433-011，描述了若干向量收集(VGATHER)指令。示例包括VGATHERDPD、VGATHERQPD、VGATHERDPS、VGATHERQPS、VPGATHERDD、VPGATHERQD、VPGATHERDQ和VPGATHERQQ。这些向量收集指令可用于利用多个对应的存储器索引从存储器收集、读取或加载多个数据元素。

附图说明

可通过参考以下描述以及用于示出实施例的附图最佳地理解本发明。在附图中：

图1是用于执行一个或多个有限范围向量存储器访问指令的处理器的实施例的框图。

图2是用于处理一个或多个有限范围向量存储器访问指令的指令处理装置的实施例的框图。

图3是响应于有限范围向量存储器访问指令访问存储器的有限范围的方法的实施例的流程框图。

图4是示出有限范围向量收集操作的实施例的框图。

图5是示出被掩蔽的有限范围向量收集操作的实施例的框图。

图6是示出有限范围向量分散操作的实施例的框图。

图7是示出被掩蔽的有限范围向量分散操作的实施例的框图。

图8是示出有限范围向量收集操作的示例实现实施例的框图。

图9是一组合适的打包数据寄存器的示例实施例的框图。

图10是一组合适的打包数据操作掩码寄存器的示例实施例的框图。

图11是64位打包数据操作掩码寄存器的示例实施例的图，其中掩码位的数目取决于打包数据宽度和打包数据元素宽度。

图12A示出示例性AVX指令格式，包括VEX前缀、实操作码字段、Mod R/M字节、SIB字节、位移字段以及IMM8。

图12B示出来自图12A的哪些字段构成完整操作码字段和基础(base)操作字段。

图12C示出来自图12A的哪些字段构成寄存器索引字段。

图13A是示出根据本发明的实施例的通用向量友好指令格式及其A类指令模板的方框图。

图13B是示出根据本发明的实施例的通用向量友好指令格式及其B类指令模板的方框图。

图14A-D是示出根据本发明的实施例的示例性专用向量友好指令格式的框图。

图15是根据本发明的一个实施例的寄存器架构的框图。

图16A是示出根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名、无序发布/执行流水线的框图。

图16B是示出根据本发明的实施例的要包括在处理器中的有序架构核示例性实施例以及示例性寄存器重命名、无序发布/执行架构核的框图。

图17A是根据本发明的实施例的连接到管芯上(on-die)互联网络且具有第二级(L2)高速缓存的本地子集的单一处理器核的框图。

图17B是根据本发明的实施例的图17A中的处理器内核的一部分的展开图。

图18是根据本发明的实施例的可具有一个以上内核、可具有集成存储器控制器、并且可具有集成图形的处理器的方框图。

图19示出根据本发明的实施例的系统的方框图。

图20示出根据本发明的实施例的第一更具体的示例性系统的方框图。

图21示出根据本发明的实施例的第二更具体的示例性系统的方框图。

图22示出根据本发明的实施例的片上系统(SoC)的框图。

图23是对比根据本发明实施例的使用软件指令转换器将源指令集中的二进制指令转换为目标指令集中的二进制指令的框图。

实施例的详细描述

本文中公开的是有限范围向量存储器访问指令，用于执行该指令的处理器，在处理或执行该指令时处理器执行的方法，以及合并一个或多个处理器以执行该指令的系统。在以下描述中，阐述多个特定细节(例如，专用指令、指令格式、打包数据格式、处理器配置、微架构细节、操作顺序等)。然而，在没有这些具体细节的情况下，可实践实施例。在其他实例中，在细节方面未示出公知电路、结构和技术，以避免混淆对该描述的理解。

图1是用于执行一个或多个有限范围向量存储器访问指令103的处理器100的实施例的框图。在一些实施例中，处理器可以是通用处理器(例如，用在台式机、膝上型计算机、平板计算机、手持式计算机、蜂窝电话以及类似计算设备中使用的类型)。替换地，处理器可以是专用处理器。合适的专用处理器的例子包括但不限于，图形处理器、网络处理器、通信处理器、加密处理器、协处理器和数字信号处理器(DSP)，这里仅给出几个示例。处理器可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种超长指令字(VLIW)处理器、上述处理器的各种混合、或者完全其他类型的处理器中的任一个。

处理器具有指令集架构(ISA)101。ISA表示与编程相关的处理器的架构的一部分，并且包括处理器的本机指令、架构寄存器、数据类型、寻址模式、存储器架构、中断和异常处理以及外部输入和输出(I/O)等。ISA与微架构不同，微架构表示用于实现ISA的特定设计技术。

ISA包括架构可视寄存器(例如，架构寄存器文件)106。架构寄存器通常表示管芯上的处理器存储位置。架构寄存器还可在本文中被简称为寄存器。除非另行指出或显而易见，短语架构寄存器、寄存器文件和寄存器在本文中被用于指代这样的寄存器：该寄存器对于被宏指令或汇编语言指令指定来标识操作数的软件和/或编程器和/或寄存器而言是可见。这些寄存器与给定微架构(例如，由指令使用的临时寄存器、重排序缓冲器、引退(retirement)寄存器等)中的其他非架构或非架构上可视寄存器形成对比。所例示的寄存器包括打包数据寄存器107。每个打包数据寄存器可操作用于存储打包数据、向量数据或者SIMD数据。在一些实施例中，寄存器还可任选地包括打包数据操作掩码寄存器108，然而这不是必须的。

ISA包括处理器支持的指令集101。与微指令或微操作(例如，由解码器解码宏指令得到的那些)不同，指令集的指令表示汇编语言指令、机器级指令或宏指令(例如，提供给处理器以供执行)。指令集包括一个或多个有限范围向量存储器访问指令103，这些指令各自可操作用于导致处理器访问外部存储器110的有限范围120。在一些实施例中，有限的范围120可仅标识外部存储器110的一部分或子集(例如连续可索引部分或子集)。在一些实施例中，指令103可任选地包括一个或多个有限范围向量收集指令104，该指令可用于导致处理器从外部存储器110的有限范围120中的潜在的非连续位置读取、加载或收集数据元素。在一些实施例中，指令103可任选地包括一个或多个有限范围向量分散指令105，该指令可用于导致处理器向外部存储器110的有限范围120中的潜在的非连续位置写入、存储或分散数据元素。在各实施例中，可具有从单个有限范围向量存储器访问指令至多个或很多这种指令中的任意个。

处理器还包括执行逻辑109。执行逻辑用于执行或处理有限范围向量存储器访问指令103，并且响应于该指令访问有限范围(例如，从该有限范围收集元素或向有限范围分散元素。)适当的执行逻辑的示例包括但不限于执行单元、功能单元、存储器访问单元、存储器执行单元、收集单元、分散单元等。

图2是指令处理装置200的实施例的框图。在一些实施例中，指令处理装置200可以是图1的处理器或类似装置，或者可被包括在该处理器或类似装置中。替换地，指令处理装置200可以是或可被包括在不同的处理器中。此外，图1的处理器可包括与图2不同的指令处理装置。

指令处理器装置200可接收有限范围向量存储器访问指令203。例如，可从指令获取单元、指令队列、存储器等接收该指令。在一些实施例中，指令可表示有限范围向量收集指令或有限范围向量分散指令。

该装置包括一组打包数据寄存器207。在一些实施例中，该装置可任选地包括一组打包数据操作掩码寄存器208，然而这不是必须的。寄存器可表示架构处理器上(例如管芯上)的处理器存储位置。寄存器可使用公知技术在不同的微架构中以不同的方式实现，并且不限于任何特定类型的电路。合适类型的寄存器的示例包括但不限于，专用物理寄存器、使用寄存器重命名的动态分配的物理寄存器、以及其组合。

有限范围向量存储器访问指令可显式地指定(例如，通过一个或多个位或字段)或以其它方式指示(例如，隐含地指示)具有多个打包存储器索引的源打包存储器索引213。在一些实施例中，打包存储器索引可以是经打包的8位字节存储器索引或经打包的16位字存储器索引。通常，向量收集指令通常实现显著较大的32位或64位存储器索引，因为预期它们能够从存储器的任意位置而不是仅从存储器210内的有限范围220收集。在向量收集指令/操作或向量存储器加载指令/操作的情况下，指令可指示目的地存储位置215，在该目的地存储位置中存储包括从存储器210的有限范围220加载或收集的数据元素的结果打包数据。在向量分散指令/操作或向量存储器存储指令/操作的情况下，指令可指示包括将被写入或分散到存储器210的有限范围220的多个数据元素的源打包数据214。如所示，在一些实施例中，源打包存储器索引213、源打包数据214和目的地存储位置215可以是一组打包数据寄存器207的打包数据寄存器。替换地，其它存储位置可任选地用于这些位置中的一个或多个。

在一些实施例中，有限范围向量存储器访问指令203可任选地指定或以其它方式指示源打包数据操作掩码216，尽管这不是必须的。以下将进一步讨论打包数据操作掩码及其用于预测和条件控制。其它实施例可任选地再没有掩蔽或预测的情况下执行。

再次参考图2，所示的指令处理器装置包括解码逻辑211(例如，解码单元或解码器)。指令解码逻辑可接收和解码较高级机器代码或宏指令(例如，指令203)，并且输出一个或多个较低级的微操作、微代码入口点、微指令或者反映和/或源自原始较高级指令的其他较低级指令或控制信号。一个或多个较低级指令或控制信号可通过一个或多个较低级(例如，电路级或硬件级)操作来实现较高级指令的操作。可使用各种不同的机构来实现解码逻辑，这些机构包括但不限于，微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)、以及在本领域中已知的其他机构。在其它实施例中，可使用指令仿真器、翻译器、变形器(morpher)、解释器或者其他指令转换逻辑(例如，实现为软件、硬件、固件或组合)来取代具有解码逻辑211。在又一个实施例中，可使用指令转换逻辑和解码逻辑的组合。指令转换逻辑中的一些或全部可潜在地位于其余指令处理装置的管芯外，诸如在单独的管芯上或在存储器中。

再次参考图2，执行逻辑209与解码逻辑211耦合。指令逻辑还与打包数据寄存器207耦合，且在一些实施例中，任选地与打包数据操作掩码寄存器208耦合。适当的执行逻辑的示例包括但不限于执行单元、功能单元、存储器访问单元、存储器执行单元、收集单元、分散单元等。执行逻辑和/或装置可包括用于执行和/或处理指令203并响应于该指令访问存储器的有限范围的特定或具体逻辑(例如，电路、晶体管或潜在地与软件和/或固件结合的其它硬件)。在一些实施例中，执行单元包括至少一些集成电路、晶体管或其它半导体管芯的电路或硬件。

执行逻辑可响应于有限范围向量存储器访问指令203和/或作为有限范围向量存储器访问指令203的结果(例如，响应于从该指令203解码的或以其它方式导出的一个或多个控制信号)访问存储器210的有限范围220。例如，在有限范围向量收集指令的实施例中，执行单元可使用源打包存储器索引213以收集或加载来自存储器210的有限范围220中潜在的非连续位置的数据元素，并且将所收集或加载的数据元素存储在目的地存储位置215中。在有限范围向量收集指令的实施例中，执行单元可使用源打包存储器索引213来将来自源打包数据214的数据元素分散或写入存储器210的有限范围220中的潜在的非连续位置中。

在一些实施例中，有限范围向量存储器访问指令203可用于访问仅存储器210的有限范围220。在一些实施例中，指令指示仅8位字节或16位字存储器索引。常规的向量收集指令通常允许从存储器的任何位置收集数据元素。结果，通常使用32位或64位存储器索引。这些32位或64位存储器索引具有足够多的位来允许从基本上存储器中的任意位置或至少从相对大量的存储器(例如能够由32位或64位寻址)潜在地收集数据元素。

此外，使用32位或64位存储器索引的一个潜在的缺点是它们相对较大的尺寸可能倾向于限制可被存储在单个打包数据寄存器(被指示为向量收集指令的源操作数)中的这种存储器索引的数量。例如，仅四个64位存储器索引或仅八个32位存储器索引可适配(fit)在256位寄存器内。此外，在一些情况下，可能期望收集相对较小的数据元素，诸如8位字节数据元素或16位字元素。然而，相对较大尺寸的存储器索引倾向于限制可被收集的这种8位字节或16位字元素的数量。例如，通常仅收集与打包数据寄存器中适配的32位或64位存储器索引的数量相同数量的数据元素。结果，部分地由于32位或64位存储器索引的大尺寸，通常不可能收集期望那样多的这些元素。

在一些实施例中，代替这种相对较大的32位或64位存储器索引，有限范围向量存储器访问指令/操作的实施例可使用相对较小的存储器索引，诸如8位字节或64位字存储器索引。有利地，这可有助于增加可被存储在单个打包数据寄存器中作为源打包存储器索引的这种存储器索引的数量。例如，三十二个8位存储器索引或十六个16位存储器索引可在适配256位寄存器中，而不是仅四个64位存储器索引或八个32位存储器索引。又例如，六十四个8位存储器索引或三十二个16位存储器索引可适配在512位寄存器内。相应地，这可有助于增加单个有限范围向量收集或分散指令/操作的实施例可收集或分散的数据元素的数量。

在一些实施例中，这些相对较小的8位字节或16位字存储器索引可能不足以从存储器的任何位置访问数据元素。相反，这些较小的8位或16位存储器索引可访问较大整个存储器(例如需要通过32位或64位存储器索引寻址的存储器)的仅有限范围(例如能够被8位或16位存储器索引而索引的连续子集)中的数据元素。在一些实施例中，处理器支持的ISA可包括一个或多个其它存储器访问指令(例如向量收集指令)，其指示使用32位或64位存储器索引访问来自整个存储器中的任何位置的数据元素。例如，在一些实施例中，对应于8位存储器索引的有限范围可由能够通过8位字节存储器索引唯一地索引的不超过256个数据元素或256个存储位置。作为另一个示例，在一些实施例中，有限范围可由能够被16位字节存储器索引唯一地索引的不超过65536个数据元素或65536个存储位置构成。在其它实施例中，能够被索引的这些数据元素或存储位置的仅一部分或子集可被用作有限范围(例如，不是使用16位索引的全范围，而是仅使用该范围的一部分)。

尽管有限范围向量存储器访问指令/操作不能存储器中的任何位置的数据元素，但存在为什么访问很大的存储器的仅有限范围内的数据元素有利的各种原因。例如，可能是这种情况：当表、阵列、数据结构或数据的其它布置或集合可被存储在有限范围内中。通常算法可能需要同时访问表、阵列、数据结构或数据的其它布置或集合内的多个或很多数据元素。例如，算法可转置矩阵或以其它方式重新排列或重写构造数据，在这种情况下可能需要访问很多数据元素。作为另一个示例，算法可访问按恒定跨距(stride)隔开(例如，每个第三、第三、第四或第N数据元素)的数据元素。更一般地，有很多实例，其中算法可用于访问被存储在可由8位字节或16位字存储器索引来索引的存储器的有限范围内的数据布置或集合内的多个或很多数据元素。

有利地，当在这些实例中使用时，部分地由于较小的8位或16位存储器索引，本文公开的有限范围向量存储器访问指令/操作的实施例能够在单个指令/操作内访问(例如，收集或分散)相对更多的数据元素。不需要可能倾向于限制所访问的这种数据元素的数量的较大的索引，因为仅从有限范围内而不是存储器的任意位置收集数据元素。此外，如以下进一步讨论的，在一些实施例中，有限范围向量存储器访问指令/操作可更高效地实现和/或可比将顺序访问用于每个被访问的数据元素的的常规向量收集指令/操作更快(例如，因为可执行较少的存储器访问，每个都涉及多个数据元素)。

为了避免混淆描述，已经描述了单指令处理装置200，但指令处理装置可任选地包括一个或多个其它常规组件。这种常规组件的实例包括但不限于指令提取单元、指令调度单元、分支预测单元、指令和数据高速缓存、指令和数据的翻译后备缓冲器(translation lookaside buffer：TLB)、预获取缓冲器、微指令队列、微指令定序器、总线接口单元、引退/提交单元、寄存器重命名单元以及处理器中常规采用的其他组件。此外，实施例可具有多个核、逻辑处理器或执行引擎，其具有相同或不同的指令集和/或ISA。实际上，处理器中的这些组件有大量不同的组合和配置，并且实施例不限于任何特定的这种组合或配置。

图3是处理指令的实施例的方法330的实施例的流程框图。在各种实施例中，该方法由通用处理器、专用处理器、或者其他指令处理装置或数字逻辑设备执行。在一些实施例中，图3的操作和/或方法可由图1的处理器和/或图2的装置执行，和/或在图1的处理器和/或图2的装置内执行。本文中所描述的用于图1-2的处理器和装置的组件、特征、以及具体的任选细节还任选地应用于图3的操作和/或方法。替换地，图3的操作和/或方法可由类似的或完全不同的处理器或装置执行，和/或在类似的或完全不同的处理器或装置内执行。此外，图1的处理器和/或图2的装置可执行与图3相同、相似或者完全不同的操作和/或方法。

方法包括在框331接收有限范围向量存储器访问指令。在各个方面，该指令可在处理器、指令处理装置或者其一部分(例如，指令提取单元、解码器、指令转换器等)处接收。在各个方面，该指令可从管芯外的源(例如，从DRAM存储器、盘、或互连)或者从管芯上的源(例如，从指令高速缓存)接收。有限范围向量存储器访问指令可指示具有多个打包存储器索引的源打包存储器索引。在一些实施例中，存储器索引可以是8位存储器索引或16位存储器索引之一。在一些实施例中，存储器索引可以是8位存储器索引。在一些实施例中，源打包存储器索引可包括至少32个存储器索引。

在框332，可响应于有限范围存储器访问指令，访问仅在有限的存储器范围中的存储器位置。在一些实施例中，利用一个或多个32位或64位的存储器地址每个访问有限范围。在一些实施例中，有限范围可包括仅256字节。在一些实施例中，如以下进一步解释的，通过多个数据元素加载进行访问，这些数据元素加载可加载多个数据元素中的每一个，包括需要和不需要的数据元素。在一些实施中，这种多元素加载可有助于提高速度和效率。在一些实施例中，可将整个有限范围从存储器加载到存储器的存储位置(例如，管芯上的寄存器)。

所示方法涉及架构可视操作(例如，从软件角度可视的操作)。在其他实施例中，该方法可任选地包括一个或多个微架构操作。作为示例，可获取、解码、无序地调度该指令，可访问源操作数，可启用执行逻辑以执行微架构操作从而实现该指令的操作，执行逻辑可执行微架构操作，可将结果重新输入回到程序次序等。

图4是示出可响应于有限范围收集指令的实施例而执行的有限范围收集操作403的一个实施例的框图。有限范围收集指令可指定或以其它方式指示具有多个打包存储器索引的源打包存储器索引413。如图所示，在一些实施例中，存储器索引可以是8位字节存储器索引，且源打包存储器索引可以是512位宽，且可包括六十四个8位字节存储器索引。或者，在其它实施例中，可任选地使用16位字存储器索引或其它小于32位的存储器索引。此外，在其它实施例中，可任选地使用除512位以外的其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。作为实例，64位、128位和256位宽度可分别能够存储八个、十六个和三十二个8位字节存储器索引，或16位字存储器索引各自的一半。在所示的示例中，存储器索引具有从最低有效位置(左边)至最高有效位置(右边)右边的值134，231，20，135，5，21，30，...186。这些值仅仅是示例。

可响应于有限范围收集指令的实施例和/或作为其结果，执行有限范围向量收集操作的实施例。有限范围向量收集操作可从存储器410的有限范围420加载或收集数据元素。如前所讨论的，有限范围可仅表示整个一般的很大存储器(例如可由其它指令利用32位或64位存储器索引而索引)的小子集(例如能够由8位或16位存储器索引而索引的连续子集)。有限范围的限度或尺寸可基于存储器索引的位的宽度。例如，每个8位字节存储器索引可用于唯一地索引或寻址256个不同的位置或数据元素中的任一个，且在一些实施例中，有限范围可包括仅这些256个位置或数据元素(例如，256字节或字)。所收集的数据元素可通过源打包存储器索引413的相应的存储器索引来指示。每个存储器索引可指向相对应的存储器位置和/或其中存储的数据元素。例如，在所示的实施例中，存储器索引134指向存储数据元素B1的有限范围中的存储器位置，且存储器索引231指向存储数据元素B2的有限范围中的存储器位置，等等。

可响应于有限范围向量收集指令/操作和/或作为其结果，将打包数据结果415存储在目的地存储位置中。在一个方面中，指令可指定或以其它方式指示目的地存储位置。在一些实施例中，打包数据结果可包括仅从有限范围420内的潜在的不连续区域收集的数据元素，而不是存储器410的其它部分中。如所示，在一些实施例中，打包数据结果可以是512位宽，且可包括六十四个8位字节数据元素。或者，16位或32位双字数据元素可被收集且可被存储在较宽或较窄的结果打包数据中。在所示的示例中，目的地中的打包数据结果存储从最低有效位置(左边)至最高有效位置(右边)右边的数据元素B1，B2，B3，B4，B5，B6，B7，...B64。这仅仅是一个示例。

图5是示出可响应于经掩蔽有限范围收集指令的实施例而执行的经掩蔽有限范围收集操作503的一个实施例的框图。图5的经掩蔽操作与图4的未经掩蔽操作有一些类似性。为了避免混淆描述，主要描述图5的经掩蔽操作的不同和/或附加特性，而不重复相对于图4的未经掩蔽操作的所有类似或通用的特性。然而，将意识到除非明确指出，否则这些先前描述的未经掩蔽操作的特性也任选地适用于图5。

经掩蔽有限范围收集指令可指定或以其它方式指示具有多个打包存储器索引的源打包存储器索引513。如图所示，在一些实施例中，存储器索引可以是8位字节存储器索引，且源打包存储器索引可以是512位宽，且可包括六十四个8位字节存储器索引。或者，在其它实施例中，可任选地使用16位字存储器索引或其它小于32位的存储器索引。此外，在其它实施例中，可任选地使用除512位以外的其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。

在一些实施例中，经掩蔽有限范围收集指令可任选地指定或以其它方式指示源打包数据操作掩码516。打包数据操作掩码还可在本文中被简单地称为操作掩码、断言掩码或掩码。掩码可表示用于掩蔽、断言或条件控制是否执行操作(例如，收集操作)的断言操作数或条件控制操作数。在一些实施例中，掩蔽或预测可按数据元素粒度，使得可单独地或与其它无关地断言或条件控制不同数据元素上的操作。操作掩码包括多个掩码元素、断言元素或条件控制元素。在一个方面，可以按与相对应源数据元素和/或结果数据元素的一对一对应的形式包括元素。如所示，在一些实施例中，每个掩码元素可以是单个掩码位。每个掩码位的值可控制是否执行操作(例如，收集操作)。根据一个可能的协定，每个掩码位可具有用于允许执行收集操作和将结果数据元素存储在目的地存储位置中的第一值(例如被设定为二进制1)或用于不允许执行收集操作和/或不允许将收集的数据元素存储在目的地存储位置中的第二值(例如，被清除为二进制0)。

如所示，在源打包存储器索引513是512位宽且具有六十四个8位存储器索引的情况下，源打包数据操作掩码516可以是64位宽，且每个位表示预测或掩码位。或者，源打包数据操作掩码可具有其它宽度，例如位宽度等于源打包存储器索引513中的存储器索引的数量(例如，八、十六、三十二等)。在所示的示例中，从最低有效(在左边)至最高有效(右边)的掩码位为1，1，0，1，1，1，0，...1。这仅仅是一个示例。根据所示的协定，掩码位值二进制0表示掩蔽掉元素，而掩码位值二进制1表示未经掩蔽元素。对于每个未经掩蔽的元素，将执行相关联的收集操作，且将所收集的数据元素存储在打包数据结果515的相应数据元素中。每个掩码位对应于存储器索引和相应位置中的结果数据元素。例如，在图示中，相应的位置彼此垂直对准。

可响应于经掩蔽有限范围收集指令的实施例和/或作为其结果，执行经掩蔽有限范围向量收集操作503的实施例。操作可从受到源打包数据操作掩码516的条件控制的存储器510的有限范围520加载或收集数据元素。可响应于经掩蔽有限范围向量收集指令/操作和/或作为其结果，将打包数据结果515存储在目的地存储位置中。在一些实施例中，如果打包数据操作掩码中的相应掩码位被设定为一，则可仅收集数据。在对应的掩码位被掩蔽掉(例如在清除为二进制0的所示示例中)的结果打包数据的位置中示出星号(*)。如所示，在一些实施例中，打包数据结果可以是512位宽，且可包括六十四个8位字节数据元素。或者，16位或32位双字数据元素可被收集且可被存储在较宽或较窄的结果打包数据中。在所示的示例中，目的地中的打包数据结果存储从最低有效位置(左边)至最高有效位置(右边)右的数据元素B1，B2，*，B4，B5，B6，*，...B64。

在一些实施例中，可执行合并掩蔽。在合并掩蔽中，当给定的目的地数据元素被掩蔽时，目的地存储位置中的最初的或预先存在的数据元素值可保留不变(即，不被操作的结果更新)。在其它实施例中，可执行归零掩蔽。在归零掩蔽中，当给定的目的地数据元素被掩蔽时，相应的给定目的地数据元素可被归零，或可将零值存储在相应的给定目的地数据元素中。或者，可将其它预定的值存储在掩蔽掉目的地数据元素中。因此，在各实施例中，由星号(*)指示的数据元素位置可具有归零值或在收集操作之前目的地存储位置中最初的数据元素值。

图6是示出可响应于有限范围分散指令的实施例而执行的有限范围分散操作605的一个实施例的框图。有限范围分散指令可指定或以其它方式指示具有多个打包存储器索引的源打包存储器索引613。如图所示，在一些实施例中，存储器索引可以是8位字节存储器索引，且源打包存储器索引可以是512位宽，且可包括六十四个8位字节存储器索引。或者，在其它实施例中，可任选地使用16位字存储器索引或其它小于32位的存储器索引。此外，在其它实施例中，可任选地使用除512位以外的其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。

有限范围分散指令还可指定或以其它方式指示具有要分散的多个打包数据元素的源打包数据614。如所示，在一些实施例中，打包数据元素可以是8位字节数据元素，且源打包数据614可以是512位宽，且可包括六十四个这样的8位字节数据元素。或者，在其它实施例中，可任选地使用16位字数据元素或32位双字数据元素。此外，在其它实施例中，除512位以外，还可任选地使用其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。在一些实施例中，存储器索引ma的宽度可与数据元素的宽度相同，但这不是必须的(例如，可将比存储器索引宽两倍的寄存器用于数据元素)。

可响应于有限范围分散指令的实施例和/或作为其结果，执行有限范围向量分散操作的实施例。有限范围向量分散操作可向存储器610的有限范围620存储、写入或分散数据元素。如本文其它位置所讨论的，有限范围可仅表示整个一般的很大存储器610(例如可由其它指令利用32位或64位存储器索引而索引)的小子集(例如能够由8位或16位存储器索引而索引的连续子集)。有限范围620可具有本文其它位置描述的任选特性或属性中的任一个。可将源打包数据元素614分散到源打包存储器索引613指示和/或导出的位置。每个存储器索引可指向相对应的存储器位置。在一些实施例中，数据元素可被分散到仅有限范围620内的任选/潜在非连续存储器位置，而不是较大存储器610的其它部分。例如，在所示的实施例中，存储器索引134指向数据元素B1被写入的有限范围中的存储器位置，且存储器索引231指向数据元素B2被写入的有限范围中的存储器位置，等等。

图7是示出可响应于经掩蔽有限范围分散指令的实施例而执行的经掩蔽有限范围分散操作705的实施例的框图。图7的掩蔽操作与图6的未经掩蔽操作有一些类似性。为了避免混淆描述，主要描述图7的掩蔽操作的不同和/或附加特性，而不重复相对于图6的未经掩蔽操作的所有类似或通用的特性。然而，将意识到除非明确指出，否则先前描述的未经掩蔽操作的特性也任选地适用于图7。

掩蔽有限范围分散指令可指定或以其它方式指示具有多个打包存储器索引的源打包存储器索引713。如图所示，在一些实施例中，存储器索引可以是8位字节存储器索引，且源打包存储器索引可以是512位宽，且可包括六十四个8位字节存储器索引。或者，在其它实施例中，可任选地使用16位字存储器索引或其它小于32位的存储器索引。此外，在其它实施例中，可任选地使用除512位以外的其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。

有限范围分散指令还可指定或以其它方式指示具有要分散的多个打包数据元素的源打包数据714。如所示，在一些实施例中，打包数据元素可以是8位字节数据元素，且源打包数据614可以是512位宽，且可包括六十四个这样的8位字节数据元素。或者，在其它实施例中，可任选地使用16位字数据元素或32位双字数据元素。此外，在其它实施例中，可任选地使用除512位以外的其它打包数据宽度，诸如64位、128位、256位、1024位打包数据宽度。

在一些实施例中，经掩蔽有限范围分散指令可任选地指定或以其它方式指示源打包数据操作掩码716。掩码716可任选地具有本文中的其它位置中描述的其它打包数据操作掩码、断言掩码或条件控制操作数的特性或属性中的任一个。如所示，在源打包存储器索引具有六十四个存储器索引和/或源打包数据具有六十四个数据元素的情况下，源打包数据操作掩码716可以是64位宽，且每个位可表示相应数据元素中的断言或掩码位和/或对应相关位置中的存储器索引。或者，源打包数据操作掩码可具有其它宽度，例如，与存储器索引的数量和/或数据元素的数量相等的位宽度。根据所示的协定，掩码位值二进制0表示掩蔽掉元素，而掩码位值二进制1表示未经掩蔽元素。

可响应于有限范围分散指令的实施例和/或作为其结果，执行有限范围向量分散操作的实施例。有限范围向量分散操作可向较大存储器710的有限范围720存储、写入或分散数据元素。如本文其它位置所讨论的，有限范围可仅表示整个一般的很大存储器(例如可由其它指令利用32位或64位存储器索引而索引)的小子集(例如能够由8位或16位存储器索引而索引的连续子集)。有限范围720可具有本文其它位置描述的任选特性或属性中的任一个。可在源打包数据操作掩码716的断言或条件控制下，将源打包数据元素714分散到源打包存储索引713指示的位置和/或从源打包存储索引713导出的位置。在一些实施例中，数据元素可被分散到仅有限范围720内的任选/潜在非连续存储器位置，而不是较大存储器710的其它部分。例如，在所示的实施例中，可将数据元素B1写入存储器索引值134指出的有限范围中的位置，可将数据元素B2写入存储器索引值231指出的有限范围中的位置，等等。在所示的示例中，用于存储器索引值20的数据元素B3和用于存储器索引值30的数据元素B7被掩蔽掉，使得不执行分散。这在图示中由对应于存储器索引值20和存储器索引值30的位置中的星号(*)指出。在一些情况下，这些存储器位置可具有其在分散操作之前预先存在的值(例如，不可由分散操作改变)。

以下伪代码表示有限范围向量收集指令/操作VXLATB的示例实施例：

VXLATB zmm1{k1}，vm8z；///还允许其它向量长度

(KL，VL)=(16，128)，(32，256)，(64，512)

FORj←0TO KL-1

i←j*8

IF k1[j]

THEN DEST[i+7∶i]←MEM[BASE_ADDR+SignExtend(VINDEX[i+7∶i])* SCALE+DISP]

ELSE*DEST[i+7∶i]←保持不变*

；使用合并掩蔽

FI；

ENDFOR

DEST[MAX_VL-1：VL]←0

以下伪代码表示有限范围向量收集指令/操作VBTALXB的示例实施例：

VBTALXB zmm1{k1}，vm8z；///还允许其向量长度

(KL，VL)=(16，128)，(32，256)，(64，512)

FORj←0TO KL-1

i←j*8

IF k1[j]

THEN MEM[BASE_ADDR+SignExtend(VINDEX[i+7∶i])*SCALE+DISP]←SRC[i+7∶i]

ELSE*DEST[i+7∶i]←保持不变*

；使用合并掩蔽

FI；

ENDFOR

在以上的伪代码中，zmm1表示512位打包数据寄存器。寄存器zmm1用作VXLATB的目的地(DEST)以及VBTALXB的源(SRC)。k1表示64位掩码寄存器。KL表示掩码长度，且VL表示向量长度，对于任一指令，它们选自(16，128)，(32，256)，(64，512)中的任一个。vm8z表示利用向量缩放索引基础存储器寻址指定的存储器操作数的向量阵列。利用普通的基址寄存器、恒定缩放因子和具有512位ZMM寄存器中的8位索引值的各个元素的向量索引寄存器指定存储器地址阵列。VINDEX表示存储器索引的向量。SignExtend表示存储器索引VINDEX上的符号扩展操作。BASE_ADDR表示基址，且SCALE表示存储器访问中常用的缩放。符号←表示存储。i和j是循环计数。

图8是示出可响应于有限范围收集指令的实施例而执行的有限范围收集操作803的实施例的示例实现的框图。在一些实施例中，操作803可由图1的处理器和/或图2的装置执行，和/或在图1的处理器和/或图2的装置内执行。替换地，操作803可由类似的或完全不同的处理器或装置执行，和/或在类似的或完全不同的处理器或装置内执行。此外，图1的处理器和/或图2的装置可执行与图8相同、相似或者完全不同的操作。此外，在一些实施例中，操作803的各方面可任选地合并在图3的方法中，在实施例中，图3的方法可由图1的处理器和/或图2的装置执行，和/或在图1的处理器和/或图2的装置内执行。

有限范围收集指令可指定或以其它方式指示源打包存储器索引813和目的地存储位置815。如所示，在一些实施例中，存储器索引可以是8位字节存储器索引，但这不是必须的。在所示的示例中，存储器索引具有从最低有效位置(左边)至最高有效位置(右边)右的值0，50，100，150，200。这些值仅仅是示例，但注意所有的值在能够通过字节索引而索引的0至255的范围内。

执行逻辑809的实施例可执行有限范围向量收集操作803。类似于先前讨论的实施例，操作可从存储器810的有限范围820收集存储器索引指示的数据元素，并且将所收集的数据元素存储在目的地存储位置815中的对应结果数据元素中。如所示示例所示，存储器索引0，50，100，150，200可指示有限范围中的具有值A，B，C，D，E的数据元素，且这些值A，B，C，D，E可被存储在目的地存储位置的对应结果数据元素中。有限范围可具有本文中其它位置提到的任选属性中的任一个。

实现向量收集指令的一种方式是通过单独的加载操作(例如，微操作)单独或独立地加载或收集每个数据元素。例如，可顺序地一个接一个地执行八个加载操作，以收集八个数据元素。这种顺序加载操作一般倾向于消耗大量时间以便完成。同样，在这些顺序加载操作期间，可能潜在地发生页错误。因此，处理器通常需要能够跟踪所有的加载操作并且在这种页错误的确发生的情况下监视收集指令的完成。

然而，在一些实施例中，不是加载或收集单个数据元素，而是从存储器的有限范围将多个数据元素加载或以其它方式检索到按加载操作的处理器。即，在一些实施例中，可利用一个或多个多数据元素加载实现有限范围向量收集操作。如所示示例实施例所示，执行逻辑809可包括与有限范围耦合的512位宽存储器加载逻辑840。512位宽存储器加载逻辑可执行512位加载，以在单个加载操作中加载512位中尽可能多的数据元素。例如，单个512位加载操作可加载六十四个8位字节数据元素。在一些实施例中，可利用四个512位加载将整个256字节有限范围820加载到处理器，以分别加载256字节有限范围的四个512位非重叠部分。如所示，在一些实施例中，整个256位加载有限范围可被存储在四个512位寄存器中，或者可被存储在八个256位寄存器或二个1024位寄存器。任何处理器上的存储位置可能是适当的，包括专用或现有的寄存器架构或非架构。作为另一个选项，不是使用512位加载，而是可任选地使用较窄的(例如，128位、256位等)或较宽的(例如，1024位)加载。此外，如果在有限范围内的给定部分中没有需要的数据元素，则可任选地省略一个或多个这些加载。

取决于存储器索引的值，每个加载可潜在地加载所需/期望和非所需/非期望的数据元素。例如，每个加载可加载多个存储器索引中的一存储器索引指示的存储器地址处的至少一个数据元素、以及不是由多个存储器索引中的一存储器索引指示的存储器地址处的至少一个数据元素。例如，如图所示，可加载分别对应于索引0，50，100，150和200的所需/期望数据元素A，B，C，D和E。另外，可加载非所需/非期望数据元素，诸如数据元素F和G。还可加载其它非所需/非期望数据元素(为了简化而未示出)。数据元素F和G不可通过源打包字节存储器索引813索引或寻址。有利地，这种多数据元素加载可允许在小于给定数量的加载中收集给定数量的数据元素。例如，通常四个以上的期望数据元素可被包括在加载的有限范围中，既使执行仅四个加载操作。例如，在一个实施例中，可在仅四个加载中收集六十四个8位字节数据元素。在其它实施例中，可利用较少数量(例如，四)较大的从存储器多数据元素加载来加载三十二、十六或八个期望的相对较小的数据元素。这进而可有助于增加操作速度。

再次参考图示，执行逻辑809还包括基于存储器索引的数据重新布置逻辑842。基于存储器索引的数据重新布置逻辑可用于重新布置来自加载的有限范围和/或加载的数据元素的期望/所需数据元素，并且将它们存储在相应存储器索引指示的目的地存储位置中的适当位置中。在一些实施例中，整个有限范围的数据元素的子集可基于存储器索引被选择地移动到目的地存储位置。构想到执行重新布置的各种方式。在一些实施例中，可使用一个或多个置换、混洗、提取或其它数据重新布置操作。

各种不同的打包数据宽度和数据元素宽度是适当的。在一些实施例中，128位宽打包数据可包括十六个8位字节数据元素，或八个16位字数据元素。在其它实施例中，256位打包数据可包括三十二个8位字节数据元素，或十六个16位字数据元素。在其它实施例中，512位打包数据可包括六十四个8位字节数据元素，或三十二个16位字数据元素。在另一些实施例中，大于512位或小于128位的打包数据格式也是适当的。例如，1012位打包数据和64位打包数据适用于8位字节或16位字。通常，数据元素的数量等于以位计的打包数据操作数的大小除以以位计的数据元素的大小。

图9是一组合适的打包数据寄存器907的示例实施例的框图。所示打包数据寄存器包括三十二个512位打包数据或向量寄存器。这些三十二个512位寄存器被标记为ZMM0至ZMM31。在所示实施例中，这些寄存器中的较低十六个的较低阶256位(即，ZMM0-ZMM15)被混叠或者覆盖在相应256位打包数据或向量寄存器(标记为YMM0-YMM15)上，但是这不是必需的。同样，在所示实施例中，YMM0-YMM15的较低阶128位被混叠或者覆盖在相应128位打包数据或向量寄存器(标记为XMM0-XMM1)上，但是这也不是必需的。512位寄存器ZMM0至ZMM31可操作用于保持512位打包数据、256位打包数据或者128位打包数据。256位寄存器YMM0-YMM15可操作用于保持256位打包数据或者128位打包数据。128位寄存器XMM0-XMM1可操作用于保持128位打包数据。每一寄存器可用于存储打包浮点数据或打包整数数据。支持不同数据元素大小，包括至少8位字节数据、16位字数据、32位双字或单精度浮点数据、以及64位四倍字或双精度浮点数据。打包数据寄存器的替换实施例可包括不同数量的寄存器、不同大小的寄存器，并且可以或者可以不将较大寄存器混叠在较小寄存器上。

图10是一组合适的打包数据操作掩码寄存器1008的示例实施例的框图。打包数据操作掩码寄存器中的每一个可用于存储打包数据操作掩码。在所例示的实施例中，该组包括标示为K0至k7的八个打包数据操作掩码寄存器。替代的实施例可包括比八个更少(例如，两个、四个、六个等)或比八个更多(例如，十六个、二十个、三十二个等)打包数据操作掩码寄存器。在所例示的实施例中，打包数据操作掩码寄存器中的每一个为64位。在替代实施例中，打包数据操作掩码寄存器的宽度可以比64位更宽(例如，80位，128位等)或比64位更窄(例如，8位、16位、32位等)。作为示例，经掩蔽有限范围向量存储器访问指令可使用三个位(例如，3位字段)来编码或指定八个打包数据操作掩码寄存器k0至k7中的任一个。在替代实施例中，在分别有更少或更多打包数据操作掩码寄存器时，可使用更少或更多位。

图11是例示64位打包数据操作掩码寄存器1108的示例实施例并且示出可被用作打包数据操作掩码和/或用于进行掩蔽的位的数目取决于打包数据宽度和数据元素宽度的示图。所示的掩码寄存器是64位宽，但这不是必须的。一般而言，当单个每元素掩蔽控制位被使用时，用于进行掩蔽的位的数目等于以位计的打包数据宽度除以以位计的打包数据元素宽度。为了进一步示出，考虑几个可能的示例实施例。可将仅8位(例如仅较低的8位)用于具有16位数据元素的128位打包数据。可将仅16位(例如仅较低的16位)用于具有8位数据元素的128位打包数据或具有16位数据元素的256位打包数据。可将仅32位(例如仅较低的32位)用于具有8位数据元素的256位打包数据或具有16位数据元素的512位打包数据。所有的64位可用于具有8位数据元素的512位打包数据。

指令集包括一种或多种指令格式。给定指令格式定义各个字段(位的数量、位的位置)以指定要执行的操作(操作码)以及对其要执行该操作的操作码等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如，给定指令格式的指令模板可被定义为具有指令格式的字段(所包括的字段通常在相同的阶中，但是至少一些字段具有不同的位位置，因为包括更少的字段)的不同子集，和/或被定义为具有不同解释的给定字段。由此，ISA的每一指令使用给定指令格式(并且如果定义，则在该指令格式的指令模板的给定一个中)来表达，并且包括用于指定操作和操作数的字段。例如，示例性ADD指令具有专用操作码以及包括指定该操作码的操作码字段和选择操作数的操作数字段(源1/目的地以及源2)的指令格式，并且该ADD指令在指令流中的出现将具有选择专用操作数的操作数字段中的专用内容。已经发布和/或公布了涉及高级向量扩展(AVX)(AVX1和AVX2)且使用向量扩展(VEX)编码方案的SIMD扩展集(例如，参见2011年10月的64和IA-32架构软件开发手册，并且参见2011年6月的高级向量扩展编程参考)。

示例性指令格式

本文中所描述的指令的实施例可以不同的格式体现。另外，在下文中详述示例性系统、架构、以及流水线。指令的实施例可在这些系统、架构、以及流水线上执行，但是不限于详述的系统、架构、以及流水线。

VEX指令格式

VEX编码允许指令具有两个以上操作数，并且允许SIMD向量寄存器比128位长。VEX前缀的使用提供了三个操作数(或者更多)句法。例如，先前的两个操作数指令执行改写源操作数的操作(诸如A=A+B)。VEX前缀的使用使操作数执行非破坏性操作，诸如A=B+C。

图12A示出示例性AVX指令格式，包括VEX前缀1202、实操作码字段1230、Mod R/M字节1240、SIB字节1250、位移字段1262以及IMM81272。图12B示出来自图12A的哪些字段构成完整操作码字段1274和基础操作字段1242。图12C示出来自图12A的哪些字段构成寄存器索引字段1244。

VEX前缀(字节0-2)1202以三字节形式进行编码。第一字节是格式字段1240(VEX字节0，位[7∶0])，该格式字段1140包含明确的C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供专用能力的大量位字段。具体地，REX字段1205(VEX字节1，位[7-5])由VEX.R位字段(VEX字节1，位[7]-R)、VEX.X位字段(VEX字节1，位[6]-X)以及VEX.B位字段(VEX字节1，位[5]-B)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三位(rrr、xxx以及bbb)进行编码，由此Rrrr、Xxxx以及Bbbb可通过增加VEX.R、VEX.X以及VEX.B来形成。操作码映射字段1215(VEX字节1，位[4∶0]-mmmmm)包括对隐含的领先操作码字节进行编码的内容。W字段1264(VEX字节2，位[7]-W)由记号VEX.W表示，并且取决于该指令提供了不同的功能。VEX.vvvv1220(VEX字节2，位[6∶3]-vvvv)的作用可包括如下：1)VEX.vvvv对以颠倒(1(多个1)补码)的形式指定第一源寄存器操作数进行编码，且对具有两个或两个以上源操作数的指令有效；2)VEX.vvvv针对特定向量位移对以1(多个1)补码的形式指定的目的地寄存器操作数进行编码；或者3)VEX.vvvv不对任何操作数进行编码，保留该字段，并且应当包含1111b。如果VEX.L1268大小的字段(VEX字节2，位[2]-L)=0，则它指示128位向量；如果VEX.L=1，则它指示256位向量。前缀编码字段1225(VEX字节2，位[1∶0]-pp)提供了用于基础操作字段的附加位。

实操作码字段1230(字节3)还被称为操作码字节。操作码的一部分在该字段中指定。

MOD R/M字段1240(字节4)包括MOD字段1242(位[7-6])、Reg字段1244(位[5-3])、以及R/M字段1246(位[2-0])。Reg字段1244的作用可包括如下：对目的地寄存器操作数或源寄存器操作数(Rfff中的rrr)进行编码；或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段1246的作用可包括如下：对参考存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

缩放索引基址(SIB)-缩放字段1250(字节5)的内容包括用于存储器地址生成的SS1252(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx1254(位[5-3])和SIB.bbb1256(位[2-0])的内容。

位移字段1262和立即数字段(IMM8)1272包含地址数据。

通用向量友好指令格式

向量友好指令格式是适于向量指令(例如，存在专用于向量操作的特定字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例，但是替换实施例只通过向量友好指令格式使用向量操作。

图13A-13B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的方框图。图13A是示出根据本发明的实施例的通用向量友好指令格式及其A类指令模板的方框图；而图13B是示出根据本发明的实施例的通用向量友好指令格式及其B类指令模板的方框图。具体地，针对通用向量友好指令格式1300定义A类和B类指令模板，两者包括无存储器访问1305的指令模板和存储器访问1320的指令模板。在向量友好指令格式的上下文中的术语通用摂指不绑定到任何专用指令集的指令格式。

尽管将描述其中向量友好指令格式支持以下：64字节向量操作数长度(或大小)与32位(4字节)或64位(8字节)数据元素宽度(或大小)(并且由此，64字节向量由16双字大小的元素或者替换地8双字大小的元素组成)、64字节向量操作数长度(或大小)与16位(2字节)或8位(1字节)数据元素宽度(或大小)、32字节向量操作数长度(或大小)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或大小)、以及16字节向量操作数长度(或大小)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或大小)的本发明的实施例，但是替换实施例可支持更大、更小、和/或不同的向量操作数大小(例如，256字节向量操作数)与更大、更小或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)。

图13A中的A类指令模板包括：1)在无存储器访问1305的指令模板内，示出无存储器访问的全部取整(round)控制型操作1310的指令模板、以及无存储器访问的数据变换型操作1315的指令模板；以及2)在存储器访问1320的指令模板内，示出存储器访问的时间1325的指令模板和存储器访问的非时间1330的指令模板。图13B中的B类指令模板包括：1)在无存储器访问1305的指令模板内，示出无存储器访问的写掩码控制的部分取整控制型操作1312的指令模板以及无存储器访问的写掩码控制的vsize型操作1317的指令模板；以及2)在存储器访问1320的指令模板内，示出存储器访问的写掩码控制1327的指令模板。

通用向量友好指令格式1300包括以下列出以在图13A-13B中示出顺序的如下字段。

格式字段1340-该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式，并且由此标识指令在指令流中以向量友好指令格式出现。由此，该字段在无需只有通用向量友好指令格式的指令集的意义上是任选的。

基础操作字段1342-其内容区分不同的基础操作。

寄存器索引字段1344-其内容直接或者通过地址生成指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如，32x512、16x128、32x1024、64x1024)个寄存器文件选择N个寄存器。尽管在一个实施例中N可高达三个源和一个目的地寄存器，但是替换实施例可支持更多或更少的源和目的地寄存器(例如，可支持高达两个源，其中这些源中的一个源还用作目的地，可支持高达三个源，其中这些源中的一个源还用作目的地，可支持高达两个源和一个目的地)。

修饰符(modifier)字段1346-其内容将以指定存储器访问的通用向量指令格式出现的指令与不指定存储器访问的通用向量指令格式出现的指令区分开；即在无存储器访问1305的指令模板与存储器访问1320的指令模板之间。存储器访问操作读取和/或写入到存储器等级(在一些情况下，使用寄存器中的值来指定源和/或目的地地址)，而非存储器访问操作不这样(例如，源和/或目的地是寄存器)。尽管在一个实施例中，该字段还在三种不同的方式之间选择以执行存储器地址计算，但是替换实施例可支持更多、更少或不同的方式来执行存储器地址计算。

扩充操作字段1350-其内容区分除基础操作以外要执行各种不同操作中的哪一个操作。该字段是上下文专用的。在本发明的一个实施例中，该字段被分成类字段1368、α字段1352、以及β字段1354。扩充操作字段1350允许在单一指令而非2、3或4个指令中执行多组共同的操作。

缩放字段1360-其内容允许用于存储器地址生成(例如，用于使用2倍缩放*索引+基址的地址生成)的索引字段的内容的缩放。

位移字段1362A-其内容用作存储器地址生成的一部分(例如，用于使用2倍缩放*索引+基址+位移的地址生成)。

位移因数字段1362B(注意，位移字段1362A直接在位移因数字段1362B上的并置指示使用一个或另一个)-其内容用作地址生成的一部分，它指定由存储器访问的大小(N)缩放的位移因数，其中N是存储器访问中的字节数量(例如，用于使用2倍缩放*索引+基址+缩放的位移的地址生成)。忽略冗余的低阶位，并且因此位移因数字段的内容乘以存储器操作数总大小以生成在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段1374(稍候在本文中描述)和数据操纵字段1354C确定。位移字段1362A和位移因数字段1362B在它们不用于无存储器访问1305的指令模板和/或不同的实施例可实现两者中的仅一个或均未实现的意义上是任选的。

数据元素宽度字段1364-其内容区分使用大量数据元素宽度中的哪一个(在一些实施例中用于所有指令，在其他实施例中只用于一些指令)。该字段在如果支持仅一个数据元素宽度和/或使用操作码的某一方面支持数据元素宽度则不需要的意义上是任选的。

写掩码字段1370-其内容在每-数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码，而B类指令模板支持合并写掩码和归零写掩码两者。当合并的向量掩码允许在执行任何操作(由基础操作和扩充操作指定)期间保护目的地中的任何元素集免于更新时，在另一实施例中，保持其中对应掩码位具有0的目的地的每一元素的旧值。相比之下，当归零向量掩码允许在执行任何操作(由基础操作和扩充操作指定)期间使目的地中的任何元素集归零时，在一个实施例中，目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制执行的操作的向量长度的能力(即，从第一个到最后一个要修改的元素的跨度)，然而，修改的元素连续是不必要的。由此，写掩码字段1370允许部分向量操作，包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段1370的内容选择大量写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此写掩码字段1370的内容间接地标识要执行的那个掩码)的本发明的实施例，但是替换实施例相反或另外允许掩码写字段1370的内容直接地指定要执行的掩码。

立即数字段1372-其内容允许对立即数的规范。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在的意义上是任选的。

类字段1368-其内容在指令的不同的类之间进行区分。参考图13A-B，该字段的内容在A类和B类指令之间进行选择。在图13A-B中，圆角方形用于指示专用值存在于字段中(例如，在图13A-B中分别用于类字段1368的A类1368A和B类1368B)。

A类指令模板

在A类非存储器访问1305的指令模板的情况下，α字段1352被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的取整型操作1310和无存储器访问的数据变换型操作1315的指令模板分别指定取整1352A.1和数据变换1352A.2)的RS字段1352A，而β字段1354区分要执行指定类型的操作中的哪一种。在无存储器访问1305指令模板中，缩放字段1360、位移字段1362A以及位移缩放字段1362B不存在。

无存储器访问的指令模板-全部取整控制型操作

在无存储器访问的全部取整控制型操作1310的指令模板中，β字段1354被解释为其内容提供静态取整的取整控制字段1354A。尽管在本发明的所述实施例中取整控制字段1354A包括抑制所有浮点异常(SAE)字段1356和取整操作控制字段1358，但是替换实施例可支持、可将这些概念两者都编码成相同的字段或者只有这些概念/字段中的一个或另一个(例如，可只有取整操作控制字段1358)。

SAE字段1356-其内容区分是否停用异常事件报告；当SAE字段1356的内容指示启用抑制时，给定指令不报告任何种类的浮点异常标志且不提起任何浮点异常处理器。

取整操作控制字段1358-其内容区分执行一组取整操作中的哪一个(例如，向上取整、向下取整、向零取整、以及就近取整)。由此，取整操作控制字段1358允许在每一指令的基础上改变取整模式。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段1350的内容覆盖该寄存器值。

无存储器清除的指令模板-数据变换型操作

在无存储器访问的数据变换型操作1315的指令模板中，β字段1354被解释为数据变换字段1354B，其内容区分要执行大量数据变换中的哪一个(例如，无数据变换、拌和、广播)的。

在A类存储器访问1320的指令模板的情况下，α字段1352被解释为驱逐提示字段1352B，其内容区分要使用驱逐提示中的哪一个(在图13A中，为存储器访问时间1325指令模版和存储器访问非时间1330的指令模版分别指定时间1352B.1和非时间1352B.2)、而β字段1354被解释为数据操纵字段1354C，其内容区分要执行大量数据操纵操作(也称为基元(primitive))中的哪一个(例如，无操纵、广播、源的向上转换、以及目的地的向下转换)。存储器访问1320的指令模版包括缩放字段1360、以及任选的位移字段1362A或位移缩放字段1362B。

向量存储器指令使用转换支持来执行来自存储器的向量负载并将向量存储到存储器。如同有规律的向量指令，向量存储器指令以数据元素式的方式与存储器来回传输数据，其中实际传输的元素由选为写掩码的向量掩码的内容阐述。

存储器访问的指令模版-时间

时间数据是可能很快地重新使用足以从高速缓存受益的数据。然而，这是提示且不同的处理器可以不同的方式实现它，包括完全忽略该提示。

存储器访问的指令模版-非时间

非时间数据是不可能很快地重新使用足以从第一级高速缓存中的高速缓存受益且应当给予驱逐优先级的数据。然而，这是提示且不同的处理器可以不同的方式实现它，包括完全忽略该提示。

B类指令模板

在B类指令模板的情况下，α字段1352被解释为写掩码控制(Z)字段1352C，其内容区分由写掩码字段1370控制的写掩码应当是合并还是归零。

在B类非存储器访问1305的指令模板的情况下，β字段1354的一部分被解释为RL字段1357A，其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的写掩码控制部分取整控制类型操作1312的指令模版和无存储器访问的写掩码控制VSIZE型操作1317的指令模板分别指定取整1357A.1和向量长度(VSIZE)1357A.2)，而β字段1354的其余部分区分要执行指定类型的操作中的哪一种。在无存储器访问1305指令模板中，缩放字段1360、位移字段1362A以及位移缩放字段1362B不存在。

在无存储器访问的写掩码控制的部分取整控制型操作1310的指令模版中，β字段1354的其余部分被解释为取整操作字段1359A，并且停用异常事件报告(给定指令不报告任何种类的浮点异常标志且不提起任何浮点异常处理器)。

取整操作控制字段1359A-只作为取整操作控制字段1358，其内容区分执行一组取整操作中的哪一个(例如，向上取整、向下取整、向零取整、以及就近取整)。由此，取整操作控制字段1359A允许在每一指令的基础上改变取整模式。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段1350的内容覆盖该寄存器值。

在无存储器访问的写掩码控制VSIZE型操作1317的指令模版中，β字段1354的其余部分被解释为向量长度字段1359B，其内容区分要执行大量数据向量长度中的哪一个(例如，128字节、256字节、或512字节)。

在B类存储器访问1320的指令模版的情况下，β字段1354的一部分被解释为广播字段1357B，其内容区分是否要执行广播型数据操纵操作，而β字段1354的其余部分被解释为向量长度字段1359B。存储器访问1320的指令模版包括缩放字段1360、以及任选的位移字段1362A或位移缩放字段1362B。

针对通用向量友好指令格式1300，示出完整操作码字段1374，包括格式字段1340、基础操作字段1342以及数据元素宽度字段1364。尽管示出了其中完整操作码字段1374包括所有这些字段的一个实施例，但是完整操作码字段1374包括在不支持所有这些字段的实施例中的少于所有的这些字段。完整操作码字段1374提供操作码(opcode(操作码))。

扩充操作字段1350、数据元素宽度字段1364以及写掩码字段1370允许这些特征在每一指令的基础上以通用向量友好指令格式指定。

写掩码字段和数据元素宽度字段的组合创建各种类型的指令，其中这些指令允许基于不同的数据元素宽度应用该掩码。

在A类和B类内找到的各种指令模版在不同的情形下是有益的。在本发明的一些实施例中，不同处理器或者处理器内的不同核可只有支持仅A类、仅B类、或者可支持两类。举例而言，期望用于通用计算的高性能通用无序核可只支持B类，期望主要用于图形和/或科学(吞吐量)计算的核可只支持A类，并且期望用于两者的核可支持两者(当然，具有来自两类的模版和指令的一些混合的核，但是并非来自两类的所有模版和指令都在本发明的权限内)。同样，单一处理器可包括多个核，所有核支持相同的类或者其中不同的核支持不同的类。举例而言，在具有分离的图形和通用核的处理器中，图形核中的期望主要用于图形和/或科学计算的一个核可只支持A类，而通用核中的一个或多个可以是和期望用于通用计算的支持B类的无序执行和寄存器重命名的高性能通用核。没有分离的图形核的另一处理器可包括支持A类和B类两者的一个或多个通用有序或无序核。当然，在本发明的不同实施例中，来自一类的特征还可在其他类中实现。以高级语言撰写的程序可被输入(例如，仅仅按时间编译或者统计编译)到各种不同的可执行形式，包括：1)只有用于执行的目标处理器支持的类的指令的形式；或者2)具有使用所有类的指令的不同组合而撰写的替换例程且具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流代码的形式。

示例性专用向量友好指令格式

图14是示出根据本发明的实施例的示例性专用向量友好指令格式的方框图。图14示出在其指定位置、大小、解释和字段的次序、以及那些字段中的一些字段的值的意义上是专用的专用向量友好指令格式1400。专用向量友好指令格式1400可用于扩展x86指令集，并且由此一些字段类似于在现有x86指令集及其扩展(例如，AVX)中使用的那些字段或与之相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段一致。示出来自图14的字段映射到的来自图13的字段。

应当理解，虽然出于说明的目的在通用向量友好指令格式1300的上下文中，本发明的实施例参考专用向量友好指令格式1400进行了描述，但是本发明不限于专用向量友好指令格式1400，声明的地方除外。例如，通用向量友好指令格式1300构想各种字段的各种可能的大小，而专用向量友好指令格式1400被示为具有专用大小的字段。作为具体示例，尽管在专用向量友好指令格式1400中数据元素宽度字段1364被示为一位字段，但是本发明不限于此(即，通用向量友好指令格式1300构想数据元素宽度字段1364的其他大小)。

通用向量友好指令格式1300包括以下列出以在图14A中示出的顺序的如下字段。

EVEX前缀(字节0-3)1402-以四字节形式进行编码。

格式字段1340(EVEX字节0，位[7∶0])-第一字节(EVEX字节0)是格式字段1340，并且它包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。

第二-第四字节(EVEX字节1-3)包括提供专用能力的大量位字段。

REX字段1405(EVEX字节1，位[7-5])-由EVEX.R位字段(EVEX字节1，位[7]-R)、EVEX.X位字段(EVEX字节1，位[6]-X)以及(1357BEX字节1，位[5]-B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能，并且使用1(多个)补码的形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三位(rrr、xxx、以及bbb)进行编码，由此Rrrr、Xxxx以及Bbbb可通过增加EVEX.R、EVEX.X以及EVEX.B来形成。

REX'字段1310-这是REX'字段1310的第一部分，并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R'位字段(EVEX字节1，位[4]-R’)。在本发明的一个实施例中，该位与以下指示的其他位一起以位颠倒的格式存储以(在公知x86的32位模式下)与其实操作码字节是62的BOUND指令进行区分，但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11；本发明的替换实施例不以颠倒的格式存储该指示的位以及其他指示的位。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.R'、EVEX.R、以及来自其他字段的其他RRR来形成R'Rrrr。

操作码映射字段1415(EVEX字节1，位[3∶0]-mmmm)-其内容对隐含的领先操作码字节(0F、0F38、或0F3)进行编码。

数据元素宽度字段1364(EVEX字节2，位[7]-W)-由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(大小)。

EVEX.vvvv1420(EVEX字节2，位[6∶3]-vvvv)-EVEX.vvvv的作用可包括如下：1)EVEX.vvvv对以颠倒(1(多个1)补码)的形式指定的第一源寄存器操作数进行编码且对具有两个或两个以上源操作数的指令有效；2)EVEX.vvvv针对特定向量位移对以1(多个1)补码的形式指定的目的地寄存器操作数进行编码；或者3)EVEX.vvvv不对任何操作数进行编码，保留该字段，并且应当包含1111b。由此，EVEX.vvvv字段1420对以颠倒(1(多个1)补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令，额外不同的EVEX位字段用于将指定符大小扩展到32个寄存器。

EVEX.U1368类字段(EVEX字节2，位[2]-U)-如果EVEX.U=0，则它指示A类或EVEX.U0，如果EVEX.U=1，则它指示B类或EVEX.U1。

前缀编码字段1425(EVEX字节2，位[1∶0]-pp)-提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外，这也具有的压缩SIMD前缀的益处(EVEX前缀只需要2位，而不是需要字节来表达SIMD前缀)。在一个实施例中，为了支持使用以传统格式和以EVEX前缀格式的SIMD前缀(66H、F2H、F3H)的传统SSE指令，这些传统SIMD前缀被编码成SIMD前缀编码字段；并且在运行时在提供给解码器的PLA之前被扩展成传统SIMD前缀(因此PLA可执行传统和EVEX格式的这些传统指令，而无需修改)。虽然较新的指令可将EVEX前缀编码字段的内容直接作为操作码扩展，但是为了一致性，特定实施例以类似的方式扩展，但允许由这些传统SIMD前缀指定不同的含义。替换实施例可重新设计PLA以支持2位SIMD前缀编码，并且由此不需要扩展。

α字段1352(EVEX字节3，位[7]-EH，也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N，还被示为具有α)-如先前所述的，该字段是上下文专用的。

β字段1354(EVEX字节3，位[6∶4]-SSS，也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB，还被示为具有βββ)-如先前所述的，该字段是内容专用的。

REX’字段1310-这是REX'字段1210的其余部分，并且是可用于对扩展的32个寄存器集合的较高16个或较低16寄存器进行编码的EVEX.R'位字段(EVEX字节3，位[3]-V’)。该位以位颠倒的格式存储。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.V’、EVEX.vvvv来形成V'VVVV。

写掩码字段1370(EVEX字节3，位[2∶0]-kkk)-其内容指定写掩码寄存器中的寄存器索引，如先前所述的。在本发明的一个实施例中，专用值EVEX.kkk=000具有隐含着没有写掩码用于特定指令(这可以各种方式(包括使用硬连线到所有的写掩码或者旁路掩码硬件的硬件)实现)的特别行为。

实操作码字段1430(字节4)还被称为操作码字节。操作码的一部分在该字段中指定。

MOD R/M字段1440(字节5)包括MOD字段1442、Reg字段1444、以及R/M字段1446。如先前所述的，MOD字段1442的内容在存储器访问和非存储器访问的操作之间进行区分。Reg字段1444的作用可被归结为两种情形：对目的地寄存器操作数或源寄存器操作数进行编码；或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段1446的作用可包括如下：对参考存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

缩放索引基址(SIB)字节(字节6)-如先前所述的，缩放字段1350的内容用于存储器地址生成。SIB.xxx1454和SIB.bbb1456-先前已经针对寄存器索引Xxxx和Bbbb参考了这些字段的内容。

位移字段1362A(字节7-10)-当MOD字段1442包含10时，字节7-10是位移字段1362A，并且它与传统32位位移(disp32)一样地工作，并且以字节粒度工作。

位移因数字段1362B(字节7)-当MOD字段1442包含01时，字节7是位移因数字段1362B。该字段的位置与传统x86指令集8位位移(disp8)的位置相同，它以字节粒度工作。由于disp8是符号扩展的，因此它可只在-128和127字节偏移量之间寻址，在64字节的高速缓存线的方面，disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位；由于常常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32对比，位移因数字段1,362B是disp8的重新解释；当使用位移因数字段1,362B时，实际位移通过位移因数字段的内容乘以存储器操作数访问的大小(N)确定。该类型的位移被称为disp8*N。这减小了平均指令长度(用于位移但具有大得多的范围的单一字节)。这种压缩位移基于有效位移是存储器访问的粒度的倍数的假设，并且由此地址偏移量的冗余低阶位不需要被编码。换句话说，位移因数字段1362B替代传统x86指令集8位位移。由此，位移因数字段1362B以与x86指令集8位位移相同的方式(因此在ModRM/SIB编码规则中没有变化)进行编码，唯一的不同在于，disp8超载至disp8*N。换句话说，在编码规则中没有变化，或者只在通过硬件对位移值的解释中有编码长度(这需要使位移缩放存储器操作数的大小以获得字节式地址偏移量)。

立即数字段1372如先前所述地操作。

完整操作码字段

图14B是示出根据本发明的实施例的构成完整操作码字段1374的具有专用向量友好指令格式1400的字段的方框图。具体地，完整操作码字段1374包括格式字段1340、基础操作字段1342、以及数据元素宽度(W)字段1364。基础操作字段1342包括前缀编码字段1425、操作码映射字段1415以及实操作码字段1430。

寄存器索引字段

图14C是示出根据本发明的一个实施例的构成寄存器索引字段1344的具有专用向量友好指令格式1400的字段的框图。具体地，寄存器索引字段1344包括REX字段1405、REX'字段1410、MODR/M.reg字段1344、MODR/M.r/m字段1446、VVVV字段1420、xxx字段1454以及bbb字段1456。

扩充操作字段

图14D是示出根据本发明的一个实施例的构成扩充操作字段1350的具有专用向量友好指令格式1400的字段的方框图。当类(U)字段1368包含0时，它表达EVEX.U0(A类1,368A)；当它包含1时，它表达EVEX.U1(B类1,368B)。当U=0且MOD字段1442包含11(表达无存储器访问操作)时，α字段1352(EVEX字节3，位[7]-EH)被解释为rs字段1352A。当rs字段1352A包含1(取整1352A.1)时，β字段1354(EVEX字节3，位[6∶4]-SSS)被解释为取整控制字段1354A。取整控制字段1354A包括一位SAE字段1356和两位取整操作字段1358。当rs字段1352A包含0(数据变换1352A.2)时，β字段1354(EVEX字节3，位[6∶4]-SSS)被解释为三位数据变换字段1354B。当U=0且MOD字段1442包含00、01或10(表达存储器访问操作)时，α字段1352(EVEX字节3，位[7]-EH)被解释为驱逐提示(EH)字段1352B且β字段1354(EVEX字节3，位[6∶4]-SSS)被解释为三位数据操纵字段1354C。

当U=1时，α字段1352(EVEX字节3，位[7]-EH)被解释为写掩码控制(Z)字段1352C。当U=1且MOD字段1442包含11(表达无存储器访问操作)时，β字段1354的一部分(EVEX字节3，位[4]-S₀)被解释为RL字段1357A；当它包含1(取整1357A.1)时，β字段1354的其余部分(EVEX字节3，位bit[6-5]-S_2-1)被解释为取整操作字段1359A，而当RL字段1357A包含0(VSIZE1357.A2)时，β字段1354的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段1359B(EVEX字节3，位[6-5]-L_1-0)。当U=1且MOD字段1442包含00、01或10(表达存储器访问操作)时，β字段1354(EVEX字节3，位[6∶4]-SSS)被解释为向量长度字段1359B(EVEX字节3，位[6-5]-L_1-0)和广播字段1357B(EVEX字节3，位[4]-B)。

示例性寄存器架构

换句话说，向量长度字段1359B在最大长度与一个或多个其他较短长度之间进行选择，其中每一这种较短长度是前一长度的一半，并且没有向量长度字段1359B的指令模版对最大向量长度操作。此外，在一个实施例中，专用向量友好指令格式1400的B类指令模版对打包或标量单/双精度浮点数据以及打包或标量整数数据操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；取决于本实施例，较高阶数据元素位置保持与在指令之前相同或者归零。

写掩码寄存器1515-在所示的实施例中，存在8个写掩码寄存器(k0至k7)，每一写掩码寄存器的大小是64位。在替换实施例中，写掩码寄存器1515的大小是16位。如先前所述的，在本发明的一个实施例中，向量掩码寄存器k0无法用作写掩码；当正常可指示k0的编码用作写掩码时，它选择硬连线的写掩码0xFFFF，从而有效地停用该指令的写掩码。

通用机床电器1525-在所示的实施例中，存在与现有x86寻址模式一起使用以对存储器操作数寻址的十六个64位通用寄存器。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、以及R8至R15来引用这些寄存器。

混叠MMX打包整数平坦寄存器文件1550的标量浮点栈寄存器文件(x87栈)1545-在所示的实施例中，x87栈是用于使用x87指令集扩展对32/64/80位浮点数据执行标量浮点操作的8元素栈；而MMX寄存器用于对64位打包整数数据执行操作、以及保留操作数用于在MMX和XMM寄存器之间执行的一些操作。

本发明的替换实施例可使用更宽或更窄的寄存器。另外，本发明的替换实施例可使用更多、更少、或不同的寄存器文件和寄存器。

示例性核架构、处理器、以及计算机架构

处理器核可以不同的方式、出于不同的目的、并且在不同的处理器中实现。举例而言，这些核的实现可包括：1)期望用于通用计算的通用有序核；2)期望用于通用计算的高性能通用无序核；3)期望主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括：1)包括期望用于通用计算的一个或多个通用有序核和/或期望用于通用计算的一个或多个通用无序核的CPU；以及2)包括期望主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。这些不同的处理器导致不同的计算机系统架构，这些处理器可包括：1)来自CPU的单独芯片上的协处理器；2)与CPU相同的封装中的单独管芯上的协处理器；3)与CPU相同的管芯上的协处理器(在此情况下，这种协处理器有时被称为专用逻辑，诸如集成图形和/或科学(吞吐量)逻辑、或者专用核)；以及4)在相同管芯上可包括所述CPU(有时被称为应用核或应用处理器)、上述协处理器、以及附加功能的芯片上的系统。接着描述示例性核架构，随后描述示例性处理器和计算机架构。

示例性核架构

有序和无序核方框图

图16A是示出根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名的无序发布/执行流水线两者的方框图。图16B是示出根据本发明的实施例的有序架构核的示例性实施例以及包括在处理器中的示例性寄存器重命名的无序发布/执行架构核两者的方框图。图16A-B中的实线框示出有序流水线和有序核，而任选增加的虚线框示出寄存器重命名的无序发布/执行流水线和核。假设有序方面是无序方面的子集，将描述无序方面。

在图16A中，处理器流水线1600包括获取级1602、长度解码级1604、解码级1606、分配级1608、重命名级1610、调度(也称为分派或发布)级1612、寄存器读取/存储器读取级1614、执行级1616、回写/存储器撰写级1618、异常处理级1622、以及提交级1624。

图16B示出处理器核1690，该核1690包括耦合到执行引擎单元1650的前端单元1630，并且两者耦合到存储器单元1670。核1690可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或者混合或替换核类型。作为另一选项，核1690可以是专用核，诸如举例而言，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。

前端单元1630包括耦合到指令高速缓存单元1634的分支预测单元1632，该指令高速缓存单元1634耦合到指令翻译后备缓冲器(TLB)1636，该指令TLB1636耦合到指令获取单元1638，该指令获取单元1638耦合到解码单元1640。解码单元1640(或解码器)可对指令进行解码，并且生成一个或多个微操作、微代码输入点、微指令、其他指令、或者从原始指令解码、或以其他方式反映原始指令、或从原始指令派生的其他控制信号作为输出。解码单元1640可使用各种不同的机构来实现。合适机构的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核1690包括微代码ROM或者存储用于特定宏指令的微代码(例如，在解码单元1640中或者在前端单元1630内)的其他介质。解码单元1640耦合到执行引擎单元1650中的重命名/分配器单元1652。

执行引擎单元1650包括耦合到引退单元1654的重命名/分配器单元1652、以及一组一个或多个调度器单元1656。调度器单元1656表示任意数量的不同调度器，包括保留站、中央指令窗口等。调度器单元1656耦合到物理寄存器文件单元1658。每一物理寄存器文件单元1658表示一个或多个物理寄存器文件，其中不同的物理寄存器文件存储一种或多种不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如，作为要执行的下一指令的地址的指令指针)等。在一个实施例中，物理寄存器文件单元1658包括向量寄存器单元、写掩码寄存器单元、以及标量寄存器单元。这些寄存器单元可提供架构向量寄存器，向量掩码寄存器以及通用寄存器。物理寄存器文件单元1658与引退单元1654重叠，以示出其中可实现寄存器重命名和无序执行(例如，使用重排序缓冲器和回退寄存器文件；使用未来文件、历史缓冲器、以及引退寄存器文件；使用寄存器映射和寄存器池等)的各种方式。回退单元1654和物理寄存器文件单元1658耦合到执行集群1660。执行集群1660包括一组一个或多个执行单元1662以及一组一个或多个存储器访问单元1664。执行单元1662可执行各种操作(例如，位移、加法、减法、乘法)，并且对各种类型的数据(例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点)执行。尽管一些实施例可包括专属于专用功能或功能集的大量执行单元，但是其他实施例可包括全部都执行所有功能的仅一个执行单元或者多个执行单元。调度器单元1656、物理寄存器文件单元1658、以及执行集群1660被示为可能是多个单元，因为特定实施例为特定类型的数据/操作创建分离的流水线(例如，标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线、和/或各自具有其自己的调度器单元、物理寄存器文件单元和/或执行集群的存储器访问流水线-并且在单独的寄存器访问流水线的情况下，实现其中仅该流水线的执行集群具有存储器访问单元1664的特定实施例)。还应当理解，在使用分离的流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行，而其他流水线可以是有序的。

一组存储器访问单元1664耦合到存储器单元1670，该存储器单元1670包括耦合到数据高速缓存单元1674的数据TLB单元1672，该数据高速缓存单元1674耦合到第二级(L2)高速缓存单元1676。在一个示例性实施例中，存储器访问单元1664可包括负载单元、存储地址单元以及存储数据单元，这些单元中的每一个耦合到存储器单元1670中的数据TLB单元1672。指令高速缓存单元1634还耦合到存储器单元1670中的第二级(L2)高速缓存单元1676。L2高速缓存单元1676耦合到一种或多种其他级别的高速缓存，并且最终耦合到主存储器。

作为示例，示例性寄存器重命名、无序发布/执行核架构可如下地实现流水线1600∶1)指令提取1638执行提取和长度解码级1602和1604；2)解码单元1640执行解码级1606；3)重命名/分配器单元1652执行分配级1608和重命名级1610；4)调度器单元1656执行调度级1612；5)物理寄存器文件单元1658和存储器单元1670执行寄存器读取/存储器读取级1614；执行集群1660执行执行级1616；6)存储器单元1670和物理寄存器文件单元1658执行回写/存储器撰写级1618；7)各个单元可在异常处理级1622中涉及；以及8)引退单元1654和物理寄存器文件单元1658执行提交级1624。

核1690可支持一个或多个指令集(例如，x86指令集(具有已经使用较新版本增加的一些扩展)、加利福尼亚州森尼维耳市MIPS Technologies的MIPS指令集、加利福尼亚州森尼维耳市的ARM holding的ARM指令集(具有诸如NEON之类的任选的附加扩展))，包括本文中所描述的指令。在一个实施例中，核1690包括逻辑以支持打包数据指令集扩展(例如，AVX1、AVX2)，由此允许许多多介质应用所使用的操作使用打包数据来执行。

应当理解，该核可支持多线程(执行两组或两组以上的平行操作或线程)，并且可以包括分时多线程、同时多线程(其中单一物理核为每一线程提供物理核是同时多线程的逻辑核)、或者其组合(例如，分时提取和解码以及此后诸如在Hyperthreading技术中的同时多线程)的各种方式这样做。

尽管在无序执行的上下文中描述了寄存器重命名，但是应当理解寄存器重命名可在有序架构中使用。尽管处理器的所示实施例还包括单独的指令和数据高速缓存单元1634/1674以及共享的L2高速缓存单元1676，但是替换实施例可具有用于指令和数据两者的单一内部高速缓存，诸如举例而言，第一级(L1)内部高速缓存、或多级内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和外部高速缓存的组合，该外部高速缓存在核和/或处理器外部。替换地，所有高速缓存可在核和/或处理器外部。

专用示例性有序核架构

图17A-B示出更专用的示例性有序核架构的方块图，该核可以是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个。取决于应用，逻辑块通过高带宽互连网络(例如，环形网络)与一些固定功能逻辑、存储器I/O接口、以及其他存储器I/O逻辑进行通信。

图17A是根据本发明的实施例的连接到片上互联网络1702且具有第二级(L2)高速缓存1704的本地子集的单一处理器核的框图。在一个实施例中，指令解码器1700支持具有打包数据指令集扩展的x86指令集。L1高速缓存1706允许对高速缓存存储器进行低延迟访问标量和向量单元。尽管在一个实施例中(为了简化设计)标量单元1708和向量单元1710使用分离的寄存器集合(分别是标量寄存器1712和向量寄存器1714)并且在两者之间传输的数据被写入存储器且随后读取回到第一级(L1)高速缓存1706或从L1高速缓存1706中读取，但是本发明的替换实施例可使用不同的方法(例如，使用单一寄存器集合或者包括允许数据在不写入和读回的情况下在两个寄存器文件之间传输的通信路径)。

L2高速缓存1704的本地子集是分成分离的本地子集(每一处理器核一个本地子集)的全局L2高速缓存的一部分。每一处理器核具有到L2高速缓存1704的其自己的本地子集的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集1704中，并且可与访问其自己的本地L2高速缓存子集的其他处理器核平行地快速访问。由处理器核写入的数据被存储在其自己的L2高速缓存子集1704中，并且如果必要则从其他子集清除(flush)。环形网络确保共享数据的一致性。环形网络是双向的以允许在芯片内诸如处理器核、L2高速缓存、以及其他逻辑块之类的代理相互通信。每一环形数据路径是每一方向1012位宽。

图17B是根据本发明的实施例的图17A中的处理器核的一部分的展开图。图17B包括L1高速缓存1704的L1数据高速缓存1706A部分、以及关于向量单元1710和向量寄存器1714的更多细节。具体地，向量单元1710是16宽向量处理单元(VPU)(参见16宽ALU1728)，该向量处理单元执行整数、单精度浮动和双精度浮动的指令中的一个或多个。VPU支持使用拌和单元1720拌和寄存器输入、使用数字转换单元1722A-B数字转换、以及使用存储器输入上的复制单元1724复制。写掩码寄存器1726允许断定所得向量撰写。

具有集成存储器控制器和图形的处理器

图18是根据本发明的实施例的可具有一个以上核、可具有集成存储器控制器、并且可具有集成图形的处理器1800的方框图。图18中的实线框示出具有单一核1802A、系统代理1810、一组一个或多个总线控制器单元1816的处理器1800，而任选增加的虚线框示出具有多个核1802A-N、系统代理单元1810中的一组一个或多个集成存储器控制器单元1814、以及专用逻辑1808的替换处理器1800。

由此，处理器1800的不同实现可包括：1)具有作为集成图形和/或科学(吞吐量)逻辑(该逻辑可包括一个或多个核)的专用逻辑1808、以及作为一个或多个通用核(例如，通用有序核、通用无序核、两者的组合)的核1802A-N的CPU；2)具有作为期望主要用于图形和/或科学(吞吐量)的大量专用核的核1802A-N的协处理器；以及3)具有作为大量通用有序核的核1802A-N的协处理器。由此，处理器1800可以是通用处理器、协处理器、或专用处理器，诸如举例而言，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量许多集成核(MIC)协处理器(包括30个或30个以上的核)、嵌入式处理器等。处理器可在一个或多个芯片上实现。处理器1800可以是一个或多个基板的一部分，和/或在一个或多个基板上使用大量处理技术(诸如举例而言，BiCMOS、CMOS、或NMOS)中的任一种技术实现。

存储器等级(hierarchy)包括核内的一级或多级高速缓存、一组或者一个或多个共享高速缓存单元1806、以及耦合到一组集成存储器控制器单元1814的外部存储器(未示出)。一组共享高速缓存单元1806可包括一个或多个中级高速缓存(诸如第二级(L2)、第三级(L3)、第四级(L4))或其他级高速缓存、最后一级高速缓存(LLC)、和/或其组合。尽管在一个实施例中，基于环形的互连单元1812使集成图形逻辑1808、一组共享高速缓存单元1806、以及系统代理单元1810/集成存储器控制器单元1814互连，但是替换实施例可使用任意数量的公知技术来互连这些单元。在一个实施例中，在一个或多个高速缓存单元1806与核1802A-N之间维持一致性。

在一些实施例中，核1802A-H中的一个或多个核能够多线程。系统代理1810包括协调的那些组件和操作核1802A-N。系统代理单元1810可包括例如功率控制单元(PCU)和显示单元。PCU可以是或者包括调整核1802A-N的功率状态必需的的逻辑和组件、以及集成图形逻辑1808。显示单元用于驱动一个或多个外部连接的显示器。

核1802A-N在架构指令集方面可以是同质的或者异质的，即核1802A-N中的两个或两个以上核能够执行相同的指令集，而其他核可以能够只执行该指令集的子集或者不同的指令集。

示例性计算机架构

图19-22是示例性计算机架构的框图。在本领域中已知的用于膝上型个人计算机、台式个人计算机、手持个人计算机(PC)、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备、以及各种其他电子设备的其他系统设计和配置也是合适的。一般而言，能够结合本文中公开的处理器和/或其他执行逻辑的各种各样系统或电子设备通常是合适的。

现在参考图19，示出了根据本发明的一个实施例的系统1900的方框图。系统1900可包括一个或多个处理器1910、1915，这些处理器耦合到控制器中枢1920。在一个实施例中，控制器中枢1920包括图形存储器控制器中枢(GMCH)1990和输入/输出中枢(IOH)1950(它们可在分离的芯片上)；GMCH1990包括耦合到存储器1940和协处理器1945的存储器和图形控制器；IOH1950使输入/输出(I/O)设备1960耦合到GMCH1990。替换地，存储器和图形控制器中的一个或两个在处理器(如本文中所描述的)内集成，存储器1940和协处理器1945直接耦合到处理器1910、以及单一芯片中的具有IOH1950的控制器中枢1920。

附加处理器1915的任选本质在图19中用虚线指示。每一处理器1910、1915可包括本文中所描述的处理核中的一个或多个，并且可以是一些版本的处理器1800。

存储器1940可以是例如动态随机访问存储器(DRAM)、相变存储器(PCM)或者两者的组合。对于至少一个实施例，控制器中枢1920经由诸如前侧总线(FSB)之类的多点总线(multi-drop bus)、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接与处理器1910、1915进行通信。

在一个实施例中，协处理器1945是专用处理器，诸如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中枢1920可包括集成图形加速器。

在包括架构、微架构、热、功耗特性等的优点度量的范围方面，在物理资源1910、1915之间可存在各种差异。

在一个实施例中，处理器1910执行控制具有通用类型的数据处理操作的指令。协处理器指令可被嵌入这些指令内。处理器1910识别如具有应当由附连的协处理器1945执行的类型的这些协处理器指令。因此，处理器1910在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1945。协处理器1945接受和执行接收到的协处理器指令。

现在参考图20，示出了根据本发明的一个实施例的第一更专用的示例性系统2000的方框图。如图20所示，多处理器系统2000是点对点互连系统，并且包括经由点对点互连2050耦合的第一处理器2070和第二处理器2080。处理器2070和2080中的每一个可以是一些版本的处理器1800。在本发明的一个实施例中，处理器2070和2080分别是处理器1910和1915，而协处理器2038是协处理器1945。在另一实施例中，处理器2070和2080分别是处理器1910和协处理器1945。

处理器2070和2080分别被示为包括集成存储器控制器(IMC)单元2072和2082。处理器2070还包括点对点(P-P)接口2076和2078作为其总线控制器单元的一部分；类似地，第二处理器2080包括P-P接口2086和2088。处理器2070、2080可使用P-P接口电路2078、2088经由点对点(P-P)接口2050交换信息。如图20所示，IMC2072和2082使处理器耦合到相应的存储器，即存储器2032和存储器2034，这些存储器可以是在本地附连到各个处理器的主存储器的部分。

处理器2070、2080可各自使用点对点接口电路2076、2094、2086、2098经由各个P-P接口2052、2054与芯片组2090交换信息。芯片组2090可任选地经由高性能接口2039与协处理器2038交换信息。在一个实施例中，协处理器2038是专用处理器，诸如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享高速缓存(未示出)可被包括在任一处理器中或者在两个处理器外部，但是经由P-P互连与处理器连接，由此如果处理器置于低功率模式中，则任一或两个处理器的本地高速缓存信息可被存储在共享高速缓存中。

芯片组2090可经由接口2096耦合到第一总线2016。在一个实施例中，第一总线2016可以是外围组件互连(PCI)总线、或者诸如PCI Express总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图20所示，各种I/O设备2014可与总线桥2018一起耦合到第一总线2016，该总线桥2018使第一总线2016耦合到第二总线2020。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的加速器(诸如举例而言，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或者任何其他处理器之类的一个或多个附加处理器2015耦合到第一总线2016。在一个实施例中，第二总线2020可以是低引脚数(LPC)总线。各种设备可耦合到第二总线2020，包括例如键盘和/或鼠标2022、通讯设备2027、以及存储单元2028，诸如在一个实施例中可包括指令/代码和数据2030的盘驱动或者其他大容量存储设备。此外，音频I/O2024可耦合到第二总线2020。注意，其他架构是可能的。例如，代替图20的点对点架构，系统可实现多点总线或者其他此类架构。

现在参考图21，示出了根据本发明的一个实施例的第二更专用的示例性系统2100的方框图。图20和21中的相似元件具有相似的附图标记，并且图20的特定方面已经从图21中省略以避免混淆图21的其他方面。

图21示出处理器2070、2080可分别包括集成存储器和I/O控制逻辑(“CL”)2072和2082。由此，CL2072、2082包括集成存储器控制器单元并且包括I/O控制逻辑。图21示出不仅存储器2032、2034耦合到CL2072、2082，而且I/O设备2114也耦合到控制逻辑2072、2082。传统I/O设备2115耦合到芯片组2090。

现在参考图22，示出了根据本发明的一个实施例的SoC2200的框图。图18中的类似元件具有相似的附图标记。同样，虚线框是更多高级SoC上的任选的特征。在图22中，互连单元2202耦合到：包括一组一个或多个核202A-N和共享高速缓存单元1806的应用处理器2210；系统代理单元1810；总线控制器单元1816；集成存储器控制器单元1814；可包括集成图形逻辑、图形处理器、音频处理器以及视频处理器的一组或者一个或多个协处理器2220；静态随机访问存储器(SRAM)单元2230；直接存储器访问(DMA)单元2232；以及用于耦合到一个或多个外部显示器的显示单元2240。在一个实施例中，协处理器2220包括专用处理器，诸如举例而言，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文中所公开的机构的实施例可以硬件、软件、固件、或者这些实现方法的组合来实现。本发明的实施例可被实现为在可编程系统上执行的计算机程序或程序代码，这些可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

诸如图20所示的代码2030之类的程序代码可应用于输入指令，以执行本文中所描述的功能并生成输出信息。输出信息可以已知的方式应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器(诸如举例而言，数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)、或微处理器)的任何系统。

程序代码可以高级过程或面向对象编程语言实现，以与处理系统进行通信。如果期望，程序代码则还可以汇编或机器语言实现。实际上，本文中所描述的机构在范围上不限于任何特定编程语言。在任何情况下，该语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可通过存储在机器可读介质上的代表性指令来实现，该机器可读介质表示处理器内的各种逻辑，这些指令在由机器读取时使得该机器制备逻辑以执行本文中所描述的技术。称为“IP核的这些表示可被存储在有形的机器可读介质上且供应给各种客户或制造设施以加载到实际上制作逻辑或处理器的制备机器。”

这种机器可读存储介质可包括但不限于，由机器或设备制造或形成的制品的非瞬态有形排列，这些非瞬态有形排列包括：诸如硬盘，包括软盘、光盘、压缩盘只读存储器(CD-ROM)、压缩盘可重写(CD-RW)存储器、以及磁电-光盘的任何其他类型的盘之类的存储介质；诸如只读存储器(ROM)、随机访问存储器(RAM)(诸如动态随机访问存储器(DRAM)、静态随机访问存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)之类的半导体器件；磁或光卡；或者适于存储电子指令的任何其他类型的介质。

因此，本发明的实施例还包括包含指令或者包含设计数据的诸如硬件描述语言(HDL)之类的非瞬态有形机器可读介质，该非瞬态有形机器可读介质定义本文中所描述的结构、电路、装置、处理器和/或系统特征。这些实施例还可被称为程序产品。

仿真(包括二进制翻译、代码变形等)

在一些情况下，指令转换器可用于将来自源指令集的指令转换成目的地指令集。例如，指令转换器可将指令翻译(例如，使用静态二进制翻译、包括动态编译的动态二进制翻译)、变形、仿真、或者以其他方式转换成由核处理的一个或多个其他指令。指令转换器可以软件、硬件、固件、或者其组合实现。指令转换器可在处理器上、在处理器以外、或者部分在处理器上且部分在处理器以外。

图23是根据本发明的实施例的对比使用软件指令转换器将源指令集中的二进制指令转换成目的地指令集中的二进制指令的方框图。在所示的实施例中，指令转换器是软件指令转换器，但是替换的指令转换器可以软件、固件、硬件、或者其各种组合实现。图23示出以高级语言2302的程序可使用x86编译器2304进行编译以生成x86二进制代码2306，该x86二进制代码2306可由具有至少一个x86指令集核2316的处理器在本机上执行。具有至少一个x86指令集核2316的处理器表示可通过兼容地执行或者以其他方式处理(1)因特尔x86指令集核的指令集的实质部分或者(2)以在具有至少一个x86指令集核的因特尔处理器上运行为目标的对象代码版本的应用或其他软件来执行与具有至少一个x86指令集核的因特尔处理器基本相同的功能以实现与具有至少一个x86指令集核的因特尔处理器基本相同的结果的任何处理器。x86编译器2304表示可操作用于生成在具有或者没有附加链接处理的情况下可在具有至少一个x86指令集核2316的处理器上执行的x86二进制代码2306(例如，对象代码)的编译器。类似地，图23示出以高级语言2302的程序可使用替换指令集编译器2308进行编译，以生成可由不具有至少一个x86指令集核2314的处理器(例如，具有执行加利福尼亚州森尼维耳市MIPS Technologies的MIPS指令集和/或执行加利福尼亚州森尼维耳市ARM Holdings的ARM指令集的核的处理器)在本机上执行的替换指令集二进制代码2310。指令转换器2312用于将x86二进制代码2306转换成可由不具有x86指令集核2314的处理器在本机上执行的代码。该经转换的代码不可能与替换指令集二进制代码2310相同，因为难以制作能够这样做的指令转换器；然而，经转换的代码将完成一般操作并且由来自替换指令集的指令构成。由此，指令转换器2312表示通过仿真、模拟、或者任何其他处理允许不具有x86指令集处理器或核的处理器或者其他电子设备执行x86二进制代码2306的软件、固件、硬件、或者其组合。

针对图4-11中的任一图所描述的组件、特征以及细节还可任选地用于图1-3中的任一图中。此外，本文中针对任一装置所描述的组件、特征以及细节还可任选地用于本文中所描述的在实施例中可由这种装置和/或使用这种装置执行的任一方法中。

示例实施例

以下示例涉及进一步的实施例。这些示例中的特性可用于一个或多个实施例中的任何地方。

示例1是处理器。处理器包括多个打包数据寄存器。该处理器还包括与所述打包数据寄存器耦合的单元，所述单元响应于有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，所述单元响应于所述有限范围向量存储器访问指令访问仅在存储器的有限范围中的存储器位置。

示例2包括权利要求1的主题，任选地其中所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引。

示例3包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令访问在包括仅256字节的存储器的有限范围中的存储器位置。

示例4包括权利要求1的主题，任选地其中所述有限范围向量存储器访问指令指示包括至少32个存储器索引的源打包存储器索引。

示例5包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令访问具有至少32位的存储器地址的存储器的有限范围。

示例6包括权利要求5的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令进行：符号扩展每个存储器索引；以及将缩放因数施加到每个经符号扩展的存储器索引。

示例7包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令执行多数据元素加载，加载多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素、以及不是由多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素。

示例8包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令将来自存储器的整个有限范围加载到处理器的存储位置。

示例9包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令进行：执行将加载多个数据元素的多数据元素加载；在以下(a)和(b)两者中的一者时：(a)指令不指示打包数据操作掩码；和(b)指令指示打包数据操作掩码但所述打包数据操作掩码的相应掩码元素未被掩蔽，将第一多个加载的数据元素存储在由所述指令指示的目的地存储位置，而不将第二加载的数据元素存储在所述目的地存储位置。

示例10包括权利要求1的主题，任选地其中所述单元响应于所述有限范围向量存储器访问指令将来自存储器的整个有限范围加载到所述处理器的存储位置，且其中所述单元响应于所述有限范围向量存储器访问指令基于存储器索引将整个有限范围的数据元素的子集选择地移动到所述指令指示的目的地存储位置。

示例11包括权利要求1-8中任一项的主题，任选地其中所述有限范围向量存储器访问指令指示目的地存储位置，且其中所述单元响应于所述有限范围向量存储器访问指令将打包数据结果存储在目的地存储位置，所述打包数据结果具有多个数据元素，每个数据元素来自有限范围中由相应的存储器索引指示的存储位置。

示例12包括权利要求1-8中任一项的主题，任选地其中所述有限范围向量存储器访问指令指示具有多个数据元素的源打包数据，且其中所述单元响应于所述有限范围向量存储器访问指令将所述源打包数据的每个数据元素写入有限范围中由相应存储器索引指示的存储器位置。

示例13包括权利要求1-8中任一项的主题，任选地其中所述有限范围向量存储器访问指令指示打包数据操作掩码。

示例14是处理器中的方法。该方法包括接收有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引。该方法还包括响应于所述有限范围向量存储器访问指令访问仅在存储器的有限范围中的存储器位置。

示例15包括权利要求14的主题，任选地其中接收包括接收指示包括8位存储器索引的源打包存储器索引的指令。

示例16包括权利要求14的主题，任选地其中访问包括访问由256字节构成的有限范围中的存储器位置。

示例17包括权利要求14的主题，任选地其中接收包括接收指示目的地存储位置的指令，且还包括响应于所述指令将打包数据结果存储在目的地存储位置中，所述打包数据结果具有多个数据元素，每个数据元素来自有限范围中由相应存储器索引指示的存储器位置。

示例18包括权利要求14的主题，任选地其中接收包括接收指示具有多个数据元素的源打包数据的指令，且其中访问包括响应于所述指令将所述源打包数据的每个数据元素写入有限范围中由相应存储器索引指示的存储位置。

示例19包括权利要求14的主题，任选地其中访问包括利用至少32位存储器地址进行访问。

示例20包括权利要求14的主题，任选地其中访问包括执行多数据元素加载，包括加载多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素、以及不是由多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素。

示例21包括权利要求14的主题，任选地还包括：执行加载多个数据元素的多数据元素加载；在以下(a)和(b)两者中的一者时：(a)指令不使用打包数据操作掩码；和(b)指令使用打包数据操作掩码但所述打包数据操作掩码的相应掩码元素未被掩蔽，将第一加载的数据元素存储在由所述指令指示的目的地存储位置中，而不将第二加载的数据元素存储在所述目的地存储位置中。

示例22是一种处理指令的系统。该系统包括互连。该系统还包括与互连耦合的处理器。该系统还包括与所述互连耦合的动态随机访问存储器(DRAM)，所述DRAM存储有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，所述有限范围向量存储器访问指令如果被处理器执行则导致处理器执行包括访问仅在存储器的有限范围中的存储器位置的操作。

示例23包括示例22的主题，任选地其中所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引，其中所述指令如果由处理器执行则导致处理器利用至少32位的存储器地址访问有限范围，

示例24是一种包括非瞬态机器可读存储介质的制品，所述非瞬态机器可读介质存储有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，所述有限范围向量存储器访问指令如果被机器执行则导致机器执行包括访问仅在存储器的有限范围中的存储器位置的操作

示例25包括示例24的主题，任选地其中所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引，其中所述源打包存储器索引包括至少32个存储器索引。

示例26是一种执行示例14-21中的任一个的方法的装置。

示例27是一种用于执行示例14-21中的任一个的方法的装置。

示例28是存储指令的机器可读存储介质，该指令如果由机器执行则使机器执行示例14-21中的任一个的方法。

示例29是一种执行基本如本文中所描述的指令的处理器。

示例30是一种执行基本如本文中所描述的方法的处理器。

示例31是一种包括用于执行基本如本文中所描述的方法的手段的处理器。

在该描述和权利要求中，使用了术语“耦合”和/或“连接”、及其派生词。应当理解，这些术语不旨在作为彼此的同义词。相反，在特定实施例中，“连接”可用于指示两个或多个元件相互直接物理或电接触。“耦合”可意味着两个或两个以上元件直接物理或电接触。然而，“耦合”还可意味着两个或两个以上元件彼此不直接接触，但是仍然彼此协同操作或交互。例如，执行单元可通过一个或多个中间组件与寄存器或解码耦合。在附图中，箭头用于示出连接和耦合。

在该描述和权利要求中，可使用了术语“逻辑”。如本文中所使用的，逻辑可包括诸如硬件、固件、软件或者其各种组合之类的模块。逻辑的示例包括集成电路、专用集成电路、模拟电路、数字电路、编程逻辑设备、包括指令的存储器设备等。在一些实施例中，硬件逻辑可包括可能与其他电路组件一起的晶体管和/或门。

在以上描述中，为了提供对实施例的透彻理解阐述了具体的细节。然而，在没有这些具体细节中的部分的情况下，可实践其他实施例。本发明的范围不是由所提供的具体示例确定，而是仅由所附权利要求确定。在附图中显示且在说明书中描述的关系的所有等效关系都被涵盖在实施例内。在其他实例中，以方块图的形式或者在没有细节的情况下，示出了公知电路、结构、设备、以及操作，以避免混淆对该描述的理解。在已经示出和描述了多个组件情况下，在一些情形中，这些多个组件可合并在一个组件中。在示出和描述了单一组件的一些情况下，该单一组件可被分成两个或两个以上组件。

描述了各种操作和方法。在流程图中以相对基础的形式描述了这些方法中的一些方法，但是操作可被任选地增加到这些方法和/或从这些方法移除。另外，尽管流程图示出根据示例实施例的操作的特定次序，但是特定次序是示例性的。替换实施例可任选地以不同的次序执行操作，组合特定操作，重叠特定操作等。

特定操作可由硬件组件执行，或者可以机器可执行或电路可执行指令体现，这些操作可用于使得和/或者导致机器、电路、或硬件组件(例如，处理器、处理器的一部分、电路等)通过执行操作的指令来编程。这些操作还可任选地由硬件和软件的组合执行。处理器、机器、电路、或硬件可包括可操作用于执行和/或处理指令且响应于该指令存储结果的专用或特定电路或者其他逻辑(例如，可能与固件和/或软件组合的硬件)。

一些实施例包括制品(例如，计算机程序产品)，该制品包括机器可读介质。该介质可包括以可由机器读取的形式提供(例如，存储)信息的机构。机器可读介质可提供指令或指令顺序或者在其上存储了指令或者令顺序，该指令如果由机器执行和/或在由机器执行时可操作用于使机器执行和/或导致机器执行本文中所公开的一种或多种操作、方法、或技术。机器可读介质可提供(例如，存储)本文中所公开的指令的一个或多个实施例。

在一些实施例中，机器可读介质可包括有形和/或非瞬态机器可读存储介质。例如，有形和/或非瞬态机器可读存储介质可包括软盘、光学存储介质、光盘、光学数据存储设备、CD-ROM、磁盘、磁电-光盘、只读存储器(ROM)、可编程ROM(PROM)、可擦除和可编程ROM(EPROM)、电可擦除和可编程ROM(EEPROM)、随机访问存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、闪存、相变存储器、相变数据存储设备、非易失性存储器、非易失性数据存储设备、非瞬态存储器、非瞬态数据存储设备等。非瞬态机器可读存储介质不由瞬态传播信号组成。在另一实施例中，机器可读介质可包括瞬态机器可读通信介质，例如电、光、声、或者其他形式的传播信号，诸如载波、红外信号、数字信号等。

合适的机器的示例包括但不限于，通用处理器、专用处理器、指令处理装置、数字逻辑电路、集成电路等。合适的机器的其他示例包括计算设备、以及结合这些处理器、指令处理装置、数字逻辑电路、或集成电路的其他电子设备。这些技术设备和电子设备的示例包括但不限于，台式计算机、膝上型计算机、笔记本计算机、平板计算机、上网本、智能电话、蜂窝电话、服务器、网络设备(例如，路由器和交换机)、移动因特网设备(MID)、媒体播放器、智能电视、上网机、机顶盒、以及视频游戏控制器。

例如，贯穿本说明书对一个实施例、实施例、一个或多个实施例、一些实施例的引用指示特定特征可被包括在本发明的实践中，但是不一定需要这样。类似地，在该描述中，出于流线型化本公开和辅助对各个发明性方面的理解的目的，各种特征有时被一起归组在单一实施例、附图、及其描述中。然而，公开的该方法不被解释为反映本发明需要多于在每一权利要求中明确叙述的特征的意图。相反，如所附权利要求反映的，发明性方面在于少于单一公开的实施例的所有特征。因此，该详细描述之后的权利要求由此被明确地结合到该详细描述中，其中，每一权利要求本身代表本发明的单独实施例。

Claims

1.一种处理器，包括：

多个打包数据寄存器；以及

与所述打包数据寄存器耦合的单元，所述单元响应于有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，所述单元响应于所述有限范围向量存储器访问指令访问仅在存储器的有限范围中的存储器位置。

2.如权利要求1所述的处理器，其特征在于，所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引。

3.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令访问在包括仅256字节的存储器的有限范围中的存储器位置。

4.如权利要求1所述的处理器，其特征在于，所述有限范围向量存储器访问指令指示包括至少32个存储器索引的源打包存储器索引。

5.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令利用至少32位的存储器地址访问存储器的有限范围。

6.如权利要求5所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令进行：

符号扩展每个存储器索引；以及

将缩放因子施加到每个经符号扩展的存储器索引。

7.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令执行多数据元素加载，所述多数据元素加载加载多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素、以及不是由多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素。

8.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令将来自存储器的整个有限范围加载到处理器的存储位置。

9.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令进行：

执行将加载多个数据元素的多数据元素加载；

在以下(a)和(b)两者中的一者时：(a)指令不指示打包数据操作掩码；和(b)指令指示打包数据操作掩码但所述打包数据操作掩码的相应掩码元素未被掩蔽，将第一多个加载的数据元素存储在由所述指令指示的目的地存储位置，而不将第二加载的数据元素存储在所述目的地存储位置。

10.如权利要求1所述的处理器，其特征在于，所述单元响应于所述有限范围向量存储器访问指令将来自存储器的整个有限范围加载到所述处理器的存储位置，且其中所述单元响应于所述有限范围向量存储器访问指令基于存储器索引将整个有限范围的数据元素的子集选择性地移动到所述指令指示的目的地存储位置。

11.如权利要求1所述的处理器，其特征在于，所述有限范围向量存储器访问指令指示目的地存储位置，且其中所述单元响应于所述有限范围向量存储器访问指令将打包数据结果存储在目的地存储位置，所述打包数据结果具有多个数据元素，每个数据元素来自有限范围中由相应的存储器索引指示的存储位置。

12.如权利要求1所述的处理器，其特征在于，所述有限范围向量存储器访问指令指示具有多个数据元素的源打包数据，且其中所述单元响应于所述有限范围向量存储器访问指令将所述源打包数据的每个数据元素写入有限范围中由相应存储器索引指示的存储器位置。

13.如权利要求1所述的处理器，其特征在于，所述有限范围向量存储器访问指令指示打包数据操作掩码。

14.一种处理器中的方法，包括：

接收有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引；以及

响应于所述有限范围向量存储器访问指令访问仅在存储器的有限范围中的存储器位置。

15.如权利要求14所述的方法，其特征在于，接收包括接收指示包括8位存储器索引的源打包存储器索引的指令。

16.如权利要求14所述的方法，其特征在于，访问包括访问由256字节构成的有限范围中的存储器位置。

17.如权利要求14所述的方法，其特征在于，接收包括接收指示目的地存储位置的指令，且还包括响应于所述指令将打包数据结果存储在目的地存储位置中，所述打包数据结果具有多个数据元素，每个数据元素来自有限范围中由相应存储器索引指示的存储器位置。

18.如权利要求14所述的方法，其特征在于，接收包括接收指示具有多个数据元素的源打包数据的指令，且其中访问包括响应于所述指令将所述源打包数据的每个数据元素写入有限范围中由相应存储器索引指示的存储位置。

19.如权利要求14所述的方法，其特征在于，访问包括利用至少32位存储器地址进行访问。

20.如权利要求14所述的方法，其特征在于，访问包括执行多数据元素加载，包括加载多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素、以及不是由多个存储器索引中的存储器索引指示的存储器地址处的至少一个数据元素。

21.如权利要求14所述的方法，其特征在于，还包括：

执行加载多个数据元素的多数据元素加载；

在以下(a)和(b)两者中的一者时：(a)指令不使用打包数据操作掩码；和(b)指令使用打包数据操作掩码但所述打包数据操作掩码的相应掩码元素未被掩蔽，将第一加载的数据元素存储在由所述指令指示的目的地存储位置中，而不将第二加载的数据元素存储在所述目的地存储位置中。

22.一种处理指令的系统，包括：

互连；

与所述互连耦合的处理器；以及

与所述互连耦合的动态随机访问存储器(DRAM)，所述DRAM存储有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，所述有限范围向量存储器访问指令如果被处理器执行则导致处理器执行包括访问仅在存储器的有限范围中的存储器位置的操作。

23.如权利要求22所述的系统，其特征在于，所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引，其中所述指令如果由处理器执行则导致处理器利用至少32位的存储器地址访问有限范围。

24.一种包括非瞬态机器可读存储介质的制品，所述非瞬态机器可读介质存储有限范围向量存储器访问指令，所述有限范围向量存储器访问指令指示源打包存储器索引，所述源打包存储器索引具有选自8位存储器索引和16位存储器索引的多个打包存储器索引，并且所述有限范围向量存储器访问指令如果被机器执行则导致机器执行包括访问仅在存储器的有限范围中的存储器位置的操作

25.如权利要求24所述的制品，其特征在于，所述有限范围向量存储器访问指令指示包括8位存储器索引的源打包存储器索引，其中所述源打包存储器索引包括至少32个存储器索引。