CN107077331A

CN107077331A - 用于执行矢量位反转的方法和装置

Info

Publication number: CN107077331A
Application number: CN201580063811.9A
Authority: CN
Inventors: J.科巴尔; E.奥尔德-阿梅德-瓦尔; R.瓦伦丁; M.J.查尼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-23
Publication date: 2017-08-18
Also published as: WO2016105760A1; EP3238030A1; KR20170097616A; EP3238030A4; US10013253B2; TW201640336A; KR102460975B1; TWI628593B; JP2018500654A; JP6778375B2; US20160179522A1

Abstract

装置和方法用于执行矢量位反转。例如，处理器的一个实施例包括：源矢量寄存器，用于存储多个源位群组，其中位群组的大小要在指令的即时值中指定；矢量位反转逻辑，用于从即时值确定位群组大小，并且用于作为响应反转源矢量寄存器内的邻近位群组的定位以生成经反转的位群组的集合；以及目的地矢量寄存器，用于存储经反转的位群组。

Description

用于执行矢量位反转的方法和装置

技术领域

本发明大体涉及计算机处理器的技术领域。更具体地，本发明涉及用于执行矢量位反转的方法和装置。

背景技术

指令集或者指令集架构（ISA）是涉及编程的计算机架构的部分，包括本机数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置、以及外部输入和输出（I/O）。应当指出，术语“指令”在本文中一般是指宏指令（其是提供给处理器以用于执行的指令），如与微指令或微操作（其是处理器的解码器对宏指令进行解码的结果）相对的。微指令或微操作可以配置为指令处理器上的执行单元执行操作以便实现与宏指令相关联的逻辑。

从微架构区分ISA，微架构是用于实现指令集的处理器设计技术的集合。具有不同微架构的处理器可以共享公共指令集。例如，Intel®奔腾4处理器、Intel® Core^TM处理器以及来自加利福利亚森尼维尔市的高级微设备公司的处理器实现x86指令集的几乎相同的版本（具有已经添加有较新版本的一些扩展），但是具有不同内部设计。例如，ISA的相同寄存器架构可以使用公知技术在不同微架构中以不同方式实现，包括专用物理寄存器、使用寄存器重命名机制（例如，寄存器化身表格（RAT）、重新排序缓冲器（ROB）和引退寄存器文件的使用）的一个或多个动态分配的物理寄存器。除非另有指定，否则短语寄存器架构、寄存器文件和寄存器在本文中用于指代对于软件/编程器可见的事物以及其中指令指定寄存器的方式。在要求区分的情况下，修饰词“逻辑”、“架构”或“软件可见”将用于指示寄存器架构中的寄存器/文件，而不同的修饰词将用于指明给定微架构中的寄存器（例如，物理寄存器、重新排序缓冲器、引退寄存器、寄存器池）。

指令集包括一个或多个指令格式。给定指令格式限定各种字段（数个位、位的位置）以便尤其地指定要执行的操作以及要在其上执行所述操作的（多个）操作数。一些指令格式进一步分解，即便是限定指令模板（或子格式）。例如，给定指令格式的指令模板可以限定为具有指令格式的字段的不同子集（所包括的字段典型地是以相同的次序，但是至少一些具有不同位定位，因为存在所包括的较少字段）和/或限定为具有以不同方式解译的给定字段。使用给定指令格式（并且如果限定，则以该指令格式的指令模板中的给定一个）表述给定指令，并且给定指令指定操作和操作数。指令流是特定指令序列，其中该序列中的每一个指令是以指令格式的指令（并且如果限定，则该指令格式的指令模板中的给定一个）的出现。

附图说明

从结合以下附图的以下详细描述，可以获得本发明的更好理解，其中：

图1A和1B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图；

图2A-D是图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图；

图3是根据本发明的一个实施例的寄存器架构的框图；以及

图4A是图示了根据本发明的实施例的示例性有序获取、解码、引退流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图；

图4B是图示了根据本发明的实施例的要包括在处理器中的有序获取、解码、引退核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图；

图5A是单个处理器核连同其向管芯上互连网络的连接的框图；

图5B图示了根据本发明的实施例的图5A中的处理器核的部分的放大视图；

图6是根据本发明的实施例的具有集成的存储器控制器和图形的多个处理器和单核处理器的框图；

图7图示了依照本发明的一个实施例的系统的框图；

图8图示了依照本发明的实施例的第二系统的框图；

图9图示了依照本发明的实施例的第三系统的框图；

图10图示了依照本发明的实施例的片上系统（SOC）的框图；

图11图示了根据本发明的实施例的对照使用软件指令转换器来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图12图示了在其上可以实现本发明的一个实施例的示例性处理器；

图13-18图示了依照本发明的实施例的使用不同即时值的矢量位反转逻辑；

图19图示了依照本发明的一个实施例的方法；

图20图示了经执行以便反转寄存器中的位次序的位反转操作的集合；

图21图示了在其上可以实现本发明的一个实施例的示例性处理器；

图22-24图示了在本发明的一个实施例中采用的矢量位反转和交叉技术；

图25图示了使用矢量位反转和交叉技术执行的示例性转置操作；

图26A-B图示了使用矢量位反转和交叉技术执行的示例性倾斜基元操作；以及

图27图示了依照本发明的一个实施例的方法。

具体实施方式

在以下描述中，出于解释的目的阐述众多具体细节以便提供以下描述的本发明的实施例的透彻理解。然而，本领域技术人员将清楚的是，本发明的实施例可以在没有这些具体细节中的一些的情况下实践。在其它实例中，以框图形式示出公知的结构和设备以避免使本发明的实施例的底层原理模糊。

示例性处理器架构和数据类型

指令集包括一个或多个指令格式。给定指令格式限定各种字段（数个位、位的位置）以便尤其地指定要执行的操作（操作码）以及要在其上执行所述操作的（多个）操作数。一些指令格式进一步分解，即便是限定指令模板（或子格式）。例如，给定指令格式的指令模板可以限定为具有指令格式的字段的不同子集（所包括的字段典型地是以相同的次序，但是至少一些具有不同位定位，因为存在所包括的较少字段）和/或限定为具有以不同方式解译的给定字段。因而，使用给定指令格式（并且如果限定，则以该指令格式的指令模板中的给定一个）表述ISA的每一个指令，并且ISA的每一个指令包括用于指定操作和操作数的字段。例如，示例性ADD指令具有特定操作码和指令格式，该指令格式包括指定该操作码的操作码字段和选择操作数（源1/目的地和源2）的操作数字段；指令流中的该ADD指令的出现将具有选择特定操作数的操作数字段中的特定内容。称为高级矢量扩展（AVX）（AVX1和AVX2）并且使用矢量扩展（VEX）编码方案的SIMD扩展的集合已经存在、已经发行和/或公布（例如，参见Intel® 64和IA-32架构软件开发者手册，2011年10月；以及参见Intel®高级矢量扩展编程参考，2011年6月）。

示例性指令格式

本文描述的（多个）指令的实施例可以以不同格式体现。附加地，在下文详述示例性系统、架构和流水线。（多个）指令的实施例可以在这样的系统、架构和流水线上执行，但是不限于所详述的那些。

A. 通用矢量友好指令格式

矢量友好指令格式是适于矢量指令的指令格式（例如，存在特定于矢量操作的某些字段）。尽管描述了其中通过矢量友好指令格式支持矢量和标量操作二者的实施例，但是可替换实施例仅使用矢量操作，矢量友好指令格式。

图1A-1B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图。图1A是图示了根据本发明的实施例的通用矢量友好指令格式及其分类A指令模板的框图；而图1B是图示了根据本发明的实施例的通用矢量友好指令格式及其分类B指令模板的框图。具体地，针对通用矢量友好指令格式100限定分类A和B指令模板，它们二者包括无存储器访问105指令模板和存储器访问120指令模板。在矢量友好指令格式的上下文中，术语通用是指不束缚于任何特定指令集合的指令格式。

尽管将描述其中矢量友好指令格式支持以下内容的本发明的实施例：具有36位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）（并且因而，64字节矢量包括16个双字大小的元素或者可替换地8个四倍字长大小的元素）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节矢量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节矢量操作数长度（或大小）；但是可替换实施例可以支持具有更多、更少或不同数据元素宽度（例如，128位（16字节）数据元素宽度）的更多、更少或不同矢量操作数大小（例如，256字节矢量操作数）。

图1A中的分类A指令模板包括：1）在无存储器访问105指令模板内，示出了无存储器访问、完全取整（round）控制类型操作110指令模板以及无存储器访问、数据变换类型操作115指令模板；以及2）在存储器访问120指令模板内，示出了存储器访问、临时125指令模板和存储器访问、非临时130指令模板。图1B中的分类B指令模板包括：1）在无存储器访问105指令模板内，示出了无存储器访问、写入掩蔽控制、部分取整控制类型操作112指令模板以及无存储器访问、写入掩蔽控制、vsize类型操作117指令模板；以及2）在存储器访问120指令模板内，示出了存储器访问、写入掩蔽控制127指令模板。

通用矢量友好指令格式100包括在下文以图1A-1B中所图示的次序列出的以下字段。

格式字段140——该字段中的特定值（指令格式标识符值）唯一地标识矢量友好指令格式，以及因而指令流中的矢量友好指令格式中的指令的出现。因此，该字段在以下意义上是可选的：对于仅具有通用矢量友好指令格式的指令集而言，不需要它。

基础操作字段142——其内容辨别不同基础操作。

寄存器索引字段144——其内容直接地或者通过地址生成而指定源和目的地操作数的位置，它们在寄存器中或者在存储器中。这些包括充足数目的位以便从PxQ（例如，32x512、16x128、32x1024、64x1024）寄存器文件选择N个寄存器。尽管在一个实施例中N可以高达三个源和一个目的地寄存器，但是可替换实施例可以支持更多或更少的源和目的地寄存器（例如，可以支持高达两个源，其中这些源中的一个还充当目的地；可以支持高达三个源，其中这些源中的一个还充当目的地；可以支持高达两个源和一个目的地）。

修饰符字段146——其内容辨别指定存储器访问的通用矢量指令格式中的指令的出现以及不这样做的那些出现；也就是说，在无存储器访问105指令模板和存储器访问120指令模板之间进行辨别。存储器访问操作向存储器分层结构写入和/或读取（在一些情况下，使用寄存器中的值来指定源和/或目的地地址），而非存储器访问操作不会这样做（例如，源和目的地是寄存器）。尽管在一个实施例中该字段还在执行存储器地址计算的三个不同方式之间进行选择，但是可替换实施例可以支持执行存储器地址计算的更多、更少或不同方式。

扩增操作字段150——其内容辨别除基础操作之外要执行各种不同操作中的哪一个。该字段是上下文特定的。在本发明的一个实施例中，该字段划分成分类字段168、阿尔法字段152和贝塔字段154。扩增操作字段150允许在单个指令中而不是在2、3或4个指令中执行操作的公共群组。

缩放字段160——其内容允许索引字段的内容的缩放以用于存储器地址生成（例如，对于使用2^缩放*索引+基础的地址生成）。

移位字段162A——其内容用作存储器地址生成的部分（例如，对于使用2^缩放*索引+基础+移位的地址生成）。

移位因子字段162B（要指出，移位字段162A直接在移位因子字段162B之上的并置指示使用一个或另一个）——其内容用作地址生成的部分；其指定要通过存储器访问的大小（N）进行缩放的移位因子——其中N是存储器访问中的字节数目（例如，对于使用2^缩放*索引+基础+经缩放的移位的地址生成）。忽略冗余的低阶位，并且因而，将移位因子字段的内容乘以存储器操作数总大小（N）以便生成要在计算有效地址时使用的最终移位。N的值由处理器硬件在运行时基于完整操作码字段174（随后在本文中描述）和数据操控字段154C来确定。移位字段162A和移位因子字段162B在以下意义上是可选的：它们不用于无存储器访问105指令模板和/或不同实施例可以仅实现这两个中的一个或一个都不实现。

数据元素宽度字段164——其内容辨别要使用数个数据元素宽度中的哪一个（在一些实施例中，对于所有指令；在其它实施例中，对于指令中的仅一些）。该字段在以下意义上是可选的：如果仅支持一个数据元素宽度和/或使用操作码的一些方面支持数据元素宽度，则不需要它。

写入掩蔽字段170——其内容在每一数据元素位置的基础上控制目的地矢量操作数中的该数据元素位置是否反映基础操作和扩增操作的结果。分类A指令模板支持合并写入掩蔽，而分类B指令模板支持合并和归零写入掩蔽二者。当合并时，矢量掩蔽允许目的地中的任何元素集合受保护以防在（由基础操作和扩增操作指定的）任何操作的执行期间更新；在另一个实施例中，在对应掩蔽位具有0的情况下，预留目的地的每一个元素的旧值。相比而言，当归零时，矢量掩蔽允许目的地中的任何元素集合在（由基础操作和扩增操作指定的）任何操作的执行期间归零；在一个实施例中，当对应掩蔽位具有0值时，目的地的元素设置成0。该功能性的子集是控制所执行的操作的矢量长度（也就是说，所修改的元素从第一个向最后一个的跨度）的能力；然而，不必要的是，所修改的元素是连贯的。因而，写入掩蔽字段170允许部分矢量操作，包括加载、存储、算术、逻辑等。尽管描述了其中写入掩蔽字段170的内容选择包含要使用的写入掩蔽的数个写入掩蔽寄存器之一（并且因而写入掩蔽字段170的内容简介地标识要执行的掩蔽）的本发明的实施例，但是可替换实施例替代地或者附加地允许掩蔽写入字段170的内容直接地指定要执行的掩蔽。

即时字段172——其内容允许即时值指定。该字段在以下意义上是可选的：其不存在于不支持即时值的通用矢量友好格式的实现中，以及其不存在于不使用即时值的指令中。

分类字段168——其内容在不同指令分类之间进行辨别。参照图1A-B，该字段的内容在分类A和分类B指令之间进行选择。在图1A-B中，使用圆角方形来指示特定值存在于字段中（例如，分类A 168A和分类B 168B分别用于图1A-B中的分类字段168）。

分类A的指令模板

在分类A的非存储器访问105指令模板的情况下，阿尔法字段152解译为RS字段152A，其内容辨别要执行不同扩增操作类型中的哪一个（例如，分别指定取整152A.1和数据变换152A.2用于无存储器访问、取整类型操作110和无存储器访问、数据变换类型操作115指令模板），而贝塔字段154辨别要执行所指定的类型的操作中的哪个。在无存储器访问105指令模板中，缩放字段160、移位字段162A和移位缩放字段162B不存在。

无存储器访问指令模板——完全取整控制类型操作

在无存储器访问完全取整控制类型操作110指令模板中，贝塔字段154解译为取整控制字段154A，其（多个）内容提供静态取整。尽管在本发明的所述实施例中，取整控制字段154A包括抑制全部浮点数异常（SAE）字段156和取整操作控制字段158，但是可替换实施例可以支持的是，可以将这两个概念编码到相同字段中，或者仅具有这些概念/字段中的一个或另一个（例如，可以仅具有取整操作控制字段158）。

SA字段156——其内容辨别是否禁用异常事件报告；当SAE字段156的内容指示启用抑制时，给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器。

取整操作控制字段158——其内容辨别要执行取整操作的群组中的哪一个（例如，向上取整、向下取整、朝零取整以及向最近处取整）。因而，取整操作控制字段158允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段150的内容覆写该寄存器值。

无存储器访问指令模板——数据变换类型操作

在无存储器访问数据变换类型操作115指令模板中，贝塔字段154解译为数据变换字段154B，其内容辨别要执行数个数据变换中的哪一个（例如，无数据变换、拌和、广播）。

在分类A的存储器访问120指令模板的情况下，阿尔法字段152解译为逐出提示字段152B，其内容辨别要使用逐出提示中的哪一个（在图1A中，分别指定临时152B.1和非临时152B.2用于存储器访问、临时125指令模板和存储器访问、非临时130指令模板），而贝塔字段154解译为数据操控字段154C，其内容辨别要执行数个数据操控操作（还称为基元）中的哪一个（例如，无操控；广播、源的上转换；以及目的地的下转换）。存储器访问120指令模板包括缩放字段160，以及可选地移位字段162A或移位缩放字段162B。

矢量存储器指令执行来自存储器的矢量加载以及向存储器的矢量存储，其中支持转换。如与常规矢量指令那样，矢量存储器指令以逐数据元素方式自/向存储器转移数据，其中实际转移的元素由选择为写入掩蔽的矢量掩蔽的内容指示。

存储器访问指令模板——临时

临时数据是很可能足够快地再使用以获益于缓存的数据。然而，这是提示，并且不同的处理器可以以不同方式实现它，包括完全忽略提示。

存储器访问指令模板——非临时

非临时数据是不可能足够快地再使用以获益于第一级高速缓存中的缓存并且应当给予逐出优先级的数据。然而，这是提示，并且不同的处理器可以以不同方式实现它，包括完全忽略提示。

分类B的指令模板

在分类B的指令模板的情况下，阿尔法字段152解译为写入掩蔽控制（Z）字段152C，其内容辨别由写入掩蔽字段170控制的写入掩蔽是应当合并还是归零。

在分类B的非存储器访问105指令模板的情况下，贝塔字段154的部分解译为RL字段157A，其内容辨别要执行不同扩增操作类型中的哪一个（例如，分别指定取整157A.1和矢量长度（VSIZE）157A.2用于无存储器访问、写入掩蔽控制、部分取整控制类型操作112指令模板和无存储器访问、写入掩蔽控制、VSIZE类型操作117指令模板），而贝塔字段154的其余部分辨别要执行所指定的类型的操作中的哪个。在无存储器访问105指令模板中，缩放字段160、移位字段162A和移位缩放字段162B不存在。

在无存储器访问、写入掩蔽控制、部分取整控制类型操作110指令模板中，贝塔字段154的其余部分解译为取整操作字段159A，并且禁用异常事件报告（给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器）。

取整操作控制字段159A——正如取整操作控制字段158，其内容辨别要执行取整操作的群组中的哪一个（例如，向上取整、向下取整、朝零取整以及向最近处取整）。因而，取整操作控制字段159A允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段150的内容覆写该寄存器值。

在无存储器访问、写入掩蔽控制、VSIZE类型操作117指令模板中，贝塔字段154的其余部分解译为矢量长度字段159B，其内容辨别要在其上执行的数个数据矢量长度中的哪一个（例如，128、256或512字节）。

在分类B的存储器访问120指令模板的情况下，贝塔字段154的部分解译为广播字段157B，其内容辨别是否要执行广播类型数据操控操作，而贝塔字段154的其余部分解译为矢量长度字段159B。存储器访问120指令模板包括缩放字段160，以及可选地移位字段162A或移位缩放字段162B。

关于通用矢量友好指令格式100，示出了完整操作码字段174，其包括格式字段140、基础操作字段142和数据元素宽度字段164。尽管示出了其中完整操作码字段174包括所有这些字段的一个实施例，但是在不支持它们全部的实施例中，完整操作码字段174包括少于这些字段的全部。完整操作码字段174提供操作代码（操作码）。

扩增操作字段150、数据元素宽度字段164和写入掩蔽字段170允许在通用矢量友好指令格式中在每一指令的基础上指定这些特征。

写入掩蔽字段和数据元素宽度字段的组合创建类型化指令，因为它们允许基于不同数据元素宽度来应用掩蔽。

在分类A和分类B内发现的各种指令模板在不同情况下是有益的。在本发明的一些实施例中，不同处理器或者处理器内的不同核可以仅支持分类A，仅支持分类B，或者支持两个分类。例如，意图用于通用计算的高性能通用无序核可以仅支持分类B，意图主要用于图形和/或科学（吞吐量）计算的核可以仅支持分类A，并且意图用于二者的核可以支持二者（当然，具有来自两个分类的模板和指令的某种混合但是并非来自两个分类的所有模板和指令的核处于本发明的权限内）。而且，单个处理器可以包括多个核，所有核支持相同分类或者其中不同核支持不同分类。例如，在具有分离的图形和通用核的处理器中，意图主要用于图形和/或科学计算的图形核之一可以仅支持分类A，而通用核中的一个或多个可以是具有意图用于通用计算的无序执行和寄存器重命名的高性能通用核，其仅支持分类B。不具有分离的图形核的另一个处理器可以包括一个或多个通用有序或无序核，其支持分类A和分类B二者。当然，在本发明的不同实施例中，来自一个分类的特征还可以实现在另一分类中。以高级语言编写的程序将置于（例如，及时编译或静态编译成）各种不同可执行形式，包括：1）仅具有由目标处理器支持以用于执行的（多个）分类的指令的形式；或者2）具有使用所有分类的指令的不同组合编写的可替换例程并且具有控制流程代码的形式，所述控制流程代码基于由当前正执行该代码的处理器支持的指令来选择要执行的例程。

B. 示例性特定矢量友好指令格式

图2是图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图。图2示出了在以下意义上是特定的特定矢量友好指令格式200：其指定字段的位置、大小、解译和次序，以及用于那些字段中的一些的值。特定矢量友好指令格式200可以用于扩展x86指令集，并且因而字段中的一些与在现有x86指令集及其扩展（例如，AVX）中使用的那些类似或相同。该格式与具有扩展的现有x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、移位字段和即时字段保持一致。图示了来自图2的字段映射到其中的来自图1的字段。

应当理解到，尽管出于说明性目的而在通用矢量友好指令格式100的上下文中参照特定矢量友好指令格式200描述了本发明的实施例，但是除了在要求保护的情况下之外，本发明不限于特定矢量友好指令格式200。例如，通用矢量友好指令格式100设想到用于各种字段的各种可能大小，而将特定矢量友好指令格式200示出为具有特定大小的字段。作为具体示例，尽管将数据元素宽度字段164图示为特定矢量友好指令格式200中的一位字段，但是本发明不如此受限（也就是说，通用矢量友好指令格式100设想到数据元素宽度字段164的其它大小）。

通用矢量友好指令格式100包括在下文以图2A中图示的次序列出的以下字段。

EVEX前缀（字节0-3）202——以四字节形式进行编码。

格式字段140（EVEX字节0，位[7:0]）——第一字节（EVEX字节0）是格式字段140并且其包含0x62（在本发明的一个实施例中，用于辨别矢量友好指令格式的唯一值）。

第二到第四字节（EVEX字节1-3）包括提供特定能力的数个位字段。

REX字段205（EVEX字节1，位[7-5]）——包括EVEX.R位字段（EVEX字节1，位[7]-R）、EVEX.X位字段（EVEX字节1，位[6]-X）和157BEX字节1，位[5]-B）。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能性，并且使用1s互补形式进行编码，即，ZMM0编码为111B，ZMM15编码为0000B。指令将寄存器索引的低三个位编码为的其它字段在本领域中已知（rrr、xxx和bbb），使得Rrrr、Xxxx和Bbbb可以通过添加EVEX.R、EVEX.X和EVEX.B而形成。

REX'字段110——这是REX'字段110的第一部分并且是EVEX.R'位字段（EVEX字节1，位[4]-R'），其用于编码经扩展的32寄存器集合的高16个或低16个。在本发明的一个实施例中，该位连同如下文指示的其它位以位反转格式存储以便从BOUND指令辨别（在公知的x86 32位模式中），BOUND指令的真实操作码字节为62，但是不会在MOD R/M字段（在下文描述）中接受MOD字段中的值11；本发明的可替换实施例不以反转格式存储该位以及下文指示的其它位。值1用于编码低16个寄存器。换言之，R'Rrrr通过组合EVEX.R'、EVEX.R和来自其它字段的其它RRR而形成。

操作码映射字段215（EVEX字节1，位[3:0]-mmmm）——其内容编码所暗示的前导操作码字节（0F、0F 38或0F 3）。

数据元素宽度字段164（EVEX字节2，位[7]-W）由标记EVEX.W表示。EVEX.W用于限定数据类型的粒度（大小）（32位数据元素或者64位数据元素）。

EVEX.vvvv 220（EVEX字节2，位[6:3]-vvvv）——EVEX.vvvv的角色可以包括以下各项：1）EVEX.vvvv编码第一源寄存器操作数，其以反转（1s互补）形式指定，并且对于具有2个或更多源操作数的指令有效；2）EVEX.vvvv编码目的地寄存器操作数，其以1s互补形式针对某些矢量偏移而指定；或者3）EVEX.vvvv不编码任何操作数，字段反转并且应当包含1111b。因而，EVEX.vvvv字段220编码以反转（1s互补）形式存储的第一源寄存器区分符的4个低阶位。取决于指令，额外的不同EVEX位字段用于将区分符大小扩展为32个寄存器。

EVEX.U 168分类字段（EVEX字节2，位[2]-U）——如果EVEX.U=0，则其指示分类A或EVEX.U0；如果EVEX.U=1，则其指示分类B或EVEX.U1。

前缀编码字段225（EVEX字节2，位[1:00]-pp）——提供用于基础操作字段的附加位。除提供对于以EVEX前缀格式的传统SSE指令的支持之外，这还具有以下益处：压紧SIMD前缀（而非要求字节来表述SIMD前缀，EVEX前缀仅要求2个位）。在一个实施例中，为了以传统格式和EVEX前缀格式二者支持使用SIMD前缀（66H、F2H、F3H）的传统SSE指令，将这些传统SIMD前缀编码到SIMD前缀编码字段中；并且在运行时，在提供给解码器的PLA之前扩展成传统SIMD前缀（因此，PLA可以在没有修改的情况下执行这些传统指令的传统和EVEX格式二者）。尽管较新的指令可以直接地将EVEX前缀编码字段的内容用作操作码扩展，但是某些实施例出于一致性而以类似的方式扩展，但是允许由这些传统SIMD前缀指定不同含义。可替换实施例可以重新设计PLA以支持2位SIMD前缀编码，并且因而不要求扩展。

阿尔法字段152（EVEX字节3，位[7]-EH；还称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写入掩蔽控制和EVEX.N；还利用α图示）——如之前所述，该字段是内容特定的。

贝塔字段154（EVEX字节3，位[6:4]-SSSS，还称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；还利用βββ图示）——如之前所述，该字段是内容特定的。

REX'字段110——这是REX'字段的其余部分并且是EVEX.V'位字段（EVEX字节3，位[3]-V'），其可以用于编码经扩展的32寄存器集合中的高16个或低16个。该位以位反转格式存储。值1用于编码低16个寄存器。换言之，V'VVVV通过组合EVEX.V’、EVEX.vvvv而形成。

写入掩蔽字段170（EVEX字节3，位[2:0]-kkk）——其内容指定如之前所述的写入掩蔽寄存器中的寄存器的索引。在本发明的一个实施例中，特定值EVEX.kkk=000具有特定行为，其暗示没有写入掩蔽用于特定指令（这可以以各种方式实现，包括使用硬布线到所有那些的写入掩蔽或者绕过掩蔽硬件的硬件）。

真实操作码字段230（字节4）还称为操作码字节。操作码的部分在该字段中指定。

MOD R/M字段240（字节5）包括MOD字段242、Reg字段244和R/M字段246。如之前所述，MOD字段242的内容在存储器访问和非存储器访问操作之间进行辨别。Reg字段244的角色可以总结为两种情况：编码目的地寄存器操作数或源寄存器操作数；或者视为操作码扩展并且不用于编码任何指令操作数。R/M字段246的角色可以包括以下各项：编码引用存储器地址的执行操作数，或者编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基础（SIB）字节（字节6）——如之前所述，缩放字段150的内容用于存储器地址生成。SIB.xxx 254和SIB.bbb 256——这些字段的内容之前已经关于寄存器索引Xxxx和Bbbb而提及。

移位字段162A（字节7-10）——当MOD字段242包含10时，字节7-10是移位字段162A，并且其与传统32-位移位（disp32）相同地工作并且在字节粒度下工作。

移位因子字段162B（字节7）——当MOD字段242包含01时，字节7是移位因子字段162B。该字段的位置与在字节粒度下工作的传统x86指令集8位移位（disp8）的位置相同。由于disp8经符号扩展，所以其仅可以在-128和127字节偏离之间进行寻址；在64字节高速缓存行方面，disp8使用8个位，其可以设置成仅四个真正有用的值-128、-64、0和64；由于通常需要较大范围，所以使用disp32；然而，disp32要求4个字节。相比于disp8和disp32，移位因子字段162B是disp8的重新解译；当使用移位因子字段162B时，实际移位通过移位因子字段的内容乘以存储器操作数访问的大小（N）来确定。这种类型的移位称为disp8*N。这减少了平均指令长度（用于移位但是具有大得多的范围的单个字节）。这样的经压缩的移位是基于以下假设：有效移位是存储器访问的粒度的倍数，并且因而不需要编码地址偏离的冗余低阶位。换言之，移位因子字段162B替换传统x86指令集8位移位。因而，以与x86指令集8位移位相同的方式来编码移位因子字段162B（所以没有ModRM/SIB编码规则中的改变），仅仅除了disp8过载成disp8*N以外。换言之，不存在编码规则或编码长度中的改变，而是仅存在通过硬件（其需要通过存储器操作数的大小对移位进行缩放以获得逐字节地址偏离）对移位值的解译中的改变。

即时字段172如之前所述那样进行操作。

完整操作码字段

图2B是图示了根据本发明的一个实施例的构成完整操作码字段174的特定矢量友好指令格式200的字段的框图。具体地，完整操作码字段174包括格式字段140、基础操作字段142和数据元素宽度（W）字段164。基础操作字段142包括前缀编码字段225、操作码映射字段215和真实操作码字段230。

寄存器索引字段

图2C是图示了根据本发明的一个实施例的构成寄存器索引字段144的特定矢量友好指令格式200的字段的框图。具体地，寄存器索引字段144包括REX字段205、REX'字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254和bbb字段256。

扩增操作字段

图2D是图示了根据本发明的一个实施例的构成扩增操作字段150的特定矢量友好指令格式200的字段的框图。当分类（U）字段168包含0时，其标示EVEX.U0（分类A 168A）；当它包含1时，其标示EVEX.U1（分类B 168B）。当U=0并且MOD字段242包含11时（标示无存储器访问操作），阿尔法字段152（EVEX字节3，位[7]-EH）解译为rs字段152A。当rs字段152A包含1时（取整152A.1），贝塔字段154（EVEX字节3，位[6:4]-SSS）解译为取整控制字段154A。取整控制字段154A包括一位SAE字段156和两位取整操作字段158。当rs字段152A包含0时（数据变换152A.2），贝塔字段154（EVEX字节3，位[6:4]-SSS）解译为三位数据变换字段154B。当U=0并且MOD字段242包含00、01或10时（标示存储器访问操作），阿尔法字段152（EVEX字节3，位[7]-EH）解译为逐出提示（EH）字段152B并且贝塔字段154（EVEX字节3，位[6:4]-SSS）解译为三位数据操控字段154C。

当U=1时，阿尔法字段152（EVEX字节3，位[7]-EH）解译为写入掩蔽控制（Z）字段152C。当U=1并且MOD字段242包含11时（标示无存储器访问操作），贝塔字段154的部分（EVEX字节3，位[4]-S₀）解译为RL字段157A；当它包含1时（取整157A.1），贝塔字段154的其余部分（EVEX字节3，位[6:4]-S_2-1）解译为取整操作字段159A，而当RL字段157A包含0时（VSIZE157.A2），贝塔字段154的其余部分（EVEX字节3，位[6:4]-S_2-1）解译为矢量长度字段159B（EVEX字节3，位[6:5]-L_1-0）。当U=1并且MOD字段242包含00、01或10时（标示存储器访问操作），贝塔字段154（EVEX字节3，位[6:4]-SSS）解译为矢量长度字段159B（EVEX字节3，位[6:5]-S_1-0）和广播字段157B（EVEX字节3，位[4]-B）。

C. 示例性寄存器架构

图3是根据本发明的一个实施例的寄存器架构300的框图。在所图示的实施例中，存在为512位宽的32个矢量寄存器310；这些寄存器称为zmm0到zmm31。低16个zmm寄存器的低阶256位叠覆在寄存器ymm0-16上。低16个zmm寄存器的低阶128位（ymm寄存器的低阶128位）叠覆在寄存器xmm0-15上。特定矢量友好指令格式200在如以下表格中图示的这些叠覆的寄存器文件上进行操作。

换言之，矢量长度字段159B在最大长度以及一个或多个其它较短长度之间进行选择，其中每一个这样的较短长度是之前长度的一半长度；并且没有矢量长度字段159B的指令模板在最大矢量长度上操作。另外，在一个实施例中，特定矢量友好指令格式200的分类B指令模板在打包或标量单精度/双精度浮点数据以及打包或标量整数数据上进行操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；较高阶数据元素位置与它们在指令之前相同地在左边或者取决于实施例而归零。

写入掩蔽寄存器315——在所图示的实施例中，存在8个写入掩蔽寄存器（k0到k7），每一个在大小上为64位。在可替换实施例中，写入掩蔽寄存器315在大小上为16位。如之前所述，在本发明的一个实施例中，矢量掩蔽寄存器k0不能用作写入掩蔽；当正常将指示k0的编码用于写入掩蔽时，其选择硬布线写入掩蔽0xFFFF，从而有效地禁用用于该指令的写入掩蔽。

通用寄存器325——在所图示的实施例中，存在十六个64位通用寄存器，其连同现有x86寻址模式而用于对存储器操作数进行寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

在其上别名为MMX打包整数平坦寄存器文件350的标量浮点数栈寄存器文件（x87栈）345——在所图示的实施例中，x87栈是用于使用x87指令集扩展在32/64/80位浮点数据上执行标量浮点数操作的八元素栈；而MMX寄存器用来在64位打包整数数据上执行操作，以及针对在MMX和XMM寄存器之间执行的一些操作而保持操作数。

本发明的可替换实施例可以使用更宽或更窄的寄存器。附加地，本发明的可替换实施例可以使用更多、更少或不同的寄存器文件和寄存器。

D. 示例性核架构、处理器和计算机架构

处理器核可以以不同方式、出于不同目的并且在不同处理器中实现。例如，这样的核的实现可以包括：1）意图用于通用计算的通用有序核；2）意图用于通用计算的高性能通用无序核；3）意图主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可以包括：1）包括意图用于通用计算的一个或多个通用有序核和/或意图用于通用计算的一个或多个通用无序核的CPU；以及2）包括意图主要用于图形和/或科学（吞吐量）的一个或多个专用核的协处理器。这样的不同处理器引起不同计算机系统架构，其可以包括：1）与CPU分离的芯片上的协处理器；2）与CPU相同的封装中的分离管芯上的协处理器；3）与CPU相同的管芯上的协处理器（在该情况下，这样的协处理器有时候称为专用逻辑，诸如集成图形和/或科学（吞吐量）逻辑，或者专用核）；以及4）片上系统，其可以在相同管芯上包括所述CPU（有时候称为（多个）应用核或（多个）应用处理器）、以上所述协处理器和附加的功能性。接下来描述示例性核架构，接着是示例性处理器和计算机架构的描述。

图4A是图示了根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图。图4B是图示了根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图。图4A-B中的实线框图示了有序流水线和有序核，而虚线框的可选添加图示了寄存器重命名、无序发布/执行流水线和核。在给定有序方面是无序方面的子集的情况下，将描述无序方面。

在图4A中，处理器流水线400包括获取级402、长度解码级404、解码级406、分配级408、重命名级410、调度（还称为分派或发布）级412、寄存器读取/存储器读取级414、执行级416、回写/存储器写入级418、异常处置级422和提交级424。

图4B示出了包括耦合到执行引擎单元450的前端单元430的处理器核490，并且二者耦合到存储器单元470。核490可以是精简指令集计算（RISC）核、复杂指令集计算（CISC）核、非常长指令字（VLIW）核、或者混合型或可替换核类型。作为又一个选项，核490可以是专用核，诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元（GPGPU）核、图形核等。

前端单元430包括耦合到指令高速缓存单元434的分支预测单元432，指令高速缓存单元434耦合到指令转译后备缓冲器（TLB）436，指令转译后备缓冲器（TLB）436耦合到指令获取单元438，指令获取单元438耦合到解码单元440。解码单元440（或解码器）可以对指令进行解码，并且作为输出而生成一个或多个微操作、微代码进入点、微指令、其它指令或其它控制信号，它们从原始指令解码或者以其它方式反映原始指令或者从原始指令导出。解码单元440可以使用各种不同机制实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。在一个实施例中，核490包括微代码ROM或者存储用于某些宏指令的微代码的其它介质（例如，在解码单元440中或者以其它方式在前端单元430内）。解码单元440耦合到执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。（多个）调度器单元456表示任何数目的不同调度器，包括预留站、中央指令窗口等。（多个）调度器单元456耦合到（多个）物理寄存器文件的（多个）单元458。（多个）物理寄存器文件的单元458中的每一个表示一个或多个物理寄存器文件，其中不同的那些存储一个或多个不同的数据类型，诸如标量整数、标量浮点数、打包整数、打包浮点数、矢量整数、矢量浮点数、状态（例如，作为要执行的下一指令的地址的指令指针）等。在一个实施例中，（多个）物理寄存器文件的单元458包括矢量寄存器单元、写入掩蔽寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构矢量寄存器、矢量掩蔽寄存器和通用寄存器。（多个）物理寄存器文件的（多个）单元458由引退单元454重叠以说明可以实现寄存器重命名和无序执行的各种方式（例如，使用（多个）重新排序缓冲器和（多个）引退寄存器文件；使用（多个）未来文件、（多个）历史缓冲器和（多个）引退寄存器文件；使用寄存器映射和寄存器池；等）。引退单元454和（多个）物理寄存器文件的（多个）单元458耦合到（多个）执行群簇460。（多个）执行群簇460包括一个或多个执行单元462的集合以及一个或多个存储器访问单元464的集合。执行单元462可以在各种类型数据（例如，标量浮点数、打包整数、打包浮点数、矢量整数、矢量浮点数）上执行各种操作（例如，偏移、添加、减法、乘法）。尽管一些实施例可以包括专用于特定功能或功能集的数个执行单元，但是其它实施例可以包括仅一个执行单元或者全部执行所有功能的多个执行单元。将（多个）调度器单元456、（多个）物理寄存器文件的（多个）单元458以及（多个）执行群簇460示出为可能地多个，因为某些实施例创建用于某些类型数据/操作的分离流水线（例如，标量整数流水线、标量浮点数/打包整数/打包浮点数/矢量整数/矢量浮点数流水线，和/或存储器访问流水线，它们各自具有其自身的调度器单元、（多个）物理寄存器文件的单元和/或执行群簇——并且在分离的存储器访问流水线的情况下，实现其中仅该流水线的执行群簇具有（多个）存储器访问单元464的某些实施例）。还应当理解到，在使用分离流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行并且其余流水线是有序的。

存储器访问单元464的集合耦合到存储器单元470，存储器单元470包括耦合到数据高速缓存单元474的数据TLB单元472，数据高速缓存单元474耦合到2级（L2）高速缓存单元476。在一个示例性实施例中，存储器访问单元464可以包括加载单元、存储地址单元和存储数据单元，其中每一个耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434进一步耦合到存储器单元470中的2级（L2）高速缓存单元476。L2高速缓存单元476耦合到一个或多个其它级高速缓存并且最终耦合到主存储器。

作为示例，示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线400：1）指令获取438执行获取和长度解码级402和404；2）解码单元440执行解码级406；3）重命名/分配器单元452执行分配级408和重命名级410；4）（多个）调度器单元456执行调度级412；5）（多个）物理寄存器文件的（多个）单元458和存储器单元470执行寄存器读取/存储器读取级414；执行群簇460执行执行级416；6）存储器单元470和（多个）物理寄存器文件的（多个）单元458执行回写/存储器写入级418；7）各种单元可以牵涉在异常处置级422中；以及8）引退单元454和（多个）物理寄存器文件的（多个）单元458执行提交级424。

核490可以支持一个或多个指令集（例如，x86指令集（具有已经添加有较新版本的一些扩展）；加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集；加利福利亚森尼维尔市的ARM Holdings的ARM指令集（具有可选的附加扩展，诸如NEON），包括本文描述的（多个）指令。在一个实施例中，核490包括支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，由此允许使用打包数据来执行由许多多媒体应用使用的操作。

应当理解到，核可以支持多线程处理（执行操作或线程的两个或更多并行集合），并且可以以各种方式完成此，包括时间分片多线程处理、同时多线程处理（其中单个物理核提供用于物理核同时进行多线程处理的每一个线程的逻辑核），或者其组合（例如，时间分片获取和解码以及此后的同时多线程处理，诸如在Intel®超线程技术中）。

尽管在无序执行的上下文中描述了寄存器重命名，但是应当理解到，寄存器重命名可以使用在有序架构中。尽管所图示的处理器的实施例还包括分离的指令和数据高速缓存单元434/474以及共享的L2高速缓存单元476，但是可替换实施例可以具有用于指令和数据二者的单个内部缓冲器，诸如例如1级（L1）内部缓冲器或者多级内部高速缓存。在一些实施例中，系统可以包括内部高速缓存以及在核和/或处理器外部的外部高速缓存的组合。可替换地，所有高速缓存可以在核和/或处理器的外部。

图5A-B图示了更加具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块中的一个（包括相同类型和/或不同类型的其它核）。取决于应用，逻辑块通过具有一些固定功能逻辑、存储器I/O接口和其它必要的I/O逻辑的高带宽互连网络（例如，环形网络）进行通信。

图5A是根据本发明的实施例的单个处理器核连同其向管芯上互连网络502的连接以及其2级（L2）高速缓存504的本地子集的框图。在一个实施例中，指令解码器500支持具有打包数据指令集扩展的x86指令集。L1高速缓存506允许低时延访问以将存储器缓存到标量和矢量单元中。尽管在一个实施例中（为了简化设计），标量单元508和矢量单元510使用分离的寄存器集合（分别地，标量寄存器512和矢量寄存器514）并且将在它们之间转移的数据写入到存储器且然后从1级（L1）高速缓存506回读，但是本发明的可替换实施例可以使用不同的方案（例如，使用单个寄存器集合，或者包括允许在两个寄存器文件之间转移数据而不进行写入和回读的通信路径）。

L2高速缓存504的本地子集是划分成分离的本地子集的全局L2高速缓存的部分，每一处理器核一个分离的本地子集。每一个处理器核具有向其自身的L2高速缓存504的本地子集的直接访问路径。由处理器核读取的数据存储在其L2高速缓存子集504中并且可以与其它处理器核访问其自身的本地L2高速缓存子集并行地被快速地访问。由处理器核写入的数据存储在其自身的L2高速缓存子集504中并且在必要的情况下从其它子集冲刷掉。环形网络确保用于共享数据的一致性。环形网络是双向的以允许诸如处理器核、L2高速缓存和其它逻辑块之类的代理在芯片内彼此通信。每一个环形数据路径在每一方向上是1012位宽。

图5B是根据本发明的实施例的图5A中的处理器核的部分的放大视图。图5B包括L1高速缓存504的L1数据高速缓存506A部分，以及关于矢量单元510和矢量寄存器514的更多细节。具体地，矢量单元510是16宽矢量处理单元（VPU）（参见16宽ALU 528），其执行整数、单精度浮点数和双精度浮点数指令中的一个或多个。VPU支持利用拌和单元520对寄存器输入进行拌和，利用众多转换单元522A-B的数值转换，以及利用复制单元524在存储器输入上的复制。写入掩蔽寄存器526允许预测所得矢量写入。

图6是根据本发明的实施例的处理器600的框图，处理器600可以具有多于一个核，可以具有集成的存储器控制器，并且可以具有集成的图形。图6中的实线框图示了具有单个核602A的处理器600、系统代理610、一个或多个总线控制器单元616的集合，而虚线框的可选添加图示了具有多个核602A-N的可替换处理器600、系统代理单元610中的一个或多个集成的存储器控制器单元614的集合、以及专用逻辑608。

因而，处理器600的不同实现可以包括：1）CPU，具有作为集成的图形和/或科学（吞吐量）逻辑的专用逻辑608（其可以包括一个或多个核），以及作为一个或多个通用核的核602A-N（例如，通用有序核、通用无序核、两个的组合）；2）协处理器，具有作为意图主要用于图形和/或科学（吞吐量）的大量专用核的核602A-N；以及3）协处理器，具有作为大量通用有序核的核602A-N。因而，处理器600可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量许多集成核（MIC）协处理器（包括30或更多核）、嵌入式处理器等。处理器可以实现在一个或多个芯片上。处理器600可以是一个或多个衬底的部分和/或可以使用数个处理技术中的任一个实现在一个或多个衬底上，诸如例如BiCMOS、CMOS或NMOS。

存储器分层结构包括核内的一个或多个级的高速缓存、一个或多个共享高速缓存单元606的集合、以及耦合到集成存储器控制器单元614的集合的外部存储器（没有示出）。共享高速缓存单元606的集合可以包括一个或多个中间级高速缓存，诸如2级（L2）、3级（L3）、4级（L4）或其它级的高速缓存、末级高速缓存（LLC）和/或其组合。尽管在一个实施例中，基于环形的互连单元612互连集成图形逻辑608、共享高速缓存单元606的集合以及系统代理单元610/（多个）集成存储器控制器单元614，但是可替换实施例可以使用任何数目的公知技术以用于互连这样的单元。在一个实施例中，在一个或多个高速缓存单元606和核602A-N之间维持一致性。

在一些实施例中，核602A-N中的一个或多个能够进行多线程处理。系统代理610包括协调和操作核602A-N的那些组件。系统代理单元610可以包括例如功率控制单元（PCU）和显示单元。PCU可以是或者包括用于调控核602A-N和集成图形逻辑608的功率状态所需要的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核602A-N可以在架构指令集方面是同构或异构的；也就是说，核602A-N中的两个或更多可以能够执行相同指令集，而其它者可以能够仅执行该指令集的子集或者不同的指令集。

图7-10是示例性计算机架构的框图。在本领域中对于膝上型电脑、桌上型电脑、手持式PC、个人数字助理、工程化工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器（DSP）、图形设备、视频游戏设备、机顶盒、微控制器、手机、便携式媒体播放器、手持式设备和各种其它电子设备而言已知的其它系统设计和配置也是适合的。一般地，能够并入如本文中公开的处理器和/或其它执行逻辑的各种各样系统或电子设备一般是适合的。

现在参照图7，示出了依照本发明的一个实施例的系统700的框图。系统700可以包括耦合到控制器中心720的一个或多个处理器710、715。在一个实施例中，控制器中心720包括图形存储器控制器中心（GMCH）790和输入/输出中心（IOH）750（其可以处于分离的芯片上）；GMCH 790包括存储器740和协处理器745耦合到的存储器和图形控制器；IOH 750将输入/输出（I/O）设备760耦合到GMCH 790。可替换地，存储器和图形控制器中的一个或二者集成在处理器内（如本文中所述），存储器740和协处理器745直接耦合到处理器710，以及与IOH 750处于单个芯片中的控制器中心720。

在图7中利用折线标示附加处理器715的可选性质。每一个处理器710、715可以包括本文描述的处理核中的一个或多个并且可以是处理器600的某一版本。

存储器740可以例如是动态随机存取存储器（DRAM）、相变存储器（PCM）或者两个的组合。对于至少一个实施例，控制器中心720经由多点总线与（多个）处理器710、715通信，诸如前侧总线（FSB）、诸如QuickPath互连（QPI）之类的点对点接口、或者类似连接795。

在一个实施例中，协处理器745是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中心720可以包括集成图形加速器。

在指标度量谱方面，物理资源710、715之间可以存在各种差异，指标包括架构、微架构、热学、功耗特性等。

在一个实施例中，处理器710执行指令，该指令控制一般类型的数据处理操作。嵌入在指令内的可以是协处理器指令。处理器710将这些协处理器指令识别为具有应当由所附连的协处理器745执行的类型。相应地，处理器710在协处理器总线或其它互连上向协处理器745发布这些协处理器指令（或者表示协处理器指令的控制信号）。（多个）协处理器745接受和执行所接收的协处理器指令。

现在参照图8，示出了依照本发明的实施例的更加具体的第一示例性系统800的框图。如图8中所示，多处理器800是点对点互连系统，并且包括经由点对点互连850耦合的第一处理器870和第二处理器880。处理器870和880中的每一个可以是处理器600的某一版本。在本发明的一个实施例中，处理器870和880分别是处理器710和715，而协处理器838是协处理器745。在另一个实施例中，处理器870和880分别是处理器710和协处理器745。

将处理器870和880示为分别包括集成的存储器控制器（IMC）单元872和882。处理器870还包括作为其总线控制器单元的部分的点对点（P-P）接口876和878；类似地，第二处理器880包括P-P接口886和888。处理器870、880可以使用P-P接口电路878、888经由点对点（P-P）接口850而交换信息。如图8中所示，IMC 872和882将处理器耦合到相应的存储器，也就是存储器832和834，其可以是本地附连到相应处理器的主存储器的部分。

处理器870、880可以各自使用点对点接口电路876、894、886、898而经由单独的P-P接口852、854来交换信息。芯片组890可以可选地经由高性能接口839与协处理器838交换信息。在一个实施例中，协处理器828是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享高速缓存（未示出）可以包括在处理器中或者在两个处理器的外部，而又经由P-P互连与处理器连接，使得任一个或者两个处理器的本地缓存信息可以存储在共享高速缓存中，如果将处理器置于低功率模式中的话。

芯片组890可以经由接口896耦合到第一总线816。在一个实施例中，第一总线816可以是外围组件互连（PCI）总线，或者诸如快速PCI总线或另一个第三代I/O互连总线之类的总线，尽管本发明的范围不如此受限。

如图8中所示，各种I/O设备814可以耦合到第一总线816，连同将第一总线816耦合到第二总线820的总线桥818。在一个实施例中，一个或多个附加的处理器815，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或者任何其它处理器，耦合到第一总线816。在一个实施例中，第二总线820可以是低引脚计数（LPC）总线。在一个实施例中，各种设备可以耦合到第二总线820，包括例如键盘和/或鼠标822、通信设备827和存储单元828（诸如盘驱动或其它大容量存储设备，其可以包括指令/代码和数据830）。另外，音频I/O 824可以耦合到第二总线820。要指出，其它架构是可能的。例如，代替于图8的点对点架构，系统可以实现多点总线或其它这样的架构。

现在参照图9，示出了依照本发明的实施例的更加具体的第二示例性系统900的框图。图8和9中的相同元件具有相同参考标记，并且图8的某些方面已经从图9省略以便避免使图9的其它方面模糊。

图9图示了处理器870、880可以分别包括集成的存储器和I/O控制逻辑（“CL”）872和882。因而，CL 872、882包括集成的存储器控制器单元并且包括I/O控制逻辑。图9图示了不仅存储器832、834耦合到CL 872、882，而且I/O设备914也耦合到控制逻辑872、882。传统I/O设备915耦合到芯片组890。

现在参照图10，示出了依照本发明的实施例的SoC 1000的框图。图6中的类似元件具有相同参考标记。而且，虚线框是更加高级的SoC上的可选特征。在图10中，（多个）互连单元1002耦合到：应用处理器1010，其包括一个或多个核202A-N的集合和（多个）共享高速缓存单元606；系统代理单元610；（多个）总线控制器单元616；（多个）集成的存储器控制器单元614；一个或多个协处理器1020的集合，其可以包括集成的图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM）单元1030；直接存储器访问（DMA）单元1032；以及用于耦合到一个或多个外部显示器的显示单元1040。在一个实施例中，（多个）协处理器1020包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文公开的机制的实施例可以实现在硬件、软件、固件、或者这样的实现方案的组合中。本发明的实施例可以实现为计算机程序或者程序代码，其在包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备和至少一个输出设备的可编程系统上执行。

可以应用程序代码，诸如在图8中图示的代码830，以输入指令来执行本文描述的功能并且生成输出信息。输出信息可以以已知方式应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器的任何系统，所述处理器诸如例如：数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或微处理器。

程序代码可以用高级过程式或面向对象的编程语言来实现以便与处理系统进行通信。程序代码还可以用汇编或机器语言来实现，如果期望的话。事实上，本文描述的机制在范围方面不限于任何特定编程语言。在任何情况下，语言可以是编译或解译语言。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现，机器可读介质表示处理器内的各种逻辑，其在由机器读取时使机器制定逻辑来执行本文描述的技术。称为“IP核”的这样的表示可以存储在有形机器可读介质上并且供应给各种顾客或制造设施以便加载到实际制得逻辑或处理器的制造机器中。

这样的机器可读存储介质可以包括但不限于由机器或设备形成或制造的物品的非暂时性、有形布置，包括：存储介质，诸如硬盘、任何其它类型的盘，包括软盘、光学盘、致密盘只读存储器（CD-ROM）、致密盘可再写入（CD-RW）和磁光盘；半导体器件，诸如只读存储器（ROM）、随机存取存储器（RAM）（诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM））、可擦除可编程只读存储器（EPROM）、闪速存储器、电气可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）、磁卡或光学卡、或者适于存储电子指令的任何其它类型的介质。

相应地，本发明的实施例还包括非暂时性、有形机器可读介质，其包含指令或者包含设计数据，诸如硬件描述语言（HDL），其限定本文描述的结构、电路、装置、处理器和/或系统特征。这样的实施例还可以称为程序产品。

在一些情况下，指令转换器可以用于将指令从源指令集转换到目标指令集。例如，指令转换器可以使指令转译（例如，使用静态二进制转译、动态二进制转译，包括动态编译）、变体、仿真或以其它方式转换成要由核处理的一个或多个其它指令。指令转换器可以实现在软件、硬件、固件或其组合中。指令转换器可以在处理器上、处理器外或者部分地在处理器上且部分地在处理器外。

图11是根据本发明的实施例的对照使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中，指令转换器是软件指令转换器，尽管可替换地，指令转换器可以实现在软件、固件、硬件或其各种组合中。图11示出了可以使用x86编译器1104对高级语言1102的程序进行编译以生成x86二进制代码1106，其可以由具有至少一个x86指令集核的处理器1116本机执行。具有至少一个x86指令集核的处理器1116表示任何处理器，其可以通过兼容地执行或以其它方式处理以下来执行与具有至少一个x86指令集核的Intel处理器基本上相同的功能，以便实现与具有至少一个x86指令集核的Intel处理器基本上相同的结果：（1）Intel x86指令集核的指令集的大部分或者（2）目标是在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的目标代码版本。x86编译器1104表示可操作为生成x86二进制代码1106（例如，目标代码）的编译器，x86二进制代码1106可以在具有或者没有附加联动处理的情况下在具有至少一个x86指令集核的处理器1116上执行。类似地，图11示出了高级语言1102的程序可以使用可替换的指令集编译器1108来编译以便生成可替换的指令集二进制代码1110，其可以由没有至少一个x86指令集核的处理器1114（例如，具有核的处理器，该核执行加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集和/或执行加利福利亚森尼维尔市的ARM Holdings的ARM指令集）本机执行。指令转换器1112用于将x86二进制代码1106转换成可以由没有x86指令集核的处理器1114本机执行的代码。这种经转换的代码不大可能与可替换的指令集二进制代码1110相同，因为能够如此的指令转换器难以制得；然而，经转换的代码将实现一般操作并且由来自可替换指令集的指令构成。因而，指令转换器1112表示软件、固件、硬件或其组合，其通过仿真、模拟或任何其它过程而允许没有x86指令集处理器或核的处理器或其它电子设备执行x86二进制代码1106。

执行矢量位反转的方法和装置

需要矢量位反转操作以便高效地实现数个位操控例程。本发明的一个实施例包括矢量位反转指令，其调换存储在源寄存器中的邻近位或位群组的定位。特别地，矢量位反转指令的一个实施例由即时值控制，即时值指定要反转/调换的位群组的大小。例如，在一个实施例中，即时值1指示要反转单独的位；即时值2指示要反转成对的位；即时值4指示要反转半字节（4个位）；即时值8指示要反转字节；即时值16指示要反转字；以及即时值32指示要反转双字。位反转指令的结果存储在目的地寄存器中。此外，模式可以使用例如以下各项而利用即时值的3个位进行编码：用于1个位的000；用于2个位的001；用于4个位的010；用于8个位的011；用于16个位的100；以及用于32个位的101。此外，并非使用即时值，而是可以将信息直接地编码在指令本身中，并且信息具有用于每一个位大小的指令的若干版本（例如，vrevcross1、vrevcross2、vrevcross4等）。

如图12中所图示，可以在其上实现本发明的实施例的示例性处理器1255包括解码器1230和执行逻辑1240，解码器具有用于解码矢量位反转指令的矢量位反转解码逻辑1231，执行逻辑1240具有用于执行经解码的位反转指令的位反转执行逻辑1241。

现在将描述示例性处理器的附加细节。然而应当指出，本发明的底层原理不限于任何特定类型的处理器架构。

所图示的处理器架构包括通用寄存器（GPR）1205的集合、矢量寄存器1206的集合以及掩蔽寄存器1207的集合。在一个实施例中，将多个矢量数据元素打包到每一个矢量寄存器1206中，每一个矢量寄存器1206可以具有用于存储两个256位值、四个128位值、八个64位值、十六个32位值等的512个位。然而，本发明的底层原理不限于任何特定大小/类型的矢量数据。在一个实施例中，掩蔽寄存器1207包括用于在存储于矢量寄存器1206中的值上执行位掩蔽操作的八个64位掩蔽寄存器（例如，实现为上文描述的掩蔽寄存器k0-k7）。然而，本发明的底层原理不限于任何特定的掩蔽寄存器大小/类型。

出于简单起见而在图12中图示单个处理器核（“核0”）的细节。然而将理解到，在图12中示出的每一个核可以具有与核0相同的逻辑集合。例如，每一个核可以包括专用的1级（L1）高速缓存1212和2级（L2）高速缓存1211以用于根据所指定的高速缓存管理策略来缓存指令和数据。L1高速缓存1212包括用于存储指令的单独的指令高速缓存1220以及用于存储数据的单独的数据高速缓存1221。存储在各种处理器高速缓存内的指令和数据在可以具有固定大小（例如，长度为64、128、512字节）的高速缓存行的粒度下进行管理。该示例性实施例的每一个核具有用于从主存储器1200和/或共享3级（L3）高速缓存1216获取指令的指令获取单元1210；用于对指令进行解码的解码单元1220（例如，将程序指令解码成微操作或“uops”）；用于执行指令的执行单元1240；以及用于引退指令并且回写结果的回写单元1250。

指令获取单元1210包括各种公知的组件，包括用于存储要从存储器1200（或高速缓存之一）获取的下一指令的地址的下一指令指针1203；用于存储最近使用的虚拟到物理的指令地址的映射以改进地址转译速度的指令转译后备缓冲器（ITLB）1204；用于推测地预测指令分支地址的分支预测单元1202；以及用于存储分支地址和目标地址的分支目标缓冲器（BTB）1201。一旦获取，然后就将指令流式传送给指令流水线的剩余级，包括解码单元1230、执行单元1240和回写单元1250。这些单元中的每一个的结构和功能是本领域普通技术人员很好理解的并且将不会在此处详细地描述以便避免使本发明的不同实施例的相关方面模糊。

如所提及的，在一个实施例中，矢量位反转指令调换存储在源寄存器中的邻近位或位群组的定位并且在即时值的控制之下将结果存储在目的地寄存器中，该即时值指定要反转/调换的位群组的大小。在一个实施例中，仅准许两个位群组大小的幂使得所有位群组具有要与其调换的对。

图13图示了示例性实施例，其包括用于存储要调换的位或位群组的第一源寄存器SRC1 1301以及用于存储矢量位反转指令的结果的目的地寄存器DST 1302。在一个实施例中，SRC1和DST包括打包到512位矢量寄存器（例如，ZMM0、ZMM1等）中的数据的64个位。然而，如之前所提及，本发明的底层原理不限于任何特定大小/类型的操作数或寄存器。要指出，出于简单起见而仅在图13中示出存储在SRC1 1301和DST 1302中的数据的部分。

在操作中，矢量位反转逻辑1300（其如所提及的那样可以包括处理器流水线的解码和执行级二者中的逻辑）基于即时值1303中所提供的控制值而将位或位群组从源寄存器SRC1 1301调换到目的地寄存器DST 1302。在图13中所示的具体示例中，即时值1303设置成1，其指示要调换单独的位。因此，位1和0的定位调换，位2和3、4和5、6和7、8和9等等直到位62和63的定位同样如此。在一个实施例中，矢量位反转逻辑1300包括一个或多个多路复用器的集合以便在即时值的控制之下将位群组从源寄存器SRC1 1301反转到目的地寄存器DST 1302。

图14图示了其中即时值1303具有值2的实施例，值2指示要调换位对。因而，矢量位反转逻辑1300调换位对0-1与位对2-3；位对4-5与位对6-7；位对8-9与位对10-11等等直到如所图示的位对60-61到62-63。

图15图示了其中即时值1303具有值4的实施例，值4指示要调换半字节（4个位的群组）。因而，矢量位反转逻辑1300调换位0-3与位4-7；位8-11与12-15；16-19与20-23等等直到位56-59与位60-63调换。

图16图示了其中即时值1303具有值8的实施例，值8指示要调换字节。因而，矢量位反转逻辑1300调换字节0-7与字节8-15；字节16-23与字节24-31；等等，直到如所图示的字节48-55与字节56-63调换。

图17图示了其中即时值1303具有值16的实施例，值16指示要调换字。因而，矢量位反转逻辑1300调换字0-15与字16-31以及调换字32-47与字48-63，如所图示的那样。

最后，图18图示了其中即时值1303具有值32的实施例，值32指示要调换双字。因而，矢量位反转逻辑1300调换双字0-31与双字32-63，如所图示的那样。

依照本发明的一个实施例的方法在图19中图示。该方法可以在以上描述的架构的上下文内执行，但是不限于任何特定系统架构。

在1901处，从系统存储器获取或者从高速缓存（例如，L1、L2或L3高速缓存）读取矢量位反转指令。在1902处，响应于矢量位反转指令的解码/执行，将要反转/调换的输入矢量数据存储在源寄存器中。如所提及的，在一个实施例中，源寄存器是512位矢量寄存器，并且要反转/调换的矢量数据包括打包在矢量寄存器内的一个或多个数据元素（例如，64个位）。在1903处，从指令的即时值提供执行矢量位反转所需要的控制数据。在1904处，依照即时值反转单独的位或位群组。如以上所提及的，在一个实施例中，即时值1指示要反转单独的位；即时值2指示要反转位对；即时值4指示要反转半字节（4个位）；即时值8指示要反转字节；即时值16指示要反转字；以及即时值32指示要反转双字。在1905处，包括经反转的位或位群组的数据存储在目的地寄存器中，如所提及的，目的地寄存器可以是另一个512位矢量寄存器。经反转的位或位群组然后可以用作用于一个或多个附加指令的源。

作为示例而非限制，可以执行位反转指令序列以便完全地反转矢量数据元素的所有位。例如，如果矢量位反转指令序列在64位值上使用即时值32、16、8、4、2和1，使用目的地结果作为用于每一个后续指令的源而执行，则64位值的所有位将在最终目的地寄存器中反转。该操作的部分在图20中图示，图20示出了源寄存器2001中的排序为7-0的初始位集合。利用即时值4执行第一矢量位反转指令以便反转如所图示的目的地寄存器2002中的位3-0和7-4，目的地寄存器2002然后用作针对第二矢量位反转指令的源寄存器。第二位反转指令具有即时值2，从而反转位3-2和1-0以及位7-6和5-4并且将结果存储在目的地寄存器2003中。最后，使用来自寄存器2003的数据利用即时值1来执行第三位反转指令，从而反转位1和0、位3和2、位5和4以及位7和6，以便达到完全从初始集合（76543210）反转的位集合（01234567）。

在一个实施例中，对于EVEX编码的实现，第一源操作数、第二源操作数和目的地操作数全部是ZMM寄存器。在一个实施例中，矢量位反转指令采取以下形式，其中DEST是目的地并且SRC1包括含有要反转/调换的数据的源：

此外，以下伪代码提供依照本发明的一个实施例执行的操作的表示：

因而，假设KL=8并且VL=512，FOR循环（基于j）用于选择要标识其内的位群组的不同64位四倍字长中的每一个。具有“EVEX.b AND SRC3*is memory*”的IF语句指示如果“b”位在EVEX位字段中设置（典型地，用于源广播、取整控制（与L'L组合）或者抑制异常），并且如果源数据从系统存储器读取，则使用单个64位源值（即，j=0）。否则，基于j的当前值来选择要使用的数据元素。牵涉到h的IF和ELSE语句指定要依照即时值（h:=IMM8 [5:0]）反转的数据元素的大小并且设置b的值，b的值标识要反转的特定位字段。

用于执行矢量位反转和交叉的方法和装置

本发明的一个实施例实现了如上文所述的矢量位反转，而且还提供了组合经反转的位或位群组与来自第二源的数据的能力。特别地，在一个实施例中采用矢量位反转和交叉指令，其执行来自第一源的元素内的分组位的反转并且通过以交替方式选择位的群组来组合它们与第二源。指令的操作可以由即时值控制：位5-0控制位群组的大小，而位6启用或禁用两个源的组合。附加地，组合的次序可以由位7控制。

在操作中，位群组可以如上文所述的那样成对，从而形成介于1位和32位之间的大小的位块。仅允许两个位群组大小的幂，所以所有群组具有对。每一个群组与其邻居成对并且与它交换（调换）。在调换之后，并且如果设置即时位6，则通过以交替方式从一个源或另一个源选择位的群组而使操作的结果与另一个源操作数组合。在一个实施例中，要选择的第一操作数由位7控制（例如，0=首先从SRC2选择，并且1=首先从SRC3选择）。

如在图21中所图示，在其上可以实现本发明的实施例的示例性处理器1255包括解码器1230和执行逻辑1240，解码器1230具有用于解码矢量位反转和交叉指令的矢量位反转和交叉解码逻辑2131，执行逻辑1240具有用于执行经解码的位反转和交叉指令的位反转和交叉执行逻辑2141。示例性处理器1255的附加细节在以上关于图12提供。然而应当指出，本发明的底层原理不限于任何特定类型的处理器架构。

图22图示了示例性实施例，其包括第一源寄存器SRC3 3301和第二源寄存器SCR22202以用于存储由矢量位反转和交叉逻辑2200处理的源位或位群组。还示出了目的地寄存器DST 2204，用于存储由矢量位反转和交叉逻辑2200执行的矢量位反转和交叉操作的结果。在一个实施例中，SRC2 2202、SRC3 2201和DST 2204包括打包到512位矢量寄存器（例如，ZMM0、ZMM1等）中的数据的64位。然而，如之前所提及的，本发明的底层原理不限于任何特定大小/类型的操作数或寄存器。

在操作中，矢量位反转和交叉逻辑2200（其如上文所提及的那样可以包括处理器流水线的解码和执行级二者中的逻辑）在即时值2203的控制之下执行反转操作，诸如以上描述的那些。在图22中示出的具体示例中，即时值的位0-5指示要在数据的16位群组（即，字）上执行反转操作。因而，在所图示的示例中，SRC3 2201中的每一个元素A0-A3以及SRC22202中的每一个元素B0-B3的长度为16位。如所图示的，响应于即时值，矢量位反转和交叉逻辑2200在第一源寄存器SRC3 2201中的数据上执行反转（调换A3与A2以及调换A1与A0）。在一个实施例中，矢量位反转和交叉逻辑2200包括在即时值的控制之下的一个或多个多路复用器的集合，用于反转来自源寄存器SRC1 1301的位群组并且使数据元素交织来生成目的地寄存器DST 1302中的结果。

此外，在一个实施例中，即时值的位6指示矢量位反转和交叉逻辑2200是否应当使来自第一源寄存器SRC3 2201的经反转的位群组与第二源寄存器B0-B3中的数据元素交织。例如，位6中的值1指示交织应当发生。因此，除执行来自第一源寄存器SRC3 2201的位群组的反转之外，矢量位反转和交叉逻辑2200从不同的源寄存器选择任何其它数据元素。在所图示的示例中，选择数据元素A2（已经向其应用反转操作）并且将其置于目的地的最左侧数据元素位置，将来自SRC2的B2置于下一数据元素位置，接着是来自SRC3的A0，接着是来自SRC2的B0。在一个实施例中，即时值的位7指示数据元素交织的次序。例如，在图22中，将位7设置成0，从而意味着将经反转的数据元素A2置于最左侧的数据元素位置。

然而，如果将位7设置成1，如在图23中所图示，则将来自SRC2的数据元素B3置于DST的最左侧位置，接着是来自SRC3的A3，接着是来自SRC2的B1，接着是来自SRC3的A1。换句话说，位7指示来自SRC3的数据是应当占据DST 2204中的偶数还是奇数数据元素位置（其中来自SRC2的数据占据没有被来自SRC3的数据占据的其它位置）。综上，位6指示与第二源寄存器SRC2的交织是否应当执行，并且位7指示执行交织的次序。应当指出，矢量位反转和交叉逻辑2200可以执行其操作并且并发地填充目的地寄存器DST 2204的所有数据元素（例如，在单个周期中）。

图24图示了其中将即时值的位6设置成0的示例。这样，关闭与来自第二源寄存器SRC2 2203的数据元素的交织。作为结果，在该实施例中，矢量位反转和交叉逻辑2200在第一源寄存器SRC3 2201内的位群组上执行反转操作，并且将结果存储在目的地寄存器DST2204中（如上文关于图14-18所述）。

本文描述的矢量位反转和交叉技术可以用于高效地实现各种不同功能。图25例如图示了在执行一般转置算法时可以如何应用这些技术。源寄存器2501包括数据元素a0-a3，源寄存器2502包括数据元素b0-b3，源寄存器2503包括数据元素c0-c3，并且源寄存器2504包括数据元素d0-d3。在一个实施例中，来自寄存器2501的元素被反转并且与来自寄存器2502的元素交织以填充寄存器2512。因而，寄存器2512包括（从左向右）元素a2、b2、a0、b0。此外，来自寄存器2502的元素被反转并且与来自寄存器2501的元素交织以填充寄存器2511，从而导致元素a3、b3、a1、b1。在一个实施例中，关于源寄存器2503和2504执行相同操作以填充寄存器2513和2514（即，反转2503的元素并且与2504交织以填充2514，以及反转2504的元素并且与2503交织以填充2513）。

在下一级中，寄存器2511中的元素a3-b3与元素a1-b1反转（即，增加即时值以覆盖像在第一级中使用的两倍大的位群组）并且将结果与寄存器2513中的数据元素交织（再次，使用较大的位群组大小）。因而，寄存器2523包含元件序列：a1、b1、c1、d1，如所图示的那样（a1-b1已经从寄存器2511反转并且c1-d1已经从寄存器2513交织）。类似地，寄存器2513中的元素c3-d3与元素c1-d1反转，并且结果与寄存器2511中的（未反转的）数据元素交织。因而，寄存器2521包含元素序列：a3、b3、c3、d3。根据相同原理但是利用不同的源寄存器2512和2514来填充剩余的目的地寄存器2522和2524。

以上操作序列的最后结果是包含在源寄存器2501-2501中的矩阵已经在目的地寄存器2521-2524中转置，如所图示的。

图26A和26B图示了本发明的实施例可以如何用于执行倾斜基元操作的另一个示例。特别地，在图26A中，源寄存器2601包含数据元素3、2、1和0，并且源寄存器2602包含数据元素3'、2'、1'和0'。在级1中，调换数据元素3'和2'，并且调换数据元素1'和0'，从而导致在寄存器2603中示出的序列（即，2'、3'、0'、1'）。在级2中，将寄存器2603中的结果与寄存器2601中的数据交织，从而导致如所图示的序列3、3'、1、1'。

图26B图示了类似的过程（其可以与图26A中的过程并发地执行），但是具有经反转的源寄存器。特别地，源寄存器2611包含数据元素3'、2'、1'和0'，并且源寄存器2612包含数据元素3、2、1和0。在级1中，调换数据元素3和2，并且调换数据元素1和0，从而导致在寄存器2613中示出的序列（即，2、3、0、1）。在级2中，使寄存器2603中的结果与寄存器2601中的数据交织，从而导致如所图示的序列2、2'、0、0'。

尽管出于说明的目的而提供了以上示例，但是本发明的底层原理不限于任何特定功能。以上描述的矢量位反转和交叉技术可以在各种不同功能的上下文内实现。

在图27中图示了依照本发明的一个实施例的方法。该方法可以实现在以上讨论的架构的上下文内，但是不限于任何特定架构。

在2701处，从系统存储器获取或者从高速缓存（例如，L1、L2或L3高速缓存）读取矢量位反转和交叉指令。在2702处，响应于矢量位反转指令的解码/执行，将第一输入矢量数据存储在第一源寄存器中并且将第二输入矢量数据存储在第二源寄存器中。如所提及的，在一个实施例中，源寄存器是512位矢量寄存器，并且要反转/调换的矢量数据包括打包在矢量寄存器内的一个或多个数据元素（例如，64个位）。在2703处，从指令的即时值（或者更具体地，从即时值的部分，诸如以上讨论的位0-5）提供执行矢量位反转所需要的控制数据。在2704处，标识来自要反转的第一源寄存器的单独的位或位群组，并且使位群组反转。

如果在2705处确定，即时交织位被设置，则在2706处，使来自第一源寄存器的经反转的位群组与来自第二源寄存器的位群组交织。如上文所提及的，位群组交织的次序还可以取决于即时值（例如，诸如上文所讨论的即时值的位7的值）。如果即时交织位没有被设置，则在2707处，将来自第一源的经反转的位群组存储在目的地寄存器中（例如，忽略第二源寄存器中的数据）。

在一个实施例中，对于EVEX编码的实现，第一源操作数是矢量寄存器，并且第二源操作数是矢量寄存器或存储器位置。目的地操作数是矢量寄存器。如所提及的，控制来源于即时字节：

因而，假设KL=8并且VL=512，则FOR循环（基于j）用于选择要标识其内的位群组的不同64位四字节长中的每一个。牵涉到k的IF/ELSE语句的第一集合旋转和选择来自第一源寄存器的位群组，并且牵涉到k'的IF/ELSE语句的第二集合基于即时值（例如，如果IMM8[6]设置成1的话）而从来自第二源寄存器的位群组选择（即，交织）。

在前述说明书中，已经参照其具体示例性实施例描述了本发明的实施例。然而，将清楚的是，可以对其做出各种修改和改变，而不脱离如在随附权利要求中阐述的本发明的宽泛精神和范围。相应地，说明书和附图要视为说明性含义而非约束性含义。

本发明的实施例可以包括已经在上文描述的各种步骤。步骤可以体现在机器可执行指令中，机器可执行指令可以用于使通用或专用处理器来执行步骤。可替换地，这些步骤可以通过包含用于执行步骤的硬布线逻辑的特定硬件组件来执行，或者通过编程的计算机组件和自定义硬件组件的任何组合来执行。

如本文中所述，指令可以是指硬件的具体配置，诸如配置成执行某些操作或者具有存储在非暂时性计算机可读介质中所体现的存储器中的预确定功能性或软件指令的专用集成电路（ASIC）。因而，在附图中示出的技术可以使用在一个或多个电子设备（例如，终端站、网络元件等）上存储和执行的代码和数据来实现。这样的电子设备使用计算机机器可读介质存储和传达（内部地和/或通过网络与其它电子设备）代码和数据，所述计算机机器可读介质诸如非暂时性计算机机器可读存储介质（例如，磁盘；光学盘；随机存取存储器；只读存储器；闪速存储器设备；相变存储器）以及暂时性计算机机器可读通信介质（例如，电气、光学、声学或其它形式的传播信号——诸如载波、红外信号、数字信号等）。此外，这样的电子设备典型地包括耦合到一个或多个其它组件的一个或多个处理器的集合，所述一个或多个其它组件诸如一个或多个存储设备（非暂时性机器可读存储介质）、用户输入/输出设备（例如，键盘、触摸屏和/或显示器）以及网络连接。处理器的集合与其它组件的耦合典型地是通过一个或多个总线和桥（还称为总线控制器）。承载网络业务量的存储设备和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因而，给定电子设备的存储设备典型地存储代码和/或数据以供在该电子设备的一个或多个处理器的集合上执行。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。遍及该详细描述，出于解释的目的，阐述了众多具体细节以便提供本发明的透彻理解。然而，本领域技术人员将清楚的是，本发明可以在没有这些具体细节中的一些的情况下实践。在某些实例中，没有以详尽的细节描述公知的结构和功能以便避免使本发明的主题模糊。相应地，本发明的精神和范围应当按照所附的权利要求来判定。

Claims

1.一种处理器，包括：

源矢量寄存器，用于存储多个源位群组，其中位群组的大小要在指令的即时值中指定；

矢量位反转逻辑，用于从即时值确定位群组大小，并且用于作为响应反转源矢量寄存器内的邻近位群组的定位以生成经反转的位群组的集合；以及

目的地矢量寄存器，用于存储经反转的位群组。

2.如权利要求1所述的处理器，其中矢量位反转逻辑包括一个或多个多路复用器，用于使来自源矢量寄存器的位群组依照即时值而反转到目的地矢量寄存器。

3.如权利要求1所述的处理器，其中位群组的大小从包括以下各项的群组中选择：1位、2位、4位、8位、16位和32位。

4.如权利要求1所述的处理器，其中源矢量寄存器和目的地矢量寄存器包括512位矢量寄存器，每一个具有64位数据元素，并且其中每一个位群组包括在64位数据元素中的一个内。

5.如权利要求4所述的处理器，其中矢量位反转逻辑用于从即时值确定位群组大小，并且用于作为响应反转针对源矢量寄存器的多个64位数据元素的邻近位群组的定位。

6.如权利要求1所述的处理器，其中矢量位反转逻辑用于通过首先在最高等级的粒度下反转数据元素内的邻近位群组的定位，并且然后接连地降低粒度直至位群组大小包括单个位，来执行数据元素内的所有位的反转。

7.如权利要求6所述的处理器，其中数据元素是64位，并且其中用于反转邻近位群组的定位的最高等级的粒度包括32位的位群组大小，用于反转邻近位群组的定位的下一所选位群组大小包括16位，用于反转邻近位群组的定位的下一所选位群组大小包括8位，用于反转邻近位群组的定位的下一所选位群组大小包括4位，用于反转邻近位群组的定位的下一所选位群组大小包括2位，以及用于反转邻近位群组的定位的最后所选位群组大小包括1位。

8.如权利要求1所述的处理器，还包括：

用于从存储器或高速缓存获取矢量位反转指令的指令获取单元，位反转指令具有与其相关联的即时值，矢量位反转逻辑用于处理矢量位反转指令以从即时值确定位群组大小，并且用于作为响应反转源矢量寄存器内的邻近位群组的定位以生成经反转的位群组的集合。

9.如权利要求8所述的处理器，其中矢量位反转逻辑包括矢量位反转解码组件和矢量位反转执行组件，所述矢量位反转解码组件用于对矢量位反转指令进行解码以生成经解码的矢量位反转指令，所述矢量位反转执行组件用于执行经解码的矢量位反转指令。

10.如权利要求9所述的处理器，其中经解码的矢量位反转指令包括多个微操作。

11.一种方法，包括：

将多个源位群组存储在源矢量寄存器中，其中位群组的大小在指令的即时值中指定；

从即时值确定位群组大小，并且作为响应反转源矢量寄存器内的邻近位群组的定位以生成经反转的位群组的集合；以及

将经反转的位群组存储在目的地矢量寄存器中。

12.如权利要求11所述的方法，还包括：

利用即时值控制一个或多个多路复用器以使来自源矢量寄存器的位群组反转到目的地矢量寄存器。

13.如权利要求11所述的方法，其中位群组的大小从包括以下各项的群组中选择：1位、2位、4位、8位、16位和32位。

14.如权利要求11所述的方法，其中源矢量寄存器和目的地矢量寄存器包括512位矢量寄存器，每一个具有64位数据元素，并且其中每一个位群组包括在64位数据元素中的一个内。

15.如权利要求14所述的方法，还包括：

从即时值确定位群组大小，并且作为响应反转针对源矢量寄存器的多个64位数据元素的邻近位群组的定位。

16.如权利要求11所述的方法，还包括：

通过首先在最高等级的粒度下反转数据元素内的邻近位群组的定位，并且然后接连地降低粒度直至位群组大小包括单个位，来执行数据元素内的所有位的反转。

17.如权利要求16所述的方法，其中数据元素是64位，并且其中用于反转邻近位群组的定位的最高等级的粒度包括32位的位群组大小，用于反转邻近位群组的定位的下一所选位群组大小包括16位，用于反转邻近位群组的定位的下一所选位群组大小包括8位，用于反转邻近位群组的定位的下一所选位群组大小包括4位，用于反转邻近位群组的定位的下一所选位群组大小包括2位，以及用于反转邻近位群组的定位的最后所选位群组大小包括1位。

18.如权利要求11所述的方法，还包括：

从存储器或高速缓存获取矢量位反转指令，位反转指令具有与其相关联的即时值，所述方法包括处理矢量位反转指令以从即时值确定位群组大小，并且以作为响应反转源矢量寄存器内的邻近位群组的定位以生成经反转的位群组的集合。

19.如权利要求18所述的方法，还包括对矢量位反转指令进行解码以生成经解码的矢量位反转指令以及执行经解码的矢量位反转指令。

20.如权利要求19所述的方法，其中经解码的矢量位反转指令包括多个微操作。

21.一种系统，包括：

存储器，用于存储程序代码和数据；

高速缓存分层结构，包括多个高速缓存级以依照所指定的高速缓存管理策略来缓存程序代码和数据；

输入设备，用于从用户接收输入；

处理器，用于执行程序代码并且响应于来自用户的输入而处理数据，所述处理器包括：

目的地矢量寄存器，用于存储经反转的位群组。

22.如权利要求21所述的系统，其中矢量位反转逻辑包括一个或多个多路复用器，用于使来自源矢量寄存器的位群组依照即时值而反转到目的地矢量寄存器。

23.如权利要求21所述的系统，其中位群组的大小从包括以下各项的群组中选择：1位、2位、4位、8位、16位和32位。

24.如权利要求21所述的系统，其中源矢量寄存器和目的地矢量寄存器包括512位矢量寄存器，每一个具有64位数据元素，并且其中每一个位群组包括在64位数据元素中的一个内。

25.如权利要求24所述的系统，其中矢量位反转逻辑用于从即时值确定位群组大小，并且用于作为响应反转针对源矢量寄存器的多个64位数据元素的邻近位群组的定位。