CN104756068A

CN104756068A - 合并相邻的聚集/分散操作

Info

Publication number: CN104756068A
Application number: CN201280076796.8A
Authority: CN
Inventors: A·T·福塞斯; B·J·希克曼; J·C·豪尔; C·J·休斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2015-07-01
Anticipated expiration: 2032-12-26
Also published as: KR20150064197A; US10275257B2; US20160124749A1; US20230137812A1; CN107562444A; US20140181464A1; US20160103786A1; US20160103788A1; WO2014105011A1; US11599362B2; US9645826B2; CN107562444B; US9563429B2; KR20170038133A; US9626193B2; DE112012007063T5; US9626192B2; US20160103789A1; US11003455B2; US20160110196A1

Abstract

根据一个实施例，处理器包括指令解码器，其用于对第一指令进行解码，该第一指令用于聚集来自存储器的数据元素，该第一指令具有指定第一存储位置的第一操作数和指定存储多个数据元素的第一存储器地址的第二操作数。该处理器进一步包括执行单元，其耦合至指令解码器，响应于第一指令，该执行单元用于：基于由第二操作数指示的第一存储器地址，从存储器位置中读取数据元素中连续的第一数据元素和第二数据元素；并且将该第一数据元素存储在第一存储位置的第一条目中，将该第二数据元素存储在对应于第一存储位置的第一条目的、第二存储位置的第二条目中。

Description

合并相邻的聚集/分散操作

技术领域

本发明的领域总体涉及处理器架构，更具体地说，涉及用于合并聚集分散操作的技术。

背景技术

为了充分利用单指令多数据(SIMD)处理器，将聚集(gather)指令用于从存储器中读取一组(可能的)非连续源数据元素，并且通常将它们一起紧缩(pack)到单个寄存器中。分散(scatter)指令做相反的动作。在一些实例中，已知存储器中的这些数据元素彼此连续。遗憾的是，常规的聚集和分散指令不利用该已知信息，因此降低了SIMD处理器的效率。

附图说明

在所附附图的多个图中，以示例方式而非限制方式说明本发明的多个实施例，在附图中，同样的参考标号指示类似的元件。

图1A示出源代码片段。

图1B示出当图1A中源代码的加载/存储指令被向量化时所得到的聚集/分散操作。

图2是根据本发明的一个实施例的处理器或处理器核的执行流水线的框图。

图3A到3E是示出合并三条相邻的聚集指令的框图。

图4是示出利用写掩码合并三条相邻的聚集指令的框图。

图5是示出用于处理合并的聚集指令的方法的流程图。

图6是进一步详细示出图5中的方法的流程图。

图7是示出合并三条相邻的分散指令的框图。

图8A到8H是示出使用当前的ISA来合并相邻的聚集指令的实施例的框图。

图9A示出新指令vgatherp0123qpd的操作的伪代码。

图9B示出新指令vgatherp4567qpd的操作的伪代码。

图10A示出新指令vgatherp01qpd的操作的伪代码。

图10B示出新指令vgatherp23qpd的操作的伪代码。

图10C示出新指令vgatherp34qpd的操作的伪代码。

图10D示出新指令vgatherp67qpd的操作的伪代码。

图11A是用于转置VPU区块的X分量的GENMUX单元的框图。

图11B是用于转置VPU区块的Y分量的GENMUX单元的框图。

图12A示出根据本发明的一个实施例的高级向量扩展(AVX)指令格式。

图12B示出根据本发明的另一实施例的高级向量扩展(AVX)指令格式。

图12C示出根据本发明的又一实施例的高级向量扩展(AVX)指令格式。

图13A是示出根据本发明的多个实施例的通用向量友好指令格式及其A类指令模板的框图。

图13B是示出根据本发明的多个实施例的通用向量友好指令格式及其B类指令模板的框图。

图14A是示出根据本发明的一个实施例的专用向量友好指令格式的框图。

图14B是示出根据本发明的另一实施例的通用向量友好指令格式的框图。

图14C是示出根据本发明的另一实施例的通用向量友好指令格式的框图。

图14D是示出根据本发明的另一实施例的通用向量友好指令格式的框图。

图15是根据本发明的一个实施例的寄存器架构的框图。

图16A是示出根据本发明的多个实施例的有序流水线和寄存器重命名的无序发布/执行流水线的框图。

图16B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核和寄存器重命名的无序发布/执行架构核的实施例的框图。

图17A是根据本发明的一个实施例的处理器核的框图。

图17B是根据本发明的另一实施例的处理器核的框图。

图18是根据本发明的多个实施例的处理器的框图。

图19是根据本发明的一个实施例的系统的框图；

图20是根据本发明的实施例的更具体系统的框图。

图21是根据本发明的另一实施例的更具体系统的框图。

图22是根据本发明的实施例的SoC的框图。

图23是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

将参考以下所讨论的细节来描述本发明的各实施例和方面，并且所附附图将说明各实施例。下列描述和附图是说明本发明的，并且不应当被解释为限制本发明。描述许多具体的细节以提供对本发明的各实施例的透彻理解。然而，在某些实例中，不描述公知的或寻常的细节，以便提供本发明的实施例的简洁的讨论。

在本说明书中提到“一个实施例”或“实施例”，意思是指结合该实施例所描述的特定特征、结构或特性可以被包括在本发明的至少一个实施例中。在本说明书中的不同位置出现短语“在一个实施例中”不一定都是指同一个实施例。

图1A示出源代码片段。图1A中所示的源代码中的非常常见的模式是将结构的连续元素加载并存储到寄存器序列中。如图1B所示，当使图1A中的源代码向量化后，加载中的每一个都变成聚集操作，并且存储中的每一个都变成分散操作。

现在参考图1B，聚集操作1将根据寄存器zmm8中的八个索引执行遍及存储器分布的八个存储器读取。聚集操作2使用相同的基址(rax)和索引(zmm8)，并且执行与聚集操作1几乎完全相同的存储器读取，区别仅在于，聚集操作2被偏移8个字节(因为聚集操作2具有位移操作数8)。聚集操作3将执行与聚集操作1相同的存储器读取，区别仅在于，聚集操作3被偏移16个字节(因为聚集操作2具有位移操作数16)。因此，这三个聚集操作产生通过存储器执行群集(MEC)的总共二十四个读取。这三个聚集操作也需要聚集/分散状态机(在下文中提供细节)设置三次，这在向量处理单元(VPU)和MEC之间消耗了显著数量的周期和转移。

仍然参考图1B，分散操作1将根据zmm8中的八个索引执行遍及存储器分布的八个存储器写入。分散操作2使用同一个基址(rax)和索引(zmm8)，并且执行与分散操作1几乎完全相同的存储器写入，区别仅在于，分散操作2被偏移8个字节(因为分散操作2具有位移操作数8)。分散操作3将执行与分散操作1相同的存储器写入，区别仅在于，分散操作3被偏移16个字节(因为分散操作2具有位移操作数16)。因此，这三个分散操作产生通过存储器执行群集(MEC)的总共二十四个写入。这三个分散操作也需要聚集/分散状态机设置三次，这在VPU和MEC之间消耗了显著数量的周期和转移。

根据一些实施例，将新指令集架构(ISA)用于执行对来自存储器的连续数据元素的合并的聚集操作，并且将这些数据元素存储到多个目的地寄存器的集合中。也将该新ISA用于通过将数据元素存储在存储器中连续的数据元素中来执行对来自多个源操作数(例如，寄存器、存储器位置)的数据元素的合并的分散操作。新的处理器指令集用于实现合并的聚集/分散操作，相对于现有的处理器指令，具有显著的性能改善。该ISA定义为对128位SIMD寄存器(例如，XMM寄存器)、256位SIMD寄存器(例如，YMM寄存器)或512位SIMD寄存器(例如，ZMM寄存器)进行操作。上文所讨论的SIMD寄存器仅用于说明目的。将会理解，也可将其他ISA定义为操作其他SIMD寄存器宽度。合并的聚集技术的多个实施例包括：使用单次存储器访问从存储器中读取连续的数据元素，并且将这些数据元素存储在多个目的地存储位置中。合并的分散技术的多个实施例包括：从多个源寄存器中读取数据元素，并且在单次存储器访问中，连续地将这些数据元素存储在存储器中。在本文中所提供的描述中，连续的数据元素将是指在存储器中彼此相邻的数据元素。因此，存储器中对应于一个数据元素的结束处的位置与存储器中对应于另一数据元素的开始处的位置相邻。

图2是根据本发明的一个实施例的处理器或处理器核的框图。参考图2，处理器200可表示任何种类的指令处理装置或处理元件。处理元件是指线程、进程、上下文、逻辑处理器、硬件线程、核和/或共享对处理器的其他共享资源(例如，预留单元、执行单元、流水线和更高层级的高速缓存/存储器)的访问的任何处理元件。物理处理器通常是指潜在地包括诸如核或硬件线程之类的任意数量的其他处理元件的集成电路。核通常是指位于集成电路上的、能够维持独立架构状态的逻辑，其中，每一个被独立地维持的架构状态与至少一些专用执行资源相关联。在一个实施例中，处理器200可以是通用处理器。处理器200可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种超长指令字(VLIW)处理器中的任何处理器，可以是上述处理器的混合或者可以完全是其他类型的处理器。处理器200也可表示一个或多个处理器核。

在一个实施例中，处理器200包括但不限于用于接收并解码指令210的指令解码器202。指令解码器202可生成并输出反映指令210或从指令210导出的一个或多个微操作、微代码、进入点、微指令、或其他指令或其他控制信号。指令解码器202可使用各种不同的机制来实现。合适的机制的示例包括但不仅限于，微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)等。

执行单元204可包括算术逻辑单元(ALU)或能够基于指令执行操作的另一类型的逻辑单元。作为指令解码器202对指令210进行解码的结果，执行单元204可接收反映这些指令或从这些指令导出的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号。执行单元204可由于指示一个或多个源操作数(SRC)的指令而操作，并且用于将结果存储在指令所指示的寄存器集合中的一个或多个目的地操作数(DEST)中。执行单元204可包括可用于执行指令或从指令导出的其他控制信号并相应地执行操作的电路或其他执行逻辑(例如，与硬件和/或固件相结合的软件)。

在一个实施例中，指令210可隐式地指示和/或显式地指定(例如，通过一个或多个专用字段或位组)源和目的地操作数。操作数的合适的源和/或目的地的示例包括指令的寄存器、存储器、立即数以及其组合。在各实施例中，源和目的地操作数可以是8位、16位、32位、64位、128位、256位或512位操作数，尽管这不是必需的。

可将源操作数和目的地操作数中的一些或全部存储在存储资源206(例如，寄存器集合中的寄存器或存储器)中。寄存器集合可以是寄存器组以及潜在的诸如状态寄存器、标志寄存器等之类的其他寄存器的部分。寄存器可以是能用于存储数据的存储位置或设备。寄存器集合常常可在物理上与执行单元一起位于管芯上。寄存器可以从处理器的外部或从编程者的角度可见。例如，指令可指定存储在寄存器中的操作数。各种不同类型的寄存器都是合适的，只要它们能够如本文中所述存储和提供数据。寄存器可以被重命名，也可以不被重命名。合适寄存器的示例包括但不限于，专用物理寄存器、使用寄存器重命名的动态分配的物理寄存器以及专用物理寄存器和动态分配物理寄存器的组合等。或者，可将源操作数和目的地操作数中的一个或多个存储在除寄存器之外的，诸如系统存储器中的位置之类的存储位置中。

根据一个实施例，执行单元204包括聚集/分散单元208，该单元执行已由指令解码器202解码的聚集/分散指令。下文是聚集和分散指令的多个实施例，当由聚集/分散单元208执行这些指令时，这些指令通过利用数据元素连续地位于存储器中的事实来改善SIMD系统的效率。

在一个实施例中，聚集指令是合并的聚集指令。通过聚集/分散单元208对该指令的执行将来自存储器的连续的数据元素存储到多个目的地操作数中。例如，在一些实施例中，有条件地将多至十六个32位或八个64位浮点数据元素紧缩到诸如XMM、YMM或ZMM寄存器之类的目的地操作数中。

通过SIB(比例、索引和基址)寻址类型来指定要被加载到目的地操作数中的连续的存储器数据元素。合并的聚集指令也包括写掩码。在使用诸如“k”写掩码(稍后详述)之类的专用掩码寄存器的一些实施例中，当存储器数据元素对应的写掩码位指示应当加载这些存储器数据元素时(例如，在一些实施例中，如果该位为“1”时)，将加载这些存储器数据元素。如果未设置存储器数据元素对应的写掩码位，目的地操作数(例如，XMM、YMM或ZMM寄存器)的对应的数据元素保持不变。

在一个实施例中，执行合并的聚集指令将导致整个写掩码寄存器都被设置为0，除非存在异常。然而，在一些实施例中，如果已经聚集了至少一个元素(即，如果由元素而不是由写掩码被设置的最低有效位触发异常)，则由该异常挂起该指令。当这发生时，目的地寄存器和写掩码寄存器被部分地更新(将已被聚集的那些元素置入目的地寄存器中，并且将它们的掩码位设置为零)。如果来自已被聚集的元素的任何陷入(trap)或中断是待处理的，则可替代该异常而递送这些陷入或中断，并且将EFLAGS恢复标记或其等价物设置为一，因此，当继续该指令时，不重新触发指令断点。

在具有128位尺寸的目的地寄存器的一些实施例中，该指令将针对每个目的地寄存器聚集多至四个单精度浮点值或两个双精度浮点值。在一些具有256位尺寸的目的地寄存器的实施例中，该指令将针对每个目的地寄存器聚集多至八个单精度浮点值或四个双精度浮点值。在一些具有512位尺寸的目的地寄存器的实施例中，该指令将针对每个目的地寄存器聚集多至十六个单精度浮点值或八个双精度浮点值。

在一些实施例中，如果掩码和目的地寄存器相同，则该指令递送一般保护(GP)错误。通常，能以任何顺序从存储器中读取数据元素值。然而，错误是按从右向左的方式递送的。也就是说，如果由元素触发了错误并且递送了该错误，则更靠近目的地XMM、YMM或ZMM的最低有效位(LSB)的所有元素将被完成(并且是非出错的)。可能或可能无法完成更靠近MSB的多个单独元素。如果给定的元素触发多个错误，则按常规顺序递送这些元素。该指令的给定实现是可重复的——给定相同的输入值和架构状态，则将聚集出错元素左边的相同的元素集合。

能以若干格式来实现该合并的聚集指令。在一个实施例中，该合并的聚集指令定义如下：

VGATHERQ4PD zmm3:zmm5:zmm6:zmm0{k1},[rax+zmm9]//格式0

其中，zmm3、zmm5、zmm6和zmm0是目的地向量寄存器操作数(例如，128位、256位、512位寄存器等)，k1是写掩码操作数(例如，16位寄存器，稍后将详述其示例)，rax是基址，并且zmm9是索引的向量/数组。注意，仅出于说明目的描述上述格式；可实现操作数的其他格式或顺序。在一个实施例中，将基址和被存储在索引向量的索引中的值用于生成对应于连续的数据元素块的起始位置的存储器地址，这些连续的数据元素被读取，并且被存储到目的地操作数的对应的数据元素(即，条目)中。在一些实施例中，写掩码也具有不同的尺寸(8位、32位等)。此外，在一些实施例中，不是写掩码中的所有位都被该指令利用。

在一个实施例中，在该指令的上述格式0中，第一目的地操作数是zmm3，第二目的地操作数是zmm5，第三目的地操作数是zmm6，并且第四目的地操作数是zmm0。在另一实施例中，这些操作数的顺序是逆向的。在一个实施例中，这些操作数的顺序显式地指示将存储器中的连续数据元素加载到目的地操作数中的顺序。因此，在上述格式0示例中，假定写掩码指示将更新所有的数据元素(将在下文中进一步详细地讨论)，并且进一步假定zmm3是第一操作数，则将存储器位置“rax+zmm9[0]”处的数据元素存储到zmm3[0]中。分别将后面三个连续的数据元素(即，存储器位置“rax+zmm9[0]+sizeof(data element)”(“rax+zmm9[0]+数据元素的尺寸”)、“rax+zmm9[0]+(2*sizeof(data element))”(“rax+zmm9[0]+2*数据元素的尺寸”)和“rax+zmm9[0]+(3*sizeof(dataelement))”(““rax+zmm9[0]+3*数据元素的尺寸””)处的数据元素)存储到后续的目的地操作数(即，zmm5[0]、zmm6[0]和zmm0[0])中的每一个的第一数据元素中。将使用相同的寻址方案，利用存储器中连续的数据元素来更新每一个目的地操作数的第二数据元素，例如，将利用存储器位置“rax+zmm9[1]”处的数据元素来更新zmm3[1]，并且将利用存储器中的之后三个连续的数据元素来加载zmm5[1]、zmm6[1]和zmm0[1]。

VGATHERQ4PD是指令的操作码。通常，在指令中显式地定义每个操作数。可在指令的“前缀”中定义数据元素的尺寸。例如，指令VGATHERQ4PD中的前缀“PD”可指示该数据元素是双精度的(即，64位)。在大多数实施例中，数据元素是32或64位的。如果数据元素的尺寸是32位，并且操作数的尺寸是512位，则每个操作数有十六(16)个数据元素。在一些实施例中，每个操作数的数据元素的数量隐式地指示存在于索引向量(例如，上述示例中的zmm9)中的索引的数量。在一些实施例中，也在该指令中显式地定义操作数的数量。例如，在上述示例中，在“PH”前缀之前的“4”可指示该指令正在合并四个相邻的聚集操作，即，执行该指令导致将来自存储器的四个连续的数据元素写入到四个目的地操作数(例如，上述示例中的zmm3、zmm5、zmm6和zmm0)中对应的数据元素中。在一个实施例中，在单次存储器访问中，从存储器中读取连续的数据元素块。在一个实施例中，在单个循环中，将该数据元素块存储到所有的目的地操作数中。

在另一实施例中，该合并的聚集指令定义如下：

VGATHERQ4PD zmm3-zmm0{k1},[rax+zmm9]。//格式1

执行具有格式1的合并的聚集指令导致将执行类似于本文上文中关于格式0所讨论的那些操作的操作。格式0和格式1之间的区别在于，在格式1中，将目的地寄存器指定为寄存器的范围。在格式1的上述示例中，由zmm3和zmm0界定目的地寄存器的该范围。由此，隐含地，目的地寄存器是zmm3、zmm2、zmm1和zmm0，其中，zmm2和zmm1是通过指令显式地指示四个目的地寄存器是利用来自存储器的数据元素紧缩而来的事实暗示的。注意，在该实施例中，尽管可自由地指定对第一目的地寄存器的选择，但是，指定与由指令显式地指示的目的地寄存器的数量不一致的目的地寄存器的范围是语法错误。

在另一实施例中，该合并的聚集指令定义如下：

VGATHERQ4PD zmm3-zmm0{k1},[rax+zmm9]。//格式2

执行具有格式2的合并的聚集指令导致将执行类似于本文上文中关于格式0所讨论的那些操作的操作。格式0和格式2之间的区别在于，在格式2中，目的地寄存器是固定的。因此，例如在上述示例中，将目的地寄存器固定为zmm3、zmm2、zmm1和zmm0，因为该指令显式地指示四个目的地寄存器是利用来自存储器的数据元素紧缩而来的。注意，在该实施例中，指定“zmm3-zmm0”之外的任何目的地寄存器都是语法错误，并且这仅被指定以辅助可读性。虽然在上述示例中将寄存器固定为“zmm3-zmm0”，但是将会理解，可将这些寄存器固定为其他寄存器的范围(例如，“zmm4-zmm1”或“zmm5-zmm2”等)或固定为非连续寄存器的集合。

在一个实施例中，从存储器中取出数据元素，并且在将这些数据元素存储到目的地寄存器中之前，以与上文所讨论的类似方式将这些数据元素存储在临时的向量寄存器中。

图3A到3E示出根据某些实施例的、执行合并三个相邻的聚集指令的合并的聚集指令的示例。在该示例中，zmm8保存用于三条合并的聚集指令的八个四字索引(即，每个索引为64位宽)。由于这些目的地寄存器(zmm0、zmm1和zmm2)各自都是512位宽的，因此这八个数据元素中的每一个的尺寸为8字节宽(即，双精度单元)。因此，每次存储器读取取出包括三个双精度值的24字节的存储器块。在该图示中，第一、第二和第三目的地操作数分别是zmm0、zmm1和zmm2。因此，根据一个实施例，将每一个24字节块的第一数据元素存储到zmm0的对应的数据元素中；将该块的第二数据元素存储到zmm1的对应的数据元素中；并且将该块的第三数据元素存储到zmm2的对应的数据元素中。在这些图示中，每一个数据元素块的起始存储器位置是基址加存储在索引数组中对应的索引中的值，例如，“rax+zmm8[0]”。然而，为了利于可读性，这些附图将“rax+zmm8[0]”简单地表示为“zmm8[0]”。这种表示适用于本说明书中所有的后续附图。

现在参考图3A，从存储器中读取包括三个双精度数据元素(即，存储器中的每一个数据元素为8字节宽)的24字节的存储器块，其中，该存储器块的第一数据元素起始于存储器位置“rax+zmm8[0]”处，该存储器块的第二数据元素离该块的起始位置八个字节，并且第三数据元素起始于离该块的起始存储器位置十六个字节处。将该存储器块的第一数据元素存储在第一目的地寄存器的第一数据元素(即，zmm0[0])中，将该存储器块的第二数据元素存储在第二目的地寄存器的第一数据元素(即，zmm1[0])中，并且将该存储器块的第三数据元素存储在第三目的地寄存器的第一数据元素(即，zmm2[0])中。在一个实施例中，目的地寄存器的该“第一数据元素”是包括该目的地寄存器的最低有效位(LSB)的数据元素。在另一实施例中，目的地寄存器的该“第一数据元素”包括该目的地寄存器的最高有效位(MSB)。

图3B示出对第二个24字节的存储器块的存储器读取。在该图示中，该存储器块起始于“rax+zmm8[1]”处。由于将zmm8的第二索引(即，zmm8[1])用于生成存储器地址，因此，将被取出的连续的数据元素存储到每一个目的地寄存器的第二数据元素(即，zmm0[1]、zmm1[1]和zmm2[1])中。

图3C示出对起始于存储器位置“rax+zmm8[2]”的、第三个24字节存储器块的存储器读取。由于将zmm8的第三索引(即，zmm8[2])用于生成存储器地址，因此，将被取出的连续的数据元素存储到每一个目的地寄存器的第三数据元素(即，zmm0[2]、zmm1[2]和zmm2[2])中。

图3D示出对起始于存储器位置“rax+zmm8[3]”的、第四个24字节存储器块的存储器读取。由于将zmm8的第四索引(即，zmm8[3])用于生成存储器地址，因此，将被取出的连续的数据元素存储到每一个目的地寄存器的第四数据元素(即，zmm0[3]、zmm1[3]和zmm2[3])中。

图3E示出在又读取了四个24字节存储器块之后，利用来自存储器的数据元素完整地紧缩而来的目的地寄存器zmm0、zmm1和zmm2。

图4示出根据一个实施例的、使用写掩码来执行合并的聚集指令的另一示例。在该图示中，基址是rax(未示出)，并且索引向量/数组是zmm8。该图示是合并三个相邻的聚集操作的示例，即，根据写掩码k1，将连续地位于存储器中的多个三数据元素组存储到三个目的地操作数(zmm2、zmm1和zmm0)的数据元素中。该写掩码k1具有十六进制值0xA3。在该图示中，第一、第二和第三目的地操作数分别是zmm2、zmm1和zmm0。

对该合并的聚集指令的执行使聚集/分散单元208生成第一存储器地址，并且确定是否应当执行读取0。在一个实施例中，该第一地址是基址加存储在索引数组的第一索引(即，“rax+zmm8[0]”)中的值，第一地址指向将被存储在第一目的地操作数的第一数据元素(zmm2[0])中的、存储器中的第一数据元素的存储器位置。

在一个实施例中，聚集/分散单元208根据该写掩码的值来确定是否应当从存储器中读取数据元素，并且将这些数据元素存储到目的地操作数的对应数据元素中。在该图示中，该写掩码的第一(LSB)位(即，k1[0])为“1”，在一个实施例中，其指示应当更新每一个目的地操作数的第一(LSB)数据元素。结果，在单次存储器访问中，从存储器中读取在存储器位置“rax+zmm8[0]”处、具有值“2”的数据元素以及具有值“1”和“0”的后两个连续的数据元素。在一个实施例中，在单个循环中，将数据元素{2,1,0}分别存储到zmm2[0]、zmm1[0]和zmm0[0]中。

类似地，聚集/分散单元208生成指向存储器位置“rax+zmm8[1]”的第二地址，并且确定是否应当执行读取1。与k1[0]相同，写掩码位k1[1]也被设置为“1”，因此，将从存储器中取出起始于位置“rax+zmm8[1]”处的连续数据元素{12,11,10}，并将它们分别存储到zmm2[1]、zmm1[1]和zmm0[1]中。

在该示例中，聚集/分散单元208跳过读取2，因为与k1[0]和k1[1]不同，写掩码位k1[2]被设置为“0”，在一个实施例中，其指示不应当更新这些目的地操作数的第三数据元素。结果，如图4中的标记“x”所指示，zmm2[2]、zmm1[2]和zmm0[2]保持不变。

聚集/分散单元208执行与上文讨论相同的逻辑，并且确定应当跳过读取3、读取4和读取6，因为k1[3]、k1[4]和k1[6]全都被设置为“0”。此外，聚集/分散单元208确定应当执行读取5，因为k1[5]被设置为“1”，并且从存储器中取出起始于地址“rax+zmm8[5]”的连续数据元素{52,51,50}，并分别将它们存储在zmm2[5]、zmm1[5]和zmm0[5]中。同样，执行读取7，因为k1[7]被设置为“1”，并且从存储器中取出起始于位置“rax+zmm8[7]”的连续数据元素{72,71,70}，并分别将它们存储到zmm2[7]、zmm1[7]和zmm0[7]中。

图5是示出根据一个实施例的、处理合并的聚集指令的方法500的流程图。方法500可以由图2中的处理器200来执行。参考图5，在框505处，对用于聚集来自存储器的连续数据元素的第一指令进行解码。在一个实施例中，该第一指令包括多个操作数，例如，指定第一存储位置的第一操作数、指定第二存储位置的第二操作数和指定存储器地址的第三操作数。在一个实施例中，该第三操作数包括基址和索引数组。该第一指令也可包括写掩码。先前已详述操作数的示例性尺寸。

在框510处，响应于该第一指令，基于由第三操作数指示的存储器地址，从存储器中读取连续的第一和第二数据元素。在一个实施例中，使用单次存储器访问，从存储器中读取连续的数据元素。

在框515处，执行第一指令，以便将来自存储器的、连续的第一和第二数据元素分别存储到第一和第二存储位置的第一条目中。在一个实施例中，在单个循环中，将这些连续的数据元素存储到第一和第二存储位置中。在一个实施例中，在将这些数据元素存储到目的地操作数中之前，将它们存储到临时的向量寄存器中。

图6是示出用于处理合并的聚集指令的方法600的流程图。方法600可由图2中的处理器200来执行。在该实施例中，假定先前已执行了图5中的操作505-515中的一些(如果不是全部的话)。例如，至少而言，已对用于聚集数据元素的第一指令进行了解码。参考图6，在框605处，根据基址和被存储在索引数组的第一索引中的值来生成存储器中第一数据元素的第一地址。在一个实施例中，该第一地址是基址加存储在索引数组的第一索引中的值。

在框610处，根据第一写掩码位的值，确定是否将这些数据元素存储到第一和第二存储位置的第一条目中。在一个实施例中，第一写掩码位是写掩码的LSB位。当该写掩码位指示不应当将这些数据元素存储在第一和第二存储位置中时，则在框630处，该第一和第二存储位置的第一条目保持不变，并且完成该处理。在一个实施例中，具有值“0”的写掩码位指示不应当将这些数据元素存储在第一和第二存储位置中。在另一实施例中，使用相反的约定。

在框615处，当存储在写掩码的第一掩码位中的值指示应当将数据元素存储在第一和第二存储位置的第一条目中时，则从存储器中读取这些数据元素。在一个实施例中，第一数据元素位于第一地址处，并且第二数据元素以连续方式紧靠该第一数据元素。在一个实施例中，在单次存储器访问中，从存储器中读取这些数据元素。

在框620处，将第一和第二数据元素存储到第一和第二存储位置中。在一个实施例中，该存储位置是条目的数组(例如，数据元素的数组)，并且该存储位置的第一条目是LSB条目。在一个实施例中，在单个循环中，将这些数据元素存储到第一和第二存储位置的该第一条目中。在一个实施例中，在将该第一和第二数据元素存储到第一和第二存储位置中之前，将它们存储在向量寄存器中。

在框625处，清除该第一掩码位以指示已取出对应的数据元素块，并且已将该数据元素块存储在第一和第二存储位置中，并且完成了该过程。

往回参考图1，如上文中所讨论的那样，聚集/分散单元208执行聚集和分散指令。在一个实施例中，分散指令是合并的分散指令。聚集/分散单元208对该指令的执行将来自多个源操作数的数据元素存储到连续的存储器位置中，使得这些数据元素在存储器中彼此位置相邻。

通过SIB(比例、索引和基址)寻址类型来指定要被加载到存储器中的源操作数数据元素。合并的分散指令也包括写掩码。在使用诸如“k”写掩码之类的专用掩码寄存器的一些实施例中，当源操作数数据元素对应的写掩码位指示应当加载这些源操作数数据元素时(例如，在一些实施例中，如果该位为“1”时)，将这些源操作数数据元素加载到存储器中。如果未设置数据元素对应的写掩码位，则存储器中对应的数据元素保持不变。

在具有128位尺寸的源寄存器的一些实施例中，该指令将针对每个源寄存器分散多至四个单精度浮点值或两个双精度浮点值。在具有256位尺寸的源寄存器的一些实施例中，该指令将针对每个源寄存器分散多至八个单精度浮点值或四个双精度浮点值。在具有512位尺寸的源寄存器的一些实施例中，该指令将针对每个源寄存器分散多至十六个单精度浮点值或八个双精度浮点值。

能以若干格式来实现该合并的分散指令。在一个实施例中，该合并的分散指令定义如下：

VGATHERQ4PD[rax+zmm9]{k1},zmm3:zmm5:zmm6:zmm0//格式3

其中，zmm3、zmm5、zmm6和zmm0是源向量寄存器操作数(例如，128位、256位、512位寄存器等)，k1是写掩码操作数(例如，16位寄存器，稍后将详述其示例)，rax是基址，并且zmm9是索引向量/数组。在一个实施例中，将基址和存储在索引向量的索引中的值用于生成将在其中存储第一源操作数的第一数据元素的存储器目的地地址。在一些实施例中，写掩码也具有不同的尺寸(8位、32位等)。此外，在一些实施例中，不是写掩码中的所有位都被该指令利用。

在一个实施例中，在该合并的分散指令的上述格式3中，第一源操作数是zmm3，第二源操作数是zmm5，第三源操作数是zmm6，并且第四源操作数是zmm0。在另一实施例中，这些源操作数的顺序可以逆转，例如，zmm3是第四操作数，并且zmm0是第一操作数。在一个实施例中，这些操作数的顺序显式地指示将来自每一个源操作数的数据元素存储到连续的存储器中的顺序。因此，在上述格式3示例中，假定写掩码指示将更新所有的数据元素(将在下文中进一步详细地讨论)，并且进一步假定第一源操作数是zmm3，则将源操作数数据元素zmm3[0]作为第一数据元素存储在起始于存储器位置“rax+zmm9[0]”处的连续的存储器块中。将后三个源操作数的数据元素(即，zmm5[0]、zmm6[0]和zmm0[0])存储在连续的存储位置中，即，将zmm5[0]存储在“rax+zmm9[0]+sizeof(data element)”(“rax+zmm9[0]+数据元素的尺寸”)处，将zmm6[0]存储在“rax+zmm9[0]+2*sizeof(data element)”(“rax+zmm6[0]+2*数据元素的尺寸”)处，并且将zmm0[0]存储在“rax+zmm9[0]+3*sizeof(dataelement)”(“rax+zmm0[0]+3*数据元素的尺寸”)处。与如何存储这些源操作数的第一数据元素类似，将每一个源操作数的第二数据元素存储在起始于位置“rax+zmm9[1]”处的、连续的存储器位置中。因此，将zmm3[1]存储在“rax+zmm9[1]”处；将zmm5[1]存储在“rax+zmm9[1]+sizeof(data element)”(“rax+zmm9[1]+数据元素的尺寸”)处；将zmm6[1]存储在“rax+zmm9[1]+2*sizeof(data element)”(“rax+zmm9[1]+2*数据元素的尺寸”)处；并且将zmm0[1]存储在“rax+zmm9[1]+3*sizeof(data element)”(“rax+zmm9[1]+3*数据元素的尺寸”)处。使用相同的逻辑，将这些源操作数的其余数据元素存储到连续的存储器块中。

VSCATTERQ4PD是指令的操作码。通常，在指令中显式地定义每个操作数。可在指令的“前缀”中定义数据元素的尺寸。例如，指令VSCATTERQ4PD中的前缀“PD”可指示该数据元素是双精度的(即，64位)。在大多数实施例中，数据元素是32或64位的。如果数据元素的尺寸是32位，并且操作数的尺寸是512位，则每个操作数有十六(16)个数据元素。在一些实施例中，每个操作数的数据元素的数量隐式地指示存在于索引向量(例如，上述示例中的zmm9)中的索引的数量。在一个实施例中，也在该指令中显式地定义操作数的数量。例如，在上述示例中，在“PD”前缀之前的“4”可指示该指令正在合并四个相邻的分散操作，即，执行该指令导致将来自四个源操作数的数据元素写入到四数据元素的连续存储器块中。在一个实施例中，在单次存储器访问中，将这些源操作数数据元素写入每一个连续的存储器块中。

在另一实施例中，该合并的分散指令定义如下：

VSCATTERQ4PD[rax+zmm9]{k1},zmm3-zmm0。//格式4

执行具有格式4的合并的分散指令导致将执行类似于本文上文中关于格式3所讨论的那些操作的操作。格式3和格式4之间的区别在于，在格式4中，将源寄存器指定为寄存器的范围。在格式4的上述示例中，由zmm3和zmm0界定源寄存器的该范围。由此，隐含地，源寄存器是zmm3、zmm2、zmm1和zmm0，其中，zmm2和zmm1是通过指令显式地指示将来自四个源寄存器的数据元素紧缩到存储器中的事实暗示的。注意，在该实施例中，尽管可自由地指定对第一源寄存器的选择，但是，指定与由指令显式地指示的源寄存器的数量不一致的源寄存器的范围是语法错误。

在另一实施例中，该合并的分散指令定义如下：

VSCATTERQ4PD[rax+zmm9]{k1},zmm3-zmm0。//格式5

执行具有格式5的合并的分散指令导致将执行类似于本文上文中关于格式3所讨论的那些操作的操作。格式3和格式5之间的区别在于，在格式5中，源寄存器是固定的。因此，例如在上述示例中，将源寄存器固定为zmm3、zmm2、zmm1和zmm0，因为该指令显式地指示将来自四个源寄存器的数据元素紧缩到存储器中。注意，在该实施例中，指定“zmm3-zmm0”之外的任何源寄存器都是语法错误，并且这仅被指定以辅助可读性。虽然在上述示例中，将寄存器固定为“zmm3-zmm0”，但是将会理解，可将这些寄存器固定为其他寄存器的范围，例如，“zmm4-zmm1”或“zmm5-zmm2”等。

图7示出根据一个实施例的、包括使用写掩码的合并的分散指令的执行的示例。在该图示中，基址是rax(未示出)，并且索引向量/数组是zmm8。该图示是合并三个相邻的分散操作的示例，即，根据写掩码k1，将来自三个源操作数(zmm2、zmm1和zmm0)的组的数据元素存储到连续的存储器中。该写掩码k1具有十六进制值0xA3。在该图示中，第一、第二和第三源操作数分别是zmm2、zmm1和zmm0。在一次地，这影响对被存储到存储器块中的数据元素的排序。

对该合并的分散指令的执行使聚集/分散单元208生成第一地址，并且确定是否应当执行写入0。在一个实施例中，该第一地址是基址加存储在索引数组的第一索引(即，“rax+zmm8[0]”)中的值，第一地址指向要将第一源操作数的第一数据元素(zmm2[0])存储到其中的、连续的存储器块的起始处的存储器位置。

在一个实施例中，聚集/分散单元208根据写掩码位的值确定是否应当将源操作数数据元素存储到存储器中。在该图示中，该写掩码的第一(LSB)位(即，k1[0])为“1”，在一个实施例中，其指示应当紧缩每一个源操作数的第一(LSB)数据元素并将其存储到连续的存储器中。结果，分别紧缩zmm2[0]、zmm1[0]和zmm0[0]的源操作数数据元素{2,1,0}，并且将它们存储为起始于存储器位置“rax+zmm8[0]”处的连续的存储器块。

类似地，聚集/分散单元208生成指向存储器位置“rax+zmm8[1]”的第二地址，并且确定是否应当执行写入1。与k1[0]相同，写掩码位k1[1]也被设置为“1”，因此，分别紧缩zmm2[1]、zmm1[1]和zmm0[1]的数据元素{12,11,10}，并且将它们存储到起始于存储器位置“rax+zmm8[1]”处的连续的存储器块中。

在该示例中，聚集/分散单元208跳过写入2，因为与k1[0]和k1[1]不同，写掩码位k1[2]被设置为“0”，在一个实施例中，其指示不应当将这些源操作数的第三数据元素存储到存储器中。结果，不将zmm2[2]、zmm1[2]和zmm0[2]写入存储器中。

聚集/分散单元208执行与上文讨论相同的逻辑，并且确定应当跳过写入3、写入4和写入6，因为k1[3]、k1[4]和k1[6]全都被设置为“0”。此外，聚集/分散单元208确定应当执行写入5，因为k1[5]被设置为“1”，并且将源操作数zmm2[5]、zmm1[5]和zmm0[5]的数据元素{52,51,50}存储到起始于地址“rax+zmm8[5]”处的连续的存储器中。同样，执行写入7，因为k1[7]被设置为“1”，并且将源操作数zmm2[7]、zmm1[7]和zmm0[7]的数据元素{72,71,70}存储到起始于位置“rax+zmm8[7]”处的连续的存储器中。

在上述讨论中，由新的ISA合并相邻的聚集/分散指令。然而，将会理解，可使用当前的ISA，通过“在幕后”组合这些相邻的聚集/分散操作来合并这些操作。例如，三条聚集指令：

vgatherqpd zmm0{k1},[rax+zmm8+0]

vgatherqpd zmm1{k1},[rax+zmm8+8]

vgatherqpd zmm2{k1},[rax+zmm8+16]

可由当前的SIMD硬件将这三条聚集指令执行为单条合并的聚集指令。在一个实施例中，为了能够将这三条聚集指令组合为合并的聚集指令，上述三条聚集指令必须具有相同的操作数，即，基址、比例、索引和写掩码。此外，这些指令必须具有右偏移/位移。例如，每条聚集指令的偏移必须是数据元素尺寸的倍数，使得指令的每一个数据元素紧靠前一条指令的数据元素而连续地位于存储器中。在一个实施例中，当接收到上述聚集指令时，聚集/分散单元208假定这些指令可被合并，并且发布被组合的读取，然后在引退这些指令之前，基于这些指令的操作数，核实这些指令可被合并。如果不能合并，则丢弃这些结果，并且重新将这些指令执行为分开的聚集。

在一个实施例中，可类似地“在幕后”合并下列分散操作：

vscatterqpd[rax+zmm8+0]{k1},zmm0

vscatterqpd[rax+zmm8+8]{k1},zmm1

vscatterqpd[rax+zmm8+16]{k1},zmm2。

在另一实施例中，使用当前的ISA，通过向这些指令添加前缀以强烈提示应当融合/合并这些指令来合并相邻的聚集/分散操作。例如，聚集指令：

repvgatherqpd zmm0{kl},[rax+zmm8+0]

repvgatherqpd zmm1{kl},[rax+zmm8+8]

vgatherqpd zmm2{kl},[rax+zmm8+16]

可由SIMD硬件将这些聚集指令执行为单条合并的聚集指令。在该实施例中，前缀“rep”向硬件确保在一起到来的、可被合并的进一步的聚集，并且该硬件应当缓冲前几个聚集，直到最后一个聚集(其没有前缀)到来为止。类似地，可合并下列强提示的分散指令：

repvscatterqpd[rax+zmm8+0]{kl},zmm0

repvscatterqpd[rax+zmm8+8]{kl},zmm1

vscatterqpd[rax+zmm8+16]{kl},zmm2。

图8A-8H示出使用当前的ISA合并相邻的聚集指令的另一实施例。在该实施例中，将第一聚集指令发送到聚集/分散单元208，该聚集/分散单元208将假定其是三条连续的聚集指令中的第一条。在该示例中，数据元素是各自都是8字节宽的(双精度单元)，并且由于目的地操作数zmm0、zmm1和zmm2各自都是512位宽，因此，对于每一个目的地操作数，将有从存储器中聚集的八个数据元素。对于将被聚集的每一个数据元素，聚集/分散单元208从存储器中取出至少八个字节(一个数据元素的尺寸)，但是它将尝试取出多至另外十六字节(两个更多的双精度值)而不检查该高速缓存行的末尾。聚集/分散单元208将该第一数据元素存储到第一目的地操作数中，并且无论它能够从存储器中读取多少数据元素，都将这些数据元素存储到其余的目的地操作数的对应数据元素中。在其他实施例中，聚集/分散单元208可将这些数据元素存储在缓冲器中，并且在指令引退时将这些数据从该缓冲器复制到目的地寄存器中。在该实施例中，聚集/分散单元208也跟踪这些目的地操作数中的哪些数据元素由于它们在不同的高速缓存行上而未被更新。在该实施例中，聚集/分散单元208也可保持记住当前的聚集指令看起来像什么的签名高速缓存，例如，多少数据元素、它们的尺寸、使用了哪些基址和索引寄存器以及相对于该基址是什么立即数比例和偏移。

现在参考图8A，执行对该第一聚集指令的第一存储器读取。在该示例中，可在同一个高速缓存行上读取全部三个数据元素的第一存储器块，并且聚集/分散单元208能够更新全部三个目的地操作数(zmm0[0]、zmm1[0]和zmm2[0])的第一数据元素。

图8B示出由聚集/分散单元208对目的地操作数的第二数据元素进行的存储器读取不产生完整的3数据元素块。具体而言，该块的第三数据元素在不同的高速缓存行上。结果，利用来自存储器的数据元素更新前两个目的地操作数的仅第二数据元素(zmm0[1]和zmm1[1])，并且不更新第三目的地操作数的第二数据元素(zmm2[1])。

图8C示出聚集/分散单元208能够在第三存储器读取期间读取整个3数据元素存储器块。结果，更新每一个目的地操作数的第三数据元素。

图8D示出第四存储器读取仅返回单个双精度值，因为第二和第三数据元素在不同的高速缓存行上。因此，更新第一目的地操作数的仅第四数据元素(zmm0[3])。

图8E示出在另外四次存储器读取之后，更新了第一目的地操作数(zmm0)的全部八个数据元素。然而，由于zmm1[3]、zmm1[6]、zmm2[1]、zmm2[3]、zmm2[5]和zmm2[6]对应的数据元素在不同的高速缓存行上的事实，没有更新它们。

图8F示出一旦完成第一聚集指令(即，已更新了zmm0的全部数据元素)，就引退该指令，并且处理下一条聚集指令。

图8G示出聚集/分散单元208通过执行针对第二目的地操作数的第四数据元素(zmm1[3])的存储器读取来处理第二聚集指令。聚集/分散单元208跳过针对zmm1的前三个数据元素的存储器读取，因为如上文中讨论的那样，在更新zmm0期间已经更新了它们。同样注意，在该图示中，第三目的地操作数的第四数据元素(zmm2[3])在相同的高速缓存行上，因此，也更新zmm2[3]。

图8H示出聚集/分散单元208执行最后的存储器读取以完成zmm1的更新的，并且随后引退该第二聚集指令。尽管并未示出，但是聚集/分散单元208将使用与上述讨论类似的过程来更新zmm2的其余数据元素，并且引退第三聚集指令。

在另一实施例中，通过转置部分聚集/分散指令来合并相邻的聚集和分散操作。如上文所讨论的那样，为了从八个索引中聚集2元素结构，现在需要两条聚集指令：

vgatherqpd zmm0{k1},[rax+zmm8+0]

vgatherqpd zmm1{k2},[rax+zmm8+8]。

假定k1＝k2＝全“1”，这些指令中的每一条都看zmm8中的全部八个索引，并且执行单次8字节加载。这导致十六个高速缓存行访问，其是所需要的两倍。在下列讨论中，将使用用于数据元素的x、y、z、w命名约定，并且简写“x0”意思是地址“rax+zmm8[0]+0”处的双精度值”。类似地，“y3”意思是“地址rax+zmm8[3]+8处的双精度值”。给定该命名约定，执行上述聚集指令产生下列结果：

Zmm0

x0

x1

x2

x3

x4

x5

x6

x7

Zmm1

y0

y1

y2

y3

y4

y5

y6

y7

在本发明的一个实施例中，执行仅使用这些索引中的一些的“部分”聚集，但是反过来，可对每个索引加载更多数据。这可被示出为部分聚集指令对：

vgatherp0123qpd zmm0{k1},[rax+zmm8+0]

vgatherp4567qpd zmm1{k2},[rax+zmm8+0]。

该第一指令的“0123”部分向聚集/分散单元208指示该指令仅使用zmm8的前四个索引以及写掩码k1的前四位。类似地，第二指令的“4567”指示其仅使用后四个索引和写掩码位。因此，结果为：

Zmm0

x0

x1

x2

x3

y0

y1

y2

y3

Zmm1

y4

y5

y6

y7

x4

x5

x6

x7

将在下文中进一步详细地解释对这些结果进行奇特排序的原因。

图9A示出vgatherp0123qpd的操作的伪代码。如果Load128出错，则通过与现有的聚集操作相同的故障处理机制来处理。与标准的聚集操作相同，在执行加载时清除这些写掩码位是重要的，从而使得在出错之后，可由操作系统(OS)重启该指令。

图9B示出与vgatherp0123qpd的伪代码类似的、vgatherp4567qpd的操作的伪代码，突出显示了区别。使用这两条新指令的益处在于，即便每次读取是尺寸的两倍(128位而不是64)，聚集/分散单元208也能够执行一半数量的读取(八个而不是十六个)因此，这允许该序列以将近两倍快的速度运行。

以上是对2元素结构的描述。针对4元素结构的等效是类似的：

vgatherp01qpd zmm0{k1},[rax+zmm8+0]

vgatherp23qpd zmm1{k2},[rax+zmm8+0]

vgatherp34qpd zmm2{k1},[rax+zmm8+0]

vgatherp67qpd zmm3{k2},[rax+zmm8+0].

上述部分聚集指令中的每一条执行仅两个读取，但是每一个读取尺寸是256位的。结果看起来像这样：

Zmm0

x0

x1

y0

y1

z0

z1

w0

w1

Zmm1

w2

w3

x2

x3

y2

y3

z2

z3

Zmm2

z4

z5

w4

w5

x4

x5

y4

y5

Zmm3

y6

y7

z6

z7

w6

w7

x6

x7

图10A-10D分别示出部分聚集指令vgatherp01qpd、vgatherp23qpd、vgatherp34qpd和vgatherp67qpd的伪代码。

上述部分聚集操作的优势之一在于，它们减少了存储器访问的数量。然而，劣势在于，被写入到向量寄存器中的数据元素不是按照对标准向量算法有用的格式。在一个实施例中，可通过ISA中的现有混洗/置换操作来解决这种格式化不规则性。通过合适写掩码利用4条VPERMD指令执行2元素转置，以及通过写掩码利用16条VPERMD指令执行4元素转置显然是可能的。或者，更新的VPERMI2W指令可置换来自两个寄存器源的数据，可用此将所需指令的数量减半。

即使在使用这些现有的置换指令时，聚集的新序列也能够由于存储器访问的显著减少而胜过现有序列。

在一个实施例中，通过利用VPU被构建为ALU的四个“区块”和寄存器组块，并且每一个区块处理结果的128位的事实，将新的专用指令用于在仅两条或四条指令中执行转置。这意味着每一个区块可读取相邻区块的不同的源寄存器，从而允许聚集/分散单元208在仅针对每个区块使用单个读取端口时，能够读取多至四个寄存器的部分。这允许单条转置指令从全部四个寄存器中读取数据，然后将组合的512位临时结果发送到混洗单元(被称为“GENMUX”)，以便将这些数据重排序为正确的顺序。

图11A和11B示出通过转置部分聚集的结果来构建zmm0和zmm1目的地操作数。参考图11A，GENMUX单元不需要执行任何置换，因为数据已经处于正确的排序。然而，如图11B所示，需要置换Y分量以生成对zmm1的数据元素的正确排序。能以类似方式置换Z分量和W分量以生成zmm2和zmm3。

在一个实施例中，可将这些操作指定为利用硬编码选择和置换控制的多条指令。在另一实施例中，可利用来自立即数值或来自寄存器的控制，更灵活地指定这些操作。在此，为了简化，我们将它们示出为硬编码的分立指令。

使用这些转置指令，允许非常迅速地执行完整的聚集+转置操作。2分量的版本需要两条聚集指令和两条转置指令：

vgatherp0123qpd zmm0{kl},[rax+zmm8+0]

vgatherp4567qpd zmm1{kl},[rax+zmm8+0]

vtranspose0123pd zmm10,zmm0,zmm1

vtranspose4567pd zmm11,zmm0,zmm1。

4分量的版本需要四条聚集指令和四条转置指令：

vgatherp01qpd zmm0{k1},[rax+zmm8+0]

vgatherp23qpd zmm1{k1},[rax+zmm8+0]

vgatherp45qpd zmm2{k1},[rax+zmm8+0]

vgatherp67qpd zmm3{k1},[rax+zmm8+0]

vtranspose01pd zmm10,zmm0,zmm1,zmm2,zmm3

vtranspose23pd zmm11,zmm0,zmm1,zmm2,zmm3

vtranspose45pd zmm12,zmm0,zmm1,zmm2,zmm3

vtranspose67pd zmm13,zmm0,zmm1,zmm2,zmm3。

指令集或指令集架构(ISA)是计算机架构中与编程有关的部分，并且可包括原生数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处理以及外部输入和输出(I/O)。术语“指令”在本申请中一般表示宏指令，宏指令是被提供给处理器(或指令转换器，该指令转换器(例如使用静态二进制转换、包括动态编译的动态二进制转换)转换、变形、仿真或以其他方式将指令转换成将由处理器处理的一条或多条其他指令)以供执行的指令——宏指令是与微指令或微操作(微op)截然相反的，微指令或微操作(微op)是处理器的解码器解码宏指令的结果。

ISA与微架构不同，微架构是实现指令集的处理器的内部设计。具有不同的微架构的处理器可共享共同的指令集。例如，奔腾四(Pentium 4)处理器、酷睿(Core^TM)处理器、以及来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced Micro Devices,Inc.)的诸多处理器执行几乎相同版本的x86指令集(在更新的版本中加入了一些扩展)，但具有不同的内部设计。例如，可使用公知技术，在不同的微架构中，以不同的方式来实现ISA的相同寄存器架构，包括专用物理寄存器、使用寄存器重命名机制(诸如，使用寄存器别名表(RAT)、重排序缓冲器(ROB)以及引退寄存器组；使用多个映射和寄存器池)的一个或多个动态分配物理寄存器等。除非另作说明，否则短语“寄存器架构”、“寄存器组”和“寄存器”在本文中用于指代对软件/编程者以及对指令指定寄存器的方式可见的寄存器。在需要专用性的情况下，形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示寄存器架构中的寄存器/寄存器组，而不同的形容词将用于指定给定微架构中的寄存器(例如，物理寄存器、重排序缓冲器、引退寄存器、寄存器池)。

指令集包括一个或多个指令格式。给定的指令格式定义多个字段(位的数目、位的位置等)以指定将要被执行的操作(操作码)以及将要被执行的操作的操作数等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如，可将给定指令格式的指令模板定义为具有指令格式字段(所包括的字段通常按照相同顺序，但是至少一些字段具有不同的位位置，因为存在更少的、被包括的字段)的不同子集，和/或定义为具有以不同方式进行解释的给定字段。由此，使用给定的指令格式(并且如果经定义，则以该指令格式的指令模板中给定的一个格式)来表达ISA的每条指令，并且ISA的每条指令包括用于指定操作和操作数的字段。例如，ADD指令具有特定的操作码和指令格式(该指令格式包括用于指定该操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地以及源2))，并且该ADD指令在指令流中出现将使得在选择特定操作数的操作数字段中将具有特定的内容。

科学应用、金融应用、自动向量化通用应用、RMS(识别、挖掘和合成)应用以及视觉和多媒体应用(诸如，2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频处理)通常需要对大量数据项执行相同的操作。单指令多数据(SIMD)是指使处理器对多个数据项执行一个操作的指令类型。SIMD技术尤其适用于将寄存器中的多个位逻辑地划分成多个固定尺寸的数据元素(其中，每个数据元素表示单独的值)的处理器中。例如，可将256位寄存器中的多个位指定为将以下列形式被操作的源操作数：四个单独的64位紧缩数据元素(四字(Q)尺寸数据元素)、八个单独的32位紧缩数据元素(双字(D)尺寸数据元素)、十六个单独的16位紧缩数据元素(字(W)尺寸数据元素)或三十二个单独的8位数据元素(字节(B)尺寸数据元素)。该数据类型被称为紧缩数据类型或向量数据类型，并且该数据类型的操作数被称为紧缩数据操作数或向量操作数。换言之，紧缩数据项或向量是指紧缩数据元素的序列，并且紧缩数据操作数或向量操作数是SIMD指令(也被称为紧缩数据指令或向量指令)的源操作数或目的地操作数。

作为示例，一种类型的SIMD指令指定了将以垂直方式对两个源向量操作数执行以生成具有相同尺寸的、具有相同数量的数据元素的以及按照相同数据元素的顺序的目标向量操作数(也被称为结果向量操作数)的单个向量操作。源向量操作数中的数据元素被称为源数据元素，而目的地向量操作数中的数据元素被称为目的地或结果数据元素。这些源向量操作数具有相同的尺寸，并包含相同宽度的数据元素，因此它们包含相同数量的数据元素。两个源向量操作数中的相同的位的位置中的源数据元素形成数据元素对(也称为对应的数据元素；即，每个源操作数的数据元素位置0中的数据元素相对应，每个源操作数的数据元素位置1中的数据元素相对应，以此类推)。分别地对这些源数据元素对中的每一对执行由该SIMD指令所指定的操作，以生成匹配数量的结果数据元素，如此，每一对源数据元素都具有对应的结果数据元素。由于操作是纵向的，并且由于结果向量操作数尺寸相同，具有相同数量的数据元素，并且结果数据元素以与源向量操作数相同的数据元素顺序来存储，因此，结果数据元素处于与其对应的源数据元素对在源向量操作数中的位置相同的、结果向量操作数的位的位置处。除此类型的SIMD指令之外，还有各种其他类型的SIMD指令(例如，仅有一个或具有多于两个的源向量操作数的SIMD指令；以水平方式操作的SIMD指令；生成不同尺寸的结果向量操作数的SIMD指令；具有不同尺寸的数据元素的SIMD指令；和/或具有不同的数据元素顺序的SIMD指令)。应当理解，术语“目的地向量操作数(或目的地操作数)”被定义为执行指令所指定的操作的直接结果，包括将该目的地操作数存储在某位置(其是寄存器或位于由该指令所指定的存储器地址处)，以便可由另一指令将其作为源操作数来访问(通过由另一指令指定该同一个位置)。

诸如由具有包括x86、MMX^TM、流式SIMD扩展(SSE)、SSE2、SSE3、SSE4.1以及SSE4.2指令的指令集的Core^TM处理器使用的SIMD技术之类的SIMD技术在应用性能方面实现了显著的改善。已经发布和/或公布了涉及高级向量扩展(AVX)(AVX1和AVX2)且使用向量扩展(VEX)编码方案的附加SIMD扩展集(例如，参见2011年10月的64和IA-32架构软件开发手册；并且参见2011年6月的高级向量扩展编程参考)。

能以不同的格式使本文所述的指令的多个实施例具体化。另外，在下文中详述示例性系统、架构和流水线。指令的实施例可在此类系统、架构和及流水线上执行，但是不限于详述的系统、架构和流水线。

VEX编码允许指令具有多于两个的操作数，并且允许SIMD向量寄存器比128位长。VEX前缀的使用提供了三个操作数(或者更多)句法。例如，先前的两操作数指令执行执行的操作(例如，A＝A+B)覆写源操作数。VEX前缀的使用使操作数能够执行非破坏性操作，诸如A＝B+C。

图12A示出AVX指令格式，包括VEX前缀2102、实操作码字段2130、Mod R/M字节2140、SIB字节2150、位移字段2162以及IMM82172。图12B示出来自图12A的哪些字段构成完整操作码字段2174和基础操作字段2142。图12C示出来自图12A的哪些字段构成寄存器索引字段2144。

VEX前缀(字节0-2)2102以三字节形式进行编码。第一字节是格式字段2140(VEX字节0，位[7:0])，该格式字段2140包含显式的C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供专用能力的多个位字段。具体而言，REX字段2105(VEX字节1，位[7-5])由VEX.R位字段(VEX字节1，位[7]–R)、VEX.X位字段(VEX字节1，位[6]–X)以及VEX.B位字段(VEX字节1，位[5]–B)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低的三个位(rrr、xxx以及bbb)进行编码，由此可通过增加VEX.R、VEX.X以及VEX.B来形成Rrrr、Xxxx以及Bbbb。操作码映射字段2115(VEX字节1，位[4:0]–mmmmm)包括对隐含的前导操作码字节进行编码的内容。W字段2164(VEX字节2，位[7]–W)由记号VEX.W表示，并且提供取决于该指令而不同的功能。VEX.vvvv 2120(VEX字节2，位[6:3]-vvvv)的作用可包括如下：1)以反转(1补码)形式被指定并且对具有2个或更多源操作数的指令有效VEX.vvvv对第一源寄存器操作数进行编码；2)针对某些向量偏移以1补码形式被指定的VEX.vvvv对目的地寄存器操作数进行编码；或者3)VEX.vvvv不对任何操作数进行编码，保留该字段，并且该字段应当包含1111b。如果VEX.L 2168尺寸字段(VEX字节2，位[2]-L)＝0，则它指示128位向量；如果VEX.L＝1，则它指示256位向量。前缀编码字段2125(VEX字节2，位[1:0]-pp)提供了用于基础操作字段的附加位。

实操作码字段2130(字节3)也被称为操作码字节。在该字段中指定操作码的部分。MOD R/M字段2140(字节4)包括MOD字段2142(位[7-6])、Reg字段2144(位[5-3])以及R/M字段2146(位[2-0])。Reg字段2144的作用可包括如下：对目的地寄存器操作数或源寄存器操作数(Rrrr中的rrr)进行编码；或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段2146的作用可包括如下：对引用存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)－比例字段2150(字节5)的内容包括用于存储器地址生成的SS2152(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx 2154(位[5-3])和SIB.bbb 2156(位[2-0])的内容。位移字段2162和立即数字段(IMM8)2172包含地址数据。

向量友好指令格式是适于向量指令(例如，存在专用于向量操作的某些字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例，但是替代实施例仅使用通过向量友好指令格式的向量操作。

图13A、13B和图13C是示出根据本发明的多个实施例的通用向量友好指令格式及其指令模板的框图。图13A是示出根据本发明的多个实施例的通用向量友好指令格式及其A类指令模板的框图；而图13B是示出根据本发明的多个实施例的通用向量友好指令格式及其B类指令模板的框图。具体而言，针对通用向量友好指令格式2200定义A类和B类指令模板，两者都包括无存储器访问2205的指令模板和存储器访问2220的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格式。

尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例，但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如，256字节向量操作数)与更大、更小或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)：64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此，64字节向量由16个双字尺寸的元素或者替代地8个四字尺寸的元素组成)、64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸)、32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)、以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)，但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如，256字节向量操作数)与更大、更小或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)。

图13A中的A类指令模板包括：1)在无存储器访问2205的指令模板内，示出无存储器访问的完全舍入控制型操作2210的指令模板以及无存储器访问的数据变换型操作2215的指令模板；以及2)在存储器访问2220的指令模板内，示出存储器访问的时效性2225的指令模板和存储器访问的非时效性2230的指令模板。图13B中的B类指令模板包括：1)在无存储器访问2205的指令模板内，示出无存储器访问的写掩码控制的部分舍入控制型操作2212的指令模板以及无存储器访问的写掩码控制的vsize型操作2217的指令模板；以及2)在存储器访问2220的指令模板内，示出存储器访问的写掩码控制2227的指令模板。

通用向量友好指令格式2200包括以下列出的按照在图13A和图13B中示出的顺序的如下字段。格式字段2240－该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式，并且由此标识指令在指令流中以向量友好指令格式出现。由此，该字段对于仅具有通用向量友好指令格式的指令集是不需要的，在这个意义上该字段是可选的。基础操作字段2242－其内容区分不同的基础操作。

寄存器索引字段2244-其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括从PxQ(例如，32x512、16x128、32x1024、64x1024)寄存器组中选择N个寄存器的足够数量的位。尽管在一个实施例中N可多至三个源和一个目的地寄存器，但是替代实施例可支持更多或更少的源和目的地寄存器(例如，可支持多至两个源(其中，这些源中的一个源还用作目的地)，可支持多至三个源(其中，这些源中的一个源还用作目的地)，可支持多至两个源和一个目的地)。

修饰符(modifier)字段2246－其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开；也就是说，在无存储器访问2205的指令模板与存储器访问2220的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次结构(在一些情况下，使用寄存器中的值来指定源和/或目的地地址)，而非存储器访问操作不这样(例如，源和/或目的地是寄存器)。尽管在一个实施例中，该字段还在三种不同的方式之间选择以执行存储器地址计算，但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。

扩充操作字段2250－其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中，该字段被划分成类字段2268、α字段2252、以及β字段2254。扩充操作字段2250允许在单条指令而非2、3或4条指令中执行多组共同的操作。比例字段2260－其内容允许用于存储器地址生成(例如，用于使用2^比例*索引+基址的地址生成)的索引字段的内容按比例缩放。

位移字段2262A－其内容用作存储器地址生成的部分(例如，用于使用2^比例*索引+基址+位移的地址生成)。位移因数字段2262B(注意，位移字段2262A直接在位移因数字段2262B上的并置指示使用一个或另一个)－其内容用作地址生成的一部分，它指定通过存储器访问的尺寸(N)按比例缩放的位移因数，其中N是存储器访问中的字节数量(例如，用于使用2^比例*索引+基址+按比例缩放的位移的地址生成)。忽略冗余的低阶位，并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段2274(稍后在本文中描述)和数据操纵字段2254C确定。位移字段2262A和位移因数字段2262B可以不用于无存储器访问2205的指令模板，并且/或者不同的实施例可实现两者中的仅一个或不实现两者中的任一个，在这个意义上，位移字段2262A和位移因数字段2262B是可选的。

数据元素宽度字段2264－其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令，在其他实施例中仅用于指令中的一些)。如果支持仅一个数据元素宽度，并且/或者使用操作码的某一方面来支持数据元素宽度，则该字段是不需要的，在这个意义上该字段是可选的。

写掩码字段2270－其内容在每一数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码操作，而B类指令模板支持合并写掩码操作和归零写掩码操作两者。当合并时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新；在其他实施例中，保持其中对应掩码位具有0的目的地的每一元素的旧值。相反，当归零时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间，使目的地中的任何元素集归零；在一个实施例中，当对应掩码位具有0值时，将目的地的元素设置为0。该功能的子集是控制正在被执行的操作的向量长度的能力(即，从第一个到最后一个被修改的元素的跨度)，然而，被修改的元素不一定要是连续的。由此，写掩码字段2270允许部分向量操作，这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段2270的内容选择多个写掩码寄存器中的、包含要使用的写掩码的一个写掩码寄存器(并且由此，写掩码字段2270的内容间接地标识要执行的掩码操作)的本发明的实施例，但是替代实施例相反或另外允许掩码写字段2270的内容直接地指定要执行的掩码操作。

立即数字段2272－其内容允许对立即数的指定。该字段在不支持立即数的通用向量友好格式的实现中不存在，并且在不使用立即数的指令中不存在，在这个意义上该字段是可选的。类字段2268－其内容在不同类的指令之间进行区分。参考图13A和图13B，该字段的内容在A类和B类指令之间进行选择。在图13A和图13B中，圆角方形用于指示专用值存在于字段中(例如，在图13A和图13B中分别用于类字段2268的A类2268A和B类2268B)。

在A类非存储器访问2205的指令模板的情况下，α字段2252被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的舍入型操作2210和无存储器访问的数据变换型操作2215的指令模板，分别指定舍入2252A.1和数据变换2252A.2)的RS字段2252A，而β字段2254区分要执行指定类型的操作中的哪一种。在无存储器访问2205指令模板中，比例字段2260、位移字段2262A以及位移比例字段2262B不存在。

在无存储器访问的完全舍入控制型操作2210的指令模板中，β字段2254被解释为其内容提供静态舍入的舍入控制字段2254A。尽管在本发明的所述实施例中，舍入控制字段2254A包括抑制所有浮点异常(SAE)字段2256和舍入操作控制字段2258，但是替代实施例可支持这两个概念，并且可将这两个概念都编码成相同的字段，或者仅具有这些概念/字段中的一个或另一个(例如，可仅具有舍入操作控制字段2258)。

SAE字段2256－其内容区分是否禁用异常事件报告；当SAE字段2256的内容指示启用抑制时，给定的指令不报告任何种类的浮点异常标志，并且不唤起任何浮点异常处理程序。

舍入操作控制字段2258－其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入以及就近舍入)。由此，舍入操作控制字段2258允许逐指定地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段2250的内容覆盖该寄存器值。

在无存储器访问的数据变换型操作2215的指令模板中，β字段2254被解释为数据变换字段2254B，其内容区分要执行多个数据变换中的哪一个(例如，无数据变换、混合、广播)。

在A类存储器访问2220的指令模板的情况下，α字段2252被解释为驱逐提示字段2252B，其内容区分要使用驱逐提示中的哪一个(在图13A中，对于存储器访问时效性2225的指令模板和存储器访问非时效性2230的指令模板分别指定时效性的2252B.1和非时效性的2252B.2)，而β字段2254被解释为数据操纵字段2254C，其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如，无操纵、广播、源的向上转换以及目的地的向下转换)。存储器访问2220的指令模板包括比例字段2260，并可选地包括位移字段2262A或位移比例字段2262B。

向量存储器指令使用转换支持来执行来自存储器的向量加载和去往存储器的向量存储。如同寻常的向量指令，向量存储器指令以数据元素式的方式往返于存储器传输数据，其中，实际传输的元素由被选为写掩码的向量掩码的内容规定。

时效性的数据是可能足够快地被重新使用以从高速缓存操作中受益的数据。然而，这是提示，且不同的处理器能以不同的方式实现它，包括完全忽略该提示。非时效性的数据是不可能被足够快地重新使用以从第一级高速缓存中的高速缓存操作中受益且应当被给予驱逐优先级的数据。然而，这是提示，且不同的处理器能以不同的方式实现它，包括完全忽略该提示。

在B类指令模板的情况下，α字段2252被解释为写掩码控制(Z)字段2252C，其内容区分由写掩码字段2270控制的写掩码操作应当是合并还是归零。

在B类非存储器访问2205的指令模板的情况下，β字段2254的部分被解释为RL字段2257A，其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的写掩码控制部分舍入控制类型操作2212的指令模板和无存储器访问的写掩码控制VSIZE型操作2217的指令模板，分别指定舍入2257A.1和向量长度(VSIZE)2257A.2)，而β字段2254的其余部分区分要执行指定类型的操作中的哪一种。在无存储器访问2205指令模板中，比例字段2260、位移字段2262A以及位移比例字段2262B不存在。

在无存储器访问的写掩码控制的部分舍入控制型操作2210的指令模板中，β字段2254的其余部分被解释为舍入操作字段2259A，并且禁用异常事件报告(给定的指令不报告任何种类的浮点异常标志，并且不唤起任何浮点异常处理程序)。

舍入操作控制字段2259A－就如同舍入操作控制字段2258，其内容区分一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入、以及就近舍入)要执行。由此，舍入操作控制字段2259A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段2250的内容覆盖该寄存器值。

在无存储器访问的写掩码控制VSIZE型操作2217的指令模板中，β字段2254的其余部分被解释为向量长度字段2259B，其内容区分要执行多个数据向量长度中的哪一个(例如，128字节、256字节或512字节)。

在B类存储器访问2220的指令模板的情况下，β字段2254的部分被解释为广播字段2257B，其内容区分是否要执行广播型数据操纵操作，而β字段2254的其余部分被解释为向量长度字段2259B。存储器访问2220的指令模板包括比例字段2260，并可选地包括位移字段2262A或位移比例字段2262B。

针对通用向量友好指令格式2200，示出完整操作码字段2274包括格式字段2240、基础操作字段2242以及数据元素宽度字段2264。尽管示出了其中完整操作码字段2274包括所有这些字段的一个实施例，但是在不支持所有这些字段的实施例中，完整操作码字段2274包括少于所有这些字段的字段。完整操作码字段2274提供操作码(opcode)。

扩充操作字段2250、数据元素宽度字段2264以及写掩码字段2270允许以通用向量友好指令格式逐指令地指定这些特征。写掩码字段和数据元素宽度字段的组合创建类型化的指令，因为它们允许基于不同的数据元素宽度应用该掩码。

在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中，不同处理器或者处理器内的不同核可支持仅A类、仅B类或者可支持两类。举例而言，旨在用于通用计算的高性能通用无序核可仅支持B类，旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类，并且旨在用于两者的核可支持两者(当然，具有来自两类的模板和指令的一些混合、但是并非来自两类的所有模板和指令的核在本发明的范围内)。同样，单一处理器可包括多个核，所有核支持相同的类，或者其中不同的核支持不同的类。举例而言，在具有单独的图形和通用核的处理器中，旨在主要用于图形和/或科学计算的图形核中的一个核可仅支持A类，而通用核中的一个或多个可以是具有旨在用于通用计算的、仅支持B类的无序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或无序核。当然，在本发明的不同实施例中，来自一类的特征也可在其他类中实现。可使以高级语言撰写的程序成为(例如，恰被及时编译或静态编译)各种不同的可执行形式，包括：1)仅具有由用于执行的目标处理器支持的类的指令的形式；或者2)具有使用所有类的指令的不同组合而编写的替代例程且具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流代码的形式。

图14是示出根据本发明的多个实施例的示例性专用向量友好指令格式的框图。图14示出专用向量友好指令格式2300，其指定位置、尺寸、解释和字段的次序以及那些字段中的一些字段的值，在这个意义上向量友好指令格式2300是专用的。专用向量友好指令格式2300可用于扩展x86指令集，并且由此这些字段中的一些与现有x86指令集及其扩展(例如，AVX)中使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段一致。示出来自图13的、将来自图14的字段映射到其的字段。

应当理解，虽然出于说明的目的，在通用向量友好指令格式2200的上下文中参考专用向量友好指令格式2300描述了本发明的多个实施例，但是本发明不限于专用向量友好指令格式2300，除非另有声明。例如，通用向量友好指令格式2200构想各种字段的各种可能的尺寸，而专用向量友好指令格式2300被示出为具有特定尺寸的字段。作为具体示例，尽管在专用向量友好指令格式2300中，数据元素宽度字段2264被示出为一位的字段，但是本发明不限于此(也就是说，通用向量友好指令格式2200构想数据元素宽度字段2264的其他尺寸)。

通用向量友好指令格式2200包括以下按照图14A中示出的顺序列出的下列字段。EVEX前缀(字节0-3)2302－以四字节形式进行编码。格式字段2240(EVEX字节0，位[7:0])－第一字节(EVEX字节0)是格式字段2240，并且它包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。第二－第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。

REX字段2305(EVEX字节1，位[7-5])－由EVEX.R位字段(EVEX字节1，位[7]–R)、EVEX.X位字段(EVEX字节1，位[6]–X)以及2257BEX字节1，位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能，并且使用1补码的形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码，由此可通过增加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx以及Bbbb。

REX’字段2210－这是REX’字段2210的第一部分，并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1，位[4]–R’)。在本发明的一个实施例中，该位与以下指示的其他位一起以位反转的格式被存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分，但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11；本发明的替代实施例不以反转的格式存储该以下其他被指示的位。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.R’、EVEX.R和来自其他字段的其他RRR来形成R’Rrrr。

操作码映射字段2315(EVEX字节1，位[3:0]–mmmm)–其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。数据元素宽度字段2264(EVEX字节2，位[7]–W)－由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。EVEX.vvvv 2320(EVEX字节2，位[6:3]-vvvv)－EVEX.vvvv的作用可包括如下：1)以反转(1补码)形式被指定并且对具有2个或更多源操作数的指令有效VEX.vvvv对第一源寄存器操作数进行编码；2)针对某些向量偏移以1补码形式被指定的VEX.vvvv对目的地寄存器操作数进行编码；或者3)VEX.vvvv不对任何操作数进行编码，保留该字段，并且该字段应当包含1111b。由此，EVEX.vvvv字段2320对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令，附加的不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。EVEX.U 2268类字段(EVEX字节2，位[2]-U)－如果EVEX.U＝0，则它指示A类或EVEX.U0；如果EVEX.U＝1，则它指示B类或EVEX.U1。

前缀编码字段2325(EVEX字节2，位[1:0]-pp)－提供用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外，这也具有压缩SIMD前缀的益处(EVEX前缀只需要2位，而不是需要字节来表达SIMD前缀)。在一个实施例中，为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令，将这些传统SIMD前缀编码为SIMD前缀编码字段；在提供给解码器的PLA之前，在运行时可被扩展为传统SIMD前缀(因此，PLA可执行传统和EVEX格式的这些传统指令，而无需修改)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展，但是为了一致性，某些实施例以类似的方式扩展，但允许由这些传统SIMD前缀指定不同的含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码，并且因此不需要扩展。

α字段2252(EVEX字节3，位[7]–EH，也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制以及EVEX.N；也以α示出)－如先前所述，该字段是针对上下文的。β字段2254(EVEX字节3，位[6:4]-SSS，也称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也以βββ示出)－如先前所述，该字段是针对上下文的。

REX’字段2210－这是REX’字段的其余部分，并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3，位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。

写掩码字段2270(EVEX字节3，位[2:0]-kkk)－其内容指定写掩码寄存器中的寄存器索引，如先前所述。在本发明的一个实施例中，特定值EVEX.kkk＝000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现，包括使用硬连线到所有的写掩码或者绕过掩码硬件的硬件来实现)。

实操作码字段2330(字节4)也被称为操作码字节。在该字段中指定操作码的部分。MOD R/M字段2340(字节5)包括MOD字段2342、Reg字段2344以及R/M字段2346。如先前所述，MOD字段2342的内容在存储器访问和非存储器访问操作之间进行区分。Reg字段2344的作用可被归结为两种情形：对目的地寄存器操作数或源寄存器操作数进行编码；或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段2346的作用可包括如下：对引用存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)字节(字节6)－如先前所述，比例字段2250的内容用于存储器地址生成。SIB.xxx 2354和SIB.bbb 2356－先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。位移字段2262A(字节7-10)－当MOD字段2342包含10时，字节7-10是位移字段2262A，并且它以与传统32位位移(disp32)相同的方式工作，以字节粒度工作。

位移因数字段2262B(字节7)－当MOD字段2342包含01时，字节7是位移因数字段2262B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的，因此它仅能在-128和127字节偏移量之间寻址；在64字节高速缓存行的方面，disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位；由于常常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32对比，位移因数字段2262B是对disp8的重新解释；当使用位移因数字段2262B时，通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移，但具有大得多的范围)。此类压缩位移基于有效位移是存储器访问的粒度的倍数的假设，并且由此，不需要对地址偏移量的冗余低阶位进行编码。换句话说，位移因数字段2262B替代传统x86指令集的8位位移。由此，以与x86指令集的8位位移相同的方式对位移因数字段2262B进行编码(因此，在ModRM/SIB编码规则中没有变化)，唯一的例外在于，将disp8超载至disp8*N。换句话说，编码规则或编码长度中不存在变化，而仅在通过硬件对位移值的解释中存在变化(这需要通过存储器操作数的尺寸按比例缩放位移量以获得字节式地址偏移量)。立即数字段2272按先前所述进行操作。

图14B是示出根据本发明的一个实施例的、专用向量友好指令格式2300中构成完整操作码字段2274字段的框图。具体而言，完整操作码字段2274包括格式字段2240、基础操作字段2242以及数据元素宽度(W)字段2264。基础操作字段2242包括前缀编码字段2325、操作码映射字段2315以及实操作码字段2330。

图14C是示出根据本发明的一个实施例的、专用向量友好指令格式2300中构成寄存器索引字段2244的字段的框图。具体而言，寄存器索引字段2244包括REX字段2305、REX’字段2310、MODR/M.reg字段2344、MODR/M.r/m字段2346、VVVV字段2320、xxx字段2354以及bbb字段2356。

图14D是示出根据本发明的一个实施例、专用向量友好指令格式2300中构成扩充操作字段2250的字段的框图。当类(U)字段2268包含0时，它表明EVEX.U0(A类2268A)；当它包含1时，它表明EVEX.U1(B类2268B)。当U＝0且MOD字段2342包含11(表明无存储器访问操作)时，á字段2252(EVEX字节3，位[7]–EH)被解释为rs字段2252A。当rs字段2252A包含1(舍入2252A.1)时，β字段2254(EVEX字节3，位[6:4]–SSS)被解释为舍入控制字段2254A。舍入控制字段2254A包括一位的SAE字段2256和两位的舍入操作字段2258。当rs字段2252A包含0(数据变换2252A.2)时，β字段2254(EVEX字节3，位[6:4]–SSS)被解释为三位的数据变换字段2254B。当U＝0且MOD字段2342包含00、01或10(表明存储器访问操作)时，α字段2252(EVEX字节3，位[7]–EH)被解释为驱逐提示(EH)字段2252B且β字段2254(EVEX字节3，位[6:4]–SSS)被解释为三位的数据操纵字段2254C。

当U＝1时，α字段2252(EVEX字节3，位[7]–EH)被解释为写掩码控制(Z)字段2252C。当U＝1且MOD字段2342包含11(表明无存储器访问操作)时，β字段2254的部分(EVEX字节3，位[4]–S₀)被解释为RL字段2257A；当它包含1(舍入2257A.1)时，β字段2254的其余部分(EVEX字节3，位[6-5]–S_2-1)被解释为舍入操作字段2259A，而当RL字段2257A包含0(VSIZE2257.A2)时，β字段2254的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段2259B(EVEX字节3，位[6-5]–L_1-0)。当U＝1且MOD字段2342包含00、01或10(表明存储器访问操作)时，β字段2254(EVEX字节3，位[6:4]–SSS)被解释为向量长度字段2259B(EVEX字节3，位[6-5]–L_1-0)和广播字段2257B(EVEX字节3，位[4]–B)。

图15是根据本发明的一个实施例的寄存器架构2400的框图。在所示出的实施例中，有32个512位宽的向量寄存器2410；这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式2300按下表所示，对这些覆盖的寄存器组进行操作。

换句话说，向量长度字段2259B在最大长度与一个或多个其他较短长度(其中，此类较短长度的长度是前一个长度的一半)之间进行选择；不具有向量长度字段2259B的指令模板对最大向量长度进行操作。此外，在一个实施例中，专用向量友好指令格式2300的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据进行操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作；取决于本实施例，较高阶数据元素位置保持与在指令之前相同或者归零。

写掩码寄存器2415－在所示的实施例中，存在8个写掩码寄存器(k0至k7)，每一个写掩码寄存器的尺寸为64位。在替代实施例中，写掩码寄存器2415的尺寸为16位。如先前所述的，在本发明的一个实施例中，向量掩码寄存器k0不能用作写掩码；当正常指示k0的编码用作写掩码时，它选择硬连线的写掩码0xFFFF，从而有效地禁用该指令的写掩码操作。

通用寄存器2425——在所示出的实施例中，有十六个64位通用寄存器，这些寄存器结合现有的x86寻址模式，用于寻址存储器操作数。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

标量浮点堆栈寄存器组(x87堆栈)2445，在其上面重叠了MMX紧缩整数平坦寄存器组2450——在所示出的实施例中，x87堆栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素堆栈；而将MMX寄存器用于64位紧缩整数数据执行操作，以及用于为在MMX和XMM寄存器之间执行的一些操作保存操作数。

本发明的替代实施例可以使用更宽的或更窄的寄存器。另外，本发明的替代实施例可使用更多、更少或不同的寄存器组和寄存器。

可在不同的处理器中，出于不同的目的，以不同的方式来实现处理器核。例如，此类核的实现可以包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用无序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括：1)CPU，其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核；以及2)协处理器，其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。这样的不同处理器导致不同的计算机系统架构，其可包括：1)在与CPU分开的芯片上的协处理器；2)在与CPU相同的封装中但分开的管芯上的协处理器；3)与CPU在相同管芯上的协处理器(在该情况下，有时将此类协处理器称为专用逻辑(例如，集成图形和/或科学(吞吐量)逻辑)或专用核；以及4)芯片上系统，其可将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构，随后描述处理器和计算机架构。

图16A是示出根据本发明的多个实施例的有序流水线和寄存器重命名的无序发布/执行流水线的框图。图16B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核的实施例和寄存器重命名的无序发布/执行架构核的框图。实线框示出了有序流水线和有序核，而可选增加的虚线框示出了寄存器重命名的、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集，将描述无序方面。

在图16A中，处理器流水线2500包括取出级2502、长度解码级2504、解码级2506、分配级2508、重命名级2510、调度(也被称为分派或发布)级2512、寄存器读取/存储器读取级2514、执行级2516、写回/存储器写入级2518、异常处理级2522和提交级2524。

图16B示出处理器核2590，其包括耦合到执行引擎单元2550的前端单元2530，且执行引擎单元和前端单元两者都耦合到存储器单元2570。核2590可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或替代核类型。作为又一选项，核2590可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。

前端单元2530包括耦合到指令高速缓存单元2534的分支预测单元2532，该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)2536，该指令转换后备缓冲器耦合到指令取出单元2538，指令取出单元耦合到解码单元2540。解码单元2540(或解码器)可解码指令，并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号作为输出。解码单元2540可使用各种不同的机制来实现。合适的机制的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核2590包括(例如，在解码单元2540中或以其他方式在前端单元2530中)存储针对某些宏指令的微代码的微代码ROM或其他介质。解码单元2540耦合至执行引擎单元2550中的重命名/分配器单元2552。

执行引擎单元2550包括耦合到引退单元2554和一个或多个调度器单元的集合2556的重命名/分配器单元2552。调度器单元2556表示任意数量的不同调度器，包括预留站、中央指令窗等。调度器单元2556耦合到物理寄存器组单元2558。物理寄存器组单元2558中的每一个表示一个或多个物理寄存器组，其中不同的物理寄存器组存储一个或多个不同的数据类型，例如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点，状态(例如，作为要被执行的下一条指令的地址的指令指针)等。

在一个实施例中，物理寄存器组单元2558包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器组单元2558被引退单元2554覆盖，以示出可实现寄存器重命名和无序执行的各种方式(例如，使用重排序缓冲器和引退寄存器组；使用未来文件(future file)、历史缓冲器、引退寄存器组；使用寄存器映射和寄存器池等)。引退单元2554和物理寄存器组单元2558耦合至执行群集2560。

执行群集2560包括一个或多个执行单元的集合2562以及一个或多个存储器访问单元的集合2564。执行单元2562可执行多种操作(例如，移位、加法、减法、乘法)，并且可对多种数据类型(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行操作。尽管一些实施例可以包括专用于特定功能或功能集的多个执行单元，但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。

调度器单元2556、物理寄存器组单元2558和执行群集2560被示为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线和/或各自具有其自身的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行群集具有存储器访问单元2564的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行的，并且其余流水线可以是有序发布/执行的。

存储器访问单元的集合2564耦合到存储器单元2570，该存储器单元包括耦合到数据高速缓存单元2574的数据TLB单元2572，其中，数据高速缓存单元耦合到第二级(L2)高速缓存单元2576。在一个实施例中，存储器访问单元2564可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合至存储器单元2570中的数据TLB单元2572。指令高速缓存单元2534还耦合到存储器单元2570中的第二级(L2)高速缓存单元2576。L2高速缓存单元2576耦合至一个或多个其他层级的高速缓存，并最终耦合至主存储器。

作为示例，寄存器重命名的、无序发布/执行核架构可按如下方式实现流水线2500：1)指令取出2538执行取出和长度解码级2502和2504；2)解码单元2540执行解码级2506；3)重命名/分配器单元2552执行分配级2508和重命名级2510；4)调度器单元2556执行调度级2512；5)物理寄存器组单元2558和存储器单元2570执行寄存器读取/存储器读取级2514；执行群集2560执行执行级2516；6)存储器单元2570和物理寄存器组单元2558执行写回/存储器写入级2518；7)各单元可牵涉到异常处理级2522；以及8)引退单元2554和物理寄存器组单元2558执行提交级2524。

核2590可支持一个或多个指令集(例如，x86指令集(在更新的版本中加入了一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON之类的可选附加扩展))，其中包括本文中描述的各指令。在一个实施例中，核2590包括用于支持紧缩数据指令集扩展(例如，AVX1、AVX2和/或先前描述的一些形式的一般向量友好指令格式(U＝0和/或U＝1))的逻辑，从而允许由许多多媒体应用使用的操作能够使用紧缩数据来执行。

应当理解，核可支持多线程操作(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程操作，各种方式包括时分多线程操作、同步多线程操作(其中，单个物理核为物理核正在同步进行多线程操作的多个线程中的每一个线程提供逻辑核)或其组合(例如，时分取出和解码以及此后诸如利用超线程技术的同步多线程操作)。

尽管在无序执行的上下文中描述了寄存器重命名，但应当理解，可在有序架构中使用寄存器重命名。尽管所示出的处理器的多实施例也包括分开的指令和数据高速缓存单元2534/2574以及共享L2高速缓存单元2576，但替代实施例可具有用于指令和数据两者的单个内部高速缓存，诸如例如，第一级(L1)内部高速缓存或多个层级的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部的高速缓存的组合。或者，所有高速缓存都可在核和/或处理器的外部。

图17A和图17B示出更具体的有序核架构的框图，该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。取决于应用，这些逻辑块通过高带宽的互连网络(例如，环形网络)与某个固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。

图17A是根据本发明的多个实施例的单个处理器核以及它与管芯上互连网络2602的连接及其第二级(L2)高速缓存的本地子集2604的框图。在一个实施例中，指令解码器2600支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存2606允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计)，标量单元2608和向量单元2610使用分开的寄存器集合(分别为标量寄存器2612和向量寄存器2614)，并且在这些寄存器之间转移的数据被写入到存储器，并随后从第一级(L1)高速缓存2606读回，但是本发明的替代实施例可使用不同的方法(例如，使用单个寄存器集合或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。

L2高速缓存的本地子集2604是全局L2高速缓存的部分，该全局L2高速缓存被划分成多个分开的本地子集，针对每一个处理器核由有一个本地子集。每个处理器核具有去往其自身的L2高速缓存2604的本地子集的直接访问路径。将由处理器核读取的数据存储在其L2高速缓存子集2604中，并且可以与其他处理器核访问其自身的本地L2高速缓存子集一起，并行地快速访问这些数据。将由处理器核写入的数据存储在其自身的L2高速缓存子集2604中，并在必要的情况下从其他子集中转储清除这些数据。环形网络确保共享数据的一致性。环形网络是双向的，以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。

图17B是根据本发明的多个实施例的、图17A中的处理器核的部分的展开图。图17B包括L1高速缓存2604的L1数据高速缓存2606A部分，以及关于向量单元2610和向量寄存器2614的更多细节。具体而言，向量单元2610是16宽向量处理单元(VPU)(见16宽ALU 2628)，该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU利用混合单元2620支持对寄存器输入的混合，利用数值转换单元2622A-B支持数值转换，并且利用复制单元2624支持对存储器输入的复制。写掩码寄存器2626允许预测所得的向量写入。

图18是根据本发明的多个实施例的、可能具有多于一个的核、可能具有集成存储器控制器、并且可能具有集成图形器件的处理器2700的框图。图18中的实线框示出具有单个核2702A、系统代理2710、一个或多个总线控制器单元的集合2716的处理器2700，而虚线框的可选附加示出具有多个核2702A-N、系统代理单元2710中的一个或多个集成存储器控制器单元的结合2714以及专用逻辑2708的替代处理器2700。

因此，处理器2700的不同实现可包括：1)CPU，其中专用逻辑2708是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核2702A-N是一个或多个通用核(例如，通用有序核、通用无序核、这两者的组合)；2)协处理器，其中核2702A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核；以及3)协处理器，其中核2702A-N是大量通用有序核。因此，处理器2700可以是通用处理器、协处理器或专用处理器，该专用处理器诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器2700可以是一个或多个基板的一部分，并且/或者可使用多种工艺技术(诸如，BiCMOS、CMOS、或NMOS)中的任意技术被实现在一个或多个基板上。

存储器层次结构包括核内的一个或多个层级的高速缓存、一组或一个或多个共享高速缓存单元2706以及耦合至集成存储器控制器单元的集合2714的外部存储器(未示出)。共享高速缓存单元的集合2706可包括一个或多个中级高速缓存，诸如，第二级(L2)、第三级(L3)、第四级(L4)或其他层级的高速缓存、末级高速缓存(LLC)和/或以上的组合。尽管在一个实施例中，基于环的互连单元2712将集成图形逻辑2708、共享高速缓存单元的集合2706以及系统代理单元2710/集成存储器控制器单元2714互连，但替代实施例可使用任何数量的公知技术来将此类单元互连。在一个实施例中，可维护一个或多个高速缓存单元2706和核2702A-N之间的一致性(coherency)。

在一些实施例中，一个或多个核2702A-N能够进行多线程操作。系统代理2710包括协调并操作核2702A-N的那些组件。系统代理单元2710可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括调节核2702A-N和集成图形逻辑2708的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核2702A-N在架构指令集方面可以是同构的或异构的；也就是说，这些核2702A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

图19到图23是计算机架构的框图。本领域已知的对膝上型计算机、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地，能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备通常都是合适的。

现在参考图19，所示出的是根据本发明一个实施例的系统2800的框图。系统2800可包括一个或多个处理器2810、2815，这些处理器耦合到控制器中枢2820。在一个实施例中，控制器中枢2820包括图形存储器控制器中枢(GMCH)2890和输入/输出中枢(IOH)2850(其可在分开的芯片上)；GMCH2890包括存储器和图形控制器，存储器2840和协处理器2845耦合到该存储器和图形控制器；IOH 2850将输入/输出(I/O)设备2860耦合到GMCH 2890。或者，存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的)，存储器2840和协处理器2845直接耦合到处理器2810以及控制器中枢2820，控制器中枢2820与IOH 2850处于单个芯片中。

附加的处理器2815的可选性质在图19中通过虚线来表示。每个处理器2810、2815可包括本文中描述的处理核中的一个或多个，并且可以是处理器2700的某一版本。

存储器2840可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢2820经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接2895与处理器2810、2815进行通信。

在一个实施例中，协处理器2845是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中枢2820可以包括集成图形加速器。

在物理资源2810、2815之间可存在包括架构、微架构、热和功耗特征等的一系列品质度量方面的各种差异。

在一个实施例中，处理器2810执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器2810将这些协处理器指令识别为应当由附连的协处理器2845执行的类型。因此，处理器2810在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器2845。协处理器2845接受并执行所接收的协处理器指令。

现在参考图20，所示为根据本发明的实施例的更具体的第一系统2900的框图。如图20所示，多处理器系统2900是点对点互连系统，并且包括经由点对点互连2950耦合的第一处理器2970和第二处理器2980。处理器2970和2980中的每一个都可以是处理器2700的某一版本。在本发明的一个实施例中，处理器2970和2980分别是处理器2810和2815，而协处理器2938是协处理器2945。在另一实施例中，处理器2970和2980分别是处理器2810和协处理器2845。

处理器2970和2980被示出为分别包括集成存储器控制器(IMC)单元2972和2982。处理器2970也包括作为其总线控制器单元的部分的点对点(P-P)接口2976和2978；类似地，第二处理器2980包括P-P接口2986和2988。处理器2970、2980可以经由使用点对点(P-P)接口电路2978、2988的P-P接口2950来交换信息。如图20所示，IMC 2972和2982将处理器耦合到各自的存储器，即存储器2932和存储器2934，这些存储器可以是本地附连到各自处理器的主存储器的部分。

处理器2970、2980可各自经由使用点对点接口电路2976、2994、2986、2998的各个P-P接口2952、2954与芯片组2990交换信息。芯片组2990可以可选地经由高性能接口2939与协处理器2938交换信息。在一个实施例中，协处理器2938是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

可将共享高速缓存(未示出)包括在任一处理器中，或包括在两个处理器的外部但经由P-P互连与这些处理器连接，使得如果将处理器置于低功率模式，则可将这两个处理器中的任意一个或两个的本地高速缓存信息存储在该共享的高速缓存中。芯片组2990可以经由接口2996耦合至第一总线2916。在一个实施例中，第一总线2916可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图20所示，各种I/O设备2914可连同总线桥2918一起耦合到第一总线2916，总线桥2918将第一总线2916耦合到第二总线2920。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器之类的一个或多个附加处理器2915耦合到第一总线2916。在一个实施例中，第二总线2920可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线2920，在一个实施例中，这些设备包括例如，键盘/鼠标2922、通信设备2927以及诸如可包括指令/代码和数据2930的盘驱动器或其他大容量存储设备之类的存储单元2928。此外，音频I/O 2924可以被耦合至第二总线2920。注意，其他架构是可能的。例如，代替图20中的点对点架构，系统可以实现多分支总线或其他此类架构。

现在参考图21，所示为根据本发明的实施例的更具体的第二系统3000的框图。图21和图22中的类似元件使用类似附图标记，且在图22中省略了图21的某些方面以避免使图21的其他方面模糊。图21示出处理器2970、2980可分别包括集成存储器和I/O控制逻辑(”CL”)2972和2982。因此，CL 2972、2982包括集成存储器控制器单元并包括I/O控制逻辑。图21示出不仅存储器2932、2934耦合至CL 2972、2982，而且I/O设备3014也耦合至控制逻辑2972、2982。传统I/O设备3015被耦合至芯片组2990。

现在参考图22，所示出的是根据本发明的实施例的SoC 3100的框图。图18中的相似组件具有相同的标号。另外，虚线框是更先进的SoC上的可选特征。在图22中，互连单元3102被耦合至：应用处理器3110，其包括一个或多个核的集合202A-N以及共享高速缓存单元2706；系统代理单元2710；总线控制器单元2716；集成存储器控制器单元2714；一组或一个或多个协处理器3120，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元3130；直接存储器存取(DMA)单元3132；显示单元3140，其以及用于耦合至一个或多个外部显示器。在一个实施例中，协处理器3120包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。可将本发明的多个实施例实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(诸如图20中示出的代码2930)应用于输入指令，以执行本文描述的多个功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任何情况下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可由存储在表示处理器中的各种逻辑的机器可读介质上的表示性指令来实现，当由机器读取这些表示性指令时，这些指令使该机器制作用于执行本文所述的技术的逻辑。可将被称为“IP核”的此类表示存储在有形的机器可读介质上，并将其提供给各种客户或生产设施，以便加载到实际制造该逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排，其包括存储介质，诸如：硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘；半导体器件，例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

相应地，本发明的多个实施例也包括非瞬态的有形机器可读介质，该介质包含指令或包含定义本文中描述的结构、电路、装置、处理器和/或系统特征的设计数据(例如，硬件描述语言(HDL))。也降此类实施例称为程序产品。

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可变换(例如，使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真指令或以其他方式将指令转换成将由核来处理的一条或多条其他指令。可在软件、硬件、固件或其组合中实现该指令转换器。指令转换器可在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图23是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中，指令转换器是软件指令转换器，但也可替代地在软件、固件、硬件或其各种组合中实现该指令转换器。图23示出可使用x86编译器3204来编译利用高级语言3202的程序，以生成可由具有至少一个x86指令集核的处理器3216原生地执行的x86二进制代码3206。具有至少一个x86指令集核的处理器3216表示能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同功能的任何处理器：1)英特尔x86指令集核的指令集的本质部分，或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器3204表示用于生成x86二进制代码3206(例如，目标代码)的编译器，该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器3216上被执行。类似地，图23示出可使用替代的指令集编译器3208来编译利用高级语言3202的程序，以生成可以由不具有至少一个x86指令集核的处理器3214(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生地执行的替代指令集二进制代码3210。指令转换器3212被用来将x86二进制代码3206转换成可以由不具有x86指令集核的处理器3214原生地执行的代码。该被转换的代码不大可能与替代的指令集二进制代码3210相同，因为能够这样做的指令转换器难以制造；然而，被转换的代码将完成一般操作，并且由来自替代指令集中的指令构成。因此，指令转换器3212通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码3206的软件、固件、硬件或其组合。

根据一个实施例，处理器包括指令解码器，其用于对第一指令进行解码，该第一指令用于聚集来自存储器的数据元素，该第一指令具有指定第一存储位置的第一操作数和指定存储多个数据元素的第一存储器地址的第二操作数。该处理器进一步包括执行单元，其耦合至指令解码器，响应于第一指令，该执行单元用于：基于由第二操作数指示的第一存储器地址，从存储器位置中读取数据元素中连续的第一数据元素和第二数据元素；并且将该第一数据元素存储在第一存储位置的第一条目中，将该第二数据元素存储在对应于第一存储位置的第一条目的、第二存储位置的第二条目中。在一个实施例中，该第一指令进一步包括指定第二存储位置的第三操作数。在一个实施例中，该指令解码器进一步对第二指令进行解码，该第二指令具有指定第二存储位置的第三操作数和指定第二存储器地址的第四操作数，该第二存储器地址从第一存储器地址偏移单个数据元素的尺寸。根据本发明的一个方面，该第一指令进一步包括前缀，该前缀向指令解码器和执行单元指示第二指令跟随该第一指令。在另一实施例中，执行单元预测第二指令的存在。在一个实施例中，第一存储位置的第一条目与第二存储位置的第二条目是不连续的，并且其中，由第一操作数指定第二存储位置。根据一个实施例，在将第一数据元素存储在第一存储位置的第一条目中之前，将该第一数据元素存储在第三存储位置的第三条目中，并且在将第二数据元素存储在第二存储位置的第二条目中之前，将该第二数据元素存储在第四存储位置的第四条目中。

已在对计算机存储器中的数据位的算法和符号表示方面呈现了前述具体实施方式的一些部分。这些算法描述及表示是由数据处理领域的技术人员用于向本领域的其他技术人员最有效地传达其工作实质的方式。算法在此一般被理解为导致所需结果的自洽的操作序列。这些操作是需要对物理量进行物理操控的操作。

然而，应当记住，所有这些和/或类似的术语用于与适当的物理量关联，并且仅仅是应用于这些量的方便的标记。除非特别声明，否则根据上述讨论显而易见的是，会理解在本说明书的通篇中，利用诸如所附权利要求中陈述的那些术语之类的术语的讨论是指计算机系统或类似电子计算设备的动作和过程，该计算机系统或类似的电子计算设备操纵被表示为计算机系统的寄存器和存储器中的物理(电子)量的数据，并将这些数据变换为类似地被表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。

可使用存储在一个或多个电子设备并且在一个或多个电子设备上执行的代码和数据来实现图中所示的多种技术。此类电子设备使用计算机可读介质存储并传递(内部地和/或在网络上与其他电子设备进行)代码和数据，计算机可读介质例如，非瞬态计算机可读取的存储介质(例如，磁盘；光盘；随机存取存储器；只读存储器；闪存设备；相变存储器)和瞬态计算机可读传输介质(例如，电、光、声或其他形式的传播的信号——诸如载波，红外信号、数字信号等)。

前述附图中所描绘的过程或方法可通过包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，被具体化在非瞬态计算机可读介质上的软件)或两者的组合的处理逻辑来执行。虽然上文按照一些顺序操作描述了过程或方法，但是，应当理解，能以不同的顺序来执行所描述的操作中的一些。此外，可并行地而非顺序地执行一些操作。

在前述的说明书中，已本发明的特定实施例描述了本发明的多个实施例。显然，可对这些实施例作出各种修改，而不背离所附权利要求所陈述的本发明的更广泛的精神和范围。相应地，应当将说明书和附图应认为是说明性的而不是限制性的。

Claims

1.一种处理器，包括：

指令解码器，用于对第一指令进行解码，所述第一指令用于聚集来自存储器的数据元素，所述第一指令具有指定第一存储位置的第一操作数和指定存储多个数据元素的第一存储器地址的第二操作数；

执行单元，耦合至所述指令解码器，响应于所述第一指令，所述执行单元用于：基于由所述第二操作数指示的所述第一存储器地址，从存储器位置中读取所述数据元素中连续的第一数据元素和第二数据元素；并且将所述第一数据元素存储在所述第一存储位置的第一条目中，将第二数据元素存储在对应于所述第一存储位置的所述第一条目的、第二存储位置的第二条目中。

2.如权利要求1所述的处理器，其特征在于，所述第一指令进一步包括指定所述第二存储位置的第三操作数。

3.如权利要求1所述的处理器，其特征在于，所述指令解码器进一步对第二指令进行解码，所述第二指令具有指定所述第二存储位置的第三操作数和指定第二存储器地址的第四操作数，所述第二存储器地址从所述第一存储器地址偏移单个数据元素的尺寸。

4.如权利要求3所述的处理器，其特征在于，所述第一指令进一步包括前缀，所述前缀向所述指令解码器和所述执行单元指示所述第二指令跟随所述第一指令。

5.如权利要求3所述的处理器，其特征在于，所述执行单元预测所述第二指令跟随所述第一指令。

6.如权利要求1所述的处理器，其特征在于，所述第一存储位置的所述第一条目与所述第二存储位置的第二条目是不连续的，并且其中，由所述第一操作数指定所述第二存储位置。

7.如权利要求1所述的处理器，其特征在于，在将所述第一数据元素存储在所述第一存储位置的所述第一条目中之前，将所述第一数据元素存储在第三存储位置的第三条目中，并且在将所述第二数据元素存储在所述第二存储位置的所述第二条目中之前，将所述第二数据元素存储在第四存储位置的第四条目中。

8.一种方法，包括：

对第一指令进行解码，所述第一指令用于聚集来自存储器的数据元素，所述第一指令具有指定第一存储位置的第一操作数和指定存储多个数据元素的第一存储器地址的第二操作数；

响应于所述第一指令，基于由所述第二操作数指示的所述第一存储器地址，从存储器位置中读取所述数据元素中连续的第一数据元素和第二数据元素；以及

将所述第一数据元素存储在所述第一存储位置的第一条目中，并且将所述第二数据元素存储在对应于所述第一存储位置的所述第一条目的、第二存储位置的第二条目中。

9.如权利要求8所述的方法，其特征在于，所述第一指令进一步包括指定所述第二存储位置的第三操作数。

10.如权利要求8所述的方法，其特征在于，所述指令解码器进一步对第二指令进行解码，所述第二指令具有指定所述第二存储位置的第三操作数和指定第二存储器地址的第四操作数，所述第二存储器地址从所述第一存储器地址偏移单个数据元素的尺寸。

11.如权利要求10所述的方法，其特征在于，所述第一指令进一步包括前缀，所述前缀向所述指令解码器和所述执行单元指示所述第二指令跟随所述第一指令。

12.如权利要求10所述的方法，其特征在于，所述执行单元预测所述第二指令跟随所述第一指令。

13.如权利要求8所述的方法，其特征在于，所述第一存储位置的所述第一条目与所述第二存储位置的第二条目是不连续的，并且其中，由所述第一操作数指定所述第二存储位置。

14.如权利要求8所述的方法，其特征在于，在将所述第一数据元素存储在所述第一存储位置的所述第一条目中之前，将所述第一数据元素存储在第三存储位置的第三条目中，并且在将所述第二数据元素存储在所述第二存储位置的所述第二条目中之前，将所述第二数据元素存储在第四存储位置的第四条目中。

15.一种数据处理系统，包括：

互连；

动态随机存取存储器(DRAM)，所述动态随机存取存储器(DRAM)耦合到所述互连；以及

处理器，耦合至所述互连，所述处理器包括：

16.如权利要求15所述的数据处理系统，其特征在于，所述第一指令进一步包括指定所述第二存储位置的第三操作数。

17.如权利要求15所述的数据处理系统，其特征在于，所述指令解码器进一步对第二指令进行解码，所述第二指令具有指定所述第二存储位置的第三操作数和指定第二存储器地址的第四操作数，所述第二存储器地址从所述第一存储器地址偏移单个数据元素的尺寸。

18.如权利要求17所述的数据处理系统，其特征在于，所述第一指令进一步包括前缀，所述前缀向所述指令解码器和所述执行单元指示所述第二指令跟随所述第一指令。

19.如权利要求17所述的数据处理系统，其特征在于，所述执行单元预测所述第二指令跟随所述第一指令。

20.如权利要求15所述的数据处理系统，其特征在于，所述第一存储位置的所述第一条目与所述第二存储位置的第二条目是不连续的，并且其中，由所述第一操作数指定所述第二存储位置。

21.如权利要求15所述的数据处理系统，其特征在于，在将所述第一数据元素存储在所述第一存储位置的所述第一条目中之前，将所述第一数据元素存储在第三存储位置的第三条目中，并且在将所述第二数据元素存储在所述第二存储位置的所述第二条目中之前，将所述第二数据元素存储在第四存储位置的第四条目中。