CN110826722A

CN110826722A - 用于通过排序来生成索引并基于排序对元素进行重新排序的系统、装置和方法

Info

Publication number: CN110826722A
Application number: CN201910739228.5A
Authority: CN
Inventors: D.鲍姆; R.佐哈尔; A.米什拉; P.瑟蒂; E.奥尔德-艾哈迈德-瓦尔; C.休格斯; A.海内克
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-08-11
Filing date: 2019-08-12
Publication date: 2020-02-21
Also published as: PL3944077T3; EP3608776A1; EP3944077B1; PL3608776T3; EP3608776B1; ES2905697T3; EP3944077A1; ES2951658T3; US20200050452A1; EP4191405A1

Abstract

所公开的实施例涉及用于实行排序索引化和/或使用索引排列的装置、系统和方法。示例性装置包括用以解码指令的解码电路，该指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将该排序的结果存储在目的地向量中，该排序和存储通过使用元素自身以及与源向量的其他数据元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于元素的索引值来排列所述源向量的元素的值来进行；以及用以执行如由操作码指示的经解码的指令的执行电路。

Description

用于通过排序来生成索引并基于排序对元素进行重新排序的系统、装置和方法

发明领域

本发明领域一般涉及计算机处理器架构，并且更具体地，涉及用于实行指定了三元图块（tile）运算的指令的系统和方法。

背景技术

矩阵在诸如机器学习和其他批量数据处理之类的许多计算任务中越来越重要。深度学习是一类机器学习算法。深度学习架构（诸如深度神经网络）已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。

推理和训练——两种被用于深度学习的工具——正趋向于低精度算术。最大化深度学习算法和计算的吞吐量可以帮助满足深度学习处理器（例如，在数据中心中实行深度学习的处理器）的需求。

用于在三个源矩阵上实行指定了三元图块运算的指令的指令在机器学习上下文中是有用的。

附图说明

作为示例而非限制在附图的各图中图示了本发明，在附图中相同的附图标记指示类似的元素，并且在附图中：

图1A图示了所配置图块的实施例；

图1B图示了所配置图块的实施例；

图2图示了矩阵存储装置的几个示例；

图3图示了利用矩阵（图块）运算加速器的系统的实施例；

图4和5示出了如何使用矩阵运算加速器来共享存储器的不同实施例；

图6图示了使用图块的矩阵乘法累加运算（“TMMA”）的实施例；

图7图示了链式融合乘法累加指令的迭代执行的子集的实施例；

图8图示了链式融合乘法累加指令的迭代执行的子集的实施例；

图9图示了链式融合乘法累加指令的迭代执行的子集的实施例；

图10图示了链式融合乘法累加指令的迭代执行的子集的实施例；

图11图示了根据实施例的二次幂（power-of-two）大小的SIMD实现方式，其中累加器使用比对于乘法器的输入更大的输入大小；

图12图示了利用矩阵运算电路的系统的实施例；

图13图示了支持使用图块的矩阵运算的处理器核心流水线的实施例；

图14图示了支持使用图块的矩阵运算的处理器核心流水线的实施例；

图15图示了以行主序（row major）格式和以列主序（column major）格式表达的矩阵的示例；

图16图示了矩阵（图块）的使用的示例；

图17图示了矩阵（图块）的使用方法的实施例；

图18图示了根据实施例的对使用图块的配置的支持；

图19图示了要支持的矩阵（图块）的描述的实施例；

图20（A）-（D）图示了（一个或多个）寄存器的示例；

图21图示了执行单个索引排序和重新排序指令的实施例；

图22图示了执行单个索引排序指令和单个重新排序指令的实施例；

图23图示了用以生成索引的电路的实施例；

图24图示了用以生成索引的电路的实施例；

图25A-25B是图示了根据本发明的实施例的通用向量友好指令格式及其指令模板的框图；

图25A是图示了根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图；

图25B是图示了根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图；

图26A是图示了根据本发明的实施例的示例性具体向量友好指令格式的框图；

图26B是图示了根据本发明的一个实施例的构成完整操作码字段的具体向量友好指令格式的字段的框图；

图26C是图示了根据本发明的一个实施例的构成寄存器索引字段的具体向量友好指令格式的字段的框图；

图26D是图示了根据本发明的一个实施例的构成增强运算字段的具体向量友好指令格式的字段的框图；

图27是根据本发明的一个实施例的寄存器架构的框图；

图28A是图示了根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图；

图28B是图示了根据本发明的实施例的有序架构核心的示例性实施例和处理器中要包括的示例性寄存器重命名、无序发布/执行架构核心二者的框图；

图29A-B图示了更具体的示例性有序核心架构的框图，该有序核心架构的核心将是芯片中的几个逻辑块（包括相同类型和/或不同类型的其他核心）中的一个；

图29A是根据本发明的实施例的单处理器核心连同其与管芯上互连网络的连接以及连同其2级（L2）高速缓存的本地子集的框图；

图29B是根据本发明的实施例的图29A中的处理器核心的部分的展开视图；

图30是根据本发明的实施例的处理器的框图，该处理器可以具有多于一个核心，可以具有集成存储器控制器并且可以具有集成图形；

图31-34是示例性计算机架构的框图；

图31是根据本发明的一个实施例的系统的框图；

图32是根据本发明的实施例的第一更具体的示例性系统的框图；

图33是根据本发明的实施例的第二更具体的示例性系统的框图；

图34是根据本发明的实施例的片上系统（SoC）的框图；

图35是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图36图示了处理单指令的实施例；

图37图示了处理单指令的实施例；

图38图示了处理单指令的实施例；

图39图示了处理单指令的实施例；

图40图示了处理单指令的实施例；

图41图示了处理单指令的实施例；以及

图42图示了处理单指令的实施例。

具体实施方式

在下面的描述中，阐述了众多具体细节。然而，理解的是，本发明的实施例可以在没有这些特定细节的情况下实践。在其他情况下，没有详细示出公知的电路、结构和技术，以免模糊对本描述的理解。

说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是可以不是每个实施例都一定包括该特定特征、结构或特性。而且，这样的短语并不一定指代相同的实施例。另外，当结合实施例来描述特定特征、结构或特性时，则认为的是，在本领域技术人员的知识范围内，结合其他实施例（无论是否明确描述）来影响这样的特征、结构或特性。

在许多主流处理器中，处理矩阵是一项困难的和/或指令密集型任务。例如，可以将矩阵的行放入到多个打包数据（packed data，例如，SIMD或向量）寄存器中，然后单独进行操作。例如，添加两个8×2矩阵可能需要加载或聚集到四个打包数据寄存器中，这取决于数据大小。然后，实行与来自每个矩阵的第一行相对应的打包数据寄存器的第一添加，并且实行与来自每个矩阵的第二行相对应的打包数据寄存器的第二添加。然后，所产生的打包数据寄存器被往回分散到存储器。虽然对于小矩阵，这种情形可能是可接受的，但是对于较大的矩阵，这种情况通常不是可接受的。

讨论

本文中描述的是用以在诸如中央处理单元（CPU）、图形处理单元（GPU）和加速器之类的计算机硬件中支持矩阵运算的机制。矩阵运算利用二维（2-D）数据结构，其表示存储器的一个或多个打包区域（诸如寄存器）。遍及该描述，这些2-D数据结构被称为图块。注意的是，矩阵可以小于图块（使用少于全部的图块）或利用多个图块（矩阵大于任何一个图块的大小）。遍及该描述，矩阵（图块）语言被用来指示使用影响矩阵的图块来实行的运算；该矩阵是否大于任何一个图块通常并不相关。

可以通过不同的运算来对每个图块起作用，该运算诸如本文中详述的那些并且包括但不限于：矩阵（图块）乘法、图块加法、图块减法、图块对角、图块归零、图块转置、图块点积、图块广播（broadcast）、图块行广播、图块列广播、图块乘法、图块乘法和积累、图块移动等。附加地，对运算符的支持（诸如使用刻度和/或偏差）可以与这些运算一起使用，或者在将来支持非数字应用程序，例如，OpenCL“本地存储器”、数据压缩/解压缩等。本文中还描述了用于实行三元图块运算（TILETERNOP）指令的指令。

存储装置的部分（诸如存储器（非易失性和易失性）、寄存器、高速缓存等）被布置成具有不同水平和垂直尺寸的图块。例如，图块的水平尺寸可以是4（例如，矩阵的4行）并且图块的垂直尺寸可以是8（例如，矩阵的8列）。通常，水平尺寸与元素大小有关（例如，2位、4位、8位、16位、32位、64位、128位等）。可以支持多种数据类型（单精度浮点、双精度浮点、整数等）。

所配置图块的示例性使用

在一些实施例中，可以配置图块参数。例如，给定的图块可以被配置成提供图块选项。示例性图块选项包括但不限于：图块的行数、图块的列数、图块是否有效（VALID）以及图块是否由一对（PAIR）相等大小的图块组成。

图1A图示了所配置图块的实施例。如所示的，4 kB的应用程序存储器102具有存储在其上的4个1 kB图块：图块0 104、图块1 106、图块2 108和图块3 110。在该示例中，4个图块不由对（pair）组成，并且每个图块都具有按行和列布置的元素。图块t0 104和图块t1106具有K行和N列的4字节元素（例如，单精度数据），其中K等于8并且N等于32。图块t2 108和图块t3 110具有K行和N/2列的8字节元素（例如，双精度数据）。由于双精度操作数的宽度是单精度的两倍，因此该配置与调色板一致，被用来提供图块选项，为至少4 kB的总存储提供至少4个名称。在操作中，可以使用加载和存储操作来从存储器加载图块并且将图块存储到存储器。取决于所使用的指令编码方案，可用应用程序存储器的量以及可用图块的大小、数量和配置会有所不同。

图1B图示了所配置图块的实施例。如所示的，4 kB的应用程序存储器122在其上存储有2对1 kB图块，第一对是图块t4L 124和图块t4R 126，并且第二对是图块t5L 128和图块t5R 130。如所示的，图块对被划分成左图块和右图块。在其它实施例中，图块对被划分成偶图块和奇图块。在该示例中，4个图块均具有按行和列布置的元素。图块t4L 124和图块t4R 126具有K行和N列的4字节元素（例如，单精度数据），其中K等于8并且N等于32。图块t5L128和图块t5R 130具有K行和N/2列的8字节元素（例如，双精度数据）。由于双精度操作数的宽度是单精度的两倍，因此该配置与调色板一致，被用来提供图块选项，在具有总存储为至少4的kB的情况下提供至少2个名称。图1A的四个图块使用4个名称，每个名称命名一个1 kB图块，而图1B中的2对图块可以使用2个名称来指定成对图块。在一些实施例中，图块指令作为操作数来接受成对图块的名称。在运算中，可以使用加载和存储操作来从存储器加载图块并且将图块存储到存储器。取决于所使用的指令编码方案，可用应用程序存储器的量以及可用图块的大小、数量和配置会有所不同。

在一些实施例中，图块参数是可定义的。例如，“调色板”被用来提供图块选项。示例性选项包括但不限于：图块名称的数量、存储装置的行中的字节数、图块中的行数和列数等。例如，图块的最大“高度”（行数）可以被定义为：

Tile Max Rows =所架构的存储/（调色板名称的数量*每行的字节数）。

如此，可以编写应用程序，使得固定的名称使用将能够跨实现方式来利用不同的存储大小。

使用图块配置（“TILECONFIG”）指令来完成图块的配置，其中在所选调色板中定义特定图块使用。该声明包括要使用的图块名称的数量、每个名称（图块）所请求的行数和列数以及在一些实施例中，每个图块所请求的数据类型。在一些实施例中，在执行TILECONFIG指令期间实行一致性检查来确定其匹配调色板条目的限制。

示例性图块存储类型

图2图示了矩阵存储的几个示例。在（A）中，图块被存储在存储器中。如所示的，每个“行”由四个打包数据元素组成。要到达下一个“行”，使用跨步值。注意的是，行可以被连续存储在存储器中。当图块存储没有映射底层存储器阵列行宽时，跨步式存储器访问允许一行然后到下一行的访问。

图块从存储器加载并且存储到存储器通常是从应用程序存储器到打包数据行的跨步式访问。在一些实施例中，示例性TILELOAD和TILESTORE指令，或作为加载操作指令中的TILE操作数提及应用程序存储器的其他指令可重新启动，以处理（多达）2*行的页面错误、未掩蔽的浮点异常和/或每条指令的中断。

在（B）中，矩阵被存储在由多个寄存器（诸如打包数据寄存器（单指令、多数据（SIMD）或向量寄存器））组成的图块中。在该示例中，将图块覆盖在三个物理寄存器上。通常，使用连续的寄存器，然而，并不一定是这种情况。

在（C）中，矩阵被存储在可由被用在图块运算中的融合多重积累（FMA）电路访问的非寄存器存储中的图块中。该存储可以在FMA内部或与其相邻。附加地，在下面讨论的一些实施例中，存储可以是针对数据元素而非整个行或图块。

经由CPUID来报告TMMA架构所支持的参数。在一些实施例中，信息列表包括最大高度和最大SIMD尺寸。配置TMMA架构需要指定每个图块的尺寸、每个图块的元素大小以及调色板标识符。通过执行TILECONFIG指令来完成该配置。

成功执行TILECONFIG指令将启用随后的TILE运算符。TILERELEASEALL指令清除图块配置并且禁用TILE运算（直到下一个TILECONFIG指令执行为止）。在一些实施例中，XSAVE、XSTORE等被用于使用图块进行上下文切换中。在一些实施例中，在XSAVE中使用2个XCR0位，一个用于TILECONFIF元数据，并且一个位对应于实际的图块有效载荷数据。

TILECONFIG不仅配置图块使用，而且还设置状态变量，从而指示程序位于具有已配置图块的代码区域中。实现方式可以列举对可以与图块区域一起使用的其他指令的限制，诸如不使用现有寄存器组等。

退出图块区域通常利用TILERELEASEALL指令来完成。它不需要任何参数，并且迅速地使全部图块无效（指示数据不再需要任何保存或恢复），并且清除与处于图块区域中相对应的内部状态。

在一些实施例中，图块运算将使超出由图块配置所指定的尺寸的任何行和任何列归零。例如，在写入每一行时，图块运算将使超出所配置列数（把元素的大小作为因素计入）的数据归零。例如，对于64字节行和被配置有10行和12列的图块，写入FP32元素的运算将利用具有输出/结果数据的12*4字节写入前10行中的每一行，并且将每行中剩余的4*4字节归零。图块运算还将前10个所配置的行之后的任何行完全归零。当使用具有64字节行的1K图块时，将有16行，因此在该示例中，最后6行也将被归零。

在一些实施例中，上下文恢复指令（例如，XRSTOR）在加载数据时强制将超出针对图块所配置的行的数据维持为零。如果没有有效配置，则全部行都被归零。图块数据的XRSTOR可以在超出所配置的列的列中加载垃圾。XRSTOR应该没有可能超出所配置的列数进行清除，因为没有与图块配置相关联的元素宽度。

上下文保存（例如，XSAVE）在将整个TILE存储区域写入存储器时暴露了该整个TILE存储区域。如果XRSTOR将垃圾数据加载到图块的最右边部分，那么该数据将由XSAVE保存。XSAVE将为超出为每个图块所指定的数量的行写入零。

在一些实施例中，图块指令是可重新启动的。访问存储器的操作允许在页面错误之后重新启动。处理浮点运算的计算指令还允许未掩蔽的浮点异常，其中异常的掩蔽由控制和/或状态寄存器控制。

为了支持在这些事件之后重新启动指令，指令将信息存储在下面详述的启动寄存器中。

矩阵（图块）运算系统

示例性硬件支持

图3图示了利用矩阵（图块）运算加速器的系统的实施例。在该图示中，主处理器/处理系统301将命令311（例如，诸如算术或矩阵调处（manipulation）运算之类的矩阵调处运算，或者加载和存储操作）传送到矩阵运算加速器307。然而，仅出于讨论的目的而以这样的方式示出这一点。如之后详述的，该加速器307可以是处理核心的一部分。通常，作为图块调处运算符指令的命令311将图块称为寄存器-寄存器（“reg-reg”）或寄存器-存储器（“reg-mem”）格式。其他命令（诸如TILESTORE、TILELOAD、TILECONFIG等）不对图块实行数据运算。命令可以是经解码的指令（例如，微操作）或宏指令以供加速器307来处理。

在该示例中，相干存储器接口303被耦合到主处理器/处理系统301和矩阵运算加速器307，使得它们可以共享存储器。图4和5示出了如何使用矩阵运算加速器来共享存储器的不同实施例。如图4所示，主处理器401和矩阵运算加速器电路405共享相同的存储器403。图5图示了其中主处理器501和矩阵运算加速器505并不共享存储器而是可以访问彼此的存储器的实施例。例如，处理器501可以访问图块存储器507并且如常利用其主机存储器503。类似地，矩阵运算加速器505可以访问主机存储器503，但更典型地使用其自己的存储器507。注意，这些存储器可以是不同类型的。

在一些实施例中，矩阵运算加速器307包括：耦合到数据缓冲器305的多个FMA 309（在一些实现方式中，这些缓冲器305中的一个或多个被存储在网格的FMA中，如所示的）。数据缓冲器305缓冲从存储器加载的图块和/或要存储到存储器的图块（例如，使用tileload或tilestore指令）。数据缓冲器可以是例如多个寄存器。通常，这些FMA被布置为能够读取和写入图块的链式FMA 309的网格。在该示例中，矩阵运算加速器307要使用图块T0、T1和T2来实行矩阵乘法运算。图块中的至少一个被存放在FMA网格309中。在一些实施例中，将运算中的全部图块都存储在FMA网格309中。在其他实施例中，仅把子集存储在FMA网格309中。如所示的，T1被存放，并且T0和T2未被存放。注意的是，A、B和C指代这些图块的矩阵，这些矩阵可能会或者可能不会占用图块的整个空间。

图6图示了使用图块的矩阵乘法累加运算（“TMMA”）的实施例。

矩阵（TILE A 601）中的行数与包括计算等待时间的串行（链式）FMA的数量相匹配。实现方式可以在较小高度的网格上自由地再循环，但是计算保持不变。

源/目的地（destination）向量来自N行的图块（TILE C 605），并且FMA 611的网格实行N个向量矩阵运算，从而产生实行图块的矩阵乘法的完整指令。图块B 603是另一个向量源，并在每个阶段向FMA提供“广播”术语。

在运算中，在一些实施例中，矩阵B的元素（存储在图块B 603中）遍布FMA的矩形网格。矩阵B（存储在图块A 601中）具有被转置以与FMA的矩形网格的列尺寸相匹配的行元素。在网格中的每个FMA处，将A和B的元素相乘并且添加到传入的被加数（从图中的上方），并且传出总和被传递到FMA的下一行（或最终输出）。

单个步骤的等待时间与K（矩阵B的行高）成比例，并且从属TMMA通常具有足够的源-目的地行（在单个图块中或跨图块）以隐藏该等待时间。实现方式还可以跨时间步分割SIMD（打包数据元素）尺寸M（矩阵A的行高），但是这只会改变K乘以的常数。当程序指定的K小于TMACC所枚举的最大值时，实现方式利用“掩蔽”或“先出”来自由地实现这一点。

整个TMMA的等待时间与N*K成比例。重复率与N成比例。每个TMMA指令的MAC的数量是N*K*M。

图7图示了链式融合乘法累加指令的迭代执行的子集的实施例。特别地，这图示了目的地的一个打包数据元素方位的迭代的执行电路。在该实施例中，链式融合乘法累加在有符号源上运算，其中累加器的大小是输入数据大小的2倍。

第一有符号源（源1 701）和第二有符号源（源2 703）均具有四个打包数据元素。这些打包数据元素中的每一个都存储诸如浮点数据之类的有符号数据。第三有符号源（源3709）具有两个打包数据元素，每个元素都存储有符号数据。第一和第二有符号源701和703的大小是第三有符号源（初始值或先前结果）709的大小的一半。例如，第一和第二有符号源701和703可以具有32位打包数据元素（例如，单精度浮点），而第三有符号源709可以具有64位打包数据元素（例如，双精度浮点）。

在该图示中，仅示出了第一和第二有符号源701和703的两个最高有效打包数据元素方位以及第三有符号源709的最高有效打包数据元素方位。当然，还将处理其他打包数据元素方位。

如图示的，打包数据元素被成对处理。例如，使用乘法器电路705将第一和第二有符号源701和703的最高有效打包数据元素方位的数据相乘，并且使用乘法器电路707将来自第一和第二有符号源701和703的第二最高有效打包数据元素方位的数据相乘。在一些实施例中，这些乘法器电路705和707被重用于其他打包数据元素方位。在其他实施例中，使用附加的乘法器电路，以便并行处理打包数据元素。在一些上下文中，使用是有符号第三源709的大小的通道（lane）来完成并行执行。使用加法电路711添加每个乘法的结果。

将乘法结果的相加结果添加到来自有符号源3 709的最高有效打包数据元素方位的数据中（使用不同的加法器713或相同的加法器711）。

最后，将第二加法的结果存储到打包数据元素方位中的有符号目的地715中，该打包数据元素方位与从有符号第三源709中使用的或者如果有的话传递给下一次迭代的打包数据元素方位相对应。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码（位），则存储发生，而如果未设置，则存储不发生。

图8图示了链式融合乘法累加指令的迭代执行的子集的实施例。特别地，这图示了目的地的一个打包数据元素方位的迭代的执行电路。在该实施例中，链式融合乘法累加在有符号源上运算，其中累加器的大小是输入数据大小的2倍。

第一有符号源（源1 801）和第二有符号源（源2 803）均具有四个打包数据元素。这些打包数据元素中的每一个都存储诸如整数数据之类的有符号数据。第三有符号源（源3809）具有两个打包数据元素，其中的每一个元素都存储有符号数据。第一和第二有符号源801和803的大小是第三有符号源809的大小的一半。例如，第一和第二有符号源801和803可以具有32位打包数据元素（例如，单精度浮点），并且第三有符号源809可以具有64位打包数据元素（例如，双精度浮点）。

在该图示中，仅示出了第一和第二有符号源801和803的两个最高有效打包数据元素方位以及第三有符号源809的最高有效打包数据元素方位。当然，还将处理其他打包数据元素方位。

如图示的，打包数据元素被成对处理。例如，使用乘法器电路805将第一和第二有符号源801和803的最高有效打包数据元素方位的数据相乘，并且使用乘法器电路807将来自第一和第二有符号源801和803的第二最高有效打包数据元素方位的数据相乘。在一些实施例中，这些乘法器电路805和807被重用于其他打包数据元素方位。在其他实施例中，使用附加的乘法器电路，以便并行处理打包数据元素。在一些上下文中，使用作为有符号第三源（初始值或先前迭代结果）809的大小的通道来完成并行执行。使用加法/饱和电路813将每一个乘法的结果添加到有符号第三源809。

当加法导致过大的值时，加法/饱和（累加器）电路813保留操作数的符号。特别是，饱和评估发生在多路添加与写入到目的地或下一次迭代之间的无限精度结果上。当累加器813是浮点并且输入项是整数时，乘积之和以及浮点累加器输入值就变成无限精度值（具有数百个位的定点数），实行乘法结果与第三输入的相加，并且实行对实际累加器类型的单次舍入。

无符号饱和意味着输出值被限制成该元素宽度的最大无符号数（全1）。有符号饱和意味着值被限制在该元素宽度的最小负数与最大正数之间的范围内（例如，对于字节，范围是从-128（=-2^7）到127（=2^7-1））。

将加法和饱和检查的结果存储到打包数据元素方位中的有符号结果815中，该打包数据元素方位与从有符号第三源809中使用的或者如果有的话传递给下一次迭代的打包数据元素方位相对应。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码（位），则存储发生，而如果未设置，则存储不发生。

图9图示了链式融合乘法累加指令的迭代执行的子集的实施例。特别地，这图示了目的地的一个打包数据元素方位的迭代的执行电路。在该实施例中，链式融合乘法累加在有符号源和无符号源上运算，其中累加器的大小是输入数据大小的4倍。

第一有符号源（源1 901）和第二无符号源（源2 903）均具有四个打包数据元素。这些打包数据元素中的每一个都具有诸如浮点或整数数据之类的数据。第三有符号源（初始值或结果915）具有打包数据元素，其中存储有符号数据。第一和第二源901和903的大小是第三有符号源915的四分之一。例如，第一和第二源901和903可以具有16位打包数据元素（例如，字），而第三有符号源915可以具有64位打包数据元素（例如，双精度浮点或64位整数）。

在该图示中，示出了第一和第二源901和903的四个最高有效打包数据元素方位以及第三有符号源915的最高有效打包数据元素方位。当然，如果有的话，还将处理其他打包数据元素方位。

如图示的，以四元组（quadruplet）的形式处理打包数据元素。例如，使用乘法器电路905将第一和第二源901和903的最高有效打包数据元素方位的数据相乘，使用乘法器电路907将来自第一和第二源901和903的第二最高有效打包数据元素方位的数据相乘，使用乘法器电路909将来自第一和第二源901和903的第三最高有效打包数据元素方位的数据相乘，并且使用乘法器电路911将来自第一和第二源901和903的最低有效打包数据元素方位的数据相乘。在一些实施例中，第一源901的有符号打包数据元素是符号扩展的，并且第二源903的无符号打包数据元素在乘法之前是零扩展的。

在一些实施例中，这些乘法器电路905-911被重用于其他打包数据元素方位。在其他实施例中，使用附加的乘法器电路，以便并行处理打包数据元素。在一些上下文中，使用作为有符号第三源915的大小的通道来完成并行执行。使用加法电路911添加每一个乘法的结果。

将乘法结果的相加结果添加到来自有符号源3 915的最高有效打包数据元素方位的数据中（使用不同的加法器913或相同的加法器911）。

最后，将第二次加法的结果919存储到打包数据元素方位中的有符号目的地中，该打包数据元素方位与从有符号第三源915中使用的或者传递给下一次迭代的打包数据元素方位相对应。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码（位），则存储发生，并且如果未设置，则存储不发生。

图10图示了链式融合乘法累加指令的迭代执行的子集的实施例。特别地，这图示了目的地的一个打包数据元素方位的迭代的执行电路。在该实施例中，链式融合乘法累加在有符号源和无符号源上运算，其中累加器的大小是输入数据大小的4倍。

第一有符号源（有符号源1元素1001）和第二无符号源（无符号源2元素1003）均具有四个打包数据元素。这些打包数据元素中的每一个都存储诸如浮点或整数数据之类的数据。第三有符号源（初始或先前结果1015）具有打包数据元素，其中存储有符号数据。第一和第二源1001和1003的大小是第三有符号源（初始或先前结果1015）的四分之一。例如，第一和第二源1001和1003可以具有16位打包数据元素（例如，字），而第三有符号源1015可以具有64位打包数据元素（例如，双精度浮点或64位整数）。

在该图示中，示出了第一和第二源1001和1003的四个最高有效打包数据元素方位以及第三有符号源1015的最高有效打包数据元素方位。当然，如果有的话，还将处理其他打包数据元素方位。

如图示的，以四元组的形式处理打包数据元素。例如，使用乘法器电路1005将第一和第二源1001和1003的最高有效打包数据元素方位的数据相乘，使用乘法器电路1007将来自第一和第二源1001和1003的第二最高有效打包数据元素方位的数据相乘，使用乘法器电路1009将来自第一和第二源1001和1003的第三最高有效打包数据元素方位的数据相乘，并且使用乘法器电路1011将来自第一和第二源1001和1003的最低有效打包数据元素方位的数据相乘。在一些实施例中，第一源1001的有符号打包数据元素是符号扩展的，并且第二源1003的无符号打包数据元素在乘法之前是零扩展的。

在一些实施例中，这些乘法器电路1005-1011被重用于其他打包数据元素方位。在其他实施例中，使用附加的乘法器电路，以便并行处理打包数据元素。在一些上下文中，使用作为有符号第三源1015的大小的通道来完成并行执行。使用加法器/饱和1013电路将乘法结果的相加结果添加到来自有符号源3 1015的最高有效打包数据元素方位的数据。

当加法导致对于有符号饱和而言过大或过小的值时，加法/饱和（累加器）电路1013保留操作数的符号。特别地，饱和评估发生在多路添加与写入到目的地之间的无限精度结果上。当累加器1013是浮点并且输入项是整数时，乘积之和以及浮点累加器输入值就变成无限精度值（具有数百个位的定点数），实行乘法结果与第三输入的相加，并且实行对实际累加器类型的单次舍入。

将加法和饱和检查的结果1019存储到打包数据元素方位中的有符号目的地中，该打包数据元素方位与从有符号第三源1015中使用的或者传递给下一次迭代的打包数据元素方位相对应。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码（位），则存储发生，并且如果未设置，则存储不发生。

图11图示了根据实施例的二次幂大小的SIMD实现方式，其中累加器使用比对于乘法器的输入更大的输入大小。注意的是，源（对于乘法器）和累加器值可以是有符号值或无符号值。对于具有2倍输入大小的累加器（换言之，累加器输入值的大小是源的打包数据元素大小的两倍），表格1101图示了不同的配置。对于字节大小的源，累加器使用16位大小的字或半精度浮点（HPFP）值。对于字大小的源，累加器使用32位大小的32位整数或单精度浮点（SPFP）值。对于SPFP或32位整数大小的源，累加器使用64位大小的64整数或双精度浮点（DPFP）值。

对于具有4倍输入大小的累加器（换言之，累加器输入值的大小是源的打包数据元素大小的四倍），表格1103图示了不同的配置。对于字节大小的源，累加器使用32位大小的32位整数或单精度浮点（SPFP）值。对于字大小的源，在一些实施例中，累加器使用64位大小的64位整数或双精度浮点（DPFP）值。

对于具有8倍输入大小的累加器（换言之，累加器输入值的大小是源的打包数据元素大小的八倍），表格1105图示了配置。对于字节大小的源，累加器使用64位整数。

如前所述，矩阵运算电路可以被包括在核心中，或者作为外部加速器。图12图示了利用矩阵运算电路的系统的实施例。在该图示中，多个实体与环形互连1245耦合。

多个核心1201、1203、1205和1207提供非基于图块的指令支持。在一些实施例中，在核心1203中提供矩阵运算电路1251，并且在其他实施例中，可在环形互连1245上访问矩阵运算电路1211和1213。

附加地，提供一个或多个存储器控制器1223-1225以代表核心和/或矩阵运算电路来与存储器1233和1231通信。

图13图示了支持使用图块的矩阵运算的处理器核心流水线的实施例。分支预测和解码电路1303根据存储在指令存储1301中的指令来实行指令的分支预测、指令的解码和/或两者。例如，可以将本文中详述的指令存储在指令存储中。在一些实现方式中，单独的电路被用于分支预测，并且在一些实施例中，使用微代码1305将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1303。合适机制的示例包括但不限于查找表、硬件实现方式、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。

分支预测和解码电路1303被耦合到分配/重命名电路1307，该分配/重命名电路1307在一些实施例中被耦合到调度器电路1309。在一些实施例中，这些电路通过实行以下各项中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能：1）将逻辑操作数值重命名成物理操作数值（例如，在一些实施例中是寄存器别名表），2）将状态位和标志分配给经解码的指令，以及3）调度经解码的指令，以便在指令池外的执行电路上执行（例如，在一些实施例中使用保留站）。

调度器电路1309表示任何数量的不同调度器，包括保留站、中央指令窗口等。调度器电路1309耦合到或包括（一个或多个）物理寄存器堆1315。（一个或多个）物理寄存器堆1315中的每一个表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如，作为下一条要执行的指令的地址的指令指针）、图块等。在一个实施例中，（一个或多个）物理寄存器堆1315包括：向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器以及通用寄存器。（一个或多个）物理寄存器堆1315与退出（retirement）电路1317重叠，以例示其中可以实现寄存器重命名和无序执行的各种方式（例如，使用（一个或多个）重排序缓冲器和（一个或多个）退出寄存器堆；使用（一个或多个）未来文件、（一个或多个）历史缓冲器和（一个或多个）退出寄存器堆；使用寄存器映射和寄存器池；等等）。将退出电路1317和（一个或多个）物理寄存器堆1315耦合到执行电路1311。

虽然寄存器重命名是在无序执行的上下文中来描述的，但是应该理解的是，可以在有序架构中使用寄存器重命名。虽然图示的处理器的实施例还可以包括单独的指令和数据高速缓存单元以及共享的L2高速缓存单元，但是替换的实施例可以具有用于指令和数据二者的单个内部高速缓存，诸如例如，1级（L1）内部高速缓存或多级内部高速缓存。在一些实施例中，系统可以包括内部高速缓存和在核心和/或处理器之外的外部高速缓存的组合。替换地，全部的高速缓存都可以在核心和/或处理器之外。

执行电路1311是一组一个或多个执行电路，包括标量电路1321、向量/SIMD电路1323和矩阵运算电路1327，以及存储器访问电路1325。执行电路1321、1323和1327实行各种运算（例如，移位、加法、减法、乘法）以及在各种类型的数据（例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点）上实行。虽然一些实施例可以包括专用于具体功能或功能组的许多执行单元，但是其他实施例可以仅包括一个执行单元或全部实行全部功能的多个执行单元。标量电路1321实行标量运算，向量/SIMD电路1323实行向量/SIMD运算，并且矩阵运算电路1327实行本文中详述的矩阵（图块）运算。

作为示例，示例性寄存器重命名、无序发布/执行核心架构可以如下实现流水线：1）指令取指电路实行取指和长度解码阶段；2）分支和解码电路1303实行解码阶段；3）重命名/分配器电路1307实行分配阶段和重命名阶段；4）调度器电路1309实行调度阶段；5）（一个或多个）物理寄存器堆（耦合到或包括在调度器电路1309和重命名/分配电路1307中）和存储器单元实行寄存器读取/存储器读取阶段；执行电路1311实行执行阶段；6）存储器单元和（一个或多个）物理寄存器堆（一个或多个）单元实行写回/存储器写入阶段；7）各个单元可能涉及异常处理阶段；以及8）退出单元和（一个或多个）物理寄存器堆（一个或多个）单元实行提交阶段。

核心可以支持一个或多个指令集（例如，x86指令集（具有已经添加有较新版本的一些扩展）；加利福尼亚州桑尼维尔市MIPS科技公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集（具有可选的附加扩展，诸如NEON）），包括本文中描述的（一个或多个）指令。在一个实施例中，核心1390包括用以支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，从而允许使用打包数据来实行许多多媒体应用程序所使用的运算。

应该理解的是，核心可以支持多线程（执行两个或多个并行运算或线程集），并且可以用各种各样的方式这样做，该方式包括时间分片多线程、同时多线程（其中单个物理核心为物理核心是同时多线程的每一个线程提供逻辑核心）或其组合（例如，诸如在Intel®超线程技术中，时间分片取指和解码以及此后的同时多线程）。

图14图示了支持使用图块的矩阵运算的处理器核心流水线的实施例。分支预测和解码电路1403根据存储在指令存储1401中的指令将来实行指令的分支预测、指令的解码和/或两者。例如，可以将本文中详述的指令存储在指令存储中。在一些实现方式中，单独的电路被用于分支预测，并且在一些实施例中，使用微代码1405将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1403。合适机制的示例包括但不限于查找表、硬件实现方式、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。

分支预测和解码电路1403被耦合到重命名/分配器电路1407，该重命名/分配器电路1407在一些实施例中被耦合到调度器电路1409。在一些实施例中，这些电路通过实行以下各项中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能：1）将逻辑操作数值重命名成物理操作数值（例如，一些实施例中是寄存器别名表），2）将状态位和标志分配给经解码的指令，以及3）调度经解码的指令，以便在指令池外的执行电路上执行（例如，在一些实施例中使用保留站）。

调度器电路1409表示任何数量的不同调度器，包括保留站、中央指令窗口等。（一个或多个）调度器单元调度器电路1409被耦合到或包括（一个或多个）物理寄存器堆1415。（一个或多个）物理寄存器堆1415中的每一个表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如，作为下一条要执行的指令的地址的指令指针）、图块等。在一个实施例中，（一个或多个）物理寄存器堆1415包括向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。（一个或多个）物理寄存器堆1415与退出电路1417重叠，以例示其中可以实现寄存器重命名和无序执行的各种方式（例如，使用（一个或多个）重排序缓冲器和（一个或多个）退出寄存器堆；使用（一个或多个）未来文件、（一个或多个）历史缓冲器和（一个或多个）退出寄存器堆；使用寄存器映射和寄存器池；等等）。将退出电路1417和（一个或多个）物理寄存器堆1415耦合到（一个或多个）执行电路1411。

虽然寄存器重命名是在无序执行的上下文中描述的，但是应该理解的是，可以在有序架构中使用寄存器重命名。虽然图示的处理器的实施例还可以包括单独的指令和数据高速缓存单元以及共享的L2高速缓存单元，但是替换的实施例可以具有用于指令和数据二者的单个内部高速缓存，诸如例如，1级（L1）内部高速缓存或多级内部高速缓存。在一些实施例中，系统可以包括内部高速缓存和在核心和/或处理器之外的外部高速缓存的组合。替换地，全部的高速缓存都可以在核心和/或处理器之外。

执行电路1411是一组一个或多个执行电路1427和一组一个或多个存储器访问电路1425。执行电路1427实行本文中详述的矩阵（图块）运算。

作为示例，示例性寄存器重命名、无序发布/执行核心架构可以如下实现流水线：1）指令取指电路实行取指和长度解码阶段；2）分支和解码电路1403实行解码阶段；3）重命名/分配器电路1407实行分配阶段和重命名阶段；4）调度器电路1409实行调度阶段；5）（一个或多个）物理寄存器堆（耦合到或包括在调度器电路1407和重命名/分配电路1407中）和存储器单元实行寄存器读取/存储器读取阶段；执行电路1411实行执行阶段；6）存储器单元和（一个或多个）物理寄存器堆（一个或多个）单元实行写回/存储器写入阶段；7）各个单元可能涉及异常处理阶段；以及8）退出单元和（一个或多个）物理寄存器堆（一个或多个）单元实行提交阶段。

核心可以支持一个或多个指令集（例如，x86指令集（具有已经添加有较新版本的一些扩展）；加利福尼亚州桑尼维尔市MIPS科技公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集（具有可选的附加扩展，诸如NEON）），包括本文中描述的（一个或多个）指令。在一个实施例中，核心1490包括用以支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，从而允许使用打包数据来实行许多多媒体应用程序所使用的运算。

B.布局

遍及该描述，使用行主序数据布局来表达数据。列主序的用户应当根据其取向翻译术语。图15图示了以行主序格式和以列主序格式表达的矩阵的示例。如所示的，矩阵A是2×3矩阵。当该矩阵以行主序格式存储时，行的数据元素是连续的。当该矩阵以列主序格式存储时，列的数据元素是连续的。A^T*B^T =（BA）^T是矩阵的公知属性，其中上标T意指转置。将列主序数据读取为行主序数据导致矩阵看起来像转置矩阵。

在一些实施例中，在硬件中利用行主序语义，并且列主序数据要交换操作数次序，其结果是矩阵的转置，但是对于从存储器读取的随后的列主序而言，它是正确的非转置矩阵。

例如，如果有两个列主序矩阵要相乘：

输入矩阵将被存储在线性存储器（列主序）中，如：

将那些矩阵读取为行主序的，其中维数为2×3和3×2，它们将表现为：

交换次序并且矩阵相乘：

输出转置矩阵，并且然后可以按行主序次序存储该转置矩阵：

并且将其用于随后的列主序计算，它是正确的非转置矩阵：

。

示例性使用

图16图示了矩阵（图块）的使用的示例。在该示例中，矩阵C 1601包括两个图块，矩阵A1603包括一个图块，并且矩阵B 1605包括两个图块。该图示出了用以计算矩阵乘法的算法的内回路的示例。在该示例中，来自矩阵C 1601的两个结果图块tmm0和tmm1被用来累积中间结果。来自A矩阵1603（tmm2）的一个图块被重复使用两次，因为它与来自B矩阵1605的两个图块相乘。指针要从箭头指示的方向加载新的A图块和两个新的B图块。外回路（未示出）调整针对C图块的指针。

如所示的示例性代码包括图块配置指令的使用，并且被执行以配置图块使用、加载图块、用以处理图块的回路、将图块存储到存储器以及释放图块使用。

图17图示了矩阵（图块）的使用的实施例。在1701处，配置图块使用。例如，执行TILECONFIG指令来配置图块使用，包括设置每个图块的行数和列数。通常，在1703处，从存储器加载至少一个矩阵（图块）。在1705处，使用矩阵（图块）来实行至少一个矩阵（图块）运算。在1707处，将至少一个矩阵（图块）存储到存储器外面，并且在1709处，可以发生上下文切换。

示例性配置

图块配置硬件支持

如上面讨论的，通常需要在使用之前配置图块使用。例如，可能不需要完全使用全部行和列。在一些实施例中，不仅不配置这些行和列节省功率，而且配置可以被用来确定运算是否将生成错误。例如，如果M和L不相同，则形式（N×M）*（L×N）的矩阵乘法通常不起作用。

在使用利用图块的矩阵之前，在一些实施例中，要配置图块支持。例如，配置每个图块（要使用的图块等）有多少行和列。TILECONFIG指令是对计算机本身的改善，因为它提供了对配置计算机以使用矩阵加速器（作为处理器核心的一部分或者作为外部设备）的支持。特别地，执行TILECONFIG指令使得从存储器中检索配置，并将其应用于矩阵加速器内的矩阵（图块）设置。

图块使用配置

图18图示了根据实施例的对使用图块的配置的支持。存储器1801包含要支持的矩阵（图块）的描述1803。

处理器/核心1805的执行电路1811将图块描述1803的方面存储到图块配置1817中。图块配置1817详述了为调色板所配置的图块（每个图块中的行数和列数）以及矩阵支持正在使用中的标记。特别地，指令执行资源1811被配置成使用如图块配置1817所指定的图块。指令执行资源还可以包括机器专用寄存器或配置寄存器以指示图块使用。还设置了诸如正在使用中之类的附加值和起始值。图块配置1817利用一个或多个寄存器1819来存储图块使用和配置信息。

图19图示了要支持的矩阵（图块）的描述的实施例。这是在执行STTILECFG指令时要存储的描述。在该示例中，每个字段都是一个字节。在字节[0]中，存储了调色板ID 1901。调色板ID被用来索引调色板表格1813，该调色板表格1813按照调色板ID存储了图块中的字节数，以及如由配置定义的那样与该ID相关联的图块的每行字节数。

字节1存储要存储在“startRow”寄存器1903中的值，而字节2存储要存储在“startP”寄存器1905中的值。为了支持在这些事件之后重新启动指令，指令将信息存储在这些寄存器中。为了支持在诸如上面详述的中断事件之后重新启动指令，指令将信息存储在这些寄存器中。startRow值指示了应该用于重新启动的行。startP值指示了当使用对（pair）时用于存储操作的行内的方位，并且在一些实施例中，指示行的下半部分（在对的较低图块中）或行的上半部分（在对的较高图块中）。通常，不需要行（列）中的方位。

除TILECONFIG和STTILECFG外，成功执行矩阵（图块）指令将会将startRow和startP二者都设置成零。

在未重新启动中断矩阵（图块）指令的任何时候，软件都有责任将startRow和startP值归零。例如，未掩蔽的浮点异常处理程序可能决定在软件中完成运算，并且将程序计数器值更改成另一条指令，通常是下一条指令。在这种情况下，在恢复程序之前，软件异常处理程序必须将操作系统呈现给它的异常中的startRow和startP值归零。随后，操作系统将使用恢复指令重新加载那些值。

字节3存储图块1907的对（每个图块1b）的指示。

字节16-17存储图块0的行数1913和列数1915，字节18-19存储图块1的行数和列数等。换言之，每个2字节组指定图块的行数和列数。如果不使用2个字节的组来指定图块参数，那么它们的值应该为零。为超过实现方式限制或调色板限制的多个图块指定图块参数会导致错误。未配置的图块被设置成具有0行0列的初始状态。

最后，存储器中的配置通常以结束描绘结束，诸如几个连续字节全为零。

示例性图块和图块配置存储

图20（A）-（D）图示了（一个或多个）寄存器1819的示例。图20（A）图示了多个寄存器1819。如所示的，每个图块（TMM0 2001……TMMN 2003）具有单独的寄存器，其中每个寄存器存储针对该特定图块的行和列大小。StartP和StartRow被存储在单独的寄存器2011和2013中。设置一个或多个状态寄存器2015（例如，TILES_CONFIGURED = 1）来指示图块被配置以供使用。

图20（B）图示了多个寄存器1819。如所示的，每个图块针对其行和列具有单独的寄存器。例如，TMM0行配置2021，TMM0列配置2023，StartP和StartRow被存储在单独的寄存器2011和2013中。设置一个或多个状态寄存器2015（例如，TILES_CONFIGURED = 1）以指示图块被配置以供使用。

图20（C）图示了单个寄存器1819。如所示的，该寄存器存储图块配置（每个图块的行和列）2031、StartP 2011和StartRow 2013，它们作为打包数据寄存器被存储在单个寄存器中。设置一个或多个状态寄存器2015（例如，TILES_CONFIGURED = 1）以指示图块被配置以供使用。

图20（D）图示了多个寄存器1819。如所示的，单个寄存器存储图块配置（每个图块的行和列）2031。StartP和StartRow被存储在单独的寄存器2011和2013中。设置一个或多个状态寄存器2015（例如，TILES_CONFIGURED = 1）以指示图块被配置以供使用。

设想其他组合，诸如将起始寄存器组合到单独显示的单个寄存器中，等等。

索引生成以及源

所公开的实施例描述了用于通过排序顺序生成来实行索引并且基于索引来对元素进行重新排序的指令。如下面详述的，在一些实施例中，响应于单个指令来实行索引生成和重新排序，而在其他实施例中，利用至少两个指令。

在一些实施例中，通过排序和重新排序来使用索引可以增加射线轨迹的相邻射线（即，更有可能被分组到SIMD向量/翘曲（warp）中的那些）将通过物理空间采取相同路径的机会。因此，随着它们的进展被追踪，这些射线有可能击中相同的对象，使用相同的纹理等，这可以改善存储器位置和分支散度。

图21图示了执行单个索引排序和对指令进行重新排序的实施例。在该图示中，索引排序和重新排序指令（操作码助记符indexsortreorder）包括：用以标识目的地位置和源位置的字段。目的地和源均要存储向量（向量寄存器的内容或者存储器位置）。图中所示的电路2103和2107中的一个或多个可以是矩阵运算电路（诸如本文中详述的）、向量/simd电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）的一部分。

源2101向索引电路2103提供数据元素的向量。索引电路2103生成源的排序值的索引2105。可以使用诸如基于比较的几种方法来实行索引2105的生成（诸如使用利用大于、大于或等于、等于、小于以及小于或等于的一个或多个比较）。在其他图中详述了基于比较的方法的示例。（一个或多个）比较的（一种或多种）类型可以由操作码、在立即数中等来设置。

排列电路2107接收索引2105并且基于索引2105来排列源2101的值。如所示的，源2101的数据元素0具有值13。数据元素0（对应的数据元素方位）处的索引2105具有值0，其指示排列电路将13存储在目的地2109的数据元素0处。根据索引将源2101的其他值排列到目的地2109。注意的是，在一些实施例中，源2101的字节顺序、索引2105和2109是不同的。

图22图示了执行单个索引排序指令和单个重新排序指令的实施例。在该图示中，索引排序指令（操作码助记符indexsort）包括：用以标识目的地位置和源位置的字段。目的地和源均要存储向量（向量寄存器的内容或者存储器位置）。图中所示的电路2203和2207中的一个或多个可以是矩阵运算电路（诸如本文中详述的）、向量/simd电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）的一部分。

源2201向索引电路2203提供数据元素的向量。索引电路2203生成存储在目的地2205中的源的排序值的索引2105。可以使用诸如基于比较的几种方法（诸如使用利用大于、大于或等于、等于、小于以及小于或等于的一个或多个比较）来实行索引的生成。在其他图中详述了基于比较的方法的示例。（一个或多个）比较的（一种或多种）类型可以由操作码、在立即数中等来设置。

重新排序指令（操作码助记符reorder）包括：用以标识目的地位置和两个源位置的字段。目的地和源均要存储向量（向量寄存器的内容或者存储器位置）。图中所示的电路2203和2207中的一个或多个可以是矩阵运算电路（诸如本文中详述的）、向量/simd电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）的一部分。

排列电路2207接收源2211，该源2211是存储在目的地2205中的索引，并且基于索引来排列源2246的值（源2201的相同值，或者与源2201相同的源）。如所示的，源2246的数据元素0具有值13。数据元素0（对应的数据元素方位）处的索引具有值0，其指示排列电路将13存储在目的地2209的数据元素0处。根据索引将源2246的其他值排列到目的地2209。注意的是，在一些实施例中，（一个或多个）源2201、2221、2246的字节顺序；以及目的地2205和2209是不同的。

图23图示了用以生成索引的电路的实施例。如所示的，比较电路2303将输入2301（先前两个图的源）的每个元素与其自身以及输入2301的其他元素进行比较。在一些实施例中，比较电路2303是流水线化ALU的网格。比较可以是多种类型之一，包括但不限于：大于、大于或等于、等于、小于以及小于或等于。在该示例中，比较全是大于。当为真时，结果为1，而当为假时，结果为0。将每个比较的结果求和以生成存储在索引2305中的索引值。如所示的，数据元素方位0存储13并且13小于或等于任何的元素，并且因此每个比较都为假，并且四个0的总和是0，并且作为该数据元素方位的索引来存储0。比较的类型可以由操作码、在立即数中等来设置。

图24图示了用以生成索引的电路的实施例。如所示的，比较电路2403将输入2401（先前两个图的源）的每个元素与其自身以及输入2401的其他元素进行比较。在一些实施例中，比较电路2403是流水线化ALU的网格。比较可以是多种类型之一，包括但不限于：大于、大于或等于、等于、小于以及小于或等于。

在该示例中，实行大于的第一比较（参见垂直散列线（hashed line））。当为真时，结果为1，而当为假时，结果为0。将每个比较的结果求和以生成存储在索引2405中的索引值。如所示的，数据元素方位0存储13并且13不大于任何的元素，并且因此每个比较为假，并且四个0的总和是0，并且作为该数据元素位置的索引来存储0。

不幸的是，有时候两个或多个总和是相同的，并且进行附加的比较（在水平散列线中示出并且在该示例中为大于等于）。对于任何两个被排序的元素，都有两个比较。在该示例的其中一个测试中，存在针对元素1>元素2的测试，并且在另一种情况下，我们针对元素2>=元素1进行测试。在平局中，这些中的一个将为真，而另一个将为假。

如所示的，存在两个17。最左边17的列将看到针对其他17的失败的“>”测试，而最右边的17将看到针对另一个17的成功的“>=”。比较的类型可以由操作码、在立即数中等来设置。

示例性方法

图36图示了处理单指令的实施例。处理可以由矩阵运算电路（诸如本文中详述的）、向量/simd电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个来整个或部分地实行。

在3601处，取指电路获取指令。该指令包括：用以标识源向量的位置的第一字段；用以标识目的地向量位置的第二字段；以及操作码，用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素与其自身以及源向量的其他元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于索引来排列源向量的元素的值，并且存储经排列的值来进行。

在3603处，解码电路解码取指的指令。经解码的指令被用来配置执行电路以执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在3605处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在3607处，使用执行电路来执行经解码的指令（诸如微指令）从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素与其自身以及源向量的其他元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于索引来排列源向量的元素的值，并且将经排列的值存储在目的地向量中来进行。

在一些实施例中，在3609处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图37图示了处理单指令的实施例。处理可以由矩阵运算电路（诸如本文中详述的）、向量/simd电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在3701处，取指电路获取指令。该指令包括：用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过为源向量的每个元素生成索引值，并且基于元素的索引值将源向量的元素的值排列到目的地向量中来进行。

在3703处，解码电路解码取指的指令。经解码的指令被用来配置执行电路以执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在3705处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在3707处，使用执行电路来执行经解码的指令（诸如微指令）来对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过为源向量的每个元素生成索引值，并且基于元素的索引值将源向量的元素的值排列到目的地向量中来进行。

在一些实施例中，在3709处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图38图示了处理单指令的实施例。处理可以由矩阵运算电路（诸如本文中详述的）、向量/SIMD电路（诸如本文中详述的）或协处理器（诸如能够执行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在3801处，取指电路获取指令。该指令包括：用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过使用一个或多个比较而为源向量的每个元素生成索引值来进行。

在3803处，解码电路解码取指的指令。经解码的指令被用来配置执行电路来执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在3805处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在3807处，使用执行电路来执行经解码的指令（诸如微指令）从而对源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过使用一个或多个比较而为源向量的每个元素生成索引值来进行。

在一些实施例中，在3809处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图39图示了处理单指令的实施例。处理可以由矩阵运算电路（诸如本文中详述的）、向量/SIMD电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在3901处，取指电路获取指令。该指令包括：用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过为源向量的每个元素生成索引值来进行。

在3903处，解码电路解码取指的指令。经解码的指令被用来配置执行电路以执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在3905处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在3907处，使用执行电路来执行经解码的指令（诸如微指令）从而对源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过为源向量的每个元素生成索引值来进行。

在一些实施例中，在3909处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图40图示了处理单指令的实施例。处理可以由矩阵运算电路（诸如本文中详述的）、向量/SIMD电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在4001处，取指电路获取指令。该指令包括：用以标识第一源向量位置的第一字段、用以标识目的地向量位置的第二字段、用以标识第二源向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而基于存储在第二源向量中的索引来排列第一源向量的元素的值，并且将排列的结果存储在目的地向量中。

在4003处，解码电路解码取指的指令。经解码的指令被用来配置执行电路来执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在4005处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在4007处，使用执行电路来执行经解码的指令（诸如微指令）从而基于存储在第二源向量中的索引来排列第一源向量的元素的值，并且将排列的结果存储在目的地向量中。

在一些实施例中，在4009处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图41图示了处理单指令的实施例。该处理可以由矩阵运算电路（诸如本文中详述的）、向量/SIMD电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在4101处，取指电路获取指令。该指令包括：用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且基于元素的索引值来排列元素的值并将其存储到目的地向量中来进行。

在4103处，解码电路解码取指的指令。经解码的指令被用来配置执行电路以执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在4105处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在4107处，使用执行电路来执行经解码的指令（诸如微指令）从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且基于元素的索引值对元素的值进行排列并将其存储到目的地向量中来进行。

在一些实施例中，在4109处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

图42图示了处理单指令的实施例。该处理可以由矩阵运算电路（诸如本文中详述的）、向量/SIMD电路（诸如本文中详述的）或协处理器（诸如能够实行光栅化或射线跟踪的GPU）中的一个或多个整个或部分地实行。

在4201处，取指电路获取指令。该指令包括：用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令，从而使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且将生成的索引值存储在目的地向量的对应元素方位中。

在4203处，解码电路解码取指的指令。经解码的指令被用来配置执行电路以执行经解码的指令从而实行上面详述的动作。在一些实施例中，解码包括：生成一个或多个微操作。注意的是，由于此指令以前不存在，因此不存在能够以将允许执行电路适当执行上述动作的方式来解码此指令的解码电路。

在4205处，（根据需要）调度经解码的指令的执行，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在4207处，使用执行电路来执行经解码的指令（诸如微指令），以使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且将生成的索引值存储在目的地向量的对应元素方位中。

在一些实施例中，在4209处，提交或退出经执行的指令，在其可以在不同时间发生或者根本不发生的范围内，这是可选步骤（如由其虚线边框所指示的）。

在一些实施例中，索引排序和/或索引排序和排列指令对大小为n的向量v实行元素序数次序或其他次序的比较。例如，

。

在一些实施例中，索引排序和/或索引排序和排列指令以按位的方式来生成比较掩码（即

）。

在一些实施例中，索引排序和/或索引排序和排列指令突出显示对res [i-1]的某种依赖性，使用它来解决比如说“返回大于其他向量中元素的第一元素的索引（即，

）”这样的情况。

详细的示例性系统、处理器和仿真

本文中详述的是用以执行上述指令的硬件、软件等的示例。例如，下面描述的内容详述了指令执行的各个方面，包括各种流水线阶段，诸如取指、解码、调度、执行、退出等。

指令集

指令集可以包括一个或多个指令格式。给定的指令格式可以定义各种字段（例如，位数、位的位置），以指定除了别的以外的要实行的运算（例如，操作码）以及要对其实行该运算的（一个或多个）操作数和/或（一个或多个）其他数据字段（例如，掩码）。一些指令格式通过指令模板（或子格式）的定义而被进一步细分。例如，具有给定的指令格式的指令模板可以被定义成具有指令格式的字段的不同子集（所包括的字段通常次序相同，但是至少一些具有不同的位方位，因为包括有较少字段）和/或被定义成具有不同解释的给定字段。因此，ISA的每个指令使用给定的指令格式（并且，如果已定义，则以该指令格式的其中一个给定指令模板）来表达，并且包括用于指定运算和操作数的字段。例如，示例性ADD指令具有具体的操作码和指令格式，该指令格式包括：用以指定该操作码的操作码字段以及用以选择操作数（源1/目的地和源2）的操作数字段；并且在指令流中出现该ADD指令将在选择具体操作数的操作数字段中具有具体内容。已发行和/或公开了一组被称为高级向量扩展（AVX）（AVX1和AVX2）并使用向量扩展（VEX）编码方案的SIMD扩展（例如，参见2014年9月的Intel®64和IA-32架构软件开发人员手册；以及参见2014年10月的Intel®高级向量扩展编程参考）。

示例性指令格式

本文中描述的（一个或多个）指令的实施例可以用不同的格式体现。附加地，以下详细描述了示例性系统、架构和流水线。（一个或多个）指令的实施例可以在这样的系统、架构和流水线上执行，但不限于这些详述的系统、架构和流水线。

通用向量友好指令格式

向量友好指令格式是适合于向量指令的指令格式（例如，存在特定于向量运算的某些字段）。虽然描述了其中通过向量友好指令格式来支持向量和标量运算两者的实施例，但是替换的实施例仅使用向量友好指令格式的向量运算。

图25A-25B是图示了根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图25A是图示了根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图；而图25B是图示了根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地，为通用向量友好指令格式2500定义了A类和B类指令模板，两者都包括无存储器访问2505指令模板和存储器访问2520指令模板。在向量友好指令格式的上下文中，术语通用指代不与任何具体指令集连结的指令格式。

虽然将描述本发明的实施例，其中向量友好指令格式支持以下各项：具有32位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）（并且因此，64字节向量由16个双字大小的元素或者替换地8个四字大小的元素组成）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节向量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节向量操作数长度（或大小）；但是替换实施例可以支持具有更多、更少或不同的数据元素宽度（例如，128位（16字节）数据元素宽度）的更多、更少和/或不同的向量操作数大小（例如，256字节向量操作数）。

图25A中的A类指令模板包括：1）在无存储器访问2505指令模板内，示出有无存储器访问、完全舍入控制类型运算2510指令模板和无存储器访问、数据变换类型运算2515指令模板；以及2）在存储器访问2520指令模板内，示出有存储器访问、时态2525指令模板和存储器访问、非时态2530指令模板。图25B中的B类指令模板包括：1）在无存储器访问2505指令模板内，示出有无存储器访问、写掩码控制、部分舍入控制类型运算2512指令模板和无存储器访问、写掩码控制、vsize类型运算2517指令模板；以及2）在存储器访问2520指令模板内，示出有存储器访问、写掩码控制2527指令模板。

通用向量友好指令格式2500包括下面以图25A-25B中图示的次序列出的以下字段。

格式字段2540——该字段中的具体值（指令格式标识符值）唯一地标识向量友好指令格式，并且因此在指令流中出现以向量友好指令格式的指令。如此，在它对于仅具有通用向量友好指令格式的指令集来说并不需要的意义上，该字段是可选的。

基本运算字段2542——其内容区分不同的基本运算。

寄存器索引字段2544——其内容直接或通过地址生成来指定源和目的地操作数的位置，无论它们在寄存器中还是在存储器中。这些包括足够的位数来从P×Q（例如，32×512、16×128、32×1024、64×1024）寄存器堆中选择N个寄存器。虽然在一个实施例中，N可以是多达三个源和一个目的地寄存器，但是替换的实施例可以支持更多或更少的源和目的地寄存器（例如，可以支持多达两个源，其中这些源中的一个也充当目的地；可以支持多达三个源，其中这些源中的一个也充当目的地；可以支持多达两个源和一个目的地）。

修饰符字段2546——其内容区分指定存储器访问的以通用向量指令格式的指令的出现与不指定存储器访问的以通用向量指令格式的指令的出现；即，在无存储器访问2505指令模板与存储器访问2520指令模板之间。存储器访问操作读取和/或写入存储器层次结构（在一些情况下使用寄存器中的值来指定源和/或目的地地址），而非存储器访问操作则并不（例如，源和目的地是寄存器）。虽然在一个实施例中，该字段也在三种不同方式之间进行选择以实行存储器地址计算，但是替换的实施例可以支持更多、更少或不同的方式来实行存储器地址计算。

增强运算字段2550——其内容区分除了基本运算之外还要实行各种各样的不同运算中的哪一个运算。该字段是具体于上下文的。在本公开的一个实施例中，该字段被划分成类字段2568、α字段2552和β字段2554。增强运算字段2550允许在单指令而不是2、3或4个指令中实行运算的公共组。

缩放字段2560——其内容允许缩放索引字段的内容以用于存储器地址生成（例如，用于使用2^scale * index + base的地址生成）。

位移字段2562A——其内容被用作存储器地址生成的部分（例如，用于使用2^scale *index + base + displacement的地址生成）。

位移因子字段2562B（注意的是，直接在位移因子字段2562B上并置位移字段2562A指示使用了一个或另一个）——其内容被用作地址生成的部分；它指定了位移因子，该位移因子将按存储器访问的大小（N）进行缩放——其中N是存储器访问中的字节数（例如，用于使用2^scale * index + base + scaled displacement的地址生成）。忽略冗余低阶位，并且因此，位移因子字段的内容乘以存储器操作数总大小（N），以便生成要被用于计算有效地址的最终位移。N的值由处理器硬件在运行时基于完整操作码字段2574（在本文中之后描述）和数据调处字段2554C来确定。在位移字段2562A和位移因子字段2562B不被用于无存储器访问2505指令模板和/或不同的实施例可以仅实现两个之一或两个都不能实现的意义上，它们是可选的。

数据元素宽度字段2564——其内容区分要使用许多数据元素宽度中的哪一个宽度（在一些实施例中用于全部指令；在其他实施例中仅用于一些指令）。在如果仅支持一个数据元素宽度和/或使用操作码的某个方面来支持数据元素宽度则不需要该字段的意义上，该字段是可选的。

写掩码字段2570——其内容在每个数据元素方位的基础上控制目的地向量操作数中的数据元素方位是否反映了基本运算和增强运算的结果。A类指令模板支持归并-写掩蔽，而B类指令模板支持归并-写掩蔽和归零-写掩蔽二者。当归并时，向量掩码允许在执行（由基本运算和增强运算指定的）任何运算期间保护目的地中的任何元素集免于更新；在另一个实施例中，保留其中对应的掩码位具有0的目的地的每个元素的旧值。相反地，当归零时，向量掩码允许在执行（由基本运算和增强运算指定的）任何运算期间将目的地中的任何元素集归零；在一个实施例中，当对应的掩码位具有0值时，目的地的元素被设置成0。该功能的子集是用以控制正在实行的运算的向量长度（即，从第一个到最后一个被修改的元素的跨度）的能力；然而，所修改的元素不一定是连续的。因此，写掩码字段2570允许部分向量运算，包括加载、存储、算术、逻辑等。虽然描述了本发明的实施例，其中写掩码字段2570的内容选择包含要使用的写掩码的许多写掩码寄存器中的一个（并且因此，写掩码字段2570的内容间接地标识要实行的掩蔽），但是替换的实施例代替地或附加地允许写掩码字段2570的内容直接指定要实行的掩蔽。

立即数字段2572——其内容允许指定立即数。在其不存在于不支持立即数的通用向量友好格式的实现方式中，并且其不存在于不使用立即数的指令中的意义上，该字段是可选的。

类字段2568——其内容区分不同类的指令。参考图25A-B，该字段的内容在A类与B类指令之间进行选择。在图25A-B中，使用圆角正方形来指示字段中存在具体值（例如，在图25A-B中对于类字段2568分别为A类2568A和B类2568B）。

A类的指令模板

在A类的非存储器访问2505指令模板的情况下，α字段2552被解释为RS字段2552A，其内容区分要实行的不同的增强运算类型中的哪一个（例如，舍入2552A.1和数据变换2552A.2分别被指定用于无存储器访问、舍入类型运算2510和无存储器访问、数据变换类型运算2515指令模板），而β字段2554区分要实行具有指定类型的运算中的哪一个。在无存储器访问2505指令模板中，不存在缩放字段2560、位移字段2562A和位移缩放字段2562B。

无存储器访问指令模板——完全舍入控制类型运算

在无存储器访问完全舍入控制类型运算2510指令模板中，β字段2554被解释为舍入控制字段2554A，其（一个或多个）内容提供静态舍入。虽然在本发明的所述实施例中，舍入控制字段2554A包括抑制全部浮点异常（SAE）字段2556和舍入运算控制字段2558，但是替换的实施例可以支持可以将这些概念编码到同一字段中或仅具有这些概念/字段中的一个或另一个（例如，可以仅具有舍入运算控制字段2558）。

SAE字段2556——其内容区分是否禁用异常事件报告；当SAE字段2556的内容指示已启用抑制时，给定的指令不会报告任何种类的浮点异常标志，并且也不会引发任何浮点异常处理程序。

舍入运算控制字段2558——其内容区分要实行一组舍入运算中的哪一个（例如，向上舍入、向下舍入、向零舍入和就近舍入）。因此，舍入运算控制字段2558允许在每个指令的基础上改变舍入模式。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入运算控制字段2550的内容覆盖该寄存器值。

无存储器访问指令模板——数据变换类型运算

在无存储器访问数据变换类型运算2515指令模板中，β字段2554被解释为数据变换字段2554B，其内容区分要实行许多数据变换中的哪一个（例如，无数据变换、混写（swizzle）、广播）。

在A类的存储器访问2520指令模板的情况下，α字段2552被解释为逐出提示字段2552B，其内容区分要使用哪一个逐出提示（在图25A中，时态2552B.1和非时态2552B.2分别被指定用于存储器访问、时态2525指令模板和存储器访问、非时态2530指令模板），而β字段2554被解释为数据调处字段2554C，其内容区分要实行许多数据调处运算（也被称为基元）中的哪一个（例如，无调处；广播；源的上转换以及目的地的下转换）。存储器访问2520指令模板包括缩放字段2560，并且可选地包括位移字段2562A或位移缩放字段2562B。

向量存储器指令在具有转换支持的情况下实行来自存储器的向量加载和到存储器的向量存储。与常规向量指令一样，向量存储器指令以逐数据元素的方式从/向存储器传送数据，其中实际传送的元素由被选择为写掩码的向量掩码的内容规定。

存储器访问指令模板——时态

时态数据是有可能很快被重新使用以受益于高速缓存的数据。然而，这是一个提示，并且不同的处理器可以用不同的方式实现它，包括完全忽略提示。

存储器访问指令模板——非时态

非时态数据是不太可能被很快重新使用以受益于第一级高速缓存中的高速缓存的数据，并且应该被优先逐出。然而，这是一个提示，并且不同的处理器可以用不同的方式实现它，包括完全忽略提示。

B类的指令模板

在B类的指令模板的情况下，α字段2552被解释为写掩码控制（Z）字段2552C，其内容区分由写掩码字段2570控制的写掩蔽应该是归并还是归零。

在B类的非存储器访问2505指令模板的情况下，β字段2554的部分被解释为RL字段2557A，其内容区分要实行不同的增强运算类型中的哪一个（例如，舍入2557A.1和向量长度（VSIZE）2557A.2分别被指定用于无存储器访问、写掩码控制、部分舍入控制类型运算2512指令模板和无存储器访问、写掩码控制、VSIZE类型运算2517指令模板），而β字段2554的其余部分区分要实行指定类型的哪个运算。在无存储器访问2505指令模板中，不存在缩放字段2560、位移字段2562A和位移缩放字段2562B。

在无存储器访问、写掩码控制、部分舍入控制类型运算2510指令模板中，β字段2554的其余部分被解释为舍入运算字段2559A，并且禁用异常事件报告（给定指令不报告任何种类的浮点异常标志，并且也不会引发任何浮点异常处理程序）。

舍入运算字段2559A——就像舍入运算控制字段2558，其内容区分要实行一组舍入运算中的哪一个（例如，向上舍入、向下舍入、向零舍入和就近舍入）。因此，舍入运算控制字段2559A允许在每个指令的基础上改变舍入模式。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入运算控制字段2550的内容覆盖该寄存器值。

在无存储器访问、写掩码控制、VSIZE类型运算2517指令模板中，β字段2554的其余部分被解释为向量长度字段2559B，其内容区分要实行许多数据向量长度中的哪一个（例如，128、256或512字节）。

在B类的存储器访问2520指令模板的情况下，β字段2554的部分被解释为广播字段2557B，其内容区分是否要实行广播类型数据调处运算，而β字段2554的其余部分被解释为向量长度字段2559B。存储器访问2520指令模板包括缩放字段2560，并且可选地包括位移字段2562A或位移缩放字段2562B。

关于通用向量友好指令格式2500，示出了完整操作码字段2574，其包括格式字段2540、基本运算字段2542和数据元素宽度字段2564。虽然示出了一个实施例，其中完整操作码字段2574包括全部的这些字段，但是在不支持全部这些字段的实施例中，完整操作码字段2574包括的字段少于全部这些字段。完整操作码字段2574提供运算代码（操作码）。

增强运算字段2550、数据元素宽度字段2564和写掩码字段2570允许以通用向量友好指令格式在每个指令的基础上指定这些特征。

写掩码字段和数据元素宽度字段的组合创建类型化的指令，因为它们允许基于不同的数据元素宽度来应用掩码。

在A类和B类内找到的各种指令模板在不同情况下是有益的。在本发明的一些实施例中，处理器内的不同处理器或不同核心可以仅支持A类，仅支持B类或两类都支持。例如，意图用于通用计算的高性能通用无序核心可能仅支持B类，主要意图用于图形和/或科学（吞吐量）计算的核心可能仅支持A类，并且意图用于二者的核心可以支持两者（当然，具有来自两个类的模板和指令而非来自两个类的全部模板和指令的某种混合的核心在本发明的范围内）。而且，单个处理器可以包括多个核心，全部的核心都支持相同的类，或者其中不同的核心支持不同的类。例如，在具有单独的图形核心和通用核心的处理器中，主要意图用于图形和/或科学计算的图形核心之一可能仅支持A类，而通用核心中的一个或多个可以是具有无序执行和寄存器重命名的高性能通用核心，其意图用于仅支持B类的通用计算。不具有单独的图形核心的另一处理器可能包括支持A类和B类两者的一个更通用的有序或无序核心。当然，在本发明的不同实施例中，来自一个类的特征也可以在另一个类中实现。用高级语言编写的程序将被放进（例如，仅及时编译或静态编译）各种各样不同的可执行形式，包括：1）仅具有由目标处理器支持的（一个或多个）类的指令以供执行的形式；或者2）具有使用全部类的指令的不同组合编写的替换例程并且具有基于当前正在执行代码的处理器所支持的指令来选择要执行的例程的控制流程代码的形式。

示例性具体向量友好指令格式

图26A是图示了根据本发明的实施例的示例性具体向量友好指令格式的框图。图26A示出了具体向量友好指令格式2600，其在它指定字段的位置、大小、解释和顺序，以及这些字段中的一些字段的值的意义上是具体的。具体向量友好指令格式2600可以被用来扩展x86指令集，并且因此一些字段与现有x86指令集及其扩展（例如，AVX）中使用的字段类似或相同。该格式与前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段以及具有扩展的现有x86指令集的立即数字段保持一致。图示了将图26A中的字段映射到其中的图25中的字段。

应该理解的是，虽然出于例示的目的，在通用向量友好指令格式2500的上下文中参照具体向量友好指令格式2600描述了本发明的实施例，但是本发明不限于具体向量友好指令格式2600，除了要求保护的地方之外。例如，通用向量友好指令格式2500设想各种字段的各种各样可能的大小，而具体向量友好指令格式2600被示出为具有具体大小的字段。通过具体示例，虽然数据元素宽度字段2564在具体向量友好指令格式2600中被例示为一位字段，但是本发明不限于此（即，通用向量友好指令格式2500设想数据元素宽度字段2564的其他大小）。

通用向量友好指令格式2500包括下面以图26A中图示的次序列出的以下字段。

EVEX前缀（字节0-3）2602——以四字节形式编码。

格式字段2540（EVEX字节0，位[7：0]）——第一字节（EVEX字节0）是格式字段2540，并且它包含0x62（在本发明的一个实施例中，被用于区分向量友好指令格式的唯一值）。

第二-第四字节（EVEX字节1-3）包括提供具体能力的许多位字段。

REX字段2605（EVEX字节1，位[7-5]）——由EVEX.R位字段（EVEX字节1，位[7] -R）、EVEX.X位字段（EVEX字节1，位[6]-X）和2557BEX字节1，位[5]-B）组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能，并且使用1s补码形式进行编码，即，将ZMM0编码为1111B，将ZMM15编码为0000B。指令的其他字段对寄存器索引的较低三位进行编码，如本领域中已知的（rrr、xxx和bbb），使得可以通过添加EVEX.R、EVEX.X和EVEX.B来形成Rrrr、Xxxx和Bbbb。

REX'字段2510——这是REX'字段2510的第一部分，并且是EVEX.R'位字段（EVEX字节1，位[4]-R'），其被用来编码经扩展的32寄存器组的较高的16个或较低的16个。在本发明的一个实施例中，该位以及如下面指示的其他位被以位反转格式存储，以区别于（以公知的x86 32位模式）实际操作码字节为62的BOUND指令，但是在（下面描述的）MOD R/M字段中不接受MOD字段中的值11；本发明的替换实施例不以反转的格式存储该位和下面的其他指示位。1值被用来编码较低的16个寄存器。换言之，R'Rrrr是通过组合EVEX.R'、EVEX.R和来自其他字段的其他RRR而形成的。

操作码映射字段2615（EVEX字节1，位[3：0]-mmmm）——其内容对隐含的前导操作码字节（0F、0F 38或0F 3）进行编码。

数据元素宽度字段2564（EVEX字节2，位[7]-W）——由符号EVEX.W表示。EVEX.W被用来定义数据类型（32位数据元素或64位数据元素）的粒度（大小）。

EVEX.vvvv 2620（EVEX字节2，位[6：3]-vvvv）——EVEX.vvvv的作用可以包括以下各项：1）EVEX.vvvv对第一源寄存器操作数进行编码，以反转的（1s补码）形式来指定，并且对具有2个或更多个源操作数的指令有效；2）EVEX.vvvv对目的地寄存器操作数进行编码，以用于某些向量移位的1s补码形式来指定；或者3）EVEX.vvvv不对任何操作数进行编码，该字段被保留并且应该包含1111b。因此，EVEX.vvvv字段2620对以反转的（1s补码）形式存储的第一源寄存器说明符的4个低阶位进行编码。取决于指令，额外不同的EVEX位字段被用来将说明符大小扩展成32个寄存器。

EVEX.U 2568类字段（EVEX字节2，位[2]-U）——如果EVEX.U = 0，则其指示A类或EVEX.U0；如果EVEX.U = 1，则其指示B类或EVEX.U1。

前缀编码字段2625（EVEX字节2，位[1：0]-pp）——为基本运算字段提供附加位。除了以EVEX前缀格式提供对遗留SSE指令的支持之外，这还具有压缩SIMD前缀的益处（而不是需要字节来表达SIMD前缀，EVEX前缀仅需要2位）。在一个实施例中，为了支持以遗留格式和以EVEX前缀格式二者来使用SIMD前缀（66H、F2H、F3H）的遗留SSE指令，将这些遗留SIMD前缀编码到SIMD前缀编码字段中；并且在提供给解码器的PLA之前，在运行时将其扩展到遗留SIMD前缀（因此PLA可以执行这些遗留指令的遗留和EVEX格式二者而无需修改）。虽然较新的指令可以直接使用EVEX前缀编码字段的内容作为操作码扩展，但是某些实施例以类似的方式扩展以保持一致性，但允许这些遗留SIMD前缀指定不同的含义。替换的实施例可以重新设计PLA以支持2位SIMD前缀编码，并且因此不需要扩展。

α字段2552（EVEX字节3，位[7]-EH；也被称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制以及EVEX.N；也用α例示）——如前所述，该字段是具体于上下文的。

β字段2554（EVEX字节3，位[6：4]-SSS，也被称为EVEX.s_2-0、EVEX.r_{2_0}、EVEX.rr1、EVEX.LL0、EVEX.LLB；也用βββ例示）——如前所述，该字段是具体于上下文的。

REX'字段2510——这是REX'字段的剩余部分，并且是EVEX.V'位字段（EVEX字节3，位[3]-V'），其可以被用来编码经扩展的32寄存器组的较高的16个或较低的16个。该位以位反转格式存储。1值被用来对较低的16个寄存器进行编码。换言之，V'VVVV通过组合EVEX.V、EVEX.vvvv来形成。

写掩码字段2570（EVEX字节3，位[2：0]-kkk）——其内容指定如前所述的写掩码寄存器中的寄存器的索引。在本发明的一个实施例中，具体值EVEX.kkk = 000具有特殊行为，其暗示没有对特定指令使用写掩码（这可以通过各种各样的方式实现，包括使用硬连线至全部硬件或绕过掩蔽硬件的硬件的写掩码）。

实操作码字段2630（字节4）也被称为操作码字节。在该字段中指定操作码的部分。

MOD R/M字段2640（字节5）包括：MOD字段2642、Reg字段2644和R/M字段2646。如前所述，MOD字段2642的内容区分存储器访问操作与非存储器访问操作。Reg字段2644的作用可以被概括成两种情况：编码目的地寄存器操作数或源寄存器操作数，或者被视为操作码扩展而不被用来编码任何指令操作数。R/M字段2646的作用可以包括以下各项：对引用存储器地址的指令操作数进行编码，或者对目的地寄存器操作数或源寄存器操作数进行编码。

缩放、索引、基本（SIB）字节（字节6）——如前所述，缩放字段2550的内容被用于存储器地址生成。SIB.xxx 2654和SIB.bbb 2656——这些字段的内容先前已经关于寄存器索引Xxxx和Bbbb而被提到。

位移字段2562A（字节7-10）——当MOD字段2642包含10时，字节7-10是位移字段2562A，并且其工作方式与遗留32位位移（disp32）相同并且以字节粒度进行工作。

位移因子字段2562B（字节7）——当MOD字段2642包含01时，字节7是位移因子字段2562B。该字段的位置与遗留x86指令集8位位移（disp8）的位置相同，后者以字节粒度进行工作。因为disp8是符号扩展的，它只能够解决-128到127个字节之间的偏移；就64字节高速缓存行而言，disp8使用8位，其可被设置成仅4个真正有用的值-128、-64、0和64；因为经常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32相反，位移因数字段2562B是disp8的重新解释；当使用位移因子字段2562B时，实际位移由位移因子字段的内容乘以存储器操作数访问的大小（N）来确定。这种类型的位移被称为disp8*N。这减少了平均指令长度（被用于位移的单个字节，但具有大得多的范围）。这样的压缩位移假定有效位移是存储器访问的粒度的倍数，并且因此，不需要对地址偏移的冗余低阶位进行编码。换言之，位移因子字段2562B代替遗留x86指令集8位位移。因此，位移因子字段2562B以与x86指令集8位位移相同的方式进行编码（因此Mod RM/SIB编码规则没有改变），其中唯一的例外是将disp8重载到disp8*N。换言之，编码规则或编码长度没有改变，而只是硬件对位移值的解释有改变（这需要按照存储器操作数的大小来缩放位移，以获得按字节的地址偏移）。立即数字段2572如前所述地进行运算。

完整操作码字段

图26B是图示了根据本发明的一个实施例的构成完整操作码字段2574的具体向量友好指令格式2600的字段的框图。具体地，完整操作码字段2574包括：格式字段2540、基本运算字段2542和数据元素宽度（W）字段2564。基本运算字段2542包括：前缀编码字段2625、操作码映射字段2615以及实操作码字段2630。

寄存器索引字段

图26C是图示了根据本发明的一个实施例的构成寄存器索引字段2544的具体向量友好指令格式2600的字段的框图。具体地，寄存器索引字段2544包括：REX字段2605、REX'字段2610、MODR/M.reg字段2644、MODR/M.r/m字段2646、VVVV字段2620、xxx字段2654以及bbb字段2656。

增强运算字段

图26D是图示了根据本发明的一个实施例的构成增强运算字段2550的具体向量友好指令格式2600的字段的框图。当类（U）字段2568包含0时，它表示EVEX.UO（A类2568A）；当它包含1时，它表示EVEX.Ul（B类2568B）。当U=0且MOD字段2642包含11（表示无存储器访问操作）时，α字段2552（EVEX字节3，位[7]-EH）被解释为rs字段2552A。当rs字段2552A包含1（舍入2552A.1）时，β字段2554（EVEX字节3，位[6：4]-SSS）被解释为舍入控制字段2554A。舍入控制字段2554A包括：一位SAE字段2556和两位舍入运算字段2558。当rs字段2552A包含0（数据变换2552A.2）时，β字段2554（EVEX字节3，位[6：4]-SSS）被解释为三位数据变换字段2554B。当U=0且MOD字段2642包含00、01或10（表示存储器访问操作）时，α字段2552（EVEX字节3，位[7]-EH）被解释为逐出提示（EH）字段2552B，并且β字段2554（EVEX字节3，位[6：4]-SSS）被解释为三位数据调处字段2554C。

当U=1时，α字段2552（EVEX字节3，位[7]-EH）被解释为写掩码控制（Z）字段2552C。当U=1并且MOD字段2642包含11（表示无存储器访问操作）时，β字段2554（EVEX字节3，位[4]-S₀）的部分被解释为RL字段2557A；当它包含1（舍入2557A.1）时，β字段2554的其余部分（EVEX字节3，位[6-5]-S_2-1）被解释为舍入运算字段2559A，而当RL字段2557A包含0（VSIZE2557.A2）时，β字段2554的其余部分（EVEX字节3，位[6-5]-S_2-1）被解释为向量长度字段2559B（EVEX字节3，位[6-5]-L_1-0）。当U=1且MOD字段2642包含00、01或10（表示存储器访问操作）时，β字段2554（EVEX字节3，位[6：4]-SSS）被解释为向量长度字段2559B（EVEX字节3，位[6-5]-L_1-0）和广播字段2557B（EVEX字节3，位[4]-B）。

示例性寄存器架构

图27是根据本发明的一个实施例的寄存器架构2700的框图。在例示的实施例中，有32个宽度为512位的向量寄存器2710；这些寄存器被引用为zmmO至zmm31。较低的16个zmm寄存器的低阶256位覆盖在寄存器ymmO-16上。较低的16个zmm寄存器的低阶128位（ymm寄存器的低阶128位）覆盖在寄存器xmm0-15上。具体向量友好指令格式2600对这些覆盖的寄存器堆进行运算，如下表中例示的。

换言之，向量长度字段2559B在最大长度与一个或多个其他较短长度之间进行选择，其中每个这样的较短长度是在前长度的一半长度；并且没有向量长度字段2559B的指令模板对最大向量长度进行运算。另外，在一个实施例中，具体向量友好指令格式2600的B类指令模板对打包或标量单/双精度浮点数据和打包或标量整数数据进行运算。标量运算是对zmm/ymm/xmm寄存器中的最低阶数据元素方位实行的运算；高阶数据元素方位与它们在指令之前的方位保持相同或者被归零，这取决于实施例。

写掩码寄存器2715——在例示的实施例中，存在8个写掩码寄存器（k0至k7），每个大小为64位。在替换的实施例中，写掩码寄存器2715的大小为16位。如前所述，在本发明的一个实施例中，向量掩码寄存器k0不能被用作写掩码；当通常指示k0的编码被用于写掩码时，它选择0xFFFF的硬连线写掩码，从而有效地禁用针对该指令的写掩蔽。

通用寄存器2725——在例示的实施例中，存在十六个64位通用寄存器，它们与现有的x86寻址模式一起用来对存储器操作数进行寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8至R15来引用。

标量浮点堆栈寄存器堆（x87堆栈）2745，其上别名为MMX打包整数平面寄存器堆2750——在例示的实施例中，x87堆栈是被用来使用x87指令集扩展对32/64/80位浮点数据实行标量浮点运算的八元素堆栈；而MMX寄存器被用来对64位打包整数数据实行运算，以及保存在MMX与XMM寄存器之间实行的一些运算的操作数。

本发明的替换实施例可以使用较宽或较窄的寄存器。附加地，本发明的替换实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性核心架构、处理器和计算机架构

可以用不同的方式、出于不同的目的并且在不同的处理器中实现处理器核心。例如，这样的核心的实现方式可以包括：1）意图用于通用计算的通用有序核心；2）意图用于通用计算的高性能通用无序核心；3）主要意图用于图形和/或科学（吞吐量）计算的专用核心。不同的处理器的实现方式可以包括：1）CPU，其包括意图用于通用计算的一个或多个通用有序核心和/或意图用于通用计算的一个或多个通用无序核心；以及2）协处理器，其包括主要意图用于图形和/或科学（吞吐量）的一个或多个专用核心。这样的不同处理器导致不同的计算机系统架构，其可以包括：1）在与CPU分离的芯片上的协处理器；2）在与CPU同一封装内的单独管芯上的协处理器；3）在与CPU同一管芯上的协处理器（在这种情况下，这样的协处理器有时被称为专用逻辑，诸如集成图形和/或科学（吞吐量）逻辑，或者作为专用核心）；以及4）片上系统，其可以在同一管芯上包括所描述的CPU（有时被称为（一个或多个）应用程序核心或（一个或多个）应用程序处理器）、上述协处理器以及附加的功能。接下来描述示例性核心架构，继之以描述示例性处理器和计算机架构。

示例性核心架构

有序和无序核心框图

图28A是图示了根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图。图28B是图示了根据本发明的实施例的有序架构核心的示例性实施例和被包括在处理器中的示例性寄存器重命名、无序发布/执行架构核心二者的框图。图28A-B中的实线框图示了有序流水线和有序核心，而虚线框的可选添加图示了寄存器重命名、无序发布/执行流水线和核心。考虑到有序方面是无序方面的子集，所以将描述无序方面。

在图28A中，处理器流水线2800包括：取指阶段2802、长度解码阶段2804、解码阶段2806、分配阶段2808、重命名阶段2810、调度（也被称为分派或发布）阶段2812、寄存器读取/存储器读取阶段2814、执行阶段2816、回写/存储器写入阶段2818、异常处理阶段2822和提交阶段2824。

图28B示出了处理器核心2890，其包括耦合到执行引擎单元2850的前端单元2830，并且两者都耦合到存储器单元2870。核心2890可以是精简指令集计算（RISC）核心、复杂指令集计算（CISC）核心、超长指令字（VLIW）核心，或者混合或替换的核心类型。作为又另一选项，核心2890可以是专用核心，诸如例如，网络或通信核心、压缩引擎、协处理器核心、通用计算图形处理单元（GPGPU）核心、图形核心等等。

前端单元2830包括：耦合到指令高速缓存单元2834的分支预测单元2832，该指令高速缓存单元2834耦合到指令转换后备缓冲器（TLB）2836，该指令转换后备缓冲器（TLB）2836耦合到指令取指单元2838，该指令取指单元2838耦合到解码单元2840。解码单元2840（或解码器）可以解码指令，并且生成作为输出的一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号，该其他控制信号从原始指令解码或以其他方式反映原始指令或从原始指令派生。可以使用各种不同的机制来实现解码单元2840。合适机制的示例包括但不限于查找表、硬件实现方式、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。在一个实施例中，核心2890包括：微代码ROM或其他介质，其存储用于某些宏指令的微代码（例如，在解码单元2840中或以其它方式在前端单元2830内）。将解码单元2840耦合到执行引擎单元2850中的重命名/分配器单元2852。

执行引擎单元2850包括：重命名/分配器单元2852，其耦合到退出单元2854和一组一个或多个调度器单元2856。（一个或多个）调度器单元2856表示任何数量的不同的调度器，包括保留站、中央指令窗口等。将（一个或多个）调度器单元2856耦合到（一个或多个）物理寄存器堆（一个或多个）单元2858。（一个或多个）物理寄存器堆单元2858中的每一个表示一个或多个物理寄存器堆，其中的不同物理寄存器堆存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如，作为下一条要执行的指令的地址的指令指针）等。在一个实施例中，（一个或多个）物理寄存器堆单元2858包括：向量寄存器单元、写掩码寄存器单元以及标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器以及通用寄存器。（一个或多个）物理寄存器堆（一个或多个）单元2858与退出单元2854重叠，以例示可以实现寄存器重命名和无序执行的各种方式（例如，使用（一个或多个）重排序缓冲器和（一个或多个）退出寄存器堆；使用（一个或多个）未来文件、（一个或多个）历史缓冲器和（一个或多个）退出寄存器堆；使用寄存器映射和寄存器池；等）。将退出单元2854和（一个或多个）物理寄存器堆（一个或多个）单元2858耦合到（一个或多个）执行集群2860。（一个或多个）执行集群2860包括：一组一个或多个执行单元2862和一组一个或多个存储器访问单元2864。执行单元2862可以实行各种运算（例如，移位、加法、减法、乘法）并且对各种类型的数据（例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点）实行运算。虽然一些实施例可以包括专用于具体功能或功能组的许多执行单元，但是其他实施例可以仅包括一个执行单元或实行全部功能的多个执行单元。（一个或多个）调度器单元2856、（一个或多个）物理寄存器堆（一个或多个）单元2858和（一个或多个）执行集群2860被示为可能是复数，因为某些实施例为某些类型的数据/运算创建单独的流水线（例如，标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线，和/或存储器访问流水线，其均具有其自己的调度器单元、（一个或多个）物理寄存器堆单元和/或执行集群——并且在单独的存储器访问流水线的情况下，实现了某些实施例，其中只有该流水线的执行集群具有（一个或多个）存储器访问单元2864）。还应该理解的是，在使用单独的流水线的情况下，这些流水线中的一个或多个可以是无序的发布/执行而其余的是有序的。

将该组存储器访问单元2864耦合到存储器单元2870，该存储器单元2870包括与耦合到2级（L2）高速缓存单元2876的数据高速缓存单元2874耦合的数据TLB单元2872。在一个示例性实施例中，存储器访问单元2864可以包括加载单元、存储地址单元和存储数据单元，其中的每一个耦合到存储器单元2870中的数据TLB单元2872。将指令高速缓存单元2834进一步耦合到存储器单元2870中的2级（L2）高速缓存单元2876。将L2高速缓存单元2876耦合到一个或多个其他级别的高速缓存并且最终耦合到主存储器。

作为示例，示例性寄存器重命名、无序发布/执行核心架构可以如下来实现流水线2800：1）指令取指2838实行取指和长度解码阶段2802和2804；2）解码单元2840实行解码阶段2806；3）重命名/分配器单元2852实行分配阶段2808和重命名阶段2810；4）（一个或多个）调度器单元2856实行调度阶段2812；5）（一个或多个）物理寄存器堆（一个或多个）单元2858和存储器单元2870实行寄存器读取/存储器读取阶段2814；执行集群2860实行执行阶段2816；6）存储器单元2870和（一个或多个）物理寄存器堆（一个或多个）单元2858实行写回/存储器写入阶段2818；7）各个单元可能涉及异常处理阶段2822；以及8）退出单元2854和（一个或多个）物理寄存器堆（一个或多个）单元2858实行提交阶段2824。

核心2890可以支持一个或多个指令集（例如，x86指令集（具有已经添加有较新版本的一些扩展）；加利福尼亚州桑尼维尔市MIPS科技公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集（具有可选的附加扩展，诸如NEON）），包括本文中描述的（一个或多个）指令。在一个实施例中，核心2890包括：用以支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，从而允许使用打包数据来实行许多多媒体应用程序所使用的运算。

应该理解的是，核心可以支持多线程（执行两个或多个并行的运算或线程集），并且可以用各种各样的方式来这样做，包括时间分片多线程、同时多线程（其中单个物理核心为物理核心是同时多线程的每一个线程提供逻辑核心）或其组合（例如，诸如在Intel®超线程技术中，时间分片取指和解码以及此后的同时多线程）。

虽然寄存器重命名是在无序执行的上下文中描述的，但是应该理解的是，可以在有序架构中使用寄存器重命名。虽然图示的处理器的实施例还包括单独的指令和数据高速缓存单元2834/2874和共享的L2高速缓存单元2876，但是替换的实施例可以具有用于指令和数据二者的单个内部高速缓存，诸如例如，1级（L1）内部高速缓存或多个级别的内部高速缓存。在一些实施例中，系统可以包括内部高速缓存和在核心和/或处理器之外的外部高速缓存的组合。替换地，全部的高速缓存都可以在核心和/或处理器之外。

具体示例性有序核心架构

图29A-B图示了更具体的示例性有序核心架构的框图，该核心将是芯片中的几个逻辑块（包括相同类型和/或不同类型的其他核心）中的一个。逻辑块通过高带宽互连网络（例如，环形网络）与一些固定功能逻辑、存储器I/O接口和其他必要的IO逻辑进行通信，这取决于应用程序。

图29A是根据本发明的实施例的单处理器核心以及其与管芯上互连网络2902的连接以及其2级（L2）高速缓存2904的本地子集的框图。在一个实施例中，指令解码器2900支持具有打包数据指令集扩展的x86指令集。L1高速缓存2906允许低延迟访问以将存储器高速缓存到标量和向量单元中。虽然在一个实施例中（为了简化设计），标量单元2908和向量单元2910使用单独的寄存器组（分别为标量寄存器2912和向量寄存器2914），并且将它们之间传送的数据写入到存储器并且然后从1级（L1）高速缓存2906中读回，本发明的替换实施例可以使用不同的方法（例如，使用单个寄存器组或者包括允许数据在两个寄存器堆之间传送而不被写入和读回的通信路径）。

L2高速缓存2904的本地子集是全局L2高速缓存的部分，该全局L2高速缓存被划分成单独的本地子集，每个处理器核心一个。每个处理器核心具有到其自己的L2高速缓存2904的本地子集的直接访问路径。将由处理器核心读取的数据存储在处理器核心的L2高速缓存子集2904中，并且可以与访问其自己的本地L2高速缓存子集的其他处理器核心并行地快速访问。将由处理器核心写入的数据存储在处理器核心自己的L2高速缓存子集2904中，并在必要时从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的，以允许诸如处理器核心、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径在每个方向上的宽度为1012位。

图29B是根据本发明的实施例的图29A中的处理器核心的部分的展开视图。图29B包括：L1高速缓存2904的L1数据高速缓存2906A部分，以及关于向量单元2910和向量寄存器2914的更多细节。具体地，向量单元2910是16宽向量处理单元（VPU）（参见16宽ALU 2928），其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持利用混写单元2920对寄存器输入进行混写，利用数字转换单元2922A-B进行数字转换，以及利用复制单元2924在存储器输入上进行复制。写掩码寄存器2926允许预测所产生的向量写入。

图30是根据本发明的实施例的可以具有多于一个核心，可以具有集成存储器控制器并且可以具有集成图形的处理器3000的框图。图30中的实线框图示了具有单核3002A、系统代理3010、一组一个或多个总线控制器单元3016的处理器3000，而虚线框的可选添加图示了具有多个核心3002A-N、系统代理单元3010中的一组一个或多个集成存储器控制器单元3014以及专用逻辑3008的替换处理器3000。

因此，处理器3000的不同实现方式可以包括：1）具有是集成图形和/或科学（吞吐量）逻辑的专用逻辑3008的CPU（其可以包括一个或多个核心），并且核心3002A-N是一个或多个通用核心（例如，通用有序核心、通用无序核心、两者的组合）；2）具有核心3002A-N的协处理器，该核心3002A-N是主要意图用于图形和/或科学（吞吐量）的大量专用核心；以及3）具有核心3002A-N的协处理器，该核心3002A-N是大量通用有序核心。因此，处理器3000可以是通用处理器、协处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量多集成核心（MIC）协处理器（包括30个或更多个核心）、嵌入式处理器等等。处理器可以在一个或多个芯片上实现。处理器3000可以是一个或多个衬底的一部分，和/或可以使用许多处理技术（诸如例如，BiCMOS、CMOS或NMOS）中的任何技术在一个或多个衬底上实现。

存储器层次结构包括：核心内的一级或多级高速缓存、一组或一个或多个共享高速缓存单元3006，以及耦合到该组集成存储器控制器单元3014的外部存储器（未示出）。该组共享高速缓存单元3006可以包括一个或多个中级高速缓存（诸如2级（L2）、3级（L3）、4级（L4）或其他级别的高速缓存）、末级高速缓存（LLC）和/或其组合。虽然在一个实施例中，基于环形的互连单元3012将集成图形逻辑3008（集成图形逻辑3008是专用逻辑的示例，并且在本文中也被称为专用逻辑）、该组共享高速缓存单元3006和系统代理单元3010/（一个或多个）集成存储器控制器单元3014，但是替换的实施例可以使用任何数量的公知技术来互连这样的单元。在一个实施例中，在一个或多个高速缓存单元3006与核心3002A-N之间保持一致性。

在一些实施例中，核心3002A-N中的一个或多个能够进行多线程。系统代理3010包括：协调和操作核心3002A-N的那些组件。系统代理单元3010可以包括例如电源控制单元（PCU）和显示单元。PCU可以是或可以包括调节核心3002A-N和集成图形逻辑3008的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

就架构指令集而言，核心3002A-N可以是同构的或异构的；即，核心3002A-N中的两个或多个可以能够执行相同的指令集，而其他核心可能只能够执行该指令集的子集或不同的指令集。

示例性计算机架构

图31-34是示例性计算机架构的框图。用于膝上型计算机、台式机、手持式PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器（DSP）、图形设备、视频游戏设备、机顶盒、微控制器、手机、便携式媒体播放器、手持设备和各种其他电子设备的本领域已知的其他系统设计和配置也是合适的。一般而言，能够合并如本文中公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般是合适的。

现在参考图31，示出了根据本发明的一个实施例的系统3100的框图。系统3100可以包括耦合到控制器中枢3120的一个或多个处理器3110、3115。在一个实施例中，控制器中枢3120包括：图形存储器控制器中枢（GMCH）3190和输入/输出中枢（IOH）3150（其可以在单独的芯片上）；GMCH 3190包括：与存储器3140和协处理器3145耦合的存储器和图形控制器；IOH 3150将输入/输出（I/O）设备3160耦合到GMCH 3190。替换地，将存储器和图形控制器中的一个或两个集成在处理器内（如本文中所述的），将存储器3140和协处理器3145直接耦合到处理器3110，并且控制器中枢3120与IOH 3150在单一芯片中。

附加处理器3115的可选性质在图31中用虚线表示。每个处理器3110、3115可以包括本文中描述的处理核心中的一个或多个，并且可以是某个版本的处理器3000。

存储器3140可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）或两者的组合。对于至少一个实施例，控制器中枢3120经由诸如前端总线（FSB）之类的多点总线、诸如快速路径互连（QPI）之类的点对点接口或类似的连接3195与（一个或多个）处理器3110、3115通信。

在一个实施例中，协处理器3145是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中，控制器中枢3120可以包括集成图形加速器。

在包括架构、微架构、热、功耗特性等等的一系列优点度量方面，物理资源3110、3115之间可能存在各种各样的差异。

在一个实施例中，处理器3110执行控制具有一般类型的数据处理运算的指令。嵌入在指令中的可以是协处理器指令。处理器3110将这些协处理器指令识别为具有应该由附接的协处理器3145执行的类型。因此，处理器3110将协处理器总线或其他互连上的这些协处理器指令（或表示协处理器指令的控制信号）发布到协处理器3145。（一个或多个）协处理器3145接受并执行接收到的协处理器指令。

现在参考图32，示出了根据本发明的实施例的第一更具体的示例性系统3200的框图。如图32所示，多处理器系统3200是点对点互连系统，并且包括经由点对点互连3250耦合的第一处理器3270和第二处理器3280。处理器3270和3280中的每一个可以是某个版本的处理器3000。在本发明的一个实施例中，处理器3270和3280分别是处理器3110和3115，而协处理器3238是协处理器3145。在另一实施例中，处理器3270和3280分别是处理器3110、协处理器3145。

处理器3270和3280被示为分别包括集成存储器控制器（IMC）单元3272和3282。处理器3270还包括作为其总线控制器单元的部分的点对点（P-P）接口3276和3278；类似地，第二处理器3280包括P-P接口3286和3288。处理器3270、3280可以使用P-P接口电路3278、3288经由点对点（P-P）接口3250来交换信息。如图32所示，IMC 3272和3282将处理器耦合到相应的存储器，即存储器3232和存储器3234，它们可以是本地附接到相应处理器的主存储器的部分。

处理器3270、3280可以均使用点对点接口电路3276、3294、3286、3298经由各个P-P接口3252、3254来与芯片组3290交换信息。芯片组3290可以可选地经由高性能接口3292与协处理器3238交换信息。在一个实施例中，协处理器3238是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。

共享高速缓存（未示出）可以被包括在处理器中或者在两个处理器外部，但还经由PP互连与处理器连接，使得如果将处理器置于低功耗模式，则一个或两个处理器的本地高速缓存信息可以存储在共享高速缓存中。

芯片组3290可以经由接口3296耦合到第一总线3216。在一个实施例中，第一总线3216可以是外围组件互连（PCI）总线，或者是诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图32所示，各种I/O设备3214以及总线桥3218可以耦合到第一总线3216，该总线桥3218将第一总线3216耦合到第二总线3220。在一个实施例中，将一个或多个附加处理器3215（诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如，图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或者任何其他处理器）耦合到第一总线3216。在一个实施例中，第二总线3220可以是低引脚数（LPC）总线。在一个实施例中，可以将各种设备耦合到第二总线3220，该设备包括例如键盘和/或鼠标3222、通信设备3227和存储单元3228，诸如磁盘驱动器或可以包括指令/代码和数据3230的其他大容量存储设备。另外，可以将音频I/O 3224耦合到第二总线3220。注意的是，其他架构是可能的。例如，代替图32的点对点架构，系统可以实现多点总线或其他这样的架构。

现在参考图33，示出了根据本发明的实施例的第二更具体的示例性系统3300的框图。图32和33中的相同元件具有相同的附图标记，并且图32的某些方面已从图33中省略，以避免模糊图33的其他方面。

图33图示了处理器3270、3280可以分别包括集成存储器和I/O控制逻辑（“CL”）3272和3282。因此，CL 3272、3282包括集成存储器控制器单元并且包括I/O控制逻辑。图33图示了不仅是存储器3232、3234耦合到CL 3272，3282，而且I/O设备3314也耦合到控制逻辑3272、3282。将遗留I/O设备3315耦合到芯片组3290。

现在参考图34，示出了根据本发明的实施例的SoC3400的框图。图30中的类似元件具有相同的附图标记。而且，虚线框是更高级SoC上的可选特征。在图34中，（一个或多个）互连单元3402耦合到：包括一组一个或多个核心3002A-N（其包括高速缓存单元3004A-N和（一个或多个）共享高速缓存单元3006）的应用处理器3410；系统代理单元3010；（一个或多个）总线控制器单元3016；（一个或多个）集成存储器控制器单元3014；一组或一个或多个协处理器3420，其可以包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM）单元3430；直接存储器存取（DMA）单元3432；以及用于耦合到一个或多个外部显示器的显示单元3440。在一个实施例中，（一个或多个）协处理器3420包括：专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。

本文中所公开的机制的实施例可以用硬件、软件、固件或这样的实现方法的组合来实现。本发明的实施例可以被实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备以及至少一个输出设备。

程序代码（诸如图32中图示的代码3230）可以被应用于输入指令以实行本文中描述的功能并且生成输出信息。可以用已知的方式将输出信息应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器（诸如例如，数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或微处理器）的任何系统。

程序代码可以用高级过程或面向对象的编程语言来实现，以与处理系统进行通信。如果需要，程序代码也可以用汇编语言或机器语言来实现。实际上，本文中描述的机制在范围上不限于任何特定编程语言。在任何情况下，语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现，该代表性指令表示处理器内的各种逻辑，当其由机器读取时使得机器制造逻辑以实行本文中描述的技术。可以将这样的被称为“IP核心”的表示存储在有形的机器可读介质上，并且提供给各种客户或制造设施，以加载到实际制成逻辑或处理器的制造机器中。

这样的机器可读存储介质可以包括但不限于由机器或设备制造或形成的制品的非暂时性有形布置，包括：存储介质，该存储介质诸如硬盘、包括软盘、光盘、紧凑盘只读存储器（CD-ROM）、可擦写型紧凑盘（CD-RW）和磁光盘的任何其他类型的磁盘；半导体器件，诸如只读存储器（ROM）、随机存取存储器（RAM），该随机存取存储器诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、可擦可编程只读存储器（EPROM）、闪速存储器、电可擦可编程只读存储器（EEPROM）、相变存储器（PCM）；磁卡或光学卡，或适合于存储电子指令的任何其他类型的介质。

因此，本发明的实施例还包括：非暂时性有形机器可读介质，其包含指令或包含设计数据，诸如硬件描述语言（HDL），其定义了本文中描述的结构、电路、装置、处理器和/或系统特征。这样的实施例也可以被称为程序产品。

仿真（包括二进制翻译、代码变形等）

在一些情况下，指令转换器可以别用来将指令从源指令集转换到目标指令集。例如，指令转换器可以翻译（例如，使用静态二进制翻译、包括动态编译的动态二进制翻译）、变形、仿真或以其他方式将指令转换为要被核心处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件或其组合来实现。指令转换器可以在处理器上、在处理器外，或者部分在处理器上并且部分在处理器外。

图35是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换为目标指令集中的二进制指令的框图。在图示的实施例中，指令转换器是软件指令转换器，但是替换地，指令转换器可以用软件、固件、硬件或其各种组合来实现。图35示出了可以使用x86编译器3504来编译的以高级语言3502的程序，以生成x86二进制代码3506，其可以由具有至少一个x86指令集核心的处理器3516本地执行。具有至少一个x86指令集核心的处理器3516表示下述任何处理器，其可以通过兼容地执行或以其他方式处理下述各项来实行与具有至少一个x86指令集核心的英特尔处理器基本相同的功能，以便实现与具有至少一个x86指令集核心的英特尔处理器基本相同的结果：（1）英特尔x86指令集核心的指令集的大部分，或（2）目标是在具有至少一个x86指令集核心的英特尔处理器上运行的目标代码版本的应用程序或其他软件。x86编译器3504表示可操作以生成x86二进制代码3506（例如，目标代码）的编译器，该x86二进制代码3506可以在具有或不具有附加链接处理的情况下在具有至少一个x86指令集核心的处理器3516上执行。类似地，图35示出了可以使用替换的指令集编译器3508来编译以高级语言3502的程序，以生成替换的指令集二进制代码3510，其可以由没有至少一个x86指令集核心的处理器3514（例如，具有执行加利福尼亚州桑尼维尔市的MIPS科技公司的MIPS指令集和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核心的处理器）本地地执行。指令转换器3512被用来将x86二进制代码3506转换成可以由没有x86指令集核心的处理器3514本地执行的代码。该经转换的代码不太可能与替换的指令集二进制代码3510相同，因为能够做到这一点的指令转换器难以制成；然而，经转换的代码将完成一般操作，并且由来自替换指令集的指令组成。因此，指令转换器3512表示软件、固件、硬件或其组合，其通过仿真、模拟或任何其他过程而允许不具有x86指令集处理器或核心的处理器或其他电子设备来执行x86二进制代码3506。

以下详述示例性实施例。

示例1. 一种处理器，其包括：

用以解码指令的解码电路，该指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素与自身以及与源向量的其他数据元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于元素的索引值来排列源向量的元素的值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例2. 示例1的处理器，其中指令是射线跟踪应用程序的一部分。

示例3. 示例1-2中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例4. 示例1-3中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例5. 示例1-3中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例6. 示例1-5中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例7. 示例1-6中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例8. 示例1-7中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例9. 示例1-7中的任一项的处理器，其中执行电路包括：用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例10. 一种方法，其包括：

对指令进行解码，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素与自身以及与源向量的其他数据元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于元素的索引值来排列源向量的元素的值来进行；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例11. 根据示例10的方法，其中指令是射线跟踪应用程序的一部分。

示例12. 示例10-11中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例13. 示例10-12中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例14. 示例10-12中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例15. 示例10-14中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例16. 示例10-15中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例17. 示例10-16中的任一项的方法，其中执行电路包括矩阵运算电路。

示例18. 示例10-16中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例19. 用以存储指令的非暂时性介质，其在由装置处理时要使得实行示例10-18中的任一项的方法。

示例20. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素与自身以及与源向量的其他数据元素的一个或多个比较而为源向量的每个元素生成索引值，并且基于元素的索引值来排列源向量的元素的值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例21. 一种处理器，其包括：用以解码指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过为源向量的每个元素生成索引值，并且基于元素的索引值来将源向量的元素的值排列到目的地向量中来进行，以及

执行电路，用以执行如由操作码指示的经编码的指令

示例22. 示例21的处理器，其中指令是射线跟踪应用程序的一部分。

示例23. 示例21-22中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例24. 示例21-23中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例25. 示例21-23中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例26. 示例21-25中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例27. 示例21-26中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例28. 示例21-27中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例29. 示例21-27中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例30. 一种方法，其包括：

对指令进行解码，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过为源向量的每个元素生成索引值，并且基于元素的索引值来将源向量的元素的值排列到目的地向量中来进行；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例31. 示例30的方法，其中指令是射线跟踪应用程序的一部分。

示例32. 示例30-31中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例33. 示例30-32中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例34. 示例30-32中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例35. 示例30-34中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例36. 示例30-35中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例37. 示例30-36中的任一项的方法，其中执行电路包括矩阵运算电路。

示例38. 示例30-36中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例39. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例30-38中的任一项的方法。

示例40. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过为源向量的每个元素生成索引值，并且基于元素的索引值来将源向量的元素的值排列到目的地向量中来进行；以及

用以执行如由操作码指示的经解码的指令的执行电路。

示例41. 一种处理器，其包括：

用以解码指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过使用一个或多个比较而为源向量的每个元素生成索引值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例42. 示例41的处理器，其中指令是射线跟踪应用程序的一部分。

示例43. 示例41-42中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例44. 示例41-43中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例45. 示例41-43中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例46. 示例41-45中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例47. 示例41-46中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例48. 示例41-47中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例49. 示例41-47中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例50. 一种方法，其包括：

对指令进行解码，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过使用一个或多个比较而为源向量的每个元素生成索引值来进行；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例51. 示例50的方法，其中指令是射线跟踪应用程序的一部分。

示例52. 示例50-51中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例53. 示例50-52中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例54. 示例50-52中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例55. 示例50-54中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例56. 示例50-55中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例57. 示例50-56中的任一项的方法，其中执行电路包括矩阵运算电路。

示例58. 示例50-56中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例59. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例50-58中的任一项的方法。

示例60. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过使用一个或多个比较而为源向量的每个元素生成索引值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例61. 一种处理器，其包括：

用以解码指令的解码电路，该指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过为源向量的每个元素生成索引值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例62. 示例61的处理器，其中指令是射线跟踪应用程序的一部分。

示例63. 示例61-62中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例64. 示例61-63中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例65. 示例61-63中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例66. 示例61-65中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例67. 示例61-66中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例68. 示例61-67中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例69. 示例61-67中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例70. 一种方法，其包括：

对指令进行解码，该指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过为源向量的每个元素生成索引值来进行；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例71. 示例70的方法，其中指令是射线跟踪应用程序的一部分。

示例72. 示例70-71中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例73. 示例70-72中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例74. 示例70-72中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例75. 示例70-74中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例76. 示例70-75中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例77. 示例70-76中的任一项的方法，其中执行电路包括矩阵运算电路。

示例78. 示例70-76中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例79. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例70-78中的任一项的方法。

示例80. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而为源向量的值编索引并且将索引化的结果存储在目的地向量中，该编索引和存储通过为源向量的每个元素生成索引值来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例81. 一种处理器，其包括：

用以解码指令的解码电路，该指令要包括用以标识第一源向量位置的第一字段、用以标识目的地向量位置的第二字段、用以标识第二源向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而基于存储在第二源向量中的索引来排列第一源向量的元素的值并且将排列的结果存储在目的地向量中；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例82. 示例81的处理器，其中指令是射线跟踪应用程序的一部分。

示例83. 示例81-82中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例84. 示例81-83中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例85. 示例81-83中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例86. 示例81-85中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例87. 示例81-86中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例88. 示例81-87中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例89. 示例81-87中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例90. 一种方法，其包括：

对指令进行解码，该指令要包括用以标识第一源向量位置的第一字段、用以标识目的地向量位置的第二字段、用以标识第二源向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而基于存储在第二源向量中的索引来排列第一源向量的元素的值并且将排列的结果存储在目的地向量中；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例91. 示例90的方法，其中指令是射线跟踪应用程序的一部分。

示例92. 示例90-91中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例93. 示例90-92中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例94. 示例90-92中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例95. 示例90-94中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例96. 示例90-95中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例97. 示例90-96中的任一项的方法，其中执行电路包括矩阵运算电路。

示例98. 示例90-96中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例99. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例90-98中的任一项的方法。

示例100. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线追踪应用程序的指令的解码电路，该指令要包括用以标识第一源向量位置的第一字段、用以标识目的地向量位置的第二字段、用以标识第二源向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而基于存储在第二源向量中的索引来排列第一源向量的元素的值并且将排列的结果存储在目的地向量中；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例101. 一种处理器，其包括：

用以解码指令的解码电路，该指令包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且基于元素的索引值来排列元素的值并将其存储到目的地向量中来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例102. 示例101的处理器，其中指令是射线跟踪应用程序的一部分。

示例103. 示例101-102中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例104. 示例101-103中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例105. 示例101-103中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例106. 示例101-105中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例107. 示例101-106中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例108. 示例101-107中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例109. 示例101-107中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例110. 一种方法，其包括：

对指令进行解码，该指令包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且基于元素的索引值来排列元素的值并将其存储到目的地向量中来进行；以及

使用执行电路将来执行如由操作码指示的经解码的指令。

示例111. 示例110的方法，其中指令是射线跟踪应用程序的一部分。

示例112. 示例110-111中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例113. 示例110-112中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例114. 示例110-112中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例115. 示例110-114中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例116. 示例110-115中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例117. 示例110-116中的任一项的方法，其中执行电路包括矩阵运算电路。

示例118. 示例110-116中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例119. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例110-118中的任一项的方法。

示例120. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而对源向量的值进行排序并且将排序的结果存储在目的地向量中，该排序和存储通过使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且基于元素的索引值来排列元素的值并将其存储到目的地向量中来进行；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例121.一种处理器，其包括：

用以解码指令的解码电路，该指令包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且将生成的索引值存储在目的地向量的对应元素方位中；以及

执行电路，用以执行如由操作码指示的经解码的指令。

示例122. 示例121的处理器，其中指令是射线跟踪应用程序的一部分。

示例123. 示例121-122中的任一项的处理器，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例124. 示例121-123中的任一项的处理器，其中目的地向量和源向量的位置是向量寄存器。

示例125. 示例121-123中的任一项的处理器，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例126. 示例121-125中的任一项的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例127. 示例121-126中的任一项的处理器，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例128. 示例121-127中的任一项的处理器，其中执行电路包括矩阵运算电路。

示例129. 示例121-127中的任一项的处理器，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例130. 一种方法，其包括：

对指令进行解码，该指令要包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且将生成的索引值存储在目的地向量的对应元素方位中；以及

使用执行电路来执行如由操作码指示的经解码的指令。

示例131. 示例130的方法，其中指令是射线跟踪应用程序的一部分。

示例132. 示例130-131中的任一项的方法，其中处理器是支持射线跟踪的图形处理单元（GPU）。

示例133. 示例130-132中的任一项的方法，其中目的地向量和源向量的位置是向量寄存器。

示例134. 示例130-132中的任一项的方法，其中目的地向量的位置是向量寄存器，而源向量的位置是存储器中的至少一个位置。

示例135. 示例130-134中的任一项的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

示例136. 示例130-135中的任一项的方法，其中为了打破比较结果之间的连结，执行电路要实行元素之间的第一比较和元素之间的第二比较。

示例137. 示例130-136中的任一项的方法，其中执行电路包括矩阵运算电路。

示例138. 示例130-136中的任一项的方法，其中执行电路包括用以生成索引的矩阵运算电路和用以基于索引值来排列并存储元素的值的向量处理电路。

示例139. 用以存储指令的非暂时性介质，其在由装置处理时将使得实行示例130-138中的任一项的方法。

示例140. 一种系统，其包括：

用以存储射线跟踪应用程序的存储器；以及

耦合到存储器的处理器，该处理器包括：

用以解码射线跟踪应用程序的指令的解码电路，该指令要包括用以标识第一源向量位置的第一字段、用以标识第一源向量位置的第二字段、用以标识目的地向量位置的第三字段，以及操作码，该操作码用以指示执行电路来执行经解码的指令从而使用元素的一个或多个比较而为第一和第二源向量的每个元素方位生成索引值，并且将生成的索引值存储在目的地向量的对应元素方位中；以及

执行电路，用以执行如由操作码指示的经解码的指令。

Claims

1.一种处理器，其包括：

用以解码指令的解码电路，所述指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，所述操作码用以指示执行电路来执行经解码的指令从而对所述源向量的值进行排序并且将所述排序的结果存储在所述目的地向量中，所述排序和存储通过使用所述元素与自身以及与所述源向量的其他数据元素的一个或多个比较而为所述源向量的每个元素生成索引值，并且基于所述元素的索引值来排列所述源向量的元素的值来进行；以及

执行电路，用以执行如由所述操作码指示的经解码的指令。

2.根据权利要求1所述的处理器，其中所述指令是射线跟踪应用程序的一部分。

3.根据权利要求2所述的处理器，其中所述处理器是支持射线跟踪的图形处理单元（GPU）。

4.根据权利要求1-3中任一项所述的处理器，其中所述目的地向量和所述源向量的位置是向量寄存器。

5.根据权利要求1-3中任一项所述的处理器，其中所述目的地向量的位置是向量寄存器，而所述源向量的位置是存储器中的至少一个位置。

6.根据权利要求1-5中任一项所述的处理器，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

7.根据权利要求1-6中任一项所述的处理器，其中为了打破比较结果之间的连结，所述执行电路要实行元素之间的第一比较和元素之间的第二比较。

8.根据权利要求1-7中任一项所述的处理器，其中所述执行电路包括矩阵运算电路。

9.一种方法，其包括：

对指令进行解码，所述指令包括用以标识源向量位置的第一字段、用以标识目的地向量位置的第二字段，以及操作码，所述操作码用以指示执行电路来执行经解码的指令从而对所述源向量的值进行排序并且将所述排序的结果存储在所述目的地向量中，所述排序和存储通过使用所述元素与自身以及与所述源向量的其他数据元素的一个或多个比较而为所述源向量的每个元素生成索引值，并且基于所述元素的索引值来排列所述源向量的元素的值来进行；以及

执行电路，用以执行如由所述操作码指示的经解码的指令。

10.根据权利要求9所述的方法，其中所述指令是射线跟踪应用程序的一部分。

11.根据权利要求10所述的方法，其中所述处理器是支持射线跟踪的图形处理单元（GPU）。

12.根据权利要求9-11中任一项所述的方法，其中所述目的地向量和所述源向量的位置是向量寄存器。

13.根据权利要求9-11中任一项所述的方法，其中所述目的地向量的位置是向量寄存器，而所述源向量的位置是存储器中的至少一个位置。

14.根据权利要求9-13中任一项所述的方法，其中至少一个比较的类型是等于、大于、大于或等于、小于以及小于或等于中的一个。

15.根据权利要求9-14中任一项所述的方法，其中为了打破比较结果之间的连结，所述执行电路要实行元素之间的第一比较和元素之间的第二比较。

16.根据权利要求9-15中任一项所述方法，其中所述执行电路包括矩阵运算电路。