CN116860334A

CN116860334A - 用于计算两个区块操作数中的半字节的数量积的系统和方法

Info

Publication number: CN116860334A
Application number: CN202310865565.5A
Authority: CN
Inventors: R.萨德; S.鲁巴诺维奇; A.格拉德斯坦; Z.斯珀伯; A.海内克; R.瓦伦丁; M.J.查尼; B.托尔; J.科巴尔; E.奥尔德-艾哈迈德-瓦尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-12-29
Filing date: 2018-12-28
Publication date: 2023-10-10
Also published as: US20230385059A1; US20190042235A1; DE102018125971A1; CN110058886A; US11789729B2; CN109992299A

Abstract

本公开涉及用于计算两个区块操作数中的半字节的数量积的系统和方法。在一个示例中，一种装置包括：多个存储控制器、二级(L2)高速缓存存储器以及具有多个核的处理器，核包括用于执行对应于指令的操作的电路，所述操作包括：将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，32位结果数据元素要基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

Description

用于计算两个区块操作数中的半字节的数量积的系统和方法

本案为分案申请。其母案的发明名称为“用于计算两个区块操作数中的半字节的数量积的系统和方法”，申请日为2018年12月28日，申请号为201811620796.5。

技术领域

本发明的领域一般涉及计算机处理器架构，并且更具体地涉及用于计算两个区块操作数中的半字节的数量积的系统和方法。

背景技术

矩阵在诸如机器学习和其他批量数据处理之类的许多计算任务中越来越重要。

附图说明

通过示例而非限制的方式在附图的各图中例示本发明，其中相同的附图标记指示相似的元素，并且其中：

图1A例示了经配置的区块的实施例；

图1B例示了经配置的区块的实施例；

图2例示了矩阵存储的几个示例；

图3例示了利用矩阵(区块)操作加速器的系统的实施例；

图4和图5示出了如何使用矩阵操作加速器来共享存储器的不同实施例；

图6例示了使用区块的矩阵乘法累加操作(“TMMA”)的实施例；

图7例示了链式融合乘法累加指令的迭代的执行的子集的实施例；

图8例示了链式融合乘法累加指令的迭代的执行的子集的实施例；

图9例示了链式融合乘法累加指令的迭代的执行的子集的实施例；

图10例示了链式融合乘法累加指令的迭代的执行的子集的实施例；

图11例示了根据实施例的大小为2的乘方的(power-of-two sized)SIMD实施方式，其中累加器使用大于到乘法器的输入的输入大小；

图12例示了利用矩阵操作电路的系统的实施例；

图13例示了支持使用区块的矩阵操作的处理器核流水线的实施例；

图14例示了支持使用区块的矩阵操作的处理器核流水线的实施例；

图15例示了以行优先格式和列优先格式表示的矩阵的示例；

图16例示了矩阵(区块)的使用的示例；

图17例示了矩阵(区块)的使用方法的实施例；

图18例示了根据实施例的对区块的使用配置的支持；

图19例示了要支持的矩阵(区块)的描述的实施例；

图20(A)-(D)例示了(一个或多个)寄存器的示例；

图21例示了TILELOADQPAIR指令的示例性执行；

图22例示了处理器执行TILELOADQPAIR指令的实施例；

图23例示了TILELOADQPAIR指令的执行的更详细的描述；

图24A是描述处理器执行TILELOADQPAIR指令的实施例的示例性伪代码；

图24B是描述处理器执行TILELOADQPAIR指令所使用的辅助函数的实施例的示例性伪代码；

图25A-25B是例示根据本发明实施例的通用向量友好指令格式及其指令模板的框图；

图25A是例示根据本发明实施例的通用向量友好指令格式及其A类指令模板的框图；

图25B是例示根据本发明实施例的通用向量友好指令格式及其B类指令模板的框图；

图26A是例示根据本发明实施例的示例性特定向量友好指令格式的框图；

图26B是例示根据本发明的一个实施例的构成全操作码字段的特定向量友好指令格式的字段的框图；

图26C是例示根据本发明的一个实施例的构成寄存器索引字段的特定向量友好指令格式的字段的框图；

图26D是例示根据本发明的一个实施例的构成扩增操作字段的特定向量友好指令格式的字段的框图；

图27是根据本发明的一个实施例的寄存器架构的框图；

图28A是例示根据本发明实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图；

图28B是例示根据本发明实施例的要被包括在处理器中的示例性有序架构核实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图；

图29A-B例示了更具体的示例性有序核架构的框图，该核将是芯片中的(包括相同类型和/或不同类型的其他核的)若干逻辑块之一；

图29A是根据本发明实施例的单个处理器核、连同其与管芯上互连网络的连接、连同其二级(L2)高速缓存的本地子集的框图；

图29B是根据本发明实施例的图29A中的处理器核的一部分的展开图；

图30是根据本发明实施例的处理器的框图，该处理器可以具有多于一个核，可以具有集成存储器控制器，并且可以具有集成图形装置；

图31-34是示例性计算机架构的框图；

图31示出了根据本发明的一个实施例的系统的框图；

图32是根据本发明实施例的第一更具体的示例性系统的框图；

图33是根据本发明实施例的第二更具体的示例性系统的框图；

图34是根据本发明实施例的片上系统(SoC)的框图；以及

图35是根据本发明实施例的对照使用软件指令转换器来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

在以下描述中，阐述了许多具体细节。然而要理解的是，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，没有详细示出公知的电路、结构和技术，以免模糊对本描述的理解。

说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是可能并非每个实施例都一定包括所述特定特征、结构或特性。而且，这些短语不一定指的是同一实施例。此外，当结合实施例描述特定特征、结构或特性时，主张无论是否明确描述，结合其他实施例实行此类特征、结构或特性是在本领域技术人员的知识范围内。

在许多主流处理器中，处理矩阵是一项困难和/或指令密集的任务。例如，矩阵的行可能被放入多个打包数据(例如，SIMD或向量)寄存器中，并且然后单独对其进行操作。例如，取决于数据大小，两个8x2矩阵的相加可能需要到四个打包数据寄存器中的加载或聚集。然后执行与来自每个矩阵的第一行对应的打包数据寄存器的第一次相加，并且执行与来自每个矩阵的第二行对应的打包数据寄存器的第二次相加。然后将所得到的打包数据寄存器分散回存储器。虽然对于小矩阵来说这种设想可能是可接受的，但对于较大的矩阵来说通常是不可接受的。

I.高层级讨论

本文描述的是用于支持诸如中央处理单元(CPU)、图形处理单元(GPU)和加速器之类的计算机硬件中的矩阵操作的机制。矩阵操作利用表示诸如寄存器之类的存储器的一个或多个打包区域的二维(2-D)数据结构。在本描述的各处，这些2-D数据结构称为区块(tile)。注意，矩阵可以小于区块(使用少于整个区块)，或者利用多个区块(矩阵大于任何一个区块的大小)。在本描述的各处，使用矩阵(区块)语言来指示使用影响矩阵的区块执行的操作；该矩阵是否大于任何一个区块通常不相关。

可以通过不同的操作来作用于每个区块，所述不同的操作诸如本文中详述的那些并且包括但不限于：矩阵(区块)乘法、区块加法、区块减法、区块对角化(diagonal)、区块归零、区块转置、区块数量积、区块广播、区块行广播、区块列广播、区块乘法、区块乘法并累加、区块移动等。此外，对诸如使用比例和/或偏差之类的操作符的支持可以与这些操作一起使用或支持未来的非数值应用，例如，OpenCL“本地存储器”、数据压缩/解压等等。

存储(诸如存储器(非易失性和易失性)、寄存器、高速缓存等)的部分被布置成具有不同水平和竖直尺寸的区块。例如，区块可以具有4的水平尺寸(例如，矩阵的4行)和8的竖直尺寸(例如，矩阵的8列)。通常，水平尺寸与元素大小有关(例如，2位、4位、8位、16位、32位、64位、128位等)。可以支持多种数据类型(单精度浮点、双精度浮点、整数等)。

A.经配置的区块的示例性使用

在一些实施例中，可以配置区块参数。例如，给定区块可以被配置成提供区块选项。示例性区块选项包括但不限于：区块的行数、区块的列数、区块是否为VALID(有效)以及区块是否由一对相等大小的区块组成。

图1A例示了经配置的区块的实施例。如图所示，4kB的应用存储器102上存储有4个1kB的区块，区块0104、区块1106、区块2108和区块3110。在该示例中，这4个区块不是由对组成，并且各自具有布置在行和列中的元素。区块t0104和区块t1106具有K行和N列的4字节元素(例如，单精度数据)，其中K等于8且N＝32。区块t2108和区块t3110具有K行和N/2列的8字节元素(例如，双精度数据)。由于双精度操作数是单精度的宽度的两倍，因此该配置与托盘(palette)一致，用于提供区块选项，从而提供具有至少4kB的总存储的至少4个名称。在操作中，可以使用加载和存储操作来从存储器加载区块以及将区块存储到存储器。取决于所使用的指令编码方案，可用应用存储器的量以及可用区块的大小、数量和配置会有所不同。

图1B例示了经配置的区块的实施例。如图所示，4kB的应用存储器122上存储有2对1kB的区块，第一对是区块t4L 124和区块t4R 126，并且第二对是区块t5L 128和区块t5R130。如图所示，区块对被划分成左区块和右区块。在其他实施例中，区块对被划分成偶区块和奇区块。在该示例中，这4个区块各自具有布置在行和列中的元素。区块t4L 124和区块t4R 126具有K行和N列的4字节元素(例如，单精度数据)，其中K等于8并且N等于32。区块t5L128和区块t5R 130具有K行和N/2列的8字节元素(例如，双精度数据)。由于双精度操作数是单精度的宽度的两倍，因此该配置与托盘一致，用于提供区块选项，从而提供具有至少4kB的总存储的至少2个名称。图1A的四个区块使用各自命名1kB区块的4个名称，而图1B中的2对区块可以使用2个名称来指定成对的区块。在一些实施例中，区块指令接受成对的区块的名称作为操作数。在操作中，可以使用加载和存储操作来从存储器加载区块以及将区块存储到存储器。取决于所使用的指令编码方案，可用应用存储器的量以及可用区块的大小、数量和配置会有所不同。

在一些实施例中，区块参数是可定义的。例如，使用“托盘”来提供区块选项。示例性选项包括但不限于：区块名称数、存储行中的字节数、区块中的行数和列数等。例如，区块的最大“高度”(行数)可以被定义为：

区块最大行数＝已架构的存储/(托盘名称数*每行的字节数)。

照此，可以将应用编写成使得名称的固定使用将能够跨实施方式利用不同的存储大小。

使用区块配置(“TILECONFIG”)指令来进行区块的配置，其中在所选托盘中定义特定的区块使用。该声明包括要使用的区块名称数、每个名称(区块)所请求的行数和列数，以及在一些实施例中，每个区块的所请求的数据类型。在一些实施例中，在执行TILECONFIG指令期间进行一致性检查以确定其匹配托盘条目的约束。

B.示例性区块存储类型

图2例示了矩阵存储的几个示例。在(A)中，区块存储在存储器中。如图所示，每个“行”由四个打包数据元素组成。要去往下一“行”，使用跨步值。注意，行可以连续存储在存储器中。当区块存储不映射底层存储器阵列行宽时，跨步式存储器访问允许访问一行然后下一行。

从存储器加载区块和将区块存储到存储器通常是从应用存储器到打包数据行的跨步式访问。在一些实施例中，示例性TILELOAD和TILESTORE指令或在加载操作(load-op)指令中作为TILE操作数的对应用存储器的其他指令引用是可重启的，以处理(最多)2*页面故障行、未被掩蔽的浮点异常和/或每指令的中断。

在(B)中，矩阵存储在由多个寄存器构成的区块中，所述寄存器诸如打包数据寄存器(单指令、多数据(SIMD)或向量寄存器)。在此示例中，区块覆盖在三个物理寄存器上。通常，使用连续的寄存器，然而情况不一定是这样。

在(C)中，矩阵存储在可由区块操作中使用的融合乘法累加(FMA)电路访问的非寄存器存储中的区块中。该存储可以在FMA内部或与其相邻。另外，在下文讨论的一些实施例中，该存储可以用于数据元素而不是整个行或区块。

经由CPUID来报告针对TMMA架构的支持参数。在一些实施例中，信息列表包括最大高度和最大SIMD尺寸。配置TMMA架构需要指定每个区块的尺寸、每个区块的元素大小和托盘标识符。通过执行TILECONFIG指令来进行该配置。

TILECONFIG指令的成功执行启用后续的TILE操作符。TILERELEASEALL指令清除区块配置并禁用TILE操作(直到执行下一个TILECONFIG指令)。在一些实施例中，XSAVE、XSTORE等用于使用区块的上下文切换。在一些实施例中，在XSAVE中使用2个XCR0位，一个用于TILECONFIG元数据，并且一个位对应于实际的区块有效载荷数据。

TILECONFIG不仅可以配置区块使用，还可以设置状态变量，其指示该程序位于已配置区块的代码区域中。实施方式可以列举对可以与区块区域一起使用的其他指令的约束，诸如不使用现有寄存器组等。

通常用TILERELEASEALL指令来退出区块区域。它不需要任何参数，并且可以即刻使所有区块无效(指示数据不再需要任何保存或恢复)，并清除与处于区块区域中相对应的内部状态。

在一些实施例中，区块操作将使超出区块配置所指定的尺寸的任何行和任何列归零。例如，在写入每一行时，区块操作将使超出所配置的列数的数据(在元素的大小方面进行分解(factoring))归零。例如，在64字节行以及配置有10行和12列的区块的情况下，写入FP32元素的操作将以12*4个字节用输出/结果数据写入前10行中的每一行，并将每一行中的其余4*4个字节归零。区块操作还将前10个已配置的行之后的任何行都完全归零。当使用具有64字节行的1K区块时，将有16行，因此在该示例中，最后6行也将被归零。

在一些实施例中，当加载数据时，上下文恢复(例如，XRSTOR)强制超出针对区块的已配置行的数据将被维持为零。如果不存在有效配置，则所有行都归零。区块数据的XRSTOR可以在超出已配置的那些列的列中加载垃圾。XRSTOR应当不可能清除超出已配置的列数，因为没有与区块配置相关联的元素宽度。

上下文保存(例如，XSAVE)在将整个TILE(区块)存储区域写入存储器时暴露该整个TILE存储区域。如果XRSTOR将垃圾数据加载到了区块的最右侧部分中，则该数据将通过XSAVE进行保存。XSAVE将为超出针对每个区块指定的数量的行写入零。

在一些实施例中，区块指令是可重启的。访问存储器的操作允许在页面故障之后重启。处理浮点操作的计算指令还允许未被掩蔽的浮点异常，其中异常的掩蔽由控制和/或状态寄存器来控制。

为了支持在这些事件之后重启指令，指令将信息存储在下文详述的启动寄存器中。

II.矩阵(区块)操作系统

A.示例性硬件支持

图3例示了利用矩阵(区块)操作加速器的系统的实施例。在该例示中，主机处理器/处理系统301将命令311(例如，诸如算术或矩阵操纵操作之类的矩阵操纵操作，或加载和存储操作)传送到矩阵操作加速器307。然而，以此方式示出这一点仅是为了讨论的目的。如稍后详述的，该加速器307可以是处理核的一部分。通常，作为区块操纵操作符指令的命令311会将区块称为寄存器-寄存器(“reg-reg”)或寄存器-存储器(“reg-mem”)格式。诸如TILESTORE、TILELOAD、TILECONFIG等的其他命令不对区块执行数据操作。命令可以是已解码指令(例如，微操作)或宏指令以供加速器307处理。

在该示例中，一致性存储器接口303耦合到主机处理器/处理系统301和矩阵操作加速器307，使得它们可以共享存储器。图4和图5示出了如何使用矩阵操作加速器来共享存储器的不同实施例。如图4中所示，主机处理器401和矩阵操作加速器电路405共享同一存储器403。图5例示了这样的实施例：其中主机处理器501和矩阵操作加速器505不共享存储器，但可以访问彼此的存储器。例如，处理器501可以访问区块存储器507并照常利用其主机存储器503。类似地，矩阵操作加速器505可以访问主机存储器503，但是更常使用其自己的存储器507。注意，这些存储器可以是不同类型的。

在一些实施例中，矩阵操作加速器307包括耦合到数据缓冲器305的多个FMA 309(在一些实施方式中，这些缓冲器305中的一个或多个被存储在如图所示的栅格的FMA中)。数据缓冲器305缓冲从存储器加载的区块和/或要被存储到存储器的区块(例如，使用区块加载或区块存储指令)。数据缓冲器可以是例如多个寄存器。通常，这些FMA被布置为能够读取和写入区块的链式FMA 309的栅格。在该示例中，矩阵操作加速器307要使用区块T0、T1和T2来执行矩阵乘法操作。区块中的至少一个被容纳在FMA栅格309中。在一些实施例中，操作中的所有区块都被存储在FMA栅格309中。在其他实施例中，只有子集被存储在FMA栅格309中。如图所示，T1被容纳而T0和T2未被容纳。注意，A、B和C指的是这些区块的矩阵，其可以或可以不占据所述区块的整个空间。

图6例示了使用区块的矩阵乘法累加操作(“TMMA”)的实施例。

矩阵(区块A 601)中的行数与包括计算的延迟的串行(链式)FMA的数量相匹配。实施方式自由地在具有较小高度的栅格上再循环，但计算保持不变。

源/目的地向量来自于具有N行的区块(区块C 605)，并且FMA 611的栅格执行N个向量矩阵操作，得到执行区块的矩阵乘法的完整指令。区块B 603是另一个向量源，并在每个阶段中向FMA提供“广播”项(term)。

在操作中，在一些实施例中，跨FMA的矩形栅格散布(存储在区块B 603中的)矩阵B的元素。(存储在区块A 601中的)矩阵B将其行中的元素进行转置以与FMA的矩形栅格的列尺寸匹配。在栅格中的每个FMA处，将A和B的元素相乘并与(来自图中的上方的)输入的被加数相加，并将输出的和传递到FMA的下一行(或最终输出)。

单个步骤的延迟与K(矩阵B的行高)成比例，并且相关的TMMA通常具有足够的源-目的地行(在单个区块中或跨区块)以隐藏该延迟。实施方式还可以跨时间步骤分割SIMD(打包数据元素)尺寸M(矩阵A的行高度)，但是这仅仅改变了与K相乘的常数。当程序指定了比TMACC所列举的最大值更小的K时，实施方式自由地用“掩蔽”或“提前退出(early outs)”来实现这点。

整个TMMA的延迟与N*K成比例。重复率与N成比例。每个TMMA指令的MAC的数量是N*K*M。

图7例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地，这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中，链式融合乘法累加对有符号的源进行操作，其中累加器是2x输入数据大小。

第一有符号源(源1701)和第二有符号源(源2703)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如浮点数据之类的有符号数据。第三有符号源(源3709)具有两个打包数据元素，这两个打包数据元素中的每一个都存储有符号数据。第一和第二有符号源701和703的大小是第三有符号源(初始值或先前结果)709的大小的一半。例如，第一和第二有符号源701和703可以具有32位打包数据元素(例如，单精度浮点)，而第三有符号源709可以具有64位打包数据元素(例如，双精度浮点)。

在该例示中，仅示出了第一和第二有符号源701和703的两个最高有效打包数据元素位置以及第三有符号源709的最高有效打包数据元素位置。当然，也将处理其他打包数据元素位置。

如所例示的，成对地处理打包数据元素。例如，使用乘法器电路705将第一和第二有符号源701和703的最高有效打包数据元素位置的数据相乘，并且使用乘法器电路707将来自第一和第二有符号源701和703的第二最高有效打包数据元素位置的数据相乘。在一些实施例中，针对其他打包数据元素位置重复使用这些乘法器电路705和707。在其他实施例中，使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中，使用具有有符号的第三源709的大小的通道来进行并行执行。使用加法电路711来将所述乘法中的每一个的结果相加。

(使用不同的加法器713或同一加法器711)将乘法结果的相加结果加到来自有符号源3709的最高有效打包数据元素位置的数据。

最后，将第二次相加的结果存储到与从有符号的第三源709使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地715中，或者将所述第二次相加的结果传递到下一次迭代，如果有下一次迭代的话。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码(位)则发生该存储，而如果未设置则不发生该存储。

图8例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地，这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中，链式融合乘法累加对有符号的源进行操作，其中累加器是2x输入数据大小。

第一有符号源(源1801)和第二有符号源(源2803)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如整数数据之类的有符号数据。第三有符号源(源3809)具有两个打包数据元素，这两个打包数据元素中的每一个都存储有符号数据。第一和第二有符号源801和803的大小是第三有符号源809的大小的一半。例如，第一和第二有符号源801和803可以具有32位打包数据元素(例如，单精度浮点)，第三有符号源809可以具有64位打包数据元素(例如，双精度浮点)。

在该例示中，仅示出了第一和第二有符号源801和803的两个最高有效打包数据元素位置以及第三有符号源809的最高有效打包数据元素位置。当然，也将处理其他打包数据元素位置。

如所例示的，成对地处理打包数据元素。例如，使用乘法器电路805将第一和第二有符号源801和803的最高有效打包数据元素位置的数据相乘，并且使用乘法器电路807将来自第一和第二有符号源801和803的第二最高有效打包数据元素位置的数据相乘。在一些实施例中，针对其他打包数据元素位置重复使用这些乘法器电路805和807。在其他实施例中，使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中，使用具有有符号的第三源(初始值或先前的迭代结果)809的大小的通道来进行并行执行。使用加法/饱和电路813来将所述乘法中的每一个的结果加到有符号的第三源809。

当该相加得到过大的值时，加法/饱和(累加器)电路813保留操作数的符号。特别地，饱和评估发生在多路相加与到目的地或下一次迭代的写入之间的无限精度结果上。当累加器813是浮点并且输入项是整数时，乘积之和以及浮点累加器输入值被转为无限精度值(具有数百位的定点数)，执行乘法结果与第三输入的相加，并执行到实际累加器类型的单个舍入。

无符号的饱和意味着输出值被限制为针对该元素宽度的最大无符号数(全为1)。有符号的饱和意味着值被限制为处于针对该元素宽度的最小负数和最大正数之间的范围中(例如对于字节来说，范围是从-128(＝-2^7)到127(＝2^7-1))。

将饱和检查和该相加的结果存储到与从有符号的第三源809使用的打包数据元素位置相对应的打包数据元素位置中的有符号结果815中，或者将所述饱和检查和该相加的结果传递到下一次迭代，如果有下一次迭代的话。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码(位)则发生该存储，而如果未设置则不发生该存储。

图9例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地，这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中，链式融合乘法累加对有符号源和无符号源进行操作，其中累加器是4x输入数据大小。

第一有符号源(源1901)和第二无符号源(源2903)各自具有四个打包数据元素。这些打包数据元素中的每一个具有诸如浮点或整数数据之类的数据。第三有符号源(初始值或结果915)具有其中存储有符号数据的打包数据元素。第一和第二源901和903的大小是第三有符号源915的四分之一。例如，第一和第二源901和903可以具有16位打包数据元素(例如，字)，而第三有符号源915可以具有64位打包数据元素(例如，双精度浮点或64位整数)。

在该例示中，示出了第一和第二源901和903的四个最高有效打包数据元素位置以及第三有符号源915的最高有效打包数据元素位置。当然，也将处理其他打包数据元素位置，如果有的话。

如所例示的，四个一组地处理打包数据元素。例如，使用乘法器电路905将第一和第二源901和903的最高有效打包数据元素位置的数据相乘，使用乘法器电路907将来自第一和第二源901和903的第二最高有效打包数据元素位置的数据相乘，使用乘法器电路909将来自第一和第二源901和903的第三最高有效打包数据元素位置的数据相乘，并且使用乘法器电路910将来自第一和第二源901和903的最低有效打包数据元素位置的数据相乘。在一些实施例中，第一源901的有符号打包数据元素是符号扩展的，并且第二源903的无符号打包数据元素在乘法之前是零扩展的。

在一些实施例中，针对其他打包数据元素位置重复使用这些乘法器电路905-910。在其他实施例中，使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中，使用具有有符号的第三源915的大小的通道来进行并行执行。使用加法电路911来将所述乘法中的每一个的结果相加。

(使用不同的加法器913或同一加法器911)将乘法结果的相加结果加到来自有符号源3915的最高有效打包数据元素位置的数据。

最后，将第二次相加的结果919存储到与从有符号的第三源915使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地中，或者将所述第二次相加的结果919传递到下一次迭代。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码(位)则发生该存储，而如果未设置则不发生该存储。

图10例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地，这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中，链式融合乘法累加对有符号源和无符号源进行操作，其中累加器是4x输入数据大小。

第一有符号源(源11001)和第二无符号源(源21003)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如浮点或整数数据之类的数据。第三有符号源(初始或先前结果1015)具有其中存储有符号数据的打包数据元素。第一和第二源1001和1003的大小是第三有符号源1015的四分之一。例如，第一和第二源1001和1003可以具有16位打包数据元素(例如，字)，而第三有符号源1015可以具有64位打包数据元素(例如，双精度浮点或64位整数)。

在该例示中，示出了第一和第二源1001和1003的四个最高有效打包数据元素位置以及第三有符号源1015的最高有效打包数据元素位置。当然，也将处理其他打包数据元素位置，如果有的话。

如所例示的，四个一组地处理打包数据元素。例如，使用乘法器电路1005将第一和第二源1001和1003的最高有效打包数据元素位置的数据相乘，使用乘法器电路1007将来自第一和第二源1001和1003的第二最高有效打包数据元素位置的数据相乘，使用乘法器电路1009将来自第一和第二源1001和1003的第三最高有效打包数据元素位置的数据相乘，并且使用乘法器电路1011将来自第一和第二源1001和1003的最低有效打包数据元素位置的数据相乘。在一些实施例中，第一源1001的有符号打包数据元素是符号扩展的，并且第二源1003的无符号打包数据元素在乘法之前是零扩展的。

在一些实施例中，针对其他打包数据元素位置重复使用这些乘法器电路1005-1011。在其他实施例中，使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中，使用具有有符号的第三源1015的大小的通道来进行并行执行。使用加法/饱和电路1013来将乘法结果的相加结果加到来自有符号源31015的最高有效打包数据元素位置的数据。

当该相加得到对于有符号饱和来说过大或过小的值时，加法/饱和(累加器)电路1013保留操作数的符号。特别地，饱和评估发生在多路相加与到目的地的写入之间的无限精度结果上。当累加器1013是浮点并且输入项是整数时，乘积之和以及浮点累加器输入值被转为无限精度值(具有数百位的定点数)，执行乘法结果与第三输入的相加，并执行到实际累加器类型的单个舍入。

将饱和检查和该相加的结果1019存储到与从有符号的第三源1015使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地中，或者将所述饱和检查和该相加的结果1019传递到下一次迭代。在一些实施例中，将写掩码应用于该存储，使得如果设置了对应的写掩码(位)则发生该存储，而如果未设置则不发生该存储。

图11例示了根据实施例的大小为2的乘方的SIMD实施方式，其中累加器使用大于到乘法器的输入的输入大小。注意，(到乘法器的)源和累加器值可以是有符号或无符号的值。对于具有2X输入大小的累加器(换句话说，累加器输入值是源的打包数据元素大小的两倍大小)，表1101例示了不同的配置。对于大小为字节的源，累加器使用字或大小为16位的半精度浮点(HPFP)值。对于大小为字的源，累加器使用32位整数或大小为32位的单精度浮点(SPFP)值。对于大小为SPFP或32位整数的源，累加器使用64位整数或大小为64位的双精度浮点(DPFP)值。

对于具有4X输入大小的累加器(换句话说，累加器输入值是源的打包数据元素大小的四倍大小)，表1103例示了不同的配置。对于大小为字节的源，累加器使用32位整数或大小为32位的单精度浮点(SPFP)值。在一些实施例中，对于大小为字的源，累加器使用64位整数或大小为64位的双精度浮点(DPFP)值。

对于具有8X输入大小的累加器(换句话说，累加器输入值是源的打包数据元素大小的八倍大小)，表1105例示了不同的配置。对于大小为字节的源，累加器使用64位整数。

如前文暗示的，矩阵操作电路可以被包括在核中，或者作为外部加速器。图12例示了利用矩阵操作电路的系统的实施例。在该例示中，多个实体与环形互连1245耦合。

多个核1201、1203、1205和1207提供非基于区块的指令支持。在一些实施例中，在核1203中提供矩阵操作支持1251，并且在其他实施例中，矩阵操作电路1211和1213可在环形互连1245上访问。

另外，提供一个或多个存储器控制器1223-1225以代表核和/或矩阵操作电路与存储器1233和1231通信。

图13例示了支持使用区块的矩阵操作的处理器核流水线的实施例。分支预测和解码电路1303执行来自存储在指令存储1301中的指令的指令的分支预测、指令的解码和/或二者。例如，本文详述的指令可以存储在指令存储中。在一些实施方式中，使用单独的电路用于分支预测，并且在一些实施例中，使用微代码1305将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1303。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。

分支预测和解码电路1303耦合到重命名/分配器电路1307，在一些实施例中，重命名/分配器电路1307耦合到调度器电路1309。在一些实施例中，这些电路通过实行以下内容中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能性：1)将逻辑操作数的值重命名为物理操作数的值(例如，在一些实施例中为寄存器别名表)，2)将状态位和标志分配给已解码的指令，以及3)调度已解码的指令以供在指令池之外在执行电路上执行(例如，在一些实施例中使用保留站)。

调度器电路1309表示任意数量的不同调度器，包括保留站、中央指令窗口等。(一个或多个)调度器单元调度器电路1309耦合到或包括(一个或多个)物理寄存器文件1315。(一个或多个)物理寄存器文件1315中的每一个都表示一个或多个物理寄存器文件，其中的不同的物理寄存器文件存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如，指令指针，其是要执行的下一指令的地址)、区块等。在一个实施例中，(一个或多个)物理寄存器文件1315包括向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器文件1315被引退电路1317重叠，以例示其中可以实现寄存器重命名和无序执行的各种方式(例如，使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件；使用(一个或多个)未来文件、(一个或多个)历史缓冲器和(一个或多个)引退寄存器文件；使用寄存器映射和寄存器池；等等)。引退电路1317和(一个或多个)物理寄存器文件1315耦合到(一个或多个)执行电路1311。

虽然寄存器重命名是在无序执行的上下文中描述的，但是应当理解的是，寄存器重命名可以用在有序架构中。虽然所例示的处理器的实施例还可以包括单独的指令和数据高速缓存单元以及共享的L2高速缓存单元，但是替换实施例可以针对指令和数据二者具有单个内部高速缓存，诸如例如，1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中，该系统可以包括内部高速缓存和处于核和/或处理器外部的外部高速缓存的组合。替换地，全部的高速缓存都可以在核和/或处理器外部。

执行电路1311是一组一个或多个执行电路1321、1323和1327以及一组一个或多个存储器访问电路1325。执行电路1321、1323和1327实行各种操作(例如，移位、加法、减法、乘法)并对各种类型的数据(例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点)执行操作。虽然一些实施例可以包括专用于特定功能或功能组的多个执行单元，但是其他实施例可以包括全部实行所有功能的仅一个执行单元或多个执行单元。标量电路1321执行标量操作，向量/SIMD电路1323执行向量/SIMD操作，并且矩阵操作电路1327执行本文详述的矩阵(区块)操作。

作为示例，示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线：1)指令提取电路实行提取和长度解码阶段；2)分支和解码电路1303实行解码阶段；3)重命名/分配器电路1307实行分配阶段和重命名阶段；4)调度器电路1309实行调度阶段；5)耦合到或被包括在调度器电路1309和重命名/分配电路1307中的(一个或多个)物理寄存器文件以及存储器单元实行寄存器读取/存储器读取阶段；执行电路1311实行执行阶段；6)存储器单元和(一个或多个)物理寄存器文件单元实行写回/存储器写入阶段；7)各种单元可能涉及到异常处理阶段；以及8)引退单元和(一个或多个)物理寄存器文件单元实行提交阶段。

核可以支持一个或多个指令集(例如，x86指令集(以及被添加有较新版本的一些扩展)；加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集；加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展))，包括本文中描述的(一个或多个)指令。在一个实施例中，核1390包括用于支持打包数据指令集扩展(例如，AVX1、AVX2)的逻辑，从而允许使用打包数据来执行许多多媒体应用所使用的操作。

应当理解的是，核可以支持多线程(执行并行的两组或更多组操作或线程)，并且可以以各种方式这样做，包括时间切片多线程、同时多线程(其中单个物理核为物理核正同时多线程的线程中的每一个提供逻辑核)或其组合(例如，时间切片提取和解码以及其后的同时多线程，诸如在超线程技术中那样)。

图14例示了支持使用区块的矩阵操作的处理器核流水线的实施例。分支预测和解码电路1403执行来自存储在指令存储1401中的指令的指令的分支预测、指令的解码和/或二者。例如，本文详述的指令可以存储在指令存储中。在一些实施方式中，使用单独的电路用于分支预测，并且在一些实施例中，使用微代码1405将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1403。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。

分支预测和解码电路1403耦合到重命名/分配器电路1407，在一些实施例中，重命名/分配器电路1407耦合到调度器电路1409。在一些实施例中，这些电路通过实行以下内容中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能性：1)将逻辑操作数的值重命名为物理操作数的值(例如，在一些实施例中为寄存器别名表)，2)将状态位和标志分配给已解码的指令，以及3)调度已解码的指令以供在指令池之外在执行电路上执行(例如，在一些实施例中使用保留站)。

调度器电路1409表示任意数量的不同调度器，包括保留站、中央指令窗口等。(一个或多个)调度器单元调度器电路1409耦合到或包括(一个或多个)物理寄存器文件1415。(一个或多个)物理寄存器文件1415中的每一个都表示一个或多个物理寄存器文件，其中的不同的物理寄存器文件存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如，指令指针，其是要执行的下一指令的地址)、区块等。在一个实施例中，(一个或多个)物理寄存器文件1415包括向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器文件1415被引退电路1417重叠，以例示其中可以实现寄存器重命名和无序执行的各种方式(例如，使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件；使用(一个或多个)未来文件、(一个或多个)历史缓冲器和(一个或多个)引退寄存器文件；使用寄存器映射和寄存器池；等等)。引退电路1417和(一个或多个)物理寄存器文件1415耦合到(一个或多个)执行电路1411。

执行电路1411是一组一个或多个执行电路1427和一组一个或多个存储器访问电路1425。执行电路1427实行本文详述的矩阵(区块)操作。

作为示例，示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线：1)指令提取电路实行提取和长度解码阶段；2)分支和解码电路1403实行解码阶段；3)重命名/分配器电路1407实行分配阶段和重命名阶段；4)调度器电路1409实行调度阶段；5)耦合到或被包括在调度器电路1409和重命名/分配电路1407中的(一个或多个)物理寄存器文件以及存储器单元实行寄存器读取/存储器读取阶段；执行电路1411实行执行阶段；6)存储器单元和(一个或多个)物理寄存器文件单元实行写回/存储器写入阶段；7)各种单元可能涉及到异常处理阶段；以及8)引退单元和(一个或多个)物理寄存器文件单元实行提交阶段。

核可以支持一个或多个指令集(例如，x86指令集(以及被添加有较新版本的一些扩展)；加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集；加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展))，包括本文中描述的(一个或多个)指令。在一个实施例中，核1490包括用于支持打包数据指令集扩展(例如，AVX1、AVX2)的逻辑，从而允许使用打包数据来执行许多多媒体应用所使用的操作。

B.布局

在本描述的各处，使用行优先数据布局来表示数据。列优先用户应根据其取向来翻译术语。图15例示了以行优先格式和列优先格式表示的矩阵的示例。如图所示，矩阵A是2×3矩阵。当该矩阵以行优先格式存储时，一行中的数据元素是连续的。当此矩阵以列优先格式存储时，一列中的数据元素是连续的。A^T*B^T＝(BA)^T是众所周知的矩阵特性，其中上标T意指转置。将列优先数据作为行优先数据进行读取导致矩阵看起来像转置矩阵。

在一些实施例中，在硬件中利用行优先语义，并且列优先数据用于交换操作数顺序，其结果是矩阵的转置，但是对于来自存储器的后续列优先读取来说，它是正确的、未转置的矩阵。

例如，如果有两个列优先矩阵要相乘，则：

a b g i k ag+bh ai+bj ak+bl

c d * h j l＝cg+dh cl+dj ck+dl

ef eg+fh ei+fj ek+fl

(3×2) (2x3) (3x3)

输入矩阵将被存储在(列优先的)线性存储器中，如：

a c e b d f

和

g h i jk l

以2x3和3x2的尺寸按照行优先来读取那些矩阵，它们将显示为：

a c e 和 g h

b d f i j

k l

交换顺序并进行矩阵相乘：

g h a c e ag+bh cg+dh eg+fh

i j * b d f＝ ai+bj ci+dj ei+fj

k l ak+bl ck+d lek+fl

转置矩阵被输出，并且然后可以被以行优先顺序进行存储：

ag+bh cg+dh eg+fh ai+bj ci+dj ei+fj ak+bl ck+dl ek+fl

并被用在后续列优先计算中，它是正确的非转置矩阵：

III.示例性使用

图16例示了矩阵(区块)的使用的示例。在该示例中，矩阵C 1601包括两个区块，矩阵A 1603包括一个区块，并且矩阵B 1605包括两个区块。该图显示了用于计算矩阵乘法的算法的内循环的示例。在该示例中，使用来自矩阵C 1601的两个结果区块tmm0和tmm1来累加中间结果。来自A矩阵1603的一个区块(tmm2)在它与来自B矩阵1605的两个区块相乘时被重复使用两次。用于加载新的A区块和两个新的B区块的指针是从箭头所指示的方向。未示出的外循环调整用于C区块的指针。

如图所示的示例性代码包括区块配置指令的使用，并且被执行以配置区块使用、加载区块、加载用于处理区块的循环、将区块存储到存储器以及释放区块使用。

图17例示了矩阵(区块)的使用的实施例。在1701处，配置区块使用。例如，执行TILECONFIG指令以配置区块使用，包括设置每个区块的行数和列数。通常，在1703处从存储器加载至少一个矩阵(区块)。在1705处使用矩阵(区块)执行至少一个矩阵(区块)操作。在1707处，将至少一个矩阵(区块)向外存储到存储器，并且在1709处可以发生上下文切换。

IV.示例性配置

A.区块配置硬件支持

如上文讨论的，通常需要在使用之前配置区块使用。例如，可能不需要完全使用所有的行和列。在一些实施例中，不配置这些行和列不仅节省功率，但是可以使用配置来确定操作是否将产生错误。例如，如果M和L不相同，则形式为(N×M)*(L*N)的矩阵乘法通常将不起作用。

在一些实施例中，在使用利用区块的矩阵之前要配置区块支持。例如，配置每个区块有多少行和列、要使用的区块等。TILECONFIG指令是对计算机本身的改进，因为它提供了对配置计算机以使用矩阵加速器(作为处理器核的一部分或作为外部设备)的支持。特别地，TILECONFIG指令的执行使得从存储器中检索配置并将其应用于矩阵加速器内的矩阵(区块)设置。

i.区块使用配置

图18例示了根据实施例的针对区块使用的配置的支持。存储器1801包含要支持的矩阵(区块)的描述1803。

处理器/核1805的执行电路1811将区块描述1803的各方面存储到区块配置1817中。区块配置1817详述用于托盘的什么区块被配置(每个区块中的行数和列数)以及矩阵支持正在使用中的标记。特别地，指令执行资源1811被配置成按照区块配置1817指定的那样使用区块。指令执行资源还可以包括机器特定的寄存器或配置寄存器以指示区块使用。还设置了另外的值，诸如使用中和起始值。区块配置1817利用一个或多个寄存器1819来存储区块使用和配置信息。

图19例示了要支持的矩阵(区块)的描述的实施例。这是在执行STTILECFG指令时要存储的描述。在此示例中，每个字段是一个字节。在字节[0]中，存储托盘ID 1901。使用托盘ID来索引托盘表1813，托盘表1813按照托盘ID来存储如由该配置定义的与该ID相关联的区块中的字节数以及区块的每行字节数。

字节1存储要存储在“startRow(起始行)”寄存器中的值1903，并且字节2存储要存储在“startP”寄存器中的值1905。为了支持在这些事件之后重启指令，指令将信息存储在这些寄存器中。为了支持在诸如上文详述的那些的中断事件之后重启指令，指令将信息存储在这些寄存器中。startRow值指示应当用于重启的行。startP值指示用于存储在使用对时的操作的行内位置，并且在一些实施例中，指示行的下半部分(在一对中的下部区块中)或行的上半部分(在一对中的上部区块中)。一般来说不需要行(列)中的位置。

在TILECONFIG和STTILECFG异常的情况下，成功地执行矩阵(区块)指令会将startRow和startP都设置为零。

在中断的矩阵(区块)指令未被重启的任何时候，软件都有责任将startRow和startP值归零。例如，未被掩蔽的浮点异常处理程序可能决定在软件中完成操作，并将程序计数器值改为另一指令，通常是下一指令。在这种情况下，软件异常处理程序必须将操作系统提供给它的异常中的startRow和startP值归零，然后才能继续执行程序。随后，操作系统将使用恢复指令重新加载那些值。

字节3存储区块的对的指示(每个区块1b)1907。

字节16-17存储用于区块0的行数1913和列数1915，字节18-19存储用于区块1的行数和列数等。换句话说，每个2字节组指定用于一个区块的行数和列数。如果不使用2个字节的组来指定区块参数，则它们应具有值零。为比实现限制或托盘限制更多的区块指定区块参数会导致故障。未经配置的区块被设置为具有0行0列的初始状态。

最后，存储器中的配置通常以结束划界而结束，诸如几个连续字节全部为零。

ii.示例性区块和区块配置存储

图20(A)-(D)例示了(一个或多个)寄存器1819的示例。图20(A)例示了多个寄存器1819。如图所示，每个区块(TMM0 2001...TMMN 2003)具有与存储该特定区块的行和列大小的每个寄存器分离的寄存器。StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如，TILES_CONFIGURED＝1)以指示区块被配置以供使用。

图20(B)例示了多个寄存器1819。如图所示，每个区块具有用于其行和列的分离的寄存器。例如，TMM0行配置2021、TMM0列配置2023、StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如，TILES_CONFIGURED＝1)以指示区块被配置以供使用。

图20(C)例示了单个寄存器1819。如图所示，该寄存器存储区块配置(每个区块的行和列)2031、StartP 2011和StartRow 2013，其被存储在作为打包数据寄存器的单个寄存器中。设置一个或多个状态寄存器2015(例如，TILES_CONFIGURED＝1)以指示区块被配置以供使用。

图20(D)例示了多个寄存器1819。如图所示，单个寄存器存储区块配置(每个区块的行和列)2031。StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如，TILES_CONFIGURED＝1)以指示区块被配置以供使用。

可以设想其他组合，诸如将起始寄存器组合成其中分离地示出它们的单个寄存器，等等。

B.TDP4BIT

常见的矩阵操作是数量积，例如在存储在一组寄存器中或在存储器中的两个区块的元素之间的数量积。本文详述的是TDP4BIT指令及其执行的实施例。TDP4BIT指令是对计算机本身的改进，因为它提供了对用单个指令来在矩阵(区块)内在两个矩阵的元素之间执行数量积的支持。具体来说，TDP4BIT指令的执行在第一源矩阵(区块)和第二源矩阵(区块)的元素之间实行数量积，并将结果存储到目的地矩阵(区块)中。要加载的数据元素的大小可以取决于指令和区块支持而变化。示例性大小包括但不限于：16位、32位、64位、128位、256位等。然而，TDP4BIT指令对四字元素内的半字节进行操作。在一些实施例中，在源矩阵(区块)中不具有对应列的目的地矩阵(区块)的行中的元素被归零。

I.示例性执行

图21例示了TDP4BIT指令的示例性执行。TDP4BIT指令格式包括用于操作码和第一源、第二源以及目的地标识符的字段，每个标识符用于标识PAIR(对)参数被设置为FALSE(假)的矩阵(区块)。所标识的目的地矩阵(区块)具有M行和N列元素。所标识的第一源矩阵(区块)具有M行和K列，并且所标识的第二源矩阵(区块)具有K行和N列。如图所示，执行电路2108接收已解码的TDP4BIT指令2102，在一些实施例中，执行电路2108使用FMA栅格2110来对所标识的目的地矩阵2118的每个元素(M，N)实行K次流程，所述流程包括通过使用乘法器2112A-H将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容使用累加器2114进行累加并使用饱和电路2116来使这八个乘积饱和。

在一些实施例中，乘法器2112A-H并行执行所有乘法。在一些实施例中，乘法器2112A-H在一个或多个附加周期上串行地执行所有乘法。

在一些实施例中，执行电路2108定期保存状态，使得在操作过程中发生故障的情况下，执行电路2108能够在故障解决之后恢复执行并在其停止的地方继续执行。在这样的实施例中，被保存的状态包括行指针、块指针、字节指针和元素指针中的一个或多个，以标识正被加载的当前目的地区块元素。

如前文详述的，源和目的地矩阵(区块)可以被加载在寄存器集合、存储器中的位置中或执行电路可访问的其他存储中。然而如图所示，所标识的源和目的地矩阵(区块)被存储在寄存器集合中。

如图所示，指令2102包括TDP4BIT操作码、目的地区块标识符“tdest”以及第一和第二源区块标识符“tsrc1”和“tsrc2”。

在一些实施例中，矩阵(区块)被配置成仅使用可能的行和列的子集。例如，矩阵(区块)可以具有至多16个行和列可用，但是只使用每个中的4个。通常在矩阵(区块)使用之前通过执行配置指令来进行每个矩阵(区块)的配置。

II.(一个或多个)示例性指令格式

用于TDP4BIT指令的格式的实施例是TDP4BIT tdest、tsrc1、tsrc2。在一些实施例中，TDP4BIT是指令的操作码助记符，其中“4BIT”指示对4位数据半字节进行操作。在一些实施例中，tdest字段是R/M值(诸如图25A-B的2546)，tsrc1字段是图25A-B的REG 2544。在一些实施例中，TDP4BIT操作码包括指示符，诸如[U，S][U，S]前缀或后缀，以指示所标识的第一和第二源中的每一个是有符号还是无符号。

在一些实施例中，指令的编码包括比例-索引-基址(SIB)型存储器寻址操作数，其间接地标识存储器中的多个带索引的目的地位置(例如，图25A-B的字段2550)。在一个实施例中，SIB型存储器操作数可以包括标识基址寄存器的编码。该基址寄存器的内容可以表示存储器中的基址，据此来计算存储器中的特定目的地位置的地址。例如，所述基址可以是用于扩展向量指令的潜在目的地位置块中的第一位置的地址。在一个实施例中，SIB型存储器操作数可以包括标识索引寄存器的编码。索引寄存器的每个元素都可以指定索引或偏移值，该索引或偏移值可用于根据基址来计算潜在的目的地位置块内的相应目的地位置的地址。在一个实施例中，SIB型存储器操作数可以包括指定要在计算相应的目的地地址时应用于每个索引值的比例缩放因数的编码。例如，如果在SIB型存储器操作数中编码了比例缩放因数值4，则从索引寄存器中的元素获得的每个索引值都可以乘以4并且然后加到基址以计算出目的地地址。

在一个实施例中，vm32{x，y，z}形式的SIB型存储器操作数可以标识使用SIB型存储器寻址而指定的存储器操作数的向量阵列。在该示例中，使用共同的基址寄存器、常数比例缩放因数以及包含各个元素(其中的每一个都是32位索引值)的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器(例如，XMM)寄存器(vm32x)、256位(例如，YMM)寄存器(vm32y)或512位(例如，ZMM)寄存器(vm32z)。在另一实施例中，vm64{x，y，z}形式的SIB型存储器操作数可以标识使用SIB型存储器寻址而指定的存储器操作数的向量阵列。在该示例中，使用共同的基址寄存器、常数比例缩放因数以及包含各个元素(其中的每一个都是64位索引值)的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器(例如，XMM)寄存器(vm64x)、256位(例如，YMM)寄存器(vm64y)或512位(例如，ZMM)寄存器(vm64z)。

III.(一个或多个)示例性执行方法

图22例示了处理器执行TDP4BIT指令的实施例。在2201处提取指令。例如，提取TDP4BIT指令，其具有用于操作码、用于标识M×N目的地矩阵的目的地标识符、用于标识M×K第一源矩阵的第一源标识符以及用于标识K×N第二源矩阵的第二源标识符的字段，其中所述矩阵中的每一个都包含双字元素。在一些实施例中，通过提取电路从指令高速缓存提取指令。TDP4BIT指令的操作码指示执行所标识的第一和第二源矩阵(区块)的元素位置的打包数量积。源矩阵包含双字元素，所述双字元素中的每一个被划分成8个逻辑4位半字节。

在2203处解码所提取的指令。例如，通过诸如本文详述的解码电路来解码所提取的TDP4BIT指令。

在2205处(根据需要)调度已解码指令的执行，此步骤在其可以在不同的时间发生或根本不发生的范围来说是可选步骤(如其虚线边界所示)。

在2207处，通过诸如本文详述的执行电路(硬件)来执行已解码的TDP4BIT指令。对于TDP4BIT指令，该执行将通过对所标识的目的地矩阵的每个元素(M，N)实行K次流程来使得执行电路执行已解码的指令，所述流程包括通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容累加这八个乘积并使之饱和。在一些实施例中，在2209处提交所述指令或使所述指令引退，此步骤在其可以在不同的时间发生或根本不发生的范围来说是可选步骤(如其虚线边界所示)。

图23例示了TDP4BIT指令的执行的更详细描述。通常，这由诸如上文详述的执行电路来实行。

在2302处，提取TDP4BIT指令，其具有用于操作码和第一源、第二源以及目的地标识符的字段，每个标识符用于标识PAIR参数被设置为FALSE的矩阵(区块)。

在2304处，确定以下所有情况是否都为真，无论检测到任何一个或多个错误，在这种情况下，都在2306处生成故障。

当在2304处测试的所有错误检查全部通过时，执行电路在2308处对于所标识的目的地矩阵的每个元素(M，N)执行K次流程以执行该流程的其余各块。在2310处，执行电路通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积，并且用所标识的目的地矩阵的双字元素(M，N)的先前内容累加这八个乘积并使之饱和。在2312处，N递增，并且如果还有任何更多的列，则执行返回到2308以处理下一列。否则，在2314处，K递增，并且如果还有任何更多的K，则执行返回到2308以处理下一个K。否则，在2316处，M递增，并且如果还有任何更多的行，则执行返回到2308以处理下一个M。否则，该过程结束。

IV.示例性伪代码

图24A是描述处理器执行TDP4BIT指令的实施例的示例性伪代码。如伪代码2400中所示，TDP4BIT指令包括操作码TDP4BIT、用于标识M×N目的地矩阵(区块)的目的地矩阵(区块)标识符“tdest”、用于标识M×K第一源矩阵(区块)的第一源矩阵(区块)标识符“tsrc1”以及用于标识K×N第二源矩阵(区块)的第二源矩阵(区块)标识符“tsrc2”。

在一些实施例中，所标识的第一源、第二源和目的地矩阵中的每一个都使用寄存器集合和多个存储器位置中的一个来表示矩阵。

如图所示，如果几个错误检查中的任何一个失败，则伪代码2400首先使执行电路生成故障。例如，如果tdest、tsrc1和tsrc2中的任一个将PAIR参数设置为TRUE(真)，则会生成故障。

伪代码2400进一步定义“extend_src”宏来对有符号的源数据值进行符号扩展或对无符号的源数据值进行零扩展。如果两个源数据值都是无符号的，则伪代码2400进一步定义“saturation_fn”宏以执行无符号饱和，并且如果源数据值中的任一个或两个是有符号的，则要执行有符号饱和。对于有符号饱和，当单个结果超出有符号双字整数的范围(即大于7FFF_FFFFH或小于8000_0000H)时，分别将饱和值7FFF_FFFFH或8000_0000H写入目的地操作数。对于无符号饱和，当单个结果值超出无符号双字的范围(即大于FFFF_FFFFH)时，将饱和无符号双字整数值FFFF_FFFFH存储在双字目的地中。

伪代码2400在由处理器执行时使处理器计算两个双字操作数的数量积——每个双字操作数包含八个4位(半字节)元素——以及双字累加和饱和。如上文解释的，所述4位元素是有符号或无符号的，并且如果任一操作数是有符号的则饱和是有符号的。伪代码2400使处理器执行多个嵌套的for循环以对所标识的目的地矩阵的每个元素(M，N)执行K次流程，所述流程包括通过将所标识的第一源矩阵的双字元素(M，K)的每个经符号扩展或零扩展的半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应的经符号扩展或零扩展的半字节来产生八个乘积。每个半字节乘法的结果被存储在双字tprod[b]中，因此将保持精确的精度。伪代码2400进一步使处理器用所标识的目的地矩阵的双字元素(M，N)的先前内容来累加这八个乘积并使之饱和(有符号或无符号)。伪代码2400使处理器将目的地矩阵(区块)的任何其余的已配置行归零，并使指针复位以用于该函数的下一次调用。

在一些实施例中，执行电路在对所标识的目的地矩阵的每个元素(M，N)实行该流程之后保存状态，并且在故障的情况下，在从故障恢复之后使用所保存的状态来继续执行，其中所述状态至少包括目的地矩阵行指针和目的地矩阵元素指针。

图24B是描述处理器执行TDP4BIT指令所使用的辅助函数的实施例的示例性伪代码。伪代码2450定义“write_row_and_zero(treg，r，data，nbytes)”函数。伪代码2452定义“zero_upper_rows(treg，r)”函数。伪代码2454定义“zero_tileconfig_start()”函数。

图24A和图24B中的伪代码借助于其包括的函数名称和变量名称而是自编文件。

另外的示例

示例1提供了一种处理器，包括：解码电路，其要解码区块数量积指令，所述区块数量积指令具有用于操作码、用于标识M×N目的地矩阵的目的地标识符、用于标识M×K第一源矩阵的第一源标识符以及用于标识K×N第二源矩阵的第二源标识符的字段，所述矩阵中的每一个都要包含双字元素；以及执行电路，其要通过对所标识的目的地矩阵的每个元素(M，N)实行K次流程来执行所解码的指令，所述流程包括：通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容累加所述八个乘积并使之饱和。

示例2包括示例1的示例性处理器的实质，其中，所述执行电路进一步要在出现故障条件时生成故障，所述故障条件包括以下中的任何一个或多个：所标识的第一和第二源矩阵中的一个或多个具有被设置为TRUE的PAIR参数；所标识的第一和第二源矩阵中的一个或多个具有未被设置为TRUE的VALID参数；所标识的目的地矩阵具有与所标识的第一源矩阵的行数不同的行数；所标识的目的地矩阵具有与所标识的第二源矩阵的列数不同的列数；以及所标识的第一源、第二源和目的地矩阵中的一个或多个具有超出最大尺寸的尺寸，所述尺寸包括矩阵的行和列的数量。

示例3包括示例1的示例性处理器的实质，其中，所述执行电路进一步要基于所述半字节的符号对正在相乘的每个半字节进行符号扩展或零扩展。

示例4包括示例1的示例性处理器的实质，其中，所述饱和包括有符号饱和或无符号饱和，这取决于所述八个乘积的符号。

示例5包括示例1的示例性处理器的实质，其中，将每次半字节相乘的结果存储在双字寄存器中。

示例6包括示例1-5中的任一项的示例性处理器的实质，其中，M是2、4、8和16中的一个，N是2、4、8、16和32中的一个，并且K是1、2、4、8和16中的一个。

示例7包括示例1-5中的任一项的示例性处理器的实质，其中，所述执行电路在对所标识的目的地矩阵的每个元素(M，N)实行所述流程之后保存状态，并且在故障的情况下，在从所述故障恢复之后使用所保存的状态来继续执行所述K次流程；其中，所述状态至少包括目的地矩阵行指针和目的地矩阵元素指针。

示例8包括示例1-5中的任一项的示例性处理器的实质，其中，所标识的第一和第二源矩阵各自使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例9包括示例1-5中的任一项的示例性处理器的实质，其中，所标识的目的地矩阵使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例10包括示例1-5中的任一项的示例性处理器的实质，其中，所述操作码进一步指示第一和第二源矩阵中的每一个是包含有符号元素还是无符号元素。

示例11提供了一种方法，包括：通过解码电路来解码区块数量积指令，所述区块数量积指令具有用于操作码、用于标识M×N目的地矩阵的目的地标识符、用于标识M×K第一源矩阵的第一源标识符以及用于标识K×N第二源矩阵的第二源标识符的字段，所述矩阵中的每一个都要包含双字元素；以及通过执行电路来通过对所标识的目的地矩阵的每个元素(M，N)实行K次流程来执行所解码的指令，所述流程包括：通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容累加所述八个乘积并使之饱和。

示例12包括示例11的示例性方法的实质，进一步包括：当出现故障条件时，通过所述执行电路生成故障，所述故障条件包括以下中的任何一个或多个：所标识的第一和第二源矩阵中的一个或多个具有被设置为TRUE的PAIR参数；所标识的第一和第二源矩阵中的一个或多个具有未被设置为TRUE的VALID参数；所标识的目的地矩阵具有与所标识的第一源矩阵的行数不同的行数；所标识的目的地矩阵具有与所标识的第二源矩阵的列数不同的列数；以及所标识的第一源、第二源和目的地矩阵中的一个或多个具有超出最大尺寸的尺寸，所述尺寸包括矩阵的行和列的数量。

示例13包括示例11的示例性方法的实质，进一步包括：通过所述执行电路基于所述半字节的符号对正在相乘的每个半字节进行符号扩展或零扩展。

示例14包括示例11的示例性方法的实质，其中，所述饱和包括有符号饱和或无符号饱和，这取决于所述八个乘积的符号。

示例15包括示例11的示例性方法的实质，进一步包括：通过所述执行电路存储双字寄存器中的半字节的每次相乘的结果。

示例16包括示例11-15中的任一项的示例性方法的实质，其中，M是2、4、8和16中的一个，N是2、4、8、16和32中的一个，并且K是1、2、4、8和16中的一个。

示例17包括示例11-15中的任一项的示例性方法的实质，进一步包括：在对所标识的目的地矩阵的每个元素(M，N)实行所述流程之后保存状态，并且在故障的情况下，在从所述故障恢复之后使用所保存的状态来继续执行所述K次流程；其中，所述状态至少包括目的地矩阵行指针和目的地矩阵元素指针。

示例18包括示例11-15中的任一项的示例性方法的实质，其中，所标识的第一和第二源矩阵各自使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例19包括示例11-15中的任一项的示例性方法的实质，其中，所标识的目的地矩阵使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例20包括示例11-15中的任一项的示例性方法的实质，其中，所述操作码进一步指示第一和第二源矩阵中的每一个是包含有符号元素还是无符号元素。

示例21提供了一种系统，其包括：存储器和处理器，所述处理器包括：解码电路，其要解码区块数量积指令，所述区块数量积指令具有用于操作码、用于标识M×N目的地矩阵的目的地标识符、用于标识M×K第一源矩阵的第一源标识符以及用于标识K×N第二源矩阵的第二源标识符的字段，所述矩阵中的每一个都要包含双字元素；以及执行电路，其要通过对所标识的目的地矩阵的每个元素(M，N)实行K次流程来执行所解码的指令，所述流程包括：通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容累加所述八个乘积并使之饱和。

示例22包括示例21的示例性系统的实质，其中，所述执行电路进一步要在出现故障条件时生成故障，所述故障条件包括以下中的任何一个或多个：所标识的第一和第二源矩阵中的一个或多个具有被设置为TRUE的PAIR参数；所标识的第一和第二源矩阵中的一个或多个具有未被设置为TRUE的VALID参数；所标识的目的地矩阵具有与所标识的第一源矩阵的行数不同的行数；所标识的目的地矩阵具有与所标识的第二源矩阵的列数不同的列数；以及所标识的第一源、第二源和目的地矩阵中的一个或多个具有超出最大尺寸的尺寸，所述尺寸包括矩阵的行和列的数量。

示例23包括示例21的示例性系统的实质，其中，所述执行电路进一步要基于所述半字节的符号对正在相乘的每个半字节进行符号扩展或零扩展。

示例24包括示例21的示例性系统的实质，其中，所述饱和包括有符号饱和或无符号饱和，这取决于所述八个乘积的符号。

示例25包括示例21的示例性系统的实质，其中，将每次半字节相乘的结果存储在双字寄存器中。

示例26包括示例21-25中的任一项的示例性系统的实质，其中，M是2、4、8和16中的一个，N是2、4、8、16和32中的一个，并且K是1、2、4、8和16中的一个。

示例27包括示例21-25中的任一项的示例性系统的实质，其中，所述执行电路在对所标识的目的地矩阵的每个元素(M，N)实行所述流程之后保存状态，并且在故障的情况下，在从所述故障恢复之后使用所保存的状态来继续执行所述K次流程；其中，所述状态至少包括目的地矩阵行指针和目的地矩阵元素指针。

示例28包括示例21-25中的任一项的示例性系统的实质，其中，所标识的第一和第二源矩阵各自使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例29包括示例21-25中的任一项的示例性系统的实质，其中，所标识的目的地矩阵使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例30包括示例21-25中的任一项的示例性系统的实质，其中，所述操作码进一步指示第一和第二源矩阵中的每一个是包含有符号元素还是无符号元素。

示例31提供了一种包含指令的非暂时性机器可读介质，所述指令在被处理器执行时使得所述处理器：通过解码电路来解码区块数量积指令，所述区块数量积指令具有用于操作码、用于标识M×N目的地矩阵的目的地标识符、用于标识M×K第一源矩阵的第一源标识符以及用于标识K×N第二源矩阵的第二源标识符的字段，所述矩阵中的每一个都要包含双字元素；以及通过执行电路来通过对所标识的目的地矩阵的每个元素(M，N)实行K次流程来执行所解码的指令，所述流程包括：通过将所标识的第一源矩阵的双字元素(M，K)的每个半字节乘以所标识的第二源矩阵的双字元素(K，N)的对应半字节来产生八个乘积；以及用所标识的目的地矩阵的双字元素(M，N)的先前内容累加所述八个乘积并使之饱和。

示例32包括示例31的示例性非暂时性机器可读介质的实质，其进一步包含指令，所述指令在被所述处理器执行时使得所述处理器：当出现故障条件时，通过所述执行电路生成故障，所述故障条件包括以下中的任何一个或多个：所标识的第一和第二源矩阵中的一个或多个具有被设置为TRUE的PAIR参数；所标识的第一和第二源矩阵中的一个或多个具有未被设置为TRUE的VALID参数；所标识的目的地矩阵具有与所标识的第一源矩阵的行数不同的行数；所标识的目的地矩阵具有与所标识的第二源矩阵的列数不同的列数；以及所标识的第一源、第二源和目的地矩阵中的一个或多个具有超出最大尺寸的尺寸，所述尺寸包括矩阵的行和列的数量。

示例33包括示例31的示例性非暂时性机器可读介质的实质，其进一步包含指令，所述指令在被所述处理器执行时使得所述处理器：通过所述执行电路基于所述半字节的符号对正在相乘的每个半字节进行符号扩展或零扩展。

示例34包括示例31的示例性非暂时性机器可读介质的实质，其中，所述饱和包括有符号饱和或无符号饱和，这取决于所述八个乘积的符号。

示例35包括示例31的示例性非暂时性机器可读介质的实质，其进一步包含指令，所述指令在被所述处理器执行时使得所述处理器：通过所述执行电路存储双字寄存器中的半字节的每次相乘的结果。

示例36包括示例31-35中的任一项的示例性非暂时性机器可读介质的实质，其中，M是2、4、8和16中的一个，N是2、4、8、16和32中的一个，并且K是1、2、4、8和16中的一个。

示例37包括示例31-35中的任一项的示例性非暂时性机器可读介质的实质，其进一步包含指令，所述指令在被所述处理器执行时使得所述处理器：在对所标识的目的地矩阵的每个元素(M，N)实行所述流程之后保存状态，并且在故障的情况下，在从所述故障恢复之后使用所保存的状态来继续执行所述K次流程；其中，所述状态至少包括目的地矩阵行指针和目的地矩阵元素指针。

示例38包括示例31-35中的任一项的示例性非暂时性机器可读介质的实质，其中，所标识的第一和第二源矩阵各自使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例39包括示例31-35中的任一项的示例性非暂时性机器可读介质的实质，其中，所标识的目的地矩阵使用寄存器集合和多个存储器位置中的一个来表示矩阵。

示例40包括示例31-35中的任一项的示例性非暂时性机器可读介质的实质，其中，所述操作码进一步指示第一和第二源矩阵中的每一个是包含有符号元素还是无符号元素。

示例41提供了一种装置，包括：多个存储控制器；耦合到所述多个存储器控制器的二级(L2)高速缓存存储器；以及耦合到所述多个存储器控制器并耦合到所述L2高速缓存存储器的处理器，所述处理器具有多个核，核包括用于执行对应于指令的操作的电路，所述指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符，所述操作包括：针对第一矩阵的M行中的每个行m，并且针对第二矩阵的N列中的每个列n：针对第一矩阵的行m的K个32位元素中的每一个：将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素要基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

示例42包括示例41的示例性装置的实质，其中，所述操作进一步包括执行饱和以生成所述32位结果数据元素。

示例43包括示例42的示例性装置的实质，其中，执行饱和包括执行有符号饱和。

示例44包括示例41的示例性装置的实质，其中，K是4。

示例45包括示例44的示例性装置的实质，其中，M是2、4、8和16之一。

示例46包括示例41的示例性装置的实质，其中，第一矩阵要存储在所述处理器的多个寄存器中，并且其中，第二矩阵要存储在所述处理器的多个寄存器中。

示例47包括示例41的示例性装置的实质，进一步包括耦合到所述处理器的互连接口。

示例48包括示例41的示例性装置的实质，进一步包括耦合到所述处理器的总线控制器接口。

示例49包括示例41的示例性装置的实质，其中，所述核包括图形核。

示例50包括示例41的示例性装置的实质，其中，所述核包括异构图形核。

示例51包括示例41的示例性装置的实质，进一步包括指令转换器，用于将所述指令转换成可由所述核执行的不同指令集的一个或多个指令。

示例52包括示例41的示例性装置的实质，其中，第一和第二矩阵中的一个的4位数据元素是有符号的，而第一和第二矩阵中的另一个的4位数据元素是无符号的。

示例53提供了一种装置，包括：要接收指令的电路，所述指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符；以及执行电路，其要执行与所述指令相对应的操作，包括：针对第一矩阵的M行中的每个行m，并且针对第二矩阵的N列中的每个列n：针对第一矩阵的行m的K个32位元素中的每一个：将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素要基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

示例54提供了一种装置，包括：指令转换器，其要将第一指令转换成一个或多个其他指令，所述第一指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符；以及执行电路，其要执行与所述第一指令相对应的操作，包括：针对第一矩阵的M行中的每个行m，并且针对第二矩阵的N列中的每个列n：针对第一矩阵的行m的K个32位元素中的每一个：将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素要基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

示例55提供了一种方法，包括：使用多个存储控制器来访问存储器；将数据存储在二级(L2)高速缓存存储器中；以及用具有多个核的处理器处理数据，这包括执行对应于指令的操作，所述指令指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符，所述操作包括：针对第一矩阵的M行中的每个行m，并且针对第二矩阵的N列中的每个列n：针对第一矩阵的行m的K个32位元素中的每一个：将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素是基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

示例56包括示例55的示例性方法的实质，其中，所述操作进一步包括执行饱和以生成所述32位结果数据元素。

示例57包括示例56的示例性方法的实质，其中，执行饱和包括执行有符号饱和。

示例58包括示例55的示例性方法的实质，其中，K是4。

示例59包括示例55的示例性方法的实质，其中，M是2、4、8和16之一。

示例60包括示例55的示例性方法的实质，进一步包括从所述处理器的多个寄存器访问第一矩阵、以及从所述处理器的多个寄存器访问第二矩阵。

示例61包括示例55的示例性方法的实质，其中，所述核包括异构图形核。

示例62包括示例55的示例性方法的实质，进一步包括将所述指令转换成可由所述核执行的不同指令集的一个或多个指令。

示例63包括示例55的示例性方法的实质，其中，第一和第二矩阵中的一个的4位数据元素是有符号的，而第一和第二矩阵中的另一个的4位数据元素是无符号的。

示例64提供了一种具有指令的机器可读介质，所述指令在被执行时使所述机器实行示例55至63中的一个的示例性方法。

示例65提供了一种装置，其包括用于执行示例55至63中的一个的示例性方法的部件。

V.详细的示例性系统、处理器和仿真

本文详述了用于执行上述指令的硬件、软件等的示例。例如，下文描述的内容详述了指令执行的各个方面，包括各种流水线阶段，诸如提取、解码、调度、执行、引退等。

指令集

指令集可以包括一个或多个指令格式。给定指令格式可以定义用于除其他之外指定要执行的操作(例如操作码)和要对其执行操作的(一个或多个)操作数的各个字段(例如位的数量、位的位置)和/或(一个或多个)其他数据字段(例如掩码)。一些指令格式通过定义指令模板(或子格式)被进一步分解。例如，给定指令格式的指令模板可以被定义成具有指令格式的字段的不同子集(所包括的字段通常是以相同的顺序，但是因为包括了较少的字段，所以至少一些具有不同的位位置)和/或被定义成具有以不同方式解释的给定字段。因此，ISA的每个指令使用给定指令格式(并且如果被定义的话，以该指令格式的指令模板中的给定的一个)来表示，并且包括用于指定操作和操作数的字段。例如，示例性ADD指令具有特定的操作码和指令格式，该指令格式包括用于指定操作码的操作码字段和用于选择操作数(源1/目的地和源2)的操作数字段；并且该ADD指令在指令流中的出现将在选择特定操作数的操作数字段中具有特定内容。已经发布和/或公布了称为高级向量扩展(AdvancedVector Extensions，AVX)(AVX1和AVX2)并且使用向量扩展(VEX)编码方案的一组SIMD扩展(例如，参见2014年9月的64和IA-32架构软件开发人员手册；并且参见2014年10月的高级向量扩展编程参考)。

示例性指令格式

可以以不同格式来具体化本文描述的(一个或多个)指令的实施例。另外，下面详述示例性系统、架构和流水线。所述(一个或多个)指令的实施例可以在这样的系统、架构和流水线上执行，但是不限于详述的那些。

通用向量友好指令格式

向量友好指令格式是适合于向量指令的指令格式(例如存在专用于向量操作的某些字段)。虽然描述了其中通过向量友好指令格式来支持向量和标量操作二者的实施例，但是替换实施例仅使用向量友好指令格式的向量操作。

图25A-25B是例示根据本发明实施例的通用向量友好指令格式及其指令模板的框图。图25A是例示根据本发明实施例的通用向量友好指令格式及其A类指令模板的框图；而图25B是例示根据本发明实施例的通用向量友好指令格式及其B类指令模板的框图。具体来说，通用向量友好指令格式2500，为其定义了A类和B类指令模板，所述A类和B类指令模板二者都包括无存储器访问2505指令模板和存储器访问2520指令模板。在向量友好指令格式的上下文中的术语通用指的是未绑定到任何特定指令集的指令格式。

虽然将描述本发明的以下实施例，即在所述实施例中向量友好指令格式支持以下：具有32位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且因此，64字节向量由16个双字大小的元素或替换地由8个四字大小的元素组成)；具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)；具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小)；以及具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小)；但是替换实施例可以支持具有更多、更少或不同数据元素宽度(例如，128位(16字节)数据元素宽度)的更多、更少和/或不同的向量操作数大小(例如，256字节向量操作数)。

图25A中的A类指令模块包括：1)在无存储器访问2505指令模板内，示出无存储器访问、全舍入控制类型操作2510指令模板和无存储器访问、数据变换类型操作2515指令模板；以及2)在存储器访问2520指令模板内，示出存储器访问、临时2525指令模板和存储器访问、非临时2530指令模板。图25B中的B类指令模块包括：1)在无存储器访问2505指令模板内，示出无存储器访问、写掩码控制、部分舍入控制类型操作2512指令模板和无存储器访问、写掩码控制、vsize类型操作2517指令模板；以及2)在存储器访问2520指令模板内，示出存储器访问、写掩码控制2527指令模板。

该通用向量友好指令格式2500包括下文按图25A-25B中例示的顺序列出的以下字段。

格式字段2540——该字段中的特定值(指令格式标识符值)唯一标识向量友好指令格式以及因此的指令以向量友好指令格式在指令流中的出现。照此，该字段在以下意义上是可选的，即该字段对于仅具有通用向量友好指令格式的指令集来说是不需要的。

基础操作字段2542——其内容区分不同的基础操作。

寄存器索引字段2544——其内容直接地或通过地址生成来指定源和目的地操作数的位置(无论它们是在寄存器中还是在存储器中)。这些包括足以从PxQ(例如，32x512、16x128、32x1024、64x1024)寄存器文件选择N个寄存器的位数。虽然在一个实施例中N可以是高达3个源和一个目的地寄存器，但是替换实施例可以支持更多或更少的源和目的地寄存器(例如，可以支持高达两个源，其中这些源中的一个也充当目的地；可以支持高达三个源，其中这些源中的一个也充当目的地；可以支持高达两个源和一个目的地)。

修饰符字段2546——其内容将指定存储器访问的通用向量指令格式的指令的出现与不指定存储器访问的那些指令的出现进行区分；也就是说，在无存储器访问2505指令模板和存储器访问2520指令模板之间进行区分。存储器访问操作读取和/或写入存储器层级(在一些情况下使用寄存器中的值来指定源和/或目的地地址)，而非存储器访问操作不读取和/或写入存储器层级(例如，源和目的地是寄存器)。虽然在一个实施例中，该字段也在用于执行存储器地址计算的三种不同方式之间进行选择，但替换实施例可以支持用于执行存储器地址计算的更多、更少或不同的方式。

扩增操作字段2550——其内容区分除了基础操作之外要执行多个不同操作中的哪一个。该字段是上下文特定的。在本发明的一个实施例中，该字段被划分成类别字段2568、α字段2552、和β字段2554。扩增操作字段2550允许在单个指令中而不是在2个、3个或4个指令中执行共同的操作组。

比例字段2560——其内容允许对于存储器地址生成(例如，对于使用2^比例*索引+基址的地址生成)的索引字段内容进行缩放。

位移字段2562A——其内容被用作存储器地址生成的一部分(例如，对于使用2^比例*索引+基址+位移的地址生成)。

位移因数字段2562B(注意，位移字段2562A直接在位移因数字段2562B上的并置指示一个或另一个被使用)——其内容被用作地址生成的一部分；它指定要按存储器访问的大小(N)进行缩放的位移因数，其中N是存储器访问中的字节数(例如，对于使用2^比例*索引+基址+经缩放的位移的地址生成)。忽略冗余低阶位并且因此使位移因数字段的内容乘以存储器操作数总大小(N)以便生成要在计算有效地址中使用的最终位移。由处理器硬件在运行时基于全操作码字段2574(在本文中稍后描述)和数据操纵字段2554C来确定N的值。位移字段2562A和位移因数字段2562B在以下意义上是可选的，即它们不被用于无存储器访问2505指令模板，和/或不同实施例可以实现两个中的仅一个或者两个都不实现。

数据元素宽度字段2564——其内容区分要使用多个数据元素宽度中的哪一个(在一些实施例中针对所有指令；在其他实施例中仅针对指令中的一些)。该字段在以下意义上是可选的，即如果仅支持一个数据元素宽度和/或使用操作码的一些方面来支持数据元素宽度则该字段是不需要的。

写掩码字段2570——其内容基于每数据元素位置来控制目的地向量操作数中的该数据元素位置是否反映基础操作和扩增操作的结果。A类指令模板支持归并写掩蔽，而B类指令模板支持归并写掩蔽和归零写掩蔽二者。当归并时，向量掩码允许目的地中的任何元素集受保护以免在(由基础操作和扩增操作指定的)任何操作的执行期间更新；在另一实施例中，保留目的地的每个元素的旧值，其中对应的掩码位具有0。相比之下，当归零时，向量掩码允许目的地中的任何元素集在(由基础操作和扩增操作指定的)任何操作的执行期间被归零；在一个实施例中，当对应的掩码位具有0值时，目的地的元素被设置成0。该功能性的子集是用于控制被执行的操作的向量长度的能力(即被修改的元素的跨距，从第一个到最后一个)；然而，被修改的元素不一定是连续的。因此，写掩码字段2570允许部分向量操作，包括加载、存储、算术、逻辑等等。虽然描述了其中写掩码字段2570的内容选择包含要被使用的写掩码的多个写掩码寄存器之一(并且因此写掩码字段2570的内容间接地标识要执行的该掩蔽)的本发明的实施例，但是替换实施例替代地或附加地允许掩码写字段2570的内容直接指定要执行的掩蔽。

立即数字段2572——其内容允许对立即数的指定。该字段在以下意义上是可选的，即它在不支持立即数的通用向量友好格式的实施方式中是不存在的并且它在不使用立即数的指令中是不存在的。

类别字段2568——其内容在不同类别的指令之间进行区分。参考图25A-B，该字段的内容在A类和B类指令之间进行选择。在图25A-B中，使用圆角方形来指示在字段中存在特定值(例如，在图25A-B中分别对于类别字段2568的A类2568A和B类2568B)。

A类指令模板

在A类非存储器访问2505指令模板的情况下，α字段2552被解释为RS字段2552A，其内容区分要执行不同扩增操作类型中的哪一个(例如，为无存储器访问、舍入类型操作2510和无存储器访问、数据变换类型操作2515指令模板分别指定舍入2552A.1和数据变换2552A.2)，而β字段2554区分要执行所指定的类型的操作中的哪一个。在无存储器访问2505指令模板中，不存在比例字段2560、位移字段2562A和位移比例字段2562B。

无存储器访问指令模板——全舍入控制类型操作

在无存储器访问、全舍入控制类型操作2510指令模板中，β字段2554被解释为舍入控制字段2554A，其(一个或多个)内容提供静态舍入。虽然在本发明的所描述的实施例中，舍入控制字段2554A包括抑制所有浮点异常(SAE)字段2556和舍入操作控制字段2558，但是替换实施例可以支持可以将这两个概念编码到同一字段中或者仅具有这些概念/字段中的一个或另一个(例如，可以仅具有舍入操作控制字段2558)。

SAE字段2556——其内容区分是否禁用异常事件报告；当SAE字段2556的内容指示启用抑制时，给定指令不报告任何种类的浮点异常标志并且不引发任何浮点异常处理程序。

舍入操作控制字段2558——其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入和就近舍入)。因此，舍入操作控制字段2558允许基于每个指令改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段2550的内容覆写该寄存器值。

无存储器访问指令模板——数据变换类型操作

在无存储器访问数据变换类型操作2515指令模板中，β字段2554被解释为数据变换字段2554B，其内容区分要执行多个数据变换中的哪一个(例如，无数据变换、拌和、广播)。

在A类存储器访问2520指令模板的情况下，α字段2552被解释为驱逐提示字段2552B，其内容区分要使用驱逐提示中的哪一个(在图25A中，为存储器访问、临时2525指令模板和存储器访问、非临时2530指令模板分别指定临时2552B.1和非临时2552B.2)，而β字段2554被解释为数据操纵字段2554C，其内容区分要执行多个数据操纵操作(也被称为基元)中的哪一个(例如，无操纵；广播；源的向上转换；以及目的地的向下转换)。存储器访问2520指令模板包括比例字段2560、以及可选地位移字段2562A或位移比例字段2562B。

向量存储器指令在转换支持的情况下执行从存储器中的向量加载和至存储器的向量存储。就规则的向量指令来说，向量存储器指令以按数据元素的方式从存储器/向存储器传递数据，其中实际上传递的元素由被选择为写掩码的向量掩码的内容来决定。

存储器访问指令模板——临时

临时数据是可能很快地被再次使用以便受益于高速缓存的数据。然而，这是提示，并且不同的处理器可以以不同的方式来实现它，包括完全地忽略该提示。

存储器访问指令模板——非临时

非临时数据是不太可能很快地被再次使用以受益于第一级高速缓存中的高速缓存并且应被给予驱逐优先级的数据。然而，这是提示，并且不同的处理器可以以不同的方式来实现它，包括完全地忽略该提示。

B类指令模板

在B类指令模板的情况下，α字段2552被解释为写掩码控制(Z)字段2552C，其内容区分由写掩码字段2570控制的写掩蔽应当是归并还是归零。

在B类非存储器访问2505指令模板的情况下，β字段2554的一部分被解释为RL字段2557A，其内容区分要执行不同扩增操作类型中的哪一个(例如，为无存储器访问、写掩码控制、部分舍入控制类型操作2512指令模板和无存储器访问、写掩码控制、VSIZE类型操作2517指令模板分别指定舍入2557A.1和向量长度(VSIZE)2557A.2)，而β字段2554的其余部分区分要执行所指定的类型的操作中的哪一个。在无存储器访问2505指令模板中，不存在比例字段2560、位移字段2562A和位移比例字段2562B。

在无存储器访问、写掩码控制、部分舍入控制类型操作2510指令模板中，β字段2554的其余部分被解释为舍入操作字段2559A并且禁用异常事件报告(给定指令不报告任何种类的浮点异常标志并且不引发任何浮点异常处理程序)。

舍入操作控制字段2559A——正如舍入操作控制字段2558，其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入和就近舍入)。因此，舍入操作控制字段2559A允许基于每个指令改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段2550的内容覆写该寄存器值。

在无存储器访问、写掩码控制、VSIZE类型操作2517指令模板中，β字段2554的其余部分被解释为向量长度字段2559B，其内容区分要执行多个数据向量长度中的哪一个(例如，128、256、或512字节)。

在B类存储器访问2520指令模板的情况下，β字段2554的部分被解释为广播字段2557B，其内容区分是否要执行广播类型数据操纵操作，而β字段2554的其余部分被解释成向量长度字段2559B。存储器访问2520指令模板包括比例字段2560、以及可选地位移字段2562A或位移比例字段2562B。

关于通用向量友好指令格式2500，示出包括格式字段2540、基础操作字段2542和数据元素宽度字段2564的全操作码字段2574。虽然示出其中全操作码字段2574包括所有这些字段的一个实施例，但是在不支持所有它们的实施例中，全操作码字段2574包括少于所有这些字段。全操作码字段2574提供操作代码(操作码)。

扩增操作字段2550、数据元素宽度字段2564和写掩码字段2570允许以通用向量友好指令格式基于每个指令来指定这些特征。

写掩码字段和数据元素宽度字段的组合创建类型化指令，因为它们允许基于不同的数据元素宽度来应用掩码。

在A类和B类内找到的各种指令模板在不同情形下是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核可以仅支持A类、仅支持B类或支持两个类别。例如，意图用于通用计算的高性能通用无序核可以仅支持B类、意图主要用于图形和/或科学(吞吐量)计算的核可以仅支持A类，并且意图用于二者的核可以支持二者(当然，具有来自两个类别的模板和指令、但不是来自两个类别的所有模板和指令的某一混合的核在本发明的范围内)。而且，单个处理器可以包括多个核，所述核的全部都支持相同的类别或者其中不同的核支持不同类别。例如，在具有单独图形和通用核的处理器中，意图主要用于图形和/或科学计算的图形核中的一个可以仅支持A类，而通用核中的一个或多个可以是具有意图用于仅支持B类通用计算的无序执行和寄存器重命名的高性能通用核。不具有单独图形核的另一处理器可以包括支持A类和B类二者的一个或多个通用有序或无序核。当然，来自一个类别的特征在本发明的不同实施例中也可以在另一类别中被实现。以高级语言写的程序将会被安置(例如，仅仅及时编译或静态编译)成多种不同的可执行形式，其包括：1)仅具有为了执行由目标处理器支持的(一个或多个)类别的指令的形式；或2)具有使用所有类别的指令的不同组合写的替换例程且具有选择例程用于基于由当前正执行代码的处理器支持的指令来执行的控制流代码的形式。

示例性特定向量友好指令格式

图26A是例示根据本发明实施例的示例性特定向量友好指令格式的框图。图26A示出特定向量友好指令格式2600，其在该特定向量友好指令格式指定位置、大小、解释和字段顺序、以及用于那些字段中的一些的值的意义上是特定的。该特定向量友好指令格式2600可以被用于扩展x86指令集，并且因此所述字段中的一些与在现有x86指令集以及其扩展(例如，AVX)中使用的那些是类似的或相同的。该格式保持与前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和具有扩展的现有x86指令集的立即数字段一致。例示了来自图25的字段，其中来自图26A的字段中映射成所述来自图25的字段。

应当理解的是，尽管为了例示的目的在通用向量友好指令格式2500的上下文中参考特定向量友好指令格式2600描述了本发明的实施例，但是本发明不限于该特定向量友好指令格式2600，除了被声明的地方之外。例如，该通用向量友好指令格式2500预期对于各种字段的各种各样的可能大小，而特定向量友好指令格式2600被示出为具有特定大小的字段。通过特定示例，尽管数据元素宽度字段2564被例示为特定向量友好指令格式2600中的一位字段，但是本发明不限于此(也就是说，该通用向量友好指令格式2500预期数据元素宽度字段2564的其他大小)。

该通用向量友好指令格式2500包括下文按图26A中例示的顺序列出的以下字段。

EVEX前缀(字节0-3)2602——其是以四字节形式编码的。

格式字段2540(EVEX字节0，位[7：0])——第一字节(EVEX字节0)是格式字段2540并且它包含0x62(在本发明的一个实施例中被用于区分向量友好指令格式的唯一值)。

第二至第四字节(EVEX字节1-3)包括提供特定能力的多个位字段。

REX字段2605(EVEX字节1，位[7-5])——由EVEX.R位字段(EVEX字节1，位[7]-R)、EVEX.X位字段(EVEX字节1，位[6]-X)和2557BEX字节1，位[5]-B)组成。EVEX.R、EVEX.X、和EVEX.B位字段提供与对应的VEX位字段相同的功能性，并且使用补充1的形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。如本领域中已知的，指令的其他字段对寄存器索引的下三个位进行编码(rrr、xxx和bbb)，使得可以通过添加EVEX.R、EVEX.X和EVEX.B形成Rrrr、Xxxx和Bbbb。

REX′字段2610——这是REX′字段2610的第一部分并且是用于对扩展的32寄存器集的上16或下16编码的EVEX.R′位字段(EVEX字节1，位[4]-R′)。在本发明的一个实施例中，以位倒置格式存储该位连同如下文指示的其他位以便(以众所周知的x8632位模式)与BOUND指令区分，所述BOUND指令的实操作码字节是62，但是在(下文描述的)MOD R/M字段中不接受MOD字段中的11的值；本发明的替换实施例不以倒置格式来存储该位以及下文指示的其他位。为1的值被用于对下16寄存器编码。换言之，通过组合EVEX.R′、EVEX.R和来自其他字段的其他RRR来形成R′Rrrr。

操作码映射字段2615(EVEX字节1，位[3：0]-mmmm)——其内容对隐含前导操作码字节(0F、0F 38或0F 3)进行编码。

数据元素宽度字段2564(EVEX字节2，位[7]-W)——通过标号EVEX.W表示。EVEX.W被用于定义数据类型的粒度(大小)(32位数据元素或者64位数据元素)。

EVEX.vvvv 2620(EVEX字节2，位[6：3]-vvvv)——EVEX.vvvv的作用可以包括以下内容：1)EVEX.vvvv对以倒置(补充1)形式指定的第一源寄存器操作数进行编码并且对于具有2个或更多源操作数的指令是有效的；2)EVEX.vvvv对以补充1形式为某些向量移位指定的目的地寄存器操作数进行编码；或者3)EVEX.vvvv不对任何操作数进行编码，字段被保留并且应当包含1111b。因此，EVEX.vvvv字段2620对以倒置(补充1)形式存储的第一源寄存器指定符的4个低阶位编码。取决于指令，使用额外的不同EVEX位字段来将指定符大小扩展至32个寄存器。

EVEX.U 2568类别字段(EVEX字节2，位[2]-U)——如果EVEX.U＝0，则它指示A类或者EVEX.U0；如果EVEX.U＝1，则它指示B类或者EVEX.U1。

前缀编码字段2625(EVEX字节2，位[1：0]-pp)——提供对于基础操作字段的附加位。除了为处于EVEX前缀格式的旧有SSE指令提供支持之外，这还具有压缩SIMD前缀的益处(并非需要一个字节来表示SIMD前缀，而是EVEX前缀仅需要2个位)。在一个实施例中，为了支持以旧有格式和以EVEX前缀格式二者使用SIMD前缀(66H、F2H、F3H)的旧有SSE指令，将这些旧有SIMD前缀编码成SIMD前缀编码字段；并且在被提供给解码器的PLA之前在运行时间被扩展成旧有SIMD前缀(所以PLA可以在没有修改的情况下执行这些旧有指令的旧有格式和EVEX格式二者)。尽管较新的指令能够将EVEX前缀编码字段的内容直接用作操作码扩展，但是某些实施例为了一致性以类似的方式扩充而允许通过这些旧有SIMD前缀来指定不同含义。替换实施例可以重新设计PLA以支持2位SIMD前缀编码，并且因此不需要扩充。

α字段2552(EVEX字节3，位[7]-EH；也被称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制，和EVEX.N；也用α例示)——如先前描述的那样，该字段是上下文特定的。

β字段2554(EVEX字节3，位[6：4]-SSS，也被称为EVEX.S_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也用β β β例示)——如先前描述的那样，该字段是上下文特定的。

REX′字段2610——这是REX′字段的其余部分并且是可以被用于对扩展的32寄存器集的上16或下16进行编码的EVEX.V′位字段(EVEX字节3，位[3]——V′)。以位倒置格式来存储该位。使用值1来对下16寄存器进行编码。换言之，通过组合EVEX.V′、EVEX.vvvv来形成V′VVVV。

写掩码字段2570(EVEX字节3，位[2：0]-kkk)——如先前描述的，其内容指定寄存器在写掩码寄存器中的索引。在本发明的一个实施例中，特定值EVEX.kkk＝000具有暗示没有写掩码被用于特定指令的特殊行为(这可以以各种各样的方式(包括使用硬接线至所有的一的写掩码或绕过掩蔽硬件的硬件)来实现)。

实操作码字段2630(字节4)也被称为操作码字节。在该字段中指定操作码的部分。

MOD R/M字段2640(字节5)包括MOD字段2642、Reg字段2644、和R/M字段2646。如先前描述的，MOD字段2642的内容在存储器访问和非存储器访问操作之间进行区分。Reg字段2644的作用可以被总结成两个情形：对目的地寄存器操作数或源寄存器操作数进行编码，或者被视为操作码扩展并且不被用于对任何指令操作数进行编码。R/M字段2646的作用可以包括以下内容：对参考存储器地址的指令操作数进行编码，或对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)字节(字节6)——如先前描述的，比例字段2550的内容被用于存储器地址生成。SIB.xxx 2654和SIB.bbb2656——先前已经关于寄存器索引Xxxx和Bbbb涉及了这些字段的内容。

位移字段2562A(字节7-10)——当MOD字段2642包含10时，字节7-10是位移字段2562A，并且它与旧有的32位位移(disp32)以相同方式工作并且以字节粒度工作。

位移因数字段2562B(字节7)——当MOD字段2642包含01时，字节7是位移因数字段2562B。该字段的位置是与以字节粒度工作的旧有x86指令集8位位移(disp8)的位置相同的位置。因为disp8是符号扩展的，所以它可以仅在-128和127字节偏移之间寻址；就64字节高速缓存行来说，disp8使用可以被设置成仅四个真正有用的值-128、-64、0和64的8个位；因为常常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32相比，位移因数字段2562B是disp8的重新解释；当使用位移因数字段2562B时，通过乘以存储器操作数访问的大小(N)的位移因数字段的内容来确定实际位移。这种类型的位移被称为disp8*N。这降低平均指令长度(被用于位移但具有大得多的范围的单个字节)。这样的经压缩的位移是基于以下假设：有效位移是存储器访问的粒度的倍数，并且因此不需要对地址偏移的冗余低阶位编码。换言之，该位移因数字段2562B代替旧有x86指令集8位位移。因此，以与x86指令集8位位移相同的方式来对位移因数字段2562B编码(所以ModRM/SIB编码规则没有变化)，仅有的例外是使disp8过载成disp8*N。换言之，在编码规则或编码长度中不存在变化，但是仅在通过硬件对位移值的解释上存在变化(这需要使位移缩放存储器操作数的大小以获得按字节的地址偏移)。立即数字段2572如先前描述的那样操作。

全操作码字段

图26B是例示根据本发明的一个实施例的构成全操作码字段2574的特定向量友好指令格式2600的字段的框图。具体来说，全操作码字段2574包括格式字段2540、基础操作字段2542和数据元素宽度(W)字段2564。该基础操作字段2542包括前缀编码字段2625、操作码映射字段2615和实操作码字段2630。

寄存器索引字段

图26C是例示根据本发明的一个实施例的构成寄存器索引字段2544的特定向量友好指令格式2600的字段的框图。具体来说，寄存器索引字段2544包括REX字段2605、REX′字段2610、MODR/M.reg字段2644、MODR/M.r/m字段2646、VVVV字段2620、xxx字段2654和bbb字段2656。

扩增操作字段

图26D是例示根据本发明的一个实施例的构成扩增操作字段2550的特定向量友好指令格式2600的字段的框图。当类别(U)字段2568包含0时，它意味着EVEX.U0(A类2568A)；当它包含1时，它意味着EVEX.U1(B类2568B)。当U＝0并且MOD字段2642包含11(意味着无存储器访问操作)时，α字段2552(EVEX字节3，位[7]-EH)被解释为rs字段2552A。当rs字段2552A包含a1(舍入2552A.1)时，β字段2554(EVEX字节3，位[6：4]-SSS)被解释为舍入控制字段2554A。该舍入控制字段2554A包括一位SAE字段2556和两位舍入操作字段2558。当rs字段2552A包含0(数据变换2552A.2)时，β字段2554(EVEX字节3，位[6：4]-SSS)被解释为三位数据变换字段2554B。当U＝0且MOD字段2642包含00、01或10(意味着存储器访问操作)时，β字段2552(EVEX字节3，位[7]-EH)被解释为驱逐提示(EH)字段2552B，并且β字段2554(EVEX字节3，位[6：4]-SSS)被解释为三位数据操纵字段2554C。

当U＝1时，α字段2552(EVEX字节3，位[7]-EH)被解释为写掩码控制(Z)字段2552C。当U＝1并且MOD字段2642包含11(意味着无存储器访问操作)时，β字段2554的一部分(EVEX字节3，位[4]-S₀)被解释为RL字段2557A；当它包含1(舍入2557A.1)时，β字段2554的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为舍入操作字段2559A，而当RL字段2557A包含0(VSIZE2557.A2)时，β字段2554的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段2559B(EVEX字节3，位[6-5]-L_1-0)。当U＝1且MOD字段2642包含00、01或10(意味着存储器访问操作)时，β字段2554(EVEX字节3，位[6：4]-SSS)被解释为向量长度字段2559B(EVEX字节3，位[6：5]-L_1-0)和广播字段2557B(EVEX字节3，位[4]-B)。

示例性寄存器架构

图27是根据本发明的一个实施例的寄存器架构2700的框图。在所例示的实施例中，存在具有512位宽的32个向量寄存器2710；这些寄存器被称为zmm0至zmm31。下16个zmm寄存器的低阶256位覆盖在寄存器ymm0-16上。下16个zmm寄存器的低阶128位(ymm寄存器的低阶128位)覆盖在寄存器xmm0-15上。如在下面的表中例示的那样，该特定向量友好指令格式2600在这些覆盖的寄存器文件上操作：

换言之，该向量长度字段2559B在最大长度与一个或多个其他较短长度之间选择，其中每个这样的较短长度是在前长度的长度的一半；并且不具有向量长度字段2559B的指令模板在最大向量长度上操作。此外，在一个实施例中，特定向量友好指令格式2600的B类指令模板对打包或标量单/双精度浮点数据以及打包或标量整数数据进行操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；根据实施例，较高阶数据元素位置与它们在指令之前相同地在左侧或者被归零。

写掩码寄存器2715——在所例示的实施例中，存在8个写掩码寄存器(k0至k7)，每个在大小上都是64位。在替换实施例中，写掩码寄存器2715在大小上是16位。如先前描述的，在本发明的一个实施例中，该向量掩码寄存器k0不能被用作写掩码；当将会正常指示k0的编码被用于写掩码时，它选择0xFFFF的硬接线写掩码，有效地禁用对于该指令的写掩蔽。

通用寄存器2725——在所例示的实施例中，存在连同现有的x86寻址模式一起用于对存储器操作数寻址的十六个64位通用寄存器。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8至R15来参考这些寄存器。

标量浮点堆栈寄存器文件(x87堆栈)2745(其别名为MMX打包整数平面寄存器文件2750)——在所例示的实施例中，该x87堆栈是被用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素堆栈；而MMX寄存器被用于对64位打包整数数据执行操作以及对于在MMX和XMM寄存器之间执行的一些操作保持操作数。

本发明的替换实施例可以使用更宽或更窄的寄存器。另外，本发明的替换实施例可以使用更多、更少或不同的寄存器文件和寄存器。

示例性核架构、处理器和计算机架构

为了不同目的可以以不同的方式并且在不同处理器中实现处理器核。例如，这样的核的实现可以包括：1)意图用于通用计算的通用有序核；2)意图用于通用计算的高性能通用无序核；3)意图主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可以包括：1)包括意图用于通用计算的一个或多个通用有序核和/或意图用于通用计算的一个或多个通用无序核的CPU；以及2)包括意图主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。这样的不同处理器导致不同的计算机系统架构，其可以包括：1)来自CPU的单独芯片上的协处理器；2)与CPU相同的封装中的单独管芯上的协处理器；3)与CPU相同的管芯上的协处理器(在其情况下，这样的协处理器有时被称为专用逻辑(诸如集成图形和/或科学(吞吐量)逻辑)，或被称为专用核)；以及4)片上系统，其可以在相同的管芯上包括所述CPU(有时被称为(一个或多个)应用核或(一个或多个)应用处理器)、上述协处理器和附加功能性。接下来描述示例性核架构，之后是示例性处理器和计算机架构的描述。

示例性核架构

有序和无序核的框图

图28A是根据本发明实施例的例示了示例性有序流水线以及示例性寄存器重命名、无序发布/执行流水线二者的框图。图28B是根据本发明实施例的例示了有序架构核的示例性实施例以及要被包括在处理器中的示例性寄存器重命名、无序发布/执行架构核二者的框图。图28A-B中的实线框例示有序流水线和有序核，而虚线框的可选附加项例示寄存器重命名、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集，将描述无序方面。

在图28A中，处理器流水线2800包括提取阶段2802、长度解码阶段2804、解码阶段2806、分配阶段2808、重命名阶段2810、调度(也已知为派遣或发布)阶段2812、寄存器读取/存储器读取阶段2814、执行阶段2816、写回/存储器写入阶段2818、异常处理阶段2822以及提交阶段2824。

图28B示出处理器核2890，其包括被耦合到执行引擎单元2850的前端单元2830，并且这两个单元都被耦合到存储器单元2870。核2890可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或者混合或替换的核类型。作为又一选项，核2890可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。

前端单元2830包括分支预测单元2832，其被耦合到指令高速缓存单元2834，指令高速缓存单元2834被耦合到指令转译后备缓冲器(TLB)2836，指令转译后备缓冲器(TLB)2836被耦合到指令提取单元2838，指令提取单元2838被耦合到解码单元2840。解码单元2840(或解码器)可以解码指令，并生成解码自原始指令、或以其他方式反映原始指令、或导出自原始指令的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号作为输出。可以使用各种不同机制来实现解码单元2840。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等等。在一个实施例中，核2890包括微代码ROM或存储用于某些宏指令的微代码的其他介质(例如，在解码单元2840中或以其他方式在前端单元2830内)。解码单元2840被耦合到执行引擎单元2850中的重命名/分配器单元2852。

执行引擎单元2850包括重命名/分配器单元2852，其被耦合到引退单元2854和一组一个或多个调度器单元2856。(一个或多个)调度器单元2856表示任何数量的不同调度器，包括保留站、中央指令窗口等等。(一个或多个)调度器单元2856被耦合到(一个或多个)物理寄存器文件单元2858。(一个或多个)物理寄存器文件单元2858中的每一个表示一个或多个物理寄存器文件，其中的不同物理寄存器文件存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如，作为要执行的下一指令的地址的指令指针)等等。在一个实施例中，(一个或多个)物理寄存器文件单元2858包括向量寄存器单元、写掩码寄存器单元以及标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器以及通用寄存器。(一个或多个)物理寄存器文件单元2858被引退单元2854重叠以说明可以以其实现寄存器重命名和无序执行的各种方式(例如，使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件；使用(一个或多个)未来文件、(一个或多个)历史缓冲器以及(一个或多个)引退寄存器文件；使用寄存器映射和寄存器池等等)。引退单元2854和(一个或多个)物理寄存器文件单元2858被耦合到(一个或多个)执行集群2860。(一个或多个)执行集群2860包括一组一个或多个执行单元2862以及一组一个或多个存储器访问单元2864。执行单元2862可以实行各种操作(例如，移位、加法、减法、乘法)并且对各种数据类型(例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点)。虽然一些实施例可以包括专用于特定功能或功能集的数个执行单元，但是其他实施例可以包括全部实行所有功能的仅一个执行单元或多个执行单元。(一个或多个)调度器单元2856、(一个或多个)物理寄存器文件单元2858以及(一个或多个)执行集群2860被示出为可能是复数的，因为某些实施例针对某些数据/操作类型创建分离的流水线(例如，标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线、和/或存储器访问流水线，它们各自具有其自己的调度器单元、(一个或多个)物理寄存器文件单元和/或执行集群——并且在分离的存储器访问流水线的情况下，实现其中该流水线的仅执行集群具有(一个或多个)存储器访问单元2864的某些实施例)。还应理解的是，在使用分离的流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行而其余的有序。

该组存储器访问单元2864被耦合到存储器单元2870，存储器单元2870包括数据TLB单元2872，数据TLB单元2872被耦合到数据高速缓存单元2874，数据高速缓存单元2874被耦合到2级(L2)高速缓存单元2876。在一个示例性实施例中，存储器访问单元2864可以包括负载单元、存储地址单元以及存储数据单元，它们中的每一个都被耦合到存储器单元2870中的数据TLB单元2872。指令高速缓存单元2834进一步被耦合到存储器单元2870中的2级(L2)高速缓存单元2876。L2高速缓存单元2876被耦合到高速缓存的一个或多个其他级并最终被耦合到主存储器。

通过示例的方式，示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线2800：1)指令提取2838实行提取和长度解码阶段2802和2804；2)解码单元2840实行解码阶段2806；3)重命名/分配器单元2852实行分配阶段2808和重命名阶段2810；4)(一个或多个)调度器单元2856实行调度阶段2812；5)(一个或多个)物理寄存器文件单元2858和存储器单元2870实行寄存器读取/存储器读取阶段2814；执行集群2860实行执行阶段2816；6)存储器单元2870和(一个或多个)物理寄存器文件单元2858实行写回/存储器写入阶段2818；7)在异常处理阶段2822中可能涉及到各种单元；以及8)引退单元2854和(一个或多个)物理寄存器文件单元2858实行提交阶段2824。

核2890可以支持一个或多个指令集(例如，x86指令集(以及被添加有较新版本的某些扩展)；加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集；加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展))，包括本文中描述的(一个或多个)指令。在一个实施例中，核2890包括用以支持打包数据指令集扩展(例如，AVX1、AVX2)的逻辑，从而允许使用打包数据来实行由许多多媒体应用使用的操作。

应当理解的是，核可以支持多线程(执行两个或更多个并行的操作集或线程集)，并且可以以各种方式来这样做，所述方式包括时间切片多线程、同时多线程(其中单个物理核为物理核正同时进行多线程的线程中的每一个提供逻辑核)或者它们的组合(例如，时间切片提取和解码以及其后的同时多线程，诸如在超线程技术中那样)。

虽然在无序执行的情境中描述了寄存器重命名，但是应理解的是，寄存器重命名可以用在有序架构中。虽然所说明的处理器的实施例还包括单独的指令和数据高速缓存单元2834/2874以及共享L2高速缓存单元2876，但是替换实施例可以具有用于指令和数据二者的单个内部高速缓存，诸如例如，1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中，系统可以包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。替换地，所有高速缓存都可以在核和/或处理器外部。

特定示例性有序核架构

图29A-B例示更具体的示例性有序核架构的框图，其核将会是芯片中的(包括相同类型和/或不同类型的其他核的)若干逻辑块中的一个。逻辑块通过具有某些固定功能逻辑、存储器I/O接口以及其他必要I/O逻辑(取决于应用)的高带宽互连网络(例如，环形网络)进行通信。

图29A是根据本发明的实施例的单个处理器核、连同其到管芯上互连网络2902的连接以及其2级(L2)高速缓存的本地子集2904的框图。在一个实施例中，指令解码器2900支持具有打包数据指令集扩展的x86指令集。L1高速缓存2906允许到标量和向量单元中的对高速缓存存储器的低延迟访问。虽然(为了简化设计)在一个实施例中标量单元2908和向量单元2910使用分离的寄存器集(分别为标量寄存器2912和向量寄存器2914)并且在它们之间传输的数据被写入到存储器并然后从1级(L1)高速缓存2906读回来，但是本发明的替换实施例可以使用不同的方法(例如，使用单个寄存器集或包括允许在两个寄存器文件之间传输数据而无需写入和读回的通信路径)。

L2高速缓存的本地子集2904是被每个处理器核一个地划分成单独的本地子集的全局L2高速缓存的一部分。每个处理器核具有到其自己的L2高速缓存的本地子集2904的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集2904中并且可以被快速访问，与其他处理器核访问它们自己的本地L2高速缓存子集并行地进行。由处理器核写入的数据被存储在其自己的L2高速缓存子集2904中并且如果必要的话从其他子集中被清除。环形网络确保了共享数据的一致性。该环形网络是双向的以允许诸如处理器核、L2高速缓存以及其他逻辑块之类的代理在芯片内与彼此通信。每个环形数据路径在每个方向上都是1024位宽。

图29B是根据本发明的实施例的图29A中的处理器核的部分的展开图。图29B包括L1数据高速缓存2906A(L1高速缓存2904的一部分)以及关于向量单元2910和向量寄存器2914的更多细节。具体来说，向量单元2910是16宽向量处理单元(VPU)(参见16宽ALU2928)，其执行整数指令、单精度浮动指令以及双精度浮动指令中的一个或多个。VPU支持用拌和单元2920来拌和寄存器输入、用数值转换单元2922A-B来数值转换以及用复制单元2924来对存储器输入进行复制。写掩码寄存器2926允许预测所得到的向量写入。

图30是根据本发明实施例的可以具有多于一个核、可以具有集成存储器控制器并且可以具有集成图形装置的处理器3000的框图。图30中的实线框例示具有单个核3002A、系统代理3010、一组一个或多个总线控制器单元3016的处理器3000，而虚线框的可选附加例示具有多个核3002A-N、系统代理单元3010中的一组一个或多个集成存储器控制器单元3014以及专用逻辑3008的替换处理器3000。

因此，处理器3000的不同实现可以包括：1)具有专用逻辑3008的CPU被集成有图形装置和/或科学(吞吐量)逻辑(其可以包括一个或多个核)，并且核3002A-N是一个或多个通用核(例如，通用有序核、通用无序核、二者的组合)；2)具有核3002A-N的协处理器，所述核3002A-N是大量的专用核，其主要用于图形和/或科学(吞吐量)；以及3)具有核3002A-N的协处理器，所述核3002A-N是大量的通用有序核。因此，处理器3000可以是通用处理器、协处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量多集成核(MIC)协处理器(包括30或更多个核)、嵌入式处理器等等。可以在一个或多个芯片上实现处理器。处理器3000可以是一个或多个基板的一部分，或者可以使用多种工艺技术(诸如例如，BiCMOS、CMOS或NMOS)中的任何一种将处理器3000实现在一个或多个基板上。

存储器层级包括核内的高速缓存的一个或多个级，一组一个或多个共享高速缓存单元3006以及被耦合到该组集成存储器控制器单元3014的外部存储器(未示出)。该组共享高速缓存单元3006可以包括一个或多个中间级高速缓存，诸如2级(L2)、3级(L3)、4级(L4)或其他级的高速缓存、末级高速缓存(LLC)和/或其组合。虽然在一个实施例中基于环形的互连单元3012互连集成图形逻辑3008(集成图形逻辑3008是专用逻辑的示例并且在本文中也称为专用逻辑)、该组共享高速缓存单元3006以及系统代理单元3010/(一个或多个)集成存储器控制器单元3014，但是替换实施例可以使用任何数量的公知技术来互连此类单元。在一个实施例中，在一个或多个高速缓存单元3006和核3002A-N之间维持一致性。

在一些实施例中，核3002A-N中的一个或多个能够实现多线程。系统代理3010包括协调和操作核3002A-N的那些组件。系统代理单元3010可以包括例如功率控制单元(PCU)和显示单元。PCU可以是或者包括调节核3002A-N和集成图形逻辑3008的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

就架构指令集而言，核3002A-N可以是同构的或是异构的；即，核3002A-N中的两个或更多个可以能够执行相同的指令集，而其他核可以能够执行该指令集的仅子集或者执行不同的指令集。

示例性计算机架构

图31-34是示例性计算机架构的框图。在针对膝上型计算机、台式计算机、手持式PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持式设备以及各种其他电子设备的领域中已知的其他系统设计和配置也是合适的。一般来说，能够并入如本文中公开的处理器和/或其他执行逻辑的大量的各种各样的系统或电子设备一般都是合适的。

现在参考图31，示出了根据本发明的一个实施例的系统3100的框图。系统3100可以包括一个或多个处理器3110、3115，它们被耦合到控制器集线器3120。在一个实施例中，控制器集线器3120包括图形存储器控制器集线器(GMCH)3190以及输入/输出集线器(IOH)3150(其可以在分离的芯片上)；GMCH 3190包括存储器和图形控制器，存储器3140和协处理器3145被耦合到所述存储器和图形控制器；IOH 3150将输入/输出(I/O)设备3160耦合到GMCH 3190。替换地，存储器和图形控制器中的一个或二者被集成在(如本文中描述的)处理器内，存储器3140和协处理器3145被直接耦合到处理器3110和与IOH 3150在单个芯片中的控制器集线器3120。

在图31中用折线标明了附加处理器3115的可选性质。每个处理器3110、3115可以包括本文中描述的处理核中的一个或多个并且可以是处理器3000的某一版本。

存储器3140可以例如是动态随机访问存储器(DRAM)、相变存储器(PCM)或二者的组合。针对至少一个实施例，控制器集线器3120经由多点总线3195与(一个或多个)处理器3110、3115通信，所述多点总线诸如前侧总线(FSB)、点到点接口(诸如快速路径互连(QPI))或者类似连接。

在一个实施例中，协处理器3145是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中，控制器集线器3120可以包括集成图形加速器。

就包括架构、微架构、热学、功率消耗特性等的优点的度量谱而言，在物理资源3110、3115之间可以有各种差异。

在一个实施例中，处理器3110执行控制通用类型的数据处理操作的指令。嵌入在指令内的可以是协处理器指令。处理器3110将这些协处理器指令识别为应由附连的协处理器3145来执行的类型。因而，处理器3110在协处理器总线或其他互连上将这些协处理器指令(或表示协处理器指令的控制信号)发给协处理器3145。(一个或多个)协处理器3145接受并执行接收到的协处理器指令。

现在参考图32，示出了根据本发明的实施例的第一更具体的示例性系统3200的框图。如图32中所示，多处理器系统3200是点到点互连系统，并且包括经由点到点互连3250进行耦合的第一处理器3270和第二处理器3280。处理器3270和3280中的每一个可以是处理器3000的某一版本。在本发明的一个实施例中，处理器3270和3280分别是处理器3110和3115，而协处理器3238是协处理器3145。在另一实施例中，处理器3270和3280分别是处理器3110和协处理器3145。

处理器3270和3280被示出为分别包括集成存储器控制器(IMC)单元3272和3282。处理器3270还包括点到点(P-P)接口3276和3278作为其总线控制器单元的一部分；类似地，第二处理器3280包括P-P接口3286和3288。处理器3270、3280可以使用P-P接口电路3278、3288经由点到点(P-P)接口3250交换信息。如图32中所示，IMC 3272和3282将处理器耦合到相应的存储器、即存储器3232和存储器3234，它们可以是本地附连到相应处理器的主存储器的部分。

处理器3270、3280可以使用点到点接口电路3276、3294、3286、3298经由单独的P-P接口3252、3254与芯片集3290交换信息。芯片集3290可以可选地经由高性能接口3292与协处理器3238交换信息。在一个实施例中，协处理器3238是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。

共享高速缓存(未示出)可以被包括在任一处理器中或者在两个处理器外部，又或者经由P-P互连与处理器连接，使得如果处理器被置入到低功率模式中则任一或两个处理器的本地高速缓存信息可以被存储在共享高速缓存中。

芯片集3290可以经由接口3296被耦合到第一总线3216。在一个实施例中，第一总线3216可以是外围组件互连(PCI)总线，或者是诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图32中所示，各种I/O设备3214可以被耦合到第一总线3216以及总线桥3218，总线桥3218将第一总线3216耦合到第二总线3220。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器3215被耦合到第一总线3216。在一个实施例中，第二总线3220可以是低引脚数(LPC)总线。各种设备可以被耦合到第二总线3220，所述设备包括例如，键盘和/或鼠标3222、通信设备3227以及诸如盘驱动或其他大容量存储设备之类的存储单元3228，其在一个实施例中可以包括指令/代码和/或数据3230。此外，音频I/O 3224可以被耦合到第二总线3216。注意，其他架构也是可能的。例如，作为图32的点到点架构的替代，系统可以实现多点总线或其他此类架构。

现在参考图33，示出了根据本发明的实施例的第二更具体的示例性系统3300的框图。图32和33中的相似元件具有相似的附图标记，并且从图33中省略了图32的某些方面以便避免模糊图33的其他方面。

图33例示处理器3270、3280可以分别包括集成存储器和I/O控制逻辑(“CL”)3372和3382。因此，CL 3372、3382包括集成存储器控制器单元并且包括I/O控制逻辑。图33例示不仅存储器3232、3234被耦合到CL 3272、3282，而且I/O设备3314也被耦合到控制逻辑3272、3282。旧有I/O设备3315被耦合到芯片集3290。

现在参考图34，示出了根据本发明的实施例的SoC 3400的框图。图30中的类似元件具有相似的附图标记。而且，虚线框是更高级的SoC上的可选特征。在图34中，(一个或多个)互连单元3402被耦合到：应用处理器3410，其包括包含高速缓存单元3004A-N的一组一个或多个核3002A-N和(一个或多个)共享高速缓存单元3006；系统代理单元3010；(一个或多个)总线控制器单元3016；(一个或多个)集成存储器控制器单元3014；一组一个或多个协处理器3420，其可以包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机访问存储器(SRAM)单元3430；直接存储器访问(DMA)单元3432；以及用于耦合到一个或多个外部显示器的显示单元3440。在一个实施例中，(一个或多个)协处理器3420是专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。

可以以硬件、软件、固件或此类实现方法的组合来实现本文中公开的机制的实施例。本发明的实施例可以被实现为计算机程序或程序代码，其在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备的可编程系统上执行。

可以应用诸如图32中例示的代码3230之类的程序代码来输入指令以实行本文中描述的功能并生成输出信息。可以以已知方式将输出信息应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器的任何系统，诸如例如：数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。

可以以高级程序语言或面向对象的编程语言来实现程序代码以便与处理系统通信。如果期望的话，也可以以汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制在范围上不限于任何特定的编程语言。在任何情况下，语言可以是编译语言或解释语言。

可以通过存储在机器可读介质上的表示处理器内的各种逻辑的代表性指令来实现至少一个实施例的一个或多个方面，所述指令当被机器读取时促使所述机器制作逻辑以实行本文中描述的技术。已知为“IP核”的这样的表示可以被存储在有形的机器可读介质上并被供应给各种客户或制造设施来加载到实际上制造逻辑或处理器的制作机器中。

这样的机器可读存储介质可以在没有限制的情况下包括由机器或设备制造或形成的非暂时性有形的制品布置，包括诸如硬盘的存储介质、任何其他类型的盘(包括软盘、光盘、紧凑盘只读存储器(CD-ROM)、紧凑盘可重写设备(CD-RW)以及磁光盘)、半导体设备(诸如只读存储器(ROM)、随机访问存储器(RAM)(诸如动态随机访问存储器(DRAM)、静态随机访问存储器(SRAM))、可擦可编程只读存储器(EPROM)、闪速存储器、电可擦可编程只读存储器(EEPROM)、相变存储器(PCM))、磁卡或光卡、或者适合于存储电子指令的任何其他类型的介质。

相应地，本发明的实施例还包括包含指令或包含设计数据(诸如硬件描述语言(HDL))的非暂时性有形机器可读介质，所述设计数据定义本文中描述的结构、电路、装置、处理器和/或系统特征。这样的实施例也可以称为程序产品。

仿真(包括二进制转译、代码变形等)

在一些情况下，可以使用指令转换器来将指令从源指令集转换成目标指令集。例如，指令转换器可以将指令转译(例如，使用静态二进制转译、包括动态编译的动态二进制转译)、变形、仿真或以其他方式转换成要由核处理的一个或多个其他指令。可以以软件、硬件、固件或其组合来实现指令转换器。指令转换器可以是在处理器上、处理器外、或者部分在处理器上而部分在处理器外。

图35是根据本发明的实施例的对照使用软件指令转换器来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所例示的实施例中，指令转换器是软件指令转换器，但是替换地，指令转换器可以以软件、固件、硬件和其各种组合来实现。图35示出高级语言3502形式的程序可以使用x86编译器3504来编译以生成x86二进制代码3506，所述x86二进制代码3506可以原生地由具有至少一个x86指令集核的处理器3516来执行。具有至少一个x86指令集核的处理器3516表示基本上可以通过互相兼容地执行或以其他方式处理以下内容来实行与具有至少一个x86指令集核的英特尔处理器相同的功能的任何处理器：(1)英特尔x86指令集核的指令集的实质部分或者(2)目标为在具有至少一个x86指令集核的英特尔处理器上运行的应用或其他软件的目标代码版本，以便基本上实现与具有至少一个x86指令集核的英特尔处理器相同的结果。x86编译器3504表示可操作用于生成x86二进制代码3506(例如，目标代码)的编译器，所述二进制代码3506可以在有附加链接处理或没有附加链接处理的情况下在具有至少一个x86指令集核的处理器3516上执行。类似地，图35示出了高级语言3502形式的程序可以使用替换指令集编译器3508来进行编译以生成替换指令集二进制代码3510，其可以原生地由不具有至少一个x86指令集核的处理器3514来执行(例如，具有执行加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集和/或执行加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集的核的处理器)。使用指令转换器3512来将x86二进制代码3506转换成可以原生地由不具有x86指令集核的处理器3514来执行的代码。该经转换的代码很可能不与替换指令集二进制代码3510相同，因为能够这样做的指令转换器难以制造；然而，经转换的代码将完成一般操作并且由来自替换指令集的指令构成。因此，指令转换器3512表示通过仿真、模拟或任何其他过程而允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码3506的软件、固件、硬件或其组合。

Claims

1.一种装置，包括：

多个存储控制器；

耦合到所述多个存储器控制器的二级(L2)高速缓存存储器；以及

耦合到所述多个存储器控制器并耦合到所述L2高速缓存存储器的处理器，所述处理器具有多个核，核包括用于执行对应于指令的操作的电路，所述指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符，所述操作包括：

针对第一矩阵的M行中的每个行m，并且针对第二矩阵的N列中的每个列n：

针对第一矩阵的行m的K个32位元素中的每一个：

将第一矩阵的行m的32位元素的八个4位数据元素与第二矩阵的列n的相应32位元素的八个4位数据元素中的相应数据元素相乘，以生成八个乘积；以及

将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素要基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

2.根据权利要求1所述的装置，其中，所述操作进一步包括执行饱和以生成所述32位结果数据元素。

3.根据权利要求2所述的装置，其中，执行饱和包括执行有符号饱和。

4.根据权利要求1所述的装置，其中，K是4。

5.根据权利要求4所述的装置，其中，M是2、4、8和16之一。

6.根据权利要求1所述的装置，其中，第一矩阵要存储在所述处理器的多个寄存器中，并且其中，第二矩阵要存储在所述处理器的多个寄存器中。

7.根据权利要求1所述的装置，进一步包括耦合到所述处理器的互连接口。

8.根据权利要求1所述的装置，进一步包括耦合到所述处理器的总线控制器接口。

9.根据权利要求1所述的装置，其中，所述核包括图形核。

10.根据权利要求1所述的装置，其中，所述核包括异构图形核。

11.根据权利要求1所述的装置，进一步包括指令转换器，用于将所述指令转换成可由所述核执行的不同指令集的一个或多个指令。

12.根据权利要求1所述的装置，其中，第一和第二矩阵中的一个的4位数据元素是有符号的，而第一和第二矩阵中的另一个的4位数据元素是无符号的。

13.一种装置，包括：

要接收指令的电路，所述指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符；以及

执行电路，其要执行与所述指令相对应的操作，包括：

针对第一矩阵的行m的K个32位元素中的每一个：

14.一种装置，包括：

指令转换器，其要将第一指令转换成一个或多个其他指令，所述第一指令要指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有用于指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及用于指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符；以及

执行电路，其要执行与所述第一指令相对应的操作，包括：

针对第一矩阵的行m的K个32位元素中的每一个：

15.一种方法，包括：

使用多个存储控制器来访问存储器；

将数据存储在二级(L2)高速缓存存储器中；以及

用具有多个核的处理器处理数据，这包括执行对应于指令的操作，所述指令指示：具有M行×K列32位元素的第一矩阵，每个32位元素具有八个4位数据元素；具有K行×N列32位元素的第二矩阵，每个32位元素具有八个4位数据元素；以及具有M行×N列的第三矩阵；所述指令具有指示第一矩阵的4位数据元素是有符号还是无符号的第一指示符、以及指示第二矩阵的4位数据元素是有符号还是无符号的第二指示符，所述操作包括：

针对第一矩阵的行m的K个32位元素中的每一个：

将32位结果数据元素存储在第三矩阵的M行中的行m和N列中的列n处，所述32位结果数据元素是基于针对第一矩阵的行m的K个32位元素中的每个元素生成的八个乘积与对应于第一矩阵的行m和第二矩阵的列n的32位数据元素的累加。

16.根据权利要求15所述的方法，其中，所述操作进一步包括执行饱和以生成所述32位结果数据元素。

17.根据权利要求16所述的方法，其中，执行饱和包括执行有符号饱和。

18.根据权利要求15所述的方法，其中，K是4。

19.根据权利要求15所述的方法，其中，M是2、4、8和16之一。

20.根据权利要求15所述的方法，进一步包括从所述处理器的多个寄存器访问第一矩阵、以及从所述处理器的多个寄存器访问第二矩阵。

21.根据权利要求15所述的方法，其中，所述核包括异构图形核。

22.根据权利要求15所述的方法，进一步包括将所述指令转换成可由所述核执行的不同指令集的一个或多个指令。

23.根据权利要求15所述的方法，其中，第一和第二矩阵中的一个的4位数据元素是有符号的，而第一和第二矩阵中的另一个的4位数据元素是无符号的。

24.一种具有指令的机器可读介质，所述指令在被执行时使所述机器实行根据权利要求15至23中的任一项所述的方法。

25.一种装置，其包括用于执行根据权利要求15至23中的任一项所述的方法的部件。