CN109992243A - 用于矩阵操作的系统、方法和装置 - Google Patents

用于矩阵操作的系统、方法和装置 Download PDF

Info

Publication number
CN109992243A
CN109992243A CN201811443596.7A CN201811443596A CN109992243A CN 109992243 A CN109992243 A CN 109992243A CN 201811443596 A CN201811443596 A CN 201811443596A CN 109992243 A CN109992243 A CN 109992243A
Authority
CN
China
Prior art keywords
instruction
block
register
memory
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811443596.7A
Other languages
English (en)
Inventor
R.萨德
S.鲁巴诺维奇
A.格拉德斯坦
Z.斯珀伯
A.海内克
R.瓦伦丁
M.J.查尼
B.托尔
J.科巴尔
E.奥尔德-艾哈迈德-瓦尔
M.阿德尔曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN109992243A publication Critical patent/CN109992243A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • G06F9/30109Register structure having multiple operands in a single register

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

提供了用于矩阵操作的系统、方法和装置。本文中详述的实施例涉及矩阵(区块)操作。例如,解码电路要解码具有用于操作码和存储器地址的字段的指令,并且执行电路要执行所解码的指令以将关于用于二维数据结构的贮存器的使用的配置信息存储在所述存储器地址处。

Description

用于矩阵操作的系统、方法和装置
技术领域
本发明的领域一般涉及计算机处理器架构,并且更具体地涉及矩阵操纵。
背景技术
矩阵在诸如机器学习和其他批量数据处理之类的许多计算任务中越来越重要。
附图说明
通过示例而非限制的方式在附图的各图中例示本发明,其中相同的附图标记指示相似的元素,并且其中:
图1A和1B例示了经配置的区块(tile)的实施例;
图2例示了矩阵存储的几个示例;
图3例示了利用矩阵(区块)操作加速器的系统的实施例;
图4和图5示出了如何使用矩阵操作加速器来共享存储器的不同实施例;
图6例示了使用区块的矩阵乘法累加操作(“TMMA”)的实施例;
图7例示了链式融合乘法累加指令的迭代的执行的子集的实施例;
图8例示了链式融合乘法累加指令的迭代的执行的子集的实施例;
图9例示了链式融合乘法累加指令的迭代的执行的子集的实施例;
图10例示了链式融合乘法累加指令的迭代的执行的子集的实施例;
图11例示了根据实施例的大小为2的乘方的(power-of-two sized)SIMD实施方式,其中累加器使用大于到乘法器的输入的输入大小;
图12例示了利用矩阵操作电路的系统的实施例;
图13例示了支持使用区块的矩阵操作的处理器核流水线(pipeline)的实施例;
图14例示了支持使用区块的矩阵操作的处理器核流水线的实施例;
图15例示了以行优先格式和列优先格式表示的矩阵的示例;
图16例示了矩阵(区块)的使用的示例;
图17例示了矩阵(区块)的使用方法的实施例;
图18例示了STTILECFG指令的示例性执行;
图19例示了要支持的矩阵(区块)的描述的实施例;
图20(A)-(D)例示了(一个或多个)寄存器的示例;
图21例示了处理器为了处理STTILECFG指令所执行的方法的实施例;
图22例示了使用存储器寻址的STTILECFG指令的执行的更详细描述;
图23例示了用于STTILECFG指令的执行的示例性伪代码;
图24(A)-(C)例示了示例性指令格式;
图25是根据本发明的一个实施例的寄存器架构的框图;
图26A-B例示了有序流水线和有序核;
图27A-B例示了更具体的示例性有序核架构的框图,该核将是芯片中的(包括相同类型和/或不同类型的其他核的)若干逻辑块中的一个;
图28是根据本发明实施例的处理器2800的框图,处理器2800可以具有不止一个核,可以具有集成存储器控制器,并且可以具有集成图形装置;
图29-32是示例性计算机架构的框图;以及
图33是根据本发明实施例的对比将源指令集中的二进制指令转换成目标指令集中的二进制指令的软件指令转换器的使用的框图。
具体实施方式
在以下描述中,阐述了许多具体细节。然而要理解的是,可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下,没有详细示出公知的电路、结构和技术,以免模糊对本描述的理解。
说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是可能并非每个实施例都一定包括所述特定特征、结构或特性。而且,这些短语不一定指的是同一实施例。此外,当结合实施例描述特定特征、结构或特性时,主张无论是否明确描述,结合其他实施例实行此类特征、结构或特性是在本领域技术人员的知识范围内。
在许多主流处理器中,处理矩阵是一项困难和/或指令密集的任务。例如,矩阵的行可能被放入多个打包数据(例如,SIMD或向量)寄存器中,并且然后单独对其进行操作。例如,取决于数据大小,两个8x2矩阵的相加可能需要到四个打包数据寄存器中的加载或聚集。然后执行与来自每个矩阵的第一行对应的打包数据寄存器的第一次相加,并且执行与来自每个矩阵的第二行对应的打包数据寄存器的第二次相加。然后将所得到的打包数据寄存器分散回存储器。虽然对于小矩阵来说这种设想可能是可接受的,但对于较大的矩阵来说通常是不可接受的。
高层级讨论
本文描述的是用于支持诸如中央处理单元(CPU)、图形处理单元(GPU)和加速器之类的计算机硬件中的矩阵操作的机制。矩阵操作利用表示诸如寄存器之类的存储器的一个或多个打包区域的二维(2-D)数据结构。在本描述的各处,这些2-D数据结构称为区块。注意,矩阵可以小于区块(使用少于整个区块),或者利用多个区块(矩阵大于任何一个区块的大小)。在本描述的各处,使用矩阵(区块)语言来指示使用影响矩阵的区块执行的操作;该矩阵是否大于任何一个区块通常不相关。
可以通过不同的操作来作用于每个区块,所述不同的操作诸如本文中详述的那些并且包括但不限于:矩阵(区块)乘法、区块加法、区块减法、区块对角化(diagonal)、区块归零、区块转置、区块数量积、区块广播、区块行广播、区块列广播、区块乘法、区块乘法并累加、区块移动等。此外,对诸如使用比例和/或偏差之类的操作符的支持可以与这些操作一起使用或支持未来的非数值应用,例如,OpenCL“本地存储器”、数据压缩/解压等等。
贮存器(storage)(诸如存储器(非易失性和易失性)、寄存器、高速缓存等)的部分被布置成具有不同水平和竖直尺寸的区块。例如,区块可以具有4的水平尺寸(例如,矩阵的4行)和8的竖直尺寸(例如,矩阵的8列)。通常,水平尺寸与元素大小有关(例如,2位、4位、8位、16位、32位、64位、128位等)。可以支持多种数据类型(单精度浮点、双精度浮点、整数等)。
经配置的区块的示例性使用
图1A例示了经配置的区块的实施例。如图所示,4kB的应用存储器102上存储有4个1kB的区块,区块0 104、区块1 106、区块2 108和区块3 110。在该示例中,这4个区块不是由对组成,并且各自具有布置在行和列中的元素。区块t0 104和区块t1 106具有K行和N列的4字节元素(例如,单精度数据),其中K等于8且N=32。区块t2 108和区块t3 110具有K行和N/2列的8字节元素(例如,双精度数据)。由于双精度操作数是单精度的宽度的两倍,因此该配置与托盘(palette)一致,用于提供区块选项,从而提供具有至少4kB的总存储的至少4个名称。在操作中,可以使用加载和存储操作来从存储器加载区块以及将区块存储到存储器。取决于所使用的指令编码方案,可用应用存储器的量以及可用区块的大小、数量和配置会有所不同。
图1B例示了经配置的区块的实施例。如图所示,4kB的应用存储器122上存储有2对1kB的区块,第一对是区块t4L 124和区块t4R 126,并且第二对是区块t5L 128和区块t5R130。如图所示,区块对被划分成左区块和右区块。在其他实施例中,区块对被划分成偶区块和奇区块。在该示例中,这4个区块各自具有布置在行和列中的元素。区块t4L 124和区块t4R 126具有K行和N列的4字节元素(例如,单精度数据),其中K等于8并且N等于32。区块t5L128和区块t5R 130具有K行和N/2列的8字节元素(例如,双精度数据)。由于双精度操作数是单精度的宽度的两倍,因此该配置与托盘一致,用于提供区块选项,从而提供具有至少4kB的总存储的至少2个名称。图1A的四个区块使用各自命名1kB区块的4个名称,而图1B中的2对区块可以使用2个名称来指定成对的区块。在一些实施例中,区块指令接受成对的区块的名称作为操作数。在操作中,可以使用加载和存储操作来从存储器加载区块以及将区块存储到存储器。取决于所使用的指令编码方案,可用应用存储器的量以及可用区块的大小、数量和配置会有所不同。
在一些实施例中,区块参数是可定义的。例如,使用“托盘”来提供区块选项。示例性选项包括但不限于:区块名称数、存储行中的字节数、区块中的行数和列数等。例如,区块的最大“高度”(行数)可以被定义为:
区块最大行数=已架构的存储 /(托盘名称数*每行的字节数)。
照此,可以将应用编写成使得名称的固定使用将能够跨实施方式利用不同的存储大小。
使用区块配置(“TILECONFIG”)指令来进行区块的配置,其中在所选托盘中定义特定的区块使用。该声明包括要使用的区块名称数、每个名称(区块)所请求的行数和列数,以及在一些实施例中,每个区块的所请求的数据类型。在一些实施例中,在执行TILECONFIG指令期间进行一致性检查以确定其匹配托盘条目的约束。
示例性区块存储类型
图2例示了矩阵存储的几个示例。在(A)中,区块存储在存储器中。如图所示,每个“行”由四个打包数据元素组成。要去往下一“行”,使用跨步值。注意,行可以连续存储在存储器中。当区块存储不映射底层存储器阵列行宽时,跨步式存储器访问允许访问一行然后下一行。
从存储器加载区块和将区块存储到存储器通常是从应用存储器到打包数据行的跨步式访问。在一些实施例中,示例性TILELOAD和TILESTORE指令或在加载操作(load-op)指令中作为TILE操作数的对应用存储器的其他指令引用是可重启的,以处理(最多)2*页面故障行、未被掩蔽的浮点异常和/或每指令的中断。
在(B)中,矩阵存储在由多个寄存器构成的区块中,所述寄存器诸如打包数据寄存器(单指令、多数据(SIMD)或向量寄存器)。在此示例中,区块被覆盖(overlay)在三个物理寄存器上。通常,使用连续的寄存器,然而情况不一定是这样。
在(C)中,矩阵存储在可由区块操作中使用的融合乘法累加(FMA)电路访问的非寄存器贮存器中的区块中。该贮存器可以在FMA内部或与其相邻。另外,在下文讨论的一些实施例中,该贮存器可以用于数据元素而不是整个行或区块。
经由CPUID来报告针对TMMA架构的支持参数。在一些实施例中,信息列表包括最大高度和最大SIMD尺寸。配置TMMA架构需要指定每个区块的尺寸、每个区块的元素大小和托盘标识符。通过执行TILECONFIG指令来进行该配置。
TILECONFIG指令的成功执行启用后续的TILE操作符。TILERELEASEALL指令清除区块配置并禁用TILE操作(直到执行下一个TILECONFIG指令)。在一些实施例中,XSAVE、XSTORE等用于使用区块的上下文切换。在一些实施例中,在XSAVE中使用2个XCR0位,一个用于TILECONFIG元数据,并且一个位对应于实际的区块有效载荷数据。
TILECONFIG不仅可以配置区块使用,还可以设置状态变量,其指示该程序位于已配置区块的代码区域中。实施方式可以列举对可以与区块区域一起使用的其他指令的约束,诸如不使用现有寄存器组等。
通常用TILERELEASEALL指令来退出区块区域。它不需要任何参数,并且可以即刻使所有区块无效(指示数据不再需要任何保存或恢复),并清除与处于区块区域中相对应的内部状态。
在一些实施例中,区块操作将使超出区块配置所指定的尺寸的任何行和任何列归零。例如,在写入每一行时,区块操作将使超出所配置的列数的数据(在元素的大小方面进行分解(factoring))归零。例如,在64字节行以及配置有10行和12列的区块的情况下,写入FP32元素的操作将以12*4个字节用输出/结果数据写入前10行中的每一行,并将每一行中的其余4*4个字节归零。区块操作还将前10个已配置的行之后的任何行都完全归零。当使用具有64字节行的1K区块时,将有16行,因此在该示例中,最后6行也将被归零。
在一些实施例中,当加载数据时,上下文恢复(例如,XRSTOR)强制超出针对区块的已配置行的数据将被维持为零。如果不存在有效配置,则所有行都归零。区块数据的XRSTOR可以在超出已配置的那些列的列中加载垃圾。XRSTOR应当不可能清除超出已配置的列数,因为没有与区块配置相关联的元素宽度。
上下文保存(例如,XSAVE)在将整个TILE(区块)存储区域写入存储器时暴露该整个TILE存储区域。如果XRSTOR将垃圾数据加载到了区块的最右侧部分中,则该数据将通过XSAVE进行保存。XSAVE将为超出针对每个区块指定的数量的行写入零。
在一些实施例中,区块指令是可重启的。访问存储器的操作允许在页面故障之后重启。处理浮点操作的计算指令还允许未被掩蔽的浮点异常,其中异常的掩蔽由控制和/或状态寄存器来控制。
为了支持在使得矩阵(区块)操作在执行期间打断的事件之后重启指令,指令将信息存储在下文详述的启动寄存器中。
矩阵(区块)操作系统
A. 示例性硬件支持
图3例示了利用矩阵(区块)操作加速器的系统的实施例。在该例示中,主机处理器/处理系统301将命令311(例如,诸如算术或矩阵操纵操作之类的矩阵操纵操作,或加载和存储操作)传送到矩阵操作加速器307。然而,以此方式示出这一点仅是为了讨论的目的。如稍后详述的,该加速器307可以是处理核的一部分。通常,作为区块操纵操作符指令的命令311会将区块称为寄存器-寄存器(“reg-reg”)或寄存器-存储器(“reg-mem”)格式。诸如TILESTORE、TILELOAD、TILECONFIG等的其他命令不对区块执行数据操作。命令可以是已解码指令(例如,微操作)或宏指令以供加速器307处理。
在该示例中,一致性存储器接口303耦合到主机处理器/处理系统301和矩阵操作加速器307,使得它们可以共享存储器。图4和图5示出了如何使用矩阵操作加速器来共享存储器的不同实施例。如图4中所示,主机处理器401和矩阵操作加速器电路405共享同一存储器403。图5例示了这样的实施例:其中主机处理器501和矩阵操作加速器505不共享存储器,但可以访问彼此的存储器。例如,处理器501可以访问区块存储器507并照常利用其主机存储器503。类似地,矩阵操作加速器505可以访问主机存储器503,但是更常使用其自己的存储器507。注意,这些存储器可以是不同类型的。
在一些实施例中,矩阵操作加速器307包括耦合到数据缓冲器305的多个FMA 309(在一些实施方式中,这些缓冲器305中的一个或多个被存储在如图所示的栅格的FMA中)。数据缓冲器305缓冲从存储器加载的区块和/或要被存储到存储器的区块(例如,使用区块加载或区块存储指令)。数据缓冲器可以是例如多个寄存器。通常,这些FMA被布置为能够读取和写入区块的链式FMA 309的栅格。在该示例中,矩阵操作加速器307要使用区块T0、T1和T2来执行矩阵乘法操作。区块中的至少一个被容纳在FMA栅格309中。在一些实施例中,操作中的所有区块都被存储在FMA栅格309中。在其他实施例中,只有子集被存储在FMA栅格309中。如图所示,T1被容纳而T0和T2未被容纳。注意,A、B和C指的是这些区块的矩阵,其可以或可以不占据所述区块的整个空间。
图6例示了使用区块的矩阵乘法累加操作(“TMMA”)的实施例。
矩阵(区块A 601)中的行数与包括计算的延迟的串行(链式)FMA的数量相匹配。实施方式自由地在具有较小高度的栅格上再循环,但计算保持不变。
源/目的地向量来自于具有N行的区块(区块C 605),并且FMA 611的栅格执行N个向量矩阵操作,得到执行区块的矩阵乘法的完整指令。区块B 603是另一个向量源,并在每个阶段中向FMA提供“广播”项(term)。
在操作中,在一些实施例中,跨FMA的矩形栅格散布(存储在区块B 603中的)矩阵B的元素。(存储在区块A 601中的)矩阵B将其行中的元素进行转置以与FMA的矩形栅格的列尺寸匹配。在栅格中的每个FMA处,将A和B的元素相乘并与(来自上文的)输入的被加数相加,并将输出的和传递到FMA的下一行(或最终输出)。
单个步骤的延迟与K(矩阵B的行高)成比例,并且相关的TMMA通常具有足够的源-目的地行(在单个区块中或跨区块)以隐藏该延迟。实施方式还可以跨时间步骤分割SIMD(打包数据元素)尺寸M(矩阵A的行高度),但是这仅仅改变了与K相乘的常数。当程序指定了比TMACC所列举的最大值更小的K时,实施方式自由地用“掩蔽”或“提前退出(early outs)”来实现这点。
整个TMMA的延迟与N*K成比例。重复率与N成比例。每个TMMA指令的MAC的数量是N*K*M。
图7例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地,这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中,链式融合乘法累加对有符号的源进行操作,其中累加器是2x输入数据大小。
第一有符号源(源1 701)和第二有符号源(源2 703)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如浮点数据之类的有符号数据。第三有符号源(源3709)具有两个打包数据元素,这两个打包数据元素中的每一个都存储有符号数据。第一和第二有符号源701和703的大小是第三有符号源(初始值或先前结果)709的大小的一半。例如,第一和第二有符号源701和703可以具有32位打包数据元素(例如,单精度浮点),而第三有符号源709可以具有64位打包数据元素(例如,双精度浮点)。
在该例示中,仅示出了第一和第二有符号源701和703的两个最高有效打包数据元素位置以及第三有符号源709的最高有效打包数据元素位置。当然,也将处理其他打包数据元素位置。
如所例示的,成对地处理打包数据元素。例如,使用乘法器电路705将第一和第二有符号源701和703的最高有效打包数据元素位置的数据相乘,并且使用乘法器电路707将来自第一和第二有符号源701和703的第二最高有效打包数据元素位置的数据相乘。在一些实施例中,针对其他打包数据元素位置重复使用这些乘法器电路705和707。在其他实施例中,使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中,使用具有有符号的第三源709的大小的通道来进行并行执行。使用加法电路711来将所述乘法中的每一个的结果相加。
(使用不同的加法器713或同一加法器711)将乘法结果的相加结果加到来自有符号源3 709的最高有效打包数据元素位置的数据。
最后,将第二次相加的结果存储到与从有符号的第三源709使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地715中,或者将所述第二次相加的结果传递到下一次迭代,如果有下一次迭代的话。在一些实施例中,将写掩码应用于该存储,使得如果设置了对应的写掩码(位)则发生该存储,而如果未设置则不发生该存储。
图8例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地,这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中,链式融合乘法累加对有符号的源进行操作,其中累加器是2x输入数据大小。
第一有符号源(源1 801)和第二有符号源(源2 803)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如整数数据之类的有符号数据。第三有符号源(源3809)具有两个打包数据元素,这两个打包数据元素中的每一个都存储有符号数据。第一和第二有符号源801和803的大小是第三有符号源809的大小的一半。例如,第一和第二有符号源801和803可以具有32位打包数据元素(例如,单精度浮点),第三有符号源809可以具有64位打包数据元素(例如,双精度浮点)。
在该例示中,仅示出了第一和第二有符号源801和803的两个最高有效打包数据元素位置以及第三有符号源809的最高有效打包数据元素位置。当然,也将处理其他打包数据元素位置。
如所例示的,成对地处理打包数据元素。例如,使用乘法器电路805将第一和第二有符号源801和803的最高有效打包数据元素位置的数据相乘,并且使用乘法器电路807将来自第一和第二有符号源801和803的第二最高有效打包数据元素位置的数据相乘。在一些实施例中,针对其他打包数据元素位置重复使用这些乘法器电路805和807。在其他实施例中,使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中,使用具有有符号的第三源(初始值或先前的迭代结果)809的大小的通道来进行并行执行。使用加法/饱和电路813来将所述乘法中的每一个的结果加到有符号的第三源809。
当该相加得到过大的值时,加法/饱和(累加器)电路813保留操作数的符号。特别地,饱和评估发生在多路相加与到目的地或下一次迭代的写入之间的无限精度结果上。当累加器813是浮点并且输入项是整数时,乘积之和以及浮点累加器输入值被转为无限精度值(具有数百位的定点数),执行乘法结果与第三输入的相加,并执行到实际累加器类型的单个舍入。
无符号的饱和意味着输出值被限制为针对该元素宽度的最大无符号数(全为1)。有符号的饱和意味着值被限制为处于针对该元素宽度的最小负数和最大正数之间的范围中(例如对于字节来说,范围是从-128(= - 2 ^ 7)到127(= 2 ^ 7-1))。
将饱和检查和该相加的结果存储到与从有符号的第三源809使用的打包数据元素位置相对应的打包数据元素位置中的有符号结果815中,或者将所述饱和检查和该相加的结果传递到下一次迭代,如果有下一次迭代的话。在一些实施例中,将写掩码应用于该存储,使得如果设置了对应的写掩码(位)则发生该存储,而如果未设置则不发生该存储。
图9例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地,这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中,链式融合乘法累加对有符号源和无符号源进行操作,其中累加器是4x输入数据大小。
第一有符号源(源1 901)和第二无符号源(源2 903)各自具有四个打包数据元素。这些打包数据元素中的每一个具有诸如浮点或整数数据之类的数据。第三有符号源(初始值或结果915)具有其中存储有符号数据的打包数据元素。第一和第二源901和903的大小是第三有符号源915的四分之一。例如,第一和第二源901和903可以具有16位打包数据元素(例如,字),而第三有符号源915可以具有64位打包数据元素(例如,双精度浮点或64位整数)。
在该例示中,示出了第一和第二源901和903的四个最高有效打包数据元素位置以及第三有符号源915的最高有效打包数据元素位置。当然,也将处理其他打包数据元素位置,如果有的话。
如所例示的,四个一组地处理打包数据元素。例如,使用乘法器电路905将第一和第二源901和903的最高有效打包数据元素位置的数据相乘,使用乘法器电路907将来自第一和第二源901和903的第二最高有效打包数据元素位置的数据相乘,使用乘法器电路909将来自第一和第二源901和903的第三最高有效打包数据元素位置的数据相乘,并且使用乘法器电路910将来自第一和第二源901和903的最低有效打包数据元素位置的数据相乘。在一些实施例中,第一源901的有符号打包数据元素是符号扩展的,并且第二源903的无符号打包数据元素在乘法之前是零扩展的。
在一些实施例中,针对其他打包数据元素位置重复使用这些乘法器电路905-910。在其他实施例中,使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中,使用具有有符号的第三源915的大小的通道来进行并行执行。使用加法电路911来将所述乘法中的每一个的结果相加。
(使用不同的加法器913或同一加法器911)将乘法结果的相加结果加到来自有符号源3 915的最高有效打包数据元素位置的数据。
最后,将第二次相加的结果919存储到与从有符号的第三源915使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地中,或者将所述第二次相加的结果919传递到下一次迭代。在一些实施例中,将写掩码应用于该存储,使得如果设置了对应的写掩码(位)则发生该存储,而如果未设置则不发生该存储。
图10例示了链式融合乘法累加指令的迭代的执行的子集的实施例。特别地,这例示了目的地的一个打包数据元素位置的迭代的执行电路。在该实施例中,链式融合乘法累加对有符号源和无符号源进行操作,其中累加器是4x输入数据大小。
第一有符号源(源1 1001)和第二无符号源(源2 1003)各自具有四个打包数据元素。这些打包数据元素中的每一个存储诸如浮点或整数数据之类的数据。第三有符号源(初始或先前结果1015)具有其中存储有符号数据的打包数据元素。第一和第二源1001和1003的大小是第三有符号源1015的四分之一。例如,第一和第二源1001和1003可以具有16位打包数据元素(例如,字),而第三有符号源1015可以具有64位打包数据元素(例如,双精度浮点或64位整数)。
在该例示中,示出了第一和第二源1001和1003的四个最高有效打包数据元素位置以及第三有符号源1015的最高有效打包数据元素位置。当然,也将处理其他打包数据元素位置,如果有的话。
如所例示的,四个一组地处理打包数据元素。例如,使用乘法器电路1005将第一和第二源1001和1003的最高有效打包数据元素位置的数据相乘,使用乘法器电路1007将来自第一和第二源1001和1003的第二最高有效打包数据元素位置的数据相乘,使用乘法器电路1009将来自第一和第二源1001和1003的第三最高有效打包数据元素位置的数据相乘,并且使用乘法器电路1011将来自第一和第二源1001和1003的最低有效打包数据元素位置的数据相乘。在一些实施例中,第一源1001的有符号打包数据元素是符号扩展的,并且第二源1003的无符号打包数据元素在乘法之前是零扩展的。
在一些实施例中,针对其他打包数据元素位置重复使用这些乘法器电路1005-1011。在其他实施例中,使用附加的乘法器电路使得并行处理打包数据元素。在一些上下文中,使用具有有符号的第三源1015的大小的通道来进行并行执行。使用加法/饱和电路1013来将乘法结果的相加结果加到来自有符号源3 1015的最高有效打包数据元素位置的数据。
当该相加得到对于有符号饱和来说过大或过小的值时,加法/饱和(累加器)电路1013保留操作数的符号。特别地,饱和评估发生在多路相加与到目的地的写入之间的无限精度结果上。当累加器1013是浮点并且输入项是整数时,乘积之和以及浮点累加器输入值被转为无限精度值(具有数百位的定点数),执行乘法结果与第三输入的相加,并执行到实际累加器类型的单个舍入。
将饱和检查和该相加的结果1019存储到与从有符号的第三源1015使用的打包数据元素位置相对应的打包数据元素位置中的有符号目的地中,或者将所述饱和检查和该相加的结果1019传递到下一次迭代。在一些实施例中,将写掩码应用于该存储,使得如果设置了对应的写掩码(位)则发生该存储,而如果未设置则不发生该存储。
图11例示了根据实施例的大小为2的乘方的SIMD实施方式,其中累加器使用大于到乘法器的输入的输入大小。注意,(到乘法器的)源和累加器值可以是有符号或无符号的值。对于具有2X输入大小的累加器(换句话说,累加器输入值是源的打包数据元素大小的两倍大小),表1101例示了不同的配置。对于大小为字节的源,累加器使用字或大小为16位的半精度浮点(HPFP)值。对于大小为字的源,累加器使用32位整数或大小为32位的单精度浮点(SPFP)值。对于大小为SPFP或32位整数的源,累加器使用64位整数或大小为64位的双精度浮点(DPFP)值。
对于具有4X输入大小的累加器(换句话说,累加器输入值是源的打包数据元素大小的四倍大小),表1103例示了不同的配置。对于大小为字节的源,累加器使用32位整数或大小为32位的单精度浮点(SPFP)值。在一些实施例中,对于大小为字的源,累加器使用64位整数或大小为64位的双精度浮点(DPFP)值。
对于具有8X输入大小的累加器(换句话说,累加器输入值是源的打包数据元素大小的八倍大小),表1105例示了不同的配置。对于大小为字节的源,累加器使用64位整数。
如前文暗示的,矩阵操作电路可以被包括在核中,或者作为外部加速器。图12例示了利用矩阵操作电路的系统的实施例。在该例示中,多个实体与环形互连1245耦合。
多个核1201、1203、1205和1207提供非基于区块的指令支持。在一些实施例中,在核1203中提供矩阵操作电路,并且在其他实施例中,矩阵操作电路1211和1213可在环形互连1245上访问。
另外,提供一个或多个存储器控制器1223-1225以代表核和/或矩阵操作电路与存储器1233和1231通信。
图13例示了支持使用区块的矩阵操作的处理器核流水线的实施例。分支预测和解码电路1303执行来自存储在指令贮存器1301中的指令的指令的分支预测、指令的解码和/或二者。例如,本文详述的指令可以存储在指令贮存器中。在一些实施方式中,使用单独的电路用于分支预测,并且在一些实施例中,使用微代码1305将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1303。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。
分支预测和解码电路1303耦合到重命名/分配器电路1307,在一些实施例中,重命名/分配器电路1307耦合到调度器电路1309。在一些实施例中,这些电路通过实行以下内容中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能性:1)将逻辑操作数的值重命名为物理操作数的值(例如,在一些实施例中为寄存器别名表),2)将状态位和标志分配给已解码的指令,以及3)调度已解码的指令以供在指令池之外在执行电路上执行(例如,在一些实施例中使用保留站)。
调度器电路1309表示任意数量的不同调度器,包括保留站、中央指令窗口等。(一个或多个)调度器单元调度器电路1309耦合到或包括(一个或多个)物理寄存器文件1315。(一个或多个)物理寄存器文件1315中的每一个都表示一个或多个物理寄存器文件,其中的不同的物理寄存器文件存储一个或多个不同的数据类型,诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如,指令指针,其是要执行的下一指令的地址)、区块等。在一个实施例中,(一个或多个)物理寄存器文件1315包括向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器文件1315被引退电路1317重叠,以例示其中可以实现寄存器重命名和无序执行的各种方式(例如,使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件;使用(一个或多个)未来文件、(一个或多个)历史缓冲器和(一个或多个)引退寄存器文件;使用寄存器映射和寄存器池;等等)。引退电路1317和(一个或多个)物理寄存器文件1315耦合到(一个或多个)执行电路1311。
虽然寄存器重命名是在无序执行的上下文中描述的,但是应当理解的是,寄存器重命名可以用在有序架构中。虽然所例示的处理器的实施例还可以包括单独的指令和数据高速缓存单元以及共享的L2高速缓存单元,但是替换实施例可以针对指令和数据二者具有单个内部高速缓存,诸如例如,1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中,该系统可以包括内部高速缓存和处于核和/或处理器外部的外部高速缓存的组合。替换地,全部的高速缓存都可以在核和/或处理器外部。
执行电路1311是一组一个或多个执行电路1321、1323和1327以及一组一个或多个存储器访问电路1325。执行电路1321、1323和1327实行各种操作(例如,移位、加法、减法、乘法)并对各种类型的数据(例如,标量浮点、打包整数、打包浮点、向量整数、向量浮点)执行操作。虽然一些实施例可以包括专用于特定功能或功能组的多个执行单元,但是其他实施例可以包括全部实行所有功能的仅一个执行单元或多个执行单元。标量电路1321执行标量操作,向量/SIMD电路1323执行向量/SIMD操作,并且矩阵操作电路1327执行本文详述的矩阵(区块)操作。
作为示例,示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线:1)指令提取电路实行提取和长度解码阶段;2)分支和解码电路1303实行解码阶段;3)重命名/分配器电路1307实行分配阶段和重命名阶段;4)调度器电路1309实行调度阶段;5)耦合到或被包括在调度器电路1309和重命名/分配电路1307中的(一个或多个)物理寄存器文件以及存储器单元实行寄存器读取/存储器读取阶段;执行电路1311实行执行阶段;6)存储器单元和(一个或多个)物理寄存器文件单元实行写回/存储器写入阶段;7)各种单元可能涉及到异常处理阶段;以及8)引退单元和(一个或多个)物理寄存器文件单元实行提交阶段。
核可以支持一个或多个指令集(例如,x86指令集(以及被添加有较新版本的一些扩展);加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集;加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展)),包括本文中描述的(一个或多个)指令。在一个实施例中,核1390包括用于支持打包数据指令集扩展(例如,AVX1、AVX2)的逻辑,从而允许使用打包数据来执行许多多媒体应用所使用的操作。
应当理解的是,核可以支持多线程(执行并行的两组或更多组操作或线程),并且可以以各种方式这样做,包括时间切片多线程、同时多线程(其中单个物理核为物理核正同时多线程的线程中的每一个提供逻辑核)或其组合(例如,时间切片提取和解码以及其后的同时多线程,诸如在英特尔®超线程技术中那样)。
图14例示了支持使用区块的矩阵操作的处理器核流水线的实施例。分支预测和解码电路1403执行来自存储在指令贮存器1401中的指令的指令的分支预测、指令的解码和/或二者。例如,本文详述的指令可以存储在指令贮存器中。在一些实施方式中,使用单独的电路用于分支预测,并且在一些实施例中,使用微代码1405将至少一些指令解码成一个或多个微操作、微代码入口点、微指令、其他指令或其他控制信号。可以使用各种不同的机制来实现分支预测和解码电路1403。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。
分支预测和解码电路1403耦合到重命名/分配器电路1407,在一些实施例中,重命名/分配器电路1407耦合到调度器电路1409。在一些实施例中,这些电路通过实行以下内容中的一个或多个来提供寄存器重命名、寄存器分配和/或调度功能性:1)将逻辑操作数的值重命名为物理操作数的值(例如,在一些实施例中为寄存器别名表),2)将状态位和标志分配给已解码的指令,以及3)调度已解码的指令以供在指令池之外在执行电路上执行(例如,在一些实施例中使用保留站)。
调度器电路1409表示任意数量的不同调度器,包括保留站、中央指令窗口等。(一个或多个)调度器单元调度器电路1409耦合到或包括(一个或多个)物理寄存器文件1415。(一个或多个)物理寄存器文件1415中的每一个都表示一个或多个物理寄存器文件,其中的不同的物理寄存器文件存储一个或多个不同的数据类型,诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如,指令指针,其是要执行的下一指令的地址)、区块等。在一个实施例中,(一个或多个)物理寄存器文件1415包括向量寄存器电路、写掩码寄存器电路和标量寄存器电路。这些寄存器电路可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器文件1415被引退电路1417重叠,以例示其中可以实现寄存器重命名和无序执行的各种方式(例如,使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件;使用(一个或多个)未来文件、(一个或多个)历史缓冲器和(一个或多个)引退寄存器文件;使用寄存器映射和寄存器池;等等)。引退电路1417和(一个或多个)物理寄存器文件1415耦合到(一个或多个)执行电路1411。
虽然寄存器重命名是在无序执行的上下文中描述的,但是应当理解的是,寄存器重命名可以用在有序架构中。虽然所例示的处理器的实施例还可以包括单独的指令和数据高速缓存单元以及共享的L2高速缓存单元,但是替换实施例可以针对指令和数据二者具有单个内部高速缓存,诸如例如,1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中,该系统可以包括内部高速缓存和处于核和/或处理器外部的外部高速缓存的组合。替换地,全部的高速缓存都可以在核和/或处理器外部。
执行电路1411是一组一个或多个执行电路1427和一组一个或多个存储器访问电路1425。执行电路1427实行本文详述的矩阵(区块)操作。
作为示例,示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线:1)指令提取电路实行提取和长度解码阶段;2)分支和解码电路1403实行解码阶段;3)重命名/分配器电路1407实行分配阶段和重命名阶段;4)调度器电路1409实行调度阶段;5)耦合到或被包括在调度器电路1409和重命名/分配电路1407中的(一个或多个)物理寄存器文件以及存储器单元实行寄存器读取/存储器读取阶段;执行电路1411实行执行阶段;6)存储器单元和(一个或多个)物理寄存器文件单元实行写回/存储器写入阶段;7)各种单元可能涉及到异常处理阶段;以及8)引退单元和(一个或多个)物理寄存器文件单元实行提交阶段。
核可以支持一个或多个指令集(例如,x86指令集(以及被添加有较新版本的一些扩展);加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集;加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展)),包括本文中描述的(一个或多个)指令。在一个实施例中,核1490包括用于支持打包数据指令集扩展(例如,AVX1、AVX2)的逻辑,从而允许使用打包数据来执行许多多媒体应用所使用的操作。
应当理解的是,核可以支持多线程(执行并行的两组或更多组操作或线程),并且可以以各种方式这样做,包括时间切片多线程、同时多线程(其中单个物理核为物理核正同时多线程的线程中的每一个提供逻辑核)或其组合(例如,时间切片提取和解码以及其后的同时多线程,诸如在英特尔®超线程技术中那样)。
布局
在本描述的各处,使用行优先数据布局来表示数据。列优先用户应根据其取向来翻译术语。图15例示了以行优先格式和列优先格式表示的矩阵的示例。如图所示,矩阵A是2×3矩阵。当该矩阵以行优先格式存储时,一行中的数据元素是连续的。当此矩阵以列优先格式存储时,一列中的数据元素是连续的。A T *B T =(BA) T 是众所周知的矩阵特性,其中上标T意指转置。将列优先数据作为行优先数据进行读取导致矩阵看起来像转置矩阵。
在一些实施例中,在硬件中利用行优先语义,并且列优先数据用于交换操作数顺序,其结果是矩阵的转置,但是对于来自存储器的后续列优先读取来说,它是正确的、未转置的矩阵。
例如,如果有两个列优先矩阵要相乘,则:
输入矩阵将被存储在(列优先的)线性存储器中作为:
以2x3和3x2的尺寸按照行优先来读取那些矩阵,它们将显现为:
交换顺序并进行矩阵相乘:
转置矩阵被输出,并且然后可以被以行优先顺序进行存储:
并被用在后续列优先计算中,它是正确的非转置矩阵:
示例性使用
图16例示了矩阵(区块)的使用的示例。在该示例中,矩阵C 1601包括两个区块,矩阵A1603包括一个区块,并且矩阵B 1605包括两个区块。该图显示了用于计算矩阵乘法的算法的内循环的示例。在该示例中,使用来自矩阵C 1601的两个结果区块tmm0和tmm1来累加中间结果。来自矩阵A 1603的一个区块(tmm2)在它与来自矩阵B 1605的两个区块相乘时被重复使用两次。用于加载新的A区块和两个新的B区块的指针是从箭头所指示的方向。未示出的外循环调整用于C区块的指针。
如图所示的示例性代码包括区块配置指令的使用,并且被执行以配置区块使用、加载区块、加载用于处理区块的循环、将区块存储到存储器以及释放区块使用。
图17例示了矩阵(区块)的使用的实施例。在1701处,配置区块使用。例如,执行TILECONFIG指令以配置区块使用,包括设置每个区块的行数和列数。通常,在1703处从存储器加载至少一个矩阵(区块)。在1705处使用矩阵(区块)执行至少一个矩阵(区块)操作。在1707处,将至少一个矩阵(区块)向外存储到存储器,并且在1709处可以发生上下文切换。
示例性指令
A. 存储区块(StoreTile)配置
如上文讨论的,通常需要在使用之前配置区块使用。例如,可能不需要完全使用所有的行和列。在一些实施例中,不配置这些行和列不仅节省功率,但是可以使用配置来确定操作是否将产生错误。例如,如果M和L不相同,则形式为(N×M) * (L*N)的矩阵乘法通常将不起作用。
本文详述的是存储矩阵(区块)配置(“STTILECFG”)指令及其执行的实施例。在一些实施例中,在使用利用区块的矩阵之前要(通常使用TILECONFIG指令)对区块支持进行配置。例如,配置每个区块有多少行和列、要使用的区块等。STTILECFG指令将该配置存储到存储器中。特别地,STTILECFG指令的执行使得矩阵(区块)配置被存储到存储器以供稍后用于对矩阵(区块)使用进行配置。
i. 示例性执行
图18例示了存储区块配置(STTILECFG)指令的示例性执行。STTILECFG指令格式包括用于操作码和目的地存储器地址的字段。
如所例示的,STTILECFG指令使用该地址作为指向存储器1801位置的指针,所述存储器1801位置用于包含要支持的矩阵(区块)的描述1803。
处理器/核1805的执行电路1811通过从区块配置1817检索区块描述1803的各方面并经由存储器控制器1815将其存储到存储器1801中来实行STTILECFG。区块配置1817详述用于托盘的什么区块被配置(每个区块中的行数和列数)以及矩阵支持正在使用中的标记。特别地,指令执行资源1811被配置成如区块配置1817指定的那样使用区块。指令执行资源还可以包括机器特定的寄存器或配置寄存器以指示区块使用。还设置了附加的值,诸如在使用中和起始值。区块配置1817利用一个或多个寄存器1819来存储区块使用和配置信息。
ii. 示例性的所存储的矩阵(区块)描述
图19例示了要支持的矩阵(区块)的描述的实施例。这是要在执行STTILECFG指令时存储的描述。在此示例中,每个字段是一个字节。在字节[0]中,存储托盘ID 1901。托盘ID用于索引托盘表1813,托盘表1813按照托盘ID来存储如由所述配置定义的与该ID相关联的区块中的字节数以及区块的每行字节数。
字节1存储要存储在“startRow(起始行)”寄存器中的值1903,并且字节2存储要存储在“startP”寄存器中的值1905。为了支持在打断事件之后重启指令,指令将信息存储在这些寄存器中。为了支持在这些事件之后重启指令,指令将信息存储在这些寄存器中。startRow值指示应当用于重启的行。startP值指示用于成对使用的存储操作的行内位置,并且在一些实施例中,指示(在一对中的较低区块中的)行的下半部分或(在该对中的较高区块中的)行的上半部分。一般来说不需要行(列)中的位置。
在TILECONFIG和STTILECFG异常的情况下,成功地执行矩阵(区块)指令会将startRow和startP都设置为零。
在中断的矩阵(区块)指令未被重启的任何时候,软件都有责任将startRow和startP值归零。例如,未被掩蔽的浮点异常处理程序可能决定在软件中完成操作,并将程序计数器值改为另一指令,通常是下一指令。在这种情况下,软件异常处理程序必须将操作系统提供给它的异常中的startRow和startP值归零,然后才能继续执行程序。随后,操作系统将使用恢复指令重新加载那些值。
字节3存储对区块的对的指示(每个区块1b)1907。
字节16-17存储区块0的行数1913和列数1915,字节18-19存储区块1的行数和列数等。换句话说,每2字节组指定一个区块的行数和列数。如果不使用2个字节的组来指定区块参数,则它们应具有值零。为比实现限制或托盘限制更多的区块指定区块参数会导致故障。未经配置的区块被设置为具有0行0列的初始状态。
最后,存储器中的配置通常以结束划界而结束,诸如几个连续字节全部为零。
iii.示例性区块存储
图20(A)-(D)例示了(一个或多个)寄存器1819的示例。图20(A)例示了多个寄存器1819。如图所示,每个区块(TMM0 2001 ... TMMN 2003)具有与存储该特定区块的行和列大小的每个寄存器分离的寄存器。StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如,TILES_CONFIGURED=1)以指示区块被配置以供使用。
图20(B)例示了多个寄存器1819。如图所示,每个区块具有用于其行和列的分离的寄存器。例如,TMM0行配置2021、TMM0列配置2023、StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如,TILES_CONFIGURED=1)以指示区块被配置以供使用。
图20(C)例示了单个寄存器1819。如图所示,该寄存器存储区块配置(每个区块的行和列)2031、StartP 2011和StartRow 2013,其被存储在作为打包数据寄存器的单个寄存器中。设置一个或多个状态寄存器2015(例如,TILES_CONFIGURED=1)以指示区块被配置以供使用。
图20(D)例示了多个寄存器1819。如图所示,单个寄存器存储区块配置(每个区块的行和列)2031。StartP和StartRow被存储在分离的寄存器2011和2013中。设置一个或多个状态寄存器2015(例如,TILES_CONFIGURED=1)以指示区块被配置以供使用。
设想其他组合,诸如将起始寄存器组合成其中分离地示出它们的单个寄存器,等等。
iv. (一个或多个)示例性格式
用于STTILECFG指令的格式的实施例是STTILECFG地址。在一些实施例中,STTILECFG是指令的操作码助记符。地址是指向存储器中的矩阵(区块)描述的指针。在一些实施例中,地址字段是R/M值(诸如2446)。
在实施例中,指令的编码包括比例-索引-基址(SIB)型存储器寻址操作数,其间接地标识存储器中的多个带索引的目的地位置(例如,字段2450)。在一个实施例中,SIB型存储器操作数可以包括标识基址寄存器的编码。该基址寄存器的内容可以表示存储器中的基址,据此来计算存储器中的特定目的地位置的地址。例如,所述基址可以是用于扩展向量指令的潜在目的地位置块中的第一位置的地址。在一个实施例中,SIB型存储器操作数可以包括标识索引寄存器的编码。索引寄存器的每个元素都可以指定索引或偏移值,该索引或偏移值可用于根据基址来计算潜在的目的地位置块内的相应目的地位置的地址。在一个实施例中,SIB型存储器操作数可以包括指定要在计算相应的目的地地址时应用于每个索引值的比例缩放因数的编码。例如,如果在SIB型存储器操作数中编码了比例缩放因数值4,则从索引寄存器中的元素获得的每个索引值都可以乘以4并且然后加到基址以计算出目的地地址。
在一个实施例中,vm32{x, y, z}形式的SIB型存储器操作数可以标识使用SIB型存储器寻址而指定的存储器操作数的向量阵列。在该示例中,使用共同的基址寄存器、常数比例缩放因数以及包含各个元素(其中的每一个都是32位索引值)的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器(例如,XMM)寄存器(vm32x)、256位(例如,YMM)寄存器(vm32y)或512位(例如,ZMM)寄存器(vm32z)。在另一实施例中,vm64{x, y, z}形式的SIB型存储器操作数可以标识使用SIB型存储器寻址而指定的存储器操作数的向量阵列。在该示例中,使用共同的基址寄存器、常数比例缩放因数以及包含各个元素(其中的每一个都是64位索引值)的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器(例如,XMM)寄存器(vm64x)、256位(例如,YMM)寄存器(vm64y)或512位(例如,ZMM)寄存器(vm64z)。
v. 执行的(一个或多个)示例性方法
图21例示了处理器为了处理STTILECFG指令所执行的方法的实施例。
在2101处,提取指令。例如,提取STTILECFG指令。STTILECFG指令的实施例包括用于操作码(存储区块配置)和存储器地址的字段。
在2103处对所提取的指令进行解码。例如,通过诸如本文详述的解码电路之类的解码电路对所提取的STTILECFG指令进行解码。
在2105处检索在存储器地址操作数的存储器地址处找到的描述,并且(根据需要)调度已解码的指令。
在2107处,通过诸如本文详述的执行电路之类的执行电路(硬件)来执行已解码的指令。对于STTILECFG指令,该执行将使得执行电路将经配置的矩阵(区块)信息(例如,上文详述的行数和列数等)作为矩阵(区块)使用描述存储在所述存储器地址处。例如,将存储在一个或多个寄存器1819中的配置转换成矩阵(区块)描述。
在一些实施例中,在2109处提交或引退所述指令。
图22例示了使用存储器寻址的STTILECFG指令的执行的更详细描述。通常,这由诸如上文详述的执行电路之类的执行电路来实行。
在一些实施例中,首先在2201处实行检查以确定是否配置了矩阵(区块)使用。例如,设置了矩阵(区块)使用位。
当尚未配置矩阵(区块)使用时,则在2203处将所有的零写入到所述存储器地址。当已经配置了矩阵(区块)使用时,在2205处创建矩阵(区块)描述并在所述存储器地址处将其写入到存储器中。
矩阵(区块)描述的创建(其可以在写入之前进行或在写入期间进行)包括读取和存储许多不同的项。
若干项不取决于正被配置以供使用的特定矩阵(区块),并且通常首先在2207处成为该描述的一部分。例如,托盘ID是矩阵(区块)描述的第一字节,startRow值被存储到第二连续字节中,startP值被存储到第三连续字节中,并且对指示符被存储到该描述的第四连续字节中。例如,在字节[0]中,存储托盘ID 1901。字节1存储来自“startRow”寄存器的值1903,并且字节2存储用于“startP”寄存器的值1905。字节2存储startP值,指示用于存储操作的行内位置。字节3存储对区块的对的指示(每个区块1b)1907。
接下来,在2209到2215处使矩阵(区块)特定的信息成为该描述的一部分。例如,在2209处,关于矩阵(区块)(例如,区块0)的行和列配置信息被添加到该描述。通常,这被存储在字节16-17中。在一些实施例中,字节4-15被设置为零,然而,并非所有实施例都使用该约定,并且在一些实施例中,矩阵(区块)特定的数据的存储始于该描述的字节4。
在2211处做出是否已将用于所述矩阵(区块)的所有配置(行/列)信息都添加到该描述的确定。如果否,则在2213处使矩阵(区块)编号增加并在2209处添加该矩阵(区块)信息。如果是,则在2215处完成矩阵(区块)特定的信息的添加。在一些实施例中,此时将该描述的其余部分归零。
vi. 示例性伪代码
图23例示了用于STTILECFG指令的执行的示例性伪代码。
vii. 示例
示例1. 一种装置,包括:解码电路,其要解码具有操作码和存储器位置的指令;以及执行电路,其要执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
示例2. 根据示例1所述的装置,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
示例3. 根据示例1所述的装置,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
示例4. 根据示例1-3中的任一项所述的装置,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
示例5. 根据示例1-4中的任一项所述的装置,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
示例6. 根据示例5所述的装置,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
示例7. 根据示例1-6中的任一项所述的装置,其中,从所述装置的至少一个寄存器中检索所述描述数据。
示例8. 一种方法,包括:解码具有操作码和存储器位置的指令;以及执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
示例9. 根据示例8所述的方法,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
示例10. 根据示例8所述的方法,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
示例11. 根据示例8-10中的任一项所述的方法,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
示例12. 根据示例8-11中的任一项所述的方法,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
示例13. 根据示例12所述的方法,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
示例14. 根据示例8-13中的任一项所述的方法,其中,从装置的至少一个寄存器中检索所述描述数据。
示例15. 一种存储指令的发生的非暂时性机器可读介质,其中处理器在遇到指令的发生时要实行包括以下步骤的方法:解码具有操作码和存储器位置的指令;以及执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
示例16. 根据示例15所述的非暂时性机器可读介质,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
示例17. 根据示例15所述的非暂时性机器可读介质,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
示例18. 根据示例15-17中的任一项所述的非暂时性机器可读介质,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
示例19. 根据示例15-18中的任一项所述的非暂时性机器可读介质,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
示例20. 根据示例19所述的非暂时性机器可读介质,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
示例21. 根据示例15-20中的任一项所述的非暂时性机器可读介质,其中,从装置的至少一个寄存器中检索所述描述数据。
详细的示例性系统、处理器和仿真
本文详述了用于执行上述指令的硬件、软件等的示例。例如,下文描述的内容详述了指令执行的各方面,包括各种流水线阶段,诸如提取、解码、调度、执行、引退等。
指令集包括一个或多个指令格式。给定的指令格式定义用于除其他之外指定要执行的操作(操作码)和要对其执行该操作的(一个或多个)操作数的各个字段(位数、位的位置)。一些指令格式通过指令模板(或子格式)的定义被进一步分解。例如,给定指令格式的指令模板可以被定义成具有指令格式的字段的不同子集(所包括的字段通常采用相同的顺序,但是因为包括了较少的字段,所以至少一些具有不同的位位置)和/或被定义成具有被不同地解释的给定字段。因此,ISA的每个指令使用给定指令格式(并且如果被定义,则以该指令格式的指令模板中的给定的一个)来表达,并且包括用于指定操作和操作数的字段。例如,示例性ADD指令具有特定的操作码和指令格式,该指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地和源2)的操作数字段;并且该ADD指令在指令流中的出现将使操作数字段中具有选择特定操作数的特定内容。
A.示例性指令格式
可以以不同格式来具体化本文描述的(一个或多个)指令的实施例。另外,下面详述示例性系统、架构和流水线。所述(一个或多个)指令的实施例可以在这样的系统、架构和流水线上执行,但是不限于详述的那些。
VEX指令格式
VEX编码允许指令具有多于两个操作数,并且允许SIMD向量寄存器比248位更长。VEX前缀的使用提供了三个(或更多个)操作数语法。例如,先前的双操作数指令实行了诸如A=A+B之类的操作,其覆写了源操作数。VEX前缀的使用使得操作数能够实行非破坏性的操作,诸如A=B+C。
图24A例示了示例性指令格式,其包括VEX前缀2402、实操作码字段2430、Mod R/M字节2440、SIB字节2450、位移字段2462以及IMM8 2472。图24B例示了来自图24A中的哪些字段构成了全操作码字段2474以及基础操作字段2441。图24C例示了来自图24A中的哪些字段构成了寄存器索引字段2444。
VEX前缀(字节0-2)2402是以三字节形式编码的。第一字节是格式字段2440(VEX字节0,位[7:0]),其包含显式C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供特定能力的多个位字段。具体来说,REX字段2405(VEX字节1,位[7-5])包括VEX.R位字段(VEX字节1,位[7]——R)、VEX.X位字段(VEX字节1,位[6]——X)以及VEX.B位字段(VEX字节1,位[5]——B)。所述指令的其他字段如本领域中已知的那样来编码寄存器索引的三个较低位(rrr、xxx和bbb),使得可以通过添加VEX.R、VEX.X和VEX.B来形成Rrrr、Xxxx和Bbbb。操作码映射字段2415(VEX字节1,位[4:0]——mmmmm)包括用以编码隐含的前导操作码字节的内容。W字段2464(VEX字节2,位[7]——W)由记法VEX.W表示,并且取决于指令而提供不同的功能。VEX.vvvv 2420(VEX字节2,位[6:3]——vvvv)的作用可以包括以下:1)VEX.vvvv编码第一源寄存器操作数,其是以倒置(补充1)形式指定的,并且对于具有两个或更多个源操作数的指令有效;2)VEX.vvvv编码目的地寄存器操作数,其是以补充1的形式指定的,用于某些向量移位;或者3)VEX.vvvv不编码任何操作数,该字段被保留并应该包含1111b。如果VEX.L 2468大小字段(VEX字节2,位[2]——L)=0,则其指示248位向量;如果VEX.L=1,则其指示256位向量。前缀编码字段2425(VEX字节2,位[1:0]——pp)为基础操作字段2441提供附加的位。
实操作码字段2430(字节3)也称为操作码字节。在该字段中指定操作码的一部分。
MOD R/M字段2440(字节4)包括MOD字段2442(位[7-6])、Reg字段2444(位[5-3])以及R/M字段2446(位[2-0])。Reg字段2444的作用可以包括以下内容:编码目的地寄存器操作数或源寄存器操作数(Rrrr中的rrr),或者被视为操作码扩展并且不用于编码任何指令操作数。R/M字段2446的作用可以包括以下内容:编码引用存储器地址的指令操作数,或者编码目的地寄存器操作数或源寄存器操作数。
比例、索引、基址(SIB)——比例字段2450(字节5)的内容包括SS 2452(位[7-6]),其用于存储器地址生成。先前已经关于寄存器索引Xxxx和Bbbb提到了SIB.xxx 2454(位[5-3])和SIB.bbb 2456(位[2-0])的内容。
位移字段2462和立即数字段(IMM8)2472包含数据。
示例性寄存器架构
图25是根据本发明的一个实施例的寄存器架构2500的框图。在所例示的实施例中,存在512位宽的32个向量寄存器2510;这些寄存器被引用为zmm0到zmm31。较低的28个zmm寄存器的较低阶256位被覆盖在寄存器ymm0-15上。较低的28个zmm寄存器的较低阶128位(ymm寄存器的较低阶128位)被覆盖在寄存器xmm0-15上。
通用寄存器2525——在所例示的实施例中,有16个64位通用寄存器,其与现存的x86寻址模式一起使用来寻址存储器操作数。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用这些寄存器。
标量浮点堆栈寄存器文件(x87堆栈)2545(其别名为MMX打包整数平面寄存器文件2550)——在所例示的实施例中,x87堆栈是用于对使用x87指令集扩展的32/64/80位浮点数据实行标量浮点操作的8元素堆栈;而MMX寄存器被用来对64位打包整数数据实行操作以及保存用于在MMX和XMM寄存器之间实行的一些操作的操作数。
在一些实施例中,使用物理寄存器上的覆盖来支持区块2510。例如,取决于实施方式,区块可以利用16个1024位寄存器、32个512位寄存器等。
本发明的替换实施例可以使用更宽或更窄的寄存器。附加地,本发明的替换实施例可以使用更多、更少或不同的寄存器文件和寄存器。
示例性核架构、处理器和计算机架构
为了不同目的可以以不同的方式并且在不同处理器中实现处理器核。例如,这样的核的实现可以包括:1)意图用于通用计算的通用有序核;2)意图用于通用计算的高性能通用无序核;3)意图主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可以包括:1)包括意图用于通用计算的一个或多个通用有序核和/或意图用于通用计算的一个或多个通用无序核的CPU;以及2)包括意图主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。这样的不同处理器导致不同的计算机系统架构,其可以包括:1)来自CPU的单独芯片上的协处理器;2)与CPU相同的封装中的单独管芯上的协处理器;3)与CPU相同的管芯上的协处理器(在其情况下,这样的协处理器有时被称为专用逻辑(诸如集成图形和/或科学(吞吐量)逻辑),或被称为专用核);以及4)片上系统,其可以在相同的管芯上包括所述CPU(有时被称为(一个或多个)应用核或(一个或多个)应用处理器)、上述协处理器和附加功能性。接下来描述示例性核架构,之后是示例性处理器和计算机架构的描述。本文中详述了包括示例性核、处理器等的电路(单元)。
示例性核架构
有序和无序核的框图
图26A是根据本发明实施例的例示了示例性有序流水线以及示例性寄存器重命名、无序发布/执行流水线二者的框图。图26B是根据本发明实施例的例示了有序架构核的示例性实施例以及要被包括在处理器中的示例性寄存器重命名、无序发布/执行架构核二者的框图。图26A-B中的实线框例示了有序流水线和有序核,而虚线框的可选附加项例示了寄存器重命名、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集,将描述无序方面。
在图26A中,处理器流水线2600包括提取阶段2602、长度解码阶段2604、解码阶段2606、分配阶段2608、重命名阶段2610、调度(也已知为派遣或发布)阶段2612、寄存器读取/存储器读取阶段2614、执行阶段2616、写回/存储器写入阶段2618、异常处理阶段2622以及提交阶段2624。
图26B示出处理器核2690,其包括被耦合到执行引擎单元2650的前端单元2630,并且这两个单元都被耦合到存储器单元2670。核2690可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或者混合或替换的核类型。作为又一选项,核2690可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。
前端单元2630包括分支预测单元2632,其被耦合到指令高速缓存单元2634,指令高速缓存单元2634被耦合到指令转译后备缓冲器(TLB)2636,指令转译后备缓冲器(TLB)2636被耦合到指令提取单元2638,指令提取单元2638被耦合到解码单元2640。解码单元2640(或解码器)可以解码指令,并生成解码自原始指令、或以其他方式反映原始指令、或导出自原始指令的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号作为输出。可以使用各种不同机制来实现解码单元2640。合适机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等等。在一个实施例中,核2690包括微代码ROM或存储用于某些宏指令的微代码的其他介质(例如,在解码单元2640中或以其他方式在前端单元2630内)。解码单元2640被耦合到执行引擎单元2650中的重命名/分配器单元2652。
执行引擎单元2650包括重命名/分配器单元2652,其被耦合到引退单元2654和一组一个或多个调度器单元2656。(一个或多个)调度器单元2656表示任何数量的不同调度器,包括保留站、中央指令窗口等等。(一个或多个)调度器单元2656被耦合到(一个或多个)物理寄存器文件单元2658。(一个或多个)物理寄存器文件单元2658中的每一个表示一个或多个物理寄存器文件,其中的不同物理寄存器文件存储一个或多个不同的数据类型,诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如,作为要执行的下一指令的地址的指令指针)等等。在一个实施例中,(一个或多个)物理寄存器文件单元2658包括向量寄存器单元以及标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器以及通用寄存器。(一个或多个)物理寄存器文件单元2658被引退单元2654重叠以说明可以以其实现寄存器重命名和无序执行的各种方式(例如,使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器文件;使用(一个或多个)未来文件、(一个或多个)历史缓冲器以及(一个或多个)引退寄存器文件;使用寄存器映射和寄存器池等等)。引退单元2654和(一个或多个)物理寄存器文件单元2658被耦合到(一个或多个)执行集群2660。(一个或多个)执行集群2660包括一组一个或多个执行单元2662以及一组一个或多个存储器访问单元2664。执行单元2662可以实行各种操作(例如,移位、加法、减法、乘法)并且对各种数据类型(例如,标量浮点、打包整数、打包浮点、向量整数、向量浮点)。虽然一些实施例可以包括专用于特定功能或功能集的数个执行单元,但是其他实施例可以包括全部实行所有功能的仅一个执行单元或多个执行单元。(一个或多个)调度器单元2656、(一个或多个)物理寄存器文件单元2658以及(一个或多个)执行集群2660被示出为可能是复数的,因为某些实施例针对某些数据/操作类型创建分离的流水线(例如,标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线、和/或存储器访问流水线,它们各自具有其自己的调度器单元、(一个或多个)物理寄存器文件单元和/或执行集群——并且在分离的存储器访问流水线的情况下,实现其中该流水线的仅执行集群具有(一个或多个)存储器访问单元2664的某些实施例)。还应理解的是,在使用分离的流水线的情况下,这些流水线中的一个或多个可以是无序发布/执行而其余的有序。
该组存储器访问单元2664被耦合到存储器单元2670,存储器单元2670包括数据TLB单元2672,数据TLB单元2672被耦合到数据高速缓存单元2674,数据高速缓存单元2674被耦合到2级(L2)高速缓存单元2676。在一个示例性实施例中,存储器访问单元2664可以包括负载单元、存储地址单元以及存储数据单元,它们中的每一个都被耦合到存储器单元2670中的数据TLB单元2672。指令高速缓存单元2634进一步被耦合到存储器单元2670中的2级(L2)高速缓存单元2676。L2高速缓存单元2676被耦合到高速缓存的一个或多个其他级并最终被耦合到主存储器。
通过示例的方式,示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线2600:1)指令提取2638实行提取和长度解码阶段2602和2604;2)解码单元2640实行解码阶段2606;3)重命名/分配器单元2652实行分配阶段2608和重命名阶段2610;4)(一个或多个)调度器单元2656实行调度阶段2612;5)(一个或多个)物理寄存器文件单元2658和存储器单元2670实行寄存器读取/存储器读取阶段2614;执行集群2660实行执行阶段2616;6)存储器单元2670和(一个或多个)物理寄存器文件单元2658实行写回/存储器写入阶段2618;7)在异常处理阶段2622中可能涉及到各种单元;以及8)引退单元2654和(一个或多个)物理寄存器文件单元2658实行提交阶段2624。
核2690可以支持一个或多个指令集(例如,x86指令集(以及被添加有较新版本的某些扩展);加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集;加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(以及诸如NEON之类的可选附加扩展)),包括本文中描述的(一个或多个)指令。在一个实施例中,核2690包括用以支持打包数据指令集扩展(例如,AVX1、AVX2)的逻辑,从而允许使用打包数据来实行由许多多媒体应用使用的操作。
应当理解的是,核可以支持多线程(执行两个或更多个并行的操作集或线程集),并且可以以各种方式来这样做,所述方式包括时间切片多线程、同时多线程(其中单个物理核为物理核正同时进行多线程的线程中的每一个提供逻辑核)或者它们的组合(例如,时间切片提取和解码以及其后的同时多线程,诸如在英特尔®超线程技术中那样)。
虽然在无序执行的情境中描述了寄存器重命名,但是应理解的是,寄存器重命名可以用在有序架构中。虽然所说明的处理器的实施例还包括单独的指令和数据高速缓存单元2634/2674以及共享L2高速缓存单元2676,但是替换实施例可以具有用于指令和数据二者的单个内部高速缓存,诸如例如,1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中,系统可以包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。替换地,所有高速缓存都可以在核和/或处理器外部。
特定示例性有序核架构
图27A-B例示了更具体的示例性有序核架构的框图,该核将是芯片中的(包括相同类型和/或不同类型的其他核的)若干逻辑块中的一个。逻辑块通过具有某些固定功能逻辑、存储器I/O接口以及其他必要I/O逻辑(取决于应用)的高带宽互连网络(例如,环形网络)进行通信。
图27A是根据本发明的实施例的单个处理器核、连同其到管芯上互连网络2702的连接以及其2级(L2)高速缓存2704的本地子集的框图。在一个实施例中,指令解码器2700支持具有打包数据指令集扩展的x86指令集。L1高速缓存2706允许到标量和向量单元中的对高速缓存存储器的低延迟访问。虽然(为了简化设计)在一个实施例中标量单元2708和向量单元2710使用分离的寄存器集(分别为标量寄存器2712和向量寄存器2714)并且在它们之间传输的数据被写入到存储器并然后从1级(L1)高速缓存2706读回来,但是本发明的替换实施例可以使用不同的方法(例如,使用单个寄存器集或包括允许在两个寄存器文件之间传输数据而无需写入和读回的通信路径)。
L2高速缓存的本地子集2704是被每个处理器核一个地划分成单独的本地子集的全局L2高速缓存的一部分。每个处理器核具有到其自己的L2高速缓存的本地子集2704的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集2704中并且可以被快速访问,与其他处理器核访问它们自己的本地L2高速缓存子集并行地进行。由处理器核写入的数据被存储在其自己的L2高速缓存子集2704中并且如果必要的话从其他子集中被清除。环形网络确保了共享数据的一致性。该环形网络是双向的以允许诸如处理器核、L2高速缓存以及其他逻辑块之类的代理在芯片内与彼此通信。在一些实施例中,每个环形数据路径在每个方向上都是1024位宽。
图27B是根据本发明的实施例的图27A中的处理器核的部分的展开图。图27B包括L1数据高速缓存2706A(L1高速缓存2704的一部分)以及关于向量单元2710和向量寄存器2714的更多细节。具体来说,向量单元2710是16宽向量处理单元(VPU)(参见16宽ALU2728),其执行整数指令、单精度浮动指令以及双精度浮动指令中的一个或多个。VPU支持用拌和单元2720来拌和寄存器输入、用数值转换单元2722A-B来数值转换以及用复制单元2724来对存储器输入进行复制。
具有集成存储器控制器和图形装置的处理器
图28是根据本发明实施例的处理器2800的框图,处理器2800可以具有不止一个核、可以具有集成存储器控制器并且可以具有集成图形装置。图28中的实线框例示具有单个核2802A、系统代理2810、一组一个或多个总线控制器单元2816的处理器2800,而虚线框的可选附加例示具有多个核2802A-N、系统代理单元2810中的一组一个或多个集成存储器控制器单元2814以及专用逻辑2808的替换处理器2800。
因此,处理器2800的不同实现可以包括:1)具有专用逻辑2808的CPU被集成有图形装置和/或科学(吞吐量)逻辑(其可以包括一个或多个核),并且核2802A-N是一个或多个通用核(例如,通用有序核、通用无序核、二者的组合);2)具有核2802A-N的协处理器,所述核2802A-N是大量的专用核,其主要用于图形和/或科学(吞吐量);以及3)具有核2802A-N的协处理器,所述核2802A-N是大量的通用有序核。因此,处理器2800可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量多集成核(MIC)协处理器(包括30或更多个核)、嵌入式处理器等等。可以在一个或多个芯片上实现处理器。处理器2800可以是一个或多个基板的一部分,或者可以使用多种工艺技术(诸如例如,BiCMOS、CMOS或NMOS)中的任何一种将处理器2800实现在一个或多个基板上。
存储器层级包括核内的高速缓存的一个或多个级,一组一个或多个共享高速缓存单元2806以及被耦合到该组集成存储器控制器单元2814的外部存储器(未示出)。该组共享高速缓存单元2806可以包括一个或多个中间级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其他级的高速缓存、末级高速缓存(LLC)和/或其组合。虽然在一个实施例中基于环形的互连单元2812互连集成图形逻辑2808、该组共享高速缓存单元2806以及系统代理单元2810/(一个或多个)集成存储器控制器单元2814,但是替换实施例可以使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元2806和核2802A-N之间维持一致性。
在一些实施例中,核2802A-N中的一个或多个能够实现多线程。系统代理2810包括协调和操作核2802A-N的那些组件。系统代理单元2810可以包括例如功率控制单元(PCU)和显示单元。PCU可以是或者包括调节核2802A-N和集成图形逻辑2808的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
就架构指令集而言,核2802A-N可以是同构的或是异构的;即,核2802A-N中的两个或更多个可以能够执行相同的指令集,而其他核可以能够执行该指令集的仅子集或者执行不同的指令集。
示例性计算机架构
图29-32是示例性计算机架构的框图。在针对膝上型计算机、台式计算机、手持式PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持式设备以及各种其他电子设备的领域中已知的其他系统设计和配置也是合适的。一般来说,能够并入如本文中公开的处理器和/或其他执行逻辑的大量的各种各样的系统或电子设备一般都是合适的。
现在参考图29,示出了根据本发明的一个实施例的系统2900的框图。系统2900可以包括一个或多个处理器2910、2915,它们被耦合到控制器中枢2920。在一个实施例中,控制器中枢2920包括图形存储器控制器中枢(GMCH)2990以及输入/输出中枢(IOH)2950(其可以在分离的芯片上);GMCH 2990包括存储器和图形控制器,存储器2940和协处理器2945被耦合到所述存储器和图形控制器;IOH 2950将输入/输出(I/O)设备2960耦合到GMCH 2990。替换地,存储器和图形控制器中的一个或二者被集成在(如本文中描述的)处理器内,存储器2940和协处理器2945被直接耦合到处理器2910和与IOH 2950在单个芯片中的控制器中枢2920。
在图29中用折线标明了附加处理器2915的可选性质。每个处理器2910、2915可以包括本文中描述的处理核中的一个或多个并且可以是处理器2800的某一版本。
存储器2940可以例如是动态随机访问存储器(DRAM)、相变存储器(PCM)或二者的组合。针对至少一个实施例,控制器中枢2920经由多点总线2995与(一个或多个)处理器2910、2915通信,所述多点总线诸如前侧总线(FSB)、点到点接口或者类似连接。
在一个实施例中,协处理器2945是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中,控制器中枢2920可以包括集成图形加速器。
就包括架构、微架构、热学、功率消耗特性等的优点的度量谱而言,在物理资源2910、2915之间可以有各种差异。
在一个实施例中,处理器2910执行控制通用类型的数据处理操作的指令。嵌入在指令内的可以是协处理器指令。处理器2910将这些协处理器指令识别为应由附连的协处理器2945来执行的类型。因而,处理器2910在协处理器总线或其他互连上将这些协处理器指令(或表示协处理器指令的控制信号)发给协处理器2945。(一个或多个)协处理器2945接受并执行接收到的协处理器指令。
现在参考图30,示出了根据本发明的实施例的第一更具体的示例性系统3000的框图。如图30中所示,多处理器系统3000是点到点互连系统,并且包括经由点到点互连3050进行耦合的第一处理器3070和第二处理器3080。处理器3070和3080中的每一个可以是处理器2800的某一版本。在本发明的一个实施例中,处理器3070和3080分别是处理器2910和2915,而协处理器3038是协处理器2945。在另一实施例中,处理器3070和3080分别是处理器2910和协处理器2945。
处理器3070和3080被示出为分别包括集成存储器控制器(IMC)单元3072和3082。处理器3070还包括点到点(P-P)接口3076和3078作为其总线控制器单元的一部分;类似地,第二处理器3080包括P-P接口3086和3088。处理器3070、3080可以使用P-P接口电路3078、3088经由点到点(P-P)接口3050交换信息。如图30中所示,IMC 3072和3082将处理器耦合到相应的存储器、即存储器3032和存储器3034,它们可以是本地附连到相应处理器的主存储器的部分。
处理器3070、3080可以使用点到点接口电路3076、3094、3086、3098经由单独的P-P接口3052、3054与芯片组3090交换信息。芯片组3090可以可选地经由高性能接口3092与协处理器3038交换信息。在一个实施例中,协处理器3038是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。
共享高速缓存(未示出)可以被包括在任一处理器中或者在两个处理器外部,又或者经由P-P互连与处理器连接,使得如果处理器被置入到低功率模式中则任一或两个处理器的本地高速缓存信息可以被存储在共享高速缓存中。
芯片组3090可以经由接口3096被耦合到第一总线3016。在一个实施例中,第一总线3016可以是外围组件互连(PCI)总线,或者是诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图30中所示,各种I/O设备3014可以被耦合到第一总线3016以及总线桥3018,总线桥3018将第一总线3016耦合到第二总线3020。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器3015被耦合到第一总线3016。在一个实施例中,第二总线3020可以是低引脚数(LPC)总线。各种设备可以被耦合到第二总线3020,所述设备包括例如,键盘和/或鼠标3022、通信设备3027以及诸如盘驱动或其他大容量存储设备之类的存储单元3028,其在一个实施例中可以包括指令/代码和/或数据3030。此外,音频I/O 3024可以被耦合到第二总线3016。注意,其他架构也是可能的。例如,作为图30的点到点架构的替代,系统可以实现多点总线或其他此类架构。
现在参考图31,示出了根据本发明的实施例的第二更具体的示例性系统3100的框图。图30和31中的相似元件具有相似的附图标记,并且从图31中省略了图30的某些方面以便避免模糊图31的其他方面。
图31例示处理器3070、3080可以分别包括集成存储器和I/O控制逻辑(“CL”)3172和3182。因此,CL 3172、3182包括集成存储器控制器单元并且包括I/O控制逻辑。图31例示不仅存储器3032、3034被耦合到CL 3072、3082,而且I/O设备3114也被耦合到控制逻辑3072、3082。旧有I/O设备3115被耦合到芯片组3090。
现在参考图32,示出了根据本发明的实施例的SoC 3200的框图。图28中的类似元件具有相似的附图标记。而且,虚线框是更高级的SoC上的可选特征。在图32中,(一个或多个)互连单元3202被耦合到:应用处理器3210,其包括包含高速缓存单元2804A-N的一组一个或多个核2802A-N和(一个或多个)共享高速缓存单元2806;系统代理单元2810;(一个或多个)总线控制器单元2816;(一个或多个)集成存储器控制器单元2814;一组一个或多个协处理器3220,其可以包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机访问存储器(SRAM)单元3230;直接存储器访问(DMA)单元3232;以及用于耦合到一个或多个外部显示器的显示单元3240。在一个实施例中,(一个或多个)协处理器3220是专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。
可以以硬件、软件、固件或此类实现方法的组合来实现本文中公开的机制的实施例。本发明的实施例可以被实现为计算机程序或程序代码,其在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备的可编程系统上执行。
可以应用诸如图30中例示的代码3030之类的程序代码来输入指令以实行本文中描述的功能并生成输出信息。可以以已知方式将输出信息应用于一个或多个输出设备。出于本申请的目的,处理系统包括具有处理器的任何系统,诸如例如:数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
可以以高级程序语言或面向对象的编程语言来实现程序代码以便与处理系统通信。如果期望的话,也可以以汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制在范围上不限于任何特定的编程语言。在任何情况下,语言可以是编译语言或解释语言。
可以通过存储在机器可读介质上的表示处理器内的各种逻辑的代表性指令来实现至少一个实施例的一个或多个方面,所述指令当被机器读取时促使所述机器制作逻辑以实行本文中描述的技术。已知为“IP核”的这样的表示可以被存储在有形的机器可读介质上并被供应给各种客户或制造设施来加载到实际上制造逻辑或处理器的制作机器中。
这样的机器可读存储介质可以在没有限制的情况下包括由机器或设备制造或形成的非暂时性有形的制品布置,包括诸如硬盘的存储介质、任何其他类型的盘(包括软盘、光盘、紧凑盘只读存储器(CD-ROM)、紧凑盘可重写设备(CD-RW)以及磁光盘)、半导体设备(诸如只读存储器(ROM)、随机访问存储器(RAM)(诸如动态随机访问存储器(DRAM)、静态随机访问存储器(SRAM))、可擦可编程只读存储器(EPROM)、闪速存储器、电可擦可编程只读存储器(EEPROM)、相变存储器(PCM))、磁卡或光卡、或者适合于存储电子指令的任何其他类型的介质。
相应地,本发明的实施例还包括包含指令或包含设计数据(诸如硬件描述语言(HDL))的非暂时性有形机器可读介质,所述设计数据定义本文中描述的结构、电路、装置、处理器和/或系统特征。这样的实施例也可以称为程序产品。
E.仿真(包括二进制转译、代码变形等)
在一些情况下,可以使用指令转换器来将指令从源指令集转换成目标指令集。例如,指令转换器可以将指令转译(例如,使用静态二进制转译、包括动态编译的动态二进制转译)、变形、仿真或以其他方式转换成要由核处理的一个或多个其他指令。可以以软件、硬件、固件或其组合来实现指令转换器。指令转换器可以是在处理器上、处理器外、或者部分在处理器上而部分在处理器外。
图33是根据本发明的实施例的对比将源指令集中的二进制指令转换成目标指令集中的二进制指令的软件指令转换器的使用的框图。在所例示的实施例中,指令转换器是软件指令转换器,但是替换地,指令转换器可以以软件、固件、硬件和其各种组合来实现。图33示出高级语言3302形式的程序可以使用第一编译器3304来编译以生成第一二进制代码(例如,x86)3306,二进制代码3306可以原生地由具有至少一个第一指令集核的处理器3316来执行。在一些实施例中,具有至少一个第一指令集核的处理器3316表示基本上可以通过互相兼容地执行或以其他方式处理以下内容来实行与具有至少一个x86指令集核的英特尔处理器相同的功能的任何处理器:(1)英特尔x86指令集核的指令集的实质部分或者(2)目标为在具有至少一个x86指令集核的英特尔处理器上运行的应用或其他软件的目标代码版本,以便基本上实现与具有至少一个x86指令集核的英特尔处理器相同的结果。第一编译器3304表示可操作用于生成第一指令集的二进制代码3306(例如,目标代码)的编译器,所述二进制代码3306可以在有附加链接处理或没有附加链接处理的情况下在具有至少一个第一指令集核的处理器3316上执行。类似地,图33示出了高级语言3302形式的程序可以使用替换指令集编译器3308来进行编译以生成替换指令集二进制代码3310,其可以原生地由不具有至少一个第一指令集核的处理器3314来执行(例如,具有执行加利福尼亚州桑尼维尔的MIPS科技的MIPS指令集和/或执行加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集的核的处理器)。使用指令转换器3312来将第一二进制代码3306转换成可以原生地由不具有第一指令集核的处理器3314来执行的代码。该经转换的代码很可能不与替换指令集二进制代码3310相同,因为能够这样做的指令转换器难以制造;然而,经转换的代码将完成一般操作并且由来自替换指令集的指令构成。因此,指令转换器3312表示通过仿真、模拟或任何其他过程而允许不具有第一指令集处理器或核的处理器或其他电子设备执行第一二进制代码3306的软件、固件、硬件或其组合。

Claims (21)

1.一种装置,包括:
解码电路,其要解码具有操作码和存储器位置的指令;
执行电路,其要执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
2.根据权利要求1所述的装置,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
3.根据权利要求1所述的装置,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
4.根据权利要求1-3中的任一项所述的装置,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
5.根据权利要求1-4中的任一项所述的装置,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
6.根据权利要求5所述的装置,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
7.根据权利要求1-6中的任一项所述的装置,其中,从所述装置的至少一个寄存器中检索所述描述数据。
8.一种方法,包括:
解码具有操作码和存储器位置的指令;
执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
9.根据权利要求8所述的方法,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
10.根据权利要求8所述的方法,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
11.根据权利要求8-10中的任一项所述的方法,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
12.根据权利要求8-11中的任一项所述的方法,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
13.根据权利要求12所述的方法,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
14.根据权利要求8-13中的任一项所述的方法,其中,从装置的至少一个寄存器中检索所述描述数据。
15.一种存储指令的发生的非暂时性机器可读介质,其中处理器在遇到所述指令的发生时要实行包括以下步骤的方法:
解码具有操作码和存储器位置的指令;
执行所解码的指令以检索关于用于二维数据结构的贮存器的使用的配置信息并将检索到的配置信息作为描述数据存储在所述存储器位置处。
16.根据权利要求15所述的非暂时性机器可读介质,其中,所述贮存器是多个打包数据寄存器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器上。
17.根据权利要求15所述的非暂时性机器可读介质,其中,所述贮存器是多个打包数据寄存器和存储器,并且所述二维数据结构被覆盖在所述多个打包数据寄存器和存储器上。
18.根据权利要求15-17中的任一项所述的非暂时性机器可读介质,其中,所述存储器位置被以比例-索引-基址的格式进行存储。
19.根据权利要求15-18中的任一项所述的非暂时性机器可读介质,其中,所述描述数据包括:1)到表格中的索引,所述表格要存储二维数据结构中的字节数以及所述二维数据结构的每行的字节数;2)在二维数据结构操作中使用的重启信息;以及3)对每个二维数据结构的行数和列数的指示。
20.根据权利要求19所述的非暂时性机器可读介质,其中,所述描述数据进一步要包括对二维数据结构的对的指示。
21.根据权利要求15-20中的任一项所述的非暂时性机器可读介质,其中,从装置的至少一个寄存器中检索所述描述数据。
CN201811443596.7A 2017-12-29 2018-11-29 用于矩阵操作的系统、方法和装置 Pending CN109992243A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/859268 2017-12-29
US15/859,268 US11816483B2 (en) 2017-12-29 2017-12-29 Systems, methods, and apparatuses for matrix operations

Publications (1)

Publication Number Publication Date
CN109992243A true CN109992243A (zh) 2019-07-09

Family

ID=65231616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811443596.7A Pending CN109992243A (zh) 2017-12-29 2018-11-29 用于矩阵操作的系统、方法和装置

Country Status (3)

Country Link
US (2) US11816483B2 (zh)
CN (1) CN109992243A (zh)
DE (1) DE102018128626A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018174930A1 (en) 2017-03-20 2018-09-27 Intel Corporation Systems, methods, and apparatuses for matrix add, subtract, and multiply
US11429555B2 (en) * 2019-02-26 2022-08-30 Apple Inc. Coprocessors with bypass optimization, variable grid architecture, and fused vector operations
CN111242293B (zh) * 2020-01-13 2023-07-18 腾讯科技(深圳)有限公司 一种处理部件、数据处理的方法以及电子设备
KR20230038799A (ko) * 2020-07-24 2023-03-21 사이파이브, 인크. 전력 절약을 위한 레지스터 리네이밍

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4967388A (en) 1988-04-21 1990-10-30 Harris Semiconductor Patents Inc. Truncated product partial canonical signed digit multiplier
US5247632A (en) 1989-01-23 1993-09-21 Eastman Kodak Company Virtual memory management arrangement for addressing multi-dimensional arrays in a digital data processing system
US5475631A (en) 1989-03-09 1995-12-12 Micron Technology, Inc. Multiport RAM based multiprocessor
US5475822A (en) 1993-11-15 1995-12-12 Motorola, Inc. Data processing system for resuming instruction execution after an interrupt and method therefor
US7301541B2 (en) * 1995-08-16 2007-11-27 Microunity Systems Engineering, Inc. Programmable processor and method with wide operations
US5892962A (en) * 1996-11-12 1999-04-06 Lucent Technologies Inc. FPGA-based processor
US6161219A (en) 1997-07-03 2000-12-12 The University Of Iowa Research Foundation System and method for providing checkpointing with precompile directives and supporting software to produce checkpoints, independent of environment constraints
US6282634B1 (en) 1998-05-27 2001-08-28 Arm Limited Apparatus and method for processing data having a mixed vector/scalar register file
FR2787233B1 (fr) 1998-12-11 2001-02-16 St Microelectronics Sa Procede pour verifier l'integrite des circuits de decodage d'une memoire
US6901422B1 (en) 2001-03-21 2005-05-31 Apple Computer, Inc. Matrix multiplication in a vector processing system
US6898691B2 (en) 2001-06-06 2005-05-24 Intrinsity, Inc. Rearranging data between vector and matrix forms in a SIMD matrix processor
US7725521B2 (en) 2001-10-29 2010-05-25 Intel Corporation Method and apparatus for computing matrix transformations
US6877020B1 (en) 2001-12-31 2005-04-05 Apple Computer, Inc. Method and apparatus for matrix transposition
US7003542B2 (en) 2002-01-02 2006-02-21 Intel Corporation Apparatus and method for inverting a 4×4 matrix
US7209939B2 (en) 2002-07-11 2007-04-24 Sun Microsystems, Inc. Precision improvement method for the Strassen/Winograd matrix multiplication method
US6944747B2 (en) 2002-12-09 2005-09-13 Gemtech Systems, Llc Apparatus and method for matrix data processing
US7315932B2 (en) 2003-09-08 2008-01-01 Moyer William C Data processing system having instruction specifiers for SIMD register operands and method thereof
US7873812B1 (en) 2004-04-05 2011-01-18 Tibet MIMAR Method and system for efficient matrix multiplication in a SIMD processor architecture
US20060190517A1 (en) 2005-02-02 2006-08-24 Guerrero Miguel A Techniques for transposition of a matrix arranged in a memory as multiple items per word
US20060184837A1 (en) 2005-02-11 2006-08-17 International Business Machines Corporation Method, apparatus, and computer program product in a processor for balancing hardware trace collection among different hardware trace facilities
US20070186210A1 (en) 2006-02-06 2007-08-09 Via Technologies, Inc. Instruction set encoding in a dual-mode computer processing environment
US7792895B1 (en) 2006-06-16 2010-09-07 Nvidia Corporation Efficient matrix multiplication on a parallel processing device
US7912889B1 (en) 2006-06-16 2011-03-22 Nvidia Corporation Mapping the threads of a CTA to the elements of a tile for efficient matrix multiplication
US20080071851A1 (en) 2006-09-20 2008-03-20 Ronen Zohar Instruction and logic for performing a dot-product operation
US8122078B2 (en) 2006-10-06 2012-02-21 Calos Fund, LLC Processor with enhanced combined-arithmetic capability
US7844352B2 (en) 2006-10-20 2010-11-30 Lehigh University Iterative matrix processor based implementation of real-time model predictive control
US7797362B2 (en) 2007-02-23 2010-09-14 Texas Instruments Incorporated Parallel architecture for matrix transposition
US8392487B1 (en) 2007-03-29 2013-03-05 Compass Electro-Optical Systems Ltd Programmable matrix processor
ATE467970T1 (de) 2007-08-09 2010-05-15 Sap Ag Eingabe- und ausgabe-validierung zum schutze von datenbank-servern
US8028015B2 (en) 2007-08-10 2011-09-27 Inside Contactless S.A. Method and system for large number multiplication
US8923510B2 (en) 2007-12-28 2014-12-30 Intel Corporation Method and apparatus for efficiently implementing the advanced encryption standard
US8612723B2 (en) 2008-05-06 2013-12-17 L-3 Communications Integrated Systems, L.P. System and method for storing a sparse matrix
US8533251B2 (en) 2008-05-23 2013-09-10 International Business Machines Corporation Optimized corner turns for local storage and bandwidth reduction
US8060730B2 (en) 2008-05-30 2011-11-15 Freescale Semiconductor, Inc. Selective MISR data accumulation during exception processing
US8250130B2 (en) 2008-05-30 2012-08-21 International Business Machines Corporation Reducing bandwidth requirements for matrix multiplication
US20100180100A1 (en) 2009-01-13 2010-07-15 Mavrix Technology, Inc. Matrix microprocessor and method of operation
US8417758B1 (en) 2009-09-01 2013-04-09 Xilinx, Inc. Left and right matrix multiplication using a systolic array
US8539201B2 (en) 2009-11-04 2013-09-17 International Business Machines Corporation Transposing array data on SIMD multi-core processor architectures
US8984043B2 (en) 2009-12-23 2015-03-17 Intel Corporation Multiplying and adding matrices
US8478969B2 (en) 2010-09-24 2013-07-02 Intel Corporation Performing a multiply-multiply-accumulate instruction
US20120113133A1 (en) 2010-11-04 2012-05-10 Shpigelblat Shai System, device, and method for multiplying multi-dimensional data arrays
US9727471B2 (en) 2010-11-29 2017-08-08 Intel Corporation Method and apparatus for stream buffer management instructions
US8924455B1 (en) 2011-02-25 2014-12-30 Xilinx, Inc. Multiplication of matrices using systolic arrays
KR101595637B1 (ko) 2011-04-01 2016-02-18 인텔 코포레이션 벡터 친숙형 명령어 형식 및 그의 실행
US20120254588A1 (en) 2011-04-01 2012-10-04 Jesus Corbal San Adrian Systems, apparatuses, and methods for blending two source operands into a single destination using a writemask
US9503741B2 (en) 2011-06-08 2016-11-22 Vixs Systems, Inc. Video decoder with multi-format vector processor and methods for use therewith
WO2013100989A1 (en) 2011-12-28 2013-07-04 Intel Corporation Systems, apparatuses, and methods for performing delta decoding on packed data elements
WO2014001605A1 (en) 2012-06-28 2014-01-03 Ant-Advanced Network Technologies Oy Processing and error concealment of digital signals
US20140149480A1 (en) 2012-11-28 2014-05-29 Nvidia Corporation System, method, and computer program product for transposing a matrix
US9442723B2 (en) 2012-12-28 2016-09-13 Intel Corporation Method and apparatus for integral image computation instructions
US9286216B2 (en) 2014-01-16 2016-03-15 Carnegie Mellon University 3DIC memory chips including computational logic-in-memory for performing accelerated data processing
ES2876184T3 (es) 2014-05-01 2021-11-12 Nippon Telegraph & Telephone Dispositivo de codificación de señal de sonido, método de codificación de señal de sonido, programa y soporte de registro
CN106339202B (zh) 2014-07-02 2019-05-21 上海兆芯集成电路有限公司 微处理器及其方法
US20160179523A1 (en) 2014-12-23 2016-06-23 Intel Corporation Apparatus and method for vector broadcast and xorand logical instruction
US10496680B2 (en) 2015-08-17 2019-12-03 Mellanox Technologies Tlv Ltd. High-performance bloom filter array
US10535114B2 (en) 2015-08-18 2020-01-14 Nvidia Corporation Controlling multi-pass rendering sequences in a cache tiling architecture
CN111857820B (zh) * 2016-04-26 2024-05-07 中科寒武纪科技股份有限公司 一种用于执行矩阵加/减运算的装置和方法
US20180074824A1 (en) 2016-09-13 2018-03-15 Apple Inc. Outer Product Engine
US10146535B2 (en) 2016-10-20 2018-12-04 Intel Corporatoin Systems, apparatuses, and methods for chained fused multiply add
PL3812900T3 (pl) 2016-12-31 2024-04-08 Intel Corporation Systemy, sposoby i aparaty do obliczania heterogenicznego
WO2018174930A1 (en) * 2017-03-20 2018-09-27 Intel Corporation Systems, methods, and apparatuses for matrix add, subtract, and multiply
US11551067B2 (en) * 2017-04-06 2023-01-10 Shanghai Cambricon Information Technology Co., Ltd Neural network processor and neural network computation method
US11093247B2 (en) * 2017-12-29 2021-08-17 Intel Corporation Systems and methods to load a tile register pair
US11669326B2 (en) * 2017-12-29 2023-06-06 Intel Corporation Systems, methods, and apparatuses for dot product operations
US11023235B2 (en) * 2017-12-29 2021-06-01 Intel Corporation Systems and methods to zero a tile register pair
US10664287B2 (en) * 2018-03-30 2020-05-26 Intel Corporation Systems and methods for implementing chained tile operations
US11579883B2 (en) * 2018-09-14 2023-02-14 Intel Corporation Systems and methods for performing horizontal tile operations
US10970076B2 (en) * 2018-09-14 2021-04-06 Intel Corporation Systems and methods for performing instructions specifying ternary tile logic operations
US10838734B2 (en) * 2018-09-24 2020-11-17 Intel Corporation Apparatus and method for processing structure of arrays (SoA) and array of structures (AoS) data
US10853067B2 (en) * 2018-09-27 2020-12-01 Intel Corporation Computer processor for higher precision computations using a mixed-precision decomposition of operations
US10990396B2 (en) * 2018-09-27 2021-04-27 Intel Corporation Systems for performing instructions to quickly convert and use tiles as 1D vectors
US10866786B2 (en) * 2018-09-27 2020-12-15 Intel Corporation Systems and methods for performing instructions to transpose rectangular tiles
US10719323B2 (en) * 2018-09-27 2020-07-21 Intel Corporation Systems and methods for performing matrix compress and decompress instructions
US10896043B2 (en) * 2018-09-28 2021-01-19 Intel Corporation Systems for performing instructions for fast element unpacking into 2-dimensional registers
US10963256B2 (en) * 2018-09-28 2021-03-30 Intel Corporation Systems and methods for performing instructions to transform matrices into row-interleaved format
US10963246B2 (en) * 2018-11-09 2021-03-30 Intel Corporation Systems and methods for performing 16-bit floating-point matrix dot product instructions
US10929503B2 (en) * 2018-12-21 2021-02-23 Intel Corporation Apparatus and method for a masked multiply instruction to support neural network pruning operations
US11294671B2 (en) * 2018-12-26 2022-04-05 Intel Corporation Systems and methods for performing duplicate detection instructions on 2D data
US10922077B2 (en) * 2018-12-29 2021-02-16 Intel Corporation Apparatuses, methods, and systems for stencil configuration and computation instructions
US10942985B2 (en) * 2018-12-29 2021-03-09 Intel Corporation Apparatuses, methods, and systems for fast fourier transform configuration and computation instructions

Also Published As

Publication number Publication date
US20190042540A1 (en) 2019-02-07
US20240143325A1 (en) 2024-05-02
US11816483B2 (en) 2023-11-14
DE102018128626A1 (de) 2019-07-04

Similar Documents

Publication Publication Date Title
CN110337635A (zh) 用于点积操作的系统、方法和装置
CN104049943B (zh) 有限范围向量存储器访问指令、处理器、方法和系统
CN104137060B (zh) 高速缓存协处理单元
CN109992304A (zh) 用于加载片寄存器对的系统和方法
CN104011665B (zh) 超级乘加(超级madd)指令
CN110321159A (zh) 用于实现链式区块操作的系统和方法
CN104185837B (zh) 在不同的粒度等级下广播数据值的指令执行单元
CN109992300A (zh) 用于点积操作的系统、方法和装置
CN109992243A (zh) 用于矩阵操作的系统、方法和装置
CN106775592A (zh) 使用三个标量项的超级乘加(超级madd)指令
CN104011616B (zh) 改进置换指令的装置和方法
CN107924307A (zh) 按索引分散至寄存器以及数据元素重布置处理器、方法、系统和指令
CN109992305A (zh) 用于将片寄存器对归零的系统和方法
CN110058886A (zh) 用于计算两个区块操作数中的半字节的数量积的系统和方法
CN109643234A (zh) 用于合并数据元素并生成索引更新的处理器、方法、系统和指令
CN104081342B (zh) 经改进的插入指令的装置和方法
CN108269226A (zh) 用于处理稀疏数据的装置和方法
CN110321165A (zh) 复数向量融合乘加和复数向量乘法的高效实现
CN108292228A (zh) 用于基于通道的步进收集的系统、设备和方法
CN109582282A (zh) 用于向量紧缩有符号值的乘法和累加的系统、装置和方法
CN110007963A (zh) 用于无符号双字的矢量乘法和累加的设备和方法
CN109947697A (zh) 用于将紧缩四字右移并提取紧缩双字的装置和方法
CN109840070A (zh) 处置半精度操作数的系统、方法和装置
CN109582278A (zh) 用于有符号字的双复数与复共轭乘法的系统、装置和方法
CN114721624A (zh) 用于处理矩阵的处理器、方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination