CN109992301A

CN109992301A - 用于向量广播的系统、方法和装置

Info

Publication number: CN109992301A
Application number: CN201811443589.7A
Authority: CN
Inventors: M.乌尔班斯基; E.奥尔德-艾哈迈德-瓦尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-12-29
Filing date: 2018-11-29
Publication date: 2019-07-09
Also published as: US20190205131A1; DE102018130226A1

Abstract

提供了用于向量广播的系统、方法和装置。描述了用于广播所选数据元素并且响应于单个指令而执行操作的系统、方法和装置。例如，描述了一种处理器，所述处理器包括解码电路，用来对指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及执行电路，用来执行经解码的指令以：广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置，根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作。

Description

用于向量广播的系统、方法和装置

背景技术

机器学习和其它领域中的许多应用涉及许多常量的使用。例如，在ML中，卷积和其它算法的权重可以被视为出于性能原因将在向量操作中使用的常量。

附图说明

将参考附图来描述依照本公开的各种实施例，在附图中：

图1图示了用于处理单个广播和计算指令的处理器的所选部分的实施例；

图2图示了用于处理单个广播和计算指令的处理器的所选部分的实施例；

图3图示了处理器为了处理单个广播和计算指令而执行的方法的实施例；

图4图示了处理器为了处理单个广播和计算指令而执行的方法的实施例；

图5图示了用于处理诸如广播和计算指令之类的指令的硬件的实施例；

图6A是图示根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图；

图6B是图示根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图；

图7A是图示根据本发明的实施例的示例性特定向量友好指令格式的框图；

图7B是图示根据本发明的一个实施例的组成全操作码字段674的特定向量友好指令格式700的字段的框图；

图7C是图示根据本发明的一个实施例的组成寄存器索引字段644的特定向量友好指令格式700的字段的框图；

图7D是图示根据本发明的一个实施例的组成扩增操作字段650的特定向量友好指令格式700的字段的框图；

图8是根据本发明的一个实施例的寄存器架构800的框图；

图9A是图示根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发出/执行流水线二者的框图；

图9B是图示根据本发明的实施例的要被包括在处理器中的示例性寄存器重命名、无序发出/执行架构核心和有序架构核心的示例性实施例二者的框图；

图10A-B图示了更具体的示例性有序核心架构的框图，所述核心将是芯片中的（包括相同类型和/或不同类型的其它核心的）若干逻辑块中的一个；

图11是根据本发明的实施例的处理器1100的框图，所述处理器1100可能具有不止一个核心，可能具有集成存储器控制器，并且可能具有集成图形（graphics）；

图12示出了依照本发明的一个实施例的系统的框图；

图13是依照本发明的实施例的第一个更具体的示例性系统的框图；

图14是依照本发明的实施例的第二个更具体的示例性系统的框图；

图15是依照本发明的实施例的SoC的框图；以及

图16是根据本发明的实施例的对比将源指令集中的二进制指令转换成目标指令集中的二进制指令的软件指令转换器的使用的框图。

具体实施方式

在以下描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其它实例中，没有详细示出公知的电路、结构和技术，以免模糊对本说明书的理解。

说明书中对“一个实施例”、“实施例”，“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可能不一定包括所述特定特征、结构或特征。而且，这样短语不一定指的是同一实施例。进一步地，当结合实施例来描述特定特征、结构或特性时，主张无论是否明确描述，结合其它实施例实现这样的特征、结构或特性在本领域技术人员的知识范围内。

本文中详述了指令的实施例及其支持，其在单个指令发生时引起任何单个被标识的打包数据元素（向量元素或单指令多数据元素）的广播，并且然后引起使用所广播的单个被标识的打包数据元素执行的计算（诸如ALU）操作。这些指令允许程序员将经常使用的常量打包在打包数据（也称为向量或SIMD）寄存器中，并且然后根据需要在计算指令中对特定常量使用嵌入式广播。这通常会导致高速缓存压力、高速缓存/存储器带宽以及寄存器压力的降低。

图1图示了用于处理单个广播和计算指令的处理器的所选部分的实施例。该指令具有操作码、至少两个源操作数（寄存器或存储器）、立即数和目的地操作数。该指令的格式包括用于定义要执行的计算操作的操作码、第一打包数据源操作数标识符（示出为“SOURCE1”）、第二打包数据源操作数标识符（示出为“SOURCE2/MEM”）、立即数（示出为“IMM8”——8位立即数）和打包数据目的地操作数标识符（示出为“DESTINATION”）的字段。

打包数据源操作数字段表示打包数据的寄存器位置或具有多个打包数据元素的打包数据的存储器位置。

打包数据目的地操作数字段表示打包数据的寄存器位置，其中将存储指令的计算操作的结果。

在所图示的示例中，被标识的第一源操作数101（“SOURCE 1”）具有多个打包数据元素。在被标识的第一打包数据源操作数101的位置0中是“A”值，在位置1中是“B”值，等等。被标识的第二打包数据源操作数103（“SOURCE 2”）也具有多个打包数据元素。在被标识的第二打包数据源操作数103的位置0中是“E”值，在位置1中是“F”值，等等。

在该示例中，指令的立即数值（“IMM8”）被提供给广播电路113，广播电路113是用于一旦指令被解码就执行指令的执行电路111的一部分。在一些实施例中，广播发生在处理器流水线中的执行电路111之前。广播电路113使用立即数值的值来确定要广播被标识的第一打包数据源操作数101中的哪个位置。在此示例中，立即数具有十进制值“0”（二进制也相同）。照此，被标识的第一打包数据源操作数101中的“A”被选择作为提供给功能单元电路115的广播元素。“A”现在用在由功能单元电路115执行的所有计算中。

将被标识的第二打包数据源操作数103的打包数据元素被提供给功能单元电路115。在该示例中，计算是乘法。照此，功能单元电路115将“A”乘以被标识的第二打包数据源操作数103的打包数据元素，并将每个乘法的结果存储在被标识的打包数据目的地操作数121的打包数据元素位置中，所述打包数据元素位置对应于在操作中使用的被标识的第二打包数据源操作数103的打包数据元素的位置。

图2图示了用于处理单个广播和计算指令的处理器的所选部分的实施例。该指令具有操作码、至少两个源操作数（寄存器或存储器）、前缀和目的地操作数。该指令的格式包括用于前缀、定义要执行的计算操作的操作码、第一个打包数据源操作数标识符（示出为“SOURCE1”）、第二个打包数据源操作数标识符（示出为“SOURCE2/MEM”）和打包数据目的地操作数标识符（示出为“DESTINATION”）的字段。

打包数据源操作数字段表示打包数据的寄存器位置或者具有多个打包数据元素的打包数据的存储器位置。

在所图示的示例中，被标识的第一源操作数201（“SOURCE 1”）具有多个打包数据元素。在被标识的第一打包数据源操作数201的位置0是中“A”值，在位置1中是“B”值，等等。被标识的第二打包数据源操作数203（“SOURCE 2”）也具有多个打包数据元素。在被标识的第二打包数据源操作数203的位置0中是“E”值，在位置1是“F”值，等等。

在该示例中，指令的前缀包括要广播的数据元素的标识符，并且该标识符被提供给广播电路213，广播电路213是用于一旦指令被解码就执行指令的执行电路211的一部分。在一些实施例中，广播发生在处理器流水线中的执行电路211之前。广播电路213使用要广播的数据元素的标识符的值来确定要广播被标识的第一打包数据源操作数201中的哪个位置。在该示例中，要广播的数据元素的标识符具有十进制值“0”（二进制也相同）。照此，被标识的第一打包数据源操作数201中的“A”被选择作为提供给功能单元电路215的广播元素。“A”现在用在由功能单元电路215执行的所有计算中。

将被标识的第二打包数据源操作数203的打包数据元素提供给功能单元电路215。在该示例中，计算是乘法。照此，功能单元电路215将“A”乘以被标识的第二打包数据源操作数203的打包数据元素，并将每个乘法的结果存储在被标识的打包数据目的地操作数221的打包数据元素位置中，所述打包数据元素位置对应于在操作中使用的被标识的第二打包数据源操作数203的打包数据元素的位置。

图3图示了处理器为了处理单个广播和计算指令而执行的方法的实施例。

在301处，获取指令。在一些实施例中，从指令高速缓存中获取指令。该指令具有操作码、立即数以及至少两个源操作数（寄存器或存储器）和目的地操作数的标识符。该指令的格式包括用于定义要执行的计算操作的操作码、第一打包数据源操作数标识符、第二打包数据源操作数标识符、立即数和打包数据目的地操作数标识符的字段。

在303处对所获取的指令进行解码。例如，所获取的浮点到定点转换指令由诸如本文详述的解码电路之类的解码电路进行解码。

在305处取回与解码指令的被标识的源操作数相关联的数据值并且调度经解码的指令（根据需要）。例如，当被标识的源操作数是存储器操作数时，取回来自指示的存储器位置的数据。

在307处，经解码的指令由诸如本文详述的执行电路之类的执行电路（硬件）执行。指令的执行包括：1）广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置；2）根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作；以及3）将所述操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

在一些实施例中，在309处提交或引退指令。

图4图示了处理器为了处理单个广播和计算指令而执行的方法的实施例。

在401处，获取指令。在一些实施例中，从指令高速缓存中获取指令。该指令具有前缀、操作码以及至少两个源操作数（寄存器或存储器）和目的地操作数的标识符。该指令的格式包括用于包括要广播的数据元素位置的指示符的前缀、定义要执行的计算操作的操作码、第一打包数据源操作数标识符、第二打包数据源操作数标识符和打包数据目的地操作数标识符的字段。

在403处对所获取的指令进行解码。例如，所获取的浮点到定点转换指令由诸如本文详述的解码电路之类的解码电路进行解码。

在405处取回与经解码的指令的被标识的源操作数相关联的数据值并且（根据需要）调度经解码的指令。例如，当被标识的源操作数是存储器操作数时，取回来自指示的存储器位置的数据。

在407处，经解码的指令由诸如本文详述的执行电路之类的执行电路（硬件）执行。指令的执行包括：1）广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于前缀中的要广播的数据元素位置的指示符来选择要广播的打包数据元素；2）根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作；以及3）将所述操作的结果存储在被标识的打包数据目的地操作数221中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

在一些实施例中，在409处提交或引退指令。

图5图示了用于处理诸如广播和计算指令之类的指令的硬件的实施例。如图示的，贮存器503存储要执行的广播和计算指令501。

指令501由解码电路505接收。例如，解码电路505从获取逻辑/电路接收该指令。在一些实施例中，指令包括用于操作码、源操作数的标识符、立即数和目的地标识符的字段。在一些实施例中，指令包括用于前缀、操作码、源操作数的标识符和目的地标识符的字段。在一些实施例中，被标识的源和目的地操作数是寄存器，并且在其它实施例中，一个或多个被标识的源和目的地操作数是存储器位置。

稍后将详述至少一个指令格式的更详细的实施例。解码电路505将指令解码为一个或多个操作。在一些实施例中，该解码包括生成要由执行电路（诸如执行电路509）执行的多个微操作。解码电路505还解码指令前缀。

在一些实施例中，寄存器重命名、寄存器分配和/或调度电路507提供用于以下中的一个或多个的功能性：1）将逻辑操作数值重命名为物理操作数值（例如，在一些实施例中的寄存器别名表），2）将状态位和标志分配给解码的指令，以及3）（例如，在一些实施例中使用保留站）从指令池中调度经解码的指令以用于在执行电路上执行。

寄存器（寄存器文件）和/或存储器508将数据存储为要由执行电路509将该指令对其操作的操作数。示例性寄存器类型包括打包数据寄存器、通用寄存器和浮点寄存器。

执行电路509执行经解码的指令。在一些实施例中，执行包括1）广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置；2）根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作；以及3）将所述操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

在其它实施例中，执行包括1）广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于前缀的值来选择要广播的打包数据元素位置；2）根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作；以及3）将所述操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

在一些实施例中，引退/写回电路511在架构上将目的地寄存器提交到寄存器或存储器508中并且引退所述指令。

用于广播和计算指令的格式的实施例是OPCODE DST, SRC1, SRC2/MEM, IMM8。OPCODE是指令的操作码。DST是标识目的地操作数的字段。SRC1和SRC2是用于诸如寄存器和/或存储器位置之类的源操作数标识符的字段。在一些实施例中，使用VVVV字段720、MODR/M 740和/或SIB 750对操作数字段进行编码。在一些实施例中，IMM8是字段672。

用于广播和计算指令的格式的另一实施例是PREFIX OPCODE DST, SRC1, SRC2/MEM。PREFIX是指令的前缀。OPCODE是指令的操作码。DST是标识目的地操作数的字段。SRC1和SRC2是用于诸如寄存器和/或存储器位置之类的源操作数标识符的字段。在一些实施例中，使用VVVV字段720、MOD R/M 740和/或SIB 750对操作数字段进行编码。在一些实施例中，前缀是字段702。

在一些实施例中，源操作数中的一个和目的地操作数是相同的。

在实施例中，指令的编码包括比例-索引-基址（SIB）类型存储器寻址操作数，其间接地标识存储器中的多个被索引的目的地位置（例如，字段750）。在一个实施例中，SIB类型存储器操作数可以包括标识基址寄存器的编码。基址寄存器的内容可以表示存储器中的基址，根据所述基址计算存储器中的特定目的地位置的地址。例如，基址可以是扩展向量指令的潜在目的地位置块中的第一位置的地址。在一个实施例中，SIB类型存储器操作数可以包括标识索引寄存器的编码。索引寄存器的每个元素可以指定索引或偏移值，所述索引或偏移值可用于从基址计算潜在目的地位置块内的相应目的地位置的地址。在一个实施例中，SIB类型存储器操作数可以包括指定在计算相应目的地地址时要应用于每个索引值的缩放因子的编码。例如，如果在SIB类型存储器操作数中对为4的缩放因子值进行编码，则可以将从索引寄存器的元素获得的每个索引值乘以4，并且然后将其添加到基址以计算目的地地址。

在一个实施例中，形式为vm32{x，y，z}的SIB类型存储器操作数可以标识使用SIB类型存储器寻址所指定的存储器操作数的向量阵列。在此示例中，使用公共基址寄存器、常量缩放因子和包含各个元素的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器（例如，XMM）寄存器（vm32x）、256位（例如，YMM）寄存器（vm32y）或512位（例如，ZMM）寄存器（vm32z）。在另一实施例中，形式为vm64{x，y，z}的SIB类型存储器操作数可标识使用SIB类型存储器寻址所指定的存储器操作数的向量阵列。在此示例中，使用公共基址寄存器、常量缩放因子和包含各个元素（其每个是64位索引值）的向量索引寄存器来指定存储器地址的阵列。向量索引寄存器可以是128位寄存器（例如，XMM）寄存器（vm64x）、256位（例如，YMM）寄存器（vm64y）或512位（例如，ZMM）寄存器（vm64z）。

以下详述了可用于上述详细指令的示例性指令格式、架构和系统。例如，详述了支持指令的示例性流水线，其包括用于执行本文详述的方法的电路。

指令集

指令集可以包括一个或多个指令格式。给定的指令格式可以定义各种字段（例如，位的数目、位的位置）以除了其它东西之外还指定要被执行的操作（例如，操作码）和要对其执行该操作的（多个）操作数和/或（多个）其它数据字段（例如，掩码（mask））。一些指令格式通过指令模板（或子格式）的定义而被进一步分解。例如，给定的指令格式的指令模板可被定义成具有指令格式的字段的不同子集（所包括的字段通常以相同顺序，但至少一些具有不同位位置，因为有较少字段被包括）和/或定义成具有被不同地解释的给定字段。因此，ISA的每个指令使用给定的指令格式（并且如果被定义，则以该指令格式的指令模板中的给定的一个）来表达，并包括用于指定操作和操作数的字段。例如，示例性ADD（添加）指令具有特定操作码和指令格式，所述指令格式包括用以指定该操作码的操作码字段和用以选择操作数（源1/目的地和源2）的操作数字段；并且指令流中的该ADD指令的出现将使操作数字段中具有选择特定操作数的特定内容。被称为高级向量扩展（AVX）（AVX1和AVX2）并使用向量扩展（VEX）编码方案的SIMD扩展的集合已被发布和/或公布（例如，参见Intel® 64 and IA-32Architectures Software Developer’s Manual，2014年9月；以及参见Intel® AdvancedVector Extensions Programming Reference，2014年10月）。

示例性指令格式

本文中描述的（多个）指令的实施例可以以不同的格式来具体化。另外，在下面详述了示例性系统、架构和流水线。（多个）指令的实施例可以被在这样的系统、架构和流水线上执行，但不限于所详述的那些。

通用向量友好指令格式

向量友好指令格式是适合于向量指令的指令格式（例如，存在特定于向量操作的某些字段）。虽然描述了向量和标量操作二者都通过向量友好指令格式来支持的实施例，但替代实施例仅使用向量友好指令格式的向量操作。

图6A-6B是图示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图6A是图示根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图；而图6B是图示根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地，针对通用向量友好指令格式600，定义了A类和B类指令模板，它们二者都包括无存储器访问605指令模板和存储器访问620指令模板。向量友好指令格式的上下文中的术语“通用”指的是指令格式不被束缚到任何特定指令集。

虽然将描述向量友好指令格式支持以下各项的本发明的实施例：具有32位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）（并且因此，64字节向量由16个双字大小的元素或替代地由8个四倍长字大小的元素组成）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节向量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节向量操作数长度（或大小）；但替代实施例可支持具有更多、更少或不同的数据元素宽度（例如，128位（16字节）数据元素宽度）的更多、更少和/或不同的向量操作数大小（例如，256字节向量操作数）。

图6A中的A类指令模板包括：1）在无存储器访问605指令模板内，示出了无存储器访问、全舍入控制类型操作610指令模板和无存储器访问、数据变换类型操作615指令模板；以及2）在存储器访问620指令模板内，示出了存储器访问、暂时625指令模板和存储器访问、非暂时630指令模板。图6B中的B类指令模板包括：1）在无存储器访问605指令模板内，示出了无存储器访问、写掩码控制、部分舍入控制类型操作612指令模板和无存储器访问、写掩码控制、vsize类型操作617指令模板；以及2）在存储器访问620指令模板内，示出了存储器访问、写掩码控制627指令模板。

通用向量友好指令格式600包括图6A-6B中图示的在下面按顺序列出的以下字段。

格式字段640——该字段中的特定值（指令格式标识符值）唯一地标识向量友好指令格式，并因此标识指令流中的以向量友好指令格式的指令的出现。照此，该字段在它不被仅具有通用向量友好指令格式的指令集需要的意义上而言是可选的。

基础操作字段642——其内容区分不同的基础操作。

寄存器索引字段644——其内容直接地或通过地址生成来指定源和目的地操作数的位置，如果它们在寄存器中或在存储器中的话。这些包括用以从PxQ（例如32x512、16x128、32x1024、64x1024）寄存器文件选择N个寄存器的足够数目的位。虽然在一个实施例中N可多至三个源和一个目的地寄存器，但替代实施例可支持更多或更少的源和目的地寄存器（例如，可支持多至两个源，其中这些源中的一个还充当目的地，可支持多至三个源，其中这些源中的一个还充当目的地，可支持多至两个源和一个目的地）。

修饰符字段646——其内容区分以通用向量指令格式的指定存储器访问的指令与不指定存储器访问的那些指令的出现；即，在无存储器访问605指令模板和存储器访问620指令模板之间进行区分。存储器访问操作（在使用寄存器中的值来指定源和/或目的地地址的一些情况下）读和/或写到存储器层级，而非存储器访问操作不读和/或写到存储器层级（例如，源和目的地是寄存器）。虽然在一个实施例中该字段还在三个不同方式之间进行选择以执行存储器地址计算，但替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。

扩增操作字段650——其内容区分除了基础操作之外还要执行的多种不同操作中哪一个。该字段是上下文特定的。在本发明的一个实施例中，该字段被划分成类字段668、阿尔法字段652和贝塔字段654。扩增操作字段650允许在单个指令而不是2、3或4个指令中执行操作的公共组。

比例（scale）字段660——其内容允许索引字段的内容的缩放以用于存储器地址生成（例如，用于使用2^比例*索引+基址的地址生成）。

位移字段662A——其内容用作存储器地址生成（例如，用于使用2^比例*索引+基址+位移的地址生成）的部分。

位移因数字段662B（注意，直接在位移因数字段662B上的位移字段662A的并列指示一个或另一个被使用）——其内容用作地址生成的部分；其指定要通过存储器访问的大小（N）缩放的位移因数——其中N是（例如，用于使用2^比例*索引+基址+经缩放的位移的地址生成的）存储器访问中的字节的数目。冗余的低顺序位被忽略，并且因此，位移因数字段的内容乘以存储器操作数总大小（N）以便生成要在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时间基于（在本文中稍后描述的）全操作码字段674和数据操纵字段654C来确定。位移字段662A和位移因数字段662B在它们不被用于无存储器访问605指令模板和/或不同实施例可实现这两个中的仅一个或没有一个的意义上是可选的。

数据元素宽度字段664——其内容区分多个数据元素宽度中的哪一个要被使用（在一些实施例中用于所有指令；在其它实施例中用于指令中的仅一些）。该字段在以下意义上是可选的：如果仅支持一个数据元素宽度和/或使用操作码的一些方面来支持数据元素宽度，则不需要该字段。

写掩码字段670——其内容在每一数据元素位置的基础上控制目的地向量操作数中的该数据元素位置是否反映基础操作和扩增操作的结果。A类指令模板支持合并写掩蔽（writemasking），而B类指令模板支持合并和归零写掩蔽二者。在合并时，向量掩码允许目的地中的元素的任何集合被保护免于在（由基础操作和扩增操作所指定的）任何操作的执行期间的更新；在另一个实施例中，保存对应掩码位具有0的目的地的每个元素的旧值。相比之下，在归零时，向量掩码允许目的地中的元素的任何集合在（由基础操作和扩增操作所指定的）任何操作的执行期间被归零；在一个实施例中，在对应掩码位具有0值时，目的地的元素被设置成0。该功能性的子集是控制正被执行的操作的向量长度（即，正被修改的元素的跨度，从第一个到最后一个）的能力；然而，被修改的元素不必要是连续的。因此，写掩码字段670允许部分向量操作，包括加载、存储、算术、逻辑等。虽然描述了其中写掩码字段670的内容选择包含要被使用的写掩码的多个写掩码寄存器中的一个（并且因此写掩码字段670的内容间接标识要被执行的该掩蔽）的本发明的实施例，但替代实施例代之以或附加允许掩码写字段670的内容直接指定要被执行的掩蔽。

立即数（immediate）字段672——其内容允许立即数的规格。该字段在它不存在于不支持立即数的通用向量友好格式的实现中和它不存在于不使用立即数的指令中的意义上是可选的。

类字段668——其内容在指令的不同类之间进行区分。参考图6A-B，该字段的内容在A类和B类指令之间进行选择。在图6A-B中，圆角方形用来指示存在于字段中的特定值（例如，分别在图6A-B中针对类字段668的A类668A和B类668B）。

A类指令模板

在A类的非存储器访问605指令模板的情况下，阿尔法字段652被解释为RS字段652A，其内容区分不同扩增操作类型的哪一个要被执行（例如，舍入652A.1和数据变换652A.2分别被指定用于无存储器访问、舍入类型操作610和无存储器访问、数据变换类型操作665指令模板），而贝塔字段654区分所指定的类型的操作中的哪个要被执行。在无存储器访问605指令模板中，比例字段660、位移字段662A和位移比例字段662B不存在。

无存储器访问指令模板——全舍入控制类型操作

在无存储器访问全舍入控制类型操作610指令模板中，贝塔字段654被解释为舍入控制字段654A，其（多个）内容提供静态舍入。虽然在本发明的所描述的实施例中，舍入控制字段654A包括抑制所有浮点异常（SAE）字段656和舍入操作控制字段658，但替代实施例可支持可将这些概念二者编码成相同字段，或仅具有这些概念/字段的一个或另一个（例如，可仅具有舍入操作控制字段658）。

SAE字段656——其内容区分是否禁用异常事件报告；在SAE字段656的内容指示抑制被启用时，给定的指令不报告任何种类的浮点异常标志且不增加任何浮点异常处置器。

舍入操作控制字段658——其内容区分要执行一组舍入操作中的哪一个（例如，向上舍入、向下舍入、朝零舍入和向最近舍入）。因此，舍入操作控制字段658允许在每一指令的基础上的舍入模式的改变。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段650的内容覆写该寄存器值。

无存储器访问指令模板——数据变换类型操作

在无存储器访问数据变换类型操作665指令模板中，贝塔字段654被解释为数据变换字段654B，其内容区分要执行多个数据变换中的哪一个（例如，无数据变换、拌和（swizzle）、广播）。

在A类的存储器访问620指令模板的情况下，阿尔法字段652被解释为驱逐提示字段652B，其内容区分要使用驱逐提示中的哪一个（在图6A中，暂时652B.1和非暂时652B.2分别被指定用于存储器访问、暂时625指令模板和存储器访问、非暂时630指令模板），而贝塔字段654被解释为数据操纵字段654C，其内容区分要执行多个数据操纵操作（还被称为原语（primitive））中的哪一个（例如，无操纵；广播；源的向上转换；以及目的地的向下转换）。存储器访问620指令模板包括比例字段660，并可选地包括位移字段662A或位移比例字段662B。

向量存储器指令利用转换支持来执行自存储器的向量加载和到存储器的向量存储。与常规向量指令一样，向量存储器指令以按数据元素的方式从/向存储器传送数据，其中实际上被传送的元素由被选择作为写掩码的向量掩码的内容来指示。

存储器访问指令模板——暂时

暂时数据是可能被足够快地再使用以受益于进行高速缓存的数据。然而，这是提示，并且不同处理器可以以不同方式来实现它，包括完全忽略该提示。

存储器访问指令模板——非暂时

非暂时数据是不太可能被足够快地再使用以受益于在第1级别高速缓存中进行高速缓存并应被给定用于驱逐的优先权的数据。然而，这是提示，并且不同处理器可以以不同方式来实现它，包括完全忽略该提示。

B类指令模板

在B类的指令模板的情况下，阿尔法字段652被解释为写掩码控制（Z）字段652C，其内容区分由写掩码字段670所控制的写掩蔽应是合并还是归零。

在B类的非存储器访问605指令模板的情况下，贝塔字段654的部分被解释为RL字段657A，其内容区分要执行不同扩增操作类型中的哪一个（例如，舍入657A.1和向量长度（VSIZE）657A.2分别被指定用于无存储器访问、写掩码控制、部分舍入控制类型操作612指令模板和无存储器访问、写掩码控制、VSIZE类型操作617指令模板被相应指定），而贝塔字段654的其余区分要执行所指定的类型的操作中的哪个。在无存储器访问605指令模板中，比例字段660、位移字段662A和位移比例字段662B不存在。

在无存储器访问、写掩码控制、部分舍入控制类型操作610指令模板中，贝塔字段654的其余被解释为舍入操作字段659A，并且异常事件报告被禁用（给定的指令不报告任何种类的浮点异常标记且不增加任何浮点异常处置器）。

舍入操作控制字段659A——正如舍入操作控制字段658，其内容区分要执行一组舍入操作中的哪一个（例如，向上舍入、向下舍入、朝零舍入和向最近舍入）。因此，舍入操作控制字段659A允许在每一指令的基础上的舍入模式的改变。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段650的内容覆写该寄存器值。

在无存储器访问、写掩码控制、VSIZE类型操作617指令模板中，贝塔字段654的其余被解释为向量长度字段659B，其内容区分要在多个数据向量长度中的哪一个上执行（例如，128、256或512字节）。

在B类的存储器访问620指令模板的情况下，贝塔字段654的部分被解释为广播字段657B，其内容区分广播类型数据操纵操作是否要被执行，而贝塔字段654的其余被解释为向量长度字段659B。存储器访问620指令模板包括比例字段660，并可选地包括位移字段662A或位移比例字段662B。

关于通用向量友好指令格式600，全操作码字段674被示出包括格式字段640、基础操作字段642和数据元素宽度字段664。虽然示出一个实施例，其中全操作码字段674包括所有这些字段，但在不支持所有这些字段的实施例中，全操作码字段674包括少于所有这些字段。全操作码字段674提供操作代码（操作码）。

扩增操作字段650、数据元素宽度字段664和写掩码字段670允许这些特征被在每一指令的基础上以通用向量友好指令格式指定。

写掩码字段和数据元素宽度字段的组合创建类型化指令，因为它们允许基于不同数据元素宽度来应用掩码。

在A类和B类内发现的各种指令模板在不同情境中是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核心可仅支持A类、仅支持B类或支持两类。例如，意图用于通用计算的高性能通用无序核心可仅支持B类，意图主要用于图形和/或科学（吞吐量）计算的核心可仅支持A类，并且意图用于二者的核心可支持两类（当然，具有来自两类的模板和指令但并非来自两类的所有模板和指令的一些混合的核心在本发明的范围内）。并且，单个处理器可包括多个核心，其全部支持相同类或其中不同核心支持不同类。例如，在具有分离的图形和通用核心的处理器中，意图主要用于图形和/或科学计算的图形核心中的一个可仅支持A类，而通用核心中的一个或多个可以是仅支持B类的意图用于通用计算的具有无序执行和寄存器重命名的高性能通用核心。不具有分离的图形核心的另一处理器可包括支持A类和B类二者的一个更通用的有序或无序核心。当然，来自一类的特征可还被实现在本发明的不同实施例中的另一类中。以高级语言所写的程序将被转译（例如，正好及时编译或静态编译）成多种不同的可执行形式，包括：1）仅具有用于执行的由目标处理器所支持的（多个）类的指令的形式；或2）具有使用所有类的指令的不同组合所写的替代例程并具有控制流代码的形式，所述控制流代码基于由当前正在执行代码的处理器所支持的指令选择要执行的例程。

示例性特定向量友好指令格式

图7A是图示根据本发明的实施例的示例性特定向量友好指令格式的框图。图7A示出特定向量友好指令格式700，它在它指定字段的位置、大小、解释和顺序以及那些字段中的一些的值的意义上是特定的。特定向量友好指令格式700可被用来扩展x86指令集，并且因此字段中的一些与现存x86指令集和其扩展（例如，AVX）中所使用的那些字段类似或相同。此格式与具有扩展的现存x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段保持一致。图示了来自图7A的字段映射成的来自图6的字段。

应当理解，尽管为了说明性目的而参考通用向量友好指令格式600的上下文中的特定向量友好指令格式700描述了本发明的实施例，但除非在声明处，否则本发明不限于特定向量友好指令格式700。例如，通用向量友好指令格式600针对各种字段设想多种可能大小，而特定向量友好指令格式700被示出为具有特定大小的字段。作为特定示例，虽然数据元素宽度字段664被图示为特定向量友好指令格式700中的一位字段，但本发明不被如此限制（即，通用向量友好指令格式600设想数据元素宽度字段664的其它大小）。

通用向量友好指令格式600包括在图7A中图示的在下面按顺序列出的以下字段。

EVEX前缀（字节0-3）702——被以四字节形式编码。

格式字段640（EVEX字节0，位[7:0]）——第一字节（EVEX字节0）是格式字段640，并且它包含0x62（用于区分本发明的一个实施例中的向量友好指令格式的独特值）。

第二-第四字节（EVEX字节1-3）包括提供特定能力的多位字段。

REX字段705（EVEX字节1，位[7-5]）——由EVEX.R位字段（EVEX字节1，位[7]-R）、EVEX.X位字段（EVEX字节1，位[6]-X）和657BEX字节1、位[5]-B）组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能性，并使用1补充（complement ）形式来编码，即ZMM0被编码为1116B，ZMM15被编码为0000B。指令的其它字段对如本领域中已知的寄存器索引的较低三位（rrr、xxx和bbb）进行编码，使得Rrrr、Xxxx和Bbbb可通过添加EVEX.R、EVEX.X和EVEX.B来形成。

REX'字段610——这是REX'字段610的第一部分并且是用来对扩展的32寄存器集合的较高16个寄存器或较低16个寄存器进行编码的EVEX.R'位字段（EVEX字节1，位[4]-R'）。在本发明的一个实施例中，以位倒置的格式存储该位连同如下面所指示的其它位以（在公知的x86 32位模式中）与BOUND指令区分开，其真实操作码字节是62，但在（下面描述的）MOD R/M字段中不接受MOD字段中的值11；本发明的替代实施例不以倒置的格式来存储该位和下面所指示的其它位。使用值1对较低的16个寄存器进行编码。换言之，R'Rrrr通过组合EVEX.R'、EVEX.R和来自其它字段的另一个RRR形成。

操作码映射字段715（EVEX字节1，位[3:0]-mmmm）——其内容编码所暗示的前导操作码字节（0F、0F 38或0F 3）。

数据元素宽度字段664（EVEX字节2，位[7]-W）——由记号EVEX.W表示。EVEX.W被用来定义数据类型的粒度（大小）（32位数据元素或64位数据元素）。

EVEX.vvvv 720（EVEX字节2，位[6:3]-vvvv）——EVEX.vvvv的角色可包括以下：1）EVEX.vvvv编码第一源寄存器操作数，其被以倒置（1补充）的形式来指定，并对于具有2个或更多源操作数的指令有效；2）EVEX.vvvv编码目的地寄存器操作数，其被以1补充的形式来指定，用于某些向量移位；或者3）EVEX.vvvv不编码任何操作数，字段被保留并应包含1116B。因此，EVEX.vvvv字段720编码以倒置（1补充）的形式所存储的第一源寄存器指定符的4个低顺序位。取决于指令，额外的不同EVEX位字段被用来将指定符大小扩展到32个寄存器。

EVEX.U 668类字段（EVEX字节2，位[2]-U）——如果EVEX.U=0，则它指示A类或EVEX.U0；如果EVEX.U=1，则它指示B类或EVEX.U1。

前缀编码字段725（EVEX字节2，位[1:0]-pp）——为基础操作字段提供附加位。除了为以EVEX前缀格式的遗留（legacy）SSE指令提供支持之外，这还具有紧致SIMD前缀（而不是要求字节来表达SIMD前缀，EVEX前缀仅要求2位）的益处。在一个实施例中，为了支持在遗留格式中和在EVEX前缀格式中二者都使用SIMD前缀（66H、F2H、F3H）的遗留SSE指令，这些遗留SIMD前缀被编码到SIMD前缀编码字段中；并在被提供给解码器的PLA之前在运行时间被扩展到遗留SIMD前缀中（因此PLA可以执行这些遗留指令的遗留和EVEX格式二者而不用修改）。尽管较新的指令可以直接将EVEX前缀编码字段的内容用作操作码扩展，但是某些实施例为了一致性以类似方式来扩展但允许要由这些遗留SIMD前缀指定的不同含义。替代实施例可将PLA重设计成支持2位SIMD前缀编码，并因此不要求扩展。

阿尔法字段652（EVEX字节3，位[7]-EH；还被称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制和EVEX.N；还通过α来图示）——如之前所描述的，该字段是上下文特定的。

贝塔字段654（EVEX字节3，位[6:4]-SSS，还被称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；还通过βββ来图示）——如之前所描述的，该字段是上下文特定的。

REX'字段610——这是REX'字段的其余部分并且是可用来对扩展的32寄存器集合的较高16个寄存器或较低16个寄存器进行编码的EVEX.V'位字段（EVEX字节3，位[3]-V）。该位被以位倒置的格式存储。值1用来对较低16个寄存器进行编码。换言之，V'VVVV通过组合EVEX.V、EVEX.vvvv而形成。

写掩码字段670（EVEX字节3，位[2:0]-kkk）——其内容指定如之前所描述的写掩码寄存器中寄存器的索引。在本发明的一个实施例中，特定值EVEX.kkk=000具有暗示没有写掩码被用于特定指令的特殊行为（这可以以包括使用硬接线到所有寄存器的写掩码或绕过掩蔽硬件的硬件的多种方式来实现）。

真实操作码字段730（字节4）还被称为操作码字节。操作码的部分在该字段中被指定。

MOD R/M字段740（字节5）包括MOD字段742、Reg字段744和R/M字段746。如之前所描述的，MOD字段742的内容在存储器访问和非存储器访问操作之间进行区分。Reg字段744的角色可以被概括成两种情境：对目的地寄存器操作数或源寄存器操作数进行编码，或被视为操作码扩展并不被用于对任何指令操作数进行编码。R/M字段746的角色可包括以下：对引用存储器地址的指令操作数进行编码，或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址（SIB）字节（字节6）——如之前所描述的，比例字段650的内容被用于存储器地址生成。SIB.xxx 754和SIB.bbb 756——这些字段的内容之前已关于寄存器索引Xxxx和Bbbb被提到。

位移字段662A（字节7-10）——在MOD字段742包含10时，字节7-10是位移字段662A，并且它与遗留32位位移（disp32）相同地工作并以在字节粒度进行工作。

位移因数字段662B（字节7）——在MOD字段742包含01时，字节7是位移因数字段662B。该字段的位置与以在字节粒度进行工作的遗留x86指令集8位位移（disp8）的位置相同。由于disp8是扩展的符号，它仅可以在-128和127字节偏移之间寻址；在64字节高速缓存线方面，disp8使用可以被设置成仅四个真正有用的值-128、-64、0和64的8位；由于更大的范围常常被需要，使用disp32；然而，disp32要求4字节。与disp8和disp32相比，位移因数字段662B是disp8的重新解释；在使用位移因数字段662B时，实际位移由位移因数字段的内容乘以存储器操作数访问的大小（N）来确定。该类型的位移被称为disp8^*N。这减少平均指令长度（用于位移但具有大得多的范围的单个字节）。这样的经压缩的位移基于如下假定：有效位移是存储器访问的粒度的倍数，并且因此地址偏移的冗余低顺序位不需要被编码。换言之，位移因数字段662B代替遗留x86指令集8位位移。因此，位移因数字段662B被以与x86指令集8位位移相同的方式来编码（因此在ModRM/SIB编码规则中没有改变），具有disp8被过载到disp8^*N的仅有例外。换言之，在编码规则或编码长度中不存在改变，但仅在通过硬件对位移值的解释（其需要通过存储器操作数的大小来缩放位移以获得按字节的地址偏移）中存在改变。立即数字段672如之前所描述地那样进行操作。

全操作码字段

图7B是图示根据本发明的一个实施例的组成全操作码字段674的特定向量友好指令格式700的字段的框图。具体地，全操作码字段674包括格式字段640、基础操作字段642和数据元素宽度（W）字段664。基础操作字段642包括前缀编码字段725、操作码映射字段715和真实操作码字段730。

寄存器索引字段

图7C是图示根据本发明的一个实施例的组成寄存器索引字段644的特定向量友好指令格式700的字段的框图。具体地，寄存器索引字段644包括REX字段705、REX'字段710、MODR/M.reg字段744、MODR/M.r/m字段746、VVVV字段720、xxx字段754和bbb字段756。

扩增操作字段

图7D是图示根据本发明的一个实施例的组成扩增操作字段650的特定向量友好指令格式700的字段的框图。在类（U）字段668包含0时，它意味着EVEX.U0（A类668A）；在它包含1时，它意味着EVEX.U1（B类668B）。在U=0并且MOD字段742包含11（意味着无存储器访问操作）时，阿尔法字段652（EVEX字节3，位[7]-EH）被解释为rs字段652A。在rs字段652A包含1（舍入652A.1）时，贝塔字段654（EVEX字节3，位[6:4]-SSS）被解释为舍入控制字段654A。舍入控制字段654A包括一位SAE字段656和两位舍入操作字段658。在rs字段652A包含0（数据变换652A.2）时，贝塔字段654（EVEX字节3，位[6:4]-SSS）被解释为三位数据变换字段654B。在U=0并且MOD字段742包含00、01或10（意味着存储器访问操作）时，阿尔法字段652（EVEX字节3，位[7]-EH）被解释为驱逐提示（EH）字段652B并且贝塔字段654（EVEX字节3，位[6:4]-SSS）被解释为三位数据操纵字段654C。

在U=1时，阿尔法字段652（EVEX字节3，位[7]-EH）被解释为写掩码控制（Z）字段652C。在U=1并且MOD字段742包含11（意味着无存储器访问操作）时，贝塔字段654的部分（EVEX字节3，位[4]-S₀）被解释为RL字段657A；在它包含1（舍入657A.1）时，贝塔字段654的其余（EVEX字节3，位[6-5]-S_2-1）被解释为舍入操作字段659A，而在RL字段657A包含0（VSIZE657.A2）时，贝塔字段654的其余（EVEX字节3，位[6-5]-S_2-1）被解释为向量长度字段659B（EVEX字节3，位[6-5]-L_1-0）。在U=1并且MOD字段742包含00、01或10（意味着存储器访问操作）时，贝塔字段654（EVEX字节3，位[6:4]-SSS）被解释为向量长度字段659B（EVEX字节3，位[6-5]-L_1-0）和广播字段657B（EVEX字节3，位[4]-B）。

示例性寄存器架构

图8是根据本发明的一个实施例的寄存器架构800的框图。在图示的实施例中，存在512位宽的32个向量寄存器810；这些寄存器被引用为zmm0直到zmm31。较低的16个zmm寄存器的较低顺序256位被覆盖在寄存器ymm0-16上。较低的16个zmm寄存器的较低顺序128位（ymm寄存器的较低顺序128位）被覆盖在寄存器xmm0-15上。特定向量友好指令格式700在如在下表中图示的这些经覆盖的寄存器文件上操作。

换言之，向量长度字段659B在最大长度和一个或多个其它较短长度之间进行选择，其中每个这样的较短长度是在前长度的一半长度；并且不具有向量长度字段659B的指令模板在最大向量长度上操作。进一步地，在一个实施例中，特定向量友好指令格式700的B类指令模板在打包或标量单/双精度浮点数据以及打包或标量整数数据上操作。标量操作是在zmm/ymm/xmm寄存器中的最低顺序数据元素位置上执行的操作；取决于实施例，使较高顺序数据元素位置与它们在该指令之前一样或被归零。

写掩码寄存器815——在图示的实施例中，存在8个写掩码寄存器（k0直到k7），每个在大小上是64位。在替代实施例中，写掩码寄存器815在大小上是16位。如之前所描述的，在本发明的一个实施例中，向量掩码寄存器k0不能被用作写掩码；在将正常地指示k0的编码被用于写掩码时，它选择硬接线写掩码0xFFFF，针对该指令有效地禁用写掩蔽。

通用寄存器825——在图示的实施例中，存在连同用以对存储器操作数进行寻址的现存x86寻址模式一起使用的十六个64位通用寄存器。通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8直到R15来引用这些寄存器。

标量浮点栈寄存器文件（x87栈）845，其上别名MMX打包整数平面寄存器文件850——在图示的实施例中，x87栈是用来使用x87指令集扩展在32/64/80位浮点数据上执行标量浮点操作的八元素栈；而MMX寄存器用来在64位打包整数数据上执行操作，以及用来为在MMX和XMM寄存器之间执行的一些操作保存操作数。

本发明的替代实施例可使用更宽或更窄的寄存器。另外，本发明的替代实施例可使用更多、更少或不同的寄存器文件和寄存器。

示例性核心架构、处理器和计算机架构

可以以不同方式、为了不同目的和在不同处理器中实现处理器核心。例如，这样的核心的实现可包括：1）意图用于通用计算的通用有序核心；2）意图用于通用计算的高性能通用无序核心；3）意图主要用于图形和/或科学（吞吐量）计算的专用核心。不同处理器的实现可包括：1）包括意图用于通用计算的一个或多个通用有序核心和/或意图用于通用计算的一个或多个通用无序核心的CPU；以及2）包括意图主要用于图形和/或科学（吞吐量）的一个或多个专用核心的协处理器。这样的不同处理器导致不同的计算机系统架构，其可包括：1）在与CPU分离的芯片上的协处理器；2）在与CPU相同的封装中的分离管芯上的协处理器；3）在与CPU相同的管芯上的协处理器（在该情况下，这样的协处理器有时被称为专用逻辑，诸如集成的图形和/或科学（吞吐量）逻辑，或被称为专用核心）；以及4）芯片上系统，其可在相同管芯上包括所描述的CPU（有时被称为（多个）应用核心或（多个）应用处理器）、上面所描述的协处理器和附加功能性。接下来描述示例性核心架构，之后是对示例性处理器和计算机架构的描述。

示例性核心架构

有序和无序的核心框图

图9A是图示根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发出/执行流水线二者的框图。图9B是图示根据本发明的实施例的要被包括在处理器中的示例性寄存器重命名、无序发出/执行架构核心和有序架构核心的示例性实施例二者的框图。图9A-B中的实线框图示有序流水线和有序核心，而虚线框的可选附加图示寄存器重命名、无序发出/执行流水线和核心。考虑到有序方面是无序方面的子集，将描述无序方面。

在图9A中，处理器流水线900包括获取阶段902、长度解码阶段904、解码阶段906、分配阶段908、重命名阶段910、调度（还被称为分派或发出）阶段912、寄存器读/存储器读阶段914、执行阶段916、写回/存储器写阶段918、异常处置阶段922和提交阶段924。

图9B示出处理器核心990，其包括耦合到执行引擎单元950的前端单元930，并且二者被耦合到存储器单元970。核心990可以是精简指令集计算（RISC）核心、复杂指令集计算（CISC）核心、极长指令字（VLIW）核心，或者混合或替代核心类型。作为又一选项，核心990可以是专用核心，诸如例如网络或通信核心、压缩引擎、协处理器核心、通用计算图形处理单元（GPGPU）核心、图形核心或类似物。

前端单元930包括耦合到指令高速缓存单元934的分支预测单元932，指令高速缓存单元934被耦合到指令转译后备缓冲器（TLB）936，指令转译后备缓冲器（TLB）936被耦合到指令获取单元938，指令获取单元938被耦合到解码单元940。解码单元940（或解码器）可对指令进行解码，并生成一个或多个微操作、微代码入口点、微指令、其它指令或其它控制信号作为输出，它们被解码自或其以其它方式反映或被推导自原始指令。可使用各种不同的机制来实现解码单元940。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。在一个实施例中，核心990包括存储用于（例如，在解码单元940中或否则在前端单元930内的）某些宏指令的微代码的微代码ROM或其它介质。解码单元940被耦合到执行引擎单元950中的重命名/分配器单元952。

执行引擎单元950包括耦合到引退单元954和一个或多个调度器单元956的集合的重命名/分配器单元952。（多个）调度器单元956表示任何数目的不同调度器，包括保留站、中央指令窗口等。（多个）调度器单元956被耦合到（多个）物理寄存器文件单元958。（多个）物理寄存器文件单元958中的每个表示一个或多个物理寄存器文件，其中的不同的物理寄存器文件存储一个或多个不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态（例如，是要被执行的下一指令的地址的指令指针）等。在一个实施例中，（多个）物理寄存器文件单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可提供架构向量寄存器、向量掩码寄存器和通用寄存器。（多个）物理寄存器文件单元958与引退单元954重叠以图示可实现寄存器重命名和无序执行的各种方式（例如，使用（多个）重排序缓冲器和（多个）引退寄存器文件；使用（多个）将来文件、（多个）历史缓冲器和（多个）引退寄存器文件；使用寄存器映射和寄存器的池；等等）。引退单元954和（多个）物理寄存器文件单元958被耦合到（多个）执行集群960。（多个）执行集群960包括一个或多个执行单元962的集合和一个或多个存储器访问单元964的集合。执行单元962可执行各种操作（例如，移位、加法、减法、乘法）并且对各种类型的数据（例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点）执行所述各种操作。虽然一些实施例可包括专用于特定功能或功能的集合的多个执行单元，但是其它实施例仅可包括一个执行单元或都执行所有功能的多个执行单元。（多个）调度器单元956、（多个）物理寄存器文件单元958和（多个）执行集群960被示出为可能是复数的，因为某些实施例针对某些类型的数据/操作创建分离流水线（例如，标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线和/或存储器访问流水线，其每个具有它们自己的调度器单元、（多个）物理寄存器文件单元和/或执行集群——并且在分离的存储器访问流水线的情况下，实现其中该流水线的仅执行集群具有（多个）存储器访问单元964的某些实施例）。还应当理解，在使用分离流水线的情况下，这些流水线中的一个或多个可以是无序的发出/执行，并且其余是有序的。

存储器访问单元964的集合被耦合到存储器单元970，存储器单元970包括耦合到数据高速缓存单元974的数据TLB单元972，数据高速缓存单元974耦合到级别2（L2）高速缓存单元976。在一个示例性实施例中，存储器访问单元964可包括加载单元、存储地址单元和存储数据单元，其中的每个被耦合到存储器单元970中的数据TLB单元972。指令高速缓存单元934被进一步耦合到存储器单元970中的级别2（L2）高速缓存单元976。L2高速缓存单元976被耦合到一个或多个其它级别的高速缓存并最终到主存储器。

作为示例，示例性寄存器重命名、无序发出/执行核心架构可如下实现流水线900：1）指令获取938执行获取及长度解码阶段902和904；2）解码单元940执行解码阶段906；3）重命名/分配器单元952执行分配阶段908和重命名阶段910；4）（多个）调度器单元956执行调度阶段912；5）（多个）物理寄存器文件单元958和存储器单元970执行寄存器读/存储器读阶段914；执行集群960执行执行阶段916；6）存储器单元970和（多个）物理寄存器文件单元958执行写回/存储器写阶段918；7）各种单元可能在异常处置阶段922中被涉及；以及8）引退单元954和（多个）物理寄存器文件单元958执行提交阶段924。

核心990可支持一个或多个指令集（例如，（具有已随较新版本添加的一些扩展的）x86指令集；MIPS Technologies of Sunnyvale，CA的MIPS指令集；ARM Holdings ofSunnyvale，CA的（具有诸如NEON的可选附加扩展的）ARM指令集），其包括本文中描述的（多个）指令。在一个实施例中，核心990包括用以支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，从而允许使用打包数据来执行由许多多媒体应用使用的操作。

应当理解，核心可支持多线程（执行操作或线程的两个或更多并行集合），并可以以多种方式来如此做，所述多种方式包括时间切片的多线程、同时多线程（其中单个物理核心为物理核心同时进行多线程的每个线程提供逻辑核心，或其组合（例如，诸如在Intel®超线程技术中的时间切片的获取和解码以及其后的同时多线程）。

虽然在无序执行的上下文中描述寄存器重命名，但是应当理解，寄存器重命名可用于有序架构中。虽然处理器的图示实施例还包括分离的指令和数据高速缓存单元934/974以及共享的L2高速缓存单元976，但替代实施例可具有用于指令和数据二者的单个内部高速缓存，诸如例如级别1（L1）内部高速缓存或多个级别的内部高速缓存。在一些实施例中，系统可包括内部高速缓存和在核心和/或处理器外部的外部高速缓存的组合。替代地，所有高速缓存可在核心和/或处理器外部。

具体的示例性有序核心架构

图10A-B图示了更具体的示例性有序核心架构的框图，所述核心将是芯片中的（包括相同类型和/或不同类型的其它核心的）若干逻辑块中的一个。逻辑块根据应用、通过高带宽互连网络（例如，环形网络）与一些固定的功能逻辑、存储器I/O接口和其它必要I/O逻辑进行通信。

图10A是根据本发明的实施例的单个处理器核心连同其到管芯上互连网络1002的连接并且连同其级别2（L2）高速缓存1004的本地子集的框图。在一个实施例中，指令解码器1000支持具有打包数据指令集扩展的x86指令集。L1高速缓存1006允许低等待时间访问以将存储器高速缓存到标量和向量单元中。虽然在一个实施例中（为了简化设计），标量单元1008和向量单元1010使用分离的寄存器集合（分别是标量寄存器1012和向量寄存器1014），并且在它们之间传送的数据被写到存储器并然后从级别1（L1）高速缓存1006读回，但本发明的替代实施例可使用不同的方法（例如，使用单个寄存器集合或包括允许数据被在这两个寄存器文件之间传送而不被写和读回的通信路径）。

L2高速缓存1004的本地子集是全局L2高速缓存的部分，所述全局L2高速缓存被划分成分离的本地子集，每一处理器核心一个。每个处理器核心具有到L2高速缓存1004的它自己的本地子集的直接访问路径。由处理器核心所读的数据被存储在其L2高速缓存子集1004中并可以被与其它处理器核心访问它们自己的本地L2高速缓存子集并行地快速地访问。由处理器核心所写的数据被存储在它自己的L2高速缓存子集1004中并且如果必要则从其它子集中来刷新（flush）。环形网络确保共享的数据的一致性。环形网络是双向的以允许诸如处理器核心、L2高速缓存和其它逻辑块之类的代理在芯片内互相通信。每个环形数据-路径每一方向为1012位宽。

图10B是根据本发明的实施例的图10A中的处理器核心的部分的展开图。图10B包括L1高速缓存1004的L1数据高速缓存1006A部分，以及关于向量单元1010和向量寄存器1014的更多细节。具体地，向量单元1010是16宽向量处理单元（VPU）（参见16宽ALU 1028），其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持利用拌和单元1020来拌和寄存器输入、利用数值转换单元1022A-B的数值转换，以及利用复制单元1024对存储器输入的复制。写掩码寄存器1026允许预测所得到的向量写。

图11是根据本发明的实施例的处理器1100的框图，所述处理器1100可能具有不止一个核心，可能具有集成存储器控制器，并且可能具有集成图形。图11中的实线框图示具有单个核心1102A、系统代理1110、一个或多个总线控制器单元1116的集合的处理器1100，而虚线框的可选附加图示具有多个核心1102A-N、系统代理单元1110中的一个或多个集成存储器控制器单元1114的集合以及专用逻辑1108的替代处理器1100。

因此，处理器1100的不同实现可包括：1）CPU，其具有是集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核心）的专用逻辑1108、以及是一个或多个通用核心（例如，通用有序核心、通用无序核心、所述两个核心的组合）的核心1102A-N；2）具有是意图主要用于图形和/或科学（吞吐量）的大量专用核心的核心1102A-N的协处理器；以及3）具有是大量通用有序核心的核心1102A-N的协处理器。因此，处理器1100可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、（包括30个或更多核心的）高吞吐量许多集成核心（MIC）协处理器、嵌入式处理器或类似物。处理器可被实现在一个或多个芯片上。处理器1100可以是一个或多个衬底的一部分和/或可以使用多个工艺技术中的任何（诸如例如BiCMOS、CMOS或NMOS）而实现在一个或多个衬底上。

存储器层级包括核心内的一个或多个级别的高速缓存、一个或多个共享的高速缓存单元1106的集合，以及耦合到集成存储器控制器单元1114的集合的（未示出的）外部存储器。共享的高速缓存单元1106的集合可包括一个或多个中级高速缓存，诸如级别2（L2）、级别3（L3）、级别4（L4）或其它级别的高速缓存、末级高速缓存（LLC）和/或其组合。虽然在一个实施例中，基于环的互连单元1112将集成图形逻辑1108（集成图形逻辑1108是专用逻辑的示例并且在本文中还被称为专用逻辑）、共享的高速缓存单元1106的集合，以及系统代理单元1110/（多个）集成存储器控制器单元1114互连，但替代实施例可使用任何数目的公知技术用于互连这样的单元。在一个实施例中，一个或多个高速缓存单元1106和核心1102-A-N之间的一致性被维持。

在一些实施例中，核心1102A-N中的一个或多个核心能够进行多线程。系统代理1110包括协调和操作核心1102A-N的那些组件。系统代理单元1110可包括例如功率控制单元（PCU）和显示单元。PCU可以是或包括调节核心1102A-N和集成图形逻辑1108的功率状态所需要的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核心1102A-N在架构指令集方面可以是同构或异构的；即，核心1102A-N中的两个或更多可能能够执行相同指令集，而其它核心可能能够仅执行不同指令集或该指令集的子集。

示例性计算机架构

图12-15是示例性计算机架构的框图。在膝上型计算机、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器（DSP）、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其它电子设备的领域中已知的其它系统设计和配置也是适合的。一般地，能够合并如本文中所公开的处理器和/或其它执行逻辑的种类繁多的系统或电子设备一般是适合的。

现在参考图12，所示出的是依照本发明的一个实施例的系统1200的框图。系统1200可包括被耦合到控制器中枢1220的一个或多个处理器1210、1215。在一个实施例中，控制器中枢1220包括图形存储器控制器中枢（GMCH）1290和输入/输出中枢（IOH）1250（其可在分离的芯片上）；GMCH 1290包括存储器1240和协处理器1245被耦合到的存储器和图形控制器；IOH 1250将输入/输出（I/O）设备1260耦合到GMCH 1290。替代地，存储器和图形控制器中的一个或二者被集成在处理器内（如本文中描述的），存储器1240和协处理器1245被直接耦合到处理器1210和具有IOH 1250的单个芯片中的控制器中枢1220。

在图12中用虚线来表示附加处理器1215的可选性质。每个处理器1210、1215可包括本文中描述的处理核心中的一个或多个，并可以是处理器1100的某一版本。

存储器1240可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）或这两个存储器的组合。对于至少一个实施例，控制器中枢1220经由诸如前侧总线（FSB）的多点总线、诸如快速路径互连（QPI）的点对点接口或类似连接1295与（多个）处理器1210、1215通信。

在一个实施例中，协处理器1245是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器或类似物。在一个实施例中，控制器中枢1220可包括集成图形加速器。

在包括架构、微架构、热、功率消耗特性和类似物的指标的量度范围方面，在物理资源1210、1215之间可能存在多种差异。

在一个实施例中，处理器1210执行控制一般类型的数据处理操作的指令。指令内嵌入的可以是协处理器指令。处理器1210将这些协处理器指令识别为具有应由附连的协处理器1245执行的类型。相应地，处理器1210在协处理器总线或其它互连上将这些协处理器指令（或表示协处理器指令的控制信号）发出到协处理器1245。（多个）协处理器1245接受并执行所接收的协处理器指令。

现在参考图13，所示出的是依照本发明的实施例的第一更具体的示例性系统1300的框图。如图13中所示，多处理器系统1300是点对点互连系统，并包括经由点对点互连1350耦合的第一处理器1370和第二处理器1380。处理器1370和1380中的每个可以是处理器1100的某一版本。在本发明的一个实施例中，处理器1370和1380分别是处理器1210和1215，而协处理器1338是协处理器1245。在另一个实施例中，处理器1370和1380分别是处理器1210、协处理器1245。

处理器1370和1380被示出分别包括集成存储器控制器（IMC）单元1372和1382。处理器1370还包括点对点（P-P）接口1376和1378，作为它的总线控制器单元的部分；类似地，第二处理器1380包括P-P接口1386和1388。处理器1370、1380可使用P-P接口电路1378、1388经由点对点（P-P）接口1350交换信息。如图13中所示，IMC 1372和1382将处理器耦合到相应存储器，也就是存储器1332和存储器1334，其可以是本地地附连到相应处理器的主存储器的部分。

处理器1370、1380可每个使用点对点接口电路1376、1394、1386、1398经由单独的P-P接口1352、1354与芯片组1390交换信息。芯片组1390可以可选地经由高性能接口1392与协处理器1338交换信息。在一个实施例中，协处理器1338是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器或类似物。

（未示出的）共享的高速缓存可被包括在任一处理器中或在两个处理器外部，还经由P-P互连与处理器连接，使得如果处理器被置于低功率模式中，则任一或两个处理器的本地高速缓存信息可被存储在共享的高速缓存中。

芯片组1390可经由接口1396耦合到第一总线1316。在一个实施例中，第一总线1316可以是外围组件互连（PCI）总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围未被如此限制。

如图13中所示，各种I/O设备1314连同总线桥接器1318可被耦合到第一总线1316，总线桥接器1318将第一总线1316耦合到第二总线1320。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或任何其它处理器之类的一个或多个附加处理器1315被耦合到第一总线1316。在一个实施例中，第二总线1320可以是低引脚计数（LPC）总线。在一个实施例中，各种设备可被耦合到第二总线1320，包括例如键盘和/或鼠标1322、通信设备1327和诸如盘驱动器或其它大容量存储设备之类的存储单元1328，其可包括指令/代码和数据1330。进一步地，音频I/O 1324可被耦合到第二总线1320。注意，其它架构是可能的。例如，代替图13的点对点架构，系统可实现多点总线或其它这样的架构。

现在参考图14，所示出的是依照本发明的实施例的第二更具体的示例性系统1400的框图。图13和14中的相同元件具有相同的参考数字，并且已从图14省略图13的某些方面以便避免模糊图14的其它方面。

图14图示了处理器1370、1380可分别包括集成存储器和I/O控制逻辑（“CL”）1372和1382。因此，CL 1372、1382包括集成存储器控制器单元并包括I/O控制逻辑。图14图示了不但存储器1332、1334被耦合到CL 1372、1382，而且I/O设备1414也被耦合到控制逻辑1372、1382。旧有I/O设备1415被耦合到芯片组1390。

现在参考图15，所示出的是依照本发明的实施例的SoC 1500的框图。图11中的类似元件具有相同的参考数字。并且，虚线框是更高级的SoC上的可选特征。在图15中，（多个）互连单元1502被耦合到：应用处理器1510，其包括包含高速缓存单元1104A-N的一个或多个核心1102A-N的集合和（多个）共享的高速缓存单元1106；系统代理单元1110；（多个）总线控制器单元1116；（多个）集成存储器控制器单元1114；一个或多个协处理器1520的集合，其可包括集成图形逻辑、图像处理器、音频处理器以及视频处理器；静态随机存取存储器（SRAM）单元1530；直接存储器访问（DMA）单元1532；以及用于耦合到一个或多个外部显示器的显示单元1540。在一个实施例中，（多个）协处理器1520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器或类似物。

可以以硬件、软件、固件或这样的实现方法的组合来实现本文中所公开的机制的实施例。可以将本发明的实施例实现为在可编程系统上执行的程序代码或计算机程序，所述可编程系统包括至少一个处理器、（包括易失性和非易失性存储器和/或存储元件的）存储系统、至少一个输入设备和至少一个输出设备。

可以将诸如图13中图示的代码1330之类的程序代码应用于输入指令以执行本文中描述的功能并生成输出信息。输出信息可以以已知方式应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器的任何系统，所述处理器诸如例如数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或微处理器。

程序代码可以以高级过程或面向对象的编程语言来实现以与处理系统通信。如果期望，则程序代码还可以以汇编或机器语言来实现。事实上，本文中描述的机制在范围上不限于任何特定的编程语言。在任何情况下，语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可通过存储在机器可读介质上的代表性指令来实现，所述代表性指令表示处理器内的各种逻辑，其当由机器读时使得机器制作用以执行本文中描述的技术的逻辑。这样的表示（被称为“IP核心”）可被存储在有形的机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器中。

这样的机器可读存储介质可非限制性地包括由机器或设备所制造或形成的物品的非瞬时有形布置，其包括存储介质，诸如硬盘，包括软盘、光盘、紧致盘只读存储器（CD-ROM）、可重写紧致盘（CD-RW）和磁光盘的任何其它类型的盘；半导体设备，诸如只读存储器（ROM），诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）之类的随机存取存储器（RAM），可擦除可编程只读存储器（EPROM）、闪速存储器、电可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）；磁卡或光卡；或适合于存储电子指令的任何其它类型的介质。

相应地，本发明的实施例还包括非瞬时有形机器可读介质，所述介质包含指令或包含设计数据，诸如硬件描述语言（HDL），其定义本文中描述的结构、电路、装置、处理器和/或系统特征。这样的实施例还可被称为程序产品。

模拟（包括二进制转译、代码变形等）

在一些情况下，可以使用指令转换器将指令从源指令集转换成目标指令集。例如，指令转换器可对指令进行转译（例如，使用静态二进制转译、包括动态编译的动态二进制转译）、变形、仿真或以其它方式将指令转换成要由核心来处理的一个或多个其它指令。可以以软件、硬件、固件或其组合来实现指令转换器。指令转换器可在处理器上、离开处理器或部分在处理器上且部分离开处理器。

图16是根据本发明的实施例的对比将源指令集中的二进制指令转换成目标指令集中的二进制指令的软件指令转换器的使用的框图。在图示的实施例中，指令转换器是软件指令转换器，但是替代地指令转换器可以以软件、硬件、固件或其各种组合来实现。图16示出可以使用x86编译器1604来编译用高级语言1602的程序以生成x86二进制代码1606，其可由具有至少一个x86指令集核心的处理器1616本机执行。具有至少一个x86指令集核心的处理器1616表示可以通过兼容地执行或以其它方式处理如下各项以便实现与具有至少一个x86指令集核心的Intel处理器基本上相同的结果而执行与具有至少一个x86指令集核心的Intel处理器基本上相同的功能的任何处理器：（1）Intel x86指令集核心的指令集的实质部分，或（2）目标是在具有至少一个x86指令集核心的Intel处理器上运行的应用或其它软件的对象代码版本。x86编译器1604表示可操作以生成x86二进制代码1606（例如，对象代码）的编译器，所述x86二进制代码1606可以被在利用或不利用附加联接处理的情况下在具有至少一个x86指令集核心的处理器1616上执行。类似地，图16示出了可以使用替代指令集编译器1608来编译用高级语言1602的程序以生成替代指令集二进制代码1610，其可由不具有至少一个x86指令集核心的处理器1614（例如，具有执行MIPS Technologies ofSunnyvale，CA的MIPS指令集和/或执行ARM Holdings of Sunnyvale，CA的ARM指令集的核心的处理器）本机执行。可以使用指令转换器1612将x86二进制代码1606转换成可由不具有x86指令集核心的处理器1614本机执行的代码。该经转换的代码不太可能与替代指令集二进制代码1610相同，因为有此能力的指令转换器难以做出；然而，经转换的代码将完成一般操作并由来自替代指令集的指令组成。因此，指令转换器1612表示软件、固件、硬件或其组合，其通过模拟、仿真或任何其它过程而允许不具有x86指令集处理器或核心的处理器或其它电子设备执行x86二进制代码1606。

下面描述了上面详述的实施例的示例。

示例1.一种处理器包括：解码电路，用来对指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及执行电路，用来执行经解码的指令以：广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置，根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作，以及将操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

示例2.根据示例1所述的处理器，其中操作是计算。

示例3.根据示例2所述的处理器，其中立即数是8位值。

示例4.根据示例1-3中的任何示例所述的处理器，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

示例5.根据示例1-4中的任何示例所述的处理器，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

示例6.根据示例1-5中的任何示例所述的处理器，其中被标识的第二打包数据源操作数是存储器位置。

示例7.一种方法包括：对指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及执行经解码的指令以：广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置，根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作，以及将操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

示例8.根据示例7所述的方法，其中操作是计算。

示例9.根据示例8所述的方法，其中立即数是8位值。

示例10.根据示例9所述的方法，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

示例11.根据示例7-9中的任何示例所述的方法，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

示例12.根据示例7-9中的任何示例所述的方法，其中被标识的第二打包数据源操作数是存储器位置。

示例13.一种非暂时性机器可读介质，其存储指令的发生，其中响应于所述指令的发生，硬件处理器要执行方法，所述方法包括：对所述指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及执行经解码的指令以：广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置，根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作，以及将操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

示例14.根据示例13所述的非暂时性机器可读介质，其中操作是计算。

示例15.根据示例14所述的非暂时性机器可读介质，其中立即数是8位值。

示例16.根据示例13-15中的任何示例所述的非暂时性机器可读介质，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

示例17.根据示例13-16中的任何示例所述的非暂时性机器可读介质，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

示例18.根据示例13-17中的任何示例所述的非暂时性机器可读介质，其中被标识的第二打包数据源操作数是存储器位置。

Claims

1.一种处理器，包括：

解码部件，用于对指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及

执行部件，用于执行经解码的指令以：

广播来自被标识的第一打包数据源操作数的打包数据元素，其中基于立即数的值来选择要广播的打包数据元素位置，

根据操作码对所广播的来自被标识的第一打包数据源操作数的打包数据元素和被标识的第二打包数据源操作数的打包数据元素执行操作，以及

将操作的结果存储在被标识的打包数据目的地操作数中与被标识的第二打包数据源操作数的打包数据元素位置对应的位置中。

2.根据权利要求1所述的处理器，其中操作是计算。

3.根据权利要求2所述的处理器，其中立即数是8位值。

4.根据权利要求1-3中任一项所述的处理器，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

5.根据权利要求1-3中任一项所述的处理器，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

6.根据权利要求1-4中任一项所述的处理器，其中被标识的第二打包数据源操作数是存储器位置。

7.一种方法，包括：

对指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及

执行经解码的指令以：

8.根据权利要求7所述的方法，其中操作是计算。

9.根据权利要求8所述的方法，其中立即数是8位值。

10.根据权利要求9所述的方法，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

11.根据权利要求10所述的方法，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

12.根据权利要求7所述的方法，其中被标识的第二打包数据源操作数是存储器位置。

13.一种非暂时性机器可读介质，其存储指令的发生，其中响应于所述指令的发生，硬件处理器要执行方法，所述方法包括：

对所述指令进行解码，所述指令具有用于操作码、至少两个打包数据源操作数标识符、打包数据目的地操作数标识符和立即数的字段；以及

执行经解码的指令以：

14.根据权利要求13所述的非暂时性机器可读介质，其中操作是计算。

15.根据权利要求14所述的非暂时性机器可读介质，其中立即数是8位值。

16.根据权利要求13-15中任一项所述的非暂时性机器可读介质，其中指数分量被存储在被标识的打包数据目的地操作数的最低有效打包数据元素位置中。

17.根据权利要求13-16中任一项所述的非暂时性机器可读介质，其中被标识的打包数据源操作数中的一个和目的地操作数相同。

18.根据权利要求13-16中任一项所述的非暂时性机器可读介质，其中被标识的第二打包数据源操作数是存储器位置。