CN110879724A

CN110879724A - 用于深度学习和其它算法的fp16-s7e8混合精度

Info

Publication number: CN110879724A
Application number: CN201910717259.0A
Authority: CN
Inventors: S.N.卡什亚普; A.莱珀; P.博伊尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-09-05
Filing date: 2019-08-05
Publication date: 2020-03-13
Also published as: US11093579B2; US20190042544A1; CN115421686A; EP3620910B1; EP3620910A1

Abstract

所公开的实施例涉及混合精度矢量乘‑累加（MPVMAC）。在一个示例中，处理器包括取电路，所述取电路用于取压缩指令，该压缩指令具有用于指定具有N个经单精度格式化元素的源矢量以及具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；解码电路，所述解码电路用于解码所取的压缩指令；执行电路，所述执行电路用于通过以下操作来响应所解码的压缩指令：将源矢量的每个元素转换成NHP格式，并将每个转换后的元素写到对应的经压缩矢量元素，其中处理器进一步用于取、解码和执行MPVMAC指令，以使用16比特乘法器将对应的经NHP格式化元素相乘，并且使用32比特累加器将每个乘积与对应目的地的先前内容相累加。

Description

用于深度学习和其它算法的FP16-S7E8混合精度

技术领域

本发明的领域一般涉及计算机处理器架构，并且更具体地说，涉及用于深度学习和其它算法的FP16-S7E8混合精度。

背景技术

当今用于通过神经网络的机器学习的许多硬件加速器在训练和推理两者期间主要执行矩阵乘法。用于机器学习的硬件加速器努力实现最佳原始性能数字（rawperformance number）和功率与性能比值。

机器学习架构（例如深度神经网络）已经被应用于包括计算机视觉、图像识别、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。

矩阵乘法是用于包括机器学习的许多算法的关键性能/功率限制物。

对于加速指令吞吐量和提高性能的尝试可以试图使用缩减精度，例如IEEE-FP16（S10E5），其是一种具有10比特有效位（有时称为尾数、系数、自变量或分数）和5比特指数的半精度浮点（FP）格式，并且在由电气和电子工程师协会（IEEE）颁布的IEEE 754-2008标准中被定义。然而，当使用IEEE-FP16（S10E5）时，由于有效位对指数位的过度分配，IEEE-FP16（S10E5）趋于是耗时的、需要专家知识、并且可能产生比通过例如单精度所获得的超参数更不积极（即，训练更慢）的超参数（即，在训练过程前固定并且在训练过程期间或作为训练过程的结果而不改变的属性）。

附图说明

本发明通过示例而非限制的方式在附图的图中被示出，其中相似附图标记指示相似元件，并且在附图中：

图1是示出根据实施例的用于执行混合精度矢量乘-累加（MPVMAC）指令的处理组件的框图；

图2是示出根据实施例的用于执行混合精度矢量乘-累加（MPVMAC）指令的处理组件的框图；

图3是示出根据实施例的执行混合精度矢量乘-累加（MPVMAC）指令的处理器的框流程图；

图4A示出框图，其示出了根据一些实施例的浮点格式；

图4B示出了与标准半精度浮点格式相比的神经半精度（FP16-S7E8）浮点格式的增加的动态范围；

图5A是示出根据一些实施例的用于将格式从标准单精度转换为神经半精度的指令的执行的框图；

图5B是示出执行用于将格式从标准单精度转换为神经半精度的指令的处理器的实施例的框流程图；

图6A是示出根据一些实施例的用于将格式从神经半精度转换为标准单精度的指令的执行的框图；

图6B是示出执行用于将格式从神经半精度转换为标准单精度的指令的处理器的实施例的框流程图；

图7A是根据一些实施例的用于使用混合精度矢量乘-累加（MPVMAC）指令进行机器学习实验的流程图；

图7B示出了与将5比特指数用于FP32中的累加和乘法器的CIFAR-10的非收敛相关的实验结果；

图7C示出了与将6比特指数和参数扫描用于尾数中比特的数量、FP32累加的CIFAR-10的收敛相关的实验结果；

图7D示出了与带有使用IEEE-FP16（S10E5）和FP16-S7E8表示而实现的乘法器和使用FP32而实现的累加器的AlexNet的收敛相关的实验结果；

图7E示出了Resnet-50；FP16-S7E8对IEEE-FP16/32的收敛图；

图8是根据一些实施例的混合精度矢量乘-累加（MPVMAC）指令的格式；

图9A-9B是示出根据本发明的一些实施例的通用矢量友好指令格式及其指令模板的框图；

图9A是示出根据本发明的一些实施例的通用矢量友好指令格式及其类别A指令模板的框图；

图9B是示出根据本发明的一些实施例的通用矢量友好指令格式及其类别B指令模板的框图；

图10A是示出根据本发明的一些实施例的示例性特定矢量友好指令格式的框图；

图10B是示出根据一个实施例的构成完整操作码字段的特定矢量友好指令格式的字段的框图；

图10C是示出根据一个实施例的构成寄存器索引字段的特定矢量友好指令格式的字段的框图；

图10D是示出根据一个实施例的构成增强操作字段的特定矢量友好指令格式的字段的框图；

图11是根据一个实施例的寄存器架构的框图；

图12A是示出根据一些实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线两者的框图；

图12B是示出根据一些实施例的将被包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、乱序发布/执行架构核两者的框图；

图13A-B示出了更具体的示例性有序核架构的框图，该核将是芯片中若干逻辑块（包括相同类型和/或不同类型的其它核）之一；

图13A是根据一些实施例的单个处理器核的框图，连同其到管芯上互连网络的连接以及其2级（L2）高速缓冲存储器的本地子集；

图13B是根据一些实施例的图13A中的处理器核的一部分的放大视图；

图14是根据一些实施例的处理器的框图，该处理器可以具有多于一个核、可以具有集成存储器控制器、并且可以具有集成图形；

图15-18是示例性计算机架构的框图；

图15示出了根据一些实施例的系统的框图；

图16是根据一些实施例的第一更具体示例性系统的框图；

图17是根据一些实施例的第二更具体示例性系统的框图；

图18是根据一些实施例的芯片上系统（SoC）的框图；以及

图19是根据一些实施例的对照使用软件指令转换器将源指令集中的二进制指令转换为目标指令集中的二进制指令的框图。

具体实施方式

在以下描述中，阐述了许多具体细节。然而，应当理解，一些实施例可以在没有这些具体细节的情况下被实践。在其它情况下，没有详细示出众所周知的电路、结构和技术，以免模糊对此描述的理解。

说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表示所描述的实施例可以包括特征、结构或特性，但是每个实施例可不一定包括该特征、结构或特性。此外，这样的短语不一定指同一实施例。此外，当关于实施例描述特征、结构或特性时，如果明确描述，则主张的是，影响关于其它实施例的这种特征、结构或特性在本领域技术人员的知识范围内。

以下描述公开了用于使用包括标记比特、七比特有效位和八比特指数的16比特格式来执行混合精度矢量乘-累加（MPVMAC）指令的各种系统和方法。该格式被称为FP16-S7E8格式（由于其有效位和指数比特宽度），或者被称为神经半精度格式（因为它被示出为改善了在机器学习上下文中使用的神经网络的性能，包括在训练阶段和推理阶段两者期间）。根据一些实施例，执行所公开的MPVMAC指令是在乘法期间使用缩减精度FP16-S7E8（神经半精度）格式，随后是32比特单精度累加，其可以使用在IEEE 754-2008中定义的FP32/二进制32单精度浮点格式。

使用FP16-S7E8格式以用于乘法预期产生较低精度的存储器带宽、功率和硅面积益处，但在训练和推理性能方面的负面影响很小。与执行MPVMAC指令结合使用FP16-S7E8格式预期提高神经网络处理和类似深度学习工作负载的性能和功率效率。

所公开的实施例避免依赖于IEEE-FP16（S10E5）缩减精度格式，这可能导致不与低精度乘法一起工作的架构。所公开的实施例还通过保持采用二进制32格式的每个数据元素的副本来避免强制IEEE-FP16（S10E5）格式工作，以便如果算法失败且在算法失败时使能倒带（rewind）和重新开始。这种方法需要大量额外的存储器和硅面积。

因此，所公开的实施例使用16比特格式以用于乘法。这种格式在神经网络应用中工作良好，因此该格式有时被称为“神经”半精度。基于7比特有效位和8比特指数，该格式也称为FP16-S7E8（或S7E8-FP16）。使用所公开的FP16-S7E8格式表示与FP32格式的数字具有非常接近的相同范围的数字。所公开的实施例还包括混合精度乘-累加指令，该指令使用这种16比特FP16-S7E8格式以用于乘法，但是使用32比特单精度来累加。

所公开的实施例预期提高GEMM（通用矩阵乘法）性能。就硅面积而言，所公开的实施例预期比IEEE-FP16（S10E5）稍微便宜，并且比32比特二进制32显著便宜。浮点乘法器的面积成本由尾数乘法器所主导，并且这与尾数比特的数量的平方成比例。使用所公开的FP16-S7E8格式来实现GEMM预期与利用FP32乘法器的实现相比需要显著更少的硅面积和消耗更少的功率。

所公开的实施例描述了新的16比特FP表示（如图4A中所示）以适应深度学习工作负载的训练要求。所公开的格式将被用作混合精度融合乘-累加操作的一部分，如图2中所示。

图1是示出根据一些实施例的用于执行混合精度矢量乘-累加（MPVMAC）指令的处理组件的框图。如图所示，存储装置101存储要执行的MPVMAC指令103。如下文进一步描述的，在一些实施例中，计算系统100是SIMD处理器，其用于并行处理打包数据矢量（例如矩阵）的多个元素。

在操作中，通过取电路105从存储装置101取MPVMAC指令103。所取的MPVMAC指令107通过解码电路109解码。相对于图8、9A-B和10A-D进一步示出和描述的MPVMAC指令格式具有用于指定第一、第二和目的地矩阵的字段（这里未示出），在一些实施例中，所指定的第二矩阵是稀疏度小于一的稀疏矩阵（稀疏度是非零元素的比例，即第二矩阵具有至少一些零值元素）。解码电路109将所取的MPVMAC指令107解码成一个或多个操作。在一些实施例中，此解码包括生成将由执行电路（例如执行电路117）所执行的多个微操作。解码电路109还解码指令后缀和前缀（如果使用的话）。执行电路117在下面至少相对于图2-6B、12A-B和13A-B而被进一步描述和说明

在一些实施例中，寄存器重命名、寄存器分配和/或调度电路113为以下项中的一项或多项提供功能性：1）将逻辑操作数值重命名为物理操作数值（例如，在一些实施例中为寄存器别名表），2）将状态比特和标志分配给所解码指令，以及3）从指令池中调度所解码的MPVMAC指令111以用于在执行电路117上执行（例如，在一些实施例中使用保留站）。

寄存器（寄存器堆）和/或存储器115存储作为要由执行电路117操作的解码MPVMAC指令111的操作数的数据。示例性寄存器类型包括写掩码寄存器、打包数据寄存器、通用寄存器和浮点寄存器，如下面至少相对于图11进一步描述和示出的。

在一些实施例中，写回电路119提交所解码的MPVMAC指令111的执行结果。相对于图2-6B、12A-B和13A-B进一步示出和描述了执行电路117和系统100

图2是示出根据实施例的用于执行混合精度矢量乘-累加（MPVMAC）指令的处理组件的框图。如图所示，计算系统200用于执行指令202，以使用FP32到FP16-S7E8转换器212和214来转换经单精度格式化矢量、源1（FP32）206和源2（FP32）208，并将转换后的经FP16-S7E8格式化的源1和源2矢量元素存储到经神经半精度FP16-S7E8格式化的寄存器、源1（FP16-S7E8）216和源2（FP16-S7E8）218中。然后，执行电路用于执行指令204，以使用16比特乘法电路220将两个经FP16-S7E8格式化源矢量的每个元素相乘。由乘法电路220所生成的每个乘积然后将使用32比特累加（FP32）电路222而与目的地（FP32）224的对应元素的先前值进行累加。

如图所示，指令202是指定256比特存储器位置或矢量寄存器目的地、512比特存储器位置或矢量寄存器源矢量以及用于指定舍入行为的8位立即数的VCVTPS2PNH（矢量转换打包单精度2打包神经半精度）指令。参考图8、9A-B和10A-D进一步示出和描述了VCVTPS2NH指令的格式。这里，VCVTPS2NH指令将被调用两次，每次指定512位存储器位置作为源，指定256位矢量寄存器作为目的地。

如图所示，指令204是指定两个256比特源矢量寄存器或存储器位置以及512比特目的地矢量寄存器的VDPPNHS（矢量点积打包神经半精度乘法单精度累加）指令。还指定了掩码k1，其最低阶的16比特控制每个目的地矢量寄存器元素在未被掩码时被写有新值。还包括的是{z}比特，其指定被掩码的目的地元素是被归零还是被掩码。相对于图8、9A-B和10A-D进一步示出和描述VDPPNHS指令的格式。这里，指令204指定源1（FP16-S7E8）216和源2（FP16-S7E8）218作为其源矢量，并指定目的地（FP32）224作为其目的地。

相对于图3、5A-B、12A-B和13A-B进一步示出和描述了用于执行（MPVMAC）指令的计算系统200的操作

为了简单性的缘故，用于执行MPVMAC指令的电路被示为对单个数据值进行操作。但是，应该理解，所示的源和目的地是矢量。在一些实施例中，计算系统200对矢量的元素进行串行操作。在一些实施例中，计算系统200对矢量的多个元素进行并行操作。在其它实施例中，计算系统200对矩阵（片）的多个元素进行操作，例如矩阵（片）元素的行或列。在一些实施例中，计算系统200利用SIMD（单指令多数据）电路对多个矢量元素进行并行操作。

图3是示出根据实施例的执行混合精度矢量乘-累加（MPVMAC）指令的处理器的框流程图。如图所示，执行流程300的处理器将执行指令302两次以将两个单精度（FP32）源矢量转换成神经半精度（NHP）矢量，并且然后执行混合精度矢量乘-累加（MPVMAC）指令304以将对应的16比特元素对中的每对相乘，并且然后使用32比特处理通道将每个乘积与对应的FP32目的地的先前值累加。

在306，处理器用于使用取电路来取压缩指令，该压缩指令具有用于指定具有N个经单精度格式化元素的源矢量的位置的字段，以及具有N个经神经半精度（NHP）格式化元素的经压缩矢量。在308，处理器用于使用解码电路对所取的压缩指令进行解码。

在310，处理器用于使用执行电路通过以下操作对所解码的压缩指令做出响应：将源矢量的每个元素转换成NHP格式，根据舍入模式对每个转换后的元素进行舍入，并将每个舍入的元素写到对应的经压缩矢量元素，其中NHP格式包括七个有效位和八个指数比特，并且其中源矢量和经压缩矢量各自在存储器中或在矢量寄存器中。

在312，处理器用于使用取、解码和执行电路来取、解码和执行第二压缩指令，该第二压缩指令指定具有根据单精度格式来格式化的N个元素的第二源矢量和具有根据NHP格式来格式化的N个元素的第二经压缩矢量的位置。

在314，处理器用于使用取和解码电路来取和解码MPVMAC指令，该指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量的字段，以及具有N个经单精度格式化元素的目的地矢量，其中所指定的源矢量是经压缩矢量和第二经压缩矢量。

在316，处理器用于使用执行电路，通过生成经压缩矢量元素和第二经压缩矢量元素的16比特乘积，并将所生成的16比特乘积与目的地矢量的对应元素的先前内容相累加，针对N个元素中的每个元素，对所解码的MPVMAC指令做出响应。

在一些实施例中，在318，处理器用于写回执行结果/退役MPVMAC指令。操作318是可选的，如由其虚线框所指示的，在这种情况下，写回可以在不同时间发生，或者根本不发生。

相对于图2、5A-B、12A-B和13A-B进一步示出和描述了用于执行（MPVMAC）指令的处理器的操作

图4A示出了结合一些所公开的实施例所使用的浮点格式。如图所示，FP16-S7E8格式402与各种所公开的实施例结合使用，并且由标记比特、8比特指数和7比特有效位（有时称为尾数、系数、自变量或分数）组成。另一方面，所公开的实施例避免使用由标记比特、5比特指数和10比特有效位组成的IEEE 754 FP16 （S10E5）半精度（有时称为二进制16或FP16-S10E5）格式404。所公开的实施例避免IEEE二进制16格式，因为其在GEMM内的单独标量积的结果不能用IEEE半精度——IEEE-FP16（S10E5）中的5比特指数来表示时在训练期间趋于不收敛。还示出的是IEEE 754单精度（FP32/二进制32）格式406。所公开的实施例使用16比特乘法级来生成FP16-S7E8操作数的乘积，并且然后通过32比特通道来累加乘积已生成32比特FP32结果。

图4B示出了（在CIFAR-10训练中）这些中间结果的比例，这些中间结果不可采用IEEE半精度（FP-16）来表示，但具有6比特指数。直方图450示出了覆盖有6比特指数452的范围显著大于具有IEEE-FP16 S10E5）454的范围。这带来了很大的好处，因为用IEEE-FP16-S10E5的训练是不成功的，但用FP16-S7E8的训练是成功的。

由于大量这些标量积被减少以产生矩阵结果的单个元素，所以每个单独标量积结果的精度不太重要，并且因此有效位中的比特的数量可以安全地减少。如下文实验结果部分中所描述的，通过将乘法器输入从IEEE FP32重新格式化为16比特格式（诸如FP16-S7E8），可以实现某些神经网络的收敛。

图5A是示出根据一些实施例的用于将格式从标准单精度转换为神经半精度的指令的执行的框图。如图所示，计算系统500用于执行指令502以使用FP32至FP16-S7E8转换器510和舍入电路512来转换经单精度格式化矢量、源1（FP32）504，以生成16个经神经半精度（NHP）格式化值并将其存储到经压缩矢量（FP16-S7E8）514。

如图所示，指令502是指定256比特存储器位置或矢量寄存器目的地、512比特存储器位置或矢量寄存器源矢量以及用于指定舍入行为的8比特立即数的VCVTPS2PNH（矢量转换打包单精度2打包神经半精度）指令。相对于图8、9A-B和10A-D进一步示出和描述了VCVTPS2PNH指令的格式

在操作中，计算系统500用于使用包括FP32至FP16-S7E8转换器510和舍入电路512的执行电路508来转换源1（FP32）504的每个元素，并将每个转换后的元素存储到经压缩矢量（FP16-S7E8）514的对应元素。相对于图5B、12A-B和13A-B进一步示出和描述了用于执行（MPVMAC）指令的计算系统500的操作

图5B是示出执行用于将格式从标准单精度转换为神经半精度的处理器的指令的实施例的框流程图。如图所示，流程550将由处理器执行以执行指令552，从而将单精度（FP32）源矢量转换成神经半精度（NHP）矢量。

在556，处理器用于使用取电路来取压缩指令，该压缩指令具有用于指定具有N个经单精度格式化元素的源矢量以及具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段。在558，处理器用于使用解码电路对所取的压缩指令进行解码。

在560，处理器用于使用执行电路，通过以下操作来对所解码的压缩指令做出响应：将源矢量的每个元素转换成NHP格式，根据舍入模式来舍入每个转换后的元素，以及将每个舍入的元素写到对应的经压缩矢量元素，其中NHP格式包括七个有效位比特和八个指数比特，并且其中所指定的源矢量和经压缩矢量各自在存储器中或在寄存器中。

在一些实施例中，在562，处理器用于写回执行结果/退役MPVMAC指令。操作562是可选的，如由其虚线框所指示的，在这种情况下，写回可以在不同时间发生，或者根本不发生。

图6A是示出根据一些实施例的用于将格式从神经半精度转换为标准单精度的指令的执行的框图。如图所示，计算系统600用于执行指令602以使用FP16-S7E8至FP32转换器610来转换经神经半精度格式化矢量、源1（FP16-S7E8）604，以生成16个经单精度（FP32）格式化值并将其存储到目的地矢量（FP32）614。

如图所示，指令602是指定512比特存储器位置或矢量寄存器目的地、以及256比特存储器位置或矢量寄存器源矢量的VCVTPNH2PS（矢量转换打包神经半精度2打包单精度）指令。相对于图8、9A-B和10A-D进一步示出和描述了VCVTPNH2PS指令的格式

在操作中，计算系统600用于使用包括FP16-S7E8至FP32转换器610的执行电路608来转换源1（FP16-S7E8）604的每个元素，并将每个转换后的元素存储到目的地矢量（FP32）614的对应元素。相对于图6B、12A-B和13A-B进一步示出和描述了用于执行（MPVMAC）指令的计算系统600的操作

图6B是示出执行用于将格式从神经半精度转换为标准单精度的处理器的指令的实施例的框流程图。如图所示，流程650将由处理器执行以执行指令652，从而将神经半精度（NHP）源矢量转换成单精度（FP32）矢量。

在656，处理器用于使用取电路来取扩展指令，该扩展指令具有用于指定具有N个经神经半精度（NHP）格式化元素的经压缩源矢量和具有N个经单精度格式化元素的目的地矢量的位置的字段。在658，处理器用于使用解码电路对所取的扩展指令进行解码。

在660，处理器用于使用执行电路，通过以下操作来对所解码的扩展指令做出响应：将经压缩源矢量的每个元素转换成单精度格式，以及将每个转换后的元素写到对应的目的地矢量元素。

在一些实施例中，在662，处理器用于写回执行结果/退役MPVMAC指令。操作662是可选的，如由其虚线框所指示的，在这种情况下，写回可以在不同时间发生，或者根本不发生。

实验结果

使用FP16-S7E8缩减精度数据格式的所公开的实施例预期提高处理器执行混合精度矢量乘-累加（MPVMAC）指令作为机器学习工作负载的一部分的性能和效率，如通过下面描述的实验结果所证实了的。如下所述，根据相对于图7A所示出和描述的方法论进行了实验。图7B示出，当使用具有5比特指数的16比特格式（诸如IEEE-FP16（S10E5））时，尝试对图像的CIFAR-10数据集进行训练无法收敛，而图7C示出，使用相同设置但具有6比特指数，实现收敛。假设实验示出使用6比特指数实现收敛，则使用8比特指数（例如作为所公开的实施例的FP16-S7E8格式）保守地预期实现收敛。图7D和图7E分别示出了关于AlexNet神经网络和Resnet-50神经网络的实验结果，其与IEEE-FP16（S10E5）格式的性能相比示出了当使用所公开的实施例的FP16-S7E8格式时改进的收敛。

实验方法论

图7A是示出应用于进行机器学习实验的方法论的流程图。使用实验方法700，通过使用CAFFE（用于快速特征嵌入的卷积架构）深度学习框架而执行各种神经网络的训练运行来生成实验报告。CAFFE支持朝图像分类和图像分段调整的许多不同类型的深度学习架构。

如图所示，在702，配置和编译神经网络测试工作台。在704，安装定制SGEMM。（GEMM——通用矩阵乘法——是深度学习中的常见功能，并且是BLAS——基本线性代数子程序——库的一部分。SGEMM和DGEMM分别是GEMM的单精度和双精度版本。）在进行实验时，SGEMM调用将被拦截并替换为定制SGEMM，以使用称为“BLAS拦截器”的定制工具来改变乘法器和累加器的精度，而不对二进制进行任何更改。

在706，所述二进制通过正使用CIFAR-10（CIFAR-10是用于对象识别的已建立的计算机视觉数据集，其可以包含成千上万个32x32彩色图像）的GNU MPFR库和对于AlexNet和ResNet舍入到零的Intrinsics而执行的低精度算法来运行，。

在708，生成定制报告。

将5比特指数用于FP32中的累加和乘法器的CIFAR-10的非收敛

图7B示出了与将5比特指数用于FP32中的累加和乘法器的CIFAR-10的非收敛相关的实验结果。如图所示，收敛图710示出了具有SGEMM实现的CIFAR-10，SGEMM实现具有带有5位指数的乘法器和FP32累加器。可以看出，不管尾数中的比特的数量，网络都不会以用于乘法器的5比特指数而收敛。对于所有尾数比特，损失保持不变（~2.3）。

这可以在图4B的直方图中看到；即，具有5比特指数的FP16-S10E5格式比FP16（S7E8）具有显著窄的收敛范围。因此，要求指数为5比特、并且尾数为10比特的IEEE-FP16（S10E5）格式将无法收敛，因为在IEEE-FP16（S10E5）语义中实现的SGEMM乘法器的插入式替换将导致收敛失败，并提示用户执行超参数调谐以对此进行补偿。

另一方面，在一些实施例中，根据所公开的FP16-S7E8格式实现的乘法器可以是插入式替换。在这样的实施例中，FP16-S7E8乘法器用作插入式替换，例如通过将在机器学习上下文中运行的SGEMM软件链接到不同的库，该库指示硬件根据FP16 S7E8格式来执行16比特乘法，并根据FP32格式来累加结果。这种插入式替换将在消耗更少功率、由于更窄的乘法而提高性能、提高指令吞吐量、以及通过减小正在转移的数据元素的大小来减轻寄存器和存储器压力方面对处理器有益。类似地，在一些实施例中，FP16 S7E8用作根据任何其它16比特或32比特格式而实现的SGEMM乘法器的插入式替换，例如通过将SGEMM软件链接到不同的、使能FP16 S7E8的函数调用库。在一些实施例中，FP16 S7E8库被链接为SGEMM乘法器的插入式替换，而无需操作系统或处理器上运行的任何其它软件的参与。在一些实施例中，例如响应于降低功耗或增加指令吞吐量的需要，FP15 S7E8库被动态链接，作为SGEMM乘法器的插入式替换。

带有6比特指数乘法和FP32累加器的CIFAR-10的收敛性

图7C示出了与将6比特指数和参数扫描用于尾数中比特的数量、FP32累加的CIFAR-10的收敛相关的实验结果。如图所示，收敛图720在指数中的比特数被扩展到6并且使用与图7B所使用的相同实验之后产生。此情况下的SGEMM实现由使用6比特指数（以及尾数中比特数的参数扫描）所实现的乘法器和使用FP32语义所实现的累加器。

如图所示，对于FP32中执行的乘法和累加，CIFAR-10收敛并匹配带有6比特指数的FP32行为，其中尾数中的比特数大于二。图7C的收敛图720捕捉收敛行为。

图4B中看到的标量积的直方图再次提供了基础论证，指数扩展1增加了乘法器可以表示的数字范围，并成功地表示了所有乘积。

因此，在SGEMM中扩展指数并以较低精度实现乘法器（通过FP32累加器）允许在像CIFAR-10这样的神经网络上用针对FP32所调谐的超参数进行插入式替换。

带有FP16-S7E8、IEEE-FP16（S10E5）和FP32的AlexNet和ResNet50收敛

上述实验可以被消耗以覆盖更大的网络。SGEMM中使用IEEE-FP16 S10E5（10比特尾数、5比特指数）和FP16-S7E8（7比特尾数和8比特指数）的乘法器使用Intrinsics来实现了。Intrinsics实现与MPFR实现精确匹配。

AlexNet

AlexNet是赢得ILSVRC（ImageNet大规模视觉识别）竞赛并广泛用于计算机视觉任务中的第一个大型神经网络。图7D包括与带有使用IEEE-FP16（S10E5）和FP16-S7E8表示而实现的乘法器和使用FP32而实现的累加器的AlexNet的收敛相关的实验结果，并且示出了带有使用较低精度乘法的SGEMM的AlexNet的收敛图730。收敛图730示出FP16-S7E8表示比IEEE-FP16（S10E5）产生更好的收敛结果，IEEE-FP16（S10E5）花费显著更高的迭代次数来实现相似的收敛。尽管未示出，但AlexNet的实验结果显示，将FP16-S7E8用于乘法器的收敛产生了与将FP32用于乘法器的收敛性能相当的收敛性能。

RES-NET 50

图7E示出了Resnet-50；FP16-S7E8对IEEE-FP16/32的收敛图740。ResNet-50是最近在ILSVRC挑战中使用的具有50层的大型神经网络实现之一。具有低精度SGEMM的ResNet-50的收敛行为如图7E中所看到的。可以看出，它遵循对于AlexNet所观察到的行为。带有使用FP16-S7E8的乘法器的SGEMM跟踪FP32的收敛模式。IEEE-FP16（S10E5）需要更多迭代次数来收敛。尽管未示出，但Resnet-50的实验结果显示，将FP16-S7E8用于乘法器的收敛产生了与将FP32用于乘法器的收敛性能相当的收敛性能。

图8是根据一些实施例的混合精度矢量乘-累加（MPVMAC）指令的格式。如图所示，MPVMAC指令800包括用于指定操作码802（这里是转换或乘-累加）、目的地矢量804和源矢量（源1）806的字段。当被单精度（FP32）格式化时，所指定的源和目的地矢量是512比特存储器位置或矢量寄存器，否则，当被神经半精度（NHP或FP16-S7E8）格式化时，所指定的源和目的地矢量是356比特存储器位置或矢量寄存器。

一些实施例还包括一个或多个附加字段，其用于指定第二源（源2）808、8比特立即数810、以及源和目的地矢量中元素的数量N 812。所述一个或多个附加字段是可选的，如由其虚线框所指示的，在这种情况下，它们可能不被包含在指令中，或者它们将控制的行为替代地经由软件可编程控制寄存器来控制。

相对于图9A-B和图10A-D进一步示出和描述了MPVMAC指令800的格式

指令集

指令集可包括一个或多个指令格式。给定的指令格式可定义各种字段（例如，比特数量、比特位置）以在其它事物中指定要被执行的操作（例如操作码）和操作数（在其上要执行操作）和/或其它数据字段（例如，掩码）。一些指令格式通过指令模板（或子格式）的定义被进一步分解。例如，给定的指令格式的指令模板可被定义以具有指令格式的字段的不同子集（包括的字段典型地采用相同顺序，但至少一些具有不同比特位置，因为包括有较少字段）和/或被定义以具有不同地解译的给定字段。因此，ISA的每个指令使用给定的指令格式来表示（并且如果被定义，则采用该指令格式的指令模板中的给定一个）并且包括用于指定操作和操作数的字段。例如，示例性ADD指令具有特定操作码和指令格式，其包括用于指定那个操作码的操作码字段和用于选择操作数的操作数字段（源1/目的地和源2））；以及指令流中的该ADD指令的出现将具有选择特定操作数的操作数字段中的特定内容。SIMD扩展的集合（被称为高级矢量扩展（AVX）（AVX1和AVX2）以及使用矢量扩展（VEX）编码方案）已被发布和/或公布（例如见Intel® 64和IA-32架构软件开发者手册（Architectures SoftwareDevelopers Manual），2014年9月；以及见Intel®高级矢量扩展编程参考（AdvancedVector Extensions Programming Reference），2014年10月）。

示例性指令格式

本文描述的指令的实施例可以采用不同格式实施。此外，示例性系统、架构和流水线在下文被详述。指令的实施例可在这样的系统、架构和流水线上执行，但不限于详述的那些。

一般矢量友好指令格式

矢量友好指令格式是适合用于矢量指令的指令格式（例如特定于矢量操作存在某些字段）。虽然描述了实施例，其中通过矢量友好指令格式支持矢量和标量两者操作，但备选实施例仅使用矢量友好格式的矢量操作。

图9A-9B是框图，其示出根据本发明的一些实施例的一般矢量友好指令格式和其指令模板。图9A是框图，其示出根据本发明的一些实施例的一般矢量友好指令格式和其类别A指令模板；而图9B是框图，其示出根据本发明的一些实施例的一般矢量友好指令格式和其类别B指令模板。具体地，对于一般矢量友好指令格式900，定义了类别A和类别B指令模板,它们两者包括无存储器访问905指令模板和存储器访问920指令模板。矢量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。

虽然本发明的实施例将被描述，其中矢量友好指令格式支持以下项：带有32比特（4字节）或64比特（8字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）（并且因此，64字节矢量由16个双字大小元素或备选地8个四字大小元素组成）；带有16比特（2字节）或8比特（1字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）；带有32比特（4字节）、64比特（8字节）、16比特（2字节）、或8比特（1字节）数据元素宽度（或大小）的32字节矢量操作数长度（或大小）；以及带有32比特（4字节）、64比特（8字节）、16比特（2字节）、或8比特（1字节）数据元素宽度（或大小）的16字节矢量操作数长度（或大小）；但备选实施例可支持带有更多、更少、或不同数据元素宽度（例如，128比特（16字节）数据元素宽度）的更多、更少和/或不同矢量操作数大小（例如，256字节矢量操作数）。

图9A中的类别A指令模板包括：1）在无存储器访问905指令模板内，示出了无存储器访问、完整舍入（full round）控制类型操作910指令模板，和无存储器访问、数据变换类型操作915指令模板；以及2）在存储器访问920指令模板内，示出了存储器访问、暂时925指令模板，和存储器访问、非暂时930指令模板。图9B中的类别B指令模板包括：1）在无存储器访问905指令模板内，示出了无存储器访问、写掩码控制、部分舍入控制类型操作912指令模板，和无存储器访问、写掩码控制、vsize类型操作917指令模板；以及2）在存储器访问920指令模板内，示出了存储器访问、写掩码控制927指令模板。

一般矢量友好指令格式900包括图9A-9B中所示出的以下按顺序列出的以下字段。

格式字段940—此字段中的特定值（指令格式标识符值）唯一地标识矢量友好指令格式，并因此标识指令流中矢量友好指令格式中的指令的出现。因而，此字段在它对于仅具有一般矢量友好指令格式的指令集不被需要的意义中是可选的。

基础操作字段942—它的内容分辨出不同的基础操作。

寄存器索引字段944—它的内容直接或通过地址生成来指定源和目的地操作数的位置（它们在寄存器中或在存储器中）。这些包括用于从PxQ（例如32x512、16x128、32x1024、64x1024）寄存器堆选择N个寄存器的比特的足够数量。虽然在一个实施例中N可多至三个源和一个目的地寄存器，但备选实施例可支持更多或更少的源和目的地寄存器（例如，可支持多至两个源，其中这些源之一还充当目的地；可支持多至三个源，其中这些源之一还充当目的地；可支持多至两个源和一个目的地）。

修改符（Modifier）字段946—它的内容分辨出一般矢量指令格式中指定存储器访问的指令与不指定存储器访问的那些指令的出现；那就是说，在无存储器访问905指令模板和存储器访问920指令模板之间进行分辨。存储器访问操作对存储器层级进行读和/或写（在使用寄存器中的值来指定源和/或目的地地址的一些情况中），而非存储器访问操作不进行（例如，源和目的地是寄存器）。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算，但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。

扩增（augmentation）操作字段950—它的内容分辨出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在一些实施例中，此字段被划分成类别字段968、α字段952、和β字段954。扩增操作字段950允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。

缩放（scale）字段960—它的内容允许用于存储器地址生成（例如，用于使用2^缩放*索引+基址的地址生成）的索引字段的内容的缩放。

位移（displacement）字段962A—它的内容作为存储器地址生成（例如，用于使用2^缩放*索引+基址+位移的地址生成）的部分被使用。

位移因子字段962B（注意，直接在位移因子字段962B上的位移字段962A的并置指示一个或另一个被使用）—它的内容作为地址生成的部分被使用；它指定要通过存储器访问的大小（N）来缩放的位移因子—其中N是存储器访问中的字节的数量（例如，用于使用2^缩放*索引+基址+缩放的位移的地址生成）。冗余低顺序比特被忽略，并且因此，位移因子字段的内容被乘以存储器操作数总大小（N）以便生成要在运算有效地址中被使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段974（本文中较后所描述）和数据操纵字段954C来确定。位移字段962A和位移因子字段962B在它们不被用于无存储器访问905指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。

数据元素宽度字段964—它的内容分辨出多个数据元素宽度的哪一个要被使用（在对于所有指令的一些实施例中；在对于指令的仅一些指令的其它实施例中）。此字段在以下意义上是可选的：如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。

写掩码字段970—它的内容在按数据元素位置的基础上控制目的地矢量操作数中的那个数据元素位置是否反映基础操作和扩增操作的结果。类别A指令模板支持合并写掩蔽，而类别B指令模板支持合并和归零写掩蔽两者。在合并时，矢量掩码允许目的地中的元素的任何集合被保护免于在任何操作（由基础操作和扩增操作所指定的）的执行期间更新；在另外一个实施例中，保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下，在归零时，矢量掩码允许目的地中的元素的任何集合在任何操作（由基础操作和扩增操作所指定的）的执行期间被归零；在一个实施例中，在对应掩码比特具有0值时，目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的矢量长度（那就是说，正被修改的元素的跨度，从第一个到最后一个）的能力；然而，被修改的元素不必要是连续的。因此，写掩码字段970允许部分矢量操作，包括加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述，其中写掩码字段970的内容选择含有要被使用的写掩码的多个写掩码寄存器之一（并且因此写掩码字段970的内容间接标识要被执行的掩蔽），但备选实施例转而或附加允许掩码写字段970的内容直接指定要被执行的掩蔽。

立即数字段972—它的内容允许立即数的规格。此字段在它在不支持立即数的一般矢量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。

类别字段968—它的内容在指令的不同类别之间进行分辨。参考图9A-B，此字段的内容在类别A和类别B指令之间选择。在图9A-B中，圆角方形被用于指示在字段中呈现的特定值（例如，在图9A-B中相应对于类别字段968的类别A 968A和类别B 968B）。

类别A的指令模板

在类别A的非存储器访问905指令模板的情况中，α字段952被解译为RS字段952A，其内容分辨出不同扩增操作类型的哪一个要被执行（例如，舍入952A.1和数据变换952A.2对于无存储器访问、舍入类型操作910，和无存储器访问、数据变换类型操作915指令模板被相应指定），而β字段954分辨出所指定的类型的操作的哪个要被执行。在无存储器访问905指令模板中，缩放字段960、位移字段962A、和位移缩放字段962B不存在。

无存储器访问指令模板—完整舍入控制类型操作

在无存储器访问完整舍入控制类型操作910指令模板中，β字段954被解译为舍入控制字段954A，其内容提供静态舍入。虽然在本发明的所描述的实施例中，舍入控制字段954A包括所有浮点异常（SAE）字段956和舍入操作控制字段958的抑制，但备选实施例可支持可将这些概念两者编码成相同字段，或仅具有这些概念/字段的一个或另一个（例如，可具有仅舍入操作控制字段958）。

SAE字段956—它的内容分辨出是否禁用异常事件报告；在SAE字段956的内容指示抑制被启用时，给定的指令不报告任何种类的浮点异常标记且不唤起（raise）任何浮点异常处置器。

舍入操作控制字段958—它的内容分辨出一组舍入操作的哪一个要执行（例如，上舍入、下舍入、朝零舍入和往最近舍入）。因此，舍入操作控制字段958允许按指令的基础上的舍入模式的改变。在一些实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段950的内容覆盖那个寄存器值。

无存储器访问指令模板—数据变换类型操作

在无存储器访问数据变换类型操作915指令模板中，β字段954被解译为数据变换字段954B，其内容分辨出多个数据变换的哪一个要被执行（例如，无数据变换、打乱（swizzle）、广播）。

在类别A的存储器访问920指令模板的情况中，α字段952被解译为驱逐提示字段952B，其内容分辨出驱逐提示的哪一个要被使用（在图9A中，暂时952B.1和非暂时952B.2对于存储器访问、暂时925指令模板，和存储器访问、非暂时930指令模板被相应指定），而β字段954被解译为数据操纵字段954C，其内容分辨出多个数据操纵操作（还已知为原语（primitive））的哪一个要被执行（例如，无操纵；广播；源的上转换；以及目的地的下转换）。存储器访问920指令模板包括缩放字段960、并可选地包括位移字段962A或位移缩放字段962B。

矢量存储器指令通过转换支持来执行自存储器的矢量加载和往存储器的矢量存储。如通过常规矢量指令，矢量存储器指令以数据元素式的方式将数据转移自/往存储器，实际上被转移的元素由作为写掩码被选择的矢量掩码的内容来指示。

存储器访问指令模板—暂时

暂时数据是这样的数据，其有可能被足够快地再使用以受益于进行高速缓冲存储器。然而，这是提示，并且不同处理器可以采用不同方式来实现它，包括完全忽略该提示。

存储器访问指令模板—非暂时

非暂时数据是这样的数据，其不太可能被足够快地再使用以受益于在第1级高速缓冲存储器中进行高速缓冲存储器并应被给定用于驱逐的优先权。然而，这是提示，并且不同处理器可以采用不同方式来实现它，包括完全忽略该提示。

类别B的指令模板

在类别B的指令模板的情况中，α字段952被解译为写掩码控制（Z）字段952C，其内容分辨出由写掩码字段970所控制的写掩蔽应是合并还是归零。

在类别B的非存储器访问905指令模板的情况中，β字段954的部分被解译为RL字段957A，其内容分辨出不同扩增操作类型的哪一个要被执行（例如，舍入957A.1和矢量长度（VSIZE）957A.2对于无存储器访问、写掩码控制、部分舍入控制类型操作912指令模板，和无存储器访问、写掩码控制、VSIZE类型操作917指令模板被相应指定），而β字段954的剩余部分分辨出指定类型的操作的哪个要被执行。在无存储器访问905指令模板中，缩放字段960、位移字段962A、和位移缩放字段962B不存在。

在无存储器访问、写掩码控制、部分舍入控制类型操作910指令模板中，β字段954的剩余部分被解译为舍入操作字段959A，并且异常事件报告被禁用（给定的指令不报告任何种类的浮点异常标记且不唤起任何浮点异常处置器）。

舍入操作控制字段959A—正如舍入操作控制字段958，它的内容分辨出一组舍入操作的哪一个要执行（例如，上舍入、下舍入、朝零舍入和往最近舍入）。因此，舍入操作控制字段959A允许在按指令的基础上的舍入模式的改变。在一些实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段950的内容覆盖那个寄存器值。

在无存储器访问、写掩码控制、VSIZE类型操作917指令模板中，β字段的剩余部分954被解译为矢量长度字段959B，其内容分辨出多个数据矢量长度的哪一个要被执行（例如，128、256、或512字节）。

在类别B的存储器访问920指令模板的情况中，β字段954的部分被解译为广播字段957B，其内容分辨出广播类型数据操纵操作是否要被执行，而β字段954的剩余部分被解译为矢量长度字段959B。存储器访问920指令模板包括缩放字段960、并可选地包括位移字段962A或位移缩放字段962B。

关于一般矢量友好指令格式900，完整操作码字段974被示出，包括格式字段940、基础操作字段942、和数据元素宽度字段964。虽然一个实施例被示出，其中完整操作码字段974包括所有这些字段，但在不支持所有这些字段的实施例中，完整操作码字段974包括少于所有这些字段。完整操作码字段974提供操作代码（操作码）。

扩增操作字段950、数据元素宽度字段964、和写掩码字段970允许这些特征在一般矢量友好指令格式中在按指令的基础上被指定。

写掩码字段和数据元素宽度字段的组合创建分类的（typed）指令，因为它们允许掩码基于不同数据元素宽度而被应用。

在类别A和类别B内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核可支持仅类别A、仅类别B、或两个类别。例如，打算用于通用计算的高性能通用乱序核可支持仅类别B，打算主要用于图形和/或科学（吞吐量）计算的核可支持仅类别A，以及打算用于两者的核可支持两个类别（当然，具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内）。同样，单个处理器可包括多个核，其的所有支持相同类别或其中不同核支持不同类别。例如，在带有单独的图形和通用核的处理器中，打算主要用于图形和/或科学计算的图形核之一可支持仅类别A，而通用核的一个或多个通用核可以是支持仅类别B的打算用于通用计算的带有乱序运行和寄存器重命名的高性能通用核。不具有单独的图形核的另一个处理器可包括支持类别A和类别B两者的更多一个通用有序或乱序核。当然，来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被翻译（例如，准时编译或静态编译）成多种不同可运行的形式，包括：1）具有用于运行的由目标处理器所支持的类别的仅指令的形式；或2）具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器（其当前正运行代码）所支持的指令来运行的控制流程代码（control flow code）的形式。

示例性特定矢量友好指令格式

图10A是框图，其示出根据本发明的一些实施例的示例性特定矢量友好指令格式。图10A示出特定矢量友好指令格式1000，其在它指定位置、大小、解译、和字段的顺序、以及那些字段的一些字段的值的意义中是特定的。特定矢量友好指令格式1000可被用于扩展x86指令集，并且因此字段的一些字段与现存x86指令集和其扩展（例如，AVX）中所使用的那些字段类似或相同。此格式与带有扩展的现存x86指令集的前缀编码字段、真操作码字节字段、MOD R/M字段、SIB字段、位移字段，和立即数字段保持一致。来自图10A的字段所映射到其中的来自图9的字段被示出。

应被理解的是，尽管本发明的实施例为了说明性目的而参考一般矢量友好指令格式900的上下文中的特定矢量友好指令格式1000来描述，但除非在声明之处，本发明不限于特定矢量友好指令格式1000。例如，一般矢量友好指令格式900对于各种字段设想多种可能大小，而特定矢量友好指令格式1000被示出为具有特定大小的字段。通过特定示例的方式，虽然数据元素宽度字段964被示出为特定矢量友好指令格式1000中的一个比特字段，但本发明不被如此限制（那就是说，一般矢量友好指令格式900设想数据元素宽度字段964的其它大小）。

一般矢量友好指令格式900包括图10A中所示出的以下按顺序列出的以下字段。

EVEX前缀（字节0-3）1002-以四字节形式来编码。

格式字段940（EVEX字节0，比特[7：0]）-第一字节（EVEX字节0）是格式字段940，并且它含有0x62（被用于分辨出一些实施例中的矢量友好指令格式的唯一值）。

第二-第四字节（EVEX字节1-3）包括提供特定能力的多个比特字段。

REX字段1005（EVEX字节1，比特[7-5]）—由以下项组成：EVEX.R比特字段（EVEX字节1，比特[7]—R）、EVEX.X比特字段（EVEX字节1，比特[6]—X）、和957BEX字节1、比特[5]—B）。EVEX.R、EVEX.X、和EVEX.B比特字段提供与对应VEX比特字段相同的功能性，并使用1s补码形式来编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特（rrr、xxx、和bbb），使得Rrrr、Xxxx、和Bbbb可通过添加EVEX.R、EVEX.X、和EVEX.B来形成。

REX'字段1010—这是REX'字段1010的第一部分并且是被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.R'比特字段（EVEX字节1，比特[4]-R'）。在一些实施例中，这个比特连同如以下所指示的其它比特以比特倒置的格式被存储以（在公知的x86 32-比特模式中）分辨出BOUND指令，其真操作码字节是62，但在MOD R/M字段（以下所描述的）中不接受MOD字段中的11的值；本发明的备选实施例不以倒置的格式来存储这个比特和以下所指示的另一个比特。1的值被用于编码较低16个寄存器。换句话说，R'Rrrr通过组合EVEX.R'、EVEX.R、和来自其它字段的另一个RRR来形成。

操作码映射字段1015（EVEX字节1，比特[3：0]—mmmm）—它的内容编码所暗示的前导操作码字节（0F，0F 38，或0F 3）。

数据元素宽度字段964（EVEX字节2，比特[7]—W）-由符号EVEX.W来表示。EVEX.W被用于定义数据类型的粒度（大小）（32比特数据元素或64比特数据元素）。

EVEX.vvvv 1020（EVEX字节2，比特[6：3]-vvvv）-EVEX.vvvv的角色可包括以下项：1）EVEX.vvvv编码以倒置（1s补码）的形式所指定的第一源寄存器操作数，并对于带有2个或更多源操作数的指令有效；2）EVEX.vvvv编码对于某些矢量移位以1s补码形式所指定的目的地寄存器操作数；或者3）EVEX.vvvv不编码任何操作数，字段被保留并应含有1111b。因此，EVEX.vvvv字段1020编码以倒置（1s补码）的形式所存储的第一源寄存器指定符（specifier）的4个低顺序比特。取决于指令，额外不同EVEX比特字段被用于将指定符大小扩展到32个寄存器。

EVEX.U 968类别字段（EVEX字节2，比特[2]-U）—如果EVEX.U=0，则它指示类别A或EVEX.U0；如果EVEX.U=1，则它指示类别B或EVEX.U1。

前缀编码字段1025（EVEX字节2，比特[1：0]-pp）—为基础操作字段提供附加比特。除了为EVEX前缀格式中的遗留SSE指令提供支持以外，这还具有紧致SIMD前缀的益处（而不是要求字节以表示SIMD前缀，EVEX前缀要求仅2比特）。在一个实施例中，为了支持在遗留格式中和在EVEX前缀格式中两者都使用SIMD前缀（66H，F2H，F3H）的遗留SSE指令，这些遗留SIMD前缀被编码到SIMD前缀编码字段中；并在运行时间在被提供给解码器的PLA之前被扩展到遗留SIMD前缀中（所以PLA能运行这些遗留指令的遗留和EVEX格式两者而不用修改）。尽管较新的指令能直接将EVEX前缀编码字段的内容用作操作码扩展，某些实施例为了一致性以类似方式来扩展但允许要由这些遗留SIMD前缀来指定的不同含意。备选实施例可将PLA重新设计成支持2比特SIMD前缀编码，并因此不要求扩展。

α字段952（EVEX字节3，比特[7]—EH；还已知为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、和EVEX.N；还通过α来示出）—如之前所描述的，此字段是上下文特定的。

β字段954（EVEX字节3，比特[6：4]-SSS，还已知为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；还通过βββ来示出）—如之前所描述的，此字段是上下文特定的。

REX'字段1010B—这是REX'字段1010的其余部分并且是可被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.V'比特字段（EVEX字节3，比特[3]-V'）。此比特以比特倒置的格式来存储。1的值被用于编码较低16个寄存器。换句话说，V'VVVV通过组合EVEX.V'、EVEX.vvvv来形成。

写掩码字段970（EVEX字节3，比特[2：0]-kkk）—它的内容指定如之前所描述的写掩码寄存器中寄存器的索引。在一些实施例中，特定值EVEX.kkk=000具有暗示没有写掩码被用于具体指令的特别行为（这可以以包括使用硬连线到所有寄存器的写掩码或绕过掩蔽硬件的硬件的多种方式来实现）。

真操作码字段1030（字节4）还已知为操作码字节。操作码的部分在此字段中被指定。

MOD R/M字段1040（字节5）包括MOD字段1042、Reg字段1044、和R/M字段1046。如之前所描述的，MOD字段1042的内容在存储器访问和非存储器访问操作之间进行分辨。Reg字段1044的角色能被概括成两种情境：编码目的地寄存器操作数或源寄存器操作数，或作为操作码扩展被对待并不被用于编码任何指令操作数。R/M字段1046的角色可包括以下项：编码引用存储器地址的指令操作数，或者编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基址（SIB）字节（字节6）—如之前所描述的，缩放字段950的内容被用于存储器地址生成。SIB.xxx 1054和SIB.bbb 1056—这些字段的内容之前已关于寄存器索引Xxxx和Bbbb被提到。

位移字段962A（字节7-10）—在MOD字段1042含有10时，字节7-10是位移字段962A，并且它与遗留32比特位移（disp32）相同地工作并在字节粒度工作。

位移因子字段962B（字节7）—在MOD字段1042含有01时，字节7是位移因子字段962B。此字段的位置与遗留x86指令集8比特位移（disp8）的位置相同，其在字节粒度工作。由于disp8是扩展的记号，它能仅定址于-128和127字节偏移之间；在64字节高速缓冲存储器行方面，disp8使用能被设置成仅四个真正有用的值-128、-64、0、和64的8比特；由于更大的范围常常被需要，disp32被使用；然而，disp32要求4字节。与disp8和disp32对照，位移因子字段962B是disp8的重新解译；在使用位移因子字段962B时，实际位移由乘以存储器操作数访问的大小（N）的位移因子字段的内容来确定。此类型的位移被称为disp8^*N。这减少平均指令长度（用于位移但带有大得多的范围的单个字节）。此类压缩的位移基于有效位移是存储器访问的粒度的倍数并且因此地址偏移的冗余低顺序比特不需要被编码的假定。换句话说，位移因子字段962B替代遗留x86指令集8比特位移。因此，位移因子字段962B以与x86指令集8比特位移相同的方式来编码（所以在ModRM/SIB编码规则中没有改变），带有disp8被过载到disp8^*N的仅有例外。换句话说，在编码规则或编码长度中不存在改变，仅除了在通过硬件的位移值的解译中之外（其需要通过存储器操作数的大小来缩放位移以获得字节式地址偏移）。

立即数字段972如之前所描述地操作。

完整操作码字段

图10B是框图，其示出根据一些实施例的构成完整操作码字段974的特定矢量友好指令格式1000的字段。具体地，完整操作码字段974包括格式字段940、基础操作字段942、和数据元素宽度（W）字段964。基础操作字段942包括前缀编码字段1025、操作码映射字段1015、和真操作码字段1030。

寄存器索引字段

图10C是框图，其示出根据一些实施例的构成寄存器索引字段944的特定矢量友好指令格式1000的字段。具体地，寄存器索引字段944包括REX字段1005、REX'字段1010、MODR/M.reg字段1044、MODR/M.r/m字段1046、VVVV字段1020、xxx字段1054、和bbb字段1056。

扩增操作字段

图10D是框图，其示出根据一些实施例的构成扩增操作字段950的特定矢量友好指令格式1000的字段。在类别（U）字段968含有0时，它象征EVEX.U0（类别A 968A）；在它含有1时，它象征EVEX.U1（类别B 968B）。在U=0并且MOD字段1042含有11（象征无存储器访问操作）时，α字段952（EVEX字节3，比特[7]—EH）被解译为rs字段952A。在rs字段952A含有1（舍入952A.1）时，β字段954（EVEX字节3，比特[6：4]-SSS）被解译为舍入控制字段954A。舍入控制字段954A包括一比特SAE字段956和两比特舍入操作字段958。在rs字段952A含有0（数据变换952A.2）时，β字段954（EVEX字节3，比特[6：4]-SSS）被解译为三比特数据变换字段954B。在U=0并且MOD字段1042含有00、01、或10（象征存储器访问操作）时，α字段952（EVEX字节3，比特[7]—EH）被解译为驱逐提示（EH）字段952B并且β字段954（EVEX字节3，比特[6：4]-SSS）被解译为三比特数据操纵字段954C。

在U=1时，α字段952（EVEX字节3，比特[7]—EH）被解译为写掩码控制（Z）字段952C。在U=1并且MOD字段1042含有11（象征无存储器访问操作）时，β字段954的部分（EVEX字节3，比特[4]-S₀）被解译为RL字段957A；在它含有1（舍入957A.1）时，β字段954的剩余部分（EVEX字节3，比特[6-5]-S_2-1）被解译为舍入操作字段959A，而在RL字段957A含有0（VSIZE957.A2）时，β字段954的剩余部分（EVEX字节3，比特[6-5]-S_2-1）被解译为矢量长度字段959B（EVEX字节3，比特[6-5]-L_1-0）。在U=1并且MOD字段1042含有00、01、或10（象征存储器访问操作）时，β字段954（EVEX字节3，比特[6：4]-SSS）被解译为矢量长度字段959B（EVEX字节3，比特[6-5]-L_1-0）和广播字段957B（EVEX字节3，比特[4]-B）。

示例性寄存器架构

图11是根据一些实施例的寄存器架构1100的框图。在所示出的实施例中，存在512比特宽的32个矢量寄存器1110；这些寄存器被引用为zmm0直到zmm31。较低的16个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-16上。较低的16个zmm寄存器的较低顺序128比特（ymm寄存器的较低顺序128比特）被覆载在寄存器xmm0-15上。特定矢量友好指令格式1000在如以下表中所示出的这些覆载寄存器堆上操作。

换句话说，矢量长度字段959B在最大长度和一个或多个其它更短长度之间选择，其中每个此类更短长度是前述长度的一半长度；并且不带有矢量长度字段959B的指令模板在最大矢量长度上操作。进一步地，在一个实施例中，特定矢量友好指令格式1000的类别B指令模板在封包的或标量的单/双精度浮点数据和封包的或标量的整数数据上操作。标量的操作是在zmm/ymm/xmm寄存器中最低顺序数据元素位置上执行的操作；更高顺序数据元素位置取决于实施例保持与它们在该指令之前一样或被归零。

写掩码寄存器1115-在所示出的实施例中，存在8个写掩码寄存器（k0直到k7），每个的大小是64比特。在备选实施例中，写掩码寄存器1115的大小是16比特。如之前所描述的，在一些实施例中，矢量掩码寄存器k0不能作为写掩码被使用；在将通常指示k0的编码被用于写掩码时，它选择0xffff的硬连线写掩码，对于那个指令有效地禁用写掩蔽。

通用寄存器1125-在所示出的实施例中，存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64-比特通用寄存器。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、和R8直到R15来引用。

标量浮点栈寄存器堆（x87栈）1145，在其上MMX封包整数平寄存器堆1150被别名化-在所示出的实施例中，x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈；而MMX寄存器被用于在64-比特封包整数数据上执行操作，还被用于为在MMX和XMM寄存器之间所执行的一些操作来保存操作数。

备选实施例可使用更宽或更窄的寄存器。另外，备选实施例可使用更多、更少、或不同寄存器堆和寄存器。

示例性核架构、处理器、和计算机架构

处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如，此类核的实现可包括：1）打算用于通用计算的通用有序核；2）打算用于通用计算的高性能通用乱序核；3）打算主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可包括：1）包括打算用于通用计算的一个或多个通用有序核和/或打算用于通用计算的一个或多个通用乱序核的CPU；以及2）包括打算主要用于图形和/或科学（吞吐量）的一个或多个专用核的协同处理器。此类不同处理器导致不同计算机系统架构，其可包括：1）在与所述CPU单独的芯片上的协同处理器； 2）在与CPU相同的封装中单独管芯上的协同处理器；3）在与CPU相同的管芯上的协同处理器（在该情况中，此类协同处理器有时被称为专用逻辑，诸如集成的图形和/或科学（吞吐量）逻辑，或被称为专用核）；以及4）在可在相同管芯上包括所描述的CPU（有时被称为应用核或应用处理器）、以上所描述的协同处理器、和附加功能性的芯片上系统。示例性核架构接下来被描述，继之以示例性处理器和计算机架构的描述。

示例性核架构

有序和乱序核框图

图12A是框图，其示出根据本发明的一些实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/运行流水线两者。图12B是框图，其示出根据本发明的一些实施例的要被包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、乱序发布/运行架构核两者。图12A-B中的实线框示出有序流水线和有序核，而虚线框的可选附加示出寄存器重命名、乱序发布/运行流水线和核。给定有序方面是乱序方面的子集，乱序方面将被描述。

在图12A中，处理器流水线1200包括取阶段1202、长度解码阶段1204、解码阶段1206、分配阶段1208、重命名阶段1210、调度（还已知为分派或发布）阶段1212、寄存器读/存储器读阶段1214、运行阶段1216、写回/存储器写阶段1218、异常处置阶段1222、和提交阶段1224。

图12B示出处理器核1290，其包括耦合到运行引擎单元1250的前端单元1230，并且两者被耦合到存储器单元1270。核1290可以是简化指令集计算（RISC）核、复杂指令集计算（CISC）核、非常长指令字（VLIW）核、或混合或备选核类型。如仍有的另一个选项，核1290可以是专用核，诸如例如网络或通信核、压缩引擎、协同处理器核、通用计算图形处理单元（GPGPU）核、图形核等等。

前端单元1230包括耦合到指令高速缓冲存储器单元1234的分支预测单元1232，所述指令高速缓冲存储器单元1234被耦合到指令翻译旁视（lookaside）缓冲器（TLB）1236，其被耦合到指令取单元1238，指令取单元1238被耦合到解码单元1240。解码单元1240（或解码器）可解码指令，并生成为输出一个或多个微操作、微代码条目点、微指令、其它指令、或其它控制信号，其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制，解码单元1240可被实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）、等等。在一个实施例中，核1290包括存储用于某些宏指令的微代码的微代码ROM或另一介质（例如，在解码单元1240中或以别的方式在前端单元1230内）。解码单元1240被耦合到运行引擎单元1250中的重命名/分配器单元1252。

运行引擎单元1250包括耦合到引退单元1254和一个或多个调度器单元1256的集合的重命名/分配器单元1252。调度器单元1256代表任何数量的不同调度器，包括保留站、中央指令窗口、等等。调度器单元1256被耦合到物理寄存器堆单元1258。物理寄存器堆单元1258中的每个代表一个或多个物理寄存器堆，其不同物理寄存器堆存储一个或多个不同数据类型，诸如标量整数、标量浮点、封包的整数、封包的浮点、矢量整数、矢量浮点、状态（例如，是要被运行的下一个指令的地址的指令指针）、等等。在一个实施例中，物理寄存器堆单元1258包括矢量寄存器单元、写掩码寄存器单元、和标量寄存器单元。这些寄存器单元可提供架构上的矢量寄存器、矢量掩码寄存器、和通用寄存器。物理寄存器堆单元1258通过引退单元1254来重叠以示出其中寄存器重命名和乱序运行可被实现的各种方式（例如，使用重排序缓冲器和引退寄存器堆；使用未来堆、历史缓冲器、和引退寄存器堆；使用寄存器映射和寄存器的池；等等）。引退单元1254和物理寄存器堆单元1258被耦合到运行集群1260。运行集群1260包括一个或多个运行单元1262的集合和一个或多个存储器访问单元1264的集合。运行单元1262可执行各种操作（例如，移位、加法、减法、乘法）以及在各种类型的数据（例如，标量浮点、封包的整数、封包的浮点、矢量整数、矢量浮点）上执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个运行单元，其它实施例可包括都执行所有功能的多个运行单元或仅一个运行单元。调度器单元1256、物理寄存器堆单元1258、和运行集群1260被示出为可能是复数的，因为某些实施例对于某些类型的数据/操作来创建单独流水线（例如，标量整数流水线、标量浮点/封包的整数/封包的浮点/矢量整数/矢量浮点流水线、和/或存储器访问流水线，其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或运行集群—并且在单独的存储器访问流水线的情况中，其中此流水线的仅运行集群具有存储器访问单元1264的某些实施例被实现）。还应被理解的是，在单独流水线被使用之处，这些流水线的一个或多个流水线可以是乱序发布/运行，并且剩余的是有序。

存储器访问单元1264的集合被耦合到存储器单元1270，存储器单元1270包括耦合到数据高速缓冲存储器单元1274的数据TLB单元1272，数据高速缓冲存储器单元1274耦合到2级（L2）高速缓冲存储器单元1276。在一个示例性实施例中，存储器访问单元1264可包括加载单元、存储地址单元、和存储数据单元，其的每个被耦合到存储器单元1270中的数据TLB单元1272。指令高速缓冲存储器单元1234被进一步耦合到存储器单元1270中的2级（L2）高速缓冲存储器单元1276。L2高速缓冲存储器单元1276被耦合到一个或多个其它级别的高速缓冲存储器并最终到主存储器。

通过示例的方式，示例性寄存器重命名、乱序发布/运行核架构可实现如下流水线1200：1）指令取1238执行取及长度解码阶段1202和1204；2）解码单元1240执行解码阶段1206；3）重命名/分配器单元1252执行分配阶段1208和重命名阶段1210；4）调度器单元1256执行调度阶段1212；5）物理寄存器堆单元1258和存储器单元1270执行寄存器读/存储器读阶段1214；运行集群1260执行运行阶段1216；6）存储器单元1270和物理寄存器堆单元1258执行写回/存储器写阶段1218；7）各种单元可在异常处置阶段1222中被涉及；以及8）引退单元1254和物理寄存器堆单元1258执行提交阶段1224。

核1290可支持一个或多个指令集（例如，x86指令集（带有已随较新版本被添加的一些扩展）；MIPS Technologies of Sunnyvale，CA的MIPS指令集；ARM Holdings ofSunnyvale，CA的ARM指令集（带有诸如NEON的可选附加扩展）），包括本文中所描述的指令。在一个实施例中，核1290包括用于支持封包数据指令集扩展（例如，AVX1、AVX2）的逻辑，因此允许由许多多媒体应用来使用的操作使用封包的数据来执行。

应被理解的是，核可支持多线程（运行操作或线程的两个或更多并行集合），并可以多种方式来如此做，所述多种方式包括时间分段的多线程、同时多线程（在单个物理核为线程的每个提供逻辑核的情况中，那个物理核正进行同时多线程），或其组合（例如，诸如在Intel®超线程技术中的时间分段的取和解码以及其后的同时多线程）。

虽然寄存器重命名在乱序运行的上下文中被描述，但应理解的是，寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包括单独的指令和数据高速缓冲存储器单元1234/1274以及共享的L2高速缓冲存储器单元1276，但备选实施例可具有用于指令和数据两者的单个内部高速缓冲存储器，诸如例如，1级（L1）内部高速缓冲存储器、或多个级别的内部高速缓冲存储器。在一些实施例中，系统可包括内部高速缓冲存储器及外部于核和/或处理器的外部高速缓冲存储器的组合。备选地，所有高速缓冲存储器可外部于核和/或处理器。

特定示例性有序核架构

图13A-B示出核将是芯片中若干逻辑块之一（包括相同类型和/或不同类型的其它核）的更特定示例性有序核架构的框图。逻辑块通过高带宽互连网络（例如，环网络）取决于应用而通信于一些固定的功能逻辑、存储器I/O接口、和另一必要I/O逻辑。

图13A是根据本发明的一些实施例的单个处理器核连同到管芯上互连网络1302的它的连接并连同2级（L2）高速缓冲存储器1304的它的本地子集的框图。在一个实施例中，指令解码器1300支持带有封包的数据指令集扩展的x86指令集。L1高速缓冲存储器1306允许低等待时间访问以将存储器高速缓冲存储器到标量和矢量单元中。虽然在一个实施例中（为简化设计），标量单元1308和矢量单元1310使用单独的寄存器集合（相应地，是标量寄存器1312和矢量寄存器1314），并且在它们之间所转移的数据被写到存储器并然后从1级（L1）高速缓冲存储器1306读回，但本发明的备选实施例可使用不同手段（例如，使用单个寄存器集合或包括允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径）。

L2高速缓冲存储器1304的本地子集是全局L2高速缓冲存储器的部分，所述全局L2高速缓冲存储器被划分成单独的本地子集，每处理器核一个。每个处理器核具有到L2高速缓冲存储器1304的它自己的本地子集的直接访问路径。由处理器核所读的数据被存储在其L2高速缓冲存储器子集1304中并能被快速地访问，并行于其它处理器核访问它们自己的本地L2高速缓冲存储器子集。由处理器核所写的数据被存储在其自己的L2高速缓冲存储器子集1304中并且如果必要则从其它子集中转储清除。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、L2高速缓冲存储器、和其它逻辑块的代理在芯片内互相通信。每个环数据-路径每方向是1012-比特宽。

图13B是根据本发明的一些实施例的图13A中的处理器核的部分的扩展的视图。图13B包括L1高速缓冲存储器1304的L1数据高速缓冲存储器1306A部分，以及关于矢量单元1310和矢量寄存器1314的更多细节。具体地，矢量单元1310是16宽矢量处理单元（VPU）（见16宽ALU 1328），其运行整数、单精度浮动、和双精度浮动指令的一个或多个。VPU支持在存储器输入上通过打乱单元1320来打乱寄存器输入、通过数值转换单元1322A-B来进行数值转换、以及通过复制单元1324来进行复制。写掩码寄存器1326允许预测结果的矢量写。

具有集成存储器控制器和图形的处理器

图14是根据本发明的一些实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器1400的框图。图14中的实线框示出带有单个核1402A、系统代理1410、一个或多个总线控制器单元1416的集合的处理器1400，而虚线框的可选附加示出带有多个核1402A-N、系统代理单元1410中的一个或多个集成存储器控制器单元1414的集合、和专用逻辑1408的备选处理器1400。

因此，处理器1400的不同实现可包括：1）CPU，带有是集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核）的专用逻辑1408、以及是一个或多个通用核（例如，通用有序核、通用乱序核、所述两个核的组合）的核1402A-N；2）带有是打算主要用于图形和/或科学（吞吐量）的大量的专用核的核1402A-N的协同处理器；以及3）带有是大量的通用有序核的核1402A-N的协同处理器。因此，处理器1400可以是通用处理器、协同处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量许多集成核（MIC）协同处理器（包括30或更多核）、嵌入式处理器等等。处理器可被实现在一个或多个芯片上。使用多个处理技术的任何个（诸如例如，BiCMOS、CMOS、或NMOS），处理器1400可被实现在一个或多个衬底上和/或是其部分。

存储器层级包括核内高速缓冲存储器的一个或多个级别、共享的高速缓冲存储器单元1406的集合或一个或多个、和耦合到集成存储器控制器单元1414的集合的外部存储器（未示出）。共享的高速缓冲存储器单元1406的集合可包括一个或多个中级别高速缓冲存储器，诸如2级（L2）、3级（L3）、4级（L4）、或其它级别的高速缓冲存储器、最后级别高速缓冲存储器（LLC）、和/或其组合。虽然在一个实施例中，基于环的互连单元1412将集成图形逻辑1408（集成图形逻辑1408是专用逻辑的示例，并且在本文中也被称为专用逻辑）、共享的高速缓冲存储器单元1406的集合、以及系统代理单元1410/集成存储器控制器单元1414互连，但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中，一个或多个高速缓冲存储器单元1406和核1402-A-N之间的一致性被维持。

在一些实施例中，核1402A-N的一个或多个核有多线程的能力。系统代理1410包括协调和操作核1402A-N的那些组件。系统代理单元1410可包括例如功率控制单元（PCU）和显示器单元。PCU可以是或包括为调节集成图形逻辑1408和核1402A-N的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或多个外部连接的显示器。

核1402A-N可关于架构指令集是同质或异质的；那就是说，核1402A-N的两个或更多核可有运行相同指令集的能力，而其它的核可有运行不同指令集或那个指令集的仅子集的能力。

示例性计算机架构

图15-18是示例性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器（DSP）、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其它电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说，能够合并如本文中所公开的处理器和/或其它运行逻辑的极多种的系统或电子装置一般是适合的。

现在参考图15，所示出的是根据本发明的一个实施例的系统1500的框图。系统1500可包括被耦合到控制器集线器1520的一个或多个处理器1510、1515。在一个实施例中，控制器集线器1520包括图形存储器控制器集线器（GMCH）1590和输入/输出集线器（IOH）1550（其可在单独的芯片上）；GMCH 1590包括存储器1540和协同处理器1545被耦合到的存储器和图形控制器；IOH 1550将输入/输出（I/O）装置1560耦合到GMCH 1590。备选地，存储器和图形控制器之一或两者被集成在处理器（如本文中所描述的）内，存储器1540和协同处理器1545被直接耦合到处理器1510、和带有IOH 1550的单个芯片中的控制器集线器1520。

附加处理器1515的可选性质在图15中用断线来指代。每个处理器1510、1515可包括本文中所描述的处理核中的一个或多个，并可以是处理器1400的某版本。

存储器1540可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）、或所述两个存储器的组合。对于至少一个实施例，控制器集线器1520经由诸如前侧总线（FSB）的多点总线、诸如快速路径互连（QPI）的点对点接口、或类似连接1595来与处理器1510、1515通信。

在一个实施例中，协同处理器1545是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中，控制器集线器1520可包括集成图形加速器。

物理资源1510、1515之间关于包括架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。

在一个实施例中，处理器1510运行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协同处理器指令。处理器1510将这些协同处理器指令识别成是应由附连的协同处理器1545来运行的类型。因此，处理器1510在协同处理器总线或其它互连上将这些协同处理器指令（或代表协同处理器指令的控制信号）发布到协同处理器1545。协同处理器1545接受并运行所接收的协同处理器指令。

现在参考图16，所示出的是根据本发明的实施例的第一更特定示例性系统1600的框图。如图16中所示出的，多处理器系统1600是点对点互连系统，并包括经由点对点互连1650所耦合的第一处理器1670和第二处理器1680。处理器1670和1680中的每个可以是处理器1600的某版本。在一些实施例中，处理器1670和1680相应是处理器1510和1515，而协同处理器1638是协同处理器1545。在另一个实施例中，处理器1670和1680相应是处理器1510、协同处理器1545。

处理器1670和1680被示出相应包括集成存储器控制器（IMC）单元1672和1682。处理器1670还包括作为它的总线控制器单元的部分的点对点（P-P）接口1676和1678；类似地，第二处理器1680包括P-P接口1686和1688。使用P-P接口电路1678、1688，处理器1670、1680可经由点对点（P-P）接口1650来互换信息。如图16中所示出的，IMC 1672和1682将处理器耦合到相应存储器（就是存储器1632和存储器1634），其可以是本地附连到相应处理器的主存储器的部分。

使用点对点接口电路1676、1694、1686、1698，处理器1670、1680可各自经由各个P-P接口1652、1654与芯片集1690互换信息。芯片集1690可以可选地经由高性能接口1639与协同处理器1638互换信息。在一个实施例中，协同处理器1638是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等

共享的高速缓冲存储器（未示出）可被包括在任一处理器中或在两个处理器之外，又经由P-P互连与处理器连接，使得如果处理器被置于低功率模式中，则任一或两个处理器的本地高速缓冲存储器信息可被存储在共享的高速缓冲存储器中。

芯片集1690可经由接口1696来耦合到第一总线1616。在一个实施例中，第一总线1616可以是外围组件互连（PCI）总线、或诸如PCI高速总线或另一个第三代I/O互连总线的总线，尽管本发明的范畴未被如此限制。

如图16中所示出的，各种I/O装置1614可连同总线桥1618被耦合到第一总线1616，总线桥1618将第一总线1616耦合到第二总线1620。在一个实施例中，诸如协同处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如，图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列、或任何其它处理器的一个或多个附加处理器1615被耦合到第一总线1616。在一个实施例中，第二总线1620可以是低管脚计数（LPC）总线。各种装置可被耦合到第二总线1620，包括例如键盘和/或鼠标1622、通信装置1627和诸如硬盘驱动器或其它大容量存储装置的存储单元1628，其可包括指令/代码和数据1630（在一个实施例中）。进一步地，音频I/O1624可被耦合到第二总线1620。注意，其它架构是可能的。例如，替代图16的点对点架构，系统可实现多点总线或另一此类架构。

现在参考图17，所示出的是根据本发明的实施例的第二更特定示例性系统1700的框图。图16和17中的相似元件标有相似附图标记，并且图16的某些方面已从图17中被省略以便避免使图17的其它方面难以理解。

图17示出了处理器1670、1680可相应包括集成存储器以及I/O控制逻辑（“CL”）1772和1782。因此，CL 1772、1782包括集成存储器控制器单元并包括I/O控制逻辑。图17示出了不仅存储器1632、1634被耦合到CL 1772、1782，而且I/O装置1714也被耦合到控制逻辑1772、1782。遗留I/O装置1715被耦合到芯片集1690。

现在参考图18，所示出的是根据本发明的实施例的SoC 1800的框图。图14中的类似元件标有相似附图标记。同样，虚线框在更高级的SoC上是可选特征。在图18中，互连单元1802被耦合到：应用处理器1810，其包括一个或多个核1402A-N（其包括高速缓冲存储器1404A-N）的集合和共享的高速缓冲存储器单元1406；系统代理单元1410；总线控制器单元1416；集成存储器控制器单元1414；协同处理器1820的集合或一个或多个，其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器；静态随机存取存储器（SRAM）单元1830；直接存储器访问（DMA）单元1832；以及用于耦合到一个或多个外部显示器的显示器单元1840。在一个实施例中，协同处理器1820包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。

本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上运行的程序代码或计算机程序，所述可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入装置、和至少一个输出装置。

诸如图16中所示出的代码1630的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或多个输出装置。为了此应用的目的，处理系统包括具有处理器（诸如例如：数字信号处理器（DSP）、微控制器、应用特定集成电路（ASIC）、或微处理器）的任何系统。

程序代码可被实现在高等级规程上（procedural）或面向对象的编程语言中以与处理系统通信。如果期望的话，则程序代码可还被实现在汇编或机器语言中。事实上，本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中，语言可以是编译或解译的语言。

至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性指令来实现，所述代表性指令表示处理器内的各种逻辑，其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示（已知为“IP核”）可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。

此类机器可读存储介质可包括由机器或装置所制造或形成的物品（article）的非暂态、有形的布置而没有限制，包括存储介质（诸如硬盘、包括软盘、光盘、紧致盘只读存储器（CD-ROM）、可重写紧致盘（CD-RW）、和磁光盘的任何其它类型的盘）、半导体装置（诸如只读存储器（ROM），诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）的随机存取存储器（RAM），可擦除可编程只读存储器（EPROM）、闪速存储器、电可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）、磁或光卡、或适合于存储电子指令的任何其它类型的介质）。

因此，本发明的实施例还包括非暂态、有形的机器可读介质，所述介质含有指令或含有设计数据，诸如硬件描述语言（HDL），其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。

仿真（包含二进制转化、代码变形等）

在一些情况中，指令转换器可被用于将指令从源指令集转换成目标指令集。例如，指令转换器可翻译（例如，使用静态二进制翻译、包括动态编译的动态二进制翻译）、变形、仿真、或以其它方式将指令转换成要由核来处理的一个或多个其它指令。指令转换器被实现在软件、硬件、固件、或其组合中。指令转换器可在处理器上、离开处理器、或部分在处理器上而部单独开处理器。

图19是框图，其对照根据本发明的一些实施例的使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令。在所示出的实施例中，指令转换器是软件指令转换器，尽管备选地指令转换器可被实现在软件、固件、硬件、或其各种组合中。图19示出使用x86编译器1904，用高等级语言1902的程序可被编译以生成x86二进制代码1906，其可由带有至少一个x86指令集核的处理器1916来原生运行。带有至少一个x86指令集核的处理器1916表示能如带有至少一个x86指令集核的Intel处理器一样大体上执行相同功能的任何处理器，这通过兼容地运行或以其它方式处理（1）Intel x86指令集核的指令集的实质部分，或（2）针对于在带有至少一个x86指令集核的Intel处理器上运行的应用或另一软件的对象（object）代码版本，以便取得大体上与带有至少一个x86指令集核的Intel处理器相同的结果。x86编译器1904表示可操作以生成x86二进制代码1906（例如，对象代码）的编译器，x86二进制代码1906能通过或不通过附加联接处理而在带有至少一个x86指令集核的处理器1916上被运行。类似地，图19示出了使用备选指令集编译器1908，用高等级语言1902的程序可被编译以生成备选指令集二进制代码1910，其可由不带有至少一个x86指令集核的处理器1914（例如，带有运行MIPS Technologies of Sunnyvale，CA的MIPS指令集和/或运行ARM Holdings of Sunnyvale，CA的ARM指令集的核的处理器）来原生运行。指令转换器1912被用于将x86二进制代码1906转换成可由不带有x86指令集核的处理器1914来原生运行的代码。此被转换的代码不可能与备选指令集二进制代码1910相同，因为能够这样做的指令转换器难以做出；然而，被转换的代码将完成一般操作并由来自备选指令集的指令构成。因此，指令转换器1912表示软件、固件、硬件、或其组合，其通过仿真、模拟或任何其它过程而允许不具有x86指令集处理器或核的处理器或另一电子装置运行x86二进制代码1906。

本申请提供了如下的技术方案：

技术方案1. 一种处理器，包括：

取电路，所述取电路用于取压缩指令，所述压缩指令具有用于指定具有N个经单精度格式化元素的源矢量和具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；

解码电路，所述解码电路用于解码所取的压缩指令；

执行电路，所述执行电路用于通过以下操作来对所解码的压缩指令做出响应：

将所述源矢量的每个元素转换成所述NHP格式；

根据舍入模式来舍入每个转换后的元素；以及

将每个舍入的元素写到对应的经压缩矢量元素；

其中所述NHP格式包括七个有效位比特和八个指数比特；以及

其中所述源矢量和经压缩矢量各自在存储器中或在寄存器中。

技术方案2. 如技术方案1所述的处理器，

其中所述取、解码和执行电路进一步用于取、解码和执行第二压缩指令，所述第二压缩指令指定具有根据所述单精度格式而格式化的N个元素的第二源矢量和具有根据所述NHP格式而格式化的N个元素的第二经压缩矢量的位置；

其中所述取和解码电路进一步用于取和解码混合精度矢量乘-累加（MPVMAC）指令，所述混合精度矢量乘-累加（MPVMAC）指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量以及具有N个经单精度格式化元素的目的地矢量的字段；其中所指定的源矢量是所述经压缩矢量和所述第二经压缩矢量；以及

其中所述执行电路进一步用于通过生成所述经压缩矢量元素和所述第二经压缩矢量元素的16比特乘积并将所生成的16比特乘积与所述目的地矢量的对应元素的先前内容相累加，针对所述N个元素中的每个元素而对所解码的MPVMAC指令做出响应。

技术方案3. 如技术方案2所述的处理器，其中，所述MPVMAC指令进一步具有用于指定写掩码的字段，所指定的写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

技术方案4. 如技术方案1所述的处理器，

其中所述取电路进一步用于取扩展指令，所述扩展指令具有用于指定目的地矢量和所述经压缩矢量的位置的字段，所述目的地矢量具有根据所述单精度格式而格式化的N个元素；

其中所述处理器进一步包括：

解码电路，所述解码电路用于解码所取的扩展指令；以及

执行电路，所述执行电路用于通过以下操作对所解码的扩展指令做出响应：

将所述经压缩矢量的每个元素转换成所述单精度格式；以及

将每个转换后的元素写到对应的目的地矢量元素。

技术方案5. 如技术方案1所述的处理器，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

技术方案6. 如技术方案5所述的处理器，其中，所述舍入模式由所述IEEE 754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

技术方案7. 如技术方案1所述的处理器，其中，所指定的源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一行或多行。

技术方案8. 如技术方案1所述的处理器，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

技术方案9. 如技术方案1所述的处理器，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

技术方案10. 如技术方案1所述的处理器，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

技术方案11. 一种方法，包括：

使用取电路来取压缩指令，所述压缩指令具有用于指定具有N个经单精度格式化元素的源矢量和具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；

使用解码电路来解码所取的压缩指令；

使用执行电路通过以下操作来对所解码的压缩指令做出响应：

将所述源矢量的每个元素转换成所述NHP格式；

根据舍入模式来舍入每个转换后的元素；以及

将每个舍入的元素写到对应的经压缩矢量元素；

其中所述NHP格式包括七个有效位比特和八个指数比特；以及

技术方案12. 如技术方案11所述的方法，进一步包括：

使用所述取、解码和执行电路来取、解码和执行第二压缩指令，所述第二压缩指令指定具有根据所述单精度格式而格式化的N个元素的第二源矢量和具有根据所述NHP格式而格式化的N个元素的第二经压缩矢量的位置；

使用所述取和解码电路来取和解码混合精度矢量乘-累加（MPVMAC）指令，所述混合精度矢量乘-累加（MPVMAC）指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量以及具有N个经单精度格式化元素的目的地矢量的字段，其中所指定的源矢量是所述经压缩矢量和所述第二经压缩矢量；以及

使用所述执行电路通过生成所述经压缩矢量元素和所述第二经压缩矢量元素的16比特乘积并将所生成的16比特乘积与所述目的地矢量的对应元素的先前内容相累加，针对所述N个元素中的每个元素而对所解码的MPVMAC指令做出响应。

技术方案13. 如技术方案12所述的方法，其中，所述MPVMAC指令进一步具有用于指定写掩码的字段，所指定的写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

技术方案14. 如技术方案11所述的方法，进一步包括：

使用所述取电路来取扩展指令，所述扩展指令具有用于指定目的地矢量和所述经压缩矢量的位置的字段，所述目的地矢量具有根据所述单精度格式而格式化的N个元素；

使用解码电路来解码所取的扩展指令；

使用执行电路通过以下操作对所解码的扩展指令做出响应：

将所述经压缩矢量的每个元素转换成所述单精度格式；以及

将每个转换后的元素写到对应的目的地矢量元素。

技术方案15. 如技术方案11所述的方法，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

技术方案16. 如技术方案15所述的方法，其中，所述舍入模式由所述IEEE 754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

技术方案17. 如技术方案11所述的方法，其中，所指定的源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一行或多行。

技术方案18. 如技术方案11所述的方法，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

技术方案19. 如技术方案11所述的方法，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

技术方案20. 如技术方案11所述的方法，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

更多示例

示例1提供了一种示例性处理器，包括：取电路，所述取电路用于取压缩指令，所述压缩指令具有用于指定具有N个经单精度格式化元素的源矢量和具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；解码电路，所述解码电路用于解码所取的压缩指令；执行电路，所述执行电路用于通过以下操作来对所解码的压缩指令做出响应：将所述源矢量的每个元素转换成所述NHP格式；根据舍入模式来舍入每个转换后的元素；以及将每个舍入的元素写到对应的经压缩矢量元素；其中所述NHP格式包括七个有效位比特和八个指数比特；以及其中所述源矢量和经压缩矢量各自在存储器中或在寄存器中。

示例2包括如示例1所述的示例性处理器的主题，其中所述取、解码和执行电路进一步用于取、解码和执行第二压缩指令，所述第二压缩指令指定具有根据所述单精度格式而格式化的N个元素的第二源矢量和具有根据所述NHP格式而格式化的N个元素的第二经压缩矢量的位置；其中所述取和解码电路进一步用于取和解码矢量乘指令，所述混合精度矢量乘-累加（MPVMAC）指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量以及具有N个经单精度格式化元素的目的地矢量的字段；其中所指定的源矢量是所述经压缩矢量和所述第二经压缩矢量；以及其中所述执行电路进一步用于通过生成所述经压缩矢量元素和所述第二经压缩矢量元素的16比特乘积并将所生成的16比特乘积与所述目的地矢量的对应元素的先前内容相累加，针对所述N个元素中的每个元素而对所解码的矢量乘指令做出响应。

示例3包括如示例1所述的示例性处理器的主题，其中所述取电路进一步用于取扩展指令，所述扩展指令具有用于指定目的地矢量和所述经压缩矢量的位置的字段，所述目的地矢量具有根据所述单精度格式而格式化的N个元素；解码电路，所述解码电路用于解码所取的扩展指令；执行电路，所述执行电路用于通过以下操作对所解码的扩展指令做出响应：将所述经压缩矢量的每个元素转换成所述单精度格式；以及将每个转换后的元素写到对应的目的地矢量元素。

示例4包括如示例2所述的示例性处理器的主题，其中，所述矢量乘指令进一步具有用于指定写掩码的字段，所指定的写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

示例5包括如示例1-4中任一项所述的示例性处理器的主题，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

示例6包括如示例1-4中任一项所述的示例性处理器的主题，其中，所指定的源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一行或多行。

示例7包括如示例1-4中任一项所述的示例性处理器的主题，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

示例8包括如示例1所述的示例性处理器的主题，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

示例9包括如示例5所述的示例性处理器的主题，其中，所述舍入模式由所述IEEE754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

示例10包括如示例1-4中任一项所述的示例性处理器的主题，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

示例11提供了一种示例性方法，包括：使用取电路来取压缩指令，所述压缩指令具有用于指定具有N个经单精度格式化元素的源矢量和具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；使用解码电路来解码所取的压缩指令；使用执行电路通过以下操作来对所解码的压缩指令做出响应：将所述源矢量的每个元素转换成所述NHP格式；根据舍入模式来舍入每个转换后的元素；以及将每个舍入的元素写到对应的经压缩矢量元素；其中所述NHP格式包括七个有效位比特和八个指数比特；以及其中所述源矢量和经压缩矢量各自在存储器中或在寄存器中。

示例12包括如示例11所述的示例性方法的主题，进一步包括：使用所述取、解码和执行电路来取、解码和执行第二压缩指令，所述第二压缩指令指定具有根据所述单精度格式而格式化的N个元素的第二源矢量和具有根据所述NHP格式而格式化的N个元素的第二经压缩矢量的位置；使用所述取和解码电路来取和解码矢量乘指令，所述混合精度矢量乘-累加（MPVMAC）指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量以及具有N个经单精度格式化元素的目的地矢量的字段；其中所指定的源矢量是所述经压缩矢量和所述第二经压缩矢量；以及使用所述执行电路来通过生成所述经压缩矢量元素和所述第二经压缩矢量元素的16比特乘积并将所生成的16比特乘积与所述目的地矢量的对应元素的先前内容相累加，针对所述N个元素中的每个元素而对所解码的矢量乘指令做出响应。

示例13包括如示例11所述的示例性方法的主题，进一步包括：使用所述取电路来取扩展指令，所述扩展指令具有用于指定目的地矢量和所述经压缩矢量的位置的字段，所述目的地矢量具有根据所述单精度格式而格式化的N个元素；使用所述解码电路来解码所取的扩展指令；使用执行电路通过以下操作对所解码的扩展指令做出响应：将所述经压缩矢量的每个元素转换成所述单精度格式；以及将每个转换后的元素写到对应的目的地矢量元素。

示例14包括如示例12所述的示例性方法的主题，其中，所述矢量乘指令进一步具有用于指定写掩码的字段，所指定的写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

示例15包括如示例11-14中任一项所述的示例性方法的主题，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

示例16包括如示例11-14中任一项所述的示例性方法的主题，其中，所指定的源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一行或多行。

示例17包括如示例11-14中任一项所述的示例性方法的主题，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

示例18包括如示例11所述的示例性方法的主题，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

示例19包括如示例15所述的示例性方法的主题，其中，所述舍入模式由所述IEEE754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

示例20包括如示例11-14中任一项所述的示例性方法的主题，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

Claims

1.一种处理器，包括：

取电路，所述取电路用于取压缩指令；

解码电路，所述解码电路用于解码所述压缩指令，所述压缩指令具有用于指定具有N个经单精度格式化元素的源矢量和具有N个经神经半精度（NHP）格式化元素的经压缩矢量的位置的字段；

执行电路，所述执行电路用于通过以下操作来执行所述压缩指令：

将所述源矢量的每个元素转换成所述NHP格式；

根据舍入模式来舍入每个转换后的元素；以及

将每个舍入的元素写到对应的经压缩矢量元素；

其中所述NHP格式包括七个有效位比特和八个指数比特；以及

2. 如权利要求1所述的处理器，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

3.如权利要求1所述的处理器，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

4.如权利要求1-3中任一项所述的处理器，

其中所述处理器进一步包括：

解码电路，所述解码电路用于解码所述扩展指令；以及

执行电路，所述执行电路用于通过以下操作来执行所述扩展指令：

将所述经压缩矢量的每个元素转换成所述单精度格式；以及

将每个转换后的元素写到对应的目的地矢量元素。

5.如权利要求1-3中任一项所述的处理器，

其中所述取和解码电路进一步用于取和解码混合精度矢量乘-累加（MPVMAC）指令，所述混合精度矢量乘-累加（MPVMAC）指令具有用于指定具有N个经NHP格式化元素的第一和第二源矢量以及具有N个经单精度格式化元素的目的地矢量的字段；其中所述源矢量是所述经压缩矢量和所述第二经压缩矢量；以及

6.如权利要求5所述的处理器，其中，所述MPVMAC指令进一步具有用于指定写掩码的字段，所述写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

7.如权利要求1-3中任一项所述的处理器，其中，所述源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一个或多个行。

8.如权利要求1所述的处理器，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

9. 如权利要求8所述的处理器，其中，所述舍入模式由所述IEEE 754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

10.如权利要求9所述的处理器，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

11.一种方法，包括：

取电路，所述取电路用于取压缩指令；

将所述源矢量的每个元素转换成所述NHP格式；

根据舍入模式来舍入每个转换后的元素；以及

将每个舍入的元素写到对应的经压缩矢量元素；

其中所述NHP格式包括七个有效位比特和八个指数比特；以及

12. 如权利要求11所述的方法，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

13.如权利要求11所述的方法，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

14.如权利要求11-13中任一项所述的方法，

其中所述方法进一步包括：

解码电路，所述解码电路用于解码所述扩展指令；以及

将所述经压缩矢量的每个元素转换成所述单精度格式；以及

将每个转换后的元素写到对应的目的地矢量元素。

15.如权利要求11-13中任一项所述的方法，

16.如权利要求15所述的方法，其中，所述MPVMAC指令进一步具有用于指定写掩码的字段，所述写掩码包括N个比特，每个比特用于标识所述目的地矢量的所述对应元素何时被取消掩码并将与所生成的16比特乘积一起被写入，或者所述目的地矢量的所述对应元素何时被映射并被清零或合并。

17.如权利要求11-13中任一项所述的方法，其中，所述源矢量和经压缩矢量各自占据具有M行乘N列的矩阵的一个或多个行。

18.如权利要求11所述的方法，其中，所述执行电路进一步用于根据舍入模式在转换、累加和相乘时按需执行舍入。

19. 如权利要求18所述的方法，其中，所述舍入模式由所述IEEE 754标准所指定，并且是以下项之一：舍入到最接近的数，当存在两个数一样接近时，取偶数值；舍入到最接近的数，当存在两个数一样接近时，取离零较远的数；朝零舍入；朝正无穷舍入；以及朝负无穷舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

20.如权利要求19所述的方法，其中，所述舍入模式是以下项之一：舍入到最接近的偶数、朝负无穷舍入、朝正无穷舍入、和朝零舍入，并且其中所述舍入模式通过由所述指令所指定的立即值在每指令的基础上被指定、或者通过软件可编程控制和状态寄存器在嵌入式基础上被指定。

21.一种系统，包括存储器和处理器，所述处理器包括：

取电路，所述取电路用于取压缩指令；

将所述源矢量的每个元素转换成所述NHP格式；

根据舍入模式来舍入每个转换后的元素；以及

将每个舍入的元素写到对应的经压缩矢量元素；

其中所述NHP格式包括七个有效位比特和八个指数比特；以及

22. 如权利要求21所述的系统，其中，所述单精度格式是由电气和电子工程师协会所标准化的、作为IEEE 754-2008标准的一部分的二进制32格式。

23.如权利要求21所述的系统，其中，所述执行电路进一步用于在累加和相乘时按需执行饱和。

24.如权利要求21-23中任一项所述的系统，

其中所述处理器进一步包括：

解码电路，所述解码电路用于解码所述扩展指令；以及

将所述经压缩矢量的每个元素转换成所述单精度格式；以及

将每个转换后的元素写到对应的目的地矢量元素。

25.一种包括代码的机器可读介质，所述代码在被执行时促使机器执行如权利要求11-20中任一项所述的方法。