CN110045945A

CN110045945A - 用于有符号的双字的矢量乘法和减法的设备和方法

Info

Publication number: CN110045945A
Application number: CN201811391367.5A
Authority: CN
Inventors: E.奥尔德-艾哈迈德-瓦尔; R.瓦伦丁; M.查尼; J.科巴尔; V.马杜里
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-12-21
Filing date: 2018-11-21
Publication date: 2019-07-23
Also published as: US20190196829A1; DE102018131484A1; US20220129273A1

Abstract

一种用于执行打包有符号的双字的有符号的乘法并且与有符号的四字进行累加的设备和方法。一种处理器包括：第一源寄存器；第二源寄存器；第三源寄存器；执行电路，执行电路包括：用于将来自第一源寄存器的打包有符号的双字数据元素与来自第二源寄存器的打包有符号的双字数据元素相乘以生成临时有符号的四字乘积的乘法器电路；用于将临时有符号的四字乘积与从第三源寄存器读的打包有符号的四字值组合以生成有符号的四字结果并且用于将临时有符号的四字乘积与从第三源寄存器读的打包有符号的四字值组合以生成累加的有符号的四字结果的累加电路；用于存储累加的有符号的四字结果并且用于存储累加的有符号的四字结果的目的地寄存器或第三源寄存器。

Description

用于有符号的双字的矢量乘法和减法的设备和方法

发明领域

本发明的实施例一般涉及计算机处理器的领域。更具体地说，实施例涉及用于执行有符号的双字的矢量乘法和减法的设备和方法。

背景技术

指令集或指令集架构（ISA）是与编程有关的计算机架构的一部分，包括原生数据类型、指令、寄存器架结构、寻址模式、存储器架构、中断和异常处置及外部输入和输出（I/O）。应注意的是，术语“指令”在本文中通常指宏指令-其是被提供到处理器以便执行的指令-- 与微指令或微操作相反-其是处理器的解码器解码宏指令的结果。微指令或微操作能够配置成指示处理器上的执行单元执行操作以实现与宏指令关联的逻辑。

ISA不同于作为用于实现指令集的一组处理器设计技术的微架构。带有不同微架构的处理器能够共享共用指令集。例如，Intel®®Pentium 4处理器、Intel® CoreTM™处理器和来自加利福尼亚州桑尼威尔（Sunnyvale）的超微半导体有限公司（Advanced MicroDevices, Inc.）的处理器实现几乎相同版本的x86指令集（其中已采用较新版本来加入了一些扩展），但具有不同内部设计。例如，ISA的相同寄存器架构可使用公知的技术在不同微架构中以不同方式来实现，包括专用物理寄存器、使用寄存器重命名机制（例如，使用寄存器别名表（RAT）、重新排序缓冲器（ROB）和引退寄存器堆）的一个或多个动态分配的物理寄存器。除非另有指定，否则短语寄存器架构(phrases register architecture)、寄存器堆和寄存器在本文中用于指对软件/编程器可见的事物以及其中指令指定寄存器的方式。在要求区分的情况下，形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示在寄存器架构中的寄存器/文件，而不同的形容词将用于指定给定微架构中的寄存器（例如，物理寄存器、重新排序缓冲器、隐退寄存器、寄存器池）。

乘法累加（Multiply-accumulate）是常见的数字信号处理操作，其计算两个数字的乘积，并将该乘积与累加值相加。现存单指令多数据(SIMD)微架构通过执行指令的序列来实现乘法累加操作。例如，可以采用乘法指令执行乘法累加，接着是4路加法，并且然后与目的地四字（quadword）数据做累加，以生成两个64位饱和结果。

附图说明

结合附图，从下面的详细描述中能够获得本发明的更好理解，其中：

图1A和1B是图示了根据本发明的实施例的一般矢量友好指令格式及其指令模板的框图；

图2A-C是图示了根据本发明的实施例的示范性VEX指令格式的框图；

图3是根据本发明的一个实施例的寄存器架构的框图；以及

图4A是图示了根据本发明的实施例的示范性有序取（fetch）、解码、引退流水线和示范性寄存器重命名、乱序发布/执行流水线两者的框图；

图4B是图示了根据本发明的实施例，要包括在处理器中的有序取、解码、引退核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者的框图；

图5A是单个处理器核及其到管芯上互连网络的连接的框图；

图5B图示了根据本发明的实施例的图5A中处理器核的一部分的扩展图；

图6是根据本发明的实施例的单核处理器和带有集成存储器控制器和图形的多核处理器的框图；

图7图示了根据本发明的一个实施例的系统的框图；

图8图示了根据本发明的实施例的第二系统的框图；

图9图示了根据本发明的实施例的第三系统的框图；

图10图示了根据本发明的实施例的芯片上系统（SoC）的框图；

图11图示了根据本发明的实施例，与软件指令转换器的使用进行对照来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图12图示了本发明实施例可在其上被实现的处理器架构；

图13图示了根据一个实施例的含有实数和复数值的多个打包数据元素；

图14图示了打包数据处理架构的实施例；

图15图示了根据本发明的一个实施例的方法；以及

图16图示了根据本发明的一个实施例的方法。

具体实施方式

在下面的描述中，出于解释的目的，陈述了许多特定的细节以便提供下面描述的本发明的实施例的详尽理解。然而，本领域的技术人员将明白，可在没有某些这些特定细节的情况下实践本发明的实施例。在其它实例中，以框图形式示出已知的结构和装置，以免混淆本发明的实施例的基础原理。

示范性处理器架构、指令格式和数据类型

指令集包括一个或多个指令格式。给定的指令格式定义各种字段（比特数量、比特地点）以在其它事物中指定要被执行的操作（操作码）和操作数（在其上要执行操作）。一些指令格式通过指令模板（或子格式）的定义被进一步分解。例如，给定的指令格式的指令模板可被定义以具有指令格式的字段的不同子集（包括的字段典型地采用相同顺序，但至少一些具有不同比特地点，因为包括有较少字段）和/或被定义以具有不同地解译的给定字段。因此，ISA的每个指令使用给定的指令格式来表示（并且如果被定义，则采用该指令格式的指令模板中的给定一个）并且包括用于指定操作和操作数的字段。例如，示范性ADD指令具有特定操作码和指令格式，其包括用于指定那个操作码的操作码字段和用于选择操作数的操作数字段（源1/目的地和源2））；以及指令流中的该ADD指令的出现将具有选择特定操作数的操作数字段中的特定内容。

本文描述的指令的实施例可以采用不同格式实施。此外，示范性系统、架构和流水线在下文被详述。指令的实施例可在这样的系统、架构和流水线上执行，但不限于详述的那些。

一般矢量友好指令格式

矢量友好指令格式是适合用于矢量指令的指令格式（例如特定于矢量操作存在某些字段）。虽然描述了实施例，其中通过矢量友好指令格式支持矢量和标量两者操作，但备选实施例仅使用矢量友好格式的矢量操作。

图1A-1B是框图，其示出根据本发明的实施例的一般矢量友好指令格式和其指令模板。图1A是框图，其示出根据本发明的实施例的一般矢量友好指令格式和其类别A指令模板；而图1B是框图，其示出根据本发明的实施例的一般矢量友好指令格式和其类别B指令模板。具体地，对于一般矢量友好指令格式100，定义了类别A和类别B指令模板,它们两者包括无存储器存取105指令模板和存储器存取120指令模板。矢量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。

虽然本发明的实施例将被描述，其中矢量友好指令格式支持以下项：带有32比特（4字节）或64比特（8字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）（并且因此，64字节矢量由16个双字大小元素或备选地8个四字大小元素组成）；带有16比特（2字节）或8比特（1字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）；带有32比特（4字节）、64比特（8字节）、16比特（2字节）、或8比特（1字节）数据元素宽度（或大小）的32字节矢量操作数长度（或大小）；以及带有32比特（4字节）、64比特（8字节）、16比特（2字节）、或8比特（1字节）数据元素宽度（或大小）的16字节矢量操作数长度（或大小）；但备选实施例可支持带有更多、更少、或不同数据元素宽度（例如，128比特（16字节）数据元素宽度）的更多、更少和/或不同矢量操作数大小（例如，256字节矢量操作数）。

图1A中的类别A指令模板包括：1）在无存储器存取105指令模板内，示出了无存储器存取、完整舍入（full round）控制类型操作110指令模板，和无存储器存取、数据变换类型操作115指令模板；以及2）在存储器存取120指令模板内，示出了存储器存取、暂时125指令模板，和存储器存取、非暂时130指令模板。图1B中的类别B指令模板包括：1）在无存储器存取105指令模板内，示出了无存储器存取、写掩码控制、部分舍入控制类型操作112指令模板，和无存储器存取、写掩码控制、vsize类型操作117指令模板；以及2）在存储器存取120指令模板内，示出了存储器存取、写掩码控制127指令模板。

一般矢量友好指令格式100包括图1A-1B中所示出的以下按顺序列出的以下字段。

格式字段140—此字段中的特定值（指令格式标识符值）唯一地标识矢量友好指令格式，并因此标识指令流中矢量友好指令格式中的指令的出现。因而，此字段在它对于仅具有一般矢量友好指令格式的指令集不被需要的意义中是可选的。

基础操作字段142—它的内容分辨出不同的基础操作。

寄存器索引字段144—它的内容直接或通过地址生成来指定源和目的地操作数的地点（它们在寄存器中或在存储器中）。这些包括用于从PxQ（例如32x512、16x128、32x1024、64x1024）寄存器堆选择N个寄存器的比特的足够数量。虽然在一个实施例中N可多至三个源和一个目的地寄存器，但备选实施例可支持更多或更少的源和目的地寄存器（例如，可支持多至两个源，其中这些源之一还充当目的地；可支持多至三个源，其中这些源之一还充当目的地；可支持多至两个源和一个目的地）。

修改符（Modifier）字段146—它的内容分辨出一般矢量指令格式中指定存储器存取的指令与不指定存储器存取的那些指令的出现；那就是说，在无存储器存取105指令模板和存储器存取120指令模板之间进行分辨。存储器存取操作对存储器层级进行读和/或写（在使用寄存器中的值来指定源和/或目的地地址的一些情况中），而非存储器存取操作不进行（例如，源和目的地是寄存器）。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算，但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。

扩增（augmentation）操作字段150—它的内容分辨出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在本发明的一个实施例中，此字段被划分成类别字段168、α字段152、和β字段154。扩增操作字段150允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。

缩放（scale）字段160—它的内容允许用于存储器地址生成（例如，用于使用2缩放*索引+基址的地址生成）的索引字段的内容的缩放。

位移（displacement）字段162A—它的内容作为存储器地址生成（例如，用于使用2缩放*索引+基址+位移的地址生成）的部分被使用。

位移因子字段162B（注意，直接在位移因子字段162B上的位移字段162A的并置指示一个或另一个被使用）—它的内容作为地址生成的部分被使用；它指定要通过存储器存取的大小（N）来缩放的位移因子—其中N是存储器存取中的字节的数量（例如，用于使用2缩放*索引+基址+缩放的位移的地址生成）。冗余低顺序比特被忽略，并且因此，位移因子字段的内容被乘以存储器操作数总大小（N）以便生成要在运算有效地址中被使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段174（本文中较后所描述）和数据操纵字段154C来确定。位移字段162A和位移因子字段162B在它们不被用于无存储器存取105指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。

数据元素宽度字段164—它的内容分辨出多个数据元素宽度的哪一个要被使用（在对于所有指令的一些实施例中；在对于指令的仅一些指令的其它实施例中）。此字段在以下意义上是可选的：如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。

写掩码字段170—它的内容在按数据元素地点的基础上控制目的地矢量操作数中的那个数据元素地点是否反映基础操作和扩增操作的结果。类别A指令模板支持合并写掩蔽，而类别B指令模板支持合并和归零写掩蔽两者。在合并时，矢量掩码允许目的地中的元素的任何集合被保护免于在任何操作（由基础操作和扩增操作所指定的）的执行期间更新；在另外一个实施例中，保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下，在归零时，矢量掩码允许目的地中的元素的任何集合在任何操作（由基础操作和扩增操作所指定的）的执行期间被归零；在一个实施例中，在对应掩码比特具有0值时，目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的矢量长度（那就是说，正被修改的元素的跨度，从第一个到最后一个）的能力；然而，被修改的元素不必要是连续的。因此，写掩码字段170允许部分矢量操作，包括加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述，其中写掩码字段170的内容选择含有要被使用的写掩码的多个写掩码寄存器之一（并且因此写掩码字段170的内容间接标识要被执行的掩蔽），但备选实施例转而或附加允许掩码写字段170的内容直接指定要被执行的掩蔽。

立即数字段172—它的内容允许立即数的规格。此字段在它在不支持立即数的一般矢量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。

类别字段168—它的内容在指令的不同类别之间进行分辨。参考图1A-B，此字段的内容在类别A和类别B指令之间选择。在图1A-B中，圆角方形被用于指示在字段中呈现的特定值（例如，在图1A-B中相应对于类别字段168的类别A 168A和类别B 168B）。

类别A的指令模板

在类别A的非存储器存取105指令模板的情况中，α字段152被解译为RS字段152A，其内容分辨出不同扩增操作类型的哪一个要被执行（例如，舍入152A.1和数据变换152A.2对于无存储器存取、舍入类型操作110，和无存储器存取、数据变换类型操作115指令模板被相应指定），而β字段154分辨出所指定的类型的操作的哪个要被执行。在无存储器存取105指令模板中，缩放字段160、位移字段162A、和位移缩放字段162B不存在。

无存储器存取指令模板—完整舍入控制类型操作

在无存储器存取完整舍入控制类型操作110指令模板中，β字段154被解译为舍入控制字段154A，其内容提供静态舍入。虽然在本发明的所描述的实施例中，舍入控制字段154A包括所有浮点异常（SAE）字段156和舍入操作控制字段158的抑制，但备选实施例可支持可将这些概念两者编码成相同字段，或仅具有这些概念/字段的一个或另一个（例如，可具有仅舍入操作控制字段158）。

SAE字段156—它的内容分辨出是否禁用异常事件报告；在SAE字段156的内容指示抑制被启用时，给定的指令不报告任何种类的浮点异常标记且不唤起（raise）任何浮点异常处置器。

舍入操作控制字段158—它的内容分辨出一组舍入操作的哪一个要执行（例如，上舍入、下舍入、朝零舍入和往最近舍入）。因此，舍入操作控制字段158允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段150的内容覆盖那个寄存器值。

无存储器存取指令模板—数据变换类型操作

在无存储器存取数据变换类型操作115指令模板中，β字段154被解译为数据变换字段154B，其内容分辨出多个数据变换的哪一个要被执行（例如，无数据变换、打乱（swizzle）、广播）。

在类别A的存储器存取120指令模板的情况中，α字段152被解译为驱逐提示字段152B，其内容分辨出驱逐提示的哪一个要被使用（在图1A中，暂时152B.1和非暂时152B.2对于存储器存取、暂时125指令模板，和存储器存取、非暂时130指令模板被相应指定），而β字段154被解译为数据操纵字段154C，其内容分辨出多个数据操纵操作（还已知为原语（primitive））的哪一个要被执行（例如，无操纵；广播；源的上转换；以及目的地的下转换）。存储器存取120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。

矢量存储器指令通过转换支持来执行自存储器的矢量加载和往存储器的矢量存储。如通过常规矢量指令，矢量存储器指令以数据元素式的方式将数据转移自/往存储器，实际上被转移的元素由作为写掩码被选择的矢量掩码的内容来指示。

存储器存取指令模板—暂时

暂时数据是这样的数据，其有可能被足够快地再使用以受益于进行高速缓存。然而，这是提示，并且不同处理器可以采用不同方式来实现它，包括完全忽略该提示。

存储器存取指令模板—非暂时

非暂时数据是这样的数据，其不太可能被足够快地再使用以受益于在第1级高速缓存中进行高速缓存并应被给定用于驱逐的优先权。然而，这是提示，并且不同处理器可以采用不同方式来实现它，包括完全忽略该提示。

类别B的指令模板

在类别B的指令模板的情况中，α字段152被解译为写掩码控制（Z）字段152C，其内容分辨出由写掩码字段170所控制的写掩蔽应是合并还是归零。

在类别B的非存储器存取105指令模板的情况中，β字段154的部分被解译为RL字段157A，其内容分辨出不同扩增操作类型的哪一个要被执行（例如，舍入157A.1和矢量长度（VSIZE）157A.2对于无存储器存取、写掩码控制、部分舍入控制类型操作112指令模板，和无存储器存取、写掩码控制、VSIZE类型操作117指令模板被相应指定），而β字段154的剩余部分分辨出指定类型的操作的哪个要被执行。在无存储器存取105指令模板中，缩放字段160、位移字段162A、和位移缩放字段162B不存在。

在无存储器存取、写掩码控制、部分舍入控制类型操作110指令模板中，β字段154的剩余部分被解译为舍入操作字段159A，并且异常事件报告被禁用（给定的指令不报告任何种类的浮点异常标记且不唤起任何浮点异常处置器）。

舍入操作控制字段159A—正如舍入操作控制字段158，它的内容分辨出一组舍入操作的哪一个要执行（例如，上舍入、下舍入、朝零舍入和往最近舍入）。因此，舍入操作控制字段159A允许在按指令的基础上的舍入模式的改变。在本发明的一个实施例中，其中处理器包括用于指定舍入模式的控制寄存器，舍入操作控制字段150的内容覆盖那个寄存器值。

在无存储器存取、写掩码控制、VSIZE类型操作117指令模板中，β字段的剩余部分154被解译为矢量长度字段159B，其内容分辨出多个数据矢量长度的哪一个要被执行（例如，128、256、或512字节）。

在类别B的存储器存取120指令模板的情况中，β字段154的部分被解译为广播字段157B，其内容分辨出广播类型数据操纵操作是否要被执行，而β字段154的剩余部分被解译为矢量长度字段159B。存储器存取120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。

关于一般矢量友好指令格式100，完整操作码字段174被示出，包括格式字段140、基础操作字段142、和数据元素宽度字段164。虽然一个实施例被示出，其中完整操作码字段174包括所有这些字段，但在不支持所有这些字段的实施例中，完整操作码字段174包括少于所有这些字段。完整操作码字段174提供操作代码（操作码）。

扩增操作字段150、数据元素宽度字段164、和写掩码字段170允许这些特征在一般矢量友好指令格式中在按指令的基础上被指定。

写掩码字段和数据元素宽度字段的组合创建分类的（typed）指令，因为它们允许掩码基于不同数据元素宽度而被应用。

在类别A和类别B内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核可支持仅类别A、仅类别B、或两个类别。例如，打算用于通用计算的高性能通用乱序核可支持仅类别B，打算主要用于图形和/或科学（吞吐量）计算的核可支持仅类别A，以及打算用于两者的核可支持两个类别（当然，具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内）。同样，单个处理器可包括多个核，其的所有支持相同类别或其中不同核支持不同类别。例如，在带有单独的图形和通用核的处理器中，打算主要用于图形和/或科学计算的图形核之一可支持仅类别A，而通用核的一个或多个通用核可以是支持仅类别B的打算用于通用计算的带有乱序运行和寄存器重命名的高性能通用核。不具有单独的图形核的另一个处理器可包括支持类别A和类别B两者的更多一个通用有序或乱序核。当然，来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被转化（例如，准时编译或静态编译）成多种不同可运行的形式，包括：1）具有用于运行的由目标处理器所支持的类别的仅指令的形式；或2）具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器（其当前正运行代码）所支持的指令来运行的控制流程代码（control flow code）的形式。

VEX指令格式

VEX编码允许指令具有两个以上的操作数，并且允许SIMD矢量寄存器长于28比特。VEX前缀的使用提供了三操作数(或更多)语法。例如，先前的二操作数指令执行诸如A=A+B的操作，这将覆写源操作数。VEX前缀的使用使操作数能够执行无损操作，诸如A=B+C。

图2A图示示范性AVX指令格式，包括VEX前缀202、真操作码字段230、Mod R/M字节240、SIB字节250、位移字段262和IMM8 272。图2B图示来自图2A的哪些字段构成完整操作码字段274和基础操作字段241。图2C图示来自图2A的哪些字段构成寄存器索引字段244。

VEX前缀(字节0-2)202以三字节形式进行编码。第一字节是格式字段290 (VEX字节0，比特[7:0])，其含有显式C4字节值(用于区分C4指令格式的独特值)。第二-第三字节(VEX字节1-2)包括提供特定能力的多个比特字段。具体地说，REX字段205(VEX字节1，比特[7-5])由VEX.R比特字段(VEX字节1，比特[7]-R)、VEX.X比特字段(VEX字节1，比特[6]-X)以及VEX.B比特字段(VEX字节1，比特[5]-B)组成。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特（rrr、xxx、和bbb），使得Rrrr、Xxxx、和Bbbb可通过添加VEX.R、VEX.X以及VEX.B来形成。操作码映射字段215(VEX字节1，比特[4:0]-mmmmm)包括编码意指的前导操作码字节的内容。W字段264(VEX字节2，比特[7]–W)由记号VEX.X表示，并根据指令提供不同的功能。VEX.vvvv220(VEX字节2，比特[6:3]-vvvv)的功能可以包括以下项: 1)VEX.vvvv编码以倒置(1s补码)的形式所指定的第一源寄存器操作数，并且对具有2个或更多个源操作数的指令有效；2) VEX.vvvv编码针对某些矢量移位以1s补码形式指定的目的地寄存器操作数；或者3)VEX.vvvv不编码任何操作数，该字段被预留并且应该含有1111b。如果VEX.L 268大小字段(VEX字节2，比特[2]-L) =0，则其指示28比特矢量；如果VEX.L=1，则其指示256比特矢量。前缀编码字段225(VEX字节2，比特[1:0]-pp)为基础操作字段241提供附加比特。

真操作码字段230（字节3）还已知为操作码字节。操作码的部分被指定在此字段中。

MOD R/M字段240（字节4）包括MOD字段242（比特[7-6]）、Reg字段244（比特[5-3]）、和R/M字段246（比特[2-0]）。Reg字段244的功能可包括以下项：编码目的地寄存器操作数或源寄存器操作数（Rrrr的rrr），或作为操作码扩展而被对待并不被用于编码任何指令操作数。R/M字段246的功能可包括以下项：编码引用存储器地址的指令操作数，或者编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基址（SIB）-缩放字段250（字节5）的内容包括SS252（比特[7-6]），其被用于存储器地址生成。SIB.xxx 254（比特[5-3]）和SIB.bbb 256（比特[2-0]）的内容之前已关于寄存器索引Xxxx和Bbbb而被提及。

位移字段262和立即数字段(IMM8)272含有数据。

示范性寄存器架构

图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中，存在512比特宽的32个矢量寄存器310；这些寄存器被引用为zmm0直到zmm31。较低的6个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-15上。较低的6个zmm寄存器的较低顺序128比特（ymm寄存器的较低顺序128比特）被覆载在寄存器xmm0-15上。

通用寄存器325-在所示出的实施例中，存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64-比特通用寄存器。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、和R8直到R15来引用。

标量浮点栈寄存器堆（x87栈）345，在其上MMX打包整数平寄存器堆350被别名化-在所示出的实施例中，x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈；而MMX寄存器被用于在64-比特打包整数数据上执行操作，还被用于为在MMX和XMM寄存器之间所执行的一些操作来保存操作数。

本发明的备选实施例可使用更宽或更窄的寄存器。另外，本发明的备选实施例可使用更多、更少、或不同寄存器堆和寄存器。

示范性核架构、处理器、和计算机架构

处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如，此类核的实现可包括：1）打算用于通用计算的通用有序核；2）打算用于通用计算的高性能通用乱序核；3）打算主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可包括：1）包括打算用于通用计算的一个或多个通用有序核和/或打算用于通用计算的一个或多个通用乱序核的CPU；以及2）包括打算主要用于图形和/或科学（吞吐量）的一个或多个专用核的协同处理器。此类不同处理器导致不同计算机系统架构，其可包括：1）在与所述CPU分离的芯片上的协同处理器； 2）在与CPU相同的封装中单独管芯上的协同处理器；3）在与CPU相同的管芯上的协同处理器（在该情况中，此类协同处理器有时被称为专用逻辑，诸如集成的图形和/或科学（吞吐量）逻辑，或被称为专用核）；以及4）在可在相同管芯上包括所描述的CPU（有时被称为应用核或应用处理器）、以上所描述的协同处理器、和附加功能性的芯片上系统。示范性核架构接下来被描述，继之以示范性处理器和计算机架构的描述。本文中具体细节是包括示范性核、处理器等的电路（单元）。

示范性核架构

图4A是框图，其示出根据本发明的实施例的示范性有序流水线和示范性寄存器重命名、乱序发布/运行流水线两者。图4B是框图，其示出根据本发明的实施例的要被包括在处理器中的有序架构核的示范性实施例和示范性寄存器重命名、乱序发布/运行架构核两者。图4A-B中的实线框示出有序流水线和有序核，而虚线框的可选附加示出寄存器重命名、乱序发布/运行流水线和核。给定有序方面是乱序方面的子集，乱序方面将被描述。

在图4A中，处理器流水线400包括取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度（还已知为分派或发布）阶段412、寄存器读/存储器读阶段414、运行阶段416、写回/存储器写阶段418、异常处置阶段422、和提交阶段424。

图4B示出处理器核490，其包括耦合到运行引擎单元450的前端单元430，并且两者被耦合到存储器单元470。核490可以是简化指令集计算（RISC）核、复杂指令集计算（CISC）核、非常长指令字（VLIW）核、或混合或备选核类型。如仍有的另一个选项，核490可以是专用核，诸如例如网络或通信核、压缩引擎、协同处理器核、通用计算图形处理单元（GPGPU）核、图形核等等。

前端单元430包括耦合到指令高速缓存单元434的分支预测单元432，所述指令高速缓存单元434被耦合到指令转化旁视（lookaside）缓冲器（TLB）436，其被耦合到指令取单元438，指令取单元438被耦合到解码单元440。解码单元440（或解码器）可解码指令，并生成为输出一个或多个微操作、微代码条目点、微指令、其它指令、或其它控制信号，其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制，解码单元440可被实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）、等等。在一个实施例中，核490包括存储用于某些宏指令的微代码的微代码ROM或另一介质（例如，在解码单元440中或以别的方式在前端单元430内）。解码单元440被耦合到运行引擎单元450中的重命名/分配器单元452。

运行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456代表任何数量的不同调度器，包括保留站、中央指令窗口、等等。调度器单元456被耦合到物理寄存器堆单元458。物理寄存器堆单元458中的每个代表一个或多个物理寄存器堆，其不同物理寄存器堆存储一个或多个不同数据类型，诸如标量整数、标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点、状态（例如，是要被运行的下一个指令的地址的指令指针）、等等。在一个实施例中，物理寄存器堆单元458包括矢量寄存器单元和标量寄存器单元。这些寄存器单元可提供架构上的矢量寄存器、矢量掩码寄存器、和通用寄存器。物理寄存器堆单元458通过引退单元454来重叠以示出其中寄存器重命名和乱序运行可被实现的各种方式（例如，使用重排序缓冲器和引退寄存器堆；使用未来堆、历史缓冲器、和引退寄存器堆；使用寄存器映射和寄存器的池；等等）。引退单元454和物理寄存器堆单元458被耦合到运行集群460。运行集群460包括一个或多个运行单元462的集合和一个或多个存储器存取单元464的集合。运行单元462可执行各种操作（例如，移位、加法、减法、乘法）以及在各种类型的数据（例如，标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点）上执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个运行单元，其它实施例可包括都执行所有功能的多个运行单元或仅一个运行单元。调度器单元456、物理寄存器堆单元458、和运行集群460被示出为可能是多个，因为某些实施例对于某些类型的数据/操作来创建单独流水线（例如，标量整数流水线、标量浮点/打包的整数/打包的浮点/矢量整数/矢量浮点流水线、和/或存储器存取流水线，其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或运行集群—并且在单独的存储器存取流水线的情况中，其中此流水线的仅运行集群具有存储器存取单元464的某些实施例被实现）。还应被理解的是，在单独流水线被使用之处，这些流水线的一个或多个流水线可以是乱序发布/运行，并且剩余的是有序。

存储器存取单元464的集合被耦合到存储器单元470，存储器单元470包括耦合到数据高速缓存单元474的数据TLB单元472，数据高速缓存单元474耦合到2级（L2）高速缓存单元476。在一个示范性实施例中，存储器存取单元464可包括加载单元、存储地址单元、和存储数据单元，每个存储器存取单元464被耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434被进一步耦合到存储器单元470中的2级（L2）高速缓存单元476。L2高速缓存单元476被耦合到一个或多个其它级别的高速缓存并最终到主存储器。

通过示例的方式，示范性寄存器重命名、乱序发布/运行核架构可实现如下流水线400：1）指令取438执行取及长度解码阶段402和404；2）解码单元440执行解码阶段406；3）重命名/分配器单元452执行分配阶段408和重命名阶段410；4）调度器单元456执行调度阶段412；5）物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414；运行集群460执行运行阶段416；6）存储器单元470和物理寄存器堆单元458执行写回/存储器写阶段418；7）各种单元可在异常处置阶段422中被涉及；以及8）引退单元454和物理寄存器堆单元458执行提交阶段424。

核490可支持一个或多个指令集（例如，x86指令集（带有已随较新版本被添加的一些扩展）；MIPS Technologies of Sunnyvale，CA的MIPS指令集；ARM Holdings ofSunnyvale，CA的ARM指令集（带有诸如NEON的可选附加扩展）），包括本文中所描述的指令。在一个实施例中，核490包括用于支持打包数据指令集扩展（例如，AVX1、AVX2）的逻辑，因此允许由许多多媒体应用来使用的操作使用打包的数据来执行。

应被理解的是，核可支持多线程（运行操作或线程的两个或更多并行集合），并可以多种方式来如此做，所述多种方式包括时间分段的多线程、同时多线程（在单个物理核为线程的每个提供逻辑核的情况中，那个物理核正进行同时多线程），或其组合（例如，诸如在Intel®超线程技术中的时间分段的取和解码以及其后的同时多线程）。

虽然寄存器重命名在乱序运行的上下文中被描述，但应理解的是，寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包括单独的指令和数据高速缓存单元434/474以及共享L2高速缓存单元476，但备选实施例可具有用于指令和数据两者的单个内部高速缓存，诸如例如，1级（L1）内部高速缓存、或多个级别的内部高速缓存。在一些实施例中，系统可包括内部高速缓存及外部于核和/或处理器的外部高速缓存的组合。备选地，所有高速缓存可外部于核和/或处理器。

特定示范性有序核架构

图5A-B示出核将是芯片中若干逻辑块之一（包括相同类型和/或不同类型的其它核）的更特定示范性有序核架构的框图。逻辑块通过高带宽互连网络（例如，环网络）取决于应用而通信于一些固定的功能逻辑、存储器I/O接口、和另一必要I/O逻辑。

图5A是根据本发明的实施例的单个处理器核连同其与管芯上互连网络502的连接并连同其2级（L2）高速缓存504的本地子集的框图。在一个实施例中，指令解码器500支持带有打包的数据指令集扩展的x86指令集。L1高速缓存506允许低等待时间存取以将存储器高速缓存到标量和矢量单元中。虽然在一个实施例中（为简化设计），标量单元508和矢量单元510使用单独的寄存器集合（相应地，是标量寄存器512和矢量寄存器514），并且在它们之间所转移的数据被写到存储器并然后从1级（L1）高速缓存506读回，但本发明的备选实施例可使用不同手段（例如，使用单个寄存器集合或包括允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径）。

L2高速缓存504的本地子集是全局L2高速缓存的部分，所述全局L2高速缓存被划分成单独的本地子集，每处理器核一个。每个处理器核具有到L2高速缓存504的它自己的本地子集的直接存取路径。由处理器核所读的数据被存储在其L2高速缓存子集504中并能被快速地存取，并行于其它处理器核存取它们自己的本地L2高速缓存子集。由处理器核所写的数据被存储在其自己的L2高速缓存子集504中并且如果必要则从其它子集中转储清除。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、L2高速缓存、和其它逻辑块的代理在芯片内互相通信。在一些实施例中，每个环数据-路径每方向是1024-比特宽。

图5B是根据本发明的实施例的图5A中的处理器核的部分的扩展的视图。图5B包括L1高速缓存504的L1数据高速缓存506A部分，以及关于矢量单元510和矢量寄存器514的更多细节。具体地，矢量单元510是6宽矢量处理单元（VPU）（见16宽ALU 528），其运行整数、单精度浮动、和双精度浮动指令的一个或多个。VPU支持在存储器输入上通过打乱单元520来打乱寄存器输入、通过数值转换单元522A-B来进行数值转换、以及通过复制单元524来进行复制。

具有集成存储器控制器和图形的处理器

图6是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器600的框图。图6中的实线框示出带有单个核602A、系统代理610、一个或多个总线控制器单元616的集合的处理器600，而虚线框的可选附加示出带有多个核602A-N、系统代理单元610中的一个或多个集成存储器控制器单元614的集合、和专用逻辑608的备选处理器600。

因此，处理器600的不同实现可包括：1）CPU，带有是集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核）的专用逻辑608、以及是一个或多个通用核（例如，通用有序核、通用乱序核、所述两个核的组合）的核602A-N；2）带有是打算主要用于图形和/或科学（吞吐量）的大量的专用核的核602A-N的协同处理器；以及3）带有是大量的通用有序核的核602A-N的协同处理器。因此，处理器600可以是通用处理器、协同处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量许多集成核（MIC）协同处理器（包括30或更多核）、嵌入式处理器等等。处理器可被实现在一个或多个芯片上。使用多个处理技术的任何个（诸如例如，BiCMOS、CMOS、或NMOS），处理器600可被实现在一个或多个衬底上和/或是其部分。

存储器层级包括核604A-N内高速缓存的一个或多个级别、共享高速缓存单元606的集合或一个或多个、和耦合到集成存储器控制器单元614的集合的外部存储器（未示出）。共享高速缓存单元606的集合可包括一个或多个中级别高速缓存，诸如2级（L2）、3级（L3）、4级（L4）、或其它级别的高速缓存、最后级别高速缓存（LLC）、和/或其组合。虽然在一个实施例中，基于环的互连单元612将集成图形逻辑608、共享高速缓存单元606的集合、以及系统代理单元610/集成存储器控制器单元614互连，但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中，一个或多个高速缓存单元606和核602-A-N之间的一致性被维持。

在一些实施例中，核602A-N的一个或多个核有多线程的能力。系统代理610包括协调和操作核602A-N的那些组件。系统代理单元610可包括例如功率控制单元（PCU）和显示器单元。PCU可以是或包括为调节集成图形逻辑608和核602A-N的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或多个外部连接的显示器。

核602A-N可关于架构指令集是同质或异质的；那就是说，核602A-N的两个或更多核可有运行相同指令集的能力，而其它的核可有运行不同指令集或仅那个指令集的子集的能力。

示范性计算机架构

图7-10是示范性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型PC、个人数字助理、工程工作站、服务器、网络装置、网络中枢、交换机、嵌入式处理器、数字信号处理器（DSP）、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其它电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说，能够合并如本文中所公开的处理器和/或其它运行逻辑的极多种的系统或电子装置一般是适合的。

现在参考图7，所示出的是根据本发明的一个实施例的系统700的框图。系统700可包括被耦合到控制器中枢720的一个或多个处理器710、715。在一个实施例中，控制器中枢720包括图形存储器控制器中枢（GMCH）790和输入/输出中枢（IOH）750（其可在单独的芯片上）；GMCH 790包括存储器740和协同处理器745被耦合到的存储器和图形控制器；IOH 750将输入/输出（I/O）装置760耦合到GMCH 790。备选地，存储器和图形控制器之一或两者被集成在处理器（如本文中所描述的）内，存储器740和协同处理器745被直接耦合到处理器710、和带有IOH 750的单个芯片中的控制器中枢720。

附加处理器715的可选性质在图7中用断线来指代。每个处理器710、715可包括本文中所描述的处理核中的一个或多个，并可以是处理器600的某版本。

存储器740可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）、或所述两个存储器的组合。对于至少一个实施例，控制器中枢720经由诸如前侧总线（FSB）的多点总线、点对点接口、或类似连接795来与处理器710、715通信。

在一个实施例中，协同处理器745是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中，控制器中枢720可包括集成图形加速器。

物理资源710、7155之间关于包括架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。

在一个实施例中，处理器710运行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协同处理器指令。处理器710将这些协同处理器指令辨认为是应由附连的协同处理器745来运行的类型。因此，处理器710在协同处理器总线或其它互连上将这些协同处理器指令（或代表协同处理器指令的控制信号）发布到协同处理器745。协同处理器745接受并运行所接收的协同处理器指令。

现在参考图8，所示出的是根据本发明的实施例的第一更特定示范性系统800的框图。如图8中所示出的，多处理器系统800是点对点互连系统，并包括经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880中的每个可以是处理器600的某版本。在本发明的一个实施例中，处理器870和880相应是处理器710和715，而协同处理器838是协同处理器745。在另一个实施例中，处理器870和880相应是处理器710、协同处理器745。

处理器870和880被示出相应包括集成存储器控制器（IMC）单元872和882。处理器870还包括作为它的总线控制器单元的部分的点对点（P-P）接口876和878；类似地，第二处理器880包括P-P接口886和888。使用P-P接口电路878、888，处理器870、880可经由点对点（P-P）接口850来互换信息。如图8中所示出的，IMC 872和882将处理器耦合到相应存储器（就是存储器832和存储器834），其可以是本地附连到相应处理器的主存储器的部分。

使用点对点接口电路876、894、886、898，处理器870、880可各自经由各个P-P接口852、854与芯片集890互换信息。芯片集890可以可选地经由高性能接口892与协同处理器838互换信息。在一个实施例中，协同处理器838是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。

共享高速缓存（未示出）可被包括在任一处理器中或在两个处理器之外，又经由P-P互连与处理器连接，使得如果处理器被置于低功率模式中，则任一或两个处理器的本地高速缓存信息可被存储在共享高速缓存中。

芯片集890可经由接口896来耦合到第一总线816。在一个实施例中，第一总线816可以是外围组件互连（PCI）总线、或诸如PCI高速总线或另一I/O互连总线的总线，尽管本发明的范畴未被如此限制。

如图8中所示出的，各种I/O装置814可连同总线桥818被耦合到第一总线816，总线桥818将第一总线816耦合到第二总线820。在一个实施例中，诸如协同处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如，图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列、或任何其它处理器的一个或多个附加处理器815被耦合到第一总线816。在一个实施例中，第二总线820可以是低管脚计数（LPC）总线。各种装置可被耦合到第二总线820，包括例如键盘和/或鼠标822、通信装置827和诸如硬盘驱动器或其它大容量存储装置的存储单元828，其可包括指令/代码和数据830（在一个实施例中）。进一步地，音频I/O 824可被耦合到第二总线816。注意，其它架构是可能的。例如，替代图8的点对点架构，系统可实现多点总线或另一此类架构。

现在参考图9，所示出的是根据本发明的实施例的第二更特定示范性系统900的框图。图8和9中的相似元件标有相似附图标记，并且图8的某些方面已从图9中被省略以便避免使图9的其它方面难以理解。

图9示出了处理器870、880可相应包括集成存储器以及I/O控制逻辑（“CL”）972和982。因此，CL 972、982包括集成存储器控制器单元并包括I/O控制逻辑。图9示出了不仅存储器832、834被耦合到CL 872、882，而且I/O装置914也被耦合到控制逻辑872、882。遗留I/O装置915被耦合到芯片集890。

现在参考图10，所示出的是根据本发明的实施例的SoC 1000的框图。图6中的类似元件标有相似附图标记。同样，虚线框在更高级的SoC上是可选特征。在图10中，互连单元1002被耦合到：应用处理器1010，其包括一个或多个核102A-N的集合、高速缓存单元604A-N和共享高速缓存单元606；系统代理单元610；总线控制器单元616；集成存储器控制器单元614；一组或一个或多个协同处理器1020，其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器；静态随机存取存储器（SRAM）单元1030；直接存储器存取（DMA）单元1032；以及用于耦合到一个或多个外部显示器的显示器单元1040。在一个实施例中，协同处理器1020包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。

本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上运行的程序代码或计算机程序，所述可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入装置、和至少一个输出装置。

诸如图8中所示出的代码830的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或多个输出装置。为了此应用的目的，处理系统包括具有处理器（诸如例如：数字信号处理器（DSP）、微控制器、应用特定集成电路（ASIC）、或微处理器）的任何系统。

程序代码可以通过在高阶程序编程语言或面向对象的编程语言来实现以与处理系统通信。如果期望的话，则程序代码可还被实现在汇编或机器语言中。事实上，本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中，语言可以是编译或解译的语言。

至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性指令来实现，所述代表性指令表示处理器内的各种逻辑，其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示（已知为“IP核”）可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。

此类机器可读存储介质可包括由机器或装置所制造或形成的物品（article）的非暂态、有形的布置而没有限制，包括存储介质（诸如硬盘、包括软盘、光盘、紧致盘只读存储器（CD-ROM）、可重写紧致盘（CD-RW）、和磁光盘的任何其它类型的盘）、半导体装置（诸如只读存储器（ROM），诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）的随机存取存储器（RAM），可擦除可编程只读存储器（EPROM）、闪速存储器、电可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）、磁或光卡、或适合于存储电子指令的任何其它类型的介质）。

因此，本发明的实施例还包括非暂态、有形的机器可读介质，所述介质含有指令或含有设计数据，诸如硬件描述语言（HDL），其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。

仿真（包括二进制转化、代码变形等）

在一些情况中，指令转换器可被用于将指令从源指令集转换成目标指令集。例如，指令转换器可转化（例如，使用静态二进制转化、包括动态编译的动态二进制转化）、变形、仿真、或以其它方式将指令转换成要由核来处理的一个或多个其它指令。指令转换器被实现在软件、硬件、固件、或其组合中。指令转换器可在处理器上、离开处理器、或部分在处理器上而部单独开处理器。

图11是框图，其对照根据本发明的实施例的使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令。在所示出的实施例中，指令转换器是软件指令转换器，尽管备选地指令转换器可被实现在软件、固件、硬件、或其各种组合中。图11示出使用第一编译器1104，用高等级语言1102的程序可被编译以生成第一二进制代码（例如，x86）1106，其可由带有至少一个第一指令集核的处理器1116来原生运行。在一些实施例中，带有至少一个第一指令集核的处理器1116表示能如带有至少一个x86指令集核的Intel处理器一样大体上执行相同功能的任何处理器，这通过兼容地运行或以其它方式处理（1）Intel x86指令集核的指令集的实质部分，或（2）针对于在带有至少一个x86指令集核的Intel处理器上运行的应用或另一软件的对象（object）代码版本，以便取得大体上与带有至少一个x86指令集核的Intel处理器相同的结果。第一编译器1104表示可操作以生成第一指令集的二进制代码1106（例如，对象代码）的编译器，二进制代码1106能通过或不通过附加联接处理而在带有至少一个第一指令集核的处理器1116上被运行。类似地，图11示出了使用备选指令集编译器1108，用高等级语言1102的程序可被编译以生成备选指令集二进制代码1110，其可由不带有至少一个第一指令集核的处理器1114（例如，带有运行MIPSTechnologies of Sunnyvale，CA的MIPS指令集和/或运行ARM Holdings of Sunnyvale，CA的ARM指令集的核的处理器）来原生运行。指令转换器1112被用于将第一二进制代码1106转换成可由不带有第一指令集核的处理器1114来原生运行的代码。此被转换的代码不可能与备选指令集二进制代码1110相同，因为能够这样做的指令转换器难以做出；然而，被转换的代码将完成一般操作并由来自备选指令集的指令构成。因此，指令转换器1112表示软件、固件、硬件、或其组合，其通过仿真、模拟或任何其它过程而允许不具有第一指令集处理器或核的处理器或另一电子装置运行第一二进制代码1106。

用于数字信号处理指令的设备和方法

以下描述数字信号处理(DSP)指令。在一个实施例中，要执行DSP操作的电路和逻辑被集成在图4B中示出的执行引擎单元450内、上述各种核(例如，见图6和10中的核602A-N)内和/或图5A中示出的矢量单元510内。例如，各种源和目的地寄存器可以是图4B中的物理寄存器堆单元458和/或图3中的矢量寄存器310内的SIMD寄存器。以下描述的乘法电路、加法器电路、累加电路和其它电路可以集成在以上描述的架构的执行组件中，以示例且非限制的方式，包括图4B中的执行单元462。然而，应当注意，本发明的基本原理不限于这些特定架构。

本发明的一个实施例包括用于处理数字信号处理(DSP)指令的电路和/或逻辑。具体而言，一个实施例包括具有八个16x16比特乘法器和两个64比特累加器的乘法-累加(MAC)架构。以下描述的指令集架构(ISA)能处理关于128比特打包(8比特、16比特或32比特数据元素)整数、固定点和复数数据类型的各种乘法和MAC操作。此外，某些指令具有对于高效率快速傅立叶变换(FFT)和有限脉冲响应(FIR)滤波，以及通过移位、舍入和饱和操作对累加数据进行后期处理的直接支持。

新DSP指令的一个实施例使用基于VEX.128前缀的操作码编码并且处置数据的后期处理的若干SSE/SSE2/AVX指令与DSP ISA一起被使用。带有存储器操作数的VEX编码的128比特DSP指令可能具有宽松的存储器对准要求。

在一个实施例中，指令还支持各种各样整数和固定点数据类型，包括:

1）Q31数据类型，用于要求带有大于16比特的模数转换(ADC)和数模转换(DAC)的信号；

2）Q15数据类型，其在DSP算法中是常见的；

3）复数16比特数据类型；以及

4）复数32比特数据类型。

本文所描述的指令集架构以广泛范围的标准DSP(例如，FFT、滤波、模式匹配、相关性、多项式求值等)和统计操作(例如，均值、移动平均数、方差等)为目标。

本发明实施例的目标应用包括传感器、音频、用于计算机视觉的分类任务、和语音识别。本文所描述的DSP ISA包括广泛范围的指令，其适用于深层神经网络(DNN)、自动语音识别(ASR)、与卡尔曼滤波融合的传感器、其它主要DSP应用等。给定权重序列{w1，w2，…wk}和输入序列{x1，x2，x3，…xn}，许多图像处理、机器学习任务要求计算由yi=w1xi+w2xi+1+……………+wkxi+k-1所定义的结果序列{y1，y2，y3，…yn+1-k}。

图12示出了本发明实施例可在其上被实现的示范性处理器1255，其包括用于同时执行多个指令线程的多个核0-N。所示出的实施例包括解码器1230内的DSP指令解码电路/逻辑1231和执行单元1240内的DSP指令执行电路/逻辑1341。这些流水线组件可以响应于DSP指令的解码和执行来执行本文中所描述的操作。虽然图12中仅示出了单个核(核0)的细节，但是将理解的是，处理器1255的其它核中的每个可以包括类似组件。

在描述本发明实施例的具体细节之前，示范性处理器1255的各种组件的描述在以下被直接提供。多个核0-N中可每个包括用于执行存储器操作(例如，诸如加载/存储操作)的存储器管理单元1290、通用寄存器(GPR)1205的集合、矢量寄存器1206的集合和掩码寄存器1207的集合。在一个实施例中，多个矢量数据元素被打包到每个矢量寄存器1206中，矢量寄存器1206可以具有512比特宽，以用于存储两个256比特值、四个128比特值、八个64比特值、十六个32比特值等。然而，本发明的基本原理不限于任何具体大小/类型的矢量数据。在一个实施例中，掩码寄存器1207包括八个64比特操作数掩码寄存器，其用于对存储在矢量寄存器1206中的值执行比特掩码化操作(例如，实现为本文所描述的掩码寄存器k0-k7)。然而，本发明的基本原理不限于任何具体的掩码寄存器大小/类型。

每个核0-N可以包括专用的1级(L1)高速缓存1212和2级(L2)高速缓存1211，以用于根据指定的高速缓存管理策略来高速缓存指令和数据。L1高速缓存1212包括用于存储指令的单独指令高速缓存1220和用于存储数据的单独数据高速缓存1221。存储在各个处理器高速缓存内的指令和数据以高速缓存线的粒度进行管理，其可以是固定大小(例如，长度为64、128、512字节)。此示范性实施例的每个核具有指令取单元1210，用于从主存储器1200和/或共享3级(L3)高速缓存1216取指令。指令取单元1210包括各个众所周知的组件，包括：下一指令指针1203，用于存储要从存储器1200(或高速缓存之一)取的下一指令的地址；指令转化后备缓冲器(ITLB)1204，用于存储最近使用的虚拟到物理指令地址的映射，以提高地址转化的速度；分支预测单元1202，用于推断性预测指令分支地址；以及分支目标缓冲器(BTB)1201，用于存储分支地址和目标地址。

如提及的，解码单元1230包括DSP指令解码电路/逻辑1231，用于将本文中所描述的DSP指令解码到微操作或“uops”中，并且执行单元1240包括DSP指令执行电路/逻辑1241，用于执行DSP指令。写回/引退单元1250将执行的指令引退并写回结果。

用于执行打包有符号的双字的双乘法并且从累加的四字减去的实施例

本发明的一个实施例包括用于执行第一和第二源寄存器的每个中的两个打包有符号的双字的双乘法以生成两个有符号的四字值，然后将该四字值从来自第三源/目的地寄存器（即，作为源和目的地两者的寄存器）的累加值中减去。一个具体实现包括指令VPNMACDLLSQ xmm0、xmm1、xmm2/m128，其执行xmm1和xmm2/m128的两个较低双字（32-比特值）的矢量打包双有符号的相乘。两个所得到的四字（64-比特值）的每个然后从xmm0中的累加四字的每个中被减去。在一个实施例中，从该减法得到的65-比特累加器输出结果的每个被饱和并且被写到xmm0寄存器的两个四字中。一个实施例还包括指令VPNMACDLLQ xmm0、xmm1、xmm2/m128，其执行与VPNMACDLLSQ相同的操作但没有饱和。

此外，一个实现包括指令VPNMACDHHSQ xmm0、xmm1、xmm2/m128，其执行xmm1和xmm2/m128的两个高双字的矢量打包双有符号的相乘。两个有符号的四字结果的每个然后从来自xmm0的有符号的四字的每个中被减去。在一个实施例中，65-比特累加器输出的每个被饱和并且被写到xmm0寄存器的两个四字中。一个实施例还包括指令VPNMACDHHQ xmm0、xmm1、xmm2/m128，其执行与VPNMACDHHSQ相同的操作但没有饱和。

在一个实现中，xmm1、xmm2、和xmm3寄存器是128-比特打包数据寄存器，其存储双四字值或四个双字值并且xmm2/m128指示对应的128比特源值可以从存储器或寄存器（xmm2）中被检索到。

图13图示了针对示例性源寄存器和/或目的地寄存器（SRCx/DESTx）的示例性数据元素和比特分布。数据元素可以以如所图示的字（16比特）、双字（32比特）、和/或四字（64比特）被打包到源寄存器和/或目的地寄存器中。在本文所述的实现中，例如，第一和第二源寄存器存储双字（图示为元素B-A、D-C、F-E、和H-G）并且第三源寄存器存储四字（图示为低四字D-A和高四字H-E）。但是，本发明的基础原理不限于任何具体数据大小。

图14图示了用于执行指令的示例性架构，该指令用于执行在第一和第二源寄存器的每个中存储的两个打包双字的双打包乘法以生成两个四字值，所述四字值从来自第三源/目的地寄存器的两个四字值中被减去。该指令的一个实施例使用在寄存器SRC1 1401、和SRC2 1402中存储的双打包双字数据元素。出于解释的目的，图14中的字值被标识为16-比特元素A-H、双字值被标识为32-比特元素HG、FE、DC、和BA、以及四字值被标识为64-比特元素HE和DA。在本文所述的实现中，双字值是有符号的打包数据值。

在一个具体实现中，乘法器1405将每个四字的较低双字相乘。例如，来自SRC11401的有符号的双字数据元素BA与来自SRC2 1402的有符号的双字数据元素BA相乘以生成第一临时四字乘积并且来自SRC1的双字数据元素FE与来自SRC2 1402的双字数据元素FE相乘以生成第二临时四字乘积。第一和第二临时四字乘积可存储在一个或多个寄存器和/或存储器地点（未示出）中。

在一个实施例中，第一累加器1420将第一临时四字乘积从来自SRC3/DEST寄存器1460的四字值DA中减去并且第二累加器1421将第二临时四字乘积从来自SRC3/DEST寄存器1460的四字值HE中减去。在一个实现中，为执行该减法，第一和第二临时四字乘积可以被求反并且然后被加到存储的四字值（通过累加器1420-1421）。具体而言，使用二的补数求反可以被执行，其中第一和第二临时四字乘积的比特被倒置并且二进制1被加到所得到的值以求反该临时四字乘积。

来自每个累加器1420-1421的65-比特输出可以通过饱和电路1440-1441被分别饱和（如果必需的话），以生成两个（潜在饱和的）最终有符号的四字值。输出复用器1450将第一四字值路由到SRC3/DEST 1460的较低64比特（示出为图14中的DA）并且将第二四字值路由到SRC/DEST 1460的较高64比特（示出为HE）。由附加指令所生成附加四字乘积然后可以从SRC3/DEST 1460中累加的四字值中被减去或被加到SRC3/DEST 1460中累加的四字值。

在一个实施例中，没有使用饱和电路1440-1441。例如，VPMACDLLQ指令的一个实施例执行除了饱和以外的全部以上描述的操作。在此类情况下，来自累加器1420-1421的65比特输出的仅64比特可被存储在SRC3/DEST寄存器1460中（例如，可以忽略最高或最低有效比特）。

注意的是，图14中示出的某些组件（诸如，加法器网络1410-1411和饱和电路1440-1441）对于执行描述的操作并不是必需的。在此类情况中，假设数据仅传递通过这些电路而无需修改。

如提及的包括指令VPMACDHHSQ xmm0、xmm1、xmm2/m128的一个实施例，再次参考图14，其执行在SRC1 1401和SRC2 1402中每个四字中的两个高双字的矢量打包双有符号的相乘。具体而言，乘法器1405将来自SRC1 1401的有符号双字数据元素DC与来自SRC2 1402的有符号的双字数据元素DC相乘并且同时地将来自SRC1 1401的有符号的双字数据元素HG与来自SRC2 1402的有符号的双字数据元素HG相乘以生成第一和第二临时四字乘积。第一和第二临时四字乘积可以存储在一个或多个寄存器和/或存储器地点（未示出）中。

在一个实施例中，第一累加器1420将来自SRC3/DEST寄存器1460的四字值DA与第一临时四字乘积相减并且第二累加器1421将来自SRC3/DEST寄存器1460的四字值HE与第二临时四字乘积相减。

来自每个累加器1420-1421的65-比特输出可以通过饱和电路1440-1441被分别饱和（如果必需的话），以生成两个（潜在饱和的）最终有符号的四字值。输出复用器1450将第一最终有符号的四字值路由到SRC3/DEST 1460的较低64比特（图14中的DA）并且将第二最终有符号的四字值路由到SRC/DEST 1460的较高64比特（图14中的HE）。所得到的四字值然后可以由通过附加指令所生成的附加四字乘积来被累加。

在一个实施例中，没有使用饱和电路1440-1441。例如，VPNMACDHHQ指令的一个实施例执行除了饱和以外的全部以上描述的操作。在此类情况中，来自累加器1420-1421的65比特输出的仅64比特可被存储在SRC3/DEST寄存器1460中（例如，可以忽略最高或最低有效比特）。

VPNMACDHHQ指令的一个实施例由以下代码序列来表示：

TEMP0[63:0] ← (SRC2[63:32] * SRC3[63:32]);

TEMP1[63:0] ← (SRC2[127:96] * SRC3[127:96]);

TEMP2[63:0] ← (~TEMP0 [63:0] + 1'b1);

TEMP3[63:0] ← (~TEMP1 [63:0] + 1'b1);

DEST[63:0] ← AddToSignedQuadword(TEMP2[63:0], DEST[63:0]);

DEST[127:64] ← AddToSignedQuadword(TEMP3[63:0], DEST[127:64]);

VPNMACDHHSQ指令的一个实施例由以下代码序列来表示：

TEMP0[63:0] ← (SRC2[63:32] * SRC3[63:32]); (* 有符号的乘法 *)

TEMP1[63:0] ← (SRC2[127:96] * SRC3[127:96]);

TEMP2[63:0] ← (~TEMP0 [63:0] + 1'b1);

TEMP3[63:0] ← (~TEMP1 [63:0] + 1'b1);

DEST[63:0] ← AddSaturateToSignedQuadword(TEMP2[63:0], DEST[63:0]);

DEST[127:64] ← AddSaturateToSignedQuadword(TEMP3[63:0], DEST[127:64]);

VPNMACDLLQ指令的一个实施例由以下代码序列来表示：

TEMP0[63:0] ← (SRC2[31:0] * SRC3[31:0]);

TEMP1[63:0] ← (SRC2[95:64] * SRC3[95:64]);

TEMP2[63:0] ← (~TEMP0 [63:0] + 1'b1);

TEMP3[63:0] ← (~TEMP1 [63:0] + 1'b1);

DEST[63:0] ← AddToSignedQuadword(TEMP2[63:0], DEST[63:0]);

DEST[127:64] ← AddToSignedQuadword(TEMP3[63:0], DEST[127:64]);

VPNMACDLLSQ指令的一个实施例由以下代码序列来表示：

TEMP0[63:0] ← (SRC2[31:0] * SRC3[31:0]);

TEMP1[63:0] ← (SRC2[95:64] * SRC3[95:64]);

TEMP2[63:0] ← (~TEMP0 [63:0] + 1'b1);

TEMP3[63:0] ← (~TEMP1 [63:0] + 1'b1);

DEST[63:0] ← AddSaturateToSignedQuadword(TEMP2[63:0], DEST[63:0]);

DEST[127:64] ← AddSaturateToSignedQuadword(TEMP3[63:0], DEST[127:64]);

在以上代码中，操作~TEMP0[63:0]+1'b1和~TEMP1 [63:0]+1'b1通过倒置临时结果（如由“~”字符所指示）来求反临时四字乘积，并且然后加1（如由1'b1字符串所指示）。一次求反的减法是通过将求反的值加到第三源/目的地寄存器1460中存储的现存四字。

图15中图示了依照本发明的一个实施例的方法。该方法可以被实现在以上所述的处理器和系统架构的上下文内，但是不限于任何具体系统架构。

在1501，取指令，所述指令具有用于操作码和指示打包有符号的双字的第一和第二源操作数、指示打包有符号的四字的第三源操作数、以及指示打包有符号的四字的目的地操作数的字段。在1502，解码该指令以生成第一解码的指令（例如，到多个微操作中）。在1503，打包有符号的双字值被检索以用于第一和第二操作数（例如，来自存储器、数据高速缓存等）并且分别存储在第一和第二源寄存器中。如提及的，在一个实施例中，有符号的双字值被存储在128-比特打包数据源寄存器内的第一和第二四字的较高或较低32比特中。

在1504，执行所述解码的指令以同时地将来自第一源寄存器的每个四字的每个低打包有符号的双字值与来自第二源寄存器中的每个四字的对应低打包有符号的双字值分别相乘以生成第一和第二临时有符号的四字乘积。在图14中示出的示例中，例如，执行乘法DC*DC和HG*HG。第一和第二临时有符号的四字乘积然后被求反（例如，使用二的补数求反）并且该求反的值与来自第三源寄存器（如所提及的，其可能是与目的地相同的物理寄存器）的第一和第二有符号的四字进行累加以生成第一和第二有符号的四字结果。

一些实现/指令然后使第一和第二有符号的四字结果饱和，而其它不进行饱和。在任一情况中，在1505，在目的地寄存器（潜在地也是第三源寄存器）中将结果存储为打包有符号的四字。

图16中图示了依照本发明的一个实施例的方法。该方法可以被实现在以上所述的处理器和系统架构的上下文内，但是不限于任何具体系统架构。

在1601，取指令，所述指令具有用于操作码和指示打包有符号的双字的第一和第二源操作数、指示打包有符号的四字的第三源操作数、以及指示打包有符号的四字的目的地操作数的字段。在1602，解码该指令以生成第一解码的指令（例如，到多个微操作中）。在1603，打包有符号的双字值被检索以用于第一和第二操作数（例如，来自存储器、数据高速缓存等）并且分别存储在第一和第二源寄存器中。如提及的，在一个实施例中，由该指令处理的有符号的双字值被存储在128-比特打包数据源寄存器内的第一和第二四字的较高或较低32比特中。

在1604，执行所述解码的指令以同时地将来自第一源寄存器的每个四字的每个高打包有符号的双字值与来自第二源寄存器中的每个四字的对应高打包有符号的双字值分别相乘以生成第一和第二临时有符号的四字乘积。在图14中示出的示例中，例如，执行乘法DC*DC和HG*HG。第一和第二临时有符号的四字乘积然后被求反（例如，使用二的补数求反）并且该求反的值与来自第三源寄存器（如所提及的，其可能是与目的地相同的物理寄存器）的第一和第二有符号的四字进行累加以生成第一和第二有符号的四字结果。

一些实现/指令然后使第一和第二有符号的四字结果饱和，而其它不进行饱和。在任一情况中，在1605，在目的地寄存器（潜在地也是第三源寄存器）中存储结果作为打包有符号的四字。

本发明提供一组技术方案，如下：

1.一种处理器，包括：

解码器，所述解码器用于解码指令以生成解码的指令，所述指令包括操作码以及标识多个打包数据源寄存器和打包数据目的地寄存器的操作数；

第一源寄存器，所述第一源寄存器用于存储第一多个打包有符号的双字数据元素；

第二源寄存器，所述第二源寄存器用于存储第二多个打包有符号的双字数据元素；

第三源寄存器，所述第三源寄存器用于存储多个打包有符号的四字数据元素；

执行电路，所述执行电路用于执行所解码的指令，所述执行电路包括：

乘法器电路，所述乘法器电路用于将来自所述第一源寄存器的第一和第二打包有符号的双字数据元素与来自所述第二源寄存器的第三和第四打包有符号的双字数据元素分别相乘以生成第一和第二临时有符号的四字乘积，所述乘法器电路用于基于所述指令的所述操作码来选择所述第一、第二、第三、和第四有符号的双字数据元素；

求反电路，所述求反电路用于求反所述第一和第二临时有符号的四字乘积以生成第一和第二求反的有符号的四字乘积；

累加电路，所述累加电路用于将所述第一求反的有符号的四字乘积与从所述第三源寄存器读的第一打包有符号的四字值进行组合以生成第一累加的有符号的四字结果并且用于将所述第二求反的有符号的四字乘积与从所述第三源寄存器读的第二打包有符号的四字值进行组合以生成第二累加的有符号的四字结果；

目的地寄存器或所述第三源寄存器，所述目的地寄存器或所述第三源寄存器用于在第一有符号的四字数据元素位置中存储所述第一累加的有符号的四字结果并且用于在第二有符号的四字数据元素位置中存储所述第二累加的有符号的四字结果。

2.如技术方案1所述的处理器还包括：

饱和电路，所述饱和电路用于在所述目的地寄存器中存储之前使所述第一和第二累加的有符号的四字结果饱和。

3.如技术方案1所述的处理器，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

4.如技术方案1所述的处理器，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

5.如技术方案4所述的处理器，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

6.如技术方案5所述的处理器，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

7.如技术方案1所述的处理器，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

8.一种方法，包括：

解码指令以生成解码的指令，所述指令包括操作码以及标识多个打包数据源寄存器和打包数据目的地寄存器的操作数；

在第一源寄存器中存储第一多个打包有符号的双字数据元素；

在第二源寄存器中存储第二多个打包有符号的双字数据元素；

在第三源寄存器中存储多个打包有符号的四字数据元素；

将来自所述第一源寄存器的第一和第二打包有符号的双字数据元素与来自所述第二源寄存器的第三和第四打包有符号的双字数据元素分别相乘以生成第一和第二临时有符号的四字乘积，所述第一、第二、第三、和第四有符号的双字数据元素要基于所述指令的所述操作码来被选择；

求反所述第一和第二临时有符号的四字乘积以生成第一和第二求反的有符号的四字乘积；

将所述第一求反的有符号的四字乘积与从所述第三源寄存器读的第一打包有符号的四字值进行累加以生成第一累加的有符号的四字结果并且将所述第二求反的有符号的四字乘积与从所述第三源寄存器读的第二打包有符号的四字值进行累加以生成第二累加的有符号的四字结果；以及

在目的地寄存器或所述第三源寄存器中的第一有符号的四字数据元素位置中存储所述第一累加的有符号的四字结果并且在所述目的地寄存器或所述第三源寄存器中的第二有符号的四字数据元素位置中存储所述第二累加的有符号的四字结果。

9.如技术方案8所述的方法还包括：

在所述目的地寄存器中存储之前使所述第一和第二累加的有符号的四字结果饱和。

10.如技术方案8所述的方法，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

11.如技术方案8所述的方法，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

12.如技术方案11所述的方法，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

13.如技术方案12所述的方法，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

14.如技术方案8所述的方法，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

15.一种具有在其上存储的程序代码的机器可读介质，当由机器执行时，促使所述机器执行以下操作：

在第三源寄存器中存储多个打包有符号的四字数据元素；

在目的地寄存器或所述第三源寄存器中的第一有符号的四字数据元素位置中存储所述第一累加的有符号的四字结果，并且在所述目的地寄存器和/或所述第三源寄存器中的第二有符号的四字数据元素位置中存储所述第二累加的有符号的四字结果。

16.如技术方案15所述的处理器还包括：

17.如技术方案15所述的机器可读介质，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

18.如技术方案15所述的机器可读介质，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

19.如技术方案18所述的机器可读介质，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

20.如技术方案15所述的机器可读介质，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

21.如技术方案15所述的机器可读介质，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

在前述说明书中，本发明的实施例已参照其特定示范性实施例而被描述。然而，将明显的是，在不脱离如随附权利要求中所陈述的本发明的更广泛的精神和范围的情况下，可对其进行各种修改和更改。因此，要以说明性而不是限制性的意义考虑说明书和附图。

本发明的实施例可包含上面已描述的各种步骤。这些步骤可在机器可执行指令中实施，机器可执行指令可用于促使通用或专用处理器执行步骤。备选地，这些步骤可由含有用于执行步骤的硬连线逻辑的特定硬件组件执行，或者由编程的计算机组件和定制硬件组件的任何组合执行。

如本文中所述，指令可涉及硬件的特定配置，硬件诸如配置成执行某些操作或具有在以非暂态计算机可读介质实施的存储器中存储的预确定的功能性或软件指令的专用集成电路（ASIC）。因此，使用在一个或多个电子装置（例如，终端站、网络元素等）上存储和执行的代码和/或数据，能够实现图中示出的技术。此类电子装置使用计算机机器可读介质，诸如非暂态计算机机器可读存储介质（例如，磁盘、光盘、随机存取存储器、只读存储器、闪速存储器装置、相变存储器）和暂态计算机机器可读通信介质（例如，电气、光学、声学或其它形式的传播信号 - 诸如载波、红外信号、数字信号等），存储和传递（在内部和/或通过网络与其它电子装置一起进行）代码和数据。另外，此类电子装置一般包括耦合到诸如一个或多个存储装置（非暂态机器可读存储介质）、用户输入/输出装置（例如，键盘、触摸屏和/或显示器）和网络连接等一个或多个其它组件的一个或多个处理器的集合。该集合的处理器与其它组件的耦合一般是通过一个或多个总线和桥接器（也称为总线控制器）。携带网络业务的信号和存储装置分别表示一个或多个机器可读通信介质和机器可读存储介质。因此，给定电子装置的存储装置一般存储代码和/或数据以便在该电子装置的该集合的一个或多个处理器上执行。当然，可使用软件、固件和/或硬件的不同组合，实现本发明的实施例的一个或多个部分。通篇本详细描述中，处于解释的目的，陈述了许多特定的细节以便提供本发明的详尽理解。然而，本领域的技术人员将明白，可在没有某些这些特定细节的情况下实践本发明。在某些实例中，未详细阐述众所周知的结构和功能，以便避免混淆本发明的主题。因此，应根据随后的权利要求来判断本发明的范围和精神。

Claims

1.一种处理器，包括：

2.如权利要求1所述的处理器还包括：

3.如权利要求1或2所述的处理器，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

4.如权利要求1或3所述的处理器，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

5.如权利要求4所述的处理器，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

6.如权利要求5所述的处理器，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

7.如权利要求1或6所述的处理器，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

8.一种方法，包括：

在第三源寄存器中存储多个打包有符号的四字数据元素；

9.如权利要求8所述的方法还包括：

10.如权利要求8或9所述的方法，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

11.如权利要求8或10所述的方法，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

12.如权利要求11所述的方法，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

13.如权利要求12所述的方法，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

14.如权利要求8或13所述的方法，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

在第三源寄存器中存储多个打包有符号的四字数据元素；

在目的地寄存器或所述第三源寄存器中的第一有符号的四字数据元素位置中存储所述第一累加的有符号的四字结果并且在所述目的地寄存器和/或所述第三源寄存器中的第二有符号的四字数据元素位置中存储所述第二累加的有符号的四字结果。

16.如权利要求15所述的处理器还包括：

17.如权利要求15或16所述的机器可读介质，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

18.如权利要求15或17所述的机器可读介质，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。

19.如权利要求18所述的机器可读介质，其中响应于第一操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[31：0]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[95：64]中被分别选择。

20.如权利要求19所述的机器可读介质，其中响应于第二操作码，所述第一和第三打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[63：32]中被分别选择，并且所述第二和第四打包有符号的双字数据元素要从所述第一和第二源寄存器的打包有符号的双字地点[127：96]中被分别选择。

21.如权利要求15或20所述的机器可读介质，其中所述第一累加的有符号的四字结果和第二累加的有符号的四字结果要进一步与响应于一个或多个附加指令的执行而生成的一个或多个附加临时有符号的四字乘积进行累加。

22.一种设备，包括：

用于解码指令以生成解码的指令的部件，所述指令包括操作码、以及标识多个打包数据源寄存器和打包数据目的地寄存器的操作数；

用于在第一源寄存器中存储第一多个打包有符号的双字数据元素的部件；

用于在第二源寄存器中存储第二多个打包有符号的双字数据元素的部件；

用于在第三源寄存器中存储多个打包有符号的四字数据元素的部件；

用于将来自所述第一源寄存器的第一和第二打包有符号的双字数据元素与来自所述第二源寄存器的第三和第四打包有符号的双字数据元素分别相乘以生成第一和第二临时有符号的四字乘积的部件，所述第一、第二、第三、和第四有符号的双字数据元素要基于所述指令的所述操作码来被选择；

用于求反所述第一和第二临时有符号的四字乘积以生成第一和第二求反的有符号的四字乘积的部件；

用于将所述第一求反的有符号的四字乘积与从所述第三源寄存器读的第一打包有符号的四字值进行累加以生成第一累加的有符号的四字结果并且将所述第二求反的有符号的四字乘积与从所述第三源寄存器读的第二打包有符号的四字值进行累加以生成第二累加的有符号的四字结果的部件；以及

用于在目的地寄存器或所述第三源寄存器中的第一有符号的四字数据元素位置中存储所述第一累加的有符号的四字结果并且在所述目的地寄存器或所述第三源寄存器中的第二有符号的四字数据元素位置中存储所述第二累加的有符号的四字结果的部件。

23.如权利要求22所述的设备还包括：

用于在所述目的地寄存器中存储之前使所述第一和第二累加的有符号的四字结果饱和的部件。

24.如权利要求22或23所述的设备，其中所述第一、第二、第三、和第四打包有符号的双字数据元素是有符号的数据元素并且其中所述第一和第二累加的有符号的四字结果是有符号的数据元素。

25.如权利要求22或24所述的设备，其中所述第一、第二、和第三源寄存器包括配置成存储四个打包有符号的双字数据元素和/或两个打包有符号的四字数据元素的128-比特寄存器。