CN107003843A

CN107003843A - 用于对向量元素集合执行约减操作的方法和设备

Info

Publication number: CN107003843A
Application number: CN201580063820.8A
Authority: CN
Inventors: D.M.孔兹曼; C.J.休格斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-23
Publication date: 2017-08-01
Anticipated expiration: 2035-11-23
Also published as: WO2016105764A1; CN107003843B; US20160179537A1; KR102449616B1; EP3238044A1; EP3238044A4; JP6699845B2; TW201737062A; US9851970B2; KR20170097008A; TWI616817B; TWI575454B; JP2018500656A; TW201643705A

Abstract

描述了用于执行SIMD约减操作的设备和方法。例如，处理器的一个实施例包括：包含要约减的多个数据元素值的值向量寄存器；存储指示值向量寄存器中的哪些值相互关联的多个索引值的索引向量寄存器；通过组合来自值向量寄存器的数据元素值来对值向量寄存器内的数据元素值执行约减操作的单指令多数据（SIMD）约减逻辑，所述数据元素值如由索引向量寄存器中的索引值指示的那样相互关联；以及存储由SIMD约减逻辑生成的约减操作的结果的累加向量寄存器。

Description

用于对向量元素集合执行约减操作的方法和设备

背景。

技术领域

本发明一般涉及计算机处理器领域。更具体地，本发明涉及用于对向量元素集合执行约减（reduction）操作的方法和设备。

背景技术

指令集或指令集架构（ISA）是与编程有关的计算机架构的一部分，包括本机数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置以及外部输入和输出（I/O）。应当注意到，术语“指令”本文中一般指作为提供给处理器供执行的指令的宏指令，与作为处理器的解码器解码宏指令的结果的微指令或微操作相对。微指令或微操作可以配置成命令处理器上的执行单元执行操作以实现与宏指令关联的逻辑。

ISA与微架构是不同的，微架构是用于实现指令集的处理器设计技术的集合。具有不同微架构的处理器可以共享共同指令集。例如，Intel®Pentium 4处理器、Intel® Core™处理器和来自Sunnyvale CA的Advanced Micro Devices，Inc.的处理器实现几乎相同版本的x86指令集（具有已添加到较新版本的一些扩展），但是具有不同的内部设计。例如，可以使用众所周知的技术在不同的微架构中以不同的方式实现ISA的相同寄存器架构，包括专用物理寄存器、使用寄存器重命名机制（例如，使用寄存器别名表（RAT）、重排序缓冲器（ROB）和引退寄存器堆）的一个或多个动态分配的物理寄存器。除非另有说明，否则短语寄存器架构、寄存器堆和寄存器本文中用于指软件/编程器可见的东西以及方式（指令以所述方式指定寄存器）。在要求区分的地方，形容词“逻辑”、“架构”或“软件可见”将用于指示寄存器架构中的寄存器/堆，而不同的形容词将用于指定给定微架构（例如，物理寄存器、重排序缓冲器、引退寄存器、寄存器池）中的寄存器。

指令集包括一个或多个指令格式。给定的指令格式定义各种字段（位数、位的位置），以指定（除了其它事情）要执行的操作和要在其上执行该操作的（一个或多个）操作数。通过指令模板（或子格式）的定义进一步分解一些指令格式。例如，给定指令格式的指令模板可以被定义为具有指令格式的字段的不同子集（所包含的字段通常按相同的顺序，但是至少有一些具有不同的位的位置，因为包含有较少的字段）和/或被定义为具有不同解释的给定字段。给定的指令用给定的指令格式（并且如果定义，以该指令格式的给定一个指令模板）来表达并指定操作和操作数。指令流是特定的指令序列，其中序列中的每个指令是以指令格式（并且如果定义，该指令格式的指定模板的给定指令模板）的指令的出现。

附图说明

可以从结合以下附图的以下详细描述中获得对本发明的更好理解，其中：

图1A和1B是示出根据本发明的实施例的通用向量友好指令格式和其指令模板的框图；

图2A-D是示出根据本发明的实施例的示范特定向量友好指令格式的框图；

图3是根据本发明的一个实施例的寄存器架构的框图；以及

图4A是示出根据本发明的实施例的示范有序获取、解码、引退流水线和示范寄存器重命名、无序发布/执行流水线的框图；

图4B是示出根据本发明的实施例的要包括在处理器中的有序获取、解码、引退核和示范寄存器重命名、无序发布/执行架构核的示范实施例的框图；

图5A是单个处理器核连同到管芯上互连网络的其连接的框图；

图5B示出根据本发明的实施例的图5A中的处理器核的部分的扩充视图；

图6是根据本发明的实施例的具有集成存储器控制器和图形的多核处理器和单核处理器的框图；

图7示出根据本发明的一个实施例的系统的框图；

图8示出根据本发明的实施例的第二系统的框图；

图9示出根据本发明的实施例的第三系统的框图；

图10示出根据本发明的实施例的片上系统（SoC）的框图；

图11示出根据本发明的实施例的对比使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图12示出根据本发明的一个实施例的可以如何执行冲突检测；

图13示出用于对值向量寄存器内的数据元素执行约减操作的本发明的一个实施例；

图14示出如何使用索引值检测冲突以及如何存储在向量寄存器内的附加细节；

图15示出根据本发明的一个实施例的与约减操作的执行有关的附加细节；以及

图16示出根据本发明的一个实施例的方法。

具体实施方式

在下面的描述中，为了解释的目的，阐述了许多特定细节，以便提供对下面描述的本发明的实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些特定细节中的一些的情况下实践本发明的实施例。在其它实例中，以框图的形式示出众所周知的结构和装置，以避免模糊本发明实施例的基础原理。

示范处理器架构和数据类型

指令集包括一个或多个指令格式。给定指令格式定义各种字段（位的数量、位的位置），以指定（除了其它事情）要执行的操作（操作码）和（一个或多个）操作数（要在其上执行该操作）。通过指令模板（或子格式）的定义进一步分解一些指令格式。例如，给定指令格式的指令模板可定义成具有指令格式的字段的不同子集（包含的字段通常按相同顺序，但是至少一些字段具有不同的位位置，因为包含有较少字段）和/或定义成具有不同地解释的给定字段。因此，ISA的每个指令用给定指令格式（并且如果定义，以该指令格式的给定一个指令模板）来表达，并且ISA的每个指令包括用于指定操作和操作数的字段。例如，示范ADD指令具有特定操作码和指令格式，该指令格式包括用于指定该操作码的操作码字段和用于选择操作数的操作数字段（源1/目的地和源2）；并且此ADD指令在指令流中出现将在选择特定操作数的操作数字段中具有特定内容。称为高级向量扩展（AVX）（AVX1和AVX2）并使用向量扩展（VEX）编码方案的SIMD扩展集合已经、已经发行和/或出版（例如，参见2011年10月的Intel® 64 and IA-32 Architectures Software Developers Manual；以及参见2011年6月的Intel® Advanced Vector Extensions Programming Reference）。

示范指令格式

本文中描述的（一个或多个）指令的实施例可以用不同的格式实施。另外，下文详述示范系统、架构和流水线。（一个或多个）指令的实施例可在这类系统、架构和流水线上执行，但是不限于详述的那些系统、架构和流水线。

A. 通用向量友好指令格式

向量友好指令格式是适合用于向量指令的指令格式（例如，存在对于向量操作特定的某些字段）。尽管描述了其中通过向量友好指令格式支持向量和标量操作的实施例，但是备选实施例只使用向量友好指令格式的向量操作。

图1A-1B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图1A是示出根据本发明的实施例的通用向量友好指令格式及其类A指令模板的框图；而图1B是示出根据本发明的实施例的通用向量友好指令格式及其类B指令模板的框图。具体来说，为通用向量友好指令格式100定义类A和类B指令模板，这两个指令模板均包括非存储器访问105指令模板和存储器访问120指令模板。向量友好指令格式的上下文中的术语“通用”是指指令格式不束缚于任何特定的指令集。

尽管将描述其中向量友好指令格式支持以下格式的本发明的实施例：具有32位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）（并且因此，64字节向量由16个双字大小的元素或备选地由8个四字大小的元素组成）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节向量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节向量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节向量操作数长度（或大小）；备选实施例可支持具有更大、更小或不同数据元素宽度（例如，128位（16字节）数据元素宽度）的更大、更小和/或不同的向量操作数大小（例如，256字节向量操作数）。

图1A中的类A指令模板包括：1）在非存储器访问105指令模板内，示出有非存储器访问、全部舍入控制型操作110指令模板和非存储器访问、数据变换类型操作115指令模板；以及2）在存储器访问120指令模板内，示出有存储器访问、临时125指令模板和存储器访问、非临时130指令模板。图1B中的类B指令模板包括：1）在非存储器访问105指令模板内，示出有非存储器访问、写掩码控制、部分舍入控制型操作112指令模板和非存储器访问、写掩码控制、vsize型操作117指令模板；以及2）在存储器访问120指令模板内，示出有存储器访问、写掩码控制127指令模板。

通用向量友好指令格式100包括下文按图1A-1B所示的顺序列出的以下字段。

格式字段140－此字段中的特定值（指令格式标识符值）唯一地识别向量友好指令格式、以及因此处于向量友好指令格式的指令在指令流中的出现。因此，在对于只具有通用向量友好指令格式的指令集而言不需要此字段的意义上，此字段是可选的。

基本操作字段142－它的内容区分不同的基本操作。

寄存器索引字段144－如果源和目的地操作数在寄存器或存储器中，则此字段的内容直接或通过地址生成指定源和目的地操作数的位置。它们包括充足数量的位以从P×Q（例如，32×512、16×128、32×1024、64×1024）寄存器堆中选择N个寄存器。尽管在一个实施例中，N可以是多达三个源和一个目的地寄存器，但是备选实施例可支持更多或更少的源和目的地寄存器（例如，可支持多达两个源，其中这些源之一还充当目的地；可支持多达三个源，其中这些源之一还充当目的地；可支持多达两个源和一个目的地）。

修改符字段146－它的内容区分处于指定存储器访问的通用向量指令格式的指令的出现与不指定存储器访问的通用向量指令格式的指令的出现；即，在非存储器访问105指令模板和存储器访问120指令模板之间。存储器访问操作对存储器层级进行读和/或写（在一些情况下，使用寄存器中的值指定源和/或目的地地址），而非存储器访问操作不这样做（例如，源和目的地是寄存器）。尽管在一个实施例中，此字段也在三种不同方法之间选择以便执行存储器地址计算，但是备选实施例可支持更多、更少或不同的方法来执行存储器地址计算。

扩增操作字段150－它的内容区分除了基本操作之外各种不同操作中的哪个操作还要被执行。此字段是上下文特定的。在本发明的一个实施例中，此字段划分成类字段168、α字段152和β字段154。扩增操作字段150允许在单个指令而不是在2、3或4个指令中执行共同操作群组。

缩放字段160－它的内容允许对索引字段的内容进行缩放以便用于存储器地址生成（例如，用于使用2^缩放×索引+基本（2^scale*index+base）的地址生成）。

位移字段162A－它的内容用作存储器地址生成的一部分（例如，用于使用2^缩放×索引+基本+位移（2^scale*index+base+displacement）的地址生成）。

位移因子字段162B（注意，位移字段162A直接并置在位移因子字段162B上指示一个或另一个被使用）－它的内容用作地址生成的一部分；它指定要缩放存储器访问的大小（N）的位移因子，其中N是存储器访问中的字节数（例如，用于使用2^缩放×索引+基本+缩放的位移（2^scale*index+base+scaled displacement）的地址生成）。忽略冗余低阶位，并且因此，将位移因子字段的内容乘以存储器操作数总大小（N），从而生成最终位移以便在计算有效地址时使用。N的值由处理器硬件在运行时间基于完整操作码字段174（本文稍后描述的）和数据操纵字段154C确定。位移字段162A和位移因子字段162B是可选的（在不将它们用于非存储器访问105指令模板和/或不同实施例可只实现这两个中的仅一个或不实现这两个中的任一个的意义上）。

数据元素宽度字段164－它的内容区分要使用多个数据元素宽度中的哪个数据元素宽度（在一些实施例中对于所有指令；在其它实施例中只对于一些指令）。在如果只支持一个数据元素宽度而不需要此字段和/或使用操作码的某个方面支持数据元素宽度的意义上，此字段是可选的。

写掩码字段170－它的内容在每数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基本操作和扩增操作的结果。类A指令模板支持合并-写遮蔽，而类B指令模板支持合并和归零-写遮蔽。当合并时，向量掩码允许保护目的地中的任何元素集合以免在执行任何操作（由基本操作和扩增操作指定的）期间更新；在其它一个实施例中，在对应掩码位具有0的情况下，保存目的地的每个元素的旧值。反之，当归零时，向量掩码允许在执行任何操作（由基本操作和扩增操作指定的）期间将目的地中的任何元素集合归零；在一个实施例中，当对应掩码位具有0值时，将目的地的元素设置成0。此功能性的子集是控制所执行的操作的向量长度（即，所修改的元素从第一个到最后一个的跨距）的能力；然而，修改的元素不一定是连续的。因此，写掩码字段170允许部分向量操作，包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段170的内容选择多个写掩码寄存器中包含要使用的写掩码的一个写掩码寄存器（并且因此，写掩码字段170的内容间接地识别要执行的该遮蔽）的本发明的实施例，但是备选实施例替代地或另外允许掩码写字段170的内容直接指定要执行的遮蔽。

立即数（immediate）字段172－它的内容允许规定立即数。此字段是可选的（在以下意义上：在不支持立即数的通用向量友好格式的实现中此字段不存在并且在不使用立即数的指令中此字段不存在）。

类字段168－它的内容在不同类的指令之间区分。参考图1A-B，此字段的内容在类A和类B指令之间选择。在图1A-B中，用圆角方形来指示在字段中存在特定值（例如，在图1A-B中，对于类字段168分别为类A 168A和类B 168B）。

类A的指令模板

在类A的非存储器访问105指令模板的情况下，将α字段152解释为RS字段152A，其内容区分要执行不同扩增操作类型中的哪个扩增操作类型（例如，分别为非存储器访问、舍入型操作110和非存储器访问、数据变换类型操作115指令模板指定舍入152A.1和数据变换152A.2）；而β字段154区分要执行指定类型的操作中的哪个操作。在非存储器访问105指令模板中，不存在缩放字段160、位移字段162A和位移缩放字段162B。

非存储器访问指令模板－全部舍入控制型操作

在非存储器访问全部舍入控制型操作110指令模板中，将β字段154解释为舍入控制字段154A，其（一个或多个）内容提供静态舍入。尽管在所描述的本发明的实施例中，舍入控制字段154A包括抑制所有浮点异常（SAE）字段156和舍入操作控制字段158，但是备选实施例可支持可将这些概念编码到相同字段中，或者只具有这些概念/字段中的一个或另一个（例如，可只具有舍入操作控制字段158）。

SAE字段156－它的内容区分是否禁用异常事件报告；当SAE字段156的内容指示启用抑制时，给定指令不报告任何种类的浮点异常标志，并且不引发任何浮点异常处处置程序。

舍入操作控制字段158－它的内容区分执行舍入操作群组中的哪个操作（例如，向上舍入、向下舍入、向零舍入和最近舍入）。因此，舍入操作控制字段158允许在每指令基础上改变舍入模式。在处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段150的内容覆盖该寄存器值。

非存储器访问指令模板－数据变换类型操作

在非存储器访问数据变换类型操作115指令模板中，将β字段154解释为数据变换字段154B，其内容区分要执行多个数据变换中的哪个数据变换（例如，非数据变换、拌和、广播）。

在类A的存储器访问120指令模板的情况下，将α字段152解释为驱逐提示字段152B，其内容区分要使用驱逐提示中的哪个驱逐提示（在图1A中，分别为存储器访问、临时125指令模板和存储器访问、非临时130指令模板指定临时152B.1和非临时152B.2）；而将β字段154解释为数据操纵字段154C，其内容区分要执行多个数据操纵操作（又称为原语）中的哪个数据操纵操作（例如，非操纵；广播；源的向上转换；以及目的地的向下转换）。存储器访问120指令模板包括缩放字段160以及可选地包括位移字段162A或位移缩放字段162B。

向量存储器指令通过转换支持执行从存储器的向量加载以及到存储器的向量存储。正如常规向量指令一样，向量存储器指令以逐数据元素的方式从存储器传送数据和/或将数据传送到存储器，其中通过选择作为写掩码的向量掩码的内容规定实际传送的元素。

存储器访问指令模板－临时

临时数据是可能足够快再使用以从缓存获益的数据。然而，这是提示，并且不同处理器可以用不同方式实现它，包括完全忽略所述提示。

存储器访问指令模板－非临时

非临时数据是不可能足够快再使用以从第一级高速缓存中的缓存获益的数据，并且应当给予其驱逐优先级。然而，这是提示，并且不同处理器可以用不同方式实现它，包括完全忽略该提示。

类B的指令模板

在类B的指令模板的情况下，将α字段152解释为写掩码控制（Z）字段152C，其内容区分由写掩码字段170控制的写遮蔽应当是合并还是归零。

在类B的非存储器访问105指令模板的情况下，将β字段154的部分解释为RL字段157A，其内容区分要执行不同扩增操作类型中的哪个扩增操作类型（例如，分别为非存储器访问、写掩码控制、部分舍入控制型操作112指令模板和非存储器访问、写掩码控制、向量长度（VSIZE）型操作117指令模板指定舍入157A.1和VSIZE 157A.2）；而β字段154的剩余部分区分要执行指定类型的操作中的哪个操作。在非存储器访问105指令模板中，不存在缩放字段160、位移字段162A和位移缩放字段162B。

在非存储器访问、写掩码控制、部分舍入控制型操作110指令模板中，将β字段154的剩余部分解释为舍入操作字段159A，并禁用异常事件报告（给定指令不报告任何种类的浮点异常标志，并且不引发任何浮点异常处置程序）。

舍入操作控制字段159A－正如舍入操作控制字段158一样，它的内容区分执行舍入操作群组中的哪个舍入操作（例如，向上舍入、向下舍入、向零舍入和最近舍入）。因此，舍入操作控制字段159A允许在每指令基础上改变舍入模式。在处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段150的内容覆盖该寄存器值。

在非存储器访问、写掩码控制、VSIZE型操作117指令模板中，将β字段154的剩余部分解释为向量长度字段159B，其内容区分要执行多个数据向量长度中的哪个数据向量长度（例如，128、256或512字节）。

在类B的存储器访问120指令模板的情况下，将β字段154的部分解释为广播字段157B，其内容区分是否要执行广播型数据操纵操作；而将β字段154的剩余部分解释为向量长度字段159B。存储器访问120指令模板包括缩放字段160，并且可选地包括位移字段162A或位移缩放字段162B。

关于通用向量友好指令格式100，示出包括格式字段140、基本操作字段142和数据元素宽度字段164的完整操作码字段174。尽管示出其中完整操作码字段174包括所有这些字段的一个实施例，但是在不支持它们中的全部的实施例中，完整操作码字段174包括少于全部这些字段。完整操作码字段174提供操作代码（操作码）。

扩增操作字段150、数据元素宽度字段164和写掩码字段170允许在通用向量友好指令格式中在每指令基础上指定这些特征。

写掩码字段和数据元素宽度字段的组合创建了类型化指令，因为它们允许基于不同数据元素宽度应用掩码。

类A和类B内发现的各种指令模板在不同情形中都是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核可只支持类A、只支持类B或支持两个类。例如，预计用于通用计算的高性能通用无序核可只支持类B，预计主要用于图形和/或科学（吞吐量）计算的核可只支持类A，而预计用于两者的核可支持两者（当然，具有来自两个类的模板和指令的一些混合而并非具有来自两个类的所有模板和指令的核也在本发明的范围内）。并且，单个处理器可包括多个核，所有这些核支持相同类或在这些核中不同核支持不同类。例如，在具有独立的图形和通用核的处理器中，预计主要用于图形和/或科学计算的图形核之一可只支持类A；而通用核中的一个或多个核可以是具有预计用于通用计算的无序执行和寄存器重命名的高性能通用核，其只支持类B。不具有独立图形核的另一个处理器可包括支持类A和类B的一个或多个通用有序或无序核。当然，在本发明的不同实施例中，来自一个类的特征也可在另一类中实现。用高级语言编写的程序会放到（例如，及时编译或静态地编译到）各种不同的可执行形式中，包括：1）只具有由目标处理器支持以用于执行的一个或多个类的指令的形式；或2）具有使用所有类的指令的不同组合编写的备选例程并且具有基于由当前执行代码的处理器支持的指令选择这些例程用于执行的控制流代码的形式。

示范特定向量友好指令格式

图2是示出根据本发明的实施例的示范特定向量友好指令格式的框图。图2示出特定向量友好指令格式200，其在它指定字段的位置、大小、解释和顺序以及那些字段中的一些字段的值的意义上是特定的。特定向量友好指令格式200可用于扩展x86指令集，并且因此其中一些字段与现有x86指令集及其扩展（例如，AVX）中所使用的字段类似或相同。此格式保持与具有扩展的现有x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。示出来自图1的字段（来自图2的字段映射到来自图1的字段）。

应当理解，尽管为了说明的目的，在通用向量友好指令格式100的上下文中参考特定向量友好指令格式200描述本发明的实施例，但是除非在声明的情况下，本发明不限于特定向量友好指令格式200。例如，通用向量友好指令格式100预期各种字段的各种可能的大小，而特定向量友好指令格式200示出为具有特定大小的字段。作为特定示例，尽管将数据元素宽度164示为是特定向量友好指令格式200中的一位字段，但是本发明不限于此（即，通用向量友好指令格式100预期数据元素宽度字段164的其它大小）。

通用向量友好指令格式100包括下文按图2A中示出的顺序列出的以下字段。

EVEX 前缀（字节0-3）202－用四字节形式编码。

格式字段140（EVEX字节0，位[7:0]）－第一字节（EVEX字节0）是格式字段140，并且它包含0×62（在本发明的一个实施例中，用于区分向量友好指令格式的唯一值）。

第二-第四字节（EVEX字节1-3）包括提供特定能力的多个位字段。

REX字段205（EVEX字节1、位[7-5]）－由EVEX.R位字段（EVEX字节1，位[7]-R）、EVEX.X位字段（EVEX字节1，位[6]-X）和157 BEX字节1，位[5]-B）组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能性，并且使用1s补码形式编码，即，将ZMM0编码为1111B，将ZMM15编码为0000B。如本领域中已知的，指令的其它字段编码寄存器索引的较低三个位（rrr、xxx和bbb），以使得可通过添加EVEX.R、EVEX.X和EVEX.B而形成Rrrr、Xxxx和Bbbb。

REX’字段110－这是REX’字段110的第一部分，并且是用于编码扩展的32寄存器集合的较上16个或较下16个寄存器的EVEX.R’的位字段（EVEX字节1，位[4]-R’）。在本发明的一个实施例中，以位倒转格式存储此位连同如下文所指示的其它位，以区别于（以众所周知的x86 32位模式）BOUND指令，其真实操作码字节是62，但在MOD R/M字段（下面所描述的）中不接受MOD字段中的值11；本发明的备选实施例下面不以倒转格式存储此位和其它指示的位。值1用于编码较低的16个寄存器。换句话说，通过组合EVEX.R’、EVEX.R和来自其它字段的其它RRR形成R’Rrrr。

操作码映射字段215（EVEX字节1，位[3:0]-mmmm）－它的内容编码暗示的引导操作码字节（0F、0F 38或0F 3）。

数据元素宽度字段164（EVEX字节2，位[7]-W）－由符号EVEX.W表示。EVEX.W用于定义数据类型的粒度（大小）（32位数据元素或64位数据元素）。

EVEX.vvvv 220（EVEX字节2，位[6:3]-vvvv）－EVEX.vvvv的作用可包括如下：1）EVEX.vvvv编码以倒转（1s补码）形式指定的第一源寄存器操作数，并且对于具有2个或更多个源操作数的指令有效；2）EVEX.vvvv编码对于某些向量移位以1s补码形式指定的目的地寄存器操作数；或3）EVEX.vvvv不编码任何操作数，此字段保留并且应当包含1111b。因此，EVEX.vvvv字段220编码以倒转（1s补码）形式存储的第一源寄存器指定符的4个低阶位。取决于指令，要使用额外的不同EVEX位字段来将指定符大小扩展为32个寄存器。

EVEX.U 168类字段（EVEX字节2，位[2]-U）－如果EVEX.U=0，则它指示类A或EVEX.U0；如果EVEX.U=1，则它指示类B或EVEX.U1。

前缀编码字段225（EVEX字节2，位[1:0]-pp）－为基本操作字段提供附加位。除了为EVEX前缀格式的传统SSE指令提供支持以外，这还具有紧缩SIMD前缀的益处（而不是要求字节来表达SIMD前缀，EVEX前缀只要求2个位）。在一个实施例中，为了支持使用处于传统格式和处于EVEX前缀格式的SIMD前缀（66H、F2H、F3H）的传统SSE指令，将这些传统SIMD前缀编码到SIMD前缀编码字段中；并且在运行时间将其扩充到传统SIMD前缀中（在提供给解码器的PLA之前（因此，PLA可执行这些传统指令的传统和EVEX格式，而无需修改））。尽管更新的指令可直接使用EVEX前缀编码字段的内容作为操作码扩展，但是某些实施例以类似方式扩充以便实现一致性，但允许通过这些传统SIMD前缀来指定不同含义。备选实施例可重新设计PLA以支持2位SIMD前缀编码，并且因此不要求扩充。

α字段152（EVEX字节3，位[7]-EH；又称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制和EVEX.N；还用α示出）－如先前所描述的，此字段是上下文特定的。

β字段154（EVEX字节3、位[6:4]-SSS，又称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；还用βββ示出）－如先前所描述的，此字段是上下文特定的。

REX’字段110－这是REX’字段的剩余部分，并且是可用于编码扩展的32个寄存器的集合的较上16个或较下16个寄存器的EVEX.V’位字段（EVEX字节3，位[3]-V’）。以位倒转格式存储此位。值1用于编码较低的16个寄存器。换句话说，通过组合EVEX.V’和EVEX.vvvv而形成V’VVVV。

写掩码字段170（EVEX字节3，位[2:0]-kkk）－如先前所描述的，它的内容指定写掩码寄存器中的寄存器的索引。在本发明的一个实施例中，特定值EVEK.kkk=000具有暗示没有写掩码用于具体指令的特殊行为（这可以用多种方式实现，包括使用硬接线到所有的写掩码或绕过遮蔽硬件的硬件）。

真实操作码字段230（字节4）又称为操作码字节。此字段中指定操作码的部分。

MOD R/M字段240（字节5）包括MOD字段242、Reg字段244和R/M字段246。如先前所描述的，MOD字段242的内容在存储器访问和非存储器访问操作之间区分。Reg字段244的作用可总结为两种情形：编码目的地寄存器操作数或源寄存器操作数；或视作是操作码扩展而不用于编码任何指令操作数。R/M字段246的作用可包括如下：编码引用存储器地址的指令操作数；或编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基本（SIB）字节（字节6）－如先前所描述的，缩放字段150的内容用于存储器地址生成。SIB.xxx 254和SIB.bbb 256－先前已经关于寄存器索引Xxxx和Bbbb提到过这些字段的内容。

位移字段162A（字节7-10）－当MOD字段242包含10时，字节7-10是位移字段162A，并且它与传统32位位移（disp32）相同地工作，并且按字节粒度工作。

位移因子字段162B（字节7）－当MOD字段242包含01时，字节7是位移因子字段162B。此字段的位置与按字节粒度工作的传统x86指令集8位位移（disp8）相同。由于disp8进行了符号扩展，所以它只可在-128和127字节偏移之间寻址；在64字节高速缓存线方面，disp8使用8个位，这8个位可设置成只有4个真实有用的值-128、-64、0和64；由于通常需要更大范围，所以使用disp32；然而，disp32要求4个字节。与disp8和disp32相对照，位移因子字段162B是disp8的重新解释；当使用位移因子字段162B时，实际位移由位移因子字段的内容乘以存储器操作数存取的大小（N）决定。这种类型的位移称为disp8*N。这减少了平均指令长度（单个字节用于位移，但是具有大得多的范围）。这类压缩位移基于如下假定：即，有效位移是存储器访问的粒度的倍数，并且因此，无需编码地址偏移的冗余低阶位。换句话说，位移因子字段162B代替传统x86指令集8位位移。因此，以与x86指令集8位位移相同的方式编码位移因子字段162B（因此，ModRM/SIB编码规则没有变化），其中唯一例外是disp8过载为disp8*N。换句话说，编码规则或编码长度没有变化，但只是在通过硬件解释位移值方面有所变化（这需要将位移缩放存储器操作数的大小以便获得逐字节地址偏移）。

立即数字段172如先前所描述地那样操作。

完整操作码字段

图2B是示出根据本发明一个实施例的构成完整操作码字段174的特定向量友好指令格式200的字段的框图。具体来说，完整操作码字段174包括格式字段140、基本操作字段142和数据元素宽度（W）字段164。基本操作字段142包括前缀编码字段225、操作码映射字段215和真实操作码字段230。

寄存器索引字段

图2C是示出根据本发明一个实施例的构成寄存器索引字段144的特定向量友好指令格式200的字段的框图。具体来说，寄存器索引字段144包括REX字段205、REX’字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254和bbb字段256。

扩增操作字段

图2D是示出根据本发明一个实施例的构成扩增操作字段150的特定向量友好指令格式200的字段的框图。当类（U）字段168包含0时，它意味着EVEX.U0（类A 168A）；当它包含1时，它意味着EVEX.U1（类B 168B）。当U=0并且MOD字段242包含11（意味着非存储器访问操作）时，α字段152（EVEX字节3，位[7]-EH）解释为rs字段152A。当rs字段152A包含1（舍入152A.1）时，β字段154（EVEX字节3，位[6:4]-SSS）解释为舍入控制字段154A。舍入控制字段154A包含一位SAE字段156和两位舍入操作字段158。当rs字段152A包含0（数据变换152A.2）时，β字段154（EVEX字节3、位[6:4]-SSS）解释为三位数据变换字段154B。当U=0并且MOD字段242包含00、01或10（意味着存储器访问操作）时，α字段152（EVEX字节3，位[7]-EH）解释为驱逐提示（EH）字段152B，并且β字段154（EVEX字节3，位[6:4]-SSS）解释为三位数据操纵字段154C。

当U=1时，α字段152（EVEX字节3，位[7]-EH）解释为写掩码控制（Z）字段152C。当U=1并且MOD字段242包含11（意味着非存储器访问操作）时，β字段154的部分（EVEX字节3，位[4]-S0）解释为RL字段157A；当它包含1（舍入157A.1）时，β字段154的剩余部分（EVEX字节3，位[6:5]-S2-1）解释为舍入操作字段159A；而当RL字段157A包含0（VSIZE 157.A2）时，β字段154的剩余部分（EVEX字节3，位[6:5]-S2-1）解释为向量长度字段159B（EVEX字节3，位[6-5]-L1-0）。当U=1并且MOD字段242包含00、01或10（意味着存储器访问操作）时，β字段154（EVEX字节3、位[6:4]-SSS）解释为向量长度字段159B（EVEX字节3，位[6-5]-L1-0）和广播字段157B（EVEX字节3，位[4]-B）。

示范寄存器架构

图3是根据本发明一个实施例的寄存器架构300的框图。在所示实施例中，有32个512位宽的向量寄存器310；这些寄存器称为zmm0至zmm31。较低16个zmm寄存器的低阶256位覆盖在寄存器ymm0-16上。较低16个zmm寄存器的低阶128位（ymm寄存器的低阶128位）覆盖在寄存器xmm0-15上。特定向量友好指令格式200在这些覆盖的寄存器堆上操作，如下面在表中所示的。

换句话说，向量长度字段159B在最大长度和一个或多个其它较短长度之间选择，其中每个这类较短长度是之前长度的长度的一半；并且不具有向量长度字段159B的指令模板在最大向量长度上操作。此外，在一个实施例中，特定向量友好指令格式200的类B指令模板在压缩或标量单/双精度浮点数据和压缩或标量整数数据上操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；取决于实施例，较高阶数据元素位置留下与它们在指令之前一样或归零。

写掩码寄存器315－在所示实施例中，有8个写掩码寄存器（k0至k7），每个大小为64位。在备选实施例中，写掩码寄存器315的大小为16位。如先前所描述的，在本发明的一个实施例中，向量掩码寄存器k0可不用作写掩码；当会通常指示k0的编码用于写掩码时，它选择0xFFFF的硬接线写掩码，从而对该指令有效地禁用写遮蔽。

通用寄存器325－在所示实施例中，有16个64位通用寄存器，它们与现有x86寻址模式一起用于寻址存储器操作数。这些寄存器称为名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8至R15。

标量浮点栈寄存器堆（x87栈）345，其上混叠了MMX压缩整数平寄存器堆350－在所示实施例中，x87栈是用于使用x87指令集扩展对32/64/80位浮点数据执行标量浮点操作的8元素栈；而使用MMX寄存器来对64位压缩整数数据执行操作，并为在MMX和XMM寄存器之间执行的一些操作保持操作数。

本发明的备选实施例可使用更宽或更窄的寄存器。另外，本发明的备选实施例可使用更多、更少或不同的寄存器堆和寄存器。

D. 示范核架构、处理器和计算机架构

处理器核可按照不同方式、为了不同目的并且在不同的处理器中实现。例如，这类核的实现可包括：1）预计用于通用计算的通用有序核；2）预计用于通用计算的高性能通用无序核；3）预计主要用于图形和/或科学（吞吐量）计算的专用核。不同处理器的实现可包括：1）CPU，包括预计用于通用计算的一个或多个通用有序核和/或预计用于通用计算的一个或多个通用无序核；以及2）协处理器，包括预计主要用于图形和/或科学（吞吐量）的一个或多个专用核。这类不同的处理器导致不同的计算机系统架构，其可包括：1）与CPU分开的芯片上的协处理器；2）与CPU相同的封装中的独立管芯上的协处理器；3）与CPU相同的管芯上的协处理器（在这种情况下，这类协处理器有时称作专用逻辑，例如集成图形和/或科学（吞吐量）逻辑，或者称作专用核）；以及4）可在相同管芯上包括所描述的CPU（有时称作（一个或多个）应用核或（一个或多个）应用处理器）、上述协处理器和附加功能性的片上系统。接下来描述示范核架构，之后接着示范处理器和计算机架构的描述。

图4A是示出根据本发明的实施例的示范有序流水线和示范寄存器重命名、无序发布/执行流水线的框图。图4B是示出根据本发明的实施例的要包含在处理器中的有序架构核和示范寄存器重命名、无序发布/执行架构核的框图。图4A-B中的实线框示出有序流水线和有序核，而虚线框的可选添加示出寄存器重命名、无序发布/执行流水线和核。给定有序方面是无序方面的子集，将描述无序方面。

图4A中，处理器流水线400包括获取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度（又称作分派或发布）阶段412、寄存器读/存储器读阶段414、执行阶段416、写回/存储器写阶段418、异常处置阶段422和提交阶段424。

图4B示出包括耦合到执行引擎单元450并且均耦合到存储器单元470的前端单元430的处理器核490。核490可以是精简指令集计算（RISC）核、复杂指令集计算（CISC）核、超长指令字（VLIW）核或者混合或备选核类型。作为又一个选项，核490可以是专用核（例如诸如网络或通信核）、压缩引擎、协处理器核、通用计算图形处理单元（GPGPU）核、图形核等。

前端单元430包括耦合到指令高速缓存单元434的分支预测单元432，指令高速缓存单元434耦合到指令转化后备缓冲器（TLB）436，指令转化后备缓冲器（TLB）436耦合到指令获取单元438，指令获取单元438耦合到解码单元440。解码单元440（或解码器）可对指令进行解码，并且作为输出生成一个或多个微操作、微代码入口点、微指令、其它指令或其它控制信号，其从原始指令来解码或导出或者以其它方式反映原始指令。解码单元440可使用各种不同的机制来实现。适当机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。在一个实施例中，核490包括微代码ROM或其它介质，其存储某些宏指令的微代码（例如在解码单元440中或者否则在前端单元430内）。解码单元440耦合到执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450包括重命名/分配器单元452，其耦合到引退单元454和一个或多个调度器单元456的集合。（一个或多个）调度器单元456表示任何数量的不同调度器，包括保留站、中心指令窗口等。（一个或多个）调度器单元456耦合到（一个或多个）物理寄存器堆单元458。（一个或多个）物理寄存器堆单元458的每个表示一个或多个物理寄存器堆，其中不同的寄存器堆存储一个或多个不同的数据类型，例如标量整数、标量浮点、压缩整数、压缩浮点、向量整数、向量浮点、状态（例如，作为要执行的下一个指令的地址的指令指针）等。在一个实施例中，（一个或多个）物理寄存器堆单元458包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可提供架构向量寄存器、向量掩码寄存器和通用寄存器。（一个或多个）物理寄存器堆单元458被引退单元454重叠，以示出可实现寄存器重命名和无序执行的各种方式（例如使用（一个或多个）重排序缓冲器和（一个或多个）引退寄存器堆；使用（一个或多个）未来堆、（一个或多个）历史缓冲器和（一个或多个）引退寄存器堆；使用寄存器映射和寄存器池等）。引退单元454和（一个或多个）物理寄存器堆单元458耦合到（一个或多个）执行集群460。（一个或多个）执行集群460包括一个或多个执行单元462的集合和一个或多个存储器访问单元464的集合。执行单元462可执行各种操作（例如移位、加法、减法、乘法）并且对各种类型的数据（例如，标量浮点、压缩整数、压缩浮点、向量整数、向量浮点）来执行。虽然一些实施例可包括专用于特定功能或功能集合的多个执行单元，但是其它实施例可以仅包括一个执行单元或多个执行单元，其全部执行全部功能。（一个或多个）调度器单元456、（一个或多个）物理寄存器堆单元458和（一个或多个）执行集群460示为可能是多个的，因为某些实施例创建某些类型的数据/操作的独立流水线（例如标量整数流水线、标量浮点/压缩整数/压缩浮点/向量整数/向量浮点流水线和/或存储器访问流水线（其各具有其自己的调度器单元）、（一个或多个）物理寄存器堆单元和/或执行集群）－以及在独立存储器访问流水线的情况下，实现只有这个流水线的执行集群具有（一个或多个）存储器访问单元464的某些实施例）。还应当理解，在使用独立流水线的情况下，这些流水线的一个或多个可以是无序发布/执行，而其余的是有序的。

存储器访问单元464的集合耦合到存储器单元470，其包括耦合到数据高速缓存单元474（其耦合到2级（L2）高速缓存单元476）的数据TLB单元472。在一个示范实施例中，存储器访问单元464可包括加载单元、存储地址单元和存储数据单元，其各耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434还耦合到存储器单元470中的2级（L2）高速缓存单元476。L2高速缓存单元476耦合到一个或多个其它等级的高速缓存，并且最终耦合到主存储器。

作为示例，示范寄存器重命名、无序发布/执行核架构可按如下所述实现流水线400：1）指令获取438执行获取和长度解码阶段402和404；2）解码单元440执行解码阶段406；3）重命名/分配器单元452执行分配阶段408和重命名阶段410；4）（一个或多个）调度器单元456执行调度阶段412；5）（一个或多个）物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414；执行集群460执行执行阶段416；6）存储器单元470和（一个或多个）物理寄存器堆单元458执行写回/存储器写阶段418；7）各种单元可涉及异常处置阶段422；以及8）引退单元454和（一个或多个）物理寄存器堆单元458执行提交阶段424。

核490可支持一个或多个指令集（例如x86指令集（具有随较新版本已经添加的一些扩展）；Sunnyvale，CA的MIPS Technologies的MIPS指令集；Sunnyvale，CA的ARMHoldings的ARM指令集（具有可选附加扩展，例如NEON）），包括本文所描述的（一个或多个）指令。在一个实施例中，核490包括支持压缩数据指令集扩展的逻辑（例如AVX1、AVX2），由此允许由许多个多媒体应用所使用的操作使用压缩数据来执行。

应当理解，核可支持多线程（执行操作或线程的两个或更多并行集合），并且可按照多种方式这样做，包括时间分片的多线程、同时多线程（其中单个物理核为物理核同时多线程的线程的每个提供逻辑核）或者其组合（例如，诸如在Intel®超线程技术中的时间分片的获取和解码以及此后的同时多线程）。

虽然在无序执行的上下文中描述寄存器重命名，但是应当理解，寄存器重命名可用于有序架构中。虽然处理器的所示实施例还包括独立指令和数据高速缓存单元434/474和共享L2高速缓存单元476，但是备选实施例可具有用于指令和数据的单个内部高速缓存，例如诸如1级（L1）内部高速缓存或者多级内部高速缓存。在一些实施例中，系统可包括内部高速缓存以及核和/或处理器外部的外部高速缓存的组合。备选地，高速缓存全部可以在核和/或处理器外部。

图5A-B示出更特定的示范有序核架构的框图，该核会是芯片中的若干逻辑块其中之一（包括相同类型和/或不同类型的其它核）。逻辑块通过具有某种固定功能逻辑、存储器I/O接口和其它必要I/O逻辑（这取决于应用）的高带宽互连网络（例如环形网络）进行通信。

图5A是根据本发明的实施例的单个处理器核连同到管芯上互连网络502的其连接并且与其2级（L2）高速缓存504的本地子集的连接的框图。在一个实施例中，指令解码器500支持具有压缩数据指令集扩展的x86指令集。L1高速缓存506允许对高速缓冲存储器的低等待时间访问到标量和向量单元中。虽然在一个实施例中（为了简化设计），标量单元508和向量单元510使用独立寄存器集合（分别为标量寄存器512和向量寄存器514），以及在它们之间所传递的数据被写到存储器并且然后从1级（L1）高速缓存506读回，但是本发明的备选实施例可使用不同方式（例如使用单个寄存器集合，或者包括允许数据在两个寄存器堆之间来传递（而没有被写和读回）的通信路径）。

L2高速缓存504的本地子集是全局L2高速缓存（其划分为独立本地子集，每处理器核一个）的部分。各处理器核具有到L2高速缓存504的其自己的本地子集的直接访问路径。由处理器核所读的数据存储在其L2高速缓存子集504中，并且能够被与访问其自己的本地L2高速缓存子集的其它处理器核并行且快速地访问。由处理器核所写入的数据存储在其自己的L2高速缓存子集504中，并且如果需要则从其它子集来刷新。环形网络确保共享数据的相干性。环形网络是双向的，以便允许诸如处理器核、L2高速缓存和其它逻辑块之类的代理在芯片内相互通信。各环形数据路径每方向为1012位宽。

图5B是根据本发明的实施例的图5A中的处理器核的部分的扩充视图。图5B包括L1高速缓存504的L1数据高速缓存506A部分以及与向量单元510和向量寄存器514有关的更多细节。具体来说，向量单元510是16宽向量处理单元（VPU）（参见16宽ALU 528），其执行整数、单精度浮点和双精度浮点指令的一个或多个。VPU支持采用拌和（swizzle）单元520来拌和寄存器输入、采用数字转换单元522A-B的数字转换以及采用复制单元524对存储器输入的复制。写掩码寄存器526允许判定所产生向量写。

图6是根据本发明的实施例的可具有一个以上核、可具有集成存储器控制器并且可具有集成图形的处理器600的框图。图6中的实线框示出具有单个核602A、系统代理610、一个或多个总线控制器单元616的集合的处理器600，而虚线框的可选添加示出具有多个核602A-N、系统代理单元610中的一个或多个集成存储器控制器单元614的集合和专用逻辑608的备选处理器600。

因此，处理器600的不同实现可包括：1）具有作为集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核）的专用逻辑608和作为一个或多个通用核（例如通用有序核、通用无序核、两者的组合）的核602A-N的CPU；2）具有作为预计主要用于图形和/或科学（吞吐量）的大量专用核的核602A-N的协处理器；以及3）具有作为大量通用有序核的核602A-N的协处理器。因此，处理器600可以是通用处理器、协处理器或专用处理器，例如诸如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量集成众核（MIC）协处理器（包括30个或更多核）、嵌入式处理器等。处理器可在一个或多个芯片上实现。处理器600可以是一个或多个衬底的一部分和/或可使用多种工艺技术的任一种（例如诸如BiCMOS、CMOS或NMOS）在一个或多个衬底上实现。

存储器分级结构包括核内的一级或多级高速缓存、一个或多个共享高速缓存单元606的集合以及耦合到集成存储器控制器单元614的集合的外部存储器（未示出）。共享高速缓存单元606的集合可包括一个或多个中间级高速缓存，例如2级（L2）、3级（L3）、4级（L4）或者其它高速缓存级、末级高速缓存（LLC）和/或其组合。虽然在一个实施例中，基于环的互连单元612互连集成图形逻辑608、共享高速缓存单元606的集合和系统代理单元610/（一个或多个）集成存储器控制器单元614，但是备选实施例可将任何数量的众所周知技术用于互连这类单元。在一个实施例中，在一个或多个高速缓存单元606与核602A-N之间维持相干性。

在一些实施例中，核602A-N的一个或多个能够进行多线程。系统代理610包括协调和操作核602A-N的那些组件。系统代理单元610可包括例如功率控制单元（PCU）和显示单元。PCU可以是或者包括用于调节核602A-N和集成图形逻辑608的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核602A-N在架构指令集方面可以是同构或异构的；也就是说，核602A-N的两个或更多可以能够执行相同指令集，而其它核可以能够仅执行那个指令集的子集或者不同的指令集。

图7-10是示范计算机架构的框图。用于膝上型、台式、手持PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器，数字信号处理器（DSP）、图形装置、视频游戏装置、机顶盒、微控制器，蜂窝电话、便携媒体播放机、手持装置和各种其它电子装置的本领域已知的其它系统设计和配置也是适合的。一般来说，能够结合如本文所公开的处理器和/或其它执行逻辑的大量系统或电子装置一般是适合的。

现在参照图7，所示的是根据本发明的一个实施例的系统700的框图。系统700可包括一个或多个处理器710、715，其耦合到控制器集线器720。在一个实施例中，控制器集线器720包括图形存储器控制器集线器（GMCH）790和输入/输出集线器（IOH）750（其可在独立芯片上）；GMCH 790包括存储器和图形控制器（存储器740和协处理器745与其耦合）；IOH 750将输入/输出（I/O）装置760耦合到GMCH 790。备选地，存储器和图形控制器的一个或两者集成在处理器内（如本文所描述的），存储器740和协处理器745直接耦合到处理器710以及具有IOH 750的单个芯片中的控制器集线器720。

附加处理器715的可选性质在图7中采用虚线表示。各处理器710、715可包括本文所描述的处理核的一个或多个，并且可以是处理器600的某个版本。

存储器740可以是例如动态随机存取存储器（DRAM）、相变存储器（PCM）或者两者的组合。对于至少一个实施例，控制器集线器720经由多点总线（例如前侧总线（FSB））、点对点接口（例如快速通道互连（QPI））或者类似连接795与（一个或多个）处理器710、715进行通信。

在一个实施例中，协处理器745是专用处理器，例如诸如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器集线器720可包括集成图形加速器。

在包括架构、微架构、热、功率消耗特性等的优点的衡量标准范围方面，在物理资源710、715之间存在各种差异。

在一个实施例中，处理器710执行控制一般类型的数据处理操作的指令。嵌入在指令内的可以是协处理器指令。处理器710将这些协处理器指令辨别为应当由所附连的协处理器745来执行的类型。相应地，处理器710在协处理器总线或其它互连上向协处理器745发布这些协处理器指令（或者表示协处理器指令的控制信号）。（一个或多个）协处理器745接受和执行所接收的协处理器指令。

现在参照图8，所示的是根据本发明的实施例的第一更特定示范系统800的框图。如图8中所示的，多处理器系统800是点对点互连系统，并且包括经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880的每个可以是处理器600的某种版本。在本发明的一个实施例中，处理器870和880分别是处理器710和715，而协处理器838是协处理器745。在另一个实施例中，处理器870和880分别是处理器710、协处理器745。

示出处理器870和880，其分别包括集成存储器控制器（IMC）单元872和882。处理器870还包括作为其总线控制器单元的部分的点对点（P-P）接口876和878；类似地，第二处理器880包括P-P接口886和888。处理器870、880可使用点对点（P-P）接口电路878、888经由P-P接口850来交换信息。如图8中所示的，IMC 872和882将处理器耦合到相应存储器（即存储器832和存储器834），其可以是本地附连到相应处理器的主存储器的部分。

处理器870、880每个可使用点对点接口电路876、894、886、898经由单独P-P接口852、854与芯片集890交换信息。芯片集890可选地可经由高性能接口839与协处理器838交换信息。在一个实施例中，协处理器838是专用处理器，例如诸如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享高速缓存（未示出）可包含在处理器中或者两个处理器外部，但是仍然经由P-P互连与处理器连接，使得如果将处理器置入低功耗模式，则任一个或两个处理器的本地高速缓存信息可存储在共享高速缓存中。

芯片集890可经由接口896耦合到第一总线816。在一个实施例中，第一总线816可以是外设组件互连（PCI）总线或者例如PCI Express总线等总线或另一种第三代I/O互连总线（尽管本发明的范围并不这样限制）。

如图8中所示的，各种I/O装置814可连同总线桥818（其将第一总线816耦合到第二总线820）一起耦合到第一总线816。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的、加速器（例如，图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或者任何其它处理器之类的一个或多个附加处理器815耦合到第一总线816。在一个实施例中，第二总线820可以是低引脚数（LPC）总线。在一个实施例中，各种装置可耦合到第二总线820，包括例如键盘和/或鼠标822、通信装置827以及可包括指令/代码和数据830的诸如磁盘驱动器或其它大容量存储装置之类的存储单元828。此外，音频I/O 824可耦合到第二总线820。注意，其它架构是可能的。例如，代替图8的点对点架构，系统可实现多点总线或其它这类架构。

现在参照图9，所示的是根据本发明的实施例的第二更特定示范系统900的框图。图8和图9中的相同元件具有相同参考标号，并且从图9中省略图8的某些方面，以避免模糊图9的其它方面。

图9示出处理器870、880可分别包括集成存储器和I/O控制逻辑（“CL”）872和882。因此，CL 872、882包括集成存储器控制器单元，并且包括I/O控制逻辑。图9示出不仅存储器832、834耦合到CL 872、882，而且还示出I/O装置914也耦合到控制逻辑872、882。传统I/O装置915耦合到芯片集890。

现在参照图10，所示的是根据本发明的实施例的SoC 1000的框图。图6中的类似元件具有相同参考标号。而且，虚线框是更高级SoC上的可选特征。图10中，（一个或多个）互连单元1002耦合到：应用处理器1010，其包括一个或多个核202A-N和（一个或多个）共享高速缓存单元606的集合；系统代理单元610；（一个或多个）总线控制器单元616；（一个或多个）集成存储器控制器单元614；一个或多个协处理器1020的集合，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM）单元1030；直接存储器访问（DMA）单元1032；以及显示单元1040，用于耦合到一个或多个外部显示器。在一个实施例中，（一个或多个）协处理器1020包括专用处理器，例如诸如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文所公开的机制的实施例可通过硬件、软件、固件或者这类实现方式的组合来实现。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，其中可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入装置和至少一个输出装置。

例如图8中所示的代码830等程序代码可应用于输入指令，以执行本文所描述的功能并且生成输出信息。输出信息可按照已知方式应用于一个或多个输出装置。为了本申请的目的，处理系统包括具有例如诸如数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或者微处理器等处理器的任何系统。

程序代码可通过高级过程或面向对象的编程语言来实现，以便与处理系统进行通信。如果期望，程序代码也可通过汇编或机器语言来实现。实际上，本文所描述的机制在范围方面并不局限于任何具体编程语言。在任何情况下，语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可通过机器可读介质上存储的、表示处理器内的各种逻辑的代表性指令来实现，其在由机器读时使机器制作执行本文所描述的技术的逻辑。称作“IP核”的这类表示可存储在有形机器可读介质上，并且供应给各种客户或制造设施，以加载到实际制作逻辑或处理器的制作机器中。

这类机器可读存储介质可以非限制性地包括通过机器或装置所制造或形成的产品的非暂时性有形布置，包括：例如硬盘等存储介质；任何其它类型的盘，包括软盘、光盘、光盘只读存储器（CD-ROM）、可重写光盘（CD-RW）和磁光盘；半导体器件（例如只读存储器（ROM））、随机存取存储器（RAM）（例如动态随机存取存储器（DRAM）、静态随机存取存储器（SARAM））、可擦可编程只读存储器（EPROM）、闪速存储器、电可擦可编程只读存储器（EEPROM）、相变存储器（PCM）；磁卡或光卡；或者适合于存储电子指令的任何其它类型的介质。

相应地，本发明的实施例还包括非暂时性有形机器可读介质，其包含指令或者包含定义本文所描述的结构、电路、设备、处理器和/或系统特征的设计数据（例如硬件描述语言（HDL））。这类实施例又可称作程序产品。

在一些情况下，指令转换器可用来将指令从源指令集转换成目标指令集。例如，指令转换器可将指令转化（例如使用静态二进制转化、包括动态编译的动态二进制转化）、变形、仿真或者以其它方式将指令转换成将要由核来处理的一个或多个其它指令。指令转换器可通过软件、硬件、固件或其何组合来实现。指令转换器可以在处理器上、处理器外或者部分处理器上和部分处理器外。

图11是根据本发明的实施例的与使用软件指令转换器来将源指令集中的二进制指令转换成目标指令集中的二进制指令相对照的框图。在所示实施例中，指令转换器是软件指令转换器，尽管备选地，指令转换器可通过软件、固件、硬件或者其各种组合来实现。图11示出以高级语言1102的程序可使用x86编译器1104来编译，以生成x86二进制代码1106，其可由具有至少一个x86指令集核的处理器1116本机执行。具有至少一个x86指令集核的处理器1116表示任何处理器，其能够通过兼容地执行或者以其它方式处理下列方面来执行与具有至少一个x86指令集核的Intel处理器基本上相同的功能：（1）Intel x86指令集核的指令集的相当大部分；或者（2）针对在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的对象代码版本，以便实现与具有至少一个x86指令集核的Intel处理器基本上相同的结果。x86编译器1104表示可操作以生成x86二进制代码1106（例如对象代码）（其能够在具有或没有附加链接处理的情况下在具有至少一个x86指令集核的处理器1116上执行）的编译器。类似地，图11示出以高级语言1102的程序可使用备选指令集编译器1108来编译，以便生成备选指令集二进制代码1110，其可由没有至少一个x86指令集核的处理器1114（例如具有执行Sunnyvale，CA的MIPS Technologies的MIPS指令集和/或执行Sunnyvale，CA的ARM Holdings的ARM指令集的核的处理器）本机执行。指令转换器1112用来将x86二进制代码1106转换为可由没有x86指令集核的处理器1114本机执行的代码。这个转换的代码不可能与备选指令集二进制代码1110是相同的，因为能够进行这个操作的指令转换器难以制作；然而，转换的代码将实现一般操作，并且由来自备选指令集的指令来组成。因此，指令转换器1112表示软件、固件、硬件或者其组合，其通过仿真、模拟或者任何其它过程允许处理器或者没有x86指令集处理器或核的其它电子装置执行x86二进制代码1106。

用于对向量元素集合执行约减操作的方法和设备

“稀疏更新”是重要的算法模式（对于其向量化会是有益的）。这里，可以在间接寻址的存储器位置执行读-修改-写操作（例如，加载A[B[i]]、添加东西到其、以及将值存储回A[B[i]]中）。向量化此类型的操作涉及执行收集-修改-分散操作。作为示例，这类操作可以涉及经由收集操作对i的16个连续值执行形式A[B[i]]的16个间接载入、执行单指令多数据（SIMD）计算和分散新的值回到存储器。然而，此向量化假定单个收集/分散指令将访问每个存储器位置不超过一次。例如，如果B[i]的两个连续值相同，则第二个读-修改-写取决于第一个。因此，以SIMD方式同时进行这些操作违反这些相关性，并可能引起不正确的结果。

本发明的一个实施例利用诸如VPCONFLICT的冲突检测指令，其比较向量寄存器内的元素以检测重复。特别地，该指令可以测试其向量寄存器输入的每个元素（为了与该输入的所有较早元素（例如，更靠近最低有效位（LSB）的所有元素）的相等性），并将这些比较的结果作为位向量的集合输出。冲突检测指令提供确定元素是否具有涉及相同SIMD寄存器内的其它元素的数据相关的方法。

图12示出具有包括数据元素1200-1203的集合的输入向量寄存器1220和存储冲突检测指令的结果1210-1213的输出寄存器1230的示例。在操作中，冲突检测指令将数据元素1200-1203中的每一个与其之前的数据元素进行比较。第一元素1200不与另一个元素进行比较（因为其之前没有元素），并且结果被存储为输出向量寄存器1230中的第一元素中的0000，指示没有冲突。第二元素1201与第一元素1200进行比较。因为元素不相等，结果也是存储在输出向量寄存器1211的第二位置1211中的0000（无冲突）。因为第三元素1202等于第一元素1200，所以0001的结果被存储在输出向量寄存器1230的第三输出位置1212中。在一个实施例中，0001是二进制值，并且结果的第一位置中的1指示第三元素1202等于输入向量寄存器1220的第一元素1200。最后，因为第四元素1203等于第一元素1200和第三元素1202两者，所以在输出向量寄存器1230的第四位置1213中设置0101值（其中第一位的位置中的第一个1指示与第一数据元素1200的相等性，以及第三位的位置中的第二个1指示与第三数据元素1202的相等性）。

在SIMD寄存器的单独元素内识别重复值的能力允许在跨SIMD寄存器元素的可能的数据相关性可能以其它方式阻止向量化的情况下对标量代码进行向量化。例如，可以通过确定具有唯一索引的元素的子集、以SIMD方式计算那些、并且然后循环回重新尝试剩余元素来加强相关性，从而将对具有相同索引的元素的计算序列化。在上面示例中，前两个元素会被同时计算，之后是第三元素通过本身（从第一元素的输出值检索输入值）以及最后一个元素通过本身（从第三元素的输出值检索输入值）。此方法在以下示例循环中表示，该循环对N个数据元素的数组执行操作（“计算（Compute）”），并被向量化以每次迭代对SIMD_WIDTH元素进行操作：

为简洁起见，已经省略了对Compute_Mask_of_Unique_Remaining_Indices函数的讨论。

虽然上面代码示例是向量化的，但循环的向量化版本有时可以引起比其标量等价物更低的性能，使得难以预测向量化是否将是有益的。特别地，通过向量化提供的性能提升取决于索引SIMD寄存器（索引）中有多少元素具有重复值。当存在任何给定索引的几个实例时，即当普通情况是要具有while循环的几次迭代时，该方法工作良好。然而，当存在相同索引的许多实例时，执行时间可能比标量执行更差，因为“while”循环迭代的最大数量等于SIMD宽度。

为了解决这些问题，下面描述的本发明的实施例包括对SIMD寄存器内的元素并行地执行多个树约减（每唯一索引值一个约减）的技术。此方法至多具有log2SIMD_WIDTH个计算步骤。特别地，本发明的某些实施例能够跨具有SIMD寄存器内的任意排序的值的集合并行地执行任意数量的二进制树约减。冲突检测指令（例如VPCONFLICT）的信息丰富的输出可以被用于迭代地识别并组合来自具有相同索引的SIMD元素对的部分结果。新的指令VPOPCNT可用于此方法，因为它允许共享索引的每个元素被排序。VPOPCNT指令的一个实施例对每个SIMD元素中的设置位（即1’s）数进行计数。

在单个SIMD寄存器内，可能存在需要经由一个或多个约减模式组合的多个值。例如，应用可以具有需要组合的单个SIMD寄存器内的值{a0，b0，a1，a2，b1，a3，a4，b2}的集合，使得所有'a'值被求和，并且所有'b'值被求和，仅产生两个值{a0 + a1 + a2 + a3 + a4，b0 + b1 + b2}。尽管存在多种方法来进行此操作，但是通过仅两个输入（例如，处理器中的加法指令）给出约减操作的最有效方式是跨SIMD寄存器的元素并行地执行多个二进制树约减。

本发明的实施例解决了跨向量寄存器的通道执行多个寄存器中约减的问题，而不必进行（A）将每个独立约减的约减操作序列化，或（B）对关联“索引”向量内每个唯一索引值的实例的数量进行计数。这可以通过生成第一输出（其识别独立的约减）以及生成第二输出（其可以用于识别二进制约减树中的左子项对右子项）来实现，如下面详细描述的。在一个实施例中，使用VPCONFLICT指令生成第一输出，并且使用VPOPCNT指令生成第二输出。

如图13中所示的，SIMD树约减逻辑1305的一个实施例采用两个向量寄存器作为输入：包含要约减（例如求和）的值的“值”向量寄存器1302和指示“值”向量中的哪些值（或通道）相互关联“索引”向量寄存器1301。如果“索引”向量寄存器1301中的两个通道具有相等的值，则它们涉及相同的树约减。如果“索引”向量寄存器1302中的两个通道具有不同的值，则它们涉及独立的约减。SIMD树约减逻辑1305的输出是包含最左边通道（即最接近最高有效字节）（其包含与该约减关联的索引值的实例）中的每个约减的结果的累加向量寄存器1303。

虽然本文公开的实施例利用其中每个寄存器的最高有效位/字节在“左”且最低有效位/字节在“右”的布置，但是本发明的基础原理不限于这类布置。例如，在备选实施例中，最低有效位/字节在“左”，最高有效位/字节在“右”。对于此实施例，本公开中对“左”或“最左”的任何引用可以通过“右”或“最右”来替换，反之亦然。

在图13中的示例中，索引向量寄存器1301内的值A、B、C和D表示任意（唯一）整数值。图13还示出如何通过每个迭代（迭代0-2被示出）来自值向量1302的值的不同集合被SIMD树约减逻辑求和以执行约减操作。例如，索引向量寄存器1301中的A的每个实例识别要约减的值向量寄存器中的值的集合：d15、d14、d8、d3和d0。在最终迭代之后，将这些值求和以形成存储在累加向量1303的最左边数据元素位置（与索引向量中最左边的A的位置一致）中的单个值α。使用与来自索引向量（d13、d11、d10、d9、d6、d5、d4和d1）的每个实例B关联的值以相同的方式形成β的值，并且将β的最终值存储在来自累加向量寄存器1303中的左边的第三数据元素位置（与索引向量中最左边B的位置一致）。

以下伪代码表示可以由SIMD树约减逻辑1305基于索引值执行的寄存器中树约减：

在操作中，向量寄存器“value_vec”（值向量寄存器1302）包含要约减的值，并且向量寄存器“index_vec”（索引向量寄存器1301）包含这些值的索引或关联。例如，在一个实施例中，“index_vec”内的相等值意味着“value_vec”中的相应值属于相同的约减。VEC_OP函数表示会通常在约减中使用的任何操作，其通常是交换和关联的数学操作，例如整数加法。带括号的左侧值（例如“cnt_vec{eo_mask}”）表示在掩码下执行的向量操作。对于“i_vec{eo_mask}”操作，任何不活动通道都应该被归零。对于“accum_vec{eo_mask}”操作，任何不活动的通道应保留“accum_vec”的先前值。

一旦完成，“accum_vec”向量包含并行发生的所有约减的结果，对于包含在“index_vec”中的每个唯一值为一个。每个约减的结果将在“accum_vec”寄存器1303的最左边通道（最接近MSB），其具有与“index_vec”中的约减关联的索引值（如图13中所示的）。

在“索引”向量中的所有值是唯一的（即，“无冲突”情况）的情况下，这些技术的成本是最小的（VPCONFLICT和将为假的初始的“while”循环条件测试以及环回分支的成本）。在“索引”向量中的所有值相同（即“最冲突”的情况）的情况下，这些技术将迭代“log2N”次，其中N是向量宽度。这与上面提到的之前实现相反，其会替代地执行N次迭代，因为每个约减被有效地序列化（例如，在每个约减中一次累加一个值/通道）。一般而言，本发明的实施例执行‘O（log2N）’迭代，以跨“值”向量1302并行地执行任意数量的约减，其中N是具有最多实例的“索引”向量1301中的值的实例的数量。例如，在图13中，值“B”在“索引”向量中具有最多实例，具有总共N = 8个实例（操作A的5个实例、C的1个实例以及D的2个实例）。对于此示例，本文描述的技术会迭代3次（log2 N），而先前的算法会迭代8次（N）。

现在将参考图14和15描述特定示例。为了清楚起见，此详细示例执行遵循图13中所示的示例。如本文所使用的，最低有效位（LSB）和最低有效通道（LSL）是所示出的最右边的值（例如，向量寄存器= {通道15，通道14，...，通道0}）。对于掩码值，为了清楚起见，使用下划线来直观地将位分组。

输入值连同第一冲突检测操作（例如，VPCONFLICT）的结果如下，其中A、B、C和D表示唯一和任意的整数值，并且d0至d15表示约减涉及的值：

图14示出在输出向量寄存器1402内创建初始“vc_vec”值的冲突检测操作（例如，用VPCONFLICT实现的）。在所示实施例中，输出向量寄存器1402存储16个数据元素，每个与存储在索引数据寄存器内的索引数据元素之一关联，其中元素的值表示与对应的通道关联的较早的冲突。如上面提到的，将索引向量寄存器1301中的每个元素与更接近最低有效通道/位的所有其它元素进行比较。因此，将位置＃4（示例中的B）中的索引数据元素与位置＃3（A）、位置＃2（D）、位置＃1（B）和位置＃0（A）中的数据元素比较。如果数据元素等于更靠近最低有效通道的任何数据元素，则在输出向量寄存器1402内设置对应的位。因此，例如，来自索引向量寄存器1301中的左边的第二个B生成输出11001110010，其中1指示索引向量寄存器1301中的其它B的位置。如所示的，此值然后被存储在与对于其执行比较的B的位置对应的位置的输出向量寄存器1402中（在该示例中由十六进制值0x0672表示）。对存储在索引向量寄存器1301中的每个索引值执行类似的操作。

接下来，只要在输出向量寄存器1302中的“vc_vec”值中设置了至少一个位，则迭代上面阐述的“while”循环。为了所示示例，约减操作是加法（例如，VEC_OP = vpadd）。因此，迭代0的结果如下：

图15示出如何为迭代0确定pc_vec值并将其存储为向量寄存器1501内的数据元素。特别地，pc_vec向量寄存器1501内的每个数据元素对应于索引向量寄存器1301中的索引，并且具有等于在索引向量寄存器1301中更靠近最低有效通道/位存储的索引值的实例数量的值。例如，pc_vec向量寄存器1501中最左边的值4与索引向量寄存器1301中的最左边的索引A的实例关联，并且指示索引向量寄存器1301中存在索引A的4个其它实例（即，在A的最左边实例的右边）。类似地，pc_vec向量寄存器1501中的值7与位于索引向量寄存器中的对应位置（即，来自在所示示例中的左边的2个位置）中的索引B的实例关联。值7指示在索引向量寄存器1301中存在索引B的7个实例存储在右边。

另外，图15示出eo_mask寄存器1502内的位如何更新。特别地，与每个索引值关联的位被设置成1，以指示在索引向量寄存器1301内右边的该索引值的奇数个其它实例。因此，对于给定的索引值，与该索引值关联的位将在eo_mask寄存器1502内在1和0之间交替。

在迭代0之后，由于在输出向量寄存器1402中仍然存在设置在“vc_vec”值中的位，因此执行另一次迭代（“迭代1”）：

在迭代1之后，由于在输出向量寄存器1402中仍然存在设置在“vc_vec”值中的位，所以执行另一次迭代：

由于输出向量寄存器1402中的“vc_vec”现在包含全部零，所以循环退出。循环的结果如下，其中对于引用重复输入：

值在index_vec中加粗，以突出哪个通道表示最终的约减结果，并且值在上面的accum_vec中加粗以匹配index_vec的粗体。注意到，每个约减的结果在具有与该约减关联的索引值的最左边的通道中。在此示例中，最左边的索引值“A”与结果“d15+d14+d8+d3+d0”（通道15）关联、最左边的索引值“B”与结果“d13+d11+d10+d9+d6+d5+d4+d1”（通道13）关联、最左边的索引值“C”与结果“d12”（通道12）关联、并且最左边的索引值“D”与结果“d7+d2”（通道7）关联。这匹配图13中所呈现的最终状态，标记为“在迭代2之后”。

由于分散指令定义，使结果在最左边通道（或最高有效通道（MSL））中对于一些架构（例如，诸如IA）是有利的。在分散中的多个元素具有相同的索引（即写到相同的存储器位置）的情况下，最左边通道（MSL）的值覆盖任何其它值。虽然对于该特定实施例优选最左边的，但是本发明的基础原理不限于对于结果使用最左边通道。给定索引值的结果可以存储在与该索引值关联的最左边或最右边通道中，因为当重复发生时分散指令通常被定义为通过优选与该索引值关联的最左边或最右边的值来给出确定性结果。在上面呈现的示例代码中，与给定索引值关联的最左边通道是优选的。

在图16中示出根据本发明的一个实施例的方法。该方法可以在上面描述的架构的上下文中实现，但不限于任何特定的系统或处理器架构。

在1601，跨索引通道检测冲突（例如，进一步与最低有效位/通道的相等索引值），并将结果存储在VC_VEC寄存器中。例如，在一个实施例中，使用诸如VPCONFLICT的冲突检测指令（参见例如图12和关联的文本）来检测冲突。

在1602，关于是否存在任何冲突进行确定。这可以例如通过检查VC_VEC是否具有当前设置的任何位来确定。如果没有，则过程终止。如果是这样，则在1603，具有相同索引值的通道被标记为在它们相应的约减树中的左和右子项。在一个实施例中，这通过VPOPCNT（VC_VEC）＆0x1（如上面所描述的）来实现。在一个实施例中，此位序列被用作将左子项标记为活动的掩码（每通道的LSB）（例如，左子项在右边具有奇数个冲突，而右子项有偶数个）。

在1604，对于每个通道，针对指示最左边通道（MSL）具有与此通道右边（LSL）相等索引值的最高有效1计算位索引。在1605，右子项被移动成与左子项对齐，将结果放置在临时的位置。在一个实施例中，这使用向量置换/混洗（shuffle）指令来实现。

在1606，将约减操作应用于来自1605的临时结果（具有原始数据）以将左和右子项组合，将结果放置在左子项的通道中。在1607，在1603中创建的掩码被广播并且与VC-VEC寄存器中的当前值进行逐位求与，更新VC-VEC寄存器，并且由此清除与右子项关联的VC_VEC寄存器中的位（即在未来的迭代中除去对那些子项的考虑）。然后，过程返回到1602，其确定是否剩余任何冲突（例如，检查VC_VEC是否具有设置为1的任何位）。如果没有，则过程终止；如果是这样，则执行通过1603-1607的另一次迭代。

上面技术的一个应用是“直方图”式操作，其一个示例在下面示出。直方图操作在各种应用（包括图像处理）中是常见的。

在诸如上面“直方图”循环的循环中，阻止此循环的简单向量化的复杂因素是“b[j]”和“b[k]”的值可以相等，引起对单个简单向量化循环迭代中的“a”的相同元素的竞争状况。这被称为“冲突”。使用上面技术通过每唯一索引值首先将任何冲突值组合（约减）成单个值来除去任何冲突。

在上面简单直方图的情况下，“索引”向量会是向量宽度“b[i]”值，并且“值”向量在每个通道中会具有值“1”。如果“+=”操作的右手侧是计算的结果，而不仅是常量“1”，则“值”向量会保持该向量化计算的结果。然后，我们的约减循环可以与收集和分散指令结合使用以对上面的直方图循环进行向量化。

在前面的说明书中，已经描述了本发明的实施例（参考其特定示范实施例）。然而，将明显的是，在不脱离如所附权利要求中阐述的本发明的更宽的精神和范围的情况下，可以对其进行各种修改和改变。相应地，说明书和附图要被视为是说明性的而不是限制性的意义。

本发明的实施例可以包括上面已经描述的各种步骤。所述步骤可以在可以用于使通用或专用处理器执行所述步骤的机器可执行指令中实施。备选地，这些步骤可以由包含用于执行步骤的硬连线逻辑的特定硬件组件或由编程的计算机组件和定制硬件组件的任何组合来执行。

如本文所描述的，指令可以指被配置成执行某些操作或具有存储于在非暂时性计算机可读介质中实施的存储器中的预定功能性或软件指令的硬件的特定配置，例如专用集成电路（ASIC）。因此，图中所示的技术可以使用在一个或多个电子装置（例如，终端站、网络元件等）上存储和执行的代码和数据来实现。这类电子装置使用诸如非暂时性计算机机器可读存储介质（例如，磁盘、光盘、随机存取存储器、只读存储器、闪存装置、相变存储器）和暂时性计算机机器可读通信介质（例如，电、光、声或其它形式的传播信号，例如载波、红外信号、数字信号等）来存储和传递（内部和/或与网络上的其它电子装置）代码和数据。此外，这类电子装置通常包括耦合到一个或多个其它组件的一个或多个处理器的集合，例如一个或多个存储装置（非暂时性机器可读存储介质）、用户输入/输出装置（例如，键盘、触摸屏和/或显示器）和网络连接。处理器集合和其它组件的耦合通常通过一个或多个总线和桥（也称为总线控制器）。携带网络业务的存储装置和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子装置的存储装置通常存储代码和/或数据，供在该电子装置的一个或多个处理器的集合上执行。当然，可以使用软件、固件和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。整个此详细描述中，为了解释的目的，阐述了许多特定细节以便提供对本发明的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些特定细节中的一些的情况下实践本发明。在某些实例中，为了避免使本发明的主题变得模糊，未以详细的细节描述众所周知的结构和功能。相应地，本发明的范围和精神应根据跟着的权利要求来判断。

Claims

1.一种处理器，包括：

值向量寄存器，存储要约减的多个数据元素值；

索引向量寄存器，存储多个索引值，所述索引值指示所述值向量寄存器中的哪些值相互关联；

单指令多数据（SIMD）约减逻辑，通过组合来自所述值向量寄存器的数据元素值来对所述值向量寄存器内的所述数据元素值执行约减操作，所述数据元素值如由所述索引向量寄存器中的所述索引值所指示的那样相互关联；以及

累加向量寄存器，存储由所述SIMD约减逻辑生成的所述约减操作的结果。

2.根据权利要求1所述的处理器，其中为执行所述约减操作，所述SIMD约减逻辑要确定具有相同索引值的数据元素值群组并且要组合具有相同索引值的所述数据元素以生成多个结果，所述多个结果的每个结果包括共享相同索引值的数据元素值群组的算术组合。

3.根据权利要求2所述的处理器，其中所述SIMD约减逻辑要将每个结果存储在所述累加向量寄存器的指定的数据元素位置内。

4.根据权利要求3所述的处理器，其中所述SIMD约减逻辑要通过对共享相同索引值的元素值执行多个组合迭代来执行所述约减操作，所述组合迭代中的每个组合数据元素值对，直到在最终迭代中达到最终结果。

5.根据权利要求3所述的处理器，其中所述累加寄存器中的每个指定的数据元素位置包括与具有相对于所述索引向量寄存器中相同索引值的其它位置的最高有效位置的关联索引值的位置对应的位置；或者包括与具有相对于所述索引向量寄存器中的相同索引值的其它位置的最低有效位置的关联索引值的位置对应的位置。

6.根据权利要求1所述的处理器，其中所述值向量寄存器内的所述数据元素值的每个与所述处理器中的SIMD通道关联，并且其中执行所述约减操作还包括：

跨所述通道的每个计算冲突以生成冲突结果，并将所述冲突结果存储在冲突目的地寄存器中。

7.根据权利要求6所述的处理器，其中执行所述约减操作还包括：

将具有相同索引值的每个通道标记为在其相应的约减树中的左和右子项，以生成位序列。

8.根据权利要求7所述的处理器，其中执行所述约减操作还包括：

使用所述位序列作为掩码，所述掩码将所述左子项标记为活动或其将所述右子项标记为活动。

9.根据权利要求8所述的处理器，其中所述约减操作还包括对于每个通道，计算最高有效1的位索引，其指示如果所述掩码将所述左子项标记为活动，则最左边通道具有与右边相等的索引值，或者其指示如果所述掩码将所述右子项标记为活动，则最右边通道具有与左边相等的索引值。

10.根据权利要求9所述的处理器，其中所述约减操作还包括：如果所述掩码将所述左子项标记为活动，则将右子项移动成与左子项对齐，或者如果所述掩码将所述右子项标记为活动，则将左子项移动成与右子项对齐，以生成临时结果以及将所述临时结果放置在临时位置中。

11.根据权利要求10所述的处理器，还包括将约减操作应用于具有原始数据的所述临时结果以组合左和右子项来生成新结果，并且如果所述掩码将所述左子项标记为活动，则将所述新结果放置在与所述左子项关联的所述通道中，或者如果所述掩码将所述右子项标记为活动，则将所述新结果放置在与所述右子项关联的所述通道中。

12.根据权利要求10所述的处理器，其中执行所述约减操作还包括：

如果所述掩码将所述左子项标记为活动，则执行所述掩码和所述冲突结果的逐位与操作，由此清除与一个或多个右子项关联的所述冲突目的地寄存器中的位，并且在未来迭代中除去对那些右子项的考虑，或者如果所述掩码将所述右子项标记为活动，则执行所述掩码和所述冲突结果的逐位与操作，由此清除与一个或多个左子项关联的所述冲突目的地寄存器中的位，并且在未来迭代中除去对那些左子项的考虑。

13.根据权利要求2所述的处理器，其中所述SIMD约减逻辑要确定具有相同索引值的数据元素值群组，并且要通过添加具有相同索引值的所述数据元素来组合所述数据元素以生成多个结果，所述多个结果中的每个结果包括共享相同索引值的数据元素值群组的和。

14.一种方法，包括：

将要约减的多个数据元素值存储在值向量寄存器中；

将指示所述值向量寄存器中的哪些值相互关联的多个索引值存储在索引向量寄存器中；

通过组合来自所述值向量寄存器的数据元素值来对所述值向量寄存器内的所述数据元素值执行约减操作，所述数据元素值如由所述索引向量寄存器中的所述索引值所指示的那样相互关联；以及

将所述约减操作的结果存储在累加向量寄存器中。

15.根据权利要求14所述的方法，其中为执行所述约减操作，确定具有相同索引值的数据元素值群组并且组合具有相同索引值的所述数据元素以生成多个结果，所述多个结果中的每个结果包括共享相同索引值的数据元素值群组的算术组合。

16.根据权利要求15所述的方法，还包括将每个结果存储在所述累加向量寄存器的指定数据元素位置内。

17.根据权利要求16所述的方法，还包括通过对共享相同索引值的元素值执行多个组合迭代来执行所述约减操作，所述组合迭代中的每个组合数据元素值对，直到在最终迭代中达到最终结果。

18.根据权利要求16所述的方法，其中所述累加寄存器中的每个指定的数据元素位置包括与具有相对于所述索引向量寄存器中相同索引值的其它位置的最高有效位置的关联索引值的位置对应的位置；或者包括与具有相对于所述索引向量寄存器中的相同索引值的其它位置的最低有效位置的关联索引值的位置对应的位置。

19.根据权利要求14所述的方法，其中所述值向量寄存器内的所述数据元素值的每个与处理器中的SIMD通道关联，并且其中执行所述约减操作还包括：

20.根据权利要求19所述的方法，其中执行所述约减操作还包括：

21.根据权利要求20所述的方法，其中执行所述约减操作还包括：

22.根据权利要求21所述的方法，其中所述约减操作还包括对于每个通道，计算最高有效1的位索引，其指示如果所述掩码将所述左子项标记为活动，则最左边通道具有与右边相等的索引值，或者其指示如果所述掩码将所述右子项标记为活动，则最右边通道具有与左边相等的索引值。

23.根据权利要求22所述的方法，其中所述约减操作还包括：如果所述掩码将所述左子项标记为活动，则将右子项移动成与左子项对齐，或者如果所述掩码将所述右子项标记为活动，则将左子项移动成与右子项对齐，以生成临时结果以及将所述临时结果放置在临时位置中。

24.根据权利要求23所述的方法，还包括：将约减操作应用到具有原始数据的所述临时结果以组合左和右子项来生成新结果，并且如果所述掩码将所述左子项标记为活动，则将所述新结果放置在与所述左子项关联的所述通道中，或者如果所述掩码将所述右子项标记为活动，则将所述新结果放置在与所述右子项关联的所述通道中。

25.根据权利要求23所述的方法，其中执行所述约减操作还包括：