CN115454501A

CN115454501A - 用于对多个数据元素值执行约简操作的方法和装置

Info

Publication number: CN115454501A
Application number: CN202211137617.9A
Authority: CN
Inventors: C·休斯; J·皮尔斯; 路奎元; E·乌尔德-阿迈德-瓦尔; J·帕拉; P·萨蒂; K·维诺德; R·佐哈
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-03-27
Filing date: 2020-02-24
Publication date: 2022-12-09
Also published as: US20200310809A1; US20230060900A1; CN111752606A; EP3716053B1; EP4184319A1; US11294670B2; US20220229661A1; EP4184318A1; EP3716053A1

Abstract

本申请公开了用于对多个数据元素值执行约简操作的方法和装置。本文中详述的实施例关于对多个数据元素值的约简操作。在一个实施例中，处理器包括用于对指令解码的解码电路以及用于执行经解码的指令的执行电路。该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器，其中，多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。执行包括：基于索引标识彼此相关联的数据元素值；基于标识对相关联的数据元素值执行一个或多个约简操作；以及将一个或多个约简操作的结果存储在输出寄存器中。

Description

用于对多个数据元素值执行约简操作的方法和装置

本申请是申请日为2020年2月24日、申请号为202010112705.8，题为“用于对多个数据元素值执行约简操作的方法和装置”的发明专利申请的分案申请。

技术领域

本发明的实施例关于计算机处理器架构领域；更具体地关于对多个数据元素值执行约简操作。

背景技术

指令集或指令集架构(ISA)是计算机架构的涉及编程的部分，该部分包括原生数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置以及外部输入和输出(I/O)。应当注意，术语“指令”在本文中一般是指宏指令——即，提供给处理器以供执行的指令——而不是微指令或微操作——即，该微指令或微操作是处理器的解码器对宏指令解码的结果。微指令或微操作可以被配置成用于指示处理器上的执行单元执行操作以实现与宏指令相关联的逻辑。

ISA与微架构不同，微架构是用于实现指令集的处理器设计技术的集合。具有不同微架构的处理器可共享共同的指令集。例如，

奔腾4(Pentium 4)处理器、

酷睿^TM(Core^TM)处理器、以及来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced Micro Devices,Inc.)的多个处理器实现几乎相同版本的x86指令集(具有已随更新的版本加入的一些扩展)，但具有不同的内部设计。例如，ISA的相同寄存器架构在不同的微架构中可使用公知的技术以不同方法来实现，包括专用物理寄存器、使用寄存器重命名机制(例如，使用寄存器别名表(RAT)、重排序缓冲器(ROB)和引退寄存器堆)的一个或多个动态分配的物理寄存器。除非另外指定，否则短语“寄存器架构”、“寄存器堆”和“寄存器”在本文中用于指代对软件/编程者以及对指令指定寄存器的方式可见的寄存器架构、寄存器堆和寄存器。在需要区分的情况下，形容词“逻辑的”、“架构的”，或“软件可见的”将用于指示寄存器架构中的寄存器/寄存器堆，而不同的形容词将用于规定给定微架构中的寄存器(例如，物理寄存器、重排序缓冲器、引退寄存器、寄存器池)。

指令集包括一个或多个指令格式。给定的指令格式定义各种字段(位的数目、位的位置)以指定将要被执行的操作以及将要对其执行那个操作的(多个)操作数，等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如，可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序，但是至少一些字段具有不同的位的位置，因为较少的字段被包括)的不同子集，和/或定义为具有以不同方式进行解释的给定字段。使用给定的指令格式(并且如果经定义，则以该指令格式的指令模板中的一个给定的指令模板)来表达给定的指令，并且指定操作和操作数。指令流是特定的指令序列，其中，序列中的每条指令是按照指令格式(并且如果经定义，按照该指令格式的指令模板中的一个给定的指令模板)的指令的发生。

附图说明

通过参考用于示出本发明的实施例的以下描述和所附附图，可最佳地理解本发明。在附图中：

图1A和图1B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。

图2A-图2D是示出根据本发明的实施例的示例性专用向量友好指令格式的框图。

图3是根据本发明的一个实施例的寄存器架构的框图。

图4A是示出根据本发明的实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线两者的框图。

图4B是示出根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。

图5A是根据本发明的实施例的单个处理器核以及其到管芯上互连网络的连接以及它的第2级(L2)高速缓存的本地子集的框图。

图5B是根据本发明的实施例的图5A中的处理器核的部分的展开图。

图6是根据本发明的实施例的具有集成存储器控制器和图形器件的单核处理器和多核处理器的框图。

图7示出根据本发明的一个实施例的系统的框图。

图8示出根据本发明的实施例的第二系统的框图。

图9示出根据本发明的实施例的第三系统的框图。

图10示出根据本发明的实施例的芯片上系统(SoC)的框图。

图11示出根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

图12是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图。

图13A-图13D图示根据实施例的并行处理器组件。

图14A-图14B是图示根据实施例的图形多处理器的框图。

图15A-图15F图示在其中多个GPU通信地耦合至多个多核处理器的示例性架构。

图16图示根据实施例的图形处理流水线。

图17示出根据本发明的一个实施例的在执行单条指令时对存储在输入寄存器中的多个向量元素的树约简操作。

图18示出根据本发明的一个实施例的在执行单条指令时对存储在多个输入寄存器中的多个向量元素的约简操作。

图19示出根据本发明的一个实施例的在执行单条指令使用同步时对存储在多个输入寄存器中的多个向量元素的约简操作。

图20是示出根据本发明的一个实施例的在执行单条指令时对多个向量元素的约简操作的流程图。

具体实施方式

在以下描述中，陈述了众多特定细节。然而应当理解，可在没有这些特定细节的情况下实施本发明的实施例。在其他实例中，未详细示出公知的电路、结构和技术，以免混淆对本描述的理解。

带括号的文本和具有虚线边界(诸如，长划线、短划线、点划线和点线)的框可用于图示任选操作，这些任选操作将附加特征添加至本发明的实施例。然而，此类标注法不应当认为意指这些是仅有的选项或仅有的任选操作，和/或意指在本发明的一些实施例中具有实线边界的框不是任选的。

说明书中对“一个实施例”、“实施例”、“示例实施例”等等的引用指示所描述的实施例可以包括特定的特征、结构或特性，但是每个实施例可不一定包括该特定的特征、结构或特性。此外，此类短语不一定是指同一个实施例。此外，当结合实施例描述特定的特征、结构或特性时，认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。

以下说明书和所附权利要求书可使用术语“耦合的”和“连接的”及其衍生词。这些术语不旨在互为同义词。“耦合的”用于指示彼此可以或可以不直接物理接触或电气接触的两个或更多个元件彼此协作或相互作用。“连接的”用于指示彼此耦合的两个或更多个元件之间的通信的建立。如本文中所使用，“集合”是指包括一个项的任何正整数个项。

指令集包括一种或多种指令格式。给定的指令格式定义各种字段(位的数量、位的位置)以指定将要执行的操作(操作码)以及将对其执行该操作的(多个)操作数，等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如，可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序，但是至少一些字段具有不同的位的位置，因为较少的字段被包括)的不同子集，和/或定义为具有以不同方式进行解释的给定字段。由此，ISA的每一条指令使用给定的指令格式(并且如果经定义，则按照该指令格式的指令模板中的给定的一个指令模板)来表达，并包括用于指定操作和操作数的字段。例如，示例性ADD(加法)指令具有特定的操作码和指令格式，该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段；并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)和利用向量扩展(VEX)编码方案的SIMD扩展集。

示例性指令格式

本文中所描述的(多条)指令的实施例能以不同的格式体现。另外，在下文中详述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行，但是不限于详述的那些系统、架构和流水线。

向量友好指令格式是适于向量指令(例如，存在专用于向量操作的特定字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例，但是替代实施例仅使用通过向量友好指令格式的向量操作。

图1A-图1B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图1A是示出根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图；而图1B是示出根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地，针对通用向量友好指令格式100定义A类和B类指令模板，这两者都包括无存储器访问105的指令模板和存储器访问120的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格式。

尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例：64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此，64字节向量由16个双字尺寸的元素组成，或者替代地由8个四字尺寸的元素组成)；64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸)；32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸)；以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)；但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如，256字节向量操作数)与更大、更小或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)。

图1A中的A类指令模板包括：1)在无存储器访问105的指令模板内，示出无存储器访问的完全舍入控制型操作110的指令模板、以及无存储器访问的数据变换型操作115的指令模板；以及2)在存储器访问120的指令模板内，示出存储器访问的时效性125的指令模板和存储器访问的非时效性130的指令模板。图1B中的B类指令模板包括：1)在无存储器访问105的指令模板内，示出无存储器访问的写掩码控制的部分舍入控制型操作112的指令模板以及无存储器访问的写掩码控制的vsize型操作117的指令模板；以及2)在存储器访问120的指令模板内，示出存储器访问的写掩码控制127的指令模板。

通用向量友好指令格式100包括以下列出的按照在图1A-1B中示出的顺序的如下字段。

格式字段140——该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式，并且由此标识指令在指令流中以向量友好指令格式出现。由此，该字段对于仅具有通用向量友好指令格式的指令集是不需要的，在这个意义上该字段是任选的。

基础操作字段142——其内容区分不同的基础操作。

寄存器索引字段144——其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如，32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器，但是替代实施例可支持更多或更少的源和目的地寄存器(例如，可支持多达两个源，其中这些源中的一个源还用作目的地；可支持多达三个源，其中这些源中的一个源还用作目的地；可支持多达两个源和一个目的地)。

修饰符(modifier)字段146——其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开；即在无存储器访问105的指令模板与存储器访问120的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次(在一些情况下，使用寄存器中的值来指定源和/或目的地地址)，而非存储器访问操作不这样(例如，源和/或目的地是寄存器)。尽管在一个实施例中，该字段还在三种不同的方式之间选择以执行存储器地址计算，但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。

扩充操作字段150——其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中，该字段被分成类字段168、α字段152和β字段154。扩充操作字段150允许在单条指令而非2条、3条或4条指令中执行多组共同的操作。

比例字段160——其内容允许用于存储器地址生成(例如，用于使用(2^比例*索引+基址)的地址生成)的索引字段的内容的按比例缩放。

位移字段162A——其内容用作存储器地址生成的一部分(例如，用于使用(2^比例*索引+基址+位移)的地址生成)。

位移因数字段162B(注意，位移字段162A直接在位移因数字段12B上的并置指示使用一个或另一个)——其内容用作地址生成的一部分；它指定将按比例缩放存储器访问的尺寸(N)的位移因数——其中N是存储器访问中的字节数量(例如，用于使用(2^比例*索引+基址+按比例缩放的位移)的地址生成)。忽略冗余的低阶位，并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成将在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段174(在本文中描述)和数据操纵字段154C确定。位移字段162A和位移因数字段162B不用于无存储器访问105的指令模板和/或不同的实施例可实现这两者中的仅一个或不实现这两者中的任一个，在这个意义上，位移字段162A和位移因数字段162B是任选的。

数据元素宽度字段164——其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令；在其他实施例中只用于指令中的一些指令)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持数据元素宽度，则该字段是不需要的，在这个意义上，该字段是任选的。

写掩码字段170——其内容逐数据元素位置地控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码，而B类指令模板支持合并-写掩码和归零-写掩码两者。当合并时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新；在另一实施例中，保持其中对应掩码位具有0的目的地的每一元素的旧值。相反，当归零时，向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零；在一个实施例中，目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制正被执行的操作的向量长度的能力(即，从第一个到最后一个正被修改的元素的跨度)，然而，被修改的元素不一定要是连续的。由此，写掩码字段170允许部分向量操作，这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段170的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此，写掩码字段170的内容间接地标识要执行的掩码)的本发明的实施例，但是替代实施例替代地或附加地允许掩码写字段170的内容直接指定要执行的掩码。

立即数字段172——其内容允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在，在这个意义上，该字段是任选的。

类字段168——其内容在不同类的指令之间进行区分。参考图1A-图1B，该字段的内容在A类和B类指令之间进行选择。在图1A-图1B中，圆角方形用于指示特定的值存在于字段中(例如，在图1A-图1B中分别用于类字段168的A类168A和B类168B)。

A类指令模板

在A类非存储器访问105的指令模板的情况下，α字段152被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的舍入型操作110和无存储器访问的数据变换型操作115的指令模板分别指定舍入152A.1和数据变换152A.2)的RS字段152A，而β字段154区分要执行所指定类型的操作中的哪一种。在无存储器访问105的指令模板中，比例字段160、位移字段162A和位移因数字段162B(有时称为位移比例字段)不存在。

无存储器访问的指令模板——完全舍入控制型操作

在无存储器访问的完全舍入控制型操作110的指令模板中，β字段154被解释为其(多个)内容提供静态舍入的舍入控制字段154A。尽管在本发明的所述实施例中舍入控制字段154A包括抑制所有(浮点)异常(SAE)字段156和舍入操作控制字段158，但是替代实施例可支持这两个概念，可将这两个概念编码为同一字段，或仅具有这些概念/字段中的一个或另一个(例如，可仅具有舍入操作控制字段158)。

SAE字段156——其内容区分是否禁用异常事件报告；当SAE字段156的内容指示启用抑制时，给定的指令不报告任何种类的浮点异常标志，并且不唤起任何浮点异常处置程序。

舍入操作控制字段158——其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入以及就近舍入)。由此，舍入操作控制字段158允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段150的内容覆盖(override)该寄存器值。

无存储器访问的指令模板－数据变换型操作

在无存储器访问的数据变换型操作115的指令模板中，β字段154被解释为数据变换字段154B，其内容区分要执行多个数据变换中的哪一个(例如，无数据变换、混合、广播)。

在A类存储器访问120的指令模板的情况下，α字段152被解释为驱逐提示字段152B，其内容区分要使用驱逐提示中的哪一个(在图1A中，对于存储器访问时效性125的指令模板和存储器访问非时效性130的指令模板分别指定时效性的152B.1和非时效性的152B.2)，而β字段154被解释为数据操纵字段154C，其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如，无操纵、广播、源的向上转换以及目的地的向下转换)。存储器访问120的指令模板包括比例字段160，并任选地包括位移字段162A或位移因数字段162B。

向量存储器指令使用转换支持来执行来自存储器的向量加载以及向存储器的向量存储。如同寻常的向量指令，向量存储器指令以数据元素式的方式从/向存储器传输数据，其中实际被传输的元素由被选为写掩码的向量掩码的内容规定。

存储器访问的指令模板——时效性的

时效性的数据是可能足够快地被重新使用以从高速缓存操作受益的数据。然而，这是提示，并且不同的处理器能以不同的方式实现它，包括完全忽略该提示。

存储器访问的指令模板——非时效性的

非时效性的数据是不太可能足够快地被重新使用以从第一级高速缓存中的高速缓存操作受益且应当被给予驱逐优先级的数据。然而，这是提示，并且不同的处理器能以不同的方式实现它，包括完全忽略该提示。

B类指令模板

在B类指令模板的情况下，α字段152被解释为写掩码控制(Z)字段152C，其内容区分由写掩码字段170控制的写掩码应当是合并还是归零。

在B类非存储器访问105的指令模板的情况下，β字段154的一部分被解释为RL字段157A，其内容区分要执行不同扩充操作类型中的哪一种(例如，针对无存储器访问的写掩码控制部分舍入控制类型操作112的指令模板和无存储器访问的写掩码控制VSIZE型操作117的指令模板分别指定舍入157A.1和向量长度(VSIZE)157A.2)，而β字段154的其余部分区分要执行所指定类型的操作中的哪一种。在无存储器访问105的指令模板中，比例字段160、位移字段162A和位移因数字段162B不存在。

在无存储器访问的写掩码控制部分舍入控制型操作110的指令模板中，β字段154的其余部分被解释为舍入控制操作字段159A，并且禁用异常事件报告(给定的指令不报告任何种类的浮点异常标志，并且不唤起任何浮点异常处置程序)。

舍入操作控制字段159A——正如舍入操作控制字段158，其内容区分要执行一组舍入操作中的哪一个(例如，向上舍入、向下舍入、向零舍入以及就近舍入)。由此，舍入操作控制字段159A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中，舍入操作控制字段150的内容覆盖该寄存器值。

在无存储器访问的写掩码控制VSIZE型操作117的指令模板中，β字段154的其余部分被解释为向量长度字段159B，其内容区分要执行多个数据向量长度中的哪一个(例如，128字节、256字节或512字节)。

在B类存储器访问120的指令模板的情况下，β字段154的一部分被解释为广播字段157B，其内容区分是否要执行广播型数据操纵操作，而β字段154的其余部分被解释为向量长度字段159B。存储器访问120的指令模板包括比例字段160，并任选地包括位移字段162A或位移比例字段162B。

针对通用向量友好指令格式100，示出完整操作码字段174包括格式字段140、基础操作字段142和数据元素宽度字段164。尽管示出了其中完整操作码字段174包括所有这些字段的一个实施例，但是在不支持所有这些字段的实施例中，完整操作码字段174包括少于所有的这些字段。完整操作码字段174提供操作代码(操作码)。

扩充操作字段150、数据元素宽度字段164和写掩码字段170允许逐指令地以通用向量友好指令格式指定这些特征。

写掩码字段和数据元素宽度字段的组合创建各种类型的指令，因为这些指令允许基于不同的数据元素宽度应用该掩码。

在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中，不同处理器或处理器内的不同核可支持仅A类、仅B类、或者可支持这两类。举例而言，旨在用于通用计算的高性能通用乱序核可仅支持B类，旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类，并且旨在用于通用计算和图形和/或科学(吞吐量)计算两者的核可支持A类和B类两者(当然，具有来自这两类的模板和指令的一些混合、但是并非来自这两类的所有模板和指令的核在本发明的范围内)。同样，单个处理器可包括多个核，这多个核全部都支持相同的类，或者其中不同的核支持不同的类。举例而言，在具有单独的图形核和通用核的处理器中，图形核中的旨在主要用于图形和/或科学计算的一个核可仅支持A类，而通用核中的一个或多个可以是具有旨在用于通用计算的仅支持B类的乱序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或乱序核。当然，在本发明的不同实施例中，来自一类的特征也可在其他类中实现。将使以高级语言编写的程序成为(例如，及时编译或静态编译)各种不同的可执行形式，这些可执行形式包括：1)仅具有由用于执行的目标处理器支持的(多个)类的指令的形式；或者2)具有替代例程并具有控制流代码的形式，该替代例程使用所有类的指令的不同组合来编写，该控制流代码选择这些例程以基于由当前正在执行代码的处理器支持的指令来执行。

图2A-图2D是示出根据本发明的实施例的示例性专用向量友好指令格式的框图。图2A示出专用向量友好指令格式200，其指定各字段的位置、尺寸、解释和次序、以及那些字段中的一些字段的值，在这个意义上，该专用向量友好指令格式200是专用的。专用向量友好指令格式200可用于扩展x86指令集，并且由此字段中的一些字段与如在现有的x86指令集及其扩展(例如，AVX)中所使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。示出来自图1A-图1B的字段，来自图2A的字段映射到来自图1A-图1B的字段。

应当理解，虽然出于说明的目的在通用向量友好指令格式100的上下文中参考专用向量友好指令格式200描述了本发明的实施例，但是本发明不限于专用向量友好指令格式200，除非另有声明。例如，通用向量友好指令格式100构想了各种字段的各种可能的尺寸，而专用向量友好指令格式200示出为具有特定尺寸的字段。作为具体示例，尽管在专用向量友好指令格式200中数据元素宽度字段164被示出为一位字段，但是本发明不限于此(即，通用向量友好指令格式100构想数据元素宽度字段164的其他尺寸)。

通用向量友好指令格式100包括以下列出的按照图2A中示出的顺序的如下字段。

EVEX前缀(字节0-3)202——以四字节形式进行编码。

格式字段140(EVEX字节0，位[7:0])——第一字节(EVEX字节0)是格式字段140，并且它包含0x62(在本发明的一个实施例中，为用于区分向量友好指令格式的唯一值)。

第二－第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。

REX字段205(EVEX字节1，位[7-5])——由EVEX.R位字段(EVEX字节1，位[7]–R)、EVEX.X位字段(EVEX字节1，位[6]–X)以及(157BEX字节1，位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能，并且使用1补码的形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx和bbb)进行编码，由此可通过增加EVEX.R、EVEX.X和EVEX.B来形成Rrrr、Xxxx和Bbbb。

REX’字段210——这是REX’字段210的第一部分，并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1，位[4]–R’)。在本发明的一个实施例中，该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与BOUND指令进行区分，该BOUND指令的实操作码字节是62，但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11；本发明的替代实施例不以反转的格式存储该指示的位以及以下其他指示的位。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。

操作码映射字段215(EVEX字节1，位[3:0]–mmmm)——其内容对隐含的前导操作码字节(0F、0F 38或0F 3)进行编码。

数据元素宽度字段164(EVEX字节2，位[7]–W)——由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。

EVEX.vvvv 220(EVEX字节2，位[6:3]-vvvv)——EVEX.vvvv的作用可包括如下：1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数进行编码，并且对具有两个或更多个源操作数的指令有效；2)EVEX.vvvv对针对特定向量位移以1补码的形式指定的目的地寄存器操作数进行编码；或者3)EVEX.vvvv不对任何操作数进行编码，该字段被预留，并且应当包含1111b。由此，EVEX.vvvv字段220对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令，额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。

EVEX.U 168类字段(EVEX字节2，位[2]-U)——如果EVEX.U＝0，则它指示A类或EVEX.U0；如果EVEX.U＝1，则它指示B类或EVEX.U1。

前缀编码字段225(EVEX字节2，位[1:0]-pp)——提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外，这也具有压缩SIMD前缀的益处(EVEX前缀仅需要2位，而不是需要字节来表达SIMD前缀)。在一个实施例中，为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令，将这些传统SIMD前缀编码成SIMD前缀编码字段；并且在运行时在被提供给解码器的PLA之前被扩展成传统SIMD前缀(因此，在无需修改的情况下，PLA既可执行传统格式的这些传统指令又可执行EVEX格式的这些传统指令)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展，但是为了一致性，特定实施例以类似的方式扩展，但允许由这些传统SIMD前缀指定的不同含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码，并且由此不需要扩展。

α字段152(EVEX字节3，位[7]–EH，也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N；也以α示出)——如先前所述，该字段是针对上下文的。

β字段154(EVEX字节3，位[6:4]-SSS，也称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB，还以βββ示出)——如前所述，此字段是针对上下文的。

REX’字段210——这是REX’字段的其余部分，并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3，位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说，通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。

写掩码字段170(EVEX字节3，位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器的索引，如先前所述。在本发明的一个实施例中，特定值EVEX.kkk＝000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现，包括使用硬连线到所有对象的写掩码或绕过掩码硬件的硬件来实现)。

实操作码字段230(字节4)还被称为操作码字节。操作码的一部分在该字段中被指定。

MOD R/M字段240(字节5)包括MOD字段242、Reg字段244和R/M字段246。如先前所述的，MOD字段242的内容将存储器访问操作和非存储器访问操作区分开。Reg字段244的作用可被归结为两种情形：对目的地寄存器操作数或源寄存器操作数进行编码；或者被视为操作码扩展，并且不用于对任何指令操作数进行编码。R/M字段246的作用可包括如下：对引用存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)字节(字节6)——如先前所述的，比例字段150的内容用于存储器地址生成。SIB.xxx 254和SIB.bbb 256——先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。

位移字段162A(字节7-10)——当MOD字段242包含10时，字节7-10是位移字段162A，并且它与传统32位位移(disp32)一样地工作，并且以字节粒度工作。

位移因数字段162B(字节7)——当MOD字段242包含01时，字节7是位移因数字段162B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的，因此它仅能在-128和127字节偏移之间寻址；在64字节高速缓存行的方面，disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位；由于常常需要更大的范围，所以使用disp32；然而，disp32需要4个字节。与disp8和disp32对比，位移因数字段162B是disp8的重新解释；当使用位移因数字段162B时，通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移，但具有大得多的范围)。此类经压缩的位移基于有效位移是存储器访问的粒度的倍数的假设，并且由此地址偏移的冗余低阶位不需要被编码。换句话说，位移因数字段162B替代传统x86指令集8位位移。由此，位移因数字段162B以与x86指令集8位位移相同的方式被编码(因此，在ModRM/SIB编码规则中没有变化)，唯一的不同在于，将disp8超载至disp8*N。换句话说，在编码规则或编码长度方面没有变化，而仅在有硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的尺寸以获得字节式地址偏移)。

立即数字段172如先前所述地操作。

完整操作码字段

图2B是示出根据本发明的一个实施例的构成完整操作码字段174的具有专用向量友好指令格式200的字段的框图。具体地，完整操作码字段174包括格式字段140、基础操作字段142和数据元素宽度(W)字段164。基础操作字段142包括前缀编码字段225、操作码映射字段215和实操作码字段230。

寄存器索引字段

图2C是示出根据本发明的一个实施例的构成寄存器索引字段144的具有专用向量友好指令格式200的字段的框图。具体地，寄存器索引字段144包括REX字段1405、REX’字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254和bbb字段256。

扩充操作字段

图2D是示出根据本发明的一个实施例的构成扩充操作字段150的具有专用向量友好指令格式200的字段的框图。当类(U)字段168包含0时，它表明EVEX.U0(A类168A)；当它包含1时，它表明EVEX.U1(B类168B)。当U＝0且MOD字段242包含11(表明无存储器访问操作)时，α字段152(EVEX字节3，位[7]–EH)被解释为rs字段152A。当rs字段152A包含1(舍入152A.1)时，β字段154(EVEX字节3，位[6:4]–SSS)被解释为舍入控制字段154A。舍入控制字段154A包括一位SAE字段156和两位舍入操作字段158。当rs字段152A包含0(数据变换152A.2)时，β字段154(EVEX字节3，位[6:4]–SSS)被解释为三位数据变换字段154B。当U＝0且MOD字段242包含00、01或10(表明存储器访问操作)时，α字段152(EVEX字节3，位[7]–EH)被解释为驱逐提示(EH)字段152B，并且β字段154(EVEX字节3，位[6:4]–SSS)被解释为三位数据操纵字段154C。

当U＝1时，α字段152(EVEX字节3，位[7]–EH)被解释为写掩码控制(Z)字段152C。当U＝1且MOD字段242包含11(表明无存储器访问操作)时，β字段154的一部分(EVEX字节3，位[4]–S₀)被解释为RL字段157A；当它包含1(舍入157A.1)时，β字段154的其余部分(EVEX字节3，位[6-5]–S_2-1)被解释为舍入操作控制字段159A，而当RL字段157A包含0(VSIZE 157.A2)时，β字段154的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段159B(EVEX字节3，位[6-5]–L_1-0)。当U＝1且MOD字段242包含00、01或10(表明存储器访问操作)时，β字段154(EVEX字节3，位[6:4]–SSS)被解释为向量长度字段159B(EVEX字节3，位[6-5]–L_1-0)和广播字段157B(EVEX字节3，位[4]–B)。

图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中，有32个512位宽的向量寄存器310；这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖(overlay)在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式200对这些被覆盖的寄存器堆操作，如在以下表格中所示出。

换句话说，向量长度字段159B在最大长度与一个或多个其他较短长度之间进行选择，其中每一个此类较短长度是前一长度的一半，并且不具有向量长度字段159B的指令模板在最大向量长度上操作。此外，在一个实施例中，专用向量友好指令格式200的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作；取决于实施例，较高阶数据元素位置要么保持与在指令之前相同，要么归零。

写掩码寄存器315——在所示出的实施例中，存在8个写掩码寄存器(k0至k7)，每一写掩码寄存器的尺寸是64位。在替代实施例中，写掩码寄存器315的尺寸是16位。如先前所述，在本发明的一个实施例中，向量掩码寄存器k0无法用作写掩码；当将正常指示k0的编码用作写掩码时，它选择硬连线的写掩码0xFFFF，从而有效地禁止写掩码用于那条指令。

通用寄存器325——在所示出的实施例中，有十六个64位通用寄存器，这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

标量浮点栈寄存器堆(x87栈)345，在其上面重叠了MMX紧缩整数平坦寄存器堆350——在所示出的实施例中，x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈；而使用MMX寄存器来对64位紧缩整数数据执行操作，以及为在MMX与XMM寄存器之间执行的一些操作保存操作数。

本发明的替代实施例可以使用更宽的或更窄的寄存器。另外，本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性处理器架构和数据类型

图4A是示出根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图4B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图4A-图4B中的实线框示出有序流水线和有序核，而虚线框的任选增加示出寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集，将描述乱序方面。

在图4A中，处理器流水线400包括取出级402、长度解码级404、解码级406、分配级408、重命名级410、调度(也被称为分派或发布)级412、寄存器读取/存储器读取级414、执行级416、写回/存储器写入级418、异常处置级422和提交级424。每一级可包括用于执行该级中的操作的电路，并且该电路可被称为取出电路、解码电路、调度电路、执行电路等以表示硬件电路被用于实现这些级。

图4B示出处理器核490，该处理器核490包括前端单元430，该前端单元430耦合到执行引擎单元450，并且前端单元430和执行引擎单元450两者都耦合到存储器单元470。核490可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项，核490可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核，等等。

前端单元430包括分支预测单元432，该分支预测单元432耦合到指令高速缓存单元434，该指令高速缓存单元434耦合到指令转换后备缓冲器(TLB)436，该指令转换后备缓冲器436耦合到指令取出单元438，该指令取出单元438耦合到解码单元440。解码单元440(或解码器)可对指令解码，并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元440可使用各种不同的机制来实现。合适机制的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核490包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如，在解码单元440中，或以其他方式在前端单元430内)。解码单元440耦合到执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450包括重命名/分配器单元452，该重命名/分配器单元452耦合到引退单元454和一个或多个调度器单元的集合456。(多个)调度器单元456表示任何数量的不同调度器，包括预留站、中央指令窗等。(多个)调度器单元456耦合到(多个)物理寄存器堆单元458。(多个)物理寄存器堆单元458中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一种或多种不同的数据类型，诸如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点，状态(例如，作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中，(多个)物理寄存器堆单元458包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元458由引退单元454重叠，以示出可实现寄存器重命名和乱序执行的各种方式(例如，使用(多个)重排序缓冲器和(多个)引退寄存器堆；使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆；使用寄存器映射和寄存器池，等等)。引退单元454和(多个)物理寄存器堆单元458耦合到(多个)执行集群460。(多个)执行集群460包括一个或多个执行单元的集合462以及一个或多个存储器访问单元的集合464。执行单元462可执行各种操作(例如，移位、加法、减法、乘法)并可对各种数据类型(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元，但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元456、(多个)物理寄存器堆单元458和(多个)执行集群460示出为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线，和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行集群具有(多个)存储器访问单元464的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以是乱序发布/执行，并且其余流水线可以是有序的。

存储器访问单元的集合464耦合到存储器单元470，该存储器单元470包括数据TLB单元472，该数据TLB单元472耦合到数据高速缓存单元474，该数据高速缓存单元474耦合到第二级(L2)高速缓存单元476。在一个示例性实施例中，存储器访问单元464可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434还耦合到存储器单元470中的第二级(L2)高速缓存单元476。L2高速缓存单元476耦合到一个或多个其他级别的高速缓存，并最终耦合到主存储器。

作为示例，示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线400：1)指令取出438执行取出级402和长度解码级404；2)解码单元440执行解码级406；3)重命名/分配器单元452执行分配级408和重命名级410；4)(多个)调度器单元456执行调度级412；5)(多个)物理寄存器堆单元458和存储器单元470执行寄存器读取/存储器读取级414；执行集群460执行执行级416；6)存储器单元470和(多个)物理寄存器堆单元458执行写回/存储器写入级418；7)各单元可牵涉到异常处置级422；以及8)引退单元454和(多个)物理寄存器堆单元458执行提交级424。

核490可支持一个或多个指令集(例如，x86指令集(具有已与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展))，其中包括本文中描述的(多条)指令。在一个实施例中，核490包括用于支持紧缩数据指令集扩展(例如，AVX1、AVX2、高级矩阵扩展(AMX)和/或某种形式的通用向量友好指令格式(U＝0和/或U＝1)，下文描述)的逻辑，由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。

应当理解，核可支持多线程化(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程化，各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如，时分取出和解码以及此后的诸如

超线程化技术中的同时多线程化)。

尽管在乱序执行的上下文中描述了寄存器重命名，但应当理解，可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元434/474以及共享的L2高速缓存单元476，但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存，诸如例如，第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者，所有高速缓存都可以在核和/或处理器的外部。

图5A-图5B示出更具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用，逻辑块通过高带宽互连网络(例如，环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。

图5A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络502的连接及其第二级(L2)高速缓存的本地子集504的框图。在一个实施例中，指令解码器500支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存506允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计)，标量单元508和向量单元510使用分开的寄存器集合(分别为标量寄存器512和向量寄存器514)，并且在这些寄存器之间传输的数据被写入到存储器，并随后从第一级(L1)高速缓存506读回，但是本发明的替代实施例可以使用不同的方法(例如，使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。

L2高速缓存的本地子集504是全局L2高速缓存的一部分，该全局L2高速缓存被划分成多个分开的本地子集，每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集504的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集504中，并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集504中，并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的，以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。

图5B是根据本发明的实施例的图5A中的处理器核的一部分的展开图。图5B包括L1高速缓存504的L1数据高速缓存506A部分，以及关于向量单元510和向量寄存器514的更多细节。具体地，向量单元510是16宽向量处理单元(VPU)(见16宽ALU 528)，该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元520支持对寄存器输入的混合，通过数值转换单元522A-B支持数值转换，并且通过复制单元524支持对存储器输入的复制。写掩码寄存器526允许掩蔽所得的向量写入。

图6是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器600的框图。图6中的实线框示出具有单个核602A、系统代理610、一个或多个总线控制器单元的集合616的处理器600，而虚线框的任选增加示出具有多个核602A-N(其可包括一个或多个高速缓存单元604A-N)、系统代理单元610中的一个或多个集成存储器控制器单元的集合614以及专用逻辑608的替代处理器600(例如，集成图形逻辑)。

因此，处理器600的不同实现可包括：1)CPU，其中专用逻辑608是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核602A-N是一个或多个通用核(例如，通用有序核、通用乱序核、这两者的组合)；2)协处理器，其中核602A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核；以及3)协处理器，其中核602A-N是大量通用有序核。因此，处理器600可以是通用处理器、协处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器，等等。该处理器可以被实现在一个或多个芯片上。处理器600可以是一个或多个基板的一部分，和/或可使用多种工艺技术(诸如例如，BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。

存储器层次结构包括核内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元的集合606、以及耦合到集成存储器控制器单元的集合614的外部存储器(未示出)。共享高速缓存单元的集合606可包括一个或多个中间级别的高速缓存，诸如，第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中，基于环的互连单元612将专用逻辑608、共享高速缓存单元的集合606以及系统代理单元610/(多个)集成存储器控制器单元614互连，但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中，在一个或多个共享高速缓存单元606与核602A-N之间维持一致性。

在一些实施例中，一个或多个核602A-N能够实现多线程化。系统代理610包括协调和操作核602A-N的那些部件。系统代理单元610可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核602A-N以及专用逻辑608的功率状态进行调节所需的逻辑和部件，或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。

核602A-N在架构指令集方面可以是同构的或异构的；即，核602A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

图7-10是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地，能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。

现在参考图7，所示出的是根据本发明一个实施例的系统700的框图。系统700可以包括一个或多个处理器710、715，这些处理器耦合到控制器中枢720。在一个实施例中，控制器中枢720包括图形存储器控制器中枢(GMCH)790和输入/输出中枢(IOH)750(其可以在分开的芯片上)；GMCH 790包括存储器和图形控制器，存储器740和协处理器745耦合到该存储器和图形控制器；IOH 750将输入/输出(I/O)设备760耦合到GMCH 790。或者，存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内，存储器740和协处理器745直接耦合到处理器710，并且控制器中枢720与IOH 750处于单个芯片中。

附加的处理器715的任选性在图7中通过虚线来表示。每一处理器710、715可包括本文中描述的处理核中的一个或多个，并且可以是处理器600的某一版本。

存储器740可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢720经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接795来与(多个)处理器710、715进行通信。

在一个实施例中，协处理器745是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器，等等。在一个实施例中，控制器中枢720可以包括集成图形加速器。

在处理器710、715之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。

在一个实施例中，处理器710执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器710将这些协处理器指令识别为具有应当由附连的协处理器745执行的类型。因此，处理器710在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器745。(多个)协处理器745接受并执行所接收的协处理器指令。

现在参见图8，所示出的是根据本发明的实施例的第一更具体的示例性系统800的框图。如图8中所示，多处理器系统800是点对点互连系统，并且包括经由点对点互连850耦合的第一处理器870和第二处理器880。处理器870和880中的每一个都可以是处理器600的某一版本。在本发明的一个实施例中，处理器870和880分别是处理器710和715，而协处理器838是协处理器745。在另一实施例中，处理器870和880分别是处理器710和协处理器745。

处理器870和880示出为分别包括集成存储器控制器(IMC)单元872和882。处理器870还包括作为其总线控制器单元的一部分的点对点(P-P)接口876和878；类似地，第二处理器880包括P-P接口886和888。处理器870、880可以经由使用点对点(P-P)接口电路878、888的P-P接口850来交换信息。如图8中所示，IMC 872和882将处理器耦合到相应的存储器，即存储器832和存储器834，这些存储器可以是本地附连到相应处理器的主存储器的部分。

处理器870、880可各自经由使用点对点接口电路876、894、886、898的各个P-P接口852、854来与芯片组890交换信息。芯片组890可以任选地经由高性能接口839来与协处理器838交换信息。在一个实施例中，协处理器838是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器，等等。

共享高速缓存(未示出)可被包括在任一处理器中，或在这两个处理器的外部但经由P-P互连与这些处理器连接，使得如果处理器被置于低功率模式，则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。

芯片组890可以经由接口896耦合到第一总线816。在一个实施例中，第一总线816可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图8中所示，各种I/O设备814可连同总线桥818一起耦合到第一总线816，该总线桥818将第一总线816耦合到第二总线820。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器815耦合到第一总线816。在一个实施例中，第二总线820可以是低引脚数(LPC)总线。在一个实施例中，各种设备可耦合到第二总线820，这些设备包括例如键盘和/或鼠标822、通信设备827以及存储单元828，该存储单元828诸如可包括指令/代码和数据830的盘驱动器或者其他大容量存储设备。此外，音频I/O 824可以被耦合到第二总线820。注意，其他架构是可能的。例如，代替图8的点对点架构，系统可以实现多分支总线或其他此类架构。

现在参考图9，示出的是根据本发明的实施例的第二更具体的示例性系统900的框图。图8和9中的类似元件使用类似的附图标记，并且从图9中省略了图8的某些方面以避免混淆图9的其他方面。

图9示出处理器870、880可分别包括集成存储器和I/O控制逻辑(“CL”)872和882。因此，CL 872、882包括集成存储器控制器单元，并包括I/O控制逻辑。图9示出不仅存储器832、2034耦合到CL 872、882，而且I/O设备914也耦合到控制逻辑872、882。传统I/O设备915被耦合到芯片组890。

现在参考图10，示出的是根据本发明的实施例的SoC 1000的框图。图6中的类似要素使用类似的附图标记。另外，虚线框是更先进的SoC上的任选的特征。在图10中，(多个)互连单元1002被耦合到：应用处理器1010，其包括一个或多个核的集合1002A-N的集合以及(多个)共享高速缓存单元1006；系统代理单元1010；(多个)总线控制器单元1016；(多个)集成存储器控制器单元1014；一个或多个协处理器的集合1020，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元1030；直接存储器访问(DMA)单元1032；以及用于耦合到一个或多个外部显示器的显示单元1040。在一个实施例中，(多个)协处理器1020包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器，等等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(诸如，图8中示出的代码830)应用于输入指令，以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有处理器的任何系统，该处理器诸如例如，数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。

程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现，以便与处理系统通信。如果需要，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现，该指令表示处理器中的各种逻辑，该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上，并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置，其包括存储介质，诸如硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)、数字视频/多功能盘(DVD)、蓝光(BD)、以及磁光盘；半导体器件，诸如，只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

因此，本发明的实施例还包括非暂态的有形机器可读介质，该介质包含指令或包含设计数据，诸如硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

在一些情况下，指令转换器可用于将指令从源指令集转换至目标指令集。例如，指令转换器可以将指令变换(例如，使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图11是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中，指令转换器是软件指令转换器，但替代地，该指令转换器可以用软件、固件、硬件或其各种组合来实现。图11示出可使用x86编译器1104来编译高级语言1102形式的程序，以生成可由具有至少一个x86指令集核的处理器1116原生执行的x86二进制代码1106。具有至少一个x86指令集核的处理器1116表示通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器：1)英特尔x86指令集核的指令集的实质部分，或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1104表示可操作用于生成x86二进制代码1106(例如，目标代码)的编译器，该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器1116上执行。类似地，图11示出可以使用替代的指令集编译器1108来编译高级语言1102形式的程序，以生成可以由不具有至少一个x86指令集核的处理器1114(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1110。指令转换器1112用于将x86二进制代码1106转换成可以由不具有x86指令集核的处理器1114原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1110相同，因为能够这样做的指令转换器难以制造；然而，转换后的代码将完成一般操作，并且由来自替代指令集的指令构成。因此，指令转换器1112通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码1106的软件、固件、硬件或其组合。

附加计算系统——概览

图12是图示出被配置成用于实现本文中所描述的示例性实施例的一个或多个方面的计算系统1200的框图。计算系统1200包括具有一个或多个处理器1202和系统存储器1204的处理子系统1201。这一个或多个处理器1202与系统存储器1204经由可包括存储器中枢1205的互连路径进行通信。存储器中枢1205可以是芯片组组件内的单独组件或者可被集成在一个或多个处理器1202内。存储器中枢1205经由通信链路1206而与I/O子系统1211耦合。I/O子系统1211包括I/O中枢1207，该I/O中枢1207可以使得计算系统1200能够从一个或多个输入设备1208接收输入。另外，I/O中枢1207可以使得显示控制器能够向一个或多个显示设备1210A提供输出，该显示控制器可包括在一个或多个处理器1202中。在一个实施例中，与I/O中枢1207耦合的一个或多个显示设备1210A可以包括本地的、内部的、或嵌入式的显示设备。

在一个实施例中，处理子系统1201包括经由总线或其他通信链路1213耦合至存储器中枢1205的一个或多个并行处理器1212。通信链路1213可以是任何数量的基于标准的通信链路技术或协议中的一种，诸如但不限于PCI Express，或者可以是供应方特定的通信接口或通信结构。在一个实施例中，一个或多个并行处理器1212形成可包括大量处理核和/或处理集群的集中于计算的并行或向量处理系统，诸如，集成众核(MIC)处理器。在一个实施例中，一个或多个并行处理器1212形成可以向经由I/O中枢1207耦合的一个或多个显示设备1210A中的一个输出像素的图形处理子系统。一个或多个并行处理器1212还可以包括显示控制器以及用于实现到一个或多个显示设备1210B的直接连接的显示接口(未示出)。

在I/O子系统1211内，系统存储单元1214可以连接至I/O中枢1207，从而为计算系统1200提供存储机制。I/O开关1216可被用来提供实现I/O中枢1207与其他组件之间的连接的接口机制，这些其他组件诸如，可被集成到平台中的网络适配器1218和/或无线网络适配器1219、以及可以经由一个或多个插入式设备1220被添加的各种其他设备。网络适配器1218可以是以太网适配器或另一有线网络适配器。无线网络适配器1219可以包括Wi-Fi、蓝牙、近场通信(NFC)或包括一个或多个无线电装置的其他网络设备中的一者或多者。

计算系统1200可以包括未显式地示出的其他组件，包括USB或其他端口连接、光学存储驱动器、视频捕捉设备等等，这些组件也可连接至I/O中枢1207。使图12中的各组件互连的通信路径可使用任何合适的协议来实现，这些协议诸如，基于PCI(外围组件互连)的协议(例如，PCI-Express)或任何其他总线或点对点通信接口和/或(多个)协议，诸如NV-Link高速互连或本领域已知的互连协议。

在一个实施例中，一个或多个并行处理器1212包含针对图形和视频处理进行优化的电路(包括例如，视频输出电路)并构成图形处理单元(GPU)。在另一实施例中，本文中更详细地描述，一个或多个并行处理器1212包含针对通用处理进行优化同时保留底层计算架构的电路。在又一实施例中，计算系统1200的组件可与一个或多个其他系统元件集成在单个集成电路上。例如，一个或多个并行处理器1212、存储器中枢1205、处理器1202、以及I/O中枢1207可以被集成在芯片上系统(SoC)集成电路中。替代地，计算系统1200的组件可被集成到单个封装中，以形成系统级封装(SIP)配置。在一个实施例中，计算系统1200的组件中的至少部分可被集成到多芯片模块(MCM)中，该多芯片模块可以与其他多芯片模块互连成为模块化计算系统。

将会领会，本文中所示出的计算系统1200是说明性的，并且变型和修改是可能的。可按需要修改连接拓扑，包括桥接器的数量和布置、(多个)处理器1202的数量、以及(多个)并行处理器1212的数量。例如，在一些实施例中，系统存储器1204直接地而不是通过桥接器连接至(多个)处理器1202，而其他设备通过存储器中枢1205和(多个)处理器1202而与系统存储器1204进行通信。在其他替代拓扑中，(多个)并行处理器1212连接至I/O中枢1207或直接连接至一个或多个处理器1202中的一个，而不是连接至存储器中枢1205。在其他实施例中，I/O中枢1207和存储器中枢1205可被集成到单个芯片中。一些实施例可包括经由多个插槽附连的两组或更多组(多个)处理器1202，这些处理器1202可以与(多个)并行处理器1212的两个或更多个实例耦合。

本文中所示出的特定组件中的一些是可选的，并且并非在计算系统1200的所有实现方式中都包括这些组件。例如，可支持任何数量的插入式卡或外围设备，或者可消除一些组件。此外，一些架构可针对类似于图12中所图示的那些组件的组件使用不同的术语。例如，在一些架构中，存储器中枢1205可被称为北桥，而I/O中枢1207可被称为南桥。

图13A图示出根据实施例的并行处理器1300。并行处理器1300的各组件可使用诸如可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)之类的一个或多个集成电路设备来实现。所图示的并行处理器1300是根据实施例的图12中所示出的一个或多个并行处理器1212的变型。

在一个实施例中，并行处理器1300包括并行处理单元1302。并行处理单元包括实现与其他设备的通信的I/O单元1304，这些其他设备包括并行处理单元1302的其他实例。I/O单元1304可直接连接至其他设备。在一个实施例中，I/O单元1304通过使用中枢或开关接口(诸如，存储器中枢1205)而与其他设备连接。存储器中枢1205与I/O单元1304之间的连接形成通信链路1213。在并行处理单元1302内，I/O单元1304与主机接口1306以及存储器交叉开关1316连接，其中，主机接口1306接收涉及执行处理操作的命令，并且存储器交叉开关1316接收涉及执行存储器操作的命令。

当主机接口1306经由I/O单元1304接收命令缓冲器时，主机接口1306可以将用于执行那些命令的工作操作引导至前端1308。在一个实施例中，前端1308与调度器1310耦合，该调度器1310被配置成用于将命令或其他工作项目分发给处理集群阵列1312。在一个实施例中，调度器1310确保在将任务分发给处理集群阵列1312中的处理集群之前处理集群阵列1312被恰当地配置并且处于有效状态。在一个实施例中，经由在微控制器上执行的固件逻辑来实现调度器1310。微控制器实现的调度器1310可配置成在粗粒度和细粒度下执行复杂的调度和工作分发操作，从而实现对在处理阵列1312上执行的线程的快速抢占和上下文切换。在一个实施例中，主机软件可以经由多个图形处理门铃机制中的一者来证实用于在处理阵列1312上调度的工作负荷。工作负荷随后可以由调度器微控制器内的调度器1310逻辑跨处理阵列1312自动地分发。

处理集群阵列1312可以包括高达“N”个处理集群(例如，集群1314A、集群1314B至集群1314N)。处理集群阵列1312中的每个集群1314A-1314N可以执行大量的并发线程。调度器1310可以使用各种调度和/或工作分发算法将工作分配给处理集群阵列1312中的集群1314A-1314N，这些调度和/或工作分发算法可取决于针对每种类型的程序或计算出现的工作负荷而变化。调度可以由调度器1310动态地处置，或可以在对于被配置成供处理集群阵列1312执行的程序逻辑的编译期间部分地由编译器逻辑协助。在一个实施例中，处理集群阵列1312中的不同的集群1314A-1314N可以被分配用于处理不同类型的程序或用于执行不同类型的计算。

处理集群阵列1312可以被配置成用于执行各种类型的并行处理操作。在一个实施例中，处理集群阵列1312被配置成用于执行通用并行计算操作。例如，处理集群阵列1312可以包括用于执行处理任务的逻辑，这些处理任务包括对视频和/或音频数据的过滤、执行建模操作(包括物理操作)以及执行数据变换。

在一个实施例中，处理集群阵列1312被配置成用于执行并行图形处理操作。在其中并行处理器1300被配置成用于执行图形处理操作的实施例中，处理集群阵列1312可以包括用于支持此类图形处理操作的执行的附加逻辑，包括但不限于，用于执行纹理操作的纹理采样逻辑以及曲面细分逻辑和其他顶点处理逻辑。另外，处理集群阵列1312可以被配置成用于执行与图形处理有关的着色器程序，诸如但不限于，顶点着色器、曲面细分着色器、几何着色器以及像素着色器。并行处理单元1302可以经由I/O单元1304从系统存储器传输数据以供处理。在处理期间，可在处理期间将所传输的数据存储到芯片上存储器(例如，并行处理器存储器1322)，随后将该数据写回到系统存储器。

在一个实施例中，当使用并行处理单元1302来执行图形处理时，调度器1310可以被配置成用于将处理工作负荷分成近似相等尺寸的任务，以更好地实现图形处理操作到处理集群阵列1312中的多个集群1314A-1314N的分发。在一些实施例中，处理集群阵列1312的部分可以被配置成用于执行不同类型的处理。例如，第一部分可被配置成用于执行顶点着色和拓扑生成，第二部分可被配置成用于执行曲面细分和几何着色，并且第三部分可被配置成用于执行像素着色或其他屏幕空间操作，以产生用于显示的经渲染的图像。由集群1314A-1314N中的一个或多个集群产生的中间数据可被存储在缓冲器中，以允许该中间数据在集群1314A-1314N之间传送，以供进行进一步处理。

在操作期间，处理集群阵列1312可以经由调度器1310接收将要被执行的处理任务，该调度器1310从前端1308接收定义处理任务的命令。对于图形处理操作，处理任务可以包括将要被处理的数据以及定义将如何处理该数据(例如，将执行什么程序)的状态参数和命令的索引，该数据例如，表面(补片(patch))数据、基元数据、顶点数据和/或像素数据。调度器1310可被配置成用于取出与任务相对应的索引，或者可从前端1308接收索引。前端1308可以被配置成用于确保在由传入命令缓冲器(例如，批量缓冲器、推入缓冲器等)指定的工作负荷被发起之前处理集群阵列1312被配置成有效状态。

并行处理单元1302的一个或多个实例中的每个实例可以与并行处理器存储器1322耦合。可以经由存储器交叉开关1316来访问并行处理器存储器1322，该存储器交叉开关1316可以接收来自处理集群阵列1312以及I/O单元1304的存储器请求。存储器交叉开关1316可以经由存储器接口1318来访问并行处理器存储器1322。存储器接口1318可以包括多个分区单元(例如，分区单元1320A、分区单元1320B至分区单元1320N)，这些分区单元可以各自耦合至并行处理器存储器222的部分(例如，存储器单元)。在一种实现方式中，分区单元1320A-1320N的数量被配置成等于存储器单元的数量，以使得第一分区单元1320A具有对应的第一存储器单元1324A，第二分区单元1320B具有对应的存储器单元1324B，并且第N分区单元1320N具有对应的第N存储器单元1324N。在其他实施例中，分区单元1320A-1320N的数量可以不等于存储器设备的数量。

在各实施例中，存储器单元1324A-1324N可以包括各种类型的存储器设备，包括动态随机存取存储器(DRAM)或图形随机存取存储器，诸如，同步图形随机存取存储器(SGRAM)，包括图形双数据速率(GDDR)存储器。在一个实施例中，存储器单元1324A-1324N还可以包括3D堆叠式存储器，包括但不限于高带宽存储器(HBM)。本领域技术人员将会领会，存储器单元1324A-1324N的具体实现方式可以有所不同，并且可以从各种常规设计中的一种设计进行选择。诸如帧缓冲器或纹理映射之类的渲染目标可跨存储器单元1324A-1324N进行存储，从而允许分区单元1320A-1320N并行地写入每个渲染目标的部分，以高效地使用并行处理器存储器1322的可用带宽。在一些实施例中，可排除并行处理器存储器1322的本地实例，以有利于利用与本地高速缓存存储器结合的系统存储器的统一存储器设计。

在一个实施例中，处理集群阵列1312中的集群1314A-1314N中的任一者可以处理将被写入到并行处理器存储器1322内的存储器单元1324A-1324N中的任一者的数据。存储器交叉开关1316可以被配置成用于将每个集群1314A-1314N的输出传输到任一分区单元1320A-1320N或传输到另一集群1314A-1314N，该另一集群1314A-1314N可以对该输出执行附加的处理操作。每个集群1314A-1314N可以通过存储器交叉开关1316而与存储器接口1318进行通信，以从各种外部存储器设备进行读取或写入到各种外部存储器设备。在一个实施例中，存储器交叉开关1316具有到存储器接口1318的连接以与I/O单元1304进行通信，以及具有到并行处理器存储器1322的本地实例的连接，从而使得不同处理集群1314A-1314N内的处理单元能够与系统存储器或对于并行处理单元1302而言不是本地的其他存储器通信。在一个实施例中，存储器交叉开关1316可以使用虚拟通道来分离集群1314A-1314N与分区单元1320A-1320N之间的业务流(traffic stream)。

尽管在并行处理器1300内图示出并行处理单元1302的单个实例，但可以包括并行处理单元1302的任何数量的实例。例如，并行处理单元1302的多个实例可以被设置在单个插入式卡上，或者多个插入式卡可以是互连的。并行处理单元1302的不同实例可以被配置成用于互操作，即使不同的实例具有不同数量的处理核、不同的本地并行处理器存储器量、和/或其他配置差别。例如，在一个实施例中，并行处理单元1302的一些实例可以包括相对于其他实例更高精度的浮点单元。包含并行处理单元1302或并行处理器1300的一个或多个实例的系统能以各种配置和形状因子来实现，这些配置和形状因子包括但不限于，台式计算机、膝上型计算机、或手持式个人计算机、服务器、工作站、游戏控制台和/或嵌入式系统。

图13B是根据实施例的分区单元1320的框图。在一个实施例中，分区单元1320是图13A的分区单元1320A-1320N中的一个分区单元的实例。如所图示，分区单元1320包括L2高速缓存1321、帧缓冲器接口1325、以及ROP 1326(栅格操作单元)。L2高速缓存1321是被配置成用于执行从存储器交叉开关1316和ROP 1326接收的加载和存储操作的读取/写入高速缓存。读取未命中和紧迫写回请求由L2高速缓存1321输出到帧缓冲器接口1325以供处理。还可以经由帧缓冲器接口1325将更新发送至帧缓冲器以供处理。在一个实施例中，帧缓冲器接口1325与并行处理器存储器中的存储器单元中的一者对接，该存储器单元诸如图13A的存储器单元1324A-1324N(例如，在并行处理器存储器1322内)。

在图形应用中，ROP 1326是执行栅格操作(诸如，模板印制(stencil)、z测试、混合等等)的处理单元。ROP 1326随后输出经处理的图形数据，经处理的图形数据被存储在图形存储器中。在一些实施例中，ROP 1326包括用于压缩被写入至存储器的深度或颜色数据并解压缩从存储器读取的深度或颜色数据的压缩逻辑。压缩逻辑可以是利用多种压缩算法中的一种或多种的无损压缩逻辑。由ROP 1326执行的压缩的类型可以基于将要被压缩的数据的统计特性而变化。例如，在一个实施例中，逐片(tile)地对深度和颜色数据执行Δ色彩压缩。

在一些实施例中，ROP 1326被包括在每个处理集群(例如，图13A的集群1314A-1314N)内而非被包括在分区单元1320内。在此类实施例中，通过存储器交叉开关1316来传送像素数据而非像素片段数据的读取和写入请求。经处理的图形数据可被显示在显示设备(诸如，图12的一个或多个显示设备1210中的一个显示设备)上，可被路由以供(多个)处理器1202进一步处理，或者可被路由以供图13A的并行处理器1300内的处理实体中的一个处理实体进一步处理。

图13C是根据实施例的并行处理单元内的处理集群1314的框图。在一个实施例中，处理集群是图13A的处理集群1314A-1314N中的一个处理集群的实例。处理集群1314可以被配置成用于并行地执行多个线程，其中，术语“线程”是指在特定的输入数据集合上执行的特定程序的实例。在一些实施例中，使用单指令多数据(SIMD)指令发布技术来支持大量线程的并行执行而无需提供多个独立的指令单元。在其他实施例中，使用单指令多线程(SIMT)技术来使用被配置成用于向处理集群中的每个处理集群内的处理引擎集合发布指令的公共指令单元来支持大量总体上同步的线程的并行执行。与其中所有处理引擎典型地执行相同指令的SIMD执行机制不同，SIMT执行允许不同的线程更容易地遵循通过给定的线程程序的发散的执行路径。本领域技术人员将理解，SIMD处理机制表示SIMT处理机制的功能子集。

可以经由将处理任务分发给SIMT并行处理器的流水线管理器1332来控制处理集群1314的操作。流水线管理器1332从图13A的调度器1310接收指令，并且经由图形多处理器1334和/或纹理单元1336来管理那些指令的执行。所图示的图形多处理器1334是SIMT并行处理器的示例性实例。然而，可将不同架构的各种类型的SIMT并行处理器包括在处理集群1314内。可以将图形多处理器1334的一个或多个实例包括在处理集群1314内。图形多处理器1334可以处理数据，并且数据交叉开关1340可以用于将经处理的数据分发到多个可能的目的地中的一个目的地，包括其他着色器单元。流水线管理器1332可以通过为将要经由数据交叉开关1340分发的经处理的数据指定目的地来促进对经处理的数据的分发。

处理集群1314内的每个图形多处理器1334可以包括相同的功能执行逻辑集合(例如，算术逻辑单元、加载－存储单元等)。能以流水线化的方式配置功能执行逻辑，在该流水线化的方式中，可以在完成先前指令之前发布新的指令。功能执行逻辑支持各种操作，包括整数和浮点算术、比较操作、布尔操作、位移位、以及各种代数函数的计算。在一个实施例中，可以利用同一功能单元硬件来执行不同的操作，并且可能存在功能单元的任何组合。

被传送至处理集群1314的指令构成线程。跨并行处理引擎集合执行的线程集合是线程组。线程组对不同的输入数据执行同一程序。线程组内的每个线程可以被分派给图形多处理器1334内的不同处理引擎。线程组可包括比图形多处理器1334内的处理引擎的数量更少的线程。当线程组包括比处理引擎的数量更少的线程时，处理引擎中的一个或多个在处理该线程组所在的周期期间可能是空闲的。线程组也可包括比图形多处理器1334内的处理引擎的数量更多的线程。当线程组包括比图形多处理器1334内的处理引擎的数量更多的线程时，可在连续的时钟周期上执行处理。在一个实施例中，可在图形多处理器1334上同时执行多个线程组。

在一个实施例中，图形多处理器1334包括内部高速缓存存储器，以执行加载和存储操作。在一个实施例中，图形多处理器1334可以放弃内部高速缓存并且使用处理集群1314内的高速缓存存储器(例如，L1高速缓存1348)。每个图形多处理器1334还具有对分区单元(例如，图13A的分区单元1320A-1320N)内的L2高速缓存的访问，这些L2高速缓存在所有处理集群1314之间共享并且可被用来在线程之间传输数据。图形多处理器1334还可访问芯片外全局存储器，该芯片外全局存储器可以包括本地并行处理器存储器和/或系统存储器中的一者或多者。并行处理单元1302外部的任何存储器可被用作全局存储器。其中处理集群1314包括图形多处理器1334的多个实例的实施例可以共享公共指令和数据，这些公共指令和数据可被存储在L1高速缓存1348中。

每个处理集群1314可包括被配置成用于将虚拟地址映射到物理地址的MMU 1345(存储器管理单元)。在其他实施例中，MMU 1345的一个或多个实例可驻留在图13A的存储器接口1318内。MMU 1345包括用于将虚拟地址映射到片(谈及更多关于分片)的物理地址的页表条目(PTE)的集合并且可选地包括高速缓存行索引。MMU 1345可包括可驻留在图形多处理器1334或L1高速缓存或处理集群1314内的地址转换后备缓冲器(TLB)或高速缓存。对物理地址进行处理，以分发表面数据访问局部性，从而允许分区单元之间的高效的请求交织。可使用高速缓存行索引来确定针对高速缓存行的请求是命中还是未命中。

在图形和计算应用中，处理集群1314可被配置以使得每个图形多处理器1334耦合至纹理单元1336以供执行纹理映射操作，例如，确定纹理样本位置、读取纹理数据、以及过滤纹理数据。纹理数据读取自内部纹理L1高速缓存(未示出)，或者在一些实施例中，读取自图形多处理器1334内的L1高速缓存，并按需要从L2高速缓存、本地并行处理器存储器或系统存储器取出。每个图形多处理器1334向数据交叉开关1340输出经处理的任务，以向另一处理集群1314提供经处理的任务以供进一步处理，或者经由存储器交叉开关1316将经处理的任务存储在L2高速缓存、本地并行处理器存储器或系统存储器中。preROP 1342(预先栅格操作单元)被配置成用于从图形多处理器1334接收数据、将数据引导至ROP单元，这些ROP单元可与如本文中所描述的分区单元(例如，图13A的分区单元1320A-1320N)一起被定位。preROP 1342单元可针对颜色混合执行优化、组织像素颜色数据、并且执行地址转换。

将会领会，本文中所描述的核架构是说明性的，并且变型和修改是可能的。可将任何数量的处理单元(例如，图形多处理器1334、纹理单元1336、preROP 1342等)包括在处理集群1314内。进一步地，尽管仅示出了一个处理集群1314，但是如本文中所描述的并行处理单元可包括处理集群1314的任何数量的实例。在一个实施例中，每个处理集群1314可以被配置成用于使用单独且不同的处理单元、L1高速缓存等来独立于其他处理集群1314进行操作。

图13D示出了根据一个实施例的图形多处理器1334。在此类实施例中，图形多处理器1334与处理集群1314的流水线管理器1332耦合。图形多处理器1334具有执行流水线，该执行流水线包括但不限于，指令高速缓存1352、指令单元1354、地址映射单元1356、寄存器堆1358、一个或多个通用图形处理单元(GPGPU)核1362、以及一个或多个加载/存储单元1366。GPGPU核1362和加载/存储单元1366经由存储器和高速缓存互连1368而与高速缓存存储器1372以及共享存储器1370耦合。

在一个实施例中，指令高速缓存1352从流水线管理器1332接收要执行的指令流。指令被高速缓存在指令高速缓存1352中并被分派以供指令单元1354执行。指令单元1354可以将指令作为线程组(例如，包块(warp))进行分派，其中，线程组中的每个线程被指派给GPGPU核1362内的不同执行单元。指令可以通过指定统一地址空间内的地址来访问本地、共享或全局地址空间中的任一者。可以使用地址映射单元1356将统一地址空间中的地址转换为可以由加载/存储单元1366访问的不同的存储器地址。

寄存器堆1358为图形多处理器1334的功能单元提供寄存器集合。寄存器堆1358为连接至图形多处理器1334的功能单元(例如，GPGPU核1362、加载/存储单元1366)的数据路径的操作数提供临时存储。在一个实施例中，寄存器堆1358在功能单元中的每个功能单元之间划分，以使得给每个功能单元分配寄存器堆1358中的专用部分。在一个实施例中，寄存器堆1358在由图形多处理器1334执行的不同包块之间划分。

GPGPU核1362可以各自包括用于执行图形多处理器1334的指令的浮点单元(FPU)和/或整数算术逻辑单元(ALU)。根据实施例，GPGPU核1362在架构上可能类似，或者可能在架构上相区别。例如，并且在一个实施例中，GPGPU核1362的第一部分包括单精度FPU和整数ALU，而GPGPU核的第二部分包括双精度FPU。在一个实施例中，FPU可以实现针对浮点算术的IEEE 754-2008标准，或实现可变精度浮点算术。图形多处理器1334可以附加地包括用于执行特定功能(诸如，复制矩形或像素混合操作)的一个或多个固定功能单元或专门功能单元。在一个实施例中，GPGPU核中的一个或多个还可以包括固定或专门功能逻辑。

在一个实施例中，GPGPU核1362包括能够对多个数据集合执行单个指令的SIMD逻辑。在一个实施例中，GPGPU核1362可以物理地执行SIMD4、SIMD8和SIMD16指令，并且逻辑地执行SIMD1、SIMD2和SIMD32指令。针对GPGPU核的SIMD指令可以由着色器编译器在编译时生成，或在执行针对单程序多数据(SPMD)或SIMT架构而编写并且编译的程序时自动地生成。可以经由单个SIMD指令来执行被配置成用于SIMT执行模型的程序的多个线程。例如，并且在一个实施例中，可以经由单个SIMD8逻辑单元来并行执行八个SIMT线程，这八个SIMT线程执行相同或类似的操作。

存储器和高速缓存互连1368是将图形多处理器1334的功能单元中的每个功能单元连接至寄存器堆1358并连接至共享存储器1370的互连网络。在一个实施例中，存储器和高速缓存互连1368是允许加载/存储单元1366实现共享存储器1370与寄存器堆1358之间的加载和存储操作的交叉开关互连。寄存器堆1358能以与GPGPU核1362相同的频率进行操作，因此GPGPU核1362与寄存器堆1358之间的数据传输是非常低等待时间的。可以使用共享存储器1370来实现在图形多处理器1334内的功能单元上执行的线程之间的通信。高速缓存存储器1372可以被用作数据高速缓存，例如，用于对在功能单元与纹理单元1336之间传输的纹理数据进行高速缓存。共享存储器1370还可以被用作所高速缓存的受管理的程序。除被存储在高速缓存存储器1372内的自动高速缓存的数据之外，在GPGPU核1362上执行的线程还能以编程方式将数据存储在共享存储器内。

图14A-图14B图示出根据实施例的附加图形多处理器。所图示图形多处理器1425、1450是图13C的图形多处理器1334的变型。所图示的图形多处理器1425、1450可被配置为能够同时执行大量执行线程的流式多处理器(SM)。

图14A示出了根据附加实施例的图形多处理器1425。相对于图13D的图形多处理器1334，图形多处理器1425包括执行资源单元的多个附加实例。例如，图形多处理器1425可以包括指令单元1432A-1432B、寄存器堆1434A-1434B和(多个)纹理单元1444A-1444B的多个实例。图形多处理器1425还包括多个图形或计算执行单元集合(例如，GPGPU核1436A-1436B、GPGPU核1437A-1437B、GPGPU核1438A-1438B)以及多个加载/存储单元集合1440A-1440B。在一个实施例中，执行资源单元具有公共指令高速缓存1430、纹理和/或数据高速缓存存储器1442、以及共享存储器1446。

各组件可以经由互连结构(interconnect fabric)1427进行通信。在一个实施例中，互连结构1427包括一个或多个交叉开关以实现在图形多处理器1425的各组件之间的通信。在一个实施例中，互连结构1427是单独的、高速网络结构层，图形多处理器1425的每个组件堆叠在该网络结构层上。图形多处理器1425的组件经由互连结构1427与远程组件进行通信。例如，GPGPU核1436A-1436B、1437A-1437B以及1478A-1438B可以各自经由互连结构1427与共享存储器1446通信。互连结构1427可以对图形多处理器1425内的通信进行仲裁，以确保组件之间公平的带宽分配。

图14B示出了根据附加实施例的图形多处理器1450。图形处理器包括多个执行资源集合1456A-1456D，其中，如图13D和图14A中所图示，每个执行资源集合包括多个指令单元、寄存器堆、GPGPU核、以及加载存储单元。执行资源1456A-1456D可以与用于纹理操作的(多个)纹理单元1460A-1460D协同工作，同时共享指令高速缓存1454和共享存储器1453。在一个实施例中，执行资源1456A-1456D可以共享指令高速缓存1454和共享存储器1453以及纹理和/或数据高速缓存存储器1458A-1458B的多个实例。各组件可以经由类似于图14A的互连结构1427的互连结构1452进行通信。

本领域技术人员将会理解，图12、图13A-图13D以及图14A-图14B中所描述的架构是描述性的并且不限制本实施例的范围。因此，在不背离本文中所描述的实施例的范围的情况下，本文中所描述的技术可在任何恰当配置的处理单元上实现，该处理单元包括但不限于一个或多个移动应用处理器、一个或多个台式机或服务器中央处理单元(CPU)(包括多核CPU)、一个或多个并行处理单元(诸如，图13A的并行处理单元1302)、以及一个或多个图形处理器或专用处理单元。

在一些实施例中，本文中所描述的并行处理器或GPGPU通信地耦合至主机/处理器核以加速图形操作、机器学习操作、模式分析操作、以及各种通用GPU(GPGPU)功能。GPU可通过总线或其他互连(例如，诸如PCIe或NVLink之类的高速互连)而通信地耦合至主机处理器/核。在其他实施例中，GPU可与核集成在同一封装或芯片上，并且通过内部处理器总线/互连(即，在封装或芯片内部)通信地耦合至核。不论连接GPU所采用的方式如何，处理器核都可以采用工作描述符中所包含的命令/指令序列的形式将工作分配给GPU。GPU随后使用专用电路/逻辑来有效地处理这些命令/指令。

用于GPU到主机处理器互连的技术

图15A图示出其中多个GPU 1510-1513通过高速链路1540A-1540D(例如，总线、点对点互连等)通信地耦合至多个多核处理器1505-1506的示例性架构。在一个实施例中，取决于实现方式，高速链路1540A-1540D支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。可使用各种互连协议，这些互连协议包括但不限于，PCIe 4.0或5.0以及NVLink 2.0。然而，本发明的基本原理不限于任何特定的通信协议或吞吐量。

另外，在一个实施例中，GPU 1510-1513中的两个或更多个通过高速链路1542A-1542B进行互连，这可使用与用于高速链路1540A-1540D的那些协议/链路相同或不同的协议/链路来实现。类似地，多核处理器1505-1506中的两个或更多个可通过高速链路1543进行连接，该高速链路1543可以是在20GB/s、30GB/s、120GB/s或更高速度下进行操作的对称多处理器(SMP)总线。替代地，图15A中示出的各种系统组件之间的所有通信可使用相同的协议/链路(例如，通过公共互连结构)来完成。如所提到，然而，本发明的基本原理不限于任何特定类型的互连技术。

在一个实施例中，每个多核处理器1505-1506分别经由存储器互连1530A-1530B通信地耦合至处理器存储器1501-1502，并且每个GPU 1510-1513分别通过GPU存储器互连1550A-1550D通信地耦合至GPU存储器1520-1523。存储器互连1530A-1530B和1550A-1550D可利用相同或不同的存储器访问技术。作为示例并且不作为限制，处理器存储器1501-1502和GPU存储器1520-1523可以是诸如动态随机存取存储器(DRAM)(包括堆叠的DRAM)、图形DDR SDRAM(GDDR)(例如，GDDR5、GDDR6)、或高带宽存储器(HBM)之类的易失性存储器，并且/或者可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。在一个实施例中，这些存储器中的某个部分可以是易失性存储器并且另一部分可以是非易失性存储器(例如，使用两级存储器(2LM)层级结构)。

如下文中所描述，尽管各处理器1505-1506和GPU 1510-1513可分别物理地耦合至特定的存储器1501-1502、1520-1523，但是可实现其中同一虚拟系统地址空间(也被称为“有效地址”空间)在所有的各种物理存储器之间进行分布的统一存储器架构。例如，处理器存储器1501-1502可各自包括64GB的系统存储器地址空间，并且GPU存储器1520-1523可各自包括32GB的系统存储器地址空间(在该示例中，得到总计256GB可寻址的存储器)。

图15B图示出根据一个实施例的多核处理器1507和图形加速模块1546之间的互连的附加细节。图形加速模块1546可包括集成在线卡上的一个或多个GPU芯片，该线卡经由高速链路1540耦合至处理器1507。替代地，可将图形加速模块1546集成在与处理器1507相同的封装或芯片上。

所图示的处理器1507包括多个核1560A-1560D，各自具有转换后备缓冲器1561A-1561D以及一个或多个高速缓存1562A-1562D。核可包括用于执行指令并处理数据的各种其他组件，未图示出这些组件以避免使本发明的基本原理模糊(例如，指令取出单元、分支预测单元、解码器、执行单元、重排序缓冲器等)。高速缓存1562A-1562D可包括第1级(L1)高速缓存和第2级(L2)高速缓存。另外，一个或多个共享高速缓存1556可被包括在高速缓存层级结构中并由核集合1560A-1560D共享。例如，处理器1507的一个实施例包括24个核，各自具有其自己的L1高速缓存、十二个共享L2高速缓存、以及十二个共享L3高速缓存。在该实施例中，L2高速缓存和L3高速缓存中的一者由两个相邻的核共享。处理器1507和图形加速模块1546与系统存储器1541连接，该系统存储器1541可包括处理器存储器1501-1502。

经由通过一致性总线1564的核间通信为存储在各高速缓存1562A-1562D、1556和系统存储器1541中的数据和指令维持一致性。例如，每个高速缓存可具有与其相关联的高速缓存一致性逻辑/电路，以响应于检测到的对特定高速缓存行的读取或写入而通过一致性总线1564进行通信。在一种实现方式中，通过一致性总线1564实现高速缓存监听协议，以监听高速缓存访问。高速缓存监听/一致性技术为本领域技术人员很好地理解并且将不在此详细描述，以避免使本发明的基本原理模糊。

在一个实施例中，代理电路1525将图形加速模块1546通信地耦合至一致性总线1564，从而允许图形加速模块1546作为核的对等体参与高速缓存一致性协议。具体而言，接口1535通过高速链路1540(例如，PCIe总线、NVLink等)提供到代理电路1525的连接性，并且接口1537将图形加速模块1546连接至链路1540。

在一种实现方式中，加速器集成电路1536代表图形加速模块1546的多个图形处理引擎1531、1532、N提供高速缓存管理、存储器访问、上下文管理、以及中断管理服务。图形处理引擎1531、1532、N可各自包括单独的图形处理单元(GPU)。替代地，图形处理引擎1531、1532、N可包括GPU内的不同类型的图形处理引擎，诸如，图形执行单元、媒体处理引擎(例如，视频编码器/解码器)、采样器以及blit引擎。换言之，图形加速模块可以是具有多个图形处理引擎1531-1532、N的GPU，或者图形处理引擎1531-1532、N可以是集成在公共封装、线卡或芯片上的单独的GPU。

在一个实施例中，加速器集成电路1536包括存储器管理单元(MMU)1539，该MMU1539用于执行诸如虚拟到物理存储器转换(也称为有效到实际存储器转换)之类的各种存储器管理功能以及用于访问系统存储器1541的存储器访问协议。MMU 1539还可包括用于对虚拟/有效到物理/实际地址转换进行高速缓存的转换后备缓冲器(TLB)(未示出)。在一种实现方式中，高速缓存1538存储用于由图形处理引擎1531-1532、N高效访问的命令和数据。在一个实施例中，使高速缓存1538和图形存储器1533-1534、M中存储的数据与核高速缓存1562A-1562D、1556以及系统存储器1511保持一致。如所提到，这可经由代理电路1525来完成，该代理电路1525代表高速缓存1538和存储器1533-1534、M参与高速缓存一致性机制(例如，向高速缓存1538发送与处理器高速缓存1562A-1562D、1556上的高速缓存行的修改/访问相关的更新并从高速缓存1538接收更新)。

寄存器集合1545存储针对由图形处理引擎1531-1532、N执行的线程的上下文数据，并且上下文管理电路1548管理这些线程上下文。例如，上下文管理电路1548可在上下文切换期间执行用于保存和恢复各线程的上下文的保存和恢复操作(例如，其中，第一线程被保存并且第二线程被存储，以使得第二线程可以由图形处理引擎执行)。例如，在上下文切换时，上下文管理电路1548可将当前寄存器值存储到存储器中的指定区域(例如，由上下文指针标识)。当返回到该上下文时，其随后可恢复寄存器值。在一个实施例中，中断管理电路1547接收并处理接收自系统设备的中断。

在一种实现方式中，由MMU 1539将来自图形处理引擎1531的虚拟/有效地址转换为系统存储器1511中的实际/物理地址。加速器集成电路1536的一个实施例支持多个(例如，4个、8个、16个)图形加速模块1546和/或其他加速器设备。图形加速模块446可专用于在处理器1507上执行的单个应用，或者可在多个应用之间共享。在一个实施例中，存在虚拟化图形执行环境，其中，图形处理引擎1531-1532、N的资源与多个应用或虚拟机(VM)共享。这些资源可被细分为“切片(slice)”，这些切片基于处理要求以及与VM和/或应用相关联的优先级而被分配给不同的VM和/或应用。

因此，加速器集成电路充当用于图形加速模块1546的到系统的桥接器，并且提供地址转换和系统存储器高速缓存服务。另外，加速器集成电路1536可为主机处理器提供虚拟化设施，以管理对图形处理引擎、中断和存储器管理的虚拟化。

因为图形处理引擎1531-1532、N的硬件资源被显式地映射到由主机处理器1507查看的实际地址空间，所以任何主机处理器可以使用有效地址值直接对这些资源进行寻址。在一个实施例中，加速器集成电路1536的一个功能是对图形处理引擎1531-1532、N的物理分离，以使得它们对系统看起来是独立单元。

如所提到，在所图示的实施例中，一个或多个图形存储器1533-1534、M分别耦合至图形处理引擎1531-1532、N中的每个图形处理引擎。图形存储器1533-1534、M存储由图形处理引擎1531-1532、N中的每个图形处理引擎处理的指令和数据。图形存储器1533-1534、M可以是诸如DRAM(包括堆叠的DRAM)、GDDR存储器(例如，GDDR5、GDDR6)或HBM之类的易失性存储器，和/或可以是诸如3D XPoint或Nano-Ram之类的非易失性存储器。

在一个实施例中，为了降低链路1540上的数据通信量，使用偏置技术来确保存储在图形存储器1533-1534、M中的数据是将由图形处理引擎1531-1532、N最频繁地使用并且优选地不由核1560A-1560D使用(至少不频繁地使用)的数据。类似地，偏置机制尝试将核(并且优选地，不是图形处理引擎1531-1532、N)所需要的数据保持在这些核的高速缓存1562A-1562D、1556和系统存储器1511内。

图15C图示出其中加速器集成电路1536被集成在处理器1507内的另一实施例。在该实施例中，经由接口1537和接口1535(其同样可利用任何形式的总线或接口协议)，图形处理引擎1531-1532、N通过高速链路1540与加速器集成电路1536直接通信。加速器集成电路1536可执行与参考图15B所描述的那些操作相同的操作，但是考虑到该加速器集成电路1536与一致性总线1564和高速缓存1562A-1562D、1556紧密邻近，其潜在地可在较高的吞吐量下执行操作。

一个实施例支持不同的编程模型，这些编程模型包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(具有虚拟化)。后者可包括受加速器集成电路1536控制的编程模型以及受图形加速模块1546控制的编程模型。

在专用进程模型的一个实施例中，图形处理引擎1531-1532、N在单个操作系统下专用于单个应用或进程。该单个应用可以将其他应用请求汇集至图形处理引擎1531-1532、N，从而提供VM/分区内的虚拟化。

在专用进程编程模型中，图形处理引擎1531-1532、N可由多个VM/应用分区共享。共享模型要求系统管理程序使图形处理引擎1531-1532、N虚拟化，以允许由每个操作系统访问。对于不具有管理程序的单分区系统，图形处理引擎1531-1532、N由操作系统所有。在这两种情况下，操作系统可以使图形处理引擎1531-1532、N虚拟化，以提供对每个进程或应用的访问。

对于共享编程模型，图形加速模块1546或各个图形处理引擎1531-1532、N使用进程句柄来选择进程要素。在一个实施例中，进程要素被存储在系统存储器1511中，并且是使用本文中所描述的有效地址到实际地址转换技术可寻址的。进程句柄可以是在向图形处理引擎1531-1532、N注册其上下文(即，调用系统软件以将进程要素添加到进程要素链表)时提供给主机进程的实现方式特定的值。进程句柄的较低的16位可以是进程要素在进程要素链表内的偏移。

图15D图示出示例性加速器集成切片1590。如本文中所使用，“切片”包括加速器集成电路1536的处理资源的指定部分。系统存储器1511内的应用有效地址空间1582存储进程要素1583。在一个实施例中，进程要素1583响应于来自在处理器1507上执行的应用1580的GPU调用1581而被存储。进程要素1583包含对应应用1580的进程状态。包含在进程要素1583中的工作描述符(WD)1584可以是由应用请求的单个作业，或者可包含指向作业队列的指针。在后一种情况中，WD 1584是指向应用的地址空间1582中的作业请求队列的指针。

图形加速模块1546和/或各个图形处理引擎1531-1532、N可以由系统中的进程的全部或其子集共享。本发明的实施例包括用于建立进程状态并将WD 1584发送至图形加速模块1546以在虚拟化环境中开始作业的基础设施。

在一种实现方式中，专用进程编程模型是实现方式特定的。在该模型中，单个进程拥有图形加速模块1546或单独的图形处理引擎1531。因为图形加速模块1546为单个进程所拥有，所以在指派图形加速模块1546时，管理程序针对拥有的分区对加速器集成电路1536进行初始化，并且操作系统针对拥有的进程对加速器集成电路1536进行初始化。

在操作中，加速器集成切片1590中的WD取出单元1591取出包括对将要由图形加速模块1546的图形处理引擎中的一个完成的工作的指示的下一WD 1584。如所图示，来自WD1584的数据可被存储在寄存器1545中，并且由MMU 1539、中断管理电路1547和/或上下文管理电路1548使用。例如，MMU 1539的一个实施例包括用于访问OS虚拟地址空间1585内的段表/页表1586的段/页走查电路。中断管理电路1547可处理从图形加速模块1546接收的中断事件1592。当执行图形操作时，由图形处理引擎1531-1532、N生成的有效地址1593由MMU1539转换成实际地址。

在一个实施例中，相同的寄存器集合1545针对每个图形处理引擎1531-1532、N和/或图形加速模块1546被复制并且可由管理程序或操作系统初始化。这些复制的寄存器中的每一个可被包括在加速器集成切片1590中。在表1中示出可由管理程序初始化的示例性寄存器。

表1-管理程序初始化的寄存器

1	切片控制寄存器
		2	实际地址(RA)调度的进程区域指针
3	权限掩码覆盖寄存器
		4	中断向量表条目偏移
5	中断向量表条目限制
		6	状态寄存器
7	逻辑分区ID
		8	实际地址(RA)管理程序加速器利用记录指针
9	存储描述寄存器

在表2中示出可由操作系统初始化的示例性寄存器。

表2-操作系统初始化的寄存器

1	进程和线程标识
		2	有效地址(EA)上下文保存/恢复指针
3	虚拟地址(VA)加速器利用记录指针
		4	虚拟地址(VA)存储段表指针
5	权限掩码
		6	工作描述符

在一个实施例中，每个WD 1584对于特定的图形加速模块1546和/或图形处理引擎1531-1532、N是特定的。其包含图形处理引擎1531-1532、N进行其工作所要求的所有信息，或者其可以是指向应用已经建立将要完成的工作的命令队列所在的存储器位置的指针。

图15E图示出共享模型的一个实施例的附加细节。该实施例包括进程要素列表1599被存储在其中的管理程序实际地址空间1598。管理程序实际地址空间1598是经由管理程序1596可访问的，该管理程序1596使用于操作系统1595的图形加速模块引擎虚拟化。

共享编程模型允许来自系统中的分区的全部或其子集的进程的全部或其子集使用图形加速模块1546。存在其中图形加速模块1546由多个进程和分区共享的两种编程模型：时分共享和图形定向共享。

在该模型中，系统管理程序1596拥有图形加速模块1546并使其功能对所有的操作系统1595可用。为了使图形加速模块1546支持由系统管理程序1596进行的虚拟化，图形加速模块1546可遵守下列要求：1)应用的作业请求必须是自主的(即，不需要在作业之间维持状态)，或者图形加速模块1546必须提供上下文保存和恢复机制。2)由图形加速模块1546保证在所指定的时间量内完成应用的作业请求，包括任何转换错误，或者图形加速模块1546提供抢占对作业的处理的能力。3)当在定向共享编程模型下进行操作时，必须保证图形加速模块1546在进程之间的公平性。

在一个实施例中，对于共享模型，要求应用1580利用图形加速模块1546类型、工作描述符(WD)、权限掩码寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)作出操作系统1595系统调用。图形加速模块1546类型描述系统调用的目标加速功能。图形加速模块1546类型可以是系统特定的值。特别针对图形加速模块1546对WD进行格式化，并且WD可以采用图形加速模块1546命令、指向用户定义的结构的有效地址指针、指向命令队列的有效地址指针、或用于描述将要由图形加速模块1546完成的工作的任何其他数据结构的形式。在一个实施例中，AMR值是用于当前进程的AMR状态。传递至操作系统的值类似于设置AMR的应用。如果加速器集成电路1536和图形加速模块1546实现方式不支持用户权限掩码覆盖寄存器(UAMOR)，则操作系统可在管理程序调用中传递AMR之前将当前UAMOR值应用到AMR值。管理程序1596可在将AMR放置到进程要素1583中之前可选地应用当前权限掩码覆盖寄存器(AMOR)值。在一个实施例中，CSRP是寄存器1545中的包含应用地址空间1582中用于图形加速模块1546保存和恢复上下文状态的区域的有效地址的一个寄存器。如果不要求在作业之间对状态进行保存或者在作业被抢占时，则该指针是可选的。上下文保存/恢复区域可以是固定的系统存储器。

一旦接收系统调用，则操作系统1595可验证应用1580已注册并且已给予该应用1580使用图形加速模块1546的权限。操作系统1595随后利用表3中示出的信息来调用管理程序1596。

表3-OS对管理程序的调用参数

1	工作描述符(WD)
		2	权限掩码寄存器(AMR)值(潜在地被掩码)。
3	有效地址(EA)上下文保存/恢复区域指针(CSRP)
		4	进程ID(PID)和可选的线程ID(TID)
5	虚拟地址(VA)加速器利用记录指针(AURP)
		6	存储段表指针(SSTP)的虚拟地址
7	逻辑中断服务号(LISN)

一旦接收管理程序调用，则管理程序1596验证操作系统1595已注册并且已给予该操作系统1595使用图形加速模块1546的权限。管理程序1596随后将进程要素1583置于针对对应的图形加速模块1546类型的进程要素链表中。进程要素可包括表4中示出的信息。

表4-进程要素信息

在一个实施例中，管理程序使多个加速器集成切片1590寄存器1545初始化。

如图15F中所图示，本发明的一个实施例采用经由公共虚拟存储器地址空间可寻址的统一存储器，该公共虚拟存储器地址空间被用来访问物理处理器存储器1501-1502和GPU存储器1520-1523。在该实现方式中，在GPU 1510-1513上执行的操作利用同一虚拟/有效存储器地址空间来访问处理器存储器1501-1502并且反之亦然，由此简化可编程性。在一个实施例中，虚拟/有效地址空间的第一部分被分配给处理器存储器1501，第二部分被分配给第二处理器存储器1502，第三部分被分配给GPU存储器1520，依此类推。整个虚拟/有效存储器空间(有时被称为有效地址空间)由此跨处理器存储器1501-1502和GPU存储器1520-1523中的每一个分布，从而允许任何处理器或GPU利用映射到该存储器的虚拟地址来访问任何物理存储器。

在一个实施例中，MMU 1539A-1539E中的一个或多个内的偏置/一致性管理电路1594A-1594E确保主机处理器(例如，1505)的高速缓存与GPU 1510-1513的高速缓存之间的高速缓存一致性，并且实现指示某些类型的数据应当被存储在其中的物理存储器的偏置技术。尽管在图15F中图示出偏置/一致性管理电路1594A-1594E的多个实例，但偏置/一致性电路可在一个或多个主机处理器1505的MMU内和/或在加速器集成电路1536内实现。

一个实施例允许GPU附连的存储器1520-523被映射为系统存储器的部分并使用共享虚拟存储器(SVM)技术来访问，但是不会遭受与完全系统高速缓存一致性相关联的典型性能缺陷。GPU附连的存储器1520-1523作为系统存储器被访问、并且没有繁重的高速缓存一致性开销的能力为GPU卸载提供了有益的操作环境。此种布置允许主机处理器1505软件设置操作数并访问计算结果，而没有传统I/O DMA数据复制的开销。此类传统复制涉及驱动程序调用、中断和存储器映射的I/O(MMIO)访问，这些相对于简单存储器访问都是低效的。同时，访问GPU附连的存储器1520-1523而没有高速缓存一致性开销的能力对于被卸载的计算的执行时间可能是关键的。例如，在具有大量流式的写存储器业务的情况下，高速缓存一致性开销可以显著地降低GPU 1510-1513看到的有效写入带宽。操作数设置的效率、结果访问的效率以及GPU计算的效率在确定GPU卸载的有效性时都发挥作用。

在一种实现方式中，GPU偏置与主机处理器偏置之间的选择由偏置跟踪程序数据结构驱动。例如，可使用偏置表，该偏置表可以是页粒度的结构(即，在存储器页粒度下受控制)，该页粒度的结构包括每GPU附连的存储器页的1或2个位。偏置表可在一个或多个GPU附连的存储器1520-1523的偷取的存储器范围中实现，在GPU 1510-1513中具有或不具有偏置高速缓存(例如，用于对频繁/最近使用的偏置表条目进行高速缓存)。替代地，可将整个偏置表维持在GPU内。

在一种实现方式中，在对GPU存储器的实际访问之前，访问与对GPU附连的存储器1520-1523的每次访问相关联的偏置表条目，导致下列操作。首先，来自GPU 1510-1513的在GPU偏置中发现它们的页的本地请求直接被转发至对应的GPU存储器1520-1523。来自GPU的在主机偏置中发现它们的页的本地请求被转发至处理器1505(例如，如以上所讨论，通过高速链路)。在一个实施例中，来自处理器1505的在主机处理器偏置中发现所请求的页的请求像正常存储器读取那样完成该请求。替代地，涉及GPU偏置的页的请求可被转发至GPU1510-1513。如果GPU当前不是正在使用该页，则GPU随后可将该页转变为主机处理器偏置。

可以通过基于软件的机制、硬件辅助的基于软件的机制、或对于有限的情况的集合而言通过基于纯硬件的机制来改变页的偏置状态。

一种用于改变偏置状态的机制采用API调用(例如，OpenCL)，其进而调用GPU的设备驱动程序，该设备驱动程序进而向GPU发送消息(或将命令描述符入列)以指引其改变偏置状态、并针对一些转变在主机中执行高速缓存转储清除操作。高速缓存转储清除操作对于从主机处理器1505偏置到GPU偏置的转变是必需的，但对于相反的转变不是必需的。

在一个实施例中，通过临时渲染不可由主机处理器1505高速缓存的GPU偏置的页来维持高速缓存一致性。为了访问这些页，处理器1505可请求来自GPU1510的访问，取决于实现方式，GPU 1510可以或可以不立即授权访问。因此，为了减少主机处理器1505与GPU1510之间的通信，确保GPU偏置的页是GPU而不是主机处理器1505要求的那些页是有益的，并且反之亦然。

图形处理流水线

图16图示出根据实施例的图形处理流水线1600。在一个实施例中，图形处理器可以实现所图示的图形处理流水线600。可以将图形处理器包括在如本文中所描述的并行处理子系统内，该并行处理子系统诸如图13A的并行处理器1300，在一个实施例中，该并行处理器是图12的(多个)并行处理器1212的变型。各种并行处理系统可以通过本文中所描述的并行处理单元(例如，图13A的并行处理单元1302)的一个或多个实例来实现图形处理流水线1600。例如，着色器单元(例如，图13C的图形多处理器1334)可被配置成用于执行顶点处理单元1604、曲面细分控制处理单元1608、曲面细分评估处理单元1612、几何处理单元1616、以及片段/像素处理单元1624中的一者或多者的功能。数据组装器1602、基元组装器1606、1614、1618、曲面细分单元1610、栅格化器1622、以及栅格操作单元1626的功能也可由处理集群(例如，图13A的处理集群1314)内的其他处理引擎和对应的分区单元(例如，图13A的分区单元1320A-1320N)执行。图形处理流水线1600还可使用针对一个或多个功能的专用处理单元来实现。在一个实施例中，图形处理流水线1600的一个或多个部分可由通用处理器(例如，CPU)内的并行处理逻辑执行。在一个实施例中，图形处理流水线1600的一个或多个部分可以经由存储器接口1628来访问芯片上存储器(例如，如图13A中的并行处理器存储器1322)，该存储器接口1628可以是图13A的存储器接口1318的实例。

在一个实施例中，数据组装器1602是收集表面和基元的顶点数据的处理单元。数据组装器1602随后将包括顶点属性的顶点数据输出到顶点处理单元1604。顶点处理单元1604是可编程的执行单元，该可编程的执行单元执行顶点着色器程序，从而按照顶点着色器程序所指定地来照明以及变换顶点数据。顶点处理单元1604读取高速缓存、本地或系统存储器中所存储的数据以供在处理顶点数据时使用，并且可被编程为用于将顶点数据从基于对象的坐标表示变换为世界空间坐标空间或规范化设备坐标空间。

基元组装器1606的第一实例从顶点处理单元1604接收顶点属性。基元组装器1606按需要读取所存储的顶点属性并且构建图形基元以供曲面细分控制处理单元1608进行处理。图形基元包括如由各种图形处理应用编程接口(API)支持的三角形、线段、点、补片等。

曲面细分控制处理单元1608将输入顶点视为几何补片的控制点。将控制点从来自补片的输入表示(例如，补片的基础)变换为适合于在由曲面细分评估处理单元1612进行的表面评估中使用的表示。曲面细分控制处理单元1608还可以计算几何补片的边缘的曲面细分因子。曲面细分因子应用于单个边缘，并量化与该边缘相关联的依赖于视图的细节等级。曲面细分单元1610被配置成用于接收补片的边缘的曲面细分因子，并且用于将补片曲面细分成多个几何基元(诸如，线、三角形或四边形基元)，这些几何基元被传送到曲面细分评估处理单元1612。曲面细分评估处理单元1612对经细分的补片的参数化坐标进行操作，以生成与几何基元相关联的每个顶点的表面表示和顶点属性。

基元组装器1614的第二实例从曲面细分评估处理单元1612接收顶点属性，根据需要读取所存储的顶点属性，并且构建图形基元以供几何处理单元1616进行处理。几何处理单元1616是可编程的执行单元，该可编程的执行单元执行几何着色器程序以如几何着色器程序所指定地变换从基元组装器1614接收到的图形基元。在一个实施例中，几何处理单元1616被编程为用于将图形基元细分为一个或多个新的图形基元并计算被用来对这些新的图形基元进行栅格化的参数。

在一些实施例中，几何处理单元1616可以在几何流中添加或删除元素。几何处理单元1616向基元组装器1618输出指定新的图形基元的参数和顶点。基元组装器1618从几何处理单元1616接收参数和顶点并构建图形基元以供视口缩放、剔除和裁剪单元1620进行处理。几何处理单元1616读取存储在并行处理器存储器或系统存储器中的数据以供处理几何数据时使用。视口缩放、剔除和裁剪单元1620执行裁剪、剔除和视口缩放，并且将经处理的图形基元输出到栅格化器1622。

栅格化器1622可以执行深度剔除和其他基于深度的优化。栅格化器1622还对新的图形基元执行扫描转换以生成片段并将那些片段及相关联的覆盖数据输出到片段/像素处理单元1624。片段/像素处理单元1624是被配置成执行片段着色器程序或像素着色器程序的可编程的执行单元。片段/像素处理单元1624按照片段或像素着色器程序所指定地变换从栅格化器1622接收的片段或像素。例如，片段/像素处理单元1624可被编程为用于执行包括但不限于纹理映射、着色、混合、纹理校正和透视校正的操作，以产生被输出到栅格操作单元1626的经着色的片段或像素。片段/像素处理单元1624可以读取存储在并行处理器存储器或系统存储器中的数据以供处理片段数据时使用。片段或像素着色器程序可被配置成用于取决于为处理单元配置的采样率而以样本、像素、片或其他粒度来进行着色。

栅格操作单元1626是处理单元，该处理单元执行栅格操作并将像素数据输出为将要被存储在图形存储器(例如，如图13A中的并行处理器存储器1322和/或如图12中的系统存储器1204)中、将要在一个或多个显示设备1210上显示或用于由一个或多个处理器1202或并行处理器1212中的一个进一步处理的经处理的图形数据，这些栅格操作包括但不限于模版印制、z测试、混合等等。在一些实施例中，栅格操作单元1626被配置成用于压缩被写入到存储器的z或颜色数据并解压缩从存储器读取的z或颜色数据。

对向量元素执行约简操作

向量可包含共享相同特性的多个数据元素，并且向量可通过约简操作被组合。例如，向量可包含具有相同值(副本)的数据元素。对于某些计算，副本集合内的一个数据元素具有涉及同一副本集合内的另一数据元素的数据依赖性。副本集合需要被标识，以便当处理对向量操作时允许计算被向量化。副本可使用诸如VPCONFLICT之类的冲突检测指令来检测。

具体而言，指令可针对其向量寄存器输入的每个元素测试与那个输入的所有较早元素(例如，更接近最低有效位(LSB)的所有元素)的相等性，并且将这些比较的结果输出为位向量的集合。冲突检测指令提供了用于判定元素是否具有涉及同一寄存器(例如，SIMD寄存器)内的其他元素的数据依赖性的方法。在其中跨寄存器元素的可能的数据依赖性否则可能阻止向量化的情况下，用于标识寄存器的多个单独元素内的重复值的能力允许标量代码被向量化。

先前的指令集架构(ISA)使用多条指令在多个步骤中执行约简操作。例如，一条指令可(例如，通过确定具有唯一索引的元素的子集)检测向量内的副本，并且能以SIMD方式执行该检测。随后，另一指令可对具有相同索引的副本执行约简操作。

但是，期望某些操作能够实现用于对存储在一个或多个寄存器(或其他存储单元)中的一个或多个向量的约简操作的单条指令，使得一旦该单条指令被解码，它就使处理器在无需进一步指令的情况下执行所要求的约简操作。用于执行约简操作的单条指令产生更好的编译和计算效率。

对单个寄存器中的向量元素执行约简操作

本发明的实施例包括用于使用单条指令对一个寄存器中的向量元素执行约简操作的技术。在执行该单条指令时，可并行地对寄存器(例如，SIMD寄存器)内的元素使用多个树约简(针对每个唯一索引值进行一个约简)来执行约简操作。该单条指令可组合由多个较早操作执行的操作。例如，该单条指令可对共享索引的元素中的每个元素排序(先前由诸如VPOPCNT之类的指令执行)。该单条指令还可迭代地标识并组合来自同一索引内的数据元素对的部分结果(先前由诸如VPCONFLICT之类的指令执行)。

在寄存器内，可能存在需要经由一种或多种约简模式被组合的多个值。例如，应用可在单个寄存器内具有值的集合{a0,b0,a1,a2,b1,a3,a4,b2}，该值的集合{a0,b0,a1,a2,b1,a3,a4,b2}需要被组合，使得所有‘a’值被求和，并且所有‘b’值被求和，从而产生仅两个值{a0+a1+a2+a3+a4,b0+b1+b2}。给定具有仅两个输入的约简操作(例如，通过处理器中的‘加’)，用于对所有‘a’值和所有‘b’值求和的高效方式是跨寄存器的元素并行地执行多个二叉树约简。

本发明的一些实施例生成：(1)标识独立约简的第一输出；以及(2)用于标识二叉约简树的顺序(例如，左子代相对于右子代)的第二输出。前者用于对用于独立约简的约简操作并行化，并且后者用于对相关联的索引向量内的每个唯一索引值的实例数量进行计数。

图17示出根据本发明的一个实施例的在执行单条指令时对存储在输入寄存器中的多个向量元素的树约简操作。单条指令可采取如标记1700处所示的“vmatchindx zmm0{k0},zmm1,zmm2”的格式，但是可实现指令格式的许多变体，其中一个或多个操作数和/或立即数值以及如本文中上文所讨论的(多个)操作码可被指定用于根据本发明的实施例的约简操作。在一些实施例中，单条指令可被发布为单指令多数据(SIMD)指令，附加地/替代地，单条指令可被发布为单指令多线程(SIMT)指令，如本文中在上文参照图1A-图1B所讨论。

约简操作从输入寄存器(zmm2)1710取得值。输入寄存器1710存储数据元素的集合d₀至d₁₅的值，并且该数据元素的集合可属于可向其应用约简操作的向量/数组/矩阵。在一个实施例中，输入寄存器可以是图5A中的向量寄存器514中的一个向量寄存器。输入寄存器1710内的每个值可视为在要使用SIMD技术来执行的通道内。输入寄存器1710也可在图13D的寄存器堆1358内，其中，输入寄存器中是数据元素可被向量化以供由线程组(例如，包块)执行。

约简操作也从索引寄存器(zmm1)1720取得值。索引值指示输入寄存器内的哪些值彼此相关联。如果输入寄存器中的两个数据元素与同一索引值对应，则它们参与同一树约简；否则，它们参与不同的树约简。例如，d₀、d₃、d₈、d₁₄和d₁₅具有同一索引值‘A’；d₁、d₄-d₆、d₉-d₁₁和d₁₃具有同一索引值‘B’；并且d₂和d₇具有同一索引值‘D’。同一索引值内的这些数据元素参与相应的树约简。

在标记1730处示出约简操作，并且这些元件操作可以是基于索引值获取相关联的数据元素的以下一项或多项：和(通过“加法”)、最小值、最大值、均值、中位数、积、差(通过“减法”)、出现计数。约简操作可以是以下一项或多项：(经由加法、减法或乘法)累加相关联的数据元素值；选择相关联的数据元素值中的最大值或最小值；以及计算相关联的数据元素的均值或中位数值。累加(具体而言，获取和)被用作以下讨论的示例。

约简操作开始于输入寄存器值的初始条件1732。可基于索引值对相关联的数据元素执行迭代的集合。例如，d₀、d₃、d₈、d₁₄和d₁₅具有同一索引值‘A’，并且这些值被示出为通过三个迭代被约简。对于在标记1734处的第一迭代，具有值‘A’的数据元素对(在该实施例中，从最低有效的位的位置计)在一起被求和以得到中间结果1734。奇数编号的数据元素处的值将保持相同(例如，该实施例中d₁₅的值)。具有同一索引值‘B’和同一索引值‘D’的其他数据元素将分别去往同一迭代。在第二迭代处，中间结果1734的对再次在一起被求和以得到中间结果1736。该过程继续，以得到针对每个唯一索引的单个值作为最终结果1738处的结果。

在标记1760处，约简操作的结果被存储在输出寄存器(zmm0)1750内。输出寄存器1750可存储最终结果1738，最终结果1738中的每个最终结果针对zmm0的相关联的数据元素位置处的唯一索引值。例如，针对索引值‘A’的最终结果(针对‘A’的)和＝d₀+d₃+d₈+d₁₄+d₁₅可被存储在zmm0中的所有相关联的位的位置R₀、R₃、R₈、R₁₄和R₁₅处。替代地，输出寄存器可仅将针对唯一索引值的最终结果存储到zmm0的与唯一索引值相关联的最左边(或最右边，或另一预定义的)数据元素位置，例如，针对索引‘A’存储到R₁₅。此外，输出寄存器1750可替代地将包括中间结果的结果存储在zmm0的相关联的数据元素位置中。例如，R₀可存储d₀，R₃存储d₀+d₃，R₈存储d₈，R₁₄存储d₀+d₃+d₈+d₁₄，并且R₁₅存储d₀+d₃+d₈+d₁₄+d₁₅。

注意，虽然树约简操作使用二叉树作为示例，但是也可实现每迭代包括更多数据元素的其他类型的树约简。此外，虽然树约简内的配对是从最左边向右配对，但是在替代实施例中可实现逆方向。

在一些实施例中，约简操作可附加地取得掩码向量(k0)的值。这些值可从掩码寄存器或另一存储位置(例如，高速缓存或存储器层次结构中的多个级别中的任何级别)取得。可针对输入寄存器1710的输入数据元素或输出寄存器1750的输出数据元素设置掩码值。当掩码向量用于输入寄存器且掩码值被清除(例如，值设置为‘0’)时，在约简操作中忽略输入寄存器中的对应数据元素。替代地，可针对输出寄存器设置掩码向量，并且当掩码值被清除时，输出寄存器中的对应数据元素可被设置为0(“零掩码”)或在约简操作前的原始值(“合并掩码”)。替代地，在实施例中，可将掩码值设置为‘1’以忽略输入寄存器和/或输出寄存器中的对应数据元素。

通过使用树约简，约简最多迭代log₂N次(N是数据元素的数量、向量长度)。例如，当输入寄存器1710的全部16个数据元素具有同一索引值时，约简操作迭代log₂N＝4次。这相对于现有方式是有利的，在现有方式中约简操作将迭代N-1次，针对每个串行化的约简迭代一次。

此外，通过使用用于执行约简操作的单条指令，指令集可以显著地更高效。指令本身可指定要执行的特定约简操作(例如，获得相关联的数据元素的以下一项或多项：和、最小值、最大值、均值、中位数值、积、出现计数)，其中使用掩码向量应用特定的掩码值，并且中间结果可被存储在输出寄存器中用于将来操作。基于索引寄存器中的值，约简操作可应用于被加载到输入寄存器中的输入向量的任何数据元素，并且可使用SIMD和/或SIMT技术并行地执行约简，由此显著地改善处理器(例如，CPU、GPU或其他处理单元)的计算效率。

对多个寄存器中的向量元素执行约简操作

约简操作可扩展至存储在多个寄存器中的向量值。图18示出根据本发明的一个实施例的在执行单条指令时对存储在多个输入寄存器中的多个向量元素的约简操作。图18与图17类似，其中一些细节被省略以聚焦针对多输入寄存器实现方式的附加细节，并且相同或类似的标记指示具有相同或类似功能的元件或组件。

在一个实施例中，单条指令采取如标记1800处所示的“vmatchindx2zmm0{k0},zmm1{k1},zmm2,zmm3,zmm4,zmm5”的格式。约简操作从输入寄存器(zmm4)1810和输入寄存器(zmm5)1812取得值，该输入寄存器(zmm4)1810和输入寄存器(zmm5)1812存储数据元素的集合的值，该数据元素的集合属于可向其应用约简操作的一个或多个向量。在一个实施例中，每个输入寄存器1810/1812能以类似于输入寄存器1710的方式操作。约简操作也从索引寄存器(zmm2)1820和索引寄存器(zmm3)1822取得值。每个索引寄存器能以与索引寄存器1720类似的方式操作，并且如果输入寄存器内的两个数据元素对应于同一索引值，则它们可参与同一树约简。在标记1830处示出约简操作，其中的操作与本文中上文参照标记1730所讨论的操作类似。

在标记1860处，约简操作的结果被存储在输出寄存器(zmm0)1850和输出寄存器(zmm1)1852内。结果的存储与如本文中上文所讨论的标记1760处的操作类似。

注意，可为针对存储在多个寄存器中的向量值的约简操作实现许多各种各样的指令格式。在替代实施例中，单条指令可采取“vmatchindx2zmm0{k0},register 1,register2”的格式，其中，register 1与图18中的zmm2对应，并且register 2与图18中的zmm4对应。以此方式，单条指令仅为每个类型的寄存器指定一个寄存器位置，但是处理器将为每种类型的寄存器操作两个寄存器。例如，虽然zmm0可被指定为输出寄存器(例如，具有寄存器号“10”)，但是处理器还将对紧接的下一输出寄存器zmm1(例如，具有寄存器号“11”)进行操作。因此，zmm1是如标记1822处所示的未在单条指令中被显式地指示的输出寄存器。被显式地指示的寄存器和被隐式地指示的寄存器可被配对为奇/偶对，使得如果寄存器对中的一个寄存器在指令中被指定，则该对中的另一寄存器的值将被操作。

类似地，在单条指令中，zmm4可被指定为输入寄存器，zmm2可被指定为索引寄存器，并且k0可被指定为掩码向量；但是处理器还将分别从zmm5取得输入值，从zmm3取得索引值，并从掩码向量k1取得掩码值。如在标记1880处所示，这些值不在单条指令中被显式地指示。

对向量元素的约简操作不限于两个输入寄存器内的值，并且可由单条指令对附加寄存器中的值进行操作。针对多个寄存器上的向量值的约简操作能以针对两个寄存器(诸如，本文中讨论的输入寄存器1810和1812)上的向量值的约简操作类似的方式被执行。

对不同计算单元的多个寄存器中的向量元素执行约简操作

多处理器的寄存器堆可在不同的计算单元之间被划分。例如，寄存器堆可针对包块或线程在多处理器内的不同的计算单元之间被划分(例如，如本文中上文所讨论，寄存器堆1358可在由图形多处理器1334执行的不同的包块之间被划分)。对于存储在不同的计算单元的不同的寄存器中的向量元素，单条指令可显式地指定如本文中所讨论的每个操作数(例如，(多个)输入寄存器、(多个)索引寄存器、(多个)掩码向量、和/或(多个)输出寄存器)。当软件/多处理器知晓可用于所有线程/包块的完整的寄存器集合(例如，图形多处理器典型地如此)时，指令可显式地标识所有操作数(例如，寄存器和掩码向量)。

当软件/多处理器不知晓时，可实现替代实施例。例如，单条指令可采取“vmatchindx2 zmm0{k0},zmm1,zmm2,reg/imm”的格式，其中，“reg/imm”操作数指定标识用于第二线程或包块的值的寄存器(或另一存储位置，诸如，存储器层次结构中的高速缓存/存储器)或立即数值。软件/多处理器知晓关于针对第一线程或包块的较早操作数(zmm0、zmm1、zmm2、k0)的情况，并且“reg/imm”可保存第二线程或包块的标识符，另一输入/索引/输出寄存器和掩码向量为该第二线程或包块保存用于约简操作的值。替代地，“reg/imm”可指定距第一线程或包块的偏移。例如，如果线程X执行单条指令，则可利用来自线程X+reg/imm的组合信息来执行该单条指令。

此外，可使用用于寄存器的虚拟寄存器号来指定用于单条指令的寄存器，并且软件/多处理器将用于每个线程或包块的虚拟寄存器号转换为物理寄存器号。如今，多处理器具有逻辑/架构寄存器和物理寄存器两者的概念。如果单条指令指定输出寄存器号“10”，则多处理器可针对每个线程/包块标识物理寄存器“10”。此类转换对于一些多处理器(例如，CPU)是直截了当的。对于其他多处理器(例如，GPU)，多处理器知晓线程/包块需要的寄存器的总数，并且相应地为每个线程/包块分配寄存器的连续的块。例如，多处理器可将寄存器0至N-1分配给线程/包块0，将寄存器N至2N-1分配给包块1，以此类推。每个线程/包块具有寄存器堆中的起始点。多处理器可通过加上针对线程/包块的偏移来找到与针对包块的所指定的虚拟寄存器对应的物理寄存器(例如，线程/包块号*偏移+所指定的虚拟寄存器)。因此，即便当在单条指令中未显式地标识多个输入寄存器，单条指令也可用于跨多个输入寄存器中的输入值的约简操作。

当通过将多处理器内的多个计算单元用于包块或线程来执行约简操作时，可能需要多个计算单元之间的同步。可使用屏障来实现同步，以确保包块和线程使它们的信息准备好进行组合。例如，在一些实施例中，可使用诸如DMB(数据存储器屏障)、DSB(数据同步屏障)或ISB(指令同步屏障)之类的指令。

替代地，单条指令可在不使用任何附加指令的情况下实现同步。例如，单条指令可采取“vmatchindx2 zmm0{k0},zmm1,zmm2,sync_reg/imm”的格式，其中，“sync_reg/imm”操作数指定包块/线程将用于同步的位置(寄存器或另一存储位置，诸如，存储器层次结构中的高速缓存/存储器)。假定两个包块/线程参与约简操作。这两个包块/线程将执行单条指令，并且它们可具有针对“sync_reg/imm”的相同值。在所涉及的包块/线程执行指令之前，所指定的位置将被初始化为初始值。当第一线程/包块执行指令时，它可检查所指定的位置。当该第一线程/包块看见所指定的位置包含初始值时，它以另一值覆写该位置，从而指示该第一线程/包块已到达且正在等待第二包块/线程。随后，当第二线程/包块执行指令时，它再次检查所指定的位置。当该第二线程/包块判定所指定位置不包含初始值时，该判定触发对组合跨不同的计算单元的操作的执行。当组合操作完成时，这两个线程/包块被允许继续进行。

当多于两个包块/线程参与约简操作时，所指定的位置中的值可向包块/线程指示该包块/线程是最后到达的包块/线程，并且该值触发对跨不同的计算单元的组合操作的执行，并且当组合操作完成时，所有线程/包块被允许继续进行。

图19示出根据本发明的一个实施例的在执行单条指令使用同步时对存储在多个输入寄存器中的多个向量元素的约简操作。图19与图18类似，其中一些细节被省略以聚焦针对多输入寄存器实现方式的附加细节，并且相同或类似的标记指示具有相同或类似功能的元件或组件。

在标记1970处，向量元素的一部分由计算单元的第一集合执行，而在标记1972处，向量元素的其他部分由计算单元的其他集合执行。计算单元的不同集合可使用多处理器(例如，CPU/GPU)的寄存器堆的不同部分。此外，也可使用寄存器堆的不同部分来存储用于执行用于约简操作的单条指令的任选的掩码向量1940和1942。

单条指令(例如，如上文所讨论的“vmatchindx2 zmm0{k0},zmm1,zmm2,sync_reg/imm”)可指定同步位置1900，该同步位置1900向参与约简操作的计算单元指示所涉及的计算单元之间的同步是否实现。一旦实现了同步，就可在标记1934处执行组合操作，其中，可完成来自计算单元的组合结果。一旦组合完成，如标记1960处所示，就可将结果存储在输出寄存器1950和1952中。

虽然在单条指令中使用同步指示，但是本发明的实施例不要求附加的指令来实现围绕存储在寄存器堆的不同部分处的多个寄存器中的向量元素的经同步的约简。因此，单条指令在实现同步方面比多条指令更高效。

本发明的一些实施例

图20是示出根据本发明的一个实施例的在执行单条指令时对多个向量元素的约简操作的流程图。可在包含解码电路和执行电路的处理器上执行方法2000。在标记2002处，解码电路对指令解码，其中，该指令指定包含多个数据元素值的第一输入寄存器、包含多个索引的第一索引寄存器、以及输出寄存器。多个索引中的每个索引映射至第一输入寄存器的一个唯一的数据元素位置。虽然本文中参照图17-图19给出了若干指令示例，但是可实现指令格式的许多变体，其中一个或多个操作数和/或立即数值以及如本文中上文所讨论的(多个)操作码可被指定用于根据本发明的实施例的约简操作。

指令用于对可属于数组/矩阵的多个向量元素执行约简操作。指令的操作代码(操作码)指定一个或多个约简操作。约简操作可以是以下一项或多项：累加相关联的数据元素值；选择相关联的数据元素值中的最大值或最小值；以及计算相关联的数据元素值的均值或中位数值。累加(获取和)被用作以下讨论的示例。

在一些实施例中，指令进一步指定包含多个掩码的掩码向量，其中，每个掩码指示输出寄存器的数据元素位置为活跃或不活跃，并且其中，结果不向不活跃的数据元素位置写入。在替代实施例中，每个掩码指示输入寄存器的数据元素位置为活跃或不活跃，并且不活跃的数据元素不参与由指令引起的约简操作。

在标记2004处，执行电路执行经解码的指令。该执行包括：在2012处，基于索引来标识彼此相关联的数据元素值。随后，在标记2014处，执行电路基于该标识对相关联的数据元素值执行一个或多个约简操作；并且在标记2016处，一个或多个约简操作的结果被存储在输出寄存器中。

在一个实施例中，当数据元素值的组具有同一索引值时，该组数据元素值彼此相关联。在一个实施例中，执行一个或多个约简操作用于：针对共享同一索引值的数据元素值的组，组合该数据元素值的组以生成算术组合作为结果。算术组合可包括基于索引值的获取相关联的数据元素的以下结果：和(通过“加法”)、差(通过“减法”)、最小值、最大值、均值、中位数值、积、出现计数。

在一个实施例中，结果被存储在输出寄存器的多个数据元素位置中，每个数据元素位置与对应的相关联的数据元素值中的一个数据元素值相对应。在一个实施例中，在多个迭代中对相关联的数据元素值的组执行一个或多个约简操作，并且多个迭代的中间结果被存储在与参与得到中间结果的对应的相关联的数据元素值中的多个数据元素值相对应的数据元素位置中。

在一个实施例中，附加地对第二输入寄存器执行对经解码的指令的执行，并且第二输入寄存器内的另外多个数据元素值和第二索引寄存器内的另外多个索引在执行一个或多个约简操作时被使用。在一个实施例中，指令进一步指定包含另外多个数据元素值的第二输入寄存器以及包含另外多个索引的第二索引寄存器，另外多个索引中的每个索引映射至第二输入寄存器的一个唯一的数据元素位置，并且基于第一索引寄存器和第二索引寄存器的索引对第一输入寄存器和第二输入寄存器的数据元素值执行一个或多个约简操作。这些实施例在本文中参照图18更详细的进行讨论。

在一个实施例中，指令由两个或更多个计算单元执行。在一个实施例中，这两个或更多个计算单元中的每个计算单元是包块或线程。在一个实施例中，在执行一个或多个约简操作时，这两个或更多个计算单元被同步。在一个实施例中，指令进一步指定存储指示这两个或更多个计算单元是否被同步的值的位置。在一个实施例中，处理器是图形处理单元(GPU)。这些实施例在本文中参照图19更详细的进行讨论。

在以上说明书中，已参照本发明的特定示例性实施例描述了本发明的实施例。然而，将显而易见的是，可对这些实施例作出各种修改和改变，而不背离如所附权利要求所述的本发明的更宽泛的精神和范围。因此，说明书和附图应被认为是说明性而非限制性意义。

本发明的实施例可包括上文中已描述的各步骤。这些步骤可以被具体化为机器可执行指令，这些机器可执行指令可以用于使通用或专用处理器执行这些步骤。替代地，这些步骤可以由包含用于执行这些步骤的硬接线逻辑的特定硬件组件来执行，或者由经编程的计算机组件和定制硬件组件的任何组合来执行。

如本文中所描述，指令可以指硬件的特定配置，诸如，配置成用于执行某些操作或具有预定功能的专用集成电路(ASIC)，或者可以指被存储在以非暂态计算机可读介质具体化的存储器中的软件指令。因此，可以使用在一个或多个电子设备(例如，端站、网络元件等)上存储并执行的代码和数据来实现附图中示出的技术。此类电子设备使用计算机机器可读介质(在内部和/或通过网络与其他电子设备)存储和传达代码和数据，计算机机器可读介质诸如，非暂态计算机机器可读存储介质(例如，磁盘；光盘；随机存取存储器；只读存储器；闪存设备；相变存储器)以及暂态计算机机器可读通信介质(例如，电、光、声或其他形式的传播信号——诸如载波、红外信号、数字信号等)。此外，此类电子设备典型地包括耦合到一个或多个其他组件(诸如，一个或多个存储设备(非暂态机器可读存储介质)、用户输入/输出设备(例如键盘、触摸屏和/或显示器)、以及网络连接)的一个或多个处理器的集合。处理器的集合和其他组件的耦合典型地通过一个或多个总线和桥接器(也被称为总线控制器)。承载网络通信量的存储设备和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子设备的存储设备典型地存储用于在该电子设备的一个或多个处理器的集合上执行的代码和/或数据。当然，可以使用软件、固件、和/或硬件的不同组合来实现本发明的实施例的一个或多个部分。贯穿此具体实施方式，出于解释的目的，阐述了众多特定细节以便提供对本发明的透彻理解。然而，对于本领域的技术人员而言将显而易见的是，可以在没有这些特定细节中的一些的情况下实现本发明。在某些实例中，未详细地描述众所周知的结构和功能以免混淆本发明的主题。因此，本发明的范围和精神应根据所附权利要求来判定。

Claims

1.一种芯片，包括：

多个存储器控制器；

第二级L2高速缓存存储器，耦合至所述多个存储器控制器；

处理器，耦合至所述多个存储器控制器，并耦合至所述L2高速缓存存储器，所述处理器用于执行与第一单指令多线程SIMT指令对应的操作，所述第一SIMT指令用于将约简操作指示为由所述第一SIMT指令支持的多个约简操作中的任一约简操作，所述多个约简操作至少包括加法约简操作、最大值约简操作和最小值约简操作，所述处理器包括：

寄存器堆；以及

多个计算单元，用于分别针对线程组的对应线程执行所述第一SIMT指令，以：

根据所指示的约简操作异步地约简多个数据元素以生成结果数据元素，所述多个数据元素用于被存储在所述寄存器堆的多个寄存中，所述多个寄存器分别与所述多个计算单元对应；以及

存储所述结果数据元素；

互连，耦合至所述处理器；以及

总线控制器，耦合至所述处理器。

2.如权利要求1所述的芯片，其中，所述所指示的约简操作是加法约简操作，并且其中，根据所述加法约简操作异步地约简所述多个数据元素包括将所述多个数据元素相加。

3.如权利要求1所述的芯片，其中，所述所指示的约简操作是最大值约简操作，并且其中，根据所述最大值约简操作异步地约简所述多个数据元素包括选择所述多个数据元素中的最大数据元素。

4.如权利要求1所述的芯片，其中，所述所指示的约简操作是最小值约简操作，并且其中，根据所述最小值约简操作异步地约简所述多个数据元素包括选择所述多个数据元素中的最小数据元素。

5.如权利要求1所述的芯片，其中，所述多个约简操作包括至少六个约简操作。

6.如权利要求1所述的芯片，其中，为了异步地约简所述多个数据元素，所述多个计算单元中的至少一些计算单元用于在不同时刻执行所述第一SIMT指令。

7.如权利要求1所述的芯片，其中，所述多个数据元素是矩阵的部分。

8.如权利要求1所述的芯片，其中，所述处理器包括配置成用于约简所述多个数据元素的硬件。

9.如权利要求1所述的芯片，其中，所述线程组中的线程包括包块的线程。

10.如权利要求1所述的芯片，其中，所述多个计算单元用于执行第二SIMT指令，以在所述结果数据元素的存储之前使所述线程组的线程同步。

11.如权利要求1所述的芯片，其中，所述处理器包括多个图形核。

12.如权利要求1所述的芯片，其中，所述处理器包括多个异构核。

13.如权利要求1所述的芯片，其中，所述处理器包括多个异构图形核。

14.如权利要求1所述的芯片，其中，所述处理器是图形处理单元GPU的部分。

15.如权利要求1所述的芯片，进一步包括指令转换器，用于将所述第一SIMT指令转换为能由所述处理器执行的不同指令集的一条或多条指令。

16.一种存储指令的非暂态机器可读存储介质，所述指令包括第一单指令多线程SIMT指令，所述第一SIMT指令当由机器执行时使所述机器执行包括以下步骤的操作：

将约简操作确定为由所述第一SIMT指令支持的多个约简操作中的任一约简操作，所述多个约简操作至少包括加法约简操作、最大值约简操作和最小值约简操作；以及

利用所述机器的处理器的多个计算单元针对线程组的对应线程执行所述第一SIMT指令，包括以下步骤：

通过根据所确定的约简操作异步地约简存储在所述处理器的寄存器堆的多个寄存器中的多个数据元素来生成结果数据元素，所述多个寄存器分别与所述多个计算单元对应；以及

存储所述结果数据元素。

17.如权利要求16所述的非暂态机器可读存储介质，其中，所述指令当被机器执行时用于使所述机器执行包括以下步骤的操作：

利用芯片的多个存储器控制器访问存储器中的数据；

将所述数据存储在所述芯片的第二级L2高速缓存存储器中；以及

利用所述芯片的总线控制器在总线上传送所述数据。

18.如权利要求16所述的非暂态机器可读存储介质，其中，所述第一SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：

将所述约简操作确定为所述加法约简操作；以及

根据所述加法约简操作异步地约简所述多个数据元素，包括将所述多个数据元素相加。

19.如权利要求16所述的非暂态机器可读存储介质，其中，所述第一SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：

将所述约简操作确定为所述最大值约简操作；以及

根据所述最大值约简操作异步地约简所述多个数据元素，包括选择所述多个数据元素中的最大数据元素。

20.如权利要求16所述的非暂态机器可读存储介质，其中，所述第一SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：

将所述约简操作确定为所述最小值约简操作；以及

根据所述最小值约简操作异步地约简所述多个数据元素，包括选择所述多个数据元素中的最小数据元素。

21.如权利要求16所述的非暂态机器可读存储介质，其中，所述第一SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：将所述约简操作确定为由所述第一SIMT指令支持的至少六个约简操作中的一个约简操作。

22.如权利要求16所述的非暂态机器可读存储介质，其中，所述第一SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：异步地约简作为矩阵的部分的所述多个数据元素。

23.如权利要求16所述的非暂态机器可读存储介质，其中，所述指令包括第二SIMT指令，所述第二SIMT指令当由所述机器执行时用于使所述机器执行包括以下步骤的操作：利用所述多个计算单元执行所述第二SIMT指令，包括在存储所述结果数据元素之前，使所述线程组的线程同步。

24.如权利要求16所述的非暂态机器可读存储介质，其中，所述指令包括当由所述机器执行时用于使所述机器执行包括以下步骤的操作的指令：将所述第一SIMT指令转换为能由所述处理器执行的不同指令集的一条或多条指令。

25.一种方法，包括：

将约简操作确定为由第一单指令多线程SIMT指令支持的多个约简操作中的任一约简操作，所述多个约简操作至少包括加法约简操作、最大值约简操作和最小值约简操作；以及

存储所述结果数据元素。

26.一种设备，包括：

用于将约简操作确定为由第一单指令多线程SIMT指令支持的多个约简操作中的任一约简操作的装置，所述多个约简操作至少包括加法约简操作、最大值约简操作和最小值约简操作；以及

用于利用所述机器的处理器的多个计算单元针对线程组的对应线程执行所述第一SIMT指令的装置，包括：

用于通过根据所确定的约简操作异步地约简存储在所述处理器的寄存器堆的多个寄存器中的多个数据元素来生成结果数据元素的装置，所述多个寄存器分别与所述多个计算单元对应；以及

用于存储所述结果数据元素的装置。