CN109144471A

CN109144471A - 用于二进制向量分解的二进制乘法器

Info

Publication number: CN109144471A
Application number: CN201810658230.5A
Authority: CN
Inventors: E·科恩; D·D·B-D·鲁宾; M·比哈尔; D·维恩布莱德
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-06-28
Filing date: 2018-06-19
Publication date: 2019-01-04
Also published as: DE102018005145A1; US10210137B2; US20190004997A1

Abstract

本申请公开了用于二进制向量分解的二进制乘法器。一种处理器，包括：解码电路系统，用于对指令进行解码；数据高速缓存单元，包括用于为所述处理器高速缓存数据的电路系统；以及近似矩阵乘法(AMM)电路，包括：数据接收器电路，用于接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的大小均为N；分解器电路，用于通过计算大小为N×n的二进制分解矩阵B和大小为n的字典向量s而将w分解为以及二进制乘法器电路，用于计算所述二进制乘法器电路包括用于计算阵列乘积〖(B〗^T x)的硬件加速器电路。

Description

用于二进制向量分解的二进制乘法器

技术领域

本公开总体上涉及半导体器件领域，并且更具体地、但不排他地涉及一种用于二进制乘法器的系统和方法，所述二进制乘法器用于二进制向量分解(binary vectorfactorization，BVF)。

背景技术

多处理器系统正变得越来越普遍。在现代世界中，计算资源在人类生活中扮演着越来越综合的角色。随着计算机变得越来越无处不在，控制着从电网到大型工业机器到个人计算机到灯泡的一切，对功能更强大的处理器的需求也随之增加。

附图说明

当结合附图阅读时，将最佳地根据以下具体实施方式来理解本公开。应强调的是，根据行业中的标准实践，各种特征不必按比例绘制，并且仅用于说明的目的。当明确地或隐含地示出了比例时，其仅仅提供了一个说明性示例。在其他实施例中，为讨论清楚起见，可以任意地扩大或缩小各种特征的尺寸。

图1a至图1b是框图，展示了根据本说明书的一个或多个示例的通用向量友好指令格式及其指令模板。

图2a至图2d是框图，展示了根据本说明书的一个或多个示例的示例专用向量友好指令格式。

图3是根据本说明书的一个或多个示例的寄存器架构的框图。

图4a是框图，展示了根据本说明书的一个或多个示例的示例有序流水线和示例寄存器重命名、乱序发布/执行流水线。

图4b是框图，展示了根据本说明书的一个或多个示例的将包括在处理器中的有序架构核的示例和示例寄存器重命名、乱序发布/执行架构核两者。

图5a至图5b展示了根据本说明书的一个或多个示例的更具体的有序核架构的框图，其中所述核是芯片中的若干逻辑块(包括属于相同类型和/或不同类型的其他核)之一。

图6是根据本说明书的一个或多个示例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成显卡的处理器的框图。

图7至图10是根据本说明书的一个或多个示例的计算机架构的框图。

图11是根据本说明书的一个或多个示例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

图12展示了根据本说明书的一个或多个示例的BVF的模式。

图13是根据本说明书的一个或多个示例的使用BVF的近似矩阵乘法器的系统模型。

图14是根据本说明书的一个或多个示例的执行单元的框图。

图15是根据本说明书的一个或多个示例的矩阵单元的框图。

图16是框图，示出了根据本说明书的一个或多个示例的加法器树的选择元件。

图17展示了根据本说明书的一个或多个示例的在BVF的上下文中有用的简化阵列的示例。

图18展示了可以通过使用加法器树来进一步优化的计算。

图19是根据本说明书的一个或多个示例的共享加法器树的框图。

图20是根据本说明书的一个或多个示例的半加法器的所选元件的框图。

图21是根据本说明书的一个或多个示例的整体BVF方法的流程图。

具体实施方式

以下公开内容提供了用于实现本公开的不同特征的许多不同的实施例或示例。下面将描述各组件和安排的具体示例以便简化本公开。当然，这些仅仅是示例，并且并不旨在限制。进一步地，在各示例中，本公开可以重复附图标记和/或字母。这种重复只是为了简明和清晰，本身并不指示所讨论的各实施例和/或配置之间的关系。不同的实施例可以具有不同的优点，没有特定优点是任何实施例一定需要的。

随着计算变成越来越复杂的任务，并且所处理的数据量与计算机所需任务的复杂度一起增大，机器学习和神经网络已经变得越来越重要。一般来说，机器学习和神经网络可以使用基于统计的推理机来实施。在许多情况下，机器学习不像其中存在单个确切的正确答案的经典计算问题，而是一种严重依赖概率的方法，这种方法更近似于人类的思维过程。

通过非限制性示例，深度神经网络在诸如图像检测、分类、定位，语音识别和生成、文本识别以及电机控制等领域已经实现了很好的性能。

在此公开了可以将输入和权重组织或分类成的两种具体设置：完全连接层和卷积层。这两种设定都涉及乘积求和的基础运算，作为在所述许多层中的每一层中进行的执行的一部分。这些运算可能消耗很大百分比的执行时间和能量。它们可以被映射到对两个操作数的乘积的求和：

a.输入数据，也称为输入特征图。

b.权重数据，也称为权重或系数。

在以下附图中，并且具体地在图16至图20中，输入数据被表示为X，而权重数据被表示为W。

近似矩阵乘法(Approximate matrix multiplication，AMM)尤其适合于这些类型的任务、以及诸如低秩分解等其他类型的任务，在所述低秩分解中，大矩阵可以被表示为两个小矩阵的乘积。应注意的是，诸如可以被施加至这些问题的大矩阵乘法并不需要一直具有对用于复杂度较低问题的相对较小矩阵执行的那些大矩阵乘法的确切性质。相反，针对如机器学习和神经网络等高复杂度任务，近似乘法可以以编程方式足以提供驱动算法所必要的置信水平。

二进制向量分解(BVF)是一种执行AMM的高度优化的方法。BVF将通用矩阵分解为二进制矩阵和小字典向量，以经由简单的二进制掩码和迭代求和来实现对矩阵乘积的计算。实验性地，当应用于神经网络实施方式时，BVF已被发现产生具有高度压缩表示的现有技术水平结果。

BVF是一种多级过程，其中，来自一个级的结果馈送至另一级。具体地，称作B^Tx的级可以采用包括具有乘法器累加器(MAC)单元与触发器(FF)的二维阵列中的栅格的硬件加速器来保持部分结果。(有关BVF、MAC和FF，参见图16以了解关于硬件加速的进一步讨论。)

某些现有的MAC和FF二维阵列占据了集成电路上的大量物理面积，并且消耗了大量能量，因为它们针对栅格中的每个元素保持部分结果。然而，此阵列的空间消耗和功率消耗两者均可以通过采用本说明书的半加器教导来降低。(参见下文图17。)例如，相比于之前的解决方案中的n² FF，本文的教导提供了n数量级的FF。这种触发器数量的减少自然地减少了电路的所消耗表面面积、以及所消耗功率。

BVF可以适用于通用矩阵结构，并且提供高效的二进制分解。在实施例中，BVF包括将两个向量之间的内积乘法重新映射到输入元素当中的一系列的求和上。在实施例中：

a.每个权重被编码为具有给定位长(例如，2与4之间)的二进制串乘以固定字典向量s。带宽(BW)要求和精度要求设置了所允许的权重位长。测试应用已经示出了16倍压缩，其中，当与单精度相比时，所产生的退化低于1％。

b.BVF通过将较大且耗电的向量乘法(其需要相同次数的乘法和加法)移除为并行二进制掩码和加法来赋予计算优势。在某些实施例中，这提供了高达13倍的计算减少。

c.BVF的二进制映射允许被乘数以更低的精度被存储。这导致了高达8倍压缩(与单精度数据类型相比)，而不会对线性分类典型问题(即，在输出处具有饱和非线性的线性映射)产生可感知的结果退化。

BVF通过双重最小化过程来分解向量(比如说，长度为N的向量w)。所述计算减少可以容易地由如下典型向量内积运算来表征：

其中是通过BVF获得的分解结果(B∈{0，1}^N×n，)，其中，n为n＜＜N，n的典型大小在2至8范围内，并且N的大小可以为约10⁵的数量级。

上述公式概述了向量乘法如何可以作为运算序列来解决：

a.对向量x的n次二进制掩码，以及平均每次掩码N/2次加法(即，项B^T·x))

b.n次求积和加法(即，项s^T·z)。

可以通过事先将矩阵简单向量化而将所述方法应用于矩阵。

借助于具体说明性示例，利用向量s＝[-4，8]来分解具有元素w＝[0，3，-1，8，5，-3，1]的向量。在这种情况下，存在2^n＝2＝4种组合[0，8，-4，4]。这些数字可被称为集群质心。BVF取w中的每个数字，并将其与其最接近的质心相关联，以获得对w的近似，即，w^*＝[0，4，0，8，4，-4，0]。重复此过程以最小化误差|w-w^*|将收敛到最合适的向量s(其可以被称作优化字典向量s)以及s中的项的最合适组合，从而对w中的每个元素进行更接近的近似。取决于当前问题的要求或限制，一些组合可能是不可用的(例如，通过非限制性示例方式，当只有几个选项可用时，对硬件的进一步限制、受损硬件)。BVF通过其定义搜索仅有的“所允许”组合。

在给定一些针对向量s的初始条件的情况下，最小化过程迭代地进行如下：

a.在有序向量(O～log(N))中搜索求解w向量中的相应元素的最佳匹配二进制组合。

b.利用近似伪逆(O～N)求解针对向量s的二次型最小化问题。

这两个过程将迭代直至收敛。在许多实施例中，无论N或者w的基础分布如何，分解都会在10至20次迭代后收敛。

所述算法找到了如何最佳地将权重向量(向量w)的每个元素表示为极少元素的任意组合之和(也称为“字典”向量s)。BVF收敛基于双重最小化过程，以找到最优字典(向量s)以及组合其元素的最佳方式(矩阵B)。更确切地，BVF找到了将n维向量w到N×n维二进制矩阵B和较小n维向量s的最优二进制分解其中，n＜＜N，其中，n可以在2至8范围内，而N可以为10⁵数量级。可以通过事先将矩阵简单向量化而将所述方法应用于矩阵。

考虑通用示例，y＝w^Tx是矩阵到矩阵乘法的基本计算代数基元(从W中提取一行并且从X中提取一列)。一旦实现了分解，则：

a.将w压缩为N×n维二进制矩阵，或者替代地，将w的精度降低为n精度的数据格式(加上可以被忽略的具有相同精度w的小向量s)。这类似与将w中的每个元素重新编码为从长度为n的字典中获取的元素的部分和。

b.现在针对w来代入其分解基址B·s，即，通过应用矩阵转换的代数规则，大向量的乘法运算经由B被对x进行的二进制掩码所吸收，平均需要n乘以N/2次加法(假定在对B进行编码时0和1的数量大致相等)。通过乘以向量s，仅需要n次乘法和加法。

给定所述乘积、或者替代地线性映射Y＝WX，其中， (是某个定义域)，找到最小化误差的二进制分解特别地，是块对角线，其中，长度为n＜＜k_xk_y的单个向量s跨越所述块，并且

为了易于标记，对全矩阵W的直接分解可以由其向量化形式来指代，其中，N＝k_yk_x。使用这种标记，有可能：

a.立刻解决对整个矩阵W的分解：令B∈{0，1}^N×n，针对整个W具有单一或者

b.单独分解每个矩阵行w_i：针对整个矩阵W获得一组{B}_i和{s}_i，其中，N＝k_x。

在计算任何矩阵到矩阵的乘积时，这种向量表示在解决向量内积的基本运算时是有用的。

所述优化找到针对w中的每个元素的最接近值，以使得l₁中的误差和l₂中的误差最小化。这通过对s和B进行双重交替优化来实现，从而使得它们的乘积最小化上文定义的误差。

假定对全矩阵W进行直接分解。

以下附图中的某些附图详细说明了用于实施上文实施例的示例架构和系统。在一些实施例中，上文所描述的一个或多个硬件组件和/或指令如下文所详述的那样进行仿真或者被实施为软件模块。

在某些实施例中，(多个)指令可以采用下文所详述的“通用向量友好指令格式(generic vector friendly instruction format)来实施”。在其他实施例中，使用了另一种指令格式。以下对写入掩码寄存器、各种数据变换(混合、广播等)、寻址等的描述总体上适用于对以上(多个)指令的实施例的描述。另外，在下文中详述了示例系统、架构和流水线。以上(多个)指令的实施例可在那些系统、架构和流水线上执行，但是不限于所详述的那些系统、架构和流水线。

指令集可以包括一种或多种指令格式。给定的指令格式可定义各种字段(例如，位的数量、位的位置)以指定将要执行的运算(例如，操作码)以及将对其执行此运算的(多个)操作数和/或(多个)其他数据字段(例如，掩码)，等等。通过定义指令模板(或子格式)进一步分解一些指令格式。例如，可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序，但是至少一些字段具有不同的位的位置，因为较少的字段被包括)的不同子集，和/或定义为具有以不同方式进行解释的给定字段。由此，ISA的每一条指令使用给定的指令格式(并且如果经定义，则按照此指令格式的指令模板中的给定的一个指令模板)来表达，并包括用于指定运算和操作数的字段。例如，示例ADD指令具有特定操作码和指令格式，所述指令格式包括用于指定操作码的操作码字段以及用于选择操作数(源1/目的地和源2)的操作数字段；并且指令流中此ADD指令的出现将在选择特定操作数的操作数字段中具有特定内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)和利用向量扩展(VEX)编码方案的SIMD扩展集(例如，参见2014年9月的64和IA-32架构软件开发者手册；并且参见高级向量扩展编程参考，2014年10月)。

示例指令格式

本文描述的所述(多个)指令的实施例能够以不同的格式实现。另外，在下文中详述了示例系统、架构和流水线。所述(多个)指令的实施例可以在这样的系统、架构、以及流水线上执行，但不限于所详述的实施例。

通用向量友好指令格式

向量友好指令格式是适用于向量指令的指令格式(例如，存在某些特定于向量运算的字段)。虽然描述了通过所述向量友好指令格式使向量运算和标量运算均受支持的实施例，但是替代实施例仅通过向量友好指令格式使用向量运算。

本说明书的共享加法器在求解矩阵乘积W·X时，利用了BVF算法的某些特征。BVF的这些特征使得能够以共享加法器树来代替MAC的2D阵列，所述共享加法器树需要N个外部节点(即，N/2+N/4+N/8+...，对树上的各层级求和)并且消除了对在2D结构的每个节点处的N²个触发器的需要。此外，因为加法器树接收同一输入向量，并且因为权重是二进制的，所以加法器树的第一层级可以跨所有加法器树共享。当加法器树的数量较大时，这对应于减少了加法器整体数量的一半，因为第一加法器树层级缩放至N/2。

图1a至图1b是框图，展示了根据本说明书的一个或多个示例的通用向量友好指令格式及其指令模板。图1a是框图，展示了根据本说明书的实施例的通用向量友好指令格式及其A类指令模板；而图1b是框图，展示了根据本发明的实施例的通用向量友好指令格式及其B类指令模板。具体地，为通用向量友好指令格式100限定了A类和B类指令模板，所述指令模板都不包括存储器访问105指令模板和存储器访问120指令模板。在向量友好指令格式的上下文中的术语“通用”是指不绑定到任何特定指令集的指令格式。

尽管将描述其中向量友好指令格式支持以下情况的本说明书的实施例：具有32位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且因此，64字节向量由16个双字大小元素或者8个四字大小元素组成)；具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)；具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小)；以及具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小)；替代实施例可以支持具有更多、更少或不同的数据元素宽度(例如，128位(16字节)数据元素宽度)的更多、更少和/或不同的向量操作数大小(例如，256字节向量操作数)。

图1a中的A类指令模板包括：1)在无存储器访问105指令模板中，示出了无存储器访问、完全舍入控制式操作110指令模板和无存储器访问、数据变换式操作115指令模板；以及2)在存储器访问120指令模板中，示出了存储器访问、时效性的125指令模板和存储器访问、非时效性的130指令模板。图1b中的B类指令模板包括：1)在无存储器访问105指令模板中，示出了无存储器访问、写入掩码控制、部分舍入控制式操作112指令模板以及无存储器访问、写入掩码控制、vsize式操作117指令模板；以及2)在存储器访问120指令模板中，示出了存储器访问、写入掩码控制127指令模板。

通用向量友好指令格式100包括下文按图1a至1b所示的顺序列出的以下字段。

格式字段140-此字段中的特定值(指令格式标识符值)唯一地标识所述向量友好指令格式，并且因此在指令流中出现向量友好指令格式的指令。如此，在仅具有通用向量友好指令格式的指令集不需要此字段的情况下，此字段是可选的。

基础操作字段142-其内容区分不同的基础操作。

寄存器索引字段144-其内容直接或通过地址生成来指定源操作数和目的地操作数的位置，无论是在寄存器还是存储器中。这些包含足够数量的位以从P×Q(例如32×512、16×128、32×1024、64×1024)寄存器堆中选择N个寄存器。虽然在一个实施例中，N可以是多达三个源和一个目的地寄存器，但替代实施例可以支持更多或更少的源和目的地寄存器(例如，可以支持多达两个源，其中这些源之一也用作目的地；可以支持多达三个来源，其中一个源也用作目的地；可以支持多达两个源和一个目的地)。

修饰符字段146-其内容区分通用向量指令格式的指令的出现，所述指令指定来自不是通用向量指令格式的指令的存储器访问；也就是说，在无存储器访问105指令模板与存储器访问120指令模板之间。存储器访问操作读取和/或写入存储器层级结构(在一些情况下，使用寄存器中的值来指定所述源和/或目的地址)，而无存储器访问操作并不读取和/或写入存储器层级结构(例如，所述源和目的地是寄存器)。虽然在一个实施例中，此字段还在三种不同的方式之间进行选择以便执行存储器地址计算，但替代实施例可以支持更多、更少或不同的方式来执行存储器地址计算。

扩充操作字段150-其内容区分各种不同操作中除了基础操作之外还有哪一种有待被执行。此字段是上下文特定的。在本说明书的一个实施例中，此字段被分成类别字段168、阿尔法字段152和贝塔字段154。扩充操作字段150允许在单条指令而不是两条、三条或四条指令中执行常见的一组操作。

比例字段160-其内容允许索引字段的内容按比例缩放以用于存储器地址生成(例如，用于使用2^比例*索引+基址的地址生成)。

位移字段162A-其内容用作存储器地址生成的一部分(例如，用于使用2^比例*索引+基址+位移的地址生成)。

位移因数字段162B(注意，位移字段162A直接并置在位移因数字段162B上指示使用了一者或另一者)-其内容用作地址生成的一部分；所述位移因数字段指定有待由存储器访问(N)的大小来缩放的位移因数，其中N是存储器访问中的字节数(例如，用于使用2^比例*索引+基址+经缩放位移的地址生成)。冗余的低次序位被忽略，并且因此，位移因数字段的内容乘以存储器操作数的总大小(N)，以便产生在计算有效地址时所使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段174(稍后在本文中描述)和数据操纵字段154C确定。位移字段162A和位移因数字段162B从不用于无存储器访问105指令模板和/或不同实施例可以仅实施这两者之一或一个都不实施的意义上来说是可选的。

数据元素宽度字段164-其内容区分要使用多个数据元素宽度的哪一个(在一些实施例中针对全部指令；在其他实施例中仅针对指令的一部分)。此字段从其在如果仅支持一个数据元素宽度和/或使用所述操作码的一些方面来支持多个数据元素宽度的情况下则不需要的意义上来说是可选的。

写入掩码字段170-其内容基于每个数据元素位置来控制目的向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并写入掩码，而B类指令模板支持合并写入掩码和归零写入掩码。当合并时，向量掩码允许在执行(由所述基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集合免于更新；在一个实施例中，在对应的掩码位具有0的情况下保留目的地的每个元素的旧值。相比之下，对向量掩码进行归零允许在执行(由所述基础操作和扩充操作指定的)任何操作期间所述目的地中的任何元素归零；在一个实施例中，当掩码位具有0值时，将目的地的对应元素设置为0。此功能的子集是控制正被执行的操作的向量长度(即正被修改的元素的跨度，从第一个到最后一个)的能力；然而，所修改的元素不必是连续的。因此，写入掩码字段170允许部分向量操作，包括加载、存储、算术、逻辑等。虽然描述了本说明书的多个实施例，在所述多个实施例中，写入掩码字段170的内容选择多个写入掩码寄存器中包含有待使用的写入掩码的一个写入掩码寄存器(并且因此写入掩码字段170的内容间接地标识要执行的掩码)，替代实施例允许掩码写入字段170的内容直接指定有待执行的掩码。

立即数字段172-其内容允许立即数的指定。此字段从其不存在于不支持立即数的通用向量友好格式的实施方式中并且不存在于不使用立即数的指令中的意义上来说是可选的。

类别字段168-其内容区分不同类别的指令。参考图1a至1b，此字段的内容在A类和B类指令之间进行选择。在图1a至1b中，使用圆角方格来指示在字段中存在特定值(例如，在图1a至1b中，对于类别字段168分别为A类168A和B类168B)。

A类指令模板

在A类的无存储器访问105指令模板的情况下，阿尔法字段152被解释为RS字段152A，其内容区分有待执行所述不同扩充操作类型中的哪一种(例如，舍入152A.1和数据变换152A.2分别被指定用于无存储器访问、舍入式操作110和无存储器访问、数据变换式操作115指令模板)，而贝塔字段154区分有待执行所指定类型的操作中的哪一个。在无存储器访问105指令模板中，不存在比例字段160、位移字段162A、以及位移比例字段162B。

无存储器访问指令模板-完全舍入控制式操作

在无存储器访问完全舍入控制式操作110指令模板中，贝塔字段154被解释为舍入控制字段154A，其内容提供静态舍入。尽管在本说明书的所述实施例中舍入控制字段154A包括抑制所有浮点异常(SAE)字段156和舍入操作控制字段158，但是替代实施例可将这两个概念编码到同一字段，或仅具有这些概念/字段中的一个或另一个(例如，可仅具有舍入操作控制字段158)。

SAE字段156-其内容区分是否禁用异常事件报告；当SAE字段156的内容表示抑制被启用时，给定指令不会报告任何类型的浮点异常标志并且不引发任何浮点异常处理程序。

舍入操作控制字段158-其内容区分一组舍入操作中的哪一个要执行(例如，向上舍入、向下舍入、朝零舍入以及最近舍入)。因此，舍入操作控制字段158允许基于每条指令改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本说明书的一个实施例中，舍入操作控制字段150的内容覆盖此寄存器值。

无存储器访问指令模板-数据变换式操作

在无存储器访问数据变换式操作115指令模板中，贝塔字段154被解释为数据变换字段154B，其内容区分多项数据变换的哪一项有待执行(例如，无数据变换、混合、广播)。

在A类的存储器存取120指令模板的情况下，阿尔法字段152被解释为驱逐提示字段152B，其内容区分要使用驱逐提示中的哪一个(图1a中，针对存储器存取、时效性的125指令模板和存储器存取、非时效性的130指令模板分别指定时效性的152B.1和非时效性的152B.2)，而贝塔字段154被解释为数据操纵字段154C，其内容区分要执行多个数据操纵操作(又称作原语)中的哪一个(例如，无操纵；广播；对源的向上转换；以及对目的地的向下转换)。存储器访问120指令模板包括比例字段160、以及可选的位移字段162A或位移比例字段162B。

向量存储器指令通过转换支持对来存储器执行向量加载和向量存储。与常规向量指令一样，向量存储器指令以数据元素方式传送来自存储器的数据或将数据传送到存储器，而实际传送的元素由被选择为写入掩码的向量掩码的内容决定。

存储器访问指令模板-时效性的

时效性的数据是可能很快重新使用足以从高速缓存中受益的数据。然而，这是一个提示，并且不同的处理器能够以不同的方式实施所述时态数据，包括完全忽略提示。

存储器访问指令模板-非时效性的

非时效性的数据是在一级高速缓存中不太可能很快重新使用足以从高速缓存中受益的数据，并且应优先考虑驱逐。然而，这是一个提示，并且不同的处理器能够以不同的方式实施所述时态数据，包括完全忽略提示。

B类指令模板

在B类指令模板的情况下，阿尔法字段152被解释为写入掩码控制(Z)字段152C，其内容区分由写入掩码字段170控制的写入掩码应当是合并还是归零。

在B类的无存储器访问105指令模板的情况下，贝塔字段154的一部分被解释为RL字段157A，其内容区分有待执行所述不同扩充操作类型中的哪一种(例如，舍入157A.1和向量长度(VSIZE)157A.2分别被指定用于无存储器访问、写入掩码控制、部分舍入控制式操作112指令模块和无存储器访问、写入掩码控制、VSIZE式操作117指令模板)，而贝塔字段154的其余部分区分有待执行所指定类型的操作中的哪一个。在无存储器访问105指令模板中，不存在比例字段160、位移字段162A、以及位移比例字段162B。

在无存储器访问、写入掩码控制、部分舍入控制式操作110指令模块中，贝塔字段154的其余部分被解释为舍入操作字段159A，并且异常事件报告被禁用(给定指令不报告任何类型的浮点异常标志并且不引发任何浮点异常处理程序)。

舍入操作控制字段159A(就像舍入操作控制字段158一样)-其内容区分一组舍入操作中的哪一个要执行(例如，向上舍入、向下舍入、朝零舍入以及最近舍入)。因此，舍入操作控制字段159A允许基于每条指令改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本说明书的一个实施例中，舍入操作控制字段150的内容覆盖此寄存器值。

在无存储器访问、写入掩码控制、VSIZE式操作117指令模板中，贝塔字段154的其余部分被解释为向量长度字段159B，其内容区分多个数据向量长度的哪一个有待执行(例如，128、256或512字节)。

在B类的存储器访问120指令模板的情况下，贝塔字段154的一部分被解释为广播字段157B，其内容区分是否要执行广播式数据操纵操作，而贝塔字段154的其余部分由向量长度字段159B解释。存储器访问120指令模板包括比例字段160、以及可选的位移字段162A或位移比例字段162B。

关于通用向量友好指令格式100，示出了包括格式字段140、基础操作字段142以及数据元素宽度字段164的全操作码字段174。尽管示出了全操作码字段174包括所有这些字段的一个实施例，但在不支持所有这些字段的实施例中全操作码字段174包括比所有这些字段更少的字段。全操作码字段174提供操作代码(操作码)。

扩充操作字段150、数据元素宽度字段164以及写入掩码字段170允许基于每条指令以通用向量友好指令格式指定这些特征。

写入掩码字段和数据元素宽度字段的组合创建了多个类型化指令，因为它们允许基于不同数据元素宽度应用掩码。

在A类和B类中发现的各种指令模板在不同情况下都是有益的。在本说明书的一些实施例中，不同处理器或处理器内的不同核可支持仅A类、仅B类、或者可支持这两类。举例而言，旨在用于通用计算的高性能通用乱序核可仅支持B类，旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类，并且旨在用于通用计算和图形和/或科学(吞吐量)计算两者的核可支持A类和B类两者(当然，具有来自这两类的模板和指令的一些混合、但是并非来自这两类的所有模板和指令的核在本说明书的范围内)。此外，单个处理器可以包括多个核，所有这些核都支持相同的类，或者其中不同的核支持不同的类。例如，在具有分开的图形核和通用核的处理器中，旨在主要用于图形和/或科学计算的图形核之一可以仅支持A类，而通用核中的一者或多者可以是高性能通用核，其中乱序执行和寄存器重命名旨在用于仅支持类B的通用计算。不具有分开的图形核的另一处理器可以包括支持A类和B类两者的更为通用的一个有序或乱序核。当然，在本说明书的不同实施例中，来自一类的特征也可以在另一类中实施。以高级语言编写的程序将被放入(例如，及时编译或静态编译)到各种不同的可执行形式中，包括：1)仅具有由用于执行的目标处理器支持的类的指令的形式；或2)具有使用所有类别的指的不同组合写入的替代例程并且具有控制流程代码的形式，所述控制流程代码基于当前正在执行代码的处理器所支持的指令来选择要执行的例程。

示例专用向量友好指令格式

图2a是框图，展示了根据本说明书的实施例的示例专用向量友好指令格式。图2a示出了专用向量友好指令格式200，所述专用向量友好指令格式从其指定所述字段的位置、大小、解释和次序以及某些字段的值的意义上来说是特定的。可以使用专用向量友好指令格式200来扩展x86指令集，并且因此所述字段中的一些字段与现有的x86指令集及其扩展(例如，AVX)中使用的字段相似或相同。此格式与现有的带有扩展的x86指令集的前缀编码字段、实际操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段保持一致。示出了来自图1a和图1b的从图2a映射到其中的字段。

应当理解的是，尽管为了说明的目的，在通用向量友好指令格式100的上下文中参考专用向量友好指令格式200来描述本说明书的实施例，但是本说明书不限于专用向量友好指令格式200，除非声称。例如，通用向量友好指令格式100考虑了各种字段的各种可能的大小，而专用向量友好指令格式200被示出为具有特定大小的字段。作为具体示例，尽管在专用向量友好指令格式200中数据元素宽度字段164被展示为一位字段，但是本说明书不限于此(即，通用向量友好指令格式100构想数据元素宽度字段164的其他大小)。

通用向量友好指令格式100包括以下按照图2a所示的次序列出的以下字段。

EVEX前缀(字节0-3)202-以四字节形式编码。

格式字段140(EVEX字节0，位[7：0])-第一字节(EVEX字节0)是格式字段140，并且所述第一字节包含0×62(在一个实施例中，用于区分向量友好指令格式的唯一值)。

第二至第四字节(EVEX字节1-3)包括提供特定能力的多个位字段。

REX字段205(EVEX字节1，位[7-5])-由EVEX.R位字段(EVEX字节1，位[7]-R)、EVEX.X位字段(EVEX字节1，位[6]-X)和157BEX字节1，位[5]-B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能，并且使用1s补码形式进行编码，即ZMM0被编码为1111B，ZMM15被编码为0000B。指令的其他字段对如本领域已知的(rrr，xxx和bbb)编码寄存器索引的低3位进行编码，以便可以通过添加EVEX.R、EVEX.X、以及EVEX.B来形成Rrrr、Xxxx、以及Bbbb。

REX′字段110-这是REX′字段110的第一部分并且是用于对扩展的32寄存器组的较高16或较低16进行编码的EVEX.R′位字段(EVEX字节1，位[4]-R′)。在一个实施例中，此位以及如下所指示的其他位以位反转格式存储，以(在众所周知的x8632位模式中)从BOUND指令区分谁的实际操作码字节为62，但是在MOD R/M字段中不接受MOD字段中的11的值；其他实施例不以反转格式存储此位和下面的指示的其他位。使用值1来对较低的16个寄存器进行编码。换言之，R′Rrrr是通过将EVEX.R′、EVEX.R和来自其他字段的另一RRR组合而形成的。

操作码映射字段215(EVEX字节1，位[3：0]-mmmm)-其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。

数据元素宽度字段164(EVEX字节2，位[7]-W)-用标记EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(大小)。

EVEX.vvvv 220(EVEX字节2，位[6：3]-vvvv)-EVEX.vvvv的作用可以包括以下内容：1)EVEX.vvvv对第一源寄存器操作数进行编码，以反向(1补码)形式指定，并且对于具有2个或更多个源操作数的指令有效；2)EVEX.vvvv对目的地寄存器操作数进行编码，对于某些向量移位以1补码形式指定；或者3)EVEX.vvvv不对任何操作数进行编码，所述字段被保留并且应包含1111b。由此，EVEX.vvvv字段220对以反转(1补码)的形式存储的第一源寄存器指定符的四个低次序位进行编码。取决于指令，使用另外不同的EVEX位字段将说明符大小扩展到32个寄存器。

EVEX.U 168类别字段(EVEX字节2，位[2]-U)-如果EVEX.U＝0，则所述类别字段表示A类或EVEX.U0；如果EVEX.U＝1，则所述类字段表示B类或EVEX.U1。

前缀编码字段225(EVEX字节2，位[1∶0]-pp)-为基础操作字段提供附加位。除了为EVEX前缀格式的传统SSE指令提供支持之外，所述前缀编码字段还具有压缩SIMD前缀的优点(而不是要求一个字节来表示SIMD前缀，EVEX前缀只需要2位)。在一个实施例中，为了支持使用以传统格式和以EVEX前缀格式的SIMD前缀(66H、F2H、F3H)的传统SSE指令，这些传统SIMD前缀被编码成SIMD前缀编码字段；并且在运行时将其扩充到传统SIMD前缀中，然后提供给解码器的PLA(因此，PLA可执行这些传统指令的传统和EVEX格式，而无需修改)。虽然较新的指令可以将EVEX前缀编码字段的内容的直接用作操作码扩展，但是为了一致性，某些实施例以类似的方式扩展但允许由这些传统SIMD前缀指定不同的含义。替代实施例可以重新设计PLA以支持2位SIMD前缀编码，并且因此不需要扩展。

阿尔法字段152(EVEX字节3、位[7]-EH；又称作EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写入屏蔽控制和EVEX.N；也采用α示出)-如先前所述，这个字段是上下文特定的。

贝塔字段154(EVEX字节3，位[6：4]-SSS，又称作EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；也采用βββ展示)-如先前所述，这个字段是上下文特定的。

REX′字段110-这是REX’字段的其余部分并且是可以用于对扩展的32寄存器组的较高16或较低16进行编码的EVEX.V′位字段(EVEX字节3，位[3]-V′)。此位是以位反转格式存储的。使用值1来对较低的16个寄存器进行编码。换言之，V′VVVV是通过组合EVEX.V′、EVEX.vvvv形成的。

写入掩码字段170(EVEX字节3，位[2：0]-kkk)-其内容指定写入掩码寄存器中的寄存器的索引，如前所述。在一个实施例中，特定值EVEX.kkk＝000具有特定的行为，这意味着没有写入掩码用于特定指令(这能够以各种方式实施，包括使用硬连线到所有或绕过掩码硬件的硬件的写入掩码)。

实际操作码字段230(字节4)也称为操作码字节。在此字段中指定所述操作码的一部分。

MOD R/M字段240(字节5)包括MOD字段242、Reg字段244、以及R/M字段246。如前所述，MOD字段242的内容在存储器访问和无存储器访问操作之间进行区分。Reg字段244的作用可被归结为两种情形：对目的地寄存器操作数或源寄存器操作数进行编码；或者被视为操作码扩展，并且不用于对任何指令操作数进行编码。R/M字段246的作用可包括如下各项：对引用存储器地址的指令操作数进行编码；或者对目的地寄存器操作数或源寄存器操作数进行编码。

比例、索引、基址(SIB)字节(字节6)-如前所述，比例字段150的内容用于存储器地址生成。SIB.xxx 254和SIB.bbb 256-这些字段的内容先前已经关于寄存器索引Xxxx和Bbbb而被引用。

位移字段162A(字节7-10)-当MOD字段242包含10时，字节7-10是位移字段162A，并且所述位移字段与传统32位位移(disp32)一样工作并且以字节粒度工作。

位移因数字段162B(字节7)-当MOD字段242包含01时，字节7是位移因数字段162B。这个字段的位置与传统的x86指令集8位位移(disp8)的位置相同，所述字段以字节粒度工作。由于disp8是扩展符号，它只能在-128和127字节偏移之间寻址；就64字节高速缓存行而言，disp8使用只能设置四个非常有用的值-128、-64、0和64的8位；由于通常需要更大的范围，因此使用disp32；然而，disp32需要4个字节。与disp8和disp32相比，位移因数字段162B是disp8的重新解释；当使用位移因数字段162B时，实际位移由位移因数字段的内容乘以存储器操作数访问(N)的大小来确定。这种类型的位移称为disp8*N。这减小了平均指令长度(单个字节用于位移，但具有更大的范围)。这样的压缩位移基于有效位移是存储访问粒度的倍数的假设，并且因此地址偏移的冗余低次序位不需要进行编码。换言之，位移因数字段162B代替传统的x86指令集8位位移。因此，位移因数字段162B以与x86指令集8位位移相同的方式进行编码(因此ModRM/SIB编码规则没有变化)，区别仅在于disp8超载到disp8*N。换言之，在编码规则或编码长度方面没有变化，而仅在由硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的大小以获得字节式地址偏移)。立即数字段172如前所述地进行操作。

全操作码字段

图2b是框图，展示了根据本说明书的一个或多个示例的专用向量友好指令格式200的构成全操作码字段174的字段。具体地，全操作码字段174包括格式字段140、基础操作字段142以及数据元素宽度(W)字段164。基础操作字节142包括前缀编码字段225、操作码映射字段215、以及实际操作码字段230。

寄存器索引字段

图2c是框图，展示了根据一个实施例的专用向量友好指令格式200的构成寄存器索引字段144的字段。具体地，寄存器索引字段144包括REX字段205、REX′字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254、以及bbb字段256。

扩充操作字段

图2d是框图，展示了根据一个实施例的专用向量友好指令格式200的构成扩充操作字段150的字段。当类别(U)字段168包含0时，其表示EVEX.U0(A类168A)；当所述字段包含1时，其表示EVEX.U1(B类168B)。当U＝0并且MOD字段242包含11(表示无存储器访问操作)时，阿尔法字段152(EVEX字节3，位[7]-EH)被解释为rs字段152A。当rs字段152A包含1(舍入152A.1)时，贝塔字段154(EVEX字节3，位[6：4]-SSS)被解释为舍入控制字段154A。舍入控制字段154A包括一位SAE字段156和两位舍入操作字段158。当rs字段152A包含0(数据变换152A.2)时，贝塔字段154(EVEX字节3，位[6∶4]-SSS)被解释为三位数据变换字段154B。当U＝0并且MOD字段242包含00、01或10(表示存储器访问操作)时，阿尔法字段152(EVEX字节3，位[7]-EH)被解释为驱逐提示(EH)字段152B，并且贝塔字段154(EVEX字节3，位[6：4]-SSS)被解释为三位数据操纵字段154C。

当U＝1时，阿尔法字段152(EVEX字节3，位[7]-EH)被解释为写入掩码控制(Z)字段152C。当U＝1并且MOD字段242包含11(表示无存储器访问操作)时，贝塔字段154的一部分(EVEX字节3，位[4]-S₀)被解释为RL字段157A；当所述RL字段包含1(舍入157A.1)时，贝塔字段154的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为舍入操作字段159A，而当RL字段157A包含0(VSIZE 157.A2)时，贝塔字段154的其余部分(EVEX字节3，位[6-5]-S_2-1)被解释为向量长度字段159B(EVEX字节3，位[6-5]-L_1-0)。当U＝1并且MOD字段242包含00、01或10(表示存储器访问操作)时，贝塔字段154(EVEX字节3，位[6：4]-SSS)被解释为向量长度字段159B(EVEX字节3，位[6-5]-L_1-0)和广播字段157B(EVEX字节3，位[4]-B)。

示例寄存器架构

图3是根据本说明书的一个或多个示例的寄存器架构300的框图。在所展示的实施例中，存在32个512位宽的向量寄存器310；这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低次序的256个位叠加(overlay)在寄存器ymm0-16上。较低的16个zmm寄存器的较低次序的128个位(ymm寄存器的较低次序的128个位)叠加在寄存器xmm0-15上。专用向量友好指令格式200对这些叠加的寄存器堆进行操作，如下表所示。

换言之，向量长度字段159B在最大长度与一个或多个其他较短长度之间进行选择，其中每个这样的较短长度是前一长度的一半长度；并且没有向量长度字段159B的指令模板对最大向量长度进行运算。进一步地，在一个实施例中，专用向量友好指令格式200的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据进行运算。标量运算是对zmm/ymm/xmm寄存器中的最低次序的数据元素位置执行的运算；取决于所述实施例，较高次序的数据元素位置或者在所述指令之前保持不变或者被归零。

写入掩码寄存器315-在所展示的实施例中，存在8个写入掩码寄存器(k0至k7)，每一写入掩码寄存器的大小是64位。在替代实施例中，写入掩码寄存器315的大小为16位。如前所述，在一个实施例中，向量掩码寄存器k0不能用作写入掩码；当通常指示k0的编码用于写入掩码时，所述向量掩码寄存器选择0xFFFF的硬连线写入掩码，有效地禁止所述指令的写入掩码。

通用寄存器325-在所展示的实施例中，存在十六个64位通用寄存器，这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

标量浮点栈寄存器堆(x87栈)345，在其上面重叠了MMX紧缩整数平坦寄存器堆350——在所展示的实施例中，x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点运算的八元素栈；而使用MMX寄存器来对64位紧缩整数数据执行运算，以及为在MMX与XMM寄存器之间执行的一些运算保存操作数。

其他实施例可以使用更宽或更窄的寄存器。另外，其他实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例核架构、处理器、和计算机架构

处理器核能够以不同的方式实施，用于不同的目的地以及在不同的处理器中。例如，这样的核的实施方式可包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用乱序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实施方式可以包括：1)CPU，所述CPU包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核；以及2)协处理器，所述协处理器包括旨在主要用于图形和/或科学(吞吐量)计算的一个或多个专用核。这样的不同处理器导致不同的计算机系统架构，这些计算机系统架构可包括：1)位于与CPU分开的芯片上的协处理器；2)位于与CPU相同的封装体中的分开管芯上的协处理器；3)位于与CPU相同的管芯上的协处理器(在这种情况下，这样的协处理器有时被称为专用逻辑，比如集成图形和/或科学(吞吐量)逻辑或专用核)；以及4)芯片上系统，所述芯片上系统可以包括位于相同管芯上的所描述的CPU(有时称为(多个)应用核或(多个)应用处理器)、上述协处理器、以及附加功能。接下来描述示例核架构，之后是对示例处理器和计算机架构的描述。

示例核架构

有序和乱序核框图

图4a是框图，展示了根据本说明书的一个或多个示例的示例有序流水线和示例寄存器重命名、乱序发布/执行流水线。图4b是框图，展示了根据本说明书的一个或多个示例的将包括在处理器中的有序架构核的示例实施例和示例寄存器重命名、乱序发布/执行架构核两者。图4a至4b中的实线框展示了有序流水线和有序核，而虚线框的可选添加展示了寄存器重命名、乱序发布/执行流水线和核。假定有序方面是乱序方面的子集，将描述乱序方面。

在图4a中，处理器流水线400包括取出级402、长度解码级404、解码级406、分配级408、重命名级410、调度(也称为分派或发布)级412、寄存器读取/存储器读取级414、执行级416、回写/存储器写入级418、异常处置级422、以及提交级424。

图4b示出了处理器核490，所述处理器核包括耦合到执行引擎单元450的前端单元430，并且所述执行引擎单元和前端单元都耦合到存储器单元470。核490可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或可替代核类型。作为又另一个选项，核490可以是专用核，如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。

前端单元430包括耦合到指令高速缓存单元434的分支预测单元432，所述指令高速缓存单元耦合到指令转换后备缓冲器(TLB)436，所述指令转换后备缓冲器耦合到指令取出单元438，所述指令取出单元耦合到解码单元440。解码单元440(或解码器)可以对指令进行解码并且生成从原始指令中解码出的、或以其他方式反映原始指令或从原始指令衍生出的一个或多个微运算、微代码入口点、微指令、其他指令或其他控制信号作为输出。解码单元440可以使用各种不同的机制来实施。合适的机制的示例包括但不限于：查找表、硬件实施方式、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核490包括存储用于某些宏指令的微代码(例如，存储在解码单元440中或以其他方式存储在前端单元430内)的微代码ROM或其他介质。解码单元440耦合至执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450包括耦合至引退单元454的重命名/分配器单元452和一组一个或多个调度器单元456。(多个)调度器单元456表示任何数量的不同调度器，包括保留站、中央指令窗等。(多个)调度器单元456耦合至(多个)物理寄存器堆单元458。(多个)物理寄存器单元458各自表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一个或多个不同的数据类型，比如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如，作为有待执行的下一指令的地址的指令指针)等。在一个实施例中，(多个)物理寄存器堆单元458包括向量寄存器单元、写入掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、以及通用寄存器。(多个)物理寄存器堆单元458与引退单元454重叠以说明可实施寄存器重命名和乱序执行的各种方式(例如，使用(多个)重排序缓冲器和(多个)引退寄存器堆；使用(多个)将来的堆、(多个)历史缓冲器和(多个)引退寄存器堆；使用寄存器映射和寄存器池；等等)。引退单元454和(多个)物理寄存器堆单元458耦合至(多个)执行集群460。(多个)执行集群460包括一组一个或多个执行单元462以及一组一个或多个存储器访问单元464。执行单元462可以执行各种运算(例如，移位、加法、减法、乘法)以及对各种类型的数据(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可包括专用于特定功能或功能集合的多个执行单元，但是其他实施例可只包括一个执行单元或包括全都执行全部功能的多个执行单元。(多个)调度器单元456、(多个)物理寄存器文件单元458、以及(多个)执行集群460被显示为可能为多个，因为一些实施例针对一些数据/操作类型创建了单独的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线、和/或各自具有其自身的调度器单元、(多个)物理寄存器文件单元和/或执行集群的存储器存取流水线，并且在为单独的存储器存取流水线的情况下，一些实施例被实现为所述流水线的执行集群具有(多个)存储器存取单元464)。还应理解的是，在使用单独的流水线的情况下，这些流水线中的一者或多者可以是乱序发布/执行流水线，并且其余的是有序的。

所述一组存储器访问单元464耦合至存储器单元470，所述存储器单元包括耦合至数据高速缓存单元474的数据TLB单元472，所述数据高速缓存单元耦合至2级(L2)高速缓存单元476。在一个实施例中，存储器访问单元464可以包括各自耦合到存储器单元470中的数据TLB单元472的加载单元、存储地址单元、以及存储数据单元。指令高速缓存单元434进一步耦合至存储器单元470中的2级(L2)高速缓存单元476。L2高速缓存单元476耦合至一个或多个其他级的高速缓存并且最终耦合至主存储器。

举例来讲，寄存器重命名、乱序发布/执行核架构可以如下实施流水线400：1)指令取出438执行取出级402和长度解码级404；2)解码单元440执行解码级406；3)重命名/分配器单元452执行分配级408和重命名级410；4)(多个)调度器单元456执行调度级412；5)(多个)物理寄存器堆单元458和存储器单元470执行寄存器读取/存储器读取级414；执行集群460执行所述执行级416；6)存储器单元470和(多个)物理寄存器堆单元458执行回写/存储器写入级418；7)各种单元均可以涉及异常处理级422；以及8)退出单元454和(多个)物理寄存器堆单元458执行提交级424。

核490可以支持一个或多个指令集(例如，x86指令集(具有已经添加了较新版本的一些扩展)；加利福尼亚州桑尼维尔的MIPS技术公司的MIPS指令集；加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集(具有可选的附加扩展，比如NEON))，包括本文所描述的(多个)指令。在一个实施例中，核490包括支持紧缩数据指令集扩展(例如，AVX1、AVX2)的逻辑，从而允许使用紧缩数据来执行许多多媒体应用所使用的操作。

应当理解，核可以支持多线程化(执行两个或更多个并行的操作或线程集)，并且可以以各种方式来完成所述多线程化，此各种方式包括时分多线程化、同步多线程化(其中，单个物理核为物理核正同步多线程化的各线程中的每一个线程提供逻辑核)、或其组合(例如，时分取出和解码以及此后诸如超线程化技术中的同步多线程化)。

虽然在乱序执行的上下文中描述了寄存器重命名，但应当理解，可以在有序架构中使用寄存器重命名。虽然处理器的所示实施例还包括分开的指令和数据高速缓存单元434/474和共享的L2高速缓存单元476，但替代实施例可以具有用于指令和数据两者的单个内部高速缓存，例如1级(L1)内部高速缓存、或多级内部高速缓存。在一些实施例中，所述系统可以包括在核和/或处理器外部的内部高速缓存和外部高速缓存的组合。可替代地，所有高速缓存都可以在核和/或处理器的外部。

示例有序核架构

图5a至图5b展示了根据本说明书的一个或多个示例的更具体的示例有序核架构的框图，其中所述核是芯片中的若干逻辑块(包括属于相同类型和/或不同类型的其他核)之一。根据应用，逻辑块通过具有某些固定功能逻辑、存储器I/O接口和其他必要I/O逻辑的高带宽互连网络(例如，环形网络)进行通信。

图5a是根据一个或多个实施例的单个处理器核、连同其与管芯上互连网络502的连接以及其2级(L2)高速缓存504的局部子集的框图。在一个实施例中，指令解码器500支持具有紧缩数据指令集扩展的x86指令集。L1缓存506允许对缓存存储器的低时延访问进入标量单元和向量单元。虽然在一个实施例中(为了简化设计)，标量单元508和向量单元510使用分开的寄存器组(分别为标量寄存器512和向量寄存器514)，并且在它们之间传送的数据被写入存储器并且然后从1级(L1)高速缓存506中回读，但其他实施例可以使用不同的方式(例如，使用单个寄存器组或者包括允许数据在两个寄存器组之间传送而未被写入和回读的通信路径)。

L2高速缓存504的局部子集是全局L2高速缓存的一部分，所述全局L2高速缓存被划分为多个分开的局部子集，每个处理器核一个。每个处理器核具有到其本身的L2高速缓存504的局部子集的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集504中并且可以被快速访问，与其他处理器核并行地访问其局部L2的高速缓存子集。由处理器核写入的数据被存储在其本身的L2高速缓存子集504中，并且如果需要，则从其他子集转储清除掉。环形网络确保共享数据的相干性。环形网络是双向的，允许诸如处理器核、L2高速缓存和其他逻辑块的媒介在芯片内彼此通信。每个环形数据路径在每个方向为1012位宽。

图5b是根据本说明书的实施例的图5a中的处理器核的一部分的放大视图。图5b包括L1高速缓存504的L1数据高速缓存506A部分、以及关于向量单元510和向量寄存器514的更多细节。具体地，向量单元510是16位宽向量处理单元(VPU)(参见16位宽ALU 528)，所述向量处理单元执行整数、单精度浮点和双精度浮点指令中的一者或多者。VPU支持用混合单元520对寄存器输入进行混合、用转换单元522A至522B进行数字转换、以及用复制单元524对存储器输入进行复制。写入掩码寄存器526允许预测结果向量写入。

图6是根据本说明书的一个或多个示例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成显卡的处理器600的框图。图6中的实线框展示了具有单个核602A、系统代理610、以及一组一个或多个总线控制器单元616的处理器600，而虚线框的可选添加展示了具有多个核602A至602N、系统代理单元610中的一组一个或多个集成存储器控制器单元614、以及专用逻辑608的替代处理器600。

因此，处理器600的不同实施方式可以包括：1)CPU，其中专用逻辑608是集成图形和/或科学(吞吐量)逻辑(其可以包括一个或多个核)，并且核602A至602N是一个或多个通用核(例如，通用有序核、通用乱序核、两者的组合)；2)协处理器，其中，核602A至602N是旨在主要用于图形和/或科学(吞吐量)逻辑的大量专用核；以及3)协处理器，其中，核602A至602N是大量通用有序核。因此，处理器600可以是通用处理器、协处理器或专用处理器，如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量集成众核(MIC)协处理器(包括30个或更多个核)、嵌入式处理器等。处理器可以在一个或多个芯片上实施。处理器600可以是一个或多个衬底的一部分和/或可以使用如例如BiCMOS、CMOS或NMOS的多种加工技术中的任何一种技术在一个或多个衬底上实施。

存储器层级结构包括所述核内的一个或多个级别的高速缓存、一组或者一个或多个共享高速缓存单元606、以及外部存储器(未示出)，所述外部存储器耦合至所述一组集成存储器控制器单元614。所述一组共享高速缓存单元606可以包括一个或多个中级高速缓存，如2级(L2)、3级(L3)、4级(L4)、或其他级别的高速缓存、末级高速缓存(LLC)、和/或其组合。虽然在一个实施例中，基于环的互连单元612将集成图形逻辑608、所述一组共享高速缓存单元606、以及系统代理单元610/(多个)集成存储器控制器单元614互连，但替代实施例可以使用任何数量的用于互连这种单元的已知技术。在一个实施例中，在一个或多个高速缓存单元606与核602A至602N之间维持一致性。

在一些实施例中，核602A至602N中的一个或多个核能够进行多线程化。系统代理610包括协调和操作核602A至602N的那些组件。系统代理单元610可包括例如功率控制单元(PCU)和显示单元。PCU可以是或包括用于调节核602A至602N和集成图形逻辑608的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

就架构指令集而言，核602A至602N可以是同构或异构的；也就是说，核602A至602N中的两个或更多个核能够执行相同的指令集，而其他核能够仅执行所述指令集的子集或执行不同的指令集。

示例计算机架构

图7至图10是示例计算机架构的框图。本领域已知的用于膝上型计算机、台式计算机、手持PC、个人数字助理、工程工作站、服务器、网络装置、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其他电子装置的其他系统设计和配置也是合适的。一般，能够结合本文所公开的处理器和/或其他执行逻辑的各种各样的系统或电子装置通常是合适的。

现在参考图7，示出了是根据本说明书的一个或多个示例的系统700的框图。系统700可以包括耦合至控制器中枢720的一个或多个处理器710、715。在一个实施例中，控制器中枢720包括图形存储器控制器中枢(GMCH)790和输入/输出中枢(IOH)750(其可以在分开的芯片上)；GMCH 790包括存储器和图形控制器，存储器740和协处理器745被耦合到所述图形控制器；IOH 750将输入/输出(I/O)装置760耦合至GMCH 790。可替代地，存储器和图形控制器中的一者或两者被集成在处理器(如本文所述)内，存储器740和协处理器745直接耦合至处理器710以及单个芯片中具有IOH 750的控制器中枢720。

图7中用虚线表示附加处理器715的可选性质。每个处理器710、715可以包括本文中所描述的处理核中的一个或多个并且可以是处理器600的某个版本。

存储器740可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或两者的组合。对于至少一个实施例，控制器中枢720经由多点分支总线(例如，前端总线(FSB)、如超路径互连^TM(UPI)等点对点接口或类似连接件795)与(多个)处理器710、715通信。

在一个实施例中，协处理器745是专用处理器，如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中枢720可以包括集成图形加速器。

就一系列指标量度(包括体系结构特性、微体系结构特性、热特性、功耗特性等)而言，物理资源710、715之间可能存在多种差异。

在一个实施例中，处理器710执行控制一般类型的数据处理运算的指令。协处理器指令可以被嵌入在指令中。处理器710将这些协处理器指令识别为属于应由附接的协处理器745执行的类型。相应地，处理器710将协处理器总线或其他互连上的这些协处理器指令(或表示协处理器指令的控制信号)发布到协处理器745。(多个)协处理器745接受并执行接收到的协处理器指令。

现在参考图8，示出了根据本说明书的一个或多个示例的第一更具体示例系统800的框图。如图8所示，多处理器系统800是点对点互连系统，且包括经由点对点互连850耦合的第一处理器870和第二处理器880。处理器870和880各自可以是处理器600的某个版本。在一个实施例中，处理器870和880分别是处理器710和715，而协处理器838是协处理器745。在另一个实施例中，处理器870和880分别是处理器710、协处理器745。

处理器870和880被示出为分别包括集成存储器控制器(IMC)单元872和882。处理器870还包括作为其总线控制器单元的一部分的点对点(P-P)接口876和878；类似地，第二处理器880包括P-P接口886和888。处理器870、880可以使用点对点(P-P)接口电路878、888经由P-P接口850交换信息。如图8中所示，IMC 872和882将处理器耦合到对应存储器，即，存储器832和存储器834，所述存储器可以是主存储器的本地附接至对应处理器上的部分。

处理器870和880可以各自使用点对点接口电路876、894、886、898经由单独的P-P接口852、854来与芯片组890交换信息。芯片组890可以可选地经由高性能接口839与协处理器838交换信息。在一个实施例中，协处理器838是专用处理器，如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享高速缓存(未示出)可以包括在任一处理器中或者在两个处理器外部但经由P-P互连与所述处理器相连接，使得如果处理器被置于低功耗模式中，则任一或两个处理器的局部高速缓存信息可以被存储在所述共享高速缓存中。

芯片组890可以经由接口896耦合至第一总线816。组件在一个实施例中，第一总线816可以是外围部件(PCI)总线或例如PCI Express总线或另一个第三代I/O组件总线等总线，。

如图8所示，各个I/O装置814可以连同总线桥接器818耦合到第一总线816，所述总线桥接器将第一总线816耦合到第二总线820。在一个实施例中，一个或多个附加处理器815(比如，协处理器、高吞吐量MIC处理器、GPGPU、加速器(如例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或任何其他处理器)被耦合至第一总线816。在一个实施例中，第二总线820可以是低引脚数(LPC)总线。在一个实施例中，各个装置可以耦合至第二总线820，所述装置包括例如键盘和/或鼠标822、多个通信装置827、以及可以包括指令/代码数据830的存储单元828(如磁盘驱动器或者其他大容量存储装置)。进一步地，音频I/O 824可以耦合至第二总线820。应注意的是，其他架构是可能的。例如，替代图8的点对点架构，系统可以实施多点分支总线或其他这样的架构。

现在参考图9，示出了是根据本说明书的一个或多个示例的第二更具体示例系统900的框图。图8和图9具有相同的参考号，并且已经从图9中省略了图8的某些方面以避免使图9的其他方面模糊。

图9展示了处理器870、880可以分别包括集成存储器和I/O控制逻辑(“CL”)872和882。因此，CL 872、882包括集成存储器控制器单元并且包括I/O控制逻辑。图9展示了不仅存储器832、834耦合至CL 872、882，而且I/O装置914也耦合至控制逻辑872、882。传统I/O装置915耦合至芯片组890。

现在参考图10，示出了是根据本说明书的一个或多个示例的SoC1000的框图。图6中的相似元件具有相同的附图标记。而且，虚线框是关于更先进的SoC的可选特征。在图10中，(多个)互连单元1002耦合至：应用处理器1010，所述应用处理器包括一组一个或多个核202A至202N以及(多个)共享高速缓存单元606；系统代理单元610；(多个)总线控制器单元616；(多个)集成存储器控制器单元614；一组一个或多个协处理器1020，所述协处理器可以包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器；静态随机存取存储器(SRAM)单元1030；直接存储器存取(DMA)单元1032；以及显示单元1040，所述显示单元用于耦合至一个或多个外部显示器。在一个实施例中，(多个)协处理器1020是专用处理器，如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文中公开的机制的实施例可以以硬件、软件、固件或这些实施方式的组合来实施。一些实施例可以被实施为在可编程系统上执行的计算机程序或程序代码，所述可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置、以及至少一个输出装置。

如图8所展示的代码830的程序代码可以被应用于输入指令以执行本文所述的功能并且生成输出信息。所述输出信息可以以已知的方式应用于一个或多个输出装置。为了本申请的目的地，处理系统包括具有处理器的任何系统，如例如：数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)、或微处理器。

程序代码可以以高级程序或面向对象的编程语言来实施，以与处理系统通信。如果需要，程序代码还可以以汇编或机器语言实施。事实上，在此描述的机制的保护范围不限于任何特定的编程语言。在任何情况下，所述语言可以是编译或解释语言。

可以由机器可读介质上所存储的表示性指令来实施至少一个实施例的一个或多个方面，所述指令代表处理器内的各种逻辑，所述指令当被机器读取时使所述机器制作用于执行本文中所描述的技术的逻辑。这种表示(称为“IP核”)可以被存储在有形的机器可读介质上并提供给各顾客或制造设施以加载至实际制作所述逻辑或处理器的制作机器中。

这种机器可读存储介质可以包括但不限于：由机器或装置制造或形成的物品的非暂态有形安排，包括如硬盘的存储介质；任何其他类型的盘，包括软盘、光盘、致密盘只读存储器(CD-ROM)、可重写致密盘(CD-RW)，磁光盘；半导体装置，比如，只读存储器(ROM)；随机存取存储器(RAM)，比如，动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)；可擦除可编程只读存储器(EPROM)；闪存；电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或者适合于存储电子指令的任何其他类型的介质。

因此，一些实施例还包括非暂态有形机器可读介质，所述非暂态有形机器可读介质包括指令或包括限定本文描述的结构、电路、设备、处理器和/或系统特征的设计数据，如硬件描述语言(HDL)。这类实施例也可以被称为程序产品。

仿真(包括二进制转换、代码变形等)

在一些情况下，可以使用指令转换器将指令从源指令集转换为目标指令集。例如，指令转换器可以转换(例如，使用静态二进制转换、包括动态编译的动态二进制转换)、变形、仿真或以其他方式将指令转换为有待由核处理的一个或多个其他指令。可以在软件、硬件、固件或其组合中实施指令转换器。指令转换器可以处于处理器上、处理器外、或者部分地处于处理器上并且部分地处于处理器外。

图11是根据本说明书的一个或多个示例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所展示的实施例中，指令转换器是软件指令转换器，然而可替代地，可以在软件、固件、硬件或其各种组合中实施指令转换器。图11示出了可以使用x86编译器1104来编译高级语言1102的程序以生成x86二进制代码1106，所述二进制代码可以由具有至少一个x86指令集核1116的处理器本机执行。具有至少一个x86指令集核的处理器1116表示可以通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的处理器基本相同功能的任何处理器：(1)x86指令集核的指令集的实质部分、或(2)目标代码版本的应用或目标是在具有至少一个x86指令集核的处理器上运行的其他软件，以便实现与具有至少一个x86指令集核的处理器基本相同的结果。x86编译器1104表示可运算用于生成x86二进制代码1106(例如，目标代码)的编译器，所述x86二进制代码可以在具有或不具有附加链接处理的情况下在具有至少一个x86指令集核1116的处理器上执行。类似地，图11示出了可以使用替代性指令集编译器1108来编译高级语言1102的程序以生成替代性指令集二进制代码1110，可以由不具有至少一个x86指令集核的处理器1114(例如，具有执行加利福尼亚州桑尼维尔的MIPS技术公司的MIPS指令集和/或执行加利福尼亚州桑尼维尔的ARM控股公司的ARM指令集的多个核的处理器)本机执行所述替代性指令集二进制代码。指令转换器1112用于将x86二进制代码1106转换为可由不具有x86指令集核的处理器1114本机执行的代码。此经转换的代码不太可能与替代指令集二进制代码1110相同，因为很难制作能够实现这一点的指令转换器；然而，经转换的代码将完成一般操作，并且由来自替代指令集的指令构成。因此，指令转换器1112表示通过仿真、模拟或任何其他进程允许不具有x86指令集处理器或核的处理器或其他电子装置执行x86二进制代码1106的软件、固件、硬件或其组合。

图12是根据本说明书的一个或多个示例的分解模式的图示。每个权重被分解为二进制串b_i(即，B矩阵的行)与小系数向量s的乘积，所述小系数向量针对每个被分解的权重是相等的。

图13是根据本说明书的一个或多个示例的近似矩阵乘法单元1300的系统图。应注意，在各实施例中，AMM 1300可以是微处理器的集成部分、单独的AMM电路、协处理器、或者可以被集成到处理器或集成电路中的知识产权(IP)块。在此示例中，近似矩阵乘法器1300接收矩阵W为输入。在必要时，向量化器1302将W向量化为向量w。图13展示了用于BVF的运算的逻辑流程或数学流程，而本文的其他附图可以展示诸如在块关系中的其他方面。

将w作为输入，向量化器1302将输入W向量化。BVF(二进制向量分解)块1304如上文在段落[0042]-[0045]中所描述地那样对所述向量执行BVF。这包括获取输入n＜＜N，所述输入为上文所描述的压缩参数。BVF的输出为B和s。

最后，乘法器1306计算各个量：z＝B^Tx，以便提供输出s^Tz。此输出展示了BVF的具体应用，从而提供了w^Tx的近似乘法。

图14是根据本说明书的一个或多个示例的执行单元462的所选元件的框图。在此示例中，执行单元462包括整数算术逻辑单元(ALU)1402。ALU 1402可以是对二进制整数执行算数运算和逐位运算的组合电路。执行单元462还包括浮点单元(FPU)1404，所述浮点单元可以是协处理器、或者其可以被集成到CPU中。移位单元1406可以提供右移运算或左移运算，这些运算可以对应于在其他使用中的整数乘法和除法。

执行单元462包括矩阵单元1408，所述矩阵单元可以是近似矩阵乘法器(AMM)，这意味着所述矩阵单元可以不执行完全的、正式的矩阵乘法。相反，矩阵单元1408可以对低分辨率矩阵诸如利用图13的AMM 1300或者利用类似BVF的AMM单元来执行近似乘法。

执行单元462还可以包括未示出的其他元件，并且可以提供许多不同的功能。在此所公开的元件是为了展示的目的，并且用于公开其中可能出现矩阵单元1408的上下文。

图15是矩阵单元1408的所选元件的框图。应注意，矩阵单元1408公开了可以结合矩阵单元1408、除了所述矩阵单元之外、或作为所述矩阵单元的一部分使用的某些元件。具体地，图15的框图可以包括使用硬件加速来计算B^Tx。

在此示例中，矩阵单元1408包括数据接收器1502。此数据接收器可以是允许矩阵单元1408接收输入矩阵W的输入电路。此数据接收器可以包括数据总线，诸如：16位、32位或64位的数据总线；串形数据总线；或者用于传送数据的任何其他适合的电路。

在必要时，向量化器1504可以将输入矩阵W向量化，以便产生一个或多个权重向量w。

排序器1506可以执行在此公开的排序操作，诸如将向量w排序为w₀，或者在必要时对p进行排序。

分解器1508是用于提供诸如图21的方法2100等在此公开的分解方法、或者任何其他必要分解的电路。

矩阵乘法器1510执行在此公开的矩阵乘法，并且提供最终的AMM输出。

输出单元1512是用于向系统或处理器的其他部分提供矩阵单元1408的输出的电路。与数据接收器1502一样，输出单元1512可以是任何适合的总线或通信电路。

应用电路1514可以被提供为矩阵单元1408的一部分，或者除了所述矩阵单元之外被提供。在此展示中，应用电路1514被示出为逻辑上驻留在矩阵单元1408内，但是此示例是非限制性的。应用电路可以是任何电路、或者逻辑元件的其他组合，包括但不限于将矩阵单元1408的AMM应用于诸如计算机智能问题的问题的硬件、软件、和/或固件。可以被应用电路1514解决的示例计算机智能问题以非限制性示例的方式包括神经网络、目标识别、图像处理、视频处理、驾驶员辅助系统、自动驾驶车辆控制器、以及面部识别。

图16是框图，示出了根据本说明书的一个或多个示例的加法器树1600的选择元件。如贯穿图16并贯穿各附图所使用的，X表示输入数据，也被称为输入特征图，诸如用于神经网络。W表示权重数据，也被称为权重或系数，诸如用于神经网络。

如在本说明书中贯穿图16所使用的，X是输入数据的32元素阵列，并且W是权重的32元素阵列。阵列X中的每个输入数据将乘以阵列W中的每个权重。

如在图16中所展示的，在一个示例中，这可以利用加法器树来进行累加。参考BVF，被加速的运算是“B·X”，或者换言之，权重B的二进制矩阵乘以输入矩阵X。在许多示例中，与剩余的与向量s的向量内积相比，此被加速的操作在BVF产品中占99％的数量级的处理器周期和能量消耗的主要的运算。

在此公开的硬件加速器可以用于更高效地执行类似BVF的矩阵乘积。

在此，分别在图16、图17、图18和图19中公开了四种不同的硬件加速技术。按面积消耗和功耗的递减顺序来呈现这四种硬件加速器解决方案。

在图16的示例中，计算阵列1600包括MAC与触发器的二维阵列，其中，所述阵列的每个维度具有32个元素。计算阵列1600遍历外循环，以使得阵列中的每个周期的元素的部分结果被加速。在任何给定的周期中，所有输入X与所有权重W相乘。在此示例中，输入向量X包括各自16位的32个向量，并且权重向量W包括各自16位的32个权重。因此，在此示例中的计算阵列1600需要1024个MAC，各自具有大小16×16。

然而，利用BVF，所述权重被减少为单个位向量。这意味着在此所执行的运算不是对乘积求和，而是变为简单的对数字求和，因为每个权重是0或者1。

因此，图17展示了在BVF背景下有用的简化阵列1700的示例。在这种情况下，替代具有1024个16×16MAC的阵列，可以在其位置上使用更简单的具有1024个加法器的阵列。因此，计算阵列1700实现了相对于图16的阵列1600的能量和空间效率益处。

虽然图17的计算阵列1700提供了与图16的阵列1600相同的数学运算整体数量，但是运算更加简单并且消耗更少的能量。

然而，如在图18中所展示的，可以通过使用加法器树1800来进一步优化所述计算。

在加法器树1800的示例中，在加法器树中使用具有32×32个加法运算的树，但是32位的大小仅作为非限制性示例。每个加法器树实施对32个元素的乘积的求和，这实际上是对32个元素的条件求和。总和为：

在此示例中，加法器树1800包括加法器树阵列1802，每个加法器树馈送至触发器阵列1804。每个加法器树实施对32个元素的乘积的求和，这实际上是对32个元素的条件求和。

有利地，这种方式仅需要每行一定数量的触发器，而不是每行和每列都具有触发器。因此，相比针对图17的二维计算阵列1700的1024个触发器，在图18的示例中，只有32个触发器。然而，加法器树方式还可以被进一步优化。

图19是根据本说明书的一个或多个示例的共享加法器树1900的框图。再次，32位加法器树仅被公开作为非限制性示例，并且可以使用其他大小的加法器树。

共享加法器树1900表示对所述加法器树方式的进一步地改进。共享加法器树1900利用了权重为二进制并且所有加法器树共享同一输入X的事实。因此，加法器树1900包括共享加法器1910，其包括16个加法器的阵列，所述阵列中的每个加法器包括对输入X的两个连续元素的求和。共享加法器1910的输出是16个元素的向量。

在共享加法器1910下方，存在具有32个半加法器树1902的阵列。针对W的每一行提供一个半加法器树1902。与图18的加法器树1800中的具有32个元素的加法器树相比，每个半加法器树1902包括具有16个元素的加法器树。

图20是根据本说明书的一个或多个示例的半加器1902的所选元件的框图。如在图19中可以看出的，半加法器树1902的每个输入可以包括在输入端处的四选一MUX。这些MUX选择四个可能选项(即，X₀+X₁、X₁、X₀或者0)中的一个，即，从取决于相应权重(分别为00、10、01和11)的输入位组合的这两个相邻输入中进行选择。

有利地，图19的共享加法器树1900相对于图18的加法器树1800减少了几乎一半的加法器的数量，因为共享加法器树1900重复使用共享加法器树1910的输出。

图21是根据本说明书的一个或多个示例的整体BVF方法的流程图。图14的矩阵单元1408接收输入权重矩阵W，并且如果必要，则将所述矩阵向量化为向量w。

在框2102中，矩阵单元1408选择初始向量s(字典向量)，所述初始向量是数字(包括浮点数)向量。针对s的初始条件是换言之，s的最小值和最大值与w的最小值和最大值相同。例如，如果w的范围在-4与8之间，则向量s具有-4至8的相同范围。向量s的长度是n＜＜N。

在框2104中，矩阵单元1408对向量w进行排序，从而产生经排序的w₀。

在框2106中，矩阵单元1408在向量d中设置w₀的索引(即，w₀(i)＝w(d_i))。向量d是经排序值的索引的向量。例如，如果向量w＝[15，5，20]，则在排序之后，w₀＝[5，15，20]，并且d＝[2，1，3]。(应注意，贯穿本说明书，到向量中的索引可以利用任何标准标记来示出，包括下标或括号。)

在框2110中，矩阵单元1408找到向量p，其包含(以升序)s的高达n个非零唯一元素的可能和的所有2ⁿ个组合。在示例中，当s＝[-4，8]时，p＝[0，8，-4，4]。

在框2112中，矩阵单元1408找到向量v，其长度为N(所述长度与w相同)。针对向量w₀(有序权重矩阵)中的每个元素，矩阵单元1408将p的索引值固定在w₀与向量p之间的最小l₁范数处。换言之，针对向量w₀的每个元素，搜索p中具有最小l₁范数(两个元素之间的差值的绝对值)的元素：选取向量p的元素j，从而最小化|w₀(i)-p(j)|。由于p＝[0 0；0 1；1 0；11]·s＝[0，8，-4，4]是使用二分搜索排序的，这种最小化具有对数复杂度。选取p＝[0 0；01；1 0；1 1]·s＝[0，8，-4，4]作为示例，其中s＝[-4，8]，假定w₀(3)＝7。与7的绝对差向量为因此，索引2(即，p(2)＝|7-8|＝1)针对w₀(3)被选定。因此，v(3)＝2。针对w₀中的每个值重复。

在框2114中，为B的第i行b_i分派v(i)中的二进制值：在前一个示例中，p(v(i)＝2)＝[01]·s＝8，因此，b(3)＝[01]。

这种方法对应于在大致线性的次数N内最小化l₁中的ε，因为迭代的数量至多为(因为n＜＜N)。平均而言，使用二分搜索，这种方法以log₂(N+2ⁿ)进行缩放(对n是线性的，对N是对数的)。

在框2116中，矩阵单元1408取B的伪逆，诸如彭罗斯-穆尔(Penrose-Moore)伪逆B^*。应注意，B可以不严格地或数学地可逆。因此，伪逆可能是必要的。这可以包括最小化以下二次代数方程(在l₂中最小化)：

||w₀-B·s||＝(w₀-B·s)^T(w₀-B·s)＝w₀ ²-2w₀ ^TB·s+s^TB^TB s

在框2118中，乘积B^*·w＝s是最小化上文的产生新候选项s的二次型的解决方案。

在决策框2120中，矩阵单元1408迭代直至收敛。换言之，如果||w₀-B·s||是稳定的，或者不小于此实施例的所需阈值，则控制返回至框2110，以便再次进行迭代。

如果差值小于阈值，则在框2199中，所述方法返回矩阵B，所述矩阵的行沿着之前在框1608中获得的向量d被排序。

通过实验，对图16的计算阵列1600、图17的计算阵列1700、图18的加法器树1800和图19的共享加法器树1900之间的硬件加速结果进行比较。

下表展示了每个实验结果的相关性能。

前述内容概述了若干实施例的特点，以使得本领域技术人员可以更好地理解本公开的各方面。本领域技术人员应该理解，他们可以轻松地使用本公开作为用于设计或修改用于执行相同目的和/或实现此处介绍的各实施例的相同优点的其他过程和结构的基础。本领域技术人员还应该认识到，这样的等效的结构不会偏离本公开的精神和保护范围，在不偏离本公开的精神和保护范围的情况下，他们可以作出各种更改、替换，以及改变。

在此公开的任何硬件元件的全部或部分可以很容易地被提供在包括中央处理单元(CPU)封装体的芯片上系统(SoC)中。SoC表示将计算机或其他电子系统的组件集成到单个芯片中的集成电路(IC)。SoC可以包含数字信号、模拟信号、混合信号、以及射频功能，所有的这些都可以在单一芯片衬底上提供。其他实施例可以包括多芯片模块(MCM)，其中，多个芯片位于单个电子封装体内并被配置成通过电子封装体彼此密切地进行交互。在各其他实施例中，本文所公开的计算功能可以在专用集成电路(ASIC)、现场可编程门阵列(FPGA)、及其他半导体芯片中的一个或多个硅核中实施。

如贯穿本说明书所使用的，术语“处理器”或“微处理器”应被理解为不但包括传统微处理器(诸如，行业领先的x86和x64架构)，而且还包括任何ASIC、FPGA、微控制器、数字信号处理器(DSP)、可编程逻辑器件、可编程逻辑阵列(PLA)、微代码、指令集、仿真或虚拟机处理器、或者允许执行指令的任何类似的“图灵完备(Turing-complete)”装置、器件或逻辑元件(硬件或软件)的组合。

还应注意的是，在某些实施例中，可以省略或合并部件中的一些。在一般意义上，附图中所描绘的安排应被理解为逻辑划分，而物理架构可以包括这些元件的各种排列、组合，和/或混合。应该注意的是，可以使用无数可能的设计配置来实现此处概述的操作目标。相应地，相关联的基础结构具有大量替换安排、设计选择、器件可能性、硬件配置、软件实施方式、以及设备选项。

在一般的意义上，任何适当地配置的处理器都可以执行与数据或微代码相关联的指令来实现此处详述的操作。此处所公开的任何处理器都可以将元素或项目(例如，数据)从一种状态或事物变换成另一种状态或事物。在另一个示例中，此处概述的某些活动可以利用固定逻辑或可编程逻辑(例如，由处理器执行的软件和/或计算机指令)来实现，并且此处所标识的元件可以是某种类型的可编程处理器；可编程数字逻辑(例如，现场可编程门阵列(FPGA)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))；或包括数字逻辑、软件、代码、电子指令的ASIC；闪存；光盘；CD-ROM；DVD ROM；磁卡或光卡；适用于存储电子指令的其他类型的机器可读介质；或其任何合适的组合。

在操作中，在合适的情况下并基于特定需求，存储装置可以将信息存储在任何合适类型的有形、非暂态存储介质(例如，随机存取存储器(RAM)、只读存储器(ROM)、现场可编程门阵列(FPGA)、可擦除可编程只读存储器(EPROM)、电可擦除可编程ROM(EEPROM)、或者微代码)；软件、硬件(例如，处理器指令、或者微代码)；或在任何其他合适的组件、器件、元件、或对象中。此外，基于具体需求和实施方式，可以在任何数据库、寄存器、表、高速缓存、队列、控制列表、或存储结构中提供被跟踪、发送、接收、或被存储在处理器中的信息，所有的这些都可以在任何合适的时帧中引用。在此所公开的存储器或存储元件中的任何一个都应该解释为包含在广义术语‘存储器(memory)’和‘存储设备(storage)’内。在此，非暂态存储介质明确地旨在包括被配置用于提供所公开操作或者用于使得处理器执行所公开操作的任何非暂态专用或可编程硬件。在此，非暂态存储介质还明确地包括处理器，在所述处理器上存储有硬件编码的指令，并且可选地存储有编码在硬件、固件或软件中的微代码指令或者序列。

实现此处所描述的功能的全部或一部分的计算机程序逻辑以各种形式来实施，包括，但决不限于：硬件描述语言、源代码形式、计算机可执行形式、机器指令或微代码、可编程硬件、以及各种中间形式(例如，由HDL处理器、汇编器、编译器、链接器、或定位器所生成的形式)。在一个示例中，源代码包括以以下语言实施的一系列计算机程序指令：与各种操作系统或操作环境一起使用的各种编程语言，诸如目标代码、汇编语言，或诸如OpenCL、FORTRAN、C、C++、JAVA、或HTML之类的高级语言；或者诸如Spice、Verilog、和VHDL等硬件描述语言。源代码可以定义并使用各种数据结构和通信消息。源代码可以采用计算机可执行形式(例如，经由解释器)，或者源代码可以被转换为计算机可执行形式(例如，经由转换器、汇编器、或编译器)、或被转换为诸如字节码等中间形式。在适当的情况下，上述形式中的任一种都可以被用于构建或描述适当的分立电路或集成电路，无论是以顺序的、组合的、状态机，还是以其他方式。

在一个示例中，可在相关联的电子装置的板上实现附图的任何数量的电路。所述板可以是可以固持电子装置的内部电子系统的各种组件的通用电路板，并且进一步地为其他外围装置提供连接器。更具体地，所述板可以提供电连接，通过所述电连接，所述系统的其他组件可以进行电通信。任何合适的处理器和存储器都可以基于具体配置需要、处理需求和计算设计而适当地耦合至所述板诸如外部存储设备、附加传感器、用于音频/视频显示的控制器、以及外围装置等其他组件可以经由电缆作为插入卡而被附接到所述板，或者集成到所述板本身中。在另一示例中，附图的电路可被实现为独立的模块(例如，具有被配置成执行专门应用或功能的相关联部件和电路的装置)或被实现为到电子装置的专用硬件中的插入模块。

应注意，通过此处所提供的众多示例，可以关于两个、三个、四个，或更多个电气组件来描述交互。然而，这只是为了清楚起见，并且只作为示例。应理解的是，可以以任何合适的方式来对系统进行合并或重新配置。连同类似的设计替代方案，可以以各种可能的配置来组合附图的所示出组件、模块，以及元件中的任何一个，所有的这些都在本说明书的宽泛保护范围内。在某些情况下，通过只引用数量有限的电气元件，可以更容易地描述给定流程集的功能中的一个或多个。应理解的是，附图的电路以及其教导可轻松地扩展，并可以容纳大量的组件、以及更复杂/精密的布局和配置。相应地，所提供的示例不应该将保护范围限制为或将电路的宽泛教导约束为潜在地应用于大量其他架构。

对本领域技术人员来说可以确定许多其它的改变、替代、变化、变换和修改并且意图是本公开包括属于所附的权利要求书的保护范围的所有这样的改变、替代、变化、变换和修改。为了帮助美国专利和商标局(USPTO)以及此外在本申请上发布的任何专利的任何读者解释本文所附权利要求书，申请人希望注意，申请人：(a)不旨在所附权利要求书中的任一项由于其在本文提交日期存在而援引35U.S.C.的第112节的第(f)段，除非词语“用于......的装置”或“用于......的步骤”明确用于具体权利要求；以及(b)不旨在通过说明书中的任何陈述来以未在所附权利要求书中明确地以其他方式反映的任何方式来限制本公开。

示例实施方式

通过展示的方式提供了以下示例：

在一个示例中公开了一种处理器，所述处理器包括：解码电路系统，用于对指令进行解码；数据高速缓存单元，包括用于为所述处理器高速缓存数据的电路系统；以及近似矩阵乘法(AMM)电路，包括：数据接收器电路，用于接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；分解器电路，用于通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及二进制乘法器电路，用于计算所述二进制乘法器电路包括用于计算阵列乘积〖(B〗^T x)的硬件加速器电路。

进一步公开了一种处理器的示例，其中，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

进一步公开了一种处理器的示例，其中，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

进一步公开了一种处理器的示例，其中，所述硬件加速器是加法器树。

进一步公开了一种处理器的示例，其中，所述加法器树是全加法器树。

进一步公开了一种处理器的示例，其中，所述全加法器树用于计算g个元素的条件和，形式为

进一步公开了一种处理器的示例，其中，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

进一步公开了一种处理器的示例，其中，所述半加法器树包括多路复用的输入，其中，权重W从X0+X1、X1、X0和0之间进行选择。

进一步公开了一种芯片上系统(SoC)的示例，所述SoC包括：存储器；输入/输出装置；以及核，所述核包括：解码电路系统，用于对指令进行解码；数据高速缓存单元，包括用于为所述处理器高速缓存数据的电路系统；以及计算单元，所述计算单元具有近似矩阵乘法(AMM)电路，所述电路包括：数据接收器电路，用于接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；分解器电路，用于通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及二进制乘法器电路，用于计算所述二进制乘法器电路包括用于计算阵列乘积〖(B〗^Tx)的硬件加速器电路。

进一步公开了一种SoC的示例，其中，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

进一步公开了一种SoC的示例，其中，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

进一步公开了一种SoC的示例，其中，所述硬件加速器是加法器树。

进一步公开了一种SoC的示例，其中，所述加法器树是全加法器树。

进一步公开了一种SoC的示例，其中，所述全加法器树用于计算g个元素的条件和，形式为

进一步公开了一种SoC的示例，其中，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

进一步公开了一种SoC的示例，其中，所述半加法器树包括多路复用的输入端，其中，权重W从X0+X1、X1、X0和0之间进行选择。

进一步公开了一种执行近似矩阵乘法的方法的示例，所述方法包括：接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及计算^Tx)，包括计算阵列乘积〖(B〗^Tx)。

进一步公开了一种方法的示例，其中，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

进一步公开了一种方法的示例，其中，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

进一步公开了一种方法的示例，其中，所述硬件加速器是加法器树。

进一步公开了一种方法的示例，其中，所述加法器树是全加法器树。

进一步公开了一种方法的示例，其中，所述全加法器树用于计算g个元素的条件和，形式为

进一步公开了一种方法的示例，其中，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

进一步公开了一种方法的示例，其中，所述半加法器树包括多路复用的输入端，其中，权重W从X0+X1、X1、X0和0之间进行选择。

进一步公开了一种设备的示例，所述设备包括用于执行所述方法的装置。

进一步公开了一种设备的示例，其中，用于执行所述方法的所述装置包括处理器和存储器。

进一步公开了一种设备的示例，其中，所述存储器包括机器可读指令，在被执行时，所述机器可读指令使得所述装置执行所述方法。

进一步公开了一种设备的示例，其中，所述设备是计算系统。

进一步公开了至少一种机器可读介质的示例，所述机器可读介质包括在被执行时实施方法或实现设备的指令。

进一步公开了一种知识产权(IP)块的示例，所述IP块包括近似矩阵乘法(AMM)电路，所述电路包括：数据接收器电路，用于接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；分解器电路，用于通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及二进制乘法器电路，用于计算所述二进制乘法器电路包括用于计算阵列乘积〖(B〗^Tx)的硬件加速器电路。

进一步公开了一种IP块的示例，其中，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

进一步公开了一种IP块的示例，其中，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

进一步公开了一种IP块的示例，其中，所述硬件加速器是加法器树。

进一步公开了一种IP块的示例，其中，所述加法器树是全加法器树。

进一步公开了一种IP块的示例，其中，所述全加法器树用于计算g个元素的条件和，形式为

进一步公开了一种IP块的示例，其中，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

进一步公开了一种IP块的示例，其中，所述半加法器树包括多路复用的输入端，其中，权重W从X0+X1、X1、X0和0之间进行选择。

Claims

1.一种处理器，包括：

解码电路系统，用于对指令进行解码；

数据高速缓存单元，包括用于为所述处理器高速缓存数据的电路系统；以及

近似矩阵乘法(AMM)电路，包括：

数据接收器电路，用于接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；

分解器电路，用于通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及

二进制乘法器电路，用于计算所述二进制乘法器电路包括用于计算阵列乘积(B^Tx)的硬件加速器电路。

2.如权利要求1所述的处理器，其特征在于，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

3.如权利要求1所述的处理器，其特征在于，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

4.如权利要求1所述的处理器，其特征在于，所述硬件加速器是加法器树。

5.如权利要求4所述的处理器，其特征在于，所述加法器树是全加法器树。

6.如权利要求5所述的处理器，其特征在于，所述全加法器树用于计算g个元素的条件和，形式为

7.如权利要求4所述的处理器，其特征在于，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

8.如权利要求7所述的处理器，其特征在于，所述半加法器树包括多路复用的输入，其中，权重W从X0+X1、X1、X0和0之间进行选择。

9.一种芯片上系统(SoC)，包括：

存储器；

输入/输出装置；以及

核，包括：

解码电路系统，用于对指令进行解码；

计算单元，所述计算单元具有近似矩阵乘法(AMM)电路，所述AMM电路包括：

10.如权利要求9所述的SoC，其特征在于，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

11.如权利要求9所述的SoC，其特征在于，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

12.如权利要求9所述的SoC，其特征在于，所述硬件加速器是加法器树。

13.如权利要求12所述的SoC，其特征在于，所述加法器树是全加法器树。

14.如权利要求13所述的SoC，其特征在于，所述全加法器树用于计算g个元素的条件和，形式为

15.如权利要求12所述的SoC，其特征在于，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

16.如权利要求15所述的SoC，其特征在于，所述半加法器树包括多路复用的输入，其中，权重W从X0+X1、X1、X0和0之间进行选择。

17.一种执行近似矩阵乘法的方法，包括：

接收权重向量w和输入向量x、以及压缩调节参数n，所述权重向量和所述输入向量两者的尺寸均为N；

通过计算尺寸为N×n的二进制分解矩阵B和尺寸为n的字典向量s而将w分解为以及

计算包括计算阵列乘积(B^Tx)。

18.如权利要求17所述的方法，其特征在于，所述硬件加速器电路是乘法器累加器与触发器的二维阵列，所述二维阵列用于遍历外循环以使得每个周期的元素的部分结果被累加，并且其中，所有输入X乘以所有权重W。

19.如权利要求17所述的方法，其特征在于，所述硬件加速器电路是加法器与触发器的二维阵列，所述二维阵列用于计算数字之和，其中，每个权重是0或者1。

20.如权利要求17所述的方法，其特征在于，所述硬件加速器是加法器树。

21.如权利要求20所述的方法，其特征在于，所述加法器树是全加法器树。

22.如权利要求21所述的方法，其特征在于，所述全加法器树用于计算g个元素的条件和，形式为

23.如权利要求20所述的方法，其特征在于，所述加法器树是包括共享加法器块、以及半加法器树的阵列的共享加法器树，其中，所述共享加法器块由所述半加法器树的阵列共享。

24.如权利要求23所述的方法，其特征在于，所述半加法器树包括多路复用的输入，其中，权重W从X0+X1、X1、X0和0之间进行选择。

25.一种设备，包括：用于执行如权利要求17至23中任一项所述的方法的装置。