CN107003844A

CN107003844A - 用于矢量广播和xorand逻辑指令的装置和方法

Info

Publication number: CN107003844A
Application number: CN201580063888.6A
Authority: CN
Inventors: E.奥尔德-阿梅德-瓦尔; R.埃斯帕萨; D.F.吉伦; F.J.桑切斯; G.索尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-20
Publication date: 2017-08-01
Also published as: EP3238041A4; SG11201704245VA; US20160179523A1; JP2018500653A; EP3238041A1; KR20170097018A; TW201636831A; BR112017010985A2; TWI610229B; WO2016105727A1

Abstract

描述了用于执行矢量广播和XORAND逻辑指令的装置和方法。例如，处理器的一个实施例包括：获取逻辑，从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时值的指令；以及执行逻辑，确定以第二源封装数据操作数中的位为基础的对应于即时值的定位；执行第一源封装数据操作数和所确定的位之间的逐位AND以生成中间结果；执行目的地封装数据操作数和中间结果之间的逐位XOR以生成最终结果；以及将最终结果存储在由目的地封装数据操作数指示的存储位置中。

Description

用于矢量广播和XORAND逻辑指令的装置和方法

技术领域

本发明的实施例大体涉及计算机系统的技术领域。更具体地，本发明的实施例涉及用于执行计算机处理器内的矢量广播和XORAND逻辑指令的装置和方法。

背景技术

某些类型的应用通常要求在大量数据项上执行相同操作（称为“数据并行性”）。单指令多数据（SIMD）是指使处理器在多个数据项上执行操作的指令类型。SIMD技术尤其适于处理器，该处理器可以将寄存器中的位逻辑划分成数个固定大小的数据元素，每一个数据元素表示单独的值。例如，可以将256位寄存器中的位指定为要作为四个单独的64位封装数据元素（四倍字长（Q）大小数据元素）、八个单独的32位封装数据元素（双字（D）大小数据元素）、十六个单独的16位封装数据元素（字（W）大小数据元素）或者三十二个单独的8位数据元素（字节（B）大小数据元素）在其上进行操作的源操作数。这种类型的数据称为“封装”数据类型或“矢量”数据类型，并且这种数据类型的操作数称为封装数据操作数或矢量操作数。换言之，封装数据项或矢量是指封装数据元素的序列，并且封装数据操作数或矢量操作数是SIMD指令的源或目的地操作数（还作为封装数据指令或矢量指令而已知）。

SIMD技术，诸如由具有指令集的Intel® Core^TM处理器采用的SIMD技术已经使得能够在应用性能方面实现明显改进，该指令集包括x86、MMX^TM、流式传送SIMD扩展（SSE）、SSE2、SSE3、SSE4.1和SSE4.2指令。已经发行了SIMD扩展的附加集合，其称为高级矢量扩展（AVX）（AVX1和AVX2）并且使用矢量扩展（VEX）编码方案（参见例如参见2011年10月的Intel® 64和IA-32架构软件开发者手册；以及参见2011年6月的Intel®高级矢量扩展编程参考）。已经进一步提出使用经扩展的矢量扩展（EVEX）编码方案对这些AVX扩展进行扩展以便支持512位寄存器（AVX-512）。

在将布尔（位）矩阵与布尔矢量相乘方面存在挑战。当前实现在许多情况下可能要求在矩阵的元素上的重复布尔加法（XOR）操作。这浪费大量处理器循环，并且作为结果，布尔矩阵乘法操作非常缓慢。因而，如果以减少不必要的计算的方式实现这样的位矩阵乘法操作，则可能获得效率方面的增加。

附图说明

图1A是图示了根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图；

图1B是图示了根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图；

图2是根据本发明的实施例的具有集成的存储器控制器和图形的多核处理器和单核处理器的框图；

图3图示了依照本发明的一个实施例的系统的框图；

图4图示了依照本发明的实施例的第二系统的框图；

图5图示了依照本发明的实施例的第三系统的框图；

图6图示了依照本发明的实施例的片上系统（SoC）的框图；

图7图示了根据本发明的实施例的对照使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图；

图8是图示了可操作成执行矢量广播和XORAND逻辑指令的实施例的系统800的框图；

图9图示了依照本发明的一个实施例的用于执行矢量广播和XORAND逻辑指令的逻辑；

图10是用于可操作成执行矢量广播和XORAND逻辑指令的实施例的系统的方法1000的流程图；

图11图示了用于可操作成执行矢量广播和XORAND逻辑指令的实施例的逻辑的示例性伪代码；

图12A和12B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图；

图13A-D图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图；

图14是根据本发明的一个实施例的寄存器架构的框图；以及

图15A-B图示了更加具体的示例性有序核架构的框图。

具体实施方式

示例性处理器架构

图1A是图示了根据本发明的实施例的示例性有序获取、解码、引退流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图。图1B是图示了根据本发明的实施例的要包括在处理器中的有序获取、解码、引退核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图。图1A-B中的实线框图示了流水线和核的有序部分，而虚线框的可选添加图示了寄存器重命名、无序发布/执行流水线和核。

在图1A中，处理器流水线100包括获取级102、长度解码级104、解码级106、分配级108、重命名级110、调度（还作为分派或发布已知）级112、寄存器读取/存储器读取级114、执行级116、回写/存储器写入级118、异常处置级122和提交级124。

图1B示出了包括耦合到执行引擎单元150的前端单元130的处理器核190，并且前端单元130和执行引擎单元150二者耦合到存储器单元170。核190可以是精简指令集计算（RISC）核、复杂指令集计算（CISC）核、非常长指令字（VLIW）核、或者混合式或可替换核类型。作为又一选项，核190可以是专用核，诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元（GPGPU）核、图形核等。

前端单元130包括耦合到指令缓存单元134的分支预测单元132，指令缓存单元134耦合到指令转译后备缓冲器（TLB）136，指令转译后备缓冲器（TLB）136耦合到指令获取单元138，指令获取单元138耦合到解码单元140。解码单元140（或解码器）可以解码指令，并且作为输出而生成一个或多个微操作、微代码入口点、微指令、其它指令或者其它控制信号，其从原始指令解码或者以其它方式反映原始指令或者从原始指令导出。解码单元140可以使用各种不同机制来实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列（PLA）、微代码只读存储器（ROM）等。在一个实施例中，核190包括微代码ROM或者存储用于某些宏指令的微代码的其它介质（例如，在解码单元140中或者以其它方式在前端单元130内）。解码单元140耦合到执行引擎单元150中的重命名/分配器单元152。

执行引擎单元150包括耦合到引退单元154和一个或多个调度器单元156的集合的重命名/分配器单元152。（多个）调度器单元156表示任何数目的不同调度器，包括预留站、中央指令窗口等。（多个）调度器单元156耦合到（多个）物理寄存器文件的（多个）单元158。（多个）物理寄存器文件的单元158中的每一个表示一个或多个物理寄存器文件，其中不同的物理寄存器文件存储一个或多个不同的数据类型，诸如标量整数、标量浮点数、封装整数、封装浮点数、矢量整数、矢量浮点数、状态（例如，作为要执行的下一指令的地址的指令指针）等。在一个实施例中，（多个）物理寄存器文件的单元158包括矢量寄存器单元、写入掩蔽寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构矢量寄存器、矢量掩蔽寄存器和通用寄存器。（多个）物理寄存器文件的（多个）单元158由引退单元154重叠以说明其中可以实现寄存器重命名和无序执行的各种方式（例如，使用（多个）重新排序缓冲器和（多个）引退寄存器文件；使用（多个）未来文件、（多个）历史缓冲器和（多个）引退寄存器文件；使用寄存器映射和寄存器池；等）。引退单元154和（多个）物理寄存器文件的（多个）单元158耦合到（多个）执行群簇160。（多个）执行群簇160包括一个或多个执行单元162的集合以及一个或多个存储器访问单元164的集合。执行单元162可以在各种类型数据（例如，标量浮点数、封装整数、封装浮点数、矢量整数、矢量浮点数）上执行各种操作（例如，偏移、添加、减除、乘积）。尽管一些实施例可以包括专用于特定功能或功能集合的数个执行单元，但是其它实施例可以包括仅一个执行单元或者全部执行所有功能的多个执行单元。将（多个）调度器单元156、（多个）物理寄存器文件的（多个）单元158以及（多个）执行群簇160示为可能地多个，因为某些实施例创建用于某些类型的数据/操作的单独流水线（例如，标量整数流水线、标量浮点数/封装整数/封装浮点数/矢量整数/矢量浮点数流水线、和/或存储器访问流水线，它们各自具有其自身的调度器单元、（多个）物理寄存器文件的单元和/或执行群簇——并且在单独的存储器访问流水线的情况下，实现其中仅该流水线的执行群簇具有（多个）存储器访问单元164的某些实施例）。还应当理解到，在使用单独的流水线的情况下，这些流水线中的一个或多个可以无序发布/执行并且其余部分有序。

存储器访问单元164的集合耦合到存储器单元170，存储器单元170包括耦合到数据缓存单元174的数据TLB单元172，数据缓存单元174耦合到2级（L2）缓存单元176。在一个示例性实施例中，存储器访问单元164可以包括加载单元、存储地址单元和存储数据单元，其中每一个耦合到存储器单元170中的数据TLB单元172。指令缓存单元134进一步耦合到存储器单元170中的2级（L2）缓存单元176。L2缓存单元176耦合到一个或多个其它级缓存并且最终耦合到主存储器。

作为示例，示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线100：1）指令获取138执行获取和长度解码级102和104；2）解码单元140执行解码级106；3）重命名/分配器单元152执行分配级108和重命名级110；4）（多个）调度器单元156执行调度级112；5）（多个）物理寄存器文件的（多个）单元158和存储器单元170执行寄存器读取/存储器读取级114；执行群簇160执行执行级116；6）存储器单元170和（多个）物理寄存器文件的（多个）单元158执行回写/存储器写入级118；7）各种单元可以牵涉在异常处置级122中；以及8）引退单元154和（多个）物理寄存器文件的（多个）单元158执行提交级124。

核190可以支持一个或多个指令集（例如，x86指令集（具有已经添加有较新版本的一些扩展）；加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集；加利福利亚森尼维尔市的ARM Holdings的ARM指令集（具有可选的附加扩展，诸如NEON），包括本文描述的（多个）指令。在一个实施例中，核190包括支持封装数据指令集扩展（例如，AVX1、AVX2和/或某种形式的通用矢量友好指令格式（U=0和/或U=1），在下文描述）的逻辑，由此允许使用封装数据来执行由许多多媒体应用使用的操作。

应当理解到，核可以支持多线程处理（执行操作或线程的两个或更多并行集合），并且可以以各种方式完成此，包括时间分片多线程处理、同时多线程处理（其中单个物理核提供用于物理核同时进行多线程处理的每一个线程的逻辑核），或者其组合（例如，时间分片获取和解码以及此后的同时多线程处理，诸如在Intel®超线程技术中）。

尽管在无序执行的上下文中描述了寄存器重命名，但是应当理解到，寄存器重命名可以使用在有序架构中。尽管所图示的处理器的实施例还包括单独的指令和数据缓存单元134/174以及共享的L2缓存单元176，但是可替换实施例可以具有用于指令和数据二者的单个内部缓冲器，诸如例如1级（L1）内部缓存或者多级内部缓存。在一些实施例中，系统可以包括内部缓存以及在核和/或处理器外部的外部缓存的组合。可替换地，所有缓存可以在核和/或处理器的外部。

图2是根据本发明的实施例的处理器200的框图，处理器200可以具有多于一个核，可以具有集成的存储器控制器，并且可以具有集成的图形。图2中的实线框图示了具有单个核202A的处理器200、系统代理210、一个或多个总线控制器单元216的集合，而虚线框的可选添加图示了具有多个核202A-N的可替换处理器200、系统代理单元210中的一个或多个集成的存储器控制器单元214的集合、以及专用逻辑208。

因而，处理器200的不同实现可以包括：1）CPU，具有作为集成的图形和/或科学（吞吐量）逻辑的专用逻辑208（其可以包括一个或多个核），以及作为一个或多个通用核的核202A-N（例如，通用有序核、通用无序核、两个的组合）；2）协处理器，具有作为意图主要用于图形和/或科学（吞吐量）的大量专用核的核202A-N；以及3）协处理器，具有作为大量通用有序核的核202A-N。因而，处理器200可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU（通用图形处理单元）、高吞吐量许多集成核（MIC）协处理器（包括30或更多核）、嵌入式处理器等。处理器可以实现在一个或多个芯片上。处理器200可以是一个或多个衬底的部分和/或可以使用数个处理技术中的任一个实现在一个或多个衬底上，诸如例如BiCMOS、CMOS或NMOS。

存储器分层结构包括核内的一个或多个级的缓存、一个或多个共享缓存单元206的集合、以及耦合到集成存储器控制器单元214的集合的外部存储器（没有示出）。共享缓存单元206的集合可以包括一个或多个中间级缓存，诸如2级（L2）、3级（L3）、4级（L4）或其它级的缓存、末级缓存（LLC）和/或其组合。尽管在一个实施例中，基于环形的互连单元212互连集成图形逻辑208、共享缓存单元206的集合以及系统代理单元210/（多个）集成存储器控制器单元214，但是可替换实施例可以使用任何数目的公知技术以用于互连这样的单元。在一个实施例中，在一个或多个缓存单元206和核202A-N之间维持一致性。

在一些实施例中，核202A-N中的一个或多个能够进行多线程处理。系统代理210包括协调和操作核202A-N的那些组件。系统代理单元210可以包括例如功率控制单元（PCU）和显示单元。PCU可以是或者包括用于调控核202A-N和集成图形逻辑208的功率状态所需要的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核202A-N可以在架构指令集方面是同构或异构的；也就是说，核202A-N中的两个或更多可以能够执行相同指令集，而其它者可以能够仅执行该指令集的子集或者不同的指令集。在一个实施例中，核202A-N是异构的，并且包括以下描述的“小型”核和“大型”核二者。

图3-6是示例性计算机架构的框图。在本领域中对于膝上型计算机、桌上型计算机、手持式PC、个人数字助理、工程化工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器（DSP）、图形设备、视频游戏设备、机顶盒、微控制器、手机、便携式媒体播放器、手持式设备和各种其它电子设备而言已知的其它系统设计和配置也是适合的。一般地，能够并入如本文中公开的处理器和/或其它执行逻辑的各种各样系统或电子设备一般是适合的。

现在参照图3，示出了依照本发明的一个实施例的系统300的框图。系统300可以包括耦合到控制器中心320的一个或多个处理器310、315。在一个实施例中，控制器中心320包括图形存储器控制器中心（GMCH）390和输入/输出中心（IOH）350（其可以处于单独的芯片上）；GMCH 390包括存储器340和协处理器345耦合到的存储器和图形控制器；IOH 350将输入/输出（I/O）设备360耦合到GMCH 390。可替换地，存储器和图形控制器中的一个或二者集成在处理器内（如本文中所述），存储器340和协处理器345直接耦合到处理器310，以及与IOH 350处于单个芯片中的控制器中心320。

在图3中利用折线标示附加处理器315的可选性质。每一个处理器310、315可以包括本文描述的处理核中的一个或多个并且可以是处理器600的某一版本。

存储器340可以例如是动态随机存取存储器（DRAM）、相变存储器（PCM）或者两个的组合。对于至少一个实施例，控制器中心320经由多点总线与（多个）处理器310、315通信，诸如前侧总线（FSB）、诸如QuickPath互连（QPI）之类的点对点接口、或者类似连接395。

在一个实施例中，协处理器345是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中，控制器中心320可以包括集成图形加速器。

在指标度量谱方面，物理资源310、315之间可以存在各种差异，指标包括架构、微架构、热学、功耗特性等。

在一个实施例中，处理器310执行指令，该指令控制一般类型的数据处理操作。嵌入在指令内的可以是协处理器指令。处理器310将这些协处理器指令识别为具有应当由所附连的协处理器345执行的类型。相应地，处理器310在协处理器总线或其它互连上向协处理器345发布这些协处理器指令（或者表示协处理器指令的控制信号）。（多个）协处理器345接受和执行所接收的协处理器指令。

现在参照图4，示出了依照本发明的实施例的更加具体的第一示例性系统400的框图。如图4中所示，多处理器400是点对点互连系统，并且包括经由点对点互连450耦合的第一处理器470和第二处理器480。处理器470和480中的每一个可以是处理器600的某一版本。在本发明的一个实施例中，处理器470和480分别是处理器310和315，而协处理器438是协处理器345。在另一个实施例中，处理器470和480分别是处理器310和协处理器345。

将处理器470和480示为分别包括集成的存储器控制器（IMC）单元472和482。处理器470还包括作为其总线控制器单元的部分的点对点（P-P）接口476和478；类似地，第二处理器480包括P-P接口486和488。处理器470、480可以使用P-P接口电路478、488经由点对点（P-P）接口450而交换信息。如图4中所示，IMC 472和482将处理器耦合到相应的存储器，也就是存储器432和434，其可以是本地附连到相应处理器的主存储器的部分。

处理器470、480可以各自使用点对点接口电路476、494、486、498而经由单独的P-P接口452、454来交换信息。芯片组490可以可选地经由高性能接口439与协处理器438交换信息。在一个实施例中，协处理器428是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。

共享缓存（未示出）可以包括在处理器中或者在两个处理器的外部，而又经由P-P互连与处理器连接，使得任一个或者两个处理器的本地缓存信息可以存储在共享缓存中，如果将处理器置于低功率模式中的话。

芯片组490可以经由接口496耦合到第一总线416。在一个实施例中，第一总线416可以是外围组件互连（PCI）总线，或者诸如快速PCI总线或另一个第三代I/O互连总线之类的总线，尽管本发明的范围不如此受限。

如图4中所示，各种I/O设备414可以耦合到第一总线416，连同将第一总线416耦合到第二总线420的总线桥418。在一个实施例中，一个或多个附加的处理器415，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器（诸如例如图形加速器或数字信号处理（DSP）单元）、现场可编程门阵列或者任何其它处理器，耦合到第一总线416。在一个实施例中，第二总线420可以是低引脚计数（LPC）总线。在一个实施例中，各种设备可以耦合到第二总线420，包括例如键盘和/或鼠标422、通信设备427和存储单元428（诸如盘驱动或其它大容量存储设备，其可以包括指令/代码和数据430）。另外，音频I/O 424可以耦合到第二总线420。要指出，其它架构是可能的。例如，代替于图4的点对点架构，系统可以实现多点总线或其它这样的架构。

现在参照图5，示出了依照本发明的实施例的更加具体的第二示例性系统500的框图。图4和5中的相同元件具有相同参考标记，并且图4的某些方面已经从图5省略以便避免使图5的其它方面模糊。

图5图示了处理器470、480可以分别包括集成的存储器和I/O控制逻辑（“CL”）472和482。因而，CL 472、482包括集成的存储器控制器单元并且包括I/O控制逻辑。图5图示了不仅存储器432、434耦合到CL 472、482，而且I/O设备514也耦合到控制逻辑472、482。传统I/O设备515耦合到芯片组490。

现在参照图6，示出了依照本发明的实施例的SoC 600的框图。图6中的类似元件具有相同参考标记。而且，虚线框是更加高级的SoC上的可选特征。在图6中，（多个）互连单元602耦合到：应用处理器610，其包括一个或多个核202A-N的集合和（多个）共享缓存单元206；系统代理单元210；（多个）总线控制器单元216；（多个）集成的存储器控制器单元214；一个或多个协处理器620的集合，其可以包括集成的图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM）单元630；直接存储器访问（DMA）单元632；以及用于耦合到一个或多个外部显示器的显示单元640。在一个实施例中，（多个）协处理器620包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。

本文公开的机制的实施例可以实现在硬件、软件、固件、或者这样的实现方案的组合中。本发明的实施例可以实现为计算机程序或者程序代码，其在包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备和至少一个输出设备的可编程系统上执行。

可以应用程序代码，诸如在图4中图示的代码430，以输入指令来执行本文描述的功能并且生成输出信息。输出信息可以以已知方式应用于一个或多个输出设备。出于本申请的目的，处理系统包括具有处理器的任何系统，所述处理器诸如例如：数字信号处理器（DSP）、微控制器、专用集成电路（ASIC）或微处理器。

程序代码可以用高级过程式或面向对象的编程语言来实现以便与处理系统进行通信。程序代码还可以用汇编或机器语言来实现，如果期望的话。事实上，本文描述的机制在范围方面不限于任何特定编程语言。在任何情况下，语言可以是编译或解译语言。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现，机器可读介质表示处理器内的各种逻辑，其在由机器读取时使机器制定逻辑来执行本文描述的技术。称为“IP核”的这样的表示可以存储在有形机器可读介质上并且供应给各种顾客或制造设施以便加载到实际制得逻辑或处理器的制造机器中。

这样的机器可读存储介质可以包括但不限于由机器或设备形成或制造的物品的非暂时性、有形布置，包括：存储介质，诸如硬盘、任何其它类型的盘，包括软盘、光学盘、致密盘只读存储器（CD-ROM）、致密盘可再写入（CD-RW）和磁光盘；半导体器件，诸如只读存储器（ROM）、随机存取存储器（RAM）（诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM））、可擦除可编程只读存储器（EPROM）、闪速存储器、电气可擦除可编程只读存储器（EEPROM）、相变存储器（PCM）、磁卡或光学卡、或者适于存储电子指令的任何其它类型的介质。

相应地，本发明的实施例还包括非暂时性、有形机器可读介质，其包含指令或者包含设计数据，诸如硬件描述语言（HDL），其限定本文描述的结构、电路、装置、处理器和/或系统特征。这样的实施例还可以称为程序产品。

在一些情况下，指令转换器可以用于将指令从源指令集转换到目标指令集。例如，指令转换器可以使指令转译（例如，使用静态二进制转译、动态二进制转译，包括动态编译）、变体、仿真或以其它方式转换成要由核处理的一个或多个其它指令。指令转换器可以实现在软件、硬件、固件或其组合中。指令转换器可以在处理器上、处理器外或者部分地在处理器上且部分地在处理器外。

图7是根据本发明的实施例的对照使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中，指令转换器是软件指令转换器，尽管可替换地，指令转换器可以实现在软件、固件、硬件或其各种组合中。图7示出了可以使用x86编译器704对高级语言702的程序进行编译以生成x86二进制代码706，其可以由具有至少一个x86指令集核的处理器716本机执行。具有至少一个x86指令集核的处理器716表示任何处理器，其可以通过兼容地执行或以其它方式处理以下来执行与具有至少一个x86指令集核的Intel处理器基本上相同的功能，以便实现与具有至少一个x86指令集核的Intel处理器基本上相同的结果：（1）Intel x86指令集核的指令集的大部分或者（2）目标是在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的目标代码版本。x86编译器704表示可操作为生成x86二进制代码706（例如，目标代码）的编译器，x86二进制代码706可以在具有或者没有附加联动处理的情况下在具有至少一个x86指令集核的处理器716上执行。

类似地，图7示出了高级语言702的程序可以使用可替换的指令集编译器708来编译以便生成可替换的指令集二进制代码710，其可以由没有至少一个x86指令集核的处理器714（例如，具有核的处理器，该核执行加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集和/或执行加利福利亚森尼维尔市的ARM Holdings的ARM指令集）本机执行。指令转换器712用于将x86二进制代码706转换成可以由没有x86指令集核的处理器714本机执行的代码。这种经转换的代码不大可能与可替换的指令集二进制代码710相同，因为能够如此的指令转换器难以制得；然而，经转换的代码将实现一般操作并且由来自可替换指令集的指令构成。因而，指令转换器712表示软件、固件、硬件或其组合，其通过仿真、模拟或任何其它过程而允许没有x86指令集处理器或核的处理器或其它电子设备执行x86二进制代码706。

执行矢量广播和XORAND逻辑指令的装置和方法

如上文所提及的，将布尔（位）矩阵与布尔矢量相乘可能是低效率的。因而，将布尔矩阵和矢量相乘的更加高效的方法是合期望的。特别地，在本一些实施例中，使用指令来执行矩阵乘法。指令执行封装数据操作数的逐位AND，所述封装数据操作数可以表示广播至临时矢量的位矢量的对应位与位矩阵的列。该位矢量可以由第二封装数据操作数表示。然后利用该所得值和由第三封装数据操作数表示的目的地矢量来执行逐位排他性OR操作。当针对位矩阵的所有列重复该指令时，目的地矢量累积所有操作的结果并且表示矩阵乘法的结果。要指出，模块化算术用于针对位矢量和矩阵的矩阵操作，并且因此，乘积操作变为逐位AND，并且求和操作变为逐位排他性OR（即，XOR）。这样的指令使得处理器能够通过消除传统指令集指令表中的额外逻辑指令方面的开销而高效地处理位矩阵与位矢量的相乘。

图8是图示了可操作成执行矢量广播和XORAND逻辑指令的实施例的系统800的框图。在一些实施例中，系统800可以是一般目的处理器的部分（例如，具有在桌上型计算机、膝上型计算机或其它计算机中常用的类型）。可替换地，系统800可以是专用处理器。合适的专用处理器的示例包括但不限于加密处理器、网络处理器、通信处理器、协处理器、图形处理器、嵌入式处理器、数字信号处理器（DSP）和控制器（例如，微控制器），它们只是几个示例。处理器可以是各种复杂指令集计算（CISC）处理器、各种精简指令集计算（RISC）处理器、各种非常长指令字（VLIW）处理器、其各种混合型、或者其它类型的处理器中的任一个。

在操作期间，系统800可以接收矢量广播和XORAND逻辑指令802（此后称为指令802）的实施例。例如，指令802可以从指令获取单元、指令队列等接收。指令802可以表示宏指令、汇编语言指令、机器代码指令、或者处理器的指令集的其它指令或控制信号。在一些实施例中，指令802可以明确地指定（例如，通过一个或多个字段或者位的集合）或者以其它方式指示（例如，隐含地指示）第一源封装数据操作数810，并且可以明确地指定或者以其它方式指示第二源封装数据操作数812。指令802还可以明确地指定或者以其它方式指示目的地封装数据操作数814，并且可以明确地指定或者以其它方式指示即时操作数808。

再次参照图8，系统800包括解码单元或解码器804。解码单元可以接收和解码指令，包括指令802。解码单元可以输出一个或多个微指令、宏操作、微代码入口点、经解码的指令或控制信号、或者反映、表示指令802和/或从指令802导出的其它相对较低等级的指令或控制信号。一个或多个相对较低等级的指令或控制信号可以通过一个或多个相对较低等级（例如，电路等级或硬件等级）操作而实现相对较高等级的指令802。在一些实施例中，解码单元802可以包括接收指令802的一个或多个输入结构（例如，（多个）输入端口、（多个）输入互连、输入接口等）、与输入结构耦合以便接收和识别指令802的指令识别逻辑、与识别逻辑耦合以便接收和解码指令802的解码逻辑、以及与解码逻辑耦合以便输出一个或多个对应的较低等级指令或控制信号的一个或多个输出结构（例如，（多个）输出端口、（多个）输出互连、输出接口等）。识别逻辑和解码逻辑可以使用各种不同机制实现，包括但不限于微代码只读存储器（ROM）、查找表、硬件实现、可编程逻辑阵列（PLA）、以及用于实现本领域中已知的解码单元的其它机制。在一些实施例中，解码单元804可以与如图1中图示的解码单元140相同。

系统800还可以包括寄存器的集合。在一些实施例中，寄存器可以包括可操作成持有数据的一般目的寄存器。术语一般目的通常用于是指在寄存器中存储数据或地址的能力，尽管并不要求如此。一般目的寄存器中的每一个可以表示可操作成存储数据的管芯上存储位置。一般目的寄存器可以表示架构上可见的寄存器（例如，架构寄存器文件）。架构上可见或者架构寄存器对于软件和/或编程器可见和/或是由指令指示以标识操作数的寄存器。这些架构寄存器与给定微架构中的其它非架构或非架构上可见的寄存器（例如，临时寄存器、重新排序缓冲器、引退寄存器等）形成对照。寄存器可以以不同方式使用公知的技术实现在不同微架构中并且不限于任何特定类型的电路。各种不同类型的寄存器是适合的。合适类型的寄存器的示例包括但不限于专用物理寄存器、使用寄存器重命名动态分配的物理寄存器及其组合。

在一些实施例中，第一源封装数据操作数810可以存储在第一一般目的寄存器中，第二源封装数据操作数812可以存储在第二一般目的寄存器中，目的地封装数据操作数814可以存储在第三一般目的寄存器中。可替换地，存储器位置或者其它存储位置可以用于源操作数中的一个或多个。例如，在一些实施例中，存储器操作可以潜在地用于第二源封装数据操作数，尽管并不要求如此。

执行单元806从解码单元804接收控制信号并且执行指令802。指令执行单元806接收即时8位值、第一源存储位置、第二源存储位置和目的地存储位置。这些可以分别由即时操作数808、第一源封装数据操作数810、第二源封装数据操作数812和目的地源封装数据操作数814来指示。在一些实施例中，存储位置指示寄存器，例如物理寄存器文件单元158。在一些实施例中，存储位置指示存储器位置，诸如存储器单元中的位置，存储器单元例如存储器单元170。执行单元806的操作和功能性可以参照图1中的执行引擎单元150以进一步的细节来描述。

再次参照图8，执行单元806与解码单元804和寄存器耦合。作为示例，执行单元可以包括算术单元、算术逻辑单元、执行算术和逻辑操作的数字电路、包括乘法器和加法器的数字电路等。执行单元可以接收所述一个或多个经解码或者以其它方式转换的指令或控制信号，其表示指令802和/或从指令802导出。执行单元还可以接收第一源封装数据操作数810、第二源封装数据操作数812、目的地封装数据操作数814和即时操作数808。在一些实施例中，即时操作数具有8位值。在一些实施例中，第一源封装数据操作数810、第二源封装数据操作数812和目的地封装数据操作数814指示存储位置，该存储位置具有作为64位直至512位的倍数的值。执行单元可操作成响应于指令802和/或作为指令802的结果（例如，响应于从指令直接地或者间接地（例如，通过仿真）解码的一个或多个指令或控制信号）而存储结果。

在一些实施例中，将第一源封装数据操作数810、第二源封装数据操作数812和目的地封装数据操作数814中的封装数据元素（位）分离成64位封装数据元素（四倍字长）。在这样的实施例中，重复在每一个64位封装数据元素区段上执行的操作，并且执行单元806可以并行地或者串行地在每一个64位封装数据元素区段上执行操作。在一些实施例中，由封装数据操作数指示的值的长度可以是以长度计的64的许多倍，并且可以包括多个64位区段。

作为指令802的结果，执行单元使用由即时操作数指示的值作为索引定位来确定由第二源封装数据操作数812指示的每一个64位封装数据元素区段中的位。即时操作数在一个实施例中是8位置，并且因而可以表示从0到63的64个索引定位，其可以指示第二源封装数据操作数的64位封装数据元素区段中的每一个中的位定位。

一旦执行单元806确定64位封装数据元素区段中的一个或多个中的位，在一些实施例中，则将该位广播至用于64位封装数据元素区段的每一个的64位的临时矢量阵列。换言之，该一位值在该临时矢量阵列的所有64位定位中重复和放置。在一些实施例中，该临时矢量阵列可以是临时或内部寄存器，其不可通过向系统的任何编程语言接口而访问。

对于64位封装数据元素区段中的每一个，执行单元806然后取具有所广播的位的对应临时矢量阵列，并且执行该临时矢量阵列与由第一源封装数据操作数指示的对应64位封装数据元素区段的逐位AND。换言之，执行单元806取所确定的位，并且执行它与第一源封装数据操作数中的对应位值之间的逐位AND。

执行单元806还从该逐位AND操作数取得合成值（即，中间结果）并且执行这些合成值与目的地封装数据操作数中的对应封装数据元素的逐位排他性OR（XOR）操作。执行单元806然后取得从该逐位XOR操作确定的值，并且将这些值存储在目的地封装数据操作数中的对应操作。

以上描述的这些实施例允许系统800使用模块化算术来高效地将位矩阵与位矢量相乘。在一些实施例中，一些或全部的位矩阵存储在由第一源封装数据操作数指示的存储位置中，并且将位矢量存储在由第二源封装数据操作数指示的存储位置中。在一些实施例中，通过行存储位矩阵（即，存储位置中的定位0存储位矩阵的第一行的第一元素，定位1存储位矩阵的相同第一行的第二元素等）。在这样的情况下，位矩阵应当转置，使得其在执行以上描述的操作之前通过列存储在存储位置中。当以上描述的操作由执行单元806通过设定位矩阵的所有列和即时操作数中的不同值而重复地针对位矢量的所有值执行时，存储在由目的地封装数据操作数指示的存储位置中的值表示位矩阵和位矢量的矩阵相乘的结果。要指出，在即时操作数中针对每一个操作指示的值应当与由第一源封装数据操作数指示的位矩阵的列数目匹配，使得位矩阵中的正确列与位矢量中的正确值相乘（即，位矢量中的定位0处的值应当与位矩阵的定位0处的正确值相乘）。为了实现此，由第一源封装数据操作数指示的存储位置或存储位置地址可以针对指令802的每一次迭代而改变。

在一些实施例中，位矩阵是64x64位矩阵。因为由第一源封装数据操作数指示的存储位置可能不能够存储位矩阵的所有64列（即，如果存储位置是512位寄存器的话），所以不同存储位置可以由第一源封装数据操作数针对指令802的每一次迭代而指示以便完成矩阵乘法操作。

将在下文参照图9-11描述关于以上实施例的进一步细节。

执行单元和/或处理器可以包括具体或特定逻辑（例如，晶体管、集成电路、或者潜在地与固件（例如，存储在非易失性存储器中的指令）和/或软件组合的其它硬件），其可操作成执行指令802和/或响应于指令802和/或作为指令802的结果（例如，响应于从指令802解码或者以其它方式导出的一个或多个指令或控制信号）而存储结果。在一些实施例中，执行单元可以包括接收源操作数的一个或多个输入结构（例如，（多个）输入端口、（多个）输入互连、输入接口等）、与（多个）输入结构耦合以便接收和处理源操作数并且生成结果操作数的电路或逻辑（例如，乘法器和至少一个加法器）、以及与所述电路或逻辑耦合以便输出结果操作数的一个或多个输出结构（例如，（多个）输出端口、（多个）输出互连、输出接口等）。

为了避免使描述不清楚，已经示出和描述了相对简单的系统800。在其它实施例中，系统800可以可选地包括其它公知的处理器组件。这样的组件的可能示例包括但不限于指令获取单元、指令和数据缓存、2级或更高级缓存、无序执行逻辑、指令调度单元、寄存器重命名单元、引退单元、总线接口单元、指令和数据转译后备缓冲器、预获取缓冲器、微指令队列、微指令定序器、包括在处理器中的其它组件、及其各种组合。这样的组件的众多不同组合和配置是适合的。实施例不限于任何已知的组合或配置。此外，实施例可以包括在具有多个核的处理器、逻辑处理器或执行引擎中，它们的至少一个具有解码单元和执行单元以便执行指令802的实施例。

图9图示了依照本发明的一个实施例的用于执行矢量广播和XORAND逻辑指令的逻辑900。在一些实施例中，执行单元806包括执行指令802的逻辑900。在一些实施例中，指令802指定即时操作数808（IMM8）、第一源封装数据操作数810（SRC1）、第二源封装数据操作数812（SRC2）和目的地封装数据操作数814（DEST）。尽管在逻辑900中描绘的操作数指示特定二进制值，仅出于说明性目的而包括这些值，并且操作数在其它实施例中可以包括不同值。要指出，在特定位位置中显示的“X”可以指示这些特定位的值与当前描述无关。

要指出，由SRC1 810、SRC2 812和DEST 814指示的存储位置可以各自能够存储多个封装64位置。在这样的情况下，逻辑900指示这些64位封装数据元素区段可以各自以类似的方式进行处理。在一些实施例中，每一个区段与其它区段并行地处理。这些区段中的每一个的长度和定界由904处的数字指示。操作数值的总长度由906处的数字指示，并且在一个实施例中包括512个位（即，存储在512位矢量寄存器中的8个64位封装数据元素）。

在一些实施例中，IMM8 808是8位值，其能够指定从0到63的数字。在图9的示例性二进制值中，该值为“4”（即，以二进制计的100b）。执行单元遵循逻辑900而确定对应于IMM8808值的位定位处的SRC2 812的值。在图9的示例性值中，这对应于SRC2 821的第一64位区段中的值“1”，以及SRC2的第二64位区段中的“0”。

执行单元然后64次向临时矢量B 902复制或广播SRC2 812的每一个所选择的值。因而，对于SRC2的每一个64位区段，利用如使用IMM8 808的索引值选择的SRC2 812的所选值来填充具有相同长度的临时矢量B 902中的对应区段。例如，在图9中，第一64位区段中的SRC2 812的所选值是“1”。因而，将B 902的对应64位区段中的64个值中的每一个设定成“1”。在一些实施例中，临时矢量B 902可以是不可通过任何编程接口访问的隐藏寄存器。在一些实施例中，临时矢量B 902可以存储在存储器（例如，RAM）中或者缓存中或者其它存储介质中。

尽管在图9中临时矢量B 902包括对应于SRC2 812的64位区段的多个64位区段，但是在一些实施例中，SRC2的每一个64位区段顺序地处理并且因而临时矢量B 902仅包括单个64位区段。在其它实施例中，SRC2 812的每一个64位区段并行地但是分离地处理，并且因而临时矢量B 902的多个副本可以存在于一个时间处但是彼此分离。

在一些实施例中，当执行单元将SRC2 812中的单个所选值广播至临时矢量B 902中的64个值时，要求少于64个处理器循环或者操作，并且替代地，以同时方式将值放置在临时矢量B 902中。在一些实施例中，根据本领域技术人员已知的广播方法来执行广播。

执行单元还通过执行临时矢量B 902的重复值和SRC1 810的对应值的逐位AND来执行逻辑900。

执行单元还执行逻辑900以取得DEST的原始值和以上逐位AND操作（在908处）的结果之间的逐位XOR，其由DEST 814a示出。然后将逐位XOR结果存储回到由DEST指示的存储位置中，如由DEST 814b所示。例如，在位定位0（如由906指示）处，临时矢量B 902的值“1”和SRC1 810的对应位定位处的值“1”之间的逐位AND是“1”，并且这种所得“1”值和DEST 814a的对应位定位中的“0”值之间的逐位XOR是“1”。该值“1”存储在由DEST指示的存储位置的对应位定位处，如在DEST 814b的位定位0处所示。

在一些情况下，逻辑900可以用于高效地确定大小为64x64的位矩阵与大小为64x1的位矢量之间的矩阵乘法的结果。在这样的实施例中，位矢量的值由SRC2 812指示，并且位矩阵的一个或多个列中的值由SRC1 810指示。如果位矩阵最初使用一列接一列的格式表示在存储装置中，则位矩阵将首先由执行单元转置成一列接一列的格式。针对位矩阵的矩阵乘法使用模块化算术来表示。因而，由逐位AND表示乘法，并且由逐位XOR表示加法。使用逻辑900以将位矩阵与位矢量相乘的第一步骤是取得位矩阵的第一列并且将它乘以位矢量中的第一值。为了如此做，将IMM8设置成十进制值“0”以指示位矢量中的第一位定位，其由SRC2 812指示。然后，取得临时矢量B 902中的位矢量的第一位于SRC1 810的值的逐位AND表示位矩阵的第一列与位矢量的第一位的相乘。这在图9中在908处示出以及以上描述的逐位AND处示出。

为了恰当地完成矩阵乘法，针对位矩阵的随后列以及位矢量中的对应位重复以上操作，其中每一个列和位乘法产生所得64位值。这些所得64位值应当一起加和以便得到单个64位值。该单个64位值表示位矩阵和位矢量的矩阵乘法的产物。位矩阵操作中的求和由逐位XOR表示。因而，在逻辑900中的910处示出的逐位XOR操作将当前位矩阵列和位矢量位乘积加到用于整个乘法操作的现行和。

在一些情况下，在存储器位置处一列接一列地存储64x64矩阵。因而，对于指令的每一次执行，由SRC1 810指示的存储地址可以向前偏移64位以到达位矩阵的下一列。在其它情况下，SRC1 810可以改变到存储位矩阵中的下一列的不同存储位置。在一些其它情况下，表示位矢量的SRC2 812的每一个64位区段可以从之前的64位区段偏移（或旋转）1，并且表示位矩阵的SRC1 810的每一个64位区段可以包括相同位矩阵的接连列。这将允许一次处理位矩阵的接连列。在又其它的情况下，SRC1和SRC2的每一个64位区段可以表示位矩阵和位矢量组合的不同集合，从而允许同时地处理多个位矩阵和位矢量乘法计算。

尽管以上矩阵乘法示例描绘了作为64位长的位矩阵和位矢量的乘法，但是在其它情况下，位矩阵和位矢量的长度短于64位。

图10是用于可操作成执行矢量广播和XORAND逻辑指令的实施例的系统的方法1000的流程图。在各种实施例中，方法可以由处理器、指令处理装置或其它数字逻辑设备来执行。在一些实施例中，图10的操作和/或方法可以由图8的处理器执行和/或在图8的处理器内执行。本文针对图8的处理器描述的组件、特征和具体可选细节还可选地应用于图10的操作和/或方法。可替换地，图10的操作和/或方法可以由类似或不同的处理器或装置来执行和/或在类似或不同的处理器或装置内执行，诸如参照图1-8描述的那些。此外，图8的处理器可以执行与图10的那些相同、相似或不同的操作和/或方法。

方法1000包括在块1002处从存储器获取指令，该指令指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数。在各种方面中，指令可以在处理器、指令处理装置或其部分（例如，指令获取单元、解码单元、总线接口单元等）处获取和接收。在各种方面中，指令可以从管芯外的源（例如，从存储器、互连等）或者从管芯上的源（例如，从指令缓存、指令队列等）接收。

在块1004处，对指令进行解码。在一些实施例中，指令的解码可以由解码单元执行，解码单元诸如图8中的解码单元804。

在块1006处，方法1000包括确定以第二源封装数据操作数中的位为基础的对应于即时操作数的值的定位。在一些实施例中，由执行单元执行数据元素的确定，执行单元诸如图8中的执行单元806。

在块1008处，方法1000包括在由目的地封装数据操作数指示的存储位置中存储结果，其中通过执行目的地封装数据操作数和中间结果之间的逐位XOR来确定该结果，并且其中通过执行第一源封装数据操作数和所确定的位之间的逐位AND来确定中间结果。

所图示的方法牵涉到架构操作（例如，从软件的视角看可见的那些）。在其它实施例中，方法可以可选地包括一个或多个微架构操作。作为示例，可以获取、解码、无序调度指令，可以访问源操作数，执行单元可以执行微架构操作以实现指令，可以将结果重新布置回到程序次序中等。在一些实施例中，实现指令的微架构操作可以可选地包括在图1-7和12-15中描述的操作中的任一个。

图11图示了用于可操作成执行矢量广播和XORAND逻辑指令的实施例的逻辑的示例性伪代码。在一些实施例中，该逻辑是逻辑900。此处由操作码“vxorandbcstq”1152表示的指令802可以指定各种操作数，如在1154-1160中所示。操作数zmm0 1152指定目的地封装数据操作数。在一些实施例中，zmm0 1152是DEST 814。在一些实施例中，指令指定写入掩蔽1162，在该情况下“k1”。写入掩蔽的值可以向执行由该伪代码表示的逻辑的执行单元指示是否将值写入到由目的地封装数据操作数指示的寄存器的指定部分。操作数zmm1 1156指定第一源封装数据操作数。在一些实施例中，这是SRC1 810。操作数zmm2 1158指定第二源封装数据操作数。在一些实施例中，这是SRC2 812。操作数imm8 1160指定即时操作数。在一些实施例中，imm8 1160是IMM8 808。

行1102指示指令在一些实施例中与128,256和512的矢量长度兼容。K长度指示二进制值的对应矢量长度可以分离成的64封装数据元素的区段的数目。如上文所指出，指令在64封装数据元素的区段上操作。

在一些实施例中，指令的操作数指定指示可以存储高达512个位的存储位置的操作数，并且在这样的情况下，仅寄存器的部分用于指令的执行。在一些实施例中，操作数中的一个或多个可以指示存储器存储位置而不是寄存器位置。

在图11中，具有相等符号标记的冒号符号（冒号-相等标记）指示将冒号-相等标记右侧上的值指派给冒号-相等标记左侧上的变量。

在行1104处，设定循环以便针对等于K长度的多个循环进行迭代。例如，如果矢量长度为128，则K长度将为2，并且循环将迭代两次。在一些实施例中，循环变量为“j”，如在图11中所图示。

在行1106处，将变量i设定成j乘以64。例如当j为“2”时，变量i将为“128”。

在行1108处，将临时矢量B的64位设定成值SRC2[i+IMM8]，其针对临时矢量B的64位重复64次，临时矢量B可以存储在内部寄存器中。在一些实施例中，临时矢量B是临时矢量B 902。SRC2[i+IMM8]表示定位“i+IMM8”处的SRC2中的值。

在一些实施例中，将值SRC2[i+IMM8]设定成临时值“b”，其可以是内部寄存器，并且该临时值b然后复制或广播至临时矢量B的值。

在行1112处，当前如由行1104处的循环指示的那样处理的64位区段的DEST的64位与之前逐位AND操作的结果进行XOR，并且将该结果分配回到DEST的相同64位。

在一些实施例中，行112处的操作关于指令802是否指定写入掩蔽而被预测。如果指定写入掩蔽，则如在行1110中所示，对于要由执行单元806执行的行1112上的操作，应当将定位j处的写入掩蔽中的位设定成值“1”。否则，行1114-1118上的操作替代地执行。

如果确定行1110处的条件为“0”或假，则行1114执行。在一些实施例中，在行1114处，条件声明检查以查明是否启用合并掩蔽。在一些实施例中，合并掩蔽由标志指示。在一些实施例中，该标志为“EVEX.z”。在一些实施例中，该标志通过指令中的操作数（例如，“{z}”）指示。合并掩蔽或合并式掩蔽向执行单元指示预留目的地操作数的原始值而不是利用“0”覆写这些值。如果合并掩蔽开启，则当前处理的DEST中的64封装数据元素的集合没有改变，如在行1116中所示。否则，如在行1118中所示，利用“0”覆写这些值（即，将值“0”存储在由目的地操作数指示的寄存器的对应定位中）。

在一些实施例中，在行1120处，使没有作为指令的部分而处理的DEST中的其余值，即超出所指定的矢量长度的那些值，归零（即，将值“0”存储在由目的地操作数指示的寄存器的对应定位中）。

尽管参照为512位宽的寄存器描述了以上实施例，但是本发明的其它实施例不要求具有这样的长度的寄存器，并且本发明可以利用任何长度的寄存器来实现。

示例性指令格式

本文描述的（多个）指令的实施例可以以不同格式体现。附加地，在下文详述示例性系统、架构和流水线。（多个）指令的实施例可以在这样的系统、架构和流水线上执行，但是不限于所详述的那些。

矢量友好指令格式是适于矢量指令的指令格式（例如，存在特定于矢量操作的某些字段）。尽管描述了其中通过矢量友好指令格式支持矢量和标量操作二者的实施例，但是可替换实施例仅使用矢量操作，矢量友好指令格式。

图12A-12B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图。图12A是图示了根据本发明的实施例的通用矢量友好指令格式及其分类A指令模板的框图；而图12B是图示了根据本发明的实施例的通用矢量友好指令格式及其分类B指令模板的框图。具体地，针对通用矢量友好指令格式1200限定分类A和B指令模板，它们二者包括无存储器访问105指令模板和存储器访问1220指令模板。在矢量友好指令格式的上下文中，术语通用是指不束缚于任何特定指令集合的指令格式。

尽管将描述其中矢量友好指令格式支持以下内容的本发明的实施例：具有36位（4字节）或64位（8字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）（并且因而，64字节矢量包括16个双字大小的元素或者可替换地8个四倍字长大小的元素）；具有16位（2字节）或8位（1字节）数据元素宽度（或大小）的64字节矢量操作数长度（或大小）；具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的32字节矢量操作数长度（或大小）；以及具有32位（4字节）、64位（8字节）、16位（2字节）或8位（1字节）数据元素宽度（或大小）的16字节矢量操作数长度（或大小）；但是可替换实施例可以支持具有更多、更少或不同数据元素宽度（例如，128位（16字节）数据元素宽度）的更多、更少或不同矢量操作数大小（例如，256字节矢量操作数）。

图12A中的分类A指令模板包括：1）在无存储器访问1205指令模板内，示出了无存储器访问、完全取整（round）控制类型操作1210指令模板以及无存储器访问、数据变换类型操作1215指令模板；以及2）在存储器访问1220指令模板内，示出了存储器访问、临时1225指令模板和存储器访问、非临时1230指令模板。图12B中的分类B指令模板包括：1）在无存储器访问1205指令模板内，示出了无存储器访问、写入掩蔽控制、部分取整控制类型操作1212指令模板以及无存储器访问、写入掩蔽控制、vsize类型操作1217指令模板；以及2）在存储器访问1220指令模板内，示出了存储器访问、写入掩蔽控制1227指令模板。

通用矢量友好指令格式1200包括在下文以图12A-12B中所图示的次序列出的以下字段。

格式字段1240——该字段中的特定值（指令格式标识符值）唯一地标识矢量友好指令格式，以及因而指令流中的矢量友好指令格式中的指令的出现。因此，该字段在以下意义上是可选的：对于仅具有通用矢量友好指令格式的指令集而言，不需要它。

基础操作字段1242——其内容辨别不同基础操作。

寄存器索引字段1244——其内容直接地或者通过地址生成而指定源和目的地操作数的位置，它们在寄存器中或者在存储器中。这些包括充足数目的位以便从PxQ（例如，32x512、16x128、32x1024、64x1024）寄存器文件选择N个寄存器。尽管在一个实施例中N可以高达三个源和一个目的地寄存器，但是可替换实施例可以支持更多或更少的源和目的地寄存器（例如，可以支持高达两个源，其中这些源中的一个还充当目的地；可以支持高达三个源，其中这些源中的一个还充当目的地；可以支持高达两个源和一个目的地）。

修饰符字段1246——其内容辨别指定存储器访问的通用矢量指令格式中的指令的出现以及不这样做的那些出现；也就是说，在无存储器访问1205指令模板和存储器访问1220指令模板之间进行辨别。存储器访问操作向存储器分层结构写入和/或读取（在一些情况下，使用寄存器中的值来指定源和/或目的地地址），而非存储器访问操作不会这样做（例如，源和目的地是寄存器）。尽管在一个实施例中该字段还在执行存储器地址计算的三个不同方式之间进行选择，但是可替换实施例可以支持执行存储器地址计算的更多、更少或不同方式。

扩增操作字段1250——其内容辨别除基础操作之外要执行各种不同操作中的哪一个。该字段是上下文特定的。在本发明的一个实施例中，该字段划分成分类字段1268、阿尔法字段1252和贝塔字段1254。扩增操作字段1250允许在单个指令中而不是在2、3或4个指令中执行操作的公共群组。

缩放字段1260——其内容允许索引字段的内容的缩放以用于存储器地址生成（例如，对于使用2^缩放*索引+基础的地址生成）。

移位字段1262A——其内容用作存储器地址生成的部分（例如，对于使用2^缩放*索引+基础+移位的地址生成）。

移位因子字段1262B（要指出，移位字段1262A直接在移位因子字段1262B之上的并置指示使用一个或另一个）——其内容用作地址生成的部分；其指定要通过存储器访问的大小（N）进行缩放的移位因子——其中N是存储器访问中的字节数目（例如，对于使用2^缩放*索引+基础+经缩放的移位的地址生成）。忽略冗余的低阶位，并且因而，将移位因子字段的内容乘以存储器操作数总大小（N）以便生成要在计算有效地址时使用的最终移位。N的值由处理器硬件在运行时基于完整操作码字段1274（随后在本文中描述）和数据操控字段1254C来确定。移位字段1262A和移位因子字段1262B在以下意义上是可选的：它们不用于无存储器访问1205指令模板和/或不同实施例可以仅实现这两个中的一个或一个都不实现。

数据元素宽度字段1264——其内容辨别要使用数个数据元素宽度中的哪一个（在一些实施例中，对于所有指令；在其它实施例中，对于指令中的仅一些）。该字段在以下意义上是可选的：如果仅支持一个数据元素宽度和/或使用操作码的一些方面支持数据元素宽度，则不需要它。

写入掩蔽字段1270——其内容在每一数据元素位置的基础上控制目的地矢量操作数中的该数据元素位置是否反映基础操作和扩增操作的结果。分类A指令模板支持合并写入掩蔽，而分类B指令模板支持合并和归零写入掩蔽二者。当合并时，矢量掩蔽允许目的地中的任何元素集合受保护以防在（由基础操作和扩增操作指定的）任何操作的执行期间更新；在另一个实施例中，在对应掩蔽位具有0的情况下，预留目的地的每一个元素的旧值。相比而言，当归零时，矢量掩蔽允许目的地中的任何元素集合在（由基础操作和扩增操作指定的）任何操作的执行期间归零；在一个实施例中，当对应掩蔽位具有0值时，目的地的元素设置成0。该功能性的子集是控制所执行的操作的矢量长度（也就是说，所修改的元素从第一个向最后一个的跨度）的能力；然而，不必要的是，所修改的元素是连贯的。因而，写入掩蔽字段1270允许部分矢量操作，包括加载、存储、算术、逻辑等。尽管描述了其中写入掩蔽字段1270的内容选择包含要使用的写入掩蔽的数个写入掩蔽寄存器之一（并且因而写入掩蔽字段1270的内容简介地标识要执行的掩蔽）的本发明的实施例，但是可替换实施例替代地或者附加地允许掩蔽写入字段1270的内容直接地指定要执行的掩蔽。

即时字段1272——其内容允许即时值指定。该字段在以下意义上是可选的：其不存在于不支持即时值的通用矢量友好格式的实现中，以及其不存在于不使用即时值的指令中。

分类字段1268——其内容在不同指令分类之间进行辨别。参照图12A-B，该字段的内容在分类A和分类B指令之间进行选择。在图12A-B中，使用圆角方形来指示特定值存在于字段中（例如，分类A 1268A和分类B 1268B分别用于图12A-B中的分类字段1268）。

分类A的指令模板

在分类A的非存储器访问1205指令模板的情况下，阿尔法字段1252解译为RS字段1252A，其内容辨别要执行不同扩增操作类型中的哪一个（例如，分别指定取整1252A.1和数据变换1252A.2用于无存储器访问、取整类型操作1210和无存储器访问、数据变换类型操作1215指令模板），而贝塔字段1254辨别要执行所指定的类型的操作中的哪个。在无存储器访问1205指令模板中，缩放字段1260、移位字段1262A和移位缩放字段1262B不存在。

无存储器访问指令模板——完全取整控制类型操作

在无存储器访问完全取整控制类型操作1210指令模板中，贝塔字段1254解译为取整控制字段1254A，其（多个）内容提供静态取整。尽管在本发明的所述实施例中，取整控制字段1254A包括抑制全部浮点数异常（SAE）字段1256和取整操作控制字段1258，但是可替换实施例可以支持的是，可以将这两个概念编码到相同字段中，或者仅具有这些概念/字段中的一个或另一个（例如，可以仅具有取整操作控制字段1258）。

SA字段1256——其内容辨别是否禁用异常事件报告；当SAE字段1256的内容指示启用抑制时，给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器。

取整操作控制字段1258——其内容辨别要执行取整操作的群组中的哪一个（例如，向上取整、向下取整、朝零取整以及向最近处取整）。因而，取整操作控制字段1258允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段1250的内容覆写该寄存器值。

无存储器访问指令模板——数据变换类型操作

在无存储器访问数据变换类型操作1215指令模板中，贝塔字段1254解译为数据变换字段1254B，其内容辨别要执行数个数据变换中的哪一个（例如，无数据变换、拌和、广播）。

在分类A的存储器访问1220指令模板的情况下，阿尔法字段1252解译为逐出提示字段1252B，其内容辨别要使用逐出提示中的哪一个（在图12A中，分别指定临时1252B.1和非临时1252B.2用于存储器访问、临时1225指令模板和存储器访问、非临时1230指令模板），而贝塔字段1254解译为数据操控字段1254C，其内容辨别要执行数个数据操控操作（还称为基元）中的哪一个（例如，无操控；广播、源的上转换；以及目的地的下转换）。存储器访问1220指令模板包括缩放字段1260，以及可选地移位字段1262A或移位缩放字段1262B。

矢量存储器指令执行来自存储器的矢量加载以及向存储器的矢量存储，其中支持转换。如与常规矢量指令那样，矢量存储器指令以逐数据元素方式自/向存储器转移数据，其中实际转移的元素由选择为写入掩蔽的矢量掩蔽的内容指示。

存储器访问指令模板——临时

临时数据是很可能足够快地再使用以获益于缓存的数据。然而，这是提示，并且不同的处理器可以以不同方式实现它，包括完全忽略提示。

存储器访问指令模板——非临时

非临时数据是不可能足够快地再使用以获益于第一级缓存中的缓存并且应当给予逐出优先级的数据。然而，这是提示，并且不同的处理器可以以不同方式实现它，包括完全忽略提示。

分类B的指令模板

在分类B的指令模板的情况下，阿尔法字段1252解译为写入掩蔽控制（Z）字段1252C，其内容辨别由写入掩蔽字段1270控制的写入掩蔽是应当合并还是归零。

在分类B的非存储器访问1205指令模板的情况下，贝塔字段1254的部分解译为RL字段1257A，其内容辨别要执行不同扩增操作类型中的哪一个（例如，分别指定取整1257A.1和矢量长度（VSIZE）1257A.2用于无存储器访问、写入掩蔽控制、部分取整控制类型操作1212指令模板和无存储器访问、写入掩蔽控制、VSIZE类型操作1217指令模板），而贝塔字段1254的其余部分辨别要执行所指定的类型的操作中的哪个。在无存储器访问1205指令模板中，缩放字段1260、移位字段1262A和移位缩放字段1262B不存在。

在无存储器访问、写入掩蔽控制、部分取整控制类型操作1210指令模板中，贝塔字段1254的其余部分解译为取整操作字段1259A，并且禁用异常事件报告（给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器）。

取整操作控制字段1259A——正如取整操作控制字段1258，其内容辨别要执行取整操作的群组中的哪一个（例如，向上取整、向下取整、朝零取整以及向最近处取整）。因而，取整操作控制字段1259A允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中，取整操作控制字段1250的内容覆写该寄存器值。

在无存储器访问、写入掩蔽控制、VSIZE类型操作1217指令模板中，贝塔字段1254的其余部分解译为矢量长度字段1259B，其内容辨别要在其上执行的数个数据矢量长度中的哪一个（例如，128、256或512字节）。

在分类B的存储器访问1220指令模板的情况下，贝塔字段1254的部分解译为广播字段1257B，其内容辨别是否要执行广播类型数据操控操作，而贝塔字段1254的其余部分解译为矢量长度字段1259B。存储器访问1220指令模板包括缩放字段1260，以及可选地移位字段1262A或移位缩放字段1262B。

关于通用矢量友好指令格式1200，示出了完整操作码字段1274，其包括格式字段1240、基础操作字段1242和数据元素宽度字段1264。尽管示出了其中完整操作码字段1274包括所有这些字段的一个实施例，但是在不支持它们全部的实施例中，完整操作码字段1274包括少于这些字段的全部。完整操作码字段174提供操作代码（操作码）。

扩增操作字段1250、数据元素宽度字段1264和写入掩蔽字段1270允许在通用矢量友好指令格式中在每一指令的基础上指定这些特征。

写入掩蔽字段和数据元素宽度字段的组合创建类型化指令，因为它们允许基于不同数据元素宽度来应用掩蔽。

在分类A和分类B内发现的各种指令模板在不同情况下是有益的。在本发明的一些实施例中，不同处理器或者处理器内的不同核可以仅支持分类A，仅支持分类B，或者支持两个分类。例如，意图用于通用计算的高性能通用无序核可以仅支持分类B，意图主要用于图形和/或科学（吞吐量）计算的核可以仅支持分类A，并且意图用于二者的核可以支持二者（当然，具有来自两个分类的模板和指令的某种混合但是并非来自两个分类的所有模板和指令的核处于本发明的权限内）。而且，单个处理器可以包括多个核，所有核支持相同分类或者其中不同核支持不同分类。例如，在具有单独的图形和通用核的处理器中，意图主要用于图形和/或科学计算的图形核之一可以仅支持分类A，而通用核中的一个或多个可以是具有意图用于通用计算的无序执行和寄存器重命名的高性能通用核，其仅支持分类B。不具有单独的图形核的另一个处理器可以包括一个或多个通用有序或无序核，其支持分类A和分类B二者。当然，在本发明的不同实施例中，来自一个分类的特征还可以实现在另一分类中。以高级语言编写的程序将置于（例如，及时编译或静态编译成）各种不同可执行形式，包括：1）仅具有由目标处理器支持以用于执行的（多个）分类的指令的形式；或者2）具有使用所有分类的指令的不同组合编写的可替换例程并且具有控制流程代码的形式，所述控制流程代码基于由当前正执行该代码的处理器支持的指令来选择要执行的例程。

图13A-D是图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图。图13A-D示出了在以下意义上是特定的特定矢量友好指令格式1300：其指定字段的位置、大小、解译和次序，以及用于那些字段中的一些的值。特定矢量友好指令格式1300可以用于扩展x86指令集，并且因而字段中的一些与在现有x86指令集及其扩展（例如，AVX）中使用的那些类似或相同。该格式与具有扩展的现有x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、移位字段和即时字段保持一致。图示了来自图13的字段映射到其中的来自图12的字段。

应当理解到，尽管出于说明性目的而在通用矢量友好指令格式1200的上下文中参照特定矢量友好指令格式1300描述了本发明的实施例，但是除了在要求保护的情况下之外，本发明不限于特定矢量友好指令格式1300。例如，通用矢量友好指令格式1200设想到用于各种字段的各种可能大小，而将特定矢量友好指令格式1300示出为具有特定大小的字段。作为具体示例，尽管将数据元素宽度字段1264图示为特定矢量友好指令格式1300中的一位字段，但是本发明不如此受限（也就是说，通用矢量友好指令格式1200设想到数据元素宽度字段1264的其它大小）。

通用矢量友好指令格式1200包括在下文以图13A中图示的次序列出的以下字段。

EVEX前缀（字节0-3）1302——以四字节形式进行编码。

格式字段1240（EVEX字节0，位[7:0]）——第一字节（EVEX字节0）是格式字段1240并且其包含0x62（在本发明的一个实施例中，用于辨别矢量友好指令格式的唯一值）。

第二到第四字节（EVEX字节1-3）包括提供特定能力的数个位字段。

REX字段1305（EVEX字节1，位[7-5]）——包括EVEX.R位字段（EVEX字节1，位[7]-R）、EVEX.X位字段（EVEX字节1，位[6]-X）和1257BEX字节1，位[5]-B）。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能性，并且使用1s互补形式进行编码，即，ZMM0编码为1211B，ZMM15编码为0000B。指令将寄存器索引的低三个位编码为的其它字段在本领域中已知（rrr、xxx和bbb），使得Rrrr、Xxxx和Bbbb可以通过添加EVEX.R、EVEX.X和EVEX.B而形成。

REX'字段1210——这是REX'字段1210的第一部分并且是EVEX.R'位字段（EVEX字节1，位[4]-R'），其用于编码经扩展的32寄存器集合的高16个或低16个。在本发明的一个实施例中，该位连同如下文指示的其它位以位反转格式存储以便从BOUND指令辨别（在公知的x86 32位模式中），BOUND指令的真实操作码字节为62，但是不会在MOD R/M字段（在下文描述）中接受MOD字段中的值11；本发明的可替换实施例不以反转格式存储该位以及下文指示的其它位。值1用于编码低16个寄存器。换言之，R'Rrrr通过组合EVEX.R'、EVEX.R和来自其它字段的其它RRR而形成。

操作码映射字段1315（EVEX字节1，位[3:0]-mmmm）——其内容编码所暗示的前导操作码字节（0F、0F 38或0F 3）。

数据元素宽度字段1264（EVEX字节2，位[7]-W）由标记EVEX.W表示。EVEX.W用于限定数据类型的粒度（大小）（32位数据元素或者64位数据元素）。

EVEX.vvvv 1320（EVEX字节2，位[6:3]-vvvv）——EVEX.vvvv的角色可以包括以下各项：1）EVEX.vvvv编码第一源寄存器操作数，其以反转（1s互补）形式指定，并且对于具有2个或更多源操作数的指令有效；2）EVEX.vvvv编码目的地寄存器操作数，其以1s互补形式针对某些矢量偏移而指定；或者3）EVEX.vvvv不编码任何操作数，字段反转并且应当包含1211b。因而，EVEX.vvvv字段1320编码以反转（1s互补）形式存储的第一源寄存器区分符的4个低阶位。取决于指令，额外的不同EVEX位字段用于将区分符大小扩展为32个寄存器。

EVEX.U 1268分类字段（EVEX字节2，位[2]-U）——如果EVEX.U=0，则其指示分类A或EVEX.U0；如果EVEX.U=1，则其指示分类B或EVEX.U1。

前缀编码字段1325（EVEX字节2，位[1:00]-pp）——提供用于基础操作字段的附加位。除提供对于以EVEX前缀格式的传统SSE指令的支持之外，这还具有以下益处：压紧SIMD前缀（而非要求字节来表述SIMD前缀，EVEX前缀仅要求2个位）。在一个实施例中，为了以传统格式和EVEX前缀格式二者支持使用SIMD前缀（66H、F2H、F3H）的传统SSE指令，将这些传统SIMD前缀编码到SIMD前缀编码字段中；并且在运行时，在提供给解码器的PLA之前扩展成传统SIMD前缀（因此，PLA可以在没有修改的情况下执行这些传统指令的传统和EVEX格式二者）。尽管较新的指令可以直接地将EVEX前缀编码字段的内容用作操作码扩展，但是某些实施例出于一致性而以类似的方式扩展，但是允许由这些传统SIMD前缀指定不同含义。可替换实施例可以重新设计PLA以支持2位SIMD前缀编码，并且因而不要求扩展。

阿尔法字段1252（EVEX字节3，位[7]-EH；还称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写入掩蔽控制和EVEX.N；还利用α图示）——如之前所述，该字段是内容特定的。

贝塔字段1254（EVEX字节3，位[6:4]-SSSS，还称为EVEX.s_2-0、EVEX.r_2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB；还利用βββ图示）——如之前所述，该字段是内容特定的。

REX'字段1210——这是REX'字段的其余部分并且是EVEX.V'位字段（EVEX字节3，位[3]-V'），其可以用于编码经扩展的32寄存器集合中的高16个或低16个。该位以位反转格式存储。值1用于编码低16个寄存器。换言之，V'VVVV通过组合EVEX.V’、EVEX.vvvv而形成。

写入掩蔽字段1270（EVEX字节3，位[2:0]-kkk）——其内容指定如之前所述的写入掩蔽寄存器中的寄存器的索引。在本发明的一个实施例中，特定值EVEX.kkk=000具有特定行为，其暗示没有写入掩蔽用于特定指令（这可以以各种方式实现，包括使用硬布线到所有那些的写入掩蔽或者绕过掩蔽硬件的硬件）。

真实操作码字段1330（字节4）还称为操作码字节。操作码的部分在该字段中指定。

MOD R/M字段1340（字节5）包括MOD字段1342、Reg字段1344和R/M字段1346。如之前所述，MOD字段1342的内容在存储器访问和非存储器访问操作之间进行辨别。Reg字段1344的角色可以总结为两种情况：编码目的地寄存器操作数或源寄存器操作数；或者视为操作码扩展并且不用于编码任何指令操作数。R/M字段1346的角色可以包括以下各项：编码引用存储器地址的执行操作数，或者编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基础（SIB）字节（字节6）——如之前所述，缩放字段1250的内容用于存储器地址生成。SIB.xxx 1354和SIB.bbb 1356——这些字段的内容之前已经关于寄存器索引Xxxx和Bbbb而提及。

移位字段1262A（字节7-10）——当MOD字段1342包含10时，字节7-10是移位字段1262A，并且其与传统32-位移位（disp32）相同地工作并且在字节粒度下工作。

移位因子字段1262B（字节7）——当MOD字段1342包含01时，字节7是移位因子字段1262B。该字段的位置与在字节粒度下工作的传统x86指令集8位移位（disp8）的位置相同。由于disp8经符号扩展，所以其仅可以在-128和127字节偏离之间进行寻址；在64字节缓存行方面，disp8使用8个位，其可以设置成仅四个真正有用的值-128、-64、0和64；由于通常需要较大范围，所以使用disp32；然而，disp32要求4个字节。相比于disp8和disp32，移位因子字段1262B是disp8的重新解译；当使用移位因子字段1262B时，实际移位通过移位因子字段的内容乘以存储器操作数访问的大小（N）来确定。这种类型的移位称为disp8*N。这减少了平均指令长度（用于移位但是具有大得多的范围的单个字节）。这样的经压缩的移位是基于以下假设：有效移位是存储器访问的粒度的倍数，并且因而不需要编码地址偏离的冗余低阶位。换言之，移位因子字段1262B替换传统x86指令集8位移位。因而，以与x86指令集8位移位相同的方式来编码移位因子字段1262B（所以没有ModRM/SIB编码规则中的改变），仅仅除了disp8过载成disp8*N以外。换言之，不存在编码规则或编码长度中的改变，而是仅存在通过硬件（其需要通过存储器操作数的大小对移位进行缩放以获得逐字节地址偏离）对移位值的解译中的改变。

即时字段1272如之前所述那样进行操作。

完整操作码字段

图13B是图示了根据本发明的一个实施例的构成完整操作码字段1274的特定矢量友好指令格式1300的字段的框图。具体地，完整操作码字段1274包括格式字段1240、基础操作字段1242和数据元素宽度（W）字段1264。基础操作字段1242包括前缀编码字段1325、操作码映射字段1315和真实操作码字段1330。

寄存器索引字段

图13C是图示了根据本发明的一个实施例的构成寄存器索引字段1244的特定矢量友好指令格式1300的字段的框图。具体地，寄存器索引字段1244包括REX字段1305、REX'字段1310、MODR/M.reg字段1344、MODR/M.r/m字段1346、VVVV字段1320、xxx字段1354和bbb字段1356。

扩增操作字段

图13D是图示了根据本发明的一个实施例的构成扩增操作字段1250的特定矢量友好指令格式1300的字段的框图。当分类（U）字段1268包含0时，其标示EVEX.U0（分类A 1268A）；当它包含1时，其标示EVEX.U1（分类B 1268B）。当U=0并且MOD字段1342包含11时（标示无存储器访问操作），阿尔法字段1252（EVEX字节3，位[7]-EH）解译为rs字段1252A。当rs字段1252A包含1时（取整1252A.1），贝塔字段1254（EVEX字节3，位[6:4]-SSS）解译为取整控制字段1254A。取整控制字段1254A包括一位SAE字段1256和两位取整操作字段1258。当rs字段1252A包含0时（数据变换1252A.2），贝塔字段1254（EVEX字节3，位[6:4]-SSS）解译为三位数据变换字段1254B。当U=0并且MOD字段1342包含00、01或10时（标示存储器访问操作），阿尔法字段1252（EVEX字节3，位[7]-EH）解译为逐出提示（EH）字段1252B并且贝塔字段1254（EVEX字节3，位[6:4]-SSS）解译为三位数据操控字段1254C。

当U=1时，阿尔法字段1252（EVEX字节3，位[7]-EH）解译为写入掩蔽控制（Z）字段1252C。当U=1并且MOD字段1342包含11时（标示无存储器访问操作），贝塔字段1254的部分（EVEX字节3，位[4]-S₀）解译为RL字段1257A；当它包含1时（取整1257A.1），贝塔字段1254的其余部分（EVEX字节3，位[6:4]-S_2-1）解译为取整操作字段1259A，而当RL字段1257A包含0时（VSIZE 1257.A2），贝塔字段1254的其余部分（EVEX字节3，位[6:4]-S_2-1）解译为矢量长度字段1259B（EVEX字节3，位[6:5]-L_1-0）。当U=1并且MOD字段1342包含00、01或10时（标示存储器访问操作），贝塔字段1254（EVEX字节3，位[6:4]-SSS）解译为矢量长度字段1259B（EVEX字节3，位[6:5]-S_1-0）和广播字段1257B（EVEX字节3，位[4]-B）。

图14是根据本发明的一个实施例的寄存器架构1400的框图。在所图示的实施例中，存在为512位宽的32个矢量寄存器1410；这些寄存器称为zmm0到zmm31。低16个zmm寄存器的低阶256位叠覆在寄存器ymm0-16上。低16个zmm寄存器的低阶128位（ymm寄存器的低阶128位）叠覆在寄存器xmm0-15上。特定矢量友好指令格式1300在如以下表格中图示的这些叠覆的寄存器文件上进行操作。

换言之，矢量长度字段1259B在最大长度以及一个或多个其它较短长度之间进行选择，其中每一个这样的较短长度是之前长度的一半长度；并且没有矢量长度字段1259B的指令模板在最大矢量长度上操作。另外，在一个实施例中，特定矢量友好指令格式1300的分类B指令模板在封装或标量单精度/双精度浮点数据以及封装或标量整数数据上进行操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作；较高阶数据元素位置与它们在指令之前相同地在左边或者取决于实施例而归零。

写入掩蔽寄存器1415——在所图示的实施例中，存在8个写入掩蔽寄存器（k0到k7），每一个在大小上为64位。在可替换实施例中，写入掩蔽寄存器1415在大小上为16位。如之前所述，在本发明的一个实施例中，矢量掩蔽寄存器k0不能用作写入掩蔽；当正常将指示k0的编码用于写入掩蔽时，其选择硬布线写入掩蔽0xFFFF，从而有效地禁用用于该指令的写入掩蔽。

通用寄存器1425——在所图示的实施例中，存在十六个64位通用寄存器，其连同现有x86寻址模式而用于对存储器操作数进行寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

在其上别名为MMX封装整数平坦寄存器文件1450的标量浮点数栈寄存器文件（x87栈）1445——在所图示的实施例中，x87栈是用于使用x87指令集扩展在32/64/80位浮点数据上执行标量浮点数操作的八元素栈；而MMX寄存器用来在64位封装整数数据上执行操作，以及针对在MMX和XMM寄存器之间执行的一些操作而保持操作数。

本发明的可替换实施例可以使用更宽或更窄的寄存器。附加地，本发明的可替换实施例可以使用更多、更少或不同的寄存器文件和寄存器。

图15A-B图示了更加具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块中的一个（包括相同类型和/或不同类型的其它核）。取决于应用，逻辑块通过具有一些固定功能逻辑、存储器I/O接口和其它必要的I/O逻辑的高带宽互连网络（例如，环形网络）进行通信。

图15A是根据本发明的实施例的单个处理器核连同其向管芯上互连网络1502的连接以及其2级（L2）缓存1504的本地子集的框图。在一个实施例中，指令解码器1500支持具有封装数据指令集扩展的x86指令集。L1缓存1506允许低时延访问以将存储器缓存到标量和矢量单元中。尽管在一个实施例中（为了简化设计），标量单元1508和矢量单元1510使用单独的寄存器集合（分别地，标量寄存器1512和矢量寄存器1514）并且将在它们之间转移的数据写入到存储器且然后从1级（L1）缓存1506回读，但是本发明的可替换实施例可以使用不同的方案（例如，使用单个寄存器集合，或者包括允许在两个寄存器文件之间转移数据而不进行写入和回读的通信路径）。

L2缓存1504的本地子集是划分成单独的本地子集的全局L2缓存的部分，每一处理器核一个单独的本地子集。每一个处理器核具有向其自身的L2缓存1504的本地子集的直接访问路径。由处理器核读取的数据存储在其L2缓存子集1504中并且可以与其它处理器核访问其自身的本地L2缓存子集并行地被快速地访问。由处理器核写入的数据存储在其自身的L2缓存子集1504中并且在必要的情况下从其它子集冲刷掉。环形网络确保用于共享数据的一致性。环形网络是双向的以允许诸如处理器核、L2缓存和其它逻辑块之类的代理在芯片内彼此通信。每一个环形数据路径在每一方向上是1012位宽。

图15B是根据本发明的实施例的图15A中的处理器核的部分的放大视图。图15B包括L1缓存1504的L1数据缓存1506A部分，以及关于矢量单元1510和矢量寄存器1514的更多细节。具体地，矢量单元1510是16宽矢量处理单元（VPU）（参见16宽ALU 1528），其执行整数、单精度浮点数和双精度浮点数指令中的一个或多个。VPU支持利用拌和单元1520对寄存器输入进行拌和，利用众多转换单元1522A-B的数值转换，以及利用复制单元1524在存储器输入上的复制。写入掩蔽寄存器1526允许预测所得矢量写入。

本发明的实施例可以包括已经在上文描述的各种步骤。步骤可以体现在机器可执行指令中，机器可执行指令可以用于使通用或专用处理器来执行步骤。可替换地，这些步骤可以通过包含用于执行步骤的硬布线逻辑的特定硬件组件来执行，或者通过编程的计算机组件和自定义硬件组件的任何组合来执行。

如本文中所述，指令可以是指硬件的具体配置，诸如配置成执行某些操作或者具有存储在非暂时性计算机可读介质中所体现的存储器中的预确定功能性或软件指令的专用集成电路（ASIC）。因而，在附图中示出的技术可以使用在一个或多个电子设备（例如，终端站、网络元件等）上存储和执行的代码和数据来实现。这样的电子设备使用计算机机器可读介质存储和传达（内部地和/或通过网络与其它电子设备）代码和数据，所述计算机机器可读介质诸如非暂时性计算机机器可读存储介质（例如，磁盘；光学盘；随机存取存储器；只读存储器；闪速存储器设备；相变存储器）以及暂时性计算机机器可读通信介质（例如，电气、光学、声学或其它形式的传播信号——诸如载波、红外信号、数字信号等）。此外，这样的电子设备典型地包括耦合到一个或多个其它组件的一个或多个处理器的集合，所述一个或多个其它组件诸如一个或多个存储设备（非暂时性机器可读存储介质）、用户输入/输出设备（例如，键盘、触摸屏和/或显示器）以及网络连接。处理器的集合与其它组件的耦合典型地是通过一个或多个总线和桥（还称为总线控制器）。承载网络业务量的存储设备和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因而，给定电子设备的存储设备典型地存储代码和/或数据以供在该电子设备的一个或多个处理器的集合上执行。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。遍及该详细描述，出于解释的目的，阐述了众多具体细节以便提供本发明的透彻理解。然而，本领域技术人员将清楚的是，本发明可以在没有这些具体细节中的一些的情况下实践。在某些实例中，没有以详尽的细节描述公知的结构和功能以便避免使本发明的主题模糊。相应地，本发明的精神和范围应当按照所附的权利要求来判定。

本发明的实施例包括一种处理器，包括：获取逻辑，从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时值的指令；以及执行逻辑，确定以第二源封装数据操作数中的位为基础的对应于即时值的定位；执行第一源封装数据操作数和所确定的位之间的逐位AND以生成中间结果；执行目的地封装数据操作数和中间结果之间的逐位XOR以生成最终结果；以及将最终结果存储在由目的地封装数据操作数指示的存储位置中。

附加实施例包括，其中为了执行第一源封装数据操作数和所确定的位之间的逐位AND，执行逻辑还配置为执行第一源封装数据操作数和临时矢量之间的逐位AND，其中要一次或多次地将所确定的位的值广播至临时矢量。

附加实施例包括，其中要在单独的64位区段中处理由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置，其中处理器针对每一个64位区段执行相同逻辑。

附加实施例包括，其中指令还包括写入掩蔽操作数，并且其中执行逻辑进一步响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的一个64位区段设定写入掩蔽，而将用于由目的地封装数据操作数指示的存储位置中的一个64位区段的值设定成零。

附加实施例包括，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是寄存器和存储器位置中的至少一个。

附加实施例包括，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是512位长的寄存器。

附加实施例包括，其中即时值是8位长。

附加实施例包括，其中指令用于执行位矩阵和位矢量之间的位矩阵乘法操作，其中位矩阵的一个或多个列存储在由第一源封装数据操作数指示的存储位置中，并且其中位矢量的值存储在由第二源封装数据操作数指示的存储位置中。

本发明的实施例包括，其中位矩阵转置，使得位矩阵的一个或多个列一列接一列地存储在由第一源封装数据操作数指示的存储位置中。

附加实施例包括，其中当针对位矩阵的每一个列执行指令时，由目的地封装数据操作数指示的存储位置包括位矩阵和位矢量之间的位矩阵乘法操作的结果，其中对于指令的每一次执行，即时值指定值，所述值指示位矢量中对应于被处理的位矩阵的列数的定位。

本发明的实施例包括一种在计算机处理器中的方法，包括从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时值的指令；确定以第二源封装数据操作数中的位为基础的对应于即时值的定位；执行第一源封装数据操作数和所确定的位之间的逐位AND以生成中间结果；执行目的地封装数据操作数和中间结果之间的逐位XOR以生成最终结果；以及将最终结果存储在由目的地封装数据操作数指示的存储位置中。

附加实施例包括，其中执行第一源封装数据操作数和所确定的位之间的逐位AND进一步包括执行第一源封装数据操作数和临时矢量之间的逐位AND，其中要一次或多次地将所确定的位的值广播至临时矢量。

附加实施例包括，其中指令还包括写入掩蔽操作数，并且其中方法还包括响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的一个64位区段设定写入掩蔽，而将用于由目的地封装数据操作数指示的存储位置中的一个64位区段的值设定成零。

附加实施例包括，其中即时值是8位长。

尽管已经按照若干实施例描述了本发明，但是本领域技术人员将认识到，本发明不限于所描述的实施例，而是可以在随附权利要求的精神和范围内以修改和更改来实践。因而描述要视为说明性的而非限制性的。

Claims

1.一种处理器，包括：

获取逻辑，用于从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时值的指令；以及

执行逻辑，用于：

确定以第二源封装数据操作数中的位为基础的对应于即时值的定位；

执行第一源封装数据操作数和所确定的位之间的逐位AND以生成中间结果；

执行目的地封装数据操作数和中间结果之间的逐位XOR以生成最终结果；以及

将最终结果存储在由目的地封装数据操作数指示的存储位置中。

2.权利要求1所述的处理器，其中为了执行第一源封装数据操作数和所确定的位之间的逐位AND，执行逻辑还配置为执行第一源封装数据操作数和临时矢量之间的逐位AND，其中要一次或多次地将所确定的位的值广播至临时矢量。

3.权利要求1所述的处理器，其中要在单独的64位区段中处理由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置，其中处理器针对每一个64位区段执行相同逻辑。

4.权利要求3所述的处理器，其中指令还包括写入掩蔽操作数，并且其中执行逻辑进一步响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的一个64位区段设定写入掩蔽，而将用于由目的地封装数据操作数指示的存储位置中的一个64位区段的值设定成零。

5.权利要求1所述的处理器，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是寄存器和存储器位置中的至少一个。

6.权利要求5所述的处理器，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是512位长的寄存器。

7.权利要求5所述的处理器，其中即时值是8位长。

8.权利要求1所述的处理器，其中指令用于执行位矩阵和位矢量之间的位矩阵乘法操作，其中位矩阵的一个或多个列存储在由第一源封装数据操作数指示的存储位置中，并且其中位矢量的值存储在由第二源封装数据操作数指示的存储位置中。

9.权利要求8所述的处理器，其中位矩阵转置，使得位矩阵的一个或多个列一列接一列地存储在由第一源封装数据操作数指示的存储位置中。

10.权利要求9所述的处理器，其中当针对位矩阵的每一个列执行指令时，由目的地封装数据操作数指示的存储位置包括位矩阵和位矢量之间的位矩阵乘法操作的结果，其中对于指令的每一次执行，即时值指定值，所述值指示位矢量中对应于被处理的位矩阵的列数的定位。

11.一种在计算机处理器中的方法，包括：

从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时值的指令；

12.权利要求11所述的方法，其中执行第一源封装数据操作数和所确定的位之间的逐位AND进一步包括执行第一源封装数据操作数和临时矢量之间的逐位AND，其中要一次或多次地将所确定的位的值广播至临时矢量。

13.权利要求11所述的方法，其中要在单独的64位区段中处理由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置，其中处理器针对每一个64位区段执行相同逻辑。

14.权利要求13所述的方法，其中指令还包括写入掩蔽操作数，并且其中所述方法还包括响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的一个64位区段设定写入掩蔽，而将用于由目的地封装数据操作数指示的存储位置中的一个64位区段的值设定成零。

15.权利要求11所述的方法，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是寄存器和存储器位置中的至少一个。

16.权利要求15所述的方法，其中由目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数指示的存储位置是512位长的寄存器。

17.权利要求15所述的方法，其中即时值是8位长。

18.权利要求11所述的方法，其中指令用于执行位矩阵和位矢量之间的位矩阵乘法操作，其中位矩阵的一个或多个列存储在由第一源封装数据操作数指示的存储位置中，并且其中位矢量的值存储在由第二源封装数据操作数指示的存储位置中。

19.权利要求18所述的方法，其中位矩阵转置，使得位矩阵的一个或多个列一列接一列地存储在由第一源封装数据操作数指示的存储位置中。

20.权利要求19所述的方法，其中当针对位矩阵的每一个列执行指令时，由目的地封装数据操作数指示的存储位置包括位矩阵和位矢量之间的位矩阵乘法操作的结果，其中对于指令的每一次执行，即时值指定值，所述值指示位矢量中对应于被处理的位矩阵的列数的定位。