CN107003842A - 用于矢量水平逻辑指令的装置和方法 - Google Patents

用于矢量水平逻辑指令的装置和方法 Download PDF

Info

Publication number
CN107003842A
CN107003842A CN201580063798.7A CN201580063798A CN107003842A CN 107003842 A CN107003842 A CN 107003842A CN 201580063798 A CN201580063798 A CN 201580063798A CN 107003842 A CN107003842 A CN 107003842A
Authority
CN
China
Prior art keywords
encapsulation
data
positioning
operand
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580063798.7A
Other languages
English (en)
Inventor
E.奥尔德-阿梅德-瓦尔
R.埃斯帕萨
D.F.吉伦
F.J.桑切斯
G.索尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN107003842A publication Critical patent/CN107003842A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30029Logical and Boolean instructions, e.g. XOR, NOT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • G06F9/30167Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code

Abstract

描述了用于执行矢量水平逻辑指令的装置和方法。例如,处理器的一个实施例包括:从存储器获取指令的获取逻辑;以及执行逻辑,从即时操作数的第一指定集合的位确定第一集合的一个或多个数据元素的值,其中从即时操作数的第一指定集合的位确定的第一集合的一个或多个数据元素的定位是基于第一集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第一集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位。

Description

用于矢量水平逻辑指令的装置和方法
技术领域
本发明的实施例大体涉及计算机系统的技术领域。更具体地,本发明的实施例涉及用于执行计算机处理器内的矢量水平逻辑指令的装置和方法。
背景技术
某些类型的应用通常要求在大量数据项上执行相同操作(称为“数据并行性”)。单指令多数据(SIMD)是指使处理器在多个数据项上执行操作的指令类型。SIMD技术尤其适于处理器,该处理器可以将寄存器中的位逻辑划分成数个固定大小的数据元素,每一个数据元素表示单独的值。例如,可以将256位寄存器中的位指定为要作为四个单独的64位封装数据元素(四倍字长(Q)大小数据元素)、八个单独的32位封装数据元素(双字(D)大小数据元素)、十六个单独的16位封装数据元素(字(W)大小数据元素)或者三十二个单独的8位数据元素(字节(B)大小数据元素)在其上进行操作的源操作数。这种类型的数据称为“封装”数据类型或“矢量”数据类型,并且这种数据类型的操作数称为封装数据操作数或矢量操作数。换言之,封装数据项或矢量是指封装数据元素的序列,并且封装数据操作数或矢量操作数是SIMD指令的源或目的地操作数(还作为封装数据指令或矢量指令而已知)。
SIMD技术,诸如由具有指令集的Intel® CoreTM处理器采用的SIMD技术已经使得能够在应用性能方面实现明显改进,该指令集包括x86、MMXTM、流式传送SIMD扩展(SSE)、SSE2、SSE3、SSE4.1和SSE4.2指令。已经发行了SIMD扩展的附加集合,其称为高级矢量扩展(AVX)(AVX1和AVX2)并且使用矢量扩展(VEX)编码方案(参见例如参见2011年10月的Intel® 64和IA-32架构软件开发者手册;以及参见2011年6月的Intel®高级矢量扩展编程参考)。已经进一步提出使用经扩展的矢量扩展(EVEX)编码方案对这些AVX扩展进行扩展以便支持512位寄存器(AVX-512)。
在将两个或更多二进制函数应用于一系列位矢量或布尔矩阵方面存在挑战。在布尔(位)矩阵上操作的二进制函数的集合的示例是可逆矩阵(例如,64x64位矩阵)的阵列的倒置。直接将函数应用于这些数据结构可能是低效的,因为这些结构限于具有值0或1,并且所以在其输出值方面受约束。因而,如果以减少不必要的计算的方式来实现这样的二进制函数的集合,则可能获得效率方面的增加。
附图说明
图1A是图示了根据本发明的实施例的示例性有序流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图;
图1B是图示了根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图;
图2是根据本发明的实施例的具有集成的存储器控制器和图形的多核处理器和单核处理器的框图;
图3图示了依照本发明的一个实施例的系统的框图;
图4图示了依照本发明的实施例的第二系统的框图;
图5图示了依照本发明的实施例的第三系统的框图;
图6图示了依照本发明的实施例的片上系统(SoC)的框图;
图7图示了根据本发明的实施例的对照使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图8是图示了可操作成执行矢量水平二进制逻辑指令的实施例的系统800的框图;
图9A图示了依照本发明的一个实施例的用于执行矢量水平二进制逻辑操作的逻辑900;
图9B图示了依照本发明的一个实施例的用于执行矢量水平二进制逻辑操作的逻辑900的另一方面;
图9C图示了示出根据本发明的实施例的DEST、SRC1和SRC2可以如何用作针对IMM_HI和IMM_LO的索引定位的两个表格。
图10是用于可操作成执行矢量水平二进制逻辑指令的实施例的系统的方法1000的流程图;
图11是用于可操作成执行矢量水平二进制逻辑指令的实施例的逻辑的伪代码;
图12A和12B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图;
图13A-D是图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图;
图14是根据本发明的一个实施例的寄存器架构的框图;以及
图15A-B图示了更加具体的示例性有序核架构的框图。
具体实施方式
示例性处理器架构
图1A是图示了根据本发明的实施例的示例性有序获取、解码、引退流水线和示例性寄存器重命名、无序发布/执行流水线二者的框图。图1B是图示了根据本发明的实施例的要包括在处理器中的有序获取、解码、引退核的示例性实施例和示例性寄存器重命名、无序发布/执行架构核二者的框图。图1A-B中的实线框图示了流水线和核的有序部分,而虚线框的可选添加图示了寄存器重命名、无序发布/执行流水线和核。
在图1A中,处理器流水线100包括获取级102、长度解码级104、解码级106、分配级108、重命名级110、调度(还作为分派或发布已知)级112、寄存器读取/存储器读取级114、执行级116、回写/存储器写入级118、异常处置级122和提交级124。
图1B示出了包括耦合到执行引擎单元150的前端单元130的处理器核190,并且前端单元130和执行引擎单元150二者耦合到存储器单元170。核190可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、非常长指令字(VLIW)核、或者混合式或可替换核类型。作为又一选项,核190可以是专用核,诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。
前端单元130包括耦合到指令缓存单元134的分支预测单元132,指令缓存单元134耦合到指令转译后备缓冲器(TLB)136,指令转译后备缓冲器(TLB)136耦合到指令获取单元138,指令获取单元138耦合到解码单元140。解码单元140(或解码器)可以解码指令,并且作为输出而生成一个或多个微操作、微代码录入点、微指令、其它指令或者其它控制信号,其从原始指令解码或者以其它方式反映原始指令或者从原始指令导出。解码单元140可以使用各种不同机制来实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核190包括微代码ROM或者存储用于某些宏指令的微代码的其它介质(例如,在解码单元140中或者以其它方式在前端单元130内)。解码单元140耦合到执行引擎单元150中的重命名/分配器单元152。
执行引擎单元150包括耦合到引退单元154和一个或多个调度器单元156的集合的重命名/分配器单元152。(多个)调度器单元156表示任何数目的不同调度器,包括预留站、中央指令窗口等。(多个)调度器单元156耦合到(多个)物理寄存器文件的(多个)单元158。(多个)物理寄存器文件的单元158中的每一个表示一个或多个物理寄存器文件,其中不同的物理寄存器文件存储一个或多个不同的数据类型,诸如标量整数、标量浮点数、封装整数、封装浮点数、矢量整数、矢量浮点数、状态(例如,作为要执行的下一指令的地址的指令指针)等。在一个实施例中,(多个)物理寄存器文件的单元158包括矢量寄存器单元、写入掩蔽寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构矢量寄存器、矢量掩蔽寄存器和通用寄存器。(多个)物理寄存器文件的(多个)单元158由引退单元154重叠以说明其中可以实现寄存器重命名和无序执行的各种方式(例如,使用(多个)重新排序缓冲器和(多个)引退寄存器文件;使用(多个)未来文件、(多个)历史缓冲器和(多个)引退寄存器文件;使用寄存器映射和寄存器池;等)。引退单元154和(多个)物理寄存器文件的(多个)单元158耦合到(多个)执行群簇160。(多个)执行群簇160包括一个或多个执行单元162的集合以及一个或多个存储器访问单元164的集合。执行单元162可以在各种类型数据(例如,标量浮点数、封装整数、封装浮点数、矢量整数、矢量浮点数)上执行各种操作(例如,偏移、添加、减除、乘积)。尽管一些实施例可以包括专用于特定功能或功能集合的数个执行单元,但是其它实施例可以包括仅一个执行单元或者全部执行所有功能的多个执行单元。将(多个)调度器单元156、(多个)物理寄存器文件的(多个)单元158以及(多个)执行群簇160示为可能地多个,因为某些实施例创建用于某些类型的数据/操作的单独流水线(例如,标量整数流水线、标量浮点数/封装整数/封装浮点数/矢量整数/矢量浮点数流水线、和/或存储器访问流水线,它们各自具有其自身的调度器单元、(多个)物理寄存器文件的单元和/或执行群簇——并且在单独的存储器访问流水线的情况下,实现其中仅该流水线的执行群簇具有(多个)存储器访问单元164的某些实施例)。还应当理解到,在使用单独的流水线的情况下,这些流水线中的一个或多个可以无序发布/执行并且其余部分有序。
存储器访问单元164的集合耦合到存储器单元170,存储器单元170包括耦合到数据缓存单元174的数据TLB单元172,数据缓存单元174耦合到2级(L2)缓存单元176。在一个示例性实施例中,存储器访问单元164可以包括加载单元、存储地址单元和存储数据单元,其中每一个耦合到存储器单元170中的数据TLB单元172。指令缓存单元134进一步耦合到存储器单元170中的2级(L2)缓存单元176。L2缓存单元176耦合到一个或多个其它级缓存并且最终耦合到主存储器。
作为示例,示例性寄存器重命名、无序发布/执行核架构可以如下实现流水线100:1)指令获取138执行获取和长度解码级102和104;2)解码单元140执行解码级106;3)重命名/分配器单元152执行分配级108和重命名级110;4)(多个)调度器单元156执行调度级112;5)(多个)物理寄存器文件的(多个)单元158和存储器单元170执行寄存器读取/存储器读取级114;执行群簇160执行执行级116;6)存储器单元170和(多个)物理寄存器文件的(多个)单元158执行回写/存储器写入级118;7)各种单元可以牵涉在异常处置级122中;以及8)引退单元154和(多个)物理寄存器文件的(多个)单元158执行提交级124。
核190可以支持一个或多个指令集(例如,x86指令集(具有已经添加有较新版本的一些扩展);加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集;加利福利亚森尼维尔市的ARM Holdings的ARM指令集(具有可选的附加扩展,诸如NEON),包括本文描述的(多个)指令。在一个实施例中,核190包括支持封装数据指令集扩展(例如,AVX1、AVX2和/或某种形式的通用矢量友好指令格式(U=0和/或U=1),在下文描述)的逻辑,由此允许使用封装数据来执行由许多多媒体应用使用的操作。
应当理解到,核可以支持多线程处理(执行操作或线程的两个或更多并行集合),并且可以以各种方式完成此,包括时间分片多线程处理、同时多线程处理(其中单个物理核提供用于物理核同时进行多线程处理的每一个线程的逻辑核),或者其组合(例如,时间分片获取和解码以及此后的同时多线程处理,诸如在Intel®超线程技术中)。
尽管在无序执行的上下文中描述了寄存器重命名,但是应当理解到,寄存器重命名可以使用在有序架构中。尽管所图示的处理器的实施例还包括分离的指令和数据缓存单元134/174以及共享的L2缓存单元176,但是可替换实施例可以具有用于指令和数据二者的单个内部缓冲器,诸如例如1级(L1)内部缓存或者多级内部缓存。在一些实施例中,系统可以包括内部缓存以及在核和/或处理器外部的外部缓存的组合。可替换地,所有缓存可以在核和/或处理器的外部。
图2是根据本发明的实施例的处理器200的框图,处理器200可以具有多于一个核,可以具有集成的存储器控制器,并且可以具有集成的图形。图2中的实线框图示了具有单个核202A的处理器200、系统代理210、一个或多个总线控制器单元216的集合,而虚线框的可选添加图示了具有多个核202A-N的可替换处理器200、系统代理单元210中的一个或多个集成的存储器控制器单元214的集合、以及专用逻辑208。
因而,处理器200的不同实现可以包括:1)CPU,具有作为集成的图形和/或科学(吞吐量)逻辑的专用逻辑208(其可以包括一个或多个核),以及作为一个或多个通用核的核202A-N(例如,通用有序核、通用无序核、两个的组合);2)协处理器,具有作为意图主要用于图形和/或科学(吞吐量)的大量专用核的核202A-N;以及3)协处理器,具有作为大量通用有序核的核202A-N。因而,处理器200可以是通用处理器、协处理器或专用处理器,诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量许多集成核(MIC)协处理器(包括30或更多核)、嵌入式处理器等。处理器可以实现在一个或多个芯片上。处理器200可以是一个或多个衬底的部分和/或可以使用数个处理技术中的任一个实现在一个或多个衬底上,诸如例如BiCMOS、CMOS或NMOS。
存储器分层结构包括核内的一个或多个级的缓存、一个或多个共享缓存单元206的集合、以及耦合到集成存储器控制器单元214的集合的外部存储器(没有示出)。共享缓存单元206的集合可以包括一个或多个中间级缓存,诸如2级(L2)、3级(L3)、4级(L4)或其它级的缓存、末级缓存(LLC)和/或其组合。尽管在一个实施例中,基于环形的互连单元212互连集成图形逻辑208、共享缓存单元206的集合以及系统代理单元210/(多个)集成存储器控制器单元214,但是可替换实施例可以使用任何数目的公知技术以用于互连这样的单元。在一个实施例中,在一个或多个缓存单元206和核202A-N之间维持一致性。
在一些实施例中,核202A-N中的一个或多个能够进行多线程处理。系统代理210包括协调和操作核202A-N的那些组件。系统代理单元210可以包括例如功率控制单元(PCU)和显示单元。PCU可以是或者包括用于调控核202A-N和集成图形逻辑208的功率状态所需要的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核202A-N可以在架构指令集方面是同构或异构的;也就是说,核202A-N中的两个或更多可以能够执行相同指令集,而其它者可以能够仅执行该指令集的子集或者不同的指令集。在一个实施例中,核202A-N是异构的,并且包括以下描述的“小型”核和“大型”核二者。
图3-6是示例性计算机架构的框图。在本领域中对于膝上型计算机、桌上型计算机、手持式PC、个人数字助理、工程化工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、手机、便携式媒体播放器、手持式设备和各种其它电子设备而言已知的其它系统设计和配置也是适合的。一般地,能够并入如本文中公开的处理器和/或其它执行逻辑的各种各样系统或电子设备一般是适合的。
现在参照图3,示出了依照本发明的一个实施例的系统300的框图。系统300可以包括耦合到控制器中心320的一个或多个处理器310、315。在一个实施例中,控制器中心320包括图形存储器控制器中心(GMCH)390和输入/输出中心(IOH)350(其可以处于分离的芯片上);GMCH 390包括存储器340和协处理器345耦合到的存储器和图形控制器;IOH 350将输入/输出(I/O)设备360耦合到GMCH 390。可替换地,存储器和图形控制器中的一个或二者集成在处理器内(如本文中所述),存储器340和协处理器345直接耦合到处理器310,以及与IOH 350处于单个芯片中的控制器中心320。
在图3中利用折线标示附加处理器315的可选性质。每一个处理器310、315可以包括本文描述的处理核中的一个或多个并且可以是处理器600的某一版本。
存储器340可以例如是动态随机存取存储器(DRAM)、相变存储器(PCM)或者两个的组合。对于至少一个实施例,控制器中心320经由多点总线与(多个)处理器310、315通信,诸如前侧总线(FSB)、诸如QuickPath互连(QPI)之类的点对点接口、或者类似连接395。
在一个实施例中,协处理器345是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中,控制器中心320可以包括集成图形加速器。
在指标度量谱方面,物理资源310、315之间可以存在各种差异,指标包括架构、微架构、热学、功耗特性等。
在一个实施例中,处理器310执行指令,该指令控制一般类型的数据处理操作。嵌入在指令内的可以是协处理器指令。处理器310将这些协处理器指令识别为具有应当由所附连的协处理器345执行的类型。相应地,处理器310在协处理器总线或其它互连上向协处理器345发布这些协处理器指令(或者表示协处理器指令的控制信号)。(多个)协处理器345接受和执行所接收的协处理器指令。
现在参照图4,示出了依照本发明的实施例的更加具体的第一示例性系统400的框图。如图4中所示,多处理器400是点对点互连系统,并且包括经由点对点互连450耦合的第一处理器470和第二处理器480。处理器470和480中的每一个可以是处理器600的某一版本。在本发明的一个实施例中,处理器470和480分别是处理器310和315,而协处理器438是协处理器345。在另一个实施例中,处理器470和480分别是处理器310和协处理器345。
将处理器470和480示为分别包括集成的存储器控制器(IMC)单元472和482。处理器470还包括作为其总线控制器单元的部分的点对点(P-P)接口476和478;类似地,第二处理器480包括P-P接口486和488。处理器470、480可以使用P-P接口电路478、488经由点对点(P-P)接口450而交换信息。如图4中所示,IMC 472和482将处理器耦合到相应的存储器,也就是存储器432和434,其可以是本地附连到相应处理器的主存储器的部分。
处理器470、480可以各自使用点对点接口电路476、494、486、498而经由单独的P-P接口452、454来交换信息。芯片组490可以可选地经由高性能接口439与协处理器438交换信息。在一个实施例中,协处理器428是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。
共享缓存(未示出)可以包括在处理器中或者在两个处理器的外部,而又经由P-P互连与处理器连接,使得任一个或者两个处理器的本地缓存信息可以存储在共享缓存中,如果将处理器置于低功率模式中的话。
芯片组490可以经由接口496耦合到第一总线416。在一个实施例中,第一总线416可以是外围组件互连(PCI)总线,或者诸如快速PCI总线或另一个第三代I/O互连总线之类的总线,尽管本发明的范围不如此受限。
如图4中所示,各种I/O设备414可以耦合到第一总线416,连同将第一总线416耦合到第二总线420的总线桥418。在一个实施例中,一个或多个附加的处理器415,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或者任何其它处理器,耦合到第一总线416。在一个实施例中,第二总线420可以是低引脚计数(LPC)总线。在一个实施例中,各种设备可以耦合到第二总线420,包括例如键盘和/或鼠标422、通信设备427和存储单元428(诸如盘驱动或其它大容量存储设备,其可以包括指令/代码和数据430)。另外,音频I/O 424可以耦合到第二总线420。要指出,其它架构是可能的。例如,代替于图4的点对点架构,系统可以实现多点总线或其它这样的架构。
现在参照图5,示出了依照本发明的实施例的更加具体的第二示例性系统500的框图。图4和5中的相同元件具有相同参考标记,并且图4的某些方面已经从图5省略以便避免使图5的其它方面模糊。
图5图示了处理器470、480可以分别包括集成的存储器和I/O控制逻辑(“CL”)472和482。因而,CL 472、482包括集成的存储器控制器单元并且包括I/O控制逻辑。图5图示了不仅存储器432、434耦合到CL 472、482,而且I/O设备514也耦合到控制逻辑472、482。传统I/O设备515耦合到芯片组490。
现在参照图6,示出了依照本发明的实施例的SoC 600的框图。图6中的类似元件具有相同参考标记。而且,虚线框是更加高级的SoC上的可选特征。在图6中,(多个)互连单元602耦合到:应用处理器610,其包括一个或多个核202A-N的集合和(多个)共享缓存单元206;系统代理单元210;(多个)总线控制器单元216;(多个)集成的存储器控制器单元214;一个或多个协处理器620的集合,其可以包括集成的图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元630;直接存储器访问(DMA)单元632;以及用于耦合到一个或多个外部显示器的显示单元640。在一个实施例中,(多个)协处理器620包括专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。
本文公开的机制的实施例可以实现在硬件、软件、固件、或者这样的实现方案的组合中。本发明的实施例可以实现为计算机程序或者程序代码,其在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备和至少一个输出设备的可编程系统上执行。
可以应用程序代码,诸如在图4中图示的代码430,以输入指令来执行本文描述的功能并且生成输出信息。输出信息可以以已知方式应用于一个或多个输出设备。出于本申请的目的,处理系统包括具有处理器的任何系统,所述处理器诸如例如:数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级过程式或面向对象的编程语言来实现以便与处理系统进行通信。程序代码还可以用汇编或机器语言来实现,如果期望的话。事实上,本文描述的机制在范围方面不限于任何特定编程语言。在任何情况下,语言可以是编译或解译语言。
至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现,机器可读介质表示处理器内的各种逻辑,其在由机器读取时使机器制定逻辑来执行本文描述的技术。称为“IP核”的这样的表示可以存储在有形机器可读介质上并且供应给各种顾客或制造设施以便加载到实际制得逻辑或处理器的制造机器中。
这样的机器可读存储介质可以包括但不限于由机器或设备形成或制造的物品的非暂时性、有形布置,包括:存储介质,诸如硬盘、任何其它类型的盘,包括软盘、光学盘、致密盘只读存储器(CD-ROM)、致密盘可再写入(CD-RW)和磁光盘;半导体器件,诸如只读存储器(ROM)、随机存取存储器(RAM)(诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪速存储器、电气可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)、磁卡或光学卡、或者适于存储电子指令的任何其它类型的介质。
相应地,本发明的实施例还包括非暂时性、有形机器可读介质,其包含指令或者包含设计数据,诸如硬件描述语言(HDL),其限定本文描述的结构、电路、装置、处理器和/或系统特征。这样的实施例还可以称为程序产品。
在一些情况下,指令转换器可以用于将指令从源指令集转换到目标指令集。例如,指令转换器可以使指令转译(例如,使用静态二进制转译、动态二进制转译,包括动态编译)、变体、仿真或以其它方式转换成要由核处理的一个或多个其它指令。指令转换器可以实现在软件、硬件、固件或其组合中。指令转换器可以在处理器上、处理器外或者部分地在处理器上且部分地在处理器外。
图7是根据本发明的实施例的对照使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,尽管可替换地,指令转换器可以实现在软件、固件、硬件或其各种组合中。图7示出了可以使用x86编译器704对高级语言702的程序进行编译以生成x86二进制代码706,其可以由具有至少一个x86指令集核的处理器716本机执行。具有至少一个x86指令集核的处理器716表示任何处理器,其可以通过兼容地执行或以其它方式处理以下来执行与具有至少一个x86指令集核的Intel处理器基本上相同的功能,以便实现与具有至少一个x86指令集核的Intel处理器基本上相同的结果:(1)Intel x86指令集核的指令集的大部分或者(2)目标是在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的目标代码版本。x86编译器704表示可操作为生成x86二进制代码706(例如,目标代码)的编译器,x86二进制代码706可以在具有或者没有附加联动处理的情况下在具有至少一个x86指令集核的处理器716上执行。
类似地,图7示出了高级语言702的程序可以使用可替换的指令集编译器708来编译以便生成可替换的指令集二进制代码710,其可以由没有至少一个x86指令集核的处理器714(例如,具有核的处理器,该核执行加利福利亚森尼维尔市的MIPS Technologies的MIPS指令集和/或执行加利福利亚森尼维尔市的ARM Holdings的ARM指令集)本机执行。指令转换器712用于将x86二进制代码706转换成可以由没有x86指令集核的处理器714本机执行的代码。这种经转换的代码不大可能与可替换的指令集二进制代码710相同,因为能够如此的指令转换器难以制得;然而,经转换的代码将实现一般操作并且由来自可替换指令集的指令构成。因而,指令转换器712表示软件、固件、硬件或其组合,其通过仿真、模拟或任何其它过程而允许没有x86指令集处理器或核的处理器或其它电子设备执行x86二进制代码706。
执行矢量水平二进制逻辑指令的装置和方法
如上文所提及的,将二进制函数应用于一系列位矢量或布尔矩阵可能引起低效率。因而,应用这样的函数的更加高效的方法是合期望的。特别地,在本发明的一些实施例中,要应用于一系列位阵列的两个函数的输出存储在8位即时操作数内。在一些实施例中,8位即时操作数的四个最高有效(高)位中的每一个定位以及8位即时操作数的四个最低有效(低)位中的每一个定位各自使用两位值来编索引(即,可以将低位的第二定位中的位编索引位“01”)。在一些实施例中,即时操作数的高位和低位的位值指示在两个单位输入上操作的函数的输出,其中这些输入通过用于高位或低位的定位的两位值的第一和第二位来指定。
在一些实施例中,将第一源封装数据操作数的每一位和目的地封装数据操作数的对应位用作用于针对即时操作数的低位的索引定位的两位值。在一些实施例中,当两位值的该第一集合中的一个指示即时操作数的低位中的定位具有值“1”时,第二源封装数据操作数的每一位和目的地封装数据操作数的对应位用作用于针对即时操作数的4个高位的索引定位的两位值。然后将由两位值的该第二集合指示的即时操作数的高位中的值置于由目的地封装数据操作数指示的寄存器中的对应定位中。当两位值的第一集合都没有指示具有值“1”的即时操作数的低位中的定位(即,所有值指示具有值“0”的低位中的定位),那么在一些实施例中,由目的地封装数据操作数指示的寄存器的值由“0”替换。
图8是图示了可操作成执行矢量水平二进制逻辑指令的实施例的系统800的框图。在一些实施例中,系统800可以是通用处理器的部分(例如,具有在桌上型计算机、膝上型计算机或其它计算机中常用的类型)。可替换地,系统800可以是专用处理器。合适的专用处理器的示例包括但不限于密码处理器、网络处理器、通信处理器、协处理器、图形处理器、嵌入式处理器、数字信号处理器(DSP)和控制器(例如,微控制器),它们只是几个示例。处理器可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种非常长指令字(VLIW)处理器、其各种混合型、或者其它类型的处理器中的任一个。
在操作期间,系统800可以接收矢量水平二进制逻辑指令802(此后称为指令802)的实施例。例如,指令802可以从指令获取单元、指令队列等接收。指令802可以表示宏指令、汇编语言指令、机器代码指令、或者处理器的指令集的其它指令或控制信号。在一些实施例中,指令802可以明确地指定(例如,通过一个或多个字段或者位的集合)或者以其它方式指示(例如,隐含地指示)第一源封装数据操作数810,并且可以明确地指定或者以其它方式指示第二源封装数据操作数812。指令802还可以明确地指定或者以其它方式指示目的地封装数据操作数814,并且可以明确地指定或者以其它方式指示即时操作数808。
再次参照图8,系统800包括解码单元或解码器804。解码单元可以接收和解码指令,包括指令802。解码单元可以输出一个或多个微指令、宏操作、微代码入口点、经解码的指令或控制信号,或者反映、表示指令802和/或从指令802导出的其它相对较低等级的指令或控制信号。一个或多个相对较低等级的指令或控制信号可以通过一个或多个相对较低等级(例如,电路等级或硬件等级)操作而实现相对较高等级的指令802。在一些实施例中,解码单元802可以包括接收指令802的一个或多个输入结构(例如,(多个)输入端口、(多个)输入互连、输入接口等)、与输入结构耦合以便接收和识别指令802的指令识别逻辑、与识别逻辑耦合以便接收和解码指令802的解码逻辑、以及与解码逻辑耦合以便输出一个或多个对应的较低等级指令或控制信号的一个或多个输出结构(例如,(多个)输出端口、(多个)输出互连、输出接口等)。识别逻辑和解码逻辑可以使用各种不同机制实现,包括但不限于微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)、以及用于实现本领域中已知的解码单元的其它机制。在一些实施例中,解码单元804可以与如图1中图示的解码单元140相同。
系统800还可以包括寄存器的集合。在一些实施例中,寄存器可以包括可操作成持有数据的通用寄存器。术语通用通常用于是指在寄存器中存储数据或地址的能力,尽管并不要求如此。通用寄存器中的每一个可以表示可操作成存储数据的管芯上存储位置。通用寄存器可以表示架构上可见的寄存器(例如,架构寄存器文件)。架构上可见或者架构寄存器对于软件和/或编程器可见和/或是由指令指示以标识操作数的寄存器。这些架构寄存器与给定微架构中的其它非架构或非架构上可见的寄存器(例如,临时寄存器、重新排序缓冲器、引退寄存器等)形成对照。寄存器可以以不同方式使用公知的技术实现在不同微架构中并且不限于任何特定类型的电路。各种不同类型的寄存器是适合的。合适类型的寄存器的示例包括但不限于专用物理寄存器、使用寄存器重命名动态分配的物理寄存器及其组合。
在一些实施例中,第一源封装数据操作数810可以存储在第一通用寄存器中,第二源封装数据操作数812可以存储在第二通用寄存器中,目的地封装数据操作数814可以存储在第三通用寄存器中。可替换地,存储器位置或者其它存储位置可以用于源操作数中的一个或多个。例如,在一些实施例中,存储器操作可以潜在地用于第二源封装数据操作数,尽管并不要求如此。
执行单元806从解码单元804接收控制信号并且执行指令802。指令执行单元接收即时8位值、第一源存储位置、第二源存储位置和目的地存储位置。这些可以分别由即时操作数808、第一源封装数据操作数、第二源封装数据操作数和目的地源封装数据操作数来指示。在一些实施例中,存储位置指示寄存器,例如物理寄存器文件单元158。在一些实施例中,存储位置指示存储器位置,诸如存储器单元中的位置,存储器单元例如存储器单元170。执行单元806的操作和功能性可以参照图1中的执行引擎单元150以进一步的细节来描述。
再次参照图8,执行单元806与解码单元804和寄存器耦合。作为示例,执行单元可以包括算术单元、算术逻辑单元、执行算术和逻辑操作的数字电路、包括乘法器和加法器的数字电路等。执行单元可以接收一个或多个经解码或者以其它方式转换的指令或控制信号,其表示指令802和/或从指令802导出。执行单元还可以接收第一源封装数据操作数810、第二源封装数据操作数812、目的地封装数据操作数814和即时操作数808。在一些实施例中,即时操作数具有8位值。在一些实施例中,第一源封装数据操作数810、第二源封装数据操作数812和目的地封装数据操作数814指示存储位置,该存储位置具有作为64位直至512位的倍数的值。执行单元可操作成响应于指令802和/或作为指令802的结果(例如,响应于从指令直接地或者间接地(例如,通过仿真)解码的一个或多个指令或控制信号)而存储结果。
在一些实施例中,将第一源封装数据操作数810、第二源封装数据操作数812和目的地封装数据操作数814中的封装数据元素(位)分离成64个封装数据元素(64位)区段。在这样的实施例中,重复在每一个64封装数据元素区段上执行的操作,并且执行单元806可以并行地或者串行地在每一个64封装数据元素区段上执行操作。对于一个或多个64封装数据元素区段中的每一个,执行单元806确定通过两位索引值编索引的即时操作数的4个最低有效位(低位)中的位。该两位索引值的最低有效位是来自第一源封装数据操作数的64封装数据元素区段内的定位的封装数据元素。该两位索引值的最高有效位是来自目的地封装数据操作数的对应定位的对应封装数据元素。对于每一个64封装数据元素区段,执行单元806计算从第一源封装数据操作数810和第二源封装数据操作数814导出的各种两位索引值,并且从对应于这些两位索引值的即时操作数808的低位确定位值。如果确定来自即时操作数808的低位的位值都不为“1”,则执行单元806在目的地封装数据操作数中的对应64封装数据元素区段的所有64封装数据元素处存储“0”值。
否则,如果确定来自即时操作数808的低位的位值中的任一个为“1”,则执行单元806使用两位索引值确定来自即时操作数的四个最高有效位(高位)的位值具有第二源封装数据操作数中的封装数据元素作为其最低有效位以及目的地封装数据操作数中的封装数据元素作为其最高有效位。对于目的地封装数据操作数的64封装数据元素区段中的每一个定位,执行单元806将来自即时操作数的高位的位值存储到由目的地封装数据操作数指示的寄存器或存储器位置的对应定位中,所述位值使用从第二源封装数据操作数和目的地封装数据操作数中的对应定位导出的对应两位定位值来确定。
以上描述的这些实施例允许系统800向一系列布尔矩阵或矢量(由操作数表示)有效地应用两个二进制函数,其输出存储在即时操作数中,其中一个函数的应用取决于另一个函数的输出。在计算布尔矩阵倒置(例如使用高斯消元法)的情况下,这可以是尤其有用的。关于以上实施例的进一步细节将在下文参照图9A-9B来描述。
执行单元和/或处理器可以包括具体或特定逻辑(例如,晶体管、集成电路、或者潜在地与固件(例如,存储在非易失性存储器中的指令)和/或软件组合的其它硬件),其可操作成执行指令802和/或响应于指令802和/或作为指令802的结果(例如,响应于从指令802解码或者以其它方式导出的一个或多个指令或控制信号)而存储结果。在一些实施例中,执行单元可以包括接收源操作数的一个或多个输入结构(例如,(多个)输入端口、(多个)输入互连、输入接口等)、与(多个)输入结构耦合以便接收和处理源操作数并且生成结果操作数的电路或逻辑(例如,乘法器和至少一个加法器)、以及与所述电路或逻辑耦合以便输出结果操作数的一个或多个输出结构(例如,(多个)输出端口、(多个)输出互连、输出接口等)。
为了避免使描述不清楚,已经示出和描述了相对简单的系统800。在其它实施例中,系统800可以可选地包括其它公知的处理器组件。这样的组件的可能示例包括但不限于指令获取单元、指令和数据缓存、2级或更高级缓存、无序执行逻辑、指令调度单元、寄存器重命名单元、引退单元、总线接口单元、指令和数据转译后备缓冲器、预获取缓冲器、微指令队列、微指令定序器、包括在处理器中的其它组件、及其各种组合。这样的组件的众多不同组合和配置是适合的。实施例不限于任何已知的组合或配置。此外,实施例可以包括在具有多个核的处理器、逻辑处理器或执行引擎中,它们的至少一个具有解码单元和执行单元以便执行指令802的实施例。
图9A图示了依照本发明的一个实施例的用于执行矢量水平二进制逻辑操作的逻辑900。在一些实施例中,执行单元806包括执行指令802的逻辑900。在一些实施例中,指令802指定即时操作数808(IMM8)、第一源封装数据操作数810(SRC1)、第二源封装数据操作数812(SRC2)和目的地封装数据操作数814(DEST)。尽管在逻辑900中描绘的操作数包括特定二进制值,但仅出于说明性目的而包括这些值,并且操作数在其它实施例中可以包括不同值。要指出,在特定位位置中显示的“X”可以指示这些特定位的值与当前描述无关。
将即时操作数中的值分离成四个最高有效位IMM_HI 904和四个最低有效位IMM_LO 806。这些可以表示两个函数的输出,每一个函数接受作为输入的两个二进制值。例如,函数可以针对输入“0”和“0”而输出值“1”,针对输入“0”和“1”而输出值“0”,针对输入“1”和“0”而输出“1”,以及针对输入“1”和“1”而输出“0”。在这样的情况下,可以将函数建模为4位二进制值“1010”。为了针对输入“1”和“0”而寻找函数的输出,系统可以使用包括输入“1”和“0”的两位定位“10”从4位二进制值“1010”确定输出值。该4位二进制值可以是8位值的四个最低有效位,并且另一个4位二进制值可以形成8位值的4个最高有效位,从而允许8位值限定两个二进制函数的输出。
如上文所指出,SRC1 810、SRC2 812和DEST 814可以是可以存储高达512个位(512个封装数据元素)的寄存器。在一些实施例中,逻辑900在SRC1 810、SRC2 812和DEST 814的64位(封装数据元素)的集合上单独地操作,并且因此,在一个封装数据元素上的操作不会影响另一个封装数据元素的操作或结果。对于具有512个位的寄存器,可以存在总共8个64位封装数据元素,然而,指令802可以指定处理器在较少数目的64位封装数据元素上进行操作。出于说明性目的,图9A示出了由操作数表示的存储位置的64个最低有效位上的操作。这些是由916指示的位0到63。
图9A进一步图示了逻辑900的第一条件产物。在块930处,执行单元806通过确定IMM_LO 906值来执行逻辑900,IMM_LO 906值通过SRC1 810中的相应值以及DEST 814a的开始(初始)状态中的值(即,在将新值存储在由DEST指示的存储位置中之前)来编索引。因而,在918a处,执行单元806从SRC1 810中的定位0取得值“1”连同从DEST1 814a中的相同定位0取得值“1”以形成两位索引值“01”,其中来自SRC1 810的值是两位索引值的最低有效位,并且来自DEST1 814a的值是两位值的最高有效位。该两位索引值“01”由执行单元806使用以便将IMM_LO 906的值编索引在位定位1处(即,位定位1对应于二进制值“01”)。
执行单元806迭代(串行地或者并行地)通过SRC1 810中的其余封装数据元素918b-918n以及DEST 814a中的920b-920n并且确定用于SRC1 810和DEST 814a的所有这些64个定位的对应IMM_LO 906值。例如,在所图示的图9A的示例中,在64个定位中的下一定位(定位1)处,执行单元806组合来自SRC1 810的918b处的值“0”与来自920b处的DEST 814a的值“1”以形成两位索引值“10”,其用于确定IMM_LO的定位2(即,二进制中的“10”)处的值“0”。
在一些实施例中,从IMM_LO确定的值存储在临时存储位置中,诸如TEMP 932中。如在图9A中所示,一旦确定IMM_LO值,则将该值存储在TEMP 932中的对应定位中。例如,在定位0处,通过执行单元将使用DEST(“0”)和SRC1(“1”)的IMM_LO值确定为“1”,并且因此,将“1”存储在TEMP 932中的定位0处。在一些实施例中,该临时存储位置是单个位,并且在从IMM_LO确定的每一个结果与该临时位之间执行逐位OR,并且将结果存储回到临时位中。因而,在处理了64位区段的所有64个封装数据元素之后,如果对于任何DEST、SRC1索引定位组合曾经从IMM_LO确定“1”值,则该临时位指示“1”,并且反之,该临时位指示“0”。
在图9A中所图示的第一条件产物中,基于(DEST和SRC1的)两位索引定位而确定的IMM_LO 906值中的至少一个是“1”。“1”值的这种确定可以是由于SRC1 810和DEST 814a中的值的缘故或者是由于IMM_LO 906中的值的缘故。因而,取决于SRC1、DEST或IMM_LO中的值,执行单元806可以确定来自64个不同的SRC1 810和DEST 814a组合的两位索引定位中的至少一个指示IMM_LO 906中的“1”值。
当执行单元806确定两位索引定位中的至少一个得出IMM_LO 906中的“1”值时,执行在块932处进行,其中执行单元806基于由不同的两位值指示的IMM_LO 904中的值具有SRC2 812中的定位处的封装数据元素作为最高有效位以及DEST 814a中的相同定位处的封装数据元素作为最低有效位,而将新值存储在DEST 814b(其表示在执行单元806完成指令802的执行之后由DEST指示的存储位置的状态)中。如图9A中所图示,SRC2 812中的定位0具有值“0”,并且DEST 814a中的对应值具有值“0”。这两个值形成两位索引定位“00”,其对应于IMM_HI 904中的定位0。IMM_HI 904的定位0处的值为“1”,并且因而,该值“1”在相同定位0处存储在由DEST 814b指示的寄存器中的926a处。执行单元针对SRC2 812和DEST 814a中的所有其余63个定位重复该过程并且将新值置于DEST 814b的对应定位中。
在执行单元806完成指令802的执行之后,存储在由DEST 814b指示的寄存器中的值改变。如果IMM_LO 906的值表示第一双输入单输出二进制函数的输出,并且IMM_HI 904的值表示第二双输入单输出二进制函数的输出,则在其中由IMM_LO 906表示的函数的输出导致特定结果(即,“1”)的情况下,DEST 814b的值表示由IMM_HI 904表示的函数的输出。如将参照图9B示出,在其中由IMM_LO 906表示的函数的输出没有产生该特定结果的情况下,存储在DEST 814b中的值将全部替代地为“0”。因而,表示指令802的该逻辑900可以用于以另一个二进制函数的结果为条件而将二进制函数高效地应用于值的集合。该值可以表示一个或多个矢量或矩阵,并且因而,该指令802对于执行复杂矩阵或矢量操作可以是有利的,诸如通过高斯消元法的矩阵倒置。
图9B图示了依照本发明的一个实施例的用于执行矢量水平二进制逻辑操作的逻辑900的另一方面。图9A图示了逻辑900中的指令802的第一条件产物,而图9B图示了逻辑950中的指令802的第二条件产物。要指出,在特定位位置中显示的“X”可以指示这些特定位的值与当前描述无关。
为了说明该第二条件产物,在图9B中使用不同的IMM_LO(IMM_LO 956),其具有与图9A中的IMM_LO 906的值不同的值。在块980处,执行单元806通过确定由SRC1 810中的相应值和DEST 814a的开始状态编索引的IMM_LO 956值来执行逻辑900。尽管该操作类似于图9A的块930中的操作,但是在图9B的IMM_LO 956的值的情况下,执行单元906确定没有所选择的IMM_LO 956值为“1”。这可以是由于SRC1 810和DEST 814a中的特定值集合的缘故,其使得绝不从IMM_LO选择“1”值,或者这可以是由于IMM_LO 956中的特定值的缘故。
尽管图9B中的IMM_LO 956的示例性值全部为“0”以强调将没有选择“1”值,但是更有可能的情况将是,IMM_LO包括“1”和“0”值二者,并且SRC1 810和DEST 814a的各种定位(来自集合的总体64个定位)处的值的组合没有组合成创建指示IMM_LO中的“1”值的两位索引定位。
在以上关于图9A所示的方法中执行单元806迭代通过SRC1 810和DEST 814a中的所有64个定位之后,并且没有在IMM_LO中选择“1”时,那么在块882处,将“0”值存储在如DEST 814c中所示的DEST 814a的那些64个定位中,其表示在该第二路径中在指令802的执行结束处由DEST 814c指示的存储中的值是有条件的。
图9C图示了根据本发明的实施例的两个表格,其示出了可以如何将DEST 814a、SRC1 810和SRC2 812用作用于IMM_HI 904和IMM_LO 906的索引定位。尽管图9C中描绘的操作数包括特定二进制值,但是仅出于说明性目的而包括这些值,并且操作数在其它实施例中可以包括不同值。
表格980指示执行单元可以基于来自DEST的位作为索引定位的最高有效位以及来自SRC1中的对应定位的位作为索引定位的最低有效位而从IMM_LO确定的值。因而,在行981处,当来自DEST的位是“0”并且来自SRC1的位是“0”时,用于IMM_LO的索引定位为二进制的“00”或者十进制的“0”,并且确定来自IMM_LO中的定位0的值“1”为用于DEST和SRC1的该组合的IMM_LO值。
类似地,在行982处,DEST值“0”和SRC1值“1”得出定位“1”,其对应于IMM_LO中的值“1”。类似结果在行983和984中看到。
表格990指示执行单元可以基于来自DEST的位作为索引定位的最高有效位以及来自SRC2中的对应定位的位作为索引定位的最低有效位而从IMM_HI确定的值。如上文所指出,当使用DEST和SRC1值作为索引定位对IMM_LO的查找导致从IMM_LO确定的至少一个“1”值时,可以发生对IMM_HI的查找。对IMM_HI中的值的查找类似于对IMM_LO中的值的查找。例如,在行991中,DEST值“0”和SRC2值“0”指示二进制的索引定位“00”或者十进制的索引定位“0”,其指示IMM_HI的定位0处的值“1”。类似结果在行992-994中看到。
图10是用于可操作成执行矢量水平二进制逻辑指令的实施例的系统的方法1000的流程图。在各种实施例中,方法可以由处理器、指令处理装置或其它数字逻辑设备来执行。在一些实施例中,图10的操作和/或方法可以由图8的处理器执行和/或在图8的处理器内执行。本文针对图8的处理器描述的组件、特征和具体可选细节还可选地应用于图10的操作和/或方法。可替换地,图10的操作和/或方法可以由类似或不同的处理器或装置来执行和/或在类似或不同的处理器或装置内执行,诸如参照图1-8描述的那些。此外,图8的处理器可以执行与图10的那些相同、相似或不同的操作和/或方法。
方法1000包括在块1002处从存储器获取指令,该指令指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数。在各种方面中,指令可以在处理器、指令处理装置或其部分(例如,指令获取单元、解码单元、总线接口单元等)处获取和接收。在各种方面中,指令可以从管芯外的源(例如,从存储器、互连等)或者从管芯上的源(例如,从指令缓存、指令队列等)接收。
在块1004处,对指令进行解码。在一些实施例中,指令的解码可以由解码单元执行,解码单元诸如图8中的解码单元804。
在块1006处,方法1000包括针对目的地封装数据操作数和第一源封装数据操作数中的一个或多个64封装数据元素的每一个集合,确定来自即时操作数的4个最低有效(低)位的数据元素(位),其中使用两位索引值从即时操作数的低位选择数据元素,所述两位索引值具有对应于目的地封装数据操作数中的定位处的封装数据元素的最高有效位以及具有对应于第一源封装数据操作数中的对应定位处的数据元素的最低有效位。在一些实施例中,由执行单元执行数据元素的确定,执行单元诸如图8中的执行单元806。
在块1008处,方法1000包括针对一个或多个64封装数据元素的每一个集合,确定对于选自目的地封装数据操作数和第一源封装数据操作数中的一个或多个定位的两位索引值中的任一个而言是否确定了数据元素为“1”。
如果块1008处的确定为肯定的,则流程进行至块1010,其中方法包括针对包括确定为“1”的数据元素的64封装数据元素的每一个集合而确定来自即时操作数的4个最高有效(高)位的第二数据元素(位),其中使用两位值从即时操作数的高位选择第二数据元素,所述两位值具有对应于目的地封装数据操作数中的另一定位处的封装数据元素的最高有效位以及具有对应于第一源封装数据操作数中的对应定位处的数据元素的最低有效位。
流程然后进行到块1012,其中方法1000包括将针对所有定位的对应第二数据元素存储到由目的地封装数据操作数指示的寄存器的对应定位中。
如果块1008处的条件确定为否定的,则流程进行到块1014,其中方法包括针对64封装数据元素的每一个非匹配集合,将“0”值存储在由目的地封装数据操作数指示的寄存器的对应64封装数据元素中。
所图示的方法牵涉到架构操作(例如,从软件的视角看可见的那些)。在其它实施例中,方法可以可选地包括一个或多个微架构操作。作为示例,可以获取、解码、无序调度指令,可以访问源操作数,执行单元可以执行微架构操作以实现指令,可以将结果重新布置回到程序次序中等。在一些实施例中,实现指令的微架构操作可以可选地包括在图1-7和12-15中描述的操作中的任一个。
图11是用于可操作成执行矢量水平二进制逻辑指令的实施例的逻辑的示例性伪代码。在一些实施例中,该逻辑是逻辑900。指令802可以指定各种操作数,如在1152-1160中所示。zmm1 1152指定目的地封装数据操作数。在一些实施例中,zmm1 1152是DEST 814。在一些实施例中,指令指定写入掩蔽1154,在该情况下“k1”。写入掩蔽的值可以向执行单元806指示是否将值写入到由目的地封装数据操作数指示的寄存器的指定部分。zmm2 1156指定第一源封装数据操作数。在一些实施例中,这是SRC1 810。zmm3 1158指定第二源封装数据操作数。在一些实施例中,这是SRC2 812。在一些实施例中,zmm3 1158指定寄存器,并且在其它实施例中,zmm3 1158指定存储器位置。imm8 1160指定即时操作数。在一些实施例中,imm8 1160是IMM8 808并且包括IMM_HI和IMM_LO。
行1102指示指令在一些实施例中与128、256和512的矢量长度兼容。K长度指示二进制值的对应矢量长度可以分离成的64封装数据元素的集合的数目。如上文所指出,指令在64封装数据元素的集合上操作。
在一些实施例中,指令的操作数指定指示可以存储高达512个位的存储位置的操作数,并且在这样的情况下,仅寄存器的部分用于指令的执行。在一些实施例中,操作数中的一个或多个可以指示存储器存储位置而不是寄存器位置。
在图11中,指向左的箭头指示将箭头右侧上的值指派给箭头左侧上的变量。
在行1104处,设定循环以便针对等于K长度的多个循环进行迭代。例如,如果矢量长度为128,则K长度将为2,并且循环将迭代两次。在一些实施例中,循环变量为“j”,如在图11中所图示。
在行1106处,将变量i设定成j乘以64。例如当j为“2”时,变量i将为“128”。
在行1108处,将临时变量KTMP设定成值“0”,临时变量KTMP可以是内部寄存器。在一些实施例中,将KTMP表示为阵列,并且设定为“0”的阵列中的定位由变量j编索引(即,KTMP[j])。当在行1104中发起的循环迭代时,j的值增加并且针对KTMP[j]的阵列定位在每一次迭代期间改变。
在行1110处,发起第二循环以从0迭代到63,第二循环是来自行1104的循环的内部循环,其中“k”是从0迭代到63的循环变量。在行1112处,将临时值KTMP[j]设定成等于KTMP[j]和通过两位值编索引的IMM_LO中的值之间的逐位OR的值,所述两位值由定位i+k处的DEST的值向左偏移一位再加到定位i+k处的SRC1的值而构成。换言之,两位值具有在64封装数据元素的当前集合内当前迭代的定位处的DEST的值作为其最高有效位,并且具有相同定位处的SRC1的值作为其最低有效位。要指出,循环的64次迭代中的每一次迭代处理SRC1和DEST二者中的64封装数据元素的集合中的一个,并且在行1104处指示的循环的每一次迭代处理64封装数据元素的一个集合。
如在行1110处所示,逐位OR函数利用KTMP[j]重复地执行。因而,在由行1110指示的循环的结尾处,如果如由以上描述的两位值中的一个指示的任何IMM_LO定位具有值“1”,则KTMP[j]将具有值“1”,并且否则,KTMP[j]将具有值“0”。
行1114处的条件关于由行1110指示的循环的结果而被预测。如果KTMP[j]的值为“0”,则紧随条件声明的行1116-1122执行。否则,行1124-1128执行。在一些实施例中,行1114处的条件还关于指令802是否指定写入掩蔽而被预测。如果指定写入掩蔽,则如在行1114中所示,对于要由执行单元806执行的行1116-1122上的操作,应当将定位j处的写入掩蔽中的位设定成值“1”。否则,行1124-1128上的操作替代地执行。
如果行1114上的条件导致“1”或真结果,则利用计数器值“k”持续64次迭代执行在行1116处的循环。在一些实施例中,在行1118处,条件声明检查以查明SRC2,即,由zmm21158指定的操作数是否指示存储器位置。如果SRC2是存储器位置,则将经处理的64封装数据元素的当前集合的DEST中的值替换为如由两位定位值编索引的IMM_HI的值,所述两位定位值包括64封装数据元素的当前集合中的DEST的每一个定位处的DEST的原始值(作为最高有效位)以及对应定位处的SRC2的对应值。
要指出,当SRC2是存储器时,操作数zmm3 1158可以指示为64位长的存储器位置。这与DEST形成对照,DEST指示为512位长的寄存器。因而,尽管DEST由“k”编索引但以值“i”偏移,其中“i”指示当前处理的是寄存器中的64封装数据元素的哪个集合,但是SRC2仅由值“k”编索引。
在一些实施例中,进一步预测行1118上的条件,使得接下来的行1120仅在执行前缀中的标志指示嵌入式广播开启的情况下才执行。在一些实施例中,该标志由术语“EVEX.b”指示并且可以设定成“1”以指示嵌入式广播设定成开启。
可替换地,如果SRC2不是存储器(或者在一些实施例中,如果嵌入式广播没有开启),则行1122替代地执行。该行类似于行1120,然而,SRC2由“i+k”而不是仅由“k”编索引。
如果确定行1114处的条件为“0”或假,则行1124执行。在一些实施例中,在行1124处,条件声明检查以查明是否启用合并掩蔽。在一些实施例中,合并掩蔽由标志指示。在一些实施例中,该标志为“EVEX.z”。在一些实施例中,该标志通过如图11中所示的指令中的操作数{z} 1162指示。合并掩蔽或合并式掩蔽向执行单元指示预留目的地操作数的原始值而不是利用“0”覆写这些值。如果合并掩蔽开启,则当前处理的DEST中的64封装数据元素的集合保持不改变,如在行1126中所示。否则,如在行1128中所示,利用“0”覆写这些值(即,将值“0”存储在由目的地操作数指示的寄存器的对应定位中)。
在一些实施例中,在1130处,使没有作为指令的部分而处理的DEST中的其余值,即超出所指定的矢量长度的那些值,归零(即,将值“0”存储在由目的地操作数指示的寄存器的对应定位中)。
尽管参照为512位宽的寄存器描述了以上实施例,但是本发明的其它实施例不要求具有这样的长度的寄存器,并且本发明可以利用任何长度的寄存器来实现。
示例性指令格式
本文描述的(多个)指令的实施例可以以不同格式体现。附加地,在下文详述示例性系统、架构和流水线。(多个)指令的实施例可以在这样的系统、架构和流水线上执行,但是不限于所详述的那些。
矢量友好指令格式是适于矢量指令的指令格式(例如,存在特定于矢量操作的某些字段)。尽管描述了其中通过矢量友好指令格式支持矢量和标量操作二者的实施例,但是可替换实施例仅使用矢量操作,矢量友好指令格式。
图12A-12B是图示了根据本发明的实施例的通用矢量友好指令格式及其指令模板的框图。图12A是图示了根据本发明的实施例的通用矢量友好指令格式及其分类A指令模板的框图;而图12B是图示了根据本发明的实施例的通用矢量友好指令格式及其分类B指令模板的框图。具体地,针对通用矢量友好指令格式1200限定分类A和B指令模板,它们二者包括无存储器访问105指令模板和存储器访问1220指令模板。在矢量友好指令格式的上下文中,术语通用是指不束缚于任何特定指令集合的指令格式。
尽管将描述其中矢量友好指令格式支持以下内容的本发明的实施例:具有36位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小)(并且因而,64字节矢量包括16个双字大小的元素或者可替换地8个四倍字长大小的元素);具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小);具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节矢量操作数长度(或大小);以及具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节矢量操作数长度(或大小);但是可替换实施例可以支持具有更多、更少或不同数据元素宽度(例如,128位(16字节)数据元素宽度)的更多、更少或不同矢量操作数大小(例如,256字节矢量操作数)。
图12A中的分类A指令模板包括:1)在无存储器访问1205指令模板内,示出了无存储器访问、完全取整(round)控制类型操作1210指令模板以及无存储器访问、数据变换类型操作1215指令模板;以及2)在存储器访问1220指令模板内,示出了存储器访问、临时1225指令模板和存储器访问、非临时1230指令模板。图12B中的分类B指令模板包括:1)在无存储器访问1205指令模板内,示出了无存储器访问、写入掩蔽控制、部分取整控制类型操作1212指令模板以及无存储器访问、写入掩蔽控制、vsize类型操作1217指令模板;以及2)在存储器访问1220指令模板内,示出了存储器访问、写入掩蔽控制1227指令模板。
通用矢量友好指令格式1200包括在下文以图12A-12B中所图示的次序列出的以下字段。
格式字段1240——该字段中的特定值(指令格式标识符值)唯一地标识矢量友好指令格式,以及因而指令流中的矢量友好指令格式中的指令的出现。因此,该字段在以下意义上是可选的:对于仅具有通用矢量友好指令格式的指令集而言,不需要它。
基础操作字段1242——其内容辨别不同基础操作。
寄存器索引字段1244——其内容直接地或者通过地址生成而指定源和目的地操作数的位置,它们在寄存器中或者在存储器中。这些包括充足数目的位以便从PxQ(例如,32x512、16x128、32x1024、64x1024)寄存器文件选择N个寄存器。尽管在一个实施例中N可以高达三个源和一个目的地寄存器,但是可替换实施例可以支持更多或更少的源和目的地寄存器(例如,可以支持高达两个源,其中这些源中的一个还充当目的地;可以支持高达三个源,其中这些源中的一个还充当目的地;可以支持高达两个源和一个目的地)。
修饰符字段1246——其内容辨别指定存储器访问的通用矢量指令格式中的指令的出现以及不这样做的那些出现;也就是说,在无存储器访问1205指令模板和存储器访问1220指令模板之间进行辨别。存储器访问操作向存储器分层结构写入和/或读取(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不会这样做(例如,源和目的地是寄存器)。尽管在一个实施例中该字段还在执行存储器地址计算的三个不同方式之间进行选择,但是可替换实施例可以支持执行存储器地址计算的更多、更少或不同方式。
扩增操作字段1250——其内容辨别除基础操作之外要执行各种不同操作中的哪一个。该字段是上下文特定的。在本发明的一个实施例中,该字段划分成分类字段1268、阿尔法字段1252和贝塔字段1254。扩增操作字段1250允许在单个指令中而不是在2、3或4个指令中执行操作的公共群组。
缩放字段1260——其内容允许索引字段的内容的缩放以用于存储器地址生成(例如,对于使用2缩放*索引+基础的地址生成)。
移位字段1262A——其内容用作存储器地址生成的部分(例如,对于使用2缩放*索引+基础+移位的地址生成)。
移位因子字段1262B(要指出,移位字段1262A直接在移位因子字段1262B之上的并置指示使用一个或另一个)——其内容用作地址生成的部分;其指定要通过存储器访问的大小(N)进行缩放的移位因子——其中N是存储器访问中的字节数目(例如,对于使用2缩放*索引+基础+经缩放的移位的地址生成)。忽略冗余的低阶位,并且因而,将移位因子字段的内容乘以存储器操作数总大小(N)以便生成要在计算有效地址时使用的最终移位。N的值由处理器硬件在运行时基于完整操作码字段1274(随后在本文中描述)和数据操控字段1254C来确定。移位字段1262A和移位因子字段1262B在以下意义上是可选的:它们不用于无存储器访问1205指令模板和/或不同实施例可以仅实现这两个中的一个或一个都不实现。
数据元素宽度字段1264——其内容辨别要使用数个数据元素宽度中的哪一个(在一些实施例中,对于所有指令;在其它实施例中,对于指令中的仅一些)。该字段在以下意义上是可选的:如果仅支持一个数据元素宽度和/或使用操作码的一些方面支持数据元素宽度,则不需要它。
写入掩蔽字段1270——其内容在每一数据元素位置的基础上控制目的地矢量操作数中的该数据元素位置是否反映基础操作和扩增操作的结果。分类A指令模板支持合并写入掩蔽,而分类B指令模板支持合并和归零写入掩蔽二者。当合并时,矢量掩蔽允许目的地中的任何元素集合受保护以防在(由基础操作和扩增操作指定的)任何操作的执行期间更新;在另一个实施例中,在对应掩蔽位具有0的情况下,预留目的地的每一个元素的旧值。相比而言,当归零时,矢量掩蔽允许目的地中的任何元素集合在(由基础操作和扩增操作指定的)任何操作的执行期间归零;在一个实施例中,当对应掩蔽位具有0值时,目的地的元素设置成0。该功能性的子集是控制所执行的操作的矢量长度(也就是说,所修改的元素从第一个向最后一个的跨度)的能力;然而,不必要的是,所修改的元素是连贯的。因而,写入掩蔽字段1270允许部分矢量操作,包括加载、存储、算术、逻辑等。尽管描述了其中写入掩蔽字段1270的内容选择包含要使用的写入掩蔽的数个写入掩蔽寄存器之一(并且因而写入掩蔽字段1270的内容简介地标识要执行的掩蔽)的本发明的实施例,但是可替换实施例替代地或者附加地允许掩蔽写入字段1270的内容直接地指定要执行的掩蔽。
即时字段1272——其内容允许即时值指定。该字段在以下意义上是可选的:其不存在于不支持即时值的通用矢量友好格式的实现中,以及其不存在于不使用即时值的指令中。
分类字段1268——其内容在不同指令分类之间进行辨别。参照图12A-B,该字段的内容在分类A和分类B指令之间进行选择。在图12A-B中,使用圆角方形来指示特定值存在于字段中(例如,分类A 1268A和分类B 1268B分别用于图12A-B中的分类字段1268)。
分类A的指令模板
在分类A的非存储器访问1205指令模板的情况下,阿尔法字段1252解译为RS字段1252A,其内容辨别要执行不同扩增操作类型中的哪一个(例如,分别指定取整1252A.1和数据变换1252A.2用于无存储器访问、取整类型操作1210和无存储器访问、数据变换类型操作1215指令模板),而贝塔字段1254辨别要执行所指定的类型的操作中的哪个。在无存储器访问1205指令模板中,缩放字段1260、移位字段1262A和移位缩放字段1262B不存在。
无存储器访问指令模板——完全取整控制类型操作
在无存储器访问完全取整控制类型操作1210指令模板中,贝塔字段1254解译为取整控制字段1254A,其(多个)内容提供静态取整。尽管在本发明的所述实施例中,取整控制字段1254A包括抑制全部浮点数异常(SAE)字段1256和取整操作控制字段1258,但是可替换实施例可以支持的是,可以将这两个概念编码到相同字段中,或者仅具有这些概念/字段中的一个或另一个(例如,可以仅具有取整操作控制字段1258)。
SA字段1256——其内容辨别是否禁用异常事件报告;当SAE字段1256的内容指示启用抑制时,给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器。
取整操作控制字段1258——其内容辨别要执行取整操作的群组中的哪一个(例如,向上取整、向下取整、朝零取整以及向最近处取整)。因而,取整操作控制字段1258允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中,取整操作控制字段1250的内容覆写该寄存器值。
无存储器访问指令模板——数据变换类型操作
在无存储器访问数据变换类型操作1215指令模板中,贝塔字段1254解译为数据变换字段1254B,其内容辨别要执行数个数据变换中的哪一个(例如,无数据变换、拌和、广播)。
在分类A的存储器访问1220指令模板的情况下,阿尔法字段1252解译为逐出提示字段1252B,其内容辨别要使用逐出提示中的哪一个(在图12A中,分别指定临时1252B.1和非临时1252B.2用于存储器访问、临时1225指令模板和存储器访问、非临时1230指令模板),而贝塔字段1254解译为数据操控字段1254C,其内容辨别要执行数个数据操控操作(还称为基元)中的哪一个(例如,无操控;广播、源的上转换;以及目的地的下转换)。存储器访问1220指令模板包括缩放字段1260,以及可选地移位字段1262A或移位缩放字段1262B。
矢量存储器指令执行来自存储器的矢量加载以及向存储器的矢量存储,其中支持转换。如与常规矢量指令那样,矢量存储器指令以逐数据元素方式自/向存储器转移数据,其中实际转移的元素由选择为写入掩蔽的矢量掩蔽的内容指示。
存储器访问指令模板——临时
临时数据是很可能足够快地再使用以获益于缓存的数据。然而,这是提示,并且不同的处理器可以以不同方式实现它,包括完全忽略提示。
存储器访问指令模板——非临时
非临时数据是不可能足够快地再使用以获益于第一级缓存中的缓存并且应当给予逐出优先级的数据。然而,这是提示,并且不同的处理器可以以不同方式实现它,包括完全忽略提示。
分类B的指令模板
在分类B的指令模板的情况下,阿尔法字段1252解译为写入掩蔽控制(Z)字段1252C,其内容辨别由写入掩蔽字段1270控制的写入掩蔽是应当合并还是归零。
在分类B的非存储器访问1205指令模板的情况下,贝塔字段1254的部分解译为RL字段1257A,其内容辨别要执行不同扩增操作类型中的哪一个(例如,分别指定取整1257A.1和矢量长度(VSIZE)1257A.2用于无存储器访问、写入掩蔽控制、部分取整控制类型操作1212指令模板和无存储器访问、写入掩蔽控制、VSIZE类型操作1217指令模板),而贝塔字段1254的其余部分辨别要执行所指定的类型的操作中的哪个。在无存储器访问1205指令模板中,缩放字段1260、移位字段1262A和移位缩放字段1262B不存在。
在无存储器访问、写入掩蔽控制、部分取整控制类型操作1210指令模板中,贝塔字段1254的其余部分解译为取整操作字段1259A,并且禁用异常事件报告(给定指令不报告任何类型的浮点数异常标志并且不会唤起任何浮点数异常处置器)。
取整操作控制字段1259A——正如取整操作控制字段1258,其内容辨别要执行取整操作的群组中的哪一个(例如,向上取整、向下取整、朝零取整以及向最近处取整)。因而,取整操作控制字段1259A允许在每一指令的基础上取整模式的改变。在其中处理器包括用于指定取整模式的控制寄存器的本发明的一个实施例中,取整操作控制字段1250的内容覆写该寄存器值。
在无存储器访问、写入掩蔽控制、VSIZE类型操作1217指令模板中,贝塔字段1254的其余部分解译为矢量长度字段1259B,其内容辨别要在其上执行的数个数据矢量长度中的哪一个(例如,128、256或512字节)。
在分类B的存储器访问1220指令模板的情况下,贝塔字段1254的部分解译为广播字段1257B,其内容辨别是否要执行广播类型数据操控操作,而贝塔字段1254的其余部分解译为矢量长度字段1259B。存储器访问1220指令模板包括缩放字段1260,以及可选地移位字段1262A或移位缩放字段1262B。
关于通用矢量友好指令格式1200,示出了完整操作码字段1274,其包括格式字段1240、基础操作字段1242和数据元素宽度字段1264。尽管示出了其中完整操作码字段1274包括所有这些字段的一个实施例,但是在不支持它们全部的实施例中,完整操作码字段1274包括少于这些字段的全部。完整操作码字段174提供操作代码(操作码)。
扩增操作字段1250、数据元素宽度字段1264和写入掩蔽字段1270允许在通用矢量友好指令格式中在每一指令的基础上指定这些特征。
写入掩蔽字段和数据元素宽度字段的组合创建类型化指令,因为它们允许基于不同数据元素宽度来应用掩蔽。
在分类A和分类B内发现的各种指令模板在不同情况下是有益的。在本发明的一些实施例中,不同处理器或者处理器内的不同核可以仅支持分类A,仅支持分类B,或者支持两个分类。例如,意图用于通用计算的高性能通用无序核可以仅支持分类B,意图主要用于图形和/或科学(吞吐量)计算的核可以仅支持分类A,并且意图用于二者的核可以支持二者(当然,具有来自两个分类的模板和指令的某种混合但是并非来自两个分类的所有模板和指令的核处于本发明的权限内)。而且,单个处理器可以包括多个核,所有核支持相同分类或者其中不同核支持不同分类。例如,在具有分离的图形和通用核的处理器中,意图主要用于图形和/或科学计算的图形核之一可以仅支持分类A,而通用核中的一个或多个可以是具有意图用于通用计算的无序执行和寄存器重命名的高性能通用核,其仅支持分类B。不具有分离的图形核的另一个处理器可以包括一个或多个通用有序或无序核,其支持分类A和分类B二者。当然,在本发明的不同实施例中,来自一个分类的特征还可以实现在另一分类中。以高级语言编写的程序将置于(例如,及时编译或静态编译成)各种不同可执行形式,包括:1)仅具有由目标处理器支持以用于执行的(多个)分类的指令的形式;或者2)具有使用所有分类的指令的不同组合编写的可替换例程并且具有控制流程代码的形式,所述控制流程代码基于由当前正执行该代码的处理器支持的指令来选择要执行的例程。
图13A-D是图示了根据本发明的实施例的示例性特定矢量友好指令格式的框图。图13示出了在以下意义上是特定的特定矢量友好指令格式1300:其指定字段的位置、大小、解译和次序,以及用于那些字段中的一些的值。特定矢量友好指令格式1300可以用于扩展x86指令集,并且因而字段中的一些与在现有x86指令集及其扩展(例如,AVX)中使用的那些类似或相同。该格式与具有扩展的现有x86指令集的前缀编码字段、真实操作码字节字段、MOD R/M字段、SIB字段、移位字段和即时字段保持一致。图示了来自图13的字段映射到其中的来自图12的字段。
应当理解到,尽管出于说明性目的而在通用矢量友好指令格式1200的上下文中参照特定矢量友好指令格式1300描述了本发明的实施例,但是除了在要求保护的情况下之外,本发明不限于特定矢量友好指令格式1300。例如,通用矢量友好指令格式1200设想到用于各种字段的各种可能大小,而将特定矢量友好指令格式1300示出为具有特定大小的字段。作为具体示例,尽管将数据元素宽度字段1264图示为特定矢量友好指令格式1300中的一位字段,但是本发明不如此受限(也就是说,通用矢量友好指令格式1200设想到数据元素宽度字段1264的其它大小)。
通用矢量友好指令格式1200包括在下文以图13A中图示的次序列出的以下字段。
EVEX前缀(字节0-3)1302——以四字节形式进行编码。
格式字段1240(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段1240并且其包含0x62(在本发明的一个实施例中,用于辨别矢量友好指令格式的唯一值)。
第二到第四字节(EVEX字节1-3)包括提供特定能力的数个位字段。
REX字段1305(EVEX字节1,位[7-5])——包括EVEX.R位字段(EVEX字节1,位[7]-R)、EVEX.X位字段(EVEX字节1,位[6]-X)和1257BEX字节1,位[5]-B)。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能性,并且使用1s互补形式进行编码,即,ZMM0编码为1211B,ZMM15编码为0000B。指令将寄存器索引的低三个位编码为的其它字段在本领域中已知(rrr、xxx和bbb),使得Rrrr、Xxxx和Bbbb可以通过添加EVEX.R、EVEX.X和EVEX.B而形成。
REX'字段1210——这是REX'字段1210的第一部分并且是EVEX.R'位字段(EVEX字节1,位[4]-R'),其用于编码经扩展的32寄存器集合的高16个或低16个。在本发明的一个实施例中,该位连同如下文指示的其它位以位反转格式存储以便从BOUND指令辨别(在公知的x86 32位模式中),BOUND指令的真实操作码字节为62,但是不会在MOD R/M字段(在下文描述)中接受MOD字段中的值11;本发明的可替换实施例不以反转格式存储该位以及下文指示的其它位。值1用于编码低16个寄存器。换言之,R'Rrrr通过组合EVEX.R'、EVEX.R和来自其它字段的其它RRR而形成。
操作码映射字段1315(EVEX字节1,位[3:0]-mmmm)——其内容编码所暗示的前导操作码字节(0F、0F 38或0F 3)。
数据元素宽度字段1264(EVEX字节2,位[7]-W)由标记EVEX.W表示。EVEX.W用于限定数据类型的粒度(大小)(32位数据元素或者64位数据元素)。
EVEX.vvvv 1320(EVEX字节2,位[6:3]-vvvv)——EVEX.vvvv的角色可以包括以下各项:1)EVEX.vvvv编码第一源寄存器操作数,其以反转(1s互补)形式指定,并且对于具有2个或更多源操作数的指令有效;2)EVEX.vvvv编码目的地寄存器操作数,其以1s互补形式针对某些矢量偏移而指定;或者3)EVEX.vvvv不编码任何操作数,字段反转并且应当包含1211b。因而,EVEX.vvvv字段1320编码以反转(1s互补)形式存储的第一源寄存器区分符的4个低阶位。取决于指令,额外的不同EVEX位字段用于将区分符大小扩展为32个寄存器。
EVEX.U 1268分类字段(EVEX字节2,位[2]-U)——如果EVEX.U=0,则其指示分类A或EVEX.U0;如果EVEX.U=1,则其指示分类B或EVEX.U1。
前缀编码字段1325(EVEX字节2,位[1:00]-pp)——提供用于基础操作字段的附加位。除提供对于以EVEX前缀格式的传统SSE指令的支持之外,这还具有以下益处:压紧SIMD前缀(而非要求字节来表述SIMD前缀,EVEX前缀仅要求2个位)。在一个实施例中,为了以传统格式和EVEX前缀格式二者支持使用SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码到SIMD前缀编码字段中;并且在运行时,在提供给解码器的PLA之前扩展成传统SIMD前缀(因此,PLA可以在没有修改的情况下执行这些传统指令的传统和EVEX格式二者)。尽管较新的指令可以直接地将EVEX前缀编码字段的内容用作操作码扩展,但是某些实施例出于一致性而以类似的方式扩展,但是允许由这些传统SIMD前缀指定不同含义。可替换实施例可以重新设计PLA以支持2位SIMD前缀编码,并且因而不要求扩展。
阿尔法字段1252(EVEX字节3,位[7]-EH;还称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写入掩蔽控制和EVEX.N;还利用α图示)——如之前所述,该字段是内容特定的。
贝塔字段1254(EVEX字节3,位[6:4]-SSSS,还称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;还利用βββ图示)——如之前所述,该字段是内容特定的。
REX'字段1210——这是REX'字段的其余部分并且是EVEX.V'位字段(EVEX字节3,位[3]-V'),其可以用于编码经扩展的32寄存器集合中的高16个或低16个。该位以位反转格式存储。值1用于编码低16个寄存器。换言之,V'VVVV通过组合EVEX.V’、EVEX.vvvv而形成。
写入掩蔽字段1270(EVEX字节3,位[2:0]-kkk)——其内容指定如之前所述的写入掩蔽寄存器中的寄存器的索引。在本发明的一个实施例中,特定值EVEX.kkk=000具有特定行为,其暗示没有写入掩蔽用于特定指令(这可以以各种方式实现,包括使用硬布线到所有那些的写入掩蔽或者绕过掩蔽硬件的硬件)。
真实操作码字段1330(字节4)还称为操作码字节。操作码的部分在该字段中指定。
MOD R/M字段1340(字节5)包括MOD字段1342、Reg字段1344和R/M字段1346。如之前所述,MOD字段1342的内容在存储器访问和非存储器访问操作之间进行辨别。Reg字段1344的角色可以总结为两种情况:编码目的地寄存器操作数或源寄存器操作数;或者视为操作码扩展并且不用于编码任何指令操作数。R/M字段1346的角色可以包括以下各项:编码引用存储器地址的执行操作数,或者编码目的地寄存器操作数或源寄存器操作数。
缩放、索引、基础(SIB)字节(字节6)——如之前所述,缩放字段1250的内容用于存储器地址生成。SIB.xxx 1354和SIB.bbb 1356——这些字段的内容之前已经关于寄存器索引Xxxx和Bbbb而提及。
移位字段1262A(字节7-10)——当MOD字段1342包含10时,字节7-10是移位字段1262A,并且其与传统32-位移位(disp32)相同地工作并且在字节粒度下工作。
移位因子字段1262B(字节7)——当MOD字段1342包含01时,字节7是移位因子字段1262B。该字段的位置与在字节粒度下工作的传统x86指令集8位移位(disp8)的位置相同。由于disp8经符号扩展,所以其仅可以在-128和127字节偏离之间进行寻址;在64字节缓存行方面,disp8使用8个位,其可以设置成仅四个真正有用的值-128、-64、0和64;由于通常需要较大范围,所以使用disp32;然而,disp32要求4个字节。相比于disp8和disp32,移位因子字段1262B是disp8的重新解译;当使用移位因子字段1262B时,实际移位通过移位因子字段的内容乘以存储器操作数访问的大小(N)来确定。这种类型的移位称为disp8*N。这减少了平均指令长度(用于移位但是具有大得多的范围的单个字节)。这样的经压缩的移位是基于以下假设:有效移位是存储器访问的粒度的倍数,并且因而不需要编码地址偏离的冗余低阶位。换言之,移位因子字段1262B替换传统x86指令集8位移位。因而,以与x86指令集8位移位相同的方式来编码移位因子字段1262B(所以没有ModRM/SIB编码规则中的改变),仅仅除了disp8过载成disp8*N以外。换言之,不存在编码规则或编码长度中的改变,而是仅存在通过硬件(其需要通过存储器操作数的大小对移位进行缩放以获得逐字节地址偏离)对移位值的解译中的改变。
即时字段1272如之前所述那样进行操作。
完整操作码字段
图13B是图示了根据本发明的一个实施例的构成完整操作码字段1274的特定矢量友好指令格式1300的字段的框图。具体地,完整操作码字段1274包括格式字段1240、基础操作字段1242和数据元素宽度(W)字段1264。基础操作字段1242包括前缀编码字段1325、操作码映射字段1315和真实操作码字段1330。
寄存器索引字段
图13C是图示了根据本发明的一个实施例的构成寄存器索引字段1244的特定矢量友好指令格式1300的字段的框图。具体地,寄存器索引字段1244包括REX字段1305、REX'字段1310、MODR/M.reg字段1344、MODR/M.r/m字段1346、VVVV字段1320、xxx字段1354和bbb字段1356。
扩增操作字段
图13D是图示了根据本发明的一个实施例的构成扩增操作字段1250的特定矢量友好指令格式1300的字段的框图。当分类(U)字段1268包含0时,其标示EVEX.U0(分类A 1268A);当它包含1时,其标示EVEX.U1(分类B 1268B)。当U=0并且MOD字段1342包含11时(标示无存储器访问操作),阿尔法字段1252(EVEX字节3,位[7]-EH)解译为rs字段1252A。当rs字段1252A包含1时(取整1252A.1),贝塔字段1254(EVEX字节3,位[6:4]-SSS)解译为取整控制字段1254A。取整控制字段1254A包括一位SAE字段1256和两位取整操作字段1258。当rs字段1252A包含0时(数据变换1252A.2),贝塔字段1254(EVEX字节3,位[6:4]-SSS)解译为三位数据变换字段1254B。当U=0并且MOD字段1342包含00、01或10时(标示存储器访问操作),阿尔法字段1252(EVEX字节3,位[7]-EH)解译为逐出提示(EH)字段1252B并且贝塔字段1254(EVEX字节3,位[6:4]-SSS)解译为三位数据操控字段1254C。
当U=1时,阿尔法字段1252(EVEX字节3,位[7]-EH)解译为写入掩蔽控制(Z)字段1252C。当U=1并且MOD字段1342包含11时(标示无存储器访问操作),贝塔字段1254的部分(EVEX字节3,位[4]-S0)解译为RL字段1257A;当它包含1时(取整1257A.1),贝塔字段1254的其余部分(EVEX字节3,位[6:4]-S2-1)解译为取整操作字段1259A,而当RL字段1257A包含0时(VSIZE 1257.A2),贝塔字段1254的其余部分(EVEX字节3,位[6:4]-S2-1)解译为矢量长度字段1259B(EVEX字节3,位[6:5]-L1-0)。当U=1并且MOD字段1342包含00、01或10时(标示存储器访问操作),贝塔字段1254(EVEX字节3,位[6:4]-SSS)解译为矢量长度字段1259B(EVEX字节3,位[6:5]-S1-0)和广播字段1257B(EVEX字节3,位[4]-B)。
图14是根据本发明的一个实施例的寄存器架构1400的框图。在所图示的实施例中,存在为512位宽的32个矢量寄存器1410;这些寄存器称为zmm0到zmm31。低16个zmm寄存器的低阶256位叠覆在寄存器ymm0-16上。低16个zmm寄存器的低阶128位(ymm寄存器的低阶128位)叠覆在寄存器xmm0-15上。特定矢量友好指令格式1300在如以下表格中图示的这些叠覆的寄存器文件上进行操作。
换言之,矢量长度字段1259B在最大长度以及一个或多个其它较短长度之间进行选择,其中每一个这样的较短长度是之前长度的一半长度;并且没有矢量长度字段1259B的指令模板在最大矢量长度上操作。另外,在一个实施例中,特定矢量友好指令格式1300的分类B指令模板在封装或标量单精度/双精度浮点数据以及封装或标量整数数据上进行操作。标量操作是在zmm/ymm/xmm寄存器中的最低阶数据元素位置上执行的操作;较高阶数据元素位置与它们在指令之前相同地在左边或者取决于实施例而归零。
写入掩蔽寄存器1415——在所图示的实施例中,存在8个写入掩蔽寄存器(k0到k7),每一个在大小上为64位。在可替换实施例中,写入掩蔽寄存器1415在大小上为16位。如之前所述,在本发明的一个实施例中,矢量掩蔽寄存器k0不能用作写入掩蔽;当正常将指示k0的编码用于写入掩蔽时,其选择硬布线写入掩蔽0xFFFF,从而有效地禁用用于该指令的写入掩蔽。
通用寄存器1425——在所图示的实施例中,存在十六个64位通用寄存器,其连同现有x86寻址模式而用于对存储器操作数进行寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
在其上别名为MMX封装整数平坦寄存器文件1450的标量浮点数栈寄存器文件(x87栈)1445——在所图示的实施例中,x87栈是用于使用x87指令集扩展在32/64/80位浮点数据上执行标量浮点数操作的八元素栈;而MMX寄存器用来在64位封装整数数据上执行操作,以及针对在MMX和XMM寄存器之间执行的一些操作而保持操作数。
本发明的可替换实施例可以使用更宽或更窄的寄存器。附加地,本发明的可替换实施例可以使用更多、更少或不同的寄存器文件和寄存器。
图15A-B图示了更加具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块中的一个(包括相同类型和/或不同类型的其它核)。取决于应用,逻辑块通过具有一些固定功能逻辑、存储器I/O接口和其它必要的I/O逻辑的高带宽互连网络(例如,环形网络)进行通信。
图15A是根据本发明的实施例的单个处理器核连同其向管芯上互连网络1502的连接以及其2级(L2)缓存1504的本地子集的框图。在一个实施例中,指令解码器1500支持具有封装数据指令集扩展的x86指令集。L1缓存1506允许低时延访问以将存储器缓存到标量和矢量单元中。尽管在一个实施例中(为了简化设计),标量单元1508和矢量单元1510使用分离的寄存器集合(分别地,标量寄存器1512和矢量寄存器1514)并且将在它们之间转移的数据写入到存储器且然后从1级(L1)缓存1506回读,但是本发明的可替换实施例可以使用不同的方案(例如,使用单个寄存器集合,或者包括允许在两个寄存器文件之间转移数据而不进行写入和回读的通信路径)。
L2缓存1504的本地子集是划分成分离的本地子集的全局L2缓存的部分,每一处理器核一个分离的本地子集。每一个处理器核具有向其自身的L2缓存1504的本地子集的直接访问路径。由处理器核读取的数据存储在其L2缓存子集1504中并且可以与其它处理器核访问其自身的本地L2缓存子集并行地被快速地访问。由处理器核写入的数据存储在其自身的L2缓存子集1504中并且在必要的情况下从其它子集冲刷掉。环形网络确保用于共享数据的一致性。环形网络是双向的以允许诸如处理器核、L2缓存和其它逻辑块之类的代理在芯片内彼此通信。每一个环形数据路径在每一方向上是1012位宽。
图15B是根据本发明的实施例的图15A中的处理器核的部分的放大视图。图15B包括L1缓存1504的L1数据缓存1506A部分,以及关于矢量单元1510和矢量寄存器1514的更多细节。具体地,矢量单元1510是16宽矢量处理单元(VPU)(参见16宽ALU 1528),其执行整数、单精度浮点数和双精度浮点数指令中的一个或多个。VPU支持利用拌和单元1520对寄存器输入进行拌和,利用众多转换单元1522A-B的数值转换,以及利用复制单元1524在存储器输入上的复制。写入掩蔽寄存器1526允许预测所得矢量写入。
本发明的实施例可以包括已经在上文描述的各种步骤。步骤可以体现在机器可执行指令中,机器可执行指令可以用于使通用或专用处理器来执行步骤。可替换地,这些步骤可以通过包含用于执行步骤的硬布线逻辑的特定硬件组件来执行,或者通过编程的计算机组件和自定义硬件组件的任何组合来执行。
如本文中所述,指令可以是指硬件的具体配置,诸如配置成执行某些操作或者具有存储在非暂时性计算机可读介质中所体现的存储器中的预确定功能性或软件指令的专用集成电路(ASIC)。因而,在附图中示出的技术可以使用在一个或多个电子设备(例如,终端站、网络元件等)上存储和执行的代码和数据来实现。这样的电子设备使用计算机机器可读介质存储和传达(内部地和/或通过网络与其它电子设备)代码和数据,所述计算机机器可读介质诸如非暂时性计算机机器可读存储介质(例如,磁盘;光学盘;随机存取存储器;只读存储器;闪速存储器设备;相变存储器)以及暂时性计算机机器可读通信介质(例如,电气、光学、声学或其它形式的传播信号——诸如载波、红外信号、数字信号等)。此外,这样的电子设备典型地包括耦合到一个或多个其它组件的一个或多个处理器的集合,所述一个或多个其它组件诸如一个或多个存储设备(非暂时性机器可读存储介质)、用户输入/输出设备(例如,键盘、触摸屏和/或显示器)以及网络连接。处理器的集合与其它组件的耦合典型地是通过一个或多个总线和桥(还称为总线控制器)。承载网络业务量的存储设备和信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因而,给定电子设备的存储设备典型地存储代码和/或数据以供在该电子设备的一个或多个处理器的集合上执行。当然,本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。遍及该详细描述,出于解释的目的,阐述了众多具体细节以便提供本发明的透彻理解。然而,本领域技术人员将清楚的是,本发明可以在没有这些具体细节中的一些的情况下实践。在某些实例中,没有以详尽的细节描述公知的结构和功能以便避免使本发明的主题模糊。相应地,本发明的精神和范围应当按照所附的权利要求来判定。
本发明的实施例包括一种处理器,包括:获取逻辑,从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数的指令;以及执行逻辑,从即时操作数的第一指定集合的位确定第一集合的一个或多个数据元素的值,其中从即时操作数的第一指定集合的位确定的第一集合的一个或多个数据元素的定位是基于第一集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第一集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位。
附加实施例包括,其中执行逻辑进一步确定至少一个数据元素的值为1;从即时操作数的第二指定集合的位确定第二集合的一个或多个数据元素(位)的值,其中从即时操作数的第二指定集合的位确定的第二集合的一个或多个数据元素的定位是基于第二集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第二集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第二源封装数据操作数的对应定位处的数据元素的最低有效位;以及将第二集合的数据元素的对应一个存储在由目的地封装数据操作数指示的存储位置的第二集合的一个或多个定位处。
附加实施例包括,其中第一集合的定位是在目的地封装数据操作数和第一源封装数据操作数的64个封装数据元素的集合内的定位,并且第二集合的定位是在目的地封装数据操作数和第二源封装数据操作数的64个封装数据元素的集合内的定位,并且其中目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数包括64个封装数据元素的一个或多个集合。
附加实施例包括,其中指令还包括写入掩蔽操作数,并且其中执行逻辑还包括响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,预留存储在由目的地封装数据操作数指示的存储位置中的值。
附加实施例包括,其中指令还包括写入掩蔽操作数,并且其中执行逻辑响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定没有针对指令设定合并掩蔽标志,而进一步针对由64个封装数据元素的集合中的一个数据元素指示的定位,将值0存储在由目的地封装数据操作数指示的存储位置中。
附加实施例包括,其中由目的地封装数据操作数指示的存储位置是寄存器和存储器位置之一。
附加实施例包括,其中由第一源封装数据操作数指示的存储位置是寄存器和存储器位置之一。
附加实施例包括,其中由目的地封装数据操作数指示的存储位置具有512个封装数据元素的长度。
本发明的实施例包括,其中执行逻辑进一步确定所有第一集合的数据元素的值为0;以及将值0存储在由目的地封装数据操作数指示的存储位置的第一集合的一个或多个定位处。
附加实施例包括,其中即时操作数的第一指定集合的位和第二指定集合的位中的每一个表示二进制函数的输出。
附加实施例包括,其中即时操作数具有8个位的长度,并且其中即时操作数的第一指定集合的位是即时操作数的4个最低有效位,并且其中即时操作数的第二指定集合的位是即时操作数的4个最高有效位。
本发明的实施例包括一种在计算机处理器中的方法,包括从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数的指令;以及从即时操作数的第一指定集合的位确定第一集合的一个或多个数据元素的值,其中从即时操作数的第一指定集合的位确定的第一集合的一个或多个数据元素的定位是基于第一集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第一集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位。
附加实施例包括,其中方法还包括确定至少一个数据元素的值为1;从即时操作数的第二指定集合的位确定第二集合的一个或多个数据元素(位)的值,其中从即时操作数的第二指定集合的位确定的第二集合的一个或多个数据元素的定位是基于第二集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第二集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位;以及将第二集合的数据元素中的对应一个存储在由目的地封装数据操作数指示的存储位置的第二集合的一个或多个定位处。
附加实施例包括,其中第一集合的定位是在目的地封装数据操作数和第一源封装数据操作数的64个封装数据元素的集合内的定位,并且第二集合的定位是在目的地封装数据操作数和第二源封装数据操作数的64个封装数据元素的集合内的定位,并且其中目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数包括64个封装数据元素的一个或多个集合。
附加实施例包括,其中指令还包括写入掩蔽操作数,并且其中方法还包括响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,预留存储在由目的地封装数据操作数指示的存储位置中的值。
附加实施例包括,其中指令还包括写入掩蔽操作数,并且其中方法还包括响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定没有针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,将值0存储在由目的地封装数据操作数指示的存储位置中。
附加实施例包括,其中由目的地封装数据操作数指示的存储位置是寄存器和存储器位置之一。
附加实施例包括,其中由第一源封装数据操作数指示的存储位置是寄存器和存储器位置之一。
附加实施例包括,其中由目的地封装数据操作数指示的存储位置具有512个封装数据元素的长度。
本发明的实施例包括,其中方法还包括确定所有第一集合的数据元素的值为0;以及将值0存储在由目的地封装数据操作数指示的存储位置的第一集合的一个或多个定位处。
附加实施例包括,其中即时操作数的第一指定集合的位和第二指定集合的位中的每一个表示二进制函数的输出。
附加实施例包括,其中即时操作数具有8个位的长度,并且其中即时操作数的第一指定集合的位是即时操作数的4个最低有效位,并且其中即时操作数的第二指定集合的位是即时操作数的4个最高有效位。
尽管已经按照若干实施例描述了本发明,但是本领域技术人员将认识到,本发明不限于所描述的实施例,而是可以在随附权利要求的精神和范围内以修改和更改来实践。因而描述要视为说明性的而非限制性的。

Claims (22)

1.一种处理器,包括:
获取逻辑,从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数的指令;以及
执行逻辑,从即时操作数的第一指定集合的位确定第一集合的一个或多个数据元素的值,其中从即时操作数的第一指定集合的位确定的第一集合的一个或多个数据元素的定位是基于第一集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第一集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位。
2.权利要求1所述的处理器,其中执行逻辑进一步:
确定至少一个数据元素的值为1;
从即时操作数的第二指定集合的位确定第二集合的一个或多个数据元素(位)的值,其中从即时操作数的第二指定集合的位确定的第二集合的一个或多个数据元素的定位是基于第二集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第二集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第二源封装数据操作数的对应定位处的数据元素的最低有效位;以及
将第二集合的数据元素的对应一个存储在由目的地封装数据操作数指示的存储位置的第二集合的一个或多个定位处。
3.权利要求2所述的处理器,其中第一集合的定位是在目的地封装数据操作数和第一源封装数据操作数的64个封装数据元素的集合内的定位,并且第二集合的定位是在目的地封装数据操作数和第二源封装数据操作数的64个封装数据元素的集合内的定位,并且其中目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数包括64个封装数据元素的一个或多个集合。
4.权利要求3所述的处理器,其中指令还包括写入掩蔽操作数,并且其中执行逻辑还包括:
响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,预留存储在由目的地封装数据操作数指示的存储位置中的值。
5.权利要求3所述的处理器,其中指令还包括写入掩蔽操作数,并且其中执行逻辑响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定没有针对指令设定合并掩蔽标志,而进一步针对由64个封装数据元素的集合中的一个数据元素指示的定位,将值0存储在由目的地封装数据操作数指示的存储位置中。
6.权利要求3所述的处理器,其中由目的地封装数据操作数指示的存储位置是寄存器和存储器位置之一。
7.权利要求3所述的处理器,其中由第一源封装数据操作数指示的存储位置是寄存器和存储器位置之一。
8.权利要求3所述的处理器,其中由目的地封装数据操作数指示的存储位置具有512个封装数据元素的长度。
9.权利要求1所述的处理器,其中执行逻辑进一步:
确定所有第一集合的数据元素的值为0;以及
将值0存储在由目的地封装数据操作数指示的存储位置的第一集合的一个或多个定位处。
10.权利要求1所述的处理器,其中即时操作数的第一指定集合的位和第二指定集合的位中的每一个表示二进制函数的输出。
11.权利要求1所述的处理器,其中即时操作数具有8个位的长度,并且其中即时操作数的第一指定集合的位是即时操作数的4个最低有效位,并且其中即时操作数的第二指定集合的位是即时操作数的4个最高有效位。
12.一种在计算机处理器中的方法,包括:
从存储器获取指示目的地封装数据操作数、第一源封装数据操作数、第二源封装数据操作数和即时操作数的指令;以及
从即时操作数的第一指定集合的位确定第一集合的一个或多个数据元素的值,其中从即时操作数的第一指定集合的位确定的第一集合的一个或多个数据元素的定位是基于第一集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第一集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位。
13.权利要求12所述的方法,还包括:
确定至少一个数据元素的值为1;
从即时操作数的第二指定集合的位确定第二集合的一个或多个数据元素(位)的值,其中从即时操作数的第二指定集合的位确定的第二集合的一个或多个数据元素的定位是基于第二集合的一个或多个索引值,所述一个或多个索引值具有对应于目的地封装数据操作数的第二集合的一个或多个定位处的封装数据元素的最高有效位,以及具有对应于第一源封装数据操作数的对应定位处的数据元素的最低有效位;以及
将第二集合的数据元素中的对应一个存储在由目的地封装数据操作数指示的存储位置的第二集合的一个或多个定位处。
14.权利要求13所述的方法,其中第一集合的定位是在目的地封装数据操作数和第一源封装数据操作数的64个封装数据元素的集合内的定位,并且第二集合的定位是在目的地封装数据操作数和第二源封装数据操作数的64个封装数据元素的集合内的定位,并且其中目的地封装数据操作数、第一源封装数据操作数和第二源封装数据操作数包括64个封装数据元素的一个或多个集合。
15.权利要求14所述的方法,其中指令还包括写入掩蔽操作数,并且其中所述方法还包括:
响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,预留存储在由目的地封装数据操作数指示的存储位置中的值。
16.权利要求14所述的方法,其中指令还包括写入掩蔽操作数,并且其中所述方法还包括:
响应于确定写入掩蔽操作数指示针对目的地封装数据操作数中的64个封装数据元素的集合中的一个数据元素设定写入掩蔽,并且响应于确定没有针对指令设定合并掩蔽标志,而针对由64个封装数据元素的集合中的一个数据元素指示的定位,将值0存储在由目的地封装数据操作数指示的存储位置中。
17.权利要求14所述的方法,其中由目的地封装数据操作数指示的存储位置是寄存器和存储器位置之一。
18.权利要求14所述的方法,其中由第一源封装数据操作数指示的存储位置是寄存器和存储器位置之一。
19.权利要求14所述的方法,其中由目的地封装数据操作数指示的存储位置具有512个封装数据元素的长度。
20.权利要求12所述的方法,还包括:
确定所有第一集合的数据元素的值为0;以及
将值0存储在由目的地封装数据操作数指示的存储位置的第一集合的一个或多个定位处。
21.权利要求12所述的方法,其中即时操作数的第一指定集合的位和第二指定集合的位中的每一个表示二进制函数的输出。
22.权利要求12所述的方法,其中即时操作数具有8个位的长度,并且其中即时操作数的第一指定集合的位是即时操作数的4个最低有效位,并且其中即时操作数的第二指定集合的位是即时操作数的4个最高有效位。
CN201580063798.7A 2014-12-23 2015-11-23 用于矢量水平逻辑指令的装置和方法 Pending CN107003842A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/582,170 US20160283242A1 (en) 2014-12-23 2014-12-23 Apparatus and method for vector horizontal logical instruction
US14/582170 2014-12-23
PCT/US2015/062095 WO2016105766A1 (en) 2014-12-23 2015-11-23 Apparatus and method for vector horizontal logical instruction

Publications (1)

Publication Number Publication Date
CN107003842A true CN107003842A (zh) 2017-08-01

Family

ID=56151332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063798.7A Pending CN107003842A (zh) 2014-12-23 2015-11-23 用于矢量水平逻辑指令的装置和方法

Country Status (7)

Country Link
US (2) US20160283242A1 (zh)
EP (1) EP3238045A4 (zh)
JP (1) JP2018503890A (zh)
KR (1) KR20170097613A (zh)
CN (1) CN107003842A (zh)
TW (1) TWI610231B (zh)
WO (1) WO2016105766A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5487159A (en) * 1993-12-23 1996-01-23 Unisys Corporation System for processing shift, mask, and merge operations in one instruction
US20120079244A1 (en) * 2010-09-24 2012-03-29 Forsyth Andrew T Method and apparatus for universal logical operations
US20140095845A1 (en) * 2012-09-28 2014-04-03 Vinodh Gopal Apparatus and method for efficiently executing boolean functions
CN103988173A (zh) * 2011-11-25 2014-08-13 英特尔公司 用于提供掩码寄存器与通用寄存器或存储器之间的转换的指令和逻辑
CN104094218A (zh) * 2011-12-23 2014-10-08 英特尔公司 用于执行写掩码寄存器到向量寄存器中的一系列索引值的转换的系统、装置和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899855B2 (en) * 2003-09-08 2011-03-01 Intel Corporation Method, apparatus and instructions for parallel data conversions
TWI354241B (en) * 2006-02-06 2011-12-11 Via Tech Inc Methods and apparatus for graphics processing
US9798541B2 (en) * 2011-12-23 2017-10-24 Intel Corporation Apparatus and method for propagating conditionally evaluated values in SIMD/vector execution using an input mask register
CN103999037B (zh) * 2011-12-23 2020-03-06 英特尔公司 用于响应于单个指令来执行横向相加或相减的系统、装置和方法
US9459865B2 (en) * 2011-12-23 2016-10-04 Intel Corporation Systems, apparatuses, and methods for performing a butterfly horizontal and cross add or substract in response to a single instruction
US9471310B2 (en) * 2012-11-26 2016-10-18 Nvidia Corporation Method, computer program product, and system for a multi-input bitwise logical operation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5487159A (en) * 1993-12-23 1996-01-23 Unisys Corporation System for processing shift, mask, and merge operations in one instruction
US20120079244A1 (en) * 2010-09-24 2012-03-29 Forsyth Andrew T Method and apparatus for universal logical operations
CN103109261A (zh) * 2010-09-24 2013-05-15 英特尔公司 用于通用逻辑操作的方法和设备
CN103988173A (zh) * 2011-11-25 2014-08-13 英特尔公司 用于提供掩码寄存器与通用寄存器或存储器之间的转换的指令和逻辑
CN104094218A (zh) * 2011-12-23 2014-10-08 英特尔公司 用于执行写掩码寄存器到向量寄存器中的一系列索引值的转换的系统、装置和方法
US20140095845A1 (en) * 2012-09-28 2014-04-03 Vinodh Gopal Apparatus and method for efficiently executing boolean functions

Also Published As

Publication number Publication date
TW201643702A (zh) 2016-12-16
US20190138303A1 (en) 2019-05-09
EP3238045A4 (en) 2018-08-22
KR20170097613A (ko) 2017-08-28
JP2018503890A (ja) 2018-02-08
TWI610231B (zh) 2018-01-01
EP3238045A1 (en) 2017-11-01
WO2016105766A1 (en) 2016-06-30
US20160283242A1 (en) 2016-09-29

Similar Documents

Publication Publication Date Title
CN107003844A (zh) 用于矢量广播和xorand逻辑指令的装置和方法
CN104025040B (zh) 用于混洗浮点或整数值的装置和方法
CN104641346B (zh) 用于在128位数据路径上的sha1轮处理的指令集
CN106802788B (zh) 用于处理sha-2安全散列算法的方法和设备
CN105247472B (zh) 用于对统一码字符的可变长度代码点转码的处理器、方法、系统和指令
CN104011652B (zh) 打包选择处理器、方法、系统和指令
CN104011649B (zh) 用于在simd/向量执行中传播有条件估算值的装置和方法
CN104011673B (zh) 向量频率压缩指令
CN104011647B (zh) 浮点舍入处理器、方法、系统和指令
CN104040482B (zh) 用于在打包数据元素上执行增量解码的系统、装置和方法
CN109791488A (zh) 用于执行用于复数的融合乘-加指令的系统和方法
CN104137059B (zh) 多寄存器分散指令
CN107003843A (zh) 用于对向量元素集合执行约减操作的方法和设备
CN104169867B (zh) 用于执行掩码寄存器至向量寄存器的转换的系统、装置和方法
CN107250993A (zh) 向量缓存行写回处理器、方法、系统和指令
CN104011663B (zh) 掩码寄存器上的广播操作
CN106030510A (zh) 三源操作数浮点加法处理器、方法、系统和指令
CN106575216A (zh) 数据元素选择和合并处理器、方法、系统和指令
CN104126172B (zh) 用于掩码寄存器扩充操作的装置和方法
CN104081337B (zh) 用于响应于单个指令来执行横向部分求和的系统、装置和方法
CN104011671B (zh) 用于执行置换操作的设备和方法
CN106575217A (zh) 位置乱处理器、方法、系统和指令
CN104583940B (zh) 用于skein256 sha3算法的处理器、方法、数据处理系统和设备
CN104350461B (zh) 具有不同的读和写掩码的多元素指令
CN107003846A (zh) 用于向量索引加载和存储的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170801