CN103109261A - 用于通用逻辑操作的方法和设备 - Google Patents

用于通用逻辑操作的方法和设备 Download PDF

Info

Publication number
CN103109261A
CN103109261A CN2011800461002A CN201180046100A CN103109261A CN 103109261 A CN103109261 A CN 103109261A CN 2011800461002 A CN2011800461002 A CN 2011800461002A CN 201180046100 A CN201180046100 A CN 201180046100A CN 103109261 A CN103109261 A CN 103109261A
Authority
CN
China
Prior art keywords
value
read
source
immediate value
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800461002A
Other languages
English (en)
Other versions
CN103109261B (zh
Inventor
A.T.富尔塞思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN103109261A publication Critical patent/CN103109261A/zh
Application granted granted Critical
Publication of CN103109261B publication Critical patent/CN103109261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • G06F9/30167Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30029Logical and Boolean instructions, e.g. XOR, NOT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)

Abstract

描述一种用于执行由表规定的任意逻辑操作的设备和方法。例如,用于在计算机处理器上执行逻辑操作的方法的一个实施例包括:从两个或更多个源运算数中的各个中读取数据;组合从源运算数中读取的数据,以产生索引值,该索引值标识与指令一起传输的立即值内的位子集;从立即值中读取位;以及将从立即值中读取的位存储在目的寄存器内,以产生指令的结果。

Description

用于通用逻辑操作的方法和设备
技术领域
本发明大体涉及计算机处理器的领域。更具体而言,本发明涉及用于在计算机处理器上支持通用逻辑操作的设备和方法。
背景技术
计算机处理器运行用以执行数学运算和逻辑操作的指令。数学运算包括例如浮点和整数加法、减法、乘法和除法,具有级别不同的精度。逻辑操作包括函数,诸如AND、OR、NAND、NOR、XOR、左移位/右移位、交换、选择和投票,仅举几例。
在某些情况下(特别是当涉及三个或更多个运算数时),较简单的逻辑操作可能需要运行大量指令。以示例的方式,诸如dest = (src1 AND dest) OR (src2 AND (NOT dest))的逻辑需要规定,如果设置了目的寄存器(dest)中的特定的位,则应当选择源寄存器1(src1),否则应当选择源寄存器2(src 2)。使用传统技术运行这个运算需要运行多个不同的指令(两个AND运算,一个OR运算和一个NOT运算)。必须使用传统技术用多序列指令来实现多种其它较简单的函数。
因此,用于运行逻辑操作的、需要运行较少指令的新技术将是有益的。
附图说明
根据结合附图的以下详细描述,能获得本发明的较好理解,其中:
图1示出从三个源运算数中产生立即值的索引的本发明的一个实施例;
图2示出用于对立即值编索引以执行逻辑操作的方法的一个实施例;
图3示出用于对立即值编索引以执行逻辑操作的方法的另一个实施例;
图4示出在本发明的一个实施例中采用的处理器架构;
图5示出在本发明的一个实施例中采用的系统架构;
图6示出根据本发明的一个实施例的多个处理元件。
具体实施方式
为了说明,阐述了许多具体细节,以便提供下面描述的本发明的实施例的详尽理解。但对本领域普通技术人员显而易见的将是,可在没有这些具体细节中的一些的情况下实践本发明的实施例。在其它情况下,以框图的形式示出众所周知的结构和装置,以便不使本发明的实施例的根本原理模糊不清。
“立即值”是与指令相关联的二进制值(例如,明确包括为指令的一部分,或者与指令组合)。与x86指令集相关联的一个众所周知的立即值是8位立即标记的imm8。在编译时间对指令产生指令的立即值。虽然下面描述的本发明的实施例使用imm8或imm16立即值,但本发明的根本原理不限于任何特定类型的立即值。实际上,可通过使用与指令相关联的任何类型的二进制代码来实现本发明的根本原理。
在本发明的一个实施例中,不同的立即值用来标识不同的逻辑操作(例如,AND、NAND、XOR、取反、选择、投票等)。在这个实施例中,来自指令的源运算数的某些位组合起来形成索引值,该索引值标识指令的立即值内的位位置(bit position)。从标识的位位置中读取的位然后组合在目的寄存器中,以得出逻辑操作的结果。换句话说,使用立即值作为查找表,以得出各个逻辑操作的结果。
图1示出一个特定示例,其中,从存储在源寄存器1(src1)102、源寄存器2(src 2)101和目的寄存器(dest)100中的三个运算数中读取位,以形成标识立即值110内的位位置的索引105。在标识的位位置处的二进制值然后被拷贝到目的寄存器100中。虽然这个特定寄存器布置用于说明目的,但本发明的根本原理不限于任何特定的寄存器集。例如,不是使用“目的”寄存器来存储源运算数,而是可使用第三专用源寄存器(例如“源寄存器3”)。
在图1中示出的具体示例中,最初从目的寄存器100和源寄存器101和102的第一位位置中读取位,以如示出的那样形成索引010(如由实心箭头指示的那样)。在一个实施例中,索引由三个源值的逐位连接形成。索引010标识立即值110的位位置2(即,二进制值010等于2)。然后从立即值中读取来自位位置2的位(示出示例中的二进制1),并且如示出的那样将该位存储在目的寄存器中(在第一位位置处)。对各个源运算数的位中的各个实现相同的过程,直到所有位都已经被读取,以及索引位值已经从立即值拷贝到目的寄存器为止。例如,如图1中示出的那样,使用来自目的和源寄存器的第二位位置的位来产生110的索引值,并且这个索引值被用来索引位位置6处的立即值(即,二进制值110等于6)。然后从立即值中读取来自位位置6的位(二进制0),并且将该位存储在目的寄存器的第二位位置中。
在图2中示出根据本发明的一个实施例的方法。在201处,从运算数寄存器(例如dest、src1、src2)的规定的位位置处读取值。可同时从多个索引值中并行地读取多组值。在202处,值组合起来形成立即值的索引,而在203处,索引用来标识立即值内的位位置(一个或多个)。如上面提到的那样,在一个实施例中,来自源运算数中的对应的位位置的位连接,以形成立即值的索引。在204处,读取由索引值标识的位位置(一个或多个)处的值(一个或多个),而在205处,来自索引位位置的值被拷贝到目的寄存器。
通过使用前述技术,可规定不同的立即值,以实现不同的逻辑操作。以示例而非限制的方式,可通过使用以下立即值来执行以下类型的运算:
1. 将结果全部设置成1。立即值=11111111。在这个示例中,从立即值中读取的任何位将在目的寄存器中产生二进制1。
2. 在拷贝时取反。立即值=01010101。当前NOT指令(例如,在当前x86指令集中实现的那些),在适当位置取反,从而破坏原始数据。相反,上面描述的使用以上立即值的技术拷贝到不同的寄存器。这个指令可采取以下形式,dest = NOT src1。
3. 仿效现有的逻辑操作。立即值=10001000。这个立即值对在源寄存器1和源寄存器2中的值产生AND运算,即,dest = src1 AND src2。注意,因为位0-3和位7-4是相同的,所以目的寄存器中的值(dest)不会影响结果。因此,在一个实施例中,不读取目的寄存器,以降低功率消耗。
下表(表A)示出imm8值,其等于现有的x86逻辑操作:
Figure DEST_PATH_IMAGE002
4. 组合两个现有的逻辑操作。立即值=01111000。这个立即值产生源寄存器1和源寄存器2的AND,其结果与目的寄存器中的值进行XOR。指令可采取以下形式,。如前面描述的那样,使用传统技术来实现这个运算的唯一方法是运行多个不同的指令,从而消耗大量时间和处理资源。相反,使用上面规定的立即值可在与本文描述的其它运算相同量的时间里提供结果。
5. 选择。立即值=10101100。这个运算的目的在于,如果设置了目的中的对应的位,则选择源寄存器1,否则选择源寄存器2。传统上,这将需要逻辑,诸如:dest = (src1 AND dest) OR (src2 AND (NOT dest)),这需要大量指令。相反,使用上面规定的立即值将如本文规定的其它立即值运算那样高效地提供结果。
6. 投票。立即值=11101000。通过使用这个运算,从三个输入中选择最普遍的值。例如,如果目的寄存器中的位为0,源寄存器1中的位为1,而且源寄存器2中的位为0,则0是最普遍的输出。因此,选择0,并且将其存储在目的寄存器中。
应当注意的是,提供前述运算仅是为了说明。本发明的根本原理不限于任何特定的运算组。根据本发明根本原理,可使用不同的立即值来实现数量实际上不受限制的逻辑操作(虽然在8位立即值的情况下,仅256逻辑操作是可行的)。
以下伪代码表示当在具有64位运算数且使用立即值imm8的处理器管道中实现时的本发明的一个实施例:
Figure DEST_PATH_IMAGE006
在这个实现中,通过连接来自在位位置i(介于0和63之间)处的目的寄存器(dest)、源寄存器1(src1)和源寄存器2(src2)的各个位值来计算索引值。<<2和<<1运算的作用是使位分别左移两位和一位,从而对准位,以恰当地形成索引。例如,如果来自各个运算数的位值为1,则dest[i]<<2的结果为100,src2[i]<<1的结果为010,而src1[i]的结果为001。然后对结果执行逐位OR运算(如由|算子指示的那样)。最终结果是标识imm8内的特定的位的索引值。注意,for()循环的外部仅是为了说明伪代码;在一个实施例中,在硬件的单独的拷贝中并行地执行所有64次运算。
以下伪代码表示当利用512位寄存器在处理器管道中实现时的本发明的另一个实施例,各个寄存器存储16个32位打包的数据元素,以及imm8的立即值:
Figure DEST_PATH_IMAGE008
在这个实施例中,使用屏蔽寄存器(mask register),其存储与16个32位打包数据元素中的各个相关联的位。
Figure DEST_PATH_IMAGE010
测试指示如果与数据元素相关联的屏蔽位等于零,则存储在目的寄存器(dest)中的那个数据元素的当前值保持不变。但是,如果屏蔽位为非零,则执行下一个FOR循环,从而产生针对那个数据元素而计算的索引值(如上面描述的那样)。再次,for()循环是说明性的;在一个实施例中,并行地执行所有512次运算。
虽然上面描述的本发明的实施例根据三个源运算数来工作,但可使用任何数量的运算数来实现本发明的根本原理。例如,以下伪代码示出可如何使用四个运算数(三个源和目的)来将索引值产生为16位立即值(imm16):
Figure DEST_PATH_IMAGE012
备选地,源中的一个可来自屏蔽寄存器:
Figure DEST_PATH_IMAGE014
如以上代码中指示的那样,在这个实施例中,第四运算数可存储在屏蔽寄存器中。通过在来自屏蔽寄存器(左移3)、目的寄存器(左移2)、源寄存器2(左移1)和源寄存器1的对应的位上逐位执行OR来产生索引值。然后使用产生的4位值作为对16位立即值imm16的查找。
示例性处理器架构
图3示出其上可实现本发明的实施例的示例性处理核300。认为一般的处理核300描述许多不同类型的处理核架构,诸如复杂指令集(CISC)、精简指令集(RISC)和超长指令字(VLIW)。图的一般的处理核300包括:1)(例如从高速缓冲存储器和/或存储器)取指令的取指单元303;2)对指令解码的解码单元304;3)调度单元305,其确定对运行单元306发布指令的时机和/或顺序(特别地,调度程序是可选的);4)运行指令的运行单元306(典型的指令运行单元包括分支运行单元、整数算法运行单元(例如ALU)、浮点算法运行单元(例如FPU)和存储器访问运行单元);以及5)表示指令成功完成的引退单元307。特别地,处理核300可采用或不采用微代码308。根据上面描述的本发明的实施例,可利用屏蔽寄存器302。
示例性计算机系统
以下是适于运行本文详细说明的指令(一个或多个)的示例性系统。本领域中已知的其它系统设计和配置也是适合的,例如,在膝上型电脑、台式机、手持PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、开关、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、手机、便携式媒体播放器、手持装置和各种其它电子装置。一般而言,能够结合本文公开的处理器和/或其它运行逻辑的多种多样的系统或电子装置大体是适合的。
现在参照图4,示出了根据本发明的一个实施例的系统400的框图。系统400可包括耦接到图形存储器控制器中心(GMCH)420上的一个或多个处理元件410、415。在图4中用虚线表示额外的处理元件415的可选性质。
各个处理元件可为单核的,或者备选地,可包括多个核。可选地,除了处理核之外,处理元件可包括其它片上元件,诸如集成式存储器控制器和/或集成式I/O控制逻辑。而且,对于至少一个实施例,处理元件的核(一个或多个)可为多线程的,因为它们每个核可包括不止一个硬件线程上下文。
图4示出GMCH 420可耦接到存储器440上,存储器440可为例如动态随机存取存储器(DRAM)。对于至少一个实施例,DRAM可与非易失性高速缓冲存储器相关联。
GMCH 420可为芯片集,或者为芯片集的一部分。GMCH 420可与处理器(一个或多个)410、415通信,并且控制处理器(一个或多个)410、415和存储器440之间的交互。GMCH 420也可用作处理器(一个或多个)410、415和系统400的其它元件之间的加速总线接口。对于至少一个实施例,GMCH 420通过多点(multi-drop)总线(诸如前端总线(FSB)495)来与处理器(一个或多个)410、415通信。
此外,GMCH 420耦接到显示器440(诸如平板显示器)上。GMCH 420可包括集成式图形加速器。GMCH 420进一步耦接到输入/输出(I/O)控制器中心(ICH)450上,控制器中心可用来将各种外围装置耦接到系统400上。例如在图4的实施例中示出的是外部图形装置460,外部图形装置460可为与另一个外围装置470一起耦接到ICH 450上的分立的图形装置。
备选地,在系统400中还可存在额外的或不同的处理元件。例如,额外的处理元件(一个或多个)415可包括与处理器410相同的额外的处理器(一个或多个)、与处理器410不同或不对称的额外的处理器(一个或多个)、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程的门阵列,或者任何其它处理元件。在价值度量(包括结构特性、微结构特性、热特性、功率消耗特性等)的范围方面,在物理资源410、415之间可存在多种差异。这些差异可有效地体现为在处理元件410、415之间的不对称和不相同。对于至少一个实施例,各种处理元件410、415可驻留在相同的片封装中。
现在参照图5,示出的是根据本发明的实施例的第二系统500的框图。如图5中示出的那样,多处理器系统500是点对点互连系统,并且包括通过点对点互连550而耦接的第一处理元件570和第二处理元件580。如图5中示出的那样,处理元件570和580中的各个可为多核处理器,包括第一处理器核和第二处理器核(即,处理器核574a和574b以及处理器核584a和584b)。
备选地,处理元件570、580中的一个或多个可为除了处理器之外的元件,诸如加速器或现场可编程的门阵列。
虽然仅示出两个处理元件570、580,但要理解的是,本发明的范围不受此限制。在其它实施例中,在给定的处理器中可存在一个或多个额外的处理元件。
第一处理元件570可进一步包括存储器控制器中心(MCH)572和点对点(P-P)接口576和578。类似地,第二处理元件580可包括MCH 582和P-P接口586和588。处理器570、580可通过使用PtP接口电路578、588的点对点(PtP)接口550来交换数据。如图5中示出的那样,MCH的572和582将处理器耦接到相应的存储器上,即存储器542和存储器544,它们可为在本地附连到相应的处理器上的主存储器的一部分。
处理器570、580各自可通过使用点对点接口电路576、594、586、598的PtP接口552、554来与芯片集590交换数据。芯片集590还可通过高性能图形接口539来与高性能图形电路538交换数据。本发明的实施例可位于具有任何数量的处理核的任何处理器内,或者位于图5的各个PtP总线代理内。在一个实施例中,任何处理器核均可包括本地高速缓冲存储器(未显示),或者否则与本地高速缓冲存储器相关联。此外,在两个处理器外部的、但通过P2P互连而与处理器连接的任一处理器中可包括共享高速缓冲存储器(未显示),使得在处理器被置于低功率模式中的情况下,任一处理器或两个处理器的本地高速缓冲存储器信息可存储在共享高速缓冲存储器中。
第一处理元件570和第二处理元件580分别可通过P-P互连576、586和584来耦接到芯片集590上。如图5中示出的那样,芯片集590包括P-P接口594和598。此外,芯片集590包括接口592,以使芯片集590与高性能图形引擎548耦接。在一个实施例中,总线549可用来将图形引擎548耦接到芯片集590上。备选地,点对点互连549可耦接这些构件。
进而,芯片集590可通过接口596来耦接到第一总线516上。在一个实施例中,第一总线516可为外围构件互连(PCI)总线或诸如PCI高速总线的总线或另一个第三代I/O互连总线,但本发明的范围不受此限制。
如图5中示出的那样,各种I/O装置514可与总线桥518一起耦接到第一总线516上,总线桥518将第一总线516耦接到第二总线520上。在一个实施例中,第二总线520可为低接脚数(LPC)总线。各种装置可耦接到第二总线520上,包括例如键盘/鼠标522、通信装置526和数据存储单元528,诸如磁盘驱动器或其它大容量存储装置,在一个实施例中,数据存储单元528可包括代码530。另外,音频I/O 524可耦接到第二总线520上。注意,其它架构是可行的。例如,不是图5的点对点架构,系统可改为实现多点总线或其它这种架构。
现在参照图6,示出的是根据本发明的实施例的第三系统600的框图。图5和6中的相同要素带有相同参考标号,而且在图6中省略了图5的某些方面,以便避免使图6的其它方面模糊不清。
图6示出处理元件570、580分别可包括集成式存储器和I/O控制逻辑(“CL”)572和582。对于至少一个实施例,CL 572、582可包括存储器控制器中心逻辑(MCH),诸如关于图4和5所描述的那样。另外,CL 572、582还可包括I/O控制逻辑。图6示出不仅存储器542、544耦接到CL 572、582上,而且I/O装置614也耦接到控制逻辑572、582上。传统I/O装置615耦接到芯片集590上。
可在硬件、软件、固件或这样的实现方法的组合中实现本文公开的机构的实施例。本发明的实施例可实现为在可编程系统上运行的计算机程序或程序代码,可编程系统包括至少一个处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置和至少一个输出装置。
可对输入数据应用程序代码,诸如图5中示出的代码530,以执行本文描述的功能,以及产生输出信息。可用已知的方式对一个或多个输出装置应用输出信息。为了这个应用,处理系统包括具有处理器(诸如例如数字信号处理器(DSP))、微控制器、特定用途集成电路(ASIC)或微处理器的任何系统。
可在高级过程编程语言或面向对象的编程语言中实现程序代码,以与处理系统通信。如果需要,也可在汇编语言或机器语言中实现程序代码。实际上,本文描述的机构在范围上不限任何特定的编程语言。无论如何,语言可为编译语言或解释语言。
至少一个实施例的一方面或多方面可由存储在机器可读介质中的代表性数据实现,代表性数据表示处理器内的各种逻辑,当被机器读取时,代表性数据使机器加工逻辑,以执行本文描述的技术。被称为“IP核”的这样的表示可存储在有形的机器可读介质上,并且供应给各种顾客或制造设施,以加载到实际上制作逻辑或处理器的加工机器中。
这种机器可读存储介质可包括(无限制)由机器或装置制造或形成的物品的非暂时性的有形布置,包括存储介质,诸如磁盘驱动器,任何其它类型的盘(包括软盘、光盘、致密盘只读存储器(CD-ROM)、可复写式致密盘(CD-RW)和磁光盘),半导体装置、诸如只读存储器(ROM)、随机存取存储器(RAM)(诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM),磁卡或光卡,或者任何其它类型的适于存储电子指令的介质。
因此,本发明的实施例还包括非暂时性的有形机器可读介质,其包含用于执行本发明的实施例的操作的指令或者包含设计数据,诸如限定本文描述的结构、电路、设备、处理器和/或系统特征的HDL。这样的实施例也可称为程序产品。
本文公开的指令(一个或多个)的某些操作可由硬件构件执行,并且可包含在机器可执行的指令中,机器可运行的指令用来使或者至少导致编程有指令的电路或其它硬件构件执行操作。电路可包括通用或专用处理器或逻辑电路,仅举几例。操作也可以可选地由硬件和软件的组合执行。运行逻辑和/或处理器可包括响应于机器指令或源自机器指令的一个或多个控制信号的具体的或特定的电路或其它逻辑,以存储指令特定的结果运算数。例如,本文公开的指令(一个或多个)的实施例可在图4、5和6的系统中的一个或多个中运行,并且指令(一个或多个)的实施例可存储在待在系统中运行的程序代码中。另外,这些图的处理元件可利用本文详细说明的详细管道和/或架构(例如,有序的和无序的架构)中的一个。例如,有序架构的解码单元可对指令(一个或多个)解码,将解码指令传送到向量或标量单元等。
在整个前述描述中,为了说明,阐述了许多具体细节,以便提供本发明的详尽理解。但对本领域技术人员显而易见的将是,可在没有这些具体细节中的一些的情况下实现本发明。因此,应当按照所附权利要求来判断本发明的精神和范围。

Claims (27)

1. 一种用于在计算机处理器上执行逻辑操作的方法,包括:
从两个或更多个源运算数中的各个中读取数据;
组合从所述源运算数中读取到的所述数据,以产生索引值,所述索引值标识与指令相关联的立即值内的位子集;
从由所述索引值标识的所述立即值中读取所述位子集;以及
将从所述立即值中读取到的所述位存储在目的寄存器内,以产生所述指令的结果。
2. 根据权利要求1所述的方法,其中,组合从所述源运算数中读取的所述数据以产生索引值包括:
连接从各个源运算数的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述立即值内的位位置的连接位的各个集合。
3. 根据权利要求2所述的方法,进一步包括:
从所述立即值的所述标识的位位置中读取所述位,并且将结果在与从各个源运算数中读取的所述位的所述位位置对应的位位置处存储在所述目的寄存器中。
4. 根据权利要求2所述的方法,其中,所述源运算数存储在N位源寄存器中,并且所述目的寄存器是N位目的寄存器,其中,连接位进一步包括:
从所述源运算数中并行地读取所有N个位,以对所述立即值形成N个索引;以及
使用所述N个索引来标识所述立即值中的N个位位置;以及
将来自所述立即值的所有N个索引的位并行地拷贝到所述目的寄存器,以形成所述逻辑操作的结果。
5. 根据权利要求4所述的方法,其中,N等于64。
6. 根据权利要求1所述的方法,其中,存在三个源运算数,以及其中,所述立即值为八位,所述方法进一步包括:
连接从所述三个源运算数中的各个的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述八位立即值内的位位置的三个连接位的各个集合。
7. 根据权利要求1所述的方法,其中,所述立即值为与所述指令一起传输的8位值。
8. 根据权利要求6所述的方法,其中,所述8位值为imm8值。
9. 根据权利要求1所述的方法,其中,所述立即值为与所述指令一起传输的16位值。
10. 一种用于处理指令的设备,包括:
解码器单元,其用以对指令解码,并且标识待由所述指令执行的逻辑操作;以及
运行单元,其用以通过执行以下操作来运行所述逻辑操作:
从两个或更多个源运算数中的各个中读取数据;
组合从所述源运算数中读取的所述数据,以产生索引值,所述索引值标识与指令相关联的立即值内的位子集;
从由所述索引值标识的所述立即值中读取所述位子集;以及
将从所述立即值中读取的所述位存储在目的寄存器内,以产生所述指令的结果。
11. 根据权利要求10所述的设备,其中,组合从所述源运算数中读取的所述数据以产生索引值包括:
连接从各个源运算数的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述立即值内的位位置的连接位的各个集合。
12. 根据权利要求11所述的设备,其中,所述运行单元执行以下额外的操作:
从所述立即值的所述标识位位置中读取所述位,以及将结果在与从各个源运算数中读取的所述位的所述位位置对应的位位置处存储在所述目的寄存器中。
13. 根据权利要求11所述的设备,其中,所述源运算数存储在N位源寄存器中,并且所述目的寄存器是N位目的寄存器,其中,连接位进一步包括:
从所述源运算数中并行地读取所有N个位,以对所述立即值形成N个索引;以及
使用所述N个索引来标识所述立即值中的N个位位置;以及
将来自所述立即值的所有N个索引的位并行地拷贝到所述目的寄存器,以形成所述逻辑操作的结果。
14. 根据权利要求13所述的设备,其中,N等于64。
15. 根据权利要求10所述的设备,其中,存在三个源运算数,以及其中,所述立即值为八位,所述方法进一步包括:
连接从所述三个源运算数中的各个的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述八位立即值内的位位置的三个连接位的各个集合。
16. 根据权利要求10所述的设备,其中,所述立即值为与所述指令一起传输的8位值。
17. 根据权利要求16所述的设备,其中,所述8位值为imm8值。
18. 根据权利要求10所述的设备,其中,所述立即值为与所述指令一起传输的16位值。
19. 一种计算机系统,包括:
显示装置;
用于存储指令的存储器;
用于处理所述指令的处理器,其包括:
解码器单元,其用以对指令解码,并且标识待由所述指令执行的逻辑操作;以及
运行单元,其用以通过执行以下操作来运行所述逻辑操作:
从两个或更多个源运算数中的各个中读取数据;
组合从所述源运算数中读取的所述数据,以产生索引值,所述索引值标识与指令相关联的立即值内的位子集;
从由所述索引值标识的所述立即值中读取所述位子集;以及
将从所述立即值中读取的所述位存储在目的寄存器内,以产生所述指令的结果。
20. 根据权利要求19所述的系统,其中,组合从所述源运算数中读取的所述数据以产生索引值包括:
连接从各个源运算数的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述立即值内的位位置的连接位的各个集合。
21. 根据权利要求20所述的系统,其中所述执行单元执行以下额外的操作:
从所述立即值的所述标识位位置中读取所述位,以及将结果在与从各个源运算数中读取的所述位的所述位位置对应的位位置处存储在所述目的寄存器中。
22. 根据所权利要求20述的系统,其中,所述源运算数存储在N位源寄存器中,并且所述目的寄存器是N位目的寄存器,其中,连接位进一步包括:
从所述源运算数中并行地读取所有N个位,以对所述立即值形成N个索引;以及
使用所述N个索引来标识所述立即值中的N个位位置;以及
将来自所述立即值的所有N个索引的位并行地拷贝到所述目的寄存器中,以形成所述逻辑操作的结果。
23. 根据权利要求22所述的系统,其中,N等于64。
24. 根据权利要求19所述的系统,其中,存在三个源运算数,以及其中,所述立即值为八位,所述方法进一步包括:
连接从所述三个源运算数中的各个的对应的位位置中读取的位,以产生所述索引值,所述索引值包括来自对应的位位置的、标识所述八位立即值内的位位置的三个连接位的各个集合。
25. 根据权利要求19所述的系统,其中,所述立即值是与所述指令一起传输的8位值。
26. 根据权利要求25所述的系统,其中,所述8位值为imm8值。
27. 根据权利要求19所述的系统,其中,所述立即值是与所述指令一起传输的16位值。
CN201180046100.2A 2010-09-24 2011-09-23 用于通用逻辑操作的方法和设备 Active CN103109261B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/890,571 US8539206B2 (en) 2010-09-24 2010-09-24 Method and apparatus for universal logical operations utilizing value indexing
US12/890571 2010-09-24
US12/890,571 2010-09-24
PCT/US2011/052913 WO2012040552A2 (en) 2010-09-24 2011-09-23 Method and apparatus for universal logical operations

Publications (2)

Publication Number Publication Date
CN103109261A true CN103109261A (zh) 2013-05-15
CN103109261B CN103109261B (zh) 2016-03-09

Family

ID=45871870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180046100.2A Active CN103109261B (zh) 2010-09-24 2011-09-23 用于通用逻辑操作的方法和设备

Country Status (9)

Country Link
US (1) US8539206B2 (zh)
JP (1) JP5607832B2 (zh)
KR (1) KR101524450B1 (zh)
CN (1) CN103109261B (zh)
BR (1) BR112013006661A2 (zh)
DE (1) DE112011103197T5 (zh)
GB (1) GB2499532B (zh)
TW (2) TWI435266B (zh)
WO (1) WO2012040552A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003842A (zh) * 2014-12-23 2017-08-01 英特尔公司 用于矢量水平逻辑指令的装置和方法
CN111902828A (zh) * 2018-04-20 2020-11-06 谷歌有限责任公司 执行么正迭代和索引运算

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124341A1 (en) * 2010-11-17 2012-05-17 Goodrich Allen B Methods and Apparatus for Performing Multiple Operand Logical Operations in a Single Instruction
US20140095845A1 (en) * 2012-09-28 2014-04-03 Vinodh Gopal Apparatus and method for efficiently executing boolean functions
US9128698B2 (en) * 2012-09-28 2015-09-08 Intel Corporation Systems, apparatuses, and methods for performing rotate and XOR in response to a single instruction
US9471310B2 (en) * 2012-11-26 2016-10-18 Nvidia Corporation Method, computer program product, and system for a multi-input bitwise logical operation
GB2523823B (en) * 2014-03-07 2021-06-16 Advanced Risc Mach Ltd Data processing apparatus and method for processing vector operands
US20160179521A1 (en) * 2014-12-23 2016-06-23 Intel Corporation Method and apparatus for expanding a mask to a vector of mask values
US10296334B2 (en) * 2014-12-27 2019-05-21 Intel Corporation Method and apparatus for performing a vector bit gather
US10296489B2 (en) * 2014-12-27 2019-05-21 Intel Corporation Method and apparatus for performing a vector bit shuffle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500947A (en) * 1988-06-27 1996-03-19 Digital Equipment Corporation Operand specifier processing by grouping similar specifier types together and providing a general routine for each
CN101178644A (zh) * 2006-11-10 2008-05-14 上海海尔集成电路有限公司 一种基于复杂指令集计算机结构的微处理器架构

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4237532A (en) * 1977-09-02 1980-12-02 Sperry Corporation Table driven decision and control logic for digital computers
US5493687A (en) * 1991-07-08 1996-02-20 Seiko Epson Corporation RISC microprocessor architecture implementing multiple typed register sets
US5881307A (en) 1997-02-24 1999-03-09 Samsung Electronics Co., Ltd. Deferred store data read with simple anti-dependency pipeline inter-lock control in superscalar processor
JPH1185507A (ja) * 1997-09-05 1999-03-30 Mitsubishi Electric Corp 中央処理装置およびマイクロコンピュータシステム
TW498275B (en) * 1999-05-24 2002-08-11 Toshiba Corp Processor unit
US6779156B2 (en) * 2001-06-15 2004-08-17 Science & Technology Corporation @ Unm Digital circuits using universal logic gates
US6721866B2 (en) 2001-12-21 2004-04-13 Intel Corporation Unaligned memory operands
US7014122B2 (en) * 2003-12-24 2006-03-21 International Business Machines Corporation Method and apparatus for performing bit-aligned permute
US7464255B1 (en) 2005-07-28 2008-12-09 Advanced Micro Devices, Inc. Using a shuffle unit to implement shift operations in a processor
WO2008002177A1 (en) * 2006-06-30 2008-01-03 Intel Corporation Generating optimal instruction sequences for bitwise logical expressions
US20080021942A1 (en) * 2006-07-20 2008-01-24 On Demand Microelectronics Arrangements for evaluating boolean functions
US20080100628A1 (en) * 2006-10-31 2008-05-01 International Business Machines Corporation Single Precision Vector Permute Immediate with "Word" Vector Write Mask
US7941641B1 (en) 2007-10-01 2011-05-10 Yong-Kyu Jung Retargetable instruction decoder for a computer processor

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500947A (en) * 1988-06-27 1996-03-19 Digital Equipment Corporation Operand specifier processing by grouping similar specifier types together and providing a general routine for each
CN101178644A (zh) * 2006-11-10 2008-05-14 上海海尔集成电路有限公司 一种基于复杂指令集计算机结构的微处理器架构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEITH DIEFENDORFF等: "AltiVec Extension to PowerPC Accelerates Media Processing", 《IEEE MICRO》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003842A (zh) * 2014-12-23 2017-08-01 英特尔公司 用于矢量水平逻辑指令的装置和方法
CN111902828A (zh) * 2018-04-20 2020-11-06 谷歌有限责任公司 执行么正迭代和索引运算

Also Published As

Publication number Publication date
US20120079244A1 (en) 2012-03-29
GB2499532A (en) 2013-08-21
TWI512618B (zh) 2015-12-11
KR101524450B1 (ko) 2015-06-02
TW201232392A (en) 2012-08-01
WO2012040552A3 (en) 2012-05-18
TW201432564A (zh) 2014-08-16
KR20130064797A (ko) 2013-06-18
GB2499532B (en) 2020-04-01
CN103109261B (zh) 2016-03-09
WO2012040552A2 (en) 2012-03-29
JP5607832B2 (ja) 2014-10-15
DE112011103197T5 (de) 2013-07-04
BR112013006661A2 (pt) 2016-06-07
JP2013543175A (ja) 2013-11-28
GB201306690D0 (en) 2013-05-29
TWI435266B (zh) 2014-04-21
US8539206B2 (en) 2013-09-17

Similar Documents

Publication Publication Date Title
CN103109261B (zh) 用于通用逻辑操作的方法和设备
US20220171623A1 (en) Systems, methods, and apparatuses for matrix add, subtract, and multiply
US10209989B2 (en) Accelerated interlane vector reduction instructions
CN108292215A (zh) 用于加载-索引和预取-聚集操作的指令和逻辑
CN108369509A (zh) 用于基于通道的跨步分散操作的指令和逻辑
CN104813279B (zh) 用于减少具有步幅式访问模式的向量寄存器中的元素的指令
CN108351779A (zh) 用于安全指令执行流水线的指令和逻辑
US9141386B2 (en) Vector logical reduction operation implemented using swizzling on a semiconductor chip
CN104603745A (zh) 用于独立数据上递归计算的向量化的读和写掩码更新指令
CN104011666B (zh) 具有独立进位链的加法指令
KR20190114745A (ko) 체인화된 타일 연산들을 구현하기 위한 시스템들 및 방법들
CN104025033A (zh) 利用控制操纵的simd可变移位和循环
CN104919432A (zh) 用于将多个位向左移并将多个1拉入较低有效位的指令
CN104603746A (zh) 由读和写掩码控制的向量移动指令
CN108369571A (zh) 用于偶数和奇数向量get操作的指令和逻辑
CN109840066A (zh) 用于将浮点值从半精度转换为单精度的装置和方法
CN109992299A (zh) 用于计算两个区块操作数中的半字节的数量积的系统和方法
CN105814536A (zh) Rsa算法加速处理器、方法、系统以及指令
CN103946797B (zh) 用于转换矢量指令的系统、装置和方法
CN103270489B (zh) 用于进行段寄存器读和写而不管特权等级的系统、装置和方法
US11656870B2 (en) Systems, apparatuses, and methods for dual complex multiply add of signed words
CN109840070A (zh) 处置半精度操作数的系统、方法和装置
US20190042236A1 (en) Apparatus and method for vector multiply and accumulate of packed bytes
CN109582361A (zh) 用于将紧缩数据元素移位并提取紧缩数据元素的装置和方法
US11263291B2 (en) Systems and methods for combining low-mantissa units to achieve and exceed FP64 emulation of matrix multiplication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant