CN108292223A - 用于得到偶数数据元素和奇数数据元素的系统、设备和方法 - Google Patents

用于得到偶数数据元素和奇数数据元素的系统、设备和方法 Download PDF

Info

Publication number
CN108292223A
CN108292223A CN201680070765.XA CN201680070765A CN108292223A CN 108292223 A CN108292223 A CN 108292223A CN 201680070765 A CN201680070765 A CN 201680070765A CN 108292223 A CN108292223 A CN 108292223A
Authority
CN
China
Prior art keywords
instruction
data element
source operand
register
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680070765.XA
Other languages
English (en)
Inventor
R·凡伦天
E·乌尔德-阿迈德-瓦尔
J·W·布兰德特
M·J·查尼
A·杰哈
M·B·吉尔卡尔
B·L·托尔
E·V·斯图帕琴科
S·Y·奥斯坦维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108292223A publication Critical patent/CN108292223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30032Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • G06F9/30192Instruction operation extension or modification according to data descriptor, e.g. dynamic data typing

Abstract

描述了用于得到偶数数据元素或奇数数据元素的系统、设备和方法的实施例。例如,在一些实施例中,一种设备包括:解码器,用于对指令进行解码,其中,所述指令包括用于第一源操作数、第二源操作数和目的地操作数的字段;以及执行电路系统,用于执行经解码指令以从所述第一源操作数和所述第二源操作数的偶数数据元素位置中提取数据元素并且将所提取数据元素存储到所述目的操作数中。

Description

用于得到偶数数据元素和奇数数据元素的系统、设备和方法
技术领域
本发明的领域总体上涉及计算机处理器架构,并且更具体地,涉及当被执行时引起特定结果的指令。
背景技术
从紧缩数据寄存器中提取值是非常常见的计算形式。一种常见操作是提取出偶数或奇数数据元素集。在如QCD等其中数据类型是复数(一对实部和虚部)等高性能计算应用中,这是最常见的。
附图说明
本发明是通过示例说明的,并且不局限于各个附图的图示,在附图中,相同的参考标号表示类似的元件并且其中:
图1展示了用于处理指令的硬件的实施例,所述指令用于从两个或更多个紧缩数据寄存器中得到偶数数据元素;
图2展示了对geteven(得到偶数)指令的执行的实施例;
图3展示了geteven指令的实施例;
图4展示了由处理器执行以处理geteven指令的方法的实施例;
图5展示了由处理器执行以处理geteven指令的方法的执行部分的实施例;
图6展示了geteven的伪代码的实施例;
图7展示了用于处理指令的硬件的实施例,所述指令用于从两个或更多个紧缩数据寄存器中得到奇数数据元素;
图8展示了对getodd(得到奇数)指令的执行的实施例;
图9展示了getodd指令的实施例;
图10展示了由处理器执行以处理getodd指令的方法的实施例;
图11展示了由处理器执行以处理getodd指令的方法的执行部分的实施例;
图12展示了getodd的伪代码的实施例;
图13A-图13B是展示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图;
图14A至图14D是展示根据本发明的实施例的示例性专用向量友好指令格式的框图;
图15是根据本发明的一个实施例的寄存器架构的框图;
图16A是示出根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名的无序发布/执行流水线两者的框图;
图16B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图;
图17A-图17B展示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块;
图18是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器的框图;
图19-22是示例性计算机架构的框图;以及
图23是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
在下面的描述中,阐述了许多具体细节。然而,要理解的是,可以在不具有这些具体细节的情况下实践本发明的实施例。在其他实例中,没有详细示出众所周知的电路、结构和技术,以避免模糊对本说明书的理解。
在说明书中提到“一个实施例”、“实施例”、“示例实施例”等表明所描述的实施例可以包括特定特征、结构、或特性,但每一个实施例可能不一定包括所述特定特征、结构、或特性。而且,此类短语不一定指相同的实施例。另外,当结合实施例来描述特定特征、结构或特性时,应理解,无论是否予以显式地描述,结合其他实施例来实行此特征、结构或特性在本领域的技术人员的知识范围内。
本文详述了用于提取出成对数据类型的单独值的getEven指令和getOdd指令。顾名思义,getEven将从向量寄存器中得到偶数元素,并且getOdd将从向量寄存器中得到奇数元素。这将提高大范围HPC应用的性能、简化代码生成并且提供更直观的指令集以实现更好的可编程性。
在实施例中,所执行getEven指令和getOdd指令分别从一组输入(源)寄存器中提取出偶数元素和奇数元素,并且将这些所提取元素写入到目的地寄存器中。这些指令节省指令数、提高性能并且减小代码尺寸,由此促进提高自动向量化以及提供直观的可编程性。
以下示出了具有2个元素的复数数据类型的示例。
Struct{(结构体{)
Double real;(双精度实部;)
Double imag;(双精度虚部;)
}Complex;(}复数;)
Complex cArray[1000000];(复数c数组[1000000];)
加载到向量寄存器中的复数数组的示例是ZMM1=cArray[3].imag,cArray[3].real,cArray[2].imag,cArray[2].real,cArray[1].imag,cArray[1].real,cArray[0].imag,cArray[0].real(ZMM1=c数组[3]虚部,c数组[3]实部,c数组[2]虚部,c数组[2]实部,c数组[1]虚部,c数组[1]实部,c数组[0]虚部,c数组[0]实部)。ZMM2=cArray[7].imag,cArray[7].real,cArray[6].imag,cArray[6].real,cArray[5].imag,cArray[5].real,cArray[4].imag,cArray[4].real(c数组[7]虚部,c数组[7]实部,c数组[6]虚部,c数组[6]实部,c数组[5]虚部,c数组[5]实部,c数组[4]虚部,c数组[4]实部)。
对复数的操作涉及对实部和虚部的不同组计算,因此所有8组实部和8组虚部都可以被放入向量寄存器中,可以使用用于收集实部和虚部的收集指令或者使用耗光用于置换控制的额外寄存器的加载和两个2源置换序列来完成这种操作。因此,这涉及仅用于从两个向量寄存器中提取出实部和虚部的复杂的一组昂贵指令序列。所提出的指令简单得多。
图1展示了用于处理指令的硬件的实施例,所述指令用于从两个或更多个紧缩数据寄存器中得到偶数数据元素。在一些实例中,在本说明书中,短语“geteven”指令将用于此指令。所展示的硬件通常是硬件处理器或核的一部分,诸如,中央处理单元、加速器等的一部分。
geteven指令由解码电路系统101接收。例如,解码电路系统101从取出逻辑/电路系统接收此指令。geteven指令包括用于目的地操作数和至少两个源操作数的字段。通常,这些操作数是寄存器。稍后将详述指令格式的更详细实施例。解码电路系统101将geteven指令解码成一个或多个操作。在一些实施例中,这种解码包括生成待由执行电路系统(诸如,执行电路系统109)执行的多个微操作。解码电路系统101还对指令前缀进行解码。
在一些实施例中,寄存器重命名、寄存器分配和/或调度电路系统103提供以下功能中的一项或多项:1)将逻辑操作数值重命名为物理操作数值(例如,在一些实施例中,寄存器别名表);2)向经解码指令分配状态位和标记;以及3)调度经解码指令以供在指令池之外的执行电路系统109执行(例如,在一些实施例中,使用保留站)。
寄存器(寄存器堆)105和存储器107将数据存储为将由执行电路系统109对其进行操作的geteven指令的操作数。示例性寄存器类型包括紧缩数据寄存器、通用寄存器和浮点寄存器。
执行电路系统109执行经解码的geteven指令以将紧缩数据源寄存器的所有偶数元素提取到目的地寄存器中。
在一些实施例中,引退电路系统111引退所述指令。
图2展示了对geteven指令的执行的实施例。在此图示中,存在作为指令的操作数的两个紧缩数据源201和203。在大多数实施例中,这些源201和203两者都是紧缩数据寄存器。然而,在一些实施例中,一个或两个都是存储器操作数。
源201和203被示出为具有8个紧缩数据元素。此图示并不意味着是限制性的,并且源201和203可以保持不同数量的紧缩数据元素,诸如,2、4、8、16、32或64。此外,数据元素的尺寸可以是许多不同尺寸之一,诸如,8位(字节)、16位(字)、32位(双字)、64位(四字)、128位、或256位。
执行电路系统205从源201和203中的每一个中提取偶数紧缩数据元素并且将提取的结果存储在目的地操作数(寄存器)207中。
geteven指令的格式的实施例为:getEven{B/W/D/Q}DST_REG,SRC1_REG,SRC2_REG。在一些实施例中,geteven{B/W/D/Q}为指令的操作码,并且B/W/D/Q将源/目的地的数据元素尺寸指示为字节、字、双字和四字。SRC1_REG和SRC2_REG分别是用于源寄存器操作数1和2的字段。DST_REG是目的地寄存器,所述目的地寄存器将包含在执行geteven指令时首先从SRC1_REG中并且然后从SRC2_REG中提取的所有偶数元素值。在一些实施例中,源寄存器之一也是目的地寄存器。在一些实施例中,第二源是存储器位置。
在实施例中,指令的编码包括比例-索引-基址(SIB)型存储器寻址操作数,所述操作数间接地标识存储器中的多个索引目的地位置。在一个实施例中,SIB型存储器操作数包括标识基地址寄存器的编码。基地址寄存器的内容表示存储器中的基地址,存储器中的特定目的地位置的地址是根据所述基地址计算的。例如,基地址是扩展向量指令的潜在目的地位置块中的第一位置的地址。在一个实施例中,SIB型存储器操作数包括标识索引寄存器的编码。索引寄存器中的每个元素都指定索引或偏移值,所述索引或偏移值可用于根据基地址计算潜在目的地位置块内的对应目的地位置的地址。在一个实施例中,SIB型存储器操作数包括指定在计算对应目的地地址时将应用于每个索引值的比例因子的编码。例如,如果在SIB型存储器操作数中编码了比例因子值四,则将从索引寄存器的元素中获得的每个索引值乘以四并且然后与基地址相加以计算目的地地址。
在一个实施例中,形式vm32{x,y,z}的SIB型存储器操作数标识使用SIB型存储器寻址来指定的存储器操作数的向量阵列。在此示例中,使用公共基址寄存器、恒定比例因子和向量索引寄存器来指定存储器地址阵列,所述向量索引寄存器包含单独的元素,所述元素中的每一个都是32位索引值。向量索引寄存器可以是XMM寄存器(vm32x)、YMM寄存器(vm32y)、或ZMM寄存器(vm32z)。在另一实施例中,形式vm64{x,y,z}的SIB型存储器操作数标识使用SIB型存储器寻址来指定的存储器操作数的向量阵列。在此示例中,使用公共基址寄存器、恒定比例因子和向量索引寄存器来指定存储器地址阵列,所述向量索引寄存器包含单独的元素,所述元素中的每一个都是64位索引值。向量索引寄存器可以是XMM寄存器(vm64x)、YMM寄存器(vm64y)或ZMM寄存器(vm64z)。
图3展示了geteven指令的实施例,所述指令包括操作码301、目的地操作数303、源1操作数305、和源2操作数307的值。此外,在一些实施例中,存在第三源操作数309。
返回到前面讨论的实部和复数示例,执行getEven{B/W/D/Q}ZMM3,ZMM1,ZMM2将导致从源ZMM1和ZMM2中得到所有偶数元素(实部)并将其置于单个目的地ZMM3寄存器中:ZMM3=cArray[7].real,cArray[6].real,cArray[5].real,cArray[4].real,cArray[3].real,cArray[2].real,cArray[1].real,cArray[0].real(c数组[7]实部,c数组[6]实部,c数组[5]实部,c数组[4]实部,c数组[3]实部,c数组[2]实部,c数组[1]实部,c数组[0]实部)。
图4展示了由处理器执行以处理geteven指令的方法的实施例。
在401处,取出指令。例如,取出geteven指令。geteven指令包括如以上详述的操作码、至少两个源操作数以及目的地操作数。在一些实施例中,从指令高速缓存中取出指令。
在‘QG03处,对所取出指令进行解码。例如,所取出geteven指令由诸如本文所详述的解码电路系统等解码电路系统进行解码。
在405处,检索与经解码指令的(多个)源操作数相关联的数据值。例如,访问紧缩数据寄存器。
在407处,由诸如本文详述的执行电路系统(硬件)等执行电路系统执行经解码指令。对于geteven指令,所述执行使得来自指令的第一源操作数和第二源操作数的所有偶数数据元素被提取并且并被存储在指令的目的地操作数中。例如,两个紧缩数据寄存器的偶数数据元素被提取并被存储在紧缩数据目的地寄存器中。在一些实施例中,第一源的所提取数据元素按照数据元素顺序存储在目的地操作数的较低数据元素位置中,并且第二源的所提取数据元素按照数据元素顺序被存储在目的地操作数的较高数据元素位置中。
在一些实施例中,在409处,提交或引退目的地操作数(寄存器)。
图5展示了由处理器执行以处理geteven指令的方法的执行部分的实施例。
在501处,确定将从第一源操作数和第二源操作数中检索的数据元素的数量。此数量是要提取的偶数数据元素的总数量。
在503处,将第一源操作数和第二源操作数的处于偶数数据元素位置中的数据元素并行地写入到目的地操作数中。来自第一源操作数的偶数数据元素位置的数据元素被写入到数据元素位置零到要提取的偶数数据元素的总数量的一半中,并且来自第二源操作数的偶数数据元素位置的数据元素被写入到数据元素位置要提取的偶数元素的总数量的一半到最后数据元素位置中。
图6展示了geteven的伪代码的实施例。
图7展示了用于处理指令的硬件的实施例,所述指令用于从两个或更多个紧缩数据寄存器中得到奇数数据元素。在一些实例中,在本说明书中,短语“getodd”指令将用于此指令。所展示的硬件通常是硬件处理器或核的一部分,诸如,中央处理单元、加速器等的一部分。
getodd指令由解码电路系统701接收。例如,解码电路系统701从取出逻辑/电路系统接收此指令。getodd指令包括用于目的地操作数和至少两个源操作数的字段。通常,这些操作数是寄存器。稍后将详述指令格式的更详细实施例。解码电路系统701将getodd指令解码成一个或多个操作。在一些实施例中,这种解码包括生成待由执行电路系统(诸如,执行电路系统709)执行的多个微操作。解码电路系统701还对指令前缀进行解码。
在一些实施例中,寄存器重命名、寄存器分配和/或调度电路系统703提供以下功能中的一项或多项:1)将逻辑操作数值重命名为物理操作数值(例如,在一些实施例中,寄存器别名表);2)向经解码指令分配状态位和标记;以及3)调度经解码指令以供在指令池之外的执行电路系统709执行(例如,在一些实施例中,使用保留站)。
寄存器(寄存器堆)705和存储器707将数据存储为将由执行电路系统709对其进行操作的getodd指令的操作数。示例性寄存器类型包括紧缩数据寄存器、通用寄存器和浮点寄存器。
执行电路系统709执行经解码的getodd指令以将紧缩数据源寄存器的所有奇数元素提取到目的地寄存器中。
在一些实施例中,引退电路系统711在架构上将目的地寄存器提交到寄存器704和/或存储器中。
图8展示了对getodd指令的执行的实施例。在此图示中,存在作为指令的操作数的两个紧缩数据源801和803。在大多数实施例中,这些源801和803两者都是紧缩数据寄存器。然而,在一些实施例中,一个或两个都是存储器操作数。
源801和803被示出为具有8个紧缩数据元素。此图示并不意味着是限制性的,并且源801和803可以保持不同数量的紧缩数据元素,诸如,2、4、8、16、32或64。此外,数据元素的尺寸可以是许多不同尺寸之一,诸如,8位(字节)、16位(字)、32位(双字)、64位(四字)、128位、或256位。
执行电路系统805从源801和803中的每一个中提取奇数紧缩数据元素并且将提取的结果存储在目的地操作数(寄存器)807中。
getodd指令的格式的实施例为:getOdd{B/W/D/Q}DST_REG,SRC1_REG,SRC2_REG。在这种格式中,getodd{B/W/D/Q}是指令的操作码。B/W/D/Q将源/目的地的数据元素尺寸指示为字节、字、双字和四字。SRC1_REG和SRC2_REG分别是用于源寄存器操作数1和2的字段。DST_REG是目的地寄存器,所述目的地寄存器将包含在执行getodd指令时首先从SRC1_REG中并且然后从SRC2_REG中提取的所有奇数元素值。在一些实施例中,源寄存器之一也是目的地寄存器。在一些实施例中,第二源是存储器位置。
在实施例中,指令的编码包括比例-索引-基址(SIB)型存储器寻址操作数,所述操作数间接地标识存储器中的多个索引目的地位置。在一个实施例中,SIB型存储器操作数包括标识基地址寄存器的编码。基地址寄存器的内容表示存储器中的基地址,存储器中的特定目的地位置的地址是根据所述基地址计算的。例如,基地址是扩展向量指令的潜在目的地位置块中的第一位置的地址。在一个实施例中,SIB型存储器操作数包括标识索引寄存器的编码。索引寄存器中的每个元素都指定索引或偏移值,所述索引或偏移值可用于根据基地址计算潜在目的地位置块内的对应目的地位置的地址。在一个实施例中,SIB型存储器操作数包括指定在计算对应目的地地址时将应用于每个索引值的比例因子的编码。例如,如果在SIB型存储器操作数中编码了比例因子值四,则将从索引寄存器的元素中获得的每个索引值乘以四并且然后与基地址相加以计算目的地地址。
在一个实施例中,形式vm32{x,y,z}的SIB型存储器操作数标识使用SIB型存储器寻址来指定的存储器操作数的向量阵列。在此示例中,使用公共基址寄存器、恒定比例因子和向量索引寄存器来指定存储器地址阵列,所述向量索引寄存器包含单独的元素,所述元素中的每一个都是32位索引值。向量索引寄存器可以是XMM寄存器(vm32x)、YMM寄存器(vm32y)、或ZMM寄存器(vm32z)。在另一实施例中,形式vm64{x,y,z}的SIB型存储器操作数标识使用SIB型存储器寻址来指定的存储器操作数的向量阵列。在此示例中,使用公共基址寄存器、恒定比例因子和向量索引寄存器来指定存储器地址阵列,所述向量索引寄存器包含单独的元素,所述元素中的每一个都是64位索引值。向量索引寄存器可以是XMM寄存器(vm64x)、YMM寄存器(vm64y)或ZMM寄存器(vm64z)。
图9展示了getodd指令的实施例,所述指令包括操作码901、目的地操作数903、源1操作数905、和源2操作数907的值。此外,在一些实施例中,存在第三源操作数909。
返回到前面讨论的实部和复数示例,类似地,执行getOddQ ZMM4,ZMM1,ZMM2将导致从源ZMM1和ZMM2中得到所有奇数元素(虚部)并将其置于单个目的地ZMM4寄存器中:ZMM4=cArray[7].imag,cArray[6].imag,cArray[5].imag,cArray[4].imag,cArray[3].imag,cArray[2].imag,cArray[1].imag,cArray[0].imag(c数组[7]虚部,c数组[6]虚部,c数组[5]虚部,c数组[4]虚部,c数组[3]虚部,c数组[2]虚部,c数组[1]虚部,c数组[0]虚部)。
图10展示了由处理器执行以处理getodd指令的方法的实施例。
在1001处,取出指令。例如,取出getodd指令。getodd指令包括如以上详述的操作码、至少两个源操作数以及目的地操作数。在一些实施例中,从指令高速缓存中取出指令。
在1003处,对所取出指令进行解码。例如,所取出getodd指令由诸如本文所详述的解码电路系统等解码电路系统进行解码。
在1005处,检索与经解码指令的(多个)源操作数相关联的数据值。例如,访问紧缩数据寄存器。
在1007处,由诸如本文详述的执行电路系统(硬件)等执行电路系统执行经解码指令。对于getodd指令,所述执行使得来自指令的第一源操作数和第二源操作数的所有奇数数据元素被提取并且并被存储在指令的目的地操作数中。例如,两个紧缩数据寄存器的奇数数据元素被提取并被存储在紧缩数据目的地寄存器中。在一些实施例中,第一源的所提取数据元素按照数据元素顺序存储在目的地操作数的较低数据元素位置中,并且第二源的所提取数据元素按照数据元素顺序被存储在目的地操作数的较高数据元素位置中。
在一些实施例中,在1009处,提交或引退目的地操作数(寄存器)。
图11展示了由处理器执行以处理getodd指令的方法的执行部分的实施例。
在1101处,确定将从第一源操作数和第二源操作数中检索的数据元素的数量。此数量是要提取的奇数数据元素的总数量。
在1103处,将第一源操作数和第二源操作数的处于奇数数据元素位置中的数据元素并行地写入到目的地操作数中。来自第一源操作数的奇数数据元素位置的数据元素被写入到数据元素位置零到要提取的奇数数据元素的总数量的一半中,并且来自第二源操作数的奇数数据元素位置的数据元素被写入到数据元素位置要提取的奇数元素的总数量的一半到最后数据元素位置中。
图12展示了getodd的伪代码的实施例。
以下附图详述了用于实施上述内容的实施例的示例性架构和系统。在一些实施例中,上述一个或多个硬件组件和/或指令如以下所详述的那样进行仿真或者被实施为软件模块。
以上详述的(多个)指令的实施例被具体化可以被具体化为以下详述的“通用向量友好指令格式”。在其他实施例中,未利用这种格式,并且使用了另一指令格式,然而,以下对写掩码寄存器、各种数据变换(混合、广播等)、寻址等的描述总体上适用于对以上(多个)指令的实施例的描述。另外,在下文中详述示例性系统、架构和流水线。以上(多个)指令的实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构和流水线。
指令集可包括一种或多种指令格式。给定的指令格式可定义各种字段(例如,位的数量、位的位置)以指定将要执行的操作(例如,操作码)以及将对其执行该操作的(多个)操作数和/或(多个)其他数据字段(例如,掩码),等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位的位置,因为较少的字段被包括)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,ISA的每一条指令使用给定的指令格式(并且如果经定义,则按照该指令格式的指令模板中的给定的一个指令模板)来表达,并包括用于指定操作和操作数的字段。例如,示例性ADD(加法)指令具有特定的操作码和指令格式,该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段;并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)和利用向量扩展(VEX)编码方案的SIMD扩展集(参见例如2014年9月的64和IA-32架构软件开发者手册;并且参见2014年10月的高级向量扩展编程参考)。
示例性指令格式
本文中所描述的(多条)指令的实施例能以不同的格式体现。另外,在下文中详述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构和流水线。
通用向量友好指令格式
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的特定字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例,但是替代实施例仅使用通过向量友好指令格式的向量操作。
图13A-图13B是展示根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图13A是展示根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图;而图13B是展示根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地,针对通用向量友好指令格式1300定义A类和B类指令模板,这两者都包括无存储器访问1305的指令模板和存储器访问1320的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例:64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素组成,或者替代地由8个四字尺寸的元素组成);64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸);32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸);以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图13A中的A类指令模板包括:1)在无存储器访问1305的指令模板内,示出无存储器访问的完全舍入控制型操作1310的指令模板、以及无存储器访问的数据变换型操作1315的指令模板;以及2)在存储器访问1320的指令模板内,示出存储器访问的时效性1325的指令模板和存储器访问的非时效性1330的指令模板。图13B中的B类指令模板包括:1)在无存储器访问1305的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型操作1312的指令模板以及无存储器访问的写掩码控制的vsize型操作1317的指令模板;以及2)在存储器访问1320的指令模板内,示出存储器访问的写掩码控制1327的指令模板。
通用向量友好指令格式1300包括以下列出的按照在图13A-13B中展示的顺序的如下字段。
格式字段1340——该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,在这个意义上该字段是任选的。
基础操作字段1342——其内容区分不同的基础操作。
寄存器索引字段1344——其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)个寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器,但是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持多达两个源,其中这些源中的一个源还用作目的地;可支持多达三个源,其中这些源中的一个源还用作目的地;可支持多达两个源和一个目的地)。
修饰符(modifier)字段1346——其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开;即在无存储器访问1305的指令模板与存储器访问1320的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不这样(例如,源和/或目的地是寄存器)。尽管在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段1350——其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,该字段被分成类字段1368、α字段1352和β字段1354。扩充操作字段1350允许在单条指令而非2条、3条或4条指令中执行多组共同的操作。
比例字段1360——其内容允许用于存储器地址生成(例如,用于使用(2比例*索引+基址)的地址生成)的索引字段的内容的按比例缩放。
位移字段1362A——其内容用作存储器地址生成的一部分(例如,用于使用(2比例*索引+基址+位移)的地址生成)。
位移因数字段1362B(注意,位移字段1362A直接在位移因数字段1362B上的并置指示使用一个或另一个)——其内容用作地址生成的一部分;它指定将按比例缩放存储器访问的尺寸(N)的位移因数——其中N是存储器访问中的字节数量(例如,用于使用(2比例*索引+基址+按比例缩放的位移)的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成将在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段1374(稍后在本文中描述)和数据操纵字段1354C确定。位移字段1362A和位移因数字段1362B不用于无存储器访问1305的指令模板和/或不同的实施例可实现这两者中的仅一个或不实现这两者中的任一个,在这个意义上,位移字段1362A和位移因数字段1362B是任选的。
数据元素宽度字段1364——其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令;在其他实施例中只用于指令中的一些指令)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持数据元素宽度,则该字段是不需要的,在这个意义上,该字段是任选的。
写掩码字段1370——其内容逐数据元素位置地控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩蔽,而B类指令模板支持合并-写掩蔽和归零-写掩蔽两者。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零;在一个实施例中,目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制正被执行的操作的向量长度的能力(即,从第一个到最后一个正被修改的元素的跨度),然而,被修改的元素不一定要是连续的。由此,写掩码字段1370允许部分向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段1370的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此,写掩码字段1370的内容间接地标识要执行的掩蔽)的本发明的实施例,但是替代实施例替代地或附加地允许掩码写字段1370的内容直接指定要执行的掩蔽。
立即数字段1372——其内容允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在,在这个意义上,该字段是任选的。
类字段1368——其内容在不同类的指令之间进行区分。参考图13A-图13B,该字段的内容在A类和B类指令之间进行选择。在图13A-图13B中,圆角方形用于指示特定的值存在于字段中(例如,在图13A-图13B中分别用于类字段1368的A类1368A和B类1368B)。
A类指令模板
在A类非存储器访问1305的指令模板的情况下,α字段1352被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的舍入型操作1310和无存储器访问的数据变换型操作1315的指令模板分别指定舍入1352A.1和数据变换1352A.2)的RS字段1352A,而β字段1354区分要执行所指定类型的操作中的哪一种。在无存储器访问1305的指令模板中,比例字段1360、位移字段1362A和位移比例字段1362B不存在。
无存储器访问的指令模板——完全舍入控制型操作
在无存储器访问的完全舍入控制型操作1310的指令模板中,β字段1354被解释为其(多个)内容提供静态舍入的舍入控制字段1354A。尽管在本发明的所述实施例中舍入控制字段1354A包括抑制所有浮点异常(SAE)字段1356和舍入操作控制字段1358,但是替代实施例可支持这两个概念,可将这两个概念编码为同一字段,或仅具有这些概念/字段中的一个或另一个(例如,可仅具有舍入操作控制字段1358)。
SAE字段1356——其内容区分是否禁用异常事件报告;当SAE字段1356的内容指示启用抑制时,给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处置程序。
舍入操作控制字段1358——其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入以及就近舍入)。由此,舍入操作控制字段1358允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段1350的内容覆盖(override)该寄存器值。
无存储器访问的指令模板-数据变换型操作
在无存储器访问的数据变换型操作1315的指令模板中,β字段1354被解释为数据变换字段1354B,其内容区分要执行多个数据变换中的哪一个(例如,无数据变换、混合、广播)。
在A类存储器访问1320的指令模板的情况下,α字段1352被解释为驱逐提示字段1352B,其内容区分要使用驱逐提示中的哪一个(在图13A中,对于存储器访问时效性1325的指令模板和存储器访问非时效性1330的指令模板分别指定时效性的1352B.1和非时效性的1352B.2),而β字段1354被解释为数据操纵字段1354C,其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上转换以及目的地的向下转换)。存储器访问1320的指令模板包括比例字段1360,并任选地包括位移字段1362A或位移比例字段1362B。
向量存储器指令使用转换支持来执行来自存储器的向量加载以及向存储器的向量存储。如同寻常的向量指令,向量存储器指令以数据元素式的方式从/向存储器传输数据,其中实际被传输的元素由被选为写掩码的向量掩码的内容规定。
存储器访问的指令模板——时效性的
时效性的数据是可能足够快地被重新使用以从高速缓存操作受益的数据。然而,这是提示,并且不同的处理器能以不同的方式实现它,包括完全忽略该提示。
存储器访问的指令模板——非时效性的
非时效性的数据是不太可能足够快地被重新使用以从第一级高速缓存中的高速缓存操作受益且应当被给予驱逐优先级的数据。然而,这是提示,并且不同的处理器能以不同的方式实现它,包括完全忽略该提示。
B类指令模板
在B类指令模板的情况下,α字段1352被解释为写掩码控制(Z)字段1352C,其内容区分由写掩码字段1370控制的写掩蔽应当是合并还是归零。
在B类非存储器访问1305的指令模板的情况下,β字段1354的一部分被解释为RL字段1357A,其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作1312的指令模板和无存储器访问的写掩码控制VSIZE型操作1317的指令模板分别指定舍入1357A.1和向量长度(VSIZE)1357A.2),而β字段1354的其余部分区分要执行所指定类型的操作中的哪一种。在无存储器访问1305的指令模板中,比例字段1360、位移字段1362A和位移比例字段1362B不存在。
在无存储器访问的写掩码控制部分舍入控制型操作1310的指令模板中,β字段1354的其余部分被解释为舍入操作字段1359A,并且禁用异常事件报告(给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处置程序)。
舍入操作控制字段1359A——正如舍入操作控制字段1358,其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入以及就近舍入)。由此,舍入操作控制字段1359A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段1350的内容覆盖该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作1317的指令模板中,β字段1354的其余部分被解释为向量长度字段1359B,其内容区分要执行多个数据向量长度中的哪一个(例如,128字节、256字节或512字节)。
在B类存储器访问1320的指令模板的情况下,β字段1354的一部分被解释为广播字段1357B,其内容区分是否要执行广播型数据操纵操作,而β字段1354的其余部分被解释为向量长度字段1359B。存储器访问1320的指令模板包括比例字段1360,并任选地包括位移字段1362A或位移比例字段1362B。
针对通用向量友好指令格式1300,示出完整操作码字段1374包括格式字段1340、基础操作字段1342和数据元素宽度字段1364。尽管示出了其中完整操作码字段1374包括所有这些字段的一个实施例,但是在不支持所有这些字段的实施例中,完整操作码字段1374包括少于所有的这些字段。完整操作码字段1374提供操作代码(操作码)。
扩充操作字段1350、数据元素宽度字段1364和写掩码字段1370允许逐指令地以通用向量友好指令格式指定这些特征。
写掩码字段和数据元素宽度字段的组合创建各种类型的指令,因为这些指令允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅A类、仅B类、或者可支持这两类。举例而言,旨在用于通用计算的高性能通用乱序核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类,并且旨在用于通用计算和图形和/或科学(吞吐量)计算两者的核可支持A类和B类两者(当然,具有来自这两类的模板和指令的一些混合、但是并非来自这两类的所有模板和指令的核在本发明的范围内)。同样,单个处理器可包括多个核,这多个核全部都支持相同的类,或者其中不同的核支持不同的类。举例而言,在具有单独的图形核和通用核的处理器中,图形核中的旨在主要用于图形和/或科学计算的一个核可仅支持A类,而通用核中的一个或多个可以是具有旨在用于通用计算的仅支持B类的乱序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或乱序核。当然,在本发明的不同实施例中,来自一类的特征也可在其他类中实现。将使以高级语言编写的程序成为(例如,及时编译或静态编译)各种不同的可执行形式,这些可执行形式包括:1)仅具有由用于执行的目标处理器支持的(多个)类的指令的形式;或者2)具有替代例程并具有控制流代码的形式,该替代例程使用所有类的指令的不同组合来编写,该控制流代码选择这些例程以基于由当前正在执行代码的处理器支持的指令来执行。
示例性专用向量友好指令格式
图14是展示根据本发明的实施例的示例性专用向量友好指令格式的框图。图14示出专用向量友好指令格式1400,其指定各字段的位置、尺寸、解释和次序、以及那些字段中的一些字段的值,在这个意义上,该专用向量友好指令格式1400是专用的。专用向量友好指令格式1400可用于扩展x86指令集,并且由此字段中的一些字段与如在现有的x86指令集及其扩展(例如,AVX)中所使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。展示来自图13的字段,来自图14的字段映射到来自图13的字段。
应当理解,虽然出于说明的目的在通用向量友好指令格式1300的上下文中参考专用向量友好指令格式1400描述了本发明的实施例,但是本发明不限于专用向量友好指令格式1400,除非另有声明。例如,通用向量友好指令格式1300构想了各种字段的各种可能的尺寸,而专用向量友好指令格式1400示出为具有特定尺寸的字段。作为具体示例,尽管在专用向量友好指令格式1400中数据元素宽度字段1364被展示为一位字段,但是本发明不限于此(即,通用向量友好指令格式1300构想数据元素宽度字段1364的其他尺寸)。
通用向量友好指令格式1300包括以下列出的按照图14A中展示的顺序的如下字段。
EVEX前缀(字节0-3)1402——以四字节形式进行编码。
格式字段1340(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段1340,并且它包含0x62(在本发明的一个实施例中,为用于区分向量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段1405(EVEX字节1,位[7-5])——由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(1357BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx和bbb)进行编码,由此可通过增加EVEX.R、EVEX.X和EVEX.B来形成Rrrr、Xxxx和Bbbb。
REX’字段1310——这是REX’字段1310的第一部分,并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与BOUND指令进行区分,该BOUND指令的实操作码字节是62,但是在MODR/M字段(在下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反转的格式存储该指示的位以及以下其他指示的位。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段1415(EVEX字节1,位[3:0]–mmmm)——其内容对隐含的前导操作码字节(0F、0F 38或0F 3)进行编码。
数据元素宽度字段1364(EVEX字节2,位[7]–W)——由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。
EVEX.vvvv 1420(EVEX字节2,位[6:3]-vvvv)——EVEX.vvvv的作用可包括如下:1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数进行编码,并且对具有两个或更多个源操作数的指令有效;2)EVEX.vvvv对针对特定向量位移以1补码的形式指定的目的地寄存器操作数进行编码;或者3)EVEX.vvvv不对任何操作数进行编码,该字段被预留,并且应当包含1111b。由此,EVEX.vvvv字段1420对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。
EVEX.U 1368类字段(EVEX字节2,位[2]-U)——如果EVEX.U=0,则它指示A类或EVEX.U0;如果EVEX.U=1,则它指示B类或EVEX.U1。
前缀编码字段1425(EVEX字节2,位[1:0]-pp)——提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀仅需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码成SIMD前缀编码字段;并且在运行时在被提供给解码器的PLA之前被扩展成传统SIMD前缀(因此,在无需修改的情况下,PLA既可执行传统格式的这些传统指令又可执行EVEX格式的这些传统指令)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展,但是为了一致性,特定实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定的不同含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码,并且由此不需要扩展。
α字段1352(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α展示)——如先前所述,该字段是针对上下文的。
β字段1354(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB,还以βββ展示)——如前所述,此字段是针对上下文的。
REX’字段1310——这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段1370(EVEX字节3,位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器的索引,如先前所述。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现,包括使用硬连线到所有对象的写掩码或绕过掩蔽硬件的硬件来实现)。
实操作码字段1430(字节4)还被称为操作码字节。操作码的一部分在该字段中被指定。
MOD R/M字段1440(字节5)包括MOD字段1442、Reg字段1444和R/M字段1446。如先前所述的,MOD字段1442的内容将存储器访问操作和非存储器访问操作区分开。Reg字段1444的作用可被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展,并且不用于对任何指令操作数进行编码。R/M字段1446的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)——如先前所述的,比例字段1350的内容用于存储器地址生成。SIB.xxx 1454和SIB.bbb1456——先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。
位移字段1362A(字节7-10)——当MOD字段1442包含10时,字节7-10是位移字段1362A,并且它与传统32位位移(disp32)一样地工作,并且以字节粒度工作。
位移因数字段1362B(字节7)——当MOD字段1442包含01时,字节7是位移因数字段1362B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段1362B是disp8的重新解释;当使用位移因数字段1362B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。此类经压缩的位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此地址偏移的冗余低阶位不需要被编码。换句话说,位移因数字段1362B替代传统x86指令集8位位移。由此,位移因数字段1362B以与x86指令集8位位移相同的方式被编码(因此,在ModRM/SIB编码规则中没有变化),唯一的不同在于,将disp8超载至disp8*N。换句话说,在编码规则或编码长度方面没有变化,而仅在有硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的尺寸以获得字节式地址偏移)。立即数字段1372如先前所述地操作。
完整操作码字段
图14B是展示根据本发明的一个实施例的构成完整操作码字段1374的具有专用向量友好指令格式1400的字段的框图。具体地,完整操作码字段1374包括格式字段1340、基础操作字段1342和数据元素宽度(W)字段1364。基础操作字段1342包括前缀编码字段1425、操作码映射字段1415和实操作码字段1430。
寄存器索引字段
图14C是展示根据本发明的一个实施例的构成寄存器索引字段1344的具有专用向量友好指令格式1400的字段的框图。具体地,寄存器索引字段1344包括REX字段1405、REX’字段1410、MODR/M.reg字段1444、MODR/M.r/m字段1446、VVVV字段1420、xxx字段1454和bbb字段1456。
扩充操作字段
图14D是展示根据本发明的一个实施例的构成扩充操作字段1350的具有专用向量友好指令格式1400的字段的框图。当类(U)字段1368包含0时,它表明EVEX.U0(A类1368A);当它包含1时,它表明EVEX.U1(B类1368B)。当U=0且MOD字段1442包含11(表明无存储器访问操作)时,α字段1352(EVEX字节3,位[7]–EH)被解释为rs字段1352A。当rs字段1352A包含1(舍入1352A.1)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段1354A。舍入控制字段1354A包括一位SAE字段1356和两位舍入操作字段1358。当rs字段1352A包含0(数据变换1352A.2)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为三位数据变换字段1354B。当U=0且MOD字段1442包含00、01或10(表明存储器访问操作)时,α字段1352(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段1352B,并且β字段1354(EVEX字节3,位[6:4]–SSS)被解释为三位数据操纵字段1354C。
当U=1时,α字段1352(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段1352C。当U=1且MOD字段1442包含11(表明无存储器访问操作)时,β字段1354的一部分(EVEX字节3,位[4]–S0)被解释为RL字段1357A;当它包含1(舍入1357A.1)时,β字段1354的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段1359A,而当RL字段1357A包含0(VSIZE1357.A2)时,β字段1354的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段1359B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段1442包含00、01或10(表明存储器访问操作)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段1359B(EVEX字节3,位[6-5]–L1-0)和广播字段1357B(EVEX字节3,位[4]–B)。
示例性寄存器架构
图15是根据本发明的一个实施例的寄存器架构1500的框图。在所展示的实施例中,有32个512位宽的向量寄存器1510;这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖(overlay)在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式1400对这些被覆盖的寄存器堆操作,如在以下表格中所展示。
换句话说,向量长度字段1359B在最大长度与一个或多个其他较短长度之间进行选择,其中每一个此类较短长度是前一长度的一半,并且不具有向量长度字段1359B的指令模板在最大向量长度上操作。此外,在一个实施例中,专用向量友好指令格式1400的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作;取决于实施例,较高阶数据元素位置要么保持与在指令之前相同,要么归零。
写掩码寄存器1515——在所展示的实施例中,存在8个写掩码寄存器(k0至k7),每一写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存器1515的尺寸是16位。如先前所述,在本发明的一个实施例中,向量掩码寄存器k0无法用作写掩码;当将正常指示k0的编码用作写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地禁止写掩蔽用于那条指令。
通用寄存器1525——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器堆(x87栈)1545,在其上面重叠了MMX紧缩整数平坦寄存器堆1550——在所展示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而使用MMX寄存器来对64位紧缩整数数据执行操作,以及为在MMX与XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用更宽的或更窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
示例性核架构、处理器和计算机架构
处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
有序和乱序核框图
图16A是展示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图16B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图16A-图16B中的实线框展示有序流水线和有序核,而虚线框的任选增加展示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图16A中,处理器流水线1600包括取出级1602、长度解码级1604、解码级1606、分配级1608、重命名级1610、调度(也被称为分派或发布)级1612、寄存器读取/存储器读取级1614、执行级1616、写回/存储器写入级1618、异常处置级1622和提交级1624。
图16B示出处理器核1690,该处理器核1690包括前端单元1630,该前端单元1630耦合到执行引擎单元1650,并且前端单元1630和执行引擎单元1650两者都耦合到存储器单元1670。核1690可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核1690可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元1630包括分支预测单元1632,该分支预测单元1632耦合到指令高速缓存单元1634,该指令高速缓存单元1634耦合到指令转换后备缓冲器(TLB)1636,该指令转换后备缓冲器1636耦合到指令取出单元1638,该指令取出单元1638耦合到解码单元1640。解码单元1640(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元1640可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核1690包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元1640中,或以其他方式在前端单元1630内)。解码单元1640耦合到执行引擎单元1650中的重命名/分配器单元1652。
执行引擎单元1650包括重命名/分配器单元1652,该重命名/分配器单元1652耦合到引退单元1654和一个或多个调度器单元的集合1656。(多个)调度器单元1656表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元1656耦合到(多个)物理寄存器堆单元1658。(多个)物理寄存器堆单元1658中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元1658包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元1658由引退单元1654重叠,以展示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元1654和(多个)物理寄存器堆单元1658耦合到(多个)执行集群1660。(多个)执行集群1660包括一个或多个执行单元的集合1662以及一个或多个存储器访问单元的集合1664。执行单元1662可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元1656、(多个)物理寄存器堆单元1658和(多个)执行集群1660示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元1664的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合1664耦合到存储器单元1670,该存储器单元1670包括数据TLB单元1672,该数据TLB单元1672耦合到数据高速缓存单元1674,该数据高速缓存单元1674耦合到第二级(L2)高速缓存单元1676。在一个示例性实施例中,存储器访问单元1664可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元1670中的数据TLB单元1672。指令高速缓存单元1634还耦合到存储器单元1670中的第二级(L2)高速缓存单元1676。L2高速缓存单元1676耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线1600:1)指令取出1638执行取出级1602和长度解码级1604;2)解码单元1640执行解码级1606;3)重命名/分配器单元1652执行分配级1608和重命名级1610;4)(多个)调度器单元1656执行调度级1612;5)(多个)物理寄存器堆单元1658和存储器单元1670执行寄存器读取/存储器读取级1614;执行集群1660执行执行级1616;6)存储器单元1670和(多个)物理寄存器堆单元1658执行写回/存储器写入级1618;7)各单元可牵涉到异常处置级1622;以及8)引退单元1654和(多个)物理寄存器堆单元1658执行提交级1624。
核1690可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核1690包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所展示的处理器的实施例还包括分开的指令和数据高速缓存单元1634/1674以及共享的L2高速缓存单元1676,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图17A-图17B展示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图17A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络1702的连接及其第二级(L2)高速缓存的本地子集1704的框图。在一个实施例中,指令解码器1700支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1706允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1708和向量单元1710使用分开的寄存器集合(分别为标量寄存器1712和向量寄存器1714),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存1706读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集1704是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集1704的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集1704中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集1704中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图17B是根据本发明的实施例的图17A中的处理器核的一部分的展开图。图17B包括L1高速缓存1704的L1数据高速缓存1706A部分,以及关于向量单元1710和向量寄存器1714的更多细节。具体地,向量单元1710是16宽向量处理单元(VPU)(见16宽ALU 1728),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1720支持对寄存器输入的混合,通过数值转换单元1722A-B支持数值转换,并且通过复制单元1724支持对存储器输入的复制。写掩码寄存器1726允许预测所得的向量写入。
图18是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器1800的框图。图18中的实线框展示具有单个核1802A、系统代理1810、一个或多个总线控制器单元的集合1816的处理器1800,而虚线框的任选增加展示具有多个核1802A-N、系统代理单元1810中的一个或多个集成存储器控制器单元的集合1814以及专用逻辑1808的替代处理器1800。
因此,处理器1800的不同实现可包括:1)CPU,其中专用逻辑1808是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1802A-N是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核1802A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核1802A-N是大量通用有序核。因此,处理器1800可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器1800可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个高速缓存级别、一个或多个共享高速缓存单元的集合1806、以及耦合到集成存储器控制器单元的集合1814的外部存储器(未示出)。共享高速缓存单元的集合1806可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元1812将集成图形逻辑1808、共享高速缓存单元的集合1806以及系统代理单元1810/(多个)集成存储器控制器单元1814互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元1806与核1802A-N之间维持一致性。
在一些实施例中,一个或多个核1802A-N能够实现多线程化。系统代理1810包括协调和操作核1802A-N的那些部件。系统代理单元1810可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核1802A-N以及集成图形逻辑1808的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
核1802A-N在架构指令集方面可以是同构的或异构的;即,核1802A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图19-22是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。
现在参考图19,所示出的是根据本发明一个实施例的系统1900的框图。系统1900可以包括一个或多个处理器1910、1915,这些处理器耦合到控制器中枢1920。在一个实施例中,控制器中枢1920包括图形存储器控制器中枢(GMCH)1990和输入/输出中枢(IOH)1950(其可以在分开的芯片上);GMCH 1990包括存储器和图形控制器,存储器1940和协处理器1945耦合到该存储器和图形控制器;IOH 1950将输入/输出(I/O)设备1960耦合到GMCH1990。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器1940和协处理器1945直接耦合到处理器1910,并且控制器中枢1920与IOH 1950处于单个芯片中。
附加的处理器1915的任选性在图19中通过虚线来表示。每一处理器1910、1915可包括本文中描述的处理核中的一个或多个,并且可以是处理器1800的某一版本。
存储器1940可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1920经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接1995来与(多个)处理器1910、1915进行通信。
在一个实施例中,协处理器1945是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢1920可以包括集成图形加速器。
在物理资源1910、1915之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器1910执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1910将这些协处理器指令识别为具有应当由附连的协处理器1945执行的类型。因此,处理器1910在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1945。(多个)协处理器1945接受并执行所接收的协处理器指令。
现在参见图20,所示出的是根据本发明的实施例的第一更具体的示例性系统2000的框图。如图20中所示,多处理器系统2000是点对点互连系统,并且包括经由点对点互连2050耦合的第一处理器2070和第二处理器2080。处理器2070和2080中的每一个都可以是处理器1800的某一版本。在本发明的一个实施例中,处理器2070和2080分别是处理器2010和1915,而协处理器2038是协处理器1945。在另一实施例中,处理器2070和2080分别是处理器1910和协处理器1945。
处理器2070和2080示出为分别包括集成存储器控制器(IMC)单元2072和2082。处理器2070还包括作为其总线控制器单元的一部分的点对点(P-P)接口2076和2078;类似地,第二处理器2080包括P-P接口2086和2088。处理器2070、2080可以经由使用点对点(P-P)接口电路2078、2088的P-P接口2050来交换信息。如图20中所示,IMC 2072和2082将处理器耦合到相应的存储器,即存储器2032和存储器2034,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器2070、2080可各自经由使用点对点接口电路2076、2094、2086、2098的各个P-P接口2052、2054来与芯片组2090交换信息。芯片组2090可以任选地经由高性能接口2039来与协处理器2038交换信息。在一个实施例中,协处理器2038是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组2090可以经由接口2096耦合到第一总线2016。在一个实施例中,第一总线2016可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图20中所示,各种I/O设备2014可连同总线桥2018一起耦合到第一总线2016,该总线桥2018将第一总线2016耦合到第二总线2020。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器2015耦合到第一总线2016。在一个实施例中,第二总线2020可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线2020,这些设备包括例如键盘和/或鼠标2022、通信设备2027以及存储单元2028,该存储单元2028诸如可包括指令/代码和数据2030的盘驱动器或者其他大容量存储设备。此外,音频I/O 2024可以被耦合到第二总线2020。注意,其他架构是可能的。例如,代替图20的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图21,示出的是根据本发明的实施例的第二更具体的示例性系统2100的框图。图20和21中的类似元件使用类似的附图标记,并且从图21中省略了图20的某些方面以避免混淆图21的其他方面。
图21展示处理器2070、2080可分别包括集成存储器和I/O控制逻辑(“CL”)2072和2082。因此,CL 2072、2082包括集成存储器控制器单元,并包括I/O控制逻辑。图21展示不仅存储器2032、2034耦合到CL 2072、2082,而且I/O设备2114也耦合到控制逻辑2072、2082。传统I/O设备2115被耦合到芯片组2090。
现在参考图22,示出的是根据本发明的实施例的SoC 2200的框图。图18中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的任选的特征。在图22中,(多个)互连单元2202被耦合到:应用处理器2210,其包括一个或多个核的集合202A-N的集合以及(多个)共享高速缓存单元1806;系统代理单元1810;(多个)总线控制器单元1816;(多个)集成存储器控制器单元1814;一个或多个协处理器的集合2220,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元2230;直接存储器访问(DMA)单元2232;以及用于耦合到一个或多个外部显示器的显示单元2240。在一个实施例中,(多个)协处理器2220包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图20中展示的代码2030)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图23是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所展示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图23示出可使用x86编译器2304来编译高级语言2302形式的程序,以生成可由具有至少一个x86指令集核的处理器2316原生执行的x86二进制代码2306。具有至少一个x86指令集核的处理器2316表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的本质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器2304表示可操作用于生成x86二进制代码2306(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器2316上执行。类似地,图23示出可以使用替代的指令集编译器2308来编译高级语言2302形式的程序,以生成可以由不具有至少一个x86指令集核的处理器2314(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码2310。指令转换器2312用于将x86二进制代码2306转换成可以由不具有x86指令集核的处理器2314原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码2310相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器2312通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码2306的软件、固件、硬件或其组合。

Claims (25)

1.一种设备,包括:
解码器装置,用于对指令进行解码,其中,所述指令包括用于第一源操作数、第二源操作数和目的地操作数的字段;以及
执行装置,用于执行经解码指令以从所述第一源操作数和所述第二源操作数的偶数数据元素位置中提取数据元素并且将所提取数据元素存储到所述目的地操作数中。
2.如权利要求1所述的设备,其中,所述源操作数为紧缩数据寄存器。
3.如权利要求1至2中任一项所述的设备,其中,所述执行装置用于并行地提取偶数数据元素。
4.如权利要求1至2中任一项所述的设备,其中,所述执行装置用于串行地提取偶数数据元素。
5.如权利要求1至4中任一项所述的设备,其中,所述指令用于指示所述数据元素的尺寸。
6.如权利要求1至5中任一项所述的设备,其中,所述第一源操作数是寄存器,并且所述第二源是存储器位置。
7.如权利要求1至6中任一项所述的设备,其中,从所述第一源操作数中提取的所述数据元素被存储在所述目的地操作数的较低数据元素位置中。
8.一种方法,包括:
对指令进行解码,其中,所述指令包括用于第一源操作数、第二源操作数和目的地操作数的字段;以及
执行经解码指令以从所述第一源操作数和所述第二源操作数的偶数数据元素位置中提取数据元素并且将所提取数据元素存储到所述目的地操作数中。
9.如权利要求8所述的方法,其中,所述源操作数为紧缩数据寄存器。
10.如权利要求8至9中任一项所述的方法,其中,所述对偶数数据元素的提取是并行地完成的。
11.如权利要求8至9中任一项所述的方法,其中,所述对偶数数据元素的提取是串行地完成的。
12.如权利要求8至11中任一项所述的方法,其中,所述指令用于指示所述数据元素的尺寸。
13.如权利要求8至12中任一项所述的方法,其中,所述第一源操作数是寄存器,并且所述第二源是存储器位置。
14.如权利要求8至13中任一项所述的方法,其中,从所述第一源操作数中提取的所述数据元素被存储在所述目的地操作数的较低数据元素位置中。
15.一种机器可读介质,存储有指令,所述指令当被硬件处理器执行时使所述处理器执行包括以下操作的方法:
对指令进行解码,其中,所述指令包括用于第一源操作数、第二源操作数和目的地操作数的字段;以及
执行经解码指令以从所述第一源操作数和所述第二源操作数的偶数数据元素位置中提取数据元素并且将所提取数据元素存储到所述目的地操作数中。
16.如权利要求15所述的机器可读介质,其中,所述源操作数为紧缩数据寄存器。
17.如权利要求15所述的机器可读介质,其中,所述对偶数数据元素的提取是并行地完成的。
18.如权利要求15所述的机器可读介质,其中,所述对偶数数据元素的提取是串行地完成的。
19.如权利要求15所述的机器可读介质,其中,所述第一源操作数是寄存器,并且所述第二源是存储器位置。
20.如权利要求15所述的机器可读介质,其中,从所述第一源操作数中提取的所述数据元素被存储在所述目的地操作数的较低数据元素位置中。
21.一种设备,包括:
解码器,用于对指令进行解码,其中,所述指令包括用于第一源操作数、第二源操作数和目的地操作数的字段;以及
执行电路系统,用于执行经解码指令以从所述第一源操作数和所述第二源操作数的偶数数据元素位置中提取数据元素并且将所提取数据元素存储到所述目的地操作数中。
22.如权利要求1所述的设备,其中,所述源操作数为紧缩数据寄存器。
23.如权利要求1所述的设备,其中,所述执行电路系统用于并行地提取偶数数据元素。
24.如权利要求1所述的设备,其中,所述执行电路系统用于串行地提取偶数数据元素。
25.如权利要求1所述的设备,其中,所述指令用于指示所述数据元素的尺寸。
CN201680070765.XA 2015-12-30 2016-12-29 用于得到偶数数据元素和奇数数据元素的系统、设备和方法 Pending CN108292223A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/984,078 2015-12-30
US14/984,078 US20170192780A1 (en) 2015-12-30 2015-12-30 Systems, Apparatuses, and Methods for Getting Even and Odd Data Elements
PCT/US2016/069199 WO2017117387A1 (en) 2015-12-30 2016-12-29 Systems, apparatuses, and methods for getting even and odd data elements

Publications (1)

Publication Number Publication Date
CN108292223A true CN108292223A (zh) 2018-07-17

Family

ID=59225952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680070765.XA Pending CN108292223A (zh) 2015-12-30 2016-12-29 用于得到偶数数据元素和奇数数据元素的系统、设备和方法

Country Status (5)

Country Link
US (1) US20170192780A1 (zh)
EP (1) EP3398054A1 (zh)
CN (1) CN108292223A (zh)
TW (1) TWI733718B (zh)
WO (1) WO2017117387A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489877B2 (en) * 2017-04-24 2019-11-26 Intel Corporation Compute optimization mechanism
US11449336B2 (en) * 2019-05-24 2022-09-20 Texas Instmments Incorporated Method of storing register data elements to interleave with data elements of a different register, a processor thereof, and a system thereof
CN113326066B (zh) * 2021-04-13 2022-07-12 腾讯科技(深圳)有限公司 量子控制微体系结构、量子控制处理器及指令执行方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233671B1 (en) * 1998-03-31 2001-05-15 Intel Corporation Staggering execution of an instruction by dividing a full-width macro instruction into at least two partial-width micro instructions
US6266758B1 (en) * 1997-10-09 2001-07-24 Mips Technologies, Inc. Alignment and ordering of vector elements for single instruction multiple data processing
CN103988173A (zh) * 2011-11-25 2014-08-13 英特尔公司 用于提供掩码寄存器与通用寄存器或存储器之间的转换的指令和逻辑
CN104335166A (zh) * 2012-06-29 2015-02-04 英特尔公司 用于执行混洗和操作(混洗-操作)的系统、装置和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9509987D0 (en) * 1995-05-17 1995-07-12 Sgs Thomson Microelectronics Manipulation of data
US7353244B2 (en) * 2004-04-16 2008-04-01 Marvell International Ltd. Dual-multiply-accumulator operation optimized for even and odd multisample calculations
US7146443B2 (en) * 2004-12-23 2006-12-05 Advanced Analogic Technologies, Inc. Instruction encoding method for single wire serial communications
US7669034B2 (en) * 2005-10-25 2010-02-23 Freescale Semiconductor, Inc. System and method for memory array access with fast address decoder
US8953785B2 (en) * 2012-09-28 2015-02-10 Intel Corporation Instruction set for SKEIN256 SHA3 algorithm on a 128-bit processor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266758B1 (en) * 1997-10-09 2001-07-24 Mips Technologies, Inc. Alignment and ordering of vector elements for single instruction multiple data processing
US6233671B1 (en) * 1998-03-31 2001-05-15 Intel Corporation Staggering execution of an instruction by dividing a full-width macro instruction into at least two partial-width micro instructions
CN103988173A (zh) * 2011-11-25 2014-08-13 英特尔公司 用于提供掩码寄存器与通用寄存器或存储器之间的转换的指令和逻辑
CN104335166A (zh) * 2012-06-29 2015-02-04 英特尔公司 用于执行混洗和操作(混洗-操作)的系统、装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程学先等: "《汇编语言程序设计》", pages: 36 - 37 *

Also Published As

Publication number Publication date
US20170192780A1 (en) 2017-07-06
EP3398054A1 (en) 2018-11-07
TW201732571A (zh) 2017-09-16
WO2017117387A1 (en) 2017-07-06
TWI733718B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
CN104094218B (zh) 用于执行写掩码寄存器到向量寄存器中的一系列索引值的转换的系统、装置和方法
CN105278917B (zh) 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备
CN109791488A (zh) 用于执行用于复数的融合乘-加指令的系统和方法
CN104137059B (zh) 多寄存器分散指令
CN104011647B (zh) 浮点舍入处理器、方法、系统和指令
CN108292224A (zh) 用于聚合收集和跨步的系统、设备和方法
CN109582355A (zh) 定点到浮点转换
CN109313549A (zh) 用于向量的元素排序的装置、方法和系统
CN104094221B (zh) 基于零的高效解压缩
CN109840068A (zh) 用于复数乘法的装置和方法
CN104081337B (zh) 用于响应于单个指令来执行横向部分求和的系统、装置和方法
CN104137053B (zh) 用于响应于单个指令来执行蝴蝶横向和交叉加法或减法的系统、装置和方法
CN107003846A (zh) 用于向量索引加载和存储的方法和装置
CN110457067A (zh) 利用弹性浮点数的系统、方法和设备
CN104350461B (zh) 具有不同的读和写掩码的多元素指令
CN107908427A (zh) 用于多维数组中的元素偏移量计算的指令
CN110321157A (zh) 用于具有可变精度输入操作数的融合乘-加操作的指令
CN109716290A (zh) 用于经融合的乘加的系统、装置和方法
CN107003852A (zh) 用于执行向量位混洗的方法和装置
CN107924308A (zh) 数据元素比较处理器、方法、系统和指令
CN108780394A (zh) 用于转换编码格式的硬件装置和方法
CN107003845A (zh) 用于在掩码寄存器和向量寄存器之间可变地扩展的方法和装置
CN108268244A (zh) 用于算术递归的系统、装置和方法
CN108701028A (zh) 用于执行用于置换掩码的指令的系统和方法
CN109313553A (zh) 用于跨步加载的系统、装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination