CN109582362A - 用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法 - Google Patents

用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法 Download PDF

Info

Publication number
CN109582362A
CN109582362A CN201811130762.8A CN201811130762A CN109582362A CN 109582362 A CN109582362 A CN 109582362A CN 201811130762 A CN201811130762 A CN 201811130762A CN 109582362 A CN109582362 A CN 109582362A
Authority
CN
China
Prior art keywords
data element
imaginary
real
source register
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811130762.8A
Other languages
English (en)
Inventor
V.马杜里
E.奥德-艾哈迈德-瓦尔
J.科巴尔
M.查尼
R.瓦伦丁
B.杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN109582362A publication Critical patent/CN109582362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/4806Computations with complex numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • G06F9/30014Arithmetic instructions with variable precision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/499Denomination or exception handling, e.g. rounding or overflow
    • G06F7/49942Significance control
    • G06F7/49947Rounding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/50Adding; Subtracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Executing Machine-Instructions (AREA)
  • Complex Calculations (AREA)

Abstract

用于对复数数据执行变换的设备和方法。处理器包括:解码器;第一、第二、第三源寄存器;执行电路系统,其包括:基于第一指令的立即数,在第一和第二源寄存器中选择实数和虚数数据元素进行相乘的乘法器电路系统,乘法器电路系统根据立即数将第一打包数据元素和第二打包数据元素相乘,以生成多个实数和虚数乘积、基于立即数,在第三源寄存器中选择实数和虚数数据元素的加法器电路系统,其将实数和虚数乘积加上或减去选择的实数和虚数值以生成第一实数和虚数结果;缩放,舍入第一实数和虚数结果和/或使其饱和以生成最终实数和虚数数据元素的缩放、舍入和/或饱和电路系统;以及在指定的数据元素位置中存储最终实数和虚数数据元素的目的地寄存器。

Description

用于对具有实数分量和虚数分量的打包复数数据执行变换的 设备和方法
技术领域
本发明的实施例一般涉及计算机处理器的领域。更具体地说,实施例涉及用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法。
背景技术
指令集或指令集架构(ISA)是与编程有关的计算机架构的一部分,包括原生数据类型、指令、寄存器架结构、寻址模式、存储器架构、中断和异常处置及外部输入和输出(I/O)。应注意的是,术语“指令”在本文中通常指宏指令-其是被提供到处理器以便执行的指令-- 与微指令或微操作相反-其是处理器的解码器解码宏指令的结果。微指令或微操作能够配置成指示处理器上的执行单元执行操作以实现与宏指令关联的逻辑。
ISA不同于作为用于实现指令集的一组处理器设计技术的微架构。带有不同微架构的处理器能够共享共用指令集。例如,Intel®®Pentium 4处理器、Intel® CoreTM™处理器和来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced MicroDevices, Inc.)的处理器实现几乎相同版本的x86指令集(其中已采用较新版本来加入了一些扩展),但具有不同内部设计。例如,ISA的相同寄存器架构可使用公知的技术在不同微架构中以不同方式来实现,包括专用物理寄存器、使用寄存器重命名机制(例如,使用寄存器别名表(RAT)、重新排序缓冲器(ROB)和引退寄存器堆)的一个或多个动态分配的物理寄存器。除非另有指定,否则短语寄存器架构(phrases register architecture)、寄存器堆和寄存器在本文中用于指对软件/编程器可见的事物以及其中指令指定寄存器的方式。在要求区分的情况下,形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示在寄存器架构中的寄存器/文件,而不同的形容词将用于指定给定微架构中的寄存器(例如,物理寄存器、重新排序缓冲器、隐退寄存器、寄存器池)。
乘法累加(Multiply-accumulate)是常见的数字信号处理操作,其计算两个数字的乘积,并将该乘积与累加值相加。现存单指令多数据(SIMD)微架构通过执行指令的序列来实现乘法累加操作。例如,可以采用乘法指令执行乘法累加,接着是4路加法,并且然后与目的地四字(quadword)数据做累加,以生成两个64位饱和结果。
附图说明
结合附图,从下面的详细描述中能够获得本发明的更好理解,其中:
图1A和1B是图示了根据本发明的实施例的一般矢量友好指令格式及其指令模板的框图;
图2A-C是图示了根据本发明的实施例的示范性VEX指令格式的框图;
图3是根据本发明的一个实施例的寄存器架构的框图;以及
图4A是图示了根据本发明的实施例的示范性有序取(fetch)、解码、引退流水线和示范性寄存器重命名、乱序发布/执行流水线两者的框图;
图4B是图示了根据本发明的实施例,要包括在处理器中的有序取、解码、引退核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者的框图;
图5A是单个处理器核及其到管芯上互连网络的连接的框图;
图5B图示了根据本发明的实施例的图5A中处理器核的一部分的扩展图;
图6是根据本发明的实施例的单核处理器和带有集成存储器控制器和图形的多核处理器的框图;
图7图示了根据本发明的一个实施例的系统的框图;
图8图示了根据本发明的实施例的第二系统的框图;
图9图示了根据本发明的实施例的第三系统的框图;
图10图示了根据本发明的实施例的芯片上系统(SoC)的框图;
图11图示了根据本发明的实施例,与软件指令转换器的使用进行对照来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图12图示了本发明实施例可在其上被实现的处理器架构;
图13图示了根据一个实施例的含有实数和复数值的多个打包数据元素;
图14图示了根据本发明的一个实施例的打包数据处理架构;
图15图示了快速傅立叶变换(FFT)的示范实现;
图16图示了用于实现FFT运算的数据处理架构的一个实施例;
图17A-B图示了根据本发明的一个实施例的方法。
具体实施方式
在下面的描述中,出于解释的目的,陈述了许多特定的细节以便提供下面描述的本发明的实施例的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明的实施例。在其它实例中,以框图形式示出已知的结构和装置,以免混淆本发明的实施例的基础原理。
示范性处理器架构、指令格式和数据类型
指令集包括一个或多个指令格式。给定的指令格式定义各种字段(比特数量、比特地点)以在其它事物中指定要被执行的操作(操作码)和操作数(在其上要执行操作)。一些指令格式通过指令模板(或子格式)的定义被进一步分解。例如,给定的指令格式的指令模板可被定义以具有指令格式的字段的不同子集(包括的字段典型地采用相同顺序,但至少一些具有不同比特地点,因为包括有较少字段)和/或被定义以具有不同地解译的给定字段。因此,ISA的每个指令使用给定的指令格式来表示(并且如果被定义,则采用该指令格式的指令模板中的给定一个)并且包括用于指定操作和操作数的字段。例如,示范性ADD指令具有特定操作码和指令格式,其包括用于指定那个操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地和源2));以及指令流中的该ADD指令的出现将具有选择特定操作数的操作数字段中的特定内容。
本文描述的指令的实施例可以采用不同格式实施。此外,示范性系统、架构和流水线在下文被详述。指令的实施例可在这样的系统、架构和流水线上执行,但不限于详述的那些。
一般矢量友好指令格式
矢量友好指令格式是适合用于矢量指令的指令格式(例如特定于矢量操作存在某些字段)。虽然描述了实施例,其中通过矢量友好指令格式支持矢量和标量两者操作,但备选实施例仅使用矢量友好格式的矢量操作。
图1A-1B是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其指令模板。图1A是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别A指令模板;而图1B是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别B指令模板。具体地,对于一般矢量友好指令格式100,定义了类别A和类别B指令模板,它们两者包括无存储器访问105指令模板和存储器访问120指令模板。矢量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。
虽然本发明的实施例将被描述,其中矢量友好指令格式支持以下项:带有32比特(4字节)或64比特(8字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小)(并且因此,64字节矢量由16个双字大小元素或备选地8个四字大小元素组成);带有16比特(2字节)或8比特(1字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小);带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的32字节矢量操作数长度(或大小);以及带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的16字节矢量操作数长度(或大小);但备选实施例可支持带有更多、更少、或不同数据元素宽度(例如,128比特(16字节)数据元素宽度)的更多、更少和/或不同矢量操作数大小(例如,256字节矢量操作数)。
图1A中的类别A指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、完整舍入(full round)控制类型操作110指令模板,和无存储器访问、数据变换类型操作115指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板。图1B中的类别B指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、vsize类型操作117指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、写掩码控制127指令模板。
一般矢量友好指令格式100包括图1A-1B中所示出的以下按顺序列出的以下字段。
格式字段140—此字段中的特定值(指令格式标识符值)唯一地标识矢量友好指令格式,并因此标识指令流中矢量友好指令格式中的指令的出现。因而,此字段在它对于仅具有一般矢量友好指令格式的指令集不被需要的意义中是可选的。
基础操作字段142—它的内容分辨出不同的基础操作。
寄存器索引字段144—它的内容直接或通过地址生成来指定源和目的地操作数的地点(它们在寄存器中或在存储器中)。这些包括用于从PxQ(例如32x512、16x128、32x1024、64x1024)寄存器堆选择N个寄存器的比特的足够数量。虽然在一个实施例中N可多至三个源和一个目的地寄存器,但备选实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至两个源,其中这些源之一还充当目的地;可支持多至三个源,其中这些源之一还充当目的地;可支持多至两个源和一个目的地)。
修改符(Modifier)字段146—它的内容分辨出一般矢量指令格式中指定存储器访问的指令与不指定存储器访问的那些指令的出现;那就是说,在无存储器访问105指令模板和存储器访问120指令模板之间进行分辨。存储器访问操作对存储器层级进行读和/或写(在使用寄存器中的值来指定源和/或目的地地址的一些情况中),而非存储器访问操作不进行(例如,源和目的地是寄存器)。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算,但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。
扩增(augmentation)操作字段150—它的内容分辨出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在本发明的一个实施例中,此字段被划分成类别字段168、α字段152、和β字段154。扩增操作字段150允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。
缩放(scale)字段160—它的内容允许用于存储器地址生成(例如,用于使用2缩放*索引+基址的地址生成)的索引字段的内容的缩放。
位移(displacement)字段162A—它的内容作为存储器地址生成(例如,用于使用2缩放*索引+基址+位移的地址生成)的部分被使用。
位移因子字段162B(注意,直接在位移因子字段162B上的位移字段162A的并置指示一个或另一个被使用)—它的内容作为地址生成的部分被使用;它指定要通过存储器访问的大小(N)来缩放的位移因子—其中N是存储器访问中的字节的数量(例如,用于使用2缩放*索引+基址+缩放的位移的地址生成)。冗余低顺序比特被忽略,并且因此,位移因子字段的内容被乘以存储器操作数总大小(N)以便生成要在运算有效地址中被使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段174(本文中较后所描述)和数据操纵字段154C来确定。位移字段162A和位移因子字段162B在它们不被用于无存储器访问105指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。
数据元素宽度字段164—它的内容分辨出多个数据元素宽度的哪一个要被使用(在对于所有指令的一些实施例中;在对于指令的仅一些指令的其它实施例中)。此字段在以下意义上是可选的:如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。
写掩码字段170—它的内容在按数据元素地点的基础上控制目的地矢量操作数中的那个数据元素地点是否反映基础操作和扩增操作的结果。类别A指令模板支持合并写掩蔽,而类别B指令模板支持合并和归零写掩蔽两者。在合并时,矢量掩码允许目的地中的元素的任何集合被保护免于在任何操作(由基础操作和扩增操作所指定的)的执行期间更新;在另外一个实施例中,保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下,在归零时,矢量掩码允许目的地中的元素的任何集合在任何操作(由基础操作和扩增操作所指定的)的执行期间被归零;在一个实施例中,在对应掩码比特具有0值时,目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的矢量长度(那就是说,正被修改的元素的跨度,从第一个到最后一个)的能力;然而,被修改的元素不必要是连续的。因此,写掩码字段170允许部分矢量操作,包括加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述,其中写掩码字段170的内容选择含有要被使用的写掩码的多个写掩码寄存器之一(并且因此写掩码字段170的内容间接标识要被执行的掩蔽),但备选实施例转而或附加允许掩码写字段170的内容直接指定要被执行的掩蔽。
立即数字段172—它的内容允许立即数的规格。此字段在它在不支持立即数的一般矢量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。
类别字段168—它的内容在指令的不同类别之间进行分辨。参考图1A-B,此字段的内容在类别A和类别B指令之间选择。在图1A-B中,圆角方形被用于指示在字段中呈现的特定值(例如,在图1A-B中相应对于类别字段168的类别A 168A和类别B 168B)。
类别A的指令模板
在类别A的非存储器访问105指令模板的情况中,α字段152被解译为RS字段152A,其内容分辨出不同扩增操作类型的哪一个要被执行(例如,舍入152A.1和数据变换152A.2对于无存储器访问、舍入类型操作110,和无存储器访问、数据变换类型操作115指令模板被相应指定),而β字段154分辨出所指定的类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
无存储器访问指令模板—完整舍入控制类型操作
在无存储器访问完整舍入控制类型操作110指令模板中,β字段154被解译为舍入控制字段154A,其内容提供静态舍入。虽然在本发明的所描述的实施例中,舍入控制字段154A包括所有浮点异常(SAE)字段156和舍入操作控制字段158的抑制,但备选实施例可支持可将这些概念两者编码成相同字段,或仅具有这些概念/字段的一个或另一个(例如,可具有仅舍入操作控制字段158)。
SAE字段156—它的内容分辨出是否禁用异常事件报告;在SAE字段156的内容指示抑制被启用时,给定的指令不报告任何种类的浮点异常标记且不唤起(raise)任何浮点异常处置器。
舍入操作控制字段158—它的内容分辨出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段158允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
无存储器访问指令模板—数据变换类型操作
在无存储器访问数据变换类型操作115指令模板中,β字段154被解译为数据变换字段154B,其内容分辨出多个数据变换的哪一个要被执行(例如,无数据变换、打乱(swizzle)、广播)。
在类别A的存储器访问120指令模板的情况中,α字段152被解译为驱逐提示字段152B,其内容分辨出驱逐提示的哪一个要被使用(在图1A中,暂时152B.1和非暂时152B.2对于存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板被相应指定),而β字段154被解译为数据操纵字段154C,其内容分辨出多个数据操纵操作(还已知为原语(primitive))的哪一个要被执行(例如,无操纵;广播;源的上转换;以及目的地的下转换)。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。
矢量存储器指令通过转换支持来执行自存储器的矢量加载和往存储器的矢量存储。如通过常规矢量指令,矢量存储器指令以数据元素式的方式将数据转移自/往存储器,实际上被转移的元素由作为写掩码被选择的矢量掩码的内容来指示。
存储器访问指令模板—暂时
暂时数据是这样的数据,其有可能被足够快地再使用以受益于进行高速缓存。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。
存储器访问指令模板—非暂时
非暂时数据是这样的数据,其不太可能被足够快地再使用以受益于在第1级高速缓存中进行高速缓存并应被给定用于驱逐的优先权。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。
类别B的指令模板
在类别B的指令模板的情况中,α字段152被解译为写掩码控制(Z)字段152C,其内容分辨出由写掩码字段170所控制的写掩蔽应是合并还是归零。
在类别B的非存储器访问105指令模板的情况中,β字段154的部分被解译为RL字段157A,其内容分辨出不同扩增操作类型的哪一个要被执行(例如,舍入157A.1和矢量长度(VSIZE)157A.2对于无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、VSIZE类型操作117指令模板被相应指定),而β字段154的剩余部分分辨出指定类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
在无存储器访问、写掩码控制、部分舍入控制类型操作110指令模板中,β字段154的剩余部分被解译为舍入操作字段159A,并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标记且不唤起任何浮点异常处置器)。
舍入操作控制字段159A—正如舍入操作控制字段158,它的内容分辨出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段159A允许在按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
在无存储器访问、写掩码控制、VSIZE类型操作117指令模板中,β字段的剩余部分154被解译为矢量长度字段159B,其内容分辨出多个数据矢量长度的哪一个要被执行(例如,128、256、或512字节)。
在类别B的存储器访问120指令模板的情况中,β字段154的部分被解译为广播字段157B,其内容分辨出广播类型数据操纵操作是否要被执行,而β字段154的剩余部分被解译为矢量长度字段159B。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。
关于一般矢量友好指令格式100,完整操作码字段174被示出,包括格式字段140、基础操作字段142、和数据元素宽度字段164。虽然一个实施例被示出,其中完整操作码字段174包括所有这些字段,但在不支持所有这些字段的实施例中,完整操作码字段174包括少于所有这些字段。完整操作码字段174提供操作代码(操作码)。
扩增操作字段150、数据元素宽度字段164、和写掩码字段170允许这些特征在一般矢量友好指令格式中在按指令的基础上被指定。
写掩码字段和数据元素宽度字段的组合创建分类的(typed)指令,因为它们允许掩码基于不同数据元素宽度而被应用。
在类别A和类别B内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅类别A、仅类别B、或两个类别。例如,打算用于通用计算的高性能通用乱序核可支持仅类别B,打算主要用于图形和/或科学(吞吐量)计算的核可支持仅类别A,以及打算用于两者的核可支持两个类别(当然,具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内)。同样,单个处理器可包括多个核,其的所有支持相同类别或其中不同核支持不同类别。例如,在带有单独的图形和通用核的处理器中,打算主要用于图形和/或科学计算的图形核之一可支持仅类别A,而通用核的一个或多个通用核可以是支持仅类别B的打算用于通用计算的带有乱序运行和寄存器重命名的高性能通用核。不具有单独的图形核的另一个处理器可包括支持类别A和类别B两者的更多一个通用有序或乱序核。当然,来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被转化(例如,准时编译或静态编译)成多种不同可运行的形式,包括:1)具有用于运行的由目标处理器所支持的类别的仅指令的形式;或2)具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器(其当前正运行代码)所支持的指令来运行的控制流程代码(control flow code)的形式。
VEX指令格式
VEX编码允许指令具有两个以上的操作数,并且允许SIMD矢量寄存器长于28比特。VEX前缀的使用提供了三操作数(或更多)语法。例如,先前的二操作数指令执行诸如A=A+B的操作,这将覆写源操作数。VEX前缀的使用使操作数能够执行无损操作,诸如A=B+C。
图2A图示示范性AVX指令格式,包括VEX前缀202、真操作码字段230、Mod R/M字节240、SIB字节250、位移字段262和IMM8 272。图2B图示来自图2A的哪些字段构成完整操作码字段274和基础操作字段241。图2C图示来自图2A的哪些字段构成寄存器索引字段244。
VEX前缀(字节0-2)202以三字节形式进行编码。第一字节是格式字段290 (VEX字节0,比特[7:0]),其含有显式C4字节值(用于区分C4指令格式的独特值)。第二-第三字节(VEX字节1-2)包括提供特定能力的多个比特字段。具体地说,REX字段205(VEX字节1,比特[7-5])由VEX.R比特字段(VEX字节1,比特[7]-R)、VEX.X比特字段(VEX字节1,比特[6]-X)以及VEX.B比特字段(VEX字节1,比特[5]-B)组成。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特(rrr、xxx、和bbb),使得Rrrr、Xxxx、和Bbbb可通过添加VEX.R、VEX.X以及VEX.B来形成。操作码映射字段215(VEX字节1,比特[4:0]-mmmmm)包括编码意指的前导操作码字节的内容。W字段264(VEX字节2,比特[7]–W)由记号VEX.X表示,并根据指令提供不同的功能。VEX.vvvv220(VEX字节2,比特[6:3]-vvvv)的功能可以包括以下项: 1)VEX.vvvv编码以倒置(1s补码)的形式所指定的第一源寄存器操作数,并且对具有2个或更多个源操作数的指令有效;2) VEX.vvvv编码针对某些矢量移位以1s补码形式指定的目的地寄存器操作数;或者3)VEX.vvvv不编码任何操作数,该字段被预留并且应该含有1111b。如果VEX.L 268大小字段(VEX字节2,比特[2]-L) =0,则其指示28比特矢量;如果VEX.L=1,则其指示256比特矢量。前缀编码字段225(VEX字节2,比特[1:0]-pp)为基础操作字段241提供附加比特。
真操作码字段230(字节3)还已知为操作码字节。操作码的部分被指定在此字段中。
MOD R/M字段240(字节4)包括MOD字段242(比特[7-6])、Reg字段244(比特[5-3])、和R/M字段246(比特[2-0])。Reg字段244的功能可包括以下项:编码目的地寄存器操作数或源寄存器操作数(Rrrr的rrr),或作为操作码扩展而被对待并不被用于编码任何指令操作数。R/M字段246的功能可包括以下项:编码引用存储器地址的指令操作数,或者编码目的地寄存器操作数或源寄存器操作数。
缩放、索引、基址(SIB)-缩放字段250的内容包括SS252(比特[7-6]),其被用于存储器地址生成。SIB.xxx 254(比特[5-3])和SIB.bbb 256(比特[2-0])的内容之前已关于寄存器索引Xxxx和Bbbb而被提及。
位移字段262和立即数字段(IMM8)272含有数据。
示范性寄存器架构
图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中,存在512比特宽的32个矢量寄存器310;这些寄存器被引用为zmm0直到zmm31。较低的6个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-15上。较低的6个zmm寄存器的较低顺序128比特(ymm寄存器的较低顺序128比特)被覆载在寄存器xmm0-15上。
通用寄存器325-在所示出的实施例中,存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64-比特通用寄存器。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、和R8直到R15来引用。
标量浮点栈寄存器堆(x87栈)345,在其上MMX打包整数平寄存器堆350被别名化-在所示出的实施例中,x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈;而MMX寄存器被用于在64-比特打包整数数据上执行操作,还被用于为在MMX和XMM寄存器之间所执行的一些操作来保存操作数。
本发明的备选实施例可使用更宽或更窄的寄存器。另外,本发明的备选实施例可使用更多、更少、或不同寄存器堆和寄存器。
示范性核架构、处理器、和计算机架构
处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如,此类核的实现可包括:1)打算用于通用计算的通用有序核;2)打算用于通用计算的高性能通用乱序核;3)打算主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)包括打算用于通用计算的一个或多个通用有序核和/或打算用于通用计算的一个或多个通用乱序核的CPU;以及2)包括打算主要用于图形和/或科学(吞吐量)的一个或多个专用核的协同处理器。此类不同处理器导致不同计算机系统架构,其可包括:1)在与所述CPU单独的芯片上的协同处理器; 2)在与CPU相同的封装中单独管芯上的协同处理器;3)在与CPU相同的管芯上的协同处理器(在该情况中,此类协同处理器有时被称为专用逻辑,诸如集成的图形和/或科学(吞吐量)逻辑,或被称为专用核);以及4)在可在相同管芯上包括所描述的CPU(有时被称为应用核或应用处理器)、以上所描述的协同处理器、和附加功能性的芯片上系统。示范性核架构接下来被描述,继之以示范性处理器和计算机架构的描述。本文中具体细节是包括示范性核、处理器等的电路(单元)。
示范性核架构
图4A是框图,其示出根据本发明的实施例的示范性有序流水线和示范性寄存器重命名、乱序发布/运行流水线两者。图4B是框图,其示出根据本发明的实施例的要被包括在处理器中的有序架构核的示范性实施例和示范性寄存器重命名、乱序发布/运行架构核两者。图4A-B中的实线框示出有序流水线和有序核,而虚线框的可选附加示出寄存器重命名、乱序发布/运行流水线和核。给定有序方面是乱序方面的子集,乱序方面将被描述。
在图4A中,处理器流水线400包括取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(还已知为分派或发布)阶段412、寄存器读/存储器读阶段414、运行阶段416、写回/存储器写阶段418、异常处置阶段422、和提交阶段424。
图4B示出处理器核490,其包括耦合到运行引擎单元450的前端单元430,并且两者被耦合到存储器单元470。核490可以是简化指令集计算(RISC)核、复杂指令集计算(CISC)核、非常长指令字(VLIW)核、或混合或备选核类型。如仍有的另一个选项,核490可以是专用核,诸如例如网络或通信核、压缩引擎、协同处理器核、通用计算图形处理单元(GPGPU)核、图形核等等。
前端单元430包括耦合到指令高速缓存单元434的分支预测单元432,所述指令高速缓存单元434被耦合到指令转化旁视(lookaside)缓冲器(TLB)436,其被耦合到指令取单元438,指令取单元438被耦合到解码单元440。解码单元440(或解码器)可解码指令,并生成为输出一个或多个微操作、微代码条目点、微指令、其它指令、或其它控制信号,其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制,解码单元440可被实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)、等等。在一个实施例中,核490包括存储用于某些宏指令的微代码的微代码ROM或另一介质(例如,在解码单元440中或以别的方式在前端单元430内)。解码单元440被耦合到运行引擎单元450中的重命名/分配器单元452。
运行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456代表任何数量的不同调度器,包括保留站、中央指令窗口、等等。调度器单元456被耦合到物理寄存器堆单元458。物理寄存器堆单元458中的每个代表一个或多个物理寄存器堆,其不同物理寄存器堆存储一个或多个不同数据类型,诸如标量整数、标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点、状态(例如,是要被运行的下一个指令的地址的指令指针)、等等。在一个实施例中,物理寄存器堆单元458包括矢量寄存器单元和标量寄存器单元。这些寄存器单元可提供架构上的矢量寄存器、矢量掩码寄存器、和通用寄存器。物理寄存器堆单元458通过引退单元454来重叠以示出其中寄存器重命名和乱序运行可被实现的各种方式(例如,使用重排序缓冲器和引退寄存器堆;使用未来堆、历史缓冲器、和引退寄存器堆;使用寄存器映射和寄存器的池;等等)。引退单元454和物理寄存器堆单元458被耦合到运行集群460。运行集群460包括一个或多个运行单元462的集合和一个或多个存储器访问单元464的集合。运行单元462可执行各种操作(例如,移位、加法、减法、乘法)以及在各种类型的数据(例如,标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点)上执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个运行单元,其它实施例可包括都执行所有功能的多个运行单元或仅一个运行单元。调度器单元456、物理寄存器堆单元458、和运行集群460被示出为可能是复数的,因为某些实施例对于某些类型的数据/操作来创建单独流水线(例如,标量整数流水线、标量浮点/打包的整数/打包的浮点/矢量整数/矢量浮点流水线、和/或存储器访问流水线,其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或运行集群—并且在单独的存储器访问流水线的情况中,其中此流水线的仅运行集群具有存储器访问单元464的某些实施例被实现)。还应被理解的是,在单独流水线被使用之处,这些流水线的一个或多个流水线可以是乱序发布/运行,并且剩余的是有序。
存储器访问单元464的集合被耦合到存储器单元470,存储器单元470包括耦合到数据高速缓存单元474的数据TLB单元472,数据高速缓存单元474耦合到2级(L2)高速缓存单元476。在一个示范性实施例中,存储器访问单元464可包括加载单元、存储地址单元、和存储数据单元,其的每个被耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434被进一步耦合到存储器单元470中的2级(L2)高速缓存单元476。L2高速缓存单元476被耦合到一个或多个其它级别的高速缓存并最终到主存储器。
通过示例的方式,示范性寄存器重命名、乱序发布/运行核架构可实现如下流水线400:1)指令取438执行取及长度解码阶段402和404;2)解码单元440执行解码阶段406;3)重命名/分配器单元452执行分配阶段408和重命名阶段410;4)调度器单元456执行调度阶段412;5)物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414;运行集群460执行运行阶段416;6)存储器单元470和物理寄存器堆单元458执行写回/存储器写阶段418;7)各种单元可在异常处置阶段422中被涉及;以及8)引退单元454和物理寄存器堆单元458执行提交阶段424。
核490可支持一个或多个指令集(例如,x86指令集(带有已随较新版本被添加的一些扩展);MIPS Technologies of Sunnyvale,CA的MIPS指令集;ARM Holdings ofSunnyvale,CA的ARM指令集(带有诸如NEON的可选附加扩展)),包括本文中所描述的指令。在一个实施例中,核490包括用于支持打包数据指令集扩展(例如,AVX1、AVX2)的逻辑,因此允许由许多多媒体应用来使用的操作使用打包的数据来执行。
应被理解的是,核可支持多线程(运行操作或线程的两个或更多并行集合),并可以多种方式来如此做,所述多种方式包括时间分段的多线程、同时多线程(在单个物理核为线程的每个提供逻辑核的情况中,那个物理核正进行同时多线程),或其组合(例如,诸如在Intel®超线程技术中的时间分段的取和解码以及其后的同时多线程)。
虽然寄存器重命名在乱序运行的上下文中被描述,但应理解的是,寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包括单独的指令和数据高速缓存单元434/474以及共享的L2高速缓存单元476,但备选实施例可具有用于指令和数据两者的单个内部高速缓存,诸如例如,1级(L1)内部高速缓存、或多个级别的内部高速缓存。在一些实施例中,系统可包括内部高速缓存及外部于核和/或处理器的外部高速缓存的组合。备选地,所有高速缓存可外部于核和/或处理器。
特定示范性有序核架构
图5A-B示出核将是芯片中若干逻辑块之一(包括相同类型和/或不同类型的其它核)的更特定示范性有序核架构的框图。逻辑块通过高带宽互连网络(例如,环网络)取决于应用而通信于一些固定的功能逻辑、存储器I/O接口、和另一必要I/O逻辑。
图5A是根据本发明的实施例的单个处理器核连同到管芯上互连网络502的它的连接并连同2级(L2)高速缓存504的它的本地子集的框图。在一个实施例中,指令解码器500支持带有打包的数据指令集扩展的x86指令集。L1高速缓存506允许低等待时间访问以将存储器高速缓存到标量和矢量单元中。虽然在一个实施例中(为简化设计),标量单元508和矢量单元510使用单独的寄存器集合(相应地,是标量寄存器512和矢量寄存器514),并且在它们之间所转移的数据被写到存储器并然后从1级(L1)高速缓存506读回,但本发明的备选实施例可使用不同手段(例如,使用单个寄存器集合或包括允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径)。
L2高速缓存504的本地子集是全局L2高速缓存的部分,所述全局L2高速缓存被划分成单独的本地子集,每处理器核一个。每个处理器核具有到L2高速缓存504的它自己的本地子集的直接访问路径。由处理器核所读的数据被存储在其L2高速缓存子集504中并能被快速地访问,并行于其它处理器核访问它们自己的本地L2高速缓存子集。由处理器核所写的数据被存储在其自己的L2高速缓存子集504中并且如果必要则从其它子集中转储清除。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、L2高速缓存、和其它逻辑块的代理在芯片内互相通信。在一些实施例中,每个环数据-路径每方向是1024-比特宽。
图5B是根据本发明的实施例的图5A中的处理器核的部分的扩展的视图。图5B包括L1高速缓存504的L1数据高速缓存506A部分,以及关于矢量单元510和矢量寄存器514的更多细节。具体地,矢量单元510是6宽矢量处理单元(VPU)(见16宽ALU 528),其运行整数、单精度浮动、和双精度浮动指令的一个或多个。VPU支持在存储器输入上通过打乱单元520来打乱寄存器输入、通过数值转换单元522A-B来进行数值转换、以及通过复制单元524来进行复制。
具有集成存储器控制器和图形的处理器
图6是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器600的框图。图6中的实线框示出带有单个核602A、系统代理610、一个或多个总线控制器单元616的集合的处理器600,而虚线框的可选附加示出带有多个核602A-N、系统代理单元610中的一个或多个集成存储器控制器单元614的集合、和专用逻辑608的备选处理器600。
因此,处理器600的不同实现可包括:1)CPU,带有是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)的专用逻辑608、以及是一个或多个通用核(例如,通用有序核、通用乱序核、所述两个核的组合)的核602A-N;2)带有是打算主要用于图形和/或科学(吞吐量)的大量的专用核的核602A-N的协同处理器;以及3)带有是大量的通用有序核的核602A-N的协同处理器。因此,处理器600可以是通用处理器、协同处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量许多集成核(MIC)协同处理器(包括30或更多核)、嵌入式处理器等等。处理器可被实现在一个或多个芯片上。使用多个处理技术的任何个(诸如例如,BiCMOS、CMOS、或NMOS),处理器600可被实现在一个或多个衬底上和/或是其部分。
存储器层级包括核604A-N内高速缓存的一个或多个级别、共享的高速缓存单元606的集合或一个或多个、和耦合到集成存储器控制器单元614的集合的外部存储器(未示出)。共享的高速缓存单元606的集合可包括一个或多个中级别高速缓存,诸如2级(L2)、3级(L3)、4级(L4)、或其它级别的高速缓存、最后级别高速缓存(LLC)、和/或其组合。虽然在一个实施例中,基于环的互连单元612将集成图形逻辑608、共享的高速缓存单元606的集合、以及系统代理单元610/集成存储器控制器单元614互连,但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中,一个或多个高速缓存单元606和核602-A-N之间的一致性被维持。
在一些实施例中,核602A-N的一个或多个核有多线程的能力。系统代理610包括协调和操作核602A-N的那些组件。系统代理单元610可包括例如功率控制单元(PCU)和显示器单元。PCU可以是或包括为调节集成图形逻辑608和核602A-N的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或多个外部连接的显示器。
核602A-N可关于架构指令集是同质或异质的;那就是说,核602A-N的两个或更多核可有运行相同指令集的能力,而其它的核可有运行不同指令集或那个指令集的仅子集的能力。
示范性计算机架构
图7-10是示范性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其它电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说,能够合并如本文中所公开的处理器和/或其它运行逻辑的极多种的系统或电子装置一般是适合的。
现在参考图7,所示出的是根据本发明的一个实施例的系统700的框图。系统700可包括被耦合到控制器集线器720的一个或多个处理器710、715。在一个实施例中,控制器集线器720包括图形存储器控制器集线器(GMCH)790和输入/输出集线器(IOH)750(其可在单独的芯片上);GMCH 790包括存储器740和协同处理器745被耦合到的存储器和图形控制器;IOH 750将输入/输出(I/O)装置760耦合到GMCH 790。备选地,存储器和图形控制器之一或两者被集成在处理器(如本文中所描述的)内,存储器740和协同处理器745被直接耦合到处理器710、和带有IOH 750的单个芯片中的控制器集线器720。
附加处理器715的可选性质在图7中用断线来指代。每个处理器710、715可包括本文中所描述的处理核中的一个或多个,并可以是处理器600的某版本。
存储器740可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)、或所述两个存储器的组合。对于至少一个实施例,控制器集线器720经由诸如前侧总线(FSB)的多点总线、点对点接口、或类似连接795来与处理器710、715通信。
在一个实施例中,协同处理器745是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中,控制器集线器720可包括集成图形加速器。
物理资源710、7155之间关于包括架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。
在一个实施例中,处理器710运行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协同处理器指令。处理器710将这些协同处理器指令辨认为是应由附连的协同处理器745来运行的类型。因此,处理器710在协同处理器总线或其它互连上将这些协同处理器指令(或代表协同处理器指令的控制信号)发布到协同处理器745。协同处理器745接受并运行所接收的协同处理器指令。
现在参考图8,所示出的是根据本发明的实施例的第一更特定示范性系统800的框图。如图8中所示出的,多处理器系统800是点对点互连系统,并包括经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880中的每个可以是处理器600的某版本。在本发明的一个实施例中,处理器870和880相应是处理器710和715,而协同处理器838是协同处理器745。在另一个实施例中,处理器870和880相应是处理器710、协同处理器745。
处理器870和880被示出相应包括集成存储器控制器(IMC)单元872和882。处理器870还包括作为它的总线控制器单元的部分的点对点(P-P)接口876和878;类似地,第二处理器880包括P-P接口886和888。使用P-P接口电路878、888,处理器870、880可经由点对点(P-P)接口850来互换信息。如图8中所示出的,IMC 872和882将处理器耦合到相应存储器(就是存储器832和存储器834),其可以是本地附连到相应处理器的主存储器的部分。
使用点对点接口电路876、894、886、898,处理器870、880可各自经由各个P-P接口852、854与芯片集890互换信息。芯片集890可以可选地经由高性能接口892与协同处理器838互换信息。在一个实施例中,协同处理器838是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等
共享的高速缓存(未示出)可被包括在任一处理器中或在两个处理器之外,又经由P-P互连与处理器连接,使得如果处理器被置于低功率模式中,则任一或两个处理器的本地高速缓存信息可被存储在共享的高速缓存中。
芯片集890可经由接口896来耦合到第一总线816。在一个实施例中,第一总线816可以是外围组件互连(PCI)总线、或诸如PCI高速总线或另一I/O互连总线的总线,尽管本发明的范畴未被如此限制。
如图8中所示出的,各种I/O装置814可连同总线桥818被耦合到第一总线816,总线桥818将第一总线816耦合到第二总线820。在一个实施例中,诸如协同处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或任何其它处理器的一个或多个附加处理器815被耦合到第一总线816。在一个实施例中,第二总线820可以是低管脚计数(LPC)总线。各种装置可被耦合到第二总线820,包括例如键盘和/或鼠标822、通信装置827和诸如硬盘驱动器或其它大容量存储装置的存储单元828,其可包括指令/代码和数据830(在一个实施例中)。进一步地,音频I/O 824可被耦合到第二总线816。注意,其它架构是可能的。例如,替代图8的点对点架构,系统可实现多点总线或另一此类架构。
现在参考图9,所示出的是根据本发明的实施例的第二更特定示范性系统900的框图。图8和9中的相似元件标有相似附图标记,并且图8的某些方面已从图9中被省略以便避免使图9的其它方面难以理解。
图9示出了处理器870、880可相应包括集成存储器以及I/O控制逻辑(“CL”)972和982。因此,CL 972、982包括集成存储器控制器单元并包括I/O控制逻辑。图9示出了不仅存储器832、834被耦合到CL 872、882,而且I/O装置914也被耦合到控制逻辑872、882。遗留I/O装置915被耦合到芯片集890。
现在参考图10,所示出的是根据本发明的实施例的SoC 1000的框图。图6中的类似元件标有相似附图标记。同样,虚线框在更高级的SoC上是可选特征。在图10中,互连单元1002被耦合到:应用处理器1010,其包括一个或多个核102A-N的集合、高速缓存单元604A-N和共享的高速缓存单元606;系统代理单元610;总线控制器单元616;集成存储器控制器单元614;协同处理器1020的集合或一个或多个,其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器;静态随机存取存储器(SRAM)单元1030;直接存储器访问(DMA)单元1032;以及用于耦合到一个或多个外部显示器的显示器单元1040。在一个实施例中,协同处理器1020包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。
本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上运行的程序代码或计算机程序,所述可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置、和至少一个输出装置。
诸如图8中所示出的代码830的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或多个输出装置。为了此应用的目的,处理系统包括具有处理器(诸如例如:数字信号处理器(DSP)、微控制器、应用特定集成电路(ASIC)、或微处理器)的任何系统。
程序代码可被实现在高等级规程上(procedural)或面向对象的编程语言中以与处理系统通信。如果期望的话,则程序代码可还被实现在汇编或机器语言中。事实上,本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中,语言可以是编译或解译的语言。
至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性指令来实现,所述代表性指令表示处理器内的各种逻辑,其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示(已知为“IP核”)可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。
此类机器可读存储介质可包括由机器或装置所制造或形成的物品(article)的非暂态、有形的布置而没有限制,包括存储介质(诸如硬盘、包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)、和磁光盘的任何其它类型的盘)、半导体装置(诸如只读存储器(ROM),诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)的随机存取存储器(RAM),可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)、磁或光卡、或适合于存储电子指令的任何其它类型的介质)。
因此,本发明的实施例还包括非暂态、有形的机器可读介质,所述介质含有指令或含有设计数据,诸如硬件描述语言(HDL),其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。
仿真(包括二进制转化、代码变形等)
在一些情况中,指令转换器可被用于将指令从源指令集转换成目标指令集。例如,指令转换器可转化(例如,使用静态二进制转化、包括动态编译的动态二进制转化)、变形、仿真、或以其它方式将指令转换成要由核来处理的一个或多个其它指令。指令转换器被实现在软件、硬件、固件、或其组合中。指令转换器可在处理器上、离开处理器、或部分在处理器上而部单独开处理器。
图11是框图,其对照根据本发明的实施例的使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令。在所示出的实施例中,指令转换器是软件指令转换器,尽管备选地指令转换器可被实现在软件、固件、硬件、或其各种组合中。图11示出使用第一编译器1104,用高等级语言1102的程序可被编译以生成第一二进制代码(例如,x86)1106,其可由带有至少一个第一指令集核的处理器1116来原生运行。在一些实施例中,带有至少一个第一指令集核的处理器1116表示能如带有至少一个x86指令集核的Intel处理器一样大体上执行相同功能的任何处理器,这通过兼容地运行或以其它方式处理(1)Intel x86指令集核的指令集的实质部分,或(2)针对于在带有至少一个x86指令集核的Intel处理器上运行的应用或另一软件的对象(object)代码版本,以便取得大体上与带有至少一个x86指令集核的Intel处理器相同的结果。第一编译器1104表示可操作以生成第一指令集的二进制代码1106(例如,对象代码)的编译器,二进制代码1106能通过或不通过附加联接处理而在带有至少一个第一指令集核的处理器1116上被运行。类似地,图11示出了使用备选指令集编译器1108,用高等级语言1102的程序可被编译以生成备选指令集二进制代码1110,其可由不带有至少一个第一指令集核的处理器1114(例如,带有运行MIPSTechnologies of Sunnyvale,CA的MIPS指令集和/或运行ARM Holdings of Sunnyvale,CA的ARM指令集的核的处理器)来原生运行。指令转换器1112被用于将第一二进制代码1106转换成可由不带有第一指令集核的处理器1114来原生运行的代码。此被转换的代码不可能与备选指令集二进制代码1110相同,因为能够这样做的指令转换器难以做出;然而,被转换的代码将完成一般操作并由来自备选指令集的指令构成。因此,指令转换器1112表示软件、固件、硬件、或其组合,其通过仿真、模拟或任何其它过程而允许不具有第一指令集处理器或核的处理器或另一电子装置运行第一二进制代码1106。
用于数字信号处理指令的设备和方法
以下描述数字信号处理(DSP)指令。在一个实施例中,要执行DSP操作的电路和逻辑被集成在图4B中示出的执行引擎单元450内、上述各种核(例如,见图6和10中的核602A-N)内和/或图5A中示出的矢量单元510内。例如,各种源和目的地寄存器可以是图4B中的物理寄存器堆单元458和/或图3中的矢量寄存器310内的SIMD寄存器。以下描述的乘法电路、加法器电路、累加电路和其它电路可以集成在以上描述的架构的执行组件中,以示例且非限制的方式,包括图4B中的执行单元462。然而,应当注意,本发明的基本原理不限于这些特定架构。
本发明的一个实施例包括用于处理数字信号处理(DSP)指令的电路和/或逻辑。具体而言,一个实施例包括具有八个16x16比特乘法器和两个64比特累加器的乘法-累加(MAC)架构。以下描述的指令集架构(ISA)能处理关于128比特打包(8比特、16比特或32比特数据元素)整数、固定点和复数数据类型的各种乘法和MAC操作。此外,某些指令具有对于高效率快速傅立叶变换(FFT)和有限脉冲响应(FIR)滤波,以及通过移位、舍入和饱和操作对累加数据进行后期处理的直接支持。
新DSP指令的一个实施例使用基于VEX.128前缀的操作码编码并且处置数据的后期处理的若干SSE/SSE2/AVX指令与DSP ISA一起被使用。带有存储器操作数的VEX编码的128比特DSP指令可能具有宽松的存储器对准要求。
在一个实施例中,指令还支持各种各样整数和固定点数据类型,包括:
1)Q31数据类型,用于要求带有大于16比特的模数转换(ADC)和数模转换(DAC)的信号;
2)Q15数据类型,其在DSP算法中是常见的;
3)复数16比特数据类型;以及
4)复数32比特数据类型。
本文所描述的指令集架构以广泛范围的标准DSP(例如,FFT、滤波、模式匹配、相关性、多项式求值等)和统计操作(例如,均值、移动平均数、方差等)为目标。
本发明实施例的目标应用包括传感器、音频、用于计算机视觉的分类任务、和语音识别。本文所描述的DSP ISA包括广泛范围的指令,其适用于深层神经网络(DNN)、自动语音识别(ASR)、与卡尔曼滤波融合的传感器、其它主要DSP应用等。给定权重序列{w1,w2,…wk}和输入序列{x1,x2,x3,…xn},许多图像处理、机器学习任务要求计算由yi=w1xi+w2xi+1+……………+wkxi+k-1所定义的结果序列{y1,y2,y3,…yn+1-k}。
图12示出了本发明实施例可在其上被实现的示范性处理器1255,其包括用于同时执行多个指令线程的多个核0-N。所示出的实施例包括解码器1230内的DSP指令解码电路/逻辑1231和执行单元1240内的DSP指令执行电路/逻辑1341。这些流水线组件可以响应于DSP指令的解码和执行来执行本文中所描述的操作。虽然图12中仅示出了单个核(核0)的细节,但是将理解的是,处理器1255的其它核中的每个可以包括类似组件。
在描述本发明实施例的具体细节之前,示范性处理器1255的各种组件的描述在以下被直接提供。多个核0-N中可每个包括用于执行存储器操作(例如,诸如加载/存储操作)的存储器管理单元1290、通用寄存器(GPR)1205的集合、矢量寄存器1206的集合和掩码寄存器1207的集合。在一个实施例中,多个矢量数据元素被打包到每个矢量寄存器1206中,矢量寄存器1206可以具有512比特宽,以用于存储两个256比特值、四个128比特值、八个64比特值、十六个32比特值等。然而,本发明的基本原理不限于任何具体大小/类型的矢量数据。在一个实施例中,掩码寄存器1207包括八个64比特操作数掩码寄存器,其用于对存储在矢量寄存器1206中的值执行比特掩码化操作(例如,实现为本文所描述的掩码寄存器k0-k7)。然而,本发明的基本原理不限于任何具体的掩码寄存器大小/类型。
每个核0-N可以包括专用的1级(L1)高速缓存1212和2级(L2)高速缓存1211,以用于根据指定的高速缓存管理策略来高速缓存指令和数据。L1高速缓存1212包括用于存储指令的单独指令高速缓存1220和用于存储数据的单独数据高速缓存1221。存储在各个处理器高速缓存内的指令和数据以高速缓存线的粒度进行管理,其可以是固定大小(例如,长度为64、128、512字节)。此示范性实施例的每个核具有指令取单元1210,用于从主存储器1200和/或共享3级(L3)高速缓存1216取指令。指令取单元1210包括各个众所周知的组件,包括:下一指令指针1203,用于存储要从存储器1200(或高速缓存之一)取的下一指令的地址;指令转化后备缓冲器(ITLB)1204,用于存储最近使用的虚拟到物理指令地址的映射,以提高地址转化的速度;分支预测单元1202,用于推断性预测指令分支地址;以及分支目标缓冲器(BTB)1201,用于存储分支地址和目标地址。
如提及的,解码单元1230包括DSP指令解码电路/逻辑1231,用于将本文中所描述的DSP指令解码到微操作或“uops”中,并且执行单元1240包括DSP指令执行电路/逻辑1241,用于执行DSP指令。写回/引退单元1250将执行的指令引退并写回结果。
用于实现快速傅立叶变换(FFT)蝴蝶运算(Butterfly Operation)的实施例
本发明的一个实施例包括使用复数矢量/打包数据执行16 x 16 FFT蝴蝶运算的指令。复数采用实数分量和虚数分量表示。在一个实施例中,用于给定复数的实数分量和虚数分量作为16比特打包数据值被存储在128比特矢量寄存器(诸如下面描述的xmm寄存器)内。在一个具体实现中,16比特实数值被存储在与对应16比特虚数值相邻的数据元素地点中(即,其中实数分量和虚数分量指定完整的复数)。然而,注意本发明的基础原理不被限于任何这些具体数据元素大小或布置。
图13图示了在示范源寄存器(SRCx)中的比特分布。在其中每个复数的实数分量和虚数分量被存储在相邻数据元素地点的实施例中,实数分量可例如被存储为数据元素A,并且对应虚数分量可被存储为数据元素B。在此布置中,分别地,数据元素C、E和G存储额外的实数分量,并且数据元素D、F和H存储额外的对应虚数分量。在其它实施例中,实数分量和虚数分量在上面的描述中被反转(即,数据元素A包括虚数分量,并且数据元素B包括实数分量)。然而,下面的描述将假设在其中数据元素A、C、E和G是实数,并且数据元素B、D、F和H是虚数的布置。
图14图示了通过使用立即数、舍入和饱和为字指令,执行矢量打包复数乘和加、缩放,用于执行FFT运算的至少一部分的示范架构。在一个实现中,响应于在本文中称为助忆的VPCR2BFRSW的单个指令的执行而执行这些运算。在一个实施例中,此指令使用在图14中的寄存器SRC1/DEST 1460、SRC2 1401和SRC3 1402中存储的三个打包数据源操作数。在图示的实施例中,SRC2 1401存储数据元素S2A-S2H,源寄存器SRC3 1402存储数据元素S3A-S3H,并且SRC1/DEST 1460存储数据元素S1A-S1H(S2被用作SRC2的简写,S3用作SRC3的简写,以及S1用作SRC1/DEST的简写)。
在图示的实施例中,八个乘法器1405根据被执行的指令,将SRC2中的数据元素乘以在SRC3中的数据元素,以生成8个乘积(例如,S3A*S2A,S3B*S2B等)。加法器网络1410-1411的第一和第二集合根据指令对各种乘积进行加和减,并且在下面描述的实施例中,还对来自SRC1/DEST 1460的值进行加/减。
包括加法器1420-1421的累加电路系统可组合上述结果和在SRC1/DEST寄存器1460中存储的之前累加的结果(如果有的话),但某些实施例不执行累加(参见例如图16和关联文本)。结果可随后由饱和电路系统1440进行饱和(即,如果一个或多个值大于最大支持的值,则输出最大值),并且经由输出复用器1450往回被存储在目标地寄存器(SRC1/DEST)1460中。
图示的数据处理架构可用于执行各种指令,其中由数据处理架构执行的具体运算基于被执行的具体指令。此详细描述的剩余部分将明确关注在用于执行有时称为助忆的VPCR2BFRSW的快速傅立叶变换(FFT)蝴蝶运算的指令的执行上。在一个实施例中,FFT蝴蝶运算包括时间抽取(DIT)FFT运算,其由生成16比特复数输出的两个16比特基底-2 FFT蝴蝶运算实现。
图15中使用两个输入函数F1[k]和F2[k]和“旋转因子(twiddle factor)”WN k 图示了示范蝴蝶运算。在FFT术语中,旋转因子包括三角法恒量系数,其在算法的过程中乘以数据(例如,在图示的示例中的F2[k])。具体地说,一个或多个乘法器1510将WN k 的值乘以F2[k]的值,并且加法器1520-1521将F1[k]的值加上/减去该结果以生成结果X[k]和X[k + N/2]如下:
其中,k=0、…、N-1
如下所描述的,在一个实施例中,乘法器1510包括在图14中的乘法器1405,并且加法器1520-1521包括加法器网络1410-1411。图16提供来自图14的架构的另一视图,带有与时间抽取(DIT)FFT运算的执行有关的额外细节(例如,数据线1601-1602,用于将数据分别从SRC1/DEST寄存器1460提供到加法器网络1410-1411)。
在一个实施例中,执行电路系统首先通过旋转因子的选择的分量{WN[k+3],WN[k+2],WN[k+1],WN[k]}来执行F2[k]、{F2[k+3],F2[k+2],F2[k+1],F2[k]}的选择的分量的矢量打包复数相乘。在描述的实现中,分量{F2[k+3],F2[k+2],F2[k+1],F2[k]}被存储在SRC2寄存器1401(有时被标识为xmm2)中的打包数据元素地点中,并且旋转因子分量{WN[k+3],WN[k+2],WN[k+1],WN[k]}被存储在SRC3寄存器1402(有时被标识为xmm3)中的打包数据元素地点中。这些分量中的每个可以是具有在相邻数据元素地点中存储的实数分量和虚数分量的复数值。例如,如上面所提及的,分别地,数据元素A、C、E和G可存储每个复数的实数分量,并且数据元素B、D、F和H可存储每个复数的对应虚数分量。然而,在仍符合本发明的基础原理的同时,可以各种不同方式存储实数和复数数据元素。
在一个实施例中,指令的立即数指定要用于当前乘法舍入的打包数据元素的具体集合。例如,在一个实施例中,由imm8[2]根据下面的表A来选择在每个源寄存器中两个四字(Qword)中的每个的低/高双字(Dword)。
Imm8[2] SRC2 SRC3
0 [31:0]/[95:64] [31:0]/[95:64]
1 [63:32]/[127:96] [63:32]/[127:96]
表A
因此,如果imm8[2]为0,则在乘法运算中使用来自每个源寄存器1401-1402的数据元素A-B和E-F。如果imm8[2]为1,则数据元素C-D和G-H被用于乘法。
在一个实施例中,从上述乘法生成的复数被提供为到加法器网络1410-1411的输入,加法器网络1410-1411从在SRC1/DEST 1460中存储的打包复数数据元素{F1[k+3],F1[k+2],F1[k+1],F1[k]}中加上/减去这些复数。在一个实施例中,立即数值imm8[2]还控制根据表A从SRC1/DEST选择的具体打包数据元素。因此,如果imm8[2]为0,则选择数据元素A-B和E-F(例如,分别对应于F1[k]和F1[k+2]),并且如果imm8[2]为1,则选择数据元素C-D和G-H(例如,分别对应于F1[k+1]和F1[k+3])。
在一个实施例中,通过在imm8[1:0]中指示的值来缩放或算术右移加/减的结果。在一个实施例中,也可在将复数输出写入到SRC1/DEST 1460的128比特前执行舍入和饱和以从中间结果中提取16比特。在一个实施例中,取决于imm8[2]的值,值包括{X[k+2+N/2],X[k+2],X[k+N/2],X[k]}或{X[k+3+N/2],X[k+3],X[k+1+N/2],X[k+1]}。
以下组的运算指示用于本文中描述的运算的比特宽度:
(16+16i)+(16+16i)x(16+16i)=(16+16i)
(16+16i)-(16+16i)x(16+16i)=(16+16i)
(16+16i)+(16+16i)x(16+16i)=(16+16i)
(16+16i)-(16+16i)x(16+16i)=(16+16i)
在上述示例中,(16+16i)x(16+16i)包括在一个实施例中来自SRC2(例如,xmm2)的Qword中的每个的低/高Dword的复数和在SRC3(例如,xmm3)中存储的旋转因子的相乘。然后,从来自SRC1/DEST(例如,xmm1)的Qword中的每个的低/高Dwords加上或者减去得到的乘积。在前述记号中,值是用于表示每个复数的比特的数量(例如,16+16i意味着由16比特实数分量和16比特虚数分量表示的复数)。然而,应注意到的是,本发明的基础原理不限于前述比特宽度。
如所提及的,可根据如在下面表B中所指示的imm8[1:0]来执行缩放。
Imm8[1] Imm8[0] 描述
0 0 没有移位
0 1 向右移位1比特
1 0 向右移位2比特
1 1 预留(没有移位)
表B
缩放之后可以是舍入和饱和运算(如果需要的话)。
下面的代码指定在一个实施例中由图16中示出的架构执行的个体运算。在代码下文提供了详细的描述:
SOFFSET = imm8[2] * 32;
TEMP0[31:0] ← (SRC2[(15+SOFFSET):SOFFSET] * SRC3[(15+SOFFSET):SOFFSET]);(* Re *)
TEMP1[31:0] ← (SRC2[(31+SOFFSET):(16+SOFFSET)] * SRC3[(31+SOFFSET):(16+SOFFSET)]); (* Re *)
TEMP2[31:0] ← (SRC2[(15+SOFFSET):SOFFSET] * SRC3[(31+SOFFSET):(16+SOFFSET)]); (* Im *)
TEMP3[31:0] ← (SRC2[(31+SOFFSET):(16+SOFFSET)] * SRC3[(15+SOFFSET):SOFFSET]); (* Im *)
TEMP4[31:0] ← (SRC2[(79+SOFFSET):(64+SOFFSET)] * SRC3[(79+SOFFSET):(64+SOFFSET)]); (* Re *)
TEMP5[31:0] ← (SRC2[(95+SOFFSET):(80+SOFFSET)] * SRC3[(95+SOFFSET):(80+SOFFSET)]); (* Re *)
TEMP6[31:0] ← (SRC2[(79+SOFFSET):(64+SOFFSET)] * SRC3[(95+SOFFSET):(80+SOFFSET)] ; (* Im *)
TEMP7[31:0] ← (SRC2[(95+SOFFSET):(80+SOFFSET)] * SRC3[(79+SOFFSET):(64+SOFFSET)] ; (* Im *)
(* 符号扩展和减去下面每个等式中的TEMP值以形成33比特值。SRC2被符号扩展成33比特。加33比特值给出33比特值并且忽略进位比特*)
TEMP8[32:0] ← ({SRC1[(15+SOFFSET):SOFFSET], 15’b0} + (TEMP0 – TEMP1));(* Re *)
TEMP9[32:0] ← ({SRC1[(31+SOFFSET):(16+SOFFSET)],15’b0} + (TEMP2 +TEMP3)); (* Im *)
TEMP10[32:0] ← ({SRC1[(15+SOFFSET):SOFFSET], 15’b0} - (TEMP0 – TEMP1));(* Re *)
TEMP11[32:0] ← ({SRC1[(31+SOFFSET):(16+SOFFSET)],15’b0} - (TEMP2 +TEMP3)); (* Im *)
TEMP12[32:0] ← ({SRC1[(79+SOFFSET):(64+SOFFSET)],15’b0} + ( TEMP4 –TEMP5)); (* Re *)
TEMP13[32:0] ← ({SRC1[(95+SOFFSET):(80+SOFFSET)],15’b0} + ( TEMP6 +TEMP7)); (* Im *)
TEMP14[32:0] ← ({SRC1[(79+SOFFSET):(64+SOFFSET)],15’b0} - ( TEMP4 –TEMP5)); (* Re *)
TEMP15[32:0] ← ({SRC1[(95+SOFFSET):(80+SOFFSET)],15’b0} - ( TEMP6 +TEMP7)); (* Im *)
DEST[15:0] ← ScaleRoundAndSaturateToSignedWord(TEMP8[32:0], MXCSR, DEST[15:0],imm8);
DEST[31:16] ← ScaleRoundAndSaturateToSignedWord(TEMP9[32:0], MXCSR, DEST[31:16] ,imm8);
DEST[47:32] ← ScaleRoundAndSaturateToSignedWord(TEMP10[32:0], MXCSR,DEST[47:32] ,imm8);
DEST[63:48] ← ScaleRoundAndSaturateToSignedWord(TEMP11[32:0], MXCSR,DEST[63:48] ,imm8);
DEST[79:64] ← ScaleRoundAndSaturateToSignedWord(TEMP12[32:0], MXCSR,DEST[79:64] ,imm8);
DEST[95:80] ← ScaleRoundAndSaturateToSignedWord(TEMP13[32:0], MXCSR,DEST[95:80] ,imm8);
DEST[111:96] ← ScaleRoundAndSaturateToSignedWord(TEMP14[32:0], MXCSR,DEST[111:96] ,imm8);
DEST[127:112] ← ScaleRoundAndSaturateToSignedWord (TEMP15[32:0], MXCSR,DEST[127:112] ,imm8);
在上述代码的第一行中,基于imm8[2]的值,设置偏移值SOFFSET。具体地说,SOFFSET是0(对于imm8[2]=0)或32(对于imm8[2]=1)。因此,SOFFSET指示要从SRC2和SRC3的每个Qword选择较高还是较低Dword。
下一组运算更新临时存储地点TEMP0-3[31:0],其可以是临时寄存器或存储器地点。SRC2中的低四字中的低或高Dword乘以SRC3的低四字的低或高Dword。如果imm8[2]=0,则选择低Dword,并且如果imm8[2]=1,则选择高Dword。通过示例方式,在图14中,如果imm8[2]=0,则从SRC2和SRC3选择在打包数据元素A和B中存储的复数。在一个实施例中,A是实数分量,并且B是虚数分量。乘法运算因而是S2A*S3A(在TMP0中存储的实数值)、S2B*S3B(在TEMP1中存储的实数值)、S2A*S3B(在TEMP2中存储的虚数值)和S2B*S3A(在TEMP3中存储的虚数值)。
下一组运算更新临时存储地点TEMP4-7[31:0],其将在SRC2的较高四字中的低或高Dword乘以SRC3的较高四字中的低或高Dword。像先前一样,如果imm8[2]=0,则选择低Dword,并且如果imm8[2]=1,则选择高Dword。通过示例方式,在图14中,如果imm8[2]=0,则从SRC2和SRC3选择在打包数据元素E和F中存储的复数,其中E是实数分量,并且F是虚数分量。乘法运算因而是S2E*S3E(在TMP4中存储的实数值)、S2F*S3F(在TEMP5中存储的实数值)、S2E*S3F(在TEMP6中存储的虚数值)和S2F*S3E(在TEMP7中存储的虚数值)。
下一组运算使用在TEMP0-3中的乘积来更新临时存储地点TEMP8[32:0]-TEMP11[32:0]。具体地说,此组运算使用在TEMP0、TEMP1、TEMP2和TEMP3中的乘积对不同组的值进行加和减(例如,TEMP0-TEMP1和TEMP2+TEMP3)。在一个实施例中,这些值被符号扩展到33比特,并且来自SRC1的较低四字的较低或较高Dword减去或加上结果(参见代码以了解特定细节)。如所指示的,在一个实施例中,在与涉及TEMP0-3值的上述运算的结果相加/相减之前,SRC1值首先被符号扩展,并且用零打包(如由15'b0所指示的),以生成33比特值。加/减33比特值生成33比特值,其中之一被存储在TEMP8、TEMP9、TEMP10和TEMP11中的每个中,忽略进位比特。
下一组运算实质上以与涉及上面TEMP8-TEMP11的运算相同的方式更新TEMP12[32:0]-TEMP15[32:0],但使用来自TEMP4、TEMP5、TEMP6和TEMP7的不同组的值。在一个实施例中,这些值被符号扩展到33比特。随后,来自SRC1的较高四字的较低或较高Dword减去或加上TEMP4-TEMP5和TEMP6+TEMP7运算的结果(参见代码以了解特定细节)。如所指示的,在一个实施例中,在与涉及TEMP4-7值的上述运算的结果相加/相减之前,SRC1值首先被符号扩展,并且用零打包,以生成33比特值。加/减33比特值生成33比特值,其中之一被存储在TEMP12、TEMP13、TEMP14和TEMP15中的每个中,忽进位比特。
随后可执行额外运算以缩放、舍入和/或饱和成在TEMP8-TEMP15中存储的8个临时结果中有符号的字。在一个实施例中,值被饱和成有符号的字,其被存储在目的地(DEST/SRC1)中指定的16比特数据元素位置中。如所指示的,这些运算中的每个可根据在MXCSR控制和状态寄存器中指定的控制数据以及立即数值imm8而被执行。随后,用进行缩放、舍入和/或饱和之后的TEMP8-TEMP15更新目的地寄存器(DEST)的每个Dword。例如,在进行缩放,舍入和/或饱和(如果需要的话)之后,TEMP8中的值被存储到目的地寄存器DEST[15:0]中的第一数据元素地点;TEMP9被存储到目的地寄存器DEST[31:16]中的第二数据元素地点;TEMP10被存储到目的地寄存器DEST[47:32]中的第三数据元素地点,并以此类推,直至到TEMP15中的值,其被存储到第八数据元素地点DEST[127:112]。
图17中图示了根据本发明的一个实施例的方法。方法可在上面描述的系统架构的上下文内实现,但不限于任何特定系统或处理器架构。
在1701,取具有针对操作码、表示具有实数值和虚数值的复数的第一、第二和第三打包数据源操作数和打包数据目的地操作数的字段的第一指令。在1702,解码第一指令(例如,解码成多个微操作)。在1703,与第一、第二和第三源操作数关联的实数值和虚数值作为打包数据元素被存储在第一、第二和第三源寄存器(例如,xmm1、xmm2和xmm3)中,并且第一指令被调度以供执行。如所提及的,在一个实施例中,源操作数被存储在存储16比特打包数据元素的128比特打包数据寄存器中,其中每个打包数据元素包括实数值或虚数值。
在1704,评估第一指令的立即数以从要用于执行指令的第一、第二和第三源寄存器中确定打包数据元素的集合。在上面描述的实施例中,例如,如果imm8[2]为0,则从三个源寄存器中选择打包数据元素的第一子集,而如果imm8[2]为1,则选择打包数据元素的第二子集。
在1705,执行解码的第一指令以根据立即数值将来自第一源寄存器的第一打包数据元素乘以来自第二源寄存器的第二打包数据元素。如所提及的,这产生多个不同的实数乘积和虚数乘积,其在1706被存储在临时存储地点(例如,临时寄存器或存储器地点)的第一集合中。
在1707,根据立即数(例如,根据在上述实施例中的imm8[2]),从第三源寄存器读取第三打包数据元素。在1708,将在操作1705中生成的多个实数/虚数乘积加上或减去第三打包数据元素中每个,以生成被存储在临时存储地点的第二集合中的第一结果。
在1709,对来自临时存储地点的第二集合的第一结果执行缩放、舍入和/或饱和运算以生成最终打包数据元素。在1710,将最终打包数据元素写入到目的地寄存器内的指定数据元素位置。在上面描述的实施例中,目的地寄存器是与第三源寄存器相同的寄存器。
在上面描述的一些实施例中,第一指令是VPCR2BFRSW指令,其被执行以执行16x16FFT蝴蝶运算。然而,本发明的基础原理不被限于此具体运算。另外,尽管上面描述的实数值和虚数值在长度上是16比特,但本发明的基础原理可使用任何大小的数据元素来实现。例如,实数分量和虚数分量可以是8比特、32比特或64比特,同时仍遵从本发明的基础原理。
本发明提供一组技术方案,如下:
1.一种处理器,包括:
解码器,用于解码第一指令以生成解码的指令;
第一源寄存器,用于存储第一多个打包实数数据元素和虚数数据元素;
第二源寄存器,用于存储第二多个打包实数数据元素和虚数数据元素;
第三源寄存器,用于存储第三多个打包实数数据元素和虚数数据元素;
执行电路系统,用于执行所述解码的指令,所述执行电路系统包括:
乘法器电路系统,用于基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,所述乘法器电路系统根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
加法器电路系统,用于基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,所述加法器电路系统将所述实数乘积和虚数乘积加上和减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放、舍入和/或饱和电路系统,用于缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
目的地寄存器,用于在指定的数据元素位置中存储所述最终实数数据元素和虚数数据元素。
2.根据技术方案1所述的处理器,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
3.根据技术方案2所述的处理器,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
4.根据技术方案3所述的处理器,其中响应于检测到具有第一值的所述立即数,所述乘法器电路系统将执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
5.根据技术方案4所述的处理器,其中所述加法器电路系统将执行加/减运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
6.根据技术方案4所述的处理器,其中响应于检测到具有第二值的所述立即数,所述乘法器电路系统将执行乘法S1C*S2C、S1D*S2D、S1C*S2D、S1D*S2C、S1G*S2G、S1H*S2H、S1G*S2H、S1H*S2G以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
7.根据技术方案5所述的处理器,其中在执行所述加和减运算前,值S3A、S3B、S3E和S3F被符号扩展到33比特。
8.根据技术方案1所述的处理器,其中所述目的地寄存器和所述第三源寄存器是相同物理寄存器。
9.根据技术方案1所述的处理器,其中使用所述实数数据元素和虚数数据元素的乘,加/减和缩放、舍入和/或饱和的所述运算被执行以实现快速傅立叶变换。
10.根据技术方案9所述的处理器,其中所述第一多个打包实数数据元素和虚数数据元素包括来自第一输入函数的数据,所述第二多个打包实数数据元素和虚数数据元素包括来自旋转因子的数据,以及所述第三多个打包实数数据元素和虚数数据元素包括来自第二输入函数的数据。
11.一种方法,包括:
解码第一指令以生成解码的指令;
在第一源寄存器中存储第一多个打包实数数据元素和虚数数据元素;
在第二源寄存器中存储第二多个打包实数数据元素和虚数数据元素;
在第三源寄存器中存储第三多个打包实数数据元素和虚数数据元素;
基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,
根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,
将所述实数乘积和虚数乘积加上和减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
在目的地寄存器的指定数据元素位置中存储所述最终实数数据元素和虚数数据元素。
12.根据技术方案11所述的方法,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
13.根据技术方案12所述的方法,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
14.根据技术方案13所述的方法,其中响应于检测到具有第一值的所述立即数,执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
15.根据技术方案14所述的方法,其中加和减包括以下运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
16.根据技术方案14所述的方法,其中响应于检测到具有第二值的所述立即数,执行乘法S1C*S2C、S1D*S2D、S1C*S2D、S1D*S2C、S1G*S2G、S1H*S2H、S1G*S2H、S1H*S2G以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
17.根据技术方案15所述的方法,其中在执行所述加和减运算前,值S3A、S3B、S3E和S3F被符号扩展到33比特。
18.根据技术方案11所述的方法,其中所述目的地寄存器和所述第三源寄存器是相同物理寄存器。
19.根据技术方案11所述的方法,其中使用所述实数数据元素和虚数数据元素的乘,加/减和缩放、舍入和/或饱和的所述运算被执行以实现快速傅立叶变换。
20.根据技术方案19所述的方法,其中所述第一多个打包实数数据元素和虚数数据元素包括来自第一输入函数的数据,所述第二多个打包实数数据元素和虚数数据元素包括来自旋转因子的数据,以及所述第三多个打包实数数据元素和虚数数据元素包括来自第二输入函数的数据。
21.一种上面存储有程序代码的机器可读介质,所述程序代码在由机器执行,促使所述机器执行以下操作:
解码第一指令以生成解码的指令;
在第一源寄存器中存储第一多个打包实数数据元素和虚数数据元素;
在第二源寄存器中存储第二多个打包实数数据元素和虚数数据元素;
在第三源寄存器中存储第三多个打包实数数据元素和虚数数据元素;
基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,
根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,
将来自所述实数乘积和虚数乘积加上或减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
在目的地寄存器的指定数据元素位置中存储所述最终实数数据元素和虚数数据元素。
22.根据技术方案21所述的机器可读介质,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
23.根据技术方案22所述的机器可读介质,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
24.根据技术方案23所述的机器可读介质,其中响应于检测到具有第一值的所述立即数,执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
25.根据技术方案24所述的机器可读介质,其中加和减包括以下运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
26.根据技术方案24所述的机器可读介质,其中响应于检测到具有第二值的所述立即数,执行乘法S1C*S2C、S1D*S2D、S1C*S2D、S1D*S2C、S1G*S2G、S1H*S2H、S1G*S2H、S1H*S2G以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
27.根据技术方案25所述的机器可读介质,其中在执行所述加和减运算前,值S3A、S3B、S3E和S3F被符号扩展到33比特。
28.根据技术方案21所述的机器可读介质,其中所述目的地寄存器和所述第三源寄存器是相同物理寄存器。
29.根据技术方案21所述的机器可读介质,其中使用所述实数数据元素和虚数数据元素的乘,加/减和缩放、舍入和/或饱和的所述运算被执行以实现快速傅立叶变换。
30.根据技术方案29所述的机器可读介质,其中所述第一多个打包实数数据元素和虚数数据元素包括来自第一输入函数的数据,所述第二多个打包实数数据元素和虚数数据元素包括来自旋转因子的数据,以及所述第三多个打包实数数据元素和虚数数据元素包括来自第二输入函数的数据。
在前述说明书中,本发明的实施例已参照其特定示范性实施例而被描述。然而,将明显的是,在不脱离如随附权利要求中所陈述的本发明的更广泛的精神和范围的情况下,可对其进行各种修改和更改。因此,要以说明性而不是限制性的意义考虑说明书和附图。
本发明的实施例可包含上面已描述的各种步骤。这些步骤可在机器可执行指令中实施,机器可执行指令可用于促使通用或专用处理器执行步骤。备选地,这些步骤可由含有用于执行步骤的硬连线逻辑的特定硬件组件执行,或者由编程的计算机组件和定制硬件组件的任何组合执行。
如本文中所述,指令可涉及硬件的特定配置,硬件诸如配置成执行某些操作或具有在以非暂态计算机可读介质实施的存储器中存储的预确定的功能性或软件指令的专用集成电路(ASIC)。因此,使用在一个或多个电子装置(例如,终端站、网络元素等)上存储和执行的代码和/或数据,能够实现图中示出的技术。此类电子装置使用计算机机器可读介质,诸如非暂态计算机机器可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪速存储器装置、相变存储器)和暂态计算机机器可读通信介质(例如,电气、光学、声学或其它形式的传播信号 - 诸如载波、红外信号、数字信号等),存储和传递(在内部和/或通过网络与其它电子装置一起进行)代码和数据。另外,此类电子装置一般包括耦合到诸如一个或多个存储装置(非暂态机器可读存储介质)、用户输入/输出装置(例如,键盘、触摸屏和/或显示器)和网络连接等一个或多个其它组件的一个或多个处理器的集合。该集合的处理器与其它组件的耦合一般是通过一个或多个总线和桥接器(也称为总线控制器)。携带网络业务的信号和存储装置分别表示一个或多个机器可读通信介质和机器可读存储介质。因此,给定电子装置的存储装置一般存储代码和/或数据以便在该电子装置的该集合的一个或多个处理器上执行。当然,可使用软件、固件和/或硬件的不同组合,实现本发明的实施例的一个或多个部分。通篇本详细描述中,处于解释的目的,陈述了许多特定的细节以便提供本发明的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明。在某些实例中,未详细阐述众所周知的结构和功能,以便避免混淆本发明的主题。因此,应根据随后的权利要求来判断本发明的范围和精神。

Claims (25)

1.一种处理器,包括:
解码器,用于解码第一指令以生成解码的指令;
第一源寄存器,用于存储第一多个打包实数数据元素和虚数数据元素;
第二源寄存器,用于存储第二多个打包实数数据元素和虚数数据元素;
第三源寄存器,用于存储第三多个打包实数数据元素和虚数数据元素;
执行电路系统,用于执行所述解码的指令,所述执行电路系统包括:
乘法器电路系统,用于基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,所述乘法器电路系统根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
加法器电路系统,用于基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,所述加法器电路系统将所述实数乘积和虚数乘积加上和减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放、舍入和/或饱和电路系统,用于缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
目的地寄存器,用于在指定的数据元素位置中存储所述最终实数数据元素和虚数数据元素。
2.根据权利要求1所述的处理器,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
3.根据权利要求1或2所述的处理器,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
4.根据权利要求3所述的处理器,其中响应于检测到具有第一值的所述立即数,所述乘法器电路系统将执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
5.根据权利要求4所述的处理器,其中所述加法器电路系统将执行加/减运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
6.根据权利要求4所述的处理器,其中响应于检测到具有第二值的所述立即数,所述乘法器电路系统将执行乘法S1C*S2C、S1D*S2D、S1C*S2D、S1D*S2C、S1G*S2G、S1H*S2H、S1G*S2H、S1H*S2G以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
7.根据权利要求5所述的处理器,其中在执行所述加和减运算前,值S3A、S3B、S3E和S3F被符号扩展到33比特。
8.根据权利要求1或7所述的处理器,其中所述目的地寄存器和所述第三源寄存器是相同物理寄存器。
9.根据权利要求1或7所述的处理器,其中使用所述实数数据元素和虚数数据元素的乘,加/减和缩放、舍入和/或饱和的所述运算被执行以实现快速傅立叶变换。
10.根据权利要求1或9所述的处理器,其中所述第一多个打包实数数据元素和虚数数据元素包括来自第一输入函数的数据,所述第二多个打包实数数据元素和虚数数据元素包括来自旋转因子的数据,以及所述第三多个打包实数数据元素和虚数数据元素包括来自第二输入函数的数据。
11.一种方法,包括:
解码第一指令以生成解码的指令;
在第一源寄存器中存储第一多个打包实数数据元素和虚数数据元素;
在第二源寄存器中存储第二多个打包实数数据元素和虚数数据元素;
在第三源寄存器中存储第三多个打包实数数据元素和虚数数据元素;
基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,
根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,
将所述实数乘积和虚数乘积加上和减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
在目的地寄存器的指定数据元素位置中存储所述最终实数数据元素和虚数数据元素。
12.根据权利要求11所述的方法,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
13.根据权利要求11或12所述的方法,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
14.根据权利要求13所述的方法,其中响应于检测到具有第一值的所述立即数,执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
15.根据权利要求14所述的方法,其中加和减包括以下运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
16.根据权利要求14所述的方法,其中响应于检测到具有第二值的所述立即数,执行乘法S1C*S2C、S1D*S2D、S1C*S2D、S1D*S2C、S1G*S2G、S1H*S2H、S1G*S2H、S1H*S2G以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
17.根据权利要求15所述的方法,其中在执行所述加和减运算前,值S3A、S3B、S3E和S3F被符号扩展到33比特。
18.根据权利要求11或17所述的方法,其中所述目的地寄存器和所述第三源寄存器是相同物理寄存器。
19.根据权利要求11或17所述的方法,其中使用所述实数数据元素和虚数数据元素的乘,加/减和缩放、舍入和/或饱和的所述运算被执行以实现快速傅立叶变换。
20.根据权利要求19所述的方法,其中所述第一多个打包实数数据元素和虚数数据元素包括来自第一输入函数的数据,所述第二多个打包实数数据元素和虚数数据元素包括来自旋转因子的数据,以及所述第三多个打包实数数据元素和虚数数据元素包括来自第二输入函数的数据。
21.一种上面存储有程序代码的机器可读介质,所述程序代码在由机器执行,促使所述机器执行以下操作:
解码第一指令以生成解码的指令;
在第一源寄存器中存储第一多个打包实数数据元素和虚数数据元素;
在第二源寄存器中存储第二多个打包实数数据元素和虚数数据元素;
在第三源寄存器中存储第三多个打包实数数据元素和虚数数据元素;
基于所述第一指令的立即数,在所述第一和第二源寄存器中选择实数数据元素和虚数数据元素进行相乘,
根据所述立即数将来自所述第一源寄存器的第一打包数据元素和来自所述第二源寄存器的第二打包数据元素相乘,以生成多个实数乘积和虚数乘积,
基于所述立即数,在所述第三源寄存器中选择实数数据元素和虚数数据元素,
将来自所述实数乘积和虚数乘积加上或减去选择的实数值和虚数值以生成第一实数结果和虚数结果;
缩放,舍入所述第一实数结果和虚数结果和/或使所述第一实数结果和虚数结果饱和以生成最终实数数据元素和虚数数据元素;以及
在目的地寄存器的指定数据元素位置中存储所述最终实数数据元素和虚数数据元素。
22.根据权利要求21所述的机器可读介质,其中所述实数值和虚数值作为16比特数据元素被存储在所述第一、第二和第三源寄存器中,每个虚数值存储在与它的对应实数值的数据元素地点相邻的数据元素地点中,实数值和虚数值的每个组合表示复数。
23.根据权利要求21或22所述的机器可读介质,其中所述第一、第二和第三源寄存器包括可配置有分别存储数据元素A、B、C、D、E、F、G和H的数据元素位置A、B、C、D、E、F、G和H的128比特打包数据寄存器,以及其中数据元素A、C、E和G是实数数据元素,并且数据元素B、D、F和H是对应虚数数据元素。
24.根据权利要求23所述的机器可读介质,其中响应于检测到具有第一值的所述立即数,执行乘法S1A*S2A、S1B*S2B、S1A*S2B、S1B*S2A、S1E*S2E、S1F*S2F、S1E*S2F、S1F*S2E以生成所述多个实数乘积和虚数乘积,其中S1标识所述第一源寄存器,S2标识所述第二源寄存器,并且A-H标识在所述第一和第二源寄存器中数据元素位置A-H中的所述打包数据元素。
25.根据权利要求24所述的机器可读介质,其中加和减包括以下运算:
S3A+(S1A*S2A-S1B*S2B),
S3B+(S1A*S2B+S1B*S2A),
S3A-(S1A*S2A-S1B*S2B),
S3B-(S1A*S2B+S1B*S2A),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E),
S3E+(S1E*S2E-S1F*S2F),
S3F+(S1E*S2F+S1F*S2E)。
CN201811130762.8A 2017-09-29 2018-09-27 用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法 Pending CN109582362A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/721,471 US20190102195A1 (en) 2017-09-29 2017-09-29 Apparatus and method for performing transforms of packed complex data having real and imaginary components
US15/721471 2017-09-29

Publications (1)

Publication Number Publication Date
CN109582362A true CN109582362A (zh) 2019-04-05

Family

ID=65727802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811130762.8A Pending CN109582362A (zh) 2017-09-29 2018-09-27 用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法

Country Status (3)

Country Link
US (1) US20190102195A1 (zh)
CN (1) CN109582362A (zh)
DE (1) DE102018006736A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134436A (zh) * 2019-05-05 2019-08-16 飞依诺科技(苏州)有限公司 超声数据打包处理方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230004390A1 (en) * 2021-06-26 2023-01-05 Intel Corporation Apparatus and method for vector packed dual complex-by-complex and dual complex-by-complex conjugate multiplication

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839728B2 (en) * 1998-10-09 2005-01-04 Pts Corporation Efficient complex multiplication and fast fourier transform (FFT) implementation on the manarray architecture
US6366937B1 (en) * 1999-03-11 2002-04-02 Hitachi America Ltd. System and method for performing a fast fourier transform using a matrix-vector multiply instruction
US7072929B2 (en) * 2000-11-01 2006-07-04 Pts Corporation Methods and apparatus for efficient complex long multiplication and covariance matrix implementation
US7392368B2 (en) * 2002-08-09 2008-06-24 Marvell International Ltd. Cross multiply and add instruction and multiply and subtract instruction SIMD execution on real and imaginary components of a plurality of complex data elements
US9465611B2 (en) * 2003-10-02 2016-10-11 Broadcom Corporation Processor execution unit with configurable SIMD functional blocks for complex number operations
US9104510B1 (en) * 2009-07-21 2015-08-11 Audience, Inc. Multi-function floating point unit

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134436A (zh) * 2019-05-05 2019-08-16 飞依诺科技(苏州)有限公司 超声数据打包处理方法及系统
CN110134436B (zh) * 2019-05-05 2021-03-02 飞依诺科技(苏州)有限公司 超声数据打包处理方法及系统

Also Published As

Publication number Publication date
US20190102195A1 (en) 2019-04-04
DE102018006736A1 (de) 2019-04-04

Similar Documents

Publication Publication Date Title
CN109582281A (zh) 用于复数与复数之间共轭乘法的设备和方法
CN109791488A (zh) 用于执行用于复数的融合乘-加指令的系统和方法
CN109840068A (zh) 用于复数乘法的装置和方法
CN109840112A (zh) 用于复数乘法和累加的装置和方法
CN109947474A (zh) 用于有符号字的向量乘法、舍入和饱和的装置和方法
CN110457067A (zh) 利用弹性浮点数的系统、方法和设备
CN107003846A (zh) 用于向量索引加载和存储的方法和装置
CN104350461B (zh) 具有不同的读和写掩码的多元素指令
CN109582356A (zh) 用于紧缩数据元素的乘、加/减和累加的装置和方法
CN109947481A (zh) 用于处理分数倒数操作的装置和方法
CN110007963A (zh) 用于无符号双字的矢量乘法和累加的设备和方法
CN109947471A (zh) 用于将多组紧缩字节相乘、求和以及累加的装置和方法
CN109683961A (zh) 用于复紧缩数据元素和实紧缩数据元素的乘法和累加的装置和方法
CN109947478A (zh) 用于有符号双字的向量乘法和累加的装置和方法
CN110069282A (zh) 用于紧缩字的向量乘法和累加的装置和方法
CN107145335A (zh) 用于大整数运算的向量指令的装置和方法
CN107003849A (zh) 用于执行冲突检测的方法和装置
CN109582282A (zh) 用于向量紧缩有符号值的乘法和累加的系统、装置和方法
CN108292228A (zh) 用于基于通道的步进收集的系统、设备和方法
CN108351782A (zh) 用于跨步访问的系统、装置和方法
CN110045945A (zh) 用于有符号的双字的矢量乘法和减法的设备和方法
CN107003848A (zh) 用于融合乘法‑乘法指令的装置和方法
CN109582365A (zh) 用于执行紧缩数据元素的双有符号和无符号乘法的装置和方法
CN109328334A (zh) 用于累积式求和的系统、装置和方法
CN109582362A (zh) 用于对具有实数分量和虚数分量的打包复数数据执行变换的设备和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination