CN107636609A - 用于执行模式选择的方法和设备 - Google Patents
用于执行模式选择的方法和设备 Download PDFInfo
- Publication number
- CN107636609A CN107636609A CN201680030372.6A CN201680030372A CN107636609A CN 107636609 A CN107636609 A CN 107636609A CN 201680030372 A CN201680030372 A CN 201680030372A CN 107636609 A CN107636609 A CN 107636609A
- Authority
- CN
- China
- Prior art keywords
- instruction
- high power
- processor
- field
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 3
- 238000007667 floating Methods 0.000 claims description 5
- 239000009602 weicao Substances 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 83
- VOXZDWNPVJITMN-ZBRFXRBCSA-N 17β-estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 VOXZDWNPVJITMN-ZBRFXRBCSA-N 0.000 description 74
- 238000006073 displacement reaction Methods 0.000 description 37
- 238000003860 storage Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 32
- 210000004027 cell Anatomy 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000009466 transformation Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012856 packing Methods 0.000 description 9
- 230000003321 amplification Effects 0.000 description 8
- 238000009434 installation Methods 0.000 description 8
- 238000003199 nucleic acid amplification method Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 230000001052 transient effect Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 230000000873 masking effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 210000004940 nucleus Anatomy 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 239000000243 solution Substances 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 201000006549 dyspepsia Diseases 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 108010022579 ATP dependent 26S protease Proteins 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005469 granulation Methods 0.000 description 1
- 230000003179 granulation Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 230000006911 nucleation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
- G06F9/4893—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/3017—Runtime instruction translation, e.g. macros
- G06F9/30174—Runtime instruction translation, e.g. macros for non-native instruction set, e.g. Javabyte, legacy code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30181—Instruction operation extension or modification
- G06F9/30189—Instruction operation extension or modification according to execution mode, e.g. mode flag
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Executing Machine-Instructions (AREA)
- Advance Control (AREA)
Abstract
一种用于执行高性能指令仿真的设备和方法。例如,本发明的一个实施例包含用于处理包含高功率和标准指令的指令集的处理器,包括:分析模块,用于确定指定窗口内高功率指令的数量是高于还是低于指定阈值;执行模式选择模块,用于如果高功率指令的数量高于指定阈值则选择高功率指令的原生执行,或者如果高功率指令的数量低于指定阈值则选择高功率的指令的仿真执行。
Description
技术领域
本发明一般涉及计算机处理器的领域。更具体地,本发明涉及一种用于执行模式选择的方法和设备。
背景技术
指令集或指令集架构(ISA)是涉及编程的计算机架构的部分,包含原生(native)数据类型、指令、寄存器架构、寻址模式、存储器架构,中断和异常处理、以及外部输入和输出(I/O)。应注意的是,术语“指令”一般在本文中指的是宏指令(是被提供给处理器以用于执行的指令),与微指令或微操作(是处理器的解码器解码宏指令的结果)相对。微指令或微操作能配置成指导处理器上的执行单元来执行用于实现与宏指令关联的逻辑的操作。
ISA区别于微架构,其是用于实现指令集的处理器设计技术的集合。带有不同微架构的处理器能共享通用指令集。例如,Intel® Pentium 4处理器、Intel® CoreTM处理器、和来自Advanced Micro Devices,Inc. of Sunnyvale CA的处理器实现几乎同样版本的x86指令集(带有已被添加有较新版本的一些扩展),但具有不同内部设计。例如,ISA的相同寄存器架构可以不同方式在不同微架构中使用公知技术来实现,包含专用的物理寄存器、使用寄存器重命名机制(例如,寄存器别名表(RAT)、重排序缓冲器(ROB)和引退寄存器堆的使用)的一个或更多动态分配的物理寄存器。除非以其它方式来指定,短语寄存器架构、寄存器堆、和寄存器在本文中被用于指的是对软件/程序员可见的那个和指令指定寄存器的方式。在要求区别之处,形容词“逻辑的”、“架构的”、或“软件可见的”将被用于指示寄存器架构中的寄存器/堆,而不同形容词将被用于指明给定的微架构中的寄存器(例如,物理寄存器、重排序缓冲器、引退寄存器、寄存器池(pool))。
指令集包含一个或更多指令格式。给定的指令格式定义了各种字段(比特的数量、比特的位置)以便除了其它事项外还指定要被执行的操作和那个操作要被执行于其上的操作数。一些指令格式通过指令模板(或子格式)的定义来进一步分解。例如,给定的指令格式的指令模板可被定义成具有指令格式的字段的不同子集(所包含的字段典型地按相同顺序,但至少一些具有不同比特位置,因为存在较少字段被包含)和/或定义成具有被不同解译的给定的字段。给定的指令使用给定的指令格式(并且如果定义了,则以那个指令格式的指令模板的给定的一个)来表达,并指定操作和操作数。指令流是指令的特定序列,其中序列中的每个指令是指令格式(并且如果定义了,则是那个指令格式的指令模板的给定一个)中的指令的出现。
附图说明
本发明的更好理解能从以下详细描述连同以下附图来获得,其中:
图1A和1B是框图,其示出根据本发明的实施例的一般向量友好指令格式和其指令模板;
图2A—D是框图,其示出根据本发明的实施例的示范性特定向量友好指令格式;
图3是根据本发明的一个实施例的寄存器架构的框图;以及
图4A是框图,其示出根据本发明的实施例的示范性有序取、解码、引退管线和示范性寄存器重命名,乱序发出(issue)/执行管线两者;
图4B是框图,其示出根据本发明的实施例的要被包含在处理器中的有序取、解码、引退核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者;
图5A是单个处理器核连同到管芯上互连网络的它的连接的框图;
图5B示出根据本发明的实施例的图5A中的处理器核的部分的扩展视图;
图6是根据本发明的实施例的带有集成存储器控制器和图形的单核处理器和多核处理器的框图;
图7示出依照本发明的一个实施例的系统的框图;
图8示出依照本发明的一实施例的第二系统的框图;
图9示出依照本发明的一实施例的第三系统的框图;
图10示出依照本发明的一实施例的芯片上系统(SoC)的框图;
图11示出框图,其对照根据本发明的实施例的用于将源指令集中的二进制指令转变成目标指令集中的二进制指令的软件指令转变器的使用;
图12示出本发明的实施例可被实现于其上的示范性处理器;
图13示出架构的一个实施例,其中执行模式选择模块在“原生”高功率指令执行和“仿真”高功率指令执行之间进行选择;
图14示出用于为高功率指令执行来选择模式的方法的一个实施例。
具体实施方式
在以下描述中,为了解释的目的,众多特定细节被阐明以便提供以下所描述的本发明的实施例的透彻理解。然而,对本领域技术人员将显而易见的是,本发明的实施例可被实践而不带有这些特定细节的一些。在其它实例中,公知结构和装置以框图形式来示出以避免使本发明的实施例的根本原理难以理解。
示范性处理器架构和数据类型
指令集包含一个或更多指令格式。给定的指令格式定义各种字段(比特的数量、比特的位置)以便除了其它事项外还指定要被执行的操作(操作码)和那个操作要被执行于其上的操作数。一些指令格式通过指令模板(或子格式)的定义来进一步分解。例如,给定的指令格式的指令模板可被定义成具有指令格式的字段的不同子集(所包含的字段典型地按相同顺序,但至少一些具有不同比特位置,因为存在较少字段被包含)和/或定义成具有被不同解译的给定的字段。因此,ISA的每个指令使用给定的指令格式(并且如果定义了,则以那个指令格式的指令模板的给定的一个)来表达,并包含用于指定操作和操作数的字段。例如,示范性ADD指令具有特定操作码以及包含用于指定那个操作码的操作码字段和用于选择操作数(源1/目的地和源2)的操作数字段的指令格式;并且指令流中的此ADD指令的出现将在选择特定操作数的操作数字段中具有特定内容。指的是高级向量扩展(AVX)(AVX1和AVX2)并使用向量扩展(VEX)编码方案的SIMD扩展的集合已被发布和/或公布(例如,见Intel® 64and IA-32 Architectures Software Developers Manual,2011年10月;以及见Intel®Advanced Vector Extensions Programming Reference,2011年6月)。
示范性指令格式
本文中所描述的指令的实施例可被实施在不同格式中。附加地,示范性系统、架构、和管线在下面被详述。指令的实施例可在此类系统、架构、和管线上被执行,但不限于所详述的那些。
A.一般向量友好指令格式
向量友好指令格式是适合于向量指令的指令格式(例如,存在特定于向量操作的某些字段)。虽然实施例被描述,其中向量和标量操作两者都通过向量友好指令格式来支持的,但备选实施例仅使用向量友好指令格式的向量操作。
图1A-1B是框图,其示出根据本发明的实施例的一般向量友好指令格式和其指令模板。图1A是框图,其示出根据本发明的实施例的一般向量友好指令格式和其类别A指令模板; 而图1B是框图,其示出根据本发明的实施例的一般向量友好指令格式和其类别B指令模板。特别地,对于一般向量友好指令格式100,定义了类别A和类别B指令模板,它们两者包含无存储器访问105指令模板和存储器访问120指令模板。向量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。
虽然本发明的实施例将被描述,其中向量友好指令格式支持以下项:带有32比特(4字节)或64比特(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且因此,64字节向量由16个双字大小元素或备选地8个四字大小元素组成);带有16比特(2字节)或8比特(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小);带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小);以及带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小);但备选实施例可支持带有更多、更少、或不同数据元素宽度(例如,128比特(16字节)数据元素宽度)的更多、更少和/或不同向量操作数大小(例如,256字节向量操作数)。
图1A中的类别A指令模板包含:1)在无存储器访问105指令模板内,示出了无存储器访问、完整舍入(full round)控制类型操作110指令模板,和无存储器访问、数据变形类型操作115指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板。图1B中的类别B指令模板包含:1)在无存储器访问105指令模板内,示出了无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、vsize类型操作117指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、写掩码控制127指令模板。
一般向量友好指令格式100包含图1A-1B中所示出的以下按顺序列出的以下字段。
格式字段140—特定值(指令格式标识符值),在此字段中独特标识向量友好指令格式,并因此标识指令流中向量友好指令格式中的指令的出现。照此,此字段在它对于仅具有一般向量友好指令格式的指令集不被需要的意义中是可选的。
基础操作字段142—它的内容识别出不同的基础操作。
寄存器索引字段144—它的内容直接或通过地址生成来指定源和目的地操作数的位置(它们在寄存器中或在存储器中)。这些操作数包含用于从PxQ(例如32x512、16x128、32x1024、64x1024)寄存器堆选择N个寄存器的比特的足够数量。虽然在一个实施例中N可多至三个源和一个目的地寄存器,但备选实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至两个源,其中这些源之一还充当目的地;可支持多至三个源,其中这些源之一还充当目的地;可支持多至两个源和一个目的地)。
修改符(Modifier)字段146–它的内容识别出一般向量指令格式中指定存储器访问的指令与不指定存储器访问的那些指令的出现;那就是说,在无存储器访问105指令模板和存储器访问120指令模板之间进行识别。存储器访问操作对存储器层级进行读和/或写(在使用寄存器中的值来指定源和/或目的地地址的一些情况中),而非存储器访问操作不进行(例如,源和目的地是寄存器)。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算,但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。
扩增(augmentation)操作字段150—它的内容识别出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在本发明的一个实施例中,此字段被划分成类别字段168、阿尔法字段152、和贝塔字段154。扩增操作字段150允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。
缩放(scale)字段160—它的内容允许用于存储器地址生成(例如,用于使用2缩放*索引+基址的地址生成)的索引字段的内容的缩放。
位移(displacement)字段162A—它的内容作为存储器地址生成(例如,用于使用2缩放*索引+基址+位移的地址生成)的部分被使用。
位移因子字段162B(注意,直接在位移因子字段162B上的位移字段162A的并置指示一个或另一个被使用)—它的内容作为地址生成的部分被使用;它指定要通过存储器访问的大小(N)来缩放的位移因子—其中N是存储器访问中的字节的数量(例如,用于使用2缩放索引+基址+缩放的位移的地址生成)。冗余低顺序比特被忽略,并且因此,位移因子字段的内容被乘以存储器操作数总大小(N)以便生成要在运算有效地址中被使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段174(本文中较后所描述)和数据操纵字段154C来确定。位移字段162A和位移因子字段162B在它们不被用于无存储器访问105指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。
数据元素宽度字段164—它的内容识别出多个数据元素宽度的哪一个要被使用(在对于所有指令的一些实施例中;在对于指令的仅一些指令的其他实施例中)。此字段在以下意义上是可选的:如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。
写掩码字段170—它的内容在按数据元素位置的基础上控制目的地向量操作数中的那个数据元素位置是否反映基础操作和扩增操作的结果。类别A指令模板支持合并写掩蔽,而类别B指令模板支持合并和归零写掩蔽两者。在合并时,向量掩码允许目的地中的元素的任何集合被保护免于在任何操作(由基础操作和扩增操作所指定的)的执行期间更新;在另外一个实施例中,保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下,在归零时,向量掩码允许目的地中的元素的任何集合在任何操作(由基础操作和扩增操作所指定的)的执行期间被归零;在一个实施例中,在对应掩码比特具有0值时,目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的向量长度(那就是说,正被修改的元素的跨度,从第一个到最后一个)的能力;然而,被修改的元素不必要是连续的。因此,写掩码字段170允许部分向量操作,包含加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述,其中写掩码字段170的内容选择含有要被使用的写掩码的多个写掩码寄存器之一(并且因此写掩码字段170的内容间接标识要被执行的掩蔽),但备选实施例转而或附加允许掩码写字段170的内容直接指定要被执行的掩蔽。
立即数(immediate)字段172—它的内容允许立即数的规格。此字段在它在不支持立即数的一般向量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。
类别字段168—它的内容在指令的不同类别之间进行识别。参考图1A—B,此字段的内容在类别A和类别B指令之间选择。在图1A—B中,圆角方形被用于指示在字段中呈现的特定值(例如,在图1A—B中相应对于类别字段168的类别A 168A和类别B 168B)。
类别A的指令模板
在类别A的非存储器访问105指令模板的情况中,阿尔法字段152被解译为RS字段152A,其内容识别出不同扩增操作类型的哪一个要被执行(例如,舍入152A.1和数据变形152A.2对于无存储器访问、舍入类型操作110,和无存储器访问、数据变形类型操作115指令模板被相应指定),而贝塔字段154识别出所指定的类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
无存储器访问指令模板—完整舍入控制类型操作
在无存储器访问完整舍入控制类型操作110指令模板中,贝塔字段154被解译为舍入控制字段154A,其内容提供静态舍入。虽然在本发明的所描述的实施例中,舍入控制字段154A包含所有浮点异常(SAE)字段156和舍入操作控制字段158的抑制,但备选实施例可支持可将这些概念两者编码成相同字段,或仅具有这些概念/字段的一个或另一个(例如,可具有仅舍入操作控制字段158)。
SAE字段156—它的内容识别出是否禁用异常事件报告;在SAE字段156的内容指示抑制被启用时,给定的指令不报告任何种类的浮点异常标记且不提出(raise)任何浮点异常处置器。
舍入操作控制字段158—它的内容识别出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段158允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包含用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
无存储器访问指令模板—数据变形类型操作
在无存储器访问数据变形类型操作115指令模板中,贝塔字段154被解译为数据变形字段154B,其内容识别出多个数据变形的哪一个要被执行(例如,无数据变形、打乱(swizzle)、广播)。
在类别A的存储器访问120指令模板的情况中,阿尔法字段152被解译为驱逐提示字段152B,其内容识别出驱逐提示的哪一个要被使用(在图1A中,暂时152B.1和非暂时152B.2对于存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板被相应指定),而贝塔字段154被解译为数据操纵字段154C,其内容识别出多个数据操纵操作(还已知为原语(primitive))的哪一个要被执行(例如,无操纵;广播;源的上转变;以及目的地的下转变)。存储器访问120指令模板包含缩放字段160、并可选包含位移字段162A或位移缩放字段162B。
向量存储器指令通过转变支持来执行自存储器的向量加载和往存储器的向量存储。如通过常规向量指令,向量存储器指令以数据元素式的方式将数据转移自/往存储器,实际上被转移的元素由作为写掩码被选择的向量掩码的内容来指示。
存储器访问指令模板—暂时
暂时数据是这样的数据,其有可能被足够快地再使用以受益于进行高速缓存。然而,这是提示,并且不同处理器可以不同方式来实现它,包含整个忽略该提示。
存储器访问指令模板—非暂时
非暂时数据是这样的数据,其不太可能被足够快地再使用以受益于在第1等级高速缓存中进行高速缓存并应被给定用于驱逐的优先权。然而,这是提示,并且不同处理器可以不同方式来实现它,包含整个忽略该提示。
类别B的指令模板
在类别B的指令模板的情况中,阿尔法字段152被解译为写掩码控制(Z)字段152C,其内容识别出由写掩码字段170所控制的写掩蔽应是合并还是归零。
在类别B的非存储器访问105指令模板的情况中,部分的贝塔字段154被解译为RL字段157A,其内容识别出不同扩增操作类型的哪一个要被执行(例如,舍入157A.1和向量长度(VSIZE)157A.2对于无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、VSIZE类型操作117指令模板被相应指定),而剩余的贝塔字段154识别出指定类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
在无存储器访问、写掩码控制、部分舍入控制类型操作110指令模板中,剩余的贝塔字段154被解译为舍入操作字段159A,并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标记且不提出任何浮点异常处置器)。
舍入操作控制字段159A—正如舍入操作控制字段158,它的内容识别出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段159A允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包含用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
在无存储器访问、写掩码控制、VSIZE类型操作117指令模板中,剩余的贝塔字段154被解译为向量长度字段159B,其内容识别出多个数据向量长度的哪一个要被执行(例如,128、256、或512字节)。
在类别B的存储器访问120指令模板的情况中,部分的贝塔字段154被解译为广播字段157B,其内容识别出广播类型数据操纵操作是否要被执行,而剩余的贝塔字段154被解译为向量长度字段159B。存储器访问120指令模板包含缩放字段160、并可选包含位移字段162A或位移缩放字段162B。
关于一般向量友好指令格式100,完整操作码字段174被示出,包含格式字段140、基础操作字段142、和数据元素宽度字段164。虽然一个实施例被示出,其中完整操作码字段174包含所有这些字段,但在不支持所有这些字段的实施例中,完整操作码字段174包含少于所有这些字段。完整操作码字段174提供操作代码(操作码)。
扩增操作字段150、数据元素宽度字段164、和写掩码字段170允许这些特征在一般向量友好指令格式中在按指令的基础上被指定。
写掩码字段和数据元素宽度字段的组合创建分类的(typed)指令,因为它们允许掩码基于不同数据元素宽度而被应用。
在类别A和类别B内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅类别A、仅类别B、或两个类别。例如,打算用于通用计算的高性能通用乱序核可支持仅类别B,打算主要用于图形和/或科学(吞吐量)计算的核可支持仅类别A,以及打算用于两者的核可支持两个类别(当然,具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内)。同样,单个处理器可包含多个核,其的所有支持相同类别或其中不同核支持不同类别。例如,在带有分离的图形和通用核的处理器中,打算主要用于图形和/或科学计算的图形核之一可支持仅类别A,而通用核的一个或更多通用核可以是支持仅类别B的打算用于通用计算的带有乱序执行和寄存器重命名的高性能通用核。不具有分离的图形核的另一个处理器可包含支持类别A和类别B两者的更多一个通用有序或乱序核。当然,来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被翻译(例如,准时编译或静态编译)成多种不同可执行的形式,包含:1)具有用于执行的由目标处理器所支持的类别的仅指令的形式;或2)具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器(其当前正执行代码)所支持的指令来执行的控制流程代码(control flow code)的形式。
B.示范性特定向量友好指令格式
图2是框图,其示出根据本发明的实施例的示范性特定向量友好指令格式。图2示出特定向量友好指令格式200,它在它指定位置、大小、解译、和字段的顺序、以及那些字段的一些字段的值的意义中是特定的。特定向量友好指令格式200可被用于扩展x86指令集,并且因此字段的一些字段与现存x86指令集和其扩展(例如,AVX)中所使用的那些字段类似或相同。此格式与带有扩展的现存x86指令集的前缀编码字段、真操作码字节字段、MOD R/M字段、SIB字段、位移字段,和立即数字段保持一致。来自图2的字段所映射到其中的来自图1的字段被示出。
应被理解的是,尽管本发明的实施例为了说明性目的而参考一般向量友好指令格式100的上下文中的特定向量友好指令格式200来描述,但除非在声明之处,本发明不限于特定向量友好指令格式200。例如,一般向量友好指令格式100对于各种字段设想多种可能大小,而特定向量友好指令格式200被示出为具有特定大小的字段。通过特定示例的方式,虽然数据元素宽度字段164被示出为特定向量友好指令格式200中的一个比特字段,但本发明不被如此限制(那就是说,一般向量友好指令格式100设想数据元素宽度字段164的其他大小)。
一般向量友好指令格式100包含图2A中所示出的以下按顺序列出的以下字段。
EVEX前缀(字节0-3)202—以四字节形式来编码。
格式字段140(EVEX字节0,比特[7:0])-第一字节(EVEX字节0)是格式字段140,并且它含有0x62(被用于识别出本发明的一个实施例中的向量友好指令格式的独特值)。
第二-第四字节(EVEX字节1-3)包含提供特定能力的多个比特字段。
REX字段205(EVEX字节1,比特[7-5])—由EVEX.R比特字段(EVEX字节1,比特[7]—R)、EVEX.X比特字段(EVEX字节1,比特[6]—X)、和157BEX字节1、比特[5]—B)组成。EVEX.R、EVEX.X、和EVEX.B比特字段提供与对应VEX比特字段相同的功能性,并使用1s补码形式来编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特(rrr,xxx,和bbb),使得Rrrr、Xxxx、和Bbbb可通过添加EVEX.R、EVEX.X、和EVEX.B来形成。
REX'字段110—这是REX'字段110的第一部分并且是被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.R'比特字段(EVEX字节1,比特[4]-R')。在本发明的一个实施例中,这个比特连同如以下所指示的其它比特以比特倒置的格式被存储以(在公知的x8632-比特模式中)识别出BOUND指令,其真操作码字节是62,但在MOD R/M字段(以下所描述的)中不接受MOD字段中的11的值;本发明的备选实施例不以倒置的格式来存储这个比特和以下所指示的另一个比特。1的值被用于编码较低16个寄存器。换句话说,R'Rrrr通过组合EVEX.R'、EVEX.R、和来自其它字段的另一个RRR来形成。
操作码映射字段215(EVEX字节1,比特[3:0]—mmmm)—它的内容编码所暗示的前导操作码字节(0F,0F 38,或0F 3)。
数据元素宽度字段164(EVEX字节2,比特[7]—W)-由符号EVEX.W来表示。EVEX.W被用于定义数据类型的粒度(大小)(32比特数据元素或64比特数据元素)。
EVEX.vvvv 220(EVEX字节2,比特[6:3]—vvvv)-EVEX.vvvv的角色可包含以下项:1)EVEX.vvvv编码以倒置(1s补码)的形式所指定的第一源寄存器操作数,并对于带有2个或更多源操作数的指令有效;2)EVEX.vvvv编码对于某些向量移位以1s补码形式所指定的目的地寄存器操作数;或者3)EVEX.vvvv不编码任何操作数,字段被保留并应含有1111b。因此,EVEX.vvvv字段220编码以倒置(1s补码)的形式所存储的第一源寄存器指定符(specifier)的4个低顺序比特。取决于指令,额外不同EVEX比特字段被用于将指定符大小扩展到32个寄存器。
EVEX.U 168类别字段(EVEX字节2,比特[2]-U)—如果EVEX.U=0,则它指示类别A或EVEX.U0;如果EVEX.U=1,则它指示类别B或EVEX.U1。
前缀编码字段225(EVEX字节2,比特[1:0]-pp)—为基础操作字段提供附加比特。除了为EVEX前缀格式中的遗留SSE指令提供支持以外,这还具有紧致SIMD前缀的益处(而不是要求字节以表达SIMD前缀,EVEX前缀要求仅2比特)。在一个实施例中,为了支持在遗留格式中和在EVEX前缀格式中两者都使用SIMD前缀(66H,F2H,F3H)的遗留SSE指令,这些遗留SIMD前缀被编码到SIMD前缀编码字段中;并在运行时间在被提供给解码器的PLA之前被扩展到遗留SIMD前缀中(所以PLA能执行这些遗留指令的遗留和EVEX格式两者而不用修改)。尽管较新的指令能直接将EVEX前缀编码字段的内容用作操作码扩展,某些实施例为了一致性以类似方式来扩展但允许要由这些遗留SIMD前缀来指定的不同含意。备选实施例可将PLA重设计成支持2比特SIMD前缀编码,并因此不要求扩展。
阿尔法字段152(EVEX字节3,比特[7]—EH;还已知为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、和EVEX.N;还通过α来示出)—如之前所描述的,此字段是上下文特定的。
贝塔字段154(EVEX字节3,比特[6:4]-SSS,还已知为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;还通过βββ来示出)—如之前所描述的,此字段是上下文特定的。
REX'字段110—这是REX'字段的其余部分并且是可被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.V'比特字段(EVEX字节3,比特[3]-V)。此比特以比特倒置的格式来存储。1的值被用于编码较低16个寄存器。换句话说,V'VVVV通过组合EVEX.V、EVEX.vvvv来形成。
写掩码字段170(EVEX字节3,比特[2:0]-kkk)—它的内容指定如之前所描述的写掩码寄存器中寄存器的索引。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码被用于具体指令的特别行为(这可以包含使用硬连线到所有寄存器的写掩码或绕过掩蔽硬件的硬件的多种方式来实现)。
真操作码字段230(字节4)还已知为操作码字节。操作码的部分在此字段中被指定。
MOD R/M字段240(字节5)包含MOD字段242、Reg字段244、和R/M字段246。如之前所描述的,MOD字段242的内容在存储器访问和非存储器访问操作之间进行识别。Reg字段244的角色能被概括成两种情境:编码目的地寄存器操作数或源寄存器操作数,或作为操作码扩展被对待并不被用于编码任何指令操作数。R/M字段246的角色可包含以下项:编码引用存储器地址的指令操作数,或者编码目的地寄存器操作数或源寄存器操作数。
缩放、索引、基址(SIB)字节(字节6)—如之前所描述的,缩放字段150的内容被用于存储器地址生成。SIB.xxx 254和SIB.bbb 256—这些字段的内容之前已关于寄存器索引Xxxx和Bbbb被提到。
位移字段162A(字节7-10)—在MOD字段242含有10时,字节7-10是位移字段162A,并且它与遗留32比特位移(disp32)相同地工作并在字节粒度工作。
位移因子字段162B(字节7)—在MOD字段242含有01时,字节7是位移因子字段162B。此字段的位置与遗留x86指令集8比特位移(disp8)的位置相同,其在字节粒度工作。由于disp8是扩展的记号,它能仅定址于-128和127字节偏移之间;在64字节高速缓存行方面,disp8使用能被设置成仅四个真正有用的值-128、-64、0、和64的8比特;由于更大的范围常常被需要,disp32被使用;然而,disp32要求4字节。与disp8和disp32对照,位移因子字段162B是disp8的重解译;在使用位移因子字段162B时,实际位移由乘以存储器操作数访问的大小(N)的位移因子字段的内容来确定。此类型的位移被称为disp8*N。这减少平均指令长度(用于位移但带有大得多的范围的单个字节)。此类压缩的位移基于有效位移是存储器访问的粒度的倍数并且因此地址偏移的冗余低顺序比特不需要被编码的假定。换句话说,位移因子字段162B替代遗留x86指令集8比特位移。因此,位移因子字段162B以与x86指令集8比特位移相同的方式来编码(所以在ModRM/SIB编码规则中没有改变),带有disp8被过载到disp8*N的仅有例外。换句话说,在编码规则或编码长度中不存在改变,仅除了在通过硬件的位移值的解译中之外(其需要通过存储器操作数的大小来缩放位移以获得字节式地址偏移)。
立即数字段172如之前所描述地操作。
完整操作码字段
图2B是框图,其示出根据本发明的一个实施例的构成完整操作码字段174的特定向量友好指令格式200的字段。特别地,完整操作码字段174包含格式字段140、基础操作字段142、和数据元素宽度(W)字段164。基础操作字段142包含前缀编码字段225、操作码映射字段215、和真操作码字段230。
寄存器索引字段
图2C是框图,其示出根据本发明的一个实施例的构成寄存器索引字段144的特定向量友好指令格式200的字段。特别地,寄存器索引字段144包含REX字段205、REX'字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254、和bbb字段256。
扩增操作字段
图2D是框图,其示出根据本发明的一个实施例的构成扩增操作字段150的特定向量友好指令格式200的字段。在类别(U)字段168含有0时,它象征EVEX.U0(类别A 168A);在它含有1时,它象征EVEX.U1(类别B 168B)。在U=0并且MOD字段242含有11(象征无存储器访问操作)时,阿尔法字段152(EVEX字节3,比特[7]—EH)被解译为rs字段152A。在rs字段152A含有1(舍入152A.1)时,贝塔字段154(EVEX字节3,比特[6:4]-SSS)被解译为舍入控制字段154A。舍入控制字段154A包含一比特SAE字段156和两比特舍入操作字段158。在rs字段152A含有0(数据变形152A.2)时,贝塔字段154(EVEX字节3,比特[6:4]-SSS)被解译为三比特数据变形字段154B。在U=0并且MOD字段242含有00、01、或10(象征存储器访问操作)时,阿尔法字段152(EVEX字节3,比特[7]—EH)被解译为驱逐提示(EH)字段152B并且贝塔字段154(EVEX字节3,比特[6:4]-SSS)被解译为三比特数据操纵字段154C。
在U=1时,阿尔法字段152(EVEX字节3,比特[7]—EH)被解译为写掩码控制(Z)字段152C。在U=1并且MOD字段242含有11(象征无存储器访问操作)时,部分的贝塔字段154(EVEX字节3,比特[4]-S0)被解译为RL字段157A;在它含有1(舍入157A.1)时,剩余的贝塔字段154(EVEX字节3,比特[6-5]—S2-1)被解译为舍入操作字段159A,而在RL字段157A含有0(VSIZE157.A2)时,剩余的贝塔字段154(EVEX字节3,比特[6-5]-S2-1)被解译为向量长度字段159B(EVEX字节3,比特[6-5]-L1-0)。在U=1并且MOD字段242含有00、01、或10(象征存储器访问操作)时,贝塔字段154(EVEX字节3,比特[6:4]-SSS)被解译为向量长度字段159B(EVEX字节3,比特[6-5]-L1-0)和广播字段157B(EVEX字节3,比特[4]-B)。
C.示范性寄存器架构
图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中,存在512比特宽的32个向量寄存器310;这些寄存器被引用为zmm0直到zmm31。较低的16个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-16上。较低的16个zmm寄存器的较低顺序128比特(ymm寄存器的较低顺序128比特)被覆载在寄存器xmm0-15上。特定向量友好指令格式200在如以下表中所示出的这些覆载寄存器堆上操作。
换句话说,向量长度字段159B在最大长度和一个或更多其它更短长度之间选择,其中每个此类更短长度是前述长度的一半长度;并且不带有向量长度字段159B的指令模板在最大向量长度上操作。进一步地,在一个实施例中,特定向量友好指令格式200的类别B指令模板在紧缩的(packed)或标量的单/双精度浮点数据和紧缩的或标量的整数数据上操作。标量的操作是在zmm/ymm/xmm寄存器中最低顺序数据元素位置上执行的操作;更高顺序数据元素位置取决于实施例保持与它们在该指令之前一样或被归零。
写掩码寄存器315-在所示出的实施例中,存在8个写掩码寄存器(k0直到k7),每个的大小是64比特。在备选实施例中,写掩码寄存器315的大小是16比特。如之前所描述的,在本发明的一个实施例中,向量掩码寄存器k0不能作为写掩码被使用;在将通常指示k0的编码被用于写掩码时,它选择0xFFFF的硬连线写掩码,对于那个指令有效地禁用写掩蔽。
通用寄存器325-在所示出的实施例中,存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64比特通用寄存器。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、和R8直到R15来引用。
标量浮点栈寄存器堆(x87栈)345,在其上MMX紧缩整数平寄存器堆350被别名化-在所示出的实施例中,x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈;而MMX寄存器被用于在64比特紧缩整数数据上执行操作,还被用于为在MMX和XMM寄存器之间所执行的一些操作来保存操作数。
本发明的备选实施例可使用更宽或更窄的寄存器。另外,本发明的备选实施例可使用更多、更少、或不同寄存器堆和寄存器。
D.示范性核架构、处理器、和计算机架构
处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如,此类核的实现可包含:1)打算用于通用计算的通用有序核;2)打算用于通用计算的高性能通用乱序核;3)打算主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包含:1)包含打算用于通用计算的一个或更多通用有序核和/或打算用于通用计算的一个或更多通用乱序核的CPU;以及2)包含打算主要用于图形和/或科学(吞吐量)的一个或更多专用核的协处理器。此类不同处理器导致不同计算机系统架构,其可包含:1)在与所述CPU分离的芯片上的协处理器; 2)在与CPU相同的封装中分离管芯上的协处理器;3)在与CPU相同的管芯上的协处理器(在该情况中,此类协处理器有时被称为专用逻辑,诸如集成的图形和/或科学(吞吐量)逻辑,或被称为专用核);以及4)在可在相同管芯上包含所描述的CPU(有时被称为应用核或应用处理器)、以上所描述的协处理器、和附加功能性的芯片上系统。示范性核架构接下来被描述,继之以示范性处理器和计算机架构的描述。
图4A是框图,其示出根据本发明的实施例的示范性有序管线和示范性寄存器重命名、乱序发出/执行管线两者。图4B是框图,其示出根据本发明的实施例的要被包含在处理器中的有序架构核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者。图4A-B中的实线框示出有序管线和有序核,而虚线框的可选附加示出寄存器重命名、乱序发出/执行管线和核。给定有序方面是乱序方面的子集,乱序方面将被描述。
在图4A中,处理器管线400包含取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(还已知为分派或发出)阶段412、寄存器读/存储器读阶段414、执行阶段416、写回/存储器写阶段418、异常处置阶段422、和提交阶段424。
图4B示出处理器核490,其包含耦合到执行引擎单元450的前端单元430,并且两者被耦合到存储器单元470。核490可以是简化指令集计算(RISC)核、复杂指令集计算(CISC)核、非常长指令字(VLIW)核、或混合或备选核类型。如仍有的另一个选项,核490可以是专用核,诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核、或诸如此类。
前端单元430包含耦合到指令高速缓存单元434的分支预测单元432,指令高速缓存单元434被耦合到指令转换旁视(lookaside)缓冲器(TLB)436,其被耦合到指令取单元438,指令取单元438被耦合到解码单元440。解码单元440(或解码器)可解码指令,并生成为输出一个或更多微操作、微代码条目点、微指令、其它指令、或其它控制信号,其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制,解码单元440可被实现。适合的机制的示例包含但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)、等等。在一个实施例中,核490包含存储用于某些宏指令的微代码的微代码ROM或另一介质(例如,在解码单元440中或以别的方式在前端单元430内)。解码单元440被耦合到执行引擎单元450中的重命名/分配器单元452。
执行引擎单元450包含耦合到引退单元454和一个或更多调度器单元456的集合的重命名/分配器单元452。调度器单元456代表任何数量的不同调度器,包含保留站、中央指令窗口、等等。调度器单元456被耦合到物理寄存器堆单元458。物理寄存器堆单元458的每个代表一个或更多物理寄存器堆,其不同个(different ones)存储一个或更多不同数据类型,诸如标量整数、标量浮点、打包的整数、打包的浮点、向量整数、向量浮点、状态(例如,是要被执行的下一个指令的地址的指令指针)、等等。在一个实施例中,物理寄存器堆单元458包括向量寄存器单元、写掩码寄存器单元、和标量寄存器单元。这些寄存器单元可提供架构上的向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器堆单元458通过引退单元454来重叠以示出其中寄存器重命名和乱序执行可被实现的各种方式(例如,使用重排序缓冲器和引退寄存器堆;使用未来堆、历史缓冲器、和引退寄存器堆;使用寄存器映射和寄存器的池;等等)。引退单元454和物理寄存器堆单元458被耦合到执行群460。执行群460包含一个或更多执行单元462的集合和一个或更多存储器访问单元464的集合。执行单元462可执行各种操作(例如,移位、加法、减法、乘法)以及在各种类型的数据(例如,标量浮点、打包的整数、打包的浮点、向量整数、向量浮点)上执行。虽然一些实施例可包含专用于特定功能或功能的集合的多个执行单元,其它实施例可包含都执行所有功能的多个执行单元或仅一个执行单元。调度器单元456、物理寄存器堆单元458、和执行群460被示出为可能是复数的,因为某些实施例对于某些类型的数据/操作来创建分离管线(例如,标量整数管线、标量浮点/打包的整数/打包的浮点/向量整数/向量浮点管线、和/或存储器访问管线,其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或执行群—并且在分离的存储器访问管线的情况中,其中此管线的仅执行群具有存储器访问单元464的某些实施例被实现)。还应被理解的是,在分离管线被使用之处,这些管线的一个或更多管线可以是乱序发出/执行,并且剩余的是有序。
存储器访问单元464的集合被耦合到存储器单元470,存储器单元470包含耦合到数据高速缓存单元474的数据TLB单元472,数据高速缓存单元474耦合到等级2(L2)高速缓存单元476。在一个示范性实施例中,存储器访问单元464可包含加载单元、存储地址单元、和存储数据单元,其的每个被耦合到存储器单元470中的数据TLB单元472。指令高速缓存单元434被进一步耦合到存储器单元470中的等级2(L2)高速缓存单元476。L2高速缓存单元476被耦合到一个或更多其它等级的高速缓存并最终到主存储器。
通过示例的方式,示范性寄存器重命名、乱序发出/执行核架构可实现如下管线400:1)指令取438执行取及长度解码阶段402和404;2)解码单元440执行解码阶段406;3)重命名/分配器单元452执行分配阶段408和重命名阶段410;4)调度器单元456执行调度阶段412;5)物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414;执行群460执行执行阶段416;6)存储器单元470和物理寄存器堆单元458执行写回/存储器写阶段418;7)各种单元可在异常处置阶段422中被涉及;以及8)引退单元454和物理寄存器堆单元458执行提交阶段424。
核490可支持一个或更多指令集(例如,x86指令集(带有已随较新版本被添加的一些扩展);MIPS Technologies of Sunnyvale,CA的MIPS指令集;ARM Holdings ofSunnyvale,CA的ARM指令集(带有诸如NEON的可选附加扩展)),包含本文中所描述的指令。在一个实施例中,核490包含用于支持打包的数据指令集扩展(例如,AVX1、AVX2)的逻辑,因此允许由许多多媒体应用来使用的操作使用打包的数据来执行。
应被理解的是,核可支持多线程(执行操作或线程的两个或更多并行集合),并可以多种方式来如此做,所述多种方式包含时间分段的多线程、同时多线程(在单个物理核为线程的每个提供逻辑核的情况中,那个物理核正进行同时多线程),或其组合(例如,诸如在Intel®超线程技术中的时间分段的取和解码以及其后的同时多线程)。
虽然寄存器重命名在乱序执行的上下文中被描述,但应理解的是,寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包含分离的指令和数据高速缓存单元434/474以及共享的L2高速缓存单元476,但备选实施例可具有用于指令和数据两者的单个内部高速缓存,诸如例如,等级1(L1)内部高速缓存、或多个等级的内部高速缓存。在一些实施例中,系统可包含内部高速缓存及外部于核和/或处理器的外部高速缓存的组合。备选地,所有高速缓存可外部于核和/或处理器。
图5A-B示出核将是芯片中若干逻辑块之一(包含相同类型和/或不同类型的其他核)的更特定示范性有序核架构的框图。逻辑块通过高带宽互连网络(例如,环网络)取决于应用而通信于一些固定的功能逻辑、存储器I/O接口、和另一必要I/O逻辑。
图5A是根据本发明的实施例的单个处理器核连同到管芯上互连网络502的它的连接并连同等级2(L2)高速缓存504的它的本地子集的框图。在一个实施例中,指令解码器500支持带有打包的数据指令集扩展的x86指令集。L1高速缓存506允许低等待时间访问以将存储器高速缓存到标量和向量单元中。虽然在一个实施例中(为简化设计),标量单元508和向量单元510使用分离的寄存器集合(相应地,是标量寄存器512和向量寄存器514),并且在它们之间所转移的数据被写到存储器并然后从等级1(L1)高速缓存506读回,但本发明的备选实施例可使用不同手段(例如,使用单个寄存器集合或包含允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径)。
L2高速缓存504的本地子集是全局L2高速缓存的部分,所述全局L2高速缓存被划分成分离的本地子集,每处理器核一个。每个处理器核具有到L2高速缓存504的它自己的本地子集的直接访问路径。由处理器核所读的数据被存储在其L2高速缓存子集504中并能被快速地访问,并行于其它处理器核访问它们自己的本地L2高速缓存子集。由处理器核所写的数据被存储在其自己的L2高速缓存子集504中并且如果必要则从其它子集中被冲刷。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、L2高速缓存、和其它逻辑块的代理在芯片内互相通信。每个环数据-路径按方向是1012个比特宽。
图5B是根据本发明的实施例的图5A中的处理器核的部分的扩展的视图。图5B包含L1高速缓存504的L1数据高速缓存506A部分,以及关于向量单元510和向量寄存器514的更多细节。特别地,向量单元510是16宽向量处理单元(VPU)(见16宽ALU 528),其执行整数、单精度浮动、和双精度浮动指令的一个或更多。VPU支持在存储器输入上通过打乱单元520来打乱寄存器输入、通过数值转变单元522A-B来进行数值转变、以及通过复制单元524来进行复制。写掩码寄存器526允许预测结果的向量写。
图6是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器600的框图。图6中的实线框示出带有单个核602A、系统代理610、一个或更多总线控制器单元616的集合的处理器600,而虚线框的可选附加示出带有多个核602A-N、系统代理单元610中的一个或更多集成存储器控制器单元614的集合、和专用逻辑608的备选处理器600。
因此,处理器600的不同实现可包含:1)CPU,带有是集成图形和/或科学(吞吐量)逻辑(其可包含一个或更多核)的专用逻辑608、以及是一个或更多通用核(例如,通用有序核、通用乱序核、所述两个核的组合)的核602A-N;2)带有是打算主要用于图形和/或科学(吞吐量)的大量的专用核的核602A-N的协处理器;以及3)带有是大量的通用有序核的核602A-N的协处理器。因此,处理器600可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量许多集成核(MIC)协处理器(包含30或更多核)、嵌入式处理器、或诸如此类。处理器可被实现在一个或更多芯片上。使用多个处理技术的任何个(诸如例如,BiCMOS、CMOS、或NMOS),处理器600可被实现在一个或更多衬底上和/或是其部分。
存储器层级包含核内高速缓存的一个或更多等级、共享的高速缓存单元606的集合或一个或更多、和耦合到集成存储器控制器单元614的集合的外部存储器(未示出)。共享的高速缓存单元606的集合可包含一个或更多中等级高速缓存,诸如等级2(L2)、等级3(L3)、等级4(L4)、或其它等级的高速缓存、最后等级高速缓存(LLC)、和/或其组合。虽然在一个实施例中,基于环的互连单元612将集成图形逻辑608、共享的高速缓存单元606的集合、以及系统代理单元610/集成存储器控制器单元614互连,但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中,一个或更多高速缓存单元606和核602-A-N之间的一致性被维持。
在一些实施例中,核602A-N的一个或更多核有多线程的能力。系统代理610包含协调和操作核602A-N的那些组件。系统代理单元610可包含例如功率控制单元(PCU)和显示器单元。PCU可以是或包含为调节集成图形逻辑608和核602A-N的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或更多外部连接的显示器。
核602A-N可关于架构指令集是同质或异质的;那就是说,核602A-N的两个或更多核可有执行相同指令集的能力,而其它的核可有执行不同指令集或那个指令集的仅子集的能力。
图7-10是示范性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、手机、便携式媒体播放器、手持装置、以及各种其他电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说,能够合并如本文中所公开的处理器和/或其它执行逻辑的极多种的系统或电子装置一般是适合的。
现在参考图7,所示出的是依照本发明的一个实施例的系统700的框图。系统700可包含被耦合到控制器集线器720的一个或更多处理器710、715。在一个实施例中,控制器集线器720包含图形存储器控制器集线器(GMCH)790和输入/输出集线器(IOH)750(其可在分离的芯片上);GMCH 790包含存储器740和协处理器745被耦合到的存储器和图形控制器;IOH 750将输入/输出(I/O)装置760耦合到GMCH 790。备选地,存储器和图形控制器之一或两者被集成在处理器(如本文中所描述的)内,存储器740和协处理器745被直接耦合到处理器710、和带有IOH 750的单个芯片中的控制器集线器720。
附加处理器715的可选性质在图7中用虚线来指代。每个处理器710、715可包含本文中所描述的处理核的一个或更多,并可以是处理器600的某一版本。
存储器740可以是例如动态随机访问存储器(DRAM)、相变存储器(PCM)、或所述两个存储器的组合。对于至少一个实施例,控制器集线器720经由诸如前侧总线(FSB)的多点总线、诸如快速路径互连(QPI)的点对点接口、或类似连接795与处理器710、715通信。
在一个实施例中,协处理器745是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器、或诸如此类。在一个实施例中,控制器集线器720可包含集成图形加速器。
物理资源710、715之间关于包含架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。
在一个实施例中,处理器710执行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协处理器指令。处理器710将这些协处理器指令辨认为是应由附连的协处理器745来执行的类型。因此,处理器710在协处理器总线或另一互连上将这些协处理器指令(或代表协处理器指令的控制信号)发出到协处理器745。协处理器745接受并执行所接收的协处理器指令。
现在参考图8,所示出的是依照本发明的一实施例的第一更特定示范性系统800的框图。如图8中所示出的,多处理器系统800是点对点互连系统,并包含经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880的每个可以是处理器600的某一版本。在本发明的一个实施例中,处理器870和880相应是处理器710和715,而协处理器838是协处理器745。在另一个实施例中,处理器870和880相应是处理器710、协处理器745。
处理器870和880被示出相应包含集成存储器控制器(IMC)单元872和882。处理器870还包含作为它的总线控制器单元的部分的点对点(P-P)接口876和878;类似地,第二处理器880包含P-P接口886和888。使用P-P接口电路878、888,处理器870、880可经由点对点(P-P)接口850来交流信息。如图8中所示出的,IMC 872和882将处理器耦合到相应存储器(就是存储器832和存储器834),其可以是本地地附连到相应处理器的主存储器的部分。
使用点对点接口电路876、894、886、898,处理器870、880可各自经由各个P-P接口852、854与芯片集890交流信息。芯片集890可以可选地经由高性能接口839与协处理器838交流信息。在一个实施例中,协处理器838是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器、或诸如此类
共享的高速缓存(未示出)可被包含在任一处理器中或在两个处理器的外面,又经由P-P互连与处理器连接,使得如果处理器被置于低功率模式中,则任一或两个处理器的本地高速缓存信息可被存储在共享的高速缓存中。
芯片集890可经由接口896来耦合到第一总线816。在一个实施例中,第一总线816可以是外围组件互连(PCI)总线、或诸如PCI高速总线或另一个第三代I/O互连总线的总线,尽管本发明的范畴未被如此限制。
如图8中所示出的,各种I/O装置814可连同总线桥818被耦合到第一总线816,总线桥818将第一总线816耦合到第二总线820。在一个实施例中,诸如协处理器、高性能MIC处理器、GPGPU的加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或任何其它处理器的一个或更多附加处理器815被耦合到第一总线816。在一个实施例中,第二总线820可以是低管脚计数(LPC)总线。各种装置可被耦合到第二总线820,包含例如键盘和/或鼠标822、通信装置827和诸如硬盘驱动器或其它海量存储装置的存储单元828,其可包含指令/代码和数据830(在一个实施例中)。进一步地,音频I/O 824可被耦合到第二总线820。注意,其它架构是可能的。例如,代替图8的点对点架构,系统可实现多点总线或另一此类架构。
现在参考图9,所示出的是依照本发明的一实施例的第二更特定示范性系统900的框图。图8和9中的相似元件标有相似引用号码,并且图8的某些方面已从图9中被省略以便避免使图9的其它方面难以理解。
图9示出了处理器870、880可相应包含集成存储器以及I/O控制逻辑(“CL”)872和882。因此,CL 872、882包含集成存储器控制器单元并包含I/O控制逻辑。图9示出了不但存储器832、834被耦合到CL 872、882,而且I/O装置914也被耦合到控制逻辑872、882。遗留I/O装置915被耦合到芯片集890。
现在参考图10,所示出的是依照本发明的一实施例的SoC 1000的框图。图6中的类似元件标有相似引用号码。同样,虚线框在更高级的SoC上是可选特征。在图10中,互连单元1002被耦合到:应用处理器1010,其包含一个或更多核202A-N的集合和共享的高速缓存单元606;系统代理单元610;总线控制器单元616;集成存储器控制器单元614;协处理器1020的集合或一个或更多,其可包含集成图形逻辑、图像处理器、音频处理器、以及视频处理器;静态随机访问存储器(SRAM)单元1030;直接存储器访问(DMA)单元1032;以及用于耦合到一个或更多外部显示器的显示器单元1040。在一个实施例中,协处理器1020包含专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器、或诸如此类
本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上执行的程序代码或计算机程序,所述可编程系统包括至少一个处理器、存储系统(包含易失性和非易失性存储器和/或存储元件)、至少一个输入装置、和至少一个输出装置。
诸如图8中所示出的代码830的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或更多输出装置。为了此应用的目的,处理系统包含具有处理器(诸如例如:数字信号处理器(DSP)、微控制器、应用特定集成电路(ASIC)、或微处理器)的任何系统。
程序代码可被实现在高等级规程上(procedural)或对象定向的编程语言中以与处理系统通信。如果期望的话,则程序代码可还被实现在汇编或机器语言中。事实上,本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中,语言可以是编译或解译的语言。
至少一个实施例的一个或更多方面可由存储在机器可读介质上的代表性指令来实现,所述代表性指令表示处理器内的各种逻辑,其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示(已知为“IP核”)可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。
此类机器可读存储介质可包含由机器或装置所制造或形成的物品(article)的非暂态、有形的布置而没有限制,包含存储介质(诸如硬盘、包含软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)、和磁光盘的任何其它类型的盘)、半导体装置(诸如只读存储器(ROM),诸如动态随机访问存储器(DRAM)、静态随机访问存储器(SRAM)的随机访问存储器(RAM),可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)、磁或光卡、或适合于存储电子指令的任何其它类型的介质)。
因此,本发明的实施例还包含非暂态、有形的机器可读介质,所述介质含有指令或含有设计数据,诸如硬件描述语言(HDL),其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。
在一些情况中,指令转变器可被用于将指令从源指令集转变成目标指令集。例如,指令转变器可转换(例如,使用静态二进制转换、包含动态编译的动态二进制转换)、型变(morph)、仿真、或以其它方式将指令转变成要由核来处理的一个或更多其他指令。指令转变器被实现在软件、硬件、固件、或其组合中。指令转变器可在处理器上、离开处理器、或部分在处理器上而部分离开处理器。
图11是框图,其对照根据本发明的实施例的使用软件指令转变器以将源指令集中的二进制指令转变成目标指令集中的二进制指令。在所示出的实施例中,指令转变器是软件指令转变器,尽管备选地指令转变器可被实现在软件、固件、硬件、或其各种组合中。图11示出使用x86编译器1104,用高等级语言1102的程序可被编译以生成x86二进制代码1106,其可由带有至少一个x86指令集核的处理器1116来原生执行。带有至少一个x86指令集核的处理器1116表示能如带有至少一个x86指令集核的Intel处理器一样大体上执行相同功能的任何处理器,这通过兼容地执行或以其它方式处理(1)Intel x86指令集核的指令集的实质部分,或(2)针对于在带有至少一个x86指令集核的Intel处理器上运行的应用或另一软件的对象(object)代码版本,以便取得大体上与带有至少一个x86指令集核的Intel处理器相同的结果。x86编译器1104表示可操作以生成x86二进制代码1106(例如,对象代码)的编译器,x86二进制代码1106能通过或不通过附加联接处理而在带有至少一个x86指令集核的处理器1116上被执行。类似地,图11示出了使用备选指令集编译器1108,用高等级语言1102的程序可被编译以生成备选指令集二进制代码1110,其可由不带有至少一个x86指令集核的处理器1114(例如,带有执行MIPS Technologies of Sunnyvale,CA的MIPS指令集和/或执行ARM Holdings of Sunnyvale,CA的ARM指令集的核的处理器)来原生执行。指令转变器1112被用于将x86二进制代码1106转变成可由不带有x86指令集核的处理器1114来原生执行的代码。此被转变的代码不可能与备选指令集二进制代码1110相同,因为能够这样做的指令转变器难以做出;然而,被转变的代码将完成一般操作并由来自备选指令集的指令构成。因此,指令转变器1112表示软件、固件、硬件、或其组合,其通过仿真、模拟或任何其它过程而允许不具有x86指令集处理器或核的处理器或另一电子装置执行x86二进制代码1106。
用于执行模式选择的方法和设备
现今某些处理器能够执行“高功率”指令,诸如宽单指令多数据(SIMD)指令、某些类型的浮点指令、和利用硬件卸载引擎的指令。这些高功率指令具有与它们的执行关联的功率、电压和/或频率惩罚。这典型地因为此类指令的高功率或电流吸取(draw)不能总是被维系在与对于低功率指令所要求的频率、电流、和/或电压等级相同的频率、电流、和/或电压等级。在许多核架构中,处理器在特殊模式中执行此类指令以顾及关于功率的不同。进入此模式可具有开销(典型地约为微秒),这意味着频繁进入/退出模式对于性能是有害的。性能开销经常通过在模式中停留足够长的持续期(典型地约为毫秒)以避免频繁切换进或出此类模式来减轻。
对于在高功率指令中“密集”的代码,通过运行大量高性能指令的性能优点,在受保护模式中运行的性能惩罚不只被抵偿,还导致数据吞吐量中的显著增加。
问题是某一编译器生成或标准库的代码常常含有“稀疏的”或“零星的”高功率指令。在执行此代码时存在这样的时间段,在其期间可存在小量的高功率指令(例如,百万指令中的少数指令),其要求进入到受保护模式中以执行指令(因此导致性能惩罚),但所述小量的此类指令意味着此惩罚未由对应性能增益来平衡。
这导致若干问题。例如,因为进入和退出高功率模式所要求的时间,存在关联于含有“稀疏的”高功率指令的运行工作量的性能损失。对于用户还更难的是运行于由于变迁而不带有“死亡时间”的不变频率或吞吐量。在一些实现中,进入/退出受保护模式可导致不带有简单工作区(workaround)(除了重编译代码)的不可接受的等待时间影响。此外,对于微处理器制造商困难的是,在产品的行为可取决于正被执行的程序代码而显著变化(即,使用可具有不同百分比的高功率指令的不同代码)时为产品行为提供清楚的说明书。为功率输送提供在其下没有高功率指令将被执行的运行时间“低功率”模式也是困难的。
为了解决前述限制,本发明的一个实施例在以下项之间动态选定:(1)“原生地”运行高功率指令(如现今对于所有高功率指令所做的)、或(2)在“仿真”模式中运行高功率指令,其中它们在非高功率指令的功率包封内符合,可能以正被更慢执行为代价。这使得带有稀疏的高功率指令的工作量能够在正常功率等级以最小性能影响来运行。
图12示出包括多个核0—N的示范性处理器1255,在其上本发明的实施例可被实现。虽然仅单个核(核0)的细节被示出,其它核1-N的每个可包含与对于核0所示出的架构相同或类似的架构。在一个实施例中,处理器1255的每个核0-N包含用于执行诸如加载/存储操作的存储器操作的存储器管理单元1290。另外,每个核0-N包含通用寄存器(GPR)1205的集合、向量寄存器1206的集合、和掩码寄存器1207的集合。在一个实施例中,多个向量数据元素被打包到每个向量寄存器1206中,其可具有512比特宽度以用于存储两个256比特值、四个128比特值、八个64比特值、十六个32比特值、等等。然而,本发明的根本原理不限于任何具体大小/类型的向量数据。在一个实施例中,掩码寄存器1207包含用于在存储在向量寄存器1206(例如,实现为以上所描述的掩码寄存器k0-k7)中的值上执行比特掩蔽操作的八个64比特操作数掩码寄存器。然而,本发明的根本原理不限于任何具体掩码寄存器大小/类型。
在一个实施例中,每个核可包含用于根据指定的高速缓存管理策略来高速缓存指令和数据的专用的等级1(L1)高速缓存1212和等级2(L2)高速缓存1211。L1高速缓存1212包含用于存储指令的分离的指令高速缓存1220和用于存储数据的分离的数据高速缓存1221。存储在各种处理器高速缓存内的指令和数据被管理于高速缓存行的粒度,其可以是固定的大小(例如,长度是64、128、512字节)。此示范性实施例的每个核具有:指令取单元1210,用于从主存储器1200和/或共享的等级3(L3)高速缓存1216中取指令;解码单元1220,用于解码指令(例如,将程序指令解码成微操作或“uop”);执行单元1240,用于执行指令;以及写回单元1250,用于引退指令并写回结果。
指令取单元1210包含各种公知组件,包含:下一个指令指针1203,用于存储要从存储器1200(或高速缓存之一)中被取的下一个指令的地址;指令转换旁视缓冲器(ITLB)1204,用于存储最近被使用的虚拟到物理指令地址的映射以改善地址转换的速度;分支预测单元1202,用于推测性地预测指令分支地址;以及分支目标缓冲器(BTB)1201,用于存储分支地址和目标地址。一旦被取,指令然后被流传送到包含解码单元1230、执行单元1240、和写回单元1250的指令管线的其余阶段。这些单元的每个单元的结构和功能由本领域那些普通技术人员所良好理解,并在此将不被详细描述以避免使本发明的不同实施例的有关方面难以理解。
在所示出的实施例中,解码单元1230包含执行模式选择逻辑1205,用于实现本文中所描述的对于在由执行单元1240来执行高功率指令时在“原生”执行模式或“仿真”执行模式之间动态选择的技术。虽然被示出在图12中的解码单元1230内,但执行模式选择1205可在备选实施例中被实现在执行单元1240内(例如,在执行单元的前端中,先于uop执行)。本发明的根本原理不限于执行模式选择逻辑1205的任何具体架构位置。
图13示出本发明的一个实施例的附加细节,其中高功率和标准(即“低功率”)指令的流1300由解码器单元1230内的指令解码逻辑1305来解码并由执行模式选择逻辑1205来分析以确定高功率指令在指令流内与其被遭遇的频率。在所示出的实施例中,指令流分析逻辑1301维持一个或更多计数器1302的集合以计数具体时间或指令窗口内遭遇的高功率指令的数量。取决于所指定时间或指令窗口内所检测的高功率的指令的数量,原生/仿真模式选择逻辑1310选定执行单元1240内的“原生”高功率执行模式1320或“仿真”高功率执行模式1321。
在一个实施例中,高功率的指令的阈值数量可对于时间或指令窗口被指定。如果指令流分析逻辑1301检测阈值已被超过,则原生/仿真执行模式选择逻辑1310选定“原生”高功率指令执行模式1320。相反,如果阈值未被超过,则原生/仿真执行模式选择逻辑1310选定“仿真”高功率指令执行模式1321。
阈值可以多种方式来指定同时仍遵照本发明的根本原理。例如,在一个实施例中,阈值可包括具体指令窗口内的指令的总数量中的高功率的指令的指定数量(例如,流1300内的最后10000个指令中的高功率的指令的数量)。例如,为了执行运算,一个计数器1302可计数高功率的指令的数量,并且另一个计数器1302可计数指令的总数量。在另一个实施例中,阈值可基于指定的时间窗口内高功率的指令的数量(例如,最后.01微秒、.001微秒内,等等)。当然,本发明的根本原理不限于用于确定指令流内高功率的指令的频率的任何特定方式。
“仿真”高功率执行1321可以多种方式来实现。例如,在一个实施例中,执行模式选择逻辑1205(或解码器1230内的另一逻辑)将高功率指令解码成在较低性能运行的低功率微代码指令。动态二进制转换技术可也被采用以执行解码和转换成低功率微代码以用于仿真执行1321。
备选地,或另外,高功率指令可在执行单元1240内在精细粒度的微架构上的等级被节流以减少这些指令的功率包封。例如使用诸如管线泡注入、端口大小减少、时钟频率减少、和/或用于减少执行速率的类似机制的技术,这可被完成。使用这些技术,指令和关联的微操作可花费更长时间来执行,但不显出“原生”高功率行为。
如仍有的另一个示例,高功率指令可被发送到具有较低性能的执行单元1240内的备选“低功率”执行管线。例如,用于原生执行高功率指令的某些“高功率”硬件特征可在“低功率”执行管线内被关闭。
在一个实施例中,原生/仿真执行模式选择逻辑1310基于各种准则来实现以上选项的一个或更多。例如,在一个实施例中,平台最大电流(IccMax)约束被监视,其可在运行时间被静态运算或动态更新。在一个实施例中,如果最大电流阈值将被超过,则高功率指令可被转变成低功率微操作、被节流、和/或由低功率执行管线来执行。
基于硬件计数器的试探法(heuristics)可也被使用。例如,在一个实施例中,硬件计数器计数给定时间窗口中的高功率操作的数量,并且如果它超过阈值则从“仿真”切换到“原生”模式,然后如果高功率操作的数量对于时间的指定时期降到低于第二阈值则切换回。作为另一个示例,编译器提示或特殊软件可见指令可被使用,其在“原生”和“仿真”模式之间切换。
依照本发明的一个实施例的方法被示出在图14中。所述方法可被实现在以上所描述的架构的上下文内,但不限于任何具体系统架构。
在1401,序列中的下一个指令被解码。如果它不是高功率指令,则在1402被确定,然后在1403,过程返回到1401,其中序列中的下一个指令被解码。如果它是高功率的指令,则在1404,关于当前时间/指令窗口中的高功率指令的数量是否超过指定的阈值的确定被做出。例如,如以上所讨论的,如果在给定窗口内存在N个或更多高功率指令,则在1405,指令作为高功率的指令被正常执行。然而,如果在给定窗口内存在少于N个高功率指令,则在1406,指令在“仿真”模式中被执行。例如,如以上所讨论的,指令可被解码成低功率微操作、可被节流,或者低功率执行管线可被使用。
在前述说明书中,发明的实施例已参考其特定示范性实施例来描述。然而,将显然的是,各种修改和改变可对其被做出而不会背离如在随附的权利要求中所阐明的本发明的更广泛精神和范畴。说明书和附图因此要在说明性而非限制性意义中被看待。
本发明的实施例可包含已在上面被描述的各种步骤。所述步骤可被实施在可被用于促使通用或专用处理器执行所述步骤的机器可执行的指令中。备选地,这些步骤可由含有用于执行所述步骤的硬连线的逻辑的特定硬件组件、或由编程的计算机组件和定制的硬件组件的任何组合来执行。
如本文中所描述的,指令可指的是诸如配置成执行某些操作或具有预确定的功能性的应用特定集成电路(ASICs)的硬件的特定配置、或非暂态计算机可读介质中所实施的存储器中所存储的软件指令。因此,使用一个或更多电子装置(例如,终端站、网络元件、等等)上所存储和所执行的代码和数据,图中所示出的技术能被实现。使用计算机机器可读介质,此类电子装置存储并交流(在网络上内部地和/或与其它电子装置)代码和数据,所述计算机机器可读介质诸如非暂态计算机机器可读存储介质(例如,磁盘;光盘;随机访问存储器;只读存储器;闪速存储器装置;相变存储器)和暂态计算机机器可读通信介质(例如,电子的、光的、声的或另一形式的传播信号—诸如载波、红外线信号、数字信号、等等)。另外,此类电子装置典型地包含耦合到一个或更多其它组件的一个或更多处理器的集合,所述一个或更多其它组件诸如是一个或更多存储装置(非暂态机器可读存储介质)、用户输入/输出装置(例如,键盘、触摸屏、和/或显示器)、和网络连接。处理器的集合和其它组件的耦合典型地通过一个或更多总线和桥(也被称为总线控制器)。携带网络业务的信号和存储装置相应表示一个或更多机器可读通信介质和机器可读存储介质。因此,给定的电子装置的存储装置典型地存储用于在那个电子装置的一个或更多处理器的集合上执行的代码和/或数据。当然,使用软件、固件、和/或硬件的不同组合,本发明的实施例的一个或更多部分可被实现。贯穿此详细描述,为了解释的目的,众多特定细节被阐明以便提供本发明的透彻理解。然而,将对本领域技术人员显而易见的是,本发明可被实践而不带有这些特定的细节的一些。在某些实例中,公知结构和功能未以详尽细节来描述以便避免使本发明的主旨难以理解。因此,本发明的范畴和精神应按照随附权利要求来判断。
Claims (20)
1.一种用于处理包含高功率和标准指令的指令集的处理器,包括:
分析模块,用于确定指定窗口内高功率指令的数量是高于还是低于指定阈值;
执行模式选择模块,用于如果高功率指令的所述数量高于所述指定阈值则选择原生执行模式以用于所述高功率指令,或者如果高功率指令的所述数量低于所述指定阈值则选择仿真执行模式以用于所述高功率的指令。
2.如权利要求1中所述的处理器,其中如果所述窗口内高功率指令的所述数量等于所述阈值,则所述执行模式选择模块配置成选择所述高功率指令的原生执行或仿真执行。
3.如权利要求1中所述的处理器,其中所述窗口包括时间的指定量并且所述阈值包括时间的所述指定量内高功率指令的阈值数量,或者其中所述窗口包括指令的指定数量并且所述阈值包括指令的所述指定数量内高功率指令的阈值数量。
4.如权利要求3中所述的处理器,进一步包括:
解码器,用于响应于所述执行模式选择模块确定高功率指令的所述数量低于所述指定阈值,将所述高功率指令解码成微操作的第一集合,以及响应于所述执行模式选择模块确定高功率指令的所述数量高于所述指定阈值,将所述高功率指令解码成微操作的第二集合。
5.如权利要求4中所述的处理器,其中微操作的所述第一集合相比微操作的所述第二集合耗用相对更少功率。
6.如权利要求5中所述的处理器,其中微操作的所述第二集合相比微操作的所述第一集合更快完成对应宏指令的执行。
7.如权利要求1中所述的处理器,其中所述高功率指令包含宽单指令多数据(SIMD)指令、某些类型的浮点指令、和利用硬件卸载引擎的指令。
8.如权利要求1中所述的处理器,其中高功率指令包括相比标准指令原生地耗用更多功率和/或在不同电压或频率被执行的指令。
9.如权利要求1中所述的处理器,其中性能开销被关联于进入和退出所述原生执行模式,并且其中所述阈值鉴于所述性能开销而被设置。
10.如权利要求9中所述的处理器,其中所述性能开销包括进入和/或退出所述原生执行模式所要求的时间的量。
11.一种用于处理包含高功率和标准指令的指令集的方法,包括:
确定指定窗口内高功率指令的数量是高于还是低于指定阈值;
如果高功率指令的所述数量高于所述指定阈值则选择原生执行模式以用于所述高功率指令,或者如果高功率指令的所述数量低于所述所述指定阈值则选择仿真执行模式以用于所述高功率的指令。
12.如权利要求11中所述的方法,其中如果所述窗口内高功率指令的所述数量等于所述阈值,则选择所述高功率指令的原生执行或仿真执行。
13.如权利要求11中所述的方法,其中所述窗口包括时间的指定量并且所述阈值包括时间的所述指定量内高功率指令的阈值数量,或者其中所述窗口包括指令的指定数量并且所述阈值包括指令的所述指定数量内高功率指令的阈值数量。
14.如权利要求13中所述的方法,进一步包括:
响应于确定高功率指令的所述数量低于所述指定阈值,将所述高功率指令解码成微操作的第一集合,以及响应于确定高功率指令的所述数量高于所述指定阈值,将所述高功率指令解码成微操作的第二集合。
15.如权利要求14中所述的方法,其中微操作的所述第一集合相比微操作的所述第二集合耗用相对更少功率。
16.如权利要求15中所述的方法,其中微操作的所述第二集合相比微操作的所述第一集合更快完成对应宏指令的执行。
17.如权利要求11中所述的方法,其中所述高功率指令包含宽单指令多数据(SIMD)指令、某些类型的浮点指令、和利用硬件卸载引擎的指令。
18.如权利要求11中所述的方法,其中高功率指令包括相比标准指令原生地耗用更多功率和/或在不同电压或频率被执行的指令。
19.如权利要求11中所述的方法,其中性能开销被关联于进入和退出所述原生执行模式,并且其中所述阈值鉴于所述性能开销而被设置。
20.如权利要求19中所述的方法,其中所述性能开销包括进入和/或退出所述原生执行模式所要求的时间的量。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/750212 | 2015-06-25 | ||
US14/750,212 US9841997B2 (en) | 2015-06-25 | 2015-06-25 | Method and apparatus for execution mode selection |
PCT/US2016/034051 WO2016209487A1 (en) | 2015-06-25 | 2016-05-25 | Method and apparatus for execution mode selection |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107636609A true CN107636609A (zh) | 2018-01-26 |
Family
ID=57586140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680030372.6A Pending CN107636609A (zh) | 2015-06-25 | 2016-05-25 | 用于执行模式选择的方法和设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9841997B2 (zh) |
EP (1) | EP3314428B1 (zh) |
CN (1) | CN107636609A (zh) |
TW (1) | TWI697836B (zh) |
WO (1) | WO2016209487A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10310858B2 (en) * | 2016-03-08 | 2019-06-04 | The Regents Of The University Of Michigan | Controlling transition between using first and second processing circuitry |
US10437562B2 (en) | 2016-12-30 | 2019-10-08 | Intel Corporation | Apparatus and method for processing sparse data |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975693A (zh) * | 2006-12-13 | 2007-06-06 | 南开大学 | 具有自驱动功能的指令仿真解析系统及其实现方法 |
CN102110011A (zh) * | 2009-12-23 | 2011-06-29 | 英特尔公司 | 局部仿真环境中从源指令集架构代码向转换后代码的转换 |
US20110208505A1 (en) * | 2010-02-24 | 2011-08-25 | Advanced Micro Devices, Inc. | Assigning floating-point operations to a floating-point unit and an arithmetic logic unit |
US20140281399A1 (en) * | 2013-03-16 | 2014-09-18 | William C. Rash | Instruction emulation processors, methods, and systems |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6651176B1 (en) * | 1999-12-08 | 2003-11-18 | Hewlett-Packard Development Company, L.P. | Systems and methods for variable control of power dissipation in a pipelined processor |
US6775787B2 (en) * | 2002-01-02 | 2004-08-10 | Intel Corporation | Instruction scheduling based on power estimation |
US6961847B2 (en) | 2002-03-20 | 2005-11-01 | Intel Corporation | Method and apparatus for controlling execution of speculations in a processor based on monitoring power consumption |
US7836284B2 (en) * | 2005-06-09 | 2010-11-16 | Qualcomm Incorporated | Microprocessor with automatic selection of processing parallelism mode based on width data of instructions |
US20070220293A1 (en) * | 2006-03-16 | 2007-09-20 | Toshiba America Electronic Components | Systems and methods for managing power consumption in data processors using execution mode selection |
US7992017B2 (en) | 2007-09-11 | 2011-08-02 | Intel Corporation | Methods and apparatuses for reducing step loads of processors |
US8160862B1 (en) * | 2007-12-05 | 2012-04-17 | Cadence Design Systems, Inc. | Method and apparatus for controlling power in an emulation system |
US9009451B2 (en) * | 2011-10-31 | 2015-04-14 | Apple Inc. | Instruction type issue throttling upon reaching threshold by adjusting counter increment amount for issued cycle and decrement amount for not issued cycle |
US8954775B2 (en) * | 2012-06-20 | 2015-02-10 | Intel Corporation | Power gating functional units of a processor |
US9471308B2 (en) * | 2013-01-23 | 2016-10-18 | International Business Machines Corporation | Vector floating point test data class immediate instruction |
US9383806B2 (en) * | 2013-04-17 | 2016-07-05 | Apple Inc. | Multi-core processor instruction throttling |
-
2015
- 2015-06-25 US US14/750,212 patent/US9841997B2/en active Active
-
2016
- 2016-05-18 TW TW105115348A patent/TWI697836B/zh active
- 2016-05-25 CN CN201680030372.6A patent/CN107636609A/zh active Pending
- 2016-05-25 WO PCT/US2016/034051 patent/WO2016209487A1/en unknown
- 2016-05-25 EP EP16814946.6A patent/EP3314428B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975693A (zh) * | 2006-12-13 | 2007-06-06 | 南开大学 | 具有自驱动功能的指令仿真解析系统及其实现方法 |
CN102110011A (zh) * | 2009-12-23 | 2011-06-29 | 英特尔公司 | 局部仿真环境中从源指令集架构代码向转换后代码的转换 |
US20110208505A1 (en) * | 2010-02-24 | 2011-08-25 | Advanced Micro Devices, Inc. | Assigning floating-point operations to a floating-point unit and an arithmetic logic unit |
US20140281399A1 (en) * | 2013-03-16 | 2014-09-18 | William C. Rash | Instruction emulation processors, methods, and systems |
Also Published As
Publication number | Publication date |
---|---|
TWI697836B (zh) | 2020-07-01 |
US20160378486A1 (en) | 2016-12-29 |
US9841997B2 (en) | 2017-12-12 |
WO2016209487A1 (en) | 2016-12-29 |
EP3314428A4 (en) | 2019-07-03 |
TW201716990A (zh) | 2017-05-16 |
EP3314428A1 (en) | 2018-05-02 |
EP3314428B1 (en) | 2024-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106293640B (zh) | 用于紧密耦合的异构计算的硬件处理器、方法以及硬件装置 | |
CN105278917B (zh) | 无局部性提示的向量存储器访问处理器、方法、设备、制品和电子设备 | |
CN104813277B (zh) | 用于处理器的功率效率的向量掩码驱动时钟门控 | |
CN104094218B (zh) | 用于执行写掩码寄存器到向量寄存器中的一系列索引值的转换的系统、装置和方法 | |
CN109614076A (zh) | 浮点到定点转换 | |
CN104011647B (zh) | 浮点舍入处理器、方法、系统和指令 | |
CN104011673B (zh) | 向量频率压缩指令 | |
CN109791488A (zh) | 用于执行用于复数的融合乘-加指令的系统和方法 | |
CN104011660B (zh) | 用于处理位流的基于处理器的装置和方法 | |
CN104145245B (zh) | 浮点舍入量确定处理器、方法、系统和指令 | |
CN104335166B (zh) | 用于执行混洗和操作的装置和方法 | |
CN104025022B (zh) | 用于具有推测支持的向量化的装置和方法 | |
CN107003844A (zh) | 用于矢量广播和xorand逻辑指令的装置和方法 | |
CN107003843A (zh) | 用于对向量元素集合执行约减操作的方法和设备 | |
CN104011652B (zh) | 打包选择处理器、方法、系统和指令 | |
CN107077321A (zh) | 用于执行融合的单个周期递增‑比较‑跳转的指令和逻辑 | |
CN107250993A (zh) | 向量缓存行写回处理器、方法、系统和指令 | |
CN104081337B (zh) | 用于响应于单个指令来执行横向部分求和的系统、装置和方法 | |
CN107077329A (zh) | 用于通过无序硬件软件协同设计处理器中的栈同步指令来实现和维持判定值的栈的方法和设备 | |
CN104781803A (zh) | 用于架构不同核的线程迁移支持 | |
CN107003846A (zh) | 用于向量索引加载和存储的方法和装置 | |
CN104011671B (zh) | 用于执行置换操作的设备和方法 | |
CN108292224A (zh) | 用于聚合收集和跨步的系统、设备和方法 | |
CN109791486A (zh) | 用于具有紧凑指令编码的指令的处理器、方法、系统和指令转换模块 | |
CN104126170A (zh) | 打包数据操作掩码寄存器算术组合处理器、方法、系统及指令 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |