CN104781803A - 用于架构不同核的线程迁移支持 - Google Patents
用于架构不同核的线程迁移支持 Download PDFInfo
- Publication number
- CN104781803A CN104781803A CN201280076824.6A CN201280076824A CN104781803A CN 104781803 A CN104781803 A CN 104781803A CN 201280076824 A CN201280076824 A CN 201280076824A CN 104781803 A CN104781803 A CN 104781803A
- Authority
- CN
- China
- Prior art keywords
- processor core
- register
- processor
- core
- thread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005012 migration Effects 0.000 title claims abstract description 71
- 238000013508 migration Methods 0.000 title claims abstract description 70
- 238000003860 storage Methods 0.000 claims abstract description 84
- 230000004044 response Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 125
- 101100016034 Nicotiana tabacum APIC gene Proteins 0.000 claims description 85
- 238000000034 method Methods 0.000 claims description 56
- 230000005611 electricity Effects 0.000 claims description 8
- 238000011084 recovery Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 5
- VOXZDWNPVJITMN-ZBRFXRBCSA-N 17β-estradiol Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 VOXZDWNPVJITMN-ZBRFXRBCSA-N 0.000 description 71
- 238000010586 diagram Methods 0.000 description 49
- 238000006073 displacement reaction Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 14
- 239000000872 buffer Substances 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 210000004027 cell Anatomy 0.000 description 12
- 244000045947 parasite Species 0.000 description 12
- 238000013501 data transformation Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 210000004940 nucleus Anatomy 0.000 description 8
- 230000032683 aging Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000007667 floating Methods 0.000 description 7
- 230000003068 static effect Effects 0.000 description 7
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005538 encapsulation Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000001052 transient effect Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 101100285899 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SSE2 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000001693 membrane extraction with a sorbent interface Methods 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/461—Saving or restoring of program or task context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3851—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3888—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple threads [SIMT] in parallel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Microcomputers (AREA)
- Power Sources (AREA)
Abstract
根据一个实施例,处理器包括:多个处理器核,用于执行多个线程;共享存储设备,通信地耦合至多个处理器核;功率控制单元(PCU),通信地耦合至多个处理器核,该PCU用于在不需要任何软件(SW)干预的情况下,确定是否应当将正在由第一处理器核执行的线程迁移到第二处理器核;以及迁移单元,响应于从PCU接收到迁移线程的指令,该迁移单元用于:将第一处理器核的架构状态的至少部分存储在共享存储设备中;并且在不需要任何SW干预的情况下,将该线程迁移到第二处理器核,使得该第二处理器核在SW不知晓的情况下,基于来自共享存储设备的架构状态,继续执行该线程。
Description
技术领域
本发明的多个实施例总体涉及处理器架构,更具体地说,涉及用于在架构上不同的处理器核之间迁移线程的技术。
背景技术
半导体处理和逻辑设计方面的进展已允许可存在于集成电路器件上的逻辑数量的增加。因此,计算机系统配置已经从系统中的单个或多个集成电路演化为存在于单独的集成电路上的多个核和多个逻辑处理器。处理器或集成电路通常包括单个处理器管芯,其中,该处理器管芯可包括诸如核、线程和/或逻辑处理器之类的任意数量的处理元件。
诸如芯片多处理器(“CMP”)系统之类的多处理器系统包括多个处理器核,其中的每一个都能够独立地执行线程。同构的CMP系统包括全部具有相同的指令集架构(ISA)的处理器核。如果功率是主要的设计约束,则全部为小型处理器核的系统似乎是可能的选择。然而,该系统将遭受比全部是大型处理器核的系统更低的性能。对全部为小型处理器核的系统的自然扩展是具有附加的大处理器核,该大处理器核用于在需要时提供附加的性能提升,同时将高功率效率的小型处理器核用于系统执行的其余部分。
在CMP系统中支持线程迁移。线程迁移是指线程从一个处理器核移动到另一处理器核。常规的异构CMP系统通过将异构资源暴露于应用软件、操作系统(OS)、基本输入/输出系统(BIOS)和/或低层级软件和/或固件(在本文中,将把它们简单地统称为“软件”(SW))来支持线程迁移。在此类异构CMP系统中,线程迁移涉及SW层管理被暴露的异构资源。SW和CMP系统硬件之间的该紧密耦合需要修改软件以使该软件适应各种异构的CMP系统。
附图说明
在所附附图的多个图中,以示例方式而非限制方式说明本发明的多个实施例,在附图中,类似的参考标号指示类似的元件。
图1是根据本发明的一个实施例的处理器或处理器核的执行流水线的框图。
图2是根据本发明的一个实施例的、包括多个处理器核的处理器的框图框图。
图3是示出线程迁移的处理器实现的方法的流程图。
图4是示出图2中的迁移单元242的实施例的流程图。
图5是示出图2中的迁移单元242的实施例的流程图。
图6是示出图2中的迁移单元242的实施例的流程图。
图7A示出根据本发明的一个实施例的高级向量扩展(AVX)指令格式。
图7B示出根据本发明的另一实施例的高级向量扩展(AVX)指令格式。
图7C示出根据本发明的又一实施例的高级向量扩展(AVX)指令格式。
图8A是示出根据本发明的多个实施例的通用向量友好指令格式及其A类指令模板的框图。
图8B是示出根据本发明的多个实施例的通用向量友好指令格式及其B类指令模板的框图。
图9A是示出根据本发明的一个实施例的专用向量友好指令格式的框图。
图9B是示出根据本发明的另一实施例的通用向量友好指令格式的框图。
图9C是示出根据本发明的另一实施例的通用向量友好指令格式的框图。
图9D是示出根据本发明的另一实施例的通用向量友好指令格式的框图。
图10是根据本发明的一个实施例的寄存器架构的框图。
图11A是示出根据本发明的多个实施例的有序流水线和示例性的寄存器重命名的无序发布/执行流水线的框图。
图11B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核的实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。
图12A是根据本发明的一个实施例的处理器核的框图。
图12B是根据本发明的另一实施例的处理器核的框图。
图13是根据本发明的多个实施例的处理器的框图。
图14是根据本发明的一个实施例的系统的框图。
图15是根据本发明的实施例的更具体的系统的框图。
图16是根据本发明的另一实施例的更具体的系统的框图。
图17是根据本发明的实施例的SoC的框图。
图18是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
将参考以下所讨论的细节来描述本发明的各实施例和方面,并且所附附图将说明各实施例。下列描述和附图是说明本发明的,并且不应当被解释为限制本发明。描述许多具体的细节以提供对本发明的各实施例的透彻理解。然而,在某些实例中,不描述公知的或寻常的细节,以便提供本发明的实施例的简洁的讨论。
在本说明书中提到“一个实施例”或“实施例”,意思是指结合该实施例所描述的特定特征、结构或特性可以被包括在本发明的至少一个实施例中。在本说明书中的不同位置出现短语“在一个实施例中”不一定都是指同一个实施例。
根据本发明的一些实施例,提供架构和机制集以通过对SW透明的方式实现两个架构上不同类型的核之间的无缝线程迁移。当由SW发起线程时,由第一处理器核(其在本文中将被称为“源”核)执行该线程。在一个实施例中,在执行该线程期间,系统确定应当将该线程迁移到第二处理器核(其在本文中将被称为“目标”核)。在一个实施例中,由系统硬件(其在本文中将被简称为“硬件”)完成迁移的确定,而没有SW的任何干预。在一个实施例中,该硬件通过唤醒该目标核(即,使该目标核上电)来发起线程迁移程序。该硬件也可例如通过将源核的架构状态保存在共享存储设备(例如,共享存储器)中来“停止”该源核并保存其线程上下文。在一个实施例中,在目标核中恢复该源核的线程上下文,并且该目标核基于来自共享存储器的架构状态,继续执行该线程。在一个实施例中,该硬件例如通过使源核失电而将该源核置于节能模式。
在一个实施例中,通过处理器核的内部存储元件的设置/状态(例如,寄存器设置)来确定该处理器核的架构状态。在一个实施例中,在目标核中恢复线程上下文是指将已经被保存在共享存储器中的、源核的内部存储元件的设置/状态复制到目标核的内部存储元件(例如,寄存器等)中。在一个实施例中,按照对SW透明的此类方式在目标核中恢复该线程上下文。例如,可在没有任何SW干预或SW不知晓的情况下将源核的架构状态迁移到目标核。在一个实施例中,SW是指在系统之内或之外被执行的应用软件、OS、BIOS和/或任何其他软件和/或固件。
图1是根据本发明的一个实施例的处理器或处理器核的框图。参考图1,处理器100可表示任何种类的指令处理装置或处理元件。处理元件是指线程、进程、上下文、逻辑处理器、硬件线程、核和/或共享对处理器的其他共享资源(例如,预留单元、执行单元、流水线和更高层级的高速缓存/存储器)的访问的任何处理元件。物理处理器通常是指潜在地包括诸如核或硬件线程之类的任意数量的其他处理元件的集成电路。核通常是指位于集成电路上的、能够维持独立架构状态的逻辑,其中,每一个被独立地维持的架构状态与至少一些专用执行资源相关联。在一个实施例中,处理器100可以是通用处理器。处理器100可以是各种复杂指令集计算(CISC)处理器、各种精简指令集计算(RISC)处理器、各种超长指令字(VLIW)处理器中的任何处理器,可以是上述处理器的混合或者可以完全是其他类型的处理器。处理器100也可表示一个或多个处理器核。
可在不同的处理器中,出于不同目的,以不同的方式来实现处理器核。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用无序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)中央处理单元(CPU),其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核的;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。这样的不同处理器导致不同的计算机系统架构,其可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,有时将此类协处理器称为诸如集成图形和/或科学(吞吐量)逻辑之类的专用逻辑,或将其称为专用核);以及4)芯片上系统,其可将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
在一个实施例中,处理器100包括但不限于形成处理器流水线的指令取出单元101、指令解码器102、重命名/分配器103、一个或多个执行单元104和引退单元105。可由多个线程共享流水线或流水线的部分(例如,流水线的前端或指令解码部分102)。复制架构状态寄存器(未示出),因此能够存储单独的架构状态/上下文以用于不同的逻辑处理器。也可复制其他更小的资源(例如,重命名分配器逻辑103中的指令指针和重命名逻辑)以用于多个线程。可通过分区操作来共享诸如重排序/引退单元105中的重排序缓冲器、加载/存储缓冲器和队列之类的一些资源。而可以潜在地完全共享诸如通用内部寄存器(例如,寄存器106)、页表基寄存器、低层级数据高速缓存(例如,高速缓存107)和数据转换缓冲器(TLB)、执行单元104和无序单元(未示出)之类的资源。
在一个实施例中,指令解码器102用于对从指令取出单元101接收到的指令进行解码。这些指令可以是从集成在处理器100之内或与处理器100紧密关联的高速缓存存储器107中取出的宏指令,或者可以经由系统总线从外部存储器中检索到。指令解码器102可对这些宏指令进行解码,并且生成或输出反映指令或从指令导出的一个或多个微操作、微代码、进入点、微指令、其他指令或其他控制信号。指令解码器102可以使用各种不同的机制来实现。合适机制的示例包括但不仅限于,微代码只读存储器(ROM)、查找表、硬件实现、可编程逻辑阵列(PLA)等。
在一个实施例中,分配器和重命名单元103包括用于预留资源的分配器,诸如用于存储指令处理结果的寄存器组。然而,线程可能能够无序执行,其中,分配器和重命名单元103也预留其他资源(例如,用于追踪指令结果的重排序缓冲器)。单元130也可包括寄存器重命名器,其用于将程序/指令引用寄存器重命名为处理器内部的其他寄存器。在此类重命名级期间,将对外部或逻辑寄存器的引用转换为内部的或物理寄存器引用以消除由寄存器重新使用而导致的依赖关系。
执行单元104可包括算术逻辑单元或能够基于指令执行操作的另一类型的逻辑单元。作为指令解码器102对指令进行解码的结果,执行单元104可接收反映这些指令或从这些指令导出的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号。执行单元104可由于指示一个或多个源操作数(SRC)的指令而操作,并且用于将结果存储在指令所指示的寄存器集合的一个或多个目的地操作数(DEST)中。执行单元104可包括用于执行指令或从指令导出的其他控制信号并相应地执行操作的电路或其他执行逻辑(例如,与硬件和/或固件相结合的软件)。执行单元104可表示诸如逻辑单元、算术逻辑单元(ALU)、算术单元、整数单元等之类的任何种类的执行单元。
处理器100进一步包括调度器和分派单元(未示出),其用于将指令调度并分派到执行单元104,以便执行。事实上,根据指令/操作的类型可用性,在执行单元104上潜在地调度这些指令/操作。例如,在具有可用的浮点执行单元的执行单元的端口上调度浮点指令。执行单元的示例包括浮点执行单元、整数执行单元、跳转执行单元、加载执行单元、存储执行单元以及其他已知的执行单元。在一个实施例中,重排序/引退单元105包括诸如上述的重排序缓冲器、加载缓冲器和存储缓冲器之类的组件,这些组件用于支持被无序执行的指令的无序执行和稍后的有序引退。
可将源操作数和目的地操作数中的一些或全部存储在存储资源106(例如,寄存器集合中的寄存器或存储器)中。寄存器集合可以是寄存器组以及潜在的诸如状态寄存器、标志寄存器等之类的其他寄存器的部分。寄存器可以是可用于存储数据的存储位置或设备。寄存器集合常常可在物理上与执行单元一起位于管芯上。寄存器可以是从处理器外部或从编程者的视角来看是可见的。例如,指令可指定存储在寄存器中的操作数。各种不同类型的寄存器可适用,只要它们能够存储并提供在本文中所述的数据。寄存器可以被重命名,也可以不被重命名。合适寄存器的示例包括但不限于,专用物理寄存器、使用寄存器重命名的动态分配的物理寄存器以及专用物理寄存器和动态分配物理寄存器的组合,等等。或者,可将源操作数和目的地操作数中的一个或多个存储在除寄存器之外的,诸如系统存储器中的位置之类的存储位置中。
在一个实施例中,高速缓存107包括诸如高层级和/或低层级高速缓存之类的各种高速缓存。较高层级或进一步远离的高速缓存用于对近期被取出和/或操作的元素进行高速缓存操作。注意,较高层级或进一步远离指的是高速缓存层级增加或进一步远离执行单元。在一个实施例中,较高层级的高速缓存是第二级数据高速缓存。然而,较高层级的高速缓存并不限于此,因为其可以是或可包括可被称为追踪高速缓存的指令高速缓存。可转而在解码器之后耦合追踪高速缓存以存储最近被解码的指令。追踪高速缓存也潜在地包括用于预测要执行/采用的分支的分支目标缓冲器和用于存储指令的地址转换条目的指令转换缓冲器(I-TLB)。
较低层级的数据高速缓存和数据转换缓冲器(D-TLB)可耦合至执行单元。数据高速缓存用于存储最近被使用/操作的元素(例如,数据操作数),这些元素在存储器一致性状态(例如,修改状态、排他状态和无效(MESI)状态)下潜在地被保持。D-TLB用于存储最近的虚拟/线性至物理地址转换。之前,D-TLB条目包括用于向最近使用的虚拟存储器地址提供代价不高的转换的虚拟地址、物理地址和其他信息(例如,偏移)。
处理器100进一步包括总线接口单元(未示出)。总线接口单元用于与处理器外部的,诸如系统存储器、芯片组、北桥或其他集成电路之类的设备通信。该存储器可专用于该处理器,或与系统中的其他设备一起被共享。存储器的示例包括动态随机存取存储器(DRAM)、静态RAM(SRAM)、非易失性存储器(NV存储器)和长期存储设备。通常,总线接口单元包括用于在互连上传送和接收总线信号的输入/输出(I/O)缓冲器。互连的示例包括射电收发机逻辑(GTL)总线、GTL+总线、双数据速率(DDR)总线、泵式(bumped)总线、差分总线、高速缓存一致性总线、点对点总线、多分支总线或实现任何已知总线协议的其他已知的互连。总线接口单元也可与更高层级的高速缓存通信。
在一个实施例中,可将上述各个级组织成三个阶段。可将第一阶段称为有序前端,其包括取出级101、解码级102和分配重命名级103。在该有序前端阶段,这些指令按照其原始的程序顺序,经过流水线100继续进行。可将第二阶段称为无序执行阶段,其包括调度/分派级(未示出)和执行级104。在此阶段,一确定每条指令的数据依赖关系并且执行单元可用时,就调度、分派并执行每条指令,而不管在原始程序中指令的顺序位置。第三阶段被称为有序引退阶段,其包括引退级105,在该引退级105中,按照指令原始的、顺序的程序顺序来引退指令以保持该程序的完整性和语义,并且提供精确的中断模型。
图2是示出根据本发明的一个实施例的系统200的框图。系统200包括但不限于经由互联250彼此耦合的源核210、目标核220、共享存储设备230和功率控制单元(PCU)240。
在一个实施例中,可将源核210和目标核220实现为图1中的处理器核100的部分。在一个实施例中,源核210和目标核220是架构上完全相同的,即它们具有完全相同的ISA。在另一实施例中,这些核是架构上不同的,每一个具有不同的ISA。在一个实施例中,系统200包括诸如源核210之类的处理器核,该源核210具有作为另一核(例如,目标核220)的子集的ISA。
在一个实施例中,源核210包括可被实现为图1中的存储资源106的部分的通用寄存器(GPR)的集合212。在一个实施例中,目标核220包括作为GPR212的超集的GPR 222。在另一实施例中,GPR 222可以是GPR 212的子集。而在又一实施例中,GPR 222是与GPR 212完全相同的集合。由此,GPR 212和222可包括下列GPR的集合中的一些或全部:EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP寄存器。在一个实施例中,将由多个处理器核共享的GPR的集合被认为是架构状态寄存器的部分。
在一个实施例中,源核210包括可被实现为图1中的存储资源106的部分的控制寄存器(GPR)的集合214。在一个实施例中,目标核220包括作为CR214的超集的CR 224。在另一实施例中,CR 224可以是CR 214的子集。而在又一实施例中,CR 224是与CR 214完全相同的集合。由此,CR 214和224可包括下列控制寄存器的集合中的一些或全部:CR0、CR1、CR2、CR3和CR4寄存器。在一个实施例中,将由多个处理器核共享的CR的集合认为是架构状态寄存器的部分。
在一个实施例中,源核210包括可被实现为图1中的存储资源106的部分的模型专用寄存器(MSR)的集合216。同样,在一个实施例中,目标核220包括MSR 226。MSR 216和226是根据实现特定的。由此,按照定义,这些寄存器可以由或可以不由完全相同的寄存器组成,并且这些寄存器可提供或可不提供相同的功能。然而,一些MSR在不同的处理器核之间是共享的(即,公共的),并且这些MSR起相同的功能。在一个实施例中,将共享的MSR认为是架构状态寄存器的部分。
在一个实施例中,源核210和目标核220分别包括本地高级可编程中断控制器(APIC)218和228。在一个实施例中,每一个本地APIC配置成用于从外部源和/或从外部的I/O APC或其他外部中断控制器接收中断,并且将这些中断发送到各自的处理器核中,以便处理。在一个实施例中,每一个本地APIC也配置成用于发送和接收往返于其他处理器核的处理器间中断(IPI)消息。在一个实施例中,本地APIC在数据总线250、专用3线APIC总线(未示出)或其他系统总线(未示出)上彼此通信并且/或者与外部I/O APIC通信。
在一个实施例中,本地APIC 218和228各自包括APIC寄存器的集合,这些APIC寄存器是存储器映射的,并且可由SW读取并写入。在一个实施例中,该APIC寄存器的集合包括本地APIC ID寄存器、服务中寄存器(ISR)、中断请求寄存器(IRR)和本地向量表(LVT)中的至少一些。在一个实施例中,LVT包括LVT计时器寄存器,其提供由本地APIC计时器生成的中断的状态。LVT也可包括LVT热监测寄存器,其提供由热传感器生成的中断的状态。在一个实施例中,LVT包括LVT性能计数器寄存器,其提供由本地性能计数器生成的中断的状态。在一个实施例中,LVT包括LVT LINT0和LVT LINT1寄存器,其分别提供由物理I/O引脚LINT0和LINT1生成的中断的状态。在一个实施例中,LVT包括LVT差错寄存器,其指示本地APIC已检测到内部差错。
在一个实施例中,向系统200中的每一个处理器核分配APIC ID。在上电时,系统硬件向每一个本地APIC分配唯一的APIC ID。在一个实施例中,这是通过由硬件对物理引脚采样,并且将所采样的值存储在APIC ID寄存器中来实现的。在一个实施例中,在上电或硬件重置之后,SW可为系统中的每一个处理器核修改本地APIC ID寄存器中的APIC ID字段。在一个实施例中,由SW将本地APIC ID用作处理器核ID。在此类实施例中,由软件应用发起的线程可与硬件线程(例如,处理器核)相关联,并且可通过APIC ID来标识。由此,例如SW可通过轮询LVT寄存器(例如,由APIC ID标识的本地APIC的LVT LINT0寄存器或LVT LINT1寄存器)来查询线程的状态。
虽然图2示出系统200包括两个处理器核,但是将会理解,该系统200可包括更多或更少的处理器核。在具有多于两个处理器核的系统200的一些实施例中,所有的处理器核可包括上文所讨论的硬件资源(例如,GPR、CR、MSR、本地APIC等)中的一些或全部。在另一实施例中,系统200可包括单个处理器核,并且可使用英特尔超线程(HT)技术来实现线程迁移。在此类实施例中,单个处理器核作为多个“逻辑”处理器核来执行,其中每一个都能够独立地执行一个或多个线程。在此类实施例中,每一个逻辑处理器核包括独立地执行线程所需的硬件资源;此类资源包括但不限于GPR、CR和共享MSR。在一个实施例中,每一个逻辑处理器核包括使SW能够与逻辑处理器核通信的本地APIC。
在一个实施例中,系统200包括功率控制单元(PCU)240。在一个实施例中,PCU 240配置成用于在系统将达到热限制并过热之前,监测可用于该系统的热预算量。在一个实施例中,PCU 240通过假定系统的起始温度水平并在该系统活跃阶段(例如,线程执行)期间跟踪系统功耗来监测热预算。在此类实施例中,PCU 240通过在该系统过热之前,假设平台特定的冷却速率来导出该系统可生成的剩余能量。
在一个实施例中,PCU 240配置成用于确定是否应当将在第一核(例如,源核210)上被执行的线程迁移到第二核(例如,目标核220)。在一个实施例中,由PCU 240根据系统的热预算来确定线程迁移。例如,如果系统已达到或接近预先确定的热限制,则PCU 240可确定应当将线程从较大的、能量更密集的处理器核迁移到较小的、能量更高效的处理器核中。在一个实施例中,也根据源代码的可扩展性(scalability)来确定线程迁移。在一个实施例中,高可扩展性意味着处理器核时钟速度的增加导致系统性能成比例的增长;低可扩展性意味着处理器核时钟速度的增加不导致系统性能的成比例增长。例如,10X的处理器核时钟速度增加可能无法导致10X的系统性能增加。在一个实施例中,低可扩展性可能是存储器存取的结果,例如,系统中过多的组件同时存取同一个共享存储器。因此,该系统被“停止”(stall),因为其必须等待数据变得可用。在此类场景中,增加的处理器核时钟速度(例如,通过向较大的处理器核迁移)将不会导致增加的系统性能。因此,在一个实施例中,如果存在足够的性能增加(即,高扩展性)(这将使由更大的目标核产生的、所得到的散热和能耗的增加变得合理),则PCU 240可确定应当将线程迁移到更大的目标核。在另一实施例中,如果通过向更小的核迁移会存在处理器温度的显著下降和/或节约的能量(这将使性能降低变得合理),则PCU 240可确定应当将线程迁移到更小的目标核。
在一个实施例中,完全通过硬件,并且通过对SW透明的方式(例如,SW不参与线程迁移的确定过程,并且SW也不知晓线程实际上已被迁移的事实)来确定是否将线程从一个处理器核迁移到另一处理器核。在一个实施例中,SW是指在CMP系统200之内或之外被执行的应用软件、OS、BIOS和/或任何其他软件和/或固件。
上文所讨论的确定是否应当迁移线程的基础仅用作说明的目的,并且PCU240并不限于根据上文讨论的基础来确定是否迁移线程。将会理解,PCU 240可配置成用于根据上文所讨论的基础中的一些或全部来确定是否应当迁移线程。也将理解,PCU 240可根据上文中未讨论过的其他基础来确定线程迁移是否应当发生。
在一个实施例中,PCU 240包括迁移单元(MU)242。在一个实施例中,响应于从PCU 240接收到将线程从第一处理器核迁移到第二处理器核的指令,MU 242将该第一处理器核的架构状态的至少部分存储在共享存储设备230中。在一个实施例中,被存储在共享存储设备230中的架构状态包括但不限于GPR232、CR 234、共享MSR 236和本地APIC寄存器238。在一个实施例中,MU242也将该线程迁移到第二处理器核,使得该第二处理器核可在SW不知晓的情况下,基于来自共享存储设备230的架构状态,继续执行该线程。下文提供由MU 242执行的操作的细节。
在一个实施例中,PCU 240包括重映射单元(RU)243。如上文中所讨论的那样,在一些实施例中,系统200中的这些核(例如,源核210和目标核220)是架构上不同的。由此,在此类实施例中,可通过系统200中的不同架构状态来表示由SW所见的线程上下文。作为示例,可在源核210的寄存器A(被映射到地址1的存储器)中反映在该源核210中被执行的线程的状况/状态。然而,当将该线程迁移到目标核220时,可由目标核220的寄存器B(被映射到地址2的存储器)表示相同的线程上下文。在一个实施例中,对于同一个给定的线程上下文,寄存器A和B的值也可以是不同的。由此,在一个实施例中,可由系统200中不同的寄存器映射和/或寄存器设置来表示给定的线程上下文。在一个实施例中,RU 243重映射系统200的各种核的寄存器的寄存器地址和/或设置,使得当由SW访问这些寄存器地址和/或设置时,呈现出一致的寄存器映射和设置。由此,根据一个实施例,当SW写入到系统200的寄存器中时,RU243根据正在执行线程的核,自动地将SW提供的寄存器偏移/地址重映射到合适的系统地址。在一个实施例中,RU 243也可根据执行线程的核来重映射寄存器的位设置和/或位置。在一个实施例中,当SW读取系统200的寄存器时,RU 243根据执行线程的核,自动地将SW提供的寄存器偏移重映射到合适的系统地址,并且向该SW呈现被重映射的寄存器的值。在一个实施例中,RU 243可在向SW呈现之前重映射位设置和/或位置。
上述讨论涉及由RU 243重映射与线程上下文有关的寄存器。然而,将会理解,RU 243不限于重映射与线程上下文有关的寄存器。例如,也可由RU 243重映射各种系统核的、与性能有关的寄存器。
在一个实施例中,在硬件中实现RU 243。在另一实施例中,在固件(根据一个实施例,该固件在管芯上,并且对SW是不可见的)中实现RU 243。然而,将会理解,可将RU 243实现为硬件和固件的组合。
在一个实施例中,系统200包括中断阻止器/重定向(IBR)260,其阻止核的所有外部的以及所有横跨核和封装生成的中断。在一个实施例中,IBR 260阻止(并且随后重放)核外部的所有中断。因此,根据一个实施例,所有的中断在到达预期的本地APIC之前经过IBR 260。当PCU 242确定应当将线程从源核迁移到目标核时,PCU 242指示IBR 260阻止并存储去往源核的所有中断。在完成迁移过程之后,PCU 242指示260将被存储的中断递送到目标核的本地APIC。
图3是示出根据一个实施例的线程迁移的方法300的流程图。方法300可由图2中的处理器200来执行。参考图3,在框305处,处理器可在无需任何SW干预的情况下确定是否应当将正在由第一处理器核实行/执行的线程迁移到第二处理器核。在涉及PCU 240的上文文本中详细讨论了确定是否迁移线程的基础。
在框310处,响应于确定应当迁移线程,处理器将第一处理器核的架构状态的至少部分存储到共享存储设备中。在一个实施例中,在不需要任何SW干预的情况下,将架构状态存储在共享存储设备中。
在框315处,该处理器将该线程迁移到第二处理器核,使得该第二处理器核可在SW不知晓的情况下,基于来自共享存储设备的架构状态,继续执行该线程。
在一个实施例中,由方法300提及的SW包括在处理器之内或之外被执行的应用软件、BIOS、OS和/或任何其他软件和/或固件。
图4是示出根据一个实施例的迁移线程的方法400的流程图。方法400可以由图2中的MU 242来执行。参考图4,在框405处,源核处于上电状态,并执行工作负荷/线程A。在框410处,目标核处于关机状态。
在框415处,MU 242接收将线程A从源核迁移到目标核的触发(例如,来自PCU 240的指令)。
在框420处,MU 242使目标核上电。根据一个实施例,一旦完成上电时序,目标核就被配置成无需等待源核在框430处停止其执行(在下文中讨论)就恢复该目标核的微架构状态(即,本地/私有上下文)。这有助于减少线程迁移的有效等待时间(即,线程不执行时的停机时间),因为一旦在框435处准备好在目标核中恢复架构状态/上下文,则该目标核可立即执行恢复被保存的源核上下文,而不是花时间恢复本地(目标核)上下文。
在框430处,MU 242停止源核并保存该线程上下文。在一个实施例中,线程上下文包括架构和非架构状态。根据本发明的一个方面,MU 242通过将(大多是对OS可见的)源核的架构状态的至少部分存储到存储设备(例如,由两个处理器核共享的存储器)中来保存该线程上下文。在一个实施例中,被存储到共享存储设备中的架构状态包括APIC寄存器的信息,例如,源处理器核的本地APIC ID寄存器、LVT寄存器、中断请求寄存器和服务中寄存器的信息。在一个实施例中,被存储在共享存储设备中的架构状态也包括由源和目标处理器核共享的GPR、CR和MSR的信息。在一个实施例中,被存储在共享存储设备中的GPR的信息包括EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP寄存器的信息。在一个实施例中,被存储在共享存储设备中的CR的信息包括CR0、CR1、CR2、CR3和CR4寄存器的信息。在一个实施例中,被存储在共享存储设备中的共享MSR的信息包括调试控制MSR(例如,IA32_DEBUGCTL)、机器校验全局状态MSR(例如,IA32_MCG_STATUS)、机器校验能力MSR(例如,IA32_MCG_CAP)、热时钟调制MSR、时间戳计数器MSR、页属性表MSR等的信息。
上文所讨论的由MU 242存储在共享存储设备中的寄存器的信息仅是出于说明目的的,并且由MU 242存储在共享存储设备中的架构状态不限于上述示例。将会理解,被存储的架构状态可包括比上文所述更多或更少的信息。也将理解,MU 242可存储未在上文讨论过的源核的其他架构状态。
在一个实施例中,在框430处,MU 242阻止去往源核的、外部的以及所有横跨核和封装生成的中断。在一个实施例中,MU 242通过指示图2中的IBR260阻止并保持与源核的APIC ID相关联的中断来阻止这些中断。在一个实施例中,IBR 260继续阻止并累积去往源核的所有此类中断,直到IBR 260被指示将被累积的中断递送到目的地核(在下文中讨论)为止。在一个实施例中,通过禁用源核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位重置为“0”或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位重置为“0”)来阻止中断。在另一实施例中,通过将LVT寄存器中的每一个的掩码位重置为“0”来阻止这些中断。作为示例,为了阻止来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位重置为“0”。
在框435处,MU 242在目标核中恢复线程上下文。在一个实施例中,通过将被存储在共享存储设备中的源核架构状态复制到目标核的内部存储元件(例如,存储器、寄存器等)中来恢复该线程上下文。在一个实施例中,在不需要任何SW干预的情况下,在目标核中恢复源核架构状态。注意,在一个实施例中,被恢复/复制到目标核中的架构状态包括源核的本地APIC寄存器的信息。更具体地说,将源核的本地APIC ID复制到目标核的本地APIC ID寄存器中。由此,从SW的视角来看,该线程仍然是由同一个APIC ID和硬件资源标识的;该线程的迁移对该SW是透明的。在一个实施例中,可并行于框445中的操作中的至少一些来执行框435中的操作中的至少一些。例如,在框430处,一旦已经保存了源核的架构状态,则框435中的操作可以开始,例如,MU 242不必等待在框445处源核的非架构状态被完整地保存就可开始恢复被保存的架构状态。框430和435中的操作的这种重叠有助于减少线程迁移的有效等待时间。在本发明的一些实施例中,共享上下文在尺寸上远小于总上下文(通常是总上下文的1/3到1/2),因此,上下文保存和恢复操作的重叠可提供可观的等待时间减少。
在一个实施例中,恢复线程上下文需要将源核210的寄存器地址和/或寄存器设置重映射到目标核220的对应的寄存器地址和/或设置。往回参考上述对图2中RU 243的讨论以获取细节。
在一个实施例中,在框435处,MU 242使目标核能够接收中断。在一个实施例中,通过启用目标核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位设置为“1”和/或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位设置为“1”)来启用中断。在一个实施例中,MU 242通过将LVT寄存器中的每一个的掩码位设置为“1”来启用目标核的中断。作为示例,为了启用来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位设置为“1。”在一个实施例中,在框435中,MU 242指示图2中的IBR 260将在框430中被阻止并被存储的中断递送到目标核的本地APIC。如上文中所讨论的那样,在一个实施例中,可在迁移时期(其在从IBR 260被指示阻止并存储这些中断(在框430处)到IBR 260被指示释放这些中断并将其递送到目标核(在框435处)期间开始)期间阻止并累积去往源核的多个外部中断。
在框440处,在目标核中完全恢复该线程上下文,并且该目标核在无需SW知晓的情况下,基于被恢复的架构状态,继续执行线程A。
在框445处,根据一个实施例,MU 242将不由目标核共享的、源核的微架构状态信息存储在源核的本地存储设备(例如,存储器、寄存器等)中。在一个实施例中,MU 242也将源核的微架构状态(包括例如,其内部计数器、队列、锁存器、有限状态机等的状况/状态)存储在其本地存储设备中。注意,通过将非架构上下文信息保存在源核的本地存储设备中而不是保存在由源核和目标核共享的存储设备中,使得通过(在框430处的)线程保存和(在框435处的)线程恢复的重叠部分减少线程迁移的有效等待时间。在一个实施例中,在完成保存源核的微架构状态的操作之后,MU 242使该源核失电。
根据一个实施例,源核C0是小型核,而目标核C1是大型核。然而,将会理解,上文所讨论的线程迁移操作也适用于反向的情况。例如,可将大型核的线程上下文迁移到小型核。
在一个实施例中,由方法400提及的SW包括在MU 242之内或之外被执行的应用软件、OS、BIOS和/或任何其他软件和/或固件。
图5是示出根据一个实施例的迁移多个线程的方法500的流程图。方法500可以由图2中的MU 242来执行。参考图5,在框505中,源核C0处于上电状态,并且执行工作负荷/线程A和工作负荷/线程B。在框510和515处,目标核C1和C2分别处于关机状态。
在框520处,MU 242接收将线程A从源核C0迁移到目标核C1,并且将线程B从源核C0迁移到目标核C2的触发(例如,来自PCU 240的指令)。
在框525和530处,MU 242分别使目标核C1和C2上电。根据一个实施例,一旦完成了上电时序,每一个目标核配置成无需等待源核在框545处停止其执行(在下文中讨论)就在其各自的本地存储器中恢复微架构状态(即,本地/私有上下文)。这有助于减少线程迁移的有效等待时间(即,线程不执行时的关机时间),因为一旦准备好在框550和555处在目标核中恢复架构状态/上下文,则这些目标核可立即执行恢复被保存的源核上下文,而不是花时间恢复本地(目标核)上下文。
在框545处,MU 242停止源核C0并保存线程A和线程B的线程上下文。在一个实施例中,线程上下文包括架构和非架构状态。在一个实施例中,MU242通过将源核的架构状态的至少部分存储到存储设备(例如,由源核C0、目标核C1和C2共享的存储器)中来保存该线程上下文。在一个实施例中,被存储到共享存储设备中的架构状态包括APIC寄存器的信息,例如,源处理器核的本地APIC ID寄存器、LVT寄存器、中断请求寄存器和服务中寄存器的信息。在一个实施例中,被存储在共享存储设备中的架构状态也包括由源和目标处理器核共享的GPR、CR和MSR的信息。在一个实施例中,被存储在共享存储设备中的GPR的信息包括EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP寄存器的信息。在一个实施例中,被存储在共享存储设备中的CR的信息包括CR0、CR1、CR2、CR3和CR4寄存器的信息。在一个实施例中,被存储在共享存储设备中的共享MSR的信息包括调试控制MSR(例如,IA32_DEBUGCTL)、机器校验全局状态MSR(例如,IA32_MCG_STATUS)、机器校验能力MSR(例如,IA32_MCG_CAP)、热时钟调制MSR、时间戳计数器MSR、页属性表MSR等的信息。
上文所讨论的由MU 242存储在共享存储设备中的寄存器的信息仅是出于说明目的的,并且由MU 242存储在共享存储设备中的架构状态不限于上述示例。将会理解,被存储的架构状态可包括比上文所述更多或更少的信息。也将理解,MU 242可存储未在上文讨论过的源核的其他架构状态。
在一个实施例中,在框545处,MU 242阻止去往源核的、外部的以及所有横跨核和封装生成的中断。在一个实施例中,MU 242通过指示图2中的IBR260阻止并保持与源核的APIC ID相关联的中断来阻止这些中断。在一个实施例中,IBR 260继续阻止并累积去往源核的所有外部中断,直到IBR 260被指示将被累积的中断递送到这些目标核(在下文中讨论)为止。在一个实施例中,通过禁用源核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位重置为“0”或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位重置为“0”)来阻止中断。在另一实施例中,通过将LVT寄存器中的每一个的掩码位重置为“0”来阻止这些中断。作为示例,为了阻止来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位重置为“0”。
在框550和555处,MU 242分别在目标核C1和C2中恢复线程A和线程B的线程上下文。在一个实施例中,通过将被存储在共享存储设备中的源核架构状态复制到目标核的内部存储元件(例如,存储器、寄存器等)中来恢复该线程上下文。由此,例如在目标核C1中恢复线程A的线程上下文,并且在目标核C2中恢复线程B的线程上下文。在一个实施例中,无需任何SW干预,在这些目标核中恢复源核架构状态。注意,在一个实施例中,被恢复/复制到这些目标核中的架构状态包括源核的本地APIC寄存器的信息。更具体地说,将源核的本地APIC ID复制到这些目标核的本地APIC ID寄存器中。由此,从SW的视角来看,该线程仍然是由同一个APIC ID和硬件资源标识的;该线程的迁移对该SW是透明的。在一个实施例中,可并行于框570中的操作中的至少一些来执行框550和555中的操作中的一些操作。例如,在545处,一旦已经保存了源核的架构状态,则框550和555中的操作可以开始,例如,MU 242可不必等待源核的非架构状态被完整地保存就在框570处开始恢复被保存的架构状态。框545以及框550和555中的操作的这种重叠有助于减少线程迁移的有效等待时间。在本发明的一些实施例中,共享上下文在尺寸上远小于总上下文(通常是总上下文的1/3到1/2),因此,上下文保存和恢复操作的重叠可提供可观的等待时间减少。
在一个实施例中,恢复线程上下文需要将源核的寄存器地址和/或寄存器设置重映射到目标核的对应的寄存器地址和/或设置。往回参考上述对图2中RU 243的讨论以获取细节。
在一个实施例中,在框550和555处,MU 242使这些目标核能够接收中断。在一个实施例中,通过启用这些目标核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位设置为“1”和/或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位设置为“1”)来启用中断。在一个实施例中,MU 242通过将LVT寄存器中的每一个的掩码位设置为“1”来启用这些目标核的中断。作为示例,为了启用来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位设置为“1”。在一个实施例中,在框550和555中,MU 242指示图2中的IBR 260将在框545中被阻止并被存储的中断递送到这些目标核的本地APIC。如上文中所讨论的那样,在一个实施例中,可在迁移时期(其在从IBR 260被指示阻止并存储这些中断(在框545处)到IBR260被指示释放这些中断并将其递送到目标核(在框550和555处)期间开始)期间阻止并累积去往源核的多个外部中断。
在框560和565处,分别在目标核C1和C2中完全恢复线程A和线程B的线程上下文,并且这些目标核在SW不知晓的情况下,基于被恢复的架构状态,继续执行线程A和线程B。
在框570处,根据一个实施例,MU 242将不由目标核C1和C2共享的、源核C0的非架构状态信息存储在源核C0的本地存储设备(例如,存储器、寄存器等)中。在一个实施例中,MU 242也将源核C0的微架构状态(包括例如,其内部计数器、队列、锁存器、有限状态机等的状况/状态)存储在其本地存储设备中。注意,通过将非架构上下文信息保存在源核的本地存储设备中而不是保存在由源核和目标核共享的存储设备中,从而通过(在框545处的)线程保存和(在框550和555处的)线程恢复的重叠部分来减少线程迁移的有效等待时间。根据一个实施例,在完成保存源核的微架构状态的操作之后,MU242使该源核失电。
根据一个实施例,源核C0是大型核,而目标核C1和C2是小型核。然而,将会理解,上文所讨论的线程操作也适用于反向的情况。例如,通过启用超线程操作,可将两个小型核的线程上下文合并到单个大型核中。
在一个实施例中,由方法500提及的SW包括在MU 242之内或之外被执行的应用软件、OS、BIOS和/或任何其他软件和/或固件。
图6是示出根据一个实施例的迁移多个线程的方法600的流程图。方法600可以由图2中的MU 242来执行。参考图6,在框605和610中,源核C0和C1分别处于上电状态,并且分别执行工作负荷/线程A和工作负荷/线程B。
在框615处,MU 242接收将线程A从源核C0迁移到源核C1,并且将线程B从源核C1迁移到源核C0的触发(例如,来自PCU 240的指令)。因此,在该实施例中,在处理器核之间交换线程。由此,在该场景中,“源”和“目标”核的概念是相对的。例如,相对于在源核C0上正在被执行的线程A,目标核将是源核C1,因为它是线程A正被迁移去往的核。另一方面,相对于在源核C1上正在被执行的线程B,目标核将是源核C0,因为它是线程B正被迁移去往的核。
在框620和625处,MU 242分别停止源核C0和C1,并分别保存线程A和线程B的线程上下文。在一个实施例中,MU 242通过将每一个源核的架构状态的至少部分存储到存储设备(例如,由两个处理器核共享的存储器)中来保存该线程上下文。在一个实施例中,被存储到共享存储设备中的架构状态包括APIC寄存器的信息,例如,源处理器核的本地APIC ID寄存器、LVT寄存器、中断请求寄存器和服务中寄存器的信息。在一个实施例中,被存储在共享存储设备中的架构状态也包括由源和目标处理器核共享的GPR、CR和MSR的信息。在一个实施例中,被存储在共享存储设备中的GPR的信息包括EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP寄存器的信息。在一个实施例中,被存储在共享存储设备中的CR的信息包括CR0、CR1、CR2、CR3和CR4寄存器的信息。在一个实施例中,被存储在共享存储设备中的共享MSR的信息包括调试控制MSR(例如,IA32_DEBUGCTL)、机器校验全局状态MSR(例如,IA32_MCG_STATUS)、机器校验能力MSR(例如,IA32_MCG_CAP)、热时钟调制MSR、时间戳计数器MSR、页属性表MSR等的信息。
上文所讨论的由MU 242存储在共享存储设备中的寄存器的信息仅是出于说明目的的,并且由MU 242存储在共享存储设备中的架构状态不限于上述示例。将会理解,被存储的架构状态可包括比上文所述更多或更少的信息。也将理解,MU 242可存储未在上文讨论过的源核的其他架构状态。
在一个实施例中,在框620和625处,MU 242分别阻止去往源核C0和C1的、外部的以及横跨核和封装生成的中断。在一个实施例中,MU 242通过指示图2中的IBR 260阻止并保持与每一个源核的APIC ID相关联的中断来阻止这些中断。在一个实施例中,IBR 260继续阻止并累积去往这些源核的中断,直到IBR 260被指示将被累积的中断递送到“目标”核(在下文中讨论)为止。在一个实施例中,通过禁用每一个源核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位重置为“0”或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位重置为“0”)来阻止中断。在另一实施例中,通过将LVT寄存器中的每一个的掩码位重置为“0”来阻止这些中断。作为示例,为了阻止来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位重置为“0”。
在框630和635处,MU 242分别在源核C1和C0中恢复线程A和线程B的线程上下文。在一个实施例中,通过将被存储在共享存储设备中的源核架构状态复制到“目标”核的内部存储元件(例如,存储器、寄存器等)中来恢复该线程上下文。在一个实施例中,在不需要任何SW干预的情况下,在“目标”核中恢复源核架构状态。注意,在一个实施例中,被恢复/复制到“目标”核中的架构状态包括源核的本地APIC寄存器的信息。更具体地说,将源核的本地APIC ID复制到“目标”核的本地APIC ID寄存器中。由此,从SW的视角来看,该线程仍然是由同一个APIC ID和硬件资源标识的;该线程的迁移对该SW是透明的。
在一个实施例中,恢复线程上下文需要将源核的寄存器地址和/或寄存器设置重映射到“目标”核的对应的寄存器地址和/或设置。往回参考上述对图2中RU 243的讨论以获取细节。
在一个实施例中,在框630和635处,MU 242使这些核能够接收中断。在一个实施例中,通过启用这些核的本地APIC(例如,通过将寄存器IA32_APIC_BASE_MSR中的APIC全局使能位设置为“1”和/或通过将虚假中断向量(SVR)寄存器中的APIC软件使能位设置为“1”)来启用中断。在一个实施例中,MU 242通过将LVT寄存器中的每一个的掩码位设置为“1”来启用这些核的中断。作为示例,为了启用来自LINT0引脚的外部中断,将LVT LINT0寄存器的掩码位设置为“1”。在一个实施例中,在框630和635中,MU 242指示图2中的IBR 260将在框620和625处被阻止并被存储的中断递送到这些“目标”核的本地APIC。再一次地,在该场景中,“源”和“目标”核的概念是相对的。因此,在框635处,可在“目标”核(即,源核C1)中恢复在框620处被阻止的中断(即,当时去往源核C0的中断)。类似地,在框630处,可在源核C0中恢复在框625处被阻止的、去往源核C1的中断。如上文中所讨论的那样,在一个实施例中,可在迁移时期(其在从IBR 260被指示阻止并存储这些中断(在框620和625处)到IBR 260被指示释放这些中断并将其递送到目标核(分别框635和630处)期间开始)期间阻止并累积去往这些核的多个外部中断。
在框640和645处,分别在源核C0和C1中完全恢复线程B和线程A的线程上下文,同时源核C0在SW不知晓的情况下,基于被恢复的架构状态,继续执行线程B。
在一个实施例中,由方法600提及的SW包括在MU 242之内或之外被执行的应用软件、OS、BIOS和/或任何其他软件和/或固件。
指令集或指令集架构(ISA)是计算机架构中与编程有关的部分,并且可包括原生数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处理以及外部输入和输出(I/O)。术语“指令”在本申请中一般表示宏指令,宏指令是被提供给处理器(或指令转换器,该指令转换器(例如使用静态二进制转换、包括动态编译的动态二进制转换)转换、变形、仿真或以其他方式将指令转换成将由处理器处理的一条或多条其他指令)以供执行的指令——宏指令是与微指令或微操作(微op)截然相反的,微指令或微操作(微op)是处理器的解码器解码宏指令的结果。
ISA与微架构不同,微架构是实现指令集的处理器的内部设计。具有不同的微架构的处理器可共享共同的指令集。例如,奔腾四(Pentium 4)处理器、酷睿(CoreTM)处理器、以及来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced Micro Devices,Inc.)的诸多处理器执行几乎相同版本的x86指令集(在更新的版本中加入了一些扩展),但具有不同的内部设计。例如,可使用公知技术,在不同的微架构中,以不同的方式来实现ISA的相同寄存器架构,包括专用物理寄存器、使用寄存器重命名机制(诸如,使用寄存器别名表(RAT)、重排序缓冲器(ROB)以及引退寄存器组;使用多个映射和寄存器池)的一个或多个动态分配物理寄存器等。除非另作说明,否则短语“寄存器架构”、“寄存器组”和“寄存器”在本文中用于指代对软件/编程者以及对指令指定寄存器的方式可见的寄存器。在需要专用性的情况下,形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示寄存器架构中的寄存器/寄存器组,而不同的形容词将用于指定给定微架构中的寄存器(例如,物理寄存器、重排序缓冲器、引退寄存器、寄存器池)。
指令集包括一个或多个指令格式。给定的指令格式定义多个字段(位的数目、位的位置等)以指定将要被执行的操作(操作码)以及将要被执行的操作的操作数等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有指令格式字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位位置,因为存在更少的、被包括的字段)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,使用给定的指令格式(并且如果经定义,则以该指令格式的指令模板中给定的一个格式)来表达ISA的每条指令,并且ISA的每条指令包括用于指定操作和操作数的字段。例如,示例性ADD指令具有特定的操作码和指令格式(该指令格式包括用于指定该操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地以及源2)),并且该ADD指令在指令流中出现将使得在选择特定操作数的操作数字段中具有特定的内容。
科学应用、金融应用、自动向量化通用应用、RMS(识别、挖掘和合成)应用以及视觉和多媒体应用(诸如,2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频处理)通常需要对大量数据项执行相同的操作。单指令多数据(SIMD)是指使处理器对多个数据项执行一个操作的指令类型。SIMD技术尤其适用于将寄存器中的多个位逻辑地划分成多个固定尺寸的数据元素(其中,每个数据元素表示单独的值)的处理器中。例如,可将256位寄存器中的多个位指定为将以下列形式被操作的源操作数:四个单独的64位紧缩数据元素(四字(Q)尺寸数据元素)、八个单独的32位紧缩数据元素(双字(D)尺寸数据元素)、十六个单独的16位紧缩数据元素(字(W)尺寸数据元素)或三十二个单独的8位数据元素(字节(B)尺寸数据元素)。该数据类型被称为紧缩数据类型或向量数据类型,并且该数据类型的操作数被称为紧缩数据操作数或向量操作数。换言之,紧缩数据项或向量是指紧缩数据元素的序列,并且紧缩数据操作数或向量操作数是SIMD指令(也被称为紧缩数据指令或向量指令)的源操作数或目的地操作数。
作为示例,一种类型的SIMD指令指定了将以垂直方式对两个源向量操作数执行以生成具有相同尺寸的、具有相同数量的数据元素的以及按照相同数据元素的顺序的目标向量操作数(也被称为结果向量操作数)的单个向量操作。源向量操作数中的数据元素被称为源数据元素,而目的地向量操作数中的数据元素被称为目的地或结果数据元素。这些源向量操作数具有相同的尺寸,并包含相同宽度的数据元素,因此它们包含相同数量的数据元素。两个源向量操作数中的相同的位的位置中的源数据元素形成数据元素对(也称为对应的数据元素;即,每个源操作数的数据元素位置0中的数据元素相对应,每个源操作数的数据元素位置1中的数据元素相对应,以此类推)。分别地对这些源数据元素对中的每一对执行由该SIMD指令所指定的操作,以生成匹配数量的结果数据元素,如此,每一对源数据元素都具有对应的结果数据元素。由于操作是纵向的,并且由于结果向量操作数尺寸相同、具有相同数量的数据元素、并且结果数据元素以与源向量操作数相同的数据元素顺序来存储,因此,结果数据元素处于与其对应的源数据元素对在源向量操作数中的位置相同的、结果向量操作数的位的位置处。除此示例性类型的SIMD指令之外,还有各种其他类型的SIMD指令(例如,仅有一个或具有多于两个的源向量操作数的SIMD指令;以水平方式操作的SIMD指令;生成不同尺寸的结果向量操作数的SIMD指令;具有不同尺寸的数据元素的SIMD指令;和/或具有不同的数据元素顺序的SIMD指令)。应当理解,术语“目的地向量操作数(或目的地操作数)”被定义为执行指令所指定的操作的直接结果,包括将该目的地操作数存储在某位置(其是寄存器或位于由该指令所指定的存储器地址处),以便可由另一指令将其作为源操作数来访问(通过由另一指令指定该同一个位置)。
诸如由具有包括x86、MMXTM、流式SIMD扩展(SSE)、SSE2、SSE3、SSE4.1以及SSE4.2指令的指令集的CoreTM处理器使用的SIMD技术之类的SIMD技术在应用性能方面实现了显著的改善。已经发布和/或公布了涉及高级向量扩展(AVX)(AVX1和AVX2)且使用向量扩展(VEX)编码方案的附加SIMD扩展集(例如,参见2011年10月的64和IA-32架构软件开发手册;并且参见2011年6月的高级向量扩展编程参考)。
能以不同的格式使本文所述的指令的多个实施例具体化。另外,在下文中详述示例性系统、架构和流水线。指令的实施例可在此类系统、架构和及流水线上执行,但是不限于详述的系统、架构和流水线。
VEX编码允许指令具有多于两个的操作数,并且允许SIMD向量寄存器比128位长。VEX前缀的使用提供了三个操作数(或者更多)句法。例如,先前的两操作数指令执行执行的操作(例如,A=A+B)覆写源操作数。VEX前缀的使用使操作数能够执行非破坏性操作,诸如A=B+C。
图7A示出示例性AVX指令格式,包括VEX前缀2102、实操作码字段2130、Mod R/M字节2140、SIB字节2150、位移字段2162以及IMM82172。图7B示出来自图7A的哪些字段构成完整操作码字段2174和基础操作字段2142。图7C示出来自图7A的哪些字段构成寄存器索引字段2144。
VEX前缀(字节0-2)2102以三字节形式进行编码。第一字节是格式字段2140(VEX字节0,位[7:0]),该格式字段2140包含显式的C4字节值(用于区分C4指令格式的唯一值)。第二-第三字节(VEX字节1-2)包括提供专用能力的多个位字段。具体而言,REX字段2105(VEX字节1,位[7-5])由VEX.R位字段(VEX字节1,位[7]–R)、VEX.X位字段(VEX字节1,位[6]–X)以及VEX.B位字段(VEX字节1,位[5]–B)组成。这些指令的其他字段对如在本领域中已知的寄存器索引的较低的三个位(rrr、xxx以及bbb)进行编码,由此可通过增加VEX.R、VEX.X以及VEX.B来形成Rrrr、Xxxx以及Bbbb。操作码映射字段2115(VEX字节1,位[4:0]–mmmmm)包括对隐含的前导操作码字节进行编码的内容。W字段2164(VEX字节2,位[7]–W)由记号VEX.W表示,并且提供取决于该指令而不同的功能。VEX.vvvv 2120(VEX字节2,位[6:3]-vvvv)的作用可包括如下:1)以反转(1补码)形式被指定并且对具有2个或更多源操作数的指令有效VEX.vvvv对第一源寄存器操作数进行编码;2)针对某些向量偏移以1补码形式被指定的VEX.vvvv对目的地寄存器操作数进行编码;或者3)VEX.vvvv不对任何操作数进行编码,保留该字段,并且该字段应当包含1111b。如果VEX.L 2168尺寸字段(VEX字节2,位[2]-L)=0,则它指示128位向量;如果VEX.L=1,则它指示256位向量。前缀编码字段2125(VEX字节2,位[1:0]-pp)提供了用于基础操作字段的附加位。
实操作码字段2130(字节3)也被称为操作码字节。在该字段中指定操作码的部分。MOD R/M字段2140(字节4)包括MOD字段2142(位[7-6])、Reg字段2144(位[5-3])以及R/M字段2146(位[2-0])。Reg字段2144的作用可包括如下:对目的地寄存器操作数或源寄存器操作数(Rrrr中的rrr)进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段2146的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)-比例字段2150(字节5)的内容包括用于存储器地址生成的SS2152(位[7-6])。先前已经针对寄存器索引Xxxx和Bbbb参考了SIB.xxx 2154(位[5-3])和SIB.bbb 2156(位[2-0])的内容。位移字段2162和立即数字段(IMM8)2172包含地址数据。
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的某些字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量操作两者的实施例,但是替代实施例仅使用通过向量友好指令格式的向量操作。
图8A、8B和图8C是示出根据本发明的多个实施例的通用向量友好指令格式及其指令模板的框图。图8A是示出根据本发明的多个实施例的通用向量友好指令格式及其A类指令模板的框图;而图8B是示出根据本发明的多个实施例的通用向量友好指令格式及其B类指令模板的框图。具体而言,针对通用向量友好指令格式2200定义A类和B类指令模板,两者都包括无存储器访问2205的指令模板和存储器访问2220的指令模板。在向量友好指令格式的上下文中的术语“通用”是指不束缚于任何特定指令集的指令格式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例,但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度):64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素或者替代地8个四字尺寸的元素组成)、64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸)、32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)、以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸),但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图8A中的A类指令模板包括:1)在无存储器访问2205的指令模板内,示出无存储器访问的完全舍入控制型操作2210的指令模板以及无存储器访问的数据变换型操作2215的指令模板;以及2)在存储器访问2220的指令模板内,示出存储器访问的时效性2225的指令模板和存储器访问的非时效性2230的指令模板。图8B中的B类指令模板包括:1)在无存储器访问2205的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型操作2212的指令模板以及无存储器访问的写掩码控制的vsize型操作2217的指令模板;以及2)在存储器访问2220的指令模板内,示出存储器访问的写掩码控制2227的指令模板。
通用向量友好指令格式2200包括以下列出的按照在图8A和图8B中示出的顺序的如下字段。格式字段2240-该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,在这个意义上该字段是可选的。基础操作字段2242-其内容区分不同的基础操作。
寄存器索引字段2244-其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括从PxQ(例如,32x512、16x128、32x1024、64x1024)寄存器组中选择N个寄存器的足够数量的位。尽管在一个实施例中N可多至三个源和一个目的地寄存器,但是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至两个源(其中,这些源中的一个源还用作目的地),可支持多至三个源(其中,这些源中的一个源还用作目的地),可支持多至两个源和一个目的地)。
修饰符(modifier)字段2246-其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开;也就是说,在无存储器访问2205的指令模板与存储器访问2220的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次结构(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不这样(例如,源和/或目的地是寄存器)。尽管在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段2250-其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,该字段被划分成类字段2268、α字段2252、以及β字段2254。扩充操作字段2250允许在单条指令而非2、3或4条指令中执行多组共同的操作。比例字段2260-其内容允许用于存储器地址生成(例如,用于使用2比例*索引+基址的地址生成)的索引字段的内容按比例缩放。
位移字段2262A-其内容用作存储器地址生成的部分(例如,用于使用2比例*索引+基址+位移的地址生成)。位移因数字段2262B(注意,位移字段2262A直接在位移因数字段2262B上的并置指示使用一个或另一个)-其内容用作地址生成的一部分,它指定通过存储器访问的尺寸(N)按比例缩放的位移因数,其中N是存储器访问中的字节数量(例如,用于使用2比例*索引+基址+按比例缩放的位移的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段2274(稍后在本文中描述)和数据操纵字段2254C确定。位移字段2262A和位移因数字段2262B可以不用于无存储器访问2205的指令模板,并且/或者不同的实施例可实现两者中的仅一个或不实现两者中的任一个,在这个意义上,位移字段2262A和位移因数字段2262B是可选的。
数据元素宽度字段2264-其内容区分将使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令,在其他实施例中仅用于指令中的一些)。如果支持仅一个数据元素宽度,并且/或者使用操作码的某一方面来支持数据元素宽度,则该字段是不需要的,在这个意义上该字段是可选的。
写掩码字段2270-其内容在每一数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码操作,而B类指令模板支持合并写掩码操作和归零写掩码操作两者。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在其他实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间,使目的地中的任何元素集归零;在一个实施例中,当对应掩码位具有0值时,将目的地的元素设置为0。该功能的子集是控制正在被执行的操作的向量长度的能力(即,从第一个到最后一个被修改的元素的跨度),然而,被修改的元素不一定要是连续的。由此,写掩码字段2270允许部分向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段2270的内容选择多个写掩码寄存器中的、包含要使用的写掩码的一个写掩码寄存器(并且由此,写掩码字段2270的内容间接地标识要执行的掩码操作)的本发明的实施例,但是替代实施例相反或另外允许掩码写字段2270的内容直接地指定要执行的掩码操作。
立即数字段2272-其内容允许对立即数的指定。该字段在不支持立即数的通用向量友好格式的实现中不存在,并且在不使用立即数的指令中不存在,在这个意义上该字段是可选的。类字段2268-其内容在不同类的指令之间进行区分。参考图8A和图B,该字段的内容在A类和B类指令之间进行选择。在图8A和图8B中,圆角方形用于指示专用值存在于字段中(例如,在图8A和图B中分别用于类字段2268的A类2268A和B类2268B)。
在A类非存储器访问2205的指令模板的情况下,α字段2252被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的舍入型操作2210和无存储器访问的数据变换型操作2215的指令模板,分别指定舍入2252A.1和数据变换2252A.2)的RS字段2252A,而β字段2254区分要执行指定类型的操作中的哪一种。在无存储器访问2205指令模板中,比例字段2260、位移字段2262A以及位移比例字段2262B不存在。
在无存储器访问的完全舍入控制型操作2210的指令模板中,β字段2254被解释为其内容提供静态舍入的舍入控制字段2254A。尽管在本发明的所述实施例中,舍入控制字段2254A包括抑制所有浮点异常(SAE)字段2256和舍入操作控制字段2258,但是替代实施例可支持这两个概念,并且可将这两个概念都编码成相同的字段,或者仅具有这些概念/字段中的一个或另一个(例如,可仅具有舍入操作控制字段2258)。
SAE字段2256-其内容区分是否禁用异常事件报告;当SAE字段2256的内容指示启用抑制时,给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处理程序。
舍入操作控制字段2258-其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入以及就近舍入)。由此,舍入操作控制字段2258允许逐指定地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段2250的内容覆盖该寄存器值。
在无存储器访问的数据变换型操作2215的指令模板中,β字段2254被解释为数据变换字段2254B,其内容区分要执行多个数据变换中的哪一个(例如,无数据变换、混合、广播)。
在A类存储器访问2220的指令模板的情况下,α字段2252被解释为驱逐提示字段2252B,其内容区分要使用驱逐提示中的哪一个(在图8A中,对于存储器访问时效性2225的指令模板和存储器访问非时效性2230的指令模板分别指定时效性的2252B.1和非时效性的2252B.2),而β字段2254被解释为数据操纵字段2254C,其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上转换以及目的地的向下转换)。存储器访问2220的指令模板包括比例字段2260,并可选地包括位移字段2262A或位移比例字段2262B。
向量存储器指令使用转换支持来执行来自存储器的向量加载和去往存储器的向量存储。如同寻常的向量指令,向量存储器指令以数据元素式的方式往返于存储器传输数据,其中,实际传输的元素由被选为写掩码的向量掩码的内容规定。
时效性的数据是可能足够快地被重新使用以从高速缓存操作中受益的数据。然而,这是提示,且不同的处理器能以不同的方式实现它,包括完全忽略该提示。非时效性的数据是不可能被足够快地重新使用以从第一级高速缓存中的高速缓存操作中受益且应当被给予驱逐优先级的数据。然而,这是提示,且不同的处理器能以不同的方式实现它,包括完全忽略该提示。
在B类指令模板的情况下,α字段2252被解释为写掩码控制(Z)字段2252C,其内容区分由写掩码字段2270控制的写掩码操作应当是合并还是归零。
在B类非存储器访问2205的指令模板的情况下,β字段2254的部分被解释为RL字段2257A,其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作2212的指令模板和无存储器访问的写掩码控制VSIZE型操作2217的指令模板,分别指定舍入2257A.1和向量长度(VSIZE)2257A.2),而β字段2254的其余部分区分要执行指定类型的操作中的哪一种。在无存储器访问2205指令模板中,比例字段2260、位移字段2262A以及位移比例字段2262B不存在。
在无存储器访问的写掩码控制的部分舍入控制型操作2210的指令模板中,β字段2254的其余部分被解释为舍入操作字段2259A,并且禁用异常事件报告(给定的指令不报告任何种类的浮点异常标志,并且不唤起任何浮点异常处理程序)。
舍入操作控制字段2259A-就如同舍入操作控制字段2258,其内容区分一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)要执行。由此,舍入操作控制字段2259A允许逐指令地改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段2250的内容覆盖该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作2217的指令模板中,β字段2254的其余部分被解释为向量长度字段2259B,其内容区分要执行多个数据向量长度中的哪一个(例如,128字节、256字节或512字节)。
在B类存储器访问2220的指令模板的情况下,β字段2254的部分被解释为广播字段2257B,其内容区分是否要执行广播型数据操纵操作,而β字段2254的其余部分被解释为向量长度字段2259B。存储器访问2220的指令模板包括比例字段2260,并可选地包括位移字段2262A或位移比例字段2262B。
针对通用向量友好指令格式2200,示出完整操作码字段2274包括格式字段2240、基础操作字段2242以及数据元素宽度字段2264。尽管示出了其中完整操作码字段2274包括所有这些字段的一个实施例,但是在不支持所有这些字段的实施例中,完整操作码字段2274包括少于所有这些字段的字段。完整操作码字段2274提供操作码(opcode)。
扩充操作字段2250、数据元素宽度字段2264以及写掩码字段2270允许以通用向量友好指令格式逐指令地指定这些特征。写掩码字段和数据元素宽度字段的组合创建类型化的指令,因为它们允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中,不同处理器或者处理器内的不同核可支持仅A类、仅B类或者可支持两类。举例而言,旨在用于通用计算的高性能通用无序核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类,并且旨在用于两者的核可支持两者(当然,具有来自两类的模板和指令的一些混合、但是并非来自两类的所有模板和指令的核在本发明的范围内)。同样,单一处理器可包括多个核,所有核支持相同的类,或者其中不同的核支持不同的类。举例而言,在具有单独的图形和通用核的处理器中,旨在主要用于图形和/或科学计算的图形核中的一个核可仅支持A类,而通用核中的一个或多个可以是具有旨在用于通用计算的、仅支持B类的无序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或无序核。当然,在本发明的不同实施例中,来自一类的特征也可在其他类中实现。可使以高级语言撰写的程序成为(例如,恰被及时编译或静态编译)各种不同的可执行形式,包括:1)仅具有由用于执行的目标处理器支持的类的指令的形式;或者2)具有使用所有类的指令的不同组合而编写的替代例程且具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流代码的形式。
图9是示出根据本发明的多个实施例的示例性专用向量友好指令格式的框图。图9示出专用向量友好指令格式2300,其指定位置、尺寸、解释和字段的次序以及那些字段中的一些字段的值,在这个意义上向量友好指令格式2300是专用的。专用向量友好指令格式2300可用于扩展x86指令集,并且由此这些字段中的一些与现有x86指令集及其扩展(例如,AVX)中使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段一致。示出来自图8的、将来自图9的字段映射到其的字段。
应当理解,虽然出于说明的目的,在通用向量友好指令格式2200的上下文中参考专用向量友好指令格式2300描述了本发明的多个实施例,但是本发明不限于专用向量友好指令格式2300,除非另有声明。例如,通用向量友好指令格式2200构想各种字段的各种可能的尺寸,而专用向量友好指令格式2300被示出为具有特定尺寸的字段。作为具体示例,尽管在专用向量友好指令格式2300中,数据元素宽度字段2264被示出为一位的字段,但是本发明不限于此(也就是说,通用向量友好指令格式2200构想数据元素宽度字段2264的其他尺寸)。
通用向量友好指令格式2200包括以下按照图9A中示出的顺序列出的下列字段。EVEX前缀(字节0-3)2302-以四字节形式进行编码。格式字段2240(EVEX字节0,位[7:0])-第一字节(EVEX字节0)是格式字段2240,并且它包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段2305(EVEX字节1,位[7-5])-由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及2257BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx以及bbb)进行编码,由此可通过增加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx以及Bbbb。
REX’字段2210-这是REX’字段2210的第一部分,并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以下指示的其他位一起以位反转的格式被存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分,但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反转的格式存储该以下其他被指示的位。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R和来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段2315(EVEX字节1,位[3:0]–mmmm)–其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。数据元素宽度字段2264(EVEX字节2,位[7]–W)-由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。EVEX.vvvv 2320(EVEX字节2,位[6:3]-vvvv)-EVEX.vvvv的作用可包括如下:1)以反转(1补码)形式被指定并且对具有2个或更多源操作数的指令有效VEX.vvvv对第一源寄存器操作数进行编码;2)针对某些向量偏移以1补码形式被指定的VEX.vvvv对目的地寄存器操作数进行编码;或者3)VEX.vvvv不对任何操作数进行编码,保留该字段,并且该字段应当包含1111b。由此,EVEX.vvvv字段2320对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,附加的不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。EVEX.U 2268类字段(EVEX字节2,位[2]-U)-如果EVEX.U=0,则它指示A类或EVEX.U0;如果EVEX.U=1,则它指示B类或EVEX.U1。
前缀编码字段2325(EVEX字节2,位[1:0]-pp)-提供用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀只需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码为SIMD前缀编码字段;在提供给解码器的PLA之前,在运行时可被扩展为传统SIMD前缀(因此,PLA可执行传统和EVEX格式的这些传统指令,而无需修改)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展,但是为了一致性,某些实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定不同的含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码,并且因此不需要扩展。
α字段2252(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制以及EVEX.N;也以α示出)-如先前所述,该字段是针对上下文的。β字段2254(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也以βββ示出)-如先前所述,该字段是针对上下文的。
REX’字段2210-这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段2270(EVEX字节3,位[2:0]-kkk)-其内容指定写掩码寄存器中的寄存器索引,如先前所述。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现,包括使用硬连线到所有的写掩码或者绕过掩码硬件的硬件来实现)。
实操作码字段2330(字节4)也被称为操作码字节。在该字段中指定操作码的部分。MOD R/M字段2340(字节5)包括MOD字段2342、Reg字段2344以及R/M字段2346。如先前所述,MOD字段2342的内容在存储器访问和非存储器访问操作之间进行区分。Reg字段2344的作用可被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段2346的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)-如先前所述,比例字段2250的内容用于存储器地址生成。SIB.xxx 2354和SIB.bbb 2356-先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。位移字段2262A(字节7-10)-当MOD字段2342包含10时,字节7-10是位移字段2262A,并且它以与传统32位位移(disp32)相同的方式工作,以字节粒度工作。
位移因数字段2262B(字节7)-当MOD字段2342包含01时,字节7是位移因数字段2262B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移量之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段2262B是对disp8的重新解释;当使用位移因数字段2262B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。此类压缩位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此,不需要对地址偏移量的冗余低阶位进行编码。换句话说,位移因数字段2262B替代传统x86指令集的8位位移。由此,以与x86指令集的8位位移相同的方式对位移因数字段2262B进行编码(因此,在ModRM/SIB编码规则中没有变化),唯一的例外在于,将disp8超载至disp8*N。换句话说,编码规则或编码长度中不存在变化,而仅在通过硬件对位移值的解释中存在变化(这需要通过存储器操作数的尺寸按比例缩放位移量以获得字节式地址偏移量)。立即数字段2272按先前所述进行操作。
图9B是示出根据本发明的一个实施例的、专用向量友好指令格式2300中构成完整操作码字段2274字段的框图。具体而言,完整操作码字段2274包括格式字段2240、基础操作字段2242以及数据元素宽度(W)字段2264。基础操作字段2242包括前缀编码字段2325、操作码映射字段2315以及实操作码字段2330。
图9C是示出根据本发明的一个实施例的、专用向量友好指令格式2300中构成寄存器索引字段2244的字段的框图。具体而言,寄存器索引字段2244包括REX字段2305、REX’字段2310、MODR/M.reg字段2344、MODR/M.r/m字段2346、VVVV字段2320、xxx字段2354以及bbb字段2356。
图9D是示出根据本发明的一个实施例、专用向量友好指令格式2300中构成扩充操作字段2250的字段的框图。当类(U)字段2268包含0时,它表明EVEX.U0(A类2268A);当它包含1时,它表明EVEX.U1(B类2268B)。当U=0且MOD字段2342包含11(表明无存储器访问操作)时,á字段2252(EVEX字节3,位[7]–EH)被解释为rs字段2252A。当rs字段2252A包含1(舍入2252A.1)时,β字段2254(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段2254A。舍入控制字段2254A包括一位的SAE字段2256和两位的舍入操作字段2258。当rs字段2252A包含0(数据变换2252A.2)时,β字段2254(EVEX字节3,位[6:4]–SSS)被解释为三位的数据变换字段2254B。当U=0且MOD字段2342包含00、01或10(表明存储器访问操作)时,α字段2252(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段2252B且β字段2254(EVEX字节3,位[6:4]–SSS)被解释为三位的数据操纵字段2254C。
当U=1时,α字段2252(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段2252C。当U=1且MOD字段2342包含11(表明无存储器访问操作)时,β字段2254的部分(EVEX字节3,位[4]–S0)被解释为RL字段2257A;当它包含1(舍入2257A.1)时,β字段2254的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段2259A,而当RL字段2257A包含0(VSIZE2257.A2)时,β字段2254的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段2259B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段2342包含00、01或10(表明存储器访问操作)时,β字段2254(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段2259B(EVEX字节3,位[6-5]–L1-0)和广播字段2257B(EVEX字节3,位[4]–B)。
图10是根据本发明的一个实施例的寄存器架构2400的框图。在所示出的实施例中,有32个512位宽的向量寄存器2410;这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式2300按下表所示,对这些覆盖的寄存器组进行操作。
换句话说,向量长度字段2259B在最大长度与一个或多个其他较短长度(其中,此类较短长度的长度是前一个长度的一半)之间进行选择;不具有向量长度字段2259B的指令模板对最大向量长度进行操作。此外,在一个实施例中,专用向量友好指令格式2300的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据进行操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作;取决于本实施例,较高阶数据元素位置保持与在指令之前相同或者归零。
写掩码寄存器2415-在所示的实施例中,存在8个写掩码寄存器(k0至k7),每一个写掩码寄存器的尺寸为64位。在替代实施例中,写掩码寄存器2415的尺寸为16位。如先前所述的,在本发明的一个实施例中,向量掩码寄存器k0不能用作写掩码;当正常指示k0的编码用作写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地禁用该指令的写掩码操作。
通用寄存器2425——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器结合现有的x86寻址模式,用于寻址存储器操作数。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点堆栈寄存器组(x87堆栈)2445,在其上面重叠了MMX紧缩整数平坦寄存器组2450——在所示出的实施例中,x87堆栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素堆栈;而将MMX寄存器用于64位紧缩整数数据执行操作,以及用于为在MMX和XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用更宽的或更窄的寄存器。另外,本发明的替代实施例可使用更多、更少或不同的寄存器组和寄存器。
可在不同的处理器中,出于不同的目的,以不同的方式来实现处理器核。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用无序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用无序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。这样的不同处理器导致不同的计算机系统架构,其可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,有时将此类协处理器称为专用逻辑(例如,集成图形和/或科学(吞吐量)逻辑)或专用核;以及4)芯片上系统,其可将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
图11A是示出根据本发明的多个实施例的示例性有序流水线和示例性的寄存器重命名的无序发布/执行流水线的框图。图11B是示出根据本发明的多个实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的无序发布/执行架构核的框图。实线框示出了有序流水线和有序核,而可选增加的虚线框示出了寄存器重命名的、无序发布/执行流水线和核。考虑到有序方面是无序方面的子集,将描述无序方面。
在图11A中,处理器流水线2500包括取出级2502、长度解码级2504、解码级2506、分配级2508、重命名级2510、调度(也被称为分派或发布)级2512、寄存器读取/存储器读取级2514、执行级2516、写回/存储器写入级2518、异常处理级2522和提交级2524。
图11B示出处理器核2590,其包括耦合到执行引擎单元2550的前端单元2530,且执行引擎单元和前端单元两者都耦合到存储器单元2570。核2590可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或替代核类型。作为又一选项,核2590可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等。
前端单元2530包括耦合到指令高速缓存单元2534的分支预测单元2532,该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)2536,该指令转换后备缓冲器耦合到指令取出单元2538,指令取出单元耦合到解码单元2540。解码单元2540(或解码器)可解码指令,并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令或其他控制信号作为输出。解码单元2540可使用各种不同的机制来实现。合适的机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核2590包括(例如,在解码单元2540中或以其他方式在前端单元2530中)存储针对某些宏指令的微代码的微代码ROM或其他介质。解码单元2540耦合至执行引擎单元2550中的重命名/分配器单元2552。
执行引擎单元2550包括耦合到引退单元2554和一个或多个调度器单元的集合2556的重命名/分配器单元2552。调度器单元2556表示任意数量的不同调度器,包括预留站、中央指令窗等。调度器单元2556耦合到物理寄存器组单元2558。物理寄存器组单元2558中的每一个表示一个或多个物理寄存器组,其中不同的物理寄存器组存储一个或多个不同的数据类型,例如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要被执行的下一条指令的地址的指令指针)等。
在一个实施例中,物理寄存器组单元2558包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器组单元2558被引退单元2554覆盖,以示出可实现寄存器重命名和无序执行的各种方式(例如,使用重排序缓冲器和引退寄存器组;使用未来文件(future file)、历史缓冲器、引退寄存器组;使用寄存器映射和寄存器池等)。引退单元2554和物理寄存器组单元2558耦合至执行群集2560。
执行群集2560包括一个或多个执行单元的集合2562以及一个或多个存储器访问单元的集合2564。执行单元2562可执行多种操作(例如,移位、加法、减法、乘法),并且可对多种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行操作。尽管一些实施例可以包括专用于特定功能或功能集的多个执行单元,但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。
调度器单元2556、物理寄存器组单元2558和执行群集2560被示为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线和/或各自具有其自身的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行群集具有存储器访问单元2564的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是无序发布/执行的,并且其余流水线可以是有序发布/执行的。
存储器访问单元的集合2564耦合到存储器单元2570,该存储器单元包括耦合到数据高速缓存单元2574的数据TLB单元2572,其中,数据高速缓存单元耦合到第二级(L2)高速缓存单元2576。在一个示例性实施例中,存储器访问单元2564可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合至存储器单元2570中的数据TLB单元2572。指令高速缓存单元2534还耦合到存储器单元2570中的第二级(L2)高速缓存单元2576。L2高速缓存单元2576耦合至一个或多个其他层级的高速缓存,并最终耦合至主存储器。
作为示例,示例性的寄存器重命名的、无序发布/执行核架构可按如下方式实现流水线2500:1)指令取出2538执行取出和长度解码级2502和2504;2)解码单元2540执行解码级2506;3)重命名/分配器单元2552执行分配级2508和重命名级2510;4)调度器单元2556执行调度级2512;5)物理寄存器组单元2558和存储器单元2570执行寄存器读取/存储器读取级2514;执行群集2560执行执行级2516;6)存储器单元2570和物理寄存器组单元2558执行写回/存储器写入级2518;7)各单元可牵涉到异常处理级2522;以及8)引退单元2554和物理寄存器组单元2558执行提交级2524。
核2590可支持一个或多个指令集(例如,x86指令集(在更新的版本中加入了一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON之类的可选附加扩展)),其中包括本文中描述的各指令。在一个实施例中,核2590包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2和/或先前描述的一些形式的一般向量友好指令格式(U=0和/或U=1))的逻辑,从而允许由许多多媒体应用使用的操作能够使用紧缩数据来执行。
应当理解,核可支持多线程操作(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程操作,各种方式包括时分多线程操作、同步多线程操作(其中,单个物理核为物理核正在同步进行多线程操作的多个线程中的每一个线程提供逻辑核)或其组合(例如,时分取出和解码以及此后诸如利用超线程技术的同步多线程操作)。
尽管在无序执行的情境中描述了寄存器重命名,但应当理解,可在有序架构中使用寄存器重命名。尽管所示出的处理器的多实施例也包括分开的指令和数据高速缓存单元2534/2574以及共享L2高速缓存单元2576,但替代实施例可具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个层级的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部的高速缓存的组合。或者,所有高速缓存都可在核和/或处理器的外部。
图12A和图12B示出更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。取决于应用,这些逻辑块通过高带宽的互连网络(例如,环形网络)与某个固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。
图12A是根据本发明的多个实施例的单个处理器核以及它与管芯上互连网络2602的连接及其第二级(L2)高速缓存的本地子集2604的框图。在一个实施例中,指令解码器2600支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存2606允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元2608和向量单元2610使用分开的寄存器集合(分别为标量寄存器2612和向量寄存器2614),并且在这些寄存器之间转移的数据被写入到存储器,并随后从第一级(L1)高速缓存2606读回,但是本发明的替代实施例可使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集2604是全局L2高速缓存的部分,该全局L2高速缓存被划分成多个分开的本地子集,针对每一个处理器核由有一个本地子集。每个处理器核具有去往其自身的L2高速缓存2604的本地子集的直接访问路径。将由处理器核读取的数据存储在其L2高速缓存子集2604中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集一起,并行地快速访问这些数据。将由处理器核写入的数据存储在其自身的L2高速缓存子集2604中,并在必要的情况下从其他子集中转储清除这些数据。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图12B是根据本发明的多个实施例的、图12A中的处理器核的部分的展开图。图12B包括L1高速缓存2604的L1数据高速缓存2606A部分,以及关于向量单元2610和向量寄存器2614的更多细节。具体而言,向量单元2610是16宽向量处理单元(VPU)(见16宽ALU 2628),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU利用混合单元2620支持对寄存器输入的混合,利用数值转换单元2622A-B支持数值转换,并且利用复制单元2624支持对存储器输入的复制。写掩码寄存器2626允许预测所得的向量写入。
图13是根据本发明的多个实施例的、可能具有多于一个的核、可能具有集成存储器控制器、并且可能具有集成图形器件的处理器2700的框图。图13中的实线框示出具有单个核2702A、系统代理2710、一个或多个总线控制器单元的集合2716的处理器2700,而虚线框的可选附加示出具有多个核2702A-N、系统代理单元2710中的一个或多个集成存储器控制器单元的结合2714以及专用逻辑2708的替代处理器2700。
因此,处理器2700的不同实现可包括:1)CPU,其中专用逻辑2708是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核2702A-N是一个或多个通用核(例如,通用有序核、通用无序核、这两者的组合);2)协处理器,其中核2702A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核2702A-N是大量通用有序核。因此,处理器2700可以是通用处理器、协处理器或专用处理器,该专用处理器诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器2700可以是一个或多个基板的一部分,并且/或者可使用多种工艺技术(诸如,BiCMOS、CMOS、或NMOS)中的任意技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个层级的高速缓存、一组或一个或多个共享高速缓存单元2706以及耦合至集成存储器控制器单元的集合2714的外部存储器(未示出)。共享高速缓存单元的集合2706可包括一个或多个中级高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他层级的高速缓存、末级高速缓存(LLC)和/或以上的组合。尽管在一个实施例中,基于环的互连单元2712将集成图形逻辑2708、共享高速缓存单元的集合2706以及系统代理单元2710/集成存储器控制器单元2714互连,但替代实施例可使用任何数量的公知技术来将此类单元互连。在一个实施例中,可维护一个或多个高速缓存单元2706和核2702A-N之间的一致性(coherency)。
在一些实施例中,一个或多个核2702A-N能够进行多线程操作。系统代理2710包括协调并操作核2702A-N的那些组件。系统代理单元2710可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括调节核2702A-N和集成图形逻辑2708的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核2702A-N在架构指令集方面可以是同构的或异构的;也就是说,这些核2702A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
图14到图18是示例性计算机架构的框图。本领域已知的对膝上型计算机、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备通常都是合适的。
现在参考图14,所示出的是根据本发明一个实施例的系统2800的框图。系统2800可包括一个或多个处理器2810、2815,这些处理器耦合到控制器中枢2820。在一个实施例中,控制器中枢2820包括图形存储器控制器中枢(GMCH)2890和输入/输出中枢(IOH)2850(其可在分开的芯片上);GMCH2890包括存储器和图形控制器,存储器2840和协处理器2845耦合到该存储器和图形控制器;IOH 2850将输入/输出(I/O)设备2860耦合到GMCH 2890。或者,存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的),存储器2840和协处理器2845直接耦合到处理器2810以及控制器中枢2820,控制器中枢2820与IOH 2850处于单个芯片中。
附加的处理器2815的可选性质在图14中通过虚线来表示。每个处理器2810、2815可包括本文中描述的处理核中的一个或多个,并且可以是处理器2700的某一版本。
存储器2840可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢2820经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接2895与处理器2810、2815进行通信。
在一个实施例中,协处理器2845是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中,控制器中枢2820可以包括集成图形加速器。
在物理资源2810、2815之间可存在包括架构、微架构、热和功耗特征等的一系列品质度量方面的各种差异。
在一个实施例中,处理器2810执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器2810将这些协处理器指令识别为应当由附连的协处理器2845执行的类型。因此,处理器2810在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器2845。协处理器2845接受并执行所接收的协处理器指令。
现在参考图15,所示为根据本发明的实施例的更具体的第一示例性系统2900的框图。如图15所示,多处理器系统2900是点对点互连系统,并且包括经由点对点互连2950耦合的第一处理器2970和第二处理器2980。处理器2970和2980中的每一个都可以是处理器2700的某一版本。在本发明的一个实施例中,处理器2970和2980分别是处理器2810和2815,而协处理器2938是协处理器2945。在另一实施例中,处理器2970和2980分别是处理器2810和协处理器2845。
处理器2970和2980被示出为分别包括集成存储器控制器(IMC)单元2972和2982。处理器2970也包括作为其总线控制器单元的部分的点对点(P-P)接口2976和2978;类似地,第二处理器2980包括P-P接口2986和2988。处理器2970、2980可以经由使用点对点(P-P)接口电路2978、2988的P-P接口2950来交换信息。如图15所示,IMC 2972和2982将处理器耦合到各自的存储器,即存储器2932和存储器2934,这些存储器可以是本地附连到各自处理器的主存储器的部分。
处理器2970、2980可各自经由使用点对点接口电路2976、2994、2986、2998的各个P-P接口2952、2954与芯片组2990交换信息。芯片组2990可以可选地经由高性能接口2939与协处理器2938交换信息。在一个实施例中,协处理器2938是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。
可将共享高速缓存(未示出)包括在任一处理器中,或包括在两个处理器的外部但经由P-P互连与这些处理器连接,使得如果将处理器置于低功率模式,则可将这两个处理器中的任意一个或两个的本地高速缓存信息存储在该共享的高速缓存中。芯片组2990可以经由接口2996耦合至第一总线2916。在一个实施例中,第一总线2916可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图15所示,各种I/O设备2914可连同总线桥2918一起耦合到第一总线2916,总线桥2918将第一总线2916耦合到第二总线2920。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器之类的一个或多个附加处理器2915耦合到第一总线2916。在一个实施例中,第二总线2920可以是低引脚计数(LPC)总线。各种设备可以被耦合至第二总线2920,在一个实施例中,这些设备包括例如,键盘/鼠标2922、通信设备2927以及诸如可包括指令/代码和数据2930的盘驱动器或其他大容量存储设备之类的存储单元2928。此外,音频I/O 2924可以被耦合至第二总线2920。注意,其他架构是可能的。例如,代替图15中的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图16,所示为根据本发明的实施例的更具体的第二示例性系统3000的框图。图16和图17中的类似元件使用类似附图标记,且在图16中省略了图15的某些方面以避免使图16的其他方面模糊。图16示出处理器2970、2980可分别包括集成存储器和I/O控制逻辑(”CL”)2972和2982。因此,CL2972、2982包括集成存储器控制器单元并包括I/O控制逻辑。图16示出不仅存储器2932、2934耦合至CL 2972、2982,而且I/O设备3014也耦合至控制逻辑2972、2982。传统I/O设备3015被耦合至芯片组2990。
现在参考图17,所示出的是根据本发明的实施例的SoC 3100的框图。图13中的相似组件具有相同的标号。另外,虚线框是更先进的SoC上的可选特征。在图17中,互连单元3102被耦合至:应用处理器3110,其包括一个或多个核的集合202A-N以及共享高速缓存单元2706;系统代理单元2710;总线控制器单元2716;集成存储器控制器单元2714;一组或一个或多个协处理器3120,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元3130;直接存储器存取(DMA)单元3132;显示单元3140,其以及用于耦合至一个或多个外部显示器。在一个实施例中,协处理器3120包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。可将本发明的多个实施例实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如图15中示出的代码2930)应用于输入指令,以执行本文描述的多个功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可由存储在表示处理器中的各种逻辑的机器可读介质上的表示性指令来实现,当由机器读取这些表示性指令时,这些指令使该机器制作用于执行本文所述的技术的逻辑。可将被称为“IP核”的此类表示存储在有形的机器可读介质上,并将其提供给各种客户或生产设施,以便加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
相应地,本发明的多个实施例也包括非瞬态的有形机器可读介质,该介质包含指令或包含定义本文中描述的结构、电路、装置、处理器和/或系统特征的设计数据(例如,硬件描述语言(HDL))。也降此类实施例称为程序产品。
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令集。例如,指令转换器可变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真指令或以其他方式将指令转换成将由核来处理的一条或多条其他指令。可在软件、硬件、固件或其组合中实现该指令转换器。指令转换器可在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图18是根据本发明的多个实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中,指令转换器是软件指令转换器,但也可替代地在软件、固件、硬件或其各种组合中实现该指令转换器。图18示出可使用x86编译器3204来编译利用高级语言3202的程序,以生成可由具有至少一个x86指令集核的处理器3216原生地执行的x86二进制代码3206。具有至少一个x86指令集核的处理器3216表示能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的英特尔处理器基本相同功能的任何处理器:1)英特尔x86指令集核的指令集的本质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器3204表示用于生成x86二进制代码3206(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器3216上被执行。类似地,图18示出可使用替代的指令集编译器3208来编译利用高级语言3202的程序,以生成可以由不具有至少一个x86指令集核的处理器3214(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生地执行的替代指令集二进制代码3210。指令转换器3212被用来将x86二进制代码3206转换成可以由不具有x86指令集核的处理器3214原生地执行的代码。该被转换的代码不大可能与替代的指令集二进制代码3210相同,因为能够这样做的指令转换器难以制造;然而,被转换的代码将完成一般操作,并且由来自替代指令集中的指令构成。因此,指令转换器3212通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码3206的软件、固件、硬件或其组合。
根据一个实施例,处理器包括:多个处理器核,用于执行多个线程;共享存储设备,通信地耦合至多个处理器核;功率控制单元(PCU),通信地耦合至多个处理器核,该PCU用于在不需要任何软件(SW)干预的情况下,确定是否应当将正在由第一处理器核执行的线程迁移到第二处理器核;以及迁移单元,响应于从PCU接收到迁移线程的指令,该迁移单元用于:将第一处理器核的架构状态的至少部分存储在共享存储设备中;并且在不需要任何SW干预的情况下,将该线程迁移到第二处理器核,使得该第二处理器核在SW不知晓的情况下,基于来自共享存储设备的架构状态,继续执行该线程。在一个实施例中,被存储的架构状态包括高级可编程中断控制器(APIC)寄存器的信息,该高级可编程中断控制器(APIC)寄存器包括:第一处理器核的本地APIC标识符(ID)寄存器、本地向量表寄存器、中断请求寄存器和服务中寄存器、通用寄存器、控制寄存器和共享模型专用寄存器。迁移单元进一步配置成用于:使第二处理器核上电;在该第二处理器核中恢复第一处理器核的被存储的架构状态,其中,所述恢复第一处理器核的被存储的架构状态与将第一处理器核的微架构状态的至少部分存储在该第一处理器核的本地存储器中并行地发生;以及在已将微架构状态存储在本地存储器中之后,使第一处理器核失电,使得线程的迁移对发起该线程的SW是透明的。在一个实施例中,该迁移单元进一步配置成用于:阻止第一处理器核的中断,并且使第二处理器核能接收中断。在本发明的一个方面中,该第一和第二处理器核是不同类型的核。在一个实施例中,PCU根据线程的可扩展性、处理器能量和温度的可用性来确定是否应当迁移线程。
已在对计算机存储器中的数据位的算法和符号表示方面呈现了前述具体实施方式的一些部分。这些算法描述及表示是由数据处理领域的技术人员用于向本领域的其他技术人员最有效地传达其工作实质的方式。算法在此一般被理解为导致所需结果的自洽的操作序列。这些操作是需要对物理量进行物理操控的操作。
然而,应当记住,所有这些和/或类似的术语用于与适当的物理量关联,并且仅仅是应用于这些量的方便的标记。除非特别声明,否则根据上述讨论显而易见的是,会理解在本说明书的通篇中,利用诸如所附权利要求中陈述的那些术语之类的术语的讨论是指计算机系统或类似电子计算设备的动作和过程,该计算机系统或类似的电子计算设备操纵被表示为计算机系统的寄存器和存储器中的物理(电子)量的数据,并将这些数据变换为类似地被表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。
可使用存储在一个或多个电子设备并且在一个或多个电子设备上执行的代码和数据来实现图中所示的多种技术。此类电子设备使用计算机可读介质存储并传递(内部地和/或在网络上与其他电子设备进行)代码和数据,计算机可读介质例如,非瞬态计算机可读取的存储介质(例如,磁盘;光盘;随机存取存储器;只读存储器;闪存设备;相变存储器)和瞬态计算机可读传输介质(例如,电、光、声或其他形式的传播的信号——诸如载波,红外信号、数字信号等)。
前述附图中所描绘的过程或方法可通过包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,被具体化在非瞬态计算机可读介质上的软件)或两者的组合的处理逻辑来执行。虽然上文按照一些顺序操作描述了过程或方法,但是,应当理解,能以不同的顺序来执行所描述的操作中的一些。此外,可并行地而非顺序地执行一些操作。
在前述的说明书中,已本发明的特定示例性实施例描述了本发明的多个实施例。显然,可对这些实施例作出各种修改,而不背离所附权利要求所陈述的本发明的更广泛的精神和范围。相应地,应当将说明书和附图应认为是说明性的而不是限制性的。
Claims (21)
1.一种处理器,包括:
多个处理器核,用于执行多个线程;
共享存储设备,通信地耦合至所述多个处理器核;
功率控制单元(PCU),通信地耦合至所述多个处理器,所述功率控制单元用于在不需要任何软件(SW)干预的情况下,确定是否应当将正在由第一处理器核执行的线程迁移到第二处理器核;以及
迁移单元,响应于从所述PCU接收到迁移所述线程的指令,所述迁移单元用于:将所述第一处理器核的架构状态的至少部分存储在所述共享存储设备中;并且在不需要任何SW干预的情况下,将所述线程迁移到所述第二处理器核,使得所述第二处理器核在所述SW不知晓的情况下,基于来自所述共享存储设备的所述架构状态,继续执行所述线程。
2.如权利要求1所述的处理器,其特征在于,被存储的架构状态包括高级可编程中断控制器(APIC)寄存器的信息,所述高级可编程中断控制器(APIC)寄存器包括所述第一处理器核的本地APIC标识符(ID)寄存器、本地向量表寄存器、中断请求寄存器和服务中寄存器。
3.如权利要求1所述的处理器,其特征在于,被存储的架构状态包括所述第一处理器核的通用寄存器、控制寄存器和共享模型专用寄存器的信息。
4.如权利要求1所述的处理器,其特征在于,所述迁移单元进一步配置成用于:使所述第二处理器核上电;在所述第二处理器核中恢复所述第一处理器核的被存储的架构状态,其中,所述恢复所述第一处理器核的被存储的架构状态与将所述第一处理器核的微架构状态的至少部分存储在所述第一处理器核的本地存储器中并行地发生;以及在已将所述微架构状态存储在所述本地存储器中之后,使所述第一处理器核失电,使得所述线程的所述迁移对发起所述线程的所述SW是透明的。
5.如权利要求1所述的处理器,其特征在于,所述迁移单元进一步配置成用于:阻止所述第一处理器核的中断,并且将所述第一处理器核的中断重定向到所述第二处理器核。
6.如权利要求1所述的处理器,其特征在于,所述第一处理器核和所述第二处理器核是不同类型的核。
7.如权利要求1所述的处理器,其特征在于,所述PCU根据线程的可扩展性和可用于所述处理器的热预算来确定是否应当迁移所述线程。
8.一种方法,包括:
在不需要任何软件(SW)干预的情况下,确定是否应当将正在由第一处理器核执行的线程迁移到第二处理器核;以及
响应于确定应当迁移所述线程,将所述第一处理器核的架构状态的至少部分存储在所述共享存储设备中;以及
在不需要任何SW干预的情况下,将所述线程迁移到所述第二处理器核,使得所述第二处理器核可在所述SW不知晓的情况下,基于来自所述共享存储设备的所述架构状态,继续执行所述线程。
9.如权利要求8所述的方法,其特征在于,被存储的架构状态包括高级可编程中断控制器(APIC)寄存器的信息,所述高级可编程中断控制器(APIC)寄存器包括所述第一处理器核的本地APIC标识符(ID)寄存器、本地向量表寄存器、中断请求寄存器和服务中寄存器。
10.如权利要求8所述的方法,其特征在于,被存储的架构状态包括所述第一处理器核的通用寄存器、控制寄存器和共享模型专用寄存器的信息。
11.如权利要求8所述的方法,其特征在于,进一步包括:使所述第二处理器核上电;在所述第二处理器核中恢复所述第一处理器核的被存储的架构状态,其中,所述恢复所述第一处理器核的被存储的架构状态与将所述第一处理器核的微架构状态的至少部分存储在所述第一处理器核的本地存储器中并行地发生;以及在已将所述微架构状态存储在所述本地存储器中之后,使所述第一处理器核失电,使得所述线程的所述迁移对发起所述线程的所述SW是透明的。
12.如权利要求8所述的方法,其特征在于,进一步包括:阻止所述第一处理器核的中断,并将所述第一处理器核的中断重定向到所述第二处理器核。
13.如权利要求8所述的方法,其特征在于,所述第一处理器核和所述第二处理器核是不同类型的核。
14.如权利要求8所述的方法,其特征在于,基于线程的可扩展性和可用于所述处理器的热预算来确定是否应当迁移所述线程。
15.一种系统,包括:
互连;
动态随机存取存储器(DRAM),所述动态随机存取存储器(DRAM)耦合至所述互连;以及
处理器,耦合至所述互连,所述处理器包括:
多个处理器核,用于执行多个线程;
共享存储设备,通信地耦合至所述多个处理器核;
功率控制单元(PCU),通信地耦合至所述多个处理器,所述功率控制单元用于在不需要任何软件(SW)干预的情况下,确定是否应当将正在由第一处理器核执行的线程迁移到第二处理器核;以及
迁移单元,响应于从所述PCU接收到迁移所述线程的指令,所述迁移单元用于:将所述第一处理器核的架构状态的至少部分存储在所述共享存储设备中;并且在不需要任何SW干预的情况下,将所述线程迁移到所述第二处理器核,使得所述第二处理器核在所述SW不知晓的情况下,基于来自所述共享存储设备的所述架构状态,继续执行所述线程。
16.如权利要求15所述的系统,其特征在于,被存储的架构状态包括高级可编程中断控制器(APIC)寄存器的信息,所述高级可编程中断控制器(APIC)寄存器包括所述第一处理器核的本地APIC标识符(ID)寄存器、本地向量表寄存器、中断请求寄存器和服务中寄存器。
17.如权利要求15所述的系统,其特征在于,被存储的架构状态包括所述第一处理器核的通用寄存器、控制寄存器和共享模型专用寄存器的信息。
18.如权利要求15所述的系统,其特征在于,所述迁移单元进一步配置成用于:使所述第二处理器核上电;在所述第二处理器核中恢复所述第一处理器核的被存储的架构状态,其中,所述恢复所述第一处理器核的被存储的架构状态与将所述第一处理器核的微架构状态的至少部分存储在所述第一处理器核的本地存储器中并行地发生;以及在已将所述微架构状态存储在所述本地存储器中之后,使所述第一处理器核失电,使得所述线程的所述迁移对发起所述线程的所述SW是透明的。
19.如权利要求15所述的系统,其特征在于,所述迁移单元进一步配置成用于:阻止所述第一处理器核的中断,并且将所述第一处理器核的中断重定向到所述第二处理器核。
20.如权利要求15所述的系统,其特征在于,所述第一处理器核和所述第二处理器核是不同类型的核。
21.如权利要求15所述的系统,其特征在于,所述PCU根据线程的可扩展性和可用于所述处理器的热预算来确定是否应当迁移所述线程。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/071686 WO2014105010A1 (en) | 2012-12-26 | 2012-12-26 | Thread migration support for architectually different cores |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104781803A true CN104781803A (zh) | 2015-07-15 |
CN104781803B CN104781803B (zh) | 2018-06-15 |
Family
ID=50976305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280076824.6A Expired - Fee Related CN104781803B (zh) | 2012-12-26 | 2012-12-26 | 用于架构不同核的线程迁移支持 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140181830A1 (zh) |
CN (1) | CN104781803B (zh) |
DE (1) | DE112012007119T5 (zh) |
WO (1) | WO2014105010A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930218A (zh) * | 2016-04-18 | 2016-09-07 | 深圳市万普拉斯科技有限公司 | 运算资源频率调整方法及系统 |
CN106980492A (zh) * | 2016-01-15 | 2017-07-25 | 英特尔公司 | 用于确定处理器核上的工作布置的系统、方法和设备 |
CN108027736A (zh) * | 2015-10-28 | 2018-05-11 | 森蒂彼得塞米有限公司 | 使用通过对物理寄存器预分配的乱序重命名的运行时代码并行化 |
CN108694153A (zh) * | 2017-04-01 | 2018-10-23 | 英特尔公司 | 用于启用经由管芯上存储的高速上下文切换的引擎 |
CN109564526A (zh) * | 2016-08-31 | 2019-04-02 | 英特尔公司 | 使用封装和线程提示信息的组合来控制处理器的性能状态 |
CN112181641A (zh) * | 2020-09-14 | 2021-01-05 | 中国银联股份有限公司 | 线程处理方法、装置、设备及存储介质 |
CN112579514A (zh) * | 2020-12-10 | 2021-03-30 | 海光信息技术股份有限公司 | 多核处理器堆栈初始化的方法及装置 |
CN113254070A (zh) * | 2020-02-07 | 2021-08-13 | 阿里巴巴集团控股有限公司 | 加速单元、片上系统、服务器、数据中心和相关方法 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013099414A1 (ja) * | 2011-12-26 | 2013-07-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | レジスタ・マッピング方法 |
US20150205614A1 (en) * | 2012-03-21 | 2015-07-23 | Mika Lähteenmäki | Method in a processor, an apparatus and a computer program product |
WO2014031540A1 (en) * | 2012-08-20 | 2014-02-27 | Cameron Donald Kevin | Processing resource allocation |
US10388405B2 (en) | 2013-03-22 | 2019-08-20 | Massachusetts Institute Of Technology | Systems and methods for predicting adverse events and assessing level of sedation during medical procedures |
US10423216B2 (en) * | 2013-03-26 | 2019-09-24 | Via Technologies, Inc. | Asymmetric multi-core processor with native switching mechanism |
WO2014155684A1 (ja) * | 2013-03-29 | 2014-10-02 | 富士通株式会社 | プログラム、情報処理システム、およびプログラム移行方法 |
JP6321325B2 (ja) * | 2013-04-03 | 2018-05-09 | ルネサスエレクトロニクス株式会社 | 情報処理装置および情報処理方法 |
US9367325B2 (en) * | 2013-06-29 | 2016-06-14 | Intel Corporation | Common architecture state presentation for processor having processing cores of different types |
US9465432B2 (en) | 2013-08-28 | 2016-10-11 | Via Technologies, Inc. | Multi-core synchronization mechanism |
US9792112B2 (en) | 2013-08-28 | 2017-10-17 | Via Technologies, Inc. | Propagation of microcode patches to multiple cores in multicore microprocessor |
US9891927B2 (en) | 2013-08-28 | 2018-02-13 | Via Technologies, Inc. | Inter-core communication via uncore RAM |
US9384036B1 (en) | 2013-10-21 | 2016-07-05 | Google Inc. | Low latency thread context caching |
CN105940376A (zh) * | 2014-04-24 | 2016-09-14 | 联发科技股份有限公司 | 中央处理单元控制方法、电子系统控制方法及电子系统 |
US10838893B2 (en) | 2014-05-30 | 2020-11-17 | Apple Inc. | Methods for mitigating system interrupts for an electronic device |
US9958932B2 (en) * | 2014-11-20 | 2018-05-01 | Apple Inc. | Processor including multiple dissimilar processor cores that implement different portions of instruction set architecture |
US10146539B2 (en) * | 2014-12-14 | 2018-12-04 | Via Alliance Semiconductor Co., Ltd. | Load replay precluding mechanism |
US10146546B2 (en) * | 2014-12-14 | 2018-12-04 | Via Alliance Semiconductor Co., Ltd | Load replay precluding mechanism |
KR102321941B1 (ko) * | 2014-12-17 | 2021-11-05 | 인텔 코포레이션 | 스핀-루프 점프를 수행하기 위한 장치 및 방법 |
US9921984B2 (en) | 2014-12-23 | 2018-03-20 | Intel Corporation | Delivering interrupts to user-level applications |
WO2017027855A1 (en) | 2015-08-12 | 2017-02-16 | Massachusetts Institute Of Technology | Systems and methods for predicting adverse events and assessing level of sedation during medical procedures |
US10459759B2 (en) | 2015-08-26 | 2019-10-29 | Netapp, Inc. | Migration between CPU cores |
US9910700B2 (en) * | 2015-08-26 | 2018-03-06 | Netapp, Inc. | Migration between CPU cores |
US10331556B2 (en) * | 2015-08-28 | 2019-06-25 | Vmware, Inc. | Implementing per-processor memory areas with non-preemptible operations using virtual aliases |
US11126433B2 (en) * | 2015-09-19 | 2021-09-21 | Microsoft Technology Licensing, Llc | Block-based processor core composition register |
US10037227B2 (en) * | 2015-12-17 | 2018-07-31 | Intel Corporation | Systems, methods and devices for work placement on processor cores |
US10387154B2 (en) * | 2016-03-14 | 2019-08-20 | International Business Machines Corporation | Thread migration using a microcode engine of a multi-slice processor |
US10255072B2 (en) * | 2016-07-01 | 2019-04-09 | Intel Corporation | Architectural register replacement for instructions that use multiple architectural registers |
US10152341B2 (en) | 2016-08-30 | 2018-12-11 | Red Hat Israel, Ltd. | Hyper-threading based host-guest communication |
US12026545B2 (en) * | 2021-01-28 | 2024-07-02 | Red Hat, Inc. | Active build migration in continuous integration environments |
US20220318015A1 (en) * | 2021-03-31 | 2022-10-06 | Advanced Micro Devices, Inc. | Enforcing data placement requirements via address bit swapping |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090172369A1 (en) * | 2007-12-27 | 2009-07-02 | Stillwell Jr Paul M | Saving and restoring architectural state for processor cores |
US20120185709A1 (en) * | 2011-12-15 | 2012-07-19 | Eliezer Weissmann | Method, apparatus, and system for energy efficiency and energy conservation including thread consolidation |
US20120254877A1 (en) * | 2011-04-01 | 2012-10-04 | International Business Machines Corporation | Transferring architected state between cores |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7437581B2 (en) * | 2004-09-28 | 2008-10-14 | Intel Corporation | Method and apparatus for varying energy per instruction according to the amount of available parallelism |
GB2443277B (en) * | 2006-10-24 | 2011-05-18 | Advanced Risc Mach Ltd | Performing diagnostics operations upon an asymmetric multiprocessor apparatus |
US7865751B2 (en) * | 2007-06-18 | 2011-01-04 | Intel Corporation | Microarchitecture controller for thin-film thermoelectric cooling |
US7930574B2 (en) * | 2007-12-31 | 2011-04-19 | Intel Corporation | Thread migration to improve power efficiency in a parallel processing environment |
US9081501B2 (en) * | 2010-01-08 | 2015-07-14 | International Business Machines Corporation | Multi-petascale highly efficient parallel supercomputer |
US8880764B2 (en) * | 2011-08-30 | 2014-11-04 | Red Hat Israel, Ltd. | Pessimistic interrupt affinity for devices |
US8688883B2 (en) * | 2011-09-08 | 2014-04-01 | Intel Corporation | Increasing turbo mode residency of a processor |
US20140108734A1 (en) * | 2012-10-17 | 2014-04-17 | Advanced Micro Devices, Inc. | Method and apparatus for saving processor architectural state in cache hierarchy |
US9323528B2 (en) * | 2012-12-20 | 2016-04-26 | Intel Corporation | Method, apparatus, system creating, executing and terminating mini-threads |
-
2012
- 2012-12-26 CN CN201280076824.6A patent/CN104781803B/zh not_active Expired - Fee Related
- 2012-12-26 DE DE112012007119.0T patent/DE112012007119T5/de not_active Withdrawn
- 2012-12-26 WO PCT/US2012/071686 patent/WO2014105010A1/en active Application Filing
- 2012-12-26 US US13/997,811 patent/US20140181830A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090172369A1 (en) * | 2007-12-27 | 2009-07-02 | Stillwell Jr Paul M | Saving and restoring architectural state for processor cores |
US20120254877A1 (en) * | 2011-04-01 | 2012-10-04 | International Business Machines Corporation | Transferring architected state between cores |
US20120185709A1 (en) * | 2011-12-15 | 2012-07-19 | Eliezer Weissmann | Method, apparatus, and system for energy efficiency and energy conservation including thread consolidation |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108027736B (zh) * | 2015-10-28 | 2022-01-21 | 森蒂彼得塞米有限公司 | 使用通过对物理寄存器预分配的乱序重命名的运行时代码并行化 |
CN108027736A (zh) * | 2015-10-28 | 2018-05-11 | 森蒂彼得塞米有限公司 | 使用通过对物理寄存器预分配的乱序重命名的运行时代码并行化 |
CN106980492A (zh) * | 2016-01-15 | 2017-07-25 | 英特尔公司 | 用于确定处理器核上的工作布置的系统、方法和设备 |
CN106980492B (zh) * | 2016-01-15 | 2019-07-26 | 英特尔公司 | 用于计算的装置、系统、方法、机器可读存储介质和设备 |
CN105930218A (zh) * | 2016-04-18 | 2016-09-07 | 深圳市万普拉斯科技有限公司 | 运算资源频率调整方法及系统 |
CN109564526A (zh) * | 2016-08-31 | 2019-04-02 | 英特尔公司 | 使用封装和线程提示信息的组合来控制处理器的性能状态 |
CN109564526B (zh) * | 2016-08-31 | 2023-05-23 | 英特尔公司 | 使用封装和线程提示信息的组合来控制处理器的性能状态 |
CN108694153A (zh) * | 2017-04-01 | 2018-10-23 | 英特尔公司 | 用于启用经由管芯上存储的高速上下文切换的引擎 |
CN108694153B (zh) * | 2017-04-01 | 2024-05-07 | 英特尔公司 | 用于启用经由管芯上存储的高速上下文切换的引擎 |
CN113254070A (zh) * | 2020-02-07 | 2021-08-13 | 阿里巴巴集团控股有限公司 | 加速单元、片上系统、服务器、数据中心和相关方法 |
CN113254070B (zh) * | 2020-02-07 | 2024-01-02 | 阿里巴巴集团控股有限公司 | 加速单元、片上系统、服务器、数据中心和相关方法 |
CN112181641A (zh) * | 2020-09-14 | 2021-01-05 | 中国银联股份有限公司 | 线程处理方法、装置、设备及存储介质 |
CN112579514A (zh) * | 2020-12-10 | 2021-03-30 | 海光信息技术股份有限公司 | 多核处理器堆栈初始化的方法及装置 |
CN112579514B (zh) * | 2020-12-10 | 2022-07-26 | 海光信息技术股份有限公司 | 多核处理器堆栈初始化的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
DE112012007119T5 (de) | 2015-07-30 |
WO2014105010A1 (en) | 2014-07-03 |
CN104781803B (zh) | 2018-06-15 |
US20140181830A1 (en) | 2014-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104781803A (zh) | 用于架构不同核的线程迁移支持 | |
TWI567556B (zh) | 無區域性提示向量記憶體存取之處理器、方法、系統與指令 | |
CN104813277A (zh) | 用于处理器的功率效率的向量掩码驱动时钟门控 | |
US9411583B2 (en) | Vector instruction for presenting complex conjugates of respective complex numbers | |
US9830151B2 (en) | Method and apparatus for vector index load and store | |
CN104756068A (zh) | 合并相邻的聚集/分散操作 | |
CN104838355A (zh) | 用于在多线程计算机系统中提供高性能和公平的机制 | |
US9733935B2 (en) | Super multiply add (super madd) instruction | |
CN104335166A (zh) | 用于执行混洗和操作(混洗-操作)的系统、装置和方法 | |
CN104951401A (zh) | 排序加速处理器、方法、系统和指令 | |
CN104011672A (zh) | 转置指令 | |
CN104049953A (zh) | 用于合并操作掩码的未经掩码元素的处理器、方法、系统和指令 | |
CN104011657A (zh) | 用于向量计算和累计的装置和方法 | |
CN104583958A (zh) | 用于sha256算法的消息调度的指令集 | |
CN104094218A (zh) | 用于执行写掩码寄存器到向量寄存器中的一系列索引值的转换的系统、装置和方法 | |
CN104350492A (zh) | 在大寄存器空间中利用累加的向量乘法 | |
CN104126166A (zh) | 用于执行使用掩码的向量打包一元编码的系统、装置和方法 | |
CN104137060A (zh) | 高速缓存协处理单元 | |
CN104081336A (zh) | 用于检测向量寄存器内的相同元素的装置和方法 | |
CN104137054A (zh) | 用于执行从索引值列表向掩码值的转换的系统、装置和方法 | |
CN104025040A (zh) | 用于混洗浮点或整数值的装置和方法 | |
CN104011673A (zh) | 向量频率压缩指令 | |
CN104011667A (zh) | 用于滑动窗口数据访问的设备和方法 | |
CN104011652A (zh) | 打包选择处理器、方法、系统和指令 | |
CN104137059A (zh) | 多寄存器分散指令 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180615 Termination date: 20191226 |
|
CF01 | Termination of patent right due to non-payment of annual fee |