CN108701088B - 用于延迟低开销同步页表更新的设备和方法 - Google Patents

用于延迟低开销同步页表更新的设备和方法 Download PDF

Info

Publication number
CN108701088B
CN108701088B CN201780014726.2A CN201780014726A CN108701088B CN 108701088 B CN108701088 B CN 108701088B CN 201780014726 A CN201780014726 A CN 201780014726A CN 108701088 B CN108701088 B CN 108701088B
Authority
CN
China
Prior art keywords
pte
tlb
invalidation
instruction
cores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780014726.2A
Other languages
English (en)
Other versions
CN108701088A (zh
Inventor
K.A.多希
C.J.休格斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108701088A publication Critical patent/CN108701088A/zh
Application granted granted Critical
Publication of CN108701088B publication Critical patent/CN108701088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1027Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/62Details of cache specific to multiprocessor cache arrangements
    • G06F2212/621Coherency control relating to peripheral accessing, e.g. from DMA or I/O device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/65Details of virtual memory and virtual address translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/68Details of translation look-aside buffer [TLB]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/68Details of translation look-aside buffer [TLB]
    • G06F2212/682Multiprocessor TLB consistency

Abstract

描述了用于低开销同步页表更新的设备和方法。例如,一个实施例中的处理器包括:一组一个或多个核,其用于执行指令和处理数据;转化后备缓冲器(TLB),包括多个条目,所述转化后备缓冲器用于在执行指令时高速缓存供所述组的一个或多个核可用的虚拟到物理地址转化;锁定电路,其允许线程锁定TLB中的第一页表条目(PTE)以确保一次只能够有一个线程修改第一PTE,其中TLB将在线程获取锁定时修改第一PTE;PTE无效电路,其用于在第一核上执行PTE无效指令,以使其它核的其它TLB中的第一PTE无效,所述PTE无效电路响应于所述PTE无效指令的执行,响应地确定需要被通知所述PTE无效的其它核的其它TLB的数量、将PTE无效消息传送给所述其它TLB,以及等待响应;以及所述锁定电路用于响应于接收来自所有所述其它TLB的响应,释放所述第一PTE上的所述锁定。

Description

用于延迟低开销同步页表更新的设备和方法
技术领域
本发明一般涉及计算机处理器的领域。更具体地说,本发明涉及用于同步、低开销页表更新的方法和设备。
背景技术
1.处理器微架构
指令集或指令集架构(ISA)是与编程有关的计算机架构的一部分,包括原生数据类型、指令、寄存器架结构、寻址模式、存储器架构、中断和异常处置及外部输入和输出(I/O)。应注意的是,术语“指令”在本文中通常指宏指令 - 其是被提供到处理器以便执行的指令 -- 与微指令或微操作相反 - 其是处理器的解码器解码宏指令的结果。微指令或微操作能够配置成指示处理器上的执行单元执行操作以实现与宏指令关联的逻辑。
ISA不同于作为用于实现指令集的一组处理器设计技术的微架构。带有不同微架构的处理器能够共享共用指令集。例如,Intel®®Pentium 4处理器、Intel® CoreTM™处理器和来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced MicroDevices, Inc.)的处理器实现几乎相同版本的x86指令集(其中已采用较新版本来加入了一些扩展),但具有不同内部设计。例如,ISA的相同寄存器架构可使用公知的技术在不同微架构中以不同方式来实现,包括专用物理寄存器、使用寄存器重命名机制(例如,使用寄存器别名表(RAT)、重新排序缓冲器(ROB)和引退寄存器堆)的一个或多个动态分配的物理寄存器。除非另有指定,否则短语寄存器架构(phrasesregister architecture)、寄存器堆和寄存器在本文中用于指对软件/编程器可见的事物以及其中指令指定寄存器的方式。在要求区分的情况下,形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示在寄存器架构中的寄存器/文件,而不同的形容词将用于指定给定微架构中的寄存器(例如,物理寄存器、重新排序缓冲器、隐退寄存器、寄存器池)。
2.TLB一致性
在共享存储器系统中,高速缓存和TLB二者需要保持一致,以便对所有线程提供存储器的相同视图。针对TLB需要维持一致性的主要原因之一是,如果两个不同的CPU针对同一页具有不同的地址转换,则难以保持整体数据状态一致。如果页表条目(PTE)很少改变,保持TLB一致是相对容易得到,就像现在的情况一样。当前系统使用由立即TLB击落(shootdown)支持的延迟PTE再循环的组合,以用于少数情况。TLB击落非常昂贵,但是是当前系统中以同步方式传播PTE改变的唯一方法。预计PTE改变的频率将在不久的将来增加,这使用于传播PTE改变的更高效机制成为必要。附图说明
结合附图,从下面的详细描述中能够获得本发明的更好理解,其中:
图1A和1B是图示了根据本发明的实施例的一般矢量友好指令格式及其指令模板的框图;
图2A-D是图示了根据本发明的实施例的示范性特定矢量友好指令格式的框图;
图3是根据本发明的一个实施例的寄存器架构的框图;以及
图4A是图示了根据本发明的实施例的示范性有序取(fetch)、解码、引退流水线和示范性寄存器重命名、乱序发布/执行流水线两者的框图;
图4B是图示了根据本发明的实施例,要包括在处理器中的有序取、解码、引退核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者的框图;
图5A是单个处理器核及其到管芯上互连网络的连接的框图;
图5B图示了根据本发明的实施例的图5A中处理器核的一部分的扩展图;
图6是根据本发明的实施例的单核处理器和带有集成存储器控制器和图形的多核处理器的框图;
图7图示了根据本发明的一个实施例的系统的框图;
图8图示了根据本发明的实施例的第二系统的框图;
图9图示了根据本发明的实施例的第三系统的框图;
图10图示了根据本发明的实施例的芯片上系统(SoC)的框图;
图11图示了根据本发明的实施例,与软件指令转换器的使用进行对照来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图12图示了根据本发明的一个实施例的架构;
图13图示了根据本发明的一个实施例由起始器(例如核/代理)和一个或多个其它核/代理转化后备缓冲器(TLB)实现的操作;以及
图14图示了利用栅栏操作以确保数据一致性的一个实施例。
具体实施方式
在下面的描述中,出于解释的目的,陈述了许多特定的细节以便提供下面描述的本发明的实施例的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明的实施例。在其它实例中,以框图形式示出已知的结构和装置,以免混淆本发明的实施例的基础原理。
示范性处理器架构和数据类型
指令集包括一个或多个指令格式。给定的指令格式定义各种字段(比特数量、比特位置)以在其它事物中指定要被执行的操作(操作码)和操作数(在其上要执行操作)。一些指令格式通过指令模板(或子格式)的定义被进一步分解。例如,给定的指令格式的指令模板可被定义以具有指令格式的字段的不同子集(包括的字段典型地采用相同顺序,但至少一些具有不同比特位置,因为包括有较少字段)和/或被定义以具有不同地解译的给定字段。因此,ISA的每个指令使用给定的指令格式来表示(并且如果被定义,则采用该指令格式的指令模板中的给定一个)并且包括用于指定操作和操作数的字段。例如,示范性ADD指令具有特定操作码和指令格式,其包括用于指定那个操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地和源2));以及指令流中的该ADD指令的出现将具有选择特定操作数的操作数字段中的特定内容。SIMD扩展的集合(涉及高级矢量扩展(AVX)(AVX1和AVX2)以及使用矢量扩展(VEX)编码方案)已被发布和/或公布(例如见Intel® 64和IA-32架构软件开发者手册(Architectures Software Developers Manual),2011年10月;以及见Intel®高级矢量扩展编程参考(Advanced Vector Extensions Programming Reference),2011年6月)。
示范性指令格式
本文描述的指令的实施例可以采用不同格式实施。此外,示范性系统、架构和流水线在下文被详述。指令的实施例可在这样的系统、架构和流水线上执行,但不限于详述的那些。
A.一般矢量友好指令格式
矢量友好指令格式是适合用于矢量指令的指令格式(例如特定于矢量操作存在某些字段)。虽然描述了实施例,其中通过矢量友好指令格式支持矢量和标量两者操作,但备选实施例仅使用矢量友好格式的矢量操作。
图1A-1B是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其指令模板。图1A是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别A指令模板;而图1B是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别B指令模板。具体地,对于一般矢量友好指令格式100,定义了类别A和类别B指令模板,它们两者包括无存储器访问105指令模板和存储器访问120指令模板。矢量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。
虽然本发明的实施例将被描述,其中矢量友好指令格式支持以下项:带有32比特(4字节)或64比特(8字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小)(并且因此,64字节矢量由16个双字大小元素或备选地8个四字大小元素组成);带有16比特(2字节)或8比特(1字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小);带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的32字节矢量操作数长度(或大小);以及带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的16字节矢量操作数长度(或大小);但备选实施例可支持带有更多、更少、或不同数据元素宽度(例如,128比特(16字节)数据元素宽度)的更多、更少和/或不同矢量操作数大小(例如,256字节矢量操作数)。
图1A中的类别A指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、完整舍入(full round)控制类型操作110指令模板,和无存储器访问、数据变换类型操作115指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板。图1B中的类别B指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、vsize类型操作117指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、写掩码控制127指令模板。
一般矢量友好指令格式100包括图1A-1B中所示出的以下按顺序列出的以下字段。
格式字段140—此字段中的特定值(指令格式标识符值)唯一地标识矢量友好指令格式,并因此标识指令流中矢量友好指令格式中的指令的出现。因而,此字段在它对于仅具有一般矢量友好指令格式的指令集不被需要的意义中是可选的。
基础操作字段142—它的内容分辨出不同的基础操作。
寄存器索引字段144—它的内容直接或通过地址生成来指定源和目的地操作数的位置(它们在寄存器中或在存储器中)。这些包括用于从PxQ(例如32x512、16x128、32x1024、64x1024)寄存器堆选择N个寄存器的比特的足够数量。虽然在一个实施例中N可多至三个源和一个目的地寄存器,但备选实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至两个源,其中这些源之一还充当目的地;可支持多至三个源,其中这些源之一还充当目的地;可支持多至两个源和一个目的地)。
修改符(Modifier)字段146—它的内容分辨出一般矢量指令格式中指定存储器访问的指令与不指定存储器访问的那些指令的出现;那就是说,在无存储器访问105指令模板和存储器访问120指令模板之间进行分辨。存储器访问操作对存储器层级进行读和/或写(在使用寄存器中的值来指定源和/或目的地地址的一些情况中),而非存储器访问操作不进行(例如,源和目的地是寄存器)。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算,但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。
扩增(augmentation)操作字段150—它的内容分辨出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在本发明的一个实施例中,此字段被划分成类别字段168、α字段152、和β字段154。扩增操作字段150允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。
缩放(scale)字段160—它的内容允许用于存储器地址生成(例如,用于使用2缩放*索引+基址的地址生成)的索引字段的内容的缩放。
位移(displacement)字段162A—它的内容作为存储器地址生成(例如,用于使用2缩放*索引+基址+位移的地址生成)的部分被使用。
位移因子字段162B(注意,直接在位移因子字段162B上的位移字段162A的并置指示一个或另一个被使用)—它的内容作为地址生成的部分被使用;它指定要通过存储器访问的大小(N)来缩放的位移因子—其中N是存储器访问中的字节的数量(例如,用于使用2缩放*索引+基址+缩放的位移的地址生成)。冗余低顺序比特被忽略,并且因此,位移因子字段的内容被乘以存储器操作数总大小(N)以便生成要在运算有效地址中被使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段174(本文中较后所描述)和数据操纵字段154C来确定。位移字段162A和位移因子字段162B在它们不被用于无存储器访问105指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。
数据元素宽度字段164—它的内容分辨出多个数据元素宽度的哪一个要被使用(在对于所有指令的一些实施例中;在对于指令的仅一些指令的其它实施例中)。此字段在以下意义上是可选的:如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。
写掩码字段170—它的内容在按数据元素位置的基础上控制目的地矢量操作数中的那个数据元素位置是否反映基础操作和扩增操作的结果。类别A指令模板支持合并写掩蔽,而类别B指令模板支持合并和归零写掩蔽两者。在合并时,矢量掩码允许目的地中的元素的任何集合被保护免于在任何操作(由基础操作和扩增操作所指定的)的执行期间更新;在另外一个实施例中,保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下,在归零时,矢量掩码允许目的地中的元素的任何集合在任何操作(由基础操作和扩增操作所指定的)的执行期间被归零;在一个实施例中,在对应掩码比特具有0值时,目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的矢量长度(那就是说,正被修改的元素的跨度,从第一个到最后一个)的能力;然而,被修改的元素不必要是连续的。因此,写掩码字段170允许部分矢量操作,包括加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述,其中写掩码字段170的内容选择含有要被使用的写掩码的多个写掩码寄存器之一(并且因此写掩码字段170的内容间接标识要被执行的掩蔽),但备选实施例转而或附加允许掩码写字段170的内容直接指定要被执行的掩蔽。
立即数字段172—它的内容允许立即数的规格。此字段在它在不支持立即数的一般矢量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。
类别字段168—它的内容在指令的不同类别之间进行分辨。参考图1A-B,此字段的内容在类别A和类别B指令之间选择。在图1A-B中,圆角方形被用于指示在字段中呈现的特定值(例如,在图1A-B中相应对于类别字段168的类别A 168A和类别B 168B)。
类别A的指令模板
在类别A的非存储器访问105指令模板的情况中,α字段152被解译为RS字段152A,其内容分辨出不同扩增操作类型的哪一个要被执行(例如,舍入152A.1和数据变换152A.2对于无存储器访问、舍入类型操作110,和无存储器访问、数据变换类型操作115指令模板被相应指定),而β字段154分辨出所指定的类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
无存储器访问指令模板—完整舍入控制类型操作
在无存储器访问完整舍入控制类型操作110指令模板中,β字段154被解译为舍入控制字段154A,其内容提供静态舍入。虽然在本发明的所描述的实施例中,舍入控制字段154A包括所有浮点异常(SAE)字段156和舍入操作控制字段158的抑制,但备选实施例可支持可将这些概念两者编码成相同字段,或仅具有这些概念/字段的一个或另一个(例如,可具有仅舍入操作控制字段158)。
SAE字段156—它的内容分辨出是否禁用异常事件报告;在SAE字段156的内容指示抑制被启用时,给定的指令不报告任何种类的浮点异常标记且不唤起(raise)任何浮点异常处置器。
舍入操作控制字段158—它的内容分辨出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段158允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
无存储器访问指令模板—数据变换类型操作
在无存储器访问数据变换类型操作115指令模板中,β字段154被解译为数据变换字段154B,其内容分辨出多个数据变换的哪一个要被执行(例如,无数据变换、打乱(swizzle)、广播)。
在类别A的存储器访问120指令模板的情况中,α字段152被解译为驱逐提示字段152B,其内容分辨出驱逐提示的哪一个要被使用(在图1A中,暂时152B.1和非暂时152B.2对于存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板被相应指定),而β字段154被解译为数据操纵字段154C,其内容分辨出多个数据操纵操作(还已知为原语(primitive))的哪一个要被执行(例如,无操纵;广播;源的上转换;以及目的地的下转换)。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。
矢量存储器指令通过转换支持来执行自存储器的矢量加载和往存储器的矢量存储。如通过常规矢量指令,矢量存储器指令以数据元素式的方式将数据转移自/往存储器,实际上被转移的元素由作为写掩码被选择的矢量掩码的内容来指示。
存储器访问指令模板—暂时
暂时数据是这样的数据,其有可能被足够快地再使用以受益于进行高速缓冲存储器。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。
存储器访问指令模板—非暂时
非暂时数据是这样的数据,其不太可能被足够快地再使用以受益于在第1级高速缓冲存储器中进行高速缓冲存储器并应被给定用于驱逐的优先权。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。
类别B的指令模板
在类别B的指令模板的情况中,α字段152被解译为写掩码控制(Z)字段152C,其内容分辨出由写掩码字段170所控制的写掩蔽应是合并还是归零。
在类别B的非存储器访问105指令模板的情况中,β字段154的部分被解译为RL字段157A,其内容分辨出不同扩增操作类型的哪一个要被执行(例如,舍入157A.1和矢量长度(VSIZE)157A.2对于无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、VSIZE类型操作117指令模板被相应指定),而β字段154的剩余部分分辨出指定类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162A、和位移缩放字段162B不存在。
在无存储器访问、写掩码控制、部分舍入控制类型操作110指令模板中,β字段154的剩余部分被解译为舍入操作字段159A,并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标记且不唤起任何浮点异常处置器)。
舍入操作控制字段159A—正如舍入操作控制字段158,它的内容分辨出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段159A允许在按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。
在无存储器访问、写掩码控制、VSIZE类型操作117指令模板中,β字段的剩余部分154被解译为矢量长度字段159B,其内容分辨出多个数据矢量长度的哪一个要被执行(例如,128、256、或512字节)。
在类别B的存储器访问120指令模板的情况中,β字段154的部分被解译为广播字段157B,其内容分辨出广播类型数据操纵操作是否要被执行,而β字段154的剩余部分被解译为矢量长度字段159B。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162A或位移缩放字段162B。
关于一般矢量友好指令格式100,完整操作码字段174被示出,包括格式字段140、基础操作字段142、和数据元素宽度字段164。虽然一个实施例被示出,其中完整操作码字段174包括所有这些字段,但在不支持所有这些字段的实施例中,完整操作码字段174包括少于所有这些字段。完整操作码字段174提供操作代码(操作码)。
扩增操作字段150、数据元素宽度字段164、和写掩码字段170允许这些特征在一般矢量友好指令格式中在按指令的基础上被指定。
写掩码字段和数据元素宽度字段的组合创建分类的(typed)指令,因为它们允许掩码基于不同数据元素宽度而被应用。
在类别A和类别B内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅类别A、仅类别B、或两个类别。例如,打算用于通用计算的高性能通用乱序核可支持仅类别B,打算主要用于图形和/或科学(吞吐量)计算的核可支持仅类别A,以及打算用于两者的核可支持两个类别(当然,具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内)。同样,单个处理器可包括多个核,其的所有支持相同类别或其中不同核支持不同类别。例如,在带有单独的图形和通用核的处理器中,打算主要用于图形和/或科学计算的图形核之一可支持仅类别A,而通用核的一个或多个通用核可以是支持仅类别B的打算用于通用计算的带有乱序运行和寄存器重命名的高性能通用核。不具有单独的图形核的另一个处理器可包括支持类别A和类别B两者的更多一个通用有序或乱序核。当然,来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被翻译(例如,准时编译或静态编译)成多种不同可运行的形式,包括:1)具有用于运行的由目标处理器所支持的类别的仅指令的形式;或2)具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器(其当前正运行代码)所支持的指令来运行的控制流程代码(control flow code)的形式。
B.示范性特定矢量友好指令格式
图2是框图,其示出根据本发明的实施例的示范性特定矢量友好指令格式。图2示出特定矢量友好指令格式200,其在它指定位置、大小、解译、和字段的顺序、以及那些字段的一些字段的值的意义中是特定的。特定矢量友好指令格式200可被用于扩展x86指令集,并且因此字段的一些字段与现存x86指令集和其扩展(例如,AVX)中所使用的那些字段类似或相同。此格式与带有扩展的现存x86指令集的前缀编码字段、真操作码字节字段、MOD R/M字段、SIB字段、位移字段,和立即数字段保持一致。来自图2的字段所映射到其中的来自图1的字段被示出。
应被理解的是,尽管本发明的实施例为了说明性目的而参考一般矢量友好指令格式100的上下文中的特定矢量友好指令格式200来描述,但除非在声明之处,本发明不限于特定矢量友好指令格式200。例如,一般矢量友好指令格式100对于各种字段设想多种可能大小,而特定矢量友好指令格式200被示出为具有特定大小的字段。通过特定示例的方式,虽然数据元素宽度字段164被示出为特定矢量友好指令格式200中的一个比特字段,但本发明不被如此限制(那就是说,一般矢量友好指令格式100设想数据元素宽度字段164的其它大小)。
一般矢量友好指令格式100包括图2A中所示出的以下按顺序列出的以下字段。
EVEX前缀(字节0-3)202-以四字节形式来编码。
格式字段140(EVEX字节0,比特[7:0])-第一字节(EVEX字节0)是格式字段140,并且它含有0x62(被用于分辨出本发明的一个实施例中的矢量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供特定能力的多个比特字段。
REX字段205(EVEX字节1,比特[7-5])—由以下项组成:EVEX.R比特字段(EVEX字节1,比特[7]—R)、EVEX.X比特字段(EVEX字节1,比特[6]—X)、和157BEX字节1、比特[5]—B)。EVEX.R、EVEX.X、和EVEX.B比特字段提供与对应VEX比特字段相同的功能性,并使用1s补码形式来编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特(rrr、xxx、和bbb),使得Rrrr、Xxxx、和Bbbb可通过添加EVEX.R、EVEX.X、和EVEX.B来形成。
REX'字段210—这是REX'字段210的第一部分并且是被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.R'比特字段(EVEX字节1,比特[4]-R')。在本发明的一个实施例中,这个比特连同如以下所指示的其它比特以比特倒置的格式被存储以(在公知的x8632-比特模式中)分辨出BOUND指令,其真操作码字节是62,但在MOD R/M字段(以下所描述的)中不接受MOD字段中的11的值;本发明的备选实施例不以倒置的格式来存储这个比特和以下所指示的另一个比特。1的值被用于编码较低16个寄存器。换句话说,R'Rrrr通过组合EVEX.R'、EVEX.R、和来自其它字段的另一个RRR来形成。
操作码映射字段215(EVEX字节1,比特[3:0]—mmmm)—它的内容编码所暗示的前导操作码字节(0F,0F 38,或0F 3)。
数据元素宽度字段164(EVEX字节2,比特[7]—W)-由符号EVEX.W来表示。EVEX.W被用于定义数据类型的粒度(大小)(32比特数据元素或64比特数据元素)。
EVEX.vvvv 220(EVEX字节2,比特[6:3]-vvvv)-EVEX.vvvv的角色可包括以下项:1)EVEX.vvvv编码以倒置(1s补码)的形式所指定的第一源寄存器操作数,并对于带有2个或更多源操作数的指令有效;2)EVEX.vvvv编码对于某些矢量移位以1s补码形式所指定的目的地寄存器操作数;或者3)EVEX.vvvv不编码任何操作数,字段被保留并应含有1111b。因此,EVEX.vvvv字段220编码以倒置(1s补码)的形式所存储的第一源寄存器指定符(specifier)的4个低顺序比特。取决于指令,额外不同EVEX比特字段被用于将指定符大小扩展到32个寄存器。
EVEX.U 168类别字段(EVEX字节2,比特[2]-U)—如果EVEX.U=0,则它指示类别A或EVEX.U0;如果EVEX.U=1,则它指示类别B或EVEX.U1。
前缀编码字段225(EVEX字节2,比特[1:0]-pp)—为基础操作字段提供附加比特。除了为EVEX前缀格式中的遗留SSE指令提供支持以外,这还具有紧致SIMD前缀的益处(而不是要求字节以表示SIMD前缀,EVEX前缀要求仅2比特)。在一个实施例中,为了支持在遗留格式中和在EVEX前缀格式中两者都使用SIMD前缀(66H,F2H,F3H)的遗留SSE指令,这些遗留SIMD前缀被编码到SIMD前缀编码字段中;并在运行时间在被提供给解码器的PLA之前被扩展到遗留SIMD前缀中(所以PLA能运行这些遗留指令的遗留和EVEX格式两者而不用修改)。尽管较新的指令能直接将EVEX前缀编码字段的内容用作操作码扩展,某些实施例为了一致性以类似方式来扩展但允许要由这些遗留SIMD前缀来指定的不同含意。备选实施例可将PLA重新设计成支持2比特SIMD前缀编码,并因此不要求扩展。
α字段152(EVEX字节3,比特[7]—EH;还已知为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、和EVEX.N;还通过α来示出)—如之前所描述的,此字段是上下文特定的。
β字段154(EVEX字节3,比特[6:4]-SSS,还已知为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;还通过βββ来示出)—如之前所描述的,此字段是上下文特定的。
REX'字段110—这是REX'字段的其余部分并且是可被用于编码扩展的32寄存器集合的较上16或较低16的EVEX.V'比特字段(EVEX字节3,比特[3]-V')。此比特以比特倒置的格式来存储。1的值被用于编码较低16个寄存器。换句话说,V'VVVV通过组合EVEX.V'、EVEX.vvvv来形成。
写掩码字段170(EVEX字节3,比特[2:0]-kkk)—它的内容指定如之前所描述的写掩码寄存器中寄存器的索引。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码被用于具体指令的特别行为(这可以以包括使用硬连线到所有寄存器的写掩码或绕过掩蔽硬件的硬件的多种方式来实现)。
真操作码字段230(字节4)还已知为操作码字节。操作码的部分在此字段中被指定。
MOD R/M字段240(字节5)包括MOD字段242、Reg字段244、和R/M字段246。如之前所描述的,MOD字段242的内容在存储器访问和非存储器访问操作之间进行分辨。Reg字段244的角色能被概括成两种情境:编码目的地寄存器操作数或源寄存器操作数,或作为操作码扩展被对待并不被用于编码任何指令操作数。R/M字段246的角色可包括以下项:编码引用存储器地址的指令操作数,或者编码目的地寄存器操作数或源寄存器操作数。
缩放、索引、基址(SIB)字节(字节6)—如之前所描述的,缩放字段250的内容被用于存储器地址生成。SIB.xxx 254和SIB.bbb 256—这些字段的内容之前已关于寄存器索引Xxxx和Bbbb被提到。
位移字段162A(字节7-10)—在MOD字段242含有10时,字节7-10是位移字段162A,并且它与遗留32比特位移(disp32)相同地工作并在字节粒度工作。
位移因子字段162B(字节7)—在MOD字段242含有01时,字节7是位移因子字段162B。此字段的位置与遗留x86指令集8比特位移(disp8)的位置相同,其在字节粒度工作。由于disp8是扩展的记号,它能仅定址于-128和127字节偏移之间;在64字节高速缓冲存储器行方面,disp8使用能被设置成仅四个真正有用的值-128、-64、0、和64的8比特;由于更大的范围常常被需要,disp32被使用;然而,disp32要求4字节。与disp8和disp32对照,位移因子字段162B是disp8的重新解译;在使用位移因子字段162B时,实际位移由乘以存储器操作数访问的大小(N)的位移因子字段的内容来确定。此类型的位移被称为disp8*N。这减少平均指令长度(用于位移但带有大得多的范围的单个字节)。此类压缩的位移基于有效位移是存储器访问的粒度的倍数并且因此地址偏移的冗余低顺序比特不需要被编码的假定。换句话说,位移因子字段162B替代遗留x86指令集8比特位移。因此,位移因子字段162B以与x86指令集8比特位移相同的方式来编码(所以在ModRM/SIB编码规则中没有改变),带有disp8被过载到disp8*N的仅有例外。换句话说,在编码规则或编码长度中不存在改变,仅除了在通过硬件的位移值的解译中之外(其需要通过存储器操作数的大小来缩放位移以获得字节式地址偏移)。
立即数字段172如之前所描述地操作。
完整操作码字段
图2B是框图,其示出根据本发明的一个实施例的构成完整操作码字段174的特定矢量友好指令格式200的字段。具体地,完整操作码字段174包括格式字段140、基础操作字段142、和数据元素宽度(W)字段164。基础操作字段142包括前缀编码字段225、操作码映射字段215、和真操作码字段230。
寄存器索引字段
图2C是框图,其示出根据本发明的一个实施例的构成寄存器索引字段144的特定矢量友好指令格式200的字段。具体地,寄存器索引字段144包括REX字段205、REX'字段210、MODR/M.reg字段244、MODR/M.r/m字段246、VVVV字段220、xxx字段254、和bbb字段256。
扩增操作字段
图2D是框图,其示出根据本发明的一个实施例的构成扩增操作字段150的特定矢量友好指令格式200的字段。在类别(U)字段168含有0时,它象征EVEX.U0(类别A 168A);在它含有1时,它象征EVEX.U1(类别B 168B)。在U=0并且MOD字段242含有11(象征无存储器访问操作)时,α字段152(EVEX字节3,比特[7]—EH)被解译为rs字段152A。在rs字段152A含有1(舍入152A.1)时,β字段154(EVEX字节3,比特[6:4]-SSS)被解译为舍入控制字段154A。舍入控制字段154A包括一比特SAE字段156和两比特舍入操作字段158。在rs字段152A含有0(数据变换152A.2)时,β字段154(EVEX字节3,比特[6:4]-SSS)被解译为三比特数据变换字段154B。在U=0并且MOD字段242含有00、01、或10(象征存储器访问操作)时,α字段152(EVEX字节3,比特[7]—EH)被解译为驱逐提示(EH)字段152B并且β字段154(EVEX字节3,比特[6:4]-SSS)被解译为三比特数据操纵字段154C。
在U=1时,α字段152(EVEX字节3,比特[7]—EH)被解译为写掩码控制(Z)字段152C。在U=1并且MOD字段242含有11(象征无存储器访问操作)时,β字段154的部分(EVEX字节3,比特[4]-S0)被解译为RL字段157A;在它含有1(舍入157A.1)时,β字段154的剩余部分(EVEX字节3,比特[6-5]-S2-1)被解译为舍入操作字段159A,而在RL字段157A含有0(VSIZE 157.A2)时,β字段154的剩余部分(EVEX字节3,比特[6-5]-S2-1)被解译为矢量长度字段159B(EVEX字节3,比特[6-5]-L1-0)。在U=1并且MOD字段242含有00、01、或10(象征存储器访问操作)时,β字段154(EVEX字节3,比特[6:4]-SSS)被解译为矢量长度字段159B(EVEX字节3,比特[6-5]-L1-0)和广播字段157B(EVEX字节3,比特[4]-B)。
C.示范性寄存器架构
图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中,存在512比特宽的32个矢量寄存器310;这些寄存器被引用为zmm0直到zmm31。较低的16个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-16上。较低的16个zmm寄存器的较低顺序128比特(ymm寄存器的较低顺序128比特)被覆载在寄存器xmm0-15上。特定矢量友好指令格式200在如以下表中所示出的这些覆载寄存器堆上操作。
换句话说,矢量长度字段159B在最大长度和一个或多个其它更短长度之间选择,其中每个此类更短长度是前述长度的一半长度;并且不带有矢量长度字段159B的指令模板在最大矢量长度上操作。进一步地,在一个实施例中,特定矢量友好指令格式200的类别B指令模板在打包的或标量的单/双精度浮点数据和打包的或标量的整数数据上操作。标量的操作是在zmm/ymm/xmm寄存器中最低顺序数据元素位置上执行的操作;更高顺序数据元素位置取决于实施例保持与它们在该指令之前一样或被归零。
写掩码寄存器315-在所示出的实施例中,存在8个写掩码寄存器(k0直到k7),每个的大小是64比特。在备选实施例中,写掩码寄存器315的大小是16比特。如之前所描述的,在本发明的一个实施例中,矢量掩码寄存器k0不能作为写掩码被使用;在将通常指示k0的编码被用于写掩码时,它选择0xFFFF的硬连线写掩码,对于那个指令有效地禁用写掩蔽。
通用寄存器325-在所示出的实施例中,存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64-比特通用寄存器。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP、和R8直到R15来引用。
标量浮点栈寄存器堆(x87栈)345,在其上MMX打包整数平寄存器堆350被别名化-在所示出的实施例中,x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈;而MMX寄存器被用于在64-比特打包整数数据上执行操作,还被用于为在MMX和XMM寄存器之间所执行的一些操作来保存操作数。
本发明的备选实施例可使用更宽或更窄的寄存器。另外,本发明的备选实施例可使用更多、更少、或不同寄存器堆和寄存器。
D.示范性核架构、处理器、和计算机架构
处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如,此类核的实现可包括:1)打算用于通用计算的通用有序核;2)打算用于通用计算的高性能通用乱序核;3)打算主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)包括打算用于通用计算的一个或多个通用有序核和/或打算用于通用计算的一个或多个通用乱序核的CPU;以及2)包括打算主要用于图形和/或科学(吞吐量)的一个或多个专用核的协同处理器。此类不同处理器导致不同计算机系统架构,其可包括:1)在与所述CPU单独的芯片上的协同处理器; 2)在与CPU相同的封装中单独管芯上的协同处理器;3)在与CPU相同的管芯上的协同处理器(在该情况中,此类协同处理器有时被称为专用逻辑,诸如集成的图形和/或科学(吞吐量)逻辑,或被称为专用核);以及4)在可在相同管芯上包括所描述的CPU(有时被称为应用核或应用处理器)、以上所描述的协同处理器、和附加功能性的芯片上系统。示范性核架构接下来被描述,继之以示范性处理器和计算机架构的描述。
图4A是框图,其示出根据本发明的实施例的示范性有序流水线和示范性寄存器重命名、乱序发布/运行流水线两者。图4B是框图,其示出根据本发明的实施例的要被包括在处理器中的有序架构核的示范性实施例和示范性寄存器重命名、乱序发布/运行架构核两者。图4A-B中的实线框示出有序流水线和有序核,而虚线框的可选附加示出寄存器重命名、乱序发布/运行流水线和核。给定有序方面是乱序方面的子集,乱序方面将被描述。
在图4A中,处理器流水线400包括取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(还已知为分派或发布)阶段412、寄存器读/存储器读阶段414、运行阶段416、写回/存储器写阶段418、异常处置阶段422、和提交阶段424。
图4B示出处理器核490,其包括耦合到运行引擎单元450的前端单元430,并且两者被耦合到存储器单元470。核490可以是简化指令集计算(RISC)核、复杂指令集计算(CISC)核、非常长指令字(VLIW)核、或混合或备选核类型。如仍有的另一个选项,核490可以是专用核,诸如例如网络或通信核、压缩引擎、协同处理器核、通用计算图形处理单元(GPGPU)核、图形核等等。
前端单元430包括耦合到指令高速缓冲存储器单元434的分支预测单元432,所述指令高速缓冲存储器单元434被耦合到指令翻译旁视(lookaside)缓冲器(TLB)436,其被耦合到指令取单元438,指令取单元438被耦合到解码单元440。解码单元440(或解码器)可解码指令,并生成为输出一个或多个微操作、微代码条目点、微指令、其它指令、或其它控制信号,其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制,解码单元440可被实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)、等等。在一个实施例中,核490包括存储用于某些宏指令的微代码的微代码ROM或另一介质(例如,在解码单元440中或以别的方式在前端单元430内)。解码单元440被耦合到运行引擎单元450中的重命名/分配器单元452。
运行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456代表任何数量的不同调度器,包括保留站、中央指令窗口、等等。调度器单元456被耦合到物理寄存器堆单元458。物理寄存器堆单元458中的每个代表一个或多个物理寄存器堆,其不同物理寄存器堆存储一个或多个不同数据类型,诸如标量整数、标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点、状态(例如,是要被运行的下一个指令的地址的指令指针)、等等。在一个实施例中,物理寄存器堆单元458包括矢量寄存器单元、写掩码寄存器单元、和标量寄存器单元。这些寄存器单元可提供架构上的矢量寄存器、矢量掩码寄存器、和通用寄存器。物理寄存器堆单元458通过引退单元454来重叠以示出其中寄存器重命名和乱序运行可被实现的各种方式(例如,使用重排序缓冲器和引退寄存器堆;使用未来堆、历史缓冲器、和引退寄存器堆;使用寄存器映射和寄存器的池;等等)。引退单元454和物理寄存器堆单元458被耦合到运行集群460。运行集群460包括一个或多个运行单元462的集合和一个或多个存储器访问单元464的集合。运行单元462可执行各种操作(例如,移位、加法、减法、乘法)以及在各种类型的数据(例如,标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点)上执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个运行单元,其它实施例可包括都执行所有功能的多个运行单元或仅一个运行单元。调度器单元456、物理寄存器堆单元458、和运行集群460被示出为可能是复数的,因为某些实施例对于某些类型的数据/操作来创建单独流水线(例如,标量整数流水线、标量浮点/打包的整数/打包的浮点/矢量整数/矢量浮点流水线、和/或存储器访问流水线,其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或运行集群—并且在单独的存储器访问流水线的情况中,其中此流水线的仅运行集群具有存储器访问单元464的某些实施例被实现)。还应被理解的是,在单独流水线被使用之处,这些流水线的一个或多个流水线可以是乱序发布/运行,并且剩余的是有序。
存储器访问单元464的集合被耦合到存储器单元470,存储器单元470包括耦合到数据高速缓冲存储器单元474的数据TLB单元472,数据高速缓冲存储器单元474耦合到2级(L2)高速缓冲存储器单元476。在一个示范性实施例中,存储器访问单元464可包括加载单元、存储地址单元、和存储数据单元,其的每个被耦合到存储器单元470中的数据TLB单元472。指令高速缓冲存储器单元434被进一步耦合到存储器单元470中的2级(L2)高速缓冲存储器单元476。L2高速缓冲存储器单元476被耦合到一个或多个其它级别的高速缓冲存储器并最终到主存储器。
通过示例的方式,示范性寄存器重命名、乱序发布/运行核架构可实现如下流水线400:1)指令取438执行取及长度解码阶段402和404;2)解码单元440执行解码阶段406;3)重命名/分配器单元452执行分配阶段408和重命名阶段410;4)调度器单元456执行调度阶段412;5)物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414;运行集群460执行运行阶段416;6)存储器单元470和物理寄存器堆单元458执行写回/存储器写阶段418;7)各种单元可在异常处置阶段422中被涉及;以及8)引退单元454和物理寄存器堆单元458执行提交阶段424。
核490可支持一个或多个指令集(例如,x86指令集(带有已随较新版本被添加的一些扩展);MIPS Technologies of Sunnyvale,CA的MIPS指令集;ARM Holdings ofSunnyvale,CA的ARM指令集(带有诸如NEON的可选附加扩展)),包括本文中所描述的指令。在一个实施例中,核490包括用于支持打包数据指令集扩展(例如,AVX1、AVX2)的逻辑,因此允许由许多多媒体应用来使用的操作使用打包的数据来执行。
应被理解的是,核可支持多线程(运行操作或线程的两个或更多并行集合),并可以多种方式来如此做,所述多种方式包括时间分段的多线程、同时多线程(在单个物理核为线程的每个提供逻辑核的情况中,那个物理核正进行同时多线程),或其组合(例如,诸如在Intel®超线程技术中的时间分段的取和解码以及其后的同时多线程)。
虽然寄存器重命名在乱序运行的上下文中被描述,但应理解的是,寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包括单独的指令和数据高速缓冲存储器单元434/474以及共享的L2高速缓冲存储器单元476,但备选实施例可具有用于指令和数据两者的单个内部高速缓冲存储器,诸如例如,1级(L1)内部高速缓冲存储器、或多个级别的内部高速缓冲存储器。在一些实施例中,系统可包括内部高速缓冲存储器及外部于核和/或处理器的外部高速缓冲存储器的组合。备选地,所有高速缓冲存储器可外部于核和/或处理器。
图5A-B示出核将是芯片中若干逻辑块之一(包括相同类型和/或不同类型的其它核)的更特定示范性有序核架构的框图。逻辑块通过高带宽互连网络(例如,环网络)取决于应用而通信于一些固定的功能逻辑、存储器I/O接口、和另一必要I/O逻辑。
图5A是根据本发明的实施例的单个处理器核连同到管芯上互连网络502的它的连接并连同2级(L2)高速缓冲存储器504的它的本地子集的框图。在一个实施例中,指令解码器500支持带有打包的数据指令集扩展的x86指令集。L1高速缓冲存储器506允许低等待时间访问以将存储器高速缓冲存储器到标量和矢量单元中。虽然在一个实施例中(为简化设计),标量单元508和矢量单元510使用单独的寄存器集合(相应地,是标量寄存器512和矢量寄存器514),并且在它们之间所转移的数据被写到存储器并然后从1级(L1)高速缓冲存储器506读回,但本发明的备选实施例可使用不同手段(例如,使用单个寄存器集合或包括允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径)。
L2高速缓冲存储器504的本地子集是全局L2高速缓冲存储器的部分,所述全局L2高速缓冲存储器被划分成单独的本地子集,每处理器核一个。每个处理器核具有到L2高速缓冲存储器504的它自己的本地子集的直接访问路径。由处理器核所读的数据被存储在其L2高速缓冲存储器子集504中并能被快速地访问,并行于其它处理器核访问它们自己的本地L2高速缓冲存储器子集。由处理器核所写的数据被存储在其自己的L2高速缓冲存储器子集504中并且如果必要则从其它子集中转储清除。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、L2高速缓冲存储器、和其它逻辑块的代理在芯片内互相通信。每个环数据-路径每方向是1012-比特宽。
图5B是根据本发明的实施例的图5A中的处理器核的部分的扩展的视图。图5B包括L1高速缓冲存储器504的L1数据高速缓冲存储器506A部分,以及关于矢量单元510和矢量寄存器514的更多细节。具体地,矢量单元510是16宽矢量处理单元(VPU)(见16宽ALU 528),其运行整数、单精度浮动、和双精度浮动指令的一个或多个。VPU支持在存储器输入上通过打乱单元520来打乱寄存器输入、通过数值转换单元522A-B来进行数值转换、以及通过复制单元524来进行复制。写掩码寄存器526允许预测结果的矢量写。
图6是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器600的框图。图6中的实线框示出带有单个核602A、系统代理610、一个或多个总线控制器单元616的集合的处理器600,而虚线框的可选附加示出带有多个核602A-N、系统代理单元610中的一个或多个集成存储器控制器单元614的集合、和专用逻辑608的备选处理器600。
因此,处理器600的不同实现可包括:1)CPU,带有是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)的专用逻辑608、以及是一个或多个通用核(例如,通用有序核、通用乱序核、所述两个核的组合)的核602A-N;2)带有是打算主要用于图形和/或科学(吞吐量)的大量的专用核的核602A-N的协同处理器;以及3)带有是大量的通用有序核的核602A-N的协同处理器。因此,处理器600可以是通用处理器、协同处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量许多集成核(MIC)协同处理器(包括30或更多核)、嵌入式处理器等等。处理器可被实现在一个或多个芯片上。使用多个处理技术的任何个(诸如例如,BiCMOS、CMOS、或NMOS),处理器600可被实现在一个或多个衬底上和/或是其部分。
存储器层级包括核内高速缓冲存储器的一个或多个级别、共享的高速缓冲存储器单元606的集合或一个或多个、和耦合到集成存储器控制器单元614的集合的外部存储器(未示出)。共享的高速缓冲存储器单元606的集合可包括一个或多个中级别高速缓冲存储器,诸如2级(L2)、3级(L3)、4级(L4)、或其它级别的高速缓冲存储器、最后级别高速缓冲存储器(LLC)、和/或其组合。虽然在一个实施例中,基于环的互连单元612将集成图形逻辑608、共享的高速缓冲存储器单元606的集合、以及系统代理单元610/集成存储器控制器单元614互连,但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中,一个或多个高速缓冲存储器单元606和核602-A-N之间的一致性被维持。
在一些实施例中,核602A-N的一个或多个核有多线程的能力。系统代理610包括协调和操作核602A-N的那些组件。系统代理单元610可包括例如功率控制单元(PCU)和显示器单元。PCU可以是或包括为调节集成图形逻辑608和核602A-N的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或多个外部连接的显示器。
核602A-N可关于架构指令集是同质或异质的;那就是说,核602A-N的两个或更多核可有运行相同指令集的能力,而其它的核可有运行不同指令集或那个指令集的仅子集的能力。
图7-10是示范性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型PC、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其它电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说,能够合并如本文中所公开的处理器和/或其它运行逻辑的极多种的系统或电子装置一般是适合的。
现在参考图7,所示出的是根据本发明的一个实施例的系统700的框图。系统700可包括被耦合到控制器集线器720的一个或多个处理器710、715。在一个实施例中,控制器集线器720包括图形存储器控制器集线器(GMCH)790和输入/输出集线器(IOH)750(其可在单独的芯片上);GMCH 790包括存储器740和协同处理器745被耦合到的存储器和图形控制器;IOH 750将输入/输出(I/O)装置760耦合到GMCH 790。备选地,存储器和图形控制器之一或两者被集成在处理器(如本文中所描述的)内,存储器740和协同处理器745被直接耦合到处理器710、和带有IOH 750的单个芯片中的控制器集线器720。
附加处理器715的可选性质在图7中用断线来指代。每个处理器710、715可包括本文中所描述的处理核中的一个或多个,并可以是处理器600的某版本。
存储器740可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)、或所述两个存储器的组合。对于至少一个实施例,控制器集线器720经由诸如前侧总线(FSB)的多点总线、诸如快速路径互连(QPI)的点对点接口、或类似连接795来与处理器710、715通信。
在一个实施例中,协同处理器745是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中,控制器集线器720可包括集成图形加速器。
物理资源710、715之间关于包括架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。
在一个实施例中,处理器710运行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协同处理器指令。处理器710将这些协同处理器指令辨认为是应由附连的协同处理器745来运行的类型。因此,处理器710在协同处理器总线或其它互连上将这些协同处理器指令(或代表协同处理器指令的控制信号)发布到协同处理器745。协同处理器745接受并运行所接收的协同处理器指令。
现在参考图8,所示出的是根据本发明的实施例的第一更特定示范性系统800的框图。如图8中所示出的,多处理器系统800是点对点互连系统,并包括经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880中的每个可以是处理器600的某版本。在本发明的一个实施例中,处理器870和880相应是处理器710和715,而协同处理器838是协同处理器745。在另一个实施例中,处理器870和880相应是处理器710、协同处理器745。
处理器870和880被示出相应包括集成存储器控制器(IMC)单元872和882。处理器870还包括作为它的总线控制器单元的部分的点对点(P-P)接口876和878;类似地,第二处理器880包括P-P接口886和888。使用P-P接口电路878、888,处理器870、880可经由点对点(P-P)接口850来互换信息。如图8中所示出的,IMC 872和882将处理器耦合到相应存储器(就是存储器832和存储器834),其可以是本地附连到相应处理器的主存储器的部分。
使用点对点接口电路876、894、886、898,处理器870、880可各自经由各个P-P接口852、854与芯片集890互换信息。芯片集890可以可选地经由高性能接口839与协同处理器838互换信息。在一个实施例中,协同处理器838是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等
共享的高速缓冲存储器(未示出)可被包括在任一处理器中或在两个处理器之外,又经由P-P互连与处理器连接,使得如果处理器被置于低功率模式中,则任一或两个处理器的本地高速缓冲存储器信息可被存储在共享的高速缓冲存储器中。
芯片集890可经由接口896来耦合到第一总线816。在一个实施例中,第一总线816可以是外围组件互连(PCI)总线、或诸如PCI高速总线或另一个第三代I/O互连总线的总线,尽管本发明的范畴未被如此限制。
如图8中所示出的,各种I/O装置814可连同总线桥818被耦合到第一总线816,总线桥818将第一总线816耦合到第二总线820。在一个实施例中,诸如协同处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或任何其它处理器的一个或多个附加处理器815被耦合到第一总线816。在一个实施例中,第二总线820可以是低管脚计数(LPC)总线。各种装置可被耦合到第二总线820,包括例如键盘和/或鼠标822、通信装置827和诸如硬盘驱动器或其它大容量存储装置的存储单元828,其可包括指令/代码和数据830(在一个实施例中)。进一步地,音频I/O 824可被耦合到第二总线820。注意,其它架构是可能的。例如,替代图8的点对点架构,系统可实现多点总线或另一此类架构。
现在参考图9,所示出的是根据本发明的实施例的第二更特定示范性系统900的框图。图8和9中的相似元件标有相似附图标记,并且图8的某些方面已从图9中被省略以便避免使图9的其它方面难以理解。
图9示出了处理器870、880可相应包括集成存储器以及I/O控制逻辑(“CL”)872和882。因此,CL 872、882包括集成存储器控制器单元并包括I/O控制逻辑。图9示出了不仅存储器832、834被耦合到CL 872、882,而且I/O装置914也被耦合到控制逻辑872、882。遗留I/O装置915被耦合到芯片集890。
现在参考图10,所示出的是根据本发明的实施例的SoC 1000的框图。图6中的类似元件标有相似附图标记。同样,虚线框在更高级的SoC上是可选特征。在图10中,互连单元1002被耦合到:应用处理器1010,其包括一个或多个核202A-N的集合和共享的高速缓冲存储器单元606;系统代理单元610;总线控制器单元616;集成存储器控制器单元614;协同处理器1020的集合或一个或多个,其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器;静态随机存取存储器(SRAM)单元1030;直接存储器访问(DMA)单元1032;以及用于耦合到一个或多个外部显示器的显示器单元1040。在一个实施例中,协同处理器1020包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。
本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上运行的程序代码或计算机程序,所述可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置、和至少一个输出装置。
诸如图8中所示出的代码830的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或多个输出装置。为了此应用的目的,处理系统包括具有处理器(诸如例如:数字信号处理器(DSP)、微控制器、应用特定集成电路(ASIC)、或微处理器)的任何系统。
程序代码可被实现在高等级规程上(procedural)或面向对象的编程语言中以与处理系统通信。如果期望的话,则程序代码可还被实现在汇编或机器语言中。事实上,本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中,语言可以是编译或解译的语言。
至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性指令来实现,所述代表性指令表示处理器内的各种逻辑,其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示(已知为“IP核”)可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。
此类机器可读存储介质可包括由机器或装置所制造或形成的物品(article)的非暂态、有形的布置而没有限制,包括存储介质(诸如硬盘、包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)、和磁光盘的任何其它类型的盘)、半导体装置(诸如只读存储器(ROM),诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)的随机存取存储器(RAM),可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)、磁或光卡、或适合于存储电子指令的任何其它类型的介质)。
因此,本发明的实施例还包括非暂态、有形的机器可读介质,所述介质含有指令或含有设计数据,诸如硬件描述语言(HDL),其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。
在一些情况中,指令转换器可被用于将指令从源指令集转换成目标指令集。例如,指令转换器可翻译(例如,使用静态二进制翻译、包括动态编译的动态二进制翻译)、变形、仿真、或以其它方式将指令转换成要由核来处理的一个或多个其它指令。指令转换器被实现在软件、硬件、固件、或其组合中。指令转换器可在处理器上、离开处理器、或部分在处理器上而部单独开处理器。
图11是框图,其对照根据本发明的实施例的使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令。在所示出的实施例中,指令转换器是软件指令转换器,尽管备选地指令转换器可被实现在软件、固件、硬件、或其各种组合中。图11示出使用x86编译器1104,用高等级语言1102的程序可被编译以生成x86二进制代码1106,其可由带有至少一个x86指令集核的处理器1116来原生运行。带有至少一个x86指令集核的处理器1116表示能如带有至少一个x86指令集核的Intel处理器一样大体上执行相同功能的任何处理器,这通过兼容地运行或以其它方式处理(1)Intel x86指令集核的指令集的实质部分,或(2)针对于在带有至少一个x86指令集核的Intel处理器上运行的应用或另一软件的对象(object)代码版本,以便取得大体上与带有至少一个x86指令集核的Intel处理器相同的结果。x86编译器1104表示可操作以生成x86二进制代码1106(例如,对象代码)的编译器,x86二进制代码1106能通过或不通过附加联接处理而在带有至少一个x86指令集核的处理器1116上被运行。类似地,图11示出了使用备选指令集编译器1108,用高等级语言1102的程序可被编译以生成备选指令集二进制代码1110,其可由不带有至少一个x86指令集核的处理器1114(例如,带有运行MIPS Technologies of Sunnyvale,CA的MIPS指令集和/或运行ARM Holdings of Sunnyvale,CA的ARM指令集的核的处理器)来原生运行。指令转换器1112被用于将x86二进制代码1106转换成可由不带有x86指令集核的处理器1114来原生运行的代码。此被转换的代码不可能与备选指令集二进制代码1110相同,因为能够这样做的指令转换器难以做出;然而,被转换的代码将完成一般操作并由来自备选指令集的指令构成。因此,指令转换器1112表示软件、固件、硬件、或其组合,其通过仿真、模拟或任何其它过程而允许不具有x86指令集处理器或核的处理器或另一电子装置运行x86二进制代码1106。
用于同步页表更新的设备和方法
如所提及,在共享存储器系统中,高速缓存和TLB二者需要保持一致,以便对所有线程提供存储器的相同视图。针对TLB需要维持一致性的主要原因之一是,如果两个不同的CPU针对同一页具有不同的地址转换,则难以保持整体数据状态一致。如果页表条目(PTE)很少改变,保持TLB一致是相对容易得到的,就像现在的情况一样。当前系统使用由立即TLB击落支持的延迟PTE再循环的组合,以用于少数情况。TLB击落非常昂贵,但是是当前系统中以同步方式传播PTE改变的唯一方法。预计PTE改变的频率将在不久的将来增加,这使用于传播PTE改变的更高效机制成为必要。
本发明的一个实施例通过添加硬件至TLB以执行特定虚拟地址的同步TLB无效和用于驱动该硬件的新指令,加速TLB处理。此外,本发明的一些实施例将互斥与该指令组合,以确保系统中一次只有一个线程将尝试改变给定页表条目(PTE)。
图12图示了可以在其上实现本发明的实施例的架构,其包括:用于高速缓存虚拟到物理地址转化的TLB 1220、包括系统存储器和一个或多个级别的高速缓存的存储器层级1230、以及用于执行指令和处理数据的多个核1210-1211。尽管图示为集成在核1210内,但是一些架构可以选择将其分离,使得TLB服务于多于一个执行引擎(核)。为了提高地址转化速度,TLB 1220可以包括固定数量的时隙(其包含页表条目),每个页表条目将虚拟地址映射到系统存储器中的物理地址。当尝试访问虚拟地址空间内的特定页时,核1210执行TLB查找,如图所示。如果在TLB 1220中存在虚拟到物理映射,则将物理地址提供给存储器管理单元1210,然后存储器管理单元1210可以使用物理地址来访问存储器层级1230。
如果TLB 1220中不存在虚拟到物理映射,则产生“TLB未命中”。在一个实施例中,响应于TLB未命中,核1210访问提供页行走服务的页行走单元1223。尽管图示为单独的单元,但是在一个实施例中,页行走单元1223可以是核1210和/或TLB 1220的一部分。页行走涉及查找映射在页表中的地址(存储在系统存储器中),以确定是否存在映射。在一个实施例中,如果存在映射,则将其写回到TLB 1220。故障指令的后续执行将导致TLB命中,并且存储器访问将继续。如果不存在映射,则可以由页故障处置器1222启动故障异常(在一个实施例中,这可以用软件实现)。
在一个实施例中,TLB 1220被实现为内容可寻址存储器(CAM),尽管本发明的基本原理不限于任何特定的TLB类型。TLB是本领域技术人员很好理解的组件,以及其基本操作因此将不再在这里更详细地描述,以避免混淆本发明的基本原理。
如图12所示,本发明的一个实施例包括若干新的硬件组件,该硬件组件包括在核1210内的无效PTE(INVPTE)执行逻辑1214,其用于执行本文描述的INVPTE指令,以及栅栏指令和TLB信令逻辑1216,其用于从TLB 1220接收信号、插入栅栏操作(例如,栅栏uop)、并在栅栏引退时发信号通知TLB 1220。TLB 1220中的硬件组件包括PTE无效请求处置模块1221,其用于接收PTE无效请求消息(PTE_INV_REQ)、响应地使指定的TLB条目无效、向核1210发送信号、并且一旦核信号返回,发送答复PTE_INV_REP到起始器。另外,TLB 1220包括INVPTE状态机1224(其也可以在核1210中实现),其用于发送PTE_INV_REQ消息并等待PTE_INV_REP答复(在INVPTE指令被执行时),如下所述。
图13图示了根据一个实施例的示例,其中“起始器”线程1300(例如,在核1210上执行)尝试对页表条目(PTE)进行改变,并且愿意在恢复执行之前,等待所述改变对系统中的所有其它线程是可见的,即它想要使用同步技术来进行PTE改变。在1301处,起始器线程1300首先获取与给定虚拟页V相关联的互斥(或等效互相排斥/锁定操作)。在一个实施例中,这在软件中完成,并且确保一次仅一个线程对该页的PTE进行改变。如果存在过多每页管理一个互斥的页,则可以分配一小组的互斥,以及一个散列函数,其用于将V映射到互斥中的一个。这是一种减少互斥阵列占用空间的标准技术,其不会影响正确性,但如果两个线程尝试同时对映射到同一互斥的不同页进行处理,则会导致一些不必要的等待。在执行同步TLB击落时,使用单个互斥来防止并发线程之间的竞争不需要被限于单个PTE,并且软件也可以选择分批处理PTE集合的击落(shootdown),以用于更高的效率。
在1302,起始器线程1300修改虚拟页V的PTE,由互斥安全地保护。然后,它确定需要被通知对于虚拟页V的PTE的改变的其它核/代理1320的数量,由响应计数(RESP_CNT)标识。在一个实施例中,它还确定以比特掩码(“掩码”)编码的这些核/代理的身份。RESP_CNT通常是系统中的核/代理的数量减去1(对于起始器1300),但是如果可以确定核/代理的某些子集不能在其TLB中高速缓存虚拟页V的PTE,则可以更小。
接下来,在1304,起始器1300执行无效PTE指令INVPTE。在一个实施例中,每个响应核/代理TLB 1310接收PTE无效请求(PTE_INV_REQ(V)),其使得TLB在1312使虚拟页V的条目无效,并且在1313发送指示无效的响应。该指令采取虚拟页V的地址、响应计数和响应器掩码。该指令可以主要在集成在L1高速缓存1212控制器、TLB 1220或在核1210本身中的执行逻辑中执行。该逻辑1221在图12中在TLB 1220内图示,用于封装大部分新的硬件。在一个实施例中,指令按程序顺序序列化随后指令;他们必须等待该指令引退之后它们才能开始执行。
在一个实施例中,指令用RESP_CNT和掩码初始化INVPTE状态机1224。在1306,状态机1224然后根据掩码将对于页V的PTE无效请求(PTE_INV_REQ(V))发送到其它核TLB 1310,并等待响应(PTE_INV_REP(V)),其在1313图示。当每个响应到达时,TLB 1220递减它在等待的响应数量的计数(在1308)(CNT),并在1307检查该数量是否达到零。如果是,它将控制权交还给核,释放对于虚拟页V的互斥(在1309)。
在这点上,保证系统中的所有线程都将使用虚拟页V的PTE的新版本。因此,核上的软件释放对于虚拟页V的互斥,并继续执行。刚刚描述的过程关于采用乱序执行的核有一个复杂度。问题在于,当响应器核的TLB接收到PTE_INV_REQ时,它可能在流水线中具有已经查找V的PTE的旧版本但可能未完成(例如,L2未命中)的指令。为了确保不会过早地通知起始器旧版本的使用已经结束,所有此类指令必须完成(或转储清除)。
图14图示了克服该挑战的一个实施例。尤其,在1311在接收到PTE_INV_REQ时,TLB通知核,其在1401在uop流中插入栅栏uop。在1402,在此之后进入流水线的uop必须等待栅栏引退之后才访问TLB。一旦围栏引退,核通知TLB,TLB然后在1313发送PTE_INV_REP。
对本发明实施例的可能优化包括以下内容。首先,与当今由软件执行的基于进程间中断(IPI)的TLB击落一样,软件可以维持转储清除通知映射,以避免在软件已经采取措施来减少需要参与远程击落的CPU/核的数量时必须与所有其它CPU/核同步。这将涉及针对INVPTE指令从掩码中清除一些比特。此外,在多核、多套接字(multi-socket)系统中,每个套接字可以充当其它套接字的远程代理(proxy)以完成上述的无效,使得套接字间信号的数量减少到1。一些集中式硬件,例如,存储器控制器或共享最低级别高速缓存(LLC)中的一个,可以将无效请求转发到套接字中的核、收集答复、并将单个“组”答复发送回给起始器。最后,软件可以实现用于适时地针对同步击落分批处理若干页的算法,以在使用上述机制时分摊这种击落的开销,使得其已经降低的成本在多个重新映射操作之间进一步分割。
本发明的实施例为用于同步PTE更新的当前方法提供了优越的性能,这些方法依赖于对于改变的起始器以及系统中的其它线程而言过于昂贵的处理器间中断。这些实施例以非常适度的硬件成本和复杂性,实现显著地更高效的同步PTE更新。
在前述说明书中,本发明的实施例已参照其特定示范性实施例而被描述。然而,将明显的是,在不脱离如随附权利要求中所陈述的本发明的更广泛的精神和范围的情况下,可对其进行各种修改和更改。因此,要以说明性而不是限制性的意义考虑说明书和附图。
本发明的实施例可包含上面已描述的各种步骤。这些步骤可在机器可执行指令中实施,机器可执行指令可用于促使通用或专用处理器执行步骤。备选地,这些步骤可由含有用于执行步骤的硬连线逻辑的特定硬件组件执行,或者由编程的计算机组件和定制硬件组件的任何组合执行。
如本文中所述,指令可涉及硬件的特定配置,硬件诸如配置成执行某些操作或具有在以非暂态计算机可读介质实施的存储器中存储的预确定的功能性或软件指令的专用集成电路(ASIC)。因此,使用在一个或多个电子装置(例如,终端站、网络元素等)上存储和执行的代码和/或数据,能够实现图中示出的技术。此类电子装置使用计算机机器可读介质,诸如非暂态计算机机器可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪速存储器装置、相变存储器)和暂态计算机机器可读通信介质(例如,电气、光学、声学或其它形式的传播信号 - 诸如载波、红外信号、数字信号等),存储和传递(在内部和/或通过网络与其它电子装置一起进行)代码和数据。另外,此类电子装置一般包括耦合到诸如一个或多个存储装置(非暂态机器可读存储介质)、用户输入/输出装置(例如,键盘、触摸屏和/或显示器)和网络连接等一个或多个其它组件的一个或多个处理器的集合。该集合的处理器与其它组件的耦合一般是通过一个或多个总线和桥接器(也称为总线控制器)。携带网络业务的信号和存储装置分别表示一个或多个机器可读通信介质和机器可读存储媒体。因此,给定电子装置的存储装置一般存储代码和/或数据以便在该电子装置的该集合的一个或多个处理器上执行。当然,可使用软件、固件和/或硬件的不同组合,实现本发明的实施例的一个或多个部分。通篇本详细描述中,处于解释的目的,陈述了许多特定的细节以便提供本发明的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明。在某些实例中,未详细阐述众所周知的结构和功能,以便避免混淆本发明的主题。因此,应根据随后的权利要求来判断本发明的范围和精神。

Claims (23)

1.一种处理器,包括:
多个核,所述多个核用于执行指令和处理数据;
一个或多个转化后备缓冲器TLB,包括多个条目,所述一个或多个转化后备缓冲器用于在执行所述指令时高速缓存由所述多个核中的至少一个核可用的虚拟到物理地址转化;
页表条目PTE无效电路,所述页表条目PTE无效电路用于在第一核上执行PTE无效指令,以使其它核的TLB中的第一PTE无效,所述PTE无效电路响应于所述PTE无效指令的执行,响应地确定需要被通知所述PTE无效的其它核的其它TLB的数量、将PTE无效消息传送给所述其它TLB,以及等待响应;
锁定电路模块,所述锁定电路模块用于允许线程锁定第一TLB中的第一PTE,以确保一次只能够有一个线程修改所述第一PTE;以及
无效PTE状态机电路,所述无效PTE状态机电路编程有最初设置为需要被通知的其它TLB的数量的计数值,所述无效PTE状态及电路在接收到来自每个所述其它TLB的每个响应时递减所述计数值,当所述计数值已经递减到阈值时,所述锁定电路模块释放所述锁定。
2.根据权利要求1所述的处理器,其中所述第一TLB将在所述线程获取所述锁定时修改所述第一PTE;以及
所述锁定电路模块响应于接收来自所有其它TLB的响应而释放所述第一PTE的所述锁定。
3.根据权利要求2所述的处理器,其中所述锁定电路模块将用于实现互斥操作,以获取所述第一PTE上的所述锁定。
4.根据权利要求2或3所述的处理器,其中每个TLB包括PTE无效请求处置电路模块,所述PTE无效请求处置电路模块用于接收从其它TLB传送的无效请求,所述无效请求处置电路模块响应地促使所述TLB使在所述无效请求中标识的一个或多个PTE无效,并传送指示所述无效的响应。
5.根据权利要求1所述的处理器,其中掩码值将用于唯一地标识要被通知的每个所述其它TLB。
6.根据权利要求1或5所述的处理器,进一步包括:
每个所述其它核的栅栏指令逻辑,所述栅栏指令逻辑用于在指令流中插入栅栏操作,以使所述其它核的流水线中的任何指令等待,直到所述栅栏操作引退,然后才访问每个所述其它核的所述TLB。
7.根据权利要求6所述的处理器,其中将仅在所述栅栏操作已经引退之后才从所述其它核的所述TLB发送所述响应。
8.一种存储设备,包括:
用于在执行指令时高速缓存在转化后备缓冲器TLB中由一组一个或多个核可用的多个虚拟到物理地址转化的部件;
用于锁定所述TLB中的第一页表条目PTE,以确保一次只能够有一个线程修改第一PTE的部件,其中所述TLB将在获取所述锁定时修改所述第一PTE;
用于在第一核上执行PTE无效指令以使其它核的其它TLB中的所述第一PTE无效的部件,所述用于执行PTE无效指令的部件响应于所述PTE无效指令的执行,响应地确定需要被通知所述PTE无效的其它核的其它TLB的数量、向所述其它TLB传送PTE无效消息,并等待响应;以及
用于响应于接收来自所有所述其它TLB的响应,释放所述第一PTE上的所述锁定的部件,其中无效PTE状态机电路编程有最初设置为需要被通知的其它TLB的数量的计数值,所述无效PTE状态机电路在接收到来自每个所述其它TLB的每个响应时递减所述计数值,并且其中当所述计数值已经递减到阈值时,释放对所述第一PTE的所述锁定。
9.根据权利要求8所述的设备,其中所述用于锁定的部件将用于实现互斥操作以获取所述第一PTE上的所述锁定。
10.根据权利要求8或9所述的设备,其中每个TLB包括PTE无效请求处置电路模块,所述PTE无效请求处置电路模块用于接收从其它TLB传送的无效请求,所述无效请求处置电路模块响应地促使所述TLB使在所述无效请求中标识的一个或多个PTE无效,并传送指示所述无效的响应。
11.根据权利要求8所述的设备,其中掩码值将用于唯一地标识要被通知的每个所述其它TLB。
12.根据权利要求8或11所述的设备,进一步包括:
每个所述其它核的栅栏指令部件,所述栅栏指令部件用于在指令流中插入栅栏操作,以使得所述其它核的流水线中的任何指令等待,直到所述栅栏操作引退,然后才访问每个所述其它核的所述TLB。
13.根据权利要求12所述的设备,其中将仅在所述栅栏操作已经引退后才从所述其它核的所述TLB发送所述响应。
14.一种存储系统,包括:
存储器,所述存储器用于存储指令和数据;
处理器,所述处理器用于执行所述指令和处理所述数据;
图形处理器,所述图形处理器用于响应于图形指令执行图形操作;
网络接口,所述网络接口用于通过网络接收和传送数据;
接口,所述接口用于接收来自鼠标或光标控制装置的用户输入,多个核响应于所述用户输入,执行所述指令和处理所述数据;
所述处理器包括:
多个核,所述多个核用于执行指令和处理数据;
转化后备缓冲器TLB,包括多个条目,所述转化后备缓冲器用于在执行所述指令时高速缓存由所述多个核中的至少一个核可用的虚拟到物理地址转化;
锁定电路模块,所述锁定电路模块用于允许线程锁定所述TLB中的第一页表条目PTE,以确保一次只能够有一个线程修改所述第一PTE,其中所述TLB将在所述线程获取所述锁定时修改所述第一PTE;
PTE无效电路,所述PTE无效电路用于在第一核上执行PTE无效指令以使其它核的其它TLB中的所述第一PTE无效,所述PTE无效电路响应于所述PTE无效指令的执行,响应地确定需要被通知所述PTE无效的其它核的其它TLB的数量、传送PTE无效消息至所述其它TLB,并等待响应;
所述锁定电路模块用于响应于接收来自所有所述其它TLB的响应,释放所述第一PTE上的所述锁定;以及
无效PTE状态机电路,所述无效PTE状态机电路编程有最初设置为需要被通知的其它TLB的数量的计数值,所述无效PTE状态机电路在接收到来自每个所述其它TLB的每个响应时递减所述计数值,当所述计数值已经递减到阈值时,所述锁定电路模块释放所述锁定。
15.根据权利要求14所述的系统,其中所述锁定电路模块将用于实现互斥操作以获取所述第一PTE上的所述锁定。
16.根据权利要求14所述的系统,其中每个TLB包括PTE无效请求处置电路模块,所述PTE无效请求处置电路模块用于接收从其它TLB传送的无效请求,所述无效请求处置电路模块响应地促使所述TLB使在所述无效请求中标识的一个或多个PTE无效,并传送指示所述无效的响应。
17.根据权利要求14所述的系统,其中掩码值将用于唯一地标识要被通知的每个所述其它TLB。
18.根据权利要求14或17所述的系统,进一步包括:
每个所述其它核的栅栏指令逻辑,所述栅栏指令逻辑用于在指令流中插入栅栏操作,以使得所述其它核的流水线中的任何指令等待,直到所述栅栏操作引退,然后才访问每个所述其它核的所述TLB。
19.根据权利要求18所述的系统,其中将仅在所述栅栏操作已经引退后才从其它核的所述TLB发送响应。
20.一种存储方法,包括:
在执行指令时,高速缓存在转化后备缓冲器TLB中由一组一个或多个核可用的多个虚拟到物理地址的转化;
锁定所述TLB中的第一页表条目PTE以确保一次只能够有一个线程修改所述第一PTE,其中所述TLB将在获取所述锁定时修改所述第一PTE;
在第一核上执行PTE无效指令以使其它核的其它TLB中的所述第一PTE无效,PTE无效电路响应于执行所述PTE无效指令,响应地确定需要被通知所述PTE无效的其它核的其它TLB的数量、向所述其它TLB传送PTE无效消息,并等待响应;以及
响应于接收来自所有所述其它TLB的响应,释放所述第一PTE上的所述锁定,其中无效PTE状态机电路编程有最初设置为需要被通知的其它TLB的数量的计数值,所述无效PTE状态机电路在接收到来自每个所述其它TLB的每个响应时递减所述计数值,并且其中当所述计数值已经递减到阈值时,释放对所述第一PTE的所述锁定。
21.根据权利要求20所述的方法,其中所述锁定电路模块将用于实现互斥操作以获取所述第一PTE上的所述锁定。
22.根据权利要求20所述的方法,其中每个TLB包括PTE无效请求处置电路模块,所述PTE无效请求处置电路模块用于接收从其它TLB传送的无效请求,所述无效请求处置电路模块响应地促使所述TLB使在所述无效请求中标识的一个或多个PTE无效,并传送指示所述无效的响应。
23.一种在其上存储有指令的计算机可读介质,所述指令当被执行时促使计算装置执行根据权利要求20-22中的任一项所述的方法。
CN201780014726.2A 2016-04-01 2017-03-07 用于延迟低开销同步页表更新的设备和方法 Active CN108701088B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/088985 2016-04-01
US15/088,985 US10067870B2 (en) 2016-04-01 2016-04-01 Apparatus and method for low-overhead synchronous page table updates
PCT/US2017/021141 WO2017172300A1 (en) 2016-04-01 2017-03-07 Apparatus and method for lazy low-overhead synchronous page table updates

Publications (2)

Publication Number Publication Date
CN108701088A CN108701088A (zh) 2018-10-23
CN108701088B true CN108701088B (zh) 2023-07-28

Family

ID=59959996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780014726.2A Active CN108701088B (zh) 2016-04-01 2017-03-07 用于延迟低开销同步页表更新的设备和方法

Country Status (4)

Country Link
US (1) US10067870B2 (zh)
CN (1) CN108701088B (zh)
DE (1) DE112017001804T5 (zh)
WO (1) WO2017172300A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830289B2 (en) 2014-09-16 2017-11-28 Apple Inc. Methods and apparatus for aggregating packet transfer over a virtual bus interface
US9971397B2 (en) 2014-10-08 2018-05-15 Apple Inc. Methods and apparatus for managing power with an inter-processor communication link between independently operable processors
US10042794B2 (en) 2015-06-12 2018-08-07 Apple Inc. Methods and apparatus for synchronizing uplink and downlink transactions on an inter-device communication link
US10085214B2 (en) 2016-01-27 2018-09-25 Apple Inc. Apparatus and methods for wake-limiting with an inter-device communication link
US10558580B2 (en) 2016-02-29 2020-02-11 Apple Inc. Methods and apparatus for loading firmware on demand
US10191859B2 (en) 2016-03-31 2019-01-29 Apple Inc. Memory access protection apparatus and methods for memory mapped access between independently operable processors
US10775871B2 (en) 2016-11-10 2020-09-15 Apple Inc. Methods and apparatus for providing individualized power control for peripheral sub-systems
US10551902B2 (en) 2016-11-10 2020-02-04 Apple Inc. Methods and apparatus for providing access to peripheral sub-system registers
US10346226B2 (en) 2017-08-07 2019-07-09 Time Warner Cable Enterprises Llc Methods and apparatus for transmitting time sensitive data over a tunneled bus interface
US10331612B1 (en) 2018-01-09 2019-06-25 Apple Inc. Methods and apparatus for reduced-latency data transmission with an inter-processor communication link between independently operable processors
US11792307B2 (en) 2018-03-28 2023-10-17 Apple Inc. Methods and apparatus for single entity buffer pool management
US11080188B1 (en) * 2018-03-28 2021-08-03 Apple Inc. Method to ensure forward progress of a processor in the presence of persistent external cache/TLB maintenance requests
US10430352B1 (en) 2018-05-18 2019-10-01 Apple Inc. Methods and apparatus for reduced overhead data transfer with a shared ring buffer
US10585699B2 (en) 2018-07-30 2020-03-10 Apple Inc. Methods and apparatus for verifying completion of groups of data transactions between processors
US10846224B2 (en) 2018-08-24 2020-11-24 Apple Inc. Methods and apparatus for control of a jointly shared memory-mapped region
US10719376B2 (en) 2018-08-24 2020-07-21 Apple Inc. Methods and apparatus for multiplexing data flows via a single data structure
US10838450B2 (en) 2018-09-28 2020-11-17 Apple Inc. Methods and apparatus for synchronization of time between independently operable processors
US10789110B2 (en) 2018-09-28 2020-09-29 Apple Inc. Methods and apparatus for correcting out-of-order data transactions between processors
JP2022522437A (ja) * 2019-04-30 2022-04-19 長江存儲科技有限責任公司 コントローラ、機器および方法
US11558348B2 (en) 2019-09-26 2023-01-17 Apple Inc. Methods and apparatus for emerging use case support in user space networking
US11829303B2 (en) 2019-09-26 2023-11-28 Apple Inc. Methods and apparatus for device driver operation in non-kernel space
US10972408B1 (en) 2020-02-10 2021-04-06 Apple Inc. Configurable packet arbitration with minimum progress guarantees
US11606302B2 (en) 2020-06-12 2023-03-14 Apple Inc. Methods and apparatus for flow-based batching and processing
US11422946B2 (en) 2020-08-31 2022-08-23 Apple Inc. Translation lookaside buffer striping for efficient invalidation operations
US11675710B2 (en) 2020-09-09 2023-06-13 Apple Inc. Limiting translation lookaside buffer searches using active page size
US11615033B2 (en) 2020-09-09 2023-03-28 Apple Inc. Reducing translation lookaside buffer searches for splintered pages
US11775359B2 (en) 2020-09-11 2023-10-03 Apple Inc. Methods and apparatuses for cross-layer processing
US11954540B2 (en) 2020-09-14 2024-04-09 Apple Inc. Methods and apparatus for thread-level execution in non-kernel space
US11321242B2 (en) * 2020-09-15 2022-05-03 Vmware, Inc. Early acknowledgement of translation lookaside buffer shootdowns
US11799986B2 (en) 2020-09-22 2023-10-24 Apple Inc. Methods and apparatus for thread level execution in non-kernel space
US11876719B2 (en) 2021-07-26 2024-01-16 Apple Inc. Systems and methods for managing transmission control protocol (TCP) acknowledgements
US11882051B2 (en) 2021-07-26 2024-01-23 Apple Inc. Systems and methods for managing transmission control protocol (TCP) acknowledgements
US11620235B1 (en) 2021-10-04 2023-04-04 International Business Machines Corporation Validation of store coherence relative to page translation invalidation
US11693788B1 (en) 2022-06-07 2023-07-04 International Business Machines Corporation Gathering translation entry invalidation requests in a data processing system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1498000A (en) * 1997-04-30 2000-04-13 Canon Kabushiki Kaisha Graphics processor architecture
US6466988B1 (en) * 1998-12-28 2002-10-15 Hitachi, Ltd. Multiprocessor synchronization and coherency control system
US6957315B2 (en) * 2000-08-21 2005-10-18 Texas Instruments Incorporated TLB lock and unlock operation
CN1702634A (zh) * 2004-05-27 2005-11-30 国际商业机器公司 便利无环境主机干预下的可分页模式虚拟环境存储管理
CN104937539A (zh) * 2012-11-28 2015-09-23 英特尔公司 用于提供推入缓冲器复制和存储功能的指令和逻辑

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2514292B2 (ja) 1991-04-25 1996-07-10 インターナショナル・ビジネス・マシーンズ・コーポレイション オペランドペ―ジメモリ及び命令ペ―ジメモリを有するコンピュ―タシステム
US5787476A (en) 1995-05-05 1998-07-28 Silicon Graphics, Inc. System and method for maintaining coherency of virtual-to-physical memory translations in a multiprocessor computer
US6119204A (en) * 1998-06-30 2000-09-12 International Business Machines Corporation Data processing system and method for maintaining translation lookaside buffer TLB coherency without enforcing complete instruction serialization
EP1182567B1 (en) 2000-08-21 2012-03-07 Texas Instruments France Software controlled cache configuration
US6658520B1 (en) * 2000-09-26 2003-12-02 Intel Corporation Method and system for keeping two independent busses coherent following a direct memory access
US6779049B2 (en) 2000-12-14 2004-08-17 International Business Machines Corporation Symmetric multi-processing system with attached processing units being able to access a shared memory without being structurally configured with an address translation mechanism
US6934806B2 (en) * 2002-09-23 2005-08-23 International Business Machines Corporation Method and system for improving input/output performance by proactively flushing and locking an entire page out of caches of a multiprocessor system
US7069389B2 (en) 2003-11-26 2006-06-27 Microsoft Corporation Lazy flushing of translation lookaside buffers
US20050273575A1 (en) 2004-06-02 2005-12-08 Mukherjee Shubhendu S Mechanism to invalidate data translation buffer entries a multiprocessor system
US7363463B2 (en) * 2005-05-13 2008-04-22 Microsoft Corporation Method and system for caching address translations from multiple address spaces in virtual machines
US20070220231A1 (en) 2006-03-20 2007-09-20 Sridharan Sakthivelu Virtual address translation by a processor for a peripheral device
US7434002B1 (en) 2006-04-24 2008-10-07 Vmware, Inc. Utilizing cache information to manage memory access and cache utilization
US8099559B2 (en) 2007-09-11 2012-01-17 International Business Machines Corporation System and method for generating fast instruction and data interrupts for processor design verification and validation
US8601234B2 (en) * 2007-11-07 2013-12-03 Qualcomm Incorporated Configurable translation lookaside buffer
US8769546B2 (en) * 2010-01-07 2014-07-01 Hewlett-Packard Development Company, L.P. Busy-wait time for threads
US9916257B2 (en) 2011-07-26 2018-03-13 Intel Corporation Method and apparatus for TLB shoot-down in a heterogeneous computing system supporting shared virtual memory
JP2013097671A (ja) 2011-11-02 2013-05-20 Fujitsu Ltd アドレス変換装置、アドレス変換装置の制御方法及び演算処理装置
US9110830B2 (en) 2012-01-18 2015-08-18 Qualcomm Incorporated Determining cache hit/miss of aliased addresses in virtually-tagged cache(s), and related systems and methods
US9430391B2 (en) 2012-03-29 2016-08-30 Advanced Micro Devices, Inc. Managing coherent memory between an accelerated processing device and a central processing unit
US9244829B2 (en) 2012-12-20 2016-01-26 Oracle International Corporation Method and system for efficient memory region deallocation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1498000A (en) * 1997-04-30 2000-04-13 Canon Kabushiki Kaisha Graphics processor architecture
US6466988B1 (en) * 1998-12-28 2002-10-15 Hitachi, Ltd. Multiprocessor synchronization and coherency control system
US6957315B2 (en) * 2000-08-21 2005-10-18 Texas Instruments Incorporated TLB lock and unlock operation
CN1702634A (zh) * 2004-05-27 2005-11-30 国际商业机器公司 便利无环境主机干预下的可分页模式虚拟环境存储管理
CN104937539A (zh) * 2012-11-28 2015-09-23 英特尔公司 用于提供推入缓冲器复制和存储功能的指令和逻辑

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PS-TLB: Leveraging page classification information for fast, scalable and efficient translation for future CMPs;Yong Li等;《ACM Transactions on Architecture and Code Optimization (TACO)》;20130120;第9卷(第4期);全文 *
基于ARM7TDMI的TLB组织结构及存储保护设计;张启晨等;《电子器件》;20080415(第02期);全文 *
基于虚拟化的Windows进程内存保护研究;李佳瑶;《中国优秀硕士学位论文全文数据库》;20160315(第3期);全文 *

Also Published As

Publication number Publication date
CN108701088A (zh) 2018-10-23
US20170286300A1 (en) 2017-10-05
WO2017172300A1 (en) 2017-10-05
DE112017001804T5 (de) 2018-12-13
US10067870B2 (en) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108701088B (zh) 用于延迟低开销同步页表更新的设备和方法
US10078519B2 (en) Apparatus and method for accelerating operations in a processor which uses shared virtual memory
CN108595348B (zh) 无局部性提示的向量存储器访问处理器、方法、系统和指令
CN107003846B (zh) 用于向量索引加载和存储的方法和装置
CN107003852B (zh) 用于执行向量位混洗的方法和装置
CN110347431B (zh) 自适应空间访问预取器装置和方法
CN104081340B (zh) 用于数据类型的下转换的装置和方法
CN107077330B (zh) 用于执行矢量位反转和交叉的方法和装置
CN107003845B (zh) 用于在掩码寄存器和向量寄存器之间可变地扩展的方法和装置
CN108052349B (zh) 在屏蔽寄存器中反转和置换位的装置和方法
US10102000B2 (en) Apparatus and method for non-serializing split locks
CN111752476A (zh) 用于下转换以及交错多个浮点值的装置和方法
CN108292249B (zh) 用于预留比特的施行的设备和方法
JP2018500652A (ja) マスクをマスク値のベクトルに拡張するための方法および装置
CN117355816A (zh) 用于设备转译后备缓冲器预转译指令和对输入/输出存储器管理单元协议的扩展的装置、方法和系统
CN112148510A (zh) 用于线性地址屏蔽架构的设备、方法和系统
WO2017172299A1 (en) Apparatus and method for triggered prefetching to improve i/o and producer-consumer workload efficiency
CN108255520B (zh) N路监测器
CN107077333B (zh) 用于实行向量位聚集的方法和装置
US10719442B2 (en) Apparatus and method for prioritized quality of service processing for transactional memory
CN112306910A (zh) 用于拆分式数据转换后备缓冲器的硬件
JP2018500665A (ja) マスク値を圧縮するための方法および装置
EP3394733A1 (en) Apparatus and method for retrieving elements from a linked structure
JP2018503162A (ja) スピンループジャンプを実行するための装置および方法
US20160299762A1 (en) Method and apparatus for performing an efficient scatter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant