CN114691551A - 自动化转换后备缓冲器集合再平衡 - Google Patents
自动化转换后备缓冲器集合再平衡 Download PDFInfo
- Publication number
- CN114691551A CN114691551A CN202111589723.6A CN202111589723A CN114691551A CN 114691551 A CN114691551 A CN 114691551A CN 202111589723 A CN202111589723 A CN 202111589723A CN 114691551 A CN114691551 A CN 114691551A
- Authority
- CN
- China
- Prior art keywords
- tlb
- sub
- entry
- page
- configurable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000015654 memory Effects 0.000 claims description 147
- 230000004044 response Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 description 54
- 239000013598 vector Substances 0.000 description 25
- 238000013507 mapping Methods 0.000 description 21
- 230000014616 translation Effects 0.000 description 17
- 238000013461 design Methods 0.000 description 16
- 238000007667 floating Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
- G06F12/1036—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] for multiple virtual address spaces, e.g. segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
- G06F12/1045—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache
- G06F12/1054—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache the data cache being concurrently physically addressed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
- G06F12/1045—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache
- G06F12/1063—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache the data cache being concurrently virtually addressed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/12—Replacement control
- G06F12/121—Replacement control using replacement algorithms
- G06F12/126—Replacement control using replacement algorithms with special data handling, e.g. priority of data or instructions, handling errors or pinning
- G06F12/127—Replacement control using replacement algorithms with special data handling, e.g. priority of data or instructions, handling errors or pinning using additional replacement algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
- G06F2212/1021—Hit rate improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/30—Providing cache or TLB in specific location of a processing system
- G06F2212/304—In main memory subsystem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/50—Control mechanisms for virtual memory, cache or TLB
- G06F2212/502—Control mechanisms for virtual memory, cache or TLB using adaptive policy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/65—Details of virtual memory and virtual address translation
- G06F2212/652—Page size control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/68—Details of translation look-aside buffer [TLB]
- G06F2212/684—TLB miss handling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请提供了自动化转换后备缓冲器集合再平衡。提供了转换后备缓冲器(TLB)和使用该TLB的方法,该TLB具有固定的子TLB和可配置的子TLB。TLB包括固定的子TLB和可配置的子TLB。固定的子TLB在运行时期间可存储与第一页尺寸集对应的第一多个TLB条目。可配置的子TLB在运行时可配置成用于存储具有第二页尺寸集的第二多个TLB条目。第二页尺寸集包括第一页尺寸集的至少第一页尺寸,并包括不是第一页尺寸集的至少第二页尺寸。
Description
关于联邦资助的研发的声明
本发明是在由国防部授予的协议号H98230A-13-D-0124的政府支持下进行的。政府具有本发明的某些权益。
背景技术
本公开总体上关于高效地设置转换后备缓冲器(TLB)中的再平衡,该TLB包含可配置成用于在引导后的不同时刻保存不同的页尺寸集的可配置的子TLB以及在引导后保存固定的页尺寸集的固定的子TLB。
本节旨在向读者介绍可能涉及当前技术的各方面的技术的各方面,这在下文描述和/或要求保护。相信该讨论有助于向读者提供促进对本公开的各方面更好的理解的背景信息。相应地,应当注意这些陈述应从这个角度来阅读,而不是作为任何种类的承认。
集成电路见于众多电子设备,这些电子设备来自手持式设备、计算机、游戏系统、机器人设备、汽车,等等。诸如微处理器之类的一些集成电路处理从存储器检取的数据。虽然数据被存储在表示存储器中的实际位置的物理存储器地址中,但是在集成电路上运行的软件可使用虚拟存储器地址来操作,当存储器被访问时,该虚拟存储器地址被转换为物理存储器地址。被称为转换后备缓冲器(TLB)的集成电路上的结构可通过存储虚拟存储器地址至其对应的物理存储器地址的近期使用的映射来减少访问存储器位置所花费的时间。虚拟至物理转换使用“页”来完成,其中,典型的x86页尺寸为4千位字节(kibibyte)(4KiB)、2兆位字节(mebibyte)(2MiB)、或1千兆位字节(gibibyte)(1GiB)。用于页的TLB条目涵盖与页尺寸对应的地址范围。例如,如果TLB存储用于2MiB页的转换,则存在可由同一TLB条目转换的2M虚拟地址的范围。当在集成电路上的软件请求对在近期被使用的且被存储在TLB中的页上的特定虚拟存储器地址的访问时,该TLB可迅速地将虚拟存储器地址转换为其对应的物理存储器地址。
以此方式,TLB可操作为从虚拟存储器地址向物理存储器地址的映射的高速缓存。在当前被存储在TLB中的映射被请求时,这可被称为“高速缓存命中”或“TLB命中”。然而,当TLB当前不具有被请求的映射时,这可被称为“高速缓存未命中”或“TLB未命中”。在转换发生前,所请求的映射可首先被加载到TLB中。一些软件应用会对TLB未命中损失显著的运行时间。
减少TLB未命中的一种方法涉及增加TLB的尺寸。然而,许多软件应用会由于差的参引局部性而触及存储器的许多页,从而使得建立“从不未命中”TLB是不可行的。进一步地,较大的硬件结构可具有较高的命中率但具有较慢的访问时间,从而导致性能的净损失。减小未命中率的其他方法可涉及使用具有不同页尺寸的TLB条目。遗憾的是,利用此结构提供性能优势的存储器用例可能难以实现。此外,诸如共享具有特定尺寸的单个子TLB之类的解决方案常引入重大的冲突或竞争,该冲突或竞争可能由于TLB未命中而引入附加的等待时间。
附图说明
在阅读下列具体实施方式时并在参考附图时,可更好地理解本公开的各方面,在附图中:
图1是根据实施例的寄存器架构的框图;
图2A是图示出根据实施例的有序流水线以及寄存器重命名的、乱序发布/执行流水线的框图;
图2B是图示出根据本公开的实施例的、要被包括在处理器中的有序架构核以及寄存器重命名的、乱序发布/执行架构核的框图;
图3A和图3B图示出根据实施例的更具体的示例有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块;
图4是根据实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器的框图;
图5示出的是根据实施例的系统的框图;
图6是根据实施例的第一更具体的示例系统的框图;
图7是根据实施例的第二更具体的示例系统的框图;
图8是根据实施例的芯片上系统(SoC)的框图;
图9是根据实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;
图10是图示根据实施例的、转换后备缓冲器(TLB)在所请求的TLB条目当前被存储在TLB中(“TLB命中”)时的操作的框图;
图11是图示根据实施例的、TLB在所请求的TLB条目当前不被存储在TLB中(“TLB未命中”)时的操作的框图;
图12是根据实施例的TLB的框图,该TLB使用以下各项来保存与多个存储器页尺寸对应的TLB条目、第一固定的集合相联的(set-associative)子TLB,其保存与第一页尺寸对应的条目;第二固定的集合相联的子TLB,其保存与第二页尺寸对应的条目;第三固定的集合相联的子TLB,其保存与第三页尺寸对应的条目;以及可配置的全相联的子TLB,其保存与全部三个页尺寸对应的条目;
图13是根据实施例的TLB的框图,该TLB使用以下各项来保存与多个存储器页尺寸对应的TLB条目:第一固定的集合相联的子TLB,其保存与第一页尺寸对应的条目;第二固定的集合相联的子TLB,其保存与第二页尺寸对应的条目;以及可配置的全相联的子TLB,其保存与全部三个页尺寸对应的条目;
图14是根据实施例的TLB的框图,该TLB使用以下各项来保存与多个存储器页尺寸对应的TLB条目:第一固定的集合相联的子TLB,其保存与第二页尺寸对应的条目;第二固定的集合相联的子TLB,其保存与第三页尺寸对应的条目;以及可配置的全相联的子TLB,其保存与全部三个页尺寸对应的条目;
图15是根据实施例的TLB的框图,该TLB使用以下各项来保存与多个存储器页尺寸对应的TLB条目:第一固定的集合相联的子TLB,其保存与第一页尺寸对应的条目;第二固定的集合相联的子TLB,其保存与第三页尺寸对应的条目;以及可配置的全相联的子TLB,其保存与全部三个页尺寸对应的条目;
图16是图示根据实施例的TLB的TLB条目的框图,该TLB具有一个或多个固定的集合相联的子TLB以及可配置的全相联的子TLB;
图17是图示根据实施例的用于利用TLB中的新TLB条目来驱逐并替换旧TLB的方法的流程图,该TLB具有一个或多个固定的集合相联的子TLB以及可配置全相联的子TLB;
图18是图示根据实施例的用于利用TLB中的新TLB条目来驱逐并替换旧TLB的决策的框图,该TLB具有一个或多个固定的集合相联的子TLB以及可配置全相联的子TLB;
图19是根据实施例的对子TLB未命中率计数的TLB的框图;
图20是根据实施例的用于选择要用于利用新TLB条目来替换旧TLB条目的子TLB的方法的流程图;
图21是根据实施例的用于选择要用于利用新TLB条目来替换旧TLB条目的子TLB的另一方法的流程图;
图22是根据实施例的用于选择要用于利用新TLB条目来替换旧TLB条目的子TLB的另一方法的流程图;
图23是根据实施例的用于使用“抛硬币”方式选择要用于利用新TLB条目来替换旧TLB条目的子TLB的框图;
图24是根据实施例的用于选择TLB条目以利用可配置的全相联的子TLB中的新TLB条目来驱逐和替换的方法的流程图;
图25是根据实施例的TLB的框图,该TLB将可配置的全相联的子TLB的某些TLB条目定义为“粘性”且预留用于与特定的页尺寸对应的TLB条目;
图26是根据实施例的、用于将可配置的全相联的子TLB的某些TLB条目标记为“粘性”且预留用于与特定的页尺寸对应的TLB条目的方法的流程图;
图27是根据实施例的、用于将可配置的全相联的子TLB的某些TLB条目标记为“粘性”且预留用于与特定的页尺寸对应的TLB条目的另一方法的流程图;
图28是根据实施例的TLB的框图,该TLB对具有特定的页尺寸的TLB条目被存储在可配置的全相联的子TLB中的条目中的次数进行计数;
图29是根据实施例的、用于基于图28中的计数将可配置的全相联的子TLB的某些TLB条目标记为“粘性”的方法的流程图;
图30是根据实施例的TLB的框图,该TLB对具有特定的页尺寸的TLB条目被存储在可配置的全相联的子TLB中的任何条目中的次数进行计数;
图31是根据实施例的、用于基于图30中的计数将可配置的全相联的子TLB的某些TLB条目标记为“粘性”的方法的流程图;
图32是根据实施例的TLB的框图,该TLB对TLB请求或时钟周期的总数进行计数,以确定何时将可配置的全相联的子TLB的某些条目标记为“粘性”;
图33是根据实施例的、用于基于图32中的计数将可配置的全相联的子TLB的某些TLB条目标记为“粘性”的方法的流程图;
图34是根据实施例的、用于响应于上下文切换而将可配置的全相联的子TLB的某些TLB条目从“粘性”重置的方法的流程图;
图35是根据实施例的、用于响应于对粘性子TLB条目的显式无效而将可配置的全相联的子TLB的某些TLB条目从“粘性”重置的方法的流程图;
图36是根据实施例的、在阈值量的次数或TLB请求之后将可配置的全相联的子TLB的某些TLB条目从“粘性”重置的方法的流程图;
图37是根据实施例的、在后续被尝试的驱逐(“第二次机会”方式)之际将可配置的全相联的子TLB的某些TLB条目从“粘性”重置的方法的流程图;以及
图38是根据实施例的数据结构的框图,该数据结构可表示可配置的全相联的子TLB中的TLB条目。
具体实施方式
下文将描述一个或多个具体实施例。为了提供对这些实施例的简洁描述,说明书中并未描述实际实现方式的所有特征。应当领会,在任何此类实际实现方式的开发中,如同在任何工程或设计项目中一样,为了实现开发人员的特定目标,必须作出众多特定于实现方式的决策,诸如遵守与系统相关的约束和与业务相关的约束,这些约束可能因实现方式而有所不同。而且应当领会,此类开发工作可能是复杂且耗时的,但是对于受益于本公开的普通技术人员而言,这仍将是设计、制作和制造的例行任务。
当介绍本公开的各实施例的要素时,冠词“一(a、an)”、“该(the)”旨在意指存在这些要素中的一个或多个要素。术语“包括”、“具有”旨在是包含性的,并且意指除了所列举的要素之外还可能存在附加要素。另外,应当理解,对本公开的“一些实施例”、“诸实施例”、“一个实施例”或“实施例”的引用不旨在被解释为排除也包含所陈述的特征的附加实施例的存在。此外,短语A“基于”B旨在意指A至少部分地基于B。此外,术语“或”旨在是包含性的(例如,逻辑或)而并非排他性的(例如,逻辑异或)。换言之,短语A“或”B旨在意指A、B、或者A和B两者。此外,本公开描述了各种数据结构,诸如用于指令集架构的指令。这些被描述为具有某些域(例如,字段)和对应数量的位。然而,应当理解,这些域和按位计的尺寸旨在是示例,并且不旨在是排他性的。实际上,本公开的数据结构(例如,指令)可采取任何合适的形式。
如上文所述,集成电路见于众多电子设备,这些电子设备来自手持式设备、计算机、游戏系统、机器人设备、汽车,等等。诸如微处理器之类的一些集成电路处理从存储器检取的数据。虽然数据被存储在表示存储器中的实际位置的物理存储器地址中,但是在集成电路上运行的软件可使用虚拟存储器地址来操作,当存储器被访问时,该虚拟存储器地址被转换为物理存储器地址。被称为转换后备缓冲器(TLB)的集成电路上的结构可通过存储虚拟存储器地址至其对应的物理存储器地址的近期使用的映射来减少访问存储器位置所花费的时间。虚拟至物理转换使用“页”来完成,其中,典型的x86页尺寸为4千位字节(4KiB)、2兆位字节(2MiB)、或1千兆位字节(1GiB)。用于页的TLB条目涵盖与页尺寸对应的地址范围。例如,如果TLB存储用于2MiB页的转换,则存在可由同一TLB条目转换的2MiB虚拟地址的范围。当数据利用电路(例如,在集成电路上的运行软件的处理电路)请求对在近期被使用的且被存储在TLB中的页上的特定虚拟存储器地址的访问时,该TLB可迅速地将虚拟存储器地址转换为其对应的物理存储器地址。
以此方式,TLB可操作为虚拟存储器地址至物理存储器地址的页的映射的高速缓存。当可见于当前被存储在TLB的条目中的特定的页上的虚拟至物理地址映射被请求时,这可被称为“高速缓存命中”或“TLB命中”。然而,当TLB当前不具有被请求的映射时,这可被称为“高速缓存未命中”或“TLB未命中”。在转换发生前,所请求的映射可首先被加载到TLB中。一些软件应用会对TLB未命中损失选择的运行时间,因此减少TLB未命中的数量可增加TLB能够对TLB请求进行响应的速率。
与简单地增加TLB的尺寸来降低TLB未命中的可能性——这会占据集成电路的大量有价值的管芯面积——不同,TLB可具有若干子TLB,这些子TLB处置与存储器的特定页尺寸对应的特定TLB请求。具体而言,各种软件应用可使用具有按照各种尺寸(例如,4千位字节(4KiB)、2兆位字节(2MiB)、或1千兆位字节(1GiB))的页表的存储器。这些在下文中将分别被称为4K、2M和1G。这些是512倍的尺寸比率——例如,2MiB比4KiB大512倍。在某些条件下,可使用较大的页尺寸来取代下一较小的尺寸。这移除约500倍页映射,因此减少对TLB空间的竞争。例如,如果触及100000倍的4KiB页的应用可被提升以使用2MiB页,则TLB仅需要约200个TLB条目,并且该应用将很少取得TLB未命中,并且因此将快得多地运行。
即便如此,一些软件应用可主要经由4K页尺寸来访问存储器,并且可以根本不使用1G页尺寸。其他软件应用可主要经由2M页尺寸来访问存储器,并且可不使用具有4K页尺寸的存储器。因此,可能难以预测存储器使用模式,预测存储器模式将允许TLB最高效地操作。
在本公开中,TLB可使用可配置的子TLB来降低TLB未命中的可能性,该可配置的子TLB可配置成用于在引导后的不同时刻保存不同的页尺寸集以与在引导后保存固定的页尺寸集的固定的子TLB互补。如本文中所使用,页尺寸集表示可由子TLB容纳的页尺寸的集合(其可以是单个页尺寸(例如,4K、2M、1G)或两个或更多个页尺寸(例如,4K+2M、2M+1G、4K+1G、4K+2M+1G))。如下文所讨论,由可配置的子TLB使用的页尺寸集中的页的数量在运行时期间可改变(例如,可配置的全相联的子TLB在运行时期间的不同时刻可以是可重新配置的,以保存1G TLB条目、1G+2M、1G+4K、1G+2M+4K)。
固定的子TLB是在引导后可仅保存一个页尺寸集的子TLB。一些固定的子TLB在设计时可以是固定的,而其他固定的TLB在引导时可以是固定的。在任何情况下,固定的子TLB在引导后可能无法被动态地重新配置以保存不同的页尺寸集。在一个示例中,固定的子TLB可以是被定义为保存具有4K页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存4K TLB条目,但是无法保存2M或1G TLB条目。在另一示例中,固定的子TLB可以是被定义为保存具有4K和2M页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存4K和2M TLB条目,但是无法保存1G TLB条目。在进一步的示例中,固定的子TLB可以是被定义为保存具有2M和1G页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存2M和1G TLB条目,但是无法保存4K TLB条目。一旦要由固定的子TLB使用的页尺寸集被固定(例如,在设计时,在制造时,在现场部署时,在引导时),该固定的TLB就无法保存具有与见于固定的页尺寸集中的页尺寸不同的页尺寸的TLB条目。
相比之下,可配置的子TLB是TLB的、在引导后能够被动态地配置以保存具有多于一个的页尺寸集的TLB条目的部分。以此方式,可配置的子TLB可在操作期间容纳变化的存储器使用。可配置的子TLB的示例包括可配置的集合相联的子TLB或可配置的全相联的子TLB。可配置的集合相联的子TLB可在任何一个时刻支持与存储器的一个特定的页尺寸集对应的TLB条目,但是在引导后可被动态地配置(例如,初始地配置,或从初始配置重新配置),以改变哪个页尺寸集由可配置的集合相联的子TLB保存(例如,在第一时刻仅4K条目,在第二时刻仅2M条目,在第三时刻仅1G条目)一些可配置的集合相联的子TLB可以可配置成在任何一个时刻保存多个页尺寸,并且那多个页尺寸中的哪个页尺寸被配置为被包含在页尺寸集中可在引导后随着存储器使用条件在操作期间改变而被动态地配置(例如,4K和2M、4K和1G、2M和1G)。例如,全相联的子TLB在一个时刻可支持4K/2M/1G页,但是随后可被重配置以仅支持1G页;或者2尺寸集合相联的可配置的子TLB可在一个时刻被配置以支持4K+1G页,并在另一时刻被配置以支持2M+1G页。全相联的子TLB可支持与存储器的多个特定的页尺寸(例如,4K、2M和1G)对应的TLB条目。可配置的子TLB可针对具有不同存储器尺寸使用的不同用例提供附加的灵活性,但是可能涉及比固定集合的子TLB更多的开销。
固定的子TLB与可配置的子TLB之间的差异可进一步通过以下示例来解释。考虑可具有1536倍条目的子TLB,这些条目可保存4K页和2M页的任何混合。此类子TLB可被视为固定的子TLB,因为它可处置由4K页尺寸和2M页尺寸组成的固定的页尺寸集。即便子TLB可能能够处置具有两个页尺寸的页尺寸集,这也是“固定”的。注意,1536=1024+512。一个“可配置的”选项将是建立两个子TLB,一个处置具有1024倍的固定的4K+2M尺寸的第一页尺寸集,并且第二个处置具有512倍的可配置条目的第二页尺寸集,该512倍的可配置条目可在不同时刻被配置以保存尺寸中的任何两个尺寸(例如,4K+2M、4K+1G、2M+1G)。
固定的子TLB和可配置的子TLB的组合可允许尺寸指派在运行时而不是在建立时动态地进行。以此方式,资源可被引导向具有最高未命中率的页尺寸。例如,如果对于具有4K页尺寸的条目需求最大,则可配置的集合相联的子TLB可被配置成用于保存具有包括4K页尺寸(例如,而不是2M或1G)的页尺寸集的条目,或者可配置的全相联的子TLB条目可容纳更多的4K TLB条目和更少的2M或1G TLB条目。在另一示例中,可配置的集合相联的子TLB。虽然本公开提供了与具有涉及可配置的全相联的子TLB和一个或多个固定的集合相联的子TLB的特定的页尺寸的条目的动态分配有关的许多示例,但是应当理解,可使用任何其他合适类型的固定的或可配置的子TLB。例如,可使用可配置的集合相联的子TLB(例如,取代可配置的全相联的子TLB,或取代固定的集合相联的子TLB中的一个或多个)。
这些特征可在任何合适的集成电路器件中使用,合适的集成电路器件包括微处理器、专用基础电路(ASIC)、或现场可编程门阵列(FPGA)。下文参考图1-图9讨论的以下架构旨在表示可被使用的一个示例。
寄存器架构
图1是根据实施例的寄存器架构10的框图。在所图示的实施例中,存在多个(例如,32个)向量寄存器12,这些向量寄存器12可以是多个位(例如,512位)宽的。在寄存器架构10中;这些寄存器被引用为zmm0至zmmi。较低的n个(例如,16个)zmm寄存器的较低阶的(例如,256个)位覆盖在对应的寄存器ymm上。较低的n个zmm寄存器的较低阶的(例如,128个位)(其也是ymm寄存器的较低阶的n个位)覆盖在对应的寄存器xmm上。
写掩码寄存器14可包括m个(例如,8个)写掩码寄存器(k0至km),这些写掩码寄存器各自具有多个(例如,64个)位。附加地或替代地,写掩码寄存器14中的至少一些可具有不同的尺寸(例如,16位)。向量掩码寄存器12中的至少一些(例如,k0)被禁止用作写掩码。当此类向量掩码寄存器被指示时,硬连线的写掩码(例如,0xFFFF)被选择,并且实际上禁用针对那条指令的写掩码。
通用寄存器16可包括具有对应的位尺寸(例如,64)的多个(例如,16个)寄存器,这些对应的位尺寸与x86寻址模式一起使用以对存储器操作数寻址。这些寄存器可通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8至R15来引用。这些寄存器中的至少一些寄存器的部分(例如,寄存器的32个位)可被用于比寄存器的完整长度短的模式(例如,32位模式)。
标量浮点栈寄存器堆(x87栈)18具有被混叠的MMX紧缩整数平坦寄存器堆20。x87栈18是用于使用x87指令集扩展对浮点数据执行标量浮点操作的八元素的(或其他数量的元素的)栈。浮点数据可具有各种精度水平(例如,16位、32位、64位、80位、或更多位)。MMX紧缩整数平台寄存器堆20被用于对64位紧缩整数数据执行操作,并且被用于保存用于在MMX紧缩整数平台寄存器堆20与XMM寄存器之间执行的一些操作的操作数。
替代实施例可以使用更宽的或更窄的寄存器。另外,替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
核架构、处理器和计算机架构
处理器核能以不同的方式、出于不同的目的并且在不同的处理器中实现。例如,此类核的实现可以包括:1)适用于通用计算的通用有序核;2)适用于通用计算的高性能通用乱序核;3)主要适用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括适用于通用计算的一个或多个通用有序核和/或适用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例核架构,随后描述示例处理器和计算机架构。
有序和乱序核架构
图2A是图示出根据本公开的实施例的有序流水线和寄存器重命名的、乱序发布/执行流水线的框图。图2B是图示出根据实施例的要包括在处理器中的有序架构核的实施例和示例寄存器重命名的、乱序发布/执行架构核两者的框图。图2A-图2B中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图2A中,处理器中的流水线30包括取出级32、长度解码级34、解码级36、分配级38、重命名级40、调度(也被称为分派或发布)级42、寄存器读取/存储器读取级44、执行级46、写回/存储器写入级48、异常处置级50和提交级52。
图2B示出处理器核54,该处理器核54包括前端单元56,该前端单元56耦合到执行引擎单元58,并且前端单元56和执行引擎单元58两者都耦合到存储器单元6。处理器核54可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,处理器核54可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元56包括分支预测单元62,该分支预测单元耦合到指令高速缓存单元64,该指令高速缓存单元64耦合到指令转换后备缓冲器(TLB)单元66。TLB 66耦合到指令取出单元68。指令取出单元68耦合到解码电路70。解码电路70(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码电路70可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。处理器核54可包括存储用于宏指令的微代码的微代码ROM或其他介质(例如,在解码电路70中,或以其他方式在前端单元56内)。解码电路70耦合到执行引擎单元58中的重命名/分配器单元72。
执行引擎单元58包括重命名/分配器单元72,该重命名/分配器单元72耦合到引退单元74和一个或多个调度器单元的集合76。(多个)调度器单元76表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元76耦合到(多个)物理寄存器堆单元78。(多个)物理寄存器堆单元78中的每一个物理寄存器堆单元表示存储一种或多种不同数据类型的一个或多个物理寄存器堆,不同的数据类型诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元78包括向量寄存器12、写掩码寄存器14、和/或x87栈18。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元78由引退单元74重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。
引退单元74和(多个)物理寄存器堆单元78耦合到(多个)执行集群80。(多个)执行集群80包括一个或多个执行单元的集合82以及一个或多个存储器访问电路的集合84。执行单元82可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行多个不同功能的多个执行单元。(多个)调度器单元76、(多个)物理寄存器堆单元78、以及(多个)执行集群80被示出为单数或附属,因为一些处理器核54为某些类型的数据/操作创建分开的流水线(例如,各自具有其自身的调度器单元、(多个)物理寄存器堆单元、和/或执行集群的标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线、和/或存储器访问流水线。在分开的存储器访问流水线的情况下,用于该分开的存储器访问流水线的处理器核54是仅有的具有存储器访问电路84的执行集群80。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线执行有序执行。
存储器访问电路84的集合耦合到存储器单元60。存储器单元60包括数据TLB单元86,该数据TLB单元86耦合到数据高速缓存单元88,该数据高速缓存单元88耦合到第二级(L2)高速缓存单元90。存储器访问单元84可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元60中的数据TLB单元86。指令高速缓存单元64还耦合到存储器单元60中的第二级(L2)高速缓存单元90。L2高速缓存单元90到一个或多个其他级别的高速缓存,和/或耦合到主储器。
作为示例,寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线30:1)指令取出68执行流水线30的取出级32和长度解码级34;2)解码电路70执行流水线30的解码级36;3)重命名/分配器单元72执行流水线的分配级38和重命名级40;4)(多个)调度器单元76执行流水线30调度级42;5)(多个)物理寄存器堆单元78和存储器单元60执行流水线30的寄存器读取/存储器读取级44;执行集群80执行流水线30的执行级46);6)存储器单元60和(多个)物理寄存器堆单元78执行流水线30的写回/存储器写入级48;7)各单元可牵涉到流水线的异常处置级50;和/或8)引退单元74和(多个)物理寄存器堆单元78执行流水线30的提交级52。
处理器核54可支持一个或多个指令集(诸如,x86指令集(具有或不具有用于更新版本的附加扩展)、加利福尼亚州桑尼威尔的MIPS技术公司的MIPS指令集、加利福尼亚州桑尼威尔的ARM控股公司的ARM指令集(具有可选附加扩展,诸如NEON))。附加地或替代地,处理器核54包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(诸如,时分取出和解码以及超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但是可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令高速缓存单元64、分开的数据高速缓存单元88、以及共享的L2高速缓存单元90,但是一些实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该处理器可包括内部高速缓存和在处理器核54和/或处理器外部的外部高速缓存的组合。替代地,一些处理器可使用在处理器核54和/或处理器外部的高速缓存。
图3A和图3B图示出有序核架构的更详细的框图。处理器核54包括芯片中的一个或多个逻辑块(包括相同类型和/或不同类型的其他核)。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他I/O逻辑进行通信。
图3A是根据本公开的实施例的单个处理器核54以及它至管芯上互连网络100的连接及其第二级(L2)高速缓存的本地子集104的框图。在一个实施例中,指令解码器102支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存106允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元108和向量单元110使用分开的寄存器集合(分别为标量寄存器112(例如,x87栈18)和向量寄存器114(例如,向量寄存器112)),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存106读回,但是本公开的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集104是全局L2高速缓存单元90的一部分,该全局L2高速缓存单元90被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核54具有到其自身的L2高速缓存的本地子集104的直接访问路径。由处理器核54读取的数据被存储在其L2高速缓存子集104中,并且可以与其他处理器核54访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核54写入的数据被存储在其自身的L2高速缓存子集104中,并在必要的情况下从其他子集转储清除。互连网络100确保共享数据的一致性。互连网络100是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每条数据路径在每个方向上可具有多个(例如,1012个)位的宽度。
图3B是根据本公开的实施例的图3A中的处理器核的一部分的展开图。图3B包括L1高速缓存106的L1数据高速缓存106A部分,以及关于向量单元110和向量寄存器114的更多细节。具体地,向量单元110可以是向量处理单元(VPU)(例如,向量算术逻辑单元(ALU)118),该VPU执行整数、单精度浮点以及双精度浮点指令中的一条或多条。该VPU通过混合单元120支持对寄存器输入的混合,通过数值转换单元122A和122B支持数值转换,并且通过复制单元124支持对存储器输入的复制。写掩码寄存器14允许预测所得的向量写入。
图4是根据本公开的实施例的可具有多于一个的处理器核54、可具有(多个)集成存储器控制器单元132、以及可具有集成图形器件的处理器130的框图。图4中的实线框图示出具有单个核54A、系统代理单元134、一个或多个总线控制器单元的集合138的处理器130,而虚线框的任选的附加图示出具有多个核54A-54N、系统代理单元134中的一个或多个集成存储器控制器单元的集合132、以及专用逻辑136的处理器130。
因此,处理器130的不同实现可包括:1)CPU,其中专用逻辑136是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核54A-N是一个或多个通用核(例如,通用有序核、通用乱序核、或其组合);2)协处理器,其中核54A-N是旨在主要用于图形和/或科学(吞吐量)的相对大量的专用核;以及3)协处理器,其中核54A-N是相对大量的通用有序核。因此,处理器130可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器130可以被实现在一个或多个芯片上。处理器130可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核内的一个或多个高速缓存级别、一个或多个共享高速缓存单元的集合140、以及耦合到集成存储器控制器单元的集合132的外部存储器(未示出)。共享高速缓存单元的集合140可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然基于环的互连网络100可将集成图形逻辑136(集成图形逻辑136是其示例,并且在本文中还被称为专用逻辑136)、共享高速缓存单元的集合140和/或系统代理单元134/(多个)集成存储器控制器单元132互连,但是可使用任何数量的公知技术来互连此类单元。例如,可在一个或多个高速缓存单元142A-N与核54A-N之间维持一致性。
在一些实施例中,一个或多个核54A-N能够实现多线程化。系统代理单元134包括协调和操作核54A-N的那些组件。系统代理单元134可包括例如功率控制单元(PCU)和显示单元。PCU可以是或可包括用于对核54A-N以及集成图形逻辑136的功率状态进行调节的逻辑和组件,或可包括这些逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核54A-N在架构指令集方面可以是同构或异构的。也就是说,核54A-N中的两个或更多个可以能够执行同一指令集,而其他核可能仅能够执行单个指令集的子集或不同的指令集。
计算机架构
图5-图8是计算机架构的实施例的框图。这些架构可适于膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置。一般而言,能够并入处理器130和/或其他执行逻辑的各种广泛的系统或电子设备。
现在参考图5,所示出的是根据实施例的系统150的框图。系统150可以包括一个或多个处理器130A、130B,这些处理器耦合到控制器中枢152。控制器中枢152可包括图形存储器控制器中枢(GMCH)154和输入/输出中枢(IOH)156(其可以在分开的芯片上);GMCH 154包括存储器和图形控制器,存储器158和协处理器160耦合到该存储器和图形控制器;IOH 156将输入/输出(I/O)设备164耦合到GMCH 154。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器130内,存储器158和协处理器160耦合到(例如,直接耦合到)处理器130A,并且控制器中枢152与IOH 156处于单个芯片中。
附加的处理器130B的任选性在图5中通过虚线来表示。每一处理器130A、130B可包括本文中描述的处理核54中的一个或多个,并且可以是处理器130的某一版本。
存储器158可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或其组合。对于至少一个实施例,控制器中枢152经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接162与(多个)处理器130A、130B进行通信。
在一个实施例中,协处理器160是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在实施例中,控制器中枢152可以包括集成图形加速器。
在处理器130A、130B的物理资源之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一些实施例中,处理器130A执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器130A将这些协处理器指令识别为具有应当由附连的协处理器160执行的类型。因此,处理器130A在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器160。协处理器160接受并执行所接收的协处理器指令。
现在参见图6,所示出的是根据实施例的多处理器系统170的更详细的框图。如图6中所示,多处理器系统170是点对点互连系统,并且包括经由点对点接口190耦合的处理器172和处理器174。处理器172和174中的每一个都可以是处理器130的某一版本。在本公开的一个实施例中,处理器172和174分别是处理器130A和130B,而协处理器176是协处理器160。在另一实施例中,处理器172和174分别是处理器130A和协处理器160。
处理器172和174示出为分别包括集成存储器控制器(IMC)单元178和180。处理器172还包括点对点(P-P)接口182和184作为其总线控制器单元的部分。类似地,处理器174包括P-P接口186和188。处理器172、174可经由使用P-P接口184、188的点对点接口190来交换信息。如图6中所示,IMC178和180将处理器耦合到相应的存储器,即存储器192和存储器193,这些存储器可以是本地附连到相应处理器172、174的主存储器的不同部分。
处理器172和174可各自经由使用点对点接口182、200、186、202的各个P-P接口196、198与芯片组194交换信息。芯片组194可以任选地经由高性能接口204来与协处理器174交换信息。在实施例中,协处理器176是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器172或174中,或在这两个处理器172或174的外部的、经由相应的P-P互连与处理器172、174连接,使得如果相应的处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组194可以经由接口208耦合到第一总线206。在实施例中,第一总线206可以是外围组件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本公开的范围不限于此。
如图6中所示,各种I/O设备210可连同总线桥212一起耦合到第一总线206,该总线桥212将第一总线206耦合到第二总线214。在实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器216耦合到第一总线206。在实施例中,第二总线214可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线214,这些设备包括例如键盘和/或鼠标218、通信设备220以及存储单元222,该存储单元222诸如可包括指令/代码和数据224的盘驱动器或者其他大容量存储设备。此外,音频I/O 226可以被耦合到第二总线214。注意,可为多处理器系统170部署其他架构。例如,代替图6的点对点架构,多处理器系统170可以实现多分支总线或其他此类架构。
现在参考图7,所示出的是根据实施例的系统230的框图。图7和图8中的类似元件包含类似的附图标记,并且已从图7中省略了图6的某些方面以避免混淆图7的其他方面。
图7图示处理器172、174可分别包括集成存储器和I/O控制逻辑(“IMC”)178和180。因此,IMC 178、180包括集成存储器控制器单元,并包括I/O控制逻辑。图7示出不仅存储器192、193耦合至IMC 178、180,而且I/O设备231也耦合至IMC 178、180。传统I/O设备232经由接口208耦合至芯片组194。
现在参考图8,示出的是根据实施例的SoC 250的框图。图4中的类似要素具有类似的附图标记。另外,虚线框是被包括在一些SoC 250中的任选的特征。在图8中,(多个)互连单元252被耦合到:应用处理器254,其包括一个或多个核的集合54A-N的集合以及(多个)共享高速缓存单元140,一个或多个核的集合54A-N包括高速缓存单元142A-N;系统代理单元134;(多个)总线控制器单元138;(多个)集成存储器控制器单元132;一个或多个协处理器的集合256,其可包括集成图形逻辑、图像处理器、音频处理器和/或视频处理器;静态随机存取存储器(SRAM)单元258;直接存储器存取(DMA)单元260;以及用于耦合到一个或多个外部显示器的显示单元262。在实施例中,(多个)协处理器256包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本公开的实施例可实现为在可编程系统上执行的计算机程序和/或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图6中图示的数据224)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。程序代码还能以汇编语言或以机器语言来实现。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡、光卡;或适于存储电子指令的任何其他类型的介质。
因此,本公开的实施例包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如按照硬件描述语言(HDL)的设计,它可定义本文中描述的结构、电路、装置、处理器和/或系统特征。此类实施例也可被称为程序产品。
仿真
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以实现在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图9是根据本公开的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其任何组合来实现。图9示出可使用x86编译器282来编译高级语言280形式的程序,以生成可由具有至少一个x86指令集核的处理器286原生执行的x86二进制代码284。具有至少一个x86指令集核的处理器286表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的本质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器282表示可操作用于生成x86二进制代码284(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器286上执行。
类似地,图9示出可以使用替代的指令集编译器288来编译高级语言280形式的程序,以生成可以由不具有至少一个x86指令集核的处理器292(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的处理器核54的处理器)原生执行的替代的指令集二进制代码290。指令转换器294用于将x86二进制代码284转换成可以由不具有x86指令集核的处理器292原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码290相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码可完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器294通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码284的软件、固件、硬件或其组合。
转换后备缓冲器(TLB)
如上文所讨论,集成电路可出于各种目的(例如,指令数据、用户数据)检取存储器。虽然数据被存储在表示存储器设备中的实际位置的物理存储器地址中,但是在集成电路上运行的软件可使用虚拟存储器地址来操作,当存储器被访问时,该虚拟存储器地址被转换为物理存储器地址。被称为转换后备缓冲器(TLB)(例如,指令TLB 66或数据TLB 86)的集成电路上的结构可通过存储虚拟存储器地址至其对应的物理存储器地址的近期使用的映射来减少访问存储器位置所花费的时间。虽然下文的公开内容专门参考TLB 86,但是应当理解,与TLB 86有关的架构和方法可在任何合适的TLB(其可包括TLB 66或其他TLB)中被使用。当数据利用电路(例如,运行软件的处理电路)请求对在近期被使用的且被存储在TLB中的特定虚拟存储器地址的访问时,该TLB可迅速地将虚拟存储器地址转换为其对应的物理存储器地址。
例如,如图10中所示,TLB 86可接收TLB请求300(例如,标识虚拟存储器地址的请求),该TLB请求300在TLB 86中具有对应的TLB条目。这可被称为“高速缓存命中”或“TLB命中”。TLB 86可利用响应302(例如,标识与虚拟存储器地址对应的物理地址)来作出响应。然而,如图11中所示,当TLB当前不具有与TLB请求300对应的TLB条目时,这可被称为“高速缓存未命中”或“TLB未命中”。TLB未命中处置过程被用于获得对应的TLB条目,包括地址映射和页尺寸(例如,可通过一个或多个页表306执行搜索304)两者以获得对应的TLB条目308TLB 86可将TLB条目308加载到TLB中,并且发布TLB响应302。
TLB86可使用可配置的子TLB来降低TLB未命中的可能性,该可配置的子TLB可配置成用于在引导后的不同时刻保存不同的页尺寸集以与在引导后保存固定的页尺寸集的固定的子TLB互补。如本文中所使用,页尺寸集表示可由子TLB容纳的页尺寸的集合(其可以是单个页尺寸(例如,4K、2M、1G)或两个或更多个页尺寸(例如,4K+2M、2M+1G、4K+1G、4K+2M+1G))。如下文所讨论,由可配置的子TLB使用的页尺寸集中的页的数量在运行时期间可改变(例如,可配置的全相联的子TLB在运行时期间的不同时刻可以是可重新配置的,以保存1GTLB条目、1G+2M、1G+4K、1G+2M+4K)。
如上文所提及,固定的子TLB是在引导后可仅保存一个页尺寸集的子TLB。一些固定的子TLB在设计时可以是固定的,而其他固定的TLB在引导时可以是固定的。在任何情况下,固定的子TLB可以在引导后不被动态地重新配置以保存不同的页尺寸集。在一个示例中,固定的子TLB可以是被定义为保存具有4K页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存4K TLB条目,但是无法保存2M或1G TLB条目。在另一示例中,固定的子TLB可以是被定义为保存具有4K和2M页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存4K和2M TLB条目,但是无法保存1G TLB条目。在进一步的示例中,固定的子TLB可以是被定义为保存具有2M和1G页尺寸的固定的页尺寸集的子TLB;在运行时期间,该固定的子TLB可保存2M和1G TLB条目,但是无法保存4K TLB条目。一旦要由固定的子TLB使用的页尺寸集被固定(例如,在设计时,在制造时,在现场部署时,在引导时),该固定的TLB就无法保存具有与见于固定的页尺寸集中的页尺寸不同的页尺寸的TLB条目。
相比之下,可配置的子TLB是TLB的、在引导后能够被动态地配置以保存具有多于一个的页尺寸集的TLB条目的部分。以此方式,可配置的子TLB可在操作期间容纳变化的存储器使用。可配置的子TLB的示例包括可配置的集合相联的子TLB或可配置的全相联的子TLB。可配置的集合相联的子TLB可在任何一个时刻支持与存储器的一个特定的页尺寸集对应的TLB条目,但是在引导后可被动态地配置(例如,初始地配置,或从初始配置重新配置),以改变哪个页尺寸集由可配置的集合相联的子TLB保存(例如,在第一时刻仅4K条目,在第二时刻仅2M条目,在第三时刻仅1G条目)一些可配置的集合相联的子TLB可以被配置成在任何一个时刻保存多个页尺寸,并且那多个页尺寸中的哪个页尺寸被配置为被包含在页尺寸集中可在引导后随着存储器使用条件在操作期间改变而被动态地配置(例如,4K和2M、4K和1G、2M和1G)。例如,可配置的全相联的子TLB在一个时刻可支持4K/2M/1G页,但是随后可被重配置以仅支持1G页;或者2尺寸集合相联的可配置的子TLB可在一个时刻被配置以支持4K+1G页,并在另一时刻被配置以支持2M+1G页。可配置的全相联的子TLB可支持与存储器的多个特定的页尺寸(例如,4K、2M和1G)对应的TLB条目。可配置的子TLB可针对具有不同存储器尺寸使用的不同用例提供附加的灵活性,但是可能涉及比固定的子TLB更多的开销。
固定的子TLB与可配置的子TLB之间的差异可进一步通过以下示例来解释。考虑可具有1536倍条目的固定的子TLB,这些条目可保存4K页和2M页的任何混合。此类子TLB可被视为固定的子TLB,因为它可处置由4K页尺寸和2M页尺寸组成的固定的页尺寸集。即便子TLB可能能够处置具有两个页尺寸的页尺寸集,这也是“固定”的。注意,1536=1024+512。一个“可配置的”选项将是建立两个子TLB,一个处置具有1024倍的固定的4K+2M尺寸的第一页尺寸集,并且第二个处置具有512倍的可配置条目的第二页尺寸集,该512倍的可配置条目可在不同时刻被配置以保存尺寸中的任何两个尺寸(例如,4K+2M、4K+1G、2M+1G)。
为了进行重申,子TLB可在以下方面变化:(1)它支持的(多个)尺寸——可能是一个页尺寸,但是可能是若干个页尺寸;以及(2)所支持的页尺寸的集合是否是固定的设计时(或者说,引导时)选择,或它是否能够被动态地重新配置/调整。本公开的系统可与可使用以下各项的许多TLB(例如,某些第一级TLB(L1DTLB))的结构形成对照:(1)支持仅一个尺寸的固定的集合相联的子TLB,并且该尺寸在设计时被选择(“一个尺寸”使其更易于满足电路时序);或(2)小的全相联的子TLB。这些全相联的子TLB可以是单尺寸(如在许多情况下,其可使用1G FA子TLB)或多尺寸(如在许多情况下,其在FA TLB中支持4K/2M/1G)的,但是尺寸选择在设计时被固定,并且它们不使全尺寸FA子TLB与另一子TLB配对,因此它们没有决定要使用哪个子TLB来填充条目的问题/考量——L1DTLB仅是4K+2M+1G FA结构,因此没有它们能够选择的其他子TLB。
本公开的系统和方法还可与其他TLB的结构形成对照,其他TLB诸如使用支持两个尺寸的固定的集合相联的子TLB的许多第二级TLB(L2TLB),并且该尺寸在设计时被固定。对于许多处理器,存在支持4K+2M页的任何混合的L2子TLB。“两个尺寸”使得更难满足电路时序(因此不在L1TB中使用),但是能够更高效,因为所有条目能够被用于尺寸的任何混合。然而,虽然这是多个尺寸,但是尺寸在设计时被选择。
本文中所使用的是支持动态可配置的页尺寸的子TLB。这回避了一些电路设计问题(例如,建立固定的2尺寸L2子TLB会具有一些弊端,建立固定的3尺寸L2子TLB会具有甚至更多弊端)。使用可配置的2尺寸TLB使我们挑选要支持的2个页(因此,它是3尺寸的,但一时刻仅具有2个尺寸),这放弃了一些灵活性,但是这是比固定的3尺寸子TLB更简单/更快的电路。考虑在其中本公开的TLB具有固定配置的2尺寸子TLB、固定配置的3尺寸子TLB、以及可在三个尺寸之间进行配置的(但是一个时刻仅具有两个尺寸)可配置的2尺寸子TLB的示例。在此,将该示例的可配置的子TLB视为是“2尺寸”的是言之有理的,因为它对于任何一个配置仅具有2个尺寸,但是它也是“3尺寸”的,因为它可在3个页尺寸之间进行重新配置(即便在任何给定的配置中它仅可支持2个页尺寸)。注意,在一些情况下,可配置的子TLB可以是能够保存一些尺寸的唯一的子TLB——例如,TLB可以是可配置的全相联的子TLB,其是用于保存1G TLB条目的唯一地方。因此在其中存在许多1G TLB条目(或对1G TLB条目的高未命中率)的情况下,期望防止4K/2M映射驱逐1G映射。因此,在诸如这些情况的情况下,一些页尺寸在某些条件下可被视为是“特殊的”(例如,它们可被标记为“粘性”,如下文进一步所讨论)。
固定的子TLB和可配置的子TLB的组合可允许尺寸指派在运行时而不是在建立时动态地进行。以此方式,资源可被引导向具有最高未命中率的页尺寸。例如,如果对于具有4K页尺寸的条目需求最大,则可配置的集合相联的子TLB可被配置成用于保存具有包括4K页尺寸(例如,而不是2M或1G)的页尺寸集的条目,或者可配置的全相联的子TLB条目可容纳更多的4K TLB条目和更少的2M或1G TLB条目。在另一示例中,可配置的集合相联的子TLB。虽然本公开提供了与具有涉及可配置的全相联的子TLB和一个或多个固定的集合相联的子TLB的特定的页尺寸的条目的动态分配有关的许多示例,但是应当理解,可使用任何其他合适类型的固定的或可配置的子TLB。例如,可使用可配置的集合相联的子TLB(例如,取代全相联的子TLB,或取代固定的集合相联的子TLB中的一个或多个)。
在图12-图15中示出TLB的若干非限制性示例,其中,可配置的全相联的子TLB与若干固定的集合相联的子TLB互补。虽然以下公开内容中的许多内容提供了与使用可配置的全相联的子TLB和一个或多个固定的集合相联的子TLB对具有特定页尺寸的条目进行动态分配的示例,但是应当理解,可是哟红可配置的集合相联的子TLB(例如,取代可配置的全相联的子TLB,或取代固定页尺寸的集合相联的子TLB中的一个或多个)。例如,常规TLB能以配置成用于保存1G映射的固定的子TLB建立。在较旧的软件上运行的较新的硬件可能经历在其中1G页从未被使用的用例,因此,替代地建立可配置的子TLB可能是优势,并且当没有1G页正在被使用时,它可被配置成保存全部4K或全部2K。类似地,可以存在3个页尺寸和4个子TLB,其中,子TLB中的一个是集合相联的且可配置的,并且“游走”在多个页尺寸之间,以助力解决当前具有最糟的未命中问题的无论什么页尺寸。
作为具体示例,TLB可使用保存4K和2M映射的固定的集合相联的子TLB、以及保存1G映射的全相联的子TLB。全相联的子TLB可用2尺寸固定的集合相联的子TLB替换,其中,尺寸可被重新配置为以下尺寸中的一些或全部:仅4K、仅2M、仅1G、4K+2M、4K+1G、或2M+1G。例如,如果没有1G页在使用中,则它可被配置为4K+2M;如果1G页在使用中,则取决于哪个页当前正在遭受最糟的未命中率,它可被配置为4K+1G或2M+1G。
转到图12,TLB 86包括与三个不同的存储器页对应的固定的集合相联的子TLB320、322和324。在将在下文中讨论的示例中,固定的集合相联的子TLB 320、322和324可以是支持具有单个相应的特定页尺寸的特定的页尺寸集的相应的固定的集合相联的子TLB。附加地或替代地,TLB 86可使用支持包括多个页尺寸的页尺寸集(例如,4K+2M、2M+1G、4K+1G)的一个或多个固定的集合向量的子TLB。此外,附加地或替代地,固定的集合相联的子TLB 320、322和324可以是可被改变(例如,在上下文切换时,或基于与针对特定的页尺寸的TLB未命中有关的计数)以在不同时刻支持不同的特定页尺寸集(例如,在以一个时刻全部为1G,在另一时刻全部为4K)的可配置的集合向量的子TLB。此外,虽然这三个存储器页尺寸被示出为4K、2M和1G,但是应当理解,可采用任何合适的页尺寸(其中的一些可具有对应的固定的子TLB,并且其中的一些或全部也可以是可存储在可配置的子TLB中的)。在图12的示例中,固定的集合相联的子TLB 320、322和324由可配置的全相联的子TLB 326互补。在该示例中的固定的集合相联的子TLB 320、322和324支持与存储器的以一个特定的页尺寸(例如,4K、2M或1G)对应的TLB条目。可配置的全相联的(FA)子TLB 326可支持与存储器的若干特定的页尺寸(例如,4K、2M和1G)对应的TLB条目,但是会涉及比固定的集合相联的子TLB320、322和324更多的开销。换言之,可配置的全相联的(FA)子TLB 326可支持至少部分地与由固定的集合相联的子TLB 320(4K+2M+1G相对于4K)、固定的集合相联的子TLB 322(4K+2M+1G相对于2M)和固定的集合相联的子TLB 324(4K+2M+1G相对于1G)支持的相应的页尺寸集不同的页尺寸集。
还可使用其他组合。例如,图13图示示例TLB 86,该示例TLB 86包括可配置的全相联的子TLB 326和固定的集合相联的子TLB 320和322。图14图示示例TLB 86,该示例TLB 86包括可配置的全相联的子TLB 326和固定的集合相联的子TLB 322和324。图15图示示例TLB86,该示例TLB 86包括可配置的全相联的子TLB 326和固定的集合相联的子TLB 320和324。其他示例仍可包括更多或更少的子TLB,其由可配置的全相联的子TLB 326互补。
在继续之前,要注意由固定的集合相联的子TLB 320、322和324以及可配置的全相联的子TLB 326支持的条目的数量可有所不同。例如,子TLB 320可保存比子TLB 322更多的条目,并且子TLB 322可保存比子TLB 324更多的条目。由于可配置的全相联的子TLB 326可涉及更多开销(例如,由于其TLB条目或在操作它时所涉及的控制电路的尺寸可能占据更多管芯空间),因此在一些情况下,可配置的全相联的子TLB 326可保存比固定的集合相联的子TLB 320、322或324更少的条目。在其中可配置的全相联的子TLB 326取代固定的集合相联的子TLB 320、322或324的示例中,可配置的全相联的子TLB326可具有与那个固定的集合相联的子TLB 320、322或324对应的尺寸。例如,可配置的全相联的子TLB 326当取代固定的集合相联的子TLB 320时可以比当取代集合相联的子TLB 324时更大。此外,这些示例描述了TLB 86,其中,固定的集合相联的子TLB 320保持与4K存储器页尺寸对应的TLB条目,固定的集合相联的子TLB 322保存与2M存储器页尺寸对应的TLB条目,固定的集合相联的子TLB324保存与1G存储器页尺寸对应的TLB条目,并且可配置的全相联的子TLB条目326保存与4K、2M和1G存储器页尺寸对应的TLB条目。然而,应当理解,可使用任何合适的存储器页尺寸、任何合适数量的存储器页尺寸,并且任何合适的页尺寸集合可分别由不同的子TLB支持。例如,可存在超出子TLB 320、322或324的附加或不同的固定的集合相联的子TLB。此外,全相联的TLB 326可保存针对不由任何其他固定的集合相联的子TLB保存的页尺寸的TLB条目。在一个示例中,可配置的全相联的子TLB 326可保存针对4KiB、2MiB、1GiB和512GiB页尺寸的TLB条目。
下文的示例将描述TLB 86,该TLB 86包括可配置的全相联的子TLB 326和固定的集合相联的子TLB 320和322(其中,可配置的全相联的子TLB 326取代固定的集合相联的子TLB 324)。然而,应当理解,本公开的系统和方法不限于该示例,并且可与任何合适的布置一起使用。在图16中示出的TLB 86中,固定的集合相联的子TLB 320保存4K TLB条目340,固定的集合相联的子TLB 322保存2M TLB条目342,并且可配置的全相联的子TLB 326保存4KTLB条目340、2M TLB条目342和1G TLB条目346。TLB控制电路348可包括控制TLB 86的操作的任何合适的电路,诸如,(多个)合适的状态机。虽然TLB控制电路348在逻辑上示出在TLB86上的一个位置中,但是它可跨各子TLB 320、322和326分布。
新TLB条目后续将被存储在TLB 86中。为了这样做,现有的TLB条目被选择,该现有的TLB条目将被“驱逐”或“替换”以为新TLB条目腾出空间。在常规TLB中,仅有的替换候选来自与所指示的页尺寸相关联的固定的子TLB。为了获得来自可配置的全相联的子TLB的效率,新TLB条目可被选择以替换来自对应的固定的集合相联的子TLB或可配置的全相联的子TLB的TLB条目。一个示例由图17的流程图360示出。可接收TLB请求(框362)。如果存在与TLB请求对应的TLB条目(“TLB命中”)(决策框363),则TLB可基于所存储的TLB条目来作出响应(框364)。如果不存在与TLB请求对应的TLB条目(“TLB未命中”)(决策框363),则TLB可从适当的页表检取对应的TLB条目(框366)。TLB可使用任何合适的准则来选择在哪个子TLB中用于存储新TLB条目(决策368)。将在下文进一步讨论进一步的示例。
当与TLB请求的存储器页尺寸对应的固定的集合相联的(SA)子TLB被选择时,新TLB条目可以基于该固定的集合相联的子TLB的策略来替换该固定的集合相联的子TLB上的现有条目。例如,新TLB条目可按照近期最少使用(LRU)或伪近期最少使用(pLRU)方案来替换现有TLB条目。当可配置的全相联的(FA)子TLB被选择时,新TLB条目可基于该可配置的全相联的子TLB的策略来替换现有条目(框372)。在下文还将进一步讨论这些策略的若干示例。
例如,如图18中所示,固定的集合相联的子TLB 320保存4K TLB条目340,固定的集合相联的子TLB 322保存2M TLB条目342,并且可配置的全相联的子TLB 326保存4K TLB条目340、2M TLB条目342和1G TLB条目346。TLB控制电路348可选择将新TLB条目308(此处示出为4K TLB条目)存储在子TLB 320或可配置的全相联的(FA)子TLB 326中。如果子TLB 320被选择,则新TLB条目308可替换现有的4K TLB条目340。如果可配置的全相联的子TLB 320被选择,则新TLB条目308可替换具有相同或不同的页尺寸的现有TLB条目。
固定的子TLB或可配置的子TLB的选择
可存在许多方式来选择将新TLB条目存储在对应的固定的子TLB中还是存储在可配置的子TLB中。这些可被单独地或组合地使用。图19图示在其中各种子TLB的未命中率被跟踪并在决策中被考虑的一个示例。在此,“未命中率”一般是指近期未命中的比率——在某个阈值时间量之前(例如,数分钟或数小时)发生的未命中可被忽略。在图19中示出的TLB86中,固定的集合相联的子TLB 320保存4K TLB条目340,固定的集合相联的子TLB 322保存2M TLB条目342,并且可配置的全相联的子TLB 326保存4K TLB条目340、2M TLB条目342和1G TLB条目346。TLB 86可跟踪表示子TLB 320的近期未命中率的4K未命中率380、以及表示子TLB 322的近期未命中率的2M未命中率382。附加地或替代地,TLB 86还可跟踪表示可配置的全相联的(FA)子TLB 326的近期未命中率的FA未命中率384。在一个示例中,未命中率382、384和386可表示指数移动平均(EMA)。在一些情况下,未命中率382、384或386可替代地对指数移动平均进行近似,这可以需要承担较低的硬件成本。
通过跟踪子TLB的未命中率,全相联的TLB可被预留用于具有当前正在经历最高需求的页尺寸(例如,4K或2M)的TLB条目。图20和图21表示用于决定将新TLB条目存储到哪个子TLB中的决策368(在图17中图示)对应的示例流程图。在图20中,决策368可涉及:跟踪固定的集合相联的子TLB的未命中率(框402)。如果新TLB条目不与当前正在经历最高未命中率的子TLB的页尺寸对应(决策404),则可选择与新TLB的页尺寸相关联的固定的集合相联的子TLB(框406)。这有效地减少了对可配置的全相联的子TLB的竞争。也就是说,如果新TLB条目与当前正在经历最高未命中率的子TLB的页尺寸对应(决策404),则可选择可配置的全相联的子TLB或与新TLB的页尺寸相关联的固定的集合相联的子TLB(框408)。
在一些情况下,可考虑可配置的全相联的子TLB的未命中率。例如,如图21中所示,决策368可涉及:跟踪固定的集合相联的子TLB和可配置的全相联的子TLB的未命中率(框422)。当可配置的全相联的子TLB具有最大未命中率(决策424)时,可选择可配置的全相联的子TLB或与新TLB的页尺寸相关联的固定的集合相联的子TLB(框426)。否则,如果新TLB条目不与当前正在经历最高未命中率的子TLB的页尺寸对应(决策428),则可选择与新TLB的页尺寸相关联的固定的集合相联的子TLB(框430)。如果新TLB条目与当前正在经历最高未命中率的子TLB的页尺寸对应(决策428),则可选择可配置的全相联的子TLB或与新TLB的页尺寸相关联的固定的集合相联的子TLB(框432)。
附加地或替代地,TLB可取决于在对应的固定的集合相联的TLB与可配置的全相联的TLB之间的条目的可用性比率来选择将新TLB条目存储在固定的集合相联的子TLB中还是存储在可配置的全相联的子TLB中。图22的流程图可表示决策368和/或框408、426或432的操作。可确定对应的固定的集合相联的TLB与可配置的全相联的TLB之间的可用条目的比率(框440),并且可基于比率被随机地或伪随机地选择特定的子TLB(对应的固定的集合相联的子TLB或可配置的全相联的子TLB)(框442)。这可被称为“抛硬币”方式。
图23提供示例。在此,在TLB 86中,4K子TLB可保存64个4K TLB条目340,子TLB 322可保存32个2M TLB条目342,并且可配置的全相联的子TLB 326可保存总共8个的以下各项:4K TLB条目340、2M TLB条目342、以及1G TLB条目346。因此,当决定在何处存储具有4K页尺寸的新TLB条目308时,对于该示例,该新TLB条目308可按以下比例被伪随机地指派给子TLB320或可配置的全相联的子TLB 326:64/(64+8)指派给子TLB 320,并且8/(64+8)指派给可配置的全相联的子TLB 326。
附加地或替代地,向可配置的全相联的子TLB 326的分配可小于100%。在一个示例中,可用条目在可配置的全相联的子TLB 326中的分配可在固定的集合相联的子TLB 320与322之间划分(例如,50%分配给4K,并且50%分配给2M)。在另一示例中,如下文进一步所讨论,全相联的TLB 326的一些TLB条目可被标记为针对另一页尺寸是“粘性”的且因此不可用。划分对可配置的全相联的子TLB 326的TLB条目的指派可产生不同结果。例如,如果可配置的全相联的子TLB 326的TLB条目被划分为50%给4K尺寸且50%给2M尺寸,则用于指派具有4K尺寸的新TLB条目的比例可以是64/(64+4)给子TLB320且4/(64+4)给可配置的全相联的子TLB 326。
用于可配置的子TLB和“粘性”条目的替换策略
还可存在许多方式来替换可配置的子TLB中的条目,并且这些方式也可被单独地或组合地使用。在一个示例中,如由图24的流程图460所示,可监测新TLB条目被添加到可配置的全相联的子TLB所按照的顺序(框464)。可基于该顺序、使用近期最少使用(LRU)或伪近期最少使用(pLRU)用新TLB条目来替换可配置的全相联的子TLB中的现有TLB条目。
另一示例涉及:将可配置的全相联的子TLB的某些TLB条目或条目位置指定为“粘性”,或指定为被预留用于仅具有特定的一个或多个页尺寸的TLB条目。由此,“粘性”TLB条目可仅由具有相同的一个或多个“粘性”页尺寸的新TLB条目替换。例如,当可配置的全相联的子TLB取代2M固定的集合相联的子TLB和1G固定的集合相联的子TLB时,可能期望防止由4K条目支配2M和1G TLB条目。在该示例中,将1G和2M TLB条目标记为“粘性”可防止4K条目(“非粘性”页尺寸)驱逐2M TLB条目或1G TLB条目。在另一示例中,当可配置的全相联的子TLB取代1G固定的集合相联的子TLB时,1G页尺寸可被视为“粘性”,并且2M和4K页尺寸可被视为“非粘性”。在该示例中,将1G TLB条目标记为“粘性”可防止1G TLB条目被2M或4KB TLB条目驱逐。附加地或替代地,将TLB条目或条目位置标记为“粘性”可防止TLB条目被无论具有什么页尺寸的新TLB条目驱逐。
图25图示TLB 86的示例,其中,TLB控制电路348可设置一个或多个“粘性”位470,以预留用于具有特定的页尺寸的TLB条目的特定的子TLB条目或条目位置。在图25的示例中,固定的集合相联的子TLB 320保存4K TLB条目340,固定的集合相联的子TLB 322保存2MTLB条目342,并且可配置的全相联的子TLB 326保存4K TLB条目340、2M TLB条目342和1GTLB条目346。在该示例中,由于1G TLB条目346不具有为它们指定的单独的固定的集合相联的子TLB,因此可使用一个或多个粘性位470来预留用于1G TLB条目346的可配置的全相联的子TLB 326的子TLB条目。在其他示例中,可使用一个或多个粘性位470来预留可配置的全相联的子TLB 326的子TLB条目,以用于与一个或多个其他页尺寸相关联的任何条目。例如,当可配置的全相联的子TLB 326取代不同的固定的集合相联的子TLB 320或322时(例如,如在图14或图15中),与那个页尺寸相关联的条目可通过一个或多个粘性位470被预留。在另一示例中,由一个或多个粘性位470预留的一个或多个页尺寸可以是尤其被需要的某个或某些页尺寸(例如,由未命中率来衡量,或由基于来自操作系统的指令而被编程的寄存器来指示)。
一个或多个粘性位470能以各种方式来实现和使用。在一个示例中,一个或多个粘性位470可与每个TLB条目相关联,但是仅在某些条件下被设置(例如,当1G TLB被存储在特定的TLB条目位置中时)。在另一示例中,可存在仅一个全局粘性位。一旦特定的页尺寸(例如,1G)已在任何TLB条目中被使用,该全局粘性位就可使TLB不使具有不同页尺寸(例如,4K或2M)的TLB条目驱逐具有该特定页尺寸(例如,1G)的TLB条目。在另一示例中,针对每个页尺寸可存在一个粘性位。例如,如果4K页是高未命中“问题”且2M页不是该问题,则粘性位可防止2M页绝不驱逐2M页,但是可允许4K页驱逐2M页。
在一些情况下,如由图26的流程图480所述,当具有特定的页尺寸集的新TLB条目308被存储到可配置的全相联的子TLB中时(框482),它可被标记为“粘性”,使得它将不由具有“非粘性”页尺寸集的TLB条目替换(例如,在“粘性”页尺寸集仅是1G的情况下,被标记为粘性的1G TLB条目可仅由1G TLB条目替换,而不由4K或2M TLB条目替换;在“粘性”页尺寸集仅是2M和1G的情况下,被标记为粘性的2M或1G TLB可仅由2M或1G TLB条目替换,而不由4K TLB条目替换)(框484)。在由图27的流程图490示出的另一示例中,但具有特定页尺寸的新TLB条目308被存储到可配置的全相联的子TLB 326中时,它还不可被标记为“粘性”(框492)。此后,响应于针对该TLB条目的TLB命中,该TLB条目可被标记为“粘性”(框494),使得它将不被具有“非粘性”页尺寸集的TLB条目替换(框496)。
可基于与TLB的特定度量的使用有关的计数(例如,使用的直接计数、每许多次使用被递增的技术、与特定的使用的数量有关的某个其他代理指示)将可配置的全相联的子TLB的某些TLB条目标记为“粘性”。图28图示TLB 86的示例,其中,TLB控制电路348可使用计数器500,该计数器500与可配置的全相联的子TLB 326的TLB条目位置相关联。一个或多个“粘性”位可被设置,以基于计数器500在某个时间段内达到阈值来预留用于具有特定页尺寸的TLB条目的特定的子TLB条目位置。例如,如由图29的流程图510所示,可对每个全相联的子TLB条目位置被用于具有一个或多个特定的尺寸(例如,4K、2M、1G、2M或1G、4K或2M、4K或1G)的TLB条目的次数进行计数(框512)。这可被视为可对具有感兴趣的单个页尺寸或若干页尺寸的TLB条目计数的“根据使用”计数器。例如,当可配置的全相联的子TLB取代1G固定的集合相联的子TLB时,可对1G TLB条目被存储的次数进行计数(例如,逐条目地或全局地)。在另一示例中,当可配置的全相联的子TLB取代2M固定的集合相联的子TLB和1G固定的集合相联的子TLB时,可期望防止2M和1G TLB条目由4K条目支配,因此可对1G TLB条目或2MTLB条目被存储的次数计数(例如,逐条目地或全局地)。响应于计数器达到特定的阈值数量——例如,当可配置的全相联的子TLB的TLB条目位置被用于存储具有那一个或多个页尺寸的TLB条目某个次数时——那个子TLB条目位置可针对那一个或多个页尺寸被标记为“粘性”(框514)。此后,被标记为“粘性”的条目位置中的TLB条目将不由具有“非粘性”页尺寸的TLB条目替换(框516)。例如,当可配置的全相联的子TLB取代2M固定的集合相联的子TLB和1G固定的集合相联的子TLB时,可能期望防止由4K条目支配2M TLB条目和1G TLB条目,因此这一个或多个粘性位可防止4K条目驱逐2M TLB条目或1G TLB条目。
在一些情况下,一个或多个“粘性”位以及“计数器”可被统一,例如,保存值0..7的3位的计数器,并且其中0..6指示非粘性且计数进行中,而7指示粘性。
虽然这些示例已描述了逐条目的粘性,但是一个或多个粘性位可定义贯穿可配置的全相联的子TLB的粘性。例如,可存在用于可配置的全相联的子TLB的一个或多个全局“粘性”位,这一个或多个全局“粘性”位可定义具有特定页尺寸的任何条目是否可被驱逐。例如,设置全局“粘性”位可使可配置的全相联的子TLB的所有1G TLB条目不能够被4K或2MTLB条目驱逐。在另一示例中,设置全局“粘性”位可使所有2M和1G TLB条目不能够被4K TLB条目驱逐。
在一些情况下,是否将可配置的全相联的子TLB的TLB条目标记为“粘性”可基于可配置的全相联的子TLB的总使用的计数来确定。图30提供TLB 86的示例,其中,TLB控制电路348可使用计数器520来维护对具有特定页尺寸的可配置的全相联的子TLB 326的所有访问的近期(例如,在几秒内,在几分钟内,在几小时内)计数。在一些情况下,由计数器520作出的计数可包括针对所有页尺寸对可配置的全相联的子TLB 326的所有访问。在其他情况下,由计数器520作出的计数可包括针对仅某个或某些页尺寸(例如,将被标记为“粘性”的一个或多个页尺寸,诸如,1G、2M或4K)对可配置的全相联的子TLB326的所有访问。例如,如果TLB具有4K固定的集合相联的子TLB以及2M+1G全相联的子TLB,则2M TLB条目和1G TLB条目可“竞争”空间——也就是说,2M TLB条目和1G TLB条目可彼此替换。在该示例中,1G TLB条目能够替换“粘性”2M TLB条目,但是4K TLB条目不能够替换“粘性”2M TLB条目。
计数器520能以各种方式实现。在一个示例中,计数器520可表示用于对该示例中的具有除1G之外的所有尺寸的TLB条目计数的一个计数器,由于没有用于放置1G映射的地方,因此可能期望朝向相对于非1G偏好1G来“偏置”。在另一示例中,针对每个页尺寸可存在一个计数器。在某种程度上,这近似于针对每个条目一个计数器,但基于页尺寸来概况。这对一个计数器作出了改进,因为TLB可针对不成问题的无论什么尺寸早“放弃”,并且保持尝试成问题的无论什么尺寸。
如由图31的流程图530所提供,可维护可配置的全相联的子TLB被用于一个或多个特定页尺寸的次数的计数(框532),并且响应于达到那一个或多个页尺寸的近期使用的阈值数量,可将当前与那一个或多个尺寸相关联的所有TLB条目标记为“粘性”(框534)。被标记为“粘性”的条目将不被具有“非粘性”页尺寸的TLB条目替换(框536)。
在一些情况下,是否将可配置的全相联的子TLB的TLB条目标记为“粘性”可基于TLB的总使用的计数或某个数量的时钟周期的计数来确定。例如,如在图32中所示,TLB 86的TLB控制电路348可使用计数器540来维护对TLB86的所有访问的近期(例如,在几秒内,在几分钟内,在几小时内)计数。在一些示例中,计数器540可对自从一个或多个粘性位470的重置起已经经过的某个数量的时钟周期进行计数。在一些情况下,由计数器540作出的计数可包括对除可配置的全相联的子TLB 326之外的子TLB 320和322的所有访问。图33中示出的流程图550提供使用诸如计数器540之类的计数器来标记“粘性”TLB条目的方法。TLB可对TLB近期被访问的次数计数,或可对时钟周期计数(框552)。响应于达到近期访问的阈值数量,可将当前与所选择的页尺寸(例如,1G)相关联的所有TLB条目标记为“粘性”(框554)。被标记为“粘性”的条目后续将不被具有“非粘性”页尺寸的TLB条目替换(框556)。
重置“粘性”位
虽然“粘性”位的使用可防止具有某些页尺寸(例如,1G)的条目随着时间推移被具有其他页尺寸(4K或2M)的条目支配,但是粘性条目的数量可以占主导。相应地,可时不时地重置粘性位。例如,如由图34中示出的流程图560所指示,响应于由集成电路作出的上下文切换(框562),可重置所有粘性条目或粘性条目中的一些(框564)。上下文切换可由TLB以任何合适的方式来检测。例如,TLB可通过从集成电路的其他电路接收指令,通过检查TLB中的寄存器的设置的变化,或通过检查某个阈值数量的连续的TLB未命中已发生来检测上下文切换。
在图35的流程图570中示出的另一示例中,响应于执行对当天被标记为“粘性”的TLB条目的显式无效(框572),可重置所有粘性条目或粘性条目中的一些(框574)。如在图36的流程图580中所示,可周期性地重置“粘性”位。例如,定时器可被设置,或计数器可对时钟周期计数(框582)。响应于定时器期满或计数器达到时钟周期的阈值数量,可重置所有粘性条目或粘性条目中的一些(框584)。
附加地或替代地,可使用“第二次机会”方案。“第二次机会”方案可在特定的“粘性”TLB条目尝试被重置某个阈值次数之后重置粘性位。例如,如在图37的流程图590中所示,当确定是否替换可配置的全相联的子TLB的特定TLB条目时,被标记为“粘性”的条目可被包括。如果被标记为“粘性”的TLB条目被选择(例如,通过近期最少使用(LRU)或伪近期最少使用(pLRU)或另一驱逐算法)(框592),然而,那个条目可不被驱逐。相反,一个或多个“粘性”位可被递减或清除(框594)。在一个示例中,在“粘性”TLB条目第一次被选择用于驱逐时,一个或多个“粘性”位可被清除,但是该TLB条目可不被驱逐,并且替代地,不同的TLB条目可被驱逐。在其他示例中,一个或多个“粘性”位可指示一些TLB条目可被标记为比其他TLB条目“更具粘性”的计数。在选择用于驱逐之际,“粘性”位可被递减,并且仅在某个阈值数量的递减之后被清除。
全相联的子TLB条目的数据结构
可配置的全相联的子TLB的TLB条目可采用任何合适的数据结构。一个示例出现在图38中,其对比了用于1G子TLB的TLB条目结构600的示例以及用于可配置的全相联的TLB的TLB条目结构602。这两者都包括有效位604、权限位(rwx u/s)606、地址空间标识符(asid)607、以及物理属性表(pat)610。然而,用于1G子TLB的TLB数据结构600可具有较小的虚拟存储器地址标签(vtag)613和较小的物理存储器地址标签(ptag)614。这是因为用于可配置的全相联的子TLB的TLB条目结构604尺寸可设定为容纳较小的页尺寸。较小的页尺寸在页内具有较小的偏移。利用较小的页,虚拟地址提供较少的地址位,并且物理标签因此供应较多的地址位。因此,用于可配置的全相联的子TLB的TLB条目结构602可具有足够大以容纳例如4K页尺寸的虚拟存储器地址标签(vtag)616和物理存储器地址标签(ptag)617。当被用于其他页尺寸(例如,2M或1G)时,附加的未使用的位可被忽略。
TLB条目结构602还可包括尺寸状态字段(sz)620,其可表示TLB条目的页尺寸。例如,当两个页尺寸在可配置的全相联的子TLB中被使用时,该字段可以是1位宽。当TLB条目结构602容纳三个页尺寸(例如,4K、2M、1G)中的任一页尺寸时,该字段可以是2位或更多位宽。该尺寸还可经由某个其他机制来指示。作为示例,考虑具有指示符[0..16]的16条目的FA子TLB,其表明低于该指示符的每个事物都是1G;并且处于或高于该指示符的每个事物都是2M。在该示例中,填充1G映射将递增该指示符,并将条目置于“新”位置处;而填充2M映射将从处于或高于该指示符处的条目选择。
如上文所述,TLB条目结构602还可包括粘性字段622。粘性字段622可以是单个位(即,“粘性”或“非粘性”),或者可占据多于一个位以提供不同程度的“粘性”(例如,其可在“第二次机会”重置技术中被使用,其可定义条目位置是粘性的还是恰是当前被存储的TLB条目,或者其可在TLB命中之际被递增并在TLB未命中之际被递减)。TLB条目结构602还可具有未在图38中示出的其他字段。例如,可存在能够按照图28中的计数器500的方式被更新的计数器字段。在一些情况下,“粘性”字段和“计数器”字段可以是统一的。例如,3位的计数器可保存值0..7,其中,0..6指示非粘性且计数进行中,而7指示粘性。
实验结果
利用工作负载踪迹的集合测试了上述方式。测试开始于标准踪迹库,并且涉及选择那些踪迹,那些踪迹在周期准确的模拟中使用与某些当前可用的处理器类似的基线TLB配置来花费等待TLB未命中的挂钟时间的10%或更多。功能(计数,但非周期准确的)模拟器被修改用于实现所公开的设计的一个办呢。值得注意的是,1GiB子TLB被修改位接受所有页尺寸。模拟器实现简单的伪随机选择和针对FA中的1G页的简单的“粘性”实现方式。(例如,没有未命中率跟踪、没有复杂的“粘性”老化)。考虑三个版本的所公开的方法:(a)FA阵列中的4KiB和1GiB页映射;(b)FA阵列中的2MiB和1GiB页映射;以及(c)FA阵列中的全部三个页尺寸。
功能模拟器没有时间概念,因此使用度量MPKI或“每千条指令未命中”来评估该方式。MPKI变化不直接转换为性能变化——对于任何给定的工作负载,MPKI变化的尺寸可比性能变化的尺寸更大或更小。然而,MPKI改善典型地与性能改善相关联。
对于上述配置和工作负载,我们看到:
·对于上述配置:(a)接受4KiB和1GiB的FA条目具有约8%几何平均MPKI改善;(b)2MiB和1GiB具有约2.5%几何平均MPKI改善;并且(c)4KiB、2MiB和1GiB一起具有约10%几何平均MPKI改善。
·在每个配置中存在显示出接近30%的MPKI降低的特定工作负载。2M+FA几何平均改善中的大多数改善是由于一些大的改善,并且大多数工作负载没有改善。
·不存在对于配置中的任何配置在其中MPKI变得更糟(总体上,或对于任何子TLB)的情况。
关于第一级数据TLB描述了上文,但是其他TLB可使用类似的方式。这些还可包括完全由固定的集合相联的子TLB(无全相联的子TLB)建立的TLB以及包括一个或多个可配置的集合相联的子TLB的TLB。
示例实施例
示例实施例1:一种集成电路,包括转换后备缓冲器(TLB),所述TLB包括:
第一固定的子TLB,所述第一固定的子TLB在运行时期间存储与第一页尺寸集对应的第一多个TLB条目;以及
可配置的子TLB,所述可配置的子TLB在运行时期间可配置成用于存储具有第二页尺寸集的第二多个TLB条目,所述第二页尺寸集包括所述第一页尺寸集的至少第一页尺寸并包括不是所述第一页尺寸集的至少第二页尺寸。
示例实施例2:如示例实施例1的集成电路,其中,所述第一固定的子TLB包括固定的集合相联的子TLB。
示例实施例3:如示例实施例1的集成电路,其中,所述可配置的子TLB包括可配置的集合相联的子TLB。
示例实施例4:如示例实施例1的集成电路,其中,所述可配置的子TLB包括可配置的全相联的子TLB。
示例实施例5:如示例实施例1的集成电路,其中,所述第一页尺寸集的所述第一页尺寸包括4KiB页尺寸,并且所述第二页尺寸集的所述第二页尺寸包括1GiB页尺寸。
示例实施例6:如示例实施例5的集成电路,其中,所述第二页尺寸集包括第三页尺寸,其中,所述第三页尺寸包括2MiB页尺寸,并且其中,所述第一页尺寸集不包括所述1GiB页尺寸且不包括所述2MiB页尺寸。
示例实施例7:如示例实施例1的集成电路,其中,所述第二页尺寸集包括不由所述TLB的任何其他子TLB支持的至少一个页尺寸。
示例实施例8:如示例实施例1的集成电路,其中,所述第一固定的子TLB比所述可配置的子TLB保存更多的TLB条目。
示例实施例9:如示例实施例1的集成电路,其中,所述TLB包括控制电路,所述控制电路至少部分地基于所述第一固定的子TLB和所述可配置的子TLB中的可用条目的比率来选择将与所述第一页尺寸集对应的新TLB条目存储在所述第一固定的子TLB中还是存储在所述可配置的子TLB中。
示例实施例10:如示例实施例1的集成电路,其中:
所述固定的子TLB包括第一固定的集合相联的子TLB,所述第一固定的集合相联的子TLB在运行时期间被配置成用于存储与所述第一页尺寸集对应的所述第一多个TLB条目;
所述第一页尺寸集仅包括第一页尺寸;
所述TLB包括第二固定的集合相联的子TLB,所述第二固定的集合相联的子TLB在运行时期间被配置成用于存储与第三页尺寸集对应的第三多个TLB条目;并且
所述第三页尺寸集仅包括第三页尺寸。
示例实施例11:如示例实施例10的集成电路,其中,所述第二页尺寸集包括所述第三页尺寸。
示例实施例12:如示例实施例11的集成电路,其中,所述第一页尺寸集包括4KiB的页尺寸,所述第二页尺寸集包括1GiB的页尺寸,并且所述第三页尺寸集包括2MiB的页尺寸。
示例实施例13:如示例实施例11的集成电路,其中,所述TLB包括控制电路,所述控制电路监测所述第一集合相联的TLB的第一未命中率以及所述第二集合相联的TLB的第二未命中率,并且其中,所述控制电路配置成用于:至少部分地基于所述第一未命中率是否高于所述第二未命中率,选择将与所述第一页尺寸对应的新TLB条目存储在所述第一固定的集合相联的子TLB中还是存储在所述可配置的子TLB中。
示例实施例14:如示例实施例13的集成电路,其中,所述TLB包括控制电路,所述控制电路监测所述可配置的子TLB的第三未命中率,并且其中,所述控制电路配置成用于:至少部分地基于所述第三未命中率是否高于所述第一未命中率和所述第二未命中率,选择将与所述第一页尺寸集对应的所述新TLB条目存储在所述第一固定的集合相联的子TLB中还是存储在所述可配置的子TLB中。
示例实施例15:如示例实施例1的集成电路,其中,所述集成电路包括处理器,并且其中,所述TLB操作为用于所述处理器的指令TLB。
示例实施例16:如示例实施例1的集成电路,其中,所述集成电路包括存储器访问电路,并且其中,所述TLB操作为用于所述存储器访问电路的数据TLB。
示例实施例17:一种方法,包括:
在转换后备缓冲器(TLB)处接收导致TLB未命中的TLB请求;
从页表检取与所述TLB请求对应的新TLB条目;以及
在以下两个步骤之间选择:
利用所述新TLB条目替换来自所述TLB的第一固定的子TLB的第一旧TLB条目;以及
利用所述新TLB条目替换来自所述TLB的可配置的子TLB的第二旧TLB条目。
示例实施例18:如示例实施例17的方法,其中,所述选择至少部分地基于所述第一固定的子TLB和所述可配置的子TLB中的可用条目的比率。
示例实施例19:如示例实施例18的方法,其中,所述可配置的子TLB中的条目如果被标记为“粘性”则不被视为可用,并因此被预留用于与所述新TLB条目不同的页尺寸。
示例实施例20:一种方法,包括:
在转换后备缓冲器(TLB)处接收TLB请求,所述TLB包括与第一页尺寸集对应的第一固定的子TLB以及与所述第一页尺寸集和第二页尺寸集对应的可配置的子TLB,所述TLB请求与导致TLB未命中的所述第二页尺寸集对应;
从页表检取与所述TLB请求对应的新TLB条目;
利用所述新TLB条目替换来自所述可配置的子TLB的旧TLB条目;以及
将所述可配置的子TLB中的所述新TLB条目标识为“粘性”,使得所述新TLB条目不被驱逐从而被不与所述第二页尺寸集对应的另一TLB条目替换。
示例实施例21:如示例实施例20的方法,其中,所述新TLB条目响应于被存储在所述可配置的子TLB中且与所述第二页尺寸集对应而被标识为“粘性”。
示例实施例22:如示例实施例20的方法,包括:在将所述可配置的子TLB中的所述新TLB条目标识为“粘性”之前,在所述TLB处接收与导致TLB命中的所述新TLB条目对应的TLB请求,其中,所述新TLB条目响应于针对所述新TLB条目的所述TLB命中而被标识为“粘性”。
示例实施例23:示例实施例20的方法,包括:
维护与对应于所述新TLB条目的所述可配置的子TLB的条目位置被用于存储具有所述第二页尺寸集的TLB条目的次数有关的计数,其中,所述新TLB条目响应于所述计数超出阈值数量而被标识为“粘性”。
示例实施例24:示例实施例20的方法,包括:
维护与所述可配置的子TLB的条目位置被用于存储具有所述第二页尺寸集的TLB条目的次数有关的计数,其中,所述新TLB条目响应于所述计数超出阈值数量而被标识为“粘性”。
示例实施例25:示例实施例20的方法,包括:维持与由所述TLB接收的TLB请求有关的第一计数,或维持与时钟周期的数量有关的第二计数,其中,所述新TLB条目响应于所述第一计数超出第一阈值或所述第二计数超出第二阈值而被标识为“粘性”。
示例实施例26:示例实施例20的方法,包括:
检测上下文切换;以及
响应于检测到所述上下文切换,停止将所述新TLB条目标识为“粘性”。
示例实施例27:示例实施例20的方法,包括:
执行对所述新TLB条目的显式无效;以及
响应于执行对所述新TLB条目的所述无效,停止将所述新TLB条目标识为“粘性”。
示例实施例28:示例实施例20的方法,包括:
启动定时器或维护与时钟周期有关的计数;以及
响应于所述定时器期满或所述计数超出阈值,停止将所述新TLB条目标识为“粘性”。
示例实施例29:示例实施例20的方法,包括:
选择所述新TLB条目用于驱逐;
不驱逐所述新TLB条目,停止将所述新TLB条目标识为“粘性”。
示例实施例30:一种集成电路器件,包括转换后备缓冲器(TLB),所述TLB包括可配置的子TLB,所述可配置的子TLB存储第一条目,所述第一条目包括:
虚拟存储器地址字段;
物理存储器地址字段,与所述虚拟存储器地址字段对应;以及
粘性字段,所述粘性字段至少部分地基于第二条目相对于所述第一条目的页尺寸来指示所述第一条目是否被准许由所述第二条目驱逐。
示例实施例31:如示例实施例30的集成电路器件,其中,所述粘性位包括单个位。
示例实施例32:如示例实施例31的集成电路器件,其中,所述粘性位包括多个位。
示例实施例33:如示例实施例32的集成电路器件,其中,所述粘性字段指示所述第一条目被准许由与同由所述页尺寸字段指示的页尺寸不同的页尺寸相关联的第二条目驱逐的程度。
示例实施例34:如示例实施例30所述的集成电路器件,其中,所述第一条目包括计数器字段,所述计数器字段配置成用于存储与所述第一条目被用于存储与特定页尺寸对应的虚拟存储器地址或物理存储器的次数有关的计数。
示例实施例35:如示例实施例30的集成电路器件,其中,所述粘性字段包括存储计数的多个位,其中,所述计数的值指示“粘性”或“非粘性”。
示例实施例36:如示例实施例30的集成电路器件,其中,搜索第一字段包括页尺寸字段,所述页尺寸字段指示与所述虚拟存储器地址字段和所述物理存储器地址字段相关联的页尺寸。
尽管本公开中阐述的实施例易于具有各种修改和替代形式,但是,特定实施例已作为示例在附图中示出并已在本文中详细描述。然而,应当理解,本公开不旨在被限于所公开的特定形式。本公开将涵盖落入如由所附权利要求所限定的本公开的精神和范围内的所有修改、等效方案和替代方案。
本文所提出和要求保护的技术被引用并应用于实际性质的实物和具体示例,这些实物和具体示例明显改善了当前技术领域,因此不是抽象的、无形的或纯理论的。进一步地,如果本说明书末尾所附的任何权利要求包含一个或多个被指定为“用于[执行][功能]的装置”或“用于[执行][功能]的步骤”的要素,则其旨在基于35U.S.C.112(f)来解释此类要素。然而,对于包含以任何其他方式指定的要素的任何权利要求,其旨在不基于35U.S.C.112(f)来解释此类要素。
Claims (20)
1.一种集成电路,包括转换后备缓冲器TLB,所述TLB包括:
第一固定的子TLB,所述第一固定的子TLB在运行时期间存储与第一页尺寸集对应的第一多个TLB条目;以及
可配置的子TLB,所述可配置的子TLB在运行时期间可配置成用于存储具有第二页尺寸集的第二多个TLB条目,所述第二页尺寸集包括所述第一页尺寸集的至少第一页尺寸并包括不是所述第一页尺寸集的至少第二页尺寸。
2.如权利要求1所述的集成电路,其中,所述第一固定的子TLB包括:固定的集合相联的子TLB、可配置的集合相联的子TLB、或可配置的全相联的子TLB、或上述各项的任何组合。
3.如权利要求1所述的集成电路,其中,所述第一页尺寸集的所述第一页尺寸包括4KiB页尺寸,并且所述第二页尺寸集的所述第二页尺寸包括1GiB页尺寸。
4.如权利要求3所述的集成电路,其中,所述第二页尺寸集包括第三页尺寸,其中,所述第三页尺寸包括2MiB页尺寸,并且其中,所述第一页尺寸集不包括所述1GiB页尺寸且不包括所述2MiB页尺寸。
5.如权利要求1所述的集成电路,其中,所述第二页尺寸集包括不由所述TLB的任何其他子TLB支持的至少一个页尺寸。
6.如前述权利要求中的任一项所述的集成电路,其中,所述第一固定的子TLB比所述可配置的子TLB保存更多的TLB条目。
7.如权利要求1所述的集成电路,其中,所述TLB包括控制电路,所述控制电路至少部分地基于所述第一固定的子TLB和所述可配置的子TLB中的可用条目的比率来选择将与所述第一页尺寸集对应的新TLB条目存储在所述第一固定的子TLB中还是存储在所述可配置的子TLB中。
8.如权利要求1-7所述的集成电路,其中:
所述固定的子TLB包括第一固定的集合相联的子TLB,所述第一固定的集合相联的子TLB在运行时期间被配置成用于存储与所述第一页尺寸集对应的所述第一多个TLB条目;
所述第一页尺寸集仅包括第一页尺寸;
所述TLB包括第二固定的集合相联的子TLB,所述第二固定的集合相联的子TLB在运行时期间被配置成用于存储与第三页尺寸集对应的第三多个TLB条目;并且
所述第三页尺寸集仅包括第三页尺寸。
9.如权利要求8所述的集成电路,其中,所述第二页尺寸集包括所述第三页尺寸。
10.如权利要求9所述的集成电路,其中,所述TLB包括控制电路,所述控制电路监测所述第一集合相联的TLB的第一未命中率以及所述第二集合相联的TLB的第二未命中率,并且其中,所述控制电路配置成用于:至少部分地基于所述第一未命中率是否高于所述第二未命中率,选择将与所述第一页尺寸对应的新TLB条目存储在所述第一固定的集合相联的子TLB中还是存储在所述可配置的子TLB中。
11.如权利要求10所述的集成电路,其中,所述TLB包括控制电路,所述控制电路监测所述可配置的子TLB的第三未命中率,并且其中,所述控制电路配置成用于:至少部分地基于所述第三未命中率是否高于所述第一未命中率和所述第二未命中率,选择将与所述第一页尺寸集对应的所述新TLB条目存储在所述第一固定的集合相联的子TLB中还是存储在所述可配置的子TLB中。
12.如权利要求1-7中的任一项所述的集成电路,其中:
所述集成电路包括处理器,并且其中,所述TLB操作为用于所述处理器的指令TLB;或者
所述集成电路包括存储器访问电路,并且所述TLB操作为用于所述存储器访问电路的数据TLB。
13.一种方法,包括:
在转换后备缓冲器TLB处接收导致TLB未命中的TLB请求;
从页表检取与所述TLB请求对应的新TLB条目;以及
在以下两个步骤之间选择:
利用所述新TLB条目替换来自所述TLB的第一固定的子TLB的第一旧TLB条目;以及
利用所述新TLB条目替换来自所述TLB的可配置的子TLB的第二旧TLB条目。
14.如权利要求13所述的方法,其中,所述选择至少部分地基于所述第一固定的子TLB和所述可配置的子TLB中的可用条目的比率。
15.如权利要求14所述的方法,其中,所述可配置的子TLB中的条目如果被标记为“粘性”则不被视为可用,并因此被预留用于与所述新TLB条目不同的页尺寸。
16.一种方法,包括:
在转换后备缓冲器TLB处接收TLB请求,所述TLB包括与第一页尺寸集对应的第一固定的子TLB以及与所述第一页尺寸集和第二页尺寸集对应的可配置的子TLB,所述TLB请求与导致TLB未命中的所述第二页尺寸集对应;
从页表检取与所述TLB请求对应的新TLB条目;
利用所述新TLB条目替换来自所述可配置的子TLB的旧TLB条目;以及
将所述可配置的子TLB中的所述新TLB条目标识为“粘性”,使得所述新TLB条目不被驱逐从而被不与所述第二页尺寸集对应的另一TLB条目替换。
17.如权利要求16所述的方法,其中,所述新TLB条目响应于被存储在所述可配置的子TLB中且与所述第二页尺寸集对应而被标识为“粘性”。
18.如权利要求16所述的方法,包括:在将所述可配置的子TLB中的所述新TLB条目标识为“粘性”之前,在所述TLB处接收与导致TLB命中的所述新TLB条目对应的TLB请求,其中,所述新TLB条目响应于针对所述新TLB条目的所述TLB命中而被标识为“粘性”。
19.一种集成电路器件,包括转换后备缓冲器TLB,所述TLB包括可配置的子TLB,所述可配置的子TLB存储第一条目,所述第一条目包括:
虚拟存储器地址字段;
物理存储器地址字段,与所述虚拟存储器地址字段对应;
以及
粘性字段,所述粘性字段至少部分地基于第二条目相对于所述第一条目的页尺寸来指示所述第一条目是否被准许由所述第二条目驱逐。
20.如权利要求19所述的集成电路器件,其中,所述粘性字段指示所述第一条目被准许由与同由所述页尺寸字段指示的页尺寸不同的页尺寸相关联的第二条目驱逐的程度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/134,392 US20220206955A1 (en) | 2020-12-26 | 2020-12-26 | Automated translation lookaside buffer set rebalancing |
US17/134,392 | 2020-12-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114691551A true CN114691551A (zh) | 2022-07-01 |
Family
ID=77864468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111589723.6A Pending CN114691551A (zh) | 2020-12-26 | 2021-12-23 | 自动化转换后备缓冲器集合再平衡 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220206955A1 (zh) |
EP (1) | EP4020233B1 (zh) |
CN (1) | CN114691551A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11615033B2 (en) * | 2020-09-09 | 2023-03-28 | Apple Inc. | Reducing translation lookaside buffer searches for splintered pages |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346706B (zh) * | 2005-12-29 | 2011-06-22 | 英特尔公司 | 虚拟转换后备缓冲器 |
EP2159707A4 (en) * | 2007-06-20 | 2010-11-24 | Fujitsu Ltd | ARITHMETIC PROCESSING UNIT, INPUT TAX PROGRAM AND INPUT TAX PROCEDURE |
US8601234B2 (en) * | 2007-11-07 | 2013-12-03 | Qualcomm Incorporated | Configurable translation lookaside buffer |
JP5702808B2 (ja) * | 2011-01-12 | 2015-04-15 | パナソニック株式会社 | プログラム実行装置およびコンパイラシステム |
US9727241B2 (en) * | 2015-02-06 | 2017-08-08 | Advanced Micro Devices, Inc. | Memory page access detection |
US10261916B2 (en) * | 2016-03-25 | 2019-04-16 | Advanced Micro Devices, Inc. | Adaptive extension of leases for entries in a translation lookaside buffer |
US10037283B2 (en) * | 2016-08-12 | 2018-07-31 | Advanced Micro Devices, Inc. | Updating least-recently-used data for greater persistence of higher generality cache entries |
US11106596B2 (en) * | 2016-12-23 | 2021-08-31 | Advanced Micro Devices, Inc. | Configurable skewed associativity in a translation lookaside buffer |
BE1025305B1 (fr) * | 2017-12-08 | 2019-01-11 | Ets Pollet Sa | Composition détergente |
US11055232B2 (en) * | 2019-03-29 | 2021-07-06 | Intel Corporation | Valid bits of a translation lookaside buffer (TLB) for checking multiple page sizes in one probe cycle and reconfigurable sub-TLBS |
-
2020
- 2020-12-26 US US17/134,392 patent/US20220206955A1/en active Pending
-
2021
- 2021-09-21 EP EP21197909.1A patent/EP4020233B1/en active Active
- 2021-12-23 CN CN202111589723.6A patent/CN114691551A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220206955A1 (en) | 2022-06-30 |
EP4020233B1 (en) | 2024-04-17 |
EP4020233A1 (en) | 2022-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2831749B1 (en) | Hardware profiling mechanism to enable page level automatic binary translation | |
US9361233B2 (en) | Method and apparatus for shared line unified cache | |
US11030108B2 (en) | System, apparatus and method for selective enabling of locality-based instruction handling | |
EP3547146B1 (en) | System, method, and apparatus for detecting repetitive data accesses and automatically loading data into local cache | |
US10496551B2 (en) | Method and system for leveraging non-uniform miss penality in cache replacement policy to improve processor performance and power | |
US9727475B2 (en) | Method and apparatus for distributed snoop filtering | |
US20170286302A1 (en) | Hardware apparatuses and methods for memory performance monitoring | |
US10339060B2 (en) | Optimized caching agent with integrated directory cache | |
JP2015534188A (ja) | ユーザレベルのスレッディングのために即時のコンテキスト切り替えを可能とする新規の命令および高度に効率的なマイクロアーキテクチャ | |
US10482017B2 (en) | Processor, method, and system for cache partitioning and control for accurate performance monitoring and optimization | |
US11531562B2 (en) | Systems, methods, and apparatuses for resource monitoring | |
WO2017172220A1 (en) | Method, system, and apparatus for a coherency task list to minimize cache snooping between cpu and fpga | |
CN114490444A (zh) | 用于与缓存数据相对应的元数据的选择性存储的隔离存储器 | |
US11182298B2 (en) | System, apparatus and method for dynamic profiling in a processor | |
EP4020229A1 (en) | System, apparatus and method for prefetching physical pages in a processor | |
US20180121353A1 (en) | System, method, and apparatus for reducing redundant writes to memory by early detection and roi-based throttling | |
US10657070B2 (en) | Apparatus and method for shared least recently used (LRU) policy between multiple cache levels | |
US20240134803A1 (en) | Hardware assisted memory access tracking | |
US10013352B2 (en) | Partner-aware virtual microsectoring for sectored cache architectures | |
EP4020233B1 (en) | Automated translation lookaside buffer set rebalancing | |
US11954356B2 (en) | Apparatus, method, and system for collecting cold pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |