CN114661630A - 动态包含性末级高速缓存 - Google Patents
动态包含性末级高速缓存 Download PDFInfo
- Publication number
- CN114661630A CN114661630A CN202111495678.8A CN202111495678A CN114661630A CN 114661630 A CN114661630 A CN 114661630A CN 202111495678 A CN202111495678 A CN 202111495678A CN 114661630 A CN114661630 A CN 114661630A
- Authority
- CN
- China
- Prior art keywords
- cache
- core
- data
- next level
- level cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 91
- 230000015654 memory Effects 0.000 description 102
- 238000010586 diagram Methods 0.000 description 34
- 239000000463 material Substances 0.000 description 26
- 238000012545 processing Methods 0.000 description 11
- 230000004044 response Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000007667 floating Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004242 micellar liquid chromatography Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000013479 data entry Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004460 liquid liquid chromatography Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000010076 replication Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000010926 purge Methods 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0811—Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/084—Multiuser, multiprocessor or multiprocessing cache systems with a shared cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0815—Cache consistency protocols
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
- G06F12/0815—Cache consistency protocols
- G06F12/0831—Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0888—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using selective caching, e.g. bypass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0893—Caches characterised by their organisation or structure
- G06F12/0897—Caches characterised by their organisation or structure with two or more cache hierarchy levels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/12—Replacement control
- G06F12/121—Replacement control using replacement algorithms
- G06F12/128—Replacement control using replacement algorithms adapted to multidimensional cache systems, e.g. set-associative, multicache, multiset or multilevel
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1032—Reliability improvement, data loss prevention, degraded operation etc
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1041—Resource optimization
- G06F2212/1044—Space efficiency improvement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请公开了动态包含性末级高速缓存。集成电路的实施例可包括:核;以及高速缓存控制器,耦合至核,该高速缓存控制器包括电路系统,该电路系统用于:基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存中。公开并要求保护其他实施例。
Description
背景
1.技术领域
本公开总体上关于处理器技术和处理器高速缓存技术。
2.背景技术
对于包括处理器的集成电路芯片/封装,末级高速缓存(LLC)可以指可由具有该LLC的同一芯片/封装中的所有功能单元共享的最高级别高速缓存。LLC高速缓存可基于其包含策略是包含性的、排除性的、还是非包含性的而被分类。如果存在于核高速缓存(例如,中级高速缓存(MLC)和第一级(L1)高速缓存)中的所有块也存在于LLC中,则该LLC被视为包含核高速缓存。如果LLC仅包含不存在于核高速缓存中的块,则该LLC被视为排除核高速缓存。与在其中由于块在核高速缓存与LLC之间被复制、因此LLC的容量确定总容量的包含性LLC策略相比,排除性LLC策略通过有效利用核高速缓存和LLC的组合容量来减少存储器访问。
排除性LLC可要求附加的芯片上带宽来支持来自核高速缓存的更频繁的驱逐(例如,干净的以及修改的)。对于包含性LLC,核高速缓存可静默地丢弃来自核高速缓存的干净的驱逐,因为被驱逐的行的副本已经存在于LLC中。非包含性LLC策略(有时也称为非包含性非排除性(NINE))不实施包含,也不实施排除。例如,LLC可包含来自核高速缓存的块,但非包含性LLC策略不提供对这两者之间的数据复制的任何保证。
附图说明
以示例方式且非限制方式在附图的各图中图示本发明的各实施例,在附图中:
图1是根据实施例的集成电路的示例的框图;
图2A至图2C是根据实施例的控制高速缓存的方法的示例的流程图;
图3是根据实施例的装置的示例的框图;
图4是根据实施例的过程流的示例的流程图;
图5是根据实施例的过程流的另一示例的流程图;
图6是根据实施例的高速缓存系统的示例的框图;
图7是根据实施例的集成电路的另一示例的框图;
图8A至图8C是根据实施例的控制高速缓存的方法的另一示例的流程图;
图9是根据实施例的另一装置的示例的框图;
图10是根据实施例的存储器访问模式的示例的说明性示图;
图11是根据实施例的控制高速缓存的方法的另一示例的流程图;
图12是根据实施例的高速缓存系统的另一示例的框图;
图13A是图示根据本发明的实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线两者的框图。
图13B是图示根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图;
图14A-图14B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核);
图15是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器的框图;
图16-图19是示例性计算机架构的框图;以及
图20是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
本文中讨论的实施例以各种方式提供用于控制处理器高速缓存的技术和机制。本文中描述的技术可以在一个或多个电子设备中实现。可以利用本文中描述的技术的电子设备的非限制性示例包括任何种类的移动设备和/或固定式设备,诸如,相机、蜂窝电话、计算机终端、台式计算机、电子阅读器、传真机、自动服务机、膝上型计算机、上网本计算机、笔记本计算机、互联网设备、支付终端、个人数字助理、媒体播放器和/或记录器、服务器(例如,刀片服务器、机架安装服务器、其组合等)、机顶盒、智能电话、平板个人计算机、超移动个人计算机、有线电话、上述各项的组合,等等。更一般地,本文中描述的技术可在各种电子设备中的任何电子设备中被采用,各种电子设备包括可操作用于控制或利用处理器高速缓存的集成电路系统。
在下列描述中,讨论了众多细节,以提供对本公开的实施例的更透彻的解释。然而,对本领域的技术人员将显而易见的是,可以在没有这些特定细节的情况下实施本公开的实施例。在其他实例中,以框图形式,而不是详细地示出公知的结构和设备,以避免使本公开的实施例变得模糊。
注意,在实施例的对应附图中,利用线来表示信号。一些线可以较粗以指示更多数量的成份信号路径,和/或在一个或多个末端处具有箭头以指示信息流的方向。此类指示不旨在是限制性的。相反,线结合一个或多个示例性实施例使用,以促进对电路或逻辑单元的更容易的理解。如由设计需要或偏好所规定,任何所表示的信号都可实际包括可在任一方向上行进的一个或多个信号,并可利用任何合适类型的信号方案来实现。
贯穿说明书以及在权利要求书中,术语“连接的”意指所连接的物体之间的诸如电气、机械、或磁性连接之类的无需任何中介设备的直接连接。术语“耦合的”意指直接的或间接的连接,诸如所连接的物体之间的直接的电气、机械、或磁性连接或者通过一个或多个无源或有源中介设备的间接连接。术语“电路”或“模块”可以指布置成用于彼此合作以提供期望功能的一个或多个无源和/或有源组件。术语“信号”可指至少一个电流信号、电压信号、磁信号、或数据/时钟信号。“一(a/an)”和“该”的含义包括复数引用。“在……中”的含义包括“在……中”和“在……上”。
术语“设备”一般可以指根据使用那个术语的上下文的装置。例如,设备可以指层或结构的堆叠、单个结构或层、具有有源和/或无源元件的各种结构的连接,等等。一般而言,设备是三维结构,具有沿x-y-z笛卡尔坐标系的x-y方向的平面以及沿z方向的高度。设备的平面也可以是包括该设备的装置的平面。
术语“缩放”一般指将设计(示意图和布局)从一种工艺技术转换为另一种工艺技术,并随后在布局区域中被减小。术语“缩放”一般还指在同一技术节点内缩小布局和设备的尺寸。术语“缩放”还可指信号频率相对于另一参数(例如,功率供给水平)的调整(例如,减速或加速——即,分别为缩小或放大)。
术语“基本上”、“接近”、“近似”、“附近”以及“大约”一般指处于目标值的+/-10%内。例如,除非在其使用的明确的上下文中以其他方式指定,否则术语“基本上相等”、“大约相等”和“近似相等”意指在如此描述的物体之间仅存在偶然变化。在本领域中,此类变化典型地不大于预定的目标值的+/-10%。
应当理解,如此使用的术语在适当情况下是可互换的,例如使得本文中所描述的本发明的实施例能够以不同于本文中所图示或以其他方式描述的那些取向的其他取向来操作。
除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述公共对象,仅仅指示类似对象的不同实例被提及,并且不旨在暗示如此描述的对象必须在时间上、空间上、排名上、或以任何其他方式处于给定序列中。
在说明书和权利要求书中的术语“左”、“右”、“前”、“后”、“顶”、“底”、“在……上方”、“在……下方”等(如果有)用于描述性目的,并且不一定用于描述永久的相对位置。例如,如本文中所使用的术语“在……上方”、“在……下方”、“前侧”、“后侧”、“顶”、“底”,“在……上方”、“在……下方”和“在……上”是指一个组件、结构或材料相对于设备中其他所引用的组件、结构或材料的相对位置,其中此类物理关系是显著的。本文仅出于描述性目的采用这些术语,并且这些术语主要在设备z轴的上下文内,因此这些术语可以相对于设备的取向。因此,如果设备相对于所提供的图的上下文上下颠倒地取向,则在本文中所提供的图中的上下文中在第二材料“上方”的第一材料也可以在该第二材料“下方”。在材料的上下文中,设置在另一材料上方或下方的一种材料可直接接触,或者可具有一种或多种中介材料。此外,设置在两种材料之间的一种材料可直接与这两个层接触,或者可具有一个或多个中介层。相比之下,在第二材料“上”的第一材料与该第二材料直接接触。在组件组装件的上下文中进行类似的区分。
可在设备的z轴、x轴或y轴的上下文中采用术语“在……之间”。在两种其他材料之间的材料可以与那两种材料中的一种或两种接触,或者该材料可通过一种或多种中介材料来与其他那两种材料两者分开。因此,在两种其他材料“之间”的材料可以与其他那两种材料中的任一种接触,或者该材料可通过中介材料耦合至其他那两种材料。在两个其他设备之间的设备可直接连接至那两个设备中的一个或两个,或者该设备可通过一个或多个中介设备与其他那两个设备两者分开。
如贯穿说明书以及在权利要求书中所使用,由术语“中的至少一个”或“中的一个或多个”联接的项列表可意指所列举的项的任何组合。例如,短语“A、B或C中的至少一个”可意指A;B;C;A和B;A和C;B和C;或A、B和C。应指出,附图的具有与任何其他附图的要素相同的附图标记(或名称)的那些要素能以与所描述的方式类似的任何方式操作或起作用,但不被限于此。
此外,本公开中讨论的组合逻辑和时序逻辑的各种元件可涉及物理结构(诸如,AND门、OR门或XOR门),或涉及实现作为所讨论的逻辑的布尔等效的逻辑结构的器件的合成的或以其他方式优化的集合。
动态包含高速缓存策略示例
一些实施例提供用于动态包含性LLC(DIL)的技术。如上所述,排除性LLC以针对MLC干净驱逐的从MLC到LLC的附加数据传递和附加的功耗为代价提供相对于包含性LLC的附加容量。具有在LLC的容量内适配的大多数工作集(例如,在给定时间窗口内被访问的数据的量)的工作负载在排除性LLC策略下相比于在包含性LLC策略下显示出更高的功耗。为了确保LLC作为一致性的点保持,每当MLC发送驱逐,MLC就需要询问第一级高速缓存(L1)以查明行是否存在于该第一级高速缓存内。对于每个MLC驱逐的从MLC向第一级高速缓存的此类向后询问对MLC控制器带宽添加了附加压力。可能已经由LLC读取带宽构成瓶颈的工作负载相比于包含性LLC从MLC干净驱逐带宽获得附加瓶颈。使用包含性LLC总是将行的副本保留在LLC中,并且通知核丢弃干净的驱逐。然而,包含性LLC移除了来自排除性LLC策略的LLC和MLC的累积容量,并且可能由于对MLC和LLC的附加的组合容量敏感的工作负载而导致性能损失。
一些实施例可有利地提供用于LLC的动态包含性的技术,以获得包含性LLC(例如,MLC与LLC之间的低数据传递,并且没有对于每个MLC驱逐进行L1向后询问的损失)和排除性LLC(例如,MLC和LLC的组合容量)两者的益处。DIL的一些实施例可提供用于标识从LLC获得高重用的工作负载、将数据的共享副本发送到核、且同时将该数据的副本维持在LLC中的技术。当MLC需要从高速缓存驱逐数据时,MLC可静默地丢弃要被驱逐的数据,因为该数据具有共享副本,并且LLC已经保持该数据。维持在LLC中的共享副本避免了从MLC到LLC的附加数据传递,并且由此节省功率。维持在LLC中的共享副本还节省了对于每个MLC的干净驱逐往回无效L1的工夫,并且对于显示出来自LLC的显著重用的工作负载显著地改善第二级高速缓存(L2)吞吐量。
有利地,DIL的实施例可通过减少或消除对于每个MLC驱逐消除监听L1的需求来显著地改善LLC峰值带宽。DIL的实施例还可显著地改善LLC功率以及相应的封装功率,这可产生具有更好的性能和吞吐量特性的处理器。
参考图1,集成电路100的实施例可包括核111以及耦合至核111的高速缓存控制器112。高速缓存控制器112可包括电路系统113,该电路系统113用于:基于下一级高速缓存114的重用的量从工作集标识用于动态包含在下一级高速缓存114中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存114中。例如,电路系统113可配置成用于逐数据行地确定数据在下一级高速缓存114中的动态包含。在一些实施例中,电路系统113可进一步配置成用于:如果要从核高速缓存115驱逐的数据在下一级高速缓存114中具有该数据的共享副本,则静默地丢弃要从核高速缓存115驱逐的数据。例如,下一级高速缓存114可包括非包含性LLC。
在一些实施例中,电路系统113可进一步配置成用于:当下一级高速缓存114中的命中与从核高速缓存115的驱逐对应时,递增计数器值;以及如果下一级高速缓存114中的当前数据命中与从核高速缓存115的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存114中。例如,电路系统113还可配置成用于设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。在一些实施例中,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则电路系统113可进一步配置成用于:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存114中对该数据解除分配。
高速缓存控制器112、电路系统113、下一级高速缓存114和/或核高速缓存115的实施例可被并入处理器中,该处理器包括例如:核990(图13B)、核1102A-N(图15、图19)、处理器1210(图16)、协处理器1245(图16)、处理器1370(图17-图18)、处理器/协处理器1380(图17-图18)、协处理器1338(图17-图18)、协处理器1520(图19)、和/或处理器1614、1616(图20)。
参考图2A至图2C,控制高速缓存的方法200的实施例可包括:在框211处,基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;在框212处,将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及在框213处,将所标识的数据的副本维持在下一级高速缓存中。例如,方法200可包括:在框214处,逐数据行地确定数据在下一级高速缓存中的动态包含。方法200的一些实施例可进一步包括:在框215处,如果要从核高速缓存驱逐的数据在下一级高速缓存中具有该数据的共享副本,则静默地丢弃要从核高速缓存驱逐的数据。例如,在框216处,下一级高速缓存可包括非包含性LLC。
方法200的一些实施例可进一步包括:在框217处,当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及在框218处,如果当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值,则在框219处,标识下一级高速缓存中的当前数据命中用于动态包含在下一级高速缓存中。方法200还可包括:在框220处,设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。在一些实施例中,在框218处,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则方法200可进一步包括:在框221处,将数据的独占副本发送到作出请求的核;在框222处,更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在框223处,在下一级高速缓存中对该数据解除分配。
参考图3,装置300的实施例可包括:一个或多个处理器核332;核高速缓存333,与一个或多个处理器核332位于一起且通信地耦合至一个或多个处理器核332;下一级高速缓存334,与核高速缓存333和一个或多个处理器核332位于一起且通信地耦合至核高速缓存333和一个或多个处理器核332;以及高速缓存控制器335,与核高速缓存333、下一级高速缓存334和一个或多个处理器核332位于一起且通信地耦合至核高速缓存333、下一级高速缓存334和一个或多个处理器核332。任何合适的技术可用于装置300的组件之间的连接,包括例如,总线、环、其他结构等。高速缓存控制器335可包括DIL电路系统336。电路系统336可配置成用于:基于下一级高速缓存334的重用的量从工作集标识用于动态包含在下一级高速缓存334中的数据;将所标识的数据的共享副本发送到一个或多个处理器核332中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存334中。例如,电路系统336可配置成用于逐数据行地确定数据在下一级高速缓存334中的动态包含。在一些实施例中,电路系统336可进一步配置成用于:如果要从核高速缓存333驱逐的数据在下一级高速缓存334中具有该数据的共享副本,则静默地丢弃要从核高速缓存333驱逐的数据。例如,下一级高速缓存334可包括非包含性LLC。
在装置300的一些实施例中,电路系统336可进一步配置成用于:当下一级高速缓存334中的命中与从核高速缓存333的驱逐对应时,递增计数器值;以及如果下一级高速缓存334中的当前数据命中与从核高速缓存333的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存334中。电路系统336还可配置成用于设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。在一些实施例中,如果当前数据命中不与从核高速缓存333的驱逐对应或如果计数器值不大于阈值,则电路系统336可进一步配置成用于:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存334中对该数据解除分配。
高速缓存控制器335、DIL电路系统336、下一级高速缓存334和/或核高速缓存333的实施例可与处理器集成,该处理器包括例如:核990(图13B)、核1102A-N(图15、图19)、处理器1210(图16)、协处理器1245(图16)、处理器1370(图17-图18)、处理器/协处理器1380(图17-图18)、协处理器1338(图17-图18)、协处理器1520(图19)、和/或处理器1614、1616(图20)。
如上所述,对于排除性LLC,每个MLC干净的驱逐需要将数据发送到LLC,因为块仅存在于MLC中。该附加的数据传递导致与包含性LLC相比的芯片/封装(例如,SoC封装)中的附加功耗。另一方面,非包含性LLC不提供对于核高速缓存与LLC之间的数据复制的保证。非包含性LLC可配置成用于将块插入到MLC或LLC中,或插入到这两者中。常规非包含性LLC可提供以下过程流:A)对于读取LLC未命中,数据仅被安置在MLC中;B)对于读取LLC命中,该行从LLC解除分配并分配在MLC中;以及C)MLC将干净的驱逐和经修改的驱逐两者发送到LLC。
非包含性LLC还可包括监听过滤器(SF),该SF表现为包含性LLC但不具有任何数据存储。SF使LLC能够提供一致性而无需附加的监听开销。在一些常规的非包含性LLC中,例如,LLC中的任何未命中不保证任何核不具有该行,并且高速缓存控制器需要对所有核的监听。SF通过维护存在于所有核中的所有行的标签来避免这些广播监听。由于SF不具有任何数据存储,因此SF可以是在面积和功耗方面的轻量型电路。一些处理器芯片/封装可将共同的标签存储用于SF和LLC数据两者。例如,每个标签条目可包含以下主要信息:a)核有效字段(例如,指示哪些核高速缓存可具有该行);b)数据有效字段(例如,指示LLC是否包含该数据);以及c)状态字段(例如,指示高速缓存行的状态相对于DRAM在MLC还是在LLC中)。
非包含性LLC中的核需求读取请求在LLC中命中的一个示例原因是因为数据行首先作为LLC预取被发布,并且随后核需求读取获得对LLC中的预取数据的命中。在该场景中,LLC充当预取缓冲器并隐藏存储器等待时间,但是不节省对于给定数据行的存储器访问。非包含性LLC中的核需求读取请求在LLC中命中的另一示例原因是当核需求读取请求获得对从同一核或不同的核的先前MLC驱逐的命中且LLC充当受害者高速缓存时。对于该场景,LLC提供数据行的重用,并相应地节省存储器访问。高速缓存控制器可维护被称为LLC命中计数器(LHC)的计数器,该LHC从LLC捕捉该重用,并且在对LLC中的较早的MLC驱逐的每个LLC命中时被递增。LHC的高值可指示应用的工作集适配在LLC中。相应地,LHC的高值可指示包含性LLC对于那个工作集可执行得更好,因为包含性LLC可提供至少以下益处:a)MLC无需在每次干净的驱逐时监听L1,从而改善MLC控制器带宽;以及b)干净的驱逐从MLC被丢弃,从而节省从MLC到LLC的写入带宽。
参考图4,过程流400的实施例示出在具有DIL的非包含性LLC中的核需求读取请求流的示例。在框411处,LLC查找确定该行是否存在于LLC中。常规意义上而言,如果该行存在于LLC中,则该数据的独占副本被发送到作出请求的核,SF条目用核有效字段中的作出请求的核的核id来更新,并且数据条目被解除分配。根据DIL的一些实施例,当在框412处存在LLC命中时,在框413处,高速缓存控制器随后可确定该数据是否被较早的MLC驱逐带到LLC中以及LHC值是否大于阈值。当在框413处上述两个条件都被满足(其指示来自LLC的给定行的高重用概率)时,在框414处,高速缓存控制器随后将该行的共享副本发送到核,并且在框415处,高速缓存控制器保持LLC数据以及SF条目(例如,LLC数据条目不被解除分配)。SF随后可用作出请求的核的核有效位来填充。如果在框413处两个条件不被满足,则高速缓存控制器在框416处可继续将该数据的独占副本发送到核,并且在框417处驱逐LLC数据且仅保持SF条目。
参考图5,过程流440的实施例示出针对干净的受害者的MLC驱逐流的示例。对于常规非包含性LLC,当受害者是排除性的时,核需要将该数据的副本往回发送到LLC。在常规过程中,SF条目的核有效条目也被清除。相应地,MLC驱逐必须监听L1以检查该行是否存在于L1中。当该行不存在于L1中时(常见情况),干净的驱逐被往回发送到LLC,这填充LLC数据条目并清除核有效位。在常规的极端情况下,当该行存在于L1中时,仅LLC中的数据条目被填充,但核有效位不被清除。
然而,在过程流400中,当应用工作集在LLC中适配时,LLC将该行的共享副本发送到MLC。在框441处的MLC驱逐时,对于框442处的干净的受害者,在框443处,高速缓存控制器可确定该干净的受害者的状态是否被共享。如果是,则由于该干净的受害者是共享副本且LLC已经具有该数据的副本,因此在框444处,MLC静默地丢弃该数据。静默地丢弃该数据与针对非包含性LLC的常规MLC驱逐相比既在来自MLC和LLC的数据传递方面节省,又节省了L1监听。如果在框443处状态不被共享,则高速缓存控制器在框445处可继续监听L1,并在框446处可将该数据驱逐到LLC。
在设计复杂性方面,不存在核中所需的变化,因为通过将该行的共享副本发送到核来促进包含性,并且关于LLC正表现为包含性还是排除性的信息不被传播到MLC。实施例还有利地避免包含性行为和排除性行为之间的任何转变开销。在一些实施例中,用于LLC的高速缓存控制器可逐数据行地确定包含性,相应地,不存在对于跨MLC和LLC的同步的需求。然而,如果核需要修改数据,则核需要独占副本,这引发从MLC到LLC的附加请求。DIL的实施例对衡量LLC带宽的各种标准微基准的性能建模相比于不具有DIL的基线非包含性LLC,对于单核应用和多核应用上的不同的读取-写入混合显示出更好的LLC峰值带宽,并且对于多线程应用显示出更好的写入带宽和每周期指令(IPC)。
参考图6,高速缓存系统460的实施例包括高速缓存控制器462,其通信地耦合至核高速缓存464、LLC 466和SF 468。核高速缓存464包括L1高速缓存464a和MLC 464b。高速缓存控制器462维护LHC,该LHC在对于LLC 466中的较早的MLC驱逐的每个LLC命中时被递增。高速缓存控制器462配置有DIL技术以按如下方式处置对数据行的核需求读取。高速缓存控制器462执行LLC查找以确定数据行是否存在于LLC 466中。如果在LLC 466中存在命中,则高速缓存控制器462随后确定该数据是否被从MLC 464b的较早的驱逐带入LLC 466中以及LHC值是否大于阈值(其指示来自LLC 466的数据行的高重用概率)。如果这两个条件被满足,则高速缓存控制器462随后将数据行的共享副本发送到核,高速缓存控制器462将该数据行保持在LLC 466中,并且还将对应条目保持在SF 468中(例如,LLC数据条目不被解除分配)。SF 468随后用作出请求的核的核有效位来填充。如果这两个条件未被满足,则高速缓存控制器462继续将该数据的独占副本发送到核,从LLC 466驱逐该数据行,并仅将对应的条目保持在SF 468中。
高速缓存控制器462的一些实施例进一步配置有DIL技术,以按如下方式针对干净的受害者处置从MLC 464b的驱逐。高速缓存控制器确定干净的受害者的状态是否被共享,并且如果是,则高速缓存控制器静默地丢弃来自MLC 464b的数据(例如,由于干净的受害者是共享副本,并且LLC 466已经具有该数据的副本)。静默地丢弃该数据与针对非包含性LLC的常规MLC驱逐相比既在来自MLC 464b和LLC 466的数据传递方面节省,又节省了对L1高速缓存464a的监听。如果干净的受害者的状态不被共享,则高速缓存控制器462继续监听L1高速缓存464a(例如,更新SF 468中的对应条目),并且将该数据驱逐到LLC 466。
单重用高速缓存策略示例
一些实施例提供用于应用或实施单重用高速缓存策略的技术。对于排除性LLC,该LLC可被用作受害者高速缓存,其中,伴随着在未来从LLC被重用的预期,所有MLC驱逐被往回复制到LLC。然而,不是所有MLC驱逐具有从LLC被重用的相等概率。一些系统可使用死锁预测(DBP)技术来绕过MLC驱逐中的一些MLC驱逐,以防止LLC清除(trashing),并提供改善的或最优的LLC重用。然而,用于排除性LLC的常规DBP技术可能无法有效地从LLC捕捉单重用数据(例如,第一次从主存储器读取且随后第二次被重用的数据),这会导致较低的LLC命中率和较低性能。例如,即便缓冲器容量比LLC尺寸小,具有DBP的排除性LLC也可能无法捕捉缓冲器的单个重用。
一些实施例可提供用于单重用策略(SRP)的技术,其中,特定类别的MLC驱逐(例如,具有作为主存储器的源)可基于总LLC重用而被给予保持在LLC中的第二次机会。有利地,SRP技术的一些实施例可显著改善某些应用的LLC命中率,由此减少主存储器访问。
参考图7,集成电路500的实施例可包括核511以及耦合至核511的高速缓存控制器512。高速缓存控制器512可包括电路系统513,该电路系统513用于:标识从核高速缓存514驱逐的单重用数据;以及基于下一级高速缓存515的总重用,将所标识的单重用数据保留在下一级高速缓存515中。例如,单重用数据的源可以是主存储器。在一些实施例中,电路系统513可配置成用于:基于当数据行驻留在核高速缓存514中时由该数据行经历的核高速缓存514命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存514和下一级高速缓存515中的一个或多个中时起直到该数据行从下一级高速缓存515被驱逐为止由该数据行进行的在核高速缓存514与下一级高速缓存515之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来标识单重用数据。
在一些实施例中,电路系统513可进一步配置成用于:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。电路系统513还可配置成用于:从核高速缓存514驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存515中的最近最多使用(MRU)数据行。在一些实施例中,如果计数器值不大于阈值,或如果该数据行的源不是主存储器,则电路系统513可配置成用于:如果无效块在下一级高速缓存515中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存515中的最近最少使用(LRU)数据行;或者如果无效块在下一级高速缓存515中不可用,则绕过下一级高速缓存515。例如,下一级高速缓存515可包括LLC。
高速缓存控制器512、电路系统513、下一级高速缓存515和/或核高速缓存514的实施例可被并入处理器中,该处理器包括例如:核990(图13B)、核1102A-N(图15、图19)、处理器1210(图16)、协处理器1245(图16)、处理器1370(图17-图18)、处理器/协处理器1380(图17-图18)、协处理器1338(图17-图18)、协处理器1520(图19)、和/或处理器1614、1616(图20)。
参考图8A至图8C,控制高速缓存的方法520的实施例可包括:在框521处,标识从核高速缓存驱逐的单重用数据;以及在框522处,基于下一级高速缓存的总重用,将所标识的单重用数据保留在下一级高速缓存中。例如,在框523处,单重用数据的源可以是主存储器。方法520的一些实施例可进一步包括:在框524处,基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数;在框525处,基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数;以及在框526处,基于使用计数一和行程计数零将数据行标识为单重用数据。
方法520的一些实施例可进一步包括:在框527处,当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。方法520还可包括:在框528处,从核高速缓存驱逐数据行;在框529处,将被驱逐的数据行标记为死的;以及在框530处如果计数器值大于阈值且如果该数据行的源是主存储器,则在框531处,将被标记为死的被驱逐的数据行安置为下一级高速缓存中的MRU数据行。在一些实施例中,在框530处如果计数器值不大于阈值,或如果该数据行的源不是主存储器,则方法520可进一步包括:如果无效块在下一级高速缓存中可用,则在框532处将被标记为死的被驱逐的数据行安置为下一级高速缓存中的LRU数据行;或者如果无效块在下一级高速缓存中不可用,则在框533处绕过下一级高速缓存。例如,在框534处,下一级高速缓存可包括LLC。
参考图9,装置540的实施例可包括:一个或多个处理器核542;核高速缓存543,与一个或多个处理器核542位于一起且通信地耦合至一个或多个处理器核542;下一级高速缓存544,与核高速缓存543和一个或多个处理器核542位于一起且通信地耦合至核高速缓存543和一个或多个处理器核542;以及高速缓存控制器,与核高速缓存543、下一级高速缓存544和一个或多个处理器核542位于一起且通信地耦合至核高速缓存543、下一级高速缓存544和一个或多个处理器核542。高速缓存控制器545可包括SRP电路系统546。电路系统546可配置成用于:标识从核高速缓存543驱逐的单重用数据;以及基于下一级高速缓存544的总重用,将所标识的单重用数据保留在下一级高速缓存544中。例如,单重用数据的源是主存储器。在一些实施例中,电路系统546可进一步配置成用于:基于当数据行驻留在核高速缓存543中时由该数据行经历的核高速缓存543命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存543和下一级高速缓存544中的一个或多个中时起直到该数据行从下一级高速缓存544被驱逐为止由该数据行进行的在核高速缓存543与下一级高速缓存544之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来标识单重用数据。
在一些实施例中,电路系统546可进一步配置成用于:当下一级高速缓存544中的命中与从核高速缓存543的驱逐对应时,递增计数器值。电路系统546还可配置成用于:从核高速缓存543驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存544中的最近最多使用数据行。在一些实施例中,如果计数器值不大于阈值,或如果该数据行的源不是主存储器,则电路系统546可进一步配置成用于:如果无效块在下一级高速缓存中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行;并且如果无效块在下一级高速缓存中不可用,则绕过下一级高速缓存。例如,下一级高速缓存544可包括LLC。
高速缓存控制器545、SRP电路系统546、下一级高速缓存544和/或核高速缓存543的实施例可与处理器集成,该处理器包括例如:核990(图13B)、核1102A-N(图15、图19)、处理器1210(图16)、协处理器1245(图16)、处理器1370(图17-图18)、处理器/协处理器1380(图17-图18)、协处理器1338(图17-图18)、协处理器1520(图19)、和/或处理器1614、1616(图20)。
参考图10,示例示图图示出应用可显示的不同类型的存储器访问模式以及LLC如何为它们中的每一者提供重用。在该示例中,MLC容量为1.25MB,并且LLC容量为12MB。对于“流式”场景,核每次从主存储器读取具有不同容量的新缓冲器(D、C、B、A)。所有这些访问将是冷未命中,并且LLC中的命中率对于任何LLC尺寸将为零。接下来,图10示出“单重用”场景,其中,每个缓冲器确切地从主存储器被读取两次。“D1”和“D2”表示同一缓冲器“D”的两个实例,并且由核按照从缓冲器“D”的开始到缓冲器“D”的结束的相同顺序来访问。由于在该示例中缓冲器“D”的尺寸(20MB)比LLC的容量(12MB)大,因此“D1”变成冷未命中,并且“D2”变成容量未命中。类似地,“C1”和“C2”按照从缓冲器“C”的开始到缓冲器“C”的结束的确切相同的顺序经历相同的缓冲器“C”。由于“C”的缓冲器容量(2MB)比LLC尺寸(12MB)小,因此预期第一迭代(“C1”)是冷未命中,并且预期第二迭代(“C2”)是LLC命中。接下来,图10示出“多重用”场景。在此,关于“C1”、“C2”和“C3”,缓冲器“C”按从缓冲器“C”的开始到缓冲器“C”的结束的相同顺序被访问三次。由于“C”的容量(2MB)比LLC的尺寸(12MB)小,因此C1将是冷未命中,并且预期“C2”和“C3”是LLC命中。
流式场景发布LLC中的不必要的插入(例如,死块),这会浪费芯片上带宽而不改善性能。可利用任何合适的技术来减少LLC中死块的数量。示例技术可包括用于改善高速缓存替换算法的技术、用于绕过LLC以节省芯片上带宽的技术,等等。其他技术可使指令或数据地址与高速缓存块的死亡相关(例如,通过将死块用作替换或用作预取目标)。另一技术可利用虚拟受害者高速缓存,其使用预测的死块来保存从其他集合驱逐的块,其中,对被驱逐的块的第二参引可从死池被满足而不是去往主存储器。
替代地,用于减少LLC中的死块的数量的其他合适的技术可包括用于使用死块标识来绕过LLC的技术。核尝试通过绕过流式场景并保持可在LLC中适配的工作集来防止LLC清除。示例绕过技术基于概率来执行高速缓存行的随机绕过,该概率基于对被绕过的行的参引而增加或减小。该绕过技术利用附加的标签结构来存储被绕过的行的标签以及指向在没有绕过的情况下原本将被驱逐的替换受害者的指针。可利用任何合适的技术来标识绕过候选,包括重用计数、重用距离等。
由于绕过所有请求使性能降级,因此一些高速缓存系统可利用自适应绕过,该自适应绕过仅在LLC中没有无效的块可用时执行绕过。对于排除性LLC,此类系统可包括绕过和插入年龄技术。LLC绕过和年龄指派决策可基于当数据行针对LLC中的分配而被考虑时该数据行的两个属性。第一个属性是从数据行被带入到高速缓存层级结构中时起直到它从LLC被驱逐为止由该数据行在MLC与LLC之间进行的行程的数量(行程计数)。第二个属性是由数据行在其在MLC中的驻留期间经历的MLC高速缓存命中的数量(使用计数)。对于每种类别的使用计数和行程计数(例如,其可统称为死块预测(DBP)箱体),DBP模块可维护用于样本集中的一些样本集(例如,其可被称为“观察者集”)的LLC命中率计数器。例如,可仅对一些集合执行采样以减少高速缓存概况分析(profiling)的开销。当针对非观察者集(例如,也称为“跟随者集”)存在属于某个类别的DBP箱体的MLC驱逐时,DBP模块检查该观察者集中的用于该类别的对应的LLC命中率计数器。当LLC命中率小于可配置阈值时,随后DBP模块可确定该行从LLC被重用的概率较低,并且可在将该行发送到LLC之前将该行标记为“死的”。当LLC接收到“死的”驱逐时,如果无效块在LLC中可用,则高速缓存控制器可将该行插入在LLC中的LRU处,否则,高速缓存控制器绕过LLC。将该行插入在LRU处确保了在驱逐LLC中的现有的非LRU行之前该行首先变成受害者候选。
一些实施例可聚焦于特定的DBP箱体,其可被称为单重用,与使用计数值一(1)和行程计数值零(0)对应。根据一些实施例,单重用数据行从主存储器被读取(例如,直接地作为核需求或MLC预取,或作为LLC预取被预取到LLC中且随后从LLC读取),并且在MLC中被确切地访问一次。
如上所述,DBP技术可利用观察者集来检测流式场景。观察者集提供了是否存在来自LLC的行的重用的指示。核随后尝试防止从跟随者集清除。对于来自图10的示例“流式”场景,由于几乎没有来自LLC的重用,因此核从观察者集学习该流式模式,并且随后对于“A”访问、“B”访问、“C”访问和“D”访问绕过LLC。利用绕过,在流式访问之前处于LLC中的覆盖范围可被保留。该绕过可通过将流式缓冲器的MLC驱逐安置在LRU处来实现。LRU行变成用于下一LLC驱逐的候选,由此将可看见未来重用的现有的行保持在LLC中。
对于来自图10的示例“单重用”场景,DBP技术将“D1”检测为流式的,并因此对于跟随者绕过“D1”。“C1”缓冲器按与缓冲器“D1”相同的方式来对待。缓冲器“C1”的重用仅在观察者集中的“C2”中被看见。然而,常规意义上而言,“C1”针对跟随者集被完全绕过,并且相应地“C2”证明是LLC未命中,尽管容量在LLC中适配。单重用数据对于具有DBP的常规非包含性LLC呈现出问题,因为不存在用于预测传入缓冲器的容量的方法。DBP仅当它在观察者集中观察到缓冲器访问的第二迭代时才获悉重用,这是过晚的,并且针对跟随者集中的第一迭代,缓冲器已被绕过。对于图10中的示例“多重用”场景,观察者集在第二迭代期间获悉关于重用的情况,并且现在将缓冲器安置在针对跟随者集的更高年龄处,这确保了第三以及后续的重用在LLC中被捕获。
常规意义上而言,对于DBP标记为死的MLC驱逐,如果无效块在LLC中可用,则该行被安置在LRU中以防止未来清除(例如,由于该行自身变成从LLC驱逐的第一候选)。然而,凭借该行在LRU中,存在当被驱逐前获得伺机LLC命中的机会。虽然该技术对DBP箱体中的大部分起作用,但是该技术不能够捕捉“单重用”场景。应用在第一迭代期间访问新缓冲器之际,DBP就将所有驱逐标记为“死的”,直到它对于观察者集中的第二迭代开始实现重用。
如上所述,高速缓存控制器可维护LHC,该LHC在对于LLC中的较早的MLC驱逐的每个LLC命中时被递增。为了解决捕捉单重用数据的问题,一些实施例可跨所有DBP箱体检查观察者集中的全局LLC命中率。跨所有DBP箱体的观察者集中的全局LLC命中率可通过历史、独立于DBP箱体来指示应用是否已看见来自LLC的任何种类的重用。SRP技术的一些实施例可检查以下两个参数:A)LHC是否大于阈值,其表明来自LLC的重用;以及B)请求的起源是否是主存储器。当这两个条件都被满足时,数据可从MLC被安置在MRU中而不是在LRU中。实施例将主存储器标识为可潜在地观察未来重用的请求的源,该未来重用不由常规DBP技术针对非包含性LLC来捕捉。
参考图11,控制高速缓存的方法600的实施例可开始于框631处对数据行的MLC驱逐,在框632处,DBP将该MLC驱逐标记为死的。方法600随后可包括:在框633处,确定LHC是否大于阈值且数据行的源是否是主存储器。如果在框633处这两个条件都被满足,则方法600可继续在框634处将该行安置在LLC中的MRU处。如果在框633处这两个条件不是都被满足,则方法600可继续在框635处确定无效块是否可用,并且如果是,则在框636处将该行安置在LLC中的LRU处。否则,方法600可继续在框637处绕过LLC。
参考图12,高速缓存系统700的实施例包括高速缓存控制器712,其通信地耦合至核高速缓存714和LLC 716。核高速缓存714包括L1高速缓存714a和MLC 714b。高速缓存控制器712维护LHC,该LHC在对于LLC 716中的较早的MLC驱逐的每个LLC命中时被递增。高速缓存控制器712配置有SRP技术以按如下方式处置来自MLC 714b的、被标记为死的数据行的驱逐。高速缓存控制器712确定LHC是否大于阈值且数据行的源是否是主存储器。如果这两个条件都被满足,则高速缓存控制器712继续将该行安置在LLC 716中的MRU处。如果这两个条件不是都被满足,则高速缓存控制器712继续确定无效块在LLC 716中是否可用,并且如果是,则高速缓存控制器712将该行安置在LLC 716中的LRU处。否则,如果无效块在LLC 716中不是可用的,则高速缓存控制器712继续绕过LLC 716。
与不具有SRP技术的基线非排除性LLC相比,周期准确的模型中的SRP技术的实施例的性能建模显示出对于单重用数据的增加的LLC命中率,显示出增加的每周期指令(IPC),并显示出减少的存储器访问(改善的带宽)。
本领域技术人员将领会,各种设备可受益于前述实施例。以下示例性核架构、处理器和计算机架构是可受益地并入本文中描述的技术的实施例的设备的非限制性示例。
示例性核架构、处理器和计算机架构
处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
有序和乱序核框图
图13A是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图13B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图13A-图13B中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图13A中,处理器流水线900包括取出级902、长度解码级904、解码级906、分配级908、重命名级910、调度(也被称为分派或发布)级912、寄存器读取/存储器读取级914、执行级916、写回/存储器写入级918、异常处置级922和提交级924。
图13B示出处理器核990,该处理器核990包括前端单元930,该前端单元930耦合到执行引擎单元950,并且前端单元930和执行引擎单元950两者都耦合到存储器单元970。核990可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核990可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元930包括分支预测单元932,该分支预测单元932耦合到指令高速缓存单元934,该指令高速缓存单元934耦合到指令转换后备缓冲器(TLB)936,该指令转换后备缓冲器936耦合到指令取出单元938,该指令取出单元938耦合到解码单元940。解码单元940(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核990包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元940中,或以其他方式在前端单元930内)。解码单元940耦合到执行引擎单元950中的重命名/分配器单元952。
执行引擎单元950包括重命名/分配器单元952,该重命名/分配器单元952耦合到引退单元954和一个或多个调度器单元的集合956。(多个)调度器单元956表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元956耦合到(多个)物理寄存器堆单元958。(多个)物理寄存器堆单元958中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元958由引退单元954重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元954和(多个)物理寄存器堆单元958耦合到(多个)执行集群960。(多个)执行集群960包括一个或多个执行单元的集合962以及一个或多个存储器访问单元的集合964。执行单元962可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元956、(多个)物理寄存器堆单元958和(多个)执行集群960示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元964的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合964耦合到存储器单元970,该存储器单元970包括数据TLB单元972,该数据TLB单元972耦合到数据高速缓存单元974,该数据高速缓存单元974耦合到第二级(L2)高速缓存单元976。在一个示例性实施例中,存储器访问单元964可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元970中的数据TLB单元972。指令高速缓存单元934还耦合到存储器单元970中的第二级(L2)高速缓存单元976。L2高速缓存单元976耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线900:1)指令取出938执行取出级902和长度解码级904;2)解码单元940执行解码级906;3)重命名/分配器单元952执行分配级908和重命名级910;4)(多个)调度器单元956执行调度级912;5)(多个)物理寄存器堆单元958和存储器单元970执行寄存器读取/存储器读取级914;执行集群960执行执行级916;6)存储器单元970和(多个)物理寄存器堆单元958执行写回/存储器写入级918;7)各单元可牵涉到异常处置级922;以及8)引退单元954和(多个)物理寄存器堆单元958执行提交级924。
核990可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核990包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元934/974以及共享的L2高速缓存单元976,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图14A-图14B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图14A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络1002的连接及其第二级(L2)高速缓存的本地子集1004的框图。在一个实施例中,指令解码器1000支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1006允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1008和向量单元1010使用分开的寄存器集合(分别为标量寄存器1012和向量寄存器1014),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存1006读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集1004是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集1004的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集1004中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集1004中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图14B是根据本发明的实施例的图14A中的处理器核的一部分的展开图。图14B包括L1高速缓存1006的L1数据高速缓存1006A部分,以及关于向量单元1010和向量寄存器1014的更多细节。具体地,向量单元1010是16宽向量处理单元(VPU)(见16宽ALU 1028),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1020支持对寄存器输入的混合,通过数值转换单元1022A-B支持数值转换,并且通过复制单元1024支持对存储器输入的复制。写掩码寄存器1026允许掩蔽所得的向量写入。
图15是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器1100的框图。图15中的实线框图示具有单个核1102A、系统代理1110、一个或多个总线控制器单元的集合1116的处理器1100,而虚线框的任选增加图示具有多个核1102A-N、系统代理单元1110中的一个或多个集成存储器控制器单元的集合1114以及专用逻辑1108的替代处理器1100。
因此,处理器1100的不同实现可包括:1)CPU,其中专用逻辑1108是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1102A-N是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核1102A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核1102A-N是大量通用有序核。因此,处理器1100可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器1100可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核1102A-N内的一个或多个级别的相应的高速缓存1104A-N、一个或多个共享高速缓存单元的集合1106、以及耦合到集成存储器控制器单元的集合1114的外部存储器(未示出)。共享高速缓存单元的集合1106可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元1112将集成图形逻辑1108、共享高速缓存单元的集合1106以及系统代理单元1110/(多个)集成存储器控制器单元1114互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元1106与核1102A-N之间维持一致性。
在一些实施例中,一个或多个核1102A-N能够实现多线程化。系统代理1110包括协调和操作核1102A-N的那些部件。系统代理单元1110可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核1102A-N以及集成图形逻辑1108的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
核1102A-N在架构指令集方面可以是同构的或异构的;即,核1102A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图16-图19是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。
现在参考图16,所示出的是根据本发明一个实施例的系统1200的框图。系统1200可以包括一个或多个处理器1210、1215,这些处理器耦合到控制器中枢1220。在一个实施例中,控制器中枢1220包括图形存储器控制器中枢(GMCH)1290和输入/输出中枢(IOH)1250(其可以在分开的芯片上);GMCH 1290包括存储器和图形控制器,存储器1240和协处理器1245耦合到该存储器和图形控制器;IOH 1250将输入/输出(I/O)设备1260耦合到GMCH1290。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器1240和协处理器1245直接耦合到处理器1210,并且控制器中枢1220与IOH 1250处于单个芯片中。
附加的处理器1215的任选性在图16中通过虚线来表示。每一处理器1210、1215可包括本文中描述的处理核中的一个或多个,并且可以是处理器1100的某一版本。
存储器1240可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1220经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接1295来与(多个)处理器1210、1215进行通信。
在一个实施例中,协处理器1245是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢1220可以包括集成图形加速器。
在物理资源1210、1215之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器1210执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1210将这些协处理器指令识别为具有应当由附连的协处理器1245执行的类型。因此,处理器1210在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1245。(多个)协处理器1245接受并执行所接收的协处理器指令。
现在参见图17,所示出的是根据本发明的实施例的第一更具体的示例性系统1300的框图。如图17中所示,多处理器系统1300是点对点互连系统,并且包括经由点对点互连1350耦合的第一处理器1370和第二处理器1380。处理器1370和1380中的每一个都可以是处理器1100的某一版本。在本发明的一个实施例中,处理器1370和1380分别是处理器1210和1215,而协处理器1338是协处理器1245。在另一实施例中,处理器1370和1380分别是处理器1210和协处理器1245。
处理器1370和1380示出为分别包括集成存储器控制器(IMC)单元1372和1382。处理器1370还包括作为其总线控制器单元的一部分的点对点(P-P)接口1376和1378;类似地,第二处理器1380包括P-P接口1386和1388。处理器1370、1380可以经由使用点对点(P-P)接口电路1378、1388的P-P接口1350来交换信息。如图17中所示,IMC 1372和1382将处理器耦合到相应的存储器,即存储器1332和存储器1334,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器1370、1380可各自经由使用点对点接口电路1376、1394、1386、1398的各个P-P接口1352、1354来与芯片组1390交换信息。芯片组1390可以任选地经由高性能接口1339和接口1392来与协处理器1338交换信息。在一个实施例中,协处理器1338是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组1390可以经由接口1396耦合到第一总线1316。在一个实施例中,第一总线1316可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图17中所示,各种I/O设备1314可连同总线桥1318一起耦合到第一总线1316,该总线桥1318将第一总线1316耦合到第二总线1320。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1315耦合到第一总线1316。在一个实施例中,第二总线1320可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线1320,这些设备包括例如键盘和/或鼠标1322、通信设备1327以及存储单元1328,该存储单元1328诸如可包括指令/代码和数据1330的盘驱动器或者其他大容量存储设备。此外,音频I/O 1324可以被耦合到第二总线1320。注意,其他架构是可能的。例如,代替图17的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图18,示出的是根据本发明的实施例的第二更具体的示例性系统1400的框图。图17和图18中的类似元件使用类似的附图标记,并且从图18中省略了图17的某些方面以避免混淆图18的其他方面。
图18图示处理器1370、1380可分别包括集成存储器和I/O控制逻辑(“CL”)1472和1482。因此,CL 1472、1482包括集成存储器控制器单元,并包括I/O控制逻辑。图18图示不仅存储器1332、1334耦合到CL 1472、1482,而且I/O设备1414也耦合到控制逻辑1472、1482。传统I/O设备1415被耦合到芯片组1390。
现在参考图19,示出的是根据本发明的实施例的SoC 1500的框图。图15中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的任选的特征。在图19中,(多个)互连单元1502被耦合到:应用处理器1510,其包括一个或多个核的集合1102A-N以及(多个)共享高速缓存单元1106;系统代理单元1110;(多个)总线控制器单元1116;(多个)集成存储器控制器单元1114;一个或多个协处理器的集合1520,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1530;直接存储器访问(DMA)单元1532;以及用于耦合到一个或多个外部显示器的显示单元1540。在一个实施例中,(多个)协处理器1520包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图17中图示的代码1330)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图20是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图20示出可使用x86编译器1604来编译高级语言1602形式的程序,以生成可由具有至少一个x86指令集核的处理器1616原生执行的x86二进制代码1606。具有至少一个x86指令集核的处理器1616表示通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的实质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1604表示可操作用于生成x86二进制代码1606(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器1616上执行。类似地,图20示出可以使用替代的指令集编译器1608来编译高级语言1602形式的程序,以生成可以由不具有至少一个x86指令集核的处理器1614(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1610。指令转换器1612用于将x86二进制代码1606转换成可以由不具有x86指令集核的处理器1614原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1610相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1612通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码1606的软件、固件、硬件或其组合。
本文中描述了用于指令级架构操作码参数化的技术和架构。在上文描述中,出于解释的目的,阐述了众多具体细节以提供对某些实施例的透彻理解。然而,对本领域技术人员而言将显而易见的是,某些实施例可在无需这些具体细节的情况下实施。在其他实例中,以框图形式示出结构和设备以避免使描述含糊。
附加注解与示例
示例1包括一种集成电路,其包括:核;以及高速缓存控制器,耦合至核,该高速缓存控制器包括电路系统,该电路系统用于:基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存中。
示例2包括示例1的集成电路,其中,电路系统进一步用于:逐数据行地确定数据在下一级高速缓存中的动态包含。
示例3包括示例1的集成电路,其中,电路系统进一步用于:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及如果下一级高速缓存中的当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存中。
示例4包括示例3的集成电路,其中,电路系统进一步用于:设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。
示例5包括示例4的集成电路,其中,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则电路系统进一步用于:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存中对该数据解除分配。
示例6包括示例1的集成电路,其中,电路系统进一步用于:如果要从核高速缓存驱逐的数据在下一级高速缓存中具有该数据的共享副本,则静默地丢弃要从核高速缓存驱逐的该数据。
示例7包括示例1的集成电路,其中,下一级高速缓存包括非包含性末级高速缓存。
示例8包括控制高速缓存的方法,其包括:基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存中。
示例9包括示例8的方法,进一步包括:逐数据行地确定数据在下一级高速缓存中的动态包含。
示例10包括示例8的方法,进一步包括:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及如果下一级高速缓存中的当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存中。
示例11包括示例10的方法,进一步包括:设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。
示例12包括示例11的方法,其中,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则该方法进一步包括:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存中对该数据解除分配。
示例13包括示例8的方法,进一步包括:如果要从核高速缓存驱逐的数据在下一级高速缓存中具有该数据的共享副本,则静默地丢弃要从核高速缓存驱逐的该数据。
示例14包括一种装置,其包括:一个或多个处理器核;核高速缓存,与一个或多个处理器核位于一起,并且通信地耦合至一个或多个处理器核;下一级高速缓存,与核高速缓存和一个或多个处理器核位于一起,并且通信地耦合至核高速缓存和一个或多个处理器核;以及高速缓存控制器,与核高速缓存、下一级高速缓存和一个或多个处理器核位于一起,并且通信地耦合至核高速缓存、下一级高速缓存和一个或多个处理器核,该高速缓存控制器包括电路系统,该电路系统用于:基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存中。
示例15包括示例14的装置,其中,电路系统进一步用于:逐数据行地确定数据在下一级高速缓存中的动态包含。
示例16包括示例14的装置,其中,电路系统进一步用于:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及如果下一级高速缓存中的当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存中。
示例17包括示例16的装置,其中,电路系统进一步用于:设置监听过滤器以指示作出请求的核对于当前数据命中是有效的。
示例18包括示例16的装置,其中,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则电路系统进一步用于:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存中对该数据解除分配。
示例19包括示例14的装置,其中,电路系统进一步用于:如果要从核高速缓存驱逐的数据在下一级高速缓存中具有该数据的共享副本,则静默地丢弃要从核高速缓存驱逐的该数据。
示例20包括示例14的装置,其中,下一级高速缓存包括非包含性末级高速缓存。
示例21包括高速缓存控制器设备,其包括:用于基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据的装置;用于将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核的装置;以及用于将所标识的数据的副本维持在下一级高速缓存中的装置。
示例22包括示例21的设备,进一步包括:用于逐数据行地确定数据在下一级高速缓存中的动态包含的装置。
示例23包括示例21的设备,进一步包括:用于当下一级高速缓存中的命中与从核高速缓存的驱逐对应时递增计数器值的装置;以及用于如果下一级高速缓存中的当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值则标识当前数据命中用于动态包含在下一级高速缓存中的装置。
示例24包括示例23的设备,进一步包括:用于设置监听过滤器以指示作出请求的核对于当前数据命中是有效的装置。
示例25包括示例24的设备,其中,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则该设备进一步包括:用于将数据的独占副本发送到作出请求的核的装置;用于更新监听过滤器中的条目以指示作出请求的核的核标识符的装置;以及用于在下一级高速缓存中对该数据解除分配的装置。
示例26包括示例21的设备,进一步包括:用于如果要从核高速缓存驱逐的数据在下一级高速缓存中具有该数据的共享副本则静默地丢弃要从核高速缓存驱逐的该数据的装置。
示例27包括至少一种非暂态机器可读介质,包括多条指令,这些指令响应于在计算设备上被执行而使该计算设备:基于下一级高速缓存的重用的量从工作集标识用于动态包含在下一级高速缓存中的数据;将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及将所标识的数据的副本维持在下一级高速缓存中。
示例28包括示例27的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:逐数据行地确定数据在下一级高速缓存中的动态包含。
示例29包括示例27的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及如果下一级高速缓存中的当前数据命中与从核高速缓存的驱逐对应且如果计数器值大于阈值,则标识当前数据命中用于动态包含在下一级高速缓存中。
示例30包括示例29的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:设置监听过滤器以指示作出请求的核对当前数据命中是有效的。
示例31包括示例30的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行,如果当前数据命中不与从核高速缓存的驱逐对应或如果计数器值不大于阈值,则使该计算设备:将数据的独占副本发送到作出请求的核;更新监听过滤器中的条目以指示作出请求的核的核标识符;以及在下一级高速缓存中对该数据解除分配。
示例32包括示例27的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:如果要从核高速缓存驱逐的数据在下一级高速缓存中具有数据的共享副本,则静默地丢弃要从核高速缓存驱逐的该数据。
示例33包括一种集成电路,其包括:核;以及高速缓存控制器,耦合至核,该高速缓存控制器包括电路系统,该电路系统用于:标识从核高速缓存驱逐的单重用数据;以及基于下一级高速缓存的总重用而将所标识的单重用数据保留在下一级高速缓存中。
示例34包括示例33的集成电路,其中,单重用数据的源是主存储器。
示例35包括示例34的集成电路,其中,电路系统进一步用于:基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来标识单重用数据。
示例36包括示例33的集成电路,其中,电路系统进一步用于:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。
示例37包括示例36的集成电路,其中,电路系统进一步用于:从核高速缓存驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最多使用数据行。
示例38包括示例37的集成电路,其中,如果计数器值不大于阈值,或者如果数据行的源不是主存储器,则电路系统进一步用于:如果无效块在下一级高速缓存中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行。
示例39包括示例37的集成电路,其中,如果计数器值不大于阈值,或者如果数据行的源不是主存储器,则电路系统进一步用于:如果无效块在下一级高速缓存中不可用,则绕过下一级高速缓存。
示例40包括一种控制高速缓存的方法,其包括:标识从核高速缓存驱逐的单重用数据;以及基于下一级高速缓存的总重用,将所标识的单重用数据保留在下一级高速缓存中。
示例41包括示例40的方法,其中,单重用数据的源是主存储器。
示例42包括示例41的方法,进一步包括:基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来将该数据行标识为单重用数据。
示例43包括示例40的方法,进一步包括:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。
示例44包括示例43的方法,进一步包括:从核高速缓存驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最多使用数据行。
示例45包括示例44的方法,其中,如果计数器值不大于阈值,或如果该数据行的源不是主存储器,则该方法进一步包括:如果无效块在下一级高速缓存中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行;并且如果无效块在下一级高速缓存中不可用,则绕过下一级高速缓存。
示例46包括一种装置,其包括:一个或多个处理器核;核高速缓存,与一个或多个处理器核位于一起,并且通信地耦合至一个或多个处理器核;下一级高速缓存,与核高速缓存和一个或多个处理器核位于一起,并且通信地耦合至核高速缓存和一个或多个处理器核;以及高速缓存控制器,与核高速缓存、下一级高速缓存和一个或多个处理器核位于一起,并且通信地耦合至核高速缓存、下一级高速缓存和一个或多个处理器核,该高速缓存控制器包括电路系统,该电路系统用于:标识从核高速缓存驱逐的单重用数据;以及基于下一级高速缓存的总重用,将所标识的单重用数据保留在下一级高速缓存中。
示例47包括示例46的装置,其中,单重用数据的源是主存储器。
示例48包括示例47的装置,其中,电路系统进一步用于:基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来标识单重用数据。
示例49包括示例46的装置,其中,电路系统进一步用于:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。
示例50包括示例49的装置,其中,电路系统进一步用于:从核高速缓存驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最多使用数据行。
示例51包括示例50的装置,其中,如果计数器值不大于阈值,或者如果数据行的源不是主存储器,则电路系统进一步用于:如果无效块在下一级高速缓存中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行。
示例52包括示例50的装置,其中,如果计数器值不大于阈值,或者如果数据行的源不是主存储器,则电路系统进一步用于:如果无效块在下一级高速缓存中不可用,则绕过下一级高速缓存。
示例53包括一种高速缓存控制器设备,其包括:用于标识从核高速缓存驱逐的单重用数据的装置;以及用于基于下一级高速缓存的总重用而将所标识的单重用数据保留在下一级高速缓存中的装置。
示例54包括示例53的设备,其中,单重用数据的源是主存储器。
示例55包括示例54的设备,进一步包括:用于基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数的装置;用于基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数的装置;以及用于基于使用计数一和行程计数零来将该数据行标识为单重用数据的装置。
示例56包括示例53的设备,进一步包括:用于当下一级高速缓存中的命中与从核高速缓存的驱逐对应时递增计数器值的装置。
示例57包括示例56的设备,进一步包括:用于从核高速缓存驱逐数据行的装置;用于将被驱逐的数据行标记为死的装置;以及用于如果计数器值大于阈值且如果该数据行的源是主存储器则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最多使用数据行的装置。
示例58包括示例57的设备,其中,如果计数器值不大于阈值,或如果该数据行的源不是主存储器,则该设备进一步包括:用于如果无效块在下一级高速缓存中可用则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行的装置;以及用于如果无效块在下一级高速缓存中不可用则绕过下一级高速缓存的装置。
示例59包括至少一种非暂态机器可读介质,包括多条指令,这些指令响应于在计算设备上被执行而使该计算设备:标识从核高速缓存驱逐的单重用数据;以及基于下一级高速缓存的总重用,将所标识的单重用数据保留在下一级高速缓存中。
示例60包括示例59的至少一种非暂态机器可读介质,其中,单重用数据的源是主存储器。
示例61包括示例60的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:基于当数据行驻留在核高速缓存中时由该数据行经历的核高速缓存命中的数量来确定该数据行的使用计数;基于从该数据行被带到核高速缓存和下一级高速缓存中的一个或多个中时起直到该数据行从下一级高速缓存被驱逐为止由该数据行进行的在核高速缓存与下一级高速缓存之间的行程数量来确定该数据行的行程计数;以及基于使用计数一和行程计数零来将该数据行标识为单重用数据。
示例62包括示例59的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:当下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值。
示例64包括示例63的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行而使该计算设备:从核高速缓存驱逐数据行;将被驱逐的数据行标记为死的;以及如果计数器值大于阈值且如果该数据行的源是主存储器,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最多使用数据行。
示例65包括示例64的至少一种非暂态机器可读介质,包括多条进一步的指令,这些指令响应于在计算设备上被执行,如果计数器值不大于阈值,或者如果数据行的源不是主存储器,则使该计算设备:如果无效块在下一级高速缓存中可用,则将被标记为死的被驱逐的数据行安置为下一级高速缓存中的最近最少使用数据行;以及如果无效块在下一级高速缓存中不可用,则绕过下一级高速缓存。
在说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书中的不同位置处出现短语“在一个实施例中”不一定全都指同一个实施例。
本文中的详细描述的一些部分在对计算机存储器内数据位的操作的算法和符号表示方面来呈现。这些算法描述和表示是由计算领域的普通技术人员使用以向本领域其他技术人员最有效地传递其工作的实质的手段。算法在此一般被理解为导致所需结果的自洽的步骤序列。这些步骤是需要对物理量进行物理操纵的那些步骤。通常但非必须,这些量采用能够被存储、传输、组合、比较、以及以其他方式操纵的电信号或磁信号的形式。主要出于常见用途的考虑,将这些信号称为位、值、元素、符号、字符、项、数字等已被证明有时是方便的。
然而,应当记住,所有这些和类似的术语用于与适当的物理量关联,并且仅仅是应用于这些量的方便的标记。除非以其他方式明确指明,否则如从本文的讨论中显而易见的,可以理解,贯穿说明书,利用诸如“处理”或“计算”或“运算”或“确定”或“显示”等术语的讨论,指的是计算机系统或类似电子计算设备的动作和进程,该计算机系统或类似电子计算设备操纵在该计算机系统的寄存器和存储器内表示为物理(电子)量的数据并将其转换成在该计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内类似地表示为物理量的其他数据。
某些实施例还涉及用于执行本文中操作的装置。该装置可专门构造来用于所需目的,或其可包括通用计算机,该通用计算机由存储在该计算机内的计算机程序有选择地激活或重新配置。此类计算机程序可以存储在计算机可读存储介质中,该计算机可读存储介质诸如但不限于任何类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、诸如动态随机存取存储器(RAM)(DRAM)的RAM、EPROM、EEPROM、磁卡或光卡、或适用于存储电子指令且耦合至计算机系统总线的任何类型的介质。
本文中呈现的算法和显示并非固有地与任何特定计算机或其他装置相关。可以将各种通用系统与根据本文中的教导的程序一起使用,或可以证明构造更专门的装置来执行所要求的方法步骤是方便的。各种这些系统的所需结构将从本文中的描述呈现。此外,某些实施例不是参考任何特定编程语言来描述的。将会理解,可以使用各种编程语言来实现本文所描述的此类实施例的教导。
除了本文所描述的内容,可对所公开的实施例及其实现方式作出各种修改而不背离其范围。因此,本文中的说明和示例应当被解释成说明性的,而非限制性的。本发明的范围应当仅通过参照所附权利要求书来界定。
Claims (25)
1.一种集成电路,包括:
核;以及
高速缓存控制器,耦合至所述核,所述高速缓存控制器包括电路系统,所述电路系统用于:
基于下一级高速缓存的重用的量从工作集标识用于动态包含在所述下一级高速缓存中的数据;
将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及
将所标识的数据的副本维持在所述下一级高速缓存中。
2.如权利要求1所述的集成电路,其中,所述电路系统进一步用于:
逐数据行地确定数据在所述下一级高速缓存中的动态包含。
3.如权利要求1至2中任一项所述的集成电路,其中,所述电路系统进一步用于:
当所述下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及
如果所述下一级高速缓存中的当前数据命中与从所述核高速缓存的驱逐对应且如果所述计数器值大于阈值,则标识所述当前数据命中用于动态包含在所述下一级高速缓存中。
4.如权利要求3所述的集成电路,其中,所述电路系统进一步用于:
设置监听过滤器以指示所述作出请求的核对于所述当前数据命中是有效的。
5.如权利要求4所述的集成电路,其中,如果所述当前数据命中不与从所述核高速缓存的驱逐对应,或者如果所述计数器值不大于所述阈值,则所述电路系统进一步用于:
将所述数据的独占副本发送到所述作出请求的核;
更新所述监听过滤器中的条目以指示所述作出请求的核的核标识符;以及
在所述下一级高速缓存中对所述数据解除分配。
6.如权利要求1至2中任一项所述的集成电路,其中,所述电路系统进一步用于:
如果要从核高速缓存驱逐的数据在所述下一级高速缓存中具有所述数据的共享副本,则静默地丢弃要从所述核高速缓存驱逐的所述数据。
7.如权利要求1至2中任一项所述的集成电路,其中,所述下一级高速缓存包括非包含性末级高速缓存。
8.一种控制高速缓存的方法,包括:
基于下一级高速缓存的重用的量从工作集标识用于动态包含在所述下一级高速缓存中的数据;
将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核;以及
将所标识的数据的副本维持在所述下一级高速缓存中。
9.如权利要求8所述的方法,进一步包括:
逐数据行地确定数据在所述下一级高速缓存中的动态包含。
10.如权利要求8至9中任一项所述的方法,进一步包括:
当所述下一级高速缓存中的命中与从核高速缓存的驱逐对应时,递增计数器值;以及
如果所述下一级高速缓存中的当前数据命中与从所述核高速缓存的驱逐对应且如果所述计数器值大于阈值,则标识所述当前数据命中用于动态包含在所述下一级高速缓存中。
11.如权利要求10所述的方法,进一步包括:
设置监听过滤器以指示所述作出请求的核对于所述当前数据命中是有效的。
12.如权利要求11所述的方法,其中,如果所述当前数据命中不与从所述核高速缓存的驱逐对应,或者如果所述计数器值不大于所述阈值,则所述方法进一步包括:
将所述数据的独占副本发送到所述作出请求的核;
更新所述监听过滤器中的条目以指示所述作出请求的核的核标识符;以及
在所述下一级高速缓存中对所述数据解除分配。
13.如权利要求8至9中任一项所述的方法,进一步包括:
如果要从核高速缓存驱逐的数据在所述下一级高速缓存中具有所述数据的共享副本,则静默地丢弃要从所述核高速缓存驱逐的所述数据。
14.一种装置,包括:
一个或多个处理器核;
核高速缓存,与所述一个或多个处理器核位于一起,并且通信地耦合至所述一个或多个处理器核;
下一级高速缓存,与所述核高速缓存和所述一个或多个处理器核位于一起,并且通信地耦合至所述核高速缓存和所述一个或多个处理器核;以及
高速缓存控制器,与所述核高速缓存、所述下一级高速缓存和所述一个或多个处理器核位于一起,并且通信地耦合至所述核高速缓存、所述下一级高速缓存和所述一个或多个处理器核,所述高速缓存控制器包括电路系统,所述电路系统用于:
基于所述下一级高速缓存的重用的量从工作集标识用于动态包含在所述下一级高速缓存中的数据;
将所标识的数据的共享副本发送到所述一个或多个处理器核中的作出请求的核;以及
将所标识的数据的副本维持在所述下一级高速缓存中。
15.如权利要求14所述的装置,其中,所述电路系统进一步用于:
逐数据行地确定数据在所述下一级高速缓存中的动态包含。
16.如权利要求14至15中任一项所述的装置,其中,所述电路系统进一步用于:
当所述下一级高速缓存中的命中与从所述核高速缓存的驱逐对应时,递增计数器值;以及
如果所述下一级高速缓存中的当前数据命中与从所述核高速缓存的驱逐对应且如果所述计数器值大于阈值,则标识所述当前数据命中用于动态包含在所述下一级高速缓存中。
17.如权利要求16所述的装置,其中,所述电路系统进一步用于:
设置监听过滤器以指示所述作出请求的核对于所述当前数据命中是有效的。
18.如权利要求16所述的装置,其中,如果所述当前数据命中不与从所述核高速缓存的驱逐对应,或者如果所述计数器值不大于所述阈值,则所述电路系统进一步用于:
将所述数据的独占副本发送到所述作出请求的核;
更新所述监听过滤器中的条目以指示所述作出请求的核的核标识符;以及
在所述下一级高速缓存中对所述数据解除分配。
19.如权利要求14至15中任一项所述的装置,其中,所述电路系统进一步用于:
如果要从核高速缓存驱逐的数据在所述下一级高速缓存中具有所述数据的共享副本,则静默地丢弃要从所述核高速缓存驱逐的所述数据。
20.如权利要求14至15中任一项所述的装置,其中,所述下一级高速缓存包括非包含性末级高速缓存。
21.一种高速缓存控制器设备,包括:
用于基于下一级高速缓存的重用的量从工作集标识用于动态包含在所述下一级高速缓存中的数据的装置;
用于将所标识的数据的共享副本发送到一个或多个处理器核中的作出请求的核的装置;以及
用于将所标识的数据的副本维持在所述下一级高速缓存中的装置。
22.如权利要求21所述的设备,进一步包括:
用于逐数据行地确定数据在所述下一级高速缓存中的动态包含的装置。
23.如权利要求21至22中任一项所述的设备,进一步包括:
用于当所述下一级高速缓存中的命中与从核高速缓存的驱逐对应时递增计数器值的装置;以及
用于如果所述下一级高速缓存中的当前数据命中与从所述核高速缓存的驱逐对应且如果所述计数器值大于阈值则标识所述当前数据命中用于动态包含在所述下一级高速缓存中的装置。
24.如权利要求23所述的设备,进一步包括:
用于设置监听过滤器以指示所述作出请求的核对于所述当前数据命中是有效的装置。
25.如权利要求24所述的设备,其中,如果所述当前数据命中不与从所述核高速缓存的驱逐对应,或者如果所述计数器值不大于所述阈值,则所述设备进一步包括:
用于将所述数据的独占副本发送到所述作出请求的核的装置;
用于更新所述监听过滤器中的条目以指示所述作出请求的核的核标识符的装置;以及
用于在所述下一级高速缓存中对所述数据解除分配的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/130,676 | 2020-12-22 | ||
US17/130,676 US20220197797A1 (en) | 2020-12-22 | 2020-12-22 | Dynamic inclusive last level cache |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661630A true CN114661630A (zh) | 2022-06-24 |
Family
ID=77710471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111495678.8A Pending CN114661630A (zh) | 2020-12-22 | 2021-12-08 | 动态包含性末级高速缓存 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220197797A1 (zh) |
EP (1) | EP4020224A1 (zh) |
CN (1) | CN114661630A (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378148B2 (en) * | 2013-03-15 | 2016-06-28 | Intel Corporation | Adaptive hierarchical cache policy in a microprocessor |
US9727475B2 (en) * | 2014-09-26 | 2017-08-08 | Intel Corporation | Method and apparatus for distributed snoop filtering |
US10180905B1 (en) * | 2016-04-07 | 2019-01-15 | Apple Inc. | Unified prefetch circuit for multi-level caches |
US9727489B1 (en) * | 2016-10-07 | 2017-08-08 | International Business Machines Corporation | Counter-based victim selection in a cache memory |
US20190087344A1 (en) * | 2017-09-20 | 2019-03-21 | Qualcomm Incorporated | Reducing Clean Evictions In An Exclusive Cache Memory Hierarchy |
-
2020
- 2020-12-22 US US17/130,676 patent/US20220197797A1/en active Pending
-
2021
- 2021-09-09 EP EP21195669.3A patent/EP4020224A1/en active Pending
- 2021-12-08 CN CN202111495678.8A patent/CN114661630A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220197797A1 (en) | 2022-06-23 |
EP4020224A1 (en) | 2022-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3049924B1 (en) | Method and apparatus for cache occupancy determination and instruction scheduling | |
US11030108B2 (en) | System, apparatus and method for selective enabling of locality-based instruction handling | |
US9361233B2 (en) | Method and apparatus for shared line unified cache | |
US9727475B2 (en) | Method and apparatus for distributed snoop filtering | |
US9158702B2 (en) | Apparatus and method for implementing a scratchpad memory using priority hint | |
US11531562B2 (en) | Systems, methods, and apparatuses for resource monitoring | |
US11182298B2 (en) | System, apparatus and method for dynamic profiling in a processor | |
US10657070B2 (en) | Apparatus and method for shared least recently used (LRU) policy between multiple cache levels | |
CN114661434A (zh) | 用于难以预测的分支的替代路径解码 | |
US11847053B2 (en) | Apparatuses, methods, and systems for a duplication resistant on-die irregular data prefetcher | |
US20240134803A1 (en) | Hardware assisted memory access tracking | |
US20220197794A1 (en) | Dynamic shared cache partition for workload with large code footprint | |
CN114647872A (zh) | 用受害者缓存补充偏斜缓存的装置、方法和系统 | |
US20220197797A1 (en) | Dynamic inclusive last level cache | |
US20220197798A1 (en) | Single re-use processor cache policy | |
US20240202125A1 (en) | Coherency bypass tagging for read-shared data | |
EP4020228B1 (en) | Device, system and method for selectively dropping software prefetch instructions | |
US20230305960A1 (en) | Device, system and method for providing a high affinity snoop filter | |
US20240037036A1 (en) | Scheduling merged store operations in compliance with store ordering rules | |
US20230409481A1 (en) | System, method, and apparatus for enhanced pointer identification and prefetching | |
US20230315632A1 (en) | Two-stage cache partitioning | |
CN115934584A (zh) | 设备私有存储器中的存储器访问跟踪器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |