CN114661626A - 用于选择性地丢弃软件预取指令的设备、系统和方法 - Google Patents
用于选择性地丢弃软件预取指令的设备、系统和方法 Download PDFInfo
- Publication number
- CN114661626A CN114661626A CN202111528576.1A CN202111528576A CN114661626A CN 114661626 A CN114661626 A CN 114661626A CN 202111528576 A CN202111528576 A CN 202111528576A CN 114661626 A CN114661626 A CN 114661626A
- Authority
- CN
- China
- Prior art keywords
- prefetch
- entry
- instruction
- registry
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000013519 translation Methods 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 abstract description 6
- 230000015654 memory Effects 0.000 description 86
- 238000010586 diagram Methods 0.000 description 27
- 239000000463 material Substances 0.000 description 26
- 230000014616 translation Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000007667 floating Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052754 neon Inorganic materials 0.000 description 1
- GKAOGPIIYCISHV-UHFFFAOYSA-N neon atom Chemical compound [Ne] GKAOGPIIYCISHV-UHFFFAOYSA-N 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0806—Multiuser, multiprocessor or multiprocessing cache systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0891—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using clearing, invalidating or resetting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3004—Arrangements for executing specific machine instructions to perform operations on memory
- G06F9/30047—Prefetch instructions; cache control instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3824—Operand accessing
- G06F9/383—Operand prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/10—Address translation
- G06F12/1027—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB]
- G06F12/1045—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache
- G06F12/1054—Address translation using associative or pseudo-associative address translation means, e.g. translation look-aside buffer [TLB] associated with a data cache the data cache being concurrently physically addressed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6024—History based prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/65—Details of virtual memory and virtual address translation
- G06F2212/654—Look-ahead translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/65—Details of virtual memory and virtual address translation
- G06F2212/655—Same page detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请公开了用于选择性地丢弃软件预取指令的设备、系统和方法。用于提供用于确定是否要执行软件预取指令的信息的技术和机制。在实施例中,转换后备缓冲器(TLB)的一个或多个条目各自都包括根据一个或多个准则来指示对应的数据是否已充分地被利用的相应值。不充分地被利用的数据在TLB条目中利用用于预取对应数据的被执行的指令的标识符来指示。TLB条目的驱逐导致预取指令的注册表中的条目的创建。注册表中的条目包括被执行的预取指令的标识符、以及指示一条或多条未来预取指令要被丢弃的次数的值。在另一实施例中,后续预取指令——其也与标识符对应——的执行基于注册表条目而被防止。
Description
背景
1.技术领域
本公开总体上关于处理设备,并且更具体地但非排他地关于基于转换后备缓冲器中的信息而执行的预取操作。
2.背景技术
数据预取或在早期将数据取到高速缓存中是在处理器中实现的、用于增加以及时方式具有所请求数据的概率并由此维持高处理效率的特征。当数据在处理器高速缓存处可用时,可减少在其中处理器停止的众多周期。例如,处理器在等待数据从(相对于该处理器)更远的高速缓存级别或存储器返回时会停止。数据预取典型地依赖于对转换后备缓冲器(TLB)搜索地址转换信息,该地址转换信息标识数据从其处被预取的位置。
软件预取指令可对慢取(slow-to-fetch)数据产生显著的性能改善。然而,应用在预测哪个被预取的数据实际上被加载或以其他方式利用时经常是不准确的。在许多用例中,众多这些未使用的软件预取被预期,这趋于导致一个或多个高速缓存的污染。
在试图缓解此类高速缓存污染时,一些处理器选择性地丢弃(即,放弃执行)具有导致TLB未命中的地址信息的软件预取指令。对预取指令的此类丢弃还放弃创建用于地址信息的TLB条目。然而,存在在其中此类TLB条目否则可能在一条或多条后续指令的执行中有用的实例。相应地,处理器高速缓存管理在一个或多个方面有时与TLB的高效管理不一致。随着处理器的相继世代继续在速度和能力方面增加,预期存在对供在软件执行中使用的数据的可访问性的改善方面的增加的附加值。
附图说明
以示例方式且非限制方式在附图的各图中图示本发明的各实施例,在附图中:
图1图示示出根据实施例的用于确定是否要执行软件预取的系统的特征的功能框图。
图2图示示出根据实施例的用于提供处理器的预取功能的方法的特征的流程图。
图3图示示出根据实施例的用于执行软件预取的处理器的特征的功能框图。
图4A、图4B图示各自都示出根据实施例的用于跟踪软件预取指令的参考信息的相应特征的数据图。
图5A、图5B图示各自都示出根据对应实施例的用于管理转换后备缓冲器的相应方法的特征的流程图。
图6图示示出根据实施例的用于提供软件预取指令的注册表的方法的特征的流程图。
图7A是图示根据本发明的实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。
图7B是图示根据本发明的实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图;
图8A-图8B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核);
图9是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器的框图;
图10至图13是示例性计算机架构的框图;以及
图14是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
本文中讨论的实施例以各种方式提供用于跟踪导致数据的预取的软件指令的技术和机制。本文中描述的技术可以在一个或多个电子设备中实现。可以利用本文中描述的技术的电子设备的非限制性示例包括任何种类的移动设备和/或固定式设备,诸如,相机、蜂窝电话、计算机终端、台式计算机、电子阅读器、传真机、自动服务机、膝上型计算机、上网本计算机、笔记本计算机、互联网设备、支付终端、个人数字助理、媒体播放器和/或记录器、服务器(例如,刀片服务器,机架安装服务器,其组合等)、机顶盒、智能电话、平板个人计算机、超移动个人计算机、有线电话、上述各项的组合,等等。更一般地,本文中描述的技术可在包括提供数据预取功能的处理器的各种电子设备中的任何电子设备中被采用。
在下列描述中,讨论了众多细节,以提供对本公开的实施例的更透彻的解释。然而,对本领域的技术人员将显而易见的是,可以在没有这些特定细节的情况下实施本公开的实施例。在其他实例中,以框图形式,而不是详细地示出公知的结构和设备,以避免使本公开的实施例变得模糊。
注意,在实施例的对应附图中,利用线来表示信号。一些线可以较粗以指示更多数量的成份信号路径,和/或在一个或多个末端处具有箭头以指示信息流的方向。此类指示不旨在是限制性的。相反,线结合一个或多个示例性实施例使用,以促进对电路或逻辑单元的更容易的理解。如由设计需要或偏好所规定,任何所表示的信号都可实际包括可在任一方向上行进的一个或多个信号,并可利用任何合适类型的信号方案来实现。
贯穿说明书以及在权利要求书中,术语“连接的”意指所连接的物体之间的诸如电气、机械、或磁性连接之类的无需任何中介设备的直接连接。术语“耦合的”意指直接的或间接的连接,诸如所连接的物体之间的直接的电气、机械、或磁性连接或者通过一个或多个无源或有源中介设备的间接连接。术语“电路”或“模块”可以指布置成用于彼此合作以提供期望功能的一个或多个无源和/或有源组件。术语“信号”可指至少一个电流信号、电压信号、磁信号、或数据/时钟信号。“一(a/an)”和“该”的含义包括复数引用。“在……中”的含义包括“在……中”和“在……上”。
术语“设备”一般可以指根据使用那个术语的上下文的装置。例如,设备可以指层或结构的堆叠、单个结构或层、具有有源和/或无源元件的各种结构的连接,等等。一般而言,设备是三维结构,具有沿x-y-z笛卡尔坐标系的x-y方向的平面且以及沿z方向的高度。设备的平面也可以是包括该设备的装置的平面。
术语“缩放”一般指将设计(示意图和布局)从一种工艺技术转换为另一种工艺技术,并随后在布局区域中被减小。术语“缩放”一般还指在同一技术节点内缩小布局和设备的尺寸。术语“缩放”还可指信号频率相对于另一参数(例如,功率供给水平)的调整(例如,减速或加速——即,分别为缩小或放大)。
术语“基本上”、“接近”、“近似”、“附近”以及“大约”一般指处于目标值的+/-10%内。例如,除非在其使用的明确的上下文中以其他方式指定,否则术语“基本上相等”、“大约相等”和“近似相等”意指在如此描述的物体之间仅存在偶然变化。在本领域中,此类变化典型地不大于预定的目标值的+/-10%。
应当理解,如此使用的术语在适当情况下是可互换的,例如使得本文中所描述的本发明的实施例能够以不同于本文中所图示或以其他方式描述的那些取向的其他取向来操作。
除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述公共对象,仅仅指示类似对象的不同实例被提及,并且不旨在暗示如此描述的对象必须在时间上、空间上、排名上、或以任何其他方式处于给定序列中。
在说明书和权利要求书中的术语“左”、“右”、“前”、“后”、“顶”、“底”、“在……上方”、“在……下方”等(如果有)用于描述性目的,并且不一定用于描述永久的相对位置。例如,如本文中所使用的术语“在……上方”、“在……下方”、“前侧”、“后侧”、“顶”、“底”,“在……上方”、“在……下方”和“在……上”是指一个组件、结构或材料相对于设备中其他所引用的组件、结构或材料的相对位置,其中此类物理关系是显著的。本文仅出于描述性目的采用这些术语,并且这些术语主要在设备z轴的上下文内,因此这些术语可以相对于设备的取向。因此,如果设备相对于所提供的图的上下文上下颠倒地取向,则在本文中所提供的图中的上下文中在第二材料“上方”的第一材料也可以在该第二材料“下方”。在材料的上下文中,设置在另一材料上方或下方的一种材料可直接接触,或者可具有一种或多种中介材料。此外,设置在两种材料之间的一种材料可直接与这两个层接触,或者可具有一个或多个中介层。相比之下,在第二材料“上”的第一材料与该第二材料直接接触。在组件组装件的上下文中进行类似的区分。
可在设备的z轴、x轴或y轴的上下文中采用术语“在……之间”。在两种其他材料之间的材料可以与那两种材料中的一种或两种接触,或者该材料可通过一种或多种中介材料来与其他那两种材料两者分开。因此,在两种其他材料“之间”的材料可以与其他那两种材料中的任一种接触,或者该材料可通过中介材料耦合至其他那两种材料。在两个其他设备之间的设备可直接连接至那两个设备中的一个或两个,或者该设备可通过一个或多个中介设备与其他那两个设备两者分开。
如贯穿说明书以及在权利要求书中所使用,由术语“……中的至少一个”或“……中的一个或多个”联接的项列表可意指所列举的项的任何组合。例如,短语“A、B或C中的至少一个”可意指A;B;C;A和B;A和C;B和C;或A、B和C。应指出,附图的具有与任何其他附图的要素相同的附图标记(或名称)的那些要素能以与所描述的方式类似的任何方式操作或起作用,但不被限于此。
此外,本公开中讨论的组合逻辑和时序逻辑的各种元件可涉及物理结构(诸如,AND门、OR门或XOR门),或涉及实现作为所讨论的逻辑的布尔等效的逻辑结构的器件的合成的或以其他方式优化的集合。
本文中参考以下操作来描述各实施例的某些特征:提供用于转换后备缓冲器(TLB)的各种条目的利用信息,并且基于此类利用信息来提供预取指令的注册表。在一些实施例中,使预取指令的注册表变得可用,从而促进对关于是否要防止给定预取指令的执行的确定。
如本文中所使用,“利用信息”是指指定或以其他方式指示根据一些预定义的准则,某个数据(例如,预期稍后的指令要使用数据而已经被预取到处理器的高速缓存的该数据)是充分地被利用还是替代地不充分地被利用的信息。在实施例中,在其中此类数据在其预取之后还要被加载一次(或某个其他最小阈值次数)以供在处理器的执行流水线中使用的情况下,被预取的数据不充分地被利用。
作为说明而非限制,利用信息包括如果被设置为一个值——例如,零(“0”)——则指示对应的被预取的数据充分地被利用的参数(本文中被称为“利用指示符”)。相比之下,此类参数被设置为某个替代值——例如,用于对应软件指令的标识符——指示对应的被预取的数据不充分地被利用。
在各实施例中,用于软件指令的此类标识符——或本文中的“指令标识符”——包括或以其他方式基于指向对应软件指令的指令指针(程序计数器)的值。在一个此类实施例中,指令标识符包括基于指向对应软件指令的指针的值而计算的散列。在根据各实施例的说明性场景中,指令标识符用于标识以下任一者或以下两者:软件指令的一个实例被提供用于可能的执行;以及软件指令的另一实例在不同时刻被提供(例如,具有相同操作数中的一个或多个和/或具有一个或多个不同操作数)用于可能的执行。
图1图示根据实施例的选择性地防止预取指令的执行的系统100的特征。系统100图示利用转换后备缓冲器(TLB)维护地址转换以促进用于存储器访问的地址转换的实施例的一个示例。基于条目从此类TLB的驱逐,一些实施例以各种方式注册针对其对应的被预取的数据被视为利用不足的预取指令的标识符。基于此类预取指令的注册表,所述实施例确定一条或多条后续的预取指令是否要被丢弃。
如图1中所示,系统100包括处理器101以及耦合至该处理器101的存储器140。处理器101包括核区120和非核122。核区120包括多个处理器核102(例如),但在其他实施例中,本文中公开的功能附加地或替代地由单核处理器支持。更具体地,处理器101包括第一处理器核102-1和第二处理器核102-2,但其他实施例包括更多或更少的处理器核。在一些实施例中,核102-1、102-2(和/或处理器101的一个或多个其他核)经由共享总线、点对点互连、或以某个其他方式通信。
在示出的示例实施例中,核102包括前端104、执行流水线106、以及高速缓存存储器(诸如,所示的说明性的)。例如,L1数据高速缓存111是架构上距执行流水线106最近的高速缓存——例如,其中,L1数据高速缓存111专用于对数据而不是指令进行高速缓存。在一些实施例中,前端104可操作用于从指令高速缓存(未示出)取出指令,并调度取出的指令以供执行。例如,执行流水线106包括用于对各种数学指令、逻辑指令、存储器访问指令和流控制指令进行解码和执行的逻辑和微代码。因此,前端104负责确保稳定的指令流被馈送到执行流水线106,而执行流水线106负责执行指令并处理结果。在一些实施例中,执行流水线106包括并行的两个或更多个算术流水线、并行的两个或更多个存储器访问或加载/存储流水线、以及两个或更多个流控制或分支流水线。附加地或替代地,执行流水线106包括一个或多个浮点流水线。在一些实施例中,执行流水线106包括用于乱序地执行指令、推测性地执行指令、或既乱序地又推测性地执行指令的寄存器和逻辑资源。
在存储器访问指令的执行期间,执行流水线106试图通过访问存储在适用的存储器地址中的数据的副本来执行指令,该适用的存储器地址驻留在例如存储器140中,或驻留在包括以层级结构配置布置的两个或更多个高速缓存存储器的高速缓存存储器子系统的较低级别的高速缓存存储器中。此类高速缓存存储器子系统的所描绘的元件包括例如L1数据高速缓存111、以及非核122中的末级高速缓存(LLC)132。高速缓存存储器子系统的其他元件包括结合前端104操作的逐核指令高速缓存(未描绘),并包括一个或多个逐核中间高速缓存(未描绘)。在实施例中,非核122进一步包括高速缓存控制器130,用于实现高速缓存一致性策略,并结合存储器控制器134来维持系统存储器140与各种高速缓存存储器之间的一致性。
在一些实施例中,用于处理器101的高速缓存存储器子系统包括:逐核的L1数据高速缓存和指令高速缓存;逐核的中间或L2高速缓存存储器,其包括指令和数据两者;以及LLC 132,其包括指令和数据,并在多个核102之间被共享。如果存储器访问指令在L1数据高速缓存中未命中,则当高速缓存存储器子系统访问各种高速缓存存储器时,适用的程序或线程的执行停止或减慢,直到适用的存储器地址的副本被发现。
在实施例中,处理器101进一步包括转换后备缓冲器TLB 110,该TLB 110用于存储地址转换信息,该地址转换信息促进(例如)针对给定存储器位置的虚拟地址向对应物理地址的转换。处理器101的TLB管理器115包括用于管理TLB 110的电路——例如,其中,此类管理包括:以各种方式创建TLB条目,更新TLB条目,驱逐TLB条目,等等。在一个此类实施例中,TLB管理器115管理利用信息的供应,该利用信息与给定的TLB条目对应(例如,被包括在给定的TLB条目中)。例如,TLB管理器115以各种方式提供与各个不同的TLB条目对应的利用值,这些利用值对于某个对应的被预取的数据各自指示所述被预取的数据的相应分类。在各实施例中,此类利用值指示被预取的数据(根据一些预定准则)不充分地被利用,或充分地被利用。
为了促进高效的数据预取,处理器101进一步包括注册表116和注册表管理器117,该注册表管理器117包括用于利用注册表116来管理预取指令的注册的电路。例如,注册表管理器117提供对于一条或多条经注册的预取指令中的每一条指令保持对值的跟踪的功能,这些值各自指示要被丢弃的未来预取指令的相应计数。在实施例中,条目从TLB 110的驱逐导致对应的预取指令在注册表116中的注册。
图2图示根据实施例的用于由处理器的电路确定是否要丢弃预取指令的方法200的特征。方法200是管理用于TLB的一个或多个条目的利用信息和/或管理预取指令的注册表的实施例的一个示例。方法200的一些或全部操作利用例如处理器101的电路来执行。
为了说明各实施例的某些特征,本文中参照图3中示出的处理器300来描述方法200。然而,一些实施例利用各种其他合适的处理器设备中的任一个来执行方法200。在实施例中,处理器300提供处理器101的一些或所有特征——例如,其中,处理器300包括TLB310、TLB管理器315、预取指令的注册表316、注册表管理器317和预取控制电路318,例如,它们在功能上(分别)与TLB 110、TLB管理器115、注册表116、注册表管理器117和预取控制电路118对应。
如图2中所示,方法200包括由第一管理器电路执行的操作201,该第一管理器电路提供诸如TLB管理器115的功能之类的功能。在实施例中,操作201包括:(在210处)检测预取指令,其中,转换后备缓冲器(TLB)中的条目基于第一预取指令被生成。在实施例中,预取指令的执行导致数据被预取到执行方法200的一些或全部的处理器的高速缓存。
例如,参考处理器300,TLB管理器315接收各种一个或多个信号中的任何信号——例如,包括示出的说明性信号323——在各实施例中,这些信号指示TLB 310用于包括由已执行(或将执行)的软件指令指示的地址的条目。例如,信号323指示软件指令是预取指令——例如,其中,信号323指定或以其他方式指示用于软件指令的指令指针(或程序计数器)值。在一些实施例中,信号323指示TLB条目——先前基于较旧的指令而被创建——要被驱逐,使得TLB 310能够基于更新的指令提供条目。
操作201进一步包括:(在212处)基于210处的检测提供利用信息,该利用信息与TLB条目对应——例如,其被包括在TLB条目中。在实施例中,利用信息包括指示数据——其已经(或将要)通过预取指令的执行被预取——被分类为不充分地被利用的值。在一个此类实施例中,将此类利用指示符设置为某个特定值——例如,零(“0”)——用于向处理器的电路指示根据一个或多个预定的准则,对应的被预取的数据已被分类为充分地被利用。相比之下,将利用指示符设置为一个或多个替代值中的任一个——例如,包括指令标识符的值——用于指示根据一个或多个预定准则,被预取的数据不充分地被利用。
例如,再次参考处理器300,TLB管理器315和TLB 310参与通信320,该通信320促进一个或多个操作,这一个或多个操作包括但不限于:创建TLB 310的条目,驱逐TLB 310的条目,和/或更新或以其他方式访问被包括在TLB 310的给定条目中(或以其他方式与TLB 310的给定条目对应)的利用信息。作为说明而非限制,TLB管理器315参与通信,以基于例如由信号323作出的、关于某个先前被预取的数据已被加载以供在处理器300的执行流水线中使用的指示来更新利用信息。
在处理器300的示例实施例中,TLB 310的条目包括转换信息312,该转换信息312指定或以其他方式指示第一地址与一个或多个其他地址的对应关系(例如,包括虚拟地址与另一虚拟地址和/或与物理地址的对应关系)。该TLB条目(例如)基于软件指令的执行以从由转换信息312指示的地址预取数据而被创建。在一个此类实施例中,TLB条目进一步包括(或以其他方式对应于)利用信息314,该利用信息指示被预取的数据根据一些预定准则而被分类为充分地被利用(或替代地,不充分地被利用)的当前分类。
方法200进一步包括由第二管理器电路执行的操作202,该第二管理器电路提供诸如注册表管理器117的功能之类的功能。在实施例中,操作202包括:(在214处),当在212处提供的利用信息仍指示被预取的数据被分类为不充分地被利用时,检测到TLB条目的驱逐。操作202进一步包括:(在216处),在预取指令的注册表中生成第二条目,其中,所述生成基于214处检测到的驱逐(并且例如基于指令标识符)。例如,在216处生成第二条目基于被预取的数据被分类为不充分地被利用(例如,其中,此类生成在其中被预取的数据被分类为充分地被利用的替代场景中将被防止)。在实施例中,第二条目包括指令标识符(或基于指令标识符的值)和计数值,该计数值表示要丢弃的后续预取指令的数量。
例如,再次参考处理器300,TLB管理器315传递信号322,该信号322向注册表管理器317指示:当例如利用信息314指示对应的被预取的数据不充分地被利用时,包括转换信息312的TLB条目已经(或将要)从TLB 310被驱逐。在一个示例实施例中,利用信息314利用用于最初针对被预取的数据的预取指令的指令标识符来指示此类不充分利用。
基于信号322,注册表管理器317发送创建、更新或以其他方式访问注册表316的条目的信号325。在示出的示例实施例中,注册表316包括一个或多个指令标识符326,每个指令标识符都与先前导致数据的预取和对应TLB条目的创建两者的各个不同的预取指令对应。例如,在对应的被预取的数据被分类为充分地被利用之前,每个此类对应的TLB条目从TLB 310被驱逐。在实施例中,注册表316进一步包括一个或多个计数值327,每个计数值都与一个或多个指令标识符326的各个不同的标识符对应。一个或多个计数值327各自指示一条或多条未来预取指令(如果有)中的相应数量的指令要被丢弃——例如,其中,所述一条或多条未来预取指令各自与相同的指令标识符对应。
方法200进一步包括:(在218处)基于第二条目,防止第二预取指令的执行——例如,其中,此类防止由预取控制电路118或其他合适的预取控制器进行。在一些实施例中,最初在216处设置计数值以表示一条或多条预取指令的阈值最小数量——这一条或多条预取指令各自与注册表条目中的指令标识符对应——针对该阈值最小数量的预取指令,执行将被防止(假定此类执行曾在考虑中)。在一个此类实施例中,随着预取指令被接连检测到(并被丢弃),方法200递减或以其他方式更新计数值一次或多次。在实施例中,此类一条或多条预取指令包括第二预取指令(针对其在218处执行被防止)——例如,其中,基于检测到第二预取指令,方法200进一步递减或以其他方式更新计数值,以指示少一条预取指令尚要丢弃。
例如,再次参考处理器300,预取控制电路318被耦合以(例如,经由来自执行流水线或其他合适资源的信号328)接收指示,该指示指定或以其他方式指示预取指令的执行处于考虑中。在一个此类实施例中,信号328包括或以其他方式指示用于讨论中的预取指令的程序计数器值或其他此类指令标识符。基于由信号328指示的指令标识符,预取控制电路318对注册表316搜索与一个或多个指令标识符326中的任何指令标识符的匹配。在此类匹配被检测到的情况下,预取控制电路318进一步确定(与一个或多个指令标识符326中的匹配的一个指令标识符对应的)一个或多个计数值327中的一个计数值指示讨论中的预取指令要被丢弃还是替代地要被执行。预取控制电路318随后生成基于对应的计数值来选择性地防止或启用预取指令的执行的一个或多个信号。
在一些实施例中,方法200附加地或替代地执行选择性地防止预取指令的注册表的另一条目的生成的操作(未示出)。例如,再次参考处理器300,信号323替代地或附加地指示软件指令已经(或将要)将某个已经被预取的数据加载在处理器300的高速缓存(未示出)中,供由处理器300的执行流水线(未示出)使用。在各实施例中,TLB管理器315基于此类加载来确定用于与此类被预取的数据对应的某个其他TLB条目(如果有)的利用信息要被更新以指示被预取的数据充分地被利用。随后,当用于该其他TLB条目的利用信息指示对应的被预取的数据充分地被利用时,TLB管理器315(例如,基于信号323)检测到所述TLB条目要被驱逐。基于该指示,注册表管理器317和/或注册表管理器317防止否则将基于该其他被驱逐的TLB条目的、注册表316中的条目的生成。
图4A、图4B(分别)示出根据实施例的转换后备缓冲器(TLB)400和预取指令的注册表450的特征。在实施例中,TLB 400提供诸如TLB 110或TLB 310的功能之类的功能——例如,其中,注册表450提供注册表116或注册表316的功能。
如图4A中所示,TLB 400的条目(包括例如示出的说明性条目401、402)各自包括相应的逻辑地址字段410以及相应的与逻辑地址字段410对应的物理地址字段412。例如,使用TLB 400的条目的地址转换包括:基于针对对应逻辑地址的指令来标识所针对的物理地址。在一个此类实施例中,TLB 400的条目各自进一步包括(或以其他方式对应于)相应的利用值字段416,该利用值字段416可用于存储如本文中以各种方式描述的利用信息。虽然一些实施例不限于这方面,但是TLB 400的条目各自进一步包括相应的一个或多个其他字段——例如,包括示出的说明性权限字段414。
在根据一个实施例的说明性场景中,基于第一软件预取指令的执行,在TLB 400处提供条目401。基于该第一软件预取指令,条目401的利用值字段416存储利用值,该利用值指定或以其他方式指示第一数据——通过第一软件预取指令的执行被预取——的利用(如果有)是否已满足一些预定义的准则。例如,第一被预取的数据(在实施例中,其在处理器高速缓存中)被视为不充分地被利用,直到它已被加载供由处理器的执行流水线使用。在一个此类实施例中,用于第一软件预取指令的指令标识符(在该示例中,0x1234)指示对应的第一被预取的数据当前被分类为不充分地被利用。
在一个此类实施例中,条目401从TLB 400的后续驱逐导致条目451在表450中的创建(由于条目401的利用值字段416指示第一被预取的数据不充分地被利用)。例如,如图4B中所示,表450的条目各自包括相应的指令标识符字段460和相应的计数值字段462,该计数值字段462用于指示要被丢弃的预取指令(每一条都与相同的指令标识符对应)的数量。
相比之下,基于第二软件预取指令的执行,在TLB 400处提供条目402——其中,第二被预取的数据的后续加载导致条目402的利用值字段416被设置为零(“0”),以指示第二被预取的数据充分地被利用。在一个此类实施例中,此类将第二被预取的数据分类为充分地被利用防止否则可能基于条目402从TLB 400的后续驱逐而发生的条目在注册表450中的创建。在各实施例中,如果讨论中的TLB条目基于与软件预取指令不同的指令被创建,则用于TLB 400的给定条目的利用值字段416被设置为零值(以防止对应条目在注册表450中的创建)。如在方法200的描述中所说明,随着预取指令基于表450被选择性地丢弃,条目451、452的相应的计数值字段462随时间推移以各种方式被更新。
图5A图示根据实施例的用于处理软件预取的方法500的特征。方法500是实施例的一个示例,其中,软件预取的执行(如果有)基于TLB是否包括用于对应虚拟地址的条目以及——在一些实施例中——讨论中的预取指令是否具有当前被注册为针对其预取要被防止的类型的类型而被选择性地执行。在一些实施例中,方法500利用以下一个或多个执行:TLB 110、TLB管理器115、注册表116、注册表管理器117、或预取控制电路118——例如,其中,方法200包括方法500的操作。
如图5A中所示,方法500包括:(在510处)检测到软件指令,该软件指令的执行——如果有——用于将数据从相对更远的存储器预取到处理器的高速缓存存储器。预取指令包括或以其他方式对应于虚拟地址,该虚拟地址指示讨论中的数据要从中被预取的存储器位置。在一些实施例中,预取指令进一步与指令标识符对应,该指令标识符(例如)等于、包括、或以其他方式基于指向预取指令的指针的值。
方法500进一步包括:(在512处)基于与预取指令对应的虚拟地址,对TLB搜索用于所针对的存储器位置的另一地址(例如,物理地址)。在实施例中,512处的搜索包括:TLB管理器115搜索TLB 110(或例如,TLB管理器315搜索TLB 310)。方法500进一步包括:(在514处)确定512处的搜索是否已命中TLB中的任何条目。
在TLB命中在514处被指示的情况下(即,在512处的搜索标识用于虚拟地址的TLB条目的情况下),方法500(在516处)执行由预取指令指示的数据预取。在相反TLB未命中在514处被指示的情况下,方法500(在518处)执行预取指令的注册表的搜索——例如,其中,注册表搜索基于与预取指令对应的指令标识符。例如,518处的搜索包括:注册表管理器117搜索注册表116(或例如,注册表管理器317搜索注册表316)。方法500随后(在520处)评估518处的搜索是否已命中预取指令的注册表中的条目。
在注册表未命中在520处被指示的情况下——即,在没有注册表的条目已被标识为包括指令标识符的情况下——方法500(在526处)分配TLB的条目,并且(在522处)用用于由预取指令提供的虚拟地址的地址转换信息来填充所分配的TLB条目。进一步地,方法500(在516处)执行由预取指令指示的数据预取。
在相反注册表命中在520处被指示的情况下——即,在注册表的条目被标识为包括指令标识符的情况下——方法500(在524处)确定所标识的注册表条目的计数值是否大于零(或以其他方式指示与指令标识符对应的预取仍要被防止)。在524处确定了所标识的注册表条目的计数值等于(或例如小于)零的情况下,方法500执行TLB条目的分配(在526处),所述TLB条目的填充(在522处),以及数据的预取(在516处)。在相反在524处确定了所标识的注册表条目的计数值大于零的情况下,方法500(在528处)递减计数值,并(在530处)丢弃预取指令。
图5B示出根据实施例的用于维护用于TLB的一个或多个条目的利用信息的方法550的特征。方法500图示一个实施例,其中,利用指示符——其与TLB的条目对应(例如,其被包括在TLB的条目中)——被更新以指示例如与由TLB条目指示的地址对应的被预取的数据的使用。在一些实施例中,方法550利用TLB 110或TLB管理器115中的一个或多个来执行(例如,结合方法500)——例如,其中,方法200包括方法550的操作。
如图5B中所示,方法550包括:(在560处)在处理器的高速缓存中检测到被预取的数据已被加载供由处理器的执行流水线使用。在实施例中,数据通过软件预取指令的执行而被预取到高速缓存(即,在560处检测到的加载之前)——例如,其中,所述软件预取指令引起条目在TLB中的创建,该TLB诸如TLB 110、310中的一个。在一些实施例中,方法500执行搜索,以检测任何此类TLB条目是否已被驱逐,和/或对应的利用指示符是否要被更新。
例如,方法550进一步包括:(在562处)标识地址——例如,虚拟地址——其与被预取的数据对应,并且(在564处)基于所述地址来搜索TLB。方法550进一步包括:(在566处)确定564处的搜索是否已命中TLB中的任何条目。在TLB命中在566处被指示的情况下(即,在564处的搜索找到用于562处标识的地址的TLB条目的情况下),方法550(在568处)确认对应的利用指示符指示充分地被利用的被预取的数据。在一个此类实施例中,568处的确认包括将利用指示符设置为零——例如,以从利用指示符擦除指令标识符。否则,方法550放弃对利用指示符的任何此类确认(例如,更新)。
图6图示根据实施例的用于管理预取指令的注册表的方法600的特征。方法600是实施例的一个示例,其中,对于一条或多条预取指令中的每条预取指令,用于该预取指令的指令标识符基于包括该指令标识符(或以其他方式被标识为与该指令标识符对应)的TLB条目的驱逐而被保持在注册表中。注册表促进确定——例如,对于至少某个预定次数——与那个相同的指令标识符对应的任何后续预取指令是否要被丢弃(其中,期望的数据预取被防止)。在一些实施例中,方法200利用以下一个或多个(例如,结合方法500、550中的一者或方法500、550两者)来执行:TLB 110、TLB管理器115、注册表116、注册表管理器117、或预取控制电路118——例如,其中,方法200包括方法600的操作。
如图6中所示,方法600包括:(在610处)检测到与利用不足的被预取的数据对应的条目从TLB的驱逐,该TLB诸如TLB 110、310中的一个。在示出的示例实施例中,610处的检测包括:确定被驱逐的TLB条目包括或以其他方式被标识为对应于不等于零的跟踪符值(例如,其中,跟踪符值等于导致该利用不足的被预取的数据的指令的标识符)。
方法600进一步包括:(在612处)基于在610处检测到的TLB驱逐执行对预取指令的注册表——诸如,注册表116、316中的一个——的搜索。在实施例中,612处的注册表搜索包括:搜索所述注册表的、包括与被驱逐的TLB条目对应的(例如,被包括在被驱逐的TLB条目中的)指令标识符的条目。
方法600进一步包括:(在614处)确定612处的搜索是否已命中预取指令的注册表中的条目。在注册表命中在614处被指示的情况下,方法600(在620处)执行对已被标识为包括指令标识符的注册表条目的计数器值的更新。在实施例中,620处的更新设置计数器值,以指定或以其他方式指示要丢弃的一条或多条后续预取指令(如果有)的阈值数量,其中,所述一条或多条后续预取指令各自都与讨论中的指令标识符对应。
在相反注册表未命中在614处被指示的情况下,方法600执行找到注册表中的、与被驱逐的TLB条目对应的预取指令要被注册在的位置的操作。作为说明而非限制,此类操作包括:(在616处)确定是否存在当前具有等于零的计数值(或以其他方式指示足够数量的对应预取指令已被丢弃)的注册表的条目。在616处确定了注册表条目具有等于(或例如小于)零的计数值的情况下,方法600(在618处)将那个注册表条目的标识符字段设置为包括与被驱逐的TLB条目对应的指令标识符。当在618处设置了标识符字段之后,方法600(在620处)设置注册表条目的计数器值,以指定或以其他方式指示要被丢弃的一条或多条后续预取指令(如果有)的阈值数量。
在相反在616处确定了没有此类注册表条目具有等于零的计数值的情况下,方法600(在622处)根据(与具有等于零的计数值的注册表条目的准则不同的)预定义的准则选择注册表条目。作为说明而非限制,在622处,基于注册表条目具有等于所有注册表条目的最低计数值的计数值来选择该注册表条目。在其他实施例中,622处的选择基于最近最少使用(LRU)替换方案、随机替换方案、轮询替换方案,等等。在622处的选择之后,方法600(在618处)将那个被选出的注册表条目的标识符字段设置为包括与被驱逐的TLB条目对应的指令标识符。当在618处设置了标识符字段之后,方法600(在620处)设置被选出的注册表条目的计数器值,以指定或以其他方式指示要被丢弃的一条或多条后续预取指令(如果有)的阈值数量。
本文中描述的附图详细描述用于实现上文的实施例的示例性架构和系统。在一些实施例中,本文中所描述的一个或多个硬件组件和/或指令如下文所详述地被仿真,或被实现为软件模块。
示例性核架构、处理器和计算机架构
处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现可以包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
有序和乱序核框图
图7A是图示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图7B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图7A-图7B中的实线框图示有序流水线和有序核,而虚线框的任选增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图7A中,处理器流水线700包括取出级702、长度解码级704、解码级706、分配级708、重命名级710、调度(也被称为分派或发布)级712、寄存器读取/存储器读取级714、执行级716、写回/存储器写入级718、异常处置级722和提交级724。
图7B示出处理器核790,该处理器核790包括前端单元730,该前端单元730耦合到执行引擎单元750,并且前端单元730和执行引擎单元750两者都耦合到存储器单元770。核790可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核790可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元730包括分支预测单元732,该分支预测单元732耦合到指令高速缓存单元734,该指令高速缓存单元734耦合到指令转换后备缓冲器(TLB)736,该指令转换后备缓冲器736耦合到指令取出单元738,该指令取出单元738耦合到解码单元740。解码单元740(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元740可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核790包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元740中,或以其他方式在前端单元730内)。解码单元740耦合到执行引擎单元750中的重命名/分配器单元752。
执行引擎单元750包括重命名/分配器单元752,该重命名/分配器单元752耦合到引退单元754和一个或多个调度器单元的集合756。(多个)调度器单元756表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元756耦合到(多个)物理寄存器堆单元758。(多个)物理寄存器堆单元758中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中,(多个)物理寄存器堆单元758包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元758由引退单元754重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元754和(多个)物理寄存器堆单元758耦合到(多个)执行集群760。(多个)执行集群760包括一个或多个执行单元的集合762以及一个或多个存储器访问单元的集合764。执行单元762可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元756、(多个)物理寄存器堆单元758和(多个)执行集群760示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元764的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合764耦合到存储器单元770,该存储器单元770包括数据TLB单元772,该数据TLB单元772耦合到数据高速缓存单元774,该数据高速缓存单元774耦合到第二级(L2)高速缓存单元776。在一个示例性实施例中,存储器访问单元764可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元770中的数据TLB单元772。指令高速缓存单元734还耦合到存储器单元770中的第二级(L2)高速缓存单元776。L2高速缓存单元776耦合到一个或多个其他级别的高速缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线700:1)指令取出738执行取出级702和长度解码级704;2)解码单元740执行解码级706;3)重命名/分配器单元752执行分配级708和重命名级710;4)(多个)调度器单元756执行调度级712;5)(多个)物理寄存器堆单元758和存储器单元770执行寄存器读取/存储器读取级714;执行集群760执行执行级716;6)存储器单元770和(多个)物理寄存器堆单元758执行写回/存储器写入级718;7)各单元可牵涉到异常处置级722;以及8)引退单元754和(多个)物理寄存器堆单元758执行提交级724。
核790可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核790包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后的诸如超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据高速缓存单元734/774以及共享的L2高速缓存单元776,但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如,第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图8A-图8B图示更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图8A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络802的连接及其第二级(L2)高速缓存的本地子集804的框图。在一个实施例中,指令解码器800支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存806允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元808和向量单元810使用分开的寄存器集合(分别为标量寄存器812和向量寄存器814),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)高速缓存806读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集804是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集804的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集804中,并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集804中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图8B是根据本发明的实施例的图8A中的处理器核的一部分的展开图。图8B包括L1高速缓存806的L1数据高速缓存806A部分,以及关于向量单元810和向量寄存器814的更多细节。具体地,向量单元810是16宽向量处理单元(VPU)(见16宽ALU 828),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元820支持对寄存器输入的混合,通过数值转换单元822A-B支持数值转换,并且通过复制单元824支持对存储器输入的复制。写掩码寄存器826允许掩蔽所得的向量写入。
图9是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器900的框图。图9中的实线框图示具有单个核902A、系统代理910、一个或多个总线控制器单元的集合916的处理器900,而虚线框的任选增加图示具有多个核902A-N、系统代理单元910中的一个或多个集成存储器控制器单元的集合914以及专用逻辑908的替代处理器900。
因此,处理器900的不同实现可包括:1)CPU,其中专用逻辑908是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核902A-N是一个或多个通用核(例如,通用有序核、通用乱序核、这两者的组合);2)协处理器,其中核902A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核902A-N是大量通用有序核。因此,处理器900可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器900可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次结构包括核902A-N内的相应的一个或多个级别的高速缓存904A-N、一个或多个共享高速缓存单元的集合906、以及耦合到集成存储器控制器单元的集合914的外部存储器(未示出)。共享高速缓存单元的集合906可包括一个或多个中间级别的高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元912将专用逻辑908、共享高速缓存单元的集合906以及系统代理单元910/(多个)集成存储器控制器单元914互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个高速缓存单元906与核902A-N之间维持一致性。
在一些实施例中,一个或多个核902A-N能够实现多线程化。系统代理910包括协调和操作核902A-N的那些部件。系统代理单元910可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核902A-N以及集成图形逻辑908的功率状态进行调节所需的逻辑和部件,或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
核902A-N在架构指令集方面可以是同构的或异构的;即,核902A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图10至图13是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。
现在参考图10,所示出的是根据本发明一个实施例的系统1000的框图。系统1000可以包括一个或多个处理器1010、1015,这些处理器耦合到控制器中枢1020。在一个实施例中,控制器中枢1020包括图形存储器控制器中枢(GMCH)1090和输入/输出中枢(IOH)1050(其可以在分开的芯片上);GMCH 1090包括存储器和图形控制器,存储器1040和协处理器1045耦合到该存储器和图形控制器;IOH 1050将输入/输出(I/O)设备1060耦合到GMCH1090。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器1040和协处理器1045直接耦合到处理器1010,并且控制器中枢1020与IOH1050处于单个芯片中。
附加的处理器1015的任选性在图10中通过虚线来表示。每一处理器1010、1015可包括本文中描述的处理核中的一个或多个,并且可以是处理器900的某一版本。
存储器1040可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1020经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接1095来与(多个)处理器1010、1015进行通信。
在一个实施例中,协处理器1045是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢1020可以包括集成图形加速器。
在处理器1010、1015之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器1010执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1010将这些协处理器指令识别为具有应当由附连的协处理器1045执行的类型。因此,处理器1010在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1045。(多个)协处理器1045接受并执行所接收的协处理器指令。
现在参见图11,所示出的是根据本发明的实施例的第一更具体的示例性系统1100的框图。如图11中所示,多处理器系统1100是点对点互连系统,并且包括经由点对点互连1150耦合的第一处理器1170和第二处理器1180。处理器1170和1180中的每一个都可以是处理器900的某一版本。在本发明的一个实施例中,处理器1170和1180分别是处理器1010和1015,而协处理器1138是协处理器1045。在另一实施例中,处理器1170和1180分别是处理器1010和协处理器1045。
处理器1170和1180示出为分别包括集成存储器控制器(IMC)单元1172和1182。处理器1170还包括作为其总线控制器单元的一部分的点对点(P-P)接口1176和1178;类似地,第二处理器1180包括P-P接口1186和1188。处理器1170、1180可以经由使用点对点(P-P)接口电路1178、1188的P-P互连1150来交换信息。如图11中所示,IMC 1172和1182将处理器耦合到相应的存储器,即存储器1132和存储器1134,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器1170、1180可各自经由使用点对点接口电路1176、1194、1186、1198的各个P-P接口1152、1154来与芯片组1190交换信息。芯片组1190可以任选地经由高性能接口1192和互连1139来与协处理器1138交换信息。在一个实施例中,协处理器1138是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。
芯片组1190可以经由接口1196耦合到第一总线1116。在一个实施例中,第一总线1116可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图11中所示,各种I/O设备1114可连同总线桥1118一起耦合到第一总线1116,该总线桥1118将第一总线1116耦合到第二总线1120。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1115耦合到第一总线1116。在一个实施例中,第二总线1120可以是低引脚数(LPC)总线。在一个实施例中,各种设备可耦合到第二总线1120,这些设备包括例如键盘和/或鼠标1122、通信设备1127以及存储单元1128,该存储单元1128诸如可包括指令/代码和数据1130的盘驱动器或者其他大容量存储设备。此外,音频I/O 1124可以被耦合到第二总线1120。注意,其他架构是可能的。例如,代替图11的点对点架构,系统可以实现多分支总线或其他此类架构。
现在参考图12,示出的是根据本发明的实施例的第二更具体的示例性系统1200的框图。图11和图12中的类似元件使用类似的附图标记,并且从图12中省略了图11的某些方面以避免混淆图12的其他方面。
图12图示处理器1170、1180可分别包括集成存储器和I/O控制逻辑(“CL”)1272和1282。因此,CL 1272、1282包括集成存储器控制器单元,并包括I/O控制逻辑。图12图示不仅存储器1132、1134耦合到CL 1272、1282,而且I/O设备1214也耦合到控制逻辑1272、1282。传统I/O设备1215被耦合到芯片组1190。
现在参考图13,示出的是根据本发明的实施例的SoC 1300的框图。图9中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的任选的特征。在图13中,(多个)互连单元1302被耦合到:应用处理器1310,其包括一个或多个核的集合902A-N以及(多个)共享高速缓存单元906;系统代理单元910;(多个)总线控制器单元916;(多个)集成存储器控制器单元914;一个或多个协处理器的集合1320,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1330;直接存储器访问(DMA)单元1332;以及用于耦合到一个或多个外部显示器的显示单元1340。在一个实施例中,(多个)协处理器1320包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图11中图示的代码1130)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令变换(例如,使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图14是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图14示出可使用x86编译器1404来编译高级语言1402形式的程序,以生成可由具有至少一个x86指令集核的处理器1416原生执行的x86二进制代码1406。具有至少一个x86指令集核的处理器1416表示通过兼容地执行或以其他方式处理以下各项来执行与具有至少一个x86指令集核的英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核的指令集的实质部分,或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1404表示可操作用于生成x86二进制代码1406(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器1416上执行。类似地,图14示出可以使用替代的指令集编译器1408来编译高级语言1402形式的程序,以生成可以由不具有至少一个x86指令集核的处理器1414(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码1410。指令转换器1412用于将x86二进制代码1406转换成可以由不具有x86指令集核的处理器1414原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码1410相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1412通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码1406的软件、固件、硬件或其组合。
在一个或多个第一实施例中,一种处理器包括:转换后备缓冲器(TLB)管理器,其包括用于以下操作的电路:检测第一预取指令,其中,TLB的第一条目基于第一预取指令被生成;基于第一预取指令,提供与第一条目对应的第一利用信息,其中,第一利用信息指示通过第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,利用信息用于包括与第一预取指令对应的指令标识符;注册表管理器,耦合至TLB管理器,用于:当第一利用信息指示第一数据被分类为不充分地被利用时,检测第一条目的驱逐;以及基于驱逐和指令标识符,生成预取指令的注册表的第二条目;以及预取控制器,耦合至注册表,包括用于基于第二条目来防止第二预取指令的执行的电路。
在一个或多个第二实施例中,进一步于第一实施例,第一条目包括第一利用信息。
在一个或多个第三实施例中,进一步于第一实施例或第二实施例,第二条目用于包括指令标识符和表示要被丢弃的预取指令的计数的值,并且其中,基于第二预取指令的检测,注册表管理器进一步用于更新值以递减要被丢弃的预取指令的计数。
在一个或多个第四实施例中,进一步于第一至第三实施例中的任一项,指令标识符基于指令指针的值。
在一个或多个第五实施例中,进一步于第一至第四实施例中的任一项,TLB管理器进一步用于:检测第二预取指令,其中,TLB的第三条目基于第二预取指令被生成;提供与第三条目对应的第二利用信息,其中,第二利用信息指示通过第二预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,第二利用信息包括与第二预取指令对应的第二指令标识符;检测由执行流水线对第二数据的使用;以及基于该使用来更新第二利用信息,以指示第二数据被分类为充分地被利用。
在一个或多个第六实施例中,进一步于第五实施例,注册表管理器进一步用于:在更新之后,检测第三条目的第二驱逐;基于第二驱逐执行对第二利用信息的评估;以及基于评估,防止注册表的第四条目的生成。
在一个或多个第七实施例中,进一步于第一至第四实施例中的任一项,注册表管理器进一步用于选择注册表的、要由第二条目替换的第三条目,该第三条目包括表示要被丢弃的预取指令的计数的值,并且注册表管理器用于基于以下一项来选择第三条目:由该值作出的、关于计数等于零的指示;或由该值作出的、关于计数等于各自都由注册表的相应不同的条目表示的多个计数中的最低计数的指示。
在一个或多个第八实施例中,一种在处理器处的方法包括:利用转换后备缓冲器(TLB)管理器:检测第一预取指令,其中,转换后备缓冲器(TLB)的第一条目基于第一预取指令被生成;基于该检测,提供与第一条目对应的第一利用信息,其中,第一利用信息指示通过第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,利用信息包括与第一预取指令对应的指令标识符;利用注册表管理器:当第一利用信息指示第一数据被分类为不充分地被利用时,检测第一条目的驱逐;基于驱逐和指令标识符,生成预取指令的注册表的第二条目;以及利用预取控制器,基于第二条目来防止第二预取指令的执行。
在一个或多个第九实施例中,进一步于第八实施例,第一条目包括第一利用信息。
在一个或多个第十实施例中,进一步于第八实施例或第九实施例,第二条目包括指令标识符和表示要被丢弃的预取指令的计数的值,该方法进一步包括:基于第二预取指令的检测,更新值以递减要被丢弃的预取指令的计数。
在一个或多个第十一实施例中,进一步于第八至第十实施例中的任一项,指令标识符基于指令指针的值。
在一个或多个第十二实施例中,进一步于第八至第十一实施例中的任一项,该方法进一步包括:检测第二预取指令,其中,TLB的第三条目基于第二预取指令被生成;提供与第三条目对应的第二利用信息,其中,第二利用信息指示通过第二预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,第二利用信息包括与第二预取指令对应的第二指令标识符;检测由执行流水线对第二数据的使用;以及基于该使用来更新第二利用信息,以指示第二数据被分类为充分地被利用。
在一个或多个第十三实施例中,进一步于第十二实施例,该方法进一步包括:在更新之后,检测第三条目的第二驱逐;基于第二驱逐,执行对第二利用信息的评估;以及基于评估,防止注册表的第四条目的生成。
在一个或多个第十四实施例中,进一步于第八至第十一实施例中的任一项,该方法进一步包括:选择注册表的、要由第二条目替换的第三条目,其中,该第三条目包括表示要被丢弃的预取指令的计数的值,并且该选择基于以下一项:该值指示计数等于零;或该值指示计数等于各自都由注册表的相应不同的条目表示的多个计数中的最低计数。
在一个或多个第十五实施例中,一种系统包括:处理器,该处理器包括:转换后备缓冲器(TLB)管理器,其包括用于以下操作的电路:检测第一预取指令,其中,TLB的第一条目基于第一预取指令被生成;基于第一预取指令,提供与第一条目对应的第一利用信息,其中,第一利用信息指示通过第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,利用信息用于包括与第一预取指令对应的指令标识符;注册表管理器,耦合至TLB管理器,包括用于以下操作的电路:当第一利用信息指示第一数据被分类为不充分地被利用时,检测第一条目的驱逐;以及基于驱逐和指令标识符,生成预取指令的注册表的第二条目;以及第三电路,耦合至注册表,用于基于第二条目来防止第二预取指令的执行。该系统进一步包括显示设备,其耦合至处理器,该显示设备用于基于与处理器传递的信号来显示图像。
在一个或多个第十六实施例中,进一步于第十五实施例,第一条目包括第一利用信息。
在一个或多个第十七实施例中,进一步于第十五实施例或第十六实施例,第二条目用于包括指令标识符和表示要被丢弃的预取指令的计数的值,并且其中,基于第二预取指令的检测,注册表管理器进一步用于更新值以递减要被丢弃的预取指令的计数。
在一个或多个第十八实施例中,进一步于第十五至第十七实施例中的任一项,指令标识符基于指令指针的值。
在一个或多个第十九实施例中,进一步于第十五至第十八实施例中的任一项,TLB管理器进一步用于:检测第二预取指令,其中,TLB的第三条目基于第二预取指令被生成;提供与第三条目对应的第二利用信息,其中,第二利用信息指示通过第二预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,第二利用信息包括与第二预取指令对应的第二指令标识符;检测由执行流水线对第二数据的使用;以及基于该使用来更新第二利用信息,以指示第二数据被分类为充分地被利用。
在一个或多个第二十实施例中,进一步于第十九实施例,注册表管理器进一步用于:在更新之后,检测第三条目的第二驱逐;基于第二驱逐执行对第二利用信息的评估;以及基于评估,防止注册表的第四条目的生成。
在一个或多个第二十一实施例中,进一步于第十五至第十八实施例中的任一项,注册表管理器进一步用于选择注册表的、要由第二条目替换的第三条目,该第三条目包括表示要被丢弃的预取指令的计数的值,并且注册表管理器用于基于以下一项来选择第三条目:由该值作出的、关于计数等于零的指示;或由该值作出的、关于计数等于各自都由注册表的相应不同的条目表示的多个计数中的最低计数的指示。
本文中描述了用于利用处理器执行预取操作的技术和架构。在上文描述中,出于解释的目的,阐述了众多具体细节以提供对某些实施例的透彻理解。然而,对本领域技术人员而言将显而易见的是,某些实施例可在无需这些具体细节的情况下实施。在其他实例中,以框图形式示出结构和设备以避免使描述含糊。
在说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书中的不同位置处出现短语“在一个实施例中”不一定全都指同一个实施例。
本文中的详细描述的一些部分在对计算机存储器内的数据位的操作的算法和符号表示方面来呈现。这些算法描述和表示是由计算领域的普通技术人员使用以向本领域其他技术人员最有效地传递其工作的实质的手段。算法在此一般被理解为导致所需结果的自洽的步骤序列。这些步骤是需要对物理量进行物理操纵的那些步骤。通常但非必须,这些量采用能够被存储、传输、组合、比较、以及以其他方式操纵的电信号或磁信号的形式。主要出于常见用途的考虑,将这些信号称为位、值、元素、符号、字符、项、数字等已被证明有时是方便的。
然而,应当记住,所有这些和类似的术语用于与适当的物理量关联,并且仅仅是应用于这些量的方便的标记。除非以其他方式明确指明,否则如从本文的讨论中显而易见的,可以理解,贯穿说明书,利用诸如“处理”或“计算”或“运算”或“确定”或“显示”等术语的讨论,指的是计算机系统或类似电子计算设备的动作和进程,该计算机系统或类似电子计算设备操纵在该计算机系统的寄存器和存储器内表示为物理(电子)量的数据并将其转换成在该计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内类似地表示为物理量的其他数据。
某些实施例还涉及用于执行本文中操作的装置。该装置可专门构造来用于所需目的,或其可包括通用计算机,该通用计算机由存储在该计算机内的计算机程序有选择地激活或重新配置。此类计算机程序可以存储在计算机可读存储介质中,该计算机可读存储介质诸如但不限于任何类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、诸如动态随机存取存储器(RAM)(DRAM)的RAM、EPROM、EEPROM、磁卡或光卡、或适用于存储电子指令且耦合至计算机系统总线的任何类型的介质。
本文中呈现的算法和显示并非固有地与任何特定计算机或其他装置相关。可以将各种通用系统与根据本文中的教导的程序一起使用,或可以证明构造更专门的装置来执行所要求的方法步骤是方便的。各种这些系统的所需结构将从本文中的描述呈现。此外,某些实施例不是参考任何特定编程语言来描述的。将会理解,可以使用各种编程语言来实现本文所描述的此类实施例的教导。
除了本文所描述的内容,可对所公开的实施例及其实现方式作出各种修改而不背离其范围。因此,本文中的说明和示例应当被解释成说明性的,而非限制性的。本发明的范围应当仅通过参照所附权利要求书来界定。
Claims (25)
1.一种用于提供被预取的信息的处理器,所述处理器包括:
转换后备缓冲器TLB管理器,包括用于以下操作的电路:
检测第一预取指令,其中,TLB的第一条目基于所述第一预取指令被生成;以及
基于所述第一预取指令提供与所述第一条目对应的第一利用信息,其中,所述第一利用信息指示通过所述第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,所述利用信息用于包括与所述第一预取指令对应的指令标识符;
注册表管理器,耦合至所述TLB管理器,用于:
当所述第一利用信息指示所述第一数据被分类为不充分地被利用时,检测所述第一条目的驱逐;以及
基于所述驱逐和所述指令标识符,生成预取指令的注册表的第二条目;以及
预取控制器,耦合至所述注册表,所述预取控制器包括用于基于所述第二条目来防止第二预取指令的执行的电路。
2.如权利要求1所述的处理器,其中,所述第一条目包括所述第一利用信息。
3.如权利要求1或权利要求2所述的处理器,其中,所述第二条目用于包括所述指令标识符和表示要被丢弃的预取指令的计数的值,并且其中,基于所述第二预取指令的检测,所述注册表管理器进一步用于更新所述值以递减要被丢弃的预取指令的所述计数。
4.如权利要求3所述的处理器,其中,所述预取控制器用于:
基于与所述第二预取指令对应的地址执行对所述TLB的第一搜索;
基于所述第一搜索检测未命中;
响应于所述未命中,基于与所述第二预取指令对应的指令标识符,执行对预取指令的所述注册表的第二搜索;以及
基于所述第二搜索检测所述第二条目的命中;
其中,所述预取控制器用于基于所述第二条目来防止所述第二预取指令的执行包括:所述预取控制器用于基于所述命中来防止所述执行。
5.如权利要求4所述的处理器,其中,所述预取控制器进一步用于:基于所述第二条目的命中,检测要被丢弃的预取指令的所述计数大于零;并且
其中,所述预取控制器用于基于所述命中来防止所述执行包括:所述预取控制器用于基于所述计数来防止所述执行。
6.如权利要求1或权利要求2所述的处理器,其中,所述指令标识符基于指令指针的值。
7.如权利要求1或权利要求2所述的处理器,其中,所述TLB管理器进一步用于:
检测第三预取指令,其中,所述TLB的第三条目基于所述第三预取指令被生成;
提供与所述第三条目对应的第二利用信息,其中,所述第二利用信息指示通过所述第三预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,所述第二利用信息包括与所述第三预取指令对应的第二指令标识符;
检测由执行流水线对所述第二数据的使用;以及
基于所述使用来更新所述第二利用信息,以指示所述第二数据被分类为充分地被利用。
8.如权利要求7所述的处理器,其中,所述注册表管理器进一步用于:
在所述更新之后,检测所述第三条目的第二驱逐;
基于所述第二驱逐执行对所述第二利用信息的评估;以及
基于所述评估,防止所述注册表的第四条目的生成。
9.如权利要求1或权利要求2所述的处理器,其中:
所述注册表管理器进一步用于选择所述注册表的、要被所述第二条目替换的第三条目;
所述第三条目包括表示要被丢弃的预取指令的计数的值;并且
所述注册表管理器用于基于以下一项来选择所述第三条目:
由所述值作出的、关于所述计数等于零的指示;或
由所述值作出的、关于所述计数等于各自都由所述注册表的各个不同条目表示的多个计数中的最低计数的指示。
10.一种在处理器处的用于提供被预取的信息的方法,所述方法包括:
利用转换后备缓冲器TLB管理器:
检测第一预取指令,其中,转换后备缓冲器TLB的第一条目基于所述第一预取指令被生成;
基于所述检测,提供与所述第一条目对应的第一利用信息,其中,所述第一利用信息指示通过所述第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,所述利用信息包括与所述第一预取指令对应的指令标识符;
利用注册表管理器:
当所述第一利用信息指示所述第一数据被分类为不充分地被利用时,检测所述第一条目的驱逐;
基于所述驱逐和所述指令标识符,生成预取指令的注册表的第二条目;以及
利用预取控制器,基于所述第二条目来防止第二预取指令的执行。
11.如权利要求10所述的方法,其中,所述第一条目包括所述第一利用信息。
12.如权利要求10或权利要求11所述的方法,其中,所述第二条目包括所述指令标识符和表示要被丢弃的预取指令的计数的值,所述方法进一步包括:
基于所述第二预取指令的检测,更新所述值以递减要被丢弃的预取指令的所述计数。
13.如权利要求12所述的方法,其中,所述预取控制器:
基于与所述第二预取指令对应的地址执行对所述TLB的第一搜索;
基于所述第一搜索检测未命中;
响应于所述未命中,基于与所述第二预取指令对应的指令标识符,执行对预取指令的所述注册表的第二搜索;以及
基于所述第二搜索检测所述第二条目的命中;
其中,基于所述第二条目来防止所述第二预取指令的执行包括:基于所述命中来防止所述执行。
14.如权利要求13所述的方法,其中,所述预取控制器进一步基于所述第二条目的命中,检测要被丢弃的预取指令的所述计数大于零;并且
其中,基于所述命中来防止所述执行包括:基于所述计数来防止所述执行。
15.如权利要求10或权利要求11所述的方法,其中,所述指令标识符基于指令指针的值。
16.如权利要求10或权利要求11所述的方法,进一步包括:
检测第三预取指令,其中,所述TLB的第三条目基于所述第三预取指令被生成;
提供与所述第三条目对应的第二利用信息,其中,所述第二利用信息指示通过所述第三预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,所述第二利用信息包括与所述第三预取指令对应的第二指令标识符;
检测由执行流水线对所述第二数据的使用;以及
基于所述使用来更新所述第二利用信息,以指示所述第二数据被分类为充分地被利用。
17.如权利要求16所述的方法,进一步包括:
在所述更新之后,检测所述第三条目的第二驱逐;
基于所述第二驱逐,执行对所述第二利用信息的评估;以及
基于所述评估,防止所述注册表的第四条目的生成。
18.如权利要求10或权利要求11所述的方法,进一步包括选择所述注册表的、要被所述第二条目替换的第三条目,其中:
所述第三条目包括表示要被丢弃的预取指令的计数的值;并且
所述选择基于以下一项:
所述值指示所述计数等于零;或
所述值指示所述计数等于各自都由所述注册表的各个不同条目表示的多个计数中的最低计数。
19.一种用于提供被预取的信息的系统,所述系统包括:
处理器,所述处理器包括:
转换后备缓冲器TLB管理器,包括用于以下操作的电路:
检测第一预取指令,其中,TLB的第一条目基于所述第一预取指令被生成;以及
基于所述第一预取指令提供与所述第一条目对应的第一利用信息,其中,所述第一利用信息指示通过所述第一预取指令的执行被预取的第一数据被分类为不充分地被利用,其中,所述利用信息用于包括与所述第一预取指令对应的指令标识符;
注册表管理器,耦合至所述TLB管理器,包括用于以下操作的电路:
当所述第一利用信息指示所述第一数据被分类为不充分地被利用时,检测所述第一条目的驱逐;以及
基于所述驱逐和所述指令标识符,生成预取指令的注册表的第二条目;以及
第三电路,耦合至所述注册表,用于基于所述第二条目来防止第二预取指令的执行;以及
显示设备,耦合至所述处理器,所述显示设备用于基于与所述处理器传递的信号来显示图像。
20.如权利要求19所述的系统,其中,所述第一条目包括所述第一利用信息。
21.如权利要求19或权利要求20所述的系统,其中,所述第二条目用于包括所述指令标识符和表示要被丢弃的预取指令的计数的值,并且其中,基于所述第二预取指令的检测,所述注册表管理器进一步用于更新所述值以递减要被丢弃的预取指令的所述计数。
22.如权利要求21所述的系统,其中,所述第三电路用于:
基于与所述第二预取指令对应的地址执行对所述TLB的第一搜索;
基于所述第一搜索检测未命中;
响应于所述未命中,基于与所述第二预取指令对应的指令标识符,执行对预取指令的所述注册表的第二搜索;以及
基于所述第二搜索检测所述第二条目的命中;
其中,所述第三电路用于基于所述第二条目来防止所述第二预取指令的执行包括:所述第三电路用于基于所述命中来防止所述执行。
23.如权利要求22所述的系统,其中,所述第三电路进一步用于:基于所述第二条目的命中,检测要被丢弃的预取指令的所述计数大于零;并且
其中,所述第三电路用于基于所述命中来防止所述执行包括:所述预取控制器用于基于所述计数来防止所述执行。
24.如权利要求19或权利要求20所述的系统,其中,所述指令标识符基于指令指针的值。
25.如权利要求19或权利要求20所述的系统,其中,所述TLB管理器进一步用于:
检测第三预取指令,其中,所述TLB的第三条目基于所述第三预取指令被生成;
提供与所述第三条目对应的第二利用信息,其中,所述第二利用信息指示通过所述第三预取指令的执行被预取的第二数据被分类为不充分地被利用,其中,所述第二利用信息包括与所述第三预取指令对应的第二指令标识符;
检测由执行流水线对所述第二数据的使用;以及
基于所述使用来更新所述第二利用信息,以指示所述第二数据被分类为充分地被利用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/133,414 US20220197821A1 (en) | 2020-12-23 | 2020-12-23 | Device, system and method for selectively dropping software prefetch instructions |
US17/133,414 | 2020-12-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661626A true CN114661626A (zh) | 2022-06-24 |
Family
ID=77821632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111528576.1A Pending CN114661626A (zh) | 2020-12-23 | 2021-12-14 | 用于选择性地丢弃软件预取指令的设备、系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220197821A1 (zh) |
EP (1) | EP4020228B1 (zh) |
CN (1) | CN114661626A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117971722A (zh) * | 2024-03-28 | 2024-05-03 | 北京微核芯科技有限公司 | 一种取数指令的执行方法及其装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148538A (en) * | 1989-10-20 | 1992-09-15 | International Business Machines Corporation | Translation look ahead based cache access |
EP0752644A3 (en) * | 1995-07-07 | 2001-08-22 | Sun Microsystems, Inc. | Memory management unit incorporating prefetch control |
US6598128B1 (en) * | 1999-10-01 | 2003-07-22 | Hitachi, Ltd. | Microprocessor having improved memory management unit and cache memory |
EP1139222A1 (en) * | 2000-03-31 | 2001-10-04 | Texas Instruments Incorporated | Prefetch for TLB cache |
US6745313B2 (en) * | 2002-01-09 | 2004-06-01 | International Business Machines Corporation | Absolute address bits kept in branch history table |
US6832296B2 (en) * | 2002-04-09 | 2004-12-14 | Ip-First, Llc | Microprocessor with repeat prefetch instruction |
US7099999B2 (en) * | 2003-09-30 | 2006-08-29 | International Business Machines Corporation | Apparatus and method for pre-fetching data to cached memory using persistent historical page table data |
JP4520790B2 (ja) * | 2004-07-30 | 2010-08-11 | 富士通株式会社 | 情報処理装置およびソフトウェアプリフェッチ制御方法 |
US7707359B2 (en) * | 2005-12-09 | 2010-04-27 | Oracle America, Inc. | Method and apparatus for selectively prefetching based on resource availability |
US8806177B2 (en) * | 2006-07-07 | 2014-08-12 | International Business Machines Corporation | Prefetch engine based translation prefetching |
US9639479B2 (en) * | 2009-09-23 | 2017-05-02 | Nvidia Corporation | Instructions for managing a parallel cache hierarchy |
US8914617B2 (en) * | 2009-12-26 | 2014-12-16 | Intel Corporation | Tracking mechanism coupled to retirement in reorder buffer for indicating sharing logical registers of physical register in record indexed by logical register |
US8244978B2 (en) * | 2010-02-17 | 2012-08-14 | Advanced Micro Devices, Inc. | IOMMU architected TLB support |
US9141556B2 (en) * | 2012-08-18 | 2015-09-22 | Qualcomm Technologies, Inc. | System translation look-aside buffer with request-based allocation and prefetching |
US9804969B2 (en) * | 2012-12-20 | 2017-10-31 | Qualcomm Incorporated | Speculative addressing using a virtual address-to-physical address page crossing buffer |
US10671535B2 (en) * | 2013-07-17 | 2020-06-02 | Advanced Micro Devices, Inc. | Stride prefetching across memory pages |
US10642618B1 (en) * | 2016-06-02 | 2020-05-05 | Apple Inc. | Callgraph signature prefetch |
US10482017B2 (en) * | 2017-09-29 | 2019-11-19 | Intel Corporation | Processor, method, and system for cache partitioning and control for accurate performance monitoring and optimization |
US20190163641A1 (en) * | 2017-11-27 | 2019-05-30 | Intel Corporation | Page translation prefetch mechanism |
US10705962B2 (en) * | 2017-12-21 | 2020-07-07 | Intel Corporation | Supporting adaptive shared cache management |
-
2020
- 2020-12-23 US US17/133,414 patent/US20220197821A1/en active Pending
-
2021
- 2021-09-17 EP EP21197392.0A patent/EP4020228B1/en active Active
- 2021-12-14 CN CN202111528576.1A patent/CN114661626A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117971722A (zh) * | 2024-03-28 | 2024-05-03 | 北京微核芯科技有限公司 | 一种取数指令的执行方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220197821A1 (en) | 2022-06-23 |
EP4020228A1 (en) | 2022-06-29 |
EP4020228B1 (en) | 2023-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10140210B2 (en) | Method and apparatus for cache occupancy determination and instruction scheduling | |
US10339060B2 (en) | Optimized caching agent with integrated directory cache | |
US20170286301A1 (en) | Method, system, and apparatus for a coherency task list to minimize cache snooping between cpu and fpga | |
US20200012514A1 (en) | Systems, Methods, and Apparatuses for Resource Monitoring | |
CN114661434A (zh) | 用于难以预测的分支的替代路径解码 | |
EP4020228B1 (en) | Device, system and method for selectively dropping software prefetch instructions | |
US12066945B2 (en) | Dynamic shared cache partition for workload with large code footprint | |
US20230018828A1 (en) | Device, method and system to provide thread scheduling hints to a software process | |
US20220197798A1 (en) | Single re-use processor cache policy | |
CN114647596A (zh) | 基于上下文的循环分支预测 | |
CN114647447A (zh) | 基于上下文的存储器间接分支目标预测 | |
US20230315632A1 (en) | Two-stage cache partitioning | |
US20230409197A1 (en) | Pasid granularity resource control for iommu | |
US20220405209A1 (en) | Multi-stage cache tag with first stage tag size reduction | |
US20230305960A1 (en) | Device, system and method for providing a high affinity snoop filter | |
US20230195634A1 (en) | Prefetcher with low-level software configurability | |
US11693780B2 (en) | System, method, and apparatus for enhanced pointer identification and prefetching | |
US20220197797A1 (en) | Dynamic inclusive last level cache | |
US20230142399A1 (en) | Processor interrupt expansion feature | |
US20230418773A1 (en) | Device, system, and method for inspecting direct memory access requests | |
US20230093247A1 (en) | Memory access tracker in device private memory | |
US20240152448A1 (en) | Inter-cluster shared data management in sub-numa cluster | |
US20240111679A1 (en) | Hardware processor having multiple memory prefetchers and multiple prefetch filters | |
CN115858015A (zh) | 基于核心的推测性页故障列表 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |