CN117083599A - 硬件辅助的存储器访问跟踪 - Google Patents

硬件辅助的存储器访问跟踪 Download PDF

Info

Publication number
CN117083599A
CN117083599A CN202180096328.6A CN202180096328A CN117083599A CN 117083599 A CN117083599 A CN 117083599A CN 202180096328 A CN202180096328 A CN 202180096328A CN 117083599 A CN117083599 A CN 117083599A
Authority
CN
China
Prior art keywords
counter
page address
memory
hardware
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180096328.6A
Other languages
English (en)
Inventor
S·库玛
P·兰兹
R·桑卡兰
D·汉森
E·V·沃沃丁
A·安德森
游丽贞
周鑫
N·塔尔帕里卡尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN117083599A publication Critical patent/CN117083599A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/10Address translation
    • G06F12/1009Address translation using page tables, e.g. page table structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/88Monitoring involving counting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

集成电路的实施例可包括:硬件计数器的阵列,以及电路系统,该电路系统通信地耦合至硬件计数器的阵列,该电路系统用于利用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。公开并要求保护其他实施例。

Description

硬件辅助的存储器访问跟踪
背景
1.技术领域
本公开总体上涉及存储器技术,以及分层存储器技术。
2.背景技术
分层存储器系统包括异构存储器,其中第一存储器层通常具有较低的等待时间以及较低的容量,并且第二存储器层通常具有较高的容量以及较高的等待时间。迁移技术包括用于在第一存储器层与第二存储器层之间高效地移动数据的各种技术。在一些系统中,第一存储器层可被称为近存储器,而第二存储器层可被称为远存储器。
一些图形处理器单元(graphics processor unit,GPU)包括跟踪GPU对位于其他处理器上的存储器进行的访问频率的访问计数器特征。访问计数器被描述为有助于确保存储器页被移动到处理器的正在最频繁地访问该页的物理存储器。
附图说明
以示例方式且非限制方式在附图的各图中图示本发明的各实施例,在附图中:
图1是根据实施例的集成电路的示例的框图;
图2A至图2B是根据实施例的方法的示例的流程图;
图3是根据实施例的装置的示例的框图;
图4是根据实施例的计算系统的示例的框图;
图5是根据实施例的存储器访问跟踪器(memory access tracker,MAT)设备的示例的框图;
图6是根据实施例的计算系统的另一示例的框图;
图7是根据实施例的跨步式页计数阵列(page count array,PCA)的示例的说明性示图;
图8A是图示根据本发明的实施例的示例性有序管线和示例性的寄存器重命名、乱序发出/执行管线两者的框图。
图8B是图示根据本发明的实施例的要包括在处理器中的有序体系结构核心的示例性实施例和示例性的寄存器重命名、乱序发出/执行体系结构核心两者的框图;
图9A-图9B图示更具体的示例性有序核心体系结构的框图,该核心会是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核心);
图10是根据本发明的实施例的可具有多于一个的核心、可具有集成存储器控制器以及可具有集成图形器件的处理器的框图;
图11-图14是示例性计算机体系结构的框图;以及
图15是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
本文中讨论的实施例以各种方式提供用于硬件辅助的存储器访问跟踪的技术和机制。本文中描述的技术可以在一个或多个电子设备中实现。可以利用本文中描述的技术的电子设备的非限制性示例包括任何种类的移动设备和/或固定式设备,诸如,相机、蜂窝电话、计算机终端、桌面型计算机、电子阅读器、传真机、自动服务机、膝上型计算机、上网本计算机、笔记本计算机、互联网设备、支付终端、个人数字助理、媒体播放器和/或记录器、服务器(例如,刀片服务器、机架安装服务器、其组合等)、机顶盒、智能电话、平板个人计算机、超移动个人计算机、有线电话、上述各项的组合,等等。更一般地,本文中描述的技术可在各种电子设备中的任何电子设备中被采用,各种电子设备包括可操作用于提供硬件辅助的存储器访问跟踪的集成电路系统。
在下列描述中,讨论了众多细节,以提供对本公开的实施例的更透彻的解释。然而,对本领域技术人员将显而易见的是,可以在没有这些特定细节的情况下实施本公开的实施例。在其他实例中,以框图形式,而不是详细地示出公知的结构和设备,以避免使本公开的实施例变得模糊。
注意,在实施例的对应附图中,利用线来表示信号。一些线可以较粗以指示更多数量的成份信号路径,和/或在一个或多个末端处具有箭头以指示信息流的方向。此类指示不旨在是限制性的。相反,线结合一个或多个示例性实施例使用,以促进对电路或逻辑单元的更容易的理解。如由设计需要或偏好所规定,任何所表示的信号都可实际包括可在任一方向上行进的一个或多个信号,并可利用任何合适类型的信号方案来实现。
贯穿说明书以及在权利要求书中,术语“连接的”意指所连接的物体之间的诸如电气、机械、或磁性连接之类的无需任何中介设备的直接连接。术语“耦合的”意指直接的或间接的连接,诸如所连接的物体之间的直接的电气、机械、或磁性连接或者通过一个或多个无源或有源中介设备的间接连接。术语“电路”或“模块”可以指布置成用于彼此合作以提供期望功能的一个或多个无源和/或有源组件。术语“信号”可指至少一个电流信号、电压信号、磁信号、或数据/时钟信号。“一(a/an)”和“该”的含义包括复数引用。“在……中”的含义包括“在……中”和“在……上”。
术语“设备”一般可以指根据使用那个术语的上下文的装置。例如,设备可以指层或结构的堆叠、单个结构或层、具有有源和/或无源元件的各种结构的连接,等等。一般而言,设备是三维结构,具有沿x-y-z笛卡尔坐标系的x-y方向的平面以及沿z方向的高度。设备的平面也可以是包括该设备的装置的平面。
术语“缩放”一般指将设计(示意图和布局)从一种工艺技术转换为另一种工艺技术,并随后在布局区域中被减小。术语“缩放”一般还指在同一技术节点内缩小布局和设备的大小。术语“缩放”还可指信号频率相对于另一参数(例如,功率供应水平)的调整(例如,减速或加速——即,分别为缩小或放大)。
术语“基本上”、“接近”、“近似”、“附近”以及“大约”一般指处于目标值的+/-10%内。例如,除非在其使用的明确的上下文中以其他方式指定,否则术语“基本上相等”、“大约相等”和“近似相等”意指在如此描述的物体之间仅存在偶然变化。在本领域中,此类变化典型地不大于预定的目标值的+/-10%。
应当理解,如此使用的术语在适当情况下是可互换的,例如使得本文中所描述的本发明的实施例能够以不同于本文中图示或以其他方式描述的那些取向的其他取向来操作。
除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述公共对象,仅仅指示类似对象的不同实例被提及,并且不旨在暗示如此描述的对象必须在时间上、空间上、排名上、或以任何其他方式处于给定序列中。
在说明书和权利要求书中的术语“左”、“右”、“前”、“后”、“顶”、“底”、“在……上方”、“在……下方”等(如果有)用于描述性目的,并且不一定用于描述永久的相对位置。例如,如本文中所使用的术语“在……上方”、“在……下方”、“前侧”、“后侧”、“顶”、“底”,“在……上方”、“在……下方”和“在……上”是指一个组件、结构或材料相对于设备内其他所引用的组件、结构或材料的相对位置,其中此类物理关系是显著的。本文仅出于描述性目的采用这些术语,并且这些术语主要在设备z轴的上下文内,因此这些术语可以相对于设备的取向。因此,在本文中所提供的图中的上下文中在第二材料“上方”的第一材料如在设备相对于所提供的图的上下文上下颠倒地取向情况下也可以在该第二材料“下方”。在材料的上下文中,设置在另一材料上方或下方的一种材料可直接接触,或者可具有一种或多种中介材料。此外,设置在两种材料之间的一种材料可直接与这两个层接触,或者可具有一个或多个中介层。相比之下,在第二材料“上”的第一材料与该第二材料直接接触。在组件组装件的上下文中进行类似的区分。
可在设备的z轴、x轴或y轴的上下文中采用术语“在……之间”。在两种其他材料之间的材料可以与那两种材料中的一种或两种接触,或者该材料可通过一种或多种中介材料来与其他那两种材料两者分开。因此,在两种其他材料“之间”的材料可以与其他那两种材料中的任一种接触,或者该材料可通过中介材料耦合至其他那两种材料。在两个其他设备之间的设备可直接连接到那两个设备中的一个或两个,或者该设备可通过一个或多个中介设备与其他那两个设备两者分开。
如贯穿说明书以及在权利要求书中所使用,由术语“……中的至少一个”或“……中的一个或多个”联接的项列表可意指所列举的项的任何组合。例如,短语“A、B或C中的至少一个”可意指A;B;C;A和B;A和C;B和C;或A、B和C。应指出,附图的具有与任何其他附图的要素相同的附图标记(或名称)的那些要素能以与所描述的方式类似的任何方式操作或起作用,但不被限于此。
此外,本公开中讨论的组合逻辑和时序逻辑的各种元件可涉及物理结构(诸如,AND门、OR门或XOR门),或涉及实现作为所讨论的逻辑的布尔等效的逻辑结构的器件的合成的或以其他方式优化的集合。
操作系统可以通过对CPU对页的访问计数来确定热页和冷页。OS可以利用多种技术中的任何一种来跟踪软件对存储器页的访问。例如,OS可从页表和/或扩展页表中跟踪被访问的页表和脏比特(A/D比特)。今天的OS可以定期或根据存储器压力扫描和清除页表A/D比特,以决定哪些页是冷页或热页。这项技术的问题在于,清除A/D比特需要要求软件遍历页表,并且需要CPU在下次访问时再次设置它,这在CPU周期和输入/输出(input/output,IO)方面可能成本高昂。为了准确性,A/D比特清除可能还需要转译后备缓冲器(translation lookaside buffer,TLB)否决(shootdown)以获得准确性,这也是成本高昂的。
对于其他基于软件的访问计数,OS跟踪在正常应用页表映射外部发生的对物理页的访问(例如,经由OS页表、IOMMU、直接存储器访问(direct memory access,DMA)等的访问)。这项技术的问题在于,该方法只能跟踪对访问中直接涉及系统软件的应用页的访问。许多访问是经由应用页表执行的,并且在设置页表后不涉及系统软件。
OS还可以通过定期将页表条目(page table entry,PTE)设置为不存在来利用CPU页故障以跟踪存储器访问。物理存储器仍然被分配并驻留在存储器中。在页故障时,正在被访问的页和访问它的发起者被记录,并且页变得存在于PTE中。这项技术的问题在于,页故障成本高昂,因此采用页故障来对存储器访问计数成本高昂。页故障由相同的工作负载线程处理,因此页故障处理干扰工作负载执行。
一些实施例通过提供位于从CPU到存储器(例如,包括下文进一步详细描述的各种存储器层)的存储器访问路径中的硬件计数技术来克服上述一个或多个问题。例如,硬件计数技术的实施例可辅助CPU的存储器访问计数和/或热/冷页通知。该技术的一些实施例可包括对于对各种页的访问计数的硬件计数器的阵列(例如,被组织为集合相联(set-associative)的阵列)。有利的是,一些实施例有助于软件在CPU周期和/或IO方面以低得多的成本确定软件定义的时期内页的访问率。如果硬件计数器中的一个硬件计数器的计数器值达到软件定义的阈值,则页地址及其计数器值被报告给软件。
另一优点在于,硬件计数技术的一些实施例从软件中迁移页访问计数,这显著地减少了软件开销。此外,硬件计数可以更准确,而软件可以更有能力确定热页和冷页,并在不同的存储器层之间执行更有效的页迁移,以优化应用性能。例如,软件不需要扫描/清除页表A/D比特或引发页故障来对访问进行计数。硬件计数技术的实施例可被配置成用于向软件提供热页的列表,这显著减少软件用于确定热页(例如,从一个存储器层迁移到另一个存储器层)的开销。
如本文中所使用,硬件计数器是指自包含电路,该自包含电路被配置成用于在没有来自软件(例如,OS)或硬件计数器外部的其他硬件(例如,CPU)的辅助的情况下执行计数操作。例如,可以使用组合逻辑和/或分立电路实现合适的硬件计数器,以在断言重置信号时将硬件计数器的输出值重置为初始值(例如,零,或应用于硬件计数器的输入信号的值),并在断言增量信号时将硬件计数器的输出值增加固定量(例如,一,或应用于硬件计数器的输入信号的可配置增量值)。
参考图1,集成电路100的实施例可包括硬件计数器113的阵列和通信地耦合至硬件计数器113的阵列的电路系统115。电路系统115可被配置成用于使用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。存储器的全部或部分可位于集成电路系统100上和/或可位于集成电路系统100的外部。例如,电路系统115可被配置成用于将硬件计数器113的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联。在一些实施例中,如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则电路系统115也可被配置成用于自动提供页地址和来自相关联的计数器的计数器值的报告。
在一些实施例中,硬件计数器113的阵列可包括组织为硬件计数器的集合相联的阵列的硬件计数器集,并且电路系统115可进一步被配置成用于管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。例如,电路系统115可被配置成用于:确定对存储器的访问的页地址是否命中硬件计数器集中的条目,如果确定是,则对与页地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值,并且如果来自相关联计数器的计数器值超过最大阈值(例如,上限阈值计数值),则提供页地址和来自与页地址相关联的计数器的计数器值的报告。电路系统115也可被配置成用于:确定对存储器的访问的页地址是否在硬件计数器集中未命中,并且如果确定是,则向页地址分配和初始化来自硬件计数器集的空闲计数器。如果没有可用的空闲计数器,电路系统115也可被配置成用于:基于驱逐策略来从集合相联的阵列驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值(例如,下限阈值计数值),则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
参考图2A至图2B,方法200的实施例可包括:在框221处,提供硬件计数器的阵列;以及在框222处,使用硬件计数器的阵列对应对存储器的一个或多个所选择页的访问计数。例如,方法200可包括:在框223处,将硬件计数器的阵列的所选择计数器与一个或多个所选择页的相应页地址相关联。方法200还可包括:在框224处,如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供页地址和来自相关联的计数器的计数器值的报告。
方法200的一些实施例可进一步包括:在框225处,将硬件计数器集中的硬件计数器的阵列组织为硬件计数器的集合相联的阵列;以及在框226处,管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。例如,方法200可包括:在框227处,确定对存储器的访问的页地址是否命中硬件计数器集中的条目;如果确定是,则在框228处,对与页地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值;以及在框229处,如果来自与被驱逐页地址相关联的计数器的计数器值超过最大阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。方法200还可包括:在框227处,确定对存储器的访问的页地址是否在硬件计数器集中未命中(例如,没有命中硬件计数器集中的条目),如果确定是,则方法200还可包括:在框230处,向页地址分配和初始化来自硬件计数器集的空闲计数器,并且如果没有可用的空闲计数器,则基于驱逐策略从集合相联的阵列驱逐页地址;以及在框231处,如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
参考图3,装置300的实施例可包括核心331、通信地耦合至核心331的存储器333、硬件计数器335的阵列、通信地耦合至核心331、存储器333和硬件计数器335的阵列。电路系统337可被配置成用于使用硬件计数器335的阵列对于对存储器333一个或多个所选择页的访问计数。例如,电路系统337可被配置成用于将硬件计数器335的阵列的所选择计数器与一个或多个所选择页的相应页地址相关联。在一些实施例中,如果来自与页地址相关联的计数器的计数器值达到阈值,则电路系统337也可被配置成用于自动提供页地址和来自相关联的计数器的计数器值的报告。
在一些实施例中,硬件计数器335的阵列可包括组织为硬件计数器的集合相联的阵列的硬件计数器集,并且电路系统337可被配置成用于管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。例如,电路系统337可被配置成用于:确定对存储器333的访问的页地址是否命中硬件计数器集中的条目,并且如果确定是,则对与页地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值。电路系统337也可被配置成用于:确定对存储器的访问的页地址是否在硬件计数器集中未命中,并且如果确定是,则向页地址分配和初始化来自硬件计数器集的空闲计数器。如果没有可用的空闲计数器,方法200也可被配置成用于:基于驱逐策略来从集合相联的阵列驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
一些实施例可为OS中的热页和冷页跟踪提供硬件支持,以进行分层存储器管理。计算机系统可具有含有不同性能特性的异构存储器(例如,或分层存储器)。例如,除了动态随机存取存储器(dynamic random access memory,DRAM),系统在服务器和客户端系统上还可具有高带宽存储器(high bandwidth memory,HBM)、持久性存储器(例如,英特尔OPTANE等)。系统还可具有带有本地存储器(例如,GPU上的HBM)的加速器或经由诸如计算快速链路(Compute Express Link,CXL)之类的一致性链路附接的远程池化存储器。这些存储器区域能以不同的物理地址范围向OS暴露,通常在单独的非均匀存储器访问(non-uniformmemory access,NUMA)节点中。处理器可以对所有不同的存储器区域的可缓存(例如,写回)访问。存储器访问可以由系统中的许多不同实体执行。CPU是最典型的存储器访问发起者,但许多种类的设备也可以作为发起者。如本文所用,术语较近的存储器(nearer memory,NM)是指向发起者访问提供最佳等待时间/带宽的存储器,并且术语较远的存储器(farthermemory,FM)是指相对于NM的用于发起者访问的较低性能存储器。
OS和/或虚拟机监视器(virtual machine monitor,VMM)可以管理分层存储器,以优化系统的整体性能。一般目标是将频繁访问的(热)数据放在NM中,而将不频繁访问的或未访问的(冷)数据放在FM中。一些实施例对由OS/VMM作出的增强存储器放置和迁移决策提供硬件支持,以从系统中的所有分层存储器向工作负载提供改进的或最优的价格/性能。例如,硬件计数技术的实施例可以帮助OS/VMM高效地检测FM中的热页并将其迁移到NM,并且还可以帮助OS/VMM高效地检测NM中的冷页并将其迁移到FM。
参考图4,计算系统400的实施例包括配置为存储器访问跟踪器(MAT)设备441的硬件计数技术,该MAT设备441位于CPU 443、第一存储器层445、第二存储器层447和IO设备449之间的存储器访问路径中。MAT设备441以模糊的边界来描绘,因为与设备441相关联的硬件的部分可遍及系统400而分布。MAT设备441被配置成用于对于对各种物理存储器范围的存储器访问进行观察和计数,并向软件报告地址及其计数。设备441以页粒度对存储器访问进行计数,其中页大小是可配置的,并且可与用于CPU页表中页的页大小不同。MAT设备441可与存储器访问路径内联,或者可在具有合适连接的直接存储器访问路径外,以监听用于存储器访问的页地址信息。
与MAT设备441相关联的硬件的实际位置包括存储器访问路径中的任何合适位置。例如,设备441可被实现在CPU 443的核心内、在最后一级缓存(Last Level Cache,LLC)/缓存归属代理(Caching Home Agent,CHA)中的核心外、在存储器控制器处、在存储器设备内(例如,在CXL设备中)或作为一致性结构上的单独设备。在一些实施例中,系统400中可能有多个MAT设备441(例如,每个存储器层一个MAT设备441)。
在一些实施例中,MAT设备441被实现在CPU 443核心外部,并且对物理地址进行计数并向软件通知物理地址。MAT设备441使用页颗粒计数器集对于对感兴趣的物理地址范围的存储器访问计数,并使用通知队列(Notification Queue,NFQ)和页计数器阵列(PCA)向软件报告那些计数,如下文更详细地所述。
在一些实施例中,MAT设备441可被实现在CPU 443核心内部,并且可对物理地址计数并向软件通知物理地址。当被实现在CPU 443核心内部时,MAT设备441可以使用应用CPU周期在带内向软件通知计数。
在一些实施例中,MAT设备441对于对存储器的CPU访问和IO访问两者计数。在一些实施例中,MAT设备441可只对于对存储器的CPU访问计数(例如,因为IO访问通常是固定的且不可迁移)。在一些实施例中,MAT设备441可以(例如,使用CPU非时效性流式指令)避免对流式访问进行计数。
参考图5,MAT设备500的实施例包括对存储器访问进行计数的组件和与软件交互的组件。计数组件包括称为硬件计数器集(hardware counter set,HCS)551的计数器集,该计数器集被组织为N集乘M路的集合相联的阵列,其中N和M两者都大于一(1)。与软件交互的组件包括配置和报告(configuration and reporting,CR)模块553。CR模块553包括配置寄存器(例如,存储器映射IO(memory mapped IO,MMIO)寄存器)。在一些实施例中,计数组件和软件可见组件可在物理上位于同一位置。或者,在其他实施例中,计数组件在物理上可与软件接口组件处于不同的位置。
参考图6,计算系统600的实施例包括在OS 663上运行的应用661。系统600包括具有NM 665和FM 667的分层存储器、以及两个MAT设备671和673(用于FM的MAT设备0和用于NM的MAT设备1)。每个MAT设备671和673具有其自己的CR模块和HCS。虚线上方的组件是软件组件,而虚线下方的组件是硬件组件。
MAT设备671、673可以利用不同的方法来向软件通知页访问计数,包括通知队列(NFQ)和页计数器阵列(PCA)。NFQ可用于软件向软件传达频繁的页访问,其需要相对立即的行动。NFQ高效地解决标识最热页的问题。PCA可用于向软件传达不太频繁的页访问,其可以容忍动作前的更长的延迟。PCA高效地解决标识各个页已被访问多少次的问题。在一些实施例中,PCA由(一个或多个)MAT设备直接更新(例如,硬件(HW)管理的PCA)。或者,在一些实施例中,PCA由软件通过从NFQ读取页地址和计数来更新PCA(例如,软件管理的PCA)。
在一些实施例中,软件指定哪些存储器区域应当通过MAT设备671、673的相应CR模块中的存储器范围寄存器集进行计数。存储器范围寄存器还可以指定通过NFQ或PCA向软件报告计数器。当MAT设备671、673中的一个需要向软件通知页及其计数时(例如,当计数达到上限阈值时),MAT设备671、673根据存储在寄存器中的配置,通过NFQ、PCA或这两者来向软件通知。
HCS示例
MAT设备的实施例包括用于对页的访问计数的HCS。如果地址命中到HCS的集合相联的阵列,则与该地址相关联的计数器的值被递增软件指定的值。如果计数器值达到配置的阈值(例如,如下所述),则计数和页地址被报告给软件。
在一些实施例中,MAT设备支持用于向软件报告页地址的两个阈值。软件可以基于软件的热/冷页跟踪启发式方法来配置这些阈值。在一些实施例中,这两个阈值是应用于MAT设备中的所有计数器的全局阈值。这两个阈值可与最大(MAX)阈值和最小(MIN)阈值相对应。当计数器的计数达到MAX阈值时,MAT设备可将页视为热,并且相对应的地址被向软件通知。当计数器正从集合相联的阵列被驱逐,并且其值大于或等于MIN阈值时,相对应的页地址被向软件通知。MIN阈值通常(但并不总是)设置为低于MAX阈值。
具有有限数量的计数器的HCS的示例
在一些实施例中,MAT设备可以在HCS中实现有限数量的计数器(例如,大约几千到几万页的量级,但少于总页数),这些计数器类似于缓存被分配给当前被访问的地址(例如,在集合相联的阵列中)(例如,如图5所示)。这些计数器可被嵌入在CPU或存储器侧缓存结构中,或者计数器可以是独立结构。
在一些实施例中,计数器被自动分配给传入的被访问的页地址。基于任何合适的驱逐策略(诸如,最近使用(least recently used,LRU)),传入的新页地址还可导致从计数器中驱逐其他地址(例如,以为新地址腾出空间)。被驱逐的页及其计数可以任选地被向软件通知。如果页命中到HCS,其计数器值递增。
有限数量的硬件计数器可能不足以有效地对所有页进行计数(例如,可能有数十亿页)。在一些实施例中,为了对比能够由有限数量的硬件计数器计数的数量更多的页计数,MAT设备可在硬件与软件之间划分计数责任。由于硬件提供有限数量的计数器,因此软件在存储器中分配计数器的阵列(例如,每页一个)来对页访问进行计数(例如,PCA)。
硬件对命中HCS的地址进行计数。当地址从HCS被驱逐时,被驱逐地址和相对应的计数被报告给软件(例如,地址可基于MIN阈值被驱逐)。然后,软件可以将被驱逐的计数添加到PCA中的相对应计数器中。在添加后,如果PCA计数器达到超过MAX阈值,则软件可以将页视为热。当使用有限数量的硬件计数器工作时,MIN阈值可以在接收地址通知方面给予软件更多控制。例如,如果软件不想因驱逐而丢失用于任何页的任何计数,则软件可将MIN阈值设置为1。或者,如果软件不想接收任何驱逐通知,择软件可以设置MIN阈值大于或等于MAX阈值。
硬件中更多计数器通常将导致HCS中的更高的命中率,从而导致更少的驱逐。更少的驱逐减少或避免由软件进行的驱逐处理的CPU开销。无论硬件计数器的数量如何,与常规的仅软件技术相比,MAT设备的实施例仍然可以帮助软件更好地检测热/冷页(尽管在使用更少的硬件计数器时,具有更多的软件开销)。硬件/软件联合设计的实施例在实现硬件计数器方面允许更大的灵活性,并允许软件与有限数量的计数器一起工作。
在一些实施例中,硬件计数器能以不同方式对读取访问和写入访问进行计数。在一些实施例中,可以将计数器配置成用于以不同方式递增对于对页的读取访问和写入访问的计数(例如,给予读取与写入不同的权重)增加不同的计数。在一些实施例中,访问计数器可以针对数个读取访问和写入访问实现单独的计数器。具有单独的读取访问/写入访问计数器允许软件考虑其读取和写入成本不同的此类存储器(例如,英特尔OPTANE技术等)。
在一些实施例中,访问计数器还可以标识和报告与页访问相关联的标识符(identifier,ID)(例如,CPU ID、IO ID等)。访问器ID信息可有助于OS将页迁移到更接近访问页的设备(例如,CPU插槽、IO设备等)。在一些实施例中,如果多个CPU在也被向软件通知之前访问该页,则计数器记录访问该页的最后一个CPU的ID,并向软件报告该ID。
在一些实施例中,MAT设备还能以不同的页大小对存储器访问进行计数,这些页大小可以与页表中的页大小不同。一般来说,最小(例如,和默认)页大小为4千字节(KB)。MAT设备可被配置成用于以4KB、8KB、16KB、32KB、……、2兆字节(MB)、4MB等来跟踪地址。用于MAT设备的页大小表示每个计数器正在计数的存储器大小。使用更大的MAT页大小的优势包括减少存储器访问计数所需的计数器的数量,以及减少发送到OS的热页通知的数量。
在一些实施例中,MAT设备可以通过软件配置成用于进行采样计数,其中MAT设备可以不对每一个访问进行计数。例如,如果采样率设置为10%(10%),则MAT设备将对每一个第十个(第10个)访问进行计数。采样计数可用于减少计数和处理开销。
老化计数器的示例
为了检测热页或冷页,计数应当表示近期访问。在一些实施例中,针对用于表示近期访问的计数,MAT设备可以将某个时间间隔定义为时期,使得计数器在每个时期之后老化。例如,计数器老化可以通过将计数器重置为0或通过使用某一其他函数减小计数器值来完成。在一些实施例中,PCA计数器老化可以通过软件或MAT设备硬件本身完成。
PCA示例
在一些实施例中,PCA被维护在系统存储器中,并包括用于每一页的计数器值。PCA可以是软件管理或硬件管理的。如果软件管理的PCA被启用,则软件读取来自NFQ的通知(例如,由于MAX阈值和MIN阈值),并将其添加到PCA中的相对应计数器。PCA中的计数器在每一个时期之后老化。
如果硬件管理的PCA被启用,则硬件计数器被视为PCA中的计数器的缓存,使得当新页地址在HCS中被分配时,初始计数器值从PCA中的相对应位置被加载到与新页地址相关联的HCS中的计数器中。当与页地址相关联的计数器达到MAX阈值时,计数器值被写回到PCA中的相对应位置中。当页地址从HCS被驱逐并且其相关联的计数达到驱逐阈值(例如,MIN阈值)时,其相关联计数被写回到PCA中的相对应位置中。如果页从HCS被驱逐但其访问计数尚未达到驱逐阈值,则该页在不更新PCA(例如,访问计数将丢失)的情况下从HCS被驱逐。硬件管理的PCA可以显著减少维护PCA的软件开销。PCA中的计数器值可被连续定位,或者它们可以使用跨度以固定距离彼此定位。
在硬件管理的PCA的一些实施例中,计数器值大小为1字节,但MAT设备的其他实施例也可以支持其他计数器值大小。软件为PCA分配足够大以用于由MAT设备监测的所有页的存储器。然后,软件将第一计数器值的位置(例如,Counter_Base(计数器_基址)值、Counter_Size(计数器_大小)值和Stride_Shift(跨度_移位)值配置到MAT设备中(例如,将值存储在配置寄存器中)。实际计数器位置由硬件确定如下:Counter_Location(计数器_位置)=Counter_Base+(PFN<<Stride_Shift),其中PFN是页的页帧号。当在PCA中写入计数器值后,MAT设备将会将HCS计数器重置为零(0)或将计数器分配给新页,以避免针对同一地址的多个背靠背计数器更新。
软件使用PCA的示例
PCA可用于向OS提供对页访问计数的访问权。OS可以定期扫描PCA,以获取所有页的页访问计数。此外,给定页,OS可以通过读取相对应的计数器轻松地找到其访问计数。MAT设备的实施例支持用于使OS能够将MAT设备的计数器缓存转储清除(flush)到PCA的命令,以确保OS在扫描期间获得最新的访问计数。OS可在扫描PCA后重置PCA中的计数器,以为下一次扫描获取新的计数。在一些实施例中,在更新PCA计数器值时,MAT设备执行读取-修改-写入操作,以将累积值写入PCA计数器值。
参考图7,跨步式PCA 700的实施例包括每页元数据结构的阵列,每个每页元数据结构包括规则跨步上的计数器值比特。OS/VMM可以维护一个或多个有序的页列表(例如,LINUX中的LRU列表),这些页基于对它们进行的访问进行排序。这个有序列表有助于OS确定可以从较高性能层存储器中被驱逐到较低性能层存储器的冷页。OS还可以维护包含LRU列表信息和页访问信息每页元数据结构(例如,LINUX中的struct(结构体)页)。这些元数据结构是虚拟地连续的,并且大小通常为64字节。OS可以分割出64字节中的一个或两个字节作为用于该页的PCA的计数器值,有利地将PCA嵌入在现有的OS管理结构内。可由OS使用每页元数据中的计数器值来快速获得针对页的访问计数,并且显著减少扫描和维护有序(例如,LRU)页列表的开销。
NFQ示例
为了帮助OS高效地确定热页,MAT设备的一些实施例使用基于存储器的循环通知队列(NFQ)向软件报告页和其计数。例如,在启用MAT设备之前,软件可以配置队列的基址、大小、头部和尾部。然后,MAT设备在尾部索引处使通知入列,并使尾部递增。如果NFQ为满,则新的通知被丢弃。软件消耗来自头部索引的通知。
当MAT设备需要向软件通知热页时(例如,当页访问计数达到MAX阈值,或者当页地址正在从硬件计数器集被驱逐,并且与被驱逐的页地址相关联的访问计数已达到MIN阈值时),MAT设备准备通知描述符(例如,包含页地址及其相关联的计数),并将通知描述符写入到NFQ中。在一些实施例中,MAX和MIN阈值通知两者都被写入到单个NFQ中。或者,在一些实施例中,MAT设备可以使用两个不同的NFQ,一个用于MAX阈值通知,而另一个用于MIN阈值(例如,驱逐)通知。
在一些实施例中,当热页通知被添加到NFQ中时,MAT设备可以支持生成带内中断(例如,消息信号中断(Message Signaled Interrupt,MSI))。MAT设备还可以支持用于控制中断的批量处理的中断阈值。例如,当将描述符插入到NFQ中时,如果队列中的通知描述符的数量达到中断阈值,则由MAT设备生成中断。否则,中断生成被跳过。中断阈值有助于减少软件的中断数量。
在将通知描述符写入到NFQ中后,在一些实施例中,MAT设备将会将HCS计数器重置为零(0),将计数器分配给新页地址,或将计数器标记为空闲以被分配到下一个新页地址(例如,以避免针对同一页地址的多个背靠背热页通知)。
有利的是,OS/VMM可以通过读取NFQ高效地确定热页的列表。OS/VMM可以在接收中断等后按需处理NFQ。例如,中断处置程序可以启动内核线程,该内核线程读取与NFQ相关联的头部和尾部寄存器,并从头部开始并继续通过尾部索引来处理描述符。例如,作为描述符处理的一部分,OS可将热页从FM层迁移到NM层。
在处理头部与尾部之间的所有描述符之后,中断处置程序将头部寄存器更新为等于尾部值。然而,由于MAT设备可能不在对NFQ的每一次描述符添加时生成中断,因此中断处置程序线程可再次读取尾寄存器,以检查在在先通知的处理期间是否由MAT添加更多通知。如果存在更多描述符,中断处置程序可在返回之前处理新的描述符批次。例如,只有当NFQ为空时,中断处置程序才返回。
有利的是,利用一个或多个MAT设备的多层存储器系统的实施例可以快得多地检测热页,并且可比常规的存储器管理技术(例如,由于由工作负载线程进行的周期性的页故障处置,它可能是起伏的)快得多地接近仅DRAM的吞吐量。对于一些工作负载,MAT设备的实施例可以帮助多层存储器系统以更少的迁移实现更高的吞吐量(例如,通过检测与常规迁移技术相比更高质量的热页)。
本领域技术人员将领会,各种设备可受益于前述实施例。以下示例性核心体系结构、处理器和计算机体系结构是可有益地包含本文中描述的技术的实施例的设备的非限制性示例。
示例性核心体系结构、处理器和计算机体系结构
处理器核心能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核心的实现方式可以包括:1)旨在用于通用计算的通用有序核心;2)旨在用于通用计算的高性能通用乱序核心;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核心。不同处理器的实现可包括:1)CPU,其包括旨在用于通用计算的一个或多个通用有序核心和/或旨在用于通用计算的一个或多个通用乱序核心;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核心。此类不同的处理器导致不同的计算机系统体系结构,这些计算机系统体系结构可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核心,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)片上系统,其可以将所描述的CPU(有时被称为(一个或多个)应用核心或(一个或多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核心体系结构,随后描述示例性处理器和计算机体系结构。
示例性核心体系结构
有序和乱序核心框图
图8A是图示根据本发明的各实施例的示例性有序管线和示例性的寄存器重命名的乱序发出/执行管线两者的框图。图8B是示出根据本发明的各实施例的要包括在处理器中的有序体系结构核心的示例性实施例和示例性的寄存器重命名的乱序发出/执行体系结构核心的框图。图8A-图8B中的实线框图示有序管线和有序核心,而任选增加的虚线框图示寄存器重命名的、乱序发出/执行管线和核心。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图8A中,处理器管线900包括取得(fetch)阶段902、长度解码阶段904、解码阶段906、分配阶段908、重命名阶段910、调度(也被称为调遣或发出)阶段912、寄存器读取/存储器读取阶段914、执行阶段916、写回/存储器写入阶段918、异常处置阶段922和提交阶段924。
图8B示出处理器核心990,该处理器核心990包括前端单元930,该前端单元930耦合到执行引擎单元950,并且前端单元930和执行引擎单元950两者都耦合到存储器单元970。核心990可以是精简指令集计算(reduced instruction set computing,RISC)核心、复杂指令集计算(complex instruction set computing,CISC)核心、超长指令字(verylong instruction word,VLIW)核心、或混合或替代性核心类型。作为又一选项,核心990可以是专用核心,诸如例如,网络或通信核心、压缩引擎、协处理器核心、通用计算图形处理单元(general purpose computing graphics processing unit,GPGPU)核心、图形核心,等等。
前端单元930包括分支预测单元932,该分支预测单元932耦合到指令缓存单元934,该指令缓存单元934耦合到指令转译后备缓冲器(translation lookaside buffer,TLB)936,该指令转译后备缓冲器936耦合到指令取得单元938,该指令取得单元938耦合到解码单元940。解码单元940(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现。合适机制的示例包括但不限于,查找表、硬件实现、可编程逻辑阵列(programmable logicarray,PLA)、微代码只读存储器(read only memory,ROM)等。在一个实施例中,核心990包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元940中,或以其他方式在前端单元930内)。解码单元940耦合到执行引擎单元950中的重命名/分配器单元952。
执行引擎单元950包括重命名/分配器单元952,该重命名/分配器单元952耦合到引退单元954和一个或多个调度器单元的集合956。(一个或多个)调度器单元956表示任何数量的不同调度器,包括预留站、中央指令窗等。(一个或多个)调度器单元956耦合到(一个或多个)物理寄存器堆单元958。(一个或多个)物理寄存器堆单元958中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,状态(例如,作为要执行的下一个指令的地址的指令指针)等等。在一个实施例中,(一个或多个)物理寄存器堆单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供体系结构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器堆单元958由引退单元954重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器堆;使用(一个或多个)未来的堆、(一个或多个)历史缓冲器、(一个或多个)引退寄存器堆;使用寄存器图谱和寄存器池,等等)。引退单元954和(一个或多个)物理寄存器堆单元958耦合到(一个或多个)执行集群960。(一个或多个)执行集群960包括一个或多个执行单元的集合962以及一个或多个存储器访问单元的集合964。执行单元962可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(一个或多个)调度器单元956、(一个或多个)物理寄存器堆单元958和(一个或多个)执行集群960示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的管线(例如,标量整数管线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点管线,和/或各自具有其自身的调度器单元、(一个或多个)物理寄存器堆单元和/或执行集群的存储器访问管线——并且在分开的存储器访问管线的情况下,实现其中仅该管线的执行集群具有(一个或多个)存储器访问单元964的某些实施例)。还应当理解,在使用分开的管线的情况下,这些管线中的一个或多个可以是乱序发出/执行,并且其余管线可以是有序的。
存储器访问单元的集合964耦合到存储器单元970,该存储器单元970包括数据TLB单元972,该数据TLB单元972耦合到数据缓存单元974,该数据缓存单元974耦合到第二级(L2)缓存单元976。在一个示例性实施例中,存储器访问单元964可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合到存储器单元970中的数据TLB单元972。指令缓存单元934还耦合到存储器单元970中的第二级(L2)缓存单元976。L2缓存单元976耦合到一个或多个其他级别的缓存,并最终耦合到主存储器。
作为示例,示例性寄存器重命名的乱序发出/执行核心体系结构可如下所述地实现管线900:1)指令取得938执行取得阶段902和长度解码阶段904;2)解码单元940执行解码阶段906;3)重命名/分配器单元952执行分配阶段908和重命名阶段910;4)(一个或多个)调度器单元956执行调度阶段912;5)(一个或多个)物理寄存器堆单元958和存储器单元970执行寄存器读取/存储器读取阶段914;执行集群960执行执行阶段916;6)存储器单元970和(一个或多个)物理寄存器堆单元958执行写回/存储器写入阶段918;7)各单元可牵涉到异常处置阶段922;以及8)引退单元954和(一个或多个)物理寄存器堆单元958执行提交阶段924。
核心990可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的可选的附加扩展)),其中包括本文中描述的(一个或多个)指令。在一个实施例中,核心990包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
应当理解,核心可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,各种方式包括时分多线程化、同时多线程化(其中单个物理核心为物理核心正在同时多线程化的线程中的每一个线程提供逻辑核心)、或其组合(例如,时分取得和解码以及此后的诸如超线程化技术中的同时多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序体系结构中使用寄存器重命名。尽管所图示的处理器的实施例还包括分开的指令和数据缓存单元934/974以及共享的L2缓存单元976,但是替代实施例可以具有用于指令和数据两者的单个内部缓存,诸如例如,第一级(L1)内部缓存或多个级别的内部缓存。在一些实施例中,该系统可包括内部缓存和在核心和/或处理器外部的外部缓存的组合。或者,所有缓存都可以在核心和/或处理器的外部。
具体的示例性有序核心体系结构
图9A-图9B图示更具体的示例性有序核心体系结构的框图,该核心将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核心)中的一个逻辑块。取决于应用,逻辑块通过高带宽互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。
图9A是根据本发明的实施例的单个处理器核心以及它至管芯上互连网络1002的连接及其第二级(L2)缓存的本地子集1004的框图。在一个实施例中,指令解码器1000支持具有紧缩数据指令集扩展的x86指令集。L1缓存1006允许对进入标量和向量单元中的、对缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1008和向量单元1010使用分开的寄存器集合(分别为标量寄存器1012和向量寄存器1014),并且在这些寄存器之间传输的数据被写入到存储器,并随后从第一级(L1)缓存1006读回,但是本发明的替代实施例可以使用不同的方法(例如,使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。
L2缓存的本地子集1004是全局L2缓存的一部分,该全局L2缓存被划分成多个分开的本地子集,每个处理器核心一个本地子集。每个处理器核心具有到其自身的L2缓存的本地子集1004的直接访问路径。由处理器核心读取的数据被存储在其L2缓存子集1004中,并且可以与其他处理器核心访问其自身的本地L2缓存子集并行地被快速访问。由处理器核心写入的数据被存储在其自身的L2缓存子集1004中,并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核心、L2缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012比特宽。
图9B是根据本发明的实施例的图9A中的处理器核心的一部分的展开图。图9B包括L1缓存1006的L1数据缓存1006A部分,以及关于向量单元1010和向量寄存器1014的更多细节。具体地,向量单元1010是16宽向量处理单元(vector processing unit,VPU)(见16宽ALU 1028),该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1020支持对寄存器输入的混合,通过数值转换单元1022A-B支持数值转换,并且利用复制单元1024支持对存储器输入的复制。写掩码寄存器1026允许断言所得的向量写入。
图10是根据本发明的实施例的可具有多于一个的核心、可具有集成存储器控制器、以及可具有集成图形器件的处理器1100的框图。图10中的实线框图示具有单个核心1102A、系统代理1110、一个或多个总线控制器单元的集合1116的处理器1100,而虚线框的可选增加图示具有多个核心1102A-N、系统代理单元1110中的一个或多个集成存储器控制器单元的集合1114以及专用逻辑1108的替代处理器1100。
因此,处理器1100的不同实现方式可包括:1)CPU,其中专用逻辑1108是集成图形器件和/或科学(吞吐量)逻辑(其可包括一个或多个核心),并且核心1102A-N是一个或多个通用核心(例如,通用有序核心、通用乱序核心、这两者的组合);2)协处理器,其中核心1102A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核心;以及3)协处理器,其中核心1102A-N是大量通用有序核心。因此,处理器1100可以是通用处理器、协处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、GPGPU(general purposegraphics processing unit,通用图形处理单元)、高吞吐量的集成众核心(manyintegrated core,MIC)协处理器(包括30个或更多核心)、嵌入式处理器,等等。该处理器可以被实现在一个或多个芯片上。处理器1100可以是一个或多个基板的一部分,和/或可使用多种工艺技术(诸如例如,BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。
存储器层次体系包括核心1102A-N内的一个或多个级别的相应缓存1104A-N、一个或多个共享缓存单元的集合1106、以及耦合到集成存储器控制器单元的集合1114的外部存储器(未示出)。共享缓存单元的集合1106可包括一个或多个中间级别的缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的缓存、最后一级缓存(last level cache,LLC)和/或以上各项的组合。虽然在一个实施例中,基于环的互连单元1112将集成图形逻辑1108、共享缓存单元的集合1106以及系统代理单元1110/(一个或多个)集成存储器控制器单元1114互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,在一个或多个缓存单元1106与核心1102A-N之间维持一致性。
在一些实施例中,核心1102A-N中的一个或多个能够实现多线程化。系统代理1110包括协调并操作核心1102A-N的那些组件。系统代理单元1110可包括例如功率控制单元(power control unit,PCU)和显示单元。PCU可以是对核心1102A-N以及集成图形逻辑1108的功率状态进行调节所需的逻辑和组件,或可包括这些逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核心1102A-N在体系结构指令集方面可以是同构的或异构的;即,核心1102A-N中的两个或更多个核心可能能够执行相同的指令集,而其他核心可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机体系结构
图11-图14是示例性计算机体系结构的框图。本领域中已知的对膝上型电脑、桌面型电脑、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络中枢、交换机、嵌入式处理器、数字信号处理器(digital signal processor,DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。
现在参考图11,所示出的是根据本发明一个实施例的系统1200的框图。系统1200可以包括一个或多个处理器1210、1215,这些处理器耦合到控制器中枢1220。在一个实施例中,控制器中枢1220包括图形存储器控制器中枢(graphics memory controller hub,GMCH)1290和输入/输出中枢(Input/Output Hub,IOH)1250(其可以在分开的芯片上);GMCH1290包括存储器和图形控制器,存储器1240和协处理器1245耦合到该存储器和图形控制器;IOH 1250将输入/输出(input/output,I/O)设备1260耦合到GMCH 1290。或者,存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内,存储器1240和协处理器1245直接耦合到处理器1210,并且控制器中枢1220与IOH 1250处于单个芯片中。
附加的处理器1215的可选性在图11中通过虚线来表示。每一处理器1210、1215可包括本文中描述的处理核心中的一个或多个,并且可以是处理器1100的某一版本。
存储器1240可以是例如动态随机存取存储器(dynamic random access memory,DRAM)、相变存储器(phase change memory,PCM)或这两者的组合。对于至少一个实施例,控制器中枢1220经由诸如前端总线(frontside bus,FSB)之类的多分支总线、诸如快速路径互连(QuickPath Interconnect,QPI)之类的点到点接口、或者类似的连接1295来与(一个或多个)处理器1210、1215进行通信。
在一个实施例中,协处理器1245是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。在一个实施例中,控制器中枢1220可以包括集成图形加速器。
在物理资源1210、1215之间可以存在包括体系结构、微体系结构、热、功耗特性等一系列品质度量方面的各种差异。
在一个实施例中,处理器1210执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1210将这些协处理器指令识别为具有应当由附连的协处理器1245执行的类型。因此,处理器1210在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发出到协处理器1245。(一个或多个)协处理器1245接受并执行所接收的协处理器指令。
现在参见图12,所示出的是根据本发明的实施例的第一更具体的示例性系统1300的框图。如图12中所示,多处理器系统1300是点到点互连系统,并且包括经由点到点互连1350耦合的第一处理器1370和第二处理器1380。处理器1370和1380中的每一个都可以是处理器1100的某一版本。在本发明的一个实施例中,处理器1370和1380分别是处理器1210和1215,而协处理器1338是协处理器1245。在另一实施例中,处理器1370和1380分别是处理器1210和协处理器1245。
处理器1370和1380示出为分别包括集成存储器控制器(integrated memorycontroller,IMC)单元1372和1382。处理器1370还包括作为其总线控制器单元的一部分的点到点(point-to-point,P-P)接口1376和1378;类似地,第二处理器1380包括P-P接口1386和1388。处理器1370、1380可以经由使用点到点(P-P)接口电路1378、1388的P-P接口1350来交换信息。如图12中所示,IMC 1372和1382将处理器耦合到相应的存储器,即存储器1332和存储器1334,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器1370、1380可各自经由使用点到点接口电路1376、1394、1386、1398的各个P-P接口1352、1354来与芯片组1390交换信息。芯片组1390可以可选地经由高性能接口1339和接口1392来与协处理器1338交换信息。在一个实施例中,协处理器1338是专用处理器,诸如例如,高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器,等等。
共享缓存(未示出)可被包括在任一处理器中,或在这两个处理器的外部但经由P-P互连与这些处理器连接,使得如果处理器被置于低功率模式,则任一个或这两个处理器的本地缓存信息可被存储在共享缓存中。
芯片组1390可以经由接口1396耦合到第一总线1316。在一个实施例中,第一总线1316可以是外围组件互连(Peripheral Component Interconnect,PCI)总线或诸如PCI快速(PCI Express)总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图12中所示,各种I/O设备1314可连同总线桥1318一起耦合到第一总线1316,该总线桥1318将第一总线1316耦合到第二总线1320。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1315耦合到第一总线1316。在一个实施例中,第二总线1320可以是低引脚数(low pin count,LPC)总线。在一个实施例中,各种设备可耦合到第二总线1320,这些设备包括例如键盘和/或鼠标1322、通信设备1327以及存储单元1328,该存储单元1328诸如可包括指令/代码和数据1330的盘驱动器或者其他大容量存储设备。此外,音频I/O 1324可以被耦合到第二总线1320。注意,其他体系结构是可能的。例如,代替图12的点到点体系结构,系统可以实现多分支总线或其他此类体系结构。
现在参考图13,示出的是根据本发明的实施例的第二更具体的示例性系统1400的框图。图12和13中的类似元件使用类似的附图标记,并且从图13中省略了图12的某些方面以避免混淆图13的其他方面。
图13图示处理器1370、1380可分别包括集成存储器和I/O控制逻辑(“controllogic,CL”)1472和1482。因此,CL 1472、1482包括集成存储器控制器单元,并包括I/O控制逻辑。图13图示不仅存储器1332、1334耦合到CL 1472、1482,而且I/O设备1414也耦合到控制逻辑1472、1482。传统I/O设备1415被耦合到芯片组1390。
现在参考图14,示出的是根据本发明的实施例的SoC 1500的框图。图10中的类似要素使用类似的附图标记。另外,虚线框是更先进的SoC上的可选的特征。在图14中,(一个或多个)互连单元1502被耦合到:应用处理器1510,其包括一个或多个核心的集合1102A-N的集合以及(一个或多个)共享缓存单元1106;系统代理单元1110;(一个或多个)总线控制器单元1116;(一个或多个)集成存储器控制器单元1114;一个或多个协处理器的集合1520,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(static random access memory,SRAM)单元1530;直接存储器访问(direct memoryaccess,DMA)单元1532;以及用于耦合到一个或多个外部显示器的显示单元1540。在一个实施例中,(一个或多个)协处理器1520包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器,等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如,图12中图示的代码1330)应用于输入指令,以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有处理器的任何系统,该处理器诸如例如,数字信号处理器(DSP)、微控制器、专用集成电路(application specific integrated circuit,ASIC)或微处理器。
程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现,以便与处理系统通信。如果需要,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,该指令表示处理器中的各种逻辑,该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核心”的此类表示可以被存储在有形的机器可读介质上,并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置,其包括存储介质,诸如硬盘;任何其他类型的盘,包括软盘、光盘、致密盘只读存储器(compact disk read-only memory,CD-ROM)、可重写致密盘(compack diskrewritable,CD-RW)以及磁光盘;半导体器件,诸如,只读存储器(ROM)、诸如动态随机存取存储器(dynamic random access memory,DRAM)和静态随机存取存储器(static randomaccess memory,SRAM)的随机存取存储器(random access memory,RAM)、可擦除可编程只读存储器(erasable programmable read-only memories,EPROM)、闪存、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,EEPROM);相变存储器(phase change memory,PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的实施例还包括非暂态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(Hardware Description Language,HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也可被称为程序产品。
仿真(包括二进制转译、代码变形等)
在一些情况下,指令转换器可用于将指令从源指令集转换至目标指令集。例如,指令转换器可以将指令转译(例如,使用静态二进制转译、包括动态编译的动态二进制转译)、变形、仿真或以其他方式转换成要由核心处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图15是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所图示的实施例中,指令转换器是软件指令转换器,但替代地,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图15示出可使用x86编译器1604来编译高级语言1602形式的程序,以生成可由具有至少一个x86指令集核心的处理器1616原生执行的x86二进制代码1606。具有至少一个x86指令集核心的处理器1616表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核心的英特尔处理器基本相同的功能的任何处理器:1)英特尔x86指令集核心的指令集的实质部分,或2)目标为在具有至少一个x86指令集核心的英特尔处理器上运行以便取得与具有至少一个x86指令集核心的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器1604表示可操作用于生成x86二进制代码1606(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核心的处理器1616上执行。类似地,图15示出可以使用替代性指令集编译器1608来编译高级语言1602形式的程序,以生成可以由没有至少一个x86指令集核心的处理器1614(例如,具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核心的处理器)原生执行的替代性指令集二进制代码1610。指令转换器1612用于将x86二进制代码1606转换成可以由没有x86指令集核心的处理器1614原生执行的代码。该转换后的代码不大可能与替代性指令集二进制代码1610相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作,并且由来自替代指令集的指令构成。因此,指令转换器1612通过仿真、模拟或任何其他过程来表示允许没有x86指令集处理器或核心的处理器或其他电子设备执行x86二进制代码1606的软件、固件、硬件或其组合。
附加注解与示例
示例1包括一种集成电路,包括:硬件计数器的阵列,以及电路系统,该电路系统通信地耦合至硬件计数器,该电路系统用于利用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。
示例2包括示例1的集成电路,其中电路系统进一步用于:将硬件计数器的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联。
示例3包括示例2的集成电路,其中电路系统进一步用于:如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供页地址和来自相关联的计数器的计数器值的报告。
示例4包括示例1至3中的任一项的集成电路,其中硬件计数器的阵列包括被组织为硬件计数器的集合相联的阵列的硬件计数器集。
示例5包括示例4的集成电路,其中电路系统进一步用于:管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
示例6包括示例5的集成电路,其中电路系统进一步用于:确定对存储器的访问的页地址是否命中硬件计数器集中的条目,如果确定是,则对于页地址相关联的计数器地址被存储在一个或多个配置寄存器中的增量值,并且如果来自与页地址相关联的计数器的计数器值超过最大阈值,则提供页地址和来自相关联的计数器的计数器值的报告。
示例7包括示例5至6中的任一项的集成电路,其中电路系统进一步用于:确定对存储器的访问的页地址是否在硬件计数器集中未命中;如果确定是,则向页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,则基于驱逐策略从集合相联的阵列驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供被驱逐页地址和来自相关联计数器的计数器值的报告。
示例8包括一种方法,包括:提供硬件计数器的阵列,并且利用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。
示例9包括示例8的方法,进一步包括:将硬件计数器的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联。
示例10包括示例9的方法,进一步包括:如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供页地址和来自相关联的计数器的计数器值的报告。
示例11包括示例8至10中的任一项的方法,进一步包括:将硬件计数器集中的硬件计数器的阵列组织为硬件计数器的集合相联的阵列。
示例12包括示例11的方法,进一步包括:管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
示例13包括示例12的方法,进一步包括:确定对存储器的访问的页地址是否命中硬件计数器集中的条目,如果确定是,则对与也地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值,并且如果来自与页地址相关联的计数器的计数器值超过最大阈值,则提供页地址和来自相关联的计数器的计数器值的报告。
示例14包括示例12至13中的任一项的方法,进一步包括:确定对存储器的访问的页地址是否在硬件计数器集中未命中;如果确定是,则向页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,则基于驱逐策略从集合相联的阵列驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
示例15包括一种装置,包括:核心、通信地耦合至核心的存储器、和硬件计数器的阵列,以及通信地耦合至核心、存储器和硬件计数器的阵列的电路系统,该电路系统用于利用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。
示例16包括示例15的装置,其中电路系统进一步用于:将硬件计数器的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联。
示例17包括示例16的装置,其中电路系统进一步用于:如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供页地址和来自相关联的计数器的计数器值的报告。
示例18包括示例15至17中的任一项的装置,其中硬件计数器的阵列包括被组织为硬件计数器的集合相联的阵列的硬件计数器集。
示例19包括示例18的装置,其中电路系统进一步用于:管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
示例20包括示例19的装置,其中电路系统进一步用于:确定对存储器的访问的页地址是否命中硬件计数器集中的条目,如果确定是,则对与页地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值。
示例21包括示例19至20中的任一项的装置,其中电路系统进一步用于:基于驱逐策略从集合相联的阵列中驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最低阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
示例22包括一种设备,包括:用于提供硬件计数器的阵列的装置,以及用于利用硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数的装置。
示例23包括示例22的设备,进一步包括:用于将硬件计数器的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联的装置。
示例24包括示例23的设备,进一步包括:用于如果来自与页地址相关联的计数器的计数器值达到阈值计数值则自动提供页地址和来自相关联的计数器的计数器值的报告的装置。
示例25包括示例22至24中的任一项的设备,进一步包括:用于将硬件计数器集中的硬件计数器的阵列组织为硬件计数器的集合相联的阵列的装置。
示例26包括示例25的设备,进一步包括:用于管理一个或多个配置寄存器以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个的装置。
示例27包括示例26的设备,进一步包括:用于确定对存储器的访问的页地址是否命中硬件计数器集中的条目的装置,以及用于如果确定是则对与页地址相关联的计数器地址被存储在一个或多个配置寄存器中的增量值的装置,以及用于如果来自与页地址相关联的计数器的计数器值超过最大阈值则提供页地址和相关联的计数器的计数器值的报告的装置。
示例28包括示例26至27中的任一项的设备,进一步包括:用于确定对存储器的访问的页地址是否在硬件计数器集中未命中的装置;用于如果确定是则向页地址分配和初始化空闲计数器的装置;以及用于如果没有可用的空闲计数器则基于驱逐策略从集合相联的阵列驱逐页地址的装置,以及用于如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值则提供被驱逐页地址和来自相关联的计数器的计数器值的报告的装置。
示例29包括至少一种非暂态机器可读介质,包括多个指令,该指令响应于在计算设备上被执行而使计算设备用于:提供硬件计数器的阵列,以及利用硬件计数器的阵列对应对存储器的一个或多个所选择页的访问计数。
示例30包括示例29的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:将硬件计数器的阵列中的所选择计数器与一个或多个所选择页的相应页地址相关联。
示例31包括示例30的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供页地址和来自相关联的计数器的计数器值的报告。
示例32包括示例29至31中的任一项的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:将硬件计数器集中的硬件计数器的阵列组织为硬件计数器的集合相联的阵列。
示例33包括示例32的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
示例34包括示例33的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:确定对存储器的访问的页地址是否命中硬件计数器集中的条目,如果确定是,则对与页地址相关联的计数器递增被存储在一个或多个配置寄存器中的增量值,并且如果来自与页地址相关联的计数器的计数器值超过最大阈值,则提供页地址和相关联的计数器的计数器值的报告。
示例35包括示例33至34中的任一项的至少一种非暂态机器可读介质,包括多个进一步指令,该指令响应于在计算设备上被执行而使计算设备用于:确定对存储器的访问的页地址是否在硬件计数器集中未命中;如果确定是,则向页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,则基于驱逐策略从集合相联的阵列驱逐页地址,并且如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供被驱逐页地址和来自相关联的计数器的计数器值的报告。
本文中描述了用于硬件辅助的存储器访问跟踪的技术和体系结构。在上文描述中,出于解释的目的,阐述了众多特定细节以提供对某些实施例的透彻理解。然而,对本领域技术人员而言将显而易见的是,某些实施例可在无需这些特定细节的情况下实施。在其他实例中,以框图形式示出结构和设备以避免使描述模糊。
在说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书中的不同位置处出现短语“在一个实施例中”不一定全都指同一个实施例。
本文中的详细描述的一些部分在对计算机存储器内的数据比特的操作的算法和符号表示方面来呈现。这些算法描述和表示是计算机领域内技术人员使用的手法,它最有效地将其工作本质传达给本领域内其他技术人员。算法在本文中被一般地构思成达到所需结果的自洽步骤序列。这些步骤是需要对物理量进行物理操纵的那些步骤。通常但非必要地,这些量采用能够被存储、传输、组合、比较、以及以其他方式操纵的电信号或磁信号的形式。主要出于常见用途的理由,将这些信号称为比特、值、元素、符号、字符、项、数字等已被证明有时是方便的。
然而,应当铭记,所有这些和类似术语都与适当的物理量相关联,并且仅仅是应用于这些量的方便标示。除非以其他方式明确陈述,否则如从本文的讨论中显而易见的,要领会贯穿说明书,利用诸如“处理”或“计算”或“运算”或“确定”或“显示”等术语的讨论,是指计算机系统或类似电子计算设备的动作和进程,该计算机系统或类似电子计算设备操纵在该计算机系统的寄存器和存储器内被表示为物理(电子)量的数据并将其转换成在该计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内类似地被表示为物理量的其他数据。
某些实施例还关于用于执行本文中的操作的装置。该装置可专门构造来用于所需目的,或其可包括通用计算机,该通用计算机由存储在该计算机中的计算机程序有选择地激活或重新配置。此类计算机程序可以存储在计算机可读存储介质中,这些计算机可读存储介质诸如但不限于任何类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)(诸如,动态RAM(dynamic RAM,DRAM))、EPROM、EEPROM、磁卡或光卡、或适用于存储电子指令且耦合至计算机系统总线的任何类型的介质。
本文中呈现的算法和显示并非固有地与任何特定计算机或其他装置相关。可以将各种通用系统与根据本文中的教导的程序一起使用,或可以证明构造更专门的装置来执行所要求的方法步骤是方便的。用于各种这些系统的所需结构将从本文中的描述呈现。此外,某些实施例不是参考任何特定编程语言来描述的。将会领会,可以使用各种编程语言来实现本文所描述的此类实施例的教导。
除了本文中所描述的内容,可对所公开的实施例及其实现方式作出各种修改而不背离其范围。因此,本文中的说明和示例应当被解释成说明性的,而非限制性的。本发明的范围应当仅通过参照所附权利要求书来界定。

Claims (21)

1.一种集成电路,包括:
硬件计数器的阵列;以及
电路系统,所述电路系统通信地耦合至所述硬件计数器的阵列,所述电路系统用于:
利用所述硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。
2.如权利要求1所述的集成电路,其中,所述电路系统进一步用于:
将所述硬件计数器的阵列中的所选择计数器与所述一个或多个所选择页的相应页地址相关联。
3.如权利要求2所述的集成电路,其中,所述电路系统进一步用于:
如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供所述页地址和来自相关联的计数器的计数器值的报告。
4.如权利要求1所述的集成电路,其中,所述硬件计数器的阵列包括:
被组织为硬件计数器的集合相联的阵列的硬件计数器集。
5.如权利要求4所述的集成电路,其中,所述电路系统进一步用于:
管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
6.如权利要求5所述的集成电路,其中,所述电路系统进一步用于:
确定对所述存储器的访问的页地址是否命中所述硬件计数器集中的条目;并且如果确定是,
则对与所述页地址相关联的计数器递增被存储在所述一个或多个配置寄存器中的所述增量值;并且
如果来自与所述页地址相关联的计数器的计数器值达到最大阈值,则提供所述页地址和来自相关联的计数器的计数器值的报告。
7.如权利要求5所述的集成电路,其中,所述电路系统进一步用于:
确定对所述存储器的访问的页地址是否在所述硬件计数器集中未命中;并且如果确定是,
则向所述页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,
则基于驱逐策略从所述集合相联的阵列驱逐页地址;并且
如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供所述被驱逐页地址和来自相关联的计数器的计数器值的报告。
8.一种方法,包括:
提供硬件计数器的阵列;以及
利用所述硬件计数器的阵列对于对存储器的一个或多个所选择页的访问计数。
9.如权利要求8所述的方法,进一步包括:
将所述硬件计数器的阵列中的所选择计数器与所述一个或多个所选择页的相应页地址相关联。
10.如权利要求9所述的方法,进一步包括:
如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供所述页地址和来自相关联计数器的计数器值的报告。
11.如权利要求8所述的方法,进一步包括:
将硬件计数器集中的所述硬件计数器的阵列组织为硬件计数器的集合相联的阵列。
12.如权利要求11所述的方法,进一步包括:
管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
13.如权利要求12所述的方法,进一步包括:
确定对所述存储器的访问的页地址是否命中所述硬件计数器集中的条目;并且如果确定是,
则对与所述页地址相关联的计数器递增被存储在所述一个或多个配置寄存器中的所述增量值;并且
如果来自与所述页地址相关联的计数器的计数器值达到最大阈值,则提供所述页地址和来自相关联的计数器的计数器值的报告。
14.如权利要求12所述的方法,进一步包括:
确定对所述存储器的访问的页地址是否在所述硬件计数器集中未命中;并且如果确定是,
则向所述页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,
则基于驱逐策略从所述集合相联的阵列驱逐页地址;并且
如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供所述被驱逐页地址和来自相关联的计数器的计数器值的报告。
15.一种装置,包括:
核心;
存储器,通信地耦合至所述核心;以及
硬件计数器的阵列;以及
电路系统,通信地耦合至所述核心、所述存储器和所述硬件计数器的阵列,所述电路系统用于:
利用所述硬件计数器的阵列对于对所述存储器的一个或多个所选择页的访问计数。
16.如权利要求15所述的装置,其中,所述电路系统进一步用于:
将所述硬件计数器的阵列中的所选择计数器与所述一个或多个所选择页的相应页地址相关联。
17.如权利要求16所述的装置,其中,所述电路系统进一步用于:
如果来自与页地址相关联的计数器的计数器值达到阈值计数值,则自动提供所述页地址和来自相关联的计数器的计数器值的报告。
18.如权利要求15所述的装置,其中,所述硬件计数器的阵列包括:
被组织为硬件计数器的集合相联的阵列的硬件计数器集。
19.如权利要求18所述的装置,其中,所述电路系统进一步用于:
管理一个或多个配置寄存器,以存储所选择地址范围信息、增量值、上限阈值计数值和下限阈值计数值中的一个或多个。
20.如权利要求19所述的装置,其中,所述电路系统进一步用于:
确定对所述存储器的访问的页地址是否命中所述硬件计数器集中的条目;并且如果确定是,
则对与所述页地址相关联的计数器递增被存储在所述一个或多个配置寄存器中的增量值;并且
如果来自与所述页地址相关联的计数器的计数器值达到最大阈值,则提供所述页地址和来自相关联的计数器的计数器值的报告。
21.如权利要求19所述的装置,其中,所述电路系统进一步用于:
确定对所述存储器的访问的页地址是否在所述硬件计数器集中未命中;并且如果确定是,
则向所述页地址分配和初始化空闲计数器;以及如果没有可用的空闲计数器,
则基于驱逐策略从所述集合相联的阵列驱逐页地址;并且
如果来自与被驱逐页地址相关联的计数器的计数器值超过最小阈值计数值,则提供所述被驱逐页地址和来自相关联的计数器的计数器值的报告。
CN202180096328.6A 2021-03-25 2021-03-25 硬件辅助的存储器访问跟踪 Pending CN117083599A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/082935 WO2022198552A1 (en) 2021-03-25 2021-03-25 Hardware assisted memory access tracking

Publications (1)

Publication Number Publication Date
CN117083599A true CN117083599A (zh) 2023-11-17

Family

ID=83396120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180096328.6A Pending CN117083599A (zh) 2021-03-25 2021-03-25 硬件辅助的存储器访问跟踪

Country Status (4)

Country Link
US (1) US20240134803A1 (zh)
CN (1) CN117083599A (zh)
DE (1) DE112021007374T5 (zh)
WO (1) WO2022198552A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395527B2 (en) * 2003-09-30 2008-07-01 International Business Machines Corporation Method and apparatus for counting instruction execution and data accesses
US7257657B2 (en) * 2003-11-06 2007-08-14 International Business Machines Corporation Method and apparatus for counting instruction execution and data accesses for specific types of instructions
US7114036B2 (en) * 2004-01-14 2006-09-26 International Business Machines Corporation Method and apparatus for autonomically moving cache entries to dedicated storage when false cache line sharing is detected

Also Published As

Publication number Publication date
WO2022198552A1 (en) 2022-09-29
US20240134803A1 (en) 2024-04-25
DE112021007374T5 (de) 2024-03-07

Similar Documents

Publication Publication Date Title
US9921972B2 (en) Method and apparatus for implementing a heterogeneous memory subsystem
US11030108B2 (en) System, apparatus and method for selective enabling of locality-based instruction handling
US10496551B2 (en) Method and system for leveraging non-uniform miss penality in cache replacement policy to improve processor performance and power
CN111164581A (zh) 用于修补页的系统、方法和装置
US11531562B2 (en) Systems, methods, and apparatuses for resource monitoring
US10482017B2 (en) Processor, method, and system for cache partitioning and control for accurate performance monitoring and optimization
CN111913891A (zh) 用于减少两级式存储器中的目录更新开销的混合式基于目录和监听的一致性
US10657070B2 (en) Apparatus and method for shared least recently used (LRU) policy between multiple cache levels
US10013352B2 (en) Partner-aware virtual microsectoring for sectored cache architectures
US11954356B2 (en) Apparatus, method, and system for collecting cold pages
US20180121353A1 (en) System, method, and apparatus for reducing redundant writes to memory by early detection and roi-based throttling
EP4020228B1 (en) Device, system and method for selectively dropping software prefetch instructions
US20220197794A1 (en) Dynamic shared cache partition for workload with large code footprint
US20240134803A1 (en) Hardware assisted memory access tracking
US20230093247A1 (en) Memory access tracker in device private memory
US20230315632A1 (en) Two-stage cache partitioning
US20220197797A1 (en) Dynamic inclusive last level cache
US20240152448A1 (en) Inter-cluster shared data management in sub-numa cluster
WO2022266828A1 (en) Architectural extensions for memory mirroring at page granularity on demand
US20220197798A1 (en) Single re-use processor cache policy
EP4315084A1 (en) Pasid granularity resource control for iommu
CN114691551A (zh) 自动化转换后备缓冲器集合再平衡

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination