CN114661625A - 处理器核高速缓存内的推测性解压缩 - Google Patents

处理器核高速缓存内的推测性解压缩 Download PDF

Info

Publication number
CN114661625A
CN114661625A CN202111397430.8A CN202111397430A CN114661625A CN 114661625 A CN114661625 A CN 114661625A CN 202111397430 A CN202111397430 A CN 202111397430A CN 114661625 A CN114661625 A CN 114661625A
Authority
CN
China
Prior art keywords
cache
data
decompression
instruction
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111397430.8A
Other languages
English (en)
Inventor
J·高尔
A·乔汉
V·戈帕尔
V·尚伯格
S·萨布拉蒙尼
W·费格哈利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN114661625A publication Critical patent/CN114661625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • G06F12/0886Variable-length word access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30047Prefetch instructions; cache control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/40Specific encoding of data in memory or cache
    • G06F2212/401Compressed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/602Details relating to cache prefetching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本申请公开了处理器核高速缓存内的推测性解压缩。描述了涉及处理器核高速缓存内的推测性解压缩的方法和装置。在实施例中,解码电路系统将解压缩指令解码为第一微操作和第二微操作。第一微操作引起一个或多个加载操作,以将数据取出到处理器核的高速缓存的多个高速缓存行中。解压缩引擎(DE)电路系统响应于第二微操作而对来自处理器核的高速缓存的多个高速缓存行的所取出的数据进行解压缩。解压缩指令使得DE电路系统执行对多个高速缓存行的乱序解压缩。还公开并要求保护其他实施例。

Description

处理器核高速缓存内的推测性解压缩
技术领域
本公开总体上涉及电子学领域。更具体地,一些实施例涉及用于实现处理器核高速缓存内的推测性解压缩的技术。
背景技术
一般而言,动态随机存取存储器(DRAM)和/或互连带宽限制可能是现有中央处理单元(CPU)核的主要性能瓶颈。这些带宽限制导致去往和来自CPU核的数据传输中的延迟。因此,如果DRAM和/或互连带宽限制被减少或消除,则CPU性能可以大大地提高。
附图说明
因此,为了可详细地理解本文中陈述的当前实施例的特征的方式,可参照实施例进行对实施例的更特定的描述,在所附附图中图示实施例中的一些。然而,应注意的是,所附附图仅图示典型实施例,并且因此不应被视为限制实施例的范围。
图1图示出可在一些实施例中利用的、具有私有高速缓存级别和共享末级高速缓存的处理器的框图。
图2图示出根据实施例的用于解压缩指令的样本操作数。
图3图示出根据实施例的用于解压缩指令的两个样本经解码的操作。
图4图示出根据实施例的处理器核的各种组件的高级别图。
图5图示出根据实施例的、用于提供更靠近于处理器核的解压缩的方法的流程图。
图6示出根据实施例的样本评估结果。
图7A是图示根据实施例的示例性指令格式的框图。
图7B是图示根据一个实施例的指令格式中构成完整操作码字段的字段的框图。
图7C是图示根据一个实施例的指令格式中构成寄存器索引字段的字段的框图。
图7D是图示根据一个实施例的指令格式中构成扩充操作字段的字段的框图。
图8是根据一个实施例的寄存器架构的框图。
图9A是图示根据实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图。
图9B是图示根据实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。
图10图示根据实施例的SOC(芯片上系统)封装的框图。
图11是根据实施例的处理系统的框图。
图12是根据一些实施例的具有一个或多个处理器核的处理器的实施例的框图。
图13是根据实施例的图形处理器的框图。
具体实施方式
在下列描述中,阐述了众多特定细节以便提供对各实施例的全面理解。然而,在没有这些特定细节的情况下,也可实施各实施例。在其他实例中,未详细描述公知的方法、过程、组件和电路,以免使特定实施例变得模糊。此外,各实施例的各方面可使用各种装置来执行,诸如集成半导体电路(“硬件”)、组织成一个或多个程序的计算机可读指令(“软件”)、或硬件与软件的某种组合。出于本公开的目的,对“逻辑”的引用应当意指硬件、软件、固件或它们的某种组合。
如上文所提及,现有处理器或中央处理单元(CPU)核的性能受动态随机存取存储器(DRAM)和/或互连带宽的显著限制。为了放大DRAM或互连带宽,一种有效的方式是减少使用压缩和解压缩向核传输的以及从核传输的数据的量。然而,即使在使用加速器来对压缩/解压缩进行加速时,大的压缩/解压缩等待时间也可能限制此类解决方案的效力。
为此,一些实施例提供关于用于实现处理器核高速缓存内的推测性解压缩的硬件/逻辑的技术。一个或多个实施例允许对数据的推测性解压缩,例如,通过允许对数据的乱序解压缩来代替顺序解压缩而准许大深度的乱序核吸收昂贵的解压缩等待时间。一般而言,为了改善性能,一些处理器利用推测性处理(有时也被称为乱序(OOO)处理器),这些处理器并行地执行程序,并且相比于顺序的过程,这些处理器执行得更快。推测性处理可能会正确地结束或可能不会正确地结束。当其正确时,程序将在相比于采用非推测性处理时更少的时间中执行,由此改善性能并减少等待时间。此外,在实施例中,可以利用新的指令(例如,在指令集架构(ISA)中)使得核能够与解压缩加速器进行通信。
此外,至少一个实施例为处理器或CPU核上的解压缩提供了指令和/或微架构支持。此种ISA扩展在本文中也可被称为解压缩ISA或“DISA”。一个或多个实施例提供了一种硬件-软件协同解决方案,其提出了用于端对端压缩/解压缩解决方案的硬件级低等待时间解压缩解决方案。在至少一个实施例中,所利用的(多条)指令遵循EVEX格式(诸如,参考图7A-图7C所讨论)。然而,实施例不限于EVEX格式,并且任何指令格式可用于实现各种实施例。
各实施例提供去往和来自处理器核的带宽益处,由此不仅减少了DRAM上的压力,也减少了处理器的各种组件(包括一个或多个核、存储器等)之间耦合的互连的压力。实施例包括解压缩加速器,并且在架构上在处理器核的第二级(L2)高速缓存(其也可被可互换地称为中间级别高速缓存或“MLC”)中实现该解压缩加速器。至少一个实施例使得在对数据的每一个高速缓存行(例如,64B,其中“B”是指一个或多个字节)进行解压缩之后对处理器核进行信令。这与可在允许消费或访问经解压缩的数据之前等待完整的数据区块(诸如,页或4KB)被解压缩、由此导致显著的等待时间惩罚的一些方式相反。
相反,一些实现方式可依赖于完全在软件中执行压缩/解压缩,以增强有效的存储器容量。然而,仅软件的解压缩是缓慢且成本高昂的。另外,可使用硬件加速器来对远离于核被存储的数据进行压缩和解压缩。然而,硬件解压缩加速器对大的数据区块进行操作。这样做通常是为了考虑到这些加速器远离于核的大距离来摊薄大的通信等待时间。此类粗粒度的解压缩对于需要以许多较小的对象来工作的应用并不十分有用或高效。
另一方面,作为被公开的部分被提出的解压缩加速器位于核的L2高速缓存处或位于核的L2高速缓存附近(即,更靠近于核)。这通过专用指令实现了核与加速器之间的快速通信。加速器由此可以被设计成用于在每一个高速缓存行(例如,每64B)解压缩完成时向核发信号/对核进行通知,而无须等待区块的剩余部分被解压缩。加速器可通过使用专用信号、用于信令的专用总线、具有完成信息的分组、或改变高速缓存(诸如L1高速缓存或L2高速缓存)中的指定的寄存器或位置的状态位来向核发信号。此种信令还可传达(例如,L2)高速缓存中经解压缩的高速缓存行的地址/位置,或者可包括经解压缩的数据。结果是,核可以向前进展(启用ILP),同时解压缩继续用于要被解压缩的较大块的后续高速缓存行。而且,可以推测性地调用解压缩加速器。通过推测性地调用加速器,解压缩的等待时间可以被处理器的深度乱序窗口隐藏。这两种方式使得一个或多个实施例能够胜过当前现有技术,允许非常靠近于(多个)核的细粒度解压缩。
进一步地,一些实施例可应用于包括诸如参考图1及以下各图讨论的那些处理器之类的一个或多个处理器(例如,其中,该一个或多个处理器可包括一个或多个处理器核)的计算系统中,该计算系统包括例如台式计算机、工作站、计算机服务器、服务器刀片、或移动计算设备。移动计算设备可包括智能电话、平板、UMPC(超移动个人计算机)、膝上型计算机、超级本TM计算设备、可穿戴设备(诸如,智能手表、智能指环、智能手环、或智能眼镜)等。
例如,图1图示出可在一些实施例中利用的、具有私有高速缓存级别和共享末级高速缓存的处理器100的框图。如所示,每个核具有可被保持一致的数个私有高速缓存级别(例如,包括L1和第二级(L2)高速缓存级别(L2高速缓存有时可被称为中间级别高速缓存(MLC)),并且具有可在多个核之间分布的共享末级高速缓存(LLC)。芯片上网络可促进核、L2高速缓存和/或分布式LLC之间的通信。高速缓存有时可以以美元符号($)来表示,诸如在图1中所示出。一般而言,高速缓存一致性以高速缓存块或高速缓存行的粒度来管理。而且,如图1中所示,核可包括L1高速缓存,而L2高速缓存可跨越边界并且被实现为核的部分或被实现在核的外部(如由指示L2高速缓存的任选放置的虚线框所指示)。如图1所示,LLC位于核的外部,并且在多个处理器核之间共享。
解压缩逻辑电路系统/引擎102可被设置在处理器100中的各种位置中。在至少一个实施例中,解压缩逻辑102可处于核中,例如,邻近于或靠近L2高速缓存。然而,实施例不限于此,并且解压缩逻辑102可替代地处于核的外部,例如耦合至芯片上网络、分布式LLC,或者处于核与芯片上网络/分布式LLC之间。
在实施例中,x86 ISA(由英特尔
Figure BDA0003370424300000051
公司提供)被扩展为包括特殊的硬件解压缩指令。当编程人员想要读取或利用已经被压缩的实际数据时,解压缩被执行。当处理器执行解压缩指令(DISA)时,解压缩被触发,该解压缩指令将经压缩的数据带至核的(多个)高速缓存中、使用硬件加速器(即,解压缩逻辑102)对其进行解压缩,硬件加速器将经解压缩的数据存储在L2高速缓存中(或者取决于实现方式和/或数据尺寸,存储在如LLC之类的另一高速缓存中)。在实施例中,解压缩操作被推测性地执行,并且处理器/核继续执行不依赖于经解压缩的数据的指令,由此隐藏了解压缩的等待时间。一旦由核请求的数据(例如,一个或多个高速缓存行)以经解压缩的状态可用,则核可以继续进行并且不等待数据的所有高速缓存行或(多个)数据区块的完整解压缩操作结束。
因此,一些实施例允许处理器以与技术或供应商使用的DRAM和/或互连无关的方式放大DRAM和/或互连的带宽,并且通过缓解存储器和/或互连瓶颈而为处理器提供整体性能增益。通过有效地增加DRAM和/或互连带宽(例如,由于压缩)连同所提出的低等待时间解压缩一起,用户可以帮助降低存储器的数据中心TCO(总拥有成本)。例如,模拟结果示出在带宽敏感性内核上高达2倍的性能,这表示数据中心用例场景。为此,一些实施例解决了存储器瓶颈对处理器性能的限制。以硬件-软件协同的方式使用数据压缩,应用可以实现有效更低的存储器带宽要求。
为了对数据进行压缩,应用标识其目标数据结构并使用可用的压缩算法(诸如DEFLATE)来对其进行压缩。如本文中所讨论,“Deflate”或“DEFLATE”通常是指与压缩编码(例如,根据Lempel-Ziv-Storer-Szymanski(LZSS)和/或哈夫曼(Huffman)编码)结合使用的一种无损数据压缩文件格式。压缩可以在软件中进行或者利用卸载(offload)引擎来完成。一般而言,为了使存储器带宽要求最小化,将对频繁使用的数据来执行压缩。以压缩格式读取频繁使用的数据将有效地降低存储器带宽要求。然而,现在,解压缩等待时间将严重地影响性能。而且,服务器产品也受互连带宽限制,因此根据一些实施例通过互连传输经压缩的数据并尽可能靠近于核来执行低等待时间解压缩是重要的。
为了实现这一点,一个实施例使用靠近于核的专用硬件加速器(例如,解压缩逻辑102)并执行低等待时间解压缩。使用核的流水线中的微架构支持和L2高速缓存处的专用解压缩引擎,DISA实现对正在被解压缩的数据的细粒度、高速缓存行级别的访问。
如下文所讨论,在DISA中存在三种独立流程,如下:
1.ISA扩展——此章节解释硬件解压缩引擎的指令语义和用于在软件中对其进行访问的ISA扩展。
2.软件支持——此章节说明了压缩和解压缩步骤如何被包括在应用代码(例如,用户空间)中。
3.硬件/微架构支持——此章节解释核流水线如何被修改为处置解压缩、以及最终经解压缩的数据如何被递送至用户程序空间中的用户指令。此章节还解释了使用以实现与压缩算法相关联的解压缩函数的解压缩引擎形式的附加硬件实现解压缩的微架构流程。
在该场景中,压缩的一个目的是一直到核而提供带宽节省。这不仅节省存储器带宽,还节省网络/接口带宽。
ISA扩展
图2图示出根据实施例的用于解压缩指令的样本操作数200。图3图示出根据实施例的用于解压缩指令的两个样本经解码操作。使用特殊的硬件解压缩指令,该指令在本文中针对此后的解压缩ISA被称为DISA。它的语义被描述如下:
A.它可以具有至少四个字段——1.源(经压缩的)数据位置202(例如,虚拟存储器地址);2.源数据尺寸204(提供压缩的软件API(应用编程接口)也可以提供经压缩的输出尺寸);3.目的地206(经解压缩的)数据位置(例如,虚拟存储器地址);4.目的地数据尺寸208(被存储在可用的逻辑临时寄存器中的任一者中)。
B.它可以具有如使用消费方位映射之类的其他变型。例如,当考虑以页级别的粒度的压缩时,则对于核中4KB的存储器页和64字节的高速缓存行尺寸,此种位映射可以是64位长的,其信令/指示在解压缩完成之后对于消费方指令/代码而言哪些索引高速缓存行是感兴趣的。替代于位映射或除位映射之外,还可使用位掩码来选择用于解压缩和/或访问的高速缓存行。此种方式可以潜在地改善高速缓存空间管理,使驱逐最小化等。
C.在由处理器的前端(例如,图9的前端930)取出并解码之后,DISA被分成如图3中所示的两个融合的微操作(uop)。第一融合微操作302是加载操作,其为包含要被解压缩的经压缩的数据的所有高速缓存行分派一个或多个加载。这些(多个)加载对存储器进行访问,并将所要求的高速缓存行从DRAM或主存储器(诸如,图10的存储器1060)取出到核高速缓存。第二融合微操作304是存储操作,该存储操作可作为向解压缩引擎102发信号以开始并执行解压缩的宏存储来起作用。与直接去到存储器/DRAM以将待写入的高速缓存行带至核的高速缓存中的传统存储不同,一些实施例使用使得解压缩引擎102产生到核的高速缓存中的未压缩的数据的宏存储“DISA存储”,例如如参考图4进一步所讨论。如图3中所示,加载微操作302可接收操作数202和204,而存储微操作304可接收操作数206和208。
另外,在至少一个实施例中,为了便于实现,可按需要将四操作数指令分解为两条或更多条指令。
软件支持
最初,(例如,由编程人员、设计人员和/或用户)决定哪些数据对象大到足以显著从压缩获益。可压缩性或可用的压缩率也可以是可进入此种决策的因素。经解压缩的数据的活性(即,其是否需要全局地被解压缩并被存储,或者其是否为只要包含该数据的函数在程序栈上存活则该数据存活的临时变量)可能是另一设计选择。实施例对这些选择是正交的且不可知的,仅仅对目标进行操作以进行解压缩,同时遵循先前所描述的架构语义。
一个实施例提供作为静态库导入程序代码中的公共API。该公共API由压缩函数组成,该压缩函数实现给定的或多个压缩算法(如DEFLATE)和针对任何尺寸的给定的数据字节,将这些数据字节压缩在编程人员可访问的对象中,该对象包含经压缩的数据以及用于稍后的解压缩的其他元数据。在实施例中,元数据保持非压缩的,以辅助标识用于解压缩的经压缩部分。可以充当设计此类API和在感兴趣的应用中的对应调用的模板的示例如下:
//大的对象阵列的示例
my_struct*user_data_array=(my_struct*)malloc(sizeof(my_struct)*1024*1024);
initialize_data(user_data_array);
...
//被调用以在软件中对数据进行压缩的API(系统)的示例
COMPRESSED_DATA*compress_user_data(user_data_array,1024*1024,sizeof(my_struct));
此处,“my_struct”是示例应用中、作为压缩的目标的定制的数据结构的类型,并且“COMPRESSED_DATA”是被识别并在稍后用于解压缩的所定义的经压缩的数据结构/格式。
一个实施例提供指向实际经压缩的数据、以及与有多少经压缩的数据需要被解压缩有关的信息的(多个)句柄(有时被称为(多个)指针),所定义的数据结构将保持该(多个)句柄。如上文所讨论,位映射和/或位掩码可用于为解压缩和/或访问选择特定的高速缓存行。
而且,当稍后在程序中(例如,以只读方式)访问属于user_data_array(用户_数据_数组)的原始数据时,可使用如下的另一API函数:
(my_struct*)decompress_user_data(COMPRESSED_DATA*);
//解压缩ISA将在此种函数内被调用(并且任选地,被高速缓存以用于对从同一4KB页读取的多个“structs”进行服务)
此种API解压缩函数与DISA的硬件对应部分相对应。该函数充当对使用该软件API函数之前获得的经压缩的数据对象的输入句柄。但是,代替于像一些基于软件的压缩例程一样在硬件中对其进行解压缩,可使用DISA硬件解压缩指令。由于经压缩的数据对象还包括与压缩有关的元数据,因此其将提供特殊ISA扩展指令所需要的三个主要自变量,即,经压缩的数据的虚拟地址位置、所要求的数据的原始(未压缩的)尺寸、以及在压缩后获得的经压缩的数据尺寸。最后的自变量(参数)(其为经解压缩的数据的虚拟地址位置)可以由编程人员或通过API函数定义在调用此种函数时在程序空间中显式地且局部地创建。
微架构细节
图4图示出根据实施例的处理器核400的各种组件的高级别图。图5图示出根据实施例的、用于提供更靠近于处理器核的解压缩的方法500的流程图。在一个或多个实施例中,如下文进一步讨论,方法500的操作可由图4的一个或多个硬件组件执行。
参考图4,使用上文所提及的API函数、并且在程序空间中与经压缩的数据一起工作的经修改的应用代码在硬件支持下在处理器核400上执行,以提供单纯在硬件中并与软件和操作系统(OS)两者解耦的解压缩。出于解释的目的,假定目标未压缩数据适配于DRAM或主存储器(诸如图10的主存储器1060)中的默认页尺寸(在当今的正常情况下通常为4KB)内。应用代码由一条或多条加载指令组成,该一条或多条加载指令在数据已经被解压缩并被存储到核的高速缓存(例如,L2高速缓存、L1高速缓存和/或LLC高速缓存)中之后读取经解压缩的数据。
参考图4和图5,操作502检测DISA指令(例如,由核408检测)。如在上文ISA扩展章节所讨论,DISA指令的取出和解码将在核的OOO中产生两个融合的微操作(例如,被调度以供OOO调度器402执行——一个融合的微操作用于将经压缩的数据从DRAM加载到重排序缓冲器(ROB)404中的核的(多个)高速缓存中,并且另一个融合的微操作用于将经解压缩的数据存储回到存储器(高速缓存/DRAM)以供后续消费。操作504生成针对DISA指令的宏加载和宏存储操作,并且操作506将DISA指令(或甚至指示解压缩请求的信号)发送至DE 102。如本文中进一步所讨论,操作504和506可由核408的组件执行。以下操作可用于处置DISA宏加载和DISA宏存储,以在硬件406中实现解压缩。
DISA宏加载在其源(例如,经压缩的数据的存储器位置和经压缩数据的存储器尺寸)可用时从OOO调度器402被分派。DISA宏加载可以正常地从核408被分派至非核410,或者可在分派期间被分解为多个加载(诸如,ROB 404中示出的加载(1)、加载(2)、……、加载(x)),这是因为经压缩的数据可取决于经压缩的数据的尺寸而跨越多个高速缓存行。由于OS不知道经压缩的数据的格式并且其存在于程序空间中,因此OS将对应的高速缓存行带至(诸如,任何数据将从与经压缩的数据的虚拟存储器位置相对应的物理页被带至)核随后可以存储并处理的高速缓存行区块中。
DISA宏存储可在DISA宏加载正在从存储器取出数据时被分配。此种分配定时可以提供带宽节省,以实现性能增益。DISA宏存储在其所有的源(即,用于存储经解压缩的数据的存储器地址以及经解压缩的尺寸)可用时进行到从存储缓冲器(SB)412被分派至非核410。在从SB 412被分派之后,DISA宏存储420被解压缩引擎(DE)或逻辑102捕获/保持,直到解压缩完成(即414)。类似地,所分派的消费方加载422保持在如由其匹配SB标识符(ID)所标识的DE 102中(即,414)。
如图4中所示,解压缩逻辑/引擎102在L2高速缓存(216)级别处操作,并使用L2高速缓存的高速缓存行作为其临时存储或暂存器424。图5的操作分配(例如,L2)高速缓存中的空间用于解压缩目的。例如,DE102可保留L2高速缓存426中必要数量的高速缓存行(例如,取决于经解压缩的数据的尺寸)并防止它们在解压缩逻辑/引擎102完成对经压缩的数据的解压缩之前被访问、修改或驱逐(例如,通过将这些高速缓存行标记为不可高速缓存的)。(例如,由DE逻辑102和/或高速缓存控制器或耦合至L2高速缓存426的其他逻辑执行的)操作510确定是否存在充足的空间用于解压缩数据,并且如果要求驱逐,则操作512从L2高速缓存驱逐一个或多个高速缓存行(例如,基于最近最少使用(LRU)算法或另一算法)。否则,如果不要求驱逐,则DE逻辑102在L2高速缓存中所分配的暂存器424中执行解压缩。
一旦完成经解压缩的高速缓存行的加载,则在操作516处,DE102对该(多个)等待的加载进行匹配并提供写回(WB)数据,例如用于在存储器428中的存储。使用L2高速缓存的一个原因在于,L2高速缓存相比于L1显著更大,并且由此可以在支持与标准的非压缩逻辑/引擎102有关的(多个)高速缓存行管理操作的同时保留其容量中的空间。这还可以潜在地放大DISA操作,以在解压缩引擎102中支持同时发生多个解压缩。然而,实施例不限于使用L2高速缓存用于这些目的,并且可取决于实现方式而使用其他高速缓存级别(诸如,L1和/或LLC)。
此外,访问经解压缩的数据区域的所有后续的消费方加载430(例如,按程序顺序)可在OOO调度器402和加载缓冲器(LB)432中被分配,并且DISA宏存储尚未完成并且正在占用存储缓冲器(SB)412中的条目。在DISA宏存储完成并写回428之前,存在于核中的存储器消歧逻辑(未示出)阻止这些需求被分派至非核。由于通过DISA宏存储与这些有关加载之间的消歧检测到的虚拟地址区域重叠而发生此种阻止。其他不相关的/更年轻的加载(它们可能与经解压缩的数据无关)将不被阻止并且可以进行。
而且,DISA宏存储在其源准备就绪时更新其在SB 412中的目的地/写入虚拟地址区域,SB 412可由如上文所提及的任何依赖于存储器的更年轻的存储操作使用。在“准备就绪”信号从解压缩逻辑/引擎102(已经使解压缩逻辑/引擎102连接至SB)被接收之前,DISA-SB条目继续阻止更年轻的加载。其随后将数据传输至L2高速缓存(由于其被标记为在L1中不可高速缓存的),并且解压缩逻辑/引擎102标识与DISA有关的存储请求并设置其状态变量(跟踪DISA-SB-ID以使活跃的DISA分离)以发起解压缩。使用经解压缩的尺寸,其计算写回经解压缩的数据需要多少高速缓存行,并且驱逐(例如,使用LRU(最近最少使用)算法)所要求数量的高速缓存行,以将其保留为排他性地用于解压缩逻辑/引擎102的输出,如参照操作510和512所讨论。L2高速缓存还可将这些高速缓存行标记为不可由核408访问的,并且解压缩逻辑/引擎102可存储这些高速缓存行映射的索引(例如,组/路)。
当解压缩逻辑/引擎102开始解压缩时(该解压缩可能既取决于压缩算法又取决于所使用的解压缩级别而花费多个周期),其向SB 412发出确认信号,以通过使用DISA SB ID作为排他性条件在消歧逻辑中绕过等待的加载来对这些等待的加载解除阻止。因此,更年轻的消费方加载被解除阻止以进行消歧并被发出。
此外,与DISA SB匹配的消费方加载可携载SB ID与其一起,或者以其他方式与SBID相关联。在实施例中,这些消费方加载被标记为在L1中不可高速缓存的加载并且不会对L1高速缓存进行查找,而是直接到达L2高速缓存。解压缩逻辑/引擎102检测/捕捉这些加载并向其提供MLC中的查找途径(使用由解压缩逻辑/引擎102在其执行其保留时记录的源加载地址和经解压缩的地址区域到L2保留的高速缓存行的映射)。加载随后从MLC读取经解压缩的数据。如果该高速缓存行尚未被写入,则加载在此处被阻止,并且将仅在解压缩逻辑/引擎102完成其过程并利用针对该加载的、用于继续到其对应的高速缓存行的信号来写回数据时完成写回。最终,解压缩逻辑/引擎102将完成其活跃DISA,并且至此,所有的加载将已经接收到所要求的数据并将在被发送回到核时写回到其目的地寄存器。解压缩逻辑/引擎102随后将信号最终发送回到对应的SB ID,并将其状态写回为完成(即,428处所示)。
当DISA宏存储成为SB 412的头部时并且能够在写回后引退时,其成为年长的。DISA宏存储最终在其SB被解除分配时被分派至非核410。解压缩逻辑/引擎102识别年长状态的存储请求并对保留的存储器解除保留——使对应的高速缓存行从“对于解压缩逻辑/引擎102私有的”成为“对于核公用的”。针对推测性地执行的解压缩操作,操作518确定推测是否正确,并且如果是则进行提交并使数据在L2高速缓存中可见;否则,L2高速缓存中所分配的暂存器被释放/被无效。而且,DE逻辑102还通过向DRAM或主存储器(诸如,图10的存储器1060)发出(例如,多个)年长的存储来将最终经压缩的数据写回到存储器(即,428处所示)。在实施例中,一旦DISA指令在ROB404中被提交,则原子存储被执行以将数据写回,并且L2高速缓存中分配的空间被释放。此种延迟的到存储器的写回是另一种优化,其中对应的(多个)更年轻的加载可以直接获得经解压缩的数据,而不必一直走到核408。其充当针对所涉及的加载在L2处的绕过。在实施例中,如果在解压缩期间存在错误,则暂存器424将被丢弃,并且OS故障将被发出以对其进行纠正。另外,尽管由DISA触发的加载和存储操作可能看起来像一个原子加载和一个原子存储,但可如上文所讨论的进行一系列加载和存储操作。
性能总结
图6示出根据实施例的样本评估结果。图6中示出的评估数据是相对于假想的下一代OOO架构例如在受约束存储器带宽场景中被评估的。对两个内核进行跟踪以用于分析,一个内核模仿在服务器上运行的样本数据库。另一内核是用于计算约束的内核的代理。如可以看出,位于MLC(20个周期的通信等待时间)旁边的DISA引擎可以潜在地提供对性能的显著提升(超过2倍的IPC(每周期的指令)增益)。此外,类似地建立的、远得多(例如,在网格互连上)的解压缩加速器的性能具有高得多的启动等待时间。意料之中地,来自此类遥远的加速器的性能增益被显著降低。结果清楚地表明如由一个或多个实施例所公开的那样通过互连读取经压缩的数据、并使用低等待时间技术来对其进行解压缩的潜在优势。
指令集
指令集可包括一种或多种指令格式。给定的指令格式可定义各种字段(例如,位的数量、位的位置)以指定要执行的操作(例如,操作码)以及将对其执行该操作的(多个)操作数和/或(多个)其他数据字段(例如,掩码),等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有该指令格式的字段(所包括的字段通常按照相同顺序,但是至少一些字段因为较少的字段被包括而具有不同的位的位置)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。由此,ISA的每一条指令使用给定的指令格式(并且如果被定义,则按照该指令格式的指令模板中的给定的一个指令模板)来表达,并包括用于指定操作和操作数的字段。例如,示例性ADD(加法)指令具有特定的操作码和指令格式,该特定的指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段;并且该ADD指令在指令流中出现将使得在操作数字段中具有选择特定操作数的特定的内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)并且使用向量扩展(VEX)编码方案的SIMD扩展集(例如,参见2014年9月的
Figure BDA0003370424300000131
64和IA-32架构软件开发者手册;并且参见2014年10月的
Figure BDA0003370424300000141
高级向量扩展编程参考)。
示例性指令格式
本文中所描述的(多条)指令的实施例能以不同格式来具体化。此外,在下文中详述示例性系统、架构和流水线。(多条)指令的实施例可在此类系统、架构和流水线上执行,但是不限于详述的那些系统、架构和流水线。
尽管将描述其中向量友好指令格式支持以下情况的实施例:64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16个双字尺寸的元素组成,或者替代地由8个四字尺寸的元素组成);64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸);32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或尺寸);以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸);但是替代实施例可支持更大、更小和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图7A是图示根据实施例的示例性指令格式的框图。图7A示出指令格式700,其指定各字段的位置、尺寸、解释和次序、以及那些字段中的一些字段的值,在这个意义上,该指令格式700是专用的。指令格式700可用于扩展x86指令集,并且由此字段中的一些字段与在现有的x86指令集及其扩展(例如,AVX)中所使用的那些字段类似或相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段和立即数字段一致。
EVEX前缀(字节0-3)702——以四字节形式进行编码。
格式字段782(EVEX字节0,位[7:0])——第一字节(EVEX字节0)是格式字段782,并且它包含0x62(在一个实施例中,为用于区分向量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段705(EVEX字节1,位[7-5])-由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(757BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应的VEX位字段相同的功能,并且使用1补码的形式进行编码,即,ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低的三个位(rrr、xxx和bbb)进行编码,使得可通过对EVEX.R、EVEX.X和EVEX.B相加来形成Rrrr、Xxxx和Bbbb。
REX’字段710——这是EVEX.R’位字段(EVEX字节1,位[4]-R’),其用于对扩展的32个寄存器的集合的较高的16个或较低的16个进行编码。在一个实施例中,该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分,但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11;替代实施例不以反转的格式存储该位以及下文中其他指示的位。值1用于对较低的16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R以及来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段715(EVEX字节1,位[3:0]–mmmm)–其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。
数据元素宽度字段764(EVEX字节2,位[7]–W)-由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持多个数据元素宽度,则该字段是不需要的,在这个意义上,该字段是任选的。
EVEX.vvvv 720(EVEX字节2,位[6:3]-vvvv)-EVEX.vvvv的作用可包括如下:1)EVEX.vvvv对以反转(1补码)形式指定的第一源寄存器操作数进行编码,并且对具有两个或更多个源操作数的指令有效;2)EVEX.vvvv对针对特定向量位移以1补码的形式指定的目的地寄存器操作数进行编码;或者3)EVEX.vvvv不对任何操作数进行编码,该字段被预留,并且应当包含1111b。由此,EVEX.vvvv字段720对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。
EVEX.U 768类字段(EVEX字节2,位[2]-U)——如果EVEX.U=0,则它指示A类(支持合并-写掩码)或EVEX.U0;如果EVEX.U=1,则它指示B类(支持归零和合并-写掩码)或EVEX.U1。
前缀编码字段725(EVEX字节2,位[1:0]-pp)-提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀仅需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式两者的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码成SIMD前缀编码字段;并且在运行时在被提供给解码器的PLA之前被扩展成传统SIMD前缀(因此,在无需修改的情况下,PLA既可执行传统格式的这些传统指令又可执行EVEX格式的这些传统指令)。虽然较新的指令可将EVEX前缀编码字段的内容直接用作操作码扩展,但是为了一致性,某些实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定的不同含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码,并且由此不需要扩展。
α字段753(EVEX字节3,位[7]–EH;也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α图示)——其内容区分要执行不同的扩充操作类型中的哪一扩充操作类型。
β字段755(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也以βββ图示)——区分要执行操作中的具有指定类型的哪些操作。
REX’字段710-这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低的16个寄存器进行编码。换言之,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段771(EVEX字节3,位[2:0]-kkk)——其内容指定写掩码寄存器中的寄存器索引。在一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这能以各种方式实现,包括使用硬连线为全部为一的写掩码或者绕过掩码硬件的硬件来实现)。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零;在一个实施例中,目的地的元素在对应掩码位具有0值时被设置为0。该功能的子集是控制正在被执行的操作的向量长度的能力(即,从第一个到最后一个正在被修改的元素的跨度);然而,被修改的元素不一定要是连续的。由此,写掩码字段771允许部分向量操作,包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段771的内容选择多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此写掩码字段771的内容间接地标识要执行的掩码)的实施例,但是替代实施例相反或另外允许掩码写字段771的内容直接地指定要执行的掩码。
实操作码字段730(字节4)还被称为操作码字节。操作码的部分在该字段中被指定。
MOD R/M字段740(字节5)包括MOD字段742、寄存器索引字段744、以及R/M字段746。MOD字段742的内容将存储器访问操作和非存储器访问操作区分开。寄存器索引字段744的作用可以被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展,并且不用于对任何指令操作数进行编码。寄存器索引字段744的内容直接地或通过地址生成来指定源操作数和目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。尽管在一个实施例中N可多达三个源寄存器和一个目的地寄存器,但是替代实施例可支持更多或更少的源寄存器和目的地寄存器(例如,可支持多达两个源,其中这些源中的一个还用作目的地;可支持多达三个源,其中这些源中的一个还用作目的地;可支持多达两个源和一个目的地)。
R/M字段746的作用可包括下列各项:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)——比例字段750的内容允许用于存储器地址生成(例如,用于使用2比例*索引+基址的地址生成)的索引字段的内容的按比例缩放。SIB.xxx 754和SIB.bbb 756——先前已经就寄存器索引Xxxx和Bbbb引用了这些字段的内容。
位移字段763A(字节7-10)——当MOD字段742包含10时,字节7-10是位移字段763A,并且它与传统32位位移(disp32)一样地工作,并且以字节粒度工作。这可被用作存储器地址生成的部分(例如,用于使用2比例*索引+基址+位移的地址生成)。
位移因数字段763B(字节7)-当MOD字段742包含01时,字节7是位移因数字段763B。该字段的位置与以字节粒度工作的传统x86指令集8位位移(disp8)的位置相同。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段763B是disp8的重新解释;当使用位移因数字段763B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。此类经压缩的位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此地址偏移的冗余低阶位不需要被编码。换句话说,位移因数字段763B替代传统x86指令集8位位移。由此,位移因数字段763B以与x86指令集8位位移相同的方式被编码(因此,在ModRM/SIB编码规则中没有变化),唯一的不同在于,将disp8超载至disp8*N。换句话说,在编码规则或编码长度方面没有变化,而仅在有硬件对位移值的解释方面有变化(这需要将位移按比例缩放存储器操作数的尺寸以获得字节式地址偏移)。
立即数字段772允许对立即数的指定。该字段在不支持立即数的通用向量友好格式的实现方式中不存在且在不使用立即数的指令中不存在,在这个意义上,该字段是任选的。
完整操作码字段
图7B是图示根据一个实施例的指令格式700中构成完整操作码字段774的字段的框图。具体地,完整操作码字段774包括格式字段782、基础操作字段743和数据元素宽度(W)字段763。基础操作字段743包括前缀编码字段725、操作码映射字段715和实操作码字段730。
寄存器索引字段
图7C是图示根据一个实施例的格式700中构成寄存器索引字段745的字段的框图。具体地,寄存器索引字段745包括REX字段705、REX’字段710、MODR/M.reg字段744、MODR/M.r/m字段746、VVVV字段720、xxx字段754和bbb字段756。
扩充操作字段
图7D是图示根据一个实施例的指令格式700中构成扩充操作字段的字段的框图。当类(U)字段768包含0时,它表明EVEX.U0(A类768A);当它包含1时,它表明EVEX.U1(B类768B)。当U=0且MOD字段742包含11(表明无存储器访问操作)时,α字段753(EVEX字节3,位[7]–EH)被解释为rs字段753A。当rs字段753A包含1(舍入753A.1)时,β字段755(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段755A。舍入控制字段755A包括一位SAE字段796和两位舍入操作字段798。当rs字段753A包含0(数据变换753A.2)时,β字段755(EVEX字节3,位[6:4]–SSS)被解释为三位数据变换字段755B。当U=0且MOD字段742包含00、01或10(表明存储器访问操作)时,α字段753(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段753B且β字段755(EVEX字节3,位[6:4]–SSS)被解释为三位数据操纵字段755C。
当U=1时,α字段753(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段753C。当U=1且MOD字段742包含11(表明无存储器访问操作)时,β字段755的部分(EVEX字节3,位[4]–S0)被解释为RL字段757A;当它包含1(舍入757A.1)时,β字段755的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段759A,而当RL字段757A包含0(VSIZE 757.A2)时,β字段755的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段759B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段742包含00、01或10(表明存储器访问操作)时,β字段755(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段759B(EVEX字节3,位[6-5]–L1-0)和广播字段757B(EVEX字节3,位[4]–B)。
示例性寄存器架构
图8是根据一个实施例的寄存器架构800的框图。在所图示的实施例中,存在32个512位宽的向量寄存器810;这些寄存器被引用为ZMM0到ZMM31。较低的16个ZMM寄存器的较低阶的256个位覆盖在寄存器YMM0-16上。较低的16个ZMM寄存器的较低阶的128个位(YMM寄存器的较低阶的128个位)覆盖在寄存器XMM0-15上。换句话说,向量长度字段759B在最大长度与一个或多个其他较短长度之间进行选择,其中每一个此类较短长度是前一长度的一半;并且不具有向量长度字段759B的指令模板在最大向量长度上操作。此外,在一个实施例中,指令格式700的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据进行操作。标量操作是对ZMM/YMM/XMM寄存器中的最低阶数据元素位置执行的操作;取决于实施例,较高阶数据元素位置要么保持与在指令之前相同,要么归零。
写掩码寄存器815——在所图示的实施例中,存在8个写掩码寄存器(k0到k7),每个写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存器815的尺寸是16位。在一些实施例中,向量掩码寄存器k0无法用作写掩码;当将正常指示k0的编码用于写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地对那条指令禁用写掩码。
通用寄存器825——在所图示的实施例中,存在十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器堆(x87栈)845,在其上面重叠了MMX紧缩整数平坦寄存器堆850——在所图示的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈;而MMX寄存器用于对64位紧缩整数数据执行操作,以及为在MMX和XMM寄存器之间执行的一些操作保存操作数。
替代实施例可以使用更宽的或更窄的寄存器。另外,替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。
示例性核架构、处理器和计算机架构
处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如,此类核的实现方式可包括:1)旨在用于通用计算的通用有序核;2)旨在用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现方式可包括:1)CPU(中央处理单元),其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核;以及2)协处理器,其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,这些计算机系统架构可包括:1)在与CPU分开的芯片上的协处理器;
2)在与CPU相同的封装中但在分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,此类协处理器有时被称为专用逻辑或被称为专用核,该专用逻辑诸如,集成图形和/或科学(吞吐量)逻辑);以及4)芯片上系统,其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
图9A是图示根据实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图。图9B是图示根据实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。图9A-图9B中的实线框图示有序流水线和有序核,而虚线框的任选的增加图示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集,将描述乱序方面。
在图9A中,处理器流水线900包括取出级902、长度解码级904、解码级906、分配级908、重命名级910、调度(也被称为分派或发布)级912、寄存器读取/存储器读取级914、执行级916、写回/存储器写入级918、异常处置级922和提交级924。
图9B示出处理器核990,该处理器核990包括前端单元930,该前端单元930耦合至执行引擎单元950,并且前端单元930和执行引擎单元950两者都耦合至存储器单元970。核990可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项,核990可以是专用核,诸如例如,网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核,等等。
前端单元930包括分支预测单元932,该分支预测单元932耦合至指令高速缓存单元934,该指令高速缓存单元934耦合至指令转换后备缓冲器(TLB)936,该指令转换后备缓冲器936耦合至指令取出单元938,该指令取出单元938耦合至解码单元940。解码单元940(或解码器)可对指令解码,并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现。合适的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核990包括用于存储某些宏指令的微代码的微代码ROM或其他介质(例如,在解码单元940中或以其他方式在前端单元930内)。解码单元940耦合至执行引擎单元950中的重命名/分配器单元952。
执行引擎单元950包括重命名/分配器单元952,该重命名/分配器单元952耦合至引退单元954和一个或多个调度器单元的集合956。(多个)调度器单元956表示任何数量的不同调度器,包括预留站、中央指令窗等。(多个)调度器单元956耦合至(多个)物理寄存器堆单元958。(多个)物理寄存器堆单元958中的每个物理寄存器堆单元表示一个或多个物理寄存器堆,其中不同的物理寄存器堆存储一种或多种不同的数据类型,诸如,标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点、状态(例如,作为要执行的下一条指令的地址的指令指针)等。在一个实施例中,(多个)物理寄存器堆单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元958由引退单元954重叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(多个)重排序缓冲器和(多个)引退寄存器堆;使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆;使用寄存器映射和寄存器池,等等)。引退单元954和(多个)物理寄存器堆单元958耦合至(多个)执行集群960。(多个)执行集群960包括一个或多个执行单元的集合962以及一个或多个存储器访问单元的集合964。执行单元962可执行各种操作(例如,移位、加法、减法、乘法)并可对各种数据类型(例如,标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元956、(多个)物理寄存器堆单元958和(多个)执行集群960示出为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线,和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行集群具有(多个)存储器访问单元964的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余流水线可以是有序的。
存储器访问单元的集合964耦合至存储器单元970,该存储器单元970包括数据TLB单元972,该数据TLB单元972耦合至数据高速缓存单元974,该数据高速缓存单元974耦合至第二级(L2)高速缓存单元976。在一个示例性实施例中,存储器访问单元964可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合至存储器单元970中的数据TLB单元972。指令高速缓存单元934进一步耦合至存储器单元970中的第二级(L2)高速缓存单元976。L2高速缓存单元976耦合至一个或多个其他级别的高速缓存,并最终耦合至主存储器。
作为示例,示例性寄存器重命名的、乱序发布/执行核架构可如下所述地实现流水线900:1)指令取出938执行取出级902和长度解码级904;2)解码单元940执行解码级906;3)重命名/分配器单元952执行分配级908和重命名级910;4)(多个)调度器单元956执行调度级912;5)(多个)物理寄存器堆单元958和存储器单元970执行寄存器读取/存储器读取级914;执行群集960执行执行级916;6)存储器单元970和(多个)物理寄存器堆单元958执行写回/存储器写入级918;7)各单元可涉及异常处置级922;以及8)引退单元954和(多个)物理寄存器堆单元958执行提交级924。
核990可支持一个或多个指令集(例如,x86指令集(具有已与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展)),其中包括本文中描述的(多条)指令。在一个实施例中,核990包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。
图10图示出根据实施例的SOC封装的框图。如图10中所图示,SOC 1002包括一个或多个中央处理单元(CPU)核1020、一个或多个图形处理器单元(GPU)核1030、输入/输出(I/O)接口1040以及存储器控制器1042。可将SOC封装1002的各组件耦合至诸如本文中参考其他附图所讨论的互连或总线。另外,SOC封装1002可包括更多或更少的组件,诸如本文中参考其他附图所讨论的那些组件。进一步地,SOC封装1002的每个组件可包括一个或多个其他组件,例如,如参考本文中的其他附图所讨论的组件。在一个实施例中,在一个或多个集成电路(IC)管芯上提供SOC封装1002(以及其组件),例如,该一个或多个集成电路管芯被封装到单个半导体设备中。
如图10中所图示,SOC封装1002经由存储器控制器1042耦合至存储器1060。在实施例中,存储器1060(或其部分)可以被集成在SOC封装1002上。
I/O接口1040可例如经由诸如本文中参考其他附图所讨论的互连和/或总线而耦合至一个或多个I/O设备1070。(多个)I/O设备1070可包括以下各项中的一项或多项:键盘、鼠标、触摸板、显示器、图像/视频捕捉设备(诸如相机或摄像机/视频录像机)、触摸屏、扬声器等等。
图11是根据实施例的处理系统1100的框图。在各种实施例中,系统1100包括一个或多个处理器1102以及一个或多个图形处理器1108,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器1102或处理器核1107的服务器系统。在一个实施例中,系统1100是被并入到在移动设备、手持式设备或嵌入式设备中使用的片上系统(SoC或SOC)集成电路内的处理平台。
系统1100的实施例可以包括以下各项或可被并入在以下各项内:基于服务器的游戏平台、游戏控制台(包括游戏和媒体控制台)、移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中,系统1100是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统1100还可以包括以下各项、与以下各项耦合、或被集成在以下各项内:可穿戴设备,诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在一些实施例中,数据处理系统1100是电视机或机顶盒设备,该电视机或机顶盒设备具有一个或多个处理器1102以及由一个或多个图形处理器1108生成的图形界面。
在一些实施例中,一个或多个处理器1102各自包括一个或多个处理器核1107,该一个或多个处理器核1107用于处理指令,这些指令当被执行时,执行用于系统和用户软件的操作。在一些实施例中,一个或多个处理器核1107中的每一个都被配置成用于处理特定的指令集1109。在一些实施例中,指令集1109可促进复杂指令集计算(CISC)、精简指令集计算(RISC)或经由超长指令字(VLIW)的计算。多个处理器核1107各自可以处理不同的指令集1109,不同的指令集1109可包括用于促进对其他指令集的仿真的指令。处理器核1107还可包括其他处理设备,诸如数字信号处理器(DSP)。
在一些实施例中,处理器1102包括高速缓存存储器1104。取决于架构,处理器1102可具有单个内部高速缓存或多级的内部高速缓存。在一些实施例中,高速缓存存储器在处理器1102的各种组件之间被共享。在一些实施例中,处理器1102也使用外部高速缓存(例如,第三级(L3)高速缓存或末级高速缓存(LLC))(未示出),可使用已知的高速缓存一致性技术在处理器核1107之间共享该外部高速缓存。寄存器堆1106附加地被包括在处理器1102中,寄存器堆1106可包括用于存储不同类型数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器以及指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以专用于处理器1102的设计。
在一些实施例中,处理器1102耦合至处理器总线1110以在处理器1102与系统1100中的其他组件之间传输通信信号(诸如地址、数据)或控制信号。在一个实施例中,系统1100使用示例性“中枢”系统架构,该示例性“中枢”系统架构包括存储器控制器中枢1116和输入输出(I/O)控制器中枢1130。存储器控制器中枢1116促进存储器设备与系统1100的其他组件之间的通信,而I/O控制器中枢(ICH)1130提供经由本地I/O总线至I/O设备的连接。在一个实施例中,存储器控制器中枢1116的逻辑被集成在处理器内。
存储器设备1120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备、或具有合适的性能以充当进程存储器的某个其他存储器设备。在一个实施例中,存储器设备1120可以作为用于系统1100的系统存储器来操作,以存储数据1122和指令1121用于在一个或多个处理器1102执行应用或进程时使用。存储器控制器中枢1116也与任选的外部图形处理器1112耦合,该任选的外部图形处理器1112可与处理器1102中的一个或多个图形处理器1108通信以执行图形和媒体操作。
在一些实施例中,ICH 1130使外围设备能够经由高速I/O总线而连接至存储器设备1120和处理器1102。I/O外围设备包括但不限于音频控制器1146、固件接口1128、无线收发器1126(例如,Wi-Fi、蓝牙)、数据存储设备1124(例如,硬盘驱动器、闪存等)、以及用于将传统(例如,个人系统2(PS/2))设备耦合至系统的传统I/O控制器1140。一个或多个通用串行总线(USB)控制器1142连接输入设备(诸如,键盘和鼠标1144的组合)。网络控制器1134也可以耦合至ICH 1130。在一些实施例中,高性能网络控制器(未示出)耦合至处理器总线1110。将会理解,所示的系统1100是示例性的而非限制性的,因为也可以使用以不同方式配置的其他类型的数据处理系统。例如,I/O控制器中枢1130可被集成在一个或多个处理器1102内,或者存储器控制器中枢1116和I/O控制器中枢1130可被集成到分立的外部图形处理器中,该分立的外部图形处理器诸如外部图形处理器1112。
图12是处理器1200的实施例的框图,该处理器1200具有一个或多个处理器核1202A至1202N、集成存储器控制器1214以及集成图形处理器1208。图12的具有与本文中的任何其他附图的元件相同的附图标记(或名称)的那些元件可以类似于本文中其他地方描述的任何方式操作或运行,但不限于此。处理器1200可以包括附加的核,这些附加的核多达由虚线框表示的附加核1202N并包括由虚线框表示的附加核1202N。处理器核1202A至1202N中的每个处理器核包括一个或多个内部高速缓存单元1204A至1204N。在一些实施例中,每个处理器核也具有对一个或多个共享高速缓存单元1206的访问权。
内部高速缓存单元1204A至1204N和共享高速缓存单元1206表示处理器1200内的高速缓存存储器层级结构。高速缓存存储器层级结构可包括每个处理器核内的至少一个级别的指令和数据高速缓存以及一个或多个级别的共享的中级高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)、或其他级别的高速缓存,其中,在外部存储器之前的最高级别的高速缓存被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各种高速缓存单元1206与1204A至1204N之间的一致性。
在一些实施例中,处理器1200还可包括一个或多个总线控制器单元1216的集合和系统代理核1210。一个或多个总线控制器单元1216管理一组外围总线,诸如,一个或多个外围组件互连总线(例如,PCI、PCI Express(PCI快速))。系统代理核1210提供对各处理器组件的管理功能。在一些实施例中,系统代理核1210包括用于管理对各种外部存储器设备(未示出)的访问的一个或多个集成存储器控制器1214。
在一些实施例中,一个或多个处理器核1202A至1202N包括针对同时多线程操作的支持。在此类实施例中,系统代理核1210包括用于在多线程处理期间对核1202A至1202N进行协调和操作的组件。系统代理核1210可附加地包括功率控制单元(PCU),该PCU包括用于调节处理器核1202A至1202N和图形处理器1208的功率状态的逻辑和组件。
在一些实施例中,处理器1200附加地包括用于执行图形处理操作的图形处理器1208。在一些实施例中,图形处理器1208与共享高速缓存单元1206的集合以及系统代理核1210耦合,该系统代理核1210包括一个或多个集成存储器控制器1214。在一些实施例中,显示控制器1211与图形处理器1208耦合,以将图形处理器输出驱动至一个或多个所耦合的显示器。在一些实施例中,显示控制器1211可以是经由至少一个互连而与图形处理器耦合的分开的模块,或者可以集成在图形处理器1208或系统代理核1210内。
在一些实施例中,基于环的互连单元1212用于耦合处理器1200的内部组件。然而,可以使用替代的互连单元,诸如,点对点互连、交换式互连、或其他技术,包括本领域中公知的技术。在一些实施例中,图形处理器1208经由I/O链路1213而与环形互连1212耦合。
示例性I/O链路1213表示各种各样的I/O互连中的至少一者,该I/O互连包括促进各种处理器组件与高性能嵌入式存储器模块1218(诸如,eDRAM(或嵌入式DRAM)模块)之间的通信的封装I/O互连。在一些实施例中,处理器核1202A至1202N和图形处理器1208中的每一者都将嵌入式存储器模块1218用作共享的末级高速缓存。
在一些实施例中,处理器核1202A至1202N是执行相同的指令集架构的同构核。在另一个实施例中,处理器核1202A至1202N就指令集架构(ISA)方面而言是异构的,其中处理器核1202A至1202N中的一个或多个执行第一指令集,而其他核中的至少一个核执行第一指令集的子集或不同的指令集。在一个实施例中,处理器核1202A至1202N就微架构方面而言是异构的,其中具有相对较高的功耗的一个或多个核与具有较低的功耗的一个或多个功率核耦合。另外,处理器1200可在一个或多个芯片上实现,或者被实现为除其他组件之外还具有所图示的组件的SoC集成电路。
图13是图形处理器1300的框图,该图形处理器1300可以是分立的图形处理单元,或者可以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的存储器映射的I/O接口并且利用被放置到处理器存储器中的命令进行通信。在一些实施例中,图形处理器1300包括用于访问存储器的存储器接口1314。存储器接口1314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享的外部高速缓存、和/或到系统存储器的接口。
在一些实施例中,图形处理器1300还包括显示控制器1302,该显示控制器1302用于将显示输出数据驱动到显示设备1320。显示控制器1302包括用于显示器的一个或多个叠加平面以及多层的视频或用户界面元素的合成的硬件。在一些实施例中,图形处理器1300包括用于将媒体编码到一种或多种媒体编码格式、从一种或多种媒体编码格式解码为媒体、或在一种或多种媒体编码格式之间对媒体转码的视频编解码器引擎1306,这一种或多种媒体编码格式包括但不限于:移动图像专家组(MPEG)格式(诸如,MPEG-2)、高级视频译码(AVC)格式(诸如,H.264/MPEG-4AVC)、以及电影和电视工程师协会(SMPTE)321M/VC-1、和联合图像专家组(JPEG)格式(诸如,JPEG、以及运动JPEG(MJPEG)格式)。
在一些实施例中,图形处理器1300包括块图像传送(BLIT)引擎1304,用于执行二维(2D)栅格化器操作,包括例如,位边界块传送。然而,在一个实施例中,使用图形处理引擎(GPE)1310的一个或多个组件执行3D图形操作。在一些实施例中,图形处理引擎1310是用于执行图形操作(包括三维(3D)图形操作和媒体操作)的计算引擎。
在一些实施例中,GPE 1310包括用于执行3D操作的3D流水线1312,3D操作诸如,使用作用于3D基元形状(例如,矩形、三角形等)的处理函数来渲染三维图像和场景。3D流水线1312包括可编程和固定功能元件,该可编程和固定功能元件执行元件内的各种任务和/或生成到3D/媒体子系统1315的执行线程。虽然3D流水线1312可用于执行媒体操作,但是GPE1310的实施例还包括媒体流水线1316,该媒体流水线1316专门用于执行媒体操作,诸如,视频后处理和图像增强。
在一些实施例中,媒体流水线1316包括固定功能或可编程逻辑单元,用于代替、或代表视频编解码器引擎1306来执行一个或多个专业的媒体操作,诸如,视频解码加速、视频去隔行、以及视频编码加速。在一些实施例中,媒体流水线1316附加地包括线程生成单元以生成用于在3D/媒体子系统1315上执行的线程。所生成的线程在3D/媒体子系统1315中所包括的一个或多个图形执行单元上执行用于媒体操作的计算。
在一些实施例中,3D/媒体子系统1315包括用于执行由3D流水线1312和媒体流水线1316生成的线程的逻辑。在一个实施例中,流水线向3D/媒体子系统1315发送线程执行请求,该3D/媒体子系统1315包括用于对于对可用的线程执行资源的各种请求进行仲裁和分派的线程分派逻辑。执行资源包括用于处理3D线程和媒体线程的图形执行单元的阵列。在一些实施例中,3D/媒体子系统1315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,该子系统还包括用于在线程之间共享数据并用于存储输出数据的共享存储器,其包括寄存器和可寻址存储器。
在以下描述中,陈述了众多特定细节以提供更透彻理解。然而,对于本领域的技术人员将显而易见的是,可以在没有这些特定细节中的一个或多个细节的情况下实践本文中描述的实施例。在其他实例中,未描述公知的特征以免混淆当前实施例的细节。
以下示例涉及进一步的实施例。示例1包括一种装置,该装置包括:解码电路系统,该解码电路系统用于将解压缩指令解码为第一微操作和第二微操作,其中,第一微操作用于引起一个或多个加载操作,以将数据取出到处理器核的高速缓存的多个高速缓存行中;以及解压缩引擎(DE)电路系统,该DE电路系统用于响应于第二微操作而对来自处理器核的高速缓存的多个高速缓存行的所取出的数据进行解压缩,其中,解压缩指令用于使DE电路系统执行对多个高速缓存行的乱序解压缩。示例2包括如示例1所述的装置,其中,DE电路系统用于在对多个高速缓存行中的每个高速缓存行进行解压缩之后通知处理器核。示例3包括如示例2所述的装置,其中,DE电路系统用于经由专用信号、专用总线、具有完成信息的分组、对寄存器中状态位的修改、或对耦合至处理器核的高速缓存中的状态位的修改来通知处理器核。示例4包括如示例1所述的装置,其中,解压缩指令包括第一操作数和第二操作数,第一操作数用于指示要由DE电路系统解压缩的经压缩的数据的位置,第二操作数用于指示要由DE电路系统解压缩的经压缩的数据的尺寸。示例5包括如示例4所述的装置,其中,解压缩指令包括第三操作数和第四操作数,第三操作数用于指示由DE电路系统要将经解压缩的数据存储到的位置,第四操作数用于指示经解压缩的数据的尺寸。示例6包括如示例5所述的装置,其中,第一操作数和第三操作数中的一者或多者包括虚拟存储器地址。示例7包括如示例1所述的装置,其中,第二微操作包括宏存储操作,该宏存储操作用于将经解压缩的所取出的数据存储到高速缓存中。示例8包括如示例1所述的装置,其中,处理器核的高速缓存包括第二级(L2)高速缓存。示例9包括如示例1所述的装置,其中,消费方位映射用于指示在完成对高速缓存行的解压缩之后高速缓存的哪个高速缓存行与消费方指令相对应。示例10包括如示例1所述的装置,其中,处理器核、DE电路系统和高速缓存在单个集成电路管芯上。示例11包括如示例10所述的装置,其中,处理器核包括图形处理单元(GPU)核。示例12包括如示例1所述的装置,其中,一个或多个高速缓存行中的每个高速缓存行是64字节的。
示例13包括一种或多种非瞬态计算机可读介质,包括一条或多条指令,该一条或多条指令当在至少一个处理器上执行时将该至少一个处理器配置成执行用于以下各项的一个或多个操作:将解压缩指令解码成第一微操作和第二微操作,其中,第一微操作引起一个或多个加载操作,以将数据取出到处理器核的高速缓存的多个高速缓存行中;以及使得解压缩引擎(DE)电路系统响应于第二微操作而对来自处理器核的高速缓存的多个高速缓存行的所取出的数据进行解压缩,其中,解压缩指令用于使得DE电路系统执行对多个高速缓存行的乱序解压缩。示例14包括如示例13所述的一种或多种计算机可读介质,进一步包括当在至少一个处理器上执行时将该至少一个处理器配置成执行用于以下各项的一个或多个操作的一条或多条指令:使得DE电路系统在对多个高速缓存行中的每个高速缓存行进行解压缩之后通知处理器核。示例15包括如示例14所述的一种或多种计算机可读介质,进一步包括当在至少一个处理器上执行时将该至少一个处理器配置成执行用于以下各项的一个或多个操作的一条或多条指令:使得DE电路系统经由专用信号、专用总线、具有完成信息的分组、对寄存器中状态位的修改、或对耦合至处理器核的高速缓存中的状态位的修改来通知处理器核。示例16包括如示例13所述的一种或多种计算机可读介质,其中,解压缩指令包括第一操作数和第二操作数,第一操作数用于指示要由DE电路系统解压缩的经压缩的数据的位置,第二操作数用于指示要由DE电路系统解压缩的经压缩的数据的尺寸。示例17包括如示例16所述的一种或多种计算机可读介质,其中,解压缩指令包括第三操作数和第四操作数,第三操作数用于指示由DE电路系统要将经解压缩的数据存储到的位置,第四操作数用于指示经解压缩的数据的尺寸。示例18包括如示例17所述的一种或多种计算机可读介质,其中,第一操作数和第三操作数中的一者或多者包括虚拟存储器地址。示例19包括如示例13所述的一种或多种计算机可读介质,其中,第二微操作包括宏存储操作,该宏存储操作用于将经解压缩的所取出的数据存储到高速缓存中。示例20包括如示例13所述的一种或多种计算机可读介质,其中,处理器核的高速缓存包括第二级(L2)高速缓存。示例21包括如示例13所述的一种或多种计算机可读介质,进一步包括当在至少一个处理器上执行时将该至少一个处理器配置成执行用于以下各项的一个或多个操作的一条或多条指令:使得消费方位映射指示在完成对高速缓存行的解压缩之后高速缓存的哪个高速缓存行与消费方指令相对应。示例22包括如示例13所述的一种或多种计算机可读介质,其中,一个或多个高速缓存行中的每个高速缓存行是64字节的。
示例23包括一种设备,该设备包括用于执行如任何在前示例中阐述的方法的装置。示例24包括机器可读存储,包括机器可读指令,该机器可读指令当被执行时,用于实现任何在前示例中所阐述的方法或实现任何在前示例中所阐述的装置。
在各实施例中,参考图1及以下各图所讨论的一个或多个操作可由参考附图中的任何附图所讨论的一个或多个组件(在本文中可互换地被称为“逻辑”)执行。
在各实施例中,本文中(例如,参考图1及以下各图)所讨论的操作可实现为硬件(例如,逻辑电路)、软件、固件、或其组合,其可被作为计算机程序产品提供,例如,包括一种或多种有形的(例如,非瞬态的)机器可读或计算机可读介质,其上存储有指令(或软件程序),这些指令(或软件程序)用于对计算机编程以执行本文中所讨论的过程。机器可读介质可包括诸如参考附图所讨论的那些存储设备之类的存储设备。
另外,此类计算机可读介质可作为计算机程序产品来下载,其中该程序可作为在载波或其他传播介质中提供的数据信号经由通信链路(例如,总线、调制解调器或网络连接)从远程计算机(例如,服务器)传输到作出请求的计算机(例如,客户端)。
在本说明书中对“一个实施例”或“实施例”的引用意指结合该实施例描述的特定特征、结构和/或特性可被包括在至少一个实现方式中。在本说明书各处出现的短语“在一个实施例中”可以或可以不全指代同一实施例。
并且,在说明书和权利要求书中,可使用术语“耦合的”和“连接的”以及它们的派生词。在一些实施例中,可以使用“连接的”来表示两个或更多个元件彼此直接物理或电气接触。“耦合的”可意指两个或更多个元件直接的物理或电气接触。然而,“耦合的”还可意指两个或更多个元件彼此可不直接接触,但仍可彼此相互配合或相互作用。
因此,尽管已经用对结构特征和/或方法动作专用的语言描述了各实施例,但可以理解,所要求保护的主题可以不限于所描述的特定特征或动作。相反,特定特征和动作作为实现要求保护的主题的样本形式被公开。

Claims (14)

1.一种用于提供处理器核高速缓存内的推测性解压缩的装置,所述装置包括:
解码电路系统,所述解码电路系统用于将解压缩指令解码为第一微操作和第二微操作,其中,所述第一微操作用于引起一个或多个加载操作,以将数据取出到处理器核的高速缓存的多个高速缓存行中;以及
解压缩引擎DE电路系统,所述DE电路系统用于响应于所述第二微操作而对来自所述处理器核的所述高速缓存的所述多个高速缓存行的所取出的数据进行解压缩,其中,所述解压缩指令用于使所述DE电路系统执行对所述多个高速缓存行的乱序解压缩。
2.如权利要求1所述的装置,其中,所述DE电路系统用于在对所述多个高速缓存行中的每个高速缓存行进行解压缩之后通知所述处理器核。
3.如权利要求2所述的装置,其中,所述DE电路系统用于经由专用信号、专用总线、具有完成信息的分组、对寄存器中状态位的修改、或对耦合至所述处理器核的高速缓存中的状态位的修改来通知所述处理器核。
4.如权利要求1所述的装置,其中,所述解压缩指令包括第一操作数和第二操作数,所述第一操作数用于指示要由所述DE电路系统解压缩的经压缩的数据的位置,所述第二操作数用于指示要由所述DE电路系统解压缩的所述经压缩的数据的尺寸。
5.如权利要求4所述的装置,其中,所述解压缩指令包括第三操作数和第四操作数,所述第三操作数用于指示由所述DE电路系统要将经解压缩的数据存储到的位置,所述第四操作数用于指示所述经解压缩的数据的尺寸。
6.如权利要求5所述的装置,其中,所述第一操作数和所述第三操作数中的一者或多者包括虚拟存储器地址。
7.如权利要求1所述的装置,其中,所述第二微操作包括宏存储操作,所述宏存储操作用于将经解压缩的所取出的数据存储到所述高速缓存中。
8.如权利要求1所述的装置,其中,所述处理器核的所述高速缓存包括第二级L2高速缓存。
9.如权利要求1所述的装置,其中,消费方位映射用于指示在完成对高速缓存行的解压缩之后所述高速缓存的哪个高速缓存行与消费方指令相对应。
10.如权利要求1所述的装置,其中,所述处理器核、所述DE电路系统和所述高速缓存在单个集成电路管芯上。
11.如权利要求10所述的装置,其中,所述处理器核包括图形处理单元GPU核。
12.如权利要求1所述的装置,其中,所述一个或多个高速缓存行中的每个高速缓存行是64字节的。
13.一种机器可读介质,包括代码,所述代码在被执行时使机器执行如权利要求1至12中任一项所述的操作。
14.一种设备,包括用于执行如权利要求1至12中任一项所述的操作的装置。
CN202111397430.8A 2020-12-23 2021-11-23 处理器核高速缓存内的推测性解压缩 Pending CN114661625A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/133,618 2020-12-23
US17/133,618 US20220197643A1 (en) 2020-12-23 2020-12-23 Speculative decompression within processor core caches

Publications (1)

Publication Number Publication Date
CN114661625A true CN114661625A (zh) 2022-06-24

Family

ID=77951528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111397430.8A Pending CN114661625A (zh) 2020-12-23 2021-11-23 处理器核高速缓存内的推测性解压缩

Country Status (3)

Country Link
US (1) US20220197643A1 (zh)
EP (1) EP4020231B1 (zh)
CN (1) CN114661625A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220197659A1 (en) * 2020-12-23 2022-06-23 Intel Corporation Application programming interface for fine grained low latency decompression within processor core

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6388585B1 (en) * 1998-08-11 2002-05-14 Matsushita Electric Ind Co Ltd Method for data compression and decompression using decompression instructions
US6862662B1 (en) * 2000-03-03 2005-03-01 Micron Technology, Inc. High density storage scheme for semiconductor memory
US20100223237A1 (en) * 2007-11-05 2010-09-02 University Of Florida Research Foundation, Inc. Lossless data compression and real-time decompression
CN104011673B (zh) * 2011-12-30 2016-12-07 英特尔公司 向量频率压缩指令
CN103810297B (zh) * 2014-03-07 2017-02-01 华为技术有限公司 基于重删技术的写方法、读方法、写装置和读装置
US9513919B2 (en) * 2015-04-28 2016-12-06 Intel Corporation Method and apparatus for speculative decompression
US10331558B2 (en) * 2017-07-28 2019-06-25 Apple Inc. Systems and methods for performing memory compression
US10831497B2 (en) * 2019-01-31 2020-11-10 International Business Machines Corporation Compression/decompression instruction specifying a history buffer to be used in the compression/decompression of data
US11086625B2 (en) * 2019-09-10 2021-08-10 Apple Inc. Compression assist instructions

Also Published As

Publication number Publication date
EP4020231A1 (en) 2022-06-29
US20220197643A1 (en) 2022-06-23
EP4020231B1 (en) 2024-05-01

Similar Documents

Publication Publication Date Title
US11068264B2 (en) Processors, methods, systems, and instructions to load multiple data elements to destination storage locations other than packed data registers
KR101842058B1 (ko) 푸싱형 버퍼 복사 및 저장 기능성을 제공하기 위한 명령어 및 논리
CN108292229B (zh) 用于重新出现的相邻聚集的指令和逻辑
CN108369516B (zh) 用于加载-索引和预取-分散操作的指令和逻辑
US20190304052A1 (en) Coarse grain coherency
JP6708334B2 (ja) モートン座標調整プロセッサ、方法、システム、及び命令
US20230060900A1 (en) Method and apparatus for performing reduction operations on a plurality of associated data element values
JP2017538213A (ja) アウトオブオーダーハードウェアソフトウェア協調設計プロセッサにおいてスタック同期命令を用いてプレディケート値のスタックを実装し維持する方法および装置
KR20190082079A (ko) 원격 원자 연산들의 공간적 및 시간적 병합
CN107111554B (zh) 用于在加载数据元素以供执行时考虑空间局部性的装置和方法
EP3575955B1 (en) Indirect memory fetcher
EP4020231B1 (en) Speculative decompression within processor core caches
EP4020230A1 (en) Application programming interface for fine grained low latency decompression within processor core
KR101898791B1 (ko) 멀티 스트랜드 비순차 프로세서에서 회수를 위한 명령어들을 식별하는 명령어 및 로직
US20230214325A1 (en) Register File Prefetch
NL2028988B1 (en) Instruction set architecture and microarchitecture for early pipeline re-steering using load address prediction to mitigate branch misprediction penalties
CN116266122A (zh) 寄存器堆虚拟化:应用和方法
WO2023009641A1 (en) Data streaming accelerator
EP4020185A1 (en) Instruction and micro-architecture support for decompression on core
EP4020223A1 (en) Increasing per core memory bandwidth by using forget stores
CN113821259A (zh) 用于对具有向后的交叉迭代依赖性的循环进行向量化的指令
US20220100511A1 (en) Delayed cache writeback instructions for improved data sharing in manycore processors
CN114676090A (zh) 用于低时延页解压缩和压缩加速的电路和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination