CN110659223A - 用于延迟的不规则载荷的预取器 - Google Patents

用于延迟的不规则载荷的预取器 Download PDF

Info

Publication number
CN110659223A
CN110659223A CN201910450385.4A CN201910450385A CN110659223A CN 110659223 A CN110659223 A CN 110659223A CN 201910450385 A CN201910450385 A CN 201910450385A CN 110659223 A CN110659223 A CN 110659223A
Authority
CN
China
Prior art keywords
processor
instruction
prefetcher
instructions
dirrl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910450385.4A
Other languages
English (en)
Inventor
K.桑卡拉纳拉雅南
S.J.塔萨
G.N.钦亚
H.奈伊米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN110659223A publication Critical patent/CN110659223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/3017Runtime instruction translation, e.g. macros
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1021Hit rate improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/6028Prefetching based on hints or prefetch instructions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

所公开的实施例涉及一种用于延迟的不规则载荷的预取器。在一个示例中,处理器包含:高速缓冲存储器;提取和解码电路,用于从存储器提取和解码指令;以及执行电路,包含二进制翻译器(BT),用于通过如下方式响应解码的指令:将多个解码的指令存储在BT高速缓存中,标识多个解码的指令之中的延迟的不规则载荷(DIRRL),确定DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到可预取DIRRL的指令区域。

Description

用于延迟的不规则载荷的预取器
技术领域
本发明的领域一般涉及计算机处理器架构,并且更具体地说,涉及用于延迟的不规则载荷的预取器。
背景技术
随着乱序核变得更宽且更深,微架构性能倾向于变得更加受两个瓶颈所限制:高速缓存未命中和分支误预测。数据预取能改进许多应用的性能。通过硬件和软件的组合,在实际需要数据之前预取数据能导致存储器存取的等待时间减少。
高速缓存未命中的影响能以多种方式缓解,包含:1)通过使用乱序执行来隐藏未命中的等待时间;2)定制高速缓存替换策略以更好地匹配应用的需要;以及3)通过在实际需求发生之前预取存储器位置。
载荷指令能被分类为几种类别,包含:a)其虚拟地址在多个动态实例上保持恒定的恒定载荷;b)主要在算术级数上具有连续虚拟地址的跨步载荷;以及c)既不是恒定载荷也不是跨步载荷的不规则载荷。
而且,如本文所述,在高速缓存中频繁地(即,大于阈值次数,例如100、1000、10,000等次)未命中的载荷被称为延迟载荷。
预取延迟的不规则载荷仍然是一个开放的挑战。
附图说明
本发明在附图的各图中作为示例而非限制进行了图示,附图中相似的标记指示类似的元素,并且附图中:
图1A是图示根据一些实施例的用于执行指令的处理组件的框图;
图1B是图示根据一些实施例的用于执行指令的处理组件的框图;
图2是根据一些实施例的用于生成应用特定的定制预取器的系统的框图;
图3A是根据一些实施例由处理器执行的用于生成应用特定的定制预取器的操作的流程框图;
图3B是根据一些实施例由处理器执行的用于生成应用特定的定制预取器的操作的流程框图;
图4A是根据一些实施例图示后切片(backslice)的代码清单;
图4B是根据一些实施例为图4A的代码清单生成的定制硬件预取器;
图4C是根据一些实施例为图4A的代码清单生成的定制软件预取器;
图5A是根据一些实施例引导到延迟的不规则载荷的指令区域的代码清单;
图5B是根据一些实施例图示图5A中的代码清单的指令流程的方框流程图;
图6A是根据一些实施例引导到延迟的不规则载荷的指令区域的代码清单;
图6B是根据一些实施例图示图6A中的代码清单的指令流程的方框流程图;
图6C是根据一些实施例图示图6A中的代码清单的指令流的另一个更详细的方框流程图;
图7A图示了根据一些实施例的示例性应用特定的定制软件预取器;
图7B图示了根据一些实施例的对应于图7A的定制软件预取器的示例性应用特定的定制硬件预取器;
图8A-8B是图示根据本发明一些实施例的一般向量友好指令格式及其指令模板的框图;
图8A是图示根据本发明一些实施例的一般向量友好指令格式及其A类指令模板的框图;
图8B是图示根据本发明一些实施例的一般向量友好指令格式及其B类指令模板的框图;
图9A是图示根据本发明的一些实施例的示例性特定向量友好指令格式的框图;
图9B是图示根据一个实施例的构成完整操作码字段的特定向量友好指令格式的字段的框图;
图9C是图示根据一个实施例的构成寄存器索引字段的特定向量友好指令格式的字段的框图;
图9D是图示根据一个实施例的构成扩增操作字段的特定向量友好指令格式的字段的框图;
图10是根据一个实施例的寄存器架构的框图;
图11A是图示根据一些实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线的框图;
图11B是图示根据一些实施例要包含在处理器中的示例性寄存器重命名乱序发布/执行架构核和有序架构核的示例性实施例的框图;
图12A-B图示了更特定的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包含相同类型和/或不同类型的其他核)之一;
图12A是根据一些实施例的单个处理器核连同其到管芯上互连网络的连接以及其2级(L2)高速缓存的本地子集的框图;
图12B是根据一些实施例的图12A中的处理器核的一部分的展开视图;
图13是根据一些实施例可以具有多于一个核、可以具有集成存储器控制器并且可以具有集成图形的处理器的框图;
图14-17是示例性计算机架构的框图;
图14示出了根据一些实施例的系统的框图;
图15是按照一些实施例的第一更特定的示例性系统的框图;
图16是按照一些实施例的第二更特定的示例性系统的框图;
图17是按照一些实施例的片上系统(SoC)的框图;以及
图18是根据一些实施例对比使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
在如下描述中,阐述了众多特定细节。然而,要理解,可以在没有这些特定细节的情况下实践一些实施例。在其它实例中,众所周知的电路、结构和技术尚未详细示出,以免模糊对此说明书的理解。
在说明书中提到“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可包含特征、结构或特性,但每一个实施例可以不一定都包含该特征、结构或特性。而且,此类短语不一定指的是同一实施例。另外,当关于实施例描述特征、结构或特性时,认为它在本领域技术人员的知识范围内以关于其它实施例影响此类特征、结构或特性(如果明确描述了的话)。
所公开的实施例描述了一种用于使用例如由运行时间二进制翻译器(BT)执行的剖析和分析来生成专门为每个延迟的不规则载荷(DIRRL)-有时被称为难以预取(HTP)或(HTP)载荷-设计的应用特定的定制预取器的改进的系统和方法。根据一些实施例,BT分析DIRRL的指令的后向切片(亦称“后切片”)中的循环,以确定DIRRL是否是可预取的。如果是,则BT或者生成含有预取提示指令的特定代码,或者配置定制硬件预取器以预取含有DIRRL的代码区域中的一个或多个载荷。
不像一些失败的方法,所公开的实施例避免依赖大量的片上存储来记录地址模式并试图预测未来的地址。除了需要过高量的片上存储器之外,在真实硬件中实现这种方法的困难能从商用运送处理器中的其缺乏中看到。
所公开的实施例还避免了资源密集型、基于计算的预取方法,其使用单独的帮助器线程来提前执行来自程序的指令以预取延迟的载荷。而且,很难确保帮助器线程不会远远超过主线程,它实际上最终污染了高速缓存。
所公开的实施例以几种方式改进了处理器架构及其预取性能。所公开实施例的一个优点是具有低开销的高度准确预取的可能性,因为所生成的预取器是主线程本身的一部分,并且不存在对于备用线程上下文或大存储器的需要。而且,由于生成预取器代码(或定制硬件)以在主计算之前保持恒定次数的迭代,因此不需要花费附加的努力来匹配主线程和预取器的速率。更进一步,用仅插入在延迟的不规则载荷指令指针(IP)的预取,高速缓存和存储器带宽干扰被保持最小。
在以下描述所公开实施例的过程中,本文定义了许多术语,并且这些术语被用作所公开实施例的描述的一部分。如本文所使用的,“延迟”载荷是具有第一级高速缓存未命中的数量大于阈值(例如,1K、10K等)的那些载荷指令。如本文进一步使用的,载荷指令的“地址增量”被定义为其连续动态实例的虚拟地址之间的数值差异。更进一步,在一些实施例中,“不规则”载荷是具有至少十个独特地址增量的那些载荷指令,并且十个最流行的独特增量仍覆盖少于所有增量的90%。这种定义在所公开实施例的上下文中区分规则模式(诸如多维阵列和其他偶尔不规则(但主要是跨步)的载荷)与不规则载荷。
如本文所述的,并且如关于图2所图示的,一些公开的实施例由三部分组成:1)剖析器、2)优化器以及3)预取器。
剖析器
根据一些实施例,剖析器标识延迟的不规则载荷。在一些实施例中,剖析器是硬件和二进制翻译器(BT)软件两者的组合。在这种实施例中,硬件跟踪飞行中的每个载荷指令的数据高速缓存未命中,以便标识延迟载荷。在一些实施例中,BT软件在所标识的延迟载荷上运行详细的地址增量剖析,以将它们分类为规则或不规则载荷。
当所公开的实施例被结合到已经具有跨步检测预取器的处理器中时,本来对处理器可用的地址增量信息也能被传递到BT软件上以进行分析。将所公开的实施例结合到处理器中因此可以改进处理器的预取性能,而不会增加太多成本(如果有的话)。
在一些实施例中,所公开的剖析器在线操作(与剖析线程同时),并且在其他实施例中,离线操作(在与线程的实际运行时间不同的时间,例如通过提前分析源代码)。
优化器
一些公开的实施例进一步包含优化器,优化器分析执行代码以计算延迟的不规则载荷的a。如本文所使用的,延迟的不规则载荷的后切片(亦称后向切片)是程序中的一组指令,它们在延迟的不规则载荷指令的操作数之前执行,并且直接或间接地对延迟的不规则载荷指令的操作数有贡献。基于后切片中指令的地址增量(从剖析器接收的),优化器然后将“可预取”的载荷标识为其后切片完全由非存储器操作或规则存储器操作构成的载荷。然后,优化器将为含有可预取载荷的代码区域生成定制预取器。
定制预取器
由优化器生成的定制预取器能用软件(用预取提示指令生成的代码;例如参见图7A)或硬件(捕获地址计算的数据流的定制硬件;例如参见图7B)。
应当理解,为了简单起见,1)剖析器、2)优化器和3)预取器在本文中被描述为单独的组件。实际上,在一些实施例中,1)剖析器、2)优化器和3)预取器中的所有三个都被结合在广义上称为“执行电路”中和其部分中。有关本文描述的二进制翻译器也是如此。在一些实施例中,二进制翻译器被结合在“执行电路”中,而在其他实施例中,BT与执行电路分开并且在执行电路外部。
图1A是图示根据一些实施例的用于执行指令的处理组件的框图。如所图示的,存储装置101存储要执行的(一个或多个)指令103。如下面进一步描述的,在一些实施例中,计算系统100是SIMD处理器,以同时处理打包数据向量(诸如矩阵)的多个元素。
在操作中,由提取电路105从存储装置101提取(一个或多个)指令103。每个提取的指令107由解码电路109解码。关于图8A-B和9A-D图示和描述了(一个或多个)指令格式。解码电路109将每个提取的指令107解码为一个或多个操作。在一些实施例中,此解码包含生成要由执行电路(诸如执行电路117)执行的多个微操作。解码电路109还解码指令后缀和前缀(如果使用了的话)。下面关于图2-3、11A-B和12A-B进一步描述和图示执行电路117。
在一些实施例中,寄存器重命名、寄存器分配和/或调度电路113为如下中的一个或多个提供功能性:1)将逻辑操作数值重命名为物理操作数值(例如,在一些实施例中的寄存器别名表);2)将状态位和标志分配给解码的指令;以及3)从指令池里面调度解码的SMM指令111以便在执行电路117上执行(例如,在一些实施例中使用预留站)。在重命名、分配和/或调度可以在不同时间发生,或者根本不发生的情况下,寄存器重命名/寄存器分配和/或调度电路113是可选的,如其虚线边框所指示的。
寄存器(寄存器堆)和/或存储器115将数据存储为要由执行电路117对其操作的解码指令111的操作数。在一些实施例中,如所示,执行电路117包含二进制翻译器118,二进制翻译器118包含BT高速缓存119,并且参考图2-3对其进一步图示和描述。在二进制翻译器118可以被结合在执行电路117中(如所示)的情况下,它是可选的,如其虚线边框所指示的,可能在执行电路117外部(如图1B中所示),可以转而用软件实现,或者作为硬件和软件的组合实现。
在一些实施例中,寄存器堆和/或存储器115包含高速缓存层级,包含L1、L2和L3(或LLC)高速缓存。在一些实施例中,高速缓存是统一的,并且其他实施例具有单独的数据和指令高速缓存。示例性寄存器类型包含写掩码寄存器、打包数据寄存器、通用寄存器和浮点寄存器,如下面至少关于图10进一步描述和图示的。
在一些实施例中,写回电路120提交执行解码指令111的结果。关于图2-3、11A-B和12A-B进一步图示和描述执行电路117和系统100。
图1B是图示根据一些实施例的用于执行指令的处理组件的框图。如所图示的,存储装置151存储要执行的(一个或多个)指令153。如下面进一步描述的,在一些实施例中,计算系统150是SIMD处理器,以同时处理打包数据向量(诸如矩阵)的多个元素。
在操作中,由提取电路155从存储装置151提取(一个或多个)指令153。每个提取的指令157由解码电路159解码。关于图8A-B和9A-D图示和描述了(一个或多个)指令格式。解码电路159将每个提取的指令157解码为一个或多个操作。在一些实施例中,此解码包含生成要由执行电路(诸如执行电路167)执行的多个微操作。解码电路159还解码指令后缀和前缀(如果使用了的话)。下面关于图2-3、16和17进一步描述和图示执行电路167。
在一些实施例中,寄存器重命名、寄存器分配和/或调度电路163为如下中的一个或多个提供功能性:1)将逻辑操作数值重命名为物理操作数值(例如,在一些实施例中的寄存器别名表);2)将状态位和标志分配给解码的指令;以及3)从指令池里面调度解码的SMM指令161以便在执行电路167上执行(例如,在一些实施例中使用预留站)。在重命名、分配和/或调度可以在不同时间发生,或者根本不发生的情况下,寄存器重命名/寄存器分配和/或调度电路163是可选的,如其虚线边框所指示的。
寄存器(寄存器堆)和/或存储器165将数据存储为要由执行电路167对其操作的解码指令161的操作数。还示出了二进制翻译器168,其包含BT高速缓存169,并且参考图2-3进一步对其进一步图示和描述。在二进制翻译器168可以被结合在执行电路167中(如图1A所示)的情况下,它是可选的,如其虚线边框所指示的,可能在执行电路167外部(如所示),可以转而用软件实现,或者作为硬件和软件的组合实现。
在一些实施例中,寄存器堆和/或存储器165包含高速缓存层级,包含L1、L2和L3(或LLC)高速缓存。在一些实施例中,高速缓存是统一的,并且其他实施例具有单独的数据和指令高速缓存。示例性寄存器类型包含写掩码寄存器、打包数据寄存器、通用寄存器和浮点寄存器,如下面至少关于图15进一步描述和图示的。
在一些实施例中,写回电路170提交执行解码指令161的结果。关于图2-3、16和17进一步图示和描述执行电路167和系统150。
图2是根据一些实施例的用于生成应用特定的定制预取器的系统的框图。如所示,系统200包含剖析器202、优化器212和预取器222。接收载荷未命中性能计数器208的剖析器202包含地址增量剖析204和延迟载荷过滤器206,并标识候选区域210并将其发送到优化器212。包含数据行分析214、循环枚举216和可预取的载荷标识218的优化器212生成定制预取器220并将其发送到预取器222。预取器222包含生成的代码224或定制硬件226。
图3A是根据一些实施例由处理器执行的用于生成应用特定的定制预取器的操作的流程框图。处理器要执行流程300。如所示,在302,处理器将使用提取电路(诸如提取电路105(图1))从存储器提取指令。在一些实施例中,该存储器是L1指令高速缓存。在其他实施例中,该存储器是L2或更高级的高速缓存,并且在又一些实施例中,该存储器是主存储器。在304,处理器要使用诸如解码电路109(图1)的解码电路对所提取的指令进行解码。在306,处理器将使用二进制翻译器用执行电路来对解码的指令进行响应以执行操作308-314。确切地说,在308,处理器将解码的指令流存储在BT高速缓冲存储器中。在一些实施例中,BT高速缓冲存储器与图1中所示的存储器115分开。在310,处理器将跟踪载荷指令的高速缓存未命中以标识延迟载荷。在312,处理器要剖析所述延迟载荷的连续实例的地址增量以标识延迟的不规则载荷。在314,处理器要通过分析所述DIRRL的连续动态实例之间的后切片来确定所述DIRRL是否是可预取的,并且如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。关于图4、5A和6A进一步图示和描述如本文所使用的“后切片”意味着什么。
图3B是根据一些实施例由处理器执行的用于生成应用特定的定制预取器的操作的流程框图。处理器要执行流程350。如所示,在352,处理器将使用提取电路(诸如提取电路105(图1))从存储器提取指令。在一些实施例中,该存储器是L1指令高速缓存。在其他实施例中,该存储器是L2或更高级的高速缓存,并且在又一些实施例中,该存储器是主存储器。在354,处理器要使用诸如解码电路109(图1)的解码电路对所提取的指令进行解码。在356,处理器将使用二进制翻译器来对解码的指令进行响应以执行操作358-364。确切地说,在358,处理器将解码的指令流存储在BT高速缓冲存储器中。在一些实施例中,BT高速缓冲存储器与图1中所示的存储器115分开。在360,处理器将跟踪载荷指令的高速缓存未命中以标识延迟载荷。在362,处理器要剖析所述延迟载荷的连续实例的地址增量以标识延迟的不规则载荷。在364,处理器要通过分析所述DIRRL的连续动态实例之间的后切片来确定所述DIRRL是否是可预取的,并且如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。关于图4、5A和6A进一步图示和描述如本文所使用的“后切片”意味着什么。
图4A是根据一些实施例图示后切片的代码清单。如所示,代码清单400定义了示例性函数foo()。为了便于讨论,代码清单以相对易于理解的C编程语言句法示出。一些实施例(例如离线和提前分析代码段的实施例)能够通过采取高级编程语言(诸如C)分析代码段来生成应用特定的定制预取器。但是,一些实施例,使用硬件二进制翻译器动态并且在线地生成应用特定的定制预取器,分析具有汇编代码格式的指令。例如,关于图5A、6A和7A图示和描述了具有汇编指令格式的代码段。在一些实施例中,要分析的代码包括由解码电路(诸如解码电路109(图1))生成的宏操作。
如所示,在行0160处的指令是目标指令402,并且要计算引导到目标指令的“后切片”。本文所使用的“后切片”是直接或间接地对在目标指令中进行的计算有贡献的所有指令的集合。在一些实施例中,要包含在后切片中的指令能通过从目标指令402向后工作来标识以标识构成后切片404的所有有贡献的指令。例如,在行0140处的指令直接对目标指令402有贡献,因为它设置了指令的操作数。从在0140处的指令向后工作,在0110、0090和0070处的指令将被包含在后切片404中,因为它们间接地对目标指令402的计算有贡献。在一些实施例中,如这里,目标指令402是循环的一部分,并且后切片向后扩展到,但停止在当前迭代的开始处。
值得注意的是,代码清单400中的一些指令不直接或间接地对目标指令402的计算有贡献,并且因此不包含在后切片404中。例如,在行0080、0100、0120和0150处的指令不包含在后切片中。在行0130和0170处的指令,即使它们影响在目标指令402中使用的操作数‘c’,也不包含在后切片中,因为在到达目标指令402之前,由那些指令设置的‘c’的值被覆写。
图4B是根据一些实施例为图4A的代码清单生成的定制硬件预取器。如所示,定制硬件预取器420包含先进先出(FIFO)缓冲器421,缓冲器421具有用于头部422和尾部424的指针,并且其中在来自代码清单400(图4A)的行[0090]、[0110]和[0140]处的指令已经入队。还示出了定制硬件预取控制电路426、算术/逻辑单元(ALU)428和存储器载荷单元(MLU)430。
为了简单起见,并且为了示出所公开实施例的操作,根据高级编程语言(诸如Basic、C、Fortran或C ++)的格式示出了在FIFO 421中入队的指令。然而,在一些实施例中,那些指令转而将被存储为由解码电路(诸如解码电路109(图1A)或159(图1B))生成的解码微操作或宏操作。
在操作中,定制硬件预取控制电路426将使引导到目标指令402(图4A)的指令区域内的一个或多个指令被入队在FIFO 421中,并且随后使处理器执行所得到的算术运算(如果有的话,使用ALU 428执行)和存储器载荷(如果有的话,使用MLU 430执行)。
在其他实施例中,选择来自代码清单400的不同指令以用于包含在FIFO 421中。例如,如果指令之一被标识为“临界载荷”,如下所述,则控制电路426可能使处理器仅通过将该指令入队而其他指令不入队来聚焦在该指令。在一些实施例中,整个后切片404(图4A)被添加到FIFO 421并由处理器执行。
FIFO 421、定制硬件预取控制电路426、ALU 428和MLU 430全都是可选的,如由它们的虚线边框所指示的,在它们可以使用已经包含在处理器中的硬件资源的情况下,它们可以使用固件或软件,或者它们可以根本不包含在内。例如,FIFO 421可能在已经对处理器可用的存储器内实现。一些实施例使用处理器的寄存器堆中的寄存器来实现FIFO 421。一些实施例使用几个专用寄存器来实现FIFO 421。一些实施例使用与FIFO 421不同的存储器组织,例如随机存取存储器。例如,ALU 428可能包含一个或多个专用ALU来执行算术运算。在一些实施例中,ALU 428使用(一个或多个)执行集群1160内的(一个或多个)现有处理器执行单元1162,如关于图11A-B所图示和描述的。
图4C是根据一些实施例为图4A的代码清单生成的定制软件预取器。如所示,定制软件预取器440包含先进先出(FIFO)缓冲器441,缓冲器421具有用于头部442和尾部444的指针,并且其中在来自代码清单400(图4A)的行[0090]、[0110]和[0140]处的指令已经入队。FIFO 441中的入队的指令旨在充当预取提示。还示出了定制软件预取控制电路446。
为了简单起见,并且为了示出所公开实施例的操作,根据高级编程语言(诸如Basic、C、Fortran或C++)的格式示出了在FIFO 441中入队的指令。然而,在一些实施例中,那些指令相反将被存储为由解码电路(诸如解码电路109(图1A)或159(图1B))生成的解码微操作或宏操作。
在操作中,定制软件预取控制电路446将使引导到目标指令402(图4A)的指令区域内的一个或多个指令要在FIFO 441中入队,并且随后将充当要由处理器执行的预取提示。
在其他实施例中,选择来自代码清单400的不同指令以用于包含在FIFO 441中。例如,如果指令之一被标识为“临界载荷”,如下所述,则控制电路446可能使处理器仅通过将该指令入队而其他指令不入队来聚焦在该指令。在一些实施例中,控制电路446使处理器在执行预取时通过在执行非临界载荷之前执行临界载荷来聚焦在一个或多个临界载荷上。在一些实施例中,整个后切片404(图4A)被添加到FIFO 441并由处理器执行。
在FIFO 441和定制软件预取控制电路426可以使用已经包含在处理器中的资源,或者它们可以根本不被包含的情况下,FIFO 441和定制软件预取控制电路426是可选的,如它们的虚线边框所指示的。例如,FIFO 441可能在已经对处理器可用的存储器内实现。例如,在FIFO 441中入队的一个或多个提示相反可能被存储在存储器中的指令之中。一些实施例使用处理器的寄存器堆中的寄存器来实现FIFO 441。一些实施例使用几个专用寄存器来实现FIFO 441。一些实施例使用与FIFO 441不同的存储器组织,例如随机存取存储器。在一些实施例中,控制电路446使处理器使用其现有执行流水线对入队的提示进行响应,如关于图11A-B所图示和描述的。
标识示例性汇编代码清单追溯1的后切片
图5A是根据一些实施例的要由剖器剖析然后由优化器优化的指令的代码清单。如所示,汇编代码清单追溯1 500中的每一个指令都包括地址、操作码、操作数和指示其指令类型的注释。追溯1 500有时被称为“热区域”,并且这里是简单的17指令循环,其中第17条指令循环回到第1指令,并且其中要退出的两个退出分支经过很少被采用的循环的末端(0xef1和0xef7)。追溯1 500具有两个不规则载荷(0xeea和0xf05),两个存储到堆栈(0xef3和0xf00),并且剩余载荷是恒定的地址堆栈载荷。
还图示了定义追溯1 500的后切片的弧。开始于循环中的最后不规则载荷,在0xf05处,弧A和B分别标识对0xf03和0xefb的依赖性。这里使用虚线只是允许更容易地在七个弧之中进行区分。从0xf03向后继续,弧C和D分别标识对0xeea和0xefd的依赖性。从0xefb向后继续,弧E标识对0xee2的依赖性。最后,从0xeea向后继续,弧F和G分别标识对0xee7和0xee4的依赖性。
图5B图示了作为流程框图的图5A的指令流程的后切片。如所示,标记为A至G的七个弧标识追溯1 500的相同八个后切片指令(它们在此由八个流程图节点表示)之间的相同七个弧。确切地说,标记为522、524、526、528、530、532、534和536的八个流程图节点分别对应于在追溯1 500地址0xee4、0xee7、0xee2、0xeea、0xefd、0xefb、0xf03和0xf05处的八个指令。
在操作中,根据一些实施例,如下面关于图5A-B和6A-B所进一步描述的,具有包含BT高速缓存的二进制翻译器(BT)的处理器将追溯1 500的指令流存储到BT高速缓存。使用剖析器,二进制翻译器标识延迟的不规则载荷(DIRRL)。然后,如下所述,使用优化器,BT确定DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到可预取DIRRL的指令区域。所生成的定制预取器能用软件和/或硬件实现。
对于示例性追溯2的后切片分析和预取器生成
图6A是根据一些实施例的要由剖器剖析然后由优化器优化的汇编指令的代码清单。如所示,汇编代码清单追溯2 600中的每一个指令都包括地址、操作码和操作数,并且一些具有指示它们指令类型的注释。追溯2 600有时被称为“热区域”,并且这里也是循环(具有48个指令)但具有更复杂的控制流程(在图6B和6C中示出)。它具有两个跨步载荷(0x765和0x770)和四个不规则载荷(0x7cb、0x7dc、0x7ea、0x7fb),但没有存储。它还具有在公共分支预测电路上具有高误预测率的三个分支。
还图示了定义追溯2 600的后切片的弧。开始于循环中的最后不规则载荷,在0x7fb处的延迟的不规则载荷、弧A、B、D、E、F、R和S分别标识通过在0x7f4、0x7f1、0x7ee、0x7bf、0x765、0x75e、0x75b和0x7e6处的指令一路回来的依赖性链。这里使用虚线只是允许更容易地在弧之中进行区分。开始于在0x7ea处的倒数第二个不规则载荷,弧G和J分别标识对0x7cf和0x7bf的依赖性,弧H、K、L和M分别标识对0x7dc、0x7d5、0x7d2和0x7bf的依赖性,并且弧I、N、O、P和Q分别标识对0x7cb、0x7c8、0x7c5、0x770和0x75e的依赖性。
为了便于图示和讨论,代码清单追溯2 600已经被划分成八(8)个区域,标记为A602、B 604、C 606、D 608、E 610、F612、G 614和H 616,其每个都结束于分支指令。在图6B中进一步描述和图示了所图示的8个区域,图6B包含对于每一个区域的流程框图中的节点。
图6B是将如图6A中所定义的追溯2 600的区域的后切片图示为流程框图的控制流程图。如所示,追溯2后切片620流程框图包含与在图6A中定义的8个节点对应的9个节点。确切地说,8个节点622、624、626、628、630、632、634和636被标记为A到H,并且由与图6A中的区域相同的在每个节点中的指令界定。
图6C图示了作为流程框图的图6A的追溯2的指令流程的后切片。如所示,追溯2后切片640流程框图包含对应于18个后切片指令的18个节点642、644、646、648、650、652、654、656、658、660、662、664、666、668、670、672、667和676以及标记后切片指令之中的依赖性的标记为A至S的19个路径。所图示的节点之中的路径匹配图6A中的追溯2的指令之中的弧。
如关于图5B、6B和6C所图示和描述的,追溯1和追溯2的后切片捕获不规则载荷的连续迭代之间的数据流。前沿(从较低指令地址到较高指令地址)指示迭代内的数据流,而后沿(从较高指令地址到较低指令地址)指示来自循环的先前迭代的数据流。
在图5B和6C中,表示规则和恒定载荷的节点用“#”符号标记,而不规则载荷用“*”标记。能看到,不规则载荷的后切片中的指令数量显著小于循环的大小(追溯1中8<17,并且追溯2中18<48)。因此,所公开的实施例有利地能够对目标不规则载荷预取所有相关的依赖性,而不必预取由程序存取的所有数据。
所公开实施例的另一个优点是该后切片中的循环捕获不规则载荷的连续迭代之间的临界关系。循环描述了如下情况:由稍后指令执行的计算取决于较早指令的输出,并且产生新值,该值本身在指令随后被执行时由先前的指令所依赖。例如,图5B展示出两个循环,它们是:(0xee7,00eea)和(0xee2,0xefb)。这些当中,后者是简单的循环,仅由寄存器移动组成,并且能被忽略。类似地,在来自追溯2的区域中有三个循环:(0x7e6)、(0x765,0x7bf)和(0x770,0x7c5)。这些循环捕获不规则载荷的连续动态实例的虚拟地址之间的实质递归关系。要注意的是,这些循环具有的指令数量显著少于后切片本身(在追溯1中4对8,并且在追溯2中8对18)。
优化器确定是否“可预取”
优化器通过分析该指令的后切片来确定延迟的不规则载荷是否可预取。“可预取”载荷是其后切片具有完全由非存储器操作或规则存储器操作构成的循环的那些载荷。如果确定不规则延迟负荷是可预取的,则优化器为含有可预取载荷的代码区域生成定制预取器。
在一些实施例中,来自追溯2的区域中的所有循环都由非存储器操作或规则存储器操作构成。由于0x765和0x770的后切片仅含有具有单个寄存器增量的单个循环(0x7e6),因此静态明显的是,它们都是跨步载荷。从而,循环(0x765,0x7bf)和(0x770,0x7c5)没有任何不规则的存储器操作。
因此,只要循环执行足够长的时间,这些循环就能在主计算之前“运行”(通过预取跨步载荷)多次迭代。另一方面,追溯1(0xee7,0xeea)中的非简单循环具有一个恒定地址载荷(0xee7),但另一个载荷(0xeea)是不规则的。因此,只是通过预取0xee7是不可能“运行”此循环的。事实上,0xeea是“指针追逐”载荷,其到存储器的等待时间不能被减少,除了将整个计算移位得更靠近存储器之外。从上面的推理,追溯2中的区域是“可预取的”,而追溯1中的区域不是。
如上所述,优化器对具有不规则载荷的区域执行数据流分析。它为地址计算的整数数据流生成数据流图,并枚举图中的所有初级循环。如果没有初级循环具有任何不规则存储器操作,则优化器将该区域确定为可预取,并为其生成定制预取器。
所公开实施例的另一个有利方面源于如下事实:不规则载荷中的流行模式与跨步载荷是间接,即,跨步载荷的值被用作具有可选线性变换的不规则载荷的地址(K1*地址+K2,其中K1和K2是常数)。这发生在间接编程存取模式中,诸如A[B[i]],其中B是毗连的索引阵列。在所公开实施例中应用的技术将不仅将这样的场景确定为可预取的并为它们生成定制预取器,而且还适用于其中变换能是任何任意函数(不一定是线性的,即A[f(B[i]],其中f是任意函数)的更一般情形。比如,这种存取模式在散列表中很流行,其中f是所关注的散列函数。
优化器生成定制预取器
根据所公开的实施例,在标识可预取载荷之后的下一步骤是为它们生成定制预取器。在一些实施例中,软件剖析器应用启发式方法来定义定制预取器,或者作为软件或者作为硬件,以从循环中预取所计算数量的指令迭代价值,其中计算涉及估计执行循环中的指令将花费多长时间,并且然后预取足够的循环迭代以建立“前瞻”,并保持足够在代码指令之前,以便隐藏由高速缓存未命中所遇到的等待时间。
更进一步,在一些实施例中,软件剖析器标识循环中预期需要相对较高数量的循环来执行的一个或多个“临界载荷”,并且然后生成针对那些(一个或多个)临界载荷的定制预取器。临界载荷可包含经历频繁高速缓存未命中的载荷。临界载荷可包含与复杂算术运算耦合的载荷。在一些实施例中,定制预取器使处理器聚焦在临界载荷(如果有的话)。为了聚焦在临界载荷,定制预取器可使处理器在非临界操作之前执行那些临界载荷。
在一些实施例中,除了寄存器移动之外,在后切片中执行并被选择用于包含在定制预取器中的运算是加载和算术和/或逻辑运算,它们在硬件预取器的情况下全都使用几个专用地址生成单元和ALU来实现。所选择的算术和/或逻辑运算(如果有的话)包含加法、减法、递增、递减、乘法、除法、与、或、异或、否定和移位中的一个或多个。在一些实施例中,所选择的算术运算,在一些实施例中,所选择的算术运算包含复数运算,诸如平方根。在一些实施例中,所选择的算术运算包含三角运算。
图7A图示了根据一些实施例的示例性应用特定的定制软件预取器。所图示的是使用预取提示指令‘prefetch0/’为追溯2生成的定制软件预取器。通过在地址0x770处的指令之后插入软件预取片断700并且在主循环之前保持两次迭代来实现预取。所公开的实施例假定%bn是为BT的使用预留的寄存器,并且追溯2的指令“0x75e:andl $0x1fff,%r13d”处的掩码不会引起环绕。因此,在一些实施例中,在用定制预取器进入循环之前,在BT生成的代码之前插入对于环绕条件的一次性检查。在一些实施例中,对于当环绕条件为真时的罕见情形,使用没有定制预取器的循环的单独版本。还有,软件预取片断700在循环的连续迭代之间没有任何介于之中的存储。如果存在介于之中的存储,则将采用BT引擎的推测性载荷和别名检查支持。
在一些实施例中,定制软件预取片断700中的所有载荷被制成推测性载荷以确保对应用的存储器排序没有改变。
图7B图示了根据一些实施例的对应于图7A的定制软件预取器的示例性应用特定的定制硬件预取器。硬件预取器720是用于追溯2的预取器的硬件备选,并且在与CPU的跨步载荷预取器(图7B中的跨步器1 722和跨步器2 724)紧密耦合的定制硬件中实现。跨步器块的输入是对于用户想要跟踪地址的跨步载荷指令(在地址0x765和0x770处)。“值”块726和728存取高速缓存和数据翻译后备缓冲器(DTLB),而“+”运算730和732以及“&”运算734和736分别是加法运算和逐位“与”运算。“地址”块738是地址生成单元,其基于值740和基址-索引-缩放输入来计算虚拟地址742。为了清楚起见,图7B示出了其中预取器在主计算之前保持一次迭代的场景。然而,此前瞻能通过将跨步器配置为对应地保持进一步提前并且通过再用ALU进行前瞻的多次迭代来递增。要注意到,在一些实施例中,此硬件在进入循环时被启用并在从其退出时被停用。
另外的示例
示例1提供了示例性处理器,其包含:高速缓冲存储器;提取和解码电路,用于从存储器提取和解码指令;以及执行电路,包含二进制翻译器(BT),用于通过如下方式响应解码的指令:将解码的指令流存储在BT高速缓存中,标识流之中的延迟的不规则载荷(DIRRL),确定DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到可预取DIRRL的指令区域。
示例2包含示例1的示例性处理器的实质,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
示例3包含示例2的示例性处理器的实质,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
示例4包含示例3的示例性处理器的实质,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且确定当所述后切片包含完全由非存储器操作或规则存储器操作构成的循环时所述DIRRL是可预取的。
示例5包含示例4的示例性处理器的实质,其中定制预取器使处理器预取后切片之中的单个临界载荷。
示例6包含示例4的示例性处理器的实质,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有比在所述后切片中含有的指令更少的指令。
示例7包含示例1的示例性处理器的实质,其中定制预取器包含存储在所述存储器中的指令流之中的一个或多个预取提示。
示例8包含示例1的示例性处理器的实质,其中所述定制预取器包含使用所述执行电路的硬件预取器。
示例9包含示例1的示例性处理器的实质,其中BT与执行电路分开。
示例10包含示例1的示例性处理器的实质,其中BT被结合到执行电路中。
示例11提供了由处理器执行的示例性方法,所述方法包含:使用提取和解码电路从存储器提取和解码指令;使用二进制翻译器用执行电路对解码的指令进行响应以:将解码的指令流存储在BT高速缓冲存储器中;跟踪载荷指令的高速缓存未命中以标识延迟载荷;剖析延迟载荷的连续实例的地址增量以标识延迟的不规则载荷(DIRRL);通过分析DIRRL的连续动态实例之间的后切片来确定所述DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到所述可预取DIRRL的指令区域。
示例12包含示例11的示例性方法的实质,其中所述DIRRL是其连续实例经历大于第一阈值数量的高速缓存未命中的延迟加载。
示例13包含示例12的示例性方法的实质,其中所述DIRRL进一步是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
示例14包含示例11的示例性方法的实质,其中确定当所述后切片包含完全包含非存储器操作或规则存储器操作的指令时所述DIRRL是可预取的。
示例15包含示例11的示例性方法的实质,其中所述定制预取器包含在存储器中的指令流之中存储在所述存储器中的一个或多个预取提示。
示例16包含示例11的示例性方法的实质,其中所述定制预取器包含使用所述执行电路的定制硬件预取器。
示例17包含示例11的示例性处理器的实质,其中定制预取器使处理器预取后切片之中的单个临界载荷。
示例18包含示例11的示例性处理器的实质,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
示例19包含示例11的示例性方法的实质,其中BT与执行电路分开。
示例20包含示例11的示例性方法的实质,其中BT被结合到执行电路中。
示例21提供了示例性处理器,其包括:高速缓冲存储器;提取和解码电路,用于从存储器提取和解码指令;以及二进制翻译器(BT),用于通过如下方式对解码的指令进行响应:将多个解码的指令流存储在BT高速缓存中,标识存储的指令之中的延迟的不规则载荷(DIRRL),确定DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到可预取DIRRL的指令区域。
示例22包含示例21的示例性处理器的实质,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
示例23包含示例22的示例性处理器的实质,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
示例24包含示例23的示例性处理器的实质,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且确定当所述后切片包括完全由非存储器操作或规则存储器操作构成的循环时所述DIRRL是可预取的。
示例25包含示例24的示例性处理器的实质,其中定制预取器使处理器预取后切片之中的一个或多个临界载荷。
示例26包含示例24的示例性处理器的实质,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
示例27包含示例21的示例性处理器的实质,其中所述定制预取器包括存储在所述存储器中的所述多个指令之中的一个或多个预取提示。
示例28包含示例21的示例性处理器的实质,其中所述定制预取器包括使用所述执行电路的硬件预取器。
示例29包含示例21的示例性处理器的实质,其中所述处理器进一步包含执行电路,并且其中所述BT与所述执行电路分开。
示例30包含示例21的示例性处理器的实质,其中所述处理器进一步包含执行电路,并且其中所述BT被结合到所述执行电路中。
示例31提供了含有指令的示例性非暂态计算机可读介质,所述指令在由计算设备执行时使计算设备通过如下方式进行响应:使用提取和解码电路从存储器提取和解码指令;使用二进制翻译器(BT)对解码的指令进行响应以:将多个解码的指令存储在BT高速缓冲存储器中;跟踪载荷指令的高速缓存未命中以标识延迟载荷;剖析延迟载荷的连续实例的地址增量以标识延迟的不规则载荷(DIRRL);以及通过分析DIRRL的连续动态实例之间的后切片来确定所述DIRRL是否是可预取的,并且如果是,则生成定制预取器以使处理器预取引导到所述可预取DIRRL的指令区域。
示例32包含示例31的示例性计算机可读介质的实质,其中所述DIRRL是其连续实例经历大于第一阈值数量的高速缓存未命中的延迟加载。
示例33包含示例32的示例性计算机可读介质的实质,其中所述DIRRL在其连续动态实例之中至少具有第二阈值数量的地址增量,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
示例34包含示例31的示例性计算机可读介质的实质,其中所述DIRRL被确定为当所述后切片包括完全包括非存储器操作或规则存储器操作的指令时是可预取的。
示例35包含示例31的示例性计算机可读介质的实质,其中所述定制预取器包括在存储器中的所述多个指令之中的在所述存储器中存储的一个或多个预取提示。
本发明还提供如下技术方案:
技术方案1. 一种处理器,包括:
高速缓冲存储器;
提取和解码电路,所述提取和解码电路用于从存储器提取和解码指令;以及
执行电路,所述执行电路包括二进制翻译器(BT),以通过如下方式来响应所述解码的指令:
将多个所述解码的指令存储在BT高速缓存中;
标识所述存储的指令之中的延迟的不规则载荷(DIRRL);
确定所述DIRRL是否是可预取的;并且
如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。
技术方案2. 如技术方案1所述的处理器,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
技术方案3. 如技术方案2所述的处理器,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
技术方案4. 如技术方案3所述的处理器,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且当所述后切片包括完全由非存储器操作或规则存储器操作构成的循环时,确定所述DIRRL是可预取的。
技术方案5. 如技术方案4所述的处理器,其中所述定制预取器通过仅将一个或多个临界载荷入队而其他的不入队来使所述处理器聚焦在所述后切片之中的所述一个或多个临界载荷上。
技术方案6. 如技术方案4所述的处理器,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
技术方案7. 如技术方案1所述的处理器,其中所述定制预取器包括存储在所述存储器中的所述多个指令之中的一个或多个预取提示。
技术方案8. 如技术方案1所述的处理器,其中所述定制预取器包括使用所述执行电路的硬件预取器。
技术方案9. 如技术方案1所述的处理器,其中所述定制预取器包括要使用所述处理器的现有指令执行流水线执行的一个或多个预取提示指令。
技术方案10. 如技术方案1所述的处理器,其中所述定制预取器包括使用所述处理器的现有执行集群的硬件预取器。
技术方案11. 一种处理器,包括:
高速缓冲存储器;
提取和解码电路,所述提取和解码电路用于从存储器提取和解码指令;以及
二进制翻译器(BT),所述二进制翻译器用于通过如下方式来响应所述解码的指令:
将多个所述解码的指令存储在BT高速缓存中;
标识所述存储的指令之中的延迟的不规则载荷(DIRRL);
确定所述DIRRL是否是可预取的;并且
如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。
技术方案12. 如技术方案11所述的处理器,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
技术方案13. 如技术方案12所述的处理器,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
技术方案14. 如技术方案13所述的处理器,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且当所述后切片包括完全由非存储器操作或规则存储器操作构成的循环时,确定所述DIRRL是可预取的。
技术方案15. 如技术方案14所述的处理器,其中所述定制预取器在执行所述预取时使所述处理器在执行非临界载荷之前执行所述后切片之中的一个或多个临界载荷。
技术方案16. 如技术方案14所述的处理器,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
技术方案17. 如技术方案11所述的处理器,其中所述定制预取器包括存储在所述存储器中的所述多个指令之中的一个或多个预取提示。
技术方案18. 如技术方案11所述的处理器,其中所述定制预取器包括使用所述执行电路的硬件预取器。
技术方案19. 如技术方案11所述的处理器,其中所述处理器进一步包含执行电路,并且其中所述BT与所述执行电路分开。
技术方案20. 如技术方案11所述的处理器,其中所述处理器进一步包含执行电路,并且其中所述BT被结合到所述执行电路中。
技术方案21. 一种含有指令的非暂态计算机可读介质,所述指令在由计算设备执行时使所述计算设备通过以下方式进行响应:
使用提取和解码电路从存储器提取和解码指令;以及
使用二进制翻译器(BT)响应解码的指令以:
将多个解码的指令存储在BT高速缓冲存储器中;
跟踪载荷指令的高速缓存未命中以标识延迟载荷;
剖析所述延迟载荷的连续实例的地址增量以标识延迟的不规则载荷(DIRRL);以及
通过分析所述DIRRL的连续动态实例之间的后切片来确定所述DIRRL是否是可预取的,并且如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。
技术方案22. 如技术方案21所述的计算机可读介质,其中所述DIRRL是其连续实例经历大于第一阈值数量的高速缓存未命中的延迟加载。
技术方案23. 如技术方案22所述的计算机可读介质,其中所述DIRRL在其连续动态实例之中至少具有第二阈值数量的地址增量,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
技术方案24. 如技术方案21所述的计算机可读介质,其中当所述后切片包括完全包括非存储器操作或规则存储器操作的指令时,确定所述DIRRL是可预取的。
技术方案25. 如技术方案21所述的计算机可读介质,其中所述定制预取器包括在存储器中的所述多个指令之中的存储在所述存储器中的一个或多个预取提示。
指令集
指令集可包含一个或多个指令格式。给定指令格式可以定义除了其它事项外指定要执行的操作(操作码)以及在其上要执行操作的(一个或多个)操作数的各种字段(位数、位的位置等)和/或(一个或多个)其它数据字段(例如掩码)。一些指令格式通过指令模板(或子格式)的定义进一步分解。例如,给定指令格式的指令模板可以被定义为具有指令格式的字段的不同子集(所包含的字段通常以相同次序,但是至少一些具有不同的位位置,因为包含的字段较少)和/或定义为以不同方式解释给定字段。从而,ISA的每个指令使用给定指令格式表示(并且,如果定义,则在该指令格式的指令模板中的给定一个)并且包含用于指定操作和操作数的字段。例如,示例性ADD指令具有特定操作码和指令格式,其包含指定操作码的操作码字段和选择操作数(source1/destination和source2)的操作数字段;在指令流中出现此ADD指令将在操作数字段中具有选择特定操作数的特定内容。已发行和/或发表了称为高级向量扩展(AVX)(AVX1和AVX2)并使用向量扩展(VEX)译码方案的SIMD扩展的集合(例如,参见Intel® 64和IA-32架构软件开发人员手册,2014年9月;并且参见Intel®高级向量扩展编程参考,2014年10月)。
示例性指令格式
本文描述的指令的实施例可以以不同的格式实施。此外,下面详述了示例性系统、架构和流水线。指令的实施例可以在这样的系统、架构和流水线上执行,但不限于详述的那些。
一般向量友好指令格式
向量友好指令格式是适合于向量指令的指令格式(例如,存在对向量操作特定的某些字段)。虽然描述了通过向量友好指令格式支持向量和标量运算的实施例,但是备选实施例仅使用向量友好指令格式的向量运算。
图8A和-8B是图示根据本发明一些实施例的一般向量友好指令格式及其指令模板的框图。图8A是图示根据本发明一些实施例的一般向量友好指令格式及其A类指令模板的框图;而图8B是图示根据本发明一些实施例的一般向量友好指令格式及其B类指令模板的框图。确切地说,一般向量友好指令格式800被定义为A类和B类指令模板,它们都包含无存储器存取805指令模板和存储器存取820指令模板。在向量友好指令格式的上下文中,术语通用指的是不束缚于任何特定指令集的指令格式。
虽然将描述向量友好指令格式支持如下大小的本发明实施例:具有32位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且从而,64字节向量由16个双字大小的元素组成,或者备选地由8个四字大小的元素组成);具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小);具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小);具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小);但备选实施例可以支持具有更多、更少或不同数据元素宽度(例如,128位(16字节)数据元素宽度)的更多、更少和/或不同的向量操作数大小(例如,256字节向量操作数)。
图8A中的A类指令模板包含:1)在无存储器存取805指令模板内,示出了无存储器存取、完整舍入控制类型操作810指令模板和无存储器存取、数据变换类型操作815指令模板;以及2)在存储器存取820指令模板内,示出了存储器存取、暂时825指令模板和存储器存取、非暂时830指令模板。图8B中的B类指令模板包含:1)在无存储器存取805指令模板内,示出了无存储器存取、写掩码控制、部分舍入控制类型操作812指令模板和无存储器存取、写掩码控制、vsize类型操作817指令模板;以及2)在存储器存取820指令模板内,示出了存储器存取、写掩码控制827指令模板。
一般向量友好指令格式800包含以下按图8A-8B图示的次序列出的以下字段。
格式字段840-该字段中的特定值(指令格式标识符值)独特地标识向量友好指令格式,并且从而在指令流中出现以向量友好指令格式的指令。像这样,该字段是可选的,在某种意义上,对于仅具有一般向量友好指令格式的指令集不需要它。
基本操作字段842-其内容区分不同的基本操作。
寄存器索引字段844-其内容直接或通过地址生成来指定源操作数和目的地操作数的位置,无论它们在寄存器中还是在存储器中。这些包含足够数量的位以从PxQ(例如32x512、16x128、32x1024、64x1024)寄存器堆中选择N个寄存器。虽然在一个实施例中,N可以多达三个源寄存器和一个目的地寄存器,但是备选实施例可以支持更多或更少的源寄存器和目的地寄存器(例如,可以支持多达两个源,其中这些源中的一个还充当目的地,可以支持 多达三个源,其中这些源中的一个还充当目的地,可以支持多达两个源和一个目的地)。
修改符字段846-其内容区分一般向量指令格式中指定存储器存取的指令的出现与不指定存储器存取的指令的出现;也就是,在无存储器存取805指令模板和存储器存取820指令模板之间。存储器存取操作读取和/或写入存储器层级(在一些情况下使用寄存器中的值指定源地址和/或目的地地址),而非存储器存取操作不这样(例如,源和目的地是寄存器)。虽然在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是备选实施例可以支持更多、更少或不同的方式来执行存储器地址计算。
扩增操作字段850-其内容区分除基本操作之外还要执行各种不同操作中的哪一个。此字段是上下文特定的。在一些实施例中,这个字段被划分成类别字段868、α字段852和β字段854。扩增操作字段850允许在单个指令中而不是2个、3个或4个指令中执行公共操作组。
缩放字段860-其内容允许缩放索引字段的内容用于存储器地址生成(例如,用于使用2缩放*索引+基址的地址生成)。
位移字段862A-其内容被用作存储器地址生成的一部分(例如,用于使用2缩放*索引+基址+位移的地址生成)。
位移因子字段862B(注意,位移字段862A直接在位移因子字段862B上的并置指示使用了一个或另一个)-其内容被用作地址生成的一部分;它指定位移因子,该位移因子要由存储器存取的大小(N)来缩放 - 其中N是存储器存取中的字节数(例如,对于使用2缩放*索引+基址+缩放的地址生成)。冗余低阶位被忽略了,并且因此,位移因子字段的内容被乘以存储器操作数总大小(N),以便生成在计算有效地址时要使用的最终位移。N的值由处理器硬件在运行时间基于完整操作码字段874(本文后面描述)和数据操纵字段854C来确定。位移字段862A和位移因子字段862B在它们不被用于无存储器存取805指令模板和/或不同实施例可以仅实现两者之一或都不实现的意义上是可选的。
数据元素宽度字段864-其内容区分要使用若干数据元素宽度中的哪一个(在一些实施例中用于所有指令;在其他实施例中仅用于其中一些指令)。此字段是可选的,在某种意义上,如果仅使用操作码的某一方面支持一个数据元素宽度和/或支持多个数据元素宽度,则不需要它。
写掩码字段870-其内容在每个数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映了基本操作和扩增操作的结果。A类指令模板支持合并-写掩蔽,而B类指令模板支持合并-和归零-写掩蔽两者。当合并时,向量掩码允许在执行任何操作(由基本操作和扩增操作指定的)期间保护目的地中的任一组元素免受更新;在另一个实施例中,保留对应掩码位具有0的目的地的每个元素的旧值。相比之下,当归零时向量掩码允许在执行任何操作(由基本操作和扩增操作指定的)期间将目的地中的任一组元素归零;在一个实施例中,当对应的掩码位具有0值时,目的地的元素被设置为0。此功能性的子集是控制正在执行的操作的向量长度(也就是,从第一个到最后一个修改元素的跨度)的能力;然而,被修改的元素没有必要是连贯的。从而,写掩码字段870允许部分向量操作,包含加载、存储、算术、逻辑等。虽然描述了其中写掩码字段870的内容选择包含要使用的写掩码的若干写掩码寄存器中的一个(并且从而写掩码字段870的内容间接地标识要执行的掩蔽)的本发明实施例,但备选实施例相反或此外允许掩码写字段870的内容直接指定要执行的掩蔽。
立即字段872-其内容允许指定立即数。此字段是可选的,在某种意义上,它不存在于不支持立即数的一般向量友好格式的实现中,并且它不存在于不使用立即数的指令中。
类别字段868-其内容区分不同类别的指令。参考图8A-B,该字段的内容在A类和B类指令之间进行选择。在图8A-B中,圆角方块被用于指示字段中存在的特定值(例如,在图8A-B中分别为类别字段868的A类868A和B类868B)。
A类指令模板
在A类的非存储器存取805指令模板的情况中,α字段852被解释为RS字段852A,其内容区分不同扩增操作类型中的哪一个要被执行(例如,分别为无存储器存取、舍入类型操作810和无存储器存取、数据变换类型操作815指令模板指定舍入852A.1和数据变换852A.2),而β字段854区分指定类型的操作中的哪个要被执行。在无存储器存取805指令模板中,不存在缩放字段860、位移字段862A和位移缩放字段862B。
无存储器存取指令模板-完整舍入控制类型操作
在无存储器存取完整舍入控制类型操作810指令模板中,β字段854被解释为舍入控制字段854A,其内容提供静态舍入。虽然在本发明的所描述实施例中,舍入控制字段854A包含抑制所有浮点异常(SAE)字段856和舍入操作控制字段858,但是备选实施例可以支持可将这些概念编码到同一字段中,或仅具有这些概念/字段中的一个或另一个(例如,可以仅具有舍入操作控制字段858)。
SAE字段856-其内容区分是否禁用异常事件报告;当SAE字段856的内容指示启用抑制时,给定的指令不报告任何种类的浮点异常标志,并且也不引发任何浮点异常处理程序。
舍入操作控制字段858-其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、朝零舍入和向最接近的舍入)。因此,舍入操作控制字段858允许基于每个指令改变舍入模式。在其中处理器包含用于指定舍入模式的控制寄存器的一些实施例中,舍入操作控制字段850的内容改写该寄存器值。
无存储器存取指令模板-数据变换类型操作
在无存储器存取数据变换类型操作815指令模板中,β字段854被解释为数据变换字段854B,其内容区分要执行若干数据变换中的哪一个(例如,无数据变换、打乱、广播)。
在A类的存储器存取820指令模板的情况下,α字段852被解释为驱逐提示字段852B,其内容区分要使用哪一个驱逐提示(在图8A中,分别为存储器存取、暂时825指令模板和存储器存取、非暂时830指令模板指定了暂时852B.1和非咋没时间哦852B.2),而β字段854被解释为数据操纵字段854C,其内容区分要执行若干数据操纵操作(也称为基元)中的哪一个(例如,无操纵;广播;源的向上转换;以及目的地的向下转换)。存储器存取820指令模板包含缩放字段860,以及可选的位移字段862A或位移缩放字段862B。
向量存储器指令通过转换支持执行从存储器加载向量和向存储器存储向量。与规则向量指令一样,向量存储器指令以逐个数据元素的方式从/向存储器传输数据,其中实际传输的元素由被选择作为写掩码的向量掩码的内容决定。
存储器存取指令模板-暂时
暂时数据是可能足够快被重用的数据,以从高速缓存中受益。然而,这是一个提示,并且不同的处理器可以以不同的方式实现它,包含完全忽略该提示。
存储器存取指令模板-非暂时
非暂时数据是不太可能足够快被重用的数据,以从第一级高速缓存中的高速缓存中受益,并且应该对于驱逐给出优先权。然而,这是一个提示,并且不同的处理器可以以不同的方式实现它,包含完全忽略该提示。
B类指令模板
在B类的指令模板的情况下,α字段852被解释为写掩码控制(Z)字段852C,其内容区分由写掩码字段870控制的写掩蔽是应该合并还是归零。
在B类的非存储器存取805指令模板的情况中,β字段854的一部分被解释为RL字段857A,其内容区分不同扩增操作类型中的哪一个要被执行(例如,分别为无存储器存取、写掩码控制、部分舍入控制类型操作812指令模板和无存储器存取、写掩码控制、VSIZE类型操作817指令模板指定舍入852A.1和向量长度(VSIZE)857A.2),而β字段854的其余部分区分指定类型的操作中的哪个要被执行。在无存储器存取805指令模板中,不存在缩放字段860、位移字段862A和位移缩放字段862B。
在无存储器存取、写掩码控制、部分舍入控制类型操作810指令模板中,β字段854的其余部分被解释为舍入操作字段859A,并且异常事件报告被禁用(给定指令不报告任何种类的浮点异常标志,并且不会引发任何浮点异常处理程序)。
舍入操作控制字段859A-正如舍入操作控制字段858,其内容区分要执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、朝零舍入和向最接近的舍入)。因此,舍入操作控制字段859A允许基于每个指令改变舍入模式。在其中处理器包含用于指定舍入模式的控制寄存器的一些实施例中,舍入操作控制字段850的内容改写该寄存器值。
在无存储器存取、写掩码控制、VSIZE类型操作817指令模板中,β字段854的其余部分被解释为向量长度字段859B,其内容区分要在其上执行若干数据向量长度中的哪一个(例如,128、256或512字节)。
在B类的存储器存取820指令模板的情况中,β字段854的一部分被解释为广播字段857B,其内容区分是否要执行广播类型数据操纵操作,而β字段854的其余部分被解释为向量长度字段859B。存储器存取820指令模板包含缩放字段860,以及可选的位移字段862A或位移缩放字段862B。
关于一般向量友好指令格式800,示出了完整操作码字段874,其包含格式字段840、基本操作字段842和数据元素宽度字段864。虽然示出了其中完整操作码字段874包含所有这些字段的一个实施例,但是在不支持它们所有的实施例中,完整操作码字段874包含少于所有这些字段的字段。完整操作码字段874提供操作代码(操作码)。
扩增操作字段850、数据元素宽度字段864和写掩码字段870允许在一般向量友好指令格式中基于每个指令指定这些特征。
写掩码字段和数据元素宽度字段的组合创建了类型化指令,因为它们允许基于不同的数据元素宽度来应用掩码。
在A类和B类内找到的各种指令模板在不同情形下是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可以仅支持A类,仅支持B类或两类都支持。比如,预计用于通用计算的高性能通用乱序核可以仅支持B类,预计主要用于图形和/或科学(吞吐量)计算的核可以仅支持A类,并且预计用于二者的核可以支持二者(当然,具有来自这两类的指令和模板的某种混合但不是来自这两类的所有模板和指令的核都在本发明的权限内)。还有,单个处理器可以包含多个核,所有这些核都支持相同的类,或者其中不同的核支持不同的类。比如,在具有单独图形和通用核的处理器中,打算主要用于图形和/或科学计算的图形核之一可以仅支持A类,而通用核中的一个或多个可以是具有打算用于仅支持B类的通用计算的乱序执行和寄存器重命名的高性能通用核。没有单独图形核的另一个处理器可包含A类和B类都支持的一个或多个通用有序或乱序核。当然,在本发明的不同实施例中,来自一个类的特征也可以在另一个类中实现。用高级语言编写的程序将被翻译(例如,只是及时编译或静态编译)成各种不同的可执行形式,包含:1)仅具有用于执行的由目标处理器支持的(一个或多个)类的指令的形式;或者2)具有使用所有类的指令的不同组合编写的备选例程并且具有控制流程代码的形式,该控制流程代码基于当前正在执行代码的处理器所支持的指令来选择要执行的例程。
示例性特定向量向量友好指令格式
图9A是图示根据本发明的一些实施例的示例性特定向量友好指令格式的框图。图9A示出了特定向量友好指令格式900,其在它指定字段的位置、大小、解释和次序以及那些字段中的一些字段的值的意义上是特定的。特定向量友好指令格式900可以用于扩展x86指令集,并且从而其中一些字段与在现有x86指令集及其扩展(例如AVX)中使用的字段类似或相同。此格式与具有扩展的现有x86指令集的前缀编码字段,真操作码字节字段、MOD R/M字段、SIB字段、位移字段以及立即字段保持一致。图示了来自图9A的字段映射到的来自图8的字段。
应当理解,尽管出于说明性目的,在一般向量友好指令格式800的上下文中参考特定向量友好指令格式900描述了本发明的实施例,但除非在声明之处,本发明不限于特定向量友好指令格式900。例如,一般向量友好指令格式800考虑了用于各种字段的各种可能大小,而特定向量友好指令格式900被示为具有特定大小的字段。作为特定示例,虽然数据元素宽度字段864被图示为特定向量友好指令格式900中的一位字段,但是本发明不限于此(也就是,一般向量友好指令格式800考虑其他大小的数据元素宽度字段864)。
一般向量友好指令格式800包含以下按图9A中图示的次序列出的以下字段。
EVEX前缀(字节0-3)902以四字节形式编码。
格式字段840(EVEX字节0,位[7:0])- 第一字节(EVEX字节0)是格式字段840,并且它包含0x62(在一些实施例中是用于区分向量友好指令格式的独特值)。
第二-四字节(EVEX字节1-3)包含提供特定能力的若干位字段。
REX字段905(EVEX字节1,位[7-5])由EVEX.R位字段(EVEX字节1,位[7] -R)、EVEX.X位字段(EVEX字节1,位[6] - X)和857BEX字节1,位[5]-B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能性,并且使用1s补码形式编码,即,ZMM0被编码为1111B,ZMM15被编码为0000B。指令的其他字段如在本领域是公知的对寄存器索引的较低三位(rrr、xxx和bbb)进行编码,使得可以通过添加EVEX.R、EVEX.X和EVEX.B来形成Rrrr、Xxxx和Bbbb。
REX’910A - 这是REX’字段910的第一部分,并且是EVEX.R’位字段(EVEX字节1,位[4] -R’),其用于对扩展32寄存器集的上半部16或下半部16进行编码。在一些实施例中,该位连同如下所指示的其他位以位反转的格式进行存储,以区分(在众所周知的x86 32位模式中)与BOUND指令,其真操作码字节为62,但在MOD R/M字段(下面描述)中不接受MOD字段中的值11;本发明的备选实施例不以反转格式存储这个位以及下面指示的其它位。值1被用于对较低16位寄存器进行编码。换言之,R’Rrrr是通过组合EVEX.R’、EVEX.R和来自其他字段的其他RRR而形成的。
操作码映射字段915(EVEX字节1,位[3:0]-mmmm)- 其内容对隐含的前导操作码字节(0F、0F 38或0F 3)进行编码。
数据元素宽度字段864(EVEX字节2,位[7] -W)- 由记号EVEX.W表示。EVEX.W用于定义数据类型(或者32位数据元素或者64位数据元素)的粒度(大小)。
EVEX.vvvv 920(EVEX 字节2,位[6:3] -vvvv) - EVEX.vvvv的作用可包含以下内容:1)EVEX.vvvv对以反转(1补码)形式指定的第一个源寄存器操作数进行编码,并且对于具有2个或更多源操作数的指令有效;2)EVEX.vvvv对用于某些向量移位以1补码形式指定的目的地寄存器操作数进行编码;或者3)EVEX.vvvv不对任何操作数进行编码,该字段是预留的,并且应该包含1111b。因此,EVEX.vvvv字段920对以反转(1补码)形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于指令,使用额外的不同EVEX位字段将指定符大小扩展为32个寄存器。
EVEX.U 868类别字段(EVEX字节2,位[2]-U) - 如果EVEX.U = 0,则它指示A类或EVEX.U0;如果EVEX.U = 1,则它指示B类或EVEX.U1。
前缀编码字段925(EVEX字节2,位[1:0]-pp)-为基本操作字段提供附加位。除了为以EVEX前缀格式的遗留SSE指令提供支持之外,这还具有压缩SIMD前缀的好处(而不是要求字节表述SIMD前缀,EVEX前缀仅需要2位)。在一个实施例中,为了支持在遗留格式中和在EVEX前缀格式两者中使用SIMD前缀(66H、F2H、F3H)的遗留SSE指令,将这些遗留SIMD前缀编码到SIMD前缀编码字段中;并且在运行时间在将其提供给解码器的PLA之前扩充到遗留SIMD前缀中(因此,PLA能执行这些遗留指令的遗留和EVEX格式而无需修改)。尽管较新的指令可能直接使用EVEX前缀编码字段的内容作为操作码扩展,但是某些实施例以类似的方式扩充以保持一致性,但允许由这些遗留SIMD前缀指定不同的意义。备选实施例可以重新设计PLA以支持2位SIMD前缀编码,并且从而不需要扩充。
α字段852(EVEX字节3,位[7]-EH;也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制和EVEX.N;也用α图示)- 如前所述,这个字段是上下文特定的。
β字段854(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也用βββ图示)- 如前所述,这个字段是上下文特定的。
REX’910B-这是REX’字段910的剩余部分,并且是EVEX.V’位字段(EVEX字节3,位[3] -V’),其可用于对扩展32寄存器集合的上半部16或下半部16进行编码。该位以位反转的格式存储。值1被用于对较低16位寄存器进行编码。换言之,V’VVVV通过组合EVEX.V’、EVEX.vvvv形成。
写掩码字段870(EVEX字节3,位[2:0]-kkk)- 其内容指定如前所述的写掩码寄存器中的寄存器的索引。在一些实施例中,特定值EVEX.kkk=000具有特殊行为,暗示没有写掩码被用于具体指令(这可以用各种方式实现,包含使用硬连线到所有的写掩码或绕过掩蔽硬件的硬件)。
真操作码字段930(字节4)也称为操作码字节。操作码的一部分在此字段中指定。
MOD R/M字段940(字节5)包含MOD字段942、Reg字段944和R/M字段946。如前所述,MOD字段942的内容区分存储器存取和非存储器存取操作。Reg字段944的作用能被归纳为两种情形:对目的地寄存器操作数或源寄存器操作数编码或者被视为操作码扩展,并且不用于对任何指令操作数编码。R/M字段946的作用可包含以下内容:对引用存储器地址的指令操作数进行编码,或者对目的地寄存器操作数或源寄存器操作数进行编码。
缩放、索引、基址(SIB)字节(字节6)- 如前所述,缩放字段850的内容被用于存储器地址生成。SIB.xxx 954和SIB.bbb 956 - 这些字段的内容先前已经参考了寄存器索引Xxxx和Bbbb。
位移字段862A(字节7-10)- 当MOD字段942包含10时,字节7-10是位移字段862A,并且其工作方式与遗留的32位位移(disp32)相同,并且以字节粒度工作。
位移因子字段862B(字节7)- 当MOD字段942包含01时,字节7是位移因子字段862B。该字段的位置与遗留x86指令集8位位移(disp8)的位置相同,后者以字节粒度工作。由于disp8是符号扩展的,因此它只能在-128到127字节偏移量之间寻址;就64字节高速缓存行而言,disp8使用8位,这仅能被设置为4个真正有用的值-128、-64、0和64;因为经常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。相比于disp8和disp32,位移因子字段862B是disp8的重新解释;当使用位移因子字段862B时,实际位移由位移因数字段的内容乘以存储器操作数存取(N)的大小来确定。这种类型位移被称为disp8 * N。这减少了平均指令长度(用于位移的单个字节,但具有更大的范围)。这种压缩的位移基于如下假定:有效位移是存储器存取的粒度的倍数,并且因此,不需要对地址偏移的冗余低阶位进行编码。换言之,位移因子字段862B替代遗留x86指令集8位位移。从而,位移因子字段862B以与x86指令集8位位移相同的方式编码(因此ModRM/SIB编码规则中没有改变),独特的例外是disp8被过载到disp8 * N。换言之,编码规则或编码长度没有改变,仅除了在通过硬件的位移值的解译中之外(这需要通过存储器操作数的大小来缩放位移以获得逐字节的地址偏移)。立即字段872如前所述操作。
完整操作码字段
图9B是图示根据一些实施例的构成完整操作码字段874的特定向量友好指令格式900的字段的框图。确切地说,完整操作码字段874包含格式字段840、基本操作字段842和数据元素宽度(W)字段864。基本操作字段842包含前缀编码字段925、操作码映射字段915和真操作码字段930。
寄存器索引字段
图9C是图示根据一些实施例的构成寄存器索引字段844的特定向量友好指令格式900的字段的框图。确切地说,寄存器索引字段844包含REX字段905、REX’字段910、MODR/M.reg字段944、MODR/Mr/m字段946、VVVV字段920、xxx字段954和bbb字段956。
扩增操作字段
图9D是图示根据一些实施例的构成扩增操作字段850的特定向量友好指令格式900的字段的框图。当类(U)字段868包含0时,它表明EVEX.U0(A类868A);当它包含1时,它表明EVEX.U1(B类868B)。当U=0并且MOD字段942包含11(表明无存储器存取操作)时,α字段852(EVEX字节3,位[7]-EH)被解释为rs字段852A。当rs字段852A包含1(舍入852A.1)时,β字段854(EVEX字节3,位[6:4]-SSS)被解释为舍入控制字段854A。舍入控制字段854A包含1位SAE字段856和2位舍入操作字段858。当rs字段852A包含0(数据变换852A.2)时,β字段854(EVEX字节3,位[6:4]-SSS)被解释为3位数据变换字段854B。当U=0并且MOD字段942包含00、01或10(表明存储器存取操作)时,α字段852(EVEX字节3,位[7] -EH)被解释为驱逐提示(EH)字段852B,并且β字段854(EVEX字节3,位[6:4]-SSS)被解释为3位数据操纵字段854C。
当U=1时,α字段852(EVEX字节3,位[7] -EH)被解释为写掩码控制(Z)字段852C。当U=1并且MOD字段942包含11(表明无存储器存取操作)时,β字段854的一部分(EVEX字节3,位[4]-S0)被解释为RL字段857A;当它包含1(舍入857A.1)时,β字段854的其余部分(EVEX字节3,位[6-5] -S2-1)被解释为舍入操作字段859A,而当RL字段857A包含0(VSIZE 857.A2)时,β字段854的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段859B(EVEX字节3,位[6-5]-L1-0)。当U=1并且MOD字段942包含00、01或10(表明存储器存取操作)时,β字段854(EVEX字节3,位[6:4]-SSS)被解释为向量长度字段859B(EVEX字节3,位[6-5]-L1-0)和广播字段857B(EVEX字节3,位[4] -B)。
示例性寄存器架构
图10是根据一些实施例的寄存器架构1000的框图。在图示的实施例中,存在宽度为512位的32个向量寄存器1010;这些寄存器被引用为zmm0至zmm31。较低16个zmm寄存器的较低阶256位被叠加在寄存器ymm0-16上。较低16个zmm寄存器的较低阶128位(ymm寄存器的较低阶128位)被叠加在寄存器xmm0-15上。特定向量友好指令格式900对这些叠加的寄存器堆进行操作,如下表所图示的:
Figure 246288DEST_PATH_IMAGE001
换言之,向量长度字段859B在最大长度和一个或多个其他较短长度之间进行选择,其中每个此类较短长度是前一长度的一半长度;并且没有向量长度字段859B的指令模板在最大向量长度上操作。另外,在一个实施例中,特定向量友好指令格式900的B类指令模板对打包或标量单/双精度浮点数据和打包或标量整数数据进行操作。标量运算是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的运算;较高阶数据元素位置或者保持与它们在指令之前相同或者归零,取决于实施例。
写掩码寄存器1015-在所图示的实施例中,有8个写掩码寄存器(k0至k7),每个64位大小。在替代实施例中,写掩码寄存器1015为16位大小。如前所述,在一些实施例中,向量掩码寄存器k0不能被用作写掩码;当正常将指示k0的编码被用于写掩码时,它选择0xffff的硬连线写掩码,有效地禁止对于该指令的写掩码。
通用寄存器1025-在图示的实施例中,存在16个64位通用寄存器,它们与现有的x86寻址模式一起用于寻址存储器操作数。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP和R8至R15引用。
标量浮点堆栈寄存器堆(x87堆栈)1045,在其上MMX打包整数平直寄存器堆1050被别名化-在图示的实施例中,x87堆栈是用于使用x87指令集扩展对32/64/80位浮点数据执行标量浮点运算的八元素堆栈;而MMX寄存器用于对64位打包整数数据执行操作,以及保存用于在MMX和XMM寄存器之间执行的一些操作的操作数。
备选实施例可使用更宽或更窄的寄存器。此外,备选实施例可以使用更多、更少或不同的寄存器堆和寄存器。
示例性核架构、处理器和计算机架构
处理器核可以以不同的方式、出于不同目的并且在不同处理器中实现。比如,这种核的实现可以包含:1)预计用于通用计算的通用有序核;2)预计用于通用计算的高性能通用乱序核;3)预计主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包含:1)CPU,包含预计用于通用计算的一个或多个通用有序核和/或预计用于通用计算的一个或多个通用乱序核;以及2)协处理器,包含预计主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构,其可包含:1)在与CPU分开的芯片上协处理器;2)与CPU相同的封装中的单独管芯上的协处理器;3)与CPU相同的管芯上的协处理器(在此情况下,此类协处理器有时被称为专用逻辑,诸如集成图形和/或科学(吞吐量)逻辑,或者称为专用核);以及4)在相同管芯上可包含所描述的CPU(有时称为(一个或多个)应用核或(一个或多个)应用处理器)、上述协处理器和附加功能性的片上系统。接下来描述示例性核架构,后面是示例性处理器和计算机架构的描述。
示例性核架构
有序和乱序核框图
图11A是图示根据本发明一些实施例的示例性有序流水线和示例性寄存器重命名、乱序发布/执行流水线两者的框图。图11B是图示根据本发明一些实施例的有序架构核和要包含在处理器中的示例性寄存器重命名、乱序发布/执行架构核两者的示例性实施例的框图。图11A-B中的实线框图示了有序流水线和有序核,而虚线框的可选添加图示了寄存器重命名、乱序发布/执行流水线和核。给定有序方面是乱序方面的子集,将描述乱序方面。
在图11A中,处理器流水线1100包含提取阶段1102、长度解码阶段1104、解码阶段1106、分配阶段1108、重命名阶段1110、调度(也称为分派或发布)阶段1112、寄存器读/存储器读阶段1114、执行阶段1116、写回/存储器写阶段1118、异常处理阶段1122和提交阶段1124。
图11B示出了包含耦合到执行引擎单元1150的前端单元1130的处理器核1190,并且二者都耦合到存储器单元1170。核1190可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或备选核类型。作为又一选项,核1190可以是专用核,诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核等等。
前端单元1130包含耦合到指令高速缓存单元1134的分支预测单元1132,高速缓存单元434耦合到指令翻译后备缓冲器(TLB)1136,TLB 436耦合到指令提取单元1138,指令提取单元438耦合到解码单元1140。解码单元1140(或解码器)可以对指令进行解码,并且作为输出生成一个或多个微操作、微代码入口点、微指令、其它指令或其它控制信号,它们从原始指令中解码,或者以别的方式反映,或者从原始指令导出。解码单元1140可以使用各种不同的机制实现。适合的机制的示例包含但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核1190包含微代码ROM或存储用于某些宏指令的微代码(例如在解码单元1140中或否则在前端单元1130内)的其它介质。解码单元1140耦合到执行引擎单元1150中的重命名/分配器单元1152。
执行引擎单元1150包含耦合到引退单元1154和一组一个或多个调度器单元1156的重命名/分配器单元1152。(一个或多个)调度器单元1156表示任何数量的不同调度器,包含预留站、中央指令窗口等。(一个或多个)调度器单元1156被耦合到(一个或多个)物理寄存器堆(一个或多个)单元1158。(一个或多个)物理寄存器堆单元1158中的每个都表示一个或多个物理寄存器堆,其中的不同物理寄存器堆存储一个或多个不同数据类型,诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状况(例如,是要执行的下一指令的地址的指令指针)等。在一个实施例中,(一个或多个)物理寄存器堆单元1158包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(一个或多个)物理寄存器堆(一个或多个)单元1158由引退单元1154交叠,以图示可实现寄存器重命名和乱序执行的各种方式(例如,使用(一个或多个)重排序缓冲器和(一个或多个)引退寄存器堆;使用(一个或多个)将来堆、(一个或多个)历史缓冲器和(一个或多个)引退寄存器堆;使用寄存器映射和寄存器池等)。引退单元1154和(一个或多个)物理寄存器堆(一个或多个)单元1158耦合到(一个或多个)执行集群1160。(一个或多个)执行集群1160包含一组一个或多个执行单元1162和一组一个或多个存储器存取单元1164。执行单元1162可以对各种类型的数据(例如标量浮点、打包整数、打包浮点、向量整数、向量浮点)执行各种运算(例如移位、加法、减法、乘法)。虽然一些实施例可以包含专用于特定功能或功能集合的若干执行单元,但其它实施例可以包含全都执行所有功能的仅一个执行单元或多个执行单元。调度器单元1156、物理寄存器堆单元1158和(一个或多个)执行集群1160被显示为可能是复数的,因为某些实施例为某些类型的数据/运算创建了单独的流水线(例如,标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线和/或存储器存取流水线,各具有它们自己的调度器单元、(一个或多个)物理寄存器堆单元和/或执行集群—并且在单独存储器存取流水线的情况中,实现了这个流水线的执行集群仅具有(一个或多个)存储器存取单元1164的某些实施例)。还应该理解,在使用单独流水线的情况下,这些流水线中的一个或多个可以是乱序发布/执行,并且其余的是有序的。
该组存储器存取单元1164被耦合到存储器单元1170,其包含耦合到数据高速缓存单元1174的数据TLB单元1172,数据高速缓存单元474耦合到2级(L2)高速缓存单元1176。在一个示例性实施例中,存储器存取单元1164可以包含加载单元、存储地址单元和存储数据单元,其中每个都耦合到存储器单元1170中的数据TLB单元1172。指令高速缓存单元1134进一步耦合到存储器单元1170中的2级(L2)高速缓存单元1176。L2高速缓存单元1176耦合到一个或多个其它级高速缓存,并且最终耦合到主存储器。
作为示例,示例性寄存器重命名、乱序发布/执行核架构可以实现流水线1100如下:1)指令提取1138执行提取和长度解码阶段1102和1104;2)解码单元1140执行解码阶段1106;3)重命名/分配器单元1152执行分配阶段1108和重命名阶段1110;4)(一个或多个)调度器单元1156执行调度阶段1112;5)(一个或多个)物理寄存器堆(一个或多个)单元1158和存储器单元1170执行寄存器读/存储器读阶段1114;执行集群1160执行执行阶段1116;6)存储器单元1170和(一个或多个)物理寄存器堆(一个或多个)单元1158执行写回/存储器写阶段1118;7)各种单元可涉及异常处理阶段1122;8)引退单元1154和(一个或多个)物理寄存器堆(一个或多个)单元1158执行提交阶段1124。
核1190可以支持一个或多个指令集(例如,x86指令集(具有已经随较新版本添加的一些扩展);CA的Sunnyvale的MIPS技术的MIPS指令集;CA的Sunnyvale的ARM控股公司的ARM指令集(具有可选的附加扩展,诸如NEON)),包含本文描述的(一个或多个)指令。在一个实施例中,核1190包含支持打包数据指令集扩展(例如,AVX1、AVX2)由此允许使用打包数据来执行由许多多媒体应用程序所使用的操作的逻辑。
应该理解,核可以支持多线程操作(执行两组或更多组并行运算或线程),并且可以用各种各样的方式这么做,包含时间切片的多线程操作、同时多线程操作(其中单个物理核为物理核同时进行多线程操作的每一个线程提供逻辑核)或它们的组合(例如,时间切片的提取和解码以及此后的同时多线程操作,诸如用Intel®超线程操作技术)。
虽然寄存器重命名在乱序执行的上下文中进行描述,但应该理解,寄存器重命名可被用在有序架构中。虽然图示的处理器实施例还包含单独的指令高速缓存单元1134和数据高速缓存单元1174以及共享L2高速缓存单元1176,但备选实施例可具有用于指令和数据二者的单个内部高速缓存,诸如例如1级(L1)内部高速缓存或多级内部高速缓存。在一些实施例中,系统可包含内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。备选地,所有高速缓存都可以在核和/或处理器的外部。
特定示例性有序核架构
图12A-B图示了更特定的示例性有序核架构的框图,该核将是芯片中的若干逻辑块(包含相同类型和/或不同类型的其他核)之一。逻辑块通过高带宽互连网络(例如,环形网络)与一些固定功能逻辑、存储器I/O接口以及其它必要的I/O逻辑通信,这取决于应用。
图12A是根据本发明一些实施例的单个处理器核连同其到管芯上互连网络1202的连接以及其2级(L2)高速缓存1204的本地子集的框图。在一个实施例中,指令解码器1200支持具有打包数据指令集扩展的x86指令集。L1高速缓存1206允许对标量和向量单元中的高速缓冲存储器进行低时延存取。虽然在一个实施例中(为了简化设计),标量单元1208和向量单元1210使用单独的寄存器集(分别是标量寄存器1212和向量寄存器1214),并且在它们之间传输的数据被写入存储器,并且然后从1级(L1)高速缓存1206中读回,但本发明的备选实施例可以使用不同的方法(例如,使用单个寄存器集或者包含允许数据在两个寄存器堆之间传输而不被写入和读回的通信路径)。
L2高速缓存1204的本地子集是全局L2高速缓存的一部分,全局L2高速缓存被划分为单独的本地子集,每个处理器核心一个。每个处理器核具有到其自己的L2高速缓存1204的本地子集的直接存取路径。由处理器核读取的数据被存储在其L2高速缓存子集1204中,并且能与存取它们自己的本地L2高速缓存子集的其他处理器核并行地快速存取。由处理器核写入的数据被存储在其自己的L2高速缓存子集1204中,并且如果必要的话从其他子集转储清除。环形网络确保对于共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其它逻辑块的代理在芯片内彼此通信。每个环形数据路径每个方向都是1012位宽。
图12B是根据本发明一些实施例的图12A中的处理器核的一部分的展开视图。图12B包含L1高速缓存1204的L1数据高速缓存1206A部分,以及有关向量单元1210和向量寄存器1214的更多细节。确切地说,向量单元1210是16宽向量处理单元(VPU)(参见16宽ALU1228),其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持用打乱单元1220对寄存器输入进行打乱,用数字转换单元1222A-B进行数字转换,以及用存储器输入端上的复制单元1224进行复制。写掩码寄存器1226允许预测结果向量写入。
图13是根据本发明一些实施例的处理器1300的框图,处理器600可以具有多于一个核、可以具有集成存储器控制器、并且可以具有集成图形。图13中的实线框图示了具有单核1302A、系统代理1310、一组一个或多个总线控制器单元1316的处理器1300,而虚线框的可选添加图示了具有多个核1302A-N、系统代理单元1310中的一组一个或多个集成存储器控制器单元1314以及专用逻辑1308的备选处理器1300。
从而,处理器1300的不同实现可以包含:1)具有专用逻辑1008和核1002A-N的CPU,专用逻辑1008是集成图形和/或科学(吞吐量)逻辑(其可包含一个或多个核),而核1302A-N是一个或多个通用核(例如,通用有序核、通用乱序核、二者的组合);2)具有是预计主要用于图形和/或科学(吞吐量)的大量专用核的核1002A-N的协处理器;以及3)具有是大量通用有序核的核1302A-N的协处理器。从而,处理器1300可以是通用处理器、协处理器或专用处理器,诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的许多集成核(MIC)协处理器(包含30个或更多个核)、嵌入式处理器等等。处理器可以实现在一个或多个芯片上。处理器1300可以是一个或多个衬底的一部分,和/或使用若干工艺技术(诸如例如BiCMOS、CMOS或NMOS)中的任何技术实现在一个或多个衬底上。
存储器层级包含核内的高速缓存的一级或更多级、一组或者一个或多个共享高速缓存单元1306以及耦合到该组集成存储器控制器单元1314的外部存储器(未示出)。该组共享高速缓存单元1306可包含一个或多个中级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)或其它级高速缓存、最后一级高速缓存(LLC)和/或它们的组合。虽然在一个实施例中基于环形的互连单元1312互连集成图形逻辑1308(集成图形逻辑1308是专用逻辑的示例并且在本文也称为专用逻辑)、该组共享高速缓存单元1306和系统代理单元1310/(一个或多个)集成存储器控制器单元1314,但是备选实施例可以使用任何数量的用于互连此类单元的公知技术。在一个实施例中,在一个或多个高速缓存单元1306与核1302-A-N之间保持一致性。
在一些实施例中,核1302A-N中的一个或多个能够进行多线程操作。系统代理1310包含协调和操作核1302A-N的那些组件。系统代理单元1010例如可包含功率控制单元(PCU)和显示单元。PCU可以是或者可包含对于调节核1302A-N的功率状态所需的逻辑和组件以及集成图形逻辑1308。显示单元用于驱动一个或多个外部连接的显示器。
核1302A-N在架构指令集方面可以是同质的或异质的;也就是,核1302A-N中的两个或更多个可能能够执行相同指令集,而其它核可能能够仅执行该指令集的子集或不同的指令集。
示例性计算机架构
图14-17是示例性计算机架构的框图。本领域已知的用于膝上型电脑、台式电脑、手持PC、个人数字助理、工程设计工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置和各种其它电子装置的其它系统设计和配置也是适合的。一般而言,能够结合处理器和/或本文所公开的其它执行逻辑的不计其数的系统或电子装置一般是适合的。
现在参考图14,示出了按照本发明一个实施例的系统1400的框图。系统1400可包含一个或多个处理器1410、1415,它们耦合到控制器集线器1420。在一个实施例中,控制器集线器1420包含图形存储器控制器集线器(GMCH)1490和输入/输出集线器(IOH)1450(它们可以在单独的芯片上);GMCH 1490包含耦合到存储器1440和协处理器1445的存储器和图形控制器;IOH 1450将输入/输出(I/O)装置1460耦合到GMCH 1490。备选地,存储器和图形控制器中的一个或二者被集成在处理器内(如本文所描述的),存储器1440和协处理器1445直接耦合到处理器1410,以及具有IOH 1450的单个芯片中的控制器集线器1420。
附加处理器1415的可选性质在图14中用虚线标示。每个处理器1410、1415可以包含本文描述的其中一个或多个处理核,并且可以是某个版本的处理器1300。
存储器1440例如可以是动态随机存取存储器(DRAM)、相变存储器(PCM)或二者的组合。对于至少一个实施例,控制器集线器1420经由多落点总线(诸如前侧总线(FSB)、点对点接口(诸如快速路径互连(QPI))或类似连接1495)与(一个或多个)处理器1410、1415通信。
在一个实施例中,协处理器1445是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。在一个实施例中,控制器集线器1420可包含集成图形加速器。
在物理资源1410、1415之间在包含架构、微架构、热、功耗特性等一连串品质度量方面能存在各种差异。
在一个实施例中,处理器1410执行控制一般类型的数据处理操作的指令。嵌入在指令内的可以是协处理器指令。处理器1410将这些协处理器指令识别为应该由附连的协处理器1445执行的类型。因而,处理器1410在协处理器总线或其它互连上向协处理器1445发布这些协处理器指令(或表示协处理器指令的控制信号)。(一个或多个)协处理器1445接受并执行接收到的协处理器指令。
现在参考图15,示出了按照本发明实施例的第一更特定示例性系统1500的框图。如图15中所示,多处理器系统1500是点对点互连系统,并且包含经由点对点互连1550耦合的第一处理器1570和第二处理器1580。处理器1570和1580中的每个都可以是处理器1300的某一版本。在一些实施例中,处理器1570和1580分别是处理器1410和1415,而协处理器1538是协处理器1445。在另一个实施例中,处理器1570和1580分别是处理器1410、协处理器1445。
示出处理器1570和1580分别包含集成存储器控制器(IMC)单元1572和1582。处理器1570还包含点对点(P-P)接口1576和1578作为其总线控制器单元的一部分;类似地,第二处理器1580包含P-P接口1586和1588。处理器1570、1580可以使用P-P接口电路1578、1588经由点对点(P-P)接口1550互换信息。如图15中所示,IMC 1572和1582将处理器耦合到相应存储器,即存储器1532和存储器1534,它们可以是本地附连到相应处理器的主存储器的各部分。
处理器1570、1580各可使用点对点接口电路1576、1594、1586、1598经由各个P-P接口1552、1554与芯片集1590互换信息。芯片集1590可选地可以经由高性能接口1592与协处理器1538互换信息。在一个实施例中,协处理器1538是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。
共享高速缓存(未示出)可以被包含在任一处理器中或者两个处理器的外部,仍经由P-P互连与处理器连接,使得如果处理器被置于低功率模式,则任一个处理器或两个处理器的本地高速缓存信息可以被存储在共享高速缓存中。
芯片集1590可以经由接口1596耦合到第一总线1516。在一个实施例中,第一总线1516可以是外围组件互连(PCI)总线,或者诸如PCI高速总线或另一第三代I/O互连总线的总线,不过本发明的范围不限如此。
如图15中所示,各种I/O装置1514可被耦合到第一总线1516,连同将第一总线1516耦合到第二总线1520的总线桥1518。在一个实施例中,一个或多个附加处理器1515(诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或者任何其它处理器)都耦合到第一总线1516。在一个实施例中,第二总线1520可以是低管脚计数(LPC)总线。在一个实施例中,各种装置可以耦合到第二总线1520,例如包含键盘和/或鼠标1522、通信装置1527和存储单元1528,诸如盘驱动器或者可包含指令/代码和数据1530的其它大容量存储装置。另外,音频I/O 1524可以耦合到第二总线1520。注意,其它架构是可能的。例如,代替图15的点对点架构,系统可以实现多落点总线或其它此类架构。
现在参考图16,示出了按照本发明实施例的第二更特定示例性系统1600的框图。图15和图16中的相似元件带有相似的附图标记,并且已经从图16中省略了图15的某些方面,以便避免使图16的其它方面模糊不清。
图16图示了处理器1570、1580可分别包含集成存储器和I/O控制逻辑(“CL”) 1572和1582。从而,CL 1572、1582包含集成存储器控制器单元,并且包含I/O控制逻辑。图16不仅图示了存储器1532、1534耦合到CL 1572、1582,而且图示了I/O装置1614也耦合到控制逻辑1572、1582。遗留I/O装置1615耦合到芯片集1590。
现在参考图17,示出了按照本发明实施例的SoC 1700的框图。图13中的类似元件带有相似的附图标记。还有,虚线框是更高级SoC上的可选特征。在图17中,(一个或多个)互连单元1702被耦合到:应用处理器1710,其包含一组一个或多个核1302A-N,其包含高速缓存单元1304A-N和(一个或多个)共享高速缓存单元1306;系统代理单元1310;(一个或多个)总线控制器单元1316;(一个或多个)集成存储器控制器单元1314;一组或一个或多个协处理器1720,它们可包含集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元1730;直接存储器存取(DMA)单元1732;以及用于耦合到一个或多个外部显示器的显示单元1740。在一个实施例中,(一个或多个)协处理器1720是专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。
本文公开的机制的实施例可以用硬件、软件、固件或这种实现方法的组合来实现。本发明的实施例可以被实现为在包括至少一个处理器、存储系统(包含易失性和非易失性存储器和/或存储元件)、至少一个输入装置和至少一个输出装置的可编程系统上执行的计算机程序或程序代码。
程序代码(诸如在图15中图示的代码1530)可被应用于输入指令以执行本文描述的功能,并生成输出信息。输出信息可以以已知方式应用于一个或多个输出装置。为了此申请的目的,处理系统包含具有处理器(诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器)的任何系统。
程序代码可以用高级面向过程或面向对象的编程语言实现,以与处理系统通信。程序代码还可以用汇编语言或机器语言实现(如果期望的话)。实际上,本文描述的机制在范围上不限于任何具体的编程语言。在任何情况下,语言都可以是编译的或解释的语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性指令实现,机器可读介质表示处理器内的各种逻辑,所述指令当由机器读取时使机器制作执行本文描述的技术的逻辑。称为“IP核”的此类表示可以被存储在有形、机器可读介质上,并被提供给各种顾客或制造设施,以加载到实际上制造逻辑或处理器的制作机器中。
此类机器可读存储介质可包含但不限于由机器或装置制造或形成的制品的非易失性有形布置,包含存储介质,诸如硬盘、任何其它类型盘,包含软盘、光盘、光盘只读存储器(CD-ROM)、光盘可重写(CD-RW)以及磁光盘、半导体器件,诸如只读存储器(ROM)、随机存取存储器(RAM)诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)、相变存储器(PCM)、磁卡或光卡或适合于存储电子指令的任何其它类型介质。
因而,本发明的实施例还包含非暂态有形机器可读介质,其含有指令或含有设计数据,诸如硬件描述语言(HDL),其定义本文描述的结构、电路、设备、处理器和/或系统特征。此类实施例也可被称为程序产品。
仿真(包含二进制翻译、代码变形等)
在一些情况中,指令转换器可以用于将指令从源指令集转换到目标指令集。例如,指令转换器可翻译(例如使用静态二进制翻译、包含动态编译的动态二进制翻译)、变形、仿真或以其它方式将指令转换成要由核处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件或它们的组合实现。指令转换器可以在处理器上、在处理器外或者部分在处理器上而部分在处理器外。
图18是按照本发明一些实施例对比使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在图示的实施例中,指令转换器是软件指令转换器,不过备选地,指令转换器可以用软件、固件、硬件或它们的各种组合来实现。图18示出,可以使用x86编译器1804编译高级语言1802的程序以生成x86二进制代码1806,该代码可以由具有至少一个x86指令集核1816的处理器本机执行。具有至少一个x86指令集核1816的处理器表示能与具有至少一个x86指令集核的英特尔处理器执行基本上相同的功能的任何处理器,这通过兼容地执行或以别的方式处理(1)英特尔x86指令集核的指令集的实质部分或(2)目标为在具有至少一个x86指令集核的英特尔处理器上运行的应用或其它软件的对象代码版本,以便与具有至少一个x86指令集核的英特尔处理器实现基本上相同结果。x86编译器1804表示可操作以生成x86二进制代码1806(例如对象代码)的编译器,该二进制代码1506能在具有或没有附加连锁处理的情况下在具有至少一个x86指令集核1816的处理器上执行。类似地,图18示出用高级语言1802的程序可以使用备选指令集编译器1808进行编译以生成备选指令集二进制代码1810,该二进制代码可由没有至少一个x86指令集核1814的处理器(例如,具有执行CA桑尼维尔的MIPS技术的MIPS指令集和/或执行CA桑尼维尔的ARM控股公司的ARM指令集的核的处理器)本机执行。指令转换器1812被用于将x86二进制代码1806转换成可由没有x86指令集核1814的处理器本机执行的代码。这个转换的代码不太可能与备选指令集二进制代码1810相同,因为能够这样的指令转换器难以制造;然而,转换的代码将完成一般操作,并且由来自备选指令集的指令组成。从而,指令转换器1812表示通过仿真、模拟或任何其它过程允许没有x86指令集处理器或核的处理器或其它电子装置执行x86二进制代码1806的软件、固件、硬件或它们的组合。

Claims (21)

1.一种处理器,包括:
高速缓冲存储器;
提取和解码电路,所述提取和解码电路用于从存储器提取和解码指令;以及
二进制翻译器(BT),所述二进制翻译器用于通过如下方式来响应所述解码的指令:
将多个所述解码的指令存储在BT高速缓存中;
标识所述存储的指令之中的延迟的不规则载荷(DIRRL);
确定所述DIRRL是否是可预取的;并且
如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。
2.如权利要求1所述的处理器,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
3.如权利要求2所述的处理器,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
4.如权利要求3所述的处理器,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且当所述后切片包括完全由非存储器操作或规则存储器操作构成的循环时,确定所述DIRRL是可预取的。
5.如权利要求4所述的处理器,其中所述定制预取器在执行所述预取时使所述处理器在执行非临界载荷之前执行所述后切片之中的一个或多个临界载荷。
6.如权利要求4-5中的任一项所述的处理器,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
7.如权利要求1、4和5中的任一项所述的处理器,其中所述定制预取器包括存储在所述存储器中的所述多个指令之中的一个或多个预取提示。
8.如权利要求1、4和5中的任一项所述的处理器,其中所述定制预取器包括使用所述执行电路的硬件预取器。
9.如权利要求1、4和5中的任一项所述的处理器,其中所述处理器进一步包含执行电路,并且其中所述BT与所述执行电路分开。
10.如权利要求1、4和5中的任一项所述的处理器,其中所述处理器进一步包含执行电路,并且其中所述BT被结合到所述执行电路中。
11.一种由处理器执行的方法,所述处理器包括:
高速缓冲存储器;
提取和解码电路,所述提取和解码电路用于从存储器提取和解码指令;以及
执行电路,所述执行电路包括二进制翻译器(BT),以通过如下方式来响应所述解码的指令:
将多个所述解码的指令存储在BT高速缓存中;
标识所述存储的指令之中的延迟的不规则载荷(DIRRL);
确定所述DIRRL是否是可预取的;并且
如果是,则生成定制预取器以使所述处理器预取引导到所述可预取DIRRL的指令区域。
12.如权利要求11所述的方法,其中所述DIRRL是在连续动态实例上经历大于第一阈值数量的高速缓存未命中的延迟载荷。
13.如权利要求12所述的方法,其中所述DIRRL是在其连续动态实例之中至少具有第二阈值数量的地址增量的不规则载荷,并且其中所述第二阈值数量的地址增量覆盖小于第三阈值数量的连续动态实例。
14.如权利要求13所述的方法,其中所述执行电路计算所述DIRRL的两个连续动态实例之间的后切片,并且当所述后切片包括完全由非存储器操作或规则存储器操作构成的循环时,确定所述DIRRL是可预取的。
15.如权利要求14所述的方法,其中所述定制预取器通过仅将一个或多个临界载荷入队而其他的不入队来使所述处理器聚焦在所述后切片之中的所述一个或多个临界载荷上。
16.如权利要求14-15中的任一项所述的方法,其中所述定制预取器使所述处理器预取多个不规则载荷,所述多个不规则载荷含有的指令比在所述后切片中含有的指令少。
17.如权利要求14-15中的任一项所述的方法,其中所述定制预取器包括存储在所述存储器中的所述多个指令之中的一个或多个预取提示。
18.如权利要求11、14和15中的任一项所述的方法,其中所述定制预取器包括使用所述执行电路的硬件预取器。
19.如权利要求11、14和15中的任一项所述的方法,其中所述定制预取器包括要使用所述处理器的现有指令执行流水线执行的一个或多个预取提示指令。
20.如权利要求11、14和15中的任一项所述的方法,其中所述定制预取器包括使用所述处理器的现有执行集群的硬件预取器。
21.一种包括代码的机器可读介质,所述代码当被执行时使机器执行如权利要求11-20中的任一项所述的方法。
CN201910450385.4A 2018-06-28 2019-05-28 用于延迟的不规则载荷的预取器 Pending CN110659223A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/021,974 US10713052B2 (en) 2018-06-28 2018-06-28 Prefetcher for delinquent irregular loads
US16/021974 2018-06-28

Publications (1)

Publication Number Publication Date
CN110659223A true CN110659223A (zh) 2020-01-07

Family

ID=66630172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910450385.4A Pending CN110659223A (zh) 2018-06-28 2019-05-28 用于延迟的不规则载荷的预取器

Country Status (3)

Country Link
US (1) US10713052B2 (zh)
EP (1) EP3588311B1 (zh)
CN (1) CN110659223A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11194718B2 (en) * 2019-07-24 2021-12-07 Arm Limited Instruction cache coherence
US11669312B2 (en) * 2021-04-27 2023-06-06 Red Hat, Inc. Profiling and optimization of compiler-generated code
US11531544B1 (en) 2021-07-29 2022-12-20 Hewlett Packard Enterprise Development Lp Method and system for selective early release of physical registers based on a release field value in a scheduler
US11687344B2 (en) * 2021-08-25 2023-06-27 Hewlett Packard Enterprise Development Lp Method and system for hard ware-assisted pre-execution

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844801B2 (en) * 2003-07-31 2010-11-30 Intel Corporation Method and apparatus for affinity-guided speculative helper threads in chip multiprocessors
US7290253B1 (en) * 2003-09-30 2007-10-30 Vmware, Inc. Prediction mechanism for subroutine returns in binary translation sub-systems of computers
US20050071438A1 (en) 2003-09-30 2005-03-31 Shih-Wei Liao Methods and apparatuses for compiler-creating helper threads for multi-threading
US7577947B2 (en) * 2003-12-19 2009-08-18 Intel Corporation Methods and apparatus to dynamically insert prefetch instructions based on garbage collector analysis and layout of objects
US8490065B2 (en) * 2005-10-13 2013-07-16 International Business Machines Corporation Method and apparatus for software-assisted data cache and prefetch control
US20070150660A1 (en) * 2005-12-28 2007-06-28 Marathe Jaydeep P Inserting prefetch instructions based on hardware monitoring
US9378019B2 (en) * 2011-04-07 2016-06-28 Via Technologies, Inc. Conditional load instructions in an out-of-order execution microprocessor
US10223090B2 (en) * 2015-10-23 2019-03-05 Yong-Kyu Jung Branch look-ahead system apparatus and method for branch look-ahead microprocessors
US9430240B1 (en) * 2015-12-10 2016-08-30 International Business Machines Corporation Pre-computation slice merging for prefetching in a computer processor
US10241796B2 (en) * 2017-02-13 2019-03-26 Yong-Kyu Jung Compiler-assisted lookahead (CAL) memory system apparatus for microprocessors
US20190179766A1 (en) * 2017-12-12 2019-06-13 Intel Corporation Translation table entry prefetching in dynamic binary translation based processor

Also Published As

Publication number Publication date
US10713052B2 (en) 2020-07-14
EP3588311A1 (en) 2020-01-01
US20200004541A1 (en) 2020-01-02
EP3588311B1 (en) 2021-09-01

Similar Documents

Publication Publication Date Title
CN107003843B (zh) 用于对向量元素集合执行约减操作的方法和设备
CN107077321B (zh) 用于执行融合的单个周期递增-比较-跳转的指令和逻辑
JP6761565B2 (ja) アウトオブオーダーハードウェアソフトウェア協調設計プロセッサにおいてスタック同期命令を用いてプレディケート値のスタックを実装し維持する方法および装置
US9268626B2 (en) Apparatus and method for vectorization with speculation support
KR101851439B1 (ko) 충돌 검출을 수행하고, 레지스터의 콘텐츠를 다른 레지스터의 데이터 구성요소 위치들로 브로드캐스트하기 위한 시스템들, 장치들 및 방법들
US9122475B2 (en) Instruction for shifting bits left with pulling ones into less significant bits
EP3588311B1 (en) Prefetcher for delinquent irregular loads
KR101729829B1 (ko) 복수의 곱셈 연산들을 수행하는 방법 및 장치
KR20170097626A (ko) 벡터 인덱스 로드 및 저장을 위한 방법 및 장치
US11249909B2 (en) Systems and methods for adaptive multipath probability (AMP) prefetcher
JP2017534114A (ja) Z順序曲線において次のポイントの座標を計算するためのベクトル命令
JP6807073B2 (ja) 高速ベクトルによる動的なメモリ競合検出
JP2021051727A (ja) グラフアプリケーション内の圧縮されたリストに効率的にアクセスするための間接参照のロード及びストアへのisaサポートのシステム及び方法
KR20170097015A (ko) 마스크를 마스크 값들의 벡터로 확장하기 위한 방법 및 장치
US11934830B2 (en) Method and apparatus for data-ready memory operations
US20170192789A1 (en) Systems, Methods, and Apparatuses for Improving Vector Throughput
KR101539173B1 (ko) 단 정수 곱셈들의 수를 감소시키기 위한 시스템들, 장치들 및 방법들
JP2017538215A (ja) 逆分離演算を実行するための命令及びロジック
US10241789B2 (en) Method to do control speculation on loads in a high performance strand-based loop accelerator
US10095517B2 (en) Apparatus and method for retrieving elements from a linked structure
KR102321941B1 (ko) 스핀-루프 점프를 수행하기 위한 장치 및 방법
US20230205685A1 (en) Read all zeros or random data upon a first read from volatile memory
US20230195465A1 (en) Device, method and system to provide a predicted value with a sequence of micro-operations
US20230205531A1 (en) Random data usage
US20230205436A1 (en) Zero cycle memory initialization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination