CN108255520B - N路监测器 - Google Patents

N路监测器 Download PDF

Info

Publication number
CN108255520B
CN108255520B CN201711225449.8A CN201711225449A CN108255520B CN 108255520 B CN108255520 B CN 108255520B CN 201711225449 A CN201711225449 A CN 201711225449A CN 108255520 B CN108255520 B CN 108255520B
Authority
CN
China
Prior art keywords
monitored
address
monitor circuit
instruction
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711225449.8A
Other languages
English (en)
Other versions
CN108255520A (zh
Inventor
W·海尔曼
Y·范德里切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108255520A publication Critical patent/CN108255520A/zh
Application granted granted Critical
Publication of CN108255520B publication Critical patent/CN108255520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/382Pipelined decoding, e.g. using predecoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/084Multiuser, multiprocessor or multiprocessing cache systems with a shared cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0842Multiuser, multiprocessor or multiprocessing cache systems for multiprocessing or multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/3016Decoding the operand specifier, e.g. specifier format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3818Decoding for concurrent execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0804Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with main memory updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0808Multiuser, multiprocessor or multiprocessing cache systems with cache invalidating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/885Monitoring specific for caches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1028Power efficiency
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了N路监测器。处理器核包括解码电路,该解码电路用于对指令解码,其中所述指令指定要监测的地址;处理器核进一步包括监测器电路,其中,该监测器电路包括数据结构和经触发队列,数据结构用于存储正由监测器电路监测的地址的多个条目,其中,监测器电路用于:响应于确定了针对正由监测器电路监测的地址的触发事件发生,使正由监测器电路监测的地址入列到经触发队列中。处理器核进一步包括执行电路,该执行电路用于执行经解码的指令以:将要监测的所指定地址的条目添加到数据结构中;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态。

Description

N路监测器
技术领域
本发明的实施例涉及计算机指令集架构领域,更具体地,涉及用于监测多个地址的指令。
背景技术
许多计算应用可受益于使用细粒度并行性以降低负载不平衡并允许更多并行操作。凭借细粒度并行性,应用划分为大量小的任务,并且跨多个处理器来分派这些任务。然而,调度任务并在多个任务之间切换的开销对于现有硬件有效利用细粒度并行性而言通常过高。
用于实现细粒度并行性的一种方式是仅在软件中实现的方式。此方式典型地需要主动轮循机制,该主动轮循机制周期性地检测是否有准备好用于消耗的数据。然而,此方式典型地导致高开销。用于实现细粒度并行性的另一方式是在硬件中实现完整的任务处理(tasking)系统。然而,此方式在使用模式以及它能够支持的任务数量方面是不灵活的。
在现代高性能处理器中,可由同步线程经由共享存储器实现细粒度并行性。例如,线程可寄存要被监测的地址并进入最优状态(例如,低功率模式),直到数据被写入那个地址。为实现此目的,处理器的指令集架构可包括用于监测用于写入存储器(write-to-memory)活动的所指定地址的指令。例如,处理器的指令集架构可包括MONITOR指令和MWAIT指令。MONITOR指令允许软件指定要监测的地址范围。MWAIT指令允许软件指示逻辑处理器进入最优状态(这可取决于实现方式而有所不同),直到向由MONITOR指令指定的地址范围的写入操作发生。MONITOR/MWAIT指令因此可用于监测单个地址范围。
附图说明
通过参考用来说明本发明的实施例的以下描述和附图,可最好地理解本发明。在附图中:
图1是示出根据一些实施例的用于执行用于监测多个地址的指令的处理器的框图。
图2A是示出根据一些实施例的配置成用于监测多个地址的双核处理器的框图。
图2B是示出根据一些实施例的配置成用于监测多个地址的、实现共享L2高速缓存的双核处理器的框图。
图3是示出根据一些实施例的监测器单元的框图。
图4A-图4E是示出根据一些实施例的NMONITOR指令和NWAIT/NPOLL指令的示例性操作的示图。
图5是根据一些实施例的由用于执行NMONITOR指令的核执行的进程的流程图。
图6是根据一些实施例的由用于监测地址的核的监测器单元执行的进程的流程图。
图7是根据一些实施例的由用于执行NWAIT或NPOLL指令的核执行的进程的流程图。
图8是根据一些实施例的由用于处理NMONITOR指令的核执行的进程的流程图。
图9是根据一些实施例的由用于处理NWAIT指令的处理器核执行的进程的流程图。
图10是根据一些实施例的由用于处理NPOLL指令的核执行的进程的流程图。
图11是根据一些实施例的由用于处理NMONITOR指令以及之后的NWAIT指令的核执行的进程的流程图。
图12是根据一些实施例的由用于处理NMONITOR指令以及之后的NPOLL指令的核执行的进程的流程图。
图13A-图13B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图;
图13A是示出根据本发明的各实施例的通用向量友好指令格式及其A类指令模板的框图;
图13B是示出根据本发明的实施例的通用向量友好指令格式及其B类指令模板的方框图;
图14A是示出根据本发明的实施例的示例性专用向量友好指令格式的框图;
图14B是示出根据本发明的一个实施例的构成完整操作码字段1374的具有专用向量友好指令格式1400的字段的框图;
图14C是示出根据本发明的一个实施例的构成寄存器索引字段1344的具有专用向量友好指令格式1400的字段的框图;
图14D是示出根据本发明的一个实施例的构成扩充操作字段1350的具有专用向量友好指令格式1400的字段的框图;
图15是根据本发明的一个实施例的寄存器架构1500的框图;
图16A是示出根据本发明的实施例的示例性有序流水线以及示例性寄存器重命名的乱序发布/执行流水线两者的框图;
图16B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图;
图17A-图17B示出更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核);
图17A是根据本发明的各实施例的单个处理器核连同它与管芯上互连网络1702的连接以及其二级(L2)高速缓存1704的本地子集的框图;
图17B是根据本发明的实施例的图17A中的处理器核的一部分的展开图;
图18是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器1800的框图;
图19-图22是示例性计算机架构的框图。
图19所示的是根据本发明的一个实施例的系统的框图;
图20是根据本发明的实施例的第一更具体的示例性系统的框图;
图21是根据本发明的实施例的第二更具体的示例性系统的框图;
图22是根据本发明的实施例的SoC的框图;以及
图23是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
在以下描述中,陈述了多个具体细节。然而,应当理解,可不通过这些具体细节来实施本公开的实施例。在其他实例中,未详细示出公知的电路、结构和技术以避免混淆对本描述的理解。
说明书中对“一个实施例”、“实施例”、“示例实施例”等等的引用表明所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例不一定都包括该特定的特征、结构或特性。此外,此类短语不一定是指同一个实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合无论是否被明确描述的其他实施例而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。
处理器的指令集架构可包括用于监测用于写入存储器活动的所指定地址的指令。例如,处理器的指令集架构可包括MONITOR指令和MWAIT指令。MONITOR指令允许软件指定要监测的地址范围。MWAIT指令允许软件指示逻辑处理器进入最优状态(这可取决于实现方式而有所不同),直到向由MONITOR指令指定的地址范围的写入操作发生。MONITOR/MWAIT指令可用于监测单个地址范围。然而,能够监测多个非连续地址而不是仅监测单个地址或单个地址范围可能是有益的。这将允许软件被异步地通知关于向多个(非连续)地址而不是仅单个地址或单个地址范围的写入操作。这样一来,软件不是等待单个预定事件,而是可寄存它感兴趣的多个事件,其中,每一个事件对应于将由另一活动方(actor)写入的地址。随后,软件可在事件中的任一事件发生时被异步地通知,并对那个事件执行动作。
本文中所描述的实施例提供允许监测多个地址的监测基础结构。引入在本文中被称为“NMONITOR”的新指令,该指令允许软件指定要监测的地址。此外,引入在本文中被称为“NWAIT”的新指令,该指令允许软件指示逻辑处理器进入最优状态(例如,低功率模式),直到向(由NMONITOR指令指定的)正被监测的地址中的一个地址的写入操作(或其他触发事件)发生。NWAIT指令可将写入操作针对其发生的地址返回至软件。此外,引入在本文中被称为“NPOLL”的新指令,该指令允许软件判定向(例如,由NMONITOR指令指定的)被监测地址中的一个地址的写入操作(或其他触发事件)是否已发生。NPOLL指令是NWAIT指令的非阻碍变体,该非阻碍变体可立即返回写入操作针对其发生的地址(例如,如果向正被监测地址中的一个地址的写入操作已发生)或立即返回针对正被监测地址的触发事件未发生的指示。
本文中公开的实施例对于若干使用情况可以是有利的。在高吞吐量网络通信场景中,网络接口直接将传入数据分组写入用户空间可见的存储器中的缓冲器。典型地,应用分派线程对网络接口写入的“就绪”(“ready”)或“头”(“head”)地址轮循。此分派线程可使用NMONITOR指令来寄存用于监测的(对应于多个消息队列的)多个头地址。分派线程可使用NWAIT指令来进入睡眠,直到缓冲器中的一个缓冲器具有用于消耗的新数据。NWAIT指令的返回值允许分派线程知晓缓冲器中的哪个已接收到新数据。当与主动轮循技术比较时,NWAIT指令可利用处理器核的睡眠状态以降低功耗。此外,NWAIT指令立即返回“就绪”地址,这将软件从在每个轮循周期对一组地址搜索“就绪”状态所涉及的开销中释放。这有助于降低的功耗,并且也改善用户线程响应时间。
细粒度并行性已成为高性能多线程编程和事件驱动的交互式应用的主流,但是其有用性限制于统一控制与数据关系的问题。已提议将数据依赖关系添加至任务的任务处理模型。然而,跟踪这些任务依赖关系引入了搜索就绪任务的调度开销,这将其有用性限制于长时间运行任务。然而,若干高级编程语言正日益采取数据驱动的异步编程风格以改善应用的等待时间或响应性。例如,可使用编程语言构造(诸如,futures/promises(未来/承诺)或async/await(异步/等待))来实现此数据驱动的异步编程风格。利用NMONITOR/NWAIT指令,数据驱动的任务调度器可避免搜索就绪任务的开销,这使该数据驱动的任务调度器适用于在高性能计算环境中实现细粒度并行性并加速现有的反应性编程构造(例如,futures/promises和async/await)。
图1是示出根据一些实施例的用于执行用于监测多个地址的指令的处理器的框图。处理器100包括指令存储102、取出电路103、解码电路104、执行电路106、监测器单元120(其可被称为监测器电路)、寄存器108、存储器110以及引退或提交电路112。指令由取出电路103从指令存储102取出。在一个实施例中,指令存储102包括以下一者或多者:高速缓存存储器、片上存储器、与处理器100位于相同管芯上的存储器、指令寄存器、通用寄存器以及系统存储器。解码电路104对取出的指令进行解码。在一个实施例中,该指令是NMONITOR指令或NWAIT/NPOLL指令。经解码的指令由执行电路106执行。执行单元106配置成用于从寄存器108和存储器110读取数据并向寄存器108和存储器110写入数据。在一个实施例中,寄存器108包括以下一者或多者:数据寄存器、指令寄存器、通用寄存器以及片上存储器。在一个实施例中,存储器110包括以下一者或多者:片上存储器,与处理器100位于相同管芯上的存储器、与处理器100位于相同封装中的存储器、高速缓存存储器以及系统存储器。执行电路106进一步配置成用于与监测器单元120交互以支持对多个地址的监测。参照图3示出并描述监测单元120的示例性实施例。引退或提交电路112确保执行结果被写入或已被写入执行结果的目的地,并且清空或释放资源供稍后使用。为实现此目的,引退或提交112配置成用于从寄存器108和存储器110读取数据并向寄存器108和存储器110写入数据。
图2A是示出根据一些实施例的配置成用于监测多个地址的双核处理器的框图。处理器100包括两个处理器核(210A和210B)。每一个处理器210包括监测器单元120。例如,处理器核210包括监测器单元120A,并且处理器核210B包括监测器单元120B。每一个处理器核也包括私有L2高速缓存230。例如,处理器核210A包括私有L2高速缓存230A,并且处理器核210B包括私有L2高速缓存230B。处理器100连接至芯片组240,并且可用于执行程序指令。在一个实施例中,给定的“物理”处理器核210实现一个或多个“逻辑”核。例如,在超线程TM架构下,每一个物理核210实现两个逻辑核。当处理器核210实现一个或多个逻辑处理器核时,可为每一个逻辑处理器核供应监测器单元120。贯穿本说明书,物理处理器核210和逻辑处理器核可统称为“核”或“处理器核”。图2B是示出类似于图2A中示出的双核处理器的双核处理器的框图,例外在于,处理器100实现共享L2高速缓存230。如图2A中所示,处理器核210A和处理器核210B共享L2高速缓存230。虽然图2A和图2B示出双核处理器,但是应当理解,本文中所描述的技术同等地适用于处理器100具有多于两个处理器核210的情景。
图3是示出根据一些实施例的监测器单元的框图。监测器单元120包括装备(armed)表310、经触发队列320和溢出位330。在一个实施例中,多核处理器110的每一个核都包括监测单元120。在一个实施例中,当采用同时多线程(SMT)技术(例如,超线程TM)时,每一个线程或硬件上下文具有专用监测器单元120。装备表310维护被寄存供由监测器单元120监测的地址。在一个实施例中,正由监测器单元120监测的每一个地址的条目存储在装备表310中。如在框图中所示,装备表310可存储多达五个条目(因为装备表310被提供了五行)。然而,应当理解,在其他实施例中,装备表310能够存储多于或少于五个条目。在一个实施例中,装备表310包括空闲列、物理地址列和逻辑地址列。空闲列指示条目是否空闲。物理地址列指示地址中正在被监测的物理地址。逻辑地址列指示地址中正在被监测的逻辑地址。经触发队列320维护触发事件针对其已发生的地址中的逻辑地址。如框图中所示,经触发队列310可存储多达五个逻辑地址(五个元素)。然而,应当理解,在其他实施例中,经触发队列320能够存储多于或少于五个逻辑地址。溢出位330指示经触发队列320是否已溢出。
NMONITOR指令可取得将作为自变量被监测的地址(例如,以高速缓存行粒度)。当以要被监测的所指定地址调用NMONITOR指令时,执行该指令的核在其监测器单元120中(例如,在装备表310中)添加该所指定地址的条目。该条目包括物理地址列中对应于该所指定地址的物理地址以及逻辑地址列中对应于该所指定地址的逻辑地址(当所指定地址是逻辑地址时,其是该所指定地址本身)。在一个实施例中,采用地址转换逻辑来确定对应于所指定地址的物理地址。条目(在空闲列中)被标记为不空闲以指示该条目有效/被占据。核也确保对应于所指定地址的高速缓存行在核的高速缓存(例如,L2高速缓存230)中的(S)共享状态中。在一个实施例中,使用高速缓存一致性协议来实现此。例如,假定MESI型(修改-排他-共享-无效)协议用于高速缓存一致性,则,在(M)修改状态或(E)排他状态中的高速缓存行转变为(S)共享状态,并且(I)无效高速缓存行被加载到(S)共享状态中的高速缓存。这确保了当另一个核尝试向此高速缓存行写入时,状态转变将发生。这也允许多个核监测地址,因为(S)共享状态中的高速缓存行的多个副本被允许。在MESI型协议中,(S)共享状态指示高速缓存行可能被存储在其他高速缓存中并且是干净的(它匹配主存储器)。在此阶段,监测器单元120配置成用于监测所指定的地址。
在一个实施例中,额外的位添加至(例如,核的L2高速缓存230中)的每一个高速缓存行以指示该高速缓存行是否对应于正在被监测的地址。在一个实施例中,由于对应于正在被监测的地址的高速缓存行被保证处于共享状态(MESI型协议中的(S)共享状态),可使用现有的多个状态位的未使用的组合来对该指示隐式地编码,并因此不占据任何额外的存储空间。
NMONITOR指令可被调用多次,每次以不同的地址调用,以便寄存多个供(同时)监测的地址。对NMONITOR指令的每一次调用将要监测的地址的条目添加至装备表310。如果该地址的条目已经在装备表310中,则NMONITOR指令返回MONITOR-EXISTS故障码以指示该地址已经正在被监测。如果装备表310中空闲条目不可用(装备表310为满),则NMONITOR指令返回MINOTOR-FULL故障码以指示该地址不能够被监测。基于此故障码,软件可决定回退到替代通路以检测向地址的写入操作(例如,涉及分层监测结构或轮循)。
当针对地址的触发事件发生时,传递该地址中的物理地址的触发事件消息被发送至核的监测器单元120。使触发事件消息被发送至核的监测器单元120的针对地址的触发事件可以是对应于该地址的高速缓存行从(S)共享状态到(I)无效状态的状态转变(例如,当另一核向该高速缓存行写入时)、从(S)共享状态到(M)修改状态的状态转变(例如,当保持活动监测器的核向该高速缓存行写入时),或主动将该高速缓存行从高速缓存230驱逐。如果多个核共享该高速缓存(或当每一个核具有多个硬件上下文时),相应监测器单元120中的每一个被发送触发事件消息,该触发事件消息传递触发事件针对其发生的地址中的物理地址。在一个实施例中,基于对总线的监听(snoop)来接收触发事件消息,该总线携带用于维持高速缓存行的一致性状态的信息。
当监测器单元120接收到触发事件消息时,监测器单元120检查与由触发事件消息传递的物理地址相匹配的条目是否存在于装备表310中(即,有效(非空闲)条目,该有效(非空闲)条目在物理地址列中具有与由触发事件消息传递的物理地址相匹配的值)。如果没有此类条目在装备表310中被找到,则这被视为被默默忽略的伪造触发事件(例如,由启动监测器的另一核或线程造成)。如果匹配条目在装备表310中被找到,则该条目被释放(例如,通过设置空闲列以指示该条目为空闲),并且该条目的逻辑地址入列到经触发队列320中。在一个实施例中,如果条目的逻辑地址由于经触发队列320满了而无法入列至经触发队列320,则监测器单元120对溢出位330置位以指示经触发队列320已溢出。
当调用NWAIT或NPOLL指令时,除非存在错误条件(其示例在下文中进一步描述),否则NWAIT或NPOLL指令在经触发队列320的头部返回逻辑地址(假定该经触发队列320非空),并且该逻辑地址从经触发队列320出列。如果溢出位330经置位以指示经触发队列320已溢出,则NWAIT或NPOLL指令返回TRIGGERED-OVERFLOW故障码以指示经触发队列320已溢出且溢出位被重置。对NWAIT或NPOLL指令的后续调用将看见溢出位被重置,并且将能够返回经触发队列320中的任何其余逻辑地址。
利用NWAIT指令,如果经触发队列320为空(它没有元素),则核(例如,物理核或逻辑核)可进入最优状态(这可取决于实现方式)直到向正由监测器单元120监测的地址中的一个地址的写入操作发生。当向正由监测器单元120监测的地址中的一个地址的写入操作(或其他触发事件)发生时,核退出该最优状态,并且NWAIT指令返回该写入操作(或其他触发事件)针对其发生的地址。然而,利用NPOLL指令,如果经触发队列320为空,则NO-TRIGGERED故障码被立即返回以指示针对正被监测地址的触发事件未发生。
在一个实施例中,NWAIT或NPOLL指令的返回值被存储在单个寄存器(例如,目的地寄存器)中。在一个实施例中,对于有效触发事件,用于NWAIT或NPOLL指令的返回值是高速缓存行基址地址,因此其(对应于高速缓存行偏移的)较低位为零。在一个实施例中,对于故障条件,较低位指示(非零)故障码。如果装备表310和经触发队列320两者都为空,则没有未来的触发事件可被预期,因此NWAIT或NPOLL指令返回NO-ARMED故障码来这样指示。
每当出于某种原因上下文切换在核上发生或逻辑地址至物理地址的映射改变,所有待决的监测器被清空。这可通过清空装备表310中的条目、清空经触发队列320中的元素并重置溢出位330来实现。软件可检查这种情况何时发生,因为对NWAIT或NPOLL的调用将返回NO-ARMED故障码,由此指示清除所有待决监测器的上下文切换或其他事件发生。随后,软件可重新寄存仍对监测(例如,使用NMONITOR指令)感兴趣的地址,并且照常继续进行。
图4A是示出根据一些实施例的NMONITOR指令和NWAIT指令的示例性操作的示图。在此示例中,软件分别为地址l_addr_a、l_addr_b和l_addr_c调用NMONITOR指令。这些指令使(执行这些NMONITOR指令)的核将这些地址中的每一个地址的条目添加至核的监测单元120的装备表310以监测这些地址。每一个条目包括对应于该地址的逻辑地址(该逻辑地址与此示例中的所指定地址相同)以及对应于该地址的物理地址(例如,p_addr_a是对应于l_addr_a的物理地址,p_addr_b是对应于l_addr_b的物理地址,以此类推)。此外,核确保对应于l_addr_a、l_addr_b和l_addr_c的高速缓存行的一致性状态处于共享状态(例如,使用高速缓存一致性协议)。随后,在针对正被监测地址的任何触发事件发生(并且因此经触发队列320为空)之前,软件可调用NWAIT指令。由于经触发队列320为空,因此执行NWAIT指令的核进入最优状态。
此后,如图4B中所示,存储在p_addr_b中的数据被修改。这被视为针对l_addr_b的触发事件。监测器单元120被通知此触发事件。作为响应,监测器单元120使l_addr_b入列到经触发队列320中,并且在装备表310中将l_addr_b的条目标记为空闲。在一个实施例中,监测器单元120向核发送信号以退出最优状态。随后,该核退出最优状态,使l_addr_b从经触发队列320出列,并且提供l_addr_b作为用于先前被调用的NWAIT指令的返回值。
此后,如图4C中所示,存储在p_addr_a处的数据被修改,并且存储在p_addr_c处的数据被驱逐。这些分别被视为针对l_addr_a和l_addr_c的触发事件。监测器单元120被通知这些触发事件。作为响应,监测器单元120使l_addr_a和l_addr_c入列到经触发队列320中,并且在装备表310中将l_addr_a和l_addr_c的条目标记为空闲。
如图4D中所示,软件随后调用NWAIT指令。由于经触发队列320不为空,因此核在经触发队列320的头部处提供逻辑地址作为用于NWAIT指令的返回值,在此示例中,为l_addr_a。随后,核使l_addr_a从经触发队列320出列。一旦l_addr_a出列,l_addr_c就处于经触发队列320的头部处。此后,软件调用NPOLL指令。由于经触发队列320不为空,因此核在经触发队列320的头部处提供逻辑地址作为用于NPOLL指令的返回值,在此示例中,现在为l_addr_c。随后,核使l_addr_c从经触发队列320出列(并且经触发队列现在为空)。
如图4E中所示,软件针对地址l_addr_d调用NMONITOR指令。该指令使(执行该NMONITOR指令的)核将l_addr_d的条目添加至装备表310。此外,核确保对应于l_addr_d的高速缓存行的一致性状态处于共享状态(例如,使用高速缓存一致性协议)。随后,软件调用NPOLL指令(在针对l_addr_d的触发事件发生之前)。由于经触发队列320为空,因此核提供NO TRIGGERED故障码作为用于NPOLL指令的返回值。
图5是根据一些实施例的由用于执行NMONITOR指令的核执行的进程的流程图。将参考其他附图中的示例性实施例来描述流程图的操作。然而,应当理解,流程图的操作可由除参照其他附图所讨论的那些实施例之外的实施例执行,并且参照其他附图所讨论的实施例可执行不同于参考这些流程图所讨论的那些操作的操作。
在一个实施例中,当核接收指定要被监测的地址的NMONITOR指令时,进程被发起(框505)。核判定该地址的条目是否已在装备表310中(判定框510)。如果该地址的条目已经存在于装备表310中,则核返回该地址已经正在被监测的指示(例如,MONITOR-EXISTS故障码)。然而,如果该地址的条目不是已经存在于装备表310中,则核判定在装备表310中空闲条目是否可用(判定框520)。如果在装备表310中空闲条目不可用,则核返回装备表310为满的指示(例如,MONITOR-FULL故障码)。然而,如果核判定在装备表310中存在可用的空闲条目,则核将该地址的条目添加在装备表310中(框530)。在一个实施例中,这涉及将该条目标记为不再空闲。随后,核确保对应于该地址的高速缓存行的一致性状态处于共享状态(框535)。随后,核返回该地址正在被监测的指示(例如,返回值0)(框540)。
图6是根据一些实施例的由用于监测地址的核的监测器单元执行的进程的流程图。在一个实施例中,该进程由核的监测器单元120(或监测器电路)执行。在一个实施例中,当监测器单元120接收针对地址的触发事件消息时,该进程被发起(框605)。监测器单元120(例如,通过将由触发事件消息传递的物理地址与由装备表310中的条目指示的物理地址进行比较)判定该地址的条目是否存在于装备表310中(判定框610)。如果该地址的条目不存在于装备表310中,则监测器单元120忽略触发事件消息(至少出于监测目的)(框615)。然而,如果该地址的条目存在于装备表310中,则监测器单元120释放那个条目(框620)。随后,监测器单元130判定经触发队列320是否为满(判定框625)。如果经触发队列320为满,则监测器单元120对经触发队列320的溢出指示符置位(框635)。然而,如果经触发队列320不为满,则监测器单元120使该地址(例如,逻辑地址)入列到经触发队列320中(框630)。
图7是根据一些实施例的由用于执行NWAIT或NPOLL指令的核执行的进程的流程图。在一个实施例中,当核接收NWAIT或NPOLL指令时,该进程被发起。核判定经触发队列320的溢出指示符是否经置位(判定框710)。如果溢出指示符经置位,则核重置该溢出指示符,并且返回经触发队列320已溢出的指示(例如,TRIGGERED-OVERFLOW故障码)。然而,如果溢出指示符未经置位,则核判定经触发队列320是否为空(判定框725)。如果经触发队列320不为空,则核使地址从经触发队列320出列(框730),并返回该出列的地址(框735)。然而,如果经触发队列320为空,则核判定装备表310是否为空(判定框740)。如果装备表310为空,则核返回没有地址正在被监测的指示(例如,NO-ARMED故障码)。在NWAIT指令的情况下,如果装备表310不为空,则核可进入最优状态(例如,功率节省模式),直到针对正被监测地址的触发事件发生(框750)。一旦针对正被监测地址的触发事件发生,核就可退出最优状态。在此阶段,触发事件针对其发生的地址应当处于经触发队列320的头部处。核使该地址从经触发队列320出列,并且返回出列的地址(框730和735)。返回到判定框740,在NPOLL指令的情况下,如果装备表310不为空,则核立即(而不进入最优状态)返回针对正被监测地址的触发事件未被检测到的指示(例如,NO-TRIGGERED故障码)(框755)。
图8是根据一些实施例的由用于处理NMONITOR指令的核执行的进程的流程图。在框805处,取出指令。例如,取出NMONITOR指令,其中,NMONITOR指令指定要监测的地址。在一个实施例中,从指令存储102取出指令。在框810处,由解码电路104对取出的指令解码。例如,取出的NMONITOR指令被解码。在框815处,由执行电路106执行经解码的指令。对于NMONITOR指令,在框820处,该执行检索要监测的所指定地址(例如,由NMONITOR指令指定)。在框825处,该执行进一步将要监测的所指定地址的条目添加到监测器电路120的数据结构(例如,装备表310)中,并且(使用高速缓存一致性协议)确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路120用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到监测器电路120的经触发队列320中。在一个实施例中,该执行用于:响应于确定了要监测的所指定地址的条目存在于数据结构中,返回要监测的所指定地址已经正在由监测器电路120监测的指示(例如,MONITOR-EXISTS故障码)。在一个实施例中,该执行用于:响应于确定了在数据结构中没有可用的空闲条目而返回数据结构为满的指示(例如,MONITOR-FULL故障码)。在一个实施例中,监测器电路120用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。在一个实施例中,监测器电路120包括溢出指示符(例如,溢出位330),并且监测器电路120用于:响应于确定了经触发队列320已溢出,对溢出指示符置位。在一个实施例中,监测器电路120用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变(例如,基于接收到触发事件消息),确定针对正被监测的所指定地址的触发事件发生。在一个实施例中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示(例如,如图4A中所示)。在一个实施例中,在框830中,提交或引退指令。
图9是根据一些实施例的由用于处理NWAIT指令的核执行的进程的流程图。在框905处,取出指令。例如,取出NWAIT指令。在一个实施例中,从指令存储102取出指令。在框910处,由解码电路104对取出的指令解码。例如,取出的NWAIT指令被解码。在框915处,由执行电路106执行经解码的指令。对于NWAIT指令,在框920处,该执行使地址从监测器电路120的经触发队列320出列,并且响应于确定了经触发队列320不为空而返回出列的地址,使核响应于确定了经触发队列320为空而进入最优状态,并且使核响应于确定了针对正由监测器电路120监测的地址的触发事件发生而退出最优状态。在一个实施例中,监测器电路120包括溢出指示符(例如,溢出位330),并且该执行用于:响应于确定了溢出指示符经置位且重置溢出指示符,返回经触发队列320已溢出的指示(例如,TRIGGERED-OVERFLOW故障码)。在一个实施例中,该执行用于:响应于确定了经触发队列320为空且数据结构(例如,装备表310)为空,返回没有地址正由监测器电路120监测的指示(例如,NO-ARMED故障码)。在一个实施例中,该执行用于:基于确定了数据结构的内容指示没有地址正由监测器电路120监测,确定数据结构为空。在一个实施例中,该执行用于将出列的地址存储在目的地寄存器中。在一个实施例中,在框930中,提交或引退指令。
图10是根据一些实施例的由用于处理NPOLL指令的核执行的进程的流程图。在框1005处,取出指令。例如,取出NPOLL指令。在一个实施例中,从指令存储102取出指令。在框1010处,由解码电路104对取出的指令解码。例如,取出的NPOLL指令被解码。在框1015处,由执行电路106执行经解码的指令。对于NPOLL指令,在框920处,该执行使地址从监测器电路120的经触发队列320出列,并且响应于确定了经触发队列320不为空而返回出列的地址,并且响应于确定了经触发队列320为空而返回针对正由监测器电路120监测的地址的触发事件未发生的指示(例如,NO-TRIGGERED故障码)。在一个实施例中,监测器电路120包括溢出指示符(例如,溢出位330),并且该执行用于:响应于确定了溢出指示符经置位且重置溢出指示符,返回经触发队列320已溢出的指示。在一个实施例中,该执行用于:响应于确定了经触发队列320为空且数据结构为空,返回没有地址正由监测器电路120监测的指示。在一个实施例中,该执行用于:基于确定了数据结构的内容指示没有地址正由监测器电路120监测,确定数据结构为空。在一个实施例中,该执行用于将出列的地址存储在目的地寄存器中。在一个实施例中,在框1030中,提交或引退指令。
图11是根据一些实施例的由用于处理NMONITOR指令以及之后的NWAIT指令的核执行的进程的流程图。在框1105,取出NMONITOR指令,其中,NMONITOR指令指定要监测的地址。在一个实施例中,从指令存储102取出NMONITOR指令。在框1110处,由解码电路104对取出的NMONITOR指令解码。在框1115处,检索由NMONITOR指令指定的地址。在框1120处,NMONITOR指令由执行电路106执行以:将要监测的所指定地址的条目添加到监测器电路120的数据结构(例如,装备表310)中,并且(使用高速缓存一致性协议)确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路120用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到监测器电路120的经触发队列320中。在一个实施例中,在框1125中,提交或引退NMONITOR指令。
NMONITOR指令因此寄存要由监测器电路120监测的所指定地址。NMONITOR指令可被调用多次,每次以不同的地址调用,以便寄存多个供监测的地址。可被同时监测的地址的数量不仅由数据结构(例如,装备表310)的大小限制。
在框1130处,取出NWAIT指令。在一个实施例中,从指令存储102取出NWAIT指令。在框1135处,由解码电路104对取出的NWAIT指令解码。在框1140处,NWAIT指令由执行电路160执行以:使地址从监测器电路120的经触发队列320出列,并且响应于确定了经触发队列320不为空而返回出列的地址,使核响应于确定了经触发队列320为空而进入最优状态,并且使核响应于确定了针对正由监测器电路120监测的地址的触发事件发生而退出最优状态。在一个实施例中,在框1145中,提交或引退NWAIT指令。
NWAIT指令与NMONITOR指令协同工作,以便要么返回触发事件针对其已发生的被监测地址(其由NMONITOR指令寄存),要么在针对正被监测地址(其可以潜在地包括由NMONITOR指令寄存的多个地址)的触发事件未发生的情况下使核进入最优状态。
图12是根据一些实施例的由用于处理NMONITOR指令以及之后的NPOLL指令的核执行的进程的流程图。在框1105,取出NMONITOR指令,其中,NMONITOR指令指定要监测的地址。在一个实施例中,从指令存储102取出NMONITOR指令。在框1110处,由解码电路104对取出的NMONITOR指令解码。在框1115处,检索由NMONITOR指令指定的地址。在框1120处,NMONITOR指令由执行电路106执行以:将要监测的所指定地址的条目添加到监测器电路120的数据结构(例如,装备表310)中,并且(使用高速缓存一致性协议)确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路120用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到监测器电路120的经触发队列320中。在一个实施例中,在框1125中,提交或引退NMONITOR指令。
NMONITOR指令因此寄存要由监测器电路120监测的所指定地址。NMONITOR指令可被调用多次,每次以不同的地址调用,以便寄存多个供监测的地址。可被同时监测的地址的数量不仅由数据结构(例如,装备表310)的大小限制。
在框1130处,取出NPOLL指令。在一个实施例中,从指令存储102取出NPOLL指令。在框1135处,由解码电路104对取出的NPOLL指令解码。,在框1140处,NPOLL指令由执行电路106执行以:使地址从监测器电路120的经触发队列320出列,并且响应于确定了经触发队列320不为空而返回出列的地址,并且响应于确定了经触发队列320为空而返回针对正由监测器电路120监测的地址的触发事件未发生的指示。在一个实施例中,在框1145中,提交或引退NWAIT指令。
NPOLL指令与NMONITOR指令协同工作,以便要么返回触发事件针对其已发生的地址(其使用NMONITOR指令来寄存),要么在针对正被监测地址(其可以潜在地包括由NMONITOR指令寄存的多个地址)的触发事件未发生的情况下返回针对被监测地址的触发事件未发生的指示。
贯穿说明书,引用了NMONITOR指令和NWAIT/NPOLL指令。应当理解,此命名法是作为示例来提供的,其他实施例可以使用其他名称来指代这些指令。
指令集
指令集可包括一个或多个指令格式。给定的指令格式定义各种字段(例如,位的数量、位的位置)以指定将要执行的操作(例如,操作码)以及将对其执行该操作的(多个)操作数和/或(多个)其他字段(例如,掩码),等等。通过指令模板(或子格式)的定义来进一步分解一些指令格式。例如,可将给定指令格式的指令模板定义为具有指令格式字段(所包括的字段通常按照相同顺序,但是至少一些字段具有不同的位的位置,因为更少的字段被包括)的不同子集,和/或定义为具有以不同方式进行解释的给定字段。如此,ISA的每一条指令使用给定的指令格式来表达(并且如果经定义,则按照该指令格式的指令模板中的给定指令模板),并包括用于指定操作和操作数的字段。例如,示例性ADD(加法)指令具有特定的操作码和指令格式,该指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地以及源2)的操作数字段,并且该ADD指令在指令流中出现将使得在选择特定操作数的操作数字段中具有特定的内容。已经推出和/或发布了被称为高级向量扩展(AVX)(AVX1和AVX2)和利用向量扩展(VEX)编码方案的SIMD扩展集(参见例如2014年9月的64和IA-32架构软件开发者手册;以及参见2014年10月的/>高级向量扩展编程参考)。
示例性指令格式
本文中所描述的(多条)指令的实施例能以不同的格式体现。另外,在下文中详述示例性系统、架构、以及流水线。(多条)指令的实施例可在这些系统、架构、以及流水线上执行,但是不限于详述的系统、架构、以及流水线。
通用向量友好指令格式
向量友好指令格式是适于向量指令(例如,存在专用于向量操作的特定字段)的指令格式。尽管描述了其中通过向量友好指令格式支持向量和标量运算两者的实施例,但是替代实施例仅使用通过向量友好指令格式的向量运算。
图13A-图13B是示出根据本发明的实施例的通用向量友好指令格式及其指令模板的框图。图13A是示出根据本发明的实施例的通用向量友好指令格式及其A类指令模板的框图;而图13B是示出根据本发明的实施例的通用向量友好指令格式及其B类指令模板的框图。具体地,针对通用向量友好指令格式1300定义A类和B类指令模板,两者包括无存储器访问1305的指令模板和存储器访问1320的指令模板。在向量友好指令格式的上下文中的术语“通用”指不束缚于任何专用指令集的指令格式。
尽管将描述其中向量友好指令格式支持以下情况的本发明的实施例,即64字节向量操作数长度(或尺寸)与32位(4字节)或64位(8字节)数据元素宽度(或尺寸)(并且由此,64字节向量由16双字尺寸的元素或者替代地8四字尺寸的元素组成)、64字节向量操作数长度(或尺寸)与16位(2字节)或8位(1字节)数据元素宽度(或尺寸)、32字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸)、以及16字节向量操作数长度(或尺寸)与32位(4字节)、64位(8字节)、16位(2字节)、或8位(1字节)数据元素宽度(或尺寸),但是替代实施例可支持更大、更小、和/或不同的向量操作数尺寸(例如,256字节向量操作数)与更大、更小或不同的数据元素宽度(例如,128位(16字节)数据元素宽度)。
图13A中的A类指令模板包括:1)在无存储器访问1305的指令模板内,示出无存储器访问的完全舍入控制型操作1310的指令模板、以及无存储器访问的数据变换型操作1315的指令模板;以及2)在存储器访问1320的指令模板内,示出存储器访问的时效性1325的指令模板和存储器访问的非时效性1330的指令模板。图13B中的B类指令模板包括:1)在无存储器访问1305的指令模板内,示出无存储器访问的写掩码控制的部分舍入控制型操作1312的指令模板以及无存储器访问的写掩码控制的vsize型操作1317的指令模板;以及2)在存储器访问1320的指令模板内,示出存储器访问的写掩码控制1327的指令模板。
通用向量友好指令格式1300包括以下列出的按照在图13A-图13B中示出的顺序的如下字段。
格式字段1340-该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式,并且由此标识指令在指令流中以向量友好指令格式出现。由此,该字段对于仅具有通用向量友好指令格式的指令集是不需要的,在这个意义上该字段是任选的。
基础操作字段1342-其内容区分不同的基础操作。
寄存器索引字段1344—其内容直接或者通过地址生成来指定源或目的地操作数在寄存器中或者在存储器中的位置。这些字段包括足够数量的位以从PxQ(例如,32x512、16x128、32x1024、64x1024)个寄存器组选择N个寄存器。尽管在一个实施例中N可高达三个源和一个目的地寄存器,但是替代实施例可支持更多或更少的源和目的地寄存器(例如,可支持高达两个源,其中这些源中的一个源还用作目的地,可支持高达三个源,其中这些源中的一个源还用作目的地,可支持高达两个源和一个目的地)。
修饰符(modifier)字段1346-其内容将指定存储器访问的以通用向量指令格式出现的指令与不指定存储器访问的以通用向量指令格式出现的指令区分开;即在无存储器访问1305的指令模板与存储器访问1320的指令模板之间进行区分。存储器访问操作读取和/或写入到存储器层次(在一些情况下,使用寄存器中的值来指定源和/或目的地地址),而非存储器访问操作不这样(例如,源和/或目的地是寄存器)。尽管在一个实施例中,该字段还在三种不同的方式之间选择以执行存储器地址计算,但是替代实施例可支持更多、更少或不同的方式来执行存储器地址计算。
扩充操作字段1350-其内容区分除基础操作以外还要执行各种不同操作中的哪一个操作。该字段是针对上下文的。在本发明的一个实施例中,该字段被分成类字段1368、α字段1352、以及β字段1354。扩充操作字段1350允许在单一指令而非2、3或4个指令中执行多组共同的操作。
比例字段1360-其内容允许用于存储器地址生成(例如,用于使用(2比例*索引+基址)的地址生成)的索引字段的内容的按比例缩放。
位移字段1362A-其内容用作存储器地址生成的一部分(例如,用于使用(2比例*索引+基址+位移)的地址生成)。
位移因数字段1362B(注意,位移字段1362A直接在位移因数字段1362B上的并置指示使用非此即彼)-其内容用作地址生成的一部分,它指定通过存储器访问的尺寸(N)按比例缩放的位移因数,其中N是存储器访问中的字节数量(例如,用于使用(2比例*索引+基址+按比例缩放的位移)的地址生成)。忽略冗余的低阶位,并且因此将位移因数字段的内容乘以存储器操作数总尺寸(N)以生成在计算有效地址中使用的最终位移。N的值由处理器硬件在运行时基于完整操作码字段1374(稍后在本文中描述)和数据操纵字段1354C确定。位移字段1362A和位移因数字段1362B可以不用于无存储器访问1305的指令模板和/或不同的实施例可实现两者中的仅一个或不实现两者中的任一个,在这个意义上位移字段1362A和位移因数字段1362B是任选的。
数据元素宽度字段1364-其内容区分使用多个数据元素宽度中的哪一个(在一些实施例中用于所有指令,在其他实施例中只用于一些指令)。如果支持仅一个数据元素宽度和/或使用操作码的某一方面来支持数据元素宽度,则该字段是不需要的,在这个意义上该字段是任选的。
写掩码字段1370-其内容在每一数据元素位置的基础上控制目的地向量操作数中的数据元素位置是否反映基础操作和扩充操作的结果。A类指令模板支持合并-写掩码操作,而B类指令模板支持合并写掩码操作和归零写掩码操作两者。当合并时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间保护目的地中的任何元素集免于更新;在另一实施例中,保持其中对应掩码位具有0的目的地的每一元素的旧值。相反,当归零时,向量掩码允许在执行(由基础操作和扩充操作指定的)任何操作期间使目的地中的任何元素集归零;在一个实施例中,目的地的元素在对应掩码位具有0值时被设为0。该功能的子集是控制执行的操作的向量长度的能力(即,从第一个到最后一个要修改的元素的跨度),然而,被修改的元素不一定要是连续的。由此,写掩码字段1370允许部分向量操作,这包括加载、存储、算术、逻辑等。尽管描述了其中写掩码字段1370的内容选择了多个写掩码寄存器中的包含要使用的写掩码的一个写掩码寄存器(并且由此写掩码字段1370的内容间接地标识了要执行的掩码操作)的本发明的实施例,但是替代实施例相反或另外允许掩码写字段1370的内容直接地指定要执行的掩码操作。
立即数字段1372-其内容允许对立即数的指定。该字段在实现不支持立即数的通用向量友好格式中不存在且在不使用立即数的指令中不存在,在这个意义上该字段是任选的。
类字段1368-其内容在不同类的指令之间进行区分。参考图13A-图13B,该字段的内容在A类和B类指令之间进行选择。在图13A-图13B中,圆角方形用于指示专用值存在于字段中(例如,在图13A-图13B中分别用于类字段1368的A类1368A和B类1368B)。
A类指令模板
在A类非存储器访问1305的指令模板的情况下,α字段1352被解释为其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的舍入型操作1310和无存储器访问的数据变换型操作1315的指令模板分别指定舍入1352A.1和数据变换1352A.2)的RS字段1352A,而β字段1354区分要执行指定类型的操作中的哪一种。在无存储器访问1305指令模板中,比例字段1360、位移字段1362A以及位移比例字段1362B不存在。
无存储器访问的指令模板-完全舍入控制型操作
在无存储器访问的完全舍入控制型操作1310的指令模板中,β字段1354被解释为其内容提供静态舍入的舍入控制字段1354A。尽管在本发明的所述实施例中舍入控制字段1354A包括抑制所有浮点异常(SAE)字段1356和舍入操作控制字段1358,但是替代实施例可支持、可将这些概念两者都编码成相同的字段或者仅具有这些概念/字段中的非此即彼(例如,可仅有舍入操作控制字段1358)。
SAE字段1356-其内容区分是否停用异常事件报告;当SAE字段1356的内容指示启用抑制时,给定指令不报告任何种类的浮点异常标志且不唤起任何浮点异常处理程序。
舍入操作控制字段1358-其内容区分执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)。由此,舍入操作控制字段1358允许在每一指令的基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段1350的内容优先于该寄存器值。
无存储器访问的指令模板-数据变换型操作
在无存储器访问的数据变换型操作1315的指令模板中,β字段1354被解释为数据变换字段1354B,其内容区分要执行多个数据变换中的哪一个(例如,无数据变换、混合、广播)。
在A类存储器访问1320的指令模板的情况下,α字段1352被解释为驱逐提示字段1352B,其内容区分要使用驱逐提示中的哪一个(在图13A中,对于存储器访问时效性1325的指令模板和存储器访问非时效性1330的指令模板分别指定时效性的1352B.1和非时效性的1352B.2),而β字段1354被解释为数据操纵字段1354C,其内容区分要执行多个数据操纵操作(也称为基元(primitive))中的哪一个(例如,无操纵、广播、源的向上转换、以及目的地的向下转换)。存储器访问1320的指令模板包括比例字段1360、以及任选的位移字段1362A或位移比例字段1362B。
向量存储器指令使用转换支持来执行来自存储器的向量加载并将向量存储到存储器。如同寻常的向量指令,向量存储器指令以数据元素式的方式与存储器来回传输数据,其中实际传输的元素由选为写掩码的向量掩码的内容规定。
存储器访问的指令模板-时效性的
时效性的数据是可能足够快地重新使用以从高速缓存受益的数据。然而,这是提示,且不同的处理器可以不同的方式实现它,包括完全忽略该提示。
存储器访问的指令模板-非时效性的
非时效性的数据是不可能足够快地重新使用以从第一级高速缓存中的高速缓存受益且应当被给予驱逐优先级的数据。然而,这是提示,且不同的处理器可以不同的方式实现它,包括完全忽略该提示。
B类指令模板
在B类指令模板的情况下,α字段1352被解释为写掩码控制(Z)字段1352C,其内容区分由写掩码字段1370控制的写掩码操作应当是合并还是归零。
在B类非存储器访问1305的指令模板的情况下,β字段1354的一部分被解释为RL字段1357A,其内容区分要执行不同扩充操作类型中的哪一种(例如,针对无存储器访问的写掩码控制部分舍入控制类型操作1312的指令模板和无存储器访问的写掩码控制VSIZE型操作1317的指令模板分别指定舍入1357A.1和向量长度(VSIZE)1357A.2),而β字段1354的其余部分区分要执行指定类型的操作中的哪一种。在无存储器访问1305指令模板中,比例字段1360、位移字段1362A以及位移比例字段1362B不存在。
在无存储器访问的写掩码控制的部分舍入控制型操作1310的指令模板中,β字段1354的其余部分被解释为舍入操作字段1359A,并且停用异常事件报告(给定指令不报告任何种类的浮点异常标志且不唤起任何浮点异常处理程序)。
舍入操作控制字段1359A-正如舍入操作控制字段1358,其内容区分执行一组舍入操作中的哪一个(例如,向上舍入、向下舍入、向零舍入、以及就近舍入)。由此,舍入操作控制字段1359A允许在每一指令的基础上改变舍入模式。在其中处理器包括用于指定舍入模式的控制寄存器的本发明的一个实施例中,舍入操作控制字段1350的内容优先于该寄存器值。
在无存储器访问的写掩码控制VSIZE型操作1317的指令模板中,β字段1354的其余部分被解释为向量长度字段1359B,其内容区分要执行多个数据向量长度中的哪一个(例如,128字节、256字节、或512字节)。
在B类存储器访问1320的指令模板的情况下,β字段1354的一部分被解释为广播字段1357B,其内容区分是否要执行广播型数据操纵操作,而β字段1354的其余部分被解释为向量长度字段1359B。存储器访问1320的指令模板包括比例字段1360、以及任选的位移字段1362A或位移比例字段1362B。
针对通用向量友好指令格式1300,示出完整操作码字段1374包括格式字段1340、基础操作字段1342以及数据元素宽度字段1364。尽管示出了其中完整操作码字段1374包括所有这些字段的一个实施例,但是在不支持所有这些字段的实施例中,完整操作码字段1374包括少于所有的这些字段。完整操作码字段1374提供操作码(opcode)。
扩充操作字段1350、数据元素宽度字段1364以及写掩码字段1370允许在每一指令的基础上以通用向量友好指令格式指定这些特征。
写掩码字段和数据元素宽度字段的组合创建各种类型的指令,因为这些指令允许基于不同的数据元素宽度应用该掩码。
在A类和B类内出现的各种指令模板在不同的情形下是有益的。在本发明的一些实施例中,不同处理器或者处理器内的不同核可支持仅A类、仅B类、或者可支持两类。举例而言,旨在用于通用计算的高性能通用乱序核可仅支持B类,旨在主要用于图形和/或科学(吞吐量)计算的核可仅支持A类,并且旨在用于两者的核可支持两者(当然,具有来自两类的模板和指令的一些混合、但是并非来自两类的所有模板和指令的核在本发明的范围内)。同样,单一处理器可包括多个核,所有核支持相同的类或者其中不同的核支持不同的类。举例而言,在具有单独的图形和通用核的处理器中,图形核中的旨在主要用于图形和/或科学计算的一个核可仅支持A类,而通用核中的一个或多个可以是具有旨在用于通用计算的仅支持B类的乱序执行和寄存器重命名的高性能通用核。不具有单独的图形核的另一处理器可包括既支持A类又支持B类的一个或多个通用有序或乱序核。当然,在本发明的不同实施例中,来自一类的特征也可在其他类中实现。可使以高级语言撰写的程序成为(例如,及时编译或者统计编译)各种不同的可执行形式,包括:1)仅具有用于执行的目标处理器支持的类的指令的形式;或者2)具有使用所有类的指令的不同组合而编写的替代例程且具有选择这些例程以基于由当前正在执行代码的处理器支持的指令而执行的控制流代码的形式。
示例性专用向量友好指令格式
图14A是示出根据本发明的实施例的示例性专用向量友好指令格式的框图。图14A示出专用向量友好指令格式1400,其指定位置、尺寸、解释和字段的次序、以及那些字段中的一些字段的值,在这个意义上向量友好指令格式1400是专用的。专用向量友好指令格式1400可用于扩展x86指令集,并且由此一些字段类似于在现有x86指令集及其扩展(例如,AVX)中使用的那些字段或与之相同。该格式保持与具有扩展的现有x86指令集的前缀编码字段、实操作码字节字段、MOD R/M字段、SIB字段、位移字段、以及立即数字段一致。示出来自图13的字段,来自图14A的字段映射到来自图13的字段。
应当理解,虽然出于说明的目的在通用向量友好指令格式1300的上下文中参考专用向量友好指令格式1400描述了本发明的实施例,但是本发明不限于专用向量友好指令格式1400,除非另有声明。例如,通用向量友好指令格式1300构想各种字段的各种可能的尺寸,而专用向量友好指令格式1400被示为具有特定尺寸的字段。作为具体示例,尽管在专用向量友好指令格式1400中数据元素宽度字段1364被示为一位字段,但是本发明不限于此(即,通用向量友好指令格式1300构想数据元素宽度字段1364的其他尺寸)。
通用向量友好指令格式1300包括以下列出的按照图14A中示出的顺序的如下字段。
EVEX前缀(字节0-3)1402-以四字节形式进行编码。
格式字段1340(EVEX字节0,位[7:0])-第一字节(EVEX字节0)是格式字段1340,并且它包含0x62(在本发明的一个实施例中用于区分向量友好指令格式的唯一值)。
第二-第四字节(EVEX字节1-3)包括提供专用能力的多个位字段。
REX字段1405(EVEX字节1,位[7-5])-由EVEX.R位字段(EVEX字节1,位[7]–R)、EVEX.X位字段(EVEX字节1,位[6]–X)以及(1357BEX字节1,位[5]–B)组成。EVEX.R、EVEX.X和EVEX.B位字段提供与对应VEX位字段相同的功能,并且使用1补码的形式进行编码,即ZMM0被编码为1111B,ZMM15被编码为0000B。这些指令的其他字段对如在本领域中已知的寄存器索引的较低三个位(rrr、xxx、以及bbb)进行编码,由此可通过增加EVEX.R、EVEX.X以及EVEX.B来形成Rrrr、Xxxx以及Bbbb。
REX’字段1310-这是REX’字段1310的第一部分,并且是用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.R’位字段(EVEX字节1,位[4]–R’)。在本发明的一个实施例中,该位与以下指示的其他位一起以位反转的格式存储以(在公知x86的32位模式下)与实操作码字节是62的BOUND指令进行区分,但是在MOD R/M字段(在下文中描述)中不接受MOD字段中的值11;本发明的替代实施例不以反转的格式存储该指示的位以及其他指示的位。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.R’、EVEX.R、以及来自其他字段的其他RRR来形成R’Rrrr。
操作码映射字段1415(EVEX字节1,位[3:0]–mmmm)–其内容对隐含的前导操作码字节(0F、0F 38、或0F 3)进行编码。
数据元素宽度字段1364(EVEX字节2,位[7]–W)-由记号EVEX.W表示。EVEX.W用于定义数据类型(32位数据元素或64位数据元素)的粒度(尺寸)。
EVEX.vvvv 1420(EVEX字节2,位[6:3]-vvvv)-EVEX.vvvv的作用可包括如下:1)EVEX.vvvv编码第一源寄存器操作数且对具有两个或两个以上源操作数的指令有效,第一源寄存器操作数以反转(1补码)的形式被指定;2)EVEX.vvvv编码目的地寄存器操作数,目的地寄存器操作数针对特定向量位移以1补码的形式被指定;或者3)EVEX.vvvv不编码任何操作数,保留该字段,并且应当包含1111b。由此,EVEX.vvvv字段1420对以反转(1补码)的形式存储的第一源寄存器指定符的4个低阶位进行编码。取决于该指令,额外不同的EVEX位字段用于将指定符尺寸扩展到32个寄存器。
EVEX.U 1368类字段(EVEX字节2,位[2]-U)-如果EVEX.U=0,则它指示A类或EVEX.U0;如果EVEX.U=1,则它指示B类或EVEX.U1。
前缀编码字段1425(EVEX字节2,位[1:0]-pp)-提供了用于基础操作字段的附加位。除了对以EVEX前缀格式的传统SSE指令提供支持以外,这也具有压缩SIMD前缀的益处(EVEX前缀只需要2位,而不是需要字节来表达SIMD前缀)。在一个实施例中,为了支持使用以传统格式和以EVEX前缀格式的SIMD前缀(66H、F2H、F3H)的传统SSE指令,将这些传统SIMD前缀编码成SIMD前缀编码字段;并且在运行时在提供给解码器的PLA之前被扩展成传统SIMD前缀(因此PLA可执行传统和EVEX格式的这些传统指令,而无需修改)。虽然较新的指令可将EVEX前缀编码字段的内容直接作为操作码扩展,但是为了一致性,特定实施例以类似的方式扩展,但允许由这些传统SIMD前缀指定不同的含义。替代实施例可重新设计PLA以支持2位SIMD前缀编码,并且由此不需要扩展。
α字段1352(EVEX字节3,位[7]–EH,也称为EVEX.EH、EVEX.rs、EVEX.RL、EVEX.写掩码控制、以及EVEX.N;也以α示出)-如先前所述,该字段是针对上下文的。
β字段1354(EVEX字节3,位[6:4]-SSS,也称为EVEX.s2-0、EVEX.r2-0、EVEX.rr1、EVEX.LL0、EVEX.LLB;也以βββ示出)-如先前所述,该字段是针对上下文的。
REX’字段1310-这是REX’字段的其余部分,并且是可用于对扩展的32个寄存器集合的较高16个或较低16个寄存器进行编码的EVEX.V’位字段(EVEX字节3,位[3]–V’)。该位以位反转的格式存储。值1用于对较低16个寄存器进行编码。换句话说,通过组合EVEX.V’、EVEX.vvvv来形成V’VVVV。
写掩码字段1370(EVEX字节3,位[2:0]-kkk)-其内容指定写掩码寄存器中的寄存器索引,如先前所述。在本发明的一个实施例中,特定值EVEX.kkk=000具有暗示没有写掩码用于特定指令的特殊行为(这可以各种方式实现,包括使用硬连线到所有的写掩码或者旁路掩码硬件的硬件来实现)。
实操作码字段1430(字节3)还被称为操作码字节。操作码的一部分在该字段中被指定。
MOD R/M字段1440(字节5)包括MOD字段1442、Reg字段1444、以及R/M字段1446。如先前所述的,MOD字段1442的内容将存储器访问和非存储器访问操作区分开。Reg字段1444的作用可被归结为两种情形:对目的地寄存器操作数或源寄存器操作数进行编码;或者被视为操作码扩展且不用于对任何指令操作数进行编码。R/M字段1446的作用可包括如下:对引用存储器地址的指令操作数进行编码;或者对目的地寄存器操作数或源寄存器操作数进行编码。
比例、索引、基址(SIB)字节(字节6)-如先前所述的,比例字段1350的内容用于存储器地址生成。SIB.xxx 1454和SIB.bbb 1456-先前已经针对寄存器索引Xxxx和Bbbb提及了这些字段的内容。
位移字段1362A(字节7-10)-当MOD字段1442包含10时,字节7-10是位移字段1362A,并且它与传统32位位移(disp32)一样地工作,并且以字节粒度工作。
位移因数字段1362B(字节7)-当MOD字段1442包含01时,字节7是位移因数字段1362B。该字段的位置与传统x86指令集8位位移(disp8)的位置相同,它以字节粒度工作。由于disp8是符号扩展的,因此它仅能在-128和127字节偏移量之间寻址;在64字节高速缓存行的方面,disp8使用可被设为仅四个真正有用的值-128、-64、0和64的8位;由于常常需要更大的范围,所以使用disp32;然而,disp32需要4个字节。与disp8和disp32对比,位移因数字段1362B是disp8的重新解释;当使用位移因数字段1362B时,通过将位移因数字段的内容乘以存储器操作数访问的尺寸(N)来确定实际位移。该类型的位移被称为disp8*N。这减小了平均指令长度(单个字节用于位移,但具有大得多的范围)。这种压缩位移基于有效位移是存储器访问的粒度的倍数的假设,并且由此地址偏移量的冗余低阶位不需要被编码。换句话说,位移因数字段1362B替代传统x86指令集8位位移。由此,位移因数字段1362B以与x86指令集8位位移相同的方式(因此在ModRM/SIB编码规则中没有变化)进行编码,唯一的不同在于,将disp8超载至disp8*N。换句话说,在编码规则或编码长度中没有变化,而仅在通过硬件对位移值的解释中有变化(这需要按存储器操作数的尺寸按比例缩放位移量以获得字节式地址偏移量)。立即数字段1372如先前所述地操作。
完整操作码字段
图14B是示出根据本发明的实施例的构成完整操作码字段1374的具有专用向量友好指令格式1400的字段的框图。具体地,完整操作码字段1374包括格式字段1340、基础操作字段1342、以及数据元素宽度(W)字段1364。基础操作字段1342包括前缀编码字段1425、操作码映射字段1415以及实操作码字段1430。
寄存器索引字段
图14C是示出根据本发明的一个实施例的构成寄存器索引字段1344的具有专用向量友好指令格式1400的字段的框图。具体地,寄存器索引字段1344包括REX字段1405、REX’字段1410、MODR/M.reg字段1444、MODR/M.r/m字段1446、VVVV字段1420、xxx字段1454以及bbb字段1456。
扩充操作字段
图14D是示出根据本发明的一个实施例的构成扩充操作字段1350的具有专用向量友好指令格式1400的字段的框图。当类(U)字段1368包含0时,它表明EVEX.U0(A类1368A);当它包含1时,它表明EVEX.U1(B类1368B)。当U=0且MOD字段1442包含11(表明无存储器访问操作)时,α字段1352(EVEX字节3,位[7]–EH)被解释为rs字段1352A。当rs字段1352A包含1(舍入1352A.1)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为舍入控制字段1354A。舍入控制字段1354A包括一位SAE字段1356和两位舍入操作字段1358。当rs字段1352A包含0(数据变换1352A.2)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为三位数据变换字段1354B。当U=0且MOD字段1442包含00、01或10(表明存储器访问操作)时,α字段1352(EVEX字节3,位[7]–EH)被解释为驱逐提示(EH)字段1352B且β字段1354(EVEX字节3,位[6:4]–SSS)被解释为三位数据操纵字段1354C。
当U=1时,α字段1352(EVEX字节3,位[7]–EH)被解释为写掩码控制(Z)字段1352C。当U=1且MOD字段1442包含11(表明无存储器访问操作)时,β字段1354的一部分(EVEX字节3,位[4]–S0)被解释为RL字段1357A;当它包含1(舍入1357A.1)时,β字段1354的其余部分(EVEX字节3,位[6-5]–S2-1)被解释为舍入操作字段1359A,而当RL字段1357A包含0(VSIZE1357.A2)时,β字段1354的其余部分(EVEX字节3,位[6-5]-S2-1)被解释为向量长度字段1359B(EVEX字节3,位[6-5]–L1-0)。当U=1且MOD字段1442包含00、01或10(表明存储器访问操作)时,β字段1354(EVEX字节3,位[6:4]–SSS)被解释为向量长度字段1359B(EVEX字节3,位[6-5]–L1-0)和广播字段1357B(EVEX字节3,位[4]–B)。
示例性寄存器架构
图15是根据本发明的一个实施例的寄存器架构1500的框图。在所示出的实施例中,有32个512位宽的向量寄存器1510;这些寄存器被引用为zmm0到zmm31。较低的16zmm寄存器的较低阶256个位覆盖在寄存器ymm0-16上。较低的16zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。专用向量友好指令格式1400对这些覆盖的寄存器组操作,如在以下表格中所示的。
换句话说,向量长度字段1359B在最大长度与一个或多个其他较短长度之间进行选择,其中每一这种较短长度是前一长度的一半,并且不具有向量长度字段1359B的指令模板在最大向量长度上操作。此外,在一个实施例中,专用向量友好指令格式1400的B类指令模板对紧缩或标量单/双精度浮点数据以及紧缩或标量整数数据操作。标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作;取决于本实施例,较高阶数据元素位置保持与在指令之前相同或者归零。
写掩码寄存器1515-在所示的实施例中,存在8个写掩码寄存器(k0至k7),每一写掩码寄存器的尺寸是64位。在替代实施例中,写掩码寄存器1515的尺寸是16位。如先前所述的,在本发明的一个实施例中,向量掩码寄存器k0无法用作写掩码;当正常指示k0的编码用作写掩码时,它选择硬连线的写掩码0xFFFF,从而有效地停用该指令的写掩码操作。
通用寄存器1525——在所示出的实施例中,有十六个64位通用寄存器,这些寄存器与现有的x86寻址模式一起使用来寻址存储器操作数。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。
标量浮点栈寄存器组(x87栈)1545,在其上面重叠了MMX紧缩整数平坦寄存器组1550——在所示出的实施例中,x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点运算的八元素栈;而使用MMX寄存器来对64位紧缩整数数据执行操作,以及为在MMX和XMM寄存器之间执行的一些操作保存操作数。
本发明的替代实施例可以使用较宽的或较窄的寄存器。另外,本发明的替代实施例可以使用更多、更少或不同的寄存器组和寄存器。
示例性核架构、处理器和计算机架构
处理器核可以用出于不同目的的不同方式在不同的处理器中实现。例如,这样的核的实现可以包括:1)旨在用于通用计算的通用有序核;2)预期用于通用计算的高性能通用乱序核;3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核的CPU;以及2)包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核的协处理器。这样的不同处理器导致不同的计算机系统架构,其可包括:1)在与CPU分开的芯片上的协处理器;2)在与CPU相同的封装中但分开的管芯上的协处理器;3)与CPU在相同管芯上的协处理器(在该情况下,这样的协处理器有时被称为诸如集成图形和/或科学(吞吐量)逻辑等专用逻辑,或被称为专用核);以及4)可以将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上的芯片上系统。接着描述示例性核架构,随后描述示例性处理器和计算机架构。
示例性核架构
有序和乱序核框图
图16A是示出根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图16B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图16A-图16B中的实线框示出了有序流水线和有序核,而可选增加的虚线框示出了寄存器重命名的、乱序发布/执行流水线和核。给定有序方面是乱序方面的子集的情况下,将描述乱序方面。
在图16A中,处理器流水线1600包括取出级1602、长度解码级1604、解码级1606、分配级1608、重命名级1610、调度(也被称为分派或发布)级1612、寄存器读取/存储器读取级1614、执行级1616、写回/存储器写入级1618、异常处理级1622、提交级1624。
图16B示出处理器核1690,包括耦合至执行引擎单元1650的前端单元1630,该前端单元和执行引擎单元两者均耦合至存储器单元1670。核1690可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或其他核类型。作为又一选项,核1690可以是专用核,诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、或图形核等等。
前端单元1630包括耦合到指令高速缓存单元1634的分支预测单元1632,该指令高速缓存单元耦合到指令转换后备缓冲器(TLB)1636,该指令转换后备缓冲器耦合到指令取出单元1638,指令取出单元耦合到解码单元1640。解码单元1640(或解码器)可解码指令,并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元1640可使用各种不同的机制来实现。合适的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,核1690包括(例如,在解码单元1640中或否则在前端单元1630内的)用于存储某些宏指令的微代码的微代码ROM或其他介质。解码单元1640耦合至执行引擎单元1650中的重命名/分配器单元1652。
执行引擎单元1650包括耦合到引退单元1654和一个或多个调度器单元1656的集合的重命名/分配器单元1652。调度器单元1656表示任意数量的不同调度器,包括预留站、中央指令窗口等。(多个)调度器单元1656耦合到(多个)物理寄存器组单元1658。(多个)物理寄存器组单元1658中的每一个表示一个或多个物理寄存器组,其中不同的物理寄存器组保存一个或多个不同的数据类型(诸如:标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点,等等)、状态(诸如,指令指针,它是将要执行的下一个指令的地址)等等。在一个实施例中,(多个)物理寄存器组单元1658包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。(多个)物理寄存器组单元1658被引退单元1654所覆盖,以示出可实现寄存器重命名和乱序执行的多种方式(诸如,使用(多个)重排序缓冲器和(多个)引退寄存器组、使用(多个)未来文件(future file)、(多个)历史缓冲器、(多个)引退寄存器组、使用寄存器映射和寄存器池等等)。引退单元1654和(多个)物理寄存器组单元1658耦合至(多个)执行群集1660。(多个)执行群集1660包括一个或多个执行单元1662的集合以及一个或多个存储器访问单元1664的集合。执行单元1662可执行多种操作(包括:移位、加法、减法、乘法)并可在多种数据类型(诸如、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)上执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元,但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。(多个)调度器单元1656、(多个)物理寄存器组单元1658和(多个)执行群集1660被示为可能有多个,因为某些实施例为某些类型的数据/操作创建分开的流水线(例如,标量整型流水线、标量浮点/紧缩整型/紧缩浮点/向量整型/向量浮点流水线,和/或各自具有其自己的调度器单元、(多个)物理寄存器组单元和/或执行群集的存储器访问流水线——以及在分开的存储器访问流水线的情况下,实现其中仅该流水线的执行群集具有(多个)存储器访问单元1664的某些实施例)。还应当理解,在使用分开的流水线的情况下,这些流水线中的一个或多个可以为乱序发布/执行,并且其余流水线可以为有序发布/执行。
存储器访问单元1664的集合耦合到存储器单元1670,该存储器单元包括耦合到数据高速缓存单元1674的数据TLB单元1672,其中数据高速缓存单元耦合到二级(L2)高速缓存单元1676。在一个示例性实施例中,存储器访问单元1664可包括加载单元、存储地址单元和存储数据单元,其中的每一个均耦合至存储器单元1670中的数据TLB单元1672。指令高速缓存单元1634还耦合到存储器单元1670中的第二级(L2)高速缓存单元1676。L2高速缓存单元1676耦合至一个或多个其他级别的高速缓存,并最终耦合至主存储器。
作为示例,示例性的寄存器重命名乱序发布/执行核架构可以如下所述地实现流水线1600:1)指令取出1638执行取出和长度解码级1602和1604;2)解码单元1640执行解码级1606;3)重命名/分配器单元1652执行分配级1608和重命名级1610;4)(多个)调度器单元1656执行调度级1612;5)(多个)物理寄存器组单元1658和存储器单元1670执行寄存器读取/存储器读取级1614;执行群集1660执行执行级1616;6)存储器单元1670和(多个)物理寄存器组单元1658执行写回/存储器写入级1618;7)各单元可牵涉到异常处理级1622;以及8)引退单元1654和(多个)物理寄存器组单元1658执行提交级1624。
核1690可支持一个或多个指令集(例如,x86指令集(具有与较新版本一起添加的一些扩展);加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集;加利福尼州桑尼维尔市的ARM控股的ARM指令集(具有诸如NEON等可选附加扩展)),其中包括本文中描述的各指令。在一个实施例中,核1690包括用于支持紧缩数据指令集扩展(例如,AVX1、AVX2)的逻辑,由此允许许多多媒体应用所使用的操作利用紧缩数据来执行。
应当理解,核可支持多线程化(执行两个或更多个并行的操作或线程的集合),并且可以按各种方式来完成该多线程化,此各种方式包括时分多线程化、同步多线程化(其中单个物理核为物理核正在同步多线程化的各线程中的每一个线程提供逻辑核)、或其组合(例如,时分取出和解码以及此后诸如用超线程化TM技术来同步多线程化)。
尽管在乱序执行的上下文中描述了寄存器重命名,但应当理解,可以在有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元1634/1674以及共享L2高速缓存单元1676,但替代实施例可以具有用于指令和数据两者的单个内部高速缓存,诸如例如一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中,该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者,所有高速缓存都可以在核和/或处理器的外部。
具体的示例性有序核架构
图17A-图17B示出了更具体的示例性有序核架构的框图,该核将是芯片中的若干逻辑块之一(包括相同类型和/或不同类型的其他核)。根据应用,这些逻辑块通过高带宽的互连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑通信。
图17A是根据本发明的各实施例的单个处理器核以及它与管芯上互连网络1702的连接及其二级(L2)高速缓存的本地子集1704的框图。在一个实施例中,指令解码器1700支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1706允许对进入标量和向量单元中的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元1708和向量单元1710使用分开的寄存器集合(分别为标量寄存器1712和向量寄存器1714),并且在这些寄存器之间转移的数据被写入到存储器并随后从一级(L1)高速缓存1706读回,但是本发明的替代实施例可以使用不同的方法(例如使用单个寄存器集合或包括允许数据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。
L2高速缓存的本地子集1704是全局L2高速缓存的一部分,该全局L2高速缓存被划分成多个分开的本地子集,即每个处理器核一个本地子集。每个处理器核具有到其自己的L2高速缓存的本地子集1704的直接访问路径。被处理器核读出的数据被存储在其L2高速缓存子集1704中,并且可以与其他处理器核访问其自己的本地L2高速缓存子集并行地被快速访问。被处理器核写入的数据被存储在其自己的L2高速缓存子集1704中,并在必要的情况下从其他子集转储清除(flush)。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。
图17B是根据本发明的各实施例的图17A中的处理器核的一部分的展开图。图17B包括L1高速缓存1704的L1数据高速缓存1706A部分,以及关于向量单元1710和向量寄存器1714的更多细节。具体地说,向量单元1710是16宽向量处理单元(VPU)(见16宽ALU 1728),该单元执行整型、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1720支持对寄存器输入的混合、通过数值转换单元1722A-B支持数值转换、并通过复制单元1724支持对存储器输入的复制。写掩码寄存器1726允许断言所得的向量写入。
图18是根据本发明的实施例的可具有超过一个的核、可具有集成的存储器控制器、并且可具有集成图形的处理器1800的框图。图18中的实线框示出具有单个核1802A、系统代理1810、一个或多个总线控制器单元1816的集合的处理器1800,而虚线框的可选附加示出具有多个核1802A-N、系统代理单元1810中的一个或多个集成存储器控制器单元1814的集合以及专用逻辑1808的替代处理器1800。
因此,处理器1800的不同实现可包括:1)CPU,其中专用逻辑1808是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1802A-N是一个或多个通用核(例如,通用的有序核、通用的乱序核、这两者的组合);2)协处理器,其中核1802A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核1802A-N是大量通用有序核。因此,处理器1800可以是通用处理器、协处理器或专用处理器,诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、或嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器1800可以是一个或多个基板的一部分,和/或使用多种工艺技术(诸如,BiCMOS、CMOS、或NMOS)中的任意技术被实现在一个或多个基板上。
存储器层级包括核内的一个或多个高速缓存级、一个或多个共享高速缓存单元1806的集合、以及耦合至该组集成存储器控制器单元1814的外部存储器(未示出)。共享高速缓存单元1806的集合可包括一个或多个中级高速缓存,诸如,第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上的组合。虽然在一个实施例中,基于环的互连单元1812将集成图形逻辑1808(集成图形逻辑1808是其示例,并且在本文中被称为专用逻辑)、共享高速缓存单元1806的集合以及系统代理单元1810/(多个)集成存储器控制器单元1814互连,但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中,可以维护一个或多个高速缓存单元1806和核1802A-N之间的一致性(coherency)。
在一些实施例中,一个或多个核1802A-N能够实现多线程。系统代理1810包括协调和操作核1802A-N的那些组件。系统代理单元1810可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核1802A-N以及集成图形逻辑1808的功率状态进行调节所需的逻辑和组件,或可包括这些逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
核1802A-N在架构指令集方面可以是同构的或异构的;即,这些核1802A-N中的两个或更多个核可能能够执行相同的指令集,而其他核可能能够执行该指令集的仅仅子集或不同的指令集。
示例性计算机架构
图19-图22是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地,能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备一般都是合适的。
现在参考图19,所示出的是根据本发明一个实施例的系统1900的框图。系统1900可以包括一个或多个处理器1910、1915,这些处理器耦合到控制器中枢1920。在一个实施例中,控制器中枢1920包括图形存储器控制器中枢(GMCH)1990和输入/输出中枢(IOH)1950(其可以在分开的芯片上);GMCH 1990包括存储器和图形控制器,存储器1940和协处理器1945耦合到该存储器和图形控制器;IOH 1950将输入/输出(I/O)设备1960耦合到GMCH1990。或者,存储器和图形控制器中的一个或两者可以被集成在处理器内(如本文中所描述的),存储器1940和协处理器1945直接耦合到处理器1910以及控制器中枢1920,控制器中枢1920与IOH 1950处于单个芯片中。
附加的处理器1915的可选性在图19中通过虚线来表示。每一处理器1910、1915可包括本文中描述的处理核中的一个或多个,并且可以是处理器1800的某一版本。
存储器1940可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例,控制器中枢1920经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1995与(多个)处理器1910、1915进行通信。
在一个实施例中,协处理器1945是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。在一个实施例中,控制器中枢1920可以包括集成图形加速器。
在物理资源1910、1915之间可以存在包括架构、微架构、热、和功耗特征等的一系列品质度量方面的各种差异。
在一个实施例中,处理器1910执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在这些指令中。处理器1910将这些协处理器指令识别为应当由附连的协处理器1945执行的类型。因此,处理器1910在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1945。(多个)协处理器1945接受并执行所接收的协处理器指令。
现在参考图20,所示为根据本发明的一实施例的更具体的第一示例性系统2000的框图。如图20所示,多处理器系统2000是点对点互连系统,且包括经由点对点互连2050耦合的第一处理器2070和第二处理器2080。处理器2070和2080中的每一个都可以是处理器1800的某一版本。在本发明的一个实施例中,处理器2070和2080分别是处理器1910和1915,而协处理器2038是协处理器1945。在另一实施例中,处理器2070和2080分别是处理器1910和协处理器1945。
处理器2070和2080被示为分别包括集成存储器控制器(IMC)单元2072和2082。处理器2070还包括作为其总线控制器单元的一部分的点对点(P-P)接口2076和2078;类似地,第二处理器2080包括P-P接口2086和2088。处理器2070、2080可以经由使用点对点(P-P)接口电路2078、2088的P-P接口2050来交换信息。如图20所示,IMC 2072和2082将处理器耦合到相应的存储器,即存储器2032和存储器2034,这些存储器可以是本地附连到相应处理器的主存储器的部分。
处理器2070、2080可各自经由使用点对点接口电路2076、2094、2086、2098的各个P-P接口2052、2054来与芯片组2090交换信息。芯片组2090可以可选地经由高性能接口2092与协处理器2038交换信息。在一个实施例中,协处理器2038是专用处理器,诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等等。
共享高速缓存(未示出)可被包括在任一处理器中,或在两个处理器的外部但经由P-P互连与这些处理器连接,从而如果处理器被置于低功率模式,则任一个或这两个处理器的本地高速缓存信息可被存储在该共享的高速缓存中。
芯片组2090可以经由接口2096耦合至第一总线2016。在一个实施例中,第一总线2016可以是外围组件互连(PCI)总线或诸如PCI高速总线或另一第三代I/O互连总线之类的总线,但是本发明的范围不限于此。
如图20所示,各种I/O设备2014可连同总线桥2018一起耦合到第一总线2016,总线桥2018将第一总线2016耦合到第二总线2020。在一个实施例中,诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器(诸如例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器2015耦合到第一总线2016。在一个实施例中,第二总线2020可以是低引脚数(LPC)总线。各种设备可耦合到第二总线2020,包括例如键盘和/或鼠标2022、通信设备2027以及存储单元2028,诸如在一个实施例中可包括指令/代码和数据2030的盘驱动器或者其他大容量存储设备。此外,音频I/O 2024可以被耦合至第二总线2020。注意,其他架构是可能的。例如,代替图20的点对点架构,系统可以实现多分支总线或其他这类架构。
现在参考图21,所示为根据本发明的实施例的更具体的第二示例性系统2100的框图。图20和图21中的相同部件用相同附图标记表示,并从图21中省去了图20中的某些方面,以避免使图21的其他方面变得模糊。
图21示出处理器2070、2080可分别包括集成存储器和I/O控制逻辑(“CL”)2072和2082。因此,CL 2072、2082包括集成存储器控制器单元并包括I/O控制逻辑。图21示出不仅存储器2032、2034耦合至CL 2072、2082,I/O设备2114也耦合至控制逻辑2072、2082。传统I/O设备2115被耦合至芯片组2090。
现在参照图22,所示出的是根据本发明一个实施例的SoC 2200的框图。在图22中,相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC的可选特征。在图22中,(多个)互连单元2202被耦合至:应用处理器2210,该应用处理器包括一个或多个核1802A-N的集合以及(多个)共享高速缓存单元1806,一个或多个核1802A-N的集合包括高速缓存单元1804A-N;系统代理单元1810;(多个)总线控制器单元1816;(多个)集成存储器控制器单元1814;一个或多个协处理器2220的集合,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(SRAM)单元2230;直接存储器存取(DMA)单元2232;以及用于耦合至一个或多个外部显示器的显示单元2240。在一个实施例中,(多个)协处理器2220包括专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、嵌入式处理器等等。
本文公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码(诸如图20中示出的代码2030)应用于输入指令,以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本文中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的机器可读介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
这样的机器可读存储介质可以包括但不限于通过机器或设备制造或形成的物品的非瞬态的有形安排,其包括存储介质,诸如:硬盘;任何其他类型的盘,包括软盘、光盘、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)以及磁光盘;半导体器件,例如只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)之类的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM);相变存储器(PCM);磁卡或光卡;或适于存储电子指令的任何其他类型的介质。
因此,本发明的各实施例还包括非瞬态的有形机器可读介质,该介质包含指令或包含设计数据,诸如硬件描述语言(HDL),它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。
仿真(包括二进制变换、代码变形等)
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令集。例如,指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式将指令转换成将由核来处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
图23是根据本发明的各实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示的实施例中,指令转换器是软件指令转换器,但作为替代,该指令转换器可以用软件、固件、硬件或其各种组合来实现。图23示出可使用x86编译器2304来编译利用高级语言2302的程序,以生成可由具有至少一个x86指令集核的处理器2316原生执行的x86二进制代码2306。具有至少一个x86指令集核的处理器2316表示任何处理器,这些处理器能通过兼容地执行或以其他方式处理以下内容来执行与具有至少一个x86指令集核的处理器基本相同的功能:1)/> x86指令集核的指令集的本质部分,或2)目标为在具有至少一个x86指令集核的/>处理器上运行的应用或其他程序的目标代码版本,以便取得与具有至少一个x86指令集核的/>处理器基本相同的结果。x86编译器2304表示用于生成x86二进制代码2306(例如,目标代码)的编译器,该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器2316上执行。类似地,图23示出可以使用替代的指令集编译器2308来编译利用高级语言2302的程序,以生成可以由不具有至少一个x86指令集核的处理器2314(例如具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代指令集二进制代码2310。指令转换器2312被用来将x86二进制代码2306转换成可以由不具有x86指令集核的处理器2314原生执行的代码。该转换后的代码不大可能与替代性指令集二进制代码2310相同,因为能够这样做的指令转换器难以制造;然而,转换后的代码将完成一般操作并由来自替代指令集的指令构成。因此,指令转换器2312通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码2306的软件、固件、硬件或其组合。
示例
示例1是一种处理器核。所述处理器核包括解码电路,所述解码电路用于对指令解码,其中所述指令指定要监测的地址;所述处理器核进一步包括监测器电路,其中,所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,其中,所述监测器电路用于:响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使正由所述监测器电路监测的地址入列到所述经触发队列中。所述处理器核进一步包括执行电路,所述执行电路用于执行经解码的指令以:将要监测的所指定地址的条目添加到所述数据结构中;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态。
示例2包括示例1的实体。在该示例中,所述执行电路用于:响应于确定了要监测的所指定地址的条目存在于所述数据结构中,返回要监测的所指定地址已经正由所述监测器电路监测的指示。
示例3包括示例1的实体。在该示例中,所述执行电路用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
示例4包括示例1的实体。在该示例中,所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
示例5包括示例1的实体。在此示例中,所述监测器电路包括溢出指示符,并且所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
示例6包括示例1的实体。在该示例中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
示例7包括示例1的实体。在该示例中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
示例8是由处理器核执行的方法。该方法包括:对指令解码,其中,所述指令指定要监测的地址;以及执行经解码的指令以:将要监测的所指定地址的条目添加到监测器电路的数据结构;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到所述监测器电路的经触发队列中。
示例9包括示例8的实体。在该示例中,所述执行用于:响应于确定了要监测的所指定地址的条目存在于所述数据结构中,返回要监测的所指定地址已经正由所述监测器电路监测的指示。
示例10包括示例8的实体。在该示例中,所述执行用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
示例11包括示例8的实体。在该示例中,所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
示例12包括示例8的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
示例13包括示例8的实体。在该示例中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
示例14包括示例8的实体。在该示例中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
示例15是非暂态计算机可读存储介质,具有存储在其中的指令。所述指令当由处理器核执行时使所述处理器核:对指令解码,其中,所述指令指定要监测的地址;以及执行经解码的指令以:将要监测的所指定地址的条目添加到监测器电路的数据结构;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到所述监测器电路的经触发队列中。
示例16包括示例15的实体。在该示例中,所述执行用于:响应于确定了要监测的所指定地址的条目存在于所述数据结构中,返回要监测的所指定地址已经正由所述监测器电路监测的指示。
示例17包括示例15的实体。在该示例中,所述执行用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
示例18包括示例15的实体。在该示例中,所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
示例19包括示例15的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
示例20包括示例16的实体。在该示例中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
示例21包括示例15的实体。在该示例中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
示例22是一种系统。所述系统包括解码电路,所述解码电路用于对指令解码,其中所述指令指定要监测的地址。所述系统进一步包括监测器电路,其中,所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,其中,所述监测器电路用于:响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使正由所述监测器电路监测的地址入列到所述经触发队列中。所述系统进一步包括执行电路,所述执行电路用于执行经解码的指令以:将要监测的所指定地址的条目添加到所述数据结构中;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态。
示例23包括示例22的实体。在该示例中,所述执行电路用于:响应于确定了要监测的所指定地址的条目存在于所述数据结构中,返回要监测的所指定地址已经正由所述监测器电路监测的指示。
示例24包括示例22的实体。在该示例中,所述执行电路用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
示例25包括示例22的实体。在该示例中,所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
示例26包括示例22的实体。在此示例中,所述监测器电路包括溢出指示符,并且所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
示例27包括示例22的实体。在该示例中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
示例28是一种处理器核。所述处理器核包括解码装置,所述解码装置用于对指令解码,其中所述指令指定要监测的地址。所述处理器核进一步包括监测装置,其中,所述监测装置包括数据结构和经触发队列,所述数据结构用于存储正由所述监测装置监测的地址的多个条目,其中,所述监测装置用于:响应于确定了针对正由所述监测装置监测的地址的触发事件发生,使正由所述监测装置测的地址入列到所述经触发队列中。所述处理器核进一步包括执行装置,所述执行装置用于执行经解码的指令以:将要监测的所指定地址的条目添加到所述数据结构中;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态。
示例29包括示例28的实体。在该示例中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
示例30是一种处理器核。所述处理器核包括解码电路,所述解码电路用于对指令解码。所述处理器核进一步包括监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址。所述处理器核进一步包括执行电路,所述执行电路用于执行经解码指令以:使地址从所述经触发队列出列;以及响应于确定了所述经触发队列不为空而返回出列的地址。
示例31包括示例30的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空,使所述处理器核进入最优状态;以及响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
示例32包括示例30的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空,返回正由所述监测器电路监测的地址的触发事件未发生的指示。
示例33包括示例30的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述执行电路用于:响应于确定了所述溢出指示符经置位且还重置所述溢出指示符,返回所述经触发队列已溢出的指示。
示例34包括示例30的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
示例35包括示例34的实体。在该示例中,所述执行电路用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
示例36包括示例30的实体。在该示例中,所述执行电路用于:将出列的地址存储在目的地寄存器中。
示例37是由处理器核执行的方法。该方法包括:对指令解码;以及执行经解码指令以:使地址从监测器电路的经触发队列出列;以及响应于确定了所述经触发队列不为空而返回出列的地址,其中,所述监测器电路包括数据结构,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,并且其中,所述经触发队列用于存储触发事件针对其发生的多个地址。
示例38包括示例37的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空,使所述处理器核进入最优状态;以及响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
示例39包括示例37的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空,返回正由所述监测器电路监测的地址的触发事件未发生的指示。
示例40包括示例37的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述执行用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
示例41包括示例37的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
示例42包括示例41的实体。在该示例中,所述执行用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
示例43包括示例37的实体。在该示例中,所述执行用于:将出列的地址存储在目的地寄存器中。
示例44是非暂态计算机可读存储介质,具有存储在其中的指令。所述指令当由处理器核执行时使所述处理器核:对指令解码;以及执行经解码指令以:使地址从监测器电路的经触发队列出列;以及响应于确定了所述经触发队列不为空而返回出列的地址,其中,所述监测器电路包括数据结构,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,并且其中,所述经触发队列用于存储触发事件针对其发生的多个地址。
示例45包括示例44的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空,使所述处理器核进入最优状态;以及响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
示例46包括示例44的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空,返回正由所述监测器电路监测的地址的触发事件未发生的指示。
示例47包括示例44的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述执行用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
示例48包括示例44的实体。在该示例中,所述执行用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
示例49包括示例48的实体。在该示例中,所述执行用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
示例50包括示例44的实体。在该示例中,所述执行用于:将出列的地址存储在目的地寄存器中。
示例51是一种系统。所述系统包括解码电路,所述解码电路用于对指令解码。所述系统进一步包括监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址。所述系统进一步包括执行电路,所述执行电路用于执行经解码指令以:使地址从所述经触发队列出列;以及响应于确定了所述经触发队列不为空而返回出列的地址。
示例52包括示例51的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空,使所述处理器核进入最优状态;以及响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
示例53包括示例51的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空,返回正由所述监测器电路监测的地址的触发事件未发生的指示。
示例54包括示例51的实体。在该示例中,所述监测器电路包括溢出指示符,并且所述执行电路用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
示例55包括示例51的实体。在该示例中,所述执行电路用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
示例56包括示例55的实体。在该示例中,所述执行电路用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
示例57是一种处理器核。所述处理器核包括解码装置,所述解码装置用于对指令解码。所述处理器核进一步包括监测装置,其中所述监测装置包括数据结构和经触发队列,所述数据结构用于存储正由所述监测装置监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址。所述处理器核进一步包括执行装置,所述执行装置用于执行经解码指令以:使地址从所述经触发队列出列;以及响应于确定了所述经触发队列不为空而返回出列的地址。
示例58包括示例57的实体。在该示例中,所述执行装置用于:将出列的地址存储在目的地寄存器中。
尽管是通过几个实施例来对本发明进行描述的,但是,本领域技术人员将认识到,本发明不仅限于所描述的实施例,并且本发明可在所附权利要求书的精神和范围内作出修改和更改来实践。如此,描述被视为是说明性的,而不是限制性的。

Claims (40)

1.一种处理器核,包括:
解码电路,用于对指令解码,其中所述指令指定要监测的地址;
监测器电路,其中,所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,其中,所述监测器电路用于:响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使正由所述监测器电路监测的地址入列到所述经触发队列中;以及
执行电路,用于执行经解码指令以:
将要监测的所指定地址的条目添加到所述数据结构中;以及
使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,
其中所述执行电路响应于确定了要监测的所指定地址的条目存在于所述数据结构中而返回要监测的所指定地址已经正由所述监测器电路监测的指示。
2.如权利要求1所述的处理器核,其中,所述执行电路用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
3.如权利要求1所述的处理器核,其中所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
4.如权利要求1所述的处理器核,其中,所述监测器电路包括溢出指示符,并且其中,所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
5.如权利要求1所述的处理器核,其中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
6.如权利要求1-5中的任一项所述的处理器核,其中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
7.一种由处理器核执行的方法,包括:
对指令解码,其中,所述指令指定要监测的地址;
执行经解码的指令以:将要监测的所指定地址的条目添加到监测器电路的数据结构;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,其中,监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,使要监测的所指定地址入列到所述监测器电路的经触发队列中;以及
执行经解码的指令以:响应于确定了要监测的所指定地址的条目存在于所述数据结构中,返回要监测的所指定地址已经正由所述监测器电路监测的指示。
8.如权利要求7所述的方法,其中,所述执行用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
9.如权利要求7所述的方法,其中所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
10.如权利要求7所述的方法,其中,所述监测器电路包括溢出指示符,并且其中,所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
11.如权利要求7所述的方法,其中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
12.如权利要求7-11中的任一项所述的方法,其中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
13.一种计算系统,包括:
处理器,所述处理器包括处理器核,所述处理器核包括:
解码电路,用于解码指令,其中所述指令指定要监测的地址;
监测器电路,其中,所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,其中,所述监测器电路用于:响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使正由所述监测器电路监测的地址入列到所述经触发队列中;以及
执行电路,用于执行经解码指令以:
将要监测的所指定地址的条目添加到所述数据结构中;以及
使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态,
其中所述执行电路响应于确定了要监测的所指定地址的条目存在于所述数据结构中而返回要监测的所指定地址已经正由所述监测器电路监测的指示;以及
存储器,所述存储器与所述处理器耦合。
14.如权利要求13所述的计算系统,其中,所述执行电路用于:响应于确定了在所述数据结构中没有可用的空闲条目而返回所述数据结构为满的指示。
15.如权利要求13所述的计算系统,其中所述监测器电路用于:响应于确定了针对要监测的所指定地址的触发事件发生,释放要监测的所指定地址的条目。
16.如权利要求13所述的计算系统,其中,所述监测器电路包括溢出指示符,并且其中,所述监测器电路用于:响应于确定了所述经触发队列已溢出而对所述溢出指示符置位。
17.如权利要求13-16中任一项所述的计算系统,其中,所述监测器电路用于:基于确定了对应于要监测的所指定地址的高速缓存行的一致性状态已改变,确定针对正被监测的所指定地址的触发事件发生。
18.一种计算设备,包括:
用于对指令进行解码的装置,其中所述指令指定要监测的地址;
用于监测的装置,其中,所述用于监测的装置包括数据结构和经触发队列,所述数据结构用于存储正由所述用于监测的装置监测的地址的多个条目,其中,所述用于监测的装置用于:响应于确定了针对正由所述用于监测的装置监测的地址的触发事件发生,使正由所述用于监测的装置监测的地址入列到所述经触发队列中;以及
用于执行经解码的指令以进行以下操作的装置:将要监测的所指定地址的条目添加到所述数据结构中;以及使用高速缓存一致性协议确保对应于要监测的所指定地址的高速缓存行的一致性状态处于共享状态;以及
用于执行经解码的指令以响应于确定了要监测的所指定地址的条目存在于所述数据结构中而返回要监测的所指定地址已经正由所述用于监测的装置监测的指示的装置。
19.如权利要求18所述的计算设备,其中,要监测的所指定地址的条目包括对应于要监测的所指定地址的逻辑地址的指示以及对应于要监测的所指定地址的物理地址的指示。
20.一种处理器核,包括:
解码电路,用于对指令解码;
监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
执行电路,用于执行经解码指令以:
响应于确定了所述经触发队列不为空,使地址从所述经触发队列出列并且返回出列的地址;以及
响应于确定了所述经触发队列为空,返回针对正由所述监测器电路监测的地址的触发事件未发生的指示。
21.如权利要求20所述的处理器核,其中,所述监测器电路包括溢出指示符,并且其中,所述执行电路用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
22.如权利要求20所述的处理器核,其中,所述执行电路用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
23.如权利要求22所述的处理器核,其中,所述执行电路用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
24.如权利要求20-23中的任一项所述的处理器核,其中,所述执行电路用于将出列的地址存储在目的地寄存器中。
25.一种处理器核,包括:
解码电路,用于对指令解码;
监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
执行电路,用于执行经解码指令以:
响应于确定了所述经触发队列不为空,使地址从所述经触发队列出列,并且返回出列的地址;以及
响应于确定了所述经触发队列为空,使所述处理器核进入最优状态,并且响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
26.一种由处理器核执行的方法,包括:
对指令解码;以及
执行经解码指令以:
响应于确定了经触发队列不为空,使地址从监测器电路的经触发队列出列并且返回出列的地址,其中,所述监测器电路包括数据结构,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,并且其中,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
响应于确定了所述经触发队列为空,返回针对正由所述监测器电路监测的地址的触发事件未发生的指示。
27.如权利要求26所述的方法,其中,所述监测器电路包括溢出指示符,并且其中,所述执行用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
28.如权利要求26所述的方法,其中,所述执行用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
29.如权利要求28所述的方法,其中,所述执行用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
30.如权利要求26-29中的任一项所述的方法,其中,所述执行用于:将出列的地址存储在目的地寄存器中。
31.一种由处理器核执行的方法,包括:
对指令解码;以及
执行经解码指令以:
响应于确定了经触发队列不为空,使地址从监测器电路的经触发队列出列,并且返回出列的地址,其中,所述监测器电路包括数据结构,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,并且其中,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
响应于确定了所述经触发队列为空,使所述处理器核进入最优状态,并且响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态。
32.一种计算系统,包括:
处理器,所述处理器包括处理器核,所述处理器核包括:
解码电路,用于对指令解码;
监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
执行电路,用于执行经解码指令以:
响应于确定了所述经触发队列不为空,使地址从所述经触发队列出列并且返回出列的地址;以及
响应于确定了所述经触发队列为空,返回正由所述监测器电路监测的地址的触发事件未发生的指示;以及
存储器,所述存储器与所述处理器耦合。
33.如权利要求32所述的计算系统,其中,所述监测器电路包括溢出指示符,并且其中,所述执行电路用于:响应于确定了所述溢出指示符经置位且重置所述溢出指示符,返回所述经触发队列已溢出的指示。
34.如权利要求32所述的计算系统,其中,所述执行电路用于:响应于确定了所述经触发队列为空且所述数据结构为空,返回没有地址正由所述监测器电路监测的指示。
35.如权利要求34所述的计算系统,其中,所述执行电路用于:基于确定了所述数据结构的内容指示没有地址正由所述监测器电路监测,确定所述数据结构为空。
36.一种计算系统,包括:
处理器,所述处理器包括处理器核,所述处理器核包括:
解码电路,用于对指令解码;
监测器电路,其中所述监测器电路包括数据结构和经触发队列,所述数据结构用于存储正由所述监测器电路监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
执行电路,用于执行经解码指令以:
响应于确定了所述经触发队列不为空,使地址从所述经触发队列出列,并且返回出列的地址;以及
响应于确定了所述经触发队列为空,使处理器核进入最优状态;以及响应于确定了针对正由所述监测器电路监测的地址的触发事件发生,使所述处理器核退出所述最优状态;以及
存储器,所述存储器与所述处理器耦合。
37.一种计算设备,包括:
用于对指令进行解码的装置;
用于监测的装置,其中所述用于监测的装置包括数据结构和经触发队列,所述数据结构用于存储正由所述用于监测的装置监测的地址的多个条目,所述经触发队列用于存储触发事件针对其发生的多个地址;以及
用于执行经解码指令以进行以下操作的装置:响应于确定了所述经触发队列不为空,使地址从所述经触发队列出列并且返回出列的地址;以及响应于确定了所述经触发队列为空,返回正由监测器电路监测的地址的触发事件未发生的指示。
38.如权利要求37所述的计算设备,其中,用于执行经解码的指令装置用于将出列的地址存储在目的地寄存器中。
39.一种非暂态计算机可读存储介质,具有于其中的指令,所述指令在由处理器核执行时使得所述处理器核执行如权利要求7-12中任一项所述的方法。
40.一种非暂态计算机可读存储介质,具有于其中的指令,所述指令在由处理器核执行时使得所述处理器核执行如权利要求26-31中任一项所述的方法。
CN201711225449.8A 2016-12-29 2017-11-29 N路监测器 Active CN108255520B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/394,271 2016-12-29
US15/394,271 US10289516B2 (en) 2016-12-29 2016-12-29 NMONITOR instruction for monitoring a plurality of addresses

Publications (2)

Publication Number Publication Date
CN108255520A CN108255520A (zh) 2018-07-06
CN108255520B true CN108255520B (zh) 2024-04-05

Family

ID=60582470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711225449.8A Active CN108255520B (zh) 2016-12-29 2017-11-29 N路监测器

Country Status (3)

Country Link
US (2) US10289516B2 (zh)
EP (1) EP3388942A1 (zh)
CN (1) CN108255520B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586574B (zh) * 2019-02-18 2022-09-02 华为技术有限公司 一种通知信息的显示方法及装置
US11467843B2 (en) 2020-06-18 2022-10-11 Samsung Electronics Co., Ltd. Systems, methods, and devices for queue availability monitoring

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623628A (en) * 1994-03-02 1997-04-22 Intel Corporation Computer system and method for maintaining memory consistency in a pipelined, non-blocking caching bus request queue
CN105683922A (zh) * 2014-10-03 2016-06-15 英特尔公司 实现监视对地址的写入的指令的可扩展机制

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666551A (en) 1994-06-30 1997-09-09 Digital Equipment Corporation Distributed data bus sequencing for a system bus with separate address and data bus protocols
US5778438A (en) * 1995-12-06 1998-07-07 Intel Corporation Method and apparatus for maintaining cache coherency in a computer system with a highly pipelined bus and multiple conflicting snoop requests
US6493741B1 (en) 1999-10-01 2002-12-10 Compaq Information Technologies Group, L.P. Method and apparatus to quiesce a portion of a simultaneous multithreaded central processing unit
US20030126379A1 (en) 2001-12-31 2003-07-03 Shiv Kaushik Instruction sequences for suspending execution of a thread until a specified memory access occurs
US6996645B1 (en) 2002-12-27 2006-02-07 Unisys Corporation Method and apparatus for spawning multiple requests from a single entry of a queue
US7257679B2 (en) 2004-10-01 2007-08-14 Advanced Micro Devices, Inc. Sharing monitored cache lines across multiple cores
US8019947B2 (en) 2005-10-19 2011-09-13 Intel Corporation Technique for thread communication and synchronization
US10020037B2 (en) 2007-12-10 2018-07-10 Intel Corporation Capacity register file
US9081687B2 (en) 2007-12-28 2015-07-14 Intel Corporation Method and apparatus for MONITOR and MWAIT in a distributed cache architecture
GB2461716A (en) * 2008-07-09 2010-01-13 Advanced Risc Mach Ltd Monitoring circuitry for monitoring accesses to addressable locations in data processing apparatus that occur between the start and end events.
US8464035B2 (en) 2009-12-18 2013-06-11 Intel Corporation Instruction for enabling a processor wait state
US20140075163A1 (en) 2012-09-07 2014-03-13 Paul N. Loewenstein Load-monitor mwait
US8990503B2 (en) 2013-01-30 2015-03-24 Oracle International Corporation Monitoring multiple memory locations for targeted stores in a shared-memory multiprocessor
US9411663B2 (en) 2013-03-01 2016-08-09 Advanced Micro Devices, Inc. Conditional notification mechanism
US10025715B2 (en) * 2014-06-27 2018-07-17 International Business Machines Corporation Conditional inclusion of data in a transactional memory read set
US9710279B2 (en) * 2014-09-26 2017-07-18 Intel Corporation Method and apparatus for speculative vectorization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623628A (en) * 1994-03-02 1997-04-22 Intel Corporation Computer system and method for maintaining memory consistency in a pipelined, non-blocking caching bus request queue
CN105683922A (zh) * 2014-10-03 2016-06-15 英特尔公司 实现监视对地址的写入的指令的可扩展机制

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龙芯GS464E处理器核架构设计;吴瑞阳;汪文祥;王焕东;胡伟武;;中国科学:信息科学;20150420(04);全文 *

Also Published As

Publication number Publication date
US20180189060A1 (en) 2018-07-05
US10289516B2 (en) 2019-05-14
EP3388942A1 (en) 2018-10-17
CN108255520A (zh) 2018-07-06
US10394678B2 (en) 2019-08-27
US20180189162A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
CN109478139B (zh) 用于共享存储器中的访问同步的装置、方法和系统
KR101748538B1 (ko) 벡터 인덱싱 메모리 액세스 플러스 산술 및/또는 논리 연산 프로세서들, 방법들, 시스템들 및 명령어들
CN108595348B (zh) 无局部性提示的向量存储器访问处理器、方法、系统和指令
KR102463858B1 (ko) 벡터 인덱스 로드 및 저장을 위한 방법 및 장치
US9542186B2 (en) Instruction set for supporting wide scalar pattern matches
JP7244046B2 (ja) 遠隔アトミックオペレーションの空間的・時間的マージ
KR20170118051A (ko) 벡터 캐시 라인 라이트 백 프로세서, 방법, 시스템, 및 명령어
JP2017016637A (ja) 密結合ヘテロジニアスコンピューティングのためのハードウェアプロセッサ及び方法
CN104081340B (zh) 用于数据类型的下转换的装置和方法
KR102462174B1 (ko) 벡터 비트 셔플을 수행하기 위한 방법 및 장치
KR102460975B1 (ko) 벡터 비트 뒤집기를 수행하기 위한 방법 및 장치
CN118132146A (zh) 用于下转换以及交错多个浮点值的装置和方法
JP2017534114A (ja) Z順序曲線において次のポイントの座標を計算するためのベクトル命令
JP2021051727A (ja) グラフアプリケーション内の圧縮されたリストに効率的にアクセスするための間接参照のロード及びストアへのisaサポートのシステム及び方法
JP2018500659A (ja) 高速ベクトルによる動的なメモリ競合検出
JP2018500652A (ja) マスクをマスク値のベクトルに拡張するための方法および装置
CN108241509B (zh) 用于高效地处理存储器排序缓冲器的分配的方法和装置
CN108268279B (zh) 用于广播算术操作的系统、装置和方法
CN108255520B (zh) N路监测器
KR20170099860A (ko) 벡터 포화된 더블워드/쿼드워드 덧셈을 수행하기 위한 명령어 및 로직
US10073775B2 (en) Apparatus and method for triggered prefetching to improve I/O and producer-consumer workload efficiency
US11934830B2 (en) Method and apparatus for data-ready memory operations
KR102528073B1 (ko) 벡터 비트 수집을 수행하기 위한 방법 및 장치
US20200401412A1 (en) Hardware support for dual-memory atomic operations
CN112306910A (zh) 用于拆分式数据转换后备缓冲器的硬件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant