CN108369553B

CN108369553B - 用于范围保护的系统、方法和装置

Info

Publication number: CN108369553B
Application number: CN201680070669.5A
Authority: CN
Inventors: F·圭姆伯纳特; K·库马; T·威尔豪姆; R·K·拉马努金; R·G·布朗肯希普
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-29
Filing date: 2016-12-29
Publication date: 2023-12-19
Anticipated expiration: 2036-12-29
Also published as: TWI724071B; US10547680B2; WO2017117321A3; US20170187805A1; CN108369553A; WO2017117321A2; TW201732610A

Abstract

用于范围保护的系统、方法和装置。在一些实施例中，一种装置包括：至少一个监测电路，用于监测对地址空间的存储器访问并且在对所述地址空间的违例时采取动作，其中，所述动作是以下各项之一：向请求了所述监测的节点生成通知；生成所述错误请求；在所述归属节点的特定上下文中生成通知；以及在具有所述地址空间的所有权的节点中生成通知；至少一个保护表，用于存储所述地址空间的标识符；以及至少一个硬件核，用于执行用于启用所述监测电路的指令。

Description

用于范围保护的系统、方法和装置

技术领域

本发明的领域总体上涉及计算机处理器架构，并且更具体地，涉及当被执行时引起特定结果的指令。

背景技术

指令集架构(ISA)的扩展为软件提供了与事务存储器(TM)支持一起工作的接口。基本目标是通过提供硬件方案来加速多线程工作负载，所述硬件方案使这些工作负载通过锁省略执行某组操作。TM的商业示例是硬件锁省略(Hardware Lock Elision，HLE)和受限事务存储器(Restricted Transactional Memory，RTM)。

HLE扩展添加了两个新的指令前缀XACQUIRE和XRELEASE。基本概念是：线程执行XACQUIRE、任意指令流加上XRELEASE。逻辑上，此段可以被看作“lock()；Instructions()；unlock()(锁定()；指令()；解锁())”。即使一个线程可能正在执行此段，其他线程也将此段视为是空闲的。如果处理器检测到违例(意味着其他线程进入临界段)，则正在进行的事务被中止，并且线程重新启动来自XACQUIRE的指令流。在未检测到违例的情况下执行XRELEASE之后，所有指令被提交。

TSX是用于改进大量线程访问较小但频繁共享的地址和代码流的软件系统的一种良好的基于硬件的解决方案。然而，这种机制应用于一致性域(即，通过UPI连接的多套接字系统)内。随着数据集的量增大，诸如数据库等事务软件需要能够通过诸如结构(fabric)等高速互连对若干共享存储器系统进行操作。可能存在数十个经由互连连接的这些系统，并且这些系统将跨越不同的一致性域(域可以是单个系统或一组系统)。

附图说明

本发明是通过示例说明的，并且不局限于各个附图的图示，在附图中，相同的参考标号表示类似的元件并且其中：

图1展示了支持远程监测的系统的实施例；

图2展示了标签目录的实施例；

图3展示了对保护范围的使用的示例性实施例；

图4展示了用于处置远程监测违例的两个实施例；

图5展示了在接收侧使用保护范围的示例性实施例；

图6展示了在接收侧使用解除保护范围的示例性实施例；

图7展示了使用保护范围和解除保护范围进行的初始化和最终化流程的示例；

图8展示了用于由未请求监测的核(非始发核)处置冲突的方法的实施例；

图9展示了处置冲突的示例。在本示例中，设置(保护范围)已经发生；

图10展示了可能潜在地在软件可靠性和可调试性方面引起巨大问题的情况的示例；

图11展示了具有范围违例的情况的示例；

图12是根据本发明一个实施例的寄存器架构的框图；

图13A是展示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图；

图13B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图；

图14A至图14B展示更具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块；

图15是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器的框图；

图16至图19是示例性计算机架构的框图；以及

图20是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。

具体实施方式

在下面的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中，没有详细示出众所周知的电路、结构和技术，以避免模糊对本说明书的理解。

在说明书中提到“一个实施例”、“实施例”、“示例实施例”等表明所描述的实施例可以包括特定特征、结构、或特性，但每一个实施例可能不一定包括所述特定特征、结构、或特性。而且，此类短语不一定指相同的实施例。另外，当结合实施例来描述特定特征、结构或特性时，应理解，无论是否予以显式地描述，结合其他实施例来实行此特征、结构或特性在本领域的技术人员的知识范围内。

在改进存储器、存储设备、结构和互连技术方面的大量投资已经产生了分布式共享存储器系统(DSM)满足企业和大数据应用的需求的可能性。在结构等待时间预计达到约存储器等待时间内的情况下，分布式共享存储器系统可以为结构上的服务器集群提供大型的、单一地址空间；从而为“纵向扩展(scale-up)”节点控制器系统提供可伸缩的、具有成本效益的替代方案。这些节点控制器将提供对如NVM或NBOD等存储和存储器技术和协议的访问。

然而，DSM的缺点之一是应用的存储器引用的高速缓存一致性问题。对于企业或大数据应用，诸如在系统上运行的每进程栈和临时存储设备等几种类型的存储器引用无需是一致的。另一方面，通常存在其中应用需要确保一致性的代码段(例如：用于事务处理的临界段)。为了实施一致性，由下一代数据中心提供基于硬件方案的新软件方案。因此，使用某些硬件功能的软件栈将向应用提供在数据中心中运行的不同进程和线程之中实施一致性或相容性的方式。

企业应用趋于高度复杂。因此，这些应用依赖于使用数百万代码行来编码的许多不同组件。这些应用通常是多线程的。在许多情况下，这些应用同时与数千个线程一起运行并且与DSM一起运行，所有这些线程将可能跨数十个服务器共享同一个地址空间。在这种环境中，相对于当前架构，(应用或函数库中)具有与对错误存储器区域进行访问的线程相关的软件错误的概率将高得多。因此，用于保护和检测这种存储器访问的暴露机制将是软件采用和未来DSM架构成功的基础。在不具有硬件支持的情况下，在跨数十个节点的数千个线程之中仲裁或检测DSM中的存储器损坏将是一项单调乏味或不可能完成的任务。

本文中详述了用于防止使用DSM的不同线程之间的存储器损坏的实施例。可以在违例将要发生时经由页错误通知执行违例的线程，并且所述线程可以使所述违例不会发生。在许多实例中，这有助于防止如迷途(stray)指针或缓冲器溢出等软件错误生成DSM中的存储器损坏。

这允许在一个节点中运行的线程使用指定访问模式来保护归属于另一节点的给定存储器区域。由集群中的任何其他线程完成的任何访问都应当生成错误并且将信息传播至系统。

图10展示了可能潜在地在软件可靠性和可调试性方面引起巨大问题的情况的示例。数据库具有在节点0 1001、节点1 1003和节点2 1005中运行的线程。节点1 1003将存储器暴露于节点0 1001和节点2 1005。节点0 1001和节点2 1005具有访问远程存储器的两个线程1009、1011和1013、1015。

数据库软件栈向线程0 1009分配对[a，b]的访问，向线程1 1011分配对[b+1，c]的访问，并且向线程2 1013和线程3 1015分配对[e，f]的访问。由于软件错误实现(例如，损坏指针或缓冲器溢出)，线程2 1013意外地生成结束了旨在(理论上)由线程0 1109专用的地址空间的存储器引用。这会导致存储器损坏。

通过本文中详述的实施例，硬件将允许数据库保护线程0、1、2和3正在访问的不同存储器区域中的每一个。

图11展示了具有范围违例的情况的示例。在本示例中，线程2在线程1的地址空间中进行的放置(put)将表示违例。在本实例中，页错误将被表示。

本文中详述了允许软件线程指定给定指令集被绑定至对某个存储器范围的特定类型访问的接口(指令)。由(一致性域中或外部的)任何其他线程在指定模式下执行的对此地址空间的任何访问将在请求方侧生成页错误并且根据先前注册而执行其他特定的动作。

本文中详述了用于实施远程地址访问监测的硬件及其使用方法的实施例。图1展示了支持远程监测的系统的实施例。典型套接字101包括多个处理器核105、管芯上互连硬件113、以及结构接口111。可以在节点内(通过一致性的管芯上互连113)或使用结构交换机和结构接口111在节点之间逐套接字地进行远程监测。如此，取决于监测请求所针对的地址空间，请求可以去往同一节点的本地存储器，所述请求可以去往用于将请求路由至同一个一致性域内的其他处理器的管芯上互连113，或者所述请求可以通过处于一致性域外部的主机结构接口(Host Fabric Interface，HFI)111去往处理器。一种系统可以由全都是通过结构互连连接的一致性域的一个或多个一致性域构成。例如，高性能计算或数据中心由可以使用结构彼此进行通信的N个集群或服务器构成。通过使用所述结构，每个一致性域可以将一些地址区域暴露给其他一致性域。然而，不同一致性域之间的访问不是一致的。在大多数实例中，结构允许在不同的一致性域之间映射存储器范围的地址。

节点通常还具有高速缓存代理和/或归属代理115。高速缓存代理是节点内处理来自同一节点内的核的存储器请求的一致性代理。归属代理(HA)是负责处理来自高速缓存代理的存储器请求的节点集群并且充当存储器地址空间的一部分的归属(一个管芯可以具有多个归属，所述多个归属具有分布式地址空间映射)。在此图示中，存在每套接字一个归属代理115，然而，在一些实施例中，存在每节点一个归属代理。进一步地，在一些实施例中，归属代理的功能包括在高速缓存代理中并且被称为如示出为109的高速缓存归属代理(CHA)。贯穿本描述，为了便于描述，通常使用CHA。

高速缓存代理(比如CHA 109)是可以使事务进入到一致性存储器中并且可以将副本保留在其自己的高速缓存结构中的实体。高速缓存代理由其可以根据在高速缓存一致性协议中定义的行为而灌入和拉出的消息定义。高速缓存代理还可以向其他高速缓存代理提供一致性存储器内容的副本。归属代理(比如CHA 109或归属代理115)是服务于一致性事务——包括必要时与高速缓存代理的握手——的实体。归属代理监督一致性存储器的一部分。归属代理负责管理可能在不同高速缓存代理之中出现的冲突。所述归属代理根据需要通过给定事务的流程提供适当的数据和所有权响应。

进一步地，归属代理包括具有以下存储器地址状态的分布式目录：清理(这是唯一副本，例如，刚刚被写回的行)、任何(节点内的任何远程套接字都可以具有副本)、以及无效(本地套接字的高速缓存具有副本)。附加状态(远程)指示远程节点已经请求了副本，并且可能已经并且可以在对所述行的请求源自结构时更新。

添加监测方案的一个逻辑位置是节点内的归属代理，并且在一些实施例中，情况就是如此。然而，当分布式方案映射HA中的地址空间时(节点控制器、散列方案、半球、象限方案等)，这可能增加太多设计、区域和验证方面的复杂性。如此，在一些实施例中，这种监测信息作为保护表(PT)103被保持在以下各项中：1)节点的将来自其他节点的任何存储器事务隧道传递到归属节点(结构接口111)的代理；2)节点105内的核；以及3)可以在不经过代理(管芯上互连113)的情况下访问本地存储器以识别访问的唯一代理。这个表由监测电路(未示出)使用，所述监测电路跟踪存储器/高速缓存访问，将那些访问与所述表进行比较并且向始发核警告所请求的任何访问。

在一些实施例中，分布式存储器监测方案允许核在归属节点上注册以监测兴趣地址范围。监测方案允许发现由系统中的其他高速缓存代理访问的给定行何时落入指定地址范围内；相应地，监测方案更新共享者的针对给定范围的有效位。请求地址范围跟踪的核使用标签目录结构107来表示集群中可访问特定地址范围并且由所述核用来跟踪/监测地址范围的套接字。

此目录在两个维度上是非完美的标签目录。首先，假定整个系统可以具有非常大的地址空间，不同的地址可以在同一标签条目中匹配(下文中进行解释)。其次，共享者的远程跟踪信息(例如，位掩码或布隆过滤器)中的每个位与系统中的一组高速缓存代理相对应。与每核标签目录相关联的过滤硬件执行布隆过滤或其他过滤以测试是否包括在集合中。

图2展示了标签目录的实施例。标签目录201中的条目包括以下字段：跟踪大小粒度203、地址散列205、跟踪粒度207、以及远程共享者信息209。

跟踪大小203和跟踪粒度207可以通过如上详述的一致性调用来提供。如此，可以使用页级或大页级跟踪而不是高速缓存行跟踪来减少目录中的行数。

作为简化示例，假设由各自具有2个套接字的8个节点组成的假想集群，并且考虑每个节点只有4MB存储器(各自具有64B的65K行)。现在，在查找目录中存在65K行条目，每个条目与节点中的行相对应。在这种情况下，16位位掩码准确地跟踪已经从此节点请求存储器的套接字。然而，实际上，系统具有大得多的存储器，并且查找目录的空间需求可能快速地变得不切实际。出于此原因，目录是非完美的。

对或者节点组或者节点209的子集进行布隆过滤而不是进行位掩码以降低目录的空间复杂性。

为了提供可伸缩性，在一些实施例中，使用散列函数H()将高速缓存行地址205散列到目录中的行上，注意行数少于高速缓存行的数量。对H()的良好选择可以产生较少的冲突，例如，使用高速缓存行地址的较低阶位确保了散列函数的良好分布。注意，有冲突并不意味着任何正确性损失；有冲突仅仅表明可能的误报：因为两个高速缓存行映射到目录中的同一行，所以我们将结束对这两个高速缓存行的“远程节点”的联合进行监听。

在选择了良好的散列函数并且使用分布式目录位(只有在高速缓存行的分布式目录位表示“远程”的情况下才需要查询标签目录)的情况下，误报的概率变小。同时，需要监听的节点的数量显着减小。如较早所提及的，通过改变散列的粒度并且基于由应用指定的提示使用布隆过滤器跟踪而不是位掩码，可能实现进一步的权衡。

每个代理和核都可以在其保护表中包含固定数量的保护条目。每个保护条目都包含地址范围、请求保护的原始归属、以及所有相关联信息(属性和动作)。如果不存在空闲条目，则动作失败。当地址咆哮(rant)时，该动作也失败。如果被请求的地址范围与另一监测条目重叠，则所述动作也将失败。如果发生失败，则失败响应将被发送回始发结构，并且所述失败响应将被传达至软件栈。最终，如果发生失败，则软件将得到通知，并且所述软件将需要采取相应的动作。将失败传播至软件栈的不同方式可以是从所述核向软件栈发布回调。

为了允许保护正被给定核监测的给定地址范围，在一些实施例中，用于保护初始化(Protect_Range(保护_范围))和保护释放(Unprotect_Range(解除保护_范围))的指令和消息由处理器核支持。这些指令提供了允许软件线程指定给定指令集被绑定至对某个存储器范围的特定类型访问的新接口。由(在一致性域中或外部的)任何其他线程在指定模式下执行的对此地址空间的任何访问都将自动通知给软件栈。从这一点来说，软件栈是负责采取特定动作(例如，重新启动所监测对象的副本)的软件栈。

PROTECT_RANGE指令和UNPROTECT_RANGE指令的实施例是：

PROTECT_RANGE base_address,granularity,mode,size,action(PROTECT_RANGE基_地址、粒度、模式、大小、动作)

UNPROTECT_RANGE

PROTECT_RANGE的语义如下：线程提供基线地址、需要被监测的地址空间的粒度、监测模式和大小。粒度可以是例如高速缓存行、存储器行、KB、MB或GB(例如，被编码为：0、1、2、3、4)。大小指定需要被监测的粒度空间的倍数。模式指定什么类型的违例正被监测：读取(R)还是写入(W)(例如，W模式将暗示如果使用写入操作来访问地址区域，则线程将得到通知)。“动作”指定控制对此范围的访问的归属节点要采取什么动作：(a)向请求线程/节点生成通知；(b)在归属节点的特定上下文中生成通知(例如，一个实体注册保护监测，而另一个实体处理违例)；(c)在具有所违反地址范围的所有权的线程/节点中生成通知；以及(d)a、b或c的任何组合。

为了能够将页错误传播到保护范围所归属的节点的线程之一，将在数据中心的所有节点中执行第三指令。指定线程负责当由保护违例引起的页错误在本地节点中发生时采取一个或多个特定动作。用于传播保护违例的这些不同方式为软件栈在检测到保护违例时采取分布式决策和潜在地独立决策提供了灵活性。

以下示例示出了将事务内的指令绑定到与读取/写入模式下的[300000，300000+4MB]相对应并指定只有所有者应当接收页错误的地址空间的一种方式：Protect_range300000,2,4,W,Requestor(保护_范围300000，2，4，W，请求方)。

执行PROTECT_RANGE使得PROTECT_RANGE消息从发起(始发)核发送至其本地高速缓存代理以传播至远程核等，以便设置监测(例如，(多个)保护表)。在一些实施例中，还设置了执行核的保护表(例如，当保护表中的信息跨节点中的核、代理等被复制时)。

执行UNPROTECT_RANGE会停止(多个)监测并且移除相关联的保护表。

图3展示了对PROTECT_RANGE的使用的示例性实施例。在301处，第一节点中的第一核(始发核)执行PROTECT_RANGE指令。例如，在图1中，核0 105执行PROTECT_RANGE指令。

此执行使得在303处将监测请求(PROTECT_RANGE消息)从第一核发送至其相应的高速缓存代理。此请求包括来自所述指令的信息(基址、粒度、大小和模式)。高速缓存代理管理基线地址以设置所请求监测。取决于实施方式，此高速缓存代理与归属代理分开。例如，在图1中，核105向CHA109(组合的高速缓存和归属代理)发送请求。换言之，核使用所提供的属性和动作来向高速缓存代理警告所述核想要监测的地址(AS)[基_地址到基_地址+粒度*大小]。

在305处，在一些实施例中，高速缓存代理识别负责管理请求的本地域归属代理。例如，归属代理负责基址。注意，所识别归属代理可以组合在与高速缓存代理相同的实体(CHA)中，如以上所详述的。

在307处，所识别归属代理识别系统中的什么节点是所述核(线程)想要监测的地址空间(其可以是本地一致性域)的归属。

一旦识别了地址区域的归属，就在309处将在归属节点中设置监测的请求发送至代理(在图1的图示中为结构111或管芯上互连113)。换言之，在309处，将保护消息代理连接(PROTECT_RANGE消息)从所识别归属代理发送至作为地址空间的归属的远程节点。注意，节点可以属于不同的一致性域并且使用所述结构，或者其可以处于同一个一致性域内。那种情况下，代理将是管芯上互连。

在311处，由始发核接收来自代理连接的关于保护监测的注册的成功或失败的响应。可能引起失败的原因的示例包括但不限于重叠的地址空间、无空闲监测空间以及硬件失效。如果(多个)监测成功，则更新核的标签目录。进一步地，在大多数实施例中，在确认配置了一个或多个监测之后，跨套接字中的所有代理更新保护表。

在注册之后，在一些实施例中，在313处接收在对所监测地址空间进行事务时发生的违例的通知。例如，远程监测处理对所监测地址的写入。这可以由核或代理接收。图4展示了用于处置远程监测违例的两个实施例。在401处，由核接收违例通知。在403处，这使核生成用户中断。

可替代地，在405处，由核接收违例通知。在409处，这使核通知软件栈。在任一情况下，软件栈负责采取适当的动作以解决失败。在动作(a)的情况下，违反受保护区域的请求将进行前向进度以便解除分配CHA中的结构。然而，到请求方核的返回状态(而不是任何MESI或MEOSIF状态)将是违例通知。请求方核然后将以与当前处理器使用保护密钥机制来处理页错误的方式类似的方式生成页错误。如果动作(a)未被配置，则请求方节点将简单地接收数据。所述核将违例传播至用户空间。

如果成功，其中，在无请求核违例的情况下执行所有不同的操作，则在313处，将unprotect_range消息(注销)从第一核发送至监测代理。例如，核执行UNPROTECT_RANGE指令以释放监测，并且一旦释放指令被执行，所述核就向远程代理(示例中的套接字B的HFI)通知释放。代理将释放通知传播至此监测的真实归属以及核。

图5展示了在接收侧使用PROTECT_RANGE的示例性实施例。在501处，接收节点的代理接收启动保护监测的请求。换言之，在作为地址空间的归属的远程节点处接收保护消息代理连接(PROTECT_RANGE消息)。注意，节点可以属于不同的一致性域并且使用所述结构，或者其可以处于同一个一致性域内。那种情况下，代理将是管芯上互连。

在503处，将此请求发送至核和代理。

在505处，由接收代理(例如，结构)接收来自核和代理的关于所述请求的确认。例如，保护监测是否被成功设置。这些确认通常包括响应方的标识符。

在507处，由代理将这些确认处理成被发送至始发核的单个确认。到始发核的确认包括正在发生监测的位置的标识符。

图6展示了在接收侧使用UNPROTECT_RANGE的示例性实施例。在601处，接收节点的代理接收释放监测的请求。换言之，在309处，在作为地址空间的归属的远程节点处接收监测消息代理连接(UNPROTECT_RANGE消息)。注意，节点可以属于不同的一致性域并且使用所述结构，或者其可以处于同一个一致性域内。那种情况下，代理将是管芯上互连。

在603处，将此请求发送至核和代理。

在605处，由接收代理(例如，结构)接收来自核和代理的关于所述请求的确认。例如，监测是否停止。这些确认通常包括响应方的标识符。

在607处，由代理将这些确认处理成被发送至始发核的单个确认。到始发核的确认包括已经停止监测的位置的标识符。

图7展示了使用PROTECT_RANGE和UNPROTECT_RANGE进行的初始化和最终化流程的示例。发起核701解码并执行PROTECT_RANGE指令。例如，核701上的线程执行PROTECT_RANGE指令。此指令提供基址、有待监测的空间的粒度(例如，存储器行、KB、MB或GB)、大小、以及模式。

节点A中的核701向管理基线地址的本地高速缓存代理(CHA：CA+HA)发送请求以便设置监测。核701使用要执行的(多个)动作来通知CHA所述核想要监测地址空间(AS)，其中，AS＝[@基址到基址+粒度*大小]。

CHA 703识别指定存储器区域映射到什么归属(比如套接字)。在一些实施例中，如果区域属于若干归属，则指令中止。CHA 703识别什么是本地一致性域中负责管理请求地址(基_地址)的归属代理。归属代理(CHA703)识别系统中的什么节点(套接字)是所述线程想要监测的地址空间(其可以是本地一致性域)的归属。

CHA 703向代理连接结构707发送保护消息以发送至充当AS的归属的远程节点。在目标侧，代理生成针对包括套接字的代理的多播消息，所述代理诸如节点717中的任何管芯上互连代理和节点中的任何结构互连代理709以及归属套接字中的所有核711和715。

所有目标目的地都使用确认消息来响应关于监测注册的成功或失败。通常，将由归属节点中接收到监测请求的代理(本示例中为结构709)折叠(collapse)响应。如果失败，则所述代理将通知传播给请求方，并且将取消到归属节点内的其余对等点的注册。

如果任何委托代理或核识别对地址空间进行的事务违反所请求的监测AS，则所述代理将向核701发送违例消息，从而向所述核通知所述违例。核701将违例传播至用户空间。

当不存在问题或已经检测到违例时，一旦UNPROTECT_RANGE指令被解码并执行，核701就将发送注销消息，从而向代理警告所述核不需要对AS进行更多监测。一旦释放指令被执行，所述核就向远程代理(结构709)通知释放。代理709将释放通知传播至此监测的真实归属以及核。注意，核701将由于在较早详述的注册过程中接收到的确认而知道代理标识符。

如以上所提示的，可能存在给定区域空间被检测为被系统中的其他线程意外访问/修改的时候。可能发生三种不同的情况：1)由违反保护模式的其他代理访问地址空间。这将暗示已经违反事务，并且所述代理必须采取在保护_区域空间处指定的相应动作。2)系统中的任何其他线程都未完成访问。这将暗示还未发生虚假行为，并且可以释放保护资源。3)发生了任何其他类型的失败。例如，远程节点故障，或者发生超时。当发生错误时(1)或(3)，类似于注册失败，捕获违例的代理将采取较早指定的特定动作之一。

图8展示了用于由未请求监测的核(非始发核)处置冲突的方法的实施例。在801处，非始发核对存储器或高速缓存地址进行写入或读取(访问)。

在803处，确定访问针对受保护地址并且属于被监测的访问类型。例如，确定对被监测地址空间中的地址进行写入(访问类型)。当然，对未被监测地址的访问或者对被监测地址进行的但不属于被监测类型的访问不会导致冲突。

在805处，非始发核向请求了监测的核发送违例通知。取决于核被如何安排，此通知可能经过结构或互连接口。

图9展示了处置冲突的示例。在本示例中，设置(PROTECT_RANGE)已经发生。保护指定只有违反请求的请求方会必须出现页错误。其次，由同一线程发布一组读取操作(例如，这可以是数据库对索引服务器的一部分进行的事务)。然后，由节点C在受节点A保护的区域中执行虚假入写操作。节点B中的代理HFI识别给定地址正受节点A保护。遵循保护条目中指定的动作，HFI向节点C中的请求方返回指示发生了违例的完成。CHA将违例传播至请求方核。所述核对引起违例的上下文生成页错误。注意，在给定保护区域动作通知的情况下，尽管已经发生违例，但节点A仍将保持进行正常的工作。

以下附图详述了用于实施上述实施例的示例性架构和系统。在一些实施例中，上述一个或多个硬件组件和/或指令如以下所详述的那样进行仿真或者被实施为软件模块。

示例性寄存器架构

图12是根据本发明的一个实施例的寄存器架构1200的框图。在所展示的实施例中，有32个512位宽的向量寄存器1210；这些寄存器被引用为zmm0到zmm31。较低的16个zmm寄存器的较低阶256个位覆盖(overlay)在寄存器ymm0-16上。较低的16个zmm寄存器的较低阶128个位(ymm寄存器的较低阶128个位)覆盖在寄存器xmm0-15上。

标量操作是对zmm/ymm/xmm寄存器中的最低阶数据元素位置执行的操作；取决于实施例，较高阶数据元素位置要么保持与在指令之前相同，要么归零。

写掩码寄存器1215——在所展示的实施例中，存在8个写掩码寄存器(k0至k7)，每一写掩码寄存器的大小是64位。在替代实施例中，写掩码寄存器1215的大小是16位。如先前所述，在本发明的一个实施例中，向量掩码寄存器k0无法用作写掩码；当将正常指示k0的编码用作写掩码时，它选择硬连线的写掩码0xFFFF，从而有效地禁止写掩蔽用于那条指令。

通用寄存器1225——在所示出的实施例中，有十六个64位通用寄存器，这些寄存器与现有的x86寻址模式一起使用以对存储器操作数寻址。这些寄存器通过名称RAX、RBX、RCX、RDX、RBP、RSI、RDI、RSP以及R8到R15来引用。

标量浮点栈寄存器堆(x87栈)1245，在其上面重叠了MMX紧缩整数平坦寄存器堆1250——在所展示的实施例中，x87栈是用于使用x87指令集扩展来对32/64/80位浮点数据执行标量浮点操作的八元素栈；而使用MMX寄存器来对64位紧缩整数数据执行操作，以及为在MMX与XMM寄存器之间执行的一些操作保存操作数。

本发明的替代实施例可以使用更宽的或更窄的寄存器。另外，本发明的替代实施例可以使用更多、更少或不同的寄存器堆和寄存器。

示例性核架构、处理器和计算机架构

处理器核能以不同方式、出于不同的目的、在不同的处理器中实现。例如，此类核的实现可以包括：1)旨在用于通用计算的通用有序核；2)旨在用于通用计算的高性能通用乱序核；3)旨在主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括：1)CPU，其包括旨在用于通用计算的一个或多个通用有序核和/或旨在用于通用计算的一个或多个通用乱序核；以及2)协处理器，其包括旨在主要用于图形和/或科学(吞吐量)的一个或多个专用核。此类不同的处理器导致不同的计算机系统架构，这些计算机系统架构可包括：1)在与CPU分开的芯片上的协处理器；2)在与CPU相同的封装中但在分开的管芯上的协处理器；3)与CPU在相同管芯上的协处理器(在该情况下，此类协处理器有时被称为专用逻辑或被称为专用核，该专用逻辑诸如，集成图形和/或科学(吞吐量)逻辑)；以及4)芯片上系统，其可以将所描述的CPU(有时被称为(多个)应用核或(多个)应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。接着描述示例性核架构，随后描述示例性处理器和计算机架构。

示例性核架构

有序和乱序核框图

图13A是展示根据本发明的各实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线的框图。图13B是示出根据本发明的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核的框图。图13A-图13B中的实线框展示有序流水线和有序核，而虚线框的任选增加展示寄存器重命名的、乱序发布/执行流水线和核。考虑到有序方面是乱序方面的子集，将描述乱序方面。

在图13A中，处理器流水线1300包括取出级1302、长度解码级1304、解码级1306、分配级1308、重命名级1310、调度(也被称为分派或发布)级1312、寄存器读取/存储器读取级1314、执行级1316、写回/存储器写入级1318、异常处置级1322和提交级1324。

图13B示出处理器核1390，该处理器核1390包括前端单元1330，该前端单元1330耦合到执行引擎单元1350，并且前端单元1330和执行引擎单元1350两者都耦合到存储器单元1370。核1390可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或混合或替代的核类型。作为又一选项，核1390可以是专用核，诸如例如，网络或通信核、压缩引擎、协处理器核、通用计算图形处理单元(GPGPU)核、图形核，等等。

前端单元1330包括分支预测单元1332，该分支预测单元1332耦合到指令高速缓存单元1334，该指令高速缓存单元1334耦合到指令转换后备缓冲器(TLB)1336，该指令转换后备缓冲器1336耦合到指令取出单元1338，该指令取出单元1338耦合到解码单元1340。解码单元1340(或解码器)可对指令解码，并且生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元1340可使用各种不同的机制来实现。合适机制的示例包括但不限于，查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核1390包括存储用于某些宏指令的微代码的微代码ROM或其他介质(例如，在解码单元1340中，或以其他方式在前端单元1330内)。解码单元1340耦合到执行引擎单元1350中的重命名/分配器单元1352。

执行引擎单元1350包括重命名/分配器单元1352，该重命名/分配器单元1352耦合到引退单元1354和一个或多个调度器单元的集合1356。(多个)调度器单元1356表示任何数量的不同调度器，包括预留站、中央指令窗等。(多个)调度器单元1356耦合到(多个)物理寄存器堆单元1358。(多个)物理寄存器堆单元1358中的每一个物理寄存器堆单元表示一个或多个物理寄存器堆，其中不同的物理寄存器堆存储一种或多种不同的数据类型，诸如，标量整数、标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点，状态(例如，作为要执行的下一条指令的地址的指令指针)等等。在一个实施例中，(多个)物理寄存器堆单元1358包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器和通用寄存器。(多个)物理寄存器堆单元1358由引退单元1354重叠，以展示可实现寄存器重命名和乱序执行的各种方式(例如，使用(多个)重排序缓冲器和(多个)引退寄存器堆；使用(多个)未来文件、(多个)历史缓冲器、(多个)引退寄存器堆；使用寄存器映射和寄存器池，等等)。引退单元1354和(多个)物理寄存器堆单元1358耦合到(多个)执行集群1360。(多个)执行集群1360包括一个或多个执行单元的集合1362以及一个或多个存储器访问单元的集合1364。执行单元1362可执行各种操作(例如，移位、加法、减法、乘法)并可对各种数据类型(例如，标量浮点、紧缩整数、紧缩浮点、向量整数、向量浮点)执行。尽管一些实施例可以包括专用于特定功能或功能集合的多个执行单元，但是其他实施例可包括仅一个执行单元或全都执行所有功能的多个执行单元。(多个)调度器单元1356、(多个)物理寄存器堆单元1358和(多个)执行集群1360示出为可能有多个，因为某些实施例为某些类型的数据/操作创建分开的流水线(例如，标量整数流水线、标量浮点/紧缩整数/紧缩浮点/向量整数/向量浮点流水线，和/或各自具有其自身的调度器单元、(多个)物理寄存器堆单元和/或执行集群的存储器访问流水线——并且在分开的存储器访问流水线的情况下，实现其中仅该流水线的执行集群具有(多个)存储器访问单元1364的某些实施例)。还应当理解，在使用分开的流水线的情况下，这些流水线中的一个或多个可以是乱序发布/执行，并且其余流水线可以是有序的。

存储器访问单元的集合1364耦合到存储器单元1370，该存储器单元1370包括数据TLB单元1372，该数据TLB单元1372耦合到数据高速缓存单元1374，该数据高速缓存单元1374耦合到第二级(L2)高速缓存单元1376。在一个示例性实施例中，存储器访问单元1364可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦合到存储器单元1370中的数据TLB单元1372。指令高速缓存单元1334还耦合到存储器单元1370中的第二级(L2)高速缓存单元1376。L2高速缓存单元1376耦合到一个或多个其他级别的高速缓存，并最终耦合到主存储器。

作为示例，示例性寄存器重命名的乱序发布/执行核架构可如下所述地实现流水线1300：1)指令取出1338执行取出级1302和长度解码级1304；2)解码单元1340执行解码级1306；3)重命名/分配器单元1352执行分配级1308和重命名级1310；4)(多个)调度器单元1356执行调度级1312；5)(多个)物理寄存器堆单元1358和存储器单元1370执行寄存器读取/存储器读取级1314；执行集群1360执行执行级1316；6)存储器单元1370和(多个)物理寄存器堆单元1358执行写回/存储器写入级1318；7)各单元可牵涉到异常处置级1322；以及8)引退单元1354和(多个)物理寄存器堆单元1358执行提交级1324。

核1390可支持一个或多个指令集(例如，x86指令集(具有已与较新版本一起添加的一些扩展)；加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集；加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集(具有诸如NEON的任选的附加扩展))，其中包括本文中描述的(多条)指令。在一个实施例中，核1390包括用于支持紧缩数据指令集扩展(例如，AVX1、AVX2)的逻辑，由此允许使用紧缩数据来执行由许多多媒体应用使用的操作。

应当理解，核可支持多线程化(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程化，各种方式包括时分多线程化、同时多线程化(其中单个物理核为物理核正在同时多线程化的线程中的每一个线程提供逻辑核)、或其组合(例如，时分取出和解码以及此后的诸如超线程化技术中的同时多线程化)。

尽管在乱序执行的上下文中描述了寄存器重命名，但应当理解，可以在有序架构中使用寄存器重命名。尽管所展示的处理器的实施例还包括分开的指令和数据高速缓存单元1334/1374以及共享的L2高速缓存单元1376，但是替代实施例可以具有用于指令和数据两者的单个内部高速缓存，诸如例如，第一级(L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者，所有高速缓存都可以在核和/或处理器的外部。

具体的示例性有序核架构

图14A-图14B展示更具体的示例性有序核架构的框图，该核将是芯片中的若干逻辑块(包括相同类型和/或不同类型的其他核)中的一个逻辑块。取决于应用，逻辑块通过高带宽互连网络(例如，环形网络)与一些固定的功能逻辑、存储器I/O接口和其他必要的I/O逻辑进行通信。

图14A是根据本发明的实施例的单个处理器核以及它至管芯上互连网络1402的连接及其第二级(L2)高速缓存的本地子集1404的框图。在一个实施例中，指令解码器1400支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1406允许对进入标量和向量单元中的、对高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计)，标量单元1408和向量单元1410使用分开的寄存器集合(分别为标量寄存器1412和向量寄存器1414)，并且在这些寄存器之间传输的数据被写入到存储器，并随后从第一级(L1)高速缓存1406读回，但是本发明的替代实施例可以使用不同的方法(例如，使用单个寄存器集合或包括允许数据在这两个寄存器堆之间传输而无需被写入和读回的通信路径)。

L2高速缓存的本地子集1404是全局L2高速缓存的一部分，该全局L2高速缓存被划分成多个分开的本地子集，每个处理器核一个本地子集。每个处理器核具有到其自身的L2高速缓存的本地子集1404的直接访问路径。由处理器核读取的数据被存储在其L2高速缓存子集1404中，并且可以与其他处理器核访问其自身的本地L2高速缓存子集并行地被快速访问。由处理器核写入的数据被存储在其自身的L2高速缓存子集1404中，并在必要的情况下从其他子集转储清除。环形网络确保共享数据的一致性。环形网络是双向的，以允许诸如处理器核、L2高速缓存和其他逻辑块之类的代理在芯片内彼此通信。每个环形数据路径为每个方向1012位宽。

图14B是根据本发明的实施例的图14A中的处理器核的一部分的展开图。图14B包括L1高速缓存1404的L1数据高速缓存1406A部分，以及关于向量单元1410和向量寄存器1414的更多细节。具体地，向量单元1410是16宽向量处理单元(VPU)(见16宽ALU 1428)，该单元执行整数、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元1420支持对寄存器输入的混合，通过数值转换单元1422A-B支持数值转换，并且通过复制单元1424支持对存储器输入的复制。写掩码寄存器1426允许预测所得的向量写入。

图15是根据本发明的实施例的可具有多于一个的核、可具有集成存储器控制器、以及可具有集成图形器件的处理器1500的框图。图15中的实线框展示具有单个核1502A、系统代理1510、一个或多个总线控制器单元的集合1516的处理器1500，而虚线框的任选增加展示具有多个核1502A-N、系统代理单元1510中的一个或多个集成存储器控制器单元的集合1514以及专用逻辑1508的替代处理器1500。

因此，处理器1500的不同实现可包括：1)CPU，其中专用逻辑1508是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，并且核1502A-N是一个或多个通用核(例如，通用有序核、通用乱序核、这两者的组合)；2)协处理器，其中核1502A-N是旨在主要用于图形和/或科学(吞吐量)的大量专用核；以及3)协处理器，其中核1502A-N是大量通用有序核。因此，处理器1500可以是通用处理器、协处理器或专用处理器，诸如例如，网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、嵌入式处理器，等等。该处理器可以被实现在一个或多个芯片上。处理器1500可以是一个或多个基板的一部分，和/或可使用多种工艺技术(诸如例如，BiCMOS、CMOS、或NMOS)中的任何技术被实现在一个或多个基板上。

存储器层次结构包括核内的一个或多个高速缓存级别、一个或多个共享高速缓存单元的集合1506、以及耦合到集成存储器控制器单元的集合1514的外部存储器(未示出)。共享高速缓存单元的集合1506可包括一个或多个中间级别的高速缓存，诸如，第二级(L2)、第三级(L3)、第四级(L4)或其他级别的高速缓存、末级高速缓存(LLC)和/或以上各项的组合。虽然在一个实施例中，基于环的互连单元1512将集成图形逻辑1508、共享高速缓存单元的集合1506以及系统代理单元1510/(多个)集成存储器控制器单元1514互连，但是替代实施例可使用任何数量的公知技术来互连此类单元。在一个实施例中，在一个或多个高速缓存单元1506与核1502A-N之间维持一致性。

在一些实施例中，一个或多个核1502A-N能够实现多线程化。系统代理1510包括协调和操作核1502A-N的那些部件。系统代理单元1510可包括例如功率控制单元(PCU)和显示单元。PCU可以是对核1502A-N以及集成图形逻辑1508的功率状态进行调节所需的逻辑和部件，或可包括这些逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。

核1502A-N在架构指令集方面可以是同构的或异构的；即，核1502A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

示例性计算机架构

图16-19是示例性计算机架构的框图。本领域中已知的对膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备的其他系统设计和配置也是合适的。一般地，能够包含如本文中所公开的处理器和/或其他执行逻辑的各种各样的系统或电子设备一般都是合适的。

现在参考图16，所示出的是根据本发明一个实施例的系统1600的框图。系统1600可以包括一个或多个处理器1610、1615，这些处理器耦合到控制器中枢1620。在一个实施例中，控制器中枢1620包括图形存储器控制器中枢(GMCH)1690和输入/输出中枢(IOH)1650(其可以在分开的芯片上)；GMCH 1690包括存储器和图形控制器，存储器1640和协处理器1645耦合到该存储器和图形控制器；IOH 1650将输入/输出(I/O)设备1660耦合到GMCH1690。或者，存储器和图形控制器中的一个或这两者被集成在(如本文中所描述的)处理器内，存储器1640和协处理器1645直接耦合到处理器1610，并且控制器中枢1620与IOH 1650处于单个芯片中。

附加的处理器1615的任选性在图16中通过虚线来表示。每一处理器1610、1615可包括本文中描述的处理核中的一个或多个，并且可以是处理器1500的某一版本。

存储器1640可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢1620经由诸如前端总线(FSB)之类的多分支总线、诸如快速路径互连(QPI)之类的点对点接口、或者类似的连接1695来与(多个)处理器1610、1615进行通信。

在一个实施例中，协处理器1645是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器，等等。在一个实施例中，控制器中枢1620可以包括集成图形加速器。

在物理资源1610、1615之间可以存在包括架构、微架构、热、功耗特性等一系列品质度量方面的各种差异。

在一个实施例中，处理器1610执行控制一般类型的数据处理操作的指令。嵌入在这些指令内的可以是协处理器指令。处理器1610将这些协处理器指令识别为具有应当由附连的协处理器1645执行的类型。因此，处理器1610在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1645。(多个)协处理器1645接受并执行所接收的协处理器指令。

现在参见图17，所示出的是根据本发明的实施例的第一更具体的示例性系统1700的框图。如图17中所示，多处理器系统1700是点对点互连系统，并且包括经由点对点互连1750耦合的第一处理器1770和第二处理器1780。处理器1770和1780中的每一个都可以是处理器1500的某一版本。在本发明的一个实施例中，处理器1770和1780分别是处理器2010和1615，而协处理器1738是协处理器1645。在另一实施例中，处理器1770和1780分别是处理器1610和协处理器1645。

处理器1770和1780示出为分别包括集成存储器控制器(IMC)单元1772和1782。处理器1770还包括作为其总线控制器单元的一部分的点对点(P-P)接口1776和1778；类似地，第二处理器1780包括P-P接口1786和1788。处理器1770、1780可以经由使用点对点(P-P)接口电路1778、1788的P-P接口1750来交换信息。如图17中所示，IMC 1772和1782将处理器耦合到相应的存储器，即存储器1732和存储器1734，这些存储器可以是本地附连到相应处理器的主存储器的部分。

处理器1770、1780可各自经由使用点对点接口电路1776、1794、1786、1798的各个P-P接口1752、1754来与芯片组1790交换信息。芯片组1790可以任选地经由高性能接口1739来与协处理器1738交换信息。在一个实施例中，协处理器1738是专用处理器，诸如例如，高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器，等等。

共享高速缓存(未示出)可被包括在任一处理器中，或在这两个处理器的外部但经由P-P互连与这些处理器连接，使得如果处理器被置于低功率模式，则任一个或这两个处理器的本地高速缓存信息可被存储在共享高速缓存中。

芯片组1790可以经由接口1796耦合到第一总线1716。在一个实施例中，第一总线1716可以是外围部件互连(PCI)总线或诸如PCI快速总线或另一第三代I/O互连总线之类的总线，但是本发明的范围不限于此。

如图17中所示，各种I/O设备1714可连同总线桥1718一起耦合到第一总线1716，该总线桥1718将第一总线1716耦合到第二总线1720。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU、加速器(诸如例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器的一个或多个附加处理器1715耦合到第一总线1716。在一个实施例中，第二总线1720可以是低引脚数(LPC)总线。在一个实施例中，各种设备可耦合到第二总线1720，这些设备包括例如键盘和/或鼠标1722、通信设备1727以及存储单元1728，该存储单元1728诸如可包括指令/代码和数据1730的盘驱动器或者其他大容量存储设备。此外，音频I/O 1724可以被耦合到第二总线1720。注意，其他架构是可能的。例如，代替图17的点对点架构，系统可以实现多分支总线或其他此类架构。

现在参考图18，示出的是根据本发明的实施例的第二更具体的示例性系统1800的框图。图17和18中的类似元件使用类似的附图标记，并且从图18中省略了图17的某些方面以避免混淆图17的其他方面。

图18展示处理器1770、1780可分别包括集成存储器和I/O控制逻辑(“CL”)1772和1782。因此，CL 1772、1782包括集成存储器控制器单元，并包括I/O控制逻辑。图18展示不仅存储器1732、1734耦合到CL 1772、1782，而且I/O设备1814也耦合到控制逻辑1772、1782。传统I/O设备1815被耦合到芯片组1790。

现在参考图19，示出的是根据本发明的实施例的SoC 1900的框图。图15中的类似要素使用类似的附图标记。另外，虚线框是更先进的SoC上的任选的特征。在图19中，(多个)互连单元1902被耦合到：应用处理器1910，其包括一个或多个核的集合202A-N的集合以及(多个)共享高速缓存单元1506；系统代理单元1510；(多个)总线控制器单元1516；(多个)集成存储器控制器单元1514；一个或多个协处理器的集合1920，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元1930；直接存储器访问(DMA)单元1932；以及用于耦合到一个或多个外部显示器的显示单元1940。在一个实施例中，(多个)协处理器1920包括专用处理器，诸如例如，网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器，等等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或此类实现方式的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码(诸如，图17中展示的代码1730)应用于输入指令，以执行本文中描述的功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有处理器的任何系统，该处理器诸如例如，数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器。

程序代码可以用高级的面向过程的编程语言或面向对象的编程语言来实现，以便与处理系统通信。如果需要，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定的编程语言的范围。在任何情况下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表示性指令来实现，该指令表示处理器中的各种逻辑，该指令在被机器读取时使得该机器制造用于执行本文中所述的技术的逻辑。被称为“IP核”的此类表示可以被存储在有形的机器可读介质上，并可被供应给各个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

此类机器可读存储介质可以包括但不限于通过机器或设备制造或形成的制品的非暂态、有形布置，其包括存储介质，诸如硬盘；任何其他类型的盘，包括软盘、光盘、紧致盘只读存储器(CD-ROM)、可重写紧致盘(CD-RW)以及磁光盘；半导体器件，诸如，只读存储器(ROM)、诸如动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)的随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、闪存、电可擦除可编程只读存储器(EEPROM)；相变存储器(PCM)；磁卡或光卡；或适于存储电子指令的任何其他类型的介质。

因此，本发明的实施例还包括非暂态的有形机器可读介质，该介质包含指令或包含设计数据，诸如硬件描述语言(HDL)，它定义本文中描述的结构、电路、装置、处理器和/或系统特征。这些实施例也被称为程序产品。

仿真(包括二进制变换、代码变形等)

在一些情况下，指令转换器可用于将指令从源指令集转换至目标指令集。例如，指令转换器可以将指令变换(例如，使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式转换成要由核处理的一条或多条其他指令。指令转换器可以用软件、硬件、固件、或其组合来实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

图20是根据本发明的实施例的对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所展示的实施例中，指令转换器是软件指令转换器，但替代地，该指令转换器可以用软件、固件、硬件或其各种组合来实现。图20示出可使用x86编译器2004来编译高级语言2002形式的程序，以生成可由具有至少一个x86指令集核的处理器2016原生执行的x86二进制代码2006。具有至少一个x86指令集核的处理器2016表示通过兼容地执行或以其他方式执行以下各项来执行与具有至少一个x86指令集核英特尔处理器基本相同的功能的任何处理器：1)英特尔x86指令集核的指令集的本质部分，或2)目标为在具有至少一个x86指令集核的英特尔处理器上运行以便取得与具有至少一个x86指令集核的英特尔处理器基本相同的结果的应用或其他软件的目标代码版本。x86编译器2004表示可操作用于生成x86二进制代码2006(例如，目标代码)的编译器，该二进制代码可通过或不通过附加的链接处理在具有至少一个x86指令集核的处理器2016上执行。类似地，图20示出可以使用替代的指令集编译器2008来编译高级语言2002形式的程序，以生成可以由不具有至少一个x86指令集核的处理器2014(例如，具有执行加利福尼亚州桑尼维尔市的MIPS技术公司的MIPS指令集、和/或执行加利福尼亚州桑尼维尔市的ARM控股公司的ARM指令集的核的处理器)原生执行的替代的指令集二进制代码2010。指令转换器2012用于将x86二进制代码2006转换成可以由不具有x86指令集核的处理器2014原生执行的代码。该转换后的代码不大可能与替代的指令集二进制代码2010相同，因为能够这样做的指令转换器难以制造；然而，转换后的代码将完成一般操作，并且由来自替代指令集的指令构成。因此，指令转换器2012通过仿真、模拟或任何其他过程来表示允许不具有x86指令集处理器或核的处理器或其他电子设备执行x86二进制代码2006的软件、固件、硬件或其组合。

Claims

1.一种计算设备，包括：

用于监测的装置，用于监测对地址空间的存储器访问并且在对所述地址空间的违例时采取动作，其中，所述动作是以下各项之一：向请求了所述监测的节点生成通知；在归属节点的特定上下文中生成通知；以及在具有所述地址空间的所有权的节点中生成通知；

用于存储的装置，用于存储所述地址空间的标识符；以及

用于执行的装置，用于执行用于启用所述用于监测的装置的指令，其中所述指令包括基址、存储器大小粒度、跟踪粒度、模式、以及对要采取的动作的指示。

2.如权利要求1所述的计算设备，其中，所述存储器大小粒度是高速缓存行、页、大页、或巨大页之一。

3.如权利要求1所述的计算设备，其中，所述跟踪粒度取决于节点组的数量。

4.如权利要求1所述的计算设备，其中，所述模式是读取和写入之一。

5.如权利要求1至4中任一项所述的计算设备，进一步包括：

用于处理来自所述用于执行的装置的存储器请求的装置；以及

用于处理来自所述用于处理来自所述用于执行的装置的存储器请求的装置的存储器请求并且作为所述设备的存储器空间的一部分的归属的装置。

6.如权利要求1至4中任一项所述的计算设备，进一步包括：

用于存储作为通过执行所述指令发起的事务的一部分的远程存储请求的装置。

7.一种由计算设备执行的方法，所述方法包括：

在核中执行指令以引起：

向第一代理连接发送用于监测对地址空间的访问的监测请求，其中，所述监测请求包括来自所述指令的基址、存储器大小粒度、跟踪粒度、模式、所述地址空间的作为所述粒度的倍数的大小、以及动作，其中，所述动作是以下各项之一：向请求了所述监测的节点生成通知；生成错误请求；在归属节点的特定上下文中生成通知；以及在具有所述地址空间的所有权的节点中生成通知；

向第二代理连接发送所述监测请求供所述第二代理连接将所述监测请求作为多播消息而广播至所述第二代理连接的套接字中的所有核以发起监测，

从所述第二代理连接接收对指示所述监测请求成功或失败的确认。

8.如权利要求7所述的方法，其中，所述第一代理连接和所述第二代理连接位于物理上不同的节点上，并且通过结构接口进行通信。

9.如权利要求7所述的方法，其中，所述第一代理连接和所述第二代理连接位于物理上不同的套接字上，并且通过套接字接口进行通信。

10.如权利要求7至9中任一项所述的方法，进一步包括：

注销所述监测。

11.如权利要求7至9中任一项所述的方法，进一步包括：

所述第二代理连接向所述第二代理连接的节点中的任何互连代理发送消息。

12.如权利要求7至9中任一项所述的方法，进一步包括：

接收对所述地址空间的访问的指示；

更新目录以指示对所述地址空间的所述访问。

13.一种计算设备，包括：

至少一个监测电路，用于监测对地址空间的存储器访问并且在对所述地址空间的违例时采取动作，其中，所述动作是以下各项之一：向请求了所述监测的节点生成通知；在归属节点的特定上下文中生成通知；以及在具有所述地址空间的所有权的节点中生成通知；

至少一个保护表，用于存储所述地址空间的标识符；以及

至少一个硬件核，用于执行用于启用所述监测电路的指令，其中所述指令包括基址、存储器大小粒度、跟踪粒度、模式、以及对要采取的动作的指示。

14.如权利要求13所述的计算设备，其中，所述存储器大小粒度是高速缓存行、页、大页、或巨大页之一。

15.如权利要求13所述的计算设备，其中，所述跟踪粒度取决于节点组的数量。

16.如权利要求13所述的计算设备，其中，所述模式是读取和写入之一。

17.如权利要求13所述的计算设备，进一步包括：

高速缓存代理电路系统，用于处理来自所述至少一个硬件核中的至少一个的存储器请求；以及

归属代理电路系统，用于处理来自所述高速缓存代理的存储器请求并且作为所述设备的存储器空间的一部分的归属。

18.如权利要求13所述的计算设备，进一步包括：

缓冲器，用于存储作为通过执行所述指令发起的事务的一部分的远程存储请求。