CN108351781B

CN108351781B - 用于线程同步的方法和设备

Info

Publication number: CN108351781B
Application number: CN201680068785.3A
Authority: CN
Inventors: B.C.查芬; R.J.克彦科; A.索达尼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-24
Filing date: 2016-11-30
Publication date: 2024-01-23
Anticipated expiration: 2036-11-30
Also published as: TWI775105B; EP3394732B1; CN108351781A; US9898351B2; EP3547135A1; TW201732564A; EP3394732A1; TW202042056A; EP3394732A4; TWI706323B; US20170185458A1; WO2017112374A1

Abstract

指令和逻辑提供利用MONITOR和MWAIT指令的用户级线程同步。处理器中的一个或多个模型特定寄存器（MSR）可以被配置处于第一执行状态以指定对用户级线程同步架构的支持。实施例包括多个硬件线程或处理核；对应的监视地址状态存储装置，用以存储发布MONITOR请求的多个执行线程中的每个的最后监视地址；高速缓冲存储器，用以记录针对存储器存储位置的地址的关联状态和MONITOR请求，以及响应于接收到对该地址的MWAIT请求，记录与MWAIT请求关联的执行核的监视地址的关联等待‑到‑触发状态；其中，当所述一个或多个MSR被配置处于所述第一执行状态时，响应于接收到所述MWAIT请求，所述执行核要将请求线程转变到优化的睡眠状态。

Description

用于线程同步的方法和设备

相关申请交叉引用

本申请与2007年12月28日提交的，现为美国专利No.9,081,687的题为“Methodand Apparatus for MONITOR and MWAIT in a Distributed Cache Architecture”申请序列No.11/966,806相关。

技术领域

本公开涉及处理逻辑、微处理器和关联的指令集架构的领域，其在由处理器或其它处理逻辑执行时，执行逻辑、数学或其它功能操作。具体地，本公开涉及利用MONITOR和MWAIT架构的用户级线程同步。

背景技术

现代高性能微处理器可以具有许多执行核和多级高速缓冲存储装置。因此，存在对于这些组件之间的较高互连带宽的日益增长的需求。提供此类较高互连带宽的一种技术涉及利用通过共享互连对分布式高速缓存的多个部分的并行访问的分布式高速缓存分区。

一些现代高性能微处理器的另一方面包括多线程软件和硬件以及通过共享存储器的线程同步。通过共享存储器提供线程同步的两个指令的示例将会是IntelCorporation的SSE3指令集的MONITOR和MWAIT指令。MONITOR定义了用于监视回写存储的地址范围。MWAIT用于指示执行线程正等待要写入由MONITOR指令定义的地址范围的数据。然后，在数据写入监视地址范围时，线程可以转变成低功率状态，并等待由监视唤醒事件通知。

当上面提到的两种技术为处于0(零)特权级的MONITOR和MWAIT请求保留时，出现附加挑战。例如，使用MONITOR和MWAIT的任何线程同步和/或功率管理(其将会涉及系统调用)可能引入瓶颈并不利地影响线程同步和/或功率管理的性能。

迄今，通过MONITOR和MWAIT指令来实现线程同步的、解决这些挑战的有效技术，及此类性能限制问题的潜在解决方案以及设计、验证和其它复杂性尚未充分探索。

附图说明

在附图的图形中作为示例示出且不是限制示出本发明。

图1A是执行MONITOR和MWAIT指令以提供用户级线程同步的系统的一个实施例的框图。

图1B是执行MONITOR和MWAIT指令以提供用户级线程同步的系统的另一实施例的框图。

图1C是执行MONITOR和MWAIT指令以提供用户级线程同步的系统的另一实施例的框图。

图2是执行MONITOR和MWAIT指令以提供用户级线程同步的处理器的一个实施例的框图。

图3A示出了根据一个实施例的打包数据类型。

图3B示出了根据一个实施例的打包数据类型。

图3C示出了根据一个实施例的打包数据类型。

图3D示出了用以提供根据一个实施例的利用MONITOR和MWAIT指令的用户级线程同步的指令编码。

图3E示出了根据另一实施例的提供利用MONITOR和MWAIT指令的用户级线程同步的指令编码。

图3F示出了根据另一实施例的提供利用MONITOR和MWAIT指令的用户级线程同步的指令编码。

图3G示出了根据另一实施例的提供利用MONITOR和MWAIT指令的用户级线程同步的指令编码。

图3H示出了根据另一实施例的提供利用MONITOR和MWAIT指令的用户级线程同步的指令编码。

图4A示出了执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的处理器微架构的一个实施例的元素。

图4B示出了执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的处理器微架构的另一实施例的元素。

图5是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的处理器的一个实施例的框图。

图6是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的计算机系统的一个实施例的框图。

图7是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的计算机系统的另一实施例的框图。

图8是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的计算机系统的另一实施例的框图。

图9是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的片上系统的一个实施例的框图。

图10是执行提供利用MONITOR和MWAIT指令的用户级线程同步的指令的处理器的实施例的框图。

图11是提供利用MONITOR和MWAIT指令的用户级线程同步的IP核开发系统的一个实施例的框图。

图12示出了提供利用MONITOR和MWAIT指令的用户级线程同步的架构仿真系统的一个实施例。

图13示出了转换提供利用MONITOR和MWAIT指令的用户级线程同步的指令的系统的一个实施例。

图14示出了用于使用MONITOR和MWAIT指令来提供用户级线程同步的处理系统的一个实施例。

图15示出了用以提供利用MONITOR和MWAIT指令的用户级线程同步的过程的一个实施例的流程图。

具体实施方式

以下描述公开了用以在处理器、计算机系统或其它处理设备内或与处理器、计算机系统或其它处理设备关联地提供利用MONITOR和MWAIT指令的用户级线程同步的方法和处理逻辑设备。

指令和逻辑提供利用MONITOR和MWAIT指令的用户级线程同步。处理器中的一个或多个模型特定寄存器(MSR)可被配置处于用户使能的MONITOR和MWAIT执行状态，以指定对用户级线程同步架构的支持。实施例包括多个硬件线程或处理核；对应的监视地址状态存储装置(MASS)，用以存储发布MONITOR请求的多个执行线程中的每个的最后监视地址；高速缓冲存储器，用以记录针对于存储器存储位置的地址的关联状态和MONITOR请求，以及响应于接收到对于该地址的MWAIT请求，记录与MWAIT请求关联的执行核的监视地址的关联的等待-到-触发状态；其中，当所述一个或多个MSR被配置(例如，通过IA32_MISC_ENABLE MSR)处于用户-MWAIT-使能执行状态时，响应于接收到MWAIT请求，所述执行核要将请求线程转变到优化的睡眠状态。在一些实施例中，允许用户应用转变到轻权重睡眠状态(例如仅C1)，而更深的睡眠状态仅针对处于0(零)特权级的MWAIT请求而保留。

将意识到，可以使用针对0(零)特权级之外的MONITOR和MWAIT请求的指令和处理逻辑来提供用户级线程同步，而不要求精心设计硬件支持和/或设计努力。

在以下描述中，阐述了众多特定细节，诸如处理逻辑、处理器类型、微架构条件、事件、启动(enablement)机制等，以便提供本发明的实施例的更透彻理解。然而，本领域技术人员将认识到，没有此类特定细节也可实践本发明。此外，一些众所周知的结构、电路等尚未详细示出，以避免不必要地使本发明的实施例混淆。

尽管以下实施例参考处理器进行描述，但其它实施例可应用于其它类型集成电路和逻辑装置。本发明的实施例的类似技术和教导可应用于可受益于更高流水线吞吐量和改进性能的其它类型电路或半导体装置。本发明的实施例的教导可应用于执行数据操纵的任何处理器或机器。然而，本发明不限于执行512位、256位、128位、64位、32位或16位数据操作的处理器或机器，并且可应用于其中执行数据操纵或管理的任何处理器和机器。此外，以下描述提供了示例，并且附图为了示出目的示出了各种示例。然而，这些示例不应被理解为限制意义，因为它们仅仅意图提供本发明的实施例的示例，而不是提供本发明的实施例的所有可能实现的详尽列表。

尽管以下示例在执行单元和逻辑电路的上下文中描述了指令处置和分发(distribution)，但本发明的其它实施例可通过存储在机器可读有形介质上的数据和/或指令实现，所述指令当由机器执行时使机器执行与本发明的至少一个实施例一致的功能。在一个实施例中，与本发明的实施例关联的功能体现在机器可执行指令中。指令可用于使采用指令编程的通用或专用处理器执行本发明的步骤。本发明的实施例可提供为计算机程序产品或软件，该产品或软件可包括机器或计算机可读介质，其上存储有可用于编程计算机(或其它电子装置)以执行根据本发明的实施例的一个或多个操作的指令。备选地，本发明的实施例的步骤可由包含用于执行所述步骤的固定功能逻辑的特定硬件组件执行，或者由编程的计算机组件和固定功能硬件组件的任何组合执行。

用于对逻辑编程以执行本发明的实施例的指令可被存储在系统中的存储器内，诸如DRAM、高速缓存、闪速存储器或其它存储装置内。更进一步，指令可经由网络或通过其它计算机可读介质分发。从而，机器可读介质可包含用于存储或传送由机器(例如计算机)可读形式的信息的任何机制，但其不限于软盘、光盘、紧凑盘只读存储器(CD-ROM)、以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪速存储器或在因特网上经由电、光、声或其它形式传播信号(例如载波、红外信号、数字信号等)传送信息中使用的有形机器可读存储装置。相应地，计算机可读介质包含适合于存储或传送由机器(例如计算机)可读形式的电子指令或信息的任何类型有形机器可读介质。

设计从创建到模拟到制造可经过各种阶段。表示设计的数据可用多种方式表示该设计。首先，如在模拟中是有用的，硬件可使用硬件描述语言或另一功能描述语言表示。附加地，在设计过程的某些阶段，可产生具有逻辑和/或晶体管栅的电路级模型。更进一步，多数设计在某一阶段达到用硬件模型表示各种装置的物理布局的数据级。在其中使用常规半导体制造技术的情况下，表示硬件模型的数据可以是规定在用于产生集成电路的掩膜的不同掩膜层上存在或缺乏各种特征的数据。在设计的任何表示中，数据都可存储在任何形式的机器可读介质中。存储器或者磁或光存储装置(诸如盘)可以是机器可读介质，以存储经由调制或以其它方式生成以传送信息的光波或电波传送的此类信息。在传送指示或携带代码或设计的电载波时，就执行电信号的复制、缓冲或重新传送而言，做出新的拷贝。从而，通信提供商或网络提供商可在有形机器可读介质上至少暂时存储体现本发明实施例的技术的制品，诸如被编码到载波中的信息。

在现代处理器中，使用若干不同执行单元来处理和执行各种代码和指令。不是所有的指令同等地被创建，因为一些指令较快地完成，而其它指令可能花了若干时钟周期完成。指令吞吐量越快，处理器的总体性能越好。从而，使许多指令尽可能快地执行会是有利的。然而，存在具有更大复杂性并且在执行时间和处理器资源方面要求更大的某些指令。例如，存在浮点指令、加载/存储操作、数据移动等。

当在因特网、文本和多媒体应用中使用更多计算机系统时，已经随时间引入了附加处理器支持。在一个实施例中，指令集可与一个或多个计算机架构关联，包含数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置以及外部输入和输出(I/O)。

在一个实施例中，指令集架构(ISA)可由一个或多个微架构实现，微架构包含用于实现一个或多个指令集的处理器逻辑和电路。相应地，具有不同微架构的处理器可共享公共指令集的至少一部分。例如，Pentium 4处理器、/>Core^TM处理器以及来自加利福尼亚州，Sunnyvale的Advanced Micro Devices,Inc的处理器实现了几乎相同版本的x86指令集(具有已经对于较新版本被添加的一些扩展)，但具有不同的内部设计。类似地，由其它处理器开发公司(诸如ARM Holding,Ltd、MIPS或他们的被许可人或采纳方)设计的处理器可共享公共指令集的至少一部分，但可包含不同处理器设计。例如，ISA的相同寄存器架构可使用新或公知的技术在不同微架构中以不同方式实现，包括专用物理寄存器、使用寄存器重命名机制(例如，使用寄存器别名表(RAT)、重新排序缓冲器(ROB)和引退寄存器堆)的一个或多个动态分配的物理寄存器。在一个实施例中，寄存器可包括一个或多个寄存器、寄存器架构、寄存器堆或可以或可以不由软件程序器可寻址的其它寄存器集。

在一个实施例中，指令可包含一个或多个指令格式。在一个实施例中，除了其它之外，指令格式还可指示要规定的各种字段(位数、位的位置等)、要执行的操作以及在其上将执行操作的操作数。一些指令格式可由指令模板(或子格式)进一步间断(broken)定义。例如，给定的指令格式的指令模板可被定义成具有指令格式字段的不同子集，和/或定义成具有不同解释的给定字段。在一个实施例中，指令使用指令格式(并且如果定义了，则在那个指令格式的指令模板中的给定一个模板中)被表述，并且规定或指示操作以及操作将在其上进行操作的操作数。

科学、金融、自动向量化通用、RMS(识别、挖掘和合成)及视觉和多媒体应用(例如，2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频操纵)可要求对大量数据项执行相同操作。在一个实施例中，单指令多数据(SIMD)指使得处理器对多个数据元素执行操作的指令的类型。在逻辑上可将寄存器中的位划分成多个固定大小或可变大小数据元素(每个元素表示单独的值)的SIMD技术可使用在处理器中。例如，在一个实施例中，可将64位寄存器中的位组织为包含4个单独16位数据元素的源操作数，每个元素表示单独的16位值。此类型的数据可称为“打包”(packed)数据类型或“向量”数据类型，并且此数据类型的操作数称为打包数据操作数或向量操作数。在一个实施例中，打包数据项或向量可以是在单个寄存器内存储的打包数据元素的序列，并且打包数据操作数或向量操作数可以是SIMD指令(或“打包数据指令”或“向量指令”)的源或目的地操作数。在一个实施例中，SIMD指令指定要对两个源向量操作数执行的单向量操作，以生成相同或不同大小的具有相同或不同数量的数据元素和以相同或不同的数据元素顺序的目的地向量操作数(也称为结果向量操作数)。

例如由具有包括x86、MMX^TM、流播SIMD扩展(SSE)、SSE2、SSE3、SSE4.1及SSE4.2指令的指令集的Core^TM处理器，诸如ARM/>系列处理器的具有包括向量浮点(VFP)和/或NEON指令的指令集的ARM处理器，以及诸如由中国科学院的计算技术研究所(ICT)开发的龙芯(Loongson)系列处理器的MIPS处理器所采用的SIMD技术已经在应用性能方面实现了相当大的改进(Core^TM和MMX^TM是加利福尼亚州Santa Clara的Intel Corporation的注册商标或商标)。

在一个实施例中，目的地和源寄存器/数据是表示对应数据或操作的源和目的地的常规术语。在一些实施例中，它们可通过具有与描绘的那些名称或功能不同的名称或功能的寄存器、存储器或其它存储区域来实现。例如，在一个实施例中，“DEST1”可以是临时存储寄存器或其它存储区域，而“SRC1”和“SRC2”可以是第一和第二源存储寄存器或其它存储区域并以此类推。在其它实施例中，两个或更多个SRC和DEST存储区域可对应于相同存储区域(例如，SIMD寄存器)内的不同数据存储元素。在一个实施例中，例如通过将对第一和第二源数据执行的操作的结果写回到用作目的地寄存器的所述两个源寄存器中的一个，源寄存器之一也可充当目的地寄存器。

图1A是根据本发明的一个实施例的用包括执行单元以执行指令的处理器形成的示范计算机系统的框图。根据本发明(例如本文描述的实施例中的)，系统100包括诸如处理器102的组件，以采用包括执行用于处理数据的算法的逻辑的执行单元。系统100表示基于根据加利福尼亚州Santa Clara的Intel Corporation可用的III、/>4、Xeon^TM、/>XScale^TM和/或StrongARM^TM微处理器的处理系统，尽管也可使用其它系统(包括具有其它微处理器的PC、工程工作站、机顶盒等)。在一个实施例中，样本系统100可执行从华盛顿Redmond的Microsoft Corporation可得到的Windows^TM操作系统的某个版本，尽管也可使用其它操作系统(例如，UNIX和Linux)、嵌入式软件和/或图形用户界面。因此，本发明的实施例不限于硬件电路和软件的任何特定组合。

实施例并不限于计算机系统。本发明的备选实施例可在诸如手持式装置和嵌入式应用的其它装置中使用。手持式装置的一些示例包括蜂窝电话、因特网协议装置、数码相机、个人数字助理(PDA)及手持式PC。嵌入式应用可包括微控制器、数字信号处理器(DSP)、片上系统、网络计算机(NetPC)、机顶盒、网络中枢、广域网(WAN)交换机或可执行根据至少一个实施例的一个或多个指令的任何其它系统。

图1A是采用处理器102形成的计算机系统100的框图，处理器102包含一个或多个执行单元108以执行用来根据本发明的一个实施例执行至少一个指令的算法。一个实施例可在单个处理器桌上型计算机或服务器系统的上下文中描述，而备选实施例可包含在多处理器系统中。系统100是“中枢”系统架构的示例。计算机系统100包含用于处理数据信号的处理器102。处理器102可以是复杂指令集计算机(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现指令集组合的处理器或任何其它处理装置，诸如例如数字信号处理器。处理器102耦合到处理器总线110，其可在处理器102与系统100中的其它组件之间传送数据信号。系统100的元件执行本领域技术人员众所周知的它们的常规功能。

在一个实施例中，处理器102包含1级(L1)内部高速缓冲存储器104。取决于架构，处理器102可具有单个内部高速缓存或多级内部高速缓存。备选地，在另一实施例中，高速缓冲存储器可驻留在处理器102外部。取决于具体实现和需要，其它实施例也可包含内部和外部高速缓存二者的组合。寄存器堆106可将不同类型的数据存储在各种寄存器中，包含整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。

执行单元108(包含执行整数和浮点运算的逻辑)也驻留在处理器102中。处理器102也包含存储某些宏指令的微代码的微代码(ucode)ROM。对于一个实施例，执行单元108包含处置打包指令集109的逻辑。通过在通用处理器102的指令集中包括打包指令集109，连同执行指令的关联电路，可使用通用处理器102中的打包数据执行由许多多媒体应用使用的操作。从而，通过使用处理器的数据总线的完全宽度来对打包数据执行操作，可加速和更有效地执行许多多媒体应用。这可消除跨处理器的数据总线传输更小数据单元来一次一个数据元素执行一个或多个操作的需要。

执行单元108的备选实施例也可用在微控制器、嵌入式处理器、图形装置、DSP以及其它类型逻辑电路中。系统100包含存储器120。存储器120可以是动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置或其它存储器装置。存储器120可存储由数据信号表示的可由处理器102执行的指令和/或数据。

系统逻辑芯片116耦合到处理器总线110和存储器120。系统逻辑芯片116在所示实施例中是存储器控制器中枢(MCH)。处理器102可经由处理器总线110与MCH 116通信。MCH116提供到存储器120的高带宽存储器路径118，其用于指令和数据存储以及用于图形命令、数据和组织结构(texture)的存储。MCH 116用来在处理器102、存储器120和系统100中的其它组件之间引导数据信号，并在处理器总线110、存储器120和系统I/O 122之间桥接数据信号。在一些实施例中，系统逻辑芯片116可提供用于耦合到图形控制器112的图形端口。MCH116通过存储器接口118耦合到存储器120。图形卡112通过加速图形端口(AGP)互连114耦合到MCH 116。

系统100使用专有中枢接口总线122将MCH 116耦合到I/O控制器中枢(ICH)130。ICH 130经由本地I/O总线提供到一些I/O装置的直接连接。本地I/O总线是用于将外设连接到存储器120、芯片集和处理器102的高速I/O总线。一些示例是音频控制器、固件中枢(闪速BIOS)128、无线收发器126、数据存储装置124、含有用户输入和键盘接口的遗留I/O控制器、串行扩展端口(诸如通用串行总线(USB))和网络控制器134。数据存储装置124可包括硬盘驱动器、软盘驱动器、CD-ROM装置、闪速存储器装置或其它大容量存储装置。

对于系统的另一实施例，根据一个实施例的指令可与片上系统一起使用。片上系统的一个实施例由处理器和存储器组成。用于一个此类系统的存储器是闪速存储器。闪速存储器可位于与处理器和其它系统组件相同的管芯上。此外，诸如存储器控制器或图形控制器的其它逻辑块也可位于片上系统上。

图1B示出了实现本发明的一个实施例的原理的数据处理系统140。本领域技术人员将容易认识到，本文描述的实施例可供备选处理系统使用，而不脱离本发明实施例的范围。

根据一个实施例，计算机系统140包括能够执行至少一个指令的处理核159。对于一个实施例，处理核159表示任何类型架构的处理单元，包含但不限于CISC、RISC或VLIW型架构。处理核159还可适合于以一个或多个工艺技术的制造，并且通过充分详细地表示在机器可读介质上，处理核159可适合于促进所述制造。

处理核159包括执行单元142、寄存器堆集合145、以及解码器144。处理核159还包含对理解本发明实施例不必要的附加电路(未示出)。执行单元142可被用于执行由处理核159接收的指令。除了执行典型处理器指令，执行单元142可执行打包指令集143中的指令，以便执行对打包数据格式的操作。打包指令集143包含用于执行本发明实施例的指令以及其它打包指令。执行单元142通过内部总线耦合到寄存器堆145。寄存器堆145表示处理核159上的用于存储信息(包含数据)的存储区域。如先前所提到的，要理解到，存储区域被用于存储不关键的打包数据。执行单元142耦合到解码器144。解码器144被用于将由处理核159接收的指令解码成控制信号和/或微代码入口点。响应于这些控制信号和/或微代码入口点，执行单元142执行适当操作。在一个实施例中，解码器被用于解释指令的操作码，其将指示应该对在指令内指示的对应数据执行什么操作。

处理核159与总线141耦合，以便与各种其它系统装置通信，所述各种其它系统装置例如可包含但不限于：同步动态随机存取存储器(SDRAM)控制146、静态随机存取存储器(SRAM)控制147、突发闪速存储器接口148、个人计算机存储卡国际协会(PCMCIA)/紧凑型闪存(CF)卡控制149、液晶显示器(LCD)控制150、直接存储器存取(DMA)控制器151以及备选总线主接口152。在一个实施例中，数据处理系统140还可包括I/O桥154以便经由I/O总线153与各种I/O装置通信。此类I/O装置例如可包含但不限于通用异步接收器/传送器(UART)155、通用串行总线(USB)156、蓝牙无线UART 157和I/O扩展接口158。

数据处理系统140的一个实施例提供移动、网络和/或无线通信以及能够执行包含文本字符串比较操作的SIMD操作的处理核159。处理核159可采用各种音频、视频、成像和通信算法编程，所述算法包含：离散变换，诸如Walsh-Hadamard变换、快速傅里叶变换(FFT)、离散余弦变换(DCT)以及它们的相应逆变换；压缩/解压缩技术，诸如色彩空间变换、视频编码运动估计或视频解码运动补偿；以及调制/解调(MODEM)功能，诸如脉冲译码调制(PCM)。

图1C示出了能够执行MONITOR和MWAIT指令以提供用户级线程同步的数据处理系统的另一备选实施例。根据一个备选实施例，数据处理系统160可包含主处理器166、SIMD协处理器161、高速缓冲存储器167和输入/输出系统168。输入/输出系统168可选地可耦合到无线接口169。SIMD协处理器161能够执行包含根据一个实施例的指令的操作。处理核170可适合于以一个或多个工艺技术的制造，并且通过充分详细地在机器可读介质上表示，处理核170可适合于促进制造所有或部分数据处理系统160(包含处理核170)。

对于一个实施例，SIMD协处理器161包括执行单元162和寄存器堆集合164。主处理器166的一个实施例包括解码器165以识别指令集163中的指令(包含根据一个实施例的指令)以用于由执行单元162执行。对于备选实施例，SIMD协处理器161还包括至少部分解码器165B以解码指令集163中的指令。处理核170还包含对理解本发明实施例不必要的附加电路(未示出)。

在操作中，主处理器166执行数据处理指令流，其控制通用类型的数据处理操作(包含与高速缓冲存储器167和输入/输出系统168的交互)。嵌入在数据处理指令流内的是SIMD协处理器指令。主处理器166的解码器165将这些SIMD协处理器指令识别为应该由附连的SIMD协处理器161执行的类型。相应地，主处理器166在协处理器总线171上发布这些SIMD协处理器指令(或表示SIMD协处理器指令的控制信号)，这些指令从协处理器总线171被任何附连的SIMD协处理器接收。在此情况下，SIMD协处理器161将接受并执行预期用于它的任何接收的SIMD协处理器指令。

数据可经由无线接口169接收以便由SIMD协处理器指令处理。对于一个示例，语音通信可以以数字信号形式被接收，其可由SIMD协处理器指令处理以重新生成代表语音通信的数字音频样本。对于另一个示例，压缩的音频和/或视频可以数字位流形式被接收，其可由SIMD协处理器指令处理以重新生成数字音频样本和/或运动视频帧。对于处理核170的一个实施例，主处理器166和SIMD协处理器161被集成到单个处理核170中，处理核170包括执行单元162、寄存器堆集合164、以及识别指令集163中的指令(包含根据一个实施例的指令)的解码器165。

图2是根据本发明的一个实施例的包含执行指令的逻辑电路的处理器200的微架构的框图。在一些实施例中，可实现根据一个实施例的指令，以对具有字节、字、双字、四字等大小以及诸如单和双精度整数和浮点数据类型的数据类型的数据元素进行操作。在一个实施例中，有序前端201可以是处理器200的一部分，该部分获取要执行的指令，并且准备所述指令以稍后在处理器流水线中进行使用。前端201可包含几个单元。在一个实施例中，指令预获取器226从存储器中获取指令，并将它们馈送到指令解码器228，其又解码或解释这些指令。例如，在一个实施例中，解码器将接收的指令解码成机器可执行的称为“微指令”或“微操作”(也称为microop或uop)的一个或多个操作。在其它实施例中，解码器将指令解析成操作码和对应的数据以及控制字段，它们由微架构使用以执行根据一个实施例的操作。在一个实施例中，追踪(trace)高速缓存230获得解码的uop并将它们汇编成uop队列234中的程序排序的序列或追踪以便执行。当追踪高速缓存230遇到复杂指令时，微代码ROM 232提供完成该操作所需的uop。

一些指令被转换成单个微-op，而其它指令需要几个微-op来完成整个操作。在一个实施例中，如果需要多于四个微-op来完成指令，则解码器228访问微代码ROM 232以执行指令。对于一个实施例，指令可被解码成小数量的微-op，以便在指令解码器228进行处理。在另一实施例中，指令可被存储在微代码ROM 232内，如果需要若干微-op来完成操作的话。追踪高速缓存230指的是入口点可编程逻辑阵列(PLA)，其用来确定针对读取微代码序列的正确微指令指针，以完成来自微代码ROM 232的根据一个实施例的一个或多个指令。在微代码ROM 232完成对指令的微-op进行排序后，机器的前端201恢复从追踪高速缓存230获取微-op。

无序执行引擎203是指令被准备以用于执行的地方。无序执行逻辑具有多个缓冲器，以在指令沿流水线向下并且被调度用于执行时，平滑处理和重新排序指令的流以优化性能。分配器逻辑分配每个uop为了执行而所需要的机器缓冲器和资源。寄存器重命名逻辑将逻辑寄存器重命名到寄存器堆中的条目上。在指令调度器(存储器调度器、快速调度器202、慢速/通用浮点调度器204和简单浮点调度器206)前面，分配器还为两个uop队列(一个用于存储器操作，并且一个用于非存储器操作)之一中的每个uop分配条目。Uop调度器202、204、206基于其相关性输入寄存器操作数源的准备度和uop完成其操作需要的执行资源的可用性，确定uop何时准备就绪执行。一个实施例的快速调度器202可在主时钟周期的每半个周期上进行调度，而其它调度器可每主处理器时钟周期仅调度一次。调度器对于分派端口进行裁决以调度uop以便执行。

寄存器堆208、210坐落在调度器202、204、206与执行块211中的执行单元212、214、216、218、220、222、224之间。对于整数运算和浮点运算，分别存在单独的寄存器堆208、210。一个实施例的每个寄存器堆208、210还包含旁路网络，其可向新的相关uop进行旁路或转发尚未写入寄存器堆中的刚刚完成的结果。整数寄存器堆208和浮点寄存器堆210还能够相互传递数据。对于一个实施例，整数寄存器堆208被分成两个单独的寄存器堆，一个寄存器堆用于数据的低阶32位，而第二寄存器堆用于数据的高阶32位。一个实施例的浮点寄存器堆210具有128位宽条目，因为浮点指令通常具有从64位到128位宽的操作数。

执行块211含有执行单元212、214、216、218、220、222、224，在这些执行单元中实际执行所述指令。该区段包含存储微指令需要执行的整数和浮点数据操作数值的寄存器堆208、210。一个实施例的处理器200由如下若干执行单元组成：地址生成单元(AGU)212、AGU214、快速ALU 216、快速ALU 218、慢速ALU 220、浮点ALU 222、浮点移动单元224。对于一个实施例，浮点执行块222、224执行浮点、MMX、SIMD和SSE或其它运算。一个实施例的浮点ALU222包含64位×64位浮点除法器以执行除法、平方根和余数微-op。对于本发明的实施例，涉及浮点值的指令可用浮点硬件处置。在一个实施例中，ALU运算去到高速ALU执行单元216、218。一个实施例的快速ALU 216、218可以通过时钟周期一半的有效等待时间执行快速运算。对于一个实施例，最复杂的整数操作去到慢速ALU 220，因为慢速ALU 220包括用于长等待时间类型操作的整数执行硬件，如乘法器、位移、标记逻辑和分支处理。存储器加载/存储操作由AGU 212、214执行。对于一个实施例，整数ALU 216、218、220在对64位数据操作数执行整数运算的上下文中被描述。在备选实施例中，可实现ALU 216、218、220以支持各种数据位，包含16、32、128、256等。类似地，可实现浮点单元222、224以支持具有各种宽度位的一系列操作数。对于一个实施例，浮点单元222、224可结合SIMD和多媒体指令对128位宽打包数据操作数进行操作。

在一个实施例中，在父负载(parent load)已经完成执行之前，uop调度器202、204、206分派相关操作。由于在处理器200中推测性地调度和执行uop，所以处理器200还包含处置存储器丢失的逻辑。如果数据加载在数据高速缓存中丢失，则流水线中可存在执行中(in flight)相关操作，其已经为调度器留下了暂时不正确的数据。重放机制跟踪和重新执行使用不正确数据的指令。可能只需要重放相关操作，并且允许完成独立操作。处理器的一个实施例的调度器和重放机制还设计成捕捉提供利用MONITOR和MWAIT指令的用户级线程同步的指令。

术语“寄存器”可指代被用作识别操作数的指令的部分的板载处理器存储位置。换而言之，寄存器可以是从处理器的外部可用的那些寄存器(从程序器的角度而言)。然而，实施例的寄存器不应被限制于意指特定类型的电路。相反，实施例的寄存器能够存储和提供数据，并且执行本文中描述的功能。本文中描述的寄存器可由处理器内的电路使用任何数量的不同技术实现，诸如专用物理寄存器、使用寄存器重命名的动态分配物理寄存器、专用和动态分配物理寄存器的组合等。在一个实施例中，整数寄存器存储32位整数数据。一个实施例的寄存器堆也包含用于打包数据的8个多媒体SIMD寄存器。对于下面的讨论，寄存器被理解为设计成保持打包数据的数据寄存器，诸如来自加利福尼亚州Santa Clara的IntelCorporation的以MMX技术实现的微处理器中的64位宽MMX^TM寄存器(在一些实例中也称为“mm”寄存器)。在整数和浮点形式两者中可用的这些MMX寄存器可与伴随SIMD和SSE指令的打包数据元素一起操作。类似地，与SSE2、SSE3、SSE4或更高版本(一般称为“SSEx”)技术有关的128位宽XMM寄存器也能够被用于保持此类打包数据操作数。在一个实施例中，在存储打包数据和整数数据中，寄存器无需区分所述两种数据类型。在一个实施例中，整数和浮点被包含在相同寄存器堆或不同寄存器堆中。此外，在一个实施例中，浮点和整数数据可存储在不同寄存器或相同寄存器中。

在以下图形的示例中，描述了多个数据操作数。图3A示出根据本发明的一个实施例的在多媒体寄存器中的各种打包数据类型表示。图3A示出用于128位宽操作数的打包字节310、打包字320和打包双字(dword)330的数据类型。此示例的打包字节格式310为128位长，并且包含16个打包字节数据元素。字节在此处被定义为8位的数据。用于每个字节数据元素的信息被存储在针对字节0的位7到位0、针对字节1的位15到位8、针对字节2的位23到位16及最后针对字节15的位120到位127中。因此，在寄存器中使用所有可用位。此存储布置增大了处理器的存储效率。此外，利用访问的16个数据元素，现在可并行对16个数据元素执行一个操作。

通常，数据元素是与相同长度的其它数据元素一起存储在单个寄存器或存储器位置中的单独数据段。在与SSEx技术有关的打包数据序列中，XMM寄存器中存储的数据元素的数量是128位除以单独数据元素的以位为单位的长度。类似地，在与MMX和SSE技术有关的打包数据序列中，MMX寄存器中存储的数据元素的数量是64位除以单独数据元素的以位为单位的长度。虽然图3A中示出的数据类型是128位长，但本发明的实施例也可利用64位宽、256位宽、512位宽或其它大小的操作数操作。此示例的打包字格式320为128位长，并且包含8个打包字数据元素。每个打包字包含16位的信息。图3A的打包双字格式330为128位长，并且包含4个打包双字数据元素。每个打包双字数据元素包含32位的信息。打包四字为128位长，并且包含2个打包四字数据元素。

图3B示出备选的寄存器中的数据存储格式。每个打包数据可包括多于一个独立数据元素。示出了三个打包数据格式；打包半(half)341、打包单342和打包双343。打包半341、打包单342和打包双343的一个实施例包含固定点数据元素。对于备选实施例，打包半341、打包单342和打包双343中的一个或多个可包含浮点数据元素。打包半341的一个备选实施例为128位长，其包含8个16位数据元素。打包单342的一个实施例为128位长，并且包含4个32位数据元素。打包双343的一个实施例为128位长，并且包含2个64位数据元素。将领会的是，此类打包数据格式可进一步扩展到其它寄存器长度，例如，96位、160位、192位、224位、256位、512位或更多。

图3C示出根据本发明的一个实施例的在多媒体寄存器中的各种有符号和无符号的打包数据类型表示。无符号的打包字节表示344示出在SIMD寄存器中的无符号的打包字节的存储。每个字节数据元素的信息被存储在针对字节0的位7到位0、针对字节1的位15到位8、针对字节2的位23到位16等及最后针对字节15的位120到位127中。因此，在寄存器中使用所有可用位。此存储布置可增大处理器的存储效率。此外，利用访问的16个数据元素，现在可以并行方式对16个数据元素执行一个操作。有符号的打包字节表示345示出有符号的打包字节的存储。要注意的是，每个字节数据元素的第8位可以是符号指示符。无符号的打包字表示346示出在SIMD寄存器中如何存储字7到字0。有符号的打包字表示347类似于无符号的打包字寄存器中的表示346。要注意的是，每个字数据元素的第16位是符号指示符。无符号的打包双字表示348显示如何存储双字数据元素。有符号的打包双字表示349类似于无符号的打包双字寄存器中的表示348。要注意的是，必需的符号位是每个双字数据元素的第32位。

图3D是对操作编码(操作码)格式360的一个实施例的描绘，格式360具有32位或更多的位，以及寄存器/存储器操作数寻址模式，其与万维网(www)at intel.com/products/processor/manuals/上从加利福尼亚州Santa Clara的Intel Corporation可获得的“以及IA-32Intel架构软件开发员手册组合第2A和2B卷：指令集参考A-Z”(/>64and IA-32Intel Architecture Software Developer’s Manual Combined Volumes2Aand 2B:Instruction Set Reference A-Z)中描述的操作码格式的类型相对应。在一个实施例中，指令可通过字段361和362中的一个或多个字段编码。可识别直到每指令两个操作数位置，包括直到两个源操作数标识符364和365。对于一个实施例，目的地操作数标识符366与源操作数标识符364相同，而在其它实施例中，它们不同。对于备选实施例，目的地操作数标识符366与源操作数标识符365相同，而在其它实施例中，它们不同。在一个实施例中，通过源操作数标识符364和365识别的源操作数之一被指令的结果改写，而在其它实施例中，标识符364对应于源寄存器元素，并且标识符365对应于目的地寄存器元素。对于一个实施例，操作数标识符364和365可被用于识别32位或64位源和目的地操作数。

图3E是对具有40或更多个位的另一备选操作编码(操作码)格式370的描绘。操作码格式370与操作码格式360相对应，并且包括可选前缀字节378。根据一个实施例的指令可通过字段378、371和372的一个或多个字段编码。通过源操作数标识符374和375以及通过前缀字节378，可识别直到每指令两个操作数位置。对于一个实施例，前缀字节378可用于识别32位或64位源和目的地操作数。对于一个实施例，目的地操作数标识符376与源操作数标识符374相同，而在其它实施例中，它们不同。对于备选实施例，目的地操作数标识符376与源操作数标识符375相同，而在其它实施例中，它们不同。在一个实施例中，指令对通过操作数标识符374和375识别的一个或多个操作数进行操作，并且通过操作数标识符374和375识别的一个或多个操作数通过指令的结果被改写，而在其它实施例中，通过标识符374和375识别的操作数被写入另一寄存器中的另一数据元素。操作码格式360和370允许由MOD字段363和373和由可选比例-索引-基础和位移字节部分地指定的寄存器到寄存器、存储器到寄存器、寄存器接(by)存储器、寄存器接寄存器、寄存器接中间物、寄存器到存储器寻址。

接下来转到图3F，在一些备选实施例中，64位(或128位、或256位、或512位或更多)单指令多数据(SIMD)算术运算可通过协处理器数据处理(CDP)指令被执行。操作编码(操作码)格式380描绘具有CDP操作码字段382和389的一个此类CDP指令。CDP指令的类型，对于备选实施例，操作可通过字段383、384、387和388的一个或多个字段编码。可识别直到每指令三个操作数位置，包括直到两个源操作数标识符385和390以及一个目的地操作数标识符386。协处理器的一个实施例可对8、16、32和64位值进行操作。对于一个实施例，对整数数据元素执行指令。在一些实施例中，可使用条件字段381，有条件地执行指令。对于一些实施例，源数据大小可由字段383编码。在一些实施例中，可对SIMD字段进行零(Z)、负(N)、进位(C)和溢出(V)检测。对于一些指令，饱和的类型可由字段384编码。

接下来转到图3G，图3G是根据另一实施例的用以提供利用MONITOR和MWAIT指令的用户级线程同步的另一备选操作编码(操作码)格式397的描绘，所述格式397与万维网(www)at intel.com/products/processor/manuals/上从加利福尼亚州Santa Clara的Intel Corp.可获得的“IntelAdvanced Vector Extensions Programming Reference”中描述的操作码格式类型对应。

原始x86指令集提供具有包含在附加字节中的地址音节与立即数操作数的各种格式的1字节操作码，其的存在从第一“操作码”字节已知。另外，存在保留作为操作码的修饰符(称为前缀，因为其必须放置在指令前)的某些字节值。当256个操作码字节(包括这些特殊前缀值)的原始调色板(palette)用尽时，单个字节专门用作256个操作码的新集合的转义(escape)。当添加向量指令(例如，SIMD)时，生成对更多操作码的需要，并且“两字节”操作码映射也不足够，即使在通过前缀的使用进行扩展时。为此，将新指令添加到附加映射中，所述附加映射使用2个字节加上可选前缀作为标识符。

另外，为促进64位模式中的附加寄存器，可在前缀与操作码(和确定该操作码所必需的任何转义字节)之间使用附加前缀(称为“REX”)。在一个实施例中，REX可具有4个“有效负载”位，以指示64位模式中的附加寄存器的使用。在其它实施例中，它可具有少于或多于4个位。至少一个指令集的通用格式(其通常与格式360和/或格式370对应)通过以下一般地示出：

[prefixes][rex]escape[escape2]opcode modrm(等)

操作码格式397与操作码格式370对应，并包括可选VEX前缀字节391(在一个实施例中以C4十六进制开始)，以替换大多数其它常用遗留指令前缀字节与转义码。例如，以下示出使用两个字段来编码指令的实施例，当第二转义码在原始指令中存在时，或当需要使用REX字段中的附加位(例如，XB和W字段)时，可使用所述实施例。在下面示出的实施例中，遗留转义由新转义值表示，遗留前缀被完全压缩为“有效负载”字节的部分，遗留前缀被收回且可用于未来扩展，第二转义码在具有可用的未来映射或特征空间的“映射”字段中被压缩，并添加新特征(例如，增加的向量长度和附加源寄存器指定符)。

根据一个实施例的指令可由字段391和392中的一个或多个编码。可由字段391结合源操作数标识符374和375且结合可选比例-索引-基础(SIB)标识符393、可选位移标识符394和可选立即数字节395来标识高达每指令四个操作数位置。对于一个实施例，VEX前缀字节391可用于标识32位或64位源操作数和目的地操作数和/或128位或256位SIMD寄存器或存储器操作数。对于一个实施例，由操作码格式397提供的功能性可为具有操作码格式370的冗余，而在其它实施例中它们不同。操作码格式370和397允许由MOD字段373且由可选(SIB)标识符393、可选位移标识符394和可选立即数字节395部分指定的寄存器到寄存器、存储器到寄存器、寄存器接存储器、寄存器接寄存器、寄存器接立即数、寄存器到存储器寻址。

接下来转到图3H，其为用以根据另一实施例提供利用MONITOR和MWAIT指令的用户级线程同步的另一备选操作编码(操作码)格式398的描绘。操作码格式398与操作码格式370和397对应，并包括可选EVEX前缀字节396(在一个实施例中以62十六进制开始)，以替换大多数其它常用的遗留指令前缀字节和转义码并且提供附加功能性。根据一个实施例的指令可由字段396和392中的一个或多个编码。可由字段396结合源操作数标识符374和375并结合可选比例-索引-基础(SIB)标识符393、可选位移标识符394和可选立即数字节395来标识高达每指令四个操作数位置以及掩码。对于一个实施例，EVEX前缀字节396可用于标识32位或64位源操作数与目的地操作数和/或128位、256位或512位SIMD寄存器或存储器操作数。对于一个实施例，由操作码格式398提供的功能性可为具有操作码格式370或397的冗余，而在其它实施例中它们不同。操作码格式398允许由MOD字段373且由可选(SIB)标识符393、可选位移标识符394与可选立即数字节395部分指定的在具有掩码的情况下的寄存器到寄存器、存储器到寄存器、寄存器接存储器、寄存器接寄存器、寄存器接立即数、寄存器到存储器寻址。至少一个指令集的通用格式(其通常与格式360和/或格式370对应)通过以下一般地示出：

evex1 RXBmmmmm WvvvLpp evex4 opcode modrm[sib][disp][imm]

对于一个实施例，根据EVEX格式398编码的指令可具有附加“有效负载”位，所述附加“有效负载”位可用于为利用MONITOR和MWAIT指令的用户级线程同步提供附加新特征，诸如，例如用户可配置掩码寄存器、或附加操作数、或从128位、256位或512位向量寄存器之中的选择、或用以从中选择的更多寄存器等。

例如，在VEX格式397可用于为利用MONITOR和MWAIT指令的用户级线程同步提供隐式掩码的情况下，EVEX格式398可用于为利用MONITOR和MWAIT指令的用户级线程同步提供显式用户可配置掩码。另外，在VEX格式397可用于在128位或256位向量寄存器上提供利用MONITOR和MWAIT指令的用户级线程同步的情况下，EVEX格式398可用于在128位、256位、512位或更大(或更小)向量寄存器上提供利用MONITOR和MWAIT指令的用户级线程同步。

通过以下示例示出提供用户级线程同步的示例MONITOR和MWAIT指令：

将意识到，通过使用上面的飞地指令来提供利用MONITOR和MWAIT指令的用户级线程同步，处理器中的一个或多个模型特定寄存器(MSR)可以被配置(例如，通过IA32_MISC_ENABLE MSR)处于用户-MWAIT-使能执行状态来指定对用户级线程同步架构的支持。实施例包括多个硬件线程或处理核；对应的监视地址状态存储装置(MASS)，用以存储发布MONITOR请求的多个执行线程中的每个存储最后监视地址；以及存储器，用以记录针对存储器存储位置的地址的关联状态和MONITOR请求。响应于接收到对于地址的MWAIT请求，记录与MWAIT请求关联的一个或多个执行核的监视地址的关联的等待-到-触发状态，当所述一个或多个MSR被配置处于用户-MWAIT-使能执行状态时，响应于接收到MWAIT请求，执行核要将一个或多个请求线程转变到优化的睡眠状态(例如，C1睡眠状态)。在一些实施例中，允许用户应用转变到轻权重睡眠状态(例如仅C1)，同时仅针对处于0(零)特权级的MWAIT请求保留到更深睡眠状态的转变。

因此，将意识到，用户级线程同步可以使用针对MONITOR和MWAIT指令的指令和处理逻辑来提供，而不要求精心设计的硬件支持和/或设计努力。

图4A是根据本发明的至少一个实施例的示出有序流水线和寄存器重命名阶段、无序发布/执行流水线的框图。图4B是根据本发明的至少一个实施例的示出要包括在处理器中的无序发布/执行逻辑、寄存器重命名逻辑和有序架构核的框图。图4A中的实线框示出有序流水线，而虚线框示出寄存器重命名、无序发布/执行流水线。类似地，图4B中的实线框示出有序架构逻辑，而虚线框示出寄存器重命名逻辑和无序发布/执行逻辑。

在图4A中，处理器流水线400包括获取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(也称为分派或发布)阶段412、寄存器读/存储器读阶段414、执行阶段416、写回/存储器写入阶段418、异常处置阶段422及提交阶段424。

在图4B中，箭头表示在两个或更多个单元之间的耦合，并且箭头的方向指示在那些单元之间数据流的方向。图4B显示处理器核490，其包括耦合到执行引擎单元450的前端单元430，并且两者均耦合到存储器单元470。

核490可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或者混合或备选核类型。在又一个选项中，核490可以是专用核，诸如，例如网络或通信核、压缩引擎、图形核等。

前端单元430包括耦合到指令高速缓存单元434的分支预测单元432，所述指令高速缓存单元434耦合到指令转化后备缓冲器(TLB)436，所述TLB 436耦合到指令获取单元438，其耦合到解码单元440。解码单元或解码器可将指令解码，并且生成作为输出的一个或多个微操作、微代码入口点、微指令、其它指令或其它控制信号，它们从原始指令解码或者以其它方式反映原始指令或者从原始指令得到。解码器可使用各种不同机制实现。适合机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。指令高速缓存单元434还耦合到存储器单元470中的2级(L2)高速缓存单元476。解码单元440耦合到执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456表示任何数量的不同调度器，包括预留站、中央指令窗口等。调度器单元456耦合到物理寄存器堆单元458。每个物理寄存器堆单元458表示一个或多个物理寄存器堆，这些寄存器堆中的不同寄存器堆存储一个或多个不同数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点等，状态(例如，作为要执行的下一指令的地址的指令指针)等。物理寄存器堆单元458由引退单元454重叠以示出其中可实现寄存器重命名和无序执行的各种方式(例如，使用重排序缓冲器和引退寄存器堆；使用将来文件、历史缓冲器和引退寄存器堆；使用寄存器映射和寄存器池等)。通常，架构寄存器从处理器外部或者从程序器的角度而言是可见的。寄存器不限于任何已知特定类型的电路。各种不同类型的寄存器只要能够如本文中所述存储和提供数据，它们便是适合的。

适合寄存器的示例包括但不限于专用物理寄存器、使用寄存器重命名的动态分配物理寄存器、专用和动态分配物理寄存器的组合等。引退单元454和物理寄存器堆单元458耦合到执行集群460。执行集群460包括一个或多个执行单元462的集合和一个或多个存储器访问单元464的集合。执行单元462可执行各种操作(例如，移位、加法、减法、乘法)，并且对各种类型的数据(例如，标量浮点、打包整数、打包浮点、向量整数、向量浮点)进行执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个执行单元，但其它实施例可只包括一个执行单元或全部执行所有功能的多个执行单元。调度器单元456、物理寄存器堆单元458和执行集群460示为可能是多个，这是因为某些实施例为某些类型的数据/操作创建单独的流水线(例如，标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线和/或存储器存取流水线，每个流水线具有其自己的调度器单元、物理寄存器堆单元和/或执行集群，并且在单独的存储器存取流水线的情况下，可实现其中仅此流水线的执行集群具有存储器访问单元464的某些实施例)。还应理解的是，在使用单独流水线的情况下，一个或多个这些流水线可以是无序发布/执行，并且其余的流水线是有序的。

存储器访问单元464的集合耦合到存储器单元470，其包括耦合到数据高速缓存单元474的数据TLB单元472，数据高速缓存单元474耦合到2级(L2)高速缓存单元476。在一个示范实施例中，存储器访问单元464可包括负载单元、存储地址单元和存储数据单元，它们中的每个耦合到存储器单元470中的数据TLB单元472。L2高速缓存单元476耦合到一个或多个其它级的高速缓存，并且最终耦合到主存储器。

通过示例，示范寄存器重命名、无序发布/执行核架构可如下实现流水线400：1)指令获取438执行获取阶段和长度解码阶段402和404；2)解码单元440执行解码阶段406；3)重命名/分配器单元452执行分配阶段408和重命名阶段410；4)调度器单元456执行调度阶段412；5)物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414；执行集群460执行执行阶段416；6)存储器单元470和物理寄存器堆单元458执行写回/存储器写入阶段418；7)各种单元涉及异常处置阶段422；以及8)引退单元454和物理寄存器堆单元458执行提交阶段424。

核490可支持一个或多个指令集(例如，x86指令集(其中对于较新版本已添加一些扩展)；加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集；加利福尼亚州Sunnyvale的ARM Holdings的ARM指令集(具有诸如NEON的可选另外扩展))。

应理解的是，核可支持多线程(执行两个或更多个并行的操作或线程的集合)，并且可以以各种方式这样做，包括时间片多线程、同时多线程(其中，单个物理核提供用于物理核在同时进行多线程的每个线程的逻辑核)或其组合(例如时间片获取和解码及之后的同时多线程，诸如在超线程技术中一样)。

虽然寄存器重命名在无序执行的上下文中描述，但应理解的是，可在有序架构中使用寄存器重命名。虽然处理器的所示实施例也包括单独的指令和数据高速缓存单元434/474及共享L2高速缓存单元476，但备选实施例可具有用于指令和数据两者的单个内部高速缓存，诸如例如1级(L1)内部高速缓存，或多个级的内部高速缓存。在一些实施例中，系统可包括内部高速缓存和在核和/或处理器外的外部高速缓存的组合。备选地，所有高速缓存可在核和/或处理器的外部。

图5是根据本发明实施例的具有集成存储器控制器和图形的单核处理器和多核处理器500的框图。图5中的实线框示出处理器500，其具有单个核502A、系统代理510、一个或多个总线控制器单元516的集合，而虚线框的可选添加示出备选处理器500，其具有多个核502A-N、在系统代理单元510中的一个或多个集成存储器控制器单元514的集合，以及集成图形逻辑508。

存储器层级包括核内的一级或多级高速缓存、共享高速缓存单元506集合或一个或多个共享高速缓存单元506、耦合到集成存储器控制器单元514的集合的外部存储器(未示出)。共享高速缓存单元506的集合可包括一个或多个中级高速缓存，例如2级(L2)、3级(L3)、4级(L4)，或其它级高速缓存、末级高速缓存(LLC)，和/或其组合。虽然在一个实施例中，基于环形的互连单元512将集成图形逻辑508、共享高速缓存单元506的集合以及系统代理单元510互连，但备选实施例可使用任何数量的众所周知的技术来互连此类单元。

在一些实施例中，核502A-N中的一个或多个能够进行多线程。系统代理510包括协调并操作核502A-N的那些组件。系统代理单元510可包括例如功率控制单元(PCU)和显示单元。PCU可以是用于调节核502A-N与集成图形逻辑508的功率状态所需的逻辑和组件，或者包括上述逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核502A-N在架构和/或指令集方面可以是同构或异构的。例如，核502A-N中的一些可以是有序的，而其它核是无序的。作为另一示例，核502A-N中的两个或更多个可以能够执行相同指令集，而其它核可以仅能够执行那个指令集的子集或不同指令集。

处理器可以是通用处理器，例如Core^TM，i3、i5、i7、2Dou和Quad、Xeon^TM、Itanium^TM、XScale^TM或StrongARM^TM处理器，其从加利福尼亚州，Santa Clara的Intel Corporation可获得。备选地，处理器可来自另一公司，例如ARM Holdings,Ltd,MIPS等。处理器可以是专用处理器，诸如，例如网络或通信处理器、压缩引擎、图形处理器、协处理器、嵌入式处理器等。处理器可实现在一个或多个芯片上。处理器500可以是一个或多个衬底的一部分和/或可使用许多工艺技术(诸如，例如BiCMOS、CMOS或NMOS)中的任一个将处理器500实现在一个或多个衬底上。

图6-8是适合于包括处理器500的示范系统，而图9是可以包括一个或多个核502的示范片上系统(SoC)。在本领域已知的其它系统设计和配置对于膝上型计算机、桌面型计算机、手持式PC、个人数字助理、工程设计工作站、服务器、网络装置、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持式装置和各种其它电子装置也是适合的。一般而言，能够结合处理器和/或本文所公开的其它执行逻辑的大量系统或电子装置一般是适合的。

现在参考图6，示出了根据本发明的一个实施例的系统600的框图。系统600可包含一个或多个处理器610、615，它们耦合到图形存储器控制器中枢(GMCH)620。在图6中用虚线指代附加处理器615的可选性质。

每个处理器610、615可以是某版本的处理器500。然而，应该指出，不太可能的是，在处理器610、615中将存在集成图形逻辑和集成存储器控制单元。图6示出了GMCH620可耦合到存储器640，存储器640例如可以是动态随机存取存储器(DRAM)。对于至少一个实施例，DRAM可与非易失性高速缓存关联。

GMCH 620可以是芯片集，或者芯片集的一部分。GMCH 620可与处理器610、615通信，并控制处理器610、615与存储器640之间的交互。GMCH 620也可充当处理器610、615与系统600的其它元件之间的加速总线接口。对于至少一个实施例，GMCH 620经由多点总线(诸如前侧总线(FSB)695)与处理器610、615通信。

更进一步，GMCH 620耦合到显示器645(诸如平板显示器)。GMCH 620可包含集成图形加速器。GMCH 620进一步耦合到输入/输出(I/O)控制器中枢(ICH)650，其可用于将各种外设装置耦合到系统600。例如在图6的实施例中示出外部图形装置660，其可以是耦合到ICH 650的分立图形装置，连同另一外设装置670。

备选地，在系统600中也可存在附加的或不同的处理器。例如，附加处理器615可包含与处理器610相同的附加处理器、与处理器610异质或不对称的附加处理器、加速器(诸如例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其它处理器。在品质度量谱(包含架构、微架构、热、功耗特性等)方面，在物理资源610、615之间可以存在各种差异。这些差异在处理器610、615之间可有效地将它们自己标明为不对称并且异质。对于至少一个实施例，各种处理器610、615可驻留在同一管芯封装中。

现在参考图7，示出了根据本发明的实施例的第二系统700的框图。如图7中所示的，多处理器系统700是点对点互连系统，并且包括经由点对点互连750耦合的第一处理器770和第二处理器780。处理器770和780中的每个可以如一个或多个处理器610、615一样，是某版本的处理器500。

虽然只示出有两个处理器770、780，但要理解，本发明的范围不限于此。在其它实施例中，在给定处理器中可存在一个或多个附加处理器。

分别示出处理器770和780包含集成存储器控制器单元772和782。处理器770还包含点对点(P-P)接口776和778作为其总线控制器单元的一部分；类似地，第二处理器780包含P-P接口786和788。处理器770、780可经由点对点(P-P)接口750使用P-P接口电路778、788交换信息。如图7中所示，IMC 772和782将处理器耦合到相应存储器，即存储器732和存储器734，它们可以是本地附连到相应处理器的主存储器的部分。

处理器770、780可各自经由单独P-P接口752、754使用点对点接口电路776、794、786、798与芯片集790交换信息。芯片集790还可经由高性能图形接口739与高性能图形电路738交换信息。

共享高速缓存(未示出)可被包含在任一处理器中或两个处理器外，仍经由P-P互连与处理器连接，使得任一或两个处理器的本地高速缓存信息可被存储在共享高速缓存中(如果处理器被置于低功率模式的话)。

芯片集790可经由接口796耦合到第一总线716。在一个实施例中，第一总线716可以是外设组件互连(PCI)总线，或诸如PCI高速总线的总线，或另一个第三代I/O互连总线，尽管本发明的范围不限于此。

如图7中所示，各种I/O装置714可耦合到第一总线716，连同将第一总线716耦合到第二总线720的总线桥718。在一个实施例中，第二总线720可以是低管脚计数(LPC)总线。在一个实施例中，各种装置可耦合到第二总线720，例如包含键盘和/或鼠标722、通信装置727和存储单元728，诸如盘驱动器或可包含指令/代码和数据730的其它大容量存储装置。进一步说，音频I/O 724可耦合到第二总线720。要指出，其它架构是可能的。例如，代替图7的点对点架构，系统可实现多点总线或其它此类架构。

现在参考图8，示出了根据本发明的实施例的第三系统800的框图。图7和图8中的相似的元件带有相似的附图标记，并且已经从图8中省略了图7的某些方面，以便避免使图8的其它方面混淆。

图8示出处理器870、880可分别包含集成存储器和I/O控制逻辑(“CL”)872和882。对于至少一个实施例，CL 872、882可包含集成存储器控制器单元，诸如上面结合图5和图7所描述的。此外，CL 872、882也可包含I/O控制逻辑。图8不仅示出了存储器732、734可耦合到CL 872、882，而且I/O装置814也耦合到控制逻辑872、882。遗留I/O装置815耦合到芯片集。

现在参考图9，示出了根据本发明的实施例的SoC 900的框图。图5中的相似元件带有相似附图标记。还有，虚线框是更高级SoC上的可选特征。在图9中，互连单元902耦合到：应用处理器910，其包含一个或多个核502A-N的集合以及共享高速缓存单元506；系统代理单元510；总线控制器单元516；集成存储器控制器单元514；一个或多个媒体处理器920的集合，其可包含集成图形逻辑508、用于提供静止和/或视频相机功能性的图像处理器924、用于提供硬件音频加速的音频处理器926以及用于提供视频编码/解码加速的视频处理器928；静态随机存取存储器(SRAM)单元930；直接存储器存取(DMA)单元932；以及用于耦合到一个或多个外部显示器的显示单元940。

图10示出了根据一个实施例的可执行至少一个指令的包含中央处理单元(CPU)和图形处理单元(GPU)的处理器。在一个实施例中，执行根据至少一个实施例的操作的指令可由CPU执行。在另一实施例中，指令可由GPU执行。在又一实施例中，指令可通过由GPU和CPU执行的操作组合执行。例如，在一个实施例中，根据一个实施例的指令可被接收和解码以便在CPU上执行。然而，解码指令内的一个或多个操作可由CPU执行，并且结果返回到GPU以用于指令的最后引退。相反，在一些实施例中，CPU可充当主处理器，并且GPU充当协处理器。

在一些实施例中，受益于高度并行吞吐量处理器的指令可由GPU执行，而受益于处理器的性能(其受益于深流水线架构)的指令可由CPU执行。例如，图形、科学应用、金融应用和其它并行工作负荷可受益于GPU的性能，并被相应地执行，而更多序列应用(诸如操作系统内核或应用代码)可更适合于CPU。

在图10中，处理器1000包含CPU 1005、GPU 1010、图像处理器1015、视频处理器1020、USB控制器1025、UART控制器1030、SPI/SDIO控制器1035、显示装置1040、高清多媒体接口(HDMI)控制器1045、MIPI控制器1050、闪速存储器控制器1055、双数据速率(DDR)控制器1060、安全性引擎1065和I²S/I²C(集成芯片间声音/集成电路间)接口1070。其它逻辑和电路可包含在图10的处理器中，包含更多CPU和GPU以及其它外设接口控制器。

至少一个实施例的一个或多个方面可由存储在表示处理器内的各种逻辑的机器可读介质上的代表性数据实现，其当由机器读取时使机器制造执行本文描述的技术的逻辑。称为“IP核”的此类表示可存储在有形机器可读介质(“带”)上，并供应给各种消费者或制造设施，以加载到实际上制造逻辑或处理器的制造机器中。例如，诸如由ARM Holdings,Ltd开发的Cortex^TM族处理器和中国科学院计算技术研究所(ICT)开发的龙芯IP核的IP核可许可或销售到各种客户或被许可人，诸如Texas Instruments、Qualcomm、Apple或Samsung，并且在由这些客户或被许可人生产的处理器中实现。

图11示出了根据一个实施例示出IP核开发的框图。存储装置1130包含模拟软件1120和/或硬件或软件模型1110。在一个实施例中，表示IP核设计的数据可经由存储器1140(例如硬盘)、有线连接(例如因特网)1150或无线连接1160提供给存储装置1130。由模拟工具和模型生成的IP核信息然后可被传送到制造设施，其中它可由第三方制造以执行根据至少一个实施例的至少一个指令。

在一些实施例中，一个或多个指令可对应于第一类型或架构(例如x86)，并且在不同类型或架构(例如ARM)的处理器上转化或仿真。根据一个实施例，指令因此可在任何处理器或处理器类型(包含ARM、x86、MIPS、GPU)或其它处理器类型或架构上执行。

图12示出了根据一个开实施例，如何由不同类型的处理器仿真第一类型的指令。在图12中，程序1205含有可执行与根据一个实施例的指令相同或基本上相同功能的一些指令。然而，程序1205的指令可属于与处理器1215不同或不兼容的类型和/或格式，意味着，程序1205中的类型的指令可能不能够由处理器1215本地执行。然而，在仿真逻辑1210的帮助下，程序1205的指令被转化成能够由处理器1215本地执行的指令。在一个实施例中，仿真逻辑实施在硬件中。在另一实施例中，仿真逻辑实施在有形、机器可读介质中，其含有将程序1205中的类型的指令转化成由处理器1215本地可执行的类型。在其它实施例中，仿真逻辑是固定功能或可编程硬件以及存储在有形、机器可读介质上的程序的组合。在一个实施例中，处理器含有仿真逻辑，而在其它实施例中，仿真逻辑存在于处理器外部，并且由第三方提供。在一个实施例中，处理器能够通过执行在处理器中含有的或与处理器关联的微代码或固件来加载实施在含有软件的有形、机器可读介质中的仿真逻辑。

图13是根据本发明的实施例的对比使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示出的实施例中，指令转换器是软件指令转换器，尽管备选地指令转换器可以用软件、固件、硬件或其各种组合实现。图13示出可使用x86编译器1304编译采用高级语言1302的程序以生成x86二进制代码1306，其可由具有至少一个x86指令集核的处理器1316本地执行。具有至少一个x86指令集核的处理器1316表示可通过兼容执行或以其它方式处理(1)Intel x86指令集核的指令集的实质部分或(2)定向为在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的对象代码版本，来执行与具有至少一个x86指令集核的Intel处理器基本上相同功能，以便实现与具有至少一个x86指令集核的Intel处理器基本上相同结果的任何处理器。x86编译器1304表示可操作以生成x86二进制代码1306(例如对象代码)的编译器，二进制代码1306可在具有或没有附加连锁处理的情况下在具有至少一个x86指令集核的处理器1316上执行。类似地，图13示出采用高级语言1302的程序可使用备选指令集编译器1308编译以生成备选指令集二进制代码1310，其可由没有至少一个x86指令集核的处理器1314(例如，具有执行加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集，和/或执行加利福尼亚州Sunnyvale的ARM Holdings的ARM指令集的核的处理器)本地执行。指令转换器1312用于将x86二进制代码1306转换成可由没有x86指令集核的处理器1314本地执行的代码。这个转换的代码不太可能不与备选指令集二进制代码1310相同，因为能够进行此操作的指令转化器难以制作；然而，转换的代码将完成一般操作，并且由来自备选指令集的指令组成。从而，指令转换器1312表示通过仿真、模拟或任何其它过程，允许不具有x86指令集处理器或核的处理器或其它电子装置执行x86二进制代码1306的软件、固件、硬件或其组合。

图14示出了用于使用MONITOR和MWAIT指令来提供用户级线程同步的处理系统1401的一个实施例。在一些实施例中，存储器层级可以包括内部处理器高速缓存1420、充当远存储器高速缓存1421的“近存储器”(其可以包括内部高速缓存1419和外部高速缓存1447-1449两者)以及“远存储器”1422的集合。

远存储器1422可以包括分别配置为地址范围1-4的系统存储器1436-1439的普通动态随机存取存储器(DRAM)。一些实施例的远存储器1422可以通过非易失性随机存取存储器(NVRAM)来实现，但不一定限于任何具体的存储器技术。远存储器1422(例如分别包括地址范围1-4的系统存储器1436-1439)在其特性和/或其在存储器/存储层级中的应用方面与其它指令和数据存储器/存储技术是可区分的。例如，远存储器1422可以被认为不同于：(1)静态随机存取存储器(SRAM)，其可用于专用于处理器核1450、1460、1470和1480的1级和2级内部处理器高速缓存1456-1457、1466、1476-1477和1486，以及由处理器核共享的较低级高速缓存(LLC)1418；

(2)配置为在处理器1410内部(例如，与处理器1410在相同管芯上)的高速缓存1419和/或配置为在处理器外部(例如，在与处理器1410相同的或者不同的封装中)的一个或多个高速缓存1447-1449的DRAM；以及

(3)作为大容量存装置应用的闪速存储器/磁盘/光盘(未示出)；以及

(4)作为固件存储器应用的诸如闪速存储器或其它只读存储器(ROM)的存储器(其可以指引导ROM、BIOS闪存和/或TPM闪存)(未示出)。

近存储器1421是在远存储器1422前配置的中间级存储器，其可以具有相对于远存储器的较低读取/写入访问等待时间和/或更对称的读取/写入访问等待时间(即，具有与写入时间大致等效的读取时间)。在一些实施例中，近存储器1421具有比远存储器1422显著低的写入等待时间，但具有类似(例如，稍低或相等)的读取等待时间；例如，近存储器1421可以是诸如易失性随机存取存储器(VRAM)的易失性存储器，并且可以包括DRAM或其它基于高速电容器的存储器。然而，注意到本发明的基本原理不限于这些特定存储器类型。另外，近存储器1421可以具有相对较低的密度和/或可能比远存储器1422更昂贵以制造。

在一个实施例中，近存储器1421配置在远存储器1422和内部处理器高速缓存1420之间。在下面描述的一些实施例中，近存储器1421配置为一个或多个存储器侧高速缓存(MSC)1447-1449以掩蔽远存储器的性能和/或使用限制，包括例如地址监视和同步限制、读取/写入等待时间限制和存储器降级限制。在这些实现中，MSC 1447-1449和远存储器1422的组合以近似、等效或超过仅使用DRAM作为系统存储器的系统的性能级来操作。如下面详细讨论的，尽管在处理系统1401中示出为“高速缓存”，但是近存储器1421可以包括模式(在其中它或除了执行高速缓存的角色外执行其它角色，或者代替执行高速缓存的角色而执行其它角色)。

近存储器1421可位于处理器管芯上(如高速缓存1419)上和/或位于处理器管芯外部(如高速缓存1447-1449)(例如在位于CPU封装上、位于CPU封装外具有到CPU封装的高带宽链路的独立管芯上，例如，在存储器双列直插式存储器模块(DIMM)、提升板(riser)/夹层或计算机主板上)。近存储器1421可以可操作地耦合以使用诸如双倍数据速率(DDR)或其它高带宽链路的单个或多个高带宽链路与处理器1410通信。

处理系统1401示出了各种级高速缓存1456-1457、1466、1476-1477、1486、1418-1419和1447-1449如何在本发明的实施例中相对于系统物理地址(SPA)空间1436-1439来配置。如提到的，此实施例包括具有一个或多个核1450、1460、1470和1480的处理器1410，其中每个核分别具有其自己的专用高级高速缓存(LI)1456、1466、1476和1486，以及共享中间级高速缓存(MLC)(L2)高速缓存1457和1477。处理器1410还包括共享LLC 1418。处理器1410另外包括监视地址状态存储装置(MASS)1455、1465、1475和1485，其各自分别存储最后监视地址1453、1463、1473和1483以及最后监视地址的关联的状态1454、1464、1474和1484。类似地，近存储器1421可以可选地包括MASS1445，MASS1445分别存储(例如，高速缓存1419和/或1447-1449的)最后监视地址1443和最后监视地址的关联状态1444。

处理器1410还可选地包括一个或多个模型特定寄存器(MSR)MSR 1411和/或MSR1451、MSR 1461、MSR 14571和MSR 1481以被配置处于第一执行状态(例如，用户-MWAIT-使能状态)来指定对处理器1410的用户级线程同步架构的支持。执行核1450、1460、1470和1480具有对应的MASS1455、1465、1475和1485以存储多个执行线程中的每个(其发布MONITOR请求)的最后监视地址。高速缓冲存储器(例如L1 1456、1466、1476和1486)可以记录针对存储器存储位置的地址的关联状态(例如，1454、1464、1474和1484)和MONITOR请求(例如，在MASS1455、1465、1475和1485中)。处理器核1401的实施例还可以包括用于执行MONITOR和MWAIT指令来提供用户级线程同步的流水线级(例如，如流水线400中所示的)。

当所述一个或多个MSR(例如，可选地MSR 1411和/或MSR 1451、MSR 1461、MSR1471和MSR 1481)被配置(例如，通过IA32_MISC_ENABLE MSR)处于第一执行状态时，响应于从用户级的执行线程接收到对于地址的MONITOR请求，处理器1410逻辑(例如，MASS1455、1465、1475和1485)存储地址(例如，在1453、1463、1473或1483中)并且(例如L1 1456、1466、1476和1486)记录针对与执行线程关联的多个执行核(例如，核1450、1460、1470和1484)中的第一执行核的监视地址状态存储装置的关联状态(例如，在1454、1464、1474或1484中)。进一步响应于从执行线程接收到对于地址的MWAIT请求，处理器1410逻辑(例如，MASS1455、1465、1475和1485或LI 1456、1466、1476和1486)记录与所述执行线程关联的所述第一执行核(例如，分别为核1450、1460、1470或1480)的监视地址状态的关联的等待-到–触发状态(例如，在1454、1464、1474或1484中)。此外，当所述一个或多个MSR(例如，可选地MSR 1411和/或MSR 1451、MSR 1461、MSR 14571和MSR 1481)被配置(例如通过IA32_MISC_ENABLEMSR)处于第一执行状态(例如，用户-MWAIT-使能状态)时，响应于从执行线程接收到所述MWAIT请求，第一执行核可以将执行线程转变到优化的睡眠状态(例如，C1睡眠状态)。

因此，将意识到，响应于一个或多个MSR，例如，MSR 1411(并且可选地MSR 1451、MSR 1461、MSR 14571和/或MSR 1481)被配置(例如通过IA32_MISC_ENABLE MSR)处于具体执行状态(例如，用户-MWAIT-使能状态)来指定对处理器1410的用户级线程同步架构的支持，可以使用针对MONITOR和MWAIT指令的指令和处理逻辑来提供用户级线程同步，而不要求精心设计的硬件支持和/或设计努力。

图15示出了提供利用MONITOR和MWAIT指令的用户级线程同步的过程1501的一个实施例的流程图。本文公开的过程1501和其它过程通过处理框来执行，所述处理框可以包括专用硬件或软件或固件操作代码，所述专用硬件或软件或固件操作代码由通用机器或由专用机器或由两者的组合可执行。

在处理框1510开始，一个或多个模型特定寄存器(MSR)配置成处于第一执行状态以指定对处理器的用户级线程同步架构的支持。在处理框1520，接收来自多个执行线程的执行线程的对于地址的MONITOR请求。在处理框1530，多个执行线程的执行线程的最后监视地址被存储在与多个执行核对应的监视地址状态存储装置(MASS)中。在处理框1535，进行确定是否存在MWAIT请求。如果否，则处理返回到处理框1530。但是如果是，则处理继续到处理框1540，其中对于监视地址从执行线程接收MWAIT请求。在处理框1550，等待-到-触发状态被记录为与关联执行线程和执行核的监视地址关联。在处理框1560，无论何时所述一个或多个MSR被配置处于第一执行状态，响应于从关联的执行线程接收到所述MWAIT请求，第一执行核被准许将执行线程转变成/保持在优化的睡眠状态。在处理框1565，进行确定是否已经执行了匹配监视地址的写入操作。如果否，则执行重复在处理框1560开始。否则，当执行匹配写入时，处理继续到处理框1570，在其中空闲状态被记录为与监视地址关联。在处理块1580，监视唤醒事件被发送到与MWAIT请求关联的核。

将意识到，通过使用上面指令来提供利用MONITOR和MWAIT操作的用户级线程同步，处理器中的一个或多个模型特定寄存器(MSR)可以被配置处于用户-MWAIT-使能执行状态中以指定对用户级线程同步架构的支持。实施例包括多个硬件线程或处理核；对应的监视地址状态存储装置(MASS)，用以存储发布MONITOR请求的多个执行线程中的每个的最后监视地址；以及存储器，用以记录针对存储器存储位置的地址的关联状态和MONITOR请求。响应于接收到对于地址的MWAIT请求，记录与MWAIT请求关联的一个或多个执行核的监视地址的关联的等待-到-触发状，当所述一个或多个MSR被配置处于用户-MWAIT-使能执行状态时，响应于接收到MWAIT请求，执行核要将一个或多个请求线程转变到优化的睡眠状态(例如，C1睡眠状态)。

在一些实施例中，允许用户应用转变到轻权重睡眠状态(例如仅C1)，同时仅保留针对处于0(零)特权级的MWAIT请求的到更深睡眠状态的转变。

因此，将意识到，用户级线程同步可以使用针对MONITOR和MWAIT指令的处理逻辑和指令来提供，而不要求精心设计的硬件支持和/或设计努力。此外，可以避免由于使用MONITOR和MWAIT的线程同步和/或功率管理(其可能先前已经涉及系统调用)的任何性能降级，并且可以减小任何产生的瓶颈和/或对线程同步和/或功率管理的性能的不利影响，而不要求不必要的复杂性和设计努力。还将意识到，如果可能，在过程1501的一些备选实施例中以及本文公开的任何其它过程中，被示出为以具体顺序执行的处理块也可以以另一顺序执行，或者同时执行，或者彼此并行执行。

本文公开的机制的实施例可以在硬件、软件、固件或此类实现方法的组合中实现。本发明的实施例可以被实现为在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置和至少一个输出装置的可编程系统上执行的计算机程序或程序代码。

程序代码可以应用于输入指令以执行本文所描述的功能并生成输出信息。可以以已知的方式将输出信息应用于一个或多个输出装置。为了本申请的目的，处理系统包括具有处理器(诸如，例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器)的任何系统。

程序代码可以以高级过程或面向对象的编程语言来实现以与处理系统通信。如果期望，程序代码还可以用汇编或机器语言来实现。事实上，本文描述的机制的范围不限于任何具体的编程语言。在任何情况下，语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现，所述代表性指令表示处理器内的各种逻辑，所述逻辑当由机器读时使得机器制造逻辑以执行本文所描述的技术。称为“IP核”的此类表示可以存储在有形的，机器可读介质上，并且供应给各种客户或制造设施以加载到实际制作逻辑或处理器的制造机器中。

此类机器可读存储媒体可以包括但不限于由机器或装置制造或形成的物品的非暂时性、有形布置，包括存储媒体(诸如硬盘、任何其它类型的盘(包括软盘、光盘、紧凑盘只读存储器(CD-ROM)、可重写紧凑盘(CD-RW)和磁光盘))、半导体装置(诸如只读存储器(ROM)、随机存取存储器(RAM)(诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡)或适合于存储电子指令的任何其它类型的媒体。

相应地，本发明的实施例还包括包含指令或包含诸如硬件描述语言(HDL)的设计数据的非暂时性有形机器可读媒体，其定义结构、电路、设备、处理器和/或本文描述的系统特征。此类实施例也可以被称为程序产品。

在一些情况下，指令转换器可用于将指令从源指令集转换为目标指令集。例如，指令转换器可以转化(例如，使用静态二进制转化，包括动态编译的动态二进制转化)、变形、仿真或以其它方式将指令转换为要由核处理的一个或多个其它指令。指令转换器可以以软件、硬件、固件或其组合来实现。指令转换器可以在处理器上、处理器外或部分在处理器上且部分在处理器外。

因此，公开了用于根据至少一个实施例执行一个或多个指令的技术。虽然已经在附图中描述和示出了某些示范性实施例，但是要理解，此类实施例仅仅是对广义发明的说明而不是限制，并且此发明不限于所示和所描述的特定构造和布置，因为本领域普通技术人员在研究本公开时可以想起各种其它修改。在诸如此类的技术领域中(其中成长快并且不容易预见进一步进展)，所公开的实施例可以在布置和细节上容易地可修改，如在不脱离本公开的原理或随附权利要求的范围的情况下通过实现技术进步所促进的。

Claims

1.一种处理器，包括：

一个或多个模型特定寄存器MSR，要被配置处于第一执行状态以指定对所述处理器的用户级线程同步架构的支持；以及

多个执行核，具有对应的监视地址状态存储装置以存储发布MONITOR请求的多个执行线程中的每个的最后监视地址，

其中，所述处理器当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述用户级的执行线程接收到对于地址的MONITOR请求，要存储所述地址并且记录与所述执行线程关联的所述多个执行核中的第一执行核的所述监视地址状态存储装置的关联状态；以及，进一步响应于从所述执行线程接收到对于所述地址的MWAIT请求，要记录与所述执行线程关联的所述第一执行核的所述监视地址状态的关联的等待-到-触发状态；以及

其中，当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，所述第一执行核要将所述执行线程转变到优化的睡眠状态，

其中，所述优化的睡眠状态是由EAX寄存器的位7：4从对所述第一执行核可用的多个C状态中选择的睡眠状态。

2.根据权利要求1所述的处理器，其中，所述优化的睡眠状态是对所述第一执行核可用的多个C状态中的最轻权重睡眠状态。

3.根据权利要求2所述的处理器，其中对所述第一执行核可用的所述多个C状态中的最轻权重睡眠状态是C1状态。

4.根据权利要求1所述的处理器，其中所述一个或多个MSR要仅由操作系统配置成所述第一执行状态。

5.根据权利要求1所述的处理器，其中，当所述一个或多个MSR未配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，所述第一执行核要触发无效操作码异常。

6.一种用于线程同步的方法，包括：

将一个或多个模型特定寄存器MSR配置成处于第一执行状态以指定对处理器的用户级线程同步架构的支持；以及

当执行线程要发布MONITOR请求时，在与多个执行核对应的监视地址状态存储装置中存储针对多个执行线程中的所述执行线程的最后监视地址，

其中，所述处理器当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述用户级的执行线程接收到对于地址的MONITOR请求，存储所述地址并且记录与所述执行线程关联的所述多个执行核中的第一执行核的所述监视地址状态存储装置的关联状态，以及，进一步响应于从所述执行线程接收到对于所述地址的MWAIT请求，记录与所述执行线程关联的所述第一执行核的所述监视地址状态的关联的等待-到-触发状态，以及其中，在所述第一执行核中，当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，将所述执行线程转变到优化的睡眠状态，其中，所述优化的睡眠状态是由EAX寄存器的位7：4从对所述第一执行核可用的多个C状态中选择的睡眠状态。

7.根据权利要求6所述的方法，其中，所述优化的睡眠状态是对所述第一执行核可用的多个C状态中的最轻权重睡眠状态。

8.根据权利要求7所述的方法，其中对所述第一执行核可用的所述多个C状态中的最轻权重睡眠状态是C1状态。

9.一种处理系统，包括：

存储器；以及

处理器，包括：

其中，所述处理器当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述用户级的执行线程接收到对于地址的MONITOR请求，要存储所述地址并且记录与所述执行线程关联的所述多个执行核中的第一执行核的所述监视地址状态存储装置的关联状态，以及，进一步响应于从所述执行线程接收到对于所述地址的MWAIT请求，要记录与所述执行线程关联的所述第一执行核的所述监视地址状态的关联的等待-到-触发状态，以及其中，当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，所述第一执行核要将所述执行线程转变到优化的睡眠状态，其中，所述优化的睡眠状态是由EAX寄存器的位7：4从对所述第一执行核可用的多个C状态中选择的睡眠状态。

10.根据权利要求9所述的处理系统，其中，所述优化的睡眠状态是对所述第一执行核可用的多个C状态中的最轻权重睡眠状态。

11.根据权利要求9所述的处理系统，其中对所述第一执行核可用的所述多个C状态中的最轻权重睡眠状态是C1状态。

12.根据权利要求9所述的处理系统，其中所述一个或多个MSR要仅通过操作系统配置成所述第一执行状态。

13.根据权利要求9所述的处理系统，其中，当所述一个或多个MSR未被配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，所述第一执行核要触发无效操作码异常。

14.一种用于执行监视指令和监视-等待指令以提供用户级线程同步的处理器，所述处理器包括：

数据高速缓存；

指令高速缓存；

指令获取电路，所述指令获取电路要从所述指令高速缓存获取所述监视指令和所述监视-等待指令；

指令解码电路，所述指令解码电路要将所获取的监视指令和监视-等待指令解码；

模型特定寄存器，要被配置处于用户-监视-等待-使能执行状态以使所述监视指令和所述监视-等待指令能够在特权级被执行，其中当所述模型特定寄存器没有被配置处于所述用户-监视-等待-使能执行状态时，所述监视指令和所述监视-等待指令的执行被限制于所述特权级零；以及

执行电路，所述执行电路要执行所述监视指令和所述监视-等待指令，其中

所述监视指令要指定要被监视的线性地址范围，所述线性地址范围具有用于所述数据高速缓存中的高速缓存的回写存储器类型，

所述监视-等待指令要向所述处理器指示进入用于功率管理的取决于实现方式的优化状态，所述执行电路配置成检测对所述线性地址范围的存储操作，以及

如果响应于所述监视-等待指令的执行而进入用于功率管理的所述取决于实现方式的优化状态，则保持用于功率管理的所述取决于实现方式的优化状态直到检测到对所述线性地址范围的所述存储操作，其中用于功率管理的所述依赖于实现方式的优化状态是对所述处理器可用的多个睡眠状态中的一个睡眠状态。

15.根据权利要求14所述的处理器，其中所述一个睡眠状态是第一睡眠状态，并且其中所述多个睡眠状态还包括第二睡眠状态，所述第二睡眠状态被保留用于所述监视-等待指令在所述特权级零的执行。

16.根据权利要求15所述的处理器，其中所述第二睡眠状态是比所述第一睡眠状态更深的睡眠状态。

17.根据权利要求14到16中任一项所述的处理器，其中所述一个睡眠状态是C1睡眠状态。

18.根据权利要求14到16中任一项所述的处理器，其中所述取决于实现方式的优化状态是由EAX寄存器的位7：4从多个可用的睡眠状态中选择的睡眠状态。

19.一种用于执行监视指令和监视-等待指令以在处理器中提供用户级线程同步的方法，所述方法包括：

将模型特定寄存器配置成处于用户监视-等待-使能状态以使所述监视指令和所述监视-等待指令能够在特权级被执行，其中当所述模型特定寄存器没有被配置处于所述用户-监视-等待-使能执行状态时，所述监视指令和所述监视-等待指令的执行被限制于所述特权级零；

在指令高速缓存中存储所述监视指令；

从所述指令高速缓存获取所述监视指令；

解码所述监视指令；

执行所述监视指令以指定要被监视的线性地址范围，所述线性地址范围具有用于数据高速缓存中的高速缓存的回写存储器类型

在所述指令高速缓存中存储所述监视-等待指令；

从所述指令高速缓存获取所述监视-等待指令；

解码所述监视-等待指令；

执行所述监视-等待指令以向所述处理器指示进入用于功率管理的取决于实现方式的优化状态；

检测对所述线性地址范围的存储操作；以及

通过执行电路响应于检测到对所述线性地址范围的所述存储操作，退出用于功率管理的所述取决于实现方式的优化状态，

其中用于功率管理的所述取决于实现方式的优化状态是对所述处理器可用的多个睡眠状态中的一个睡眠状态。

20.根据权利要求19所述的方法，其中所述一个睡眠状态是第一睡眠状态，并且其中所述多个睡眠状态还包括第二睡眠状态，所述第二睡眠状态被保留用于所述监视-等待指令在所述特权级零的执行。

21.根据权利要求20所述的方法，其中所述第二睡眠状态是比所述第一睡眠状态更深的睡眠状态。

22.根据权利要求19到21中任一项所述的方法，其中所述一个睡眠状态是C1睡眠状态。

23.根据权利要求19到21中任一项所述的方法，其中所述取决于实现方式的优化状态是由EAX寄存器的位7：4从多个可用的睡眠状态中选择的睡眠状态。

24.一种机器可读有形介质，所述机器可读有形介质存储当被机器执行时促使所述机器执行根据权利要求19到23中任一项所述的方法的指令。

25.一种用于线程同步的设备，所述设备包括：

用于将一个或多个模型特定寄存器MSR配置成处于第一执行状态以指定对处理器的用户级线程同步架构的支持的部件；以及

用于当执行线程要发布MONITOR请求时，在与多个执行核对应的监视地址状态存储装置中存储针对多个执行线程中的所述执行线程的最后监视地址的部件，

其中，所述处理器当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述用户级的执行线程接收到对于地址的MONITOR请求，存储所述地址并且记录与所述执行线程关联的所述多个执行核中的第一执行核的所述监视地址状态存储装置的关联状态，以及，进一步响应于从所述执行线程接收到对于所述地址的MWAIT请求，记录与所述执行线程关联的所述第一执行核的所述监视地址状态的关联的等待-到-触发状态，以及其中，在所述第一执行核中，当所述一个或多个MSR被配置处于所述第一执行状态时，响应于从所述执行线程接收到所述MWAIT请求，将所述执行线程转变到优化的睡眠状态，

26.根据权利要求25所述的设备，其中，所述优化的睡眠状态是对所述第一执行核可用的多个C状态中的最轻权重睡眠状态。

27.根据权利要求26所述的设备，其中对所述第一执行核可用的所述多个C状态中的最轻权重睡眠状态是C1状态。

28.一种机器可读有形介质，所述机器可读有形介质存储当被机器执行时促使所述机器执行根据权利要求6到8中任一项所述的方法的指令。

29.一种用于执行监视指令和监视-等待指令以在处理器中提供用户级线程同步的设备，所述设备包括：

用于将模型特定寄存器配置成处于用户监视-等待-使能状态以使所述监视指令和所述监视-等待指令能够在特权级被执行，其中当所述模型特定寄存器没有被配置处于所述用户-监视-等待-使能执行状态时，所述监视指令和所述监视-等待指令的执行被限制于所述特权级零的部件；

用于在指令高速缓存中存储所述监视指令的部件；

用于从所述指令高速缓存获取所述监视指令的部件；

用于解码所述监视指令的部件；

用于执行所述监视指令以指定要被监视的线性地址范围的部件，所述线性地址范围具有用于数据高速缓存中的高速缓存的回写存储器类型；

用于在所述指令高速缓存中存储所述监视-等待指令的部件；

用于从所述指令高速缓存获取所述监视-等待指令的部件；

用于解码所述监视-等待指令的部件；

用于执行所述监视-等待指令以向所述处理器指示进入用于功率管理的取决于实现方式的优化状态的部件；

用于检测对所述线性地址范围的存储操作的部件；以及

用于通过执行电路响应于检测到对所述线性地址范围的所述存储操作，退出用于功率管理的所述取决于实现方式的优化状态的部件，

其中用于功率管理的所述依赖于实现方式的优化状态是对所述处理器可用的多个睡眠状态中的一个睡眠状态。

30.根据权利要求29所述的设备，其中所述一个睡眠状态是第一睡眠状态，并且其中所述多个睡眠状态还包括第二睡眠状态，所述第二睡眠状态被保留用于所述监视-等待指令在所述特权级零的执行。

31.根据权利要求30所述的设备，其中所述第二睡眠状态是比所述第一睡眠状态更深的睡眠状态。

32.根据权利要求29-31中任一项所述的设备，其中所述一个睡眠状态是C1睡眠状态。

33.根据权利要求29-31中任一项所述的设备，其中所述取决于实现方式的优化状态是由EAX寄存器的位7：4从多个可用的睡眠状态中选择的睡眠状态。