CN108027750A

CN108027750A - 乱序提交

Info

Publication number: CN108027750A
Application number: CN201680053724.XA
Authority: CN
Inventors: D·C·伯格; A·L·史密斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-09-19
Filing date: 2016-09-12
Publication date: 2018-05-11
Also published as: EP3350697A1; US20170083343A1; WO2017048606A1

Abstract

所公开的技术可以用于乱序执行并且提交基于块的处理器架构的指令块。在所公开的技术的一个示例中，一种装置可以包括多个基于块的处理器核，多个基于块的处理器核可以包括第一组核和第二组核。第一组核可以被配置为以顺序的程序次序提交指令块集合中的指令块。第二组核可以被配置为相对于顺序的程序次序而乱序提交指令块集合中的指令块。

Description

乱序提交

背景技术

由于摩尔定律所预测的持续的晶体管扩展，微处理器已经从晶体管数的持续增加、集成电路成本、制造资本、时钟频率、以及能量效率中收益，而相关的处理器指令集架构(ISA)却很小变化。然而，从在过去40年里驱动半导体工业的光刻扩展实现的益处正在放缓或者甚至反转。精简指令集计算(RISC)架构已经成为处理器设计中的主导典范很多年。乱序超标量实现尚未在面积或性能方面展现出持续改进。因此，存在对于扩展性能改进的处理器ISA改进的足够机会。

发明内容

公开了用于在基于块的处理器指令集架构(BB-ISA)中乱序执行并且提交指令块的方法、装置以及计算机可读存储设备。所描述的技术和工具能够潜在地改进处理器性能，并且可以彼此分离地被实现，或者彼此各种组合被实现。如下面将更充分地描述的，所描述的技术和工具可以被实现在以下各项中：数字信号处理器、微处理器、专用集成电路(ASIC)、软处理器(例如，使用可重新配置逻辑被实现在现场可编程门阵列(FPGA)中的微处理器核)、可编程逻辑、或者其他适合的逻辑电路。如对于本领域的普通技术人员而言将容易地明显的，所公开的技术可以被实现在各种计算平台中，包括但不限于服务器、大型机、手机、智能电话、PDA、手持式设备、手持式计算机、触摸屏平板设备、平板计算机、可穿戴计算机、以及膝上型计算机。

在所公开的技术的一些示例中，基于块的处理器架构的指令块可以被乱序执行并且被提交。例如，一种装置可以包括多个基于块的处理器核，多个基于块的处理器核可以包括第一组核和第二组核。第一组核可以被配置为以顺序的程序次序提交指令块集合中的指令块。第二组核可以被配置为相对于顺序的程序次序而乱序提交指令块集合中的指令块。

提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征，其也不旨在用于限制要求保护的主题的范围。所公开的主题的前述和其他目标、特征以及优点将从参考附图进行的以下具体实施方式变得更加明显。

附图说明

图1图示了如可以在所公开的技术的一些示例中使用的包括多个处理器核的基于块的处理器。

图2图示了如可以在所公开的技术的一些示例中使用的基于块的处理器核。

图3图示了根据所公开的技术的某些示例的多个指令块。

图4图示了源代码和相应的指令块的部分。

图5图示了如可以在所公开的技术的一些示例中使用的基于块的处理器头部和指令。

图6是图示基于块的处理器中的处理器核的状态的进展的示例的流程图。

图7是如可以在所公开的技术的一些示例中使用的图示示例编译器方法的流程图。

图8是图示按序提交指令块的示例的示图。

图9是图示乱序提交指令块的示例的示图。

图10是如可以在所公开的技术的一些示例中使用的图示基于块的处理器和存储器的示图。

图11至图13是如可以在所公开的技术的一些示例中执行的在基于块的处理器中乱序执行并且提交指令块的示例方法的流程图。

图14是图示用于实现所公开的技术的一些实施例的适合的计算环境的块图。

具体实施方式

I.总体考虑

在未旨在以任何方式进行限制的代表性实施例的上下文中阐述了本公开内容。

如在本申请中所使用的，除非上下文清楚地指明，否则单数形式“一”、“一种”和“该”包括复数形式。此外，术语“包括”意味着“包含”。而且，术语“耦合的”涵盖机械的、电的、磁性的、光学的以及将多个项耦合或链接在一起的其他实际方式，并且不排除耦合项之间的中间元件的存在。另外，如在此所使用的，术语“和/或”意味着短语中的任何一项或多项的组合。

在此所描述的系统、方法和装置不应当以任何方式被解释为限制性的。相反，本公开涉及彼此单独并且以各种组合和子组合的各种所公开的实施例的所有新颖和非显而易见的特征和方面。所公开的系统、方法和装置既不限于任何特定方面或者特征或者其组合，所公开的内容和方法也不要求任何一个或多个特定优点存在或者问题被解决。此外，所公开的实施例的任何特征或者方面可以彼此以各种组合和子组合被使用。

虽然为了方便呈现而以特定顺序的次序描述所公开的方法中的一些方法的操作，但是应当理解，除非特定排序由下面阐述的特定语言所要求，否则说明书的这种方式涵盖重新布置。例如，顺序地描述的操作可以在一些情况下重新布置或者并行地执行。此外，出于简单的缘故，附图可能未示出所公开的内容和方法可以结合其他内容和方法使用的各种方式。此外，说明书有时使用类似“产生”、“生成”、“显示”、“接收”、“发射”、“验证”、“执行”和“发起”的术语来描述所公开的方法。这些术语是所执行的实际操作的高层描述。对应于这些术语的实际操作将取决于特定实现而变化并且是由本领域的普通技术人员容易地可辨别的。

参考本公开的装置或者方法在此所呈现的操作理论、科学原理或者其他理论描述已经出于更好的理解的目的而被提供，并且不旨在范围方面是限制性的。所附的权利要求中的装置和方法不限于以由这样的操作理论所描述的方式实现的那些装置和方法。

所公开的方法中的任一方法可以被实现为被存储在一个或多个计算机可读介质(例如，计算机可读介质(诸如一个或多个光学介质光盘、易失性存储器部件(诸如DRAM或SRAM))或非易失性存储器部件(诸如硬盘驱动器))上并且被执行在计算机(例如，任何商业可获得的计算机，包括智能电话或者包括计算硬件的其他移动设备)上的计算机可执行指令。用于实现所公开的技术的计算机可执行指令中的任一指令以及在所公开的实施例的实现期间创建和使用的任何数据可以被存储在一个或多个计算机可读介质(例如，计算机可读存储介质)上。计算机可执行指令可以是例如专用软件应用或者经由网络浏览器或者其他软件应用(诸如远程计算应用)访问或者下载的软件应用的一部分。这样的软件可以例如在单个本地计算机(例如，作为在任何适合的商业可获得的计算机上执行的代理)上被执行，或者在使用一个或多个网络计算机的网络环境(例如，经由因特网、广域网、局域网、客户端服务器网络(诸如云计算网络)、或者其他这样的网络)中被执行。

为了清晰起见，描述了基于软件的实现的仅某些所选的方面。省略了在本领域中众所周知的其他细节。例如，应当理解，所公开的技术不限于任何特定计算机语言或者程序。例如，所公开的技术可以通过以C、C++、JAVA或者任何其他适合的编程语言来实现。同样地，所公开的技术不限于任何特定计算机或者硬件类型。适合的计算机和硬件的某些细节是众所周知的并且不需要在本公开中被详细阐述。

此外，基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任一方法的计算机可执行指令)中的任一实施例可以通过适合的通信手段被上载、被下载或者被远程访问。这样的适合的通信手段包括例如因特网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或者其他这样的通信手段。

II.对所公开的技术的介绍

超标量乱序微架构采用大量的电路资源来重命名寄存器，以数据流次序调度指令，在误推测之后清理，并且针对精确异常引退结果。这包括昂贵的能量消耗电路，诸如深的许多端口的寄存器文件、用于数据流指令调度唤醒的许多端口的内容可访问存储器(CAM)、以及许多宽总线复用器和旁路网络，所有的这些都是资源密集的。例如，多读取、多写入RAM的基于FPGA的实现通常要求复制、多循环操作、时钟加倍、组交错、实况值表和其他昂贵技术的混合。

所公开的技术可以通过应用包括高指令集并行性(ILP)、乱序(out-of-order，OoO)、超标量执行的技术来实现能量效率和/或性能增强，同时避免处理器硬件和相关联的软件二者中的大量的复杂性和开销。在所公开的技术的一些示例中，包括多个处理器核的基于块的处理器使用针对区域和能量有效的高ILP执行所设计的显式数据图形执行(EDGE)ISA。在一些示例中，EDGE架构和相关联的编译器的使用巧妙处理重命名CAM的寄存器的远离和复杂性。在一些示例中，基于块的处理器的相应核可以存储或者高速缓存可以被重复地执行的所取指且译码的指令(诸如循环体)，并且所取指且译码的指令可以被重新使用以潜在地实现减少的功率和/或增加的性能。在一些示例中，重复地执行的指令可以被乱序提交。

在所公开的技术的某些示例中，EDGE ISA可以消除对于一个或多个复杂架构特征的需要，包括寄存器重命名、数据流分析、误推测恢复以及按序引退，同时支持主流编程语言(诸如C和C++)。在所公开的技术的某些示例中，基于块的处理器执行多个(两个或更多个)指令作为原子块。基于块的指令可以被用于以更显式的方式表达程序数据流和/或指令流的语义，这允许改进的编译器和处理器性能。在所公开的技术的某些示例中，显式数据图形执行指令集架构(EDGEISA)包括关于可以用于改进对不适当的控制流指令的检测的程序控制流的信息，从而增加性能、节省存储器资源和/或以及节省能量。

在所公开的技术的一些示例中，在指令块内组织的指令原子地被取指、被执行并且被提交。块内的指令以数据流次序被执行，其使用寄存器重命名减少或者消除并且提供功率有效的OoO执行。编译器可以被用于通过ISA显式地编码数据依存性，这减少或者消除负担的处理器核控制逻辑在运行时重新发现依存性。使用所断言的执行，块内分支可以被转换为数据流指令，并且除了存储器依存性之外的依存性可以限于直接数据依存性。所公开的目标形式编码技术允许块内的指令经由操作数缓冲器直接地传递其操作数，这减少对功耗渴望的多端口物理寄存器文件的访问。

在指令块之间，指令可以使用存储器和寄存器来进行通信。因此，通过利用混合数据流执行模型，EDGE架构可以仍然支持命令式编程语言和顺序的存储器语义，但是期望地还享有具有近按序功率效率和复杂性的乱序执行的益处。

如本领域的普通技术人员将容易地理解到，所公开的技术的实现的范围在各种区域、性能和功率折中的情况下是可能的。

III.示例基于块的处理器

图1是如可以被实现在所公开的技术的一些示例中的基于块的处理器100的块图10。处理器100被配置为根据指令集架构(ISA)来执行原子指令块，ISA描述了处理器操作的若干方面，包括寄存器模型、由基于块的指令执行的若干定义操作、存储器模型、中断以及其他架构特征。基于块的处理器包括多个处理器核110，其包括处理器核111。

如在图1中所示，处理器核经由核互连120而彼此连接。核互连120携带数据并且控制核110中的个体核、存储器接口140以及输入/输出(I/O)接口145之间的信号。核互连120可以使用电的、光学的、磁性的或者其他适合的通信技术来发送和接收信号，并且可以取决于特定期望的配置而提供根据若干不同的拓扑布置的通信连接。例如，核互连120可以具有交叉开关、总线、点对点总线、或者其他适合的拓扑。在一些示例中，核110中的任一核可以被连接到其他核中的任一核，而在其他示例中，一些核仅被连接到其他核的子集。例如，每个核可以仅被连接到最近的4、8或20个邻近核。核互连120可以用于将输入/输出数据传送至核以及从核传送输入/输出数据，以及将控制信号和其他信息信号传送至核以及从核传送控制信号和其他信息信号。例如，核110中的每个核110可以接收并且传送指示当前正由相应核中的每个核执行的指令的执行状态的信号量。在一些示例中，核互连120被实现为将核110和存储器系统连接的接线，而在其他示例中，核互连可以包括用于多路复用(一条或多条)互连接线上的数据信号的电路、开关和/或路由部件，包括活跃的信号驱动器和中继器或者其他适合的电路。在所公开的技术的一些示例中，在处理器100内和/或至/来自处理器100的信号不限于全摆幅电数字信号，而是处理器可以被配置为包括差分信号、脉冲信号或者用于传送数据和控制信号的其他适合的信号。

在图1的示例中，处理器的存储器接口140包括被用于连接到附加存储器(例如，被定位在除了处理器100之外的另一集成电路上的存储器)的接口逻辑。如在图1中所示，外部存储器系统150包括L2高速缓存152和主存储器155。在一些示例中，L2高速缓存可以使用静态RAM(SRAM)被实现，并且主存储器155可以使用动态RAM(DRAM)被实现。在一些示例中，存储器系统150被包括在与处理器100的其他部件相同的集成电路上。在一些示例中，存储器接口140包括允许在不使用(一个或多个)寄存器文件和/或处理器100的情况下传送存储器中的数据块的直接存储器访问(DMA)控制器。在一些示例中，存储器接口140可以包括用于管理并且分配虚拟存储器、扩展可用的主存储器155的存储器管理单元(MMU)。

I/O接口145包括用于将输入信号和输出信号接收并且发送到其他部件的电路，诸如硬件中断、系统控制信号、外围接口、协处理器控制和/或数据信号(例如，用于图形处理单元、浮点协处理器、物理处理单元、数字信号处理器或者其他协处理部件的信号)、时钟信号、信号量或者其他适合的I/O信号。I/O信号可以是同步的或者异步的。在一些示例中，I/O接口的全部或部分结合存储器接口140使用存储器映射的I/O技术被实现。

基于块的处理器100还可以包括控制单元160。控制单元160监督处理器100的操作。可以由控制单元160执行的操作可以包括对核的分配和去分配以用于执行指令处理；对任何核、寄存器文件、存储器接口140和/或I/O接口145中之间的输入数据和输出数据的控制；对执行流的修改；以及验证控制流中的分支指令、指令头部和其他改变的(一个或多个)目标位置。控制单元160还可以处理硬件中断，并且控制特殊系统寄存器(例如，被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的一些示例中，控制单元160至少部分地使用处理器核110中的一个或多个核被实现，而在其他示例中，控制单元160使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实现。在一些示例中，控制单元160至少部分地使用以下各项中的一项或多项被实现：硬连线有限状态机、可编程微代码、可编程门阵列或者其他适合的控制电路。在备选示例中，可以由核110中的一个或多个核来执行控制单元功能。

控制单元160包括用于将指令块分配到处理器核110的调度器。如在此所使用的，调度器分配涉及用于引导指令块的操作的硬件，包括发起指令块映射、取指、译码、执行、提交、中止、空闲以及刷新指令块。在一些示例中，硬件接收使用计算机可执行指令所生成的信号，以引导指令调度器的操作。处理器核110在指令块映射期间被指派到指令块。指令操作的叙述阶段出于说明性目的，并且在所公开的技术的一些示例中，某些操作可以被组合、被省略、被分离为多个操作，或者被添加附加操作。

基于块的处理器100还包括时钟发生器170，其将一个或多个时钟信号分布到处理器内的各种部件(例如，核110、互连120、存储器接口140和I/O接口145)。在所公开的技术的一些示例中，所有部件共享共同时钟，而在其他示例中，不同的部件使用不同的时钟(例如，具有不同的时钟频率的时钟信号)。在一些示例中，时钟的一部分被选通以在处理器部件中的一些部件未被使用时允许功率节省。在一些示例中，时钟信号使用锁相环(PLL)被生成以生成具有固定的恒定频率和占空比的信号。接收时钟信号的电路可以在单个边沿(例如，上升沿)上被触发，而在其他示例中，接收电路中的至少一些电路通过上升和下降时钟沿而被触发。在一些示例中，时钟信号可以光学地或无线地被传输。

IV.示例基于块的处理器核

图2是如可以在所公开的技术的某些示例中使用的进一步详述用于基于块的处理器100(并且特别地，基于块的处理器核之一的实例)的示例微架构的块图200。为了便于解释，示例性的基于块的处理器核被图示有五个阶段：指令取指(IF)、译码(DE)、操作数取回、执行(EX)以及存储器/数据访问(LS)。然而，本领域的普通技术人员将容易地理解到，对所图示的微架构的修改(诸如添加/移除阶段、添加/移除执行操作的单元、以及其他实现细节)可以被修改为适合用于基于块的处理器的特定应用。

如在图2中所示，处理器核111包括控制单元205，其可以从其他核接收控制信号，并且生成控制信号来调节核操作并且使用指令调度器调度核内的指令流。控制单元205可以包括用于检查核状态和/或配置处理器核111的操作模式的控制状态207。可以由控制单元205和/或指令调度器206执行的操作可以包括对核的分配和去分配以用于执行指令处理；对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元205还可以处理硬件中断，并且控制特殊系统寄存器(例如，被存储在一个或多个寄存器文件中的程序计数器)的读取和写入。在所公开的技术的其他示例中，控制单元205和/或指令调度器206使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实现。在一些示例中，控制单元205、指令调度器206和/或控制状态207至少部分地使用以下各项中的一项或多项被实现：硬连线有限状态机、可编程微代码、可编程门阵列、或者其他适合的控制电路。

控制状态207可以包括用于修改和/或检查指令块的模式和/或状态和/或核状态(诸如参考图6下面更详细地描述的核状态)的控制状态寄存器或者其他逻辑。作为示例，核状态可以指示指令块是否被映射到核111或者核111的指令窗口(例如，指令窗口210、211)、指令块是否驻留在核111上、指令块是否执行在核111上、指令块是否准备提交、指令块是否正执行提交、以及指令块是否空闲。作为另一示例，指令块的状态可以包括指示指令块是所执行的最旧的指令块的标记或者标志以及指示指令块正推测地执行的标志。

控制状态寄存器(CSR)可以被映射到被保留用于由基于块的处理器使用的唯一存储器位置。例如，控制单元160的CSR可以被指派到第一地址范围，存储器接口140的CSR可以被指派到第二地址范围，第一处理器核可以被指派到第三地址范围，第二处理器核可以被指派到第四地址范围，等等。在一个实施例中，CSR可以使用基于块的处理器的通用存储器读取和写入指令而被访问。附加地或者备选地，CSR可以使用用于CSR的特定读取和写入指令(例如，指令具有与存储器读取和写入指令不同的操作码)而被访问。因此，一个核可以通过从对应于不同核的CSR的地址进行读取来检查不同核的配置状态。类似地，一个核可以通过写入到对应于不同核的CSR的地址来修改不同核的配置状态。以这种方式，一个核可以检查不同核的控制状态207，并且一个核可以修改不同核的控制状态207或者模式。

控制状态207可以包括用于将核配置和/或重新配置为在不同的操作模式中操作的寄存器或者其他逻辑，如在此进一步描述的。例如，控制状态207可以包括通过CSR可写入的控制寄存器位，其使得模式能够允许驻留的指令块乱序提交。特别地，当控制位被编程有一值(例如，一)时，指令块可以乱序提交，但是当控制位编程有相反值(例如，零)时，指令块仅能按序提交。因此，核111可以被配置并且被重新配置为通过控制该控制位的值来按序或者乱序提交。

作为另一示例，控制状态207可以包括通过CSR可写入的计数器，其表示重复或者刷新驻留的指令块的次数。例如，计数器可以编程有刷新驻留的指令块的次数，并且计数器可以在每次驻留指令块被刷新时被递减。当计数器为非零并且驻留的指令块的当前实例提交时，驻留的指令块可以被刷新(指令块的新实例可以被创建)。附加地或者备选地，重复控制位可以被用于确定驻留的指令块是否可以被刷新。例如，编程第一值(例如，一)可以将核111配置为在其提交时刷新指令块，并且编程第二值(例如，零)可以将核111配置为在其提交时不刷新指令块。驻留的指令块内的指令可以被用于确定驻留的指令块是否将被刷新，并且因此可以被用于对重复控制位进行编程。

示例处理器核111包括两个指令窗口210和211，其中的每个指令窗口可以被配置为执行指令块。在所公开的技术的一些示例中，指令块是基于块的处理器指令的原子集合，其包括指令块头部以及多个一个或多个指令。如下面将进一步讨论的，指令块头部包括可以被用于进一步定义指令块内的多个指令中的一个或多个指令的语义的信息。取决于所使用的特定ISA和处理器硬件，还可以在指令的执行期间使用指令块头部，并且通过例如允许对指令和/或数据的早期取回、改进的分支预测、推测的执行、指令块的自动刷新、乱序提交指令块、改进的能量效率以及经改进的代码紧密性，来改进执行指令块的性能。在其他示例中，不同的数目的指令窗口是可能的，诸如一个、四个、八个或其他数目的指令窗口。

指令窗口210和211中的每个指令窗口可以从输入端口220、221和222(其连接到互连总线)中的一个或多个输入端口以及指令高速缓存227(其进而连接到指令译码器228和229)接收指令和数据。附加的控制信号还可以在附加的输入端口225上被接收。指令译码器228和229中的每个指令译码器对指令头部和/或用于指令块中的指令进行译码，并且将所译码的指令存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216内。

处理器核111还包括耦合到L1(第一级)高速缓存235的寄存器文件230。寄存器文件230存储用于在基于块的处理器架构中定义的寄存器的数据，并且可以具有一个或多个读端口和一个或多个写端口。例如，寄存器文件可以包括用于将数据存储在寄存器文件中的两个或更多个写端口，以及具有用于从寄存器文件内的个体寄存器读取数据的多个读端口。在一些示例中，单个指令窗口(例如，指令窗口210)可以一次访问寄存器文件的仅一个端口，而在其他示例中，指令窗口210可以访问一个读端口和一个写端口，或者可以同时访问两个或更多个读端口和/或写端口。在一些示例中，寄存器文件230可以包括64个寄存器，寄存器中的每个寄存器保持32位的数据的字。(除非另外指定，否则本申请将把32位的数据称为字)。在一些示例中，寄存器文件230内的寄存器中的一些寄存器可以被分配为特殊目的。例如，寄存器中的一些寄存器可以被专用作系统寄存器示例，其包括存储常量值(例如，所有零字)、(一个或多个)程序计数器(PC)(其指示正被执行的程序线程的当前地址)、物理核数目、逻辑核数目、核分配拓扑、核控制标志、处理器拓扑或者其他适合的专用目的的寄存器。在一些示例中，存在多个程序计数器寄存器、一个或每个程序计数器，以允许跨一个或多个处理器核和/或处理器的多个执行线程的并发执行。在一些示例中，程序计数器被实现为指定存储器位置，而不是寄存器文件中的寄存器。在一些示例中，系统寄存器的使用可以由操作系统或者其他监督式计算机指令进行限制。在一些示例中，寄存器文件230被实现为触发器阵列，而在其他示例中，寄存器文件可以使用锁存器、SRAM或者其他形式的存储器存储装置被实现。针对给定处理器(例如，处理器100)的ISA规格指定寄存器文件230内的寄存器如何被定义并且被使用。

在一些示例中，处理器100包括由多个处理器核共享的全局寄存器文件。在一些示例中，与处理器核相关联的个体寄存器文件可以被组合以静态地或者动态地形成较大的文件，这取决于处理器ISA和配置。

如在图2中所示，指令窗口210的存储器存储库215包括若干译码的指令241、左操作数(LOP)缓冲器242、右操作数(ROP)缓冲器243以及指令记分板245。在所公开的技术的一些示例中，指令块中的每个指令被分解为一行译码的指令、左操作数和右操作数和记分板数据，如在图2中所示。译码的指令241可以包括被存储为位级控制信号的指令的部分或者完全译码的版本。操作数缓冲器242和243存储操作数(例如，从寄存器文件230接收到的寄存器值、从存储器接收到的数据、在指令内编码的中间操作数、由较早发出的指令计算的操作数、或者其他操作数值)，直到其相应的译码的指令准备好执行。指令操作数从操作数缓冲器242和243被读取，而不是寄存器文件。

第二指令窗口211的存储器存储库216存储类似的指令信息(译码的指令、操作数和记分板)作为存储器存储库215，但是出于简单的原因在图2中未示出。指令块可以关于第一指令窗口由第二指令窗口211并发地或者顺序地执行，这受制于ISA约束并且如由控制单元205引导。

在所公开的技术的一些示例中，前端流水线阶段IF和DE可以从后端流水线阶段(IS、EX、LS)运行去耦合。在一个实施例中，控制单元可以每时钟周期将两个指令取指并且译码到指令窗口210和211中的每个指令窗口中。在备选实施例中，控制单元可以每时钟周期将一个、四个或者另一数目的指令取指并且译码到对应数目的指令窗口中。控制单元205使用记分板245来提供指令窗口数据流调度逻辑以监测每个译码的指令的输入(例如，每个相应指令的(一个或多个)断言和(一个或多个)操作数)的就绪状态。当针对特定译码的指令的所有输入就绪时，指令准备好发出。控制逻辑205然后每周期发起一个或多个下一指令(例如，最低编号的就绪指令)的执行，并且其译码指令和输入操作数被发送到功能单元260中的一个或多个功能单元以用于执行。译码的指令还可以对若干就绪事件进行编码。控制逻辑205中的调度器接受来自其他源的这些和/或事件，并且更新窗口中的其他指令的就绪状态。因此执行从处理器核的111个就绪零输入指令开始，继续以零输入指令为目标的指令等。

译码指令241不需要以其被布置在指令窗口210的存储器存储库215内的相同次序被执行。相反，指令记分板245用于追踪译码的指令的依存性，并且当依存性已经被满足时，相关联的个体译码指令被调度用于执行。例如，当依存性已经针对相应指令被满足时，对相应指令的参考可以被推送到就绪队列上，并且指令可以从就绪队列以先进先出(FIFO)次序被调度。被存储在记分板245中的信息可以包括但不限于相关联的指令的执行断言(诸如指令是否正等待要被计算的断言位，并且在断言位是真或者假的情况下指令是否执行)、操作数对于指令的可用性、或者在执行相关联的个体指令之前所要求的其他前提条件。

在一个实施例中，记分板245可以包括：译码就绪状态，其由指令译码器228初始化；以及活跃就绪状态，其在指令的执行期间由控制单元205初始化。例如，译码就绪状态可以编码相应指令是否已经被译码、等待断言和/或一些操作数(也许经由广播信道)、或者立即准备发出。活跃就绪状态可以编码相应指令是否等待断言和/或一些操作数、是准备发出还是已经发出。译码就绪状态可以在块重置或者块刷新时被清除。在分支到新指令块时，译码就绪状态和活跃就绪状态被清除(块或核被重置)。然而，当指令块在核上被重新执行时(诸如当其分支回到其自身(块刷新))，仅仅活跃就绪状态被清除。块刷新可以立即发生(当指令块分支到自身)，或者在执行若干其他中间指令块之后发生。指令块的译码就绪状态可以因此被保留，使得其不需要重新取指并且译码块的指令。因此，块刷新可以用于节省循环和其他重复程序结构中的时间和能量。

被存储在每个指令窗口中的指令的数目通常对应于指令块内的指令的数目。在一些示例中，指令块内的指令的数目可以是32、64、128、1024或者另一数目的指令。在所公开的技术的一些示例中，跨处理器核内的多个指令窗口分配指令块。在一些示例中，指令窗口210、211可以被逻辑分区，使得多个指令块可以在单个处理器核上被执行。例如，可以在一个核上执行一个、两个、四个或者另一数目的指令块。相应的指令块可以彼此并发地或者顺序地被执行。

指令可以使用被定位在处理器核111内的控制单元205而被分配并且被调度。控制单元205安排来自存储器的对指令的取指、对执行的译码、在其已经被加载到相应的指令窗口时对指令的执行、进/出处理器核111的数据流，并且控制由处理器核输入和输出的信号。例如，控制单元205可以包括如上文所描述的就绪队列，以用于在调度指令中使用。可以原子地执行被存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216中的指令。因此，对由执行的指令影响的可见架构状态(诸如寄存器文件230和存储器)的更新可以本地缓存在核111内直到指令被提交为止。

控制单元205可以确定指令何时准备好被提交、对提交逻辑进行排序并且发出提交信号。例如，指令块的提交阶段可以在指令块的依存性被满足并且指令块的操作被完成时开始。作为一个示例，指令块的依存性可以在指令块正以顺序的程序次序被提交并且所有先前的指令块已经被提交(例如，当前指令块是最旧的指令块)和/或当核111被配置为乱序提交驻留指令块时被满足。作为另一示例，指令块的操作可以当所有寄存器写入被缓冲、到存储器的所有写入被缓冲并且分支目标被计算时被完成。指令块可以当对可见架构状态的更新被完成时被提交。例如，当寄存器写入被写入到寄存器文件、存储被发送到加载/存储单元或者存储器控制器并且提交信号被生成时，指令块可以被提交。控制单元205还至少部分地控制将功能单元260分配到相应的指令窗口中的每个指令窗口。

如在图2中所示，具有若干执行流水线寄存器255的第一路由器250用于将数据从指令窗口210和211中的任一指令窗口发送到功能单元260中的一个或多个功能单元，其可以包括但不限于整数ALU(算术逻辑单元)(例如，整数ALU 264和265)、浮点单元(例如，浮点ALU 267)、移位/旋转逻辑(例如，桶型移位器268)或者其他适合的执行单元，其可以包括图形功能、物理功能和其他数学操作。来自功能单元260的数据可以然后通过第二路由器270被路由到输出290、291和292，路由返回到操作数缓冲器(例如，LOP缓冲器242和/或ROP缓冲器243)，或者被馈送回到另一功能单元，这取决于特定指令被执行的要求。第二路由器270可以包括：加载/存储队列275，其可以被用于发出存储器指令；数据高速缓存277，其存储正从核被输出到存储器的数据；以及加载/存储流水线寄存器278。

核还包括控制输出295，其用于指示例如指令窗口210或者211中的一个或多个指令窗口的所有指令的执行何时已经完成。当指令块的执行完成时，指令块被指定为“提交的”并且来自控制输出295的信号可以进而可以由基于块的处理器100内的其他核和/或由控制单元160用于发起其他指令块的调度、取指和执行。第一路由器250和第二路由器270二者可以将数据发送回到指令(例如，作为用于指令块内的其他指令的操作数)。

如本领域的普通技术人员将容易理解到，个体核111内的部件不限于图2中所示的那些部件，而是可以根据特定应用的要求而变化。例如，核可以具有更少或更多的指令窗口，单个指令译码器可以由两个或更多个指令窗口共享，并且所使用的功能单元的数目和类型可以取决于用于基于块的处理器的特定目标应用而变化。在利用指令核选择并且分配资源时应用的其他考虑包括性能要求、能量使用要求、集成电路芯片、处理技术和/或成本。

对于本领域的普通技术人员而言将容易明显的，可以通过处理器核110的指令窗口(例如，指令窗口210)和控制逻辑205内的资源的设计和分配来在处理器性能中做出折中。面积、时钟周期、能力和限制实质上确定个体核110的实现性能和基于块的处理器110的吞吐量。

指令调度器206可以具有不同的功能。在某些较高的性能示例中，指令调度器是高并发的。例如，每个周期(一个或多个)译码器将指令的译码就绪状态和译码指令写入到一个或多个指令窗口中，选择要发出的下一个指令，并且作为响应后端发送第二就绪事件——以特定指令的输入槽(断言、左操作数、右操作数等)为目标的任一目标就绪事件或者以所有指令为目标的广播就绪事件。每指令就绪状态位连同译码就绪状态可以用于确定指令准备好发出。

在一些示例中，指令调度器206使用存储装置(例如，先进先出(FIFO)队列、内容可寻址存储器(CAM))被实现，存储装置存储指示被用于根据所公开的技术调度指令块的执行的信息的数据。例如，关于指令依存性的数据、控制的传递、推测、分支预测和/或数据加载和存储被布置在存储装置中，以促进将指令块映射到处理器核中的确定。例如，指令块依存性可以与标签相关联，标签被存储在FIFO或者CAM中并且后续由用来将指令块映射到一个或多个处理器核的选择逻辑进行访问。在一些示例中，指令调度器206使用耦合到存储器的通用处理器被实现，存储器被配置为存储用于调度指令块的数据。在一些示例中，指令调度器206使用专用处理器或者使用耦合到存储器的基于块的处理器核被实现。在一些示例中，指令调度器206被实现为耦合到存储器的有限状态机。在一些示例中，在处理器(例如，通用处理器或者基于块的处理器核)上执行的操作系统生成优先级、断言和其他数据，其可以至少部分地用于利用指令调度器206来调度指令块。如本领域的普通技术人员将容易地理解到，在集成电路、可编程逻辑或者其他适合的逻辑中实现的其他电路结构可以用于实现用于指令调度器206的硬件。

在一些情况下，调度器206接受目标指令的事件，其尚未被译码并且还必须禁止已发出的就绪指令的重新发出。指令可以是非断言的、或者断言的(基于真或假条件)。断言的指令直到其由另一指令的断言结果作为目标时才变得就绪，并且该结果匹配断言条件。如果相邻的断言未匹配，则指令绝不发出。在一些示例中，断言指令可以推测地被发出并且被执行。在一些示例中，处理器可以随后检查推测地发出和执行的指令被正确地推测。在一些示例中，误推测的发出指令和消耗其输出的块中的指令的特定传递闭包可以被重新执行、或者被误推测取消的副作用。在一些示例中，对误推测的指令的发现导致整个指令块的完全回滚和重新执行。

V.示例指令块流

现在转到图3的示图300，图示了基于块的指令流的一部分310，包括若干可变长度指令块311-315(A-E)。指令流可以用于实现用户应用、系统服务或者任何其他适合的用途。在图3中所示的示例中，每个指令块从指令头部开始，其跟随有不同的数目的指令。例如，指令块311包括头部320和二十条指令321。所图示的特定指令头部320包括部分地控制指令块内的指令的执行的若干数据字段，并且还允许改进的性能增强技术，包括例如分支预测、推测执行、惰性评估和/或其他技术。指令头部320还包括指示头部是指令头部而非指令的ID位。指令头部320还包括指令块大小的指示。指令块大小可以处于比一更大的指令的数据块中，例如，被包含在指令块内的4指令数据块的数目。换句话说，块的大小被移动4位以便压缩被分配到指定指令块大小的头部空间。因此，0的大小值指示最小大小的指令块，其是跟随有四条指令的块头部。在一些示例中，指令块大小被表达为字节数、字数、n字数据块数、地址、地址偏移或者使用用于描述指令块的大小的其他适合的表达。在一些示例中，指令块大小由指令块头部和/或脚部中的终止位模式来指示。

指令块头部320还可以包括执行标志，其指示特殊指令执行要求。例如，取决于特定应用，分支预测或者存储器依存性预测可以针对某些指令块被禁止。作为另一示例，头部中的标志可以指示指令块可以乱序被刷新和/或被提交。作为另一示例，头部中的标志可以指示指令块直到指令块被同步时才能执行新的指令块。例如，处理器核可以等待提交或者在提交之后保持在空闲状态中，直到同步信号或者消息被提供到处理器核。例如，可以由不同的处理器核或者控制单元205来提供信号或者消息。

在所公开的技术的一些示例中，指令头部320包括指示编码数据是指令头部的一个或多个标识位。例如，在一些基于块的处理器ISA，最低有效位空间中的单个ID位总是被设定为二进制值1，以指示有效指令块的开始。在其他示例中，不同的位编码可以用于(一个或多个)标识位。在一些示例中，指令头部320包括指示相关联的指令块被编码所针对的ISA的特定版本的信息。

指令块头部还可以包括用于在例如分支预测、控制流确定和/或坏跳检测中使用的若干块退出类型。退出类型可以指示分支指令的类型是什么，例如：顺序分支指令，其指向存储器中的下一相连的指令块；偏移指令，其是相对于偏移而计算的存储器地址处的另一指令块的分支；子例程调用、或者子例程返回。通过编码指令头部中的分支退出类型，分支预测器可以至少部分地在相同指令块内的分支指令已经被取指和/或被译码之前开始操作。

指令块头部320还包括存储掩码，其标识被指派到存储操作的加载存储队列标识符。指令块头部还可以包括写入掩码，其标识相关联的指令块将写入的(一个或多个)全局寄存器。相关联的寄存器文件必须在指令块可以完成之前接收对每个条目的写入。在一些示例中，基于块的处理器架构可以包括不仅标量指令，而且单指令多数据(SIMD)指令，这允许具有单个指令内的较大数目的数据操作数的操作。

VI.示例块指令目标编码

图4是描绘C语言源代码的两个部分410和415及其相应的指令块420和425(以汇编语言)的示例的示图400，这图示了基于块的指令可以如何显式地编码其目标。高级C语言源代码可以通过其目标是基于块的处理器的编译器被转换为低级汇编语言和机器代码。高级语言可以提取出底层计算机架构的许多细节，使得程序员可以聚焦于程序的功能。相反，机器代码根据目标计算机的ISA来编码程序，使得其可以使用计算机的硬件资源在目标计算机上被执行。汇编语言是机器代码的人类可读形式。

在该示例中，前两个READ指令430和431相应地以ADD指令432的右(T[2R])和左(T[2L])操作数为目标。在所图示的ISA中，读指令是从全局寄存器文件读取的唯一指令；然而，任何指令可以以全局寄存器文件为目标。当ADD指令432接收到这两个寄存器读取的结果时，其将变为就绪并且执行。

当TLEI(测试小于等于立即(test-less-than-equal-immediate))指令433从ADD接收其单个输入操作数时，其将变为就绪并且执行。测试然后产生在信道一(B[1P])上广播到在广播信道上监听的所有指令的断言操作数，其在该示例中是两个断言的分支指令(BRO_T434和BRO_F 435)。接收匹配断言的分支将激发。

指令块420的依存性图形440还被图示为指令节点阵列450和其对应的操作数目标455和456。这图示了块指令420、对应的指令窗口条目以及由指令所表示的底层数据流程图之间的对应性。此处，译码指令READ 430和READ 431准备好发出，因为其不具有输入依存性。当其发出并且执行时，从寄存器R6和R7读取的值被写入到ADD432的右操作数缓冲器和左操作数缓冲器中，这使得ADD 432的左操作数和右操作数“就绪”。因此，ADD 432指令变为就绪、发出到ALU、执行，并且之和被写入到TLEI 433的左操作数。

作为比较，传统的乱序RISC或者CISC处理器将使用附加的硬件复杂性、功率、面积并且减少时钟频率和性能来在运行时建立依存性图形。然而，依存性图形在编译时是静态地已知的并且EDGE编译器可以通过ISA直接地编码指令之间的生产者-消费者关系，这使得微架构免于动态地重新发现他们。这可以潜在地实现更简单的微架构，减少面积、功率和升压频率和性能。

VII.示例基于块的指令格式

图5是图示用于指令头部510、通用指令520和分支指令530的指令格式的一般化示例的示图。指令头部或者指令中的每一个根据位数而被标记。例如，指令头部510包括四个32位的字并且从其最低有效位(lsb)(位0)被标记直到其最高有效位(msb)(位127)。如所示出的，指令头部包括写入掩码字段、存储掩码字段、多个退出类型字段、多个执行标志字段、指令块大小字段和指令头部ID位(指令头部的最低有效位)。

退出类型字段包括可以用于指示被编码在指令块内的控制流和/或同步指令的类型的数据。例如，退出类型字段可以指示指令块包括以下各项中的一项或多项：顺序分支指令、偏移分支指令、间接分支指令、调用指令、返回指令、和/或中断指令。在一些示例中，分支指令可以是用于在指令块之间传递控制流的任何控制流指令，包括相对地址和/或绝对地址，并且使用有条件的断言或者无条件的断言。除了确定隐式控制流指令之外，退出类型字段可以用于分支预测和推测执行。在一些示例中，多达六种退出类型可以被编码在退出类型字段中，并且字段与对应的显式或者隐式控制流指令之间的对应性可以通过例如检查指令块中的控制流指令而被确定。

所图示的通用块指令520被存储为一个32位的字，并且包括操作码字段、断言字段、广播ID字段(BID)、第一目标字段(T1)、以及第二目标字段(T2)。对于具有比目标字段更大的消费者的指令而言，编译器可以使用移动指令来构建扇出树，或者其可以将高扇出指令指派到广播。广播支持通过轻量网络将操作数发送到核中的任何数目的消费者指令。广播标识符可以被编码在一般块指令520中。

虽然由通用指令520概述的通用指令格式可以表示由基于块的处理器处理的一些或全部指令，但是本领域的技术人员将容易理解到，即使对于ISA的特定示例而言，指令字段中的一个或多个指令字段也可以偏离用于特定指令的通用格式。操作码字段指定由指令520执行的(一个或多个)操作，诸如存储器读取/写入、寄存器加载/存储、加法、减法、乘法、除法、移位、旋转、系统操作或者其他适合的指令。断言字段指定指令在其下将执行的条件。例如，断言字段可以指定值“真”，并且指令将仅在对应的条件标志匹配指定的断言值的情况下执行。在一些示例中，断言字段至少部分地指定哪一个被用于比较断言，而在其他示例中，执行在由先前指令(例如，指令块中的先前指令)设定的标志上被断定。在一些示例中，断言字段可以指定指令将总是或者绝不被执行。因此，断言字段的使用可以通过减少分支指令的数目来允许更密集的目标代码、改进的能量效率以及改进的处理器性能。

目标字段T1和T2指定基于块的指令的结果被发送到的指令。例如，在指令槽5处的ADD指令可以指定其计算结果将被发送到槽3和10处的指令。取决于特定指令和ISA，所图示的目标字段之一或二者可以由其他信息替换，例如，第一目标字段T1可以由中间操作数、附加操作码、指定两个目标等来替换。

分支指令530包括操作码字段、断言字段、广播ID字段(BID)以及偏移字段。操作码和断言字段在如关于通用指令所描述的格式和功能方面是类似的。偏移可以以四个指令为单位被表达，因此扩展在其上可以执行分支的存储器地址范围。利用通用指令520和分支指令530示出的断言可以用于避免指令块内的附加分支。例如，特定指令的执行可以根据先前指令的结果(例如，两个操作数的比较)被断定。如果断言是假的，则指令将不提交由特定指令计算出的值。如果断言值未匹配所要求的断言，则指令不发出。例如，BRO_F(断言假)指令将发出其是否被发送假断言值。

应当容易理解到，如在此所使用的，术语“分支指令”不限于将程序执行改变到相对存储器位置，而且包括跳跃到绝对或者符号存储器位置、子例程调用和返回，以及可以修改执行流的其他指令。在一些示例中，通过改变系统寄存器(例如，程序计数器PC或者指令指针)的值来修改执行流，而在其他示例中，可以通过修改被存储在存储器中的指定位置处的值来改变执行流。在一些示例中，跳跃寄存器分支指令用于跳跃到被存储在寄存器中的存储器位置。在一些示例中，分别使用跳跃和链接以及跳跃寄存器指令来实现子例程调用和返回。

VIII.处理器核的示例状态

图6是图示基于块的处理器的计算机核的状态600的进展的示例的流程图。基于块的处理器包括共同地用于运行或者执行软件程序的多个处理器核。程序可以以各种高级语言被编写，并且然后使用以基于块的处理器为目标的编译器针对基于块的处理器而被编译。编译器可以发射当在基于块的处理器上被运行或者被执行时将执行由高级程序指定的功能的代码。编译代码可以被存储在可以由基于块的处理器访问的计算机可读存储器中。编译代码可以包括被分组为一系列指令块的指令流。在执行期间，指令块中的一个或多个可以由基于块的处理器执行以执行程序的功能。通常，程序将包括比在任一时间可以在核上执行的指令块更多的指令块。因此，程序的块被映射到相应核，核执行由块指定的工作，并且然后相应核上的块利用不同块被替换直到程序完成。指令块中的一些指令块可以被执行超过一次(诸如在程序的循环或者子例程期间)。可以针对每次指令块将被执行时创建指令块的“实例”。因此，指令块的每个重复可以使用指令块的不同实例。当程序运行时，基于架构约束、可用硬件资源和程序的动态流动，相应的指令块可以被映射到处理器核并且在处理器核上执行。在程序的执行期间，相应的处理器核可以通过状态600的进展进行转变，使得一个核可以处于一个状态并且另一核可以处于不同的状态。

在605处，相应的处理器核的状态可以是未映射。未映射处理器核是当前未被指派以执行指令块的实例的核。例如，处理器核可以在程序开始基于块的计算机上的执行之前是未映射。作为另一示例，处理器核可以在程序开始执行但是并非所有核正被使用之后是未映射的。特别地，程序的指令块至少部分地根据程序的动态流动而被执行。程序的一些部分可以总体上串行地或者顺序地流动(诸如当后续的指令块取决于来自较早的指令块的结果时)。程序的其他部分可以具有更多平行流，诸如当在不使用并行执行的其他块的结果的情况下多个指令块可以同时执行时。较少的核可以用于在程序的更多顺序流期间执行程序，并且较多的核可以用于在程序的更多并行流期间执行程序。

在610处，相应的处理器核的状态可以是映射。映射的处理器核是当前被指派以执行指令块的实例的核。当指令块被映射到特定处理器核时，指令块在运行中。运行中的指令块是以基于块的处理器的特定核为目标的块，并且块将或正在推测地或者非推测地在特定处理器核上执行。特别地，运行中的指令块对应于被映射到状态610-650中的处理器核的指令块。在程序将使用由执行指令块提供的工作的块映射期间块是已知的时，块非推测地执行。在映射程序将使用或将不使用由执行指令块所提供的工作期间块是未知的时，块推测地执行。推测地执行块能够潜在地提高性能(诸如当比在已知块的工作将被使用之后或之时块将被开始的情况下更早地开始推测块时)。然而，推测地执行可以潜在地增加当执行程序时(诸如当推测工作未由程序使用时)使用的能量。

基于块的处理器包括有限数目的同构或者异构处理器核。典型的程序可以包括比可以适配到处理器核上更多的指令块。因此，程序的相应指令块将通常与程序的其他指令块共享处理器核。换句话说，给定核可以在程序的执行期间执行多个不同的指令块中的指令。具有有限数目的处理器核还意味着在所有处理器核忙于执行指令块并且没有新核可用于分派时，程序的执行可以停止或者被延迟。当处理器核变得可用时，指令块的实例可以被映射到处理器核。

指令块调度器可以指派哪个指令块将在哪个处理器核上执行并且指令块何时将被执行。映射可以基于各种因素，诸如将被用于执行的目标能量、处理器核的数目和配置、处理器核的当前和/或先前使用、程序的动态流、推测执行是否被启用、推测块将被执行的置信度水平以及其他因素。指令块的实例可以被映射到当前可用的处理器核(诸如当没有指令块当前正在其上执行时)。在一个实施例中，指令块的实例可以被映射到当前繁忙的处理器核(诸如当核正执行指令块的不同实例时)，并且后续映射的实例可以在较早映射的实例完成时开始。

在620处，相应处理器核的状态可以是取指。例如，处理器核的IF流水线阶段可以在取指状态期间是活跃效的。正被取指的指令块是正从存储器(诸如L1高速缓存、L2高速缓存或者主存储器)传递到处理器核的块。例如，指令块中的指令可以被加载到处理器核的缓冲器或者寄存器。取指状态可以是多个周期长并且可以与在处理器核被流水线化时的译码(630)和执行(630)状态重叠。当指令块中的指令被加载到处理器核上时，指令块驻留在处理器核上。指令块在指令块的一些但非所有指令被加载时部分驻留。指令块在指令块中的所有指令被加载时完全驻留。指令块将驻留在处理器核上，直到处理器核被重置或者不同的指令块被取指到处理器核上。特别地，当核处于状态620-670时，指令块驻留在处理器核中。

在630处，相应的处理器核的状态可以是译码。例如，处理器核的DE流水线阶段可以在取指状态期间是活跃的。在译码状态期间，指令块中的指令正在被译码，使得其可以被存储在处理器核的指令窗口的存储器存储库中。特别地，指令可以从相对地紧凑的机器代码被转换为可以用于控制处理器核的硬件资源的较不紧凑的表示。译码状态可以是多个周期长，并且可以与在处理器核被流水线化时的取指(620)和执行(630)状态重叠。在指令块的执行被译码之后，其可以在指令的所有依存性被满足时被执行。

在640处，相应处理器核的状态可以是执行。在执行状态期间，指令块中的指令正被执行。特别地，处理器核的EX和/或LS流水线阶段可以在执行状态期间是活跃的。指令块可以推测地或者非推测地执行。推测块可以执行到完成或者其可以在完成之前被终止(诸如当确定由推测块执行的工作将不被使用时)。当指令块被终止时，处理器可以转变为中止状态。当确定块的工作将被使用时(例如，所有寄存器写入被缓冲，对存储器的所有写入被缓冲，并且分支目标被计算)，推测块可以完成。当例如所有寄存器写入被缓冲、对存储器的所有写入被缓冲并且分支目标被计算时，非推测块可以执行到完成。执行状态可以是多个周期长，并且可以与在处理器核被流水线化时的取指(620)和译码(630)状态重叠。当指令块完成时，处理器可以转变为提交状态。

在650处，相应的处理器核的状态可以是提交或者中止。在提交期间，指令块的指令的工作可以原子地被提交，使得其他块可以使用指令的工作。特别地，提交状态可以包括其中本地缓冲架构状态被写入到由其他处理器核可见或者可访问的架构状态的提交阶段。当可见架构状态被更新时，提交信号可以被发出并且处理器核可以被释放，使得另一指令块可以在处理器核上被执行。在中止状态期间，核的流水线可以被停止以减少动态功率耗散。在一些应用中，核可以功率选通来减少静态功率耗散。在提交/中止状态的结束处，处理器核可以接收在处理器核上待执行的新的指令块，核可以被刷新，核可以被空闲，或者核可以被重置。

相应处理器核可以被配置为按次序或者乱序提交指令块。例如，处理器核可以包括确定指令块是将按序提交(按序模式)还是乱序提交(乱序模式)的可配置状态。处理器核的默认状态可以是按序提交指令块。如下面进一步描述的，头部编码或者来自另一核的信号可以用于对一个或多个处理器核编程，以针对程序的一部分乱序提交第一组指令块。一个或多个处理器核可以然后重新配置为按序提交第二组指令块(诸如通过在第一组指令块已经被提交时使多个处理器核同步)。

当处理器核被配置为处于按序模式时，指令块将以程序次序被提交。程序次序将根据程序的依存性图形而发生，其中图形的节点是指令块，并且图形的有向边是指令块之间的有序关系(例如，分支)。在单程序线程内，根据基于块的处理器的数据、控制和资源约束，指令块可以以程序次序顺序地被提交。因此，当指令块被按序提交时，如果一个指令块停止(诸如由于与另一线程的资源竞争，或者由于长存储器读取延时)，在停止的指令块之后跟随的指令块(后续按顺序)将在停止的指令块之后被延迟。

在程序的执行期间，可以通过仅允许最旧的指令块提交来维持程序次序。例如，标记可以被用于标识最旧的指令块。特别地，当程序的第一指令块被映射/或被取指时，与第一指令块相关联的处理器核可以接收标记，并且标记可以与处理器核以及指令块相关联，直到块被提交为止。作为一个示例，程序的第一指令块的指令头部可以利用标记被编码。作为另一示例，操作系统和/或指令块调度器可以将标记(诸如经由控制信号或者通过对本地寄存器编程)提供到与第一指令块相关联的处理器核。标记的接收可以通过例如设置处理器核内的本地寄存器而被记录。当具有标记的指令块提交时，标记可以被传递到执行目标指令块(分支目标)的处理器核，并且标记状态可以针对执行提交的处理器而被清除。因此，标记可以遵循沿着依存性图形的边缘的程序次序而从一个指令块被传递到下一指令块。没有标记的指令块可以被延迟或者被阻止提交。例如，后续以程序次序的指令块可以在较早块提交之前推测地被执行，但是后续，推测块可以被延迟提交，直到较早块提交并且将标记传递到后续块。

当处理器核被配置为处于乱序模式时，指令块可以相对于程序次序而被乱序提交。在乱序模式中，当指令块已经完成执行并且提交资源可用时，指令块可以提交，而不需要等待标记。例如，在不影响程序的正确性的情况下，独立的指令块可以被乱序提交。当独立的指令块(例如，在不同的处理器核上)并行执行时，块可以以任何次序提交，而不管其从编译器被发射的次序。因此，在后续独立块之前发射的停止独立块不太可能阻止或者延迟后续独立块的提交。

在660处，可以确定驻留在处理器核上的指令块是否可以被刷新。如在此所使用的，指令块刷新或者处理器核刷新意味着使得处理器核能够重新执行驻留在处理器核上的一个或多个指令块。在一个实施例中，刷新核可以包括重置针对一个或多个指令块的活跃就绪状态。当指令块是循环或者重复的子例程的一部分时或者当推测块被终止并且将被重新执行时，在相同处理器核上重新执行指令块可以是期望的。刷新的决策可以由处理器核自身(连续的重新使用)或者由处理器外部(非连续的重新使用)做出。例如，刷新的决策可以来自另一处理器核或者执行指令块调度的控制核。当与在不同核上执行指令块相反在已经执行指令的核上刷新指令块时，可以存在潜在能量节省。能量被用于对指令块中的指令取指并且译码，但是刷新块可以通过旁路这些状态来节省取指和译码状态中使用的大部分能量。特别地，刷新块可以在执行状态(640)时重新开始，因为已经由核取指并且译码指令。当块被刷新时，译码指令和译码就绪状态可以被维持，同时活跃就绪状态被清除。刷新指令块的决策可以作为提交操作的一部分或在后续时间发生。如果指令块未被刷新，则处理器核可以是空闲的。

在670处，相应的处理器核的状态可以是空闲。基于在给定时间活跃的处理器核的数目，基于块的处理器的性能和功耗可以潜在地被调节或者被折中。例如，如果推测误预测速率很高，则在并行地运行的核上执行推测工作可以增加计算的速度而不是增加功率。作为另一示例，在提交或者中止较早执行的指令块之后立即向处理器地指派新指令块可以增加并行地执行的处理器的数目，但是可以减少重新使用驻留在处理器核上的指令块的机会。重新使用可以在空闲处理器核的高速缓存或者池被维持时增加。例如，当处理器核提交常用的指令块时，处理器核可以被放置在空闲池中，使得核可以在下次相同指令块将被执行时被刷新。如上文所描述的，刷新处理器核可以节省用来对驻留指令块取指和译码的时间和能量。在空闲高速缓存中放置的指令块/处理器核可以基于由编译器执行的静态分析或者由指令块调度器执行的动态分析而被确定。例如，指示指令块的潜在重新使用的编译器提示可以被放置在块的头部中，并且指令块调度器可以使用提示来确定块是将空闲还是在提交指令块之后被重新分配到不同的指令块。当空闲时，处理器核可以被放置在低功率状态中以减少例如动态功率消耗。

在680处，可以确定驻留在空闲处理器核上的指令块是否可以被刷新。如果核要被刷新，则块刷新信号可以被声明并且核可以转变为执行状态(640)。如果核不将被刷新，则块重置信号可以被声明并且核可以转变为未映射状态(605)。当核被重置时，核可以被放入具有未映射核的池中，使得指令块调度器可以将新指令块分配到核。

IX.基于块的编译器方法的示例

图7是图示用于编译到基于块的计算机架构的示例方法700的流程图。方法700可以被实现于在基于块的处理器或者常规处理器上执行的编译器的软件中。编译器可以在一个或多个阶段或者传递中将程序的高级源代码(诸如C、C++或Java)转换为在目标基于块的处理器上可执行的低级目标或者机器代码。机器代码可以被存储到基于块的处理器的存储器中，使得基于块的处理器可以执行程序。

编译器可以生成机器代码作为顺序的指令流，其可以根据基于块的计算机的硬件资源和数据以及代码的控制流而被分组为指令块。例如，给定指令块可以包括单个基本块、基本块的一部分或者多个基本块，只要指令块可以在ISA和目标计算机的硬件资源的约束内被执行。基本块可以是代码块，其中控制可以仅在块的第一指令处进入块，并且控制可以仅在基本块的最后指令处离开块。因此，基本块是一起执行的指令的序列。

在710处，可以标识其中循环的迭代是独立的循环。循环或者迭代语句可以包括控制表达式和循环体。控制表达式可以在执行循环体之前或者之后被评价。循环体可以被重复地执行直到控制表达式被评价为退出条件为止。作为一个示例，C语言中的循环包括for、while和do语句。作为特定示例，for循环可以包括用于设置循环的初始值或者因变量的初始化表达、用于确定循环是否应当退出的控制表达式、用于修改因变量的表达式、以及重复地执行直到控制表达式被满足的循环体。循环可以在编译器的语法分析或者解析阶段被标识，诸如通过检测循环的关键字和语法。

一组规则或者条件可以用于确定循环的不同迭代何时是独立的并且可以并行执行。例如，在不存在第一过程的输入集合和第二过程的输出集合的交叉时、在不存在第二过程的输入集合和第一过程的输出集合的交叉时、并且在不存在第一过程和第二过程的输出集合的交叉时，条件集合可以指示两个过程(例如，循环迭代)是独立的。当程序的加载和存储位置可以由编译器静态地确定时，编译器可以分析程序的每个循环以确定条件集合是否满足并且标识循环迭代是否独立。附加地或者备选地，程序员可以使用编译器指令或者源代码关键字来标识独立的循环迭代。当编译器检测编译器指令或者源代码关键字时(诸如在源代码的语法分析期间)，循环迭代可以被标记为彼此独立。

当具有独立循环迭代的循环被检测到时，循环迭代可以被并行执行并且在不同的处理器核上乱序提交。编译器可以生成并且发射不同的指令块以：初始化或者使得处理器核能够乱序执行并且提交循环迭代(720)；执行并且提交循环体(740)；以及将处理器核同步并且重新配置为按序提交块(750)。通过在不同的处理器核上并行执行并且提交给定循环的独立循环体，完成循环的速度可以潜在地被增加，因为一个停止的循环迭代可能没有阻止其他循环迭代的执行和提交。加速可以与被用于执行循环体的处理器核的数目成正比。作为特定示例，具有1000次迭代的循环可以通过在四个不同的处理器核上执行循环体而加速大约四倍，其中每个处理器核可以执行循环的250次迭代。

在720处，目标代码可以被发射以用于初始化多个基于块的处理器核以乱序执行并且提交循环体迭代。初始化代码可以被发射作为单个指令块或者多个指令块。初始化代码可以包括用于进行以下各项的代码：掩码中断、从存储装置读取数据集、分配存储器、锁定存储器中的页面、确定与执行线程相关联的处理器核的数目和身份、确定可以用于执行循环的处理器核的数目、保留处理器核、配置处理器核、发起处理器核上的执行、和/或设置同步点。包含初始化代码的(一个或多个)指令块可以分支为循环体的(一个或多个)指令块或者包含同步码的(一个或多个)指令块。

中断可以在循环的执行期间被掩码，使得基于块的过程的架构状态可以在中断被服务时处于已知状态。因此，从中断的视角，整个循环将是原子操作。与输入数据集相关联的存储器位置可以从硬盘或者其他存储设备被读取并且被分页到存储器中；存储器可以被分配用于循环的输出集合；以及与输入数据集和输出数据集相关联的存储器可以被锁定在存储器中以减少或者消除在循环期间发生的页面出错的风险。

用于执行循环的核的数目可以基于若干因素，诸如循环的迭代数目、可用于执行线程的处理器核的数目等。用于执行循环的处理器核的数目和身份可以在编译时静态地或者在运行时动态地被确定。例如，发射的目标代码可以包括保留预定处理器核以执行循环的代码。作为另一示例，发射的目标代码可以包括用于确定与当前执行线程相关联的处理器核的数目和身份的代码。例如，代码可以检查存储与线程相关联的特定处理器的数据结构，或者线程标识符可以从处理器核中的一个或多个处理器核的状态被读取并且与当前执行线程的标识符相比较。来自与线程相关联的处理器核的池的处理器核集合可以被保留以执行循环体。例如，保留处理器核可以包括将循环体映射到相应的处理器核。

配置处理器核可以包括在处理器核内设置配置状态。例如，状态可以被配置为实现乱序提交循环体。作为另一示例，计数器可以利用重复循环体的次数被编程，或者重复控制位可以被初始化以实现重复循环体。发射的初始化代码可以包括在处理器核上显式地发起执行的代码，或者处理器核可以在循环体被映射到处理器核之后自动地开始执行。

在730处，可以针对基于块的处理器而调整循环体。例如，处理器核可以包括固定数目的资源，诸如一个或多个指令窗口、固定数目的负载和存储队列条目等。循环体可以具有比在指令窗口内可用的更少的指令。例如，循环体可以包括八条指令并且指令窗口可以具有用于三十二个译码指令的存储容量。调整可以包括通过组合较大的循环体内的循环体的多次迭代而展开循环。通过展开循环，循环体内的指令数目可以被增加，并且指令窗口资源可以潜在地被更高效地利用。作为特定示例，八指令循环体可以展开三或四次以更好地利用具有用于三十二个译码指令的存储容量的指令窗口。

在740处，可以针对多个基于块的处理器核的相应核发射循环体的目标代码。所发射的代码可以是包括指令头部和一个或多个指令的指令块。指令头部可以包括控制信息，诸如实现乱序提交的标志、迭代次数、同步目标地址等。与每个核相关联的循环体的目标代码可以相同或者不同。例如，迭代次数可以针对不同的相应处理器核而不同，诸如当迭代次数不是由用来执行循环体的处理器核的数目均匀地可除时。循环体可以分支为同步块或者可以在循环的所有迭代被提交时停止。

在750处，目标代码可以被发射以用于同步和/或拆除多个基于块的处理器核。例如，同步和拆除代码可以被发射作为单个指令块。同步可以包括创建同步屏障以使得正乱序执行并且提交循环体的多个处理器核同步。例如，同步可以包括等待执行循环体的所有处理器核完成。作为一个示例，与执行循环体的处理器核中的每个处理器核相关联的处理状态可以被轮询，直到所有处理器核的状态空闲为止。作为另一示例，执行循环体的处理器核中的每个处理器核可以将信号或者消息发送到同步核，并且当信号或者消息从所有处理器核被接收时，同步码可以继续。拆除多个基于块的处理器核可以包括将多个核重新配置为按序提交指令块(诸如通过改变核的配置状态)。拆除多个基于块的处理器核还可以包括使得核能够执行其他指令块。

在760处，所发射的目标代码可以被存储在计算机可读存储器或者存储设备中。例如，所发射的目标代码可以被存储到基于块的处理器的存储器中，使得基于块的处理器可以执行程序。作为另一示例，所发射的目标代码可以被加载到存储设备(诸如基于块的处理器的硬盘驱动器)，使得基于块的处理器可以执行程序。

IX.在执行期间的基于块的处理器的示例

如上文所描述的，针对基于块的处理器编译的程序可以包括指令块的序列。为了运行基于块的处理器上的程序，基于架构约束、可用硬件资源以及程序的动态流，相应的指令块可以被映射到个体处理器核并且在个体处理器核上执行。当所有指令块以程序次序(按序)被提交时，程序将被正确地执行，但是性能可能比可能的性能更小。通过乱序提交指令块中的一些指令块，性能可以增加，同时仍然正确地执行程序。为了图示潜在的加速，图8图示了按序提交指令块的示例并且图9图示了乱序提交指令块的示例。图10图示了乱序提交指令块的进一步的方面(诸如指令块可以如何被映射到基于块的处理器和存储器的示例)。

图8是图示按序提交指令块的示例的时序图。作为特定示例，短程序可以包括指令块A、C_i以及E。程序的程序结构或者数据流图180示出了程序从无条件地分支为指令块C_i的指令块A开始，其可以循环回到自身或者分支为指令块E。指令块C_i是循环体并且其可以重复地执行n次，其中n是大于零的整数。循环体的不同的实例可以被映射到不同的指令窗口和/或处理器核，使得不同的实例的执行可以被重叠以减少完成程序的时间。

在时间820，指令块A可以由第一处理器核来取指(IF)。处理器核可以对指令块A的(一个或多个)个体指令进行译码(DE)和执行(EX)。应当注意，当处理器核被流水线化时，特定指令块的IF、DE和EX阶段可能重叠(例如，第一指令可以处于IF阶段，第二指令可以处于DE阶段，以及第三指令可以处于EX阶段)。当指令块A的所有指令完成时，在时间830，指令块A可以被提交(CT)。在时间840，指令块C_i(C₀)的初始迭代可以被取指。如所示出的，块C₀的取指可以与指令块A的译码和执行并行发生(诸如通过将指令块C₀映射到与用来执行指令块A的指令窗口或者处理器核不同的指令窗口或者处理器核)。应当注意，为了便于说明，未针对指令块C₀和后续块示出译码和执行阶段。在时间850，指令块C₀可以被提交。

如所图示的，指令块C_i(C₁)的下一次迭代比指令块C₀花费更多时间来完成。例如，指令块C₁可能由于与另一指令块冲突的资源或者由于对存储器的较多的访问次数(诸如由于高速缓存未命中)而被延迟。指令块C₁在时间860提交。当块按序提交时，后续按序的所有块将在指令块C₁之后停止。因此，即使指令块C₂在时间870完成执行并且准备好提交，块C₂也直到块C₁提交之后才能提交。例如，块C₂在时间880提交。指令块E直到C_i循环体的所有迭代完成之后(诸如在时间890)才能提交。

图9是图示乱序提交指令块的示例的时序图。在该示例中，针对可以乱序提交指令块的基于块的处理器，编译包括指令块A、Ci以及E的短程序。指令块B和D可以被添加以支持乱序执行。特别地，指令块B可以包括用于使得C_i块的不同的实例能够被乱序提交的指令，并且指令块D可以包括用于同步执行C_i块的核并且将核重新配置为按序提交指令块的指令。程序的数据流程图910示出了指令块的关系。在一个实施例中，指令块B可以分支为C_i指令块的实例，其可以分支为指令块D。在备选实施例中，指令块B可以发起C_i指令块的实例的执行并且然后分支为指令块D。

指令块A和B可以按序提交。指令块B可以包括使得C_i块的不同实例被乱序提交并且发起C_i实例的执行的指令。当循环的不同的迭代彼此独立时，在不影响程序的正确性的情况下，C_i循环体可以被乱序提交。如所图示的，C_i实例可以在m个不同的处理器核上被并行执行，其中每个处理器核执行n/m次迭代。例如，第一处理器核可以执行迭代0、m、……n-m，并且第二处理器核可以执行循环体C_i的迭代1、m+1、……n-m+1。在特定处理器核上的循环体的初始迭代期间，核将通过取指、译码、执行和提交阶段来转变。使用处理器核的刷新能力，特定处理器核上的后续迭代可以在未重新取指和重新译码的情况下执行并且提交指令块。因此，循环可以通过没有执行用于后续迭代的取指和译码阶段而使用较少能量在较少时间内被执行。通过乱序提交循环实例，一个指令块的停止可能对循环的后续迭代产生较少的影响。例如，当实例C₀被延迟并且直到时间920才能提交时，在不同的处理器核上执行的实例C₁可以在时间930处的实例C₀之前提交。

指令块D可以用于使得执行C_i循环体的不同处理器核进行同步。例如，指令块D可以等待所有循环迭代在时间940完成。指令块D可以将执行C_i循环体的m个处理器核重新配置为按序提交指令。指令块D可以在时间940之后的时间950提交。

图10是图示基于块的处理器1000和存储器1010的示例的示图。基于块的处理器1000可以包括用于执行被存储在存储器1010中的指令块1015(例如，指令块A-E)的多个同构或者异构处理器核1005(例如，核0-核N)。基于块的处理器1000可以包括具有用于调度处理器核1005上的指令块1015的指令块调度器1025的控制单元1020。在一些实施例中，控制单元1020可以至少部分地使用以下各项中的一项或多项被实现：硬连线有限状态机、可编程微代码、可编程门阵列、或者其他适合的控制电路。在一个实施例中，控制单元1020可以是运行执行基于块的处理器1000的控制功能(诸如指令块调度)的指令块的处理器核1005之一。在另一实施例中，外部指令块调度器1030(例如，执行调度代码的芯片上或者芯片外处理器)可以用于调度处理器核1005上的指令块。核1005和控制单元1020可以彼此通信。

存储器1010是由基于块的处理器1000可读取且可写入的。存储器1010可以包括例如基于块的处理器1000上的嵌入式存储器、第1级(L1)高速缓存、L2高速缓存、主存储器以及次级存储。存储器1010可以包括包含在基于块的处理器1000上要被执行的指令块1015的一个或多个程序、程序数据(未示出)，以及用于管理基于块的处理器1000的硬件资源的数据结构。例如，被存储在存储器1010中的数据结构可以包括将开始位置存储到指令块的指令块地址表1040、存储指令块到处理器核的映射的指令块映射表1050、可用于运行指令块的处理器的空闲池(未示出)、具有驻留指令块的空闲处理器核的可重新使用池(未示出)、以及其他数据结构。当确定哪些指令块可以被调度或者被分配到哪些处理器核1005时，指令块调度器1025可以参考并且操纵这些数据结构。

指令块调度器1025(或1030)可以分配处理器核1005，使得一个或多个程序可以在基于块的处理器1000上被执行。例如，指令块调度器1025可以将程序的指令块分配到空闲的处理器核1005中的一个或多个处理器核。程序的指令块可以在程序正被执行时被分配到处理器核1005，因此程序的指令块的仅一部分可以在任何给定时间处驻留在处理器核1005上。作为特定示例，短程序可以包括具有数据流图1060的指令块A-E。如在图10中所示，指令块调度器1025已经分配一个处理器核以执行指令块A-B，分配两个处理器核以执行指令块C的多次迭代，以及分配一个处理器核以执行指令块D。在该示例中，多个指令块可以被调度到给定处理器核。例如，处理器核可以具有用于多达128个译码指令的存储(其还可以被分为具有多达32个译码指令的存储的指令块槽或者指令窗口)。因此，给定处理器核可以顺序地或者并发地执行一个指令块到四个指令块。可以期望的是，将指令块封装为较少的处理器核，使得更多指令块可以在基于块的处理器1000上一次被加载并且被执行。

特别地，处理器核0、指令窗口0被分配用于块A，并且处理器核0、指令窗口1被分配用于块B(块A和B驻留在核0上)。处理器核1和2被分配用于指令块C，指令块C是循环体。特别地，处理器核1、指令窗口0被分配用于块C的第一实例(C₀)，处理器核1、指令窗口1被分配用于块C的第二实例(C₁)，处理器核2、指令窗口0被分配用于块C的第三实例(C₂)，以及处理器核2、指令窗口1被分配用于块C的第四实例(C₃)。循环体C的实例中的每个实例可以用于执行循环体C的一次或多次迭代。例如，如果循环具有1000次迭代，则C₀可以用于执行250次迭代，C₁可以用于执行250次迭代，C₂可以用于执行250次迭代，以及C₃可以用于执行250次迭代。循环体C的实例中的每个实例可以针对初始迭代之后的每次迭代被刷新，使得在不对循环体C重新取指并且重新译码的情况下，循环体C被重复地执行并且提交。因此，例如，当在给定指令窗口上执行循环体250次时，可以针对249次迭代节省与取指和译码循环体相关联的时间和能量。

指令块B可以包括用于使得块C的循环迭代乱序提交的初始化代码。例如，块B的指令可以包括加载和/或保留用于循环的物理存储器的指令。作为特定示例，指令可以读取与循环的输入集合相关联的存储器位置和/或分配用于循环的输出集合的存储器，使得由块C使用的所有存储器位置驻留在物理存储器中(例如，使得块C的输入集合和输出集合未被移出页面)。例如，与循环相关联的位置可以通过编程被存储在存储器中的一个或多个页表项和/或编程MMU的寄存器(诸如通过写入到MMU的CSR)而被锁定在物理存储器中，使得存储器将未被换出。

块B的指令可以包括将循环体C的一次或多次迭代固定到(pin)一个或多个处理器核和/或指令窗口的指令。将指令块固定到核包括分配核以执行指令块并且保持指令块驻留在核上，直到拆除条件被满足为止。将指令块固定到核可以包括通过其CSR编程核和/或与指令块调度器1025通信和协调。作为特定示例，指令块调度器1025可以被查询以确定哪些核是可用的(例如，空闲)和/或哪些核可以被分配(例如，哪些核与执行线程相关联)。基于查询的结果，一组核可以被选择以执行循环体。所选择的一组核可以被放置在保留列表中，使得块调度器1025未重新分配核。所选择的核可以通过写入到其CSR而被配置。配置可以包括：使得所选择的核能够乱序提交指令，定义在相应核上重复地执行指令块的次数，和/或使得核能够在循环迭代完成时停止。如所图示的，执行块B的核0可以将核1和2配置为重复地执行循环体C的不同实例，并且乱序提交实例。

程序可以包括将被按序提交的部分和将被乱序提交的部分。例如，程序段A-B和D-E可以被按序提交(例如，在核0和3上(1006))并且循环体C的迭代可以被乱序提交(例如，在核1和2上(1007))。乱序部分可以以各种方式与按序部分同步。作为一个示例，指令块B可以发起循环体C的执行并且分支为指令块D，其被编程为同步点或者屏障。作为另一示例，指令块B可以发起循环体C的执行，分支为循环体C的实例之一，其可以分支为被编程为同步点的指令块D。指令块D可以被分配到空闲指令窗口，诸如核0、指令窗口0(当块A已经被提交时)或者核3(如在图10中所示出的)。乱序执行循环体C的多个核可以执行并且提交，直到其到达拆除条件为止(诸如例如当最大数目的迭代被提交时)。执行循环体C的核中的每个核可以在拆除条件处停止执行，直到核被重新配置为对新指令块进行取指。

指令块D可以包括用于创建同步点的指令。作为一个示例，同步码可以确定与执行循环体C的处理器核中的每个处理器核相关联的处理状态。特别地，对应于处理器核中的每个处理器核的处理状态的CSR可以被轮询，直到所有处理器核的状态空闲。作为另一示例，执行循环体C的处理器核中的每个处理器核可以将信号或者消息发送到执行同步码的处理器核。当信号或者消息从所有处理器核被接收时，同步码可以继续。作为另一示例，当核已经完成执行循环体C的所有迭代时，执行循环体C的处理器核中的每个处理器核可以将特定值写入到针对核保留的存储器位置。当对应于核的所有存储器位置包含特定值时，同步块D可以确定所有核完成。总之，当所有处理器核完成乱序执行时，拆除条件可以被满足，并且乱序执行循环体C的处理器核可以被拆除。

指令块D可以包括用于拆除执行循环体C的处理器核的指令。拆除处理器核可以包括将核重新配置为按序提交指令块(诸如通过写入到处理器核的CSR以改变核的配置状态)。拆除多个基于块的处理器核还可以包括使得核能够执行其他指令块。例如，核可以从指令块调度器1025的保留列表被移除。换句话说，循环体C可以从处理器核不被固定，使得不同的指令块可以在处理器核上被执行。

X.重新使用译码指令的示例方法

图11是图示在基于块的处理器中乱序执行并且提交指令块的方法1100的示例的流程图。例如，指令块可以在基于块的处理器上正执行的执行程序线程内。程序可以包括可以由操作系统管理的一个或多个线程。每个线程可以独立于其他线程而执行，直到线程的共享同步点被遇到为止。如在此所描述的，单线程内的指令块可以潜在地实现多线程性能(诸如通过使得线程的指令块能够乱序执行)。该性能增加可以在没有操作系统介入的情况下并且在没有由超标量处理器使用的复杂的乱序硬件机制的情况下发生。

在1110处，可以可选地标识可用于执行给定线程的指令块的一组处理器核。作为一个示例，每个处理器可以包括用于存储线程标识符的可编程状态，并且与处理器核中的每个处理器核相关联的线程标识符可以与针对给定线程的线程标识符相比较。作为另一示例，基于块的处理器的控制单元可以存储针对与被存储在基于块的处理器的存储器中的数据结构中的给定线程相关联的每个核的标识符。可用的处理器核可以通过从被存储在存储器中的数据结构读取信息而被标识。

在1120处，第一组处理器核可以被配置为乱序执行并且提交第一组指令块。例如，第一组处理器核可以选自在1110处所标识的一组处理器核。作为另一示例，第一组处理器核可以由编译器或者程序员预定义。作为又一示例，第一组处理器核可以由初始化代码块动态地分配。特别地，可以存在被保留直到由分配命令请求的空闲处理器核的池或高速缓存，并且第一组处理器核可以从该池被分配。

第一组指令块可以包括给定循环体的不同实例，使得循环的不同的迭代可以在不同的处理器上并行执行。循环体可以执行循环的单次迭代，或者循环可以展开，使得每个循环体可以执行循环的多次迭代。作为另一示例，第一组指令块可以包括独立于彼此但是不是循环的一部分的指令块组。

第一组处理器核可以至少部分地通过执行不是第一组指令块的一部分的指令块而被配置。例如，指令块可以包括配置代码，并且执行配置代码的核可以经由被发送到第一组处理器核的信号和/或消息与第一组处理器核通信。核的配置可以包括设置配置状态，使得块可以乱序提交指令块。核的配置可以包括利用与刷新或者重复地执行指令块的次数成正比的数目来加载计数器。

第一组处理器核可以至少部分地通过译码第一组指令块中的指令块的头部而被配置。例如，头部可以包括关于要被乱序执行的指令块的标志和其他信息。作为特定示例，指令块头部可以包括：指示指令块可以乱序提交的标志；执行并且提交指令块的迭代次数；和/或指示块在完成执行指令块时将被同步的标志。

未在第一组处理器核中的其他处理器核还可以被配置为准备第一组处理器核以乱序执行并且提交指令块的一部分。例如，可以针对给定线程中的所有处理器核来对中断进行掩码。作为另一示例，同步指令块可以被配置为监视并且等待第一组处理器核完成乱序提交指令块。

在1130处，可以在第一组处理器核上发起第一组指令块的执行。例如，执行配置和/或初始化代码的处理器核可以通过将信号或消息发送到第一组处理器核中的每一个处理器核以开始执行来发起执行。特别地，核可以在相应核在1120处被配置之后发起对每个相应核的执行，或者执行可以在同步块被配置之后被发起。作为另一示例，第一组指令块可以通过向第一组处理器核提供第一组指令块中的一个或多个指令块的(一个或多个)地址而被发起，使得执行块的核可以通过从存储器取指指令块来发起执行。

一旦被发起，第一组指令块就可以乱序执行并且提交，直到终止条件被满足(诸如当编程的迭代次数被完成时)。例如，配置核可以包括利用要执行的期望的迭代次数加载重复计数器，并且重复计数器可以在每次块被提交时被递减。对于每次迭代而言，指令块可以被刷新，使得块未被重新取指并且重新译码。刷新块可以包括重置活跃就绪状态，同时未重置译码就绪状态。通过刷新块，与将指令块加载到不同的核相比较，可以节省将用于重新取指并且重新译码块的时间和能量。核可以停止操作和/或发送指示核已经完成块的所有迭代的信号。

在1140处，可以确定第一组处理器核是否完成乱序执行并且提交第一组指令块。例如，可以执行包括同步码的指令块。同步块可以在初始化块和/或第一组指令块中的一个或多个指令块分支为同步块时执行。同步块可以被配置为按序提交并且等待所有的第一组指令块完成其所有迭代。因此，程序线程不能继续经过同步块，直到第一组指令块完成为止。例如，当核完成乱序执行块时，同步块可以从核接收消息和/或信号。附加地或者备选地，同步块可以读取乱序执行块的核的状态以确定相应核是否完成。同步块可以将已完成的核与正在执行的核相比较以确定所有核是否完成。一旦所有核完成，第一组处理器核就可以被拆除。例如，拆除第一组处理器核可以包括将第一组处理器核重新配置为按序提交指令块。同步可以完成并且程序线程可以被释放以在第一组处理器核已经被拆除之后继续按序执行。

在1150处，第一组处理器核可以被重新配置为按序提交第二组指令块。例如，第二组指令块可以是在具有独立迭代的循环之后的一组指令。重新配置第一组处理器核可以包括执行同步和/或拆除指令块的指令以改变第一组处理器核的配置状态。例如，执行同步和/或拆除代码的核可以将信号或者消息发送到第一组处理器核以执行重新配置。作为另一示例，当核完成乱序执行块时，第一组处理器核可以被自动地重新配置。特别地，第一组处理器核中的相应核可以被重新配置为在重复计数器到达零时按序执行指令块。

图12是图示在基于块的处理器中乱序执行并且提交指令块的示例方法1200的流程图。在1210处，可以确定与给定执行线程相关联的处理器核。在一个实施例中，基于块的处理器可以利用单个程序计数器被施加单个线程。因此，基于块的处理器的所有处理器核可以与给定执行线程相关联。在备选实施例中，基于块的处理器可以支持多个线程的执行，其中每个线程具有线程标识符以及与线程相关联的程序计数器。不同的核可以被指派到不同的线程。核可以在程序的执行的开始被指派到线程，或者在程序被执行时动态地被指派到线程。如上文所描述的，核到线程的映射可以包括记录由基于块的处理器可访问的存储器中的数据结构中的映射和/或将线程标识符写入到个体核的寄存器。可以通过找到共享与执行线程相同的线程标识符的核中的一个或多个核来确定与给定线程相关联的核。

在1220处，与循环相关联的指令块可以被固定到与给定执行线程相关联的处理器核的多个指令窗口。通常，指令块可以被映射到处理器核和/或基于块的处理器的指令窗口。基于块的大小、核的能力(例如，指令窗口的数目)、核的配置以及对齐考虑，多个块可以被映射到单个核。相同指令块的不同的实例可以被映射到不同的处理器核和/或相同的处理器核的不同指令窗口。将指令块固定到指令窗口可以包括将块映射或者分配到指令窗口并且防止块被驱逐，直到块从指令窗口显式地移除(例如，拆除和/或重新映射)，诸如通过同步块的指令。将指令块固定到指令窗口可以包括配置指令窗口的一个或多个方面，诸如指定在指令窗口上重复地执行指令块的次数。

在1230处，可以使得所固定的指令块能够乱序提交。例如，可以使得所固定的指令块能够通过在不同的处理器核上执行的初始化代码的指令而乱序提交。作为另一示例，所固定的指令块的指令头部可以包括乱序提交块的标志，并且可以使得块能够通过将指令头部逻辑译码而乱序提交。

当被执行时，所固定的指令块可以相对于程序次序而乱序提交。因此，多个指令窗口的不同指令窗口可以独立于彼此提交循环的不同的迭代。作为比较，循环迭代1000次并且按序提交将以0、1、2……999的次序提交迭代。迭代2的停止可能引起提交所有后续迭代中的延迟(例如，3并且更大的)。相反，例如，循环迭代1000次并且乱序提交可以以1、0、3、5、2……999、997、998的次序提交迭代。迭代2的停止可能引起提交在与迭代2相同的指令窗口上执行的所有后续迭代中的延迟，在不同的指令窗口上执行的迭代可以不受迭代2的停止影响。因此，与循环被按序提交时相比较，循环可以当乱序提交时潜在地更快地执行。

在1240处，同步屏障可以被创建以使得与给定执行线程相关联的处理器核的多个指令窗口同步。一般而言，当程序执行的流针对程序的两个顺序部分之间的程序部分被并行化时，可以创建同步屏障。特别地，同步屏障可以用于在程序的共同点(例如，指令块)处返回结合并行流。因此，程序不能执行经过同步屏障，直到所有并行执行流完成，并且同步屏障释放程序以继续执行经过同步屏障。同步屏障可以包括确定与多个指令窗口中的指令窗口中的每个指令窗口相关联的状态的代码。例如，同步屏障可以确定所有指令窗口是否完成乱序执行并且乱序提交所固定的指令块。例如，可以通过从对应于指令窗口的核读取配置状态、通过从指令窗口接收信号或者消息、和/或通过读取由指令窗口和同步屏障共享的存储器位置，来确定指令窗口的状态。例如，同步屏障可以发布程序以通过执行到另一指令块的分支指令来继续执行经过同步屏障。

图13是图示在基于块的处理器中乱序执行并且提交指令块的示例方法1300的流程图。在1310处，在第一指令块的执行期间，可以确定第一指令块将提交并且执行第二指令块的任何依存性被完成。例如，执行第二指令块的依存性可以通过编译器被编码在第一指令块的指令头部中。执行第一指令块的核可以监视执行第二指令块的依存性的该状态，并且当依存性被完成时，在1320处，第二指令块的执行可以被发起。第二指令块可以在正执行第一指令块的相同核的不同指令窗口中执行，或者第二指令块可以在不同的核上执行。第二指令块可以完成执行，并且在1330处，第二块可以在第一指令块之前提交。因此，第二块可以非推测地执行并且乱序提交(例如，在第一指令块之前)。

XI.示例计算环境

图14图示了在其中可以实现所描述的实施例、方法和技术(包括基于块的处理器中的坏跳跃检测)的适合的计算环境1400的一般示例。例如，计算环境1400可以实现用于验证分支指令目标位置的所公开的技术，如在此所描述的。

计算环境1400不旨在提出关于技术的使用或者功能的范围的任何限制，因为技术可以被实现在不同的通用或者专用计算环境中。例如，所公开的技术可以利用其他计算机系统配置被实现，包括手持式设备、多处理器系统、可编程消费者电子产品、网络PC、微型计算机、大型计算机，等等。所公开的技术还可以被实践在分布式计算环境中，其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块(包括用于基于块的指令块的可执行指令)可以被定位在本地存储器存储设备和远程存储器存储设备二者中。

参考图14，计算环境1400包括至少一个基于块的处理单元1410和存储器1420。在图14中，该最基本配置1430被包括在虚线内。基于块的处理单元1410执行计算机可执行指令并且可以是真实处理器或者虚拟处理器。在多处理系统中，多个处理单元执行计算机可执行指以增加处理能力，并且如此多个处理器可以同时运行。存储器1420可以是易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪速存储器等)、或者两者的组合。存储器1420存储可以例如实现在此所描述的技术的软件1480、图像和视频。计算环境可以具有附加的特征。例如，计算环境1400包括存储装置1440、一个或多个输入设备1450、一个或多个输出设备1460以及一个或多个通信连接1470。互连机制(未示出)(诸如总线、控制器或者网络)将计算环境1400的部件相互连接。通常，操作系统软件(未示出)提供用于在计算环境1400中执行的其他软件的操作环境，并且协调计算环境1400的部件的活动。

存储装置1440可以是可移除或者不可移除的，并且包括磁盘、磁带或者磁带盒、CD-ROM、CD-RW、DVD或者可以用于存储信息并且可以在计算环境1400内访问的任何其他介质。存储装置1440存储用于软件1480的指令、插入数据和消息，其可以用于实现在此所描述的技术。

(一个或多个)输入设备1450可以是触摸输入设备，诸如键盘、小键盘、鼠标、触屏显示器、笔或轨迹球、语音输入设备、扫描设备或者向计算环境1400提供输入的另一设备。对于音频而言，(一个或多个)输入设备1450可以是以模拟或者数字形式接受音频输入的声卡或者类似设备，或者向计算环境1400提供音频样本的CD-ROM读取器。(一个或多个)输出设备1460可以是显示器、打印机、扬声器、刻录机或者提供来自计算环境1400的输出的另一设备。

(一个或多个)通信连接1470实现通过通信介质(例如，连接网络)与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩图形信息、视频或者调制数据信号中的其他数据的信息。(一个或多个)通信连接1470不限于有线连接(例如，兆比特或吉比特以太网、无限带宽、电气或光纤连接上的光纤信道)，而且包括无线技术(例如，经由蓝牙、WiFi(IEEE 802.11a/b/n)、WiMax、蜂窝、卫星、激光、红外的RF连接)以及用于提供用于所公开的代理、网桥和代理数据消费者的网络连接的其他适合的通信连接。在虚拟主机环境中，(一个或多个)通信连接可以是由虚拟主机所提供的虚拟化网络连接。

可以使用实现计算云1490中的所公开的技术的全部或部分的计算机可执行指令执行所公开的方法的一些实施例。例如，所公开的编译器和/或基于块的处理器的服务器被定位在计算环境中，或者所公开的编译器可以在被定位在计算云1490中的服务器上执行。在一些示例中，所公开的编译器在传统的中央处理单元(例如，RISC或者CISC处理器)上执行。

计算机可读介质是可以在计算环境1400内访问的任何可用介质。以示例而非限制的方式，利用计算环境1400，计算机可读介质包括存储器1420和/或存储装置1440。如应当容易理解的，术语计算机可读存储介质包括用于数据存储的介质(诸如存储器1420和存储装置1440)而非传输介质(诸如调制数据信号)。

X.所公开的技术的附加示例

根据上文所讨论的示例在此讨论了所公开的主题的附加示例。

在一个实施例中，一种装置可以用于执行并且提交具有顺序的程序次序的指令块集合。装置可以包括多个基于块的处理器核，其可以包括第一组两个或更多核和第二组一个或多个核。第一组核可以被配置为以顺序的程序次序提交指令块集合中的指令块。第二组核可以被配置为相对于顺序的程序次序而乱序提交指令块集合中的指令块。

多个基于块的处理器核中的相应核可以可配置为相对于顺序的程序次序而按序提交给定指令块或者相对于顺序的程序次序而乱序提交给定指令块。多个基于块的处理器核中的相应核可以可配置为部分地基于指令块的头部中的信息来乱序提交给定指令块。多个基于块的处理器核中的相应核可以可配置为部分地通过在多个基于块的处理器核的不同核上执行不同的指令块来乱序提交指令块。多个基于块的处理器核中的相应核可以被配置为在刷新模式中执行驻留的指令块，在刷新模式中，驻留的指令块的执行和提交在未重新取指并且重新译码驻留的指令块的情况下被执行。多个基于块的处理器核中的相应核可以包括指示重复执行驻留的指令块的次数的计数器。多个基于块的处理器核中的相应核可以在计数器为非零时乱序提交驻留指令块，并且相应核被重新配置为响应于计数器转变为零而按序提交指令块。多个基于块的处理器核中的相应核在计数器为零并且相应核空闲时，可以向基于块的处理器核中的其他核提供通知。

在一个实施例中，一种在基于块的处理器中执行指令块的方法可以包括将基于块的处理器的第一组一个或多个处理器核配置为乱序执行并且提交第一组一个或多个指令块。方法可以包括在第一组处理器核上发起第一组指令块的执行。方法可以包括确定第一组处理器核完成乱序执行并且提交第一组指令块。方法可以包括将第一组处理器核重新配置按序提交第二组指令块。

在第一组处理器核上执行并且提交的第一组指令块可以包括给定循环体的不同的实例。给定循环体的不同实例中的第一实例可以与第一组处理器核中的特定处理器核的第一指令窗口相关联，并且给定循环体的不同实例中的第二实例可以与特定处理器核的第二指令窗口相关联。给定循环体中的不同的实例中的每个实例可以是展开的。将第一组处理器核配置为乱序执行并且提交指令块可以包括标识可用于执行给定线程的指令块的第二组处理器核，并且第一组处理器核选自第二组处理器核。方法可以可选地包括当第一组处理器核正在乱序执行并且提交指令块时，掩码用于第二组处理器核的中断。将第一组处理器核配置为乱序执行并且提交第一组指令块可以包括利用与刷新指令块的次数成比例的数目来加载计数器。

在一个实施例中，一个或多个计算机可读存储介质存储用于包括多个处理器核的基于块的处理器的计算机可执行指令。指令可以包括使得基于块的处理器确定与给定执行线程相关联的处理器核的指令。指令可以包括使得基于块的处理器将与循环相关联的指令块固定到与给定执行线程相关联的处理器核的多个指令窗口的指令。指令可以包括使得基于块的处理器使得所固定的指令块能够被乱序提交的指令。指令可以包括使得基于块的处理器创建同步屏障以使得与给定执行线程相关联的处理器核的多个指令窗口同步的指令。同步屏障可以包括使得基于块的处理器确定与多个指令窗口中的指令窗口中的每一个相关联的状态。将与循环相关联的指令块固定到多个指令窗口可以包括指定在相应的指令窗口上重复地执行指令块的次数。被存储在一个或多个计算机可读存储介质上的计算机可读指令可以由方法生成。方法可以包括接收源代码和/或目标代码；并且将源代码和/或目标代码转换为计算机可读指令。

鉴于所公开的主题的原理可以应用的许多可能实施例，应当认识到所图示的实施例仅是优选的示例并且不应该当作将权利要求的范围限于那些优选的示例。相反，要求保护的主题的范围由所附的权利要求进行限定。我们因此根据我们的发明要求保护落在这些权利要求的范围内的全部内容。

Claims

1.一种用于执行并且提交具有顺序的程序次序的指令块集合的装置，所述装置包括：

多个基于块的处理器核，其包括：

第一组两个或更多核，其被配置为以顺序的程序次序提交所述指令块集合中的指令块；以及

第二组一个或多个核，其被配置为相对于所述顺序的程序次序而乱序提交所述指令块集合中的指令块。

2.根据权利要求1所述的装置，其中所述多个基于块的处理器核中的相应核可配置为相对于所述顺序的程序次序而按序提交给定指令块，或者相对于所述顺序的程序次序而乱序提交所述给定指令块。

3.根据权利要求1或2中的任一项所述的装置，其中所述多个基于块的处理器核中的相应核可配置为部分地基于给定指令块的头部中的信息来乱序提交所述指令块。

4.根据权利要求1-3中的任一项所述的装置，其中所述多个基于块的处理器核中的相应核可配置为部分地通过在所述多个基于块的处理器核中的不同核上执行不同的指令块来乱序提交所述指令块。

5.根据权利要求1-4中的任一项所述的装置，其中所述多个基于块的处理器核中的相应核被配置为在刷新模式中执行驻留的指令块，在所述刷新模式中，所述驻留的指令块的执行和提交在未重新取指并且重新译码所述驻留的指令块的情况下被重复。

6.根据权利要求5所述的装置，其中所述多个基于块的处理器核中的相应核包括用于指示重复执行所述驻留的指令块的次数的计数器。

7.根据权利要求6所述的装置，其中所述多个基于块的处理器核中的相应核在所述计数器为非零时乱序提交所述驻留的指令块，并且所述相应核被重新配置为响应于所述计数器转变到零而按序提交指令块。

8.根据权利要求6所述的装置，其中所述多个基于块的处理器核中的相应核在所述计数器为零并且所述相应核空闲时向所述基于块的处理器核中的其他核提供通知。

9.一种在基于块的处理器中执行指令块的方法，所述方法包括：

将所述基于块的处理器的第一组一个或多个处理器核配置为乱序执行并且提交第一组一个或多个指令块；

在所述第一组处理器核上发起所述第一组指令块的所述执行；

确定所述第一组处理器核完成乱序执行并且提交所述第一组指令块；以及

响应于所述确定，将所述第一组处理器核重新配置为按序提交第二组指令块。

10.根据权利要求9所述的方法，其中在所述第一组处理器核上执行并且提交的所述第一组指令块包括给定循环体的不同实例。

11.根据权利要求10所述的方法，其中所述给定循环体的所述不同实例中的第一实例与所述第一组处理器核中的特定处理器核的第一指令窗口相关联，并且所述给定循环体的所述不同实例中的第二实例与所述特定处理器核的第二指令窗口相关联。

12.根据权利要求10或11中的任一项所述的方法，其中所述给定循环体的所述不同实例中的每个实例是展开的。

13.根据权利要求9-12中的任一项所述的方法，其中将所述第一组处理器核配置为乱序执行并且提交指令块包括：标识可用于执行给定线程的指令块的第二组处理器核，并且所述第一组处理器核选自所述第二组处理器核。

14.根据权利要求9-13中的任一项所述的方法，其中将所述第一组处理器核配置为乱序执行并且提交所述第一组指令块包括：利用与刷新所述指令块的次数成比例的数目来加载计数器。

15.一个或多个计算机可读存储介质，其存储用于包括多个处理器核的基于块的处理器的计算机可读指令，所述指令在被执行时，使得所述处理器执行一种方法，所述指令包括：

使得所述基于块的处理器确定与给定执行线程相关联的处理器核的指令；

使得所述基于块的处理器将与循环相关联的指令块固定到与所述给定执行线程相关联的所述处理器核的多个指令窗口的指令；

使得所述基于块的处理器使得所固定的所述指令块能够被乱序提交的指令；以及

使得所述基于块的处理器创建同步屏障以使得与所述给定执行线程相关联的所述处理器核的所述多个指令窗口同步的指令。