CN108027734A

CN108027734A - 空指令的动态生成

Info

Publication number: CN108027734A
Application number: CN201680054486.4A
Authority: CN
Inventors: D·C·伯格; A·L·史密斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-09-19
Filing date: 2016-09-13
Publication date: 2018-05-11
Anticipated expiration: 2036-09-13
Also published as: WO2017048652A1; US10180840B2; EP3345088B1; US20170083325A1; CN108027734B; EP3345088A1

Abstract

装置和方法被公开用于存储器访问指令(诸如存储器存储指令)的动态无效。在所公开的技术的一些示例中，一种装置可以包括存储器和一个或多个基于块的处理器核。核之一可以包括被配置为执行存储器访问指令的执行单元，存储器访问指令包括指令块中包含的多个存储器加载和/或存储器存储指令。核还可以包括硬件结构，硬件结构存储用于指令块中的至少一个断言指令的数据，该数据标识如果断言指令的条件被满足则存储器存储指令中的一个或多个是否将发出。核可以进一步包括控制单元，控制单元被配置为至少部分地基于硬件结构数据来控制存储器访问指令向执行单元的发出。

Description

空指令的动态生成

背景技术

由于摩尔定律所预测的持续的晶体管扩展，微处理器已经从晶体管数的持续增加、集成电路成本、制造资本、时钟频率、以及能量效率中收益，而相关的处理器指令集架构(ISA)却很小变化。然而，从在过去40年里驱动半导体工业的光刻扩展实现的益处正在放缓或者甚至反转。精简指令集计算(RISC)架构已经成为处理器设计中的主导典范很多年。乱序超标量实施方式尚未在面积或性能方面展现出持续改进。因此，存在对于扩展性能改进的处理器ISA改进的足够机会。

发明内容

公开了用于配置、操作和编译用于基于块的处理器架构(BB-ISA)(包括显式数据图执行(EDGE)架构)的代码的方法、装置和计算机可读存储设备。所描述的用于例如改进处理器性能和/或减少能量消耗的解决方案的技术和工具可以单独地、或者以彼此的各种组合来实施。如下面将更充分地描述的，所描述的技术和工具可以被实施在以下各项中：数字信号处理器、微处理器、专用集成电路(ASIC)、软处理器(例如，使用可重新配置逻辑被实施在现场可编程门阵列(FPGA)中的微处理器核)、可编程逻辑、或者其他适合的逻辑电路。如对于本领域的普通技术人员而言将容易地明显的，所公开的技术可以被实施在各种计算平台中，包括但不限于服务器、大型机、手机、智能电话、PDA、手持式设备、手持式计算机、PDA、触摸屏平板设备、平板计算机、可穿戴计算机、以及膝上型计算机。

在所公开的技术的一个示例中，一种基于块的处理器被配置为基于硬件结构来执行存储器访问指令(例如，存储器加载和存储器存储指令)，硬件结构存储指示存储器访问指令的相对排序的数据以及无效数据。无效数据可以基于与断言指令相关联的条件是否被满足来指示将被无效的一个或多个存储器访问指令。在一些示例中，无效数据还可以包括在与断言指令相关联的条件被满足(或未被满足)时将执行的存储器访问指令(例如，存储器存储指令)的总数目。在这方面，一个或多个空指令可以基于无效数据动态地被生成。例如，空存储指令可以被生成以将一个或多个加载/存储标识符标记为已经完成，或者递增已经执行的存储指令的计数，但是不执行存储器存储操作，由此改变机器的状态，就好像存储指令已经执行。在一些示例中，存储掩码和具有无效数据的表在译码指令块时被生成，或者直接从指令块头部读取，并且被存储在硬件结构中。在一些示例中，存储器访问指令利用指示它们的相对排序的标识符被编码。在一些示例中，基于块的处理器可以检测(例如，在指令执行期间)断言指令。处理器可以检索与断言指令相关联的无效数据(例如，从空值生成表)。基于断言指令的条件是否被满足，无效数据的至少一部分可以标识存储器存储指令中的至少一个用于无效。处理器可以基于检索到的无效数据来控制多个存储器加载和/或存储器存储指令中的至少一个的发出。

提供本发明内容以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或基本特征，其也不旨在用于限制要求保护的主题的范围。所公开的主题的前述和其他目标、特征以及优点将从参考附图进行的以下具体实施方式变得更加明显。

附图说明

图1图示了可以在所公开的技术的一些示例中使用的基于块的处理器核。

图2图示了可以在所公开的技术的一些示例中使用的基于块的处理器核。

图3图示了根据所公开的技术的某些示例的多个指令块。

图4图示了可以在所公开的技术的一些示例中使用的源代码和指令块的部分。

图5图示了可以在所公开的技术的一些示例中使用的基于块的处理器头部和指令。

图6是图示了当指令块被映射、执行和引退时被指配给指令块的多个状态的状态图。

图7图示了可以在所公开的技术的一些示例中使用的多个指令块和处理器核。

图8A图示了可以在所公开的技术的某些示例中使用的示例空值生成表。

图8B是流程图，其概述了可以在所公开的技术的某些示例中执行的指令的动态无效的示例方法。

图9图示了可以在所公开的技术的某些示例中使用的示例源代码和汇编代码。

图10图示了可以在所公开的技术的某些示例中使用的示例控制流程图和加载存储标识符。

图11图示了可以在所公开的技术的某些示例中使用的空值生成表的另一示例。

图12图示了可以在所公开的技术的某些示例中使用的空值生成表的又另一示例。

图13是流程图，其概述了可以在所公开的技术的某些示例中使用的存储器访问指令的动态无效的示例方法。

图14是流程图，其概述了可以在所公开的技术的某些示例中执行的将源代码和/或目标代码转换成基于块的处理器可执行代码并且编译一个或多个空值生成表的示例方法。

图15是图示用于实施所公开的技术的一些实施例的适合的计算环境的框图。

具体实施方式

I.一般考虑

在未旨在以任何方式进行限制的代表性实施例的上下文中阐述了本公开内容。

如在本申请中所使用的，除非上下文清楚地指明，否则单数形式“一”、“一种”和“该”包括复数形式。此外，术语“包括”意味着“包含”。而且，术语“耦合的”涵盖机械的、电的、磁性的、光学的以及将多个项耦合或链接在一起的其他实际方式，并且不排除耦合项之间的中间元件的存在。另外，如在此所使用的，术语“和/或”意味着短语中的任何一项或多项的组合。

在此所描述的系统、方法和装置不应当以任何方式被解释为限制性的。相反地，本公开涉及彼此单独并且以各种组合和子组合的各种所公开的实施例的所有新颖和非显而易见的特征和方面。所公开的系统、方法和装置既不限于任何特定方面或者特征或者其组合，所公开的内容和方法也不要求任何一个或多个特定优点存在或者问题被解决。此外，所公开的实施例的任何特征或者方面可以彼此以各种组合和子组合被使用。

虽然为了方便呈现而以特定顺序的次序描述所公开的方法中的一些方法的操作，但是应当理解，除非特定排序由下面阐述的特定语言所要求，否则说明书的这种方式涵盖重新布置。例如，顺序地描述的操作可以在一些情况下重新布置或者并行地执行。此外，出于简单的缘故，附图可能未示出所公开的内容和方法可以结合其他内容和方法使用的各种方式。此外，说明书有时使用类似“产生”、“生成”、“显示”、“接收”、“发射”、“验证”、“执行”和“发起”的术语来描述所公开的方法。这些术语是所执行的实际操作的高层描述。对应于这些术语的实际操作将取决于特定实施方式而变化并且是由本领域的普通技术人员容易地可辨别的。

参考本公开的装置或者方法在此所呈现的操作理论、科学原理或者其他理论描述已经出于更好的理解的目的而被提供，并且不旨在范围方面是限制性的。所附的权利要求中的装置和方法不限于以由这样的操作理论所描述的方式运转的那些装置和方法。

所公开的方法中的任一方法可以被实施为在一个或多个计算机可读介质(例如，计算机可读介质(诸如一个或多个光学介质光盘、易失性存储器部件(诸如DRAM或SRAM))或非易失性存储器部件(诸如硬盘驱动器))上存储并且在计算机(例如，任何商业可获得的计算机，包括智能电话或者包括计算硬件的其他移动设备)上执行的计算机可执行指令。用于实施所公开的技术的计算机可执行指令中的任一指令以及在所公开的实施例的实施期间创建和使用的任何数据可以被存储在一个或多个计算机可读介质(例如，计算机可读存储介质)上。计算机可执行指令可以是例如专用软件应用或者经由网络浏览器或者其他软件应用(诸如远程计算应用)访问或者下载的软件应用的一部分。这样的软件可以例如在单个本地计算机(例如，利用在任何适合的商业可获得的计算机上进行执行的通用处理器和/或基于块的处理器)上被执行，或者在使用一个或多个网络计算机的网络环境(例如，经由因特网、广域网、局域网、客户端服务器网络(诸如云计算网络)、或者其他这样的网络)中被执行。

为了清晰起见，描述了基于软件的实施方式的仅某些所选的方面。省略了在本领域中众所周知的其他细节。例如，应当理解，所公开的技术不限于任何特定计算机语言或者程序。例如，所公开的技术可以通过以C、C++、JAVA或者任何其他适合的编程语言来实施。同样地，所公开的技术不限于任何特定计算机或者硬件类型。适合的计算机和硬件的某些细节是众所周知的并且不需要在本公开中被详细阐述。

此外，基于软件的实施例(包括例如用于使得计算机执行所公开的方法中的任一方法的计算机可执行指令)中的任一实施例可以通过适合的通信手段被上载、被下载或者被远程访问。这样的适合的通信手段包括例如因特网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信、或者其他这样的通信手段。

II.对所公开的技术的介绍

超标量乱序微架构采用大量的电路资源来重命名寄存器，以数据流次序调度指令，在误推测之后清理，并且针对精确异常引退结果。这包括昂贵的电路，诸如深的许多端口的寄存器文件、用于数据流指令调度唤醒的许多端口的内容可访问存储器(CAM)、以及许多宽总线复用器和旁路网络，所有的这些都是资源密集的。例如，多读取、多写入RAM的基于FPGA的实施方式通常要求复制、多循环操作、时钟加倍、组交错、实况值表和其他昂贵技术的混合。

所公开的技术可以通过应用包括高指令集并行性(ILP)、乱序(out-of-order，OoO)、超标量执行的技术来实现性能增强，同时避免处理器硬件和相关联的软件二者中的大量的复杂性和开销。在所公开的技术的一些示例中，基于块的处理器使用针对区域和能量有效的高ILP执行所设计的EDGE ISA。在一些示例中，EDGE架构和相关联的编译器的使用巧妙处理重命名CAM的寄存器的远离和复杂性。

在所公开的技术的某些示例中，EDGE ISA可以消除对于一个或多个复杂架构特征的需要，包括寄存器重命名、数据流分析、误推测恢复以及按序引退，同时支持主流编程语言(诸如C和C++)。在所公开的技术的某些示例中，基于块的处理器执行多个(两个或两个以上)指令作为原子块。基于块的指令可以被用于以更显式的方式表达程序数据流和/或指令流的语义，这允许改进的编译器和处理器性能。在所公开的技术的某些示例中，显式数据图形执行指令集架构(EDGE ISA)包括关于可以用于改进对不适当的控制流程指令的检测的程序控制流程的信息，从而增加性能、节省存储器资源和/或以及节省能量。

在所公开的技术的一些示例中，在指令块内组织的指令原子地被取指、被执行并且被提交。块内的指令以数据流次序被执行，其使用寄存器重命名减少或者消除并且提供功率有效的OoO执行。编译器可以被用于通过ISA显式地编码数据依存性，这减少或者消除负担的处理器核控制逻辑在运行时重新发现依存性。使用所断言的执行，块内分支可以被转换为数据流指令，并且除了存储器依存性之外的依存性可以限于直接数据依存性。所公开的目标形式编码技术允许块内的指令经由操作数缓冲器直接地传递其操作数，这减少对功耗渴望的多端口物理寄存器文件的访问。

在指令块之间，指令可以使用存储器和寄存器来进行通信。因此，通过利用混合数据流执行模型，EDGE架构可以仍然支持命令式编程语言和顺序的存储器语义，但是期望地还享有具有近按序功率效率和复杂性的乱序执行的益处。

公开了用于生成和使用用于基于块的处理器的存储器访问指令顺序编码的装置、方法和计算机可读存储介质。在所公开的技术的某些示例中，指令块包括指令块头部和多个指令。换言之，指令块的已执行指令作为单位影响状态，或者不影响状态。

在所公开的技术的一些示例中，硬件结构存储数据，该数据指示针对多个存储器访问指令(包括存储器加载指令和存储器存储指令)的将被遵循的执行顺序。耦合到处理器核的控制单元至少部分地基于硬件结构中存储的数据来控制存储器访问指令的发出。因此，存储器读/写危险可以被避免，同时允许指令块中的指令在它们的依存性可用时尽快执行。在一些示例中，控制单元包括唤醒和选择逻辑，其用于确定存储器指令何时向加载/存储队列发出。

如本领域的普通技术人员将容易地理解到，所公开的技术的实施方式的范围在各种区域和性能折中的情况下是可能的。

III.示例基于块的处理器

图1是如可以被实施在所公开的技术的一些示例中的基于块的处理器100的块图10。处理器100被配置为根据指令集架构(ISA)来执行原子指令块，ISA描述了处理器操作的若干方面，包括寄存器模型、由基于块的指令执行的若干定义操作、存储器模型、中断以及其他架构特征。基于块的处理器包括多个处理器核110，其包括处理器核111。

如在图1中所示，处理器核经由核互连120而彼此连接。核互连120携带数据并且控制核110中的个体核、存储器接口140以及输入/输出(I/O)接口145之间的信号。核互连120可以使用电的、光学的、磁性的或者其他适合的通信技术来发送和接收信号，并且可以取决于特定期望的配置而提供根据若干不同的拓扑布置的通信连接。例如，核互连120可以具有交叉开关、总线、点对点总线、或者其他适合的拓扑。在一些示例中，核110中的任一核可以被连接到其他核中的任一核，而在其他示例中，一些核仅被连接到其他核的子集。例如，每个核可以仅被连接到最近的4、8或20个邻近核。核互连120可以用于将输入/输出数据传送至核以及从核传送输入/输出数据，以及将控制信号和其他信息信号传送至核以及从核传送控制信号和其他信息信号。例如，核110中的每个核110可以接收并且传送指示当前正由相应核中的每个核执行的指令的执行状态的信号量。在一些示例中，核互连120被实施为将核110和存储器系统连接的接线，而在其他示例中，核互连可以包括用于多路复用(一条或多条)互连接线上的数据信号的电路、开关和/或路由部件，包括活跃的信号驱动器和中继器或者其他适合的电路。在所公开的技术的一些示例中，在处理器100内和/或至/来自处理器100的信号不限于全摆幅电数字信号，而是处理器可以被配置为包括差分信号、脉冲信号或者用于传送数据和控制信号的其他适合的信号。

在图1的示例中，处理器的存储器接口140包括被用于连接到附加存储器(例如，被定位在除了处理器100之外的另一集成电路上的存储器)的接口逻辑。外部存储器系统150包括L2高速缓存152和主存储器155。在一些示例中，L2高速缓存可以使用静态RAM(SRAM)被实施，并且主存储器155可以使用动态RAM(DRAM)被实施。在一些示例中，存储器系统150被包括在与处理器100的其他部件相同的集成电路上。在一些示例中，存储器接口140包括允许在不使用(一个或多个)寄存器文件和/或处理器100的情况下传送存储器中的数据块的直接存储器访问(DMA)控制器。在一些示例中，存储器接口管理虚拟存储器的分配，扩展可用的主存储器155。

I/O接口145包括用于将输入信号和输出信号接收并且发送到其他部件的电路，诸如硬件中断、系统控制信号、外围接口、协处理器控制和/或数据信号(例如，用于图形处理单元、浮点协处理器、物理处理单元、数字信号处理器或者其他协处理部件的信号)、时钟信号、信号量或者其他适合的I/O信号。I/O信号可以是同步的或者异步的。在一些示例中，I/O接口的全部或部分结合存储器接口140使用存储器映射的I/O技术被实施。

基于块的处理器100还可以包括控制单元160。控制单元160监督处理器100的操作。可以由控制单元160执行的操作可以包括对核的分配和去分配以用于执行指令处理；对任何核、寄存器文件、存储器接口140和/或I/O接口145中之间的输入数据和输出数据的控制；对执行流的修改；以及验证控制流程中的分支指令、指令头部和其他改变的(一个或多个)目标位置。控制单元160可以根据控制流程和元数据信息来生成和控制处理器，元数据信息表示对于指令块的出口点和控制流程概率。

控制单元160还可以处理硬件中断，并且控制特殊系统寄存器(例如，一个或多个寄存器文件中存储的程序计数器)的读取和写入。在所公开的技术的一些示例中，控制单元160至少部分地使用处理器核110中的一个或多个核被实施，而在其他示例中，控制单元160使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实施。在一些示例中，控制单元160至少部分地使用以下各项中的一项或多项被实施：硬连线有限状态机、可编程微代码、可编程门阵列或者其他适合的控制电路。在备选示例中，可以由核110中的一个或多个核来执行控制单元功能。

控制单元160包括用于将指令块分配到处理器核110的调度器165。如在此所使用的，调度器分配涉及引导指令块的操作，包括发起指令块映射、取指、译码、执行、提交、中止、空闲以及刷新指令块。处理器核110在指令块映射期间被指派到指令块。指令操作的叙述阶段出于说明性目的，并且在所公开的技术的一些示例中，某些操作可以被组合、被省略、被分离为多个操作，或者被添加附加操作。调度器165调度指令流，包括用于执行以下的核的分配和去分配：指令处理，在核中的任何核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。如下面进一步详细讨论的，控制单元160还包括存储器访问指令硬件结构167，其可以用于存储数据，该数据包括存储掩码和存储向量寄存器。

基于块的处理器100还包括时钟发生器170，其将一个或多个时钟信号分布到处理器内的各种部件(例如，核110、互连120、存储器接口140和I/O接口145)。在所公开的技术的一些示例中，所有部件共享共同时钟，而在其他示例中，不同的部件使用不同的时钟(例如，具有不同的时钟频率的时钟信号)。在一些示例中，时钟的一部分被选通以在处理器部件中的一些部件未被使用时允许功率节省。在一些示例中，时钟信号使用锁相环(PLL)被生成以生成具有固定的恒定频率和占空比的信号。接收时钟信号的电路可以在单个边沿(例如，上升沿)上被触发，而在其他示例中，接收电路中的至少一些电路通过上升和下降时钟沿而被触发。在一些示例中，时钟信号可以光学地或无线地被传输。

IV.示例基于块的处理器核

图2是如可以在所公开的技术的某些示例中使用的进一步详述用于基于块的处理器100(并且特别地，基于块的处理器核之一的实例)的示例微架构的框图。为了便于解释，示例性的基于块的处理器核被图示有五个阶段：指令取指(IF)、译码(DC)、操作数取回、执行(EX)以及存储器/数据访问(LS)。然而，本领域的普通技术人员将容易地理解到，对所图示的微架构的修改(诸如添加/移除阶段、添加/移除执行操作的单元、以及其他实施细节)可以被修改为适合用于基于块的处理器的特定应用。

如在图2中所示，处理器核111包括控制单元205，其生成控制信号来调节核操作并且使用指令调度器206调度核内的指令流。可以由控制单元205和/或指令调度器206执行的操作可以包括生成和使用存储器访问指令编码；对核的分配和去分配以用于执行指令处理；对任意核、寄存器文件、存储器接口140和/或I/O接口145之间的输入数据和输出数据的控制。控制单元还可以控制用于确定指令发出的速率和顺序的加载存储队列、调度器、全局控制单元、其他单元、或这些单元的组合。

在一些示例中，指令调度器206使用耦合到存储器的通用处理器来实施，该存储器被配置为存储用于调度指令块的数据。在一些示例中，指令调度器206被实施为耦合到存储器的有限状态机。在一些示例中，在处理器(例如，通用处理器或者基于块的处理器核)上执行的操作系统生成优先级、断言和其他数据，其可以至少部分地用于利用指令调度器206来调度指令块。如本领域的普通技术人员将容易地理解到，在集成电路、可编程逻辑或者其他适合的逻辑中实施的其他电路结构可以用于实施用于指令调度器206的硬件。

控制单元205进一步包括用于存储控制流程信息和元数据的存储器(例如，在SRAM或寄存器中)。例如，用于存储器访问指令顺序的数据可以存储在硬件结构中，诸如存储指令数据存储库207。存储指令数据存储库207可以存储用于存储掩码的数据(例如，通过复制指令块中被编码的数据来生成，或者由指令译码器在译码指令时生成)、存储向量寄存器(例如，存储如下的数据，该数据指示哪些和什么类型的存储器访问指令已经执行)、以及经掩码的存储向量寄存器数据(例如，通过向存储向量寄存器应用存储掩码而生成的数据)。在一些示例中，存储指令数据存储库207包括计数器，其跟踪已经执行的存储器访问指令的数目和类型。

控制单元205还可以处理硬件中断，并且控制特殊系统寄存器(例如，一个或多个寄存器文件中存储的程序计数器)的读取和写入。在所公开的技术的其他示例中，控制单元205和/或指令调度器206使用非基于块的处理器核(例如，耦合到存储器的通用RISC处理核)被实施。在一些示例中，控制单元205和/或指令调度器206至少部分地使用以下各项中的一项或多项被实施：硬连线有限状态机、可编程微代码、可编程门阵列、或者其他适合的控制电路。

示例性处理器核111包括两个指令窗口210和211，其中的每个指令窗口可以被配置为执行指令块。在所公开的技术的一些示例中，指令块是基于块的处理器指令的原子集合，其包括指令块头部以及多个一个或多个指令。如下面将进一步讨论的，指令块头部包括可以被用于进一步定义指令块内的多个指令中的一个或多个指令的语义的信息。取决于所使用的特定ISA和处理器硬件，还可以在指令的执行期间使用指令块头部，并且通过例如允许对指令和/或数据的早期取回、改进的分支预测、推测的执行、改进的能量效率以及经改进的代码紧密性，来改进执行指令块的性能。在其他示例中，不同的数目的指令窗口是可能的，诸如一个、四个、八个或其他数目的指令窗口。

指令窗口210和211中的每个指令窗口可以从输入端口220、221和222(其连接到互连总线)中的一个或多个输入端口以及指令高速缓存227(其进而连接到指令译码器228和229)接收指令和数据。附加的控制信号还可以在附加的输入端口225上被接收。指令译码器228和229中的每个指令译码器对指令头部和/或用于指令块中的指令进行译码，并且将所译码的指令存储在被定位在每个相应的指令窗口210和211中的存储器存储库215和216内。进一步地，译码器228和229中的每个译码器可以将数据发送到控制单元205，例如，以根据在指令块头部中或在指令中指定的执行标志来配置处理器核111的操作。

处理器核111还包括耦合到L1(第一级)高速缓存235的寄存器文件230。寄存器文件230存储用于在基于块的处理器架构中定义的寄存器的数据，并且可以具有一个或多个读端口和一个或多个写端口。例如，寄存器文件可以包括用于将数据存储在寄存器文件中的两个或两个以上写端口，以及具有用于从寄存器文件内的个体寄存器读取数据的多个读端口。在一些示例中，单个指令窗口(例如，指令窗口210)可以一次访问寄存器文件的仅一个端口，而在其他示例中，指令窗口210可以访问一个读端口和一个写端口，或者可以同时访问两个或两个以上读端口和/或写端口。在一些示例中，寄存器文件230可以包括64个寄存器，寄存器中的每个寄存器保持32位的数据的字。(为了方便地解释，除非另外指定，否则本申请将把32位的数据称为字。根据所公开的技术的适合的处理器可以利用8位、16位、64位、128位、256位、或另外位数目的字进行操作)。在一些示例中，寄存器文件230内的寄存器中的一些寄存器可以被分配为特殊目的。例如，寄存器中的一些寄存器可以被专用作系统寄存器示例，其包括存储常量值(例如，所有零字)、(一个或多个)程序计数器(PC)(其指示正被执行的程序线程的当前地址)、物理核数目、逻辑核数目、核分配拓扑、核控制标志、执行标志、处理器拓扑或者其他适合的专用目的的寄存器。在一些示例中，存在多个程序计数器寄存器、一个或每个程序计数器，以允许跨一个或多个处理器核和/或处理器的多个执行线程的并发执行。在一些示例中，程序计数器被实施为指定存储器位置，而不是寄存器文件中的寄存器。在一些示例中，系统寄存器的使用可以由操作系统或者其他监督式计算机指令进行限制。在一些示例中，寄存器文件230被实施为触发器阵列，而在其他示例中，寄存器文件可以使用锁存器、SRAM或者其他形式的存储器存储装置被实施。针对给定处理器(例如，处理器100)的ISA规格指定寄存器文件230内的寄存器如何被定义并且被使用。

在一些示例中，处理器100包括由多个处理器核共享的全局寄存器文件。在一些示例中，与处理器核相关联的个体寄存器文件可以被组合以静态地或者动态地形成较大的文件，这取决于处理器ISA和配置。

如在图2中所示，指令窗口210的存储器存储库215包括若干译码的指令241、左操作数(LOP)缓冲器242、右操作数(ROP)缓冲器243、断言缓冲器244、三个广播信道245、以及指令记分板247。在所公开的技术的一些示例中，指令块中的每个指令被分解为一行译码的指令、左操作数和右操作数和记分板数据，如在图2中所示。译码的指令241可以包括被存储为位级控制信号的指令的部分或者完全译码的版本。操作数缓冲器242和243存储操作数(例如，从寄存器文件230接收到的寄存器值、从存储器接收到的数据、在指令内编码的中间操作数、由较早发出的指令计算的操作数、或者其他操作数值)，直到它们相应的译码的指令准备好执行。指令操作数和断言分别从操作数缓冲器242和243以及断言缓冲器244被读取，而不是寄存器文件。指令记分板247可以包括用于指向指令的断言的缓冲器，包括用于组合由多个指令发送到指令的断言的“线或”逻辑。

第二指令窗口211的存储器存储库216存储类似的指令信息(译码的指令、操作数和记分板)作为存储器存储库215，但是出于简单的原因在图2中未示出。指令块可以关于第一指令窗口由第二指令窗口211并发地或者顺序地执行，这受制于ISA约束并且如由控制单元205引导。

在所公开的技术的一些示例中，前端流水线阶段IF和DE可以从后端流水线阶段(IS、EX、LS)运行去耦合。控制单元可以每时钟周期将两个指令取指并且译码到指令窗口210和211中的每个指令窗口中。控制单元205使用记分板247来提供指令窗口数据流调度逻辑以监测每个译码的指令的输入(例如，每个相应指令的(一个或多个)断言和(一个或多个)操作数)的就绪状态。当针对特定译码的指令的所有输入操作数和(多个)断言就绪时，指令准备好发出。控制单元205然后每周期发起执行(发出)一个或多个下一指令(例如，最低编号的就绪指令)，并且基于译码指令和指令的输入操作数的控制信号被发送到功能单元260中的一个或多个功能单元以用于执行。译码的指令还可以对若干就绪事件进行编码。控制单元205中的调度器接受来自其他源的这些和/或事件，并且更新窗口中的其他指令的就绪状态。因此执行从处理器核的111个就绪零输入指令开始，继续以零输入指令为目标的指令，等等。

译码指令241不需要以其被布置在指令窗口210的存储器存储库215内的相同次序被执行。相反地，指令记分板245用于追踪译码的指令的依存性，并且当依存性已经被满足时，相关联的个体译码指令被调度用于执行。例如，当依存性已经针对相应指令被满足时，对相应指令的参考可以被推送到就绪队列上，并且就绪指令可以从就绪队列以先进先出(FIFO)次序被调度。对于利用加载存储标识符(LSID)编码的指令，执行顺序也将遵循在指令LSID中列举的优先级，或者按照看起来好像指令按指定顺序执行的顺序被执行。

记分板245中存储的信息可以包括但不限于相关联的指令的(多个)执行断言(诸如指令是否正等待要被计算的断言位，并且在断言位是真或者假的情况下指令是否执行)、操作数对于指令的可用性、或者在发出和执行相关联的个体指令之前所要求的其他前提条件。每个指令窗口中存储的指令的数目通常对应于指令块内的指令的数目。在一些示例中，操作数和/或断言在一个或多个广播信道上被接收，其允许将相同的操作数或断言发送到更大数目的指令。在一些示例中，指令块内的指令的数目可以是32、64、128、1024或另一指令数目。在所公开的技术的一些示例中，指令块跨越处理器核内的多个指令窗口被分配。乱序操作和存储器访问可以根据指定一个或多个操作模式的数据而被控制。

在一些示例中，对处理器施加限制(例如，根据架构定义，或通过处理器的可编程配置)以禁用不按照指令在指令块中被布置的依次顺序的指令执行。在一些示例中，可用的最低编号的指令被配置为要执行的下一指令。在一些示例中，控制逻辑遍历指令块中的指令并且执行准备好执行的下一指令。在一些示例中，一次发出和/或执行仅一个指令。在一些示例中，指令块内的指令以确定性顺序(例如，指令在块中被布置的依次顺序)发出和执行。在一些示例中，当通过用户调试在基于块的处理器上执行的程序来使用软件调试器时，可以配置对指令排序的限制。

指令可以使用被定位在处理器核111内的控制单元205而被分配并且被调度。控制单元205安排来自存储器的对指令的取指、对执行的译码、在其已经被加载到相应的指令窗口时对指令的执行、进/出处理器核111的数据流，并且控制由处理器核输入和输出的信号。例如，控制单元205可以包括如上文所描述的就绪队列，以用于在调度指令中使用。可以原子地执行被定位在每个相应的指令窗口210和211中的、存储器存储库215和216中存储的指令。因此，对由执行的指令影响的可见架构状态(诸如寄存器文件230和存储器)的更新可以本地缓存在核200内直到指令被提交为止。控制单元205可以确定指令何时准备好被提交、对提交逻辑进行排序并且发出提交信号。例如，指令块的提交阶段可以在指令块的依存性被满足并且指令块的操作被完成时开始。作为一个示例，指令块的依存性可以在指令块正以顺序的程序次序被提交并且所有先前的指令块已经被提交(例如，当前指令块是最旧的指令块)和/或当核111被配置为乱序提交驻留指令块时被满足。作为另一示例，指令块的操作可以当所有寄存器写入被缓冲、到存储器的所有写入被缓冲并且分支目标被计算时被完成。指令块可以当对可见架构状态的更新被完成时被提交。例如，当寄存器写入作为寄存器文件被写入、存储被发送到加载/存储单元或者存储器控制器并且提交信号被生成时，指令块可以被提交。控制单元205还至少部分地控制将功能单元260分配到相应的指令窗口中的每个指令窗口。

如在图2中所示，具有若干执行流水线寄存器255的第一路由器250用于将数据从指令窗口210和211中的任一指令窗口发送到功能单元260中的一个或多个功能单元，其可以包括但不限于整数ALU(算术逻辑单元)(例如，整数ALU 264和265)、浮点单元(例如，浮点ALU 267)、移位/旋转逻辑(例如，桶型移位器268)或者其他适合的执行单元，其可以包括图形功能、物理功能和其他数学运算。第一路由器250进一步包括唤醒/选择逻辑258，其用于确定存储器指令何时被发送到加载/存储队列275。例如，唤醒/选择逻辑258可以确定是否所有源操作数和断言条件都可用于存储器访问指令，并且基于该确定将地址(和数据，如果适用)发送到加载/存储队列275。

来自功能单元260的数据可以然后通过第二路由器270被路由到输出290、291和292，路由返回到操作数缓冲器(例如，LOP缓冲器242和/或ROP缓冲器243)，或者被馈送回到另一功能单元，这取决于特定指令被执行的要求。第二路由器270包括：加载/存储队列275，其可以被用于发出存储器指令；数据高速缓存277，其存储正被输入到核或正从核被输出到存储器的数据；以及加载/存储流水线寄存器278。

加载/存储队列275接收并且临时存储用于执行存储器访问指令的信息。指令块可以将所有存储器访问指令作为单个原子事务块执行。换言之，全部存储器访问指令或没有存储器访问指令被执行。存储器访问指令的相对顺序基于与每个存储器访问指令相关联的LSID(例如，利用对应指令被编码的LSID)并且在一些情况下基于存储掩码来确定。在一些示例中，可以通过不按照LSID指定的相对排序执行存储器访问指令来获得附加性能，但是存储器的状态仍然必须看起来像指令按顺序被执行一样。加载/存储队列275还接收用于加载指令的地址、以及用于存储指令的地址和数据。在一些示例中，加载/存储队列等待执行排队的存储器访问指令，直到确定包含指令块将实际提交。在其他示例中，加载/存储队列275可以推测性地发出至少一些存储器访问指令，但是在块未提交的情况下将需要冲刷存储器操作。在其他示例中，控制单元205通过提供被描述为由唤醒/选择逻辑和/或加载/存储队列275执行的功能，来确定存储器访问指令被执行的顺序。在一些示例中，处理器100包括调试模式，其允许在调试器的帮助下逐步发出存储器访问指令。使用控制逻辑(例如，具有有限状态机)和存储器(例如，寄存器或SRAM)分别执行存储器事务和存储存储器指令操作数，可以实施加载/存储队列275。

核还包括控制输出295，其用于指示例如指令窗口210或者211中的一个或多个指令窗口的所有指令的执行何时已经完成。当指令块的执行完成时，指令块被指定为“提交的”并且来自控制输出295的信号可以进而可以由基于块的处理器100内的其他核和/或由控制单元160用于发起其他指令块的调度、取指和执行。第一路由器250和第二路由器270二者可以将数据发送回到指令(例如，作为用于指令块内的其他指令的操作数)。

如本领域的普通技术人员将容易理解到，个体核200内的部件不限于图2中所示的那些部件，而是可以根据特定应用的要求而变化。例如，核可以具有更少或更多的指令窗口，单个指令译码器可以由两个或两个以上指令窗口共享，并且所使用的功能单元的数目和类型可以取决于用于基于块的处理器的特定目标应用而变化。在利用指令核选择并且分配资源时应用的其他考虑包括性能要求、能量使用要求、集成电路芯片、处理技术和/或成本。

对于本领域的普通技术人员而言将容易明显的，可以通过处理器核110的指令窗口(例如，指令窗口210)和控制单元205内的资源的设计和分配来在处理器性能中做出折中。面积、时钟周期、能力和限制实质上确定个体核110的实现性能和基于块的处理器100的吞吐量。

指令调度器206可以具有不同的功能。在某些较高的性能示例中，指令调度器是高并发的。例如，每个周期(一个或多个)译码器将指令的译码就绪状态和译码指令写入到一个或多个指令窗口中，选择要发出的下一个指令，并且作为响应后端发送第二就绪事件——以特定指令的输入槽(断言、左操作数、右操作数等)为目标的任一目标就绪事件或者以所有指令为目标的广播就绪事件。每指令就绪状态位连同译码就绪状态可以用于确定指令准备好发出。

在一些情况下，调度器206接受目标指令的事件，其尚未被译码并且还必须禁止已发出的就绪指令的重新发出。在一些示例中，指令可以是非断言的、或者断言的(基于真或假条件)。断言的指令直到其由另一指令的断言结果作为目标时才变得就绪，并且该结果匹配断言条件。如果相关联的断言条件未匹配，则指令绝不发出。在一些示例中，断言指令可以推测地被发出并且被执行。在一些示例中，处理器可以随后检查推测地发出和执行的指令被正确地推测。在一些示例中，误推测的发出指令和消耗其输出的块中的指令的特定传递闭包可以被重新执行、或者被误推测取消的副作用。在一些示例中，对误推测的指令的发现导致整个指令块的完全回滚和重新执行。在一些示例中，调度器执行被描述为由上面讨论的唤醒/选择逻辑和/或加载/存储队列执行的一些或全部操作。

在分支到新指令块时，相应的(多个)指令窗口就绪状态被清除(块重置)。然而，当指令块分支回到其自身(块刷新)时，仅活跃就绪状态被清除。指令块的译码就绪状态可以因此被保留，使得其不需要重新取回并且译码块的指令。因此，块刷新可以用于节省循环中的时间和能量。

V.示例指令块流

现在转到图3的示图300，图示了基于块的指令流的一部分310，包括若干可变长度指令块311-314。指令流可以用于实施用户应用、系统服务或者任何其他适合的用途。指令流可以存储在存储器中，从存储器中的另一进程接收，通过网络连接接收，或以任何其他合适的方式存储或接收。在图3中所示的示例中，每个指令块从指令头部开始，其跟随有不同的数目的指令。例如，指令块311包括头部320和二十条指令321。所图示的特定指令头部320包括部分地控制指令块内的指令的执行的若干数据字段，并且还允许改进的性能增强技术，包括例如分支预测、推测执行、惰性评估和/或其他技术。指令头部320还包括指令块大小的指示。指令块大小可以处于比一更大的指令的数据块中，例如，被包含在指令块内的4指令数据块的数目。换句话说，块的大小被移动4位以便压缩被分配到指定指令块大小的头部空间。因此，0的大小值指示最小大小的指令块，其是跟随有四条指令的块头部。在一些示例中，指令块大小被表达为字节数、字数、n字数据块数、地址、地址偏移或者使用用于描述指令块的大小的其他适合的表达。在一些示例中，指令块大小由指令块头部和/或脚部中的终止位模式来指示。

指令块头部320还可以包括一个或多个执行标志，其指示用于执行指令块的一个或多个操作模式。例如，操作模式可以包括核融合操作、向量模式操作、存储器依存性预测、和/或有序或确定性指令执行。

在所公开的技术的一些示例中，指令头部320包括指示编码数据是指令头部的一个或多个标识位。例如，在一些基于块的处理器ISA，最低有效位空间中的单个ID位总是被设定为二进制值1，以指示有效指令块的开始。在其他示例中，不同的位编码可以用于(一个或多个)标识位。在一些示例中，指令头部320包括指示相关联的指令块被编码所针对的ISA的特定版本的信息。

指令块头部还可以包括用于在例如分支预测、控制流程确定和/或分支处理中使用的若干块退出类型。退出类型可以指示分支指令的类型是什么，例如：顺序分支指令，其指向存储器中的下一相连的指令块；偏移指令，其是相对于偏移而计算的存储器地址处的另一指令块的分支；子例程调用、或者子例程返回。通过编码指令头部中的分支退出类型，分支预测器可以至少部分地在相同指令块内的分支指令已经被取指和/或被译码之前开始操作。

所图示的指令块头部320还包括存储掩码，存储掩码指示块指令中编码的加载存储队列标识符中的哪些被指配给存储操作。例如，对于具有八个存储器访问指令的块，存储掩码01011011将指示有三个存储器存储指令(位0，对应于LSID 0、2和5)和五个存储器加载指令(位1，对应于LSID 1、3、4、6和7)。在所公开的技术的一些示例中，存储掩码可以提供仅关于存储器存储指令的信息(即，掩码01011011指示具有LSID 0、1、3、4和6的五个存储器存储，并且没有关于存储器加载的信息)。指令块头部还可以包括写入掩码，其标识相关联的指令块将写入哪个(些)全局寄存器。在一些示例中，存储掩码通过例如指令译码器(例如，译码器228或229)被存储在存储向量寄存器中。在其他示例中，指令块头部320不包括存储掩码，但是存储掩码由指令译码器在指令块被译码时通过分析指令依存性而动态地被生成。例如，译码器可以分析指令块指令的加载存储标识符以确定存储掩码，并且将存储掩码数据存储在存储向量寄存器中。类似地，在其他示例中，写入掩码没有被编码在指令块头部中，而是由指令译码器动态地生成(例如，通过分析由指令块中的指令引用的寄存器)并且存储在写入掩码寄存器中。存储掩码和写入掩码可以用于确定指令块的执行何时完成并且因此发起指令块的提交。在指令块可以完成之前，相关联的寄存器文件必须接收对每个条目的写入。在一些示例中，基于块的处理器架构可以不仅包括标量指令，而且还包括单指令多数据(SIMD)指令，其允许在单个指令内利用更大数目的数据操作数的操作。

可以用于指令321的合适的基于块的指令的示例可以包括用于执行整数和浮点算术、逻辑运算、类型转换、寄存器读取和写入、存储器加载和存储、分支和跳转的执行的指令、以及其他合适的处理器指令。在一些示例中，指令包括如下的指令，这些指令用于配置处理器以根据例如基于与硬件结构(诸如存储指令数据存储库207)中存储的存储器访问指令有关的控制流程和数据的推测性执行的操作中的一个或多个操作来操作。在一些示例中，存储指令数据存储库207不是在架构上可见的。在一些示例中，对存储指令数据存储库207的访问被配置为限于在处理器的监督模式或其他保护模式下的处理器操作。

VI.示例块指令目标编码

图4是描绘C语言源代码的两个部分410和415及其相应的指令块420和425的示例的示图400，这图示了基于块的指令可以如何显式地编码其目标。在该示例中，前两个READ指令430和431相应地以ADD指令432的右(T[2R])和左(T[2L])操作数为目标(2R指示以指令编号2的右操作数为目标；2L指示指令编号2的左操作数)。在所图示的ISA中，读指令是从全局寄存器文件读取的唯一指令；然而，任何指令可以以全局寄存器文件(例如，寄存器文件230)为目标。当ADD指令432接收到这两个寄存器读取的结果时，其将变为就绪并且执行。注意，本公开有时将右操作数称为OP0并且将左操作数称为OP1。

当TLEI(测试小于等于立即(test-less-than-equal-immediate))指令433从ADD接收其单个输入操作数时，其将变为就绪以发出并且执行。测试然后产生在信道一(B[1P])上广播到在用于断言的广播信道上监听的所有指令的断言操作数，其在该示例中是两个断言的分支指令(BRO_T 434和BRO_F 435)。接收匹配断言的分支指令将激发(执行)，但是利用互补断言被编码的另一指令将不激发/执行。

指令块420的依存性图形440还被图示为指令节点阵列450和其对应的操作数目标455和456。这图示了块指令420、对应的指令窗口条目以及由指令所表示的底层数据流程图之间的对应性。此处，译码指令READ 430和READ 431准备好发出，因为其不具有输入依存性。当其发出并且执行时，从寄存器R0和R7读取的值被写入到ADD432的右操作数缓冲器和左操作数缓冲器中，这使得ADD 432的左操作数和右操作数“就绪”。因此，ADD 432指令变为就绪、发出到ALU、执行，并且之和被写入到TLEI指令433的左操作数。

VII.示例基于块的指令格式

图5是图示了用于指令头部510、通用指令520、分支指令530和存储器访问指令540(例如，存储器加载或存储指令)的指令格式的一般化示例的示图。指令格式可以用于根据指定操作模式的在指令头部中指定的多个执行标志而被执行的指令块。指令头部或者指令中的每一个根据位数而被标记。例如，指令头部510包括四个32位的字并且从其最低有效位(lsb)(位0)被标记直到其最高有效位(msb)(位127)。如所示出的，指令头部包括写入掩码字段、存储掩码字段515、多个退出类型字段、多个执行标志字段、指令块大小字段和指令头部ID位(指令头部的最低有效位)。在一些示例中，存储掩码字段515被LSID计数517代替或补充，LSID计数517指示指令块的每个断言路径上的存储指令的数目。对于在不同断言路径上具有不同数目的存储指令的指令块，可以使一个或多个指令无效，并且递增所执行的存储指令的计数，以使得每个断言路径将指示在运行时已经执行的相同数目的存储指令。在一些示例中，头部510不指示LSID计数或存储掩码，但是信息由指令译码器基于个体存储指令中编码的LSID动态地生成。

图5中描绘的执行标志字段占据指令块头部510的位6至位13并且指示用于执行指令块的一个或多个操作模式。例如，操作模式可以包括核融合操作、向量模式操作、分支预测器抑制、存储器依存性预测器抑制、块同步、块之后中断、块之前中断、块失败、和/或有序或确定性指令执行。

退出类型字段包括可以用于指示被编码在指令块内的控制流程指令的类型的数据。例如，退出类型字段可以指示指令块包括以下各项中的一项或多项：顺序分支指令、偏移分支指令、间接分支指令、调用指令、和/或返回指令。在一些示例中，分支指令可以是用于在指令块之间传递控制流程的任何控制流程指令，包括相对地址和/或绝对地址，并且使用有条件的断言或者无条件的断言。除了确定隐式控制流程指令之外，退出类型字段可以用于分支预测和推测执行。

所图示的通用块指令520被存储为一个32位的字，并且包括操作码字段、断言字段、广播ID字段(BID)、向量操作字段(V)、单指令多数据(SIMD)字段、第一目标字段(T1)、以及第二目标字段(T2)。对于具有比目标字段更大的消费者的指令而言，编译器可以使用移动指令来构建扇出树，或者其可以将高扇出指令指派到广播。广播支持通过轻量网络将操作数发送到核中的任何数目的消费者指令。

虽然由通用指令520概述的通用指令格式可以表示由基于块的处理器处理的一些或全部指令，但是本领域的技术人员将容易理解到，即使对于ISA的特定示例而言，指令字段中的一个或多个指令字段也可以偏离用于特定指令的通用格式。操作码字段指定由指令520执行的(一个或多个)操作，诸如存储器读取/写入、寄存器加载/存储、加法、减法、乘法、除法、移位、旋转、系统操作或者其他适合的指令。断言字段指定指令在其下将执行的条件。例如，断言字段可以指定值“真”，并且指令将仅在对应的条件标志匹配指定的断言值的情况下执行。在一些示例中，断言字段至少部分地指定哪一个被用于比较断言，而在其他示例中，执行在由先前指令(例如，指令块中的先前指令)设定的标志上被断定。在一些示例中，断言字段可以指定指令将总是或者绝不被执行。因此，断言字段的使用可以通过减少被译码和执行的分支指令的数目来允许更密集的目标代码、改进的能量效率以及改进的处理器性能。

目标字段T1和T2指定基于块的指令的结果被发送到的指令。例如，在指令槽5处的ADD指令可以指定其计算结果将被发送到槽3和10处的指令，包括对操作数槽(例如，左操作、右操作数、或断言操作数)的指定。取决于特定指令和ISA，所图示的目标字段之一或二者可以由其他信息替换，例如，第一目标字段T1可以由中间操作数、附加操作码、指定两个目标等来替换。

分支指令530包括操作码字段、断言字段、广播ID字段(BID)以及偏移字段。操作码和断言字段在如关于通用指令所描述的格式和功能方面是类似的。偏移可以以四个指令的组为单位被表达，因此扩展在其上可以执行分支的存储器地址范围。利用通用指令520和分支指令530示出的断言可以用于避免指令块内的附加分支。例如，特定指令的执行可以根据先前指令的结果(例如，两个操作数的比较)被断定。如果断言是假的，则指令将不提交由特定指令计算出的值。如果断言值未匹配所要求的断言，则指令不发出。例如，BRO_F(断言假)指令将发出其是否被发送假断言值。

应当容易理解到，如在此所使用的，术语“分支指令”不限于将程序执行改变到相对存储器位置，而且包括跳跃到绝对或者符号存储器位置、子例程调用和返回，以及可以修改执行流的其他指令。在一些示例中，通过改变系统寄存器(例如，程序计数器PC或者指令指针)的值来修改执行流，而在其他示例中，可以通过修改存储器中的指定位置处存储的值来改变执行流。在一些示例中，跳跃寄存器分支指令用于跳跃到寄存器中存储的存储器位置。在一些示例中，分别使用跳跃和链接以及跳跃寄存器指令来实施子例程调用和返回。

存储器访问指令540格式包括操作码字段、断言字段、广播ID字段(BID)、加载存储ID字段(LSID)、立即字段(IMM)、偏移字段和目标字段。操作码字段、广播字段、断言字段在格式和功能上与关于通用指令所描述的类似。例如，特定指令的执行可以根据先前指令的结果(例如，两个操作数的比较)被断言。如果断言为假，则指令将不提交由特定指令计算的值。如果断言值与所要求的断言不匹配，则指令不发出。立即字段(例如，并且移位多个位)可以用作发送到加载或存储指令的用于操作数的偏移。操作数加(移位)立即偏移被用作用于加载/存储指令的存储器地址(例如，从存储器中读取数据或将数据存储到存储器中的地址)。LSID字段指定用于块内的加载和存储指令的相对顺序。换言之，较高编号的LSID指示指令应当在较低编号的LSID之后执行。在一些示例中，处理器可以确定两个加载/存储指令不冲突(例如，基于用于指令的读取/写入地址)并且可以以不同顺序执行指令，但是机器的结果状态不应当不同于指令好像已经按指定的LSID排序被执行。在一些示例中，具有互斥断言值的加载/存储指令可以使用相同的LSID值。例如，如果第一加载/存储指令根据值p为真被断言，并且第二加载/存储指令根据值p为假被断言，则每个指令可以具有相同的LSID值。

VIII.示例处理器状态图

图6是状态图600，其图示了当指令块被映射、执行和引退时指配给指令块的多个状态。例如，根据一个或多个执行标志，在指令的执行期间可以指配状态中的一个或多个状态。应当容易理解，图6中示出的状态是所公开的技术的一个示例，但是在其他示例中，指令块可以具有附加的或更少的状态，并且具有与状态图600中描绘的那些状态不同的状态。在状态605处，指示块未被映射。指令块可以驻留在耦合到基于块的处理器的存储器中，存储在计算机可读存储设备(诸如硬盘驱动器或闪存驱动器)上，并且可以对处理器是本地的或者位于远程服务器处并使用计算机网络是可访问的。未映射的指令也可以至少部分地驻留在耦合到基于块的处理器的高速缓存存储器中。

在指令块映射状态610处，用于基于块的处理器的控制逻辑(诸如指令调度器)可以用于监测基于块的处理器的处理核资源，并且将指令块映射到处理核中的一个或多个处理核。

控制单元可以将指令块中的一个或多个指令块映射到处理器核和/或特定处理器核的指令窗口。在一些示例中，控制单元监测先前已经执行特定指令块的处理器核，并且可以针对仍然驻留在“已热身的”处理器核上的指令块重新使用经译码的指令。一旦一个或多个指令块已经被映射到处理器核，指令块就可以继续进行到取回状态620。

当指令块处于取回状态620(例如，指令取回)时，映射的处理器核从基于块的处理器的存储器系统取回计算机可读块指令，并且将它们加载到与特定处理器核相关联的存储器中。例如，用于指令块的取回的指令可以被取回并且被存储在处理器核内的指令高速缓存中。可以使用核互连将指令传送到处理器核。一旦指令块的至少一个指令已经被取回，指令块就可以进入指令译码状态630。

在指令译码状态630期间，取回的指令的各个比特被译码成信号，这些信号可以由处理器核用来控制特定指令的执行。例如，经译码的指令可以存储在上面在图2中示出的存储器存储库215或216之一中。译码包括生成用于经译码的指令的依存性、用于经译码的指令的操作数信息、以及用于经译码的指令的目标。一旦指令块的至少一个指令已经被译码，指令块就可以继续进行到执行状态640。

在执行状态640期间，使用例如上面关于图2讨论的功能单元260来执行与指令相关联的操作。如上面讨论的，所执行的功能可以包括算术功能、逻辑功能、分支指令、存储器操作和寄存器操作。与处理器核相关联的控制逻辑监测指令块的执行，并且一旦确定指令块可以被提交，或者指令块将被中止，则指令块状态被设置为提交/中止650。在一些示例中，控制逻辑针对指令块使用写入掩码和/或存储掩码，以确定执行是否已经充分地进行以提交指令块。所执行的存储器访问指令将数据和地址信息发送到加载/存储队列以用于访问存储器。在一些示例中，一些存储器访问指令(例如，存储器加载指令)可以在块执行之前被执行，而其他指令(例如，存储器存储指令)等待执行直到块正在提交。在一些示例中，所有存储器访问指令等待访问存储器直到块正在提交。在一些示例中，存储器加载和存储指令在指令块的执行期间访问存储器，但是附加硬件捕捉存储器危险条件(例如，在写入危险之后读取)以确保主存储器看起来好像指令是根据它们的相对排序被执行的。

在提交/中止状态650处，处理器核控制单元确定由指令块执行的操作可以被完成。例如，存储器加载存储操作、寄存器读取/写入、分支指令、以及其他指令将根据指令块的控制流程被明确地执行。替换地，如果指令块将被中止，例如，因为指令的依存性中的一个或多个依存性未被满足，或者指令根据未被满足的用于指令块的断言而被推测性地执行，则指令块被中止以使得它将不影响存储器或寄存器文件中的指令序列的状态。任何未完成的存储器访问操作也被完成。无论指令块是已经提交还是已经中止，指令块进入状态660以确定指令块是否应当被刷新。如果指令块被刷新，则处理器核通常使用新数据值(特别是由块的刚提交的执行所更新的寄存器和存储器)来重新执行指令块，并且直接继续进行到执行状态640。因此，可以避免在映射、取回和译码指令块上花费的时间和能量。替换地，如果指令块将不被刷新，则指令块进入空闲状态670。

在空闲状态670中，通过例如使处理器核内的硬件断电，同时维持用于指令块的经译码的指令中的至少一部分，可以使执行指令块的处理器核空闲。在某个点处，控制单元确定680处理器核上的空闲指令块是否将被刷新。如果空闲指令块将被刷新，则指令块可以恢复在执行状态640处的执行。替换地，如果指令块将不被刷新，则指令块不被映射并且处理器核可以被冲刷，并且随后指令块可以被映射到经冲刷的处理器核。

尽管状态图600为了便于解释图示了在单个处理器核上执行时的指令块的状态，但是对相关领域的普通技术人员应当容易理解的是，在某些示例中，多个处理器核可以用于并发地执行给定指令块的多个实例。

IX.示例基于块的处理器和存储器配置

图7是图示了包括基于块的处理器710的装置的示图700，其包括被配置为根据用于一个或多个操作模式的数据来执行指令块的控制单元720。控制单元720包括核调度器725和存储器访问硬件结构730。核调度器725调度指令流，包括用于执行指令处理的核的分配和去分配，核中的任何核、寄存器文件、存储器接口和/或I/O接口之间的输入数据和输出数据的控制。存储器访问硬件结构730存储数据，包括例如存储掩码数据、指示哪些指令已经执行的存储向量寄存器数据、空值生成表(NGT)、和/或控制流程数据。存储器访问硬件结构730(包括存储向量寄存器)可以使用任何合适的技术来实施，包括SRAM、寄存器(例如，包括触发器或锁存器的阵列)、或其他合适的存储器技术。当由控制单元720译码指令时，可以生成存储掩码(SM)。在一些示例中，存储掩码从存储器750读取(例如，存储掩码751)，从指令块头部读取(例如，存储掩码737和738)，或在计算机可读存储介质中，诸如存储介质盘736。

空值生成表752也可以在用于指令块的指令被译码时由控制单元720生成。参考图8A、图11和图12更详细地讨论示例NGT。NGT在以下情况下可以包括在指令的动态无效期间使用的数据：例如，一个或多个存储器访问指令与断言的指令的条件相关联，并且存储器访问指令中的一个或多个存储器访问指令必须被无效以使得断言的指令可以发出。如在图7中看到的，NGT和SM可以存储在核740-747中的一个或多个核内。在这方面，存储器访问硬件结构730(其也可以存储NGT和SM)也可以被实施在核740-747中的一个或多个核内。

基于块的处理器710还包括被配置为取回并且执行指令块的一个或多个处理器核740-747。所图示的基于块的处理器710具有多至八个核，但是在其他示例中，可以有64、512、1024或其他数目的基于块的处理器核。基于块的处理器710耦合到包括多个指令块(包括指令块A和B)的存储器750，并且耦合到计算机可读存储介质盘755。

X.与断言的指令一起使用的示例空值生成表

图8A图示了可以在所公开的技术的某些示例中使用的示例空值生成表。参考图8A，图示了用于两个断言指令P和Q的依存性图801。断言指令P(805)和Q(806)可以是指令块的一部分，每个具有指令编号(例如，断言指令P可以是指令编号(或“指令#”)10，并且断言指令Q可以是指令块内的指令#20)。示例断言指令(即，创建断言的指令)可以被看作是图9中的指令#11。

如本文中使用的，术语“断言指令”是指一种指令，其创建经由操作数缓冲器、广播信道、或任何其他递送机制传送的条件/断言(例如，断言操作数)。如本文中使用的，术语“断言的指令”是指接收断言(其可以经由操作数缓冲器、广播信道、或任何其他递送机制)的指令，并且指令执行根据条件(或断言)为“真”或“假”而被断言。

例如，断言指令P和Q中的每个具有相关联的条件(或断言)(例如，x>0)，其可以被评估为布尔真或假值(例如，真值可以由“1”位表示并且假值可以由“0”位表示，或反之亦然)。因此，取决于断言指令的条件是否被满足，一个或多个指令(例如，存储器访问指令，诸如存储器存储指令)可以在断言的“真”或“假”支臂(arm)之一上被执行。用于示例并且参考断言指令P，如果用于指令P的条件(或断言)被满足，则“真”支臂上的指令可以被执行，并且如果条件未被满足，则“假”支臂上的指令可以被执行。如在图8A中看到的，指令P的“真”支臂包括代码部分805A中的存储指令S1，并且指令P的“假”支臂包括代码部分805B中的存储指令S3和S5。类似地，指令Q的“真”支臂包括代码部分806A中的存储指令S7和S8，并且指令Q的“假”支臂包括代码部分806B中的存储指令S10。

在802处图示了通过LSID对存储器访问指令的排序，并且在803处图示了对应的存储掩码。存储掩码803可以使用“密集”标识符，并且可以在掩码中利用“1”位指示存储器存储指令，以及利用“0”位指示存储器加载指令。在示例实施例中，存储掩码803可以使用“非密集”标识符，其中掩码仅指示/标识存储器存储(并且它不标识存储器加载)。即使图8A图示了11位掩码，但是这是示例，并且可以基于给定指令块中的存储器访问指令的数目来使用更大的存储掩码。在示例实施例中，可以使用32位存储掩码，对应于指令块中的最多32个存储存储器访问(例如，存储器存储指令)。存储掩码803可以是01010101101，其指示具有LSID 1、3、5、7、8和10的存储器访问指令是存储器存储指令。

在断言指令P和Q的执行期间，取决于与断言指令相关联的条件被满足(即，“真”支臂)还是未被满足(即，“假”支臂)，每个指令的对应的“真”或“假”支臂中仅一个被采用。在这方面，仅是每个断言指令的两个支臂之一中的指令将随后执行。然而，由于在存储掩码中考虑了给定指令块中的所有存储器访问指令(例如，存储指令)，所以未执行的存储器访问指令(例如，断言指令的相对的未选择的路径中的存储器存储指令)可能导致指令块无法提交。因此，未执行的指令(诸如断言指令的未选择支臂中的指令)必须被无效，以便断言指令(以及后续整个指令块)提交。

空值生成表(NGT)804可以用于动态指令无效的目的。更具体地，在指令译码时，控制单元(例如，720)可以扫描指令块中的指令，并且可以基于例如块中的可用存储器访问指令(诸如存储器存储和存储器加载指令)来确定存储掩码803。控制单元还可以扫描经译码的指令并且确定哪些指令与断言相关联，并且针对断言指令中的每个断言指令，确定对应的“真”和“假”支臂中的哪些指令是存储指令。NGT 804可以被生成以使得它通过指令编号被索引，并且对于断言指令的“真”和“假”支臂中的每个支臂具有掩码值，其中掩码值指示为了断言指令发出哪些存储指令必须被无效。例如，断言指令P可以被索引为指令#10。掩码00010100000可以被输入在用于指令P的NGT 804的“真”列中，以指示存储指令S3和S5(位于断言的相对的“假”支臂中)在“真”支臂被选择时的情况下必须被无效。在这方面，如果指令P的“真”支臂被选择，则在指令S1被执行之后，存储指令S3和S5可以基于NGT 804的“真”列中的00010100000掩码(用于指令#10)而动态地被无效。

类似地，掩码01000000000可以被输入在用于指令P的NGT 804的“假”列中，以指示存储指令S1(位于断言指令P的相对的“真”支臂中)在断言条件未被满足并且假支臂被选择时的情况下必须被无效。在这方面，如果指令P的假支臂被选择，则在指令S3和S5被执行之后，存储指令S1可以基于NGT 804的“假”列中的01000000000掩码(用于指令#10)而动态地被无效。NGT 804的“真”和“假”列中的对应的无效掩码条目被列出用于第二断言指令，指令Q(其在表中列出为指令#20)。即使NGT 804被图示为具有128个指令条目，但是NGT的大小可以根据实施方式而变化。

在当一个或多个存储指令被动态地无效时的情况下，存储向量可以被更新以使得它反映所执行的被无效的指令(连同任何其他执行的指令)。存储向量可以被监测并且在所有存储器访问指令完成时，指令块可以被提交。

XI.指令的动态无效的示例方法

图8B是流程图800，其概述了可以在所公开的技术的某些示例中执行的指令的动态无效的示例方法。例如，图1的基于块的处理器100(包括上面在图2中描述的基于块的处理器核111)可以用于执行所概述的方法。在一些示例中，基于块的处理器的执行单元被配置为执行指令块中的存储器访问指令，并且硬件结构存储无效数据(例如，空值生成表)、指示存储器访问指令中的至少一些存储器访问指令的执行排序的数据(例如，存储掩码和存储向量)，并且基于块的处理器的控制单元被配置为至少部分地基于硬件结构数据来控制存储器访问指令向执行单元的发出。

在过程框810处，指令块被加载用于执行，并且存储掩码被产生用于当前执行的指令块。存储掩码包括指示多个存储器访问指令中的哪些是存储指令的数据。例如，一(“1”)可以被存储在如下的位处，该位对应于具有与存储器存储指令相关联的特定加载存储标识符(LSID)的存储指令，并且零(“0”)可以被存储用于与存储器加载指令相关联的LSID。如本文中使用的，存储器加载和存储指令是指在存储器上操作的处理器指令，而读取和写入指令是指寄存器读取和写入，例如去往和来自寄存器文件的读取和写入。存储掩码可以存储在由基于块的处理器核的控制单元可访问的寄存器中。在其他示例中，存储掩码存储在小型存储器中，或者使用其他合适的技术被存储。

存储掩码可以以任何合适的方式被产生。在一些示例中，存储掩码通过读取由生成指令块的编译器编码在指令块头部中的存储掩码而被产生。在一些示例中，存储掩码从存储先前生成的存储掩码的存储器位置被产生。例如，用于基于块的处理器程序的二进制文件可以包括区段，该区段存储用于程序中的任何数目的指令块的存储掩码。在一些示例中，先前生成的存储掩码从指令块的先前执行被高速缓存，并且不需要被重新生成用于指令块的后续实例。先前生成的存储掩码可以基于与针对断言指令的条件的特定结果(例如，“真”或“假”)相关联的一个或多个存储指令。然而，在块中的指令的执行期间，断言指令的条件可能具有不同的结果(即，如果先前的存储掩码是使用“真”支臂中的存储指令被确定的，则当前的指令执行导致采取断言指令的“假”支臂)。在这种情况下，先前生成的存储掩码将不正确，因为指令执行采取了与先前的存储掩码被计算时采取的路径不同的路径。

根据本公开的示例实施例，处理器可以通过基于指令块的过去执行(例如，通过跟踪和记录过去执行路径的数据)计算最可能的执行路径来生成存储掩码。处理器可以在预测的路径上接收操作(例如，写入和存储)的计数，并且然后仅将LSID指配给预测的路径，以相应地构建存储掩码。如果除了预测的路径以外在块执行时被采用，则处理器冲刷块。

在一些示例中，通过在译码指令块的指令时生成新存储掩码来产生存储掩码。例如，随着每个加载指令和存储指令由指令译码器译码，LSID字段被提取并且存储掩码中的适当位可以被设置以指示LSID是对应于加载指令还是存储指令。在一些示例中，多于一位被用来编码和存储掩码中的LSID，例如在不关心或空LSID的情况下。一旦存储掩码已经被产生，该方法继续进行到过程框812。在一些示例中，存储掩码从执行它的指令块的先前实例生成。在一些示例中，由译码存储器访问指令的指令译码器生成。

在过程框812处，下一指令可以被获得，用于译码、发出和执行。在过程框815处，可以确定所获得的指令是创建断言的断言指令(例如，图8A中的指令P)。断言指令可以具有与其相关联的条件，并且可以确定条件是否被满足(例如，断言的真侧还是假侧将被采用)。作为示例，断言指令P的条件可以被满足，并且“真”侧的指令可以被获得用于执行(例如，指令S1)。

在过程框820处，无效数据可以从空值生成表(NGT)804中被获得。例如，用于断言指令P(指令#10)的真列中的掩码指示存储指令S3和S5应当被无效。在过程框825处，由NGT804指示的存储指令(例如，指令S3和S5)动态地被无效。

在过程框830处，所获得的指令可以被执行并且存储向量可以被更新。在一些示例中，至少部分地基于指令块内编码的LSID和存储向量寄存器(其存储指示存储器存储指令中的哪些存储器存储指令已经执行的数据)，来选择存储器加载或存储器存储指令以执行。因此，指令可以随着它的存储器依存性已经被满足而继续执行。

存储向量可以具有与指令块内的每个LSID相对应的位。当带有编码的LSID的加载或存储指令执行时，那么存储向量中的对应位被设置。因此，存储向量可以指示指令块中的哪些存储器访问指令已经执行。在其他示例中，其他技术可以用来更新存储向量，如下面进一步详细讨论的，例如可以使用计数器替代存储向量。应当注意，在一些示例中，LSID对块中的每个指令是唯一的。换言之，每个LSID值在指令块内可以仅使用一次。在其他示例中，相同的LSID可以被编码用于两个或更多指令，例如，在断言指令的情况下。因此，根据真条件断言的指令集可以使它们的LSID中的一些或全部与根据假值断言的对应指令相交叠。一旦存储向量被更新，该方法继续进行到过程框834。

在过程框834处，可以确定是否所有指令都已经被执行并且块完成。如果块未完成，则在下一指令被获得用于处理时，处理可以在框812处恢复。如果块完成，则在835处，可以基于例如更新后的存储向量来确定指令块是否可以被提交。例如，如果存储向量指示已经被指配LSID的所有存储指令已经执行，则指令块可以被提交。如果在过程框835处确定指令块不能被提交，则块可以被冲刷(在836处)并且处理可以在810处再次开始。在过程框840处，指令块可以被提交。

在流程图800中概述的方法的一些示例中，基于块的处理器核包括指令单元，指令单元被配置为执行编码有多个指令的指令块，其中包括存储器访问指令的指令中的每个指令可以基于接收到针对相应指令指定的依存性而发出。处理器核进一步包括控制单元，控制单元被配置为至少部分地基于硬件结构中存储的数据(其指示指令块内的加载和存储的相对排序)来控制指令块中的存储器加载和/或存储器存储指令向执行单元的发出。在一些示例中，硬件结构可以是存储掩码、内容可寻址存储器(CAM)或查找表。在一些示例中，数据存储在从执行指令块的先前时刻生成的硬件结构中。在一些示例中，数据存储在来自从用于指令块的指令块头部译码的数据的硬件结构中。在一些示例中，控制单元包括存储向量寄存器，其用于存储指示存储器访问指令中的哪些存储器访问指令(例如，存储器加载和/或存储器存储指令)已经执行的数据。在一些示例中，处理器核控制单元被配置为阻止指令块的提交，直到存储向量指示所有存储器访问指令已经执行。

在一些示例中，处理器控制单元包括计数器，计数器在存储器加载或存储器存储指令被执行时被更新(例如，被递增)，并且当计数器达到用于存储器访问指令的数目的预定值时，指令块被指示为被完成。在一些示例中，处理器核被配置为执行断言的指令，包括断言的存储器访问指令。下面参考图12在本文中描述使用指令计数器的本公开的示例实施例。

XII.示例源代码和目标代码

图9图示了可以在所公开的技术的某些示例中使用的用于基于块的处理器的源代码910和对应的汇编代码920的示例。源代码910包括if/else语句。if/else语句的每个部分中的语句包括对数组A和B的多个存储器读取和存储器写入。当源代码910被转换为目标代码时，多个加载和存储汇编指令将被生成。

用于源代码部分910的汇编代码920包括被编号0至24的25个指令。汇编指令指示多个字段，例如指令操作码，由指令指定的源数据，例如广播标识符或立即参量，加载存储ID标识符，以及目标指定。汇编代码包括寄存器读取指令(0-3)、寄存器写入指令(指令24)、算术指令(例如，指令3和4)、以及用于将数据发送到多个目标的移动指令(例如，移动指令5和6)。汇编代码920还包括测试指令11，测试指令11如果大于将在广播信道2上生成断言值的指令则为测试。进一步地，汇编代码包括两个未断言的存储器加载指令7和8、以及一个断言的加载指令16。加载指令23也不是断言的。汇编代码920还包括多个存储器存储指令，它们将把数据存储到存储器地址，例如，断言的存储指令12、13和18、以及未断言的存储指令21。如汇编代码920中示出的，加载和存储指令中的每个已经被指配唯一的LSID。例如，加载指令7被指配给LSID 0，加载指令8被指配给LSID 1，并且断言的存储指令12被指配给LSID2。LSID指示指令将被执行的相对排序。例如，指令12和13取决于首先执行的加载指令7和8。这个顺序被强制，因为加载指令7和8用于生成将由存储指令12和13存储的值。在一些示例中，两个或更多加载存储指令可以共享LSID。在一些示例中，LSID被指令集架构要求是邻接的，而在其他示例中，LSID可以是稀疏的(例如，中间LSID值被跳过)。还应当注意，在一些示例中，块中的指令的推测性或乱序执行可以被执行，但是处理器仍然必须维持语义，就好像由LSID指定的存储器依存性没有被违反。

汇编代码部分920可以被转换成用于由基于块的处理器实际执行的机器代码。

XIII.示例控制流程图

图10图示了针对上面关于图9描述的汇编代码920生成的控制流程图1000。为了便于图示，控制流程图1000以包括节点和边图形形式被描绘，但是对相关领域的普通技术人员将容易明显的，可以以其他形式表示。为了便于解释，仅是来自汇编代码920的加载和存储指令被示出在控制流程图中，但是应当理解，其他指令将由控制流程图的节点根据每个相应指令的依存性和断言来放置或参考。

如所示出的，第一节点1010包括分别与LSID 0和1相关联的加载指令7和8。指令7和8是未断言的，并且在它们的操作数可用时可以尽快发出和执行。例如，汇编代码移动指令5发送与a[i]相关联的存储器地址以移动指令5，指令5进而将地址发送到加载指令7。加载指令7在地址可用时可以尽快执行。其他指令(诸如读取指令0到2)也可以被执行而不参考断言。

如果节点1020由于条件指令11而被生成，则其通过比较两个值(例如，对于一个操作数大于另一操作数的测试)来生成布尔值。如果测试指令的左操作数大于断言条件值为真，并且则仅是用于代码部分1030的指令将执行。相反地，如果条件值为假，则代码部分1035将执行。在所公开的基于块的处理器架构中，这可以被执行而不使用分支或跳转，因为相关联的指令被断言。例如，指令12是在广播信道2上被断言的存储指令，其由测试指令11生成。类似地，如果广播断言的值为假，则指令16将执行。代码部分1030中的存储指令与LSID 2和3相关联，而代码部分1035中的加载和存储指令与LSID 4和5相关联。随着指令中的每个指令执行，存储向量被更新以指示指令已经执行。另外，基于与节点1020中的断言指令相关联的条件是否被满足，无效数据可以用来无效来自代码部分1030或1035的存储指令中的一个或多个。

控制流程图1000还包括结合节点1040，其表示转变回到源代码910的if/else语句之外包含的语句。例如，代码部分1050的指令21和23被放置为超出if/else语句。指令21和23如所示出的具有LSID6和7。应当注意，生成汇编代码920的编译器没有将存储器访问指令21和23与代码部分1010一起放置，因为它们可能依赖于代码部分1030或1035内生成的值。例如，加载指令23在索引2处从数组b读取，其可以由或不可以由代码部分1035的存储指令18写入。应当注意，尽管存储器访问指令根据由LSID编码的相对排序被执行，但是指令也将在发出之前等待其他依存性。

XIV.示例空值生成表

图11图示了可以在所公开的技术的某些示例中使用的空值生成表的另一示例。参考图11，存储掩码1100与汇编代码920中利用LSID0-7标识的存储器访问指令相关联。更具体地，存储掩码1100可以表示为00110110，每个“0”位指示存储器加载指令并且每个“1”位指示存储器存储指令。

对于节点1020中的断言指令(即，汇编代码920中列出的指令编号11)，如果断言或条件(a[i]>a[i+1])被满足，则代码部分1030中的存储器访问指令将执行，并且如果条件未被满足，则代码部分1035中的存储器访问指令将执行。因此，在断言的一侧的存储器访问指令(例如，存储器存储指令12/13或18)的执行期间，在断言的相对侧的存储器存储指令可以被动态地无效，以使得断言指令可以发出并且指令块可以最终提交。在这方面，空值生成表(NGT)1110可以被生成并且在存储指令的动态无效期间被使用。NGT 1110可以通过指令编号(例如，列1112)被索引，并且可以包括无效数据，无效数据用于在断言指令的条件被满足时(例如，列1114)或在条件未被满足时(例如，列1116)使指令无效。

对于在节点1020中列出的断言指令编号11的具体示例，当条件被满足时的无效数据指示掩码00000100，其对应于具有LSID 5的存储器访问指令(即，在断言的相对的“假”支臂上的代码块1035中的存储指令编号18)。类似地，当条件未被满足时的无效数据指示掩码00110000，其对应于具有LSID 2和3的存储器访问指令(即，在断言的相对的“真”支臂上的代码块1030中的存储指令编号12和13)。由来自NGT 1110的无效数据所指示的对应的存储器存储指令可以被动态地无效，并且存储向量可以被调节以指示所执行的这样的被无效的指令。

除了用于调节存储向量或计数器以便指示下一存储器访问指令准备好发出之外，无效(例如，NULL)指令不改变处理器的状态。例如，如果节点1030处的断言被采用，则将有两个存储指令被发出(指令12和13)。然而，存储掩码也将包括节点1035中的存储指令(指令#18)，并且如果节点1030被采用，则节点1035中的指令编号18必须被无效以平衡在存储掩码和存储向量中指示的加载存储ID。在其他示例中，不平衡条件可以由处理器控制单元识别并且LSID可以被自动地无效，而不使用空指令。

XV.基于指令计数的示例空值生成表

图12图示了可以在所公开的技术的某些示例中使用的空值生成表的又另一示例。参考图12，图示了用于断言指令P 1202(例如，指令块中的指令#6)的依存性图1210。断言指令包括在断言的“真”支臂中的四个存储器存储指令(代码块1204中的S0-S3)以及在断言的“假”支臂中的五个存储器存储指令(代码块1206中的S4-S8)。空值表(NGT)1230可以被生成，其中“真”列和“假”列指示对应的断言支臂中的指令的总数，而不是标识用于无效的相对支臂中的存储指令。在这方面，NGT 1230指示“真”列中的总共4个指令和“假”列中的总共5个指令。

在指令执行期间以及在指令P的条件被确定(即，“真”侧还是“假”侧的指令将执行)之后，NGT 1230可以被访问并且来自“真”或“假”列的指令的对应总数可以被加载到指令计数器1220中。例如，如果断言指令P的“真”条件被满足，则值4被加载到指令计数器1220中。在指令的总数被加载到计数器1220中之后，断言的“真”支臂中的指令的执行可以发生，以在每个指令执行之后调节计数器。更具体地，指令S0-S4可以被执行，并且计数器1220从4向下计数到0。当计数器1220已经达到0时，处理可以继续进行到后续指令。在这方面，通过使用来自NGT 1230的全部指令信息，将这个信息加载到指令计数器1220中，并且在每个指令被执行之后调节计数器，将不需要执行来自断言的相对(未选择的)侧的指令的无效。

XVI.动态无效的示例方法

图13是流程图，其概述了可以在所公开的技术的某些示例中使用的存储器访问指令的动态无效的示例方法。参考图8A和图13，当指示多个存储器加载指令和/或存储器存储指令的执行排序的数据可以被生成时，示例方法1300可以在过程框1310处开始。例如，存储掩码803可以被生成，其指示存储器访问指令(例如，存储器加载和存储指令)的执行排序。在过程框1320处，断言指令可以在指令执行期间被检测。例如，断言指令P(指令#10)可以被检测。在过程框1330处，与断言指令相关联的无效数据被检索。例如，如果与指令P相关联的条件被满足，则00010100000掩码可以从NGT 804的“真”列中检索。检索到的无效数据基于断言指令的条件是否被满足来标识存储器存储指令中的至少一个存储器存储指令(例如，断言的“假”支臂中的存储指令S3和S5)用于无效。在过程框1340处，多个存储器加载和/或存储器存储指令中的至少一个的发出基于检索到的无效数据而被控制。更具体地，在断言路径被选择并且相对路径上的存储指令基于NGT无效数据动态地被无效之后，则断言指令可以发出并且针对剩余指令的指令执行可以继续进行。

XVII.编译空值生成表的示例方法

图14是流程图1400，其概述了可以在所公开的技术的某些示例中执行的将源代码和/或目标代码转换成基于块的处理器可执行代码并且编译一个或多个空值生成表的示例方法。例如，通用处理器和/或基于块的处理器可以用来实施图14中概述的方法。在一些示例中，代码由编译器转换并且被存储为可以由基于块的处理器(例如，基于块的处理器100)执行的目标代码。在一些示例中，即时编译器或解释器在运行时生成计算机可执行代码。

在过程框1410处，源代码和/或目标代码中编码的存储器引用被分析以确定存储器依存性。例如，存储器依存性可以简单地是存储器访问指令被布置在程序中的顺序。在其他示例中，可能要由存储器访问指令写入的存储器地址可以被分析，以确定指令块中的加载存储指令之间是否有重叠。在一些示例中，确定存储器依存性包括识别指令块中的两个存储器访问指令，存储器访问指令中的第一存储器访问指令根据存储器访问指令中的第二存储器访问指令的互补条件而被断言，并且基于该识别，向第一和第二存储器访问指令指配相同的标识符。在分析存储器引用之后，该方法继续进行到过程框1420。

在过程框1420处，源代码和/或目标代码被转换成基于块的计算机可执行代码，其包括指令块中的存储器访问指令的相对排序的指示。例如，LSID值可以被编码在指令中。在其他示例中，相对排序由块内的指令位置指示。在一些示例中，存储掩码被生成并且被存储为用于指令块的指令块头部。在一些示例中，存储掩码指示加载/存储标识符中的哪些对应于存储存储器访问指令。在一些示例中，特殊指令被提供以便将存储掩码加载到控制单元的存储器中用于在对存储向量加掩码时使用。一旦代码已经被转换成基于块的处理器代码，它可以被存储在计算机可读存储介质中，或者经由计算机网络传输到另一位置用于由基于块的处理器的执行。在一些示例中，存储掩码可以例如在指令译码时间期间动态地被生成。

在过程框1430处，一个或多个空值生成表(例如，NGT 804、1110、1230)可以在指令执行之前被生成。如上面参考图8A、图11和图12在本文中讨论的，NGT可以包括用于断言指令的每个条件的条目，包括无效数据或总计数指令数目数据。

XVIII.示例性计算环境

图15图示了所描述的实施例、技术和工艺(包括配置基于块的处理器)可以被实施在其中的合适的计算环境1500的一般化示例。例如，计算环境1500可以实施如本文描述的所公开的技术，用于配置处理器以根据一个或多个指令块进行操作，或者将代码编译成用于执行这种操作的计算机可执行指令。

计算环境1500不旨在提出关于技术的使用或者功能的范围的任何限制，因为技术可以被实施在不同的通用或者专用计算环境中。例如，所公开的技术可以利用其他计算机系统配置被实施，包括手持式设备、多处理器系统、可编程消费者电子产品、网络PC、微型计算机、大型计算机，等等。所公开的技术还可以被实践在分布式计算环境中，其中任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块(包括用于基于块的指令块的可执行指令)可以被定位在本地存储器存储设备和远程存储器存储设备二者中。

参考图15，计算环境1500包括至少一个基于块的处理单元1510和存储器1520。在图15中，该最基本配置1530被包括在虚线内。基于块的处理单元1510执行计算机可执行指令并且可以是真实处理器或者虚拟处理器。在多处理系统中，多个处理单元执行计算机可执行指令以增加处理能力，并且如此多个处理器可以同时运行。存储器1520可以是易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪速存储器等)、或者两者的组合。存储器1520存储可以例如实施在此所描述的技术的软件1580、图像和视频。计算环境可以具有附加的特征。例如，计算环境1400包括存储装置1540、一个或多个输入设备1550、一个或多个输出设备1560以及一个或多个通信连接1570。互连机制(未示出)(诸如总线、控制器或者网络)将计算环境1500的部件相互连接。通常，操作系统软件(未示出)提供用于在计算环境1500中执行的其他软件的操作环境，并且协调计算环境1500的部件的活动。

存储装置1540可以是可移除或者不可移除的，并且包括磁盘、磁带或者磁带盒、CD-ROM、CD-RW、DVD或者可以用于存储信息并且可以在计算环境1500内访问的任何其他介质。存储装置1540存储用于软件1580的指令、插入数据和消息，其可以用于实施在此所描述的技术。

(一个或多个)输入设备1550可以是触摸输入设备，诸如键盘、小键盘、鼠标、触屏显示器、笔或轨迹球、语音输入设备、扫描设备或者向计算环境1500提供输入的另一设备。对于音频而言，(一个或多个)输入设备1550可以是以模拟或者数字形式接受音频输入的声卡或者类似设备，或者向计算环境1500提供音频样本的CD-ROM读取器。(一个或多个)输出设备1560可以是显示器、打印机、扬声器、刻录机或者提供来自计算环境1500的输出的另一设备。

(一个或多个)通信连接1570允许通过通信介质(例如，连接网络)与另一计算实体的通信。通信介质传达诸如计算机可执行指令、压缩图形信息、视频或者调制数据信号中的其他数据的信息。(一个或多个)通信连接1570不限于有线连接(例如，兆比特或吉比特以太网、无限带宽、电气或光纤连接上的光纤信道)，而且包括无线技术(例如，经由蓝牙、WiFi(IEEE 802.11a/b/n)、WiMax、蜂窝、卫星、激光、红外的RF连接)以及用于提供用于所公开的方法的网络连接的其他适合的通信连接。在虚拟主机环境中，(一个或多个)通信连接可以是由虚拟主机所提供的虚拟化网络连接。

可以使用实施计算云1590中的所公开的技术的全部或部分的计算机可执行指令执行所公开的方法的一些实施例。例如，所公开的编译器和/或基于块的处理器的服务器被定位在计算环境中，或者所公开的编译器可以在被定位在计算云1590中的服务器上执行。在一些示例中，所公开的编译器在传统的中央处理单元(例如，RISC或者CISC处理器)上执行。

计算机可读介质是可以在计算环境1500内访问的任何可用介质。以示例而非限制的方式，利用计算环境1500，计算机可读介质包括存储器1520和/或存储装置1540。如应当容易理解的，术语计算机可读存储介质包括用于数据存储的介质(诸如存储器1520和存储装置1540)而非传输介质(诸如调制数据信号)。

XIX.所公开的技术的附加示例

根据上面讨论的示例在本文中讨论了所公开的主题的另外示例。本领域的普通技术人员将容易理解，本文中描述的示例性系统、方法和装置不应当被解释为以任何方式进行限制，并且不限于任何特定方面或特征或其组合。

在所公开的技术的一些示例中，一种装置包括存储器和一个或多个基于块的处理器核。核中的至少一个核包括被配置为执行存储器访问指令的执行单元，存储器访问指令包括指令块中包含的多个存储器加载和/或存储器存储指令。核进一步包括硬件结构，硬件结构存储用于指令块中的至少一个断言的指令的数据，数据标识如果断言的指令的条件被满足则存储器存储指令中的一个或多个存储器存储指令是否将发出。核进一步包括控制单元，控制单元被配置为至少部分地基于硬件结构数据来控制存储器访问指令向执行单元的发出。硬件结构进一步被配置为存储指示存储器访问指令中的至少一些存储器访问指令的执行排序的数据。指示执行排序的数据至少部分地基于针对指令块中的存储器访问指令中的每个存储器访问指令而编码的加载/存储标识符(LSID)。控制单元进一步被配置为基于硬件结构数据发出一个或多个空存储指令。控制单元包括存储向量寄存器，存储向量寄存器存储指示存储器访问指令中的哪些已经执行的存储向量数据。控制单元进一步被配置为基于硬件结构数据修改存储向量数据，以指示如果断言指令的条件被满足则存储器存储指令中的一个或多个未发出指令已经发出。控制单元进一步被配置为将存储向量数据与存储掩码数据相比较以确定存储器存储指令中的哪些已经执行。存储掩码数据指示存储器访问指令中的至少一些存储器访问指令的执行排序。控制单元进一步被配置为将存储向量数据与存储掩码数据相比较以确定被排序在存储器访问指令中的当前存储器访问指令之前的所有存储器存储指令已经执行，并且基于该确定向执行单元发出当前存储器访问指令。硬件结构是内容可寻址存储器(CAM)或查找表。硬件结构中存储的数据由译码存储器访问指令的指令译码器生成。

在所公开的技术的一些示例中，一种操作处理器以执行包括多个存储器加载和/或存储器存储指令的指令块的方法包括：生成指示多个存储器加载和/或存储器存储指令的执行排序的数据；在指令执行期间检测断言指令；以及检索与断言指令相关联的无效数据。无效数据的至少一部分基于断言指令的条件是否被满足来标识存储器存储指令中的至少一个存储器存储指令用于无效。多个存储器加载和/或存储器存储指令中的至少一个基于检索到的无效数据被发出。无效数据存储在通过断言指令编号来索引的空值生成表中。如果条件被满足，则无效数据标识存储器存储指令的第一子集用于无效，并且如果条件未被满足，则标识存储器存储指令的不相交的第二子集用于无效。指示多个存储器加载和/或存储器存储指令的执行排序的数据是在运行时间期间生成的存储掩码。存储器存储指令的总计数在指令块被译码之后生成。当存储器存储指令之一被执行时，计数器被递增或递减。无效数据的至少一部分包括将基于断言指令的条件是否被满足来执行的存储指令的数目。计数器基于无效数据中的存储指令的数目被调节。断言指令在计数器达到总计数时被发出。

在所公开的技术的一些示例中，一个或多个计算机可读存储介质存储计算机可读指令，计算机可读指令在由基于块的处理器执行时使得处理器执行方法，计算机可读指令包括用于译码用于指令块的多个指令的指令，多个指令包括存储器存储指令。计算机可读指令进一步包括用于检测多个指令中的一个或多个断言指令的指令，一个或多个断言指令中的每个具有相关联的条件。对于一个或多个断言指令中的每个，第一和第二掩码被生成。第一掩码指示存储指令中的至少一个存储指令，如果相关联的条件为“真”则其将执行，并且第二掩码指示存储指令中的至少另一存储指令，如果相关联的条件为“假”则其将执行。计算机可读指令进一步包括用于将所生成的第一掩码和第二掩码存储在空值生成表中的指令。空值生成表通过与一个或多个断言指令中的每个相关联的指令编号而被索引。

鉴于所公开的主题的原理可以应用的许多可能实施例，应当认识到所图示的实施例仅是优选的示例并且不应该当作将权利要求的范围限于那些优选的示例。相反，要求保护的主题的范围由所附的权利要求进行限定。我们因此根据我们的发明要求保护落在这些权利要求的范围内的全部内容。

Claims

1.一种包括存储器和一个或多个基于块的处理器核的装置，所述核中的至少一个核包括：

执行单元，被配置为执行存储器访问指令，所述存储器访问指令包括指令块中包含的多个存储器加载和/或存储器存储指令；

硬件结构，存储用于所述指令块中的至少一个断言指令的数据，所述数据标识在所述断言指令的条件被满足的情况下所述存储器存储指令中的一个或多个存储器存储指令是否将发出；以及

控制单元，被配置为至少部分地基于所述硬件结构数据来控制所述存储器访问指令向所述执行单元的发出。

2.根据权利要求1所述的装置，其中所述硬件结构进一步被配置为：存储指示所述存储器访问指令中的至少一些存储器访问指令的执行排序的数据。

3.根据权利要求2所述的装置，其中指示执行排序的所述数据至少部分地基于针对所述指令块中的所述存储器访问指令中的每个存储器访问指令而编码的加载/存储标识符(LSID)。

4.根据权利要求2所述的装置，其中所述控制单元进一步被配置为基于所述硬件结构数据来发出一个或多个空存储指令。

5.根据权利要求1所述的装置，其中所述控制单元包括存储向量寄存器，所述存储向量寄存器存储指示所述存储器访问指令中的哪些存储器访问指令已经执行的存储向量数据，并且其中所述控制单元进一步被配置为基于所述硬件结构数据来修改所述存储向量数据，以指示在所述断言指令的所述条件被满足的情况下所述存储器存储指令中的一个或多个未发出指令已经发出。

6.根据权利要求1所述的装置，其中所述控制单元包括存储向量寄存器，所述存储向量寄存器存储指示所述存储器访问指令中的哪些存储器访问指令已经执行的存储向量数据，并且其中所述控制单元进一步被配置为：

将所述存储向量数据与存储掩码数据相比较以确定所述存储器存储指令中的哪些存储器存储指令已经执行，所述存储掩码数据指示所述存储器访问指令中的至少一些存储器访问指令的执行排序；以及

将所述存储向量数据与所述存储掩码数据相比较以确定被排序在所述存储器访问指令中的当前存储器访问指令之前的所有存储器存储指令已经执行，并且基于所述确定向所述执行单元发出所述当前存储器访问指令。

7.根据权利要求1所述的装置，其中所述硬件结构中存储的所述数据由译码所述存储器访问指令的指令译码器生成。

8.一种操作处理器以执行指令块的方法，所述指令块包括多个存储器加载和/或存储器存储指令，所述方法包括：

生成指示所述多个存储器加载和/或存储器存储指令的执行排序的数据；

在指令执行期间检测断言指令；

检索与所述断言指令相关联的无效数据，所述无效数据的至少一部分基于所述断言指令的条件是否被满足来标识所述存储器存储指令中的至少一个存储器存储指令用于无效；以及

基于检索的所述无效数据，发出所述多个存储器加载和/或存储器存储指令中的至少一个存储器加载和/或存储器存储指令。

9.根据权利要求8所述的方法，其中所述无效数据存储在通过断言指令编号来索引的空值生成表中。

10.根据权利要求8所述的方法，其中所述无效数据在所述条件被满足的情况下标识所述存储器存储指令的第一子集用于无效，并且在所述条件未被满足的情况下标识所述存储器存储指令的不相交的第二子集用于无效。

11.根据权利要求8所述的方法，其中指示所述多个存储器加载和/或存储器存储指令的执行排序的所述数据是在运行时间期间生成的存储掩码。

12.根据权利要求8所述的方法，进一步包括：

在所述指令块被译码之后，生成所述存储器存储指令的总计数；以及

当所述存储器存储指令之一被执行时，递增或递减计数器，

其中所述无效数据的至少一部分包括将基于所述断言指令的所述条件是否被满足而执行的存储指令的数目。

13.根据权利要求12所述的方法，进一步包括：

基于所述无效数据中的存储指令的所述数目来调节所述计数器；以及

当所述计数器达到所述总计数时，发出所述断言指令。

14.一个或多个计算机可读存储介质，存储用于指令块的计算机可读指令，所述计算机可读指令在由基于块的处理器执行时，使得所述处理器执行方法，所述计算机可读指令包括用于以下的指令：

译码用于所述指令块的多个指令，所述多个指令包括存储器存储指令；

检测所述多个指令中的一个或多个断言指令，所述一个或多个断言指令中的每个断言指令具有相关联的条件；以及

对于所述一个或多个断言指令中的每个断言指令，生成：

第一掩码，指示在所述相关联的条件为“真”的情况下将执行的、所述存储指令中的至少一个存储指令；以及

第二掩码，指示在所述相关联的条件为“假”的情况下将执行的、所述存储指令中的至少另一存储指令。

15.根据权利要求14所述的计算机可读存储介质，其中所述计算机可读指令进一步包括：

用于将生成的所述第一掩码和所述第二掩码存储在空值生成表中的指令，其中所述空值生成表通过与所述一个或多个断言指令中的每个断言指令相关联的指令编号来索引。