CN107810486A

CN107810486A - 锁定用于原子地执行的指令组的操作数的值

Info

Publication number: CN107810486A
Application number: CN201680037789.5A
Authority: CN
Inventors: D·伯格
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-06-26
Filing date: 2016-06-23
Publication date: 2018-03-16
Anticipated expiration: 2036-06-23
Also published as: WO2016210021A1; CN107810486B; US20160378495A1; US10191747B2; EP3314397A1

Abstract

提供了一种方法，其包括：取回指令组，其包括用于该指令组的组头部，其中指令组被配置成由处理器执行，并且其中组头部包括字段，其包括用于至少一个操作数的锁定信息。该方法还包括：将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中，并且基于该锁定信息，锁定缓冲器的至少一个操作数中的至少一个操作数的值，使得响应于完成指令组的执行，至少一个操作数不从处理器的至少一个操作数缓冲器中被清除。

Description

锁定用于原子地执行的指令组的操作数的值

背景技术

指令集体系架构(ISA)和处理器的设计者进行功率和性能权衡。作为示例，如果设计者选择具有递送更高性能的指令的ISA，那么处理器的功耗也可能更高。备选地，如果设计者选择具有消耗较低功率的指令的ISA，则性能可能会更低。功耗可能依赖于与在执行期间由指令使用的处理器的硬件资源(诸如算术逻辑单元(ALU)，高速缓存线或寄存器)的量。使用大量这样的硬件资源可能以更高的功耗为代价传递更高的性能。备选地，使用少量这样的硬件资源可能导致以较低的性能为代价产生较低的功耗。

编译器被用来将高级代码编译成与ISA和处理器架构兼容的指令。在所编译的指令的执行期间，与被执行的指令有关的任何操作数被处理。

发明内容

在一个示例中，本公开涉及针对原子地执行的指令组锁定处理器的操作数缓冲器中的操作数。在一个方面中，一种方法包括：取回指令组，其被配置成由处理器执行，该指令组包括用于指令组的组头部，其中组头部具有包括用于至少一个操作数的锁定信息的字段。该方法还可以包括：将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中。该方法还可以包括：基于锁定信息，锁定处理器的至少一个操作数缓冲器中的至少一个操作数，使得响应于完成指令组的执行，该至少一个操作数不会从该处理器的至少一个操作数缓冲器中被清除。

在另一方面中，提供了一种处理器，其包括前端控制单元，其被配置为：(1)取回指令组，其中指令组被配置成由处理器执行；以及(2)将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中。该处理器还可以包括后端控制单元，其被配置成使用与至少一个操作数相关联的至少一个控制位来锁定处理器的至少一个操作数缓冲器中的至少一个操作数的值，使得响应于完成指令组的执行，至少一个操作数不会从处理器的至少一个操作数缓冲器中被清除。

在又一方面中，提供了一种方法，其包括：将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中，其中处理器被配置为执行指令组。该方法还可以包括：在第一模式下操作处理器，其中在第一模式下操作处理器包括：在完成第一指令组的执行之后：(1)到回第二指令组用于由处理器执行；以及(2)不清除处理器的至少一个操作数缓冲器中的至少一个操作数的值。该方法还可以包括：在第二模式下操作处理器，其中在第二模式下操作处理器包括：在完成第三指令组的执行之后：(1)取回第四指令组用于由处理器执行；以及(2)清除处理器的至少一个操作数缓冲器中的至少一个操作数的值。

提供本发明内容是为了以简化形式介绍下文将在具体实施方式中进一步描述的概念的选择。本发明内容部分不旨在标识所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

本公开通过示例被图示，并且不受附图限制，在附图中，相同附图标记指示类似元件。为了简单和清楚起见，附图中的元件被图示，并且不一定按比例绘制。

图1是根据一个示例的代表性处理器的框图；

图2是根据一个示例的后端单元的一部分及其与代表性处理器的接口的框图；

图3是根据一个示例的方法的流程图；

图4是根据一个示例的方法的流程图；以及

图5是根据一个示例的方法的流程图。

具体实施方式

在本公开中描述的示例涉及指令集体系架构(ISA)和处理器，其可以具有以组(例如，指令块)组织的指令，这些指令被原子取指、执行和提交。因此，处理器可以整体取回属于单个组的指令，将它们映射到处理器内部的执行资源，执行指令并且以原子方式提交它们的结果。处理器可以提交所有指令的结果或使整个组的执行无效。组内部的指令可以按数据流次序执行。另外，处理器可以准许组内部的指令直接相互通信。产生结果的指令可以代替将结果写入寄存器文件，而将该结果传送给消耗结果的另一指令。作为示例，将存储在寄存器R1和R2中的值相加的指令可以如表1所示来表达：

I[0]读取R1 T[2R]；
	I[1]读取R2 T[2L]；
I[2]加T[3L].

这样，源操作数不用指令指定；相反，它们将由以ADD指令为目标的指令指定。编译器可以在指令的编译期间显式编码控制和数据依赖性，并且从而可以使处理器在运行时间免于重新发现这些依赖性。这可以有利地导致在这些指令的执行期间减少的处理器加载并且节能。作为示例，编译器可以使用预测来将所有控制依赖性转换成数据流指令。使用这些技术，可以减少对耗电的寄存器文件的访问次数。下面的表2示出了针对这样的指令的通用指令格式的示例：

操作码

PR

BID

XOP

目标1

目标2

每条指令可以具有合适的大小，诸如32位，64位或另一大小。在表2所示的示例中，每条指令可以包括操作码(“OPCODE”)字段，PR(预测)字段，BID(广播ID)字段，XOP(扩展的操作码)字段，目标1字段和目标2字段。操作码字段可以针对指令或指令组指定专用操作码，诸如添加，读取，写入或乘法。PR(预测)字段可以指定与指令相关联的任何预测。作为示例，可以使用两位PR字段，如下：00-未被预测，01-被保留，10-预测为假，11-预测为真。因此，例如，如果指令只有在比较结果为真的情况下才执行，则可以在执行比较的另一指令的结果来预测该指令。BID(广播ID)字段可以支持向组中的任意数目的消费者指令发送操作数。2位BID字段可以被用来编码指令在其上接收其操作数中的一个操作数的广播信道。XOP(扩展操作码)字段可以支持扩展操作码的类型。目标1和目标2字段可以允许高达两个将被编码目标指令。目标字段可以指定生产者指令的结果的消费者指令，从而准许在指令之间的直接通信。

当与该指令相对应的所有就绪位被设置为逻辑高(或逻辑低)时，指令可以被准备好由指令调度器发出。当用于加指令的两个操作数已经被计算出来时，诸如加指令的指令可能已经准备好被调度或发出。作为示例，针对ADD指令的左操作数可能存在一个就绪位，针对ADD指令的右操作数可能存在另一就绪位。在另一示例中，预测指令当预测已经被评估时可以就绪。因此，例如，如果预测指令根据真值来预测，则一旦真值被评估，该指令就可以准备好被发出。在简化示例中，指令在被发出之前可能正在等待四个输入：真预测，假预测，左操作数和右操作数。其他指令可能没有需要等待的任何输入，诸如来自某些寄存器的操作数的ADDI(立即添加)或读取值。另外，某些结果可能需要被传送给几条指令，并且在这种情况下，需要结果的指令可能会收听广播信道。例如，某些预测指令(诸如分支指令)可能只有在其预测为真或假时才可以执行。两个预测分支指令(例如，BRO.T和BRO.F)都可以收听某个信道上的广播。将收到匹配预测的分支可能会触发。作为另一示例，某些加载指令也可以收听信道，并且当在该信道上的操作数是可用的时，它们可能会触发。当在广播ID(BID)上等待的广播指令从以它们为目标的指令接收到就绪位时，它们可能已经就绪。

每个指令组可以具有与指令组相关联的某些信息，诸如与指令组有关的控制信息和/或元信息。该信息可以通过编译器在将诸如C或C++之类的较高级代码编译成用于在与本公开一致的处理器上执行的指令期间生成。在编译指令组和在运行时间期间检查指令的性质期间，该信息中的一些信息可以由编译器提取。附加地或备选地，与指令组相关联的信息可以是关于指令组的元信息。在一个示例中，这样的信息可以被提供给使用特殊指令或指令的处理器，该特殊指令或指令提供与寄存器或其他存储器有关的目标编码，该目标编码可以具有与指令组相关联的相关信息。在特殊指令的情况下，这些指令的操作码字段可以用于传送与指令组有关的信息。在另一示例中，这样的信息可以被维持为处理器状态字(PSW)的一部分。在一个示例中，该信息可以有利地帮助处理器更有效地执行指令组。可以使用组头部，使用特殊指令，使用存储器引用位置，使用处理器状态字(PSW)或使用这些的组合提供给处理器的信息的类型的一个示例在下面的表3中：

虽然表3中示出的组头部包括许多字段，但是它仅仅是示例性的。在一个实施例中，编译器可以选择用于包括在组头部中的信息或者用于特殊指令的信息，其可以基于指令的性质和/或基于处理要求的性质(诸如高性能或低功率)来向处理器提供这种信息。这可以有利地允许更好地平衡性能和功耗之间的折衷。对于某些类型的处理应用，诸如利用大量内核的高性能计算，大量信息可能是个理想选项。备选地，对于其他类型的处理应用，诸如物联网中使用的嵌入式处理器，移动设备，可穿戴式设备或其他嵌入式计算类型的应用，较少的信息可能是个理想选项。在另一方面中，可以根据指令组中指令的性质，经由组头部或特定指令传送的信息的范围可以被定制。例如，如果指令组包括被执行几次的循环，则可能需要更广泛的信息来封装与指令组相对应的控制信息。附加控制信息可以允许处理器更有效地执行循环，从而提高性能。备选地，如果存在指令组很少被执行，那么相对较少的信息就足够了。在另一示例中，如果指令组包括几个预测控制循环，则可能需要更多的信息。类似地，如果指令组具有大量的指令级并行性，则可能需要更多信息作为经由特殊指令的组头部的一部分。组头部或特殊指令中的附加控制信息可以用来有效地利用指令组中的指令级并行性。在另一示例中，如果指令组包括几个分支预测，则可能需要更多的信息。关于分支预测的附加控制信息将使得代码执行效率更高，因为这将导致更少的流水线冲刷。

在整体执行指令组(例如，块)的ISA和处理器中，当取回指令组时，执行指令组所需的硬件资源(诸如操作数缓冲器或加载和存储队列)需要被保留。因为编译器已经分析了高级指令代码和标识的数据依赖性，所以可以有利地更有效地执行指令组。许多程序可能花费大部分时间仅执行代码的一小部分，例如，重复执行某些循环。锁定操作数字段可以被用于存储与可以由指令组中的指令处理的操作数相对应的锁定信息，包括例如重复执行的循环。可能被锁定的操作数包括但不限于常量或其他变量，其在由多个指令组执行期间不改变它们的值。

与表3中所示的字段相对应的功能性可以被组合或进一步分离。因此，例如，在一个示例中，字段锁定操作数可以在单独的头部中。它还可以在由组头部或另一结构中的地址索引的存储器中。类似地，特殊指令可以提供与表3中的字段中的任一字段有关的信息，或者它可以组合来自这些字段的信息。作为示例，虽然表3的示例性组头部包括单独的标识符字段和大小字段，但是这两个字段可以组合成单个字段。类似地，单个特殊指令当被解码时可以提供关于指令组的大小的信息以及标识符字段中的信息。在不脱离本公开的范围的情况下，可以对组头部结构和格式做出其他改变。作为示例，可以包括附加字段，其包括与指令组的特点有关的信息。基于指令组的执行频率，可能会包括某些字段。

包括在组头部结构中的字段或经由之前讨论的特殊指令或其他机制提供的信息可以是特定处理器或处理器家族的公共可用标准指令集架构(ISA)的一部分。这些字段的子集可能是ISA的专有扩展。字段中的某些位值可能是处理器标准ISA的一部分，但该字段中的某些其他位值可能提供专有功能性。该示例性字段可以允许ISA设计者向ISA添加专有扩展，而不完全公开与专有扩展相关联的性质和功能性。因此，在该实例中，由ISA设计者分发的编译器工具可能支持该字段中的专有位值，完全独立的专有字段或特殊指令。这样字段的使用可能与某些处理器设计专有的硬件加速器特别相关。因此，程序可能包括不可识别的组头字段或特殊指令；但是程序可以进一步包括解密字段或解码指令的配方。

合适的编译器可以处理被配置成由处理器原子执行的指令组，以产生关于指令组的信息，包括关于指令组的元信息和控制信息。作为该过程的一部分，编译器还可以生成锁定信息用于与本公开一致使用。一些程序可以仅针对一个ISA(例如，与用于物联网、移动设备、可穿戴式设备或其他嵌入式计算环境的处理器一起使用的ISA)集合来编译。编译器可以使用诸如静态代码分析或代码剖析之类的技术来生成与指令组相关的信息。编译器可以考虑诸如指令组的特点和指令组的执行频率之类的因素。指令组的相关特点包括但不限于：(1)指令级并行性；(2)循环的数目；(3)预测控制指令的数目；以及(4)分支预测的数目。

下面的表4中示出了简化128位组头部的一个示例：

如关于表3所讨论的，组头部(96位)的第一部分包括字段，诸如标识符，大小，XFLAGS，出口类型，存储掩码和写入掩码。在该示例中，如关于表3所描述的，组头部(32位)的第二部分与锁定操作数字段相对应。这样，当新指令组被取回并且映射到处理器的资源时，需要保持锁定的用于某些操作数的有效位可能不会被清除。相反，锁定操作数的值可以被新取回和映射的指令组再次使用。上面的表4仅仅是示例性的。与锁定操作数有关的信息可以以其他方式封装。

图1是根据本公开的一个示例的代表性处理器100的一部分的框图。处理器100可以包括前端控制单元102，第一指令高速缓存104，分支预测器106，指令解码器108，指令窗口110，左操作数缓冲器112，右操作数缓冲器114，算术逻辑单元(ALU)116，算术逻辑单元(ALU)118，寄存器120，加载/存储队列122和后端控制单元140。在一个示例中，如具有连接各个部件的箭头的线所示，处理器100的部件中的每个部件可以经由数据和/或控制总线互连。在一些实例中，总线只能携带数据和指令；在一些实例中，总线只能携带数据(例如，操作数)；在其他实例中，总线只能携带控制信号，例如，前端控制单元102可以经由仅携带控制信号的总线与其他控制网络进行通信。在一个示例中，前端控制单元102可以包括组合逻辑和状态机以处理包括指令取回和解码的处理的前端。作为示例，前端控制单元102可以从L1高速缓存或另一高速缓存取回指令用于存储到第一指令高速缓存104中。前端控制单元还可以将指令从指令高速缓存104或L-1高速缓存取回到指令窗口110中，其可以由指令解码器108处理。作为该过程的一部分，前端控制单元可以将指令地址转换成相应的指令窗口地址。由处理器100执行的程序可以包括几个指令组。前端控制单元102可以基于由相应的组头部(例如，关于表3描述的组头部)施加的约束来确定每个指令组的放置。前端控制单元102可以经由控制网络与处理器100的其他部分交换控制信息。后端控制单元140可以控制后端操作，包括执行和提交操作。处理器100可以包括单个内核或多个内核。在多内核处理器的情况下，可能存在图1中所示的元件中的至少一些元件的多个实例。前端控制单元102和后端控制单元140可以协调和管理处理器的各种内核和其他部分的控制。因此，在该示例中，指令组可以在多个内核上同时执行，并且前端控制单元102可以经由控制网络与其他内核交换控制信息，以确保根据需要同步用于各种指令组的执行。前端控制单元102可以每个时钟周期取回并且解码单个指令或多个指令。尽管图1示出了以某种方式布置的处理器100的一定数目的部件，但是可以存在更多或更少数目的不同布置的部件。

在一个示例中，某些指令组可以被取回并且被映射到指令窗口110，并且如果这些指令组中的任一指令组具有后沿(例如，分支回到自身的指令组)，则代替再次从存储器(例如L-1高速缓冲)加载指令，指令可以被留在指令窗口110中，并且只有加载/存储队列122中的有效位可以被清除。在一个示例中，后端控制单元140可以根据需要执行有效位的清除，或者不清除有效位。这可以允许处理器100绕过用于这样指令组的指令取回阶段。此外，用于具有由组头部(例如，表3，锁定操作数字段)指定的锁定信息的那些操作数缓冲器(例如，左操作数缓冲器112和右操作数缓冲器114)的有效位不被清除，使得当分支回到自身的指令组再次执行时，它们仍然有效。与指令组有关的操作数的全部或子集可以被锁定。在一个示例中，当指令组发出时，可以使用锁定操作数和解锁操作数两者。在完成指令组的执行之后，只有与解锁操作数对应的值可以被清除。

关于锁定操作数的信息还可以由编译器使用其他机制(诸如使用特殊指令，使用存储器引用位置，使用处理器状态字(PSW)或使用这些的组合)被传送给处理器100。作为示例，各个指令可以指定他们的目标要被锁定。作为另一示例，加载指令可以包括控制位，其可以用于由锁定加载指令所加载的操作数的值。指令处理器100锁定操作数的一种方式可以是指定处理器100不同地解释指令中的某些字段的模式。例如，指令的广播标识符(BID)字段的三个位中的两个位可以被解释为包括指示操作数锁定的控制位，一个用于左操作数，另一个用于右操作数。在一个示例中，这个不同的模式可以经由组头部的锁定操作数字段被传送到处理器100。在另一示例中，锁定信息可以使用可以是特殊加载指令的特殊指令或者是其中两个指令被打包在一起的扩展指令来传送。传送锁定信息的另一方式可以是在每个指令中包括字段(具有控制位)，该字段与指令的每个目标相对应，其指令处理器100锁定指令所针对的操作数。这样，目标操作数可以基于指令中控制位的值来被锁定。在一个示例中，控制位可以导致可能使用这样的指令可以作为目标的操作数的值的最大大小的减小。

在另一示例中，组头部的锁定操作数字段可以包括锁定信息(例如，位值)，其向处理器100传送关于不同地解释加载指令的信息。例如，某些位值可能指示由加载指令加载的左操作数需要保持锁定在操作数缓冲器中，直到解锁机构解锁操作数为止。指令组中的指令(例如，加指令)可以包括循环不变的操作数中的一个操作数。在一个示例中，可以使用具有控制位来锁定操作数的值的加载指令来加载该操作数。在另一示例中，可以基于组头部的锁定操作数字段来不同地解释加载指令。在一个示例中，当指令组完成时，作为示例，提交结果或使组无效，则循环不变操作数的有效位可能不被清除，从而允许该操作数的值再次被使用而不必重新加载或访问寄存器文件。在另一示例中，即使当新指令组被取回并且被映射到处理器100的硬件资源时，锁定操作数的值也可能不被清除。如果指令组是重复执行一定次数的循环，那么被锁定的操作数的值可以一次又一次地使用，而不必重新加载它们。另外，操作数的值的锁定可以有利地减少完成与锁定操作数有关的操作所需的指令的数目。此外，操作数的值的锁定可以减少数据移动，并且因此可以有利地导致处理器消耗更少的能量。

在一个示例中，操作数的值的锁定可以被有利地用于改进像素处理或图像处理，诸如图像理解核心。这些类型的处理可以包括：在逐行(或以某种其他方式)的基础将某些值应用于大量像素；可以重复应用的值被锁定到操作数缓冲器中，并且像素可以更快地被处理。作为示例，锁定操作数缓冲器中的一些锁定操作数缓冲器可能被加载一次又一次使用的常量。

指令组中的每个指令可以具有就绪位，其状态可以向指令调度器130指示指令是否准备好被调度或发出。每条指令都可能具有有效位，该有效位与真预测是否就绪，假预测是否就绪，左操作数是否就绪，或者右操作数是否就绪有关。在一个示例中，当指令的所有有效位被设置为真或者以其他方式被指示为不相关时，就绪位可以被设置为真。有效位可以包括：(1)至少一个位，其指示输入到指令组中的至少一个指令组的左操作数的准备就绪；以及(2)至少一个第二位，其指示输入到指令组中的至少一个指令组的右操作数的准备就绪。当所有其输入(例如，操作数或预测)具有它们的有效位被设置并且它之前没有被发出时，调度的指令可以由指令调度器130发出。一旦发出指令，禁止再次发出指令的单独控制位可以被设置。指令调度器130可以针对到指令的输入的评估有效位(指示有效输入是否可用)。

一旦发出指令，任何操作数可以被加载到左操作数缓冲器112和/或右操作数缓冲器114中(根据需要)。根据指令的操作码，可以使用ALU 116和/或ALU 118对操作数执行操作。ALU的输出可以被重新加载回到操作数缓冲器中或存储到一个或多个寄存器120中。一旦指令组完成执行，则其输出可以使用存储操作被提交到加载/存储队列122中。分支预测器106可以处理与来自组头部的分支出口类型、特殊指令或存储器引用位置有关的信息，并且在做出分支预测时把该信息作为因素考虑。

继续参考图1，前端控制单元102还可以包括组头部控制单元132。组头部控制单元132可以处理可以原子执行的指令组的控制信息和/或元信息。在一个示例中，组头部控制单元132可以创建并且处理用于这样指令组的组头部。如之前关于表3所讨论的，组头部可以包括关于指令组的控制信息和/或元信息。组头部控制单元132可以包括组合逻辑，状态机和临时存储单元，诸如触发器以处理组头部中的各个字段。在一个示例中，用于指令组的控制信息和/或元信息可以包括锁定操作数字段中的信息。

在与具有固定大小的指令组(例如，32个指令)有关的一个示例中，组头部将在指令组的开始处，因此程序计数器(PC)的初始值将指向组头部。在与大小可变的指令组(例如，32，64，96或128个指令)有关的另一示例中，前端控制单元102将关于当前在指令窗口中的指令组的大小提供给组头部控制单元132。一旦组头部控制单元132具有该信息，就可以使用它和PC值来确定组头部的位置。

图2是后端单元140的一部分的框图200，其可以用于：(1)当当前指令组完成执行或新指令组被取回时，清除存储在操作数缓冲器中的操作数的所有有效位；或(2)当当前指令组完成执行或新指令组被获取时，仅清除在操作数缓冲器中存储的操作数的有效位的一些有效位或不清除它们。清除有效位将需要将新操作数在它们可以被使用之前被写入到操作数缓冲器。后端单元140的该部分可以包括锁定操作数逻辑202，解复用器203(由选择信号控制)，用于存储锁定信息的锁定信息单元204，反相器集合(206，208和210)，与门集合(212，214和216)以及用于存储与操作数缓冲器中的操作数相对应的有效位的有效位存储单元220。尽管图2示出了一定数目的反相器和一定数目的与门，这些部件的数目取决于处理器的架构。无论何时新指令组被映射到处理器100的指令窗口110或指令组的结果被提交，锁定操作数逻辑202可以断言清除信号(例如，逻辑高)。锁定信息单元204可以包括锁定位，其与即使新指令组被映射到处理器100的指令窗口110，也需要被锁定的操作数相对应。如之前所讨论的，锁定信息(例如，锁定位)可以使用不同的锁定机制以几种不同的方式被传送到处理器100。在一个示例中，选择信号可以确定清除线是否直接被耦合到可以重置存储的有效位(例如，存储在有效位存储单元220中的有效位)的电路，或者清除线是否以不同方式被耦合。这可以准许图2中所示的部件来实现重置用于操作数缓冲器中的操作数的有效位的两种不同的方式。

在一个示例中，在选择信号的控制下，清除线可以耦合到“与”门中的每个“与”门的另一输入。锁定位中的每个锁定位可以耦合到反相器，诸如图2所示的反相器(206，208和210)。锁定位的反相值可以被耦合到相应“与”门的另一输入，诸如图2所示的“与”门(212，214和216)。在一个示例中，无论何时新指令组被映射到处理器100的指令窗口110或指令组的结果被提交，清除线可以到达逻辑高值。在一个示例中，锁定位的高值可能导致操作数不能从操作数缓冲器中被清除；而锁定位的低值可能导致操作数从操作数缓冲器中被清除。当操作数的锁定位被设置为逻辑高时，则当被反相(例如，通过反相器206)时，逻辑低值可以通过与门(例如，通过与门212)来处理。这将导致由与门输出的逻辑低信号，无论清除线是否处于逻辑高值，该逻辑低信号将不能清除用于存储在操作缓冲器中的对应操作数的有效位(存储在有效位存储单元220中)。备选地，当操作数的锁定位被设置为低时，则当被反相时(例如，通过反相器206)，逻辑高值可以通过与门(例如，通过“与”门212)来处理。当清除线处于逻辑高值时，这将导致由与门输出逻辑高信号，并且该逻辑高信号将清除用于在操作缓冲器中存储的对应操作数的有效位。尽管图2示出了以某种方式布置的处理器100的一定数目的部件，但是可以存在不同布置的更多或更少数目的部件。事实上，锁定操作数的有效位可以使用其他机制来清除。

在另一示例中，在选择信号的控制下，清除线可以被直接耦合到可以重置操作数的有效位的电路。在该示例中，后端单元140的该部分可以依靠模式信号来控制有效位的重置。锁定操作数逻辑202可以断言可能具有逻辑高值或逻辑低值的清除信号，其可以取决于由锁定操作数逻辑202接收的模式信号。在一个示例中，模式信号可以基于处理器100是否需要在锁定操作数模式中操作。在一个示例中，该信息可以被包括在组头部的锁定操作数字段中。该信息可以向处理器指示一组(或多组)指令需要在锁定操作数模式下被处理，使得锁定操作数的值的有效位不被清除，直到被指令以退出该模式为止。在这个示例中，当模式信号向锁定操作数逻辑202指示先前加载到操作数缓冲器中的操作数的有效位不应该被清除时，清除线可以被设置为逻辑低值。备选地，清除线可以被设置为逻辑高值，其可能导致操作数缓冲器中的操作数的清除。当然，其他机制还可以被用于实现这个目标。

当到了例如通过清除先前已被锁定的操作数的锁定位和有效位解锁操作数的时间时，锁定操作数逻辑202可以在清除线上断言逻辑高信号。在一个示例中，清除可能是指要求操作数缓冲器在可以被指令使用之前通过新值而被写入。这可以以许多不同方式来完成。在一个示例中，在循环或一系列循环结束时，指令组可以包括特殊分支指令，其可以导致先前被锁定的任何操作数的值的有效位的清除。在一个示例中，该特殊分支指令当被执行时可以与锁定操作数逻辑202一起工作，以在清除线上断言逻辑高信号。如之前所讨论的，组头部可以包括指示这种出口类型的标志，其可以经由被标志为“清除”分支出口类型的字段在组头部中被指定。作为第二示例的一部分，被取回的下一指令组可以是专用组，其唯一功能是向锁定操作数逻辑202提供控制信号，其导致在清除线上逻辑高信号的断言。作为第三示例的一部分，可以存在到特殊指令组的跳转，其功能是当导致清除线上逻辑高信号的断言的指令组提交时，将控制信号提供给锁定操作数逻辑202，。当然，其他机制也可以被用于断言清除线上逻辑高信号，该逻辑高信号导致用于锁定操作数的锁定位和有效位的清除。

图3是按照一个示例的方法的流程图。在步骤302中，作为示例，前端控制单元102可以取回指令组，该指令组被配置成由处理器(例如，处理器100)原子执行。在一个示例中，指令组不需要被配置成原子执行。作为该步骤的一部分，前端控制单元可以取回该指令组的组头部(例如，如关于表3所描述的)，其中组头部可以包括字段，其包括针对至少一个操作数的锁定信息。该锁定信息可以是之前关于表3中描述的组头部所讨论的任何类型的信息。在指令组已经通过前端控制单元102取回之后，处理可以移动到步骤304。

在步骤304中，作为示例，处理器100的部件(例如，后端控制单元140)可以将至少一个操作数的值存储在处理器(例如，处理器100)的至少一个操作数缓冲器(例如，左操作数缓冲器112或右处理器缓冲器114)中。

在步骤306中，后端控制单元140可以基于锁定信息来锁定处理器(例如，处理器100)的至少一个操作数缓冲器中的至少一个操作数的值，使得即使在完成指令组的执行之后，至少一个操作数也不从处理器的至少一个操作数缓冲器中被清除。在一个示例中，完成指令组以开始原子提交的检测可以涉及：对寄存器写入、存储库以及一个分支进行计数，并且确保所有先前块已经被提交。在一个示例中，完成指令组的执行可以包括：将由指令组生成的所有结果存储在寄存器文件(例如，寄存器120)中，并且将与指令组有关的所有存储库从加载/存储队列分派到存储器。在一个示例中，锁定处理器的至少一个操作数缓冲器中的至少一个操作数的值可以包括：设置与至少一个操作数相关联的控制位的值。在该示例中，控制位的高逻辑值(或低逻辑值)可以指示操作数被锁定。在另一示例中，锁定信息可以包括组头部中(例如，表3的示例性组头部的锁定操作数字段中)的至少一个比特值，其被用来改变与处理器相关联的指令集架构中的指令的现有字段的解释。在另一示例中，锁定信息可以包括到处理器的、指示组头部后跟有附加锁定信息的指示。在另一示例中，锁定信息可以包括在锁定步骤期间被锁定的至少一个操作数的值。如之前所讨论的，锁定信息可以由编译器生成并且可以使用不同的方法(包括例如使用组头部)被传送到处理器100。在另一示例中，如之前所讨论的，锁定信息可以包括指令组中的指令的字段中的至少一个比特值。后端控制单元140还可以使用之前所讨论的各种解锁机制解锁至少一个操作数的值。在一个示例中，解锁可以响应于指示解锁至少一个操作数的标志。在另一示例中，解锁可以响应于分支指令。在另一示例中，解锁可以响应于到指令组的跳转，该指令组的功能是解锁至少一个操作数的值的。

图4是根据一个示例的方法的流程图。在步骤402中，作为示例，前端控制单元102可以取回指令组，该指令组被配置为由处理器(例如，处理器100)原子执行。在一个示例中，指令组不需要被配置成原子执行。在指令组已经通过前端控制单元102取回之后，该处理可以移动到步骤404。

在步骤404中，作为示例，处理器100的部件(例如，后端控制单元140)可以将至少一个操作数的值存储在处理器(例如，处理器100)的至少一个操作数缓冲器(例如，左操作数缓冲器112或右处理器缓冲器114)中。

在步骤406中，后端控制单元140可以使用与至少一个操作数相关联的至少一个控制位来锁定处理器(例如，处理器100)的至少一个操作数缓冲器中的至少一个操作数的值，使得该至少一个操作数即使在完成指令组的执行之后，也不会从处理器的至少一个操作数缓冲器中被清除。在一个示例中，完成指令组以开始原子提交的检测可以涉及：对寄存器写入，存储库和一个分支进行计数，并且确保所有先前块已经被提交。在一个示例中，完成指令组的执行可以包括：将由指令组生成的所有结果存储在寄存器文件(例如，寄存器120)中，并且将与指令组有关的所有存储库从加载/存储队列分派到存储器。在这个示例中，控制位的高逻辑值(或低逻辑值)可以指示操作数被锁定。控制位本身的值可以基于之前所讨论的锁定信息和锁定机制的各种类型中的任一类型来确定。后端控制单元140也可以使用之前所讨论的各种解锁机制来解锁至少一个操作数的值。在一个示例中，解锁可以响应于指示解锁至少一个操作数的标志。在另一示例中，解锁可以响应于分支指令。在另一示例中，解锁可以响应于跳转到其功能是解锁至少一个操作数的值的指令组。

图5是根据一个示例的方法的流程图。在步骤502中，作为示例，处理器部件(例如，后端控制单元140)可以将至少一个操作数的值存储在处理器(例如，处理器100)的至少一个操作数缓冲器(例如，左操作数缓冲器112或右操作数缓冲器114)。处理器100可以被配置成以原子地执行每个指令组。在一个示例中，指令组不需要被配置成以原子地执行。

在步骤504中，处理器100可以在第一模式下操作，其中第一模式可以包括在完成第一指令组的执行之后：(1)取回第二指令组以用于由处理器执行；以及(2)不清除处理器的至少一个操作数缓冲器中的至少一个操作数的值。在一个示例中，前端控制单元102可以取回第二指令组，并且后端控制单元140可以不清除处理器(例如，处理器100)的至少一个操作数缓冲器中的至少一个操作数的值。如之前关于图1和图2所讨论的，后端控制单元140可以基于模式信号来不清除至少一个操作数的值。模式信号可以控制处理器100在其中操作的模式。在一个示例中，完成指令组以开始原子提交的检测可以涉及到：对寄存器写入，存储器和一个分支进行计数，并且确保所有先前的块已经被提交。在一个示例中，完成指令组的执行可以包括：将由指令组生成的所有结果存储在寄存器文件(例如，寄存器120)中，并且将与指令组有关的所有存储器从加载/存储队列分派到存储器。另外，在第一模式下操作处理器还可以包括：取回组头部(例如，关于表3讨论的组头部)，其包括锁定信息，该锁定信息不需要清除处理器的至少一个操作数缓冲器中的至少一个操作数的值，并且其中锁定信息可以包括至少一个比特值，该比特值被用来改变与处理器相关联的指令集架构中的指令的现有字段的解释。在另一示例中，在第一模式下操作的处理器还可以包括：取回组头部(例如，关于表3讨论的组头部)，其包括锁定信息，该锁定信息不需要清除处理器的至少一个操作数缓冲器中的至少一个操作数的值，并且其中锁定信息可以包括到处理器的、组头部后跟附加锁定信息的指示。

在步骤506中，处理器100可以在第二模式下操作，其中第二模式可以包括在完成第三指令组之后：(1)取回第四指令组用于由处理器执行，以及(2)清除处理器的至少一个操作数缓冲器中的至少一个操作数的值。在一个示例中，前端控制单元102可以取回第四指令组，并且后端控制单元140可以清除处理器(例如，处理器100)的至少一个操作数缓冲器中的至少一个操作数的值。如之前关于图1和图2所讨论的，后端控制单元140可以基于模式信号来清除至少一个操作数的值。模式信号可以控制处理器100在其中操作的模式(例如，第一模式或第二模式)。在一个示例中，完成指令组的执行可以包括：将由指令组生成的所有结果存储在寄存器文件(例如，寄存器120)中，并且将与指令组有关的所有存储库从加载/存储队列分派到存储器。后端控制单元140还可以使用之前所讨论的各种解锁机制来解锁至少一个操作数的值。在一个示例中，解锁可以响应于指示解锁至少一个操作数的标志。在另一示例中，解锁可以响应于分支指令。在另一示例中，解锁可以响应于跳转到其功能是解锁至少一个操作数的值的指令组。

总之，提供了一种方法，其包括：取回指令组，其被配置为由处理器原子执行，该指令组包括用于指令组的组头部，其中该组头部具有字段，该字段包括用于至少一个操作数的锁定信息。该方法还可以包括：将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中。该方法还可以包括：基于锁定信息，锁定处理器的至少一个操作数缓冲器中的至少一个操作数的值，使得响应于完成指令组的执行，至少一个操作数不会从处理器的至少一个操作数缓冲器中被清除。在该方法中，完成指令组的执行还可以包括：(1)将由指令组生成的所有结果存储在寄存器文件中；以及(2)将与指令组有关的所有存储库从加载/存储队列分派到存储器中。另外，在该方法中，锁定处理器的至少一个操作数缓冲器中的至少一个操作数的值在可以包括：设置与至少一个操作数相关联的控制位的值。此外，锁定信息可以包括组头部中的至少一个比特值，其用于改变与处理器相关联的指令集架构中的指令的现有字段的解释。锁定信息还可以包括到处理器的、组头部后跟附加锁定信息的指示。锁定信息还可以包括在锁定步骤期间被锁定的至少一个操作数的值。锁定信息还可以包括指令组中的指令的字段中的至少一个比特值。该方法还可以包括：响应于指示解锁至少一个操作数的标志，解锁至少一个操作数的值。附加地，该方法还可以包括：响应于分支指令，解锁至少一个操作数的值。该方法还可以：包括响应于跳转到其功能是解锁至少一个操作数的值的指令组，解锁至少一个操作数的值。

在另一方面中，提供了一种处理器，其包括装置，其用于：(1)取回指令组，其中指令组被配置成由处理器原子地执行；以及(2)将至少一个操作数的值存储在处理器的至少一个操作数缓冲器中。处理器还可以包括装置，其用于使用与至少一个操作数相关联的至少一个控制位，锁定处理器的至少一个操作数缓冲器中的至少一个操作数的值，使得响应于完成指令组的执行，至少一个操作数不会从处理器的至少一个操作数缓冲器中被清除。作为示例，用于取指和存储的装置可以是图1的前端控制单元102，用于锁定的装置可以是图1的后端控制单元140。在该处理器中，完成指令组的执行可以包括：(1)将由指令组生成的所有结果存储在寄存器文件中；以及(2)将与指令组有关的所有存储库从加载/存储队列分派到存储器。该处理器还可以包括装置，其用于响应于分支指令，解锁处理器的至少一个操作数缓冲器中的至少一个操作数的值。该处理器还可以包括装置，其用于响应于跳转到其功能是解锁处理器的至少一个操作数缓冲器中的至少一个操作数的值的指令组，解锁处理器的至少一个操作数缓冲器中的至少一个操作数的值。作为示例，用于解锁的装置可以是图1的后端控制单元140。

应该理解，本文中所描绘的方法、模块和部件仅仅是示例性的。备选地或另外，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑部件来执行。例如但不限于，可以使用的说明性类型的硬件逻辑部件包括现场可编程门阵列(FPGA)，专用集成电路(ASIC)，专用标准产品(ASSP)，片上系统(SOC)，复杂可编程逻辑器件(CPLD)等。在抽象但明确的意义上，任何实现相同功能性的部件配置都被有效地“关联”，从而实现所需的功能性。因此，本文中组合以实现特定功能性的任何两个部件可以被视为彼此“相关联”，使得实现期望的功能性，而与体系架构或中间部件无关。同样，如此关联的任何两个部件还可以被视为彼此“可操作地连接”或“耦合”以实现期望的功能性。

与本公开中所描述的示例相关联的功能性还可以包括存储在非暂态介质(例如，指令高速缓存104或其他类型的非暂态介质)中的指令。如本文中所使用的术语“非暂态介质”是指存储使得机器(诸如处理器100)以特定方式操作的数据和/或指令的任何介质。示例性非暂态介质包括非易失性介质和/或易失性介质。非易失性介质例如包括硬盘，固态驱动器，磁盘或磁带，光盘或带，闪存，EPROM，NVRAM，PRAM或其他此类介质，或者这样的介质的联网版本。易失性介质包括例如动态存储器，诸如DRAM，SRAM，高速缓存或其它此类介质。非暂态介质不同于传输介质，但可以与传输介质一起使用。传输介质用于向诸如处理器100之类的机器传送数据和/或指令从其传送数据和/或指令。示例性传输介质包括同轴电缆，光纤电缆，铜线以及诸如无线电波的无线介质。

此外，本领域技术人员将认识到，上文所描述的操作的功能性之间的界限仅仅是说明性的。多个操作的功能性可以被组合成单个操作，和/或单个操作的功能性可以在附加操作中被分发。而且，备选实施例可以包括特定操作的多个实例，并且在各种其他实施例中可以更改操作的次序。

尽管本公开提供了具体示例，但是可以在不背离如权利要求中阐述的本公开的范围的情况下做出各种修改和改变。因而，说明书和附图被认为是说明性的而非限制性的，并且所有这样的修改旨在被包括在本发明的范围内。本文中关于具体示例描述的任何益处，优点或问题的解决方案不旨在被解释为任何或所有权利要求的关键的，必需的或基本的特征或元素。

此外，如本文中使用的术语“一”或“一个”被定义为一个或多于一个。此外，在权利要求中诸如“至少一个”和“一个或多个”之类的介绍性短语的使用不应被解释为暗示由不定冠词“一”或“一个”的另一权利要求元素的引入将包含这种引入的权利要求元素的任何特定权利要求限制到仅包含一个这样的元素的发明，即使当相同的权利要求包括介绍性短语“一个或多个”或“至少一个”以及诸如“一”或“一个”之类的不定冠词时。对于定冠词的使用也是如此。

除非另有说明，否则诸如“第一”和“第二”之类的术语被用于这样的术语所描述的元件之间的任意区分。因此，这些术语不一定旨在指示这些元素的时间或其他优先级化。

Claims

1.一种处理器，包括：

用于：(1)取回指令组，其中所述指令组被配置为由所述处理器执行，以及(2)将至少一个操作数的值存储在所述处理器的至少一个操作数缓冲器中的装置；以及

用于基于与所述至少一个操作数相关联的至少一个控制位，锁定所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的值，使得响应于完成所述指令组的执行，所述至少一个操作数不从所述处理器的所述至少一个操作数缓冲器中被清除的装置。

2.根据权利要求1所述的处理器，其中所述指令组被配置为由所述处理器原子地执行，并且其中完成所述指令组的所述执行包括：(1)将由所述指令组生成的所有结果存储在寄存器文件中；以及(2)将与所述指令组有关的所有存储库从加载/存储队列分派到存储器。

3.根据权利要求1所述的处理器，还包括用于响应于标志，解锁所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的所述值的装置。

4.根据权利要求1所述的处理器，还包括用于响应于分支指令，解锁所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的所述值的装置。

5.根据权利要求1所述的处理器，还包括用于响应于到如下指令组的跳转，解锁所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的所述值的装置，所述指令组的功能是解锁所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的所述值。

6.一种方法，包括：

取回指令组，所述指令组被配置成由处理器执行，所述指令组包括用于所述指令组的组头部，其中所述组头部包括字段，所述字段包括用于至少一个操作数的锁定信息；

将所述至少一个操作数的值存储在所述处理器的至少一个操作数缓冲器中；以及

基于所述锁定信息，锁定所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的值，使得响应于完成所述指令组的执行，所述至少一个操作数不从所述处理器的所述至少一个操作数缓冲器中被清除。

7.根据权利要求6所述的方法，其中所述指令组被配置为由所述处理器原子地执行，并且其中完成所述指令组的所述执行包括：(1)将由所述指令组生成的所有结果存储在寄存器文件中；以及(2)将与所述指令组有关的所有存储库从加载/存储队列分派到存储器。

8.根据权利要求6所述的方法，其中锁定所述处理器的所述至少一个操作数缓冲器中的所述至少一个操作数的所述值包括：设置与所述至少一个操作数相关联的控制位的值。

9.根据权利要求6所述的方法，其中所述锁定信息包括所述组头部中的至少一个比特值，所述比特值被用于改变与所述处理器相关联的指令集架构中的指令的现有字段的解释。

10.根据权利要求6所述的方法，其中所述锁定信息包括对所述处理器的、所述组头部后跟附加锁定信息的指示。

11.根据权利要求6所述的方法，其中所述锁定信息包括在所述锁定步骤期间被锁定的所述至少一个操作数的所述值。

12.根据权利要求6所述的方法，其中所述锁定信息包括所述指令组中的指令的字段中的至少一个比特值。

13.根据权利要求6所述的方法，还包括：响应于指示解锁所述至少一个操作数的标志，解锁所述至少一个操作数的所述值。

14.根据权利要求6所述的方法，还包括：响应于分支指令，解锁所述至少一个操作数的所述值。

15.根据权利要求6所述的方法，还包括：响应于到如下指令组的跳转，解锁所述至少一个操作数的所述值，所述指令组的功能解锁所述至少一个操作数的所述值。