CN107810476A

CN107810476A - 解耦合的处理器指令窗口和操作数缓冲区

Info

Publication number: CN107810476A
Application number: CN201680037470.2A
Authority: CN
Inventors: D·C·伯格; A·史密斯; J·格雷
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-06-26
Filing date: 2016-06-23
Publication date: 2018-03-16
Anticipated expiration: 2036-06-23
Also published as: BR112017024301A2; PH12017550124A1; TW201712533A; IL256168A; CN107810476B; US10346168B2; US11048517B2; HK1246443A1; KR20180020985A; US20160378479A1; KR102502780B1; MX2017016197A; EP3314399B1; WO2016210027A1; EP3314399A1; CA2986266A1; CL2017003310A1; AU2016281599A1; CO2017013252A2; JP2018518775A

Abstract

一种基于指令块的微架构中的处理器内核被配置为使得指令窗口和操作数缓冲区被解耦合以进行独立地操作，其中块中的指令不与资源(诸如被维持在操作数缓冲区中的控制位和操作数)严格地绑定。相反，在块和资源中的指令之间建立指针，使得可以通过跟随这些指针来为经刷新的指令块(即，被重新使用而不从指令高速缓存重新提取的指令块)建立控制状态。指令窗口与操作数空间的这种解耦合可以提供更高的处理器效率，特别是在利用刷新的多核心阵列中(例如，当执行使用紧密的循环的程序代码时)，因为操作数和控制位被预验证。

Description

解耦合的处理器指令窗口和操作数缓冲区

背景技术

指令集架构(ISA)和处理器的设计者对功耗和性能进行权衡。例如，如果设计者选择具有递送更高性能的指令的ISA，则处理器的功耗可能也会更高。或者，如果设计者选择具有功耗较低的指令的ISA，则性能可能更低。功耗可以与在执行期间由指令所使用的处理器的硬件资源(诸如算术逻辑单元(ALU)、高速缓存线或寄存器)的数量相关。使用大量这样的硬件资源可以以较高的功耗为代价递送较高的性能。或者，使用少量这样的硬件资源可以以较低的性能为代价产生较低的功耗。编译器可以用于将高级代码编译成与ISA和处理器架构兼容的指令。

发明内容

提供本“发明内容”以便以简化的形式介绍将在以下“具体实施方式”中进一步描述的一些概念。本“发明内容”不旨在标识所要求保护的主题的关键特征或基本特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决本公开的任何部分中提到的任何或全部缺点的实现。

附图说明

图1示出了说明性计算环境，其中编译器提供在包括多个处理器内核的架构上所运行的编码指令；

图2是用于示例性处理器内核的说明性微架构的框图；

图3示出了块标头(block header)的说明性布置；以及

图4-15是说明性方法的流程图。

相似的附图标记表示附图中的相似的元素。除非另有说明，否则元素不是按比例绘制的。

具体实施方式

图1示出了可以与其一起利用指令块的当前基于年龄的管理的说明性计算环境100。该环境包括编译器105，其可以用于从程序115生成编码的机器可执行指令110指令110可以由处理器架构120处理，处理器架构120被配置为处理具有可变尺寸内容(例如，在4到128个指令之间)的指令块。

处理器架构120通常包括平铺配置的多个处理器内核(由附图标记125代表性地指示)，这些处理器内核由片上网络(未示出)互连，并且还与一个或多个2级(L2)高速缓存(由附图标记130代表性地指示)交互操作。尽管内核和高速缓存的数目和配置可以根据实施方式而变化，但是应当注意，物理内核可以在程序115的运行时期间在被称为“合成”的过程中被一起合并到一个或多个更大的逻辑处理器中，更大的逻辑处理器可以使得更多的处理能力致力于程序执行。或者，当程序执行支持合适的线程级并行性时，内核125可以在被称为“分解”的过程中被拆分以独立地工作，并且执行来自独立线程的指令。

图2是说明性处理器内核125的一部分的简化框图。如图所示，处理器内核125可以包括前端控制单元202、指令高速缓存204、分支预测器206、指令解码器208、指令窗口210、左操作数缓冲区212、右操作数缓冲区214、算术逻辑单元(ALU)216、另一ALU 218、寄存器220以及加载/存储队列222。在一些情况下，总线(由箭头指示)可以携带数据和指令，而在其他情况下，总线可以携带数据(例如，操作数)或控制信号。例如，前端控制单元202可以经由仅携带控制信号的总线来与其他控制网络通信。尽管图2示出了以特定安排来被布置的用于处理器内核125的一定数目的说明性部件，但是取决于特定实施方式的需要，可以具有不同布置的更多或更少的部件。

前端控制单元202可以包括被配置为控制通过处理器内核的信息流的电路以及用于协调其内的活动的电路。前端控制单元202还可以包括用于实施有限状态机(FSM)的电路，在FSM中状态列举了处理器内核可以采用的每个操作配置。通过使用操作码(如下所述)和/或其他输入(例如，硬件级信号)，前端控制单元202中的FSM电路可以确定下一状态并且控制输出。

因此，前端控制单元202可以从指令高速缓存204提取指令，以用于由指令解码器208进行处理。前端控制单元202可以通过控制网络或总线来与处理器内核125的其他部分交换控制信息。例如，前端控制单元可以与后端控制单元224交换控制信息。在一些实施方式中，前端控制单元和后端控制单元可以被集成到单个控制单元中。

前端控制单元202还可以协调和管理对处理器架构120(图1)的各个内核和其他部分的控制。因此，例如，指令块可以同时在多个内核上执行，并且前端控制单元202可以经由控制网络来与其他内核交换控制信息，以根据需要确保各种指令块执行的同步。

前端控制单元202可以进一步处理关于以原子态执行的指令块的控制信息和元信息。例如，前端控制单元202可以处理与指令块相关联的块标头。如下面更详细地讨论的，块标头可以包括关于指令块的控制信息和/或元信息。相应地，前端控制单元202可以包括组合逻辑、状态机和暂态存储单元(诸如触发器)，以处理块标头中的各个字段。

前端控制单元202可以在每个时钟周期提取并解码单个指令或多个指令。已解码指令可以存储在指令窗口210中，指令窗口210在处理器内核硬件中被实施作为缓冲区。指令窗口210可以支持指令调度器230，在一些实施方式中，指令调度器230可以保持每个已解码指令的输入(诸如断言和操作数)的就绪状态。例如，当其所有输入(如果有的话)就绪时，给定的指令可以由指令调度器230唤醒并且准备好被发出。

在发出指令之前，根据需要，指令所需要的任何操作数可以被存储在左操作数缓冲区212和/或右操作数缓冲区214中。取决于指令的操作码，可以使用ALU 216和/或ALU218或其他功能单元来对操作数执行操作。ALU的输出可以存储在操作数缓冲区中，或者存储在一个或多个寄存器220中。以数据流顺序发出的存储操作可以在加载/存储队列222中排队，直到指令块提交。当指令块提交时，加载/存储队列222可以将所提交的块存储写入存储器。分支预测器206可以处理与分支出口类型相关的块标头信息，并且在进行分支预测时将该信息作为因素。

如上所述，处理器架构120通常利用在以原子态提取、执行和提交的块中所组织的指令。因此，处理器内核可以集中地提取属于单个块的指令，将它们映射到处理器内核内的执行资源，执行指令，并且以原子态提交它们的结果。处理器可以提交所有指令的结果，或者可以取消整个块的执行。块内的指令可以按照数据流顺序执行。另外，处理器可以允许块内的指令使用消息或其他合适形式的通信来彼此直接通信。因此，产生结果的指令可以将该结果传送给块中利用该结果的另一指令，而非将结果写入寄存器文件。作为示例，对存储在寄存器R1和R2中的值进行累加的指令可以被表示为如下面的表1所示：

表1

以这种方式，源操作数不是用指令指定的，而是由以ADD指令为目标的指令来指定的。编译器105(图1)可以在指令110的编译期间显式地对控制和数据依赖关系进行编码，从而使得处理器内核无需在运行时重新发现这些依赖关系。这可以有利地使得在这些指令的执行期间处理器负载减少并且节能。作为示例，编译器可以使用断言来将所有的控制依赖关系转换成数据流指令。通过使用这些技术，可以减少对耗电的寄存器文件的访问次数。下面的表2显示了这样的指令的通用指令格式的示例：

表2

OPCODE

PR

BID

XOP

TARGET1

TARGET2

每个指令可以具有合适的尺寸，诸如32位、64位或另一尺寸。在表2所示的示例中，每个指令可以包括OPCODE字段、PR(断言)字段、BID(广播ID)字段、XOP(扩展的OPCODE)字段、TARGET1字段和TARGET2字段。OPCODE字段可以为指令或指令块指定唯一的操作码，诸如加法、读取、写入或乘法。PR(预测)字段可以指定与指令相关联的任何断言。例如，可以使用2位的PR字段，如下：00-未被断言，01-保留，10-是虚假断言，11-真实断言。因此，例如，如果只有在比较结果为真的情况下才执行指令，则可以根据执行比较的另一指令的结果来对该指令进行断言。BID(广播ID)字段可以支持将操作数发送到块中的任何数目的消费者指令。2位的BID字段可以用来对指令在其上接收其操作数中的一项的广播信道进行编码。XOP(扩展的OPCODE)字段可以支持对操作码的类型进行扩展。TARGET1和TARGET2字段最多可以允许待编码两个目标指令。目标字段可以指定生产者指令的结果的消费者指令，从而允许指令之间的直接通信。

每个指令块可以具有与该指令块相关联的特定信息，诸如与该块相关的控制信息和/或元信息。这个信息可以在将程序编译成指令110的过程中由编译器105生成，以用于在处理器架构120上执行。这些信息中的一些可以在指令块的编译过程中被编译器提取，并且然后检查运行时期间的指令性质。

另外，与指令块相关联的信息可以是元信息。作为示例，这样的信息可以使用专用指令或者提供与寄存器或其他存储器相关的目标编码的指令被提供给处理器内核，其中寄存器或其他存储器可以具有与指令块相关联的相关信息。在专用指令的情况下，这样的指令的操作码字段可以用于传送与指令块相关的信息。在另一示例中，这样的信息可以被维持作为处理器状态字(PSW)的一部分。例如，该信息可以有利地帮助处理器更有效地执行指令块。

各种类型的信息可以使用块标头、专用指令、存储器引用的位置、处理器状态字(PSW)或其各种组合来被提供给处理器内核。说明性指令块标头300在图3中示出。在该说明性示例中，块标头300是128位，并且开始于距块的程序计数器的偏移量0处。还示出了每个字段的相应的开始和结束。这些字段在下面的表3中描述：

表3

尽管在图3中示出和表3中描述的块标头包括多个字段，但是其旨在是说明性的，并且其他字段布置可以用于特定实施方式。

在说明性示例中，编译器105(图1)可以选择用于包括在块标头中的信息，或者用于专用指令的信息，专用指令可以基于指令的性质和/或基于处理要求的性质(诸如高性能或低功耗)向处理器内核提供这样的信息。这可以有利地允许在性能和功耗之间的权衡的更好平衡。对于某些类型的处理应用(诸如大量内核的高性能计算)，大量信息可能是理想的选择。或者，对于诸如在物联网中使用的嵌入式处理器、移动设备、可穿戴设备、头戴式显示器(HMD)设备或其他嵌入式计算类型的应用等其他类型的处理应用，较少信息可能是理想的选择。

使用块标头或专用指令传送的信息的范围可以根据块中指令的性质来裁剪。例如，如果指令块包括以循环方式执行的循环，则可能需要更广泛的信息来封装与该块相关联的控制信息。附加控制信息可以允许处理器内核更有效地执行循环，从而提高性能。

或者，如果存在将被很少执行的指令块，则相对较少的信息就足够了。例如，如果指令块包括若干预测的控制回路，则可能需要更多的信息。类似地，如果指令块具有大量的指令级并行性，则可能需要更多信息作为块标头或专用指令的部分。

块标头中的附加控制信息或专用指令例如可以用于有效地利用指令块中的指令级并行性。如果指令块包括若干分支预测，则可能需要更多的信息。有关分支预测的附加控制信息通常将使代码执行更为高效，因为这可能导致更少的管线刷新。

注意，与块标头中的字段相对应的功能可以被组合或者被进一步分离。类似地，专用指令可以提供与图3和表3中所示的任何一个字段相关的信息，或者可以对来自这些字段的信息进行组合。例如，尽管图3和表3的说明性块标头包括单独的ID字段和SIZE字段，但是这两个字段可以组合成单个字段。

同样，当被解码时，单个专用指令可以提供关于指令块的尺寸的信息和ID字段中的信息。除非另有说明，否则专用指令可以被包括在指令块中的任何地方。例如，BLOCK_SIZE#size(尺寸)指令可以包含包括指令块的尺寸的值的直接(immediate)字段。直接字段可以包含提供尺寸信息的整数值。或者，直接字段可以包括与尺寸信息相关的编码值，使得尺寸信息可以通过对编码值进行解码来获得，例如，通过在可以使用逻辑、寄存器、存储器或代码流中的一项来表示的尺寸表中查找该值。在另一示例中，BLOCK_ID#id专用指令可以传送块ID号码。

单独的数学函数或基于存储器的表可以将块ID映射到块标头的存储器地址。作为这样的指令的部分被传送的块ID对于每个指令块可以是唯一的。在另一示例中，BLOCK_HDR_ID#id指令可以传送块标头ID号。单独的数学函数或基于存储器的表可以将块ID映射到块标头的存储器地址。作为这样的指令的部分被传送的块ID可以由具有相同标头结构或字段的若干指令块所共享。

在另一示例中，BLOCK_INFO#size(尺寸)、#exit types(出口类型)、#store mask(存储掩码)、#write mask(写入掩码)指令可以提供关于指令的枚举字段的信息。这些字段可以对应于上面关于表3所讨论的任何一个字段。根据给定实施方式的要求，可以对块标头结构和格式以及专用指令进行其他改变。例如，可以提供包括与指令块的特性相关的信息的附加字段。基于指令块执行的频率，可以包括特定字段。

被包括在块标头结构中的字段、或者经由先前讨论的专用指令或其他机制所提供的信息可以是特定处理器或处理器系列的公共可用标准指令集架构(ISA)的一部分。这些字段的子集可以是ISA的专属扩展。该字段中的某些位值可能是处理器的标准ISA的一部分，但是该字段中的某些其他位值可以提供专属功能。该示例性字段可以允许ISA设计者向ISA添加专属扩展，而不完全公开与专属扩展相关联的性质和功能。因此，在这种情况下，由ISA设计人员分发的编译器工具将支持该字段中的专属位值、完全独立的专属字段、或专用指令。这样的字段的使用可以与某些处理器设计专有的硬件加速器特别相关。因此，程序可以包括块标头字段或不可识别的专用指令；但是程序还可以包括用于解密字段或解码指令的办法(recipe)。

编译器105(图1)可以处理通常被配置为由一个或多个处理器内核原子态地执行的指令块，以便生成关于指令块的信息，包括元信息和控制信息。一些程序可以被编译以仅用于一个ISA，例如与物联网的处理器、移动设备、HMD设备、可穿戴设备或其他嵌入式计算环境一起使用的ISA。编译器可以采用诸如静态代码分析或代码剖析等技术来生成与指令块相关的信息。在一些情况下，编译器可以考虑诸如指令块的特性和其执行频率等因素。指令块的相关特性可以包括例如但不限于：(1)指令级并行性、(2)循环的数目、(3)断言的控制指令的数目、以及(4)分支预测的数目。

图4是用于管理处理器内核中被处置的指令窗口中的指令块的说明性方法400的流程图。除非特别说明，否则图4的流程图中的方法或步骤以及附图中所示和下面描述的其他流程图中的方法或步骤不受限于特定的顺序或序列。另外，方法或其步骤中的一些可以同时发生或者同时执行，并不是所有的方法或步骤都必须在给定的实施方式中执行，这取决于这样的实施方式的要求，并且可以可选地使用一些方法或步骤。同样，在一些实施方式中可以省略一些步骤以减少开销，但是这例如可能导致脆性增加。可以将可以在任何给定应用中实施的各种特征、成本、开销、性能和稳健性折衷典型地视为设计选择问题。

在步骤405中，使用例如存活期矢量来显式地跟踪所提取的指令块的存活期。因此，控制单元不是在指令窗口中使用指令块顺序(即，位置)(其通常用于隐式地跟踪存活期)，而是保持显式状态。在步骤410中，维持指令块按存活期排序的列表。在一些实施方式中，也可以跟踪指令块优先级(其中在一些情况下可以由编译器确定优先级)，并且也可以维持指令块按优先级排序的列表。

在步骤415中，当指定块被标识用于处理时，搜索按存活期排序的列表以找到匹配的指令块。在一些实施方式中，也可以搜索按优先级排序的列表以寻找匹配。如果找到匹配的指令块，则在步骤420中可以刷新它，而不必从指令高速缓存中重新提取它，这可以提高处理器内核效率。这样的刷新使得在例如程序以紧密循环执行并且指令自行向后分支的情况下可以重新使用指令块。当多个处理器内核组成大规模阵列时，这样的效率增加也可能是复杂的。当刷新指令块时，指令被保持在合适的位置，并且只清除操作数缓冲区和加载/存储队列中的有效位。

如果没有找到指令块的匹配，则可以再次利用按存活期排序的列表(或按优先级排序的列表)来寻找指令块，该指令块可以被提交以在指令窗口中为新的指令块的打开槽。例如，最旧的指令块或最低优先级的指令块可以被提交(其中高优先级块可以由于存在将来重新使用的可能性而需要保持被缓存)。在步骤425中，将新的指令块映射到可用槽中。可以使用批量分配过程来分配指令块，其中块中的指令和与指令相关联的所有资源被同时(即，集中地)提取。

在步骤430中，执行新的指令块，使得其指令被原子态地提交。在步骤435中，其他指令块可以以与传统的重排序缓冲区类似的方式按照存活期顺序地执行，以便以原子态提交它们各自的指令。

图5是可以由基于指令块的微架构执行的说明性方法500的流程图。在步骤505中，处理器内核中的控制单元使得所提取的指令块利用连续替换或非连续替换被缓存。在步骤510中，利用连续指令块替换，可以将操作缓冲区作为循环缓冲区操作。在步骤515中，使用不连续指令块替换，可以无序地替换指令块。例如，在步骤520中，可以执行显式的基于存活期的跟踪，使得以与上述类似的方式来基于跟踪的存活期提交和替换指令块。步骤525中，也可以跟踪优先级，并且可以使用跟踪的优先级来提交和替换指令块。

图6是可以由布置在处理器内核中的控制单元执行的说明性方法600的流程图。在步骤605中，跟踪所缓存的指令块的状态，并且在步骤610中使用所跟踪的状态来维持指令块的列表。例如，取决于具体的实施方式要求，状态可以包括存活期、优先级或其他信息或上下文。在步骤615中，当指令块被标识用于映射时，则如步骤620所示，检查列表以寻找匹配。在步骤625，刷新来自列表的匹配的指令块而不重新提取。当没有在列表中找到匹配的指令块时，则在步骤630中，以类似于上述的方式，从指令高速缓存提取指令块，并且将其映射到指令窗口中的可用槽中。

图7是用于管理布置在处理器内核中的指令窗口中的指令块的说明性方法700的流程图。在步骤705中，在处理器内核中维持指令块尺寸的尺寸表。尺寸表可以用各种方式表示，例如，使用逻辑、寄存器、存储器、代码流或其他合适的结构中的一项。在步骤710中，读取在指令块的标头中编码的索引。指令块包括一个或多个解码指令。因此，不是使用图3和表3中示出的SIZE字段来硬编码指令块尺寸，而是可以使用该字段来编码或存储到尺寸表的索引。也就是说，索引可以用作指向尺寸窗口中条目的指针，以使得特定尺寸能够与指令块相关联。

尺寸表中所包括的尺寸条目的数目可以根据实施方式而变化。可以使用更多数目的尺寸条目来实现更大的粒度，这在与给定的程序相关联的指令块尺寸的分布相对较宽的情况下可能是有益的，但是在典型的实施方式中以开销增加为代价。在一些情况下，可以由编译器选择被包括在表中的尺寸的数目，以便以能够优化整个指令封装密度的方式来覆盖指令块尺寸的特定分布，并且使无操作(no op)最少化。例如，可以选择被包括在尺寸表中的尺寸以匹配程序中常用的块指令尺寸。在步骤715中，使用索引从尺寸表中查找指令块尺寸。在步骤720中，基于其尺寸而将指令块映射到指令窗口中的可用槽中。

在一些实施方式中，如步骤725所示，指令窗口可以例如被分割为使用两个或更多个不同尺寸的两个或更多个子窗口。经分割的子窗口中的这样的变化可以使得能够进一步适应指令块尺寸的给定分布，并且可以进一步增加指令封装密度。分割在一些场景中也可以被动态执行。

图8是可以由基于指令块的微架构执行的说明性方法800的流程图。在步骤805中，实施尺寸表。如上所述，尺寸表可以使用逻辑、寄存器、存储器、代码流或其他合适的构造中的一项来实施，并且可以包括与在由给定程序使用的指令块的分布中通常使用的尺寸相对应的尺寸。在步骤810中，检查指令块标头以寻找指向尺寸表中的条目的指针。在步骤815中，使用由表条目所标识的尺寸来确定指令窗口中指令块的放置。

在步骤820中，批量分配与指令块相关联的资源。当在步骤825中映射指令窗口中的指令块时，使用在指令块标头中所指定的限制。这些限制可以例如包括对准上的限制和指令窗口用以缓冲指令块的容量。在步骤830中，由控制单元跟踪指令窗口中的指令块的顺序，并且在一些情况下，可以无序地提交块。例如，不是使用其中根据块在指令窗口中的位置来处理块的指令块的循环缓冲区，而是可以对块进行优先级排序，使得高度使用的或特别重要的指令块被无序地处理，这可以提高处理效率。

在步骤835中，在一些情况下，可以显式地跟踪指令块的存活期，并且可以基于这样的显式地跟踪的存活期来提交指令块。在步骤840中，刷新指令块(即，重新使用而不必从指令高速缓存重新提取指令块)。

图9是可以由布置在处理器内核中的控制单元执行的说明性方法900的流程图。在步骤905中，以与上述类似的方式将指令窗口配置为具有多个分段，该多个分段具有两个或更多个不同尺寸。在步骤910中，检查块指令标头以寻找被编码在其中的索引。在步骤915中使用索引在尺寸表中执行查找，并且在步骤920中，基于尺寸查找将指令块放置到适于块的特定尺寸的指令窗口分段中。在步骤925中，使用批量分配来提取与指令块相关联的资源。

图10是用于管理布置在处理器内核中的指令窗口中的指令块的说明性方法1000的流程图。在步骤1005中，将指令块从指令高速缓存映射到指令窗口中。指令块包括一个或多个解码指令。在步骤1010中，分配与指令块中的每个指令相关联的资源。资源通常包括控制位和操作数，并且分配可以使用批量分配过程来执行，在批量分配过程中集中地获取或提取所有资源。

代替将资源和指令紧密耦合，将指令窗口和操作数缓冲区解耦合，以使得它们可以通过维持块中的资源和已解码指令之间的一个或多个指针而被独立地操作，如步骤1015所示。当在步骤1020中刷新指令块(即，重新使用而不必从指令高速缓存重新提取指令块)时，则在步骤1025中，可以通过跟随指针回到原始控制状态来重新使用资源。

这样的解耦合可以使得处理器内核效率被提高，特别是当指令块被刷新而没有通常所发生的重新提取时，例如，当程序在紧密循环中执行并且指令被重复利用时。采用通过指针建立控制状态，资源被有效地预验证，而不需要附加的处理周期支出和其他费用。当多个处理器内核组成大规模阵列时，这样的效率增加也可能是复杂的。

图11是可以由基于指令块的微架构执行的说明性方法1100的流程图。在步骤1105中，以其中新的指令块替换提交的指令块的方式将指令块映射到指令窗口中。如步骤1110所示，映射可以受到在指令块的标头中所指定的各种限制，例如，对准的限制和指令窗口缓冲指令块的容量。在步骤1115，分配资源以用于新的指令块，如上所述，这通常使用批量分配过程来实施。

在步骤1120中，由控制单元跟踪指令窗口中指令块的顺序，并且在一些情况下，可以无序地提交块。例如，不是使用其中根据块在指令窗口中的位置来处理块的指令块的循环缓冲区，而是可以对块进行优先级排序，使得高度使用的或特别重要的指令块被无序地处理，这可以提高处理效率。

在步骤1125中，将指令窗口与操作数缓冲区解耦合，使得例如指令块和操作数块被独立地管理(即，不使用指令与操作数之间的严格对应关系)。如上所述，通过使得能够在刷新指令块时预验证资源，解耦合增加了效率。

图12是可以由布置在处理器内核中的控制单元执行的说明性方法1200的流程图。在步骤1205中，维持用于缓冲一个或多个指令块的指令窗口。在步骤1210中，维持用于缓冲与指令块中的指令相关联的资源的一个或多个操作数缓冲区。如上所述，资源通常包括控制位和操作数。在步骤1215中，使用指令与资源之间的指针来跟踪状态。

当刷新指令块时，在框1220中，可以跟随指针回到被跟踪的状态。在步骤1225中，当提交指令块时，清除操作数缓冲区中的控制位，并且设置新的指针。与上面讨论的方法一样，在步骤1230，将指令窗口与操作数缓冲区解耦合，使得能够由控制单元在非对应的基础上维持指令块和操作数块。

图13是用于管理布置在处理器内核中的指令窗口中的指令块的说明性方法1300的流程图。在步骤1305中，使用批量分配过程来分配指令块，其中块中的指令和与指令相关联的所有资源被同时(即，集中地)提取。与其中指令和资源以较小的块被重复提取的传统架构相比，这里的批量分配使得块中的所有指令能够被同时和一致地管理，这可以提高处理器内核操作的效率。在给定的编程结构(例如，使分支最小化的结构)使得编译器能够生成相对较大的指令块的情况下，这种改进可以更加显著。例如，在一些实施方式中，指令块可以包含多达128个指令。

指令块的批量分配还通过刷新特征来提高处理器内核的效率，其中，指令块被重新使用而无需如典型地发生地被重新提取，例如当程序在紧密循环中执行并且指令自行向后分支时。当多个处理器内核组成大规模阵列时，这样的效率增加也可能是复杂的。当刷新指令块时，指令被保持在合适的位置，并且只清除操作数缓冲区和加载/存储队列中的有效位。这使得刷新后的指令块的提取能够完全被绕过。

当一组指令和资源就位时，指令块的批量分配支持附加的处理效率。例如，操作数和显式消息可以从块中的一个指令被发送到另一指令。这样的功能在传统架构中是不支持的，因为一个指令不能发送任何东西到尚未被分配的另一指令。生成常量的指令也可以将值锁定在操作数缓冲区中，使得它们在刷新之后保持有效，使得不需要在每次执行指令块时重新生成这些值。

在步骤1310中，当指令块被映射到指令窗口中时，它们受到可以在步骤1315中通过映射策略、在块标头中指定的限制或二者而应用的约束。在一些情况下，策略可以由编译器根据给定程序的特定要求来设置。指定的限制可以包括例如对准上的限制和指令窗口缓冲指令块的容量的限制。

在步骤1320中，在一些实施方式中，可以将指令窗口分割成相同尺寸或不同尺寸的子窗口。由于指令块尺寸对于给定的程序通常是随机或不均匀分布的，因此经分割的子窗口中的这种变化可以更有效地适应给定的指令块尺寸分布，从而增加指令窗口中的指令封装密度。根据处理器内核当前正在处理的块尺寸的分布，在一些情况下还可以动态地执行分割。

在一些实施方式中，指令块标头可以对索引进行编码或者包括到使用逻辑、寄存器、存储器或代码流中的一项实施方式的尺寸表的指针。尺寸表可以包括指令块尺寸条目，使得在步骤1325中可以从表中查找指令块尺寸。例如，当块在实施方式分支时包括相对少量的指令时，使用编码的索引和尺寸表可以通过在可用块中提供更多的粒度以减少无操作的发生来增强指令块中的指令封装密度。

图14是可以由基于指令块的微架构执行的说明性方法1400的流程图。在步骤1405中，处理器内核中的控制单元应用用于处理指令块的策略。在步骤1410中，使用上述批量分配过程来分配指令块，其中同时提取指令和所有相关联的资源。在步骤1415中，将指令块映射到指令窗口中，其中映射可能受到各种限制，诸如如上所述在指令块的标头中所指定的对准的限制和指令窗口缓冲指令块的容量的限制。

在步骤1420，可以应用包括由控制单元来跟踪指令窗口中的指令块的顺序的策略。例如，在某些情况下块可以被无序地提交，而不是使用指令块的循环缓冲区，其中根据块在指令窗口中的位置来处理块。在步骤1425中，可以应用如下策略：其包括基于优先级来处理块(其在一些场景中可以由编译器指定)，使得高度使用的或者特别重要的块被无序地处理，这可以进一步增加处理效率。

在步骤1430中，在一些情况下，可以应用包括显示地跟踪指令块的存活期并且可以基于这样的显示地跟踪的存活期来提交指令块的策略。在步骤1435中，可以应用包括根据指令窗口(或窗口的分段)中的适当尺寸的槽的可用性来映射指令块的策略。在步骤1440，可以应用包括使用循环缓冲区来将指令块映射到指令窗口中的策略。

在一些实施方式中，可以利用策略的各种组合来进一步增强处理器内核效率。例如，控制单元可以在策略之间动态地切换，以应用为给定指令块或指令块组提供更优化的操作的策略。例如，在一些情况下，使用循环缓冲技术可能更高效，其中指令块以连续的方式按顺序被处理。在其他情况下，无序和基于存活期的处理可以提供更优化的操作。

图15是可以由布置在处理器内核中的控制单元执行的说明性方法1500的流程图。在步骤1505中，以与上述类似的方式将指令窗口配置为具有多个分段，该多个分段具有两个或更多个不同尺寸。在步骤1510中，提取指令块，并且在步骤1515中，提取其所有相关联的资源。

在步骤1520中，将指令块放置在使得窗口中的指令密度最大化的窗口的合适的分段中。例如，如果编译器产生包括具有较低指令计数的相对大量的块的块尺寸分布(例如，以实施程序分支等)，则指令窗口可以具有针对小指令块而被特别地确定尺寸的分段。类似地，如果存在相对大量的高指令计数块(例如，用于科学和类似的应用)，则可以针对这样的较大指令块对分段特别地确定尺寸。因此，指令窗口分段定尺寸可以根据特定尺寸分布来被调节，或者在一些情况下当分布变化时被动态地调节。在框1525中，如上所述，指令块可以受到指令块标头中所指定的限制。

现在通过说明而不是所有实施例的详尽列表的方式来呈现当前解耦的处理器指令窗口和操作数缓冲区的各种示例性实施例。一个示例包括一种用于管理布置在处理器中的指令窗口中的指令块的方法，包括：将包括包括一个或多个解码指令的指令块映射从指令高速缓存到指令窗口中；为指令块分配资源，其中资源包括与指令块中的一个或多个解码指令中的每一个解码指令相关联的控制位和操作数；维持资源和块中的一个或多个解码指令之间的一个或多个指针；刷新指令块，而不从指令高速缓存重新提取指令块；以及通过跟随一个或多个指针来重新使用资源。在另一示例中，该方法还包括为从指令高速缓存提取的每个指令块执行批量分配以获取与指令块中的一个或多个指令中的每一个指令相关联的资源。在另一示例中，该方法还包括在于指令窗口解耦合的操作数缓冲区中维持操作数和控制位，以使得在资源在指令块被刷新时被预验证。在另一示例中，控制位包括操作数就绪状态。在另一示例中，资源包括操作码。在另一示例中，该方法还包括基于程序来利用指令块，以及在使用编程循环来实现程序的执行时刷新指令块。

另一示例包括一种基于指令块的微架构，包括：控制单元；一个或多个操作数缓冲区；以及被配置为存储要在所述控制单元的控制之下的解码指令块的指令窗口，其中控制包括用于进行以下的操作：将指令块映射到指令窗口中，以使得新的指令块替换提交的指令块，为新的指令块分配资源，其中资源包括控制位或操作数，并且将指令窗口从一个或多个操作数缓冲区解耦合，其中指令块和操作数块被独立地管理，以使得资源在指令块被刷新时被预验证。在另一示例中，基于指令块的微架构还包括用于基于在指令块的标头中所指定的限制来映射指令块的配置。在另一示例中，如权利要求8所述的基于指令块的微架构，其中所指定的限制包括以下一项：对准限制或指令窗口的指令块容量限制。在另一示例中，基于指令块的微架构还包括用以跟踪指令窗口中的指令块的顺序并且无序地提交指令块的配置。在另一示例中，基于指令块的微架构还包括片上网络，该片上网络使得多个处理器内核能够被组合或分解。在另一示例中，基于指令块的微架构还包括用以在多个处理器内核被组合时维持逻辑指令窗口与一个或多个逻辑操作数缓冲区之间的解耦合的配置。在另一示例中，基于指令块的微架构还包括用以在多个处理器内核被分解时维持逻辑指令窗口与一个或多个逻辑操作数缓冲区之间的解耦合的配置。在另一示例中，基于指令块的微架构还包括用于刷新所述指令块而不从指令高速缓存重新提取所述指令块的配置。

另一示例包括一种布置在处理器中的控制单元，该处理器被布置为执行用于指令块管理的方法，该方法包括：维持用于缓冲一个或多个指令块的指令窗口；维持用于为一个或多个指令块缓冲资源的一个或多个操作数缓冲区；使用指令块与缓冲资源之间的指针来跟踪状态；在刷新指令块时，跟随指针以重新使用跟踪状态。在另一示例中，控制单元还包括：在提交指令块时清除控制位并且设置新的指针。在另一示例中，控制单元还包括将指令窗口与一个或多个操作数缓冲区解耦合，以使得在非对应的基础上维持指令块和操作数块。在另一示例中，控制单元还包括批量分配缓冲的资源，以使得为指令块中的所有指令获得资源。在另一示例中，控制单元还包括维持包括多个处理器内核的逻辑指令窗口。在另一示例中，控制单元还包括维持包括多个处理器内核的逻辑操作数缓冲区，并且进一步将逻辑操作数缓冲区与逻辑指令窗口解耦合，使得能够在刷新指令块时预验证状态而不重新提取。

上述主题被提供仅作为说明，而不应当被解释为限制。可以对本文中描述的主题进行各种修改和改变，而不遵循示出和描述的示例实施例和应用，并且不偏离在以下权利要求中阐述的本公开的真实精神和范围。

Claims

1.一种用于管理指令窗口中的指令块的方法，所述指令窗口在布置处理器中，所述方法包括：

将指令块从指令高速缓存映射到所述指令窗口中，所述指令块包括一个或多个解码指令；

为所述指令块分配资源，其中所述资源包括与所述指令块中的所述一个或多个解码指令中的每一个解码指令相关联的控制位和操作数；

维持所述资源和所述块中的所述一个或多个解码指令之间的一个或多个指针；

刷新所述指令块，而不从所述指令高速缓存重新提取所述指令块；以及

通过跟随所述一个或多个指针来重新使用所述资源。

2.根据权利要求1所述的方法，还包括：为从所述指令高速缓存提取的每个指令块执行批量分配，以获取与所述指令块中的所述一个或多个指令中的每一个指令相关联的资源。

3.根据权利要求1所述的方法，还包括在与所述指令窗口解耦合的操作数缓冲区中维持操作数和控制位，以使得资源在指令块被刷新时被预验证。

4.根据权利要求3所述的方法，其中所述控制位包括操作数就绪状态。

5.根据权利要求1所述的方法，其中所述资源包括操作码。

6.根据权利要求5所述的方法，还包括：基于程序来利用指令块，以及在使用编程循环来实现所述程序的执行时刷新所述指令块。

7.一种基于指令块的微架构，包括：

控制单元；

一个或多个操作数缓冲区；以及

指令窗口，所述指令窗口被配置为存储要在所述控制单元的控制之下的解码指令块，其中所述控制包括用于进行以下的操作：

将指令块映射到所述指令窗口中，以使得新的指令块替换已提交的指令块，

为所述新的指令块分配资源，其中所述资源包括控制位或操作数，以及

将所述指令窗口从所述一个或多个操作数缓冲区解耦合，其中指令块和操作数块被独立地管理，以使得资源在指令块被刷新时被预验证。

8.根据权利要求7所述的基于指令块的微架构，还包括用以基于在所述指令块的标头中所指定的限制来映射所述指令块的配置。

9.根据权利要求8所述的基于指令块的微架构，其中指定的所述限制包括以下一项：对准限制或所述指令窗口的指令块容量限制。

10.根据权利要求7所述的基于指令块的微架构，还包括用以跟踪所述指令窗口中的所述指令块的顺序并且无序地提交指令块的配置。

11.根据权利要求7所述的基于指令块的微架构，还包括片上网络，所述片上网络支持多个处理器内核被组合或分解。

12.根据权利要求11所述的基于指令块的微架构，还包括用以在所述多个处理器内核被组合时维持逻辑指令窗口与一个或多个逻辑操作数缓冲区之间的解耦合的配置。

13.根据权利要求11所述的基于指令块的微架构，还包括用以在所述多个处理器内核被分解时维持逻辑指令窗口与一个或多个逻辑操作数缓冲区之间的解耦合的配置。

14.根据权利要求7所述的基于指令块的微架构，还包括用以刷新所述指令块而不从指令高速缓存重新提取所述指令块的配置。