CN111221579B

CN111221579B - 预测Load指令执行延迟的方法及系统

Info

Publication number: CN111221579B
Application number: CN201811425412.4A
Authority: CN
Inventors: 孙浩; 刘权胜; 余红斌
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2022-04-26
Anticipated expiration: 2038-11-27
Also published as: CN111221579A

Abstract

本发明提供一种预测Load指令执行延迟的方法及系统。所述方法包括：将所派发的Load指令与缓冲内的输入进行比较，判断是否匹配；若匹配，则将预测结果存入发射队列，判断预测结果是否正确，若正确，则不更新缓冲内相应的输入，若不正确，则更新缓冲内相应的输入；若不匹配，则判断Load指令是否为可缓存的访问，若是，则不在缓冲内创建相应的输入，若不是，则在缓冲内创建相应的输入。本发明能够提高预测的准确度，减少因为预测错误带来的不利影响。

Description

预测Load指令执行延迟的方法及系统

技术领域

本发明涉及计算机架构技术领域，尤其涉及一种预测Load指令执行延迟的方法及系统。

背景技术

现代处理器中为了减小指令间的数据依赖(Data Dependency)对性能的影响，都会提前计算前一条指令何时能够提供源操作数(Source Data)，这样与前一条指令有依赖关系的后续指令可以提前发射。但是如果前一条指令是Load指令(从内存中读取数据的指令)，情况会稍显复杂。Load指令的访问属性可能为Non-Cacheable(不可缓存的访问)或者Device(外设访问)，那么其需要到处理器外部总线上去读取数据，所需要的延迟时间(Latency)是无法估计的。另外，即使Load指令的访问属性为Cacheable(可缓存的访问)，其也可能会有L1 Data Cache Miss(一级数据缓存命中)，那所需要的延迟时间也是无法估计的。

现有的方案是直接预测Load指令的访问属性为可缓存的访问，且一定会一级数据缓存命中。那么与其有依赖关系的后续指令可以依据此计算最早能够发射的时间，但是这种预测方法准确度不高，会带来较多的流水线Stall(停顿)和Flush(刷新)，导致不必要的功耗损耗和性能下降。

发明内容

本发明提供的预测Load指令执行延迟的方法及系统，能够提高预测的准确度，减少因为预测错误带来的不利影响。

第一方面，本发明提供一种预测Load指令执行延迟的方法，包括：

将所派发的Load指令与缓冲内的输入进行比较，判断是否匹配；

若匹配，则将预测结果存入发射队列，判断预测结果是否正确，若正确，则不更新缓冲内相应的输入，若不正确，则更新缓冲内相应的输入；

若不匹配，则判断Load指令是否为可缓存的访问，若是，则不在缓冲内创建相应的输入，若不是，则在缓冲内创建相应的输入。

可选地，所述缓冲内的每个输入包括四个域：PC[48:12]、PC[11:1]、MASK[3:0]和有效位，其中，有效位指示此输入是否有效，无效输入不能提供预测结果，PC[48:1]和PC[11:1]是指令的PC[48:12]和PC[11:1]，MASK[3:0]是在比较时屏蔽掉PC[11:1]部分位。

可选地，所述将预测结果存入发射队列包括：将发射队列内的un-pred位置为1’b1。

可选地，所述更新缓冲内相应的输入包括：

找到预测出错Load指令的PC[11:1]中从左到右最后一个1’b1所对应的位N，则需要屏蔽的位为PC[11:N]，然后找到MASK[3:0]所对应的值，即为屏蔽所要更新的值；

如果MASK[3:0]已经为4’b0000，则有效位变为1’b0。

可选地，所创建的相应的输入的PC[48:12]和PC[11:1]置为所述Load指令的PC[48:12]和PC[11:1]，MASK[3:0]置为4’b1011，有效位置为1’b1。

第二方面，本发明提供一种预测Load指令执行延迟的系统，包括：

指令派发模块，用于对处理器内的Load指令进行派发；

延迟时间预测模块，用于将所派发的Load指令与缓冲内的输入进行比较，判断是否匹配，当判定匹配时将预测结果存入发射队列，判断预测结果是否正确，当判定预测结果不正确时更新缓冲内相应的输入；当判定不匹配时判断所述Load指令是否为可缓存的访问，当判定所述Load指令不是可缓存的访问时在缓冲内创建相应的输入；

发射队列指令发射模块，由多个输入组成，每一个输入存储从指令派发模块派发的Load指令，并将Load指令发射到后续执行模块。

可选地，所述延迟时间预测模块集成了缓冲存储和比较逻辑，缓冲存储预测所需要的信息，比较逻辑输出比较结果。

所述比较逻辑包括：

PC[48:12]比较逻辑，比较每一个输入内的PC[48:12]是否与派发的Load指令的PC[48:12]一致；

Masked PC[11:1]比较逻辑，根据MASK[3:0]的值，将PC[11:1]的某些位屏蔽后再进行比较；

只有两个比较逻辑都得到匹配的结果，最后的比较结果才为匹配。

可选地，所述延迟时间预测模块包括：

缓冲存储子模块，由多个输入组成，内部存储的PC是与不可缓存的访问或者外设访问关联；

比较逻辑子模块，将所述缓冲存储子模块的每个输入的PC与从所述指令派发模块派发的Load指令的PC相比较，得出是否匹配的结果。

可选地，所述系统还包括：

Load/Store执行模块，用于得到所述发射队列指令发射模块发射的Load指令的访问属性，并将所述访问属性返回给所述延迟时间预测模块。

本发明实施例提供的预测Load指令执行延迟的方法及系统，在Load指令发射时，能够预测出它是否可能会有数据缓存命中，能够提高预测的准确度，减少流水线的停顿和刷新，避免因为预测错误而带来的功耗损耗和性能下降。

附图说明

图1为本发明实施例提供的预测Load指令执行延迟的系统的结构示意图；

图2为本发明实施例提供的输入的组成结构示意图；

图3为本发明实施例提供的比较逻辑的结构示意图；

图4为本发明实施例提供的预测Load指令执行延迟的方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据ARMv8-A架构规定，当MMU(Memory Management Unit，内存管理单元)OFF或者Data Cache(数据缓存)OFF时，所有的Data Memory(数据存储器)访问都应为外设访问或者不可缓存的访问类型。对于这两种类型的Load指令，没有固定的执行延迟时间，因此需要根据MMU及数据缓存的状态，分场景进行设计。本发明分了三个场景。

场景1：MMU OFF

当MMU OFF时，所有的数据存储器访问为外设访问类型。在这种情况下，Load指令没有固定的执行延迟时间，因此后续有数据依赖的指令不能够提前发射，需要等到Load指令的数据真正返回时才能够发射。

场景2：Data Cache OFF

当Data OFF时，所有的数据存储器访问为不可缓存的访问或者外设访问类型。在这种情况下，Load指令没有固定的执行延迟时间，因此后续有数据依赖的指令不能够提前发射，需要等到Load指令的数据真正返回时才能够发射。

场景3：MMU ON和Data Cache ON

在此场景下，Load指令的访问属性可以为可缓存的访问、不可缓存的访问或者外设访问类型。本发明提出的方法能够预测Load指令是否为可缓存的访问。如果为可缓存的访问，则认为会一级数据缓存命中，后续有数据依赖的指令可以计算出最早发射时间。否则，Load指令的执行延迟时间不固定，后续有数据依赖的指令需要等到Load的数据返回才可以发射。

本发明实施例提供一种预测Load指令执行延迟的系统，如图1所示，所述系统包括：

指令派发模块101，负责处理器内指令的派发，由图1可知，每周期可以派发两条指令，分别为instr0和instr1。每条指令的PC[48:1]可以被派发到后续模块。

延迟时间预测模块102，内部集成了缓冲存储和比较逻辑。缓冲存储预测所需要的信息，比较逻辑输出比较结果。

所述延迟时间预测模块102包括缓冲存储子模块103和比较逻辑子模块104，其中，

缓冲存储子模块103，由多个输入(Entry)组成，每个输入的组成结构如图2所示。它内部存储的PC是与不可缓存的访问或者外设访问关联。

它包含四个域：PC[48:12]、PC[11:1]、MASK[3:0]和有效位。有效位指示此输入是否有效，无效输入不能提供预测结果。PC[48:1]和PC[11:1]是指令的PC[48:12]和PC[11:1]。MASK[3:0]是在比较时屏蔽掉PC[11:1]部分位。MASK[3:0]的编码为：

表1 MASK[3:0]编码

MASK[3:0]	功能描述
		4’b0000	不屏蔽PC[11:1]
4’b0001	屏蔽PC[1]
		4’b0010	屏蔽PC[2:1]
4’b0011	屏蔽PC[3:1]
		4’b0100	屏蔽PC[4:1]
4’b0101	屏蔽PC[5:1]
		4’b0110	屏蔽PC[6:1]
4’b0111	屏蔽PC[7:1]
		4’b1000	屏蔽PC[8:1]
4’b1001	屏蔽PC[9:1]
		4’b1010	屏蔽PC[10:1]
4’b1011	屏蔽PC[11:1]

比较逻辑子模块104，将缓冲存储子模块103的每个输入的PC与从指令派发模块101派发指令的PC相比较，得出是否匹配的结果，比较逻辑的结构如图3所示。

PC[48:12]比较逻辑201，是比较每一个输入内的PC[48:12]是否与派发指令的PC[48:12]一致。

屏蔽PC[11:1]比较逻辑202，根据MASK[3:0]的值，将PC[11:1]的某些位屏蔽后再进行比较。

只有PC[48:12]比较逻辑201和屏蔽PC[11:1]比较逻辑202都得到匹配的结果，最后的比较结果才能匹配。

发射队列指令发射模块105，由多个输入组成，每一个输入一方面存储从指令派发模块101派发的指令instr0和instr1，另一方面将指令发射到后续执行单元。指令经过延迟时间预测模块102后，会得到是否为可缓存的访问指令，如果预测是的话，则相应的输入内的un-pred位会置为1’b0，否则为1’b1。后续与其有数据依赖的指令可以根据un-pred的值来决定何时发射。

Load/Store执行模块106，可以得到从发射队列指令发射模块105发射的Load指令的访问属性是否为可缓存的访问、不可缓存的访问或者外设访问。它可以将此属性返回给延迟时间预测模块102，进行缓冲存储子模块103的输入的分配或者更新。如果之前没有预测，则可以进行新输入的分配。如果预测有误，可能进行更新。

本发明实施例提供的预测Load指令执行延迟的系统，在Load指令发射时，能够预测出它是否可能会有数据缓存命中，能够提高预测的准确度，减少流水线的停顿和刷新，避免因为预测错误而带来的功耗损耗和性能下降。

本发明实施例提供一种预测Load指令执行延迟的方法，如图4所示，所述方法包括：

步骤S301、识别派发的指令是否为Load指令，如果是的话，将其PC与缓冲内的输入进行比较。

步骤S302、判断是否有match。如果Match，进入步骤S303；否则进入步骤S307。

步骤S303、因为Match，说明此Load被预测为不可缓存的访问或者外设访问，则将发射队列内的un-pred位置为1’b1。

步骤S304、指令进入LSU模块后，可以进行核实预测结果是否正确。如果正确则进入步骤S05；否则，进入步骤S306。

步骤S305、因为预测正确，说明此Load指令为不可缓存的访问或者外设访问，则不需要更新缓冲内相应输入。

步骤S306、因为预测错误，说明此Load指令为可缓存的访问，需要更新缓冲内相应输入的MASK[3:0]和有效位。具体方法为：

找到此预测出错Load的PC[11:1]中从左到右最后一个1’b1所对应的位N，则需要屏蔽的位为PC[11:N]，然后找到表1中MASK[3:0]所对应的值，即为屏蔽所要更新的值。

如果MASK[3:0]已经为4’b0000，那么有效位应变为1’b0。

步骤S307、在LSU内得出此Load是否为可缓存的访问，如果是的话，则进入步骤S308；否则进入步骤S309。

步骤S308、如果Load指令是可缓存的访问，则不需要在缓冲内分配相应的输入。

步骤S309、如果Load指令是不可缓存的访问或者外设访问，则需要在缓冲内创建相应的输入。PC[48:12]和PC[11:1]置为此Load的PC[48:12]和PC[11:1]，MASK[3:0]置为4’b1011，有效位置为1’b1。

本发明实施例提供的预测Load指令执行延迟的方法，在Load指令发射时，能够预测出它是否可能会有数据缓存命中，能够提高预测的准确度，减少流水线的停顿和刷新，避免因为预测错误而带来的功耗损耗和性能下降。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种预测Load指令执行延迟的方法，其特征在于，包括：

通过指令派发模块对处理器内的Load指令进行派发；

通过延迟时间预测模块将所派发的Load指令与缓冲内的输入进行比较，判断是否匹配；若匹配，则将预测结果存入发射队列，判断预测结果是否正确，若正确，则不更新缓冲内相应的输入，若不正确，则更新缓冲内相应的输入；若不匹配，则判断Load指令是否为可缓存的访问，若是，则不在缓冲内创建相应的输入，若不是，则在缓冲内创建相应的输入；

通过发射队列指令发射模块的每一个输入存储从指令派发模块派发的Load指令，并将Load指令发射到后续执行模块，所述发射队列指令发射模块由多个输入组成。

2.根据权利要求1所述的方法，其特征在于，所述缓冲内的每个输入包括四个域：PC[48:12]、PC[11:1]、MASK[3:0]和有效位，其中，有效位指示此输入是否有效，无效输入不能提供预测结果，PC[48:1]和PC[11:1]是指令的PC[48:12]和PC[11:1]，MASK[3:0]是在比较时屏蔽掉PC[11:1]部分位。

3.根据权利要求2所述的方法，其特征在于，所述将预测结果存入发射队列包括：将发射队列内的un-pred位置为1’b1。

4.根据权利要求2所述的方法，其特征在于，所述更新缓冲内相应的输入包括：

如果MASK[3:0]已经为4’b0000，则有效位变为1’b0。

5.根据权利要求2所述的方法，其特征在于，所创建的相应的输入的PC[48:12]和PC[11:1]置为所述Load指令的PC[48:12]和PC[11:1]，MASK[3:0]置为4’b1011，有效位置为1’b1。

6.一种预测Load指令执行延迟的系统，其特征在于，包括：

指令派发模块，用于对处理器内的Load指令进行派发；

7.根据权利要求6所述的系统，其特征在于，所述缓冲内的每个输入包括四个域：PC[48:12]、PC[11:1]、MASK[3:0]和有效位，其中，有效位指示此输入是否有效，无效输入不能提供预测结果，PC[48:1]和PC[11:1]是指令的PC[48:12]和PC[11:1]，MASK[3:0]是在比较时屏蔽掉PC[11:1]部分位。

8.根据权利要求7所述的系统，其特征在于，所述延迟时间预测模块集成了缓冲存储和比较逻辑，缓冲存储预测所需要的信息，比较逻辑输出比较结果；

所述比较逻辑包括：

9.根据权利要求7或8所述的系统，其特征在于，所述延迟时间预测模块包括：

10.根据权利要求6所述的系统，其特征在于，所述系统还包括：