CN111857830A

CN111857830A - 一种提前转发指令数据的通路设计方法、系统及存储介质

Info

Publication number: CN111857830A
Application number: CN202010504662.8A
Authority: CN
Inventors: 刘权胜; 余红斌
Original assignee: Shanghai Saifang Technology Co ltd
Current assignee: Shanghai Saifang Technology Co ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-10-30
Anticipated expiration: 2040-06-05
Also published as: CN111857830B

Abstract

本发明涉及微电子技术领域，具体涉及一种提前转发指令数据的通路设计方法、系统及存储介质；本发明首先确定与数据相关的这类指令的数据；并在指令间提前转发条件检测及提前转发指令间的数据；最后提前转发若干周期前指令的数据，加速指令从保留站中发射到执行单元，同时加速后续流水线中的指令；本发明的方法能够提前快速的得到指令的依赖数据，使依赖指令提前满足发射的条件。加速指令从保留站中发射到执行单元，同时也加速了后续流水线中的指令。

Description

一种提前转发指令数据的通路设计方法、系统及存储介质

技术领域

本发明涉及微电子技术领域，具体涉及一种提前转发指令数据的通路设计方法、系统及存储介质。

背景技术

微处理器的发展在短短的几十年里，取得了巨大的进步。从硬件架构，工艺和软硬件结合多个方面不断提高处理器的性能。硬件架构经历了从单发射标量到多发射超标量；从最初的3级流水线到几十级流水线；从顺序执行指令到乱序执行指令；从无cache到3级cache存储结构；从物理单核到物理多核(CMP，ChipMulti-Processors)及逻辑单核到逻辑多核(SMT，SimultaneousMulti-Threading)；甚至用于超级运算的集群系统，处理器的指令级并行和线程级并行执行得到了极致的发展。单核微处理器的指令级并行带宽要求越来越高，芯片实现逻辑复杂度程倍数增加。

目前，服务器的流水线处理带宽最多达到8条指令每个时钟周期。在终端领域，指令处理带宽也有6条指令每个时钟周期。CPU通过设计高带宽的处理能力，希望得到更好的性能。每个时钟周期的指令之间可能存在相关，或者与之前某个时钟周期的指令存在相关。由于在指令集中存在一类与数据相关的指令，这类指令在decoder或者之前的某个阶段可以得到数据。

传统的设计方法，指令需要从寄存器堆读数据，或者指令比较在执行单元执行完成的指令结果。传统方法执行这类指令不能提升流水线的执行效率。

在图1中是一个N个物理核共享L3和内存的多核CPU，每个物理核可以是单线程或者是多线程架构。每个core适用于所有的指令集，架构及工艺。

在图2中是一个单物理核，物理核可以是单线程或者是多线程架构。该核的模块划分在表1中给出功能描述。

发明内容

针对现有技术的不足，本发明公开了一种提前转发指令数据的通路设计方法、系统及存储介质，用于解决目前，多条发射指令读数据都是通过读物理寄存器或者取从执行单元执行完成指令返回结果；不能对在进入保留站之前已经确定指令的数据转发，从而不能更早唤醒依赖的指令的问题。

本发明通过以下技术方案予以实现：

第一方面，本发明公开一种提前转发指令数据的通路设计方法，所述方法首先确定与数据相关的这类指令的数据；并在指令间提前转发条件检测及提前转发指令间的数据；最后提前转发若干周期前指令的数据，加速指令从保留站中发射到执行单元，同时加速后续流水线中的指令。

更进一步的，对这类指令的数据选择RISC-V指令集的部分整数指令类型并通过写CACHE之前、取指阶段、predecoder或者指令队列等阶段判断某条指令是否可以得到数据的过程。

更进一步的，所述RISC-V指令集中除了立即数外，x0是一个特殊的寄存器，该寄存器一直固定为0，对该寄存器写操作无效，因此，当指令中的出现x0的时候，判断该寄存器的值是0，相当于立即数为0的一种特殊形式。

更进一步的，这类指令先在指令之间进行数据转发，为了更大范围的支持提前转发数据，指令进行重命名，每条指令的目的寄存器分配一个物理寄存器，指令在dispatch阶段进入保留站的同时，同时进入一个缓存fw_buffer[N-1:0]，该fw_buffer保存最近N个周期满足提前转发数据指令的立即数和物理寄存器等控制信号。

更进一步的，所述fw_buffer的深度为N，宽度M，N表示当前周期的前N个周期指令状态，如果这个前N个周期中存在满足提前转发数据的指令时，通过比较物理寄存器号，转发数据到依赖指令，这N个周期的指令可能还在保留站中没有发射到执行单元，也可能在执行单元执行，或者在执行单元的转发数据通道。

更进一步的，经过重命名之后的指令，通过源寄存器的物理寄存器比较fw_buffer中指令的目的寄存器的物理寄存器，如果命中，则提前得到该源寄存器的数据。

更进一步的，所述设计方法使用指令的优化方法，包括如何得到立即数指令的方法，其根据不同指令集的特点进行类似的优化，适用于任何指令集。

更进一步的，所述指令的优化方法包括立即数在指令之间的转发思想及原理、数据转发提前到读物理寄存器之前，及指令在执行单元执行之前转发数据的方法、通过一个缓存，转发N个周期之前，依赖指令数据的方法和转发数据的判断逻辑及判断方法。

第二方面，本发明公开一种提前转发指令数据的通路设计系统，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器硬件执行第一方面所述的提前转发指令数据的通路设计方法。

第三方面，本发明公开一种可读介质，包括执行指令，当提前转发指令数据的通路设计系统的处理器执行所述执行指令时，所述提前转发指令数据的通路设计系统执行第一方面所述的提前转发指令数据的通路设计方法。

本发明的有益效果为：

本发明的方法能够提前快速的得到指令的依赖数据，使依赖指令提前满足发射的条件。加速指令从保留站中发射到执行单元，同时也加速了后续流水线中的指令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是背景技术中N个物理核共享L3和内存的多核CPU图；

图2是背景技术单物理核图；

图3是立即数转发条件检测图；

图4是提前转发若干周期前指令的数据图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开一种提前转发指令数据的通路设计方法，所述方法首先确定与数据相关的这类指令的数据；并在指令间提前转发条件检测及提前转发指令间的数据；最后提前转发若干周期前指令的数据，加速指令从保留站中发射到执行单元，同时加速后续流水线中的指令。

实施例2

为了便于阐述原理，本实施例主要以RISC-V指令集的部分整数指令类型为实例进行说明。需要判断某条指令是否可以得到数据的过程，可以在写CACHE之前、取指阶段、predecoder或者指令队列等阶段。RISC-V指令集中除了立即数外，x0是一个特殊的寄存器，该寄存器一直固定为0，对该寄存器写操作无效。因此，当指令中的出现x0的时候，可以判断该寄存器的值是0，相当于立即数为0的一种特殊形式。

部分指令的优化如下表所示：

rs1为第一个源寄存器。rs2为第二个源寄存器。rd为目的寄存器。imm为指令的立即数，该立即数可能是指令中的立即数，也可能是由于指令优化得到的值。pc为指令地址。

表格1指令优化描述

其他乘法、除法等指令可以得到类似的优化，不再赘述。这些指令经过优化后，得到满足向目的寄存器写立即数的一类指令的条件和立即数。本发明针对这类指令的数据提前转发到依赖指令，使依赖指令提前发射，而不需要等待执行单元返回结果。

实施例3

本实施例阐述指令间提前转发条件检测及提前转发指令间的数据，为了便于描述，以8条指令带宽为例进行说明，分别表示为inst0、inst1、inst2、inst3、inst4、inst5、inst6和inst7。假设8条指令存在目的寄存器标志分别为：rd_val_0、rd_val_1、rd_val_2、rd_val_3、rd_val_4、rd_val_5、rd_val_6和rd_val_7。每条指令在第一阶段可以得到每条指令是否属于这类指令的标志及对应的立即数。假设8条指令的标志分别为：fw_0、fw_1、fw_2、fw_3、fw_4、fw_5、fw_6和fw_7。假设8条指令的立即数分别为：fw_imm0、fw_imm1、fw_imm2、fw_imm3、fw_imm4、fw_imm5、fw_imm6和fw_imm7。当fw_0为1时，表示指令1属于这类指令，立即数fw_imm0可以提前转到依赖指令。其它指令依此类推。每个时钟周期的8条指令之间进行检测，如图3所示。

不妨，以第8条指令为例进行说明。指令8可以从指令1、指令2、指令3、指令4、指令5、指令6或者指令7提前得到操作数。

1，指令8的第1个源寄存器rs1取指令7立即数的条件为fw_76_rs1_val：指令8的rs1等于指令7的rd，并且指令7为写立即数指令。

fw_76_rs1_val＝((inst7.rs1＝＝inst6.rd)&rd_val_6)&fw_6

指令8的第2个源寄存器rs2也可得到类似的条件fw_76_rs2_val。

2，指令8的第1个源寄存器rs1取指令6立即数的条件为fw_75_rs1_val：指令8的rs1等于指令6的rd，并且指令6为写立即数指令。

fw_75_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

((inst7.rs1＝＝inst5.rd)&rd_val_5)&fw_5

指令8的第2个源寄存器rs2也可得到类似的条件fw_75_rs2_val。

3，指令8的第1个源寄存器rs1取指令5立即数的条件为fw_74_rs1_val：指令8的rs1等于指令5的rd，并且指令5为写立即数指令。

fw_74_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

(～((inst7.rs1＝＝inst5.rd)&rd_val_5))&

((inst7.rs1＝＝inst4.rd)&rd_val_4)&fw_4

指令8的第2个源寄存器rs2也可得到类似的条件fw_74_rs2_val。

4，指令8的第1个源寄存器rs1取指令4立即数的条件为fw_73_rs1_val：指令8的rs1等于指令4的rd，并且指令4为写立即数指令。

fw_73_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

(～((inst7.rs1＝＝inst5.rd)&rd_val_5))&

(～((inst7.rs1＝＝inst4.rd)&rd_val_4))&

((inst7.rs1＝＝inst3.rd)&rd_val_3)&fw_3

指令8的第2个源寄存器rs2也可得到类似的条件fw_73_rs2_val。

5，指令8的第1个源寄存器rs1取指令3立即数的条件为fw_72_rs1_val：指令8的rs1等于指令3的rd，并且指令3为写立即数指令。

fw_72_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

(～((inst7.rs1＝＝inst5.rd)&rd_val_5))&

(～((inst7.rs1＝＝inst4.rd)&rd_val_4))&

(～((inst7.rs1＝＝inst3.rd)&rd_val_3))&

((inst7.rs1＝＝inst2.rd)&rd_val_2)&fw_2

指令8的第2个源寄存器rs2也可得到类似的条件fw_72_rs2_val。

6，指令8的第1个源寄存器rs1取指令2立即数的条件为fw_71_rs1_val：指令8的rs1等于指令2的rd，并且指令2为写立即数指令。

fw_71_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

(～((inst7.rs1＝＝inst5.rd)&rd_val_5))&

(～((inst7.rs1＝＝inst4.rd)&rd_val_4))&

(～((inst7.rs1＝＝inst3.rd)&rd_val_3))&

(～((inst7.rs1＝＝inst2.rd)&rd_val_2))&

((inst7.rs1＝＝inst1.rd)&rd_val_1)&fw_1

指令8的第2个源寄存器rs2也可得到类似的条件fw_71_rs2_val。

7，指令8的第1个源寄存器rs1取指令1立即数的条件为fw_70_rs1_val：指令8的rs1等于指令1的rd，并且指令1为写立即数指令。

fw_70_rs1_val＝(～((inst7.rs1＝＝inst6.rd)&rd_val_6))&

(～((inst7.rs1＝＝inst5.rd)&rd_val_5))&

(～((inst7.rs1＝＝inst4.rd)&rd_val_4))&

(～((inst7.rs1＝＝inst3.rd)&rd_val_3))&

(～((inst7.rs1＝＝inst2.rd)&rd_val_2))&

(～((inst7.rs1＝＝inst1.rd)&rd_val_1))&

((inst7.rs1＝＝inst0.rd)&rd_val_0)&fw_0

指令8的第2个源寄存器rs2也可得到类似的条件fw_70_rs2_val。

因此，可以得到指令8的第1个源寄存器rs1的值fw_8_rs1。设立即数的宽度为WIDTH。

fw_8_rs1＝({WIDTH{fw_70_rs1_val}}&fw_imm0)|

({WIDTH{fw_71_rs1_val}}&fw_imm1)|

({WIDTH{fw_72_rs1_val}}&fw_imm2)|

({WIDTH{fw_73_rs1_val}}&fw_imm3)|

({WIDTH{fw_74_rs1_val}}&fw_imm4)|

({WIDTH{fw_75_rs1_val}}&fw_imm5)|

({WIDTH{fw_76_rs1_val}}&fw_imm6)

指令8的源寄存器rs1可以通过提前得到数据的有效信号fw_8_rs1_val为：

fw_8_rs1_val＝fw_70_rs1_val|

fw_71_rs1_val|

fw_72_rs1_val|

fw_73_rs1_val|

fw_74_rs1_val|

fw_75_rs1_val|

fw_76_rs1_val

同理，可以得到指令8的第2个源寄存器rs2的值fw_8_rs2和数据的有效信号fw_8_rs2_val。

其他指令可以得到类似的条件及数据，不再赘述。

举例：

下面3条指令中，指令1的目的寄存器x5写立即数imm1，满足转发到指令2的源寄存器rs1的条件。

表格23条指令间满足数据转发条件

	指令	rs1	rs2	imm	rd
						1	addi	x0	-	imm1	x5
2	addi	x5	-	imm2	x7
						3	addi	x7	-	imm3	x8

表格33条指令间数据转发

	指令	rs1	rs2	imm	rd
						1	addi	x0	-	imm1	x5
2	addi	x5＝imm1	-	imm2	x7
						3	addi	x7	-	imm3	x8

rs1通过提前转发通路，得到源寄存器rs1的值imm1。而不需要等指令1在执行单元执行完成后才取到数据imm1。

实施例4

本实施例阐述提前转发若干周期前指令的数据，这类指令先在指令之间进行数据转发，为了更大范围的支持提前转发数据，即支持提前转发不同周期指令间的数据。指令在进行重命名后，每条指令的目的寄存器分配一个物理寄存器。指令在dispatch阶段进入保留站的同时，同时进入一个缓存fw_buffer[N-1:0]。该fw_buffer保存最近N个周期满足提前转发数据指令的立即数和物理寄存器等控制信号,如图4所示。

fw_buffer的深度为N，宽度M。N表示当前周期的前N个周期指令状态。如果这个前N个周期中存在满足提前转发数据的指令时，通过比较物理寄存器号，转发数据到依赖指令。这N个周期的指令可能还在保留站中没有发射到执行单元，也可能在执行单元执行，或者在执行单元的转发数据通道。经过重命名之后的指令，通过源寄存器的物理寄存器比较fw_buffer中指令的目的寄存器的物理寄存器，如果命中，则提前得到该源寄存器的数据。M为8条指令的所有数据宽度。

表格4 fw_buffer

fw_buffer中N个周期前的指令状态如上表所示。

如果在分派阶段有如下3条指令：

表格5发射3条指令

mul的rs1的物理寄存器和前1个周期的addi指令的目的寄存器的物理寄存器相同，并且该addi指令满足数据转发条件，因此mul的rs1提前得到数据imm3。同理，div的rs2的物理寄存器和前3个周期的xori指令的目的寄存器的物理寄存器相同，并且该xori指令满足数据转发条件，因此div的rs2提前得到数据imm6。

表格6 3条指令与前N个周期前的指令数据转发

3条指令从fw_buffer中得到数据后，再分派到保留站。

在fw_buffer中比较物理寄存器，第1条指令mul的rs1转发数据的逻辑如下所示

fw_1_rs1＝({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[1].fw_phy_reg)&fw_buffer[0].[1].fw_val)}}&fw_buffer[0].[1].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[2].fw_phy_reg)&fw_buffer[0].[2].fw_val)}}&fw_buffer[0].[2].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[3].fw_phy_reg)&fw_buffer[0].[3].fw_val)}}&fw_buffer[0].[3].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[4].fw_phy_reg)&fw_buffer[0].[4].fw_val)}}&fw_buffer[0].[4].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[5].fw_phy_reg)&fw_buffer[0].[5].fw_val)}}&fw_buffer[0].[5].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[6].fw_phy_reg)&fw_buffer[0].[6].fw_val)}}&fw_buffer[0].[6].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[7].fw_phy_reg)&fw_buffer[0].[7].fw_val)}}&fw_buffer[0].[7].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[0].[8].fw_phy_reg)&fw_buffer[0].[8].fw_val)}}&fw_buffer[0].[8].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[1].fw_phy_reg)&fw_buffer[1].[1].fw_val)}}&fw_buffer[1].[1].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[2].fw_phy_reg)&fw_buffer[1].[2].fw_val)}}&fw_buffer[1].[2].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[3].fw_phy_reg)&fw_buffer[1].[3].fw_val)}}&fw_buffer[1].[3].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[4].fw_phy_reg)&fw_buffer[1].[4].fw_val)}}&fw_buffer[1].[4].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[5].fw_phy_reg)&fw_buffer[1].[5].fw_val)}}&fw_buffer[1].[5].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[6].fw_phy_reg)&fw_buffer[1].[6].fw_val)}}&fw_buffer[1].[6].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[7].fw_phy_reg)&fw_buffer[1].[7].fw_val)}}&fw_buffer[1].[7].fw_imm)|

({WIDTH{((mul.rs1_phy＝＝fw_buffer[1].[8].fw_phy_reg)&fw_buffer[1].[8].fw_val)}}&fw_buffer[1].[8].fw_imm)|

……

同理，mul的rs2也可以得到类似的表达式。

其他指令也可以得到类似的逻辑表达式，不再赘述。

在fw_buffer中比较物理寄存器，第1条指令mul的rs1转发数据有效的逻辑如下所示：

fw_1_rs1_val＝((mul.rs1_phy＝＝fw_buffer[0].[1].fw_phy_reg)&fw_buffer[0].[1].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[2].fw_phy_reg)&fw_buffer[0].[2].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[3].fw_phy_reg)&fw_buffer[0].[3].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[4].fw_phy_reg)&fw_buffer[0].[4].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[5].fw_phy_reg)&fw_buffer[0].[5].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[6].fw_phy_reg)&fw_buffer[0].[6].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[7].fw_phy_reg)&fw_buffer[0].[7].fw_val)|

((mul.rs1_phy＝＝fw_buffer[0].[8].fw_phy_reg)&fw_buffer[0].[8].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[1].fw_phy_reg)&fw_buffer[1].[1].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[2].fw_phy_reg)&fw_buffer[1].[2].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[3].fw_phy_reg)&fw_buffer[1].[3].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[4].fw_phy_reg)&fw_buffer[1].[4].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[5].fw_phy_reg)&fw_buffer[1].[5].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[6].fw_phy_reg)&fw_buffer[1].[6].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[7].fw_phy_reg)&fw_buffer[1].[7].fw_val)|

((mul.rs1_phy＝＝fw_buffer[1].[8].fw_phy_reg)&fw_buffer[1].[8].fw_val)|

……

同理，mul的rs2也可以得到类似的表达式。其他指令也可以得到类似的逻辑表达式，不再赘述。

实施例5

本实施例公开一种提前转发指令数据的通路设计系统，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器硬件执行提前转发指令数据的通路设计方法。

实施例6

本实施例公开一种可读介质，包括执行指令，当提前转发指令数据的通路设计系统的处理器执行所述执行指令时，所述提前转发指令数据的通路设计系统执行提前转发指令数据的通路设计方法。

综上所述本发明的方法能够提前快速的得到指令的依赖数据，使依赖指令提前满足发射的条件。加速指令从保留站中发射到执行单元，同时也加速了后续流水线中的指令。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种提前转发指令数据的通路设计方法，其特征在于，所述方法首先确定与数据相关的这类指令的数据；并在指令间提前转发条件检测及提前转发指令间的数据；最后提前转发若干周期前指令的数据，加速指令从保留站中发射到执行单元，同时加速后续流水线中的指令。

2.根据权利要求1所述的提前转发指令数据的通路设计方法，其特征在于，对这类指令的数据选择RISC-V指令集的部分整数指令类型并通过写CACHE之前、取指阶段、predecoder或者指令队列等阶段判断某条指令是否可以得到数据的过程。

3.根据权利要求2所述的提前转发指令数据的通路设计方法，其特征在于，所述RISC-V指令集中除了立即数外，x0是一个特殊的寄存器，该寄存器一直固定为0，对该寄存器写操作无效，因此，当指令中的出现x0的时候，判断该寄存器的值是0，相当于立即数为0的一种特殊形式。

4.根据权利要求1所述的提前转发指令数据的通路设计方法，其特征在于，这类指令先在指令之间进行数据转发，为了更大范围的支持提前转发数据，指令进行重命名，每条指令的目的寄存器分配一个物理寄存器，指令在dispatch阶段进入保留站的同时，同时进入一个缓存fw_buffer[N-1:0]，该fw_buffer保存最近N个周期满足提前转发数据指令的立即数和物理寄存器等控制信号。

5.根据权利要求4所述的提前转发指令数据的通路设计方法，其特征在于，所述fw_buffer的深度为N，宽度M，N表示当前周期的前N个周期指令状态，如果这个前N个周期中存在满足提前转发数据的指令时，通过比较物理寄存器号，转发数据到依赖指令，这N个周期的指令可能还在保留站中没有发射到执行单元，也可能在执行单元执行，或者在执行单元的转发数据通道。

6.根据权利要求5所述的提前转发指令数据的通路设计方法，其特征在于，经过重命名之后的指令，通过源寄存器的物理寄存器比较fw_buffer中指令的目的寄存器的物理寄存器，如果命中，则提前得到该源寄存器的数据。

7.根据权利要求1所述的提前转发指令数据的通路设计方法，其特征在于，所述设计方法使用指令的优化方法，包括如何得到立即数指令的方法，其根据不同指令集的特点进行类似的优化，适用于任何指令集。

8.根据权利要求7所述的提前转发指令数据的通路设计方法，其特征在于，所述指令的优化方法包括立即数在指令之间的转发思想及原理、数据转发提前到读物理寄存器之前，及指令在执行单元执行之前转发数据的方法、通过一个缓存，转发N个周期之前，依赖指令数据的方法和转发数据的判断逻辑及判断方法。

9.一种提前转发指令数据的通路设计系统，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器硬件执行如权利要求1至8中任一所述的提前转发指令数据的通路设计方法。

10.一种可读介质，包括执行指令，当提前转发指令数据的通路设计系统的处理器执行所述执行指令时，所述提前转发指令数据的通路设计系统执行如权利要求1至8中任一所述的提前转发指令数据的通路设计方法。