CN113778526A

CN113778526A - 一种基于Cache的流水线的执行方法及装置

Info

Publication number: CN113778526A
Application number: CN202111336298.XA
Authority: CN
Inventors: 郇丹丹; 赵继业; 李祖松
Original assignee: Beijing Micro Core Technology Co ltd
Current assignee: Beijing Micro Core Technology Co ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2021-12-10
Anticipated expiration: 2041-11-12
Also published as: CN113778526B

Abstract

本发明提供一种基于Cache的流水线的执行方法及装置，涉及微电子领域，Cache的Data SRAM阵列内部设置有数据选择器，该方法包括：执行第一流水级，接收访存指令，进行访问地址的计算；执行第二流水级，根据访问地址确定hit信号，将hit信号进行锁存；执行第三流水级，基于锁存的hit信号，通过数据选择器从Data SRAM阵列内部选出Data Block，并将命中路的Data Block送出Data SRAM阵列；执行第四流水级，基于Data Block对应的Block Offset，获取所需数据写回。采用本发明，可以实现减少大位宽长走线通道数量、减小面积、降低访问延时的技术效果。

Description

一种基于Cache的流水线的执行方法及装置

技术领域

本发明涉及微电子领域，尤其涉及一种基于Cache的流水线的执行方法及装置。

背景技术

在数据存储领域常用到Cache，Cache为高速缓冲存储器，位于处理器和主存储器DRAM之间，通常由SRAM组成。CPU的速度远高于内存，当CPU直接从内存中存取数据时要等待一定时间周期，而Cache则可以保存CPU刚用过或循环使用的一部分数据，如果CPU需要再次使用该部分数据时可从Cache中直接调用，这样就避免了重复从内存中存取数据，减少了CPU的等待时间，因而提高了系统的效率。Cache主要由两部分组成，Tag部分和Data部分。Data部分用于保存一片连续地址的数据，Tag部分用于存储这片连续数据的公共地址。一个Tag和它对应的所有数据组成一行称为一个Cache Line，而Cache Line中的数据部分称为数据块（Data Block）。如果一个数据可以存储在Cache中的多个地方，这些被同一个地址找到的多个Cache Line称为Cache Set。Cache的结构如下图1所示。

Cache的组成方式分为直接映射、组相连和全相连，直接相连和和全相连可以分别看作路数为1以及路数为Cache行数的特殊的组相连组成方式。组相连的Cache如图2所示。

处理器访问存储器的地址会被分为三部分，Tag、Index和Block Offset。其中，使用Index来从Cache中找到一组Cache Line，也即是一个Cache Set；使用Tag部分来和访问地址中的Tag进行比较，只有它们是相等的，才表明这个Cache Line就是想要的那个；在一个Cache Line中有很多个数据，通过存储器地址中的Block Offset部分可以找到真正想要的数据，它可以定位到每个字节。在Cache Line中还有一个有效位（valid），用来标记CacheLine是否保存着有效的数据，只有在之前被访问过的存储器地址，它的数据才会存在对应的Cache Line中，相应的有效位也会被置为1。

在进行数据处理时，流水线是现代处理器获得高性能的重要法宝，通过流水线可以降低处理器的周期时间，从而获得更快的执行效率。计算机流水线（Pipeline）技术是目前广泛应用于微处理芯片（CPU）中的一项关键技术。流水线是将CPU的一个任务，或者说指令，分为很多个步骤完成。这样从CPU整体来看，CPU在执行上条指令的同时，又在并行地取下条指令。从具体实现上，流水线实际上是增加了寄存器用来缓存数据的输出级。

目前，参考图3a，Cache流水线的工作流程通常是：

步骤1：执行第一个流水级，接收访存指令，进行指令访问地址的计算。

步骤2：执行第二个流水级，用访问地址的Index索引读出各路的Tag SRAM，并进行Tag比较，将Tag比较后得到的hit（命中）信号锁存下来。同时用访问地址的Index索引读取Data SRAM的内容（通常为多个Data Block大小，取决于Cache的组织形式，几路组相连），并将读取的多路Data SRAM的数据也锁存下来，输出到下一流水级。

步骤3：执行第三个流水级，用存储的hit信号，选择其中一个命中路hit_way的Data Block。

步骤4：执行第四个流水级，基于Block Offset在命中的那个Data Block中选择出最终需要的数据并写回。

“用存储的hit信号，选择其中一个命中路hit_way的Data Block”对应的选择器设置在Data SRAM外部，使得上述Index对应的多个Data Block由Data SRAM输出。Index可以查询到多个Data Block，每个Data Block有一个Cache Line的宽度，则Data SRAM需要输出多路信号。如图3b所示，以Index可以查询到8个Data Block，每个Data Block有512bit位宽为例，第二流水级Data SRAM需要输出8路512位的信号。对于微电子领域而言，为了实现上述处理，一共需要设置8*512个走线通道，可能存在以下问题：走线通道数量过多，面积过大，会导致访问时间延长。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种基于Cache的流水线的执行方法及装置。技术方案如下：

根据本发明的一方面，提供了一种基于Cache的流水线的执行方法，所述Cache至少包括Tag SRAM以及Data SRAM阵列，所述Data SRAM阵列内部设置有数据选择器，所述基于Cache的流水线的执行方法包括：

Step1：执行第一流水级，接收访存指令，进行所述访存指令对应的访问地址的计算；

Step2：执行第二流水级，根据所述访问地址确定hit信号，将hit信号进行锁存；

Step3：执行第三流水级，基于锁存的hit信号，通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block，并将命中路的Data Block送出Data SRAM阵列；

Step4：执行第四流水级，基于Data Block对应的Block Offset，获取所需数据写回。

根据本发明的另一方面，提供了一种基于Cache的流水线的执行装置，所述Cache至少包括Tag SRAM以及Data SRAM阵列，所述Data SRAM阵列内部设置有数据选择器，该装置包括：

第一流水级执行模块，用于接收访存指令，进行所述访存指令对应的访问地址的计算；

第二流水级执行模块，用于根据所述访问地址确定hit信号，将hit信号进行锁存；

第三流水级执行模块，用于基于锁存的hit信号，通过所述数据选择器从DataSRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block，并将命中路的Data Block送出Data SRAM阵列；

第四流水级执行模块，用于基于Data Block对应的Block Offset，获取所需数据写回。

根据本发明的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述基于Cache的流水线的执行方法中任一项所述的方法。

根据本发明的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述基于Cache的流水线的执行方法中任一项所述的方法。

本申请实施例中提供的一个或多个技术方案，可以实现减少大位宽长走线通道数量、减小面积，降低访问延时的技术效果。

附图说明

在下面结合附图对于示例性实施例的描述中，本发明的更多细节、特征和优点被公开，在附图中：

图1示出了现有技术中Cache的结构示意图；

图2示出了现有技术中组相连的Cache结构示意图；

图3a示出了现有技术中流水线的工作流程图；

图3b示出了现有技术中流水线的结构示意图；

图4示出了根据本发明示例性实施例的基于Cache的流水线的结构示意图；

图5示出了根据本发明示例性实施例的基于Cache的流水线的执行方法的流程图；

图6示出了根据本发明示例性实施例的基于Cache的流水线的执行方法的流程图；

图7示出了根据本发明示例性实施例的基于Cache的流水线的执行装置的示意性框图；

图8示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本发明实施例提供了一种基于Cache的流水线的执行方法，Cache的结构如图4所示，Cache至少包括Tag SRAM以及Data SRAM阵列，Data SRAM阵列内部设置有数据选择器。如图5所示的流水线的执行方法的流程图，该方法的处理流程可以包括如下的步骤：

Step101：执行第一流水级，接收访存指令，进行访存指令对应的访问地址的计算；

Step102：执行第二流水级，根据访问地址确定hit信号，将hit信号进行锁存；

Step103：执行第三流水级，基于锁存的hit信号，通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block，并将命中路的DataBlock送出Data SRAM阵列；

Step104：执行第四流水级，基于Data Block对应的Block Offset，获取所需数据写回。

可选地，执行第二流水级，根据访问地址确定hit信号，包括：

执行第二流水级，根据访问地址中的Index索引访问Tag SRAM的内容，将Tag SRAM的内容与访问地址的Tag进行比较，得到hit信号。

可选地，执行第二流水级，还包括：

对访存指令对应的指令的访问地址进行锁存。

可选地，基于锁存的hit信号，通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block，包括：

基于的第二流水级锁存的hit信号及访问地址的Index，读出Data SRAM阵列的多路数据；

通过Data SRAM阵列内部的数据选择器，在多路数据中选出锁存的hit信号所指示的Data Block。

可选地，将hit信号进行锁存，包括：

将hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存；或

将hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存，第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求。

可选地，通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block，并将命中路的Data Block送出Data SRAM阵列，包括：

通过数据选择器，从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示一个命中路的Data Block；

将一个命中路的Data Block送出Data SRAM阵列。

本发明实施例中，将数据选择器设置在Data SRAM阵列内部，Data Block选择在Data SRAM阵列内部完成，本发明的Data SRAM阵列只需输出一个命中路的Data Block即可，不需要将多路的Data Block全部输出，减少了Data SRAM阵列输出的Data Block的路数，进而可以减少大位宽长走线通道数量，减小面积。而且通常Data SRAM阵列的面积大，距离远，地址送到Data SRAM阵列再读出数据时序上也会成为关键路径，本发明同时也解决了Data SRAM阵列送读地址的时序问题，提高主频。此外，命中信号比数据提前一拍输出，还可以通知接收访存指令写回结果的部件Cache是否命中的结果，使得访存指令写回结果的相关指令可以提前进行调度，提高指令执行效率。

本发明实施例提供了一种基于Cache的流水线的执行方法，Cache至少包括TagSRAM以及Data SRAM阵列，Data SRAM阵列内部设置有数据选择器。本发明实施例中的流水线分为四个流水级，一个流水级所调用的数据可以是上一流水级锁存的数据，而不能是其他流水级锁存的数据，也即是不能错拍调用数据。锁存部件可以是锁存器、寄存器或触发器，本实施例对此不作限定。

如图6所示的流水线的执行方法的流程图，该方法的处理流程可以包括如下的步骤：

Step201：在第一流水级中，接收访存指令。

其中，访存指令是将指令地址码指示的存储单元中的操作数取出的取数指令或写入的存数指令。

一种可行的实施方式中，执行第一流水级，接收流水线对应的CPU指令中的访存指令。

Step202：在第一流水级中，进行访存指令对应的访问地址的计算。

一种可行的实施方式中，接收到访存指令后，根据访存指令计算对应的访问地址，以便根据访问地址进行操作。在计算得到访问地址后，可以将访问地址送到第一流水级对应的锁存部件进行锁存，便于第二流水级中的指令调用。

根据访存指令计算对应的访问地址可以包括以下步骤：

Step2021：基于访存指令中携带的基地址寄存器的标识，从寄存器中获取对应的基地址；

Step2022：将基地址与偏移量相加，确定访存指令对应的访问地址。

其中，访问地址包括Tag、Index和Block Offset。

Step203：在第二流水级中，对访存指令对应的访问地址进行锁存。

一种可行的实施方式中，执行第二流水级时，可以从第一流水级对应的锁存部件中读取访问地址，并送到第二流水级对应的锁存部件进行锁存，便于第三流水级中的指令调用。

Step204：在第二流水级中，根据访问地址中的Index索引访问Tag SRAM的内容，将Tag SRAM的内容与访问地址的Tag进行比较，得到hit信号。

其中，Index为处理器访问存储器的地址中的一部分，可以用于从Cache中找到一组Cache Line，也即，找到一个Cache Set。hit信号用于指示Tag 命中，并且可以携带有命中路的信息，也即是命中哪一路。

一种可行的实施方式中，通过上述步骤确定访存指令对应的访问地址后，执行第二流水级，在第一流水级对应的锁存部件中获取访问地址，并获取其中携带的Index以及Tag，通过Index索引访问Tag SRAM的内容，进而读取到多个Cache Line，然后，通过比较器判断读取到的每个Cache Line的Tag是否与访问地址的Tag相同，也即是判断Tag是否命中，如果命中，即Cache Line的Tag与访问地址的Tag相同，则得到命中信号，也即是得到hit信号。如果Cache Line的Tag与访问地址的Tag不相同，也即是没有命中，则可以访问下级存储器，读取相应的数据；对于存数指令，也可以将存数指令携带的数据直接写到下级存储器中。

Step205：在第二流水级中，将hit信号进行锁存。

第二流水级对应的锁存部件有两种可行的设置方式，第一种设置方式是指设置在Data SRAM阵列内部，将此处的锁存部件称为第一锁存部件；第二种设置方式是指设置在Data SRAM阵列外部，将此处的锁存部件称为第二锁存部件。第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求，也即是说，在通过数据选择器进行选择之前，hit信号需要送达数据选择器。因此，第二锁存部件可以设置在Data SRAM阵列附近（如相邻的位置），而不能设置在距离过远的、不满足流水线的时序要求的位置上。

一种可行的实施方式中，对应于上述第一锁存部件，此时可以将hit信号送入DataSRAM阵列内部，由Data SRAM阵列内部的第一锁存部件对hit信号进行锁存。

在另一种可行的实施方式中，对应于上述第二锁存部件，此时可以将hit信号送入第二锁存部件进行锁存。

Step206：在第三流水级中，基于第二流水级锁存的访问地址的Index读出DataSRAM阵列的多路数据。

一种可行的实施方式中，执行第三流水级，基于第二流水级锁存的访问指令地址的Index，可以在Data SRAM阵列中读取到多个Cache Line，进而可以读取到每个CacheLine对应的Data Block。假设Index可以查询到8个Cache Line，则可以确定8个Cache Line对应的8个Data Block，每个Data Block有512bit，则8个Data Block占4096bit位宽。

Step207：在第三流水级中，基于第二流水级锁存的hit信号，通过Data SRAM阵列内部的数据选择器，在多路数据中选出锁存的hit信号所指示的Data Block，并将命中路的Data Block送出Data SRAM阵列。

一种可行的实施方式中，通过读取到多个Data Block后，需要选择其中一个DataBlock进行后续的数据写回，则可以通过Data SRAM阵列内部的数据选择器做hit选择，通过数据选择器在读取到的多个Data Block中，选出一个Data Block送出Data SRAM阵列。在送出Data Block后，可以将Data Block送到第三流水级对应的锁存部件进行锁存，便于第四流水级中的指令调用。

具体地，Step207的处理可以如下：通过数据选择器，从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示一个命中路的Data Block；将一个命中路的DataBlock送出Data SRAM阵列。由于数据选择器设置在Data SRAM阵列内部，可以在Data SRAM阵列中直接对Data Block进行hit选择，无需Data SRAM阵列输出每个Data Block后再进行选择，即Data SRAM阵列只需输出一个命中路Data Block即可，减少了Data RAM阵列输出的Data Block的路数，进而可以减少大位宽长走线通道数量，减小面积。

Step208：在第四流水级中，基于Data Block对应的Block Offset，获取所需数据写回。

其中，Block Offset可以定位到Data Block中的每个字节。

一种可行的实施方式中，执行第四流水级，获取第三流水级锁存的Data Block，通过Data Block对应的Block Offset，在Data Block中查找到所需数据的具体字节，并获取到所需数据，将所需数据写回。

本发明实施例中，将数据选择器设置在Data SRAM阵列内部，Data Block选择在Data SRAM阵列内部完成，因此本发明的Data SRAM阵列只需输出一个命中路的Data Block即可，不需要将多路的Data Block全部输出，减少了Data SRAM阵列输出的Data Block的路数，进而可以减少大位宽长走线通道数量，减小面积。而且通常Data SRAM阵列的面积大，距离远，地址送到Data SRAM阵列再读出数据时序上也会成为关键路径，本发明同时也解决了Data SRAM阵列送读地址的时序问题，提高主频。此外，命中信号比数据提前一拍输出，还可以通知接收访存指令写回结果的部件Cache是否命中的结果，使得访存指令写回结果的相关指令可以提前进行调度，提高指令执行效率。

本发明实施例提供了一种基于Cache的流水线的执行装置，该装置用于实现上述基于Cache的流水线的执行方法。如图7所示的基于Cache的流水线的执行装置的示意性框图，基于Cache的流水线的执行装置700包括第一流水级执行模块710、第二流水级执行模块720、第三流水级执行模块730、第四流水级执行模块740，其中：

第一流水级执行模块710，用于接收访存指令，进行所述访存指令对应的访问地址的计算；

第二流水级执行模块720，用于根据所述访问地址确定hit信号，将所述hit信号进行锁存；

第三流水级执行模块730，用于基于锁存的hit信号，通过所述数据选择器从DataSRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block；

第四流水级执行模块740，用于基于Data Block对应的Block Offset，获取所需数据写回。

可选地，所述第二流水级执行模块720，用于：

执行第二流水级，根据所述访问地址中的Index索引访问Tag SRAM的内容，将所述Tag SRAM的内容与所述访问地址的Tag进行比较，得到hit信号。

可选地，所述第二流水级执行模块720，还用于：

对所述访存指令对应的访问地址进行锁存。

可选地，所述第三流水级执行模块730，用于：

基于所述第二流水级锁存的访问地址的Index，读出Data SRAM阵列的多路数据；

基于所述第二流水级锁存的hit信号，通过Data SRAM阵列内部的数据选择器，在所述多路数据中选出所述锁存的hit信号所指示的Data Block。

可选地，所述第二流水级执行模块720，用于：

将所述hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存；或

将所述hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存，所述第二锁存部件与所述数据选择器之间的传输时间满足流水线的时序要求。

可选地，所述第三流水级执行模块730，用于：

通过所述数据选择器，从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示一个命中路的Data Block；

将所述一个命中路的Data Block送出Data SRAM阵列。

本发明实施例中，将数据选择器设置在Data SRAM阵列内部，Data Block选择在Data SRAM阵列内部完成，本发明的Data SRAM阵列只需输出一个命中路的Data Block即可，不需要将多路的Data Block全部输出，减少了Data SRAM阵列输出的Data Block路数，进而可以减少大位宽长走线通道数量，减小面积。而且通常Data SRAM阵列的面积大，距离远，地址送到Data SRAM阵列再读出数据时序上也会成为关键路径，同时也解决了DataSRAM阵列送读地址的时序问题，提高主频。此外，命中信号比数据提前一拍输出，还可以通知接收访存指令写回结果的部件Cache是否命中的结果，使得访存指令写回结果的相关指令可以提前进行调度，提高指令执行效率。

参考图8，现将描述可以作为本发明的服务器或客户端的电子设备800的结构框图，其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，数据中心服务器、笔记本电脑、瘦客户机、膝上型计算机、台式计算机、工作站、个人数字助理、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，基于Cache的流水线的执行方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行基于Cache的流水线的执行方法。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本发明使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种基于Cache的流水线的执行方法，其特征在于，所述Cache至少包括Tag SRAM以及Data SRAM阵列，所述Data SRAM阵列内部设置有数据选择器，所述方法包括：

Step2：执行第二流水级，根据所述访问地址确定hit信号，将所述hit信号进行锁存；

Step3：执行第三流水级，基于锁存的hit信号，通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block，并将命中路的DataBlock送出Data SRAM阵列；

2.如权利要求1所述的基于Cache的流水线的执行方法，其特征在于，所述执行第二流水级，根据所述访问地址确定hit信号，包括：

执行第二流水级，根据所述访问地址中的Index索引访问Tag SRAM的内容，将所述TagSRAM的内容与所述访问地址的Tag进行比较，得到hit信号。

3.如权利要求1所述的基于Cache的流水线的执行方法，其特征在于，所述执行第二流水级，还包括：

对所述访存指令对应的访问地址进行锁存。

4.如权利要求3所述的基于Cache的流水线的执行方法，其特征在于，所述基于锁存的hit信号，通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block，包括：

5.如权利要求1所述的基于Cache的流水线的执行方法，其特征在于，所述将所述hit信号进行锁存，包括：

将所述hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存，所述第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求。

6.如权利要求1所述的基于Cache的流水线的执行方法，其特征在于，所述通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的DataBlock，并将命中路的Data Block送出Data SRAM阵列，包括：

将所述一个命中路的Data Block送出Data SRAM阵列。

7.一种基于Cache的流水线的执行装置，其特征在于，所述Cache至少包括Tag SRAM以及Data SRAM阵列，所述Data SRAM阵列内部设置有数据选择器，所述装置包括：

第二流水级执行模块，用于根据所述访问地址确定hit信号，将所述hit信号进行锁存；

第三流水级执行模块，用于基于锁存的hit信号，通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block，并将命中路的Data Block送出Data SRAM阵列；

8.如权利要求7所述的基于Cache的流水线的执行装置，其特征在于，所述第二流水级执行模块，用于：

9.如权利要求7所述的基于Cache的流水线的执行装置，其特征在于，所述第二流水级执行模块，还用于：

对所述访存指令对应的访问地址进行锁存。

10.如权利要求9所述的基于Cache的流水线的执行装置，其特征在于，所述第三流水级执行模块，用于：

11.如权利要求7所述的基于Cache的流水线的执行装置，其特征在于，所述第二流水级执行模块，用于：

12.如权利要求7所述的基于Cache的流水线的执行装置，其特征在于，所述第三流水级执行模块，用于：

将所述一个命中路的Data Block送出Data SRAM阵列。

13.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。