CN113778526A - 一种基于Cache的流水线的执行方法及装置 - Google Patents
一种基于Cache的流水线的执行方法及装置 Download PDFInfo
- Publication number
- CN113778526A CN113778526A CN202111336298.XA CN202111336298A CN113778526A CN 113778526 A CN113778526 A CN 113778526A CN 202111336298 A CN202111336298 A CN 202111336298A CN 113778526 A CN113778526 A CN 113778526A
- Authority
- CN
- China
- Prior art keywords
- data
- sram array
- hit signal
- pipeline stage
- cache
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004377 microelectronic Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3004—Arrangements for executing specific machine instructions to perform operations on memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3867—Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines
- G06F9/3869—Implementation aspects, e.g. pipeline latches; pipeline synchronisation and clocking
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本发明提供一种基于Cache的流水线的执行方法及装置,涉及微电子领域,Cache的Data SRAM阵列内部设置有数据选择器,该方法包括:执行第一流水级,接收访存指令,进行访问地址的计算;执行第二流水级,根据访问地址确定hit信号,将hit信号进行锁存;执行第三流水级,基于锁存的hit信号,通过数据选择器从Data SRAM阵列内部选出Data Block,并将命中路的Data Block送出Data SRAM阵列;执行第四流水级,基于Data Block对应的Block Offset,获取所需数据写回。采用本发明,可以实现减少大位宽长走线通道数量、减小面积、降低访问延时的技术效果。
Description
技术领域
本发明涉及微电子领域,尤其涉及一种基于Cache的流水线的执行方法及装置。
背景技术
在数据存储领域常用到Cache,Cache为高速缓冲存储器,位于处理器和主存储器DRAM之间,通常由SRAM组成。CPU的速度远高于内存,当CPU直接从内存中存取数据时要等待一定时间周期,而Cache则可以保存CPU刚用过或循环使用的一部分数据,如果CPU需要再次使用该部分数据时可从Cache中直接调用,这样就避免了重复从内存中存取数据,减少了CPU的等待时间,因而提高了系统的效率。Cache主要由两部分组成,Tag部分和Data部分。Data部分用于保存一片连续地址的数据,Tag部分用于存储这片连续数据的公共地址。一个Tag和它对应的所有数据组成一行称为一个Cache Line,而Cache Line中的数据部分称为数据块(Data Block)。如果一个数据可以存储在Cache中的多个地方,这些被同一个地址找到的多个Cache Line称为Cache Set。Cache的结构如下图1所示。
Cache的组成方式分为直接映射、组相连和全相连,直接相连和和全相连可以分别看作路数为1以及路数为Cache行数的特殊的组相连组成方式。组相连的Cache如图2所示。
处理器访问存储器的地址会被分为三部分,Tag、Index和Block Offset。其中,使用Index来从Cache中找到一组Cache Line,也即是一个Cache Set;使用Tag部分来和访问地址中的Tag进行比较,只有它们是相等的,才表明这个Cache Line就是想要的那个;在一个Cache Line中有很多个数据,通过存储器地址中的Block Offset部分可以找到真正想要的数据,它可以定位到每个字节。在Cache Line中还有一个有效位(valid),用来标记CacheLine是否保存着有效的数据,只有在之前被访问过的存储器地址,它的数据才会存在对应的Cache Line中,相应的有效位也会被置为1。
在进行数据处理时,流水线是现代处理器获得高性能的重要法宝,通过流水线可以降低处理器的周期时间,从而获得更快的执行效率。计算机流水线(Pipeline)技术是目前广泛应用于微处理芯片(CPU)中的一项关键技术。流水线是将CPU的一个任务,或者说指令,分为很多个步骤完成。这样从CPU整体来看,CPU在执行上条指令的同时,又在并行地取下条指令。从具体实现上,流水线实际上是增加了寄存器用来缓存数据的输出级。
目前,参考图3a,Cache流水线的工作流程通常是:
步骤1:执行第一个流水级,接收访存指令,进行指令访问地址的计算。
步骤2:执行第二个流水级,用访问地址的Index索引读出各路的Tag SRAM,并进行Tag比较,将Tag比较后得到的hit(命中)信号锁存下来。同时用访问地址的Index索引读取Data SRAM的内容(通常为多个Data Block大小,取决于Cache的组织形式,几路组相连),并将读取的多路Data SRAM的数据也锁存下来,输出到下一流水级。
步骤3:执行第三个流水级,用存储的hit信号,选择其中一个命中路hit_way的Data Block。
步骤4:执行第四个流水级,基于Block Offset在命中的那个Data Block中选择出最终需要的数据并写回。
“用存储的hit信号,选择其中一个命中路hit_way的Data Block”对应的选择器设置在Data SRAM外部,使得上述Index对应的多个Data Block由Data SRAM输出。Index可以查询到多个Data Block,每个Data Block有一个Cache Line的宽度,则Data SRAM需要输出多路信号。如图3b所示,以Index可以查询到8个Data Block,每个Data Block有512bit位宽为例,第二流水级Data SRAM需要输出8路512位的信号。对于微电子领域而言,为了实现上述处理,一共需要设置8*512个走线通道,可能存在以下问题:走线通道数量过多,面积过大,会导致访问时间延长。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于Cache的流水线的执行方法及装置。技术方案如下:
根据本发明的一方面,提供了一种基于Cache的流水线的执行方法,所述Cache至少包括Tag SRAM以及Data SRAM阵列,所述Data SRAM阵列内部设置有数据选择器,所述基于Cache的流水线的执行方法包括:
Step1:执行第一流水级,接收访存指令,进行所述访存指令对应的访问地址的计算;
Step2:执行第二流水级,根据所述访问地址确定hit信号,将hit信号进行锁存;
Step3:执行第三流水级,基于锁存的hit信号,通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block,并将命中路的Data Block送出Data SRAM阵列;
Step4:执行第四流水级,基于Data Block对应的Block Offset,获取所需数据写回。
根据本发明的另一方面,提供了一种基于Cache的流水线的执行装置,所述Cache至少包括Tag SRAM以及Data SRAM阵列,所述Data SRAM阵列内部设置有数据选择器,该装置包括:
第一流水级执行模块,用于接收访存指令,进行所述访存指令对应的访问地址的计算;
第二流水级执行模块,用于根据所述访问地址确定hit信号,将hit信号进行锁存;
第三流水级执行模块,用于基于锁存的hit信号,通过所述数据选择器从DataSRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block,并将命中路的Data Block送出Data SRAM阵列;
第四流水级执行模块,用于基于Data Block对应的Block Offset,获取所需数据写回。
根据本发明的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述基于Cache的流水线的执行方法中任一项所述的方法。
根据本发明的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述基于Cache的流水线的执行方法中任一项所述的方法。
本申请实施例中提供的一个或多个技术方案,可以实现减少大位宽长走线通道数量、减小面积,降低访问延时的技术效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本发明的更多细节、特征和优点被公开,在附图中:
图1示出了现有技术中Cache的结构示意图;
图2示出了现有技术中组相连的Cache结构示意图;
图3a示出了现有技术中流水线的工作流程图;
图3b示出了现有技术中流水线的结构示意图;
图4示出了根据本发明示例性实施例的基于Cache的流水线的结构示意图;
图5示出了根据本发明示例性实施例的基于Cache的流水线的执行方法的流程图;
图6示出了根据本发明示例性实施例的基于Cache的流水线的执行方法的流程图;
图7示出了根据本发明示例性实施例的基于Cache的流水线的执行装置的示意性框图;
图8示出了能够用于实现本发明的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本发明实施例提供了一种基于Cache的流水线的执行方法,Cache的结构如图4所示,Cache至少包括Tag SRAM以及Data SRAM阵列,Data SRAM阵列内部设置有数据选择器。如图5所示的流水线的执行方法的流程图,该方法的处理流程可以包括如下的步骤:
Step101:执行第一流水级,接收访存指令,进行访存指令对应的访问地址的计算;
Step102:执行第二流水级,根据访问地址确定hit信号,将hit信号进行锁存;
Step103:执行第三流水级,基于锁存的hit信号,通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block,并将命中路的DataBlock送出Data SRAM阵列;
Step104:执行第四流水级,基于Data Block对应的Block Offset,获取所需数据写回。
可选地,执行第二流水级,根据访问地址确定hit信号,包括:
执行第二流水级,根据访问地址中的Index索引访问Tag SRAM的内容,将Tag SRAM的内容与访问地址的Tag进行比较,得到hit信号。
可选地,执行第二流水级,还包括:
对访存指令对应的指令的访问地址进行锁存。
可选地,基于锁存的hit信号,通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block,包括:
基于的第二流水级锁存的hit信号及访问地址的Index,读出Data SRAM阵列的多路数据;
通过Data SRAM阵列内部的数据选择器,在多路数据中选出锁存的hit信号所指示的Data Block。
可选地,将hit信号进行锁存,包括:
将hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存;或
将hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存,第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求。
可选地,通过数据选择器从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示的Data Block,并将命中路的Data Block送出Data SRAM阵列,包括:
通过数据选择器,从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示一个命中路的Data Block;
将一个命中路的Data Block送出Data SRAM阵列。
本发明实施例中,将数据选择器设置在Data SRAM阵列内部,Data Block选择在Data SRAM阵列内部完成,本发明的Data SRAM阵列只需输出一个命中路的Data Block即可,不需要将多路的Data Block全部输出,减少了Data SRAM阵列输出的Data Block的路数,进而可以减少大位宽长走线通道数量,减小面积。而且通常Data SRAM阵列的面积大,距离远,地址送到Data SRAM阵列再读出数据时序上也会成为关键路径,本发明同时也解决了Data SRAM阵列送读地址的时序问题,提高主频。此外,命中信号比数据提前一拍输出,还可以通知接收访存指令写回结果的部件Cache是否命中的结果,使得访存指令写回结果的相关指令可以提前进行调度,提高指令执行效率。
本发明实施例提供了一种基于Cache的流水线的执行方法,Cache至少包括TagSRAM以及Data SRAM阵列,Data SRAM阵列内部设置有数据选择器。本发明实施例中的流水线分为四个流水级,一个流水级所调用的数据可以是上一流水级锁存的数据,而不能是其他流水级锁存的数据,也即是不能错拍调用数据。锁存部件可以是锁存器、寄存器或触发器,本实施例对此不作限定。
如图6所示的流水线的执行方法的流程图,该方法的处理流程可以包括如下的步骤:
Step201:在第一流水级中,接收访存指令。
其中,访存指令是将指令地址码指示的存储单元中的操作数取出的取数指令或写入的存数指令。
一种可行的实施方式中,执行第一流水级,接收流水线对应的CPU指令中的访存指令。
Step202:在第一流水级中,进行访存指令对应的访问地址的计算。
一种可行的实施方式中,接收到访存指令后,根据访存指令计算对应的访问地址,以便根据访问地址进行操作。在计算得到访问地址后,可以将访问地址送到第一流水级对应的锁存部件进行锁存,便于第二流水级中的指令调用。
根据访存指令计算对应的访问地址可以包括以下步骤:
Step2021:基于访存指令中携带的基地址寄存器的标识,从寄存器中获取对应的基地址;
Step2022:将基地址与偏移量相加,确定访存指令对应的访问地址。
其中,访问地址包括Tag、Index和Block Offset。
Step203:在第二流水级中,对访存指令对应的访问地址进行锁存。
一种可行的实施方式中,执行第二流水级时,可以从第一流水级对应的锁存部件中读取访问地址,并送到第二流水级对应的锁存部件进行锁存,便于第三流水级中的指令调用。
Step204:在第二流水级中,根据访问地址中的Index索引访问Tag SRAM的内容,将Tag SRAM的内容与访问地址的Tag进行比较,得到hit信号。
其中,Index为处理器访问存储器的地址中的一部分,可以用于从Cache中找到一组Cache Line,也即,找到一个Cache Set。hit信号用于指示Tag 命中,并且可以携带有命中路的信息,也即是命中哪一路。
一种可行的实施方式中,通过上述步骤确定访存指令对应的访问地址后,执行第二流水级,在第一流水级对应的锁存部件中获取访问地址,并获取其中携带的Index以及Tag,通过Index索引访问Tag SRAM的内容,进而读取到多个Cache Line,然后,通过比较器判断读取到的每个Cache Line的Tag是否与访问地址的Tag相同,也即是判断Tag是否命中,如果命中,即Cache Line的Tag与访问地址的Tag相同,则得到命中信号,也即是得到hit信号。如果Cache Line的Tag与访问地址的Tag不相同,也即是没有命中,则可以访问下级存储器,读取相应的数据;对于存数指令,也可以将存数指令携带的数据直接写到下级存储器中。
Step205:在第二流水级中,将hit信号进行锁存。
第二流水级对应的锁存部件有两种可行的设置方式,第一种设置方式是指设置在Data SRAM阵列内部,将此处的锁存部件称为第一锁存部件;第二种设置方式是指设置在Data SRAM阵列外部,将此处的锁存部件称为第二锁存部件。第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求,也即是说,在通过数据选择器进行选择之前,hit信号需要送达数据选择器。因此,第二锁存部件可以设置在Data SRAM阵列附近(如相邻的位置),而不能设置在距离过远的、不满足流水线的时序要求的位置上。
一种可行的实施方式中,对应于上述第一锁存部件,此时可以将hit信号送入DataSRAM阵列内部,由Data SRAM阵列内部的第一锁存部件对hit信号进行锁存。
在另一种可行的实施方式中,对应于上述第二锁存部件,此时可以将hit信号送入第二锁存部件进行锁存。
Step206:在第三流水级中,基于第二流水级锁存的访问地址的Index读出DataSRAM阵列的多路数据。
一种可行的实施方式中,执行第三流水级,基于第二流水级锁存的访问指令地址的Index,可以在Data SRAM阵列中读取到多个Cache Line,进而可以读取到每个CacheLine对应的Data Block。假设Index可以查询到8个Cache Line,则可以确定8个Cache Line对应的8个Data Block,每个Data Block有512bit,则8个Data Block占4096bit位宽。
Step207:在第三流水级中,基于第二流水级锁存的hit信号,通过Data SRAM阵列内部的数据选择器,在多路数据中选出锁存的hit信号所指示的Data Block,并将命中路的Data Block送出Data SRAM阵列。
一种可行的实施方式中,通过读取到多个Data Block后,需要选择其中一个DataBlock进行后续的数据写回,则可以通过Data SRAM阵列内部的数据选择器做hit选择,通过数据选择器在读取到的多个Data Block中,选出一个Data Block送出Data SRAM阵列。在送出Data Block后,可以将Data Block送到第三流水级对应的锁存部件进行锁存,便于第四流水级中的指令调用。
具体地,Step207的处理可以如下:通过数据选择器,从Data SRAM阵列内部读出的多路数据中选出锁存的hit信号所指示一个命中路的Data Block;将一个命中路的DataBlock送出Data SRAM阵列。由于数据选择器设置在Data SRAM阵列内部,可以在Data SRAM阵列中直接对Data Block进行hit选择,无需Data SRAM阵列输出每个Data Block后再进行选择,即Data SRAM阵列只需输出一个命中路Data Block即可,减少了Data RAM阵列输出的Data Block的路数,进而可以减少大位宽长走线通道数量,减小面积。
Step208:在第四流水级中,基于Data Block对应的Block Offset,获取所需数据写回。
其中,Block Offset可以定位到Data Block中的每个字节。
一种可行的实施方式中,执行第四流水级,获取第三流水级锁存的Data Block,通过Data Block对应的Block Offset,在Data Block中查找到所需数据的具体字节,并获取到所需数据,将所需数据写回。
本发明实施例中,将数据选择器设置在Data SRAM阵列内部,Data Block选择在Data SRAM阵列内部完成,因此本发明的Data SRAM阵列只需输出一个命中路的Data Block即可,不需要将多路的Data Block全部输出,减少了Data SRAM阵列输出的Data Block的路数,进而可以减少大位宽长走线通道数量,减小面积。而且通常Data SRAM阵列的面积大,距离远,地址送到Data SRAM阵列再读出数据时序上也会成为关键路径,本发明同时也解决了Data SRAM阵列送读地址的时序问题,提高主频。此外,命中信号比数据提前一拍输出,还可以通知接收访存指令写回结果的部件Cache是否命中的结果,使得访存指令写回结果的相关指令可以提前进行调度,提高指令执行效率。
本发明实施例提供了一种基于Cache的流水线的执行装置,该装置用于实现上述基于Cache的流水线的执行方法。如图7所示的基于Cache的流水线的执行装置的示意性框图,基于Cache的流水线的执行装置700包括第一流水级执行模块710、第二流水级执行模块720、第三流水级执行模块730、第四流水级执行模块740,其中:
第一流水级执行模块710,用于接收访存指令,进行所述访存指令对应的访问地址的计算;
第二流水级执行模块720,用于根据所述访问地址确定hit信号,将所述hit信号进行锁存;
第三流水级执行模块730,用于基于锁存的hit信号,通过所述数据选择器从DataSRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block;
第四流水级执行模块740,用于基于Data Block对应的Block Offset,获取所需数据写回。
可选地,所述第二流水级执行模块720,用于:
执行第二流水级,根据所述访问地址中的Index索引访问Tag SRAM的内容,将所述Tag SRAM的内容与所述访问地址的Tag进行比较,得到hit信号。
可选地,所述第二流水级执行模块720,还用于:
对所述访存指令对应的访问地址进行锁存。
可选地,所述第三流水级执行模块730,用于:
基于所述第二流水级锁存的访问地址的Index,读出Data SRAM阵列的多路数据;
基于所述第二流水级锁存的hit信号,通过Data SRAM阵列内部的数据选择器,在所述多路数据中选出所述锁存的hit信号所指示的Data Block。
可选地,所述第二流水级执行模块720,用于:
将所述hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存;或
将所述hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存,所述第二锁存部件与所述数据选择器之间的传输时间满足流水线的时序要求。
可选地,所述第三流水级执行模块730,用于:
通过所述数据选择器,从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示一个命中路的Data Block;
将所述一个命中路的Data Block送出Data SRAM阵列。
本发明实施例中,将数据选择器设置在Data SRAM阵列内部,Data Block选择在Data SRAM阵列内部完成,本发明的Data SRAM阵列只需输出一个命中路的Data Block即可,不需要将多路的Data Block全部输出,减少了Data SRAM阵列输出的Data Block路数,进而可以减少大位宽长走线通道数量,减小面积。而且通常Data SRAM阵列的面积大,距离远,地址送到Data SRAM阵列再读出数据时序上也会成为关键路径,同时也解决了DataSRAM阵列送读地址的时序问题,提高主频。此外,命中信号比数据提前一拍输出,还可以通知接收访存指令写回结果的部件Cache是否命中的结果,使得访存指令写回结果的相关指令可以提前进行调度,提高指令执行效率。
参考图8,现将描述可以作为本发明的服务器或客户端的电子设备800的结构框图,其是可以应用于本发明的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,数据中心服务器、笔记本电脑、瘦客户机、膝上型计算机、台式计算机、工作站、个人数字助理、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,基于Cache的流水线的执行方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于Cache的流水线的执行方法。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本发明使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (14)
1.一种基于Cache的流水线的执行方法,其特征在于,所述Cache至少包括Tag SRAM以及Data SRAM阵列,所述Data SRAM阵列内部设置有数据选择器,所述方法包括:
Step1:执行第一流水级,接收访存指令,进行所述访存指令对应的访问地址的计算;
Step2:执行第二流水级,根据所述访问地址确定hit信号,将所述hit信号进行锁存;
Step3:执行第三流水级,基于锁存的hit信号,通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block,并将命中路的DataBlock送出Data SRAM阵列;
Step4:执行第四流水级,基于Data Block对应的Block Offset,获取所需数据写回。
2.如权利要求1所述的基于Cache的流水线的执行方法,其特征在于,所述执行第二流水级,根据所述访问地址确定hit信号,包括:
执行第二流水级,根据所述访问地址中的Index索引访问Tag SRAM的内容,将所述TagSRAM的内容与所述访问地址的Tag进行比较,得到hit信号。
3.如权利要求1所述的基于Cache的流水线的执行方法,其特征在于,所述执行第二流水级,还包括:
对所述访存指令对应的访问地址进行锁存。
4.如权利要求3所述的基于Cache的流水线的执行方法,其特征在于,所述基于锁存的hit信号,通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block,包括:
基于所述第二流水级锁存的访问地址的Index,读出Data SRAM阵列的多路数据;
基于所述第二流水级锁存的hit信号,通过Data SRAM阵列内部的数据选择器,在所述多路数据中选出所述锁存的hit信号所指示的Data Block。
5.如权利要求1所述的基于Cache的流水线的执行方法,其特征在于,所述将所述hit信号进行锁存,包括:
将所述hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存;或
将所述hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存,所述第二锁存部件与Data SRAM阵列内部的数据选择器之间的传输时间满足流水线的时序要求。
6.如权利要求1所述的基于Cache的流水线的执行方法,其特征在于,所述通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的DataBlock,并将命中路的Data Block送出Data SRAM阵列,包括:
通过所述数据选择器,从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示一个命中路的Data Block;
将所述一个命中路的Data Block送出Data SRAM阵列。
7.一种基于Cache的流水线的执行装置,其特征在于,所述Cache至少包括Tag SRAM以及Data SRAM阵列,所述Data SRAM阵列内部设置有数据选择器,所述装置包括:
第一流水级执行模块,用于接收访存指令,进行所述访存指令对应的访问地址的计算;
第二流水级执行模块,用于根据所述访问地址确定hit信号,将所述hit信号进行锁存;
第三流水级执行模块,用于基于锁存的hit信号,通过所述数据选择器从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示的Data Block,并将命中路的Data Block送出Data SRAM阵列;
第四流水级执行模块,用于基于Data Block对应的Block Offset,获取所需数据写回。
8.如权利要求7所述的基于Cache的流水线的执行装置,其特征在于,所述第二流水级执行模块,用于:
执行第二流水级,根据所述访问地址中的Index索引访问Tag SRAM的内容,将所述TagSRAM的内容与所述访问地址的Tag进行比较,得到hit信号。
9.如权利要求7所述的基于Cache的流水线的执行装置,其特征在于,所述第二流水级执行模块,还用于:
对所述访存指令对应的访问地址进行锁存。
10.如权利要求9所述的基于Cache的流水线的执行装置,其特征在于,所述第三流水级执行模块,用于:
基于所述第二流水级锁存的访问地址的Index,读出Data SRAM阵列的多路数据;
基于所述第二流水级锁存的hit信号,通过Data SRAM阵列内部的数据选择器,在所述多路数据中选出所述锁存的hit信号所指示的Data Block。
11.如权利要求7所述的基于Cache的流水线的执行装置,其特征在于,所述第二流水级执行模块,用于:
将所述hit信号送到设置在Data SRAM阵列内部的第一锁存部件进行锁存;或
将所述hit信号送到设置在Data SRAM阵列外部的第二锁存部件进行锁存,所述第二锁存部件与所述数据选择器之间的传输时间满足流水线的时序要求。
12.如权利要求7所述的基于Cache的流水线的执行装置,其特征在于,所述第三流水级执行模块,用于:
通过所述数据选择器,从Data SRAM阵列内部读出的多路数据中选出所述锁存的hit信号所指示一个命中路的Data Block;
将所述一个命中路的Data Block送出Data SRAM阵列。
13.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336298.XA CN113778526B (zh) | 2021-11-12 | 2021-11-12 | 一种基于Cache的流水线的执行方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336298.XA CN113778526B (zh) | 2021-11-12 | 2021-11-12 | 一种基于Cache的流水线的执行方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113778526A true CN113778526A (zh) | 2021-12-10 |
CN113778526B CN113778526B (zh) | 2022-02-22 |
Family
ID=78957015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111336298.XA Active CN113778526B (zh) | 2021-11-12 | 2021-11-12 | 一种基于Cache的流水线的执行方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113778526B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503142A (zh) * | 2002-11-19 | 2004-06-09 | ��ʽ���������Ƽ� | 控制高速缓存的高速缓存系统和高速缓存控制装置 |
US20080046652A1 (en) * | 2006-08-18 | 2008-02-21 | Mips Technologies, Inc. | Processor having a micro tag array that reduces data cache access power, and applicatons thereof |
CN101523359A (zh) * | 2006-08-18 | 2009-09-02 | Mips技术公司 | 具有减小数据高速缓存访问功率的微标签阵列的处理器及其应用 |
CN102223418A (zh) * | 2011-06-27 | 2011-10-19 | 中国科学院计算技术研究所 | 基于动态流水线网络服务器的分布式Cache系统及其工作方法 |
US8117395B1 (en) * | 2008-06-25 | 2012-02-14 | Marvell Israel (Misl) Ltd. | Multi-stage pipeline for cache access |
CN102831078A (zh) * | 2012-08-03 | 2012-12-19 | 中国人民解放军国防科学技术大学 | 一种cache中提前返回访存数据的方法 |
CN103077132A (zh) * | 2013-01-07 | 2013-05-01 | 浪潮(北京)电子信息产业有限公司 | 一种高速缓存处理方法及协议处理器高速缓存控制单元 |
CN103593306A (zh) * | 2013-11-15 | 2014-02-19 | 浪潮电子信息产业股份有限公司 | 一种协议处理器Cache控制单元的设计方法 |
WO2017088458A1 (zh) * | 2015-11-24 | 2017-06-01 | 中国科学院计算技术研究所 | 流水级运算装置、数据处理方法及片上网络芯片 |
CN108022269A (zh) * | 2017-11-24 | 2018-05-11 | 中国航空工业集团公司西安航空计算技术研究所 | 一种GPU压缩纹理存储Cache的建模结构 |
CN108628638A (zh) * | 2017-03-16 | 2018-10-09 | 华为技术有限公司 | 数据处理方法及装置 |
CN108763106A (zh) * | 2018-05-31 | 2018-11-06 | 西安微电子技术研究所 | 一种基于交叉存储的Cache实现方法 |
CN108845832A (zh) * | 2018-05-29 | 2018-11-20 | 西安微电子技术研究所 | 一种提高处理器主频的流水线细分装置 |
CN110806899A (zh) * | 2019-11-01 | 2020-02-18 | 西安微电子技术研究所 | 一种基于指令扩展的流水线紧耦合加速器接口结构 |
-
2021
- 2021-11-12 CN CN202111336298.XA patent/CN113778526B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503142A (zh) * | 2002-11-19 | 2004-06-09 | ��ʽ���������Ƽ� | 控制高速缓存的高速缓存系统和高速缓存控制装置 |
US20080046652A1 (en) * | 2006-08-18 | 2008-02-21 | Mips Technologies, Inc. | Processor having a micro tag array that reduces data cache access power, and applicatons thereof |
CN101523359A (zh) * | 2006-08-18 | 2009-09-02 | Mips技术公司 | 具有减小数据高速缓存访问功率的微标签阵列的处理器及其应用 |
US8117395B1 (en) * | 2008-06-25 | 2012-02-14 | Marvell Israel (Misl) Ltd. | Multi-stage pipeline for cache access |
CN102223418A (zh) * | 2011-06-27 | 2011-10-19 | 中国科学院计算技术研究所 | 基于动态流水线网络服务器的分布式Cache系统及其工作方法 |
CN102831078A (zh) * | 2012-08-03 | 2012-12-19 | 中国人民解放军国防科学技术大学 | 一种cache中提前返回访存数据的方法 |
CN103077132A (zh) * | 2013-01-07 | 2013-05-01 | 浪潮(北京)电子信息产业有限公司 | 一种高速缓存处理方法及协议处理器高速缓存控制单元 |
CN103593306A (zh) * | 2013-11-15 | 2014-02-19 | 浪潮电子信息产业股份有限公司 | 一种协议处理器Cache控制单元的设计方法 |
WO2017088458A1 (zh) * | 2015-11-24 | 2017-06-01 | 中国科学院计算技术研究所 | 流水级运算装置、数据处理方法及片上网络芯片 |
CN108628638A (zh) * | 2017-03-16 | 2018-10-09 | 华为技术有限公司 | 数据处理方法及装置 |
CN108022269A (zh) * | 2017-11-24 | 2018-05-11 | 中国航空工业集团公司西安航空计算技术研究所 | 一种GPU压缩纹理存储Cache的建模结构 |
CN108845832A (zh) * | 2018-05-29 | 2018-11-20 | 西安微电子技术研究所 | 一种提高处理器主频的流水线细分装置 |
CN108763106A (zh) * | 2018-05-31 | 2018-11-06 | 西安微电子技术研究所 | 一种基于交叉存储的Cache实现方法 |
CN110806899A (zh) * | 2019-11-01 | 2020-02-18 | 西安微电子技术研究所 | 一种基于指令扩展的流水线紧耦合加速器接口结构 |
Also Published As
Publication number | Publication date |
---|---|
CN113778526B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110275841B (zh) | 访问请求处理方法、装置、计算机设备和存储介质 | |
US10649905B2 (en) | Method and apparatus for storing data | |
CN113900966B (zh) | 一种基于Cache的访存方法及装置 | |
CN105677580A (zh) | 访问缓存的方法和装置 | |
US20200073665A1 (en) | Method for Accessing Memory of Multi-Core System, Related Apparatus, System, and Storage Medium | |
CN109308191B (zh) | 分支预测方法及装置 | |
US9063860B2 (en) | Method and system for optimizing prefetching of cache memory lines | |
CN113641596B (zh) | 缓存管理方法、缓存管理装置、处理器 | |
CN113934655B (zh) | 解决高速缓冲存储器地址二义性问题的方法和装置 | |
WO2021258512A1 (zh) | 数据的聚合处理装置、方法和存储介质 | |
CN113656330B (zh) | 确定访问地址的方法和装置 | |
CN111737564A (zh) | 一种信息查询方法、装置、设备及介质 | |
CN114925001A (zh) | 处理器、页表预取方法、电子设备 | |
CN114924794B (zh) | 一种存储部件的发射队列的地址存储、调度方法和装置 | |
CN116467235B (zh) | 一种基于dma的数据处理方法、装置、电子设备及介质 | |
CN113778526B (zh) | 一种基于Cache的流水线的执行方法及装置 | |
CN117132446A (zh) | Gpu的数据访问处理方法、装置及存储介质 | |
CN113656331A (zh) | 基于高低位的确定访问地址的方法和装置 | |
US6968430B1 (en) | Circuit and method for improving instruction fetch time from a cache memory device | |
CN110889053B (zh) | 一种接口数据的缓存方法、装置及计算设备 | |
US20090198923A1 (en) | Apparatus for predicting memory access and method thereof | |
WO2021061269A1 (en) | Storage control apparatus, processing apparatus, computer system, and storage control method | |
CN113760465A (zh) | 一种事务执行方法、装置、服务器、设备和存储介质 | |
CN114168522B (zh) | 一种数据传输方法、装置及传输部件 | |
CN116991593B (zh) | 操作指令处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |