CN109308190B

CN109308190B - 基于3d堆栈内存架构的共享行缓冲系统及共享行缓冲器

Info

Publication number: CN109308190B
Application number: CN201810745561.2A
Authority: CN
Inventors: 轩伟; 叶笑春; 范东睿; 张�浩; 王达
Original assignee: Beijing Zhongke Ruixin Technology Group Co ltd
Current assignee: Beijing Zhongke Ruixin Technology Group Co ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2023-03-14
Anticipated expiration: 2038-07-09
Also published as: CN109308190A

Abstract

本发明提供了一种基于3D堆栈内存架构的共享行缓冲方法、系统及共享行缓冲器，该共享行缓冲器，所述共享行缓冲器位于每个所述Rank的最底层，且靠近数据和地址总线位置；每个所述Rank分配两个所述共享行缓冲器。本发明的技术方案，节约了制造Row Buffer的原材料，并且明显提高了Row Buffer的命中率，提高了从内存存取数据的效率，同时缓解了“存储墙”问题。

Description

基于3D堆栈内存架构的共享行缓冲系统及共享行缓冲器

技术领域

本发明基于3D堆栈内存架构，涉及与主存Bank相关的行缓冲设计领域，具体涉及针对Cache未命中的情况下，对主存行处理操作的优化方法和系统。

背景技术

由于受制作工艺的影响，处理器的处理速度远大于内存。且迄今为止的计算机系统架构都是基于冯·诺依曼的“存储程序原理”，即将程序像数据一样存储到计算机内部的存储器中。因而，处理器和内存的处理速度“两极化”严重阻碍了计算机的整体性能，此也被称为“内存墙”问题。

在冯·诺依曼的“存储程序原理”的计算机体系架构下，我们只能最大限度的缓解“内存墙”。而其中内存的性能起到决定性作用，可用“带宽”和“等待时间”来度量内存的性能。3D堆栈内存架构因其特性能缓解“内存墙”问题，其每层由典型的2D工艺制作的Die(晶圆)组成，层与层之间应用Through Silicon Vias(TSVs，贯穿硅通孔)技术进行连接。与传统的2D存储架构不同，该3D堆栈内存将同一个Rank分布到不同的层间，进一步提高了并行性。但相关的3D堆栈内存架构仍采用了传统方式的Row Buffer(行缓冲)，即每个Bank分配一个Row Buffer，用于缓冲读出的数据。虽然，这种策略对于2D的平面存储架构非常适用，是由于其将Bank和Row Buffer封装成独立的处理单元，有利于流水线操作。然而，由于3D堆栈内存架构的空间性，传统方式的Row Buffer对3D堆栈内存架构却不再适用。

发明内容

本发明的目的即是解决上述现有技术的3D堆栈内存存储架构中的Row Buffer问题，并针对性地提出了一种新颖的Row Buffer的运行方法及其系统。本发明的总体思路是：在3D堆栈内存中重新设计一种Shared Row Buffer，它以Rank为单位，也即每个Rank共享该Shared Row Buffer。具体的实现方法是在3D-Stacked内存空间的底部增加Shared RowBuffer。每个Shared Row Buffer的行数量为Rank数量的两倍；Shared Row Buffer中的每行为Bank行、Tag(1bit)、Bank号(2byte)、及4byte行号的总和；其中，1bit记录0或1值，表示行缓存里面的旧值或新值；2byte记录位于Rank中的Bank序号；4byte用以记录其在Bank中对应的行号。

在本发明中，设计的基于3D堆栈内存存储架构的Shared Row Buffer可归纳为三大创新点：其一，设计了一种基于Rank共享的、新颖的Shared Row Buffer；该Shared RowBuffer可以充分利用3D堆栈内存存储架构的空间性及每个Rank分布于各层的特性，将原先每个Bank分配一个Row Buffer，减少为现在的每个Rank分配两个Shared Row Buffer。这样可以减少Row Buffer的物理存储空间消耗。其二，Shared Row Buffer中的每行增加了标志位Tag；当Tag为0时，表示该行数据相对较旧，当Tag为1时，表示该行数据相对较新；因此，当遇到Shared Row Buffer未命中的情况时，可根据该标志位Tag来确定将被覆盖的行。所以，由于数据访问的空间局部性原理，我们将保存最新的行数据于Shared Row Buffer中，进而可以大大增加Shared Row Buffer的命中率。其三，Shared Row Buffer中的Bank序号、行号可以快速的将其行缓存数据与处理器请求数据进行比较，提高检索效率。

具体而言，本发明提供的具体技术方案如下：

一方面，本发明提供了一种基于3D堆栈内存架构的共享行缓冲方法，所述3D堆栈内存设置共享行缓冲器(Shared Row Buffer)，所述共享行缓冲器位于每个Rank的最底层，所述共享行缓冲器包括一Tag位，所述Tag位用于标识所述行缓冲器数据是否更新；所述方法包括：

步骤1、当第一次从3D堆栈内存中取数据时，同时访问所述共享行缓冲器和Rank，将对应Rank中Bank的行取出至所述共享行缓冲器中，将所述共享缓冲器中的所述行的Tag置1，并记录其他相应数据；

步骤2、当第二次从所述3D堆栈内存中取数据时，若所述共享行缓冲器未命中，则将Rank中Bank行取出至所述共享行缓冲器中Tag为0的行中，将该行Tag置1，并记录其他相应数据；同时将另一行Tag置0；

步骤3、当Cache未命中时，同时对所述共享行缓冲器和Bank进行访问，若发现所述共享行缓冲器中某一行命中，则停止对Bank的访问，并将命中的该行的Tag置1，另一行Tag置0；

步骤4、当处理后的数据存储到Bank中时，若所述共享行缓冲器包含所述处理后的数据的旧值，则对其进行更新；若所述共享行缓冲器中不包含所述处理后的数据的旧值，则执行所述步骤1和或步骤2；

优选地，所述步骤1、步骤2中的所述其他相应数据包括：

Bank Num位、Row Num位和行缓冲器数据；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

优选地，所述共享行缓冲器位于每个所述Rank的最底层且靠近数据和地址总线位置。

优选地，每个所述共享行缓冲器的行数量为Rank数量的两倍。

优选地，每个所述共享行缓冲器中的每行，为Bank行、Tag、Bank号及4byte行号的总和。

优选地，所述共享行缓冲器包含两行。

优选地，在实际存储应用中，重复上述步骤1至步骤4，直至指令循环结束。

另一方面，本发明还提供了一种基于3D堆栈内存架构的共享行缓冲系统，在3D堆栈内存中，增加共享行缓冲器(Shared Row Buffer)；

所述3D堆栈内存的每层由DRAM单元组成，每个Rank分布在各个层中，通过数据和地址总线进行通信；

所述共享行缓冲器位于每个所述Rank的最底层；每个所述Rank分配两个所述共享行缓冲器。

优选地，所述共享行缓冲器包括：Tag位、Bank Num位、Row Num位和行缓冲器数据；

所述Tag位用于标识所述行缓冲器数据是否更新；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

优选地，每个所述共享行缓冲器的行数量为Rank数量的两倍。

优选地，所述共享行缓冲器包含两行。

又一个方面，本发明还提供了一种基于3D堆栈内存架构的共享行缓冲器(SharedRow Buffer)，所述共享行缓冲器位于每个所述Rank的最底层，且靠近数据和地址总线位置；

每个所述Rank分配两个所述共享行缓冲器。

所述Tag位用于标识所述行缓冲器数据是否更新；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

优选地，每个所述共享行缓冲器的行数量为Rank数量的两倍。

优选地，所述共享行缓冲器包含两行。

综上所述，本发明与现有技术相比具有以下优势：

一、节约制造Row Buffer的原材料。因为，一般情况下，每个Rank多达8个Bank，现有技术采用每个Bank配置一个Row Buffer的设计方案，而本发明的Shared Row Buffer相当于每个Rank配置两个Row Buffer，故可以减少其原材料。

二、提高了Row Buffer的命中率，提高了从内存存取数据的效率。由于，SharedRow Buffer可同时存储两个bank的行数据，根据局部性原理，可以在一定程度上提升命中率，进而提高存取效率。

三、缓解“存储墙”问题。由上述分析可知，影响“内存墙”的关键因素在于内存的性能，而本发明可降低内存的访问延迟。因此，“存储墙”问题可在整体上得到适当的缓解。

附图说明

图1为本发明实施例的3D堆栈内存总体结构体；

图2为本发明实施例的Shared Row Buffer的结构体示意图；

图3为本发明实施例的Shared Row Buffer的执行过程图。

具体实施例

下面将结合本发明实施例中的图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在一个具体的实施例中，该共享行缓冲系统，可以通过如下的方式实现，如图1中所示，在3D堆栈内存中重新设计一种Shared Row Buffer(即共享行缓冲器)，它以Rank为单位，也即每个Rank共享该Shared Row Buffer。具体的实现方法是在3D-Stacked内存空间的底部增加Shared Row Buffer。每个Shared Row Buffer的行数量为Rank数量的两倍；Shared Row Buffer中的每行为Bank行、Tag(1bit)、Bank号(2byte)、及4byte行号的总和；其中，1bit记录0或1值，表示行缓存里面的旧值或新值；2byte记录位于Rank中的Bank序号；4byte用以记录其在Bank中对应的行号。

该系统的具体结构可以通过以下方式来实现：

在3D堆栈内存中，增加共享行缓冲器(Shared Row Buffer)；

所述Tag位用于标识所述行缓冲器数据是否更新；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

优选地，每个所述共享行缓冲器的行数量为Rank数量的两倍。

优选地，所述共享行缓冲器包含两行。

需要指出的是，该共享行缓冲系统，可以执行如实施例3、4中所述的方法，也可以包括如实施例2中的共享行缓冲器。

实施例2

图1是在3D堆栈内存基础上添加发明的Shared Row Buffer的总体结构图。该图的每层由DRAM Cells组成；每个Rank分布在各个层中，通过数据和地址总线进行通信，可以大大减少延迟；Shared Row Buffer位于每个Rank的最底层且靠近数据和地址总线位置。图2是对图1中的Shared Row Buffer做进一步的细分。如该图2所示，Shared Row Buffer可分为四个部分。Tag占1bit，其值为0时，表示Data of Row Buffer为旧值；其值为1时，表示Data of Row Buffer为新值。因此，当Shared Row Buffer未命中时，可采用LRU算法把Shared RowBuffer中近期最少使用的行替换出去。即从Rank中的Bank取出的行数据将覆盖旧值所在行，记录其在Bank中的行号，并对该行的Tag置1，对另一行的Tag置0。Bank Num占1byte记录Rank中Bank序号。Row Num表示Bank的行号。Data of Row Buffer则记录着某一Bank中的某行数据内容。

在一个具体的实施方式中，本发明的基于3D堆栈内存架构的共享行缓冲器，可以通过如下方式实现：

所述共享行缓冲器位于每个所述Rank的最底层，且靠近数据和地址总线位置；

每个所述Rank分配两个所述共享行缓冲器。

所述Tag位用于标识所述行缓冲器数据是否更新；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

优选地，每个所述共享行缓冲器的行数量为Rank数量的两倍。

优选地，所述共享行缓冲器包含两行。

实施例3

由于每个Rank对应一个Shared Row Buffer，每次Cache未命中后，根据指令地址会访问对应的Rank和Shared Row Buffer。当同时出现多个Cache未命中情况时，可细分为多个单次Cache未命中情况，因此，它们的工作原理相同。下面以一次Cache未命中情况进行说明。在一个具体的实施例中，本发明的执行原理可用以下步骤来描述：

步骤1Shared Row Buffer未命中

电脑刚开机上电后，所有Shared Row Buffer两行中的Tag均为0，Bank Num、RowNum和Data of Row Buffer都初始化为0。显而易见，至少有两次一定是未命中的。由于Cache未命中，当第一次从3D-Stacked DRAM中取数据时，会同时访问Shared Row Buffer和Rank，因为此时Shared Row Buffer的两行均为空，故需将对应的Rank中Bank的行取出至Shared Row Buffer中(此时可为任意一行)，然后，将该行的Tag置1，Bank Num、Row Num和Data of Row Buffer置为相应值。当第二次从3D-Stacked DRAM中取数据时，可分为两种情况。情况一为此时Shared Row Buffer未命中，将会把Rank中Bank的行取出至Shared RowBuffer中Tag为0的行中，将该行的Tag置1，Bank Num、Row Num和Data of Row Buffer置为相应值；同时，将另一行的Tag置0。情况二为此时Shared Row Buffer命中，将直接取该命中行，并将该行的Tag置1；同时，将另一行的Tag置0。

步骤2Shared Row Buffer命中

当Cache未命中，同时对Shared Row Buffer和Bank进行访问，发现Shared RowBuffer中行命中，会停止对Bank的访问，并将该行Tag置1，另一行Tag置0。

步骤3Shared Row Buffer行更新

当处理器将处理后的数据存储到Bank中时，若Shared Row Buffer包含有该数据的旧值，则对其进行实时更新；若Shared Row Buffer不含该数据，则其操作同Shared RowBuffer未命中情况的处理类似。

在整个指令执行的过程中，可以循环执行上述步骤1至步骤3，直至指令执行完成。

实施例4

下面举例详细说明其操作过程。假设计算A[1024]+B[1024]，且Bank每行能容纳1024个该类型的数据；但由于Cache的容量限制，从内存读取数据的过程中会出现未命中情况。100表示Shared Row Buffer，101和102均表示Shared Row Buffer的一行数据，103和107表示Tag，104和108表示Bank Num，105和109表示Bank中的Row Num，106和110表示Bank中的某行数据，111表示Bank。下面针对Shared Row Buffer的处理过程进行归纳说明：

步骤1：

刚开始时，101和102均为初始化状态。当取A[0]值时，会同时访问100和111；由于100为空值，故其不会命中；当在111找到A[0]所在行后，将该行缓存到106(或110)，并将103、104和105分别置相应的值，此时103中Tag值为1。并将107置0。最后，通过列解码器选择106中的请求数据。

步骤2：

当取B[0]值时，也会同时访问100和111。由假设可知，此时的100仍未命中。由于此时103中Tag为1，107中Tag为0，根据LRU算法，会将111寻找B[0]所在行缓存到110，并将108和109分别置为对应的Bank号和行号，将107中Tag置为1，同时将103中Tag置为0。最后，通过列解码器选择110中的请求数据。

步骤3：

当取A[1]值时，仍会同时访问100和111；但此时，可以在106中找到所需数据，可以绕过111而直接访问106中数据，这样可以大大降低访存延迟。最后，通过列解码器选择106中的请求数据。

步骤4：

当取B[1]值时，仍会同时访问100和111；但此时，可以在110中找到所需数据，可以绕过111而直接访问110中数据，这样可以大大降低访存延迟。最后，通过列解码器选择110中的请求数据。

步骤5：

重复以上步骤，直至程序结束。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于3D堆栈内存架构的共享行缓冲方法，其特征在于，所述3D堆栈内存设置共享行缓冲器，所述共享行缓冲器位于每个Rank的最底层，每个所述Rank分配两个所述共享行缓冲器，所述共享行缓冲器包含两行，所述共享行缓冲器包括一Tag位，所述Tag位用于标识所述行缓冲器数据是否更新；所述方法包括：

步骤1、当第一次从3D堆栈内存中取数据时，同时访问所述共享行缓冲器和Rank，将对应Rank中Bank的行取出至所述共享行缓冲器中，将所述共享行缓冲器中的所述行的Tag位置1，并记录其他相应数据；

步骤2、当第二次从所述3D堆栈内存中取数据时，若所述共享行缓冲器未命中，则将Rank中Bank的行取出至所述共享行缓冲器中Tag位为0的行中，将该行Tag位置1，并记录其他相应数据；同时将另一行Tag位置0；

步骤3、当Cache未命中时，同时对所述共享行缓冲器和Bank进行访问，若发现所述共享行缓冲器中某一行命中，则停止对Bank的访问，并将命中的该行的Tag位置1，另一行Tag位置0；

步骤4、当处理后的数据存储到Bank中时，若所述共享行缓冲器包含所述处理后的数据的旧值，则对其进行更新；若所述共享行缓冲器中不包含所述处理后的数据的旧值，则执行所述步骤1和/或步骤2。

2.根据权利要求1所述的方法，其特征在于，所述步骤1、步骤2中的所述其他相应数据包括：

Bank Num位、Row Num位和行缓冲器数据；

所述Bank Num位用于记录Rank中Bank的序号；

所述Row Num位用于记录Bank的行号；

所述行缓冲器数据用于记录Bank中的某一行的数据内容。

3.根据权利要求1所述的方法，其特征在于，所述共享行缓冲器位于每个所述Rank的最底层且靠近数据和地址总线位置。

4.根据权利要求1所述的方法，其特征在于，每个所述共享行缓冲器的行数量为Rank数量的两倍。

5.根据权利要求2所述的方法，其特征在于，每个所述共享行缓冲器中的每行，为Bank行、Tag、Bank号及4byte行号的总和。

6.根据权利要求1所述的方法，其特征在于，所述共享行缓冲器包含两行。

7.一种基于3D堆栈内存架构的共享行缓冲系统，其特征在于，在3D堆栈内存中，增加共享行缓冲器；

所述共享行缓冲器位于每个所述Rank的最底层；每个所述Rank分配两个所述共享行缓冲器；

所述系统执行如权利要求1-6任一所述的基于3D堆栈内存架构的共享行缓冲方法。