CN108932206B

CN108932206B - 一种三维多核处理器混合缓存架构及方法

Info

Publication number: CN108932206B
Application number: CN201810487815.5A
Authority: CN
Inventors: 葛芬; 吴宁; 周芳; 张颖; 卢昊; 王磊; 贲睿; 刘鹏; 李向莉
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2023-07-21
Anticipated expiration: 2038-05-21
Also published as: CN108932206A

Abstract

本发明公开了一种三维多核处理器混合缓存架构及方法，混合缓存架构包括：一层处理器层和若干层缓存层，其中在处理器层中每个节点包含一个处理器核和私有的一级指令Cache和数据Cache；所述各缓存层上的每个节点为二级共享Cache Bank，且每个Cache Bank采用SRAM或STT‑RAM；所述各层上处理器核之间或Cache Bank之间通过路由互连，且各层之间通过垂直方向的TSV相连。本发明将SRAM和STT‑RAM两种存储介质用于Cache中，保证了处理器核对缓存Cache中间Bank频繁访问的低延时，降低了整体Cache的静态功耗，实现数据在不同Bank之间的迁移，降低多核处理器数据迁移抖动现象，解决混合缓存数据迁移失效的问题。

Description

一种三维多核处理器混合缓存架构及方法

技术领域

本发明涉及一种三维多核处理器混合缓存架构及方法，属于多核处理器技术领域。

背景技术

随着多核处理器规模的增加，对片上缓存容量的需求越来越大。三维集成电路（Three-Dimensional Integrated Circuit，3D IC）技术可以将多个缓存层堆叠在一起，从而增加整个芯片内Cache的容量。

对于大容量的Cache，常采用非一致性缓存架构（Non-Uniform CacheArchitecture，NUCA）。NUCA允许Cache Bank具有不同的访问延时，D-NUCA就是NUCA中的一种。D-NUCA中对Cache line设置命中计数器，当命中数达到阈值时，就将该Cache line中数据向靠近处理器的Bank中迁移，以缩短处理器下一次访问这个数据的延时。

在现有缓存架构中，Cache往往利用静态随机存取存储器（Static Random AccessMemory，SRAM）。SRAM具有低读写延时，但同时存在单元面积大，存储密度低，静态功率大的问题。因此如果堆叠多层的SRAM Cache又势必会造成成本和功耗的增大。

新型非易失性存储器（Non-volatile Memory，NVM）具有非易失性、近零静态功耗和高存储密度等优良特性，其为片上缓存设计提供了新的思路。自旋转移力矩存储器（SpinTransfer Torque Random Access Memory，STT-RAM）是最具代表性的新型非易失性存储器之一，但其也存在写延时大、写功耗大等不足。因而，构建基于STT-RAM和SRAM的混合缓存架构是一种更为合理的多核处理器缓存设计方法。

通常，多核处理器具有多层次存储器阶层体系。多核处理器中的每个处理器核都具有专用的高级缓存阶层体系（第1级缓存（L1 Cache））并且也可以共享低级缓存（第2级缓存（L2 Cache））。低级缓存对读写延时的要求要低于高级缓存，并且低级缓存对缓存容量的大小要求更高。因此混合缓存架构适用于低级缓存的设计。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种三维多核处理器混合缓存架构及方法，解决传统多核处理器缓存的静态功耗大，数据迁移易出现抖动现象，且混合缓存数据迁移失效的问题。本发明将SRAM和STT-RAM两种存储介质用于Cache中，基于D-NUCA混合缓存数据迁移策略，实现数据在不同Bank之间的迁移。

本发明具体采用以下技术方案解决上述技术问题：

一种三维多核处理器混合缓存架构，包括：一层处理器层和若干层缓存层，其中在处理器层中每个节点包含一个处理器核和私有的一级指令Cache和数据Cache；所述各缓存层上的每个节点为二级共享Cache Bank，且每个Cache Bank采用SRAM或STT-RAM；所述各层上处理器核之间或Cache Bank之间通过路由互连，且各层之间通过垂直方向的TSV相连。

进一步地，作为本发明的一种优选技术方案：所述各缓存层中每个Cache Bank根据平均访问距离大小选取采用SRAM或STT-RAM。

进一步地，作为本发明的一种优选技术方案：所述各缓存层由4×4的节点组成。

进一步地，作为本发明的一种优选技术方案：所述缓存层的数量为两层。

本发明还提出一种基于所述三维多核处理器混合缓存架构的缓存方法，包括以下步骤：

步骤1、对各缓存层上各节点的Cache line设置命中计数器记录命中数，当处理器层每个节点中处理器核访问Cache line的命中数达到阈值时，则达到迁移要求；

步骤2、将处理器层中的节点作为源节点，将各缓存层中的节点作为目的节点，Cache line的数据根据目的节点和源节点在X或Y或Z方向坐标是否相同判断是否进行迁移：在X或Y方向坐标相同时，判断Z方向的坐标是否为最小，当判断为最小时禁止数据迁移，否则允许和执行本次Z方向的数据迁移；在X或Y方向坐标不相同时，判断各方向上是否出现数据由SRAM向STT-RAM迁移，当各方向出现数据由SRAM向STT-RAM迁移时，则禁止数据进行迁移；当各自方向未出现数据由SRAM向STT-RAM迁移时，则本次允许X或Y方向的数据迁移；

步骤3、判断本次允许X或Y的数据迁移是否和上一次的数据迁移方向相同，如果相同则执行本次允许的数据迁移，如果不同则拒绝执行本次允许的数据迁移且改变数据迁移信息，并将命中计数清零。

进一步地，作为本发明的一种优选技术方案：所述步骤2中还包括设置数据在X或Y或Z方向迁移的优先级。

进一步地，作为本发明的一种优选技术方案：所述步骤2中设置数据迁移优先级为：X方向>Y方向>Z方向。

进一步地，作为本发明的一种优选技术方案：所述步骤3还包括对缓存层各节点的Cache line增加X、Y两位标记位，及改变数据迁移信息包括修改缓存层各节点的Cacheline中X、Y两位标记位数值。

进一步地，作为本发明的一种优选技术方案：所述X、Y两位标记位的数值均为0或1。

本发明采用上述技术方案，能产生如下技术效果：

本发明将SRAM和STT-RAM两种存储介质用于Cache中，采用混合缓存球形布局，所述的混合缓存的结构是多层堆叠的三维低级缓存；将SRAM布局在各缓存层的中心位置保证了处理器核对缓存Cache中间Bank频繁访问的低延时，将STT-RAM布局在各缓存层的外围位置降低了整体Cache的静态功耗。

并且，本发明的数据在不同Bank之间的迁移，采用基于D-NUCA混合缓存数据迁移策略，基于D-NUCA混合缓存数据迁移策略规定数据在不同方向迁移的优先级，限定SRAM和STT-RAM的Cache Bank的数据迁移，保留数据迁移信息；允许STT-RAM Cache Bank中的数据向STT-RAM或SRAM的Cache Bank迁移；允许SRAM Cache Bank中的数据向SRAM的Cache Bank迁移；但禁止SRAM Cache Bank中的数据向STT-RAM的Cache Bank迁移。以及，为了将数据前一次的迁移信息保留在Cache line中，对每个Cache line增加了2 bit的标记位。因此本发明与现有技术相比，在保证大容量Cache的前提下，本发明有利于减小缓存的静态功耗，降低多核处理器数据迁移抖动现象，解决混合缓存数据迁移失效的问题。

附图说明

图1是本发明实施例的三维多核处理器的混合缓存架构示意图。

图2是本发明中采用两层缓存层的结构示意图。

图3是本发明中三维多核处理器的混合缓存方法的流程图。

图4是本发明中Cache line中增加标记位的结构示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明提出了一种三维多核处理器混合缓存架构，该架构主要包括：一层处理器层和若干层缓存层，其中在处理器层中每个节点包含一个处理器核和私有的一级指令Cache和数据Cache；所述各缓存层上的每个节点为二级共享Cache Bank，且每个Cache Bank采用SRAM或STT-RAM，使得缓存层采用混合缓存球形布局；所述各层上处理器核之间或Cache Bank之间通过路由互连，且各层之间通过垂直方向的TSV相连。

本发明给出的一个实施例中，缓存层的数量采用两层，其结构如图2所示，显示了两层4×4节点的缓存层的三维多核处理器结构，但本发明的缓存层不限于该数量和节点个数，其他数量同样适用。并且，所述各缓存层中每个Cache Bank根据平均访问距离大小选取采用SRAM或STT-RAM，其是基于混合缓存球形布局原理，形成如图2所示混合缓存球形布局，即在同一平面内不同位置的Cache Bank其平均访问距离不同，位于中部位置Cache Bank的平均访问距离最短，因此中部位置Cache Bank作为数据迁移目的节点的可能性最高，被访问的频率也最高。所示图2显示了两层4×4的缓存层的三维多核处理器结构中各个CacheBank的平均访问距离，选取其中平均访问距离最小的16个Cache Bank采用SRAM，平均访问距离较大的16个Cache Bank采用STT-RAM。

在三维结构中平均访问距离最小的Cache Bank空间分布上趋于半球形。混合缓存球形布局的就是以各层缓存层的中心为圆心，距离圆心点近的Bank优先采用SRAM作为Cache，距离圆心点远的Bank可以用STT-RAM作为Cache。如果出现同级Cache有多层缓存层堆叠的情况，应当以靠近处理器层的缓存层的圆半径为最大，其他缓存层的圆半径依次递减。

本发明还提出一种基于上述三维多核处理器混合缓存架构的缓存方法，该方法的流程图如图3所示，具体包括以下步骤：

步骤2、将处理器层中的节点作为源节点，将各缓存层中的节点作为目的节点，Cache line的数据根据目的节点和源节点在X或Y或Z方向坐标是否相同判断是否进行迁移：在X或Y方向坐标相同时，判断Z方向的坐标是否为最小，当判断为最小时禁止数据迁移，否则允许和执行本次Z方向的数据迁移；及在X或Y方向坐标不相同时，判断各方向上是否出现数据由SRAM向STT-RAM迁移，当各方向出现数据由SRAM向STT-RAM迁移时，则禁止数据进行迁移；当各自方向未出现数据由SRAM向STT-RAM迁移时，则允许X或Y方向的数据迁移；本实施例给出的一种判断的过程，具体如下：

步骤21、设置数据在X或Y或Z方向迁移的优先级为：X方向>Y方向>Z方向。其中，数据在Z方向即垂直方向上的迁移优先级最低是因为远离处理器层的缓存层中的数据都可以通过垂直方向上的数据迁移降低访问距离。如果Z方向上的数据迁移优先级设高，会造成大量的数据都迁移到底部靠近处理器层的缓存层中。这样不仅大大增加了底部缓存层数据访问的压力，而且也降低了堆叠多层缓存的收益。

步骤22、首先，各节点的Cache line的数据首先根据目的节点和源节点X方向坐标是否相同判断是否在X方向进行迁移，当其X方向坐标相同时，才会根据Y方向的坐标判断是否需要在Y方向进行迁移即执行步骤23，否则X方向坐标不相同时，还需要进一步判断是否是由SRAM迁移到STT-RAM的情况，对于X方向上出现SRAM迁移到STT-RAM的情况则禁止数据由SRAM向STT-RAM的迁移，即不对数据进行迁移且执行步骤23，否则X方向上未出现SRAM迁移到STT-RAM的情况时，执行步骤3。

本发明的方法中限定数据迁移规则，如允许STT-RAM Cache Bank中的数据向STT-RAM或SRAM的Cache Bank迁移；允许SRAM Cache Bank中的数据向SRAM的Cache Bank迁移；但禁止SRAM Cache Bank中的数据向STT-RAM的Cache Bank迁移。

其中，基于D-NUCA混合缓存数据迁移过程禁止数据由SRAM向STT-RAM的迁移，是因为SRAM访问延时要优于STT-RAM，因此将SRAM中的数据迁移到STT-RAM中，不仅不会缩短访问延时的还会降低系统性能，从而出现迁移失效的问题。特别是基于本发明提出的混合缓存的球形布局，STT-RAM都位于缓存层的边缘位置，在这种布局中数据由位于芯片中部的SRAM迁移到位于芯片边缘的STT-RAM中，还会增加了其它处理器核对这部分数据的访问距离。

步骤23、根据目的节点和源节点Y方向的坐标判断是否在Y方向进行迁移，当其Y方向坐标相同时执行步骤24，否则Y方向坐标不相同时判断Y方向上出现SRAM迁移到STT-RAM的情况，当出现该情况时禁止数据由SRAM向STT-RAM的迁移，即不对数据进行迁移且执行步骤24，否则执行步骤3；

步骤24、根据目的节点和源节点Z方向的坐标判断是否进行迁移，当Z方向坐标最小即该目标节点是最靠近处理器层中源节点的节点时，不进行迁移并结束判断过程，否则允许并执行本次数据迁移，将数据从远离处理器层的缓存层的目标节点往底部靠近处理器层的缓存层的节点上迁移，使得处理器核访问缓存数据的距离变近，性能提高；

步骤3、当数据迁移满足前两条要求时，对于本次允许的数据从源节点向目的节点在X或Y方向迁移，判断本次允许的数据迁移是否和上一次的数据迁移方向相同，如果相同则执行本次允许的数据迁移，如果不同则拒绝执行本次允许的数据迁移且改变数据迁移信息，并将命中计数清零。这是因为在多核系统中会出现多核处理器核对同一个数据进行共享。如果数据在两个相反方向上进行数据迁移的话，不会减低整体的数据访问延时，这种情况被称为多核处理器数据迁移的抖动问题。

为了将数据前一次的迁移信息保留在Cache line中，本发明对缓存层上各节点的Cache line增加了2 bit的标记位，并在判断数据迁移方向不同时改变数据迁移信息的Cache line中X、Y两位标记位数值。如图4所示，每个Cache line除了tag存储空间和data存储空间外，还增加了X、Y两位标记位。其中X标记位用于记录Cache line在W和E方向上的数据迁移，Y标记位用于记录Cache line在N和S方向上的数据迁移。 X为“0”表示数据没有发生过W、E方向上的迁移或者在原有的Cache Bank中进行过向W方向的数据迁移，X为“1”表示数据在原有的Cache Bank中进行过向E方向的数据迁移。Y为“0”表示数据没有发生过N、S方向上迁移或者在原有的Cache Bank中进行过向N方向的数据迁移，Y为“1”表示数据在原有的Cache Bank中进行过向S方向的数据迁移。

在本发明的混合缓存数据迁移过程中，当数据接收到平面内的迁移请求时，会判断上一次数据迁移的状态。如果本次迁移请求的方向和上一次数据迁移的方向相同，则直接执行对数据进行迁移；如果本次迁移请求的方向和上一次数据迁移的方向不同，则修改相应的标记位，但拒绝执行本次的数据迁移。本发明以W、E方向上发生数据迁移请求为例。如果Cache line接收到了来自向W方向上的数据迁移请求时，会判断标记位X此时的状态。如果此时X的值为“0”，则直接允许数据的迁移；如果此时X的值为“1”，则将X的值改写为“0”，但不进行数据的迁移。

综上，本发明将SRAM和STT-RAM两种存储介质用于Cache中，实现多层的缓存层的堆叠，将SRAM布局在各缓存层的中心位置保证了处理器核对缓存Cache中间Bank频繁访问的低延时，将STT-RAM布局在各缓存层的外围位置降低了整体Cache的静态功耗。并且提出的基于D-NUCA混合缓存数据迁移过程，实现数据在不同Bank之间的迁移，可在保证大容量Cache的前提下，有利于减小缓存的静态功耗，降低多核处理器数据迁移抖动现象，解决混合缓存数据迁移失效的问题。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种三维多核处理器混合缓存架构，其特征在于，包括：一层处理器层和若干层缓存层，其中在处理器层中每个节点包含一个处理器核和私有的一级指令Cache和数据Cache；所述各缓存层上的每个节点为二级共享Cache Bank，且每个Cache Bank根据平均访问距离大小选取采用SRAM或STT-RAM；所述各层上处理器核之间或Cache Bank之间通过路由互连，且各层之间通过垂直方向的TSV相连。

2.根据权利要求1所述三维多核处理器混合缓存架构，其特征在于：所述各缓存层由4×4的节点组成。

3.根据权利要求1所述三维多核处理器混合缓存架构，其特征在于：所述缓存层的数量为两层。

4.一种基于权利要求1至3任一项所述三维多核处理器混合缓存架构的缓存方法，其特征在于，包括以下步骤：

步骤2、将处理器层中的节点作为源节点，将各缓存层中的节点作为目的节点，Cacheline的数据根据目的节点和源节点在X或Y或Z方向坐标是否相同判断是否进行迁移：在X或Y方向坐标相同时，判断Z方向的坐标是否为最小，当判断为最小时禁止数据迁移，否则允许和执行本次Z方向的数据迁移；在X或Y方向坐标不相同时，判断各方向上是否出现数据由SRAM向STT-RAM迁移，当各方向出现数据由SRAM向STT-RAM迁移时，则禁止数据进行迁移；当各自方向未出现数据由SRAM向STT-RAM迁移时，则本次允许X或Y方向的数据迁移；

步骤3、判断本次允许的X或Y方向数据迁移是否和上一次的数据迁移方向相同，如果相同则执行本次允许的数据迁移，如果不同则拒绝执行本次允许的数据迁移且改变数据迁移信息，并将命中计数清零。

5.根据权利要求4的基于所述三维多核处理器混合缓存架构的缓存方法，其特征在于，所述步骤2中还包括设置数据在X或Y或Z方向迁移的优先级。

6.根据权利要求5的基于所述三维多核处理器混合缓存架构的缓存方法，其特征在于，所述步骤2中设置数据迁移优先级为：X方向>Y方向>Z方向。

7.根据权利要求4的基于所述三维多核处理器混合缓存架构的缓存方法，其特征在于，所述步骤3还包括对缓存层各节点的Cache line增加X、Y两位标记位，及改变数据迁移信息包括修改缓存层各节点的Cache line中X、Y两位标记位数值。

8.根据权利要求7的基于所述三维多核处理器混合缓存架构的缓存方法，其特征在于，所述X、Y两位标记位的数值均为0或1。